Beruflich Dokumente
Kultur Dokumente
Mein Verständnis
T.S., Bahnhofsviertel Stand 11.8.2018
Einführung .................................................................................... 5
Verwendete Abkürzungen......................................................................................................................................... 6
Kapitel 0 ....................................................................................... 7
Grundlegendes .............................................................................................................................................................. 7
Ergebnisraum (Sample Space) ........................................................................................................................................ 7
Ereignisraum (Event Space) ............................................................................................................................................. 8
Einschluß-Ausschluß Regel (inclusion-exclusion principle).........................................................................11
Kapitel 1 ..................................................................................... 16
Den Zufall als Zufallsvariable repräsentieren........................................................................................................16
Indikatorvariablen ............................................................................................................................................................... 26
Kurze Wiederholung: Wahrscheinlichkeitsräume und die Maßtheorie ..................................................27
Wahrscheinlichkeiten als Verhältnisse .....................................................................................................................34
Das Geburtstagsproblem als Stellvertreter für Wahrscheinlichkeit von Kollisionen ....................... 45
Die Exponentialapproximation des Geburtstagsproblems .............................................................................49
Kapitel 2 ..................................................................................... 53
Permutationen als das Legostein Modell .................................................................................................................53
Eigenschaften von Permutationen .............................................................................................................................. 68
Der Binomialkoeffizient als das T-Shirt Modell ....................................................................................................79
Rein zufällige Stichprobe ohne Zurücklegen ..........................................................................................................90
Besetzungen als das Apfelmodell (Stars & Bars) .................................................................................................92
Besetzungsbeispiele von total geordneten Mengen ........................................................................................ 100
Kapitel 3 .................................................................................... 105
Einführung in Diskrete Verteilungen ................................................................................................................ 105
Was ist eine Verteilung ................................................................................................................................................... 105
Gewichtsfunktionen als Maß für diskrete Zufallsvariablen ........................................................................ 106
Verteilungsfunktionen diskreter Zufallsvariablen ........................................................................................... 110
Der Erwartungswert .............................................................................................................................................. 116
Herleitung über das Gesetz der großen Zahlen ................................................................................................. 116
Eigenschaften des Erwartungswertes .................................................................................................................... 121
Der Erwartungswert aus diskreter Sicht .............................................................................................................. 132
Das Wunder der Indikatorvariablen ....................................................................................................................... 137
Law of the unconscious statistician (l.o.t.u.s.) im diskreten Fall .............................................................. 142
Das Stichprobenmittel .................................................................................................................................................... 146
Die Varianz................................................................................................................................................................ 149
Eigenschaften der Varianz ............................................................................................................................................ 151
Der Verschiebungssatz ................................................................................................................................................... 154
Die Kovarianz....................................................................................................................................................................... 157
Eigenschaften von Kovarianzen ................................................................................................................................. 158
Die Standardabweichung .............................................................................................................................................. 169
Das Wurzel-n-Gesetz........................................................................................................................................................ 172
Die Stichprobenvarianz .................................................................................................................................................. 173
Die Stichprobenkovarianz............................................................................................................................................. 177
Populationen vs. Stichproben ..................................................................................................................................... 180
Einfache Lineare Regression ............................................................................................................................... 183
Pearson Product Moment.............................................................................................................................................. 184
Affin Lineare Prognose ................................................................................................................................................... 186
„Beste“ Prognose ................................................................................................................................................................ 189
Unabhängigkeit / Abhängigkeit von Zufallsvariablen .................................................................................. 191
Bedingte Wahrscheinlichkeiten ................................................................................................................................. 199
Bedingter Erwartungswert .......................................................................................................................................... 201
Trefferzeiten und Irrfahrten ........................................................................................................................................ 204
Bedingte Varianz ................................................................................................................................................................ 211
Konvergenz ............................................................................................................................................................... 215
Konvergenz in Verteilung.............................................................................................................................................. 215
Konvergenz in Wahrscheinlichkeit .......................................................................................................................... 216
Fast sichere Konvergenz ................................................................................................................................................ 216
Beispiele diskreter Verteilungen ........................................................................................................................ 217
Uniforme Verteilung auf ℤ (diskret)........................................................................................................................ 218
Bernoulli Verteilung ......................................................................................................................................................... 222
Binomialverteilung ........................................................................................................................................................... 227
Multinomialverteilung .................................................................................................................................................... 236
Multivariate hypergeometrische Verteilung ....................................................................................................... 243
Negative Binomialverteilung ....................................................................................................................................... 247
Geometrische Verteilung ............................................................................................................................................... 249
Inverse Hypergeometrische Verteilung ................................................................................................................. 251
Poisson Verteilung ............................................................................................................................................................ 252
Kapitel 4 .................................................................................... 254
Einführung in Kontinuierliche Verteilungen................................................................................................... 254
Dichtefunktionen als Wahrscheinlichkeitsgeber .............................................................................................. 255
Verteilungsfunktionen .................................................................................................................................................... 259
Der Erwartungswert aus kontinuierlicher Sicht ............................................................................................... 261
Die Varianz aus kontinuierlicher Sicht ................................................................................................................... 262
Transformationen kontinuierlicher Zufallsvariablen................................................................................... 264
Verteilungsfunktionsfunktion Technik .................................................................................................................. 264
Change of Variable ............................................................................................................................................................ 266
Zentraler Grenzwertsatz ....................................................................................................................................... 274
Beispiele kontinuierlicher Verteilungen .......................................................................................................... 279
Uniforme Verteilung auf ℝ (kontinuierlich) ....................................................................................................... 280
Exponentialverteilung..................................................................................................................................................... 283
Normalverteilung .............................................................................................................................................................. 287
Kapitel 5 .................................................................................... 292
Approximationen .................................................................................................................................................... 292
Binomial-Normalapproximation ............................................................................................................................... 293
Binomial-Poissonapproximation............................................................................................................................... 296
Multinomial-hypergeometrische Verteilung Approximation..................................................................... 298
Geometrische Verteilung - Exponentialapproximation ................................................................................. 301
Markow-Ungleichung ...................................................................................................................................................... 303
Tschebyscheff-Ungleichung ......................................................................................................................................... 304
Kapitel 6 .................................................................................... 306
Tipps & Tricks .......................................................................................................................................................... 306
Ermittle Grenzverteilung anstatt stationäre Verteilung ............................................................................... 306
Berechne Nullstellen iterativ ....................................................................................................................................... 310
Überpüfe Ergebnisse........................................................................................................................................................ 313
FAQ .............................................................................................................................................................................. 314
Einführung
Die Stochastik ist als mathematisches Teilgebiet nicht mehr wegzudenken. Die Fähigkeit, Aussagen
über mit Zufallsprozessen behaftete Systemen zu treffen, macht die Stochastik als mathematische
Disziplin in der modernen Gesellschaft unersetzlich. Von selbstfahrenden Autos, die sich mit
bedingter Wahrscheinlichkeit lokalisieren über Wettervorhersagen bis zur Schlangentheorie
(Queue Theory): Die hier vorgestellten Prozesse finden in jeder noch so kleinen Nische
Verwendung.
Dabei geht der Betrachtungshorizont weit über die „Prognose von zukünftigen Ereignissen“ hinaus:
Durch die Einführung einer Zufallsvariable rücken Systeme in den Anschauungsbereich, die sich gar
nicht primär mit der Zukunft beschäftigen aber probibalistischer Natur sind. Dies sind schon
Situationen, wo aufgrund von inpräzisen Messgeräten Toleranzen entstehen. Ein Roboter weiß zum
Beispiel nicht mit eindeutiger Genauigkeit wo er sich exakt befindet, kann aber mit Hilfe der
Wahrscheinlichkeitstheorie einen fundierten best guess über seine momentane Position abgeben.
Ein Algorithmus zur Gesichtsmustererkennung wählt aus einer ganzen Reihe visueller Konturen
nur diejenigen aus, die mit der größten Wahrscheinlichkeit als Gesicht klassifiziert werden.
1 z.B. der Ant-Colony Algorithm als Approximation für das Traveling Salesman Problem
Verwendete Abkürzungen
Buchstabe Bedeutung
Ω Ergebnismenge (Grundmenge)
Σ oft Ereignismenge
𝜇 Erwartungswert
Wahrscheinlichkeitsmaß, Kapitel 1
𝑃 Wahrscheinlichkeitsmaß
𝜇̅ Stichprobenmittel, arithmetisches Mittel
𝜎 Standardabweichung
𝑠𝑡𝑑 Standardabweichung
𝜎2 Varianz
̅𝜎̅̅2̅ Stichprobenvarianz
̅̅̅2̅𝑛
𝜎 biased Stichprobenvarianz
̅𝜎̅̅2̅𝑛−1 unbiased Stichprobenvarianz
Es kann sein, dass einige Symbole in einzelnen Aufgaben andere Bedeutungen zugewiesen
bekommen.
Kapitel 0
Grundlegendes
Bevor wir beginnen können, müssen wir erstmal sicherstellen, dass wir „dieselbe Sprache“
sprechen.
Dies hat folgenden Vorteil: Der Schwierigkeitsgrad des gesamten Buches sinkt enorm, wenn die
grundlegenden Definitionen verstanden werden.
Zu oft werden Zufallsvariablen mit Ereignissen verwechselt oder der Ergebnisraum mit dem
Ereignisraum. In den meisten Fällen ist dies auch nicht weiter schlimm, diese Formalien bei der
Anwendung in den Hintergrund treten. Aber spätestens beim Lesen von Lektüre macht es Sinn, die
von den kommenden Dingen schonmal gehört zu haben.
Dabei lassen wir einiges bewusst aus (z.B. was eine Wahrscheinlicheit überhaupt ist), weil dies im
weiteren Verlauf noch genau erläutert wird.
Dieser Raum wird meist mit dem griechischen Buchstaben Ω (Omega) bezeichnet. Aber auch
andere Buchstaben sind geläufig, wie z.B. 𝑈 (für Universum).
Dieser Raum wird oft mit dem griechischen Buchstaben Σ (Sigma) bezeichnet. Aber besonders hier
sind auch andere Buchstaben geläufig, wie z.B. 𝐵 (als Abkürzung der borelschen Sigma Algebra).
Somit wird schnell ersichtlich, dass die Ereignismenge alle möglichen Kombinationen von
Ausgängen darstellt. Da die Ereignismenge meist alle Teilmengen von der Ergebnismenge Ω erhält,
ist natürlich auch die leere Menge enthalten.
Ein Element 𝜎 ∈ Σ heißt Ereignis. Ist das Element einelementig2 heißt es elementares Ereignis.
Im obigen Beispiel sind somit jeweils die Elemente {𝑇𝑟𝑒𝑓𝑓𝑒𝑟} sowie {𝑘𝑒𝑖𝑛 𝑇𝑟𝑒𝑓𝑓𝑒𝑟}
Elementarereignisse.
Tipp
Man kann sich auch merken:
Ein Elementarereignis ist entweder ein beliebiges Element aus der Ergebnismenge 𝛺
versehen mit Mengenklammern oder die leere Menge.
Da die Ereignisse 𝜎 ∈ Σ in der Darstellung Mengen sind, gelten für sie auch sämtliche
Mengenoperatoren mit deren Implikationen.
Die wichtigsten sind hier aufgelistet:
Seien 𝐴, 𝐵 ∈ Σ Ereignisse aus Ω.
Definition 0.1
𝐴 ⊆ 𝐵 gilt, wenn das Auftreten von 𝐴 auch das Auftreten von 𝐵 impliziert.
Definition 0.3
𝐴 ∪ 𝐵 ist das Ereignis, welches auftritt, wenn entweder 𝐴 oder 𝐵 auftreten (Vereinigung).
Dabei ist das oder einschließend.
Definition 0.4
𝐴 ∩ 𝐵 ist das Ereignis, welches auftritt, wenn 𝐴 und 𝐵 gemeinsam auftreten (Durchschnitt).
Definition 0.6
𝐴𝐶 ist das Komplement von 𝐴.
Bisher befanden sich die Mengen 𝐴, 𝐵 ∈ Σ im gleichen Universum Ω. Nun bilden wir eine
Produktmenge 𝐾 als Kollektion von Universen, genauer
𝐾 ≔ Ω1 × Ω2 × … .× Ω𝑛 , 𝑚𝑖𝑡 𝑛 ∈ ℕ.
Für K gilt:
Definition 0.7
𝑛
Definition 0.8
𝑛
Hantieren wir mit normalen Mengen (keine Multimengen), so ist die Multiplizität jedes Elements
gleich eins.
Dies bringt uns aber nicht sofort ersichtliches Verhalten, wenn wir Mengen zusammenlegen. Bilden
wir die Vereinigung aus 𝑀1 und 𝑀2 erhöht sich nämlich die Kardinalität von 𝑀1 ∩ 𝑀2 nicht.
Es gilt hier sogar
|𝑀1 ∪ 𝑀2 | = |𝑀1 | = |𝑀2 | = 3.
Erneut ist dieser Umstand eine Folge der Multiplizitätsregel, da 𝑀1 sowie 𝑀2 die gleichen Elemente
enthalten.
Was ist aber, wenn wir nicht den Inhalt der Mengen 𝑀1 und 𝑀2 kennen, sondern nur die
Kardinalität? Wie würden wir dann die Mächtigkeit der Vereinigungsmenge |𝑀1 ∪ 𝑀2 | bestimmen
können?
Die Lösung ist die Einschluß-Auschluß Regel.
Achtung
Sobald aus 𝑛 Mengen mindestens zwei ein gleiches Element teilen, so muss bei der Vereinigung
die Einschluß-Auschluß Regel verwendet werden!
Wir summieren einfach die Kardinalitäten der Einzelmengen zusammen und ziehen die Anzahl von
Elementen ab, die beide teilen.
Bei unserem obigen Beispiel wäre dies
|𝑴𝟏 | + |𝑴𝟐 | − |𝑴𝟏 ∩ 𝑴𝟐 | = 𝟑 + 𝟑 − 𝟑 = 3.
Tipp
Die Formel funktioniert natürlich auch bei disjunkten Mengen, da die Kardinalität der leeren
Schnittmenge null ist.
Die Funktionsweise dieser Formel ist sehr einfach. Wir stellen uns einfach alle 𝑛 Mengen als Venn3
Diagramm vor, visualisiert mit 𝑛 = 3.
Um die Anzahl der Elemente der Vereinigung 𝐴 ∪ 𝐵 ∪ 𝐶 zu ermitteln, fällt uns auf, dass wir beim
bloßen addieren der Einzelkardinalitäten |𝐴| + |𝐵| + |𝐶| einige Elemente doppelt oder gar dreifach
gezählt haben!
Da genau diese Elemente nur in den Vereinigungen vorkommen können, verwenden wir folgendes
Schema:
3Da die Einschluß-Ausschluß Formel auch bei disjunkten Mengen funktioniert, kann allgemeingültig ein Venn
Diagramm visualisiert werden anstatt ein Euler Diagramm.
Wir addieren zuerst alle Einzelmengen |𝑨| + |𝑩| + |𝑪|.
Aufgrund der Überlappungen gilt: |𝑨| + |𝑩| + |𝑪| ≥ |𝐴 ∪ 𝐵 ∪ 𝐶|.
Nun ziehen wir die paarweisen Überlappungen ab:
|𝑨 ∪ 𝑩| |𝑨 ∪ 𝑪| |𝑪 ∪ 𝑩|
Nun gilt aber:
|𝑨| + |𝑩| + |𝑪| − |𝑨 ∪ 𝑩| − |𝑨 ∪ 𝑪| − |𝑪 ∪ 𝑩| ≤ |𝐴 ∪ 𝐵 ∪ 𝐶|
Der Relationsoperator wechselt die Richung! Dies ist der Fall, da wir die Schnittmenge
𝐴 ∩ 𝐵 ∩ 𝐶 dreimal abgezogen haben. Das ist einmal zu viel.
Unsere momentan addierte Menge sieht so aus:
Also müssen wir noch den Schnitt |𝑨 ∩ 𝑩 ∩ 𝑪| hinzuaddieren und wir erhalten:
|𝑨| + |𝑩| + |𝑪| − |𝑨 ∪ 𝑩| − |𝑨 ∪ 𝑪| − |𝑪 ∪ 𝑩| + |𝑨 ∩ 𝑩 ∩ 𝑪| = |𝐴 ∪ 𝐵 ∪ 𝐶|
Es gilt dann:
|𝐴 ∪ 𝐵| = |𝐴| + |𝐵| − |𝐴 ∩ 𝐵|
Definition 0.11
Seien 𝐴, 𝐵 ∈ Ω Ereignisse. Dabei ist beliebig, ob sie unabhängig sind oder nicht.
Es gilt dann:
Gewiefte Mathematiker erkennen sofort, dass man bei 𝑛 disjunkten Mengen nur die
Einzelkardinalitäten addieren muss. Dies ist der Fall, da jeder Durchschnitt unter den Mengen eine
leere Menge ergibt und diese Mächtigkeit null besitzt.
Definition 0.12
Seien 𝐴𝑖 Mengen. Dabei sind sie untereinander disjunkt.
|⋃ 𝐴𝑖 | = ∑|𝐴𝑖 |
𝑖=1 𝑖=1
Beispiel 1.1
Im Frankfurter Bahnhofsviertel leben 2000 Menschen. Davon besitzen 200 Leute ein
Skateboard, 100 Leute Schlittschuhe und 50 Leute Schlitteschuhe sowie ein Skateboard.
Geben Sie die Wahrscheinlichkeit ein, dass eine zufällig gewählte Person Schlittschuhe
oder ein Skateboard besitzt.
Wir werden in der Stochastik noch ähnliche Fälle begegnen, wo sich der Wert einer Reihe von
Ereignissen erheblich leichter berechnen lässt, wenn die Ereignisse disjunkt sind.
Ein prominentes Beispiel ist die Summe von unkorellierten Varianzen.
Kapitel 1
Definition 1.1
Eine Zufallsvariable 𝑋: Ω → 𝑆 ist eine messbare Funktion.4
Hierbei ist Ω die Menge der möglichen Ausgänge eines Zufallsexperiments.
Außerdem gehören beide Mengen Ω und 𝑆 zu unterschiedlichen Messräumen.
Dabei gibt eine Zufallsvariable selbst keine Wahrscheinlichkeit wieder, sondern weist einem
möglicherweise unquantifizierbaren Ausgang lediglich eine numerische Eigenschaft zu.
Eine Zufallsvariable widerspiegelt Unsicherheit. In den meisten Fällen (ausgenommen u.a. sichere
Ergeignisse, dazu später mehr) ist nicht eindeutig klar, welchen genauen Wert eine Zufallsvariable
in einer Betrachtung annehmen wird.
Zufallsgrößen können dabei alles Mögliche simulieren, z.B. Fehltertoleranzen bei Messgeräten aber
auch Ausgänge bei einem Würfelwurf. Selbst Funktionen und Verarbeitungen können mit
Zufallsvariablen versehen werden.
Eine wichtige Unterscheidung ist die zwischen diskreten und kontinuierlichen Zufallsvariablen.
4en.wikipedia.org/wiki/Random_variable
Definition 1.2
Eine diskrete Zufallsvariable hat eine abzählbare Zielmenge.
Definition 1.3
Eine kontinuerliche Zufallsvariable hat eine überabzählbare Zielmenge.
Definition 1.4
Eine gemischte Zufallsvariable hat eine Zielmenge, deren Abzählbarkeit von bestimmten
Realisierungen der Zufallsvariable abhängt.
Justin wirfst eine Münze. Erhält er in einem Wurf Kopf, dann kriegt er 2€. Bei Zahl, wirft
Justin einen Dartpfeil in das Einheitsintervall [0,1] und erhält den genauen Betrag auf sein
Konto überwiesen.
Dieses Spiel können wir per Zufallsgröße simulieren (wir erinnern uns: ohne
Wahrscheinlichkeiten, denn Zufallsvariablen geben ohne Maß 𝑃(𝑋) keine aus):
Wir sehen, dass die Abzählbarkeit des Funktionswert 𝑋(𝜔) (also der Zielmenge) vom
Ausgang des Experiments abhängt.
Interessant für später: Es ist sehr wohl möglich den Wert eines einzelnen kontinuierlichen
Elements zu bestimmen (der Pfeil kann z.B. auf genau 0,23000̅ landen). Erst wenn
Wahrscheinlichkeiten ins Spiel kommen, ist die Wahrscheinlichkeit 𝑃({𝑋 = 𝜔}) bei einer
uniform kontinuierlichen Verteilung gleich null.
Gemischte Zufallsvariablen kommen besonders oft bei mehrstufigen Experimenten vor und
sind deshalb definitiv keine Exoten. Wir werden auf den Wert und Nutzen dieser Variablen
am Ende dieses Dokuments eingehen.
Wenn wir einen Würfel rollen, ist der Ausgangs des Experiments strikt genommen keine Zahl. In
Wirklichkeit zeigt halt nur eine Augenseite nach oben, dessen Zahlenwert wir interpretieren.
Zufallsvariablen erlauben es uns, den Ausgang eine Experiments wirklich als Zahl aufzufassen.
Damit haben wir den mächtigen Werkzeugkoffer der Mathematik zur Verfügung, um mehr über
bestimmte Eigenschaften unserer Modellierung zu erfahren. Erst Zufallsvariablen ermöglichen es
uns, überhaupt Erwartungswerte, Varianzen und viel mehr auszurechnen.
Antwort: Zufallsvariablen quantifizieren Geschehnisse aus der realen Welt. Nicht jedes reale
Ereignis lässt sich nämlich numerisch erfassen.
Die Bedingung, dass der Wertebereich 𝑆 messbar5 ist, bedeutet nicht automatisch, dass eine
Zufallsvariable ausschließlich Zahlen zuweist.
Dieses Spiel können wir per Zufallsgröße simulieren (wir erinnern uns: ohne
Wahrscheinlichkeiten, denn Zufallsvariablen geben ohne Maß 𝑃: Σ → [0,1] keine aus):
Wir erstellen nun eine gültige Zufallsvariable 𝑋, die einem realen Ereignis (der Münzwurf)
einen numerischen Wert (meistens eine Zahl) zuordnet und eine ungültige Zufallsvariable 𝑌,
die nichtmessbare reale Ergebnisse ohne Modifikation überträgt.
1, 𝑤𝑒𝑛𝑛 𝜔 = 𝐾𝑜𝑝𝑓
𝑋(𝜔) = {
0, 𝑤𝑒𝑛𝑛 𝜔 = 𝑍𝑎ℎ𝑙
Das 𝑌 ist dagegen ungültig. Die Menge {𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙} ist nicht messbar. Auch würde es wenig
Sinn machen.
Es lassen sich mit 𝑌 keine Varianzen, Erwartungswerte und viel mehr berechnen.
Wichtig für die Kreativität: Die Art und Weise, wie ein reales Ereignis quantifiziert werden soll steht
einem vollkommen offen.
Somit ist für das selbe Experiment im Kasten oben auch folgende Zufallsvariable 𝑇 gültig:
250, 𝑤𝑒𝑛𝑛 𝜔 = 𝐾𝑜𝑝𝑓
𝑇(𝜔) = {
100, 𝑤𝑒𝑛𝑛 𝜔 = 𝑍𝑎ℎ𝑙
Es sollte aber darauf Wert gelegt werden, dass die Zuordnungen leicht interpretiertbar sind.
Der Erwartungswert 𝐸(𝑇) = 17,5 würde für andere Personen nämlich leicht den Eindruck
erwecken, dass das Spiel nicht fair ist.
Hier einige Beispiele von Zufallsvariablen:
Beispiel 1.2
Wir wählen rein zufällig aus einer festen Menge von 𝑛 Personen. Von der gezogenen
Person betrachten wir das ganzzahlige Gehalt.
Diese Zuordnung können wir per Zufallsgröße simulieren (wir erinnern uns: ohne
Wahrscheinlichkeiten, denn Zufallsvariablen geben ohne Maß 𝑃: Σ → [0,1] keine aus)
Daraus folgt:
Ω ≔ {𝐺𝑒ℎ𝑎𝑙𝑡
⏟ 0, 𝐺𝑒ℎ𝑎𝑙𝑡 1, … , 𝐺𝑒ℎ𝑎𝑙𝑡 (𝑛 − 1) }
𝑛−𝑣𝑖𝑒𝑙𝑒 𝑃𝑒𝑟𝑠𝑜𝑛𝑒𝑛
Weil jeder Ausgang der Ergebnismenge selbst eine Zahl ist, ist das Zufallsexperiment schon
quantifiziert. Eine sinnvolle Zuordnung 𝑋: Ω → 𝑆 ist folglich eine Identitätszuordnung, die
jedem Gehalt aus der Ergebnismenge Ω den gleichen Wert zuordnet.
Diese Zufallsvariable ist diskret, weil der Wertebereich (Zielbereich von 𝑋) abzählbar ist.
Beispiel 1.3
Wir gehen in den Frankfurter Zoo und selektieren zufällig Tiere. Jedem Tier weisen wir
sein genaues Alter zu.
Diese Zuordnung lässt sich ebenfalls per Zufallsgröße simulieren (wir erinnern uns: ohne
Wahrscheinlichkeiten, denn Zufallsvariablen geben ohne Maß 𝑃: Σ → [0,1] keine aus):):
Unser Definitionsbereich (oder auch Zielbereich von 𝑋) sieht dann aus wie folgt:
Der Wertebereich repräsentiert das exakte Alter des Tieres. Das exakte Alter kann jede mögliche
reelle Zahl sein. Ein Tier kann sogar 𝜋 Jahre alt sein!
Folglich ist die Zufallsvariable kontinuierlich.
Tipp
Tipp: exakte Zeit, genaue Längen, exakte Flächen sind in exakter Arithmetik stets kontinuierlich,
da reell.
Achtung
Werden die reellen Zahlen auf rationale gerundet, sind wir wieder im diskreten Modell,
weil rationale Zahlen abzählbar sind.
Verlangen wir lediglich, dass das Alter der Tiere im Beispiel 1.3 auf bis zu zwei
Nachkommastellen genau ist, haben wir endlich viele Möglichkeiten. Somit ist die Zufallsvariable
dann diskret.
Da der vom Computer darstellbare Zahlenbereich eine Teilmenge von ℚ ist, sind im PC in
Theorie sämtliche Zufallsvariablen diskret. Dennoch lassen sich zumeist kontinuierliche Modelle
mit den entsprechenden Lösungsmethoden anwenden, wenn dies auch in exakter Arithmetik der
Fall wäre.
Oft kommt es vor, dass Zufallsvariablen auf Produktmengen von messbaren Mengen zuweisen. Dies
bedeutet, dass Anstatt eine Zahl eine Menge als Zuordnung rauskommt.
Definition 1.5
Eine Zufallsvariable 𝑋: Ω → 𝑆 𝑛 𝑚𝑖𝑡 𝑛 ∈ ℕ 𝑢𝑛𝑑 𝑛 > 1 bildet auf eine Produktmenge einer
messbaren Menge 𝑆 ab.
Diese Zufallsvariablen sind dennoch nützlich, weil die Komponenten der entstehenden Tupel ja
selbst einer messbaren Menge 𝑆 angehören.
Der Typ der Zufallsvariable (kontinuierlich, reell, gemischt) ergibt sich dann aus den Typen der
Komponenten.
Beispiel 1.4
Wir werfen Dartpfeile auf eine Scheibe. Jedem getroffenen Punkt wird seine Position
zugeordnet.
Diese Zuordnung können wir ebenfalls per Zufallsgröße simulieren (wir erinnern uns: ohne
Wahrscheinlichkeiten, denn Zufallsvariablen geben ohne Maß 𝑃: Σ → [0,1] keine aus):
Unser Ergebnisraum (oder auch Definitionsbereich von 𝑋) sieht dann aus wie folgt:
Es gilt 𝑆 ⊂ 𝑅 2. Streng genommen weist 𝑋 somit keine Zahlen sondern Vektoren zu.
Diese Zufallsvariable ist kontinuierlich, weil jede Komponente 𝑥, 𝑦 des Tupels (𝑥, 𝑦)
überabzählbar ist.
Bei Erwartungswerten, Varianzen und vielen anderen Operationen muss bei solchen
Zufallsvariablen aber besonders acht gegeben werden.
Weil die meisten Zufallsvariablen zu Zahlenwerten evaluieren, können sie auch mit Konstanten
multipliziert, dividiert oder gar mit anderen Zufallsvariablen summiert werden.
Dadurch ist es auch möglich, neue Zufallsvariablen durch Kaskadierung zu formen.
Beispiel 1.5
Die Mitarbeiter einer Computerfirma haben jeden Morgen ein einzigartiges Ritual: Anstatt
Arbeitszeiten vorher festzulegen, fässt der Abteilungsleiter in zwei Behälter, die jeweils
mit zwölf Zetteln gefüllt sind. Jeder Zettel eines Behälters ist beschriftet mit je einer Zahl
aus {0,1,2, . . . ,11}.
Der Abteilungsleiter holt aus jedem Behältnis je einen Zettel heraus.
Der Wert der beiden Zettel wird summiert und ergibt die am Tag abzulegende Arbeitszeit
für jedem Mitarbeiter.
Mehrere Situationen hängen hier vom Zufall ab: Erstens steht zuvor nicht fest, welcher Zettel
aus der ersten Tonne gezogen wird. Außerdem wissen wir auch nicht, welchen Zettel der
Abteilungsleiter aus der zweiten Tonne ziehen wird.
Das Endergebnis, die Summe der beiden Zettel, hängt zuletzt auch noch vom Ergebnis der
ersten beiden Ziehungen ab.
𝑇1 = 𝑇2 = {𝑖|0 ≤ 𝑖 ≤ 11, 𝑖 ∈ ℕ}
Interessant für später: Die Zufallsvariablen 𝑇1 und 𝑇2 sind unabhängig, weil wir aus zwei
verschiedenen Tonnen fassen.
Antwort: Da die Zufallsvariablen 𝑇1 und 𝑇2 jeweils jeden Wert von 0 bis 11 annehmen
können, stellt 𝑌 alle möglichen Kombinationen von gültigen Arbeitszeiten 𝑇1 + 𝑇2 dar.
Achtung
Zufallsvariablen, die auf Produktmengen abbilden lassen sich nicht mit normalen binären
Verknüpfen wie Addition, Subtraktion, Multiplikation verknüpfen.
Verknüpfungen der Vektorrechnung sind aber erlaubt, wenn die Elemente der Produktmenge
Zahlen sind.
Zum oberen Achtung gibt es noch ein Anti-Beispiel:
Folgendes Experiment wiederholen wir zwei Mal: Wir werfen Dartpfeile auf eine Scheibe.
Jedem getroffenen Punkt wird seine Position zugeordnet.
Wir bilden die Summe der beiden Dartpfeilpositionen.
Auf dem ersten Blick könnte sich dies leicht modellieren lassen:
Jetzt fehlt doch eigentlich nur noch 𝑌, welches die Summe der beiden Dartwürfe darstellt.
𝑌=⏟
𝑋1 + 𝑋2
𝐟𝐚𝐥𝐬𝐜𝐡!
𝑌= 𝑋
⏟1 + 𝑋
⏟2
𝑖𝑠𝑡 𝑒𝑖𝑛𝑒 𝑀𝑒𝑛𝑔𝑒 𝑖𝑠𝑡 𝑒𝑖𝑛𝑒 𝑀𝑒𝑛𝑔𝑒
Die Zufallsvariablen von denen 𝑌 abhängt evaluieren zu Mengen. Unser Standard-Plus
Operator ist eine Funktion mit zwei Variablen.
Genauer:
+: 𝑆 × 𝑆 → 𝑆
Setzen wir nun unsere Zufallsvariablen 𝑋1 , 𝑋2 in unsere +(𝑎, 𝑏) Funktion ein erhalten wir
einen Typenfehler:
+( 𝑋
⏟1 , 𝑋
⏟2 )
∈𝑆2 ∈𝑆2
Um 𝑌 zu verwirklichen müssten wir einen neuen Verknüpfungstyp erstellen von der Form
∗: 𝑆 2 × 𝑆 2 → 𝑆 2
Die wäre z.B. der Fall, wenn wir das + der Vektoraddition verwenden.
Da wir dies aber nicht getan haben, erhalten wir einen Typenfehler.
Tipp
Jede Verknüfpung ist eine Funktion. Deshalb sollte man genau den Verknüpfungstyp und die
Auswertung der Variablen kennen, bevor man Zufallsvariablen kaskadiert.
Indikatorvariablen
Indikatorvariablen sind besondere Zufallsvariablen. Sie haben nämlich nur die binären Ausgänge
„0“ und „1“. Sie dienen dazu Ereignisse zu Indizieren.
Somit können wir jedes Ereignis aus unserer Ereignismenge Σ durch Zufallsvariablen
repräsentieren.
Indikatorvariablen werden später eine so große Rolle spielen, dass der entsprechende Abschnitt
Kapitel 3: Das Wunder der Indikatorvariablen genannt wird.
Beispiel 1.7
Repräsentiere das Ereignis „Ich würfle eine Zahl größer vier.“ als Indikatorvariable.
1, 𝑤𝑒𝑛𝑛 𝐴
𝐼𝐴 = { .
0, 𝑤𝑒𝑛𝑛 𝑛𝑖𝑐ℎ𝑡 𝐴
Messraum
Definition 1.6
Ein Tupel (Ω, Σ) heißt Messraum (measurable space), wenn7
Ein Beispiel einer Grundmenge (Ergebnismenge) Ω und einer o-Algebra Σ auf Ω ist der Ausgang
eines Münzwurfs, mit:
Ω = {𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙}
Definition 1.7
Eine o-Algebra Σ ⊆ 𝜬(Ω), wobei 𝜬(Ω) die Potenzmenge von Ω ist, hat folgende
Eigenschaften:8
𝐴𝑘 , A𝑘+1 , … , A 𝑛 ∈ Σ ⇒ ⋃ 𝐴𝑖 ∈ Σ
𝑖=𝑘
7 https://de.wikipedia.org/wiki/Messraum_(Mathematik)
8 https://de.wikipedia.org/wiki/%CE%A3-Algebra
FAQ: Wo ist der Nutzen der o-Algebra für 𝚺
Frage: Wieso soll Σ eine o-Algebra auf der Grundmenge Ω sein?
Antwort: Nur wenig später werden wir lernen, dass nur Teilmengen von Ω Wahrscheinlichkeiten
bekommen können, die auch in der Ereignismenge Σ vorkommen.
Ω = {1,2,3,4,5,6}
𝚺𝟏 ist eine gültige o-Algebra. Das bedeutet, dass jeder Ausgang des Würfelns in Ω auch messbar
ist und somit später Wahrscheinlichkeiten erhalten kann.
Teilmenge 𝚺𝟐 ist hingegen keine gültige o-Algebra, weil das zweite Kriterium
A ∈ Σ ⇒ Ac ∈ Σ, 𝑚𝑖𝑡 𝐴𝑐 = Ω\𝐴
verletzt wurde.
Somit wäre dies auch später kein gültiger Wahrscheinlichkeitsraum. Dies ist aber auch gut so,
weil wir dann z.B. 𝑃({1} ∪ {2}) nicht definieren könnten, weil {{1,2}} nicht Teil von 𝚺𝟐 ist.
Tipp
Eine Zufallsvariable 𝑋: Ω → 𝑆 ist eine messbare Funktion, die zwischen Messräumen
strukturerhaltend abbildet.
Mehr dazu:
Wikipedia - Measurable Function
Definition 1.8
Jede Teilmenge A ∈ Σ, ist messbar.9
9 https://de.wikipedia.org/wiki/Messraum_(Mathematik)
die Teilmengen {𝐾𝑜𝑝𝑓}, {𝑍𝑎ℎ𝑙}, {𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙}{} messbar sind. Dies gilt auch für die leere Menge,
schließlich ist diese ja auch Teilmenge von Ω. Diese Anforderung ist sehr wichtig. Denn nur
messbare Mengen können später durch unser Maß P Wahrscheinlichkeiten bekommen.
In der Stochastik nennen wir Ω Ergebnisraum und Σ Ereignismenge.
Jedes 𝐴 ∈ Σ nennt man Ereignis.
Das Tupel (Ω, Σ) ist formal ein Messraum. Ein stochastischer Messraum wird auch Ereignisraum
genannt (nicht zu verwechseln mit Ereignismenge). Noch ist unser Wahrscheinlichkeitsraum aber
nicht fertig.
Wir müssen eine Funktion 𝑃 einführen, die unseren Teilmengen Wahrscheinlichkeiten zuordnet.
Maßraum
Definition 1.9
Ein Maßraum (Ω, Σ, μ) ist ein Messraum (Ω, Σ) versehen mit einem Maß μ.
Ein Maßraum ist also nichts weiteres, als ein Messraum mit einem Maß.
Ferner gilt:
Definition 1.10
Das Maß μ ist auf Σ definiert.10
Jetzt sehen wir auch, warum wir in der Definition eines Messraums forderten, dass alle Elemente
von Σ messbar sind: Weil unser Maß μ darauf agiert. Ein Maß μ ist dabei eine Funktion, die jeder
Teilmenge einer Obermenge einen nichtnegativen Zahlenwert zuordnet. Etwas genauer:
Definition 1.11
Sei (Ω, Σ, μ) ein Maßraum.
Ein Maß μ ist eine Funktion μ: Σ → [0, +∞] für die gilt:
μ (⋃ 𝐴𝑖 ) = ∑ μ(𝐴𝑖 )
𝑖=1 𝑖=1
10 https://de.wikipedia.org/wiki/Ma%C3%9Fraum
Tipp
Ist 𝐴𝑛 eine Folge paarweise Mengen aus Σ, die nicht disjunkt sind, müssen wir die Einschluss-
Auschluss Regel verwenden.
Dazu später mehr.
Sind alle Teilmengen in Σ disjunkt, ist gerade die Additivität von μ ausschlaggebend. Das bedeutet,
dass das Maß von zusammengefassten Teilmengen nicht größer oder kleiner sein kann, als wenn
man die Objekte separat zusammen zählt.
Getreu nach dem Motto: Der gefüllte Sack ist nicht schwerer/leichter als die Summe seiner
Elemente. Der Wert von μ kann dabei als „Größe der Teilmengen hinsichtlich des Maßes μ“
interpretiert werden.
Jede Teilmenge A, die echt kleiner als Teilmenge B ist, bekommt durch unser Maß 𝜇 auch einen
kleineren Zahlenwert als B. Als würde man mit einem Lineal Legosteine messen.
Des Weiteren gilt:
Definition 1.12
Für ein normiertes Maß gilt:
𝜇(Ω) = 1
Tipp
Die obere Definition lässt sich gut merken als:
Der gesamte Sack wiegt genau 1. Somit darf die Summe der Inhalte (paarweise disjunkte
Teilmengen in Σ) diesen Wert nicht überschreiten.
In der Stochastik nennt man ein normiertes Maß 𝑃. Somit ist unser alleits bekanntes
𝐏: 𝚺 → [𝟎, 𝟏] nichts weiter als eine Funktion.
Da der Definitionsbereich von 𝑃 die Ereignismenge Σ ist, können auch nur Elemente aus Σ mit
Wahrscheinlichkeiten versehen werden.
Wir erinnern uns aus der Definition eines Messraums, dass sich in Σ die Teilmengen von Ω
befinden.
Deshalb sieht man auch oft Mengenklammern in der Argumentliste von 𝑃, also
𝑃({𝐴}), 𝑚𝑖𝑡 𝐴 ∈ Σ
anstatt
𝑃(𝐴)
Der Übersicht halber werden die Klammern aber oft weggelassen.
Ein Wahrscheinlichkeitsraum (Ω, Σ, P) ist somit ein Messraum (Ω, Σ, μ) mit normiertem μ.
Visualisiert ist ein Wahrscheinlichkeitsraum, der die Ausgänge eines fairen Münzwurfs
repräsentiert.
Wie bei der Sackanalogie zuvor, ist die Teilmenge {𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙} größer als {𝐾𝑜𝑝𝑓} oder {𝑍𝑎ℎ𝑙}
allein. Da die Mengen disjunkt sind, hat das gemeinsame Maß 𝑃({𝐾𝑜𝑝𝑓, 𝑍𝑎ℎ𝑙}) einfach die
summierten Einzelgewichte 𝑃({𝐾𝑜𝑝𝑓}) + 𝑃({𝑍𝑎ℎ𝑙}) als Gewicht (und somit Wahrscheinlichkeit).
Zufallsvariablen 𝑋: Ω → Ω′ sind messbare Funktionen, die zwischen Messräumen strukturerhaltend
abbilden.
Definition 1.13
Eine Zufallsvariable entspricht in der Verteilung einem Bildmaß.
Somit transportiert eine Zufallsvariable jeden Ausgang aus Ω, der dem Messraum (Ω, Σ) angehört, in
einen anderen Messraum (Ω′ , Σ′ ). Anstatt Ω′ schreiben wir auch 𝑆, woraus 𝑋: Ω → 𝑆 folgt.
Definition 1.14
Sei 𝑋: Ω → 𝑆 eine Zufallsvariable und 𝑘 ∈ 𝑆, 𝐴 ⊆ 𝑆.
Tipp
Die obere Definition nennt man das inverse image einer Funktion.
Achtung
Ein häufiger Fehler ist es, 𝑃({𝑋 = 𝑘}) mit einem Ereignis {𝑘} ∈ Σ zu verwechseln.
Laut der obigen Definition gehört {𝑘} ∈ Σ ′ aber dem von 𝑋: Ω → 𝑆 abgebildeten Messraum (𝑆, Σ′ )
an.
Also: 𝑘 ∈ 𝑆 𝑏𝑧𝑤. {𝑘} ∈ Σ′.
Da der Abbildungsraum (S, Σ ′ ) ein Messraum ist, besitzt dieser kein Wahrscheinlichkeitsmaß. Dies
ist aber auch nicht nötig, da wir in der obigen Definition gelernt haben, dass sich jedes 𝑘 ∈ 𝑆 über
das Rückbild 𝑃𝑋 ({𝑘}) wieder zu (Ω, Σ, P) überführen lässt. Da (Ω, Σ, P) ein Wahrscheinlichkeitsraum
ist, gilt das Maß 𝑃 für beide Messräume (Ω, Σ) und (𝑆, Σ′ ).
Somit ist sichergestellt, dass bei einem Münzwurf beide Maßaufrufe 𝑃𝑋 ({1}) und 𝑃({𝐾𝑜𝑝𝑓}) die
gleiche Wahrscheinlichkeit ausgeben.
Aber nach welchen Kriterien verteilt unsere Maßfunktion die Wahrscheinlichkeiten an die
Ereignisse in Σ?
Hier gibt es viele Freiheiten. Haben wir Zufallsvariablen definiert, so kann P im kontinuierlichen
11 hier
Fall kann eine Verteilungsfunktion sein, im diskreten eine Gewichtsfunktion.
Aber auch ohne Zufallsvariablen kann man Verteilungen (siehe Kapitel 3) ermitteln, indem man
einfach die Wahrscheinlichkeit für jedes Elementarereignis nacheinander aufschreibt.
Wahrscheinlichkeiten als Verhältnisse
Wahrscheinlichkeitswerte lassen sich als Verhältnisse zwischen einer Grundmenge Ω und seinen
Teilmengen 𝐵𝑖 ∈ Σ auffassen.
Verbinden wir dies nun mit Zufallsvariablen, so ergibt sich ein analoges Bild:
„Wie wahrscheinlich ist es, dass eine rein zufällige Auswahl eines Punktes aus dem Quadrat in die
blaue Fläche fällt?“
Zuvor haben wir gelernt: Zufallsvariablen 𝑋: Ω → 𝑆 stellen Abbildungen zwischen Messräumen dar.
Wir definieren die Grundmenge unserer Abbildung als 𝑆 und eine beliebige Teilmenge als 𝐴 ∈ Σ′.
Achtung
Die Wahrscheinlichkeit, dass eine uniform verteilte kontinuierliche Zufallsvariable auf einen
einzelnen Punkt fällt, also 𝑃(𝑋 = 𝜔) 𝑚𝑖𝑡 𝜔 ∈ 𝑆, beträgt null.
Intuitiv lässt sich dies dadurch begründen, dass ein einzelner Punkt keine Fläche repräsentiert.
Nehmen wir nämlich eine uniforme Verteilung dieses Punktes auf der Fläche 𝑆 an hätte dies zur
Folge:
|𝐴| ∗ 1 ∗∗
𝑃(𝑋 = 𝜔) = = = 𝑢𝑛𝑑𝑒𝑓𝑖𝑛𝑖𝑒𝑟𝑡
|𝑆| ∞
∗ 𝑤𝑒𝑖𝑙 𝑋 𝑢𝑛𝑖𝑓𝑜𝑟𝑚 𝑣𝑒𝑟𝑡𝑒𝑖𝑙𝑡
1
∗∗ 𝑖𝑠𝑡 𝒏𝒊𝒄𝒉𝒕 𝑛𝑢𝑙𝑙 𝑠𝑜𝑛𝑑𝑒𝑟𝑛 𝑢𝑛𝑑𝑒𝑓𝑖𝑛𝑖𝑒𝑟𝑡13
∞
1
Aus praktischen Gründen gilt hier ist null, weil die Wahrscheinlichkeit sich asymptotisch der
∞
Null annähert.
Die diskrete Sicht auf die obige Frage, „Wie wahrscheinlich ist es, dass eine Zufallsvariable X mit
Zielbereich S in das Ereignis A fällt?“ behandelt die Menge S sowie die Teilmenge A als eine
abzählbare Menge von Punkten.
Die Anzahl der Gesamtpunkte von S kann beliebig hoch sein, hauptsache sie ist abzählbar.
Die diskrete Version des vorherigen Bildes ist vorstellbar als:
13 https://www.mathsisfun.com/calculus/limits-infinity.html
𝐹𝑙ä𝑐ℎ𝑒 𝑣𝑜𝑛 𝐴 𝐴𝑛𝑧𝑎ℎ𝑙 𝑑𝑒𝑟 𝑃𝑖𝑥𝑒𝑙 𝑣𝑜𝑛 𝐴
𝑃(𝑋 ∈ 𝐴) = =
𝐹𝑙ä𝑐ℎ𝑒 𝑣𝑜𝑛 𝑆 𝐴𝑛𝑧𝑎ℎ𝑙 𝑑𝑒𝑟 𝑃𝑖𝑥𝑒𝑙 𝑣𝑜𝑛 𝑆
Tipp
Generell lassen sich Wahrscheinlichkeiten intuitiv einprägen als:
In der realen Welt ist uns das genaue Verhältnis 𝑃(𝐴) oft nicht bekannt. Wir erinnern uns an die
Hypothesentests aus dem Stochastikunterricht aus der Schule. Woher soll denn eine Firma wissen,
dass z.B. genau 𝑝 = 0.2 ihrer Spielzeuge kaputt sind, damit wir via Hypothesentest prüfen können,
ob unsere Stichprobe diesen Spezifikationen entspricht?
In anderen Worten: Oft ist uns der blaue Anteil 𝐴 vom gelben Rechteck S unbekannt.
Um diesen zu ermitteln, greifen wir z.B. auf Monte-Carlo Methoden zurück.
Geschichte
Monte-Carlo Verfahren wurden Mitte der 1940’er Jahre von Stanislaw Ulam entworfen,
während eines krankheitsbedingten Urlaubs von seiner Arbeit an Atomwaffen am Los
Alamos National Laboratory.
Um sich die Zeit zu vertreiben, spielte er die Canfield Variante vom Kartenspiel Solitaire mit
52 Karten. Im Verlaufe der Zeit stellte er sich die Frage, wie hoch die
Gewinnwahrscheinlichkeit eines solchen Spiels sei.
Nach der Realisierung, dass die Beantwortung dieser Frage komplizierte kombinatorische
Berechnungen nach sich zieht, begann er nach Methoden zu suchen, die
Gewinnwahrscheinlichkeit zu approximieren.
Ihm kam die Idee, das Spiel einfach sehr sehr oft zu spielen und den Anteil der Gewinne mit
der Gesamtanzahl der Spiele ins Verhältnis zu setzen. Dieses Verhältnis war dann eine
Schätzung der gesuchten Wahrscheinlichkeit.
Je öfter er das Spiel spielt, umso genauer seine Schätzung, so seine Prognose.
Zusammen mit John von Neumann integrierte er diese Methode später in seine Arbeit.
Aufgrund der geheimen Natur des Atomwaffenprojekts, tauften sie die Methode Monte-Carlo,
benannt nach dem gleichnamigen Kasino in Monaco, welches von Ulams Onkel frequentiert
wurde.
Der Kerngedanke von Monte-Carlo Verfahren lässt sich leicht in einem Satz zusammenfassen:
„Monte-Carlo Methoden basieren auf dem Prinzip, Schätzungen durch wiederholte zufällige
Stichproben zu ermitteln.“
Beispiel 1.8
Betrachten wir folgende Situation:
Ein Hersteller von Spielzeug hat eine große Ladung seiner Produkte an mehrere
Einkaufsketten ausgeliefert.
Aufgrund eines Defekts an einer der Produktionsmaschinen, geht der Hersteller davon aus,
dass ein signifikanter Anteil des Spielzeugs kaputt ist.
Der Hersteller hat nur die Kapazitäten einen Teil des gesamten Spielzeug zu testen. Dennoch
ist er verpflichtet, den Kaufhäusern Auskunft darüber zu geben, wie viel Prozent vom
Gesamtvolumen des ausgelieferten Spielzeugs defekt ist. Dies ist notwendig, damit die
Kaufhäuser ihre Hypothesentests durchführen können.
Dieses stochastische Problem lässt sich geometrisch überführen. Dabei repräsentiere die
Fläche S die Gesamtladung an Spielzeug und die Teilfläche A den Anteil der kaputten
Spielzeuge.
Es gilt nun den Anteil 𝑃(𝐴) = 𝑝 zu finden. Da der Hersteller nicht das komplette Spielzeug
untersuchen kann, aber sehr wohl Teile davon, eignet sich das Monte-Carlo Verfahren, um p
zu approximieren.
Dabei ist:
1, 𝑤𝑒𝑛𝑛 𝑥 ∈ 𝐴
1𝐴 (𝑥) = {
0, 𝑠𝑜𝑛𝑠𝑡
𝑍𝑖 ≔ 1{𝑋𝑖 ∈𝐴}
Dabei ist der Schätzer M selbst auch eine Zufallsvariable, weil er aus den Zufallsvariablen 𝑍𝑖
besteht(siehe Kaskadierung von Zufallsvariablen aus dem Abschnitt zuvor).
1
𝑀𝑛 ≔ (𝑍 + ⋯ + 𝑍𝑛 )
𝑛 1
1
Wir multiplizieren mit , weil wir den Anteil von Treffern in Relation mit der Gesamtanzahl
𝑛
der Stichprobe setzen möchten.
Der Wertebereich 𝐸𝑀 von M ist jede mögliche Anzahl von „Treffern“ bei n Ziehungen.
0 1 𝑛
𝐸𝑀 ≔ { , , … , }
𝑛 𝑛 𝑛
Der Schätzer M kann somit nur abzählbare Werte annehmen. Lässt sich die gesuchte
Wahrscheinlichkeit p nicht als
𝑎
𝑚𝑖𝑡 0 ≤ 𝑎 ≤ 𝑛
𝑛
darstellen, so ist M bestenfalls ein gerundeter Wert von p.
𝑘
1
𝑅 = ∑ 𝑀100 ≈ 𝑝
𝑘
𝑖=1
Tipp
Der genaue Anteil p wird durch ein Monte-Carlo Verfahren nicht ermittelt, wenn p eine
transzendente Zahl ist.
Dies ist der Fall, weil die Ergebnisse vom z.B. obigen Monte-Carlo Verfahren abzählbar sind,
transzendente Zahlen wie 𝜋 aber überabzählbar.
Folglich entspricht unser Schätzwert dann einer (oft guten) Rundung.
Beispiel 1.9
Probiere es selbst aus!
Betrachten wir folgende Situation:
Die Fläche S sei ein Einheitsquadrat mit den Ausmaßen 1000x1000. Zusätzlich existiere die
Teilfläche A ⊆ S. Gesucht ist das Verhältnis P(A) = p über die Monte-Carlo Methode aus der
Vorlesung 1_k bzw. dem Beispiel zuvor.
Nun bist du gefragt: Öffne das C++ Programm „Monte-Carlo Simulation“ mit einem Compiler
deiner Wahl und kompiliere es.
Dafür muss kein Compiler installiert werden, es reicht den Programmcode in einen
Onlinecompiler wie http://www.tutorialspoint.com/compile_cpp11_online.php zu füttern.
Das Programm lässt einen den tatsächlichen Anteil P(A) = p wählen. Anschließend wähle
1
eine Stichprobengröße n für den Schätzer 𝑀𝑛 ≔ (𝑍1 + ⋯ + 𝑍𝑛 ) .
𝑛
Sieh, wie sich die Genauigkeit der Schätzung in Abhängigkeit von der Stichprobengröße n
ändert.
Sei 𝑝 = 0.234
Ein Ergebnis für n=10
H I S T O GRA M M - S TI C H PR OB EN GRÖ ß E 1 0
7
ANZAHL
0 1
NICHTTREFFER/TREFFER VON ZV ZI
Daraus folgt:
𝑀10 = 0.3
235
1 2
NICHTTREFFER/TREFFER VON ZV ZI
Daraus folgt:
𝑀1000 = 0.235
Tipp
Um zufällige Ziehungen für ein Monte-Carlo Verfahren zu generieren, werden Zufallszahlen
benötigt.
Dabei müssen die Ziehungen nicht komplett zufällig sein.
Zufallsgeneratoren wie die rand() Funktionen in Java oder C++ sind Pseudo-Zufallsgeneratoren.
Sie generieren nicht tatsächlich zufällige Zahlen. Dies ist aber meistens auch nicht notwendig,
weil es oft ausreicht, dass die Pseudozufallszahlen uniform verteilt „erscheinen“.
Da aber solche Algorithmen deteministischer Natur sind, leiden diese Generatoren unter
Periodizität. Irgendwann werden sich die Zufallszahlen in genau der gleichen Reihenfolge
wiederholen.
Der unterliegende Algorithmus, der die Zufallszahlen generiert, ist also extrem wichtig für die
Verlässlichkeit eines Monte-Carlo Verfahrens.
Wie beim obigen Beispiel gezeigt, lassen sich Ergebnisse von Messungen in Histogrammen
festhalten.
Histogramme sind visuelle Darstellungen von Häufigkeiten.
Beispiel 1.10
Betrachten wir folgende Situation:
Der Fachbereich Mathematik der Universität Hanoi hat eine Klausur geschrieben. Die
Klausurpunkte sind definiert von 0 bis 110. Ab 100 Punkten hat man aber schon mit Prädikat
exzellent bestanden.
Ein möglicher Ausgang dieses Tests lässt sich wie folgt visualisieren:
6
5
5
3
3
2
2
1
1
0
0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99 100+
KLAUSURPUNKTE
Weitere Eigenschaften von Wahrscheinlichkeiten:
Definition 1.15
Wahrscheinlichkeiten sind immer positiv und haben immer Werte aus [0,1].
FAQ: Wieso sind Wahrscheinlichkeiten immer positiv und aus [𝟎, 𝟏]?
Frage: Wieso gibt es keine negativen Wahrscheinlichkeiten und warum sind
Wahrscheinlichkeiten ausschließlich Zahlen aus dem Intervall [0,1]?
Antwort: Wir sehen Wahrscheinlichkeiten als Verhältnisse zwischen einer Auswahl von
Ereignissen und einer Grundmenge. Dabei gilt dieses Prinzip sowohl für Elemente aus dem
originalen Ergebnisraum Ω als auch andere, durch Zufallsvariablen induzierte Mengen 𝑆
(weil die Wahrscheinlichkeit von jedem Element aus S ja durch das Rückbild im
Ursprungsraum Ω gebildet wird).
Da alle Ergeignisse 𝐴 ∈ Σ Teilmengen von Ω sind, kann unsere Menge 𝐴 nur mit Elementen
aus 𝑆 gefüllt werden.
Daraus folgt: 𝐴 ⊆ Ω.
Die maximale Wahrscheinlichkeit ist die Summe aller möglichen Elementarereignisse. Weil
𝐴 ⊆ Ω, erfüllt eine maximale Wahrscheinlichkeit: 𝐴 = Ω ⟹ |𝐴| = |Ω|.
Daraus folgt
|𝐴| ∗ |Ω|
𝑃(𝐴) = = =1
|Ω | | Ω |
∗ 𝑤𝑒𝑛𝑛 𝐴 = 𝑆
Folglich können Wahrscheinlichkeiten auch nicht negativ sein, weil ein kleinstmögliches
Verhältnis ein leeres Event ist mit 𝐴 ≔ {}.
|𝐴| ∗ 0
𝑃(𝑋 ∈ 𝐴) = = =0
|𝑆| |𝑆|
∗ 𝑤𝑒𝑛𝑛 𝐴 ≔ {}
Bei einem unmöglichen Ereignis muss die Teilmenge 𝐴 ⊆ 𝑆 nicht leer sein.
Es reicht auch, wenn 𝐴 mit Elementen von Ω gefüllt ist, die durch unser Maß 𝑃 jeweils eine
Wahrscheinlichkeit null zugewiesen bekommen haben.
Definition 1.16
Sei 𝐴 ⊆ Ω ein Ereignis.
Ein Ereignis 𝐴 mit 𝑃(𝐴) = 0 nennt man unmögliches Ereignis.
Definition 1.17
Sei 𝐴 ⊆ Ω ein Ereignis.
Ein Ereignis 𝐴 mit 𝑃(𝐴) = 1 nennt man sicheres Ereignis.
Achtung
Besonders bei kontinuierlichen Zufallsvariablen verwendet man oft die Begriffe fast sicher bzw.
fast unmöglich anstatt unmögliches Ereignis und sicheres Ereignis.
FAQ: Was ist der Unterschied zwischen 𝑷(𝑨) und 𝑷(𝑿 ∈ 𝑨)?
Frage: Manchmal sehe ich 𝑃(𝐴) und manchmal 𝑃(𝑋 ∈ 𝐴), wobei 𝑋 eine Zufallsvariable mit
Zielbereich 𝑆 ist, um Wahrscheinlichkeiten zu berechnen. Was bedeutet der Unterschied?
Antwort: Für die Beantwortung dieser Frage, ist es notwendig, den vorherigen Abschnitt über
„Wahrscheinlichkeitsräume“ verstanden zu haben.
Wir rollen einen fairen sechsseitigen Würfel. Dabei sind für uns die angezeigten Augenzahlen
relevant.
Ω ≔ {1,2,3,4,5,6}
Da wir mit (Ω, Σ) einen Messraum definiert haben, können wir nun auch eine abbildende
Funktion 𝑋: Ω → 𝑆 bilden, mit:
𝑋(𝜔) = 𝜔, 𝑚𝑖𝑡 𝜔 ∈ Ω
Ein sinnvoller Wertebereich von 𝑋 ist dann die Identität:
S ≔ {1,2,3,4,5,6}
Nun wollen wir die Wahrscheinlichkeit berechnen, dass der gewürfelte Wert größer gleich 5
ist.
Sei 𝐴 ⊆ Ω das gesuchte Ereignis, dass der gewürfelte Wert größer gleich 5 ist. Der Inhalt von
𝐴 sieht dann aus wie folgt:
𝐴 ≔ {5,6}
𝐵 ≔ {5,6}
Beide Mengen A und B sehen gleich aus. Beim genauen Betrachten fällt uns aber auf, dass
𝐴 ∈ Σ und somit Bestandteil des ersten Messraums (Ω, Σ) ist.
Aber wir haben 𝐵 ∈ Σ′, was bedeutet, dass 𝐵 Bestandteil des zweiten Messraums (S, Σ′) ist.
Es folgt:
2
𝑃(𝐴) =
6
2
bedeutet, dass der relative Anteil der Menge A zur Menge Ω den Wert 6
beträgt. Dies gleicht
der Wahrscheinlichkeit, dass der gewürfelte Wert größer gleich 5 ist.
2
Aber 𝑃(𝑋 ∈ 𝐵) =
6
bedeutet, die Wahrscheinlichkeit, dass wenn wir in die Menge S greifen und rein zufällig ein
2
Element rausholen, die Wahrscheinlichkeit gleichzeitig in 𝐴 gegriffen zu haben den Wert
6
beträgt.
Da die Wahrscheinlichkeit der Zufallsvariable durch das Maß 𝑃: Σ → [0,1] bestimmt wird, gilt:
Wir sehen, dass die Wahrscheinlichkeit von 𝐵 durch 𝐴 bestimmt wird, weshalb es nicht
verwunderlich ist, dass beides die selbe Wahrscheinlichkeit aufweist.
Da das Maß 𝑃 nur Mengen aus dem ersten Messraum akzeptiert, ist das durch 𝑃(𝑋 ∈ 𝐵)
Rückbild notwendig. Folgenderweise lässt sich 𝑃(𝐵) nicht schreiben.
Tipp
Wichtig:
𝑃𝑋 (𝐵) ≠ 𝑃(𝐵)
Dies ist der Fall, weil 𝑃𝑋 (𝐵) = 𝑃(𝑋 ∈ 𝐵) ein Rückbild zu Ω definiert, 𝑃(𝐵) aber nicht.
1
𝑃(𝑋 = 𝜔) =
𝑟
Die zweite Person können wir nur noch auf (𝑟 − 1) = 364 setzen, da ein Kalendertag ja schon von
der ersten Person besetzt ist.
Die Wahrscheinlichkeit, dass die zweite Person mit keinem kollidiert ist folglich:
364
𝑃𝑋 (𝑛 = 2 𝑖𝑠𝑡 𝑘𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛𝑠𝑓𝑟𝑒𝑖) = .
365
Die dritte Person können wir nur noch auf (𝑟 − 2) = 363 setzen, da ein Kalendertag von der ersten
und ein weiterer Kalendertag schon von der zweiten Person besetzt ist.
Die Wahrscheinlichkeit, dass die dritte Person mit keinem kollidiert ist folglich:
363
𝑃𝑋 (𝑛 = 1 𝑖𝑠𝑡 𝑘𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛𝑠𝑓𝑟𝑒𝑖) = .
365
Umso mehr Personen wir hinzufügen, umso weniger freie Tage haben wir zur Verfügung, auf die
wir darauffolgende Personen setzen können.
Die 𝑛 = 𝑟 Person ist die letzte, die noch an genau einen Tag gesetzt werden kann, ohne dass
mindestens zwei Personen einen Geburstag teilen.
Die Wahrscheinlichkeit, dass die 𝑛 = 𝑟 Person mit keinem kollidiert ist folglich:
1
𝑃𝑋 (𝑛 = 1 𝑖𝑠𝑡 𝑘𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛𝑠𝑓𝑟𝑒𝑖) = .
365
Jede weitere Person führt somit unausweichlich zur Kollision. Dies ist aber auch verständlich, weil
wir in der Situation 𝑛 > 𝑟 mehr Objekte als Behälter haben.
Die Wahrscheinlichkeit 𝑃𝑋 (𝑘𝑒𝑖𝑛𝑒 𝐾𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛 𝑏𝑒𝑖 𝑛 𝑃𝑒𝑟𝑠𝑜𝑛𝑒𝑛) ist somit eine Folge der Form:
𝑟 (𝑟 − 1) (𝑟 − 2) (𝑟 − (𝑛 − 1))
𝑃𝑋 (𝑘𝑒𝑖𝑛𝑒 𝐾𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛 𝑏𝑒𝑖 𝑛 𝑃𝑒𝑟𝑠𝑜𝑛𝑒𝑛) = ∙ ∙ ∙ …∙
𝑟 𝑟 𝑟 𝑟
Dies lässt sich als Graph visualsieren.
Für jede Person, die wir in unsere Berechnung hinzufügen (n wird größer), gehen wir den Baum
herunter. Dabei können wir nur den linken grünen Pfad traversieren, weil jeder andere Pfad eine
Kollision zur Folge hätte (min. zwei Personen haben am selben Tag Geburstag). Wir erinnern uns:
Bei einer Traversierung in Richtung eines Blatts, werden die Wahrscheinlichkeiten multipliziert.
Zur vollständigen Formalisierung definieren wir unseren Zielbereich 𝑆𝑛 und das gesuchte Ereignis
𝑃𝑋 (𝑘𝑒𝑖𝑛𝑒 𝐾𝑜𝑙𝑙𝑖𝑠𝑖𝑜𝑛 𝑏𝑒𝑖 𝑛 𝑃𝑒𝑟𝑠𝑜𝑛𝑒𝑛) = 𝑃𝑋 (𝐴).
Unser Zielbereich ist bei n-Personen ein 𝑛-Tupel.
𝑆𝑛 ≔ 𝑆1 × 𝑆2 × … × 𝑆𝑛
Dabei gilt 𝑎𝑖 ≠ 𝑎𝑗 für jedes Element von A, weil 𝑎𝑖 ≠ 𝑎𝑗 bedeutet, dass mindestens zwei Personen
den gleichen Geburstag haben.
Wie zuvor ermittelt, gilt für die Anzahl der Kombinationsmöglichkeiten von 𝐴:
|𝐴| = 𝑟(𝑟 − 1)(𝑟 − 2) … (𝑟 − (𝑛 − 1))
Wir sehen, dass der Nenner mit 𝑟 = 365 konstant bleibt (die Grundmenge verbleibt gleich). Gehen
wir den Baum herunter, multiplizieren sich die Wahrscheinlichkeiten 𝑛-Mal.
Folglich gilt für die schon zuvor gefundene Wahrscheinlichkeit:
𝑟 (𝑟 − 1) (𝑟 − 2) (𝑟 − (𝑛 − 1)) 𝑟!
𝑃(𝑋 ∈ 𝐴) = ∙ ∙ ∙ …∙ = 𝑛
𝑟 𝑟 𝑟 𝑟 𝑟 (𝑟 − 𝑛)!
Das heißt, beide Terme sind sich in diesem Intervall sehr ähnlich. Eine Visualisierung bestätigt dies:
1-t vs exp(-t)
1.2
0.8
f(t)
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5
t
h(t)=1-t exp(-t)
Da Wahrscheinlichkeiten sich sowieso in [0,1] aufhalten, wird unsere Abschätzung nicht wild
ungenau. Außerdem sehen wir, dass sich der relative Fehler zwischen den Termen erst erhöht, je
weiter 𝑡 in Richtung 1 maschiert. Bezogen auf unsere Aufgabe bedeutet dies: Haben wir wenige
Objekte und viele Behälter, ist also die Differenz zwischen 𝑟 und 𝑛 groß, so ist unsere
Exponentialapproximation nicht weit vom tatsächlichen Wert entfernt.
Daraus folgt:
(𝑛−1) (𝑛−1)
𝑖 𝑖 ∗
−
1(𝑛−1)𝑛
𝑃(𝑋 ∈ 𝐴) = ∏ (1 − ) ≈ ∏ 𝑒 − 𝑟 = 𝑒 2𝑟
𝑟
𝑖=1 𝑖=1
𝑛
∗ 𝑤𝑒𝑖𝑙 𝑒 𝑎 ∙ 𝑒 𝑏 = 𝑒 𝑎+𝑏 𝑚𝑖𝑡 𝑎, 𝑏 ∈ ℝ 𝑢𝑛𝑑 𝑒 ∑𝑖=1 𝑖 = 𝑒 0.5𝑛(𝑛+1) (𝐺𝑎𝑢ß𝑠𝑐ℎ𝑒 𝑆𝑢𝑚𝑚𝑒𝑛𝑓𝑜𝑟𝑚𝑒𝑙)
−
(𝑛−1)𝑛 1 2𝑟 −1
𝑃(𝑋 ∈ 𝐴) = 𝑒 2𝑟 = (𝑛−1)𝑛
= ( √𝑒 (𝑛−1)𝑛 )
𝑒 2𝑟
Wir lösen den ersten Teil des Problems analog zum Geburstagsproblem. Nur ist hier unser 𝑟
unbestimmt und unser 𝑛 = 3.
Repräsentiere des Ereignis 𝐴 ⊂ 𝑆3 : „Es gibt keine Kollision der drei Objekte“.
𝑟! 𝑟!
𝑃(𝑋 ∈ 𝐴) = =
𝑟 𝑛 (𝑟 − 𝑛)! 𝑟 3 (𝑟 − 3)!
(𝑟 − 1)(𝑟 − 2)
𝑃(𝑋 ∈ 𝐴) =
𝑟2
0.99 = 𝑃(𝑋 ∈ 𝐴)
(𝑟 − 1)(𝑟 − 2)
⟺ 0.99 = | − 0.99
𝑟2
(𝑟 − 1)(𝑟 − 2)
⟺0= − 0.99
𝑟2
𝑟 2 − 3𝑟 + 2
⟺0= − 0.99 | ∙ 𝑟 2
𝑟2
⟺ 0 = 𝑟 2 − 3𝑟 + 2 − 0.99𝑟 2
1 2
⟺0= 𝑟 − 3𝑟 + 2
100
⟹ 𝑟1 ≈ 299.33, 𝑟2 ≈ 0.668
Das Ergebnis 𝑟2 ≈ 0.668 können wir verwerfen, weil wir nicht weniger Behälter haben
können als Objekte mit der Forderung, keine Kollision zu haben.
Für 𝑟1 gilt: Wir akzeptieren nur ganzzahlige Ergebnisse, weil wir in ganzen Tagen rechnen.
Dabei runden wir gerichtet aufwärts.
Daraus ändert sich unser „=“ zu einem „≥“, da wir minimal größer als 0.99 sind.
(b)
Es gelten die Definitionen und Zufallsvariablen aus (a).
Wir führen die Exponentialapproximation für 𝑃(𝑋 ∈ 𝐴) genau wie beim Geburtstagsproblem
durch.
𝑛(𝑛−1) 3(3−1) 3
𝑃(𝑋 ∈ 𝐴) ≈ 𝑒 − 2𝑟 = 𝑒− 2𝑟 = 𝑒 −𝑟
0.99 = 𝑃(𝑋 ∈ 𝐴)
3
≅ 0.99 = 𝑒 −𝑟 | ln()
99 3 1
⇔ ln ( )=− |∙𝑟 |∙
100 𝑟 99
ln (
100)
−3
⇔𝑟=
99
ln (
100)
⟹ 𝑟𝑒 ≈ 298.497
Diesmal haben wir nur ein Ergebnis. Hier ergibt die gerundete Version 𝑟̅𝑒 = 299.
Das korrekte ganzzahlige Ergebnis war 𝑟̅ = 300. Auch wenn der relative Fehler mit 𝑟𝑒𝑙 =
|𝑟1−𝑟𝑒 |
≈ 0.0028 sehr gering ausfällt, hat dies Auswirkungen auf unsere Konklusion. Weil für
𝑟1
𝑟̅𝑒 = 299 gilt 𝑃(𝑋 ∈ 𝐴) ≥ 0.99 nämlich noch nicht.
Ist es absolut kritisch, dass 𝑃(𝑋 ∈ 𝐴) ≥ 0.99, dann eignet sich die Exponentialapproximation
in diesem Fall nicht.
Kapitel 2
Definition 2.1
Eine Permutation ist eine bijektive Anordnung 𝜋: 𝑆 → 𝑆 einer Menge 𝑆 auf sich selbst.
Diese Menge 𝑆 ist dabei keine typische Menge sondern z.B. eine Multimenge (Multiset). Der
entscheidende Unterschied ist, dass ein Multiset multiple Vielfachheiten eines Elements erlaubt.
Verstehen kann man dies als eine sortierte Reihenfolge aller Elemente einer Menge.
Grundlegend unterscheiden wir zwischen Permutationen mit Wiederholung und Permutationen
ohne Wiederholung. Im englischsprachigen Raum gibt es bei dieser Einteilung gewisse Differenzen,
auf diese wird später eingegangen.
Bei Permutationen ohne Wiederholung sind alle Elemente unserer Menge 𝑆 distinkt. Dies bedeutet,
dass jedes Element von 𝑆 mit einer 1-fachen Vielfachheit auftritt.
Stellen wir uns vor, wir haben 𝑛 = 3 unterschiedliche Legosteine. Der Unterschied kann z.B. in der
Farbe liegen. Hauptsache es sind alle Objekte distinkt.
Diese drei Legosteine erfüllen diese Voraussetzung, weil kein Stein die gleiche Farbe besitzt.
Wir möchten nun wissen, auf wie viele Arten wir die Legosteine linear anordnen können.
Den ersten Stein können wir auf 𝑛 = 3 Positionen setzen.
Den zweiten Stein aber nur noch auf 𝑛 − 1 = 2, da eine beliebige Position schon vom ersten Stein
besetzt ist.
Die Position des dritten Steins ist schon gar nicht mehr frei wählbar, weil zwei Plätze schon von den
Steinen zuvor besetzt wurden. Für den dritten Stein steht somit nur noch 𝑛 − 2 = 1 Position zur
Selektion frei.
Um die Gesamtanzahl der möglichen Zuordnungen zu ermitteln, multiplizieren wir nur noch die
Möglichkeiten der Positionsbesetzung in jeder Stufe.
Dies ergibt 𝑛 ∙ (𝑛 − 1) ∙ (𝑛 − 2) = 3 ∙ 2 ∙ 1 = 6 verschiedene Anordnungen der 𝑛 = 3 distinkten
Legosteine.
Alternativ kann man jede Permutation auch als Graph betrachten. Dabei nimmt analog zur obrigen
Herleitung in jeder Stufe die Anzahl an Kanten ab, bis am Ende nur noch ein Blatt übrig bleibt.
Beachte: Jeder Weg zu einem Blatt gibt eine einzigartige Permutation wieder.
Hier ergibt sich die die Gesamtanzahl der Blätter wie oben aus 𝑛!.
Die folgende Abbildung zeigt alle möglichen Anordnungen der Legosteine.
Die Nummern entsprechen je einem Weg von der Wurzel bis zu einem Blatt aus dem
Permutationsbaum zuvor.
Definition 2.2
Eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen besitzt 𝑛! einzigartige bijekte Abbildungen
auf sich selbst.
Die Eigenschaften der Fakultätsfuntkion (𝑛!) werden im weiteren Verlauf weiter defininiert.
Tipp
Die obere Definition 2.2 lässt sich einprägsam merken als:
„Habe ich 𝑛 viele unterschiedliche Objekte, kann ich sie auf 𝑛! viele Arten anordnen.“
Beispiel 2.1
Betrachten wir folgende Situation:
Justin besitzt sieben verschiedene Pokale. Diese Pokale stellt er jeden Morgen in einer geraden
Line nebeneinander auf einen Tisch.
Wie viele Tage kann er jeden Morgen die Pokale anders anordnen, bevor sich eine Anordnung
wiederholt?
Daraus folgt:
|𝑀| = 7! = 5040
Somit kann Justin die Figuren 5040 Tage unterschiedlich anordnen, bevor sich eine Anordnung
wiederholt.
Was ist wenn gar nicht alle 𝑛 Legosteine ziehen möchten? Vielmehr, wollen wir manchmal nur
wissen, auf wie viele Arten wir die ersten 𝑟 𝑚𝑖𝑡 0 ≤ 𝑟 < 𝑛 Legosteine anordnen können.
Dann gilt:
Definition 2.3
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen.
𝑛!
𝑃(𝑛, 𝑟) = 𝑛𝑃𝑟 ≡
(𝑛 − 𝑟)!
Tipp
Die obere Definition 2.3 lässt sich einprägsam merken als:
„Ich kann auf 𝑛𝑃𝑟 verschiedene Arten 𝑟 Objekte aus 𝑆 ziehen. Dabei ist die Reihenfolge
relevant (da Permutation).“
Bedeuten tut dies bloß, dass wir den Permutationsbaum vom Anfang nur 𝑟 Stufen nach unten gehen
anstatt bis zu den Blättern.
Stellen wir uns vor, wir haben wieder 𝑛 = 3 unterschiedlich gefärbte Legosteine wie zuvor.
15 http://mathworld.wolfram.com/Permutation.html
Wir wollen nun wissen, auf wie viele Arten wir 𝑟 = 2 Legosteine anordnen können. Somit
interessieren wir uns nur für die ersten 𝑟 = 2 Bausteine, alle nachfolgenden sind irrelevant.
Daraus folgt:
3!
3𝑃2 = =6
(3 − 2)!
Auch in diesem Fall erhalten wir sechs Permutationen.
𝑛𝑃𝑟 = 𝑛!
Dies ist der Fall, weil wir in der vorletzten Ebene (vom Baum aus gesehen) genauso viele
Knoten haben wie Blätter.
Analog fragen wir uns nun, auf wie viele Arten wir 𝑟 = 1 Legosteine anordnen können.
Dies bedeutet, wir befinden uns in der ersten Ebene des Baums.
Daraus folgt:
3!
3𝑃1 = =3
(3 − 1)!
Auch dieses Ergebnis stimmt.
Die folgende Abbildung visualisiert alle Möglichkeiten, einen Stein zu ziehen.
Beispiel 2.2
Betrachten wir folgende Situation:
Wie viele Möglichkeiten gibt es, drei Pokale auf 20 Sportler zu verteilen?
20!
20𝑃3 = = 6840
(20 − 3)!
Somit kann man drei Pokale 20 Sportlern auf 6840 Arten verleihen.
Bei Permutationen mit Wiederholung ist mindestens ein Element unserer Menge 𝑆 nicht einzigartig.
Dies bedeutet, dass mindestens ein Element von 𝑆 mit einer Vielfachheit größer eins auftritt.
Stellen wir uns vor, wir haben erneut 𝑛 = 3 Legosteine. Diesmal haben aber zwei Legosteine
dieselbe Farbe.
Erneut möchten wir wissen, auf wie viele sich die Legosteine linear anordnen lassen.
Wir fangen sequentiell mit den Steinen an, die distinkt sind.
Den ersten Stein können wir beim Modell „ohne Wiederholung“ auf 𝑛 = 3 Positionen setzen.
Den zweiten Stein können wir aber nicht wie beim Modell „ohne Wiederholung“ auf 𝑛 − 1 = 2
Positionen setzen!
Dies ist der Fall, weil wir diesmal gleich zwei gelbe Steine auf einmal in der Hand halten.
2
Das heißt in diesem Fall, haben wir nur 𝑛 − 2 = 1 bzw. ( ) Möglichkeiten die zwei Steine
2
gemeinsam zu platzieren.
Da die gelben Steine somit eine Äquivalenzklasse bilden, ist es auch egal welcher von den zwei
gelben Steinen an erster und welcher an letzter Position gesetzt wird, weil wir sie nicht
unterscheiden können.
Um die Gesamtanzahl der möglichen Zuordnungen zu ermitteln, multiplizieren wir, analog zum
Modell „ohne Wiederholung“, die Möglichkeiten der Positionsbesetzung in jeder Stufe.
Dies ergibt 𝑛 ∙ (𝑛 − 2) = 3 ∙ 1 = 3 verschiedene Anordnungen der 𝑛 = 3 Legosteine.
Das folgende Bild visualisiert alle möglichen Anordnungen.
Die Anordnungen lassen sich aber auch leichter berechnen mit dem Multinomialkoeffizienten.
Definition 2.4
Es existiere eine Multimenge 𝑆 mit |𝑆| = 𝑛.
Dann ist
𝑛 𝑛!
𝑀 = (𝑘 , 𝑘 , … , 𝑘 ) =
1 2 𝑚 𝑘1 ! ∙ 𝑘2 ! ∙ … ∙ 𝑘𝑚 !
Tipp
Dies lässt sich leicht merken als:
„Nehme die Fakultät der Gesamtanzahl der Objekte geteilt durch die Fakultät der Vielfachheit
jedes Objekts“.
Auf wie viele Arten kann man die Buchstaben des Wortes „Mississippi“ anordnen?
Element M i s p
Vielfachheit 1 4 4 2
Daraus folgt:
11!
𝑀= = 34650
1! ∙ 4! ∙ 4! ∙ 2!
Man kann die Buchstaben auf 34650 Arten anordnen und erhält immer wieder ein neues
Wort.
Achtung
In einigen englischsprachigen Lektüren haben die Modelle etwas andere Bedeutungen:
Bisher waren alle unsere Permutationen linear. Das bedeutet, die Legosteine zu Beginn, die Pokale
in Beispiel 2.1, die Sportler in Beispiel 2.2, die Buchstaben in Beispiel 2.3: Alle diese Anordnungen
konnte man auf einer geraden Line repräsentieren (alle Elemente wurden sequentiell geordnet).
Stellen wir uns nun vor, wir sitzen an einen runden Tisch mit 𝑛 = 4 Gästen.
Wir fragen uns, auf wie viele Arten wir die Gäste anordnen können, so dass in jeder Anordnung
mindestens ein Gast einen anderen Nachbarn hat wie zuvor. Dabei bedeutet „anderer Nachbar“
auch, dass wenn eine Person die vorher links neben einem saß nun rechts sitzt.
16 https://www.mathsisfun.com/combinatorics/combinations-permutations.html
17 https://en.wikipedia.org/wiki/Permutation#Permutations_with_repetition
Unsere Menge 𝑆 ≔ {1,2,3,4} besteht aus den Gästen. Diese lässt sich aber nicht wie gewohnt
permutieren, denn es fällt uns folgendes auf:
Die Permutationen (1,2,3,4), (4,1,2,3), (3,4,1,2) und (2,3,4,1) sind eigentlich verschieden aber in
unserem Beispiel ändert dies nichts über die Sitzverhältnisse zwischen den Gästen!
Gast 1 sitzt noch immer neben Gast 2 und Gast 4, genauso sitzt Gast 2 noch immer neben Gast 1 und
Gast 2 usw.
Dies ist der Fall, weil eine Permutation, in der jedes Element um den gleichen Wert verschoben
wird, einer Rotation des Kreises entspricht.
Wir lösen dieses Problem indem wir ein beliebiges Element an einen beliebigen Platz fix setzen und
die verbleibenden (𝑛 − 1) auf die restlichen (𝑛 − 1) Plätze verteilen.
Halten wir z.B. die „1“ an der ersten Position konstant, so hat der erste frei setzbare Gast
(𝑛 − 1) = 3 Möglichkeiten gesetzt zu werden.
Der letzte belegbare Gast kann lediglich an (𝑛 − 3) = 1 freien Platz platziert werden.
Für die Gesamtanzahl der Kombinationen multiplizieren wir, wie auch in den anderen Modellen, die
Platziermöglichkeiten pro Gast.
Somit können wir die Gäste auf (𝑛 − 1) ∙ (𝑛 − 2) ∙ (𝑛 − 3) = 3 ∙ 2 ∙ 1 = 6 verschiedene Arten
hinsetzen.
Die folgende Abbildung zeigt alle möglichen Kombinationen der Gäste an.
Interessant ist z.B. die Permutation 4 und 5 in dem Bild. Der Gast 1 hat zwar immernoch Gast 3 und
Gast 4 als Nachbarn, relativ gesehen von seinem Blickpunkt haben sich aber die Nachbarn
gewechselt. Sein ursprünglicher linker Nachbar Gast 4 ist nun in der Permutation 5 sein rechter
Nachbar. Sein ursprünglicher rechter Nachbar Gast 3 ist nun sein linker Nachbar.
Somit ist dies tatsächlich eine gültige Anordnung.
Man spricht hier von zirkulärer Permutation. Der Rechenweg lässt sich verallgemeinern.
Wollen wir Objekte ohne Wiederholung (alle distinkt) um einen Kreis (in diesem Fall der runde
Tisch) permutieren und der Kreis ist fix (man kann ihn nicht aus der Ebene heben und umgekehrt
wieder hinstellen) gilt:
Definition 2.5
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen.
Die Anzahl der Möglichkeiten diese 𝑛 Objekte um einen fixen Kreis anzuordnen beträgt
𝑃𝑛 = (𝑛 − 1)! .
Definition 2.6
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen.
Die Anzahl der Möglichkeiten diese 𝑛 Objekte um einen fixen Kreis anzuordnen beträgt
1
𝑃𝑛 = (𝑛 − 1)! .
2
Tipp
Definitionen 2.5 und 2.6 lassen sich leicht unterscheiden.
18 http://mathworld.wolfram.com/CircularPermutation.html
Beispiel 2.4
Betrachten wir folgende Situation:
Justin hat 25 Leute zu seiner Geburstagsfeier eingeladen. Auf wie viele Arten kann
er seine Gäste um einen runden Tisch verteilen, wenn zwei der eingeladenen Gäste immer
neben ihn sitzen?
Justin lädt 25 Personen ein. Da er selbst aber auch am Tisch sitzt, befinden sich 26 Personen
am Tisch.
Zusätzlich möchte er aber immer neben zwei bestimmten Personen sitzen. Somit sind die
Positionen von zwei Personen fix. Folglich haben wir 26 − 2 = 24 Personen zu verteilen.
Die Permutation ist zirkulär, deshalb gilt 𝑃24 = (𝑛 − 1)! = 23! .
Daraus folgt:
Justin kann seine Gäste auf 23! verschiedene Arten am Tisch verteilen, wenn er immer neben
zwei Personen sitzen möchte.
Tipp
Im verallgemeinerten Fall spricht man von „Necklace Combinations“.
Zusätzlich wissen wir, dass im Modell ohne Wiederholung die Anzahl der linearen Permutationen
bei 𝑛! liegt.
Daraus folgt für jedes 𝑎 ∈ 𝑆:
1
𝑃(𝑋 = 𝑎) =
𝑛!
Da das Auftreten jeder Permutation gleichwahrscheinlich ist, nennt man
dies eine rein zufällige Permutation im Modell ohne Wiederholung.
FAQ: Wie kann man eine rein zufällige Permutation entstehen lassen?
Frage: Wie ist es möglich eine rein zufällige von 𝑛 Zahlen Permutation entstehen zu lassen?
Antwort: Für lineare Permutationen: Man stelle sich vor, man hat eine perfekt durchmischte
Urne mit 𝑛 Kugeln.
Jede dieser Kugeln ist beschriftet mit je einer Zahl aus 𝑎1 , 𝑎2 , … , 𝑎𝑛 . Man ziehe jetzt ohne
Zurücklegen alle 𝑛 Kugeln. Der Zahlenwert der ersten gezogene Kugel steht nun an der ersten
Position unserer neuen Permutation, der Zahlenwert der zweiten gezogenen Kugel an der
zweiten Stelle unserer neuen Position,…,der Zahlenwert der 𝑛-ten gezogenen Kugel an der 𝑛-
ten Stelle unserer neugewonnenen Permutation.
Dies kann man auch als Baum visualisieren. Dabei sieht der Baum genauso aus wie die
Permutationsbäume zu Beginn des Kapitels. Die Kanten sind nun aber mit (uniformen)
Wahrscheinlichkeiten versehen. Wir gehen einen beliebigen Pfad von der Wurzel zu einem
Blatt. Voila, unsere Permutation ist entstanden.
Für eine rein zufällige Permutation im Modell mit Wiederholung gilt das Analogon:
Haben wir eine Ausgangszahl 𝑍 = (𝑎1 , 𝑎2 , … , 𝑎𝑛 ) 𝑚𝑖𝑡 𝑎𝑖 ∈ ℕ , wobei mindestens zwei Ziffern gleich
sind (Modell mit Wiederholung), so gilt für eine rein zufällige Permutation von 𝑍10:
Sei 𝑆 die Menge aller Permutationen mit
𝑆 ≔ {𝑀𝑒𝑛𝑔𝑒 𝑎𝑙𝑙𝑒𝑟 𝑃𝑒𝑟𝑚𝑢𝑡𝑎𝑡𝑖𝑜𝑛𝑒𝑛 𝑣𝑜𝑛 (𝑎1 , 𝑎2 , … , 𝑎𝑛 )}.
Sei 𝑆 die Menge aller vorhanden Ziffern in unserem betrachteten Zahlsystem, also
𝑆 = {0,1,2,3, … 9}.
FAQ: Wie kann man eine Zufallszahl der Länge n entsehen lassen?
Frage: Wie ist es möglich eine Zufallszahl der Länge 𝑛 entstehen zu lassen?
Antwort: Man stelle sich vor, man hat eine perfekt durchmischte Urne mit 𝑛 Kugeln.
Jede dieser Kugeln ist beschriftet mit je einer Zahl aus 0,1, … ,9 (wenn wir das Dezimalsystem
verwenden). Man ziehe jetzt mit Zurücklegen 𝑛 Kugeln. Der Zahlenwert der ersten gezogene
Kugel steht nun an der ersten Position unserer neuen Permutation, der Zahlenwert der
zweiten gezogenen Kugel an der zweiten Stelle unserer neuen Position,…,der Zahlenwert der
𝑛-ten gezogenen Kugel an der 𝑛-ten Stelle unserer neugewonnenen Permutation.
Dies kann man auch wieder als Baum visualisieren. Dabei hat jedes Nichtblatt des Baumes
genau zehn Kinder (Anzahl der Ziffern im Dezimalsystem). Folglich hat jede Kante hat eine
1
Wahrscheinlichkeit 10. Wir gehen einen beliebigen Pfad von der Wurzel zu einem Blatt, um
unsere Zufallszahl zu generieren.
Weil Permutationen bijektive Abbildungen auf sich selbst sind, zerfällt jede Permutation in
Zyklen.19
Dies lässt eine alternative Schreibweise für Permutationen entstehen, die Cycle Notation.
Wir wissen, dass eine Permutation eine Abbildung 𝜋: 𝑆 → 𝑆 ist (Definition 2.1).
Für unsere Notation wenden wir diese Funktion wiederholt auf ein beliebig gewähltes 𝑥 ∈ 𝑆 an.
Die entstehende Sequenz schreiben wir in Klammern in der Form (𝑥, 𝜋(𝑥), 𝜋((𝜋(𝑥)), … ) auf.
Da wir aus dem oberen Bild und Vorlesung2a_k wissen, dass jede Permutation in Zyklen zerfällt,
kommen wir bei Mehrfachanwendung von 𝜋 auf ein 𝑥 irgendwann wieder bei 𝑥 an (es schließt sich
ein Kreis).
Veranschaulichung: Nehmen wir uns z.B. die Zahl 1 aus dem oberen Bild. Wenden wir 𝜋(1) an,
landen wir bei der 6. Nun nehmen wir 𝜋(6) und erhalten 3. Schließlich landen wir bei 𝜋(3) wieder
bei der 1. Der erste Kreis ist somit geschlossen.
Der rote Kreis im Bild lässt sich somit mit (1 → 6 → 3) = (1,6,3) beschreiben.
Jetzt haben wir aber noch zwei verbleibende Kreise im Bild, den grünen und blauen.
Nehmen wir uns jetzt also die 5. Wenden wir 𝜋(5) an, landen wir bei der 7. Der folgende
Funktionswert 𝜋(7) = 5 schließt wieder unseren Kreis.
Tipp
Da bei der Kreisdarstellung die Funktion 𝜋(𝑥) mehrfach angewendet wird, ist es egal bei
welchem 𝑥 wir starten.
Die Darstellung
(1,6,3)
Genauer gesagt, ist in der Kreisdarstellung jede Klammer 𝑎 und 𝑏 äquivalent, wenn gilt:
(𝑢1 , 𝑢2 , … , 𝑢𝑘 ) ⇔ ⏟
⏟ (𝑢1+𝑖 , 𝑢2+𝑖 , … , 𝑢𝑘+𝑖 ) , 𝑚𝑖𝑡 𝑖 ∈ ℕ
𝐾𝑙𝑎𝑚𝑚𝑒𝑟 𝑎 𝐾𝑙𝑎𝑚𝑚𝑒𝑟 𝑏
Um zwei Klammern auf Äquivalenz zu prüfen hilft es oft die Pfeile mitzuschreiben:
(542)(31) ⇔ (31)(542)
Tipp
Die Funktionsschreibweise 𝜋 = (1,2,3,4,5,6,7) → (6,4,1,2,7,3,5) hat auch Alternativen, z.B.
1234567 7652314
𝜋=( )=( )
6412735 5374162
Beispiel 2.5
Betrachten wir folgende Situation:
Schreibe die Permutation (4,2,6) → (2,4,6) in Zyklendarstellung.
Wir wählen ein beliebiges Element und wenden die Funktion 𝜋(𝑥) an, bis wir zum gleichen
Element zurückkommen (einen Kreis schließen).
Die 6 bleibt alleine übrig und bildet folglich mit sich selbst einen Kreis.
Manchmal möchten wir wissen, wie viele Permutationen von 𝑘 Elementen mit 𝑗 disjunkten Zyklen
existieren.
Definition 2.7
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑘 distinkten Elementen.
Dabei ist 𝑘 ≥ 1 (wir permutieren keine leere Menge).
Die Stirling Zahl erster Art 𝑠(𝑘, 𝑗) gibt die Anzahl der Permutationen von 𝑆 mit genau
𝑗 Zyklen.
(1) 𝑠(𝑘, 𝑘) = 1
(2) 𝑠(𝑘, 1) = (𝑘 − 1)!
(3) 𝑠(𝑘, 𝑗) = 𝑠(𝑘 − 1, 𝑗 − 1) + 𝑠(𝑘 − 1, 𝑗) ∙ (𝑘 − 1), 𝑤𝑒𝑛𝑛 𝑘 > 𝑗 > 1
Beispiel 2.6
Betrachten wir folgende Situation:
Bestimme die Anzahl der möglichen Permutationen mit 2 Zyklen von 𝑆 = {1,2,3}.
In diesem Fall ist unser 𝑗 = 2 und unser |𝑆| = 𝑘 = 3. Wir befinden uns somit im Fall (3).
𝑠(3,2) = 𝑠(2,1)
⏟ + 𝑠(2,2)
⏟ ∙2=3
=1 =1
Beispiel 2.7
Betrachten wir folgende Situation:
Bestimme die Anzahl der Fixpunkte der Permutation 𝜋 = (1 2 3 4 5 6 7)
3412765
Wir sehen, dass 𝜋(6) = 6 ist. Das bedeutet, die Zahl 6 wird auf sich selbst abgebildet. Folglich
ist dies der einzige Fixpunkt unserer Permutation.
Manchmal möchten wir wissen, wie viele Permutationen von 𝑘 Elementen mit 𝑗 Fixpunkten
existieren.
Definition 2.8
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑘 distinkten Elementen.
Die Rencontres Zahlen f(𝑘, 𝑗) geben die Anzahl der Permutationen von 𝑆 mit genau
𝑗 Fixpunkten.
Es existiert auch eine alternative Definition der Rencontres Zahlen, die das Gleiche aussagt:
Definition 2.9
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen.
(1) 𝐷0,0 = 1
(2) 𝐷1,0 = 0
(3)𝐷𝑛+2,0 = (n + 1)(𝐷𝑛+1,0 + 𝐷𝑛.0 )
𝑛
𝐷𝑛,𝑘 = ( ) ∙ 𝐷𝑛−𝑘,0 .
𝑘
Tipp
Außer wenn |𝑆| = 0 (wir permutieren null Elemente), sind die Ergebnisse aus Definition 2.8
und Definition 2.9 absolut gleich.
Welche Formel verwendet wird, steht somit offen.
Tipp
Für die Rencontres Zahlen existieren im Internet Tabellen für viele Werte, so dass eine
manuelle Berechnung oft nicht mehr notwendig ist.
Ein super Artikel der Definition 2.7 und 2.8 sehr ausführlich erklärt: Wikipedia-Cycles and
Fixed Points
Definition 2.10
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑛 distinkten Elementen.
Dann gilt:
𝑛!
𝐷𝑛,0 = ⌈ ⌉ , 𝑤𝑒𝑛𝑛 𝑛 𝑔𝑒𝑟𝑎𝑑𝑒, ∀𝑛 ≥ 1
𝑒
𝑛!
𝐷𝑛,0 = ⌊ ⌋ , 𝑤𝑒𝑛𝑛 𝑛 𝑢𝑛𝑔𝑒𝑟𝑎𝑑𝑒, ∀𝑛 ≥ 1
𝑒
Für die Anzahl der fixpunktfreien Permutationen (engl. Derangement) lässt sich auch folgende
Formel verwenden:
Definition 2.11
Es existiere eine Menge 𝑆 mit |𝑆| = 𝑘 distinkten Elementen.
!0 = 1
!𝑛 = {!1 = 0 ,
(𝑛 − 1)(! (𝑛 − 1) + ! (𝑛 − 2)) , 𝑤𝑒𝑛𝑛 𝑛 ≥ 2
Zehn Kollegen treffen sich zum vorweihnachtlichen „Wichteln“. Dabei kauft jeder genau ein
Geschenk. Diese Geschenke werden in einen Sack gepackt und wieder zufällig an die Kollegen
verteilt.
Wie viele Möglichkeiten gibt es diese Geschenke zu verteilen, wenn eine Person wieder das
Geschenk erhält, was er selbst gekauft hat?
Machen wir uns zuerst die Situation klar. Eine Person bekommt nach Anwendung einer
Permutation 𝜋 wieder genau sein Geschenk zurück. Seine Abbildung ist somit konstant. Wir
suchen die Anzahl der Permutationen mit 𝑘 = 1 Fixpunkt. Es existieren 𝑛 = 6 Personen.
Benutzen wir die Recontre Zahlen. Wir verwenden die Berechnung aus Definition 2.9.
5
𝐷5,1 = ( ) ∙ 𝐷
⏟ 4,0 = 45
1
=9,𝑠𝑖𝑒ℎ𝑒 𝐷𝑒𝑓.2.10
Da für 𝑘 = 0 auch Definition 2.11 zutrifft, können wir 𝐷4,0 mit dem Subfactorial berechnen. Es
kommt dasselbe raus.
Es gibt somit 45 Möglichkeiten die 6 Geschenke so zu verteilen, dass eine Person sein eigenes
Geschenk zurückerhält.
(𝑛)
b) Für 0 ≤ 𝑘 ≤ 𝑛 sei 𝑓𝑘 die Anzahl der Permutationen von 1, … , 𝑛 mit genau
𝑘 Fixpunkten.
(𝑛) (𝑛−𝑘)
Finden Sie eine Beziehung zwischen 𝑓𝑘 und 𝑓0 .
(𝑛)
c) Es sei 𝑝𝑘 die Wahrscheinlichkeit des Ereignisses, dass 𝑋 (𝑛) genau 𝑘 Fixpunkte
(𝑛)
hat. Zeigen Sie, dass für jedes 𝑘 ∈ ℕ0 die Folge 𝑝𝑘 für 𝑛 → ∞ gegen das
Poissongewicht zum Parameter 1 konvergiert.
a) Über Fixpunkte haben wir schon zuvor geredet. Insgesamt ähnelt die Fragestellung
den Aufgaben in Kapitel 3: Das Wunder der Indikatorvariablen. Wir definieren also
1, 𝑤𝑒𝑛𝑛 𝐼𝑛𝑑𝑒𝑥 𝑘 𝑒𝑖𝑛𝑒𝑛 𝐹𝑖𝑥𝑝𝑢𝑛𝑘𝑡 ℎ𝑎𝑡
𝐼𝑘∈{ℎ𝑎𝑡 𝐹𝑖𝑥𝑝𝑢𝑛𝑘𝑡} = { .
0, 𝑠𝑜𝑛𝑠𝑡
Aufgrund der Stochastik für Informatiker Aufgabe 8 WS17/18 wissen wir,
dass jeder Index 𝑘 die gleiche Auftrittswahrscheinlichkeit eines neuen Zyklus hat.
Das kann man auch auf die Auftrittswahrscheinlichkeit eines Fixpunkts für Element 𝑘
übertragen.
Somit gilt:
1
𝑃(𝐼𝑘 = 1) = .
𝑛
Die erwartete Anzahl der Fixpunkte ist folglich insgesamt:
1
𝐸[𝐼1 + 𝐼2 + ⋯ + 𝐼𝑛 ] = 𝑛 ∙ = 1.
𝑛
Dazu wird aber wissen vom nächsten Kapitel Der Binomialkoeffizient als das T-Shirt
Modell vorausgesetzt, insbesondere das gedankliche Modell der Treffer/Nichttreffer.
Nehmen wir ohne Beschränkung der Allgemeinheit ein Beispiel. Sei 𝑛 = 5 und 𝑘 = 2.
(5)
Dann hat 𝑓3 die Form:
(5)
𝑓3 = {(1,2,4,5,3), (4,2,3,5,1), … }.
Nehmen wir nun 𝑘 = 2 Elemente fix:
(_, _, 𝟑, 𝟒, _).
Die anderen Positionen sind dann mit den restlichen 𝑛 − 𝑘 = 3 Zahlen frei füllbar.
Um rauszufinden auf wie viele Arten sich diese restlichen Positionen befüllen lassen,
entfernen wir die markierten Zahlen 𝟑, 𝟒 aus der Menge.
Es bleiben dann 𝑛 − 𝑘 = 3 viele Zahlen übrig:
(, _, _, _).
Wichtig: Wir dürfen bei der Platzierung der Restzahlen nicht vergessen, dass kein
weiterer Fixpunkt entstehen darf.
(𝑛−𝑘)
Diese lassen sich auf 𝑓0 viele Arten ohne Fixpunkt befüllen.
(𝑛) 𝑛
Da 𝑓𝑘 einfach nur bedeutet, dass wir ( ) verschiedene 𝑘 − 𝑇𝑢𝑝𝑒𝑙 auf diese Weise
𝑘
markieren, gilt:
(𝑛) 𝑛 (𝑛−𝑘)
𝑓𝑘 = ( ) ∙ 𝑓0 .
𝑘
Der Binomialkoeffizient als das T-Shirt Modell
Bei Permutationen haben wir Objekte angeordnet. Dabei haben wir zwischen der Reihenfolge
unterschieden.
Wir sagten (1,2,3) ist eine andere Anordnung als (3,2,1). Wir haben Legosteine angeordnet und
zwischen (𝑟𝑜𝑡, 𝑔𝑟ü𝑛, 𝑏𝑙𝑎𝑢) und (𝑏𝑙𝑎𝑢, 𝑔𝑟ü𝑛, 𝑟𝑜𝑡) unterschieden.
Der einzige Unterschied zwischen einer Kombination und einer Permutation ist das bei einer
Kombination die Reihenfolge der Objekte egal ist.
Die Verbindung zu Permutationen wird besonders in der folgenden Definition verdeutlicht:
Definition 2.12
Eine Kombination ist eine Permutation mit irrelevanter Reihenfolge der Objekte.
Auch hier unterscheiden wir zwischen Kombinationen mit Wiederholung und Kombinationen ohne
Wiederholung.
Bei Kombinationen ohne Wiederholung sind wie auch bei Permutationen ohne Wiederholung alle
Objekte unserer Menge 𝑆 distinkt. Schauen wir uns unser Legobeispiel vom Beginn des Kapitels
nocheinmal an.
Wir haben 𝑛 = 3 unterschiedliche Bausteine. Diese ergaben 3! = 6 verschiedene Permutationen.
Jetzt fragen wir uns, wie viele verschiedene Kombinationen mit 𝑟 = 3 Bausteinen gibt es?
Da wir die Reihenfolge der Farben nicht beachten, gibt es nur eine mögliche Kombination von drei
Bausteinen. Dies erscheint auf dem ersten Blick vielleicht paradox.
Intuitiver wird es aber, wenn man die Frage paraphrasiert zu: „Auf wie viele Arten kann ich drei
Bausteine ziehen?“ oder „Auf wie viele Arten kann ich meine 𝑛 = 3 Bausteine in eine Gruppe der
Größe 𝑟 = 3 aufteilen?“.
Gedanklich stellen wir uns vor, dass wir bei der Aufzählung unserer Kombinationen die Farbe der
Legosteine nicht mehr beachten. Wir markieren alle vorhandenen Legosteine schwarz und färben
die zu ziehenden 𝑟 Steine weiß. Die Anzahl der Permutationen zwischen den weißen und
schwarzen Steinen bildet die Anzahl unserer möglichen Kombinationen. Um dies vollständig zu
verstehen, betrachten wir den Binomialkoeffizienten als das T-Shirt Modell.
Vergegenwärtigen wir uns folgenden Sachverhalt: Eure Freundin trägt gerne eure T-Shirts zum
schlafen, weil sie so bequem sind. Ihr wollt eurem „Girl“ eine Freude machen, indem ihr T-Shirts zu
ihr nach Hause bringt.
Also stehen wir zu Hause vor einem langem großem Regal voller T-Shirts. Dabei hat jedes dieser T-
Shirts hat eine andere Farbe (alle T-Shirts sind distinkt).
Wir haben 𝑛 T-Shirts im Regal. Wir bringen 𝑟 T-Shirts zu ihr. Während wir unseren Koffer packen,
fragen wir uns auf wie viele Arten wir unsere 𝑛 T-Shirts in eine Gruppe der Größe 𝑟 aufteilen
können. Pauschal gesagt: Auf wie viele Arten können wir unseren Koffer mit 𝑟 T-Shirts
von 𝑛 Gesamtshirts packen?
Sagen wir, in unserem Regal sind 𝑛 = 5 T-Shirts und wir möchten ihr 𝑟 = 3 bringen.
Für unser erstes T-Shirt, welches in den Koffer kommt, haben wir n=5 Möglichkeiten zu wählen.
Da wir ein T-Shirt nun in den Koffer gepackt haben, haben wir nur noch 𝑛 − 1 = 4 T-Shirts übrig.
Das zweite in den Koffer zu packende T-Shirt muss also eins von den vier übrigen sein.
Das letzte T-Shirt, welches wir unserer Freundin bringen, muss eins von den 𝑛 − 2 = 3 restlichen
sein.
Aber ist es wirklich relevant in welcher Reihenfolge wir die T-Shirts in den Koffer packen? Nein,
schließlich wollen wir eine Kombination und keine Permutation. Also teilen wir die 60
Anordnungen durch die Anzahl der Möglichkeiten, drei T-Shirts zu permutieren.
Folglich ist unser Endergebnis
5!
5𝑐3 = = 10.
3! ∙ (5 − 3)!
Folgende Graphik visualisert unsere vorhanden Kombinationen. Um diese in unser gedankliches
Modell zu überführen, malen wir unsere vorhanden 𝑛 T-Shirts schwarz, die zu ziehenden 𝑟 = 3
Shirts weiß und bilden alle möglichen Permutationen aus diesen.
Tipp
Wie im obigen Bild zu sehen, lassen sich Kombinationen alternativ als Permutationen
vorstellen, die zweigefärbt sind.
Dies ist auch für das spätere Verständnis der Binomialverteilung mit Treffer/Nichttreffer
nützlich.
Unsere gerade durchgeführte Berechnung lässt sich mit dem Binomialkoeffizienten vereinfachen.
Definition 2.13
Sei 𝑆 eine Menge mit |𝑆| = 𝑛 distinkten Elementen.
Sei 0 ≤ 𝑟 ≤ 𝑛 die Anzahl der Elemente einer Teilmenge 𝐴 ⊂ 𝑆.
Es gibt dann
𝑛! 𝑛
𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑘𝑜𝑒𝑒𝑓𝑖𝑧𝑖𝑒𝑛𝑡 ≔ 𝑛𝑐𝑟 = =( )
𝑟! ∙ (𝑛 − 𝑟)! 𝑟
Tipp
Der einzige Unterschied zwischen dem Binomialkoeefizienten 𝑛𝑐𝑟 und der Anzahl der
Permutationsteilmengen 𝑛𝑃𝑟 ist das Teilen durch 𝑟!. Dies machen wir, um aus der
Permutation (Reihenfolge relevant) eine Kombination (Reihenfolge irrelevant) zu machen.
Wir entfernen also Äste von unserem Permutationsbaum.
Insbesonders gilt:
1
∙ 𝑐 = 𝑃
𝑟! 𝑛 𝑟 𝑛 𝑟
Man kann sich den Unterschied aber auch so einprägen:
Bei 𝑛𝑃𝑟 hat die zu bildende Teilmenge 𝐴 die Form 𝑆 𝑟 (weil bei Tupeln (𝑎, 𝑏) die Reihenfolge
relevant ist).
Bei 𝑛𝑐𝑟 hat die zu bildende Teilmenge 𝐴 die Form 𝐴 ⊂ 𝑆 (weil bei Teilmengen {𝑎, 𝑏} die
Reihenfolge irrelevant ist).
Dabei ist unser 𝑟 nie größer als 𝑛. Das macht auch Sinn, weil wir können ja nicht mehr T-Shirts vom
Kleiderbügel nehmen, als wir im Schrank haben.
Außerdem kann unser Ergebnis nur 1 werden, wenn gilt:
Definition 2.14
Wenn 𝑟 = 𝑛, dann ist 𝑛𝑐𝑟 = 1.
Antwort: Wir haben 𝑛 Objekte. Es gibt nur eine Möglichkeit daraus eine Gruppe (keine
mathematische Gruppe, sondern wirklich Gruppe im Sinne von Agglomeration) der Größe
𝑟 = 𝑛 bilden.
In unserem gedanklichen Modell sind alle T-Shirts weiß und kein Shirt schwarz. Somit gibt es
nur eine Permutation der weißen Shirts. Dies ist z.B. in unserem Einleitungsbeispiel mit den
Legosteinen der Fall. Alle Steine sind nur noch weiß.
∗ 𝑤𝑒𝑖𝑙 𝑟 = 𝑛
0! 1
0𝑐0 = = =1
0! ∙ (0 − 0)! 1
Beispiel 2.9
Justin geht mit drei männlichen Freunden und seiner Freundin auf eine Party. Als die
Fünfergruppe ankommt stellt sie fest, dass das Event überfüllt ist. An der Tür werden sie vor
folgender Wahl gestellt: „Wir lassen nur zwei männliche Personen in Begleitung von einer Dame
rein“.
Folglich bleiben immer zwei Personen draußen. Auf wieviele Arten ist es den Freunden möglich,
unter diesem Regelwerk die Party zu betreten?
|𝑆| = 𝑛 = 5
ist für unseren Sachverhalt ungültig, weil die Menge nur aus Männern besteht.
Es soll schließlich jede Teilmenge Justins Freundin enthalten. Diese Situation erinnert uns an
Beispiel 2.4 (Geburtstagsfeier). Dort hatten wir Fixpunkte, nämlich zwei Personen20, die in jeder
Permutation neben dem Gastgeber saßen.
Justins 𝐹𝑟𝑒𝑢𝑛𝑑𝑖𝑛 ist somit bezüglich der Kombination fix. Das heißt in unserer Gruppe der Größe
𝑟 = 3 wechseln nur die Männer. Also rechnen wir:
4
𝑛−1𝑐𝑟−1 =( )=6
2
Dies ist gut zu sehen, wenn man sich das Ganze visualisiert. Die Freundin wird als schwarze
Kugel dargestellt, die sich nicht bewegt (fix ist).
Diese schwarze Kugel ist nicht natürlich zu verwechseln mit unseren 𝑛 − 𝑟 schwarzen Kugeln im
gedanklichen Modell.
20streng genommen hatten wir drei Fixpunkte, weil die Berechnung einer zirkulären Permutation noch einen
hinzufügt
Tatsächlich sind das alle Möglichkeiten, aus fünf Personen Dreiergruppen zu bilden, wo die
Freundin auf jeden Fall dabei ist.
Interessant ist, dass wir auch Gruppen bilden können, wo Justin (die grüne Kugel) nicht dabei ist
(z.B. Kombination Nr. 4). Ob ihm das gefallen wird?
Definition 2.15
Sei 0 < 𝑟 < 𝑛.
Seien die Basisfälle:
𝑛𝑐1 = 𝑛
𝑛𝑐0 = 1.
Dann folgt:
𝑛 𝑛−1 𝑛−1
𝑛𝑐𝑟 =( )=(
𝑟
)+( )
𝑟 𝑟−1
Tipp
Folgende Interpretation aus der Folie Vorlesung2a_k ist hilfreich:
𝑛 𝒏−𝟏 𝒏−𝟏
( )=( )+( )
𝑟 𝒓 𝒓−𝟏
Anzahl der Möglichkeiten, aus 𝑛 − 1 Männern und einer Frau ein 𝑟 köpiges Komitee
auszuwählen.
Entweder die Frau ist nicht dabei…oder sie ist dabei…
21 https://en.wikipedia.org/wiki/Pascal%27s_rule
Dies erinnert uns an Beispiel 2.9: Dort war die Frau immer dabei, also rechneten wir den
roten Teil.
Hätten wir gesagt, eine Frau darf nicht in Begleitung der Männer sein, so hätten wir den
blauen Teil gerechnet.
Wäre es uns die Anwesenheit einer Dame egal gewesen, dann hätten wir standardmäßig
𝑛𝑐𝑟 = 5𝑐3 gerechnet.
Das Dreieck geht dabei nach unten abzählbar unendlich weiter. Es entsteht also eine Pyramide, die
auf unendlich breitem Fundament steht. Uns interessiert oft aber nur eine Bestimmte Zeile.
Das Tolle: Eine Zeile lässt sich berechnen ohne die vorherigen Zeilen berechnet zu haben22.
Dabei wird das Dreieck wie folgt erstellt:
Der 𝑟-te Eintrag jeder 𝑛-ten Zeile entspricht 𝑓(𝑛, 𝑟). Dabei gilt: 0 ≤ 𝑟 ≤ 𝑛.
22ähnlich der Zahl 𝜋, wo der BBP Algorithmus eine beliebige Stelle 𝜋′𝑠 berechnet, ohne die vorherigen Stellen
berechnet zu haben
Tipp
Hier einige nützliche Hinweise zum Paskalschen Dreieck.
• das Dreieck ist in der Mitte immer symmetrisch
• am Rand befinden sich immer Einsen
• der Wert eines Eintrags ist die Summe der beiden Einträger darüber
• jede Zeile hat genau einen Eintrag mehr als die Vorzeile
• die zweite Diagonale ist eine Aufzählung der natürlichen Zahlen ohne null
Der letzte Hinweis lässt sich schwer vorstellen, also hier eine Visualisierung:
Tipp
Die Symmetrie des Paskalschen Dreiecks hat eine große Bedeutung für die
Binomialverteilung.
Teilen wir das paskalsche Dreieck in der 𝑛-ten Zeile durch 2𝑛 , so entsteht analog eine um den
1
Erwartungswert symmetrische Binomialverteilung mit 𝑝 = .
2
Definition 2.16
Sei 𝑛 > 0 𝑚𝑖𝑡 𝑛 ∈ ℕ 𝑢𝑛𝑑 𝑥, 𝑦 ∈ ℝ.
𝑛
𝑛
(𝑥 + 𝑦)𝑛 = ∑ ( ) 𝑥 𝑟 𝑦 𝑛−𝑟
𝑟
𝑟=0
Beispiel 2.10
Berechne (𝑥 + 2)2
Anstatt binomischer Formeln wenden wir aus Spaß den binomischen Lehrsatz an.
2
(𝑥 + 2)2 = ∑ (2) 𝑥 𝑟 𝑦 2−𝑟 = (2) 22 + (2) 2𝑥 + (2) 𝑥 2 = 𝑥 2 + 2𝑥 + 4
𝑟 0 1 2
𝑟=0
Wie auch bei Permutationen, lassen sich rein zufällige Kombinationen generieren. Dies wird auch
„das Erstellen von rein zufälligen 𝑟-elementigen Teilmengen“ genannt.
Wir möchten nun die Wahrscheinlichkeit ermitteln, aus einer Menge 𝑃 eine beliebige 𝑟-elementige
Teilmenge zu ziehen.
Sei 𝑝𝑖 ∈ 𝑃
1
𝑃(𝑌 = {𝑝1 , 𝑝2 , … , 𝑝𝑟 }) =
|𝑃|
( )
𝑟
FAQ: Wie kann man eine rein zufällige Kombination entstehen lassen?
Frage: Wie ist es möglich eine rein zufällige 𝑟-elementige Kombination von 𝑛 Zahlen
entstehen zu lassen?
Eine andere Möglichkeit: Wir erinnern uns an unserem gedanklichen Modell der
Kombinationen*, wo wir die Elemente einer Menge 𝑆 in 𝑟 weiße und 𝑛 − 𝑟 schwarze Kugeln
aufteilen.
Diese 𝑟 und 𝑛 − 𝑟 schwarze Kugeln packen wir in eine Urne. Wir ziehen nun alle Kugeln
nacheinander ohne zurücklegen.
Ziehen wir eine weiße Kugel im 𝑖-ten Zug, so fügen wir das Element 𝑎𝑖 ∈ 𝑆 in unsere
Zielmenge 𝐵 ≔ {𝑡1 , 𝑡2 , … , 𝑡𝑟 : 𝑡𝑖 ∈ 𝑆} ein. Haben wir alle Kugeln aus der Urne gezogen, so sind
wir fertig.
*siehe Beginn des Abschnitts „Kombinationen“
Die Anzahl der Kombinationen bei Objekten mit Wiederholung (nicht alle Objekte von 𝑆 sind
distinkt) werden später hier hinzugefügt.
Rein zufällige Stichprobe ohne Zurücklegen
Wir befinden uns im Legoland vor einer großen Kiste mit 20 unterschiedlichen Legosteinen. Da wir
zuvor im „Lego-Lotto“ gewonnen haben, dürfen wir in diese hineingreifen und uns 5 Steine
herausnehmen. Der Twist: Jedes Mal wenn wir einen Stein entnehmen, kommt wieder ein von den
anderen verschiedener Stein in die Kiste hinzu. Plötzlich überkommt uns der innere Stochastiker:
Wie viele Kombinationsmöglichkeiten der gezogenen Legosteine gibt es eigentlich?
Das Obere kann man als 𝑟 = 5-fache Stichprobe auffassen. Würden wir keinen Stein nach jeder
Ziehung hinzufügen, hätten wir eine eine „𝑛-fache Stichprobe ohne Zurücklegen“. Die Berechnung
würde uns leicht fallen, weil wir zuvor in Der Binomialkoeffizient als das T-Shirt Modell genau
diesen Fall betrachtet haben.
Nun fügen wir nach jeder jeder Ziehung einen Stein hinzu. Gefühlt würde das einer Reduktion der
Kombinationsmöglichkeiten gleichkommen, da wir nun in jedem Schritt eine nichtabnehmende
Anzahl an Legosteinen zur Verfügung haben.
Zur Hilfe kommt uns unser gedankliches Modell des Binomialkoeffizienten. Unsere Anzahl an 𝑛 =
20 Legosteinen sei symbolisiert durch entsprechend viele schwarze Steine. Von denen färben wir 5
weiß, was unserer 𝑟 = 5-fachen Stichprobe entspricht.
Als wir die Kombinationen in Der Binomialkoeffizient als das T-Shirt Modell betrachteten,
verwendeten wir bis jetzt ein identisches gedankliches Modell. Wenn unsere Stichprobe nur
unterschiedliche Steine enthalten würde, hätte unsere Modellierung auch kein Problem. Wir
müssen aber irgendwie simulieren, einen Stein mehrfach zu ziehen.
Dazu fügen wir 𝑟 − 1 viele „Zählsteine“ hinzu. Diese tun, wie der Name schon sagt, zählen, wie oft
wir Steine selektieren. Dabei werden diese nur aktiviert, wenn wir einen Stein mehr als einmal
selektieren.
Definition 2.17
Sei 𝑛 ∈ ℕ 𝑢𝑛𝑑 0 ≤ 𝑟 ≤ 𝑛 𝑚𝑖𝑡 𝑟 ∈ ℕ.
𝑛+𝑟−1
( ).
𝑟
Der junge Jonas ist Multimilliardär. Als besonderes Zeichen der Zuneigung, hat sich sein
Vater folgendes ausgedacht: Immer, wenn Jonas ein Spielzeug aus seiner Kiste nimmt,
wird von seinen Buttlern sofort ein neues in die Kiste gepackt. Dabei ist der Tyo des
hinzugefügten Spielzeugs identisch mit dem zuvor entnommenen. Jonas entnimmt der
Kiste jeden Tag vier Spielzeuge und wirft diese weg.
Wie hoch ist die Wahrscheinlichkeit, dass Jonas nach neun Tagen genau dreimal dieselbe
Stichprobe an Spielzeugtypen gezogen hat?
Dies ist der Fall, weil die Kiste in jedem Schritt immer dieselbe Anzahl an Spielzeugen hat.
9
𝑃(𝑋 = 3) = ( ) ∙ 𝑝3 ∙ (1 − 𝑝)6 ≈ 7.37 ∙ 10−10 .
3
Dabei fragt er sich, auf wie viele Arten die 𝑛 = 6 Äpfel in die 𝑟 = 3 Behälter gefüllt werden können.
Solch einer Situation sind wir bei Kombinationen noch nicht begegnet: Alle Objekte unserer
Betrachtung sind diesmal nicht distinkt.
Das heißt alle Äpfel bilden eine Äquivalenzklasse bezüglich dem Gleichheitsoperator.
Überraschenderweise ist dies aber nicht weiter schlimm: Uns interessieren nämlich nicht die Äpfel
selbst sondern die möglichen Füllstände (Besetzungen) eines Behälters.
Um die Besetzungen der Eimer zu repräsentieren durchführen wir folgenden gedanklichen Kniff:
Wir legen die Äpfel linear in eine Reihe hin. Zwischen den Äpfel legen wir 𝑟 − 1 = 2 Trennstäbe hin.
Diese Begrenzungen simulieren jeweils die „Ränder“ der jeweiligen Eimer. Alle Äpfel vor dem
ersten Stab kommen dann in den ersten Eimer, alle Äpfel zwischen der ersten und zweiten
Begrenzung kommen in den zweiten Eimer und alle Äpfel danach in den dritten.
Dabei bedeuten zwei Stäbe hintereinander, dass ein Eimer nichts bekommt.
Um zu erfahren, wie viele unterschiedliche Besetzungen der Eimer existieren, müssen wir doch nur
noch herausfinden, auf wie viele verschiedene Arten wir die Stäbe verteilen können.
Hier hilft uns das gedankliche Modell des Binomialkoeffizienten, welches schon im Kapitel zuvor
erklärt wurde. Wir fügen die 𝑟 − 1 = 2 Stäbe zu unseren Kugeln hinzu und färben sie weiß. Danach
suchen wir alle Möglichkeiten, die weißen Kugeln auf unsere 𝑛 + 𝑟 − 1 = 8 große Kugelmenge zu
verteilen.
𝑛+𝑟−1 8
Justin hat somit ( ) = ( ) = 28 Möglichkeiten die Eimer zu befüllen.
𝑟−1 2
Dies bringt uns zu folgender Besetzungsformel:
Definition 2.18
Sei 𝑛 > 0 𝑚𝑖𝑡 𝑛 ∈ ℕ 𝑢𝑛𝑑 1 ≤ 𝑟 ≤ 𝑛 𝑚𝑖𝑡 𝑟 ∈ ℕ.
Für je zwei positive Ganzzahlen 𝑛 und 𝑟 ist die Anzahl nichtnegativer 𝑟-Tupel mit Summe 𝑛
gleich
der Anzahl der Multimengen mit Kardinalität (𝑟 − 1) aus einer Menge mit 𝑛 + 1 Elementen23,
also
𝑛+𝑟−1 𝑛+𝑟−1
( )=( )
𝑟−1 𝑛
Tipp
Faustregel: Möchte ich die Anzahl der Besetzungen von 𝑛 Elementen mit 𝑟 Eimern
ausrechnen und:
Rechne:
𝑛+𝑟−1
𝑛+𝑟−1𝑐𝑟−1 =( )
𝑟−1
Antwort: Stellen wir uns vor, wir haben ein Gleichungssystem mit 𝑟 = 2 Variablen24.
Das Ergebnis des Gleichungssystem ist die positive Zahl 𝑛=4.
𝑥1 + 𝑥2 = 4
Ich möchte nun wissen, wie viele verschiedene ganzzahlige nicht negative Lösungen es für die
Variablen 𝑥1 und 𝑥2 gibt.
Aber hey, unsere Variablen 𝑥1 und 𝑥2 sind doch dann einfach nur Eimer die wir befüllen wollen.
Somit können wir ohne Verlust unsere Aufgabe in unser Apfelbaumsituation konvertieren.
Folgendes Bild visualisiert dies:
23 https://en.wikipedia.org/wiki/Stars_and_bars_(combinatorics)
24 http://math.stackexchange.com/questions/910809/how-to-use-stars-and-bars-combinatorics
5
Somit gibt es ( ) = 5 nicht negative Zuweisungen für unsere Variablen.
1
Justin wäre aber kein guter Vater, wenn er den Apfeleimer eines seiner Kinder leer lassen würde.
Also fragt er sich, auf wie viele Arten er die Eimer füllen kann mit mindestens einem Apfel pro
Eimer.
Das bedeutet, dass keine zwei Stäbe hintereinander oder an einen Rand platziert werden dürfen.
Wie verhindern wir dies? Indem wir die Stäbe ausschließlich in den Zwischenräumen zwischen
zwei Äpfeln platzieren!
Dies können wir auch ohne Probleme in unser gedankliches Modell mit den Binomialkoeffizienten
überführen:
𝑛−1 5
Justin hat somit ( ) = ( ) = 10 Möglichkeiten sechs Äpfel zu verteilen, so dass jeder Eimer
𝑟−1 2
mindestens einen Apfel hat.
Für Eimer mit Mindestfüllwert eins gilt:
Definition 2.19
Sei 𝑛 > 0 𝑚𝑖𝑡 𝑛 ∈ ℕ 𝑢𝑛𝑑 1 ≤ 𝑟 ≤ 𝑛 𝑚𝑖𝑡 𝑟 ∈ ℕ.
Für je zwei positive Ganzzahlen 𝑛 und 𝑟 ist die Anzahl positiver (größer null) 𝑟-Tupel mit
Summe 𝑛 gleich der Anzahl der (𝑟 − 1)-elementigen Teilmengen einer Menge mit 𝑛 − 1
Elementen25, also
gleich
𝑛−1
𝑛−1𝑐𝑟−1 =( )
𝑟−1
Tipp
Faustregel: Möchte ich die Anzahl der Besetzungen von 𝑛 Elementen mit 𝑟 Eimern
ausrechnen und:
Rechne:
𝑛−1
𝑛−1𝑐𝑟−1 =( )
𝑟−1
25 https://en.wikipedia.org/wiki/Stars_and_bars_(combinatorics)
FAQ: Wie kann ich die vorherige Definition verstehen?
Frage: Wie soll ich jetzt diese Definition verstehen?
Antwort: Fast genau so wie die Definition zuvor. Stellen wir uns nochmal vor, wir haben ein
Gleichungssystem mit 𝑟 = 2 Variablen.
Das Ergebnis des Gleichungssystem ist erneut die positive Zahl 𝑛=4.
𝑥1 + 𝑥2 = 4
Ich möchte nun wissen, wie viele verschiedene ganzzahlige positive Lösungen es für die
Variablen 𝑥1 und 𝑥2 gibt.
Diesmal kann eine Variable folglich keinen Wert kleiner 1 annehmen, weil Positivität der
Variablen gefordert ist.26
Daraus folgt:
3
Somit gibt es ( ) = 3 positive Zuweisungen für unsere Variablen.
1
Beispiel 2.12
Lil Wayne hält einen Vortrag in einer Schulkasse mit 25 Schülern. Um sein Image eines
Rappers zu bewahren, springt er plötzlich auf einen abgedeckten Tisch und schreit „Let’s
make it rain“.
Ohne Vorwarnung wirft er ein Bündel mit einhundert identischen 50$ Scheinen in die Luft.
Auf wie viele Arten können die 25 Schüler die Geldscheine einsammeln, wenn jeder
mindestens einen 50$ Schein fängt?
Wir sehen die Schüler als unsere 𝑟 = 25 Behälter und die hundert Geldscheine als unsere
𝑛 = 100 Äpfel.
Es gilt:
𝐽𝑒𝑑𝑒𝑟 𝑆𝑐ℎü𝑙𝑒𝑟 𝑓ä𝑛𝑔𝑡 𝑚𝑖𝑛𝑑. 𝑒𝑖𝑛𝑒𝑛 50$ 𝑆𝑐ℎ𝑒𝑖𝑛 ⇔ 𝑗𝑒𝑑𝑒𝑟 𝐸𝑖𝑚𝑒𝑟 𝑚𝑖𝑡 𝑚𝑖𝑛𝑑. 𝑒𝑖𝑛𝑒𝑛 𝐴𝑝𝑓𝑒𝑙 𝑔𝑒𝑓ü𝑙𝑙𝑡
26Positivität der Zahl Null hängt oft vom Kontext ab. Siehe
http://math.stackexchange.com/questions/26705/is-zero-positive-or-negative
Somit rechnen wir:
𝑛−1 100 − 1
𝑛−1𝑐𝑟−1 =( )=( ) ≈ 6 ∙ 1022
𝑟−1 25 − 1
Die 25 Schüler können die 100 Scheine auf ungefähr 6 ∙ 1022 Arten einsammeln, wenn jeder
Schüler mindestens einen Geldschein erhält.
Tipp
Unsere Methode die Anzahl von Besetzungszahlen visuell mit Trennstäben zu erklären heißt
in englischer Literatur stars and bars.
Nützliche Formeln:
Definition 2.20
Sei 𝑛 > 0 𝑚𝑖𝑡 𝑛 ∈ ℕ 𝑢𝑛𝑑 1 ≤ 𝑟 ≤ 𝑛 𝑚𝑖𝑡 𝑟 ∈ ℕ.
Für je zwei positive Ganzzahlen 𝑛 und 𝑟 ist die Anzahl positiver (größer null) 𝑟-Tupel mit
Summe 𝑛 gleich der Anzahl der (𝑟 − 1)-elementigen Teilmengen einer Menge mit 𝑛 − 1
Elementen27, also
gleich
𝑛
𝑛 𝑚−1
( )= ∑( )
𝑟 𝑟−1
𝑚=𝑟
Tipp
Die obere Definition lässt sich pauschal erläutern als:
𝑛
Die Anzahl der positiven 𝑟 Tupel, die kleiner gleich 𝑛 sind ist ( ).
𝑟
Ein sehr schöner Beweis und weitere Erläuterungen lassen sich hier finden:
Math.Stackexchange-Sums of stars and bars
27 https://en.wikipedia.org/wiki/Stars_and_bars_(combinatorics)
Stochastik für Informatiker Aufgabe 10, WS17/18
Es sei 𝑆10,3 die Menge der Besetzungen von 3 Plätzen mit 10 Objekten.
a) Geben Sie die Anzahl der Elemente von 𝑆10,3 an, indem Sie
(i) die in der Vorlesung diskutierte Bijektion zwischen 𝑆10,3 und der Menge aller
01-Folgen der Länge 12 mit genau zwei Nullen verwenden.
(ii) das entsprechende de Finetti-Dreieck (Dreiecksdiagramm) entlang seiner
Zeilen abzählen.
b) Warum hat {𝑏 ∈ 𝑆10,3 : 𝑏𝑗 ≥ 1 𝑓ü𝑟 𝑎𝑙𝑙𝑒 𝑗} genau so viele Elemente wie 𝑆7,3 ?
c) 20 Objekte werden gemäß einer uniform verteilten Besetzung auf 5 Plätze gesetzt.
Wie wahrscheinlich ist es, dass dabei kein Platz leer bleibt.
a) Wir haben 𝑛 = 10 Äpfel und 𝑟 = 3 Plätze. Die in der Vorlesung disktuierte Bijektion
ist genau unser Stars & Bars Modell. Somit gilt:
𝑛+𝑟−1 12
𝑆10,3 = ( ) = ( ) = 66.
𝑟−1 2
b) Algebraische Veranschaulichung:
Die Menge {𝑏 ∈ 𝑆10,3 : 𝑏𝑗 ≥ 1 𝑓ü𝑟 𝑎𝑙𝑙𝑒 𝑗} ist äquivalent zu: Menge aller
Apfelbesetzungen mit zehn Äpfeln und drei Eimern, wo jeder Eimer mit mindestens
einem Apfel gefüllt ist.
𝑛−1 9
Die obere Anzahl beträgt ( ) = ( ).
𝑟−1 2
Es gilt:
𝑛+𝑟−1 9 𝑛−1 9
𝑆7,3 = ( )=( )=( ) = ( ) ✓.
𝑟−1 2 𝑟−1 2
Da beide Seiten gleich sind, ist 𝑆10,3 identisch mit der oben genannten Menge.
𝑛+𝑟−1 24
( ) = ( ) = 10626
𝑟−1 4
Definition 2.21
Gegeben sei eine Menge 𝑀 mit den Elementen 𝑎, 𝑏, 𝑐 ∈ 𝑀 und dem Relationsoperator ≤.
*einschließendes oder
Die Menge ℕ der natürlichen Zahlen ist eine total geordnete Menge. Dies gilt auch für ℤ, ℚ und ℝ.
Definition 2.22
Gegeben sei eine Menge 𝑀 mit den Elementen 𝑎, 𝑏, 𝑐 ∈ 𝑀 und dem Relationsoperator ≤.
Die Mengen ℕ, ℤ, ℚ und ℝ sind partiell geordnete Mengen, weil jede total geordnete Menge eine
partiell geordnete Menge ist.
Antwort: Schauen wir uns die Axiome genauer an, so stellen wir fest, dass die totale Ordnung
eigentlich vier Axiome besitzt.
Die Totalitätsbedingung liefert aber noch ein weiteres Detail: Sie fordert nämlich, dass alle
Elemente der Menge 𝑀 untereinander vergleichbar sind.
Dies ist bei unseren Zahlenmengen ℕ natürlich der Fall, da wir ja jede Zahl aus ℕ mit einer
anderen Zahl aus ℕ vergleichen dürfen.
Die partielle Ordnung fordert dies nicht. Wir könnten somit eine Menge konstruieren, wo nur
bestimmte Elemente mit dem Relationsoperator verträglich sind.
Tipp
Um eine Ordnung herzustellen, muss nicht zwingend der Relationsoperator ≤ verwendet
werden.
Jeglicher Operator, der die oberen Axiome erfüllt stellt eine Ordnung her, siehe hier.
Nun können wir ein anderes Beispiel entwerfen. Stellen wir uns vor, wir haben 𝑛 Äpfel.
Um den Überblick zu behalten, versehen wir jeden Apfel mit einem Etikett. Auf jedem Etikett steht
eine einzigartige Zahl. Somit ist jeder Apfel nummeriert. Es gilt: Keine zwei Äpfel teilen dieselbe
Nummerierung.
Wir nennen zwei Äpfel benachbart, wenn die Etikettennummern direkte Nachfolger sind.
Zum Beispiel sind die Äpfel mit den Nummern 1 und 2 benachbart.
Die Äpfel mit den Nummern 1 und 3 sind dagegen nicht benachbart, da 3 kein direkter
Nachfolger von 1 ist.
Die Frage: Auf wie viele Arten können wir aus 𝑛 Äpfeln 𝑟-viele wählen, so dass keiner dieser Äpfel
benachbart ist?
In anderen Worten: Wie viele Teilmeingen der Größe 𝑟 lassen sich aus einer geordneten Menge der
Größe 𝑛 bilden, wobei die Elemente der Teilmengen untereinander nicht benachbart sind?
Erneut hilft uns hier eine Variation von Stars & Bars28.
Wir haben 𝑛 viele Äpfel.
Es bleiben nach dem ziehen von 𝑟 Äpfel genau 𝑛 − 𝑟 viele übrig. Wichtig: In diesem Schritt
entfernen wir die Etikettennummer aus der Modellierung, weil uns nur die übriggebliebenen Äpfel
interessieren.
Dabei agieren diese Äpfel wie „Templates“: Sie stehen für die entstehende Restmenge nach einer
validen Selektion von 𝑟 Äpfeln. Wenn wir also die Etikettennummern der gezogenen 𝑟 Äpfel
festlegen, kennen wir die Etikettennummern der Restäpfel.
Diese 𝑛 − 𝑟 vielen Äpfel haben genau 𝑛 − 𝑟 + 1 viele Lücken (inklusive Anfang und Ende).
Jede dieser Lücken repräsentiert dabei etwas Einzigartiges: Nämlich eine gültige Stelle, aus der wir
unsere 𝑟 Äpfel selektieren können.
Dies ist der Fall, da zwischen den Lücken ja immer ein „Apfel“ ist und Nachbarschaftskonflikte
somit ausgeschlossen sind.
Jeder der drei rechteckigen Kästen entspricht einer Teilmenge. Die schwarzen „unnummerierten“ Äpfel bekommen erst
ein Etikett,, nachdem die blauen Lücken bestimmt wurden. Ein blauer Apfel ist Teil der jeweiligen 𝑟 = 2 elementigen
Teilmenge.
Definition 2.23
Gegeben sei eine geordnete Menge 𝑀 (keine Multimenge) mit |𝑀| = 𝑛.
Die Anzahl der möglichen 𝑟 elementigen Teilmengen, wo kein Element benachbart ist,
beträgt
n−r+1
𝑛−𝑟+1𝑐𝑟 = ( ).
r
Beispiel 2.13
In einem Marathon laufen 370 Sportler. Dabei sind diese durchnummeriert von 1 bis 370.
Wenn alle die gleichen Siegchancen besitzen, wie wahrscheinlich ist es, dass keiner der
ersten 12 Zielläufer die direkt konsekutive Nummer eines anderen dieser 12 Zielläufer
trägt?
Die Nummern aus der Nummerierung sind eine Teilmenge von ℕ, somit sind sie vollständig
geordnet.
Außerdem hat jeder Sportler eine eigene Nummer, sprich keine zwei Personen tragen die
gleiche Nummerierung. Damit benötigen wir auch keine Multimenge zur Modellierung, da die
Multiplizität jedes Elements gleich eins ist.
Daraus folgt:
Ω ≔ {𝑆𝑝𝑜𝑟𝑡𝑒𝑟1 , 𝑆𝑝𝑜𝑟𝑡𝑙𝑒𝑟2 , … , 𝑆𝑝𝑜𝑟𝑡𝑙𝑒𝑟𝑛 }
𝐴 ⊆ Ω ≔ {𝑛𝑖𝑐ℎ𝑡𝑏𝑒𝑛𝑎𝑐ℎ𝑏𝑎𝑟𝑡𝑒 𝑍𝑖𝑒𝑙𝑙ä𝑢𝑓𝑒𝑟}
370
Es gibt 370𝑐323 = ( )-viele 𝑘 = 12 elementige Teilmengen insgesamt. Von denen gibt es
12
370 − 12
laut unserer oberen Definition genau 370−12𝑐12 = ( )-viele ohne benachbarte
12
Elemente.
370−12
( )
12
𝑃(𝐴) = 370 ≈ 0,669
( )
12
Tipp
Für alternative Erklärungen und Herleitungen siehe hier und hier.
Kapitel 3
Zufallsvariablen aber auch einfache Ereignisse induzieren Verteilungen. Die Verteilung eines
Zufallsprozesses zu erkennen ist von elementarer Bedeutung. Oft lassen sich Fragestellungen
massiv vereinfachen, wenn man eine komplizierte Verteilung in eine einfachere approximativ
überführen kann.
Zu Beginn des Kapitels beantworten wir was eine Verteilung ist, beginnen mit der Konstruktion von
Gewichten und Gewichtsfunktionen für diskrete Zufallsvariablen, entdecken den Erwartungswert
und die Varianz und schließen mit vielen Beispielen für diskrete Verteilungen ab.
Definition 3.1
Eine Verteilung beschreibt die Zuteilung von Wahrscheinlichkeiten durch unsere
Maßfunktion 𝑃.
Eine Verteilung lässt sich folglich auf mehrere Arten spezifizieren, z.B. als Dichtefunktion bei
kontinuierlichen Zufallsvariablen, Gewichtsfunktion bei diskreten Zufallsvariablen und mehr29.
Auch eine einfache Auflistung aller Ereignisse mit der dazugehörigen Wahrscheinlichkeit entspricht
einer Angabe einer Verteilung.
Bei einem Münzwurf ist somit
1
𝑃(𝑋 = 𝐾𝑜𝑝𝑓) = 𝑃(𝑋 = 𝑍𝑎ℎ𝑙) =
2
eine gültige Angabe der durch 𝑃 induzierten Verteilung.
Erinnern wir uns an die Definition eines Messraums (Kapitel 1), so fällt uns auf: Unsere Verteilung
ist nichts anderes als unsere Messfunktion 𝜇. Somit erfüllt eine gültige Angabe einer Verteilung
auch sämtliche Axiome von 𝜇. Folgendes Axiom ist dabei besonders wichtig (Wiederholung):
29 https://en.wikipedia.org/wiki/Probability_distribution
Definition 3.2
Die Summe aller Einzelwahrscheinlichkeiten unserer Verteilung ergibt 1.
Wird somit nach Angabe einer Verteilung gefragt, müssen wir immer prüfen, ob sich die
Wahrscheinlichkeiten aller unserer Elementarereignisse 30auf 1 summieren.
Da eine sequentielle Angabe von Einzelwahrscheinlichkeiten bei diskreten Zufallsvariablen schnell
unhandlich wird und bei kontinuierlichen gar unmöglich ist, behelfen wir uns mit den Werkzeugen
der Analysis (Sprichwort: Gewichtsfunktion, Dichtefunktion).
Grundsätzlich gilt: Solange erkennbar ist, nach welchen Kriterien unsere Funktion 𝑃
Wahrscheinlichkeiten zuteilt, erhält man eine gültige Angabe der Verteilung.
Tipp
Das kleine 𝑋 in 𝑓𝑋 gibt an, für welche Zufallsvariable zuständig ist.
Diese Art der Notation hatten wir auch schon zu Beginn erlebt, nämlich:
𝑃({𝑋 = 𝑘}) = 𝑃𝑋 ({𝑘})
Auch beim bedingten Erwartungswert werden wir das „subscript“ in der Notation wieder
begegenen.
30Falls vergessen wurde, was der Unterschied zwischen einem Ereignis und Elementarereignis ist, siehe
Kapitel 0.
Tipp
Gewichtsfunktionen schreibt man üblicherweise mit kleinem Buchstaben, um sie von
Verteilungsfunktionen zu unterscheiden.
Definition 3.3
Sei 𝑋: Ω → 𝑆, 𝑚𝑖𝑡 |𝑆| ⊆ ℕ eine diskrete Zufallsvariable.
𝑃(𝑋 = 𝑖) = 𝑓𝑋 (𝑖)
Tipp
Will ich die Wahrscheinlichkeit 𝑃(𝑋 = 𝑖) wissen, greift unser Wahrscheinlichkeitsmaß 𝑃
somit auf die Gewichtsfunktion 𝑓𝑋 (𝑖) zurück, sofern 𝑋 diskret ist.
Tipp
In der Vorlesung wird anstatt 𝑓𝑋 (𝑖) auch 𝜌(𝑖) geschrieben.
31 https://en.wikipedia.org/wiki/Probability_mass_function
Da alle Äpfel im Sack nicht mehr als der Sack selbst wiegen können, kann der Wert der
Verteilungsfunktion nie den Wert 1 übersteigen und 0 unterbieten.
Nehme ich somit zufällig Äpfel aus dem Sack und teile sie in zwei disjunkte Haufen 𝐴1 und 𝐴2 auf,
so sind 𝐴1 ⊂ 𝑆 und 𝐴2 ⊂ 𝑆 zusammen höchstens so schwer wie 𝑆 selbst.
Dies kommt uns doch bekannt vor, oder nicht? Das obrige gleicht nämlich unserer Definition eines
Maßes, welches wir schon zu Beginn kennengelernt haben.
Bilden wir somit Mengen 𝐴 ⊆ 𝑆 summieren wir bei der Gewichtsangabe einfach nur die
Funktionswerte unserer Gewichtsfunktion aller in 𝐴 enthaltenen Elemente.
Diese Summation wird in der folgenden Definition festgehalten:
Definition 3.4
Sei 𝑋: Ω → 𝑆, 𝑚𝑖𝑡 𝑆 ⊆ ℕ eine diskrete Zufallsvariable.
Es gilt:
𝑃(𝑋 ∈ 𝐴) = ∑ 𝑓𝑋 (𝑖) = ∑ 𝑃(𝑋 = 𝑖)
𝑖∈𝐴 𝑖∈𝐴
Beispiel 2.14
Somit gilt:
1
𝑃({𝜔}) = , ∀𝜔 ∈ Ω
𝑛
Außerdem:
Ω = {nach oben zeigender Würfelwert}
Σ = Potenzmenge(Ω)
Somit gilt:
1
𝑃({∀𝜎 ∈ Σ: |𝜎| = 1}) =
𝑛
Eine Verteilungsfunktion, auch cumulative distribution function (cdf) genannt, gibt die
Wahrscheinlichkeit an, dass 𝑋 höchstens einen Wert annimmt, also 𝑃(𝑋 ≤ 𝑖).
Dabei ist die Wahrscheinlichkeit die 𝑃(𝑋 ≤ 𝑖) ausgibt nur eine Summe der
Einzelwahrscheinlichkeiten 𝑃(𝑋 = 𝑘), 𝑚𝑖𝑡 𝑘 ≤ 𝑖.
Definition 3.5
Sei 𝑋: Ω → 𝑆, 𝑚𝑖𝑡 𝑆 ⊆ ℕ eine diskrete Zufallsvariable.
Seien 𝑖, 𝑘 ∈ 𝑆.
Tipp
Die Wahrscheinlichkeiten lassen sich so einfach summieren, weil jedes Element 𝑘 ∈ 𝑆
disjunkt ist bezüglich der Zusammensetzung aus der Ursprungsmenge Ω.
Das heißt, dass ein Ausgang eines Zufallsexperiments (Element aus Ω) auf nur auf einen Wert
𝑘 ∈ 𝑆 abgebildet werden kann und nicht mehrere.
Dies ist der Fall, weil 𝑋: Ω → 𝑆 eine Funktion ist und eine Funktion eindeutige Zuweisungen
liefert, siehe Kapitel 1: Kurze Wiederholung: Wahrscheinlichkeitsräume und die Maßtheorie.
Tipp
Die englischen Abkürzungen pmf (Gewichtsfunktion) und cdf (diskrete Verteilungsfunktion)
lassen sich leicht verwechseln..
Würfelwurf (pmf)
1/6
Wahrscheinlichkeit
0
1 2 3 4 5 6
Augenzahl
Die vorherige Tabelle gibt uns die Einzelwahrscheinlichkeit 𝑃(𝑋 = 𝑖). Da wir wissen, dass bei der
Verteilungsfunktion der Wert 𝑃(𝑋 ≤ 𝑘) nur die Summe aller Einzelwahrscheinlichkeiten
𝑃(𝑋 = 𝑖), 𝑚𝑖𝑡 𝑖 ≤ 𝑘 ist, sieht die Verteilungsfunktion aus wie das diskrete Integral:
1
Würfelwurf (cdf)
Wahrscheinlichkeit
5/6
2/3
1/2
1/3
1/6
0
- 1/6 0 1 2 3 4 5 6
Augenzahl
4
Die Wahrscheinlichkeit, dass die gewürfelte Augenzahl höchstens 4 beträgt, ist somit 𝑃(𝑋 ≤ 4) = .
6
Um unseren Würfelwurf als Verteilungsfunktion zu definieren, bietet sich folgender Versuch an:
𝑖
𝑃(𝑋 ≤ 𝑖) = 𝐹𝑋 (𝑖) = , 𝑤𝑒𝑛𝑛 𝑖 ∈ {1,2, . . ,6}.
6
Dies ist aber noch nicht vollständig korrekt. In diesem Fall wäre der Definitionsbereich der
Verteilungsfunktion die Menge der Augenzahlen, 𝑆 = {1,2, … ,6}.
Der Ausdruck 𝑃(𝑋 ≤ 𝑖) bedeutet aber buchstäblich: „Gib mir die Wahrscheinlichkeit höchstens die
Augenzahl i zu würfeln“.
Auch wenn es praktisch unmöglich ist, erfüllen die Zahlen 0,-1,-2,-3,... auch dieses Kriterium, weil es
gilt −3 ≤ 𝑖, 𝑤𝑒𝑛𝑛 𝑖 ∈ {1,2, … ,6}.
Dies ist ein Grund, weshalb Verteilungsfunktionen fast immer über den gesamten Zahlkörper
definiert werden, in dem sich die Zufallsvariable befindet. Für diskrete Zufallsvariablen ist dies ℤ,
der Körper der ganzen Zahlen.
Für kontinuierliche Zufallsvariablen ist dies ℝ, der Körper der reellen Zahlen.
Dabei decken wir auch die oberen Fälle 𝑃(𝑋 ≥ 𝑖) ab.
{1, 𝑤𝑒𝑛𝑛 𝑖 ≥ 7
Tipp
Bauernregel: Wenn eine Verteilungsfunktion keine Klammer zur Fallunterscheidung hat,
dann deckt sie wahrscheinlich nicht den gesamten Definitionsbereich des Zahlkörpers ab.
Dies ist nicht immer wahr, da es viel Freiraum gibt Funktionen zu definieren, für unsere im
Skript behandelten Fälle aber mehr als ausreichend.
Da Wahrscheinlichkeiten immer positiv oder null sind, lassen sich folgende Regeln schnell ableiten:
Definition 3.6
Eine Verteilungsfunktion ist immer monoton steigend.
Antwort: Weil es möglich ist, dass wir einzelnen Elementen die Wahrscheinlichkeit null
zuweisen.
keine streng monotone Verteilungsfunktion, da ein Plateau zwischen den Werten 2,3,4 existiert.
Definition 3.7
Ist eine Zufallsvariable uniform verteilt, ist die Verteilungsfunktion immer streng monoton
steigend.
Uniform verteilte Zufallsvariablen haben eine streng monoton steigende Verteilungsfunktion, wie
im Würfelbeispiel zu Beginn des Abschnitts.
Tipp
Verteilungsfunktionen werden meistens mit einem großen Buchstaben „𝐹“ gekennzeichnet,
Gewichtsfunktionen hingegegen mit einem kleinen „𝑓“.
Da der Relationsoperator „< " eine geordnete Menge verlangt(siehe Kapitel 2: Besetzungsbeispiele
von Total geordneten Mengen), gibt es Verteilungsfunktionen ausschließlich für reellwertige32
32Reellwertig heißt, dass eine Zufallsvariable 𝑋 auf eine Teilmenge des reellen Zahlenraum abbildet, wie z.B.
ℤ oder ℝ. Somit steht reellwertig für diskrete sowie kontinuierliche Zufallsvariablen, solange sie auf Zahlen
abbilden.
Zufallsvariablen. Dies steht im Kontrast zu Gewichtsfunktionen, die auch für Zufallsvariablen
definiert werden können, die nicht auf Zahlen abbilden.
Außerdem werden auch die restlichen Eigenschaften des Operators „≤ " übernommen.
Definition 3.8
𝑃(𝑐 ≤ 𝑋 ≤ 𝑐) = 𝑃(𝑋 = 𝑐), 𝑚𝑖𝑡 𝑐 ∈ ℝ
Dabei sollte der kleiner-gleich Operator („≤“) nicht mit dem kleiner-Operator („<“) verwechselt
werden.
Definition 3.9
𝑃(𝑋 < 𝑐) = 𝑃(𝑋 ≤ 𝑐 − 1), 𝑚𝑖𝑡 𝑐 ∈ ℕ 𝑢𝑛𝑑 𝑋 𝑑𝑖𝑠𝑘𝑟𝑒𝑡
Wollen wir größer-gleich („≥“) ausdrücken, so nutzt man folgende Äquivalenz aus:
Definition 3.10
𝑃(𝑋 ≥ 𝑐) = 1 − 𝑃(𝑋 ≤ 𝑐 − 1), 𝑚𝑖𝑡 𝑐 ∈ ℕ 𝑢𝑛𝑑 𝑋 𝑑𝑖𝑠𝑘𝑟𝑒𝑡
Definition 3.11
𝑃(𝑋 > 𝑐) = 1 − 𝑃(𝑋 ≤ 𝑐), 𝑚𝑖𝑡 𝑐 ∈ ℕ 𝑢𝑛𝑑 𝑋 𝑑𝑖𝑠𝑘𝑟𝑒𝑡
Tipp
Da bei kontinuierlichen Zufallsvariablen Einzelwahrscheinlichkeiten der Form 𝑃(𝑋 = 𝑐)
nicht exisiteren, wird dort sehr viel mit diesen Relationsregeln gearbeitet.
a)
𝑐
c) Man substituiere
𝑃(𝑋 > 𝑐) = 𝑃(𝑋 ≥ 𝑐 + 1), 𝑤𝑒𝑛𝑛 𝑋 𝑑𝑖𝑠𝑘𝑟𝑒𝑡
und führe den Beweis b) durch.
Tipp
In Aufgabenstellungen gibt es Stichwörter, die angeben, um welchen Relationsoperator es
sich handelt.
Wort Bedeutung
„höchstens c“ 𝑃(𝑋 ≤ 𝑐)
„weniger als c“ 𝑃(𝑋 < 𝑐)
„mindestens c“ 𝑃(𝑋 ≥ 𝑐)
„mehr als c“ 𝑃(𝑋 > 𝑐)
Beispiel 3.1
1
, 𝑤𝑒𝑛𝑛 𝑖 = 1
25
5
𝑋: Ω → ℕ, 𝑚𝑖𝑡 𝑓𝑋 (𝑖) = , 𝑤𝑒𝑛𝑛 𝑖 = 2
25
19
{ 25 , 𝑤𝑒𝑛𝑛 𝑖 = 3
Berechne 𝑃(𝑋 < 3).
Wichtig: Unsere Funktion 𝑓𝑋 (𝑖) ist eine Gewichts- und keine Verteilungsfunktion. Dies
erkennen wir am kleinen Buchstaben „𝑓“ und daran, dass sie für eine Verteilungsfunktion
nicht vollständig definiert wäre (𝑃(𝑋 ≥ 1) ≠ 1).
Ein Raumschiff von SpaceX fliegt zum Mars. Die im All vorhandene Radioaktivität stört die
Computersysteme. Die Wahrscheinlichkeit, dass ein Bit auf eine falsche Position geflippt
wird beträgt 1/125.
Die Fehlerwahrscheinlichkeit jedes Bits ist dabei unabhängig: Hat ein String viele Fehler
wirkt sich das nicht auf die Fehlerwahrscheinlichkeit des nächsten Bits aus.
Der Computer verschickt einen 256 langen String. Wie hoch ist die Wahrscheinlichkeit,
dass mehr als 3 Bits fehlerhaft sind?
Es repräsentiere
𝑌 = 𝐹1 + 𝐹2 + ⋯ + 𝐹256
die Anzahl der Fehler unseres Strings.
Wir bemerken: Die Fehlerwahrscheinlichkeit bleibt konstant. Somit ziehen wir mit
zurücklegen. Außerdem macht dies alle alle Zufallsvariablen 𝐹𝑖 unabhängig.
Folglich ist
1
𝑋~𝐵𝑖𝑛 (𝑛 = 256, 𝑝 = ).
125
Es gilt:
3
256 1 𝑖 124 𝑛−𝑖
𝑃(𝑋 > 3) = 1 − 𝑃(𝑋 ≤ 3) = 1 − ∑ ( )∙( ) ∙( ) ≈ 0,16
𝑖 125 125
𝑖=0
Beispiel 3.3
𝑖
, 𝑤𝑒𝑛𝑛 𝑖 ∈ {1,2,3,4}
10
3
, 𝑤𝑒𝑛𝑛 𝑖 = 5
𝐹𝑋 (𝑖) = 10
𝑖
, 𝑤𝑒𝑛𝑛 𝑖 ∈ {6,7,8,9,10}
10
0, 𝑤𝑒𝑛𝑛 𝑖 < 1
{1, 𝑤𝑒𝑛𝑛 𝑖 > 10
Nein, da 𝐹𝑋 nicht monoton steigend ist (verifizierbar über eine schnelle Zeichnung).
Der Erwartungswert
Hinweis: Sofern nicht anders erwähnt (Abschnitt „Der Erwartungswert aus diskreter Sicht“) gilt
diese Einführung des Erwartungswertes für diskrete sowie kontinuierliche Zufallsvariablen.
Besonderheiten kontinuierlicher Erwartungswerte werden im Abschnitt „Der Erwartungswert aus
kontinuierlicher Sicht“ im Kapitel „Einführung in kontinuierliche Verteilungen“ erläutert.
Definition 3.12
Der Erwartungswert ist der Durchschnittswert einer Zufallsvariablen nach sehr vielen
Wiederholungen desselben Zufallsexperiments.
Diese Definition lässt sich auch mathematisch beschreiben. Grundstein hierfür ist das „Gesetz der
Großen Zahlen34“.
Tipp
Der Erwartungswert einer Zufallsvariablen 𝑋 wird oft mit griechischen Buchstaben 𝜇 (Mü)
angegeben.
Es gilt: 𝐸[𝑋] = 𝜇𝑋 .
Wenn wir nur eine Zufallsvariable betrachten, wird das kleine 𝑥 auch oft weggelassen.
33Die Beschreibung gilt für diskrete, kontinuierliche sowie auch gemischte Zufallsvariablen.
34Auch andere Sätze der Stochastik bauen auf dieses Gesetz auf (z.B. zentraler Grenzwertsatz), weshalb es
wichtig ist, das „Gesetz der großen Zahlen“ zu verstehen. Dies vereinfacht spätere Kapitel massiv.
Münzwurf Ergebnisse
1
Wurfergebnis
0
1 50 99
Anzahl der Münzwürfe (n)
Da unsere Münze nicht gezinkt ist, sprich keine Münzenseite wird bevorzugt, sieht die
Häufigkeitsverteilung recht uniform aus.
Nun bilden wir den Durchschnitt (Stichprobenmittel) unserer Messung. Dabei berechnen wir
diesen progessiv: Anstatt gleich das arithmetische Mittel aller 100 Würfe zu bilden, tun wir dies
nach jedem einzelnen Wurf. Somit haben wir 100 arithmetische Mittel. Das Stichprobenmittel nach
dem n-ten Schritt wird durch die rote Linie repräsentiert.
1
Wurfergebnis
0
1 50 99
Anzahl der Münzwürfe (n)
Während unser Durchschnitt (rote Linie) zu Beginn noch starke Ausschwankungen zeigt,
1
konvergiert er im Verlauf der Würfe gegen 2. Dies ist für dieses Experiment auch der
Erwartungswert 𝜇. Ein Fortführen der Münzwürfe lässt die Ausschwankungen nur kleiner werden.
Wenn 𝑋̅𝑛 einen Erwartungswert besitzt, so besagt das Gesetz der großen Zahlen, dass
lim 𝑋̅𝑛 = 𝜇.
𝑛→+∞
Somit ist 𝜇 = 𝐸[𝑋𝑖 ] auch der Erwartungswert eines Folgenglieds. Da alle Folgenglieder
identisch verteilt und unabhängig sind, haben alle den gleichen Erwartungswert, also 𝐸[𝑋𝑖 ] =
𝐸[𝑋𝑗 ].
Tipp
Intuitiv besagt das „Gesetz der großen Zahlen“, dass je öfter ich ein unabhängiges
Zufallsexperiment wiederhole, desto eher konvergiert der Durchschnitt dieser
Wiederholungen zum Erwartungswert 𝜇.
Dies wird in einer schwachen und starken Variante des Gesetzes ausgedrückt. Diese beiden
Versionen beschäftigen sich aber lediglich mit der Art der Konvergenz von 𝑋̅𝑛 .
Dennoch interessieren uns beide Varianten, da uns stochastische Konvergenz noch begegnen wird.
Definition 3.14
Das schwache Gesetz der großen Zahlen besagt
Tipp
Dies lässt sich lesen als:
„Die Wahrscheinlichkeit, dass die absolute Differenz zwischen dem Erwartungswert eines
Einzelexperiments 𝐸[𝑋] = 𝜇 und dem Durchschnitt vieler Wiederholungen positiv ist läuft
gegen null.“
Tipp
Das schwache Gesetz konvergiert stochastisch.
Was stochastische Konvergenz genau ist siehe Konvergenz in Wahrscheinlichkeit.
Definition 3.15
Das starke Gesetz der großen Zahlen besagt
𝑃 ( lim 𝑋̅𝑛 = 𝜇) = 1.
𝑛→+∞
Tipp
Dies lässt sich lesen als:
Tipp
Salopp gesprochen besagt das schwache Gesetz, dass bei ausreichend großem 𝑛 unser 𝑋̅𝑛
dem Erwartungswert 𝜇 unendlich ähnlich wird.
Das starke Gesetz hingegen verlautbart, dass Ereignisse der Form 𝑃 ( lim 𝑋̅𝑛 ≠ 𝜇) als
𝑛→+∞
unmöglich kategorisiert werden können.35
Tipp
Für Beweise des starken sowie schwachen Gesetzes siehe hier.
Im Endeffekt besagt uns das Gesetz der großen Zahlen, dass Repetitionen uns einen
Informationszuwachs liefern. Je öfter wir ein unabhängiges Experiment wiederholen, desto mehr
wissen wir über die Form der Verteilung.
Foglich ist es unverwunderlich, dass unser Monte-Carlo Experiment aus Kapitel 1 darauf basiert.
Dort haben wir den Schätzer als
1
𝑀𝑛 ≔ (𝑍1 + ⋯ + 𝑍𝑛 ), 𝑚𝑖𝑡 𝑍𝑖 𝑖𝑠𝑡 𝑒𝑖𝑛𝑒 𝐼𝑛𝑑𝑖𝑘𝑎𝑡𝑜𝑟𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒
𝑛
definiert.
35https://www.quora.com/What-is-the-difference-between-weak-law-and-strong-law-of-large-number-in-
probability-theory
̅𝑛 . Da die 𝑍𝑖 ’s Indikatorvariablen sind, die ein Ereignis
Wenn wir genau hinschauen, gilt 𝑀𝑛 = 𝑋
𝐴 ∈ Σ indizieren, gilt
Somit liefert das Gesetz der großen Zahlen eine Begründung, warum eine Erhöhung der
Stichprobengröße zu einem repräsentativeren Ergebnis führt.
Eine genaue Größe, also ein spezifisches 𝑛, wird hingegen nicht angegeben-es bleibt bei „großen
Zahlen“.
Tipp
Wir werden noch verschiedene Methoden kennenlernen, abzuschätzen, ob eine
Stichprobengröße geeignet ist.
36Für eine Wiederholung, warum der Erwartungswert einer Indikatorvariablen die Wahrscheinlichkeit des
der durch die Variable indizierten Ereignisses liefert, siehe Kapitel 1: Zufallsvariablen.
Eigenschaften des Erwartungswertes
Hat man den Graph einer Gewichtsfunktion (diskrete Zufallsvariablen) oder Dichtefunktion
(kontinuierliche Zufallsvariable) vor sich, so lässt sich der Erwartungswert leicht approximieren37.
Eine physikalische Analogie des Erwartungswerts ist nämlich der Massenmittelpunkt38.
Nehmen wir an, vor uns befindet sich die Gewichts- oder Dichtefunktion einer beliebigen
Verteilung.
Wir versuchen nun den Graph auf unserem Zeigefinger zu balancieren. Der Punkt, an dem sich der
Graph balancieren lässt ohne runterzufallen ist der Erwartungswert. Dies setzt natürlich voraus,
dass die Verteilung einen Erwartungswert besitzt.
Der Erwartungswert 𝜇 ist an der Stelle, wo man die Verteilung mit dem Finger balancieren könnte.
Da der Graph assymetrisch ist, ist 𝜇 nicht am Hochpunkt.
Definition 3.16
1
Bei symmetrischen Verteilungen, wie der Normal-, der Binomial- (mit 𝑝 = ) oder der
2
uniformen Verteilung ist der Erwartungswert immer in der Mitte. Achtung: Gilt nicht für die
Cauchy Verteilung, die keinen Erwartungswert besitzt.
Dies macht auch Sinn, weil sonst würde uns der Erwartungswert ja „vom Finger fallen“.
Haben wir folglich 𝜇 bei einer symmetrischen Verteilung, wissen wir wie sich der Verteilungsgraph
verschoben hat. Folgende Regel bietet sich deshalb an:
Definition 3.17
Der Erwartungswert ist oft ein location parameter39 einer symmetrischen Verteilung..
39 https://en.wikipedia.org/wiki/Location_parameter
Aus unserer Balanceregel können wir auch intuitive Regeln für nichtsymmetrische Verteilungen
bilden:
Definition 3.18
1
Bei nichtsymmetrischen Verteilungen, wie der Exponential-, der Binomial- (mit 𝑝 ≠ ) oder
2
der Poissonverteilung ist der Erwartungswert nie das globale Maximum der Verteilung, aber
eventuell in der Nähe.
Eine der wichtigsten Eigenschaften des Erwartungswert ist die Linearität. Nicht nur erlaubt diese
es uns Konstanten aus der Erwartungswertberechnung zu trennen, sondern auch Summen von
Zufallsvariablen zu vereinfachen.
Definition 3.19
Seien 𝑋, 𝑌 beliebige40 Zufallsvariablen.
Beweise der ersten beiden Kriterien werden im Verlaufe des Kapitels für den diskreten Fall gezeigt.
Zur Übung dieser drei fundamentalen Gesetze gibt es einige Beispiele.
Beispiel 3.4
𝑌 = 1,60934 ∙ 𝑋
Dabei sind die 1,60934 der Konvertierungsfaktor für die Umrechnung der Einheiten.
Beispiel 3.5
Sei
𝑅2 = {𝑓(𝑥) = 𝑎𝑥 2 + 𝑏𝑥 + 𝑐}, 𝑚𝑖𝑡 𝑎, 𝑏, 𝑐 ∈ ℝ
der Raum aller Polynomfunktionen zweiten Grades.
Erinnerung: Ordinate ist Synonym für die Achse des Bildbereichs einer Funktion.
Ordinatenabschnitt ist gleichbedeutend der Nullstelle der Bildbereichsachse, also der Wert
𝑓(0) ist der Ordinatenabschnitt.
𝜋
𝐸[𝑌] = 𝐸[𝑋 + 4] = + 4.
6
Beispiel 3.6
Diese repräsentieren eine Wiederholung des gleichen Zufallsexperiments und haben alle
jeweils den Erwartungswert 𝜇.
Alle 𝑋𝑖 ’s haben den gleichen Erwartungswert. Laut der Linearität des Erwartungswerts gilt:
Beispiel 3.7
Da die Linearität des Erwartungswerts nicht von der Abhängigkeit der Zufallsvariablen
beeinflusst wird, gilt:
𝑛
Es sei 𝑋1 , … , 𝑋10 eine rein zufällige Permutation von 1, … ,10. Berechnen Sie die
Wahrscheinlichkeit, dass die Zufallsvariable 𝑌 ≔ 𝑋1 + 𝑋2 + 𝑋3 mindestens |7 − 𝜇| von
ihrem Erwartungswert 𝜇 entfernt ausfällt, also die Wahrscheinlichkeit des Ereignisses
{|𝑌 − 𝜇| ≥ |7 − 𝜇|}.
Zuerst müssen wir wissen, welchen Wert 𝜇 = 𝐸[𝑌] überhaupt hat.
Wir wissen, die Zufallsvariablen 𝑋1 + 𝑋2 + 𝑋3 sind abhängig, weil sie Teil einer Permutation
𝑋1 , … , 𝑋10 sind41.
Dazu nutzen wir aus, dass die Linerität des Erwartungswerts auch für abhängige
Zufallsvariablen gilt:
Jedes 𝑋𝑖 ist für sich genommen identisch verteilt. Durch die Linearitätsregel verschwindet die
Abhängigkeit von 𝑋2 zu 𝑋1 bei der Berechnung des Erwartungswerts.
Wir wissen, dass die Permutation rein zufällig geschieht. Somit ist die Wahrscheinlichkeit,
dass eine Zahl 𝑎 auf Position 𝑖 kommt 1/10.
1 1 1
𝐸[𝑋𝑖 ] = 1 ∙ +2∙ + ⋯ + 10 ∙ = 5,5
10 10 10
Daraus folgt:
𝐸[𝑋1 ] + 𝐸[𝑋2 ] + 𝐸[𝑋3 ] = 3 ∙ 5,5 = 16,5 = 𝐸[𝑌]
|7 − 16,5| = 9,5
Durch die aufgelöste Klammer lassen sich nun die Ungleichungen des gesuchten Ereignisses
rekonstruieren:
41Wir wissen aus Kapitel 1: Permutationen als das Legosteinmodell, dass eine Permutation eine bijektive
Funktion ist. Somit haben keine zwei 𝑋𝑖 den gleichen Wert. Kennen wir also 𝑋1 haben wir Informationen über
den Ausgang der anderen Zufallsvariablen (ziehen ohne zurücklegen), weil diese nicht mehr den Wert von 𝑋1
annehmen können.
I. 𝑌 − 16,5 ≥ 9,5
II. −𝑌 + 16,5 ≥ 9,5
I. 𝑌 ≥ 26
II. 𝑌≤7
Jeder Wert von 𝑌 der eine der beiden Ungleichungen erfüllt ist Teil unser Ereignismenge.
Wer zählen diese Werte nun zusammen. Um das Zählen zu vereinfachen, tragen wir erstmal
nur die Permutationen von 𝑋1 , 𝑋2 , 𝑋3 in die Tabelle an, die sich in den Elementen
unterscheiden.
Das bedeutet keine Zeile darf die gleichen Elemente haben.
Wir tun dies, um weniger Elemente Zählen zu müssen, da wir diese später über unsere
Permutationsregeln nachtragen können.
𝑋1 𝑋2 𝑋3 𝑋1 + 𝑋2 + 𝑋3
10 9 8 27
10 9 7 26
1 2 3 6
1 2 4 7
Wir haben jetzt 4 Elemente die mindestens eine der Ungleichungen erfüllen.
Aus Kapitel 1: Permutationen wissen wir, dass die Anzahl der Permutationen jeder
dreielementigen Kombination 3! = 6 beträgt (siehe Kapitel 2: Permutationen als das
Legosteinmodell).
Insgesamt gibt es
10!
𝑛 𝑐𝑟 = 10 𝑐3 = = 720
7!
Belegungen von 𝑋1 , 𝑋2 , 𝑋3 insgesamt(siehe Kapitel 2: Permutationen als das Legosteinmodell).
Alternativ kann man auch sagen es gibt 10! Permutationen insgesamt, wovon 24 ∙ 7! Den
gewünschten Anforderung erfüllen.
Die 7! Entsteht aus der Tatsache, dass sobald die ersten drei Belegungen unsere Ungleichung
erfüllen, die restlichen 7 egal sind (und diese können auf 7! Arten angeordnet werden).
Dies macht hier aber weniger Sinn, weil wir dann mehr Elemente zu zählen haben.
Der Erwartungswert einer Konstanten ergibt wieder die Konstante. Ist auch wenig verwunderlich,
weil eine Konstante nur einen Wert annehmen kann.
Definition 3.20
𝐸[𝑐] = 𝑐, 𝑚𝑖𝑡 𝑐 ∈ ℝ
Beispiel 3.8
Da die Funktion immer konstant ist (sin(𝑥)2 + cos(𝑥)2 ist eine Identität), gilt
𝐸[𝑓(𝑥)] = 𝐸[1] = 1.
Manchmal haben wir es mit Produkten von Zufallsvariablen zu tun. Sind diese unabhängig (Siehe
Kapitel Unabhängigkeit / Abhängigkeit von Zufallsvariablen), so gilt auch hier die Linearität:
Definition 3.21
Seien 𝑋, 𝑌 beliebige unabhängige Zufallsvariablen.
I. 𝐸[𝑋𝑌] = 𝐸[𝑋]𝐸[𝑌]
Beispiel 3.9
1 1 1
𝐸[𝑋𝑌] = 𝐸[𝑋]𝐸[𝑌] = ∙ = .
2 2 4
Der Erwartungswert einer Funktion ist im allgemeinen nicht dasselbe, wie eine Funktion des
Erwartungswerts:
Definition 3.23
Seien 𝑋 und 𝑌 = 𝑔(𝑥) beliebige Zufallsvariablen.
Es gilt
𝐸[𝑔(𝑋)] ≠ 𝑔(𝐸[𝑋]), 𝑎𝑢ß𝑒𝑟 𝑔(𝑋)𝑖𝑠𝑡 𝑙𝑖𝑛𝑒𝑎𝑟.
42 Zur Erklärung wie man Kovarianzen berechnet, siehe Kapitel 3: Die Kovarianz
Obwohl obiges intuitiv erscheint, ist dies ein häufiger Fehler, wie folgendes Beispiel zeigt:
Beispiel 3.10
Im ersten Schritt würfle ich eine Zahl mit einem sechsseitigen Würfel. Die Augenzahl
werde durch die Zufallsvariable 𝑋 repräsentiert.
Der Erwartungswert von 𝑋 beträgt 𝐸[𝑋] = 3,5.
Im nächsten Schritt gewinne ich das Spiel, wenn meine Augenzahl größer als drei ist.
Sonst verliere ich.
Wir wissen, dass 𝑋 im langfristigen Mittel den Wert 3,5 annimmt. Somit könnte man leicht
denken, dass 𝐸[𝑌] = 0, weil 3,5>3.
Dies stimmt aber nicht. Berechnet man den Erwartungswert über die im nächsten Abschnitt
eingeführte diskrete Formel, erhält man 𝐸[𝑌] = 0,5.
Eine univariate reellwertige Verteilung gibt als Ergebnis immer einen einzelnen Zahlwert.
Zum Beispiel ist die Folge
𝑌=⏟
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 , 𝑚𝑖𝑡 𝑋𝑖 ∈ ℝ
𝑒𝑟𝑔𝑖𝑏𝑡 𝑒𝑖𝑛𝑒 𝑍𝑎ℎ𝑙
eine univariate reellwertige Verteilung, weil 𝑌 als Ergebnis immer eine einzelne Zahl ist.
Dagegen ist
(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) , 𝑚𝑖𝑡 𝑋𝑖 ∈ ℝ
𝑌=⏟
𝑖𝑠𝑡 𝑒𝑖𝑛 𝑛−𝑇𝑢𝑝𝑒𝑙
Definition 3.25
Der Erwartungswert 𝐸[𝑌] eine 𝑛-variaten Verteilung ergibt ein 𝑛-Tupel. Commented [TS1]: Stimmt das?
Definition 3.26
Sei 𝑋: Ω → 𝑆 eine beliebige Zufallsvariable definiert auf den einen Wahrscheinlichkeitsraum
(Ω, Σ, P)43.
Achtung
Die obere Definition verwendet das Lebesgue Integral. Dieses ist eine Verallgemeinerung des
Riemann Integrals aus der Schule.
In der „Stochastik für Informatiker“ Vorlesung wird dieses mit sehr hoher Wahrscheinlichkeit
nicht gebraucht.
Für die explizite Berechnung des Erwartungswerts mit den uns bekannten Integral- und
Summenbegriffen siehe die Unterpunkte „Der diskrete Erwartungswert“ und „Der
kontinuierliche Erwartungswert“.
Fortan werden wir das Lebesgue Integral in diesem Skript nicht mehr verwenden.
Tipp
Für ein Beispiel einer Verteilung ohne Erwartungswert siehe hier.
Somit lassen sich nicht immer Fehlerbeschränkungen oder obere Schranken der Form Markow-
Ungleichung angeben.
Definition 3.27
Sei 𝑋: Ω → 𝑆 eine diskrete Zufallsvariable.
Der Erwartungswert jeder diskreten Verteilung basiert auf der obigen Mittelwertberechnung. Oft
kann man diese Summe aber in handliche Formeln abkürzen, so dass sich die Berechnung
vereinfacht.
Zum Beispiel ist für eine X~𝐵𝑖𝑛(𝑛, 𝑝)44 verteilte Zufallsvariable 𝐸[𝑋] = 𝑛𝑝.
Oder für Y~𝐺𝑒𝑜𝑚𝑒𝑡𝑟𝑖𝑠𝑐ℎ(𝑝) gilt
1
𝐸[𝑌] = .
𝑝
Diese Abkürzungen werden durch das Verwenden von Indikatorvariablen, geometrischen Reihen
und sonstigen Tricks erreicht.
44Falls wir vergessen haben, was X~𝐵𝑖𝑛(𝑛, 𝑝) bedeutet, der schaue Kapitel 2: diskrete Verteilungen und
Kapitel 4: Beispiele von diskreten Verteilungen
Somit sind diese Abkürzungen zwar sehr nützlich aber nicht immer notwendig, weil wir den
Erwartungswert auch durch Ausrechnen der obigen Summenformel bestimmen können.45
Schnell werden uns aber Zufallsvariablen mit sehr großen Zielbereichen begegnen. Deshalb lohnt es
sich sehr, bei einer Aufgabe immer zu schauen, ob man eine bekannte Verteilung vor sich hat.
Diese bekannte Verteilung hat dann nämlich vielleicht eine geschlossene Formel zur
Erwartungswertberechnung, was einem viel Zeit erspart.
Einige Grundbeweise von Erwartungswerten diskreter Zufallsvariablen sollten uns bewusst sein.
Die versprochenen Linearitätsbeweise gibt es deshalb hier in Form einer original Übungsaufgabe.
Sei 𝑋 eine reellwertige Zufallsvariable über einen endlichen Ereignisraum und 𝑘 ∈ ℝ eine
Konstante. Zeige die folgenden Äquivalenzen:
a) 𝔼[𝑋 + 𝑘] = 𝑘 + 𝔼[𝑋]46
b) 𝔼[𝑘𝑋] = 𝑘𝔼[𝑋]
a) Wir setzen einfach die Definition ein und verwenden die üblichen Rechengesetze.
45 Bei einer abzählbar undendlichen Zielmenge (wie es bei der Geometrischen Verteilung der Fall ist)
kommen wir ohne Limesbetrachtung bei der manuellen Berechnung der Summe auf einen Nährwert.
46 Um möglichst dicht an der Originalaufgabenstellung zu bleiben, übernehmen wir auch die Typografie des
Kapitel 2).
Beispiel 3.11
Sei
𝑅 = {𝑓(𝑥) = 𝑏𝑠𝑖𝑛(𝑥)2 + 𝑏𝑐𝑜𝑠(𝑥)2 }, 𝑚𝑖𝑡 𝑏 ∈ ℕ ∧ 𝑏 ≤ 20.
der Raum aller Polynomfunktionen vierten Grades.
Da die Funktion immer konstant ist (sin(𝑥)2 + cos(𝑥)2 ist eine Identität), gilt
𝐸[𝑓(𝑥)] = 𝐸[1] = 1.
Schauen wir uns nochmal unsere Erwartungswertformel an.
Da 𝑋 diskret ist, wissen wir dass unser Maß 𝑃 die Gewichtsfunktion 𝑓𝑋 (𝑖) repräsentiert.
Definition 3.28
Sei 𝑋: Ω → ℕ eine diskrete Zufallsvariable mit Werten aus {0,1,2,3, … }.
+∞
Sei 𝑋: Ω → 𝑆 mit 𝑆 ⊂ ℕ eine diskrete Zufallsvariable mit Werten aus {0,1,2,3, … , 𝑛}.
𝑛
𝐸[𝑋] = ∑ 𝑃(𝑋 ≥ 𝑖)
𝑖=1
Achtung
In der Praxis lässt sich der obige Tipp uneingeschränkt verwenden. In der Theorie entstehen
hingegen Probleme.
Damit die Berechnung von 𝐸[𝑋] über die Verteilungsfunktion immer funktioniert, müsste 𝑋
eigentlich immer in ganz ℕ abbilden und nicht potentiell in nur einer Teilmenge.
Also 𝑋: Ω → ℕ.
Die Zahl Drei gehört nicht zur Bildmenge von 𝑋. Ergo ist der Funktionswert 𝑷(𝑿 = 𝟑) nicht
definiert50.
Die obere Summation geht nur auf, wenn wir alle Werte, die nicht zur ursprünglichen Bildmenge
von 𝑋 gehören, in unsere Bildmenge aufnehmen und mit Wahrscheinlichkeit null versehen.
50Wir haben im Kapitel 1 gelernt, dass die Wahrscheinlichkeit eines Ereignisses, welches sich nicht auf die
Grundmenge Ω rückführen lässt undefiniert ist (und nicht null).
Effiziente Algorithmen Übung 2.2, SS16
a) Beweise, dass
∞ ∞ ∞ 𝑖
b) Formuliere die linke Seite als eine einfache (statt zweifache) Summe von
Wahrscheinlichkeiten.
Die ganzzahlige Zufallsvariable hat die Form 𝑋: Ω → ℕ und der Index 𝑖 ∈ ℕ ist
zusätzlich ein Element des Bildbereichs von 𝑋. Der Index 𝑘 hingegen ist lediglich ein
Summationsindex und gehört nicht zum Zielbereich von 𝑋.
∑ ∑ 𝑃(𝑋 = 𝑖)
𝑘=1 𝑖=𝑘
an.
Jede Iteration der äußersten Summe mit Index 𝑘 repräsentiert eine Zeile.
∑ ∑ 𝑃(𝑋 = 𝑖)
𝑖=1 𝑘=1
ensteht dieselbe Tabelle.
Diesmal hat die äußerste Summe den Index 𝑖. Anstatt eine Zeile repräsentiert die
äußerste Summation nun eine Spalte.
𝑖=1 𝑖=2 𝑖=3 𝑖 = 𝑖−1 +1
𝑘=1 𝑃(𝑋 = 1) 𝑃(𝑋 = 2) 𝑃(𝑋 = 3) …
𝑘=2 𝑃(𝑋 = 2) 𝑃(𝑋 = 3) …
𝑘=3 𝑃(𝑋 = 3) …
𝑘 = 𝑘−1 + 1 …
Somit findet lediglich ein Zeilen/Spaltentausch statt und die linke sowie rechte
Summe müssen äquivalent sein.
b) Unsere Formel für den Erwartungswert berechnet die linke Summe in genau
derselben Reihenfolge.
∞ ∞ ∞ ∞
Betrachten wir die Formel (oder das obige Array), fällt auf, dass
∞ ∞
Die Formel hilft sehr, wenn wir nur die Verteilungsfunktion aber keine Gewichtsfunktion zur
Verfügung haben.
Dies kann potentiell sehr hilfreich bei kontinuierlichen Zufallsvariablen werden, da dort eine
analoge Äquivalenz gilt.
Definition 3.29
Sei 𝐴 ⊆ Ω ein Ereignis und
1, 𝑤𝑒𝑛𝑛 𝜔 ∈ 𝐴
𝐼𝐴 (𝜔) = {
0, 𝑠𝑜𝑛𝑠𝑡
eine Indikatorvariable, die ein Ereignis A indiziert.
Es gilt:
𝐸[𝐼𝐴 ] = 𝑃(𝐴)
FAQ: Beweise mir das.
Frage: Beweise mir die obige Definition.
Antwort:
Sei 𝐴 ⊆ Ω ein Ereignis und
1, 𝑤𝑒𝑛𝑛 𝜔 ∈ 𝐴
𝐼𝐴 (𝜔) = {
0, 𝑠𝑜𝑛𝑠𝑡
eine Indikatorvariable, die ein Ereignis A indiziert.
Da die von uns verwendeten Indikatorvariablen immer diskret sind51, gilt für den
Erwartungswert:
Der Erwartungswert einer Indikatorvariablen gibt somit die Wahrscheinlichkeit des indizierten
Ereignisses an. Warum dies wichtig ist? Weil wir nun Fragen, wie „Wie oft können wir Ereignis 𝐴
erwarten?“ beantworten können.
Bestätigt wird die Wichtigkeit dieser Eigenschaft dadurch, dass sie auch immer wieder vorkommt.
50 Freunde fahren gemeinsam auf ein Festival, wobei jeder sein eigenes Zelt mitbringt,
und besuchen dort ein Konzert. Als sie spät in der Nacht zurückkehren, sind sie nicht
mehr im Stande ihr eigenes Zelt zu finden (sie werden später behaupten, dass es zu
dunkel gewesen sei). Sie beschließen also, dass sich jeder zufällig vor ein noch leeres Zelt
stellt und dann in diesem schläft. Aufgrund der Umstände kann angenommen werden,
dass diese Wahl komplett zufällig geschieht und jede Aufteilungen gleich wahrscheinlich
ist.
Berechne mit Hilfe von Indikator-Variablen die erwartete Anzahl an Campern, die in
ihrem eigenen Zelt nächtigen.
Jeder sucht sein Zelt zufällig. Dabei können auch mehrere Personen beim gleichen Zelt
landen. Dies ist wichtig, weil es das Zufallsexperiment unabhängig macht. Die
Wahrscheinlichkeit, dass eine einzelne Person sein Zelt findet beträgt somit
1
𝑃(𝐴) = .
50
51Der Begriff „Indikatorvariable“ lässt viele Freiheiten zu. Die in diesem Buch (sowie Vorlesung) behandelten
sind immer diskret.
Wir indizieren 𝐴 mit
1, 𝑤𝑒𝑛𝑛 𝜔 ∈ 𝐴
𝐼𝐴 (𝜔) = { .
0, 𝑠𝑜𝑛𝑠𝑡
Dabei ist 𝐼50 keine Indikatorvariable, da es Werte zwischen 0 und 50 annehmen kann (und
nicht nur 0 und 1).
Daraus folgt:
50 50
1
𝐸[𝐼50 ] = ∑ 𝐼𝐴𝑖 = ∑ 𝐸[𝐼𝐴𝑖 ] = 50 ∙ =1
⏟ 50
𝑖=1 ⏟
𝑖=1 𝐸[𝐼𝐴𝑖]=𝑃(𝐴)
𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑡ä𝑡 𝑑𝑒𝑠 𝐸𝑟𝑤𝑎𝑟𝑡𝑢𝑛𝑔𝑠𝑤𝑒𝑟𝑡𝑠
Auch wenn es traurig klingt, in Erwartung findet nur eine Person sein eigenes Zelt wieder.
a) Wir haben ein zweistufiges Experiment. Außerdem gilt 𝑋 = 𝑔(𝑌). Somit greift das
„law of the unconscious statistician“ und wir können 𝐸[𝑋] mit der Verteilung von 𝑌
berechnen.
𝐸[𝑋] = 𝐸[(1 + 𝛽)𝑌 ] = 𝑔(1) ∙ 𝑝 + 𝑔(0) ∙ (1 − 𝑝) = (1 + 𝛽)1 ∙ 𝑝 + (1 + 𝛽)0 ∙ (1 − 𝑝)
= 1 + 𝑝𝛽
Wir betrachten ein zufälliges „Würfeln“ und 𝑟 = 3. Die Ausgänge 1,2,3 haben dabei die
Wahrscheinlichkeiten 𝑝1 = 1⁄6 , 𝑝2 = 1⁄3 und 𝑝3 = 1⁄2. Die Anzahl der Würfe sei 𝑛 = 10.
a) Was ist der Erwartungswert der Anzahl der Würfe, für die der jeweils nächste
Wurf eine höhere Augenzahl hat?
b) Was ist die erwartete Anzahl der Runs? (Beispiel: Die Folge (2,3,3,1,1,2,3,1,1,1,) hat
6 Runs.)
Repräsentiere 𝑋 = (𝑋1 , 𝑋2 , … , 𝑋10 ) die Würfelfolge.
a) Wenn ein Wurf größer ist als der vorherige, dann ist dies ein Ereignis.
Da wir wissen möchten, wie oft 𝐴 auftritt, nehmen wir Indikatorvariablen zur Hand.
1, 𝑤𝑒𝑛𝑛 𝜔 ∈ 𝐴
𝐼𝐴 (𝜔) = { .
0, 𝑠𝑜𝑛𝑠𝑡
Jetzt bestimmen wir noch die Auftrittswahrscheinlichkeit von 𝐴. Dies ist lediglich die
Summe der Wahrscheinlichkeiten, die 𝐼𝐴 wahr werden lassen.
𝑃(𝐼𝐴 = 1) = 𝑃({𝑋𝑖 < 𝑋𝑖+1 }) = 𝑃({𝑋𝑖 = 1, 𝑋𝑖+1 = 2}) + 𝑃({𝑋𝑖 = 1, 𝑋𝑖+1 = 3})
+𝑃({𝑋𝑖 = 2, 𝑋𝑖+1 = 3})
1 1 1 1 1 1 11
= ∙ + ∙ + ∙ = .
6 3 6 2 3 2 36
Da eine Indikatorvariable immer zwei Zufallsvariablen betrachtet, müssen wir beim Erwartungswert bis 9 summieren und nicht bis 10.
52
11 11
𝐸[𝐼𝐴 1 + 𝐼𝐴 2 + ⋯ + 𝐼𝐴 9 ] = 9 ∙ = .
36 4
b) Wir zählen Runs. Dabei inkrementieren wir diesen Zähler, sobald die Nachfolgezahl
einen anderen Wert hat als die Vorgängerzahl (weil sonst endet der Run ja nicht).
52Dies kann man sich gedanklich klar machen, wenn man nur 𝑛 = 2mal würfelt. Die erste Indikatorvariable
𝐼𝐴1 braucht genau zwei Würfe, die folgende 𝐼𝐴 2 braucht nur einen mehr. Wenn man das für 𝑛 = 10 Würfe
duchgeht, dann hat man genau neun Indikatorvariablen.
1, 𝑤𝑒𝑛𝑛 𝜔 ∈ 𝐴
𝐼𝐴 (𝜔) = { .
0, 𝑠𝑜𝑛𝑠𝑡
Jetzt bestimmen wir erneut die Auftrittswahrscheinlichkeit von 𝐴. Dies ist lediglich die
Summe der Wahrscheinlichkeiten, die 𝐼𝐴 wahr werden lassen.
Dies kann man sich vor Augen halten, wenn man zwei Würfellungen mit den Werten (1,1)
macht.
In diesem Fall würde 𝐼𝐴 den Wert null haben. Die obere Würfellung repräsentiert aber
einen Run. Grund dafür ist, dass 𝐼𝐴 nur neue Runs hinzuzählt aber nicht den Startrun.
Erneut haben wir auch nur neun Indikatorvariablen, weil 𝐼𝐴 immer zwei Würfe
betrachtet.
11
𝐸[𝐼𝐴 1 + 𝐼𝐴 2 + ⋯ + 𝐼𝐴 9 + 1] = 9 ∙ + 1 = 6,5.
18
Für den Erwartungswert 𝐸[𝑌] lässt sich nun unsere bekannte Formel verwenden.
Unser Maß 𝑷(𝒀 = 𝒊) greift dabei zur Wahrscheinlichkeitsberechnung auf unsere Grundmenge Ω
zurück.
Dabei „bündelt“ das Wahrscheinlichkeitsmaß für jedes 𝒊 alle Elementarereignisse 𝜔 ∈ Ω, die zu
𝑔(𝜔) = 𝒊 führen.
Das „Law of the unconscious statistician“ (l.o.t.u.s.) besagt, dass wir 𝐸[𝑌] auch mit der Verteilung
von 𝑋 ermitteln können.
Definition 3.30
Seien 𝑋, 𝑌 diskrete Zufallsvariablen.
Zusätzlich ist
𝑌 = 𝑔(𝑋).
Dann gilt
Tipp
Ob die Zufallsvariablen diskret oder kontinuierlich sind, spielt für l.o.t.u.s keine Rolle. Für
Erwartungswerte im kontinuierlichen Fall, siehe Kapitel Der Erwartungswert aus
kontinuierlicher Sicht.
Bei der Berechnung „bündeln“ wir nun andere Elementarereignisse zusammen, nämlich die, die zu
X führen.
53 Die Verwendung von 𝑷(𝒀 = 𝒊) in unserer Erwartungswertformel setzt voraus, dass 𝑷(𝒀 = 𝒊) (die
Verteilung von 𝑌) bekannt ist.
54 https://en.wikipedia.org/wiki/Law_of_the_unconscious_statistician
Beispiel 3.12
Der Stochastiker Peter baut ein „zufälliges Haus“ mit quadratischer Grundfläche 𝑎2 . Dabei
wählt er die Seite 𝑎 zufällig aus dem ganzzahligen Intervall [5,9].
Da 𝑌 eine direkte Funktion aus 𝑋 ist greift das „l.o.t.u.s.“. Für die Erwartungswertberechnung
probieren wir einmal die „klassische“]\ Variante (über die Verteilung von 𝑌) und das
erwähnte Gesetz (über die Verteilung von 𝑋).
1 1 1 1 1
𝐸[𝑌] = ∑ 𝑖 ∙ 𝑃(𝑌 = 𝑖) = 25 ∙ + 36 ∙ + 49 ∙ + 64 ∙ + 81 ∙ = 51
5 5 5 5 5
𝑖∈𝑆𝑌
1 1 1 1 1
𝐸[𝑌] = ∑ 𝑔(𝑋 = 𝑘) ∙ 𝑃(𝑋 = 𝑘) = 𝑔(5) ∙ + 𝑔(6) ∙ + 𝑔(7) ∙ + 𝑔(8) ∙ + 𝑔(9) ∙ = 51
5 5 5 5 5
𝑘∈𝑆𝑋
Beispiel 3.13
Der Stochastiker Peter baut ein „zufälliges Haus“ mit rechteckiger Grundfläche 𝑎𝑏. Dabei
wählt er die Seite 𝑎 zufällig aus dem ganzzahligen Intervall [5,9].
1 1 1 2
𝐸[𝑌] = ∑ 𝑖 ∙ 𝑃(𝑌 = 𝑖) = 25 ∙ + 36 ∙ + 49 ∙ + 100 ∙ = 62
5 5 5 5
𝑖∈𝑆𝑌
Diese Art 𝐸[𝑌] zu berechnen ist nun aufwendiger, weil wir immer im Kopf behalten müssen,
welche Elementarereignisse quadriert größer 50 sind. Somit hat eine Realisierung die
Wahrscheinlichkeit 2/5 (die blau gefärbte).
1 1 1 1 1
𝐸[𝑌] = ∑ 𝑔(𝑋 = 𝑘) ∙ 𝑃(𝑋 = 𝑘) = 𝑔(5) ∙ + 𝑔(6) ∙ + 𝑔(7) ∙ + 𝑔(8) ∙ + 𝑔(9) ∙ = 62
5 5 5 5 5
𝑘∈𝑆𝑋
Achtung
Auch wenn es auf dem ersten Blick nicht so aussieht, führen beide Erwartungswertberechnungen
dieselbe Summenberechnung aus.
Beim „l.o.t.u.s.“ werden lediglich Summenglieder „entfaltet“, indem sie ausgeklammert werden.
Wir können das Gesetz nur verwenden, wenn 𝑌 eine Funktion von 𝑋 ist. Praktisch bedeutet dies,
dass jeder Ast des Wahrscheinlichkeitsbaum nach unten nie dicker wird. Dies hat zur Folge, dass
die Erwartungswertberechnung von 𝑋 nie weniger Summenglieder enthält als die von 𝑌.
Beispiel 3.14
Der Stochastiker Peter baut ein „zufälliges Haus“ mit zufälliger Grundfläche 𝑎𝑏. Dabei
wählt er die Seite 𝑎 zufällig aus dem ganzzahligen Intervall [5,9].
Lässt sich die erwartete Grundfläche des Hauses über die Verteilung von 𝑋 berechnen?
Nein, weil 𝑌 keine eindeutige Wertezuweisung besitzt und somit keine Funktion ist.
Tipp
Wichtige „Integralberechnungsalgorithmen“, wie Importance Sampling oder Markov Chain
Monte Carlo basieren bei der Berechnung von Integralen auf diesen Satz.
Das Stichprobenmittel
Den Durchschnitt eines aufgetretenen Zufallsexperiments (Realisierung) nennt man das
arithmetische Mittel, Stichprobenmittel, Mittelwert oder Mean.
Definition 3.31
Das arithmetische Mittel (auch Stichprobenmittel) ist der Durchschnitt einer Realisierung.
Achtung
Der Begriff „Mittelwert“ oder „Mean“ ist nicht zu verwechseln mit dem Median, der das mittlere
Folgenglied 𝑎0,5𝑛 einer Folge 𝑎1 , 𝑎2 , … , 𝑎𝑛 darstellt.
Stellen wir uns vor, wir befinden uns auf einen Kindergeburtstag mit 20 Kindern. Jedes Kind bringt
eine bestimmte Anzahl an Kuchen mit. Insgesamt gibt es 18 Kuchen.
Es entsteht folgendes Histogramm55.
9
8
7
6
5
4
3
2
1
0
0 1 2 3
Anzahl Kinder
Falls wir vergessen haben was ein Histogramm oder Häufigkeitsverteilung ist, siehe Kapitel 1:
55
Im Schnitt brachte jedes einzelne Kind also 0,9 Kuchen mit. Wichtig: Da dies für jedes der 20 Kinder
gilt, müssen wir beim multiplizieren mit 20 wieder auf unsere Originalanzahl der 18 Kuchen
kommen.
Definition 3.32
Sei 𝑎1 , 𝑎2 , … , 𝑎𝑛 𝑚𝑖𝑡 𝑎𝑖 ∈ ℝ eine Folge.
Färben wir die Bestandteile der Formel entsprechend den Farben unseres Kuchenbeispiels ein, so
werden uns sofort die Gemeinsamkeiten klar.
Jedes Glied der folgenden Sequenz repräsentiert ein Kind mit der Anzahl seiner mitgebrachten
Kuchen:
0,0,0,0,0,0,0,0,0,0
⏟ , 1,1,1
⏟ , 2,2,2,2,2,2
⏟ , 3.
10 𝑚𝑎𝑙 3 𝑚𝑎𝑙 6 𝑚𝑎𝑙
Wir sind in Miami. Unsere Freundin ist in Kuba. Uns trennen 250km des nordatlantischen Oceans.
Um unser geringfügig bemessenes Studenteneinkommen aufzubessern, schickt sie uns jeden Tag
tonnenweise Waren per Boot.
Sie teilt uns mit, dass eine Bootladung in Erwartung zwei Tonnen erhält. Dennoch kommen einige
Boote leer an und andere vollkommen überfüllt.
Im Inselbeispiel zu Beginn hätte uns somit interessiert, wie groß der erwartete Abstand zu den
erwarteten zwei Tonnen pro Boot ist.
Eine Antwort auf diese Frage gibt uns die Varianz.
Definition 3.33
Die Varianz 𝜎 2 misst den erwarteten quadratischen Abstand einer Verteilung zu derem
Erwartungswert.
Tipp
Die Varianz hat häufig den Buchstaben 𝜎 2 (Sigma zum Quadrat).
Definition 3.34
Sei 𝑋 eine Zufallsvariable beliebigen Typs und 𝜇 = 𝐸[𝑋] deren Erwartungswert.
Wichtig: Da wir den quadrierten Abstand verwenden, quadieren sich die Einheiten.
Rechnet unsere Zufallsvariable 𝑋 in €, so gibt 𝑉𝑎𝑟(𝑋) ein Ergebnis in €2 aus.
Tipp
Trotz der quadrierten Einheiten, ist der Wert 𝑉𝑎𝑟(𝑋) nicht bedeutunglos.
Tipp
Die Varianz an sich ist kein neues Konzept, da es nur eine Transformation der betrachteten
Zufallsvariable darstellt.
Anstatt
𝑉𝑎𝑟(𝑋) = 𝐸[(𝑋 − 𝜇𝑋 )2 ]
können wir auch eine neue Zufallsvariable
𝑌 = (𝑋 − 𝜇
⏟𝑥 )2
𝑖𝑠𝑡 𝑒𝑖𝑛𝑒 𝑍𝑎ℎ𝑙
bilden und
𝐸[𝑌] = 𝑉𝑎𝑟(𝑋)
berechnen.
Somit ist die Varianz nichts weiter, als der Erwartungswert einer um 𝜇𝑋 zentrierten
Verteilung.
Hat eine Verteilung keinen Erwartungswert, so kann sie auch keine Varianz besitzen.
Ein Beispiel eines solchen Falls ist die Cauchy-Verteilung.
Eigenschaften der Varianz
Da die Varianz ein Streumaß darstellt lassen sich auch hier einige Faustregeln ableiten:
Definition 3.35
Varianzen sind immer positiv.
Tipp
Varianzen quadrieren Abstände und diese sind immer positiv, siehe Metrik.
Definition 3.36
Je gestauchter ein Gewichts- oder Dichtegraph um den Erwartungswert 𝜇 ist, desto kleiner ist
die Varianz.
Definition 3.37
Die uniforme Verteilung auf [𝛼, 𝛽], 𝑚𝑖𝑡 𝛼, 𝛽 ∈ ℝ hat die größte Varianz aller konkaven
Gewichts- oder Dichtegraphen.57
Dies macht auch intuitiv Sinn: Je unwahrscheinlicher Werte fernab des Erwartungswerts sind, also
je enger der Graph um 𝜇, desto kleiner wird auch die erwartete Gesamtstreuung sein. Da die
Varianz nur das Quadrat der tatsächlichen Streuung ist, muss 𝑉𝑎𝑟[𝑋] folglich auch sinken.
Die uniforme Verteilung auf [𝛼, 𝛽], 𝑚𝑖𝑡 𝛼, 𝛽 ∈ ℝ gibt dagegen auch Werten fernab von 𝜇 eine relativ
hohe Auftrittswahrscheinlichkeit. Folglich ist hier die erwartete Streuung höher.
Analog zum Erwartungswert, besitzt auch die Varianz lineare Transformationen, welche sich aber
etwas unterscheiden:
57http://stats.stackexchange.com/questions/142651/does-the-uniform-distribution-have-the-greatest-
variance-among-all-concave-distr
Definition 3.38
Seien 𝑋, 𝑌 beliebige58 Zufallsvariablen.
Das Verhalten der Varianz bei Summen von Zufallsvariablen werden wir in Kapitel 3:
Kovarianzen untersuchen
Daraus folgt:
Definition 3.39
Die Varianz ist translationsinvariant.
Für die dritte Regel benötigen wir Kovarianzen, welche im weiteren Verlauf des Kapitels vorgestellt
werden.
Definition 3.40
Die Varianz einer Konstante ist null, also
𝑉𝑎𝑟[𝑐] = 0, 𝑤𝑒𝑛𝑛 𝑐 ∈ ℝ
Definition 3.41
Ist die Varianz einer diskreten Verteilung null, so handelt es sich um eine Konstante.
Ist die Varianz einer kontinuierlichen oder gemischten Verteilung null, so handelt es sich fast
sicher60 um einer Konstante.
Achtung
Betrachtet 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 alle Werte einer Population (komplettes Ziehen ohne
Zurücklegen) anstatt einer kleineren Stichprobe, so ist 𝑌 eine Konstante (Totalerhebung).
Ziehen wir also z.B. alle sechs nummerierten Kugeln aus einer Urne ohne Zurücklegen, so hat die
entstehende Zufallsvariable 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋6 die Varianz null.
Für weitere Erläuterungen dieses Beispiels inklusive ehemalige Übungsaufgabe siehe Die
Kovarianz.
Ein daraus folgendes Theorem, welches oft die Berechnung der Kovarianz (siehe Die Kovarianz)
vereinfacht:
Definition 3.42
Ziehen wir alle Individuen einer Population, so ist die Varianz 𝑉𝑎𝑟[𝑌] = 𝑉𝑎𝑟[𝑋1 + 𝑋2 +
⋯ 𝑋|𝑆| ]61 null.
Dies macht auch Sinn, weil, wenn wir alle Individuen betrachten, es keine Streuung um den
Erwartungswert mehr geben kann,
60 Für die Unterschiede zwischen “sicheres Ereignis” und “fast konstant sicher” siehe Kapitel 1.
61 Es gilt 𝑋: Ω → 𝑆, somit ist |𝑆| die Gesamtanzahl der Population.
Der Verschiebungssatz
Varianzen lassen sich auf viele Arten berechnen. Eine haben wir schon im Abschnitt zuvor
kennengelernt, nämlich die Berechnung über den Erwartungswert 𝐸[(𝑋 − 𝜇)2 ]. Der
Verschiebungssatz (engl. König-Huygens formula oder variance translation theorem) ist eine
weitere Alternative.
Oft ist die Berechnung von 𝑉𝑎𝑟[𝑋] sogar schneller, wenn wir schon den Erwartungswert 𝐸[𝑋] = 𝜇
haben.
Definition 3.43
Sei 𝑋 eine Zufallsvariable beliebigen Typs.
Beispiel 3.15
Ein sechsseitiger Würfelwurf ist diskret, weshalb wir auf die diskrete
Erwartungswertberechnung zurückgreifen.
Wir probieren einmal den Standardweg und einmal den Verschiebungssatz aus.
1+2+3+4+5+6
𝐸[𝑋] = = 3,5
6
𝐸[(𝑋 − 𝜇)2 ]
(1 − 3,5)2 + (2 − 3,5)2 + (3 − 3,5)2 + (4 − 3,5)2 + (5 − 3,5)2 + (6 − 3,5)2
= ≈ 𝟐, 𝟗𝟏
6
1+2+3+4+5+6 2 7 2
𝐸[𝑋]2 = ( ) = ( ) = 12,25
6 2
12 + 22 + 32 + 42 + 52 + 62 91
𝐸[𝑋 2 ] = = ≈ 15,16
6 6
Beispiel 3.16
Es repräsentiere
Wenn 𝑋, eine symmetrische Verteilung, auf 0 zentriert ist, bedeutet dies, dass wir 𝑋 so
transformieren müssen, dass der Erwartungswert 𝐸[𝑋] = 0.
Daraus folgt:
1
𝑌=𝑋− .
2
1 1 1 1 1
𝐸[𝑌 2 ] = ∙ + ∙ = .
4 2 4 2 4
Nun lässt sich die Varianz berechnen:
1
𝑉𝑎𝑟[𝑌] = 𝐸[𝑌 2 ] − 𝐸[𝑌]2 = .
4
Aufgrund der Lineratität der Varianz hätte es auch funktioniert, einfach die Varianz von 𝑋,
dem um 0,5 zentrierten Münzwurf zu berechnen.
Definition 3.44
Da Varianzen immer positiv sind und der Verschiebungssatz keine Betragsstriche verwendet,
gilt folgendes : 𝐸[𝑋 2 ] ≥ 𝐸[𝑋]2 .
Ein Nachteil des Verschiebungssatzes sind seine nicht optimalen numerischen Eigenschaften: Wenn
𝐸[𝑋]2 ≫ 𝑉𝑎𝑟[𝑋], dann kann durch Auslöschung fälschlicherweise 𝑉𝑎𝑟[𝑋] = 0 ermittelt werden.
Daraus folgt
𝐸[𝑋 2 ] = 1001𝑉𝑎𝑟[𝑋].
Somit ist 𝐸[𝑋 2 ] auch eine sehr große Zahl. In der Tat ist 𝐸[𝑋 2 ] = 1001𝑉𝑎𝑟[𝑋] relativ gesehen
nur unwesentlich größer als 1000𝑉𝑎𝑟[𝑋]. Wenn wir Pech haben, ist das Limit des
verwendeten fundamentalen Datentyps erreicht und 𝐸[𝑋 2 ] sowie 𝐸[𝑋]2 werden auf den
selben Wert gerundet.
Dies ergibt dann fälschlicherweise die Varianz null.
Mehr über Auslöschung siehe hier und die Mathematik 1: WS14/15 Vorlesung von Herr Dr.
Bosse.
Somit ist die offensichtliche Berechnung 𝑉𝑎𝑟[𝑋] = 𝐸[(𝑋 − 𝜇)2 ] nicht selten die bessere Wahl. Es
gibt noch andere numerisch günstige Varianten zur Varianzberechnung. Diese werden in diesem
Skript aber nicht vorgestellt.
Die Kovarianz
Die Linearität des Erwartungswerts erlaubte es uns, bei mehreren Zufallsexperimenten
𝑌 = 𝑋1 + ⋯ + 𝑋𝑛 die Berechnung von 𝐸[𝑌] auf die Summation der einzelnen Erwartungswerte
𝐸[𝑌] = 𝐸[𝑋1 ] + ⋯ 𝐸[𝑋𝑛 ] zurückzuführen.
Das Besondere war, dass entgegen jeglicher Intuition diese Tatsache selbst bei abhängigen
Zufallsexperimenten stand hielt.
Definition 3.45
Bei abhängigen Zufallsvariablen 𝑋1 , 𝑋2 , … , 𝑋𝑛 gilt
Definition 3.46
Die Kovarianz (engl. covariance) misst, wie stark zwei Zufallsvariablen 𝑋1 und 𝑋2
voneinander abhängen.
Wie die Varianz auch, ist die Kovarianz über den Erwartungswert definiert:
Definition 3.47
Seien 𝑋 und 𝑌 zwei beliebige Zufallsvariablen. Dabei müssen sie nicht unabhängig oder
identisch verteilt sein.
Dann gilt:
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝐸[𝑋]) ∙ [𝑌 − 𝐸[𝑌]).
Definition 3.48
Seien 𝑋 und 𝑌 zwei beliebige Zufallsvariablen. Dabei müssen sie nicht unabhängig oder
identisch verteilt sein.
Dies läuft getreu dem Motto: „Wissen wir die Realisierung von 𝑋1 haben wir Informationen über die
62
möglichen Realisierungen von 𝑋2 , ergo ändert sich die erwartete Streuung (Varianz) um 𝜇 .“
FAQ: Ich verstehe die obige Umformung nicht.
Frage: Ich verstehe die obige Umformung der Kovarianz nicht. Kannst du es mir beweisen?
Antwort: Klar.
Dabei muss hier müssen wir hier aufpassen, dass wir Tatsachen wie
𝐸 [𝑋 𝐸[𝑌]
⏟ ] = 𝐸[𝑋]𝐸[𝑌]
⏟
𝑒𝑖𝑛𝑒 𝑍𝑎ℎ𝑙 ü𝑏𝑒𝑟 𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑡ä𝑡
nicht übersehen.
Die Kovarianz ist also nichts weiter, als die mit Wahrscheinlichkeiten gewichtete Summe der
multiplizierten Abstände der einzelnen Verteilungen zu ihren Erwartungswerten.
Daraus folgt, dass die Kovarianz nicht einheitenlos ist. Analog zur Varianz, sind die Einheiten das
Quadrat der Einheiten der gemeinsamen Verteilung von 𝑋, 𝑌.
Tipp
Eine Konsequenz ist, dass sich, wie auch bei der Varianz, Kovarianzen von Experimenten mit
verschiedenen Einheiten nicht vergleichen lassen. Um dies zu beheben, wird in Pearson
Product Moment der Korrelationskoeffizient eingeführt, der ein objektiveres Vergleichen von
Abhängigkeiten erlaubt.
Kovarianzen müssen nicht positiv sein. Oft sind die Vorzeichen sogar wichtiger als der eigentliche
Wert, weil sie uns Aufschluss über die Art der Abhängigkeit geben:
Definition 3.49
• Ist 𝐶𝑜𝑣(𝑋, 𝑌) < 0, so haben 𝑋 und 𝑌 einen inversen monotonen Zusammenhang. Dies
bedeutet, dass hohe Werte von 𝑋 niedrige Werte von 𝑌 zur Folge haben und
umgekehrt.
Folglich 𝑋, 𝑌 sind korreliert (und somit abhängig).
• Ist 𝐶𝑜𝑣(𝑋, 𝑌) > 0, so haben 𝑋 und 𝑌 einen monotonen Zusammenhang. Dies bedeutet,
dass hohe Werte von 𝑋 hohe Werte von 𝑌 zur Folge haben und niedrige Werte von 𝑋
niedrige Werte von 𝑌 zur Folge haben.
Folglich 𝑋, 𝑌 sind korreliert (und somit abhängig).
Sie können aber auch abhängig sein, wenn 𝐶𝑜𝑣(𝑋, 𝑌) = 0, müssen aber nicht.
Die Vorzeichenaufteilung lässt sich in einem Schaubild der gemeinsamen Verteilung von 𝑋, 𝑌
zeigen. Dabei repräsentiert der Graph lediglich die Koordinaten (𝑋(𝜔), 𝑌(𝛼)) der möglichen
Realisierungen und nicht deren Produkt.
Das Prinzip ist einfach. Die Kovarianz 𝐸[(𝑿 − 𝑬[𝑿])(𝒀 − 𝑬[𝒀]) betrachtet die einzelnen
Realisierungen: Falls ein Ausgang von 𝑋 kleiner ist als 𝐸[𝑋], so landet dieser „links“ von 𝐸[𝑋].
Dieser ist dann vom Vorzeichen negativ, weil (𝑿 − 𝑬[𝑿]) nicht den Betrag nimmt.
Ist eine einzelne Realisierung 𝜔 kleiner als der Erwartungswert 𝐸[𝑋],
so landet diese links von 𝐸[𝑋] auf der x-Achse.
Hinweis: Da wir 𝜔 nur eine einzelne Realisierung ist von vielen
schreiben wir 𝑋(𝜔) anstatt 𝑋.
Ist die Folgerealisierung 𝑌(𝛼) aber größer als ihr Erwartungswert, so hat 𝑌(𝛼) − 𝐸[𝑌] ein positives
Vorzeichen. Das Produkt (𝑋(𝜔) − 𝐸[𝑋])(𝑌(𝛼) − 𝐸[𝑌]) ergibt dann eine negative Zahl.
Ist 𝑌(𝛼) dagegen kleiner als sein Erwartungswert, so hat 𝑌(𝛼) − 𝐸[𝑌] ein negatives Vorzeichen. Das
Produkt (𝑋(𝜔) − 𝐸[𝑋])(𝑌(𝛼) − 𝐸[𝑌]) ergibt dann eine positive Zahl.
Die Kovarianz stellt berechnet den Abstand zum Erwartungswert von jeder Realisierung
der gemeinsamen Verteilung.
Jedes Paar (𝑋(𝜔), 𝑌(𝛼)) repräsentiert einen Abstand (𝑋(𝜔) − 𝐸[𝑋])(𝑌(𝛼) − 𝐸[𝑌]). Diesen
gewichten wir mit der Auftrittswahrscheinlichkeit 𝑃(𝑋 = 𝜔, 𝑌 = 𝛼). Letztlich bilden die Summe alle
gewichteten Abstände und schon haben wir die Kovarianz 𝐸[(𝑿 − 𝑬[𝑿])(𝒀 − 𝑬[𝒀]).
Sind zwei Zufallsvariablen 𝑋, 𝑌 unabhängig (siehe Abschnitt Unabhängigkeit / Abhängigkeit von
Zufallsvariablen), dann ist die Kovarianz immer null.
Definition 3.50
Seien 𝑋, 𝑌 beliebige unabhängige Zufallsvariablen.
𝐶𝑜𝑣(𝑋, 𝑌) = 0
Antwort: Intuition: Die Kovarianz ist ein Maß der Abhängigkeit zwischen zwei Variablen. Sind
sie vollkommen unabhängig voneinander, so sollte dieses Maß auf keinen Fall eine
Abhängigkeit zeigen.
Algebraisch:
Definition 3.51
Seien 𝑋, 𝑌 beliebige Zufallsvariablen.
I. 𝐶𝑜𝑣[𝑋, 𝑋] = 𝑉𝑎𝑟[𝑋]
All dies haben wir getan, damit es uns endlich möglich ist Varianzen mehrerer Zufallsvariablen
zusammenzurechnen. Nun sind wir so weit:
Definition 3.52
Seien 𝑋1 , … , 𝑋𝑛 beliebige Zufallsvariablen. Dabei müssen sie nicht unabhängig sein.
𝑛 𝑛−1 𝑛
Definition 3.53
Seien 𝑋, 𝑌 beliebige Zufallsvariablen.
Definition 3.54
Seien 𝑋1 , … , 𝑋𝑛 beliebige unabhängige Zufallsvariablen.
𝑛
𝑉𝑎𝑟[𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ] = ∑ 𝑉𝑎𝑟[𝑋𝑖 ]
𝑖=1
Wir können dann einfach die Varianzen addieren! Dies ist der Fall, da bei unabhängigen
Zufallsvariablen 𝐶𝑜𝑣(𝑋, 𝑌) immer null ergibt und deren Kovarianzen somit wegfallen.
Tipp
Ein wunderschöner Beweis woher die 2 herkommt bei
𝑛 𝑛−1 𝑛
In einer Urne befinden sich vier nacheinander nummerierte Kugeln. Wir entnehmen
dieser rein zufällig zwei Kugeln 𝑌 = (𝑋1 , 𝑋2 ).
Wir haben eine bivariate Verteilung vor uns, da 𝑌 ein Zweiertupel repräsentiert.
Wir benötigen also erstmal die Erwartungswerte 𝐸[𝑋] und 𝐸[𝑌]. Die Kugeln sind laut Aufgabe
nacheinander von eins bis sechs nummeriert.
1 1 1 1
𝐸[𝑋1 ] = 𝐸[𝑋2 ] = 1 ∙ + 2 ∙ + 3 ∙ + 4 ∙ = 2,5.
4 4 4 4
Nun geht es weiter: Wir erwarten, dass die Kovarianz negativ ist. Wir basieren unsere
Vermutung darauf, dass wenn wir eine Kugel mit hohem Wert aus der Urne ziehen die
restlichen gezogenen dazu tendieren kleiner zu sein sein und umgedreht.
5
𝐶𝑜𝑣(𝑋1 , 𝑋2 ) = 𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌] = 5,83̅ − 2,52 = −
12
Definition 3.55
Seien 𝑋1 , 𝑋2 , … 𝑋3 identisch verteilt.
Tipp
Zufallsvariablen sind meistens identisch verteilt, wenn sie aus derselben Population ziehen,
z.B. bei einer Urne, Stadtbevölkerung etc.
Somit liese sich das obere Urnenbeispiel problemlos auf weitere Kugeln erweitern, und wir könnten
die Kovarianz einfach ermitteln, da wir 𝐶𝑜𝑣[𝑋1 , 𝑋2 ] schon berechnet haben.
Die Cauchy-Schwarz Ungleichung ist sehr hilfreich, um die Kovarianz abzuschätzen oder sein
eigenes Ergebnis zu kontrollieren.
Definition 3.56
Seien 𝑋, 𝑌 beliebige Zufallsvariablen.
Tipp
Wollen wir die Kovarianz einer Verteilung 𝑋1 , 𝑋2 , … 𝑋𝑛 schnell berechnen, gehen wir nach
folgendem Schema vor:
1. Wir bestimmen den Typ: Sind unsere Variablen unabhängig, dann ist die Kovarianz
null.
2. Ziehen wir alle Individuen aus einer Population (Totalerhebung) und 𝐸[𝑋1 ], 𝐸[𝑋2 ], …
sowie 𝑉𝑎𝑟[𝑋1 ], 𝑉𝑎𝑟[𝑋2 ], … sind gegeben oder lassen sich leicht berechnen, dann gilt:
63http://math.stackexchange.com/questions/848013/covariance-of-random-variables-with-identical-
distribution
nach 𝐶𝑜𝑣[𝑋1 , 𝑋2 ] auf.
3. Ist die Totalerhebung oben nicht erfüllt, dann lösen wir direkt den Erwartungswert
𝐶𝑜𝑣[𝑋, 𝑌] = 𝐸[(𝑋 − 𝐸[𝑋])(𝑌 − 𝐸[𝑌])].
4. Haben wir hier Probleme, gehen wir über den Erwartungswert von 𝐸[𝑋𝑌], also
𝐶𝑜𝑣[𝑋, 𝑌] = 𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌].
5. Kommen wir oben nicht weiter, schätzen wir den Wert über die Cauchy-Schwarz
Ungleichung und dem Erwarteten Vorzeichen ab
6. Ist uns auch das nicht möglich, malen wir einen Scatter Graph und schätzen lediglich
das erwartete Vorzeichen ab, um den Typ der Korrelation zu bestimmen.
a) Berechnen Sie den Erwartungswert und die Varianz des (als Zufallsexperiments
aufzufassenden!) Stundensatzes einer rein zufällige aus der Gesamtheit (der
„Population“) der 100 Hilfskräfte gezogenen Person.
c) Stellen Sie die in b) gefundene Varianz auch über die in der Vorlesung
hergeileitete Formel (für die Varianz einer Summe von Zufallsvariablen) dar und
berechnen Sie daraus 𝐶𝑜𝑣(𝑊1 , 𝑊2 ).
a) Wir fangen immer mit dem Erwartungswert an. Da alle Stundenten aus der selben
Population gezogen werden, sind alle 𝑊𝑖 ’s identisch verteilt (aber nicht unabhängig).
60 30 10
𝐸[𝑊1 ] = 9€ ∙ + 10,50€ ∙ + 14€ ∙ = 9,95€.
100 100 100
Wir wir mittlerweile wissen, können wir die Varianz auf mehrere Arten berechnen.
Es wird der Verschiebungssatz (siehe Kapitel 3: Der Verschiebungssatz) genutzt.
b) Wir haben im Kapitel 3: Eigenschaften der Varianz gelernt, dass wenn wir alle
Individuen einer Population ziehen, die Varianz immer null beträgt (Totalerhebung).
c) Wir erwarten eine negative Kovarianz (wenn wir jemanden mit hohem
Stundengehalt wählen, tendiert unsere nächste Wahl dazu, einen mit weniger Gehalt
zu nehmen (Ziehen ohne Zurücklegen).
Die 𝑊𝑖 ’s sind identisch verteilt. Somit haben sie alle die gleiche Kovarianz
untereinander, also 𝐶𝑜𝑣(𝑊𝑖 , 𝑊𝑗 ) = 𝐶𝑜𝑣(𝑊𝑎 , 𝑊𝑏 ). Somit lässt sich die berechnet
abkürzen zu (siehe Kapitel 3: Eigenschaften von Kovarianzen)
Es gilt 𝑛 = 100.
1 1 1
d) (i)𝐸 [10 (𝑊1 + ⋯ + 𝑊10 )] = ⏟
10
(𝐸[𝑊1 ] + ⋯ + 𝐸[𝑊10 ]) = ∙ 10 ∙ 9,95€ = 9,95€.
10
𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑡ä𝑡 𝐸𝑟𝑤𝑎𝑟𝑡𝑢𝑛𝑔𝑠𝑤𝑒𝑟𝑡
Dies Ergebnis ist wenig überraschend, weil das Stichprobenmittel soll ja auch den
tatsächlichen Erwartungswert 𝐸[𝑊1 ] wieder geben (siehe Kapitel 3: Das Gesetz der
großen Zahlen).
Wir Ziehen mit Zurücklegen, ergo sind die Zufallsvariablen identisch verteilt und
unabhängig mit jeweiliger Kovarianz null.
1 1 1
𝑉𝑎𝑟 [ (𝑊 + ⋯ + 𝑊10 )] = (𝑉𝑎𝑟[𝑊1 + ⋯ + 𝑊10 ) = ∙ 10 ∙ 𝑉𝑎𝑟[𝑊1 ]
10 1 ⏟
100 ⏟
100
𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑡ä𝑡 𝑉𝑎𝑟𝑖𝑎𝑛𝑧 𝑆𝑢𝑚𝑚𝑒 𝑉𝑎𝑟𝑖𝑎𝑛𝑧 𝑖.𝑖.𝑑.𝑍𝑉
= 0,2725€2 .
(ii) Da die Linearität des Erwartungswerts auch für abhängige Zufallsvariablen gilt
(siehe Kapitel 3: Eigenschaften des Erwartungswerts) bleibt er wie in (i).
Für die Varianz müssen wir diesmal die Kovarianz hinzuzählen, da die Variablen
abhängig sind (Ziehen ohne Zurücklegen).
1 1
𝑉𝑎𝑟 [ (𝑊 + ⋯ + 𝑊10 )] = (𝑉𝑎𝑟[𝑊1 + ⋯ + 𝑊10 )
10 1 ⏟
100
𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑡ä𝑡 𝑉𝑎𝑟𝑖𝑎𝑛𝑧
1
= (10𝑉𝑎𝑟[𝑊1 ] + 10 ∙ 9 ∙ 𝐶𝑜𝑣(𝑊1 , 𝑊2 ) ≈ 0,206€2 .
100
e) Die Berechnung sind identisch mit der Aufgabe zuvor, nur diesmal ist 𝑛 = 40.
1 1
(i) 𝑉𝑎𝑟 [40 (𝑊1 + ⋯ + 𝑊40 )] = 1600 ∙ 40 ∙ 𝑉𝑎𝑟[𝑊1 ] ≈ 0,0568€2 .
Definition 3.57
2
Die Standardabweichung 𝑠𝑡𝑑 = 𝜎 = √𝜎 2 ist die Quadratwurfel der Standardabweichung 𝜎 2 .
Wir erinnern uns: Die Varianz hat die Einheiten der Ursprungsverteilung quadriert. Dies war ein
Fall vom quadrierten Abstand. Die Standardabweichung bringt die quadrierten Einheiten wieder in
ihr Originalformat zurück.
Somit werden große Abstände vom Erwartungswert nicht mehr höher gewichtet. Das Resultat ist
ein repräsentativeres Maß für die Streuung.
Der bei 𝜎 entstehende Wert lässt sich somit einfacher interpretieren.
1
Wenn ein fairer Münzwurf die Standardabweichung 𝜎 = 2 hat, bedeutet dies, dass der langfristige
1
Abstand zum Erwartungswert tatsächlich ist.
2
Dies stimmt auch, da unser Münzwurf um den Erwartungswert 0,5 zentriert ist und beide
1
Realisierungen 1 und 0 von diesem „tatsächlich“ nur entfernt sind.
2
Beispiel 3.18
𝜎 = √2,91 ≈ 1,70
Somit gilt:
Definition 3.58
Seien 𝑋1 , … , 𝑋𝑛 beliebige Zufallsvariablen. Dabei müssen sie nicht unabhängig sein.
𝑠𝑡𝑑(𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = √𝑉𝑎𝑟[𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ].
FAQ: Warum quadrierten Abstand?
Frage: Die Standardabweichung gibt die tatsächliche Streuung wieder. Ich sehe es aber
kritisch, dass sie als die Wurzel der Varianz 𝜎 = √𝐸[(𝑋 − 𝐸[𝑋])2 ] definiert ist, weil
Wurzelziehen numerisch leicht zu fehlern führen kann.
Wäre es nicht besser den tatsächlichen Abstand 𝜎 = 𝐸[|𝑋 − 𝐸[𝑋]|] zu nehmen, um
numerische Fehler zu vermindern?
Antwort: Hier unterscheidet man zwischen Theorie und Praxis. Für mathematische Formeln,
Theoreme und Sätze benutzt man oft die Varianz, weil sie mit dem Erwartungswert
vergleichbare Linearitätsregeln besitzt. Dies macht Berechnungen flexibler und oft einfacher.
In der Praxis kann man in der Tat die Standardabweichung als 𝜎 = 𝐸[|𝑋 − 𝐸[𝑋]|] definieren
und erhält dasselbe Ergebnis. Dennoch ist es auch in der Praxis nützlich, 𝜎 als Wurzel der
Varianz zu sehen.
Einfachster Fall ist eine Folge von Zufallsvariablen. Wir haben in der Definition oben
kennengelernt, dass wir Standardabweichungen der einzelnen Variablen nicht addieren
können. Varianzen lassen sich aber schon addieren (inklusive Kovarianz), weshalb es sich
dann sehr lohnt, die Standardabweichung in Varianzen zu überführen.
Sie fragen, warum man als “gängiges" Maß für die Schwankung einer zenrtierten
Zufallsvariablen X (wobei “zentriert bedeutet, dass E[X]=0) anstelle von deren
Standardabweichung sqrt{E[X^2]} nicht die erwartete absolute Abweichung E[|X|]
verwendet.
Ein erster, durchaus handfester Grund, ist der, dass die klassische Standardabweichung auf
viel übersichtlichere Formeln für die entsprechenden Größen von Summen unabhängiger
Zufallsvariablen führt als die Verwendung von E[|X|].
Ein tieferer Grund hierfür liegt - und das mag auf den ersten Blick erstaunen - in der
“Geometrie der Zufallsvariablen”. Mit Zufallsvariablen kann (und will) man rechnen: man
kann aus ihnen Linearkombinationen bilden und sie deshalb als Vektoren auffassen.
Der Begriff, um den es Ihnen geht, sollte dann für eine zentrierte Zufallvariable X der Länge
des entsprechenden Vektors entsprechen.
Nun entspricht für zentrierte Zufallsvariable die Unkorreliertheit gerade dem “Aufeinender
senkrecht stehen" (der “Orthogonalität”) der entsprechenden Vektoren, wenn man (was sich
anbietet) E[YZ] als Skalarprodukt von Y und Z verwendet.
In der Tat wissen wir ja auch, dass für unkorrelierte zentrierte Zufallsvariable Y, Z
gilt: 𝐸[(𝑌 + 𝑍)2 ] = 𝐸[𝑌 2 ] + 𝐸[𝑍 2 ].
Das ist nichts anderes als die Beziehung des Pythagoras. Daraus folgt z.b., dass für
unabhängige, identisch verteilte
𝑋1 , … , 𝑋𝑛 gilt: Die Standardabweichung von 𝑋1 + ⋯ + 𝑋𝑛 ist die Standardabweichung von
2
√𝑛. 𝜎1 (𝑊𝑢𝑟𝑧𝑒𝑙 𝑛 𝐺𝑒𝑠𝑒𝑡𝑧).
Dieses berühmte (und so einfache) “Wurzel n”-Gesetz hat keine ähnlich schöne
Entsprechung, wenn man 𝐸[|𝑋|] statt √𝐸[𝑋 2 ] als Schwankungsmaß einer zentrierten
Zufallsvariable 𝑋 verwenden würde.
Allerdings ist - gerade mit Blick auf unerwünschte “Verzerrungen” - zu erwähnen, dass die
von Ihnen favorisierte “erwartete absolute Abweichung” unter statistischen Gesichtspunkten
eine neue Bedeutung gewinnt, nämlich dann, wenn man “große Abweichungen” weniger
ernst nehmen (bzw. sie als “Ausreißer” behandeln) will. Dann wird man auf den sogenannten
Median einer Verteilung geführt: während der Erwartungswert von X diejenige Zahl ist, die
unter allen rellen Zahlen a die Größe E[(X-a)^2] minimiert, ist der Median von X diejenige
Zahl, die unter allen rellen Zahlen a die Größe E[|X-a|] minimiert.
Tipp
Da die Kovarianz Realisierungen der Zufallsvariablen 𝑋, 𝑌 multiplikativ und nicht additiv
verknüpft, müssen die Zahlenwerte von 𝑋, 𝑌 nicht diesselben Einheiten haben!
Das Wurzel-n-Gesetz
Wir wissen bereits, dass wir Varianzen unabhängiger Zufallsvariablen ohne Rücksicht auf
Kovarianzen addieren können. Sind diese noch identisch verteilt, nehmen wir die Varianz eines
beliebigen Folgenglieds 𝑛-mal.
Dies ergibt ein praktisches Gesetz für die Berechnung der Standardabweichung:
Definition 3.59
Seien 𝑋1 , … , 𝑋𝑛 beliebige unabhängige und identisch verteilte Zufallsvariablen.
Wie dem Stichprobenmittel (engl. sample variance) 𝜇̅ oft nicht das tatsächliche 𝜇 bekannt ist, so
kennen wir oft auch nicht die tatsächliche Varianz 𝜎 2 einer Verteilung.
Dies kommt häufig vor, weil wir Informationen über jedes Individuum einer Population haben
müssten um 𝐸[(𝑋 − 𝜇)2 ] zu berechnen64.
Besitzt eine Verteilung aber eine Varianz, so lässt sich diese in vielen Fällen durch die
Stichprobenvarianz ̅𝜎̅̅2̅ approximieren.
Definition 3.60
Die Stichprobenvarianz ̅𝜎̅̅2̅ ist die Varianz einer Stichprobe.
Folglich ist ̅𝜎̅̅̅2 genau wie 𝜇̅ eine statistische Messung: Es wird vorrausgesetzt, dass uns Daten eines
schon eingetretenen Zufallsexperiments vorliegen.
Die Formel ist absolut identisch zur Berechnung der probabilistischen Varianz, nur anstatt mit
Wahrscheinlichkeiten gewichten wir hier mit der Anzahl der Stichproben.
Definition 3.61
Sei 𝜇̅ das arithmetische Mittel einer Messung.
Seien 𝑎1 , 𝑎2 , … , 𝑎𝑛 , 𝑚𝑖𝑡 𝑎𝑖 ∈ ℝ eine Folge von Realisierungen.
Antwort: Weil, wenn wir 𝐸[𝑋] ermitteln können wir genug Informationen besitzen66, um auch
gleich 𝑉𝑎𝑟[𝑋] zu berechnen. Wir bemerken aber: Unser Mittel 𝜇̅ konvergiert in den meisten
Fällen zu 𝐸[𝑋], wenn 𝜇̅ ein guter Schätzer ist (siehe Kapitel 3: Das Gesetz der großen Zahlen).
Deshalb können wir auch immer mit 𝐸[𝑋] subtrahieren, wenn wir es zufällig zur Verfügung
haben.
FAQ: Was bedeutet „biased“?
64 Es gilt zwar 𝑋: Ω → 𝑆 aber in Kapitel 1 lernten wir, dass Wahrscheinlichkeiten auf Teilmengen von Ω
rückgeführt werden.
65 Bias beschreibt den Abstand zwischen 𝜎 ̅2 und dem tatsächlichen 𝜎 2 .
66 Für 𝐸[𝑋] brauchen wir ja die Einzelwahrscheinlichkeiten 𝑃(𝑋 = 𝑖) jeder Realisierung und gerade die sind
Antwort: Ein bias (deutsch Erwartungstreue) beschreibt den Abstand des erwarteten Wert
eines Schätzers 𝑚̅ zum tatsächlichen Wert 𝑚.
Die obere Formel ist aber nicht optimal. Empirische Versuche zeigen, dass sich für Stichproben
𝑛 < 𝑁67 eine bessere Schätzung ergibt wenn man durch 𝑛 − 1 teilt anstatt 𝑛.
Definition 3.62
Sei 𝜇̅ das arithmetische Mittel einer Messung.
Seien 𝑎1 , 𝑎2 , … , 𝑎𝑛 , 𝑚𝑖𝑡 𝑎𝑖 ∈ ℝ eine Folge von Realisierungen.
Auch wenn es nicht intuitiv erscheint, sollte bei der Berechnung der Stichprobenvarianz mit 𝑛 < 𝑁
immer der unbiased Schätzer genommen werden. Haben wir dagegen alle Daten einer Population
vorliegen (𝑛 = 𝑁), dann liefert der biased Schätzer ein genaueres Ergebnis.
Tipp
Manchmal steht ̅𝜎̅̅2̅𝑛 = 𝑆𝑛2 für den biased Schätzer und ̅𝜎̅̅2̅𝑛−1 = 𝑆𝑛−1
2
für den unbiased
Schätzer.
Steht keine Zahl im Subscript sollte angenommen werden, dass automatisch der unbiased
Schätzer ̅𝜎̅̅2̅𝑛−1 gemeint ist.
Tipp
Die Khan-Academy hat eine tolle Videoreihe nur zur Stichprobenvarianz.
Achtung
Es gibt eine Ausnahme, wo der biased Schätzer ̅𝜎̅̅2̅𝑛 = 𝑆𝑛2 immer einen besseren Wert liefert
als der unbiased Schätzer: Wenn uns keine Stichprobe vorliegt sondern wir alle Individuen
einer Population betrachten, also ̅𝜎̅̅2̅𝑁 .
67 𝑁 beschreibt die Größe einer Population, siehe Kapitel 3: Populationen vs. Stichproben
68 Bias beschreibt den Abstand zwischen 𝜎̅2 und dem tatsächlichen 𝜎 2 .
Tipp
Es ist nie falsch die Populationsvarianz anstatt die Stichprobenvarianz als Schätzer zu nutzen.
Die Populationsvarianz neigt nur zu Unterschätzungen, die aber bei einer großen
Stichprobenzahl geringfügig ausfallen.
Da die Varianz im Grunde genommen auch nur der Erwartungswert einer transformierten
Zufallsvariable ist, greift auch hier das Gesetz der großen Zahlen: Das bedeutet: Je mehr
Stichproben (größeres 𝑛) wir ziehen, desto besser wird unser Schätzer.
Beispiel 3.19
1 10
Eine Variable sei 𝑋~𝐵𝑖𝑛(10, ). Die tatsächliche Varianz beträgt 𝑉𝑎𝑟[𝑋] = = 2, 3̅.
3 3
Dies sei uns aber nicht bekannt. Uns stehen nur folgende Informationen, zum Ausgang
eines Experiments 𝑋 = (𝑋1 , 𝑋2 , … , 𝑋10 ) zur Verfügung:
Versuch Wert
𝑋1 0
𝑋2 0
𝑋3 1
𝑋4 0
𝑋5 0
𝑋6 1
𝑋7 1
𝑋8 0
𝑋9 1
𝑋10 0
Hier ist es wichtig, zu verstehen was sich vor uns befindet. Um die Varianz auszurechnen,
können wir nicht einfach
9
̅̅̅̅̅̅
2
1 2
𝜎 𝑛−1 = ∑(𝑎𝑖 − 𝜇̅ )
9
𝑖=1
rechnen, weil uns für die obere Formel nur ein Datenwert zur Verfügung steht, nämlich 4!
Dies ist der Fall, weil eine binomialverteilte Zufallsvariable eine Summe 𝑋1 + 𝑋2 + ⋯ + 𝑋10
zurückgibt und kein Tupel mit den einzelnen Ausprägungen (𝑋1 , 𝑋2 , … , 𝑋10 ).
Die Tabelle beschreibt aber Letzteres.
Die obere Version würde also nur einen guten Schätzer ergeben, wenn unsere Tabelle eine
mit 𝑋1 + 𝑋2 + ⋯ + 𝑋10 verträgliche Form hätte:
Daraus folgt:
4 6
𝑃(𝑀 = 1) = , 𝑃(𝑀 = 0) =
10 10
Wir lassen das Experiment 𝑛 = 10 mal laufen. Daraus ergibt sich für ̅𝜎̅̅2̅ über die Linearität
der Varianz für unabhängige Zufallsvariablen (da 𝑋~𝐵𝑖𝑛 müssen die 𝑀𝑖 𝑠 unabhängig sein):
Da der unbiased ̅𝜎̅̅2̅10−1 Schätzer schon für die Einzelwahrscheinlichkeit die Varianz
überschätzt, tut er dies auch für die Summe.
Definition 3.63
Sei 𝜇̅ das arithmetische Mittel einer Messung.
Seien 𝑎⃗ = (𝑎1 , 𝑎2 , … , 𝑎𝑛 ), 𝑚𝑖𝑡 𝑎𝑖 ∈ ℝ und
𝑏⃗⃗ = (𝑏1 , 𝑏2 , … , 𝑏𝑛 ), 𝑚𝑖𝑡 𝑏𝑖 ∈ ℝ zwei gleich lange Datensätze.
Definition 3.64
Sei 𝜇̅ das arithmetische Mittel einer Messung.
Seien 𝑎⃗ = (𝑎1 , 𝑎2 , … , 𝑎𝑛 ), 𝑚𝑖𝑡 𝑎𝑖 ∈ ℝ und
𝑏⃗⃗ = (𝑏1 , 𝑏2 , … , 𝑏𝑛 ), 𝑚𝑖𝑡 𝑏𝑖 ∈ ℝ zwei gleich lange Datensätze.
Tipp
Es ist nie falsch die Populationskovarianz anstatt die Stichprobenkovarianz als Schätzer zu
nutzen. Die Populationskovarianz neigt nur zu Unterschätzungen, die aber bei einer großen
Stichprobenzahl geringfügig ausfallen.
Beispiel 3.20
Das Wetteramt des afrikanischen Königreichs Zamunda hat folgende Daten aller
aufgezeichneten Urlaubstage veröffentlicht:
(22 + 24 + 23 + 19 + 30 + 35 + 31 + 17)°𝐶
𝜇𝑎 =
̅̅̅ = 25,125°𝐶
8
(10 + 12 + 13 + 7 + 35 + 40 + 29 + 3)𝑈𝑟𝑙𝑎𝑢𝑏𝑒𝑟
𝜇𝑏 =
̅̅̅ = 18,625 𝑈𝑟𝑙𝑎𝑢𝑏𝑒𝑟
8
Da dies alle aufgezeichneten Urlaubstage (𝑛 = 𝑁) sind, gibt uns die Populationsvarianz ein
besseres Ergebnis.
8
̅̅̅̅̅̅̅̅̅̅̅̅̅ 1
𝐶𝑜𝑣(𝑎⃗, 𝑏⃗⃗) = ∑(22 − 25,125)(10 − 18,625) + (24 − 25,125)(12 − 18,625) + ⋯
8
𝑖=1
594,9013
+ (17 − 25,125)(3 − 18,625) ≈ ≈ 74,36
8
Wir haben eine positive Kovarianz. Wenn die Temperatur steigt, so kommen auch mehr
Touristen. Weil uns die Zahl selbst nicht viel sagt, berechnen wir noch die Korrelation (siehe
Kapitel Pearson Product Moment) aus:
̅̅̅
𝜎 𝑎 ≈6,26.
𝜎
̅̅̅𝑏 ≈ 13,94.
594,9013
Unsere Korelation beträgt somit ≈ 0,85.
5,861∙13.04
Folglich sind die zwei Datensätze 𝑎⃗, 𝑏⃗⃗ sehr linear korreliert.
Beispiel 3.21
Da die Tinte des Druckers nicht ausreichte, erreicht uns nur ein Teil der Urlaubsstatistik.
(22 + 24 + 23 + 19)°𝐶
𝜇𝑎 =
̅̅̅ = 22°𝐶
4
(10 + 12 + 13 + 7)𝑈𝑟𝑙𝑎𝑢𝑏𝑒𝑟
𝜇𝑏 =
̅̅̅ = 10,5 𝑈𝑟𝑙𝑎𝑢𝑏𝑒𝑟
4
Die Einheiten (°𝐶 𝑢𝑛𝑑 𝑈𝑟𝑙𝑎𝑢𝑏𝑒𝑟) lassen wir zur Übersicht weg. Da wir eine Stichprobe
haben, nutzen wir die Stichprobenkovarianz.
4
̅̅̅̅̅̅̅̅̅̅̅̅̅ 1
𝐶𝑜𝑣(𝑎⃗, 𝑏⃗⃗) = ∑(22 − 22)(10 − 10.5) + ⋯ + (19 − 22)(7 − 10.5) = 5, 3̅.
3
𝑖=1
Wie wir sehen, ist unsere Stichprobe zu klein, um ein repräsentatives Ergebnis zu liefern.
Das Vorzeichen ist aber noch immer positiv, weshalb wir über die Art der Korrelation
(positiv korreliert) noch richtige Folgerungen treffen.
Obwohl die Kovarianz im Vergleich zur Voraufgabe einen weit anderen Wert hat, ist die
Korrelation ziemlich ähnlich. Dies ist ein weiteres Beispiel, welches bezeugt, dass man die
Kovarianz zweier Datensätze allein am Zahlenwert eher nicht vergleichen kann (lediglich das
Vorzeichen bietet eine gute Vergleichsbasis).
Der Grad der linearen Abhängigkeit, die Korrelation, kann dagegen ein besseres Bild
zeichnen.
Populationen vs. Stichproben
Wir sind in Hillary Clintons Wahlkampfteam. Um fundierte Wahlvermutungen anstellen zu können
entwickeln wir eine Umfrage mit der einfachen Frage:
„Werden Sie in der kommenden Wahl für Hillary Clinton stimmen?“.
Dabei gibt es ein Problem: Wir können nicht jeden einzelnen der 218 Mio. wahlberechtigten
Amerikaner befragen.
Da wir aber von probabilistischen Konvergenzen und Indikatorvariablen gehört haben (Herleitung
über das Gesetz der großen Zahlen und Das Wunder der Indikatorvariablen), sind wir uns im klaren
darüber, dass eine große Stichprobe ausreicht, um die Meinung der Bevölkerung abzuschätzen.
Obwohl wir vielleicht nie die tatsächliche Meinung aller Wähler kennen werden (schließlich
registriert sich nicht jeder Wahlberechtigte auch zur Wahl), vertrauen wir auf die Validität der
Stochastik, um unser Problem zu lösen.
Definition 3.65
Eine Population repräsentiert die Menge alle relevanten „Teilnehmer“ einer Betrachtung.
Im oberen Beispiel wäre die Menge der Amerikaner unsere Population. Dabei müssen diese
Teilnehmer nicht menschlich sein: Auch alle relevanten Ausgänge von Messungen,
Zufallsexperimenten oder Naturphänomenen Phänomen können eine Population darstellen.
Definition 3.66
Eine Stichprobe ist eine Teilmenge einer Population.
Stichproben sind nichts weiteres als Teilmengen einer Population. In der Tat müssten wir
Parallelen zum ersten Kapitel sehen: Denn Wahrscheinlichkeiten sind auf Populationen definiert69.
Definition 3.67
Bei einem Wahrscheinlichkeitsraum (Ω, Σ, 𝑃) repräsentiert Ω die Population und Σ die Menge
der Stichproben70.
Dabei ist unsere Population nicht immer nur Ω: Haben wir eine Zufallsvariable 𝑋: Ω → 𝑆, so kann
auch 𝑆 zur relevanten Population werden (und Ω ist dann eine Art „Metapopulation“ im
Hintergrund). Da 𝑋 ja einen eigenen Messraum (𝑆, Σ ′ ) darstellt, ist dann Σ′ die Menge der
Stichproben zur Population 𝑆.
Ereignisse sind somit nichts weiteres als Stichproben von Populationen, da sie Teilmengen dieser
darstellen.
Dies deckt sich auch mit unserer Grunddefinition aus Kapitel 1, nämlich
69 Wenn man der Philosophie folgt, dass Ω alle möglichen Ausgänge (und somit Stichproben) eines
Zufallsexperiments enthält
70 Wenn uns (Ω, Σ, 𝑃) nichts sagt, sollten wir Kapitel 1 wiederholen.
𝐴𝑛𝑧𝑎ℎ𝑙 𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒𝑟 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠𝑠𝑒
𝑃(𝑋 ∈ 𝐴) = .
𝐴𝑛𝑧𝑎ℎ𝑙 𝑚ö𝑔𝑙𝑖𝑐ℎ𝑒𝑟 𝐸𝑟𝑒𝑖𝑔𝑛𝑖𝑠𝑠𝑒
Wie die Einleitung des Abschnitts zeigt, können wir Wahrscheinlichkeiten nicht immer auf
Grundpopulationen definieren: Hillary’s Wahlkampfteam berechnet die Siegwahrscheinlichkeit
schließlich anhand einer Stichprobe. Unsere Schätzer im Monte-Carlo Experiment aus Kapitel 1,
aber auch das Stichprobenmittel sowie die Stichprobenvarianz aus Kapitel 3 basieren auf einer
Stichprobenmenge71.
Tipp
Als Bauernregel lässt sich sagen: Ist die Grundmenge Ω eines Wahrscheinlichkeitsraums
selbst eine Stichprobe, dann werden alle induzierten Wahrscheinlichkeiten dieses Raums
auch nur Schätzer sein.
Die Anzahl der Individuen einer Population wird meistens mit 𝑁 bezeichnet. Haben wir einen
Datensatz vor uns liegen, so interessieren uns Wahrscheinlichkeitsräume weniger: Wir brauchen
keine Wahrscheinlichkeiten um das arithmetische Mittel oder die Populationsvarianz zu berechnen.
Tipp
Im englischen bezeichnet Frequency eine Häufigkeitsverteilung und Distribution eine
Wahrscheinlichkeitsverteilung.
72Wir teilen durch 𝑁, weil wir zuvor feststellten, dass eine biased Stichprobenvarianz am besten nur
verwendet warden sollte, wenn wir Zugriff auf die Gesamtpopulation haben.
Einfache Lineare Regression
Hinweis: Wenn wir den Abschnitt Die Kovarianz verstanden haben, fällt uns dieses Kapitel
wesentlich leichter,
Uns ist mittlerweile bekannt, dass Zufallsvariablen sowie Ereignisse manchmal über
Abhängigkeiten verfügen. Zum Beispiel steht das Ereignis 𝐴 = {𝐷𝑖𝑒 𝑆𝑜𝑛𝑛𝑒 𝑠𝑐ℎ𝑒𝑖𝑛𝑡} mit
𝐵 = {𝐷𝑟𝑎𝑢ß𝑒𝑛 𝑖𝑠𝑡 𝑒𝑠 ℎ𝑒𝑙𝑙} sicherlich im starken Verhältnis.
Sehr angenehm sind für uns aber Zusammenhänge, die sich quantifizieren lassen. Transformieren
wir die obige Abhängigkeit in Zufallsvariablen der Form
1, 𝑤𝑒𝑛𝑛 𝑆𝑜𝑛𝑛𝑒 𝑠𝑐ℎ𝑒𝑖𝑛𝑡
𝑋={
0, 𝑠𝑜𝑛𝑠𝑡
1, 𝑤𝑒𝑛𝑛 𝑑𝑟𝑎𝑢ß𝑒𝑛 ℎ𝑒𝑙𝑙
𝑌={
0, 𝑠𝑜𝑛𝑠𝑡
so haben wir einen quantifizierbaren Zusammenhang geschaffen.
Nun überlegen wir uns: Ist es nicht der Fall, dass wenn die Sonne scheint (also 𝑋 = 1) es auch
draußen hell ist (𝑌 = 1)? Reicht es somit nicht in den meisten Fällen aus, lediglich den Wert von 𝑋
zu kennen, um auch auf 𝑌 zu schließen?
Die Antwort ist ein klares „Ja“! Auch wenn nur eine schwache Abhängigkeit zwischen 𝑋 und 𝑌
besteht, ist es für uns ein Informationszuwachs73 bezüglich 𝑌 , den Wert von 𝑋 zu kennen.
Definition 3.68
In der Regression versucht man abhängige Variablen 𝑌1 , … , 𝑌𝑚 durch Verkettung
unabhängiger Variablen 𝑋1 , … , 𝑋𝑛 zu „erklären“.
Wir beschäftigen uns hier mit dem Spezielfall der einfachen linearen Regression.
Definition 3.69
In der einfachen linearen Regression modellieren wir eine Abhängigkeit der Form
𝑌 = 𝑓(𝑋) + 𝜖 = 𝛽1 𝑋 + 𝛽0 + 𝜖, 𝑚𝑖𝑡 𝛽𝑖 , 𝜖 ∈ ℝ ,
Dabei ist 𝜖 meistens keine Konstante sondern entspricht einer Verteilung (z.B. 𝜖~𝑁(0,1)).
Tipp
Die einfache lineare Regression ist ein Spezialfall der linearen Regression, die sich mit
allgemeinen Polynomen der Form
𝑌 = 𝑓(𝑋) + 𝜖 = 𝛽𝑚 𝑋𝑚 … + 𝛽2 𝑋2 + 𝛽1 𝑋1 + 𝛽0 + 𝜖, 𝑚𝑖𝑡 𝛽𝑖 , 𝜖 ∈ ℝ
beschäftigt.
Das Modul „Machine Learning“ der Goethe Universität beschäftigt sich fast ausschließlich mit
linearer Regression.
73 Dies steht im Kontrast zu unkorellierten Zufallsvariablen, wo uns das Wissen von 𝑋 nichts über 𝑌 aussagt.
Oft kommt einem die berechtigte Frage: Aber woher wollen wir wissen, ob 𝑌 sich durch ein
Polynom der Form 𝑓(𝑋) + 𝜖 darstellen lässt?
Die Antwort klingt trivial: Wir probieren es einfach aus! Oft reicht es nämlich für unsere Zwecke
völlig aus, wenn 𝑌 sich annähernd durch unser Regressionspolynom beschreiben lässt.
Die Konstante 𝜖 deckt solche Abweichungen von unserer Regressionsgerade nämlich ab.
Folgende Liste gibt eine Anzahl von Indikatoren, die uns sagen können, ob sich die abhängige
Variable 𝑌 gut durch ein lineares Regressionspolynom 𝑓(𝑋) + 𝜖 = 𝛽1 𝑋 + 𝛽0 + 𝜖 darstellen lässt:
Tipp
Wenn wir eine Prognose der Form 𝑌 = 𝑓(𝑋) + 𝜖 = 𝛽1 𝑋 + 𝛽0 + 𝜖 schaffen wollen, hilft es zu
prüfen, ob:
Definition 3.70
Das Pearson Product Moment quantifiziert den linearen Zusammenhang zweier Variablen.
Wie oben zu sehen, normiert das Pearson Product Moment die Kovarianz in Bezug auf die
Standardabweichung. Dies ermöglicht es, auch unterschiedliche Verteilungen bezüglich ihres PPM
Wertes zu vergleichen.
Dabei liegen die Werte immer im Intervall [−1, +1].
Definition 3.71
Die Werte des Pearson Product Moments liegen immer im Intervall [−1, +1].
Folgende Interpretationsmöglichkeiten bieten sich:
Definition 3.72
Ist 𝑃𝑃𝑀(𝑋, 𝑌) = 0, so besteht kein linearer Zusammenhang zwischen 𝑋, 𝑌.
Definition 3.73
Ist 𝑃𝑃𝑀(𝑋, 𝑌) > 0, so besteht ein positiv linearer Zusammenhang zwischen 𝑋, 𝑌.
Definition 3.74
Ist 𝑃𝑃𝑀(𝑋, 𝑌) < 0, so besteht ein negativ linearer Zusammenhang zwischen 𝑋, 𝑌.
Dabei nehmen wir lediglich an, dass 𝑌 sich durch eine Linearkombination von 𝑋’s darstellen lässt.
Stellen wir uns folgendes Szenario vor: Wir haben einen Datensatz, der den Zusammenhang
zwischen Fahrzeuglänge und Preis beschreibt
Offensichtlich ist die Länge mit dem Preis positiv korreliert. Aber wie gut lässt sich dieser
Zusammenhang affin linear (also als Gerade) darstellen?
Im obigen Beispiel haben wir für die Berechnung der Varianz die Populationsformel 𝜎 2 genutzt und
nicht den unbiased Schätzer ̅𝜎̅̅2̅𝑛−1 , da wir den Datensatz nicht als Stichprobe betrachten.
Malen wir die Daten auf, so wird der annähernd positive lineare Zusammenhang klar:
Der fast linerare Zusammenhang zwischen 𝑋, 𝑌 ist leicht ersichtlich
Tipp
In der Vorlesung Stochastik für Informatiker der Goethe Universität Frankfurt, wird das
Pearson Product Moment als Korrelationskoeffizient 𝜅 bezeichnet.
Tipp
Affin lineare Prognose bedeutet einfach nur ein Regressionspolynom der Form
𝑌 ≈ 𝑓(𝑋) = 𝛽1 𝑋 + 𝛽0 , 𝑚𝑖𝑡 𝛽𝑖 ∈ ℝ.
Ohne das Word affin würde man streng genommen eine Ursprungsgerade der Form
𝑌 ≈ 𝑓(𝑋) = 𝛽0 𝑋, 𝑚𝑖𝑡 𝛽0 ∈ ℝ
meinen.
Definition 3.75
Wenn wir 𝑌 auf Basis von 𝑋 auf affine Weise vohersagen wollen, also ein Polynom der Form
𝑌 ≈ 𝑓(𝑋) = 𝛽1 𝑋 + 𝛽0 , 𝑚𝑖𝑡 𝛽𝑖 ∈ ℝ gesucht ist, dann minimieren folgende Koeffizienten den
erwarteten Fehler:
𝜎𝑌
𝛽1 = 𝑃𝑃𝑀(𝑋, 𝑌)
𝜎𝑋
𝛽0 = 𝜇𝑌 − 𝛽1 𝜇𝑋
FAQ: Warum sind die 𝜷′ 𝒔 so definiert?
Frage: Ach, komm schon! Warum sollen die oberen Werte für die 𝛽′𝑠 denn die beste affin
lineare Prognose bilden?
Also:
𝐸[(𝑌 − 𝛽1 𝑋 − 𝛽0 )2 ] = 𝐸[𝑌 2 ] − 2𝛽1 𝐸[𝑋𝑌] + 𝛽12 𝐸[𝑋 2 ] − 2𝛽0 𝐸[𝑌] + 2𝛽0 𝛽1 𝐸[𝑋] + 𝛽02 .
Wir minimieren den Abstand. Dafür muss die Ableitung für 𝛽0 sowie 𝛽1 null werden.
𝜕𝐸[(𝑌 − 𝛽1 𝑋 − 𝛽0 )2 ]
=0
𝜕𝛽0
⟺ −2𝐸[𝑌] + 2𝛽1 𝐸[𝑋] + 2𝛽0 =0
⟺ 𝛽0 = −𝛽1 𝜇𝑋 + 𝜇𝑌 .
Dasselbe für 𝛽0 :
𝜕𝐸[(𝑌 − 𝛽1 𝑋 − 𝛽0 )2 ]
=0
𝜕𝛽1
⟺ −2𝐸[𝑋𝑌] + 2𝛽1 𝐸[𝑋 2 ] + 2𝛽0 𝐸[𝑋] =0
𝐸[𝑋𝑌] − 𝛽0 𝐸[𝑋]
⟺ 𝛽1 =
𝐸[𝑋 2 ]
Da 𝛽0 schon gelöst wurde, entsteht:
𝐸[𝑋𝑌] − 𝛽0 𝐸[𝑋]
𝛽1 =
𝐸[𝑋 2 ]
𝐸[𝑋𝑌] − (−𝛽1 𝐸[𝑋] + 𝐸[𝑌])𝐸[𝑋]
𝛽1 =
𝐸[𝑋 2 ]
𝐸[𝑋𝑌] + 𝛽1 𝐸[𝑋]2 − 𝐸[𝑋]𝐸[𝑌]
𝛽1 =
𝐸[𝑋 2 ]
𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌]
⏟
𝐸[𝑋]2 𝐶𝑜𝑣(𝑋,𝑌)
⟺ 𝛽1 [1 − ] =
𝐸[𝑋 2 ] 𝐸[𝑋 2 ]
𝐶𝑜𝑣(𝑋, 𝑌) 𝐸[𝑋 2 ]
⟺ 𝛽1 = ∙
𝐸[𝑋 2 ] 𝐸[𝑋 2 ] − 𝐸[𝑋]2
⏟
𝑉𝑒𝑟𝑠𝑐ℎ𝑖𝑒𝑏𝑢𝑛𝑔𝑠𝑠𝑎𝑡𝑧
𝐶𝑜𝑣(𝑋, 𝑌) 𝜎𝑌
⟺ 𝛽1 = = 𝑃𝑃𝑀(𝑋, 𝑌).
𝑉𝑎𝑟[𝑋] 𝜎𝑋
Die Wahl der 𝛽’s minimiert also den erwarteten quadratischen Abstand zu 𝑌.
Wir halten fest: Hat man die Kovarianz 𝐶𝑜𝑣[𝑋, 𝑌] so besitzt man schon alle notwendigen Werte für
die Berechnung der affin linearen Regression! Dies ist der Fall, weil wir für die Kovarianz sowieso
den Erwartungswert und die Varianz von 𝑋 und 𝑌 berechnen müssen.
Wakolbinger Buch Aufgabe
Diese Aufgabe lässt sich im Buch Elementare Stochastik (Götz Kersting, Anton Wakolbinger)
finden.
𝜎𝑌
𝛽1 = 𝑃𝑃𝑀(𝑋, 𝑌),
𝜎𝑋
𝛽0 = 𝜇𝑌 − 𝛽1 𝜇𝑋 .
𝜇𝑌 = 𝐸[𝑍1 − 𝑍2 ] = ⏟
𝐸[𝑍1 ] − ⏟
𝐸[𝑍2 ] = 0.
=0 =0
𝜎𝑋2 = 𝑉𝑎𝑟[2𝑍1 + 1] = 4.
𝜎𝑌2 = 𝑉𝑎𝑟[𝑍1 − 𝑍2 ] = 𝑉𝑎𝑟[𝑍1 ] + 𝑉𝑎𝑟[𝑍2 ]
⏟ + 2⏟
𝐶𝑜𝑣[𝑋, 𝑌] = 3.
𝑉𝑎𝑟[−𝑍2 ]=𝑉𝑎𝑟[𝑍2 ] 0.5
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(2𝑍1 + 1, 𝑍1 − 𝑍2 ) = 2𝐶𝑜𝑣(𝑍1 , 𝑍1 − 𝑍2 )
⏟ = 2[𝐶𝑜𝑣(𝑍1 , 𝑍1 ) + 𝐶𝑜𝑣(𝑍1 , −𝑍2 )]
𝐸𝑖𝑔𝑒𝑛𝑠𝑐ℎ𝑎𝑓𝑡𝑒𝑛 𝐾𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧
= 2[𝑉𝑎𝑟[𝑍1 ] − 𝐶𝑜𝑣(𝑍1 , 𝑍2 )] = 2 ∙ [1 − 0.5] = 1.
𝜎𝑌 √3 𝐶𝑜𝑣(𝑋, 𝑌) √3 1 1
𝛽1 = 𝑃𝑃𝑀(𝑋, 𝑌) = ∙ = ∙ = .
𝜎𝑋 2 2 ∙ √3 2 2 ∙ √3 4
1 1
𝛽0 = 𝜇𝑌 − 𝛽1 𝜇𝑋 = 0 − ∙ 1 = .
4 4
Also:
𝑓(𝑋) = 0.25(𝑋 + 1).
Häufiger Fehler ist es, die falsche Basis bei der Berechnung der Prognose zu nutzen. Möchte man
nämlich 𝑋 auf Basis von 𝑌 berechnen, hat 𝛽1 den Wert
𝜎𝑋
𝛽1 = 𝑃𝑃𝑀(𝑋, 𝑌)
𝜎𝑌
anstatt
𝜎𝑌
𝛽1 = 𝑃𝑃𝑀(𝑋, 𝑌).
𝜎𝑋
Das 𝑃𝑃𝑀(𝑋, 𝑌) bleibt aber unabhängig von der Basis gleich, da die Kovarianz symmetrisch ist, also
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑌, 𝑋).
„Beste“ Prognose
Unsere Datensätze kommen nicht immer in linerer Form: Es gibt genug Fälle, wo die Kovarianz
𝐶𝑜𝑣(𝑋, 𝑌) verschwindet, die Daten aber dennoch eindeutig abhängig sind:
(i) Es gilt:
Da 𝑋 uniform verteilt auf [−1,1] ist, gilt 𝐸[𝑋] = 0.
𝑋 2 hat die Form einer Parabel mit Scheitelpunkt 𝐸[𝑋 2 ]. Somit ist
laut unserer „auf dem Finger Balanzierregel“(Eigenschaften des Erwartungswertes)
𝐸[𝑋 2 ] = 0.
𝑋 3 hat die Form eines 𝑆 mit Sattelpunkt bei im Ursprung. Auch hier gilt
laut der gleichen Regel 𝐸[𝑋 3 ] = 0.
Somit:
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑋, 𝑋 2 ) = 𝐸[𝑋 ∙ 𝑋 2 ] − ⏟
𝐸[𝑋]𝐸[𝑋 2 ] = 𝐸[𝑋 3 ] = 0.
=0
Somit sind 𝑋, 𝑋 2 unkorreliert.
1 1
(ii) Da 𝑌 = 𝑋 2 ist 𝑌 < wenn |𝑋| < .
4 2
1 1 1
Es gilt: 𝑃 (|𝑋| < ) = , da 𝑋 ja uniform auf [−1,1]. Somit ist zwangsweise 𝑃 (𝑌 > ) =
2 2 4
1 1 1
1 − 𝑃 (𝑌 < ) = 1 − = .
4 2 2
Aber:
1 1 1 1
𝑃
⏟(|𝑋| < 2 , 𝑌 > 4) = 0, da wenn |𝑋| < ja 𝑌 < .
2 4
𝑔𝑒𝑚𝑒𝑖𝑛𝑠𝑎𝑚𝑒 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡
Somit:
1 1 1 1 1
𝑃 (|𝑋| < , 𝑌 > ) = 0 ≠ = 𝑃 (|𝑋| < ) 𝑃 (𝑌 > ) .
2 4 4 2 4
Das Pearson Product Moment würde uns in solchen Fällen nur eine Konstante Funktion 𝑓(𝑋) = 𝛽0
mit 𝛽0 = 𝜇𝑌 zurückgeben.
Tipp
Eine Konstante Prognose 𝛽0 = 𝜇𝑌 ist nicht nutzlos! Das Bestimmtheitsmaß 𝑅 2 nutzt 𝛽0 quasi
als „Basisprognose“, mit dem man alle anderen Prognosen vergleicht.
Wir brauchen also eine Prognose, die Nichtlinearitäten im Datensatz optimal abbildet.
Definition 3.76
Gilt 𝑋(𝜔) = 𝑎, dann ist die beste Prognose von 𝑌 auf Basis von 𝑋 eine Funktion der Form
Wir berechnen somit einfach nur den bedingten Erwartungswert 𝐸[𝑌|𝑋 = 𝑎] für jede Realisierung
von 𝑋! Das kann natürlich langwierig werden, wenn 𝑋 viele Werte annehmen kann (oder gar
kontinuierlich ist), weshalb man oft nur kleinere Datensätze per Hand berechnet.
Beispiel 3.22
𝑌~𝑁(0,1) , wenn 𝑋 = 0 und 𝑌~exp(3), wenn 𝑋 = 1. Berechne die beste Prognose von 𝑌
auf Basis von 𝑋.
Es gilt:
1
𝐸[𝑌|𝑋 = 0] = 0 und 𝐸[𝑌|𝑋 = 1] = .
3
0, 𝑤𝑒𝑛𝑛 𝑋 = 0
𝑓(𝑋) = {1 .
, 𝑤𝑒𝑛𝑛 𝑋 = 1
3
Unabhängigkeit / Abhängigkeit von Zufallsvariablen
Wir haben schon in Die Kovarianz gesehen, dass einzelne Zufallsvariablen andere beeinflussen
können. Dieser Grad der Korrelation ließ sich sogar quantifizeren, zum Beispiel durch das Pearson
Product Moment. Es lässt sich somit der Eindruck erwecken, dass die Kovarianz das entscheidende
Kriterium ist, um Abhängigkeiten unter Zufallsvariablen zu bestimmen.
Dass dies nicht immer funktioniert, lässt sich schnell an einem einfachen Bespiel zeigen74. Gegeben
seien zwei reelle Zufallsvariablen 𝑋, 𝑌, mit
𝑌 = 𝑋2
und
1
𝑃(𝑋 = 𝑖) = , 𝑓ü𝑟 𝑖 ∈ {−1,0,1}.
3
74Siehe https://stats.stackexchange.com/questions/179511/why-zero-correlation-does-not-necessarily-
imply-independence?noredirect=1&lq=1
Der Zusammenhang zwischen 𝑋, 𝑌 ist vollständig nichtlinear.
Eine lineare Prognose 𝑌 ≈ 𝑤1 𝑋 + 𝑤0 würde folglich 𝑤1 = 0
und 𝑤0 = 𝐸[𝑌] setzen.
Deshalb muss Abhilfe geschaffen werden. Diese kommt in Form von Abhängigkeit/Unabhängigkeit:
Definition 3.77
Sei (Ω, Σ, 𝑝) ein Wahrscheinlichkeitsraum und
𝐴, 𝐵 ∈ Σ zwei Ereignisse.
Wenn
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵),
dann sind 𝐴, 𝐵 unabhängig.
Um zu prüfen, ob zwei Ereignisse unabhängig sind, brauchen wir folglich lediglich das Produkt
𝑃(𝐴) ∙ 𝑃(𝐵) mit der gemeinsamen Verteilung 𝑃(𝐴 ∩ 𝐵) zu vergleichen. Stimmen beide Produkte
überein, so sind 𝐴, 𝐵 unabhängig. Sind die Produkte ungleich, so sind 𝐴, 𝐵 abhängig.
Haben wir mehrere Ereignisse 𝐴1 , … , 𝐴𝑛 , so reicht lediglich paarweises Vergleichen
nicht mehr aus. Wir müssen dann alle untereinander auftretenden Kombinationsmöglichkeiten
miteinander vergleichen:
Definition 3.78
Sei (Ω, Σ, 𝑝) ein Wahrscheinlichkeitsraum und
𝐴1 , … , 𝐴𝑛 ∈ Σ eine Menge von Ereignissen.
Wenn
𝑘 𝑘
𝑃 (⋂ 𝐴𝑖 ) = ∏ 𝑃(𝐴𝑖 ) , 𝑚𝑖𝑡 1 ≤ 𝑘 ≤ 𝑛, 𝑖 ≠ 𝑗
𝑖=1 𝑖=1
sind die Ereignisse 𝐴1 , … , 𝐴𝑛 unabhängig.
Definition 3.79
Sei (Ω, Σ, 𝑝) ein Wahrscheinlichkeitsraum und
𝐴1 , … , 𝐴𝑛 ∈ Σ eine Menge von Ereignissen.
Das obere macht Sinn, weil wenn 𝐴𝑖 , 𝐴𝑗 disjunkt sind, so wissen wir sofort, dass 𝐴𝑖 und 𝐴𝑗
gleichzeitig auftreten können. Dies zeigt nochmal das folgende Beispiel:
Beispiel 3.23
Gegen seien zwei Mengen 𝐴 = {0}, 𝐵 = {1} mit 𝑃(𝐴), 𝑃(𝐵) > 0, die dieselbe Grundmenge
Ω partitionieren. Lässt sich eine Aussage
bezüglich Abhängigkeit / Unabhängigkeit treffen, ohne die genauen zugrunde liegenden
Wahrscheinlichkeiten zu kennen?
Ersteres ist der Fall, weil 𝐴 nicht eintreffen kann sobald 𝐵 geschehen ist und umgedreht.
Nach dem Motto: Haben wir im Münzwurf Kopf angezeigt, so kann nicht gleichzeitig Zahl
erscheinen.
Wenn wir dieses Buch genau studiert haben, so fällt uns auf, dass wir hier über Ereignisse reden
und nicht Zufallsvariablen75.
Für diskrete Zufallsvariablen ist dies kein Problem, da wir das soeben gelernte ohne Probleme dort
anwenden können, also zu überprüfen, ob
𝑃(𝑋 = 𝑖, 𝑌 = 𝑗) = 𝑃(𝑋 = 𝑖) ∙ 𝑃(𝑌 = 𝑗), ∀𝑖, 𝑗, 𝑗 ≠ 𝑗.
Bei kontinuierlichen Zufallsvariablen müssen wir etwas tricksen, da dort punktweise
Wahrscheinlichkeiten ja nicht möglich sind:
Definition 3.80
Seien 𝑋, 𝑌 kontinuierliche Zufallsvariablen und 𝑓𝑋 , 𝑓𝑌 deren Dichtefunktionen.
genügt.
Beispiel 3.24
2
𝑓𝑋 (𝑖) = 𝑖, 𝑚𝑖𝑡 0 ≤ 𝑖 ≤ √2,
𝑓𝑌 (𝑗) = 1, 𝑚𝑖𝑡 0 ≤ 𝑗 ≤ 1.
∫ ∫ 𝑖 𝑑𝑗 𝑑𝑖 = 1.
0 0
Rechnet man das obere Integral nach, so sieht man, dass die Gleichung erfüllt ist.
75Falls wir den formalen Unterschied zwischen Ereignissen und Zufallsvariablen vergessen haben, so können
wir Ereignisraum (Event Space) und Kurze Wiederholung: Wahrscheinlichkeitsräume und die Maßtheorie
wiederholen.
Zur Bestimmung der Abhängigkeit/Unabhängigkeit überprüfen wir:
𝑓𝑋 (𝑖) ∙ 𝑓𝑌 (𝑗) = 𝑖.
Dies ist offensichtlich erfüllt, weshalb 𝑋, 𝑌 unabhängig sind.
Definition 3.81
Sei (Ω, Σ, 𝑝) ein Wahrscheinlichkeitsraum und
𝐴1 , … , 𝐴𝑛 ∈ Σ eine Menge von Ereignissen.
Die obere Zerlegung ist sehr wichtig, da rekursive Anwendung der Zerlegung jede gemeinsame
Verteilung in eine Kette von bedingten Wahrscheinlichkeiten auflösen kann.
Die Verteilung des zufälligen Paares (𝑋1 , 𝑋2 ) mit Werten in 𝑆1 × 𝑆2 lässt sich angeben
durch die Matrix der gemeinsamen Verteilungsgewichte 𝜌(𝑎1 , 𝑎2 ), 𝑎1 ∈ 𝑆1 , 𝑎2 ∈ 𝑆2 . Wir
betrachten vier Beispiele, bei den ersten beiden ist 𝑆1 = {1,2}, 𝑆2 = {𝑏, 𝑐} bei den letzten
beiden ist 𝑆1 = {1,2,3}, 𝑆2 = {𝑏, 𝑐, 𝑑}.
i) ii)
𝑏 𝑐 𝑏 𝑐
1 0.1 0.3 1 0.1 0.3
2 0.15 0.45 2 0.2 0.4
iii) iv)
𝑏 𝑐 𝑑 𝑏 𝑐 𝑑
1 6𝛾 7𝛾 10𝛾 1 6𝛾 7𝛾 10𝛾
2 12𝛾 14𝛾 20𝛾 2 13𝛾 14𝛾 20𝛾
3 18𝛾 21𝛾 30𝛾 3 17𝛾 21𝛾 30𝛾
1
mit 𝛾 = . In welchen Fällen sind 𝑋1 , 𝑋2 unabhängig und in welchen nicht?
138
Die Lösung ist einfach: Wir müssen lediglich prüfen, ob für alle Realisierungen {1,2, 𝑏, 𝑐, … }
𝑃(𝑋1 = 𝑖, 𝑋2 = 𝑗) = 𝑃(𝑋1 = 𝑖) ∙ 𝑃(𝑋2 = 𝑗)
erfüllt ist.
i)
𝑃(𝑋1 = 1) = 𝑃(𝑋1 = 1, 𝑋2 = 𝑏) + 𝑃(𝑋1 = 1, 𝑋2 = 𝑐) = 0.1 + 0.3 = 0.4.
𝑃(𝑋1 = 2) = 𝑃(𝑋1 = 2, 𝑋2 = 𝑏) + 𝑃(𝑋1 = 2, 𝑋2 = 𝑐) = 0.15 + 0.45 = 0.6.
Zwischenprobe:
𝑃(𝑋1 ) = 𝑃(𝑋1 = 1) + 𝑃(𝑋1 = 2) = 0.4 + 0.6 = 1. ✓
𝑃(𝑋2 ) = 𝑃(𝑋2 = 𝑏) + 𝑃(𝑋2 = 𝑐) = 0.25 + 0.75 = 1. ✓
Nun:
𝑃(𝑋1 = 1) ∙ 𝑃(𝑋2 = 𝑏) = 0.4 ∙ 0.25 = 0.1 = 𝑃(𝑋1 = 1, 𝑋2 = 𝑏). ✓
𝑃(𝑋1 = 1) ∙ 𝑃(𝑋2 = 𝑐) = 0.4 ∙ 0.75 = 0.3 = 𝑃(𝑋1 = 1, 𝑋2 = 𝑐). ✓
𝑃(𝑋1 = 2) ∙ 𝑃(𝑋2 = 𝑏) = 0.6 ∙ 0.25 = 0.15 = 𝑃(𝑋1 = 1, 𝑋2 = 𝑏). ✓
𝑃(𝑋1 = 2) ∙ 𝑃(𝑋2 = 𝑐) = 0.6 ∙ 0.75 = 0.45 = 𝑃(𝑋1 = 2, 𝑋2 = 𝑐). ✓
Alternativ sehen wir, dass die zweite Zeile das 1.5-fache der ersten ist, also
(0.1 ∙ 1.5, 0.3 ∙ 1.5) = ⏟
⏟ (0.15, 0.45),
1.5∙𝑒𝑟𝑠𝑡𝑒 𝑍𝑒𝑖𝑙𝑒 𝑧𝑤𝑒𝑖𝑡𝑒 𝑍𝑒𝑖𝑙𝑒
was bedeutet, dass 𝑋1 , 𝑋2 unabhängig sind.
ii)
𝑃(𝑋1 = 1) = 𝑃(𝑋1 = 1, 𝑋2 = 𝑏) + 𝑃(𝑋1 = 1, 𝑋2 = 𝑐) = 0.1 + 0.3 = 0.4.
𝑃(𝑋1 = 2) = 𝑃(𝑋1 = 2, 𝑋2 = 𝑏) + 𝑃(𝑋1 = 2, 𝑋2 = 𝑐) = 0.2 + 0.4 = 0.6.
Aber:
𝑃(𝑋1 = 1) ∙ 𝑃(𝑋2 = 𝑏) = 0.4 ∙ 0.3 = 0.12 ≠ 𝑃(𝑋1 = 1, 𝑋2 = 𝑏).
Der Unabhängigkeitstest schlägt fehl, 𝑋1 , 𝑋2 sind abhängig voneinander.
Alternativ sehen wir, dass die zweite Zeile diesmal kein Vielfaches der ersten ist.
iii)
Ab nun würde es langwierig werden, die marginalen Wahrscheinlichkeiten aufzusummieren,
da wir nun noch mehr Kombinationen zu prüfen hätten.
Wir erkennen aber, dass die Zeilen Vielfache voneinander sind, weil
(6𝛾 ∙ 2 + 7𝛾 ∙ 2 + 10𝛾 ∙ 2) = ⏟
⏟ (12𝛾, 14𝛾, 20𝛾),
2∙𝑒𝑟𝑠𝑡𝑒 𝑍𝑒𝑖𝑙𝑒 𝑧𝑤𝑒𝑖𝑡𝑒 𝑍𝑒𝑖𝑙𝑒
(6𝛾
⏟ ∙ 3 + 7𝛾 ∙ 3 + 10𝛾 ∙ 3) = (18𝛾,
⏟ 21𝛾, 30𝛾).
3∙𝑒𝑟𝑠𝑡𝑒 𝑍𝑒𝑖𝑙𝑒 𝑑𝑟𝑖𝑡𝑡𝑒 𝑍𝑒𝑖𝑙𝑒
iv)
Diesmal gibt es keinen multiplikativen Faktor der ersten und dritten Zeile. Ergo sind 𝑋1 , 𝑋2
abhängig voneinander.
𝑃(𝑋2 = 𝑏) = ∑ 𝑃(𝑋1 = 𝑘, 𝑋2 = 𝑏) ?
𝑘=1
Antwort: Sehr gute Frage! Diese werde ich aber im folgenden Kästchen beantworten, weil
dies schonmal eine Übungsaufgabe war.
Wir prüfen somit lediglich, ob die Zufallsvariablen unabhängig sind (also erfüllen(∗∗)),
wenn deren Wahrscheinlichkeit proportional zu Faktoren 𝑘1 , 𝑘2 ist.
Zu zeigen:
𝜌1 (𝑎1 ) = 𝜇1 (𝑎1 )𝑘2 mit 𝑘2 = ∑𝑎2′ 𝜇2 (𝑎2 ′).
Zu zeigen:
𝜌2 (𝑎2 ) = 𝜇2 (𝑎2 )𝑘1 mit 𝑘1 = ∑𝑎1′ 𝜇1 (𝑎1 ′).
Zu zeigen:
𝜌(𝑎1 , 𝑎2 ) = 𝜇1 (𝑎1 )𝜇2 (𝑎2 ) ⟺ 𝜌(𝑎1 , 𝑎2 ) = 𝜌1 (𝑎1 )𝜌2 (𝑎2 ).
= ⏟ 1 , 𝑎2 )
𝜌(𝑎 ∑ 𝜇2 (𝑎2 ′) ∙ ∑ 𝜇1 (𝑎1 ′).
𝜌(𝑎1 ,𝑎2 )=𝜇1 (𝑎1 )𝜇2 (𝑎2 ) ⏟ 𝑎2 ′ 𝑎1 ′
=1,𝑑𝑎 𝑎𝑖 𝑢𝑛𝑎𝑏ℎä𝑛𝑔𝑖𝑔
Wie wir sehen, muss 𝑘1 𝑘2 = 1 erfüllt sein, wenn 𝑋1 , 𝑋2 unabhängig sind, da sonst unsere
fundamentale Gleichung
𝜌1 (𝑎1 )𝜌2 (𝑎2 ) = 𝜌(𝑎1 , 𝑎2 ),
nicht erfüllt ist.
Bedingte Wahrscheinlichkeiten
Definition 3.82
Eine bedingte Wahrscheinlichkeit ist abhängig von der Realisierung eines vorherigen
Ereignisses.
In der Praxis, begegnen uns bedingte Wahrscheinlichkeiten (conditional probabilities) vor allem
bei mehrstufigen Zufallsexperimenten. Das aber bedeutet nicht, dass man mindestens zwei
Zufallsvariablen 𝑋, 𝑌 braucht, um bedingten Wahrscheinlichkeiten zu begegnen. Schon ein
Ausdruck der Form 𝑃(𝑋 > 𝑎|𝑋 < 𝑏) lässt Interpendenzen entsehen, obwohl wir nur eine einzelne
Zufallsvariable haben. Das aber selbst schon Partitionen der Grundmenge Ω bedingte
Wahrscheinlichkeiten entsehen lassen, ist vielleicht nicht sofort ersichtlich:
Definition 3.83
Sei (Ω, Σ, 𝑝) ein Wahrscheinlichkeitsraum und
𝐴, 𝐵 ∈ Σ zwei Ereignisse.
Dann gilt:
Tipp
𝑃(𝑋 = 𝑖|𝑌 = 𝑗) lässt sich lesen als
Gebe mir die Wahrscheinlichkeit, dass 𝑋 den Wert 𝑖 annimmt, wenn zuvor 𝑌 den Wert 𝑗
angenommen hat.
Das 𝑃(𝐴|𝐵) ∙ 𝑃(𝐵) = 𝑃(𝐵|𝐴) ∙ 𝑃(𝐴) gilt folgt aus dem Satz von Bayes:
Definition 3.84
Sei (Ω, Σ, 𝑝) ein Wahrscheinlichkeitsraum und
𝐴, 𝐵 ∈ Σ zwei Ereignisse.
Dann gilt:
Tipp
In den Modulen Machine Learning I & II entgegnet einem der Satz von Bayes häufig, um
posterior Wahrscheinlichkeiten herauszufinden.
Beispiel 3.25
Gegeben ist ein zweifacher fairer Münzwurf. Berechne die Wahrscheinlichkeit Kopf zu
werfen, wenn zuvor Zahl geworfen wurde.
Im oberen Beispiel wird ersichtlich, dass man natürlich auch bei unabhängigen Zufallsvariablen /
Ereignissen mit bedingten Wahrscheinlichkeiten rechnen kann. Dies ist dann aber nicht sonderlich
spannend, weil dann 𝑃(𝐵|𝐴) = 𝑃(𝐵) gilt.
Antwort: Erinnere dich an den Satz von Bayes und 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵) für unabhängige
Zufallsvariablen:
Ziehen wir nun rein zufällig einen Absolventen aus einen der drei Fachrichtungen, so können wir
das erwartete Gehalt ja bekanntermaßen über den Erwartungswert bestimmen:
𝑛 101037
Damit diese Formel funktioniert, ist es auf dem ersten Blick notwendig, dass wir das Gehalt von
jeder einzelnen Person kennen. Somit haben wir 𝑛 = 101037 viele Additionen. Die oberen zwei
Tabellen geben uns aber keine Auskunft über einzelne Personen, sondern nur Personengruppen
zusammengefasst in Studienrichtungen.
Dennoch ist eine Erwartungswertberechnung möglich, da die erste Tabelle ja schon
Erwartungswerte für die einzelnen Studienrichtungen enthält. Die Situation lässt sich also als
zweistufiges Zufallsexperiment darstellen, wobei 𝑋 → {1,2,3} auf die drei Fachbereiche abbildet
und 𝑌 das Durchschnittsgehalt eines des zuvor gezogenen Fachbereichs repräsentiert.
Folgende Grafik repräsentiert diesen Sachverhalt. An den Kanten sind Wahrscheinlichkeiten für 𝑋
abgebildet.
Die erste Stufe repräsentiert den Fachbereich
und die zweite das Durchschnittsgehalt einen von dort
gezogenen Studenten.
Auf genau diese Art lässt sich auch der Erwartungswert zerlegen. Das dies für diskrete
Zufallsvariablen allgemein gilt, sagt folgender Satz:
Definition 3.85
Seien 𝑋, 𝑌 Zufallsvariablen und 𝑋 diskret.
Außerdem bestehe ein zweistufiges Zufallsexperiment, wobei 𝑋 die erste
und 𝑌 die zweite Stufe darstellt.
Tipp
Der bedingte Erwartungswert hat mehrere Notationen, z.B.:
𝐸[𝑌| 𝑋] = 𝐸𝑋 [𝑌].
Achtung
In diesem Buch ist die erste Stufe (in unserem Fall 𝑋) keine kontinuierliche Zufallsvariable, da
wir sonst ohne rigorose Definition schnell ins,Borel-Kolgomorov Paradox Territorium gelangen.
Achtung
𝐸[𝑌| 𝑋] ist eine Zufallsvariable und 𝐸[𝑋] eine Zahl.
In unserem Beispiel lässt sich nun das erwartete Gehalt eines gezogenen Studenten aus den drei
Studiengängen sehr leicht berechnen:
𝑛
Antwort: Natürlich.
= ∑ ∑ 𝑦 ∙ 𝑃(𝑌 = 𝑦, 𝑋 = 𝑥) = ∑ 𝑦 ∑ 𝑃(𝑌 = 𝑦, 𝑋 = 𝑥)
𝑥∈𝑆𝑋 𝑦∈𝑆𝑌 𝑦∈𝑆𝑌 ⏟
𝑥∈𝑆𝑋
𝑡𝑜𝑡𝑎𝑙𝑒 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡
= ∑ 𝑦 ∙ 𝑃(𝑌 = 𝑦) = 𝐸[𝑌].
𝑦∈𝑆𝑌
Beispiel 3.26
Berechne die erwartete Augenzahl beim nächsten Wurf, wenn zuvor eine 4 gewürfelt
wurde.
Der Erwartungswert eines üblichen fairen Würfelns liegt bei 3,5. Intuitiv erwarten wir somit
auch, dass dies der erwartete Wert ist, wenn wir zuvor eine vier gewüfelt haben, da die Würfe
ja unabhängig voneinander sind.
Dabei startet Niklas im orangenen Knoten. Läuft er nun rein zufällig den Graph entlang, lassen
sich an den Kanten Übergangswahrscheinlichkeiten notieren:
Dank des bedingten Erwartungswertes, können wir nun die erwartete Anzahl der Schritte
ermitteln, bis Niklas aus dem Labyrinth gefunden hat. Dabei bezeichnet ein „Schritt“ einen
Zustandsübergang von einen Knoten in den anderen.
Das Verfahren ist meistens gleich: Sei 𝑋 ∈ {1,2, … ,6} eine Zufallsvariable, die den Raum angibt, in
welchem Niklas sich gerade befindet.
Sei 𝑇 = 𝐼1 + 𝐼2 + ⋯ + 𝐼∞ die Summe von Indikatorvariablen folgender Art:
1, 𝑤𝑒𝑛𝑛 𝑋 ≠ 6
𝐼𝑖 = { .
0, 𝑤𝑒𝑛𝑛 𝑋 = 6
𝑇 gibt somit die Anzahl der Schritte bis zum Treffer an. Da Niklas nicht ins Labyrinth zurückgeht,
nachdem er den Ausgang (𝑋𝑖 = 6) gefunden hat, ist diese Summe höchstwahrscheinlich immer
endlich. Gesucht ist 𝐸[𝑇|𝑋 = 1], was die erwartete Anzahl der Schritte bis zum Ausgang darstellt
vom Startknoten 1.
Wichtig für die folgenden Berechnugen ist, dass wir Gedächtnislosigkeit der Irrfahrt annehmen. Das
bedeutet: Befinden wir uns im Knoten 𝑖, so ist die Übergangswahrscheinlichkeit zum nächsten
Knoten 𝑗 unabhängig vom bisherigen Pfad unserer Irrfahrt.
Die 𝟏 repräsentiert den Übergang von einen Zustand in den nächsten. Sie stellt somit den „Schritt“
selbst dar.
Die anderen Zustände lassen sich genauso zerlegen:
1 1
E[T|X = 1] = 1 + ∙ E[T|X = 3] + ∙ E[T|X = 2],
2 2
1 1
E[T|X = 2] = 1 + ∙ E[T|X = 1] + ∙ E[T|X = 4],
2 2
1 1
E[T|X = 3] = 1 + ∙ E[T|X = 1] + ∙ E[T|X = 4],
2 2
1 1 1 1
E[T|X = 4] = 1 + ∙ E[T|X = 2] + ∙ E[T|X = 3] + ∙ E[T|X = 5] + ∙ E[T|X = 6],
4 4 4 4
E[T|X = 5] = 1 + 1 ∙ E[T|X = 4],
E[T|X = 6] = 0.
Tipp
Das Ziel E[T|X = Ziel] hat immer den Wert null, also E[T|X = Ziel] = 0.
Dies liegt daran, dass die erwartete Anzahl von Schritten bis zum Ziel, wenn man schon im
Ziel ist, null ist.
Tipp
Bei 𝑛 vielen Unbekannten brauchen wir auch 𝑛 viele linear unabhängige Gleichungen, sonst
haben wir ein unterbestimmtes Gleichungssystem (und somit unendlich viele Lösungen).
Tipp
Man kann eine Analogie zum Floyd-Warshall Algorithmus ziehen: Anstatt nur den kürzesten
Weg von einem Startknoten zu einem anderen zu finden, werden alle kürzesten Wege von
allen Knoten berechnet.
Wir haben 5 Unbekannte und auch 5 Gleichungen (E[T|X = 6] ist nicht unbekannt, da der Wert ja
null ist). Somit brauchen wir nur das Gleichungssystem lösen, um unsere gesuchte Lösung zu
erhalten. Nun wird auch ein weiterer Nutzen der 𝟏 ersichtlich: Ohne sie wäre unser
Gleichungssystem nicht eindeutig.
Außerdem bemerken wir, dass E[T|X = 3] = 𝐸[𝑇|𝑋 = 2], da sie die gleiche rechte Seite haben.
Wir erhalten folgende Ergebnisse:
E[T|X = 1] = 15,
E[T|X = 2] = 14,
E[T|X = 3] = 14,
E[T|X = 4] = 11,
E[T|X = 5] = 12,
E[T|X = 6] = 0.
Niklas braucht somit in Erwartung E[T|X = 1] = 15 Schritte, um bis zum Ausgang zu kommen.
Stellen wir uns nun vor, im Knoten 5 ist ein Monster. Wie hoch ist dann die Wahrscheinlichkeit,
dass Niklas den Ausgang findet bevor er in den Knoten 5 geht?
Die Schematik sieht nun so aus:
Gesucht ist 𝑃(𝑇 = 1|𝑋 = 1). Für dieses Problem hilft uns nun die totale Wahrscheinlichkeit:
1 1
𝑃(𝑇 = 1|𝑋 = 1) = ∙ 𝑃(𝑇 = 1|𝑋 = 2) + ∙ 𝑃(𝑇 = 1|𝑋 = 3).
2 2
Diesmal addieren wir keine 1 hinzu, da die neue Fragestellung sich mit Wahrscheinlichkeiten
befasst anstatt Übergangsschritten. Erneut zerlegen wir auch die anderen Zustände:
1 1
𝑃(𝑇 = 1|𝑋 = 1) = ∙ 𝑃(𝑇 = 1|𝑋 = 2) + ∙ 𝑃(𝑇 = 1|𝑋 = 3),
2 2
1 1
P(𝑇 = 1|𝑋 = 2) = ∙ 𝑃(𝑇 = 1|𝑋 = 1) + ∙ 𝑃(𝑇 = 1|𝑋 = 4),
2 2
1 1
P(𝑇 = 1|𝑋 = 3) = ∙ 𝑃(𝑇 = 1|𝑋 = 1) + ∙ 𝑃(𝑇 = 1|𝑋 = 4),
2 2
1 1 1 1
P(𝑇 = 1|𝑋 = 4) = 𝑃(𝑇 = 1|𝑋 = 2) + 𝑃(𝑇 = 1|𝑋 = 3) + ⏟P(𝑇 = 1|𝑋 = 5) + ⏟𝑃(𝑇 = 1|𝑋 = 6),
4 4 4 4
=0 =1
P(𝑇 = 1|𝑋 = 5) = 0,
P(𝑇 = 1|𝑋 = 6) = 1,
Tipp
Das Ziel P(𝑇 = 1|𝑋 = 𝑍𝑖𝑒𝑙) hat immer den Wert 1, also P(𝑇 = 1|𝑋 = 𝑍𝑖𝑒𝑙) = 1.
Dies liegt daran, dass die Wahrscheinlichkeit vor der zu vermeidenden Menge zum Ziel zu
gelangen, wenn man im Ziel ist, eins beträgt.
Tipp
Das zu vermeidende Menge P(𝑇 = 1|𝑋 = 𝑆𝑒𝑛𝑘𝑒) hat immer den Wert 0, also
P(𝑇 = 1|𝑋 = 𝑆𝑒𝑛𝑘𝑒) = 0.
Dies liegt daran, dass die Wahrscheinlichkeit das Ziel vor den zu vermeidenden Zuständen zu
treffen, wenn man in einem zu vermeidenden Zustand ist, null beträgt.
Tipp
Schwierigkeiten würden entstehen, wenn man uns nach der erwarteten Anzahl der Schritte,
die Niklas geht, wenn er den Ausgang vor den Monster erreichen will fragen würde.
Dies liegt daran, dass bei unserer bisherigen Definition 𝐸[𝑇|𝑋 = 5] = ∞ wäre.
Tipp
Unser Graph ist nicht irreduzibel. Das bedeutet, es gibt mindestens einen Knoten, der als
„Senke“ agiert (z.B. die Zielzustände).
Stochastik für Informatiker Aufgabe 43S, WS17/18
Wir betrachten die gewöhnliche Irrfahrt in ℤ2 : von jedem Punkt geht man jedesmal einen
Schritt der Größe 1, unabhängig von der Vorgeschichte mit Wahrscheinlichkeit ¼ nach
Osten, Norden, Westen oder Süden.
a) Berechnen Sie die Wahrscheinlichkeit dafür, dass man ausgehend von dem in der
untenstehenden Skizze mit 3 bezeichneten Punkt die Menge {1,2,3} nach Norden
oder Osten verlässt.
b) Berechnen Sie die erwartete Anzahl der Schritte bis zum erstmaligen Verlassen
der Menge {1,2,3} bei Start in 1.
Wir lassen das Gleichungssystem entstehen. Zwei Dinge müssen wir beachten:
Einmal, dass wir in einem Schritt nicht diagonal laufen können, sondern nur
horizontal und vertikal (unsere Irrfahrt in ℤ2 ändert jeweils nur eine Koordinate des
Positionsvektors).
Zweitens, dürfen wir nicht vergessen, dass 𝑃(𝑇|𝑋 = 𝑍𝑖𝑒𝑙) = 1, wenn 𝑋 ein Zielknoten
ist.
1 1
𝑃(𝑇|𝑋 = 3) = ∙ 1 + ∙ 𝑃(𝑇|𝑋 = 1),
2 4
1 1
𝑃(𝑇|𝑋 = 1) = ∙ 𝑃(𝑇|𝑋 = 2) + ∙ 𝑃(𝑇|𝑋 = 3),
4 4
1 1
𝑃(𝑇|𝑋 = 2) = ∙ 1 + ∙ 𝑃(𝑇|𝑋 = 1).
2 4
4
𝑃(𝑇|𝑋 = 3) = ,
7
2
𝑃(𝑇|𝑋 = 1) = ,
7
4
𝑃(𝑇|𝑋 = 2) = .
7
1 1
𝐸[𝑇|𝑋 = 1] = 1 + ∙ 𝐸[𝑇|𝑋 = 2] + ∙ 𝐸[𝑇|𝑋 = 3],
4 4
1
𝐸[𝑇|𝑋 = 2] = 1 + ∙ 𝐸[𝑇|𝑋 = 1],
4
1
𝐸[𝑇|𝑋 = 3] = 1 + ∙ 𝐸[𝑇|𝑋 = 1].
4
12
𝐸[𝑇|𝑋 = 1] = ,
7
10
𝐸[𝑇|𝑋 = 2] = ,
7
10
𝐸[𝑇|𝑋 = 3] = .
7
Bedingte Varianz
Es gibt auch bedingte Varianzen. Diese sind definiert als:
Definition 3.86
Seien 𝑋, 𝑌 beliebige Zufallsvariablen.
Außerdem bestehe ein zweistufiges Zufallsexperiment, wobei 𝑋 die erste
und 𝑌 die zweite Stufe darstellt.
Da Varianzen 𝑉𝑎𝑟[𝑌] = 𝐸[(𝑌 − 𝐸[𝑌]2 )] lediglich Erwartungswerte darstellen, liegt die Vermutung
nahe, dass es auch hier eine Zerlegung geben könnte. Dass es die tatsächlich gibt, zeigt folgende
Definition:
Definition 3.87
Seien 𝑋, 𝑌 Zufallsvariablen und 𝑋 diskret.
Außerdem bestehe ein zweistufiges Zufallsexperiment, wobei 𝑋 die erste
und 𝑌 die zweite Stufe darstellt.
Die Zerlegung des der Varianz 𝑉𝑎𝑟[𝑌] hat dann folgende Form:
Auch hier beschränken wir uns in diesem Buch auf Zufallsvariablen mit diskreter erster Stufe. Auch
wenn die Formel auf dem ersten Blick kompliziert aussieht, geschieht hier nichts neues: Wir wissen
bereits wie man Varianzen berechnet und auch bedingte Erwartungswerten haben wir schon
gesehen. Im Endeffekt sind 𝑉𝑎𝑟[𝑌|𝑋] = 𝑍 und 𝐸[𝑌|𝑋] = 𝑊 nämlich auch wieder nur
Zufallsvariablen.
𝑉𝑎𝑟[𝑌] = 𝐸 [ ⏟
𝑍 ] + Var [ 𝑊
⏟ ],
𝑉𝑎𝑟[𝑌|𝑋] 𝐸[𝑌|𝑋]
so wird einem der Zusammenhang zum Gelernten vielleicht klarer. Folglich kann man mit der
Anwendung sofort beginnen:
b) 𝑌 sei uniform verteilt of [0,1] ∪ [10,20]. Berechnen Sie 𝐸[𝑌] und 𝑉𝑎𝑟[𝑌].
a) Wir haben ein zweizufiges Experiment. Dies kann man
wie folgt visualisieren:
Es gibt hier nur ein Problem: Wenn {𝑋 = 1}, dann ist −𝑌~ exp(5) verteilt.
Da wir aber 𝐸[𝑌] ausrechnen wollen, brauchen wir die Verteilung von 𝑌 und nicht
−𝑌.
Aber wie schließen wir auf die Verteilung von 𝑌 von −𝑌?
Ganz einfach: Definieren wir 𝑀 = 𝑌, so ist 𝑀 eine transformierte Zufallsvariable.
Wir können auf die Verteilung von 𝑀 nun über die in Transformationen
kontinuierlicher Zufallsvariablen vorgestellten Techniken schließen.
Daraus folgt:
𝑓𝑌 (𝑦) = 5𝑒 5𝑦 , 𝑚𝑖𝑡 𝑦 ∈ [0, −∞].
Dabei darf nicht vergessen werden, dass 𝑦 negativ ist! Sonst würde das obere nicht
aufgehen, da bei positiven 𝑦 der Ausdruck 𝑒 5𝑦 divergiert! Die resultierende
Verteilung ist somit einfach nur eine um die Ordinate gespiegelte
1
Exponentialverteilung. Foglich ist der Erwartungswert − . Die Varianz wird dagegen
5
von −𝑌~𝐸𝑥𝑝(5) übernommen, da die Spiegelung des Supports nicht die Streuung um
den Erwartungswert beeinflusst.
Malt man die Verteilungen von −𝑌 und 𝑌 nebeneinander wird
ersichtlich, dass 𝑌 den umgedrehten Support von −𝑌 hat. Auch sieht
man, dass die Verteilungen sonst gleich aussehen, weshalb 𝑉𝑎𝑟[𝑌] = 𝑉𝑎𝑟[−𝑌].
1 2 1 1 7
𝐸[𝑌] = 𝐸[𝐸[𝑌| 𝑋]] = ∙ +− ∙ = .
⏟
3 ⏟ 3 5 ⏟
3 45
𝜆−1 1−𝑝 𝑝
Nebenrechnung:
1
1 2 1 1 59
𝐸[𝑉𝑎𝑟[𝑌|𝑋]] = ∑ 𝑉𝑎𝑟[𝑌|𝑋 = 𝑖] ∙ 𝑃(𝑋 = 𝑖) = ∙ + ∙ = .
⏟
9 3 25 3 675
𝑖=0
𝜆 −2
2
1, 𝑤𝑒𝑛𝑛 𝜔 ∈ [0,1]
𝑋(𝜔) = { .
0, 𝑤𝑒𝑛𝑛 𝜔 ∈ [10,20]
Die Realisierungen 0,1 von 𝑋 spielen dabei keine Rolle. Wir sind nur an den
Wahrscheinlichkeiten interessiert. Folglich muss 𝑋 nichteinmal eine reelle
Zufallsvariable sein, solange die Ereignisse 𝜔 ∈ [0,1] und 𝜔 ∈ [10,20] unterscheidbar
sind.
Folgende Definition wäre also auch möglich:
Also:
91 4205
𝑉𝑎𝑟[𝑌] = + ≈ 24,95.
12 242
Konvergenz
Durch das Gesetz der großen Zahlen wissen wir, dass selbst Einzelwahrscheinlickeiten sich als
Resultat von Grenzprozessen sehen lassen, weil für eine Indikatorvariable 𝐼 gilt:
𝐼1 + ⋯ + 𝐼𝑛
𝑃(𝐼 = 1) = 𝑝 = 𝐸[𝐼] = lim .
⏟
𝑛→∞ 𝑛
𝑠𝑡𝑎𝑟𝑘𝑒𝑠 𝐺𝑒𝑠𝑒𝑡𝑧 𝑑𝑒𝑟 𝑔𝑟𝑜ß𝑒𝑛 𝑍𝑎ℎ𝑙𝑒𝑛
Tipp
Wenn man Wahrscheinlichkeiten als Resultat von Grenzprozessen sieht, dann nennt man das
auch die „frequentistische Strömung“ der Wahrscheinlichkeitslehre.
Im Gegensatz dazu steht die „bayesianische Betrachtungsweise“, die Wahrscheinlichkeiten
als „quantifizierbares Maß“ von Glauben sehen.
Manchmal stehen diese Strömungen konträr zueinander. In vielen Fällen lassen sich aber
beide Ansichten vereinen, z.B: über „de Finetti’s Austauschbarkeitstheorem“.
Die bayesianische Betrachtungsweise ist besonders im Bereich des statistischen Lernens, wie
„Machine Learning“ extrem relevant.
Wie in der Analysis auch, gibt es verschiedene Arten Konvergenz von Zufallsvariablen
auszudrücken. Hier werden einige Bekannte vorgestellt.
Konvergenz in Verteilung
Definition 3.88
Eine Sequenz {𝑋𝑛 } von Zufallsvariablen mit gemeinsamer Verteilungsfunktion 𝐹𝑛 konvergiert
in Verteilung zu einer Verteilungsfunktion 𝐹, wenn:
Das heißt, dass die Verteilung einer immer länger werdenden Folge {𝑋𝑛 } von Zufallsvariablen im
Limit durch eine andere Verteilungsfunktion 𝐹 dargestellt werden kann.
Tipp
Die Konvergenz in Verteilung ist eine schwache Art der Konvergenz. Selbst wenn die
Verteilungsfunktionen 𝐹𝑛 , 𝐹 sich im Grenzwert annähern, bedeutet dies nicht, dass die
korrespondierenden Dichtefunktionen 𝑓𝑛 , 𝑓 dasselbe tun.
Aber: Konvergieren die Dichtefunktionen zueinander, so tun dies auch die
Verteilungsfunktionen (Scheffé’s Theorem).
Konvergenz in Wahrscheinlichkeit
Definition 3.89
Eine Sequenz {𝑋𝑛 } von Zufallsvariablen konvergiert in Wahrscheinlichkeit zu einer
Zufallsvariable 𝑌, wenn:
Intuitiv bedeutet die Konvergenz in Wahrscheinlichkeit, dass 𝑋𝑛 und 𝑌 sich immer ähnlicher
werden je weiter 𝑛 zunimmt. Das bedeutet aber nicht, dass sie auch automatisch identisch werden,
also, dass 𝑋𝑛 = 𝑌, 𝑤𝑒𝑛𝑛 𝑛 → ∞. Dies impliziert, dass es noch stärkere Arten der Konvergenz geben
muss.
Das schwache Gesetz der großen Zahlen aus Herleitung über das Gesetz der großen Zahlen
konvergiert in Wahrscheinlichkeit.
Tipp
Die Konvergenz in Wahrscheinlichkeit impliziert eine Konvergenz in Verteilung.
Definition 3.90
Eine Sequenz {𝑋𝑛 } von Zufallsvariablen konvergiert in fast sicher zu einer Zufallsvariable 𝑌,
wenn:
lim 𝑃(𝑋𝑛 = 𝑌) = 1.
𝑛→∞
Dies bedeutet, dass die Verteilung von 𝑋𝑛 und 𝑌 im Grenzwert überall identisch ist, außer bei den
Elementen, die eine Dichte von null haben.
Das starke Gesetz der großen Zahlen aus Herleitung über das Gesetz der großen Zahlen konvergiert
fast sicher.
Tipp
Fast sichere Konvergenz impliziert Konvergenz in Wahrscheinlichkeit und somit Konvergenz
in Verteilung.
Es kann somit als stärkste Form der vorgestellten Konvergenzarten gesehen werden.
Beispiele diskreter Verteilungen
Diese beinhaltet nützliche Formeln, um wichtige Charakteristiken wie den Erwartungswert oder
die Varianz schnell auszurechnen.
An manchen Stellen werden Beweise vorgestellt. Diese sind nicht notwendig, um die Verteilungen
zu „benutzen“, helfen aber beim Verständnis weiter.
Am Ende jedes Abschnitts gibt es Beispiele. Diese kombinieren Wissen aus vergangenen aber auch
kommenden Kapiteln. Somit sind sie nicht geordnet nach Schwierigkeitsgrad.
Uniforme Verteilung auf ℤ (diskret)
Uniforme Verteilung auf 5 Klassen. Die summierte Massefunktion ist stets streng
monoton steigend.
Definitionen 𝑎. 𝑏 ∈ ℤ
𝑛 = 𝑎 + 𝑏 − 1 (𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙𝑙ä𝑛𝑔𝑒 𝑧𝑤𝑖𝑠𝑐ℎ𝑒𝑛 𝑎, 𝑏)
𝑘 ∈ ℤ ∧ (𝑎 ≤ 𝑘 ≤ 𝑏)
oft benutzte Notation 𝑋~𝑈{𝑎, 𝑏} oder 𝑋~𝑢𝑛𝑖𝑓{𝑎, 𝑏}
Gewichtsfunktion (pmf) 𝑃(𝑋 = 𝑘) 1
𝑛
Verteilungsfunktion (cdf) 𝑃(𝑋 ≤ 𝑘) 𝑘−𝑎+1
𝑛
Erwartungswert 𝑎+𝑏
(𝑀𝑖𝑡𝑡𝑒 𝑑𝑒𝑟 𝑉𝑒𝑟𝑡𝑒𝑖𝑙𝑢𝑛𝑔)
2
Varianz
Symmetrisch um 𝜇 ja
Die diskrete uniforme Verteilung zeichnet sich dadurch aus, dass jede Realisierung von 𝑋 die
gleiche Auftrittswahrscheinlichkeit hat.
Dies ist häufig der Fall, z.B. beim rein zufälligen Ziehen.
Allein die Wortphrase „Ich ziehe 𝑥 Elemente rein zufällig.“ deutet schon an, dass ich bei meiner
Ziehung kein Objekt präferiere. Keine Präferierung hat zur Folge, dass jedes Element
gleichwahrscheinlich gezogen wird.
Tipp
Hat ein Roboter mehrere Möglichkeiten und die Präferenz dieser Möglichkeiten ist uniform
verteilt, dann ist dem Roboter egal was geschieht.
Faustregel: Je mehr Realisierungen eine uniform verteilte Zufallsvariable hat, desto „tiefer“ hängt
die Gewichtsfunktion. Dies ist der Fall, da die Summe aller Realisierungen ja immer eins ergeben
muss. Würden wir die Zahl der Ausgänge erhöhen ohne die Einzelwahrscheinlichkeiten zu sinken,
dann wäre die Gesamtwahrscheinlichkeit größer eins.
Uniform verteilte Zufallsvariable mit zwei Ausgängen. Uniform verteilte Zufallsvariable mit fünf Ausgängen.
Da die Verteilungsfunktion nur das (diskrete) Integral der Gewichtsfunktion ist, gilt:
Definition 4.2
Sei 𝑋~𝑢𝑛𝑖𝑓{𝑎, 𝑏}, 𝑚𝑖𝑡 𝑎, 𝑏 ∈ ℤ.
Da unsere Gewichtsfunktion für jedes Element im Intervall positiv definiert ist, gilt:
Definition 4.3
Die Verteilungsfunktion 𝐹𝑋 ist streng monoton steigend.
Beispiel 3.27
Sei 𝑋~𝑢𝑛𝑖𝑓(−5,7).
𝑘 − 𝑎 + 1 1 − (−5) + 1 7
𝑃(𝑋 ≤ 1) = = = .
𝑛 13 13
1
𝑃𝑋 ≤ 1) = 𝑃(𝑋 = −5) + 𝑃(𝑋 = −4) + ⋯ + 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) = 7 ∙ .
13
7 6
𝑃(𝑋 ≥ 2) = 1 − = .
13 13
Es gilt:
𝑎+𝑏
𝐸[𝑋] = .
2
Definition 4.5
Sei 𝑋~𝑢𝑛𝑖𝑓{𝑎, 𝑏}, 𝑚𝑖𝑡 𝑎, 𝑏 ∈ ℤ.
Es gilt:
(𝑏 − 𝑎 + 1)2 − 1
𝑉𝑎𝑟[𝑋] = .
12
Beispiel 3.28
Jonas hat 15 ferngesteuerte Autos in einer Kiste. Jedes dieser Autos ist mit einer Zahl von
eins bis fünfzehn nummeriert.
Wenn er sehr oft rein zufällig Autos aus dieser Kiste holt (mit Zurücklegen), was ist der
erwartete Zahlenwert eines gezogenen Autos?
Sei 𝑋~𝑢𝑛𝑖𝑓{1,15}.
1 + 15
𝐸[𝑋] = = 8.
2
Bernoulli Verteilung
Die Bernoulli Verteilung gibt die Wahrscheinlichkeit binärer Zufallsvariablen wieder. Sie entspricht
somit der Wahrscheinlichkeitsverteilung eines Münzwurfs.
Tipp
Hat unser Zufallsexperiment nur zwei Ausgänge, so ist es bernoulliverteilt.
Tipp
Weil jede Indikatorvariable bernouliverteilt ist, heißen sie auch Bernoulivariablen.
Sei 𝑋~𝐵𝑒𝑟𝑛{𝑝}. Es ist üblich mit 𝑝 die Wahrscheinlichkeit von 𝑋 = 1 zu indizieren, also
𝑃(𝑋 = 1) = 𝑝.
Der Erwartungswert ist 𝐸[𝑋] = 𝑝 und die Varianz hat den Wert 𝑉𝑎𝑟[𝑋] = 𝑝(1 − 𝑝) = 𝑝 ∙ 𝑞.
𝐸[𝑋] = 1 ∙ 𝑝 + 0 ∙ (1 − 𝑝) = 𝑝.
Beispiel 3.29
1
Berechne die Standardabweichung eines gezinkten Münzwurfs mit 𝑃(𝑋 = 𝐾𝑜𝑝𝑓) = 3.
1
Sei 𝑋~𝐵𝑒𝑟𝑛 ( ).
3
1 1 2 2
𝐸[𝑋 2 ] − 𝐸[𝑋]2 =
𝑉𝑎𝑟[𝑋] = ⏟ −( ) = .
𝑉𝑒𝑟𝑠𝑐ℎ𝑖𝑒𝑏𝑢𝑛𝑔𝑠𝑠𝑎𝑡𝑧
3 3 9
2
𝜎(𝑋) = √ .
9
Stochastik für Informatiker Aufgabe 14S, WS15/16
Es seien 𝑛 und 𝑟 natürliche Zahlen. Wir betrachten eine rein zufällige Abbildung
𝐹: {1, … , 𝑛} → {1, … , 𝑟}.
c)
(i) Eine Funktion 𝐹: 𝐴 → 𝐵 ist injektiv, wenn jedes 𝑎 ∈ 𝐴 höchstens ein
𝑏 ∈ 𝐵 zugewiesen wird. Doppelte Zuweisungen, wie
𝐹(𝑎1 ) = 𝑏1 und 𝐹(𝑎2 ) = 𝑏1, sind somit nicht erlaubt.
In unserer Aufgabe sind die Definitions- und Bildmenge gleich groß, weil wir
𝑛 = 𝑟 gesetzt haben.
𝐹 kann somit nur injektiv sein, wenn es auch bijektiv ist. Da kein Element
doppelt zugewiesen werden darf, hat das erste Element aus
{1, … , 𝑛}
genau 𝑛 viele Zuweisungsmöglichkeiten. Das zweite Element hat (nachdem
das erste zugewiesen wurde) dann nur noch 𝑛 − 1 viele Möglichkeiten usw.
(Permutationen als das Legostein Modell).
Die Aufgabe ist somit analog zum Das Geburtstagsproblem als Stellvertreter
für Wahrscheinlichkeit von Kollisionen.
Daraus folgt:
𝑛 𝑛
√2𝜋𝑛 ( 𝑒 )
𝑃({𝐹 𝑖𝑠𝑡 𝑖𝑛𝑗𝑒𝑘𝑡𝑖𝑣}) ≈ .
𝑛𝑛
Da Stirlings Formel asymptotisch dicht an 𝑛! ist, können wir diese für unsere
Grenzwertbetrachtung nutzen:
𝑛 𝑛
√2𝜋𝑛 ( 𝑒 )
lim = 0.
𝑛→+∞ ⏟ 𝑛𝑛
𝑁𝑒𝑛𝑛𝑒𝑟 𝑤ä𝑐ℎ𝑠𝑡 𝑠𝑐ℎ𝑛𝑒𝑙𝑙𝑒𝑟 𝑎𝑙𝑠 𝑍äℎ𝑙𝑒𝑟
(ii) Sei
1, 𝑤𝑒𝑛𝑛 𝜔 ∈ {𝐹(𝑖) ≠ 𝑖 }
𝐼{𝐹(𝑖)≠𝑖 } (𝜔) = {
0, 𝑠𝑜𝑛𝑠𝑡
Stellen wir uns vor, wir hätten die zusätzliche Anforderung, dass unsere
fixpunktfreie Abbildung bijektiv sein soll.
Dann geben uns die Rencontres Zahlen aus Kapitel 2 sehr schnell eine
rekursive Antwort.
1, 𝑤𝑒𝑛𝑛 𝑛 = 0
𝐷𝑛+2,0 = {0, 𝑤𝑒𝑛𝑛 𝑛 = 1
(𝑛 + 1)(𝐷𝑛+1,0 + 𝐷𝑛,0 ), 𝑠𝑜𝑛𝑠𝑡
Also:
𝑃({𝑚𝑖𝑛𝑑𝑒𝑠𝑡𝑒𝑛𝑠 𝑒𝑖𝑛𝑒 𝑑𝑜𝑝𝑝𝑒𝑙𝑡𝑒 𝑍𝑢𝑤𝑒𝑖𝑠𝑢𝑛𝑔}) = 1 = 𝑃({𝐹 𝑖𝑠𝑡 𝑠𝑢𝑟𝑗𝑒𝑘𝑡𝑖𝑣}).
Beispiel 3.30
1
Berechne die Standardabweichung eines gezinkten Münzwurfs mit 𝑃({𝑋 = 𝐾𝑜𝑝𝑓}) = .
3
1
Sei 𝑋~𝐵𝑒𝑟𝑛 (3).
1 1 2 2
𝐸[𝑋 2 ] − 𝐸[𝑋]2 =
𝑉𝑎𝑟[𝑋] = ⏟ −( ) = .
𝑉𝑒𝑟𝑠𝑐ℎ𝑖𝑒𝑏𝑢𝑛𝑔𝑠𝑠𝑎𝑡𝑧
3 3 9
2
𝜎(𝑋) = √ .
9
Binomialverteilung
Anna und José werfen eine Münze 𝑛 = 6-mal. Dabei ist diese gezinkt, mit
Auftrittswahrscheinlichkeit 𝑝 = 0.7 für Kopf. Wenn nach den Würfen genau 𝑘 = 4-viele Köpfe
auftauchen, dann gewinnt Anna, sonst José. Wir fragen uns, wie wahrscheinlich es ist, dass Anna
gewinnt.
Zuerst schauen wir uns an, welche Münzpermutationen überhaupt einen Sieg für sie darstellt:
Unsere Wahrscheinlichkeit 𝑃({𝐴𝑛𝑛𝑎 𝑔𝑒𝑤𝑖𝑛𝑛𝑡}) lässt sich folglich als Summe aller
Pfadwahrscheinlichkeiten zum Gewinn darstellen.
Uns fällt auf, dass wir jeden Wurf durch Indikatorvariablen modellieren können:
1, 𝑤𝑒𝑛𝑛 𝑊𝑢𝑟𝑓 𝑗 𝑖𝑠𝑡 𝐾𝑜𝑝𝑓
𝐼{𝑊𝑢𝑟𝑓 𝑗 𝑖𝑠𝑡 𝐾𝑜𝑝𝑓} = {
0, 𝑤𝑒𝑛𝑛 𝑊𝑢𝑟𝑓 𝑗 𝑖𝑠𝑡 𝑍𝑎ℎ𝑙
Die Wahrscheinlichkeit der obigen Gewinnpermutation (Kopf, Kopf, Zahl, Kopf, Zahl, Kopf, Zahl)
lautet somit:
𝑃({(Kopf, Kopf, Zahl, Kopf, Zahl, Kopf, Zahl)}) = 𝑃({(𝐼1 = 1, 𝐼2 = 1, … , 𝐼7 = 0)}).
Tipp
Im hessischen Abitur nennt man dies „Modell mit Zurücklegen, Reihenfolge relevant“.
𝑛
Die Anzahl der Gewinnpfade aus 𝑛 = 7 Würfen und 𝑘 = 4 Treffern ist ( ).
𝑘
Somit gilt für Anna:
7
𝑃({𝐴𝑛𝑛𝑎 𝑔𝑒𝑤𝑖𝑛𝑛𝑡}) = ( ) ∙ 0.74 ∙ 0.33 .
4
Allgemein lässt sich dies aufschreiben als:
𝑛
𝑃({𝑋 = 𝑘}) = (⏟) ∙ 𝑝𝑘 ∙ (1 − 𝑝)𝑛−𝑘
⏟
𝑘
𝐴𝑛𝑧𝑎ℎ𝑙 𝑑𝑒𝑟 𝑇𝑟𝑒𝑓𝑓𝑒𝑟𝑝𝑓𝑎𝑑𝑒 𝑖𝑚 𝐵𝑎𝑢𝑚 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡 𝑒𝑖𝑛𝑒𝑠 𝑒𝑖𝑛𝑧𝑒𝑙𝑛𝑒𝑛 𝑃𝑓𝑎𝑑𝑒𝑠
Definition 4.6
Sei 𝑋~𝐵𝑖𝑛𝑜𝑚{𝑛, 𝑝}, 𝑚𝑖𝑡 𝑛 ∈ ℕ, 𝑝 ∈ [0,1].
Es gilt:
𝑛
𝑃({𝑋 = 𝑘}) = ( ) ∙ 𝑝𝑘 ∙ (1 − 𝑝)𝑛−𝑘 .
𝑘
Tipp
Im hessischen Abitur lernte man diese Verteilung unter der Rubrik „Reihenfolge irrelevant,
mit Zurücklegen“. Achtung: Die Multinomialverteilung zählt aber auch zur oberen
Bezeichnung.
Die Binomialverteilung ist einer der am häufigsten vorkommenden Verteilungen. Sobald in einem
binären Baum jeder Knoten durch dieselbe Indikatorvariable simuliert werden kann, lässt sich die
Binomialverteilung anwenden.
Tipp
Faustregel: „Sobald wir ein Modell mit Zurücklegen haben, wo wir zwischen zwei
Realisierungen, nämlich „Treffer“ und „Nichtreffer“ unterscheiden, kann man die
Binomialverteilung verwenden. Dabei ist vorausgesetzt, dass die einzelnen Realisierungen
unabhängig und identisch verteilt sind.“
Tipp
Oft lässt sich auch die Wahrscheinlichkeit eines Modells „ohne Zurücklegen, Reihenfolge
irrelevant“ mit der Binomialverteilung bzw. Multinomialverteilung approximieren.
Beispiel 3.31
Wenn André zehn mal mit der U-Bahn fährt, wie hoch ist die Wahrscheinlichkeit genau
zweimal kontrolliert zu werden?
Wir gehen davon aus, dass die einzelnen U-Bahnfahrten die Kontrollwahrscheinlichkeit nicht
beinflussen (Fahrten sind unabhängig).
Der Erwartungswert einer binomialverteilten Zufallsvariable lässt sich (fast) genauso einfach
berechnen, wie in der Bernoulliverteilung:
Definition 4.7
Sei 𝑋~𝐵𝑖𝑛𝑜𝑚{𝑛, 𝑝}, 𝑚𝑖𝑡 𝑛 ∈ ℕ, 𝑝 ∈ [0,1].
Dann gilt:
𝐸[𝑋] = 𝑛 ∙ 𝑝.
Daraus folgt:
𝑋= ⏟𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑏𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖𝑣𝑒𝑟𝑡𝑒𝑖𝑙𝑡𝑒 𝑍𝑢𝑓𝑎𝑙𝑙𝑠𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑛
𝐸[𝑋] = 𝐸[(𝑋1 , 𝑋2 , … , 𝑋𝑛 )] = ⏟
𝐸[𝑋1 ] + ⏟
𝐸[𝑋2 ] + ⋯ + 𝐸[𝑋
⏟ 𝑛 ] = 𝑛 ∙ 𝑝.
=𝑝 =𝑝 =𝑝
Definition 4.8
Sei 𝑋~𝐵𝑖𝑛𝑜𝑚{𝑛, 𝑝}, 𝑚𝑖𝑡 𝑛 ∈ ℕ, 𝑝 ∈ [0,1].
𝑉𝑎𝑟[𝑋] = 𝑛 ∙ 𝑝 ∙ (1 − 𝑝) = 𝑛𝑝𝑞.
Antwort: Sicher!
Daraus folgt:
𝑋= ⏟𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑏𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖𝑣𝑒𝑟𝑡𝑒𝑖𝑙𝑡𝑒 𝑍𝑢𝑓𝑎𝑙𝑙𝑠𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑛
𝑉𝑎𝑟[𝑋] = 𝑉𝑎𝑟[(𝑋1 , 𝑋2 , … , 𝑋𝑛 )] = ⏟
𝑉𝑎𝑟[𝑋1 ] + ⏟
𝑉𝑎𝑟[𝑋2 ] + ⋯ + ⏟
𝑉𝑎𝑟[𝑋𝑛 ] = 𝑛 ∙ 𝑝 ∙ 𝑞.
=𝑝𝑞 =𝑝𝑞 =𝑝𝑞
Die Kovarianzterme fallen weg, weil die 𝑋𝑖 unabhängig sind.
Die Werte unserer notwendigen Parameter 𝑛, 𝑝 geben Ausschluß über das Aussehen der Verteilung.
Definition 4.9
Ist die Auftrittswahrscheinlichkeit 𝑝 klein, so verschiebt sich die Verteilung nach links.
Definition 4.10
Ist die Auftrittswahrscheinlichkeit 𝑝 groß, so verschiebt sich die Verteilung nach rechts.
Da 𝑝 = 0.5, ist der Graph symmetrisch um den
Erwartungswert.
Die resultierende Verteilung ist normalerweise nicht symmetrisch. Wählen wir aber 𝑝 = 0.5, so
erhalten wir eine Achsensymmetrie um den Erwartungswert.
Definition 4.11
Ist die Auftrittswahrscheinlichkeit 𝑝 = 0.5 groß, so ist die Verteilung achsensymmetrisch um
ihren Erwartungswert.
Für spätere Approximationen ist es interessant zu wissen, dass die Binomialverteilung unter
bestimmten Konditionen sich einer Normalverteilung bzw. Poissonverteilung annährt.
Definition 4.12
Ist die Auftrittswahrscheinlichkeit 𝑝 groß (Faustregel: 𝑝 ≥ 0.5) und die Anzahl der Ziehungen
𝑛 auch (Faustregel: 𝑛 ≥ 50), so lässt sich die Binomialverteilung mit einer
𝑍~ ⏟𝑁(𝑛 ∙ 𝑝, 𝑛 ∙ 𝑝 ∙ 𝑞 ) verteilten Variable approximieren.
𝑁𝑜𝑟𝑚𝑎𝑙𝑣𝑒𝑟𝑡𝑒𝑖𝑙𝑢𝑛𝑔
Definition 4.13
Ist die Auftrittswahrscheinlichkeit 𝑝 klein (Faustregel: 𝑝 < 0.2) und die Anzahl der
Ziehungen n groß (Faustregel: 𝑛 ≥ 50), so lässt sich die Binomialverteilung mit einer
𝑍~𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝑛 ∙ 𝑝) verteilten Variable approximieren.
𝑋 sei binomialverteilt zu den Parametern 𝑛 und 𝑝. Berechnen Sie 𝐸[𝑋 2 ], indem Sie 𝑋 als
eine Summe von Zählvariablen schreiben.
Wir haben zu Beginn des Abschnitts gelernt, dass die Binomialverteilung nichts weiteres, als
eine Akkumulation von Bernoullivariablen ist.
Also:
𝑋 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 , 𝑚𝑖𝑡 𝑋𝑖 ~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝑝).
Daraus folgt:
Somit müssen wir auf genau denselben Wert kommen, wenn wir den Verschiebungssatz
anwenden.
𝐸[𝑋 2 ] − 𝐸[𝑋]2 = 𝑛
𝑉𝑎𝑟(𝑋) = ⏟ ⏟2 𝑝2 − 𝑛𝑝2 + 𝑛𝑝 − (𝑛𝑝)2 = 𝑛𝑝 − 𝑛𝑝2 = 𝑛𝑝(1 − 𝑝).
𝑉𝑒𝑟𝑠𝑐ℎ𝑖𝑒𝑏𝑢𝑛𝑔𝑠𝑠𝑎𝑡𝑧 𝑢𝑛𝑠𝑒𝑟 𝑜𝑏𝑖𝑔𝑒𝑠 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠
Stochastik für Informatiker Aufgabe 14S, WS17/18
Mit der Information aus der vorherigen Aufgabe (Stochastik für Informatiker Aufgabe 10,
Wintersemester 16/17) können wir losrechnen und einsetzen.
𝐸[(𝑋 − 𝑛𝑝)2 ] = ⏟
𝐸[𝑋 2 − 2𝑛𝑝𝑋 + 𝑛2 𝑝2 ] = ⏟
𝐸[𝑋 2 ] − 2𝑛𝑝𝐸[𝑋] + 𝐸[𝑛2 𝑝2 ]
𝐾𝑙𝑎𝑚𝑚𝑒𝑟 𝑎𝑢𝑓𝑔𝑒𝑙ö𝑠𝑡 𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑡ä𝑡 𝑑𝑒𝑠 𝐸𝑟𝑤𝑎𝑟𝑡𝑢𝑛𝑔𝑠𝑤𝑒𝑟𝑡𝑠
𝐸[𝑋 2 ] − 2𝑛2 𝑝2 + 𝑛2 𝑝2 = ⏟
=⏟ 𝑛2 𝑝2 − 𝑛𝑝2 + 𝑛𝑝 − 2𝑛2 𝑝2 + 𝑛2 𝑝2 = −𝑛𝑝2 + 𝑛𝑝
𝑑𝑎 𝐸[𝑋]=𝑛𝑝 𝑠𝑖𝑒ℎ𝑒 𝐴𝑢𝑓𝑔𝑎𝑏𝑒 𝑧𝑢𝑣𝑜𝑟 𝑓ü𝑟 𝐸[𝑋 2 ]
= 𝑛𝑝(1 − 𝑝) = 𝑛𝑝𝑞, 𝑑𝑎 𝑞 = (1 − 𝑝).
2
𝑋 𝑋 2 2𝑝𝑋 𝑛2 𝑝2 − 𝑛𝑝2 + 𝑛𝑝 −𝑛𝑝2 + 𝑛𝑝
𝐸 [( − 𝑝) ] = 𝐸 [ 2 − + 𝑝2 ] = 2
− 2𝑝2 + 𝑝2 =
𝑛 𝑛 𝑛 𝑛 𝑛2
𝑛𝑝(1 − 𝑝) 𝑝(1 − 𝑝) 𝑝𝑞
= = = .
𝑛2 𝑛2 𝑛
Stochastik für Informatiker Aufgabe 4, WS17/18
Es sei 𝑛 ∈ ℕ. Wir nennen 𝑎 = (𝑎1 , … , 𝑎𝑛 ) eine 01-Folge der Länge 𝑛, falls 𝑎𝑖 ∈ {0,1},
𝑖 = 1, … , 𝑛. Wir sagen, dass 𝑎 das Muster 0110 enthält, falls 𝑎𝑖 𝑎𝑖+1 𝑎𝑖+2 𝑎𝑖+3 = 0110 für ein
𝑖 ∈ {1, … , 𝑛 − 3}. Für 𝑘 ∈ ℕ sei nun 𝑋 = (𝑋1 , … , 𝑋4𝐾 ) eine rein zufällige 01-Folge der Länge
4𝑘. Warum gilt folgende Aussage:
1 𝑘
𝑃(𝑋 𝑒𝑛𝑡ℎä𝑙𝑡 𝑑𝑎𝑠 𝑀𝑢𝑠𝑡𝑒𝑟 0110) ≥ 1 − (1 − 4 ) ?
2
Wir teilen unsere 4𝑘 lange 01 Folge in 4-Element große Stücke auf, also:
𝑎 = (𝑎
⏟1 , 𝑎2 , 𝑎3 , 𝑎4 , ⏟
𝑎5 , 𝑎6 , 𝑎7 , 𝑎8 , … ⏟
𝑎𝑛−3 , 𝑎𝑛−2 , 𝑎𝑛−1 , 𝑎𝑛 ).
ℎ1 ℎ2 ℎ𝑘
Dies hat den Vorteil, dass jedes Stück unabhängig vom Vorgängerstück ist. Diese gruppierte
Menge 𝑀 = (ℎ1 , … , ℎ𝑘 ) hat dann 𝑘 viele Elemente.
1, 𝑤𝑒𝑛𝑛 ℎ𝑢 = (0,1,1,0)
𝐼𝑢 = { .
0, 𝑠𝑜𝑛𝑠𝑡
1
𝑃(𝐼𝑢 = 1) = 𝑃(𝑎𝑢1 = 0, 𝑎𝑢2 = 1, 𝑎𝑢3 = 1, 𝑎𝑢4 = 0) = ⏟
𝑃(𝑎𝑢1 = 0) ∙ … ∙ 𝑃(𝑎𝑢4 = 0) = .
24
𝑑𝑎 𝑎𝑢𝑐ℎ 𝑑𝑖𝑒 𝑎𝑖′ 𝑠 𝑖.𝑖.𝑑
Sei 𝑋 = 𝐼1 + 𝐼2 + ⋯ + 𝐼𝑘 eine Zufallsvariable. Offensichtlich ist 𝑋 binomialverteilt mit
1
Parametern 𝑛 = 𝑘, 𝑝 = 24 .
Dann gilt:
𝑘 1 0 1 𝑘−0 1 𝑘
𝑃(𝑋 ≥ 1) = 1 − 𝑃(𝑋 = 0) = 1 − ( ) ∙ ( 4 ) ∙ (1 − 4 ) = 1 − (1 − 4 ) .
0 2 2 2
Wir wissen: Wenn 𝐼𝑢 = 1 dann gibt es auf jeden Fall eine 0110 Folge. Da wir die Menge 𝑎 aber
uniform gruppiert haben, schlägt unsere Indikatorvariable nicht an, wenn eine 0110 Folge
sich zwischen zwei Gruppen befindet, wie z.B.
1,1,0,0
⏟ , 1,1,0,0
⏟ .
ℎ1 ℎ2
Somit ist unsere Wahrscheinlichkeit eine untere Abschätzung für mindestens ein
Vorkommen von 0110. Folglich:
1 𝑘
𝑃(𝑋 𝑒𝑛𝑡ℎä𝑙𝑡 𝑑𝑎𝑠 𝑀𝑢𝑠𝑡𝑒𝑟 0110) ≥ 1 − (1 − 4 ) .
2
Multinomialverteilung
∑ 𝑝𝑖 = 1
𝑖=1
{𝑘1 , 𝑘2 , … , 𝑘𝑛 },
𝑚𝑖𝑡 𝑘𝑖 𝑉𝑖𝑒𝑙𝑓𝑎𝑐ℎℎ𝑒𝑖𝑡 𝑑𝑒𝑠 𝑂𝑏𝑗𝑒𝑘𝑡𝑠 𝑖
𝑛
Erwartungswert 𝐸[𝑋𝑖 ] = 𝑚 ∙ 𝑝𝑖
Varianz 𝑉𝑎𝑟[𝑋𝑖 ] = 𝑚 ∙ 𝑝𝑖 (1 − 𝑝𝑖 )
Symmetrisch um 𝜇 1
Möglich, z.B. wenn 𝑛 = 2 𝑢𝑛𝑑 𝑝𝑖 = 𝑓ü𝑟 𝑖 ∈
2
{1,2}
(es liegt dann Binomialverteilung vor mit 𝑝 =
1
)
2
Tipp
Wir haben 𝑚 Farben und 𝑛 Bälle in einer Urne. Jeder Ball ist mit einer der 𝑚 Farben eingefärbt.
Wir ziehen nun alle 𝑙 Bälle aus der Urne und vermerken uns die gezogene Farbe. Da wir die Bälle
nach jeder Ziehung wieder in die Urne zurücklegen, bleibt die Auftrittswahrscheinlichkeit 𝑝𝑖 des
𝑖-ten Balls konstant.
Die Wahrscheinlichkeit, eine bestimmte Farbkombination zu ziehen ist multinomialverteilt.
Wir haben n=7 Bälle und ziehen 𝑙 = 3 davon. Die Wahrscheinlichkeit, die Farbkombination
(𝑋1 = 𝑏𝑙𝑎𝑢, 𝑋2 = 𝑔𝑟ü𝑛, 𝑋3 = 𝑔𝑟ü𝑛) zu ziehen (mit Zurücklegen) ist multinomialverteilt. Die Reihenfolge der
gezogenen Kugeln ist dabei egal.
Falls wir Herleitung und Definition des Multinomialkoeffizienten vergessen haben, können wir
jenes dies im Abschnitt Permutationen als das Legostein Modell nachlesen.
Dabei beschreibt 𝑙 die Anzahl der Ziehungen und 𝑔𝑖 die Vielfachheit des 𝑖-ten Objekts:
𝑙!
∙ (𝑝1 ) 𝑔1 ∙ … ∙ (𝑝𝑛 ) 𝑔𝑛 .
𝑔1 ! ∙ 𝑔2 ! ∙ … ∙ 𝑔𝑠 !
⏟
𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑘𝑜𝑒𝑓𝑓𝑖𝑧𝑖𝑒𝑛𝑡
Katrin benötigt eine Funktion, die ein Array mit Ganzzahlen generiert. Katrin hat sich
dabei einen besonderen Algorithmus ausgedacht:
Wir wollen, dass folgende Kombination gezogen wird. Die Reihenfolge ist dabei egal.
𝑋 = {1,1,2,5,7,8,8,8}.
Die Zahlen werden rein zufällig im Intervall [1, … , 𝑛] gezogen. Da 𝑛 = 8, ergeben sich die
Wahrscheinlichkeiten:
1
𝑃({1}) = ⋯ = 𝑃({8}) = .
8
Da jedes Element rein zufällig gezogen wird, bleibt die Auftrittswahrscheinlichkeit konstant
(ziehen mit Zurücklegen).
𝑂𝑏𝑗𝑒𝑘𝑡𝑘𝑙𝑎𝑠𝑠𝑒𝑛 = {1,2,3,4,5,6,7,8}.
Daraus folgt:
𝑙! 8! 1 8
𝑃({𝑋 = {1,1,2,5,7,8,8,8}}) = ∙ (𝑝1 )𝑔1 ∙ … ∙ (𝑝𝑛 ) 𝑔𝑛 = ∙( ) .
𝑔1 ! ∙ 𝑔2 ! ∙ … ∙ 𝑔𝑠 ! 2! ∙ 1! ∙ 1! ∙ 1! ∙ 3! 8
Wichtig: Hätten wir verlangt, dass die Reihenfolge relevant wäre, dann wäre die
1 8
Wahrscheinlichkeit ( ) gewesen, weil wir das obere Ergebnis dann durch den
8
Multinomialkoeffizienten wieder geteilt hätten!
Beispiel 3.33
𝑚!
𝑃(𝑋 = {𝑘1 , … , 𝑘𝑚 }) = ∙ (𝑝1 )𝑘1 ∙ … ∙ (𝑝𝑛 )𝑘𝑛 ,
𝑘1 ! ∙ 𝑘2 ! ∙ … ∙ 𝑘𝑛 !
𝑚! 𝑘 𝑚−𝑘1 𝑚! 𝑘 𝑚−𝑘1
𝑃(𝑋 = {𝑘1 , 𝑘2 }) = ∙𝑝 1 ∙ 𝑝⏟2 = ∙ 𝑝1 1 ∙ 𝑝2
𝑘1 ! ∙ 𝑘2 ! 1 𝑘
⏟1 ! ∙ (𝑚 − 𝑘1 )!
𝑑𝑎 𝑘2 =𝑚−𝑘1
𝐹𝑜𝑟𝑚𝑒𝑙 𝑑𝑒𝑠 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑘𝑜𝑒𝑓𝑓𝑖𝑧𝑖𝑒𝑛𝑡𝑒𝑛
𝑚 𝑘
= (𝑘 ) 𝑝1 1 ∙ (1 − 𝑝1 )𝑚−𝑘1 .
1
Wir betrachten ein Brett mit 25 Feldern, 10 davon weiß und 15 schwarz, sowie 25
Spielsteine, ebenfalls 10 davon weiß und 15 schwarz.
Acht Spielsteine werden rein zufällig aus den 25 gewählt und rein zufällig (ohne
Mehrfachbelegungen) auf die Felder verteilt.
a)
(i) Wie wahrscheinlich ist es, dass ein bestimmtes weißes Feld besetzt wird?
(ii) Wie wahrscheinlich ist es, dass ein bestimmtes weißes Feld besetzt wird
und zwar mit einem weißen Stein?
(iii) Berechnen Sie den Erwartungswert der Anzahl der weißen Felder,
die mit weißen Steinen besetzt werden.
a)
25
(i) Dies ist ein Kombinationsproblem. Es gibt insgesamt ( ) Möglichkeiten, die 25
8
Felder zu besetzen.
Somit ist der Nenner unseres Bruches definiert (alle möglichen Ereignisse).
Für die Anzahl aller gültigen Ereignisse, fixieren wir ein bestimmtes Feld mit
einem Stein. Dann haben wir 24 frei wählbare Felder und 7 Spielsteine übrig.
Für die Anforderung, dass wir einen Die restlichen 24 Felder lassen sich dann mit
bestimmten weißen Stein betrachten sollen, 24
den restlichen 7 Steinen belegen. Es gibt ( )
fixieren wir ein beliebiges Feld mit einem Stein 7
(linke obere Ecke). solcher Belegungen.
24
Es gibt also ( ) Belegungen, die unseren fixierten weißen Stein enthalten.
7
Folglich ist die gesuchte Wahrscheinlichkeit:
24
( ) 8
𝑃({𝑒𝑖𝑛 𝑏𝑒𝑠𝑡𝑖𝑚𝑚𝑡𝑒𝑠 𝑤𝑒𝑖ß𝑒𝑠 𝐹𝑒𝑙𝑑 𝑤𝑖𝑟𝑑 𝑏𝑒𝑠𝑒𝑡𝑧𝑡}) = 7 = .
25 25
( )
8
Dann folgt:
𝑃(𝐴 ∩ {𝑓𝑖𝑥𝑖𝑒𝑟𝑡𝑒𝑠 𝐹𝑒𝑙𝑑 𝑖𝑠𝑡 𝑤𝑒𝑖ß}) = 𝑃(𝐴) ∙ 𝑃({𝑓𝑖𝑥𝑖𝑒𝑟𝑡𝑒𝑠 𝐹𝑒𝑙𝑑 𝑖𝑠𝑡 𝑤𝑒𝑖ß}|𝐴).
Die Wahrscheinlichkeit, dass ein fixiertes Feld einen weißen Spielstein erhält ist
10
(weil zehn von 25 Steinen weiß sind).
25
Daraus folgt:
8 10
𝑃(𝐴) ∙ 𝑃({𝑓𝑖𝑥𝑖𝑒𝑟𝑡𝑒𝑠 𝐹𝑒𝑙𝑑 𝑖𝑠𝑡 𝑤𝑒𝑖ß}|𝐴) = ∙ = 0,128.
25 25
Daraus folgt:
8
𝐸[(𝐼1 , 𝐼2 , … , 𝐼8 )] = 𝐸[𝐼1 ] + 𝐸[𝐼2 ] + ⋯ + 𝐸[𝐼8 ] = 8 ∙ = 2,56.
25
d
b)
(i) Wir ziehen ohne Zurücklegen. Es liegt eine hypergeometrische Verteilung vor.
10 15
( )( )
𝑃({𝑋 = 3}) = 3 5 .
25
(ii) Wir besetzen die Felder ohne Doppelbesetzung (äquivalent zu „Ziehen ohne
Zurücklegen“). Da es auch hier 10 weiße Felder und 15 schwarz gibt, erhalten wir
dasselbe Ergebnis wie oben.
(iii)
Der Erwartungswert ist diesmal keine einzelne Zahl. Vielmehr erhalten wir einen Vektor, der das
erwartete Auftreten jeder einzelnen Klasse ausgibt.
Definition 4.14
Sei 𝑋~𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙{{𝑘1 , 𝑘2 , … , 𝑘𝑛 }, {𝑝1 , 𝑝2 , … 𝑝𝑛 }}
und
𝑛
𝑚 = ∑ 𝑘𝑖 .
𝑖=1
Dann gilt:
𝐸[𝑋] = (𝑚 ∙ 𝑝1 , 𝑚 ∙ 𝑝2 , … , 𝑚 ∙ 𝑝𝑛 ).
Wenn man genau hinschaut, erkennt man, dass das Obere dem Erwartungswert 𝑛 ∙ 𝑝 aus der
Binomialverteilung ähnelt (nur variiert das 𝑝𝑖 diesmal mit den Klassen).
Die Varianz lässt sich analog als „klassenspezifische Binomialverteilungsvarianz“ sehen.
Definition 4.15
Sei 𝑋~𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙{{𝑘1 , 𝑘2 , … , 𝑘𝑛 }, {𝑝1 , 𝑝2 , … 𝑝𝑛 }}
und
𝑛
𝑚 = ∑ 𝑘𝑖 .
𝑖=1
Dann gilt:
𝑉𝑎𝑟[𝑋] = (𝑚 ∙ 𝑝1 (1 − 𝑝1 ), … , 𝑚 ∙ 𝑝𝑛 (1 − 𝑝𝑛 )).
60 Karten, von denen 10 die Farbe blau, 20 die Farbe rot und 30 die Farbe grün haben,
werden perfekt gemischt und dann mit Zurücklegen eine nach der anderen gezogen.
(i) Wie wahrscheinlich ist es, dass von 10 gezogenen Karten 4 blau, 3 rot und
3 grün sind?
(ii) Wie wahrscheinlich ist es, dass von 10 gezogenen Karten 4 blau und die
anderen 6 rot oder grün sind?
Wir haben 3 verschiedene Klassen und die Karten werden nach jedem Zug in den Stapel
zurückgelegt. Somit bleibt die Wahrscheinlichkeit 𝑝𝑖 des Auftritts der Klasse 𝑖 in jedem Zug
gleich. Die Situation ist somit multivariat verteilt.
10 20 30
𝑝𝑏𝑙𝑎𝑢 = , 𝑝𝑔𝑟ü𝑛 = , 𝑝𝑟𝑜𝑡 = .
60 60 60
(i) Wir setzen direkt in die Formel der multivariaten Verteilung ein:
10! 104 ∙303 ∙203
𝑃({4 𝑏𝑙𝑎𝑢𝑒, 3 𝑟𝑜𝑡𝑒 𝑢𝑛𝑑 3 𝑔𝑟ü𝑛𝑒 𝐾𝑎𝑟𝑡𝑒𝑛}) = ∙ ≈ 0.015.
4!∙3!∙3! 6010
(ii) Wir addieren die Wahrscheinlichkeiten der roten und grünen einfach zusammen:
10! 104 ∙ (50)6
𝑃({4 𝑏𝑙𝑎𝑢, 𝑟𝑒𝑠𝑡 𝑟𝑜𝑡 𝑜𝑑𝑒𝑟 𝑔𝑟ü𝑛}) = ∙ = 0.054.
4! ∙ 6! 6010
Multivariate hypergeometrische Verteilung
Pmf für zwei Klassen, also 𝐾1 = 𝐾 und 𝐾2 = 𝑁 − 𝐾 . Summierte Massefunktion derselben Verteilung wie
links.
Bei der multinomialen Verteilung zogen wir quasi Kugeln mit Zurücklegen. Ziehen wir nun anstatt
ohne Zurücklegen, landen wir bei der multivariaten hypergeometrische Verteilung. In einer
gewissen Art und Weise, bildet die hypergeometrische Verteilung viele Sachverhalte besser ab.
Wenn wir z.B. in einer Umfrage eine repräsentative Stichprobe aus der Bevölkerung ziehen, so
entfernen wir die befragte Personen ja aus unserer Grundmenge anstatt sie potentiell erneut zu
befragen.
Da die multinomiale Verteilung sich aber leichter berechnen lässt, findet sie dennoch auch in
hypergeometrisch verteilten Situationen häufig Anwendung (siehe Abschnitt Multinomial-
hypergeometrische Verteilung Approximation).
Einige werden sich daran erinnern, dass die Binomialverteilung ein netter Spezialfall der
Multinomialverteilung mit 𝑐 = 2 Klassen war. Eine solch praktischer „Sonderfall“ begegnet uns
auch hier:
Definition 4.16
Sei 𝑋~ℎ𝑦𝑝𝑒𝑟𝑔𝑒𝑜𝑚𝑒𝑡𝑟𝑖𝑠𝑐ℎ({𝐾1 , 𝐾2 }), also es existieren 2 Klassen.
Wir reparameterisieren:
Sei 𝐾1 = 𝐾 und 𝐾2 = 𝑁 − 𝐾. Zusätzlich beschreibe 𝑋 die Anzahl der Treffer von 𝐾.
Dann gilt:
plt.bar(x,y1,align='center',width=0.5,tick_label=[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,1
9,20],edgecolor="black",alpha=1)
𝐾 𝑁−𝐾
( )( )
𝑃(𝑋 = 𝑘) = 𝑘 𝑛 − 𝑘
𝑁
( )
𝑛
Bei zwei Klassen können wir also 𝑃(𝑋 = (𝑘1 , 𝑘2 )) zu 𝑃(𝑋 = 𝑘) reparameterisieren.
Wir reparameterisieren:
Sei 𝐾1 = 𝐾 und 𝐾2 = 𝑁 − 𝐾. Zusätzlich beschreibe 𝑋 die Anzahl der Treffer von 𝐾.
Wir haben also eine Urne mit 𝐾 roten und 𝑁 − 𝐾 blauen Kugeln.
𝑁
Wir können auf ( ) viele Arten 𝑛 viele Kugeln ziehen mit irrelevanter Reihenfolge und ohne
𝑛
Zurücklegen(siehe Der Binomialkoeffizient als das T-Shirt Modell).
𝐾
Wir können auf ( ) viele Arten 𝑘 viele rote Kugeln ziehen mit irrelevanter Reihenfolge und
𝑘
ohne Zurücklegen.
𝑁−𝐾
Wir können auf ( ) viele Arten 𝑛 − 𝑘 viele blaue Kugeln ziehen mit irrelevanter
𝑛−𝑘
Reihenfolge und ohne Zurücklegen.
𝑁
Es gibt somit ( ) Gesamtziehmöglichkeiten von 𝑛 Kugeln.
𝑛
𝐾 𝑁−𝐾
Es gibt ( ) ( ) Gesamtziehmöglichkeiten von roten und blauen Kugeln. Dabei müssen
𝑘 𝑛−𝑘
wir beide Terme multiplizieren und nicht addieren. Grund: Der Kombinationsbaum aller
𝐾
Möglichkeiten rote Kugeln zu ziehen hat ( ) Blätter. Zu jedem Blatt hängen wir jetzt
𝑘
𝑁−𝐾
( ) Möglichkeiten an, blaue Kugeln zu ziehen.
𝑛−𝑘
Daraus folgt :
𝐾 𝑁−𝐾
( )( )
𝑃(𝑋 = 𝑘) = 𝑘 𝑛 − 𝑘 .
𝑁
( )
𝑛
Beispiel 3.34
60 Karten, von denen 10 die Farbe blau, 20 die Farbe rot und 30 die Farbe grün haben,
werden perfekt gemischt und dann ohne Zurücklegen eine nach der anderen gezogen.
(i) Wie wahrscheinlich ist es, dass von 10 gezogenen Karten 4 blau, 3 rot und
3 grün sind?
(ii) Wie wahrscheinlich ist es, dass von 10 gezogenen Karten 4 blau und die
anderen 6 rot oder grün sind?
Dies ist eine minimal veränderte Version der zuvor berechneten Beispielaufgabe 12
WS17/18.
10 20 30
( )∙( )∙( )
4 3 3
(i) 𝑃(𝑋 = (4,3,3)) = 60 ≈ 0.01289. Dies ist etwas geringer als beim
( )
10
Ziehen mit Zurücklegen (Wert: 0.015).
10 40
( )∙( )
4 6
(ii) 𝑃(𝑋 = (4 𝑏𝑙𝑎𝑢, 3 𝑟𝑜𝑡 𝑜𝑑𝑒𝑟 𝑔𝑟ü𝑛)) = 60 ≈ 0.0106. Dies ist geringer als
( )
10
beim Ziehen mit Zurücklegen (Wert: 0.054).
Aus einer Population bestehend aus 40 Hessen und 60 Bayern wurde eine Stichprobe vom
Umfang 20 (d.h. eine 20-elementige Teilmenge der Population) herausgegeriffen. In
dieser befanden sich 5 Hessen und 15 Bayern.
1. Was ist der Erwartungswert der Anzahl der Hessen in einer rein zufäligen
Stichprobe vom Umfang 20?
2. Wie wahrscheinlich ist in einer rein zufällig gezogenen Stichprobe eine Anzahl von
Hessen, die vom (in a) berechneten Erwartunsgwert minestens so weit abweicht
wie die beobachtete Anzahl 5?
Situation: Wir werfen so lange eine Münze, bis wir 𝑟 Kopf erhalten haben. Die negative
Binomialverteilung beschreibt also die Wahrscheinlichkeit, bei 𝑘 + 𝑟 Versuchen 𝑟 Misserfolge zu
erzielen. Die negative Binomialverteilung ist somit eine Verallgemeinerung der geometrischen
Verteilung.
𝑃(𝑋 = 𝑘) = (1 − 𝑞)𝑘 ∙ 𝑞.
Dies gleicht der Definition der geometrischen Verteilung. Die Substitution war notwendig,
weil die hypergeometrische Verteilung im Gegensatz zur geometrischen 𝑟 als Misserfolg
klassizifiert.
Achtung
Wie oben zu sehen, wird 𝑟 als „Misserfolg“ anstatt „Erfolg“ betrachtet. Dies ist gegensätzlich zur
geometrischen Verteilung in üblicher Parameterisierung.
Die Herleitung der Formel ist kombinatorisch: Wenn ich nach 𝑟 Misserfolgen abbreche, habe ich
eine Wahrscheinlichkeit von (1 − 𝑝)𝑟 für das gemeinsame Auftreten dieser. 𝑃(𝑋 = 𝑘) bedeutet,
dass ich das Experiment 𝑟 + 𝑘 mal wiederhole. Die 𝑘 Erfolge haben eine Wahrscheinlicheit von 𝑝𝑘 .
Die Erfoge und Misserfolge können in verschiedenen Reihenfolgen vorkommen: Bei 4 Würfen mit
𝑟 = 3, 𝑘 = 1 sind folgende Permutationen möglich:
𝐸, 𝑀, 𝑀, 𝑀
𝑀, 𝐸, 𝑀, 𝑀
𝑀, 𝑀, 𝐸, 𝑀
𝑀, 𝑀, 𝑀, 𝐸.
𝑘+𝑟 4
Das sind ( ) = ( ) = 4 Permutationen. Da wir aber das Experiment genau nach dem 𝑟-ten
𝑘 1
Misserfolg abbrechen, streichen wir die 𝑀, 𝑀, 𝑀, 𝐸 Permutation aus unserer Liste.
𝑘+𝑟−1 3
Somit haben wir ( ) = ( ) Möglichkeiten übrig.
𝑘 1
Beispiel 3.35
Die Wahrscheinlichkeit, dass ein System in der Minute crashed beträgt 0.01. Jonas muss
zur Arbeit, wenn das System zweimal gecrasht ist.
(i) Wie hoch ist die Wahrscheinlichkeit, dass er nach 200 Minuten zur Arbeit muss?
(ii) Was ist die erwartete Anzahl an Minuten, bis er zur Arbeit gerufen wird?
Sei 𝑋~𝑁𝐵(2,0.99).
198 + 2 − 1
(i) 𝑃(𝑋 = 200) = ( ) ∙ 0.99198 ∙ (0.01)2 ≈ 0.272
198
𝑟∙𝑝 2∙0.99
(ii) 𝐸[𝑋] = = = 198.
1−𝑝 0.01
Im Schnitt wird er alle 198 Minuten zur Arbeit gerufen.
Geometrische Verteilung
Die pmf’s ähneln den pdf’s der Exponentialverteilung. Die cmf’s ähneln den cdf’s der Exponentialverteilung.
Die Binomialverteilung gab uns die Wahrscheinlichkeit von 𝑘 Erfolgen bei 𝑛 Versuchen. Die
geometrische Verteilung beschreibt die Anzahl der Versuche bis zum ersten Erfolg. Dabei sind die
Versuche 𝑋1 , 𝑋2 , … unabängige, identisch verteilte Bernoullivariablen.
Von der Warte her ist die Massefunktion intuitiv: Will ich beim 𝑘-ten Versuch meinen ersten
Treffer, muss ich 𝑘 − 1 Misserfolge haben. Da die Warscheinlichkeiten unabhängig und
gleichverteilt sind, lässt sich eine multiplikative Folge 𝑃(𝑋 = 𝑘) = 𝑝(1 − 𝑝)𝑘−1 aufbauen.
Die Verteilung heißt geometrisch, weil der Wert von Parametern wie der Erwartungswert das
Ergebnis geometrischer Reihen sind. Das Besondere ist der Definitionsbereich von 𝑋: Solange die
Auftrittswahrscheinlichkeit 𝑝 nicht „1“ ist, ist es potentiell möglich nahezu unendlich oft ein
Bernoulliexperiment zu wiederholen bevor der erste erste Erfolg eintritt (wenn auch
unwahrscheinlich). Deshalb ist der Wertebereich ganz ℕ\{0} .
= 𝑝 ∑ 𝑖 ∙ (1 − 𝑝)𝑖−1 .
𝑖=1
Sei 𝑆 = ∑∞
𝑖=1 𝑖 ∙ (1 − 𝑝)
𝑖−1
.
Dann:
𝑆 = 1 + 2(1 − 𝑝) + 3(1 − 𝑝)2 + ⋯
Also:
(1 − 𝑝)𝑆 = (1 − 𝑝) + 2(1 − 𝑝)2 + ⋯
Folglich:
⏟− 1) + (1 − 𝑝)2 (3
𝑆 − (1 − 𝑝)𝑆 = 1 + (1 − 𝑝) (2 ⏟− 2) + ⋯
=1 =1
Sei 𝐾 = 𝑆 − (1 − 𝑝)𝑆.
Dann:
𝐾 − (1 − 𝑝)𝐾 =1
1.
⇔ 𝐾 =
𝑝
Somit:
1
𝑆 − (1 − 𝑝)𝑆 =
𝑝
1
⇔ 𝑆 = 2.
𝑝
Letzlich:
∞
1
𝑝 ∑ 𝑖 ∙ (1 − 𝑝)𝑖−1 =𝑝∙
⏟ 𝑝2
𝑖=1
𝑆
= 𝐸[𝑋].
Um 𝐾 und 𝑆 zu lösen, haben wir in alternativer Form zweimal die Summenformel für
geometrische Reihen verwendet.
Tipp
Die geometrische Verteilung kann man als diskretes Analogon der Exponentialverteilung
sehen. Siehe Geometrische Verteilung - Exponentialapproximation und Exponentialverteilung
für mehr.
Erwartungswert 𝑟𝐾
𝑁−𝐾+1
Varianz (𝑁 + 1)𝑟𝐾 𝑟
(1 − )
(𝑁 − 𝐾 + 1)(𝑁 − 𝐾 + 2) 𝑁−𝐾+1
Symmetrisch um 𝜇 nein
Die Definition gleicht der Negative Binomialverteilung, nur diesmal ohne Zurücklegen der Elemente.
Es gibt in der Bevölkerung also 𝐾 Erfolge und 𝑁 − 𝐾 Misserfolge. Dabei darf 𝑟 natürlich kleiner als
𝑁 − 𝐾 sein, weil wir das Experiment vielleicht schon bei einem Misserfolg abbrechen möchten. Es
ist wenig verwunderlich, dass diese Verteilung gewisse Approximationseigenschaften bezüglich der
negativen Binomialverteilung Verteilung hat.
Poisson Verteilung
Massefunktionen von zwei Poisson verteilten Summierte Massefunktion von denselben Zufallsvariablen
Zufallsvariablen. Bei bestimmten Parametern ähnelt der wie im Bild links. Bei bestimmten Parametern sieht die
Graph einer Binomialverteilung. cmf wie ein „S“ aus, was eine Sigmoid Funktion
widerspiegelt.
Definitionen 𝜆 ∈ ℝ+
𝑥∈ℕ
oft benutzte Notation 𝑋~ Poisson(𝜆)
Gewichtsfunktion (pmf) 𝑃(𝑋 = 𝑘) 𝜆𝑘 −𝜆
𝑒
𝑘!
Verteilungsfunktion (cdf) 𝑃(𝑋 ≤ 𝑘) 𝑘
𝜆𝑖
∑ 𝑒 −𝜆
𝑖!
𝑖=0
Erwartungswert 𝜆
Varianz 𝜆
Symmetrisch um 𝜇 nein
Für weitere Details inklusive Herleitung der Poissonverteilung siehe die Abschnitte Binomial-
Poissonapproximation und Exponentialverteilung.
Kapitel 4
Ob Würfelspielen oder Münzwürf, nahezu jede Situation die wir behandelten war abzählbar.
Spätestens seit Cantor76 ist uns aber bekannt, dass der Horizont der Mathematik über die diskrete
Welt hinausgeht. Dennoch ist nicht alles komplett neu: Viele unserer erlernten Techniken haben
auch in der kontinuierlichen Welt ihre Berechtigung.
Zum Beispiel gilt der Verschiebungssatz 𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − 𝐸[𝑋]2 noch immer. Aber auch viele
diskrete Verteilungen haben ein kontinuierliches Analogon: Die (diskrete) geometrische Verteilung
hat die Exponentialverteilung als ihr kontinuierliches Gegenstück. Die (diskrete)
Binomialverteilung konvergiert für bestimmte Parameter zur kontinuierlichen Normalverteilung.
Es gibt sogar so viele Gemeinsamkeiten, dass es sich lediglich lohnt, die Differenzen aufzuschreiben.
Die Abschnitte zum kontinuierlichen Erwartungswert fallen somit überraschend kurz aus und auch
der Rest fühlt sich für einige vielleicht eher an wie eine „Zusammenfassung“ als Einführung in die
kontinuierliche Stochastik. Aber keine Sorge: Unser diskretes Fundament ist mitterweile stark
genug, um etwaige Lücken selbst aufzufüllen.
Wir können die künftigen Kapitel also mit offenen Armen empfangen und exklamieren „It’s a brave
new world!“.
76Cantors Diagonalisierung bewies, dass die (abzählbare) Menge der natürlichen Zahlen kleiner ist, als die
der überabzählbaren reellen.
Dichtefunktionen als Wahrscheinlichkeitsgeber
Anmerkung
Dies ist das kontinuierliche Gegenstück zum Abschnitt Gewichtsfunktionen als Maß für
diskrete Zufallsvariablen.
Wie im Abschnitt Den Zufall als Zufallsvariable repräsentieren kennengelernt, zeichnen sich
kontinuerliche Zufallsvariablen durch eine überabzählbare Anzahl an möglichen Realisierungen
aus. Dies kommt häufiger vor als man zu Beginn vielleicht denkt: Zeiten, Längen, Größen-wir
weisen so vielen Dingen aus dem echten Leben beliebige Zahlen aus einem Intervall zu.
Dabei darf nicht vergessen werden, dass kontinuierliche Zufallsvariablen nicht unbedingt
„realitätsnaher“ sind als diskrete. Es lässt sich argumentieren, dass Theorien wie „Plank time“ oder
„Plank length“ scheinbar kontinuerliche Sachverhalte diskretisieren.
1
Antwort: Beispiel: Haben wir eine Menge der Form 𝐴 ≔ { , 1}, so hat bei einer uniformen
2
1 1
Verteilung jedes Element die Wahrscheinlichkeit 𝑃({𝑎𝑖 }) = |𝐴| = 2. Diskretisierungen wir die
1 2 9 10
Strecke 0 → 1 nun in 10 Teilstücke der Form 𝐴 ≔ { , , … , , }, so ist die
10 10 10 10
1
Einzelwahrscheinlichkeit kleiner, nämlich 𝑃({𝑎𝑖 }) = . Wir bemerken: Je mehr Punkte wir
10
hinzufügen, desto geringer die Einzelwahrscheinlichkeit eines Elements bei einer uniformen
Verteilung.
Somit geht auch die Einzelwahrscheinlichkeichkeit 𝑃({𝑎𝑖 }) gegen null. Wie sieht also eine
Einzelwahrscheinlichkeit der kontinuierlichen uniformen Verteilung auf [0,1] aus? Sieht man
1
die kontinuierliche Version als Grenzprozess der diskreten, so hätte man 𝑃({𝑎𝑖 }) = . Dies
∞
dürfen wir aber nicht rechnen, da in regulärer Analysis ∞ nichtmal eine Zahl ist.
Ein größes Problem ist das Rechnen mit infinitismall kleinen Zahlen. Konnten wir für die
Gesamtwahrscheinlichkeit 𝑃(Ω) noch alle Elementarereignisse zusammenzählen, also 1 = 𝑃(Ω) =
∑𝑎𝑖∈𝑆 𝑃(𝑋 = 𝑎𝑖 ), so geht dies bei kontinuierlichen Verteilungen nicht mehr: Die Summe
∑𝑎𝑖∈𝑆 𝑃(𝑋 = 𝑎𝑖 ) lässt sich für überabzählbare 𝑆 einfach nicht berechnen. Einerseits würde sie nicht
terminieren, weil es ja unendlich viele 𝑎𝑖 in 𝑆 gibt. Dies wäre überraschenderweise aber das
kleinere Problem, da die geometrische Verteilung ja auch (abzählbar) unendlich viele
Realisierungen vorweist, die in Wahrscheinlichkeit aber konvergieren. Das größere Problem ist,
dass überhaupt nicht klar wäre, wie die Summe überhaupt ∑𝑎𝑖∈𝑆 𝑃(𝑋 = 𝑎𝑖 ) beginnen soll. Was ist
der Iterant 𝑎1 aus 𝑆. Was ist der zweite Iterant 𝑎2 aus 𝑆?
Tipp
Aufgrund der nichtexistenten Auswahlregel für Iteranden aus kontinuierliche Mengen gibt es
das Axiom of Choice in der Zermelo Fränkel Mengenlehre.
Weitere Probleme gibt es auch in den Fundamentalen Bausteinen, mit denen wir unsere
Wahrscheinlichkeitstheorie aufbauten: Die maßtheoretischen Elemente, vorgestellt in Kurze
Wiederholung: Wahrscheinlichkeitsräume und die Maßtheorie, funktionieren ohne Modifikation
nicht mehr. Die Potenzmenge, die bei diskreten Zufallsvariablen immer gültige Sigma Algebren
lieferte, ist für reelle Mengen plötzlich nicht mehr intuitiv definiert.
Tipp
Die Existenz einer Potenzmenge für jede beliebige Menge existiert das Axiom of Power Set in
der Zermelo Fränkel Mengenlehre.
All diese Probleme können aber mitigiert werden: Zuerst holen wir uns mit der borelschen
Hiearchie77 die Eigenschaften der 𝜎-Algebra zurück. Dann lösen wir das nichtlösbare
Summenproblem: Anstatt diskret ∑𝑎𝑖∈𝑆 𝑃(𝑋 = 𝑎𝑖 ) zu summieren integrieren wir ∫ 𝑓(𝑥)𝑑𝜇(𝑥)
einfach.
Der rote Anteil als relativer Anteil zur hellblauen Fläche dahinter. Dies is die Wahrscheinlichkeit, dass 𝑋
ins Intervall [472,482] fällt, also 𝑃(472 < 𝑋 < 482).
Somit ist klar, dass 𝑃(𝑋 = 𝑎𝑖 ) = 0 für alle 𝑎𝑖 in allen kontinuierlichen Verteilungen, da eine einzelne
Zahl keine Fläche darstellt.
Dichtefunktionen 𝑓𝑋 (𝑥) sind das kontinuierliche Analogon zu Gewichtsfunktionen, kennengelernt in
Gewichtsfunktionen als Maß für diskrete Zufallsvariablen. In der oberen Grafik ist der blaue Graph
die Dichtefunktion.
Tipp
Dichtefunktionen werden oft mit kleinem 𝑓 und Verteilungsfunktionen mit großem 𝐹 notiert.
Zum Beispiel ist 𝑓𝑋 (𝑥) = 𝑒 −𝑥 , 𝑚𝑖𝑡 𝑥 ≥ 0 die Dichtefunktion für eine standardexponentialverteilte
Zufallsvariable. Aber Vorsicht: 𝑓𝑋 (𝑥) ≠ 𝑃(𝑋 = 𝑥). Dichtefunktionen geben keine
Wahrscheinlichkeiten wieder. Sonst wäre
𝑓𝑋 (0) + 𝑓𝑋 (0.5) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 0.5) = 1 + 𝑒 −0.5 > 1. Dies steht im Widerspruch mit der
Voraussetzung, dass Wahrscheinlichkeiten nicht größer als 1 sein dürfen.
Die Dichte als infinitesimal kleiner Streifen mit Höhe 𝑓𝑋 (𝑥) und Breite 𝑑𝑥.
Eine Dichtefunktion 𝑓𝑋 sagt somit allein nichts aus. Sobald wir 𝑓𝑋 aber mit 𝑑𝑥 mutliplizieren,
also die Dichte haben, erhalten wir Wahrscheinlichkeiten.
Achtung
Obwohl 𝑓𝑋 (𝑥)𝑑𝑥 uns formal Wahrscheinlichkeiten gibt, können wir den Wert
nicht berechnen, da man in Standardanalysis nicht mit infinitesimalen 𝑑𝑥 rechnet.
Tipp
Manche nennen 𝑓𝑋 (𝑥) Dichtefunktion und 𝑓𝑋 (𝑥)𝑑𝑥 Dichte.
Beispiel 4.1.
Was ist die Dichtefunktion einer auf [−1,3] uniform verteilten Zufallsvariablen?
1
Das ist 𝑓𝑋 (𝑥) = , 𝑚𝑖𝑡 − 1 ≤ 𝑥 ≤ 3.
4
Probe:
3
𝑃(Ω) = ∫ 𝑓𝑋 (𝑥)𝑑𝑥 = 1. ✓
−1
Verteilungsfunktionen
Anmerkung
Dies ist das kontinuierliche Gegenstück zum Abschnitt Verteilungsfunktionen diskreter
Zufallsvariablen.
Da die Funktionswerte von Dichtefunktionen ohne Aussage sind, erhalten wir nur über Integration
verwendbare Wahrscheinlichkeiten. Diese spiegeln dann die Summe von überabzählbar vielen
infinitesimal kleinen Dichten wieder.
Definition 4.17
Sei 𝑋 eine kontinuierliche Zufallsvariable Zielbereich [𝑚1 , 𝑚2 ] und 𝑚1 ≤ 𝑎 ≤ 𝑚2 .
𝑎
𝑃(𝑋 ≤ 𝑎) = 𝐹𝑋 (𝑎) = ∫ 𝑓𝑋 (𝑥)𝑑𝑥
𝑚1
Definition 4.18
𝑑
𝐹 (𝑥) = 𝑓𝑋 (𝑥).
𝑑𝑥 𝑋
Die Dichtefunktion ist somit immer die Ableitung der Verteilungsfunktion. Haben wir somit eine
Verteilungsfunktion, kommen wir durch Ableiten zur Dichtefunktion. Haben wir eine
Dichtefunktion, kommen wir übers Integrieren („Aufleiten“) zur Verteilungsfunktion.
In der Regel ist Ableiten aber einfacher als Integrieren, weil nicht jede Funktion eine geschlossene
Stammfunktion hat (z.B. hat die Normalverteilung keine elementare Stammfunktion).
Beispiel 4.2.
3
Gegeben sei 𝑓𝑋 (𝑥) = √𝑥 , 𝑚𝑖𝑡 0 ≤ 𝑥 ≤ 𝑏. Wie lautet die Verteilungsfunktion? Wie lautet 𝑏?
1 3 4
∫ 𝑥 3 𝑑𝑥 = 𝑥 3 , 𝑚𝑖𝑡 0 ≤ 𝑥 ≤ 𝑏.
4
3 4
1 = 𝑃(Ω) = 𝐹(𝑏) = 𝑏 3 .
4
4 4 3
⇒ 𝑏 = √( ) .
3
Definition 4.19
Sei 𝑋 eine kontinuierliche Zufallsvariable Zielbereich [𝑚1 , 𝑚2 ].
𝑚2
𝐹(𝑚2 ) = ∫ 𝑓𝑋 (𝑥)𝑑𝑥 = 1
𝑚1
Definition 4.20
Sei 𝑋 eine kontinuierliche Zufallsvariable Zielbereich [𝑚1 , 𝑚2 ] und 𝑚1 ≤ 𝑎 ≤ 𝑚2 .
𝑎
𝑃(𝑎 ≤ 𝑋 ≤ 𝑎) = ∫ 𝑓𝑋 (𝑥)𝑑𝑥 = 0.
𝑎
Definition 4.21
Jede Verteilungsfunktion 𝐹𝑋 ist monoton steigend, also 𝐹(𝑎) ≤ 𝐹(𝑏), 𝑚𝑖𝑡 𝑎 ≤ 𝑏.
Achtung
Allgemein liest man Intervalle von links nach rechts, also [𝑚1 , 𝑚2 ] induziert 𝑚1 ≤ 𝑚2 . Es gibt
aber auch Fälle, wo man solche Intervalle in entgegengesetzte Richtung orientiert (z.B.
Integrationswege in der Funktionentheorie). In diesen Fällen müssen die Monotonieregeln etc.
natürlich etwas angepasst werden.
Tipp
Für kontinuierliche Zufallsvariablen gilt 𝑃(𝑋 ≤ 𝑏) = 𝑃(𝑋 < 𝑏), da einzelne Punkte
Wahrscheinlichkeit null besitzen, also 𝑃(𝑋 ≤ 𝑏) = 𝑃(𝑋 < 𝑏) + ⏟ 𝑃(𝑋 = 𝑏) = 𝑃(𝑋 < 𝑏).
=0
Der Erwartungswert aus kontinuierlicher Sicht
Anmerkung
Der Erwartungswert wurde im Abschnitt Der Erwartungswert für diskrete sowie
kontinuierliche Zufallsvariablen ausführlich erklärt. Hier kommen nur Beispiele.
Alle Definitionen aus den vorherigen Abschnitten gelten noch immer. Für die Berechnung ändert
sich lediglich, dass unsere Summe zum Riemannintegral wird:
Definition 4.22
Sei 𝑋 eine kontinuierliche Zufallsvariable Zielbereich [𝑚1 , 𝑚2 ].
𝑚2
𝐸[𝑋] = ∫ 𝑥 ∙ 𝑓𝑋 (𝑥)𝑑𝑥.
𝑚1
Tipp
Siehe die Parallelen:
𝑛
𝐸[𝑋] = ∑ 𝑥𝑖 ∙ 𝑃(𝑋 = 𝑥𝑖 )
𝑖=1
mit
𝑚2
𝐸[𝑋] = ∫ 𝑥 ∙ 𝑓𝑋 (𝑥)𝑑𝑥.
𝑚1
Beispiel 4.3.
4 4 3
3
Gegeben sei 𝑓𝑋 (𝑥) = √𝑥 , 𝑚𝑖𝑡 0 ≤ 𝑥 ≤ √(3) . Wie lautet 𝐸[𝑋]?
4 3
𝑚2 √ (4 ) .
3 3
𝐸[𝑋] = ∫ 𝑥 ∙ 𝑓𝑋 (𝑥)𝑑𝑥 = ∫ 𝑥 ∙ √𝑥𝑑𝑥 ≈ 0.709.
𝑚1 0
Auch andere Sätze, wie z.B. „Law of the unconscious statistician (l.o.t.u.s.) im diskreten Fall” sind
nahezu unverändert:
Definition 4.23
Sei 𝑌 = 𝑔(𝑋) eine kontinuierliche Zufallsvariable, mit Definitionsberechen [𝑥1 , 𝑥2 ], [𝑦1 , 𝑦2 ].
Dann gilt:
𝑦2
𝐸[𝑌] = ∫ 𝑦 ∙ 𝑓𝑌 (𝑦)𝑑𝑦.
𝑦1
𝑥2
= ∫ 𝑔(𝑋) ∙ 𝑓𝑋 (𝑥)𝑑𝑥.
𝑥
Anmerkung
Die Varianz wurde im Abschnitt Die Varianz für diskrete sowie kontinuierliche
Zufallsvariablen ausführlich erklärt. Hier kommen nur Beispiele.
Alle Definitionen aus den vorherigen Abschnitten gelten noch immer. Für die Berechnung ändert
sich lediglich, dass unsere Summe zum Riemannintegral wird:
Definition 4.24
Sei 𝑋 eine kontinuierliche Zufallsvariable Zielbereich [𝑚1 , 𝑚2 ].
𝑚2
𝑉𝑎𝑟[𝑋] = 𝐸[(𝑋 − 𝐸[𝑋])2 ] = ∫ (𝑥 − 𝐸[𝑋])2 ∙ 𝑓𝑋 (𝑥)𝑑𝑥.
𝑚1
Tipp
Siehe die Parallelen:
𝑛
mit
𝑚2
𝑉𝑎𝑟[𝑋] = ∫ (𝑥 − 𝐸[𝑋])2 ∙ 𝑓𝑋 (𝑥)𝑑𝑥.
𝑚1
Definition 4.25
Sei 𝑋 eine kontinuierliche Zufallsvariable Zielbereich [𝑚1 , 𝑚2 ].
𝑚2 𝑚2 2
𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − 𝐸[𝑋]2 = ∫ 𝑥 2 ∙ 𝑓𝑋 (𝑥)𝑑𝑥 − (∫ 𝑥 ∙ 𝑓𝑋 (𝑥)𝑑𝑥.) .
𝑚1 𝑚1
Beispiel 4.4.
4 4 3
3
Gegeben sei 𝑓𝑋 (𝑥) = √𝑥 , 𝑚𝑖𝑡 0 ≤ 𝑥 ≤ √( ) . Wie lautet Var[𝑋]?
3
4 3
𝑚2 √ (4 ) .
3
𝑉𝑎𝑟[𝑋] = ∫ 2
(𝑥 − 𝐸[𝑋]) ∙ 𝑓𝑋 (𝑥)𝑑𝑥. = ∫ (𝑥 − 0.709)2 ∙ 3√𝑥𝑑𝑥 ≈ 0.113.
𝑚1 0
Über Verschiebungssatz:
4 3
√ (4 ) .
3 3
2] 2
𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 − 𝐸[𝑋] = ∫ 𝑥 2 ∙ √𝑥 𝑑𝑥 − 0.7092 ≈ 0.113.
0
Transformationen kontinuierlicher Zufallsvariablen
Verteilungen von Zufallsvariablen zu ermitteln ist in vielen Fällen nicht leicht. Oft sind
Zufallsvariablen aber lediglich Transformationen von anderen Zufallsvariablen, deren Verteilung
man kennt. Zieht man z.B. die Seite 𝑋 eines Quadrats gemäß einer rein zufälligen Verteilung, so
haben wir auch Informationen über die Verteilung des zufälligen Flächeninhalts 𝑋 2 .
Verteilungsfunktionsfunktion Technik
Die Verteilungsfunktion von 𝑌 lässt sich durch elementare Transformationen durch das Lösen einer
Integralgleichung bestimmen. Wir nutzen den Umstand aus, dass Verteilungsfunktionen das
kumulierte Maß eines Wahrscheinlichkeitsraums bestimmen:
𝑔(𝑦)−1
𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = ⏟
𝑃(𝑔(𝑋) ≤ 𝑦) = 𝑃(𝑋 ≤ 𝑔(𝑦)−1 )
⏟ =∫ 𝑓𝑋 (𝑥) 𝑑𝑥.
𝑤𝑒𝑖𝑙 𝑌=𝑔(𝑋) 𝑔−1 𝑖𝑠𝑡 𝑖𝑛𝑣𝑒𝑟𝑠𝑒 𝐹𝑢𝑛𝑘𝑡𝑖𝑜𝑛 𝑎
Tipp
Hat 𝑋 den Definitionsbereich [𝑎, 𝑏], so hat 𝑌 den Definitionsbereich [𝑔(𝑎), 𝑔(𝑏)].
Es sei 𝑋 uniform auf [0,2] verteilt. Berechne die Dichte- sowie Verteilungsfunktion von 𝑋 2 .
Es gilt:
𝑌 = 𝑔(𝑋) = 𝑋 2 .
Somit ist:
𝑋 = √𝑌 = 𝑔(𝑌)−1 .
Tatsächlich hat 𝑋 2 ein Inverses, weil es einen positiven Definitionsbereich hat (wäre 𝑋
uniform verteilt auf [−2,2] hätten wir hier Probleme).
𝑔(𝑦)−1
1 1
𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(𝑋 2 ≤ 𝑦) = 𝑃(𝑋 ≤ √𝑦) = ∫ 𝑑𝑥 = √𝑦.
0 2 2
Die Invervallgrenzen für 𝑌 sind: [𝑔(𝑎), 𝑔(𝑏)] = [0,4]. Formal ist die Verteilungsfunktion
dann:
1, 𝑤𝑒𝑛𝑛 𝑦 ≥ 4
1
𝐹𝑌 (𝑦) = √𝑦, 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ 4.
2
{0, 𝑠𝑜𝑛𝑠𝑡
1 1
𝑓𝑌 (𝑦) = 𝐹𝑌 (𝑦)′ = ∙ .
4 √𝑦
Formal mit den Intervallgrenzen:
1 1
∙ , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ 4
𝑓𝑌 (𝑦) = {4 √𝑦 .
0, 𝑠𝑜𝑛𝑠𝑡
Tipp
Eine gute Probe ist es, zu schauen ob die Verteilungsfunktion im entsprechenden Intervall
tatsächlich 1 ergibt.
Für jede Verteilungsfunktion muss nämlich gelten:
𝑔(𝑏)
∫ 𝑓𝑌 (𝑦) 𝑑𝑥 = 𝐹𝑦 (𝑔(𝑏)) − 𝐹𝑌 (𝑔(𝑎)) = 1.
𝑔(𝑏)
1 1
√4 − √0 = 1. ✓
2 2
Tipp
Mehr über diese Verfahren gibt es hier.
Change of Variable
Anstatt die Verteilungsfunktion 𝐹𝑌 (𝑦) wird im Change of Variable Verfahren die Dichtefunktion
𝑓𝑌 (𝑦) zuerst berechnet.
Das Tolle: Diese erhalten wir als direkte Formel ohne jemals integrieren zu müssen.
Das Problem: Es gibt zwei verschiedene Formeln, die jeweils davon abhängen, ob die
Transformation 𝑌 = 𝑔(𝑋) monoton steigend oder fallend ist.
Wir schauen uns ersteinmal die Ursache dafür an. Haben wir diese verstanden, so betrachten wir
eine simple Transformation, um aus beiden Formeln eine einzige zu machen, die stets gültig ist.
Antwort: Dies ist der Fall, weil ein monoton fallender Zusammenhang ein Minuszeichen
beinhaltet. Z.B. ist
𝑌 = −2𝑋 3 ,
eine monoton fallende Transformation. Lösen wir dies nach 𝑋 auf, so hat 𝑔(𝑋)−1 ein
negatives Vorzeichen.
Daraus folgt:
3 𝑦
𝑃(𝑔(𝑋) ≤ 𝑦) = 𝑃(−2𝑋 3 ≤ 𝑦) = 𝑃 (𝑋 ≥ √− ).
2
Definition 4.26
Sei 𝑌 = 𝑔(𝑋) eine Transformation mit existierendem Inversen 𝑔−1 .
Dann gilt für die Dichtefunktion:
𝑑
𝑓𝑌 (𝑦) = 𝑓𝑋 (𝑔(𝑦)−1 ) ∙ | 𝑔(𝑦)−1 |.
𝑑𝑦
Wir berechnen nun nochmal dieselbe Beispielaufgabe aus dem vorherigen Unterpunkt, aber
diesmal mit der Change of Variable Variante:
Beispiel 4.6.
Es sei 𝑋 uniform auf [0,2] verteilt. Berechne die Dichte- sowie Verteilungsfunktion von 𝑋 2 .
Es gilt:
𝑌 = 𝑔(𝑋) = 𝑋 2 .
Also:
𝑋 = √𝑌 = 𝑔(𝑌)−1
und
𝑑 1 1
𝑔(𝑦)−1 = ∙ .
𝑑𝑦 2 √𝑌
𝑑 1 1 1 1 1
𝑓𝑌 (𝑦) = 𝑓𝑋 (𝑔(𝑦)−1 ) ∙ | 𝑔(𝑦)−1 | = ∙ ∙ = ∙ .
𝑑𝑦 2 2 √𝑌 4 √𝑌
1 1
∙ , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ 4
𝑓𝑌 (𝑦) = {4 √𝑦 .
0, 𝑠𝑜𝑛𝑠𝑡
Die Verteilungsfunktion 𝐹𝑌 (𝑦) ist dann die Stammfunktion von 𝑓𝑌 (𝑦) für die gilt:
∗ 𝐹𝑌 (𝑔(𝑏)) = 1.
Diese Bedingung resultiert aus dem Definitionsbereich [𝑔(𝑎), 𝑔(𝑏)] von 𝑌.
Die allgemeine Stammfunktion ist also:
1 1 1
∫ 𝑓𝑌 (𝑦) 𝑑𝑦 = ∫ ∙ 𝑑𝑦 = √𝑦 + 𝑐, 𝑚𝑖𝑡 𝑐 ∈ ℝ.
4 √𝑦 2
1, 𝑤𝑒𝑛𝑛 𝑦 ≥ 4
1
𝐹𝑌 (𝑦) = √𝑦, 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ 4.
2
{0, 𝑠𝑜𝑛𝑠𝑡
Als wir dieselbe Aufgabe mit der Verteilungsfunktionstechnik berechneten, erhielten wir
dieselben Ergebnisse, was auch Sinn macht.
Tipp
Versuche erst die Verteilungsfunktionstechnik und wenn diese zu aufwändig erscheint (z.B.
wegen komplizierter Integrale), probiere Change of Variable.
Tipp
Wenn man sein Ergebnis kontrollieren möchte, kann man einfach dieselbe Aufgabe mit
beiden Verfahren rechnen.
𝑈 sei uniform auf [0,2] verteilt und 𝑋 sei 𝐸𝑥𝑝(3)-verteilt. Berechnen Sie
(i) Den Erwartungswert
(ii) Die Varianz.
(iii) Die Verteilungsfunktion
(iv) Die Dichte
von
a) 𝑈 5
b) 4𝑋 − 3.
Berechnung für 𝑈 5 :
Da 𝑈~𝑈𝑛𝑖𝑓𝑜𝑟𝑚(0,2), gilt:
1
𝑓𝑈 (𝑢) = .
2
Sei 𝑌 = 𝑈 5 = 𝑔(𝑈).
Dank der kontinuierlichen Version des in vorherigen Kapiteln behandelten Law of the
unconscious statistician (l.o.t.u.s.) im diskreten Fall könnten wir den Erwartungswert von 𝑌
berechnen, ohne die Verteilung 𝑓𝑌 (𝑦) zu kennen.
25 2 2
1 1 6 2 16
𝐸[𝑌] = ∫ 𝑦 ∙ 𝑓𝑌 (𝑦)𝑑𝑢 = ∫ 𝑔(𝑢) ∙ 𝑓𝑈 (𝑢)𝑑𝑢 = ∫ 𝑢5 ∙ 𝑑𝑢 = [𝑢 ]0 = .
0 ⏟0 0 2 12 3
𝑙.𝑜.𝑡.𝑢.𝑠.
Für die Varianz gilt natürlich noch immer der Der Verschiebungssatz:
2
16 2 1 11 2
𝑉𝑎𝑟[𝑌] = 𝐸[𝑌 2 ] − 𝐸[𝑌]2 = ∫ 𝑔(𝑢)2 ∙ 𝑓𝑈 (𝑢)𝑑𝑢 − ( ) = [𝑢 ]0 ≈ 93.09 − 28,4 = 64.69.
0 3 22
Man hätte aber auch zuerst die Dichte und Verteilungsfunktion berechnen können, und mit
diesen dann den Erwartungswert.
Dies wird aber nicht empfohlen, weil wenn man sich bei der Dichtefunktion etwas
verrechnet hat, dann auch gleich die Erwartungswertberechnung falsch wird.
Um das bisher gelernte zu verfestigen, wenden wir für die Berechnung der
wahrscheinlichkeitsgebenden Funktionen beide Verfahren an.
Vorher bemerken wir, dass 𝑌 im Intervall [0,25 ] definiert ist und 𝑈 in [0,2].
Verteilungsfunktionstechnik
Wir berechnen zuerst die Verteilungsfunktion 𝐹𝑌 (𝑦) direkt.
5
√𝑦 1 15
𝑃(𝑌 ≤ 𝑦) = 𝑃(𝑈 5 ≤ 𝑦) = 𝑃(𝑈 ≤ 5√𝑦) = ∫ 𝑑𝑢 = √𝑦 .
0 2 2
Dann Dichtefunktion:
1 −4
𝑓𝑌 (𝑦) = 𝐹𝑌 (𝑦)′ = 𝑦 5.
10
Change of Variable
Wir berechnen zuerst die Dichtefunktion direkt. Wir bemerken: 𝑌 = 𝑈 5 ist eine auf [0,2]
monoton steigende Abbildung.
Inverse Funktion:
5
√𝑌 = 𝑈 = 𝑔−1 .
𝑑 1 1 −4 1 −4
𝑓𝑌 (𝑦) = 𝑓𝑈 (𝑔(𝑦)−1 ) ∙ | 𝑔(𝑦)−1 | = ∙ ∙𝑦 5 = 𝑦 5.
𝑑𝑦 ⏟
2 5⏟ 10
𝑓𝑈 (𝑔(𝑦)−1 ) | 𝑑 𝑔(𝑦)−1 |
𝑑𝑦
Die Verteilungsfunktion ist somit genau die Stammfunktion von 𝑓𝑌 (𝑦), welche 𝐹𝑌 (25 ) = 1
erfüllt.
1 4 1 1
∫ 𝑦 −5 𝑑𝑦 = 𝑦 5 + 𝑐, 𝑚𝑖𝑡 𝑐 ∈ ℝ.
10 2
1 1
1 = 𝐹𝑌 (25 ) = 25∙5 + 𝑐 = 1, 𝑤𝑒𝑛𝑛 𝑐 = 0.
2
Resultat:
1, 𝑤𝑒𝑛𝑛 𝑦 ≥ 25
15
𝐹𝑌 (𝑦) = √𝑦 , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ 25 ,
2
{0, 𝑠𝑜𝑛𝑠𝑡
1 4
𝑦 −5 , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ 25
𝑓𝑌 (𝑦) = {10 .
0, 𝑠𝑜𝑛𝑠𝑡
Berechnung für 4𝑋 − 3:
Da 𝑋~𝐸𝑥𝑝(3), gilt:
𝑓𝑋 (𝑥) = 3𝑒 −3𝑥 .
Sei 𝑌 = 4𝑋 − 3 = 𝑔(𝑋).
4 5
𝐸[𝑌] = 4𝐸[𝑋] − 3 = −3 = − .
3 4
1
𝑉𝑎𝑟[𝑌] = 𝑉𝑎𝑟[4𝑋 − 3] = 42 ∙ 𝑉𝑎𝑟[𝑋]
⏟ = 16 ∙ ≈ 1.7.
𝐸𝑖𝑔𝑒𝑛𝑠𝑐ℎ𝑎𝑓𝑡𝑒𝑛 𝑉𝑎𝑟𝑖𝑎𝑛𝑧
9
Erneut erinnern wir uns, dass eine 𝐸𝑥𝑝(3)-verteilte Zufallsvariable 𝑋
1 1
die Varianz Var[𝑋] = 2 = hat.
𝜆 9
Zur Übung, wenden wir für die Berechnung der wahrscheinlichkeitsgebenden Funktionen
beide kennengelernten Verfahren an.
Verteilungsfunktionstechnik
Wir berechnen zuerst die Verteilungsfunktion 𝐹𝑌 (𝑦) direkt.
𝑦+3
𝑦+3 4 3𝑦+9
𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(4𝑋 − 3 ≤ 𝑦) = 𝑃 (𝑋 ≤ )=∫ 3𝑒 −3𝑥 𝑑𝑥 = −𝑒 − 4 + 1.
4 0
Dann Dichtefunktion:
3 3𝑦+9
𝑓𝑌 (𝑦) = 𝐹𝑌 (𝑦)′ = 𝑒 − 4 .
4
Change of Variable
Wir berechnen zuerst die Dichtefunktion direkt. Wir bemerken: 𝑌 = 4𝑋 − 3 ist auf [0, ∞] eine
monoton steigende Abbildung.
Inverse Funktion:
𝑌+3
= 𝑋 = 𝑔−1 .
4
𝑑 −3(
𝑦+3 1 3 3𝑦+9
𝑓𝑌 (𝑦) = 𝑓𝑋 (𝑔(𝑦)−1 ) ∙ | 𝑔(𝑦)−1 | = ⏟
3𝑒 4 )∙ = 𝑒− 4 .
𝑑𝑦 ⏟
4 4
𝑓 (𝑔(𝑦)−1 )
𝑋
𝑑
| 𝑔(𝑦)−1 |
𝑑𝑦
Also:
3𝑦+9
𝐹𝑌 (𝑦) = 1 − 𝑒 − 4 .
Resultat:
Definition 4.27
Wenn 𝑛 groß und 𝑘 in der Nachbarschaft von 𝑛𝑝 so gilt
(𝑘−𝑛𝑝) 2
𝑛 1 −
( ) 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 ≈ 𝑒 2𝑛𝑝(1−𝑝) , 𝑝 > 0.
𝑘 √2𝜋𝑛𝑝(1 − 𝑝)
Geschichte
Der Satz von De Moivre-LaPlace erschien zuerst im Buch Doctrine of Chances (1718) von
Abraham de Moivre. Dieses Buch ist eines der ersten über Wahrscheinlichkeitstheorie.
Tipp
Ohne Computer lässt sich der Satz von DeMoivre-LaPlace (und somit der zentrale
Grenzwertsatz) mit der Galton bean machine visualisieren.
Tipp
Der Satz von DeMoivre-LaPlace bildet die Basis für die Normal-Binomialapproximation aus
Binomial-Normalapproximation.
Ohne es zu wissen, zeigte De Moivre schon damals einen Spezialfall des später auftauchenden
zentralen Grenzwertsatzes.
Eine später vom finnischen Mathematiker Jarl Lindeberg begründete Version hat folgende Form:
Definition 4.28
Seien 𝑋1 , 𝑋2 , … unabhängig und identisch verteilte Zufallsvariablen mit 𝐸[𝑋𝑖 ] = 𝜇 und
𝑉𝑎𝑟[𝑋𝑖 ] = 𝜎 2 .
1
Dann ist das Stichprobenmittel 𝑀 = 𝑛 ∑𝑛𝑖=1 𝑋𝑖 annähernd normalverteilt zu den Parametern
𝑉𝑎𝑟[𝑋𝑖 ]
𝜎2 = ,𝜇 = 𝐸[𝑋𝑖 ] für große 𝑛78.
𝑛
1
Es macht Sinn zu unterscheiden zwischen der Verteilung des Mittelwerts (𝑋1 + ⋯ + 𝑋𝑛 ) (sample
𝑛
mean distribution) und der Stichprobensumme 𝑋1 + ⋯ + 𝑋𝑛 (sample sum distribution):
78In der Literator findet man verschiedene Versionen vom zentralen Grenzwertsatzes. Auch die Variante von
Lindeberg existiert in umgeschriebener (aber äquivalenter) Variante,
Definition 4.29
Seien 𝑋1 , 𝑋2 , … unabhängig und identisch verteilte Zufallsvariablen mit 𝐸[𝑋𝑖 ] = 𝜇 und
𝑉𝑎𝑟[𝑋𝑖 ] = 𝜎 2 .
1 𝜎2
• Das Stichprobenmittel 𝑀 = ∑𝑛𝑖=1 𝑋𝑖 ist annähernd normalverteilt mit 𝑁 (𝜇, ).
𝑛 𝑛
1
• Die Summe 𝑛 ∑𝑛𝑖=1 𝑋𝑖 ist annähernd normalverteilt mit 𝑁(𝑛 ∙ 𝜇, 𝑛 ∙ 𝜎 2 )
Der große Nutzen liegt darin, Konfidenzintervalle etc. zu ermitteln, obwohl wir die eigentliche
Verteilung der Summe gar nicht kennen.
Tipp
Für mehr Informationen unter welchen Umständen der zentrale Grenzwertsatz gute
Ergebnisse liefert, siehe hier.
Tipp
Da der zentrale Grenzwertsatz im Allgemeinen für Zufallsvariablen der Form i) 𝑋1 + ⋯ + 𝑋𝑛
1
oder ii) (𝑋1 + ⋯ + 𝑋𝑛 ) greift, ist das Prozedere bei den folgenden Aufgaben immer gleich:
𝑛
𝑈1 , 𝑈2 , … seien unabhängig und uniform verteilt auf [0,1]. Für 𝑖 = 1,2, … setzen wir 𝑋𝑖 =
𝑈𝑖5 , 𝑖 = 1,2, …, und 𝑌 = 𝑋1 + ⋯ + 𝑋100 .
a) Die 𝑋𝑖 ’s sind unabhängig und identisch verteilt. Zudem haben sie endliche Varianzen
und Erwartungswerte. Somit sind alle Konditionen für den klassischen zentralen
Grenzwertsatz erfüllt.
Dafür müssen wir aber erstmal die Verteilungs- und Dichtefunktion von 𝑋𝑖 kennen.
Das Prozedere übernehmen wir dabei aus dem Kapitel Transformationen
kontinuierlicher Zufallsvariablen.
1 1, 𝑤𝑒𝑛𝑛 1 < 𝑥
1 𝑥5 1
5
F𝑋 (𝑥) = P(𝑋 ≤ 𝑥) = 𝑃(𝑈 ≤ 𝑥) = 𝑃 (𝑈 ≤ 𝑥5) = ∫ 1𝑑𝑥 = {𝑥 5 , 𝑤𝑒𝑛𝑛 0 ≤ 𝑥 ≤ 1.
0
0, 𝑠𝑜𝑛𝑠𝑡
1 −4
𝑑 𝑥 5 , 𝑤𝑒𝑛𝑛
0 < 𝑥 ≤ 1.
𝑓𝑋 (𝑥) = 𝐹 (𝑥) = {5
𝑑𝑥 𝑋
0, 𝑠𝑜𝑛𝑠𝑡
Für den Erwartungswert gilt dann:
1
1 6 1 1
𝐸[𝑋𝑖 ] = ∫ 𝑥𝑓𝑋 (𝑥)𝑑𝑥 = [𝑥 5 ] = .
0 6 0 6
1
1 1 25
𝑉𝑎𝑟[𝑋𝑖 ] = ∫ (𝑥 − 𝐸[𝑋])2 𝑓𝑋 (𝑥)𝑑𝑥 = 𝐸[𝑋
⏟ 2 ] − 𝐸[𝑋]2 = − = .
0 𝑉𝑒𝑟𝑠𝑐ℎ𝑖𝑒𝑏𝑢𝑛𝑔𝑠𝑠𝑎𝑡𝑧
11 36 396
Somit:
100
𝐸[𝑌] = .
6
25 625
𝑉𝑎𝑟[𝑌] = 100 ∙ = .
396 99
Daraus folgt:
100 625
𝑌~𝑁 ( , ) .
⏟ 6 99
𝑧𝑒𝑛𝑡𝑟𝑎𝑙𝑒𝑟 𝐺𝑟𝑒𝑛𝑧𝑤𝑒𝑟𝑡𝑠𝑎𝑡𝑧
Nun das Konfidenzintervall bestimmen. Wichtig: Das Intervall ist symmetrisch, also
100
rechts vom Zentrum 𝐸[𝑌] = befinden sich genauso viele Werte wie links.
6
𝑃(𝑎 ≤ 𝑌 ≤ 𝑏) ≈ 0.95
⇔ 𝑃(𝑎 ≤ 𝜎𝑍 + 𝜇 ≤ 𝑏) ≈ 0.95, 𝑚𝑖𝑡 𝑍~𝑁(0,1)
625 100
⇔ 𝑃 (𝑎 ≤ √ 𝑍+ ≤ 𝑏) ≈ 0.95
99 6
1 100 1 100
⇔ 𝑃 (𝑎 − )≤𝑍≤ (𝑏 − ) ≈ 0.95.
6 6
√625 √625
( 99 99 )
1 100
(𝑏 − ) = 1.96.
6
√625
99
Das Tolle: Da das gesuchte Intervall symmetrisch ist, brauchen wir nur eine der
Gleichungen lösen (z.B. 𝑎) und die Lösung für 𝑏 links vom Zentrum platzieren
(𝐸[𝑌] + 𝐸[𝑌] − 𝑎 = 𝑏).
100 100
Die Lösung für 𝑎 beträgt: 𝑎 ≈ 11.741, weshalb 𝑏 = + − 11.741 ≈ 21.59.
3 3
Wir haben:
1 1
𝐸[𝑀] = ∙ 100 ∙ 𝐸[𝑋𝑖 ] = .
100 6
25
1 396 .
𝑉𝑎𝑟[𝑀] = ∙ 100 ∙ 𝑉𝑎𝑟[𝑋𝑖 ] =
1002 100
1 1 1 1
⇔ 𝑃 (𝑎 − ) ≤ 𝑍 ≤ (𝑏 − ) ≈ 0.95.
6 6
√ 25 √ 25
( 39600 39600 )
Wir rechnen;
1 1
(𝑎 − ) = −1.96,
6
√ 25
39600
1 1
(𝑎 − ) = 1.96,
6
√ 25
39600
Folglich:
⟹ 𝑎 ≈ 0.11
⟹ 𝑏 ≈ 0.21.
Bei 100 Stichproben fällt der Erwartungswertschätzer zu 95% ins Intervall
[0.11,0.21].
1
Dies ist nicht weit von den tatsächlichen 6 entfernt.
Achtung
Der zentrale Grenzwertsatz sagt nicht, dass die Summen tatsächlich normalverteilt sind, sondern
dem nur annähernd entsprechen. Siehe Konvergenz in Verteilung.
Beispiele kontinuierlicher Verteilungen
Wie im diskreten Kapitel, werden hier einige konkrete Verteilungen kontinuierlicher
Zufallsvariablen vorgestellt. Erneut beinhaltet jede Verteilung eine kleine Zusammenfassung
wichtiger Parameter in Tabellenform.
Im Vergleich kommen hier aber nur drei Verteilungen vor, nämlich die Uniform-, Normal- und
Exponentialverteilung. Das bedeutetet aber nicht, dass andere kontinuierliche Verteilungen, wie die
Gamma-, Beta- oder Chi-Square Verteilung nicht existieren. Sie werden einfach nur nicht weiter
erwähnt.
Uniforme Verteilung auf ℝ (kontinuierlich)
Definitionen 𝑎. 𝑏 ∈ ℝ, 𝑏 > 𝑎
𝑥 ∈ ℝ ∧ (𝑎 ≤ 𝑥 ≤ 𝑏)
oft benutzte Notation 𝑋~𝑈[𝑎, 𝑏] oder 𝑋~𝑢𝑛𝑖𝑓[𝑎, 𝑏]
Dichtefunktion (pdf) 𝑓𝑋 (𝑥) 1
𝑏−𝑎
Verteilungsfunktion (cdf) 𝐹𝑋 (𝑥) 1
∙𝑥
𝑏−𝑎
Erwartungswert 𝑎+𝑏
(𝑀𝑖𝑡𝑡𝑒 𝑑𝑒𝑟 𝑉𝑒𝑟𝑡𝑒𝑖𝑙𝑢𝑛𝑔)
2
Varianz 1
(𝑏 − 𝑎)2
12
Symmetrisch um 𝜇 ja
Die uniforme Verteilung auf ℝ ist das kontinuierliche Gegenstück zur Uniforme Verteilung auf ℤ
(diskret). Anstatt einer diskreten Menge ist unsere Wahrscheinlichkeit nun aber auf einem Intervall
definiert. Vom Grundprinzip her bleibt aber alles unverändert, weshalb es sich lohnt den Abschnitt
über diskrete uniforme Verteilungen zu konsultieren.
𝑏 𝑏 𝑏
1 1 𝑥2 1 𝑏2 𝑎2 1 𝑏 2 − 𝑎2
𝐸[𝑋] = ∫ 𝑥 ∙ 𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ 𝑥 ∙ 𝑑𝑥 = [ ∙ ] = ∙( − )= ∙
𝑎 𝑎 𝑏−𝑎 2 𝑏−𝑎 𝑎 2 𝑏−𝑎 𝑏−𝑎 2 𝑏−𝑎
1
= (𝑏 + 𝑎) .
⏟
2
(𝑎+𝑏)(𝑎−𝑏)=(𝑎 2 −𝑏2 )
𝑏 𝑏
𝑎+𝑏 2 1 1 𝑏
𝑎+𝑏 2
𝑉𝑎𝑟[𝑋] = ∫ (𝑥 − 𝐸[𝑋])2 ∙ 𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ (𝑥 − ) ∙ 𝑑𝑥 = ∫ (𝑥 − ) 𝑑𝑥
𝑎 𝑎 2 𝑏−𝑎 𝑏−𝑎 𝑎 2
𝑏 2
1 𝑎+𝑏
= ∫ 𝑥 2 − (𝑎 + 𝑏)𝑥 + ( ) 𝑑𝑥
𝑏−𝑎 𝑎 2
1 𝑏 𝑏 𝑏
𝑎+𝑏 2
= (∫ 𝑥 2 𝑑𝑥 − (𝑎 + 𝑏) ∫ 𝑥 𝑑𝑥 + ∫ ( ) 𝑑𝑥)
𝑏−𝑎 𝑎 𝑎 𝑎 2
1 𝑏 3 − 𝑎3 𝑏 2 − 𝑎2 𝑎+𝑏 2
= ( − (𝑎 + 𝑏) ( )+( ) (𝑏 − 𝑎))
𝑏−𝑎 3 2 2
𝑏 3 − 𝑎3 (𝑎 + 𝑏)2 𝑎+𝑏 2 𝑏 3 − 𝑎3 2(𝑎 + 𝑏)2 𝑎2 + 2𝑎𝑏 + 𝑏 2
= − +( ) = − +
3(𝑏 − 𝑎) 2 2 3(𝑏 − 𝑎) 4 4
3 3) (𝑏 − 𝑎)6(𝑎 + 𝑏) 2 (𝑏 − 𝑎)(3𝑎 + 6𝑎𝑏 + 3𝑏 2 )
2
4(𝑏 − 𝑎
= − +
12(𝑏 − 𝑎) 12(𝑏 − 𝑎) 12(𝑏 − 𝑎)
4(𝑏 − 𝑎)(𝑎 + 𝑎𝑏 + 𝑏 − (𝑏 − 𝑎)6(𝑎 + 𝑏)2 + (𝑏 − 𝑎)3𝑎2 + 6𝑎𝑏 + 3𝑏 2
2 2)
=
12(𝑏 − 𝑎)
4(𝑎2 + 𝑎𝑏 + 𝑏 2 ) − 6(𝑎 + 𝑏)2 + 3𝑎2 + 6𝑎𝑏 + 3𝑏 2 𝑎2 − 2𝑎𝑏 + 𝑏 2
= =
12 12
(𝑏 − 𝑎)2
= .
12
𝑈 sei uniform verteilt auf [0,1] und 𝑋 sei standard-exponentialverteilt. Berechnen Sie die
Verteilungsfunktion und Dichte von
d) √2𝑋
1−𝑈
e) .
𝑈
1, 𝑤𝑒𝑛𝑛 𝑦 > √2
2
𝐹𝑌 (𝑦) = 𝑦 , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ √2.
2
{0, 𝑤𝑒𝑛𝑛 𝑦 < 0
𝑑 𝑦, 𝑤𝑒𝑛𝑛 0 ≤ 𝑦 ≤ √2
𝑓𝑌 (𝑦) = 𝐹 (𝑦) = { .
𝑑𝑦 𝑌 0, 𝑠𝑜𝑛𝑠𝑡
1−𝑈
e) Sei 𝑌 = .
𝑈
Nebenrechnung:
1−𝑈
𝑦=
𝑈
1 𝑈
⇔ 𝑦= −
𝑈 𝑈
1
⇔ 𝑦+1 =
𝑈
⇔ 𝑈(𝑦 + 1) = 1.
Also:
1−𝑈 1 1
𝐹𝑌 (𝑌) = 𝑃 ( ≤ 𝑦) = 𝑃(1 ≤ 𝑈(𝑦 + 1)) = 𝑃 ( ≤ 𝑈) = 1 − 𝑃 (𝑈 ≤ )
𝑈 𝑦+1 𝑦+1
1 1
𝑦+1 1− , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦.
=1−∫ ⏟
1 𝑑𝑥 = { 𝑦+1
0 𝑝𝑑𝑓 𝑢𝑛𝑖𝑓𝑜𝑟𝑚[0,1] 0, 𝑤𝑒𝑛𝑛 𝑦 < 0
1−𝑈
Man merke, dass die lim = ∞, weshalb die 𝑦 für alle reellen Zahlen ab 𝑌(1) =
𝑈→0 𝑈
1−1
= 0 definiert ist.
1
1
𝑑 , 𝑤𝑒𝑛𝑛 0 ≤ 𝑦.
𝑓𝑌 (𝑦) = 𝐹𝑌 (𝑦) = {(𝑦 + 1)2
𝑑𝑦
0, 𝑠𝑜𝑛𝑠𝑡
Exponentialverteilung
Definitionen 𝜆 ∈ ℝ+
𝑥 ∈ ℝ+
oft benutzte Notation 𝑋~ exp(𝜆)
Dichtefunktion (pdf) 𝑓𝑋 (𝑥) 𝜆𝑒 −𝜆𝑥
Erwartungswert 1
𝜆
Varianz 1
𝜆2
Symmetrisch um 𝜇 nein
In Poisson Verteilung lernten wir die Poissonverteilung kennen. Diese beschrieb die
Auftrittswahrschlichkeiten von unabhängig geschehenden Ereignissen, z.B. die Anzahl der
Telefonanrufe in einer Stunde. Die Exponentialverteilung beschreibt die Wartewahrscheinlichkeit
zwischen Ereignissen eines Poisson Prozesses. Im Telefonbeispiel würde die Exponentialverteilung
somit die Wartezeit zwischen zwei Anrufen angeben. Da beide Verteilungen somit unzertrennlich
sind, ist es wenig überraschend, dass beide auch einige Eigenschaften teilen.
Wenn wir sagen, dass die Auftrittswahrscheinlichkeit von zwischen Ereignissen in einem Poisson
Prozess unabhängig sind, dann meinen wir damit, dass das Auftreten von einem Ereignis weitere
Ereignisse weder begünstigt noch benachteilgt. Für Telefonanrufe bedeutet dies, dass diese
komplett unabhängig sind. Viele Anrufe geben uns somit keine Auskunft darüber, ob auch später
noch viele Anrufe kommen werden sowie umgekehrt.
Das bedeutet, dass die Wartezeit zwischen zwei Anrufen auch unabhängig sein muss: Die
Exponentialverteilung setzt voraus, dass Wartezeiten keinen Einfluss auf Eintrittszeiten eines
Anrufes haben.
Tipp
Diese Eigenschaft heißt auch Gedächtnislosigkeit. Da Markovketten auch gedächtnislos sind
(die Wahrscheinlichkeit eines Zustandsübergang nur abhängig vom momentanen Zustand
und nicht der Vergangenheit) ist es nicht verwunderlich, dass es auch einen Zusammenhang
zwischen kontinuierlichen Markovketten und der Exponentialverteilung gibt. Für mehr siehe
hier.
Genauer: Wenn ich weiß, dass in der Stunde ca. 6 Anrufe ankommen, kann ich im Schnitt eine
Wartedauer von 10 Minuten pro Anruf angeben. Die Wahrscheinlichkeit 𝑃(𝑋 > 𝑠 + 𝑡|𝑋 > 𝑡), dass
ich auf den nächsten Anruf mehr als 𝑠 + 𝑡-Minuten warten muss, wenn ich schon mehr als 𝑡-
Minuten gewartet habe lautet dann:
𝑃(𝑋>𝑠+𝑡,𝑋>𝑡)
𝑃(𝑋 > 𝑠 + 𝑡|𝑋 > 𝑡) = 𝑃(𝑋>𝑡)
𝑒 −𝜆(𝑠+𝑡)
=
𝑒 −𝜆𝑡
−𝜆𝑠
=𝑒
= 𝑃(𝑋 > 𝑠).
Achtung
Gedächtnislosigkeit bedeutet nicht, dass wir überhaupt keine Aussagen über Wartezeiten treffen
können.
Haben wir eine durchschnittliche Wartezeit von 10 Minuten pro Anruf, dann gilt für die
Wahrscheinlichkeit, länger als 10 Minuten zu warten:
1
𝑃(𝑋 ≥ 10) = 𝑒 −10∙10 = 𝑒 −1 .
Die Wahrscheinlichkeit, länger als 10 Minuten zu warten, wenn ich schon fünf Minuten gewartet
habe beträgt aber:
1
(10+5)
𝑒 −10
𝑃(𝑋 > 5 + 10|𝑋 > 5) = 1
𝑒 −105
=
1
= 𝑒 −105
5
= 𝑒 −10 .
Habe ich somit schon fünf Minuten gewartet, erhöht sich die Wahrscheinlichkeit mehr als 10
Minuten zu warten. Die neue Wahrscheinlichkeit ist aber absolut identisch zu
𝑃(𝑋 ≥ 5),
also mehr als fünf Minuten zu warten von Beginn aus.
Es ist natürlich nicht unbedingt realistisch anzunehmen, dass Wartezeiten keinen Einfluss auf
Eintrittswahrscheinlichkeiten habe.
Modelliere ich z.B. die Wartezeit zwischen Werkstattbesuchen eines Autos mit einer
Exponentialverteilung, dann würde es bedeuten, es ist für ein über zwanzig Jahres altes Auto
genauso wahrscheinlich nach dem 25ten Jahr die Werkstatt zu besuchen, wie für ein neues Auto
nach dem fünftem Jahr (vergleiche 𝑃(𝑋 ≥ 5) mit 𝑃(𝑋 ≥ 20 + 5|𝑋 > 5).
Definition 4.30
Sei 𝑋~ exp(𝜆). Dann gilt:
Tipp
Die Exponentialverteilung ist ein Spezialfall der Gammaverteilung, die in einigen
Ausprägungen eine kontinuierliche Version der Fakultätsfunktion 𝑛! darstellt.
Tipp
Die Exponentialverteilung ist die kontinuierliche Version der geometrischen Verteilung.
Deshalb ist es wenig verwunderlich, dass sich beide in bestimmten Fällen annähern. Für
Beispiele, siehe Geometrische Verteilung - Exponentialapproximation.
Beispiel 4.7.
(i) Wie hoch ist die Wahrscheinlichkeit, zwischen 2-4 Minuten auf den nächsten
Zerfall zu warten?
(ii) Wie hoch ist die Wahrscheinlichkeit, 6 Zerfalle in einer Stunde zu erleben?
3𝑀𝑖𝑛𝑢𝑡𝑒𝑛
Wenn 3 Minuten die mittlere Zerfallszeit ist, dann ist 𝜆−1 = .
1 𝑍𝑒𝑟𝑓𝑎𝑙𝑙
1
Sei 𝑋~ exp ( ).
3
1
41
𝑃(2 ≤ 𝑋 ≤ 4) = ∫2 𝑒 −3𝑠 𝑑𝑠
3
1 1
(i)
= −𝑒 −3∙4 + 𝑒 −3∙2
≈ 0.2498.
(ii) Die Anzahl von Zerfallen pro Zeiteinheit ist poissonverteilt. Eine mittlere Zerfallszeit
20
von 3 Minuten, entspricht einem erwarteten Zerfall von 𝜆 ∙ 20 = 20 Einheiten pro
Stunde. Aufpassen bei der Reparameterisierung: Wir rechnen nun in Stunden weil
20𝐸𝑖𝑛ℎ𝑒𝑖𝑡𝑒𝑛
sonst bekommen wir mit dem Poisson-Erwartungswert Probleme ( hat
60 𝑀𝑖𝑛𝑢𝑡𝑒𝑛
einen Erwartungswert von ca. 0.33 Einheiten pro Minute. Wir wollen aber einen
Erwartungswert von 20.).
20 𝐸𝑖𝑛ℎ𝑒𝑖𝑡𝑒𝑛
Sei 𝑌~𝑃𝑜𝑖𝑠𝑠𝑜𝑛 ( ). Dann gilt:
1 𝑆𝑡𝑢𝑛𝑑𝑒
206 −20
𝑃(𝑌 = 6) = 𝑒 ≈ 0.000183.
6!
Wie man im vorherigen Beispiel sehen kann, bestimmt 𝜆 aus der Exponentialverteilung auch den
rate Parameter der Poissonverteilung.
Beispiel 4.8.
Jonas wartet schon länger als 5 Minuten auf den Bus. Im Schnitt kommt jede Minute einer.
Wie hoch ist die Wahrscheinlichkeit, dass er noch länger als 2 Minuten warten muss?
1 𝑀𝑖𝑛𝑢𝑡𝑒
Es gilt: 𝜆−1 = . Sei 𝑋~ exp(1).
1 𝐵𝑢𝑠
Ob sich seine Situation mit einer Exponentialverteilung modellieren lässt ist fraglich.
Schließlich würde man Gedächtnislosigkeit beim Busverkehr nicht erwarten.
Definitionen 𝜇 = 𝐸[𝑋]
𝜎 2 = 𝑉𝑎𝑟[𝑋]
oft benutzte Notation 𝑋~𝑁(𝜇, 𝜎 2 )
Dichtefunktion (pdf) 𝑓𝑋 (𝑥) 1 1
− (𝑥−𝜇)2
𝑒 2𝜎2
√2𝜋𝜎 2
Verteilungsfunktion (cdf) 𝐹𝑋 (𝑥) keine geschlossene Formel vorhanden.
Manchmal werden Varianten von tanh(x) als
Approximation verwendet.
Erwartungswert 𝜇
Varianz 𝜎2
Symmetrisch um 𝜇 ja
Abgesehen von der uniformen Verteilung, ist die Normalverteilung die wohl am meisten genutzte
kontinuierliche Verteilung überhaupt. Maßgebend verantwortlich dafür ist wohl der zentrale
Grenzwertsatz, der besagt, dass im Limit viele Folgen von Zufallsvariablen in Verteilung zur
Normalverteilung konvergieren (siehe Zentraler Grenzwertsatz und Konvergenz in Verteilung).
Auf dem ersten Blick erscheint es einem, als könnte man nur schwer mit der Normalverteilung
arbeiten: Die Dichtefunktion ist ein komplizierter Term und die Verteilungsfunktion existiert nicht
in geschlossener Form.
Doch der Schein trügt: In der Praxis sind diese Nachteile kaum relevant und die wünschenswerten
Eigenschaften dieser Verteilung kommen zum Vorschein.
Definition 4.31
Sei 𝑋~𝑁(𝜇𝑋 , 𝜎𝑋2 ) und 𝑌~𝑁(𝜇𝑌 , 𝜎𝑌2 ) und 𝑋, 𝑌 uabhängig.
Dann gilt:
𝑋 + 𝑌~𝑁(𝜇𝑋 + 𝜇𝑌 , 𝜎𝑋2 + 𝜎𝑌2 ).
Das bedeutet: Eine Summe von normalverteilten Zufallsvariablen ist wieder normalverteilt.
Antwort: Sei 𝑋~𝑁(𝜇𝑋 , 𝜎𝑋2 ) und 𝑌~𝑁(𝜇𝑌 , 𝜎𝑌2 ). Über die Konvolutionsformel für Summen von
Zufallsvariablen erhalten wir:
+∞
𝑓𝑋+𝑌 (𝑠) =∫ 𝑓𝑋 (𝑥)𝑓𝑌 (𝑠 − 𝑥)𝑑𝑥
−∞
+∞ 1 1
1 − 2 (𝑥−𝜇𝑋 )2 − 2 (𝑠−𝑥−𝜇𝑌 )2
=∫ 𝑒 2𝜎𝑋 𝑒 2𝜎𝑌 𝑑𝑥
−∞ 2𝜋𝜎𝑋 𝜎𝑌
+∞ − [ 1 (𝑥−𝜇𝑋 )2 (𝑠−𝑥−𝜇𝑌 )2
1 2 +
𝜎𝑌2
]
= ∫ 𝑒 2 𝜎𝑋 𝑑𝑥
2𝜋𝜎𝑋 𝜎𝑌 −∞
2 (𝑠−𝑥)2 2
+∞ − [ 1 𝑥 2 −2𝑥𝜇𝑋 +𝜇𝑋 −2(𝑠−𝑥)𝜇𝑌 +𝜇𝑌
1 2 +
𝜎𝑌2
]
= ∫ 𝑒 2 𝜎𝑋 𝑑𝑥
2𝜋𝜎𝑋 𝜎𝑌 −∞
Ein alternatives Argument lautet: Wenn wir wissen, dass die Summe 𝑋 + 𝑌 normalverteilt ist,
dann ergeben sich die neuen Parameter 𝜎 und 𝜇 aus den Linearitätsregeln:
Definition 4.32
Sei 𝑍~𝑁(0,1).
Definition 4.33
Sei 𝑍~𝑁(0,1) und 𝑋~𝑁(𝜇, 𝜎 2 ).
Dann gilt:
𝑋 = 𝜎𝑍 + 𝜇.
Somit sind 𝑋 und 𝜎𝑍 + 𝜇 identisch verteilt. Dies ist sehr nützlich und wird häufig verwendet. Wenn
man darüber nachdenkt, dann macht dies auch Sinn: Ist 𝑍~𝑁(0,1), dann gilt 𝐸[𝑍] = 0. Verschiebt
man nun 𝑋 = 𝑍 + 𝑐, dann verschiebt sich auch der Erwartungswert um 𝑐 Einheiten, also 𝐸[𝑋] =
𝐸[𝑍] + 𝑐 = 𝑐.
Folglich hat 𝐸[𝑍 + 𝜇] denselben Erwartungswert wie 𝐸[𝑋] = 𝜇. Für die Varianz gilt die
Linearitätsregel 𝑉𝑎𝑟[𝜎𝑍 + 𝜇] = 𝜎 2 𝑉𝑎𝑟[𝑍] = 𝜎 2 = 𝑉𝑎𝑟[𝑋].
Somit hat 𝜎𝑍 + 𝜇 dieselbe Varianz sowie denselben Erwartungswert wie 𝑋. Da sich eine
Normalverteilung vollständig durch diese beiden Parameter beschreiben lässt, gilt folglich
𝑋 = 𝜎𝑍 + 𝜇.
Der umgekehrte Weg geht natürlich auch: Ziehen wir von 𝑋 dessen Varianz ab und teilen durch die
𝑋−𝜇
Standardabweichung, so gleicht einer standardnormalverteilten Zufallsvariable.
𝜎
Tipp
Eine Normalverteilung mit verschwindend kleiner Varianz, also lim
2
𝑁(𝜇, 𝜎 2 ), nennt
𝜎 →0
man Dirac Delta Funktion/Distribution.
Diese spielt besonders bei degenerierten Verteilungen eine wichtige Rolle, weil man so
einzelnen Punkten ein Volumen geben kann.
(Das bedeutet, dass Zufallsvariablen der Form
1, 𝑤𝑒𝑛𝑛 𝑥 = 0.5
𝑋={ , 𝑋 𝑖𝑠𝑡 𝑘𝑜𝑛𝑡𝑖𝑛𝑢𝑖𝑒𝑟𝑙𝑖𝑐ℎ
0, 𝑤𝑒𝑛𝑛 𝑥 ≤ 0 ≤ 1
Approximationen
In den bisherigen Aufgaben wurde viel Aufwand darin gesteckt, die unterliegende
Wahrscheinlichkeitsverteilung überhaupt zu erkennen. Nachdem man diese mühevoll gefunden
hat, gibt es dennoch Situationen, wo wir eine andere Verteilung zur Berechnung nutzen. Gründe
gibt es genug: Die ursprüngliche Verteilung hat vielleicht eine schwer auswertbare Formel oder
braucht unhandlich viele Parameter.
Viele Approximationen zeichnen sich deshalb dadurch aus, die Nutzbarkeit oder Berechenbarkeit
zu vereinfachen. Das Besondere: Da das Riemann Integral sich als diskreter Grenzwert
Riemannsummen darstellen lässt, ist es ist kein Wunder, dass viele kontinuierliche Verteilungen
sich durch diskrete Verteilungen darstellen lassen.
Im Gegensatz zu z.B. Differentialgleichungen geht eine Diskretisierung hier aber nicht immer mit
einer Vereinfachung der Berechenbarkeit einher: Oft sind es genau diese kontinuierlichen
Verteilungen, die sich leichter handhaben lassen als ihre analogen Gegenstücke.
Man darf aber nicht vergessen, dass eine Approximation nur eine Annäherung ist. Und unter
bestimmten Konditionen ist diese Annährung sehr weit vom tatsächlichen Ergebnis entfernt. Aber
keine Sorge: Wir werden auf den folgenden Seiten auf notwendige Konditionen eingehen, um gute
Ergebnisse zu erzielen.
Binomial-Normalapproximation
Bei 𝑛 = 20 Stichproben ist die Verteilung nur schwach Je mehr Stichproben, desto ähnlicher wird die Verteilung
symmetrisch. Dargestellt ist die Binomialverteilung zu einer Normalverteilung. Sie wird auch symmetrischer.
den jeweiligen Parametern.
𝑛 𝑛!
Die Binomialverteilung hat ein Problem: Für große 𝑛 ist der Binomialkoeffizient ( ) = 𝑘!(𝑛−𝑘)! in
𝑘
der Massefunktion nur schwer zu berechnen. Einige Taschenrechner versagen schon beim
1000
Ausdruck ( ). Das Problem ist Fakultätsfunktion. Natürlich kann man versuchen, 𝑛! mit der
50
Stirlingformel zu approximieren. Anstatt verfolgt man aber meistens einen anderen Ansatz: Da man
zeigen kann, dass die Binomialverteilung für große 𝑛 gegen die Normalverteilung konvergiert, kann
man auch gleich diese zur Berechnung nehmen. Zwar ist die Verteilungsfunktion einer
𝑎
Normalverteilung nicht darstellbar, ein Integral der Form 𝑃(𝑋 ≤ 𝑎) = ∫−∞ 𝑓𝑋 (𝑥)𝑑𝑥 ist aber
approximativ gut berechenbar.
Ein weiterer Vorteil: Kennen wir die Parameter 𝑛 und 𝑝 der ursprünglichen Binomialverteilung, so
haben wir auch genug Informationen für die approximative Normalverteilung. Dies liegt daran, dass
für eine Normalverteilung die Parameter 𝐸[𝑋] = 𝑛𝑝 und 𝑉𝑎𝑟[𝑋] = 𝑛𝑝𝑞 schon für eine vollständige
Parameterisierung reichen.
Definition 5.1
Sei 𝑋~𝐵𝑖𝑛𝑜𝑚(𝑛, 𝑝).
𝑋 ≈ 𝑁(𝑛𝑝, 𝑛𝑝𝑞).
Tipp
Ab 𝑛 = 50 und 𝑝 = 0.3 kann man es mal mit der Normalapproximation probieren.
Das bedeutet aber auch, dass die Binomialverteilung bei steigendem 𝑛 und 𝑝 immer symmetrischer
wird, weil die Normalverteilung ja auch symmetrisch ist. Spezialfall: 𝑝 = 0.5, dann ist die
Binomialverteilung automatisch symmetrisch.
Hier einige Werte für verschiedene 𝑛, 𝑘 und festem 𝑝 = 0.3:
Es ist nicht verwunderlich, dass in diesem Fall bei der Normalverteilung immer 0,5 rauskommt,
weil 𝑃(𝑋 ≤ 𝑘) = 𝑃 (𝑋 ≤ 𝑛𝑝
⏟ ) und 𝑋 ≈ (𝑛𝑝, 𝑛𝑝𝑞).
𝑖𝑛 𝑇𝑎𝑏𝑒𝑙𝑙𝑒
Dann:
𝑃(𝑋 ≥ 30) ≈ 𝑃(𝑀 ≥ 30).
1
⇔ 𝑃 (𝑍 ≥ (30 − 𝑛 ∙ 0.8)) ≥ 0,975.
(√𝑛 ∙ 0.8 ∙ 0.2)
1
(30 − 𝑛 ∙ 0.8) = −1,96
(√𝑛 ∙ 0.8 ∙ 0.2)
⟹ 𝑛 ≈ 44.
Diese Aufgabe lässt sich im Buch Elementare Stochastik (Götz Kersting, Anton Wakolbinger)
finden.
Ein Hotel hat 218 Betten. Wieviele Reservierungen durch eine Kongressleitung darf der
Hotelmanager entgegennehmen, wenn erfahrungsgemäß eine Reservierung mit
Wahrscheinlichkeit 0.2 annuliert wird?
Die Hotelleitung nimmt dabei in Kauf, mit 2.5%-iger Wahrscheinlichkeit in Verlegenheit
zu geraten.
Schauen wir uns die Aufgabenstellung nocheinmal genauer an. Um den Gewinn zu
maximieren, möchte ein Hotelmanager wissen, mit wie vielen Reservierungen er das Hotel
„überreservieren“ kann. Dies funktioniert, da ja nicht jeder Gast, der ein Bett reserviert auch
wirklich kommt. Die Hotelleitung nimmt dabei aber in Kauf, dass in einigen Situationen dann
doch mehr Gäste tatsächlich erscheinen, als Bettten verfügar sind. Dies soll aber möglichst
selten vorkommen, weshalb versucht wird, die Wahrscheinlichkeit dieses Ereignisses auf ≤
0.025 zu begrenzen. Die Situation lässt sich somit mit Airlines vergleichen, die Flugplätze
doppelt reservieren.
Wenn 0.2 die Wahrscheinlichkeit ist, dass ein Gast absagt, so ist 0.8 die Wahrscheinlichkeit,
dass er tatsächlich kommt.
Der Einfachheit her nehmen wir an, dass die einzelnen 𝑋𝑖 ’s unabhängig sind. In Realität ist
dies natürlich nicht immer der Fall, weil wenn Gäste im Verbund erscheinen (z.B.
Fußballmannschaft) höchstwahrscheinlich Abhängigkeiten untereinander entstehen.
In Anbetracht der obigen Annahme ist dann 𝑋~𝐵𝑖𝑛(𝑛, 0.8). Somit kommen in Erwartung 𝜇 =
𝑛𝑝 = 𝑛 ∙ 0.8 Gäste mit Varianz 𝜎 2 = 𝑛 ∙ 0.16 .
Es gilt dann:
𝑋~𝑁(𝜇, 𝜎 2 ), 𝑚𝑖𝑡 𝜇 = 𝑛 ∙ 0.8, 𝜎 2 = 𝑛 ∙ 0.16.
Wir wollen, dass der 0.975 Korridor bei maximaler Bettenauslastung 𝑋 = 218 endet. Folglich:
218 − 𝑛 ∙ 0.8
= 1.96.
√𝑛 ∙ 0.16
Dies können wir nach 𝑛 umstellen und lösen (z.B. über Newton’s Iterationsvorschrift).
Der Hotelmanager kann also bis zu 256 Reservierungen annehmen, sodass mit einer
Wahrscheinlichkeit von weniger als 0.025 tatsächlich zu wenig Betten zur Verfügung stehen.
Binomial-Poissonapproximation
Während die Normalapproximation die Binomialverteilung für große 𝑛 und 𝑝 annäherte, tut die
Poissonapproximation denselben Job für große 𝑛 und kleine 𝑝.
Definition 5.2
Sei 𝑋~𝐵𝑖𝑛𝑜𝑚(𝑛, 𝑝).
(𝑛𝑝)𝑘 −𝑛𝑝
𝑃(𝑋 = 𝑘) ≈ 𝑒 .
𝑘!
Antwort: Nein, sei dir gewiss, ich sage die Wahrheit! Denn für 𝑛 ∈ ℕ:
𝜆
Sei = 𝑝. Dann:
𝑛
𝑘
𝑛 𝑛 𝜆 𝜆 𝑛−𝑘 𝑛! 𝜆 𝑘
lim ( ) 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 = lim ( ) ( ) (1 − ) = lim ( ) 𝑒 −𝜆
𝑛→∞ 𝑘 𝑛→∞ 𝑘 𝑛 ⏟ 𝑛 𝑛→∞ 𝑘! (𝑛 − 𝑘)! 𝑛
𝐷𝑒𝑓𝑖𝑛𝑖𝑡𝑖𝑜𝑛 𝑣𝑜𝑛 𝑒 −𝜆
𝑛! 𝜆𝑘 𝑛 ∙ … ∙ (𝑛 − 𝑘 + 1) 𝜆𝑘 −𝜆 𝜆𝑘 −𝜆
= lim ∙ 𝑒 −𝜆 = lim ∙ 𝑒 = 𝑒 .
𝑛→∞ (𝑛 − 𝑘)! ∙ 𝑛𝑘 𝑘! 𝑛→∞ ⏟ 𝑛𝑘 𝑘! 𝑘!
=1 𝑖𝑚 𝐺𝑟𝑒𝑛𝑧𝑤𝑒𝑟𝑡
Wir betrachten 1000 faire 01-Münzwurffolgen jeweils der Länge 10, alle unabhängig
voneinander. Berechnen Sie mit der Poisson-Näherung die Wahrscheinlichkeit, dass
genau zwei der 1000 Münzwurffolgen nur aus Einsen bestehen.
Dann gilt:
1000 1 2 1 998
𝑃(𝑋 = 2) = ( ) ( 10 ) (1 − 10 ) = 0,179664.
2 2 2
1 2
(1000 ∙ ) 1
𝑃(𝑋 = 2) ≈ 210 𝑒 −210 = 0,17957.
2!
Die univariate hypergeometrische Verteilung beschreibt ein Ziehen von 𝑁 Objekten ohne
Zurücklegen. Die Binomialverteilung beschreibt ein Ziehen von 𝑁 Objekten mit Zurücklegen. Beide
Verteilungen unterscheiden sich also umso mehr, je mehr Objekte man nicht zurücklegt. Das führt
zur folgenden Überlegung: Hat man viele Objekte, zieht aber nur einen Bruchteil davon ohne
Zurücklegen, so ähnlicher sollten die Resultate beider Verteilungen annähernd ähnlich sein. Und
dies ist in der Tat so:
Definition 5.3
Sei 𝑋~𝐻𝑦𝑝𝑒𝑟𝑔𝑒𝑜𝑚(𝑁, 𝐾, 𝑛).
Ist 𝑁 groß (Anzahl der Objekte) und 𝑛 klein, so approximiert die Binomialverteilung die
univariate hypergeometrische Verteilung.
Achtung
Nicht sofort ersichtlich muss auch folgendes gelten:
𝑛 ≤ 𝐾, 𝑤𝑒𝑛𝑛 𝑁 − 𝐾 ≥ 𝑛
𝑛 ≤ 𝑁 − 𝐾, 𝑤𝑒𝑛𝑛 𝐾 > 𝑛
Wir ziehen 𝑛 = 3-mal ohne Zurücklegen aus einer Urne mit 𝑁 = 10 grünen und 𝐾 = 2 blauen
Bällen.
Die erste Bedingung 𝑛 ≤ 𝐾, 𝑤𝑒𝑛𝑛 𝑁 − 𝐾 ≥ 𝑛 ist nun nicht erfüllt. Würden wir jetzt die
Binomialapproximation nutzen, so wäre
Diese Anforderung macht man aber meistens intuitiv richtig, da solche Grenzfälle selten
vorkommen.
Antwort: Klar!
𝐾 𝑁−𝐾 𝐾! (𝑁 − 𝐾)!
( )( ) ∙
𝑘 𝑛 − 𝑘 𝑘! (𝐾 − 𝑘)! (𝑛 − 𝑘)! (𝑁 − 𝐾 − 𝑛 + 𝑘)!
lim = lim
𝑁→∞ 𝑁 𝑁→∞ 𝑁!
( )
𝑛 𝑛! (𝑁 − 𝑛)!
= lim
𝑁→∞
PLATZHALTER
Beispiel 5.1
Eine Kiste enthält 1000 Actionfiguren, davon 60 Gatmans und 940 Robb’em’s. Nun werden
50 rein zufällig entnommen. Wie hoch ist die Wahrscheinlichkeit, höchstens 2 Gatmans zu
erhalten?
Da wir ohne Zurücklegen ziehen, ist dies ein Fall für die hypergeometrische Verteilung, mit 𝑁 =
1000, 𝐾 = 60, 𝑛 = 50, 𝑘 = 2.
2 60 1000 − 60
(
)( )
𝑃(𝑋 ≤ 2) = ∑ 𝑖 50 − 𝑖 ≈ 0410665.
1000
𝑖=0 ( )
50
Der Casio fx-991DEX Taschenrechner scheitert übrigens bei der obrigen Berechnung, weil
1000 1000 1000!
Zahlen wie ( ) für ihn zu groß sind (er kürzt den Bruch ( ) = 50!∙950! anscheinend
50 50
nicht).
Was können wir tun? Wir nutzen die Binomialapproximation! Aufpassen: Wir approximieren
stets über die Stichprobengröße 𝑛 = 50 und nicht Populationsgröße 𝑁 = 1000.
2
50 60 𝑖 940 𝑛−𝑖
𝑃(𝑋 ≤ 2) = ∑ ( )( ) ( ) = 0.41624.
𝑖 1000 1000
𝑖=0
Die Binomialapproximation liefert ein super Ergebnis und lässt sich auch mit unserem
Taschenrechner ermitteln.
Approximationen durch die Binomialverteilung wird sehr oft in Aufgaben des hessischen Abiturs
genutzt.
Bei der Wintersportart Biathlon wird bei jeder Schießanlage auf fünf Scheiben
geschossen. Ein Biathlet tritt bei einem Einzelrennen zu einer Schießanlage an, bei der er
auf jede Scheibe einen Schuss abgibt. Diese Schießeinlage wird modellhaft durch eine
Bernoullikette mit der Länge 5 und der Trefferwahrscheinlichkeit 𝑝 beschrieben. Geben
Sie für die folgenden Ereignisse 𝐴 und 𝐵 jeweils einen Term an, der die
Wahrscheinlichkeit des Ereignisses in Abhängigkeit von 𝑝 beschreibt.
2. Erläutern Sie anhand eines Beispiels, dass die modellhafte Bescheibung der
Schießeinlage durch eine Bernoullikette unter Umständen der Realität nicht
gerecht wird.
1. Sei 𝑋 die Anzahl der Treffer auf der Schießanlage.
5
𝑃(𝐴) = 𝑃(𝑋 = 4) = ( ) 𝑝4 (1 − 𝑝)1 ,
4
𝑃(𝐵) = 𝑝2 (1 − 𝑝)3 .
Beim Ereignis 𝐵 fällt der Binomialkoeffizient weg, weil lediglich bei den ersten zwei
Schüssen getroffen werden soll (und nicht bei zwei beliebigen Schüssen).
2. Unsere Modellierung nimmt an, dass die Trefferwahrscheinlichkeiten unabhängig
voneinander sind. In Realität ist dies aber nicht unbedingt der Fall. Die Präzision kann
z.B. mit der Zeit konstant abnehmen. Dies könnte man simulieren, indem man z.B. die
hypergeometrische Verteilung nutzt mit einstellbarem Parameter 𝑁.
Natürlich kann man auch andere Modelle nutzen zur Simulation von diesem
Sachverhalt.
Die Binomialverteilung ist bekanntermaßen lediglich ein Spezialfall der Multinomialverteilung mit
zwei Objektklassen. Hat man mehr als zwei Klassen, so approximiert die Multinomialvertielung die
multivariate hypergeometrische Verteilung unter den entsprechenden Konditionen.
Definition 5.4
Sei 𝑋~𝐻𝑦𝑝𝑒𝑟𝑔𝑒𝑜𝑚(𝑁, {𝐾1 , … , 𝐾𝑚 }, 𝑛), wobei 𝐾𝑖 für 𝐾𝑖 viele Objekte der Klasse 𝑖 steht.
Ist 𝑁 groß (Anzahl der Objekte) und 𝑛 klein, so approximiert die Multinomialverteilung die
multivariate hypergeometrische Verteilung.
Definition 5.5
Sei 𝑋~𝐺𝑒𝑜𝑚(𝑝).
Ist das betrachtete Zeitintervall ausreichend diskretisiert (z.B. Stunden sind diskretisiert
durch Teilstücke der Länge von Sekunden), ist konvergiert 𝑋 zur Exponentialverteilung, mit
𝑋 ≈ 𝑝𝑒 −𝑝 .
Keine Sorge, auch wenn die Definition vielleicht abschreckend klingt: Diskretisierung bedeutet in
unserem Fall einfach nur, dass wir ein Zeitintervall (welches kontinuierlich ist) in Teilelemente
unterteilen.
Diese Partition muss dabei nicht immer uniform sein. Adaptive Runge-Kutta Verfahren für
gewöhnliche Differentialgleichungen zeichnen sich unter anderem dadurch aus, dass die Abstände
zwischen den Teilpunkten vom erwarteten Fehler abhängt und so im Allgemeinen nicht uniform ist.
Für die geometrische Verteilung reicht aber ein gleichpartitioniertes Inverall aus. Ein Beispiel in
Form einer orginalen Übungsaufgabe macht vieles klarer:
b)Es sei 𝑟 = 1000. Man würfelt in jeder Sekunde einmal. Was ist die Wahrscheinlichkeit,
dass man bis zum Ausgang 1 länger als eine Stunde warten muss? Verwenden Sie die
Exponentialapproximation.
Ersteinmal rechnen wir das genaue Ergebnis. Wir würfeln jede Sekunde einmal. Dies sind
1
diskrete Zeitstücke. Die Zeit bis zum ersten Erfolg ist ergo geometrisch verteilt mit 𝑝 = .
1000
Eine Stunde hat 3600 Sekunden. Wenn wir länger als eine Stunde würfeln wollen bis zum
ersten Erfolg, müssen wir zuvor 3600 Misserfolge haben. Also:
999 3600
𝑃(𝑋 ≥ 3600 𝑆𝑒𝑘𝑢𝑛𝑑𝑒𝑛) = ( ) ≈ 0,02727.
1000
Nun zur Exponentialapproximation. Dies würde bedeuten, dass wir nicht nur jede Sekunde,
sondern jede noch so kleine Zeiteinheit würfeln würden. Da unsere Stunde aber ausreichend
diskretisiert ist (in 3600 Punkte) werden beide Verfahren ähnliche Ergebnisse liefern.
Je mehr Punkte wir dafür verwenden, desto kleiner unser Fehler. Dies ist vergleichbar mit dem
Verhalten unseres Monte-Carlo Schätzers, den wir in Wahrscheinlichkeiten als Verhältnisse
kennenlernten.
Markow-Ungleichung
Die Markow Ungleichung gibt eine obere Schranke für summierte Wahrscheinlichkeiten der Form
𝑃({𝑋 ≥ 𝑎}).
Dabei gibt es aber einige Restriktionen: Einerseits ist Nichtnegativität von 𝑋 gefordert, also 𝑋: Ω →
𝑆, 𝑚𝑖𝑡 S ⊆ ℝ+ . Andererseits fordern wir Positivität für 𝑎, also 𝑎 > 0.
Ist dies erfüllt, ergibt sich folgende handliche Formel:
Definition 5.6
Sei 𝑋 nichtnegativ, also : Ω → 𝑆, 𝑚𝑖𝑡 S ⊆ ℝ+ und 𝑎 > 0.
Dann gilt:
𝐸[𝑋]
𝑃(𝑋 ≥ 𝑎) ≤ .
𝑎
Tipp
Wenn 𝑋 endlich viele negative Werte annehmen kann, z.B. 𝑋: Ω → [−5,20], dann kann man
probieren X zu transformieren, z.B. mit 𝑌 = 𝑋 + 5 und dort dann die Markow Ungleichung
anwenden.
𝐸[𝑋] = ∫ 𝑥𝑓𝑋 (𝑥)𝑑𝑥 = ∫ 𝑥𝑓𝑋 (𝑥)𝑑𝑥 + ∫ 𝑥𝑓𝑋 (𝑥)𝑑𝑥 ≥ ∫ 𝑥𝑓𝑋 (𝑥)𝑑𝑥 ≥ 𝑎 ∙ ∫ 𝑓𝑋 (𝑥)𝑑𝑥
0 ⏟
0 𝑎 𝑎 𝑎
𝐿𝑖𝑛𝑒𝑟𝑎𝑡𝑖ä𝑡 𝑑𝑒𝑠 𝑅𝑖𝑒𝑚𝑎𝑛𝑛 𝐼𝑛𝑡𝑒𝑔𝑟𝑎𝑙𝑠
= 𝑎 ∙ 𝑃(𝑋 ≥ 𝑎).
Sei 𝑌 = |𝑋 − 𝐸[𝑋]|. Aufgrund der Betragsstriche ist 𝑌 nicht negativ. Da 4 auch größer als null ist,
sind alle Voraussetzungen für die Markow Ungleichung erfüllt.
𝐸[𝑋]) ≈ 3,33.
Dann folgt:
3.33
𝑃(𝑌 ≥ 4) = 𝑃(|𝑋 − 3.33| ≥ 4) ≤ = 0.8325.
4
Die Markow Abschätzung hat zwar recht, ist aber in diesem Fall zu grob, um damit arbeiten zu
können.
Tschebyscheff-Ungleichung
Im vorherigen Beispiel (Seite 304) war die Markow Abschätzung ziemlich ungenau. Die
Tschebyscheff Ungleichung kann in Fragestellungen der Form 𝑃(|𝑋 − 𝐸[𝑋]|) bessere Ergenisse
liefern:
Definition 5.7
Sei 𝑋 und nicht konstant (also 𝜎 ≠ 0).
Dann gilt:
1
𝑃(|𝑋 − 𝐸[𝑋]| ≥ 𝑘 ∙ 𝜎) ≤ .
𝑘2
Im Gegensatz zur Markow Ungleichung dürfen 𝑋 und 𝑘 bei Tschebyscheff auch negative Werte
annehmen. Dafür ist die Markow Ungleichung allgemeiner. Probieren wir das vorherige Beispiel
einmal mit der Tschebyscheff Ungleichung aus:
Beispiel 5.3
Somit:
4 = 𝑘 ∙ 1.44913 ⇒ 𝑘 ≈ 2.76.
Dann folgt:
1
𝑃(|𝑋 − 3.33| ≥ 4) = 𝑃(|𝑋 − 3.33| ≥ 2.76 ∙ 1.44913) ≤ ≈ 0.4761.
1.449132
Dieses Ergebnis ist schon etwas dichter als die Markow Ungleichung am tatsächlichen Ergebnis
0.0016.
Tipp
Bei Fragestellungen der Form 𝑃(|𝑋 − 𝐸[𝑋]| ≥ 𝑎) lohnt es sich zuerst Markow und dann
Tschebyscheff zu nehmen. Da beide Formeln obere Abschätzungen liefern, nimmt man dann
das kleinere Ergebnis der jeweiligen Schätzungen.
Die Markow Ungleichung ermöglicht es uns, grobe Schätzungen Konfidenzintervalle für beliebige
Verteilungen zu ermitteln.
Tipp
Wie auch die Markow-Ungleichung hat auch die Tschebyscheff-Ungleichung viele Variationen
und Sonderfälle, die das Approximationsergebnis mitunter bedeutend verbessern können.
Siehe hier.
Kapitel 6
Damit lässt sich viel Zeit sparen, die man besonders in zeitarmen Situationen für andere Dinge
braucht.
Wir alle kennen die Situation: Besonders bei großen Markovketten ist das Berechnen der
stationären Verteilung 𝐴𝜋 = 1 ∙ 𝜋 aufwändig, weil ein 𝑛 × 𝑛 Gleichungssystem gelöst werden muss.
lim 𝐴𝑘 𝑥 .
k→∞
In einer ergodischen Kette, also eine Markow Kette die aperiodisch und irreduzibel ist, konvergiert
diese Grenzverteilung auch immer zu der eindeutigen stationären Verteilung.
𝐴𝑘 𝑥 = 𝐴 ∙ 𝐴 ∙ … ∙ 𝐴𝑥.
Aber wie hoch sollte unser 𝑘 sein? In der Regel konvergieren besonders Ketten mit wenigen
Zuständen (𝑛 < 30) schon nach 5-10 „random walks“ zum gewünschten 𝜋. Und wie sollten wir
unser 𝑥 wählen? 𝑥 ist unser Startvektor mit 𝑛 Einträgen, die in der Summe 1 ergeben müssen, also
∑𝑛𝑖=1 𝑥𝑖 = 1.
Welche genauen Einträge wir nehmen bleibt uns überlassen, je dichter aber unsere Einträge zum
tatsächlichen 𝜋 sind, desto schneller konvergiert unsere Grenzverteilung.
Tipp
Wenn wir gar keine Ahnung haben wie die stationäre Verteilung 𝜋 aussehen könnte, nehmen
1
wir einfach die uniforme Verteilung 𝑥𝑖 = 𝑛.
Das Reduktionsverfahren ist äquivalent zum Verfahren zur Minimierung von deterministischen
endlichen Automaten.
𝑍𝑖𝑒𝑙 ↙/𝑆𝑡𝑎𝑟𝑡 → 𝑎, 𝑏, 𝑑 𝑐 𝑒 𝑓, 𝑔
3
𝑎, 𝑏, 𝑑 0 0 0
4
1
𝑐 1 0 0
3 .
1
𝑒 0 0 1
4
2
𝑓, 𝑔 0 0 0
3
Nun ermitteln wir die Grenzverteilung. Wir haben keine Ahnung wie der Eigenvektor 𝜋 aussehen
könnte, deshalb wählen wir die uniforme Verteilung für 𝑥:
3
0 4
0 0
1 0.25
1 0 0 0.25
3
lim 𝐴𝑘 𝑥 = lim 1 ∙( ).
k→∞ k→∞ 0 0 1 0.25
4
2
0.25
(0 0 3
0)
• Wähle MatA
• Wir haben 𝑛 = 4 Zustände, weshalb wir 4 Zeilen und 4 Spalten brauchen. Gebe also „4“
auf der Tastatur ein und bestätige mit „=“. Die Spalten werden danach abgefragt.
0.25
0.25
• Gehe mit „AC“ zurück ins Menu. Wiederhole dasselbe für den Startvektor 𝑥 = ( )
0.25
0.25
(wähle aber MatB anstatt MatA).
• Gehe mit „AC“ nun wieder zurück. Der Bildschirm müsste nun so aussehen:
• Multipliziere diese Matrix einige Male mit sich selbst. Am Ende unserer
Multiplikationskette sollte der Vektor 𝑥 stehen (also MatB):
Nehmen wir jetzt wieder den Originalgraphen anstatt die reduzierte Version, so gibt es folgende
Grenzverteilung:
1/12
1/12
1/12
𝜋 = 1/3 .
1/4
1/12
(1/12)
Tipp
Die größten Matrizen, die der Casio fx-991DEX abbilden kann, sind 4 × 4. Haben wir mehr
Zustände im Graph so ist es einen Versuch wert ihn zu reduzieren (wie im oberen Beispiel).
Ist man mit dem Taschenrechner geübt, lassen sich solche Aufgaben innerhalb kürzester Zeit lösen.
Unser Rekord liegt bei 2 Minuten (inklusive aufstellen der Matrix 𝐴). Seid Ihr schneller?
Aber wie findet man dann die Nullstellen von komplizierten Ausdrücken wie 𝑓(𝑥) = 𝑥10 − ln(𝑥) +
15? Ganz einfach: Durch numerische Verfahren. Eine bekannte Methode heißt die Newton-Raphson
Iterationsvorschrift:
Man rät einfach ein 𝑥0 aus dem Definitionsbereich von 𝑓(𝑥) und wertet iterativ
𝑓(𝑥0 )
𝑥𝑛 = 𝑥𝑛−1 −
𝑓 ′ (𝑥0 )
aus. Diese Folge konvergiert im Allgemeinen zur gewünschtes Nullstelle schon für kleine 𝑛 ≤ 10.
Beispiel 6.2
𝑓(𝑥0 ) 𝑒 −5 + 2𝑒 5 − 9
𝑥1 = 𝑥0 − = 5 − ≈ 4.03,
𝑓 ′ (𝑥0 ) −𝑒 −5 + 2𝑒 5
𝑓(𝑥2 )
𝑥3 = 𝑥2 − ≈ 2.3,
𝑓 ′ (𝑥2 )
𝑓(𝑥3 )
𝑥4 = 𝑥3 − ′ ≈ 1.74,
𝑓 (𝑥3 )
𝑓(𝑥4 )
𝑥5 = 𝑥4 − ′ ≈ 1.51,
𝑓 (𝑥4 )
𝑓(𝑥5 )
𝑥6 = 𝑥5 − ≈ 1.478.
𝑓 ′ (𝑥5 )
𝑓(1.478 ) ≈ −0.00356.
Da 𝑓(1.5) > 0, sind wir schon ganz nah an der tatsächlichen Nullstelle (Zwischenwertsatz). Für
unsere Zwecke sind wir dicht genug dran.
Da die manuelle Iterationsauswertung mit zunehmenden 𝑘 recht aufwändig ist, automatisiert der
Casio FX-991DEX die Berechnung!
Tipp
Da sich nun von fast beliebigen Funktionen die Nullstellen ermitteln lassen, ist dies unserer
Meinung nach die nützlichste Zusatzfunktion des Casio FX-991DEX.
Beispiel 6.1
• Gebe die Funktion in den Taschenrechner ein. Für die Variable 𝑎 verwende 𝑥, welches
sich links unter der „on“ Taste befindet.
Achtung
Die Newton-Raphson Methode findet höchstens eine Nullstelle. Hat die Funktionen mehrere
Nullstellen, muss man jeweils verschiedene 𝑥0 probieren. Liegen die Nullstellen dicht
beieinander (evtentuell sogar unter Maschinengenauigkeit) so kann es sehr schwer oder gar
unmöglich werden, alle Nullstellen zu ermitteln.
Überpüfe Ergebnisse
Anders als in der Analysis, ist es in der Stochastik oft nur schwer möglich Ergebnisse zu überprüfen.
Dies liegt daran, dass vermeintliche Lösungen mehr von der Modellierung des Problems abhängen,
als der eigentlichen Rechnung selbst. Einige allgemeingültige Hilfen bieten sich uns dennoch an:
Tipp
Überprüfe Kovarianzen mit der Cauchy Schwarz Ungleichung.
Die ermittelte Kovarianz sollte immer mit der Cauchy-Schwarz Ungleichung (Definition 3.5.6, Seite
165) überprüft werden, also 𝐶𝑜𝑣(𝑋, 𝑌) ≤ 𝑉𝑎𝑟[𝑋]𝑉𝑎𝑟[𝑌]. Man kann dies immer tun, weil man für
die Kovarianzberechnung schon meistens die Varianz ermittelt hat. Die Erfüllung der Ungleichung
gibt natürlich keine hunderprozentige Sicherheit, hilft aber dennoch öfter als man denkt.
Tipp
Berechne die Varianz direkt sowie mit dem Verschiebungssatz.
Sowohl die direkte Berechnung 𝑉𝑎𝑟[𝑋] = 𝐸[(𝑋 − 𝐸[𝑋])2 ] als auch der Verschiebungssatz 𝑉𝑎𝑟[𝑋] =
𝐸[𝑋 2 ] − 𝐸[𝑋]2 (siehe Der Verschiebungssatz) sollten dieselben Resultate liefern.
Achtung
Der Verschiebungssatz ist numerisch instabil, weshalb es zur Auslöschung der Terme kommen
kann. Die obere Äquivalenz funktioniert also in nicht exakter Arithmetik nicht immer.
Tipp
Überprüfe, ob eine ermittelte Verteilungsfunktion mit Intervallgrenzen 𝑎, 𝑏, 𝑚𝑖𝑡 𝑎 < 𝑏 erfüllt:
𝐹𝑋 (𝑎) = 0, 𝐹𝑋 (𝑏) = 1.
Tipp
Nutze die Markow und Tschebyscheff Ungleichungen wenn immer möglich.
Überprüfe ermittelte Konfidenzintervalle und Wahrscheinlichkeiten so oft wie möglich mit der
Markow und Tschebyscheff Ungleichung. Besonders bei einer großen Stichprobenanzahl, sind die
so ermittelten Obergrenzen manchmal so genau, dass nur eine Kommastelle sie vom tatsächlichen
Ergebnis trennt.
Tipp
Überprüfe die Annahmen.
Sind die Zufallsvariablen tatsächlich unabhängig oder lediglich unkorreliert? Ist unser Experiment
mit oder ohne Zurücklegen? Jede zusätzliche Annahme schränkt unsere Möglichkeiten zur
Kontrolle weiter ein (z.B. gilt bei Abhängigkeit im Allgemeinen nicht der zentrale Grenzwertsatz).
Die Modellierung des Problems ist der wichtigste Aspekt, der niemals aus den Augen verloren
werden sollte.
FAQ
Dabei war jede Farbe repräsentiert außer weiß, was ja normalerweise der Standard wäre. Anlass
war die Zelebration der Individualität, die sich schon in kleinstem Rahmen, wie der Farbe des
verwendeten Papiers ausdrückt.
Genauso dieses Skript: Es soll zeigen, dass ein Mathebuch auch „pink“ sein kann ohne
Aussagekraft einzubüßen.
Hatte er recht?
Nein und da liegt das Problem: Mein Text war zu diesem Zeitpunkt falsch: Ich hatte die
korrigierte Version noch nicht veröffentlicht.
Wo gab es Probleme?
Inbesonders die Kapitel über Wahrscheinlichkeitsräume habe ich mehrfach umschreiben
müssen. Es war für mich einfach nicht leicht zu verstehen. Andererseits waren die
Kombinatorikthemen und insbesonders das Bild mit der Giraffe schon von Beginn an relativ fix:
Da gab es nichts zu rütteln.
Welchen professionellen Status hattest du, als du mit dem Skript angefangen hast?
Ich war Informatikstudent im dritten Semester.
Für viele Studenten ist Stochastik eines der schwierigeren Basismodule. Wie sollen sie sich denn
noch motivieren, wenn einer ein ganzes BUCH darüber geschrieben hat und gerade so
durchkommt.
Man darf nicht vergessen: Ich fing damit an gerade weil ich so viele Schwierigkeiten hatte. Ab
dem siebten oder so Blatt habe ich nicht mal mehr Übungsabgaben abgegeben. Es war zu
frustrierend. Ich saß bis nachts an den Übungsblättern und habe sie dennoch nicht geschafft. In
der Winterpause habe ich dann beschlossen, dieses Skript zu schreiben, um den Stoff auch zu
verstehen anstatt nur zu rezitieren.
Es fing mit Kapitel 1 und Kapitel 2 an. Dies sieht man deutlich an den .png Grafiken, die
verwendet werden. Diese .png Grafiken setzten sich bis zum Beginn des Kapitel 3 fort. Dann
entdeckte ich Vektorgrafiken. Mit denen habe ich Kapitel 0 erstellt. Dann den Rest des Kapitel 3,
dann Kapitel 4, dann Kapitel 5, dann Kapitel 6. Das Skript ist in Microsoft Word 2013
geschrieben.
Die Entwicklungsgeschwindigkeit hat sich auch verändert: Während ich zu Beginn noch Tage für
eine Seite brauchte (um diese dann später wieder umzuschreiben), habe ich gegen Ende ca. 4-7
Seiten pro Tag geschrieben.
Plötzlich war alles so „selbstverständlich“, dass die Arbeit wie im Autopilot stattfand. Das
bedeutet nicht, dass das Skript fehlerfrei ist. Aber es ist gut genug, um damit zu lernen und die
Aufgaben zu verstehen, meine ich.
Falls du außerdem bis hierhin gelesen hast. Danke. Du weißt nicht wieviel es mir bedeutet.
Um Besetzungen mit 𝑟 = 3 Behältern darzustellen sind Dreiecksdiagramme (auch ternary plots)
eine praktische Visualisierungsmethode.
Ein Dreiecksdiagramm visualisiert Verhältnisse zwischen genau drei Objekten. Jeder Punkt im
Dreieck gibt ein Verhältnis zwischen den Objekten an. Jedes Objekt befindet sich an einem
Eckpunkt des Dreiecks. Veranschaulichen wir uns dies an einem Beispiel.
Wir haben 𝑛 = 20 Äpfel mit 𝑟 = 3 Eimern. Zuerst beschriften wir die Ecken unseres
Dreiecksdiagramm mit den Eimern 𝐸1 , 𝐸2 , 𝐸3:
WS1516 Übung 2, 7S
(i) (𝑋1 , 𝑋2 , 𝑋3 ) sei eine uniform verteilte Besetzung von 3 Plätzen mit 10 Objekten.
Wie wahrscheinlich ist es, dass kein Platz leer bleibt? Beschreiben Sie die Menge der
zugehörigen Ausgänge in dem in der Vorlesung 2a betrachteten de Finetti-Dreieck.
Wir arbeiten analog
Antwort:
FAQ: Gibt es intuitive Beispiele für eine Verarbeitung von X?
Frage: Einzelne Zufallsvariablen kann ich mir vorstellen, aber wo genau liegt der Nutzen
einer Verarbeitung 𝑌 = ℎ(𝑋)?
Wir schlagen Golfbälle in ein 1m langes Einheitsintervall [0,1]. Wenn unser Golfball bis 50 cm
weit kommt, erhalten wir 2€. Schaffen wir es, den Golfball zwischen 50cm und 1m rollen zu
lassen, kriegen wir 10€.
Dieses Spiel können wir per Zufallsgröße simulieren (wir erinnern uns: ohne
Wahrscheinlichkeiten, denn Zufallsvariablen an sich haben keine):
Sei 𝜔 ∈ S die Eingabe für unsere Zufallsvariable 𝑋 .
Bei einer diskreten Zufallsvariable fordern wir explizit einen abzählbaren Wertebereich und
Zielbereich. Ist der Zielbereich einer Zufallsvariable abzählbar aber der Definitionsbereich
überabzählbar, dann haben wir nämlich eine gemischte Zufallsvariable.