Sie sind auf Seite 1von 548

Wahrscheinlichkeitsrechnung und mathematische

Statistik für Informatiker


Vorlesung im Wintersemester 2023/2024
an der TU Dortmund

Prof. Dr. Jörg Rahnenführer


Fakultät Statistik, TU Dortmund
Einleitung
1 Einleitung 1.1 Info

1.1 WRUMS für Informatikerinnen und Informatiker


Dozent
▶ Prof. Dr. Jörg Rahnenführer
▶ Mathegebäude, Raum 720
▶ Email: rahnenfuehrer@statistik.tu-dortmund.de
Vorlesung
▶ Termin: Do 08:15 - 9:45
▶ Hörsaal: HG II - HS3
Übung
▶ Organisation: M.Sc. Marieke Stolte, stolte@statistik.tu-dortmund.de
▶ Es gibt 8 Übungsgruppen, die zweiwöchentlich stattfinden
▶ Details zum Ablauf und zu den Übungszeiten auf der Moodle-Seite
Website
▶ Moodle: https://moodle.tu-dortmund.de/course/view.php?id=42657

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 2 / 545


1 Einleitung 1.2 Motivation

1.2 Motivation
Statistik ist die Wissenschaft zum Umgang mit Daten. Sie ist eine Möglichkeit,
eine systematische Verbindung zwischen Erfahrung und Theorie herzustellen.
Daten unterteilen sich oft in X -Daten (unabhängige Variablen) und y -Daten
(abhängige Beobachtungen)
Untersuchen möchte man dann zumeist den Zusammenhang X → y
Statistik beruht häufig auf Grundlagen der Wahrscheinlichkeitsrechnung
Und warum braucht man in der Informatik jetzt Statistik?
Häufig erzeugt die Informatik selbst Daten, die analysiert werden müssen
Viele Methoden der Informatik sind dazu da, Daten zu analysieren, dabei
werden jedoch häufig andere Ansätze als in der Statistik gewählt
Data Science: Die Kunst, beide Seiten zu kennen und Daten bestmöglich
handhaben zu können

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 3 / 545


1 Einleitung 1.3 Übersicht

1.3 Übersicht
Univariate Daten Zufallsvariablen und deren Verteilungen
▶ Merkmale und Datentypen Wahrscheinlichkeitstheoretische
▶ Tabellarische und grafische Kennzahlen
Darstellung ▶ Erwartungswert und Varianz
Statistische Kennzahlen ▶ Weitere Kennzahlen
▶ Kennzahlen für die Lage Wichtige
▶ Kennzahlen für die Streuung Wahrscheinlichkeitsverteilungen
▶ Quantile und Boxplots Mehrdimensionale Verteilungen
Bivariate Daten ▶ Bedingte Wahrscheinlichkeiten
▶ Tabellarische und grafische und stochastische Unabhängigkeit
Darstellungen ▶ Mehrdimensionale Zufallsvariablen
▶ Zusammenhangsmaße Markoffketten
▶ Lineare Regression
Schließende Statistik
Wahrscheinlichkeitstheorie
▶ Punktschätzung
▶ Mengentheoretische Grundlagen ▶ Das statistische Testproblem
▶ Wahrscheinlichkeitsmaße und ▶ Spezielle Testprobleme
Wahrscheinlichkeitsräume
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 4 / 545
Univariate Daten
2 Univariate Daten 2.1 Merkmale und Datentypen

2.1 Merkmale und Datentypen


Merkmal Merkmals- Wertebereich
ausprägungen
Form Ellipse, Ellipse, {Ellipse, Rechteck}
Ellipse, Rechteck,
Rechteck, Ellipse
Farbe Rot, Blau, Grün, {Blau, Gelb,
Rot, Gelb, Blau Grün, Rot}
Linienart Durchgängig, {Gepunktet,
Gepunktet, Gestrichelt,
Gepunktet, Durchgängig}
Durchgängig,
Gestrichelt,
Gestrichelt
Breite in cm 2, 1, 1, 2, 1, 3 (0, ∞)
Höhe in cm 1, 1, 2, 2, 3, 1 (0, ∞)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 6 / 545


2 Univariate Daten 2.1 Merkmale und Datentypen

2.1 Merkmale und Datentypen


Datentypen

Skalentyp mögliche Aussagen Im Beispiel


qualitativ
Nominal Gleich / Verschieden Farbe, Form (binär, dichotom)
Ordinal Größer / Kleiner Linienart

quantitativ / metrisch
Intervall Differenzen (Breite, Höhe)
gleich / verschieden
Verhältnis Verhältnisse Breite, Höhe
gleich / verschieden

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 7 / 545


2 Univariate Daten 2.1 Merkmale und Datentypen

2.1 Merkmale und Datentypen


Datentypen

Datentyp Anzahl der Ausprägungen Im Beispiel

Diskret Endlich oder Form


abzählbar unendlich viele Breite, Höhe
(wenn grob bemessen)

Stetig Überabzählbar viele Breite, Höhe


(wenn beliebig fein
bemessen)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 8 / 545


2 Univariate Daten 2.1 Merkmale und Datentypen

2.1 Merkmale und Datentypen


Datentypen

Qualitativ heißt immer diskret


Skalenniveau wird von links nach rechts immer höher

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 9 / 545


2 Univariate Daten 2.1 Merkmale und Datentypen

2.1 Merkmale und Datentypen

Unter Inkaufnahme von Informationsverlust können Merkmale in andere


Skalenniveaus überführt und entsprechend analysiert werden
▶ stetig in diskret (runden, genaue Werte gehen verloren)
▶ diskret quantitativ in ordinal (Abstände gehen verloren)
▶ ordinal in nominal (Ordnung geht verloren)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 10 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Qualitative Daten

MN = {e1 , . . . , eN } Population bestehend aus Objekten e1 , . . . , eN

X Nominales bzw. ordinales Merkmal

x ∈ WX Merkmalsausprägungen von X

WX = {x(j) | j = 1, . . . , J} Wertebereich von X mit


= {x(1), . . . , x(J)} Merkmalsausprägungen x(j), j = 1, . . . , J

x(1) < x(2) < . . . < x(J) falls X ordinal

DN = {xn | n = 1, . . . , N} Urliste aus der Messung von X in der


= {x1 , . . . , xN } Population MN , d.h. xn = X (en ), n = 1, . . . , N

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 11 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Qualitative Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 12 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Qualitative Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 13 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Qualitative Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 14 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Qualitative Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 15 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Qualitative Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 16 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Qualitative Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 17 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Qualitative Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 18 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Qualitative Daten: Deskriptive Auswertung

N
P
Absolute Häufigkeit Nj von x(j): Nj = N[x(j)] = di (j), mit di (j) := Ix(ei )=x(j)
i=1

J
P
Damit gilt Nj = N
j=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 19 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Qualitative Daten: Deskriptive Auswertung

Nj
Relative Häufigkeit fj von x(j): fj = N

J
P
Damit gilt fj = 1
j=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 20 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Qualitative Daten: Deskriptive Auswertung

Tabellarische Darstellung absoluter und relativer Häufigkeiten

Ausprägung Absolute Häufigkeit Relative Häufigkeit


x(1) N1 f1 = N1 /N
.. .. ..
. . .
x(J) NJ fJ = NJ /N
J
P PJ
Nj = N fj = 1
j=1 j=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 21 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Falls J klein ist, sind Tabellen sehr geeignet. Sobald J etwas größer wird,
geht bei tabellarischen Darstellungen oftmals die Übersicht verloren.
Alternative Balkendiagramm: Pro Klasse ein Balken mit der Höhe fj :
0.30
0.20
fj

0.10
0.00

Kai Miriam Oliver Tina

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 22 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Es gibt viele Alternativen zum Balkendiagramm (u.a. Kreisdiagramme). Hier
erfolgt die Darstellung der Häufigkeit nicht über die Höhe der Balken,
sondern z.B. über die Länge des Kreisausschnittes, einen Flächeninhalt, ...
Die beiden folgenden Tortendiagramme zeigen die gleichen Daten:

CDU/CSU
Grüne
SPD
Linke
FDP
sonstige

Das Balkendiagramm ist daher zu bevorzugen, da das menschliche Auge die


Balkenhöhe am leichtesten interpretieren kann, 3-dimensionale Darstellungen
sollten generell vermieden werden.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 23 / 545
2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Es gibt viele Alternativen zum Balkendiagramm (u.a. Kreisdiagramme). Hier
erfolgt die Darstellung der Häufigkeit nicht über die Höhe der Balken,
sondern z.B. über die Länge des Kreisausschnittes, einen Flächeninhalt, ...
Die beiden folgenden Tortendiagramme zeigen die gleichen Daten:

CDU/CSU
Grüne
SPD
Linke
FDP
sonstige

Das Balkendiagramm ist daher zu bevorzugen, da das menschliche Auge die


Balkenhöhe am leichtesten interpretieren kann, 3-dimensionale Darstellungen
sollten generell vermieden werden.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 23 / 545
2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Quantitativ diskrete Daten

MN = {e1 , . . . , eN } Population bestehend aus Objekten e1 , . . . , eN

X Quantitatives Merkmal

x ∈ WX Merkmalsausprägungen von X

WX = {x(j) | j = 1, . . . , J} Wertebereich von X mit


= {x(1), . . . , x(J)} Merkmalsausprägungen x(j), j = 1, . . . , J

DN = {xn | n = 1, . . . , N} Urliste aus der Messung von X in der


= {x1 , . . . , xN } Population MN , d.h. xn = X (en ), n = 1, . . . , N

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 24 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Quantitativ diskrete Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 25 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Quantitativ diskrete Daten: Deskriptive Auswertung
Absolute Häufigkeit Nj und relative Häufigkeit fj analog zu qualitativen Daten
j
fk = #{xn |xNn ≤x(j)}
P
Relative Summenhäufigkeit sj =
k=1

Ausprägung Absolute Relative Relative Summen-


Häufigkeit Häufigkeit häufigkeit
x(1) N1 f1 = N1 /N f1
x(2) N2 f2 = N2 /N f1 + f2
.. .. .. ..
. . . .
x(J − 1) NJ−1 fJ−1 = NJ−1 /N f1 + . . . + fJ−1
x(J) NJ fJ = NJ /N f1 + . . . + fJ = 1
J
P PJ
NJ = N fj = 1
j=1 j=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 26 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Quantitativ diskrete Daten: Deskriptive Auswertung

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 27 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Quantitativ diskrete Daten: Deskriptive Auswertung
Grafische Darstellung: Empirische Verteilungsfunktion

0
 , falls x < x(1)
FN (X ) = j
˜ j) ˜ ≤ x} , falls x(1) ≤ x
P
s j =
 fk , mit j = max{j|x(
k=1
1.0

... f9
... f8
0.8

... f7
... f6
0.6

f5
...
FN

f4
0.4

f1+f2+f3
f3
f1+f2
0.2

f2
f1
f1
0.0

10 12 14 16 18

Jörg Rahnenführer x
W’keitsrechnung und mathematische Statistik WiSe 23/24 28 / 545
2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Quantitativ stetige Daten:

MN = {e1 , . . . , eN } Population bestehend aus Objekten e1 , . . . , eN

X Quantitatives Merkmal

x ∈ WX Merkmalsausprägungen von X

WX = (−∞, ∞) Wertebereich von X

DN = {xn |n = 1, . . . , N} Urliste aus der Messung von X in der


= {x1 , . . . , xN } Population MN , d.h. xn = X (en ), n = 1, . . . , N

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 29 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Quantitativ stetige Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 30 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Klassieren / Kategorisieren


Häufigkeitstabellen bei stetigen Daten nicht sinnvoll, da (bei theoretisch
exakter Messung) jede Beobachtung genau einmal vorkommt.
Alternative: Änderung des Skalenniveaus durch Klassierung:
J
S
WX = (−∞, ∞) = Kj Klassierter (kategorisierter) Wertebereich von X
j=1

Kj = (vj−1 , vj ], j = 1, . . . , J − 1 Merkmalsklassen mit Klassengrenzen


KJ = (vJ−1 , vJ ) −∞ = v0 < v1 < . . . < vJ−1 < vJ = ∞

Im Beispiel der Arbeitserfassung sind z.B. folgende Klassen möglich:

WX5 = (−∞, ∞) = (−∞, 4] ∪ (4, 5] ∪ . . . ∪ (7, 8] ∪ (8, ∞)


4
[ 
= (−∞, 4] ∪ (j + 3, j + 4] ∪ (8, ∞)
j=1

Danach ist das Skalenniveau nur noch ordinal → Informationsverlust!


Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 31 / 545
2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Quantitativ stetige Daten: Deskriptive Auswertung

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 32 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Quantitativ stetige Daten: Deskriptive Auswertung
Grafische Darstellung: Histogramm
Aufbauend auf klassierter Häufigkeitsverteilung, allerdings v0 ̸= −∞ und vJ ̸= ∞
0.4
0.3
Density

0.2
0.1
0.0

3 4 5 6 7 8 9

Bearbeitungszeit

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 33 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Achtung: Ein Histogramm und ein Balkendiagramm sind zwar verwandt, aber
es gibt einige wesentliche Unterschiede
Das Balkendiagramm hat mehrere Balken nebeneinander und stellt die
relativen Häufigkeiten der einzelnen Merkmalsklassen durch die Höhe der
Balken dar.
Im Histogramm gibt der Flächeninhalt(!) an, welcher Anteil der
Beobachtungen sich innerhalb der jeweiligen Klassierung befinden.
fj
Es gilt also: Breite × Höhe = fj , bzw., Höhe = Breite .
Da im vorangegangenen Beispiel gleich breite Klassierungen (mit Breite 1)
gewählt wurden, ergeben sich als Höhen die relativen Häufigkeiten der
jeweiligen Merkmalsklassen.
Üblicherweise sollten auch gleich breite Klassierungen gewählt werden, da
ansonsten die Interpretation des Histogramms erschwert wird.
Bei gleich breiten Klassierungen können zusätzlich auf der y-Achse absolute
an Stelle von relativen Häufigkeiten abgetragen werden.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 34 / 545
2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Klasse Absolute Relative Breite Höhe im Histogramm
Häufigkeit Häufigkeit der Klasse
0.583
K1 = (3, 4.5] 7 0.583 1.5 1.5 = 0.389
0.083
K2 = (4.5, 5] 1 0.083 0.5 0.5 = 0.167
0
K3 = (5, 6] 0 0 1 1 =0
0.25
K4 = (6, 8] 3 0.25 2 2 = 0.125
0.083
K5 = (8, 9] 1 0.083 1 1 = 0.083
0.4
0.3
Density

0.2
0.1
0.0

3 4 5 6 7 8 9

Bearbeitungszeit

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 35 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Grafische Darstellung: Histogramm
Beispiel Patientendaten: Gewicht (in kg); Klassenbreite 1 kg führt zu
unruhigem Bild, auffällig: Häufungen bei Vielfachen von 5 kg

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 36 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Grafische Darstellung: Histogramm
Patientendaten: Klassenbreite 5 kg

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 37 / 545


2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

2.2 Tabellarische und grafische Darstellung von


univariaten Daten
Grafische Darstellung: Histogramm
Patientendaten: Klassenbreite 10 kg

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 38 / 545


Statistische Kennzahlen
3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Nach der passenden grafischen Darstellung der Werte eines Merkmals, nun
(algebraische) Charakterisierungen der Verteilung solcher Werte.
Ziel ist es, die Verteilung durch möglichst wenige Maßzahlen zu beschreiben.
1 Wo liegt die Mitte der Werte?
Repräsentative Charakterisierung einer Verteilung durch eine Zahl: Lagemaß
2 Wie streuen die Werte um die Mitte?
Charakterisierung der Größe der Unsicherheit (=Streuung) der Merkmalswerte:
Streuungsmaß

Später: Vergleich verschiedener Gesamtheiten miteinander mit Hilfe der


Maßzahlen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 40 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Beispiel: Welcher Schütze schießt besser?

Schütze 1: Lage gut, Streuung schlecht


Schütze 2: Lage schlecht, Streuung gut

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 41 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Bisher: geringe Informationsverdichtung durch Verteilungsbeschreibung

Beispiel
Histogramm
Empirische
Verteilungsfunktion
Balkendiagramm

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 42 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Bisher: geringe Informationsverdichtung durch Verteilungsbeschreibung
Jetzt: stärkere Zusammenfassung der Daten auf ihr Zentrum“

Farbige Linien
repräsentieren das
Zentrum

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 43 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Bisher: geringe Informationsverdichtung durch Verteilungsbeschreibung
Jetzt: stärkere Zusammenfassung der Daten auf ihr Zentrum“

Unterschiedliche Definitionen von Zentrum“.

Allgemein: repräsentative Merkmalsausprägung, von der alle beobachteten Werte
möglichst wenig abweichen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 44 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Bisher: geringe Informationsverdichtung durch Verteilungsbeschreibung
Jetzt: stärkere Zusammenfassung der Daten auf ihr Zentrum“

Unterschiedliche Definitionen von Zentrum“.

Allgemein: repräsentative Merkmalsausprägung, von der alle beobachteten Werte
möglichst wenig abweichen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 45 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Nominale Daten

Gesucht: x ∗ , für das Abweichung zwischen x ∗ und x1 , . . . , xN minimal ist


Mit nominellen Ausprägungen kann keine sinnvolle Abweichung berechnet
werden, da keine sinnvollen Abstände zwischen den Beobachtungen definiert
werden können
Dummykodierung, zur Erinnerung: di (j) := Ix(ei )=x(j)

i xi i xi di (1) di (2) di (3)


1 A 1 A 1 0 0
2 C 2 C 0 0 1
.. .. .. .. .. .. ..
. . . . . . .
N B N
P B 0 1 0
N1 N2 N3

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 46 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Jede Merkmalsausprägung x(j) wir durch einen Binärvektor mit Summe 1
repräsentiert, die 1 steht dabei exakt an der j.ten Stelle
Auf den Binärvektoren können wir die euklidische Distanz verwenden, um ein
Lagemaß zu definieren: Wir wählen die Merkmalsausprägung mit der
geringsten mittleren Distanz zu allen Beobachtungen.
Die euklidische Distanz zwischen zwei Beobachtungen xi1 und xi2 , d.h.
zwischen zwei dieser Binärvektoren ist entweder 0 (gleiche
Merkmalsausprägung) und 2 (unterschiedliche Merkmalsausprägungen
Die geringste mittlere Distanz hat somit diejenige Ausprägung, die zu den
meisten Beobachtungen Abstand 0 hat. Dies ist gerade die
Merkmalsausprägung, die am häufigsten im Datensatz vorkommt.

Modalwert / Modus = häufigster Wert: modx = xi (j ∗ )


Der Modalwert ist derjenige Merkmalswert, der am häufigsten vorkommt.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 47 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Nominale Daten
Modalwert
Beispiel Arbeitserfassung von Mitarbeitern

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 48 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Ordinale Daten

Auch auf ordinalen Daten können wir keine Abstände definieren → Modalwert
Allerdings: Information über die Ordnung nicht berücksichtigt
Beispiel: Notenverteilung Altklausur

Note 1.0 2.0 3.0 4.0


Nj 10 30 60 80
4.0 Modalwert → offensichtlich schlechter Repräsentant
Ausweg: Sortiere die Beobachtung und wähle mittlere Beobachtung

Urliste x1 , . . . , xN
Geordnete Liste x(1) ≤ x(2) ≤ . . . ≤ x(N)
x(k) = xik

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 49 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Ordinale Daten
Achtung, Fallunterscheidung:
N ungerade: Eindeutige, mittlere Beobachtung
N gerade: Mitte liegt zwischen 2 Beobachtungen, hier ist der Median also
nicht eindeutig definiert

Median = Zentralwert“ = 50%-Wert: medx



Der Median ist derjenige Wert, für den 50% der Merkmalswerte größer oder gleich
und 50% kleiner oder gleich sind.
(
x( n+1 ) n ungerade
medx := 2

{x( n2 ) , x( n2 +1) } n gerade

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 50 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Quantitative Daten
x1 , . . . , xN
xi ∈ WX , i = 1, . . . , N
WX = {x(j)|j = 1, . . . , J} = {x(1), . . . , x(J)} bzw. WX = (−∞, ∞)

Arithmetisches Mittel = Mittelwert (mean)


N
1 X
x̄ = xi
N
i=1

Der Mittelwert minimiert die Summe der quadratischen Abweichungen


N
X
∆(z ) = (xi − z)2
i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 51 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Quantitative Daten
N N
1
(xi − z)2 ist minimal für z = x̄ =
P P
Zu Zeigen: N xi
i=1 i=1
N
(xi − z)2 gleich null
P
Beweisidee: Setze die Ableitung von
i=1
Beweis:

N
d X
(xi − z)2 = 0 (Ableiten: Kettenregel)
dz
i=1
N
X
⇔ 2(z − xi ) = 0 (Ausklammern und Summe aufteilen)
i=1
N
X N
X
⇔2 z −2 xi = 0
i=1 i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 52 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Quantitative Daten
Beweis (forts.)
N
X N
X
⇔2 z −2 xi = 0 (1. Summe ist unabhängig von i)
i=1 i=1
N
X
⇔ 2Nz − 2 xi = 0 (Sortieren und durch 2N teilen)
i=1
N
1 X
⇔z = xi
N
i=1

Hinreichendes Kriterium für Minimum: 2. Ableitung überprüfen:


N N
d X X
2(z − xi ) = 2 = 2N > 0
dx
i=1 i=1
Also ist x̄ das eindeutige Minimum der Summe der quadratischen Abweichungen
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 53 / 545
3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Quantitative Daten
x1 , . . . , xN
xi ∈ WX , i = 1, . . . , N
WX = {x(j)|j = 1, . . . , J} = {x(1), . . . , x(J)} bzw. WX = (−∞, ∞)

Median = Zentralwert“ = 50%-Wert: medx für stetige Merkmale



Der Median ist derjenige Wert, für den 50% der Merkmalswerte größer oder gleich
und 50% kleiner oder gleich sind.
(
x( n+1 ) n ungerade
medx := 1 2 
2 {x( 2 ) + x( 2 +1) } n gerade
n n

Der Median minimiert die Summe der absoluten Abweichungen


N
X
∆a (x) = |xi − x|
i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 54 / 545


3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage

3.1 Statistische Kennzahlen für die Lage


Zusammenfassung: Welche Maßzahlen sind bei welchem Skalenniveau geeignet?

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 55 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Bisher: Beschreibung von Häufigkeitsverteilung und Lage

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 56 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Bisher: Beschreibung von Häufigkeitsverteilung und Lage
Jetzt: Beschreibung der mittleren Variation um die Lage

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 57 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Nominale Daten
x1 , . . . , xN
xi ∈ WX , i = 1, . . . , N
Rechnen nur sinnvoll mit
WX = {x(j)|j = 1, . . . , J} Dummyvariablen bzw. Häufigkeiten
= {x(1), . . . , x(J)}

i xi i xi di (1) di (2) di (3)


1 A 1 A 1 0 0
2 C 2 C 0 0 1
.. .. .. .. .. .. ..
. . . . . . .
N B N
P B 0 1 0
N1 N2 N3

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 58 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Nominale Daten

Allgemein: Streuung ist desto höher, je schlechter sich konkrete Werte


vorhersagen lassen.

Nominale Merkmalsausprägungen lassen sich um so besser vorhersagen, je


häufiger eine bestimmte Kategorie vorkommt.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 59 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Nominale Daten
Geringe Streuung, falls es ein j D entspricht dem Anteil von Paaren mit
gibt mit fj = 1. unterschiedlichen Merkmalsausprägungen an
Höchste Streuung, falls allen aus der Urliste bildbaren
fj = 1/J, j = 1, . . . , J Beobachtungspaaren:
Simpson’s D #{(i, k) ∈ {1, . . . , N} × {1, . . . , N}|xi ̸= xk }
D=
J N2
X
D =1− fj2
j=1

Beispiel

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 60 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Nominale Daten
Geringste Streuung, falls es ein j gibt mit fj = 1. Beispiel J = 2
Höchste Streuung, falls fj = 1/J, j = 1, . . . , J.

Simpson’s D
J
fj 2
P
D =1−
j=1

1
0 ≤ D ≤ 1− J f1 = 1 − f2

D = 0 für max[(f1 , . . . , fJ )] = 1

1 1
D =1− J für f1 = . . . = fJ = J

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 61 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Nominale Daten
Geringste Streuung, falls es ein j gibt mit fj = 1. Beispiel J = 2
Höchste Streuung, falls fj = 1/J, j = 1, . . . , J.

Simpson’s Dz (Normierte Version)


J
fj2 )
P
J(1−
j=1
Dz = J−1

0 ≤ Dz ≤ 1 f1 = 1 − f2
Dz = 0 für max[(f1 , . . . , fJ )] = 1

1
Dz = 1 für f1 = . . . = fJ = J

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 62 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Ordinale Daten
x1 , . . . , xN
xi ∈ Wx , i = 1, . . . , N
WX = {x(j)| j = 1, . . . , J} = {x(1), . . . , x(J)}
x(1) < x(2) < . . . < x(J)

i xi k x(k)
Simpson’s D ist anwendbar, allerdings
1 x(3) 1 x(1)
wird die Information der
2 x(2) 2 x(1)
Kategorienordnung nicht genutzt.
3 x(1) 3 x(2)
4 x(1) 4 x(3)
5 x(3) 5 x(3)
Geordnete Liste
−−−−−−−−−→

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 63 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Ordinale Daten
Allgemein: Streuung deste höher, je schlechter konkrete Werte sich vorhersagen
lassen.
Werte lassen sich umso besser vorhersagen, je stärker sie sich um den Median
verdichten.

Nicht mehr höchste Streuung bei ausgeglichener Belegung, da die Kategorien


unterschiedlich weit von der Mitte entfernt sind. Höchste Streuung bei maximaler
Entfernung zur Mitte, also bei gleichmäßiger Konzentration an Minimum und
Maximum.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 64 / 545
3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Ordinale Daten
Geringe Streuung für N(x̃0.5 ) = N
Höchste Streuung für N(x̃0 ) = N(x̃1 ) = N/2

Dispersionsindex nach Leti


J−1
P
DL = FN [x(j)] · (1 − FN [x(j)])
j=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 65 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Ordinale Daten
Geringe Streuung für N(x̃0.5 ) = N

Höchste Streuung für N(x̃0 ) = N(x̃1 ) = N/2

Dispersionsindex nach Leti

J−1
0 ≤ DL ≤ 4

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 66 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Ordinale Daten
Geringe Streuung für N(x̃0.5 ) = N
Für J = 2 gilt DZ = DLZ ,
Höchste Streuung für N(x̃0 ) = N(x̃1 ) = N/2 d.h. normierte Versionen von
Simpson und Leti sind
Normierter Dispersionsindex nach Leti äquivalent.
J−1
4
P
DLZ = J−1 FN [x(j)] · (1 − FN [x(j)]) Beweis: DLZ =
j=1 1
4
P
= 2−1 FN [x(j)](1 − FN [x(j)])
0 ≤ DLZ ≤ 1 j=1

= 4·(f1 (1−f1 )) = 2·(2f1 −2f12 )


= 2(1 − f12 − 1 + 2f1 − f12 )
= 2(1 − [f12 + (1 − f1 )2 ])
2 
fj2
P
2 1−
j=1
= 2−1 = DZ □

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 67 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Quantitative Daten
x1 , . . . , xN
xi ∈ Wx , i = 1, . . . , N
WX = {x(j)| j = 1, . . . , J} = {x(1), . . . , x(J)}
bzw. Wx = (−∞, ∞)

Allgemein: Streuung desto höher, je schlechter konkrete Werte sich vorhersagen


lassen.

Werte lassen sich umso besser vorhersagen, je stärker sie sich um das jeweilige
Lagemaß verdichten.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 68 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Quantitative Daten

Werte lassen sich umso besser vorhersagen, je stärker sie sich um das jeweilige
Lagemaß verdichten.

Lagemaß: Arithmetisches Mittel, dazu gehört das Streuungsmaß:

empirische Varianz und Standardabweichung


Varianz: Durchschnitt“ der quadrierten Abweichungen von x̄

N
1 X
varx = sx2 := (xi − x̄)2
N −1
i=1

N−1 2
Alternativ dx2 = N sx
Standardabweichung: Wurzel aus der Varianz

sx := varx
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 69 / 545
3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Streuungsmaße:
Variationskoeffizient (relative Standardabweichung)
sx
vx :=

Mittlere absolute Medianabweichung MD


(von Mean Deviation from the Median“)

n
1X
mdx := |xi − medx |
n
i=1

Mediane absolute Medianabweichung MAD


(von Median Absolute Deviation“)

madx := med(|xi − medx |)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 70 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Quantitative Daten: Berechnung der Varianz aus Häufigkeitsverteilung

J
X
dx2 = fj · (x(j) − x̄)2
j=1

Beweis:
N N
1 X 1 X (x(1) − x̄)2 (x(N) − x̄)2
dx2 = (xi − x̄)2 = (x(i) − x̄)2 = + ... +
N i=1 N i=1 N N
(x(1) − x̄)2 (x(1) − x̄)2 (x(J) − x̄)2 (x(J) − x̄)2
= + ... + +... + + ... +
| N {z N } | N {z N }
N1 =f1 ·N-mal NJ =fJ ·N-mal
J
N N X
= f1 · (x(1) − x̄)2 + . . . + fJ · (x(J) − x̄)2 = fj · (x(j) − x̄)2
N N j=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 71 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Quantitative Daten: Verschiebungssatz von Steiner
Alternative Berechnungsform für die Varianz:
N
1 X
dx2 = (xi − x̄)2 = x 2 − x̄ 2
N
i=1
Die Formel ist ein Spezialfall des Verschiebungssatz von Steiner (b = 0):
N N
1 X 1 X
dx2 = (xi − x̄)2 = (xn − b)2 − (x̄ − b)2
N N n=1
i=1
Beweis:
N N
1 X 1 X
dx2 = (xn − x̄)2 = [(xn − b) + (b − x̄)]2
N n=1 N n=1
N
1 X
= [(xn − b)2 + 2(xn − b)(b − x̄) + (b − x̄)2 ]
N n=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 72 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Quantitative Daten: Verschiebungssatz von Steiner

N
1 X
= [(xn − b)2 + 2(xn − b)(b − x̄) + (b − x̄)2 ]
N n=1
N N N
1 X 1 X 1 X
= (xn − b)2 + 2(b − x̄) (xn − b) + (b − x̄)2
N n=1 N n=1 N n=1
N N N
!
1 X 2 1 X 1 X
= (xn − b) − 2(x̄ − b) xn − b + (x̄ − b)2
N n=1 N n=1 N n=1
N
1 X
= (xn − b)2 − 2(x̄ − b)2 + (x̄ − b)2
N n=1
N
1 X
= (xn − b)2 − (x̄ − b)2
N n=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 73 / 545


3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung

3.2 Statistische Kennzahlen für die Streuung


Zusammenfassung: Welche Maßzahlen sind bei welchem Skalenniveau geeignet?

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 74 / 545


3 Statistische Kennzahlen 3.3 Quantile und Boxplots

3.3 Quantile und Boxplots


Weiteres Maß zur Charakterisierung der Lage: p-Quantil Qp = x̃p
Verallgemeinerung des Medians (50%-Wert) auf beliebige Prozentzahlen
Nützliche Mittel zur Beschreibung einer Rangliste x(1) ≤ x(2) ≤ . . . ≤ x(n)

Ein p-Quantil Qp , p ∈ [0, 1], ist eine Zahl, für die 100 · p % der Merkmals-
werte einer Gesamtheit kleiner oder gleich sind und 100 · (1 − p) % größer
oder gleich.

Genauer könnte man für Qp z.B. Folgendes fordern:

Qp ≥ größtem Merkmalswert einer Gesamtheit, der ≥ 100 · p % der Merk-


malswerte ist und
Qp ≤ nächstgrößerem Merkmalswert der Gesamtheit, also

x(⌊np⌋) ≤ Qp ≤ x(⌊np⌋+1) .

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 75 / 545


3 Statistische Kennzahlen 3.3 Quantile und Boxplots

3.3 Quantile und Boxplots


Die folgende Berechnungsmethode für Quantile entspricht der Berechnung des
Medians.
p-Quantil Berechnung: Standard“ (nicht in R, dort type=2 wählen)

(
x(j) , j := ⌈np⌉, np nicht ganzzahlig
Qp := x(j) +x(j+1)
2 , j := np, np ganzzahlig

Bezeichnung
Anstelle von p-Quantil sagt man auch (1-p)-Fraktil.
Das 0-Quantil und das 1-Quantil entsprechen dem Minimum und dem
Maximum der Daten.
0.25- bzw. 0.75-Quantile heißen auch unteres bzw. oberes Quartil:
Unteres Quartil q4 = 0.25-Quantil; oberes Quartil q 4 = 0.75-Quantil.
Vielfache von 0.1 werden als Dezile bezeichnet (0.1-Dezil, 0.2-Dezil, ...).
Vielfache von 0.01 werden als Perzentile bezeichnet (0.01-Perzentil,
0.67-Perzentil, ...).
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 76 / 545
3 Statistische Kennzahlen 3.3 Quantile und Boxplots

3.3 Statistische Kennzahlen für die Streuung


Man kann Kombinationen von Quantilen verwenden, um Maße abzuleiten:
Der Mittelwert des unteren und des oberen Quartils
Der Mittelwert aus Minimum und Maximum
Nennenswerte abgeleitete Streuungsmaße sind:

Spannweite (range)
Rx := max(x) − min(x) = x(n) − x(1)

Interquartilsabstand (interquartile range)


qdx := q 4 − q4

General kann der Mittelwert des p-Quantils und des p-Fraktils als Lagemaß und
die Differenz als Streuungsmaß verwendet werden.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 77 / 545


3 Statistische Kennzahlen 3.3 Quantile und Boxplots

3.3 Quantile und Boxplots


5 Punkte Zusammenfassung
Maximum
Oft werden 5 (6) Zahlen verwendet, um

2
eine univariate Verteilung zu beschreiben:
Minimum, 1. Quartil, Median,
q4

1
(Mittelwert), 3. Quartil, Maximum
medx
Aus diesen 5 Zahlen lassen sich viele Lage

0
und Streuungsmaße ablesen:
q4
Medien, Mittelwert der Quantile,

−1
Interquratilsabstand, Spannweite, ...

−2
Gemeinsam werden diese 5 Datenpunkte
gerne als sogenannter Boxplot grafisch Minimum

dargestellt: Eine Box von q 4 bis q4 mit


einem Strich bei medx , dazu sogenannte
Whisker bis zum Minimum / Maximum.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 78 / 545


3 Statistische Kennzahlen 3.3 Quantile und Boxplots

3.3 Quantile und Boxplots


Box-Whisker-Plot

4
Minimum und Maximum sind sehr
anfällig für Ausreißer in den Daten.

2
Darum: Zeichne die Whisker des
Boxplots nicht bis zum Minimum /
Maximum, sondern lediglich bis

0
q 4 + 1.5qdx bzw. q4 − 1.5qdx , also
auf das jeweilige Quartil ± den
1.5-fachen Interquartilsabstand.

−2
Sämtliche Beobachtungen größer
bzw. kleiner als diese Grenzen werden

−4
als explizite Punkte in den Boxplot
aufgenommen.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 79 / 545


3 Statistische Kennzahlen 3.3 Quantile und Boxplots

3.3 Quantile und Boxplots


Box-Whisker-Plot
Boxplots benötigen sehr wenig Platz und geben dennoch sehr viele Informationen
über eine Verteilung wieder. Durch den geringen Platzverbrauch kann man sehr
viele Boxplots nebeneinander zeichnen und auf diese Weise viele univariate
Verteilungen auf einen Blick miteinander vergleichen.

Quality of Normal RNG


1.0
0.8
0.6
p.values

0.4
0.2
0.0

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 80 / 545


Bivariate Daten
4 Bivariate Daten

4.0 Bivariate Daten


Bisher: Betrachtung einzelner Merkmale X
Jetzt: Betrachtung von Merkmalspaaren (X , Y ) und deren Zusammenhang

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 82 / 545


4 Bivariate Daten

4.0 Bivariate Daten


Fahrplan
Tabellarische und grafische Darstellungen
▶ Sowohl X als auch Y qualitativ (nominal oder ordinal)
▶ Sowohl X als auch Y quantitativ (diskret oder stetig)
▶ X qualitativ, Y quantitativ
Zusammenhangsmaße
▶ Sowohl X als auch Y nominal
▶ Sowohl X als auch Y quantitativ (diskret oder stetig)
▶ Sowohl X als auch Y ordinal
▶ X und Y haben unterschiedliche Skalenniveaus
Einfache Lineare Regression zur Darstellung des Zusammenhangs bei
quantitativen Daten
Doch zuvor: Ein wenig Notation

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 83 / 545


4 Bivariate Daten

4.0 Bivariate Daten


Notation

X, Y Merkmale

x ∈ WX , y ∈ WY Merkmalsausprägungen von X

WX = {x(j) | j = 1, . . . , J} Wertebereiche von X bzw. Y mit


WY = {y (k) | j = k, . . . , K } Merkmalsausprägungen

(xi , yi ) ∈ WXY = WX × WY = Bivariate Merkmalsausprägungen mit


{(x(1), y (1)), . . . , (x(1), y (K )), Bivariatem Wertebereich
(x(2), y (1)), . . . , (x(J), y (K ))}

x1 , . . . , xN , y1 , . . . , yN Univariate Urlisten
(x1 , y1 ), . . . , (xN , yN ) Bivariate Urliste

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 84 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten
Gemeinsame absolute Häufigkeitsverteilung von x und y
 
N11 ... N1K
 N21 ... N2K 
Njk = N (x(j), y (k)) , j = 1, . . . , J; k = 1, . . . , K
 
 .. .. .. 
 . . . 
NJ1 ... NJK

Gemeinsame relative Häufigkeitsverteilung von x und y


 
f11 . . . f1k
Njk f21 . . . f2k 

fjk = , j = 1, . . . , J; k = 1, . . . , K

 .. . . .. 
N  . . . 
fj1 . . . fjk

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 85 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten: Darstellung einer bivariaten Häufigkeitsverteilung
Kontingenztafel: Absolute Häufigkeiten

Y P
y (1) y (2) ... y (K )
x(1) N11 N12 ... N1K N1·
K
x(2) N21 N22 ... N2K N2· Nj· =
P
Njk
.. .. .. .. .. k=1
X . . . . .
x(J)
P NJ1 NJ2 ... NJK NJ·
N·1 N·2 ... N·K N
J
P J P
P K
N·k = Njk N= Njk
j=1 j=1 k=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 86 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten
x1 , . . . , xN ; y1 , . . . , yN (x1 , y1 ), . . . , (xN , yN ) di (j) = Ix(ei )=x(j)
xi ∈ WX , yi ∈ WY (xi , yi ) ∈ WXY = WX × WY ri (k) = Iy (ei )=y (k)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 87 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten: Häufigkeitsverteilung eines bivariaten Merkmals

Njk = N (x(j), y (k))


X X
= di (j) = ri (k)
i∈{l|rl (k)=1} i∈{l|dl (j)=1}
N
X
= di (j) · ri (k)
i=1
N
X X X X
Nj· = di (j) = di (j) + di (j) + . . . + di (j)
i=1 i∈{l|rl (1)=1} i∈{l|rl (2)=1} i∈{l|rl (K )=1}

X N
K X K
X
= dl (j) · rl (k) = Njk
k=1 l=1 k=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 88 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten: Darstellung einer bivariaten Häufigkeitsverteilung
Kontingenztafel: Relative Häufigkeiten

Y P
y (1) y (2) ... y (K )
x(1) f11 f12 ... f1K f1·
K
x(2) f21 f22 ... f2K f2· fj· =
P
fjk
.. .. .. .. .. k=1
X . . . . .
x(J)
P fJ1 fJ2 ... fJK fJ·
f·1 f·2 ... f·K 1
J
P J P
P K
f·k = fjk fjk = 1
j=1 j=1 k=1

Gemeinsame relative Häufigkeitsverteilung: fXY := {fjk |j = 1, ..., J, k = 1, ..., K }

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 89 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten: Darstellung einer bivariaten Häufigkeitsverteilung
Kontingenztafel: Randverteilungen
Absolute Randhäufigkeitsverteilung
NX · := {Nj· |j = 1, ..., J} und N·Y := {N·k |k = 1, ..., K } werden als absolute
Randhäufigkeitsverteilungen von X und Y bezeichnet.
Sie entsprechen den absoluten Häufigkeiten der univariaten Merkmalen
Relative Randhäufigkeitsverteilung
fX · := {fj· |j = 1, ..., J} und f·Y := {f·k |k = 1, ..., K } werden als relative
Randhäufigkeitsverteilungen von X und Y bezeichnet.
Sie entsprechen den relativen Häufigkeiten der univariaten Merkmalen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 90 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten: Darstellung einer bivariaten Häufigkeitsverteilung
Kontingenztafel: Bedingte Verteilungen
Wie lautet die Verteilung von Y im Teildatensatz, wenn die Ausprägung von X
bekannt ist, z.B. für X = x(2)?

Y P Bezeichne allgemein mit


y (1) y (2) ... y (K )
x(1) Ny ;k|j = Njk , k = 1, ..., K
x(2) N21 N22 ... N2K N2·
.. die absolute Häufigkeitsverteilung
X .
von Y gegeben X = x(j).
x(J)
Der Datensatz hat Umfang Nj· .

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 91 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten: Darstellung einer bivariaten Häufigkeitsverteilung
Kontingenztafel: Bedingte Verteilungen
Wie lautet die Verteilung von Y im Teildatensatz, wenn die Ausprägung von X
bekannt ist, z.B. für X = x(2)?

Y P Bezeichne allgemein mit


y (1) y (2) ... y (K )
x(1) Ny ;k|j fjk
x(2) N21 N22
... N2K N2· fy ;k|j = = , k = 1, ..., K
N2· N2· N2· N2· Nj· fj·
..
X . die relative Häufigkeitsverteilung
x(J) von Y gegeben X = x(j).

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 92 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten: Darstellung einer bivariaten Häufigkeitsverteilung
Kontingenztafel: Bedingte Verteilungen
Wie lautet die Verteilung von Y im Teildatensatz, wenn die Ausprägung von X
bekannt ist, z.B. für X = x(2)?

Y Bedingte Verteilungen:
P
y (1) y (2) ... y (K ) Verteilung von Y gegeben X :
f11 f12 f1K
x(1) f1· f1· ... f1· 1 fY |X := {fy ;k|j |j = 1, ..., J; k = 1, ..., K }
f21 f22 f2K
x(2) f2· f2· ... f2· 1
.. .. .. .. Verteilung von X gegeben Y :
X . . . .
fJ1 fJ2 fJK fX |Y := {fx;j|k |j = 1, ..., J; k = 1, ..., K }
x(J) fJ· fJ· ... fJ· 1
fjk
J mit fx;j|k := f·k

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 93 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 94 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 95 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 96 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Nominale Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 97 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Titanic
Nominale Daten: Grafische Darstelling
1st 2nd 3rd Crew

Beispiel: Der Titanic-Datensatz:


Hat ein Passagier den Untergang der

No
Titanic überlebt? Weitere Merkmale, wie
z.B. Geschlecht und Passagierklasse.

Survived
Der Mosaikplot
Rechteckbreiten entsprechen f·c
Rechteckhöhen entsprechen fs|c
Yes
Rechteckflächen entsprechen
fsc = fs|c · f·c
Wobei: s der Variable Überlebt und c der
Passagierklasse entspricht Class

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 98 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Titanic
Nominale Daten: Grafische Darstelling
1st 2nd 3rd Crew

Zusätzliche Einteilung der Flächen Male Female Male Female Male Female Male Female

nach Geschlecht

No
Es liegen also letztlich 3 Merkmale
vor: Überleben, Passagierklasse und
Geschlecht, die Daten sind also

Survived
nicht bivariat, sondern trivariat
Weitere Unterteilung der
Rechteckbreiten nach fg |sc , d.h. es
liegt eine doppelte Bedingung auf
Yes
zwei Merkmale vor
Weitere Unterteilungen nach
weiteren Merkmalen sind denkbar,
die Interpretierbarkeit ist aber schon Class

bei drei Merkmalen fraglich

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 99 / 545


4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Quantitative Daten: Beispiel Bearbeitung von Softwareaufgaben

Streudiagramm
Darstellung der Punktepaare (xi , yi ) in einem kartesischen Koordinatensystem
10
Bearbeitungszeit

8
6
4
2

8 10 12 14 16 18 20

Anzahl Clicks
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 100 / 545
4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Gemischte Daten:
Es liegt also ein quantitatives und ein qualitatives Merkmal vor.
Möglichkeit 1:
Reduzierung des Skalenniveaus des quantativen Merkmals und Einsatz der
qualitativen Methoden. Nachteil: Informationsverlust
Möglichkeit 2:
Codierung des qualitativen Merkmals durch {1, 2, 3, ...} und Einsatz von
Streudiagrammen. Nachteil: Suggerierung einer Reihenfolge / von
Abständen, die es tatsächlich nicht gibt. Außerdem: Punkte werden oft
Übereinander gezeichnet. Ausweg: Jittering (Addition von kleinen
Zufallswerten auf die Datenpunkte)
Möglichkeit 3:
Einzelne univariate Grafiken je nach Ausprägung des qualitativen Merkmals,
z.B. paralllele Boxplots. Nachteil: Teils viele Grafiken, unübersichtlich

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 101 / 545
4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen

4.1 Bivariate Daten: Tabellarische und grafische


Darstellungen
Gemischte Daten: Beispiel Bearbeitung von Softwareaufgaben

Streudiagramm
Darstellung weitere Merkmale über Eigenschafte wie z.B. der Farbe
10

Kai
Miriam
Oliver
Bearbeitungszeit

Tina
8
6
4

Abfrage
Export
Verknüpfung
2

8 10 12 14 16 18 20

Anzahl Clicks
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 102 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Erinnerung: Allgemeine Eigenschaft der Streuung univariater Daten: Streuung
von X desto höher, je schlechter sich konkrete Werte vorhersagen lassen.
▶ Bisher: Vorhersage der Werte von X durch einzelne Lageparameter.
▶ Jetzt: Vorhersage der Werte von Y unter Verwendung der Werte von X .

Allgemein: Zusammenhang ( = Korrelation) zwischen X und Y desto größer,


je besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen
lässt (oder umgekehrt).

Wichtige Unterscheidung
▶ Korrelation bedeutet nicht notwendig Kausalität (Beziehung zwischen Ursache
und Wirkung oder Aktion und Reaktion)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 103 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Korrelation und Kausalität

Es gilt: X −→ Y
X ist Ursache von Y ⇒ X und Y korrelieren ⇓
X ←→ Y

Aber: X −→ Y
X und Y korrelieren ⇏ X ist Ursache von Y ̸⇑ (gilt nicht)

X ←→ Y

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 104 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Korrelation und Kausalität
X ist Ursache von Y ⇒ X und Y korrelieren
X und Y korrelieren ⇏ X ist Ursache von Y

Verschiedene
Korrelationsquellen
möglich

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 105 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten
Zusammenhang (=Korrelation) zwischen X und Y desto größer, je besser sich der
Wert von Y unter Kenntnis des Werts von X vorhersagen lässt (oder umgekehrt).

Y Wert von Y lässt sich bei Kenntnis


P
y (1) y (2) ... y (K ) von X umso besser vorhersagen, je
x(1) fy ;1|1 fy ;2|1 ... fy ;K |1 1 stärker die bedingte Verteilung
fX |Y von Y gegeben X von der
x(2) fy ;1|2 fy ;2|2 ... fy ;K |2 1
Randverteilung f·Y von Y
.. .. .. ..
X . . . . abweicht.
x(J) fy ;1|J fy ;2|J ... fy ;K |J 1
f·1 f·2 ... f·K

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 106 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten
Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je stärker die
bedingte Verteilung fY |X von Y gegeben X von der Randverteilung f•Y von Y
abweicht.

Zusammenhang minimal, falls


Y fy ;k|j = f·j für alle j ∈ {1, . . . , J}
P
y (1) y (2) ... y (K ) und k ∈ {1, . . . , K }
x(1) f·1 f·2 ... f·K 1
x(2) f·1 f·2 ... f·K 1
.. .. .. ..
X . . . .
x(J) f·1 f·2 ... f·K 1
f·1 f·2 ... f·K

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 107 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten
Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je stärker die
bedingte Verteilung fY |X von Y gegeben X von der Randverteilung f•Y von Y
abweicht.

Zusammenhang maximal, falls es


Y für alle j ∈ {1, . . . , J} ein
P
y (1) y (2) ... y (K ) k ∈ {1, . . . , K } mit fy ;k|j = 1 gibt
x(1) 0 1 ... 0 1
x(2) 0 0 ... 1 1
.. .. .. ..
X . . . .
x(J) 1 0 ... 0 1
f·1 f·2 ... f·K

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 108 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten
Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je stärker die
bedingte Verteilung fY |X von Y gegeben X von der Randverteilung f•Y von Y
abweicht.

Y Ein Maß, dass desto größer wird,


P
y (1) y (2) ... y (K ) je größer die Abweichung der
x(1) fy ;1|1 fy ;2|1 ... fy ;K |1 1 bedingten Verteilung fY |X von der
Randverteilung f·Y ist, ist also ein
x(2) fy ;1|2 fy ;2|2 ... fy ;K |2 1
sinnvolles Zusammenhangsmaß.
.. .. .. ..
X . . . .
x(J) fy ;1|J fy ;2|J ... fy ;K |J 1
f·1 f·2 ... f·K

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 109 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten
Ein Maß, dass desto größer wird, je größer die Abweichung der bedingten
Verteilung fY |X von der Randverteilung Y·Y ist, ist also ein sinnvolles
Zusammenhangsmaß.

Y Wären die bedingte und die


P
y (1) y (2) ... y (K ) Randverteilung identisch, so würde
x(1) f0;11 f0;12 ... f0;1K 1 ein Anteil von f0;jk = f·k · fj· an den
N Daten in die Kategorie
x(2) f0;21 f0;22 ... f0;2K 1
(x(j), y (k)) fallen.
.. .. .. ..
X . . . .
Dieser Fall wird als empirische
x(J) f0;J1 f0;J2 ... f0;KJ 1
Unabhängigkeit von X und Y
f·1 f·2 ... f·K bezeichnet.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 110 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten
Ein Maß, dass desto größer wird, je größer die Abweichung der bedingten
Verteilung fY |X von der Randverteilung Y·Y ist, ist also ein sinnvolles
Zusammenhangsmaß.

Y Womit würden bei Unabhängigkeit


P
y (1) y (2) ... y (K )
x(1) v11 v12 ... v1K N1· vjk = f·k · fj· · N
N·k · Nj· · N N·k · Nj·
x(2) v21 v22 ... v2K N2· = =
.. .. .. .. N ·N N
X . . . .
Beobachtungen in der Kategorie
x(J) vJ1 vJ2 ... vJK NJ· (x(j), y (k)) erwartet.
P
N·1 N·2 ... N·K

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 111 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten Je größer die beobachteten Anzahlen Njk von den erwarteten
vjk abweichen, desto mehr unterscheiden sich bedingte und Randverteilungen. Ein
Maß, dass auf der quadratischen Abweichung der erwarteten von den
beobachteten Häufigkeiten basiert, ist die χ2 -Größe
K
J X
X (Njk − vjk )2 Nj· N·k
χ2 = , vjk =
vjk N
j=1 k=1

Y
y (1) y (2) ... y (K )
(N11 − v11 )2 (N12 − v12 )2 (N1K − v1K )2
P
x(1) ...
x(2) (N21 − v21 )2 (N22 − v22 )2 ... (N2K − v2K )2
.. .. .. ..
X . . . .
x(J) (NJ1 − vJ1 )2 (NJ2 − vJ2 )2 ... (NJK − vJK )2
χ2
P

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 112 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten: die χ2 -Größe
J X
K
X (Njk − vjk )2 Nj· N·k
χ2 = , vjk =
vjk N
j=1 k=1

Die χ2 -Größe erfüllt die Forderung, desto größer zu werden, je größer die
Abweichung der bedingten Verteilung fY |X von der Randverteilung f·Y ist.
J X
K N N 2 J X K
2
X Njk − j·N ·k N X (fjk N − fj· f·k N)2
χ = =
Nj· N·k fj· f·k N
j=1 k=1 j=1 k=1
J X
K J XK Nf 2 fjk − f
2
X N(fjk − fj· f·k )2 X j· fj· ·k
= =
fj· f·k fj· f·k
j=1 k=1 j=1 k=1

K
J X
X Nfj· (fy ;k|j − f·k )2
=
f·k
j=1 k=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 113 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten: die χ2 -Größe
J X
K J X
K
X (Njk − vjk )2 X Njk2  Nj· N·k
χ2 = =N − 1 , vjk =
vjk Nj· N·k N
j=1 k=1 j=1 k=1

Es gilt: 0 ≤ χ2 ≤ N(min{J, K } − 1)

Beweis:
0 ≤ χ2 klar wegen Nj· > 0, N·k > 0, (Njk − vjk )2 ≥ 0

0 = χ2 , wenn Njk = vjk , d.h. wenn alle bedingten Häufigkeiten den unter
Unabhängigkeit erwarteten Häufigkeiten entsprechen.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 114 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten: die χ2 -Größe
J X
K J X
K
X (Njk − vjk )2 X Njk2  Nj· N·k
χ2 = =N − 1 , vjk =
vjk Nj· N·k N
j=1 k=1 j=1 k=1

Wann gilt: χ2 = N(min{J, K } − 1) ?

Beweisskizze: Sei o.B.d.A. K ≤ J.


Dann gilt für alle k = 1, . . . , K und j = 1, . . . , J mit Njk > 0:
J X
K
X Njk2 Njk
=K ⇔ =1 für ein kj ,
Nj· N·k Nj·
j=1 k=1

d.h. χ2 wird maximal, wenn es zu jedem j ein kj mit fy ;kj |j = 1 gibt.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 115 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten: die χ2 -Größe
J X
K J X
K
X (Njk − vjk )2 X Njk2  Nj· N·k
χ2 = =N − 1 , vjk =
vjk Nj· N·k N
j=1 k=1 j=1 k=1

Es gilt: 0 ≤ χ2 ≤ N(min{J, K } − 1)

(Korrigierter) Kontingenzkoeffizient nach Pearson:


s
χ2 min{J, K }
C= 2
∈ [0, 1]
χ + N min{J, K } − 1

Eliminiert Abhängigkeit des Koeffizienten vom Stichprobenumfang N und von der


Dimension min{J, K }.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 116 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten: Beispiel Bearbeitung von Softwareaufgaben

Njk

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 117 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten: Beispiel Bearbeitung von Softwareaufgaben

vjk

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 118 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten: Beispiel Bearbeitung von Softwareaufgaben

(Njk − vjk )2

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 119 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten: Beispiel Bearbeitung von Softwareaufgaben

(Njk − vjk )2 /vjk

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 120 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten: Beispiel Bearbeitung von Softwareaufgaben
J X
K
X (Njk − vjk )2
χ2 =
vjk
j=1 k=1
1 101
= (4 + 6 + 32 + 6 + 0 + 18 + 6 + 2 + 2 + 12 + 1 + 12) = ≈ 8.417
12 12
(Njk − vjk )2 /vjk

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 121 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Nominale Daten: Beispiel Bearbeitung von Softwareaufgaben
s r r
2 101 χ2 min{J, K } 101 · 12 3 303
χ = , C= 2
= · = ≈ 0.786
12 χ + N min{J, K } − 1 12 · 245 2 490

(Njk − vjk )2 /vjk

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 122 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Quantitative Daten

Allgemein: Zusammenhang (=Korrelation) zwischen Y und X desto größer, je


besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt
(oder umgekehrt).

Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je mehr ein
hoher Wert von X einen hohen Wert von Y impliziert (positiver Zusammenhang)
bzw. je mehr ein hoher Wert von X einen niedrigen Wert von Y impliziert
(negativer Zusammenhang).

Ein sinnvolles Zusammenhangsmaß für ordinale Daten sollte also im Absolutwert


hoch sein, wenn hohe Werte von X mit hohen bzw. niedrigen Werten von Y
einhergehen und niedrig, wenn Paare von hohen und hohen, hohen und niedrigen,
niedrigen und hohen sowie niedrigen und niedrigen X - und Y -Werten in gleichem
Maße auftreten.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 123 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Quantitative Daten

Allgemein: Zusammenhang (=Korrelation) zwischen Y und X desto größer, je


besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt
(oder umgekehrt).
N
1 X
Kovarianz: sxy = (xn − x̄)(yn − ȳ )
N − 1 n=1

sxy > 0, wenn hohe Werte von X in hohem Maße mit hohen Werten von Y
einhergehen (Positive Korrelation)

sxy < 0, wenn hohe Werte von X in hohem Maße mit niedrigen Werten von Y
einhergehen (Negative Korrelation)

sxy = 0, wenn hohe Werte von X in gleichem Maße mit hohen Werten wie mit
niedrigen Werten von Y einhergehen (Unkorreliertheit)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 124 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


N
1
P
Quantitative Daten: Kovarianz: sxy = N−1 (xn − x̄)(yn − ȳ )
n=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 125 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


N
1
P
Quantitative Daten: Kovarianz: sxy = N−1 (xn − x̄) (yn − ȳ )
n=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 126 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Quantitative Daten:
Kovarianz:
N N
1 X 1 X  N
sxy = (xn − x̄)(yn − ȳ ) = xn yn − N x̄ ȳ = (xy − x̄ · ȳ )
N − 1 n=1 N − 1 n=1 N −1

Beweis analog zu Beweis von dx2 = x 2 − x̄ 2 :


N N
1 X 1 X
sxy = (xn − x̄)(yn − ȳ ) = (xn yn − xn ȳ − x̄yn + x̄ · ȳ )
N − 1 n=1 N − 1 n=1
N N N
1 X 1 X  1 X  N
= xn yn − xn ȳ − x̄ yn + x̄ · ȳ
N − 1 n=1 N − 1 n=1 N − 1 n=1 N −1

N N N N N
= xy − x̄ · ȳ − x̄ · ȳ + x̄ · ȳ = (xy − x̄ · ȳ ) □
N −1 N −1 N −1 N −1 N −1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 127 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Quantitative Daten: Kovarianz: −sx sy ≤ sxy ≤ sx sy

Beweis: Spezialfall der Cauchy-Schwarz-Ungleichung:

Für (an , bn ) ∈ R2 gilt:


N
P 2 N N N
P 2 N N
an2 · bn2 =⇒ (xn − x̄)2 · (yn − ȳ )2
P P P P
an bn ≤ (xn − x̄)(yn − ȳ ) ≤
n=1 n=1 n=1 n=1 n=1 n=1

s s
N
P N
P N
P  N
P N
P
⇔− (xn − x̄)2 · (yn − ȳ )2 ≤ (xn − x̄)(yn − ȳ ) ≤ (xn − x̄)2 · (yn − ȳ )2
n=1 n=1 n=1 n=1 n=1

s s   s s
N N N N N
(xn −x̄)2 (yn −ȳ )2 (xn −x̄)2 (yn −ȳ )2
P P P P P
(xn −x̄)(yn −ȳ )
n=1 n=1 n=1 n=1 n=1
⇔− N−1 N−1
≤ N−1
≤ N−1 N−1

⇔ −sx sy ≤ sxy ≤ sx sy □

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 128 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Quantitative Daten: Korrelationskoeffizient nach Bravais-Pearson
sxy
rxy = − sx sy ≤ sxy ≤ sx sy =⇒ −1 ≤ rxy ≤ 1
sx sy

Gleichheitsbedingung bei der Cauchy-Schwarz-Ungleichung:


Für (an , bn ) ∈ R2 gilt:
P N 2 N N
an2 · bn2 ⇔ es gibt eine Konstante d mit bn = d · an ∀n
P P
an bn =
n=1 n=1 n=1

=⇒ rxy ∈ {−1, 1} ⇔ (yn − ȳ ) = d · (xn − x̄)


⇔ yn = c + d · xn mit c = ȳ − d x̄

Das heißt, |rxy | ist genau dann 1, wenn alle xn und yn auf einer Geraden liegen.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 129 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


N
1
P
Quantitative Daten: Kovarianz: sxy = N−1 (xn − x̄) (c + dxn − c + d x̄)
n=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 130 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Quantitative Daten: Korrelationskoeffizient nach Bravais-Pearson
Nicht-linearer monotoner Zusammenhang

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 131 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Quantitative Daten: Nicht-linearer monotoner Zusammenhang
Übergang zu Rängen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 132 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Einschub: Ränge
Gegeben sei ein Merkmal X mit Urliste x1 , . . . , xN mit mindestens ordinalem
Skalenniveau. Dann bezeichnet der Rang R(xn ) einer Beobachtung xn die Position
der Beobachtung in der geordneten Liste x(1) ≤ x(2) ≤ . . . ≤ x(N) .

N PN
X
i=1 I(xi =xn ) −1
R(xn ) := 1 + I(xi <xn ) + , ∀k = 1, ..., k
2
i=1

Liegen mehrere identische Beobachtungen (Bindungen) vor, so werden in der Regel


Durchschnittsränge vergeben, d.h. allen Beobachtungen wird der gleiche Rang
zugewiesen: der Mittelwert über die Ränge, die diesen Beobachtungen zuständen.
Beispiel:
xn 5.5 2.6 3.7 4.4 2.2 3.8 3.7 4.4 3.5 4.4
R(xn ) 10 2 4.5 8 1 6 4.5 8 3 8

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 133 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Quantitative Daten: Nicht-linearer monotoner Zusammenhang
Übergang zu Rängen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 134 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Quantitative Daten
Absolute Korrelation von Rängen bei monotonem Zusammenhang immer 1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 135 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Quantitative Daten

Falls X und Y mindestens ordinales Skalenniveau haben, so wird der


Bravais-Pearson-Korrelationskoeffizient der Ränge R(X ) und R(Y ) von X und Y
Sp
der Spearman’sche Rangkorrelationskoeffizient rxy von X und Y genannt:

N
P  
R(xn ) − R(x) R(yn ) − R(y )
sR(X )R(Y )
Sp
rxy = rR(X )R(Y ) = = s n=1
sR(X ) sR(Y ) PN 2 PN 2
R(xn ) − R(x) R(yn ) − R(y )
n=1 n=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 136 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Quantitative Daten
Spearman’scher Rangkorrelationskoeffizient
Falls keine Bindungen auftreten, d.h. R(xj ) ̸= R(xk ) und R(yj ) ̸= R(yk ) für alle
j ̸= k, so gilt:
N
Sp 6 X 2
rxy =1− 2
R(xn ) − R(yn )
N(N − 1) n=1

Beweisansatz:
N N N
X X X N(N + 1)
R(xn ) = R(yn ) = n=
n=1 n=1 n=1
2
N N N
X X X N(N + 1)(2N + 1)
und R(xn )2 = R(yn )2 = n2 =
n=1 n=1 n=1
6

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 137 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Ordinale Daten

Da die Beobachtungen von X und Y sich anordnen lassen, können Ränge


bestimmt und somit der Spearman’scher Rangkorrelationskoeffizient
anwenden. Dies ist jedoch nur sinnvoll, wenn J und K ausreichend groß sind.
Bei kleinem J und K lässt sich unter Vernachlässigung der Ordnung der
Kontingenzkoeffizient nach Pearson berechnen.
Gemischte Daten

Ordinal + Nominal: Kontingenzkoeffizient nach Pearson


Ordinal + Quantitativ: Spearman’scher Rangkorrelationskoeffizient
Nominal + Quantitativ: Klassieren des Quantitativen Merkmals, dann
Kontingenzkoeffizient nach Pearson

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 138 / 545
4 Bivariate Daten 4.2 Zusammenhangsmaße

4.2 Bivariate Daten: Zusammenhangsmaße


Ordinale/Quantitative Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 139 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Korrelation und Linearität:
Der Korrelationskoeffizient ist auch deshalb so beliebt, weil er ein Maß für die
Linearität eines Zusammenhangs darstellt.

Es gilt rxy = 1, genau wenn die Punkte (xi , yi ) auf einer Geraden liegen, und
es gilt rxy = 0, wenn keine lineare Beziehung besteht.

Um den Grad der Linearität eines Zusammenhangs quantifizieren zu können,


ist es notwendig, sich auf ein Optimalitätskriterium zu einigen, nach dem
man eine optimal an die Punkte angepasste Gerade“ bestimmt.

Das beliebteste Kriterium ist das Prinzip der Kleinsten Quadrate, nach dem
die Gerade so bestimmt wird, dass die Quadratsumme derjenigen Abstände
der Punkte von der Geraden minimal werden, die senkrecht zu der x-Achse
gemessen werden.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 140 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Quantitative Daten

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 141 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Quantitative Daten

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 142 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Quantitative Daten: Methode der kleinsten Quadrate

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 143 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Quantitative Daten: Methode der kleinsten Quadrate
N
(yn − c − dxn )2 ist minimal für
P
Die Fehlerquadratsumme Q(c, d) =
n=1
sxy sxy
d= und c = ȳ − x̄
sx2 sx2
Beweis:

N
∂ X !
Q(c, d) = 2(c + dxn − yn ) = 2Nc + 2dN x̄ − 2N ȳ = 0 ⇔ c + d x̄ − ȳ = 0
∂c n=1
N N N
∂ X X X !
Q(c, d) = 2(c + dxn − yn )xn = 2Nc x̄ + 2d xn2 − 2 xn yn = 0
∂d n=1 n=1 n=1
N
X N
X
⇔ cN x̄ + d xn2 − xn yn = 0
n=1 n=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 144 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Beweis (Fortsetzung)

N
X N
X
(1) c+d x̄ − ȳ = 0 ⇔ c = ȳ − d x̄ (2) cN x̄ + d xn2 − xn yn = 0
n=1 n=1
N
X N
X
(1) in (2) (ȳ − d x̄)N x̄ + d xn2 − xn yn = 0
n=1 n=1
N
X  XN
⇔d xn2 − N x̄ 2 = xn yn − N x̄ · ȳ
n=1 n=1
N
P
xn yn − N x̄ · ȳ N
N−1 (xy − x̄ · ȳ ) sxy
⇔ d = n=1  = = (3)
PN
2 2 N
 P
1
N
2 − x̄ 2
 sx2
xn − N x̄ N−1 N x n
n=1 n=1
sxy
(3) in (1) c = ȳ − x̄
sx2

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 145 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Quantitative Daten: Methode der kleinsten Quadrate

Beweis (Fortsetzung)

N N
∂ ∂ X X
Q(c, d) = 2Nc + 2dN x̄ − 2N ȳ , Q(c, d) = 2Nc x̄ + 2d xn2 − 2 xn yn
∂c ∂d n=1 n=1
N N
∂2 ∂2 X ∂2 X
Q(c, d) = 2N, Q(c, d) = 2 xn , Q(c, d) = 2 xn2
∂c∂c ∂c∂d n=1
∂d∂d n=1
N
 
P
 2N 2 xn  XN
2
X N 2
det  N
 n=1
N
 = 4N x n − 4 x n = 4(N − 1)Nsx2 > 0 □
P P 2
2 xn 2 xn n=1 n=1
n=1 n=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 146 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Quantitative Daten: Methode der kleinsten Quadrate
Je größer die absolute Korrelation, desto kleiner die Fehlerquadratsumme
sxy sxy
d = 2 und c = ȳ − 2 x̄
sx sx

N N  N
X X sxy sxy 2 X sy sy 2
ε2n = yn − (ȳ − 2 x̄) − 2 xn = yn − (ȳ − rxy x̄) − rxy xn
n=1 n=1
sx sx n=1
sx sx
N  2
X sy
= (yn − ȳ ) − rxy (xn − x̄)
n=1
sx
N   s 2
X sy y

= (yn − ȳ )2 − 2rxy (yn − ȳ )(xn − x̄) + rxy (xn − x̄)2
n=1
sx sx
 sy  sy 2 2
 
= (N − 1) · sy2 − 2rxy sxy + rxy sx = (N − 1) · (sy2 − 2rxy
2 2 2 2
sy + rxy sy )
sx sx
= (N − 1) · (sy2 − rxy
2 2
sy ) □
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 147 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Quantitative Daten: Methode der kleinsten Quadrate
Je größer die absolute Korrelation, desto kleiner die Fehlerquadratsumme

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 148 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Quantitative Daten: Methode der kleinsten Quadrate
Je größer die absolute Korrelation, desto kleiner die Fehlerquadratsumme

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 149 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Quantitative Daten: Methode der kleinsten Quadrate
Je größer die absolute Korrelation, desto kleiner die Fehlerquadratsumme

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 150 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Quantitative Daten: Methode der kleinsten Quadrate
Je größer die absolute Korrelation, desto kleiner die Fehlerquadratsumme

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 151 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Quantitative Daten: Beispiel Bearbeitung von Softwareaufgaben

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 152 / 545
4 Bivariate Daten 4.3 Lineare Regression

4.3 Bivariate Daten: Lineare Regression


Zusammenfassung

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 153 / 545
Wahrscheinlichkeitstheorie
5 Wahrscheinlichkeitstheorie

5.0 Wahrscheinlichkeitstheorie
Bisher: Empirische Statistik, Beschreibende Statistik
Es liegt bereits ein Datensatz vor, wie lässt sich dieser beschreiben?
Reduktion der Daten auf eine Darstellungsform, die vom menschlichen Auge
und Gehirn erfasst werden kann (ob Tabelle, Grafik oder Maßzahl)

Jetzt: Wahrscheinlichkeitstheorie
Daten haben immer einen Ursprung, einen sogenannten datengenerierenden
Prozess, oder auch, ein Zufallsexperiment (z.B. ein Würfelwurf, das
Arbeitsverhalten, das Userverhalten, ...)
Der Prozess erzeugt zufällige Beobachtungen
Ziel der Wahrscheinlichkeitstheorie: Mathematische Beschreibung dieses
zufälligen Prozesses, um Aussagen über diesen treffen zu können
Anwendungen: Vorhersage von künftigen Realisation des Prozesses, Vergleich
von verschiedenen Prozessen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 155 / 545
5 Wahrscheinlichkeitstheorie

5.0 Wahrscheinlichkeitstheorie
Was ist Zufall? oder, besser: Gibt es Zufall?

Annahme: Wenn sämtliche Parameter eines Prozesses bekannt sind, dann lässt
sich das Ergebnis des Prozesses exakt berechnen.

Beispiel: Würfelwurf: Wenn die exakte Beschaffenheit der Würfeloberfläche, der


Handoberfläche, der Tischoberfläche bekannt sind, der genaue Abwurfwinkel und
Kraftaufwand beim Wurf, dann lässt sich das Ergebnis das Wurfes bestimmen.
Allerdings ist dies in vielen Fällen nicht möglich, zum Beispiel:
Die meisten Parameter des Prozesses sind unbekannt
Wir haben die zu Grunde liegenden Prozesse noch nicht verstanden
Es fehlen die Rechenkapazitäten, um den Prozess exakt vorherzusagen

Zufall
Zufall ist ein Konzept zur Beschreibung von Prozessen, die so kompliziert sind,
dass wir ihren Ausgang nicht beschreiben (vorhersagen) können.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 156 / 545
5 Wahrscheinlichkeitstheorie

5.0 Wahrscheinlichkeitstheorie
Beispiele:
Vorhersage von neuen Beobachtungen:
Fragestellung: Welchen Wert wird die nächste Beobachtung annehmen?
Exakte Vorhersage unmöglich, weil der Prozess zufällig ist. Aber es sind z.B.
Aussagen über Lage und Streuung möglich
Beschreibung eines Prozesses:
Fragestellung: Ist in der Milchtüte tatsächlich exakt 1 Liter Milch?
Die Füllmenge einer Packung ist zufällig (Maschinen arbeiten ungenau).
Keine Packung wird exakt mit 1 Liter befüllt sein (stetiges Merkmal).
Sind die Abweichungen noch im Rahmen, oder zu groß?
Vergleich von zwei Prozessen:
Fragestellung: Wirkt ein Impfstoff?
1. Prozess: Ein Mensch lebt sein Leben, ungeimpft
2. Prozess: Ein Mensch lebt sein Leben, wurde aber geimpft
Ist die Wahrscheinlichkeit zu erkranken unterschiedlich?

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 157 / 545
5 Wahrscheinlichkeitstheorie

5.0 Wahrscheinlichkeitstheorie
Fahrplan für die nächsten Wochen:
Zunächst: Definition der mengentheoretischen Grundlagen
→ Siehe Logik-Vorlesung, Mengenoperatoren und logische Operatoren
verhalten sich ähnlich, Rechenregeln sind zumeist übertragbar.
Definition eines Wahrscheinlichkeitsmaßes
→ Ordne einer Menge eine Wahrscheinlichkeit zu
Definition einer Zufallsvariablen und der Verteilung einer Zufallsvariablen
→ Bilde aus dem Raum der Zufallsereignisse in den Raum der reellen Zahlen
ab, welche Zahlen werden mit welcher Wahrscheinlichkeit realisiert?
Definition wichtiger Verteilungen
Bedingte Verteilungen und stochastische Unabhängigkeit
→ Vergleiche empirische Unabhängigkeit (Kapitel 4)
Kennzahlen von Zufallsvariablen: Erwartungswert und Varianz
→ Vergleiche Lage und Streuungsmaße

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 158 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Elementare Begriffe

Zufallsexperiment Datenerhebungsprozess mit nicht vorhersagbarem Ausgang

Ergebnis ω Elementarer Ausgang eines Zufallsexperiments

Grundraum Ω Menge aller möglichen Ergebnisse


Ω = {ω|ω ist Ergebnis des Zufallsexperiments}

Ereignis A Menge von Ergebnissen, d.h. Teilmenge von Ω

Elementarereignis Einelementiges Ereignis

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 159 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Beispiel

Zufallsexperiment Einfacher Würfelwurf

Ergebnisse ω1 = 1, ω2 = 2, ω3 = 3, ω4 = 4, ω5 = 5, ω6 = 6

Grundraum Ω = {1, 2, 3, 4, 5, 6}

Ereignisse A = {2, 4, 6}, B = {1, 3, 5}, C = {1, 2, 3, 4, 5},


D = {3, 4, 5, 6}, E = {2, 3, 5}, F = {1, 2, 3, 4, 5, 6} = Ω

Elementarereignisse {1}, {2}, {3}, {4}, {5}, {6}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 160 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Beispiele

Experiment Grundraum Ω Ergebnis ω


Roulette {0, 1, . . . , 36} Zahlenfeld der Kugel
S
Würfeln: Warten auf 6 N {∞} Anzahl Würfe bis zur ersten 6
6 aus 49 {(ω1 , . . . , ω6 )| Geordnete Nummern der
1 ≤ ω1 < . . . < ω6 ≤ 49} gezogenen Kugeln
Super Mario Speedrun [tmin , tmax ] Spielzeit t
Mausaktivität {ω : [tmin , tmax ] → Koordinaten und Clickzustand
(1, . . . , 1920)× (nicht, links, rechts)
(1, . . . , 1080) × (0, 1, 2)} des Mauszeigers zu jeder Zeit
Wartezeit bis zum [0, ∞) Zeit zwischen zwei Anfragen
nächsten Kunden

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 161 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen

ω∈A

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 162 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen: Beispiel Würfelwurf

2 ∈ {2, 4, 6}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 163 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen
Schnittereignis zweier Mengen

A ∩ B = {ω ∈ Ω|ω ∈ A und ω ∈ B}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 164 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen: Beispiel Würfelwurf
Schnittereignis zweier Mengen

4 ∈ {2, 4, 6} ∩ {4, 5, 6}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 165 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen
Schnittereignis beliebig vieler Mengen
T
Ai = {ω ∈ Ω|ω ∈ Ai für i ∈ I }
i∈I

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 166 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen: Beispiel Würfelwurf
Schnittereignis beliebig vieler Mengen

4 ∈ {2, 4, 6} ∩ {4, 5, 6} ∩ {1, 2, 3, 4}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 167 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen
Vereinigungsereignis zweier Mengen

A ∪ B = {ω ∈ Ω|ω ∈ A und/oder ω ∈ B}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 168 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen: Beispiel Würfelwurf
Vereinigungsereignis zweier Mengen

2 ∈ {2, 4, 6} ∪ {4, 5, 6}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 169 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen
Vereinigungsereignis beliebig vieler Mengen
S
Ai = {ω ∈ Ω|ω ∈ Ai für mindestens ein i ∈ I }
i∈I

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 170 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen: Beispiel Würfelwurf
Vereinigungsereignis beliebig vieler Mengen

5 ∈ {2, 4, 6} ∪ {4, 5, 6} ∪ {1, 2, 3, 4}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 171 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen
Teilereignis

A ⊂ B (bzw. A ⊆ B)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 172 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen: Beispiel Würfelwurf
Teilereignis

{5, 6} ⊂ {4, 5, 6}

Augenzahl 5 ist größer als 4 und damit auch größer als 3.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 173 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen
Differenzereignis

B \ A = {ω ∈ Ω|ω ∈ B und ω ∈
/ A}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 174 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen: Beispiel Würfelwurf
Differenzereignis

5 ∈ {4, 5, 6} \ {2, 4, 6}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 175 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen
Komplementärereignis

Ac = Ω \ A = {ω ∈ Ω|ω ∈
/ A}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 176 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Bezeichnungen: Beispiel Würfelwurf
Komplementärereignis

5 ∈ {2, 4, 6}c

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 177 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Differenzereignis und Komplementärereignis

/ A} = B ∩ Ac = B \ (A ∩ B)
B \ A = {ω ∈ Ω|ω ∈ B und ω ∈

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 178 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Distributivgesetz

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 179 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Distributivgesetz

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 180 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Distributivgesetz

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 181 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Distributivgesetz

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 182 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Distributivgesetz

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 183 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Distributivgesetz

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 184 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Distributivgesetz

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 185 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Distributivgesetz

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 186 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Distributivgesetz

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 187 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln: Beispiel Würfelwurf
Distributivgesetz

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 188 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Regeln von de Morgan

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 189 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Regeln von de Morgan

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 190 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Regeln von de Morgan

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 191 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Regeln von de Morgan

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 192 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Regeln von de Morgan

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 193 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Regeln von de Morgan

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 194 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Regeln von de Morgan

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 195 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln
Regeln von de Morgan

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 196 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Regeln: Beispiel Würfelwurf
Regeln von de Morgan

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 197 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Zusammenfassung Bezeichnungen

Mathematische Ausformulierte Schreibweise


Schreibweise
ω∈A Ergebnis ω ist in Ereignis A enthalten
A∩B Schnittereignis: Menge aller Ergebnisse, die in A und B enthalten sind
A∩B =∅ A und B sind disjunkt: es gibt kein Ergebnis, das in A und B enthalten ist
A∪B Vereinigungsereignis: Menge aller Ergebnisse, die in A und/oder B
enthalten sind
A⊆B A ist Teilereignis von B: Alle in A enthaltenen Ergebnise sind auch
in B enthalten
B \A Differenzereignis: Menge der Ergebnisse, die in B, aber nicht in A
enthalten sind
Ac = Ω \ A Komplementärereignis: Menge aller Ergebnisse, die nicht in A
enthalten sind

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 198 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Zusammenfassung Regeln

Mathematische Schreibweise Ausformulierte Schreibweise

Distributivgesetze
(A∪B)∩C = (A∩C )∪(B ∩C ) Die Schnittmenge einer zwei Mengen A und B
vereinigenden Menge mit einer weiteren Menge
C ist gleich der Vereinigung der beiden aus C
und jeweils einer der beiden Mengen A und B
gebildeten Schnittmengen.
(A∩B)∪C = (A∪C )∩(B ∪C ) Die Vereinigung der Schnittmenge zweier Men-
gen A und B mit einer weiteren Menge C ist
gleich der Schnittmenge der beiden aus C und
jeweils einer der beiden Mengen A und B gebil-
deten Vereinigungen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 199 / 545
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen

5.1 Mengentheoretische Grundlagen


Zusammenfassung Regeln

Mathematische Schreibweise Ausformulierte Schreibweise

Regeln von de Morgan


(A ∩ B)c = Ac ∪ B c Das Komplementärereignis der Schnittmenge
zweier Mengen ist gleich der Vereinigung der
Komplementärereignisse der zwei Mengen.
(A ∪ B)c = Ac ∩ B c Das Komplementärereignis der Vereinigung
zweier Mengen ist gleich der Schnittmenge der
Komplementärereignisse der zwei Mengen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 200 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Zusammenfassung Regeln

Ergebnis und Ereignis Teilereignis Vereinigungsereignis


ω∈A A⊆B A∪B
Schnittereignis Differenzereignis Distributivgesetze
A∩B B \A (A ∪ B) ∩ C = (A ∩ B) ∪ (B ∩ C )
(A ∩ B) ∪ C = (A ∪ C ) ∩ (B ∪ C )
Disjunkte Ereignisse Komplementärereignis Regeln von de Morgan
A∩B =∅ Ac = Ω \ A (A ∩ B)c = Ac ∪ B c
(A ∪ B)c = Ac ∩ B c

Grundidee nächster Schritt:


Ordne jeder Menge A eine Wahrscheinlichkeit P(A) zu, mit der dieses
Ereignis eintritt.
Welche Eigenschaft muss das sogenannte Wahrscheinlichkeitsmaß P erfüllen?

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 201 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Kolmogorov-Axiome, Wahrscheinlichkeitsmaß
Seien Ω ein Grundraum und A die Menge aller Ereignisse über Ω. (D.h. A ist die
Potenzmenge aller Ergebnisse.) Dann heißt die Abbildung

P : A → [0, 1], A 7→ P(A),

Wahrscheinlichkeitsmaß, falls sie folgende Eigenschaften


(Kolmogorov-Axiome) besitzt:
1 0 ≤ P(A) für jedes Ereignis A ∈ A
2 P(Ω) = 1
3 P(A ∪ B) = P(A) + P(B), für A, B ∈ A und A ∩ B = ∅
Der Wert P(A) für ein Ereignis A heißt Wahrscheinlichkeit von A.
Das Tripel (Ω, A, P) heißt Wahrscheinlichkeitsraum

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 202 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Einschub: σ-Algebra
Tatsächlich genügt hier für die Menge A eine etwas schwächere Forderung: A
muss nicht unbedingt die Potenzmenge über alle Ergebnisse sein, sondern kann
eine beliebige σ-Algebra sein.
Eine σ-Algebra ist ein Mengensystem A (eine Menge von Mengen) mit den
folgenden Eigenschaften:
Grundmenge ist in A enthalten: Ω ∈ A
A ist stabil bezüglich Komplementbildung: A ∈ A ⇒ Ac ∈ A
A ist stabil bezüglich endlicher Vereinigungen:
Sn
Ai ∈ A, i = 1, ..., n ⇒ Ai ∈ A
i=1

Praktisch wird A in einem Wahrscheinlichkeitsraum aber fast immer als die


entsprechende Potenzmenge gesetzt, daher ignorieren wir das mit der σ-Algebra in
dieser Vorlesung.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 203 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Kolmogorov-Axiome, Wahrscheinlichkeitsmaß: Beispiel Würfelwurf
Ω = {1, 2, 3, 4, 5, 6}

A= ∅, {1}, {2}, {3}, {4}, {5}, {6},

{1, 2}, {1, 3}, {1, 4}, {1, 5}, {1, 6}, {2, 3}, {2, 4}, {2, 5}, {2, 6}, {3, 4}, {3, 5}, {3, 6},
{4, 5}, {4, 6}, {5, 6},
{1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 2, 6}, {1, 3, 4}, {1, 3, 5}, {1, 3, 6}, {1, 4, 5}, {1, 4, 6}, {1, 5, 6},
{2, 3, 4}, {2, 3, 5}, {2, 3, 6}, {2, 4, 5}, {2, 4, 6}, {2, 5, 6}, {3, 4, 5}, {3, 4, 6}, {3, 5, 6}, {4, 5, 6},
{1, 2, 3, 4}, {1, 2, 3, 5}, {1, 2, 3, 6}, {1, 2, 4, 5}, {1, 2, 4, 6}, {1, 2, 5, 6}, {1, 3, 4, 5}, {1, 3, 4, 6}
{1, 3, 5, 6}, {1, 4, 5, 6}, {2, 3, 4, 5}, {2, 3, 4, 6}, {2, 3, 5, 6}, {2, 4, 5, 6}, {3, 4, 5, 6},
{1, 2, 3, 4, 5}, {1, 2, 3, 4, 6}, {1, 2, 3, 5, 6}, {1, 2, 4, 5, 6}, {1, 3, 4, 5, 6}, {2, 3, 4, 5, 6},

{1, 2, 3, 4, 5, 6}

P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}) = 1/6

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 204 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Kolmogorov-Axiome, Wahrscheinlichkeitsmaß: Beispiel Würfelwurf (Fortsetzung)

1 0 ≤ P(A) für alle A ∈ A (offensichtlich)


2 P(Ω) = 1 (offensichtlich)
3 P(A ∪ B) = P(A) + P(B), wenn A ∩ B = ∅
Insbesondere: A = {1}, B = {2}, dann ist:
{1} ∩ {2} = ∅
1 1 1
P({1, 2}) = P({1} ∪ {2}) = P({1}) + P({2}) = 6 + 6 = 3

Entsprechend lassen sich dann aus den Elementarereignissen die


Wahrscheinlichkeiten für sämtliche anderen Ereignisse herleiten.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 205 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen
P : A → [0, 1], A 7→ P(A)
1 0 ≤ P(A) für jedes Ereignis A ∈ A
2 P(Ω) = 1
3 A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B)


S  P∞
(i) P Ai = P(Ai ) für alle paarweise disjunkten Ereignisse Ai ∈ A
i=1 i=1

Beweis:

[  ∞
[ ∞
[ 
P Ai = P(A1 ∪ Ai ) = P(A1 ) + P Ai
3.
i=1 i=2 i=2

[  ∞
X
= P(A1 ) + P(A2 ) + P Ai = ... = P(Ai )
3.
i=3 i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 206 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen
P : A → [0, 1], A 7→ P(A)

1 0 ≤ P(A) für jedes Ereignis A ∈ A


2 P(Ω) = 1
3 A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B)

(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A)


Beweis:

P(B) = P((B \ A) ∪ A) = P(B \ A) + P(A) ⇒ P(B \ A) = P(B) − P(A) □


3.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 207 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen
P : A → [0, 1], A 7→ P(A)

1 0 ≤ P(A) für jedes Ereignis A ∈ A


2 P(Ω) = 1
3 A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B)

(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Achtung: A ∩ B ̸= ∅!

Beweis:
A ∪ B = [A \ (A ∩ B)] ∪ [B \ (A ∩ B)] ∪ [A ∩ B]

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 208 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen
Beweis: (Fortsetzung)

A ∪ B = [A \ (A ∩ B)] ∪ [B \ (A ∩ B)] ∪ [A ∩ B]
⇒ P([A ∪ B]) = P([A \ (A ∩ B)] ∪ [B \ (A ∩ B)] ∪ [A ∩ B])
= P([A \ (A ∩ B)]) + P([B \ (A ∩ B)]) + P(A ∩ B)
(i)

= P(A) − P(A ∩ B) + P(B) − P(A ∩ B) + P(A ∩ B)


(ii)

= P(A) + P(B) − P(A ∩ B) □

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 209 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen

(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

(iv) Poincaré-Sylvesterformel
N
S  N
(−1)m+1
P P
P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N

Am Beispiel N = 2:
P(A1 ∪ A2 ) = (−1)1+1 · P(A1 ) + (−1)1+1 · P(A2 ) + (−1)2+1 · P(A1 ∩ A2 )
= P(A1 ) + P(A2 ) − P(A1 ∩ A2

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 210 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen

(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

(iv) Poincaré-Sylvesterformel
N
S  N
(−1)m+1
P P
P An = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N

Für N = 3:

P(A1 ∪ A2 ∪ A3 ) = (−1)1+1 · P(A1 ) + (−1)1+1 · P(A2 ) + (−1)1+1 · P(A3 )


+ (−1)2+1 · P(A1 ∩ A2 ) + (−1)2+1 · P(A1 ∩ A3 ) + (−1)2+1 · P(A2 ∩ A3 )
+ (−1)3+1 · P(A1 ∩ A2 ∩ A3 )
= P(A1 ) + P(A2 ) + P(A3 ) − P(A1 ∩ A2 ) − P(A1 ∩ A3 ) − P(A2 ∩ A3 )
+ P(A1 ∩ A2 ∩ A3 )

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 211 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen

(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

(iv) Poincaré-Sylvesterformel
N
S  N
(−1)m+1
P P
P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N

Für N = 3 : P(A1 ∪ A2 ∪ A3 ) =

P(A1 ) + P(A2 ) + P(A3 ) − P(A1 ∩ A2 ) − P(A1 ∩ A3 ) − P(A2 ∩ A3 )


+ P(A1 ∩ A2 ∩ A3 )

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 212 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen
P : A → [0, 1], A 7→ P(A)

1 0 ≤ P(A) für jedes Ereignis A ∈ A


2 P(Ω) = 1

S  P∞
3 P Ai = P(Ai ) für alle paarweise disjunkten Ereignisse Ai ∈ A
i=1 i=1

(v) P(Ac ) = 1 − P(A)


Beweis:
P(Ac ) = P(Ω \ A) = P(Ω) − P(A) = 1 − P(A) □
(ii)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 213 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen
P : A → [0, 1], A 7→ P(A)

1 0 ≤ P(A) für jedes Ereignis A ∈ A


2 P(Ω) = 1
3 A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B)

(vi) P(∅) = 0
Beweis:
P(∅) = P(Ωc ) = 1 − P(Ω) = 0 □
(v )

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 214 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen
P : A → [0, 1], A 7→ P(A)

1 0 ≤ P(A) für jedes Ereignis A ∈ A


2 P(Ω) = 1
3 A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B)

(vii) A ⊆ B ⇒ P(A) ≤ P(B)


Beweis:

A ⊆ B ⇒ P(B \ A) = P(B) − P(A)


(ii)

⇒ P(A) = P(B) − P(B \ A) ≤ P(B) □


| {z }
≥0

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 215 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Diskreter Wahrscheinlichkeitsraum

Seien Ω = {ω1 , ω2 , . . .} ein endlicher oder abzählbarer unendlicher Grundraum


und P ein Wahrscheinlichkeitsmaß auf Ω. Dann heißt (Ω, A, P) diskreter
Wahrscheinlichkeitsraum.
Für beliebiges Ereignis A ∈ A gilt dann nach (i):
 [  X
P(A) = P {ωi } = P({ωi })
i:ωi ∈A i:ωi ∈A

Laplace-Raum
Treten die Elemente von endlichem Ω = {ω1 , . . . , ω|Ω| } aus einem diskreten
Wahrscheinlichkeitsraum (Ω, A, P) alle mit der selben Wahrscheinlichkeit auf, d.h.
gilt P({ωi }) = 1/|Ω| für i = 1, . . . , |Ω|, so wird (Ω, A, P) auch Laplace-Raum
genannt und die Wahrscheinlichkeit für ein Ereignis A ∈ A kann durch
P(A) = |A|/|Ω| angegeben werden.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 216 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen; Diskreter Wahrscheinlichkeitsraum:
Beispiel: Bearbeitung von Softwareaufgaben

Zufällige Auswahl einer Bearbeitung


→ Ergebnis ω ∈ {e1 , . . . , e12 } = Ω
Elementarwahrscheinlichkeiten
P({ei }) = 1/12, i = 1, . . . , 12

Ereignisse
1 Bearbeiter männlich
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }
2 Gestellte Aufgabe Export
A2 = {e1 , e3 , e5 , e6 , e8 , e9 }
3 Verwendete Version 2.0
A3 = {e5 , e11 , e12 }

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 217 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen

S  ∞
(v) P(Ac ) = 1 − P(A)
P
(i) P Ai = P(Ai ), Ai paarweise disjunkt
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0
(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (vii) A ⊆ B ⇒ P(A) ≤ P(B)
SN  N
(−1)m+1
P P
(iv) P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N

ω ∈ {e1 , . . . , e12 } = Ω
P({ei }) = 1/12, i = 1, . . . , 12
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }
A2 = {e1 , e3 , e5 , e6 , e8 , e9 }
A3 = {e5 , e11 , e12 }

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 218 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen

S  ∞
(v) P(Ac ) = 1 − P(A)
P
(i) P Ai = P(Ai ), Ai paarweise disjunkt
i=1 i=1

(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0


(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (vii) A ⊆ B ⇒ P(A) ≤ P(B)
SN  N
P m+1 P
(iv) P AN = (−1) P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N

ω ∈ {e1 , . . . , e12 } = Ω P(A1 ) = P({e1 } ∪ {e2 } ∪ {e5 } ∪ {e10 } ∪ {e11 } ∪ {e12 })


P({ei }) = 1/12, i = 1, . . . , 12 = P({e1 }) + P({e2 }) + P({e5 })
+ P({e10 }) + P({e11 }) + P({e12 }) = 6/12 = 1/2
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }
A2 = {e1 , e3 , e5 , e6 , e8 , e9 } P(A2 ) = P({e1 } ∪ {e3 } ∪ {e5 } ∪ {e6 } ∪ {e8 } ∪ {e9 })
A3 = {e5 , e11 , e12 } = P({e1 }) + P({e3 }) + P({e5 })
+ P({e6 }) + P({e8 }) + P({e9 }) = 6/12 = 1/2
P(A3 ) = P({e5 } ∪ {e11 } ∪ {e12 })
= P({e5 }) + P({e11 }) + P({e12 }) = 3/12 = 1/4

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 219 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen

S  ∞
(v) P(Ac ) = 1 − P(A)
P
(i) P Ai = P(Ai ), Ai paarweise disjunkt
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0
(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (vii) A ⊆ B ⇒ P(A) ≤ P(B)
SN  N
(−1)m+1
P P
(iv) P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N

ω ∈ {e1 , . . . , e12 } = Ω Wahrscheinlichkeit für eine Bearbeitung, die von einem


P({ei }) = 1/12, i = 1, . . . , 12 Mann mit einer anderen Version als 2.0 durchgeführt wurde

A1 = {e1 , e2 , e5 , e10 , e11 , e12 }


A3 = {e5 , e11 , e12 } ⊂ {e1 , e2 , e5 , e10 , e11 , e12 } = A1
A2 = {e1 , e3 , e5 , e6 , e8 , e9 }
⇒ (ii) P(A1 \ A3 ) = P(A1 ) − P(A3 ) = 1/2 − 1/4 = 1/4
A3 = {e5 , e11 , e12 }
⇒ (vii) 1/4 = P(A3 ) ≤ P(A1 ) = 1/2
P(A1 ) = 1/2
P(A2 ) = 1/2
P(A3 ) = 1/4

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 220 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen

S  ∞
(v) P(Ac ) = 1 − P(A)
P
(i) P Ai = P(Ai ), Ai paarweise disjunkt
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0
(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (vii) A ⊆ B ⇒ P(A) ≤ P(B)
SN  N
(−1)m+1
P P
(iv) P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N

ω ∈ {e1 , . . . , e12 } = Ω Wahrscheinlichkeit für eine Bearbeitung, die Aufgabe Ex-


P({ei }) = 1/12, i = 1, . . . , 12 port hatte und/oder von einem Mann durchgeführt wurde

A1 = {e1 , e2 , e5 , e10 , e11 , e12 }


P(A1 ∪A2 ) = P(A1 ) + P(A2 ) − P(A1 ∩ A2 )
A2 = {e1 , e3 , e5 , e6 , e8 , e9 }
= 1/2 + 1/2 − P({e1 , e2 , e5 , e10 , e11 , e12 }
A3 = {e5 , e11 , e12 }
∩{e1 , e3 , e5 , e6 , e8 , e9 })
P(A1 ) = 1/2 = 1 − P({e1 , e5 }) = 1 − P({e1 } ∪ {e5 })
P(A2 ) = 1/2 = 1 − (P({e1 }) + P({e5 })) = 1 − 2/12
P(A3 ) = 1/4 = 10/12 = 5/6

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 221 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen

S  ∞
(v) P(Ac ) = 1 − P(A)
P
(i) P Ai = P(Ai ), Ai paarweise disjunkt
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0
(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (vii) A ⊆ B ⇒ P(A) ≤ P(B)
SN  N
(−1)m+1
P P
(iv) P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N

ω ∈ {e1 , . . . , e12 } = Ω W’keit für eine Bearbeitung, die Aufgabe Export hatte
P({ei }) = 1/12, i = 1, . . . , 12 und/oder von einem Mann und /oder mit Version 2.0 durch-
geführt wurde
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }
A2 = {e1 , e3 , e5 , e6 , e8 , e9 } P(A1 ∪ A2 ∪ A3 )
A3 = {e5 , e11 , e12 }
= P(A1 ) + P(A2 ) + P(A3 ) − P(A1 ∩ A2 ) − P(A1 ∩ A3 )
P(A1 ) = 1/2 −P(A2 ∩ A3 ) + P(A1 ∩ A2 ∩ A3 )
P(A2 ) = 1/2 = 1/2 + 1/2 + 1/4 − P({e1 , e5 }) − P({e5 , e11 , e12 })
P(A3 ) = 1/4 −P({e5 }) + P({e5 })
= 15/12 − 2/12 − 3/12 − 1/12 + 1/12 = 10/12 = 5/6

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 222 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen

S  ∞
(v) P(Ac ) = 1 − P(A)
P
(i) P Ai = P(Ai ), Ai paarweise disjunkt
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0
(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (vii) A ⊆ B ⇒ P(A) ≤ P(B)
SN  N
(−1)m+1
P P
(iv) P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N

ω ∈ {e1 , . . . , e12 } = Ω W’keit für eine Bearbeitung, die weder Aufgabe Export hatte
P({ei }) = 1/12, i = 1, . . . , 12 noch von einem Mann noch mit Version 2.0 durchgeführt
wurde
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }
A2 = {e1 , e3 , e5 , e6 , e8 , e9 } Mit (v): P([A1 ∪ A2 ∪ A3 ]c ) = 1 − P(A1 ∪ A2 ∪ A3 )
A3 = {e5 , e11 , e12 } = 1 − 5/6 = 1/6
P(A1 ) = 1/2 Mit de Morgan: P([A1 ∪ A2 ∪ A3 ]c ) = P(Ac1 ∩ Ac2 ∩ Ac3 )
P(A2 ) = 1/2 = P({e3 , e4 , e6 , e7 , e8 , e9 } ∩ {e2 , e4 , e7 , e10 , e11 , e12 }
P(A3 ) = 1/4 ∩{e1 , e2 , e3 , e4 , e6 , e7 , e8 , e9 , e10 })
= P({e4 , e7 }) = 2/12 = 1/6

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 223 / 545
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume

5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume


Eigenschaften von Wahrscheinlichkeitsmaßen

S  ∞
(v) P(Ac ) = 1 − P(A)
P
(i) P Ai = P(Ai ), Ai paarweise disjunkt
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0
(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (vii) A ⊆ B ⇒ P(A) ≤ P(B)
SN  N
(−1)m+1
P P
(iv) P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N

ω ∈ {e1 , . . . , e12 } = Ω W’keit für eine Bearbeitung, die mit Version 2.0 von einer Frau
P({ei }) = 1/12, i = 1, . . . , 12 durchgeführt wurde

A1 = {e1 , e2 , e5 , e10 , e11 , e12 }


P(Ac1 ∩ A3 ) = P({e3 , e4 , e6 , e7 , e8 , e9 } ∩ {e5 , e11 , e12 })
A2 = {e1 , e3 , e5 , e6 , e8 , e9 }
= P(∅) = 0
A3 = {e5 , e11 , e12 }
P(A1 ) = 1/2
P(A2 ) = 1/2
P(A3 ) = 1/4

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 224 / 545
Zufallsvariablen und deren
Verteilung
6 Zufallsvariablen und deren Verteilung 6.1 Zufallsvariablen

6.1 Zufallsvariablen
Erinnerung
Zufallsexperiment Datenerhebungsprozess mit nicht vorhersagbarem Ausgang

Ergebnis ω Elementarer Ausgang eines Zufallsexperiments

Grundraum Ω Menge aller möglichen Ergebnisse


Ω = {ω| ω ist Ergebnis des Zufallsexperiments}

Fahrplan

ω ist ein beliebiges Ergebnis, z.B. die oben liegende Seite des Würfels, die
gesamte Spur einer Mausaktivität
Mit beliebigen Ergebnissen lässt sich schlecht rechnen, definiere darum
Abbildung von Ω in den Raum der reellen Zahlen
Häufig sehr intuitiv, erscheint daher oft überflüssig, formal aber notwendig
Danach: Definition einer Verteilung auf den reellen Zahlen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 226 / 545
6 Zufallsvariablen und deren Verteilung 6.1 Zufallsvariablen

6.1 Zufallsvariablen
Eine Abbildung, die jedem Ergebnis eines Zufallsexperiments eine reelle Zahl
zuordnet, wird Zufallsvariable genannt. Ein konkreter Wert x = X (ω) heißt
Realisation der Zufallsvariable X .

X :Ω→R ω 7→ X (ω)

Beispiel: Würfelwurf
Zufallsvariable Augenzahl. Intuitiv: X1 (ω) = ω
Besser: X1 (ω) = Anzahl der Augen, die beim Würfelwurf oben liegen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 227 / 545
6 Zufallsvariablen und deren Verteilung 6.1 Zufallsvariablen

6.1 Zufallsvariablen
Eine Abbildung, die jedem Ergebnis eines Zufallsexperiments eine reelle Zahl
zuordnet, wird Zufallsvariable genannt. Ein konkreter Wert x = X (ω) heißt
Realisation der Zufallsvariable X .

X :Ω→R ω 7→ X (ω)

Beispiel: Würfelwurf X2 (ωi ) = 1, falls i-ter Wurf ungerade, X2 (ωi ) = 0 sonst

Zufallsvariable Gerade/Ungerade: X2 (ω) ∈ {0, 1}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 228 / 545
6 Zufallsvariablen und deren Verteilung 6.1 Zufallsvariablen

6.1 Zufallsvariablen
Eine Abbildung, die jedem Ergebnis eines Zufallsexperiments eine reelle Zahl
zuordnet, wird Zufallsvariable genannt. Ein konkreter Wert x = X (ω) heißt
Realisation der Zufallsvariable X .

X :Ω→R ω 7→ X (ω)

Beispiel: Beispiel zweifacher Münzwurf



Zufallsvariable Anzahl Kopf: X (ω1 , ω2 ) = ω1 + ω2

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 229 / 545
6 Zufallsvariablen und deren Verteilung 6.1 Zufallsvariablen

Beispiel: Mausaktivität ω(t) = [x(t), y (t), c(t)]


Zufallsvariable: Distanz zwischen den ersten 2 Mausklicks
p
X (ω) = [x(t2 ) − x(t1 )]2 + [y (t2 ) − y (t1 )]2
t1 = Beginn 1. Klick, t2 = Beginn 2. Klick

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 230 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilung einer Zufallsvariablen
Erinnerung: Das Wahrscheinlichkeitsmaß P ordnet jeder Menge A ∈ A eine
Wahrscheinlichkeit zu.
Jetzt: Sei B ⊆ R eine Teilmenge aus dem Definitionsbereich der Zufallsvariablen
X . Wie groß ist die Wahrscheinlichkeit, dass B realisiert wird?
⇒ Die Wahrscheinlichkeit von B lässt sich direkt aus der Wahrscheinlichkeit der
Menge A mit ω ∈ A ⇔ X (ω) ∈ B ableiten.
Achtung: Unterscheide diskrete (Ω abzählbar) und stetige (Ω überabzählbar)
Zufallsräume

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 231 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilung einer Zufallsvariablen
Erinnerung: Das Wahrscheinlichkeitsmaß P ordnet jeder Menge A ∈ A eine
Wahrscheinlichkeit zu.
Jetzt: Sei B ⊆ R eine Teilmenge aus dem Definitionsbereich der Zufallsvariablen
X . Wie groß ist die Wahrscheinlichkeit, dass B realisiert wird?
⇒ Die Wahrscheinlichkeit von B lässt sich direkt aus der Wahrscheinlichkeit der
Menge A mit ω ∈ A ⇔ X (ω) ∈ B ableiten.
Achtung: Unterscheide diskrete (Ω abzählbar) und stetige (Ω überabzählbar)
Zufallsräume

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 231 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilung einer Zufallsvariablen
Die Wahrscheinlichkeitsverteilung oder kurz Verteilung einer Zufallsvariablen
X ist definiert durch
P X (B) = P(X ∈ B) = P({ω ∈ Ω|X (ω) ∈ B}), B ⊆ R

Wie bestimmt man P(B)?


Im diskreten Fall: P X (B) = ωi ∈A P({ωi }).
P

Man summiert also über alle Elementarereignisse auf, die zu einer passenden
Realisierung der Zufallsvariablen führen.
Im stetigen Fall: P X (B) = P(A) = A P(t)dt.
R

Im stetigen Fall haben Elementarereignisse im Allgemeinen Wahrscheinlichkeit


0, aufsummieren hilft daher nicht. Formal definiert wird die
Wahrscheinlichkeit daher mit dem Integral über die Menge A von P. Dieses
Integral stellt uns zum einen vor Verständnis-Probleme, die wir in dieser
Vorlesung nicht auflösen können (→ Spezialvorlesungen zur Maßtheorie),
zum anderen ist auch unklar, wie das Integral bestimmt werden kann.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 232 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilung einer Zufallsvariablen
P X ist eindeutig definiert, wenn P X (Bx ) für jedes Intervall der Form
Bx = (−∞, x] bekannt ist:

Was bedeutet das:


Im stetigen Fall bildet P X ab von der Potenzmenge der reellen Zahlen(!)
nach [0, 1]. Eine eindeutige, analytische Definition dieser Funktion erscheint
daher erstmal unmöglich.
Was heißt Eindeutig definiert überhaupt? Eine Funktion ist dann eindeutig
definiert, wenn sich für jede mögliche Eingabe (d.h. jedes B ⊂ R) eindeutig
der zugehörige Funktionswert berechnen lässt.
Der Satz sagt also: Die Wahrscheinlichkeit jeder beliebigen Menge B ⊆ R
kann bestimmt werden, wenn die Werte aller Bx = (−∞, x] bekannt sind.
Der Satz gilt sowohl im stetigen als auch im diskreten Fall.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 233 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilung einer Zufallsvariablen
P X ist eindeutig definiert, wenn P X (Bx ) für jedes Intervall der Form
Bx = (−∞, x] bekannt ist:

Beweis:
B = {x1 } = lim({Bx1 \ Bx1 −ϵ }) ⇒ P X (B) = lim[P X (Bx1 ) − P X (Bx1 −ϵ )],
ϵ↓0 ϵ↓0
da Bx1 −ϵ ⊂ Bx1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 234 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilung einer Zufallsvariablen
P X ist eindeutig definiert, wenn P X (Bx ) für jedes Intervall der Form
Bx = (−∞, x] bekannt ist:

Beweis:
B = {x1 } = lim({Bx1 \ Bx1 −ϵ }) ⇒ P X (B) = lim[P X (Bx1 ) − P X (Bx1 −ϵ )],
ϵ↓0 ϵ↓0
da Bx1 −ϵ ⊂ Bx1
k
S
x1 ̸= . . . ̸= xk : B = {x1 , . . . , xk } = lim({Bxi \ Bxi −ϵ })
i=1 ϵ↓0
k
⇒ P X (B) = lim[P X (Bxi ) − P X (Bxi −ϵ )]
P
i=1 ϵ↓0

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 235 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilung einer Zufallsvariablen
P X ist eindeutig definiert, wenn P X (Bx ) für jedes Intervall der Form
Bx = (−∞, x] bekannt ist:

Beweis:
x1 < x2 : B = (x1 , x2 ] = Bx2 \ Bx1 ⇒ P X (B) = P X (Bx2 ) − P X (Bx1 ), da
Bx1 ⊂ Bx2

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 236 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilung einer Zufallsvariablen
P X ist eindeutig definiert, wenn P X (Bx ) für jedes Intervall der Form
Bx = (−∞, x] bekannt ist:

Beweis:
x1 < x2 : B = (x1 , x2 ] = Bx2 \ Bx1 ⇒ P X (B) = P X (Bx2 ) − P X (Bx1 ), da
Bx1 ⊂ Bx2

Beliebige weitere Ereignisse lassen sich jetzt durch Schnitte und Vereinigungen aus
den endlichen Mengen und den halboffenen Intervallen konstruieren.

Um die Wahrscheinlichkeit einer beliebigen Menge B ⊆ R anzugeben, reicht es


daher tatsächlich aus, wenn P X (Bx ) für jedes Intervall der Form Bx = (−∞, x]
bekannt ist.

Definiere daher jetzt eine Funktion auf den Mengen Bx , die entsprechend
ausreichend ist, um die gesamte Verteilung P X eindeutig zu definieren.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 237 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilungsfunktionen
Die Funktion F = F X : R → [0, 1] mit

F (x) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

wird Verteilungsfunktion genannt.


Die Entsprechung der Verteilungsfunktion in der deskriptiven Statistik ist die
empirische Verteilungsfunktion, bei der an die Stelle von Wahrscheinlichkeiten
kumulierte relative Häufigkeiten treten.
(
0 falls x < x(1)
FN (x) =
sj = #{xn |xn ≤x(j)} mit j = max{j|x(
N
˜ j) ˜ ≤ x} falls x(1) ≤ x

#{xn |xn ≤ x}
=
N

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 238 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilungsfunktionen
F = F X : R → [0, 1] mit
F (x) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

Eigenschaften der Verteilungsfunktion

(A) lim F (x) = 0, lim F (x) = 1


x→−∞ x→∞

Beweis:
lim F (x) = lim P({ω ∈ Ω|X (ω) ∈ (−∞, x] ∩ R})
x→−∞ x→−∞

= P({ω ∈ Ω|X (ω) ∈ {−∞} ∩ R}) = P({ω ∈ Ω|X (ω) = ∅})


(∗)
= P(∅) = 0 (∗) [ω ∈ Ω ⇒ X (ω) ∈ R] ⇔ [X (ω) ∈
/R⇒ω∈
/ Ω]

lim F (x) = lim P({ω ∈ Ω|X (ω) ∈ (−∞, x] ∩ R})


x→∞ x→∞
= P({ω ∈ Ω|X (ω) ∈ R) = P(Ω) = 1 □
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 239 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilungsfunktionen
F = F X : R → [0, 1] mit

F (X ) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

Eigenschaften der Verteilungsfunktion


(A) lim F (x) = 0, lim F (x) = 1
x→−∞ x→∞

(B) x < y ⇒ F (x) < F (y )


Beweis:

F (x) = P(A) mit A = {ω ∈ Ω|X (ω) ≤ x}


F (y ) = P(B) mit B = {ω ∈ Ω|X (ω) ≤ y }

x < y ⇒ A ⊆ B ⇒ P(A) ≤ P(B) ⇔ F (x) ≤ F (y )

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 240 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilungsfunktionen
F = F X : R → [0, 1] mit

F (X ) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

Eigenschaften der Verteilungsfunktion


(A) lim F (x) = 0, lim F (x) = 1 (C) lim F (x) = F (z)
x→−∞ x→∞ x↓z
(B) x < y ⇒ F (x) ≤ F (y )

Beweis:
Setze An = {ω ∈ Ω|X (ω) ∈ (−∞, z + 1/n]}, A0 = Ω

\
⇒A= An = {ω ∈ Ω|X (ω) ∈ (−∞, z]}, An ⊂ An−1 , Acn−1 ⊂ Acn , n = 1, 2, . . .
n=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 241 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Beweis (Fortsetzung)

\  ∞
[  ∞
X
F (z) = P(A) = P An = 1 − P Acn = 1 − P(Acn \ Acn−1 )
n=1 n=1 n=1
N
X
= 1 − lim P(Acn \ Acn−1 ) = 1 − lim P(AcN ) = lim P(AN )
N↑∞ N↑∞ N↑∞
n=1

= lim F (x) □
x↓z

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 242 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilungsfunktionen
F = F X : R → [0, 1] mit

F (x) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

Eigenschaften der Verteilungsfunktion


(A) lim F (x) = 0, lim F (x) = 1 (C) lim F (x) = F (z)
x→−∞ x→∞ x↓z
(B) x < y ⇒ F (x) < F (y ) (D) P(a < X ≤ b) = F (b) − F (a)
Beweis:
Setze A = {ω ∈ Ω|X (ω) ∈ (−∞, a]} und B = {ω ∈ Ω|X (ω) ∈ (−∞, b]}

⇒ P(a < X ≤ b) = P({ω ∈ Ω|X (ω) ∈ (a, b]}) = P(B \ A) = P(B) − P(A)
A⊆B

= P(X ≤ b) − P(X ≤ a) = F (b) − F (a) □

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 243 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Verteilungsfunktionen
F = F X : R → [0, 1] mit

F (x) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

Eigenschaften der Verteilungsfunktion


(A) lim F (x) = 0, lim F (x) = 1 (C) lim F (x) = F (z)
x→−∞ x→∞ x↓z
(B) x < y ⇒ F (x) < F (y ) (D) P(a < X ≤ b) = F (b) − F (a)
(E) P(X > a) = 1 − F (a)
Beweis:
Setze A = {ω ∈ Ω|X (ω) ≤ a} ⇒ Ac = {ω ∈ Ω|X (ω) > a}
⇒ P(X > a) = P(Ac ) = 1 − P(A) = 1 − F (a) □

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 244 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall diskrete Verteilungsfunktion: Ω abzählbar

Ω = {ω1 , . . . , ωn } ⇒ X ∈ {x1 , . . . , xk } mit − ∞ < x1 < . . . < xk < ∞, k ≤ n

F (x) = P X ((−∞, x]) = P(X ≤ x) = P(Ax ) mit


Ax = {ω ∈ Ω|X (ω) ∈ (−∞, x] ∩ {x1 , ..., xk }}

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 245 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall diskrete Verteilungsfunktion: Ω abzählbar

Ω = {ω1 , . . . , ωn } ⇒ X ∈ {x1 , . . . , xk } mit − ∞ < x1 < . . . < xk < ∞, k ≤ n

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 246 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall diskrete Verteilungsfunktion: Ω abzählbar

Ω = {ω1 , . . . , ωn } ⇒ X ∈ {x1 , . . . , xk } mit − ∞ < x1 < . . . < xk < ∞, k ≤ n

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 247 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall diskrete Verteilungsfunktion: Ω abzählbar

Ω = {ω1 , . . . , ωn } ⇒ X ∈ {x1 , . . . , xk } mit − ∞ < x1 < . . . < xk < ∞, k ≤ n

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 248 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall diskrete Verteilungsfunktion: Ω abzählbar

Ω = {ω1 , . . . , ωn } ⇒ X ∈ {x1 , . . . , xk } mit − ∞ < x1 < . . . < xk < ∞, k ≤ n

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 249 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall diskrete Verteilungsfunktion: Ω abzählbar

Ω = {ω1 , . . . , ωn } ⇒ X ∈ {x1 , . . . , xk } mit − ∞ < x1 < . . . < xk < ∞, k ≤ n

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 250 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall diskrete Verteilungsfunktion: Ω abzählbar

Ω = {ω1 , . . . , ωn } ⇒ X ∈ {x1 , . . . , xk } mit − ∞ < x1 < . . . < xk < ∞, k ≤ n

Die Funktion: p : R → [0, 1] mit p(x) = P(X = x) heißt Zähldichte von X.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 251 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall diskrete Verteilungsfunktion: Ω abzählbar

Ω = {ω1 , . . . , ωn } ⇒ X ∈ {x1 , . . . , xk } mit − ∞ < x1 < . . . < xk < ∞, k ≤ n

Die Funktion: p : R → [0, 1] mit p(x) = P(X = x) heißt Zähldichte von X.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 252 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall diskrete Verteilungsfunktion: Ω abzählbar
Beispiel: Anzahl Kopf beim 5-fachen Münzwurf
Zähldichte

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 253 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall diskrete Verteilungsfunktion: Ω abzählbar
Beispiel: Anzahl Kopf beim 5-fachen Münzwurf
Zähldichte

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 254 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall diskrete Verteilungsfunktion: Ω abzählbar
Beispiel: Anzahl Kopf beim 5-fachen Münzwurf
Zähldichte und Verteilungsfunktion

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 255 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall stetige Verteilungsfunktion: Ω überabzählbar
ω ∈ Ω : X (ω) ∈ B, B ⊆ R
F = F X : R → [0, 1] mit F (x) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 256 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall stetige Verteilungsfunktion: Ω überabzählbar
ω ∈ Ω : X (ω) ∈ B, B ⊆ R
F = F X : R → [0, 1] mit F (x) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 257 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall stetige Verteilungsfunktion: Ω überabzählbar
ω ∈ Ω : X (ω) ∈ B, B ⊆ R
F = F X : R → [0, 1] mit F (x) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 258 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall stetige Verteilungsfunktion: Ω überabzählbar
ω ∈ Ω : X (ω) ∈ B, B ⊆ R
F = F X : R → [0, 1] mit F (x) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 259 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall stetige Verteilungsfunktion: Ω überabzählbar
ω ∈ Ω : X (ω) ∈ B, B ⊆ R
F = F X : R → [0, 1] mit F (x) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 260 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall stetige Verteilungsfunktion: Ω überabzählbar
ω ∈ Ω : X (ω) ∈ B, B ⊆ R
F = F X : R → [0, 1] mit F (x) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 261 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall stetige Verteilungsfunktion: Ω überabzählbar

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 262 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall stetige Verteilungsfunktion: Ω überabzählbar

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 263 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall stetige Verteilungsfunktion: Ω überabzählbar
Beispiel: Mausaktivität, exakter Zeitpunkt T des ersten Mausclicks
Annahme: T fällt in jedes Intervall gleicher Länge c zwischen tmin und tmax mit
derselben Wahrscheinlichkeit

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 264 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall stetige Verteilungsfunktion: Ω überabzählbar
Beispiel: Mausaktivität, exakter Zeitpunkt T des ersten Mausclicks
Annahme: T fällt in jedes Intervall gleicher Länge c zwischen tmin und tmax mit
derselben Wahrscheinlichkeit

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 265 / 545
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen

6.2 Zufallsvariablen und deren Verteilung


Spezialfall stetige Verteilungsfunktion: Ω überabzählbar
Beispiel: Mausaktivität, exakter Zeitpunkt T des ersten Mausclicks
Annahme: T fällt in jedes Intervall gleicher Länge c zwischen tmin und tmax mit
derselben Wahrscheinlichkeit

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 266 / 545
Wahrscheinlichkeits-
theoretische Kennzahlen
7 Wahrscheinlichkeitstheoretische Kennzahlen

7.0 Wahrscheinlichkeitstheoretische Kennzahlen


Erinnerung
Das Tripel (Ω, A, P) heißt Wahrscheinlichkeitsraum, definiere auf dem
Wahrscheinlichkeitsraum eine Zufallsvariable X : A → R.

Grundraum Ω Menge aller möglichen Ergebnisse


Ereignis A ⊂ Ω Ein einzelnes Ereignis = Menge von Ergebnissen
Ereignismenge A Die Menge aller möglichen Ereignisse
W’keitsmaß P Ordnet jedem Ereignis eine W’keit aus [0, 1] zu
Zufallsvariable X Bildet aus A in die reellen Zahlen ab
Verteilung P X Mit welcher W’keit ist X ∈ B ⊂ R auf?
Verteilungsfunktion F X Ordne jeder Menge Bx = (−∞, x] eine W’keit zu
Zähldichte p X W’keiten einzelner Ausprägungen, wenn X diskret
Dichtefunkion f X Ableitung der Verteilungsfunktion, wenn X stetig
Nächstes Ziel:
Wir wollen die Verteilung P X beschreiben und uns Eigenschaften einer speziellen
Verteilung anschauen. Dazu definieren wir Kennzahlen für Lage und für Streuung
und unterscheiden weiter die beiden Fälle diskret und stetig.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 268 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen

7.0 Wahrscheinlichkeitstheoretische Kennzahlen


Nachtrag
Der Träger einer Zufallsvariablen ist definiert als die Menge TX ⊂ R aller
Realisierungen der Zufallsvariable, die auch tatsächlich auftreten können:
Träger TX einer diskreten Wahrscheinlichkeitsverteilung P X

TX = {x|P(X = x) > 0}

Träger TX einer stetigen Wahrscheinlichkeitsverteilung P X

TX = {x|f (x) > 0}

Achtung:
Liegt ein Wahrscheinlichkeitsraum mit Ω abzählbar vor, so muss der Träger jeder
zugehörigen Zufallsvariablen X ebenfalls diskret sein. Liegt hingegen ein
Wahrscheinlichkeitsraum mit Ω überabzählbar vor, sind sowohl Zufallsvariablen
mit diskreten als auch mit stetigen Trägern möglich.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 269 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Diskrete Wahrscheinlichkeitsverteilungen:

Beispiel 1: Wurf eines fairen, 6-seitigen Würfels

ωi : Seite ... des Würfels oben 1 2 3 4 5 6


X1 (ωi ) 1 2 3 4 5 6
1 1 1 1 1 1
p X1 (xi ) 6 6 6 6 6 6
1 2 3 4 5 6
F X1 (xi ) 6 6 6 6 6 6

Beispiel 2: Wurf eines fairen, 6-seitigen Würfels, aber fasse Ergebnis 5 und 6 zu
einer 5 zusammen (analog: ersetze die Zahl 6 auf dem Würfel durch die Zahl 5).

ωi : Seite ... des Würfels oben 1 2 3 4 5 6


X2 (ωi ) 1 2 3 4 5
X2 1 1 1 1 2
p (xi ) 6 6 6 6 6
1 2 3 4 6
F X2 (xi ) 6 6 6 6 6

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 270 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Diskrete Wahrscheinlichkeitsverteilungen:

Lagemaß: Welches Ergebnis liefert der Zufallsprozess im Mittel?

Der Erwartungswert einer diskret verteilten Zufallsvariable X mit Zähldichte


p(x) und Träger TX = {x1 , x2 , . . .} ist definiert durch
J
X
E[X ] = p(xj ) · xj , J ∈ N ∪ {∞}
j=1

Multipliziere jede Ausprägung von X mit ihrer zugehören Wahrscheinlichkeit und


summiere auf. Beachte dabei die Parallelität zum arithmetischen Mittelwert eines
Beobachtungsvektors x1 , ..., xN :

N
X 1
x̄ = xn
n=1
N

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 271 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Diskrete Wahrscheinlichkeitsverteilungen:

Beispiel 1:

E[X1 ] = P(X1 = 1) · 1 + P(X1 = 2) · 2 + P(X1 = 3) · 3


+ P(X1 = 4) · 4 + P(X1 = 5) · 5 + P(X1 = 6) · 6
1 21
= (1 + 2 + 3 + 4 + 5 + 6) = = 3.5
6 6

Beispiel 2:

E[X2 ] = P(X2 = 1) · 1 + P(X2 = 2) · 2 + P(X2 = 3) · 3


+ P(X2 = 4) · 4 + P(X2 = 5) · 5
1 2 20 1
= (1 + 2 + 3 + 4) + · 5 = =3
6 6 6 3

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 272 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Diskrete Wahrscheinlichkeitsverteilungen:

Streuungsmaß: Wie weit streut Zufallsprozess um Mittel?

Die Varianz von X ist definiert durch


J
 X
Var(X ) = E (X − E[X ])2 = p(xj ) · (xj − E[X ])2 , J ∈ N ∪ {∞},


j=1

das heißt durch die erwartete quadratische Abweichung der Zufallsvariable X von
ihrem eigenen Erwartungswert. Beachte dabei die Parallelität zur empirischen
Varianz eines Beobachtungsvektors x1 , ..., xN :

N
X 1 2
dx2 = (xn − x̄)
n=1
N
p
Die Standardabweichung von X ist definiert durch Var(X ).
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 273 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Diskrete Wahrscheinlichkeitsverteilungen:
Beispiel 1:
Var(X1 ) = E[(X1 − E[X1 ])2 ] = E[(X1 − 3.5)2 ]
= P(X1 = 1) · (1 − 3.5)2 + P(X1 = 2) · (2 − 3.5)2 + P(X1 = 3) · (3 − 3.5)2
+ P(X1 = 4) · (4 − 3.5)2 + P(X1 = 5) · (5 − 3.5)2 + P(X1 = 6) · (6 − 3.5)2
1 17.5 35
= ((−2.5)2 + (−1.5)2 + (−0.5)2 + 0.52 + 1.52 + 2.52 ) = =
6 6 12

Beispiel 2:
1
Var(X2 ) = E[(X2 − E[X2 ])2 ] = E[(X2 − 3 )2 ]
3
1 1 1
= P(X2 = 1) · (1 − 3 )2 + P(X2 = 2) · (2 − 3 )2 + P(X2 = 3) · (3 − 3 )2
3 3 3
1 2 1 2
+ P(X2 = 4) · (4 − 3 ) + P(X2 = 5) · (5 − 3 )
3 3
1 1 2 1 2 1 2 2 2 2 2 2 20
= ((−2 ) + (−1 ) + (− ) + ( ) ) + (1 ) =
6 3 3 3 3 6 3 9
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 274 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Diskrete Wahrscheinlichkeitsverteilungen
Ist h : R → R eine Funktion, so gilt für den Erwartungswert der transformierten
Zufallsvariable h(X ):
J
X
E[h(X )] = h(xj ) · p(xj ), J ∈ N ∪ {∞}
j=1

Für h : x 7→ x ergibt sich für E[h(X )] damit der Erwartungswert von X und für
h : x 7→ (x − E[X ])2 die Varianz von X .
Der Wert, der sich für h : x 7→ x k ergibt, wird k-tes Moment von X genannt:
XJ
mk (X ) = E[X k ] = xjk · p(xj ), J ∈ N ∪ {∞}.
j=1

Das k-te Moment der um den Erwartungswert zentrierten Zufallsvariable


X − E[X ] heißt k-tes zentrales Moment:
J
X
µk (X ) = E[(X − E[X ])k ] = (xj − E[X ])k · p(xj ), J ∈ N ∪ {∞}
j=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 275 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Stetige Wahrscheinlichkeitsverteilungen

Beispiel:
Gegeben sei ein stetiger Wahrscheinlichkeitsraum
( √ (Ω, A, P), eine Zufallsvariable X
3
x, für 0 ≤ x ≤ 1
sowie die Funktion f X (x) = 2
0, sonst

Zeige zunächst: f X ist eine Dichtefunktion.

∞ 0 1 ∞
3√
Z Z Z Z
f X (t) dt = 0 dt + t dt + 0 dt
−∞ −∞ 0 2 1
 1
3 2 3
=0+ · ·t2 +0
2 3 0
= 0 + (1 − 0) + 0 = 1

Das Integral unter f X ist 1 → f X ist Dichte. Sei jetzt f X Dichte von X .
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 276 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Stetige Wahrscheinlichkeitsverteilungen
Approximation stetiger Dichtefunktionen von X durch Zähldichte diskretisierter
Zufallsvariable

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 277 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Stetige Wahrscheinlichkeitsverteilungen
Der Erwartungswert einer stetig verteilten Zufallsvariable X mit Dichtefunktion
f (·) ist definiert durch
Z∞
E[X ] = t · f (t)dt
−∞

Die Varianz von X ist definiert durch


Z∞
2
Var(X ) = E[(X − E[X ]) ] = (t − E[X ])2 · f (t)dt
−∞

Die Standardabweichung von X ist definiert durch


p
Var(X )

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 278 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Stetige Wahrscheinlichkeitsverteilungen
Beispiel Fortsetzung
Bestimme Erwartungswert und Varianz von X :

∞ 1
3√
Z Z
E [X ] = t · f X (t) dt = t· t dt
−∞ 0 2
Z 1  1
3 3 3 2 5 3
= t dt =
2 · t 2 =
0 2 2 5 0 5

∞ 1
3√
Z Z
2 3
Var (X ) = (t − E [X ]) · f (t) dt = (t − )2 · t dt
−∞ 0 5 2
1
3√
Z
6 9
= (t 2 − t + ) · t dt
0 5 25 2

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 279 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Stetige Wahrscheinlichkeitsverteilungen
Beispiel Fortsetzung

1
3√
Z
6 9
Var (X ) = (t 2 − t + ) · t dt
0 5 25 2
Z 1 Z 1 Z 1
2 3
√ 6 3√ 9 3√
= t · t dt − t· t dt + · t dt
0 2 0 5 2 0 25 2
Z 1 Z 1 Z 1
3 5 9 3 27 1
= · t 2 dt − · t 2 dt + · t 2 dt
0 2 0 5 0 50
 1  1  1
3 2 7 9 2 5 27 2 3
= · ·t2 − · ·t2 + · ·t2
2 7 0 5 5 0 50 3 0
3 18 9
= − + ≈ 0.07
7 25 25

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 280 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Erwartungswerten
Falls die folgenden Erwartungswerte von stetig oder diskret verteilten
Zufallsvariablen existieren, so gelten folgende Eigenschaften:
(1) E[X + Y ] = E[X ] + E[Y ]

(2) E[aX + b] = a E[X ] + b, a, b ∈ R


 n  n
P P
(3) E ai Xi + b = ai E[Xi ] + b, a1 , . . . , an , b ∈ R
i=1 i=1

Achtung:
E[XY ] = E[X ] · E[Y ] gilt im Allgemeinen nicht!

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 281 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Erwartungswerten
Falls die folgenden Erwartungswerte von stetig oder diskret verteilten
Zufallsvariablen existieren, so gelten folgende Eigenschaften:

(1) E[X + Y ] = E[X ] + E[Y ]

Beweis im diskreten Fall:


X X
E[X + Y ] = [x + y ] · P(X + Y = x + y ) = [X (ω) + Y (ω)] · P({ω})
x+y ∈TX +Y ω∈Ω
X X
= X (ω) · P({ω}) + Y (ω) · P({ω})
ω∈Ω ω∈Ω
X X
= x · P(X = x) + y · P(Y = y ) = E[X ] + E[Y ]
x∈TX y ∈TY

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 282 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Erwartungswerten
Falls die folgenden Erwartungswerte von stetig oder diskret verteilten
Zufallsvariablen existieren, so gelten folgende Eigenschaften:

(2) E[aX + b] = a E[X ] + b, a, b ∈ R

Beweis im diskreten Fall:


X X X
E[aX + b] = (ax + b)P(X = x) = ax · P(X = x) + bP(X = x)
x∈TX x∈TX x∈TX
X X
=a· x · P(X = x) + b · P(X = x) = a · E[X ] + b · 1
x∈TX x∈TX

= a E[X ] + b

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 283 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Erwartungswerten

E[aX + b] = a E[X ] + b,
a, b ∈ R

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 284 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Erwartungswerten

E[aX + b] = a E[X ] + b,
a, b ∈ R

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 285 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Erwartungswerten

E[aX + b] = a E[X ] + b,
a, b ∈ R

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 286 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Erwartungswerten

Falls die folgenden Erwartungswerte von stetig oder diskret verteilten


Zufallsvariablen existieren, so gelten folgende Eigenschaften:
 n  n
P P
(3) E ai Xi + b = ai E[Xi ] + b, a1 , . . . , an , b ∈ R
i=1 i=1

Beweis:
" n
# " n
# n
X X X
E ai Xi + b = E ai Xi + b = E[ai Xi ] + b
(2) (1)
i=1 i=1 i=1

n
X
= ai E[Xi ] + b □
(2)
i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 287 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Varianzen

Falls die folgenden Varianzen von stetig oder diskret verteilten Zufallsvariablen
existieren, so gelten folgende Eigenschaften:
(A) Var(X ) ≥ 0
(B) Var(aX + b) = a2 Var(X )

Achtung:
Var(X + Y ) = Var(X ) + Var(Y ) gilt im Allgemeinen nicht!

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 288 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Varianzen

Falls die folgenden Varianzen von stetig oder diskret verteilten Zufallsvariablen
existieren, so gelten folgende Eigenschaften:
(A) Var(X ) ≥ 0
(B) Var(aX + b) = a2 Var(X )

Var(X ) ≥ 0 ist klar, da Quadrat und Dichte immer größer 0

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 289 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Varianzen

Falls die folgenden Varianzen von stetig oder diskret verteilten Zufallsvariablen
existieren, so gelten folgende Eigenschaften:
(A) Var(X ) ≥ 0
(B) Var(aX + b) = a2 Var(X )

Var(aX + b) = E[(aX + b − E[aX + b])2 ]


= E[(aX + b − a E[X ] − b)2 ] = E[(a · (X − E[X ]))2 ]
E[aX +b]=a E[X ]+b

= E[a2 · (X − E[X ])2 ] = a2 · E[(X − E[X ])2 ] = a2 Var(X ) □

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 290 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Varianzen

Falls die folgenden Varianzen von stetig oder diskret verteilten Zufallsvariablen
existieren, so gelten folgende Eigenschaften:
(C) Verschiebungssatz von Steiner:
a ∈ R ⇒ Var(X ) = E[(X − a)2 ] − (E[X ] − a)2 ,
speziell für a = 0 ⇒ Var(X ) = E[X 2 ] − E[X ]2
Beweis:
Var(X ) = E[(X − E[X ])2 ] = E[((X − a) + (a − E[X ]))2 ]
= E[(X − a)2 + 2(a − E[X ])(X − a) + (a − E[X ])2 ]
= E[(X − a)2 ] + 2(a − E[X ])(E[X ] − a) + (a − E[X ])2
= E[(X − a)2 ] − 2(a − E[X ])2 + (a − E[X ])2
= E[(X − a)2 ] − (a − E[X ])2

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 291 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Varianzen

(D) Tschebyscheff-Ungleichung:
Var(X )
P(|X − E[X ]| > ε) ≤ , ε ∈ (0, ∞)
ε2
Beweis:
Z∞ Z
Var(X ) = (t − E[X ])2 fX (t)dt ≥ (t − E[X ])2 fX (t)dt
(t−E[X ])2 fX (t)≥0
−∞ t:(t−E[X ])2 >ε2
Z Z
≥ ε2 fX (t)dt = ε2 fX (t)dt = ε2 P((X − E [X ])2 > ε2 )
t:(t−E[X ])2 >ε2 t:(t−E[X ])2 >ε2
2
= ε · P[(X > E[X ] + ε) ∪ (X < E[X ] − ε)]
(∗)

= ε2 · P[|X − E[X ]| > ε] □

(∗)(X − E[X ])2 > ε2 ⇔ (X > E[X ] + ε) ∪ (X < E[X ] − ε)


Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 292 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Eigenschaften von Varianzen
Anwendung der Tschebyscheff-Ungleichung: Abschätzung verteilungsunabhängiger
Unsicherheitsbereiche
Var(X )
P(|X − E[X ]| > ε) ≤ , ε ∈ (0, ∞)
ε2

p p 1
Setze ε := r Var(X ) ⇒ P(|X − E[X ]| > r Var(X )) ≤ 2
r

p p 1
⇔ P(E[X ] − r Var(X ) ≤ X ≤ E[X ] + r Var(X )) ≥ 1 −
r2
Die Wahrscheinlichkeit, dass eine Realisation von X in einem symmetrischen
Intervall der Breite von r Standardabweichungen fällt, beträgt also unabhängig
von der Verteilung von X mindestens 1 − 1/r 2 .

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 293 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Nicht existente Erwartungswerte oder Varianzen
Erwartungswert, Varianz und höhere Momente müssen nicht existieren.

Beispiel:
1
Sei X stetig verteilte Zufallsvariable mit Dichtefunktion fX (x) = I(x ≥ 1) · x2

Dann ist fX tatsächlich Dichte, denn es gilt:


Rx Rx
FX (x) = fX (t)dt = fX (t)dt = − x1 + 1 = 1 − 1
x und damit
−∞ 1
R∞
fX (t)dt = lim (1 − 1/x) = 1
−∞ x→∞

R∞ R∞
Allerdings gilt auch: E[X ] = tfX (t)dt = t t12 dt = lim (log(b)) = ∞
−∞ 1 b→∞

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 294 / 545
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz

7.1 Erwartungswert und Varianz


Nicht existente Erwartungswerte oder Varianzen
Erwartungswert, Varianz und höhere Momente müssen nicht existieren.

Beispiel:

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 295 / 545
7.2 Weitere wahrscheinlichkeitstheoretische
7 Wahrscheinlichkeitstheoretische Kennzahlen Kennzahlen

7.2 Weitere wahrscheinlichkeitstheoretische Kennzahlen


p-Quantile
Sei X eine Zufallsvariable mit Verteilungsfunktion F .
Für eine Zahl p ∈ (0, 1) wird das p-Quantil Qp = Qp (X ) der durch die
Verteilungsfunktion F = F X festgelegten Verteilung P X definiert durch den
kleinsten Wert x ∈ R, für den gilt:

F (x) ≥ p

Das 0.5-Quantil heißt Median, das 0.25-Quantil unteres Quartil und das
0.75-Quantil oberes Quartil.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 296 / 545
7.2 Weitere wahrscheinlichkeitstheoretische
7 Wahrscheinlichkeitstheoretische Kennzahlen Kennzahlen

7.2 Weitere wahrscheinlichkeitstheoretische Kennzahlen


Quantilsbestimmng über Verteilungsfunktion (diskreter Fall)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 297 / 545
7.2 Weitere wahrscheinlichkeitstheoretische
7 Wahrscheinlichkeitstheoretische Kennzahlen Kennzahlen

7.2 Weitere wahrscheinlichkeitstheoretische Kennzahlen


Quantilsbestimmng über Verteilungsfunktion (stetiger Fall)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 298 / 545
Wichtige Wahrscheinlichkeits-
verteilungen
8 Wichtige Wahrscheinlichkeitsverteilungen

8.0 Wichtige Wahrscheinlichkeitsverteilungen


Was wir bis jetzt wissen
Es gibt Zufallsprozesse, die unvorhersagbare Ergebnisse erzeugen.
Auf den Zufallsprozessen können wir Wahrscheinlichkeitsräume definieren, die
jedem Ereignis des Zufallsprozesses eine Wahrscheinlichkeit zuordnen.
Auf den Ereignissen definieren wir Zufallsvariablen, um diese in die reellen
Zahlen abzubilden und mit ihnen rechnen zu können.
Jede so definierte Zufallsvariable X folgt einer Verteilung P X mit
Verteilungsfunktion F X bzw. einer Dichte f X oder einer Zähldichte p X .
Wie sieht F X aus?
Im Allgemeinen unbekannt.
In manchen (vor allem diskreten) Fällen lässt sich das Zufallsexperiment
mathematisch abbilden und sämtliche Wahrscheinlichkeiten können exakt
bestimmt werden.
Weitere Verteilungsklassen haben theoretisch schöne Eigenschaften und
werden daher oft verwendet, um den Zufallsprozess zu modellieren.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 300 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Einpunktverteilung εa

Wenn sich sämtliche Wahrscheinlichkeitsmaße einer Zufallsvariablen auf einen


Punkt konzentriert, d.h. wenn der Träger TX = {a} nur eine einzelne Realisierung
a umfasst, die Zufallsvariable also definiert ist via X (ω) = a ∀ω ∈ Ω, dann
sprechen wir von einer Einpunktverteilung.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 301 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Einpunktverteilung εa

Träger: TX = {a}

Zähldichte: p X (x) = I (a = x)

Die Einpunktverteilung ist ein Grenzfall -


letztlich liegt hier kein Zufallsprozess vor,
da der betrachtete Prozess
deterministisch jedes Mal das gleiche
Ergebnis liefert. Dennoch ist es oftmals
notwendig, auch diesen Fall im Rahmen
der Wahrscheinlichkeitstheorie zu
beschreiben.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 302 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Einpunktverteilung εa
J
P
Erwartungswert: E[X ] = p(xj ) · xj
j=1

1
X
1·a=a
j=1

Varianz: Var(X ) = E[(X − E[X ])2 ]


1
X
1 · (a − a)2 = 0
j=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 303 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Einpunktverteilung εa

Die Einpunktverteilung ist die einzige Verteilung mit Varianz 0:


X ∼ εa , a ∈ R ⇔ Var(X ) = 0

Beweis: (nur diskret, stetig analog mit Integralen statt Summen)

⇒ “ : X ∼ εa ⇒ Var(X ) = 0

J
X
⇐ “ : Var(X ) = 0 ⇔ (xj − E[X ])2 · p(xj ) = 0

j=1

⇒ für alle xj ∈ TX : (xj − E[X ])2 = 0 oder p(xj ) = 0


(xj − E[X ])2 = 0 ⇔ xj = E[X ] ⇒ für alle xj ̸= E[X ] muss gelten : p(xj ) = 0
⇒ X ∼ εE[X ] □
J
P
p(xj )=1
j=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 304 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Bernoulli-Verteilung B(1, p)

Besteht der Träger TX nicht nur aus einem, sondern aus 2 Elementen, so sprechen
wir von einem Bernoulli-Experiment. Beispiele: Einfacher Münzwurf, zufälliges
Kippen eines Bits beim Speichern, oder generell: Erfolg gegen Misserfolg.

Binsenweisheit
Es gibt ja nur 2 Möglichkeiten: Gewinnen oder nicht gewinnen. Die
Wahrscheinlichkeit zu gewinnen beträgt also 50%.

Tatsächlich hängt jedes Bernoulli-Experiment von einem Paramter p ∈ [0, 1] ab,


der die Erfolgswahrscheinlichkeit des Experiments beschreibt. In manchen
Experimenten (z.B. fairer Münzwurf) beträgt p gerade 50%, oftmals (z.B. Lotto 6
aus 49) ist sie aber auch deutlich geringer.
Der Einfachheit halber wird die zu Grunde liegende Zufallsvariable zumeist auf
dem Träger TX = {0, 1} definiert mit der Interpretation X (ω) = 1 =
ˆ Erfolg und
X (ω) = 0 =
ˆ Misserfolg.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 305 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Bernoulli-Verteilung B(1, p)

Herleitung der Zähldichte

P({ω ∈ Ω|X (ω) = 0}) = 1 − p = p 0 (1 − p)1 =: p X (0)


P({ω ∈ Ω|X (ω) = 1}) = p = p 1 (1 − p)0 =: p X (1)

(
X p x (1 − p)1−x , für x ∈ {0, 1}
⇒ p (x) =
0, sonst
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 306 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Bernoulli-Verteilung B(1, p)

J
P
Erwartungswert: E[X ] = p(xj ) · xj
j=1
1
X
p x (1−p)1−x ·x = (1−p)·0+p ·1 = p
j=0

Varianz: Var(X ) = E[(X − E[X ])2 ]


1
X
p x (1 − p)1−x · (x − p)2
j=0

= (1 − p)p 2 + p(1 − p)2


= p − p 2 = p(1 − p)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 307 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Binomial-Verteilung B(n, p)

Verallgemeinerung der Bernoulli-Verteilung: Wenn n Bernoulli-Experimente mit


konstanter Erfolgswahrscheinlichkeit p durchgeführt werden, wie oft tritt ein
Erfolg auf? D.h., betrachte die Summe von n Bernoulli-verteilten Zufallsvariablen:
n
X
X (ω) = Y (ωi ),
i=1

wobei Y ∼ B(1, p) und ωi ∈ {0, 1}.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 308 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Binomial-Verteilung B(n, p)

Bestimmung der Zähldichte


Sei ω = (ω1 , ..., ωn ) ein Elementarereignis des Binomial-Experiments, mit
ωi ∈ {0, 1}. Es gibt also 2n verschiedene Elementarereignisse.
Mit welcher Wahrscheinlichkeit nimmt die binomial-verteilte Zufallsvariable den
Wert k ≤ n an, d.h. mit welcher Wahrscheinlichkeit sind genau k der ωi gleich 1
und die übrigen 0?
1 Mit welcher der Wahrscheinlichkeit tritt ein spezielles Elementarereignis auf?
2 Wie viele Elementarereignisse führen zum gewünschten Ergebnis der
Zufallsvariable?

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 309 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Binomial-Verteilung B(n, p)

Schritt 1: Elementarereignis mit k Erfolgen und n − k Misserfolgen


Wahrscheinlichkeit für Erfolg: p, für Misserfolg: 1 − p
Wahrscheinlichkeit für k Erfolge: p · ... · p = p k
Wahrscheinlichkeit für n − k Misserfolge: (1 − p) · ... · (1 − p) = (1 − p)n−k
Wahrscheinlichkeit für ein Elementarereignis: p k · (1 − p)n−k
Schritt 2: Wie viele Anordnungen mit k Erfolgen gibt es?
Reihenfolge der k Erfolge in den n Versuchen egal ⇒ n! Permutationen
Reihenfolge der Erfolge/Misserfolge untereinander spielt dabei keine Rolle; es
wird also jedes Elementarereignis k! · (n − k)! mal statt nur einmal gezählt.
n n!

Binomialkoeffizient: k = k!(n−k)!

Insgesamt ergibt sich


 
n
P(X (ω) = k) = p X (k) = · p k · (1 − p)n−k
k
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 310 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Binomial-Verteilung B(n, p)

Erwartungswert:
" n # n
X X
E [X ] = E Y = E [Y ] = np
i=1 i=1

mit Y ∼ Bin(1, p).


Varianz: (ohne Beweis)

Var (X ) = np(1 − p)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 311 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Geometrische Verteilung Geo(p)

Verallgemeinerung der Bernoulli-Verteilung: Wie viele Bernoulli-Experimente mit


konstanter Erfolgswahrscheinlichkeit p müssen bis zum ersten Erfolg durchgeführt
werden? Beispiele: Anzahl Münzwürfe bis zur ersten Zahl, Anzahl Lotto-Spiele bis
zum ersten Hauptgewinn.

Achtung: Alternative Variante der geometrischen Verteilung zählt die Anzahl


Misserfolge vor dem erstem Erfolg, also immer 1 weniger.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 312 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Geometrische Verteilung Geo(p)

Bestimmung der Zähldichte


Führe Bernoulli-Experimente mit Erfolgswahrscheinlichkeit p durch.
W’keit für 1. Erfolg im 1. Versuch: p
W’keit für 1. Erfolg im 2. Versuch: Misserfolg im 1. Versuch, Erfolg im 2.
Versuch: (1 − p) · p
W’keit für 1. Erfolg im 3. Versuch: Misserfolg im 1. und 2. Versuch, Erfolg im
3. Versuch: (1 − p)2 · p
...
⇒ Wahrscheinlichkeit für 1. Erfolg im k.ten Versuch:

p X (k) = (1 − p)k−1 · p ∀k = 1, 2, ..., ∞

Achtung:
Wir haben hier die erste diskrete Verteilung mit abzählbar unendlichem Träger
Tx = {1, 2, 3, ...}.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 313 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Geometrische Verteilung Geo(p)

Erwartungswert:


X ∞
X
E [X ] = i · (1 − p)i−1 · p = (i + 1) · (1 − p)i · p
i=1 i=0

X ∞
X
= i · (1 − p)i · p + (1 − p)i · p
i=0 i=0

X ∞
X
= (1 − p) i · (1 − p)i−1 · p + (1 − p)i−1 · p
i=0 i=1
= (1 − p)E [X ] + 1

1
E [X ] = (1 − p)E [X ] + 1 ⇔ E [X ] − E [X ] + pE [X ] = 1 ⇔ E [X ] =
p
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 314 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Geometrische Verteilung Geo(p)

Erwartungswert:
1
E [X ] =
p

Varianz: (ohne Beweis)

1 1
Var (X ) = −
p2 p

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 315 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete W’keitsverteilungen: Hypergeometrische Verteilung Hyp(n, r , s)

Als nächstes folgt eine etwas verrückte Verteilungsklasse: Gegeben sei eine Urne
mit r roten und s schwarzen Kugeln. Aus dieser Urne ziehen wir ohne Zurücklegen
n Kugeln. Mit welcher Wahrscheinlichkeit werden dabei genau k rote Kugeln
gezogen?

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 316 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete W’keitsverteilungen: Hypergeometrische Verteilung Hyp(n, r , s)

Anwendungen:
In einer Grundgesamtheit von r + s Individuen gibt es r gute und s schlechte
Individuen (z.B. Pralinen mit und ohne Nougat-Füllung). Wir ziehen blind n
Individuen und wollen wissen, mit welcher Wahrscheinlichkeit wir wie viele
gute Individuen gezogen haben. Oder, im Umkehrschluss, wie viele Individuen
müssen wir ziehen, um eine gewisse Anzahl guter Kandidaten zu erhalten.
Capture-Recapture: Wähle aus einer Grundgesamtheit zufällig r Individuen,
markiere diese und lege sie wieder zurück. Ziehe jetzt blind n Individuen und
betrachte, wie viele gute (markierte) Individuen gezogen wurden. So kann
z.B. die Größe einer Gesamtpopulation geschätzt werden, ohne alle Individuen
zählen zu müssen.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 317 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete W’keitsverteilungen: Hypergeometrische Verteilung Hyp(n, r , s)

Urnenmodell
k = Anzahl rote Kugeln nach n-maligem Ziehen aus einer Urne mit r roten und s
schwarzen Kugeln ohne Zurücklegen
Ω sind alle Möglichkeiten, die n Ziehungen“ auf

die r + s Kugeln zu verteilen.
r +s

Davon gibt es |Ω| = n .

Die günstigen Fälle sind alle, in denen k rote


und n − k schwarze Kugeln auf die n gezogenen
verteilt werden.
Davon gibt es |{ω ∈ Ω|X (ω) = k}| = kr · n−k s
 
.
Die W’keit für k rote Kugeln beträgt also
r s
 
X k · n−k
P(X = k) = p (k) = r +s
 TX =
n {max(0, n − s), . . . , min(n, r )}
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 318 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen

Erwartungswert: (ohne Beweis)


nr
E[X ] =
r +s

Varianz: (ohne Beweis)


r
r s r +s −n
Var (X ) = n
r +s r +s r +s −1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 319 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Diskrete Gleichverteilung G (x1 , . . . , xn )

Wenn jedes Element des Trägers mit gleicher Wahrscheinlichkeit auftreten kann
(Beispiel: Fairer Würfelwurf), dann liegt eine diskrete Gleichverteilung vor.
P({ω ∈ Ω|X (ω) = x1 }) = P({ω ∈ Ω|X (ω) = x2 }) = . . . = P({ω ∈ Ω|X (ω) = xn })

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 320 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Diskrete Gleichverteilung G (x1 , . . . , xn )

Träger: TX = {x1 , ..., xn }

1
Zähldichte: p(x) = n ∀x ∈ TX

Verteilungs-
n
1
P
funktion: F (x) = n I (xi ≤ x)
i=1

Wichtiger Spezialfall G (1, . . . , n):


Gleichverteilung auf den Zahlen 1, ..., n,
z.B. Würfelwurf mit n = 6.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 321 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Diskrete Gleichverteilung G (x1 , . . . , xn )

J
P
Erwartungswert: E[X ] = p(xj ) · xj
j=1

n n
X 1 1X
· xj = xj = T X
n n
j=1 j=1

Varianz Var(X ) = E[(X − E[X ])2 ]


n
1X
(xj − T¯X )2 = dT2 X
n
j=1

Erwartungswert und Varianz entsprechen


also arithmetischem Mittel und
empirischer Varianz des Trägers.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 322 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Diskrete Gleichverteilung G (1, . . . , n)
Jetzt: TX = {1, ..., n} Erwartungswert:
J
P
E[X ] = p(xj ) · xj
j=1

n
1X 1 n · (n + 1) n+1
j= =
n n 2 2
j=1

Varianz Var(X ) = E [X 2 ] − E [X ]2
n
1X 2 1 n(n + 1)(2n + 1)
E [X 2 ] = j =
n j=1 n 6

(n + 1)(2n + 1) (n + 1)2
E [X 2 ] − E [X ]2 = −
6 4
(4n2 + 6n + 2) − (3n2 + 6n + 3) n2 − 1
= =
12 12

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 323 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Poisson-Verteilung Poi(λ)
Die Verteilung der seltenen Ereignisse: In einem festgeschriebenem Zeitintervall [t0 , t1 ]
(z.B. 90 Minuten) finden hin und wieder Ereignisse statt (z.B. geschossene Tore beim
Fußball). Mit welcher Wahrscheinlichkeit finden k Ereignisse statt?
Im Gegensatz zur Binomial-Verteilung führen wir hier keine feste Anzahl Experimente
durch und zählen Erfolge / Misserfolge. Die Anzahl der durchgeführten Experimente und
insbesondere die Anzahl der fehlgeschlagenen Experimente ist unbekannt. Entsprechend
ist auch die Anzahl möglicher Erfolge nach oben nicht begrenzt - wir haben hier also eine
weitere Verteilung mit nicht endlichem Träger TX = {0, 1, 2, ...}.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 324 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Poisson-Verteilung Poi(λ)
Herleitung der Zähldichte:
Es gelten folgende Annahmen:

1 Zwei Ereignisse könnne nicht gleichzeitig auftreten,


2 die Wahrscheinlichkeit für das Auftreten eines Ereignisses in einem Zeitintervall der
Länge ∆t beträgt λ∆t,
3 die Wahrscheinlichkeit für das Eintreten eines Ereignisses hängt lediglich von der
Länge von ∆t ab, und nicht von seiner Lage innerhalb des Zeitraums [t0 , t1 ],

Dann lässt sich zeigen, dass sich die Wahrscheinlichkeit für das Auftreten von k
Ereignissen innerhalb eines Zeitraums ergibt als:
(
λk
X k!
e −λ für k ∈ {0, 1, 2, ..., ∞}
p (k) = P(X = k) =
0, sonst

Die zugehörige Zufallsvariable folgt einer sogenannten Poisson-Verteilung.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 325 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

8.1 Wichtige Wahrscheinlichkeitsverteilungen


Diskrete Wahrscheinlichkeitsverteilungen: Poisson-Verteilung Poi(λ)

Die Herleitung läuft über den Grenzwert


lim der Binomialverteilung: Unterteile den
n→∞
Zeitraum in gleich große Intervalle, in jedem
findet ein Bernoulli-Experiment statt. Lasse
die Länge der Intervalle gegen 0 gehen und
betrachte die Anzahl der Erfolge im
Grenzwert.

Erwartungswert: (Beweis: Übung)

E [X ] = λ

Varianz: (Ohne Beweis)

Var (X ) = λ

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 326 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.2 Stetige Verteilungen

8.2 Wichtige Wahrscheinlichkeitsverteilungen


Stetige Wahrscheinlichkeitsverteilungen: Rechteckverteilung R(a, b)
Wir bleiben bei den Eigenschaften der Poisson-Verteilung, interessieren uns jetzt aber
nicht für den Zeitpunkt des ersten Ereignisses, sondern für den Zeitpunkt eines beliebigen
Ereignisses. Beispiel: In welcher Minute der Übung unterbricht ein Ausfall des privaten
W-Lans des Tutors die Zoom-Sitzung?
Zur Erinnerung:

2 Die Wahrscheinlichkeit für das Auftreten eines Ereignisses in einem Zeitintervall der
Länge ∆t beträgt λ∆t.
3 Die Wahrscheinlichkeit für das Eintreten eines Ereignisses hängt lediglich von der
Länge von ∆t ab, und nicht von seiner Lage innerhalb des Zeitraums [t0 , t1 ].

Hier betrachten wir jetzt die stetige Verallgemeinerung der diskreten Gleichverteilung:
Die Wahrscheinlichkeit für das Auftreten eines Ereignisses ist stets gleich groß. Nur, dass
wir jetzt nicht endlich viele diskrete Zeitpunkte, sondern stetige Zeitpunkte in einem
Intervall [a, b], a ∈ R, b ∈ R, a < b betrachten.
Aufgrund der Form der Dichte-Funktion wird diese Verteilung häufig auch als
Rechteckverteilung bezeichnet.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 327 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.2 Stetige Verteilungen

8.2 Wichtige Wahrscheinlichkeitsverteilungen


Stetige Wahrscheinlichkeitsverteilungen: Rechteckverteilung R(a, b)
Träger:
TX = [a, b]
Dichtefunktion:
I (a ≤ x ≤ b)
f X (x) = ∀x ∈ TX
b−a
Verteilungsfunktion:
min(x, b) − a
F X (x) = I (a ≤ x) ·
b−a
Erwartungswert:
b b
1 x2
Z 
x
E [X ] = dx =
b−a 2b−a a
a

b 2 − a2 (b − a)(b + a) a+b
= = =
2(b − a) 2(b − a) 2

Varianz: (ohne Beweis)


Zb
(x − E [X ])2 (b − a)2
Var (X ) = dx =
b−a 12
a
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 328 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.2 Stetige Verteilungen

8.2 Wichtige Wahrscheinlichkeitsverteilungen


Stetige Wahrscheinlichkeitsverteilungen: Exponential-Verteilung Exp(λ)
Als Erweiterung der Poisson-Verteilung können wir uns die Frage stellen: Wie viel Zeit
vergeht zwischen 2 Ereignissen? Im Gegensatz zur Rechteckverteilung interessiert uns
nicht der Zeitpunkt eines beliebigen, sondern der Zeitpunkt des ersten Ereignis.
Alternativ ist dies häufig motiviert über die Fragestellung: Wie lange dauert es, bis ein
Bauteil ausfällt?
Bezeichne daher X als die Zufallsvariable der vergangen Zeit bis zum ersten Auftreten
eines Ereignisses. Dabei gelten weiterhin die 3 grundlegenden Annahmen der
Poisson-Verteilung, insbesondere:
die Wahrscheinlichkeit für das Auftreten eines Ereignisses in einem Zeitintervall der
Länge ∆t beträgt konstant λ∆t.
Die Verteilung von X ist stark mit der Geometrischen Verteilung verwandt: Die
geometrische Verteilung gibt an, wie viele diskrete Experimente bis zum ersten Erfolg
durchgeführt werden müssen. Im jetzt stetigen Fall werden keine einzelnen Experimente
mehr durchgeführt, sondern lediglich die Zeit bis zum ersten Ereignis betrachtet.
In Anlehnung an die analytische Form ihrer Verteilungsfunktion wird diese Verteilung als
Exponentialverteilung bezeichnet.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 329 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.2 Stetige Verteilungen

8.2 Wichtige Wahrscheinlichkeitsverteilungen


Stetige Wahrscheinlichkeitsverteilungen: Exponentialverteilung Exp(λ)
Herleitung der Verteilungsfunktion
Die Verteilungsfunktion ergibt sich als Grenzwert der Geometrischen Verteilung. Dazu
betrachten wir die W’keit P(X > x), dass das Ereignis nach dem Zeitpunkt x auftritt.
Sei jetzt λ die Wahrscheinlichkeit dafür, dass das Ereignis in einem Intervall der Länge
∆t = 1 auftritt (→ Bernoulli-Experiment). Unterteile die Intervalle in n gleich große
Abschnitte. In jedem Abschnitt beträgt die Wahrscheinlichkeit für das Ereignis daher λn .
Damit das Ereignis erst nach x Versuchen zum ersten Mal auftritt, muss es vorher nx
Misserfolge geben (→ Geometrische Verteilung): P(X > x) = (1 − λn )nx .
Lasse jetzt im Grenzwert die Anzahl der Teilintervalle gegen unendlich gehen:
 nx
λ
lim P(X > x) = lim 1 − = e −λx .
n→∞ n→∞ n

Der Übergang zur Gegenwahrscheinlichkeit P(X ≤ x) definiert die Verteilungsfunktion:

F X (x) = P(X ≤ x) = 1 − P(X > x) = 1 − e −λx , ∀x > 0.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 330 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.2 Stetige Verteilungen

8.2 Wichtige Wahrscheinlichkeitsverteilungen


Stetige Wahrscheinlichkeitsverteilungen: Exponentialverteilung Exp(λ)

Träger:
TX = [0, ∞)
Verteilungsfunktion:
F X (x) = (1 − e −(λ·x) )∀x ∈ TX
Dichtefunktion:
f X (x) = λe −(λ·x) ∀x ∈ TX
Erwartungswert:
Z∞
1
E [X ] = xλe −λx dx =
λ
0

Varianz:
Z∞  2
1 1
Var (X ) = x− λe −λx dx = 2
λ λ
0
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 331 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.2 Stetige Verteilungen

8.2 Wichtige Wahrscheinlichkeitsverteilungen


Stetige Wahrscheinlichkeitsverteilungen: Normalverteilung N(µ, σ 2 )
Losgelöst von allen bisherigen Betrachtungen stellt die Normalverteilung die wohl
bekannteste statistische Verteilung dar. Diese ist definiert über ihre Dichtefunktion: Eine
Zufallsvariable heißt Normalverteilung mit Erwartungswert µ und Standardabweichung σ,
falls ihre Dichte die Form
 
1 1  x − µ 2
f X (x) = √ exp −
2πσ 2 2 σ

hat. Oft wird auch die Standardnormalverteilung N(0, 1) mit µ = 0 und σ = 1


betrachtet:
 2
1 x
f X (x) = √ exp −
2π 2

Im Gegensatz zu den bisherigen Verteilungen lässt sich die Normalverteilung nicht direkt
oder indirekt aus Bernoulli-Experimenten ableiten, sondern stellt zunächst einmal ein rein
theoretisches Konstrukt dar. Ihre Bedeutung wird erst über den folgenden, zentralen Satz
klar:
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 332 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.2 Stetige Verteilungen

8.2 Wichtige Wahrscheinlichkeitsverteilungen


Stetige Wahrscheinlichkeitsverteilungen: Normalverteilung N(µ, σ 2 )
Zentraler Grenzwertsatz
Seien X1 , ... Xn unabhängig und identisch verteile Zufallsvariablen mit E [Xi ] = µ und
Var (Xi ) = σ 2 > 0. Dann konvergiert die Verteilungsfunktion der Zufallsvariable Zn mit
der standardisierten Summe der X1 , ... Xn
n
X Xi − µ
Zn = √
i=1

gegen die Verteilungsfunktion einer Standardnormalverteilung.


Wenn wir also nur genügend Zufallsvariablen addieren, und dabei die Annahme der
unabhängigen und identischen Verteilung nicht zu stark verletzt ist, so folgt die Summe
zumindest approximativ einer Normalverteilung. Dadurch motiviert lassen sich viele
praktische Zufallsexperimente zumindest approximativ durch eine Normalverteilung
beschreiben.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 333 / 545
8 Wichtige Wahrscheinlichkeitsverteilungen 8.2 Stetige Verteilungen

8.2 Wichtige Wahrscheinlichkeitsverteilungen


Stetige Wahrscheinlichkeitsverteilungen: Normalverteilung N(µ, σ 2 )

Träger:
TX = R
Dichtefunktion:
1 1 x−µ 2
f X (x) = √ e− 2 ( σ )
2πσ 2

Verteilungsfunktion:
Zx
1 1 t−µ 2
F X (x) = √ e − 2 ( σ ) dt
2πσ 2
−∞

Erwartungswert:
E [X ] = µ
Varianz:
Var (X ) = σ 2

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 334 / 545
Mehrdimensionale Wahr-
scheinlichkeitsverteilungen
9 Mehrdimensionale Zufallsvariablen

9.0 Mehrdimensionale Wahrscheinlichkeitsverteilungen


Was bisher geschah:
Es gibt Zufallsprozesse, die unvorhersagbare Ergebnisse erzeugen.
Auf den Zufallsprozessen können wir Wahrscheinlichkeitsräume definieren, die
jedem Ereignis des Zufallsprozesses eine Wahrscheinlichkeit zuordnen.
Auf den Ereignissen definieren wir Zufallsvariablen mit Verteilung P X .
Wir haben verschiedene übliche Verteilungen kennen gelernt.
Das nächste Ziel:
Bis jetzt zumeist nur die Betrachtung eines einzeln Zufallsexperiments. Was, wenn
mehrere Experimente vorliegen?
Bedingte Wahrscheinlichkeiten und stochastische Unabhängigekeit
Wie sieht die gemeinsame Verteilung von 2 Zufallsvariablen aus?
Wahrscheinlichkeitstheoretische Kennzahlen bei mehreren Zufallsvariablen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 336 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Bisher: Wahrscheinlichkeitsraum (Ω, A, P)
Grundraum Ω, Menge aller Ereignisse A auf Ω, Wahrscheinlichkeitsmaß P auf Ω

P : A → [0, 1], A 7→ P(A)


1 0 ≤ P(A) ≤ 1 für jedes Ereignis A ∈ A
2 P(Ω) = 1

S  P∞
3 P Ai = P(Ai ) für alle paarweise disjunkten Ereignisse Ai ∈ A
i=1 i=1

Im wichtigen Spezialfall des Laplace-Raums (jedes ωi ∈ Ω tritt mit gleicher


Wahrscheinlichkeit auf) haben wir Wahrscheinlichkeiten darauf zurückgeführt, die
Anzahl der guten durch die Anzahl aller möglichen Ereignisse zu teilen.
Beispiel:
Fairer Würfelwurf. Wir suchen P(A|B) mit A = Augenzahl größer 3.
Ω = {1, 2, 3, 4, 5, 6}, |Ω| = 6|; A = {4, 5, 6}, |A| = 3
|A| 3 1
⇒ P(A) = |Ω| = 6 = 2
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 337 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Jetzt: Betrachte 2 Ereignisse A ⊂ Ω und B ⊂ Ω. Wie groß ist die
Wahrscheinlichkeit dafür, dass A eintritt, wenn B bereits eingetreten ist?
Betrachte jetzt den Wahrscheinlichkeitsraum (B, B, P(·|B))
Einschränkung des Grundraums B ⊂ Ω, Wahrscheinlichkeitsmaß P(·|B) auf B

P(·|B) : B → [0, 1], A 7→ P(A|B))


1 0 ≤ P(A|B) ≤ 1 für jedes Ereignis A ∈ B
2 P(B|B) = 1

S  P∞
3 P Ai |B = P(Ai |B) für alle paarweise disjunkten Ereignisse Ai ∈ B
i=1 i=1

Beispiel:
Fairer Würfelwurf. Wir suchen PB (A) mit A = Augenzahl größer 3, wenn bereits
bekannt ist, dass Ereignis B: Gewürfelte Augenzahl ist ungerade eingetreten ist.
Ω = {1, 2, 3, 4, 5, 6}, A = {4, 5, 6}, B = {1, 3, 5}
P(A|B) =?
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 338 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Wahrscheinlichkeitsraum (Ω, A, P)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 339 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Wahrscheinlichkeitsraum (Ω, A, P)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 340 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Wahrscheinlichkeitsraum (Ω, A, P) Wahrscheinlichkeitsraum (B, B, P(·|B))

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 341 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Wahrscheinlichkeitsraum (Ω, A, P) Wahrscheinlichkeitsraum (B, B, P(·|B))

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 342 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Wahrscheinlichkeitsraum (Ω, A, P) Wahrscheinlichkeitsraum (B, B, P(·|B))

1 = P(Ω) = P(Ω|Ω) 1 = P(B|B)


c c c
= P(A ∩ B ) + P(A ∩ B ) = P(A|B) + P(Ac |B)
+ P(A ∩ B) + P(Ac ∩ B) = P(A ∩ B|B) + P(Ac ∩ B|B)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 343 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Wahrscheinlichkeitsraum (Ω, A, P) Wahrscheinlichkeitsraum (B, B, P(·|B))

Die Wahrscheinlichkeit
P(A ∩ B)
P(A|B) =
P(B)
heißt bedingte Wahrscheinlichkeit von A gegeben B.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 344 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Beispiel: einfacher Würfelwurf A = Zahl größer 3
B = Zahl ungerade
Wahrscheinlichkeitsraum (Ω, A, P) Wahrscheinlichkeitsraum (B, B, PB )

3 3 P(B ∩ B|Ω)
P(A|Ω) = , P(B|Ω) = P(B|B) = =1
6 6 P(B|Ω)
1 P(A ∩ B|Ω) 1
P(A ∩ B|Ω) = P(A|B) = =
6 P(B|Ω) 3

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 345 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Beispiel: vierfacher Münzwurf A = genau zweimal Kopf nach vier Würfen
B = mindestens einmal Kopf nach zwei Würfen
Wahrscheinlichkeitsraum (Ω, A, P) Wahrscheinlichkeitsraum (B, B, PB )

6 12 P(A ∩ B|Ω) 5
P(A|Ω) = , P(B|Ω) = P(A|B) = = ≈ 0.417
16 16 P(B|Ω) 12
5
P(A ∩ B|Ω) = = 0.3125
16

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 346 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Stochastische Unabhängigkeit von Ereignissen

Bis jetzt: Die Wahrscheinlichkeit dafür, dass Ereignis A eintritt, ändert sich, wenn
der Ausgang des Ereignisses B bekannt ist. Ist das immer so?
Beispiel: Wir würfeln 2 Würfel.
Ereignis A: Würfel 1 zeigt eine 1, Ereignis B: Würfel 2 zeigt eine 1.
1
Ω = {(1, 1), (1, 2), ..., (2, 1), ..., (6, 6)}, |Ω| = 36, P(ω) = 36 , ∀ω ∈ Ω
A = {(1, 1), (1, 2), ..., (1, 6)}, |A| = 6, B = {(1, 1), (2, 1), ..., (6, 1)}, |B| = 6

|A| 6 1 P(A∩B) P({(1,1)}) 1


P(A) = |Ω| = 36 = 6 P(A|B) = P(B) = P(B) = 6

In diesem Fall gilt also: P(A) = P(A|B), d.h. die Wahrscheinlichkeit für das
Eintreten von A ändert sich nicht, wenn Information B vorliegt. Diese Eigenschaft
zweier Ereignisse wird als stochastische Unabhängigkeit bezeichnet und ist die
Grundlage für viele weitere statistische Methoden.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 347 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Stochastische Unabhängigkeit von Ereignissen

Zwei Ereignisse A und B aus (Ω, A, P) heißen stochastisch unabhängig, wenn


gilt:

P(A|B) = P(A) oder umgekehrt P(B|A) = P(B)

Daraus folgt, falls außerdem P(B) > 0 bzw. P(A) > 0 gilt:

P(A ∩ B)
P(A) = P(A|B) = ⇔ P(A ∩ B) = P(A) · P(B)
P(B)

Wenn zwei Ereignisse stochastisch unabhängig sind, ergibt sich die


Wahrscheinlichkeit dafür, dass beide Ereignisse gleichzeitig eintreten (d.h. der
Schnitt der beiden Ereignisse), als Produkt der Einzelwahrscheinlichkeiten.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 348 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Stochastische Unabhängigkeit von Ereignissen

Das Prinzip der stochastischen Unabhängigkeit von zwei Ereignissen lässt sich auf
beliebig viele Ereignisse erweitern, dabei unterscheiden wir 2 Fälle:

Eine Menge von n ∈ N Ereignissen A1 , . . . , An aus (Ω, A, P) heißt paarweise


stochastisch unabhängig, wenn gilt:

P(Ai ∩ Aj ) = P(Ai ) · P(Aj ), j ̸= i, j = 1, . . . , n, i = 1, . . . , n

Eine Menge von n Ereignissen aus (Ω, A, P) heißt gemeinsam stochastisch


unabhängig, wenn gilt:
s
\  s
Y
P Aij = P(Aij ), {i1 , . . . , is } ⊆ {1, . . . , n}
j=1 j=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 349 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Stochastische Unabhängigkeit von Ereignissen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 350 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Stochastische Unabhängigkeit von Ereignissen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 351 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Stochastische Unabhängigkeit von Ereignissen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 352 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Stochastische Unabhängigkeit von Ereignissen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 353 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Stochastische Unabhängigkeit von Ereignissen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 354 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Stochastische Unabhängigkeit von Ereignissen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 355 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Stochastische Unabhängigkeit von Ereignissen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 356 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz der totalen Wahrscheinlichkeit

Bisher:
Gegeben sind zwei Ereignisse, deren Wahrscheinlichkeiten P(A) und P(B)
bekannt sind. Wie hängen diese beiden Ereignisse zusammen, d.h. wie ändert sich
die P(A), wenn die Information über B bekannt ist?
Jetzt:
Teile den Raum Ω in disjunkte Ereignisse B1 , ..., Bk ein:
k
[
Ω= Bi , Bi ∩ Bj = ∅ ∀i, j
i=1

Beispiel: Unterteilung der Studierenden nach Studiengang


Betrachte jetzt ein weiteres Ereignis A, dessen Wahrscheinlichkeit P(A) sich nicht
direkt / nur schwierig bestimmen lässt. Die Bestimmung der bedingten
Wahrscheinlichkeiten P(A|Bi ) ist jedoch einfach möglich. Wie lässt sich P(A) aus
den P(A|Bi ) ableiten?
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 357 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz der totalen Wahrscheinlichkeit

Beispiel:
H. schreibt dieses Semester die Wrums-Klausur mit. Wichtig ist dabei vor allem
die Aufgabe 7. Er möchte vorab abschätzen, mit welcher Wahrscheinlichkeit er
diese richtig löst (Ereignis A). Sie kommt aus einem der 3 Themengebiete:
B1 Einfache Lineare Regression
B2 Erwartungswert berechnen
B3 Bedingte Wahrscheinlichkeiten
H. hat die Themen unterschiedlich gut verstanden. Er schätzt daher, dass er eine
Aufgabe aus Gebiet B1 mit Wahrscheinlichkeit 75% löst, aus B2 mit 60% und aus
B3 mit 45%:

P(A|B1 ) = 0.75, P(A|B2 ) = 0.60, P(A|B3 ) = 0.45

Weiter nimmt H. an, dass die Wahrscheinlichkeit für jedes der Themengebiete
gleich groß ist (P(B1 ) = P(B2 ) = P(B3 )). Wie groß ist P(A)?
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 358 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz der totalen Wahrscheinlichkeit

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 359 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz der totalen Wahrscheinlichkeit

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 360 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz der totalen Wahrscheinlichkeit

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 361 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz der totalen Wahrscheinlichkeit

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 362 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz der totalen Wahrscheinlichkeit
n
S
Sei B1 , ..., Bk eine dsijunkte Zerlegung von Ω: Bi = Ω, i ̸= j ⇒ Bi ∩ Bj = ∅.
i=1
k
X
Dann gilt für A ⊂ Ω: P(A) = P(A|Bi ) · P(Bi ) .
i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 363 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz der totalen Wahrscheinlichkeit

Beispiel:
Zurück zur Klausuraufgabe von Student H. Zur Erinnerung:

P(A|B1 ) = 0.75, P(A|B2 ) = 0.60, P(A|B3 ) = 0.45

1
Weiter gilt: P(B1 ) = P(B2 ) = P(B3 ) = 3 und Ω = B1 ∪ B2 ∪ B3 .

P(A) = P(A|B1 ) · P(B1 ) + P(A|B2 ) · P(B2 ) + P(A|B3 ) · P(B3 )


1 1 1
= 0.75 · + 0.60 · + 0.45 ·
3 3 3
= 0.60

Student H. kann die Aufgabe also mit 60% Wahrscheinlichkeit lösen.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 364 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz der totalen Wahrscheinlichkeit

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 365 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz von Bayes

Gegeben seien weiterhin 2 Ereignisse A ⊂ Ω und B ⊂ Ω .


In vielen Situationen ist es einfach, die Wahrscheinlichkeit von P(A|B) zu
bestimmen, während die umgekehrte Wahrscheinlichkeit P(B|A) unbekannt ist.
Beispiel:

A = Testergebnis ist positiv (Schnelltest in Selbstdurchführung)


B = Patient ist krank (Aufwendige Begutachtung durch Experten)

P(A|B) lässt sich leicht bestimmen: Wir testen offensichtlich kranke und gesunde
Personen und können in jeder Gruppe die Anzahl der positiven / negativen
Ergebnisse bestimmen.
P(B|A) ist deutlich schwieriger: Ich habe ein positives Ergebnis erhalten und
möchte wissen, mit welcher Wahrscheinlichkeit ich tatsächlich erkrankt bin.
Lässt sich P(B|A) vielleicht auf P(A|B) zurückführen?
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 366 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz von Bayes

Beispiel:
Wir bauen einen (einfachen und ziemlich veralteten) Spamfilter: Betrachte eine
E-Mail als Spam, falls Sie das Wort Maximalgewinn beinhaltet. Alle Spam-Mails
werden automatisch geblockt, alle anderen Mails werden ausgeliefert.
Uns als Nutzer dieses Filters interessiert jetzt die Frage: Wenn wir eine E-Mail
erhalten, mit welcher Wahrscheinlichkeit handelt es sich hierbei um (k)eine Spam
E-Mail?
Alternative Frage: Wie viele der geblockten Mails waren Spam / kein Spam?
Beide Fragen lassen sich nicht direkt beantworten, da wir hier auf die unbekannte
Information: Eine E-Mail ist Spam / kein Spam bedingen müssen.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 367 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz von Bayes

Beispiel:
Definiere im Spam-Beispiel die folgenden Ereignisse
A: Eine Mail enthält das Wort Maximalgewinn und wird darum von unserem
automatischen Filter als Spam erkannt und darum geblockt
Ac : Eine Mail ohne das Wort Maximalgewinn wird als echte Mail eingestuft
B: Die Mail ist tatsächlich eine Spam-Mail
B c : Die Mail ist keine Spam-Mail
Weiterhin sei aus Voruntersuchungen bekannt:
P(A|B) = 0.95: W’keit, dass Spam-Mail das Wort Maximalgewinn enthält,
P(A|B C ) = 0.02: W’keit, dass Nicht-Spam-Mail das Wort Maximalgewinn enthält,
P(B) = 0.30: W’keit dafür, dass eine Mail tatsächlich Spam ist.

Gesucht ist jetzt:


P(B C |AC ): Die W’keit dafür, dass eine nicht geblockte Mail keine Spam-Mail ist,
P(B|A): Die W’keit dafür, dass eine geblockte Mail eine Spam-Mail ist.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 368 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz von Bayes

Nach der Definition der bedingten W’keit gilt:


P(A ∩ B)
P(B|A) =
P(A)
Aus gleicher Definition mit A und B vertauscht folgt der sogenannte Produktsatz:
P(A ∩ B)
P(A|B) = ⇔ P(A ∩ B) = P(A|B) · P(B)
P(B)
Weiter gilt nach dem Satz der totalen Wahrscheinlichkeit mit Ω = A ∪ Ac :
P(A) = P(A|B) · P(B) + P(A|B c ) · (1 − P(B))

Setzen wir dies ineinander ein, ergibt sich der Satz von Bayes in seiner einfachen
Fassung:

P(A|B) · P(B) P(A|B) · P(B)


P(B|A) = =
P(A) P(A|B) · P(B) + P(A|B c ) · (1 − P(B))
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 369 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz von Bayes

Beispiel: Spam-Filter
Ereignis A: Mail enthält das Wort Maximalgewinn ⇒ Klassifiziere Mail als Spam
Ereignis B: Mail ist Spam
P(A|B) = Sensitivität = W’keit, Spam als solchen zu klassifizieren
P(Ac |B c ) = Spezifität = W’keit, normale Mails nicht als Spam zu klassifizieren

B : Mail ist Spam B c : Mail ist kein Spam


A : Maximalgewinn in Mail P(A|B) P(A|B c ) = 1−P(Ac |B c )
Ac : Maximalgewinn nicht P(Ac |B) = 1−P(A|B) P(Ac |B c )
in Mail

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 370 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz von Bayes

Beispiel: Spam-Filter
P(A|B) = Sensitivität = W’keit, Spam als solchen zu klassifizieren
P(Ac |B c ) = Spezifität = W’keit, normale Mails nicht als Spam zu klassifizieren

Gesucht: W’keit, dass klassifizierte Mail Spam ist

P(A|B) · P(B) P(A|B) · P(B)


P(B|A) = =
P(A) P(A|B) · P(B) + (1 − P(Ac |B c )) · (1 − P(B))

Die 1. Formulierung benötigt P(A) und P(B). Da P(A) oftmals und auch hier
unbekannt ist, verwende die 2. Variante, hier istdie Angabe der sogenannten
Prävalenz P(B) ausreichend. Beachte auch die Umformulierung hier, in der
P(A|B c ) auf die zugehörige Gegenwahrscheinlichkeit zurückgeführt wird.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 371 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz von Bayes

Beispiel: Spam-Filter

Gegeben:
B : Mail ist Spam B c : Mail ist kein Spam
P(A|B) = Sensitivität =0.95 A : Maximalgewinn 0.95 0.02
in Mail
P(Ac |B c ) = Spezifiztät =0.98
Ac : Maximalgewinn 0.05 0.98
P(B) = Prävalenz =0.3 nicht in Mail

P(A|B) · P(B)
P(B|A) =
P(A|B) · P(B) + (1 − P(Ac |B c )) · (1 − P(B))
0.95 · 0.3 0.285
= = ≈ 0.9532
0.95 · 0.3 + (1 − 0.98) · (1 − 0.3) 0.299

⇒ Unter den gegebenen Annahmen sind 95% der geblockten E-Mails tatsächlich
Spam, während 5% der geblockten E-Mails zu unrecht geblockt werden
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 372 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz von Bayes

Beispiel: Spam-Filter

Gegeben:
B : Mail ist Spam B c : Mail ist kein Spam
P(A|B) = Sensitivität =0.95 A : Maximalgewinn 0.95 0.02
in Mail
P(Ac |B c ) = Spezifiztät =0.98
Ac : Maximalgewinn 0.05 0.98
P(B) = Prävalenz =0.3 nicht in Mail

P(Ac |B c ) · P(B c )
P(B c |Ac ) =
P(Ac |B c )· P(B c ) + (1 − P(A|B)) · (1 − P(B c ))
0.98 · 0.7 0.686
= = ≈ 0.9786
0.98 · 0.7 + (1 − 0.95) · 0.3 0.701

⇒ Unter den gegebenen Annahmen sind 98% der nicht-geblockten E-Mails kein
Spam, während 2% Spam sind.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 373 / 545
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten

9.1 Bedingte Wahrscheinlichkeiten


Satz von Bayes

Bei der Herleitung des Satzes von Bayes haben wir den Spielfall des Satzes der
totalen Wahrscheinlichkeit mit den Mengen A ∪ Ac = Ω verwendet. Der Satz von
Bayes lässt sich auch mit der vollständigen Definition des Satzes der totalen
Wahrscheinlichkeit verwenden:
Sk
Sei B1 , ..., Bk eine disjunkte Zerlegung von Ω: Bi = Ω, i ̸= j ⇒ Bi ∩ Bj = ∅.
i=1
n
P
Dann gilt für A ⊂ Ω: P(A) = P(A|Bi ) · P(Bi ).
i=1

Damit gilt für den Satz von Bayes:

P(A|Bj ) · P(Bj ) P(A|Bj ) · P(Bj )


P(Bj |A) = = k , j = 1, ..., k
P(A) P
P(A|Bi ) · P(Bi ))
i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 374 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen

Sei wie üblich ein Wahrscheinlichkeitsraum (Ω, A, P) gegeben. Seien weiterhin


jetzt X : Ω → R und Y : Ω → R Zufallsvariablen mit Verteilungen P X und P Y .
Die univariaten Verteilungen P X und P Y haben wir bereits ausführlich untersucht.
Wie sieht jetzt die gemeinsame, bivariate Verteilung von X und Y aus?

Die Wahrscheinlichkeitsverteilung oder kurz Verteilung einer


zweidimensionalen Zufallsvariablen (X , Y ) ist definiert durch
P (X ,Y ) (B) = P((X , Y ) ∈ B) = P({ω ∈ Ω|(X (ω), Y (ω)) ∈ B}), B ⊆ R2
Die Funktion F = F (X ,Y ) : R2 → [0, 1] mit
F (x, y ) = P (X ,Y ) ((−∞, x] × (−∞, y ]) = P(X ≤ x, Y ≤ y )
= P({ω ∈ Ω|X (ω) ≤ x, Y (ω) ≤ y }), x, y ∈ R,
wird Verteilungsfunktion von (X , Y ) genannt. Definitionen von Zähldichte
p (X ,Y ) und Dichte f (X ,Y ) erfolgen analog zum univariaten Fall.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 375 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen
P (X ,Y ) (B) = P((X , Y ) ∈ B) = P({ω ∈ Ω|(X (ω), Y (ω)) ∈ B}), B ⊆ R2
F (x, y ) = P(X ≤ x, Y ≤ y ) = P({ω ∈ Ω|X (ω) ≤ x, Y (ω) ≤ y }), x, y ∈ R
Eigenschaften

1. lim F (x, y ) = lim F (x, y ) = lim F (x, y ) = 0


x→−∞ y →−∞ x,y →−∞

Beweis:
A = {ω ∈ Ω|X (ω) ≤ x, Y (ω) ≤ y } = Ax ∩ Ay mit Ax = {ω ∈ Ω|X (ω) ≤ x}
Ay = {ω ∈ Ω|Y (ω) ≤ y }
F (x, y ) = P(A) = P(Ax ∩ Ay ) = 1 − P(Acx ∪ Acy )

lim F (x, y ) = 1 − (P(Ac−∞ ∪ Acy ) = 1 − P(Ω ∪ Acy )


x→−∞

= 1 − [P(Ω) + P(Acy ) − P(Acy )] = 1 − 1 = 0

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 376 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen
P (X ,Y ) (B) = P((X , Y ) ∈ B) = P({ω ∈ Ω|(X (ω), Y (ω)) ∈ B}), B ⊆ R2
F (x, y ) = P(X ≤ x, Y ≤ y ) = P({ω ∈ Ω|X (ω) ≤ x, Y (ω) ≤ y }), x, y ∈ R
Eigenschaften

1. lim F (x, y ) = lim F (x, y ) = lim F (x, y ) = 0, lim F (x, y ) = 1


x→−∞ y →−∞ x,y →−∞ x,y →∞

2. lim F (x, y ) = F X (x), lim F (x, y ) = F Y (y )


y →∞ x→∞

Beweis:
A = {ω ∈ Ω|X (ω) ≤ x, Y (ω) ≤ y } = Ax ∩ Ay mit Ax = {ω ∈ Ω|X (ω) ≤ x}
Ay = {ω ∈ Ω|Y (ω) ≤ y }
c c
F (x, y ) = P(A) = P(Ax ∩ Ay ) = 1 − P(Ax ∪ Ay )

lim F (x, y ) = 1−P(Ac∞ ∪Acy ) = 1−P(∅ ∪Acy ) = 1−P(Acy ) = P(Ay ) = F Y (y )


x→∞

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 377 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen
P (X ,Y ) (B) = P((X , Y ) ∈ B) = P({ω ∈ Ω|(X (ω), Y (ω)) ∈ B}), B ⊆ R2
F (x, y ) = P(X ≤ x, Y ≤ y ) = P({ω ∈ Ω|X (ω) ≤ x, Y (ω) ≤ y }), x, y ∈ R
Eigenschaften

1. lim F (x, y ) = lim F (x, y ) = lim F (x, y ) = 0, lim F (x, y ) = 1


x→−∞ y →−∞ x,y →−∞ x,y →∞

2. lim F (x, y ) = F X (x), lim F (x, y ) = F Y (y )


y →∞ x→∞

Beweis (Fortsetzung):
lim F (x, y ) = F Y (y ) Beweis für lim F (x, y ) = F X (x) analog.
x→∞ y →∞

lim F (x, y ) = lim F Y (y ) = 1 F (x) und F Y (y ) heißen


X

x,y →∞ y →∞ Randverteilungen von X und Y

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 378 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen
P (X ,Y ) (B) = P((X , Y ) ∈ B) = P({ω ∈ Ω|(X (ω), Y (ω)) ∈ B}), B ⊆ R2
F (x, y ) = P(X ≤ x, Y ≤ y ) = P({ω ∈ Ω|X (ω) ≤ x, Y (ω) ≤ y }), x, y ∈ R
Eigenschaften
1. lim F (x, y ) = lim F (x, y ) = lim F (x, y ) = 0, lim F (x, y ) = 1
x→−∞ y →−∞ x,y →−∞ x,y →∞

2. lim F (x, y ) = F X (x), lim F (x, y ) = F Y (y )


y →∞ x→∞

3. x1 < x2 ⇒ F (x1 , y ) ≤ F (x2 , y ), y1 < y2 ⇒ F (x, y1 ) ≤ F (x, y2 )


Beweis
F (xi , y ) = P(Ai ) mit Ai = {ω ∈ Ω|X (ω) ≤ xi , Y (ω) ≤ y } Beweis für
F (x, y1 ) analog
x1 < x2 ⇒ A1 ⊆ A2 ⇒ P(A1 ) ≤ P(A2 ) ⇔ F (x1 , y ) ≤ F (x2 , y )

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 379 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen
Stetiger Fall: Ω überabzählbar
2
F (X ,Y ) (x,y )
Die Funktion f (X ,Y ) : R2 → [0, 1] mit f (X ,Y ) (x, y ) = δ δxδy heißt die
gemeinsame Dichtefunktion von X und Y . Es gilt:
Zx Zy
(X ,Y )
F (x, y ) = P(X ≤ x, Y ≤ y ) = f (X ,Y ) (s, t) dt ds
−∞ −∞

Z∞ Z∞
f (X ,Y ) (s, t) dt ds = 1
−∞ −∞
X
Die Randdichten f und f Y von X und Y sind definiert durch
Z∞ Z∞
X (X ,Y ) Y
f (x) = f (x, t) dt und f (y ) = f (X ,Y ) (s, y ) ds
−∞ −∞

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 380 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen
Diskreter Fall: Ω endlich oder abzählbar unendlich
Die Funktion p (X ,Y ) : R2 → [0, 1] mit p (X ,Y ) (x, y ) = P(X = x, Y = y ) heißt
gemeinsame Zähldichte von (X , Y ). Es gilt:
X X
F (X ,Y ) (x, y ) = P(X ≤ x, Y ≤ y ) = p (X ,Y ) (s, t)
s∈Tx ,s<x t∈Ty ,t<y

X X
p (X ,Y ) (s, t) = 1
s∈Tx t∈Ty

Die diskreten Randdichten p X und p Y von X und Y sind definiert durch


X X
p X (x) = p (X ,Y ) (x, t) und p Y (y ) = p (X ,Y ) (s, y )
t∈Ty s∈Tx

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 381 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen: Stetiges Beispiel

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 382 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen: Stetiges Beispiel

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 383 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen: Stetiges Beispiel

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 384 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen: Stetiges Beispiel

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 385 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen: Stetiges Beispiel

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 386 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionaler Zufallsvariablen: Diskretes Beispiel

Betrachte 5 Bernoulli-Experimente mit Erfolgswahrscheinlichkeit p = 0.5, z.B. das


5-malige Werfen einer fairen Münze.
Ω = {(0, 0, 0, 0, 0), (0, 0, 0, 0, 1), (0, 0, 0, 1, 0), ..., (1, 1, 1, 1, 1)}, |Ω| = 25 = 32

Wir haben hier einen Laplace-Raum vorliegen, in dem jedes Elementarereignis mit
1 1
gleicher Wahrscheinlichkeit |Ω| = 32 auftritt.
Betrachte die beiden Zufallsvariablen:

X Die Anzahl der erfolgreichen Experimente: Wie oft wurde Kopf geworfen?

Y Die Anzahl Experimente bis zum 1. Erfolg: Im wievielten Wurf gab es zum
1. Mal Kopf? Sei weiterhin Y := 6, falls kein Kopf geworfen wurde.

Wir wissen bereits: X ist binomial verteilt, und Y ist (in weiten Teilen)
geometrisch verteilt. Und was die gemeinsame Verteilung?
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 387 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Verteilung mehrdimensionale Zufallsvariablen: Diskretes Beispiel
Die Zähldichte p (X ,Y ) erhalten wir wie im univariaten Fall, indem wir für jede
Realisierung der Zufallsvariablen die W’keiten der Elementarereignisse addieren.
HH Y
ˆ X
P
1 2 3 4 5 6 =p
X HH H 1 1
0 0 0 0 0 0 ZZZZZ
32 32
1 1 1 1 1 5
1 KZZZZ
32
ZKZZZ
32
ZZKZZ
32
ZZZKZ
32
ZZZZK
32
0 32
KKZZZ
4 ZKKZZ 3 2 1 10
KZKZZ ZZKKZ
2 KZZKZ 32
ZKZKZ
32 ZZKZK 32
ZZZKK
32
0 0 32
ZKZZK
KZZZK
KZZKK
KZKZK
6 ZKZKK 3 1 10
KZKKZ
3 KKZKZ 32
ZKKZK
32
ZZKKK
32
0 0 0 32
ZKKKZ
KKZZK
KKKZZ
KZKKK
KKZKK 4 1 5
4 KKKZK 32
ZKKKK
32
0 0 0 0 32
KKKKZ
1 1
5 KKKKK
32
0 0 0 0 0 32

ˆ Y 16 8 4 2 1 1
P
=p 32 32 32 32 32 32
1
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 388 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Wichtige mehrdimensionaler Wahrscheinlichkeitsverteilungen:
Wir schauen uns als nächstes 2 Beispiele für bekannte, mehrdimensionale
Verteilungen an. Zunächst ein Beispiel für eine diskrete Verteilung, die
Multinomial-Verteilung:

Motivation: Verallgemeinerung der Binomial-Verteilung auf mehr als 2 Klassen:


Es gibt Objekte aus k Klassen und wiederholt wird ein Objekt gezogen. Wenn n
Objekte gezogen
P werden, mit welcher Wahrscheinlichkeit werden (x1 , ..., xk )
Objekte ( i xi = n) aus den Klassen 1, ..., k gezogen?

Beispiel: Man spielt einen Abend lang wiederholt Werwölfe von Düsterwald:
Jedem Spieler wird zufällig eine Rolle (Dorfbewohner, Werwolf, weitere
Sonderrolle) zugelost. Mit welcher Wahrscheinlichkeit war man nach n Spielen x1
mal Dorfbewohner, x2 mal Werwolf und hatte x3 eine weitere Sonderrolle?

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 389 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Wichtige mehrdimensionaler Wahrscheinlichkeitsverteilungen:
Diskrete Verteilung: Multinomialverteilung Mult(n, p1 , . . . , pk ) mit
k
P
n ∈ N, 0 ≤ pi ≤ 1, i = 1, . . . , k, pi = 1
i=1
Träger:
n k
X o
TX = x = (x1 , . . . , xk ) ∈ (N∪{0})k | xi = n
i=1

Zähldichte:
k
n! Y
p(x1 , . . . , xk ) = I(x ∈ TX ) · k
· pi
Q
xi ! i=1
i=1

Im Fall k = 2 entspricht die


Multinomialverteilung der
Binomialverteilung.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 390 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Wichtige mehrdimensionaler Wahrscheinlichkeitsverteilungen:
Stetige Verteilung: Multivariate Normalverteilung N(µ, Σ)
mit µ ∈ Rr , Σ ∈ Rr ×r , Σ p.s.d und Σ symmetrisch

Träger: TX = Rr

Dichtefunktion:
1 1 ⊤
Σ−1 (x−µ)
f (x1 , . . . , xr ) = p e − 2 (x−µ)
(2π)k/2 |Σ|

Kanonische Verallgemeinerung der


univariaten Normalverteilung auf den
mehrdimensionalen Fall

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 391 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Stochastische Unabhängigkeit von Zufallsvariablen:
Vorüberlegung:
Seien X und Y Zufallsvariablen mit Verteilungsfunktion F (X ,Y ) .
F (X ,Y ) (x, y ) = P(A ∩ B) = P(A) · P(B) = F X (x) · F Y (y )
mit A = {ω ∈ Ω|X (ω) ≤ x} und B = {ω ∈ Ω|Y (ω) ≤ y } gilt, wenn A und B
stochastisch unabhängig sind.

Folgerung:
Die Zufallsvariablen X und Y heißen stochastisch unabhängig, falls
F (X ,Y ) (x, y ) = F X (x) · F Y (y ) für alle x, y ∈ R

Die Zufallsvariablen X1 , . . . , Xn heißen stochastisch unabhängig, falls


n
Y
F (X1 ,...,Xn ) (x1 , . . . , xn ) = F Xi (xi ) für alle x1 , . . . , xn ∈ R
i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 392 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Stochastische Unabhängigkeit von Zufallsvariablen:
Seien X und Y stochastisch unabhängige Zufallsvariablen mit Verteilungsfunktion
F (X ,Y ) (x, y ) = F X (x) · F Y (y ) ∀x, y ∈ R.
Was gilt in diesem Fall für die (Zähl)-Dichte?
X und Y diskret:

⇒ p (XY ) (xi , yj ) = P(A ∩ B)


= F (X ,Y ) (xi , yj ) − F (X ,Y ) (xi−1 , yj ) − F (X ,Y ) (xi , yj−1 )
+ F (X ,Y ) (xi−1 , yj−1 )
= F X (xi )F Y (yj ) − F X (xi−1 )F Y (yj ) − F X (xi )F Y (yj−1 )
+ F X (xi−1 )F Y (yj−1 )
= F X (xi ) − F X (xi−1 ) · F Y (yi ) − F Y (yj−1 ) = p X (xi ) · p Y (yj )
   

mit A = {ω ∈ Ω|X (ω) ≤ xi }, B = {ω ∈ Ω|Y (ω) ≤ yj }


Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 393 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Stochastische Unabhängigkeit von Zufallsvariablen:
Seien X und Y stochastisch unabhängige Zufallsvariablen mit Verteilungsfunktion
F (X ,Y ) (x, y ) = F X (x) · F Y (y ) ∀x, y ∈ R.
Was gilt in diesem Fall für die (Zähl)-Dichte?
X und Y stetig:

δ 2 F (X ,Y ) (x, y ) δ 2 [F X (x) · F Y (y )] δF X (x) · δF Y (y )


⇒ f (X ,Y ) (x, y ) = = =
δxδy δxδy δxδy
= f X (x) · f Y (y )

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 394 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Stochastische Unabhängigkeit von Zufallsvariablen:
Beispiel: Multinomialverteilung
(X , Y ) ∼ Mult(2, 0.5, 0.5)

2 2 1 1
⇒ p (XY ) (0, 2) = · 0.52 = · =
0! · 2! 1·2 4 4
2 2 1 1
p (XY ) (1, 1) = · 0.52 = · =
1! · 1! 1·1 4 2
2 2 1 1
p (XY ) (2, 0) = · 0.52 = · =
2! · 0! 2·1 4 4

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 395 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Stochastische Unabhängigkeit von Zufallsvariablen:
Beispiel: Multinomialverteilung
(X , Y ) ∼ Mult(2, 0.5, 0.5)
1 1 1 1 1 1
p (XY ) (0, 2) = p (X ) (0) = p Y (2) = p X (0) · p Y (2) = · = ̸= = p (XY ) (0, 2)
4 4 4 4 16 4

1 1 1 1 1 1
p (XY ) (1, 1) = p (X ) (1) = p Y (1) = p X (1) · p Y (1) = · = ̸= = p (XY ) (1, 1)
2 2 2 2 4 2

1 1 1 1 1 1
p (XY ) (2, 0) = p (X ) (2) = p Y (0) = p X (2) · p Y (0) = · = ̸= = p (XY ) (2, 0)
4 4 4 4 16 4

⇒ X und Y sind stochastisch abhängig

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 396 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Wahrscheinlichkeitstheoretische Kennzahlen:
Die Definition der stochastischen Unabhängigkeit (kurz: st.u.) erlaubt es uns,
weitere Rechenregeln für Erwartungswerte und Varianzen herzuleiten:
Falls die folgenden Erwartungswerte von stetig oder diskret verteilten
Zufallsvariablen X und Y existieren, so gelten folgende Eigenschaften:
(1) E[X + Y ] = E[X ] + E[Y ]

(2) E[aX + b] = a E[X ] + b, a, b ∈ R


 n  n
P P
(3) E ai Xi + b = ai E[Xi ] + b, a1 , . . . , an , b ∈ R
i=1 i=1

(4) Neu: X und Y st.u. ⇒ E[XY ] = E[X ] · E[Y ]

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 397 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Wahrscheinlichkeitstheoretische Kennzahlen:

(4) X und Y st.u. ⇒ E[XY ] = E[X ] · E[Y ]


Beweis: im stetigen, diskret analog

X und Y st.u. ⇒ fXY (x, y ) = fX (x) · fY (y )


Z∞ Z∞ Z∞ Z∞
⇒ E[XY ] = u · v · fXY (u, v )du dv = u · v · fX (u) · fY (v )du dv
−∞ −∞ −∞ −∞
Z∞ Z∞
= u · fX (u)du v · fY (v )dv = E[X ] · E[Y ]
−∞ −∞

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 398 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Wahrscheinlichkeitstheoretische Kennzahlen:
Falls die folgenden Varianzen von stetig oder diskret verteilten Zufallsvariablen
existieren, so gelten folgende Eigenschaften:
(A) Var(X ) ≥ 0
(B) Var(aX + b) = a2 Var(X )
(C) Verschiebungssatz von Steiner
(D) Tschebyscheff-Ungleichung
(E) Neu: X und Y st.u. ⇒ Var(X + Y ) = Var(X ) + Var(Y )
n
P  Pn
(F) Neu: X1 , . . . , Xn st.u., a1 , . . . , an ∈ R ⇒ Var ai Xi + b = ai2 Var(X )
i=1 i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 399 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Wahrscheinlichkeitstheoretische Kennzahlen:

(E) X und Y st.u. ⇒ Var(X + Y ) = Var(X ) + Var(Y )

Beweis:

Var(X + Y ) = E[(X + Y − E[X + Y ])2 ] = E[(X + Y − E[X ] − E[Y ])2 ]


= E[((X − E[X ]) + (Y − E[Y ]))2 ]
= E (X − E[X ])2 + (Y − E[Y ])2 + 2(X − E[X ]) · (Y − E[Y ])
 

= Var(X ) + Var(Y ) + 2R

R = E [(X − E[X ]) · (Y − E[Y ])] = E [XY − E[X ]Y − X E[Y ] + E[X ] E[Y ]]


= E[XY ] − E[X ] E[Y ] − E[X ] E[Y ] + E[X ] E[Y ] = 0
(4)

⇒ Var(X + Y ) = Var(X ) + Var(Y ) + 2R = Var(X ) + Var(Y )


R=0
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 400 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Wahrscheinlichkeitstheoretische Kennzahlen: Abhängigkeitsmaße
Erinnerung: X und Y stochastisch unabhängig ⇒ E[XY ] = E[X ] · E[Y ]
Umgekehrt gilt somit: E[XY ] ̸= E[X ] · E[Y ] ⇒ X und Y stochastisch abhängig

Seien X und Y Zufallsvariablen. Dann heißt

Cov(X , Y ) = E[(X − E[X ]) · (Y − E[Y ])]

Kovarianz von X und Y . Die Größe


Cov(X , Y )
Cor(X , Y ) = p
Var(X ) · Var(Y )

heißt Korrelation von X und Y .

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 401 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Wahrscheinlichkeitstheoretische Kennzahlen: Abhängigkeitsmaße

Cov(X , Y )
Cov(X , Y ) = E[(X − E[X ]) · (Y − E[Y ])] Cor(X , Y ) = p
Var(X ) · Var(Y )

Eigenschaften
(i) Cov(X , Y ) = Cov(Y , X ), Cor(X , Y ) = Cor(Y , X )
(ii) Cov(X , Y ) = E[XY ] − E[X ] E[Y ]
(iii) −1 ≤ Cor(X , Y ) ≤ 1
(iv) Cor(X , Y ) < 0 ⇔ X und Y sind negativ korreliert
Cor(X , Y ) > 0 ⇔ X und Y sind positiv korreliert
Cor(X , Y ) = 0 ⇔ X und Y sind unkorreliert
Beweise der Eigenschaften analog zu den Beweisen der gleichen Eigenschaften für
die empirische Kovarianz und empirische Korrelation.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 402 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


Wahrscheinlichkeitstheoretische Kennzahlen: Abhängigkeitsmaße

Cov(X , Y )
Cov(X , Y ) = E[(X − E[X ]) · (Y − E[Y ])] Cor(X , Y ) = p
Var(X ) · Var(Y )

Eigenschaften
(v) X und Y stoch. unabh. ⇒ X und Y unkorreliert
X und Y unkorreliert ⇏ X und Y stoch. unabh.
(vi) Var(X + Y ) = Var(X ) + Var(Y ) + 2 · Cov(X , Y )
(vii) Cov(aX + b, cY + d) = ac · Cov(X , Y )
(viii) Cov(X , X ) = Var(X )
Beweise der Eigenschaften analog zu den Beweisen der gleichen Eigenschaften für
die empirische Kovarianz und empirische Korrelation.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 403 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


W’keitstheoretische Kennzahlen: Schwaches Gesetz der großen Zahlen
Es gelte: X = (X1 , . . . , XN ), Xi ∼ F X stochastisch unabhängig und identisch
verteilt (u.i.v.) mit E[Xi ] = µ und Var(Xi ) = σ 2 , i = 1, . . . , N.

Dann gilt:
lim P(|X̄ − µ| > ε) = 0
N→∞

Beweis:
N
# " " N # N N
1 X 1 X 1 X 1 X 1
1. E[X̄ ] = E Xi = E Xi = E[Xi ] = µ = Nµ = µ
N N N N N
i=1 i=1 i=1 i=1
N
1 X N N
 1 X  1 X
2. Var(X̄ ) = Var Xi = Var Xi = Var(Xi )
N N2 X1 ,...,XN st.u. N2
i=1 i=1 i=1
N
1 X 1 σ2
= σ2 = Nσ 2 =
N2 N 2 N
i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 404 / 545
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen

9.2 Mehrdimensionale Zufallsvariablen


W’keitstheoretische Kennzahlen: Schwaches Gesetz der großen Zahlen
Beweis: (Fortsetzung)
Einsetzen in Tschebyscheff-Ungleichung:
Var(X̄ ) σ2
P(|X̄ − E[X̄ ]| > ε) ≤ ⇒ P(|X̄ − µ| > ε) ≤ → 0
ε2 Nε2 N→∞

⇒ lim P(|X̄ − µ| > ε) = 0 □


N→∞

Interpretation:
Wenn wir nur ausreichend viele Realisierungen von Zufallsvariablen nehmen, dann
konvergiert das arithmetische Mittel gegen den Erwartungswert. Dies entspricht
auch unserer Intuition der beiden Größen. Wir können also das arithmetische
Mittel als Schätzer für den Erwartungswert verwenden.
Achtung: Dies gilt nur, wenn die Voraussetzungen erfüllt sind! Die addierten
Zufallsvariablen müssen sowohl der gleichen Verteilung folgen, als auch
gemeinsam stochastisch unabhängig sein.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 405 / 545
Markovketten
10 Markovketten 10.1 Theorie

10.1 Markovketten
Zuletzt:
Interpretation von Datensätzen x1 , . . . , xN als Realisation von N unabhängig
identisch verteilten Zufallsvariablen X1 , . . . , XN ,
d.h. P X (Xi |Xj ) = P X (Xi ) für alle i ̸= j
⇒ Vernachlässigung der Reihenfolge, keine Abhängigkeitsstruktur

Jetzt:
Interpretation von Datensätzen x1 , . . . , xN als Realisationen zum Zeitpunkt
i = 1, . . . , N gemessener Zufallsvariablen X1 , . . . , XN mit stochastischer
Abhängigkeit zwischen Variablen zu aufeinanderfolgenden Zeitpunkten, d.h. i.A.
P X (Xn+1 |Xn ) ̸= P X (Xn+1 ).
⇒ Berücksichtigung der Reihenfolge, Formulierung der Abhängigkeitsstruktur

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 407 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Stochastischer Prozess:
Eine Familie {Xt : t ∈ T } von auf dem Wahrscheinlichkeitsraum {Ω, A, P}
definierten Zufallsvariablen Xt heißt stochastischer Prozess mit
Parameterbereich T .
Die Realisationsmenge I = {Xt (ω)|ω ∈ Ω, t ∈ T } von X wird Zustandsraum des
Prozesses genannt.

Markovkette:
Eine Markovkette ist ein stochastischer Prozess {Xn : n ∈ N ∪ {0}} mit
abzählbarem Zustandsraum I, der die folgende Markov’sche Eigenschaft besitzt:
Für alle n ∈ N ∪ {0} und alle i0 , i1 , . . . , in+1 ∈ I mit
P(X0 = i0 , X1 = i1 , . . . , Xn = in ) > 0 gilt:

P(Xn+1 = in+1 |X0 = i0 , X1 = i1 , . . . , Xn = in ) = P(Xn+1 = in+1 |Xn = in ).

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 408 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Homogene Markovkette
Eine Markovkette {Xn : n ∈ N ∪ {0}} mit Zustandsraum I heißt homogen oder
auch Markovkette mit stationären Übergangswahrscheinlichkeiten pij , wenn
gilt:
P(Xn+1 = i|Xn = j) = pij , ∀i, j ∈ I und ∀n ∈ N ∪ {0}.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 409 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Homogene Markovkette
Eine Markovkette {Xn : n ∈ N ∪ {0}} mit Zustandsraum I heißt homogen oder
auch Markovkette mit stationären Übergangswahrscheinlichkeiten pij , wenn
gilt:
P(Xn+1 = i|Xn = j) = pij , ∀i, j ∈ I und ∀n ∈ N ∪ {0}.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 410 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Homogene Markovkette
Eine Markovkette {Xn : n ∈ N ∪ {0}} mit Zustandsraum I heißt homogen oder
auch Markovkette mit stationären Übergangswahrscheinlichkeiten pij , wenn
gilt:
P(Xn+1 = i|Xn = j) = pij , ∀i, j ∈ I und ∀n ∈ N ∪ {0}.
Übergangsmatrix
Für eine homogene Markovkette mit endlichem Zustandsraum I = {1, . . . , K }
kann die für jedes Paar (Xn+1 , Xn ) gültige Übergangsmatrix
 
p11 p12 · · · p1K
 p21 p22 · · · p2K 
K ×K
Pn,n+1 = (P[Xn+1 = i|Xn = j])i,j∈I =  . ..  ∈ [0, 1]
 
.. ..
 .. . . . 
pK 1 pK 2 ··· pKK

definiert werden.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 411 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Übergangsmatrix
 
p11 p12 ··· p1K
 p21 p22 ··· p2K 
Pn,n+1 = .
 
.. .. .. 
 .. . . . 
pK 1 pK 2 ··· pKK

Spaltensummen sind jeweils gleich 1, da jede Spalte eine bedingte Verteilung


darstellt:
K
X K
X
pij = P(Xn+1 = i|Xn = j) = P(Xn+1 ∈ I |Xn = j) = 1
i=1 i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 412 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Übergangsmatrix

Sei nun die Wahrscheinlichkeitsverteilung des


Zustands zum Zeitpunkt n gegeben durch

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 413 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Übergangsmatrix  
pn;1
Sei nun die Wahrscheinlichkeitsverteilung des  pn;2 
pn = (P(Xn = i))i∈I = . 
 
Zustands zum Zeitpunkt n gegeben durch
 .. 
pn;K
Nach dem Satz der totalen Wahrscheinlichkeit gilt:
K
X
i = 1, . . . , K ⇒ P(Xn+1 = i) = P(Xn+1 = i|Xn = j) · P(Xn = j)
i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 414 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Übergangsmatrix  
pn;1
Sei nun die Wahrscheinlichkeitsverteilung des  pn;2 
pn = (P(Xn = i))i∈I = . 
 
Zustands zum Zeitpunkt n gegeben durch
 .. 
pn;K
Nach dem Satz der totalen Wahrscheinlichkeit gilt:
K
X
i = 1, . . . , K ⇒ P(Xn+1 = i) = P(Xn+1 = i|Xn = j) · P(Xn = j)
i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 415 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Übergangsmatrix  
pn;1
Sei nun die Wahrscheinlichkeitsverteilung des  pn;2 
pn = (P(Xn = i))i∈I = . 
 
Zustands zum Zeitpunkt n gegeben durch
 .. 
pn;K
Nach dem Satz der totalen Wahrscheinlichkeit gilt:
K
X
i = 1, . . . , K ⇒ P(Xn+1 = i) = P(Xn+1 = i|Xn = j) · P(Xn = j)
i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 416 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Übergangsmatrix  
pn;1
Sei nun die Wahrscheinlichkeitsverteilung des  pn;2 
pn = (P(Xn = i))i∈I = . 
 
Zustands zum Zeitpunkt n gegeben durch
 .. 
pn;K
Nach dem Satz der totalen Wahrscheinlichkeit gilt:
K
X
i = 1, . . . , K ⇒ P(Xn+1 = i) = P(Xn+1 = i|Xn = j) · P(Xn = j)
i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 417 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Übergangsmatrix  
pn;1
Sei nun die Wahrscheinlichkeitsverteilung des  pn;2 
pn = (P(Xn = i))i∈I = . 
 
Zustands zum Zeitpunkt n gegeben durch
 .. 
pn;K
Nach dem Satz der totalen Wahrscheinlichkeit gilt:
K
X
i = 1, . . . , K ⇒ P(Xn+1 = i) = P(Xn+1 = i|Xn = j) · P(Xn = j)
i=1

und die Wahrscheinlichkeitsverteilung des Zustands zum Zeitpunkt n + 1 lässt sich


bestimmen durch
  
P(Xn+1 = 1|Xn = 1) ··· P(Xn+1 = 1|Xn = K ) P(Xn = 1)
 . .. .  . 
 = Pn,n+1 pn
pn+1 = (P(Xn+1 = 1))i∈I =
 . . .  .
. .  . 
P(Xn+1 = K |Xn = 1) ··· P(Xn+1 = K |Xn = K ) P(Xn = K )

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 418 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Die Wahrscheinlichkeitsverteilung des Zustands zum Zeitpunkt n + 1 lässt sich
bestimmen durch
pn+1 = Pn,n+1 pn

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 419 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Die Wahrscheinlichkeitsverteilung des Zustands zum Zeitpunkt n + 2 lässt sich
bestimmen durch
pn+2 = Pn,n+1 pn+1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 420 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Die Wahrscheinlichkeitsverteilung des Zustands zum Zeitpunkt n + 2 lässt sich
bestimmen durch
pn+2 = Pn,n+1 (Pn,n+1 pn )

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 421 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Die Wahrscheinlichkeitsverteilung des Zustands zum Zeitpunkt n + 2 lässt sich
bestimmen durch
2
pn+2 = Pn,n+1 pn

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 422 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Die Wahrscheinlichkeitsverteilung des Zustands zum Zeitpunkt n + m lässt sich
bestimmen durch
m
pn+m = Pn,n+1 pn

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 423 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Die Wahrscheinlichkeitsverteilung des Zustands zum Zeitpunkt n + m lässt sich
bestimmen durch
m
pn+m = Pn,n+1 pn
Falls pn durch die Linksmultiplikation mit der Übergangsmatrix auf sich selbst
abgebildet wird, falls also
pn+1 = Pn,n+1 pn = pn
gilt, so ist pn ein Eigenvektor von Pn,n+1 zum Eigenwert 1 und es gilt:

pn+m = pn ∀m ≥ 1.

Die Wahrscheinlichkeitsverteilung π, für die die Übergangsmatrix P einer


homogenen Markovkette die Bedingung π = Pπ erfüllt, heißt invariante
Wahrscheinlichkeitsverteilung der Markovkette.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 424 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Irreduzibilität
Eine homogene Markovkette heißt irreduzibel, wenn es für alle (i, j) ein l ∈ N mit
l
(Pn,n+1 )ij > 0 gibt.
Irreduzibilität bedeutet also, dass von jedem Zustand nach endlicher Schrittzahl in
jeden Zustand gelangt werden kann.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 425 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Aperiodizität
Der Zustand j einer Markovkette heißt aperiodisch, wenn es ein l ∈ N gibt, so
dass P(Xn+l = j|Xn = j) > 0 und P(Xn+l+1 = j|Xn = j) > 0.
Eine homogene Markovkette heißt aperiodisch, wenn alle ihre Zustände
aperiodisch sind.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 426 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten
Satz
Eine homogene Markovkette mit Übergangsmatrix c ist aperiodisch und
irreduzibel, falls es ein l gibt, für das (Pn,n+1 )l ausschließlich positive Einträge hat.
Falls π die invariante Wahrscheinlichkeitsverteilung dieser Markovkette ist, so gilt
für alle pn :
(Pn,n+1 )m pn konvergiert für m → ∞ gegen π

Die Konvergenz wird nicht bewiesen, sondern anhand eines Beispiels aufgezeigt.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 427 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 428 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 429 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 430 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 431 / 545
10 Markovketten 10.1 Theorie

10.1 Markovketten

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 432 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 433 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze


Xn = Aufenthaltsort einer Euro-Münze zum Zeitpunkt n
I = {D,F,I,E,R} = Zustandsraum

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 434 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze


Xn = Aufenthaltsort einer Euro-Münze zum Zeitpunkt n
I = {D,F,I,E,R}, Übergangswahrscheinlichkeiten pij von n zu n + 1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 435 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze


Xn = Aufenthaltsort einer Euro-Münze zum Zeitpunkt n
I = {D,F,I,E,R}, Übergangswahrscheinlichkeiten pij von n zu n + 1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 436 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze


Xn = Aufenthaltsort einer Euro-Münze zum Zeitpunkt n
I = {D,F,I,E,R}, Übergangswahrscheinlichkeiten pij von n zu n + 1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 437 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze


Xn = Aufenthaltsort einer Euro-Münze zum Zeitpunkt n
I = {D,F,I,E,R}, Übergangswahrscheinlichkeiten pij von n zu n + 1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 438 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze


Xn = Aufenthaltsort einer Euro-Münze zum Zeitpunkt n
I = {D,F,I,E,R}, Übergangswahrscheinlichkeiten pij von n zu n + 1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 439 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 440 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 441 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 442 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 443 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 444 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 445 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 446 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 447 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 448 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 449 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 450 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 451 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 452 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 453 / 545
10 Markovketten 10.2 Beispiel Euro-Münze

10.2 Markovketten: Zirkulationsweg einer Euro-Münze


Konvergenzverhalten für die unterschiedlichen Startverteilungen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 454 / 545
Schließende Statistik
11 Schließende Statistik 11.1 Motivation

11.1 Schließende Statistik


Statistik kann unterteilt werden in die Bereiche Beschreibende Statistik“

(deskriptive Statistik) und Schließende Statistik“ (Inferenzstatistik)

Beschreibende Statistik
▶ Häufigkeitsverteilungen anhand von Datensätzen
▶ Kennzahlen für Lage, Streuung, Zusammenhang
Schließende Statistik
▶ Rückschlüsse aus Datensätzen auf die Parameter der zu Grunde liegenden
wahren Verteilung
▶ Fehlerabschätzungen für diese Rückschlüsse
Hilfsmittel ist die Wahrscheinlichkeitsrechnung
▶ Betrachtung der Grundgesamtheit, statt Datensätze i.i.d. Zufallsvariablen
▶ Parallelen zwischen Kennzahlen und Parametern, die zu Aussagen von
Kennzahlen über Parameter genutzt werden

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 456 / 545
11 Schließende Statistik 11.1 Motivation

11.1 Schließende Statistik


Bisher:
Teil I: Beschreibende Statistik
Zusammenfassung von an Gesamtheit MN = {e1 , . . . , eN }
erhobenem Datensatz x1 , . . . , xN durch Häufigkeitsverteilung
und Kennzahlen für Lage, Streuung und Zusammenhang
Teil II: Wahrscheinlichkeitstheorie
Auffassung von Datensatz x1 , . . . , xN als Realisationsreihe von
i.i.d. Zufallsvariablen X1 , . . . , XN , Beschreibung der
Wahrscheinlichkeitsverteilung dieser Zufallsvariablen und
Charakterisierung der Verteilung durch Lage, Streuung und
Zusammenhang
Teil III: Schließende Statistik
Rückschlüsse anhand von x1 , . . . , xN auf Charakteristika
θ1 , . . . , θk der unterstellten Wahrscheinlichkeitsverteilung der
datengenerierenden X1 , . . . , XN und Fehlerabschätzung der
Rückschlüsse.
Diese Charakteristika gelten für die Grundgesamtheit, d.h. für
die Menge {e1 , e2 , . . .} aller Merkmalsträger

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 457 / 545
11 Schließende Statistik 11.1 Motivation

11.1 Schließende Statistik

Punktschätzungen
Schätzung von Verteilungsparameter θ durch
Kennzahl θ̂ = g (x1 , . . . , xN )

Intervallschätzungen
Schätzung eines Intervalls
[θ̂L , θ̂U ] = KI (x1 , . . . , xN ) mit
P( θ ∈ [θ̂L , θ̂U ] ) ≥ 1 − α

Hypothesentests
Entscheidung zwischen H0 : θ ∈ T0 und
H1 : θ ∈ T1 anhand von T ∈ ∆0 oder T ∈ ∆1
mit P(T ∈ ∆1 |θ ∈ T0 ) ≤ α

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 458 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Ziel
Wir haben ein Zufallsexperiment mit dem üblichen Wahrscheinlichkeitsraum
(Ω, A, P), über welches wir Aussagen treffen wollen. Auf dem Zufallsexperiment
haben wir eine Zufallsvariable X definiert, die den uns interessierenden
Sachverhalt beschreibt. Wie ist X verteilt?
Beispiele
Glücksspiel Auf einem Jahrmarkt kaufe ich an einer Losbude 20 Lose,
darunter 5 Gewinne und 15 Nieten. Mit welcher W’keit gewinne ich? Oder:
Wie viele Lose muss ich im Schnitt bis zum nächsten Gewinn kaufen?
HelpDesk Wir bieten einen HelpDesk an, bei dem Fragen zur Vorlesung und
zur Übung gestellt werden können. Der HelpDesk wurde bis jetzt 4 mal
angeboten und dabei jeweils von 4, 2, 3 und 5 Studierenden besucht. Mit
welcher W’keit kommen wie viele Studierende zu einer Sitzung?
Festplatten In meinem Server laufen 10 Festplatten. Die Laufzeiten der
letzten, zu ersetzenden Festplatten betrugen 6, 12, 18, 15 und 32 Monate.
Mit welcher W’keit hält eine Festplatte wie viele Monate?
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 459 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Schätzfunktionen und das statistische Schätzproblem
Grundidee:
Wir nehmen an, dass die Zufallsvariable X aus einer bekannten Verteilung
stammt, z.B. einer Bernoulli- oder einer Normalverteilung. Die meisten dieser
Verteilungen besitzen offene Parameter (p bei Bernoulli, µ und σ bei
Normalverteilung, allgemein: θ).
Stichprobe:
Wir führen das Zufallsexperiment N mal aus, d.h. wir betrachten Zufallsvariablen
(X1 , ..., XN ) u.i.v. wie X verteilt und mit zugehörigem Beobachtungsvektor
(x1 , ..., xN ). Wir nutzen die Information aus diesen Beobachtungen, um den
Parameter θ zu schätzen.
Schätzfunktionen:
Eine Punktschätzung für den Parameter θ ist jetzt eine beliebige Funktion g mit

θ̂ = g (X1 , ..., XN )

Achtung: Da θ̂ aus Zufallsvariablen berechnet wird, ist θ̂ selbst eine Zufallsvariable.


Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 460 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Schätzfunktionen und das statistische Schätzproblem: Beispiele
In erster Iteration können wir jede beliebige Funktion g als Punktschätzer für θ
verwenden. Beispiele sind:

N
1 X
g (X1 , ..., XN ) = Xi
N
i=1

g (X1 , ..., XN ) = medX (X1 , .., XN )

N
1 X
g (X1 , ..., XN ) = (Xi − X̄ )2
N −1
i=1

g (X1 , ..., XN ) = 5

Offensichtlich sind nicht alle dieser Funktionen in jeder Situation sinnvoll. Wir
brauchen also Eigenschaften, wann ein Punktschätzer ein guter Punktschätzer ist.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 461 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Eigenschaften von Schätzstatistiken: Erwartungstreue
Zunächst könnte man von einer Schätzfunktion erwarten, dass diese zumindest
tendenziell den richtigen Wert liefert.
Eine Schätzstatistik θ̂ wird als erwartungstreu bezeichnet, falls sie erfüllt:
h i
E θ̂ = θ

Offensichtlich ist die Schätzfunktion (auch: Schätzstatistik)


h i g (X1 , ..., XN ) = 5 im
allgemeinen nicht erwartungstreu, da hier stets E θ̂ = 5 gilt.
Falls eine Schätzstatistik systematisch daneben liegt, wird dies als Verzerrung
oder auch Bias bezeichnet:
h i
Bias(θ̂) = E θ̂ − θ

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 462 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Eigenschaften von Schätzstatistiken: Erwartungstreue
Beispiel 1: Arithmetischen Mittel
Das Arithmetische Mittel ist ein erwartungstreuer Schätzer für den
Erwartungswert einer Zufallsvariablen X :
" N
# N N
1 X 1 X 1 X N
E Xi = E (Xi ) = µ= µ=µ
N N N N
i=1 i=1 i=1

Beispiel 2: Stichprobenvarianz
N
1
Die empirische Varianz sx2 := (xi − x̄)2 ist ein erwartungstreuer Schätzer
P
N−1
i=1
für die Varianz einer Zufallsvariablen X : (ohne Beweis)
" N
#
2 1 X
E [sx ] = E (xi − x̄) = σ 2
2
N −1
i=1

1 1
Dies erklärt den Vorfaktor N−1 , der Schätzer mit dem intuitiveren Vorfaktor N ist
entsprechend nicht erwartungstreu.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 463 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Eigenschaften von Schätzstatistiken: Asymptotische Erwartungstreue
Beispiel 3:
N−1 2
dx2 = N sx ist entsprechend nicht erwartungstreu, hier liegt eine Verzerrung vor:
 
2 2 2 N −1 2 N −1 2 1
Bias(dx ) = E [dx ] − σ = E sx − σ 2 = σ − σ2 = − σ2
N N N

Die Varianz wird also tendenziell unterschätzt. Allerdings geht diese


Unterschätzung (Verzerrung) offensichtlich für N → ∞ gegen 0.
Dies motiviert ein alternatives Kriterium: Wir bezeichnen einen Schätzer als
asymptotisch erwartungstreu, falls gilt:

lim E [θ̂ = g (X1 , ..., XN )] = θ


N→∞

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 464 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Eigenschaften von Schätzstatistiken: Standarfehler einer Schätzstatistik
Eine Schätzstatistik ist eine Zufallsvariable. Wenn wir neue Realisierungen der N
Zufallsvariablen (X1 , ..., XN ) betrachten, ändert sich auch der realisierte Wert der
Schätzstatistik. Und auch wenn eine Schätzstatistik erwartungstreu ist, so gilt
doch zumindest im stetigen Fall:

P(θ̂ = E [θ̂]) = 0

Wie weit ist die Realisierung der Schätzstatistik im Durchschnitt vom


gewünschten Erwartungswert entfernt? Betrachte dazu den Standardfehler, der als
die Standardabweichung des Schätzers definiert ist:
q
σθ̂ = Var (θ̂)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 465 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Eigenschaften von Schätzstatistiken: MSE und Konsistenz
Die beiden Eigenschaften Erwartungstreue und Standardfehler lassen sich durch
die mittlere quadratische Abweichung zwischen Schätzstatistik und wahrem
Parameterwert zusammenfassen:
h i h i
MSE (θ̂) = E (θ̂ − θ)2 = E (θ̂ − E [θ̂] + E [θ̂] − θ)2
h i h i h i
= E (θ̂ − E [θ̂])2 + 2E (θ̂ − E [θ̂])(E [θ̂] − θ) + E (E [θ̂] − θ)2
h i
= E (θ̂ − E [θ̂])2 + (E [θ̂] − θ)2 = σθ̂2 + Bias(θ̂)2

Bezeichne weiter eine Schätzstatistik als konsistent (genauer: konsistent im


quadratischen Mittel), falls
lim MSE (θ̂) = 0
N→∞

Konsistenz ist eine Mindestanforderung, die jede Schätzfunktion erfüllen sollte.


Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 466 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Konstruktion von Schätzstatistiken:
Eine Schätzfunktion zu konstruieren ist einfach. Unser Ziel sollte es jedoch sein,
eine gute Schätzfunktion zu konstruieren. Hier gibt es viele verschiedene Ansätze,
die bekanntesten sind:
Maximum Likelihood Schätzung: Nehme als Schätzer den Wert, der mit der
größten Wahrscheinlichkeit die beobachteten Werte erklärt,
Kleinste Quadrate Schätzung: Nehme den Schätzer mit der geringsten
erwarteten quadratischen Abweichung,
Momentenmethode: Ersetze theoretische durch empirische Momente,
Bayes-Schätzung: Verwende den Satz von Bayes.
Wir schauen uns auf den nächsten Folien die Maximum-Likelihood Schätzung ein
wenig genauer an.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 467 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Maximum-Likelihood Schätzung:
Seien (X1 , ..., XN ) u.i.v. wie eine Zufallsvariable X mit Verteilung PθX , die von
einem Parameter θ abhängt.
Die gemeinsame Dichtefunktion von (X1 , ..., XN ) ist gegeben als:
N
(X ,...,XN )
Y
fθ 1 (x1 , ..., xN ) = fθX (xi )
i=1

Die zugehörige Likelihood-Funktion L ist gegeben als:


N
(X1 ,...,XN )
Y
L(x1 ,...,xn ) (θ) := fθ (x1 , ..., xN ) = fθX (xi )
i=1

Der Maximum-Likelihood Schätzer für θ ist definiert als:

θ̂ML := arg max L(X1 ,...,XN ) (θ)


θ

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 468 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Maximum-Likelihood Schätzung: Beispiel: Bernoulli-Verteilung
Sei X ∼ B(1, p) und wir wollen den Parameter p schätzen (d.h. θ = p).
Gemeinsame Dichte
N
Y N
Y
fp(X1 ,...,XN ) (x1 , ..., xN ) = fpX (xi ) = p xi (1 − p)1−xi
i=1 i=1

Likelihood-Funktion
N
Y
L(x1 ,...,xN ) (p) = p xi (1 − p)1−xi
i=1

Zur Bestimmung des Optimums müssen wir jetzt die Ableitung bestimmen und
gleich 0 setzen. Da das Ableiten des Produktes schwierig ist, betrachtet man
stattdessen zumeist die log-Likelihood Funktion logL = log(L). Da der
Logarithmus eine monotone Transformation ist, ändert sich die Stelle des
Optimums nicht, die Rechnung vereinfacht sich zumeist aber deutlich.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 469 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Maximum-Likelihood Schätzung: Beispiel: Bernoulli-Verteilung
log-Likelihood-Funktion
N
Y N
X
logL(x1 ,...,xn ) (p) = log p xi (1 − p)1−xi = xi log p + (1 − xi ) log(1 − p)
i=1 i=1

Ableitung nach dem Parameter, d.h. nach p:


N N N N
∂ X X xi 1 − xi 1X 1 X
xi log p+(1−xi ) log(1−p) = − = xi − (N − xi )
∂p p 1−p p 1−p
i=1 i=1 i=1 i=1

Ableitung gleich 0 setzen


N N N N
1X 1 X X X
xi − (N − xi ) = 0 ⇔ (1 − p) xi = p(N − xi )
p 1−p
i=1 i=1 i=1 i=1
N N N N
X X X 1 X
⇔ xi = pN − p xi + p xi ⇔ xi = x̄ = p
N
i=1 i=1 i=1 i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 470 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Maximum-Likelihood Schätzung: Beispiel: Bernoulli-Verteilung
Kandidat für ein Maxmum der Likelihood: x̄
Notwendiges Kriterium: Kandidat in die 2. Ableitung einsetzen
N N N
∂ X 1 X 1 X
x i log p + (1 − x i ) log(1 − p) = − x i + (N − xi )
∂2p p2 (1 − p)2
i=1 i=1 i=1

Zu Zeigen ist: (ohne Beweis)


N N
1 X 1 X
− x i + (N − xi ) < 0
x̄ 2 (1 − x̄)2
i=1 i=1

Wir erhalten also das arithmetische Mittel x̄ der N Beobachtungen als sog.
ML-Schätzer für den Parameter p der Bernoulli-Verteilung. Da hier auch
E (X ) = p gilt, entspricht dies mal wieder unserer Intuition, den Erwartungswert
durch das arithmetische Mittel zu schätzen.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 471 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Maximum-Likelihood Schätzung: Beispiel: Exponential-Verteilung
Sei jetzt X ∼ Exp(λ) und wir wollen λ schätzen.
log-Likelihood:
N
Y N
X
logL(X1 ,...,XN ) (λ) = log λe −λxi = log λ − λxi
i=1 i=1

1. Ableitung 0 setzen: Kandidaten für ML-Schätzer bestimmen

N N N N
∂ X X 1 N X 1 1 X 1
log λ−λxi = −xi = 0 ⇔ = xi ⇔ = xi = x̄ ⇔ λ =
∂λ λ λ λ N x̄
i=1 i=1 i=1 i=1

2. Ableitung: Notwendiges Kriterium überprüfen


N
∂ X N
2
log λ − λxi = − 2 < 0
∂ λ λ
i=1

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 472 / 545
11 Schließende Statistik 11.2 Punktschätzung

11.2 Punktschätzung
Zusammenfassung:
Fragestellung:
In einem Zufallsexperiment, wie ist X verteilt?
Lösungsansatz:
Verteilungsannahme (z.B. Exponentialverteilung) und Parameter der Verteilung
mit Schätzfunktion schätzen. Viele mögliche Kandidaten für Schätzfunktionen, wir
wollen idealerweise den Besten haben.
Optimalität von Schätzern:
Wir wollen Schätzer, die (asymptotisch) erwartungstreu sind und kleine Varianz
haben. Als besten (effizienten) Schätzer bezeichnen wir denjenigen
erwartungstreuen Schätzer mit kleinster Varianz.
Konstruktion des Schätzers:
Der effiziente Schätzer ist im allgemeinen unbekannt, es gibt jedoch viele
Verfahren um gute Schätzer zu konstruieren. Wir haben das ML-Verfahren kennen
gelernt. Hier lässt sich zumindest zeigen, dass jeder ML-Schätzer konsistent ist.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 473 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Alternative Fragestellung:
Gegeben eine Zufallsvariable X mit Verteilung PθX zu einem Zufallsexperiment mit
Wahrscheinlichkeitsraum (Ω, A, P). Wir wollen jetzt den Parameter θ nicht nur
schätzen, sondern die Frage beantwortet: Nimmt θ einen bestimmten Wert an?
Beispiele:
Bei einem Mensch-Ärger-Dich-Nicht Spiel würfelt der Gegenüber viele 6-en.
Benutzt er einen gefälschten Würfel, oder hat er einfach nur Glück?
Ist in der Milchtüte tatsächlich exakt 1 Liter Milch?
Die Füllmenge einer Packung ist zufällig (Maschinen arbeiten ungenau).
Keine Packung wird exakt mit 1 Liter befüllt sein (stetiges Merkmal).
Sind die Abweichungen noch im Rahmen, oder sind sie zu groß?
Wirkt ein Impfstoff?
1. Prozess: Ein Mensch lebt sein Leben, ungeimpft.
2. Prozess: Ein Mensch lebt sein Leben, wurde aber geimpft.
Ist die Wahrscheinlichkeit zu erkranken unterschiedlich?

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 474 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Beispiel: Mensch-Ärger-Dich-Nicht

Nach N = 30 Würfelwürfen haben wir beobachtet, dass unser Mitspieler bereits


12 6-en gewürfelt hat und fühlen uns so langsam betrogen.
Statistische Modellierung der Situation:
Sei X eine Zufallsvariable mit X = 1, wenn eine 6 gewürfelt wurde, und 0 sonst.
Wir wissen bereits: X ist Bernoulli-verteilt, und bei einem fairen Würfel müsste
der Parameter p = 16 sein.

Die Anzahl Y der gewürfelten 6-en ist ebenfalls eine Zufallsvariable, diese ist
Binomial-verteilt, wenn die Xi u.i.v. sind. Wir kennen hier den Erwartungswert
(E [Y ] = Np) und würden daher 30 6 = 5 6-en erwarten. Wir können auch
ausrechnen, mit welcher Wahrscheinlichkeit 12 mal die 6 gewürfelt wird:
Y Y
Pp= 1 (Y = 12) ≈ 0.0015 Pp= 1 (Y ≥ 12) ≈ 0.002
6 6

Und doch bleibt die Frage im Raum: Wurden wir betrogen? Ist der Würfel fair?

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 475 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Testhypothesen:
Um dies zu überprüfen stellen wir zunächst 2 gegensätzliche Hypothesen auf: Die
Nullhypothese H0 und die Alternativhypothese H1 :
Nullhypothese H0 : Der aktuelle Stand, den wir in unserer Untersuchung
widerlegen möchten,
Alternativhypothese H1 : Unsere Forschungshypothese, die wir im Rahmen
unserer Untersuchen belegen wollen.
Im Mensch-Ärger-Dich-Nicht Beispiel würden wir die Hypothesen entsprechend
formulieren:

H0 : Der Würfel ist fair versus H1 : Der Würfel ist nicht fair

und bezogen auf den Parameter der dahinterliegenden Verteilung

1 1
H0 : p = 6 versus H1 : p ̸= 6

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 476 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Testentscheidung:
Die Entscheidung zwischen H0 und H1 soll auf Grund einer Stichprobe stattfinden.
Es liegen also Zufallsvariablen (X1 , ..., XN ) und eine zugehörige Stichprobe
(x1 , ..., xN ) vor.
Bestimme als nächstes genauso wie beim Punktschätzen eine Statistik (jetzt
Teststatistik genannt):

T = g (X1 , ..., XN ) und t = g (x1 , ..., xN ), t ∈ R

und Mengen ∆0 ⊂ R und ∆1 ⊂ R mit ∆0 ∩ ∆1 = ∅, ∆0 ∪ ∆0 = R. Der Test trifft


eine Entscheidung für H0 , wenn t ∈ ∆0 und für H1 , wenn t ∈ ∆1 . Mathematisch
bezeichnen wir den Test als Funktion φ : R → {0, 1} mit
(
0, wenn T ∈ ∆0
φ(T ) =
1, wenn T ∈ ∆1

Achtung: Die Formulierung Entscheidung für H0 ist eigentlich falsch.


Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 477 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Testentscheidung: Beispiel Mensch-Ärger-Dich-Nicht
Da wir in unserem Beispiel eine Aussage über die Anzahl gewürfelter 6-en treffen
wollen, bietet es sich an, diese als Teststatistik zu verwenden:

N
X
T = g (X1 , ..., XN ) = Xi
i=1

Wähle weiterhin ∆0 = [2, 10] und


∆1 = R \ ∆0 : Wir finden es noch
realistisch, wenn zwischen 2 und 10 6-en
gewürfelt werden, sobald es mehr (oder
auch weniger!) sind, gehen wir nicht
mehr von einem fairen Würfel aus.
Hier mit t = 12 würden wir uns also für
H1 entscheiden.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 478 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Testentscheidung und Fehlerarten
Natürlich sollten die Mengen ∆0 und ∆1 nicht willkürlich gewählt werden.
Zunächst einige Beobachtungen:
1 Das Ergebnis eines statistischen Tests ist eine Zufallsvariable.
Der Test φ ist eine Funktion, die von Zufallsvariablen abhängt, also muss er
selbst auch eine Zufallsvariable sein. Und recht offensichtlich folgt er einer
Bernoulli-Verteilung.
2 Ein Test kann sich falsch entscheiden.
Solange der Parameter p der Verteilung des Testergebnisses nicht 0 oder 1
ist, kann bei jedem Test zufällig eine richtige oder eine falsche Entscheidung
herauskommen.
H0 gilt tatsächlich H1 gilt tatsächlich

Testentscheidung für H0 Richtige Testentscheidung Fehler 2. Art (β-Fehler)


(1. Art)
Testentscheidung für H1 Fehler 1. Art (α-Fehler) Richtige Testentscheidung
(2. Art)
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 479 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Niveau-α-Test
Idee:
Bestimme ∆0 und ∆1 so, dass niemals Fehler gemacht werden, d.h. α-Fehler und
β-Fehler beide mit W’keit 0 auftreten, oder zumindest möglichst klein sind.
Der Boden der Tatsachen:
Im allgemeinen wird der α-Fehler größer, wenn der β-Fehler kleiner wird und
umgekehrt (ohne Beweis). Beide gleichzeitig zu minimieren bzw. zu kontrollieren
ist nicht möglich. (Zumindest nicht bei Tests mit festem N, auf die wir uns hier
beschränken.)
Na gut, was dann?
Wir können aber immerhin eine der beiden Fehlerarten kontrollieren, hier
entscheiden wir uns willkürlich für den α-Fehler. Wähle die beiden Bereiche ∆0
und ∆1 daher so, dass der α-Fehler maximal α beträgt.
Wir bezeichnen einen entsprechenden Test als Niveau-α-Test.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 480 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Der α-Fehler
Es gilt:

P(Fehler 1. Art) = P(Entscheidung fürH1 |H0 gilt tatsächlich)


=P(φ(T ) = 1|H0 ) = P T (T (X1 , ..., XN ) ∈ ∆1 |H0 )

Weiterhin beschränken wir uns auf Tests mit ∆0 = [δl , δr ], wobei entweder
δl = −∞ oder δr = ∞ zulässig ist. Also gilt für den α-Fehler:

!
P(Fehler 1. Art) = P T (δl ≤ T (X1 , ..., XN ) ≤ δr |H0 ) ≤ α

Wir müssen also lediglich die Verteilung der Teststatistik unter der Bedingung,
dass H0 gilt, bestimmen, und können dann die Grenzen δl und δr so bestimmen,
dass der Fehler 1. Art maximal α beträgt.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 481 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Der α-Fehler Beispiel: Mensch-Ärger-Dich-Nicht
Zur Erinnerung, unser Testproblem aus dem Beispiel:
1 1
H0 : p = 6 versus H1 : p ̸= 6

Jetzt müssen wir die Verteilung unserer Teststatistik unter H0 bestimmen, und die
Grenzen δl , δr P
so setzen, dass die Wahrscheinlichkeit
P T (δl ≤ T = Xi ≤ δr |H0 : p = 16 ) maximal α beträgt.
Wir wissen bereits, dass T Binomial-verteilt ist, und die Bedingung fordert von
uns lediglich, den Parameter p = 16 zu setzen. Wir können jetzt weiter δl = −∞
setzen, weil wir uns nur dann betrogen fühlen (d.h. uns für H1 entscheiden), wenn
zu viele 6-en fallen. Also: ∆0 = (−∞, δr ] und ∆1 = (δr , ∞). Probiere mehrere δr :

P T (T > 8|H0 ) = 0.0505


P T (T > 9|H0 ) = 0.0197 → Niveau-α-Test
P T (T > 10|H0 ) = 0.0067

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 482 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Zusammenfassung Beispiel: Mensch-Ärger-Dich-Nicht
Seien X1 , ..., XN u.i.v. ∼ B(1, p). Der Test:
 N
P
0 wenn Xi ≤ 9


i=1
φ(T (X1 , ..., XN )) = N
P
1 wenn Xi > 9


i=1

ist ein Niveau-α-Test zum Niveau α = 5% für das Testproblem:


1 1
H0 : p = 6 versus H1 : p ̸= 6

In unserer Datensituation gilt:


X
φ(t(x1 , ..., xn )) = φ( xi ) = φ(12) = 1

Der Test entscheidet hier für die Alternativhypothese H1 und gegen die
Nullhypothese H0 .
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 483 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Zusammenfassung Beispiel: Mensch-Ärger-Dich-Nicht
Interpretation
Wenn mindestens 10 6-en gewürfelt werden → Entscheidung für H1 .
Die W’keit, dass diese Entscheidung für H1 falsch war (der α-Fehler), ist
nach Konstruktion kleiner / gleich α = 5%
Die W’keit, dass die umgekehrte Entscheidung ϕ(T ) = 0 falsch ist (β-Fehler),
ist zwar berechenbar, aber nicht kontrolliert und daher beliebig groß.

H0 gilt tatsächlich H1 gilt tatsächlich

Testentscheidung für H0 Richtige Testentscheidung Fehler 2. Art (β-Fehler)


(1. Art)
Testentscheidung für H1 Fehler 1. Art (α-Fehler) Richtige Testentscheidung
(2. Art)

Wir entscheiden uns daher niemals für H0 , weil wir für diese Entscheidung die
Fehlerwahrscheinlichkeit nicht abschätzen können.
Wir sagen daher lediglich: Die Nullhypothese kann (nicht) abgelehnt werden.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 484 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Der zweiseitige exakte Binomial-Test
Gegeben seien Zufallsvariablen X1 , ..., XN u.i.v. ∼ B(1, p) und das
Hypothesenpaar:

H 0 : p = p0 versus H1 : p ̸= p0
N
P
Sei T (X1 , ..., XN ) = Xi . Der Test:
i=1
(
0 wenn T ∈ {δl , ..., δr }
φ(T ) =
1 wenn T ∈ {0, ..., δl − 1} ∪ {δr + 1, ..., N}

α
mit δl das 2 -Quantil und δr das 1 − α2 -Quantil der B(N, p0 )-Verteilung, d.h.

α α
δl = min P(T ≤ z) ≥ δr = min P(T ≤ z) ≥ 1 −
z∈{0,...,N} 2 z∈{0,...,N} 2
wird als zweiseitiger exakter Binomial-Test zum Niveau α bezeichnet.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 485 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Der zweiseitige exakte Binomial-Test
Beweis:
Zu zeigen ist, dass die W’keit für einen Fehler 1. Art kleiner als α ist.

P(φ(T ) = 1|H0 ) = P(T ∈ {0, ..., δl − 1} ∪ {δr + 1, ..., N}|H0 )


= P(T ∈ {0, ..., δl − 1}|H0 ) + P(T ∈ {δr + 1, ..., N}|H0 )
= P(T < δl |H0 ) + P(T > δr |H0 )
= P(T < δl |H0 ) + 1 − P(T < δr + 1|H0 )
= P(T ≤ δl − 1|H0 ) + 1 − P(T ≤ δr |H0 )

Nach Definition von δl gilt: P(T ≤ δl − 1|H0 ) < α2


Nach Definition von δr gilt: P(T ≤ δr |H0 ) ≥ 1 − α2 ⇔ 1 − P(T ≤ δr |H0 ) ≤ α
2
α α
⇒ P(φ(T ) = 1|H0 ) < + = α
2 2
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 486 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Der zweiseitige approximative Binomial-Test
Nach dem zentralen Grenzwertsatz wissen wir: Wenn (X1 , ..., XN ) u.i.v., dann
N
X − E [Xi ]
pi
X
ZN = ∼ N(0, 1)
i=1
NVar (Xi ) N→∞

Wir wissen, dass unter H0 gilt Xi ∼ B(1, p0 ), und somit:


N
X − p0 T − Np0
p i
X
ZN = =p ∼ N(0, 1)
i=1
Np0 (1 − p0 ) Np0 (1 − p0 ) N→∞

Während der exaktePBinomial-Test unter der Annahme konstruiert ist, dass die
Test-Statistik T = Xi Binomial-verteilt ist, können wir einen entsprechenden
Test auch mit der Statistik ZN konstruieren, von der wir wissen, dass sie (für
große N) standardnormalverteilt ist.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 487 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Der zweiseitige approximative Binomial-Test
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. ∼ B(1, p) sowie:

H0 : p = p0 versus H1 : p ̸= p0

Der Test (
0 wenn ZN ∈ [u α2 , u1− α2 ]
φ(ZN ) =
1 wenn ZN ∈
/ [u α2 , u1− α2 ]

mit uα dem α-Quantil der Standardnormalverteilung wird als approximativer


zweiseitiger Binomial-Test zum Niveau α bezeichnet, weil er das Niveau α
lediglich approximativ einhält.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 488 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Einseitige Tests
Bis jetzt haben wir zweiseitige Hypothesen der Art

H0 : θ = θ0 versus H1 : θ ̸= θ0

betrachtet: Wir lehnen H0 ab, wenn die Teststatistik entweder zu groß oder zu
klein ist. Alternativ gibt es auch die einseitigen Hypothesen:
Rechtsseitiger Test: H0 : θ ≤ θ0 versus H1 : θ > θ 0
Linksseitiger Test: H0 : θ ≥ θ0 versus H1 : θ < θ 0
Hier lehnen wir nur ab, wenn die Teststatistik zu klein (groß) ist.
Hier lässt sich die auf H0 bedingte Verteilung nicht mehr direkt angeben, da H0
aus mehr als einem Punkt θ = θ0 besteht. φ ist hier Test zum Niveau α, wenn gilt:

P(φ(T ) = 1|θ = θ̃) ≤ α ∀θ̃ ∈ H0

Es lässt sich zeigen, dass dies gilt, wenn P(φ(T ) = 1|θ = θ0 ) ≤ α ist.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 489 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Der einseitige Binomial-Test
Gegeben seien Zufallsvariablen X1 , ..., XN u.i.v. ∼ B(1, p) sowie:

H0 : p ≤ p0 versus H 1 : p > p0 . H0 : p ≥ p0 versus H1 : p < p0 .


Der exakte, rechtsseitige Binomialtest Der exakte, linksseitige Binomialtest
( (
0 wenn T ≤ δr 0 wenn T ≥ δl
φ(T ) = φ(T ) =
1 wenn T > δr , 1 wenn T < δl ,

mit δr dem 1 − α-Quantil der mit δl dem α-Quantil der


B(N, p0 )-Verteilung und B(N, p0 )-Verteilung und

N
P
mit der Teststatistik T (X1 , ..., XN ) = Xi ist ein Niveau-α Test.
i=1
Die Definition des approximativen einseitigen Binomialtest erfolgt entsprechend
mit der Teststatistik ZN und den Quantilen der Standardnormalverteilung.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 490 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Der p-Wert
Bei der Durchführung eines statistischen Tests wird häufig nicht nur die
Testentscheidung, sondern zusätzlich noch der sogenannte p-Wert angegeben:
Gegeben Sei ein statistischer Test mit Hypothesenpaar H0 und H1 sowie der
Test-Statistik T mit Realisierung t. Der p-Wert ist definiert als die
Wahrscheinlichkeit, t oder einen noch extremeren Wert zu beobachten.

H0 : θ ≤ θ0 versus H1 : θ > θ 0 H0 : θ ≥ θ0 versus H1 : θ < θ 0


prechts = P(T ≥ t|θ = θ0 ) plinks = P(T ≤ t|θ = θ0 )

Im zweiseitigen Fall ergibt sich der p-Wert als pbeid = 2 · min{prechts , plinks }.

Der p-Wert kann zu einer äquivalenten Definition der Testentscheidung verwendet


werden: Ist der p-Wert kleiner oder gleich α, so kann H0 abgelehnt werden.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 491 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Die Güte eines Tests
Für das Testproblem H0 : θ ∈ T0 versus H1 : θ ∈ T1 , welcher Test ist der Beste?
→ Der Test, der am wenigsten Fehler macht.
Der α-Fehler ist bei Niveau-α-Tests immer kleiner / gleich α, ist also
festgesetzt.
Der β-Fehler ist hingegen variabel → kleinere β-Fehler sind besser.
Die Güte eines Tests γ(θ) zu einer gegebenen Teststatistik T (X1 , ..., XN ) ist
definiert als
γ(θ) = E [φθ (T )] = P(φθ (T ) = 1),

d.h. als die W’keit, dass der Test H0 ablehnt gegeben θ. Für θ ∈ H0 ist dies der
α-Fehler, für θ in H1 ist dies 1 minus der β-Fehler.

Nach Definition eines Niveau-α-Tests muss gelten:


γ(θ) ≤ α ∀θ ∈ H0 (bzw. ∈ T0 )
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 492 / 545
11 Schließende Statistik 11.3 Das statistische Testproblem

11.3 Das statistische Testproblem


Die Güte eines Tests: Beispiele für Gütefunktionen
Güte eines zweiseitigen Tests Güte eines rechtsseitigen Tests

1.0
1.0

0.8
0.8

0.6
0.6

γ(θ)
γ(θ)

H0 H1

0.4
0.4

H1 H1

0.2
0.2

α = 0.05 α = 0.05

0.0
0.0

H0 H0

θ θ

Der rote Test mit γ(θ0 ) < α schöpft sein Niveau nicht vollständig aus. Er ist
konservativer (H0 wird länger beibehalten) und hat eine schlechtere Güte.
Der lila und der blaue Test sind unverfälscht (γ(θ0 ) = α), die Güte des lila-Tests
ist offensichtlich größer, er hat eine größere Trennschärfe.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 493 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Im restlichen Teil des Kapitel betrachten wir Lösungen für einige oft benötigte
Testprobleme:
Der Ein-Stichproben-Fall:
Es liegt eine einzelne Stichprobe (X1 , ..., XN ) vor und wir wollen wissen, ob
der Erwartungswert größer / kleiner / gleich einem bestimmten Wert ist.
Beispiel: Abfüllmenge Milchpackung
Der Zwei-Stichproben-Fall:
Es liegen zwei Stichproben (X1 , ..., XN ), (Y1 , ..., YM ) vor und wir wollen
wissen, ob der Erwartungswert der einen Stichprobe größer / kleiner / gleich
dem Erwartungswert der anderen Stichprobe ist.
Beispiel: Anzahl Erkrankter mit / ohne Impfung.
Der χ2 -Test:
Der χ2 -Test basiert auf dem χ2 -Koeffizienten aus Kapitel 4 und ist ein sehr
flexibler Test, der sich in unterschiedlichen Situationen einsetzen lässt.
▶ Als Test auf stochastische Unabhängigkeit zweier Merkmale
▶ Als Verteilungstest (z.B. ist X Binomial-verteilt?)

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 494 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Ein-Stichproben-Fall: Beispiel

Betrügt uns unser Milchlieferant und füllt immer ein bisschen zu wenig Milch in
die Flasche? Wir sind paranoid und haben für 10 Flaschen einmal nachgewogen
(Ergebnisse in Millilitern):

989 996 1010 991 1003 1005 998 983 992 972

Modellierung:
Der Abfüllprozess sei das Zufallsexperiment mit zugehörigem
Wahrscheinlichkeitsraum (Ω, A, P). Die Zufallsvariable X mit E [X ] = µ und
Var (X ) = σ 2 gibt an, wie viel Milliliter in eine Flasche abgefüllt werden.

Sicht des Verbrauchers: Unabhängige Sichtweise:


Bekomme ich zu wenig Milch? Wird die korrekte Menge Milch verkauft?

H0 : µ ≥ µ0 versus H1 : µ < µ 0 H0 : µ = µ0 versus H1 : µ ̸= µ0

Um zu überprüfen, ob 1 Liter abgefüllt wird, wäre hier µ0 = 1000.


Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 495 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Ein-Stichproben-Fall:

Zur Entscheidung schauen wir uns wie üblich eine Stichprobe (X1 , ..., XN ) u.i.v.
wie X und zugehörige Beobachtungen (x1 , ..., xN ) an und wollen jetzt einen
statistischen Niveau-α-Test konstruieren.

Die Teststatistik:
Da wir auf den Erwartungswert testen wollen, bietet sich das arithmetische Mittel
X̄ als Teststatistik T an.
Die allgemeine Form des Tests:
Einseitiger Fall Zweiseitiger Fall
( (
0 wenn T ≥ δl 0 wenn δl ≤ T ≤ δr
φ(T ) = φ(T ) =
1 wenn T < δl , 1 sonst ,

Bleibt die Frage nach der Bestimmung von δl und δr .


Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 496 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Ein-Stichproben-Fall:

Die Verteilung der Teststatistik unter H0 ist im allgemeinen unbekannt, wir


müssen also eine geeignete Annahme treffen. Wenn keine weiteren Informationen
vorliegen, neigt man in der Statistik zur Annahme einer Normalverteilung.
Die Verteilung der Teststatistik
2
Bekannt: E [X̄ ] = µ und Var (X̄ ) = σN . Unter der Annahme, dass X ∼ N(µ, σ 2 )
2
gilt, ist daher X̄ ∼ N(µ, σN ). Wir verwenden die normierte Teststatistik:

√ X̄ − µ0
Z= N mit Z ∼ N(0, 1)
σ H0

Als kritische Werte δl und δr ergeben sich daher, wie beim approximativen
Binomialtest, die Quantile der Standardnormal-Verteilung.
Achtung:
Ob die Verteilungsannahme gerechtfertigt ist, sollte (grafisch) überprüft werden.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 497 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Ein-Stichproben Gauss-Test:
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. ∼ N(µ, σ 2 ) sowie:

H0 : µ ≤ µ0 versus H1 : µ > µ 0 . H0 : µ ≥ µ0 versus H1 : µ < µ0 .


Der rechtsseitige Gauss-Test Der linksseitige Gausstests
( (
0 wenn Z ≤ u1−α 0 wenn Z ≥ uα
φ(Z ) = φ(Z ) =
1 wenn Z > u1−α , 1 wenn Z < uα ,

√ X̄ − µ0
mit der Teststatistik Z (X1 , ..., XN ) = N und uα dem α-Quantil der
σ
Standardnormalverteilung ist ein Niveau-α-Test für das zugehörige Testproblem.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 498 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Ein-Stichproben Gauss-Test:
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. ∼ N(µ, σ 2 ) sowie:

H0 : µ = µ0 versus H1 : µ ̸= µ0 .

Der zweiseitige Gauss-Test


(
0 wenn Z ∈ [u α2 , u1− α2 ] ⇔ |Z | ≤ u1− α2
φ(Z ) =
1 wenn Z ∈
/ [u α2 , u1− α2 ] ⇔ |Z | > u1− α2 ,

√ X̄ − µ0
mit der Teststatistik Z (X1 , ..., XN ) = N und uα dem α-Quantil der
σ
Standardnormalverteilung ist ein Niveau-α-Test für das zugehörige Testproblem.

Kritik:
Um den Gauss-Test durchzuführen, muss die wahre Varianz von X bekannt sein,
dies ist in Praxis jedoch in aller Regel nicht der Fall. Die Varianz aus eine
Stichprobe zu schätzen ändert jedoch die Verteilung der Teststatistik.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 499 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die Studentsche t-Verteilung:
Seien (U1 , ..., UN ) und V u.i. standardnormal-
verteilte Zufallsvariablen. Dann folgt
V
Z=s
N
1
Ui2
P
N
i=1

einer t-Verteilung mit N Freiheitsgraden.


Träger: TX = R
Dichtefunktion: 
N+1
Γ  x 2 −(N+1)/2
2
f (x) = √   · 1+
Nπ · Γ N2 N

Es gilt:
lim Z ∼ N(0, 1)
N→∞
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 500 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die Studentsche t-Verteilung:
Die Größe
v

u N
X̄ − µ0 u 1 X
Z= N mit sx = t (Xi − X̄ )2
sx N −1
i=1

ist t-verteilt mit N − 1 Freiheitsgraden. Motivation:



1 Durch Erweitern mit σ1 steht im Zähler N X̄ −µ σ
0
∼ N(0, 1).
2 Wurzel und Vorfaktor im Nenner passen bereits, auch die Summe der
quadratische Zufallsvariablen. Jeder einzelne Summand muss jetzt noch
standardnormalverteilt sein.
3 Der Erwartungswert jedes Summanden ist µ0 − µ0 = 0.
4 Die Varianz zu bestimmen ist schwerer, da Xi und X̄ nicht st.u. sind, es lässt
sich aber zeigen, dass die Varianz von Xi −
σ

= 1 ist.
1
P
5 Da gelten muss N Xi = X̄ , ist XN keine Zufallsvariable, sondern
deterministisch. Darum stehen im Nenner nur N − 1 Zufallsvariablen.
⇒ Also erfüllt Z gerade die Voraussetzungen der t-Verteilung der letzten Folie.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 501 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Ein-Stichproben t-Test

Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. ∼ N(µ, σ 2 ) sowie:

H0 : µ ≤ µ0 versus H1 : µ > µ 0 . H0 : µ ≥ µ0 versus H1 : µ < µ0 .


Der rechtsseitige t-Test Der linksseitige t-Test
( (
0 wenn Z ≤ tN−1,1−α 0 wenn Z ≥ tN−1,α
φ(Z ) = φ(Z ) =
1 wenn Z > tN−1,1−α , 1 wenn Z < tN−1,α ,

X̄ − µ0 √
mit der Teststatistik Z (X1 , ..., XN ) = und tN−1,α dem α-Quantil der
N
sx
Studentschen t-Verteilung mit N − 1 Freiheitsgraden ist ein Niveau-α-Test für das
zugehörige Testproblem.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 502 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Ein-Stichproben t-Test:
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. ∼ N(µ, σ 2 ) sowie:

H0 : µ = µ0 versus H1 : µ ̸= µ0 .

Der zweiseitige t-Test


(
0 wenn Z ∈ [tN−1, α2 , tN−1,1− α2 ] ⇔ |Z | ≤ tN−1,1− α2
φ(Z ) =
1 wenn Z ∈
/ [tN−1, α2 , tN−1,1− α2 ] ⇔ |Z | > tN−1,1− α2 ,

X̄ − µ0 √
mit der Teststatistik Z (X1 , ..., XN ) = N
und tN−1,α dem α-Quantil der
sx
Studentschen t-Verteilung mit N − 1 Freiheitsgraden ist ein Niveau-α-Test für das
zugehörige Testproblem.

Für N > 30 können die Quantile der t-Verteilung durch die Quantile der
Standardnormalverteilung ersetzt werden.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 503 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Ein-Stichproben t-Test: Beispiel

Kommen wir zurück zum Milchtütenbeispiel, zur Erinnerung die Daten:

989 996 1010 991 1003 1005 998 983 992 972

Es gilt:
√ 993.9 − 1000
x̄ ≈ 993.9, sx ≈ 11, Z= 10 ≈ −1.75
11
Das entsprechende Quantil ist t9,0.05 = −1.83. Die Teststatistik ist größer als der
kritische Wert, also kann der Test zum Niveau α = 5% nicht ablehnen, dass in
den Milchtüten weniger als 1 Liter enthalten ist.

Alternativ beträgt der p-Wert hier 0.108. Wenn wir den Test zum Niveau α = 0.11
ausgeführt hätten, hätten wir ablehnen können. Ein nachträgliches Ändern des
Niveaus, um das gewünschte Testergebnis zu erhalten, ist jedoch nicht erlaubt.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 504 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Ein-Stichproben t-Test: Diskussion und Rechtfertigung

Es kann gezeigt werden, dass der t-Test unter seinen Voraussetzungen der
beste Test ist, d.h. die größte Güte besitzt.
Die Normalverteilungsannahme ist stets kritisch zu hinterfragen. Auf Grund
des zentralen Grenzwertsatzes konvergiert die Verteilung der Test-Statistik
aber gegen eine Standardnormalverteilung, daher kann der Test bei großem N
(je nach Anwendung, N ≥ 30) in der Regel bedenkenlos eingesetzt werden.
Die Annahmen der unabhängigen und identischen Verteilung sind deutlich
kritischer zu sehen und auch schwerer zu überprüfen. In der Praxis übergeht
man diese Annahmen daher häufig und hofft das Beste.
Falls eine andere Verteilung von X angenommen wird, kann ein
entsprechender Test unter dieser Annahme konstruiert werden.
Es ist auch möglich, Tests ohne die Annahme einer Verteilung zu
konstruieren. Eine sogenannte nicht-parametrische Alternative schauen wir
uns jetzt an.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 505 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Nicht-parametrische Alternativen:
Auch wenn der zentrale Grenzwertsatz den Einsatz des t-Tests oftmals
rechtfertigt, sind Verteilungsannahmen immer kritisch zu sehen. Daher schauen
wir uns jetzt eine Alternative an, die keine bestimmte Verteilung voraussetzt.

Idee:
Wenn der Median der Stichprobe µ0 sein soll, sollten im Erwartungswert gleichviele
Beobachtungen größer und kleiner als µ0 sein. Wenn zu viele Beobachtungen
größer bzw. kleiner als µ0 sind, lehne entsprechende Nullhypothesen ab.

Xi 989 996 1010 991 1003 1005 998 983 992 972
Xi > 1000 - - + - + + - - - -

Wende jetzt einen Binomialtest mit p0 = 0.5 an. Der auf dieser Idee basierende
Test (Vorzeichentest genannt) besitzt eine schlechte Güte, da nur wenig
Information aus den Daten verwendet wird. Wir schauen uns daher direkt die
Erweiterung an, den Wilcoxon-Vorzeichen-Rang-Test.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 506 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Wilcoxon-Vorzeichen-Rang-Test: Die Teststatistik
Idee
Zähle nicht nur, wie viele Beobachtungen größer / kleiner als µ0 sind, sondern
beziehe auch die Ränge der absoluten Abstände zu µ0 mit ein.
1 Berechne die Differenzen Di = Xi − µ0 , i = 1, ..., N
2 Bilde die Beträge der Differenzen |D1 |, ..., |DN |
3 Ordne den betragsmäßigen Differenzen von klein nach groß Ränge R(|Di |) zu
4 Bestimme die Teststatistik
N
(
+
X 1 wenn Di > 0
W = R(|Di |)Vi mit Vi =
i=1
0 wenn Di < 0

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 507 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Wilcoxon-Vorzeichen-Rang-Test: Die Teststatistik
Falls µ0 tatsächlich der Median von X ist, ist Vi ∼ B(1, 0.5), entsprechend wird
jeder Rang mit W’keit 50% zu W + gezählt. Entsprechend ist
N N
1X 1X n(n + 1)
E [W + ] = R(|Di |) = i=
2 2 4
i=1 i=1

Weicht W + zu stark von seinem Erwartungswert ab, wird H0 abgelehnt.


Die Verteilung von W + kann durch Permutation aller möglichen Ergebnisse
bestimmt werden und ist für kleine N vertafelt (in Büchern abgedruckt, in
Software hinterlegt). Für N > 20 greift wieder der Zentrale Grenzwertsatz, es gilt
 
+ N(N + 1) N(N + 1)(2N + 1)
W ∼ N , .
appr . 4 24

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 508 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Wilcoxon-Vorzeichen-Rang-Test:

Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. wie X mit Median med(X ). Sei
X metrisch skaliert und symmetrisch verteilt mit stetiger Verteilungsfunktion,
sowie

H0 : med(X ) ≤ µ0 vs. H1 : med(X ) > µ0 . H0 : med(X ) ≥ µ0 vs. H1 : med(X ) < µ0 .

Der rechtsseitige Die linksseitige


Wilcoxon-Vorzeichen-Rang-Test Wilcoxon-Vorzeichen-Rang-Test
( (
+
+ 0 wenn W + ≤ w1−α + 0 wenn W + ≥ wα+
φ(W ) = + φ(W ) =
1 wenn W + > w1−α , 1 wenn W + < wα+ ,

mit der Teststatistik W + wie zuvor definiert und wα+ dem vertafelten α-Quantil
der Verteilung von W + ist ein Niveau-α-Test für das zugehörige Testproblem.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 509 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Wilcoxon-Vorzeichen-Rang-Test:
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. wie X mit Median med(X ). Sei
X metrisch skaliert und symmetrisch verteilt mit stetiger Verteilungsfunktion,
sowie

H0 : med(X ) = µ0 versus H1 : med(X ) ̸= µ0 .

Der zweiseitige Wilcoxon-Vorzeichen-Rang-Test


(
+
0 wenn W + ∈ [w + α,w
+
1− α ]
φ(W ) = +
2
+ +
2

1 wenn W ∈ / [w α , w1− α ],
2 2

mit der Teststatistik W + wie zuvor definiert und wα+ dem vertafelten α-Quantil
der Verteilung von W + ist ein Niveau-α-Test für das zugehörige Testproblem.
Für N > 20 können die Quantile der vertafelten
 Verteilung durch die Quantile der
N(N+1) N(N+1)(2N+1)
Normalverteilung N 4 , 24 ersetzt werden.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 510 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Wilcoxon-Vorzeichen-Rang-Test: Beispiel

Kommen wir zurück zum Milchtütenbeispiel:

Xi 989 996 1010 991 1003 1005 998 983 992 972
|Di | 11 4 10 9 3 5 2 17 8 28
R(|Di |) 8 3 7 6 2 4 1 9 5 10
Vi 0 0 1 0 1 1 0 0 0 0

10 · 11
W + = 7 + 2 + 4 = 13 E [W + ] = = 27.5
4
+
Das vertafelte Quantil ist w0.05 = 11, die Nullhypothese kann also nicht abgelehnt
werden.
Softwarepakete können auch für den Wilcoxon-Vorzeichen-Rang-Test einen
p-Wert bestimmen, hier ergibt sich ein p-Wert von 0.16.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 511 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Wilcoxon-Vorzeichen-Rang-Test: Diskussion

Auch wenn der Wilcoxon-Vorzeichen-Rang-Test ein nicht-parametrischer Test


ist und daher keine Verteilungsannahme voraussetzt, so hat der Test dennoch
Annahmen und Voraussetzungen, die erfüllt sein müssen.
Der Wilcoxon-Vorzeichen-Rang-Test testet auf den Median einer Verteilung,
nicht auf den Erwartungswert. Dies ist bei symmetrischen Verteilungen mit
existierendem Erwartungswert identisch, allerdings nur bei diesen.
Bei vorliegender Normalverteilung hat der Wilcoxon-Vorzeichen-Rang-Test
eine geringere Güte als der t-Test. Bei Abweichungen von der
Normalverteilung sind beide Tests ähnlich gut und kommen oft (aber nicht
immer!) zu ähnlichen Ergebnissen.
Ob man einen t-Test oder einen Wilcoxon-Vorzeichen-Rang-Test bevorzugt,
ist teilweise Geschmackssache und von Fachkultur zu Fachkultur
unterschiedlich.
Kritische Werte sind vertafelt, allerdings nur für den Fall ohne Bindungen
(d.h. Beobachtungen mit identischem Rang). Liegen Bindungen vor, so gibt
es korrigierte kritische Werte, die in üblicher Software hinterlegt sind.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 512 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Zwei-Stichproben-Fall: Beispiel

Geschmackstest
Unsere örtliche Pizzeria möchte eine neue Pizza Y einführen, allerdings nur, wenn
diese besser schmeckt als der bisherige Bestseller Pizza X . Zwei Gruppen von
Versuchspersonen bewerten den Geschmack je einer der beiden Pizzen auf einer
Skala 1 bis 10. Jede Person probiert entweder Pizza X oder Pizza Y . Wir
beobachten die Werte:

Bewertung Pizza X 6.6 3.2 8.0 3.1 1.4 6.4


Bewertung Pizza Y 4.8 9.8 4.3 8.9

Schmeckt die neue Pizza besser als die alte? Formuliert als statistisches
Testproblem:

H0 : X schmeckt besser versus H1 : Y schmeckt besser.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 513 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Zwei-Stichproben-Fall: Modellierung

Wir haben den üblichen Wahrscheinlichkeitsraum (Ω, A, P) und dieses mal 2


stochastisch unabhängige Zufallsvariablen X mit E [X ] = µX , Var (X ) = σX2 und
Y mit E [Y ] = µY , Var (Y ) = σY2 . Weiterhin liegen Zufallsvariablen (X1 , ..., XN )
u.i.v. wie X sowie (Y1 , ..., YM ) u.i.v. wie Y vor.

Einseitige Hypothesen:

H0 : µX − µY ≤ δ0 versus H1 : µX − µY > δ0 ,
H0 : µX − µY ≥ δ0 versus H1 : µX − µY < δ0 .

Zweiseitige Hypothese:

H0 : µX − µY = δ0 versus H1 : µX − µY ̸= δ0 .

Im relevanten Spezialfall δ0 = 0 Testen wir auf Ungleichheit der Erwartungswerte.


Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 514 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Zwei-Stichproben-Fall: Teststatistik

Da wir hier eine Aussage über die Differenz der Erwartungswerte treffen wollen,
bietet es sich an, diese als Teststatistik zu verwenden. Eine Normalisierung ist
notwendig, damit wir zu einer bekannten Verteilung kommen:
X̄ − Ȳ − δ0
Z= r
sX2 s2
+ Y
N M

Falls X und Y Normalverteilt sind, ist die Teststatistik nach ähnlichen


Argumenten wie im Ein-Stichproben-Fall t-verteilt, hier mit Freiheitsgraden k
$ 2   2 2  2 2 !%
sX2 sY2 1 sX 1 sY
k= + + .
N M N −1 N M −1 M
Für N, M ≥ 30 konvergiert die t-Verteilung gegen eine N(0, 1)-Verteilung.
Ohne Normalverteilungsannahme hilft uns der zentrale Grenzwertsatz und wir
können für N, M ≥ 30 ebenfalls mit der N(0, 1)-Verteilung arbeiten.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 515 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Zwei-Stichproben t-Test

Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v wie X ∼ N(µX , σX2 ), (Y1 , ..., YM )
u.i.v. wie Y ∼ N(µY , σY2 ), sowie X und Y st.u. sowie:

H0 : µX − µY ≤ δ0 vs. H1 : µX − µY > δ0 , H0 : µX − µY ≥ δ0 vs. H1 : µX − µY < δ0 .

Der rechtsseitige Zwei-Stichproben t-Test Die linksseitige Zwei-Stichproben t-Test


( (
0 wenn Z ≤ tk,1−α 0 wenn Z ≥ tk,α
φ(Z ) = φ(Z ) =
1 wenn Z > tk,1−α , 1 wenn Z < tk,α ,

mit Teststatistik Z und tk,α dem α-Quantil aus der t-Verteilung mit k
Freiheitsgraden wie auf auf der letzten Folie angegeben ist ein Niveau-α-Test für
das zugehörige Testproblem.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 516 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Zwei-Stichproben t-Test:
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. wie X ∼ N(µX , σX2 ),
(Y1 , ..., YM ) u.i.v. wie Y ∼ N(µY , σY2 ), sowie X und Y st.u. sowie:

H0 : µX − µY = δ0 vs. H1 : µX − µY ̸= δ0 .

Der zweiseitige Zwei-Stichproben t-Test


(
0 wenn Z ∈ [tk, α2 , tk,1− α2 ] ⇔ |Z | ≤ tk,1− α2
φ(Z ) =
1 wenn Z ∈ / [tk, α2 , tk,1− α2 ] ⇔ |Z | > tk,1− α2 ,

mit Teststatistik Z und Quantilen tk,α dem α-Quantil aus der t-Verteilung mit
mit k Freiheitsgraden wie auf auf der vorletzten Folie angegeben ist ein
Niveau-α-Test für das zugehörige Testproblem.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 517 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Zwei-Stichproben-Fall: Beispiel Geschmackstest

Die Zufallsvariable X beschreibt den Geschmack von Pizza X , Y den von Pizza
Y . Das Testproblem lautet:

H0 : µX − µY ≥ 0 vs. H1 : µX − µY < 0.

Bei den gegebenen Daten

Bewertung Pizza X 6.6 3.2 8.0 3.1 1.4 6.4


Bewertung Pizza Y 4.8 9.8 4.3 8.9

ergibt sich:

x̄ ≈ 4.8, ȳ ≈ 6.95, sx ≈ 2.57, sy ≈ 2.8, Z ≈ −1.23, k = ⌈6.1⌉

Mit dem entsprechenden Quantil t7,0.05 = −1.89 kann die Nullhypothese somit
nicht abgelehnt werden, der p-Wert ist 0.26.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 518 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Zwei-Stichproben-Fall: Nicht-parametrische Alternative

Auch im Zwei-Stichproben-Fall bietet der Wilcoxon-Test uns eine


nicht-parametrische Alternative. Die Idee ist dabei wieder, sich die Ränge der
Beobachtungen zu betrachten.
1 Erstelle die gemeinsame Stichprobe (X , Y )
2 Sortiere die gemeinsame (gepoolte) Stichprobe und vergebe Ränge R.
3 Bestimme die Teststatistik
N N+M
(
X X 1 Beobachtung mit Rang i gehört zu X
TW = R(Xi ) = iVi , Vi :=
i=1 i=1
0 Beobachtung mit Rang i gehört zu Y
Betrachte also die Rangsumme der Beobachtungen von X in der kombinierten
Stichprobe. Quantile der zugehörigen Verteilung sind wieder vertafelt, für
N, M > 25 ist eine Approximation möglich:
 
N(N + M + 1) NM(NM + 1)
TW ∼ N , .
appr 2 12
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 519 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Wilcoxon-Rangsummen-Test

Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. wie X mit Median med(X ) und
stetiger Verteilungsfunktion (Y1 , ..., YM ) u.i.v. wie Y mit Median med(y ) und
stetiger Verteilungsfunktion, X und Y st.u. sowie:
H0 : med(X ) ≤ med(Y ) vs. H0 : med(X ) ≥ med(Y ) vs.
H1 : med(X ) > med(Y ), H1 : med(X ) < med(Y ),

Der rechtsseitige Die linksseitige


Wilcoxon-Rangsummen-Test Wilcoxon-Rangsummen-Test
( (
0 wenn TW ≤ w1−α 0 wenn TW ≥ wα
φ(TW ) = φ(TW ) =
1 wenn TW > w1−α , 1 wenn TW < wα ,

mit Teststatistik TW wie auf der letzten Folie und Quantilen wα aus der
vertafelten Verteilung ist ein Niveau-α-Test für das zugehörige Testproblem.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 520 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Wilcoxon-Rangsummen-Test

Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. wie X mit Median med(X ) und
stetiger Verteilungsfunktion (Y1 , ..., YM ) u.i.v. wie Y mit Median med(y ) und
stetiger Verteilungsfunktion, X und Y st.u. sowie:

H0 : med(x) = med(Y ) vs. H1 : med(X ) ̸= med(Y ).

Der zweiseitige Zwei-Stichproben t-Test


(
0 wenn TW ∈ [w α2 , w1− α2 ]
φ(TW ) =
1 wenn TW ∈
/ [w α2 , w1− α2 ],

mit Teststatistik TW wie auf der letzten Folie und Quantilen wα aus der
vertafelten Verteilung ist ein Niveau-α-Test für das zugehörige Testproblem.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 521 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Zwei-Stichproben-Fall: Beispiel Geschmackstest

Kommen wir zurück zu dem Beispiel, mit dem Wilcoxon-Test können wir
überprüfen:

H0 : med(X ) ≥ med(Y ) vs. H1 : med(X ) < med(Y ).

Bei den gegebenen Daten

Bewertung 6.6 3.2 8.0 3.1 1.4 6.4 4.8 9.8 4.3 8.9
Pizza X X X X X X Y Y Y Y
Rang 7 3 8 2 1 6 5 10 4 9

ergibt sich:
TW = 7 + 3 + 8 + 2 + 1 + 6 = 27
Der vertafelte kritische Wert ist hier 25, es kann also nicht abgelehnt werden. Der
p-Wert beträgt 0.26.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 522 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Zwei-Stichproben-Fall: Beispiel 2

An der Wirksamkeitsstudie des Impfstoffes von Biontech-Pfizer 2020 haben 43 000


Menschen teilgenommen, je die Hälfte davon in der Impfgruppe und in der
Kontrollgruppe. In der Impfgruppe gab es 8 Corona-Fälle, in der Kontrollgruppe
162 Fälle. Unterscheidet sich die Erkrankungswahrscheinlichkeit?
X: Erkrankungswahrscheinlichkeit für Person der Kontrollgruppe
Y: Erkrankungswahrscheinlichkeit für Person der Impfgruppe
Da wir hier Bernoulli-Verteilungen vorliegen haben, gilt E [X ] = px , E [Y ] = py .

H0 : px ≤ py versus H1 : px > py

Auf Grund des großen Stichprobenumfangs greift hier trotz vorliegender


Bernoulli-Verteilung die approximative Normalverteilung der Teststatistik und wir
können den Zwei-Stichproben-t-Test einsetzen.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 523 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der Zwei-Stichproben-Fall: Beispiel 2

Gruppe Positiv Negativ Mittelwert Standardabweichung


Impfstoff 8 21 492 0.4e-3 0.02
Kontrolle 162 21 338 7.5e-3 0.08

Die Teststatistik Z ergibt sich somit zu


X̄ − Ȳ
Z=r ≈ 11.8.
sX2 sY2
+
N M

Auf Grund des hohen Stichprobenumfangs vergleichen wir mit dem Quantil der
Standardnormalverteilung: u0.95 = 1.64, wir können hier also ziemlich deutlich
ablehnen. Der p-Wert ist numerisch fast 0.
Wir können hier also ziemlich sicher sagen, dass nach den veröffentlichten Daten
der Impfstoff auch tatsächlich wirkt, d.h. die W’keit für eine Infektion reduziert.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 524 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Verbundene Stichproben

Unsere Pizzeria ärgert sich über die Ergebnisse der 1. Studie und will eine 2.
Studie nachlegen, weil Pizza Y doch wirklich offensichtlich besser schmeckt:
Vielleicht konnte ja nur nichts nachgewiesen werden, weil die Personen für Pizza
Y den Geschmack einer Pizza generell schlechter bewerten?
Neuer Aufbau:
6 Testpersonen essen in zufälliger Reihenfolge erst ein Stück der einen, dann ein
Stück der anderen Pizza und geben eine Bewertung auf der Skala von 1 bis 10 ab.

Testperson 1 2 3 4 5 6
Pizza X 2.3 2.4 4.6 7.8 4.7 5.2
Pizza Y 5.0 2.3 6.1 9.0 5.4 5.7

Und jetzt ein t-Test?


Offensichtlich sind Xi und Yi jetzt jeweils stochastisch abhängig, daher können wir
den 2-Stichproben-t-Test nicht einsetzen.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 525 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Verbundene Stichproben

Wird die i-te Beobachtung jeweils am gleichen Versuchsobjekt durchgeführt, so


spricht man in der Statistik von verbundenen Stichproben.

Ausweg:
Bilde die Differenzen Di = Xi − Yi . Waren die (X1 , ..., XN ) und die (Y1 , ..., YN )
jeweils st.u., so sind auch die Di st.u.. Damit können wir sämtliche Tests aus dem
Bereich des Ein-Stichproben-Falls einsetzen.
Die Testhypothesen übersetzen sich entsprechend, so wird z.B.

H0 : µX ≥ µy vs. H1 : µX < µy

zu

H0 : µD ≥ 0 vs. H1 : µD < 0.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 526 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Verbundene Stichproben
Differenz-Stichprobe D bestimmen und Teststatistik ausrechnen:
Testperson 1 2 3 4 5 6
Pizza X 2.3 2.4 4.6 7.8 4.7 5.2
Pizza Y 5.0 2.3 6.1 9.0 5.4 5.7
di -2.7 0.1 -1.5 -1.2 -0.7 -0.5
√ d¯
d¯ ≈ −1.1 6 ≈ −2.7
sd ≈ 0.97 z =
sd
Das entsprechende Quantil ist t5,0.05 ≈ −2.02 ist größer als die Teststatistik,
daher kann die Nullhypothese in diesem Fall abgelehnt werden.
Annahmen überprüfen:
Sind die Di normalverteilt? Da N < 30 brauchen wir dies für den t-Test.
Dies ist bei 6 Beobachtungen schwer zu überprüfen, es gibt zumindest keine
starken Ausreißer, daher ist die Annahme vertretbar.
Alternativ könnte man hier einem Wilcoxon-Vorzeichenrang-Test
durchführen, der in diesem Fall nur einen p-Wert von 0.0625 erreicht.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 527 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die χ2 -Verteilung und ihre Anwendungen
Zum Abschluss des Kapitels über schließende Statistik und statistische
Testprobleme betrachten wir noch Tests auf Basis der χ2 -Verteilung.
Die Grundidee dieser Tests ist es jeweils, Zählstatistiken (d.h. absolute
Häufigkeiten) zu betrachten und mit zugehörigen erwarteten Häufigkeiten unter
einer Nullhypothese zu vergleichen. Sind die Abweichungen zu groß, kann jeweils
abgelehnt werten, dass beobachtete und erwartete Häufigkeiten
zusammengehören.
Diese grundlegende Idee kann verwendet werden, um verschiedene statistische
Tests zu definieren:
1 χ2 -Anpassungstest: Kommt eine Stichprobe aus einer gegebenen Verteilung?
2 χ2 -Homogenitätstest: Kommen k Stichproben aus der gleichen Verteilung?
3 χ2 -Unabhängigkeitstest: Sind 2 Stichproben stochastisch unabhängig?

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 528 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Wichtige Wahrscheinlichkeitsverteilungen: Die χ2 -Verteilung
Seien (U1 , ..., Uf ) u.i. standardnormal-
verteilte Zufallsvariablen. Dann folgt
f
X
Z= Ui2
i=1

einer χ2 -Verteilung mit f


Freiheitsgraden.
Träger: TX = [0, ∞)

Dichtefunktion:
1
f (x) = t f /2−1 e −x/2
2f /2 Γ(f /2)

Für f > 100 entspricht die χ2f -Verteilung


näherungsweise einer x
N(f , 2f )-Verteilung.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 529 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die χ2 -Verteilung: Der χ2 -Koeffizient
Erinnerung an Kapitel 4, der gleiche Name ist natürlich kein Zufall:
J X
K
X (Njk − vjk )2 Nj· N·k
χ2 = , vjk =
vjk N
j=1 k=1

Allgemeiner gilt: Sei (Ω, A, P) der übliche Wahrscheinlichkeitsraum und X eine


diskrete Zufallsvariable mit Ausprägungen X (1), ..., X (f ), und weiter (X1 , ..., XN )
verteilt wie X .
N
P
Seien Hj = IXi =j ∀j = 1, ..., f Zufallsvariablen der absoluten Häufigkeiten der
i=1
einzelnen Ausprägungen von X . Dann gilt für die Teststatistik:
f
X (Hi − E [Hi ])2
χ2 = ∼ χ2f −1 .
E [Hi ] approx
i=1

(Der Beweis führt über die Multinomialverteilung der Hi und ist länglich.)
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 530 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die χ2 -Anpassungstest: Beispiel
Wir gehen zurück zum Mensch-Ärger-Dich-Nicht Beispiel. Diesmal zählen wir
jedoch sämtliche Ergebnisse von 100 Würfen und nicht nur die 6-en:

Augenzahl 1 2 3 4 5 6
Absolute Häufigkeit 16 13 14 15 20 22

Uns plagt weiterhin die Frage: Ist der Würfel fair?


Im Erwartungswert wären das für jede Augenzahl E [Hi ] = 100
6 ≈ 16.7. Sind die
Abweichungen zu groß, um einen fairen Würfel zu rechtfertigen?
Sei X eine Zufallvariable mit X = Anzahl Augen gewürfelt. Wenn der Würfel fair
ist, gilt P(X = 1) = ... = P(X = 6) = 61 . Als Testproblem erhalten wir:

1 1
H0 : P(X = i) = 6 ∀i versus. H1 : P(X = i) ̸= 6 für mindestens ein i

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 531 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die χ2 -Anpassungstest: Die Teststatistik
Allgemeiner formuliert ist das Testproblem für (p1 , ..., pf ) ∈ [0, 1]f ,
P
pi = 1:

H0 : P(X = i) = pi ∀i versus. H1 : P(X = i) ̸= pi für mindestens ein i

Die Hi sind gemeinsam multinomialverteilt, somit gilt E [Hi ] = Npi , i = 1, ..., f


und der χ2 -Koeffizient ergibt sich zu

f
X (Hi − Npi )2
χ2 (X1 , ..., XN ) = ∼ χ2f −1 .
Npi
i=1

Wir summieren über die quadratischen Abweichungen zwischen erwarteten


Häufigkeiten und beobachteten Häufigkeiten. Je größer die Abweichungen sind,
desto unwahrscheinlicher ist es, dass die angenommenen erwarteten Häufigkeiten
(und damit die pi ) wahr sind.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 532 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der χ2 -Anpassungstest:
Sei (Ω, A, P) der übliche Wahrscheinlichkeitsraum und X eine diskrete
Zufallsvariable mit Ausprägungen X (1), ..., X (f ), und weiter sei (X1 , ..., XN )
verteilt wie X , sowie das Testproblem

H0 : P(X = i) = pi ∀i versus. H1 : P(X = i) ̸= pi für mindestens ein i

für (p1 , ..., pf ) ∈ [0, 1]f , pi = 1. Der χ2 -Anpassungstest


P

(
0 wenn χ2 ≤ χ2f −1,1−α
φ(χ2 ) =
1 wenn χ2 > χ2f −1,1−α

mit der Teststatistik χ2 (X1 , ..., XN ) wie auf der vorangegangenen Folie und
χ2f −1,1−α dem 1 − α-Quantil der χ2 -Verteilung mit f − 1 Freiheitsgraden ist ein
Niveau-α-Test für das zugehörige Testproblem.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 533 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die χ2 -Anpassungstest: Beispiel
Zurück zum Beispiel mit dem fairen Würfel, hier ergibt sich für die Teststatistik
mit Npi = 100
6 ≈ 16.7:

Augenzahl 1 2 3 4 5 6
hi 16 13 14 15 20 22
(hi − Npi ) -0.7 -3.7 -2.7 -1.7 3.3 5.3

1  
χ2 = (−0.7)2 + (−3.7)2 + (−2.7)2 + (−1.7)2 + (3.3)2 + (5.3)2 = 3.8
16.7

Das entsprechende Quantil der χ2 -Verteilung ist χ20.95,5 = 11.07, entsprechend


kann die Nullhypothese hier nicht abgelehnt werden. Der p-Wert ist 0.58.
Es spricht also nichts gegen die Annahme eines fairen Würfels.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 534 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die χ2 -Anpassungstest: Diskussion

Die approximative Verteilung der χ2 -Statistik greift nur, wenn Npi > 1 ∀i und
Npi ≥ 5 für mindestens 80% der i.
Da letztlich jede diskrete Verteilung mit endlichem Träger durch einen Vektor
von Ausprägungswahrscheinlichkeiten (p1 , ..., pf ) spezifiziert werden kann,
kann mit dem χ2 -Test auf das Vorliegen beliebiger solcher Verteilungen
getestet werden.
Falls der Träger unendlich ist, betrachtet man lediglich die f − 1
Ausprägungen mit größter Auftrittswahrscheinlichkeit, und fasst die übrigen
Ausprägungen in einer Restklasse zusammen.
Stetige Verteilungen können nach Klassierung ebenfalls getestet werden.
Wir setzen hier die Eigenschaft, die wir zeigen wollen (X ist verteilt nach
(p1 , ..., pf )) unter die Nullhypothese. Wir können also nicht zeigen, dass diese
Verteilung gilt, wir können Sie höchstens ablehnen. Dies ist nötig, da wir
andererseits die Verteilung der Statistik unter der Hypothese ’X ist nicht
nach (p1 , ..., pf ) verteilt’ angeben müssten.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 535 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die χ2 -Homogenitätstest: Beispiel
Bei einem Fahrradhändler können 4 verschiedene Typen Fahrräder gekauft werden:
BMX, Mountain Bike, City-Rad und Tandem. Drei Filialen des Fahrradhändlers
wollen vergleichen, ob die Verteilung der verkauften Räder an den
unterschiedlichen Standorten identisch ist. Dazu betrachten sie die Verkaufszahlen
der letzten 2 Monate:
Standort BMX Mountain Bike City-Rad Tandem
A 60 54 48 6
B 51 39 27 6
C 55 68 93 20

Seien X A , X B , X C Zufallsvariablen, die die Verkaufsverteilungen in den jeweiligen


Filialen angeben. Wir wollen testen:
H0 : P(X A = j) = P(X B = j) = P(X C = j) ∀j ∈ {BMX, MB, City-Rad, Tandem}
versus
H1 : P(X i1 = j) ̸= P(X i2 = j) für mindestens ein i1 , i2 ∈ {A, B, C} und
j ∈ {BMX, MB, City-Rad, Tandem}
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 536 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die χ2 -Homogenitätstest:
Seien k diskrete Zufallsvariablen X 1 , ..., X k mit identischem Träger mit m
Ausprägungen gegeben. Sind die Verteilungen dieser k Zufallsvariablen identisch?

Betrachte dazu die Häufigkeitstabelle:


P
1 ... m
1 h11 ... h1m N1
2 h21 ... h2m N2
.. .. .. ..
. . . .
k
P hk1 ... hkm Nk
h·1 ... h·m N

Ni h·j
Die erwartete Häufigkeit zu der beobachteten Häufigkeit hij beträgt .
N
Mit den normieren quadratischen Abweichung aus beobachteten und erwarteten
Häufigkeiten lässt sich jetzt wieder ein χ2 -Test konstruieren.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 537 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der χ2 -Homogenitätstest:
Sei (Ω, A, P) der üblicher Wahrscheinlichkeitsraum und X 1 , ..., X k diskrete
Zufallsvariablen mit Ausprägungen X (1), ..., X (m), und weiter (X1i , ..., XNi i ) verteilt
wie X i , sowie das Testproblem

H0 : P(X 1 = j) = ... = P(X k = j) ∀j ∈ {X (1), ..., X (m)}


versus
H1 : ∃i1 , i2 ∈ {1, ..., k}, ∃j ∈ {X (1), ..., X (m)}: P(X i1 = j) ̸= P(X i2 = j).
(
0 wenn χ2 ≤ χ2(k−1)(m−1),1−α
Der χ2 -Homogenitätstest φ(χ2 ) =
1 wenn χ2 > χ2(k−1)(m−1),1−α
 2
Ni h·j
k X
X m hij − N
mit der Teststatistik χ2 = Ni h·j
i=1 j=1 N

und χ2(k−1)(m−1),1−α dem 1 − α-Quantil der χ2 -Verteilung mit (k − 1)(m − 1)


Freiheitsgraden ist ein Niveau-α-Test für das zugehörige Testproblem.
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 538 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der χ2 -Homogenitätstest: Beispiel
Zurück zu unseren Fahrradhändlern, die absoluten Häufigkeiten sind:

Standort BMX Mountain Bike City-Rad Tandem


A 60 54 48 6 168
B 51 39 27 6 123
C
P 55 68 93 20 236
166 161 168 32 527

und die erwarteten Häufigkeiten sind:


P
Standort BMX Mountain Bike City-Rad Tandem
A 52.9 51.3 53.6 10.2 168
B 38.7 37.6 39.2 7.5 123
C
P 74.3 72.1 75.2 14.3 236
166 161 168 32 527

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 539 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der χ2 -Homogenitätstest: Beispiel
 2
Ni h·j
hij − N
Die normierten, quadratischen Abweichungen Ni h·j
sind:
N

Standort BMX Mountain Bike City-Rad Tandem


A 0.9 0.1 0.6 1.7
B 3.9 0.1 3.8 0.3
C 5.0 0.2 4.2 2.2

In Summe ergibt sich als Teststatistik 23.1, das entsprechende Quantil ist
χ26,1−α = 12.60. Da die Teststatistik größer als das Quantil ist, kann die
Nullhypothese zum Niveau α = 0.05 abgelehnt werden. Der p-Wert beträgt
0.0003. Wir können also nachweisen, dass die Verteilung der Verkäufe zwischen
den 3 Händlern sich tatsächlich unterscheidet.
Wir können hier jetzt sogar interpretieren, wo es Unterschiede gibt: Vor allem die
BMX bei Händler C und die City-Räder bei Händler B passen nicht (zu wenige).
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 540 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die χ2 -Unabhängigkeitstest: Fragestellung und Beispiel
Sei (Ω, A, P) der übliche Wahrscheinlichkeitsraum und X , Y eine diskrete
Zufallsvariable mit Ausprägungen X (1), ..., X (J), Y (1), ..., Y (K ). Sind X und Y
stochastisch unabhängig?
Beispiel aus Kapitel 4: Bearbeitungen von Softwareaufgaben
P
Abfrage Export Verknüpfung
Kai 0 1 1 2
Miriam 0 3 0 3
Oliver 2 1 1 4
Tina
P 0 1 2 3
2 6 4 12

Ist die bearbeitete Aufgabe vom Mitarbeiter unabhängig?

H0 : X , Y sind st.u. versus H0 : X , Y sind nicht st.u.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 541 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die χ2 -Unabhängigkeitstest: Teststatistik
Unter H0 gilt:

P(X = X (j) ∧ Y = Y (k)) = P(X = X (j)) · P(Y = Y (k)).

Die gemeinsame Auftretenswahrscheinlichkeit ergibt sich als Produkt der


Randwahrscheinlichkeiten. Unter H0 würden wir daher als absolute Häufigkeit für
Nj,k erwarten:

E [Nj,k ] = N · P(X = X (j) ∧ Y = Y (k)) = N · P(X = X (j)) · P(Y = Y (k))

Es ergibt sich, dass der χ2 -Koeffizient


J X
K
X (Njk − vjk )2 Nj· N·k
χ2 = , vjk = ∼ χ2(J−1)·(K −1)
vjk N approx
j=1 k=1

eine sinnvolle Teststatistik ist.


Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 542 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Der χ2 -Unabhängigkeitstest:
Sei (Ω, A, P) der übliche Wahrscheinlichkeitsraum und X , Y eine diskrete
Zufallsvariable mit Ausprägungen X (1), ..., X (J), Y (1), ..., Y (K ), und weiter
((X1 , Y1 ), ..., (XN , YN )) verteilt wie (X , Y ), sowie das Testproblem

H0 : X , Y sind st.u. versus H0 : X , Y sind nicht st.u.

Der χ2 -Unabhängigkeitstest
(
2 0 wenn χ2 ≤ χ2(J−1)·(K −1),1−α
φ(χ ) =
1 wenn χ2 > χ2(J−1)·(K −1),1−α

mit der Teststatistik χ2 ((X1 , Y1 ), ..., (XN , YN )) wie auf der vorangegangenen Folie
und χ2(J−1)·(K −1),1−α dem 1 − α-Quantil der χ2 -Verteilung mit (J − 1) · (K − 1)
Freiheitsgraden ist ein Niveau-α-Test für das zugehörige Testproblem.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 543 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Die χ2 -Unabhängigkeitstest: Fragestellung und Beispiel

Beobachtete absolute Häufigkeiten Erwartete Häufigkeiten unter H0 :


Produkt der Randhäufigkeiten
P
Abfrage Export Verknüpfung
P
Abfrage Export Verknüpfung
Kai 0 1 1 2 Kai 1/3 1 2/3 2
Miriam 0 3 0 3 Miriam 1/2 3/2 1 3
Oliver 2 1 1 4 Oliver 2/3 2 4/3 4
Tina 0 1 2 3 Tina
P 1/2 3/2 1 3
2 6 4 12
P
2 6 4 12

Bestimmung des χ2 -Koeffizienten (vgl. Kapitel 4) ergibt χ2 ≈ 8.417. Das hier


benötigte Quantil der χ2 -Verteilung mit (4 − 1) · (3 − 1) = 6 Freiheitsgrade ergibt
sich zu χ26,0.95 = 12.60. Die Nullhypothese kann nicht abgelehnt werden.
Es spricht also nichts gegen die Annahme der Unabhängigkeit. Wir entscheiden
uns aber wie üblich nicht für H0 , es spricht nur nichts dagegen. Und wir hatten
hier auch nur sehr wenige Daten vorliegen.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 544 / 545
11 Schließende Statistik 11.4 Spezielle Testprobleme

11.4 Spezielle Testprobleme


Abschlussfolie

Es gibt noch wesentlich mehr statistische Signifikanz-Tests als hier vorgestellt,


und die Konstruktion neuer Tests ist relativ einfach: Lediglich die Verteilung
der Teststatistik unter H0 muss bekannt sein. Mit den hier vorgestellten Tests
können aber viele der üblichen Testprobleme gelöst werden.
Die Signifikanz-Aussage eines statistischen Tests beruht immer auf
Annahmen. Diese sind in der Praxis immer kritisch zu sehen. Dabei sind
Verteilungsannahmen auf Grund des zentralen Grenzwertsatzes meistens kein
Problem. Die eher unscheinbare u.i.v. ist deutlich häufiger verletzt und die
Verletzung führt oftmals dazu, dass der Test sein Niveau nicht mehr einhält.
Statistische Tests reagieren sehr sensitiv auf die Anzahl der Beobachtungen:
Liegen zu wenig Beobachtungen vor, kann H0 nur selten abgelehnt werden,
liegen zu viele Beobachtungen vor, sind bereits kleinste Unterschiede
signifikant. Auswege aus diesem konstruktionsbasierten Nachteil sind z.B.
sogenannte Relevanztests.

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 545 / 545

Das könnte Ihnen auch gefallen