Wrums 2223 2023-10-12

Wahrscheinlichkeitsrechnung und mathematische
Statistik für Informatiker

Vorlesung im Wintersemester 2023/2024
an der TU Dortmund
Prof. Dr. Jörg Rahnenführer

Fakultät Statistik, TU Dortmund
Einleitung
1 Einleitung 1.1 Info
1.1 WRUMS für Informatikerinnen und Informatiker

Dozent
▶ Prof. Dr. Jörg Rahnenführer
▶ Mathegebäude, Raum 720
▶ Email: rahnenfuehrer@statistik.tu-dortmund.de
Vorlesung
▶ Termin: Do 08:15 - 9:45
▶ Hörsaal: HG II - HS3
Übung
▶ Organisation: M.Sc. Marieke Stolte, stolte@statistik.tu-dortmund.de
▶ Es gibt 8 Übungsgruppen, die zweiwöchentlich stattfinden
▶ Details zum Ablauf und zu den Übungszeiten auf der Moodle-Seite
Website
▶ Moodle: https://moodle.tu-dortmund.de/course/view.php?id=42657
Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 2 / 545

1 Einleitung 1.2 Motivation
1.2 Motivation
Statistik ist die Wissenschaft zum Umgang mit Daten. Sie ist eine Möglichkeit,
eine systematische Verbindung zwischen Erfahrung und Theorie herzustellen.
Daten unterteilen sich oft in X -Daten (unabhängige Variablen) und y -Daten
(abhängige Beobachtungen)
Untersuchen möchte man dann zumeist den Zusammenhang X → y
Statistik beruht häufig auf Grundlagen der Wahrscheinlichkeitsrechnung
Und warum braucht man in der Informatik jetzt Statistik?
Häufig erzeugt die Informatik selbst Daten, die analysiert werden müssen
Viele Methoden der Informatik sind dazu da, Daten zu analysieren, dabei
werden jedoch häufig andere Ansätze als in der Statistik gewählt
Data Science: Die Kunst, beide Seiten zu kennen und Daten bestmöglich
handhaben zu können

1 Einleitung 1.3 Übersicht
1.3 Übersicht
Univariate Daten Zufallsvariablen und deren Verteilungen
▶ Merkmale und Datentypen Wahrscheinlichkeitstheoretische
▶ Tabellarische und grafische Kennzahlen
Darstellung ▶ Erwartungswert und Varianz
Statistische Kennzahlen ▶ Weitere Kennzahlen
▶ Kennzahlen für die Lage Wichtige
▶ Kennzahlen für die Streuung Wahrscheinlichkeitsverteilungen
▶ Quantile und Boxplots Mehrdimensionale Verteilungen
Bivariate Daten ▶ Bedingte Wahrscheinlichkeiten
▶ Tabellarische und grafische und stochastische Unabhängigkeit
Darstellungen ▶ Mehrdimensionale Zufallsvariablen
▶ Zusammenhangsmaße Markoffketten
▶ Lineare Regression
Schließende Statistik
Wahrscheinlichkeitstheorie
▶ Punktschätzung
▶ Mengentheoretische Grundlagen ▶ Das statistische Testproblem
▶ Wahrscheinlichkeitsmaße und ▶ Spezielle Testprobleme
Wahrscheinlichkeitsräume
Univariate Daten
2 Univariate Daten 2.1 Merkmale und Datentypen
2.1 Merkmale und Datentypen

Merkmal Merkmals- Wertebereich
ausprägungen
Form Ellipse, Ellipse, {Ellipse, Rechteck}
Ellipse, Rechteck,
Rechteck, Ellipse
Farbe Rot, Blau, Grün, {Blau, Gelb,
Rot, Gelb, Blau Grün, Rot}
Linienart Durchgängig, {Gepunktet,
Gepunktet, Gestrichelt,
Gepunktet, Durchgängig}
Durchgängig,
Gestrichelt,
Gestrichelt
Breite in cm 2, 1, 1, 2, 1, 3 (0, ∞)
Höhe in cm 1, 1, 2, 2, 3, 1 (0, ∞)


Datentypen
Skalentyp mögliche Aussagen Im Beispiel

qualitativ
Nominal Gleich / Verschieden Farbe, Form (binär, dichotom)
Ordinal Größer / Kleiner Linienart
quantitativ / metrisch
Intervall Differenzen (Breite, Höhe)
gleich / verschieden
Verhältnis Verhältnisse Breite, Höhe
gleich / verschieden


Datentypen
Datentyp Anzahl der Ausprägungen Im Beispiel
Diskret Endlich oder Form

abzählbar unendlich viele Breite, Höhe
(wenn grob bemessen)
Stetig Überabzählbar viele Breite, Höhe

(wenn beliebig fein
bemessen)


Datentypen
Qualitativ heißt immer diskret

Skalenniveau wird von links nach rechts immer höher

Unter Inkaufnahme von Informationsverlust können Merkmale in andere

Skalenniveaus überführt und entsprechend analysiert werden
▶ stetig in diskret (runden, genaue Werte gehen verloren)
▶ diskret quantitativ in ordinal (Abstände gehen verloren)
▶ ordinal in nominal (Ordnung geht verloren)

2.2 Tabellarische und grafische Darstellung von
2 Univariate Daten univariaten Daten

univariaten Daten
Qualitative Daten
MN = {e1 , . . . , eN } Population bestehend aus Objekten e1 , . . . , eN
X Nominales bzw. ordinales Merkmal
x ∈ WX Merkmalsausprägungen von X
WX = {x(j) | j = 1, . . . , J} Wertebereich von X mit

= {x(1), . . . , x(J)} Merkmalsausprägungen x(j), j = 1, . . . , J
x(1) < x(2) < . . . < x(J) falls X ordinal
DN = {xn | n = 1, . . . , N} Urliste aus der Messung von X in der

= {x1 , . . . , xN } Population MN , d.h. xn = X (en ), n = 1, . . . , N


univariaten Daten
Qualitative Daten: Beispiel Bearbeitung von Softwareaufgaben


univariaten Daten


univariaten Daten


univariaten Daten


univariaten Daten


univariaten Daten


univariaten Daten


univariaten Daten
Qualitative Daten: Deskriptive Auswertung
N
P
Absolute Häufigkeit Nj von x(j): Nj = N[x(j)] = di (j), mit di (j) := Ix(ei )=x(j)
i=1
J
P
Damit gilt Nj = N
j=1


univariaten Daten
Nj
Relative Häufigkeit fj von x(j): fj = N
J
P
Damit gilt fj = 1
j=1


univariaten Daten
Tabellarische Darstellung absoluter und relativer Häufigkeiten
Ausprägung Absolute Häufigkeit Relative Häufigkeit

x(1) N1 f1 = N1 /N
.. .. ..
. . .
x(J) NJ fJ = NJ /N
J
P PJ
Nj = N fj = 1
j=1 j=1


univariaten Daten
Falls J klein ist, sind Tabellen sehr geeignet. Sobald J etwas größer wird,
geht bei tabellarischen Darstellungen oftmals die Übersicht verloren.
Alternative Balkendiagramm: Pro Klasse ein Balken mit der Höhe fj :
0.30
0.20
fj
0.10
0.00
Kai Miriam Oliver Tina


univariaten Daten
Es gibt viele Alternativen zum Balkendiagramm (u.a. Kreisdiagramme). Hier
erfolgt die Darstellung der Häufigkeit nicht über die Höhe der Balken,
sondern z.B. über die Länge des Kreisausschnittes, einen Flächeninhalt, ...
Die beiden folgenden Tortendiagramme zeigen die gleichen Daten:
CDU/CSU
Grüne
SPD
Linke
FDP
sonstige
Das Balkendiagramm ist daher zu bevorzugen, da das menschliche Auge die

Balkenhöhe am leichtesten interpretieren kann, 3-dimensionale Darstellungen
sollten generell vermieden werden.

univariaten Daten
Es gibt viele Alternativen zum Balkendiagramm (u.a. Kreisdiagramme). Hier
erfolgt die Darstellung der Häufigkeit nicht über die Höhe der Balken,
sondern z.B. über die Länge des Kreisausschnittes, einen Flächeninhalt, ...
Die beiden folgenden Tortendiagramme zeigen die gleichen Daten:
CDU/CSU
Grüne
SPD
Linke
FDP
sonstige
Das Balkendiagramm ist daher zu bevorzugen, da das menschliche Auge die

Balkenhöhe am leichtesten interpretieren kann, 3-dimensionale Darstellungen
sollten generell vermieden werden.

univariaten Daten
Quantitativ diskrete Daten
X Quantitatives Merkmal
WX = {x(j) | j = 1, . . . , J} Wertebereich von X mit

= {x(1), . . . , x(J)} Merkmalsausprägungen x(j), j = 1, . . . , J
DN = {xn | n = 1, . . . , N} Urliste aus der Messung von X in der



univariaten Daten
Quantitativ diskrete Daten: Beispiel Bearbeitung von Softwareaufgaben


univariaten Daten
Quantitativ diskrete Daten: Deskriptive Auswertung
Absolute Häufigkeit Nj und relative Häufigkeit fj analog zu qualitativen Daten
j
fk = #{xn |xNn ≤x(j)}
P
Relative Summenhäufigkeit sj =
k=1
Ausprägung Absolute Relative Relative Summen-

Häufigkeit Häufigkeit häufigkeit
x(1) N1 f1 = N1 /N f1
x(2) N2 f2 = N2 /N f1 + f2
.. .. .. ..
. . . .
x(J − 1) NJ−1 fJ−1 = NJ−1 /N f1 + . . . + fJ−1
x(J) NJ fJ = NJ /N f1 + . . . + fJ = 1
J
P PJ
NJ = N fj = 1
j=1 j=1


univariaten Daten


univariaten Daten
Grafische Darstellung: Empirische Verteilungsfunktion

0
 , falls x < x(1)
FN (X ) = j
˜ j) ˜ ≤ x} , falls x(1) ≤ x
P
s j =
 fk , mit j = max{j|x(
k=1
1.0
... f9
... f8
0.8
... f7
... f6
0.6
f5
...
FN
f4
0.4
f1+f2+f3
f3
f1+f2
0.2
f2
f1
f1
0.0
10 12 14 16 18
Jörg Rahnenführer x
W’keitsrechnung und mathematische Statistik WiSe 23/24 28 / 545

univariaten Daten
Quantitativ stetige Daten:
X Quantitatives Merkmal
WX = (−∞, ∞) Wertebereich von X
DN = {xn |n = 1, . . . , N} Urliste aus der Messung von X in der



univariaten Daten
Quantitativ stetige Daten: Beispiel Bearbeitung von Softwareaufgaben

2.2 Klassieren / Kategorisieren

Häufigkeitstabellen bei stetigen Daten nicht sinnvoll, da (bei theoretisch
exakter Messung) jede Beobachtung genau einmal vorkommt.
Alternative: Änderung des Skalenniveaus durch Klassierung:
J
S
WX = (−∞, ∞) = Kj Klassierter (kategorisierter) Wertebereich von X
j=1
Kj = (vj−1 , vj ], j = 1, . . . , J − 1 Merkmalsklassen mit Klassengrenzen

KJ = (vJ−1 , vJ ) −∞ = v0 < v1 < . . . < vJ−1 < vJ = ∞
Im Beispiel der Arbeitserfassung sind z.B. folgende Klassen möglich:
WX5 = (−∞, ∞) = (−∞, 4] ∪ (4, 5] ∪ . . . ∪ (7, 8] ∪ (8, ∞)

4
[
= (−∞, 4] ∪ (j + 3, j + 4] ∪ (8, ∞)
j=1
Danach ist das Skalenniveau nur noch ordinal → Informationsverlust!


univariaten Daten
Quantitativ stetige Daten: Deskriptive Auswertung


univariaten Daten
Quantitativ stetige Daten: Deskriptive Auswertung
Grafische Darstellung: Histogramm
Aufbauend auf klassierter Häufigkeitsverteilung, allerdings v0 ̸= −∞ und vJ ̸= ∞
0.4
0.3
Density
0.2
0.1
0.0
3 4 5 6 7 8 9
Bearbeitungszeit


univariaten Daten
Achtung: Ein Histogramm und ein Balkendiagramm sind zwar verwandt, aber
es gibt einige wesentliche Unterschiede
Das Balkendiagramm hat mehrere Balken nebeneinander und stellt die
relativen Häufigkeiten der einzelnen Merkmalsklassen durch die Höhe der
Balken dar.
Im Histogramm gibt der Flächeninhalt(!) an, welcher Anteil der
Beobachtungen sich innerhalb der jeweiligen Klassierung befinden.
fj
Es gilt also: Breite × Höhe = fj , bzw., Höhe = Breite .
Da im vorangegangenen Beispiel gleich breite Klassierungen (mit Breite 1)
gewählt wurden, ergeben sich als Höhen die relativen Häufigkeiten der
jeweiligen Merkmalsklassen.
Üblicherweise sollten auch gleich breite Klassierungen gewählt werden, da
ansonsten die Interpretation des Histogramms erschwert wird.
Bei gleich breiten Klassierungen können zusätzlich auf der y-Achse absolute
an Stelle von relativen Häufigkeiten abgetragen werden.

univariaten Daten
Klasse Absolute Relative Breite Höhe im Histogramm
Häufigkeit Häufigkeit der Klasse
0.583
K1 = (3, 4.5] 7 0.583 1.5 1.5 = 0.389
0.083
K2 = (4.5, 5] 1 0.083 0.5 0.5 = 0.167
0
K3 = (5, 6] 0 0 1 1 =0
0.25
K4 = (6, 8] 3 0.25 2 2 = 0.125
0.083
K5 = (8, 9] 1 0.083 1 1 = 0.083
0.4
0.3
Density
0.2
0.1
0.0
3 4 5 6 7 8 9
Bearbeitungszeit


univariaten Daten
Beispiel Patientendaten: Gewicht (in kg); Klassenbreite 1 kg führt zu
unruhigem Bild, auffällig: Häufungen bei Vielfachen von 5 kg


univariaten Daten
Patientendaten: Klassenbreite 5 kg


univariaten Daten
Patientendaten: Klassenbreite 10 kg

Statistische Kennzahlen
3 Statistische Kennzahlen 3.1 Statistische Kennzahlen für die Lage
3.1 Statistische Kennzahlen für die Lage

Nach der passenden grafischen Darstellung der Werte eines Merkmals, nun
(algebraische) Charakterisierungen der Verteilung solcher Werte.
Ziel ist es, die Verteilung durch möglichst wenige Maßzahlen zu beschreiben.
1 Wo liegt die Mitte der Werte?
Repräsentative Charakterisierung einer Verteilung durch eine Zahl: Lagemaß
2 Wie streuen die Werte um die Mitte?
Charakterisierung der Größe der Unsicherheit (=Streuung) der Merkmalswerte:
Streuungsmaß
Später: Vergleich verschiedener Gesamtheiten miteinander mit Hilfe der

Maßzahlen


Beispiel: Welcher Schütze schießt besser?
Schütze 1: Lage gut, Streuung schlecht

Schütze 2: Lage schlecht, Streuung gut


Bisher: geringe Informationsverdichtung durch Verteilungsbeschreibung
Beispiel
Histogramm
Empirische
Verteilungsfunktion
Balkendiagramm


Jetzt: stärkere Zusammenfassung der Daten auf ihr Zentrum“
”
Farbige Linien
repräsentieren das
Zentrum


”
Unterschiedliche Definitionen von Zentrum“.
”
Allgemein: repräsentative Merkmalsausprägung, von der alle beobachteten Werte
möglichst wenig abweichen


”
Unterschiedliche Definitionen von Zentrum“.
”
Allgemein: repräsentative Merkmalsausprägung, von der alle beobachteten Werte
möglichst wenig abweichen


Nominale Daten
Gesucht: x ∗ , für das Abweichung zwischen x ∗ und x1 , . . . , xN minimal ist

Mit nominellen Ausprägungen kann keine sinnvolle Abweichung berechnet
werden, da keine sinnvollen Abstände zwischen den Beobachtungen definiert
werden können
Dummykodierung, zur Erinnerung: di (j) := Ix(ei )=x(j)
i xi i xi di (1) di (2) di (3)

1 A 1 A 1 0 0
2 C 2 C 0 0 1
.. .. .. .. .. .. ..
. . . . . . .
N B N
P B 0 1 0
N1 N2 N3


Jede Merkmalsausprägung x(j) wir durch einen Binärvektor mit Summe 1
repräsentiert, die 1 steht dabei exakt an der j.ten Stelle
Auf den Binärvektoren können wir die euklidische Distanz verwenden, um ein
Lagemaß zu definieren: Wir wählen die Merkmalsausprägung mit der
geringsten mittleren Distanz zu allen Beobachtungen.
Die euklidische Distanz zwischen zwei Beobachtungen xi1 und xi2 , d.h.
zwischen zwei dieser Binärvektoren ist entweder 0 (gleiche
Merkmalsausprägung) und 2 (unterschiedliche Merkmalsausprägungen
Die geringste mittlere Distanz hat somit diejenige Ausprägung, die zu den
meisten Beobachtungen Abstand 0 hat. Dies ist gerade die
Merkmalsausprägung, die am häufigsten im Datensatz vorkommt.
Modalwert / Modus = häufigster Wert: modx = xi (j ∗ )

Der Modalwert ist derjenige Merkmalswert, der am häufigsten vorkommt.


Nominale Daten
Modalwert
Beispiel Arbeitserfassung von Mitarbeitern


Ordinale Daten
Auch auf ordinalen Daten können wir keine Abstände definieren → Modalwert
Allerdings: Information über die Ordnung nicht berücksichtigt
Beispiel: Notenverteilung Altklausur
Note 1.0 2.0 3.0 4.0

Nj 10 30 60 80
4.0 Modalwert → offensichtlich schlechter Repräsentant
Ausweg: Sortiere die Beobachtung und wähle mittlere Beobachtung
Urliste x1 , . . . , xN
Geordnete Liste x(1) ≤ x(2) ≤ . . . ≤ x(N)
x(k) = xik


Ordinale Daten
Achtung, Fallunterscheidung:
N ungerade: Eindeutige, mittlere Beobachtung
N gerade: Mitte liegt zwischen 2 Beobachtungen, hier ist der Median also
nicht eindeutig definiert
Median = Zentralwert“ = 50%-Wert: medx

”
Der Median ist derjenige Wert, für den 50% der Merkmalswerte größer oder gleich
und 50% kleiner oder gleich sind.
(
x( n+1 ) n ungerade
medx := 2
{x( n2 ) , x( n2 +1) } n gerade


Quantitative Daten
x1 , . . . , xN
xi ∈ WX , i = 1, . . . , N
WX = {x(j)|j = 1, . . . , J} = {x(1), . . . , x(J)} bzw. WX = (−∞, ∞)
Arithmetisches Mittel = Mittelwert (mean)

N
1 X
x̄ = xi
N
i=1
Der Mittelwert minimiert die Summe der quadratischen Abweichungen

N
X
∆(z ) = (xi − z)2
i=1


Quantitative Daten
N N
1
(xi − z)2 ist minimal für z = x̄ =
P P
Zu Zeigen: N xi
i=1 i=1
N
(xi − z)2 gleich null
P
Beweisidee: Setze die Ableitung von
i=1
Beweis:
N
d X
(xi − z)2 = 0 (Ableiten: Kettenregel)
dz
i=1
N
X
⇔ 2(z − xi ) = 0 (Ausklammern und Summe aufteilen)
i=1
N
X N
X
⇔2 z −2 xi = 0
i=1 i=1


Quantitative Daten
Beweis (forts.)
N
X N
X
⇔2 z −2 xi = 0 (1. Summe ist unabhängig von i)
i=1 i=1
N
X
⇔ 2Nz − 2 xi = 0 (Sortieren und durch 2N teilen)
i=1
N
1 X
⇔z = xi
N
i=1
Hinreichendes Kriterium für Minimum: 2. Ableitung überprüfen:

N N
d X X
2(z − xi ) = 2 = 2N > 0
dx
i=1 i=1
Also ist x̄ das eindeutige Minimum der Summe der quadratischen Abweichungen

Quantitative Daten
x1 , . . . , xN
xi ∈ WX , i = 1, . . . , N
WX = {x(j)|j = 1, . . . , J} = {x(1), . . . , x(J)} bzw. WX = (−∞, ∞)
Median = Zentralwert“ = 50%-Wert: medx für stetige Merkmale

”
Der Median ist derjenige Wert, für den 50% der Merkmalswerte größer oder gleich
und 50% kleiner oder gleich sind.
(
x( n+1 ) n ungerade
medx := 1 2
2 {x( 2 ) + x( 2 +1) } n gerade
n n
Der Median minimiert die Summe der absoluten Abweichungen

N
X
∆a (x) = |xi − x|
i=1


Zusammenfassung: Welche Maßzahlen sind bei welchem Skalenniveau geeignet?

3 Statistische Kennzahlen 3.2 Statistische Kennzahlen für die Streuung
3.2 Statistische Kennzahlen für die Streuung

Bisher: Beschreibung von Häufigkeitsverteilung und Lage


Bisher: Beschreibung von Häufigkeitsverteilung und Lage
Jetzt: Beschreibung der mittleren Variation um die Lage


Nominale Daten
x1 , . . . , xN
xi ∈ WX , i = 1, . . . , N
Rechnen nur sinnvoll mit
WX = {x(j)|j = 1, . . . , J} Dummyvariablen bzw. Häufigkeiten
= {x(1), . . . , x(J)}
i xi i xi di (1) di (2) di (3)

1 A 1 A 1 0 0
2 C 2 C 0 0 1
.. .. .. .. .. .. ..
. . . . . . .
N B N
P B 0 1 0
N1 N2 N3


Nominale Daten
Allgemein: Streuung ist desto höher, je schlechter sich konkrete Werte

vorhersagen lassen.
Nominale Merkmalsausprägungen lassen sich um so besser vorhersagen, je

häufiger eine bestimmte Kategorie vorkommt.


Nominale Daten
Geringe Streuung, falls es ein j D entspricht dem Anteil von Paaren mit
gibt mit fj = 1. unterschiedlichen Merkmalsausprägungen an
Höchste Streuung, falls allen aus der Urliste bildbaren
fj = 1/J, j = 1, . . . , J Beobachtungspaaren:
Simpson’s D #{(i, k) ∈ {1, . . . , N} × {1, . . . , N}|xi ̸= xk }
D=
J N2
X
D =1− fj2
j=1
Beispiel


Nominale Daten
Geringste Streuung, falls es ein j gibt mit fj = 1. Beispiel J = 2
Höchste Streuung, falls fj = 1/J, j = 1, . . . , J.
Simpson’s D
J
fj 2
P
D =1−
j=1
1
0 ≤ D ≤ 1− J f1 = 1 − f2
D = 0 für max[(f1 , . . . , fJ )] = 1
1 1
D =1− J für f1 = . . . = fJ = J


Nominale Daten
Geringste Streuung, falls es ein j gibt mit fj = 1. Beispiel J = 2
Höchste Streuung, falls fj = 1/J, j = 1, . . . , J.
Simpson’s Dz (Normierte Version)

J
fj2 )
P
J(1−
j=1
Dz = J−1
0 ≤ Dz ≤ 1 f1 = 1 − f2
Dz = 0 für max[(f1 , . . . , fJ )] = 1
1
Dz = 1 für f1 = . . . = fJ = J


Ordinale Daten
x1 , . . . , xN
xi ∈ Wx , i = 1, . . . , N
WX = {x(j)| j = 1, . . . , J} = {x(1), . . . , x(J)}
x(1) < x(2) < . . . < x(J)
i xi k x(k)
Simpson’s D ist anwendbar, allerdings
1 x(3) 1 x(1)
wird die Information der
2 x(2) 2 x(1)
Kategorienordnung nicht genutzt.
3 x(1) 3 x(2)
4 x(1) 4 x(3)
5 x(3) 5 x(3)
Geordnete Liste
−−−−−−−−−→


Ordinale Daten
Allgemein: Streuung deste höher, je schlechter konkrete Werte sich vorhersagen
lassen.
Werte lassen sich umso besser vorhersagen, je stärker sie sich um den Median
verdichten.
Nicht mehr höchste Streuung bei ausgeglichener Belegung, da die Kategorien

unterschiedlich weit von der Mitte entfernt sind. Höchste Streuung bei maximaler
Entfernung zur Mitte, also bei gleichmäßiger Konzentration an Minimum und
Maximum.

Ordinale Daten
Geringe Streuung für N(x̃0.5 ) = N
Höchste Streuung für N(x̃0 ) = N(x̃1 ) = N/2
Dispersionsindex nach Leti

J−1
P
DL = FN [x(j)] · (1 − FN [x(j)])
j=1


Ordinale Daten
Höchste Streuung für N(x̃0 ) = N(x̃1 ) = N/2
Dispersionsindex nach Leti
J−1
0 ≤ DL ≤ 4


Ordinale Daten
Für J = 2 gilt DZ = DLZ ,
Höchste Streuung für N(x̃0 ) = N(x̃1 ) = N/2 d.h. normierte Versionen von
Simpson und Leti sind
Normierter Dispersionsindex nach Leti äquivalent.
J−1
4
P
DLZ = J−1 FN [x(j)] · (1 − FN [x(j)]) Beweis: DLZ =
j=1 1
4
P
= 2−1 FN [x(j)](1 − FN [x(j)])
0 ≤ DLZ ≤ 1 j=1
= 4·(f1 (1−f1 )) = 2·(2f1 −2f12 )

= 2(1 − f12 − 1 + 2f1 − f12 )
= 2(1 − [f12 + (1 − f1 )2 ])
2
fj2
P
2 1−
j=1
= 2−1 = DZ □


Quantitative Daten
x1 , . . . , xN
xi ∈ Wx , i = 1, . . . , N
WX = {x(j)| j = 1, . . . , J} = {x(1), . . . , x(J)}
bzw. Wx = (−∞, ∞)
Allgemein: Streuung desto höher, je schlechter konkrete Werte sich vorhersagen

lassen.
Werte lassen sich umso besser vorhersagen, je stärker sie sich um das jeweilige
Lagemaß verdichten.


Quantitative Daten
Werte lassen sich umso besser vorhersagen, je stärker sie sich um das jeweilige
Lagemaß verdichten.
Lagemaß: Arithmetisches Mittel, dazu gehört das Streuungsmaß:
empirische Varianz und Standardabweichung

Varianz: Durchschnitt“ der quadrierten Abweichungen von x̄
”
N
1 X
varx = sx2 := (xi − x̄)2
N −1
i=1
N−1 2
Alternativ dx2 = N sx
Standardabweichung: Wurzel aus der Varianz
√
sx := varx

Streuungsmaße:
Variationskoeffizient (relative Standardabweichung)
sx
vx :=
x̄
Mittlere absolute Medianabweichung MD

(von Mean Deviation from the Median“)
”
n
1X
mdx := |xi − medx |
n
i=1
Mediane absolute Medianabweichung MAD

(von Median Absolute Deviation“)
”
madx := med(|xi − medx |)


Quantitative Daten: Berechnung der Varianz aus Häufigkeitsverteilung
J
X
dx2 = fj · (x(j) − x̄)2
j=1
Beweis:
N N
1 X 1 X (x(1) − x̄)2 (x(N) − x̄)2
dx2 = (xi − x̄)2 = (x(i) − x̄)2 = + ... +
N i=1 N i=1 N N
(x(1) − x̄)2 (x(1) − x̄)2 (x(J) − x̄)2 (x(J) − x̄)2
= + ... + +... + + ... +
| N {z N } | N {z N }
N1 =f1 ·N-mal NJ =fJ ·N-mal
J
N N X
= f1 · (x(1) − x̄)2 + . . . + fJ · (x(J) − x̄)2 = fj · (x(j) − x̄)2
N N j=1


Quantitative Daten: Verschiebungssatz von Steiner
Alternative Berechnungsform für die Varianz:
N
1 X
dx2 = (xi − x̄)2 = x 2 − x̄ 2
N
i=1
Die Formel ist ein Spezialfall des Verschiebungssatz von Steiner (b = 0):
N N
1 X 1 X
dx2 = (xi − x̄)2 = (xn − b)2 − (x̄ − b)2
N N n=1
i=1
Beweis:
N N
1 X 1 X
dx2 = (xn − x̄)2 = [(xn − b) + (b − x̄)]2
N n=1 N n=1
N
1 X
= [(xn − b)2 + 2(xn − b)(b − x̄) + (b − x̄)2 ]
N n=1


Quantitative Daten: Verschiebungssatz von Steiner
N
1 X
= [(xn − b)2 + 2(xn − b)(b − x̄) + (b − x̄)2 ]
N n=1
N N N
1 X 1 X 1 X
= (xn − b)2 + 2(b − x̄) (xn − b) + (b − x̄)2
N n=1 N n=1 N n=1
N N N
!
1 X 2 1 X 1 X
= (xn − b) − 2(x̄ − b) xn − b + (x̄ − b)2
N n=1 N n=1 N n=1
N
1 X
= (xn − b)2 − 2(x̄ − b)2 + (x̄ − b)2
N n=1
N
1 X
= (xn − b)2 − (x̄ − b)2
N n=1


Zusammenfassung: Welche Maßzahlen sind bei welchem Skalenniveau geeignet?

3 Statistische Kennzahlen 3.3 Quantile und Boxplots
3.3 Quantile und Boxplots

Weiteres Maß zur Charakterisierung der Lage: p-Quantil Qp = x̃p
Verallgemeinerung des Medians (50%-Wert) auf beliebige Prozentzahlen
Nützliche Mittel zur Beschreibung einer Rangliste x(1) ≤ x(2) ≤ . . . ≤ x(n)
Ein p-Quantil Qp , p ∈ [0, 1], ist eine Zahl, für die 100 · p % der Merkmals-
werte einer Gesamtheit kleiner oder gleich sind und 100 · (1 − p) % größer
oder gleich.
Genauer könnte man für Qp z.B. Folgendes fordern:
Qp ≥ größtem Merkmalswert einer Gesamtheit, der ≥ 100 · p % der Merk-

malswerte ist und
Qp ≤ nächstgrößerem Merkmalswert der Gesamtheit, also
x(⌊np⌋) ≤ Qp ≤ x(⌊np⌋+1) .


Die folgende Berechnungsmethode für Quantile entspricht der Berechnung des
Medians.
p-Quantil Berechnung: Standard“ (nicht in R, dort type=2 wählen)
”
(
x(j) , j := ⌈np⌉, np nicht ganzzahlig
Qp := x(j) +x(j+1)
2 , j := np, np ganzzahlig
Bezeichnung
Anstelle von p-Quantil sagt man auch (1-p)-Fraktil.
Das 0-Quantil und das 1-Quantil entsprechen dem Minimum und dem
Maximum der Daten.
0.25- bzw. 0.75-Quantile heißen auch unteres bzw. oberes Quartil:
Unteres Quartil q4 = 0.25-Quantil; oberes Quartil q 4 = 0.75-Quantil.
Vielfache von 0.1 werden als Dezile bezeichnet (0.1-Dezil, 0.2-Dezil, ...).
Vielfache von 0.01 werden als Perzentile bezeichnet (0.01-Perzentil,
0.67-Perzentil, ...).

Man kann Kombinationen von Quantilen verwenden, um Maße abzuleiten:
Der Mittelwert des unteren und des oberen Quartils
Der Mittelwert aus Minimum und Maximum
Nennenswerte abgeleitete Streuungsmaße sind:
Spannweite (range)
Rx := max(x) − min(x) = x(n) − x(1)
Interquartilsabstand (interquartile range)

qdx := q 4 − q4
General kann der Mittelwert des p-Quantils und des p-Fraktils als Lagemaß und
die Differenz als Streuungsmaß verwendet werden.


5 Punkte Zusammenfassung
Maximum
Oft werden 5 (6) Zahlen verwendet, um
2
eine univariate Verteilung zu beschreiben:
Minimum, 1. Quartil, Median,
q4
1
(Mittelwert), 3. Quartil, Maximum
medx
Aus diesen 5 Zahlen lassen sich viele Lage
0
und Streuungsmaße ablesen:
q4
Medien, Mittelwert der Quantile,
−1
Interquratilsabstand, Spannweite, ...
−2
Gemeinsam werden diese 5 Datenpunkte
gerne als sogenannter Boxplot grafisch Minimum
dargestellt: Eine Box von q 4 bis q4 mit

einem Strich bei medx , dazu sogenannte
Whisker bis zum Minimum / Maximum.


Box-Whisker-Plot
4
Minimum und Maximum sind sehr
anfällig für Ausreißer in den Daten.
2
Darum: Zeichne die Whisker des
Boxplots nicht bis zum Minimum /
Maximum, sondern lediglich bis
0
q 4 + 1.5qdx bzw. q4 − 1.5qdx , also
auf das jeweilige Quartil ± den
1.5-fachen Interquartilsabstand.
−2
Sämtliche Beobachtungen größer
bzw. kleiner als diese Grenzen werden
−4
als explizite Punkte in den Boxplot
aufgenommen.


Box-Whisker-Plot
Boxplots benötigen sehr wenig Platz und geben dennoch sehr viele Informationen
über eine Verteilung wieder. Durch den geringen Platzverbrauch kann man sehr
viele Boxplots nebeneinander zeichnen und auf diese Weise viele univariate
Verteilungen auf einen Blick miteinander vergleichen.
Quality of Normal RNG

1.0
0.8
0.6
p.values
0.4
0.2
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Bivariate Daten
4 Bivariate Daten
4.0 Bivariate Daten

Bisher: Betrachtung einzelner Merkmale X
Jetzt: Betrachtung von Merkmalspaaren (X , Y ) und deren Zusammenhang

4 Bivariate Daten
4.0 Bivariate Daten

Fahrplan
Tabellarische und grafische Darstellungen
▶ Sowohl X als auch Y qualitativ (nominal oder ordinal)
▶ Sowohl X als auch Y quantitativ (diskret oder stetig)
▶ X qualitativ, Y quantitativ
Zusammenhangsmaße
▶ Sowohl X als auch Y nominal
▶ Sowohl X als auch Y quantitativ (diskret oder stetig)
▶ Sowohl X als auch Y ordinal
▶ X und Y haben unterschiedliche Skalenniveaus
Einfache Lineare Regression zur Darstellung des Zusammenhangs bei
quantitativen Daten
Doch zuvor: Ein wenig Notation

4 Bivariate Daten
4.0 Bivariate Daten

Notation
X, Y Merkmale
x ∈ WX , y ∈ WY Merkmalsausprägungen von X
WX = {x(j) | j = 1, . . . , J} Wertebereiche von X bzw. Y mit

WY = {y (k) | j = k, . . . , K } Merkmalsausprägungen
(xi , yi ) ∈ WXY = WX × WY = Bivariate Merkmalsausprägungen mit

{(x(1), y (1)), . . . , (x(1), y (K )), Bivariatem Wertebereich
(x(2), y (1)), . . . , (x(J), y (K ))}
x1 , . . . , xN , y1 , . . . , yN Univariate Urlisten
(x1 , y1 ), . . . , (xN , yN ) Bivariate Urliste

4 Bivariate Daten 4.1 Tabellarische und grafische Darstellungen
4.1 Bivariate Daten: Tabellarische und grafische

Darstellungen
Nominale Daten
Gemeinsame absolute Häufigkeitsverteilung von x und y
 
N11 ... N1K
N21 ... N2K 
Njk = N (x(j), y (k)) , j = 1, . . . , J; k = 1, . . . , K
 
 .. .. .. 
 . . . 
NJ1 ... NJK
Gemeinsame relative Häufigkeitsverteilung von x und y

 
f11 . . . f1k
Njk f21 . . . f2k 

fjk = , j = 1, . . . , J; k = 1, . . . , K

 .. . . .. 
N  . . . 
fj1 . . . fjk


Darstellungen
Nominale Daten: Darstellung einer bivariaten Häufigkeitsverteilung
Kontingenztafel: Absolute Häufigkeiten
Y P
y (1) y (2) ... y (K )
x(1) N11 N12 ... N1K N1·
K
x(2) N21 N22 ... N2K N2· Nj· =
P
Njk
.. .. .. .. .. k=1
X . . . . .
x(J)
P NJ1 NJ2 ... NJK NJ·
N·1 N·2 ... N·K N
J
P J P
P K
N·k = Njk N= Njk
j=1 j=1 k=1


Darstellungen
Nominale Daten
x1 , . . . , xN ; y1 , . . . , yN (x1 , y1 ), . . . , (xN , yN ) di (j) = Ix(ei )=x(j)
xi ∈ WX , yi ∈ WY (xi , yi ) ∈ WXY = WX × WY ri (k) = Iy (ei )=y (k)


Darstellungen
Nominale Daten: Häufigkeitsverteilung eines bivariaten Merkmals
Njk = N (x(j), y (k))

X X
= di (j) = ri (k)
i∈{l|rl (k)=1} i∈{l|dl (j)=1}
N
X
= di (j) · ri (k)
i=1
N
X X X X
Nj· = di (j) = di (j) + di (j) + . . . + di (j)
i=1 i∈{l|rl (1)=1} i∈{l|rl (2)=1} i∈{l|rl (K )=1}
X N
K X K
X
= dl (j) · rl (k) = Njk
k=1 l=1 k=1


Darstellungen
Kontingenztafel: Relative Häufigkeiten
Y P
y (1) y (2) ... y (K )
x(1) f11 f12 ... f1K f1·
K
x(2) f21 f22 ... f2K f2· fj· =
P
fjk
.. .. .. .. .. k=1
X . . . . .
x(J)
P fJ1 fJ2 ... fJK fJ·
f·1 f·2 ... f·K 1
J
P J P
P K
f·k = fjk fjk = 1
j=1 j=1 k=1
Gemeinsame relative Häufigkeitsverteilung: fXY := {fjk |j = 1, ..., J, k = 1, ..., K }


Darstellungen
Kontingenztafel: Randverteilungen
Absolute Randhäufigkeitsverteilung
NX · := {Nj· |j = 1, ..., J} und N·Y := {N·k |k = 1, ..., K } werden als absolute
Randhäufigkeitsverteilungen von X und Y bezeichnet.
Sie entsprechen den absoluten Häufigkeiten der univariaten Merkmalen
Relative Randhäufigkeitsverteilung
fX · := {fj· |j = 1, ..., J} und f·Y := {f·k |k = 1, ..., K } werden als relative
Randhäufigkeitsverteilungen von X und Y bezeichnet.
Sie entsprechen den relativen Häufigkeiten der univariaten Merkmalen


Darstellungen
Kontingenztafel: Bedingte Verteilungen
Wie lautet die Verteilung von Y im Teildatensatz, wenn die Ausprägung von X
bekannt ist, z.B. für X = x(2)?
Y P Bezeichne allgemein mit

y (1) y (2) ... y (K )
x(1) Ny ;k|j = Njk , k = 1, ..., K
x(2) N21 N22 ... N2K N2·
.. die absolute Häufigkeitsverteilung
X .
von Y gegeben X = x(j).
x(J)
Der Datensatz hat Umfang Nj· .


Darstellungen
Y P Bezeichne allgemein mit

y (1) y (2) ... y (K )
x(1) Ny ;k|j fjk
x(2) N21 N22
... N2K N2· fy ;k|j = = , k = 1, ..., K
N2· N2· N2· N2· Nj· fj·
..
X . die relative Häufigkeitsverteilung
x(J) von Y gegeben X = x(j).


Darstellungen
Y Bedingte Verteilungen:
P
y (1) y (2) ... y (K ) Verteilung von Y gegeben X :
f11 f12 f1K
x(1) f1· f1· ... f1· 1 fY |X := {fy ;k|j |j = 1, ..., J; k = 1, ..., K }
f21 f22 f2K
x(2) f2· f2· ... f2· 1
.. .. .. .. Verteilung von X gegeben Y :
X . . . .
fJ1 fJ2 fJK fX |Y := {fx;j|k |j = 1, ..., J; k = 1, ..., K }
x(J) fJ· fJ· ... fJ· 1
fjk
J mit fx;j|k := f·k


Darstellungen
Nominale Daten: Beispiel Bearbeitung von Softwareaufgaben


Darstellungen


Darstellungen


Darstellungen


Darstellungen
Titanic
Nominale Daten: Grafische Darstelling
1st 2nd 3rd Crew
Beispiel: Der Titanic-Datensatz:

Hat ein Passagier den Untergang der
No
Titanic überlebt? Weitere Merkmale, wie
z.B. Geschlecht und Passagierklasse.
Survived
Der Mosaikplot
Rechteckbreiten entsprechen f·c
Rechteckhöhen entsprechen fs|c
Yes
Rechteckflächen entsprechen
fsc = fs|c · f·c
Wobei: s der Variable Überlebt und c der
Passagierklasse entspricht Class


Darstellungen
Titanic
Nominale Daten: Grafische Darstelling
1st 2nd 3rd Crew
Zusätzliche Einteilung der Flächen Male Female Male Female Male Female Male Female
nach Geschlecht
No
Es liegen also letztlich 3 Merkmale
vor: Überleben, Passagierklasse und
Geschlecht, die Daten sind also
Survived
nicht bivariat, sondern trivariat
Weitere Unterteilung der
Rechteckbreiten nach fg |sc , d.h. es
liegt eine doppelte Bedingung auf
Yes
zwei Merkmale vor
Weitere Unterteilungen nach
weiteren Merkmalen sind denkbar,
die Interpretierbarkeit ist aber schon Class
bei drei Merkmalen fraglich


Darstellungen
Quantitative Daten: Beispiel Bearbeitung von Softwareaufgaben
Streudiagramm
Darstellung der Punktepaare (xi , yi ) in einem kartesischen Koordinatensystem
10
Bearbeitungszeit
8
6
4
2
8 10 12 14 16 18 20
Anzahl Clicks

Darstellungen
Gemischte Daten:
Es liegt also ein quantitatives und ein qualitatives Merkmal vor.
Möglichkeit 1:
Reduzierung des Skalenniveaus des quantativen Merkmals und Einsatz der
qualitativen Methoden. Nachteil: Informationsverlust
Möglichkeit 2:
Codierung des qualitativen Merkmals durch {1, 2, 3, ...} und Einsatz von
Streudiagrammen. Nachteil: Suggerierung einer Reihenfolge / von
Abständen, die es tatsächlich nicht gibt. Außerdem: Punkte werden oft
Übereinander gezeichnet. Ausweg: Jittering (Addition von kleinen
Zufallswerten auf die Datenpunkte)
Möglichkeit 3:
Einzelne univariate Grafiken je nach Ausprägung des qualitativen Merkmals,
z.B. paralllele Boxplots. Nachteil: Teils viele Grafiken, unübersichtlich

Darstellungen
Gemischte Daten: Beispiel Bearbeitung von Softwareaufgaben
Streudiagramm
Darstellung weitere Merkmale über Eigenschafte wie z.B. der Farbe
10
Kai
Miriam
Oliver
Bearbeitungszeit
Tina
8
6
4
Abfrage
Export
Verknüpfung
2
8 10 12 14 16 18 20
Anzahl Clicks
4 Bivariate Daten 4.2 Zusammenhangsmaße
4.2 Bivariate Daten: Zusammenhangsmaße

Erinnerung: Allgemeine Eigenschaft der Streuung univariater Daten: Streuung
von X desto höher, je schlechter sich konkrete Werte vorhersagen lassen.
▶ Bisher: Vorhersage der Werte von X durch einzelne Lageparameter.
▶ Jetzt: Vorhersage der Werte von Y unter Verwendung der Werte von X .
Allgemein: Zusammenhang ( = Korrelation) zwischen X und Y desto größer,

je besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen
lässt (oder umgekehrt).
Wichtige Unterscheidung
▶ Korrelation bedeutet nicht notwendig Kausalität (Beziehung zwischen Ursache
und Wirkung oder Aktion und Reaktion)

Korrelation und Kausalität
Es gilt: X −→ Y
X ist Ursache von Y ⇒ X und Y korrelieren ⇓
X ←→ Y
Aber: X −→ Y
X und Y korrelieren ⇏ X ist Ursache von Y ̸⇑ (gilt nicht)
X ←→ Y

Korrelation und Kausalität
X ist Ursache von Y ⇒ X und Y korrelieren
X und Y korrelieren ⇏ X ist Ursache von Y
Verschiedene
Korrelationsquellen
möglich

Nominale Daten
Zusammenhang (=Korrelation) zwischen X und Y desto größer, je besser sich der
Wert von Y unter Kenntnis des Werts von X vorhersagen lässt (oder umgekehrt).
Y Wert von Y lässt sich bei Kenntnis

P
y (1) y (2) ... y (K ) von X umso besser vorhersagen, je
x(1) fy ;1|1 fy ;2|1 ... fy ;K |1 1 stärker die bedingte Verteilung
fX |Y von Y gegeben X von der
x(2) fy ;1|2 fy ;2|2 ... fy ;K |2 1
Randverteilung f·Y von Y
.. .. .. ..
X . . . . abweicht.
x(J) fy ;1|J fy ;2|J ... fy ;K |J 1
f·1 f·2 ... f·K

Nominale Daten
Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je stärker die
bedingte Verteilung fY |X von Y gegeben X von der Randverteilung f•Y von Y
abweicht.
Zusammenhang minimal, falls

Y fy ;k|j = f·j für alle j ∈ {1, . . . , J}
P
y (1) y (2) ... y (K ) und k ∈ {1, . . . , K }
x(1) f·1 f·2 ... f·K 1
x(2) f·1 f·2 ... f·K 1
.. .. .. ..
X . . . .
x(J) f·1 f·2 ... f·K 1
f·1 f·2 ... f·K

Nominale Daten
abweicht.
Zusammenhang maximal, falls es

Y für alle j ∈ {1, . . . , J} ein
P
y (1) y (2) ... y (K ) k ∈ {1, . . . , K } mit fy ;k|j = 1 gibt
x(1) 0 1 ... 0 1
x(2) 0 0 ... 1 1
.. .. .. ..
X . . . .
x(J) 1 0 ... 0 1
f·1 f·2 ... f·K

Nominale Daten
abweicht.
Y Ein Maß, dass desto größer wird,

P
y (1) y (2) ... y (K ) je größer die Abweichung der
x(1) fy ;1|1 fy ;2|1 ... fy ;K |1 1 bedingten Verteilung fY |X von der
Randverteilung f·Y ist, ist also ein
x(2) fy ;1|2 fy ;2|2 ... fy ;K |2 1
sinnvolles Zusammenhangsmaß.
.. .. .. ..
X . . . .
x(J) fy ;1|J fy ;2|J ... fy ;K |J 1
f·1 f·2 ... f·K

Nominale Daten
Ein Maß, dass desto größer wird, je größer die Abweichung der bedingten
Verteilung fY |X von der Randverteilung Y·Y ist, ist also ein sinnvolles
Zusammenhangsmaß.
Y Wären die bedingte und die

P
y (1) y (2) ... y (K ) Randverteilung identisch, so würde
x(1) f0;11 f0;12 ... f0;1K 1 ein Anteil von f0;jk = f·k · fj· an den
N Daten in die Kategorie
x(2) f0;21 f0;22 ... f0;2K 1
(x(j), y (k)) fallen.
.. .. .. ..
X . . . .
Dieser Fall wird als empirische
x(J) f0;J1 f0;J2 ... f0;KJ 1
Unabhängigkeit von X und Y
f·1 f·2 ... f·K bezeichnet.

Nominale Daten
Ein Maß, dass desto größer wird, je größer die Abweichung der bedingten
Verteilung fY |X von der Randverteilung Y·Y ist, ist also ein sinnvolles
Zusammenhangsmaß.
Y Womit würden bei Unabhängigkeit

P
y (1) y (2) ... y (K )
x(1) v11 v12 ... v1K N1· vjk = f·k · fj· · N
N·k · Nj· · N N·k · Nj·
x(2) v21 v22 ... v2K N2· = =
.. .. .. .. N ·N N
X . . . .
Beobachtungen in der Kategorie
x(J) vJ1 vJ2 ... vJK NJ· (x(j), y (k)) erwartet.
P
N·1 N·2 ... N·K

Nominale Daten Je größer die beobachteten Anzahlen Njk von den erwarteten
vjk abweichen, desto mehr unterscheiden sich bedingte und Randverteilungen. Ein
Maß, dass auf der quadratischen Abweichung der erwarteten von den
beobachteten Häufigkeiten basiert, ist die χ2 -Größe
K
J X
X (Njk − vjk )2 Nj· N·k
χ2 = , vjk =
vjk N
j=1 k=1
Y
y (1) y (2) ... y (K )
(N11 − v11 )2 (N12 − v12 )2 (N1K − v1K )2
P
x(1) ...
x(2) (N21 − v21 )2 (N22 − v22 )2 ... (N2K − v2K )2
.. .. .. ..
X . . . .
x(J) (NJ1 − vJ1 )2 (NJ2 − vJ2 )2 ... (NJK − vJK )2
χ2
P

Nominale Daten: die χ2 -Größe
J X
K
χ2 = , vjk =
vjk N
j=1 k=1
Die χ2 -Größe erfüllt die Forderung, desto größer zu werden, je größer die
Abweichung der bedingten Verteilung fY |X von der Randverteilung f·Y ist.
J X
K N N 2 J X K
2
X Njk − j·N ·k N X (fjk N − fj· f·k N)2
χ = =
Nj· N·k fj· f·k N
j=1 k=1 j=1 k=1
J X
K J XK Nf 2 fjk − f
2
X N(fjk − fj· f·k )2 X j· fj· ·k
= =
fj· f·k fj· f·k
j=1 k=1 j=1 k=1
K
J X
X Nfj· (fy ;k|j − f·k )2
=
f·k
j=1 k=1

J X
K J X
K
X (Njk − vjk )2 X Njk2 Nj· N·k
χ2 = =N − 1 , vjk =
vjk Nj· N·k N
j=1 k=1 j=1 k=1
Es gilt: 0 ≤ χ2 ≤ N(min{J, K } − 1)
Beweis:
0 ≤ χ2 klar wegen Nj· > 0, N·k > 0, (Njk − vjk )2 ≥ 0
0 = χ2 , wenn Njk = vjk , d.h. wenn alle bedingten Häufigkeiten den unter
Unabhängigkeit erwarteten Häufigkeiten entsprechen.

J X
K J X
K
χ2 = =N − 1 , vjk =
vjk Nj· N·k N
j=1 k=1 j=1 k=1
Wann gilt: χ2 = N(min{J, K } − 1) ?
Beweisskizze: Sei o.B.d.A. K ≤ J.

Dann gilt für alle k = 1, . . . , K und j = 1, . . . , J mit Njk > 0:
J X
K
X Njk2 Njk
=K ⇔ =1 für ein kj ,
Nj· N·k Nj·
j=1 k=1
d.h. χ2 wird maximal, wenn es zu jedem j ein kj mit fy ;kj |j = 1 gibt.

J X
K J X
K
χ2 = =N − 1 , vjk =
vjk Nj· N·k N
j=1 k=1 j=1 k=1
Es gilt: 0 ≤ χ2 ≤ N(min{J, K } − 1)
(Korrigierter) Kontingenzkoeffizient nach Pearson:

s
χ2 min{J, K }
C= 2
∈ [0, 1]
χ + N min{J, K } − 1
Eliminiert Abhängigkeit des Koeffizienten vom Stichprobenumfang N und von der

Dimension min{J, K }.

Njk

vjk

(Njk − vjk )2

(Njk − vjk )2 /vjk

J X
K
X (Njk − vjk )2
χ2 =
vjk
j=1 k=1
1 101
= (4 + 6 + 32 + 6 + 0 + 18 + 6 + 2 + 2 + 12 + 1 + 12) = ≈ 8.417
12 12

s r r
2 101 χ2 min{J, K } 101 · 12 3 303
χ = , C= 2
= · = ≈ 0.786
12 χ + N min{J, K } − 1 12 · 245 2 490

Quantitative Daten
Allgemein: Zusammenhang (=Korrelation) zwischen Y und X desto größer, je

besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt
(oder umgekehrt).
Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je mehr ein
hoher Wert von X einen hohen Wert von Y impliziert (positiver Zusammenhang)
bzw. je mehr ein hoher Wert von X einen niedrigen Wert von Y impliziert
(negativer Zusammenhang).
Ein sinnvolles Zusammenhangsmaß für ordinale Daten sollte also im Absolutwert

hoch sein, wenn hohe Werte von X mit hohen bzw. niedrigen Werten von Y
einhergehen und niedrig, wenn Paare von hohen und hohen, hohen und niedrigen,
niedrigen und hohen sowie niedrigen und niedrigen X - und Y -Werten in gleichem
Maße auftreten.

Quantitative Daten
Allgemein: Zusammenhang (=Korrelation) zwischen Y und X desto größer, je

besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt
(oder umgekehrt).
N
1 X
Kovarianz: sxy = (xn − x̄)(yn − ȳ )
N − 1 n=1
sxy > 0, wenn hohe Werte von X in hohem Maße mit hohen Werten von Y
einhergehen (Positive Korrelation)
sxy < 0, wenn hohe Werte von X in hohem Maße mit niedrigen Werten von Y
einhergehen (Negative Korrelation)
sxy = 0, wenn hohe Werte von X in gleichem Maße mit hohen Werten wie mit
niedrigen Werten von Y einhergehen (Unkorreliertheit)

N
1
P
Quantitative Daten: Kovarianz: sxy = N−1 (xn − x̄)(yn − ȳ )
n=1

N
1
P
Quantitative Daten: Kovarianz: sxy = N−1 (xn − x̄) (yn − ȳ )
n=1

Quantitative Daten:
Kovarianz:
N N
1 X 1 X N
sxy = (xn − x̄)(yn − ȳ ) = xn yn − N x̄ ȳ = (xy − x̄ · ȳ )
N − 1 n=1 N − 1 n=1 N −1
Beweis analog zu Beweis von dx2 = x 2 − x̄ 2 :

N N
1 X 1 X
sxy = (xn − x̄)(yn − ȳ ) = (xn yn − xn ȳ − x̄yn + x̄ · ȳ )
N − 1 n=1 N − 1 n=1
N N N
1 X 1 X 1 X N
= xn yn − xn ȳ − x̄ yn + x̄ · ȳ
N − 1 n=1 N − 1 n=1 N − 1 n=1 N −1
N N N N N
= xy − x̄ · ȳ − x̄ · ȳ + x̄ · ȳ = (xy − x̄ · ȳ ) □
N −1 N −1 N −1 N −1 N −1

Quantitative Daten: Kovarianz: −sx sy ≤ sxy ≤ sx sy
Beweis: Spezialfall der Cauchy-Schwarz-Ungleichung:
Für (an , bn ) ∈ R2 gilt:

N
P 2 N N N
P 2 N N
an2 · bn2 =⇒ (xn − x̄)2 · (yn − ȳ )2
P P P P
an bn ≤ (xn − x̄)(yn − ȳ ) ≤
n=1 n=1 n=1 n=1 n=1 n=1
s s
N
P N
P N
P N
P N
P
⇔− (xn − x̄)2 · (yn − ȳ )2 ≤ (xn − x̄)(yn − ȳ ) ≤ (xn − x̄)2 · (yn − ȳ )2
n=1 n=1 n=1 n=1 n=1
s s s s
N N N N N
(xn −x̄)2 (yn −ȳ )2 (xn −x̄)2 (yn −ȳ )2
P P P P P
(xn −x̄)(yn −ȳ )
n=1 n=1 n=1 n=1 n=1
⇔− N−1 N−1
≤ N−1
≤ N−1 N−1
⇔ −sx sy ≤ sxy ≤ sx sy □

Quantitative Daten: Korrelationskoeffizient nach Bravais-Pearson
sxy
rxy = − sx sy ≤ sxy ≤ sx sy =⇒ −1 ≤ rxy ≤ 1
sx sy
Gleichheitsbedingung bei der Cauchy-Schwarz-Ungleichung:

Für (an , bn ) ∈ R2 gilt:
P N 2 N N
an2 · bn2 ⇔ es gibt eine Konstante d mit bn = d · an ∀n
P P
an bn =
n=1 n=1 n=1
=⇒ rxy ∈ {−1, 1} ⇔ (yn − ȳ ) = d · (xn − x̄)

⇔ yn = c + d · xn mit c = ȳ − d x̄
Das heißt, |rxy | ist genau dann 1, wenn alle xn und yn auf einer Geraden liegen.

N
1
P
Quantitative Daten: Kovarianz: sxy = N−1 (xn − x̄) (c + dxn − c + d x̄)
n=1

Quantitative Daten: Korrelationskoeffizient nach Bravais-Pearson
Nicht-linearer monotoner Zusammenhang

Quantitative Daten: Nicht-linearer monotoner Zusammenhang
Übergang zu Rängen

Einschub: Ränge
Gegeben sei ein Merkmal X mit Urliste x1 , . . . , xN mit mindestens ordinalem
Skalenniveau. Dann bezeichnet der Rang R(xn ) einer Beobachtung xn die Position
der Beobachtung in der geordneten Liste x(1) ≤ x(2) ≤ . . . ≤ x(N) .
N PN
X
i=1 I(xi =xn ) −1
R(xn ) := 1 + I(xi <xn ) + , ∀k = 1, ..., k
2
i=1
Liegen mehrere identische Beobachtungen (Bindungen) vor, so werden in der Regel

Durchschnittsränge vergeben, d.h. allen Beobachtungen wird der gleiche Rang
zugewiesen: der Mittelwert über die Ränge, die diesen Beobachtungen zuständen.
Beispiel:
xn 5.5 2.6 3.7 4.4 2.2 3.8 3.7 4.4 3.5 4.4
R(xn ) 10 2 4.5 8 1 6 4.5 8 3 8

Quantitative Daten: Nicht-linearer monotoner Zusammenhang
Übergang zu Rängen

Quantitative Daten
Absolute Korrelation von Rängen bei monotonem Zusammenhang immer 1

Quantitative Daten
Falls X und Y mindestens ordinales Skalenniveau haben, so wird der

Bravais-Pearson-Korrelationskoeffizient der Ränge R(X ) und R(Y ) von X und Y
Sp
der Spearman’sche Rangkorrelationskoeffizient rxy von X und Y genannt:
N
P
R(xn ) − R(x) R(yn ) − R(y )
sR(X )R(Y )
Sp
rxy = rR(X )R(Y ) = = s n=1
sR(X ) sR(Y ) PN 2 PN 2
R(xn ) − R(x) R(yn ) − R(y )
n=1 n=1

Quantitative Daten
Spearman’scher Rangkorrelationskoeffizient
Falls keine Bindungen auftreten, d.h. R(xj ) ̸= R(xk ) und R(yj ) ̸= R(yk ) für alle
j ̸= k, so gilt:
N
Sp 6 X 2
rxy =1− 2
R(xn ) − R(yn )
N(N − 1) n=1
Beweisansatz:
N N N
X X X N(N + 1)
R(xn ) = R(yn ) = n=
n=1 n=1 n=1
2
N N N
X X X N(N + 1)(2N + 1)
und R(xn )2 = R(yn )2 = n2 =
n=1 n=1 n=1
6

Ordinale Daten
Da die Beobachtungen von X und Y sich anordnen lassen, können Ränge

bestimmt und somit der Spearman’scher Rangkorrelationskoeffizient
anwenden. Dies ist jedoch nur sinnvoll, wenn J und K ausreichend groß sind.
Bei kleinem J und K lässt sich unter Vernachlässigung der Ordnung der
Kontingenzkoeffizient nach Pearson berechnen.
Gemischte Daten
Ordinal + Nominal: Kontingenzkoeffizient nach Pearson

Ordinal + Quantitativ: Spearman’scher Rangkorrelationskoeffizient
Nominal + Quantitativ: Klassieren des Quantitativen Merkmals, dann
Kontingenzkoeffizient nach Pearson

Ordinale/Quantitative Daten: Beispiel Bearbeitung von Softwareaufgaben
4 Bivariate Daten 4.3 Lineare Regression
4.3 Bivariate Daten: Lineare Regression

Korrelation und Linearität:
Der Korrelationskoeffizient ist auch deshalb so beliebt, weil er ein Maß für die
Linearität eines Zusammenhangs darstellt.
Es gilt rxy = 1, genau wenn die Punkte (xi , yi ) auf einer Geraden liegen, und
es gilt rxy = 0, wenn keine lineare Beziehung besteht.
Um den Grad der Linearität eines Zusammenhangs quantifizieren zu können,

ist es notwendig, sich auf ein Optimalitätskriterium zu einigen, nach dem
man eine optimal an die Punkte angepasste Gerade“ bestimmt.
”
Das beliebteste Kriterium ist das Prinzip der Kleinsten Quadrate, nach dem
die Gerade so bestimmt wird, dass die Quadratsumme derjenigen Abstände
der Punkte von der Geraden minimal werden, die senkrecht zu der x-Achse
gemessen werden.

Quantitative Daten

Quantitative Daten

Quantitative Daten: Methode der kleinsten Quadrate

N
(yn − c − dxn )2 ist minimal für
P
Die Fehlerquadratsumme Q(c, d) =
n=1
sxy sxy
d= und c = ȳ − x̄
sx2 sx2
Beweis:
N
∂ X !
Q(c, d) = 2(c + dxn − yn ) = 2Nc + 2dN x̄ − 2N ȳ = 0 ⇔ c + d x̄ − ȳ = 0
∂c n=1
N N N
∂ X X X !
Q(c, d) = 2(c + dxn − yn )xn = 2Nc x̄ + 2d xn2 − 2 xn yn = 0
∂d n=1 n=1 n=1
N
X N
X
⇔ cN x̄ + d xn2 − xn yn = 0
n=1 n=1

Beweis (Fortsetzung)
N
X N
X
(1) c+d x̄ − ȳ = 0 ⇔ c = ȳ − d x̄ (2) cN x̄ + d xn2 − xn yn = 0
n=1 n=1
N
X N
X
(1) in (2) (ȳ − d x̄)N x̄ + d xn2 − xn yn = 0
n=1 n=1
N
X XN
⇔d xn2 − N x̄ 2 = xn yn − N x̄ · ȳ
n=1 n=1
N
P
xn yn − N x̄ · ȳ N
N−1 (xy − x̄ · ȳ ) sxy
⇔ d = n=1 = = (3)
PN
2 2 N
P
1
N
2 − x̄ 2
sx2
xn − N x̄ N−1 N x n
n=1 n=1
sxy
(3) in (1) c = ȳ − x̄
sx2

N N
∂ ∂ X X
Q(c, d) = 2Nc + 2dN x̄ − 2N ȳ , Q(c, d) = 2Nc x̄ + 2d xn2 − 2 xn yn
∂c ∂d n=1 n=1
N N
∂2 ∂2 X ∂2 X
Q(c, d) = 2N, Q(c, d) = 2 xn , Q(c, d) = 2 xn2
∂c∂c ∂c∂d n=1
∂d∂d n=1
N
 
P
 2N 2 xn  XN
2
X N 2
det  N
 n=1
N
 = 4N x n − 4 x n = 4(N − 1)Nsx2 > 0 □
P P 2
2 xn 2 xn n=1 n=1
n=1 n=1

Je größer die absolute Korrelation, desto kleiner die Fehlerquadratsumme
sxy sxy
d = 2 und c = ȳ − 2 x̄
sx sx
N N N
X X sxy sxy 2 X sy sy 2
ε2n = yn − (ȳ − 2 x̄) − 2 xn = yn − (ȳ − rxy x̄) − rxy xn
n=1 n=1
sx sx n=1
sx sx
N 2
X sy
= (yn − ȳ ) − rxy (xn − x̄)
n=1
sx
N s 2
X sy y

= (yn − ȳ )2 − 2rxy (yn − ȳ )(xn − x̄) + rxy (xn − x̄)2
n=1
sx sx
sy sy 2 2

= (N − 1) · sy2 − 2rxy sxy + rxy sx = (N − 1) · (sy2 − 2rxy
2 2 2 2
sy + rxy sy )
sx sx
= (N − 1) · (sy2 − rxy
2 2
sy ) □





Quantitative Daten: Beispiel Bearbeitung von Softwareaufgaben

Zusammenfassung
Wahrscheinlichkeitstheorie
5 Wahrscheinlichkeitstheorie
5.0 Wahrscheinlichkeitstheorie
Bisher: Empirische Statistik, Beschreibende Statistik
Es liegt bereits ein Datensatz vor, wie lässt sich dieser beschreiben?
Reduktion der Daten auf eine Darstellungsform, die vom menschlichen Auge
und Gehirn erfasst werden kann (ob Tabelle, Grafik oder Maßzahl)
Jetzt: Wahrscheinlichkeitstheorie
Daten haben immer einen Ursprung, einen sogenannten datengenerierenden
Prozess, oder auch, ein Zufallsexperiment (z.B. ein Würfelwurf, das
Arbeitsverhalten, das Userverhalten, ...)
Der Prozess erzeugt zufällige Beobachtungen
Ziel der Wahrscheinlichkeitstheorie: Mathematische Beschreibung dieses
zufälligen Prozesses, um Aussagen über diesen treffen zu können
Anwendungen: Vorhersage von künftigen Realisation des Prozesses, Vergleich
von verschiedenen Prozessen
Was ist Zufall? oder, besser: Gibt es Zufall?
Annahme: Wenn sämtliche Parameter eines Prozesses bekannt sind, dann lässt
sich das Ergebnis des Prozesses exakt berechnen.
Beispiel: Würfelwurf: Wenn die exakte Beschaffenheit der Würfeloberfläche, der

Handoberfläche, der Tischoberfläche bekannt sind, der genaue Abwurfwinkel und
Kraftaufwand beim Wurf, dann lässt sich das Ergebnis das Wurfes bestimmen.
Allerdings ist dies in vielen Fällen nicht möglich, zum Beispiel:
Die meisten Parameter des Prozesses sind unbekannt
Wir haben die zu Grunde liegenden Prozesse noch nicht verstanden
Es fehlen die Rechenkapazitäten, um den Prozess exakt vorherzusagen
Zufall
Zufall ist ein Konzept zur Beschreibung von Prozessen, die so kompliziert sind,
dass wir ihren Ausgang nicht beschreiben (vorhersagen) können.
Beispiele:
Vorhersage von neuen Beobachtungen:
Fragestellung: Welchen Wert wird die nächste Beobachtung annehmen?
Exakte Vorhersage unmöglich, weil der Prozess zufällig ist. Aber es sind z.B.
Aussagen über Lage und Streuung möglich
Beschreibung eines Prozesses:
Fragestellung: Ist in der Milchtüte tatsächlich exakt 1 Liter Milch?
Die Füllmenge einer Packung ist zufällig (Maschinen arbeiten ungenau).
Keine Packung wird exakt mit 1 Liter befüllt sein (stetiges Merkmal).
Sind die Abweichungen noch im Rahmen, oder zu groß?
Vergleich von zwei Prozessen:
Fragestellung: Wirkt ein Impfstoff?
1. Prozess: Ein Mensch lebt sein Leben, ungeimpft
2. Prozess: Ein Mensch lebt sein Leben, wurde aber geimpft
Ist die Wahrscheinlichkeit zu erkranken unterschiedlich?
Fahrplan für die nächsten Wochen:
Zunächst: Definition der mengentheoretischen Grundlagen
→ Siehe Logik-Vorlesung, Mengenoperatoren und logische Operatoren
verhalten sich ähnlich, Rechenregeln sind zumeist übertragbar.
Definition eines Wahrscheinlichkeitsmaßes
→ Ordne einer Menge eine Wahrscheinlichkeit zu
Definition einer Zufallsvariablen und der Verteilung einer Zufallsvariablen
→ Bilde aus dem Raum der Zufallsereignisse in den Raum der reellen Zahlen
ab, welche Zahlen werden mit welcher Wahrscheinlichkeit realisiert?
Definition wichtiger Verteilungen
Bedingte Verteilungen und stochastische Unabhängigkeit
→ Vergleiche empirische Unabhängigkeit (Kapitel 4)
Kennzahlen von Zufallsvariablen: Erwartungswert und Varianz
→ Vergleiche Lage und Streuungsmaße
5 Wahrscheinlichkeitstheorie 5.1 Mengentheoretische Grundlagen
5.1 Mengentheoretische Grundlagen

Elementare Begriffe
Zufallsexperiment Datenerhebungsprozess mit nicht vorhersagbarem Ausgang
Ergebnis ω Elementarer Ausgang eines Zufallsexperiments
Grundraum Ω Menge aller möglichen Ergebnisse

Ω = {ω|ω ist Ergebnis des Zufallsexperiments}
Ereignis A Menge von Ergebnissen, d.h. Teilmenge von Ω
Elementarereignis Einelementiges Ereignis

Beispiel
Zufallsexperiment Einfacher Würfelwurf
Ergebnisse ω1 = 1, ω2 = 2, ω3 = 3, ω4 = 4, ω5 = 5, ω6 = 6
Grundraum Ω = {1, 2, 3, 4, 5, 6}
Ereignisse A = {2, 4, 6}, B = {1, 3, 5}, C = {1, 2, 3, 4, 5},

D = {3, 4, 5, 6}, E = {2, 3, 5}, F = {1, 2, 3, 4, 5, 6} = Ω
Elementarereignisse {1}, {2}, {3}, {4}, {5}, {6}

Beispiele
Experiment Grundraum Ω Ergebnis ω

Roulette {0, 1, . . . , 36} Zahlenfeld der Kugel
S
Würfeln: Warten auf 6 N {∞} Anzahl Würfe bis zur ersten 6
6 aus 49 {(ω1 , . . . , ω6 )| Geordnete Nummern der
1 ≤ ω1 < . . . < ω6 ≤ 49} gezogenen Kugeln
Super Mario Speedrun [tmin , tmax ] Spielzeit t
Mausaktivität {ω : [tmin , tmax ] → Koordinaten und Clickzustand
(1, . . . , 1920)× (nicht, links, rechts)
(1, . . . , 1080) × (0, 1, 2)} des Mauszeigers zu jeder Zeit
Wartezeit bis zum [0, ∞) Zeit zwischen zwei Anfragen
nächsten Kunden

Bezeichnungen
ω∈A

Bezeichnungen: Beispiel Würfelwurf
2 ∈ {2, 4, 6}

Bezeichnungen
Schnittereignis zweier Mengen
A ∩ B = {ω ∈ Ω|ω ∈ A und ω ∈ B}

Schnittereignis zweier Mengen
4 ∈ {2, 4, 6} ∩ {4, 5, 6}

Bezeichnungen
Schnittereignis beliebig vieler Mengen
T
Ai = {ω ∈ Ω|ω ∈ Ai für i ∈ I }
i∈I

Schnittereignis beliebig vieler Mengen
4 ∈ {2, 4, 6} ∩ {4, 5, 6} ∩ {1, 2, 3, 4}

Bezeichnungen
Vereinigungsereignis zweier Mengen
A ∪ B = {ω ∈ Ω|ω ∈ A und/oder ω ∈ B}

Vereinigungsereignis zweier Mengen
2 ∈ {2, 4, 6} ∪ {4, 5, 6}

Bezeichnungen
Vereinigungsereignis beliebig vieler Mengen
S
Ai = {ω ∈ Ω|ω ∈ Ai für mindestens ein i ∈ I }
i∈I

Vereinigungsereignis beliebig vieler Mengen
5 ∈ {2, 4, 6} ∪ {4, 5, 6} ∪ {1, 2, 3, 4}

Bezeichnungen
Teilereignis
A ⊂ B (bzw. A ⊆ B)

Teilereignis
{5, 6} ⊂ {4, 5, 6}
Augenzahl 5 ist größer als 4 und damit auch größer als 3.

Bezeichnungen
Differenzereignis
B \ A = {ω ∈ Ω|ω ∈ B und ω ∈
/ A}

Differenzereignis
5 ∈ {4, 5, 6} \ {2, 4, 6}

Bezeichnungen
Komplementärereignis
Ac = Ω \ A = {ω ∈ Ω|ω ∈
/ A}

Komplementärereignis
5 ∈ {2, 4, 6}c

Regeln
Differenzereignis und Komplementärereignis
/ A} = B ∩ Ac = B \ (A ∩ B)
B \ A = {ω ∈ Ω|ω ∈ B und ω ∈

Regeln
Distributivgesetz

Regeln
Distributivgesetz

Regeln
Distributivgesetz

Regeln
Distributivgesetz

Regeln
Distributivgesetz

Regeln
Distributivgesetz

Regeln
Distributivgesetz

Regeln
Distributivgesetz

Regeln
Distributivgesetz

Regeln: Beispiel Würfelwurf
Distributivgesetz

Regeln
Regeln von de Morgan

Regeln

Regeln

Regeln

Regeln

Regeln

Regeln

Regeln

Regeln: Beispiel Würfelwurf

Zusammenfassung Bezeichnungen
Mathematische Ausformulierte Schreibweise

Schreibweise
ω∈A Ergebnis ω ist in Ereignis A enthalten
A∩B Schnittereignis: Menge aller Ergebnisse, die in A und B enthalten sind
A∩B =∅ A und B sind disjunkt: es gibt kein Ergebnis, das in A und B enthalten ist
A∪B Vereinigungsereignis: Menge aller Ergebnisse, die in A und/oder B
enthalten sind
A⊆B A ist Teilereignis von B: Alle in A enthaltenen Ergebnise sind auch
in B enthalten
B \A Differenzereignis: Menge der Ergebnisse, die in B, aber nicht in A
enthalten sind
Ac = Ω \ A Komplementärereignis: Menge aller Ergebnisse, die nicht in A
enthalten sind

Zusammenfassung Regeln
Mathematische Schreibweise Ausformulierte Schreibweise
Distributivgesetze
(A∪B)∩C = (A∩C )∪(B ∩C ) Die Schnittmenge einer zwei Mengen A und B
vereinigenden Menge mit einer weiteren Menge
C ist gleich der Vereinigung der beiden aus C
und jeweils einer der beiden Mengen A und B
gebildeten Schnittmengen.
(A∩B)∪C = (A∪C )∩(B ∪C ) Die Vereinigung der Schnittmenge zweier Men-
gen A und B mit einer weiteren Menge C ist
gleich der Schnittmenge der beiden aus C und
jeweils einer der beiden Mengen A und B gebil-
deten Vereinigungen

Mathematische Schreibweise Ausformulierte Schreibweise

(A ∩ B)c = Ac ∪ B c Das Komplementärereignis der Schnittmenge
zweier Mengen ist gleich der Vereinigung der
Komplementärereignisse der zwei Mengen.
(A ∪ B)c = Ac ∩ B c Das Komplementärereignis der Vereinigung
zweier Mengen ist gleich der Schnittmenge der
Komplementärereignisse der zwei Mengen
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlich-
5 Wahrscheinlichkeitstheorie keitsräume
5.2 Wahrscheinlichkeitsmaße, Wahrscheinlichkeitsräume

Ergebnis und Ereignis Teilereignis Vereinigungsereignis

ω∈A A⊆B A∪B
Schnittereignis Differenzereignis Distributivgesetze
A∩B B \A (A ∪ B) ∩ C = (A ∩ B) ∪ (B ∩ C )
(A ∩ B) ∪ C = (A ∪ C ) ∩ (B ∪ C )
Disjunkte Ereignisse Komplementärereignis Regeln von de Morgan
A∩B =∅ Ac = Ω \ A (A ∩ B)c = Ac ∪ B c
(A ∪ B)c = Ac ∩ B c
Grundidee nächster Schritt:

Ordne jeder Menge A eine Wahrscheinlichkeit P(A) zu, mit der dieses
Ereignis eintritt.
Welche Eigenschaft muss das sogenannte Wahrscheinlichkeitsmaß P erfüllen?

Kolmogorov-Axiome, Wahrscheinlichkeitsmaß
Seien Ω ein Grundraum und A die Menge aller Ereignisse über Ω. (D.h. A ist die
Potenzmenge aller Ergebnisse.) Dann heißt die Abbildung
P : A → [0, 1], A 7→ P(A),
Wahrscheinlichkeitsmaß, falls sie folgende Eigenschaften

(Kolmogorov-Axiome) besitzt:
1 0 ≤ P(A) für jedes Ereignis A ∈ A
2 P(Ω) = 1
3 P(A ∪ B) = P(A) + P(B), für A, B ∈ A und A ∩ B = ∅
Der Wert P(A) für ein Ereignis A heißt Wahrscheinlichkeit von A.
Das Tripel (Ω, A, P) heißt Wahrscheinlichkeitsraum

Einschub: σ-Algebra
Tatsächlich genügt hier für die Menge A eine etwas schwächere Forderung: A
muss nicht unbedingt die Potenzmenge über alle Ergebnisse sein, sondern kann
eine beliebige σ-Algebra sein.
Eine σ-Algebra ist ein Mengensystem A (eine Menge von Mengen) mit den
folgenden Eigenschaften:
Grundmenge ist in A enthalten: Ω ∈ A
A ist stabil bezüglich Komplementbildung: A ∈ A ⇒ Ac ∈ A
A ist stabil bezüglich endlicher Vereinigungen:
Sn
Ai ∈ A, i = 1, ..., n ⇒ Ai ∈ A
i=1
Praktisch wird A in einem Wahrscheinlichkeitsraum aber fast immer als die

entsprechende Potenzmenge gesetzt, daher ignorieren wir das mit der σ-Algebra in
dieser Vorlesung.

Kolmogorov-Axiome, Wahrscheinlichkeitsmaß: Beispiel Würfelwurf
Ω = {1, 2, 3, 4, 5, 6}

A= ∅, {1}, {2}, {3}, {4}, {5}, {6},
{1, 2}, {1, 3}, {1, 4}, {1, 5}, {1, 6}, {2, 3}, {2, 4}, {2, 5}, {2, 6}, {3, 4}, {3, 5}, {3, 6},
{4, 5}, {4, 6}, {5, 6},
{1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 2, 6}, {1, 3, 4}, {1, 3, 5}, {1, 3, 6}, {1, 4, 5}, {1, 4, 6}, {1, 5, 6},
{2, 3, 4}, {2, 3, 5}, {2, 3, 6}, {2, 4, 5}, {2, 4, 6}, {2, 5, 6}, {3, 4, 5}, {3, 4, 6}, {3, 5, 6}, {4, 5, 6},
{1, 2, 3, 4}, {1, 2, 3, 5}, {1, 2, 3, 6}, {1, 2, 4, 5}, {1, 2, 4, 6}, {1, 2, 5, 6}, {1, 3, 4, 5}, {1, 3, 4, 6}
{1, 3, 5, 6}, {1, 4, 5, 6}, {2, 3, 4, 5}, {2, 3, 4, 6}, {2, 3, 5, 6}, {2, 4, 5, 6}, {3, 4, 5, 6},
{1, 2, 3, 4, 5}, {1, 2, 3, 4, 6}, {1, 2, 3, 5, 6}, {1, 2, 4, 5, 6}, {1, 3, 4, 5, 6}, {2, 3, 4, 5, 6},

{1, 2, 3, 4, 5, 6}
P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}) = 1/6

Kolmogorov-Axiome, Wahrscheinlichkeitsmaß: Beispiel Würfelwurf (Fortsetzung)
1 0 ≤ P(A) für alle A ∈ A (offensichtlich)

2 P(Ω) = 1 (offensichtlich)
3 P(A ∪ B) = P(A) + P(B), wenn A ∩ B = ∅
Insbesondere: A = {1}, B = {2}, dann ist:
{1} ∩ {2} = ∅
1 1 1
P({1, 2}) = P({1} ∪ {2}) = P({1}) + P({2}) = 6 + 6 = 3
Entsprechend lassen sich dann aus den Elementarereignissen die

Wahrscheinlichkeiten für sämtliche anderen Ereignisse herleiten.

Eigenschaften von Wahrscheinlichkeitsmaßen
P : A → [0, 1], A 7→ P(A)
2 P(Ω) = 1
3 A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B)
∞
S P∞
(i) P Ai = P(Ai ) für alle paarweise disjunkten Ereignisse Ai ∈ A
i=1 i=1
Beweis:
∞
[ ∞
[ ∞
[
P Ai = P(A1 ∪ Ai ) = P(A1 ) + P Ai
3.
i=1 i=2 i=2
∞
[ ∞
X
= P(A1 ) + P(A2 ) + P Ai = ... = P(Ai )
3.
i=3 i=1

P : A → [0, 1], A 7→ P(A)

2 P(Ω) = 1
3 A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B)
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A)

Beweis:
P(B) = P((B \ A) ∪ A) = P(B \ A) + P(A) ⇒ P(B \ A) = P(B) − P(A) □

3.

P : A → [0, 1], A 7→ P(A)

2 P(Ω) = 1
3 A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B)
(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Achtung: A ∩ B ̸= ∅!
Beweis:
A ∪ B = [A \ (A ∩ B)] ∪ [B \ (A ∩ B)] ∪ [A ∩ B]

Beweis: (Fortsetzung)
A ∪ B = [A \ (A ∩ B)] ∪ [B \ (A ∩ B)] ∪ [A ∩ B]
⇒ P([A ∪ B]) = P([A \ (A ∩ B)] ∪ [B \ (A ∩ B)] ∪ [A ∩ B])
= P([A \ (A ∩ B)]) + P([B \ (A ∩ B)]) + P(A ∩ B)
(i)
= P(A) − P(A ∩ B) + P(B) − P(A ∩ B) + P(A ∩ B)

(ii)
= P(A) + P(B) − P(A ∩ B) □

(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
(iv) Poincaré-Sylvesterformel
N
S N
(−1)m+1
P P
P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N
Am Beispiel N = 2:
P(A1 ∪ A2 ) = (−1)1+1 · P(A1 ) + (−1)1+1 · P(A2 ) + (−1)2+1 · P(A1 ∩ A2 )
= P(A1 ) + P(A2 ) − P(A1 ∩ A2

(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
N
S N
(−1)m+1
P P
P An = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N
Für N = 3:
P(A1 ∪ A2 ∪ A3 ) = (−1)1+1 · P(A1 ) + (−1)1+1 · P(A2 ) + (−1)1+1 · P(A3 )

+ (−1)2+1 · P(A1 ∩ A2 ) + (−1)2+1 · P(A1 ∩ A3 ) + (−1)2+1 · P(A2 ∩ A3 )
+ (−1)3+1 · P(A1 ∩ A2 ∩ A3 )
= P(A1 ) + P(A2 ) + P(A3 ) − P(A1 ∩ A2 ) − P(A1 ∩ A3 ) − P(A2 ∩ A3 )
+ P(A1 ∩ A2 ∩ A3 )

(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
N
S N
(−1)m+1
P P
P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N
Für N = 3 : P(A1 ∪ A2 ∪ A3 ) =
P(A1 ) + P(A2 ) + P(A3 ) − P(A1 ∩ A2 ) − P(A1 ∩ A3 ) − P(A2 ∩ A3 )

+ P(A1 ∩ A2 ∩ A3 )

P : A → [0, 1], A 7→ P(A)

2 P(Ω) = 1
∞
S P∞
3 P Ai = P(Ai ) für alle paarweise disjunkten Ereignisse Ai ∈ A
i=1 i=1
(v) P(Ac ) = 1 − P(A)

Beweis:
P(Ac ) = P(Ω \ A) = P(Ω) − P(A) = 1 − P(A) □
(ii)

P : A → [0, 1], A 7→ P(A)

2 P(Ω) = 1
3 A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B)
(vi) P(∅) = 0
Beweis:
P(∅) = P(Ωc ) = 1 − P(Ω) = 0 □
(v )

P : A → [0, 1], A 7→ P(A)

2 P(Ω) = 1
3 A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B)
(vii) A ⊆ B ⇒ P(A) ≤ P(B)

Beweis:
A ⊆ B ⇒ P(B \ A) = P(B) − P(A)

(ii)
⇒ P(A) = P(B) − P(B \ A) ≤ P(B) □

| {z }
≥0

Diskreter Wahrscheinlichkeitsraum
Seien Ω = {ω1 , ω2 , . . .} ein endlicher oder abzählbarer unendlicher Grundraum

und P ein Wahrscheinlichkeitsmaß auf Ω. Dann heißt (Ω, A, P) diskreter
Wahrscheinlichkeitsraum.
Für beliebiges Ereignis A ∈ A gilt dann nach (i):
[ X
P(A) = P {ωi } = P({ωi })
i:ωi ∈A i:ωi ∈A
Laplace-Raum
Treten die Elemente von endlichem Ω = {ω1 , . . . , ω|Ω| } aus einem diskreten
Wahrscheinlichkeitsraum (Ω, A, P) alle mit der selben Wahrscheinlichkeit auf, d.h.
gilt P({ωi }) = 1/|Ω| für i = 1, . . . , |Ω|, so wird (Ω, A, P) auch Laplace-Raum
genannt und die Wahrscheinlichkeit für ein Ereignis A ∈ A kann durch
P(A) = |A|/|Ω| angegeben werden.

Eigenschaften von Wahrscheinlichkeitsmaßen; Diskreter Wahrscheinlichkeitsraum:
Beispiel: Bearbeitung von Softwareaufgaben
Zufällige Auswahl einer Bearbeitung

→ Ergebnis ω ∈ {e1 , . . . , e12 } = Ω
Elementarwahrscheinlichkeiten
P({ei }) = 1/12, i = 1, . . . , 12
Ereignisse
1 Bearbeiter männlich
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }
2 Gestellte Aufgabe Export
A2 = {e1 , e3 , e5 , e6 , e8 , e9 }
3 Verwendete Version 2.0
A3 = {e5 , e11 , e12 }

∞
S ∞
(v) P(Ac ) = 1 − P(A)
P
(i) P Ai = P(Ai ), Ai paarweise disjunkt
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0
(iii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (vii) A ⊆ B ⇒ P(A) ≤ P(B)
SN N
(−1)m+1
P P
(iv) P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N
ω ∈ {e1 , . . . , e12 } = Ω
P({ei }) = 1/12, i = 1, . . . , 12
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }
A2 = {e1 , e3 , e5 , e6 , e8 , e9 }
A3 = {e5 , e11 , e12 }

∞
S ∞
(v) P(Ac ) = 1 − P(A)
P
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0

SN N
P m+1 P
(iv) P AN = (−1) P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N
ω ∈ {e1 , . . . , e12 } = Ω P(A1 ) = P({e1 } ∪ {e2 } ∪ {e5 } ∪ {e10 } ∪ {e11 } ∪ {e12 })

P({ei }) = 1/12, i = 1, . . . , 12 = P({e1 }) + P({e2 }) + P({e5 })
+ P({e10 }) + P({e11 }) + P({e12 }) = 6/12 = 1/2
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }
A2 = {e1 , e3 , e5 , e6 , e8 , e9 } P(A2 ) = P({e1 } ∪ {e3 } ∪ {e5 } ∪ {e6 } ∪ {e8 } ∪ {e9 })
A3 = {e5 , e11 , e12 } = P({e1 }) + P({e3 }) + P({e5 })
+ P({e6 }) + P({e8 }) + P({e9 }) = 6/12 = 1/2
P(A3 ) = P({e5 } ∪ {e11 } ∪ {e12 })
= P({e5 }) + P({e11 }) + P({e12 }) = 3/12 = 1/4

∞
S ∞
(v) P(Ac ) = 1 − P(A)
P
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0
SN N
(−1)m+1
P P
(iv) P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N
ω ∈ {e1 , . . . , e12 } = Ω Wahrscheinlichkeit für eine Bearbeitung, die von einem

P({ei }) = 1/12, i = 1, . . . , 12 Mann mit einer anderen Version als 2.0 durchgeführt wurde
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }

A3 = {e5 , e11 , e12 } ⊂ {e1 , e2 , e5 , e10 , e11 , e12 } = A1
A2 = {e1 , e3 , e5 , e6 , e8 , e9 }
⇒ (ii) P(A1 \ A3 ) = P(A1 ) − P(A3 ) = 1/2 − 1/4 = 1/4
A3 = {e5 , e11 , e12 }
⇒ (vii) 1/4 = P(A3 ) ≤ P(A1 ) = 1/2
P(A1 ) = 1/2
P(A2 ) = 1/2
P(A3 ) = 1/4

∞
S ∞
(v) P(Ac ) = 1 − P(A)
P
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0
SN N
(−1)m+1
P P
(iv) P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N
ω ∈ {e1 , . . . , e12 } = Ω Wahrscheinlichkeit für eine Bearbeitung, die Aufgabe Ex-

P({ei }) = 1/12, i = 1, . . . , 12 port hatte und/oder von einem Mann durchgeführt wurde
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }

P(A1 ∪A2 ) = P(A1 ) + P(A2 ) − P(A1 ∩ A2 )
A2 = {e1 , e3 , e5 , e6 , e8 , e9 }
= 1/2 + 1/2 − P({e1 , e2 , e5 , e10 , e11 , e12 }
A3 = {e5 , e11 , e12 }
∩{e1 , e3 , e5 , e6 , e8 , e9 })
P(A1 ) = 1/2 = 1 − P({e1 , e5 }) = 1 − P({e1 } ∪ {e5 })
P(A2 ) = 1/2 = 1 − (P({e1 }) + P({e5 })) = 1 − 2/12
P(A3 ) = 1/4 = 10/12 = 5/6

∞
S ∞
(v) P(Ac ) = 1 − P(A)
P
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0
SN N
(−1)m+1
P P
(iv) P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N
ω ∈ {e1 , . . . , e12 } = Ω W’keit für eine Bearbeitung, die Aufgabe Export hatte
P({ei }) = 1/12, i = 1, . . . , 12 und/oder von einem Mann und /oder mit Version 2.0 durch-
geführt wurde
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }
A2 = {e1 , e3 , e5 , e6 , e8 , e9 } P(A1 ∪ A2 ∪ A3 )
A3 = {e5 , e11 , e12 }
= P(A1 ) + P(A2 ) + P(A3 ) − P(A1 ∩ A2 ) − P(A1 ∩ A3 )
P(A1 ) = 1/2 −P(A2 ∩ A3 ) + P(A1 ∩ A2 ∩ A3 )
P(A2 ) = 1/2 = 1/2 + 1/2 + 1/4 − P({e1 , e5 }) − P({e5 , e11 , e12 })
P(A3 ) = 1/4 −P({e5 }) + P({e5 })
= 15/12 − 2/12 − 3/12 − 1/12 + 1/12 = 10/12 = 5/6

∞
S ∞
(v) P(Ac ) = 1 − P(A)
P
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0
SN N
(−1)m+1
P P
(iv) P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N
ω ∈ {e1 , . . . , e12 } = Ω W’keit für eine Bearbeitung, die weder Aufgabe Export hatte
P({ei }) = 1/12, i = 1, . . . , 12 noch von einem Mann noch mit Version 2.0 durchgeführt
wurde
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }
A2 = {e1 , e3 , e5 , e6 , e8 , e9 } Mit (v): P([A1 ∪ A2 ∪ A3 ]c ) = 1 − P(A1 ∪ A2 ∪ A3 )
A3 = {e5 , e11 , e12 } = 1 − 5/6 = 1/6
P(A1 ) = 1/2 Mit de Morgan: P([A1 ∪ A2 ∪ A3 ]c ) = P(Ac1 ∩ Ac2 ∩ Ac3 )
P(A2 ) = 1/2 = P({e3 , e4 , e6 , e7 , e8 , e9 } ∩ {e2 , e4 , e7 , e10 , e11 , e12 }
P(A3 ) = 1/4 ∩{e1 , e2 , e3 , e4 , e6 , e7 , e8 , e9 , e10 })
= P({e4 , e7 }) = 2/12 = 1/6

∞
S ∞
(v) P(Ac ) = 1 − P(A)
P
i=1 i=1
(ii) A ⊆ B ⇒ P(B \ A) = P(B) − P(A) (vi) P(∅) = 0
SN N
(−1)m+1
P P
(iv) P AN = P(An1 ∩ . . . ∩ Anm )
n=1 m=1 1≤n1 <...<nm ≤N
ω ∈ {e1 , . . . , e12 } = Ω W’keit für eine Bearbeitung, die mit Version 2.0 von einer Frau
P({ei }) = 1/12, i = 1, . . . , 12 durchgeführt wurde
A1 = {e1 , e2 , e5 , e10 , e11 , e12 }

P(Ac1 ∩ A3 ) = P({e3 , e4 , e6 , e7 , e8 , e9 } ∩ {e5 , e11 , e12 })
A2 = {e1 , e3 , e5 , e6 , e8 , e9 }
= P(∅) = 0
A3 = {e5 , e11 , e12 }
P(A1 ) = 1/2
P(A2 ) = 1/2
P(A3 ) = 1/4
Zufallsvariablen und deren
Verteilung
6 Zufallsvariablen und deren Verteilung 6.1 Zufallsvariablen
6.1 Zufallsvariablen
Erinnerung
Zufallsexperiment Datenerhebungsprozess mit nicht vorhersagbarem Ausgang
Ergebnis ω Elementarer Ausgang eines Zufallsexperiments

Ω = {ω| ω ist Ergebnis des Zufallsexperiments}
Fahrplan
ω ist ein beliebiges Ergebnis, z.B. die oben liegende Seite des Würfels, die
gesamte Spur einer Mausaktivität
Mit beliebigen Ergebnissen lässt sich schlecht rechnen, definiere darum
Abbildung von Ω in den Raum der reellen Zahlen
Häufig sehr intuitiv, erscheint daher oft überflüssig, formal aber notwendig
Danach: Definition einer Verteilung auf den reellen Zahlen
Eine Abbildung, die jedem Ergebnis eines Zufallsexperiments eine reelle Zahl
zuordnet, wird Zufallsvariable genannt. Ein konkreter Wert x = X (ω) heißt
Realisation der Zufallsvariable X .
X :Ω→R ω 7→ X (ω)
Beispiel: Würfelwurf
Zufallsvariable Augenzahl. Intuitiv: X1 (ω) = ω
Besser: X1 (ω) = Anzahl der Augen, die beim Würfelwurf oben liegen
X :Ω→R ω 7→ X (ω)
Beispiel: Würfelwurf X2 (ωi ) = 1, falls i-ter Wurf ungerade, X2 (ωi ) = 0 sonst
Zufallsvariable Gerade/Ungerade: X2 (ω) ∈ {0, 1}
X :Ω→R ω 7→ X (ω)
Beispiel: Beispiel zweifacher Münzwurf

Zufallsvariable Anzahl Kopf: X (ω1 , ω2 ) = ω1 + ω2
Beispiel: Mausaktivität ω(t) = [x(t), y (t), c(t)]

Zufallsvariable: Distanz zwischen den ersten 2 Mausklicks
p
X (ω) = [x(t2 ) − x(t1 )]2 + [y (t2 ) − y (t1 )]2
t1 = Beginn 1. Klick, t2 = Beginn 2. Klick
6 Zufallsvariablen und deren Verteilung 6.2 Eindimensionale Zufallsvariablen
6.2 Zufallsvariablen und deren Verteilung

Verteilung einer Zufallsvariablen
Erinnerung: Das Wahrscheinlichkeitsmaß P ordnet jeder Menge A ∈ A eine
Wahrscheinlichkeit zu.
Jetzt: Sei B ⊆ R eine Teilmenge aus dem Definitionsbereich der Zufallsvariablen
X . Wie groß ist die Wahrscheinlichkeit, dass B realisiert wird?
⇒ Die Wahrscheinlichkeit von B lässt sich direkt aus der Wahrscheinlichkeit der
Menge A mit ω ∈ A ⇔ X (ω) ∈ B ableiten.
Achtung: Unterscheide diskrete (Ω abzählbar) und stetige (Ω überabzählbar)
Zufallsräume

Erinnerung: Das Wahrscheinlichkeitsmaß P ordnet jeder Menge A ∈ A eine
Wahrscheinlichkeit zu.
Jetzt: Sei B ⊆ R eine Teilmenge aus dem Definitionsbereich der Zufallsvariablen
X . Wie groß ist die Wahrscheinlichkeit, dass B realisiert wird?
⇒ Die Wahrscheinlichkeit von B lässt sich direkt aus der Wahrscheinlichkeit der
Menge A mit ω ∈ A ⇔ X (ω) ∈ B ableiten.
Achtung: Unterscheide diskrete (Ω abzählbar) und stetige (Ω überabzählbar)
Zufallsräume

Die Wahrscheinlichkeitsverteilung oder kurz Verteilung einer Zufallsvariablen
X ist definiert durch
P X (B) = P(X ∈ B) = P({ω ∈ Ω|X (ω) ∈ B}), B ⊆ R
Wie bestimmt man P(B)?

Im diskreten Fall: P X (B) = ωi ∈A P({ωi }).
P
Man summiert also über alle Elementarereignisse auf, die zu einer passenden
Realisierung der Zufallsvariablen führen.
Im stetigen Fall: P X (B) = P(A) = A P(t)dt.
R
Im stetigen Fall haben Elementarereignisse im Allgemeinen Wahrscheinlichkeit

0, aufsummieren hilft daher nicht. Formal definiert wird die
Wahrscheinlichkeit daher mit dem Integral über die Menge A von P. Dieses
Integral stellt uns zum einen vor Verständnis-Probleme, die wir in dieser
Vorlesung nicht auflösen können (→ Spezialvorlesungen zur Maßtheorie),
zum anderen ist auch unklar, wie das Integral bestimmt werden kann.

P X ist eindeutig definiert, wenn P X (Bx ) für jedes Intervall der Form
Bx = (−∞, x] bekannt ist:
Was bedeutet das:

Im stetigen Fall bildet P X ab von der Potenzmenge der reellen Zahlen(!)
nach [0, 1]. Eine eindeutige, analytische Definition dieser Funktion erscheint
daher erstmal unmöglich.
Was heißt Eindeutig definiert überhaupt? Eine Funktion ist dann eindeutig
definiert, wenn sich für jede mögliche Eingabe (d.h. jedes B ⊂ R) eindeutig
der zugehörige Funktionswert berechnen lässt.
Der Satz sagt also: Die Wahrscheinlichkeit jeder beliebigen Menge B ⊆ R
kann bestimmt werden, wenn die Werte aller Bx = (−∞, x] bekannt sind.
Der Satz gilt sowohl im stetigen als auch im diskreten Fall.

Beweis:
B = {x1 } = lim({Bx1 \ Bx1 −ϵ }) ⇒ P X (B) = lim[P X (Bx1 ) − P X (Bx1 −ϵ )],
ϵ↓0 ϵ↓0
da Bx1 −ϵ ⊂ Bx1

Beweis:
B = {x1 } = lim({Bx1 \ Bx1 −ϵ }) ⇒ P X (B) = lim[P X (Bx1 ) − P X (Bx1 −ϵ )],
ϵ↓0 ϵ↓0
da Bx1 −ϵ ⊂ Bx1
k
S
x1 ̸= . . . ̸= xk : B = {x1 , . . . , xk } = lim({Bxi \ Bxi −ϵ })
i=1 ϵ↓0
k
⇒ P X (B) = lim[P X (Bxi ) − P X (Bxi −ϵ )]
P
i=1 ϵ↓0

Beweis:
x1 < x2 : B = (x1 , x2 ] = Bx2 \ Bx1 ⇒ P X (B) = P X (Bx2 ) − P X (Bx1 ), da
Bx1 ⊂ Bx2

Beweis:
x1 < x2 : B = (x1 , x2 ] = Bx2 \ Bx1 ⇒ P X (B) = P X (Bx2 ) − P X (Bx1 ), da
Bx1 ⊂ Bx2
Beliebige weitere Ereignisse lassen sich jetzt durch Schnitte und Vereinigungen aus
den endlichen Mengen und den halboffenen Intervallen konstruieren.
Um die Wahrscheinlichkeit einer beliebigen Menge B ⊆ R anzugeben, reicht es

daher tatsächlich aus, wenn P X (Bx ) für jedes Intervall der Form Bx = (−∞, x]
bekannt ist.
Definiere daher jetzt eine Funktion auf den Mengen Bx , die entsprechend
ausreichend ist, um die gesamte Verteilung P X eindeutig zu definieren.

Verteilungsfunktionen
Die Funktion F = F X : R → [0, 1] mit
F (x) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R
wird Verteilungsfunktion genannt.

Die Entsprechung der Verteilungsfunktion in der deskriptiven Statistik ist die
empirische Verteilungsfunktion, bei der an die Stelle von Wahrscheinlichkeiten
kumulierte relative Häufigkeiten treten.
(
0 falls x < x(1)
FN (x) =
sj = #{xn |xn ≤x(j)} mit j = max{j|x(
N
˜ j) ˜ ≤ x} falls x(1) ≤ x
#{xn |xn ≤ x}
=
N

F = F X : R → [0, 1] mit
Eigenschaften der Verteilungsfunktion
(A) lim F (x) = 0, lim F (x) = 1

x→−∞ x→∞
Beweis:
lim F (x) = lim P({ω ∈ Ω|X (ω) ∈ (−∞, x] ∩ R})
x→−∞ x→−∞
= P({ω ∈ Ω|X (ω) ∈ {−∞} ∩ R}) = P({ω ∈ Ω|X (ω) = ∅})

(∗)
= P(∅) = 0 (∗) [ω ∈ Ω ⇒ X (ω) ∈ R] ⇔ [X (ω) ∈
/R⇒ω∈
/ Ω]
lim F (x) = lim P({ω ∈ Ω|X (ω) ∈ (−∞, x] ∩ R})

x→∞ x→∞
= P({ω ∈ Ω|X (ω) ∈ R) = P(Ω) = 1 □

F = F X : R → [0, 1] mit
F (X ) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

(A) lim F (x) = 0, lim F (x) = 1
x→−∞ x→∞
(B) x < y ⇒ F (x) < F (y )

Beweis:
F (x) = P(A) mit A = {ω ∈ Ω|X (ω) ≤ x}

F (y ) = P(B) mit B = {ω ∈ Ω|X (ω) ≤ y }
x < y ⇒ A ⊆ B ⇒ P(A) ≤ P(B) ⇔ F (x) ≤ F (y )

F = F X : R → [0, 1] mit
F (X ) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

(A) lim F (x) = 0, lim F (x) = 1 (C) lim F (x) = F (z)
x→−∞ x→∞ x↓z
(B) x < y ⇒ F (x) ≤ F (y )
Beweis:
Setze An = {ω ∈ Ω|X (ω) ∈ (−∞, z + 1/n]}, A0 = Ω
∞
\
⇒A= An = {ω ∈ Ω|X (ω) ∈ (−∞, z]}, An ⊂ An−1 , Acn−1 ⊂ Acn , n = 1, 2, . . .
n=1

∞
\ ∞
[ ∞
X
F (z) = P(A) = P An = 1 − P Acn = 1 − P(Acn \ Acn−1 )
n=1 n=1 n=1
N
X
= 1 − lim P(Acn \ Acn−1 ) = 1 − lim P(AcN ) = lim P(AN )
N↑∞ N↑∞ N↑∞
n=1
= lim F (x) □
x↓z

F = F X : R → [0, 1] mit

x→−∞ x→∞ x↓z
(B) x < y ⇒ F (x) < F (y ) (D) P(a < X ≤ b) = F (b) − F (a)
Beweis:
Setze A = {ω ∈ Ω|X (ω) ∈ (−∞, a]} und B = {ω ∈ Ω|X (ω) ∈ (−∞, b]}
⇒ P(a < X ≤ b) = P({ω ∈ Ω|X (ω) ∈ (a, b]}) = P(B \ A) = P(B) − P(A)
A⊆B
= P(X ≤ b) − P(X ≤ a) = F (b) − F (a) □

F = F X : R → [0, 1] mit

x→−∞ x→∞ x↓z
(B) x < y ⇒ F (x) < F (y ) (D) P(a < X ≤ b) = F (b) − F (a)
(E) P(X > a) = 1 − F (a)
Beweis:
Setze A = {ω ∈ Ω|X (ω) ≤ a} ⇒ Ac = {ω ∈ Ω|X (ω) > a}
⇒ P(X > a) = P(Ac ) = 1 − P(A) = 1 − F (a) □

Spezialfall diskrete Verteilungsfunktion: Ω abzählbar
Ω = {ω1 , . . . , ωn } ⇒ X ∈ {x1 , . . . , xk } mit − ∞ < x1 < . . . < xk < ∞, k ≤ n
F (x) = P X ((−∞, x]) = P(X ≤ x) = P(Ax ) mit

Ax = {ω ∈ Ω|X (ω) ∈ (−∞, x] ∩ {x1 , ..., xk }}






Die Funktion: p : R → [0, 1] mit p(x) = P(X = x) heißt Zähldichte von X.

Die Funktion: p : R → [0, 1] mit p(x) = P(X = x) heißt Zähldichte von X.

Beispiel: Anzahl Kopf beim 5-fachen Münzwurf
Zähldichte

Zähldichte

Zähldichte und Verteilungsfunktion

Spezialfall stetige Verteilungsfunktion: Ω überabzählbar
ω ∈ Ω : X (ω) ∈ B, B ⊆ R
F = F X : R → [0, 1] mit F (x) = P X ((−∞, x]) = P(X ≤ x) = P({ω ∈ Ω|X (ω) ≤ x}), x ∈ R

ω ∈ Ω : X (ω) ∈ B, B ⊆ R

ω ∈ Ω : X (ω) ∈ B, B ⊆ R

ω ∈ Ω : X (ω) ∈ B, B ⊆ R

ω ∈ Ω : X (ω) ∈ B, B ⊆ R

ω ∈ Ω : X (ω) ∈ B, B ⊆ R



Beispiel: Mausaktivität, exakter Zeitpunkt T des ersten Mausclicks
Annahme: T fällt in jedes Intervall gleicher Länge c zwischen tmin und tmax mit
derselben Wahrscheinlichkeit


Wahrscheinlichkeits-
theoretische Kennzahlen
7 Wahrscheinlichkeitstheoretische Kennzahlen
7.0 Wahrscheinlichkeitstheoretische Kennzahlen

Erinnerung
Das Tripel (Ω, A, P) heißt Wahrscheinlichkeitsraum, definiere auf dem
Wahrscheinlichkeitsraum eine Zufallsvariable X : A → R.

Ereignis A ⊂ Ω Ein einzelnes Ereignis = Menge von Ergebnissen
Ereignismenge A Die Menge aller möglichen Ereignisse
W’keitsmaß P Ordnet jedem Ereignis eine W’keit aus [0, 1] zu
Zufallsvariable X Bildet aus A in die reellen Zahlen ab
Verteilung P X Mit welcher W’keit ist X ∈ B ⊂ R auf?
Verteilungsfunktion F X Ordne jeder Menge Bx = (−∞, x] eine W’keit zu
Zähldichte p X W’keiten einzelner Ausprägungen, wenn X diskret
Dichtefunkion f X Ableitung der Verteilungsfunktion, wenn X stetig
Nächstes Ziel:
Wir wollen die Verteilung P X beschreiben und uns Eigenschaften einer speziellen
Verteilung anschauen. Dazu definieren wir Kennzahlen für Lage und für Streuung
und unterscheiden weiter die beiden Fälle diskret und stetig.
7 Wahrscheinlichkeitstheoretische Kennzahlen
7.0 Wahrscheinlichkeitstheoretische Kennzahlen

Nachtrag
Der Träger einer Zufallsvariablen ist definiert als die Menge TX ⊂ R aller
Realisierungen der Zufallsvariable, die auch tatsächlich auftreten können:
Träger TX einer diskreten Wahrscheinlichkeitsverteilung P X
TX = {x|P(X = x) > 0}
Träger TX einer stetigen Wahrscheinlichkeitsverteilung P X
TX = {x|f (x) > 0}
Achtung:
Liegt ein Wahrscheinlichkeitsraum mit Ω abzählbar vor, so muss der Träger jeder
zugehörigen Zufallsvariablen X ebenfalls diskret sein. Liegt hingegen ein
Wahrscheinlichkeitsraum mit Ω überabzählbar vor, sind sowohl Zufallsvariablen
mit diskreten als auch mit stetigen Trägern möglich.
7 Wahrscheinlichkeitstheoretische Kennzahlen 7.1 Erwartungswert und Varianz
7.1 Erwartungswert und Varianz

Diskrete Wahrscheinlichkeitsverteilungen:
Beispiel 1: Wurf eines fairen, 6-seitigen Würfels
ωi : Seite ... des Würfels oben 1 2 3 4 5 6

X1 (ωi ) 1 2 3 4 5 6
1 1 1 1 1 1
p X1 (xi ) 6 6 6 6 6 6
1 2 3 4 5 6
F X1 (xi ) 6 6 6 6 6 6
Beispiel 2: Wurf eines fairen, 6-seitigen Würfels, aber fasse Ergebnis 5 und 6 zu
einer 5 zusammen (analog: ersetze die Zahl 6 auf dem Würfel durch die Zahl 5).
ωi : Seite ... des Würfels oben 1 2 3 4 5 6

X2 (ωi ) 1 2 3 4 5
X2 1 1 1 1 2
p (xi ) 6 6 6 6 6
1 2 3 4 6
F X2 (xi ) 6 6 6 6 6

Lagemaß: Welches Ergebnis liefert der Zufallsprozess im Mittel?
Der Erwartungswert einer diskret verteilten Zufallsvariable X mit Zähldichte

p(x) und Träger TX = {x1 , x2 , . . .} ist definiert durch
J
X
E[X ] = p(xj ) · xj , J ∈ N ∪ {∞}
j=1
Multipliziere jede Ausprägung von X mit ihrer zugehören Wahrscheinlichkeit und

summiere auf. Beachte dabei die Parallelität zum arithmetischen Mittelwert eines
Beobachtungsvektors x1 , ..., xN :
N
X 1
x̄ = xn
n=1
N

Beispiel 1:
E[X1 ] = P(X1 = 1) · 1 + P(X1 = 2) · 2 + P(X1 = 3) · 3

+ P(X1 = 4) · 4 + P(X1 = 5) · 5 + P(X1 = 6) · 6
1 21
= (1 + 2 + 3 + 4 + 5 + 6) = = 3.5
6 6
Beispiel 2:
E[X2 ] = P(X2 = 1) · 1 + P(X2 = 2) · 2 + P(X2 = 3) · 3

+ P(X2 = 4) · 4 + P(X2 = 5) · 5
1 2 20 1
= (1 + 2 + 3 + 4) + · 5 = =3
6 6 6 3

Streuungsmaß: Wie weit streut Zufallsprozess um Mittel?
Die Varianz von X ist definiert durch

J
X
Var(X ) = E (X − E[X ])2 = p(xj ) · (xj − E[X ])2 , J ∈ N ∪ {∞},

j=1
das heißt durch die erwartete quadratische Abweichung der Zufallsvariable X von
ihrem eigenen Erwartungswert. Beachte dabei die Parallelität zur empirischen
Varianz eines Beobachtungsvektors x1 , ..., xN :
N
X 1 2
dx2 = (xn − x̄)
n=1
N
p
Die Standardabweichung von X ist definiert durch Var(X ).

Beispiel 1:
Var(X1 ) = E[(X1 − E[X1 ])2 ] = E[(X1 − 3.5)2 ]
= P(X1 = 1) · (1 − 3.5)2 + P(X1 = 2) · (2 − 3.5)2 + P(X1 = 3) · (3 − 3.5)2
+ P(X1 = 4) · (4 − 3.5)2 + P(X1 = 5) · (5 − 3.5)2 + P(X1 = 6) · (6 − 3.5)2
1 17.5 35
= ((−2.5)2 + (−1.5)2 + (−0.5)2 + 0.52 + 1.52 + 2.52 ) = =
6 6 12
Beispiel 2:
1
Var(X2 ) = E[(X2 − E[X2 ])2 ] = E[(X2 − 3 )2 ]
3
1 1 1
= P(X2 = 1) · (1 − 3 )2 + P(X2 = 2) · (2 − 3 )2 + P(X2 = 3) · (3 − 3 )2
3 3 3
1 2 1 2
+ P(X2 = 4) · (4 − 3 ) + P(X2 = 5) · (5 − 3 )
3 3
1 1 2 1 2 1 2 2 2 2 2 2 20
= ((−2 ) + (−1 ) + (− ) + ( ) ) + (1 ) =
6 3 3 3 3 6 3 9

Diskrete Wahrscheinlichkeitsverteilungen
Ist h : R → R eine Funktion, so gilt für den Erwartungswert der transformierten
Zufallsvariable h(X ):
J
X
E[h(X )] = h(xj ) · p(xj ), J ∈ N ∪ {∞}
j=1
Für h : x 7→ x ergibt sich für E[h(X )] damit der Erwartungswert von X und für
h : x 7→ (x − E[X ])2 die Varianz von X .
Der Wert, der sich für h : x 7→ x k ergibt, wird k-tes Moment von X genannt:
XJ
mk (X ) = E[X k ] = xjk · p(xj ), J ∈ N ∪ {∞}.
j=1
Das k-te Moment der um den Erwartungswert zentrierten Zufallsvariable

X − E[X ] heißt k-tes zentrales Moment:
J
X
µk (X ) = E[(X − E[X ])k ] = (xj − E[X ])k · p(xj ), J ∈ N ∪ {∞}
j=1

Stetige Wahrscheinlichkeitsverteilungen
Beispiel:
Gegeben sei ein stetiger Wahrscheinlichkeitsraum
( √ (Ω, A, P), eine Zufallsvariable X
3
x, für 0 ≤ x ≤ 1
sowie die Funktion f X (x) = 2
0, sonst
Zeige zunächst: f X ist eine Dichtefunktion.
∞ 0 1 ∞
3√
Z Z Z Z
f X (t) dt = 0 dt + t dt + 0 dt
−∞ −∞ 0 2 1
1
3 2 3
=0+ · ·t2 +0
2 3 0
= 0 + (1 − 0) + 0 = 1
Das Integral unter f X ist 1 → f X ist Dichte. Sei jetzt f X Dichte von X .

Approximation stetiger Dichtefunktionen von X durch Zähldichte diskretisierter
Zufallsvariable

Der Erwartungswert einer stetig verteilten Zufallsvariable X mit Dichtefunktion
f (·) ist definiert durch
Z∞
E[X ] = t · f (t)dt
−∞
Die Varianz von X ist definiert durch

Z∞
2
Var(X ) = E[(X − E[X ]) ] = (t − E[X ])2 · f (t)dt
−∞
Die Standardabweichung von X ist definiert durch

p
Var(X )

Beispiel Fortsetzung
Bestimme Erwartungswert und Varianz von X :
∞ 1
3√
Z Z
E [X ] = t · f X (t) dt = t· t dt
−∞ 0 2
Z 1 1
3 3 3 2 5 3
= t dt =
2 · t 2 =
0 2 2 5 0 5
∞ 1
3√
Z Z
2 3
Var (X ) = (t − E [X ]) · f (t) dt = (t − )2 · t dt
−∞ 0 5 2
1
3√
Z
6 9
= (t 2 − t + ) · t dt
0 5 25 2

Beispiel Fortsetzung
1
3√
Z
6 9
Var (X ) = (t 2 − t + ) · t dt
0 5 25 2
Z 1 Z 1 Z 1
2 3
√ 6 3√ 9 3√
= t · t dt − t· t dt + · t dt
0 2 0 5 2 0 25 2
Z 1 Z 1 Z 1
3 5 9 3 27 1
= · t 2 dt − · t 2 dt + · t 2 dt
0 2 0 5 0 50
1 1 1
3 2 7 9 2 5 27 2 3
= · ·t2 − · ·t2 + · ·t2
2 7 0 5 5 0 50 3 0
3 18 9
= − + ≈ 0.07
7 25 25

Eigenschaften von Erwartungswerten
Falls die folgenden Erwartungswerte von stetig oder diskret verteilten
Zufallsvariablen existieren, so gelten folgende Eigenschaften:
(1) E[X + Y ] = E[X ] + E[Y ]
(2) E[aX + b] = a E[X ] + b, a, b ∈ R

n n
P P
(3) E ai Xi + b = ai E[Xi ] + b, a1 , . . . , an , b ∈ R
i=1 i=1
Achtung:
E[XY ] = E[X ] · E[Y ] gilt im Allgemeinen nicht!

(1) E[X + Y ] = E[X ] + E[Y ]
Beweis im diskreten Fall:

X X
E[X + Y ] = [x + y ] · P(X + Y = x + y ) = [X (ω) + Y (ω)] · P({ω})
x+y ∈TX +Y ω∈Ω
X X
= X (ω) · P({ω}) + Y (ω) · P({ω})
ω∈Ω ω∈Ω
X X
= x · P(X = x) + y · P(Y = y ) = E[X ] + E[Y ]
x∈TX y ∈TY

(2) E[aX + b] = a E[X ] + b, a, b ∈ R
Beweis im diskreten Fall:

X X X
E[aX + b] = (ax + b)P(X = x) = ax · P(X = x) + bP(X = x)
x∈TX x∈TX x∈TX
X X
=a· x · P(X = x) + b · P(X = x) = a · E[X ] + b · 1
x∈TX x∈TX
= a E[X ] + b

E[aX + b] = a E[X ] + b,
a, b ∈ R

E[aX + b] = a E[X ] + b,
a, b ∈ R

E[aX + b] = a E[X ] + b,
a, b ∈ R


n n
P P
i=1 i=1
Beweis:
" n
# " n
# n
X X X
E ai Xi + b = E ai Xi + b = E[ai Xi ] + b
(2) (1)
i=1 i=1 i=1
n
X
= ai E[Xi ] + b □
(2)
i=1

Eigenschaften von Varianzen
Falls die folgenden Varianzen von stetig oder diskret verteilten Zufallsvariablen
existieren, so gelten folgende Eigenschaften:
(A) Var(X ) ≥ 0
(B) Var(aX + b) = a2 Var(X )
Achtung:
Var(X + Y ) = Var(X ) + Var(Y ) gilt im Allgemeinen nicht!

(A) Var(X ) ≥ 0
Var(X ) ≥ 0 ist klar, da Quadrat und Dichte immer größer 0

(A) Var(X ) ≥ 0
Var(aX + b) = E[(aX + b − E[aX + b])2 ]

= E[(aX + b − a E[X ] − b)2 ] = E[(a · (X − E[X ]))2 ]
E[aX +b]=a E[X ]+b
= E[a2 · (X − E[X ])2 ] = a2 · E[(X − E[X ])2 ] = a2 Var(X ) □

(C) Verschiebungssatz von Steiner:
a ∈ R ⇒ Var(X ) = E[(X − a)2 ] − (E[X ] − a)2 ,
speziell für a = 0 ⇒ Var(X ) = E[X 2 ] − E[X ]2
Beweis:
Var(X ) = E[(X − E[X ])2 ] = E[((X − a) + (a − E[X ]))2 ]
= E[(X − a)2 + 2(a − E[X ])(X − a) + (a − E[X ])2 ]
= E[(X − a)2 ] + 2(a − E[X ])(E[X ] − a) + (a − E[X ])2
= E[(X − a)2 ] − 2(a − E[X ])2 + (a − E[X ])2
= E[(X − a)2 ] − (a − E[X ])2

(D) Tschebyscheff-Ungleichung:
Var(X )
P(|X − E[X ]| > ε) ≤ , ε ∈ (0, ∞)
ε2
Beweis:
Z∞ Z
Var(X ) = (t − E[X ])2 fX (t)dt ≥ (t − E[X ])2 fX (t)dt
(t−E[X ])2 fX (t)≥0
−∞ t:(t−E[X ])2 >ε2
Z Z
≥ ε2 fX (t)dt = ε2 fX (t)dt = ε2 P((X − E [X ])2 > ε2 )
t:(t−E[X ])2 >ε2 t:(t−E[X ])2 >ε2
2
= ε · P[(X > E[X ] + ε) ∪ (X < E[X ] − ε)]
(∗)
= ε2 · P[|X − E[X ]| > ε] □
(∗)(X − E[X ])2 > ε2 ⇔ (X > E[X ] + ε) ∪ (X < E[X ] − ε)


Anwendung der Tschebyscheff-Ungleichung: Abschätzung verteilungsunabhängiger
Unsicherheitsbereiche
Var(X )
P(|X − E[X ]| > ε) ≤ , ε ∈ (0, ∞)
ε2
p p 1
Setze ε := r Var(X ) ⇒ P(|X − E[X ]| > r Var(X )) ≤ 2
r
p p 1
⇔ P(E[X ] − r Var(X ) ≤ X ≤ E[X ] + r Var(X )) ≥ 1 −
r2
Die Wahrscheinlichkeit, dass eine Realisation von X in einem symmetrischen
Intervall der Breite von r Standardabweichungen fällt, beträgt also unabhängig
von der Verteilung von X mindestens 1 − 1/r 2 .

Nicht existente Erwartungswerte oder Varianzen
Erwartungswert, Varianz und höhere Momente müssen nicht existieren.
Beispiel:
1
Sei X stetig verteilte Zufallsvariable mit Dichtefunktion fX (x) = I(x ≥ 1) · x2
Dann ist fX tatsächlich Dichte, denn es gilt:

Rx Rx
FX (x) = fX (t)dt = fX (t)dt = − x1 + 1 = 1 − 1
x und damit
−∞ 1
R∞
fX (t)dt = lim (1 − 1/x) = 1
−∞ x→∞
R∞ R∞
Allerdings gilt auch: E[X ] = tfX (t)dt = t t12 dt = lim (log(b)) = ∞
−∞ 1 b→∞

Nicht existente Erwartungswerte oder Varianzen
Erwartungswert, Varianz und höhere Momente müssen nicht existieren.
Beispiel:
7.2 Weitere wahrscheinlichkeitstheoretische
7 Wahrscheinlichkeitstheoretische Kennzahlen Kennzahlen
7.2 Weitere wahrscheinlichkeitstheoretische Kennzahlen

p-Quantile
Sei X eine Zufallsvariable mit Verteilungsfunktion F .
Für eine Zahl p ∈ (0, 1) wird das p-Quantil Qp = Qp (X ) der durch die
Verteilungsfunktion F = F X festgelegten Verteilung P X definiert durch den
kleinsten Wert x ∈ R, für den gilt:
F (x) ≥ p
Das 0.5-Quantil heißt Median, das 0.25-Quantil unteres Quartil und das
0.75-Quantil oberes Quartil.

Quantilsbestimmng über Verteilungsfunktion (diskreter Fall)

Quantilsbestimmng über Verteilungsfunktion (stetiger Fall)
Wichtige Wahrscheinlichkeits-
verteilungen
8 Wichtige Wahrscheinlichkeitsverteilungen
8.0 Wichtige Wahrscheinlichkeitsverteilungen

Was wir bis jetzt wissen
Es gibt Zufallsprozesse, die unvorhersagbare Ergebnisse erzeugen.
Auf den Zufallsprozessen können wir Wahrscheinlichkeitsräume definieren, die
jedem Ereignis des Zufallsprozesses eine Wahrscheinlichkeit zuordnen.
Auf den Ereignissen definieren wir Zufallsvariablen, um diese in die reellen
Zahlen abzubilden und mit ihnen rechnen zu können.
Jede so definierte Zufallsvariable X folgt einer Verteilung P X mit
Verteilungsfunktion F X bzw. einer Dichte f X oder einer Zähldichte p X .
Wie sieht F X aus?
Im Allgemeinen unbekannt.
In manchen (vor allem diskreten) Fällen lässt sich das Zufallsexperiment
mathematisch abbilden und sämtliche Wahrscheinlichkeiten können exakt
bestimmt werden.
Weitere Verteilungsklassen haben theoretisch schöne Eigenschaften und
werden daher oft verwendet, um den Zufallsprozess zu modellieren.
8 Wichtige Wahrscheinlichkeitsverteilungen 8.1 Diskrete Verteilungen

Diskrete Wahrscheinlichkeitsverteilungen: Einpunktverteilung εa
Wenn sich sämtliche Wahrscheinlichkeitsmaße einer Zufallsvariablen auf einen

Punkt konzentriert, d.h. wenn der Träger TX = {a} nur eine einzelne Realisierung
a umfasst, die Zufallsvariable also definiert ist via X (ω) = a ∀ω ∈ Ω, dann
sprechen wir von einer Einpunktverteilung.

Träger: TX = {a}
Zähldichte: p X (x) = I (a = x)
Die Einpunktverteilung ist ein Grenzfall -

letztlich liegt hier kein Zufallsprozess vor,
da der betrachtete Prozess
deterministisch jedes Mal das gleiche
Ergebnis liefert. Dennoch ist es oftmals
notwendig, auch diesen Fall im Rahmen
der Wahrscheinlichkeitstheorie zu
beschreiben.

J
P
Erwartungswert: E[X ] = p(xj ) · xj
j=1
1
X
1·a=a
j=1
Varianz: Var(X ) = E[(X − E[X ])2 ]

1
X
1 · (a − a)2 = 0
j=1

Die Einpunktverteilung ist die einzige Verteilung mit Varianz 0:

X ∼ εa , a ∈ R ⇔ Var(X ) = 0
Beweis: (nur diskret, stetig analog mit Integralen statt Summen)
⇒ “ : X ∼ εa ⇒ Var(X ) = 0
”
J
X
⇐ “ : Var(X ) = 0 ⇔ (xj − E[X ])2 · p(xj ) = 0
”
j=1
⇒ für alle xj ∈ TX : (xj − E[X ])2 = 0 oder p(xj ) = 0

(xj − E[X ])2 = 0 ⇔ xj = E[X ] ⇒ für alle xj ̸= E[X ] muss gelten : p(xj ) = 0
⇒ X ∼ εE[X ] □
J
P
p(xj )=1
j=1

Diskrete Wahrscheinlichkeitsverteilungen: Bernoulli-Verteilung B(1, p)
Besteht der Träger TX nicht nur aus einem, sondern aus 2 Elementen, so sprechen
wir von einem Bernoulli-Experiment. Beispiele: Einfacher Münzwurf, zufälliges
Kippen eines Bits beim Speichern, oder generell: Erfolg gegen Misserfolg.
Binsenweisheit
Es gibt ja nur 2 Möglichkeiten: Gewinnen oder nicht gewinnen. Die
Wahrscheinlichkeit zu gewinnen beträgt also 50%.
Tatsächlich hängt jedes Bernoulli-Experiment von einem Paramter p ∈ [0, 1] ab,

der die Erfolgswahrscheinlichkeit des Experiments beschreibt. In manchen
Experimenten (z.B. fairer Münzwurf) beträgt p gerade 50%, oftmals (z.B. Lotto 6
aus 49) ist sie aber auch deutlich geringer.
Der Einfachheit halber wird die zu Grunde liegende Zufallsvariable zumeist auf
dem Träger TX = {0, 1} definiert mit der Interpretation X (ω) = 1 =
ˆ Erfolg und
X (ω) = 0 =
ˆ Misserfolg.

Herleitung der Zähldichte
P({ω ∈ Ω|X (ω) = 0}) = 1 − p = p 0 (1 − p)1 =: p X (0)

P({ω ∈ Ω|X (ω) = 1}) = p = p 1 (1 − p)0 =: p X (1)
(
X p x (1 − p)1−x , für x ∈ {0, 1}
⇒ p (x) =
0, sonst

J
P
j=1
1
X
p x (1−p)1−x ·x = (1−p)·0+p ·1 = p
j=0
Varianz: Var(X ) = E[(X − E[X ])2 ]

1
X
p x (1 − p)1−x · (x − p)2
j=0
= (1 − p)p 2 + p(1 − p)2

= p − p 2 = p(1 − p)

Diskrete Wahrscheinlichkeitsverteilungen: Binomial-Verteilung B(n, p)
Verallgemeinerung der Bernoulli-Verteilung: Wenn n Bernoulli-Experimente mit

konstanter Erfolgswahrscheinlichkeit p durchgeführt werden, wie oft tritt ein
Erfolg auf? D.h., betrachte die Summe von n Bernoulli-verteilten Zufallsvariablen:
n
X
X (ω) = Y (ωi ),
i=1
wobei Y ∼ B(1, p) und ωi ∈ {0, 1}.

Bestimmung der Zähldichte

Sei ω = (ω1 , ..., ωn ) ein Elementarereignis des Binomial-Experiments, mit
ωi ∈ {0, 1}. Es gibt also 2n verschiedene Elementarereignisse.
Mit welcher Wahrscheinlichkeit nimmt die binomial-verteilte Zufallsvariable den
Wert k ≤ n an, d.h. mit welcher Wahrscheinlichkeit sind genau k der ωi gleich 1
und die übrigen 0?
1 Mit welcher der Wahrscheinlichkeit tritt ein spezielles Elementarereignis auf?
2 Wie viele Elementarereignisse führen zum gewünschten Ergebnis der
Zufallsvariable?

Schritt 1: Elementarereignis mit k Erfolgen und n − k Misserfolgen

Wahrscheinlichkeit für Erfolg: p, für Misserfolg: 1 − p
Wahrscheinlichkeit für k Erfolge: p · ... · p = p k
Wahrscheinlichkeit für n − k Misserfolge: (1 − p) · ... · (1 − p) = (1 − p)n−k
Wahrscheinlichkeit für ein Elementarereignis: p k · (1 − p)n−k
Schritt 2: Wie viele Anordnungen mit k Erfolgen gibt es?
Reihenfolge der k Erfolge in den n Versuchen egal ⇒ n! Permutationen
Reihenfolge der Erfolge/Misserfolge untereinander spielt dabei keine Rolle; es
wird also jedes Elementarereignis k! · (n − k)! mal statt nur einmal gezählt.
n n!

Binomialkoeffizient: k = k!(n−k)!
Insgesamt ergibt sich

n
P(X (ω) = k) = p X (k) = · p k · (1 − p)n−k
k

Erwartungswert:
" n # n
X X
E [X ] = E Y = E [Y ] = np
i=1 i=1
mit Y ∼ Bin(1, p).

Varianz: (ohne Beweis)
Var (X ) = np(1 − p)

Diskrete Wahrscheinlichkeitsverteilungen: Geometrische Verteilung Geo(p)
Verallgemeinerung der Bernoulli-Verteilung: Wie viele Bernoulli-Experimente mit

konstanter Erfolgswahrscheinlichkeit p müssen bis zum ersten Erfolg durchgeführt
werden? Beispiele: Anzahl Münzwürfe bis zur ersten Zahl, Anzahl Lotto-Spiele bis
zum ersten Hauptgewinn.
Achtung: Alternative Variante der geometrischen Verteilung zählt die Anzahl

Misserfolge vor dem erstem Erfolg, also immer 1 weniger.

Bestimmung der Zähldichte

Führe Bernoulli-Experimente mit Erfolgswahrscheinlichkeit p durch.
W’keit für 1. Erfolg im 1. Versuch: p
W’keit für 1. Erfolg im 2. Versuch: Misserfolg im 1. Versuch, Erfolg im 2.
Versuch: (1 − p) · p
W’keit für 1. Erfolg im 3. Versuch: Misserfolg im 1. und 2. Versuch, Erfolg im
3. Versuch: (1 − p)2 · p
...
⇒ Wahrscheinlichkeit für 1. Erfolg im k.ten Versuch:
p X (k) = (1 − p)k−1 · p ∀k = 1, 2, ..., ∞
Achtung:
Wir haben hier die erste diskrete Verteilung mit abzählbar unendlichem Träger
Tx = {1, 2, 3, ...}.

Erwartungswert:
∞
X ∞
X
E [X ] = i · (1 − p)i−1 · p = (i + 1) · (1 − p)i · p
i=1 i=0
∞
X ∞
X
= i · (1 − p)i · p + (1 − p)i · p
i=0 i=0
∞
X ∞
X
= (1 − p) i · (1 − p)i−1 · p + (1 − p)i−1 · p
i=0 i=1
= (1 − p)E [X ] + 1
1
E [X ] = (1 − p)E [X ] + 1 ⇔ E [X ] − E [X ] + pE [X ] = 1 ⇔ E [X ] =
p

Erwartungswert:
1
E [X ] =
p
1 1
Var (X ) = −
p2 p

Diskrete W’keitsverteilungen: Hypergeometrische Verteilung Hyp(n, r , s)
Als nächstes folgt eine etwas verrückte Verteilungsklasse: Gegeben sei eine Urne
mit r roten und s schwarzen Kugeln. Aus dieser Urne ziehen wir ohne Zurücklegen
n Kugeln. Mit welcher Wahrscheinlichkeit werden dabei genau k rote Kugeln
gezogen?

Anwendungen:
In einer Grundgesamtheit von r + s Individuen gibt es r gute und s schlechte
Individuen (z.B. Pralinen mit und ohne Nougat-Füllung). Wir ziehen blind n
Individuen und wollen wissen, mit welcher Wahrscheinlichkeit wir wie viele
gute Individuen gezogen haben. Oder, im Umkehrschluss, wie viele Individuen
müssen wir ziehen, um eine gewisse Anzahl guter Kandidaten zu erhalten.
Capture-Recapture: Wähle aus einer Grundgesamtheit zufällig r Individuen,
markiere diese und lege sie wieder zurück. Ziehe jetzt blind n Individuen und
betrachte, wie viele gute (markierte) Individuen gezogen wurden. So kann
z.B. die Größe einer Gesamtpopulation geschätzt werden, ohne alle Individuen
zählen zu müssen.

Urnenmodell
k = Anzahl rote Kugeln nach n-maligem Ziehen aus einer Urne mit r roten und s
schwarzen Kugeln ohne Zurücklegen
Ω sind alle Möglichkeiten, die n Ziehungen“ auf
”
die r + s Kugeln zu verteilen.
r +s

Davon gibt es |Ω| = n .
Die günstigen Fälle sind alle, in denen k rote

und n − k schwarze Kugeln auf die n gezogenen
verteilt werden.
Davon gibt es |{ω ∈ Ω|X (ω) = k}| = kr · n−k s

.
Die W’keit für k rote Kugeln beträgt also
r s

X k · n−k
P(X = k) = p (k) = r +s
TX =
n {max(0, n − s), . . . , min(n, r )}
Erwartungswert: (ohne Beweis)

nr
E[X ] =
r +s

r
r s r +s −n
Var (X ) = n
r +s r +s r +s −1

Diskrete Wahrscheinlichkeitsverteilungen: Diskrete Gleichverteilung G (x1 , . . . , xn )
Wenn jedes Element des Trägers mit gleicher Wahrscheinlichkeit auftreten kann
(Beispiel: Fairer Würfelwurf), dann liegt eine diskrete Gleichverteilung vor.
P({ω ∈ Ω|X (ω) = x1 }) = P({ω ∈ Ω|X (ω) = x2 }) = . . . = P({ω ∈ Ω|X (ω) = xn })

Träger: TX = {x1 , ..., xn }
1
Zähldichte: p(x) = n ∀x ∈ TX
Verteilungs-
n
1
P
funktion: F (x) = n I (xi ≤ x)
i=1
Wichtiger Spezialfall G (1, . . . , n):

Gleichverteilung auf den Zahlen 1, ..., n,
z.B. Würfelwurf mit n = 6.

J
P
j=1
n n
X 1 1X
· xj = xj = T X
n n
j=1 j=1
Varianz Var(X ) = E[(X − E[X ])2 ]

n
1X
(xj − T¯X )2 = dT2 X
n
j=1
Erwartungswert und Varianz entsprechen

also arithmetischem Mittel und
empirischer Varianz des Trägers.

Diskrete Wahrscheinlichkeitsverteilungen: Diskrete Gleichverteilung G (1, . . . , n)
Jetzt: TX = {1, ..., n} Erwartungswert:
J
P
E[X ] = p(xj ) · xj
j=1
n
1X 1 n · (n + 1) n+1
j= =
n n 2 2
j=1
Varianz Var(X ) = E [X 2 ] − E [X ]2
n
1X 2 1 n(n + 1)(2n + 1)
E [X 2 ] = j =
n j=1 n 6
(n + 1)(2n + 1) (n + 1)2
E [X 2 ] − E [X ]2 = −
6 4
(4n2 + 6n + 2) − (3n2 + 6n + 3) n2 − 1
= =
12 12

Diskrete Wahrscheinlichkeitsverteilungen: Poisson-Verteilung Poi(λ)
Die Verteilung der seltenen Ereignisse: In einem festgeschriebenem Zeitintervall [t0 , t1 ]
(z.B. 90 Minuten) finden hin und wieder Ereignisse statt (z.B. geschossene Tore beim
Fußball). Mit welcher Wahrscheinlichkeit finden k Ereignisse statt?
Im Gegensatz zur Binomial-Verteilung führen wir hier keine feste Anzahl Experimente
durch und zählen Erfolge / Misserfolge. Die Anzahl der durchgeführten Experimente und
insbesondere die Anzahl der fehlgeschlagenen Experimente ist unbekannt. Entsprechend
ist auch die Anzahl möglicher Erfolge nach oben nicht begrenzt - wir haben hier also eine
weitere Verteilung mit nicht endlichem Träger TX = {0, 1, 2, ...}.

Herleitung der Zähldichte:
Es gelten folgende Annahmen:
1 Zwei Ereignisse könnne nicht gleichzeitig auftreten,

2 die Wahrscheinlichkeit für das Auftreten eines Ereignisses in einem Zeitintervall der
Länge ∆t beträgt λ∆t,
3 die Wahrscheinlichkeit für das Eintreten eines Ereignisses hängt lediglich von der
Länge von ∆t ab, und nicht von seiner Lage innerhalb des Zeitraums [t0 , t1 ],
Dann lässt sich zeigen, dass sich die Wahrscheinlichkeit für das Auftreten von k
Ereignissen innerhalb eines Zeitraums ergibt als:
(
λk
X k!
e −λ für k ∈ {0, 1, 2, ..., ∞}
p (k) = P(X = k) =
0, sonst
Die zugehörige Zufallsvariable folgt einer sogenannten Poisson-Verteilung.

Die Herleitung läuft über den Grenzwert

lim der Binomialverteilung: Unterteile den
n→∞
Zeitraum in gleich große Intervalle, in jedem
findet ein Bernoulli-Experiment statt. Lasse
die Länge der Intervalle gegen 0 gehen und
betrachte die Anzahl der Erfolge im
Grenzwert.
Erwartungswert: (Beweis: Übung)
E [X ] = λ
Varianz: (Ohne Beweis)
Var (X ) = λ
8 Wichtige Wahrscheinlichkeitsverteilungen 8.2 Stetige Verteilungen

Stetige Wahrscheinlichkeitsverteilungen: Rechteckverteilung R(a, b)
Wir bleiben bei den Eigenschaften der Poisson-Verteilung, interessieren uns jetzt aber
nicht für den Zeitpunkt des ersten Ereignisses, sondern für den Zeitpunkt eines beliebigen
Ereignisses. Beispiel: In welcher Minute der Übung unterbricht ein Ausfall des privaten
W-Lans des Tutors die Zoom-Sitzung?
Zur Erinnerung:
2 Die Wahrscheinlichkeit für das Auftreten eines Ereignisses in einem Zeitintervall der
Länge ∆t beträgt λ∆t.
3 Die Wahrscheinlichkeit für das Eintreten eines Ereignisses hängt lediglich von der
Länge von ∆t ab, und nicht von seiner Lage innerhalb des Zeitraums [t0 , t1 ].
Hier betrachten wir jetzt die stetige Verallgemeinerung der diskreten Gleichverteilung:
Die Wahrscheinlichkeit für das Auftreten eines Ereignisses ist stets gleich groß. Nur, dass
wir jetzt nicht endlich viele diskrete Zeitpunkte, sondern stetige Zeitpunkte in einem
Intervall [a, b], a ∈ R, b ∈ R, a < b betrachten.
Aufgrund der Form der Dichte-Funktion wird diese Verteilung häufig auch als
Rechteckverteilung bezeichnet.

Stetige Wahrscheinlichkeitsverteilungen: Rechteckverteilung R(a, b)
Träger:
TX = [a, b]
Dichtefunktion:
I (a ≤ x ≤ b)
f X (x) = ∀x ∈ TX
b−a
Verteilungsfunktion:
min(x, b) − a
F X (x) = I (a ≤ x) ·
b−a
Erwartungswert:
b b
1 x2
Z
x
E [X ] = dx =
b−a 2b−a a
a
b 2 − a2 (b − a)(b + a) a+b
= = =
2(b − a) 2(b − a) 2

Zb
(x − E [X ])2 (b − a)2
Var (X ) = dx =
b−a 12
a

Stetige Wahrscheinlichkeitsverteilungen: Exponential-Verteilung Exp(λ)
Als Erweiterung der Poisson-Verteilung können wir uns die Frage stellen: Wie viel Zeit
vergeht zwischen 2 Ereignissen? Im Gegensatz zur Rechteckverteilung interessiert uns
nicht der Zeitpunkt eines beliebigen, sondern der Zeitpunkt des ersten Ereignis.
Alternativ ist dies häufig motiviert über die Fragestellung: Wie lange dauert es, bis ein
Bauteil ausfällt?
Bezeichne daher X als die Zufallsvariable der vergangen Zeit bis zum ersten Auftreten
eines Ereignisses. Dabei gelten weiterhin die 3 grundlegenden Annahmen der
Poisson-Verteilung, insbesondere:
die Wahrscheinlichkeit für das Auftreten eines Ereignisses in einem Zeitintervall der
Länge ∆t beträgt konstant λ∆t.
Die Verteilung von X ist stark mit der Geometrischen Verteilung verwandt: Die
geometrische Verteilung gibt an, wie viele diskrete Experimente bis zum ersten Erfolg
durchgeführt werden müssen. Im jetzt stetigen Fall werden keine einzelnen Experimente
mehr durchgeführt, sondern lediglich die Zeit bis zum ersten Ereignis betrachtet.
In Anlehnung an die analytische Form ihrer Verteilungsfunktion wird diese Verteilung als
Exponentialverteilung bezeichnet.

Stetige Wahrscheinlichkeitsverteilungen: Exponentialverteilung Exp(λ)
Herleitung der Verteilungsfunktion
Die Verteilungsfunktion ergibt sich als Grenzwert der Geometrischen Verteilung. Dazu
betrachten wir die W’keit P(X > x), dass das Ereignis nach dem Zeitpunkt x auftritt.
Sei jetzt λ die Wahrscheinlichkeit dafür, dass das Ereignis in einem Intervall der Länge
∆t = 1 auftritt (→ Bernoulli-Experiment). Unterteile die Intervalle in n gleich große
Abschnitte. In jedem Abschnitt beträgt die Wahrscheinlichkeit für das Ereignis daher λn .
Damit das Ereignis erst nach x Versuchen zum ersten Mal auftritt, muss es vorher nx
Misserfolge geben (→ Geometrische Verteilung): P(X > x) = (1 − λn )nx .
Lasse jetzt im Grenzwert die Anzahl der Teilintervalle gegen unendlich gehen:
nx
λ
lim P(X > x) = lim 1 − = e −λx .
n→∞ n→∞ n
Der Übergang zur Gegenwahrscheinlichkeit P(X ≤ x) definiert die Verteilungsfunktion:
F X (x) = P(X ≤ x) = 1 − P(X > x) = 1 − e −λx , ∀x > 0.

Stetige Wahrscheinlichkeitsverteilungen: Exponentialverteilung Exp(λ)
Träger:
TX = [0, ∞)
F X (x) = (1 − e −(λ·x) )∀x ∈ TX
Dichtefunktion:
f X (x) = λe −(λ·x) ∀x ∈ TX
Erwartungswert:
Z∞
1
E [X ] = xλe −λx dx =
λ
0
Varianz:
Z∞ 2
1 1
Var (X ) = x− λe −λx dx = 2
λ λ
0

Stetige Wahrscheinlichkeitsverteilungen: Normalverteilung N(µ, σ 2 )
Losgelöst von allen bisherigen Betrachtungen stellt die Normalverteilung die wohl
bekannteste statistische Verteilung dar. Diese ist definiert über ihre Dichtefunktion: Eine
Zufallsvariable heißt Normalverteilung mit Erwartungswert µ und Standardabweichung σ,
falls ihre Dichte die Form

1 1 x − µ 2
f X (x) = √ exp −
2πσ 2 2 σ
hat. Oft wird auch die Standardnormalverteilung N(0, 1) mit µ = 0 und σ = 1

betrachtet:
2
1 x
f X (x) = √ exp −
2π 2
Im Gegensatz zu den bisherigen Verteilungen lässt sich die Normalverteilung nicht direkt
oder indirekt aus Bernoulli-Experimenten ableiten, sondern stellt zunächst einmal ein rein
theoretisches Konstrukt dar. Ihre Bedeutung wird erst über den folgenden, zentralen Satz
klar:

Zentraler Grenzwertsatz
Seien X1 , ... Xn unabhängig und identisch verteile Zufallsvariablen mit E [Xi ] = µ und
Var (Xi ) = σ 2 > 0. Dann konvergiert die Verteilungsfunktion der Zufallsvariable Zn mit
der standardisierten Summe der X1 , ... Xn
n
X Xi − µ
Zn = √
i=1
nσ
gegen die Verteilungsfunktion einer Standardnormalverteilung.

Wenn wir also nur genügend Zufallsvariablen addieren, und dabei die Annahme der
unabhängigen und identischen Verteilung nicht zu stark verletzt ist, so folgt die Summe
zumindest approximativ einer Normalverteilung. Dadurch motiviert lassen sich viele
praktische Zufallsexperimente zumindest approximativ durch eine Normalverteilung
beschreiben.

Träger:
TX = R
Dichtefunktion:
1 1 x−µ 2
f X (x) = √ e− 2 ( σ )
2πσ 2
Zx
1 1 t−µ 2
F X (x) = √ e − 2 ( σ ) dt
2πσ 2
−∞
Erwartungswert:
E [X ] = µ
Varianz:
Var (X ) = σ 2
Mehrdimensionale Wahr-
scheinlichkeitsverteilungen
9 Mehrdimensionale Zufallsvariablen
9.0 Mehrdimensionale Wahrscheinlichkeitsverteilungen

Was bisher geschah:
Es gibt Zufallsprozesse, die unvorhersagbare Ergebnisse erzeugen.
Auf den Zufallsprozessen können wir Wahrscheinlichkeitsräume definieren, die
jedem Ereignis des Zufallsprozesses eine Wahrscheinlichkeit zuordnen.
Auf den Ereignissen definieren wir Zufallsvariablen mit Verteilung P X .
Wir haben verschiedene übliche Verteilungen kennen gelernt.
Das nächste Ziel:
Bis jetzt zumeist nur die Betrachtung eines einzeln Zufallsexperiments. Was, wenn
mehrere Experimente vorliegen?
Bedingte Wahrscheinlichkeiten und stochastische Unabhängigekeit
Wie sieht die gemeinsame Verteilung von 2 Zufallsvariablen aus?
Wahrscheinlichkeitstheoretische Kennzahlen bei mehreren Zufallsvariablen
9 Mehrdimensionale Zufallsvariablen 9.1 Bedingte Wahrscheinlichkeiten
9.1 Bedingte Wahrscheinlichkeiten

Bisher: Wahrscheinlichkeitsraum (Ω, A, P)
Grundraum Ω, Menge aller Ereignisse A auf Ω, Wahrscheinlichkeitsmaß P auf Ω
P : A → [0, 1], A 7→ P(A)

1 0 ≤ P(A) ≤ 1 für jedes Ereignis A ∈ A
2 P(Ω) = 1
∞
S P∞
3 P Ai = P(Ai ) für alle paarweise disjunkten Ereignisse Ai ∈ A
i=1 i=1
Im wichtigen Spezialfall des Laplace-Raums (jedes ωi ∈ Ω tritt mit gleicher

Wahrscheinlichkeit auf) haben wir Wahrscheinlichkeiten darauf zurückgeführt, die
Anzahl der guten durch die Anzahl aller möglichen Ereignisse zu teilen.
Beispiel:
Fairer Würfelwurf. Wir suchen P(A|B) mit A = Augenzahl größer 3.
Ω = {1, 2, 3, 4, 5, 6}, |Ω| = 6|; A = {4, 5, 6}, |A| = 3
|A| 3 1
⇒ P(A) = |Ω| = 6 = 2

Jetzt: Betrachte 2 Ereignisse A ⊂ Ω und B ⊂ Ω. Wie groß ist die
Wahrscheinlichkeit dafür, dass A eintritt, wenn B bereits eingetreten ist?
Betrachte jetzt den Wahrscheinlichkeitsraum (B, B, P(·|B))
Einschränkung des Grundraums B ⊂ Ω, Wahrscheinlichkeitsmaß P(·|B) auf B
P(·|B) : B → [0, 1], A 7→ P(A|B))

1 0 ≤ P(A|B) ≤ 1 für jedes Ereignis A ∈ B
2 P(B|B) = 1
∞
S P∞
3 P Ai |B = P(Ai |B) für alle paarweise disjunkten Ereignisse Ai ∈ B
i=1 i=1
Beispiel:
Fairer Würfelwurf. Wir suchen PB (A) mit A = Augenzahl größer 3, wenn bereits
bekannt ist, dass Ereignis B: Gewürfelte Augenzahl ist ungerade eingetreten ist.
Ω = {1, 2, 3, 4, 5, 6}, A = {4, 5, 6}, B = {1, 3, 5}
P(A|B) =?

Wahrscheinlichkeitsraum (Ω, A, P)

Wahrscheinlichkeitsraum (Ω, A, P)

Wahrscheinlichkeitsraum (Ω, A, P) Wahrscheinlichkeitsraum (B, B, P(·|B))


1 = P(Ω) = P(Ω|Ω) 1 = P(B|B)

c c c
= P(A ∩ B ) + P(A ∩ B ) = P(A|B) + P(Ac |B)
+ P(A ∩ B) + P(Ac ∩ B) = P(A ∩ B|B) + P(Ac ∩ B|B)

Die Wahrscheinlichkeit
P(A ∩ B)
P(A|B) =
P(B)
heißt bedingte Wahrscheinlichkeit von A gegeben B.

Beispiel: einfacher Würfelwurf A = Zahl größer 3
B = Zahl ungerade
Wahrscheinlichkeitsraum (Ω, A, P) Wahrscheinlichkeitsraum (B, B, PB )
3 3 P(B ∩ B|Ω)
P(A|Ω) = , P(B|Ω) = P(B|B) = =1
6 6 P(B|Ω)
1 P(A ∩ B|Ω) 1
P(A ∩ B|Ω) = P(A|B) = =
6 P(B|Ω) 3

Beispiel: vierfacher Münzwurf A = genau zweimal Kopf nach vier Würfen
B = mindestens einmal Kopf nach zwei Würfen
Wahrscheinlichkeitsraum (Ω, A, P) Wahrscheinlichkeitsraum (B, B, PB )
6 12 P(A ∩ B|Ω) 5
P(A|Ω) = , P(B|Ω) = P(A|B) = = ≈ 0.417
16 16 P(B|Ω) 12
5
P(A ∩ B|Ω) = = 0.3125
16

Stochastische Unabhängigkeit von Ereignissen
Bis jetzt: Die Wahrscheinlichkeit dafür, dass Ereignis A eintritt, ändert sich, wenn
der Ausgang des Ereignisses B bekannt ist. Ist das immer so?
Beispiel: Wir würfeln 2 Würfel.
Ereignis A: Würfel 1 zeigt eine 1, Ereignis B: Würfel 2 zeigt eine 1.
1
Ω = {(1, 1), (1, 2), ..., (2, 1), ..., (6, 6)}, |Ω| = 36, P(ω) = 36 , ∀ω ∈ Ω
A = {(1, 1), (1, 2), ..., (1, 6)}, |A| = 6, B = {(1, 1), (2, 1), ..., (6, 1)}, |B| = 6
|A| 6 1 P(A∩B) P({(1,1)}) 1

P(A) = |Ω| = 36 = 6 P(A|B) = P(B) = P(B) = 6
In diesem Fall gilt also: P(A) = P(A|B), d.h. die Wahrscheinlichkeit für das
Eintreten von A ändert sich nicht, wenn Information B vorliegt. Diese Eigenschaft
zweier Ereignisse wird als stochastische Unabhängigkeit bezeichnet und ist die
Grundlage für viele weitere statistische Methoden.

Zwei Ereignisse A und B aus (Ω, A, P) heißen stochastisch unabhängig, wenn

gilt:
P(A|B) = P(A) oder umgekehrt P(B|A) = P(B)
Daraus folgt, falls außerdem P(B) > 0 bzw. P(A) > 0 gilt:
P(A ∩ B)
P(A) = P(A|B) = ⇔ P(A ∩ B) = P(A) · P(B)
P(B)
Wenn zwei Ereignisse stochastisch unabhängig sind, ergibt sich die

Wahrscheinlichkeit dafür, dass beide Ereignisse gleichzeitig eintreten (d.h. der
Schnitt der beiden Ereignisse), als Produkt der Einzelwahrscheinlichkeiten.

Das Prinzip der stochastischen Unabhängigkeit von zwei Ereignissen lässt sich auf
beliebig viele Ereignisse erweitern, dabei unterscheiden wir 2 Fälle:
Eine Menge von n ∈ N Ereignissen A1 , . . . , An aus (Ω, A, P) heißt paarweise

stochastisch unabhängig, wenn gilt:
P(Ai ∩ Aj ) = P(Ai ) · P(Aj ), j ̸= i, j = 1, . . . , n, i = 1, . . . , n
Eine Menge von n Ereignissen aus (Ω, A, P) heißt gemeinsam stochastisch

unabhängig, wenn gilt:
s
\ s
Y
P Aij = P(Aij ), {i1 , . . . , is } ⊆ {1, . . . , n}
j=1 j=1








Satz der totalen Wahrscheinlichkeit
Bisher:
Gegeben sind zwei Ereignisse, deren Wahrscheinlichkeiten P(A) und P(B)
bekannt sind. Wie hängen diese beiden Ereignisse zusammen, d.h. wie ändert sich
die P(A), wenn die Information über B bekannt ist?
Jetzt:
Teile den Raum Ω in disjunkte Ereignisse B1 , ..., Bk ein:
k
[
Ω= Bi , Bi ∩ Bj = ∅ ∀i, j
i=1
Beispiel: Unterteilung der Studierenden nach Studiengang

Betrachte jetzt ein weiteres Ereignis A, dessen Wahrscheinlichkeit P(A) sich nicht
direkt / nur schwierig bestimmen lässt. Die Bestimmung der bedingten
Wahrscheinlichkeiten P(A|Bi ) ist jedoch einfach möglich. Wie lässt sich P(A) aus
den P(A|Bi ) ableiten?

Beispiel:
H. schreibt dieses Semester die Wrums-Klausur mit. Wichtig ist dabei vor allem
die Aufgabe 7. Er möchte vorab abschätzen, mit welcher Wahrscheinlichkeit er
diese richtig löst (Ereignis A). Sie kommt aus einem der 3 Themengebiete:
B1 Einfache Lineare Regression
B2 Erwartungswert berechnen
B3 Bedingte Wahrscheinlichkeiten
H. hat die Themen unterschiedlich gut verstanden. Er schätzt daher, dass er eine
Aufgabe aus Gebiet B1 mit Wahrscheinlichkeit 75% löst, aus B2 mit 60% und aus
B3 mit 45%:
P(A|B1 ) = 0.75, P(A|B2 ) = 0.60, P(A|B3 ) = 0.45
Weiter nimmt H. an, dass die Wahrscheinlichkeit für jedes der Themengebiete
gleich groß ist (P(B1 ) = P(B2 ) = P(B3 )). Wie groß ist P(A)?





n
S
Sei B1 , ..., Bk eine dsijunkte Zerlegung von Ω: Bi = Ω, i ̸= j ⇒ Bi ∩ Bj = ∅.
i=1
k
X
Dann gilt für A ⊂ Ω: P(A) = P(A|Bi ) · P(Bi ) .
i=1

Beispiel:
Zurück zur Klausuraufgabe von Student H. Zur Erinnerung:
P(A|B1 ) = 0.75, P(A|B2 ) = 0.60, P(A|B3 ) = 0.45
1
Weiter gilt: P(B1 ) = P(B2 ) = P(B3 ) = 3 und Ω = B1 ∪ B2 ∪ B3 .
P(A) = P(A|B1 ) · P(B1 ) + P(A|B2 ) · P(B2 ) + P(A|B3 ) · P(B3 )

1 1 1
= 0.75 · + 0.60 · + 0.45 ·
3 3 3
= 0.60
Student H. kann die Aufgabe also mit 60% Wahrscheinlichkeit lösen.


Satz von Bayes
Gegeben seien weiterhin 2 Ereignisse A ⊂ Ω und B ⊂ Ω .

In vielen Situationen ist es einfach, die Wahrscheinlichkeit von P(A|B) zu
bestimmen, während die umgekehrte Wahrscheinlichkeit P(B|A) unbekannt ist.
Beispiel:
A = Testergebnis ist positiv (Schnelltest in Selbstdurchführung)

B = Patient ist krank (Aufwendige Begutachtung durch Experten)
P(A|B) lässt sich leicht bestimmen: Wir testen offensichtlich kranke und gesunde
Personen und können in jeder Gruppe die Anzahl der positiven / negativen
Ergebnisse bestimmen.
P(B|A) ist deutlich schwieriger: Ich habe ein positives Ergebnis erhalten und
möchte wissen, mit welcher Wahrscheinlichkeit ich tatsächlich erkrankt bin.
Lässt sich P(B|A) vielleicht auf P(A|B) zurückführen?

Satz von Bayes
Beispiel:
Wir bauen einen (einfachen und ziemlich veralteten) Spamfilter: Betrachte eine
E-Mail als Spam, falls Sie das Wort Maximalgewinn beinhaltet. Alle Spam-Mails
werden automatisch geblockt, alle anderen Mails werden ausgeliefert.
Uns als Nutzer dieses Filters interessiert jetzt die Frage: Wenn wir eine E-Mail
erhalten, mit welcher Wahrscheinlichkeit handelt es sich hierbei um (k)eine Spam
E-Mail?
Alternative Frage: Wie viele der geblockten Mails waren Spam / kein Spam?
Beide Fragen lassen sich nicht direkt beantworten, da wir hier auf die unbekannte
Information: Eine E-Mail ist Spam / kein Spam bedingen müssen.

Satz von Bayes
Beispiel:
Definiere im Spam-Beispiel die folgenden Ereignisse
A: Eine Mail enthält das Wort Maximalgewinn und wird darum von unserem
automatischen Filter als Spam erkannt und darum geblockt
Ac : Eine Mail ohne das Wort Maximalgewinn wird als echte Mail eingestuft
B: Die Mail ist tatsächlich eine Spam-Mail
B c : Die Mail ist keine Spam-Mail
Weiterhin sei aus Voruntersuchungen bekannt:
P(A|B) = 0.95: W’keit, dass Spam-Mail das Wort Maximalgewinn enthält,
P(A|B C ) = 0.02: W’keit, dass Nicht-Spam-Mail das Wort Maximalgewinn enthält,
P(B) = 0.30: W’keit dafür, dass eine Mail tatsächlich Spam ist.
Gesucht ist jetzt:

P(B C |AC ): Die W’keit dafür, dass eine nicht geblockte Mail keine Spam-Mail ist,
P(B|A): Die W’keit dafür, dass eine geblockte Mail eine Spam-Mail ist.

Satz von Bayes
Nach der Definition der bedingten W’keit gilt:

P(A ∩ B)
P(B|A) =
P(A)
Aus gleicher Definition mit A und B vertauscht folgt der sogenannte Produktsatz:
P(A ∩ B)
P(A|B) = ⇔ P(A ∩ B) = P(A|B) · P(B)
P(B)
Weiter gilt nach dem Satz der totalen Wahrscheinlichkeit mit Ω = A ∪ Ac :
P(A) = P(A|B) · P(B) + P(A|B c ) · (1 − P(B))
Setzen wir dies ineinander ein, ergibt sich der Satz von Bayes in seiner einfachen
Fassung:
P(A|B) · P(B) P(A|B) · P(B)

P(B|A) = =
P(A) P(A|B) · P(B) + P(A|B c ) · (1 − P(B))

Satz von Bayes
Beispiel: Spam-Filter
Ereignis A: Mail enthält das Wort Maximalgewinn ⇒ Klassifiziere Mail als Spam
Ereignis B: Mail ist Spam
P(A|B) = Sensitivität = W’keit, Spam als solchen zu klassifizieren
P(Ac |B c ) = Spezifität = W’keit, normale Mails nicht als Spam zu klassifizieren
B : Mail ist Spam B c : Mail ist kein Spam

A : Maximalgewinn in Mail P(A|B) P(A|B c ) = 1−P(Ac |B c )
Ac : Maximalgewinn nicht P(Ac |B) = 1−P(A|B) P(Ac |B c )
in Mail

Satz von Bayes
P(A|B) = Sensitivität = W’keit, Spam als solchen zu klassifizieren
P(Ac |B c ) = Spezifität = W’keit, normale Mails nicht als Spam zu klassifizieren
Gesucht: W’keit, dass klassifizierte Mail Spam ist
P(A|B) · P(B) P(A|B) · P(B)

P(B|A) = =
P(A) P(A|B) · P(B) + (1 − P(Ac |B c )) · (1 − P(B))
Die 1. Formulierung benötigt P(A) und P(B). Da P(A) oftmals und auch hier
unbekannt ist, verwende die 2. Variante, hier istdie Angabe der sogenannten
Prävalenz P(B) ausreichend. Beachte auch die Umformulierung hier, in der
P(A|B c ) auf die zugehörige Gegenwahrscheinlichkeit zurückgeführt wird.

Satz von Bayes
Gegeben:
P(A|B) = Sensitivität =0.95 A : Maximalgewinn 0.95 0.02
in Mail
P(Ac |B c ) = Spezifiztät =0.98
Ac : Maximalgewinn 0.05 0.98
P(B) = Prävalenz =0.3 nicht in Mail
P(A|B) · P(B)
P(B|A) =
P(A|B) · P(B) + (1 − P(Ac |B c )) · (1 − P(B))
0.95 · 0.3 0.285
= = ≈ 0.9532
0.95 · 0.3 + (1 − 0.98) · (1 − 0.3) 0.299
⇒ Unter den gegebenen Annahmen sind 95% der geblockten E-Mails tatsächlich
Spam, während 5% der geblockten E-Mails zu unrecht geblockt werden

Satz von Bayes
Gegeben:
P(A|B) = Sensitivität =0.95 A : Maximalgewinn 0.95 0.02
in Mail
P(Ac |B c ) = Spezifiztät =0.98
Ac : Maximalgewinn 0.05 0.98
P(B) = Prävalenz =0.3 nicht in Mail
P(Ac |B c ) · P(B c )
P(B c |Ac ) =
P(Ac |B c )· P(B c ) + (1 − P(A|B)) · (1 − P(B c ))
0.98 · 0.7 0.686
= = ≈ 0.9786
0.98 · 0.7 + (1 − 0.95) · 0.3 0.701
⇒ Unter den gegebenen Annahmen sind 98% der nicht-geblockten E-Mails kein
Spam, während 2% Spam sind.

Satz von Bayes
Bei der Herleitung des Satzes von Bayes haben wir den Spielfall des Satzes der
totalen Wahrscheinlichkeit mit den Mengen A ∪ Ac = Ω verwendet. Der Satz von
Bayes lässt sich auch mit der vollständigen Definition des Satzes der totalen
Wahrscheinlichkeit verwenden:
Sk
Sei B1 , ..., Bk eine disjunkte Zerlegung von Ω: Bi = Ω, i ̸= j ⇒ Bi ∩ Bj = ∅.
i=1
n
P
Dann gilt für A ⊂ Ω: P(A) = P(A|Bi ) · P(Bi ).
i=1
Damit gilt für den Satz von Bayes:
P(A|Bj ) · P(Bj ) P(A|Bj ) · P(Bj )

P(Bj |A) = = k , j = 1, ..., k
P(A) P
P(A|Bi ) · P(Bi ))
i=1
9 Mehrdimensionale Zufallsvariablen 9.2 Mehrdimensionale Zufallsvariablen
9.2 Mehrdimensionale Zufallsvariablen

Verteilung mehrdimensionaler Zufallsvariablen
Sei wie üblich ein Wahrscheinlichkeitsraum (Ω, A, P) gegeben. Seien weiterhin

jetzt X : Ω → R und Y : Ω → R Zufallsvariablen mit Verteilungen P X und P Y .
Die univariaten Verteilungen P X und P Y haben wir bereits ausführlich untersucht.
Wie sieht jetzt die gemeinsame, bivariate Verteilung von X und Y aus?
Die Wahrscheinlichkeitsverteilung oder kurz Verteilung einer

zweidimensionalen Zufallsvariablen (X , Y ) ist definiert durch
P (X ,Y ) (B) = P((X , Y ) ∈ B) = P({ω ∈ Ω|(X (ω), Y (ω)) ∈ B}), B ⊆ R2
Die Funktion F = F (X ,Y ) : R2 → [0, 1] mit
F (x, y ) = P (X ,Y ) ((−∞, x] × (−∞, y ]) = P(X ≤ x, Y ≤ y )
= P({ω ∈ Ω|X (ω) ≤ x, Y (ω) ≤ y }), x, y ∈ R,
wird Verteilungsfunktion von (X , Y ) genannt. Definitionen von Zähldichte
p (X ,Y ) und Dichte f (X ,Y ) erfolgen analog zum univariaten Fall.

F (x, y ) = P(X ≤ x, Y ≤ y ) = P({ω ∈ Ω|X (ω) ≤ x, Y (ω) ≤ y }), x, y ∈ R
Eigenschaften
1. lim F (x, y ) = lim F (x, y ) = lim F (x, y ) = 0

x→−∞ y →−∞ x,y →−∞
Beweis:
A = {ω ∈ Ω|X (ω) ≤ x, Y (ω) ≤ y } = Ax ∩ Ay mit Ax = {ω ∈ Ω|X (ω) ≤ x}
Ay = {ω ∈ Ω|Y (ω) ≤ y }
F (x, y ) = P(A) = P(Ax ∩ Ay ) = 1 − P(Acx ∪ Acy )
lim F (x, y ) = 1 − (P(Ac−∞ ∪ Acy ) = 1 − P(Ω ∪ Acy )

x→−∞
= 1 − [P(Ω) + P(Acy ) − P(Acy )] = 1 − 1 = 0

Eigenschaften
1. lim F (x, y ) = lim F (x, y ) = lim F (x, y ) = 0, lim F (x, y ) = 1

x→−∞ y →−∞ x,y →−∞ x,y →∞
2. lim F (x, y ) = F X (x), lim F (x, y ) = F Y (y )

y →∞ x→∞
Beweis:
A = {ω ∈ Ω|X (ω) ≤ x, Y (ω) ≤ y } = Ax ∩ Ay mit Ax = {ω ∈ Ω|X (ω) ≤ x}
Ay = {ω ∈ Ω|Y (ω) ≤ y }
c c
F (x, y ) = P(A) = P(Ax ∩ Ay ) = 1 − P(Ax ∪ Ay )
lim F (x, y ) = 1−P(Ac∞ ∪Acy ) = 1−P(∅ ∪Acy ) = 1−P(Acy ) = P(Ay ) = F Y (y )

x→∞

Eigenschaften

x→−∞ y →−∞ x,y →−∞ x,y →∞

y →∞ x→∞
Beweis (Fortsetzung):
lim F (x, y ) = F Y (y ) Beweis für lim F (x, y ) = F X (x) analog.
x→∞ y →∞
lim F (x, y ) = lim F Y (y ) = 1 F (x) und F Y (y ) heißen

X
x,y →∞ y →∞ Randverteilungen von X und Y

Eigenschaften
x→−∞ y →−∞ x,y →−∞ x,y →∞

y →∞ x→∞
3. x1 < x2 ⇒ F (x1 , y ) ≤ F (x2 , y ), y1 < y2 ⇒ F (x, y1 ) ≤ F (x, y2 )

Beweis
F (xi , y ) = P(Ai ) mit Ai = {ω ∈ Ω|X (ω) ≤ xi , Y (ω) ≤ y } Beweis für
F (x, y1 ) analog
x1 < x2 ⇒ A1 ⊆ A2 ⇒ P(A1 ) ≤ P(A2 ) ⇔ F (x1 , y ) ≤ F (x2 , y )

Stetiger Fall: Ω überabzählbar
2
F (X ,Y ) (x,y )
Die Funktion f (X ,Y ) : R2 → [0, 1] mit f (X ,Y ) (x, y ) = δ δxδy heißt die
gemeinsame Dichtefunktion von X und Y . Es gilt:
Zx Zy
(X ,Y )
F (x, y ) = P(X ≤ x, Y ≤ y ) = f (X ,Y ) (s, t) dt ds
−∞ −∞
Z∞ Z∞
f (X ,Y ) (s, t) dt ds = 1
−∞ −∞
X
Die Randdichten f und f Y von X und Y sind definiert durch
Z∞ Z∞
X (X ,Y ) Y
f (x) = f (x, t) dt und f (y ) = f (X ,Y ) (s, y ) ds
−∞ −∞

Diskreter Fall: Ω endlich oder abzählbar unendlich
Die Funktion p (X ,Y ) : R2 → [0, 1] mit p (X ,Y ) (x, y ) = P(X = x, Y = y ) heißt
gemeinsame Zähldichte von (X , Y ). Es gilt:
X X
F (X ,Y ) (x, y ) = P(X ≤ x, Y ≤ y ) = p (X ,Y ) (s, t)
s∈Tx ,s<x t∈Ty ,t<y
X X
p (X ,Y ) (s, t) = 1
s∈Tx t∈Ty
Die diskreten Randdichten p X und p Y von X und Y sind definiert durch

X X
p X (x) = p (X ,Y ) (x, t) und p Y (y ) = p (X ,Y ) (s, y )
t∈Ty s∈Tx

Verteilung mehrdimensionaler Zufallsvariablen: Stetiges Beispiel





Verteilung mehrdimensionaler Zufallsvariablen: Diskretes Beispiel
Betrachte 5 Bernoulli-Experimente mit Erfolgswahrscheinlichkeit p = 0.5, z.B. das

5-malige Werfen einer fairen Münze.
Ω = {(0, 0, 0, 0, 0), (0, 0, 0, 0, 1), (0, 0, 0, 1, 0), ..., (1, 1, 1, 1, 1)}, |Ω| = 25 = 32
Wir haben hier einen Laplace-Raum vorliegen, in dem jedes Elementarereignis mit
1 1
gleicher Wahrscheinlichkeit |Ω| = 32 auftritt.
Betrachte die beiden Zufallsvariablen:
X Die Anzahl der erfolgreichen Experimente: Wie oft wurde Kopf geworfen?
Y Die Anzahl Experimente bis zum 1. Erfolg: Im wievielten Wurf gab es zum
1. Mal Kopf? Sei weiterhin Y := 6, falls kein Kopf geworfen wurde.
Wir wissen bereits: X ist binomial verteilt, und Y ist (in weiten Teilen)
geometrisch verteilt. Und was die gemeinsame Verteilung?

Verteilung mehrdimensionale Zufallsvariablen: Diskretes Beispiel
Die Zähldichte p (X ,Y ) erhalten wir wie im univariaten Fall, indem wir für jede
Realisierung der Zufallsvariablen die W’keiten der Elementarereignisse addieren.
HH Y
ˆ X
P
1 2 3 4 5 6 =p
X HH H 1 1
0 0 0 0 0 0 ZZZZZ
32 32
1 1 1 1 1 5
1 KZZZZ
32
ZKZZZ
32
ZZKZZ
32
ZZZKZ
32
ZZZZK
32
0 32
KKZZZ
4 ZKKZZ 3 2 1 10
KZKZZ ZZKKZ
2 KZZKZ 32
ZKZKZ
32 ZZKZK 32
ZZZKK
32
0 0 32
ZKZZK
KZZZK
KZZKK
KZKZK
6 ZKZKK 3 1 10
KZKKZ
3 KKZKZ 32
ZKKZK
32
ZZKKK
32
0 0 0 32
ZKKKZ
KKZZK
KKKZZ
KZKKK
KKZKK 4 1 5
4 KKKZK 32
ZKKKK
32
0 0 0 0 32
KKKKZ
1 1
5 KKKKK
32
0 0 0 0 0 32
ˆ Y 16 8 4 2 1 1
P
=p 32 32 32 32 32 32
1

Wichtige mehrdimensionaler Wahrscheinlichkeitsverteilungen:
Wir schauen uns als nächstes 2 Beispiele für bekannte, mehrdimensionale
Verteilungen an. Zunächst ein Beispiel für eine diskrete Verteilung, die
Multinomial-Verteilung:
Motivation: Verallgemeinerung der Binomial-Verteilung auf mehr als 2 Klassen:

Es gibt Objekte aus k Klassen und wiederholt wird ein Objekt gezogen. Wenn n
Objekte gezogen
P werden, mit welcher Wahrscheinlichkeit werden (x1 , ..., xk )
Objekte ( i xi = n) aus den Klassen 1, ..., k gezogen?
Beispiel: Man spielt einen Abend lang wiederholt Werwölfe von Düsterwald:
Jedem Spieler wird zufällig eine Rolle (Dorfbewohner, Werwolf, weitere
Sonderrolle) zugelost. Mit welcher Wahrscheinlichkeit war man nach n Spielen x1
mal Dorfbewohner, x2 mal Werwolf und hatte x3 eine weitere Sonderrolle?

Diskrete Verteilung: Multinomialverteilung Mult(n, p1 , . . . , pk ) mit
k
P
n ∈ N, 0 ≤ pi ≤ 1, i = 1, . . . , k, pi = 1
i=1
Träger:
n k
X o
TX = x = (x1 , . . . , xk ) ∈ (N∪{0})k | xi = n
i=1
Zähldichte:
k
n! Y
p(x1 , . . . , xk ) = I(x ∈ TX ) · k
· pi
Q
xi ! i=1
i=1
Im Fall k = 2 entspricht die

Multinomialverteilung der
Binomialverteilung.

Stetige Verteilung: Multivariate Normalverteilung N(µ, Σ)
mit µ ∈ Rr , Σ ∈ Rr ×r , Σ p.s.d und Σ symmetrisch
Träger: TX = Rr
Dichtefunktion:
1 1 ⊤
Σ−1 (x−µ)
f (x1 , . . . , xr ) = p e − 2 (x−µ)
(2π)k/2 |Σ|
Kanonische Verallgemeinerung der

univariaten Normalverteilung auf den
mehrdimensionalen Fall

Stochastische Unabhängigkeit von Zufallsvariablen:
Vorüberlegung:
Seien X und Y Zufallsvariablen mit Verteilungsfunktion F (X ,Y ) .
F (X ,Y ) (x, y ) = P(A ∩ B) = P(A) · P(B) = F X (x) · F Y (y )
mit A = {ω ∈ Ω|X (ω) ≤ x} und B = {ω ∈ Ω|Y (ω) ≤ y } gilt, wenn A und B
stochastisch unabhängig sind.
Folgerung:
Die Zufallsvariablen X und Y heißen stochastisch unabhängig, falls
F (X ,Y ) (x, y ) = F X (x) · F Y (y ) für alle x, y ∈ R
Die Zufallsvariablen X1 , . . . , Xn heißen stochastisch unabhängig, falls

n
Y
F (X1 ,...,Xn ) (x1 , . . . , xn ) = F Xi (xi ) für alle x1 , . . . , xn ∈ R
i=1

Seien X und Y stochastisch unabhängige Zufallsvariablen mit Verteilungsfunktion
F (X ,Y ) (x, y ) = F X (x) · F Y (y ) ∀x, y ∈ R.
Was gilt in diesem Fall für die (Zähl)-Dichte?
X und Y diskret:
⇒ p (XY ) (xi , yj ) = P(A ∩ B)

= F (X ,Y ) (xi , yj ) − F (X ,Y ) (xi−1 , yj ) − F (X ,Y ) (xi , yj−1 )
+ F (X ,Y ) (xi−1 , yj−1 )
= F X (xi )F Y (yj ) − F X (xi−1 )F Y (yj ) − F X (xi )F Y (yj−1 )
+ F X (xi−1 )F Y (yj−1 )
= F X (xi ) − F X (xi−1 ) · F Y (yi ) − F Y (yj−1 ) = p X (xi ) · p Y (yj )

mit A = {ω ∈ Ω|X (ω) ≤ xi }, B = {ω ∈ Ω|Y (ω) ≤ yj }


Seien X und Y stochastisch unabhängige Zufallsvariablen mit Verteilungsfunktion
F (X ,Y ) (x, y ) = F X (x) · F Y (y ) ∀x, y ∈ R.
Was gilt in diesem Fall für die (Zähl)-Dichte?
X und Y stetig:
δ 2 F (X ,Y ) (x, y ) δ 2 [F X (x) · F Y (y )] δF X (x) · δF Y (y )

⇒ f (X ,Y ) (x, y ) = = =
δxδy δxδy δxδy
= f X (x) · f Y (y )

Beispiel: Multinomialverteilung
(X , Y ) ∼ Mult(2, 0.5, 0.5)
2 2 1 1
⇒ p (XY ) (0, 2) = · 0.52 = · =
0! · 2! 1·2 4 4
2 2 1 1
p (XY ) (1, 1) = · 0.52 = · =
1! · 1! 1·1 4 2
2 2 1 1
p (XY ) (2, 0) = · 0.52 = · =
2! · 0! 2·1 4 4

Beispiel: Multinomialverteilung
(X , Y ) ∼ Mult(2, 0.5, 0.5)
1 1 1 1 1 1
p (XY ) (0, 2) = p (X ) (0) = p Y (2) = p X (0) · p Y (2) = · = ̸= = p (XY ) (0, 2)
4 4 4 4 16 4
1 1 1 1 1 1
p (XY ) (1, 1) = p (X ) (1) = p Y (1) = p X (1) · p Y (1) = · = ̸= = p (XY ) (1, 1)
2 2 2 2 4 2
1 1 1 1 1 1
p (XY ) (2, 0) = p (X ) (2) = p Y (0) = p X (2) · p Y (0) = · = ̸= = p (XY ) (2, 0)
4 4 4 4 16 4
⇒ X und Y sind stochastisch abhängig

Wahrscheinlichkeitstheoretische Kennzahlen:
Die Definition der stochastischen Unabhängigkeit (kurz: st.u.) erlaubt es uns,
weitere Rechenregeln für Erwartungswerte und Varianzen herzuleiten:
Zufallsvariablen X und Y existieren, so gelten folgende Eigenschaften:
(1) E[X + Y ] = E[X ] + E[Y ]
(2) E[aX + b] = a E[X ] + b, a, b ∈ R

n n
P P
i=1 i=1
(4) Neu: X und Y st.u. ⇒ E[XY ] = E[X ] · E[Y ]

(4) X und Y st.u. ⇒ E[XY ] = E[X ] · E[Y ]

Beweis: im stetigen, diskret analog
X und Y st.u. ⇒ fXY (x, y ) = fX (x) · fY (y )

Z∞ Z∞ Z∞ Z∞
⇒ E[XY ] = u · v · fXY (u, v )du dv = u · v · fX (u) · fY (v )du dv
−∞ −∞ −∞ −∞
Z∞ Z∞
= u · fX (u)du v · fY (v )dv = E[X ] · E[Y ]
−∞ −∞

(A) Var(X ) ≥ 0
(C) Verschiebungssatz von Steiner
(D) Tschebyscheff-Ungleichung
(E) Neu: X und Y st.u. ⇒ Var(X + Y ) = Var(X ) + Var(Y )
n
P Pn
(F) Neu: X1 , . . . , Xn st.u., a1 , . . . , an ∈ R ⇒ Var ai Xi + b = ai2 Var(X )
i=1 i=1

(E) X und Y st.u. ⇒ Var(X + Y ) = Var(X ) + Var(Y )
Beweis:
Var(X + Y ) = E[(X + Y − E[X + Y ])2 ] = E[(X + Y − E[X ] − E[Y ])2 ]

= E[((X − E[X ]) + (Y − E[Y ]))2 ]
= E (X − E[X ])2 + (Y − E[Y ])2 + 2(X − E[X ]) · (Y − E[Y ])

= Var(X ) + Var(Y ) + 2R
R = E [(X − E[X ]) · (Y − E[Y ])] = E [XY − E[X ]Y − X E[Y ] + E[X ] E[Y ]]

= E[XY ] − E[X ] E[Y ] − E[X ] E[Y ] + E[X ] E[Y ] = 0
(4)
⇒ Var(X + Y ) = Var(X ) + Var(Y ) + 2R = Var(X ) + Var(Y )

R=0

Wahrscheinlichkeitstheoretische Kennzahlen: Abhängigkeitsmaße
Erinnerung: X und Y stochastisch unabhängig ⇒ E[XY ] = E[X ] · E[Y ]
Umgekehrt gilt somit: E[XY ] ̸= E[X ] · E[Y ] ⇒ X und Y stochastisch abhängig
Seien X und Y Zufallsvariablen. Dann heißt
Cov(X , Y ) = E[(X − E[X ]) · (Y − E[Y ])]
Kovarianz von X und Y . Die Größe

Cov(X , Y )
Cor(X , Y ) = p
Var(X ) · Var(Y )
heißt Korrelation von X und Y .

Cov(X , Y )
Cov(X , Y ) = E[(X − E[X ]) · (Y − E[Y ])] Cor(X , Y ) = p
Var(X ) · Var(Y )
Eigenschaften
(i) Cov(X , Y ) = Cov(Y , X ), Cor(X , Y ) = Cor(Y , X )
(ii) Cov(X , Y ) = E[XY ] − E[X ] E[Y ]
(iii) −1 ≤ Cor(X , Y ) ≤ 1
(iv) Cor(X , Y ) < 0 ⇔ X und Y sind negativ korreliert
Cor(X , Y ) > 0 ⇔ X und Y sind positiv korreliert
Cor(X , Y ) = 0 ⇔ X und Y sind unkorreliert
Beweise der Eigenschaften analog zu den Beweisen der gleichen Eigenschaften für
die empirische Kovarianz und empirische Korrelation.

Cov(X , Y )
Cov(X , Y ) = E[(X − E[X ]) · (Y − E[Y ])] Cor(X , Y ) = p
Var(X ) · Var(Y )
Eigenschaften
(v) X und Y stoch. unabh. ⇒ X und Y unkorreliert
X und Y unkorreliert ⇏ X und Y stoch. unabh.
(vi) Var(X + Y ) = Var(X ) + Var(Y ) + 2 · Cov(X , Y )
(vii) Cov(aX + b, cY + d) = ac · Cov(X , Y )
(viii) Cov(X , X ) = Var(X )
Beweise der Eigenschaften analog zu den Beweisen der gleichen Eigenschaften für
die empirische Kovarianz und empirische Korrelation.

W’keitstheoretische Kennzahlen: Schwaches Gesetz der großen Zahlen
Es gelte: X = (X1 , . . . , XN ), Xi ∼ F X stochastisch unabhängig und identisch
verteilt (u.i.v.) mit E[Xi ] = µ und Var(Xi ) = σ 2 , i = 1, . . . , N.
Dann gilt:
lim P(|X̄ − µ| > ε) = 0
N→∞
Beweis:
N
# " " N # N N
1 X 1 X 1 X 1 X 1
1. E[X̄ ] = E Xi = E Xi = E[Xi ] = µ = Nµ = µ
N N N N N
i=1 i=1 i=1 i=1
N
1 X N N
1 X 1 X
2. Var(X̄ ) = Var Xi = Var Xi = Var(Xi )
N N2 X1 ,...,XN st.u. N2
i=1 i=1 i=1
N
1 X 1 σ2
= σ2 = Nσ 2 =
N2 N 2 N
i=1

W’keitstheoretische Kennzahlen: Schwaches Gesetz der großen Zahlen
Beweis: (Fortsetzung)
Einsetzen in Tschebyscheff-Ungleichung:
Var(X̄ ) σ2
P(|X̄ − E[X̄ ]| > ε) ≤ ⇒ P(|X̄ − µ| > ε) ≤ → 0
ε2 Nε2 N→∞
⇒ lim P(|X̄ − µ| > ε) = 0 □

N→∞
Interpretation:
Wenn wir nur ausreichend viele Realisierungen von Zufallsvariablen nehmen, dann
konvergiert das arithmetische Mittel gegen den Erwartungswert. Dies entspricht
auch unserer Intuition der beiden Größen. Wir können also das arithmetische
Mittel als Schätzer für den Erwartungswert verwenden.
Achtung: Dies gilt nur, wenn die Voraussetzungen erfüllt sind! Die addierten
Zufallsvariablen müssen sowohl der gleichen Verteilung folgen, als auch
gemeinsam stochastisch unabhängig sein.
Markovketten
10 Markovketten 10.1 Theorie
10.1 Markovketten
Zuletzt:
Interpretation von Datensätzen x1 , . . . , xN als Realisation von N unabhängig
identisch verteilten Zufallsvariablen X1 , . . . , XN ,
d.h. P X (Xi |Xj ) = P X (Xi ) für alle i ̸= j
⇒ Vernachlässigung der Reihenfolge, keine Abhängigkeitsstruktur
Jetzt:
Interpretation von Datensätzen x1 , . . . , xN als Realisationen zum Zeitpunkt
i = 1, . . . , N gemessener Zufallsvariablen X1 , . . . , XN mit stochastischer
Abhängigkeit zwischen Variablen zu aufeinanderfolgenden Zeitpunkten, d.h. i.A.
P X (Xn+1 |Xn ) ̸= P X (Xn+1 ).
⇒ Berücksichtigung der Reihenfolge, Formulierung der Abhängigkeitsstruktur
10.1 Markovketten
Stochastischer Prozess:
Eine Familie {Xt : t ∈ T } von auf dem Wahrscheinlichkeitsraum {Ω, A, P}
definierten Zufallsvariablen Xt heißt stochastischer Prozess mit
Parameterbereich T .
Die Realisationsmenge I = {Xt (ω)|ω ∈ Ω, t ∈ T } von X wird Zustandsraum des
Prozesses genannt.
Markovkette:
Eine Markovkette ist ein stochastischer Prozess {Xn : n ∈ N ∪ {0}} mit
abzählbarem Zustandsraum I, der die folgende Markov’sche Eigenschaft besitzt:
Für alle n ∈ N ∪ {0} und alle i0 , i1 , . . . , in+1 ∈ I mit
P(X0 = i0 , X1 = i1 , . . . , Xn = in ) > 0 gilt:
P(Xn+1 = in+1 |X0 = i0 , X1 = i1 , . . . , Xn = in ) = P(Xn+1 = in+1 |Xn = in ).
10.1 Markovketten
Homogene Markovkette
Eine Markovkette {Xn : n ∈ N ∪ {0}} mit Zustandsraum I heißt homogen oder
auch Markovkette mit stationären Übergangswahrscheinlichkeiten pij , wenn
gilt:
P(Xn+1 = i|Xn = j) = pij , ∀i, j ∈ I und ∀n ∈ N ∪ {0}.
10.1 Markovketten
gilt:
10.1 Markovketten
gilt:
Übergangsmatrix
Für eine homogene Markovkette mit endlichem Zustandsraum I = {1, . . . , K }
kann die für jedes Paar (Xn+1 , Xn ) gültige Übergangsmatrix
 
p11 p12 · · · p1K
 p21 p22 · · · p2K 
K ×K
Pn,n+1 = (P[Xn+1 = i|Xn = j])i,j∈I =  . ..  ∈ [0, 1]
 
.. ..
 .. . . . 
pK 1 pK 2 ··· pKK
definiert werden.
10.1 Markovketten
Übergangsmatrix
 
p11 p12 ··· p1K
 p21 p22 ··· p2K 
Pn,n+1 = .
 
.. .. .. 
 .. . . . 
pK 1 pK 2 ··· pKK
Spaltensummen sind jeweils gleich 1, da jede Spalte eine bedingte Verteilung

darstellt:
K
X K
X
pij = P(Xn+1 = i|Xn = j) = P(Xn+1 ∈ I |Xn = j) = 1
i=1 i=1
10.1 Markovketten
Übergangsmatrix
Sei nun die Wahrscheinlichkeitsverteilung des

Zustands zum Zeitpunkt n gegeben durch
10.1 Markovketten
Übergangsmatrix  
pn;1
Sei nun die Wahrscheinlichkeitsverteilung des  pn;2 
pn = (P(Xn = i))i∈I = . 
 
 .. 
pn;K
Nach dem Satz der totalen Wahrscheinlichkeit gilt:
K
X
i = 1, . . . , K ⇒ P(Xn+1 = i) = P(Xn+1 = i|Xn = j) · P(Xn = j)
i=1
10.1 Markovketten
pn;1
pn = (P(Xn = i))i∈I = . 
 
 .. 
pn;K
K
X
i=1
10.1 Markovketten
pn;1
pn = (P(Xn = i))i∈I = . 
 
 .. 
pn;K
K
X
i=1
10.1 Markovketten
pn;1
pn = (P(Xn = i))i∈I = . 
 
 .. 
pn;K
K
X
i=1
10.1 Markovketten
pn;1
pn = (P(Xn = i))i∈I = . 
 
 .. 
pn;K
K
X
i=1
und die Wahrscheinlichkeitsverteilung des Zustands zum Zeitpunkt n + 1 lässt sich

bestimmen durch
  
P(Xn+1 = 1|Xn = 1) ··· P(Xn+1 = 1|Xn = K ) P(Xn = 1)
 . .. .  . 
 = Pn,n+1 pn
pn+1 = (P(Xn+1 = 1))i∈I =
 . . .  .
. .  . 
P(Xn+1 = K |Xn = 1) ··· P(Xn+1 = K |Xn = K ) P(Xn = K )
10.1 Markovketten
Die Wahrscheinlichkeitsverteilung des Zustands zum Zeitpunkt n + 1 lässt sich
bestimmen durch
pn+1 = Pn,n+1 pn
10.1 Markovketten
bestimmen durch
pn+2 = Pn,n+1 pn+1
10.1 Markovketten
bestimmen durch
pn+2 = Pn,n+1 (Pn,n+1 pn )
10.1 Markovketten
bestimmen durch
2
pn+2 = Pn,n+1 pn
10.1 Markovketten
Die Wahrscheinlichkeitsverteilung des Zustands zum Zeitpunkt n + m lässt sich
bestimmen durch
m
pn+m = Pn,n+1 pn
10.1 Markovketten
Die Wahrscheinlichkeitsverteilung des Zustands zum Zeitpunkt n + m lässt sich
bestimmen durch
m
pn+m = Pn,n+1 pn
Falls pn durch die Linksmultiplikation mit der Übergangsmatrix auf sich selbst
abgebildet wird, falls also
pn+1 = Pn,n+1 pn = pn
gilt, so ist pn ein Eigenvektor von Pn,n+1 zum Eigenwert 1 und es gilt:
pn+m = pn ∀m ≥ 1.
Die Wahrscheinlichkeitsverteilung π, für die die Übergangsmatrix P einer

homogenen Markovkette die Bedingung π = Pπ erfüllt, heißt invariante
Wahrscheinlichkeitsverteilung der Markovkette.
10.1 Markovketten
Irreduzibilität
Eine homogene Markovkette heißt irreduzibel, wenn es für alle (i, j) ein l ∈ N mit
l
(Pn,n+1 )ij > 0 gibt.
Irreduzibilität bedeutet also, dass von jedem Zustand nach endlicher Schrittzahl in
jeden Zustand gelangt werden kann.
10.1 Markovketten
Aperiodizität
Der Zustand j einer Markovkette heißt aperiodisch, wenn es ein l ∈ N gibt, so
dass P(Xn+l = j|Xn = j) > 0 und P(Xn+l+1 = j|Xn = j) > 0.
Eine homogene Markovkette heißt aperiodisch, wenn alle ihre Zustände
aperiodisch sind.
10.1 Markovketten
Satz
Eine homogene Markovkette mit Übergangsmatrix c ist aperiodisch und
irreduzibel, falls es ein l gibt, für das (Pn,n+1 )l ausschließlich positive Einträge hat.
Falls π die invariante Wahrscheinlichkeitsverteilung dieser Markovkette ist, so gilt
für alle pn :
(Pn,n+1 )m pn konvergiert für m → ∞ gegen π
Die Konvergenz wird nicht bewiesen, sondern anhand eines Beispiels aufgezeigt.
10.1 Markovketten
10.1 Markovketten
10.1 Markovketten
10.1 Markovketten
10.1 Markovketten
10 Markovketten 10.2 Beispiel Euro-Münze
10.2 Markovketten: Zirkulationsweg einer Euro-Münze

Xn = Aufenthaltsort einer Euro-Münze zum Zeitpunkt n
I = {D,F,I,E,R} = Zustandsraum

I = {D,F,I,E,R}, Übergangswahrscheinlichkeiten pij von n zu n + 1





Konvergenzverhalten für die unterschiedlichen Startverteilungen
11 Schließende Statistik 11.1 Motivation
11.1 Schließende Statistik

Statistik kann unterteilt werden in die Bereiche Beschreibende Statistik“
”
(deskriptive Statistik) und Schließende Statistik“ (Inferenzstatistik)
”
Beschreibende Statistik
▶ Häufigkeitsverteilungen anhand von Datensätzen
▶ Kennzahlen für Lage, Streuung, Zusammenhang
▶ Rückschlüsse aus Datensätzen auf die Parameter der zu Grunde liegenden
wahren Verteilung
▶ Fehlerabschätzungen für diese Rückschlüsse
Hilfsmittel ist die Wahrscheinlichkeitsrechnung
▶ Betrachtung der Grundgesamtheit, statt Datensätze i.i.d. Zufallsvariablen
▶ Parallelen zwischen Kennzahlen und Parametern, die zu Aussagen von
Kennzahlen über Parameter genutzt werden

Bisher:
Teil I: Beschreibende Statistik
Zusammenfassung von an Gesamtheit MN = {e1 , . . . , eN }
erhobenem Datensatz x1 , . . . , xN durch Häufigkeitsverteilung
und Kennzahlen für Lage, Streuung und Zusammenhang
Teil II: Wahrscheinlichkeitstheorie
Auffassung von Datensatz x1 , . . . , xN als Realisationsreihe von
i.i.d. Zufallsvariablen X1 , . . . , XN , Beschreibung der
Wahrscheinlichkeitsverteilung dieser Zufallsvariablen und
Charakterisierung der Verteilung durch Lage, Streuung und
Zusammenhang
Teil III: Schließende Statistik
Rückschlüsse anhand von x1 , . . . , xN auf Charakteristika
θ1 , . . . , θk der unterstellten Wahrscheinlichkeitsverteilung der
datengenerierenden X1 , . . . , XN und Fehlerabschätzung der
Rückschlüsse.
Diese Charakteristika gelten für die Grundgesamtheit, d.h. für
die Menge {e1 , e2 , . . .} aller Merkmalsträger
Punktschätzungen
Schätzung von Verteilungsparameter θ durch
Kennzahl θ̂ = g (x1 , . . . , xN )
Intervallschätzungen
Schätzung eines Intervalls
[θ̂L , θ̂U ] = KI (x1 , . . . , xN ) mit
P( θ ∈ [θ̂L , θ̂U ] ) ≥ 1 − α
Hypothesentests
Entscheidung zwischen H0 : θ ∈ T0 und
H1 : θ ∈ T1 anhand von T ∈ ∆0 oder T ∈ ∆1
mit P(T ∈ ∆1 |θ ∈ T0 ) ≤ α
11 Schließende Statistik 11.2 Punktschätzung
11.2 Punktschätzung
Ziel
Wir haben ein Zufallsexperiment mit dem üblichen Wahrscheinlichkeitsraum
(Ω, A, P), über welches wir Aussagen treffen wollen. Auf dem Zufallsexperiment
haben wir eine Zufallsvariable X definiert, die den uns interessierenden
Sachverhalt beschreibt. Wie ist X verteilt?
Beispiele
Glücksspiel Auf einem Jahrmarkt kaufe ich an einer Losbude 20 Lose,
darunter 5 Gewinne und 15 Nieten. Mit welcher W’keit gewinne ich? Oder:
Wie viele Lose muss ich im Schnitt bis zum nächsten Gewinn kaufen?
HelpDesk Wir bieten einen HelpDesk an, bei dem Fragen zur Vorlesung und
zur Übung gestellt werden können. Der HelpDesk wurde bis jetzt 4 mal
angeboten und dabei jeweils von 4, 2, 3 und 5 Studierenden besucht. Mit
welcher W’keit kommen wie viele Studierende zu einer Sitzung?
Festplatten In meinem Server laufen 10 Festplatten. Die Laufzeiten der
letzten, zu ersetzenden Festplatten betrugen 6, 12, 18, 15 und 32 Monate.
Mit welcher W’keit hält eine Festplatte wie viele Monate?
Schätzfunktionen und das statistische Schätzproblem
Grundidee:
Wir nehmen an, dass die Zufallsvariable X aus einer bekannten Verteilung
stammt, z.B. einer Bernoulli- oder einer Normalverteilung. Die meisten dieser
Verteilungen besitzen offene Parameter (p bei Bernoulli, µ und σ bei
Normalverteilung, allgemein: θ).
Stichprobe:
Wir führen das Zufallsexperiment N mal aus, d.h. wir betrachten Zufallsvariablen
(X1 , ..., XN ) u.i.v. wie X verteilt und mit zugehörigem Beobachtungsvektor
(x1 , ..., xN ). Wir nutzen die Information aus diesen Beobachtungen, um den
Parameter θ zu schätzen.
Schätzfunktionen:
Eine Punktschätzung für den Parameter θ ist jetzt eine beliebige Funktion g mit
θ̂ = g (X1 , ..., XN )
Achtung: Da θ̂ aus Zufallsvariablen berechnet wird, ist θ̂ selbst eine Zufallsvariable.

Schätzfunktionen und das statistische Schätzproblem: Beispiele
In erster Iteration können wir jede beliebige Funktion g als Punktschätzer für θ
verwenden. Beispiele sind:
N
1 X
g (X1 , ..., XN ) = Xi
N
i=1
g (X1 , ..., XN ) = medX (X1 , .., XN )
N
1 X
g (X1 , ..., XN ) = (Xi − X̄ )2
N −1
i=1
g (X1 , ..., XN ) = 5
Offensichtlich sind nicht alle dieser Funktionen in jeder Situation sinnvoll. Wir
brauchen also Eigenschaften, wann ein Punktschätzer ein guter Punktschätzer ist.
Eigenschaften von Schätzstatistiken: Erwartungstreue
Zunächst könnte man von einer Schätzfunktion erwarten, dass diese zumindest
tendenziell den richtigen Wert liefert.
Eine Schätzstatistik θ̂ wird als erwartungstreu bezeichnet, falls sie erfüllt:
h i
E θ̂ = θ
Offensichtlich ist die Schätzfunktion (auch: Schätzstatistik)

h i g (X1 , ..., XN ) = 5 im
allgemeinen nicht erwartungstreu, da hier stets E θ̂ = 5 gilt.
Falls eine Schätzstatistik systematisch daneben liegt, wird dies als Verzerrung
oder auch Bias bezeichnet:
h i
Bias(θ̂) = E θ̂ − θ
Eigenschaften von Schätzstatistiken: Erwartungstreue
Beispiel 1: Arithmetischen Mittel
Das Arithmetische Mittel ist ein erwartungstreuer Schätzer für den
Erwartungswert einer Zufallsvariablen X :
" N
# N N
1 X 1 X 1 X N
E Xi = E (Xi ) = µ= µ=µ
N N N N
i=1 i=1 i=1
Beispiel 2: Stichprobenvarianz
N
1
Die empirische Varianz sx2 := (xi − x̄)2 ist ein erwartungstreuer Schätzer
P
N−1
i=1
für die Varianz einer Zufallsvariablen X : (ohne Beweis)
" N
#
2 1 X
E [sx ] = E (xi − x̄) = σ 2
2
N −1
i=1
1 1
Dies erklärt den Vorfaktor N−1 , der Schätzer mit dem intuitiveren Vorfaktor N ist
entsprechend nicht erwartungstreu.
Eigenschaften von Schätzstatistiken: Asymptotische Erwartungstreue
Beispiel 3:
N−1 2
dx2 = N sx ist entsprechend nicht erwartungstreu, hier liegt eine Verzerrung vor:

2 2 2 N −1 2 N −1 2 1
Bias(dx ) = E [dx ] − σ = E sx − σ 2 = σ − σ2 = − σ2
N N N
Die Varianz wird also tendenziell unterschätzt. Allerdings geht diese

Unterschätzung (Verzerrung) offensichtlich für N → ∞ gegen 0.
Dies motiviert ein alternatives Kriterium: Wir bezeichnen einen Schätzer als
asymptotisch erwartungstreu, falls gilt:
lim E [θ̂ = g (X1 , ..., XN )] = θ

N→∞
Eigenschaften von Schätzstatistiken: Standarfehler einer Schätzstatistik
Eine Schätzstatistik ist eine Zufallsvariable. Wenn wir neue Realisierungen der N
Zufallsvariablen (X1 , ..., XN ) betrachten, ändert sich auch der realisierte Wert der
Schätzstatistik. Und auch wenn eine Schätzstatistik erwartungstreu ist, so gilt
doch zumindest im stetigen Fall:
P(θ̂ = E [θ̂]) = 0
Wie weit ist die Realisierung der Schätzstatistik im Durchschnitt vom

gewünschten Erwartungswert entfernt? Betrachte dazu den Standardfehler, der als
die Standardabweichung des Schätzers definiert ist:
q
σθ̂ = Var (θ̂)
Eigenschaften von Schätzstatistiken: MSE und Konsistenz
Die beiden Eigenschaften Erwartungstreue und Standardfehler lassen sich durch
die mittlere quadratische Abweichung zwischen Schätzstatistik und wahrem
Parameterwert zusammenfassen:
h i h i
MSE (θ̂) = E (θ̂ − θ)2 = E (θ̂ − E [θ̂] + E [θ̂] − θ)2
h i h i h i
= E (θ̂ − E [θ̂])2 + 2E (θ̂ − E [θ̂])(E [θ̂] − θ) + E (E [θ̂] − θ)2
h i
= E (θ̂ − E [θ̂])2 + (E [θ̂] − θ)2 = σθ̂2 + Bias(θ̂)2
Bezeichne weiter eine Schätzstatistik als konsistent (genauer: konsistent im

quadratischen Mittel), falls
lim MSE (θ̂) = 0
N→∞
Konsistenz ist eine Mindestanforderung, die jede Schätzfunktion erfüllen sollte.

Konstruktion von Schätzstatistiken:
Eine Schätzfunktion zu konstruieren ist einfach. Unser Ziel sollte es jedoch sein,
eine gute Schätzfunktion zu konstruieren. Hier gibt es viele verschiedene Ansätze,
die bekanntesten sind:
Maximum Likelihood Schätzung: Nehme als Schätzer den Wert, der mit der
größten Wahrscheinlichkeit die beobachteten Werte erklärt,
Kleinste Quadrate Schätzung: Nehme den Schätzer mit der geringsten
erwarteten quadratischen Abweichung,
Momentenmethode: Ersetze theoretische durch empirische Momente,
Bayes-Schätzung: Verwende den Satz von Bayes.
Wir schauen uns auf den nächsten Folien die Maximum-Likelihood Schätzung ein
wenig genauer an.
Maximum-Likelihood Schätzung:
Seien (X1 , ..., XN ) u.i.v. wie eine Zufallsvariable X mit Verteilung PθX , die von
einem Parameter θ abhängt.
Die gemeinsame Dichtefunktion von (X1 , ..., XN ) ist gegeben als:
N
(X ,...,XN )
Y
fθ 1 (x1 , ..., xN ) = fθX (xi )
i=1
Die zugehörige Likelihood-Funktion L ist gegeben als:

N
(X1 ,...,XN )
Y
L(x1 ,...,xn ) (θ) := fθ (x1 , ..., xN ) = fθX (xi )
i=1
Der Maximum-Likelihood Schätzer für θ ist definiert als:
θ̂ML := arg max L(X1 ,...,XN ) (θ)

θ
Maximum-Likelihood Schätzung: Beispiel: Bernoulli-Verteilung
Sei X ∼ B(1, p) und wir wollen den Parameter p schätzen (d.h. θ = p).
Gemeinsame Dichte
N
Y N
Y
fp(X1 ,...,XN ) (x1 , ..., xN ) = fpX (xi ) = p xi (1 − p)1−xi
i=1 i=1
Likelihood-Funktion
N
Y
L(x1 ,...,xN ) (p) = p xi (1 − p)1−xi
i=1
Zur Bestimmung des Optimums müssen wir jetzt die Ableitung bestimmen und
gleich 0 setzen. Da das Ableiten des Produktes schwierig ist, betrachtet man
stattdessen zumeist die log-Likelihood Funktion logL = log(L). Da der
Logarithmus eine monotone Transformation ist, ändert sich die Stelle des
Optimums nicht, die Rechnung vereinfacht sich zumeist aber deutlich.
log-Likelihood-Funktion
N
Y N
X
logL(x1 ,...,xn ) (p) = log p xi (1 − p)1−xi = xi log p + (1 − xi ) log(1 − p)
i=1 i=1
Ableitung nach dem Parameter, d.h. nach p:

N N N N
∂ X X xi 1 − xi 1X 1 X
xi log p+(1−xi ) log(1−p) = − = xi − (N − xi )
∂p p 1−p p 1−p
i=1 i=1 i=1 i=1
Ableitung gleich 0 setzen

N N N N
1X 1 X X X
xi − (N − xi ) = 0 ⇔ (1 − p) xi = p(N − xi )
p 1−p
i=1 i=1 i=1 i=1
N N N N
X X X 1 X
⇔ xi = pN − p xi + p xi ⇔ xi = x̄ = p
N
i=1 i=1 i=1 i=1
Kandidat für ein Maxmum der Likelihood: x̄
Notwendiges Kriterium: Kandidat in die 2. Ableitung einsetzen
N N N
∂ X 1 X 1 X
x i log p + (1 − x i ) log(1 − p) = − x i + (N − xi )
∂2p p2 (1 − p)2
i=1 i=1 i=1
Zu Zeigen ist: (ohne Beweis)

N N
1 X 1 X
− x i + (N − xi ) < 0
x̄ 2 (1 − x̄)2
i=1 i=1
Wir erhalten also das arithmetische Mittel x̄ der N Beobachtungen als sog.
ML-Schätzer für den Parameter p der Bernoulli-Verteilung. Da hier auch
E (X ) = p gilt, entspricht dies mal wieder unserer Intuition, den Erwartungswert
durch das arithmetische Mittel zu schätzen.
Maximum-Likelihood Schätzung: Beispiel: Exponential-Verteilung
Sei jetzt X ∼ Exp(λ) und wir wollen λ schätzen.
log-Likelihood:
N
Y N
X
logL(X1 ,...,XN ) (λ) = log λe −λxi = log λ − λxi
i=1 i=1
1. Ableitung 0 setzen: Kandidaten für ML-Schätzer bestimmen
N N N N
∂ X X 1 N X 1 1 X 1
log λ−λxi = −xi = 0 ⇔ = xi ⇔ = xi = x̄ ⇔ λ =
∂λ λ λ λ N x̄
i=1 i=1 i=1 i=1
2. Ableitung: Notwendiges Kriterium überprüfen

N
∂ X N
2
log λ − λxi = − 2 < 0
∂ λ λ
i=1
Zusammenfassung:
Fragestellung:
In einem Zufallsexperiment, wie ist X verteilt?
Lösungsansatz:
Verteilungsannahme (z.B. Exponentialverteilung) und Parameter der Verteilung
mit Schätzfunktion schätzen. Viele mögliche Kandidaten für Schätzfunktionen, wir
wollen idealerweise den Besten haben.
Optimalität von Schätzern:
Wir wollen Schätzer, die (asymptotisch) erwartungstreu sind und kleine Varianz
haben. Als besten (effizienten) Schätzer bezeichnen wir denjenigen
erwartungstreuen Schätzer mit kleinster Varianz.
Konstruktion des Schätzers:
Der effiziente Schätzer ist im allgemeinen unbekannt, es gibt jedoch viele
Verfahren um gute Schätzer zu konstruieren. Wir haben das ML-Verfahren kennen
gelernt. Hier lässt sich zumindest zeigen, dass jeder ML-Schätzer konsistent ist.
11 Schließende Statistik 11.3 Das statistische Testproblem
11.3 Das statistische Testproblem

Alternative Fragestellung:
Gegeben eine Zufallsvariable X mit Verteilung PθX zu einem Zufallsexperiment mit
Wahrscheinlichkeitsraum (Ω, A, P). Wir wollen jetzt den Parameter θ nicht nur
schätzen, sondern die Frage beantwortet: Nimmt θ einen bestimmten Wert an?
Beispiele:
Bei einem Mensch-Ärger-Dich-Nicht Spiel würfelt der Gegenüber viele 6-en.
Benutzt er einen gefälschten Würfel, oder hat er einfach nur Glück?
Ist in der Milchtüte tatsächlich exakt 1 Liter Milch?
Die Füllmenge einer Packung ist zufällig (Maschinen arbeiten ungenau).
Keine Packung wird exakt mit 1 Liter befüllt sein (stetiges Merkmal).
Sind die Abweichungen noch im Rahmen, oder sind sie zu groß?
Wirkt ein Impfstoff?
1. Prozess: Ein Mensch lebt sein Leben, ungeimpft.
2. Prozess: Ein Mensch lebt sein Leben, wurde aber geimpft.
Ist die Wahrscheinlichkeit zu erkranken unterschiedlich?

Beispiel: Mensch-Ärger-Dich-Nicht
Nach N = 30 Würfelwürfen haben wir beobachtet, dass unser Mitspieler bereits

12 6-en gewürfelt hat und fühlen uns so langsam betrogen.
Statistische Modellierung der Situation:
Sei X eine Zufallsvariable mit X = 1, wenn eine 6 gewürfelt wurde, und 0 sonst.
Wir wissen bereits: X ist Bernoulli-verteilt, und bei einem fairen Würfel müsste
der Parameter p = 16 sein.
Die Anzahl Y der gewürfelten 6-en ist ebenfalls eine Zufallsvariable, diese ist
Binomial-verteilt, wenn die Xi u.i.v. sind. Wir kennen hier den Erwartungswert
(E [Y ] = Np) und würden daher 30 6 = 5 6-en erwarten. Wir können auch
ausrechnen, mit welcher Wahrscheinlichkeit 12 mal die 6 gewürfelt wird:
Y Y
Pp= 1 (Y = 12) ≈ 0.0015 Pp= 1 (Y ≥ 12) ≈ 0.002
6 6
Und doch bleibt die Frage im Raum: Wurden wir betrogen? Ist der Würfel fair?

Testhypothesen:
Um dies zu überprüfen stellen wir zunächst 2 gegensätzliche Hypothesen auf: Die
Nullhypothese H0 und die Alternativhypothese H1 :
Nullhypothese H0 : Der aktuelle Stand, den wir in unserer Untersuchung
widerlegen möchten,
Alternativhypothese H1 : Unsere Forschungshypothese, die wir im Rahmen
unserer Untersuchen belegen wollen.
Im Mensch-Ärger-Dich-Nicht Beispiel würden wir die Hypothesen entsprechend
formulieren:
H0 : Der Würfel ist fair versus H1 : Der Würfel ist nicht fair
und bezogen auf den Parameter der dahinterliegenden Verteilung
1 1
H0 : p = 6 versus H1 : p ̸= 6

Testentscheidung:
Die Entscheidung zwischen H0 und H1 soll auf Grund einer Stichprobe stattfinden.
Es liegen also Zufallsvariablen (X1 , ..., XN ) und eine zugehörige Stichprobe
(x1 , ..., xN ) vor.
Bestimme als nächstes genauso wie beim Punktschätzen eine Statistik (jetzt
Teststatistik genannt):
T = g (X1 , ..., XN ) und t = g (x1 , ..., xN ), t ∈ R
und Mengen ∆0 ⊂ R und ∆1 ⊂ R mit ∆0 ∩ ∆1 = ∅, ∆0 ∪ ∆0 = R. Der Test trifft

eine Entscheidung für H0 , wenn t ∈ ∆0 und für H1 , wenn t ∈ ∆1 . Mathematisch
bezeichnen wir den Test als Funktion φ : R → {0, 1} mit
(
0, wenn T ∈ ∆0
φ(T ) =
1, wenn T ∈ ∆1
Achtung: Die Formulierung Entscheidung für H0 ist eigentlich falsch.


Testentscheidung: Beispiel Mensch-Ärger-Dich-Nicht
Da wir in unserem Beispiel eine Aussage über die Anzahl gewürfelter 6-en treffen
wollen, bietet es sich an, diese als Teststatistik zu verwenden:
N
X
T = g (X1 , ..., XN ) = Xi
i=1
Wähle weiterhin ∆0 = [2, 10] und

∆1 = R \ ∆0 : Wir finden es noch
realistisch, wenn zwischen 2 und 10 6-en
gewürfelt werden, sobald es mehr (oder
auch weniger!) sind, gehen wir nicht
mehr von einem fairen Würfel aus.
Hier mit t = 12 würden wir uns also für
H1 entscheiden.

Testentscheidung und Fehlerarten
Natürlich sollten die Mengen ∆0 und ∆1 nicht willkürlich gewählt werden.
Zunächst einige Beobachtungen:
1 Das Ergebnis eines statistischen Tests ist eine Zufallsvariable.
Der Test φ ist eine Funktion, die von Zufallsvariablen abhängt, also muss er
selbst auch eine Zufallsvariable sein. Und recht offensichtlich folgt er einer
Bernoulli-Verteilung.
2 Ein Test kann sich falsch entscheiden.
Solange der Parameter p der Verteilung des Testergebnisses nicht 0 oder 1
ist, kann bei jedem Test zufällig eine richtige oder eine falsche Entscheidung
herauskommen.
H0 gilt tatsächlich H1 gilt tatsächlich
Testentscheidung für H0 Richtige Testentscheidung Fehler 2. Art (β-Fehler)

(1. Art)
Testentscheidung für H1 Fehler 1. Art (α-Fehler) Richtige Testentscheidung
(2. Art)

Niveau-α-Test
Idee:
Bestimme ∆0 und ∆1 so, dass niemals Fehler gemacht werden, d.h. α-Fehler und
β-Fehler beide mit W’keit 0 auftreten, oder zumindest möglichst klein sind.
Der Boden der Tatsachen:
Im allgemeinen wird der α-Fehler größer, wenn der β-Fehler kleiner wird und
umgekehrt (ohne Beweis). Beide gleichzeitig zu minimieren bzw. zu kontrollieren
ist nicht möglich. (Zumindest nicht bei Tests mit festem N, auf die wir uns hier
beschränken.)
Na gut, was dann?
Wir können aber immerhin eine der beiden Fehlerarten kontrollieren, hier
entscheiden wir uns willkürlich für den α-Fehler. Wähle die beiden Bereiche ∆0
und ∆1 daher so, dass der α-Fehler maximal α beträgt.
Wir bezeichnen einen entsprechenden Test als Niveau-α-Test.

Der α-Fehler
Es gilt:
P(Fehler 1. Art) = P(Entscheidung fürH1 |H0 gilt tatsächlich)

=P(φ(T ) = 1|H0 ) = P T (T (X1 , ..., XN ) ∈ ∆1 |H0 )
Weiterhin beschränken wir uns auf Tests mit ∆0 = [δl , δr ], wobei entweder
δl = −∞ oder δr = ∞ zulässig ist. Also gilt für den α-Fehler:
!
P(Fehler 1. Art) = P T (δl ≤ T (X1 , ..., XN ) ≤ δr |H0 ) ≤ α
Wir müssen also lediglich die Verteilung der Teststatistik unter der Bedingung,
dass H0 gilt, bestimmen, und können dann die Grenzen δl und δr so bestimmen,
dass der Fehler 1. Art maximal α beträgt.

Der α-Fehler Beispiel: Mensch-Ärger-Dich-Nicht
Zur Erinnerung, unser Testproblem aus dem Beispiel:
1 1
H0 : p = 6 versus H1 : p ̸= 6
Jetzt müssen wir die Verteilung unserer Teststatistik unter H0 bestimmen, und die
Grenzen δl , δr P
so setzen, dass die Wahrscheinlichkeit
P T (δl ≤ T = Xi ≤ δr |H0 : p = 16 ) maximal α beträgt.
Wir wissen bereits, dass T Binomial-verteilt ist, und die Bedingung fordert von
uns lediglich, den Parameter p = 16 zu setzen. Wir können jetzt weiter δl = −∞
setzen, weil wir uns nur dann betrogen fühlen (d.h. uns für H1 entscheiden), wenn
zu viele 6-en fallen. Also: ∆0 = (−∞, δr ] und ∆1 = (δr , ∞). Probiere mehrere δr :
P T (T > 8|H0 ) = 0.0505

P T (T > 9|H0 ) = 0.0197 → Niveau-α-Test
P T (T > 10|H0 ) = 0.0067

Zusammenfassung Beispiel: Mensch-Ärger-Dich-Nicht
Seien X1 , ..., XN u.i.v. ∼ B(1, p). Der Test:
 N
P
0 wenn Xi ≤ 9


i=1
φ(T (X1 , ..., XN )) = N
P
1 wenn Xi > 9


i=1
ist ein Niveau-α-Test zum Niveau α = 5% für das Testproblem:

1 1
H0 : p = 6 versus H1 : p ̸= 6
In unserer Datensituation gilt:

X
φ(t(x1 , ..., xn )) = φ( xi ) = φ(12) = 1
Der Test entscheidet hier für die Alternativhypothese H1 und gegen die
Nullhypothese H0 .

Zusammenfassung Beispiel: Mensch-Ärger-Dich-Nicht
Interpretation
Wenn mindestens 10 6-en gewürfelt werden → Entscheidung für H1 .
Die W’keit, dass diese Entscheidung für H1 falsch war (der α-Fehler), ist
nach Konstruktion kleiner / gleich α = 5%
Die W’keit, dass die umgekehrte Entscheidung ϕ(T ) = 0 falsch ist (β-Fehler),
ist zwar berechenbar, aber nicht kontrolliert und daher beliebig groß.
H0 gilt tatsächlich H1 gilt tatsächlich
Testentscheidung für H0 Richtige Testentscheidung Fehler 2. Art (β-Fehler)

(1. Art)
Testentscheidung für H1 Fehler 1. Art (α-Fehler) Richtige Testentscheidung
(2. Art)
Wir entscheiden uns daher niemals für H0 , weil wir für diese Entscheidung die
Fehlerwahrscheinlichkeit nicht abschätzen können.
Wir sagen daher lediglich: Die Nullhypothese kann (nicht) abgelehnt werden.

Der zweiseitige exakte Binomial-Test
Gegeben seien Zufallsvariablen X1 , ..., XN u.i.v. ∼ B(1, p) und das
Hypothesenpaar:
H 0 : p = p0 versus H1 : p ̸= p0
N
P
Sei T (X1 , ..., XN ) = Xi . Der Test:
i=1
(
0 wenn T ∈ {δl , ..., δr }
φ(T ) =
1 wenn T ∈ {0, ..., δl − 1} ∪ {δr + 1, ..., N}
α
mit δl das 2 -Quantil und δr das 1 − α2 -Quantil der B(N, p0 )-Verteilung, d.h.
α α
δl = min P(T ≤ z) ≥ δr = min P(T ≤ z) ≥ 1 −
z∈{0,...,N} 2 z∈{0,...,N} 2
wird als zweiseitiger exakter Binomial-Test zum Niveau α bezeichnet.

Der zweiseitige exakte Binomial-Test
Beweis:
Zu zeigen ist, dass die W’keit für einen Fehler 1. Art kleiner als α ist.
P(φ(T ) = 1|H0 ) = P(T ∈ {0, ..., δl − 1} ∪ {δr + 1, ..., N}|H0 )

= P(T ∈ {0, ..., δl − 1}|H0 ) + P(T ∈ {δr + 1, ..., N}|H0 )
= P(T < δl |H0 ) + P(T > δr |H0 )
= P(T < δl |H0 ) + 1 − P(T < δr + 1|H0 )
= P(T ≤ δl − 1|H0 ) + 1 − P(T ≤ δr |H0 )
Nach Definition von δl gilt: P(T ≤ δl − 1|H0 ) < α2

Nach Definition von δr gilt: P(T ≤ δr |H0 ) ≥ 1 − α2 ⇔ 1 − P(T ≤ δr |H0 ) ≤ α
2
α α
⇒ P(φ(T ) = 1|H0 ) < + = α
2 2

Der zweiseitige approximative Binomial-Test
Nach dem zentralen Grenzwertsatz wissen wir: Wenn (X1 , ..., XN ) u.i.v., dann
N
X − E [Xi ]
pi
X
ZN = ∼ N(0, 1)
i=1
NVar (Xi ) N→∞
Wir wissen, dass unter H0 gilt Xi ∼ B(1, p0 ), und somit:

N
X − p0 T − Np0
p i
X
ZN = =p ∼ N(0, 1)
i=1
Np0 (1 − p0 ) Np0 (1 − p0 ) N→∞
Während der exaktePBinomial-Test unter der Annahme konstruiert ist, dass die
Test-Statistik T = Xi Binomial-verteilt ist, können wir einen entsprechenden
Test auch mit der Statistik ZN konstruieren, von der wir wissen, dass sie (für
große N) standardnormalverteilt ist.

Der zweiseitige approximative Binomial-Test
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. ∼ B(1, p) sowie:
H0 : p = p0 versus H1 : p ̸= p0
Der Test (
0 wenn ZN ∈ [u α2 , u1− α2 ]
φ(ZN ) =
1 wenn ZN ∈
/ [u α2 , u1− α2 ]
mit uα dem α-Quantil der Standardnormalverteilung wird als approximativer

zweiseitiger Binomial-Test zum Niveau α bezeichnet, weil er das Niveau α
lediglich approximativ einhält.

Einseitige Tests
Bis jetzt haben wir zweiseitige Hypothesen der Art
H0 : θ = θ0 versus H1 : θ ̸= θ0
betrachtet: Wir lehnen H0 ab, wenn die Teststatistik entweder zu groß oder zu
klein ist. Alternativ gibt es auch die einseitigen Hypothesen:
Rechtsseitiger Test: H0 : θ ≤ θ0 versus H1 : θ > θ 0
Linksseitiger Test: H0 : θ ≥ θ0 versus H1 : θ < θ 0
Hier lehnen wir nur ab, wenn die Teststatistik zu klein (groß) ist.
Hier lässt sich die auf H0 bedingte Verteilung nicht mehr direkt angeben, da H0
aus mehr als einem Punkt θ = θ0 besteht. φ ist hier Test zum Niveau α, wenn gilt:
P(φ(T ) = 1|θ = θ̃) ≤ α ∀θ̃ ∈ H0
Es lässt sich zeigen, dass dies gilt, wenn P(φ(T ) = 1|θ = θ0 ) ≤ α ist.

Der einseitige Binomial-Test
Gegeben seien Zufallsvariablen X1 , ..., XN u.i.v. ∼ B(1, p) sowie:
H0 : p ≤ p0 versus H 1 : p > p0 . H0 : p ≥ p0 versus H1 : p < p0 .

Der exakte, rechtsseitige Binomialtest Der exakte, linksseitige Binomialtest
( (
0 wenn T ≤ δr 0 wenn T ≥ δl
φ(T ) = φ(T ) =
1 wenn T > δr , 1 wenn T < δl ,
mit δr dem 1 − α-Quantil der mit δl dem α-Quantil der

B(N, p0 )-Verteilung und B(N, p0 )-Verteilung und
N
P
mit der Teststatistik T (X1 , ..., XN ) = Xi ist ein Niveau-α Test.
i=1
Die Definition des approximativen einseitigen Binomialtest erfolgt entsprechend
mit der Teststatistik ZN und den Quantilen der Standardnormalverteilung.

Der p-Wert
Bei der Durchführung eines statistischen Tests wird häufig nicht nur die
Testentscheidung, sondern zusätzlich noch der sogenannte p-Wert angegeben:
Gegeben Sei ein statistischer Test mit Hypothesenpaar H0 und H1 sowie der
Test-Statistik T mit Realisierung t. Der p-Wert ist definiert als die
Wahrscheinlichkeit, t oder einen noch extremeren Wert zu beobachten.
H0 : θ ≤ θ0 versus H1 : θ > θ 0 H0 : θ ≥ θ0 versus H1 : θ < θ 0

prechts = P(T ≥ t|θ = θ0 ) plinks = P(T ≤ t|θ = θ0 )
Im zweiseitigen Fall ergibt sich der p-Wert als pbeid = 2 · min{prechts , plinks }.
Der p-Wert kann zu einer äquivalenten Definition der Testentscheidung verwendet

werden: Ist der p-Wert kleiner oder gleich α, so kann H0 abgelehnt werden.

Die Güte eines Tests
Für das Testproblem H0 : θ ∈ T0 versus H1 : θ ∈ T1 , welcher Test ist der Beste?
→ Der Test, der am wenigsten Fehler macht.
Der α-Fehler ist bei Niveau-α-Tests immer kleiner / gleich α, ist also
festgesetzt.
Der β-Fehler ist hingegen variabel → kleinere β-Fehler sind besser.
Die Güte eines Tests γ(θ) zu einer gegebenen Teststatistik T (X1 , ..., XN ) ist
definiert als
γ(θ) = E [φθ (T )] = P(φθ (T ) = 1),
d.h. als die W’keit, dass der Test H0 ablehnt gegeben θ. Für θ ∈ H0 ist dies der
α-Fehler, für θ in H1 ist dies 1 minus der β-Fehler.
Nach Definition eines Niveau-α-Tests muss gelten:

γ(θ) ≤ α ∀θ ∈ H0 (bzw. ∈ T0 )

Die Güte eines Tests: Beispiele für Gütefunktionen
Güte eines zweiseitigen Tests Güte eines rechtsseitigen Tests
1.0
1.0
0.8
0.8
0.6
0.6
γ(θ)
γ(θ)
H0 H1
0.4
0.4
H1 H1
0.2
0.2
α = 0.05 α = 0.05
0.0
0.0
H0 H0
θ θ
Der rote Test mit γ(θ0 ) < α schöpft sein Niveau nicht vollständig aus. Er ist
konservativer (H0 wird länger beibehalten) und hat eine schlechtere Güte.
Der lila und der blaue Test sind unverfälscht (γ(θ0 ) = α), die Güte des lila-Tests
ist offensichtlich größer, er hat eine größere Trennschärfe.
11 Schließende Statistik 11.4 Spezielle Testprobleme
11.4 Spezielle Testprobleme

Im restlichen Teil des Kapitel betrachten wir Lösungen für einige oft benötigte
Testprobleme:
Der Ein-Stichproben-Fall:
Es liegt eine einzelne Stichprobe (X1 , ..., XN ) vor und wir wollen wissen, ob
der Erwartungswert größer / kleiner / gleich einem bestimmten Wert ist.
Beispiel: Abfüllmenge Milchpackung
Der Zwei-Stichproben-Fall:
Es liegen zwei Stichproben (X1 , ..., XN ), (Y1 , ..., YM ) vor und wir wollen
wissen, ob der Erwartungswert der einen Stichprobe größer / kleiner / gleich
dem Erwartungswert der anderen Stichprobe ist.
Beispiel: Anzahl Erkrankter mit / ohne Impfung.
Der χ2 -Test:
Der χ2 -Test basiert auf dem χ2 -Koeffizienten aus Kapitel 4 und ist ein sehr
flexibler Test, der sich in unterschiedlichen Situationen einsetzen lässt.
▶ Als Test auf stochastische Unabhängigkeit zweier Merkmale
▶ Als Verteilungstest (z.B. ist X Binomial-verteilt?)

Der Ein-Stichproben-Fall: Beispiel
Betrügt uns unser Milchlieferant und füllt immer ein bisschen zu wenig Milch in
die Flasche? Wir sind paranoid und haben für 10 Flaschen einmal nachgewogen
(Ergebnisse in Millilitern):
989 996 1010 991 1003 1005 998 983 992 972
Modellierung:
Der Abfüllprozess sei das Zufallsexperiment mit zugehörigem
Wahrscheinlichkeitsraum (Ω, A, P). Die Zufallsvariable X mit E [X ] = µ und
Var (X ) = σ 2 gibt an, wie viel Milliliter in eine Flasche abgefüllt werden.
Sicht des Verbrauchers: Unabhängige Sichtweise:

Bekomme ich zu wenig Milch? Wird die korrekte Menge Milch verkauft?
H0 : µ ≥ µ0 versus H1 : µ < µ 0 H0 : µ = µ0 versus H1 : µ ̸= µ0
Um zu überprüfen, ob 1 Liter abgefüllt wird, wäre hier µ0 = 1000.


Zur Entscheidung schauen wir uns wie üblich eine Stichprobe (X1 , ..., XN ) u.i.v.
wie X und zugehörige Beobachtungen (x1 , ..., xN ) an und wollen jetzt einen
statistischen Niveau-α-Test konstruieren.
Die Teststatistik:
Da wir auf den Erwartungswert testen wollen, bietet sich das arithmetische Mittel
X̄ als Teststatistik T an.
Die allgemeine Form des Tests:
Einseitiger Fall Zweiseitiger Fall
( (
0 wenn T ≥ δl 0 wenn δl ≤ T ≤ δr
φ(T ) = φ(T ) =
1 wenn T < δl , 1 sonst ,
Bleibt die Frage nach der Bestimmung von δl und δr .


Die Verteilung der Teststatistik unter H0 ist im allgemeinen unbekannt, wir

müssen also eine geeignete Annahme treffen. Wenn keine weiteren Informationen
vorliegen, neigt man in der Statistik zur Annahme einer Normalverteilung.
Die Verteilung der Teststatistik
2
Bekannt: E [X̄ ] = µ und Var (X̄ ) = σN . Unter der Annahme, dass X ∼ N(µ, σ 2 )
2
gilt, ist daher X̄ ∼ N(µ, σN ). Wir verwenden die normierte Teststatistik:
√ X̄ − µ0
Z= N mit Z ∼ N(0, 1)
σ H0
Als kritische Werte δl und δr ergeben sich daher, wie beim approximativen
Binomialtest, die Quantile der Standardnormal-Verteilung.
Achtung:
Ob die Verteilungsannahme gerechtfertigt ist, sollte (grafisch) überprüft werden.

Der Ein-Stichproben Gauss-Test:
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. ∼ N(µ, σ 2 ) sowie:
H0 : µ ≤ µ0 versus H1 : µ > µ 0 . H0 : µ ≥ µ0 versus H1 : µ < µ0 .

Der rechtsseitige Gauss-Test Der linksseitige Gausstests
( (
0 wenn Z ≤ u1−α 0 wenn Z ≥ uα
φ(Z ) = φ(Z ) =
1 wenn Z > u1−α , 1 wenn Z < uα ,
√ X̄ − µ0
mit der Teststatistik Z (X1 , ..., XN ) = N und uα dem α-Quantil der
σ
Standardnormalverteilung ist ein Niveau-α-Test für das zugehörige Testproblem.

Der Ein-Stichproben Gauss-Test:
H0 : µ = µ0 versus H1 : µ ̸= µ0 .
Der zweiseitige Gauss-Test

(
0 wenn Z ∈ [u α2 , u1− α2 ] ⇔ |Z | ≤ u1− α2
φ(Z ) =
1 wenn Z ∈
/ [u α2 , u1− α2 ] ⇔ |Z | > u1− α2 ,
√ X̄ − µ0
mit der Teststatistik Z (X1 , ..., XN ) = N und uα dem α-Quantil der
σ
Standardnormalverteilung ist ein Niveau-α-Test für das zugehörige Testproblem.
Kritik:
Um den Gauss-Test durchzuführen, muss die wahre Varianz von X bekannt sein,
dies ist in Praxis jedoch in aller Regel nicht der Fall. Die Varianz aus eine
Stichprobe zu schätzen ändert jedoch die Verteilung der Teststatistik.

Die Studentsche t-Verteilung:
Seien (U1 , ..., UN ) und V u.i. standardnormal-
verteilte Zufallsvariablen. Dann folgt
V
Z=s
N
1
Ui2
P
N
i=1
einer t-Verteilung mit N Freiheitsgraden.

Träger: TX = R
Dichtefunktion:
N+1
Γ x 2 −(N+1)/2
2
f (x) = √ · 1+
Nπ · Γ N2 N
Es gilt:
lim Z ∼ N(0, 1)
N→∞

Die Studentsche t-Verteilung:
Die Größe
v
√
u N
X̄ − µ0 u 1 X
Z= N mit sx = t (Xi − X̄ )2
sx N −1
i=1
ist t-verteilt mit N − 1 Freiheitsgraden. Motivation:

√
1 Durch Erweitern mit σ1 steht im Zähler N X̄ −µ σ
0
∼ N(0, 1).
2 Wurzel und Vorfaktor im Nenner passen bereits, auch die Summe der
quadratische Zufallsvariablen. Jeder einzelne Summand muss jetzt noch
standardnormalverteilt sein.
3 Der Erwartungswert jedes Summanden ist µ0 − µ0 = 0.
4 Die Varianz zu bestimmen ist schwerer, da Xi und X̄ nicht st.u. sind, es lässt
sich aber zeigen, dass die Varianz von Xi −
σ
X̄
= 1 ist.
1
P
5 Da gelten muss N Xi = X̄ , ist XN keine Zufallsvariable, sondern
deterministisch. Darum stehen im Nenner nur N − 1 Zufallsvariablen.
⇒ Also erfüllt Z gerade die Voraussetzungen der t-Verteilung der letzten Folie.

Der Ein-Stichproben t-Test
H0 : µ ≤ µ0 versus H1 : µ > µ 0 . H0 : µ ≥ µ0 versus H1 : µ < µ0 .

Der rechtsseitige t-Test Der linksseitige t-Test
( (
0 wenn Z ≤ tN−1,1−α 0 wenn Z ≥ tN−1,α
φ(Z ) = φ(Z ) =
1 wenn Z > tN−1,1−α , 1 wenn Z < tN−1,α ,
X̄ − µ0 √
mit der Teststatistik Z (X1 , ..., XN ) = und tN−1,α dem α-Quantil der
N
sx
Studentschen t-Verteilung mit N − 1 Freiheitsgraden ist ein Niveau-α-Test für das
zugehörige Testproblem.

Der Ein-Stichproben t-Test:
H0 : µ = µ0 versus H1 : µ ̸= µ0 .
Der zweiseitige t-Test

(
0 wenn Z ∈ [tN−1, α2 , tN−1,1− α2 ] ⇔ |Z | ≤ tN−1,1− α2
φ(Z ) =
1 wenn Z ∈
/ [tN−1, α2 , tN−1,1− α2 ] ⇔ |Z | > tN−1,1− α2 ,
X̄ − µ0 √
mit der Teststatistik Z (X1 , ..., XN ) = N
und tN−1,α dem α-Quantil der
sx
Studentschen t-Verteilung mit N − 1 Freiheitsgraden ist ein Niveau-α-Test für das
zugehörige Testproblem.
Für N > 30 können die Quantile der t-Verteilung durch die Quantile der
Standardnormalverteilung ersetzt werden.

Der Ein-Stichproben t-Test: Beispiel
Kommen wir zurück zum Milchtütenbeispiel, zur Erinnerung die Daten:
989 996 1010 991 1003 1005 998 983 992 972
Es gilt:
√ 993.9 − 1000
x̄ ≈ 993.9, sx ≈ 11, Z= 10 ≈ −1.75
11
Das entsprechende Quantil ist t9,0.05 = −1.83. Die Teststatistik ist größer als der
kritische Wert, also kann der Test zum Niveau α = 5% nicht ablehnen, dass in
den Milchtüten weniger als 1 Liter enthalten ist.
Alternativ beträgt der p-Wert hier 0.108. Wenn wir den Test zum Niveau α = 0.11
ausgeführt hätten, hätten wir ablehnen können. Ein nachträgliches Ändern des
Niveaus, um das gewünschte Testergebnis zu erhalten, ist jedoch nicht erlaubt.

Der Ein-Stichproben t-Test: Diskussion und Rechtfertigung
Es kann gezeigt werden, dass der t-Test unter seinen Voraussetzungen der
beste Test ist, d.h. die größte Güte besitzt.
Die Normalverteilungsannahme ist stets kritisch zu hinterfragen. Auf Grund
des zentralen Grenzwertsatzes konvergiert die Verteilung der Test-Statistik
aber gegen eine Standardnormalverteilung, daher kann der Test bei großem N
(je nach Anwendung, N ≥ 30) in der Regel bedenkenlos eingesetzt werden.
Die Annahmen der unabhängigen und identischen Verteilung sind deutlich
kritischer zu sehen und auch schwerer zu überprüfen. In der Praxis übergeht
man diese Annahmen daher häufig und hofft das Beste.
Falls eine andere Verteilung von X angenommen wird, kann ein
entsprechender Test unter dieser Annahme konstruiert werden.
Es ist auch möglich, Tests ohne die Annahme einer Verteilung zu
konstruieren. Eine sogenannte nicht-parametrische Alternative schauen wir
uns jetzt an.

Nicht-parametrische Alternativen:
Auch wenn der zentrale Grenzwertsatz den Einsatz des t-Tests oftmals
rechtfertigt, sind Verteilungsannahmen immer kritisch zu sehen. Daher schauen
wir uns jetzt eine Alternative an, die keine bestimmte Verteilung voraussetzt.
Idee:
Wenn der Median der Stichprobe µ0 sein soll, sollten im Erwartungswert gleichviele
Beobachtungen größer und kleiner als µ0 sein. Wenn zu viele Beobachtungen
größer bzw. kleiner als µ0 sind, lehne entsprechende Nullhypothesen ab.
Xi 989 996 1010 991 1003 1005 998 983 992 972
Xi > 1000 - - + - + + - - - -
Wende jetzt einen Binomialtest mit p0 = 0.5 an. Der auf dieser Idee basierende
Test (Vorzeichentest genannt) besitzt eine schlechte Güte, da nur wenig
Information aus den Daten verwendet wird. Wir schauen uns daher direkt die
Erweiterung an, den Wilcoxon-Vorzeichen-Rang-Test.

Wilcoxon-Vorzeichen-Rang-Test: Die Teststatistik
Idee
Zähle nicht nur, wie viele Beobachtungen größer / kleiner als µ0 sind, sondern
beziehe auch die Ränge der absoluten Abstände zu µ0 mit ein.
1 Berechne die Differenzen Di = Xi − µ0 , i = 1, ..., N
2 Bilde die Beträge der Differenzen |D1 |, ..., |DN |
3 Ordne den betragsmäßigen Differenzen von klein nach groß Ränge R(|Di |) zu
4 Bestimme die Teststatistik
N
(
+
X 1 wenn Di > 0
W = R(|Di |)Vi mit Vi =
i=1
0 wenn Di < 0

Wilcoxon-Vorzeichen-Rang-Test: Die Teststatistik
Falls µ0 tatsächlich der Median von X ist, ist Vi ∼ B(1, 0.5), entsprechend wird
jeder Rang mit W’keit 50% zu W + gezählt. Entsprechend ist
N N
1X 1X n(n + 1)
E [W + ] = R(|Di |) = i=
2 2 4
i=1 i=1
Weicht W + zu stark von seinem Erwartungswert ab, wird H0 abgelehnt.

Die Verteilung von W + kann durch Permutation aller möglichen Ergebnisse
bestimmt werden und ist für kleine N vertafelt (in Büchern abgedruckt, in
Software hinterlegt). Für N > 20 greift wieder der Zentrale Grenzwertsatz, es gilt

+ N(N + 1) N(N + 1)(2N + 1)
W ∼ N , .
appr . 4 24

Wilcoxon-Vorzeichen-Rang-Test:
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. wie X mit Median med(X ). Sei
X metrisch skaliert und symmetrisch verteilt mit stetiger Verteilungsfunktion,
sowie
H0 : med(X ) ≤ µ0 vs. H1 : med(X ) > µ0 . H0 : med(X ) ≥ µ0 vs. H1 : med(X ) < µ0 .
Der rechtsseitige Die linksseitige

Wilcoxon-Vorzeichen-Rang-Test Wilcoxon-Vorzeichen-Rang-Test
( (
+
+ 0 wenn W + ≤ w1−α + 0 wenn W + ≥ wα+
φ(W ) = + φ(W ) =
1 wenn W + > w1−α , 1 wenn W + < wα+ ,
mit der Teststatistik W + wie zuvor definiert und wα+ dem vertafelten α-Quantil
der Verteilung von W + ist ein Niveau-α-Test für das zugehörige Testproblem.

Wilcoxon-Vorzeichen-Rang-Test:
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. wie X mit Median med(X ). Sei
X metrisch skaliert und symmetrisch verteilt mit stetiger Verteilungsfunktion,
sowie
H0 : med(X ) = µ0 versus H1 : med(X ) ̸= µ0 .
Der zweiseitige Wilcoxon-Vorzeichen-Rang-Test

(
+
0 wenn W + ∈ [w + α,w
+
1− α ]
φ(W ) = +
2
+ +
2
1 wenn W ∈ / [w α , w1− α ],
2 2
mit der Teststatistik W + wie zuvor definiert und wα+ dem vertafelten α-Quantil
der Verteilung von W + ist ein Niveau-α-Test für das zugehörige Testproblem.
Für N > 20 können die Quantile der vertafelten
Verteilung durch die Quantile der
N(N+1) N(N+1)(2N+1)
Normalverteilung N 4 , 24 ersetzt werden.

Wilcoxon-Vorzeichen-Rang-Test: Beispiel
Kommen wir zurück zum Milchtütenbeispiel:
Xi 989 996 1010 991 1003 1005 998 983 992 972
|Di | 11 4 10 9 3 5 2 17 8 28
R(|Di |) 8 3 7 6 2 4 1 9 5 10
Vi 0 0 1 0 1 1 0 0 0 0
10 · 11
W + = 7 + 2 + 4 = 13 E [W + ] = = 27.5
4
+
Das vertafelte Quantil ist w0.05 = 11, die Nullhypothese kann also nicht abgelehnt
werden.
Softwarepakete können auch für den Wilcoxon-Vorzeichen-Rang-Test einen
p-Wert bestimmen, hier ergibt sich ein p-Wert von 0.16.

Wilcoxon-Vorzeichen-Rang-Test: Diskussion
Auch wenn der Wilcoxon-Vorzeichen-Rang-Test ein nicht-parametrischer Test

ist und daher keine Verteilungsannahme voraussetzt, so hat der Test dennoch
Annahmen und Voraussetzungen, die erfüllt sein müssen.
Der Wilcoxon-Vorzeichen-Rang-Test testet auf den Median einer Verteilung,
nicht auf den Erwartungswert. Dies ist bei symmetrischen Verteilungen mit
existierendem Erwartungswert identisch, allerdings nur bei diesen.
Bei vorliegender Normalverteilung hat der Wilcoxon-Vorzeichen-Rang-Test
eine geringere Güte als der t-Test. Bei Abweichungen von der
Normalverteilung sind beide Tests ähnlich gut und kommen oft (aber nicht
immer!) zu ähnlichen Ergebnissen.
Ob man einen t-Test oder einen Wilcoxon-Vorzeichen-Rang-Test bevorzugt,
ist teilweise Geschmackssache und von Fachkultur zu Fachkultur
unterschiedlich.
Kritische Werte sind vertafelt, allerdings nur für den Fall ohne Bindungen
(d.h. Beobachtungen mit identischem Rang). Liegen Bindungen vor, so gibt
es korrigierte kritische Werte, die in üblicher Software hinterlegt sind.

Der Zwei-Stichproben-Fall: Beispiel
Geschmackstest
Unsere örtliche Pizzeria möchte eine neue Pizza Y einführen, allerdings nur, wenn
diese besser schmeckt als der bisherige Bestseller Pizza X . Zwei Gruppen von
Versuchspersonen bewerten den Geschmack je einer der beiden Pizzen auf einer
Skala 1 bis 10. Jede Person probiert entweder Pizza X oder Pizza Y . Wir
beobachten die Werte:
Bewertung Pizza X 6.6 3.2 8.0 3.1 1.4 6.4

Bewertung Pizza Y 4.8 9.8 4.3 8.9
Schmeckt die neue Pizza besser als die alte? Formuliert als statistisches
Testproblem:
H0 : X schmeckt besser versus H1 : Y schmeckt besser.

Der Zwei-Stichproben-Fall: Modellierung
Wir haben den üblichen Wahrscheinlichkeitsraum (Ω, A, P) und dieses mal 2

stochastisch unabhängige Zufallsvariablen X mit E [X ] = µX , Var (X ) = σX2 und
Y mit E [Y ] = µY , Var (Y ) = σY2 . Weiterhin liegen Zufallsvariablen (X1 , ..., XN )
u.i.v. wie X sowie (Y1 , ..., YM ) u.i.v. wie Y vor.
Einseitige Hypothesen:
H0 : µX − µY ≤ δ0 versus H1 : µX − µY > δ0 ,
H0 : µX − µY ≥ δ0 versus H1 : µX − µY < δ0 .
Zweiseitige Hypothese:
H0 : µX − µY = δ0 versus H1 : µX − µY ̸= δ0 .
Im relevanten Spezialfall δ0 = 0 Testen wir auf Ungleichheit der Erwartungswerte.


Der Zwei-Stichproben-Fall: Teststatistik
Da wir hier eine Aussage über die Differenz der Erwartungswerte treffen wollen,
bietet es sich an, diese als Teststatistik zu verwenden. Eine Normalisierung ist
notwendig, damit wir zu einer bekannten Verteilung kommen:
X̄ − Ȳ − δ0
Z= r
sX2 s2
+ Y
N M
Falls X und Y Normalverteilt sind, ist die Teststatistik nach ähnlichen

Argumenten wie im Ein-Stichproben-Fall t-verteilt, hier mit Freiheitsgraden k
$ 2 2 2 2 2 !%
sX2 sY2 1 sX 1 sY
k= + + .
N M N −1 N M −1 M
Für N, M ≥ 30 konvergiert die t-Verteilung gegen eine N(0, 1)-Verteilung.
Ohne Normalverteilungsannahme hilft uns der zentrale Grenzwertsatz und wir
können für N, M ≥ 30 ebenfalls mit der N(0, 1)-Verteilung arbeiten.

Der Zwei-Stichproben t-Test
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v wie X ∼ N(µX , σX2 ), (Y1 , ..., YM )
u.i.v. wie Y ∼ N(µY , σY2 ), sowie X und Y st.u. sowie:
H0 : µX − µY ≤ δ0 vs. H1 : µX − µY > δ0 , H0 : µX − µY ≥ δ0 vs. H1 : µX − µY < δ0 .
Der rechtsseitige Zwei-Stichproben t-Test Die linksseitige Zwei-Stichproben t-Test

( (
0 wenn Z ≤ tk,1−α 0 wenn Z ≥ tk,α
φ(Z ) = φ(Z ) =
1 wenn Z > tk,1−α , 1 wenn Z < tk,α ,
mit Teststatistik Z und tk,α dem α-Quantil aus der t-Verteilung mit k
Freiheitsgraden wie auf auf der letzten Folie angegeben ist ein Niveau-α-Test für
das zugehörige Testproblem.

Der Zwei-Stichproben t-Test:
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. wie X ∼ N(µX , σX2 ),
(Y1 , ..., YM ) u.i.v. wie Y ∼ N(µY , σY2 ), sowie X und Y st.u. sowie:
H0 : µX − µY = δ0 vs. H1 : µX − µY ̸= δ0 .
Der zweiseitige Zwei-Stichproben t-Test

(
0 wenn Z ∈ [tk, α2 , tk,1− α2 ] ⇔ |Z | ≤ tk,1− α2
φ(Z ) =
1 wenn Z ∈ / [tk, α2 , tk,1− α2 ] ⇔ |Z | > tk,1− α2 ,
mit Teststatistik Z und Quantilen tk,α dem α-Quantil aus der t-Verteilung mit
mit k Freiheitsgraden wie auf auf der vorletzten Folie angegeben ist ein
Niveau-α-Test für das zugehörige Testproblem.

Der Zwei-Stichproben-Fall: Beispiel Geschmackstest
Die Zufallsvariable X beschreibt den Geschmack von Pizza X , Y den von Pizza
Y . Das Testproblem lautet:
H0 : µX − µY ≥ 0 vs. H1 : µX − µY < 0.
Bei den gegebenen Daten
Bewertung Pizza X 6.6 3.2 8.0 3.1 1.4 6.4

Bewertung Pizza Y 4.8 9.8 4.3 8.9
ergibt sich:
x̄ ≈ 4.8, ȳ ≈ 6.95, sx ≈ 2.57, sy ≈ 2.8, Z ≈ −1.23, k = ⌈6.1⌉
Mit dem entsprechenden Quantil t7,0.05 = −1.89 kann die Nullhypothese somit
nicht abgelehnt werden, der p-Wert ist 0.26.

Der Zwei-Stichproben-Fall: Nicht-parametrische Alternative
Auch im Zwei-Stichproben-Fall bietet der Wilcoxon-Test uns eine

nicht-parametrische Alternative. Die Idee ist dabei wieder, sich die Ränge der
Beobachtungen zu betrachten.
1 Erstelle die gemeinsame Stichprobe (X , Y )
2 Sortiere die gemeinsame (gepoolte) Stichprobe und vergebe Ränge R.
3 Bestimme die Teststatistik
N N+M
(
X X 1 Beobachtung mit Rang i gehört zu X
TW = R(Xi ) = iVi , Vi :=
i=1 i=1
0 Beobachtung mit Rang i gehört zu Y
Betrachte also die Rangsumme der Beobachtungen von X in der kombinierten
Stichprobe. Quantile der zugehörigen Verteilung sind wieder vertafelt, für
N, M > 25 ist eine Approximation möglich:

N(N + M + 1) NM(NM + 1)
TW ∼ N , .
appr 2 12

Der Wilcoxon-Rangsummen-Test
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. wie X mit Median med(X ) und
stetiger Verteilungsfunktion (Y1 , ..., YM ) u.i.v. wie Y mit Median med(y ) und
stetiger Verteilungsfunktion, X und Y st.u. sowie:
H0 : med(X ) ≤ med(Y ) vs. H0 : med(X ) ≥ med(Y ) vs.
H1 : med(X ) > med(Y ), H1 : med(X ) < med(Y ),
Der rechtsseitige Die linksseitige

Wilcoxon-Rangsummen-Test Wilcoxon-Rangsummen-Test
( (
0 wenn TW ≤ w1−α 0 wenn TW ≥ wα
φ(TW ) = φ(TW ) =
1 wenn TW > w1−α , 1 wenn TW < wα ,
mit Teststatistik TW wie auf der letzten Folie und Quantilen wα aus der
vertafelten Verteilung ist ein Niveau-α-Test für das zugehörige Testproblem.

Der Wilcoxon-Rangsummen-Test
Gegeben seien Zufallsvariablen (X1 , ..., XN ) u.i.v. wie X mit Median med(X ) und
stetiger Verteilungsfunktion (Y1 , ..., YM ) u.i.v. wie Y mit Median med(y ) und
stetiger Verteilungsfunktion, X und Y st.u. sowie:
H0 : med(x) = med(Y ) vs. H1 : med(X ) ̸= med(Y ).
Der zweiseitige Zwei-Stichproben t-Test

(
0 wenn TW ∈ [w α2 , w1− α2 ]
φ(TW ) =
1 wenn TW ∈
/ [w α2 , w1− α2 ],
mit Teststatistik TW wie auf der letzten Folie und Quantilen wα aus der
vertafelten Verteilung ist ein Niveau-α-Test für das zugehörige Testproblem.

Der Zwei-Stichproben-Fall: Beispiel Geschmackstest
Kommen wir zurück zu dem Beispiel, mit dem Wilcoxon-Test können wir
überprüfen:
H0 : med(X ) ≥ med(Y ) vs. H1 : med(X ) < med(Y ).
Bei den gegebenen Daten
Bewertung 6.6 3.2 8.0 3.1 1.4 6.4 4.8 9.8 4.3 8.9
Pizza X X X X X X Y Y Y Y
Rang 7 3 8 2 1 6 5 10 4 9
ergibt sich:
TW = 7 + 3 + 8 + 2 + 1 + 6 = 27
Der vertafelte kritische Wert ist hier 25, es kann also nicht abgelehnt werden. Der
p-Wert beträgt 0.26.

Der Zwei-Stichproben-Fall: Beispiel 2
An der Wirksamkeitsstudie des Impfstoffes von Biontech-Pfizer 2020 haben 43 000

Menschen teilgenommen, je die Hälfte davon in der Impfgruppe und in der
Kontrollgruppe. In der Impfgruppe gab es 8 Corona-Fälle, in der Kontrollgruppe
162 Fälle. Unterscheidet sich die Erkrankungswahrscheinlichkeit?
X: Erkrankungswahrscheinlichkeit für Person der Kontrollgruppe
Y: Erkrankungswahrscheinlichkeit für Person der Impfgruppe
Da wir hier Bernoulli-Verteilungen vorliegen haben, gilt E [X ] = px , E [Y ] = py .
H0 : px ≤ py versus H1 : px > py
Auf Grund des großen Stichprobenumfangs greift hier trotz vorliegender

Bernoulli-Verteilung die approximative Normalverteilung der Teststatistik und wir
können den Zwei-Stichproben-t-Test einsetzen.

Der Zwei-Stichproben-Fall: Beispiel 2
Gruppe Positiv Negativ Mittelwert Standardabweichung

Impfstoff 8 21 492 0.4e-3 0.02
Kontrolle 162 21 338 7.5e-3 0.08
Die Teststatistik Z ergibt sich somit zu

X̄ − Ȳ
Z=r ≈ 11.8.
sX2 sY2
+
N M
Auf Grund des hohen Stichprobenumfangs vergleichen wir mit dem Quantil der
Standardnormalverteilung: u0.95 = 1.64, wir können hier also ziemlich deutlich
ablehnen. Der p-Wert ist numerisch fast 0.
Wir können hier also ziemlich sicher sagen, dass nach den veröffentlichten Daten
der Impfstoff auch tatsächlich wirkt, d.h. die W’keit für eine Infektion reduziert.

Verbundene Stichproben
Unsere Pizzeria ärgert sich über die Ergebnisse der 1. Studie und will eine 2.
Studie nachlegen, weil Pizza Y doch wirklich offensichtlich besser schmeckt:
Vielleicht konnte ja nur nichts nachgewiesen werden, weil die Personen für Pizza
Y den Geschmack einer Pizza generell schlechter bewerten?
Neuer Aufbau:
6 Testpersonen essen in zufälliger Reihenfolge erst ein Stück der einen, dann ein
Stück der anderen Pizza und geben eine Bewertung auf der Skala von 1 bis 10 ab.
Testperson 1 2 3 4 5 6
Pizza X 2.3 2.4 4.6 7.8 4.7 5.2
Pizza Y 5.0 2.3 6.1 9.0 5.4 5.7
Und jetzt ein t-Test?

Offensichtlich sind Xi und Yi jetzt jeweils stochastisch abhängig, daher können wir
den 2-Stichproben-t-Test nicht einsetzen.

Wird die i-te Beobachtung jeweils am gleichen Versuchsobjekt durchgeführt, so

spricht man in der Statistik von verbundenen Stichproben.
Ausweg:
Bilde die Differenzen Di = Xi − Yi . Waren die (X1 , ..., XN ) und die (Y1 , ..., YN )
jeweils st.u., so sind auch die Di st.u.. Damit können wir sämtliche Tests aus dem
Bereich des Ein-Stichproben-Falls einsetzen.
Die Testhypothesen übersetzen sich entsprechend, so wird z.B.
H0 : µX ≥ µy vs. H1 : µX < µy
zu
H0 : µD ≥ 0 vs. H1 : µD < 0.

Differenz-Stichprobe D bestimmen und Teststatistik ausrechnen:
Testperson 1 2 3 4 5 6
Pizza X 2.3 2.4 4.6 7.8 4.7 5.2
Pizza Y 5.0 2.3 6.1 9.0 5.4 5.7
di -2.7 0.1 -1.5 -1.2 -0.7 -0.5
√ d¯
d¯ ≈ −1.1 6 ≈ −2.7
sd ≈ 0.97 z =
sd
Das entsprechende Quantil ist t5,0.05 ≈ −2.02 ist größer als die Teststatistik,
daher kann die Nullhypothese in diesem Fall abgelehnt werden.
Annahmen überprüfen:
Sind die Di normalverteilt? Da N < 30 brauchen wir dies für den t-Test.
Dies ist bei 6 Beobachtungen schwer zu überprüfen, es gibt zumindest keine
starken Ausreißer, daher ist die Annahme vertretbar.
Alternativ könnte man hier einem Wilcoxon-Vorzeichenrang-Test
durchführen, der in diesem Fall nur einen p-Wert von 0.0625 erreicht.

Die χ2 -Verteilung und ihre Anwendungen
Zum Abschluss des Kapitels über schließende Statistik und statistische
Testprobleme betrachten wir noch Tests auf Basis der χ2 -Verteilung.
Die Grundidee dieser Tests ist es jeweils, Zählstatistiken (d.h. absolute
Häufigkeiten) zu betrachten und mit zugehörigen erwarteten Häufigkeiten unter
einer Nullhypothese zu vergleichen. Sind die Abweichungen zu groß, kann jeweils
abgelehnt werten, dass beobachtete und erwartete Häufigkeiten
zusammengehören.
Diese grundlegende Idee kann verwendet werden, um verschiedene statistische
Tests zu definieren:
1 χ2 -Anpassungstest: Kommt eine Stichprobe aus einer gegebenen Verteilung?
2 χ2 -Homogenitätstest: Kommen k Stichproben aus der gleichen Verteilung?
3 χ2 -Unabhängigkeitstest: Sind 2 Stichproben stochastisch unabhängig?

Wichtige Wahrscheinlichkeitsverteilungen: Die χ2 -Verteilung
Seien (U1 , ..., Uf ) u.i. standardnormal-
verteilte Zufallsvariablen. Dann folgt
f
X
Z= Ui2
i=1
einer χ2 -Verteilung mit f

Freiheitsgraden.
Träger: TX = [0, ∞)
Dichtefunktion:
1
f (x) = t f /2−1 e −x/2
2f /2 Γ(f /2)
Für f > 100 entspricht die χ2f -Verteilung

näherungsweise einer x
N(f , 2f )-Verteilung.

Die χ2 -Verteilung: Der χ2 -Koeffizient
Erinnerung an Kapitel 4, der gleiche Name ist natürlich kein Zufall:
J X
K
χ2 = , vjk =
vjk N
j=1 k=1
Allgemeiner gilt: Sei (Ω, A, P) der übliche Wahrscheinlichkeitsraum und X eine

diskrete Zufallsvariable mit Ausprägungen X (1), ..., X (f ), und weiter (X1 , ..., XN )
verteilt wie X .
N
P
Seien Hj = IXi =j ∀j = 1, ..., f Zufallsvariablen der absoluten Häufigkeiten der
i=1
einzelnen Ausprägungen von X . Dann gilt für die Teststatistik:
f
X (Hi − E [Hi ])2
χ2 = ∼ χ2f −1 .
E [Hi ] approx
i=1
(Der Beweis führt über die Multinomialverteilung der Hi und ist länglich.)

Die χ2 -Anpassungstest: Beispiel
Wir gehen zurück zum Mensch-Ärger-Dich-Nicht Beispiel. Diesmal zählen wir
jedoch sämtliche Ergebnisse von 100 Würfen und nicht nur die 6-en:
Augenzahl 1 2 3 4 5 6
Absolute Häufigkeit 16 13 14 15 20 22
Uns plagt weiterhin die Frage: Ist der Würfel fair?

Im Erwartungswert wären das für jede Augenzahl E [Hi ] = 100
6 ≈ 16.7. Sind die
Abweichungen zu groß, um einen fairen Würfel zu rechtfertigen?
Sei X eine Zufallvariable mit X = Anzahl Augen gewürfelt. Wenn der Würfel fair
ist, gilt P(X = 1) = ... = P(X = 6) = 61 . Als Testproblem erhalten wir:
1 1
H0 : P(X = i) = 6 ∀i versus. H1 : P(X = i) ̸= 6 für mindestens ein i

Die χ2 -Anpassungstest: Die Teststatistik
Allgemeiner formuliert ist das Testproblem für (p1 , ..., pf ) ∈ [0, 1]f ,
P
pi = 1:
H0 : P(X = i) = pi ∀i versus. H1 : P(X = i) ̸= pi für mindestens ein i
Die Hi sind gemeinsam multinomialverteilt, somit gilt E [Hi ] = Npi , i = 1, ..., f

und der χ2 -Koeffizient ergibt sich zu
f
X (Hi − Npi )2
χ2 (X1 , ..., XN ) = ∼ χ2f −1 .
Npi
i=1
Wir summieren über die quadratischen Abweichungen zwischen erwarteten

Häufigkeiten und beobachteten Häufigkeiten. Je größer die Abweichungen sind,
desto unwahrscheinlicher ist es, dass die angenommenen erwarteten Häufigkeiten
(und damit die pi ) wahr sind.

Der χ2 -Anpassungstest:
Sei (Ω, A, P) der übliche Wahrscheinlichkeitsraum und X eine diskrete
Zufallsvariable mit Ausprägungen X (1), ..., X (f ), und weiter sei (X1 , ..., XN )
verteilt wie X , sowie das Testproblem
H0 : P(X = i) = pi ∀i versus. H1 : P(X = i) ̸= pi für mindestens ein i
für (p1 , ..., pf ) ∈ [0, 1]f , pi = 1. Der χ2 -Anpassungstest

P
(
0 wenn χ2 ≤ χ2f −1,1−α
φ(χ2 ) =
1 wenn χ2 > χ2f −1,1−α
mit der Teststatistik χ2 (X1 , ..., XN ) wie auf der vorangegangenen Folie und
χ2f −1,1−α dem 1 − α-Quantil der χ2 -Verteilung mit f − 1 Freiheitsgraden ist ein
Niveau-α-Test für das zugehörige Testproblem.

Die χ2 -Anpassungstest: Beispiel
Zurück zum Beispiel mit dem fairen Würfel, hier ergibt sich für die Teststatistik
mit Npi = 100
6 ≈ 16.7:
Augenzahl 1 2 3 4 5 6
hi 16 13 14 15 20 22
(hi − Npi ) -0.7 -3.7 -2.7 -1.7 3.3 5.3
1
χ2 = (−0.7)2 + (−3.7)2 + (−2.7)2 + (−1.7)2 + (3.3)2 + (5.3)2 = 3.8
16.7
Das entsprechende Quantil der χ2 -Verteilung ist χ20.95,5 = 11.07, entsprechend

kann die Nullhypothese hier nicht abgelehnt werden. Der p-Wert ist 0.58.
Es spricht also nichts gegen die Annahme eines fairen Würfels.

Die χ2 -Anpassungstest: Diskussion
Die approximative Verteilung der χ2 -Statistik greift nur, wenn Npi > 1 ∀i und
Npi ≥ 5 für mindestens 80% der i.
Da letztlich jede diskrete Verteilung mit endlichem Träger durch einen Vektor
von Ausprägungswahrscheinlichkeiten (p1 , ..., pf ) spezifiziert werden kann,
kann mit dem χ2 -Test auf das Vorliegen beliebiger solcher Verteilungen
getestet werden.
Falls der Träger unendlich ist, betrachtet man lediglich die f − 1
Ausprägungen mit größter Auftrittswahrscheinlichkeit, und fasst die übrigen
Ausprägungen in einer Restklasse zusammen.
Stetige Verteilungen können nach Klassierung ebenfalls getestet werden.
Wir setzen hier die Eigenschaft, die wir zeigen wollen (X ist verteilt nach
(p1 , ..., pf )) unter die Nullhypothese. Wir können also nicht zeigen, dass diese
Verteilung gilt, wir können Sie höchstens ablehnen. Dies ist nötig, da wir
andererseits die Verteilung der Statistik unter der Hypothese ’X ist nicht
nach (p1 , ..., pf ) verteilt’ angeben müssten.

Die χ2 -Homogenitätstest: Beispiel
Bei einem Fahrradhändler können 4 verschiedene Typen Fahrräder gekauft werden:
BMX, Mountain Bike, City-Rad und Tandem. Drei Filialen des Fahrradhändlers
wollen vergleichen, ob die Verteilung der verkauften Räder an den
unterschiedlichen Standorten identisch ist. Dazu betrachten sie die Verkaufszahlen
der letzten 2 Monate:
Standort BMX Mountain Bike City-Rad Tandem
A 60 54 48 6
B 51 39 27 6
C 55 68 93 20
Seien X A , X B , X C Zufallsvariablen, die die Verkaufsverteilungen in den jeweiligen

Filialen angeben. Wir wollen testen:
H0 : P(X A = j) = P(X B = j) = P(X C = j) ∀j ∈ {BMX, MB, City-Rad, Tandem}
versus
H1 : P(X i1 = j) ̸= P(X i2 = j) für mindestens ein i1 , i2 ∈ {A, B, C} und
j ∈ {BMX, MB, City-Rad, Tandem}

Die χ2 -Homogenitätstest:
Seien k diskrete Zufallsvariablen X 1 , ..., X k mit identischem Träger mit m
Ausprägungen gegeben. Sind die Verteilungen dieser k Zufallsvariablen identisch?
Betrachte dazu die Häufigkeitstabelle:

P
1 ... m
1 h11 ... h1m N1
2 h21 ... h2m N2
.. .. .. ..
. . . .
k
P hk1 ... hkm Nk
h·1 ... h·m N
Ni h·j
Die erwartete Häufigkeit zu der beobachteten Häufigkeit hij beträgt .
N
Mit den normieren quadratischen Abweichung aus beobachteten und erwarteten
Häufigkeiten lässt sich jetzt wieder ein χ2 -Test konstruieren.

Der χ2 -Homogenitätstest:
Sei (Ω, A, P) der üblicher Wahrscheinlichkeitsraum und X 1 , ..., X k diskrete
Zufallsvariablen mit Ausprägungen X (1), ..., X (m), und weiter (X1i , ..., XNi i ) verteilt
wie X i , sowie das Testproblem
H0 : P(X 1 = j) = ... = P(X k = j) ∀j ∈ {X (1), ..., X (m)}

versus
H1 : ∃i1 , i2 ∈ {1, ..., k}, ∃j ∈ {X (1), ..., X (m)}: P(X i1 = j) ̸= P(X i2 = j).
(
0 wenn χ2 ≤ χ2(k−1)(m−1),1−α
Der χ2 -Homogenitätstest φ(χ2 ) =
1 wenn χ2 > χ2(k−1)(m−1),1−α
2
Ni h·j
k X
X m hij − N
mit der Teststatistik χ2 = Ni h·j
i=1 j=1 N
und χ2(k−1)(m−1),1−α dem 1 − α-Quantil der χ2 -Verteilung mit (k − 1)(m − 1)

Freiheitsgraden ist ein Niveau-α-Test für das zugehörige Testproblem.

Der χ2 -Homogenitätstest: Beispiel
Zurück zu unseren Fahrradhändlern, die absoluten Häufigkeiten sind:

A 60 54 48 6 168
B 51 39 27 6 123
C
P 55 68 93 20 236
166 161 168 32 527
und die erwarteten Häufigkeiten sind:

P
A 52.9 51.3 53.6 10.2 168
B 38.7 37.6 39.2 7.5 123
C
P 74.3 72.1 75.2 14.3 236
166 161 168 32 527

Der χ2 -Homogenitätstest: Beispiel
2
Ni h·j
hij − N
Die normierten, quadratischen Abweichungen Ni h·j
sind:
N

A 0.9 0.1 0.6 1.7
B 3.9 0.1 3.8 0.3
C 5.0 0.2 4.2 2.2
In Summe ergibt sich als Teststatistik 23.1, das entsprechende Quantil ist
χ26,1−α = 12.60. Da die Teststatistik größer als das Quantil ist, kann die
Nullhypothese zum Niveau α = 0.05 abgelehnt werden. Der p-Wert beträgt
0.0003. Wir können also nachweisen, dass die Verteilung der Verkäufe zwischen
den 3 Händlern sich tatsächlich unterscheidet.
Wir können hier jetzt sogar interpretieren, wo es Unterschiede gibt: Vor allem die
BMX bei Händler C und die City-Räder bei Händler B passen nicht (zu wenige).

Die χ2 -Unabhängigkeitstest: Fragestellung und Beispiel
Sei (Ω, A, P) der übliche Wahrscheinlichkeitsraum und X , Y eine diskrete
Zufallsvariable mit Ausprägungen X (1), ..., X (J), Y (1), ..., Y (K ). Sind X und Y
stochastisch unabhängig?
Beispiel aus Kapitel 4: Bearbeitungen von Softwareaufgaben
P
Abfrage Export Verknüpfung
Kai 0 1 1 2
Miriam 0 3 0 3
Oliver 2 1 1 4
Tina
P 0 1 2 3
2 6 4 12
Ist die bearbeitete Aufgabe vom Mitarbeiter unabhängig?
H0 : X , Y sind st.u. versus H0 : X , Y sind nicht st.u.

Die χ2 -Unabhängigkeitstest: Teststatistik
Unter H0 gilt:
P(X = X (j) ∧ Y = Y (k)) = P(X = X (j)) · P(Y = Y (k)).
Die gemeinsame Auftretenswahrscheinlichkeit ergibt sich als Produkt der

Randwahrscheinlichkeiten. Unter H0 würden wir daher als absolute Häufigkeit für
Nj,k erwarten:
E [Nj,k ] = N · P(X = X (j) ∧ Y = Y (k)) = N · P(X = X (j)) · P(Y = Y (k))
Es ergibt sich, dass der χ2 -Koeffizient

J X
K
χ2 = , vjk = ∼ χ2(J−1)·(K −1)
vjk N approx
j=1 k=1
eine sinnvolle Teststatistik ist.


Der χ2 -Unabhängigkeitstest:
Sei (Ω, A, P) der übliche Wahrscheinlichkeitsraum und X , Y eine diskrete
Zufallsvariable mit Ausprägungen X (1), ..., X (J), Y (1), ..., Y (K ), und weiter
((X1 , Y1 ), ..., (XN , YN )) verteilt wie (X , Y ), sowie das Testproblem
H0 : X , Y sind st.u. versus H0 : X , Y sind nicht st.u.
Der χ2 -Unabhängigkeitstest
(
2 0 wenn χ2 ≤ χ2(J−1)·(K −1),1−α
φ(χ ) =
1 wenn χ2 > χ2(J−1)·(K −1),1−α
mit der Teststatistik χ2 ((X1 , Y1 ), ..., (XN , YN )) wie auf der vorangegangenen Folie
und χ2(J−1)·(K −1),1−α dem 1 − α-Quantil der χ2 -Verteilung mit (J − 1) · (K − 1)
Freiheitsgraden ist ein Niveau-α-Test für das zugehörige Testproblem.

Die χ2 -Unabhängigkeitstest: Fragestellung und Beispiel
Beobachtete absolute Häufigkeiten Erwartete Häufigkeiten unter H0 :

Produkt der Randhäufigkeiten
P
P
Kai 0 1 1 2 Kai 1/3 1 2/3 2
Miriam 0 3 0 3 Miriam 1/2 3/2 1 3
Oliver 2 1 1 4 Oliver 2/3 2 4/3 4
Tina 0 1 2 3 Tina
P 1/2 3/2 1 3
2 6 4 12
P
2 6 4 12
Bestimmung des χ2 -Koeffizienten (vgl. Kapitel 4) ergibt χ2 ≈ 8.417. Das hier

benötigte Quantil der χ2 -Verteilung mit (4 − 1) · (3 − 1) = 6 Freiheitsgrade ergibt
sich zu χ26,0.95 = 12.60. Die Nullhypothese kann nicht abgelehnt werden.
Es spricht also nichts gegen die Annahme der Unabhängigkeit. Wir entscheiden
uns aber wie üblich nicht für H0 , es spricht nur nichts dagegen. Und wir hatten
hier auch nur sehr wenige Daten vorliegen.

Abschlussfolie
Es gibt noch wesentlich mehr statistische Signifikanz-Tests als hier vorgestellt,

und die Konstruktion neuer Tests ist relativ einfach: Lediglich die Verteilung
der Teststatistik unter H0 muss bekannt sein. Mit den hier vorgestellten Tests
können aber viele der üblichen Testprobleme gelöst werden.
Die Signifikanz-Aussage eines statistischen Tests beruht immer auf
Annahmen. Diese sind in der Praxis immer kritisch zu sehen. Dabei sind
Verteilungsannahmen auf Grund des zentralen Grenzwertsatzes meistens kein
Problem. Die eher unscheinbare u.i.v. ist deutlich häufiger verletzt und die
Verletzung führt oftmals dazu, dass der Test sein Niveau nicht mehr einhält.
Statistische Tests reagieren sehr sensitiv auf die Anzahl der Beobachtungen:
Liegen zu wenig Beobachtungen vor, kann H0 nur selten abgelehnt werden,
liegen zu viele Beobachtungen vor, sind bereits kleinste Unterschiede
signifikant. Auswege aus diesem konstruktionsbasierten Nachteil sind z.B.
sogenannte Relevanztests.

Wrums 2223 2023-10-12

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Wrums 2223 2023-10-12

Hochgeladen von

Copyright:

Verfügbare Formate

Wahrscheinlichkeitsrechnung und mathematische

Statistik für Informatiker

Prof. Dr. Jörg Rahnenführer

1.1 WRUMS für Informatikerinnen und Informatiker

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 2 / 545

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 3 / 545

2.1 Merkmale und Datentypen

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 6 / 545

2.1 Merkmale und Datentypen

Skalentyp mögliche Aussagen Im Beispiel

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 7 / 545

2.1 Merkmale und Datentypen

Datentyp Anzahl der Ausprägungen Im Beispiel

Diskret Endlich oder Form

Stetig Überabzählbar viele Breite, Höhe

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 8 / 545

2.1 Merkmale und Datentypen

Qualitativ heißt immer diskret

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 9 / 545

2.1 Merkmale und Datentypen

Unter Inkaufnahme von Informationsverlust können Merkmale in andere

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 10 / 545

2.2 Tabellarische und grafische Darstellung von

MN = {e1 , . . . , eN } Population bestehend aus Objekten e1 , . . . , eN

X Nominales bzw. ordinales Merkmal

WX = {x(j) | j = 1, . . . , J} Wertebereich von X mit

x(1) < x(2) < . . . < x(J) falls X ordinal

DN = {xn | n = 1, . . . , N} Urliste aus der Messung von X in der

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 11 / 545

2.2 Tabellarische und grafische Darstellung von

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 12 / 545

2.2 Tabellarische und grafische Darstellung von

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 13 / 545

2.2 Tabellarische und grafische Darstellung von

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 14 / 545

2.2 Tabellarische und grafische Darstellung von

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 15 / 545

2.2 Tabellarische und grafische Darstellung von

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 16 / 545

2.2 Tabellarische und grafische Darstellung von

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 17 / 545

2.2 Tabellarische und grafische Darstellung von

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 18 / 545

2.2 Tabellarische und grafische Darstellung von

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 19 / 545

2.2 Tabellarische und grafische Darstellung von

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 20 / 545

2.2 Tabellarische und grafische Darstellung von

Tabellarische Darstellung absoluter und relativer Häufigkeiten

Ausprägung Absolute Häufigkeit Relative Häufigkeit

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 21 / 545

2.2 Tabellarische und grafische Darstellung von

Kai Miriam Oliver Tina

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 22 / 545

2.2 Tabellarische und grafische Darstellung von

Das Balkendiagramm ist daher zu bevorzugen, da das menschliche Auge die

2.2 Tabellarische und grafische Darstellung von

Das Balkendiagramm ist daher zu bevorzugen, da das menschliche Auge die

2.2 Tabellarische und grafische Darstellung von

MN = {e1 , . . . , eN } Population bestehend aus Objekten e1 , . . . , eN

WX = {x(j) | j = 1, . . . , J} Wertebereich von X mit

DN = {xn | n = 1, . . . , N} Urliste aus der Messung von X in der

Jörg Rahnenführer W’keitsrechnung und mathematische Statistik WiSe 23/24 24 / 545