Statistik Lösungen

ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 1
Quantitative Methoden der Informatik

SS 2023
Lösungen der Aufgaben
Anmerkungen:
• Die Lösungen sollen eine Lernkontrolle bieten.
• Die Kenntnis dieser Lösungen allein garantiert keinen Lernerfolg.
Lösung zu Aufgabe 1:
a) Die Variable Anzahl ist quantitativ/metrisch, diskret.
Es geht um eine Population von Tagen, nämlich die Tage im November 2002.
b) Mögliche Stamm-und-Blatt-Diagramme sind:
0 | 03
0 | 0 | 03
1 | 1 1 | 16
1 | 6 2 | 22236667888
2 | 2223 3 | 00011444459
2 | 6667888 4 | 2235
3 | 000114444
3 | 59
4 | 223
4 | 5
Anmerkung:
Die Variable Anzahl ist nur“ diskret und nicht stetig. Jedoch gibt es hier einen großen Bereich
”
von Werten (und kein Wert kommt besonders häufig vor). Die Struktur der Verteilung wird daher
in einem Stamm-und-Blatt-Diagramm sogar besser erfasst als in einem Balkendiagramm.
Mit Excel sind Stamm-und-Blatt-Diagramme unseres Wissens nicht möglich, jedoch mit R! Weil
die geordnete Reihe vorliegt, kann die Aufgabe hier aber leicht mit Papier und Bleistift“ gelöst
”
werden.
Für die Lösung mit R wird zuerst die Variable Anzahl als Vektor definiert, hier x genannt:
x = c( 0, 3, 11, 16, 22, 22, 22, 23, 26, 26,

26, 27, 28, 28, 28, 30, 30, 30, 31, 31,
34, 34, 34, 34, 35, 39, 42, 42, 43, 45)
(c ist ein combine-Command.)

Das (Default-)Stamm-und-Blatt-Diagramm bekommt man dann mit dem Befehl stem(x).
Der Parameter scale in stem definiert die Plotlänge (Default: scale = 1) und somit die Tiefe der
Stammunterteilung. Ein halb so langes Plot (wie oben rechts) bekommt man daher so:
stem(x, scale = 0.5)
c) Arithmetisches Mittel: 842/30 = 28.07. (R-Code: mean(x).)
Durchschnittlich kommen 28 Kunden pro Tag in die Werkstatt.
© Angi Rösch / Harald Schmidbauer, 2023

Lösung zu Aufgabe 2: Das Auto fuhr die gesamten 30 km in der folgenden Zeit:
10 20
+ = 0.6 h
100 40
Somit betrug die Durchschnittsgeschwindigkeit auf der gesamten Strecke:
30
= 50 km/h
0.6
Man erhält dieses Ergebnis auch aus dem harmonischen Mittel der Einzelgeschwindigkeiten auf den 30
km:
10 + 20
= 50 km/h
10 20
+
100 km/h 40 km/h
Für die Berechnung in R mit Funktionalität aus dem R-Package psych (W. Revelle, 2021) wird ein Vektor
x aus Geschwindigkeiten für jeden km der Gesamtstrecke definiert, am einfachsten mit rep (wie replicate)
zusammen mit dem combine-Command c:
library(’psych’) # Laden des R-Package
x = c(rep(100,times = 10), rep(40, times = 20))
harmonic.mean(x)
Lösung zu Aufgabe 3: Der DAX ist in diesem Zeitraum insgesamt gestiegen. Der durchschnittliche
wöchentliche Wertzuwachs in Prozent ergibt sich aus dem geometrischen Mittel der Wertänderungsfaktoren
q1 bis q35 von Woche zu Woche. Deren Produkt ist der Quotient aus Endwert durch Anfangswert. Damit
ist: s r
√ 35 Endwert 35 4968.28
35
q1 · · · · · q35 = = = 1.0042
Anfangswert 4290.50
Also ist der DAX in diesem Zeitraum wöchentlich durchschnittlich um 0.42% gestiegen.
Ein geometrischen Mittel könnte man in R mit dem Command geometric.mean aus dem R-Package psych
(W. Revelle, 2021) berechnen, oder noch einfacher unter Ausnutzung der Eigenschaften von Logarithmus-
und Exponentialfunktion:
exp(mean(log(x)))
Dabei ist x der Vektor aller einzelnen Wertänderungsfaktoren. Hier ist x nicht verfügbar, aber so bekommt
man das Ergebnis ja auch:
(4968.28/4290.50)^(1/35)
a) In Aussage A wird über die Population der Haushalte gesprochen, in Aussage B über die Population
der Einwohner in Deutschland.
b) Betrachten wir 1 000 typische Haushalte und deren Aufteilung:
Haushalte
mit 1-2 Personen mit mehr als 2 Personen insgesamt
# Haushalte: 664 336 1 000
# Personen: 347 + 2 · 317 = 981 Mindestens 3 · 336 = 1 008 Mindestens 1 989
Der Anteil der Bevölkerung in Deutschland, der allein oder zu zweit lebte, betrug höchstens
981
= 0.493 = 49.3%.
1 989
Aussage B ist also falsch!

a)
ident Fehler Korrektur

78 gender fehlt, number of damages = f. gender = f, number of damages = 0.
145 number of damages = 11, amount of damage number of damages = 1.
ist vergleichsweise gering.
111 date of contract liegt weiter zurück als Datumsangaben sind vertauscht!
date of birth.
321 number of damages = 0, amount of damage number of damages = 1.
ist aber positiv.
432 amount of damage = 1297,67 — Dezimalkom- amount of damage = 1297.67.
ma statt -punkt (als Text gespeichert).
518 date of birth = 31/01/1944 — falsches For- date of birth = 01/31/44.
mat.
672 date of birth = 20281 — falsches Format date of birth = 07/11/55.
(und als Text gespeichert).
672 date of contract = 32322 — falsches For- date of contract = 06/28/88.
mat (und als Text gespeichert).
790 gender = n. gender = m.
792 amount of damage fehlt. amount of damage = 0.
836 date of birth = 02/31/1947 — falsches For- Richtig ist: 02/23/47.
mat, Datum existiert nicht.
Die Datei insurance data clean analysis.xls enthält die gesäuberten Daten zusammen mit
einer Excel-Lösung der weiteren Aufgabenteile.
b) 42 Personen hatten im Jahr 2008 (mindestens) einen Schaden.
c) Die durchschnittliche Schadenssumme pro Person mit Schaden im Jahr 2008 ist:
29 878.54
= 711.39 Euro.
42
Lösung zu Aufgabe 6: Die Datei bank customers analysis.xls enthält eine Excel-Lösung dieser
Aufgabe.
a) deficit: qualitativ, kategorial/nominalskaliert

age: quantitativ/metrisch, (quasi-)stetig
m.status: qualitativ, kategorial/nominalskaliert
edu: qualitativ, Rangvariable/ordinalskaliert
econ.activity: qualitativ, kategorial/nominalskaliert
urban: qualitativ, kategorial/nominalskaliert
stability: qualitativ, kategorial/nominalskaliert
cellphone: quantitativ/metrisch, diskret; hier aber: klassierte Werte mit oberer Klasse zwei und
”
mehr“!
417
b) Prozentsatz der Kunden mit deficit = 1: = 7.11%.
5 868
c) Durchschnittliches Alter der Kunden mit deficit = 0: 49.3 Jahre.
d) Durchschnittliches Alter der Kunden mit deficit = 1: 44.5 Jahre.

e) Prozentsatz der Kunden mit deficit = 1 unter den Kunden mit . . .
90
. . . keinem Handyvertrag (cellphone = 0): = 4.85%.
1 855
108
. . . einem Handyvertrag (cellphone = 1): = 8.51%.
1 269
219
. . . zwei oder mehr Handyverträgen (cellphone = 2): = 7.98%.
2 744
a) Die Zielpopulation ist die Population aller Studierender auf diesem Campus.
b) Nicht alle Studierenden haben eine Chance in Yayas Stichprobe zu kommen, denn an einem Dienstag
sind die Studierenden sicher nicht alle in der Mensa. Mögliche Gründe: Sie haben keinen Hunger
(unwahrscheinlich), essen an diesem Wochentag aus bestimmten Gründen nicht in der Mensa, sie
sind krank oder beim Lernen, Schlafen, Spielen, . . . . Besonders problematisch ist es, dass Yaya
Studierende, die die Mensa ablehnen, weil sie mit ihr unzufrieden sind, nicht in der Mensa antreffen
wird!
Bessere Idee: Man wählt aus der Liste aller Studierenden zufällig 50 Personen aus und verabredet
sich mit ihnen, um sie zu befragen.
c) Diese Variable ist qualitativ, es ist eine Rangvariable.
d) Ein Balkendiagramm ist geeignet.
e) Das Histogramm zeigt, dass positive Preisdifferenzen häufiger vorkommen als negative. Die Histo-
grammfläche rechts von der 0 ist größer als links. Das bedeutet: Bei mehr als 50% der Speisen in
Yayas Vergleichsliste ist die Mensa auf dem anderen Campus teurer. Die Preisdifferenz ist aber
nicht größer als ¥ 5.
Man kann den Median der Verteilung der Preisdifferenzen näherungsweise bestimmen: Der Näherungswert
ist ¥ 1, denn links und rechts davon kann man 50% der Fläche im Histogramm sehen. Ca. 50% der
Speisen sind auf dem neuen Campus also um mindestens ¥ 1 teurer (und um höchstens ¥ 5).
Bei einigen Speisen (aber deutlich weniger als 50%) ist Yayas Mensa teurer; diese Speisen sind aber
um höchstens ¥ 3 teurer als in der Mensa auf dem anderen Campus.
a) Dazu gehören sicherlich Fragen nach dem Alter, Vermögen und Einkommen, aber auch Fragen wie
Haben Sie vor, zur Wahl zu gehen?“, Fragen zur Selbstwahrnehmung wie Halten Sie sich für
” ”
umweltfreundlich?“ und viele andere Fragen.
Tipp: Sensitive Fragen sollte man an das Ende des Fragebogens setzen. Die Vorgabe von Antwortka-
tegorien (z.B. Altersklassen) mildert den Unwillen der Befragten zu antworten. Manches kann man
auch als Aussage über eine dritte Person zur Beurteilung vorlegen, z.B. Stellen Sie sich vor, einer
”
Ihrer Freunde lehnt es ab, wählen zu gehen. — Würden Sie versuchen, ihn dazu zu überreden?“.
b) Sehr vorsichtig sollte man mancherorts sicherlich mit Fragen zur Beurteilung der Regierungsarbeit
sein. Da gibt es in Deutschland wohl eher kein Tabu.

a) Die Klasseneinteilung umfasst verschieden breite Klassen (Intervalle), daher muss das Histogramm
in der Höhe die (absolute oder relative) Häufigkeitsdichte zeigen:
Intervall Häufigkeit Intervallbreite Häufigkeitsdichte
j hj dj hj /dj
[−25, −10) 3 15 0.2
[−10, 0) 8 10 0.8
[ 0, 10) 9 10 0.9
[ 10, 25] 4 15 0.27
24
Als Histogramm ergibt sich:
0.9
0.8
0.27
0.2
-25 -10 0 10 25
Mit x als monatliche Preisänderung und R bekommt man ein analoges Histogramm so:
x = c( -17.5, -15.9, -10.2, -8.7, -8.2, -7.5, -4.0, -2.5, -2.0, -0.7,
-0.7, 0.8, 3.8, 4.7, 4.8, 5.0, 5.9, 7.7, 8.7, 9.1,
11.5, 12.6, 20.0, 24.8)
hist(x, breaks = c(-25, -10, 0, 10, 25), col = "lightblue", right = FALSE)
(Mit right = FALSE werden rechts offene Intervalle definiert, was hier jedoch irrelevant ist, da keine
Beobachtung auf eine Intervallgrenze fällt.)
P
b) Arithmetisches Mittel: x̄ = xi /24 = 41.5/24 = 1.73%. (Mit R: mean(x).)
Es ist ein Mittelwert“ der Verteilung der Preisänderungen, d.h. eine Maßzahl für die Lage (das
”
Niveau) der Daten.
Vorsicht:
Das arithmetische Mittel der Preisänderungen darf nicht als durchschnittliche Preisänderung pro
Monat interpretiert werden. Die durchschnittliche Preisänderung pro Monat ist geringer als 1.73%,
nämlich 1.23%. Dieser Durchschnitt kann so berechnet werden:
Zuerst: Der durchschnittliche Preisänderungsfaktor pro Monat ist das geometrische Mittel der be-
obachteten Preisänderungsfaktoren von Monat zu Monat:
√
r
24 4.8 8.7 24
(1 + ) · · · · · (1 − )= 1.048 · · · · · 0.913 = 1.0123
100 100
(Mit R: exp(mean(log(1+x/100))).)
Damit ergibt sich: Der Preis von Brent-Rohöl ist in diesen 24 Monaten also um durchschnittlich
(1.0123 − 1) · 100% = 1.23% pro Monat gestiegen.
c) Median: (0.8 + 3.8)/2 = 2.3%. Denn es ist 24/2 = 12, und daher liegt der Median zwischen dem
12ten und 13ten Wert in der geordneten Reihe der Preisänderungen.
(Mit R: median(x).)

Interpretation: 50% der Werte lagen unter 2.3%, 50% der Werte lagen darüber. Oder: In 50% der
Monate war die Preisänderung kleiner als 2.3%, in 50% der Monate war die Preisänderung größer.
d) Unteres Quartil: Mitte zwischen dem 6ten und 7ten Wert = (−7.5 − 4.0)/2 = −5.75%, denn es ist
0.25 · 24 = 6.
Oberes Quartil: Mitte zwischen dem 18ten und 19ten Wert = (7.7 + 8.7)/2 = 8.2%, denn es ist
0.75 · 24 = 18. Oder: Mitte zwischen dem 6ten und 7ten Wert von oben“, d.h. von der größten
”
Werten heruntergezählt.
Interpretation: 25% der Werte lagen unter −5.75% und 25% der Werte lagen über 8.2%. Also
lagen 50% der Werte zwischen −5.75% und 8.2%. Oder: In 50% der Monate lag die Preisänderung
zwischen −5.75% und 8.2%.
In R:
Der Command quantile(x, type = 2) liefert per Default mehrere Quantile auf einmal: Minimum,
unteres Quartil, Median, oberes Quartil und Maximum. Mit quantile(x, probs = 0.25, type
= 2) ruft man zum Beispiel nur das untere Quartil ab.
Es gibt verschiedene Algorithmen zur Quantilbestimmung, sie unterscheiden sich in der Gewichtung
der benachbarten beobachteten Werte und daher auch im Ergebnis. Mit type = 2 handelt es sich um
den wohl einfachsten Typ, ein arithmetisches Mittel der Nachbarwerte. Per Default benutzt R mit
type = 7 eines derjenigen Verfahren, welche Unstetigkeiten in der empirischen Verteilungsfunktion
auf etwas anspruchsvollere Weise auszugleichen versuchen.
e) Die Box“ im Boxplot erstreckt sich vom unteren zum oberen Quartil, d.h. hier über den Bereich
”
von −5.75% bis 8.2%. Dazwischen, bei 2.3%, liegt der Median.
Die Boxbreite beträgt 8.2 − (−5.75) = 13.95 Prozentpunkte. Die (bei einem Standard-Boxplot)
maximale Länge eines Whisker“ ist daher 1.5 · Boxbreite = 1.5 · 13.95 = 20.92 Prozentpunkte.
”
Der linke Whisker“ würde damit bei −5.75 − 20.92 = −26.67 beginnen, der rechte Whisker“ bei
” ”
8.2+20.92 = 29.12 enden. Weil der kleinste beobachtete Wert aber −17.5 ist, der größte beobachtete
Wert 24.8, werden die Whisker“ nicht so lang gezeichnet. Der linke Whisker“ beginnt bei −17.5,
” ”
der rechte Whisker“ endet bei 24.8.
”
Es ergibt sich hier also dasselbe Boxplot, das man vereinfacht (und das wäre für uns ausreichend)
zeichnen würde: mit einem Whisker“-Bereich vom Minimum bis zum Maximum der beobachteten
”
Werte.
Das Boxplot der Verteilung der monatlichen Preisänderungen ist:
−10 0 10 20
Das Default-Boxplot in R boxplot(x) ist vertikal, ein horizontales bekommt man so:
boxplot(x, horizontal = TRUE, col = "lightblue")
f) Varianz: s2 =
P 2
xi /24 − x̄2 = 2 536.4/24 − 1.732 = 102.69. (1.73 war das arithmetische Mittel der
Preisänderungen!) √
Standardabweichung: s = 102.70 = 10.13.
Entsprechende Commands in R sind: var(x) und sd(x). Sie werden jedoch merken, dass sich da-
mit etwas höhere Werte ergeben. Das liegt daran, dass R korrigierte Formeln aus der induktiven
Statistik benutzt mit dem Ziel, die theoretische Varianz und Standardabweichung der Verteilung

der monatlichen Änderungen auf Basis der beobachteten Daten zu schätzen (was ja insbesonde-
re mit Unsicherheit verbunden ist und dafür spricht, die Streuung etwas höher einzuschätzen als
beobachtet). Mit var(x)*(24-1)/24 und sqrt(var(x)*(24-1)/24) erhält man die obigen Werte
nach den Formeln der deskriptiven Statistik (die ja zunächst nichts weiter will als beobachten und
beschreiben).
g) Die 1-σ-Regel besagt: Ca. zwei Drittel aller Werte, hier: etwa 16, erwartet man im Intervall [x̄ −
s, x̄ + s] = [1.73 − 10.13, 1.73 + 10.13] = [−8.40, 11.86], falls (näherungsweise) eine Normalverteilung
vorliegt. Tatsächlich liegen 17 Werte in diesem Intervall; 17 weicht nicht deutlich von 16 ab: Die
1-σ-Regel trifft hier zu.
In R könnte man alle Daten zunächst entsprechenden Intervallen zuordnen und Häufigkeiten auszählen:
intervals = cut(x, breaks=c(min(x), mean(x)-sd(x), mean(x)+sd(x), max(x)))
table(intervals)
Oder man macht eine logische Abfrage und summiert über TRUE und FALSE:
sum( (x >= mean(x)-sd(x)) & (x <= mean(x)-sd(x)) )
(Im obigen Code wurde die Formel der Standardabweichung aus der induktiven Statistik verwendet.
Das ist insofern angemessen, als es hier ja tatsächlich um den Versuch einer induktiven Schlussfol-
gerung geht, von den Daten auf ein Prinzip bei der Normalverteilung: die 1-Sigma-Regel!)
Lösung zu Aufgabe 10: Die Tabelle der Altersverteilung für die türkische Bevölkerung im Jahr 1990
wird im folgenden nach und nach ergänzt:
Im Altersintervall Millionen Personen Anteil Intervallbreite Anteilsdichte Kumulierter Anteil

j hj fj dj fj /dj Fj
[0, 15) 19.74 0.35 15 0.0233 0.35
[15, 40) 23.70 0.42 25 0.0168 0.77
[40, 65) 10.56 0.19 25 0.0075 0.96
[65, 90] 2.42 0.04 25 0.0017 1.00
56.42 1.00
a) Die Altersverteilung enthielt ursprünglich das Altersintervall 65 Jahre und älter“. Die Tatsache,
”
dass dieses Intervall keine obere Grenze hat, erschwert eine adäquate graphische Darstellung. Aller-
dings befand sich lediglich ein Anteil von etwa 4% der Bevölkerung darin. Daher ist es vertretbar,
dieses Altersintervall künstlich einzuschränken, zum Beispiel sogar auf das Intervall [65, 90]. Nun
ist eine Intervallbreite verfügbar, womit eine (maximale) Häufigkeitsdichte für dieses Altersintervall
bestimmt werden kann.
0.0233 ...............................
.....................
.....................
.....................
.....................
.....................
.....................
.....................
.....................
0.0168 .................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
0.0075 .................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
.................
0.0017 .................................................
.................
0 15 23.9 40 65 90

Die Rechteckshöhen im Histogramm können grundsätzlich mit absoluten Häufigkeitsdichten hj /dj
oder relativen Häufigkeitsdichten fj /dj (Anteilsdichten) berechnet werden. In der Arbeitstabelle
werden Anteilsdichten gezeigt, zumal eine Berechnung von Anteilen, und insbesondere dann auch
kumulierten Anteilen, bei den Lösungen zu (b) und (c) verwendet wird.
Für ein Histogramm in R auf der Basis einer Häufigkeitstabelle (und nicht auf Basis der einzelnen
Beobachtungen): Wir definieren einen Vektor x, der zum Beispiel die Intervallmitten (Mittelwerte
zwischen den linken und rechten Intervallgrenzen) entsprechend der Häufigkeiten vervielfältigt:
ej.left = c(0, 15, 40, 65)
ej.right = c(15, 40, 65, 90)
hj = c(19.74, 23.70, 10.56, 2.42)*100
x = rep((ej.left + ej.right)/2, times = hj)
hist(x, breaks = c(0, 15, 40, 65, 90), col = "red2", right = FALSE)
b) Die kumulierten Anteile der Bevölkerung in den Altersklassen führen zur empirischen Verteilungs-
funktion:
1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...................................................................................
........... .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................................................
0.96 .
......... ..
.
.
......... .
...
...
........... .
.
.
.
.
...
...
....... . .
...
...
........ .
.
.
.
.
...
...
....... . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............. . .
0.77 ..
.... ..
.
.
.
.
.
...
..... . .
.
.
.
..
....
. . . .
...
..... .
. . .
....
. . . .
.. . .
..
.....
. .
. . .
...
..... . .
.
.
.
..
....
. .
. . .
..
.....
. . . .
0.5 . . . . . . . . . . . . . . . . . . . . . . . ......
.
..
..
.... .. .
.
.
.
.
.
.
.
.
.... .. . . .
...
. . . .
..
....
. . .
. . .
.
..
..... . . .
.
.
.
. . . . . . . . . . . . . . ........ .
0.35 ..
.... ..
.
.
.
.
.
.
.
.
.
..
.... . .
. . .
.
.
.
..
.... .. . .
. . .
..
...
. . . . . .
.... . . . . .
..
. . . . . .
..
.... . . . . .
.... . . . . .
.. . . .
..
.... .
. . .
. . .
..
.... . .
. . .
.
.
.
..
...
. . . . . .
.... . . . . .
..
. . . . . .
..... . .
0 . .
0 15 23.9 40 65 90
Ein Plot der empirischen Verteilungsfunktion des Alters wäre in R recht einfach, wenn die Alters-
werte aller Personen in einem Datenvektor x zur Verfügung stünden: plot.ecdf(x) zeichnet eine
Stufenfunktion. Die Stufenhöhe entspricht dem Anteil des jeweiligen Werts.
In einem Stufenplot auf Basis der kumulierten Anteile aus einer klassierten Häufigkeitstabelle ist
eine lineare Interpolation zwischen den Stufen angemessen (zumal die Variable Alter stetig ist).
Die kumulierten Anteile Fj bekommt man mit dem Command cumsum aus den Anteilen fj für die
gegebenden Altersklassen:
fj = hj/sum(hj)
Fj = cumsum(fj)
Für das Plot fügen wir noch Randwerte hinzu:

plot(c(0, 15, 40, 65, 90, 110), c(0,Fj,1), type = ’l’, xlab = ’x’, ylab = ’F’)
c) Der Median ist das 50%-Quantil der Altersverteilung. Bei der Suche nach einem Näherungswert
sind daher die kumulierten Anteile in der Arbeitstabelle hilfreich.
Man erkennt: Im Altersintervall [15, 40) wird der kumulierte Anteil von 50% der Bevölkerung
überschritten, in diesem Intervall befindet sich also der Median. Aus der Zeichnung des Histo-
gramms könnte man einen Näherungswert für den Median ablesen: Die schattierte Fläche umfasst
nämlich 50% der Gesamtfläche im Histogramm. Noch besser gelänge das mit der Zeichnung der
empirischen Verteilungsfunktion: Ein Näherungswert für den Median ist der Abszissenwert, der zur
Koordinate 0.5 gehört. Es ist der Wert 23.9.
Diesen Näherungswert für den Median findet man ohne die Hilfe des Histogramms oder der empiri-
schen Verteilungsfunktion aus der Häufigkeitstabelle durch lineare Interpolation: Da der Median im
Altersintervall [15, 40) liegt, ist er wohl größer als die linke Intervallgrenze 15 (und natürlich kleiner

als 40). Wie weit rechts von 15 könnte der Median liegen? Welchen Anteil an der Intervallbreite
von 40 − 15 = 25 sollte man also noch zu 15 addieren? — Es kommt zum einen darauf an, wieviel
Prozent der Bevölkerung ein Alter unter 15 Jahre hat, nämlich 35%, und wieviele Prozentpunkte
dann noch auf 50% fehlen, nämlich 50 − 35 = 15 Prozentpunkte. Zum anderen kommt es darauf an,
wieviel Prozent der Bevölkerung denn überhaupt ein Alter im betreffenden Altersintervall [15, 40)
haben, nämlich 42%. Die auf 50% fehlenden 15 Prozentpunkte machen daher einen Anteil von
15/42 aus diesem Intervall aus. Diesen Anteil an der Intervallbreite addiert man dann zur linken
Intervallgrenze 15. Man erhält:
50 − 35
15 + · 25 = 23.9
42
Interpretation: Im Jahr 1990 war die Hälfte der türkischen Bevölkerung jünger als ca. 24 Jahre.
Anmerkungen:
Mit dem exakten Wert des Medians würde dieser Näherungswert übereinstimmen, wenn die 23.7
Millionen Personen mit ihrem Alter im Altersintervall [15, 40) gleichmäßig verteilt wären.
Mit Informationen über einjährige Altersintervalle ergibt sich für die Altersverteilung der Türkei
im Jahr 1990 ein Median von 22 Jahren. Seitdem ist das mediane Alter“ gestiegen. Im Jahr
”
2002 lag der Median bei 26 Jahren, für das Jahr 2020 wird ein Median von 32.2 Jahren geschätzt.
Welchen Median vermuten Sie für die Altersverteilung in Deutschland? Und für die Altersverteilung
in China? In einem Land Ihrer Wahl?
In R:
Eine lineare (und auch kubische, etc.) Interpolation ist in R zum Beispiel mit dem Command spline
möglich. Ein Spline ist eine Funktion, die stückweise aus Polynomzügen besteht. Damit kann eine
Abfolge von Datenpunkten durch eine geglättete Kurve approximiert werden.
– Benutzt man nur zwei Datenpunkte, werden diese durch eine Gerade verbunden, und eine linea-
re Interpolation wird gemacht. Im folgenden benutzen wir dazu die Koordinaten des Intervalls,
in dem sich der Median befindet, und stellen diese den zugehörigen kumulierten Häufigkeiten
gegenüber:
spline(x = c(15,40), y = c(0.35, 0.77))
plot( spline(x = c(15,40), y = c(0.35, 0.77)) )
Den obigen Näherungswert für den Median erhält man hierbei mit dem Parameter xout, wenn
man die Achsen vertauscht: spline(y = c(15,40), x = c(0.35, 0.77), xout = 0.5) .
– Einen Näherungswert mittels kubischer Interpolation bekommt man, wenn man alle Daten-
punkte der Häufigkeitstabelle als Stützstellen nutzt. Auf diese Weise ergibt sich zunächst auch
das Plot einer approximativen Verteilungsfunktion:
breaks = c(0, 15, 40, 65, 90)
h.breaks = c(0, 19.74, 23.70, 10.56, 2.42)
F.breaks = cumsum(h.breaks)/sum(h.breaks)
plot( spline(x = breaks, y = F.breaks) )
Vertauscht man hier wieder die Achsen, hat man einen entsprechenden Näherungswert für den
Median: spline(y = breaks, x = F.breaks, xout = 0.5).
a) Es geht um die Population der Köche/Köchinnen in Deutschland (im Jahr 2017). Die Variable ist
Brutto-Jahresgehalt“. Sie ist quantitativ/metrisch stetig.
”
b) – Im Durchschnitt verdienen Köche 29 640 Euro: arithmetisches Mittel
– 25 Prozent verdienen weniger als 24 200 Euro: unteres Quartil oder 25%-Quantil
– 50 Prozent verdienen weniger als 27 850 Euro: Median oder 50%-Quantil
– am oberen Ende verdienen 25 Prozent mehr als 32 690 Euro: oberes Quartil oder 75%-Quantil

c) Der Median ist kleiner als das arithmetische Mittel. Dies weist darauf hin, dass die Einkomensver-
teilung rechtsschief ist. (Das ist nicht nur bei Köchen/Köchinnen der Fall.)
d) Minimum und Maximum fehlen.
e) Mit dieser Information können wir als Minimum ein Brutto-Jahresgehalt von 12 · 1 500 = 18 000
Euro annehmen, als Maximum ein Brutto-Jahresgehalt von 12 · 8 000 = 96 000 Euro.
Ein Boxplot (vereinfacht: die Whiskers“ zeigen den Bereich vom Minimum zum Maximum) sieht
”
dann etwa so aus:
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
100000
f) . . . . . . . . . . . . . . .
Angaben über das arithmetische Mittel sind hier eher etwas optimistisch. Die Einkommensverteilung
ist sicherlich rechtsschief. Daher darf man vermuten, dass das arithmetische Mittel größer ist als
der Median, so wie in unserem Beispiel: Mehr als 50% der Köche in Deutschland verdienen weniger
als 29 640 Euro, also weniger als das arithmetische Mittel vorgibt.
Lösung zu Aufgabe 12: Die gegebene Tabelle zeigt die Häufigkeitsverteilung der Variablen Verkaufs-
zahl . Im folgenden ist diese noch ergänzt durch die Spalte der kumulierten Häufigkeiten (zur leichteren
Median- und Quartilbestimmung):
Verkaufte Exemplare Zahl der Wochen Kumulierte Häufigkeit

aj hj
9 1 1
10 3 4
11 6 10
12 8 18
13 10 28
14 10 38
15 7 45
16 4 49
17 1 50
50
P P
a) Arithmetisches Mittel: x̄ = xi /50 = 657/50 = 13.14. (Alternativ, mit der Tabelle: aj hj /50 =
(9 · 1 + 10 · 3 + · · · + 17 · 1)/50 = 13.14.)
Interpretation: Rund 13 Exemplare des Magazins wurden durchschnittlich pro Woche verkauft.
b) Median: 13.
Denn es ist 50/2=25; der Median liegt also zwischen dem 25ten und dem 26ten Wert der geordneten
Reihe der Verkaufszahlen. Beide Werte sind jeweils 13.

Interpretation (zu beachten ist hier, dass der Wert 13 häufig vorkommt): In mehr als 50% (genau-
er: 28/50 = 56%) der Wochen wurden höchstens 13 Exemplare verkauft. Oder: In mehr als 50%
(genauer: 32/50 = 64%) der Wochen wurden mindestens 13 Exemplare verkauft.
c) Unteres Quartil: 12. Oberes Quartil: 14.

Denn es ist 50/4 = 12.5 und 3 · 50/4 = 37.5. Das untere Quartil ist somit der 13te Wert, das
obere Quartil der 38te Wert in der geordneten Reihe der Verkaufszahlen. (Das obere Quartil ist
zugleich der 13te Wert von oben“, d.h. wenn man in der geordneten Reihe von den größten Werten
”
herunterzählt.)
Interpretation (zu beachten ist auch hier, dass beide Werte häufig vorkommen): In mehr als 25%
(genauer: 18/50 = 36%) der Wochen wurden höchstens 12 Exemplare verkauft. In ebenfalls mehr
als 25% (genauer: 22/50 = 44%) der Wochen wurden mindestens 14 Exemplare verkauft.
d) Möglichkeiten zur graphischen Darstellung einer Häufigkeitsverteilung: Kreisdiagramm, Balkendia-

gramm (Säulendiagramm, Stabdiagramm), Stamm-und-Blatt-Diagramm, Histogramm, Boxplot.
Es handelt sich hier um eine metrisch diskrete Variable, einzelne Werte kommen sehr häufig vor.
Ein Balkendiagramm ist hier geeignet:
10
8
6
4
2
0
9 10 11 12 13 14 15 16 17
e) Arithmetisches Mittel und Median sind nahezu gleich, und auch der Vergleich der Häufigkeiten
zeigt: Die Häufigkeitsverteilung der Verkaufszahlen ist nahezu symmetrisch um ihren Mittelwert.
Diesen Eindruck bestätigt auch das Balkendiagramm.
f) Varianz: s2 =
P 2
xi /50 − x̄2 = 8 797/50 − 13.142 = 3.28. (13.14 war das arithmetische Mittel der
wöchentlichen Verkaufszahlen!)
Mit der gegebenen Häufigkeitsverteilung würde man so rechnen:
P 2
aj hj /50 − x̄2 = (92 · 1 + 102 · 3 + · · · + 172 · 1)/50 − 13.142 = 3.28.
√
Standardabweichung: s = 3.28 = 1.81.
g) Die 1-σ-Regel besagt: Ca. zwei Drittel der Beobachtungen, hier etwa 33, erwartet man im Intervall
[13.14−1.81, 13.14+1.81] = [11.33, 14.95] (1-σ-Bereich), falls näherungsweise eine Normalverteilung
vorliegt. Tatsächlich liegen 28 Beobachtungen in diesem Intervall, d.h. 5 Beobachtungen weniger als
erwartet. Prozentual gesehen liegen also nur 28/50 = 56% der Beobachtungen 1-σ-Bereich. Das ist
deutlich zu wenig. Die 1-σ-Regel trifft nicht zu.
Anmerkung: Eigentlich geht es hier ja um eine quantitativ diskrete Variable. Wie kommt es, dass
hier ein Vergleich ihrer Verteilung mit einer Normalverteilung, einer stetigen Verteilung, sinnvoll ist?
Der Zentrale Grenzwertsatz (siehe Kapitel 8 der Vorlesung) erlaubt es, unter gewissen Bedingungen,
eine diskrete Verteilung durch die Normalverteilung zu approximieren!

h) Die 2-σ-Regel besagt: Ca. 95% der Beobachtungen, hier alle bis auf zwei oder drei, erwartet man
im Intervall [13.14 − 2 · 1.81, 13.14 + 2 · 1.81] = [9.52, 16.76] (2-σ-Bereich), falls näherungsweise eine
Normalverteilung vorliegt. Tatsächlich liegen 48 Beobachtungen in diesem Intervall und nur 2 Werte
außerhalb. Die 2-σ-Regel trifft zu.
a) Die 3-σ-Regel besagt hier: Falls die Monatsrenditen beim SSEC näherungsweise normalverteilt sind,
so würde man mehr als 99% der Werte im folgenden Intervall um den arithmetischen Mittelwert r̄
erwarten:
[r̄ − 3 · s, r̄ + 3 · s] = [0.83 − 3 · 8.24, 0.83 + 3 · 8.24] = [−23.89, 25.55]
Das ist der 3-σ-Bereich um r̄. Mehr als 99% der Werte bedeutet hier: mehr als 104 Werte, also
eigentlich alle Werte, würde man darin erwarten. (Eine Beurteilung ist hier nicht möglich, aber das
Maximum ist jedenfalls nicht in diesem Bereich.)
b) Ein Boxplot, das zu den Ergebnissen in der Tabelle passt, erhält man so:
Die Box reicht von −4.68 bis 5.57, dazwischen liegt bei 0.81 der Median.
Die Breite der Box ist daher 5.57 − (−4.68) = 10.25, die (bei einem Standard-Boxplot) maximale
Whisker“-Länge also 1.5 · 10.25 = 15.37. Der linke Whisker“ beginnt daher bei −4.68 − 15.37 =
” ”
−20.05, der rechte Whisker“ endet bei 5.57 + 15.37 = 20.94. Das Minimum und das Maximum der
”
Monatsrenditen liegen außerhalb des Whisker“-Bereichs und erscheinen im Boxplot als einzelne
”
Punkte. Über andere extreme Werte ist nichts bekannt, allerdings ist die Kurtosis nahe an 0, so
dass man nicht viele extreme Werte erwartet.
● ●
−20 −10 0 10 20
Ein vereinfachtes Boxplot (der Whisker“-Bereich erstreckt sich vom kleinsten zum größten Wert)
”
ist das folgende:

−20 −10 0 10 20
a) Bei A handelt es sich um eine qualitative Variable, insbesondere ist die Variable kategorial/nominal-
skaliert.
Der Modus ist die häufigste Antwort: ja“ oder nein“. Er ist sinnvoll. Median und arithmetisches
” ”
Mittel ergeben hier jedoch keinen Sinn, denn ja“ und nein“ lassen sich nicht auf einer Rangskala
” ”
vergleichen, und ein Abstand zwischen ja“ und nein“ kann natürlich auch nicht gemessen werden.
” ”
Ebenso sinnlos ist hier der Begriff der Standardabweichung.
(Dass man oft nach Codierung mit 1=ja“, 0=nein“ das arithmetische Mittel aus den Einsen und
” ”
Nullen berechnet, ist eine Rechenstrategie mit einem anderen Ziel, nämlich den Anteil der Ja-Sager
unter den Befragten leichter zu bestimmen!)
Bei B handelt es sich um die Frage nach einer Zeitdauer. Die Variable ist quantitativ/metrisch, und
prinzipiell ist eine Zeitdauer stetig.
Für stetige Variablen ist der Modus wenig aussagekräftig. Sinnvoll sind aber: der Median, das
arithmetische Mittel, und ebenso die Standardabweichung. Allerdings sind hier weder der Median
noch das arithmetisches Mittel oder die Standardabweichung bestimmbar! Den Befragten werden
nämlich Klassen (Minutenbereiche) von möglichen Zeitdauern als Antwortkategorien vorgegeben.
So hat man nach der Befragung nur eine klassierte Häufigkeitsverteilung der Zeitdauern, woraus
diese Maßzahlen nur näherungsweise und mehr oder weniger grob bestimmt werden können.
Anmerkung: Die Klasse, die von den Befragten am häufigsten genannt wird, könnte bei der Aus-
wertung der Umfrage von Interesse sein. Aussagekräftiger ist jedoch die Klasse mit der höchsten
Häufigkeitsdichte, die sogenannte modale Klasse, weil die vorgegebenen Klassen nicht gleich breit
sind.
Eine Übersicht gibt die folgende Tabelle:
A: kategorial B: stetig
möglich? sinnvoll? prinzipiell möglich? sinnvoll? hier möglich?
Modus ja ja ja nein nur: modale Klasse
Median nein nein ja ja nur: Näherungswert
arithmetisches Mittel nein nein ja ja nur: Näherungswert
Standardabweichung nein nein ja ja nur: Näherungswert
b) Bei Fragen ohne Antwortvorgaben (und insbesondere auch ohne Interviewer/in) riskiert man, dass
die betreffende Frage unbeantwortet bleibt, weil sich die befragte Person nicht konkret festlegen
kann oder will. Wichtiger aber noch: Die Antworten der Befragten sind unter Umständen nicht
einmal vergleichbar. Frage A ist davon zwar nicht betroffen. Bei B könnten aber manche Befragte
etwa auf halbe Stunden runden, andere auf ganze Stunden, und wieder andere Befragte könnten

auch lediglich Zeitbereiche nennen. Der vermeintliche Vorteil — Median, arithmetisches Mittel
und auch die Standardabweichung könnten aus konkret genannten Zeitdauern berechnet werden,
müssten also nicht näherungsweise bestimmt werden — führt zu weniger brauchbaren Ergebnissen.
Die Ergebnisse könnten auch weniger vertrauenswürdig sein als bei Fragen mit Antwortvorgaben.

a) Das Ideal einer repräsentativen Stichprobe ist eine Zufallsstichprobe, entweder eine reine Zufalls-
stichprobe oder eine geschichtete Stichprobe unter Verwendung von einer oder mehreren Schich-
tungsvariablen (Geschlecht, Altersgruppe, Wohnort), deren Verteilung in der Stichprobe mit der
Verteilung in der Zielpopulation übereinstimmt. Innerhalb der Schichten hat dann jeder dieselbe
Chance in die Stichprobe zu kommen.
In der Praxis könnte man eine solche Stichprobe durch eine Telefonumfrage bekommen; als Schich-
tungsvariablen dienen dabei die Anschlussart (Festnetz/Mobil), bei den Festnetznummern noch
zusätzlich die Vorwahl und bei den Mobilnummern der Provider. Einfach Leute auf der Straße
zu fragen ist keine gute Idee, denn nicht alle Wahlberechtigten laufen auf der Straße (auf welcher
Straße?), insbesondere nicht 10 Uhr morgens an einem Arbeitstag.
Eine repräsentative Stichprobe erlaubt die Verwendung der Methoden der induktiven Statistik und
damit Schlussfolgerungen von der Stichprobe auf die Zielpopulation.
b) Es geht hier darum, ob ein Wahlberechtigter auf die obige Frage JA sagt oder NEIN. Nur diese bei-
den Fälle sind möglich. Die Population der Wahlberechtigten lässt sich daher mit einer Population
von Kugeln in einer Urne beschreiben, welche entweder rot (JA) oder blau (NEIN) sind. Aus dieser
Urne werden 1004 Kugeln ( Wahlberechtigte“) nacheinander und ohne Zurücklegen herausgeholt.
”
Im Vergleich zur Zahl aller Wahlberechtigten ist der Umfang der Stichprobe klein; weniger als 5%
aller Wahlberechtigten werden in der Stichprobe gefragt. Daher können wir das Urnenmodell Zie-
”
hen ohne Zurücklegen, aber die Zahl der Kugeln in der Urne ist groß“ benutzen. Das bedeutet, dass
wir so tun dürfen als wäre es das Urnenmodell Ziehen mit Zurücklegen“.
”
c) Wird ein Wahlberechtigter zufällig ausgewählt und befragt, dann interessieren wir uns dafür, ob
die Person JA oder NEIN sagt, d.h. für die Realisierung der Zufallsvariablen

1 falls die Person JA sagt
X=
0 falls die Person NEIN sagt
Die Realisierung hängt vom Zufall ab. Man sagt: Die Realisierung von X wird vom stochastischen
Modell für X erzeugt.
Was genau ist hier aber vom Zufall abhängig? Die folgende Überlegung macht es deutlich: Wie groß
ist in diesem stochastischen Modell die Wahrscheinlichkeit, dass die zufällig ausgewählte Person JA
sagt? Diese Wahrscheinlichkeit ist unbekannt, insbesondere muss sie nicht 50% sein, denn es kommt
hier nicht darauf an, wie viele verschiedene Antwortmöglichkeiten man hat. Es kommt darauf an,
wer ausgewählt wird, insbesondere, ob es ein JA-Sager oder ein NEIN-Sager ist. Genau das hängt
vom Zufall ab. Gibt es in der Population der Wahlberechtigten mehr JA-Sager als NEIN-Sager,
dann ist die Wahrscheinlichkeit, dass die zufällig ausgewählte Person JA sagt, größer als 50%.
Die gesuchte Wahrscheinlichkeit ist also P (X = 1) = p und die Gegenwahrscheinlichkeit, d.h. die
Wahrscheinlichkeit, dass die zufällig ausgewählte Person NEIN sagt, ist P (X = 0) = 1 − p.
Wir benutzen hier das stochastische Modell einer Binomialverteilung. Man sagt: X ist binomial-
verteilt, X ∼ B(1, p). Man wählt hier nur eine Person zufällig aus, hat also nur einen einzelnen
Bernoulli-Versuch, bei dem man beobachten will, ob das Erfolgsereignis zufällig ausgewählte Per-
”
son sagt JA“ eintritt oder nicht. Die Erfolgswahrscheinlichkeit ist so groß wie der unbekannte Anteil
p der JA-Sager in der Population der Wahlberechtigten.
d) Wir kennen p nicht, weil nicht alle Wahlberechtigten befragt werden konnten. Wenn jemand p = 50%
setzt, mit der Begründung, dass es bei der Befragung ja nur zwei Antwortmöglichkeiten gibt, JA
und NEIN, so ist das ein Missverständnis des Anteils p. Der Anteil p spiegelt die Meinung in der
Zielpopulation wieder, nicht die Zahl der möglichen Antworten.

e) Wir wollen von einer Stichprobe auf die Zielpopulation schließen. Eine solche Schlussfolgerung ist
induktiv und immer unsicher (im Unterschied zur deduktiven Schlussfolgerung). Wir dürfen auf
der Basis einer Stichprobe niemals behaupten, dass wir den wahren Wert von p in der Zielpopu-
lation kennen. Zwar schätzen wir p mit dem Anteil in der Stichprobe: p̂ = 68%. Aber das ist die
Realisierung einer Zufallsvariablen; die Beobachtung 68% ist vom stochastischen Modell für den
Stichprobenanteil p̂ erzeugt.
f) Ja, im Prinzip ist das möglich, denn das Ergebnis in der Stichprobe ist ja erzeugt vom stochastischen
Modell für den Stichprobenanteil p̂. Wir erwarten zwar, dass in der Stichprobe 50% JA sagen (der
Erwartungswert von p̂ ist 50%), aber das stochastische Modell beinhaltet auch Varianz, die dazu
führt, dass das Ergebnis in der Stichprobe von 50% abweichen kann.
g) Wenn die Annahme p = 50%“ wahr ist, dann ist es sehr unwahrscheinlich, dass man in der
”
Stichprobe einen Anteil p̂ beobachtet, der mindestens so weit rechts von 50% liegt wie 68%. Das ist
aber tatsächlich passiert.
Die Annahme p = 50%“ könnte aber falsch sein; es könnte zum Beispiel p = 65%“ wahr sein. Dann
” ”
wäre es etwas wahrscheinlicher, in der Stichprobe einen Anteil p̂ zu beobachten, der mindestens 68%
beträgt. Unsere Beobachtung spricht tatsächlich gegen die Richtigkeit der Annahme p = 50%“.
”
Die Annahme ist also keineswegs sicher.
Lösung zu Aufgabe 16: Aussage (d) ist richtig!

Ein Wahrscheinlichkeitsbaum der relevanten Erreignisse hilft bei der Begründung:
.......
.......
.. Zeuge sagt blau“
...... ”
80%...............
.......
.
.......
.......
.......
...
..........
...
.......
.......
.......
.......
............
.......
.......
..... Taxi war blau .......
.......
....... .......
.........
. .......
.......
15%
...... .......
....... .......
....... .......
....... .......
....... .......
.......... .......
.......
.......
.....
.
20% .......
.......
.......
....... .......
....... .......
.......
......
........ . Zeuge sagt grün“
.......
....... ”
............
.......
.......
.......
.......
.......
.......
....... .......
..
....... Zeuge sagt blau“
....... ....... ”
20%......................
....... ......
.......
.......
.......
....... ..
....... .......
....... .......
85% ....... .......
.......
....... .....
........
...
....... .......
....... .......
....... .......
......
Taxi war grün ............
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
80% .......
.......
.......
.......
.......
. Zeuge sagt grün“
”
In diesem Wahrscheinlichkeitsbaum gibt es nur zwei Äste, die passiert sein können: nämlich diejenigen
Äste, bei welchen der Zeuge sagt, dass das Taxi blau“ war (denn das hat er ja tatsächlich gesagt). Welcher
”
dieser beiden Äste wiegt schwerer“? — Es ist der Ast, der von einem grünen Taxi ausgeht! Dieser Ast
”
hat nämlich eine Wahrscheinlichkeit von 0.85 · 0.2 = 0.17 = 17%, der andere nur eine Wahrscheinlichkeit
von 0.15 · 0.8 = 0.12 = 12%.
Es ist somit wahrscheinlicher, dass das Taxi grün war!
Anmerkung:
Ohne die Beobachtung des Augenzeugen — man sagt: a priori — beträgt die Wahrscheinlichkeit, dass
das Unfalltaxi blau war, 15%, denn 85% der Taxis auf der Straße sind grün.
Die Beobachtung des Augenzeugen ermöglicht ein Hinzulernen über diese Wahrscheinlichkeit. Die a-
priori-Wahrscheinlichkeit kann so verbessert“ werden zur a-posteriori -Wahrscheinlichkeit:
”
12
P (Taxi war blau | Zeuge sagt blau“) = = 0.414 = 41.4%
” 12 + 17
Diese bedingte Wahrscheinlichkeit ist das relative Gewicht“ des Asts, der von einem blauen Taxi ausgeht,
”
unter denjenigen beiden Ästen im Wahrscheinlichkeitsbaum, bei welchen der Zeuge blau“ sagt. Sie ist
”
mehr als doppelt so hoch wie die a-priori-Wahrscheinlichkeit, dass das Taxi blau war. Trotzdem ist es
noch wahrscheinlicher, dass das Taxi grün war; die Wahrscheinlichkeit dafür beträgt 58.6%.

a) Die folgende Ereignisse sind wichtig:
A ... Es passiert ein Einbruch. Ā ... Es passiert kein Einbruch.

B ... Es gibt einen Alarm. B̄ ... Es gibt keinen Alarm.
Der Hersteller der Alarmanlage sagt: P (B|A) = 0.99, P (B|Ā) = 0.01.

Die Einbruchsstatistik sagt: P (A) = 1/250, P (Ā) = 249/250.
Der zugehörige Wahrscheinlichkeitsbaum ist:
....
.......
.......
B: Alarm
9 ..........
0.9 .....................
......
.......
.......
.......
............
.
.......
.......
.......
............
.......
.......
.......
A: Einbruch .......
.......
.......
.. ....... .......
1 ....... .......
....... .......
0 ....... .......
25 .................... .......
.......
.......
....... .......
....... 0.0 .......
....... .......
.......
.......
... ..
. ... 1 .......
.......
....... kein
....... .
B̄:
.......
....... Alarm
.....
. .......
.
............
.......
.......
.......
.......
.......
.......
.......
.......
.....
.......
.......
B: Alarm
1 ..........
0.0...........................
.......
.......
.......
.......
.......
....... .......
24 ....... .......
9 ....... .......
....... .......
25 .......
....... ...........
0 ....... .
.......
.
.......
...... kein .......
............
Ā: .......
.......
Einbruch .......
.......
.......
.......
.......
.......
.......
.......
.......
0.9 .......
.......
9 .......
.......
.......
.
kein
B̄:
Alarm
b) Die Wahrscheinlichkeit, dass es in der Nacht einen Alarm gibt, ist:

1 249
P (B) = P (A) · P (B|A) + P (Ā) · P (B|Ā) = · 0.99 + · 0.01 = 0.0139 = 1.4%.
250 250
c) Laut Einbruchsstatistik ist das Einbruchsrisiko vor der Beobachtung des Alarms, d.h. das a-priori -
Einbruchsrisiko: P (A) = 1/250 = 0.4%.
Die Beobachtung des Alarms ermöglicht ein Lernen über das Einbruchsrisiko in dieser Nacht. Mit
dem Theorem von Bayes erhält man das a-posteriori -Einbruchsrisiko:
1
P (A) · P (B|A) · 0.99
P (A|B) = = 250 = 0.2845 = 28.4%.
P (B) 0.0139
d) Für den (erfahrenen) Nachtwächter, der das verdächtige Geräusch hört, ist das Einbruchsrisiko
vor der Beobachtung des Alarms 25mal so hoch wie das a-priori-Risiko aus der Einbruchsstatistik:
P (A) = 1/10 = 10%. Damit wird auch das a-posteriori -Einbruchsrisiko höher:
1
· 0.99
P (A|B) = 10 = 0.9167 = 91.7%.
1 9
· 0.99 + · 0.01
10 10

a) Ereignisse:
E = die Tasche enthält Sprengstoff, Ē = die Tasche enthält keinen Sprengstoff,

A = der Detektor zeigt Sprengstoff an, Ā = kein Sprengstoff wird angezeigt.
Damit hat man:

P (E) = 0.001, P (Ē) = 0.999,
P (A|E) = 0.999, P (Ā|E) = 0.001, P (A|Ē) = 0.05, P (Ā|Ē) = 0.95.
Ereignisbaum (mit Wahrscheinlichkeiten):
99............
; 0.........9.................
A .
......
.......
..
...
.......
.......
.....................
01 ............... .......
0.0...............
.......
.......
E; .......
.......
.. A¯; .......
.......
.......
.......
.......
0 .0 .......
.......
............
. 01 ..
.......
............
.......
.......
.......
....... 5 ......
.......
....... 0.0 .......
.......
.......
E¯; A;
.......
.......
....... ............
.
0 .9 ....... ......
....... .......
99 ....... ..............
..........
.......
.......
.......
.......
.......
A¯; .......
.......
.......
0.9 .......
.......
5
b) Gesucht ist P (E|A). Gemäß dem Bayes-Theorem:
P (A|E) · P (E) 0.999 · 0.001 1 1

P (E|A) = = = < .
P (A|E) · P (E) + P (A|Ē) · P (Ē) 0.999 · 0.001 + 0.05 · 0.999 51 50
c) Das Ereignis ist mit Wahrscheinlichkeit 50/51 ≈ 98% ein falscher Alarm. In Anbetracht des großen
Schäden, die ein Terroranschlag verursachen kann, ist die Wahl der Option 2 ratsam. Tatsächlich
veranlassten die Manager des Flughafens München im Januar 2010 die Schließung des Flughafens,
bis der Vorfall geklärt war.
d) Die Wahrscheinlichkeit, dass der Besitzer der Tasche Sprengstoff mitführt, ist subjektiv; sie hängt
vom Wissen der Beteiligten ab: Zum Beispiel weiß der Besitzer selber wohl sehr genau, ob seine
Tasche Sprengstoff enthält. Die Kontrolleure können dagegen nur allgemeine Annahmen treffen.
Die hier getroffenen Annahmen — also die a-priori-Wahrscheinlichkeiten P (E) = 0.001, P (Ē) =
0.999 — spiegeln das Wissen der Kontrolleure vor der Beobachtung des Detektor-Tests wider.
a) Sei X = Anzahl der Frauen in einer zufällig ausgewählten Gruppe von 10 Personen. Es gilt: X ∼
B(10, 0.41).
– Wie viele Frauen würde man dann unter den 10 Personen im Top-Management erwarten?
E(X) = 4.1, das heißt: Man würde vier Frauen erwarten.
– Wie groß ist die Wahrscheinlichkeit, dass sich im Top-Management überhaupt keine Frau
befindet?
P(X = 0) = 10
0 10
0 0.41 0.59 = 0.005.
R-Code: dbinom(0, size=10, prob=0.41).
– Wie groß ist die Wahrscheinlichkeit, dass sich im Top-Management genau eine Frau befindet?
P(X = 1) = 10 1 9
1 0.41 0.59 = 0.036.

– Wie groß ist die Wahrscheinlichkeit, dass sich im Top-Management mindestens eine Frau be-
findet?
P(X ≥ 1) = 1 − P(X = 0) = 0.995.
R-Code: 1-dbinom(0, size=10, prob=0.41); mit der Verteilungsfunktion pbinom:
1-pbinom(0, size=10, prob=0.41)
oder
pbinom(0, size=10, prob=0.41, lower.tail = FALSE).
b) Das legt die Vermutung nahe, dass Frauen in diesem Unternehmen nicht dieselben Chancen wie
Männer haben, ins Top-Management aufzusteigen.
a) Die Zufallsvariable X = Zahl der Kunden, die freitags zwischen 10 und 10:15 Uhr anrufen“ ist
”
(näherungsweise) poissonverteilt. Das geschätzte Modell ist: X ∼ Po(5).
Begründung: Es werden Erfolge gezählt: Anrufe. Der Zeitraum zwischen 10 und 10:15 Uhr umfasst
viele Versuche: kurze Zeitintervalle, z.B. 1-Sekunden-Intervalle, in welchen ein Anruf passieren kann
oder nicht passieren kann. Die Wahrscheinlichkeit (die Erfolgswahrscheinlichkeit), dass in einer
bestimmten Sekunde ein Anruf passiert, ist aber sehr klein, fast Null. Trotzdem: Anrufe passieren,
durchschnittlich 5 Anrufe gibt es im gesamten Zeitraum. Damit kann man schätzen: λ̂ = x̄ = 5.
50 −5
Die gesuchte Wahrscheinlichkeit ist: P (X = 0) = e = 0.007 = 0.7%.
0!
R-Code: dpois(0, lambda=5).
b) Die Zufallsvariable Y = Zahl der Anrufe, die sofort bedient werden“ ist binomialverteilt: Y ∼
”
B(5, 0.8).
Begründung: Es gibt n = 5 unabhängige Versuche: Anrufe. Es wird beobachtet, ob der Anruf sofort
bedient wird (Erfolg) oder nicht (Misserfolg). Die Erfolgswahrscheinlichkeit ist bei jedem Versuch
p = 0.8.

5
Die gesuchte Wahrscheinlichkeit ist: P (Y = 5) = 0.85 0.20 = 0.85 = 0.328 = 32.8%.
5
a) Aus der gegebenen Häufigkeitsverteilung errechnet man:
x̄ = (0 · 16 + 1 · 14 + 2 · 4 + 3 · 2)/36 = 0.78
2
s = (02 · 16 + 12 · 14 + 22 · 4 + 32 · 2)/36 − 0.782 = 0.72
b) Man kann hier sagen, dass seltene Ereignisse in einer langen Versuchsreihe gezählt werden: Ein
Stromausfall (das Erfolgsereignis) kann jede Minute passieren. Die Wahrscheinlichkeit, dass ein
Stromausfall innerhalb einer ganz bestimmten Minute passiert (die Erfolgswahrscheinlichkeit), ist
aber sehr gering. Andererseits ist die Zahl der Minuten in einer Woche (die Anzahl der Versuche)
sehr groß, und die erwartete Anzahl der Stromausfälle in einer Woche ist nicht gleich Null. Dieser
Aufbau des Zufallsexperiments passt genau zum Grenzwertsatz von Poisson.
Zudem sind die mittlere Anzahl der Stromausfälle pro Woche und die Varianz der wöchentlichen
Beobachtungen fast gleich, was auch zur Annahme einer Poissonverteilung passt. Hiermit lässt sich
auch die Wahl des Parameterwerts für λ begründen: λ ist insbesondere der Erwartungswert der
Poissonverteilung (die erwartete Anzahl der Stromausfälle pro Woche) und kann mit der mittleren
Anzahl der Stromausfälle pro Woche geschätzt werden: λ̂ = x̄ = 0.78.

c) Sei X eine Zufallsvariable für die wöchentliche Anzahl der Stromausfälle, X ∼ Po(0.78). Damit ist
die gesuchte Wahrscheinlichkeit:
0.780 −0.78
P (X = 0) = e = 0.458 = 45.8%.
0!
(R-Code: dpois(0, lambda=0.78).)
Im Vergleich dazu: Beobachtet wurden 16 Wochen, in denen es nicht zum Stromausfall kam; die
zugehörige relative Häufigkeit ist 16/36 = 0.444 = 44.4%, d.h. unweit der obigen Wahrscheinlichkeit.
Auch dieses Ergebnis stützt die Verteilungsannahme.
d) Zwei weitere Beispiele sind: die Anzahl der Kundenankünfte im Supermarkt freitags zwischen 9 und
10 Uhr, die Anzahl der Druckfehler auf einer Seite.
a) Der IQ-Wert einer zufällig ausgewählten Person ist eine Zufallsvariable X ∼ N(100, 225). Die
gesuchte Wahrscheinlichkeit bekommt man mittels Standardisierung und der Tabelle der Standard-
normalverteilung:
X − 100 115 − 100
P (X < 115) = P( √ < √ ) = P (Z < 1) = 0.8413 = 84.13%.
225 225
X − 100
Dabei ist Z = √ ∼ N(0, 1).
225
R-Code zur Berechnung der Wahrscheinlichkeit P (Z < 1) mit der Verteilungsfunktion der Stan-
dardnormalverteilung:
pnorm(1) ≡ pnorm(1, mean = 0, sd = 1)
Die eigentlich gesuchte Wahrscheinlichkeit P (X < 115) kann man aber auch direkt, mit der Ver-
teilungsfunktion von X selber, berechnen. Im Command pnorm sind dazu die passenden Parameter
einzusetzen:
pnorm(115, mean = 100, sd = sqrt(225))
b) Gesucht ist derjenige IQ-Wert x, für welchen gilt:

! !
P (X > x) = 0.1 bzw. P (X ≤ x) = 0.9.
X − 100
Für Z = √ kann man den entsprechenden Wert z (das 90%-Quantil der Standardnormalver-
225
teilung) aus der Tabelle ablesen:
!
P (Z ≤ z) = 0.9 für z = 1.28 (gerundet).
Für den gesuchten IQ-Wert x muss man dann nur die Standardisierung umkehren:
! x − 100
z = 1.28 = √ .
225
√
Auflösung nach x ergibt: x = 100 + 1.28 · 225 = 119.2. 10% aller Personen erreichen also einen
IQ-Wert von mehr als 119.
Mit R bekommt man das gesuchte 90%-Quantil der Verteilung von X auch direkt:
qnorm(0.9, mean = 100, sd = sqrt(225))

c) Der IQ-Wert der Person Nr. i ist eine Zufallsvariable Xi ∼ N(100, 225), i = 1, . . . , 100. Somit
ist X̄ = (X1 + · · · + X100 )/100 eine Zufallsvariable für den durchschnittlichen IQ-Wert unter 100
Personen.
Unter der Annahme, dass die IQ-Werte der Personen voneinander unabhängig sind, gilt:
225
X̄ ∼ N(100, )
100
X̄ − 100
Wegen Z = q ∼ N(0, 1) findet man dann:
225
100
97 − 100 103 − 100

P (97 < X̄ < 103) = P( q <Z< q ) = P (−2 < Z < 2),
225 225
100 100
unter Ausnutzung der Symmetrie der Standardnormalverteilung:
= 1 − 2 · P (Z > 2),
mit der Tabelle der Standardnormalverteilung:
= 1 − 2 · (1 − P (Z < 2)) = 1 − 2 · (1 − 0.9772)

= 1 − 2 · 0.0228 = 1 − 0.0456 = 0.9544 = 95.44%.
Es handelt sich hier um die Wahrscheinlichkeit, dass der durchschnittliche IQ-Wert ein Ergebnis im
sogenannten 2-Sigma-Bereich zeigt!
Anmerkung:
Die gesuchte Wahrscheinlichkeit lässt sich auch als Differenz zweier Wahrscheinlichkeiten schreiben,
nämlich:
P (97 < X̄ < 103) = P (X̄ < 103) − P (X̄ < 97)
= P (Z < 2) − P (Z < −2) = P (Z < 2) − P (Z > 2)
= 1 − 2 · P (Z > 2) = . . . = 95.44%
R-Code:
pnorm(103, mean = 100, sd = sqrt(225/100))
- pnorm(97, mean = 100, sd = sqrt(225/100))
Lösung zu Aufgabe 23: Sei X = Gewicht eines zufällig ausgewählten Eis (in Gramm). Es gilt:
X ∼ N(57.8, 3.22 ).
a) Für die Standardnormalverteilung und daher auch für das standardisierte Gewicht X gilt ungefähr:

X − 57.8
P −2 ≤ ≤ +2 ≈ 0.95
3.2
Auflösen der Ungleichungen so, dass X in der Mitte steht:
57.8 − 2 · 3.2 ≤ X ≤ 57.8 + 2 · 3.2 oder 51.4 ≤ X ≤ 64.2
Das gesuchte Intervall (mit Werten in Gramm) ist also: [51.4, 64.2]. Es ist der 2-Sigma-Bereich der
Verteilung von X!
b) Gesucht ist: P (X > 60). Diese Wahrscheinlichkeit ist:

X − 57.8 60 − 57.8 2.2
P > =P Z> = P (Z > 0.6875),
3.2 3.2 3.2
mit Z ∼ N(0, 1).

Die Gegenwahrscheinlichkeit P (Z < 0.6875) findet man in der Tabelle der Standardnormalvertei-
lung approximativ, wenn man den z-Wert auf 2 Nachkommastellen rundet (0.6875 ≈ 0.69) :
P (Z < 0.69) = 0.7549,
oder etwas genauer durch lineare Interpolation:

0.6875 − 0.68
P (Z < 0.6875) = P (Z < 0.68) + (P (Z < 0.69) − P (Z < 0.68)) ·
0.69 − 0.68
= 0.7517 + (0.7549 − 0.7517) · 0.75 = 0.7541
Also ist:
P (X > 60) = 1 − 0.7541 = 0.2459 = 24.59%
Das heißt: Etwa 25% der Eier werden schwerer sein als 60 Gramm.
R-Code unter direkter Verwendung der Verteilung von X:

pnorm(60, mean = 57.8, sd = 3.2, lower.tail = FALSE)
c) Stichprobe von 10 Eiern (Variable: Gewicht): X1 , . . . , X10 iid, Xi ∼ N(57.8, 3.22 ).

Gesamtgewicht der 10 Eier:
10
X
Y = Xi ∼ N(578, 10 · 3.22 )
i=1
Gesucht ist: P (Y > 600). Diese Wahrscheinlichkeit ist:

X − 578 600 − 578
P √ >√ = P (Z > 2.174) = 1 − P (Z < 2.174)
10 · 3.22 10 · 3.22
= 1 − 0.985 = 0.015 = 1.5%
Diese Wahrscheinlichkeit ist wesentlich kleiner als diejenige in (b). Der Grund dafür ist, dass bei
(b) nur ein Ei relativ schwer ist, bei (c) dagegen das Durchschnittsgewicht hoch ist. Letzteres ist
weniger wahrscheinlich, weil sich die Gewichte der Eier im Ensemble ausgleichen.
R-Code:
pnorm(600, mean = 578, sd = sqrt(10*3.2ˆ2), lower.tail = FALSE)
d) Mit 100 beobachteten Werten dürfen wir nach der 3-Sigma-Regel annehmen, dass die extremen
Werte 450 Stunden und 504 Stunden ein Intervall darstellen, das sechs Standardabweichungen breit
ist. Damit bekommt man eine grobe Abschätzung:
1
Standardabweichung s = 6 (504 − 450) = 9 [Stunden]
Varianz s2 = 81 [Stunden2 ]
Die tatsächliche Varianz kennt man damit natürlich nicht. Das hier geschilderte Vorgehen ist auch
kein vollständiger Ersatz für die Berechnung eines exakten Schätzers, aber man bekommt immerhin
eine schnelle Abschätzung der Größenordnung der Standardabweichung und Varianz auf einen Blick!
a) Die Zufallsvariable X = Zahl der Personen in der Stichprobe, die das Programm gesehen haben“
”
ist (näherungsweise) binomialverteilt: X ∼ B(4 000, p).
Dabei ist p die Einschaltquote in der gesamten Population der potenziellen Zuschauer.
Begründung: Man hat hier zwar eine Zufallsstichprobe ohne Zurücklegen, aber aus der sehr großen
Population der potenziellen Zuschauer, so dass man (näherungsweise) eine Zufallsstichprobe mit
Zurücklegen hat. X ist die Anzahl der Erfolge“ bei n = 4 000 unabhängigen Versuchen. Dabei ist
”
Erfolg“ = Die ausgewählte Person hat das Programm gesehen“. Die Erfolgswahrscheinlichkeit ist
” ”
bei jedem Versuch p.

Falls es ein typischer Tag ist, d.h. falls die Zuschauerquote in der gesamten Population 10% beträgt,
hat man:
X ∼ B(4 000, 0.1)
Erwartungswert: E(X) = 4 000 · 0.1 = 400.
Varianz: var(X) = 4 000 · 0.1 · (1 − 0.1) = 360.
Insbesondere ist var(X) > 9, also ist X nach dem Zentralen Grenzwertsatz approximativ normal-
verteilt:
appr.
X ∼ N(400, 360).
X − 400 appr.
b) Mit Hilfe der Normalverteilung und wegen Z = √ ∼ N(0, 1) bekommt man:
360
P (X = 400) = 0%
350 − 400
P (X ≤ 350) = P (Z ≤ √ ) = P (Z ≤ −2.635) = P (Z ≥ 2.635)
360
= 1 − P (Z ≤ 2.635) = 1 − 0.9958 = 0.0042 = 0.42%
P (X ≤ 350 oder X ≥ 450) = P (X ≤ 350) + P (X ≥ 450) = 2 · P (X ≤ 350)
= 2 · 0.42% = 0.84%
R-Code für die letzte Wahrscheinlichkeit:

pnorm(350, mean = 400, sd = sqrt(360))
+ pnorm(450, mean = 400, sd = sqrt(360), lower.tail = FALSE)

a) Der unbekannte Anteil p derjenigen jungen Erwachsenen in Deutschland, die die richtige Antwort
wissen, wird mit dem Stichprobenanteil p̂ geschätzt.
Anmerkung:
Nach dem Zentralen Grenzwertsatz gilt:
appr. p · (1 − p)
p̂ ∼ N(p, )
300
Die Stichprobe liefert eine Realisierung dieser Zufallsvariablen: p̂ = 84/300 = 0.28.

Approximative 95%-Konfidenzgrenzen sind somit:
r
0.28 · (1 − 0.28)
0.28 ± 1.96 · = 0.28 ± 0.0508
300
und das approximative 95%-Konfidenzintervall für p ist:
[0.28 − 0.0508, 0.28 + 0.0508] = [0.229, 0.331]
(Bonusfrage: Für welche Werte von p mit 0 < p < 1 gilt: 300 p(1 − p) > 9? Warum ist diese Frage
hier wichtig? Oder ist die Frage hier doch nicht so wichtig??)
b) Nein! Man kann nicht sagen, dass mehr als ein Viertel der jungen Erwachsenen in Deutschland die
richtige Antwort weiß. Lediglich für die Personen in der Stichprobe ergab sich ein Anteil von mehr
als einem Viertel.
Das Konfidenzintervall liegt nämlich nicht vollständig rechts von 25%. Man kann darauf vertrauen
(mit einem Vertrauensgrad von 95%), dass der Anteil der jungen Erwachsenen in Deutschland, die
die richtige Antwort wissen, zwischen 22.9% und 33.1% liegt — ein Anteil von unter 25% ist also
auch plausibel.

c) Nein! Die Zahl der jungen Erwachsenen in der Stichprobe, die die richtige Antwort wissen, ist
binomialverteilt. Das Modell der Binomialverteilung geht immer davon aus, dass die Population
unendlich groß ist — die tatsächliche Größe spielt keine Rolle. Unter gleichen Umständen (hinsicht-
lich des Parameters p) werden 95%-Konfidenzintervalle bei gleichen Stichprobenumfängen also etwa
gleich lang sein, egal wie groß die Population ist.
a) Ein Punktschätzer für µ ist der Stichprobenmittelwert: µ̂ = X̄. Aus den beobachteten Daten be-
1
rechnet man: µ̂ = x̄ = · 179.69 = 11.98.
15
b) Man kann aber nicht sagen, dass µ gleich 11.98 ist, denn µ und µ̂ sind nicht dasselbe!
µ ist eine feste Zahl, die den Schneideprozess an der betreffenden Maschine charakterisiert, nur leider
unbekannt ist, während µ̂ eine Zufallsvariable ist, deren Wert in einer Stichprobe beobachtet werden
kann, jedoch von Stichprobe zu Stichprobe variiert. Man kann lediglich sagen: Die durchschnittliche
Rohrlänge in der Stichprobe beträgt 11.98 Inch. Doch darauf, dass µ gleich 11.98 Inch ist, kann man
nicht vertrauen. Vielleicht liegt µ aber in der Nähe, ein Konfidenzintervall für µ hilft hier weiter.
c) Ein Konfidenzintervall für µ ist ein Intervall, das symmetrisch um den Punktschätzer µ̂ konstruiert
ist und die Variabilität des Werts von µ̂ in Stichproben gleichen Umfangs berücksichtigt. Dazu ist
Information über die Standardabweichung σ der Rohrlänge nötig. Aus Erfahrung weiß man hier:
σ = 0.1. Es gilt hier:
σ2
µ̂ ∼ N(µ, ),
15
σ 0.1
der Standardfehler (die Standardabweichung) von µ̂ ist damit: √ = √ .
15 15
95%-Konfidenzgrenzen sind daher:
0.1
11.98 ± 1.96 · √ = 11.98 ± 0.05
15
Das 95%-Konfidenzintervall für µ ist:
[11.98 − 0.05, 11.98 + 0.05] = [11.93, 12.03]
d) Mit einem Vertrauensgrad von 95% liegt µ zwischen 11.93 Inch und 12.03 Inch. Die Solllänge von
12 Inch liegt im Konfidenzintervall.
Das bedeutet: Die Beobachtungen geben keinen Hinweis darauf, dass µ von 12 Inch verschieden ist,
12 Inch ist ein plausibler Wert für µ. Daher besteht kein Anlass zur Nachjustierung der Maschine.
Allerdings kann man nicht darauf vertrauen, dass µ tatsächlich gleich 12 Inch ist, denn alle anderen
Werte im Konfidenzintervall sind ja auch plausible Werte von µ. Vielleicht sind diese anderen Werte
aber noch tolerabel.
(Bonusfrage: In der Stichprobe gibt es kein einziges Rohr, welches die Solllänge von 12 Inch genau
einhält. Müsste man dann nicht sofort an Nachjustierung denken?? — Nein! Selbst wenn µ = 12
wahr ist, bedeutet das nicht, dass es dann in einer Stichprobe mindestens ein Rohr mit dieser Länge
geben muss. Warum?)
a) R-Code:
(i) x = rnorm(100, mean = 10, sd = sqrt(5))

(ii) y = rnorm(1000, mean = 10, sd = sqrt(5))

b) Ein Punktschätzer für µ ist der Stichprobenmittelwert:
µ̂ = x̄.
2
Ein Punktschätzer für σ ist die Stichprobenvarianz; Software benutzt hier automatisch die folgende
Formel, mit einer für kleine Stichproben notwendigen Korrektur:
1 X
σ̂ 2 = s2 = (xi − x̄)2 .
n−1
R-Code, am Beispiel des Vektors (der Stichprobe, Simulation) x:
µ̂: mean(x)
σ̂ 2 : var(x)
c) Jede Stichprobe (jede Simulation) erzeugt ein anderes Set von Daten. Die Daten selbst sind von
einem stochastischen Modell (hier: eine Normalverteilung, n Versuche) erzeugt (Paradigma der Sta-
tistik). Die Ergebnisse für µ̂ und σ̂ 2 sind damit auch von Stichprobe zu Stichprobe (von Simulation
zu Simulation) verschieden. Daher sind µ̂ und σ̂ 2 Zufallsvariablen mit Realisierungen für die kon-
krete Stichprobe. Es gibt Wahrscheinlichkeitsverteilungen, welche diese Realisierungen erzeugen.
Da die Daten aus unabhängigen Simulationen einer Normalverteilung mit Mittelwert µ = 10 und
Varianz σ 2 = 5 stammen, hat man:
5 n−1 2
µ̂ ∼ N(10, ), σ̂ ∼ χ2n−1
n 5
Viele Realisierungen von µ̂ und σ̂ 2 gewinnt man aus vielen Simulationen. Daraus ergeben sich
empirische Verteilungen, die man mit den obigen Wahrscheinlichkeitsverteilungen vergleichen kann.
Der folgende R-Code zeigt den Vergleich.
1000 Wiederholungen der Simulation eines Vektors x (der Länge n) und Zusammenstellung der
Ergebnisvektoren in der Matrix x.sims:
n = 100
x.sims = matrix(rnorm(n*1000, mean = 10, sd = sqrt(5)), ncol = 1000)
Schätzung von µ aus jeder Simulation und Darstellung der 1000 Schätzergebnisse (Realisierungen
von µ̂) in einem Histogramm:
mu.est = colMeans(x.sims)
mu.est
hist(mu.est)
Vergleich dieser empirischen Verteilung mit der theoretischen Normalverteilung für µ̂:
(Hierzu muss das Histogramm in der Vertikalen die Dichte an Stelle von Häufigkeiten zeigen.)
hist(mu.est, freq = FALSE)

quantiles = seq(10-3*sqrt(5/n), 10+3*sqrt(5/n), 0.01)
lines(quantiles, dnorm(quantiles, mean = 10, sd = sqrt(5/n)), col=’red’)
Schätzung von σ 2 aus jeder Simulation und Darstellung der 1000 Schätzergebnisse (Realisierungen
n−1 2
von σ̂ 2 ) — umskaliert zu σ̂ — in einem Histogramm:
5
sigma2.est = apply(x.sims, 2, var)
sigma2.est
hist((n-1)*sigma2.est/5)
n−1 2
Vergleich dieser empirischen Verteilung mit der theoretischen χ2 -Verteilung für σ̂ :
5
(Hierzu muss das Histogramm in der Vertikalen die Dichte an Stelle von Häufigkeiten zeigen.)
hist((n-1)*sigma2.est/5, freq = FALSE)

quantiles = seq(0, 2*n, 1)
lines(quantiles, dchisq(quantiles, df = n-1), col=’red’)


a) – Xiaoyaos Nullhypothese H0 : p = 1/6 ist abgelehnt worden. Das bedeutet: Wir haben etwas
beobachtet (nämlich: 30mal die Vier“ in 120 Würfen), das zu weit weg von den erwarteten
”
20mal Vier“ ist, falls H0 wahr ist. Eine Beobachtung von 30mal die Vier“ oder öfter hat
” ”
eine sehr kleine Wahrscheinlichkeit (kleiner als 5%/2 = 2.5%), falls H0 wahr ist, und kann
eine viel größere Wahrscheinlichkeit haben, falls H1 : p ̸= 1/6 wahr ist. Man kann auch sagen:
p̂ = 30/120 = 1/4 ist signifikant verschieden vom erwarteten Anteil 1/6, falls H0 wahr ist.
– Wir können immer noch nicht sicher sein, dass der Würfel verfälscht ist. Um das zu wissen,
müssten wir den Würfel werfen, bis er kaputt (oder verloren) ist! Das dauert zu lang. Die
Statistik bietet einen Kompromiss: Wir haben schnell ein Ergebnis, sogar mit Fehlerkontrolle,
aber ganz sicher können wir eben nicht sein.
b) Es könnte ein Fehler erster Art passiert sein, nämlich: Ist die Hypothese tatsächlich wahr, so wurde
sie hier irrtümlich abgelehnt. Die Wahrscheinlichkeit für eine solche Fehlentscheidung beträgt jedoch
höchstens α = 5%. Dieser Fehler ist also unter Kontrolle. Wir können darauf vertrauen, dass die
Entscheidung, die Hypothese abzulehnen, richtig war.

a) Approximative 95%-Konfidenzgrenzen für p sind:
r r
p̂(1 − p̂) 0.537 · 0.463
p̂ ± 1.96 · = 0.537 ± 1.96 ·
n 1000
= 0.537 ± 0.031
Das approximative 95%-Konfidenzintervall für p ist damit: [0.506, 0.568]
b) H0 : p = 0.5 wird gegen H1 : p ̸= 0.5 (zum Signifikanzniveau α = 5%) abgelehnt, weil der hypotheti-
sche Wert 0.5 nicht im Konfidenzintervall für p enthalten ist. Wir könnten damit einen Fehler 1. Art
gemacht haben, das bedeutet: Wir lehnen die Nullhypothese der Chancengleichheit von Kopf“ und
”
Zahl“ ab, obwohl sie wahr ist. Ein Fehler 1. Art ist aber höchstens mit der Wahrscheinlichkeit
”
α = 5% passiert. Daher vertrauen wir darauf, dass kein Fehler 1. Art passiert ist, und, dass die
Münze tatsächlich mit größerer Wahrscheinlichkeit Kopf“ zeigt, weil das Konfidenzintervall nur
”
Werte oberhalb von 0.5 enthält.
c) Der prob-value ist hier die Wahrscheinlichkeit unter H0 , dass man in der Stichprobe eine Reali-
sierung von p̂ beobachtet, die von 0.5 (erwartet unter H0 ) mindestens so weit weg ist wie 0.537
(tatsächlich beobachtet). Oder, anders ausgedrückt: die Wahrscheinlichkeit, dass der Abstand zwi-
schen dem beobachteten Anteil p̂ und dem unter H0 erwarteten Anteil 0.5 mindestens 0.537 − 0.5 =
0.037 beträgt — das gilt für alle großen Werte ab 0.537, aber auch für alle kleinen Werte bis
0.5 − 0.037 = 0.463:
P (|p̂ − 0.5| ≥ 0.037) = P (p̂ ≤ 0.463 oder p̂ ≥ 0.537) = 0.0192 = 1.92%
Der prob-value ist kleiner als das Signifikanzniveau α = 5%, also wird H0 abgelehnt — wir erhalten
dasselbe Testergebnis wie in (b)!
Zur Berechnung des prob-values:

Diese Wahrscheinlichkeit bekommt man mit dem Modell der Normalverteilung. Unter H0 gilt
nämlich approximativ:
0.5 · 0.5
p̂ ∼ N(0.5, ) = N(0.5, 0.00025)
1000
Den gesuchten prob-value kann man dann wegen der Symmetrie dieser Normalverteilung um den
hypothetischen Wert 0.5 so finden:
P (p̂ ≤ 0.463 oder p̂ ≥ 0.537) = 2 · P (p̂ ≥ 0.537) = 2 · 0.0096 = 0.0192 = 1.92%

Die Wahrscheinlichkeit P (p̂ ≥ 0.537) bekommt man dabei mit einer Tabelle von Wahrscheinlichkei-
ten für die Standardnormalverteilung:

p̂ − 0.5 0.537 − 0.5
P (p̂ ≥ 0.537) = 1 − P ((p̂ ≤ 0.537) = 1−P √ ≤ √
0.00025 0.00025
= 1 − P (Z ≤ 2.34)
= 1 − 0.9904 = 0.0096,
oder mit Hilfe von R:

pnorm(0.537, mean = 0.5, sd = sqrt(0.00025), lower.tail = FALSE)
d) Gemäß den einleitenden Bemerkungen hatten die Statistiker wohl von Anfang an (noch bevor die
hier verwendeten Daten gesammelt wurden) die Vermutung (oder die Hypothese), dass p > 0.5 ist.
Um diese Forschungshypothese zu untermauern, ist Variante 2 sinnvoll: Sofern H0 abgelehnt wird,
kann man sagen, p sei signifikant größer als 0.5; in diesem Fall könnte zwar ein Fehler 1. Art passiert
sein, aber wir vertrauen darauf, dass das nicht passiert ist, weil die Wahrscheinlichkeit dafür sehr
gering ist (höchstens so groß wie das Signifikanzniveau α = 5%.
e) Bei Variante 2 sind die großen Werte von p̂ kritisch für H0 . Daher ist der prob-value von H0 die
Wahrscheinlichkeit, dass p̂ mindestens 0.537 ist, sofern p = 0.5 wahr ist; diese Wahrscheinlichkeit ist
gleich 0.0096=0.96% (die Hälfte des prob-values in (c)). Also wird auch H0 in Variante 2 abgelehnt.
f) Die entscheidende Frage ist: Woher stammt die Vermutung der Statistiker, dass p größer ist als 0.5?
Es ist nicht zulässig, aus einem Datensatz eine Hypothese abzuleiten und diese Hypothese dann
mit demselben Datensatz zu testen — damit verliert man die Kontrolle über die Wahrscheinlichkeit
für den Fehler 1. Art. Sofern die Vermutung der Statistiker unabhängig von den hier verwendeten
Daten zustande kam, ist gegen das hier beschriebene Vorgehen nichts einzuwenden.
Die Verwendung eines frischen“ Datensatzes würde auch die Wiederholbarkeit des Experiments
”
demonstrieren.
a) Die Alternative H1 : p > 50% zeigt das Interesse des Fabrikanten: Er ist daran interessiert, zu
zeigen, dass der Anteil p grösser als 50% ist, d.h. dass eine Mehrheit seiner potenziellen Kunden die
neue Geschmacksrichtung gegenüber der traditionellen bevorzugt.
Wird H0 beim Test nämlich abgelehnt, dann hat der Fabrikant empirische Evidenz, dass H1 wahr
ist. Er kann dann darauf vertrauen, dass eine Mehrheit seiner potenziellen Kunden die neue Ge-
schmacksrichtung gegenüber der traditionellen bevorzugt. Der Fehler erster Art, nämlich die irr-
tümliche Ablehnung von H0 , kann dabei natürlich nicht ausgeschlossen werden, ist aber unter Kon-
trolle. H0 wird nämlich nur dann abgelehnt, wenn signifikant mehr als 50% der Testpersonen die
neue Geschmacksrichtung bevorzugen. Der Fehler erster Art passiert mit einer Wahrscheinlichkeit
von höchstens 5% (dem Signifikanzniveau).
Möglicher Hintergrund:
Der Fabrikant steht möglicherweise vor der Entscheidung, ob er die neue Geschmacksrichtung
überhaupt auf den Markt bringen soll, und wie er sie dann gegenüber der traditionellen in Produk-
tion und Werbung positionieren soll. Er will darauf vertrauen können, dass er die richtige Entschei-
dung trifft, wenn er die neue Geschmacksrichtung produziert und auf den Markt bringt. Zudem
könnte er interessiert sein, damit zu zeigen, dass sich die Entwicklungskosten gelohnt haben.
Anmerkung:
Testet der Fabrikant hier (mangels Verständnis für die Philosophie des statistischen Tests) die Null-
hypothese H0 : p ≥ 50% gegen die Alternative H1 : p < 50%, so wird diese nur dann abgelehnt, wenn
ein signifikant geringerer Anteil als 50% der Testpersonen die neue Geschmacksrichtung bevorzugt.

Wird diese Nullhypothese aber beim Test nicht abgelehnt, so kann das Risiko einer Fehlentschei-
dung (Fehler zweiter Art, irrtümliche Nicht-Ablehnung von H0 ) je nachdem, wo der wahre Wert
von p liegt, sehr hoch sein, nämlich bis zu 1 − α = 95%.
b) In der Stichprobe beobachtet man einen Anteil p̂ = 55/100 = 55% von Personen, die die neue
Geschmacksrichtung bevorzugen. Kritisch für H0 sind hier nur die zu großen Werte von p̂, nämlich
diejenigen, die signifikant größer als der hypothetische Wert 50% sind. Der prob-value von H0
ist daher die Wahrscheinlichkeit, dass in einer Stichprobe von 100 Testpersonen mindestens 55%
Personen die neue Geschmacksrichtung bevorzugen, wenn der wahre Anteil unter allen potenziellen
Kunden p = 50% ist.
c) Der prob-value von H0 ist größer als das Signifikanzniveau α = 5%. Die Hypothese H0 wird also
nicht abgelehnt.
Anmerkung zur Berechnung:
appr.
Ist p = 50%, so ist p̂ ∼ N 0.5, 0.5·0.5

100 = N(0.5, 0.0025), und die gesuchte Wahrscheinlichkeit ist:

p̂ − 0.5 0.55 − 0.5
P (p̂ > 0.55) = P √ > √ = P (Z > 1) = 1 − P (Z ≤ 1)
0.0025 0.0025
= 1 − 0.8413 = 0.1587 = 15.87%.
d) Ein Anteil von 55% ist offenbar nicht signifikant größer als 50%, falls p = 50% wahr ist. Der
Fabrikant hat keine empirische Evidenz, dass eine Mehrheit der potenziellen Kunden die neue
Geschmacksrichtung bevorzugt.
e) Es könnte ein Fehler zweiter Art passiert sein, nämlich: Ist die Hypothese tatsächlich falsch, dann
wurde sie hier irrtümlich nicht abgelehnt. Die Wahrscheinlichkeit für eine solche Fehlentscheidung
kann, je nachdem, wo der wahre Wert von p liegt, sehr hoch sein, sogar bis zu 1 − α = 95% (falls p
in Wahrheit nur knapp über 50% liegt).
f) Eine größere Stichprobe! Für eine größere Stichprobe ist die Trennschärfe des Tests höher: Die
Beobachtung p̂ = 55% in einer größeren Stichprobe könnte signifikant größer als 50% sein, und die
Hypothese würde abgelehnt werden.
a) Wir testen die Nullhypothese H0 : µ = 0% gegen die Alternative H1 : µ ̸= 0%.

Als Testgröße wählen wir das arithmetische Mittel µ̂ = X̄ der Tagesrenditen in der Stichprobe. µ̂ ist
approximativ normalverteilt, und, falls H0 wahr ist, hat es den Erwartungswert 0%. Die zugehörige
2.6
Standardabweichung (der Standardfehler von µ̂) wird geschätzt auf √ = 0.164%. Also:
250
appr.
µ̂ ∼ N 0, 0.1642

Kritisch für H0 sind die zu kleinen und zu großen Werte von µ̂, also Werte außerhalb des Intervalls
[0 − 1.96 · 0.164; 0 + 1.96 · 0.164] = [−0.32%; +0.32%]
In der Stichprobe beobachten wir µ̂ = 0.3%. Dieser Wert ist nicht kritisch, H0 wird daher nicht abge-
lehnt. Es gibt keine empirische Evidenz dafür, dass die erwartete Tagesrendite µ von 0% verschieden
ist.
Wir könnten mit dieser Testentscheidung einen Fehler 2. Art gemacht haben, das bedeutet: Wir
lehnen die Nullhypothese nicht ab, obwohl sie falsch ist. Ein Fehler 2. Art kann mit einer Wahr-
scheinlichkeit von bis zu 1 − α = 95% passiert sein. Wir können daher nicht darauf vertrauen, dass
kein Fehler 2. Art passiert ist. Die Nicht-Ablehnung von H0 ist keine Bestätigung von H0 . Wir
wissen damit also nicht mehr als vorher.

Anmerkung zur Berechnung der kritischen Grenzen:
Die theoretische Standardabweichung der Tagesrendite ist hier unbekannt und damit auch die Stan-
dardabweichung von µ̂. Sie muss geschätzt werden. Trotzdem ist hier die Verwendung des Multi-
plikators 1.96 aus der Standardnormalverteilung als Approximation vertretbar. Das analoge 97.5%-
Quantil der t-Verteilung mit 250 − 1 = 249 Freiheitsgraden ist 1.9695 (R-Code: qt(0.975, df =
249)) und wegen des großen Stichprobenumfangs bereits nahe an 1.96.
b) Diese Wahrscheinlichkeit ist der prob-value von H0 in (a), nämlich: die Wahrscheinlichkeit unter
H0 , dass die Realisierung von µ̂ in der Stichprobe mindestens so weit weg von 0% (erwartet unter
H0 ) ist wie 0.3% (tatsächlich beobachtet).
Der prob-value von H0 ist größer als das Signifikanzniveau α = 5%, daher wird H0 nicht abgelehnt.
Zur Berechnung des prob-values:

Wegen der Symmetrie der hypothetischen Normalverteilung um 0% hat man:
P (µ̂ ≤ −0.3% oder µ̂ ≥ +0.3%) = 2 · P (µ̂ ≥ +0.3%) = 2 · 0.0336 = 0.0672 = 6.72%
Die Wahrscheinlichkeit P (µ̂ ≥ +0.3) bekommt man dabei mit einer Tabelle von Wahrscheinlichkei-
ten für die Standardnormalverteilung:

µ̂ − 0 +0.3 − 0
P (µ̂ ≥ +0.3) = 1 − P (µ̂ ≤ +0.3) = 1 − P ≤
0.164 0.164
= 1 − P (Z ≤ +1.83)
= 1 − 0.9664 = 0.0336 = 3.36%,
oder mit R:
pnorm(0.3, mean = 0, sd = sqrt(0.164), lower.tail = FALSE)
c) Approximative 95%-Konfidenzgrenzen für µ sind:

2.6
µ̂ ± 1.96 · √ = 0.3 ± 1.96 · 0.164
250
Ein approximatives 95%-Konfidenzintervall für µ ist damit: [−0.0214, 0.6214].
Interpretation:
Die Aussage, die erwartete Tagesrendite µ liege zwischen −0.0214% und 0.6214%, hat den Vertrau-
ensgrad 95%.
Test von H0 : µ = 0% gegen H1 : µ ̸= 0%:
Der hypothetische Wert 0% liegt im Konfidenzintervall, ist also unter den plausiblen Werten für µ.
H0 wird daher (zum Signifikanzniveau α = 5%) nicht abgelehnt.
a) Ein Punktschätzer für das erwartete Füllgewicht µ (das theoretische arithmetische Mittel, das den
Abfüllprozess charakterisiert) ist der Stichprobenmittelwert: µ̂ = X̄. Aus den Beobachtungen in der
Stichprobe schätzt man:
µ̂ = x̄ = 7 920/16 = 495
Die Zuckerpackungen in der Stichprobe wogen durchschnittlich 495 Gramm.
b) Ein Konfidenzintervall für µ ist ein Intervall, das symmetrisch um den Punktschätzer µ̂ konstruiert
ist und die Variabilität der Realisierungen von µ̂ in Stichproben gleichen Umfangs berücksichtigt.
σ
Die Standardabweichung (der Standardfehler) von µ̂ ist: √ .
n
Zwei Aspekte sind hier zu berücksichtigen:

– Zur Bestimmung des Standardfehlers von µ̂ ist Information über die theoretische Standard-
abweichung σ des Füllgewichts notwendig. Hier ist σ aber unbekannt! Das bedeutet: Auch σ
(nicht nur µ) muss aus der Stichprobe geschätzt werden.
Ein Punktschätzer für σ ist die Standardabweichung der Füllgewichte in der Stichprobe: σ̂ = S.
Dies ist vor der Stichprobe eine Zufallsvariable. Welche Realisierung s hat S in der Stichprobe?
Dazu schätzt man zuerst die Varianz σ 2 , und zwar, weil die Stichprobe sehr klein ist, nach der
korrigierten Formel:
1 X 1
σ̂ 2 = s2 = (xi − x̄)2 = · 540 = 36
16 − 1 15
√
Damit erhält man: s = s2 = 6.
s 6
Der geschätzte Standardfehler von µ̂ beträgt somit: √ = √ = 1.5.
n 16
– Weil σ geschätzt werden muss, entsteht zusätzliche Unsicherheit:
Bei Standardisierung des Punktschätzers µ̂ mit S an Stelle von σ ergibt sich keine standardnor-
malverteilte Zufallsvariable; sie hat eine t-Verteilung mit n − 1 = 16 − 1 = 15 Freiheitsgraden:
µ̂ − µ
∼ t15
√S
n
Diese Verteilung ist breiter als die Standardnormalverteilung, wodurch auch das Konfidenzin-
tervall für µ breiter ( ungenauer“) wird:
”
Der Multiplikator 1.96 (das 97.5%-Quantil) aus der Standardnormalverteilung muss nämlich
ersetzt werden durch das 97.5%-Quantil der t-Verteilung mit 15 Freiheitsgraden: 2.13 (laut
Tabelle; mit R: qt(0.975, 15).)
Bei einer Zufallsvariablen mit dieser Verteilung erwartet man also 95% der Beobachtungen
zwischen den Grenzen −2.13 und +2.13.
Die 95%-Konfidenzgrenzen für µ sind daher: 495 ± 2.13 · 1.5 = 495 ± 3.2.
Schließlich hat man als 95%-Konfidenzintervall für µ:
[495 − 3.2, 495 + 3.2] = [491.8, 498.2]
c) Aufgrund der beobachteten Stichprobe besitzt die Aussage das erwartete Füllgewicht µ liegt zwi-
”
schen 491.8 und 498.2 Gramm“ den Vertrauensgrad 95%.
Das Sollgewicht von 500 Gramm ist in diesem Intervall nicht enthalten. Das widerspricht der Hypo-
these H0 : µ = 500, dass das Sollgewicht von der Abfüllanlage im theoretischen Mittel eingehalten
würde. H0 sollte abgelehnt und die Abfüllanlage neu justiert werden. Die Neujustierung könnte hier
zwar unnötig sein, weil das Sollgewicht in Wahrheit doch eingehalten wird. Das Risiko, dass man
hier eine falsche Entscheidung trifft, beträgt jedoch höchstens 5% (Risiko für den Fehler erster Art).
Man hat damit empirische Evidenz, dass das Sollgewicht nicht eingehalten wird, also H1 : µ ̸= 500
wahr ist. Insbesondere hat man empirische Evidenz, dass die Anlage im theoretischen Mittel zu
wenig abfüllt, also H1 : µ < 500 wahr ist, weil das Konfidenzintervall für µ unterhalb vom Sollgewicht
500 endet.
(Anmerkung: Oft werden bei Abfüllanlagen sogar geringfügig höhere Sollwerte angesetzt als die-
jenigen, welche auf der Verpackung angegeben sind, um allzu häufigen Verbraucherbeschwerden
vorzubeugen.)


a) Sind Geschlecht und Vertriebskanalpräferenz vollständig unabhängig, so würde man die folgenden
Kontingenztafeln erwarten:
China
online traditionell
w 19.2 224.8 244
Geschlecht m 11.8 138.2 150
31 363 394
Deutschland
online traditionell
w 77.2 85.8 163
169 188 357
Türkei
online traditionell
w 35.7 216.3 252
92 557 649
Der Wert der χ2 -Statistik ist:

(14 − 19.2)2 (17 − 11.8)2 (230 − 224.8)2 (133 − 138.2)2
China: + + + = 4.0
19.2 11.8 224.8 138.2
(53 − 77.2)2 (116 − 91.8)2 (110 − 85.8)2 (78 − 102.2)2
Deutschland: + + + = 26.5
77.2 91.8 85.8 102.2
(28 − 35.7)2 (64 − 56.3)2 (224 − 216.3)2 (333 − 340.7)2
Türkei: + + + = 3.2
35.7 56.3 216.3 340.7
Kritisch für die Unabhängigkeitshypothese sind Werte der χ2 -Statistik, die größer sind als 3.84 (das
95%-Quantil der χ2 -Verteilung mit (2−1)(2−1) = 1 Freiheitsgraden). Im Fall Chinas und Deutsch-
lands ergibt sich jeweils ein kritischer χ2 -Wert, die Unabhängigkeitshypothese wird hier abgelehnt:
Es gibt empirische Evidenz dafür, dass die Vertriebskanalpräferenz in China bzw. Deutschland vom
Geschlecht abhängt. Im Fall der Türkei wird die Unabhängigkeitshypothese nicht abgelehnt.
b) In Deutschland bevorzugen signifikant weniger junge Frauen (bzw. Studentinnen) den Online-
Vertriebskanal als unter der Unabhängigkeitshypothese erwartet. In der Türkei ist dies nicht zu
beobachten. Ein Online-Handel, der sowohl in Deutschland als auch in der Türkei aktiv ist, sollte
daher in seiner Strategie für die betreffende Zielgruppe entsprechend differenzieren, eine gemeinsame
Strategie für Deutschland und die Türkei scheint nicht angemessen.

a) Die Regressionsgerade lautet: hours = 23.78 + 0.46 · customers.
b) Die Zahl der Arbeitsstunden wird durch die Zahl der Gäste beeinflusst, und nicht umgekehrt. Um
den Zusammenhang zwischen der Zahl der Arbeitsstunden und der Zahl der Gäste zu untersuchen,
ist daher eine Regression von hours bzgl. customers geeignet.
c) Der Regressionskoeffizient 0.46 bedeutet hier: Zehn weitere Gäste pro Woche führen zu einer
Erhöhung der wöchentlichen Zahl der Arbeitsstunden um durchschnittlich 4 bis 5 Stunden.
Den Parameterwert 23.78 könnte man als durchschnittlich erforderliche Mindestbereitschaft von
etwa 24 Stunden pro Woche deuten.
Die beiden Parameterwerte könnten somit insbesondere zur Bestimmung fixer bzw. variabler Per-
sonalkostenanteile im Servicebereich herangezogen werden.

2
d) Es ist R = 0.8902 = 89.02%. Man nennt diesen Wert das Bestimmtheitsmaß der Regression.
Das Bestimmtheitsmaß ist das Quadrat des Korrelationskoeffizienten von customers und hours.
Es ist eine Maßzahl aus der deskriptiven Statistik, und zwar dafür, wie gut die Regressionsgerade
an die gegebenen Daten gefittet ist.
Dieser Wert bedeutet: Die Variabilität in der Gästezahl erklärt hier etwa 89% der Variabilität in der
wöchentlichen Zahl der Arbeitsstunden. Das ist ein hoher Prozentsatz. Bei den gegebenen Daten gibt
es also einen starken Zusammenhang zwischen customers und hours, und dieser Zusammenhang
ist positiv, weil die Regressionsgerade wachsend ist.
e) Damit ist eine induktive Schlussfolgerung auf ein Prinzip möglich. Man betrachtet das folgende
lineare Regressionsmodell für die Variable hours:
hours = α + β · customers + Zufallsfehler.
Weil wir eine Zufallstichprobe haben, müssen wir den Zufallsfehler berücksichtigen, um allgemeine
Aussagen über den Zusammenhang zwischen hours und customers im Restaurant machen zu
können. Die Parameter der Regressionsgeraden sind ja nur Punktschätzungen auf der Basis der
gegebenen Daten — und praktisch immer falsch!
Pr(>|t|) = 1.32e-07 ist der prob-value einer Hypothese über den wahren, aber unbekannten
Parameter β in diesem Regressionsmodell. Es geht um den Test von H0 : β = 0 gegen H1 : β ̸= 0.
Der prob-value von H0 ist eine Wahrscheinlichkeit, die unter der Annahme, H0 sei wahr, d.h. β = 0,
berechnet wird. Es ist die Wahrscheinlichkeit, auf der Basis von Beobachtungen eine Punktschätzung
β̂ für β zu erhalten, deren Wert mindestens so weit weg vom hypothetischen Wert 0 ist wie der hier
realisierte Wert 0.46:
P (β̂ ≤ −0.46 oder β̂ ≥ +0.46) = 1.32e-07.
Der prob-value ist hier sehr klein, kleiner als 5%. Die Testentscheidung lautet daher: H0 wird
abgelehnt! Es besteht empirische Evidenz, dass β verschieden ist von 0. Man kann daher sagen, und
zwar nicht nur über die gegebenen Daten, sondern über die prinzipielle Situation im Restaurant:
Die Variable customers hat signifikanten Einfluss auf die Variable hours.
a) Modell 2 erscheint am besten geeignet. Es ist zwar nicht dasjenige unter den drei Modellen, das am
besten an die Daten gefittet ist, denn das Bestimmtheitsmaß Multiple R-Squared, das hierüber
Auskunft gibt, ist bei Modell 3 noch etwas höher (0.7901 gegenüber 0.787). Doch sollte bei der
Modellauswahl eine Optimierung der Erklärungskraft des Modells in deskriptiver Hinsicht — das
Fitting an die Daten — hinter Kriterien der induktiven Statistik gestellt werden.
Denn die Hinzunahme jeder beliebigen weiteren unabhängigen Variablen würde das Bestimmtheits-
maß erhöhen. Dieser Effekt ist beim Vergleich aller drei Modelle beobachtbar: Sukzessive wird die
Zahl der unabhängigen Variablen erhöht und das Bestimmtheitsmaß immer größer. Dabei wird
in Modell 3 sogar eine Variable hdi aufgenommen, deren Einfluss im Modell fragwürdig ist: Ihr
Regressionskoeffizient ist jedenfalls nicht signifikant von 0 verschieden, der zugehörige prob-value
Pr(>|t|) ist nämlich größer als das meist zu Beurteilungszwecken übliche Signifikanzniveau von
5% (sogar größer als 10%).
Eine Kontrolle des Zufallsfehlers führt schließlich zur Entscheidung: Die Varianz des Zufallsfehlers
sollte möglichst klein sein. Der R Output weist jeweils die Standardabweichung des Zufallsfehlers
aus, den Residual standard error. Dieser ist bei Modell 2 am kleinsten. (Korrespondierendes
Entscheidungskriterium: Das Adjusted R-squared, eine Maßzahl, die versucht, das Phänomen des
Ansteigens des Multiple R-Squared mit jeder beliebigen zusätzlichen Variablen zu korrigieren, ist
bei Modell 2 am größten.)
b) Im Modell 1 geht es um das folgende Regressionsmodell für die Variable piracy:
piracy = α + β · log(gdp.pc) + Zufallsfehler.

(Der Zufallsfehler beinhaltet alles, was durch die Gleichung piracy = α + β · log(gdp.pc) nicht
erklärt wird.)
Pr(>|t|) = <2e-16 benennt den prob-value einer Hypothese über den wahren, aber unbekannten
Parameter β. Die Hypothese, die hier getestet wird, lautet: H0 : β = 0, die Alternative H1 : β ̸= 0.
Insbesondere wird also getestet, ob die Variable log(gdp.pc) signifikanten Einfluss auf die Variable
piracy hat.
Der prob-value von H0 ist eine Wahrscheinlichkeit, die unter der Annahme, H0 sei wahr, d.h. β = 0,
berechnet wird. Es ist die Wahrscheinlichkeit, auf der Basis von Beobachtungen eine Schätzung β̂
für β zu erhalten, deren Wert mindestens so weit weg vom hypothetischen Wert 0 ist wie der hier
realisierte Wert −23.627:
P (β̂ ≤ −23.627 oder β̂ ≥ +23.627) = <2e-16.
Diese Wahrscheinlichkeit ist sehr klein, die Testentscheidung lautet daher: H0 wird abgelehnt. Es
besteht empirische Evidenz, dass β verschieden ist von 0. Also hat die Variable log(gdp.pc) laut
Modell 1 signifikanten Einfluss auf die Variable piracy.
c) Die Regressionsgleichung von Modell 2 lautet:
piracy = 201.3720 − 13.2630 · log(gdp.pc) − 3.6566 · tri + Zufallsfehler.
d) R2 ist das Bestimmtheitsmaß im Regressionsmodell; es ist eine Maßzahl dafür, wie gut das Modell
an die beobachteten Daten gefittet ist. Es misst die Erklärungskraft des Regressionsmodells aus
deskriptiver Sicht.
Im Modell 2 ist R2 = 78.7%. Man kann hier zunächst fragen: Warum sind die beobachteten Pro-
zentsätze von Software-Piraterie piracy von Land zu Land nicht gleich? Antwort: Weil der Loga-
rithmus des Pro-Kopf-Bruttosozialprodukts im Land log(gdp.pc) und auch der Korruptionsindex
tri von Land zu Land verschieden sind. Das ist nicht der einzige Grund, aber 78.7% der Variabi-
lität in den beobachteten Prozentsätzen von Software-Piraterie kann durch die Variabilität in diesen
beiden Größen erklärt werden.
e) Die Einflussgrößen in diesem Modell haben für die Türkei die Werte:
log(gdp.pc) = log(7900) = 8.9746, tri = 3.2.
(Achtung: log bezeichnet in R den natürlichen Logarithmus!)

Der geschätzte Wert von piracy für die Türkei ist damit:
\ = 201.3720 − 13.2630 · 8.9746 − 3.6566 · 3.2 = 70.64%.

piracy
f) Steigt das Bruttosozialprodukt pro Kopf in der Türkei gegenüber dem ursprünglichen Wert um
10% an, so ist der neue Wert der Einflussgröße
log(gdp.pc) = log(7900 · 1.1) = log(7900) + log(1.1) = 8.9746 + 0.0953,
d.h. um 0.0953 Einheiten größer als vorher. Der geschätzte Wert von piracy würde sich dadurch
um
13.2630 · 0.0953 = 1.264
Prozentpunkte verringern, sogar unabhängig vom Niveau, das er vorher hatte. Die neue Schätzung
wäre dann: 70.64 − 1.264 = 69.38% (sofern der Korruptionsindex unverändert bleibt).

Statistik Lösungen

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Statistik Lösungen

Hochgeladen von

Copyright:

Verfügbare Formate

ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 1

Quantitative Methoden der Informatik

Lösungen der Aufgaben

x = c( 0, 3, 11, 16, 22, 22, 22, 23, 26, 26,

(c ist ein combine-Command.)

© Angi Rösch / Harald Schmidbauer, 2023

© Angi Rösch / Harald Schmidbauer, 2023

ident Fehler Korrektur

b) 42 Personen hatten im Jahr 2008 (mindestens) einen Schaden.

a) deficit: qualitativ, kategorial/nominalskaliert

d) Durchschnittliches Alter der Kunden mit deficit = 1: 44.5 Jahre.

© Angi Rösch / Harald Schmidbauer, 2023

c) Diese Variable ist qualitativ, es ist eine Rangvariable.

d) Ein Balkendiagramm ist geeignet.

© Angi Rösch / Harald Schmidbauer, 2023

Als Histogramm ergibt sich:

© Angi Rösch / Harald Schmidbauer, 2023

© Angi Rösch / Harald Schmidbauer, 2023

Im Altersintervall Millionen Personen Anteil Intervallbreite Anteilsdichte Kumulierter Anteil

© Angi Rösch / Harald Schmidbauer, 2023

Für das Plot fügen wir noch Randwerte hinzu:

© Angi Rösch / Harald Schmidbauer, 2023

Lösung zu Aufgabe 11:

© Angi Rösch / Harald Schmidbauer, 2023

d) Minimum und Maximum fehlen.

Verkaufte Exemplare Zahl der Wochen Kumulierte Häufigkeit

© Angi Rösch / Harald Schmidbauer, 2023

c) Unteres Quartil: 12. Oberes Quartil: 14.

d) Möglichkeiten zur graphischen Darstellung einer Häufigkeitsverteilung: Kreisdiagramm, Balkendia-

© Angi Rösch / Harald Schmidbauer, 2023

Lösung zu Aufgabe 13:

[r̄ − 3 · s, r̄ + 3 · s] = [0.83 − 3 · 8.24, 0.83 + 3 · 8.24] = [−23.89, 25.55]

© Angi Rösch / Harald Schmidbauer, 2023

Lösung zu Aufgabe 14:

© Angi Rösch / Harald Schmidbauer, 2023

Lösung zu Aufgabe 15:

© Angi Rösch / Harald Schmidbauer, 2023

Lösung zu Aufgabe 16: Aussage (d) ist richtig!

Lösung zu Aufgabe 17:

A ... Es passiert ein Einbruch. Ā ... Es passiert kein Einbruch.

Der Hersteller der Alarmanlage sagt: P (B|A) = 0.99, P (B|Ā) = 0.01.

b) Die Wahrscheinlichkeit, dass es in der Nacht einen Alarm gibt, ist:

© Angi Rösch / Harald Schmidbauer, 2023

Lösung zu Aufgabe 18:

E = die Tasche enthält Sprengstoff, Ē = die Tasche enthält keinen Sprengstoff,

Damit hat man:

Ereignisbaum (mit Wahrscheinlichkeiten):

b) Gesucht ist P (E|A). Gemäß dem Bayes-Theorem:

P (A|E) · P (E) 0.999 · 0.001 1 1

Lösung zu Aufgabe 19:

© Angi Rösch / Harald Schmidbauer, 2023

Lösung zu Aufgabe 20:

Lösung zu Aufgabe 21:

a) Aus der gegebenen Häufigkeitsverteilung errechnet man:

© Angi Rösch / Harald Schmidbauer, 2023

Lösung zu Aufgabe 22:

b) Gesucht ist derjenige IQ-Wert x, für welchen gilt:

© Angi Rösch / Harald Schmidbauer, 2023

97 − 100 103 − 100

unter Ausnutzung der Symmetrie der Standardnormalverteilung:

mit der Tabelle der Standardnormalverteilung:

= 1 − 2 · (1 − P (Z < 2)) = 1 − 2 · (1 − 0.9772)

Auflösen der Ungleichungen so, dass X in der Mitte steht: