Sie sind auf Seite 1von 32

ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 1

Quantitative Methoden der Informatik


SS 2023

Lösungen der Aufgaben

Anmerkungen:
• Die Lösungen sollen eine Lernkontrolle bieten.
• Die Kenntnis dieser Lösungen allein garantiert keinen Lernerfolg.

Lösung zu Aufgabe 1:
a) Die Variable Anzahl ist quantitativ/metrisch, diskret.
Es geht um eine Population von Tagen, nämlich die Tage im November 2002.
b) Mögliche Stamm-und-Blatt-Diagramme sind:

0 | 03
0 | 0 | 03
1 | 1 1 | 16
1 | 6 2 | 22236667888
2 | 2223 3 | 00011444459
2 | 6667888 4 | 2235
3 | 000114444
3 | 59
4 | 223
4 | 5

Anmerkung:
Die Variable Anzahl ist nur“ diskret und nicht stetig. Jedoch gibt es hier einen großen Bereich

von Werten (und kein Wert kommt besonders häufig vor). Die Struktur der Verteilung wird daher
in einem Stamm-und-Blatt-Diagramm sogar besser erfasst als in einem Balkendiagramm.
Mit Excel sind Stamm-und-Blatt-Diagramme unseres Wissens nicht möglich, jedoch mit R! Weil
die geordnete Reihe vorliegt, kann die Aufgabe hier aber leicht mit Papier und Bleistift“ gelöst

werden.
Für die Lösung mit R wird zuerst die Variable Anzahl als Vektor definiert, hier x genannt:

x = c( 0, 3, 11, 16, 22, 22, 22, 23, 26, 26,


26, 27, 28, 28, 28, 30, 30, 30, 31, 31,
34, 34, 34, 34, 35, 39, 42, 42, 43, 45)

(c ist ein combine-Command.)


Das (Default-)Stamm-und-Blatt-Diagramm bekommt man dann mit dem Befehl stem(x).
Der Parameter scale in stem definiert die Plotlänge (Default: scale = 1) und somit die Tiefe der
Stammunterteilung. Ein halb so langes Plot (wie oben rechts) bekommt man daher so:
stem(x, scale = 0.5)
c) Arithmetisches Mittel: 842/30 = 28.07. (R-Code: mean(x).)
Durchschnittlich kommen 28 Kunden pro Tag in die Werkstatt.

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 2

Lösung zu Aufgabe 2: Das Auto fuhr die gesamten 30 km in der folgenden Zeit:
10 20
+ = 0.6 h
100 40
Somit betrug die Durchschnittsgeschwindigkeit auf der gesamten Strecke:
30
= 50 km/h
0.6
Man erhält dieses Ergebnis auch aus dem harmonischen Mittel der Einzelgeschwindigkeiten auf den 30
km:

10 + 20
= 50 km/h
10 20
+
100 km/h 40 km/h

Für die Berechnung in R mit Funktionalität aus dem R-Package psych (W. Revelle, 2021) wird ein Vektor
x aus Geschwindigkeiten für jeden km der Gesamtstrecke definiert, am einfachsten mit rep (wie replicate)
zusammen mit dem combine-Command c:
library(’psych’) # Laden des R-Package
x = c(rep(100,times = 10), rep(40, times = 20))
harmonic.mean(x)

Lösung zu Aufgabe 3: Der DAX ist in diesem Zeitraum insgesamt gestiegen. Der durchschnittliche
wöchentliche Wertzuwachs in Prozent ergibt sich aus dem geometrischen Mittel der Wertänderungsfaktoren
q1 bis q35 von Woche zu Woche. Deren Produkt ist der Quotient aus Endwert durch Anfangswert. Damit
ist: s r
√ 35 Endwert 35 4968.28
35
q1 · · · · · q35 = = = 1.0042
Anfangswert 4290.50
Also ist der DAX in diesem Zeitraum wöchentlich durchschnittlich um 0.42% gestiegen.
Ein geometrischen Mittel könnte man in R mit dem Command geometric.mean aus dem R-Package psych
(W. Revelle, 2021) berechnen, oder noch einfacher unter Ausnutzung der Eigenschaften von Logarithmus-
und Exponentialfunktion:
exp(mean(log(x)))
Dabei ist x der Vektor aller einzelnen Wertänderungsfaktoren. Hier ist x nicht verfügbar, aber so bekommt
man das Ergebnis ja auch:
(4968.28/4290.50)^(1/35)

Lösung zu Aufgabe 4:
a) In Aussage A wird über die Population der Haushalte gesprochen, in Aussage B über die Population
der Einwohner in Deutschland.
b) Betrachten wir 1 000 typische Haushalte und deren Aufteilung:
Haushalte
mit 1-2 Personen mit mehr als 2 Personen insgesamt
# Haushalte: 664 336 1 000
# Personen: 347 + 2 · 317 = 981 Mindestens 3 · 336 = 1 008 Mindestens 1 989
Der Anteil der Bevölkerung in Deutschland, der allein oder zu zweit lebte, betrug höchstens
981
= 0.493 = 49.3%.
1 989
Aussage B ist also falsch!

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 3

Lösung zu Aufgabe 5:

a)

ident Fehler Korrektur


78 gender fehlt, number of damages = f. gender = f, number of damages = 0.
145 number of damages = 11, amount of damage number of damages = 1.
ist vergleichsweise gering.
111 date of contract liegt weiter zurück als Datumsangaben sind vertauscht!
date of birth.
321 number of damages = 0, amount of damage number of damages = 1.
ist aber positiv.
432 amount of damage = 1297,67 — Dezimalkom- amount of damage = 1297.67.
ma statt -punkt (als Text gespeichert).
518 date of birth = 31/01/1944 — falsches For- date of birth = 01/31/44.
mat.
672 date of birth = 20281 — falsches Format date of birth = 07/11/55.
(und als Text gespeichert).
672 date of contract = 32322 — falsches For- date of contract = 06/28/88.
mat (und als Text gespeichert).
790 gender = n. gender = m.
792 amount of damage fehlt. amount of damage = 0.
836 date of birth = 02/31/1947 — falsches For- Richtig ist: 02/23/47.
mat, Datum existiert nicht.

Die Datei insurance data clean analysis.xls enthält die gesäuberten Daten zusammen mit
einer Excel-Lösung der weiteren Aufgabenteile.

b) 42 Personen hatten im Jahr 2008 (mindestens) einen Schaden.

c) Die durchschnittliche Schadenssumme pro Person mit Schaden im Jahr 2008 ist:
29 878.54
= 711.39 Euro.
42

Lösung zu Aufgabe 6: Die Datei bank customers analysis.xls enthält eine Excel-Lösung dieser
Aufgabe.

a) deficit: qualitativ, kategorial/nominalskaliert


age: quantitativ/metrisch, (quasi-)stetig
m.status: qualitativ, kategorial/nominalskaliert
edu: qualitativ, Rangvariable/ordinalskaliert
econ.activity: qualitativ, kategorial/nominalskaliert
urban: qualitativ, kategorial/nominalskaliert
stability: qualitativ, kategorial/nominalskaliert
cellphone: quantitativ/metrisch, diskret; hier aber: klassierte Werte mit oberer Klasse zwei und

mehr“!
417
b) Prozentsatz der Kunden mit deficit = 1: = 7.11%.
5 868
c) Durchschnittliches Alter der Kunden mit deficit = 0: 49.3 Jahre.

d) Durchschnittliches Alter der Kunden mit deficit = 1: 44.5 Jahre.

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 4
e) Prozentsatz der Kunden mit deficit = 1 unter den Kunden mit . . .

90
. . . keinem Handyvertrag (cellphone = 0): = 4.85%.
1 855
108
. . . einem Handyvertrag (cellphone = 1): = 8.51%.
1 269
219
. . . zwei oder mehr Handyverträgen (cellphone = 2): = 7.98%.
2 744

Lösung zu Aufgabe 7:

a) Die Zielpopulation ist die Population aller Studierender auf diesem Campus.

b) Nicht alle Studierenden haben eine Chance in Yayas Stichprobe zu kommen, denn an einem Dienstag
sind die Studierenden sicher nicht alle in der Mensa. Mögliche Gründe: Sie haben keinen Hunger
(unwahrscheinlich), essen an diesem Wochentag aus bestimmten Gründen nicht in der Mensa, sie
sind krank oder beim Lernen, Schlafen, Spielen, . . . . Besonders problematisch ist es, dass Yaya
Studierende, die die Mensa ablehnen, weil sie mit ihr unzufrieden sind, nicht in der Mensa antreffen
wird!
Bessere Idee: Man wählt aus der Liste aller Studierenden zufällig 50 Personen aus und verabredet
sich mit ihnen, um sie zu befragen.

c) Diese Variable ist qualitativ, es ist eine Rangvariable.

d) Ein Balkendiagramm ist geeignet.

e) Das Histogramm zeigt, dass positive Preisdifferenzen häufiger vorkommen als negative. Die Histo-
grammfläche rechts von der 0 ist größer als links. Das bedeutet: Bei mehr als 50% der Speisen in
Yayas Vergleichsliste ist die Mensa auf dem anderen Campus teurer. Die Preisdifferenz ist aber
nicht größer als ¥ 5.
Man kann den Median der Verteilung der Preisdifferenzen näherungsweise bestimmen: Der Näherungswert
ist ¥ 1, denn links und rechts davon kann man 50% der Fläche im Histogramm sehen. Ca. 50% der
Speisen sind auf dem neuen Campus also um mindestens ¥ 1 teurer (und um höchstens ¥ 5).
Bei einigen Speisen (aber deutlich weniger als 50%) ist Yayas Mensa teurer; diese Speisen sind aber
um höchstens ¥ 3 teurer als in der Mensa auf dem anderen Campus.

Lösung zu Aufgabe 8:

a) Dazu gehören sicherlich Fragen nach dem Alter, Vermögen und Einkommen, aber auch Fragen wie
Haben Sie vor, zur Wahl zu gehen?“, Fragen zur Selbstwahrnehmung wie Halten Sie sich für
” ”
umweltfreundlich?“ und viele andere Fragen.
Tipp: Sensitive Fragen sollte man an das Ende des Fragebogens setzen. Die Vorgabe von Antwortka-
tegorien (z.B. Altersklassen) mildert den Unwillen der Befragten zu antworten. Manches kann man
auch als Aussage über eine dritte Person zur Beurteilung vorlegen, z.B. Stellen Sie sich vor, einer

Ihrer Freunde lehnt es ab, wählen zu gehen. — Würden Sie versuchen, ihn dazu zu überreden?“.

b) Sehr vorsichtig sollte man mancherorts sicherlich mit Fragen zur Beurteilung der Regierungsarbeit
sein. Da gibt es in Deutschland wohl eher kein Tabu.

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 5

Lösung zu Aufgabe 9:

a) Die Klasseneinteilung umfasst verschieden breite Klassen (Intervalle), daher muss das Histogramm
in der Höhe die (absolute oder relative) Häufigkeitsdichte zeigen:
Intervall Häufigkeit Intervallbreite Häufigkeitsdichte
j hj dj hj /dj
[−25, −10) 3 15 0.2
[−10, 0) 8 10 0.8
[ 0, 10) 9 10 0.9
[ 10, 25] 4 15 0.27
24

Als Histogramm ergibt sich:

0.9
0.8

0.27
0.2

-25 -10 0 10 25

Mit x als monatliche Preisänderung und R bekommt man ein analoges Histogramm so:

x = c( -17.5, -15.9, -10.2, -8.7, -8.2, -7.5, -4.0, -2.5, -2.0, -0.7,
-0.7, 0.8, 3.8, 4.7, 4.8, 5.0, 5.9, 7.7, 8.7, 9.1,
11.5, 12.6, 20.0, 24.8)
hist(x, breaks = c(-25, -10, 0, 10, 25), col = "lightblue", right = FALSE)
(Mit right = FALSE werden rechts offene Intervalle definiert, was hier jedoch irrelevant ist, da keine
Beobachtung auf eine Intervallgrenze fällt.)
P
b) Arithmetisches Mittel: x̄ = xi /24 = 41.5/24 = 1.73%. (Mit R: mean(x).)
Es ist ein Mittelwert“ der Verteilung der Preisänderungen, d.h. eine Maßzahl für die Lage (das

Niveau) der Daten.
Vorsicht:
Das arithmetische Mittel der Preisänderungen darf nicht als durchschnittliche Preisänderung pro
Monat interpretiert werden. Die durchschnittliche Preisänderung pro Monat ist geringer als 1.73%,
nämlich 1.23%. Dieser Durchschnitt kann so berechnet werden:
Zuerst: Der durchschnittliche Preisänderungsfaktor pro Monat ist das geometrische Mittel der be-
obachteten Preisänderungsfaktoren von Monat zu Monat:


r
24 4.8 8.7 24
(1 + ) · · · · · (1 − )= 1.048 · · · · · 0.913 = 1.0123
100 100
(Mit R: exp(mean(log(1+x/100))).)
Damit ergibt sich: Der Preis von Brent-Rohöl ist in diesen 24 Monaten also um durchschnittlich
(1.0123 − 1) · 100% = 1.23% pro Monat gestiegen.

c) Median: (0.8 + 3.8)/2 = 2.3%. Denn es ist 24/2 = 12, und daher liegt der Median zwischen dem
12ten und 13ten Wert in der geordneten Reihe der Preisänderungen.
(Mit R: median(x).)

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 6
Interpretation: 50% der Werte lagen unter 2.3%, 50% der Werte lagen darüber. Oder: In 50% der
Monate war die Preisänderung kleiner als 2.3%, in 50% der Monate war die Preisänderung größer.

d) Unteres Quartil: Mitte zwischen dem 6ten und 7ten Wert = (−7.5 − 4.0)/2 = −5.75%, denn es ist
0.25 · 24 = 6.
Oberes Quartil: Mitte zwischen dem 18ten und 19ten Wert = (7.7 + 8.7)/2 = 8.2%, denn es ist
0.75 · 24 = 18. Oder: Mitte zwischen dem 6ten und 7ten Wert von oben“, d.h. von der größten

Werten heruntergezählt.
Interpretation: 25% der Werte lagen unter −5.75% und 25% der Werte lagen über 8.2%. Also
lagen 50% der Werte zwischen −5.75% und 8.2%. Oder: In 50% der Monate lag die Preisänderung
zwischen −5.75% und 8.2%.
In R:
Der Command quantile(x, type = 2) liefert per Default mehrere Quantile auf einmal: Minimum,
unteres Quartil, Median, oberes Quartil und Maximum. Mit quantile(x, probs = 0.25, type
= 2) ruft man zum Beispiel nur das untere Quartil ab.
Es gibt verschiedene Algorithmen zur Quantilbestimmung, sie unterscheiden sich in der Gewichtung
der benachbarten beobachteten Werte und daher auch im Ergebnis. Mit type = 2 handelt es sich um
den wohl einfachsten Typ, ein arithmetisches Mittel der Nachbarwerte. Per Default benutzt R mit
type = 7 eines derjenigen Verfahren, welche Unstetigkeiten in der empirischen Verteilungsfunktion
auf etwas anspruchsvollere Weise auszugleichen versuchen.

e) Die Box“ im Boxplot erstreckt sich vom unteren zum oberen Quartil, d.h. hier über den Bereich

von −5.75% bis 8.2%. Dazwischen, bei 2.3%, liegt der Median.
Die Boxbreite beträgt 8.2 − (−5.75) = 13.95 Prozentpunkte. Die (bei einem Standard-Boxplot)
maximale Länge eines Whisker“ ist daher 1.5 · Boxbreite = 1.5 · 13.95 = 20.92 Prozentpunkte.

Der linke Whisker“ würde damit bei −5.75 − 20.92 = −26.67 beginnen, der rechte Whisker“ bei
” ”
8.2+20.92 = 29.12 enden. Weil der kleinste beobachtete Wert aber −17.5 ist, der größte beobachtete
Wert 24.8, werden die Whisker“ nicht so lang gezeichnet. Der linke Whisker“ beginnt bei −17.5,
” ”
der rechte Whisker“ endet bei 24.8.

Es ergibt sich hier also dasselbe Boxplot, das man vereinfacht (und das wäre für uns ausreichend)
zeichnen würde: mit einem Whisker“-Bereich vom Minimum bis zum Maximum der beobachteten

Werte.
Das Boxplot der Verteilung der monatlichen Preisänderungen ist:

−10 0 10 20

Das Default-Boxplot in R boxplot(x) ist vertikal, ein horizontales bekommt man so:
boxplot(x, horizontal = TRUE, col = "lightblue")

f) Varianz: s2 =
P 2
xi /24 − x̄2 = 2 536.4/24 − 1.732 = 102.69. (1.73 war das arithmetische Mittel der
Preisänderungen!) √
Standardabweichung: s = 102.70 = 10.13.
Entsprechende Commands in R sind: var(x) und sd(x). Sie werden jedoch merken, dass sich da-
mit etwas höhere Werte ergeben. Das liegt daran, dass R korrigierte Formeln aus der induktiven
Statistik benutzt mit dem Ziel, die theoretische Varianz und Standardabweichung der Verteilung

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 7
der monatlichen Änderungen auf Basis der beobachteten Daten zu schätzen (was ja insbesonde-
re mit Unsicherheit verbunden ist und dafür spricht, die Streuung etwas höher einzuschätzen als
beobachtet). Mit var(x)*(24-1)/24 und sqrt(var(x)*(24-1)/24) erhält man die obigen Werte
nach den Formeln der deskriptiven Statistik (die ja zunächst nichts weiter will als beobachten und
beschreiben).

g) Die 1-σ-Regel besagt: Ca. zwei Drittel aller Werte, hier: etwa 16, erwartet man im Intervall [x̄ −
s, x̄ + s] = [1.73 − 10.13, 1.73 + 10.13] = [−8.40, 11.86], falls (näherungsweise) eine Normalverteilung
vorliegt. Tatsächlich liegen 17 Werte in diesem Intervall; 17 weicht nicht deutlich von 16 ab: Die
1-σ-Regel trifft hier zu.
In R könnte man alle Daten zunächst entsprechenden Intervallen zuordnen und Häufigkeiten auszählen:
intervals = cut(x, breaks=c(min(x), mean(x)-sd(x), mean(x)+sd(x), max(x)))
table(intervals)
Oder man macht eine logische Abfrage und summiert über TRUE und FALSE:
sum( (x >= mean(x)-sd(x)) & (x <= mean(x)-sd(x)) )

(Im obigen Code wurde die Formel der Standardabweichung aus der induktiven Statistik verwendet.
Das ist insofern angemessen, als es hier ja tatsächlich um den Versuch einer induktiven Schlussfol-
gerung geht, von den Daten auf ein Prinzip bei der Normalverteilung: die 1-Sigma-Regel!)

Lösung zu Aufgabe 10: Die Tabelle der Altersverteilung für die türkische Bevölkerung im Jahr 1990
wird im folgenden nach und nach ergänzt:

Im Altersintervall Millionen Personen Anteil Intervallbreite Anteilsdichte Kumulierter Anteil


j hj fj dj fj /dj Fj
[0, 15) 19.74 0.35 15 0.0233 0.35
[15, 40) 23.70 0.42 25 0.0168 0.77
[40, 65) 10.56 0.19 25 0.0075 0.96
[65, 90] 2.42 0.04 25 0.0017 1.00
56.42 1.00

a) Die Altersverteilung enthielt ursprünglich das Altersintervall 65 Jahre und älter“. Die Tatsache,

dass dieses Intervall keine obere Grenze hat, erschwert eine adäquate graphische Darstellung. Aller-
dings befand sich lediglich ein Anteil von etwa 4% der Bevölkerung darin. Daher ist es vertretbar,
dieses Altersintervall künstlich einzuschränken, zum Beispiel sogar auf das Intervall [65, 90]. Nun
ist eine Intervallbreite verfügbar, womit eine (maximale) Häufigkeitsdichte für dieses Altersintervall
bestimmt werden kann.

0.0233 ...............................
.....................
.....................
.....................
.....................
.....................
.....................
.....................
.....................
0.0168 .................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
0.0075 .................................
.................................
.................................
.................................
.................................
.................................
.................................
.................................
.................
0.0017 .................................................
.................

0 15 23.9 40 65 90

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 8
Die Rechteckshöhen im Histogramm können grundsätzlich mit absoluten Häufigkeitsdichten hj /dj
oder relativen Häufigkeitsdichten fj /dj (Anteilsdichten) berechnet werden. In der Arbeitstabelle
werden Anteilsdichten gezeigt, zumal eine Berechnung von Anteilen, und insbesondere dann auch
kumulierten Anteilen, bei den Lösungen zu (b) und (c) verwendet wird.
Für ein Histogramm in R auf der Basis einer Häufigkeitstabelle (und nicht auf Basis der einzelnen
Beobachtungen): Wir definieren einen Vektor x, der zum Beispiel die Intervallmitten (Mittelwerte
zwischen den linken und rechten Intervallgrenzen) entsprechend der Häufigkeiten vervielfältigt:
ej.left = c(0, 15, 40, 65)
ej.right = c(15, 40, 65, 90)
hj = c(19.74, 23.70, 10.56, 2.42)*100
x = rep((ej.left + ej.right)/2, times = hj)
hist(x, breaks = c(0, 15, 40, 65, 90), col = "red2", right = FALSE)

b) Die kumulierten Anteile der Bevölkerung in den Altersklassen führen zur empirischen Verteilungs-
funktion:

1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...................................................................................
........... .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................................................
0.96 .
......... ..
.
.
......... .
...
...
........... .
.
.
.
.
...
...
....... . .
...
...
........ .
.
.
.
.
...
...
....... . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............. . .
0.77 ..
.... ..
.
.
.
.
.
...
..... . .
.
.
.
..
....
. . . .
...
..... .
. . .
....
. . . .
.. . .
..
.....
. .
. . .
...
..... . .
.
.
.
..
....
. .
. . .
..
.....
. . . .
0.5 . . . . . . . . . . . . . . . . . . . . . . . ......
.
..
..
.... .. .
.
.
.
.
.
.
.
.
.... .. . . .
...
. . . .
..
....
. . .
. . .
.
..
..... . . .
.
.
.
. . . . . . . . . . . . . . ........ .
0.35 ..
.... ..
.
.
.
.
.
.
.
.
.
..
.... . .
. . .
.
.
.
..
.... .. . .
. . .
..
...
. . . . . .
.... . . . . .
..
. . . . . .
..
.... . . . . .
.... . . . . .
.. . . .
..
.... .
. . .
. . .
..
.... . .
. . .
.
.
.
..
...
. . . . . .
.... . . . . .
..
. . . . . .
..... . .
0 . .

0 15 23.9 40 65 90

Ein Plot der empirischen Verteilungsfunktion des Alters wäre in R recht einfach, wenn die Alters-
werte aller Personen in einem Datenvektor x zur Verfügung stünden: plot.ecdf(x) zeichnet eine
Stufenfunktion. Die Stufenhöhe entspricht dem Anteil des jeweiligen Werts.
In einem Stufenplot auf Basis der kumulierten Anteile aus einer klassierten Häufigkeitstabelle ist
eine lineare Interpolation zwischen den Stufen angemessen (zumal die Variable Alter stetig ist).
Die kumulierten Anteile Fj bekommt man mit dem Command cumsum aus den Anteilen fj für die
gegebenden Altersklassen:
fj = hj/sum(hj)
Fj = cumsum(fj)

Für das Plot fügen wir noch Randwerte hinzu:


plot(c(0, 15, 40, 65, 90, 110), c(0,Fj,1), type = ’l’, xlab = ’x’, ylab = ’F’)

c) Der Median ist das 50%-Quantil der Altersverteilung. Bei der Suche nach einem Näherungswert
sind daher die kumulierten Anteile in der Arbeitstabelle hilfreich.
Man erkennt: Im Altersintervall [15, 40) wird der kumulierte Anteil von 50% der Bevölkerung
überschritten, in diesem Intervall befindet sich also der Median. Aus der Zeichnung des Histo-
gramms könnte man einen Näherungswert für den Median ablesen: Die schattierte Fläche umfasst
nämlich 50% der Gesamtfläche im Histogramm. Noch besser gelänge das mit der Zeichnung der
empirischen Verteilungsfunktion: Ein Näherungswert für den Median ist der Abszissenwert, der zur
Koordinate 0.5 gehört. Es ist der Wert 23.9.
Diesen Näherungswert für den Median findet man ohne die Hilfe des Histogramms oder der empiri-
schen Verteilungsfunktion aus der Häufigkeitstabelle durch lineare Interpolation: Da der Median im
Altersintervall [15, 40) liegt, ist er wohl größer als die linke Intervallgrenze 15 (und natürlich kleiner

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 9
als 40). Wie weit rechts von 15 könnte der Median liegen? Welchen Anteil an der Intervallbreite
von 40 − 15 = 25 sollte man also noch zu 15 addieren? — Es kommt zum einen darauf an, wieviel
Prozent der Bevölkerung ein Alter unter 15 Jahre hat, nämlich 35%, und wieviele Prozentpunkte
dann noch auf 50% fehlen, nämlich 50 − 35 = 15 Prozentpunkte. Zum anderen kommt es darauf an,
wieviel Prozent der Bevölkerung denn überhaupt ein Alter im betreffenden Altersintervall [15, 40)
haben, nämlich 42%. Die auf 50% fehlenden 15 Prozentpunkte machen daher einen Anteil von
15/42 aus diesem Intervall aus. Diesen Anteil an der Intervallbreite addiert man dann zur linken
Intervallgrenze 15. Man erhält:
50 − 35
15 + · 25 = 23.9
42
Interpretation: Im Jahr 1990 war die Hälfte der türkischen Bevölkerung jünger als ca. 24 Jahre.
Anmerkungen:
Mit dem exakten Wert des Medians würde dieser Näherungswert übereinstimmen, wenn die 23.7
Millionen Personen mit ihrem Alter im Altersintervall [15, 40) gleichmäßig verteilt wären.
Mit Informationen über einjährige Altersintervalle ergibt sich für die Altersverteilung der Türkei
im Jahr 1990 ein Median von 22 Jahren. Seitdem ist das mediane Alter“ gestiegen. Im Jahr

2002 lag der Median bei 26 Jahren, für das Jahr 2020 wird ein Median von 32.2 Jahren geschätzt.
Welchen Median vermuten Sie für die Altersverteilung in Deutschland? Und für die Altersverteilung
in China? In einem Land Ihrer Wahl?
In R:
Eine lineare (und auch kubische, etc.) Interpolation ist in R zum Beispiel mit dem Command spline
möglich. Ein Spline ist eine Funktion, die stückweise aus Polynomzügen besteht. Damit kann eine
Abfolge von Datenpunkten durch eine geglättete Kurve approximiert werden.

– Benutzt man nur zwei Datenpunkte, werden diese durch eine Gerade verbunden, und eine linea-
re Interpolation wird gemacht. Im folgenden benutzen wir dazu die Koordinaten des Intervalls,
in dem sich der Median befindet, und stellen diese den zugehörigen kumulierten Häufigkeiten
gegenüber:
spline(x = c(15,40), y = c(0.35, 0.77))
plot( spline(x = c(15,40), y = c(0.35, 0.77)) )
Den obigen Näherungswert für den Median erhält man hierbei mit dem Parameter xout, wenn
man die Achsen vertauscht: spline(y = c(15,40), x = c(0.35, 0.77), xout = 0.5) .
– Einen Näherungswert mittels kubischer Interpolation bekommt man, wenn man alle Daten-
punkte der Häufigkeitstabelle als Stützstellen nutzt. Auf diese Weise ergibt sich zunächst auch
das Plot einer approximativen Verteilungsfunktion:
breaks = c(0, 15, 40, 65, 90)
h.breaks = c(0, 19.74, 23.70, 10.56, 2.42)
F.breaks = cumsum(h.breaks)/sum(h.breaks)
plot( spline(x = breaks, y = F.breaks) )
Vertauscht man hier wieder die Achsen, hat man einen entsprechenden Näherungswert für den
Median: spline(y = breaks, x = F.breaks, xout = 0.5).

Lösung zu Aufgabe 11:

a) Es geht um die Population der Köche/Köchinnen in Deutschland (im Jahr 2017). Die Variable ist
Brutto-Jahresgehalt“. Sie ist quantitativ/metrisch stetig.

b) – Im Durchschnitt verdienen Köche 29 640 Euro: arithmetisches Mittel
– 25 Prozent verdienen weniger als 24 200 Euro: unteres Quartil oder 25%-Quantil
– 50 Prozent verdienen weniger als 27 850 Euro: Median oder 50%-Quantil
– am oberen Ende verdienen 25 Prozent mehr als 32 690 Euro: oberes Quartil oder 75%-Quantil

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 10
c) Der Median ist kleiner als das arithmetische Mittel. Dies weist darauf hin, dass die Einkomensver-
teilung rechtsschief ist. (Das ist nicht nur bei Köchen/Köchinnen der Fall.)

d) Minimum und Maximum fehlen.

e) Mit dieser Information können wir als Minimum ein Brutto-Jahresgehalt von 12 · 1 500 = 18 000
Euro annehmen, als Maximum ein Brutto-Jahresgehalt von 12 · 8 000 = 96 000 Euro.
Ein Boxplot (vereinfacht: die Whiskers“ zeigen den Bereich vom Minimum zum Maximum) sieht

dann etwa so aus:
0

10000

20000

30000

40000

50000

60000

70000

80000

90000

100000
f) . . . . . . . . . . . . . . .
Angaben über das arithmetische Mittel sind hier eher etwas optimistisch. Die Einkommensverteilung
ist sicherlich rechtsschief. Daher darf man vermuten, dass das arithmetische Mittel größer ist als
der Median, so wie in unserem Beispiel: Mehr als 50% der Köche in Deutschland verdienen weniger
als 29 640 Euro, also weniger als das arithmetische Mittel vorgibt.

Lösung zu Aufgabe 12: Die gegebene Tabelle zeigt die Häufigkeitsverteilung der Variablen Verkaufs-
zahl . Im folgenden ist diese noch ergänzt durch die Spalte der kumulierten Häufigkeiten (zur leichteren
Median- und Quartilbestimmung):

Verkaufte Exemplare Zahl der Wochen Kumulierte Häufigkeit


aj hj
9 1 1
10 3 4
11 6 10
12 8 18
13 10 28
14 10 38
15 7 45
16 4 49
17 1 50
50

P P
a) Arithmetisches Mittel: x̄ = xi /50 = 657/50 = 13.14. (Alternativ, mit der Tabelle: aj hj /50 =
(9 · 1 + 10 · 3 + · · · + 17 · 1)/50 = 13.14.)
Interpretation: Rund 13 Exemplare des Magazins wurden durchschnittlich pro Woche verkauft.

b) Median: 13.
Denn es ist 50/2=25; der Median liegt also zwischen dem 25ten und dem 26ten Wert der geordneten
Reihe der Verkaufszahlen. Beide Werte sind jeweils 13.

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 11
Interpretation (zu beachten ist hier, dass der Wert 13 häufig vorkommt): In mehr als 50% (genau-
er: 28/50 = 56%) der Wochen wurden höchstens 13 Exemplare verkauft. Oder: In mehr als 50%
(genauer: 32/50 = 64%) der Wochen wurden mindestens 13 Exemplare verkauft.

c) Unteres Quartil: 12. Oberes Quartil: 14.


Denn es ist 50/4 = 12.5 und 3 · 50/4 = 37.5. Das untere Quartil ist somit der 13te Wert, das
obere Quartil der 38te Wert in der geordneten Reihe der Verkaufszahlen. (Das obere Quartil ist
zugleich der 13te Wert von oben“, d.h. wenn man in der geordneten Reihe von den größten Werten

herunterzählt.)
Interpretation (zu beachten ist auch hier, dass beide Werte häufig vorkommen): In mehr als 25%
(genauer: 18/50 = 36%) der Wochen wurden höchstens 12 Exemplare verkauft. In ebenfalls mehr
als 25% (genauer: 22/50 = 44%) der Wochen wurden mindestens 14 Exemplare verkauft.

d) Möglichkeiten zur graphischen Darstellung einer Häufigkeitsverteilung: Kreisdiagramm, Balkendia-


gramm (Säulendiagramm, Stabdiagramm), Stamm-und-Blatt-Diagramm, Histogramm, Boxplot.
Es handelt sich hier um eine metrisch diskrete Variable, einzelne Werte kommen sehr häufig vor.
Ein Balkendiagramm ist hier geeignet:
10
8
6
4
2
0

9 10 11 12 13 14 15 16 17

e) Arithmetisches Mittel und Median sind nahezu gleich, und auch der Vergleich der Häufigkeiten
zeigt: Die Häufigkeitsverteilung der Verkaufszahlen ist nahezu symmetrisch um ihren Mittelwert.
Diesen Eindruck bestätigt auch das Balkendiagramm.

f) Varianz: s2 =
P 2
xi /50 − x̄2 = 8 797/50 − 13.142 = 3.28. (13.14 war das arithmetische Mittel der
wöchentlichen Verkaufszahlen!)
Mit der gegebenen Häufigkeitsverteilung würde man so rechnen:
P 2
aj hj /50 − x̄2 = (92 · 1 + 102 · 3 + · · · + 172 · 1)/50 − 13.142 = 3.28.

Standardabweichung: s = 3.28 = 1.81.

g) Die 1-σ-Regel besagt: Ca. zwei Drittel der Beobachtungen, hier etwa 33, erwartet man im Intervall
[13.14−1.81, 13.14+1.81] = [11.33, 14.95] (1-σ-Bereich), falls näherungsweise eine Normalverteilung
vorliegt. Tatsächlich liegen 28 Beobachtungen in diesem Intervall, d.h. 5 Beobachtungen weniger als
erwartet. Prozentual gesehen liegen also nur 28/50 = 56% der Beobachtungen 1-σ-Bereich. Das ist
deutlich zu wenig. Die 1-σ-Regel trifft nicht zu.
Anmerkung: Eigentlich geht es hier ja um eine quantitativ diskrete Variable. Wie kommt es, dass
hier ein Vergleich ihrer Verteilung mit einer Normalverteilung, einer stetigen Verteilung, sinnvoll ist?
Der Zentrale Grenzwertsatz (siehe Kapitel 8 der Vorlesung) erlaubt es, unter gewissen Bedingungen,
eine diskrete Verteilung durch die Normalverteilung zu approximieren!

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 12
h) Die 2-σ-Regel besagt: Ca. 95% der Beobachtungen, hier alle bis auf zwei oder drei, erwartet man
im Intervall [13.14 − 2 · 1.81, 13.14 + 2 · 1.81] = [9.52, 16.76] (2-σ-Bereich), falls näherungsweise eine
Normalverteilung vorliegt. Tatsächlich liegen 48 Beobachtungen in diesem Intervall und nur 2 Werte
außerhalb. Die 2-σ-Regel trifft zu.

Lösung zu Aufgabe 13:

a) Die 3-σ-Regel besagt hier: Falls die Monatsrenditen beim SSEC näherungsweise normalverteilt sind,
so würde man mehr als 99% der Werte im folgenden Intervall um den arithmetischen Mittelwert r̄
erwarten:

[r̄ − 3 · s, r̄ + 3 · s] = [0.83 − 3 · 8.24, 0.83 + 3 · 8.24] = [−23.89, 25.55]

Das ist der 3-σ-Bereich um r̄. Mehr als 99% der Werte bedeutet hier: mehr als 104 Werte, also
eigentlich alle Werte, würde man darin erwarten. (Eine Beurteilung ist hier nicht möglich, aber das
Maximum ist jedenfalls nicht in diesem Bereich.)

b) Ein Boxplot, das zu den Ergebnissen in der Tabelle passt, erhält man so:
Die Box reicht von −4.68 bis 5.57, dazwischen liegt bei 0.81 der Median.
Die Breite der Box ist daher 5.57 − (−4.68) = 10.25, die (bei einem Standard-Boxplot) maximale
Whisker“-Länge also 1.5 · 10.25 = 15.37. Der linke Whisker“ beginnt daher bei −4.68 − 15.37 =
” ”
−20.05, der rechte Whisker“ endet bei 5.57 + 15.37 = 20.94. Das Minimum und das Maximum der

Monatsrenditen liegen außerhalb des Whisker“-Bereichs und erscheinen im Boxplot als einzelne

Punkte. Über andere extreme Werte ist nichts bekannt, allerdings ist die Kurtosis nahe an 0, so
dass man nicht viele extreme Werte erwartet.

● ●

−20 −10 0 10 20

Ein vereinfachtes Boxplot (der Whisker“-Bereich erstreckt sich vom kleinsten zum größten Wert)

ist das folgende:

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 13

−20 −10 0 10 20

Lösung zu Aufgabe 14:

a) Bei A handelt es sich um eine qualitative Variable, insbesondere ist die Variable kategorial/nominal-
skaliert.
Der Modus ist die häufigste Antwort: ja“ oder nein“. Er ist sinnvoll. Median und arithmetisches
” ”
Mittel ergeben hier jedoch keinen Sinn, denn ja“ und nein“ lassen sich nicht auf einer Rangskala
” ”
vergleichen, und ein Abstand zwischen ja“ und nein“ kann natürlich auch nicht gemessen werden.
” ”
Ebenso sinnlos ist hier der Begriff der Standardabweichung.
(Dass man oft nach Codierung mit 1=ja“, 0=nein“ das arithmetische Mittel aus den Einsen und
” ”
Nullen berechnet, ist eine Rechenstrategie mit einem anderen Ziel, nämlich den Anteil der Ja-Sager
unter den Befragten leichter zu bestimmen!)
Bei B handelt es sich um die Frage nach einer Zeitdauer. Die Variable ist quantitativ/metrisch, und
prinzipiell ist eine Zeitdauer stetig.
Für stetige Variablen ist der Modus wenig aussagekräftig. Sinnvoll sind aber: der Median, das
arithmetische Mittel, und ebenso die Standardabweichung. Allerdings sind hier weder der Median
noch das arithmetisches Mittel oder die Standardabweichung bestimmbar! Den Befragten werden
nämlich Klassen (Minutenbereiche) von möglichen Zeitdauern als Antwortkategorien vorgegeben.
So hat man nach der Befragung nur eine klassierte Häufigkeitsverteilung der Zeitdauern, woraus
diese Maßzahlen nur näherungsweise und mehr oder weniger grob bestimmt werden können.
Anmerkung: Die Klasse, die von den Befragten am häufigsten genannt wird, könnte bei der Aus-
wertung der Umfrage von Interesse sein. Aussagekräftiger ist jedoch die Klasse mit der höchsten
Häufigkeitsdichte, die sogenannte modale Klasse, weil die vorgegebenen Klassen nicht gleich breit
sind.
Eine Übersicht gibt die folgende Tabelle:

A: kategorial B: stetig
möglich? sinnvoll? prinzipiell möglich? sinnvoll? hier möglich?
Modus ja ja ja nein nur: modale Klasse
Median nein nein ja ja nur: Näherungswert
arithmetisches Mittel nein nein ja ja nur: Näherungswert
Standardabweichung nein nein ja ja nur: Näherungswert

b) Bei Fragen ohne Antwortvorgaben (und insbesondere auch ohne Interviewer/in) riskiert man, dass
die betreffende Frage unbeantwortet bleibt, weil sich die befragte Person nicht konkret festlegen
kann oder will. Wichtiger aber noch: Die Antworten der Befragten sind unter Umständen nicht
einmal vergleichbar. Frage A ist davon zwar nicht betroffen. Bei B könnten aber manche Befragte
etwa auf halbe Stunden runden, andere auf ganze Stunden, und wieder andere Befragte könnten

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 14
auch lediglich Zeitbereiche nennen. Der vermeintliche Vorteil — Median, arithmetisches Mittel
und auch die Standardabweichung könnten aus konkret genannten Zeitdauern berechnet werden,
müssten also nicht näherungsweise bestimmt werden — führt zu weniger brauchbaren Ergebnissen.
Die Ergebnisse könnten auch weniger vertrauenswürdig sein als bei Fragen mit Antwortvorgaben.

Lösung zu Aufgabe 15:


a) Das Ideal einer repräsentativen Stichprobe ist eine Zufallsstichprobe, entweder eine reine Zufalls-
stichprobe oder eine geschichtete Stichprobe unter Verwendung von einer oder mehreren Schich-
tungsvariablen (Geschlecht, Altersgruppe, Wohnort), deren Verteilung in der Stichprobe mit der
Verteilung in der Zielpopulation übereinstimmt. Innerhalb der Schichten hat dann jeder dieselbe
Chance in die Stichprobe zu kommen.
In der Praxis könnte man eine solche Stichprobe durch eine Telefonumfrage bekommen; als Schich-
tungsvariablen dienen dabei die Anschlussart (Festnetz/Mobil), bei den Festnetznummern noch
zusätzlich die Vorwahl und bei den Mobilnummern der Provider. Einfach Leute auf der Straße
zu fragen ist keine gute Idee, denn nicht alle Wahlberechtigten laufen auf der Straße (auf welcher
Straße?), insbesondere nicht 10 Uhr morgens an einem Arbeitstag.
Eine repräsentative Stichprobe erlaubt die Verwendung der Methoden der induktiven Statistik und
damit Schlussfolgerungen von der Stichprobe auf die Zielpopulation.

b) Es geht hier darum, ob ein Wahlberechtigter auf die obige Frage JA sagt oder NEIN. Nur diese bei-
den Fälle sind möglich. Die Population der Wahlberechtigten lässt sich daher mit einer Population
von Kugeln in einer Urne beschreiben, welche entweder rot (JA) oder blau (NEIN) sind. Aus dieser
Urne werden 1004 Kugeln ( Wahlberechtigte“) nacheinander und ohne Zurücklegen herausgeholt.

Im Vergleich zur Zahl aller Wahlberechtigten ist der Umfang der Stichprobe klein; weniger als 5%
aller Wahlberechtigten werden in der Stichprobe gefragt. Daher können wir das Urnenmodell Zie-

hen ohne Zurücklegen, aber die Zahl der Kugeln in der Urne ist groß“ benutzen. Das bedeutet, dass
wir so tun dürfen als wäre es das Urnenmodell Ziehen mit Zurücklegen“.

c) Wird ein Wahlberechtigter zufällig ausgewählt und befragt, dann interessieren wir uns dafür, ob
die Person JA oder NEIN sagt, d.h. für die Realisierung der Zufallsvariablen

1 falls die Person JA sagt
X=
0 falls die Person NEIN sagt

Die Realisierung hängt vom Zufall ab. Man sagt: Die Realisierung von X wird vom stochastischen
Modell für X erzeugt.
Was genau ist hier aber vom Zufall abhängig? Die folgende Überlegung macht es deutlich: Wie groß
ist in diesem stochastischen Modell die Wahrscheinlichkeit, dass die zufällig ausgewählte Person JA
sagt? Diese Wahrscheinlichkeit ist unbekannt, insbesondere muss sie nicht 50% sein, denn es kommt
hier nicht darauf an, wie viele verschiedene Antwortmöglichkeiten man hat. Es kommt darauf an,
wer ausgewählt wird, insbesondere, ob es ein JA-Sager oder ein NEIN-Sager ist. Genau das hängt
vom Zufall ab. Gibt es in der Population der Wahlberechtigten mehr JA-Sager als NEIN-Sager,
dann ist die Wahrscheinlichkeit, dass die zufällig ausgewählte Person JA sagt, größer als 50%.
Die gesuchte Wahrscheinlichkeit ist also P (X = 1) = p und die Gegenwahrscheinlichkeit, d.h. die
Wahrscheinlichkeit, dass die zufällig ausgewählte Person NEIN sagt, ist P (X = 0) = 1 − p.
Wir benutzen hier das stochastische Modell einer Binomialverteilung. Man sagt: X ist binomial-
verteilt, X ∼ B(1, p). Man wählt hier nur eine Person zufällig aus, hat also nur einen einzelnen
Bernoulli-Versuch, bei dem man beobachten will, ob das Erfolgsereignis zufällig ausgewählte Per-

son sagt JA“ eintritt oder nicht. Die Erfolgswahrscheinlichkeit ist so groß wie der unbekannte Anteil
p der JA-Sager in der Population der Wahlberechtigten.

d) Wir kennen p nicht, weil nicht alle Wahlberechtigten befragt werden konnten. Wenn jemand p = 50%
setzt, mit der Begründung, dass es bei der Befragung ja nur zwei Antwortmöglichkeiten gibt, JA
und NEIN, so ist das ein Missverständnis des Anteils p. Der Anteil p spiegelt die Meinung in der
Zielpopulation wieder, nicht die Zahl der möglichen Antworten.

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 15
e) Wir wollen von einer Stichprobe auf die Zielpopulation schließen. Eine solche Schlussfolgerung ist
induktiv und immer unsicher (im Unterschied zur deduktiven Schlussfolgerung). Wir dürfen auf
der Basis einer Stichprobe niemals behaupten, dass wir den wahren Wert von p in der Zielpopu-
lation kennen. Zwar schätzen wir p mit dem Anteil in der Stichprobe: p̂ = 68%. Aber das ist die
Realisierung einer Zufallsvariablen; die Beobachtung 68% ist vom stochastischen Modell für den
Stichprobenanteil p̂ erzeugt.
f) Ja, im Prinzip ist das möglich, denn das Ergebnis in der Stichprobe ist ja erzeugt vom stochastischen
Modell für den Stichprobenanteil p̂. Wir erwarten zwar, dass in der Stichprobe 50% JA sagen (der
Erwartungswert von p̂ ist 50%), aber das stochastische Modell beinhaltet auch Varianz, die dazu
führt, dass das Ergebnis in der Stichprobe von 50% abweichen kann.
g) Wenn die Annahme p = 50%“ wahr ist, dann ist es sehr unwahrscheinlich, dass man in der

Stichprobe einen Anteil p̂ beobachtet, der mindestens so weit rechts von 50% liegt wie 68%. Das ist
aber tatsächlich passiert.
Die Annahme p = 50%“ könnte aber falsch sein; es könnte zum Beispiel p = 65%“ wahr sein. Dann
” ”
wäre es etwas wahrscheinlicher, in der Stichprobe einen Anteil p̂ zu beobachten, der mindestens 68%
beträgt. Unsere Beobachtung spricht tatsächlich gegen die Richtigkeit der Annahme p = 50%“.

Die Annahme ist also keineswegs sicher.

Lösung zu Aufgabe 16: Aussage (d) ist richtig!


Ein Wahrscheinlichkeitsbaum der relevanten Erreignisse hilft bei der Begründung:

.......
.......
.. Zeuge sagt blau“
...... ”
80%...............
.......
.
.......
.......
.......
...
..........
...
.......
.......
.......
.......
............
.......
.......
..... Taxi war blau .......
.......
....... .......
.........
. .......
.......
15%
...... .......
....... .......
....... .......
....... .......
....... .......
.......... .......
.......
.......
.....
.
20% .......
.......
.......
....... .......
....... .......
.......
......
........ . Zeuge sagt grün“
.......
....... ”
............
.......
.......
.......
.......
.......
.......
....... .......
..
....... Zeuge sagt blau“
....... ....... ”
20%......................
....... ......
.......
.......
.......
....... ..
....... .......
....... .......
85% ....... .......
.......
....... .....
........
...
....... .......
....... .......
....... .......
......
Taxi war grün ............
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
80% .......
.......
.......
.......
.......
. Zeuge sagt grün“

In diesem Wahrscheinlichkeitsbaum gibt es nur zwei Äste, die passiert sein können: nämlich diejenigen
Äste, bei welchen der Zeuge sagt, dass das Taxi blau“ war (denn das hat er ja tatsächlich gesagt). Welcher

dieser beiden Äste wiegt schwerer“? — Es ist der Ast, der von einem grünen Taxi ausgeht! Dieser Ast

hat nämlich eine Wahrscheinlichkeit von 0.85 · 0.2 = 0.17 = 17%, der andere nur eine Wahrscheinlichkeit
von 0.15 · 0.8 = 0.12 = 12%.
Es ist somit wahrscheinlicher, dass das Taxi grün war!
Anmerkung:
Ohne die Beobachtung des Augenzeugen — man sagt: a priori — beträgt die Wahrscheinlichkeit, dass
das Unfalltaxi blau war, 15%, denn 85% der Taxis auf der Straße sind grün.
Die Beobachtung des Augenzeugen ermöglicht ein Hinzulernen über diese Wahrscheinlichkeit. Die a-
priori-Wahrscheinlichkeit kann so verbessert“ werden zur a-posteriori -Wahrscheinlichkeit:

12
P (Taxi war blau | Zeuge sagt blau“) = = 0.414 = 41.4%
” 12 + 17
© Angi Rösch / Harald Schmidbauer, 2023
ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 16
Diese bedingte Wahrscheinlichkeit ist das relative Gewicht“ des Asts, der von einem blauen Taxi ausgeht,

unter denjenigen beiden Ästen im Wahrscheinlichkeitsbaum, bei welchen der Zeuge blau“ sagt. Sie ist

mehr als doppelt so hoch wie die a-priori-Wahrscheinlichkeit, dass das Taxi blau war. Trotzdem ist es
noch wahrscheinlicher, dass das Taxi grün war; die Wahrscheinlichkeit dafür beträgt 58.6%.

Lösung zu Aufgabe 17:


a) Die folgende Ereignisse sind wichtig:

A ... Es passiert ein Einbruch. Ā ... Es passiert kein Einbruch.


B ... Es gibt einen Alarm. B̄ ... Es gibt keinen Alarm.

Der Hersteller der Alarmanlage sagt: P (B|A) = 0.99, P (B|Ā) = 0.01.


Die Einbruchsstatistik sagt: P (A) = 1/250, P (Ā) = 249/250.
Der zugehörige Wahrscheinlichkeitsbaum ist:
....
.......
.......
B: Alarm
9 ..........
0.9 .....................
......
.......
.......
.......
............
.
.......
.......
.......
............
.......
.......
.......
A: Einbruch .......
.......
.......
.. ....... .......
1 ....... .......
....... .......
0 ....... .......
25 .................... .......
.......
.......
....... .......
....... 0.0 .......
....... .......
.......
.......
... ..
. ... 1 .......
.......
....... kein
....... .
B̄:
.......
....... Alarm
.....
. .......
.
............
.......
.......
.......
.......
.......
.......
.......
.......
.....
.......
.......
B: Alarm
1 ..........
0.0...........................
.......
.......
.......
.......
.......
....... .......
24 ....... .......
9 ....... .......
....... .......
25 .......
....... ...........
0 ....... .
.......
.
.......
...... kein .......
............
Ā: .......
.......
Einbruch .......
.......
.......
.......
.......
.......
.......
.......
.......
0.9 .......
.......
9 .......
.......
.......
.
kein
B̄:
Alarm

b) Die Wahrscheinlichkeit, dass es in der Nacht einen Alarm gibt, ist:


1 249
P (B) = P (A) · P (B|A) + P (Ā) · P (B|Ā) = · 0.99 + · 0.01 = 0.0139 = 1.4%.
250 250

c) Laut Einbruchsstatistik ist das Einbruchsrisiko vor der Beobachtung des Alarms, d.h. das a-priori -
Einbruchsrisiko: P (A) = 1/250 = 0.4%.
Die Beobachtung des Alarms ermöglicht ein Lernen über das Einbruchsrisiko in dieser Nacht. Mit
dem Theorem von Bayes erhält man das a-posteriori -Einbruchsrisiko:
1
P (A) · P (B|A) · 0.99
P (A|B) = = 250 = 0.2845 = 28.4%.
P (B) 0.0139

d) Für den (erfahrenen) Nachtwächter, der das verdächtige Geräusch hört, ist das Einbruchsrisiko
vor der Beobachtung des Alarms 25mal so hoch wie das a-priori-Risiko aus der Einbruchsstatistik:
P (A) = 1/10 = 10%. Damit wird auch das a-posteriori -Einbruchsrisiko höher:
1
· 0.99
P (A|B) = 10 = 0.9167 = 91.7%.
1 9
· 0.99 + · 0.01
10 10

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 17

Lösung zu Aufgabe 18:

a) Ereignisse:

E = die Tasche enthält Sprengstoff, Ē = die Tasche enthält keinen Sprengstoff,


A = der Detektor zeigt Sprengstoff an, Ā = kein Sprengstoff wird angezeigt.

Damit hat man:


P (E) = 0.001, P (Ē) = 0.999,
P (A|E) = 0.999, P (Ā|E) = 0.001, P (A|Ē) = 0.05, P (Ā|Ē) = 0.95.

Ereignisbaum (mit Wahrscheinlichkeiten):

99............
; 0.........9.................
A .
......
.......
..
...
.......
.......
.....................
01 ............... .......
0.0...............
.......
.......
E; .......
.......
.. A¯; .......
.......
.......
.......
.......
0 .0 .......
.......
............
. 01 ..
.......
............
.......
.......
.......
....... 5 ......
.......
....... 0.0 .......
.......
.......
E¯; A;
.......
.......
....... ............
.
0 .9 ....... ......
....... .......
99 ....... ..............
..........
.......
.......
.......
.......
.......
A¯; .......
.......
.......
0.9 .......
.......
5

b) Gesucht ist P (E|A). Gemäß dem Bayes-Theorem:

P (A|E) · P (E) 0.999 · 0.001 1 1


P (E|A) = = = < .
P (A|E) · P (E) + P (A|Ē) · P (Ē) 0.999 · 0.001 + 0.05 · 0.999 51 50

c) Das Ereignis ist mit Wahrscheinlichkeit 50/51 ≈ 98% ein falscher Alarm. In Anbetracht des großen
Schäden, die ein Terroranschlag verursachen kann, ist die Wahl der Option 2 ratsam. Tatsächlich
veranlassten die Manager des Flughafens München im Januar 2010 die Schließung des Flughafens,
bis der Vorfall geklärt war.

d) Die Wahrscheinlichkeit, dass der Besitzer der Tasche Sprengstoff mitführt, ist subjektiv; sie hängt
vom Wissen der Beteiligten ab: Zum Beispiel weiß der Besitzer selber wohl sehr genau, ob seine
Tasche Sprengstoff enthält. Die Kontrolleure können dagegen nur allgemeine Annahmen treffen.
Die hier getroffenen Annahmen — also die a-priori-Wahrscheinlichkeiten P (E) = 0.001, P (Ē) =
0.999 — spiegeln das Wissen der Kontrolleure vor der Beobachtung des Detektor-Tests wider.

Lösung zu Aufgabe 19:

a) Sei X = Anzahl der Frauen in einer zufällig ausgewählten Gruppe von 10 Personen. Es gilt: X ∼
B(10, 0.41).

– Wie viele Frauen würde man dann unter den 10 Personen im Top-Management erwarten?
E(X) = 4.1, das heißt: Man würde vier Frauen erwarten.
– Wie groß ist die Wahrscheinlichkeit, dass sich im Top-Management überhaupt keine Frau
befindet?
P(X = 0) = 10
 0 10
0 0.41 0.59 = 0.005.
R-Code: dbinom(0, size=10, prob=0.41).
– Wie groß ist die Wahrscheinlichkeit, dass sich im Top-Management genau eine Frau befindet?
P(X = 1) = 10 1 9
1 0.41 0.59 = 0.036.
R-Code: dbinom(1, size=10, prob=0.41).

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 18
– Wie groß ist die Wahrscheinlichkeit, dass sich im Top-Management mindestens eine Frau be-
findet?
P(X ≥ 1) = 1 − P(X = 0) = 0.995.
R-Code: 1-dbinom(0, size=10, prob=0.41); mit der Verteilungsfunktion pbinom:
1-pbinom(0, size=10, prob=0.41)
oder
pbinom(0, size=10, prob=0.41, lower.tail = FALSE).

b) Das legt die Vermutung nahe, dass Frauen in diesem Unternehmen nicht dieselben Chancen wie
Männer haben, ins Top-Management aufzusteigen.

Lösung zu Aufgabe 20:

a) Die Zufallsvariable X = Zahl der Kunden, die freitags zwischen 10 und 10:15 Uhr anrufen“ ist

(näherungsweise) poissonverteilt. Das geschätzte Modell ist: X ∼ Po(5).
Begründung: Es werden Erfolge gezählt: Anrufe. Der Zeitraum zwischen 10 und 10:15 Uhr umfasst
viele Versuche: kurze Zeitintervalle, z.B. 1-Sekunden-Intervalle, in welchen ein Anruf passieren kann
oder nicht passieren kann. Die Wahrscheinlichkeit (die Erfolgswahrscheinlichkeit), dass in einer
bestimmten Sekunde ein Anruf passiert, ist aber sehr klein, fast Null. Trotzdem: Anrufe passieren,
durchschnittlich 5 Anrufe gibt es im gesamten Zeitraum. Damit kann man schätzen: λ̂ = x̄ = 5.
50 −5
Die gesuchte Wahrscheinlichkeit ist: P (X = 0) = e = 0.007 = 0.7%.
0!
R-Code: dpois(0, lambda=5).

b) Die Zufallsvariable Y = Zahl der Anrufe, die sofort bedient werden“ ist binomialverteilt: Y ∼

B(5, 0.8).
Begründung: Es gibt n = 5 unabhängige Versuche: Anrufe. Es wird beobachtet, ob der Anruf sofort
bedient wird (Erfolg) oder nicht (Misserfolg). Die Erfolgswahrscheinlichkeit ist bei jedem Versuch
p = 0.8.
 
5
Die gesuchte Wahrscheinlichkeit ist: P (Y = 5) = 0.85 0.20 = 0.85 = 0.328 = 32.8%.
5
R-Code: dbinom(5, size=5, prob=0.8).

Lösung zu Aufgabe 21:

a) Aus der gegebenen Häufigkeitsverteilung errechnet man:

x̄ = (0 · 16 + 1 · 14 + 2 · 4 + 3 · 2)/36 = 0.78
2
s = (02 · 16 + 12 · 14 + 22 · 4 + 32 · 2)/36 − 0.782 = 0.72

b) Man kann hier sagen, dass seltene Ereignisse in einer langen Versuchsreihe gezählt werden: Ein
Stromausfall (das Erfolgsereignis) kann jede Minute passieren. Die Wahrscheinlichkeit, dass ein
Stromausfall innerhalb einer ganz bestimmten Minute passiert (die Erfolgswahrscheinlichkeit), ist
aber sehr gering. Andererseits ist die Zahl der Minuten in einer Woche (die Anzahl der Versuche)
sehr groß, und die erwartete Anzahl der Stromausfälle in einer Woche ist nicht gleich Null. Dieser
Aufbau des Zufallsexperiments passt genau zum Grenzwertsatz von Poisson.
Zudem sind die mittlere Anzahl der Stromausfälle pro Woche und die Varianz der wöchentlichen
Beobachtungen fast gleich, was auch zur Annahme einer Poissonverteilung passt. Hiermit lässt sich
auch die Wahl des Parameterwerts für λ begründen: λ ist insbesondere der Erwartungswert der
Poissonverteilung (die erwartete Anzahl der Stromausfälle pro Woche) und kann mit der mittleren
Anzahl der Stromausfälle pro Woche geschätzt werden: λ̂ = x̄ = 0.78.

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 19
c) Sei X eine Zufallsvariable für die wöchentliche Anzahl der Stromausfälle, X ∼ Po(0.78). Damit ist
die gesuchte Wahrscheinlichkeit:

0.780 −0.78
P (X = 0) = e = 0.458 = 45.8%.
0!
(R-Code: dpois(0, lambda=0.78).)
Im Vergleich dazu: Beobachtet wurden 16 Wochen, in denen es nicht zum Stromausfall kam; die
zugehörige relative Häufigkeit ist 16/36 = 0.444 = 44.4%, d.h. unweit der obigen Wahrscheinlichkeit.
Auch dieses Ergebnis stützt die Verteilungsannahme.

d) Zwei weitere Beispiele sind: die Anzahl der Kundenankünfte im Supermarkt freitags zwischen 9 und
10 Uhr, die Anzahl der Druckfehler auf einer Seite.

Lösung zu Aufgabe 22:

a) Der IQ-Wert einer zufällig ausgewählten Person ist eine Zufallsvariable X ∼ N(100, 225). Die
gesuchte Wahrscheinlichkeit bekommt man mittels Standardisierung und der Tabelle der Standard-
normalverteilung:
X − 100 115 − 100
P (X < 115) = P( √ < √ ) = P (Z < 1) = 0.8413 = 84.13%.
225 225
X − 100
Dabei ist Z = √ ∼ N(0, 1).
225

R-Code zur Berechnung der Wahrscheinlichkeit P (Z < 1) mit der Verteilungsfunktion der Stan-
dardnormalverteilung:
pnorm(1) ≡ pnorm(1, mean = 0, sd = 1)
Die eigentlich gesuchte Wahrscheinlichkeit P (X < 115) kann man aber auch direkt, mit der Ver-
teilungsfunktion von X selber, berechnen. Im Command pnorm sind dazu die passenden Parameter
einzusetzen:
pnorm(115, mean = 100, sd = sqrt(225))

b) Gesucht ist derjenige IQ-Wert x, für welchen gilt:


! !
P (X > x) = 0.1 bzw. P (X ≤ x) = 0.9.

X − 100
Für Z = √ kann man den entsprechenden Wert z (das 90%-Quantil der Standardnormalver-
225
teilung) aus der Tabelle ablesen:
!
P (Z ≤ z) = 0.9 für z = 1.28 (gerundet).

Für den gesuchten IQ-Wert x muss man dann nur die Standardisierung umkehren:

! x − 100
z = 1.28 = √ .
225

Auflösung nach x ergibt: x = 100 + 1.28 · 225 = 119.2. 10% aller Personen erreichen also einen
IQ-Wert von mehr als 119.
Mit R bekommt man das gesuchte 90%-Quantil der Verteilung von X auch direkt:
qnorm(0.9, mean = 100, sd = sqrt(225))

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 20
c) Der IQ-Wert der Person Nr. i ist eine Zufallsvariable Xi ∼ N(100, 225), i = 1, . . . , 100. Somit
ist X̄ = (X1 + · · · + X100 )/100 eine Zufallsvariable für den durchschnittlichen IQ-Wert unter 100
Personen.
Unter der Annahme, dass die IQ-Werte der Personen voneinander unabhängig sind, gilt:
225
X̄ ∼ N(100, )
100
X̄ − 100
Wegen Z = q ∼ N(0, 1) findet man dann:
225
100

97 − 100 103 − 100


P (97 < X̄ < 103) = P( q <Z< q ) = P (−2 < Z < 2),
225 225
100 100

unter Ausnutzung der Symmetrie der Standardnormalverteilung:

= 1 − 2 · P (Z > 2),

mit der Tabelle der Standardnormalverteilung:

= 1 − 2 · (1 − P (Z < 2)) = 1 − 2 · (1 − 0.9772)


= 1 − 2 · 0.0228 = 1 − 0.0456 = 0.9544 = 95.44%.

Es handelt sich hier um die Wahrscheinlichkeit, dass der durchschnittliche IQ-Wert ein Ergebnis im
sogenannten 2-Sigma-Bereich zeigt!
Anmerkung:
Die gesuchte Wahrscheinlichkeit lässt sich auch als Differenz zweier Wahrscheinlichkeiten schreiben,
nämlich:
P (97 < X̄ < 103) = P (X̄ < 103) − P (X̄ < 97)
= P (Z < 2) − P (Z < −2) = P (Z < 2) − P (Z > 2)
= 1 − 2 · P (Z > 2) = . . . = 95.44%
R-Code:
pnorm(103, mean = 100, sd = sqrt(225/100))
- pnorm(97, mean = 100, sd = sqrt(225/100))

Lösung zu Aufgabe 23: Sei X = Gewicht eines zufällig ausgewählten Eis (in Gramm). Es gilt:
X ∼ N(57.8, 3.22 ).

a) Für die Standardnormalverteilung und daher auch für das standardisierte Gewicht X gilt ungefähr:
 
X − 57.8
P −2 ≤ ≤ +2 ≈ 0.95
3.2

Auflösen der Ungleichungen so, dass X in der Mitte steht:

57.8 − 2 · 3.2 ≤ X ≤ 57.8 + 2 · 3.2 oder 51.4 ≤ X ≤ 64.2

Das gesuchte Intervall (mit Werten in Gramm) ist also: [51.4, 64.2]. Es ist der 2-Sigma-Bereich der
Verteilung von X!

b) Gesucht ist: P (X > 60). Diese Wahrscheinlichkeit ist:


   
X − 57.8 60 − 57.8 2.2
P > =P Z> = P (Z > 0.6875),
3.2 3.2 3.2

mit Z ∼ N(0, 1).

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 21
Die Gegenwahrscheinlichkeit P (Z < 0.6875) findet man in der Tabelle der Standardnormalvertei-
lung approximativ, wenn man den z-Wert auf 2 Nachkommastellen rundet (0.6875 ≈ 0.69) :

P (Z < 0.69) = 0.7549,

oder etwas genauer durch lineare Interpolation:


0.6875 − 0.68
P (Z < 0.6875) = P (Z < 0.68) + (P (Z < 0.69) − P (Z < 0.68)) ·
0.69 − 0.68
= 0.7517 + (0.7549 − 0.7517) · 0.75 = 0.7541
Also ist:
P (X > 60) = 1 − 0.7541 = 0.2459 = 24.59%
Das heißt: Etwa 25% der Eier werden schwerer sein als 60 Gramm.

R-Code unter direkter Verwendung der Verteilung von X:


pnorm(60, mean = 57.8, sd = 3.2, lower.tail = FALSE)

c) Stichprobe von 10 Eiern (Variable: Gewicht): X1 , . . . , X10 iid, Xi ∼ N(57.8, 3.22 ).


Gesamtgewicht der 10 Eier:
10
X
Y = Xi ∼ N(578, 10 · 3.22 )
i=1

Gesucht ist: P (Y > 600). Diese Wahrscheinlichkeit ist:


 
X − 578 600 − 578
P √ >√ = P (Z > 2.174) = 1 − P (Z < 2.174)
10 · 3.22 10 · 3.22
= 1 − 0.985 = 0.015 = 1.5%
Diese Wahrscheinlichkeit ist wesentlich kleiner als diejenige in (b). Der Grund dafür ist, dass bei
(b) nur ein Ei relativ schwer ist, bei (c) dagegen das Durchschnittsgewicht hoch ist. Letzteres ist
weniger wahrscheinlich, weil sich die Gewichte der Eier im Ensemble ausgleichen.

R-Code:
pnorm(600, mean = 578, sd = sqrt(10*3.2ˆ2), lower.tail = FALSE)

d) Mit 100 beobachteten Werten dürfen wir nach der 3-Sigma-Regel annehmen, dass die extremen
Werte 450 Stunden und 504 Stunden ein Intervall darstellen, das sechs Standardabweichungen breit
ist. Damit bekommt man eine grobe Abschätzung:
1
Standardabweichung s = 6 (504 − 450) = 9 [Stunden]
Varianz s2 = 81 [Stunden2 ]

Die tatsächliche Varianz kennt man damit natürlich nicht. Das hier geschilderte Vorgehen ist auch
kein vollständiger Ersatz für die Berechnung eines exakten Schätzers, aber man bekommt immerhin
eine schnelle Abschätzung der Größenordnung der Standardabweichung und Varianz auf einen Blick!

Lösung zu Aufgabe 24:

a) Die Zufallsvariable X = Zahl der Personen in der Stichprobe, die das Programm gesehen haben“

ist (näherungsweise) binomialverteilt: X ∼ B(4 000, p).
Dabei ist p die Einschaltquote in der gesamten Population der potenziellen Zuschauer.
Begründung: Man hat hier zwar eine Zufallsstichprobe ohne Zurücklegen, aber aus der sehr großen
Population der potenziellen Zuschauer, so dass man (näherungsweise) eine Zufallsstichprobe mit
Zurücklegen hat. X ist die Anzahl der Erfolge“ bei n = 4 000 unabhängigen Versuchen. Dabei ist

Erfolg“ = Die ausgewählte Person hat das Programm gesehen“. Die Erfolgswahrscheinlichkeit ist
” ”
bei jedem Versuch p.

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 22
Falls es ein typischer Tag ist, d.h. falls die Zuschauerquote in der gesamten Population 10% beträgt,
hat man:
X ∼ B(4 000, 0.1)
Erwartungswert: E(X) = 4 000 · 0.1 = 400.
Varianz: var(X) = 4 000 · 0.1 · (1 − 0.1) = 360.
Insbesondere ist var(X) > 9, also ist X nach dem Zentralen Grenzwertsatz approximativ normal-
verteilt:
appr.
X ∼ N(400, 360).
X − 400 appr.
b) Mit Hilfe der Normalverteilung und wegen Z = √ ∼ N(0, 1) bekommt man:
360
P (X = 400) = 0%

350 − 400
P (X ≤ 350) = P (Z ≤ √ ) = P (Z ≤ −2.635) = P (Z ≥ 2.635)
360

= 1 − P (Z ≤ 2.635) = 1 − 0.9958 = 0.0042 = 0.42%

P (X ≤ 350 oder X ≥ 450) = P (X ≤ 350) + P (X ≥ 450) = 2 · P (X ≤ 350)

= 2 · 0.42% = 0.84%

R-Code für die letzte Wahrscheinlichkeit:


pnorm(350, mean = 400, sd = sqrt(360))
+ pnorm(450, mean = 400, sd = sqrt(360), lower.tail = FALSE)

Lösung zu Aufgabe 25:


a) Der unbekannte Anteil p derjenigen jungen Erwachsenen in Deutschland, die die richtige Antwort
wissen, wird mit dem Stichprobenanteil p̂ geschätzt.
Anmerkung:
Nach dem Zentralen Grenzwertsatz gilt:
appr. p · (1 − p)
p̂ ∼ N(p, )
300

Die Stichprobe liefert eine Realisierung dieser Zufallsvariablen: p̂ = 84/300 = 0.28.


Approximative 95%-Konfidenzgrenzen sind somit:
r
0.28 · (1 − 0.28)
0.28 ± 1.96 · = 0.28 ± 0.0508
300
und das approximative 95%-Konfidenzintervall für p ist:

[0.28 − 0.0508, 0.28 + 0.0508] = [0.229, 0.331]

(Bonusfrage: Für welche Werte von p mit 0 < p < 1 gilt: 300 p(1 − p) > 9? Warum ist diese Frage
hier wichtig? Oder ist die Frage hier doch nicht so wichtig??)

b) Nein! Man kann nicht sagen, dass mehr als ein Viertel der jungen Erwachsenen in Deutschland die
richtige Antwort weiß. Lediglich für die Personen in der Stichprobe ergab sich ein Anteil von mehr
als einem Viertel.
Das Konfidenzintervall liegt nämlich nicht vollständig rechts von 25%. Man kann darauf vertrauen
(mit einem Vertrauensgrad von 95%), dass der Anteil der jungen Erwachsenen in Deutschland, die
die richtige Antwort wissen, zwischen 22.9% und 33.1% liegt — ein Anteil von unter 25% ist also
auch plausibel.

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 23
c) Nein! Die Zahl der jungen Erwachsenen in der Stichprobe, die die richtige Antwort wissen, ist
binomialverteilt. Das Modell der Binomialverteilung geht immer davon aus, dass die Population
unendlich groß ist — die tatsächliche Größe spielt keine Rolle. Unter gleichen Umständen (hinsicht-
lich des Parameters p) werden 95%-Konfidenzintervalle bei gleichen Stichprobenumfängen also etwa
gleich lang sein, egal wie groß die Population ist.

Lösung zu Aufgabe 26:

a) Ein Punktschätzer für µ ist der Stichprobenmittelwert: µ̂ = X̄. Aus den beobachteten Daten be-
1
rechnet man: µ̂ = x̄ = · 179.69 = 11.98.
15
b) Man kann aber nicht sagen, dass µ gleich 11.98 ist, denn µ und µ̂ sind nicht dasselbe!
µ ist eine feste Zahl, die den Schneideprozess an der betreffenden Maschine charakterisiert, nur leider
unbekannt ist, während µ̂ eine Zufallsvariable ist, deren Wert in einer Stichprobe beobachtet werden
kann, jedoch von Stichprobe zu Stichprobe variiert. Man kann lediglich sagen: Die durchschnittliche
Rohrlänge in der Stichprobe beträgt 11.98 Inch. Doch darauf, dass µ gleich 11.98 Inch ist, kann man
nicht vertrauen. Vielleicht liegt µ aber in der Nähe, ein Konfidenzintervall für µ hilft hier weiter.

c) Ein Konfidenzintervall für µ ist ein Intervall, das symmetrisch um den Punktschätzer µ̂ konstruiert
ist und die Variabilität des Werts von µ̂ in Stichproben gleichen Umfangs berücksichtigt. Dazu ist
Information über die Standardabweichung σ der Rohrlänge nötig. Aus Erfahrung weiß man hier:
σ = 0.1. Es gilt hier:
σ2
µ̂ ∼ N(µ, ),
15
σ 0.1
der Standardfehler (die Standardabweichung) von µ̂ ist damit: √ = √ .
15 15
95%-Konfidenzgrenzen sind daher:
0.1
11.98 ± 1.96 · √ = 11.98 ± 0.05
15
Das 95%-Konfidenzintervall für µ ist:

[11.98 − 0.05, 11.98 + 0.05] = [11.93, 12.03]

d) Mit einem Vertrauensgrad von 95% liegt µ zwischen 11.93 Inch und 12.03 Inch. Die Solllänge von
12 Inch liegt im Konfidenzintervall.
Das bedeutet: Die Beobachtungen geben keinen Hinweis darauf, dass µ von 12 Inch verschieden ist,
12 Inch ist ein plausibler Wert für µ. Daher besteht kein Anlass zur Nachjustierung der Maschine.
Allerdings kann man nicht darauf vertrauen, dass µ tatsächlich gleich 12 Inch ist, denn alle anderen
Werte im Konfidenzintervall sind ja auch plausible Werte von µ. Vielleicht sind diese anderen Werte
aber noch tolerabel.
(Bonusfrage: In der Stichprobe gibt es kein einziges Rohr, welches die Solllänge von 12 Inch genau
einhält. Müsste man dann nicht sofort an Nachjustierung denken?? — Nein! Selbst wenn µ = 12
wahr ist, bedeutet das nicht, dass es dann in einer Stichprobe mindestens ein Rohr mit dieser Länge
geben muss. Warum?)

Lösung zu Aufgabe 27:

a) R-Code:

(i) x = rnorm(100, mean = 10, sd = sqrt(5))


(ii) y = rnorm(1000, mean = 10, sd = sqrt(5))

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 24
b) Ein Punktschätzer für µ ist der Stichprobenmittelwert:
µ̂ = x̄.
2
Ein Punktschätzer für σ ist die Stichprobenvarianz; Software benutzt hier automatisch die folgende
Formel, mit einer für kleine Stichproben notwendigen Korrektur:
1 X
σ̂ 2 = s2 = (xi − x̄)2 .
n−1
R-Code, am Beispiel des Vektors (der Stichprobe, Simulation) x:
µ̂: mean(x)
σ̂ 2 : var(x)
c) Jede Stichprobe (jede Simulation) erzeugt ein anderes Set von Daten. Die Daten selbst sind von
einem stochastischen Modell (hier: eine Normalverteilung, n Versuche) erzeugt (Paradigma der Sta-
tistik). Die Ergebnisse für µ̂ und σ̂ 2 sind damit auch von Stichprobe zu Stichprobe (von Simulation
zu Simulation) verschieden. Daher sind µ̂ und σ̂ 2 Zufallsvariablen mit Realisierungen für die kon-
krete Stichprobe. Es gibt Wahrscheinlichkeitsverteilungen, welche diese Realisierungen erzeugen.
Da die Daten aus unabhängigen Simulationen einer Normalverteilung mit Mittelwert µ = 10 und
Varianz σ 2 = 5 stammen, hat man:
5 n−1 2
µ̂ ∼ N(10, ), σ̂ ∼ χ2n−1
n 5
Viele Realisierungen von µ̂ und σ̂ 2 gewinnt man aus vielen Simulationen. Daraus ergeben sich
empirische Verteilungen, die man mit den obigen Wahrscheinlichkeitsverteilungen vergleichen kann.
Der folgende R-Code zeigt den Vergleich.
1000 Wiederholungen der Simulation eines Vektors x (der Länge n) und Zusammenstellung der
Ergebnisvektoren in der Matrix x.sims:

n = 100
x.sims = matrix(rnorm(n*1000, mean = 10, sd = sqrt(5)), ncol = 1000)

Schätzung von µ aus jeder Simulation und Darstellung der 1000 Schätzergebnisse (Realisierungen
von µ̂) in einem Histogramm:

mu.est = colMeans(x.sims)
mu.est
hist(mu.est)

Vergleich dieser empirischen Verteilung mit der theoretischen Normalverteilung für µ̂:
(Hierzu muss das Histogramm in der Vertikalen die Dichte an Stelle von Häufigkeiten zeigen.)

hist(mu.est, freq = FALSE)


quantiles = seq(10-3*sqrt(5/n), 10+3*sqrt(5/n), 0.01)
lines(quantiles, dnorm(quantiles, mean = 10, sd = sqrt(5/n)), col=’red’)

Schätzung von σ 2 aus jeder Simulation und Darstellung der 1000 Schätzergebnisse (Realisierungen
n−1 2
von σ̂ 2 ) — umskaliert zu σ̂ — in einem Histogramm:
5
sigma2.est = apply(x.sims, 2, var)
sigma2.est
hist((n-1)*sigma2.est/5)
n−1 2
Vergleich dieser empirischen Verteilung mit der theoretischen χ2 -Verteilung für σ̂ :
5
(Hierzu muss das Histogramm in der Vertikalen die Dichte an Stelle von Häufigkeiten zeigen.)

hist((n-1)*sigma2.est/5, freq = FALSE)


quantiles = seq(0, 2*n, 1)
lines(quantiles, dchisq(quantiles, df = n-1), col=’red’)

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 25

Lösung zu Aufgabe 28:


a) – Xiaoyaos Nullhypothese H0 : p = 1/6 ist abgelehnt worden. Das bedeutet: Wir haben etwas
beobachtet (nämlich: 30mal die Vier“ in 120 Würfen), das zu weit weg von den erwarteten

20mal Vier“ ist, falls H0 wahr ist. Eine Beobachtung von 30mal die Vier“ oder öfter hat
” ”
eine sehr kleine Wahrscheinlichkeit (kleiner als 5%/2 = 2.5%), falls H0 wahr ist, und kann
eine viel größere Wahrscheinlichkeit haben, falls H1 : p ̸= 1/6 wahr ist. Man kann auch sagen:
p̂ = 30/120 = 1/4 ist signifikant verschieden vom erwarteten Anteil 1/6, falls H0 wahr ist.
– Wir können immer noch nicht sicher sein, dass der Würfel verfälscht ist. Um das zu wissen,
müssten wir den Würfel werfen, bis er kaputt (oder verloren) ist! Das dauert zu lang. Die
Statistik bietet einen Kompromiss: Wir haben schnell ein Ergebnis, sogar mit Fehlerkontrolle,
aber ganz sicher können wir eben nicht sein.

b) Es könnte ein Fehler erster Art passiert sein, nämlich: Ist die Hypothese tatsächlich wahr, so wurde
sie hier irrtümlich abgelehnt. Die Wahrscheinlichkeit für eine solche Fehlentscheidung beträgt jedoch
höchstens α = 5%. Dieser Fehler ist also unter Kontrolle. Wir können darauf vertrauen, dass die
Entscheidung, die Hypothese abzulehnen, richtig war.

Lösung zu Aufgabe 29:


a) Approximative 95%-Konfidenzgrenzen für p sind:
r r
p̂(1 − p̂) 0.537 · 0.463
p̂ ± 1.96 · = 0.537 ± 1.96 ·
n 1000
= 0.537 ± 0.031

Das approximative 95%-Konfidenzintervall für p ist damit: [0.506, 0.568]

b) H0 : p = 0.5 wird gegen H1 : p ̸= 0.5 (zum Signifikanzniveau α = 5%) abgelehnt, weil der hypotheti-
sche Wert 0.5 nicht im Konfidenzintervall für p enthalten ist. Wir könnten damit einen Fehler 1. Art
gemacht haben, das bedeutet: Wir lehnen die Nullhypothese der Chancengleichheit von Kopf“ und

Zahl“ ab, obwohl sie wahr ist. Ein Fehler 1. Art ist aber höchstens mit der Wahrscheinlichkeit

α = 5% passiert. Daher vertrauen wir darauf, dass kein Fehler 1. Art passiert ist, und, dass die
Münze tatsächlich mit größerer Wahrscheinlichkeit Kopf“ zeigt, weil das Konfidenzintervall nur

Werte oberhalb von 0.5 enthält.

c) Der prob-value ist hier die Wahrscheinlichkeit unter H0 , dass man in der Stichprobe eine Reali-
sierung von p̂ beobachtet, die von 0.5 (erwartet unter H0 ) mindestens so weit weg ist wie 0.537
(tatsächlich beobachtet). Oder, anders ausgedrückt: die Wahrscheinlichkeit, dass der Abstand zwi-
schen dem beobachteten Anteil p̂ und dem unter H0 erwarteten Anteil 0.5 mindestens 0.537 − 0.5 =
0.037 beträgt — das gilt für alle großen Werte ab 0.537, aber auch für alle kleinen Werte bis
0.5 − 0.037 = 0.463:

P (|p̂ − 0.5| ≥ 0.037) = P (p̂ ≤ 0.463 oder p̂ ≥ 0.537) = 0.0192 = 1.92%

Der prob-value ist kleiner als das Signifikanzniveau α = 5%, also wird H0 abgelehnt — wir erhalten
dasselbe Testergebnis wie in (b)!

Zur Berechnung des prob-values:


Diese Wahrscheinlichkeit bekommt man mit dem Modell der Normalverteilung. Unter H0 gilt
nämlich approximativ:
0.5 · 0.5
p̂ ∼ N(0.5, ) = N(0.5, 0.00025)
1000
Den gesuchten prob-value kann man dann wegen der Symmetrie dieser Normalverteilung um den
hypothetischen Wert 0.5 so finden:

P (p̂ ≤ 0.463 oder p̂ ≥ 0.537) = 2 · P (p̂ ≥ 0.537) = 2 · 0.0096 = 0.0192 = 1.92%

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 26
Die Wahrscheinlichkeit P (p̂ ≥ 0.537) bekommt man dabei mit einer Tabelle von Wahrscheinlichkei-
ten für die Standardnormalverteilung:

 
p̂ − 0.5 0.537 − 0.5
P (p̂ ≥ 0.537) = 1 − P ((p̂ ≤ 0.537) = 1−P √ ≤ √
0.00025 0.00025
= 1 − P (Z ≤ 2.34)
= 1 − 0.9904 = 0.0096,

oder mit Hilfe von R:


pnorm(0.537, mean = 0.5, sd = sqrt(0.00025), lower.tail = FALSE)

d) Gemäß den einleitenden Bemerkungen hatten die Statistiker wohl von Anfang an (noch bevor die
hier verwendeten Daten gesammelt wurden) die Vermutung (oder die Hypothese), dass p > 0.5 ist.
Um diese Forschungshypothese zu untermauern, ist Variante 2 sinnvoll: Sofern H0 abgelehnt wird,
kann man sagen, p sei signifikant größer als 0.5; in diesem Fall könnte zwar ein Fehler 1. Art passiert
sein, aber wir vertrauen darauf, dass das nicht passiert ist, weil die Wahrscheinlichkeit dafür sehr
gering ist (höchstens so groß wie das Signifikanzniveau α = 5%.

e) Bei Variante 2 sind die großen Werte von p̂ kritisch für H0 . Daher ist der prob-value von H0 die
Wahrscheinlichkeit, dass p̂ mindestens 0.537 ist, sofern p = 0.5 wahr ist; diese Wahrscheinlichkeit ist
gleich 0.0096=0.96% (die Hälfte des prob-values in (c)). Also wird auch H0 in Variante 2 abgelehnt.

f) Die entscheidende Frage ist: Woher stammt die Vermutung der Statistiker, dass p größer ist als 0.5?
Es ist nicht zulässig, aus einem Datensatz eine Hypothese abzuleiten und diese Hypothese dann
mit demselben Datensatz zu testen — damit verliert man die Kontrolle über die Wahrscheinlichkeit
für den Fehler 1. Art. Sofern die Vermutung der Statistiker unabhängig von den hier verwendeten
Daten zustande kam, ist gegen das hier beschriebene Vorgehen nichts einzuwenden.
Die Verwendung eines frischen“ Datensatzes würde auch die Wiederholbarkeit des Experiments

demonstrieren.

Lösung zu Aufgabe 30:

a) Die Alternative H1 : p > 50% zeigt das Interesse des Fabrikanten: Er ist daran interessiert, zu
zeigen, dass der Anteil p grösser als 50% ist, d.h. dass eine Mehrheit seiner potenziellen Kunden die
neue Geschmacksrichtung gegenüber der traditionellen bevorzugt.
Wird H0 beim Test nämlich abgelehnt, dann hat der Fabrikant empirische Evidenz, dass H1 wahr
ist. Er kann dann darauf vertrauen, dass eine Mehrheit seiner potenziellen Kunden die neue Ge-
schmacksrichtung gegenüber der traditionellen bevorzugt. Der Fehler erster Art, nämlich die irr-
tümliche Ablehnung von H0 , kann dabei natürlich nicht ausgeschlossen werden, ist aber unter Kon-
trolle. H0 wird nämlich nur dann abgelehnt, wenn signifikant mehr als 50% der Testpersonen die
neue Geschmacksrichtung bevorzugen. Der Fehler erster Art passiert mit einer Wahrscheinlichkeit
von höchstens 5% (dem Signifikanzniveau).
Möglicher Hintergrund:
Der Fabrikant steht möglicherweise vor der Entscheidung, ob er die neue Geschmacksrichtung
überhaupt auf den Markt bringen soll, und wie er sie dann gegenüber der traditionellen in Produk-
tion und Werbung positionieren soll. Er will darauf vertrauen können, dass er die richtige Entschei-
dung trifft, wenn er die neue Geschmacksrichtung produziert und auf den Markt bringt. Zudem
könnte er interessiert sein, damit zu zeigen, dass sich die Entwicklungskosten gelohnt haben.
Anmerkung:
Testet der Fabrikant hier (mangels Verständnis für die Philosophie des statistischen Tests) die Null-
hypothese H0 : p ≥ 50% gegen die Alternative H1 : p < 50%, so wird diese nur dann abgelehnt, wenn
ein signifikant geringerer Anteil als 50% der Testpersonen die neue Geschmacksrichtung bevorzugt.

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 27
Wird diese Nullhypothese aber beim Test nicht abgelehnt, so kann das Risiko einer Fehlentschei-
dung (Fehler zweiter Art, irrtümliche Nicht-Ablehnung von H0 ) je nachdem, wo der wahre Wert
von p liegt, sehr hoch sein, nämlich bis zu 1 − α = 95%.

b) In der Stichprobe beobachtet man einen Anteil p̂ = 55/100 = 55% von Personen, die die neue
Geschmacksrichtung bevorzugen. Kritisch für H0 sind hier nur die zu großen Werte von p̂, nämlich
diejenigen, die signifikant größer als der hypothetische Wert 50% sind. Der prob-value von H0
ist daher die Wahrscheinlichkeit, dass in einer Stichprobe von 100 Testpersonen mindestens 55%
Personen die neue Geschmacksrichtung bevorzugen, wenn der wahre Anteil unter allen potenziellen
Kunden p = 50% ist.

c) Der prob-value von H0 ist größer als das Signifikanzniveau α = 5%. Die Hypothese H0 wird also
nicht abgelehnt.
Anmerkung zur Berechnung:
appr.
Ist p = 50%, so ist p̂ ∼ N 0.5, 0.5·0.5

100 = N(0.5, 0.0025), und die gesuchte Wahrscheinlichkeit ist:
 
p̂ − 0.5 0.55 − 0.5
P (p̂ > 0.55) = P √ > √ = P (Z > 1) = 1 − P (Z ≤ 1)
0.0025 0.0025
= 1 − 0.8413 = 0.1587 = 15.87%.

d) Ein Anteil von 55% ist offenbar nicht signifikant größer als 50%, falls p = 50% wahr ist. Der
Fabrikant hat keine empirische Evidenz, dass eine Mehrheit der potenziellen Kunden die neue
Geschmacksrichtung bevorzugt.

e) Es könnte ein Fehler zweiter Art passiert sein, nämlich: Ist die Hypothese tatsächlich falsch, dann
wurde sie hier irrtümlich nicht abgelehnt. Die Wahrscheinlichkeit für eine solche Fehlentscheidung
kann, je nachdem, wo der wahre Wert von p liegt, sehr hoch sein, sogar bis zu 1 − α = 95% (falls p
in Wahrheit nur knapp über 50% liegt).

f) Eine größere Stichprobe! Für eine größere Stichprobe ist die Trennschärfe des Tests höher: Die
Beobachtung p̂ = 55% in einer größeren Stichprobe könnte signifikant größer als 50% sein, und die
Hypothese würde abgelehnt werden.

Lösung zu Aufgabe 31:

a) Wir testen die Nullhypothese H0 : µ = 0% gegen die Alternative H1 : µ ̸= 0%.


Als Testgröße wählen wir das arithmetische Mittel µ̂ = X̄ der Tagesrenditen in der Stichprobe. µ̂ ist
approximativ normalverteilt, und, falls H0 wahr ist, hat es den Erwartungswert 0%. Die zugehörige
2.6
Standardabweichung (der Standardfehler von µ̂) wird geschätzt auf √ = 0.164%. Also:
250
appr.
µ̂ ∼ N 0, 0.1642


Kritisch für H0 sind die zu kleinen und zu großen Werte von µ̂, also Werte außerhalb des Intervalls

[0 − 1.96 · 0.164; 0 + 1.96 · 0.164] = [−0.32%; +0.32%]

In der Stichprobe beobachten wir µ̂ = 0.3%. Dieser Wert ist nicht kritisch, H0 wird daher nicht abge-
lehnt. Es gibt keine empirische Evidenz dafür, dass die erwartete Tagesrendite µ von 0% verschieden
ist.
Wir könnten mit dieser Testentscheidung einen Fehler 2. Art gemacht haben, das bedeutet: Wir
lehnen die Nullhypothese nicht ab, obwohl sie falsch ist. Ein Fehler 2. Art kann mit einer Wahr-
scheinlichkeit von bis zu 1 − α = 95% passiert sein. Wir können daher nicht darauf vertrauen, dass
kein Fehler 2. Art passiert ist. Die Nicht-Ablehnung von H0 ist keine Bestätigung von H0 . Wir
wissen damit also nicht mehr als vorher.

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 28
Anmerkung zur Berechnung der kritischen Grenzen:
Die theoretische Standardabweichung der Tagesrendite ist hier unbekannt und damit auch die Stan-
dardabweichung von µ̂. Sie muss geschätzt werden. Trotzdem ist hier die Verwendung des Multi-
plikators 1.96 aus der Standardnormalverteilung als Approximation vertretbar. Das analoge 97.5%-
Quantil der t-Verteilung mit 250 − 1 = 249 Freiheitsgraden ist 1.9695 (R-Code: qt(0.975, df =
249)) und wegen des großen Stichprobenumfangs bereits nahe an 1.96.

b) Diese Wahrscheinlichkeit ist der prob-value von H0 in (a), nämlich: die Wahrscheinlichkeit unter
H0 , dass die Realisierung von µ̂ in der Stichprobe mindestens so weit weg von 0% (erwartet unter
H0 ) ist wie 0.3% (tatsächlich beobachtet).
Der prob-value von H0 ist größer als das Signifikanzniveau α = 5%, daher wird H0 nicht abgelehnt.

Zur Berechnung des prob-values:


Wegen der Symmetrie der hypothetischen Normalverteilung um 0% hat man:

P (µ̂ ≤ −0.3% oder µ̂ ≥ +0.3%) = 2 · P (µ̂ ≥ +0.3%) = 2 · 0.0336 = 0.0672 = 6.72%

Die Wahrscheinlichkeit P (µ̂ ≥ +0.3) bekommt man dabei mit einer Tabelle von Wahrscheinlichkei-
ten für die Standardnormalverteilung:
 
µ̂ − 0 +0.3 − 0
P (µ̂ ≥ +0.3) = 1 − P (µ̂ ≤ +0.3) = 1 − P ≤
0.164 0.164
= 1 − P (Z ≤ +1.83)
= 1 − 0.9664 = 0.0336 = 3.36%,

oder mit R:
pnorm(0.3, mean = 0, sd = sqrt(0.164), lower.tail = FALSE)

c) Approximative 95%-Konfidenzgrenzen für µ sind:


2.6
µ̂ ± 1.96 · √ = 0.3 ± 1.96 · 0.164
250
Ein approximatives 95%-Konfidenzintervall für µ ist damit: [−0.0214, 0.6214].
Interpretation:
Die Aussage, die erwartete Tagesrendite µ liege zwischen −0.0214% und 0.6214%, hat den Vertrau-
ensgrad 95%.
Test von H0 : µ = 0% gegen H1 : µ ̸= 0%:
Der hypothetische Wert 0% liegt im Konfidenzintervall, ist also unter den plausiblen Werten für µ.
H0 wird daher (zum Signifikanzniveau α = 5%) nicht abgelehnt.

Lösung zu Aufgabe 32:

a) Ein Punktschätzer für das erwartete Füllgewicht µ (das theoretische arithmetische Mittel, das den
Abfüllprozess charakterisiert) ist der Stichprobenmittelwert: µ̂ = X̄. Aus den Beobachtungen in der
Stichprobe schätzt man:
µ̂ = x̄ = 7 920/16 = 495
Die Zuckerpackungen in der Stichprobe wogen durchschnittlich 495 Gramm.

b) Ein Konfidenzintervall für µ ist ein Intervall, das symmetrisch um den Punktschätzer µ̂ konstruiert
ist und die Variabilität der Realisierungen von µ̂ in Stichproben gleichen Umfangs berücksichtigt.
σ
Die Standardabweichung (der Standardfehler) von µ̂ ist: √ .
n
Zwei Aspekte sind hier zu berücksichtigen:

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 29
– Zur Bestimmung des Standardfehlers von µ̂ ist Information über die theoretische Standard-
abweichung σ des Füllgewichts notwendig. Hier ist σ aber unbekannt! Das bedeutet: Auch σ
(nicht nur µ) muss aus der Stichprobe geschätzt werden.
Ein Punktschätzer für σ ist die Standardabweichung der Füllgewichte in der Stichprobe: σ̂ = S.
Dies ist vor der Stichprobe eine Zufallsvariable. Welche Realisierung s hat S in der Stichprobe?
Dazu schätzt man zuerst die Varianz σ 2 , und zwar, weil die Stichprobe sehr klein ist, nach der
korrigierten Formel:
1 X 1
σ̂ 2 = s2 = (xi − x̄)2 = · 540 = 36
16 − 1 15

Damit erhält man: s = s2 = 6.
s 6
Der geschätzte Standardfehler von µ̂ beträgt somit: √ = √ = 1.5.
n 16
– Weil σ geschätzt werden muss, entsteht zusätzliche Unsicherheit:
Bei Standardisierung des Punktschätzers µ̂ mit S an Stelle von σ ergibt sich keine standardnor-
malverteilte Zufallsvariable; sie hat eine t-Verteilung mit n − 1 = 16 − 1 = 15 Freiheitsgraden:
µ̂ − µ
∼ t15
√S
n

Diese Verteilung ist breiter als die Standardnormalverteilung, wodurch auch das Konfidenzin-
tervall für µ breiter ( ungenauer“) wird:

Der Multiplikator 1.96 (das 97.5%-Quantil) aus der Standardnormalverteilung muss nämlich
ersetzt werden durch das 97.5%-Quantil der t-Verteilung mit 15 Freiheitsgraden: 2.13 (laut
Tabelle; mit R: qt(0.975, 15).)
Bei einer Zufallsvariablen mit dieser Verteilung erwartet man also 95% der Beobachtungen
zwischen den Grenzen −2.13 und +2.13.

Die 95%-Konfidenzgrenzen für µ sind daher: 495 ± 2.13 · 1.5 = 495 ± 3.2.
Schließlich hat man als 95%-Konfidenzintervall für µ:

[495 − 3.2, 495 + 3.2] = [491.8, 498.2]

c) Aufgrund der beobachteten Stichprobe besitzt die Aussage das erwartete Füllgewicht µ liegt zwi-

schen 491.8 und 498.2 Gramm“ den Vertrauensgrad 95%.
Das Sollgewicht von 500 Gramm ist in diesem Intervall nicht enthalten. Das widerspricht der Hypo-
these H0 : µ = 500, dass das Sollgewicht von der Abfüllanlage im theoretischen Mittel eingehalten
würde. H0 sollte abgelehnt und die Abfüllanlage neu justiert werden. Die Neujustierung könnte hier
zwar unnötig sein, weil das Sollgewicht in Wahrheit doch eingehalten wird. Das Risiko, dass man
hier eine falsche Entscheidung trifft, beträgt jedoch höchstens 5% (Risiko für den Fehler erster Art).
Man hat damit empirische Evidenz, dass das Sollgewicht nicht eingehalten wird, also H1 : µ ̸= 500
wahr ist. Insbesondere hat man empirische Evidenz, dass die Anlage im theoretischen Mittel zu
wenig abfüllt, also H1 : µ < 500 wahr ist, weil das Konfidenzintervall für µ unterhalb vom Sollgewicht
500 endet.
(Anmerkung: Oft werden bei Abfüllanlagen sogar geringfügig höhere Sollwerte angesetzt als die-
jenigen, welche auf der Verpackung angegeben sind, um allzu häufigen Verbraucherbeschwerden
vorzubeugen.)

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 30

Lösung zu Aufgabe 33:


a) Sind Geschlecht und Vertriebskanalpräferenz vollständig unabhängig, so würde man die folgenden
Kontingenztafeln erwarten:
China
online traditionell
w 19.2 224.8 244
Geschlecht m 11.8 138.2 150
31 363 394

Deutschland
online traditionell
w 77.2 85.8 163
Geschlecht m 91.8 102.2 194
169 188 357

Türkei
online traditionell
w 35.7 216.3 252
Geschlecht m 56.3 340.7 397
92 557 649

Der Wert der χ2 -Statistik ist:


(14 − 19.2)2 (17 − 11.8)2 (230 − 224.8)2 (133 − 138.2)2
China: + + + = 4.0
19.2 11.8 224.8 138.2
(53 − 77.2)2 (116 − 91.8)2 (110 − 85.8)2 (78 − 102.2)2
Deutschland: + + + = 26.5
77.2 91.8 85.8 102.2
(28 − 35.7)2 (64 − 56.3)2 (224 − 216.3)2 (333 − 340.7)2
Türkei: + + + = 3.2
35.7 56.3 216.3 340.7

Kritisch für die Unabhängigkeitshypothese sind Werte der χ2 -Statistik, die größer sind als 3.84 (das
95%-Quantil der χ2 -Verteilung mit (2−1)(2−1) = 1 Freiheitsgraden). Im Fall Chinas und Deutsch-
lands ergibt sich jeweils ein kritischer χ2 -Wert, die Unabhängigkeitshypothese wird hier abgelehnt:
Es gibt empirische Evidenz dafür, dass die Vertriebskanalpräferenz in China bzw. Deutschland vom
Geschlecht abhängt. Im Fall der Türkei wird die Unabhängigkeitshypothese nicht abgelehnt.
b) In Deutschland bevorzugen signifikant weniger junge Frauen (bzw. Studentinnen) den Online-
Vertriebskanal als unter der Unabhängigkeitshypothese erwartet. In der Türkei ist dies nicht zu
beobachten. Ein Online-Handel, der sowohl in Deutschland als auch in der Türkei aktiv ist, sollte
daher in seiner Strategie für die betreffende Zielgruppe entsprechend differenzieren, eine gemeinsame
Strategie für Deutschland und die Türkei scheint nicht angemessen.

Lösung zu Aufgabe 34:


a) Die Regressionsgerade lautet: hours = 23.78 + 0.46 · customers.
b) Die Zahl der Arbeitsstunden wird durch die Zahl der Gäste beeinflusst, und nicht umgekehrt. Um
den Zusammenhang zwischen der Zahl der Arbeitsstunden und der Zahl der Gäste zu untersuchen,
ist daher eine Regression von hours bzgl. customers geeignet.
c) Der Regressionskoeffizient 0.46 bedeutet hier: Zehn weitere Gäste pro Woche führen zu einer
Erhöhung der wöchentlichen Zahl der Arbeitsstunden um durchschnittlich 4 bis 5 Stunden.
Den Parameterwert 23.78 könnte man als durchschnittlich erforderliche Mindestbereitschaft von
etwa 24 Stunden pro Woche deuten.
Die beiden Parameterwerte könnten somit insbesondere zur Bestimmung fixer bzw. variabler Per-
sonalkostenanteile im Servicebereich herangezogen werden.

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 31
2
d) Es ist R = 0.8902 = 89.02%. Man nennt diesen Wert das Bestimmtheitsmaß der Regression.
Das Bestimmtheitsmaß ist das Quadrat des Korrelationskoeffizienten von customers und hours.
Es ist eine Maßzahl aus der deskriptiven Statistik, und zwar dafür, wie gut die Regressionsgerade
an die gegebenen Daten gefittet ist.
Dieser Wert bedeutet: Die Variabilität in der Gästezahl erklärt hier etwa 89% der Variabilität in der
wöchentlichen Zahl der Arbeitsstunden. Das ist ein hoher Prozentsatz. Bei den gegebenen Daten gibt
es also einen starken Zusammenhang zwischen customers und hours, und dieser Zusammenhang
ist positiv, weil die Regressionsgerade wachsend ist.

e) Damit ist eine induktive Schlussfolgerung auf ein Prinzip möglich. Man betrachtet das folgende
lineare Regressionsmodell für die Variable hours:

hours = α + β · customers + Zufallsfehler.

Weil wir eine Zufallstichprobe haben, müssen wir den Zufallsfehler berücksichtigen, um allgemeine
Aussagen über den Zusammenhang zwischen hours und customers im Restaurant machen zu
können. Die Parameter der Regressionsgeraden sind ja nur Punktschätzungen auf der Basis der
gegebenen Daten — und praktisch immer falsch!
Pr(>|t|) = 1.32e-07 ist der prob-value einer Hypothese über den wahren, aber unbekannten
Parameter β in diesem Regressionsmodell. Es geht um den Test von H0 : β = 0 gegen H1 : β ̸= 0.
Der prob-value von H0 ist eine Wahrscheinlichkeit, die unter der Annahme, H0 sei wahr, d.h. β = 0,
berechnet wird. Es ist die Wahrscheinlichkeit, auf der Basis von Beobachtungen eine Punktschätzung
β̂ für β zu erhalten, deren Wert mindestens so weit weg vom hypothetischen Wert 0 ist wie der hier
realisierte Wert 0.46:
P (β̂ ≤ −0.46 oder β̂ ≥ +0.46) = 1.32e-07.

Der prob-value ist hier sehr klein, kleiner als 5%. Die Testentscheidung lautet daher: H0 wird
abgelehnt! Es besteht empirische Evidenz, dass β verschieden ist von 0. Man kann daher sagen, und
zwar nicht nur über die gegebenen Daten, sondern über die prinzipielle Situation im Restaurant:
Die Variable customers hat signifikanten Einfluss auf die Variable hours.

Lösung zu Aufgabe 35:

a) Modell 2 erscheint am besten geeignet. Es ist zwar nicht dasjenige unter den drei Modellen, das am
besten an die Daten gefittet ist, denn das Bestimmtheitsmaß Multiple R-Squared, das hierüber
Auskunft gibt, ist bei Modell 3 noch etwas höher (0.7901 gegenüber 0.787). Doch sollte bei der
Modellauswahl eine Optimierung der Erklärungskraft des Modells in deskriptiver Hinsicht — das
Fitting an die Daten — hinter Kriterien der induktiven Statistik gestellt werden.
Denn die Hinzunahme jeder beliebigen weiteren unabhängigen Variablen würde das Bestimmtheits-
maß erhöhen. Dieser Effekt ist beim Vergleich aller drei Modelle beobachtbar: Sukzessive wird die
Zahl der unabhängigen Variablen erhöht und das Bestimmtheitsmaß immer größer. Dabei wird
in Modell 3 sogar eine Variable hdi aufgenommen, deren Einfluss im Modell fragwürdig ist: Ihr
Regressionskoeffizient ist jedenfalls nicht signifikant von 0 verschieden, der zugehörige prob-value
Pr(>|t|) ist nämlich größer als das meist zu Beurteilungszwecken übliche Signifikanzniveau von
5% (sogar größer als 10%).
Eine Kontrolle des Zufallsfehlers führt schließlich zur Entscheidung: Die Varianz des Zufallsfehlers
sollte möglichst klein sein. Der R Output weist jeweils die Standardabweichung des Zufallsfehlers
aus, den Residual standard error. Dieser ist bei Modell 2 am kleinsten. (Korrespondierendes
Entscheidungskriterium: Das Adjusted R-squared, eine Maßzahl, die versucht, das Phänomen des
Ansteigens des Multiple R-Squared mit jeder beliebigen zusätzlichen Variablen zu korrigieren, ist
bei Modell 2 am größten.)

b) Im Modell 1 geht es um das folgende Regressionsmodell für die Variable piracy:

piracy = α + β · log(gdp.pc) + Zufallsfehler.

© Angi Rösch / Harald Schmidbauer, 2023


ANGI RÖSCH & HARALD SCHMIDBAUER, FOM 32
(Der Zufallsfehler beinhaltet alles, was durch die Gleichung piracy = α + β · log(gdp.pc) nicht
erklärt wird.)
Pr(>|t|) = <2e-16 benennt den prob-value einer Hypothese über den wahren, aber unbekannten
Parameter β. Die Hypothese, die hier getestet wird, lautet: H0 : β = 0, die Alternative H1 : β ̸= 0.
Insbesondere wird also getestet, ob die Variable log(gdp.pc) signifikanten Einfluss auf die Variable
piracy hat.
Der prob-value von H0 ist eine Wahrscheinlichkeit, die unter der Annahme, H0 sei wahr, d.h. β = 0,
berechnet wird. Es ist die Wahrscheinlichkeit, auf der Basis von Beobachtungen eine Schätzung β̂
für β zu erhalten, deren Wert mindestens so weit weg vom hypothetischen Wert 0 ist wie der hier
realisierte Wert −23.627:

P (β̂ ≤ −23.627 oder β̂ ≥ +23.627) = <2e-16.

Diese Wahrscheinlichkeit ist sehr klein, die Testentscheidung lautet daher: H0 wird abgelehnt. Es
besteht empirische Evidenz, dass β verschieden ist von 0. Also hat die Variable log(gdp.pc) laut
Modell 1 signifikanten Einfluss auf die Variable piracy.

c) Die Regressionsgleichung von Modell 2 lautet:

piracy = 201.3720 − 13.2630 · log(gdp.pc) − 3.6566 · tri + Zufallsfehler.

d) R2 ist das Bestimmtheitsmaß im Regressionsmodell; es ist eine Maßzahl dafür, wie gut das Modell
an die beobachteten Daten gefittet ist. Es misst die Erklärungskraft des Regressionsmodells aus
deskriptiver Sicht.
Im Modell 2 ist R2 = 78.7%. Man kann hier zunächst fragen: Warum sind die beobachteten Pro-
zentsätze von Software-Piraterie piracy von Land zu Land nicht gleich? Antwort: Weil der Loga-
rithmus des Pro-Kopf-Bruttosozialprodukts im Land log(gdp.pc) und auch der Korruptionsindex
tri von Land zu Land verschieden sind. Das ist nicht der einzige Grund, aber 78.7% der Variabi-
lität in den beobachteten Prozentsätzen von Software-Piraterie kann durch die Variabilität in diesen
beiden Größen erklärt werden.

e) Die Einflussgrößen in diesem Modell haben für die Türkei die Werte:

log(gdp.pc) = log(7900) = 8.9746, tri = 3.2.

(Achtung: log bezeichnet in R den natürlichen Logarithmus!)


Der geschätzte Wert von piracy für die Türkei ist damit:

\ = 201.3720 − 13.2630 · 8.9746 − 3.6566 · 3.2 = 70.64%.


piracy

f) Steigt das Bruttosozialprodukt pro Kopf in der Türkei gegenüber dem ursprünglichen Wert um
10% an, so ist der neue Wert der Einflussgröße

log(gdp.pc) = log(7900 · 1.1) = log(7900) + log(1.1) = 8.9746 + 0.0953,

d.h. um 0.0953 Einheiten größer als vorher. Der geschätzte Wert von piracy würde sich dadurch
um
13.2630 · 0.0953 = 1.264
Prozentpunkte verringern, sogar unabhängig vom Niveau, das er vorher hatte. Die neue Schätzung
wäre dann: 70.64 − 1.264 = 69.38% (sofern der Korruptionsindex unverändert bleibt).

© Angi Rösch / Harald Schmidbauer, 2023

Das könnte Ihnen auch gefallen