Aufgabensammlung So Se 21

MATHEMATISCHES INSTITUT SoSe 2021
DER UNIVERSITÄT BAYREUTH
Aufgabensammlung zu
10822 Statistische Methoden II
1. In einer bestimmten Stadt sind 10 000 Wohnungen zu vermieten. Ein örtlicher Wohnungsmakler
führt eine Stichprobenuntersuchung an einer einfachen Zufallsstichprobe (simple random sample)
von 400 solcher Wohneinheiten durch. Die 400 Monatsmieten haben ein arithmetisches Mittel
von 750 EUR und eine Standardabweichung von 260 EUR. Das Histogramm der monatlichen
Mieten folgt dabei nicht der Normalverteilungsdichte.
(a) Falls möglich, bestimmen Sie ein 68 %-Konfidenzintervall für das arithmetische Mittel der
Monatsmieten in der Stadt. Falls dies nicht möglich ist, erklären Sie, warum.
(b) Wahr oder falsch, und erklären Sie: Bei ungefähr 68 % der Mietwohnungen in der Stadt
liegt die Monatsmiete zwischen 490 EUR und 1 010 EUR.
2. Eine Schachtel enthält 10 000 Zettel. Sie ziehen 400-mal mit Zurücklegen. Die Ziehung hat einen
Mittelwert von 71.3 und eine Standardabweichung von 2.0. Wahr oder falsch? Erklären Sie.
(a) Ungefähr 68 % der Zettel in der Schachtel haben Werte zwischen 71.2 und 71.4.
(b) Die Zahl 71.3 ist eine Schätzung für den Mittelwert der Schachtel, wobei diese Zahl ver-
mutlich ungefähr 0.1 daneben liegt.
(c) Ein approximatives 68 %-Konfidenzintervall für den Mittelwert der Schachtel ist 71.3 ± 0.1.
Beantworten Sie (a) bis (c) auch für den Fall, dass ohne Zurücklegen gezogen wird.
3. 1987 betrug die mittlere Tageshöchsttemperatur am San Francisco Airport 66.6◦ F mit einer
Standardabweichung von 8.4◦ F. Nun ist
√
365 × 8.4 ≈ 160 und 160/365 ≈ 0.4.
Wahr oder falsch? Das approximative 95-%-Konfidenzintervall für die mittlere Tageshöchsttem-
peratur am San Francisco Airport lautet 66.6 ± 0.8◦ F. Erklären Sie kurz.
4. Die Blütenfarbe des Löwenmauls wird durch ein bestimmtes Genpaar kontrolliert. Es gibt zwei
Varianten des Gens, r (für rot) und w (für weiß). Die Regeln für die Vererbung sind wie folgt:
r/r ergibt rote Blüten

r/w und w/r ergeben rosa Blüten
w/w ergibt weiße Blüten
Also ist weder r noch w dominant; der Erbgang ist intermediär.
1
(a) Bestimmen Sie die zu erwartenden Anteile rot-, rosa- und weißblühender Pflanzen, die sich
aus den folgenden Kreuzungen ergeben:
weiß × rot, weiß × rosa, rosa × rosa.
(b) Wie groß ist die Wahrscheinlichkeit, dass von 400 Pflanzen aus rosa × rosa Kreuzungen
zwischen 190 und 210 rosa Blüten haben?
5. Das Löwenmaul gibt es in drei verschiedenen Blattvarianten: Breit, mittel und schmal. In Zucht-
versuchen hat man die folgenden Ergebnisse erhalten:
breit × breit −→ 100 % breit

breit × mittel −→ 50 % breit, 50 % mittel
breit × schmal −→ 100 % mittel
mittel × mittel −→ 25 % schmal, 50 % mittel, 25 % breit
(a) Entwickeln Sie ein genetisches Modell, das diese Ergebnisse erklärt.
(b) Welche Ergebnisse erwarten Sie für die oben nicht erwähnten Kreuzungen
mittel × schmal und schmal × schmal?
6. Die Augenfarbe wird beim Menschen durch ein Genpaar bestimmt, wobei blau rezessiv ist und
braun dominant.
In einer bestimmten Familie hat der Mann braune Augen, stammt jedoch von einem Vater mit
blauen Augen ab. Die Frau hat blaue Augen. Das Paar wünscht sich drei Kinder.
Wie groß ist die Wahrscheinlichkeit, dass alle drei Kinder braune Augen haben werden?
7. Mendel bemerkte, dass Erbsensamen entweder glatt oder runzelig sind. Er züchtete eine “glatte”
Sorte und eine “runzlige” Sorte heran und kreuzte dann die reinrassigen Erbsen. Die Samen der
Hybriden der ersten Generation waren alle glatt.
Durch Kreuzung der Hybriden der ersten Generation züchtete Mendel nun Hybriden der zweiten
Generation heran. Unter diesen hatten 5 474 glatte Samen und 1 850 runzlige Samen.
(a) Entwickeln Sie ein genetisches Modell, das diese Ergebnisse erklärt.
(b) Wenn Ihr Modell richtig ist, wie groß ist dann die Wahrscheinlichkeit, dass die beobach-
tete Häufigkeit der “glatten” Sorte mindestens so nahe an der theoretisch zu erwartenden
Häufigkeit liegt wie in Mendels Versuch beobachtet?
8. In einem seiner berühmten Versuche kreuzte Gregor Mendel reinrassige Erbsen, die runde gelbe
Samen haben, mit reinrassigen Erbsen, die kantige grüne Samen haben.
Die aus dieser Kreuzung hervorgegangenen Erbsen, die Hybriden der ersten Generation, hatten
alle runde gelbe Samen. In bezug auf beide angesprochenen (unabhängigen) Merkmale handelt
es sich also um einen dominant-rezessiven Erbgang.
Im weiteren Verlauf des Versuchs kreuzte Mendel die Hybriden der ersten Generation unterein-
ander und erhielt so die Hybriden der zweiten Generation.
In welchen Anteilen (Prozentsätzen) erwarten Sie nun die vier verschiedenen möglichen Merk-
malskombinationen der Samen
2
rund & gelb rund & grün kantig & gelb kantig & grün
unter den Hybriden der zweiten Generation? Begründen Sie ausführlich.
9. Ein Reißnagel wird in die Luft geworfen. Er landet entweder mit der Spitze nach oben oder mit
der Spitze nach unten.
Jemand schlägt das folgende Schachtelmodell vor: Zufälliges Ziehen mit Zurücklegen aus der
Schachtel
U O
wobei U “Spitze nach unten” und 0 “Spitze nach oben” bedeutet. Jemand anders schlägt vor,
für das zufällige Ziehen die Schachtel
U O U
zu benutzen.
Wie können Sie entscheiden, welche Schachtel besser ist?
10. (a) Sie würfeln 60mal, und die Zahl der Sechsen ist gleich 12.
Welche Anzahl würden Sie bei 60 Würfen mit einem fairen Würfel erwarten?
Kann die beobachtete Abweichung vom erwarteten Wert als zufällige Schwankung inter-
pretiert werden, oder ist der Würfel gezinkt?
(b) Dieselben Fragen, wenn Sie 1 200mal würfeln und die Zahl der Sechsen gleich 240 ist.
11. Ein Signifikanztest hat Sinn, wenn diskutiert wird.

Füllen Sie die Lücke mit einer der beiden Optionen, und erklären Sie kurz.
i. ein Datensatz
ii. ein Modell für einen Datensatz
12. Welche der folgenden Aussagen sind wahr? Erklären Sie jeweils kurz.
(a) Die Alternativhypothese ist eine andere Möglichkeit, die Ergebnisse zu erklären; sie besagt,
dass der Unterschied zufälligen Schwankungen zuzuschreiben ist.
(b) Der P -Wert eines Tests ist gleich dem beobachteten Signifikanzniveau.
(c) Das beobachtete Signifikanzniveau hängt von den Daten ab.
(d) Wenn P = 95 % ist, ist die Nullhypothese plausibel.
(e) Wenn P = 0.95 % ist, ist die Nullhypothese wenig plausibel.
3
(f) Wenn das beobachtete Signifikanzniveau 4 % ist, dann ist das Ergebnis “statistisch signifi-
kant”.
(g) Ein “statistisch hoch signifikantes” Ergebnis kann unmöglich auf zufälligen Schwankungen
beruhen.
(h) Wenn ein Unterschied “statistisch hoch signifikant” ist, ist die Wahrscheinlichkeit, dass die
Nullhypothese richtig ist, kleiner als 1 %.
13. Im Rahmen einer Studie befragte ein Marktforscher im Sommersemester 1993 die ersten 100
Studierenden, die er an einem Vormittag auf dem Platz vor der Mensa der Universität Bayreuth
antraf. Seine Stichprobe enthielt 49 Frauen und 51 Männer. Der Marktforscher geht davon
aus, dass sein Auswahlverfahren im Wesentlichen dem Ziehen einer einfachen Zufallsstichprobe
(simple random sampling) entspricht.
Überprüfen Sie seine Annahme in den nun folgenden Schritten (a) bis (n):
(a) Laut Vorlesungsverzeichnis WS 93/94 (S. 328) waren zum 24.06.1993 insgesamt 8 270 Stu-
dierende an der Universität Bayreuth eingeschrieben. Der Frauenanteil betrug ca. 37 % .
Welches Problem stellt sich bei der Aufschlüsselung der Studierenden nach Studienfächern?
Füllen Sie im folgenden die Lücken. Sie entwickeln Schritt für Schritt ein Schachtelmodell für
die Nullhypothese “simple random sampling”.
(b) In der Schachtel gibt es für jede(n) einen Zettel.
Optionen: i. Person in der Stichprobe

ii. Studierenden an der Universität Bayreuth
(c) Die Zettel werden für Männer mit und für Frauen mit einer 1 gekenn-
zeichnet.
(d) Die Anzahl der Zettel in der Schachtel ist und die Anzahl der Ziehungen ist
.
Optionen: 8 270 8 269 8 267

8 374 100 82.7 %
(e) Die Nullhypothese besagt, dass die Stichprobe wie das -fache zufällige Ziehen
Zurücklegen aus der Schachtel ist.
(f) Der Anteil der Zettel in der Schachtel, die mit einer 1 gekennzeichnet sind, ist gleich %.
(g) Dieser Anteil ist .
Optionen: i. aus den Daten geschätzt.

ii. durch die Nullhypothese gegeben.
Nun ist das Schachtelmodell komplett. Sie berechnen weiter Schritt für Schritt die beobachteten
Werte von z und P .
(h) Die beobachtete Anzahl der Frauen ist .

(i) Die erwartete Anzahl der Frauen ist .
(j) Dieser Erwartungswert wird .
4
(k) Wenn die Nullhypothese richtig ist, verhält sich die Anzahl der Frauen in der Stichprobe
wie der Ziehungen aus der Schachtel.
Optionen: i. die Summe

ii. das arithmetische Mittel
(l) Der Standardfehler für die Anzahl der Frauen ist .

(m) Dieser Standardfehler wird .

(n) z = und P = .
War das Verfahren des Marktforschers nun im Wesentlichen wie simple random sampling?
Antworten Sie mit ja oder nein, und erklären Sie kurz.
14. Bestimmen Sie die Fläche unter der Dichte der t-Verteilung
(a) mit 8 Freiheitsgraden links von 2.31.

(b) mit 12 Freiheitsgraden rechts von −1.36.
(c) mit 18 Freiheitsgraden zwischen −1.73 und 1.73.
(d) mit 25 Freiheitsgraden zwischen 0 und 2.49.
15. Der Reifenhersteller “RASESCHNELL” behauptet, seine Reifen würden 40 TKM (tausend Ki-
lometer) laufen. Eine Verbraucherorganisation möchte diese Behauptung überprüfen und hat
eine Zufallsstichprobe von 5 Reifen testen lassen. Dabei ergaben sich folgende Werte (in TKM):
40, 35, 36, 41, 38.
Es ist bekannt, dass derartige Werte aus einer Normalverteilung stammen; deren Mittelwert µ
und deren SD sind jedoch nicht bekannt.
(a) Geben Sie die Nullhypothese und Alternative an. (Verwenden Sie dabei eine Kurznotation,
wie z. B. “Nullhypothese: µ = 20; Alternative: µ > 20”.)
(b) Welcher Test sollte hier benutzt werden? Geben Sie den Namen des Testes an.
(c) Führen Sie den Test durch, und geben Sie ihr Ergebnis an.
16. Am 9. November 1965 fiel in New York der Strom aus, und erst einen Tag später war die Ver-
sorgung wieder hergestellt.
Neun Monate später berichteten die Zeitungen, dass New York einen “Babyboom” erlebe. Die
Tabelle unten zeigt die täglichen Geburten in New York vom 1. bis 25. August 1966. Das arith-
metische Mittel liegt bei 436, was für New York nicht außergewöhnlich hoch ist.
Dennoch ist eine interessante Beobachtung zu machen: An den drei Sonntagen unter Betracht
gab es im arithmetischen Mittel nur 357 Geburten. Wie wahrscheinlich ist es, dass bei drei zufällig
5
aus der Tabelle ausgewählten Tagen das arithmetische Mittel bei 357 oder weniger liegt? Was
schließen Sie?
Number of births in New York, August 1-25, 1966

Date Day Number Date Day Number
1 Mon. 451 15 Mon. 451

2 Tues. 468 16 Tues. 497
3 Wed. 429 17 Wed. 458
4 Thur. 448 18 Thur. 429
5 Fri. 466 19 Fri. 434
6 Sat. 377 20 Sat. 410
7 Sun. 344 21 Sun. 351
8 Mon. 448 22 Mon. 467
9 Tues. 438 23 Tues. 508
10 Wed. 455 24 Wed. 432
11 Thur. 468 25 Thur. 426
12 Fri. 462
13 Sat. 405
14 Sun. 377
17. Neue Produkte werden oft zu besonders günstigen Einführungspreisen angeboten, um die Kun-
den zum Ausprobieren zu bewegen. Ein Team von Psychologen vermutete jedoch, dass diese
Praxis den Verkaufserfolg neuer Produkte eher mindert als fördert. In Zusammenarbeit mit ei-
ner Ladenkette führten die Psychologen daher einen entsprechenden Versuch durch (A.N. Doob
et al., Journal of Personality and Social Psychology 11 (1969), S. 345-350).
25 Paare von Ladengeschäften, die sich in allen wichtigen Eigenschaften sehr ähnlich waren,
wurden ausgesucht. Alle 50 Geschäfte führten schließlich zum gleichen Zeitpunkt eine neue Sor-
te von Keksen ein.
Von jedem Paar wurde in einem zufälligen Verfahren ein Geschäft ausgewählt, das die Kek-
se zu einem besonders niedrigen Preis einführte und erst zwei Wochen später zum regulären
Preis überging. Das jeweils andere Geschäft verlangte von Anfang an den regulären Preis. Sechs
Wochen nach Einführung des neuen Produkts wurden die verkauften Mengen in den einzelnen
Geschäften ermittelt.
In 18 der 25 Paare hatte das Geschäft, das von Beginn an den regulären Preis verlangt hatte,
mehr von dem neuen Produkt verkauft als das jeweils andere Geschäft.
Kann dieses Ergebnis als zufällige Schwankung erklärt werden? Oder unterstützt es die The-
se der Psychologen, dass günstige Einführungspreise den Verkaufserfolg neuer Produkte über
längere Zeiträume mindern?
18. Buchhandlungen finden Bildung gut, weil Daten aus den USA zeigen, dass 75 % der Hoch-
schulabsolventen in den vergangenen sechs Monaten ein Buch gelesen haben – im Vergleich zu
50 % bei der Gesamtbevölkerung über 18 Jahre. Die Daten zeigen, dass das durchschnittliche
Bildungsniveau der über 18jährigen bei 13 absolvierten Schuljahren liegt mit einer Standard-
abweichung von 4 Jahren. Eine Buchhandlung zieht in einem bestimmten Verwaltungsbezirk
eine Stichprobe von 1 000 Personen über 18. Es ergibt sich ein mittleres Bildungsniveau von 14
Jahren mit einer Standardabweichung von 5 Jahren. Kann der Unterschied im Bildungsniveau
zwischen der Stichprobe und den gesamten USA durch zufällige Abweichung erklärt werden?
Wenn nicht, welche andere Erklärung gibt es?
19. Die Post eines Landes plant eine Gebührenerhöhung für eine bestimmte Dienstleistung, die
bislang von 80 % ihrer Kunden regelmäßig in Anspruch genommen wird. Falls dieser Anteil
6
durch die Gebührenerhöhung nicht absinken würde, möchte man die Gebühren erhöhen. Die
Entscheidung soll auf der Basis einer Stichprobe fallen.
(a) Formulieren Sie für dieses Beispiel eine geeignete Nullhypothese und eine geeignete Alter-
nativhypothese.
(b) Beschreiben Sie kurz mit eigenen Worten, worin dann das Risiko, einen Fehler 1. Art zu
begehen, besteht.
(c) Beschreiben Sie kurz mit eigenen Worten, worin dann das Risiko, einen Fehler 2. Art zu
begehen, besteht.
20. Ein Programmierer behauptet, dass sein Zufallszahlengenerator CHANCE die Werte “0” und “1”
unabhängig voneinander mit den Wahrscheinlichkeiten 0.4 (für “0”) und 0.6 (für “1”) erzeugt.
Hobby-Statistiker W. O. vermutet, dass diese Wahrscheinlichkeiten stattdessen in Wirklichkeit
0.6 (für “0”) und 0.4 (für “1”) betragen. Er möchte dies auf der Basis von 4 durch CHANCE
erzeugten Zufallswerten prüfen. Ermitteln Sie für diese Situation den Verwerfungsbereich eines
einfachen (nichtrandomisierten) Tests, der höchstens das Niveau 3 % haben soll. Wie groß ist
dann die Wahrscheinlichkeit für einen Fehler 2. Art?
21. (a) In einer Waschmittelfabrik wurde eine neue Abfüllanlage installiert, die Waschmittel in
Packungen abfüllt. Das Gesamtgewicht einer Packung setzt sich dann zusammen aus dem
Abfüllgewicht und dem Verpackungsgewicht. Die Betriebsingenieurin hat festgestellt, dass
das Abfüllgewicht der Packungen einer Normalverteilung mit dem Mittelwert 5 050 g und
der Standardabweichung 8 g folgt. Der Verpackungshersteller gibt an, dass das Verpackungs-
gewicht einer Normalverteilung mit dem Mittelwert 100 g und der Standardabweichung
6 g folgt. Aus dem Abfüllprozess folgt, dass Verpackungsgewicht und Abfüllgewicht un-
abhängig voneinander sind. Berechnen Sie den Erwartungswert und den Standardfehler für
das Gesamtgewicht. (Rechnen Sie hier exakt, d.h. ohne zu runden. Begründen Sie außerdem
ganz genau, welchen Weg Sie zur Berechnung des Erwartungswertes und Standardfehlers
wählen.)
Hinweis: a + b = a − (−b).
(b) Aus den Angaben in (a) ergibt sich auch bereits, dass das Gesamtgewicht einer Normalver-
teilung folgt. Wie groß ist ungefähr der Prozentsatz der Packungen, deren Gesamtgewicht
5 165 g übersteigt?
22. Zwei Personen möchten für eine Schachtel die Nullhypothese testen, dass das arithmetische
Mittel der Schachtel gleich 50 sei. Sie einigen sich auf die Alternativhypothese, dass das arith-
metische Mittel der Schachtel von 50 abweiche. Auch sind sich die beiden darin einig, einen
zweiseitigen z-Test durchzuführen.
Die erste Person zieht nun 100-mal zufällig und mit Zurücklegen aus der Schachtel. Der zweiten
Person genügen 100 Versuche nicht – sie zieht gleich 500-mal. Beide erhalten jedoch dieselbe
Standardabweichung von 10.
Wahr oder falsch? Die Person, deren arithmetisches Mittel für die Schachtel weiter von 50
entfernt ist, wird den kleineren P -Wert erhalten. Erklären Sie!
23. Ein Würfel wird 300-mal geworfen. Bestimmen Sie Erwartungswert und Standardfehler für die
Differenz zwischen dem prozentualen Anteil von Einsen in den ersten 200 Würfen und dem
prozentualen Anteil von Sechsen in den letzten 100 Würfen.
7
24. Eine Schachtel enthält 5 000 Zettel mit Zahlen. Das arithmetische Mittel der Zahlen liegt bei
50, und die Standardabweichung ist 30.
Nun wird 200-mal zufällig und ohne Zurücklegen aus der Schachtel gezogen.
(a) Ist die folgende Aussage wahr oder falsch?
Der Standardfehler für die Differenz zwischen dem arithmetischen Mittel aus den ersten
100
√ Ziehungen und dem arithmetischen Mittel aus den letzten 100 Ziehungen ist ungefähr
32 + 32 .
(b) Wiederholen Sie Teil (a), wenn die Schachtel nur 200 Zettel enthält.
25. In den frühen 80er Jahren wurde in den USA untersucht, inwieweit Taschenrechner Schülern bei
der Bearbeitung von Textaufgaben helfen können.
Dazu wurde 500 dreizehnjährigen Schülern in einem bestimmten Schulbezirk die folgende Auf-
gabe vorgelegt:
“An army bus holds 36 soldiers. If 1 128 soldiers are being bussed to their training
site, how many buses are needed?”
Einer Hälfte der Schüler wurde die Benutzung von Taschenrechnern gestattet; die andere Hälfte
hatte die Aufgabe ausschließlich mit Papier und Bleistift zu lösen.
In der Taschenrechner-Gruppe gaben 18 Schüler eine korrekte Antwort, und in der Papier-und-
Bleistift-Gruppe waren es 59. Kann dieser Unterschied als zufällige Schwankung erklärt werden?
Was schließen Sie?
Hinweise: (a) Die Daten entsprechen in etwa den Angaben in einer 1983 veröffentlichten Studie.
Aus der Veröffentlichung geht jedoch nicht eindeutig hervor, ob es sich um ein kontrolliertes
Experiment oder eine Beobachtungsstudie handelte. Gehen Sie von einem kontrollierten Expe-
riment aus.
(b) Es ist
1 128 1
= 31 ,
36 3
also werden 32 Busse benötigt. Insbesonders in der Taschenrechner-Gruppe war 31.33 eine ty-
pische Antwort. Auch wurde häufig 31 genannt.
26. Rechnen mit Taschenrechnern
8
Aufgabe a) Ein Taschenrechner kostet 24,– EUR.
Wieviel kosten 4 Taschenrechner?
Aufgabe b) Wieviele Möglichkeiten gibt es, 18 Ta-
schenrechner auf 26 Schüler zu vertei-
len?
Aufgabe c) Wirft man einen Taschenrechner
in einen Brunnen, so dauert es
vier Sekunden, bis der Taschenrech-
ner unten ist. Wie tief ist der Brunnen?
Also nochmal –
”
wenn ich von fünf Taschenrechnern drei Aufgabe d) Auf wieviele verschiedene Weisen
wegnehme, wieviele bleiben übrig?“ kann man die Buchstaben des Wortes
Taschenrechner“ anordnen?
”
Das Bild zeigt, welche didaktischen Möglich-
keiten im Rechnen mit Taschenrechnern Aufgabe e) Ein Taschenrechner ist 7 mm hoch.
Wieviele Taschenrechner benötigt
liegen. Da dies von vielen Lehrern und Eltern man, um die Höhe des Kölner Doms
noch nicht erkannt ist, sollen im folgenden zu erreichen?
Hilfen gegeben werden, die insbesondere dem
Lehrer zeigen, auf welch vielfältige Weise der Aufgabe f) Ein Schüler braucht zwei Minuten, um
Taschenrechner im Mathematik-Unterricht einen Taschenrechner kaputt zu schla-
eingesetzt werden kann, so daß ein Rechen- gen. Wie lange brauchen 10 Schüler für
unterricht ohne Taschenrechner bald nicht diese Arbeit?
mehr zu denken ist. Wir machen den Einsatz (Die letzte Aufgabe sollte man erst am Schul-
des Taschenrechners an einigen Aufgaben klar: jahresende behandeln!)
Aus F. Wille: Humor in der Mathematik.

Bearbeiten Sie Aufgabe b), d) und f).
27. Ist Müsli das bessere Frühstück? Um eine Antwort auf diese Frage zu finden, wird an einer
Universität eine Studie durchgeführt. 389 Studierende der Statistik-I-Vorlesung erklären sich
dazu bereit, an dem Versuch teilzunehmen. In einem zufälligen Verfahren werden in der ersten
Vorlesung 194 Teilnehmende der Behandlungs- und 195 der Kontrollgruppe zugeteilt. Die Be-
handlungsgruppe erhält während des gesamten Semesters sieben Tage in der Woche ein sorgfältig
ausgewähltes Öko-12-Korn-Frucht-Müsli. Die Versuchspersonen in der Kontrollgruppe erhalten
täglich frische Brötchen vom Bäcker.
(a) In der Klausur zu Beginn der vorlesungsfreien Zeit erreichen die Studierenden in der Be-
handlungsgruppe im Mittel 66 von 100 möglichen Punkten bei einer Standardabweichung
von 20. Für die Kontrollgruppe liegen die entsprechenden Werte bei 59 und 20. Was schlie-
ßen Sie?
(b) Welche Aspekte der Studie hätten blind“ durchgeführt werden können?
”
28. In den 70er Jahren wurde in einer großen Studie untersucht, inwieweit die Faktoren Cholesterin,
Blutdruck und Rauchen das Risiko beeinflussen, einen Herzinfarkt zu erleiden. Als Versuchsper-
sonen wurden 12 866 Männer im Alter von 35 bis 57 Jahren ausgewählt, die alle einem hohen
Risiko für Herzerkrankungen ausgesetzt waren.
In einem zufälligen Verfahren wurden 6 428 Versuchspersonen in die Behandlungsgruppe und
6 438 in die Kontrollgruppe eingeteilt. Die Männer in der Behandlungsgruppe wurden in Bezug
9
auf Ernährung und Rauchen beraten und erhielten in einigen Fällen eine besondere Therapie
gegen Bluthochdruck. Alle Versuchspersonen wurden über mindestens 6 Jahre beobachtet.
(a) Zu Beginn der Studie lag der diastolische Blutdruck bei der Behandlungsgruppe im arith-
metischen Mittel bei 91.0 mm Hg; die Standardabweichung war 7.6 mm Hg. Für die Kon-
trollgruppe lagen die entsprechenden Werte bei 90.9 und 7.7. Was schließen Sie?
(b) Sechs Jahres später lag der diastolische Blutdruck bei der Behandlungsgruppe im arith-
metischen Mittel bei 80.5 mm Hg; die Standardabweichung war 7.9 mm Hg. Und für die
Kontrollgruppe lagen die entsprechenden Werte bei 83.6 und 9.2. Was schließen sie?
(c) Zu Beginn der Studie lag der Cholesterolgehalt bei der Behandlungsgruppe im arithmeti-
schen Mittel bei 253.8 mg/dl; die Standardabweichung war 36.4 mg/dl. Für die Kontroll-
gruppe lagen die entsprechenden Werte bei 253.5 und 36.8. Was schließen Sie?
(d) Sechs Jahre später lag der Cholesterolgehalt bei der Behandlungsgruppe im arithmetischen
Mittel bei 235.5 mg/dl; die Standardabweichung war 38.3 mg/dl. Und für die Kontrollgrup-
pe lagen die entsprechenden Werte bei 240.3 und 39.9. Was schließen Sie?
(e) Zu Beginn der Studie rauchten 59.3 % der Männer in der Behandlungsgruppe und 59.0 %
der Männer in der Kontrollgruppe. Was schließen Sie?
(f) Sechs Jahre später rauchten nur noch 32.3 % der Männer in der Behandlungsgruppe und
45.6 % der Männer in der Kontrollgruppe. Was schließen Sie?
(g) In der Behandlungsgruppe waren 211 Männer nach 6 Jahren verstorben, und in der Kon-
trollgruppe 219 Männer. Was schließen Sie?
29. Die inneren Planeten Merkur und Venus liegen näher an der Sonne als die Erde. Die anderen,
sogenannten äußeren Planeten sind weiter von der Sonne entfernt. Die Massen aller Planeten
sind unten gegeben, wobei die Masse der Erde gleich 1 sei.
Merkur Venus Mars Jupiter Saturn Uranus Neptun

0.06 0.81 0.11 318 95 15 17
Die Massen der inneren Planeten liegen im arithmetischen Mittel bei 0.435. Die Massen der
äußeren Planeten ergeben im arithmetischen Mittel 89.
Ist dieser Unterschied statistisch signifikant? Oder ergibt diese Frage gar keinen Sinn? Erklären
Sie.
30. (a) Bestimmen Sie die Fläche unter der Dichte der χ2 -Verteilung mit 4 Freiheitsgraden rechts
von 3.36, links von 1.06 und links von 9.49.
(b) Bestimmen Sie die ungefähre Fläche unter der Dichte der χ2 -Verteilung mit 22 Freiheits-
graden rechts von 12.05. (Kein Druckfehler!)
31. Die kalifornische Staatslotterie hat zur Erzeugung von Zufallszahlen folgende Apparatur getestet:
Zehn Tischtennisbälle werden mit den Ziffern 0 bis 9 versehen und in einer Glasschüssel mit Hilfe
einer Luftdüse vermischt. Nach einiger Zeit wird einer der Bälle aus der Schüssel herausgetrieben.
In den unten beschriebenen Testläufen wurde bei jedem Durchgang 120mal aus der Glasschüssel
gezogen (mit Zurücklegen).
Der Mischvorgang an sich verlief offensichtlich komplikationslos. Doch waren einige der benutzten
Sätze von Tischtennisbällen möglicherweise nicht in Ordnung.
10
(a) Angenommen, die Apparatur arbeitet einwandfrei: Dann wird bei 120 Ziehungen aus der
Schüssel jeder der 10 Tischtennisbälle etwa mal gezogen werden.
(b) Was schließen Sie, wenn der mit der Ziffer 7 versehene Ball 29mal gezogen wird? Erklären
Sie!
(c) Die Tabelle unten zeigt zunächst die Ergebnisse eines ersten Testdurchgangs mit vier ver-
schiedenen Sätzen von Tischtennisbällen.
Aufgrund dieser ersten Testreihen lehnte die Staatslotterie Satz B ab und befand Satz C
als in Ordnung. Mit den Sätzen A und D wurden die Testläufe wiederholt.
Wie beurteilen Sie die Entscheidungen der Staatslotterie?
(d) Was würden Sie mit den Sätzen A und D nach Kenntnis der Ergebnisse des zweiten Test-
durchgangs machen?
Häufigkeiten
Erster Durchgang Zweiter Durchgang

Ball Nr. Satz A Satz B Satz C Satz D Satz A Satz D
0 13 22 12 16 19 8
1 11 8 10 7 9 15
2 16 7 14 12 10 22
3 11 8 10 14 12 11
4 5 19 11 15 7 15
5 12 20 10 5 15 8
6 12 10 20 10 19 17
7 19 11 12 21 10 9
8 5 6 12 11 12 8
9 16 9 9 9 7 7
32. Jemand gibt Ihnen den gutgemeinten Rat, die vorangegangene Aufgabe wie folgt zu lösen:
“Wandeln Sie die Zahlen in der Tabelle in Prozente um (also z.B. 13 aus 120 ≈ 10.8 %);
nehmen Sie die Differenz zwischen dem beobachteten und dem erwarteten Prozentsatz;
quadrieren Sie; teilen Sie durch den erwarteten Prozentsatz; addieren Sie schließlich
diese Werte, um χ2 zu erhalten.”
Ist dies eine geeignete Methode?
33. In den Vereinigten Staaten werden die Geschworenen für die Juries an regionalen Gerichtshöfen
aus der Bevölkerung der jeweiligen Region ausgewählt.
In der UCLA Law Review, Band 20 (1973) wurde die Auswahl der Geschworenen im Bezirk
Alameda untersucht. Das Bildungsniveau der Geschworenen stellt sich dabei im Vergleich zur
Gesamtbevölkerung des Bezirks wie folgt dar:
11
Anteil an der Gesamtbevöl- Anzahl der
Bildungsniveau kerung des Bezirks Geschworenen
Elementary 28.4 % 1
Secondary 48.5 % 10
Some college 11.9 % 16
College degree 11.2 % 35
total 100.0 % 62
Könnte eine einfache Zufallsstichprobe (simple random sample) von 62 Personen aus dem Bezirk
Alameda eine Verteilung des Bildungsniveaus zeigen, die so weit von der Verteilung im Bezirk
abweicht?
Wählen Sie unter den Optionen (i) bis (v), und erklären Sie.
(i) Dies ist völlig unmöglich.

(ii) Dies ist möglich, aber mehr als unwahrscheinlich.
(iii) Dies ist möglich, aber unwahrscheinlich – die Wahrscheinlichkeit dafür liegt bei etwa 1 %.
(iv) Dies ist ohne weiteres möglich – die Wahrscheinlichkeit dafür liegt bei bei etwa 10 %.
(v) Dies wird sogar sehr wahrscheinlich der Fall sein.
34. Zwei Personen versuchen zu entscheiden, ob ein Würfel fair ist. Sie würfeln 100mal mit folgenden
Ergebnissen:
Augenzahl 1 2 3 4 5 6
Häufigkeit 21 15 13 17 19 15
Die eine Person will nun einen z-Test durchführen, die andere einen χ2 -Test.
Wer hat recht? Erklären Sie!
35. In einer Gaststätte bietet Ihnen ein Fremder ein Glücksspiel an. Er behauptet, das von ihm zu
diesem Zweck benutzte Würfelpaar sei fair. Sie misstrauen dem Fremden jedoch und verlangen
einen Test. Dazu würfelt der Fremde 360mal, und Sie notieren, wie oft welche Augensumme
erscheint:
Augenzahl 2 3 4 5 6 7 8 9 10 11 12
Häufigkeit 11 18 33 41 47 61 52 43 29 17 8
Sollten Sie nun das Glücksspiel mit dem Fremden wagen? Oder liegen die beobachteten Häufig-
keiten zu nahe an den erwarteten?
36. Die folgenden Teilaufgaben beziehen sich auf Abbildung 2 auf Seite 528 im Buch von Freedman
et al.
(a) Repräsentiert das Histogramm Daten oder Wahrscheinlichkeiten?

(b) Betrachten Sie das Rechteck über dem Intervall von 5 bis 5.2. Was repräsentiert die Fläche
dieses Rechtecks?
Hinweis: Die Wertebereiche schließen den linken, nicht aber den rechten Endpunkt mit ein.
12
(c) Welche Wahrscheinlichkeit ist größer?
i. Die Wahrscheinlichkeit, dass die χ2 -Statistik im Bereich von 4.8 bis 5.0 liegt.
ii. Die Wahrscheinlichkeit, dass die χ2 -Statistik im Bereich von 5.0 bis 5.2 liegt.
Oder können Sie dies aufgrund der Abbildung gar nicht entscheiden? Erklären Sie!
37. Das National Center for Health Statistics publizierte den untenstehenden Datensatz über die
Anzahl der Selbstmorde in den USA in den einzelnen Monaten des Jahres 1970.
Gibt es Hinweise darauf, dass sich die Selbstmordrate saisonal ändert, oder ist der Datensatz
konsistent mit der Nullhypothese, dass die Selbstmordrate über die Monate hinweg konstant
bleibt?
Anzahl der
Monat Selbstmorde Tage/Monat
Januar 1 867 31
Februar 1 789 28
März 1 944 31
April 2 094 30
Mai 2 097 31
Juni 1 981 30
Juli 1 887 31
August 2 024 31
September 1 928 30
Oktober 2 032 31
November 1 978 30
Dezember 1 859 31
Hinweis: Unter der Nullhypothese wählen alle Selbstmordkandidaten den Tag des Suizids will-
kürlich, d.h. jeder Tag des Jahres wird mit gleicher Wahrscheinlichkeit von 1/365 gewählt und
jeder Monat mit Wahrscheinlichkeit (Anzahl der Tage im Monat)/365. Führen Sie einen χ2 -
Test durch, und achten Sie auf die Vorzeichen der Abweichungen (beobachtete Häufigkeit) –
(erwartete Häufigkeit). Sind Muster erkennbar?
38. In einer Stichprobe wurde die folgende Verteilung der Variablen Y beobachtet:
Y Y < 10 10 ≤ Y < 20 20 ≤ Y < 30 30 ≤ Y < 40 Y ≥ 40

absolute
Häufigkeit 46 129 331 347 147
Testen Sie die Hypothese, dass die zugrundeliegende Grundgesamtheit entsprechend einer Nor-
malverteilungsdichte mit Mittelwert 30 und Standardabweichung 10 verteilt ist.
39. Wahr oder falsch?
(a) Der P -Wert eines Tests gibt die Wahrscheinlichkeit an, dass die Nullhypothese richtig ist.
(b) Wenn ein Ergebnis statistisch signifikant ist, liegt die Wahrscheinlichkeit, dass es zufälligen
Schwankungen zuzuschreiben ist, bei 5 %, und die Wahrscheinlichkeit, dass es “real” ist,
bei 95 %.
13
Erklären Sie!
40. Aus einer Schachtel X wird 100mal zufällig gezogen. Das arithmetische Mittel der Ziehungen
ist 51.8, und die Standardabweichung ist 9. Die Nullhypothese besagt, dass das arithmetische
Mittel der Schachtel gleich 50 ist, und die Alternativhypothese, dass das arithmetische Mittel
der Schachtel von 50 abweicht.
Ist ein einseitiger oder ein zweiseitiger z-Test angemessen?
41. Neuentwickelte Chemikalien werden in der Regel daraufhin überprüft, ob sie bei Labormäusen
Krebs erzeugen. Ein solcher Versuch kann beispielsweise mit 500 Mäusen durchgeführt wer-
den, von denen 250 in einem zufälligen Verfahren ausgewählte Tiere die zu testende Chemikalie
mit der Nahrung verabreicht bekommen. Die restlichen 250 Mäuse dienen als Kontrollgrup-
pe. Nach einer gewissen Zeit werden die Krebsraten beider Gruppen unter Verwendung des
Zweistichproben-z-Tests miteinander verglichen. Die Krebsraten werden dabei für ungefähr 25
verschiedene Organe betrachtet – Leber, Lunge, Knochenmark usw.
Für eine bestimmte Chemikalie ergibt sich z ≈ 2.4 für die Leber, z ≈ −1.8 für die Lunge, z ≈ 2.1
für Leukämie, und 22 andere z-Werte zwischen –1.6 und +1.5. Die Untersucher schließen, dass
die Chemikalie Leberkrebs verursacht (z ≈ 2.4, P ≈ 1%, einseitiger Test).
Kommentieren Sie!
42. Nach Volkszählungsdaten lag die Gesamtbevölkerung der USA im Jahr 1950 bei 151.3 Millionen
Personen, von denen 13.4 % im Westen lebten. 1980 war die Bevölkerung der USA auf 226.5
Millionen Personen angewachsen, von denen nun 19.1 % im Westen lebten.
Ist dieser prozentuale Unterschied praktisch bedeutsam? Ist er statistisch signifikant? Oder er-
geben diese Fragen gar keinen Sinn? Erklären Sie!
43. Ein Bekannter von Hobby-Statistiker W. O. hilft jedes Jahr zur Festspielzeit in einem Bayreuther
Gasthof als Kellner aus. Zugleich versorgt er W. O. mit interessanten Daten über die nach be-
stimmten Aufführungen bestellen Menüs. Kürzlich erhielt W.O. von ihm folgende Tabelle:
Oper M T u. I P
Menü
vegetarisch 26 31 18
nicht vegetarisch 39 44 42
Diese Daten können als eine Zufallsstichprobe betrachtet werden. Sind die Merkmale Oper“
”
und Menü“ unabhängig? (Man teste zum Niveau 5 %.)
”
44. (Hinweis: Der in dieser Aufgabe erwähnte Artikel ist auch in Aufgabe 169 aus Statistische
Methoden I teilweise abgedruckt.)
In der Tageszeitung International Herald Tribune (January 11, 2002, S. 12) hat Hobby-Statistiker
W. O. in einem Artikel mit dem Titel ‘Early Days Hint at Bullish Market’ Daten über den Verlauf
des Dow (US-Aktienindex) für das Gesamtjahr und des Fünf-Tage-Indikators (Verlauf des Dow
für die ersten fünf Handelstage eines Jahres) aus den sechzig Jahren von 1942 bis 2001 gefunden.
Diese Daten sind in der folgenden Tabelle zusammengefasst:
14
Dow für das Gesamtjahr
Summe
gestiegen gefallen
gestiegen 32 7 39
Fünf-Tage-
Indikator
gefallen 12 9 21
Summe 44 16 60
(a) Da der Artikel eine Korrelation zwischen dem Dow für das Gesamtjahr und dem Fünf-
Tage-Indikator erwähnt, überlegt Hobby-Statistiker W. O., welches Resultat ein Test auf
Unabhängigkeit der beiden Größen liefern würde und ob er die Zahlen eventuell mit einer
geeigneten Einkleidung als Übungsaufgabe verwenden könnte. Führen Sie für ihn einen
solchen Test zum Niveau 30 % durch. Unterstellen Sie dabei zunächst, dass die dafür
nötigen Annahmen erfüllt sind.
(Hinweis: Da es sich um reale Daten handelt und das Signifikanzniveau vorgegeben ist, ist
es u. U. vorteilhaft, zunächst den kritischen Wert zu ermitteln und anschliessend den Wert
der Teststatistik nicht genau zu berechnen, sondern nur geeignet abzuschätzen.)
(b) Diskutieren Sie nun, inwieweit die Annahmen für den Test in (a) tatsächlich erfüllt sind.
Begründen und erläutern Sie kurz Ihre Aussagen.
45. Eine Firma hat 16 weibliche und 7 männliche Angestellte. Doch verdienen die männlichen An-
gestellten deutlich mehr als die weiblichen, und die Firma wird wegen der Diskriminierung von
Frauen verklagt.
Der vom Kläger bestellte Sachverständige argumentiert wie folgt:
“Es gibt 16 × 7 = 112 Paare von je einer weiblichen und einem männlichen An-
gestellten. Bei 68 dieser 112 Paare verdient der Mann mehr. Ohne diskriminierende
Praktiken liegt die Wahrscheinlichkeit, dass der Mann mehr verdient, bei genau 50 %.
Es liegt also dieselbe Situation vor wie beim Münzwurf. Bei 112 Würfen liegt die
erwartete Anzahl von Wappen bei 56, und der Standardfehler ist ungefähr 5.3. Also
beobachtet – erwartet 68 − 56
z= ≈ ≈ 2.3 ,
Standardfehler 5.3
und P ≈ 1 %. Wenn das kein Beweis für diskriminierende Praktiken der Firma ist!”
Stimmen Sie zu? Antworten Sie mit ja oder nein, und erklären Sie.
46. In der US-amerikanischen Rechtssprechung gilt vielfach der Tatbestand der Diskriminierung als
erwiesen, wenn eine Firma weniger Angestellte aus einer bestimmten Bevölkerungsgruppe hat,
als es dem Prozentsatz dieser Bevölkerungsgruppe unter der Gesamtbevölkerung der entspre-
chenden geographischen Region entspricht – vorausgesetzt, der Unterschied ist mit dem z-Test
15
statistisch signifikant“.
”
Angenommen, in einer Stadt sind 10 % der Bevölkerung Angehörige einer bestimmten Bevölke-
rungsgruppe und jede ortsansässige Firma wählt ihre Angestellten nach einem Verfahren, das in
Bezug auf die Zugehörigkeit zu einer Bevölkerungsgruppe dem Ziehen einer einfachen Zufalls-
stichprobe (simple random sampling) entspricht. Ist es dann dennoch möglich, dass eine dieser
Firmen mit dem z-Test der Diskriminierung schuldig gesprochen wird? Erklären Sie!
47. Ein Wirtschaftswissenschaftler schätzt, dass die Preiselastizität der Nachfrage für raffinierte
Erdölprodukte bei −6 liegt (Eine Preiselastizität von −6 bedeutet vereinfacht, dass ein Anstieg
der Preise um 1 % zu einem Rückgang der Verkaufszahlen um 6 % führt). Der Standardfehler
ist 2.5.
Der Wissenschaftler testet nun die Nullhypothese, dass die Preiselastizität gleich 0 ist, und erhält
z = −6/2.5 = −2.4 und P ≈ 1% (einseitiger Test). Seine Schlussfolgerung: Er kann zu 99 %
”
darauf vertrauen, dass die Schätzung richtig ist“.
Kommentieren Sie!
48. R.E. Just und W.S. Chern behaupteten in einem 1980 veröffentlichten Aufsatz (Bell Journal
of Economics 11, S. 584–602), dass die Großeinkäufer kalifornischer Tomatenkonserven ihre
marktbeherrschende Stellung dazu benutzten, die Preise zu fixieren. Als Beweis führten die
beiden Wissenschaftler Schätzungen der Preiselastizität für Tomatenkonserven vor und nach der
Einführung von Erntemaschinen an und versahen diese Schätzungen mit einem Standardfehler.
Bei einem Wettbewerbsmarkt sollte die Einführung von Erntemaschinen keinen Unterschied in
der Nachfrageelastizität bewirken; eine solche Maßnahme beeinflusst nur das Angebot. Wie auch
immer – der Unterschied zwischen den geschätzten Elastizitäten vor und nach der Einführung
von Erntemaschinen war statistisch signifikant (z ≈ 1.56, P ≈ 5.9%, einseitiger Test). Dabei
unternahmen Just und Chern verschiedene Anläufe, die Preiselastizitäten zu schätzen, bevor sie
schließlich auf die publizierte Version stießen.
Kommentieren Sie!
49. Eine Stichprobe X besteht aus zwei quantitativen Beobachtungen. Eine weitere Stichprobe Y
besteht aus vier quantitativen Beobachtungen.
(a) Wie viele verschiedene Möglichkeiten gibt es, die zwei Beobachtungen aus Stichprobe X
und die vier Beobachtungen aus Stichprobe Y anzuordnen?
Hinweis: Zwei solche Möglichkeiten sind beispielsweise Y Y Y XY X und Y Y Y Y XX.

(b) Berechnen Sie für jede dieser Anordnungen den Wert von WXY .
(c) Bestimmen Sie den P -Wert, der zu WXY = 3 gehört.
50. Ein Pharma-Unternehmen hat für die Behandlung von Patienten mit geringem Hämoglobin-
Gehalt im Blut ein neues Medikament, Präparat A, entwickelt. Die Firma will nachweisen, dass
ihr Medikament besser ist als das gängige Konkurrenzprodukt, Präparat B.
In einem kontrollierten Experiment werden von 19 Versuchspersonen in einem zufälligen Verfah-
ren 10 für die Behandlung mit Präparat A und 9 für die Behandlung mit Präparat B eingeteilt.
Es ergeben sich die folgenden Rekonvaleszenzzeiten:
Präparat A: 14 28 43 115 50 20 12 98 56 46
Präparat B: 65 84 21 70 100 35 112 115 86
Ist Präparat A tatsächlich besser? Formulieren Sie eine geeignete Nullhypothese, und testen Sie.
16
51. Für die Förderung statistischer Intelligenz gibt es eine Standardmethode und eine neue Methode
(Bayreuther Trichter). In einem Vergleich der Methoden wurden (in geeigneten Einheiten) an 9
Studierenden folgende Resultate beobachtet:
Standardmethode: 78 64 55 44 61
Bayreuther Trichter: 110 91 77 95
Ist der Bayreuther Trichter die bessere Methode? (Es wird ein möglichst hoher Wert bei den
Studierenden angestrebt.)
©
52. Erfinder Daniel D.1 hat einen Zusatz zum Benzin entwickelt (“Cleanair ”), der den Schadstoff-
gehalt der Auspuffgase von Verbrennungsmotoren stark absenken soll. Sie werden um eine Stel-
lungnahme gebeten und schlagen einen statistischen Test vor. Erläutern Sie kurz Ihr Vorgehen
(Wahl von Nullhypothese und Alternative, Niveau α oder P -Wert, einseitiger oder zweiseitiger
Test, Fehler 1. Art und Fehler 2. Art, Konsequenzen aus einem signifikanten bzw. nichtsignifi-
kanten Ergebnis). [ca. 1/2 – 1 Seite].
53. Eine Urne enthalte vier Kugeln, θ weiße und 4 – θ schwarze. Man testet die Nullhypothese
“θ = 2” gegen die Alternative “θ 6= 2”, indem man zwei Kugeln mit Zurücklegen zieht und
genau dann verwirft, wenn die gezogenen Kugeln von der gleichen Farbe sind.
(a) Man berechne die Wahrscheinlichkeit für einen Fehler erster Art.
(b) Man berechne die Wahrscheinlichkeit für einen Fehler zweiter Art für alle möglichen Situa-
tionen.
54. Es wird zwanzigmal aus einer Schachtel mit unbekanntem Mittelwert und bekannter SD = 9
gezogen. Die Werte in der Schachtel folgen exakt einer Normalverteilungsdichte. Man bestimme
den Verwerfungsbereich eines Tests zum Niveau 5 % für die Nullhypothese
“Der Mittelwert der Schachtel ist 1.0 ”
gegen die Alternative
“Der Mittelwert der Schachtel ist 2.0”.
Wie groß ist die Wahrscheinlichkeit für einen Fehler 2. Art?
55. Cowboy Joe wird beschuldigt, statt der gewöhnlichen Münze, die mit einer Wahrscheinlichkeit
von 0.4 “Kopf” zeigt, eine gezinkte Münze verwendet zu haben, die mit einer Wahrscheinlichkeit
von 0.8 “Kopf” ergibt. Die Entscheidung soll auf der Basis von 6 Münzwürfen getroffen werden.
Ermitteln Sie den Verwerfungsbereich eines (nichtrandomisierten) Tests für diese Situation, der
höchstens das Niveau 5 % haben soll. Was ist die Wahrscheinlichkeit für einen Fehler 2. Art?
56. Ulcus spiritus, das Magengeschwür von Hugo Schluck, führt eine “Mageneingangskontrolle”
durch. Erfahrungsgemäß bekommt ihm eins von zehn Bierchen nicht sehr gut, was es Hugo
Schluck auch immer umgehend mitteilt. Bei einer “Charge” von 30 Bierchen reagierte Ulcus spi-
ritus 6mal ausgesprochen sauer. Kann man sagen, dass es in letzter Zeit empfindlicher geworden
ist? Man teste zum 10-%-Niveau.
1
“Dem Inschinör ist nichts zu schwör. . . ”
17
57. Eine Münze werde 12mal geworfen, um zu testen, ob die Wahrscheinlichkeit für “Kopf” 1/2
beträgt. Die Hypothese wird verworfen, falls das Ereignis “Kopf” insgesamt 0 oder 12mal beob-
achtet wird.
(a) Was ist das Signifikanzniveau des Tests?

(b) Falls die tatsächliche Wahrscheinlichkeit für das Ereignis “Kopf” p1 = 0.3 ist, was ist die
Wahrscheinlichkeit für einen Fehler 2. Art?
(c) Was ist die Wahrscheinlichkeit für einen Fehler 2. Art für p1 = 0.2 und p1 = 0.1?
Was vermutet man für p1 −→ 0?
58. Vor einer Wahl zwischen zwei Kandidaten A und B wurden 100 Wähler über ihre Wahlabsichten
zweimal im Abstand von 4 Wochen befragt. Die folgende Tabelle zeigt die Resultate:
Zweite Umfrage
für A für B
für A 35 10
Erste
Umfrage
für B 13 42
Gab es unterschiedlich starke Wählerwanderungen von A nach B bzw. umgekehrt?
59. In einer Statistikklausur hat Hobby–Statistiker W. O. die folgende Aufgabe gestellt:
In der Tageszeitung International Herald Tribune (January 11, 2002, S. 12) hat Hobby-
Statistiker W. O. in einem Artikel mit dem Titel ‘Early Days Hint at Bullish Market’
Daten über den Verlauf des Dow (US-Aktienindex) für das Gesamtjahr und des Fünf-
Tage-Indikators (Verlauf des Dow für die ersten fünf Handelstage eines Jahres) aus
den sechzig Jahren von 1942 bis 2001 gefunden. Diese Daten sind in der folgenden
Tabelle zusammengefasst:
Dow für das Gesamtjahr
Summe
gestiegen gefallen
gestiegen 32 7 39
Fünf-Tage-
Indikator
gefallen 12 9 21
Summe 44 16 60
18
Da der Artikel eine Korrelation zwischen dem Dow für das Gesamtjahr und dem Fünf-
Tage-Indikator erwähnt, überlegt Hobby-Statistiker W. O., welches Resultat ein Test
auf Unabhängigkeit der beiden Größen liefern würde und ob er die Zahlen eventuell
mit einer geeigneten Einkleidung als Übungsaufgabe verwenden könnte. Führen Sie
für ihn einen solchen Test zum Niveau 30 % durch. Unterstellen Sie dabei zunächst,
dass die dafür nötigen Annahmen erfüllt sind.
Eine Anzahl von Studierenden benutzte als Lösung fälschlicherweise den McNemar-Test. Bear-
beiten Sie hierzu nun die folgenden Teilaufgaben.
(a) Für welche Fragestellung wäre dieser Test angemessen gewesen? Antworten Sie hier in Auf-
satzform, d. h. in vollständigen Sätzen, und legen Sie genau dar, welche Betrachtungsweise
beim McNemar-Test benutzt wird.
(b) Führen Sie den McNemar-Test für diese Daten durch, und bestimmen Sie den P-Wert.
Unterstellen Sie dabei, dass die dafür nötigen Annahmen alle erfüllt sind.
(Hinweis: Benutzen Sie eine geeignete Tabelle oder einen Taschenrechner.)
60. Für eine bestimmte Benzinmischung liegen folgende 15 Messungen der Oktanzahl vor:
98.3 95.0 95.8 96.5 95.7 92.2 95.1

98.5 99.3 93.4 96.4 94.9 94.3 94.0
97.6
Man teste mit dem Zeichentest die Nullhypothese “Median = 94.0” gegen die Alternative “Me-
dian > 94.0”. (Das Niveau sei 1 %.)
61. Für Stichproben von Sand aus verschiedenen Ablagerungsmilieus ergaben sich folgende Messwer-
te für den Durchmesser von Sandkörnern:
Sand I:
0.17 0.63 0.35 0.49 0.18 0.43 0.12
0.20 0.47 1.36 0.51 0.45 0.84 0.32
0.40
Sand II:
1.13 0.54 0.96 0.26 0.39 0.88 0.92
0.53 1.01 0.48 0.89 1.07 1.11 0.58
Man prüfe mit dem Wilcoxon-Rangsummentest, ob die Korngrößenverteilungen übereinstimmen.

(Das Niveau sei 1 %.)
62. Die folgende Tabelle zeigt die Anzahl der Mädchen für 1 000 Familien mit jeweils fünf Kindern.
Anzahl k der Mädchen Anzahl der Familien mit k Mädchen

0 38
1 144
2 342
3 287
4 164
5 25
19
Man passe eine Binomialverteilung an die Daten an und prüfe die Güte der Anpassung.
63. Drei Schachteln sind mit Zetteln gefüllt. Das arithmetische Mittel der Zahlen auf den Zetteln
ist für jede der Schachteln gleich 200. Doch unterscheiden sich die Schachteln durch die Stan-
dardabweichung; Schachtel A hat Standardabweichung 10, Schachtel B Standardabweichung 20
und Schachtel C Standardabweichung 40. Nun wird
• aus Schachtel A 100mal
• aus Schachtel B 200mal
• aus Schachtel C 400mal
gezogen. Das Ziehen erfolgt dabei stets zufällig und mit Zurücklegen. Für das arithmetische
Mittel der Zahlen auf den Zetteln, die in den drei Serien gezogen werden, ergibt sich (in unbe-
kannter Reihenfolge)
203.6 198.1 200.4 .
(a) Versuchen Sie, die Mittelwerte den drei Serien zuzuordnen.

(b) Ist Ihre Zuordnung eindeutig? Oder gibt es auch andere mögliche Zuordnungen?
64. Bearbeiten Sie im folgenden Text die Teile (a) bis (d):
Der Nieselregen wurde immer stärker. Hobby–Statistiker W. O. zog seine Kapuze fester zu.
Warum nur hatte er diesen schwedischen Polizisten ausgerechnet zu einem Spaziergang am Och-
senkopf bestellt? Als ob er nicht wüßte, wie es hier im April aussieht! In seiner Kneipe hätten
sie sich wenigstens vollaufen lassen können. Mit Schwedenpunsch. Statt dessen trotteten sie
missmutig nebeneinander her. Eine Spur zu heftig tappste W. O. in eine Pfütze auf seiner Seite
des Weges.
“Was führt Sie zu mir”, fragte er schließlich unwirsch.
“Sie wurden uns empfohlen”, entgegnete der andere ebenfalls knapp und mit einem Unterton,
der die Nützlichkeit der Empfehlung in Zweifel zu ziehen schien. “Es geht um eine gefälschte
Münze. Wir müssen unbedingt wissen, mit welcher Wahrscheinlichkeit sie ‘Kopf’ zeigt. Wir ha-
ben dazu fünf Versuche gemacht, viermal kam ‘Kopf’.”
“Warum haben Sie nicht mehr Versuche gemacht?” warf W. O. ein.
“Die Münze kam uns abhanden”, erläuterte der Polizist.
Ihr habt sie also verschusselt, ging es W. O. durch den Kopf.
Sein Besucher fuhr fort:“Jetzt wissen wir nicht recht weiter. Ich meine, die Kopfwahrscheinlich-
keit p könnte doch prinzipiell jeder Wert zwischen 0 und 1 sein, oder?”
“Das schon”, dozierte W. O. , “aber nicht alle Werte passen in gleicher Weise zu Ihren Be-
obachtungen. Berechnen Sie doch (a) einmal die Wahrscheinlichkeiten, genau viermal in fünf
Versuchen ‘Kopf’ zu sehen, falls die tatsächliche Kopfwahrscheinlichkeit p 0.25, 0.5 oder 0.75
ist.”
“Warum gerade diese Werte”, fragte der andere.
“Nur als Beispiel, um Ihnen zu zeigen, dass nicht alle Werte von p im Lichte Ihrer Beobachtun-
gen gleich plausibel sind.”
“Und ein Wert von p , unter dem die Beobachtungen eine größere Wahrscheinlichkeit haben, ist
dann offensichtlich plausibler”, vermutete der Schwede.
Gar nicht dumm, fand W. O. und dachte an seinen früheren Mentor, der immer behauptet hatte,
Kriminalisten könnten nur deterministisch aber nicht statistisch denken. Sollte sein Mentor sich
darin geirrt haben? Oder war dieser Polizist ein Ausreißer? Aber der Begriff Ausreißer passte
eher zu Ganoven. Amüsiert von dem Gedanken fuhr W. O. fort: “Richtig. Aber Sie müssten
20
dasselbe eigentlich für alle Werte aus dem Intervall [0;1] machen. Also (b) die entsprechende
Funktion betrachten und ihre Maximalstelle suchen.”
“Klingt alles sehr einleuchtend”, meinte der andere mit diesmal viel freundlicherem Unterton,
“aber ist das nicht viel Arbeit?”
W. O. dachte an die Worte seines Mentors. Man dürfe die Leute auf keinen Fall überfordern. Bes-
ser alles genau erklären. Zweimal. Mindestens. “Es geht einfacher, wenn Sie (c) den Logarithmus
der Funktion betrachten. Die logarithmierte Funktion hat ja dieselbe Maximalstelle. Die Funk-
tion selbst nennt man übrigens Likelihood-Funktion, den Logarithmus davon log-Likelihood-
Funktion und die Maximalstelle Maximum-Likelihood-Schätzung.”
“Das hilft mir sehr - vielen Dank!” hörte W. O. den Polizisten sagen und achtete auf den Unter-
ton. Aber da war nichts Ironisches oder Sarkastisches zu bemerken. Verstohlen sah W. O. hinüber.
Tatsächlich hatten sich die Züge des Kommissars merklich aufgehellt. Was Statistik nicht alles
bewirken konnte. Selbst der Regen hatte aufgehört. Und in dem hellen Fleck oben am Himmel
konnte man so etwas wie die oberfränkische Sonne vermuten.
“Wenn Sie noch Fragen haben, rufen Sie mich an”, beendete W. O. das Treffen. “Sie haben ja
meine Nummer, Herr Kommissar - ach, (d) wie war noch gleich der Name?”
(aus: Schwedenpunsch. noch ungeschriebener, künftiger Bestseller, Eigenverlag.)

65. Student (Biometrika 5, 1907, S. 351–360) ermittelte durch Auszählen von 400 Volumeneinheiten
(VE) die folgenden Daten über die Anzahlen von Hefezellen in einer Volumeneinheit bestimmter
Suspensionen:
Anzahl k Anzahl der VE Anzahl der VE

der Hefezellen mit k Hefezellen mit k Hefezellen
(Suspension 1) (Suspension 2)
0 213 103
1 128 143
2 37 98
3 18 42
4 3 8
5 1 4
6 0 2
Man passe jeweils Poisson-Verteilungen an die Datensätze an und prüfe die Güte der Anpassung.
(Man gruppiere in sinnvoller Weise.)
66. In einer Population mögen entsprechend dem Hardy-Weinberg-Gleichgewicht die Genotypen AA,
Aa und aa mit den Wahrscheinlichkeiten θ2 , 2θ(1 − θ) und (1 − θ)2 auftreten. Man hat in einer
Stichprobe außerdem folgende Beobachtungen gemacht:
AA Aa aa
342 500 187
(a) Schätzen Sie θ.
(b) Prüfen Sie die Anpassungsgüte.
67. Eine Schachtel enthält genau n Zettel, die von 1 bis n durchnummeriert sind. Auf dem ersten
Zettel steht also die Zahl “1”, auf dem zweiten Zettel (falls n > 1) die Zahl “2” usw. n ist
unbekannt. Es wird einmal zufällig aus der Schachtel gezogen. Dabei ergibt sich der Wert k.
21
(a) Leiten Sie für diese Situation die Maximum–Likelihood–Schätzung für n (als Ausdruck von
k) her. Was ergibt sich konkret, falls k den Wert 5 hat?
(b) Leiten Sie für diese Situation die Schätzung für n (als Ausdruck von k) nach der Momen-
tenmethode her. Was ergibt sich konkret, falls k den Wert 5 hat?
68. Rot-Grün-Blindheit. Nehmen Sie an, Sie haben eine Zufallsstichprobe aus der Gesamtbevölke-
rung bzgl. der Rot-Grün-Blindheit mit folgendem Resultat:
Männer Frauen
normal 8 324 9 032
R-G-blind 725 40
Sie legen folgendes genetisches Modell zugrunde:

Die Rot-Grün-Blindheit ist rezessiv und wird auf dem X-Chromosom übertragen.
Sei θ die Wahrscheinlichkeit, dass ein gegebenes X-Chromosom “gesund”ist.
Nehmen Sie an, die Wahrscheinlichkeit, dass ein Junge geboren wird, ist gleich 12 .
(a) Verifizieren Sie folgende Wahrscheinlichkeitstabelle:
Männer Frauen
1
normal 2
θ θ(1 − 12 θ)
1 1
R-G-blind 2
(1 − θ) 2
(1 − θ)2
(b) Schätzen Sie θ mit der ML-Methode. Leiten Sie hierzu insbesondere die Likelihoodfunktion
L und die log-Likelihoodfunktion l her, und berechnen Sie die Ableitung von l.
(c) Berechnen Sie die χ2 -Statistik und den P -Wert. Wie groß ist hier die Anzahl der Freiheits-
grade?
(d) Welche Schwierigkeit tritt bei diesem Modell auf?
69. Eine Zufallsgröße besitze eine Verteilung, die durch die Kurve
(
θxθ−1 , 0 < x < 1
f (x) =
0 , sonst
beschrieben wird, wobei θ > 0 ein unbekannter Parameter ist. x1 , . . . , xn sei eine Stichprobe vom
Umfang n, d. h. n unabhängige Beobachtungen der Zufallsgröße.
(a) Mit welcher Wahrscheinlichkeit nimmt die Zufallsgröße einen Wert zwischen 0.5 und 0.9
an, falls θ = 2 ist?
(b) Leiten Sie eine Schätzung für θ auf der Basis der Stichprobe x1 , . . . , xn nach der Maximum–
Likelihood–Methode her.
(c) Leiten Sie eine Schätzung für θ auf der Basis der Stichprobe x1 , . . . , xn nach der Momen-
tenmethode her.
(d) Was ergibt sich nach (b) und (c) konkret für x1 = 0.5, x2 = 0.3, x3 = 0.7?
22
Die folgenden sechs Aufgaben sollen dazu dienen, Ihre Kenntnisse der Linearen Algebra (z. B. aus
der Vorlesung “Mathematische Grundlagen für Wirtschaftswissenschaftler”) aufzufrischen.
70. Sei folgendes Gleichungssystem gegeben:
x1 + x2 = 4
−4x1 + 3x2 + 3x3 = 2
−5x1 – 2x2 – x3 = –2
(a) Schreiben Sie obiges Gleichungssystem in Vektorschreibweise.

(b) Schreiben Sie obiges Gleichungssystem in Matrizenschreibweise
AX = B,
d. h. bestimmen Sie A, X und B.

(c) Durch A aus (b) sei eine Abbildung A : IR3 → IR3 definiert. Berechnen Sie das Bild von
   
2 3
   
X1 =  1  und X2 =  0 
0 1
und zeigen Sie weiterhin, dass
A(X1 + X2 ) = A(X1 ) + A(X2 )
(d) Bestimmen Sie die Maximalzahl linear unabhängiger Zeilen und die Maximalzahl linear
unabhängiger Spalten für die Matrix A.
(e) Finden Sie mit dem Gaußschen Algorithmus eine Lösung des Gleichungssystems.
(f) Existiert die Inverse von A?
Falls ja, geben Sie sie an, und überprüfen Sie Ihr Ergebnis durch
i. Berechnung von AA−1 ,
ii. erneutes Lösen des Gleichungssystems mit Hilfe der Inversen von A.
(g) Ist es möglich, das Matrixprodukt AT A zu bilden? Falls ja, berechnen Sie AT A. Existiert
die Inverse von AT A? Falls ja, berechnen Sie diese Matrix.
71. Bearbeiten Sie Aufgabe 70 mit folgendem Gleichungssystem:
−2x1 + 2x2 – 2x3 = –4

5x1 – 2x2 + 3x3 = 0
x2 – x3 = –1
3x1 + x2 + x3 = 1
der Abbildung A : IR3 → IR4

und den Vektoren    
1 0
   
X1 =  1  , X2 =  −1 
1 1
23
72. Es seien folgende Matrizen gegeben:
   
! 4 0 −2 1
2 0 1 2  1 1   1 1 
   
C= , D1 =   , D2 =  
3 4 0 1  −1 1   1 −1 
−1 0 3 −2
(a) Existieren folgende Matrixprodukte?

i. D1 C
ii. D1 D 2
iii. D1 D2T
iv. (CD1 )D1
(b) Verifizieren Sie: C(D1 + D2 ) = CD1 + CD2 .
Im folgenden sei E = C(D1 + D2 ).
(c) Erklären Sie, ob nachfolgende Gleichungen Sinn ergeben. Falls ja, finden Sie eine Lösung
für X ∈ IR2 .
!
0
i. CX = B1 , B1 = , X ∈ IR2
−4
!
0
ii. EX = B1 , B1 = , X ∈ IR2
−4
(d) Existiert die Inverse von E?
Falls ja, geben Sie diese an, und überprüfen Sie Ihr Ergebnis durch
i. Berechnung von EE −1 ,
ii. erneutes Lösen der Gleichung EX = B1 mit Hilfe der Inversen von E.
(e) Ist es möglich, das Matrixprodukt E T E zu bilden? Falls ja, berechnen Sie E T E. Existiert
die Inverse von E T E? Falls ja, berechnen Sie diese Matrix.
73. Führen Sie Aufgabe 72 mit folgenden Matrizen durch:

   
! 3 2 0 0 −3 1 !
1 0 1    4
C= , D1 =  −2 0 1  , D2 =  2 1 1 
 , B1 = , X ∈ IR3
1 1 0 1
−1 1 2 2 0 1
74. Lassen sich folgende Matrizen miteinander multiplizieren? Falls ja, aus welchem Raum ist das
Produkt?
A B AB
IRn×m IRn×m ?
IRn×m IRm×m ?
IRnm×1 IRn×m ?
IRn×m IR1×n+m ?
IRn×n IRn×m ?
24
75. Verifizieren Sie, dass für
 
! 1 1
3 2 1  
Z= , A= 0 0 
1 4 2
0 2
(Z · A)T = AT Z T und ((Z · A)−1 )T = ((Z · A)T )−1
gilt.
76. Rechnen Sie Beispiel 1 im Vorlesungsskript anhand der gerundeten Werte aus Tabelle 1.1 nach.
Verwenden Sie dabei die in der Statistik I vorgestellten Methoden aus den Kapiteln 10–12 von
Freedman et al., und gehen Sie in folgenden Schritten vor:
(a) Bestimmen Sie die Regressionsgerade für die Vorhersage des Luftdrucks aufgrund des Sie-
depunkts. Erklären Sie, warum bei Achsenabschnitt die größte Abweichung gegenüber den
Ergebnissen, die man aufgrund der exakten Werte erhält, zu erwarten ist.
Berechnen Sie die Residuen Ihrer Regressionsgerade, und kontrollieren Sie Ihr Ergebnis,
indem Sie mit dem Residuenplot in Figur 1.3 vergleichen.
(b) Machen Sie sich zunächst noch einmal klar, warum die Gerade nicht das richtige physika-
lische Modell darstellt.
Wiederholen Sie dann Teil (a) für das von Forbes vorgeschlagene Modell. Lassen Sie dabei
den Ausreißer (Punkt Nr. 12) außer Betracht. Berechnen Sie weiterhin den rms-Fehler.
(c) Überprüfen Sie die Behauptung, dass die eingepasste Gerade auch dann nur unwesentlich
höher zu liegen kommt, wenn der Ausreißer (Punkt Nr. 12) beim Einpassen mitverwendet
wird.
77. Die untenstehende Abbildung zeigt die Residuenplots von vier verschiedenen multiplen Regres-
sionen.
Jedoch deutet nur einer der vier Residuenplots darauf hin, dass das Modell angemessen ist.
Welcher?
Erklären Sie kurz, was bei den anderen drei Residuenplots auf Mängel im Modell schließen lässt.
res2
res1
fitted fitted
res3
res4
fitted fitted
25
78. Es gehe darum, p unbekannte Parameter θ1 , . . . , θp aufgrund von n fehlerbehafteten Beobachtun-
gen y1 , y2 . . . , yn zu schätzen. (Skript zur Kleinste-Quadrate-Regression, Abschnitt 3.1, S. 9ff).
(a) Verifizieren Sie, dass

n p !
X X
−2 yi − xik θk xij = 0, j = 1, . . . , p
i=1 k=1
die notwendige Bedingung dafür ist, dass Θ = (θ1 , θ2 , . . . θp )T die Summe der Residuenqua-
drate !
n p 2
X X
yi − xik θk
i=1 k=1
minimiert.
(b) Zeigen Sie, wie man von
n p !
X X
−2 yi − xik θk xij = 0, j = 1, . . . , p
i=1 k=1
zu den Normalgleichungen
p n
! n
X X X
xij xik θk = xij yi , j = 1, . . . , p
k=1 i=1 i=1
gelangt. Führen Sie weiter aus, wie diese p-Gleichungen in Matrizenschreibweise zu
X T XΘ = X T y
zusammengefasst werden können. Geben Sie dabei die Größe (d. h. die Anzahl der Spalten
und Zeilen) aller beteiligter Matrizen und Vektoren an.
79. Linearität in den Parametern. Eine Kleinste-Quadrate-Regression ist dann besonders einfach
durchzuführen, und die theoretischen Ergebnisse von Kapitel 3 des Skripts gelten immer dann,
wenn das Regressionsmodell in den Parametern linear ist.
Nun seien folgende Modelle für eine multiple Kleinste-Quadrate-Regression mit den Parametern
θ1 , θ2 und θ3 gegeben:
y = θ1 · exp(−θ2 x + θ3 w 2 ) · e
x
y = θ1 + θ2 + θ3 ln w + e
w
y = θ1 + θ2 sin(θ3 x) + e
Dabei seien x und w jeweils gegeben, und e stehe für die (mehr oder weniger) zufälligen Ab-
weichungen.
Entscheiden Sie für jedes der Regressionsmodelle, welche der folgenden Optionen richtig ist.
i. Das Modell ist linear in den Parametern θ1 , θ2 und θ3 .

ii. Das Modell ist zwar nicht linear in den Parametern θ1 , θ2 und θ3 , doch lässt es sich auf
einfache Weise in ein lineares Modell transformieren.
26
iii. Weder i. noch ii. ist richtig.
80. Das arithmetische Mittel als Spezialfall der Kleinste-Quadrate-Regression. Sie werden
damit beauftragt, das arithmetische Mittel der Einkommen der in Bayreuth gemeldeten Personen
zu schätzen. Zu diesem Zweck ziehen Sie eine einfache Zufallsstichprobe von 1 000 Personen.
Statt nun einfach das arithmetische Mittel der Einkommen zu berechnen, schlägt man Ihnen
vor, das folgende Modell zu betrachten:
yi = θ + ei , i = 1, 2, . . . , 1000 ,
wobei yi das Einkommen der i-ten Person in der Zufallsstichprobe ist, θ das unbekannte arithme-
tische Mittel in der Grundgesamtheit aller Personen und die Abweichung ei vom arithmetischen
Mittel dem Ziehen aus einer Fehlerschachtel entspricht.
Verwenden Sie nun die Methoden von Abschnitt 3.1 des Skripts zur Kleinste-Quadrate-Regres-
sion, um eine Formel für den Kleinste-Quadrate-Schätzer θb für das gesuchte arithmetische Mittel
in der Grundgesamtheit zu erhalten.
Gehen Sie dabei wie folgt vor:

(a) Verwenden Sie zunächst die Normalgleichungen θb = (X T X)−1 X T y.
Hinweis: Die Matrix X ist hier von besonders einfacher Gestalt.
(b) Berechnen Sie den Kleinste-Quadrate-Schätzer für dieses Problem nun auch direkt als die
Lösung des Minimierungsproblems (3.2) im Skript auf Seite 11.
Hinweis: Setzen Sie n = 1000 und p = 1.
81. Fehlermodelle. In Abschnitt 3.2 des Skripts werden drei Fehlermodelle (A), (B) und (C) vor-
gestellt.
Die Modelle (B) und (C) sind dabei Spezialfälle von Modell (A), und im Skript ist ausgeführt,
wie man den Effekt von Modell (B) mit Modell (A) erreicht. Beschreiben Sie nun, wie der Effekt
von Modell (C) mit Modell (A) erreicht wird.
82. Fortpflanzung von Beobachtungsfehlern. Der folgende synthetische Datensatz (aus: P. J.
Huber: Robust Statistics, Wiley, New York, 1981, S. 153) illustriert die Situation, die auch in
Figur 3.1 des Skripts gegeben ist.
Beobachtung x y
1 −4 2.48
2 −3 0.73
3 −2 −0.04
4 −1 −1.44
5 0 −1.32
6 10 0.00
Welche der Beobachtungen hat die stärkste Hebelwirkung (englisch: leverage) beim Einpassen
einer Regressionsgeraden?
Betrachten Sie den Graph dieses Datensatzes, und entscheiden Sie sich für eine der sechs Beo-
bachtungen. Berechnen und skizzieren Sie dann die Regressionsgerade von y auf x mit und ohne
Berücksichtigung dieser einen Beobachtung.
Vergleichen Sie auch mit der Situation von Übungsaufgabe 76.
27
83. Zufällige Fehler in den Parameterschätzungen. In Abschnitt 3.4 des Skripts wird erklärt,
wie man bei der multiplen Regression die Größe der zufälligen Fehler in den Parameterschätzun-
gen θbi sowie die Korrelationen zwischen diesen Fehlern schätzt.
Im Spezialfall des Fehlermodells (C) spielt dabei die Kovarianzmatrix der Parameterschätzungen,
die durch
C = σ 2 (X T X)−1
gegeben ist, die entscheidende Rolle.
Führen Sie in diesem Zusammenhang folgende Berechnungen durch:
(a) Ermitteln Sie die Kovarianzmatrix C der Parameterschätzungen für die Daten in Beispiel
2 (Ski-Ausflüge). Erklären und interpretieren Sie das Ergebnis!
(b) Für Beispiel 3 (Bremsweg eines Autos) sind die Standardfehler und die Korrelation der
Parameterschätzungen αb (= θb2 ) und βb (= θb1 ) auf Seite 20 angegeben. Interpretieren Sie
zunächst diese Daten, und geben Sie dann ohne Berechnung von σ 2 und (X T X)−1 die
Kovarianzmatrix C durch entsprechende formale Ausdrücke an.
84. Fehlermodelle und Fehlerschachteln. Ein Testgewicht wird zweimal gewogen. Für die zwei
Messfehler kann von einem Fehlermodell (C) ausgegangen werden, wobei die Fehlerschachtel
−1 −1 2
benutzt wird. In Aufgabe 145 (Statistische Methoden I) wurden hierzu bereits die
Fehlerschachtel (A) sowie deren Mittelwertvektor und Kovarianzmatrix hergeleitet. Stellen Sie
nun die Situation als lineares Modell in Matrixnotation dar, und leiten Sie eine Formel für die
Kleinste–Quadrate–Schätzung des ‘wahren’ Gewichts ab. Benutzen Sie dabei die Notation der
Vorlesung. Wie lautet die Fehlerschachtel (A′ )? Was lässt sich über den Schätzfehler sagen?
85. Zu Beispiel 4 (Autounfälle). Welche der Variablen unter Betracht sind vergleichsweise hoch
(positiv oder negativ) korreliert? Gehen Sie Tabelle 4.3 auf hohe Korrelationen durch, vergleichen
Sie mit der Scatterplot-Matrix in Figur 4.1, und versuchen Sie dann zu interpretieren.
Hinweis: Lesen Sie sorgfältig Kapitel 4 des Skripts und bringen Sie zusätzlich eigene Ideen mit
ein.
86. CP –Statistik von Mallows und Varianzanalyse. Berechnen Sie für die beiden alternativen
Modelle auf Seite 30 des Skripts (Bremsweg eines Autos, 1- und 2-Parameter-Modell) die CP -
Statistik von Mallows (Abschnitt 4.1).
Vergleichen Sie nun mit dem Ergebnis der Varianzanalyse (P = 0.0047 unter der Null-Hypothese
einer rein quadratischen Funktion; Kapitel 5).
Diskutieren Sie Gemeinsamkeiten und Unterschiede dieser beiden Ansätze zur Modellwahl bei
der multiplen Regression!
87. Ein weiteres Beispiel zur multiplen Regression. In der US-amerikanischen Rechtsspre-
chung wird häufig mit Hilfe statistischer Methoden untersucht, ob sich Arbeitgeber der Diskri-
minierung bestimmter Bevölkerungsgruppen schuldig machen (vgl. dazu auch die Aufgaben 45
und 46).
In einem speziellen Fall wurden die Anfangsgehälter aller 474 Personen betrachtet, die in den
Jahren 1969 bis 1971 von einer Bank neu eingestellt worden waren. Ziel war es nun, die abhängige
Variable
LOGBEG Logarithmus des Anfangsgehalts
28
in einer multiplen Kleinste-Quadrate-Regression aufgrund der folgenden unabhängigen Variablen
vorherzusagen:
EDLEVEL Bildungsstand (Anzahl der abgeschlossenen Schul- und Stu-
dienjahre).
SEX Geschlecht (weiblich = 1, männlich = 0)
WORK Berufserfahrung (in Jahren)
MINORITY ethnische Zugehörigkeit (nichtweiß = 1, weiß = 0)
AGE Alter (in Jahren).
Für die Rechnungen wurde das SPSS-Programmpaket verwendet, und die Ergebnisse sind in
den folgenden drei Tabellen zusammengefasst.
Tabelle 1. Korrelationsmatrix.
LOGBEG EDLEVEL SEX WORK MINORITY AGE
LOGBEG 1.000 .686 −.548 .040 −.173 −.048

EDLEVEL .686 1.000 −.356 −.252 −.133 −.281
SEX −.548 −.356 1.000 −.165 −.076 −.052
WORK .040 −.252 −.165 1.000 −.145 .804
MINORITY −.173 −.133 −.076 .145 1.000 .111
AGE −.048 −.281 .052 .804 .111 1.000
Tabelle 2. Kleinste-Quadrate-Schätzer und Standardfehler für die Regressionskoeffizienten (ein-

schließlich eines konstanten Terms) sowie damit verbundene Statistiken.
Variable B SE B Beta T Sig T
AGE 1.015396E−03 6.61324E−04 .07811 1.535 .1254

SEX −.10358 .01032 −.33699 −10.038 .0000
MINORITY −.05237 .01084 −.14157 −4.832 .0000
EDLEVEL .03144 1.74805E−03 .59195 17.988 .0000
WORK 1.607508E−03 9.24066E−04 .09143 1.740 .0826
(Constant) 3.38530 .03323 101.866 .0000
Tabelle 3. Varianzanalyse. Das größere Modell ist das volle Regressionsmodell mit allen sechs
Parametern (wie in Tabelle 2 spezifiziert), das kleinere Modell hat ausschließlich den konstanten
Term.
Multiple R .78420
R Square .61498
Adjusted R Square .61086
Standard Error .09559
Analysis of Variance
DF Sum of Squares Mean Square
Regression 5 6.83039 1.36608
Residual 468 4.27638 0.00914
F=149.50125 Signif F=0.0
29
Versuchen Sie, die Tabellen möglichst vollständig zu verstehen. Geben Sie insbesondere an:
(a) die Regressionsgleichung für LOGBEG,

(b) die Summe SRQ6 der Residuenquadrate im vollen Modell,
(c) den P -Wert bei der Varianzanalyse.
Erklären Sie weiter, was an den folgenden Aussagen nicht richtig ist:
(d) Mit der Korrelationsmatrix ist etwas nicht in Ordnung, denn alle Diagonalelemente sind
identisch gleich 1.0000.
(e) EDLEVEL ist die wichtigste unabhängige Variable bei der Regression, denn sie hat die größte
Korrelation mit LOGBEG.
(f) Das Ergebnis der multiplen Regression ist äußerst zufriedenstellend, denn die mittlere qua-
dratische Abweichung liegt bei 0.00914 und ist somit deutlich kleiner als 1.
(g) σb = 0.00914 ist ein Schätzer für den Standardfehler σ des Regressionsmodells.
88. Fallbeispiel aus der Betriebswirtschaftslehre.

In der Internet-Ausgabe der Financial Times Deutschland vom 08.04.2002 findet Hobby-Statistiker
W. O. in dem Artikel ‘2003 wieder mehr Dividende’ die folgenden Daten über die gezahlten
bzw. geschätzten Dividenden der 30 im DAX vertretenen Unternehmen:
30
geschätzte (gezahlte) (gezahlte)
Unternehmen Dividende 2002 Dividende 2001 Dividende 2000
y X1 X2
Adidas-Salomon 1.10 0.92 0.92

Allianz 2.00 1.50 1.50
BASF 1.30 1.30 1.30
Bayer 1.00 0.90 1.40
HypoVereinsbank 0.85 0.85 0.85
BMW 0.56 0.52 0.46
Commerzbank 0.40 0.40 1.00
DaimlerChrysler 1.00 1.00 2.35
Degussa 1.15 1.10 1.10
Deutsche Bank 1.30 1.30 1.30
Deutsche Lufthansa 0.00 0.00 0.60
Deutsche Post 0.39 0.37 0.27
Deutsche Telekom 0.37 0.37 0.62
Eon 1.65 1.60 1.35
Epcos 0.00 0.00 1.00
Fresenius Med. Care 1.10 0.85 0.91
Henkel 1.20 1.12 1.12
Infineon 0.00 0.00 0.65
Linde 1.55 1.13 1.35
MAN 0.60 0.60 1.00
MLP 0.63 0.53 0.38
Metro 1.39 1.02 1.19
Münchener Rück 1.50 1.25 1.25
Preussag 0.87 0.77 0.77
RWE 1.20 1.00 1.10
SAP 0.53 0.58 1.04
Schering 1.01 0.83 1.00
Siemens 1.10 1.00 1.60
ThyssenKrupp 0.00 0.60 0.75
VW 1.20 1.30 1.20
Genauer handelt es sich bei ‘Dividende 2001 (bzw. 2000)’ um die Dividendenzahlung im Jahr
2002 (bzw. 2001) für 2001 (bzw. 2000). Die Schätzungen betreffen entsprechend die Dividenden-
zahlungen im Jahr 2003 für 2002. Sie stammen von der Deutschen Bank (mit Ausnahme des
Wertes für die Deutsche Bank selbst, der von Thomson Financial/IBES stammt).
(Anmerkung: Die Daten scheinen einige Fehler zu enthalten, z. B. für die BASF-Dividende 2000
oder die MLP-Dividende 2001. Der Vergleich mit anderen Quellen ist aber zusätzlich wegen
Rumpfgeschäftsjahren und Boni erschwert. Deswegen werden zur Vereinfachung und Authenti-
zität die Daten in der hier angegebenen Form zugrunde gelegt.)
31
Hobby-Statistiker W. O. fragt sich, ob man nahezu die gleichen Schätzungen nicht durch ein
ganz einfaches Regressionsmodell beschreiben könnte. Helfen Sie ihm bei seinen Überlegungen!
(a) Er hat zunächst eine einfache Regression von y auf X1 durchgerechnet. Die folgenden Ab-
bildungen zeigen dafür das Streuungsdiagramm und den Residuenplot. (Die in Klammern
gesetzte 3 bedeutet darin, dass der damit versehene Punkt dreimal auftritt.)
Residuenplot
2.0 Streuungsdiagramm
0.2
y (geschaetzte Dividende 2002)
1.5
(3)
0.0
Residuen
1.0
-0.2
0.5 -0.4
-0.6
0.0
(3)
0.0 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0
X1 (Dividende 2001) X1 (Dividende 2001)
(i) Markieren Sie im Streuungsdiagramm und im Residuenplot denjenigen Punkt, den Sie
am ehesten als ‘Ausreißer’ ansehen würden, indem Sie ihn einkreisen, also durch .
Identifizieren Sie die zugehörige Aktiengesellschaft, und geben Sie den Namen an.
(ii) Markieren Sie im Streuungsdiagramm und im Residuenplot denjenigen Punkt, dem
Sie die größte ‘Hebelwirkung’ zuschreiben würden, indem Sie ihn mit einem Kasten
umgeben, also durch ✷. Begründen Sie Ihre Antwort kurz in Stichworten, und geben
Sie auch an, ob es sich bei diesem Punkt um einen ‘Ausreißer’ handelt oder nicht.
(iii) Welches weitere Problem zeigt sich im Residuenplot? Woher könnte es rühren? Ant-
worten Sie kurz - eventuell in Stichworten.
(b) Hobby-Statistiker W. O. ist der Überzeugung, dass die Dividendenfestlegung in zwei Stufen
erfolgt:
Zuerst wird entschieden, ob überhaupt eine Dividende gezahlt werden soll. (Bei ‘mickrigen’
Dividenden verzichtet man lieber darauf.)
Sodann wird (im Falle einer Zahlung) die Höhe festgelegt.
Da es ihm bei seinem Modell nur um die Höhe der Zahlungen geht, schließt er künftig alle
Unternehmen, bei denen bei y, X1 oder X2 an irgendeiner Stelle eine ‘0.00’ auftritt aus
seiner weiteren Untersuchung aus. Außerdem logarithmiert er aus verschiedenen Gründen
die Zahlen für die verbleibenden 26 Aktiengesellschaften. Er geht also zu den neuen Va-
riablen Ly = log(y), LX1 = log(X1 ) und LX2 = log(X2 ) über, wobei log den natürlichen
Logarithmus bezeichnen soll.
Auch hierfür berechnet er wieder eine einfache Regression von Ly auf LX1 . Die folgenden
32
Abbildungen zeigen dafür das Streuungsdiagramm und den Residuenplot.
Streuungsdiagramm Residuenplot
0.2
Ly (log geschaetzte Dividende 2002) 0.5
0.1
0.0
Residuen
0.0
-0.5
-0.1
-1.0 -0.2
-0.7 -0.2 0.3 -0.7 -0.2 0.3

LX1 (log Dividende 2001) LX1 (log Dividende 2001)
Die Diagramme scheinen ihm zwar nicht ideal, aber für seine Zwecke akzeptabel, so dass
er im folgenden die Daten in dieser Form zugrunde legt. Er hat außerdem folgende Größen
berechnet:
Regressionsgerade von Ly auf LX1 : Ly = 1.0658LX1 + 0.1065
Mittelwert der Residuen: 0.0
Standardabweichung der Residuen: 0.11
(i) Welche Vorhersage für den Wert von y würde W. O. für ein Unternehmen machen, das
eine Dividende von X1 = exp((log 1.8 − 0.1065)/1.0658) ≈ 1.57 auszahlte?
(ii) Mit welchem mittleren Fehler muss W. O. bei seinen Vorhersagen für y rechnen, wenn er
zufällig eines der 26 Unternehmen auswählt und dafür y mittels der obigen einfachen
Regressionsgerade von Ly auf LX1 berechnet? Untersuchen Sie ausführlich Art und
(ungefähre) Größe des Fehlers.
(c) (Fortsetzung von Teil (b); die dortigen Angaben sollen weiter gelten.) Außer dem Modell
Ly = θ1 LX1 + θ3 + e (I)
aus Teil (b) mit einer Residuenquadratsumme von 0.3163 hat W. O. auch das Modell
Ly = θ1 LX1 + θ2 LX2 + θ3 + e (II)

durchgerechnet und hierfür eine Residuenquadratsumme von 0.3014 erhalten. Er berechnet
nun die Größe
(0.3163 − 0.3014)
≈ 1.14
0.3014/23
33
Erklären Sie, was er damit beabsichtigt und welchen Schluss er daraus ziehen wird.
(d) W. O. denkt, dass die einfache Regression
Ly = 1.0658LX1 + 0.1065 (III)

aus (b) den Zusammenhang zwischen Ly und LX1 recht brauchbar beschreibt. Er fragt sich
allerdings, ob er sein Modell auch auf andere Jahre übertragen kann. Ein Kollege meint,
dass man dies leicht überprüfen könne, da ja Daten für drei Jahre zur Verfügung stünden,
und schlägt vor, die Beziehungen
Ly = 1.0658LX2 + 0.1065 (IV )
oder
LX1 = 1.0658LX2 + 0.1065 (V )
zu untersuchen. Hat er recht? Welche Beziehung sollte man eher betrachten? Oder sind
beide nicht sinnvoll? Erklären Sie kurz.
(e) W. O. hat für die logarithmierten Variablen folgende Tabelle berechnet:
Nr LX1 LX2 Ly
1 −0.083 −0.083 0.095
... ... ... ...
26 0.262 0.182 0.182
wobei die Spalte ‘Nr’ lediglich die Zeilen zählt. Überprüfen Sie zunächst seine Rechnung.
Weiterhin hat er für diese Daten mittels eines Computerprogramms die Kleinste-Quadrate-
Regression für das Modell
Ly = θ1 LX1 + θ2 LX2 + θ3 + e (V I)
durchgerechnet. Die Berechnung ergab (in der Notation der Vorlesung) folgende Resultate:
   
0.006382 −0.004298 0.000972 1.1283

σc2 (X T X)−1 =  −0.004298 0.005374 −0.000653  und θ =  −0.0781 
 b 

0.000972 −0.000653 0.000652 1.1160
Summe der Residuenquadrate: 0.3014
Ferner darf angenommen werden, dass die üblichen Annahmen für ein Regressionsmodell
erfüllt sind.
(i) Wie groß ist der Korrelationskoeffizient von θb1 und θb3 ?
(Angabe eines mathematisch exakten Ausdrucks genügt; numerische Auswertung oder
Erklärungen sind nicht erforderlich.)
(ii) Wie groß ist der (geschätzte) Standardfehler von θb2 ?
(Angabe eines mathematisch exakten Ausdrucks genügt; numerische Auswertung oder
Erklärungen sind nicht erforderlich.)
34
(iii) Wie lautet die Regressionsgleichung für die Vorhersage von Ly auf der Basis von LX1
und LX2 ?
(Angabe der Gleichung genügt; Erklärungen sind nicht erforderlich.)
(iv) An die Daten wurden außerdem die Modelle
Ly = θ1 LX1 + θ3 + e (V II)
und
Ly = θ2 LX2 + θ3 + e (V III)
angepasst, wobei sich die Residuenquadratsummen 0.3163 (für (V II)) und 2.9154 (für
(V III)) ergaben. Mit Hilfe dieser Daten wurden die Werte der Cp –Statistik von Mal-
lows für alle drei Modelle berechnet, wobei Modell (V I) als das volle Modell fungierte.
Leider sind nur noch zwei dieser Werte erhalten, nämlich (in aufsteigender Reihenfolge)
2.1 und 200.5. Geben Sie – sofern möglich – die Cp -Statistiken für die drei Modelle an.
Falls das nicht möglich ist, geben Sie den Vermerk ‘nicht möglich’ an. (Begründungen
sind nicht erforderlich.) Welches der drei Modelle würde man nach dem Cp –Kriterium
auswählen? (Begründungen sind nicht erforderlich.)
89. Fallbeispiel aus der Ökonometrie.

Insbesondere in der Ökonometrie treten häufig multiple Regressionen auf. Die unten angegebene
Tabelle enthält reale Daten aus den Jahren 1960 - 1985 für die USA (entnommen aus: M. D. In-
triligator/R. G. Bodkin/C. Hsiao: Econometric Models, Techniques, and Applications, 2nd ed.,
Upper Saddle River, 1996, TABLE 3.2, S. 53). Dabei bedeuten:
Y: trillions of dollars of GNP per year
(Bruttonationaleinkommen (‘Bruttosozialprodukt’) in Billionen(!) Dollar)
G: trillions of dollars of government spending per year
(Staatsausgaben in Billionen(!) Dollar).
(a) Verschaffen Sie sich zunächst einen geeigneten Überblick über die Daten.
(b) An die Daten soll insbesondere das Modell
Yt = θ1 Yt−1 + θ2 Gt + θ3 + et (I)
(mit t=1961, . . . , 1985), angepasst werden. Was bedeuten die Komponenten dieses Modells
jeweils inhaltlich und formal? Schreiben Sie das Modell (I) in der Notation der Vorlesung
auf. Wie lauten in diesem Fall X und y?
(c) Eine Computerberechnung ergab:
 
84.274216 18.510259 38.674000
(X X) =  18.510259 4.071460 8.632000 
T 

38.674000 8.632000 25.000000
 
13.947252 −65.925194 1.186810
(X T X)−1 =
 −65.925194 312.528601 −5.926237 

1.186810 −5.926237 0.250263
35
 
91.832084
T  
X y =  20.176344 
42.185000
Residuenquadratsumme: SRQ = 0.0638307.
Ermitteln Sie hieraus die Kleinste-Quadrate-Schätzung für den Vektor θ. Wozu lässt sich
diese Schätzung verwenden?
(d) Welchen Wert sagt das Modell für das Jahr 1985 voraus? Wie groß ist das entsprechende
Residuum? Was halten Sie von dem Vorschlag, den fehlenden Wert G1960 durch ‘Auflösen’
der entsprechenden Gleichung zu ermitteln?
(e) Berechnen Sie die Schätzungen für den Wert σ und für die Kovarianzmatrix der Schätzun-
gen. Was besagen diese Größen?
(f) Betrachten Sie die einzelnen Koeffizienten θi im Detail. Was lässt sich darüber sagen? Was
bedeutet dies?
(g) Betrachten Sie schließlich auch weitere Modelle neben dem Modell (I), insbesondere das
Modell
Yt = θ1 + et . (II)
Welche Überlegungen lassen sich hieran anknüpfen? Was sind Ihre Schlussfolgerungen?
Welche Probleme sehen Sie gegebenenfalls?
(h) Wie lassen sich jeweils die Modellannahmen am besten überprüfen? Was stellen Sie fest?
Jahr Y G
1960 .504 –
61 .520 .108
62 .560 .117
63 .589 .123
64 .629 .128
65 .685 .137
66 .750 .157
67 .790 .178
68 .864 .200
69 .930 .210
1970 .982 .219
71 1.063 .234
72 1.171 .253
73 1.307 .270
74 1.434 .304
75 1.549 .340
76 1.718 .362
77 1.918 .394
78 2.164 .432
79 2.418 .474
1980 2.732 .530
81 3.053 .588
82 3.166 .642
83 3.406 .675
84 3.772 .736
85 4.015 .821
36
Wiederholung und Ergänzungen
90. Wahr oder falsch? Kennzeichnen Sie jede der folgenden Aussagen als “wahr” oder “falsch”,
und erklären Sie.
(a) Bei Signifikanztests wird festgestellt, ob die Nullhypothese richtig ist.

(b) Da beim Wilcoxon-Rangsummentest nur die Ränge, nicht aber die tatsächlichen Werte der
Beobachtungen eine Rolle spielen, geht stets etwas Information verloren.
(c) Der Wilcoxon-Rangsummentest sollte nur dann durchgeführt werden, wenn das Histo-
gramm für keinen der beiden zu vergleichenden Datensätze einer Normalverteilungsdichte
folgt.
(d) Selbst wenn die Nullhypothese richtig ist, werden von 1 000 Signifikanztests etwa 50 ein
statistisch signifikantes Ergebnis liefern.
(e) Ist das Ergebnis eines Signifikanztests statistisch hochsignifikant, so ist es auch wichtig.
(f) Für einseitige t-Tests muss beim Nachschlagen des P -Werts eine andere Tabelle benutzt
werden als für zweiseitige.
(g) Wenn man nur den Stichprobenumfang hinreichend groß macht, so werden auch beliebig
kleine – und damit praktisch bedeutungslose – Unterschiede statistisch signifikant.
91. Ein Zigarettenhersteller behauptet, dass seine Zigarettenmarke “Supersmoke” einen Teergehalt
von 10 mg/Stück aufweist. Zehn unabhängige Versuche liefern die Messungen
10.1, 10.3, 9.9, 10.5, 9.8, 10.4, 10.3, 10.3, 10.2, 10.1 .
Man kann annehmen, dass diese Werte aus einer Normalverteilung mit unbekanntem Mittelwert
und Standardabweichung 0.2 stammen. Was halten Sie von der Behauptung?
92. Hobby-Statistiker W. O. hat von einem Vogelkundler die folgenden Daten über die Anzahl von
Eiern in Vogelnestern einer bestimmten Spezies erhalten:
Anzahl k der Eier 1 2 3 ≥4

Anzahl der Nester mit k Eiern 90 60 30 50
(Da die Nester nicht zerstört werden sollten, hat der Vogelkundler im Falle von “≥ 4” die exakte
Zahl der Eier nicht feststellen können.) W. O. vermutet, dass sich die Anzahl X der Eier in
Nestern dieser Vogelart gut durch die Verteilung mit den Wahrscheinlichkeiten
P (X ≥ k) = (1 − p)k−1 (∗)
für k = 1, 2, . . .darstellen lässt, wobei p ein geeigneter Parameter ist.
(a) Wie groß ist bei Vorliegen der Verteilung (*) die Wahrscheinlichkeit, genau k Eier vorzu-
finden? Leiten Sie einen einfachen Ausdruck dafür — also für P (X = k) — her. (Hinweis:
Betrachten Sie P (X ≥ k) und P (X ≥ k + 1).)
(b) Leiten Sie für die obigen Daten die Maximum-Likelihood-Schätzung p̂ für p her.
37
93. Hobby-Statistiker W. O. muss einen Wilcoxon-Test mit den Stichprobenumfängen n = 2 (für
die kleinere Stichprobe) und m = 2 (für die größere Stichprobe) durchführen. Leider beginnen
unsere Tafeln erst bei den Werten n = 3 und m = 3. Helfen Sie daher W. O., indem Sie die
folgende Tafel für n = 2 und m = 2 vervollständigen. (Hinweis: Die Tafel soll im Aufbau unseren
Tafeln entsprechen und die Werte P (Wxy ≤ a) angeben.)
n a m=2
2 0
94. Um die Qualität des neuen Waschmittels SUPERWEISS zu demonstrieren, wurden 13 ver-
schmutzte Wäschestücke jeweils in zwei Hälften geteilt. Durch Randomisierung wurde dann eine
Hälfte ausgewählt, die mit SUPERWEISS gewaschen wurde. Die andere Hälfte des (gleichmäßig
verschmutzten) Wäschestücks wurde mit einem Vergleichswaschmittel gewaschen. Anschließend
wurde von einer Jury für die 13 Paare eine Wertung vorgenommen, ob die mit SUPERWEISS
gewaschene Hälfte sauberer (Wertung: “+”) oder weniger sauber (Wertung: “–”) war oder ob
kein Unterschied festzustellen war (Wertung: “0”). Es ergaben sich folgende Resultate:
Wäschestück 1 2 3 4 5 6 7 8 9 10 11 12 13
Wertung + + – + 0 + + + + + – + +
(a) Der Hersteller von SUPERWEISS möchte nachweisen, dass SUPERWEISS besser ist. Wie
lautet in diesem Fall die Nullhypothese und die Alternative? (Geben Sie diese jeweils rein
verbal und mittels eines statistischen Parameters an.)
(b) Welchen Test wird man verwenden? Geben Sie den Namen des Testes an.
(c) Führen Sie den Test durch, und geben Sie Ihr Ergebnis für den P-Wert an.
95. Hobby–Statistiker W. O. vermutet, dass die Klausurergebnisse in einem Statistikkurs, den er

mit drei verschiedenen Übungsgruppen abhält, nach den Übungsgruppen differieren. Genauer
geht er davon aus, dass für die Übungsgruppe j (mit j=1, 2 oder 3) das Modell
y = θj + e (1)
zutrifft, wobei y das Klausurresultat eines Teilnehmers und e einen zufälligen Fehler bezeichnet.
Er hat gerade eine Stichprobe vom Umfang n1 aus der ersten Übungsgruppe, eine Stichprobe
38
vom Umfang n2 aus der zweiten Übungsgruppe und eine Stichprobe vom Umfang n3 aus der
dritten Übungsgruppe gezogen. Die y–Werte hat er dabei in der Reihenfolge der Gruppen notiert,
also zunächst die n1 Werte aus Gruppe 1, dann die n2 Werte aus Gruppe 2 und schließlich die
n3 Werte aus Gruppe 3. Im folgenden sei außerdem n = n1 + n2 + n3 .
(a) W. O. benutzt das Modell
yi = xi1 θ1 + xi2 θ2 + xi3 θ3 + ei (2)
(mit i=1, . . . , n), um die drei Teilmodelle aus (1) gemeinsam zu erfassen. Geben Sie für diese
Situation (und mit den Notationen der Vorlesung) an, wie er die Werte xij (für i=1, . . . , n
und j=1,2,3) wählen muss.
(b) Wie sehen y und die Matrix X aus, wenn W. O. das Modell (2) in Matrizenschreibweise
y = Xθ + e (3)
aufschreibt?
(c) Geben Sie die Kleinste-Quadrate-Schätzung θ̂ von θ für diese Situation an.
(d) Welche Interpretation für die Schätzungen θˆj (j=1,2,3) kann man angeben?
96. Betrachtet werden (hier nicht vollständig wiedergegebene) Daten der Form
Nr X1 X2 Y
1 2.5 1000 5839
... ... ... ...
10 10.5 2200 19929
wobei die Spalte ‘Nr’ lediglich die Zeilen zählt. Die Korrelationsmatrix der Variablen X1 , X2
und Y lautet:
X1 X2 Y
X1 1.00000 0.99067 0.99226
X2 0.99067 1.00000 0.99126
Y 0.99226 0.99126 1.00000
Für diese Daten wurden mittels eines Computerprogramms verschiedene Kleinste-Quadrate-

Regressionen durchgerechnet. Dabei wird die Notation der Vorlesung verwendet.
(i) Für das Modell

Y = θ1 X1 + θ2 X2 + θ3 + e (I)
ergab sich die Regressionsgleichung
Y = 1131.03X1 + 4.00X2 − 1806.82
und die Residuenquadratsumme 19303908. Ferner war:

 
0.13749 −0.00059896 0.19007

(X T X)−1 =  0.0000026586 −0.00095863 

7.0823
(Die Werte unterhalb der Diagonale ergeben sich durch Symmetrie.)
39
(ii) Für das Modell
Y = θ1 X1 + θ2 + e (II)
Y = 2032.53X1 − 363.98
und die Residuenquadratsumme war 25326684.

(iii) Für das Modell
Y = θ1 + e (III)
Y = 20245.9
und die Residuenquadratsumme 1643034084.
Betrachten Sie nun das Modell
Y = θ1 X1 + θ2 X2 + θ3 + e (I)
(a) Berechnen Sie die Standardfehler (SE) und die t-Werte der Schätzungen θc1 , θc2 und θc3 , und
stellen Sie diese in der folgenden Tabelle übersichtlich dar. (Angabe der fehlenden Werte
genügt; Erklärungen sind nicht erforderlich.)
Variable Schätzung SE t-Wert
X1 1131.03
X2 4.00
Abschnitt -1806.82
(b) Betrachten Sie die Tabelle aus (a). Welche der Koeffizienten θc1 , θc2 und θc3 sind nach dem
t-Kriterium (einzeln betrachtet)1 signifikant (zum Niveau 5%) von Null verschieden?2 Wel-
ches dieser Modelle würden Sie aufgrund dieses Kriteriums bevorzugen?
(c) Prüfen Sie mittels eines exakten Testes zum Niveau 5% durch Vergleich des Modells (III)
mit dem Modell (I), ob das Modell (III) bereits zur Erklärung der gefundenen Daten
ausreicht.2
(d) Manchmal wird behauptet, Variablen, deren geschätzte Koeffizienten nach dem t-Kriteri-
um nicht signifikant von Null verschieden sind, wären in der Modellgleichung überflüssig
und sollten einfach weggelassen werden. Diskutieren Sie diese Auffassung kurz im Hinblick
auf die Ergebnisse zu (b) und (c) und die sonstigen Angaben zu dieser Aufgabe. (Die
Problematik des multiplen Testens kann hier wieder vernachlässigt werden.)
(e) Berechnen Sie die Cp -Statistik von Mallows für die Modelle (I) und (III).2 Welches dieser
Modelle würden Sie aufgrund dieses Kriteriums bevorzugen?
1
Multiples Testen kann hier außer acht gelassen werden.
2
Führen Sie alle Einzelschritte explizit und in sauberer Darstellung auf, und halten Sie das Ergebnis deutlich fest.
40

Aufgabensammlung So Se 21

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Aufgabensammlung So Se 21

Hochgeladen von

Copyright:

Verfügbare Formate

MATHEMATISCHES INSTITUT SoSe 2021

DER UNIVERSITÄT BAYREUTH

10822 Statistische Methoden II

r/r ergibt rote Blüten

Also ist weder r noch w dominant; der Erbgang ist intermediär.

breit × breit −→ 100 % breit

unter den Hybriden der zweiten Generation? Begründen Sie ausführlich.

11. Ein Signifikanztest hat Sinn, wenn diskutiert wird.

(b) In der Schachtel gibt es für jede(n) einen Zettel.

Optionen: i. Person in der Stichprobe

Optionen: 8 270 8 269 8 267

Optionen: i. aus den Daten geschätzt.

(h) Die beobachtete Anzahl der Frauen ist .

Optionen: i. die Summe

(l) Der Standardfehler für die Anzahl der Frauen ist .

Optionen: i. aus den Daten geschätzt.

(a) mit 8 Freiheitsgraden links von 2.31.

40, 35, 36, 41, 38.

Number of births in New York, August 1-25, 1966

1 Mon. 451 15 Mon. 451

(a) Ist die folgende Aussage wahr oder falsch?

26. Rechnen mit Taschenrechnern

Aus F. Wille: Humor in der Mathematik.

Merkur Venus Mars Jupiter Saturn Uranus Neptun

Erster Durchgang Zweiter Durchgang

Ist dies eine geeignete Methode?

(i) Dies ist völlig unmöglich.

(a) Repräsentiert das Histogramm Daten oder Wahrscheinlichkeiten?

Y Y < 10 10 ≤ Y < 20 20 ≤ Y < 30 30 ≤ Y < 40 Y ≥ 40

39. Wahr oder falsch?

Hinweis: Zwei solche Möglichkeiten sind beispielsweise Y Y Y XY X und Y Y Y Y XX.

“Der Mittelwert der Schachtel ist 1.0 ”

gegen die Alternative

“Der Mittelwert der Schachtel ist 2.0”.

Wie groß ist die Wahrscheinlichkeit für einen Fehler 2. Art?

(a) Was ist das Signifikanzniveau des Tests?

Gab es unterschiedlich starke Wählerwanderungen von A nach B bzw. umgekehrt?

59. In einer Statistikklausur hat Hobby–Statistiker W. O. die folgende Aufgabe gestellt:

98.3 95.0 95.8 96.5 95.7 92.2 95.1

Man prüfe mit dem Wilcoxon-Rangsummentest, ob die Korngrößenverteilungen übereinstimmen.

Anzahl k der Mädchen Anzahl der Familien mit k Mädchen

203.6 198.1 200.4 .

(a) Versuchen Sie, die Mittelwerte den drei Serien zuzuordnen.

(aus: Schwedenpunsch. noch ungeschriebener, künftiger Bestseller, Eigenverlag.)

Anzahl k Anzahl der VE Anzahl der VE

Sie legen folgendes genetisches Modell zugrunde:

(a) Verifizieren Sie folgende Wahrscheinlichkeitstabelle:

70. Sei folgendes Gleichungssystem gegeben:

(a) Schreiben Sie obiges Gleichungssystem in Vektorschreibweise.

d. h. bestimmen Sie A, X und B.

und zeigen Sie weiterhin, dass

A(X1 + X2 ) = A(X1 ) + A(X2 )

71. Bearbeiten Sie Aufgabe 70 mit folgendem Gleichungssystem:

−2x1 + 2x2 – 2x3 = –4

der Abbildung A : IR3 → IR4

(a) Existieren folgende Matrixprodukte?

Im folgenden sei E = C(D1 + D2 ).

73. Führen Sie Aufgabe 72 mit folgenden Matrizen durch:

(a) Verifizieren Sie, dass

gelangt. Führen Sie weiter aus, wie diese p-Gleichungen in Matrizenschreibweise zu

i. Das Modell ist linear in den Parametern θ1 , θ2 und θ3 .

Gehen Sie dabei wie folgt vor:

Führen Sie in diesem Zusammenhang folgende Berechnungen durch: