Sie sind auf Seite 1von 40

MATHEMATISCHES INSTITUT SoSe 2021

DER UNIVERSITÄT BAYREUTH

Aufgabensammlung zu

10822 Statistische Methoden II

1. In einer bestimmten Stadt sind 10 000 Wohnungen zu vermieten. Ein örtlicher Wohnungsmakler
führt eine Stichprobenuntersuchung an einer einfachen Zufallsstichprobe (simple random sample)
von 400 solcher Wohneinheiten durch. Die 400 Monatsmieten haben ein arithmetisches Mittel
von 750 EUR und eine Standardabweichung von 260 EUR. Das Histogramm der monatlichen
Mieten folgt dabei nicht der Normalverteilungsdichte.

(a) Falls möglich, bestimmen Sie ein 68 %-Konfidenzintervall für das arithmetische Mittel der
Monatsmieten in der Stadt. Falls dies nicht möglich ist, erklären Sie, warum.
(b) Wahr oder falsch, und erklären Sie: Bei ungefähr 68 % der Mietwohnungen in der Stadt
liegt die Monatsmiete zwischen 490 EUR und 1 010 EUR.

2. Eine Schachtel enthält 10 000 Zettel. Sie ziehen 400-mal mit Zurücklegen. Die Ziehung hat einen
Mittelwert von 71.3 und eine Standardabweichung von 2.0. Wahr oder falsch? Erklären Sie.

(a) Ungefähr 68 % der Zettel in der Schachtel haben Werte zwischen 71.2 und 71.4.
(b) Die Zahl 71.3 ist eine Schätzung für den Mittelwert der Schachtel, wobei diese Zahl ver-
mutlich ungefähr 0.1 daneben liegt.
(c) Ein approximatives 68 %-Konfidenzintervall für den Mittelwert der Schachtel ist 71.3 ± 0.1.

Beantworten Sie (a) bis (c) auch für den Fall, dass ohne Zurücklegen gezogen wird.

3. 1987 betrug die mittlere Tageshöchsttemperatur am San Francisco Airport 66.6◦ F mit einer
Standardabweichung von 8.4◦ F. Nun ist

365 × 8.4 ≈ 160 und 160/365 ≈ 0.4.

Wahr oder falsch? Das approximative 95-%-Konfidenzintervall für die mittlere Tageshöchsttem-
peratur am San Francisco Airport lautet 66.6 ± 0.8◦ F. Erklären Sie kurz.

4. Die Blütenfarbe des Löwenmauls wird durch ein bestimmtes Genpaar kontrolliert. Es gibt zwei
Varianten des Gens, r (für rot) und w (für weiß). Die Regeln für die Vererbung sind wie folgt:

r/r ergibt rote Blüten


r/w und w/r ergeben rosa Blüten
w/w ergibt weiße Blüten

Also ist weder r noch w dominant; der Erbgang ist intermediär.

1
(a) Bestimmen Sie die zu erwartenden Anteile rot-, rosa- und weißblühender Pflanzen, die sich
aus den folgenden Kreuzungen ergeben:
weiß × rot, weiß × rosa, rosa × rosa.
(b) Wie groß ist die Wahrscheinlichkeit, dass von 400 Pflanzen aus rosa × rosa Kreuzungen
zwischen 190 und 210 rosa Blüten haben?

5. Das Löwenmaul gibt es in drei verschiedenen Blattvarianten: Breit, mittel und schmal. In Zucht-
versuchen hat man die folgenden Ergebnisse erhalten:

breit × breit −→ 100 % breit


breit × mittel −→ 50 % breit, 50 % mittel
breit × schmal −→ 100 % mittel
mittel × mittel −→ 25 % schmal, 50 % mittel, 25 % breit

(a) Entwickeln Sie ein genetisches Modell, das diese Ergebnisse erklärt.
(b) Welche Ergebnisse erwarten Sie für die oben nicht erwähnten Kreuzungen
mittel × schmal und schmal × schmal?

6. Die Augenfarbe wird beim Menschen durch ein Genpaar bestimmt, wobei blau rezessiv ist und
braun dominant.
In einer bestimmten Familie hat der Mann braune Augen, stammt jedoch von einem Vater mit
blauen Augen ab. Die Frau hat blaue Augen. Das Paar wünscht sich drei Kinder.
Wie groß ist die Wahrscheinlichkeit, dass alle drei Kinder braune Augen haben werden?

7. Mendel bemerkte, dass Erbsensamen entweder glatt oder runzelig sind. Er züchtete eine “glatte”
Sorte und eine “runzlige” Sorte heran und kreuzte dann die reinrassigen Erbsen. Die Samen der
Hybriden der ersten Generation waren alle glatt.
Durch Kreuzung der Hybriden der ersten Generation züchtete Mendel nun Hybriden der zweiten
Generation heran. Unter diesen hatten 5 474 glatte Samen und 1 850 runzlige Samen.

(a) Entwickeln Sie ein genetisches Modell, das diese Ergebnisse erklärt.
(b) Wenn Ihr Modell richtig ist, wie groß ist dann die Wahrscheinlichkeit, dass die beobach-
tete Häufigkeit der “glatten” Sorte mindestens so nahe an der theoretisch zu erwartenden
Häufigkeit liegt wie in Mendels Versuch beobachtet?

8. In einem seiner berühmten Versuche kreuzte Gregor Mendel reinrassige Erbsen, die runde gelbe
Samen haben, mit reinrassigen Erbsen, die kantige grüne Samen haben.

Die aus dieser Kreuzung hervorgegangenen Erbsen, die Hybriden der ersten Generation, hatten
alle runde gelbe Samen. In bezug auf beide angesprochenen (unabhängigen) Merkmale handelt
es sich also um einen dominant-rezessiven Erbgang.

Im weiteren Verlauf des Versuchs kreuzte Mendel die Hybriden der ersten Generation unterein-
ander und erhielt so die Hybriden der zweiten Generation.

In welchen Anteilen (Prozentsätzen) erwarten Sie nun die vier verschiedenen möglichen Merk-
malskombinationen der Samen

2
rund & gelb rund & grün kantig & gelb kantig & grün

unter den Hybriden der zweiten Generation? Begründen Sie ausführlich.

9. Ein Reißnagel wird in die Luft geworfen. Er landet entweder mit der Spitze nach oben oder mit
der Spitze nach unten.

Jemand schlägt das folgende Schachtelmodell vor: Zufälliges Ziehen mit Zurücklegen aus der
Schachtel

U O

wobei U “Spitze nach unten” und 0 “Spitze nach oben” bedeutet. Jemand anders schlägt vor,
für das zufällige Ziehen die Schachtel

U O U

zu benutzen.
Wie können Sie entscheiden, welche Schachtel besser ist?

10. (a) Sie würfeln 60mal, und die Zahl der Sechsen ist gleich 12.
Welche Anzahl würden Sie bei 60 Würfen mit einem fairen Würfel erwarten?
Kann die beobachtete Abweichung vom erwarteten Wert als zufällige Schwankung inter-
pretiert werden, oder ist der Würfel gezinkt?
(b) Dieselben Fragen, wenn Sie 1 200mal würfeln und die Zahl der Sechsen gleich 240 ist.

11. Ein Signifikanztest hat Sinn, wenn diskutiert wird.


Füllen Sie die Lücke mit einer der beiden Optionen, und erklären Sie kurz.

i. ein Datensatz
ii. ein Modell für einen Datensatz

12. Welche der folgenden Aussagen sind wahr? Erklären Sie jeweils kurz.

(a) Die Alternativhypothese ist eine andere Möglichkeit, die Ergebnisse zu erklären; sie besagt,
dass der Unterschied zufälligen Schwankungen zuzuschreiben ist.
(b) Der P -Wert eines Tests ist gleich dem beobachteten Signifikanzniveau.
(c) Das beobachtete Signifikanzniveau hängt von den Daten ab.
(d) Wenn P = 95 % ist, ist die Nullhypothese plausibel.
(e) Wenn P = 0.95 % ist, ist die Nullhypothese wenig plausibel.

3
(f) Wenn das beobachtete Signifikanzniveau 4 % ist, dann ist das Ergebnis “statistisch signifi-
kant”.
(g) Ein “statistisch hoch signifikantes” Ergebnis kann unmöglich auf zufälligen Schwankungen
beruhen.
(h) Wenn ein Unterschied “statistisch hoch signifikant” ist, ist die Wahrscheinlichkeit, dass die
Nullhypothese richtig ist, kleiner als 1 %.

13. Im Rahmen einer Studie befragte ein Marktforscher im Sommersemester 1993 die ersten 100
Studierenden, die er an einem Vormittag auf dem Platz vor der Mensa der Universität Bayreuth
antraf. Seine Stichprobe enthielt 49 Frauen und 51 Männer. Der Marktforscher geht davon
aus, dass sein Auswahlverfahren im Wesentlichen dem Ziehen einer einfachen Zufallsstichprobe
(simple random sampling) entspricht.

Überprüfen Sie seine Annahme in den nun folgenden Schritten (a) bis (n):

(a) Laut Vorlesungsverzeichnis WS 93/94 (S. 328) waren zum 24.06.1993 insgesamt 8 270 Stu-
dierende an der Universität Bayreuth eingeschrieben. Der Frauenanteil betrug ca. 37 % .
Welches Problem stellt sich bei der Aufschlüsselung der Studierenden nach Studienfächern?

Füllen Sie im folgenden die Lücken. Sie entwickeln Schritt für Schritt ein Schachtelmodell für
die Nullhypothese “simple random sampling”.

(b) In der Schachtel gibt es für jede(n) einen Zettel.

Optionen: i. Person in der Stichprobe


ii. Studierenden an der Universität Bayreuth

(c) Die Zettel werden für Männer mit und für Frauen mit einer 1 gekenn-
zeichnet.
(d) Die Anzahl der Zettel in der Schachtel ist und die Anzahl der Ziehungen ist
.

Optionen: 8 270 8 269 8 267


8 374 100 82.7 %

(e) Die Nullhypothese besagt, dass die Stichprobe wie das -fache zufällige Ziehen
Zurücklegen aus der Schachtel ist.
(f) Der Anteil der Zettel in der Schachtel, die mit einer 1 gekennzeichnet sind, ist gleich %.
(g) Dieser Anteil ist .

Optionen: i. aus den Daten geschätzt.


ii. durch die Nullhypothese gegeben.

Nun ist das Schachtelmodell komplett. Sie berechnen weiter Schritt für Schritt die beobachteten
Werte von z und P .

(h) Die beobachtete Anzahl der Frauen ist .


(i) Die erwartete Anzahl der Frauen ist .
(j) Dieser Erwartungswert wird .

4
Optionen: i. aus den Daten geschätzt.
ii. durch die Nullhypothese gegeben.

(k) Wenn die Nullhypothese richtig ist, verhält sich die Anzahl der Frauen in der Stichprobe
wie der Ziehungen aus der Schachtel.

Optionen: i. die Summe


ii. das arithmetische Mittel

(l) Der Standardfehler für die Anzahl der Frauen ist .


(m) Dieser Standardfehler wird .

Optionen: i. aus den Daten geschätzt.


ii. durch die Nullhypothese gegeben.

(n) z = und P = .

War das Verfahren des Marktforschers nun im Wesentlichen wie simple random sampling?
Antworten Sie mit ja oder nein, und erklären Sie kurz.

14. Bestimmen Sie die Fläche unter der Dichte der t-Verteilung

(a) mit 8 Freiheitsgraden links von 2.31.


(b) mit 12 Freiheitsgraden rechts von −1.36.
(c) mit 18 Freiheitsgraden zwischen −1.73 und 1.73.
(d) mit 25 Freiheitsgraden zwischen 0 und 2.49.

15. Der Reifenhersteller “RASESCHNELL” behauptet, seine Reifen würden 40 TKM (tausend Ki-
lometer) laufen. Eine Verbraucherorganisation möchte diese Behauptung überprüfen und hat
eine Zufallsstichprobe von 5 Reifen testen lassen. Dabei ergaben sich folgende Werte (in TKM):

40, 35, 36, 41, 38.

Es ist bekannt, dass derartige Werte aus einer Normalverteilung stammen; deren Mittelwert µ
und deren SD sind jedoch nicht bekannt.

(a) Geben Sie die Nullhypothese und Alternative an. (Verwenden Sie dabei eine Kurznotation,
wie z. B. “Nullhypothese: µ = 20; Alternative: µ > 20”.)
(b) Welcher Test sollte hier benutzt werden? Geben Sie den Namen des Testes an.
(c) Führen Sie den Test durch, und geben Sie ihr Ergebnis an.

16. Am 9. November 1965 fiel in New York der Strom aus, und erst einen Tag später war die Ver-
sorgung wieder hergestellt.
Neun Monate später berichteten die Zeitungen, dass New York einen “Babyboom” erlebe. Die
Tabelle unten zeigt die täglichen Geburten in New York vom 1. bis 25. August 1966. Das arith-
metische Mittel liegt bei 436, was für New York nicht außergewöhnlich hoch ist.
Dennoch ist eine interessante Beobachtung zu machen: An den drei Sonntagen unter Betracht
gab es im arithmetischen Mittel nur 357 Geburten. Wie wahrscheinlich ist es, dass bei drei zufällig

5
aus der Tabelle ausgewählten Tagen das arithmetische Mittel bei 357 oder weniger liegt? Was
schließen Sie?

Number of births in New York, August 1-25, 1966


Date Day Number Date Day Number

1 Mon. 451 15 Mon. 451


2 Tues. 468 16 Tues. 497
3 Wed. 429 17 Wed. 458
4 Thur. 448 18 Thur. 429
5 Fri. 466 19 Fri. 434
6 Sat. 377 20 Sat. 410
7 Sun. 344 21 Sun. 351
8 Mon. 448 22 Mon. 467
9 Tues. 438 23 Tues. 508
10 Wed. 455 24 Wed. 432
11 Thur. 468 25 Thur. 426
12 Fri. 462
13 Sat. 405
14 Sun. 377

17. Neue Produkte werden oft zu besonders günstigen Einführungspreisen angeboten, um die Kun-
den zum Ausprobieren zu bewegen. Ein Team von Psychologen vermutete jedoch, dass diese
Praxis den Verkaufserfolg neuer Produkte eher mindert als fördert. In Zusammenarbeit mit ei-
ner Ladenkette führten die Psychologen daher einen entsprechenden Versuch durch (A.N. Doob
et al., Journal of Personality and Social Psychology 11 (1969), S. 345-350).
25 Paare von Ladengeschäften, die sich in allen wichtigen Eigenschaften sehr ähnlich waren,
wurden ausgesucht. Alle 50 Geschäfte führten schließlich zum gleichen Zeitpunkt eine neue Sor-
te von Keksen ein.
Von jedem Paar wurde in einem zufälligen Verfahren ein Geschäft ausgewählt, das die Kek-
se zu einem besonders niedrigen Preis einführte und erst zwei Wochen später zum regulären
Preis überging. Das jeweils andere Geschäft verlangte von Anfang an den regulären Preis. Sechs
Wochen nach Einführung des neuen Produkts wurden die verkauften Mengen in den einzelnen
Geschäften ermittelt.
In 18 der 25 Paare hatte das Geschäft, das von Beginn an den regulären Preis verlangt hatte,
mehr von dem neuen Produkt verkauft als das jeweils andere Geschäft.
Kann dieses Ergebnis als zufällige Schwankung erklärt werden? Oder unterstützt es die The-
se der Psychologen, dass günstige Einführungspreise den Verkaufserfolg neuer Produkte über
längere Zeiträume mindern?

18. Buchhandlungen finden Bildung gut, weil Daten aus den USA zeigen, dass 75 % der Hoch-
schulabsolventen in den vergangenen sechs Monaten ein Buch gelesen haben – im Vergleich zu
50 % bei der Gesamtbevölkerung über 18 Jahre. Die Daten zeigen, dass das durchschnittliche
Bildungsniveau der über 18jährigen bei 13 absolvierten Schuljahren liegt mit einer Standard-
abweichung von 4 Jahren. Eine Buchhandlung zieht in einem bestimmten Verwaltungsbezirk
eine Stichprobe von 1 000 Personen über 18. Es ergibt sich ein mittleres Bildungsniveau von 14
Jahren mit einer Standardabweichung von 5 Jahren. Kann der Unterschied im Bildungsniveau
zwischen der Stichprobe und den gesamten USA durch zufällige Abweichung erklärt werden?
Wenn nicht, welche andere Erklärung gibt es?

19. Die Post eines Landes plant eine Gebührenerhöhung für eine bestimmte Dienstleistung, die
bislang von 80 % ihrer Kunden regelmäßig in Anspruch genommen wird. Falls dieser Anteil

6
durch die Gebührenerhöhung nicht absinken würde, möchte man die Gebühren erhöhen. Die
Entscheidung soll auf der Basis einer Stichprobe fallen.

(a) Formulieren Sie für dieses Beispiel eine geeignete Nullhypothese und eine geeignete Alter-
nativhypothese.
(b) Beschreiben Sie kurz mit eigenen Worten, worin dann das Risiko, einen Fehler 1. Art zu
begehen, besteht.
(c) Beschreiben Sie kurz mit eigenen Worten, worin dann das Risiko, einen Fehler 2. Art zu
begehen, besteht.

20. Ein Programmierer behauptet, dass sein Zufallszahlengenerator CHANCE die Werte “0” und “1”
unabhängig voneinander mit den Wahrscheinlichkeiten 0.4 (für “0”) und 0.6 (für “1”) erzeugt.
Hobby-Statistiker W. O. vermutet, dass diese Wahrscheinlichkeiten stattdessen in Wirklichkeit
0.6 (für “0”) und 0.4 (für “1”) betragen. Er möchte dies auf der Basis von 4 durch CHANCE
erzeugten Zufallswerten prüfen. Ermitteln Sie für diese Situation den Verwerfungsbereich eines
einfachen (nichtrandomisierten) Tests, der höchstens das Niveau 3 % haben soll. Wie groß ist
dann die Wahrscheinlichkeit für einen Fehler 2. Art?
21. (a) In einer Waschmittelfabrik wurde eine neue Abfüllanlage installiert, die Waschmittel in
Packungen abfüllt. Das Gesamtgewicht einer Packung setzt sich dann zusammen aus dem
Abfüllgewicht und dem Verpackungsgewicht. Die Betriebsingenieurin hat festgestellt, dass
das Abfüllgewicht der Packungen einer Normalverteilung mit dem Mittelwert 5 050 g und
der Standardabweichung 8 g folgt. Der Verpackungshersteller gibt an, dass das Verpackungs-
gewicht einer Normalverteilung mit dem Mittelwert 100 g und der Standardabweichung
6 g folgt. Aus dem Abfüllprozess folgt, dass Verpackungsgewicht und Abfüllgewicht un-
abhängig voneinander sind. Berechnen Sie den Erwartungswert und den Standardfehler für
das Gesamtgewicht. (Rechnen Sie hier exakt, d.h. ohne zu runden. Begründen Sie außerdem
ganz genau, welchen Weg Sie zur Berechnung des Erwartungswertes und Standardfehlers
wählen.)
Hinweis: a + b = a − (−b).
(b) Aus den Angaben in (a) ergibt sich auch bereits, dass das Gesamtgewicht einer Normalver-
teilung folgt. Wie groß ist ungefähr der Prozentsatz der Packungen, deren Gesamtgewicht
5 165 g übersteigt?

22. Zwei Personen möchten für eine Schachtel die Nullhypothese testen, dass das arithmetische
Mittel der Schachtel gleich 50 sei. Sie einigen sich auf die Alternativhypothese, dass das arith-
metische Mittel der Schachtel von 50 abweiche. Auch sind sich die beiden darin einig, einen
zweiseitigen z-Test durchzuführen.

Die erste Person zieht nun 100-mal zufällig und mit Zurücklegen aus der Schachtel. Der zweiten
Person genügen 100 Versuche nicht – sie zieht gleich 500-mal. Beide erhalten jedoch dieselbe
Standardabweichung von 10.

Wahr oder falsch? Die Person, deren arithmetisches Mittel für die Schachtel weiter von 50
entfernt ist, wird den kleineren P -Wert erhalten. Erklären Sie!
23. Ein Würfel wird 300-mal geworfen. Bestimmen Sie Erwartungswert und Standardfehler für die
Differenz zwischen dem prozentualen Anteil von Einsen in den ersten 200 Würfen und dem
prozentualen Anteil von Sechsen in den letzten 100 Würfen.

7
24. Eine Schachtel enthält 5 000 Zettel mit Zahlen. Das arithmetische Mittel der Zahlen liegt bei
50, und die Standardabweichung ist 30.
Nun wird 200-mal zufällig und ohne Zurücklegen aus der Schachtel gezogen.

(a) Ist die folgende Aussage wahr oder falsch?

Der Standardfehler für die Differenz zwischen dem arithmetischen Mittel aus den ersten
100
√ Ziehungen und dem arithmetischen Mittel aus den letzten 100 Ziehungen ist ungefähr
32 + 32 .
(b) Wiederholen Sie Teil (a), wenn die Schachtel nur 200 Zettel enthält.

25. In den frühen 80er Jahren wurde in den USA untersucht, inwieweit Taschenrechner Schülern bei
der Bearbeitung von Textaufgaben helfen können.
Dazu wurde 500 dreizehnjährigen Schülern in einem bestimmten Schulbezirk die folgende Auf-
gabe vorgelegt:

“An army bus holds 36 soldiers. If 1 128 soldiers are being bussed to their training
site, how many buses are needed?”

Einer Hälfte der Schüler wurde die Benutzung von Taschenrechnern gestattet; die andere Hälfte
hatte die Aufgabe ausschließlich mit Papier und Bleistift zu lösen.
In der Taschenrechner-Gruppe gaben 18 Schüler eine korrekte Antwort, und in der Papier-und-
Bleistift-Gruppe waren es 59. Kann dieser Unterschied als zufällige Schwankung erklärt werden?
Was schließen Sie?

Hinweise: (a) Die Daten entsprechen in etwa den Angaben in einer 1983 veröffentlichten Studie.
Aus der Veröffentlichung geht jedoch nicht eindeutig hervor, ob es sich um ein kontrolliertes
Experiment oder eine Beobachtungsstudie handelte. Gehen Sie von einem kontrollierten Expe-
riment aus.

(b) Es ist
1 128 1
= 31 ,
36 3
also werden 32 Busse benötigt. Insbesonders in der Taschenrechner-Gruppe war 31.33 eine ty-
pische Antwort. Auch wurde häufig 31 genannt.

26. Rechnen mit Taschenrechnern

8
Aufgabe a) Ein Taschenrechner kostet 24,– EUR.
Wieviel kosten 4 Taschenrechner?
Aufgabe b) Wieviele Möglichkeiten gibt es, 18 Ta-
schenrechner auf 26 Schüler zu vertei-
len?
Aufgabe c) Wirft man einen Taschenrechner
in einen Brunnen, so dauert es
vier Sekunden, bis der Taschenrech-
ner unten ist. Wie tief ist der Brunnen?
Also nochmal –

wenn ich von fünf Taschenrechnern drei Aufgabe d) Auf wieviele verschiedene Weisen
wegnehme, wieviele bleiben übrig?“ kann man die Buchstaben des Wortes
Taschenrechner“ anordnen?

Das Bild zeigt, welche didaktischen Möglich-
keiten im Rechnen mit Taschenrechnern Aufgabe e) Ein Taschenrechner ist 7 mm hoch.
Wieviele Taschenrechner benötigt
liegen. Da dies von vielen Lehrern und Eltern man, um die Höhe des Kölner Doms
noch nicht erkannt ist, sollen im folgenden zu erreichen?
Hilfen gegeben werden, die insbesondere dem
Lehrer zeigen, auf welch vielfältige Weise der Aufgabe f) Ein Schüler braucht zwei Minuten, um
Taschenrechner im Mathematik-Unterricht einen Taschenrechner kaputt zu schla-
eingesetzt werden kann, so daß ein Rechen- gen. Wie lange brauchen 10 Schüler für
unterricht ohne Taschenrechner bald nicht diese Arbeit?
mehr zu denken ist. Wir machen den Einsatz (Die letzte Aufgabe sollte man erst am Schul-
des Taschenrechners an einigen Aufgaben klar: jahresende behandeln!)

Aus F. Wille: Humor in der Mathematik.


Bearbeiten Sie Aufgabe b), d) und f).

27. Ist Müsli das bessere Frühstück? Um eine Antwort auf diese Frage zu finden, wird an einer
Universität eine Studie durchgeführt. 389 Studierende der Statistik-I-Vorlesung erklären sich
dazu bereit, an dem Versuch teilzunehmen. In einem zufälligen Verfahren werden in der ersten
Vorlesung 194 Teilnehmende der Behandlungs- und 195 der Kontrollgruppe zugeteilt. Die Be-
handlungsgruppe erhält während des gesamten Semesters sieben Tage in der Woche ein sorgfältig
ausgewähltes Öko-12-Korn-Frucht-Müsli. Die Versuchspersonen in der Kontrollgruppe erhalten
täglich frische Brötchen vom Bäcker.

(a) In der Klausur zu Beginn der vorlesungsfreien Zeit erreichen die Studierenden in der Be-
handlungsgruppe im Mittel 66 von 100 möglichen Punkten bei einer Standardabweichung
von 20. Für die Kontrollgruppe liegen die entsprechenden Werte bei 59 und 20. Was schlie-
ßen Sie?
(b) Welche Aspekte der Studie hätten blind“ durchgeführt werden können?

28. In den 70er Jahren wurde in einer großen Studie untersucht, inwieweit die Faktoren Cholesterin,
Blutdruck und Rauchen das Risiko beeinflussen, einen Herzinfarkt zu erleiden. Als Versuchsper-
sonen wurden 12 866 Männer im Alter von 35 bis 57 Jahren ausgewählt, die alle einem hohen
Risiko für Herzerkrankungen ausgesetzt waren.
In einem zufälligen Verfahren wurden 6 428 Versuchspersonen in die Behandlungsgruppe und
6 438 in die Kontrollgruppe eingeteilt. Die Männer in der Behandlungsgruppe wurden in Bezug

9
auf Ernährung und Rauchen beraten und erhielten in einigen Fällen eine besondere Therapie
gegen Bluthochdruck. Alle Versuchspersonen wurden über mindestens 6 Jahre beobachtet.

(a) Zu Beginn der Studie lag der diastolische Blutdruck bei der Behandlungsgruppe im arith-
metischen Mittel bei 91.0 mm Hg; die Standardabweichung war 7.6 mm Hg. Für die Kon-
trollgruppe lagen die entsprechenden Werte bei 90.9 und 7.7. Was schließen Sie?
(b) Sechs Jahres später lag der diastolische Blutdruck bei der Behandlungsgruppe im arith-
metischen Mittel bei 80.5 mm Hg; die Standardabweichung war 7.9 mm Hg. Und für die
Kontrollgruppe lagen die entsprechenden Werte bei 83.6 und 9.2. Was schließen sie?
(c) Zu Beginn der Studie lag der Cholesterolgehalt bei der Behandlungsgruppe im arithmeti-
schen Mittel bei 253.8 mg/dl; die Standardabweichung war 36.4 mg/dl. Für die Kontroll-
gruppe lagen die entsprechenden Werte bei 253.5 und 36.8. Was schließen Sie?
(d) Sechs Jahre später lag der Cholesterolgehalt bei der Behandlungsgruppe im arithmetischen
Mittel bei 235.5 mg/dl; die Standardabweichung war 38.3 mg/dl. Und für die Kontrollgrup-
pe lagen die entsprechenden Werte bei 240.3 und 39.9. Was schließen Sie?
(e) Zu Beginn der Studie rauchten 59.3 % der Männer in der Behandlungsgruppe und 59.0 %
der Männer in der Kontrollgruppe. Was schließen Sie?
(f) Sechs Jahre später rauchten nur noch 32.3 % der Männer in der Behandlungsgruppe und
45.6 % der Männer in der Kontrollgruppe. Was schließen Sie?
(g) In der Behandlungsgruppe waren 211 Männer nach 6 Jahren verstorben, und in der Kon-
trollgruppe 219 Männer. Was schließen Sie?

29. Die inneren Planeten Merkur und Venus liegen näher an der Sonne als die Erde. Die anderen,
sogenannten äußeren Planeten sind weiter von der Sonne entfernt. Die Massen aller Planeten
sind unten gegeben, wobei die Masse der Erde gleich 1 sei.

Merkur Venus Mars Jupiter Saturn Uranus Neptun


0.06 0.81 0.11 318 95 15 17

Die Massen der inneren Planeten liegen im arithmetischen Mittel bei 0.435. Die Massen der
äußeren Planeten ergeben im arithmetischen Mittel 89.
Ist dieser Unterschied statistisch signifikant? Oder ergibt diese Frage gar keinen Sinn? Erklären
Sie.

30. (a) Bestimmen Sie die Fläche unter der Dichte der χ2 -Verteilung mit 4 Freiheitsgraden rechts
von 3.36, links von 1.06 und links von 9.49.
(b) Bestimmen Sie die ungefähre Fläche unter der Dichte der χ2 -Verteilung mit 22 Freiheits-
graden rechts von 12.05. (Kein Druckfehler!)

31. Die kalifornische Staatslotterie hat zur Erzeugung von Zufallszahlen folgende Apparatur getestet:

Zehn Tischtennisbälle werden mit den Ziffern 0 bis 9 versehen und in einer Glasschüssel mit Hilfe
einer Luftdüse vermischt. Nach einiger Zeit wird einer der Bälle aus der Schüssel herausgetrieben.
In den unten beschriebenen Testläufen wurde bei jedem Durchgang 120mal aus der Glasschüssel
gezogen (mit Zurücklegen).
Der Mischvorgang an sich verlief offensichtlich komplikationslos. Doch waren einige der benutzten
Sätze von Tischtennisbällen möglicherweise nicht in Ordnung.

10
(a) Angenommen, die Apparatur arbeitet einwandfrei: Dann wird bei 120 Ziehungen aus der
Schüssel jeder der 10 Tischtennisbälle etwa mal gezogen werden.
(b) Was schließen Sie, wenn der mit der Ziffer 7 versehene Ball 29mal gezogen wird? Erklären
Sie!
(c) Die Tabelle unten zeigt zunächst die Ergebnisse eines ersten Testdurchgangs mit vier ver-
schiedenen Sätzen von Tischtennisbällen.
Aufgrund dieser ersten Testreihen lehnte die Staatslotterie Satz B ab und befand Satz C
als in Ordnung. Mit den Sätzen A und D wurden die Testläufe wiederholt.
Wie beurteilen Sie die Entscheidungen der Staatslotterie?
(d) Was würden Sie mit den Sätzen A und D nach Kenntnis der Ergebnisse des zweiten Test-
durchgangs machen?
Häufigkeiten

Erster Durchgang Zweiter Durchgang


Ball Nr. Satz A Satz B Satz C Satz D Satz A Satz D

0 13 22 12 16 19 8
1 11 8 10 7 9 15
2 16 7 14 12 10 22
3 11 8 10 14 12 11
4 5 19 11 15 7 15
5 12 20 10 5 15 8
6 12 10 20 10 19 17
7 19 11 12 21 10 9
8 5 6 12 11 12 8
9 16 9 9 9 7 7

32. Jemand gibt Ihnen den gutgemeinten Rat, die vorangegangene Aufgabe wie folgt zu lösen:

“Wandeln Sie die Zahlen in der Tabelle in Prozente um (also z.B. 13 aus 120 ≈ 10.8 %);
nehmen Sie die Differenz zwischen dem beobachteten und dem erwarteten Prozentsatz;
quadrieren Sie; teilen Sie durch den erwarteten Prozentsatz; addieren Sie schließlich
diese Werte, um χ2 zu erhalten.”

Ist dies eine geeignete Methode?

33. In den Vereinigten Staaten werden die Geschworenen für die Juries an regionalen Gerichtshöfen
aus der Bevölkerung der jeweiligen Region ausgewählt.

In der UCLA Law Review, Band 20 (1973) wurde die Auswahl der Geschworenen im Bezirk
Alameda untersucht. Das Bildungsniveau der Geschworenen stellt sich dabei im Vergleich zur
Gesamtbevölkerung des Bezirks wie folgt dar:

11
Anteil an der Gesamtbevöl- Anzahl der
Bildungsniveau kerung des Bezirks Geschworenen

Elementary 28.4 % 1
Secondary 48.5 % 10
Some college 11.9 % 16
College degree 11.2 % 35
total 100.0 % 62

Könnte eine einfache Zufallsstichprobe (simple random sample) von 62 Personen aus dem Bezirk
Alameda eine Verteilung des Bildungsniveaus zeigen, die so weit von der Verteilung im Bezirk
abweicht?

Wählen Sie unter den Optionen (i) bis (v), und erklären Sie.

(i) Dies ist völlig unmöglich.


(ii) Dies ist möglich, aber mehr als unwahrscheinlich.
(iii) Dies ist möglich, aber unwahrscheinlich – die Wahrscheinlichkeit dafür liegt bei etwa 1 %.
(iv) Dies ist ohne weiteres möglich – die Wahrscheinlichkeit dafür liegt bei bei etwa 10 %.
(v) Dies wird sogar sehr wahrscheinlich der Fall sein.

34. Zwei Personen versuchen zu entscheiden, ob ein Würfel fair ist. Sie würfeln 100mal mit folgenden
Ergebnissen:

Augenzahl 1 2 3 4 5 6
Häufigkeit 21 15 13 17 19 15

Die eine Person will nun einen z-Test durchführen, die andere einen χ2 -Test.
Wer hat recht? Erklären Sie!

35. In einer Gaststätte bietet Ihnen ein Fremder ein Glücksspiel an. Er behauptet, das von ihm zu
diesem Zweck benutzte Würfelpaar sei fair. Sie misstrauen dem Fremden jedoch und verlangen
einen Test. Dazu würfelt der Fremde 360mal, und Sie notieren, wie oft welche Augensumme
erscheint:

Augenzahl 2 3 4 5 6 7 8 9 10 11 12
Häufigkeit 11 18 33 41 47 61 52 43 29 17 8

Sollten Sie nun das Glücksspiel mit dem Fremden wagen? Oder liegen die beobachteten Häufig-
keiten zu nahe an den erwarteten?

36. Die folgenden Teilaufgaben beziehen sich auf Abbildung 2 auf Seite 528 im Buch von Freedman
et al.

(a) Repräsentiert das Histogramm Daten oder Wahrscheinlichkeiten?


(b) Betrachten Sie das Rechteck über dem Intervall von 5 bis 5.2. Was repräsentiert die Fläche
dieses Rechtecks?
Hinweis: Die Wertebereiche schließen den linken, nicht aber den rechten Endpunkt mit ein.

12
(c) Welche Wahrscheinlichkeit ist größer?
i. Die Wahrscheinlichkeit, dass die χ2 -Statistik im Bereich von 4.8 bis 5.0 liegt.
ii. Die Wahrscheinlichkeit, dass die χ2 -Statistik im Bereich von 5.0 bis 5.2 liegt.
Oder können Sie dies aufgrund der Abbildung gar nicht entscheiden? Erklären Sie!

37. Das National Center for Health Statistics publizierte den untenstehenden Datensatz über die
Anzahl der Selbstmorde in den USA in den einzelnen Monaten des Jahres 1970.

Gibt es Hinweise darauf, dass sich die Selbstmordrate saisonal ändert, oder ist der Datensatz
konsistent mit der Nullhypothese, dass die Selbstmordrate über die Monate hinweg konstant
bleibt?

Anzahl der
Monat Selbstmorde Tage/Monat
Januar 1 867 31
Februar 1 789 28
März 1 944 31
April 2 094 30
Mai 2 097 31
Juni 1 981 30
Juli 1 887 31
August 2 024 31
September 1 928 30
Oktober 2 032 31
November 1 978 30
Dezember 1 859 31

Hinweis: Unter der Nullhypothese wählen alle Selbstmordkandidaten den Tag des Suizids will-
kürlich, d.h. jeder Tag des Jahres wird mit gleicher Wahrscheinlichkeit von 1/365 gewählt und
jeder Monat mit Wahrscheinlichkeit (Anzahl der Tage im Monat)/365. Führen Sie einen χ2 -
Test durch, und achten Sie auf die Vorzeichen der Abweichungen (beobachtete Häufigkeit) –
(erwartete Häufigkeit). Sind Muster erkennbar?

38. In einer Stichprobe wurde die folgende Verteilung der Variablen Y beobachtet:

Y Y < 10 10 ≤ Y < 20 20 ≤ Y < 30 30 ≤ Y < 40 Y ≥ 40


absolute
Häufigkeit 46 129 331 347 147

Testen Sie die Hypothese, dass die zugrundeliegende Grundgesamtheit entsprechend einer Nor-
malverteilungsdichte mit Mittelwert 30 und Standardabweichung 10 verteilt ist.

39. Wahr oder falsch?

(a) Der P -Wert eines Tests gibt die Wahrscheinlichkeit an, dass die Nullhypothese richtig ist.
(b) Wenn ein Ergebnis statistisch signifikant ist, liegt die Wahrscheinlichkeit, dass es zufälligen
Schwankungen zuzuschreiben ist, bei 5 %, und die Wahrscheinlichkeit, dass es “real” ist,
bei 95 %.

13
Erklären Sie!
40. Aus einer Schachtel X wird 100mal zufällig gezogen. Das arithmetische Mittel der Ziehungen
ist 51.8, und die Standardabweichung ist 9. Die Nullhypothese besagt, dass das arithmetische
Mittel der Schachtel gleich 50 ist, und die Alternativhypothese, dass das arithmetische Mittel
der Schachtel von 50 abweicht.
Ist ein einseitiger oder ein zweiseitiger z-Test angemessen?
41. Neuentwickelte Chemikalien werden in der Regel daraufhin überprüft, ob sie bei Labormäusen
Krebs erzeugen. Ein solcher Versuch kann beispielsweise mit 500 Mäusen durchgeführt wer-
den, von denen 250 in einem zufälligen Verfahren ausgewählte Tiere die zu testende Chemikalie
mit der Nahrung verabreicht bekommen. Die restlichen 250 Mäuse dienen als Kontrollgrup-
pe. Nach einer gewissen Zeit werden die Krebsraten beider Gruppen unter Verwendung des
Zweistichproben-z-Tests miteinander verglichen. Die Krebsraten werden dabei für ungefähr 25
verschiedene Organe betrachtet – Leber, Lunge, Knochenmark usw.
Für eine bestimmte Chemikalie ergibt sich z ≈ 2.4 für die Leber, z ≈ −1.8 für die Lunge, z ≈ 2.1
für Leukämie, und 22 andere z-Werte zwischen –1.6 und +1.5. Die Untersucher schließen, dass
die Chemikalie Leberkrebs verursacht (z ≈ 2.4, P ≈ 1%, einseitiger Test).
Kommentieren Sie!
42. Nach Volkszählungsdaten lag die Gesamtbevölkerung der USA im Jahr 1950 bei 151.3 Millionen
Personen, von denen 13.4 % im Westen lebten. 1980 war die Bevölkerung der USA auf 226.5
Millionen Personen angewachsen, von denen nun 19.1 % im Westen lebten.
Ist dieser prozentuale Unterschied praktisch bedeutsam? Ist er statistisch signifikant? Oder er-
geben diese Fragen gar keinen Sinn? Erklären Sie!
43. Ein Bekannter von Hobby-Statistiker W. O. hilft jedes Jahr zur Festspielzeit in einem Bayreuther
Gasthof als Kellner aus. Zugleich versorgt er W. O. mit interessanten Daten über die nach be-
stimmten Aufführungen bestellen Menüs. Kürzlich erhielt W.O. von ihm folgende Tabelle:

Oper M T u. I P

Menü

vegetarisch 26 31 18

nicht vegetarisch 39 44 42

Diese Daten können als eine Zufallsstichprobe betrachtet werden. Sind die Merkmale Oper“

und Menü“ unabhängig? (Man teste zum Niveau 5 %.)

44. (Hinweis: Der in dieser Aufgabe erwähnte Artikel ist auch in Aufgabe 169 aus Statistische
Methoden I teilweise abgedruckt.)
In der Tageszeitung International Herald Tribune (January 11, 2002, S. 12) hat Hobby-Statistiker
W. O. in einem Artikel mit dem Titel ‘Early Days Hint at Bullish Market’ Daten über den Verlauf
des Dow (US-Aktienindex) für das Gesamtjahr und des Fünf-Tage-Indikators (Verlauf des Dow
für die ersten fünf Handelstage eines Jahres) aus den sechzig Jahren von 1942 bis 2001 gefunden.
Diese Daten sind in der folgenden Tabelle zusammengefasst:

14
Dow für das Gesamtjahr
Summe
gestiegen gefallen

gestiegen 32 7 39

Fünf-Tage-
Indikator

gefallen 12 9 21

Summe 44 16 60

(a) Da der Artikel eine Korrelation zwischen dem Dow für das Gesamtjahr und dem Fünf-
Tage-Indikator erwähnt, überlegt Hobby-Statistiker W. O., welches Resultat ein Test auf
Unabhängigkeit der beiden Größen liefern würde und ob er die Zahlen eventuell mit einer
geeigneten Einkleidung als Übungsaufgabe verwenden könnte. Führen Sie für ihn einen
solchen Test zum Niveau 30 % durch. Unterstellen Sie dabei zunächst, dass die dafür
nötigen Annahmen erfüllt sind.
(Hinweis: Da es sich um reale Daten handelt und das Signifikanzniveau vorgegeben ist, ist
es u. U. vorteilhaft, zunächst den kritischen Wert zu ermitteln und anschliessend den Wert
der Teststatistik nicht genau zu berechnen, sondern nur geeignet abzuschätzen.)
(b) Diskutieren Sie nun, inwieweit die Annahmen für den Test in (a) tatsächlich erfüllt sind.
Begründen und erläutern Sie kurz Ihre Aussagen.

45. Eine Firma hat 16 weibliche und 7 männliche Angestellte. Doch verdienen die männlichen An-
gestellten deutlich mehr als die weiblichen, und die Firma wird wegen der Diskriminierung von
Frauen verklagt.
Der vom Kläger bestellte Sachverständige argumentiert wie folgt:

“Es gibt 16 × 7 = 112 Paare von je einer weiblichen und einem männlichen An-
gestellten. Bei 68 dieser 112 Paare verdient der Mann mehr. Ohne diskriminierende
Praktiken liegt die Wahrscheinlichkeit, dass der Mann mehr verdient, bei genau 50 %.
Es liegt also dieselbe Situation vor wie beim Münzwurf. Bei 112 Würfen liegt die
erwartete Anzahl von Wappen bei 56, und der Standardfehler ist ungefähr 5.3. Also
beobachtet – erwartet 68 − 56
z= ≈ ≈ 2.3 ,
Standardfehler 5.3
und P ≈ 1 %. Wenn das kein Beweis für diskriminierende Praktiken der Firma ist!”

Stimmen Sie zu? Antworten Sie mit ja oder nein, und erklären Sie.
46. In der US-amerikanischen Rechtssprechung gilt vielfach der Tatbestand der Diskriminierung als
erwiesen, wenn eine Firma weniger Angestellte aus einer bestimmten Bevölkerungsgruppe hat,
als es dem Prozentsatz dieser Bevölkerungsgruppe unter der Gesamtbevölkerung der entspre-
chenden geographischen Region entspricht – vorausgesetzt, der Unterschied ist mit dem z-Test

15
statistisch signifikant“.

Angenommen, in einer Stadt sind 10 % der Bevölkerung Angehörige einer bestimmten Bevölke-
rungsgruppe und jede ortsansässige Firma wählt ihre Angestellten nach einem Verfahren, das in
Bezug auf die Zugehörigkeit zu einer Bevölkerungsgruppe dem Ziehen einer einfachen Zufalls-
stichprobe (simple random sampling) entspricht. Ist es dann dennoch möglich, dass eine dieser
Firmen mit dem z-Test der Diskriminierung schuldig gesprochen wird? Erklären Sie!

47. Ein Wirtschaftswissenschaftler schätzt, dass die Preiselastizität der Nachfrage für raffinierte
Erdölprodukte bei −6 liegt (Eine Preiselastizität von −6 bedeutet vereinfacht, dass ein Anstieg
der Preise um 1 % zu einem Rückgang der Verkaufszahlen um 6 % führt). Der Standardfehler
ist 2.5.
Der Wissenschaftler testet nun die Nullhypothese, dass die Preiselastizität gleich 0 ist, und erhält
z = −6/2.5 = −2.4 und P ≈ 1% (einseitiger Test). Seine Schlussfolgerung: Er kann zu 99 %

darauf vertrauen, dass die Schätzung richtig ist“.
Kommentieren Sie!

48. R.E. Just und W.S. Chern behaupteten in einem 1980 veröffentlichten Aufsatz (Bell Journal
of Economics 11, S. 584–602), dass die Großeinkäufer kalifornischer Tomatenkonserven ihre
marktbeherrschende Stellung dazu benutzten, die Preise zu fixieren. Als Beweis führten die
beiden Wissenschaftler Schätzungen der Preiselastizität für Tomatenkonserven vor und nach der
Einführung von Erntemaschinen an und versahen diese Schätzungen mit einem Standardfehler.
Bei einem Wettbewerbsmarkt sollte die Einführung von Erntemaschinen keinen Unterschied in
der Nachfrageelastizität bewirken; eine solche Maßnahme beeinflusst nur das Angebot. Wie auch
immer – der Unterschied zwischen den geschätzten Elastizitäten vor und nach der Einführung
von Erntemaschinen war statistisch signifikant (z ≈ 1.56, P ≈ 5.9%, einseitiger Test). Dabei
unternahmen Just und Chern verschiedene Anläufe, die Preiselastizitäten zu schätzen, bevor sie
schließlich auf die publizierte Version stießen.
Kommentieren Sie!

49. Eine Stichprobe X besteht aus zwei quantitativen Beobachtungen. Eine weitere Stichprobe Y
besteht aus vier quantitativen Beobachtungen.

(a) Wie viele verschiedene Möglichkeiten gibt es, die zwei Beobachtungen aus Stichprobe X
und die vier Beobachtungen aus Stichprobe Y anzuordnen?

Hinweis: Zwei solche Möglichkeiten sind beispielsweise Y Y Y XY X und Y Y Y Y XX.


(b) Berechnen Sie für jede dieser Anordnungen den Wert von WXY .
(c) Bestimmen Sie den P -Wert, der zu WXY = 3 gehört.

50. Ein Pharma-Unternehmen hat für die Behandlung von Patienten mit geringem Hämoglobin-
Gehalt im Blut ein neues Medikament, Präparat A, entwickelt. Die Firma will nachweisen, dass
ihr Medikament besser ist als das gängige Konkurrenzprodukt, Präparat B.
In einem kontrollierten Experiment werden von 19 Versuchspersonen in einem zufälligen Verfah-
ren 10 für die Behandlung mit Präparat A und 9 für die Behandlung mit Präparat B eingeteilt.
Es ergeben sich die folgenden Rekonvaleszenzzeiten:

Präparat A: 14 28 43 115 50 20 12 98 56 46
Präparat B: 65 84 21 70 100 35 112 115 86

Ist Präparat A tatsächlich besser? Formulieren Sie eine geeignete Nullhypothese, und testen Sie.

16
51. Für die Förderung statistischer Intelligenz gibt es eine Standardmethode und eine neue Methode
(Bayreuther Trichter). In einem Vergleich der Methoden wurden (in geeigneten Einheiten) an 9
Studierenden folgende Resultate beobachtet:

Standardmethode: 78 64 55 44 61
Bayreuther Trichter: 110 91 77 95

Ist der Bayreuther Trichter die bessere Methode? (Es wird ein möglichst hoher Wert bei den
Studierenden angestrebt.)
©
52. Erfinder Daniel D.1 hat einen Zusatz zum Benzin entwickelt (“Cleanair ”), der den Schadstoff-
gehalt der Auspuffgase von Verbrennungsmotoren stark absenken soll. Sie werden um eine Stel-
lungnahme gebeten und schlagen einen statistischen Test vor. Erläutern Sie kurz Ihr Vorgehen
(Wahl von Nullhypothese und Alternative, Niveau α oder P -Wert, einseitiger oder zweiseitiger
Test, Fehler 1. Art und Fehler 2. Art, Konsequenzen aus einem signifikanten bzw. nichtsignifi-
kanten Ergebnis). [ca. 1/2 – 1 Seite].

53. Eine Urne enthalte vier Kugeln, θ weiße und 4 – θ schwarze. Man testet die Nullhypothese
“θ = 2” gegen die Alternative “θ 6= 2”, indem man zwei Kugeln mit Zurücklegen zieht und
genau dann verwirft, wenn die gezogenen Kugeln von der gleichen Farbe sind.

(a) Man berechne die Wahrscheinlichkeit für einen Fehler erster Art.
(b) Man berechne die Wahrscheinlichkeit für einen Fehler zweiter Art für alle möglichen Situa-
tionen.

54. Es wird zwanzigmal aus einer Schachtel mit unbekanntem Mittelwert und bekannter SD = 9
gezogen. Die Werte in der Schachtel folgen exakt einer Normalverteilungsdichte. Man bestimme
den Verwerfungsbereich eines Tests zum Niveau 5 % für die Nullhypothese

“Der Mittelwert der Schachtel ist 1.0 ”

gegen die Alternative

“Der Mittelwert der Schachtel ist 2.0”.

Wie groß ist die Wahrscheinlichkeit für einen Fehler 2. Art?

55. Cowboy Joe wird beschuldigt, statt der gewöhnlichen Münze, die mit einer Wahrscheinlichkeit
von 0.4 “Kopf” zeigt, eine gezinkte Münze verwendet zu haben, die mit einer Wahrscheinlichkeit
von 0.8 “Kopf” ergibt. Die Entscheidung soll auf der Basis von 6 Münzwürfen getroffen werden.
Ermitteln Sie den Verwerfungsbereich eines (nichtrandomisierten) Tests für diese Situation, der
höchstens das Niveau 5 % haben soll. Was ist die Wahrscheinlichkeit für einen Fehler 2. Art?

56. Ulcus spiritus, das Magengeschwür von Hugo Schluck, führt eine “Mageneingangskontrolle”
durch. Erfahrungsgemäß bekommt ihm eins von zehn Bierchen nicht sehr gut, was es Hugo
Schluck auch immer umgehend mitteilt. Bei einer “Charge” von 30 Bierchen reagierte Ulcus spi-
ritus 6mal ausgesprochen sauer. Kann man sagen, dass es in letzter Zeit empfindlicher geworden
ist? Man teste zum 10-%-Niveau.
1
“Dem Inschinör ist nichts zu schwör. . . ”

17
57. Eine Münze werde 12mal geworfen, um zu testen, ob die Wahrscheinlichkeit für “Kopf” 1/2
beträgt. Die Hypothese wird verworfen, falls das Ereignis “Kopf” insgesamt 0 oder 12mal beob-
achtet wird.

(a) Was ist das Signifikanzniveau des Tests?


(b) Falls die tatsächliche Wahrscheinlichkeit für das Ereignis “Kopf” p1 = 0.3 ist, was ist die
Wahrscheinlichkeit für einen Fehler 2. Art?
(c) Was ist die Wahrscheinlichkeit für einen Fehler 2. Art für p1 = 0.2 und p1 = 0.1?
Was vermutet man für p1 −→ 0?

58. Vor einer Wahl zwischen zwei Kandidaten A und B wurden 100 Wähler über ihre Wahlabsichten
zweimal im Abstand von 4 Wochen befragt. Die folgende Tabelle zeigt die Resultate:

Zweite Umfrage
für A für B
für A 35 10
Erste
Umfrage
für B 13 42

Gab es unterschiedlich starke Wählerwanderungen von A nach B bzw. umgekehrt?

59. In einer Statistikklausur hat Hobby–Statistiker W. O. die folgende Aufgabe gestellt:

In der Tageszeitung International Herald Tribune (January 11, 2002, S. 12) hat Hobby-
Statistiker W. O. in einem Artikel mit dem Titel ‘Early Days Hint at Bullish Market’
Daten über den Verlauf des Dow (US-Aktienindex) für das Gesamtjahr und des Fünf-
Tage-Indikators (Verlauf des Dow für die ersten fünf Handelstage eines Jahres) aus
den sechzig Jahren von 1942 bis 2001 gefunden. Diese Daten sind in der folgenden
Tabelle zusammengefasst:
Dow für das Gesamtjahr
Summe
gestiegen gefallen

gestiegen 32 7 39

Fünf-Tage-
Indikator

gefallen 12 9 21

Summe 44 16 60

18
Da der Artikel eine Korrelation zwischen dem Dow für das Gesamtjahr und dem Fünf-
Tage-Indikator erwähnt, überlegt Hobby-Statistiker W. O., welches Resultat ein Test
auf Unabhängigkeit der beiden Größen liefern würde und ob er die Zahlen eventuell
mit einer geeigneten Einkleidung als Übungsaufgabe verwenden könnte. Führen Sie
für ihn einen solchen Test zum Niveau 30 % durch. Unterstellen Sie dabei zunächst,
dass die dafür nötigen Annahmen erfüllt sind.
Eine Anzahl von Studierenden benutzte als Lösung fälschlicherweise den McNemar-Test. Bear-
beiten Sie hierzu nun die folgenden Teilaufgaben.
(a) Für welche Fragestellung wäre dieser Test angemessen gewesen? Antworten Sie hier in Auf-
satzform, d. h. in vollständigen Sätzen, und legen Sie genau dar, welche Betrachtungsweise
beim McNemar-Test benutzt wird.
(b) Führen Sie den McNemar-Test für diese Daten durch, und bestimmen Sie den P-Wert.
Unterstellen Sie dabei, dass die dafür nötigen Annahmen alle erfüllt sind.
(Hinweis: Benutzen Sie eine geeignete Tabelle oder einen Taschenrechner.)
60. Für eine bestimmte Benzinmischung liegen folgende 15 Messungen der Oktanzahl vor:

98.3 95.0 95.8 96.5 95.7 92.2 95.1


98.5 99.3 93.4 96.4 94.9 94.3 94.0
97.6

Man teste mit dem Zeichentest die Nullhypothese “Median = 94.0” gegen die Alternative “Me-
dian > 94.0”. (Das Niveau sei 1 %.)
61. Für Stichproben von Sand aus verschiedenen Ablagerungsmilieus ergaben sich folgende Messwer-
te für den Durchmesser von Sandkörnern:

Sand I:
0.17 0.63 0.35 0.49 0.18 0.43 0.12
0.20 0.47 1.36 0.51 0.45 0.84 0.32
0.40

Sand II:
1.13 0.54 0.96 0.26 0.39 0.88 0.92
0.53 1.01 0.48 0.89 1.07 1.11 0.58

Man prüfe mit dem Wilcoxon-Rangsummentest, ob die Korngrößenverteilungen übereinstimmen.


(Das Niveau sei 1 %.)
62. Die folgende Tabelle zeigt die Anzahl der Mädchen für 1 000 Familien mit jeweils fünf Kindern.

Anzahl k der Mädchen Anzahl der Familien mit k Mädchen


0 38
1 144
2 342
3 287
4 164
5 25

19
Man passe eine Binomialverteilung an die Daten an und prüfe die Güte der Anpassung.
63. Drei Schachteln sind mit Zetteln gefüllt. Das arithmetische Mittel der Zahlen auf den Zetteln
ist für jede der Schachteln gleich 200. Doch unterscheiden sich die Schachteln durch die Stan-
dardabweichung; Schachtel A hat Standardabweichung 10, Schachtel B Standardabweichung 20
und Schachtel C Standardabweichung 40. Nun wird
• aus Schachtel A 100mal
• aus Schachtel B 200mal
• aus Schachtel C 400mal
gezogen. Das Ziehen erfolgt dabei stets zufällig und mit Zurücklegen. Für das arithmetische
Mittel der Zahlen auf den Zetteln, die in den drei Serien gezogen werden, ergibt sich (in unbe-
kannter Reihenfolge)

203.6 198.1 200.4 .

(a) Versuchen Sie, die Mittelwerte den drei Serien zuzuordnen.


(b) Ist Ihre Zuordnung eindeutig? Oder gibt es auch andere mögliche Zuordnungen?

64. Bearbeiten Sie im folgenden Text die Teile (a) bis (d):

Der Nieselregen wurde immer stärker. Hobby–Statistiker W. O. zog seine Kapuze fester zu.
Warum nur hatte er diesen schwedischen Polizisten ausgerechnet zu einem Spaziergang am Och-
senkopf bestellt? Als ob er nicht wüßte, wie es hier im April aussieht! In seiner Kneipe hätten
sie sich wenigstens vollaufen lassen können. Mit Schwedenpunsch. Statt dessen trotteten sie
missmutig nebeneinander her. Eine Spur zu heftig tappste W. O. in eine Pfütze auf seiner Seite
des Weges.
“Was führt Sie zu mir”, fragte er schließlich unwirsch.
“Sie wurden uns empfohlen”, entgegnete der andere ebenfalls knapp und mit einem Unterton,
der die Nützlichkeit der Empfehlung in Zweifel zu ziehen schien. “Es geht um eine gefälschte
Münze. Wir müssen unbedingt wissen, mit welcher Wahrscheinlichkeit sie ‘Kopf’ zeigt. Wir ha-
ben dazu fünf Versuche gemacht, viermal kam ‘Kopf’.”
“Warum haben Sie nicht mehr Versuche gemacht?” warf W. O. ein.
“Die Münze kam uns abhanden”, erläuterte der Polizist.
Ihr habt sie also verschusselt, ging es W. O. durch den Kopf.
Sein Besucher fuhr fort:“Jetzt wissen wir nicht recht weiter. Ich meine, die Kopfwahrscheinlich-
keit p könnte doch prinzipiell jeder Wert zwischen 0 und 1 sein, oder?”
“Das schon”, dozierte W. O. , “aber nicht alle Werte passen in gleicher Weise zu Ihren Be-
obachtungen. Berechnen Sie doch (a) einmal die Wahrscheinlichkeiten, genau viermal in fünf
Versuchen ‘Kopf’ zu sehen, falls die tatsächliche Kopfwahrscheinlichkeit p 0.25, 0.5 oder 0.75
ist.”
“Warum gerade diese Werte”, fragte der andere.
“Nur als Beispiel, um Ihnen zu zeigen, dass nicht alle Werte von p im Lichte Ihrer Beobachtun-
gen gleich plausibel sind.”
“Und ein Wert von p , unter dem die Beobachtungen eine größere Wahrscheinlichkeit haben, ist
dann offensichtlich plausibler”, vermutete der Schwede.
Gar nicht dumm, fand W. O. und dachte an seinen früheren Mentor, der immer behauptet hatte,
Kriminalisten könnten nur deterministisch aber nicht statistisch denken. Sollte sein Mentor sich
darin geirrt haben? Oder war dieser Polizist ein Ausreißer? Aber der Begriff Ausreißer passte
eher zu Ganoven. Amüsiert von dem Gedanken fuhr W. O. fort: “Richtig. Aber Sie müssten

20
dasselbe eigentlich für alle Werte aus dem Intervall [0;1] machen. Also (b) die entsprechende
Funktion betrachten und ihre Maximalstelle suchen.”
“Klingt alles sehr einleuchtend”, meinte der andere mit diesmal viel freundlicherem Unterton,
“aber ist das nicht viel Arbeit?”
W. O. dachte an die Worte seines Mentors. Man dürfe die Leute auf keinen Fall überfordern. Bes-
ser alles genau erklären. Zweimal. Mindestens. “Es geht einfacher, wenn Sie (c) den Logarithmus
der Funktion betrachten. Die logarithmierte Funktion hat ja dieselbe Maximalstelle. Die Funk-
tion selbst nennt man übrigens Likelihood-Funktion, den Logarithmus davon log-Likelihood-
Funktion und die Maximalstelle Maximum-Likelihood-Schätzung.”
“Das hilft mir sehr - vielen Dank!” hörte W. O. den Polizisten sagen und achtete auf den Unter-
ton. Aber da war nichts Ironisches oder Sarkastisches zu bemerken. Verstohlen sah W. O. hinüber.
Tatsächlich hatten sich die Züge des Kommissars merklich aufgehellt. Was Statistik nicht alles
bewirken konnte. Selbst der Regen hatte aufgehört. Und in dem hellen Fleck oben am Himmel
konnte man so etwas wie die oberfränkische Sonne vermuten.
“Wenn Sie noch Fragen haben, rufen Sie mich an”, beendete W. O. das Treffen. “Sie haben ja
meine Nummer, Herr Kommissar - ach, (d) wie war noch gleich der Name?”

(aus: Schwedenpunsch. noch ungeschriebener, künftiger Bestseller, Eigenverlag.)


65. Student (Biometrika 5, 1907, S. 351–360) ermittelte durch Auszählen von 400 Volumeneinheiten
(VE) die folgenden Daten über die Anzahlen von Hefezellen in einer Volumeneinheit bestimmter
Suspensionen:

Anzahl k Anzahl der VE Anzahl der VE


der Hefezellen mit k Hefezellen mit k Hefezellen
(Suspension 1) (Suspension 2)
0 213 103
1 128 143
2 37 98
3 18 42
4 3 8
5 1 4
6 0 2

Man passe jeweils Poisson-Verteilungen an die Datensätze an und prüfe die Güte der Anpassung.
(Man gruppiere in sinnvoller Weise.)
66. In einer Population mögen entsprechend dem Hardy-Weinberg-Gleichgewicht die Genotypen AA,
Aa und aa mit den Wahrscheinlichkeiten θ2 , 2θ(1 − θ) und (1 − θ)2 auftreten. Man hat in einer
Stichprobe außerdem folgende Beobachtungen gemacht:

AA Aa aa
342 500 187
(a) Schätzen Sie θ.
(b) Prüfen Sie die Anpassungsgüte.

67. Eine Schachtel enthält genau n Zettel, die von 1 bis n durchnummeriert sind. Auf dem ersten
Zettel steht also die Zahl “1”, auf dem zweiten Zettel (falls n > 1) die Zahl “2” usw. n ist
unbekannt. Es wird einmal zufällig aus der Schachtel gezogen. Dabei ergibt sich der Wert k.

21
(a) Leiten Sie für diese Situation die Maximum–Likelihood–Schätzung für n (als Ausdruck von
k) her. Was ergibt sich konkret, falls k den Wert 5 hat?
(b) Leiten Sie für diese Situation die Schätzung für n (als Ausdruck von k) nach der Momen-
tenmethode her. Was ergibt sich konkret, falls k den Wert 5 hat?

68. Rot-Grün-Blindheit. Nehmen Sie an, Sie haben eine Zufallsstichprobe aus der Gesamtbevölke-
rung bzgl. der Rot-Grün-Blindheit mit folgendem Resultat:

Männer Frauen
normal 8 324 9 032
R-G-blind 725 40

Sie legen folgendes genetisches Modell zugrunde:


Die Rot-Grün-Blindheit ist rezessiv und wird auf dem X-Chromosom übertragen.
Sei θ die Wahrscheinlichkeit, dass ein gegebenes X-Chromosom “gesund”ist.
Nehmen Sie an, die Wahrscheinlichkeit, dass ein Junge geboren wird, ist gleich 12 .

(a) Verifizieren Sie folgende Wahrscheinlichkeitstabelle:

Männer Frauen

1
normal 2
θ θ(1 − 12 θ)

1 1
R-G-blind 2
(1 − θ) 2
(1 − θ)2

(b) Schätzen Sie θ mit der ML-Methode. Leiten Sie hierzu insbesondere die Likelihoodfunktion
L und die log-Likelihoodfunktion l her, und berechnen Sie die Ableitung von l.
(c) Berechnen Sie die χ2 -Statistik und den P -Wert. Wie groß ist hier die Anzahl der Freiheits-
grade?
(d) Welche Schwierigkeit tritt bei diesem Modell auf?

69. Eine Zufallsgröße besitze eine Verteilung, die durch die Kurve
(
θxθ−1 , 0 < x < 1
f (x) =
0 , sonst

beschrieben wird, wobei θ > 0 ein unbekannter Parameter ist. x1 , . . . , xn sei eine Stichprobe vom
Umfang n, d. h. n unabhängige Beobachtungen der Zufallsgröße.

(a) Mit welcher Wahrscheinlichkeit nimmt die Zufallsgröße einen Wert zwischen 0.5 und 0.9
an, falls θ = 2 ist?
(b) Leiten Sie eine Schätzung für θ auf der Basis der Stichprobe x1 , . . . , xn nach der Maximum–
Likelihood–Methode her.
(c) Leiten Sie eine Schätzung für θ auf der Basis der Stichprobe x1 , . . . , xn nach der Momen-
tenmethode her.
(d) Was ergibt sich nach (b) und (c) konkret für x1 = 0.5, x2 = 0.3, x3 = 0.7?

22
Die folgenden sechs Aufgaben sollen dazu dienen, Ihre Kenntnisse der Linearen Algebra (z. B. aus
der Vorlesung “Mathematische Grundlagen für Wirtschaftswissenschaftler”) aufzufrischen.

70. Sei folgendes Gleichungssystem gegeben:

x1 + x2 = 4
−4x1 + 3x2 + 3x3 = 2
−5x1 – 2x2 – x3 = –2

(a) Schreiben Sie obiges Gleichungssystem in Vektorschreibweise.


(b) Schreiben Sie obiges Gleichungssystem in Matrizenschreibweise

AX = B,

d. h. bestimmen Sie A, X und B.


(c) Durch A aus (b) sei eine Abbildung A : IR3 → IR3 definiert. Berechnen Sie das Bild von
   
2 3
   
X1 =  1  und X2 =  0 
0 1

und zeigen Sie weiterhin, dass

A(X1 + X2 ) = A(X1 ) + A(X2 )

(d) Bestimmen Sie die Maximalzahl linear unabhängiger Zeilen und die Maximalzahl linear
unabhängiger Spalten für die Matrix A.
(e) Finden Sie mit dem Gaußschen Algorithmus eine Lösung des Gleichungssystems.
(f) Existiert die Inverse von A?
Falls ja, geben Sie sie an, und überprüfen Sie Ihr Ergebnis durch
i. Berechnung von AA−1 ,
ii. erneutes Lösen des Gleichungssystems mit Hilfe der Inversen von A.
(g) Ist es möglich, das Matrixprodukt AT A zu bilden? Falls ja, berechnen Sie AT A. Existiert
die Inverse von AT A? Falls ja, berechnen Sie diese Matrix.

71. Bearbeiten Sie Aufgabe 70 mit folgendem Gleichungssystem:

−2x1 + 2x2 – 2x3 = –4


5x1 – 2x2 + 3x3 = 0
x2 – x3 = –1
3x1 + x2 + x3 = 1

der Abbildung A : IR3 → IR4


und den Vektoren    
1 0
   
X1 =  1  , X2 =  −1 
1 1

23
72. Es seien folgende Matrizen gegeben:
   
! 4 0 −2 1
2 0 1 2  1 1   1 1 
   
C= , D1 =   , D2 =  
3 4 0 1  −1 1   1 −1 
−1 0 3 −2

(a) Existieren folgende Matrixprodukte?


i. D1 C
ii. D1 D 2
iii. D1 D2T
iv. (CD1 )D1
(b) Verifizieren Sie: C(D1 + D2 ) = CD1 + CD2 .

Im folgenden sei E = C(D1 + D2 ).

(c) Erklären Sie, ob nachfolgende Gleichungen Sinn ergeben. Falls ja, finden Sie eine Lösung
für X ∈ IR2 .
!
0
i. CX = B1 , B1 = , X ∈ IR2
−4
!
0
ii. EX = B1 , B1 = , X ∈ IR2
−4
(d) Existiert die Inverse von E?
Falls ja, geben Sie diese an, und überprüfen Sie Ihr Ergebnis durch
i. Berechnung von EE −1 ,
ii. erneutes Lösen der Gleichung EX = B1 mit Hilfe der Inversen von E.
(e) Ist es möglich, das Matrixprodukt E T E zu bilden? Falls ja, berechnen Sie E T E. Existiert
die Inverse von E T E? Falls ja, berechnen Sie diese Matrix.

73. Führen Sie Aufgabe 72 mit folgenden Matrizen durch:


   
! 3 2 0 0 −3 1 !
1 0 1    4
C= , D1 =  −2 0 1  , D2 =  2 1 1 
 , B1 = , X ∈ IR3
1 1 0 1
−1 1 2 2 0 1

74. Lassen sich folgende Matrizen miteinander multiplizieren? Falls ja, aus welchem Raum ist das
Produkt?

A B AB
IRn×m IRn×m ?
IRn×m IRm×m ?
IRnm×1 IRn×m ?
IRn×m IR1×n+m ?
IRn×n IRn×m ?

24
75. Verifizieren Sie, dass für
 
! 1 1
3 2 1  
Z= , A= 0 0 
1 4 2
0 2
(Z · A)T = AT Z T und ((Z · A)−1 )T = ((Z · A)T )−1

gilt.

76. Rechnen Sie Beispiel 1 im Vorlesungsskript anhand der gerundeten Werte aus Tabelle 1.1 nach.
Verwenden Sie dabei die in der Statistik I vorgestellten Methoden aus den Kapiteln 10–12 von
Freedman et al., und gehen Sie in folgenden Schritten vor:

(a) Bestimmen Sie die Regressionsgerade für die Vorhersage des Luftdrucks aufgrund des Sie-
depunkts. Erklären Sie, warum bei Achsenabschnitt die größte Abweichung gegenüber den
Ergebnissen, die man aufgrund der exakten Werte erhält, zu erwarten ist.
Berechnen Sie die Residuen Ihrer Regressionsgerade, und kontrollieren Sie Ihr Ergebnis,
indem Sie mit dem Residuenplot in Figur 1.3 vergleichen.
(b) Machen Sie sich zunächst noch einmal klar, warum die Gerade nicht das richtige physika-
lische Modell darstellt.
Wiederholen Sie dann Teil (a) für das von Forbes vorgeschlagene Modell. Lassen Sie dabei
den Ausreißer (Punkt Nr. 12) außer Betracht. Berechnen Sie weiterhin den rms-Fehler.
(c) Überprüfen Sie die Behauptung, dass die eingepasste Gerade auch dann nur unwesentlich
höher zu liegen kommt, wenn der Ausreißer (Punkt Nr. 12) beim Einpassen mitverwendet
wird.

77. Die untenstehende Abbildung zeigt die Residuenplots von vier verschiedenen multiplen Regres-
sionen.
Jedoch deutet nur einer der vier Residuenplots darauf hin, dass das Modell angemessen ist.
Welcher?
Erklären Sie kurz, was bei den anderen drei Residuenplots auf Mängel im Modell schließen lässt.
res2
res1

fitted fitted
res3

res4

fitted fitted

25
78. Es gehe darum, p unbekannte Parameter θ1 , . . . , θp aufgrund von n fehlerbehafteten Beobachtun-
gen y1 , y2 . . . , yn zu schätzen. (Skript zur Kleinste-Quadrate-Regression, Abschnitt 3.1, S. 9ff).

(a) Verifizieren Sie, dass


n p !
X X
−2 yi − xik θk xij = 0, j = 1, . . . , p
i=1 k=1

die notwendige Bedingung dafür ist, dass Θ = (θ1 , θ2 , . . . θp )T die Summe der Residuenqua-
drate !
n p 2
X X
yi − xik θk
i=1 k=1

minimiert.
(b) Zeigen Sie, wie man von
n p !
X X
−2 yi − xik θk xij = 0, j = 1, . . . , p
i=1 k=1

zu den Normalgleichungen
p n
! n
X X X
xij xik θk = xij yi , j = 1, . . . , p
k=1 i=1 i=1

gelangt. Führen Sie weiter aus, wie diese p-Gleichungen in Matrizenschreibweise zu

X T XΘ = X T y

zusammengefasst werden können. Geben Sie dabei die Größe (d. h. die Anzahl der Spalten
und Zeilen) aller beteiligter Matrizen und Vektoren an.

79. Linearität in den Parametern. Eine Kleinste-Quadrate-Regression ist dann besonders einfach
durchzuführen, und die theoretischen Ergebnisse von Kapitel 3 des Skripts gelten immer dann,
wenn das Regressionsmodell in den Parametern linear ist.
Nun seien folgende Modelle für eine multiple Kleinste-Quadrate-Regression mit den Parametern
θ1 , θ2 und θ3 gegeben:
y = θ1 · exp(−θ2 x + θ3 w 2 ) · e

x
y = θ1 + θ2 + θ3 ln w + e
w

y = θ1 + θ2 sin(θ3 x) + e
Dabei seien x und w jeweils gegeben, und e stehe für die (mehr oder weniger) zufälligen Ab-
weichungen.
Entscheiden Sie für jedes der Regressionsmodelle, welche der folgenden Optionen richtig ist.

i. Das Modell ist linear in den Parametern θ1 , θ2 und θ3 .


ii. Das Modell ist zwar nicht linear in den Parametern θ1 , θ2 und θ3 , doch lässt es sich auf
einfache Weise in ein lineares Modell transformieren.

26
iii. Weder i. noch ii. ist richtig.

80. Das arithmetische Mittel als Spezialfall der Kleinste-Quadrate-Regression. Sie werden
damit beauftragt, das arithmetische Mittel der Einkommen der in Bayreuth gemeldeten Personen
zu schätzen. Zu diesem Zweck ziehen Sie eine einfache Zufallsstichprobe von 1 000 Personen.
Statt nun einfach das arithmetische Mittel der Einkommen zu berechnen, schlägt man Ihnen
vor, das folgende Modell zu betrachten:

yi = θ + ei , i = 1, 2, . . . , 1000 ,

wobei yi das Einkommen der i-ten Person in der Zufallsstichprobe ist, θ das unbekannte arithme-
tische Mittel in der Grundgesamtheit aller Personen und die Abweichung ei vom arithmetischen
Mittel dem Ziehen aus einer Fehlerschachtel entspricht.
Verwenden Sie nun die Methoden von Abschnitt 3.1 des Skripts zur Kleinste-Quadrate-Regres-
sion, um eine Formel für den Kleinste-Quadrate-Schätzer θb für das gesuchte arithmetische Mittel
in der Grundgesamtheit zu erhalten.

Gehen Sie dabei wie folgt vor:


(a) Verwenden Sie zunächst die Normalgleichungen θb = (X T X)−1 X T y.
Hinweis: Die Matrix X ist hier von besonders einfacher Gestalt.
(b) Berechnen Sie den Kleinste-Quadrate-Schätzer für dieses Problem nun auch direkt als die
Lösung des Minimierungsproblems (3.2) im Skript auf Seite 11.
Hinweis: Setzen Sie n = 1000 und p = 1.
81. Fehlermodelle. In Abschnitt 3.2 des Skripts werden drei Fehlermodelle (A), (B) und (C) vor-
gestellt.
Die Modelle (B) und (C) sind dabei Spezialfälle von Modell (A), und im Skript ist ausgeführt,
wie man den Effekt von Modell (B) mit Modell (A) erreicht. Beschreiben Sie nun, wie der Effekt
von Modell (C) mit Modell (A) erreicht wird.
82. Fortpflanzung von Beobachtungsfehlern. Der folgende synthetische Datensatz (aus: P. J.
Huber: Robust Statistics, Wiley, New York, 1981, S. 153) illustriert die Situation, die auch in
Figur 3.1 des Skripts gegeben ist.

Beobachtung x y
1 −4 2.48
2 −3 0.73
3 −2 −0.04
4 −1 −1.44
5 0 −1.32
6 10 0.00

Welche der Beobachtungen hat die stärkste Hebelwirkung (englisch: leverage) beim Einpassen
einer Regressionsgeraden?
Betrachten Sie den Graph dieses Datensatzes, und entscheiden Sie sich für eine der sechs Beo-
bachtungen. Berechnen und skizzieren Sie dann die Regressionsgerade von y auf x mit und ohne
Berücksichtigung dieser einen Beobachtung.
Vergleichen Sie auch mit der Situation von Übungsaufgabe 76.

27
83. Zufällige Fehler in den Parameterschätzungen. In Abschnitt 3.4 des Skripts wird erklärt,
wie man bei der multiplen Regression die Größe der zufälligen Fehler in den Parameterschätzun-
gen θbi sowie die Korrelationen zwischen diesen Fehlern schätzt.
Im Spezialfall des Fehlermodells (C) spielt dabei die Kovarianzmatrix der Parameterschätzungen,
die durch
C = σ 2 (X T X)−1
gegeben ist, die entscheidende Rolle.

Führen Sie in diesem Zusammenhang folgende Berechnungen durch:

(a) Ermitteln Sie die Kovarianzmatrix C der Parameterschätzungen für die Daten in Beispiel
2 (Ski-Ausflüge). Erklären und interpretieren Sie das Ergebnis!
(b) Für Beispiel 3 (Bremsweg eines Autos) sind die Standardfehler und die Korrelation der
Parameterschätzungen αb (= θb2 ) und βb (= θb1 ) auf Seite 20 angegeben. Interpretieren Sie
zunächst diese Daten, und geben Sie dann ohne Berechnung von σ 2 und (X T X)−1 die
Kovarianzmatrix C durch entsprechende formale Ausdrücke an.

84. Fehlermodelle und Fehlerschachteln. Ein Testgewicht wird zweimal gewogen. Für die zwei
Messfehler kann von einem Fehlermodell (C) ausgegangen werden, wobei die Fehlerschachtel
−1 −1 2
benutzt wird. In Aufgabe 145 (Statistische Methoden I) wurden hierzu bereits die
Fehlerschachtel (A) sowie deren Mittelwertvektor und Kovarianzmatrix hergeleitet. Stellen Sie
nun die Situation als lineares Modell in Matrixnotation dar, und leiten Sie eine Formel für die
Kleinste–Quadrate–Schätzung des ‘wahren’ Gewichts ab. Benutzen Sie dabei die Notation der
Vorlesung. Wie lautet die Fehlerschachtel (A′ )? Was lässt sich über den Schätzfehler sagen?

85. Zu Beispiel 4 (Autounfälle). Welche der Variablen unter Betracht sind vergleichsweise hoch
(positiv oder negativ) korreliert? Gehen Sie Tabelle 4.3 auf hohe Korrelationen durch, vergleichen
Sie mit der Scatterplot-Matrix in Figur 4.1, und versuchen Sie dann zu interpretieren.
Hinweis: Lesen Sie sorgfältig Kapitel 4 des Skripts und bringen Sie zusätzlich eigene Ideen mit
ein.

86. CP –Statistik von Mallows und Varianzanalyse. Berechnen Sie für die beiden alternativen
Modelle auf Seite 30 des Skripts (Bremsweg eines Autos, 1- und 2-Parameter-Modell) die CP -
Statistik von Mallows (Abschnitt 4.1).
Vergleichen Sie nun mit dem Ergebnis der Varianzanalyse (P = 0.0047 unter der Null-Hypothese
einer rein quadratischen Funktion; Kapitel 5).
Diskutieren Sie Gemeinsamkeiten und Unterschiede dieser beiden Ansätze zur Modellwahl bei
der multiplen Regression!

87. Ein weiteres Beispiel zur multiplen Regression. In der US-amerikanischen Rechtsspre-
chung wird häufig mit Hilfe statistischer Methoden untersucht, ob sich Arbeitgeber der Diskri-
minierung bestimmter Bevölkerungsgruppen schuldig machen (vgl. dazu auch die Aufgaben 45
und 46).
In einem speziellen Fall wurden die Anfangsgehälter aller 474 Personen betrachtet, die in den
Jahren 1969 bis 1971 von einer Bank neu eingestellt worden waren. Ziel war es nun, die abhängige
Variable
LOGBEG Logarithmus des Anfangsgehalts

28
in einer multiplen Kleinste-Quadrate-Regression aufgrund der folgenden unabhängigen Variablen
vorherzusagen:
EDLEVEL Bildungsstand (Anzahl der abgeschlossenen Schul- und Stu-
dienjahre).
SEX Geschlecht (weiblich = 1, männlich = 0)
WORK Berufserfahrung (in Jahren)
MINORITY ethnische Zugehörigkeit (nichtweiß = 1, weiß = 0)
AGE Alter (in Jahren).
Für die Rechnungen wurde das SPSS-Programmpaket verwendet, und die Ergebnisse sind in
den folgenden drei Tabellen zusammengefasst.

Tabelle 1. Korrelationsmatrix.

LOGBEG EDLEVEL SEX WORK MINORITY AGE

LOGBEG 1.000 .686 −.548 .040 −.173 −.048


EDLEVEL .686 1.000 −.356 −.252 −.133 −.281
SEX −.548 −.356 1.000 −.165 −.076 −.052
WORK .040 −.252 −.165 1.000 −.145 .804
MINORITY −.173 −.133 −.076 .145 1.000 .111
AGE −.048 −.281 .052 .804 .111 1.000

Tabelle 2. Kleinste-Quadrate-Schätzer und Standardfehler für die Regressionskoeffizienten (ein-


schließlich eines konstanten Terms) sowie damit verbundene Statistiken.

Variable B SE B Beta T Sig T

AGE 1.015396E−03 6.61324E−04 .07811 1.535 .1254


SEX −.10358 .01032 −.33699 −10.038 .0000
MINORITY −.05237 .01084 −.14157 −4.832 .0000
EDLEVEL .03144 1.74805E−03 .59195 17.988 .0000
WORK 1.607508E−03 9.24066E−04 .09143 1.740 .0826
(Constant) 3.38530 .03323 101.866 .0000

Tabelle 3. Varianzanalyse. Das größere Modell ist das volle Regressionsmodell mit allen sechs
Parametern (wie in Tabelle 2 spezifiziert), das kleinere Modell hat ausschließlich den konstanten
Term.

Multiple R .78420
R Square .61498
Adjusted R Square .61086
Standard Error .09559
Analysis of Variance
DF Sum of Squares Mean Square
Regression 5 6.83039 1.36608
Residual 468 4.27638 0.00914
F=149.50125 Signif F=0.0

29
Versuchen Sie, die Tabellen möglichst vollständig zu verstehen. Geben Sie insbesondere an:

(a) die Regressionsgleichung für LOGBEG,


(b) die Summe SRQ6 der Residuenquadrate im vollen Modell,
(c) den P -Wert bei der Varianzanalyse.

Erklären Sie weiter, was an den folgenden Aussagen nicht richtig ist:

(d) Mit der Korrelationsmatrix ist etwas nicht in Ordnung, denn alle Diagonalelemente sind
identisch gleich 1.0000.
(e) EDLEVEL ist die wichtigste unabhängige Variable bei der Regression, denn sie hat die größte
Korrelation mit LOGBEG.
(f) Das Ergebnis der multiplen Regression ist äußerst zufriedenstellend, denn die mittlere qua-
dratische Abweichung liegt bei 0.00914 und ist somit deutlich kleiner als 1.
(g) σb = 0.00914 ist ein Schätzer für den Standardfehler σ des Regressionsmodells.

88. Fallbeispiel aus der Betriebswirtschaftslehre.


In der Internet-Ausgabe der Financial Times Deutschland vom 08.04.2002 findet Hobby-Statistiker
W. O. in dem Artikel ‘2003 wieder mehr Dividende’ die folgenden Daten über die gezahlten
bzw. geschätzten Dividenden der 30 im DAX vertretenen Unternehmen:

30
geschätzte (gezahlte) (gezahlte)
Unternehmen Dividende 2002 Dividende 2001 Dividende 2000
y X1 X2

Adidas-Salomon 1.10 0.92 0.92


Allianz 2.00 1.50 1.50
BASF 1.30 1.30 1.30
Bayer 1.00 0.90 1.40
HypoVereinsbank 0.85 0.85 0.85
BMW 0.56 0.52 0.46
Commerzbank 0.40 0.40 1.00
DaimlerChrysler 1.00 1.00 2.35
Degussa 1.15 1.10 1.10
Deutsche Bank 1.30 1.30 1.30
Deutsche Lufthansa 0.00 0.00 0.60
Deutsche Post 0.39 0.37 0.27
Deutsche Telekom 0.37 0.37 0.62
Eon 1.65 1.60 1.35
Epcos 0.00 0.00 1.00
Fresenius Med. Care 1.10 0.85 0.91
Henkel 1.20 1.12 1.12
Infineon 0.00 0.00 0.65
Linde 1.55 1.13 1.35
MAN 0.60 0.60 1.00
MLP 0.63 0.53 0.38
Metro 1.39 1.02 1.19
Münchener Rück 1.50 1.25 1.25
Preussag 0.87 0.77 0.77
RWE 1.20 1.00 1.10
SAP 0.53 0.58 1.04
Schering 1.01 0.83 1.00
Siemens 1.10 1.00 1.60
ThyssenKrupp 0.00 0.60 0.75
VW 1.20 1.30 1.20

Genauer handelt es sich bei ‘Dividende 2001 (bzw. 2000)’ um die Dividendenzahlung im Jahr
2002 (bzw. 2001) für 2001 (bzw. 2000). Die Schätzungen betreffen entsprechend die Dividenden-
zahlungen im Jahr 2003 für 2002. Sie stammen von der Deutschen Bank (mit Ausnahme des
Wertes für die Deutsche Bank selbst, der von Thomson Financial/IBES stammt).
(Anmerkung: Die Daten scheinen einige Fehler zu enthalten, z. B. für die BASF-Dividende 2000
oder die MLP-Dividende 2001. Der Vergleich mit anderen Quellen ist aber zusätzlich wegen
Rumpfgeschäftsjahren und Boni erschwert. Deswegen werden zur Vereinfachung und Authenti-
zität die Daten in der hier angegebenen Form zugrunde gelegt.)

31
Hobby-Statistiker W. O. fragt sich, ob man nahezu die gleichen Schätzungen nicht durch ein
ganz einfaches Regressionsmodell beschreiben könnte. Helfen Sie ihm bei seinen Überlegungen!

(a) Er hat zunächst eine einfache Regression von y auf X1 durchgerechnet. Die folgenden Ab-
bildungen zeigen dafür das Streuungsdiagramm und den Residuenplot. (Die in Klammern
gesetzte 3 bedeutet darin, dass der damit versehene Punkt dreimal auftritt.)

Residuenplot
2.0 Streuungsdiagramm

0.2
y (geschaetzte Dividende 2002)

1.5
(3)
0.0

Residuen
1.0
-0.2

0.5 -0.4

-0.6
0.0
(3)

0.0 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0
X1 (Dividende 2001) X1 (Dividende 2001)

(i) Markieren Sie im Streuungsdiagramm und im Residuenplot denjenigen Punkt, den Sie
am ehesten als ‘Ausreißer’ ansehen würden, indem Sie ihn einkreisen, also durch .
Identifizieren Sie die zugehörige Aktiengesellschaft, und geben Sie den Namen an.
(ii) Markieren Sie im Streuungsdiagramm und im Residuenplot denjenigen Punkt, dem
Sie die größte ‘Hebelwirkung’ zuschreiben würden, indem Sie ihn mit einem Kasten
umgeben, also durch ✷. Begründen Sie Ihre Antwort kurz in Stichworten, und geben
Sie auch an, ob es sich bei diesem Punkt um einen ‘Ausreißer’ handelt oder nicht.
(iii) Welches weitere Problem zeigt sich im Residuenplot? Woher könnte es rühren? Ant-
worten Sie kurz - eventuell in Stichworten.

(b) Hobby-Statistiker W. O. ist der Überzeugung, dass die Dividendenfestlegung in zwei Stufen
erfolgt:
Zuerst wird entschieden, ob überhaupt eine Dividende gezahlt werden soll. (Bei ‘mickrigen’
Dividenden verzichtet man lieber darauf.)
Sodann wird (im Falle einer Zahlung) die Höhe festgelegt.
Da es ihm bei seinem Modell nur um die Höhe der Zahlungen geht, schließt er künftig alle
Unternehmen, bei denen bei y, X1 oder X2 an irgendeiner Stelle eine ‘0.00’ auftritt aus
seiner weiteren Untersuchung aus. Außerdem logarithmiert er aus verschiedenen Gründen
die Zahlen für die verbleibenden 26 Aktiengesellschaften. Er geht also zu den neuen Va-
riablen Ly = log(y), LX1 = log(X1 ) und LX2 = log(X2 ) über, wobei log den natürlichen
Logarithmus bezeichnen soll.
Auch hierfür berechnet er wieder eine einfache Regression von Ly auf LX1 . Die folgenden

32
Abbildungen zeigen dafür das Streuungsdiagramm und den Residuenplot.

Streuungsdiagramm Residuenplot
0.2

Ly (log geschaetzte Dividende 2002) 0.5

0.1

0.0

Residuen
0.0

-0.5
-0.1

-1.0 -0.2

-0.7 -0.2 0.3 -0.7 -0.2 0.3


LX1 (log Dividende 2001) LX1 (log Dividende 2001)

Die Diagramme scheinen ihm zwar nicht ideal, aber für seine Zwecke akzeptabel, so dass
er im folgenden die Daten in dieser Form zugrunde legt. Er hat außerdem folgende Größen
berechnet:
Regressionsgerade von Ly auf LX1 : Ly = 1.0658LX1 + 0.1065
Mittelwert der Residuen: 0.0
Standardabweichung der Residuen: 0.11

(i) Welche Vorhersage für den Wert von y würde W. O. für ein Unternehmen machen, das
eine Dividende von X1 = exp((log 1.8 − 0.1065)/1.0658) ≈ 1.57 auszahlte?
(ii) Mit welchem mittleren Fehler muss W. O. bei seinen Vorhersagen für y rechnen, wenn er
zufällig eines der 26 Unternehmen auswählt und dafür y mittels der obigen einfachen
Regressionsgerade von Ly auf LX1 berechnet? Untersuchen Sie ausführlich Art und
(ungefähre) Größe des Fehlers.
(c) (Fortsetzung von Teil (b); die dortigen Angaben sollen weiter gelten.) Außer dem Modell

Ly = θ1 LX1 + θ3 + e (I)
aus Teil (b) mit einer Residuenquadratsumme von 0.3163 hat W. O. auch das Modell

Ly = θ1 LX1 + θ2 LX2 + θ3 + e (II)


durchgerechnet und hierfür eine Residuenquadratsumme von 0.3014 erhalten. Er berechnet
nun die Größe

(0.3163 − 0.3014)
≈ 1.14
0.3014/23

33
Erklären Sie, was er damit beabsichtigt und welchen Schluss er daraus ziehen wird.

(d) W. O. denkt, dass die einfache Regression

Ly = 1.0658LX1 + 0.1065 (III)


aus (b) den Zusammenhang zwischen Ly und LX1 recht brauchbar beschreibt. Er fragt sich
allerdings, ob er sein Modell auch auf andere Jahre übertragen kann. Ein Kollege meint,
dass man dies leicht überprüfen könne, da ja Daten für drei Jahre zur Verfügung stünden,
und schlägt vor, die Beziehungen

Ly = 1.0658LX2 + 0.1065 (IV )

oder
LX1 = 1.0658LX2 + 0.1065 (V )
zu untersuchen. Hat er recht? Welche Beziehung sollte man eher betrachten? Oder sind
beide nicht sinnvoll? Erklären Sie kurz.
(e) W. O. hat für die logarithmierten Variablen folgende Tabelle berechnet:
Nr LX1 LX2 Ly
1 −0.083 −0.083 0.095
... ... ... ...
26 0.262 0.182 0.182
wobei die Spalte ‘Nr’ lediglich die Zeilen zählt. Überprüfen Sie zunächst seine Rechnung.
Weiterhin hat er für diese Daten mittels eines Computerprogramms die Kleinste-Quadrate-
Regression für das Modell

Ly = θ1 LX1 + θ2 LX2 + θ3 + e (V I)

durchgerechnet. Die Berechnung ergab (in der Notation der Vorlesung) folgende Resultate:
   
0.006382 −0.004298 0.000972 1.1283

σc2 (X T X)−1 =  −0.004298 0.005374 −0.000653  und θ =  −0.0781 
 b 

0.000972 −0.000653 0.000652 1.1160

Summe der Residuenquadrate: 0.3014

Ferner darf angenommen werden, dass die üblichen Annahmen für ein Regressionsmodell
erfüllt sind.

(i) Wie groß ist der Korrelationskoeffizient von θb1 und θb3 ?
(Angabe eines mathematisch exakten Ausdrucks genügt; numerische Auswertung oder
Erklärungen sind nicht erforderlich.)
(ii) Wie groß ist der (geschätzte) Standardfehler von θb2 ?
(Angabe eines mathematisch exakten Ausdrucks genügt; numerische Auswertung oder
Erklärungen sind nicht erforderlich.)

34
(iii) Wie lautet die Regressionsgleichung für die Vorhersage von Ly auf der Basis von LX1
und LX2 ?
(Angabe der Gleichung genügt; Erklärungen sind nicht erforderlich.)

(iv) An die Daten wurden außerdem die Modelle

Ly = θ1 LX1 + θ3 + e (V II)
und

Ly = θ2 LX2 + θ3 + e (V III)
angepasst, wobei sich die Residuenquadratsummen 0.3163 (für (V II)) und 2.9154 (für
(V III)) ergaben. Mit Hilfe dieser Daten wurden die Werte der Cp –Statistik von Mal-
lows für alle drei Modelle berechnet, wobei Modell (V I) als das volle Modell fungierte.
Leider sind nur noch zwei dieser Werte erhalten, nämlich (in aufsteigender Reihenfolge)
2.1 und 200.5. Geben Sie – sofern möglich – die Cp -Statistiken für die drei Modelle an.
Falls das nicht möglich ist, geben Sie den Vermerk ‘nicht möglich’ an. (Begründungen
sind nicht erforderlich.) Welches der drei Modelle würde man nach dem Cp –Kriterium
auswählen? (Begründungen sind nicht erforderlich.)

89. Fallbeispiel aus der Ökonometrie.


Insbesondere in der Ökonometrie treten häufig multiple Regressionen auf. Die unten angegebene
Tabelle enthält reale Daten aus den Jahren 1960 - 1985 für die USA (entnommen aus: M. D. In-
triligator/R. G. Bodkin/C. Hsiao: Econometric Models, Techniques, and Applications, 2nd ed.,
Upper Saddle River, 1996, TABLE 3.2, S. 53). Dabei bedeuten:
Y: trillions of dollars of GNP per year
(Bruttonationaleinkommen (‘Bruttosozialprodukt’) in Billionen(!) Dollar)
G: trillions of dollars of government spending per year
(Staatsausgaben in Billionen(!) Dollar).

(a) Verschaffen Sie sich zunächst einen geeigneten Überblick über die Daten.
(b) An die Daten soll insbesondere das Modell

Yt = θ1 Yt−1 + θ2 Gt + θ3 + et (I)

(mit t=1961, . . . , 1985), angepasst werden. Was bedeuten die Komponenten dieses Modells
jeweils inhaltlich und formal? Schreiben Sie das Modell (I) in der Notation der Vorlesung
auf. Wie lauten in diesem Fall X und y?
(c) Eine Computerberechnung ergab:
 
84.274216 18.510259 38.674000
(X X) =  18.510259 4.071460 8.632000 
T 

38.674000 8.632000 25.000000

 
13.947252 −65.925194 1.186810
(X T X)−1 =
 −65.925194 312.528601 −5.926237 

1.186810 −5.926237 0.250263

35
 
91.832084
T  
X y =  20.176344 
42.185000

Residuenquadratsumme: SRQ = 0.0638307.

Ermitteln Sie hieraus die Kleinste-Quadrate-Schätzung für den Vektor θ. Wozu lässt sich
diese Schätzung verwenden?
(d) Welchen Wert sagt das Modell für das Jahr 1985 voraus? Wie groß ist das entsprechende
Residuum? Was halten Sie von dem Vorschlag, den fehlenden Wert G1960 durch ‘Auflösen’
der entsprechenden Gleichung zu ermitteln?
(e) Berechnen Sie die Schätzungen für den Wert σ und für die Kovarianzmatrix der Schätzun-
gen. Was besagen diese Größen?
(f) Betrachten Sie die einzelnen Koeffizienten θi im Detail. Was lässt sich darüber sagen? Was
bedeutet dies?
(g) Betrachten Sie schließlich auch weitere Modelle neben dem Modell (I), insbesondere das
Modell
Yt = θ1 + et . (II)
Welche Überlegungen lassen sich hieran anknüpfen? Was sind Ihre Schlussfolgerungen?
Welche Probleme sehen Sie gegebenenfalls?
(h) Wie lassen sich jeweils die Modellannahmen am besten überprüfen? Was stellen Sie fest?

Jahr Y G
1960 .504 –
61 .520 .108
62 .560 .117
63 .589 .123
64 .629 .128
65 .685 .137
66 .750 .157
67 .790 .178
68 .864 .200
69 .930 .210
1970 .982 .219
71 1.063 .234
72 1.171 .253
73 1.307 .270
74 1.434 .304
75 1.549 .340
76 1.718 .362
77 1.918 .394
78 2.164 .432
79 2.418 .474
1980 2.732 .530
81 3.053 .588
82 3.166 .642
83 3.406 .675
84 3.772 .736
85 4.015 .821

36
Wiederholung und Ergänzungen

90. Wahr oder falsch? Kennzeichnen Sie jede der folgenden Aussagen als “wahr” oder “falsch”,
und erklären Sie.

(a) Bei Signifikanztests wird festgestellt, ob die Nullhypothese richtig ist.


(b) Da beim Wilcoxon-Rangsummentest nur die Ränge, nicht aber die tatsächlichen Werte der
Beobachtungen eine Rolle spielen, geht stets etwas Information verloren.
(c) Der Wilcoxon-Rangsummentest sollte nur dann durchgeführt werden, wenn das Histo-
gramm für keinen der beiden zu vergleichenden Datensätze einer Normalverteilungsdichte
folgt.
(d) Selbst wenn die Nullhypothese richtig ist, werden von 1 000 Signifikanztests etwa 50 ein
statistisch signifikantes Ergebnis liefern.
(e) Ist das Ergebnis eines Signifikanztests statistisch hochsignifikant, so ist es auch wichtig.
(f) Für einseitige t-Tests muss beim Nachschlagen des P -Werts eine andere Tabelle benutzt
werden als für zweiseitige.
(g) Wenn man nur den Stichprobenumfang hinreichend groß macht, so werden auch beliebig
kleine – und damit praktisch bedeutungslose – Unterschiede statistisch signifikant.

91. Ein Zigarettenhersteller behauptet, dass seine Zigarettenmarke “Supersmoke” einen Teergehalt
von 10 mg/Stück aufweist. Zehn unabhängige Versuche liefern die Messungen

10.1, 10.3, 9.9, 10.5, 9.8, 10.4, 10.3, 10.3, 10.2, 10.1 .

Man kann annehmen, dass diese Werte aus einer Normalverteilung mit unbekanntem Mittelwert
und Standardabweichung 0.2 stammen. Was halten Sie von der Behauptung?

92. Hobby-Statistiker W. O. hat von einem Vogelkundler die folgenden Daten über die Anzahl von
Eiern in Vogelnestern einer bestimmten Spezies erhalten:

Anzahl k der Eier 1 2 3 ≥4


Anzahl der Nester mit k Eiern 90 60 30 50

(Da die Nester nicht zerstört werden sollten, hat der Vogelkundler im Falle von “≥ 4” die exakte
Zahl der Eier nicht feststellen können.) W. O. vermutet, dass sich die Anzahl X der Eier in
Nestern dieser Vogelart gut durch die Verteilung mit den Wahrscheinlichkeiten

P (X ≥ k) = (1 − p)k−1 (∗)
für k = 1, 2, . . .darstellen lässt, wobei p ein geeigneter Parameter ist.

(a) Wie groß ist bei Vorliegen der Verteilung (*) die Wahrscheinlichkeit, genau k Eier vorzu-
finden? Leiten Sie einen einfachen Ausdruck dafür — also für P (X = k) — her. (Hinweis:
Betrachten Sie P (X ≥ k) und P (X ≥ k + 1).)
(b) Leiten Sie für die obigen Daten die Maximum-Likelihood-Schätzung p̂ für p her.

37
93. Hobby-Statistiker W. O. muss einen Wilcoxon-Test mit den Stichprobenumfängen n = 2 (für
die kleinere Stichprobe) und m = 2 (für die größere Stichprobe) durchführen. Leider beginnen
unsere Tafeln erst bei den Werten n = 3 und m = 3. Helfen Sie daher W. O., indem Sie die
folgende Tafel für n = 2 und m = 2 vervollständigen. (Hinweis: Die Tafel soll im Aufbau unseren
Tafeln entsprechen und die Werte P (Wxy ≤ a) angeben.)

n a m=2

2 0

94. Um die Qualität des neuen Waschmittels SUPERWEISS zu demonstrieren, wurden 13 ver-
schmutzte Wäschestücke jeweils in zwei Hälften geteilt. Durch Randomisierung wurde dann eine
Hälfte ausgewählt, die mit SUPERWEISS gewaschen wurde. Die andere Hälfte des (gleichmäßig
verschmutzten) Wäschestücks wurde mit einem Vergleichswaschmittel gewaschen. Anschließend
wurde von einer Jury für die 13 Paare eine Wertung vorgenommen, ob die mit SUPERWEISS
gewaschene Hälfte sauberer (Wertung: “+”) oder weniger sauber (Wertung: “–”) war oder ob
kein Unterschied festzustellen war (Wertung: “0”). Es ergaben sich folgende Resultate:

Wäschestück 1 2 3 4 5 6 7 8 9 10 11 12 13

Wertung + + – + 0 + + + + + – + +

(a) Der Hersteller von SUPERWEISS möchte nachweisen, dass SUPERWEISS besser ist. Wie
lautet in diesem Fall die Nullhypothese und die Alternative? (Geben Sie diese jeweils rein
verbal und mittels eines statistischen Parameters an.)
(b) Welchen Test wird man verwenden? Geben Sie den Namen des Testes an.
(c) Führen Sie den Test durch, und geben Sie Ihr Ergebnis für den P-Wert an.

95. Hobby–Statistiker W. O. vermutet, dass die Klausurergebnisse in einem Statistikkurs, den er


mit drei verschiedenen Übungsgruppen abhält, nach den Übungsgruppen differieren. Genauer
geht er davon aus, dass für die Übungsgruppe j (mit j=1, 2 oder 3) das Modell

y = θj + e (1)

zutrifft, wobei y das Klausurresultat eines Teilnehmers und e einen zufälligen Fehler bezeichnet.
Er hat gerade eine Stichprobe vom Umfang n1 aus der ersten Übungsgruppe, eine Stichprobe

38
vom Umfang n2 aus der zweiten Übungsgruppe und eine Stichprobe vom Umfang n3 aus der
dritten Übungsgruppe gezogen. Die y–Werte hat er dabei in der Reihenfolge der Gruppen notiert,
also zunächst die n1 Werte aus Gruppe 1, dann die n2 Werte aus Gruppe 2 und schließlich die
n3 Werte aus Gruppe 3. Im folgenden sei außerdem n = n1 + n2 + n3 .
(a) W. O. benutzt das Modell

yi = xi1 θ1 + xi2 θ2 + xi3 θ3 + ei (2)

(mit i=1, . . . , n), um die drei Teilmodelle aus (1) gemeinsam zu erfassen. Geben Sie für diese
Situation (und mit den Notationen der Vorlesung) an, wie er die Werte xij (für i=1, . . . , n
und j=1,2,3) wählen muss.
(b) Wie sehen y und die Matrix X aus, wenn W. O. das Modell (2) in Matrizenschreibweise

y = Xθ + e (3)

aufschreibt?
(c) Geben Sie die Kleinste-Quadrate-Schätzung θ̂ von θ für diese Situation an.
(d) Welche Interpretation für die Schätzungen θˆj (j=1,2,3) kann man angeben?
96. Betrachtet werden (hier nicht vollständig wiedergegebene) Daten der Form

Nr X1 X2 Y
1 2.5 1000 5839
... ... ... ...
10 10.5 2200 19929

wobei die Spalte ‘Nr’ lediglich die Zeilen zählt. Die Korrelationsmatrix der Variablen X1 , X2
und Y lautet:

X1 X2 Y
X1 1.00000 0.99067 0.99226
X2 0.99067 1.00000 0.99126
Y 0.99226 0.99126 1.00000

Für diese Daten wurden mittels eines Computerprogramms verschiedene Kleinste-Quadrate-


Regressionen durchgerechnet. Dabei wird die Notation der Vorlesung verwendet.

(i) Für das Modell


Y = θ1 X1 + θ2 X2 + θ3 + e (I)
ergab sich die Regressionsgleichung

Y = 1131.03X1 + 4.00X2 − 1806.82

und die Residuenquadratsumme 19303908. Ferner war:


 
0.13749 −0.00059896 0.19007

(X T X)−1 =  0.0000026586 −0.00095863 

7.0823

(Die Werte unterhalb der Diagonale ergeben sich durch Symmetrie.)

39
(ii) Für das Modell
Y = θ1 X1 + θ2 + e (II)
ergab sich die Regressionsgleichung

Y = 2032.53X1 − 363.98

und die Residuenquadratsumme war 25326684.


(iii) Für das Modell
Y = θ1 + e (III)
ergab sich die Regressionsgleichung

Y = 20245.9

und die Residuenquadratsumme 1643034084.

Betrachten Sie nun das Modell

Y = θ1 X1 + θ2 X2 + θ3 + e (I)

(a) Berechnen Sie die Standardfehler (SE) und die t-Werte der Schätzungen θc1 , θc2 und θc3 , und
stellen Sie diese in der folgenden Tabelle übersichtlich dar. (Angabe der fehlenden Werte
genügt; Erklärungen sind nicht erforderlich.)
Variable Schätzung SE t-Wert

X1 1131.03

X2 4.00

Abschnitt -1806.82

(b) Betrachten Sie die Tabelle aus (a). Welche der Koeffizienten θc1 , θc2 und θc3 sind nach dem
t-Kriterium (einzeln betrachtet)1 signifikant (zum Niveau 5%) von Null verschieden?2 Wel-
ches dieser Modelle würden Sie aufgrund dieses Kriteriums bevorzugen?
(c) Prüfen Sie mittels eines exakten Testes zum Niveau 5% durch Vergleich des Modells (III)
mit dem Modell (I), ob das Modell (III) bereits zur Erklärung der gefundenen Daten
ausreicht.2
(d) Manchmal wird behauptet, Variablen, deren geschätzte Koeffizienten nach dem t-Kriteri-
um nicht signifikant von Null verschieden sind, wären in der Modellgleichung überflüssig
und sollten einfach weggelassen werden. Diskutieren Sie diese Auffassung kurz im Hinblick
auf die Ergebnisse zu (b) und (c) und die sonstigen Angaben zu dieser Aufgabe. (Die
Problematik des multiplen Testens kann hier wieder vernachlässigt werden.)
(e) Berechnen Sie die Cp -Statistik von Mallows für die Modelle (I) und (III).2 Welches dieser
Modelle würden Sie aufgrund dieses Kriteriums bevorzugen?

1
Multiples Testen kann hier außer acht gelassen werden.
2
Führen Sie alle Einzelschritte explizit und in sauberer Darstellung auf, und halten Sie das Ergebnis deutlich fest.

40

Das könnte Ihnen auch gefallen