Beruflich Dokumente
Kultur Dokumente
Während man in der Schätztheorie die Beobachtungen nur dazu nutzt, den zugrun-
de liegenden Zufallsmechanismus möglichst zutreffend zu beurteilen, geht es in der
Testtheorie um das rationale Verhalten in (eventuell folgenschweren) Entscheidungs-
situationen. Man formuliert eine Hypothese über den wahren Zufallsmechanismus,
der die Beobachtungen steuert, und muss sich anhand der Beobachtungsergebnisse
entscheiden, ob man die Hypothese für zutreffend hält oder nicht. Dabei kann man
sich natürlich irren. Deshalb möchte man Entscheidungsregeln entwickeln, für welche
die Irrtumswahrscheinlichkeit möglichst klein ist – egal welche Situation in Wahrheit
vorliegt.
10.1 Entscheidungsprobleme
Zur Motivation erinnern wir an Beispiel (7.1).
Offenbar kommt alles auf die richtige Wahl der Schranke c an. Wie soll diese ge-
schehen? Allgemein geht man in solchen Entscheidungssituationen folgendermaßen
vor.
Statistisches Entscheidungsverfahren.
1. Schritt: Formulierung des statistischen Modells. Wie immer muss zuerst das sta-
tistische Modell formuliert werden. Wenn dieses nicht stimmt, kann man sich alles
Weitere sparen! Im vorliegenden konkreten Fall ist aber klarerweise X D ¹0; : : : ; nº,
‚ D ¹0; : : : ; N º, und P# D HnI#;N # für # 2 ‚.
2. Schritt: Formulierung von Nullhypothese und Alternative. Man zerlegt die Parame-
termenge ‚ in zwei Teilmengen ‚0 und ‚1 gemäß dem folgenden Prinzip:
verwenden, und die oben aufgeworfene Frage nach der Wahl von c kann jetzt be-
antwortet werden: c sei die kleinste Zahl, für welche noch die Forderung aus dem
3. Schritt eingehalten wird. Erst an letzter Stelle folgt schließlich der
5. Schritt: Durchführung des Experiments. Warum erst jetzt und nicht schon früher?
Weil sonst Täuschung und Selbsttäuschung fast unvermeidbar sind! Gesetzt den Fall,
ich habe eine Vermutung, die ich verifizieren möchte, und mache die entsprechenden
Beobachtungen gleich zu Anfang. Dann kann ich in den Daten „schnuppern“ und
F Nullhypothese und Alternative an die Daten anpassen,
F Niveau und Entscheidungsregel geeignet auswählen, und
F notfalls störende „Ausreißer“ eliminieren,
bis die Entscheidungsregel zum gewünschten Ergebnis führt. Wenn so vorgegangen
wird (wozu die menschliche Natur leider neigt!), kann von Wahrscheinlichkeiten kei-
ne Rede mehr sein, und das Ergebnis ist fest vorprogrammiert. Der Test dient dann
einzig dazu, einer vorgefassten Meinung einen pseudowissenschaftlichen Anstrich zu
geben!
Abbildung 10.1 versucht, die Vorgehensweise zeichnerisch zu veranschaulichen.
X
r ‚1?
‚0 ode ?
‚0 'D0 N iveau ˛ den
it # 2 ‚0neiden!
?
Modell ’s m
u s d e n P #
w eg sc h
A eil
ten ˛ -T enn x in
schlech hnen, w
‚0 able ser Teile liegt
ie
# einem d
P#
˛ x
‚1
'D1 Ich lehne die Nullhypothese ‚0 ab!
Abbildung 10.1. Das Prinzip des Testens: ‚ zerfällt in die „Normalfälle“ ‚0 und die
„Problemfälle“ ‚1 ; vom tatsächlichen # soll aufgrund der Beobachtung x ermittelt wer-
den, in welchem Teil es liegt. Der Statistiker analysiert wie immer das Modell, gibt sich
ein Irrtumsniveau ˛ vor und zerlegt (im nichtrandomisierten Fall) den Ergebnisraum X
so in einen Annahmebereich ¹' D 0º und einen Ablehnungsbereich ¹' D 1º, dass der
hier gezeigte „peinliche Fehler“ (# 2 ‚0 , aber '.x/ D 1) höchstens Wahrscheinlichkeit
˛ bekommt, und der umgekehrte Fehler ebenfalls möglichst unwahrscheinlich ist. Dies
geschieht durch Abschneiden eines untypischen ˛-Anteils aus jedem P# mit # 2 ‚0 .
(a) Jede Statistik ' W X ! Œ0; 1 (die als Entscheidungsregel interpretiert wird)
heißt ein Test von ‚0 gegen ‚1 . Ein Test ' heißt nichtrandomisiert, falls er nur die
Werte 0 und 1 annimmt, also zu klaren Entscheidungen führt; andernfalls heißt er ran-
domisiert. Im ersten Fall heißt ¹x 2 X W '.x/ D 1º der Ablehnungsbereich, Verwer-
fungsbereich oder kritische Bereich, und ¹x 2 X W '.x/ D 0º der Annahmebereich
des Tests '.
(b) Die im ungünstigsten Fall vorliegende Wahrscheinlichkeit für einen Fehler
erster Art ist sup#2‚0 E# .'/; sie heißt der Umfang oder das effektive Niveau von '.
Ein Test ' hat das (Irrtums- oder Signifikanz-)Niveau ˛, wenn sup#2‚0 E# .'/ ˛.
(c) Die Funktion G' W ‚ ! Œ0; 1, G' .#/ D E# .'/ heißt die Gütefunktion des
Tests '. Für # 2 ‚1 heißt G' .#/ die Macht, Stärke oder Schärfe von ' bei #. Die
Macht ist also die Wahrscheinlichkeit, mit der die Alternative erkannt wird, wenn sie
vorliegt, und ˇ' .#/ D 1 G' .#/ ist die Wahrscheinlichkeit für einen Fehler zweiter
Art: dass nämlich das Vorliegen der Alternative nicht erkannt wird und deshalb die
Nullhypothese fälschlich akzeptiert wird.
Aus der vorangegangenen Diskussion ergeben sich folgende zwei
Forderungen an einen Test ':
F G' .#/ ˛ für alle # 2 ‚0 ; d. h., ' soll das Niveau ˛ einhalten, die Irrtums-
wahrscheinlichkeit erster Art also höchstens ˛ betragen.
Š
F G' .#/ D max für alle # 2 ‚1 ; d. h., die Macht soll möglichst groß, ein Fehler
zweiter Art also möglichst unwahrscheinlich sein.
Diese Forderungen führen zu folgendem Begriff.
Definition. Ein Test ' von ‚0 gegen ‚1 heißt ein (gleichmäßig) bester Test zum
Niveau ˛, wenn er vom Niveau ˛ ist und für jeden anderen Test zum Niveau ˛ gilt:
G' .#/ G .#/ für alle # 2 ‚1 :
(In der englischen Literatur verwendet man das Kürzel „UMP test“ für „uniformly
most powerful test“.)
Unser Ziel wird es also sein, beste Tests zu finden. Ob ein bester Test jedoch auch
gut ist, nämlich gut genug für eine konkrete Entscheidungssituation, ist nicht automa-
tisch klar. In jeder Anwendungssituation steht man vor dem Problem, das Niveau und
die Macht eines Tests geeignet auszubalancieren. Je kleiner das Niveau, desto kleiner
ist im Allgemeinen auch die Macht. Anders gesagt: Je strikter man einen Fehler erster
Art vermeiden möchte, umso geringere Chancen hat man, die Alternative zu entde-
cken, wenn sie vorliegt, d. h. um so wahrscheinlicher wird ein Fehler zweiter Art.
Wenn Niveau und Macht nicht ausreichen für eine hinreichend gesicherte Entschei-
dung, bleibt nur der (manchmal unbequeme) Ausweg, die zur Verfügung stehende
Information zu erhöhen, also mehr oder bessere Beobachtungen durchzuführen. Das
folgende Beispiel soll diese und weitere Probleme verdeutlichen.
21 ; 1; denn der peinliche Irrtum wäre es ja, einer Person mediale Fähigkeiten zu
bescheinigen, obgleich diese in Wirklichkeit auf bloßes Raten angewiesen ist.
F Ein solides Irrtumsniveau ist ˛ D 0:05; das ist klein genug, um ein positives
Testergebnis überzeugend gegen Skeptiker vertreten zu können.
F Genau wie in Beispiel (10.1) bietet sich an, einen Test der Gestalt ' D 1¹c;:::;nº
zu wählen, mit geeignetem c 2 X ; eine nähere Begründung folgt unten. (Im
Anschluss an Satz (10.10) werden wir sogar sehen, dass solch ein ' für sein ef-
fektives Niveau optimal ist.) Ein Blick in eine Tabelle der Binomialquantile lehrt
den Versuchsleiter, dass er c D 15 wählen muss, wenn er das Niveau ˛ einhal-
ten will. Dann gilt allerdings sogar G' . 21 / D Bn;1=2 .¹15; : : : ; nº/ 0:0207.
„Umso besser“, denkt er sich, „das effektive Niveau ist also noch kleiner, und
das Testergebnis daher umso überzeugender.“
F Der Test wird durchgeführt, und das Medium erzielt x D 14 Treffer. Es ist also
'.x/ D 0, und der Versuchsleiter muss dem Medium (und der Öffentlichkeit)
mitteilen, dass die medialen Fähigkeiten durch den Versuch nicht bestätigt wer-
den konnten.
Mit diesem Ergebnis will sich der Versuchsleiter aber nicht zufrieden geben. Er ist
durch die Zahl der Treffer (und vielleicht auch die Aura des Mediums) beeindruckt
und überlegt sich das Folgende:
„Das Ergebnis ist nur die Schuld meiner Versuchsplanung. Hätte ich den Test
D 1¹14;:::;nº gewählt, hätte ich dem Medium seine medialen Fähigkeiten zuge-
sprochen, und hat doch immerhin noch das Niveau Bn;1=2 .¹14; : : : ; nº/ 0:0577,
also kaum mehr, als ich mir ursprünglich vorgenommen habe. Außerdem: Wenn
das Medium nun wirklich die Trefferwahrscheinlichkeit 0:7 hat, lässt mein Test ihm
nur eine Chance von 41%, diese Fähigkeit zu erkennen, denn es gilt ja G' .0:7/ D
Bn;0:7 .¹15; : : : ; nº/ 0:4164. Dagegen ist G .0:7/ 0:6080.“
Diese Behauptungen über wären richtig, wenn die Schranke c D 14 schon vor
dem Versuch festgelegt worden wäre. Nun, im Nachhinein, wurde aber genau genom-
men nicht 14 als Schranke gewählt, sondern der Beobachtungswert x; insofern ist
in Wirklichkeit durch die Gleichung .x/ D 1¹x;:::;nº .x/ definiert, also konstant
gleich 1, d. h., bei Verwendung von entscheidet man sich mit Sicherheit für die Al-
ternative, und somit sind insbesondere das effektive Niveau G 21 D 1 und für jedes
0.8
0.6
0.4
0.2
Abbildung 10.2. Gütefunktionen der Tests mit Ablehnungsbereich ¹15; : : : ; 20º (durch-
gezogen) bzw. ¹14; : : : ; 20º (gepunktet) für n D 20, sowie ¹27; : : : ; 40º für n D 40
(gestrichelt). Die Werte an der Stelle 1=2 entsprechen dem jeweiligen Testumfang; sie
betragen 0:0207, 0.0577, 0.0192.
Warum sollte der Test die Gestalt ' D 1¹c;:::;nº haben? Hätten wir nicht auch einen
Test der Form D 1¹c;:::;d º mit d < n wählen können? Da offenbar ein kleineres
Niveau hat als ', könnte dies attraktiv erscheinen. Allerdings: Wenn das Medium
gut in Form ist und mehr als d Treffer erzielt, muss die Hypothese der medialen
Fähigkeiten bei abgelehnt werden! Dementsprechend steigt die Macht von bei
mäßiger Begabung zwar an, fällt jedoch wieder bei starker Begabung. Insbesondere
gilt G .1/ D 0 < G .1=2/. Im Fall starker Begabung wird eine mediale Fähigkeit
bei Verwendung von daher mit geringerer Wahrscheinlichkeit akzeptiert als im Fall
des bloßen Ratens. Um solche Absurditäten auszuschließen, führt man den folgenden
Begriff ein.
also wenn man sich mit größerer Wahrscheinlichkeit für die Alternative entscheidet,
wenn sie richtig ist, als wenn sie falsch ist.
Im Folgenden widmen wir uns vorrangig dem Problem der Existenz und Konstruk-
tion von besten Tests. Wie sich herausstellen wird, spielt die Unverfälschtheit dabei
manchmal eine Rolle.
10.2 Alternativtests
Wir betrachten hier die besonders übersichtliche Situation, dass man sich nur zwi-
schen zwei Wahrscheinlichkeitsmaßen P0 und P1 zu entscheiden hat. Wir legen al-
so ein statistisches Modell der Form .X ; F I P0 ; P1 / mit ‚ D ¹0; 1º zugrunde, und
die Nullhypothese ‚0 D ¹0º und die Alternative ‚1 D ¹1º sind einfach, d. h. ein-
elementig. Wir setzen außerdem voraus, dass das Modell ein Standardmodell ist, dass
also P0 und P1 durch geeignete Zähldichten bzw. Dichtefunktionen 0 und 1 auf X
gegeben sind.
Wir suchen einen besten Test ' von P0 gegen P1 zu einem vorgegebenen Niveau
˛. Betrachten wir dazu die Dichten 0 und 1 , vgl. Abbildung 10.3. Gemäß dem
Maximum-Likelihood-Prinzip wird man sich immer dann für die Alternative entschei-
0 1
'D0 'D1
den, wenn für das beobachtete x die Dichtefunktion 1 .x/ hinreichend stark über
0 .x/ dominiert. Der Grad der Dominanz von 1 über 0 wird in natürlicher Weise
beschrieben durch den Likelihood-Quotienten
´
1 .x/=0 .x/ falls 0 .x/ > 0 ;
R.x/ D
1 falls 0 .x/ D 0 :
(a) Es existiert ein Neyman-Pearson-Test ' mit E0 .'/ D ˛ (der also das Niveau ˛
voll ausschöpft).
(b) Jeder Neyman-Pearson-Test ' mit E0 .'/ D ˛ ist ein bester Test zum Niveau ˛,
und jeder beste Test zu ˛ ist ununterscheidbar von einem Neyman-Pearson-
Test.
Beweis. (a) Sei c ein beliebiges ˛-Fraktil von P0 ı R 1 . Solch ein Fraktil existiert,
denn R nimmt den Wert 1 nur auf der Menge ¹0 D 0º an, die bei P0 Wahrschein-
lichkeit 0 hat; folglich ist P0 .R < 1/ D 1 und also P0 ı R 1 ein Wahrscheinlich-
keitsmaß auf R. Definitionsgemäß gilt also P0 .R c/ ˛ und P0 .R > c/ ˛, und
folglich ˛ P0 .R > c/ P0 .R c/ P0 .R > c/ D P0 .R D c/.
Wir unterscheiden nun zwei Fälle: Ist P0 .R D c/ D 0, so ist nach den letzten
beiden Ungleichungen P0 .R > c/ D ˛ und also ' D 1¹R>cº ein Neyman-Pearson-
Test mit E0 .'/ D ˛. Gilt dagegen P0 .R D c/ > 0, so ist
˛ P0 .R > c/
WD 2 Œ0; 1
P0 .R D c/
und also 8
<1
ˆ R.x/ > c ;
'.x/ D
falls R.x/ D c ;
ˆ
0 R.x/ < c
:
im diskreten Fall ist das Integral durch eine Summe zu ersetzen. Ist nun '.x/ > .x/,
so ist '.x/ > 0, also R.x/ c und deshalb 1 .x/ c 0 .x/. Im umgekehrten Fall
'.x/ < .x/ ist '.x/ < 1 und also 1 .x/ c 0 .x/. Stets gilt also
f1 .x/ WD '.x/ .x/ 1 .x/ c '.x/ .x/ 0 .x/ DW c f0 .x/ :
auf ¹R ¤ cº. Also ist auch ein Neyman-Pearson-Test, zumindest außerhalb einer
Ausnahmemenge N vom Lebesgue-Maß 0. Wegen P0 .N / D P1 .N / D 0 treten
Beobachtungswerte in N jedoch nicht auf und können daher ignoriert werden. Þ
Neyman-Pearson-Tests sind also optimal, zumindest im Fall von einfacher Hypo-
these und einfacher Alternative. Sind sie aber auch gut? Das hängt davon ab, wie groß
ihre Macht ist. Letztere verbessert sich natürlich, je mehr Information vorliegt; siehe
Abbildung 10.4. Wir fragen also: Wie rasch verbessert sich die Macht bei unabhän-
gig wiederholten Beobachtungen? Dafür ist es wieder bequem, wie in Abschnitt 7.6
im Rahmen eines unendlichen Produktmodells zu arbeiten. Sei also .E; E ; Q0 ; Q1 /
ein statistisches Standardmodell mit einfacher Hypothese ‚0 D ¹0º und einfacher
Alternative ‚1 D ¹1º, und sei
.X ; F ; P# W # 2 ¹0; 1º/ D .E N ; E ˝N ; Q#˝N W # 2 ¹0; 1º/
das zugehörige unendliche Produktmodell. Der Einfachheit halber verlangen wir, dass
die Dichten 0 und 1 von Q0 und Q1 beide strikt positiv sind. Wir bezeichnen
wieder mit Xi W X ! E die i -te Projektion und erinnern an die Definition der re-
lativen Entropie in (7.31). Da Q0 und Q1 natürlich verschieden sein sollen, gilt
H.Q0 I Q1 / > 0.
Definitionsgemäß gilt dann E0 .h/ D H.Q0 I Q1 /, und die Tests 'n haben die Gestalt
´
1 falls hn < an ;
'n D
0 falls hn > an
mit geeigneten Konstanten an 2 R.
0.75 0.75
0.5 0.5
0.25 0.25
˛ ˛
0 0.25 0.5 0.75 1 0 0.25 0.5 0.75 1
Abbildung 10.4. Macht der Neyman-Pearson-Tests zum Umfang ˛ für die Alternative
Bn;1=2 gegen Bn;3=4 (links) bzw. N0;1 ˝n gegen N1;1 ˝n (rechts) und n D 2; 4; 8; 16 (von
schwarz bis hellgrau); für den zweiten Fall vergleiche Beispiel (10.5).
Wir zeigen zuerst, dass lim supn!1 n1 logŒ1 E1 .'n / E0 .h/. Aus der Defi-
nition von 'n folgt: Ist 1 'n > 0, so gilt hn an und daher 0˝n e n an 1˝n . Dies
liefert die Abschätzung
Z
1 E0 .1 'n / D .1 'n .x// 0˝n .x/ dx e n an E1 .1 'n / :
En
Also genügt zu zeigen, dass an > a für beliebiges a < E0 .h/ und alle hinreichend
großen n. Wegen P0 .hn an / E0 .'n / D ˛ > 0 ist dies sicher dann der Fall,
wenn P0 .hn a/ ! 0 für n ! 1. Wie im Beweis von (7.32) folgt dies jedoch
aus dem schwachen Gesetz der großen Zahl, und zwar sowohl wenn h 2 L 1 .P0 / als
auch wenn E0 .h/ D H.Q0 I Q1 / D 1.
Umgekehrt zeigen wir nun, dass lim infn!1 n1 logŒ1 E1 .'n / E0 .h/. Ohne
Einschränkung ist dazu E0 .h/ < 1, also h 2 L 1 .P0 /. Für a > E0 .h/ folgt wieder
aus Satz (5.7), dem schwachen Gesetz der großen Zahl, dass
Das Stein’sche Lemma zeigt die statistische Bedeutung der relativen Entropie: Je
größer die relative Entropie zwischen zwei Wahrscheinlichkeitsmaßen Q0 und Q1 ,
desto schneller wächst die Macht der optimalen Tests von Q0 gegen Q1 mit der An-
zahl der Beobachtungen, d. h., umso leichter lassen sich Q0 und Q1 aufgrund von
Beobachtungen unterscheiden. Die relative Entropie ist also ein Maß für die statisti-
sche Unterscheidbarkeit zweier Wahrscheinlichkeitsmaße.
Als Anwendungssituation kann man sich etwa die Funktionsprüfung für eine Satelliten-
komponente vorstellen. Dabei wird ein Testsignal zum Satelliten geschickt, das im Fall
einwandfreien Funktionierens n Sekunden lang ein Antwortsignal auslöst. Letzteres ist
allerdings durch ein allgemeines Rauschen überlagert. Die auf der Erde in jeweils einer
Sekunde ankommende mittlere Signalintensität kann daher als normalverteilt angesehen
werden mit Erwartungswert entweder m0 D 0 (wenn die Komponente ausgefallen ist) oder
m1 > 0 (im einwandfreien Fall). Der peinliche Irrtum erster Art besteht offenbar darin, die
Komponente für funktionstüchtig zu halten, obgleich sie ausgefallen ist.
Wie oben betrachten wir das zugehörige unendliche Produktmodell. Der Likeli-
hood-Quotient für die ersten n Beobachtungen ist gegeben durch
n
h 1 X i
(10.6) Rn D exp .Xi m1 /2 .Xi m0 /2
2v
i D1
hn i
D exp 2.m1 m0 / Mn m21 C m20 I
2v
hier ist wieder Mn D n1 niD1 Xi das Stichprobenmittel. Mit der Bezeichnung des
P
letzten Beweises gilt also
m1 m0 m21 m20
hn D Mn C :
v 2v
Als Neyman-Pearson-Test von m0 gegen m1 nach n Beobachtungen zu einem ge-
gebenen Niveau ˛ bekommt man also 'n D 1¹Mn >bn º , wobei die Konstante bn die
Bedingung
p
˛ D P0 .Mn > bn / D Nm0 ;v=n .bn ; 1Œ/ D 1 ˆ .bn m0 / n=v
Was lässt sich über die Macht von 'n sagen? Man errechnet
im Fall von Normalverteilungen mit gleicher Varianz ist die relative Entropie also
(bis auf den Faktor 1=2v) gerade die quadratische Abweichung der Erwartungswerte.
Satz (10.4) liefert also E1 .1 'n / expŒ n .m1 m0 /2 =2v. Abbildung 10.4 zeigt
E1 .'n / in Abhängigkeit von ˛ für einige Werte von n.
Dies Ergebnis lässt sich noch verschärfen: Aus (10.7) und der Definition von 'n folgt
(10.8) Beispiel. Qualitätsprüfung. Wir betrachten die bereits bekannte Situation des
Orangen-Importeurs. Zugrunde liegt das hypergeometrische Modell: X D ¹0; : : : ; nº,
‚ D ¹0; : : : ; N º, P# D HnI#;N # für # 2 ‚, wobei n < N . Zu einem vorgegebenen
Irrtumsniveau 0 < ˛ < 1 soll die Nullhypothese ‚0 D ¹0; : : : ; #0 º gegen die Alter-
native ‚1 D ¹#0 C1; : : : ; N º getestet werden. (Früher haben wir die Beispielwerte
n D 50, N D 10 000, #0 D 500 betrachtet.) Es ist naheliegend, einen Test ' der
Gestalt 8
<1
ˆ x >c;
'.x/ D
für x D c ;
ˆ
0 x<c
:
zu betrachten. Wir bestimmen die Konstanten c und
nun so, dass die Gütefunktion
von ' an der Testgrenze #0 genau den Wert ˛ annimmt. Das geht genau wie im Beweis
von Satz (10.3a): Man wähle zuerst c als ˛-Fraktil von P#0 ;
ergibt sich dann aus
der Gleichung
Wir zeigen nun: Der so bestimmte Test ' ist ein gleichmäßig bester Test der Null-
hypothese ‚0 gegen die Alternative ‚1 zum Niveau ˛. Der Beweis beruht auf der fol-
genden Monotonieeigenschaft der Zähldichten # von P# D HnI#;N # : Für # 0 > #
ist der Likelihood-Quotient R# 0 W# .x/ WD # 0 .x/=# .x/ wachsend in x. In der Tat gilt
0 1
#Y #Y10
kC1 .x/ .k C1/.N k nCx/
R# 0 W# .x/ D D
k .x/ .N k/.k C1 x/
kD# kD#
für x #, und der letzte Ausdruck ist offenbar wachsend in x; für x > # gilt
R# 0 W# .x/ D 1. Aufgrund dieser Monotonie gilt mit cQ D R# 0 W# .c/: Ist R# 0 W# .x/ > c,
Q
so ist x > c und daher '.x/ D 1; im Fall R# 0 W# .x/ < cQ ergibt sich ebenso '.x/ D 0.
' ist also ein Neyman-Pearson-Test der (einfachen) Nullhypothese ¹#º gegen die (ein-
fache) Alternative ¹# 0 º. Speziell für # D #0 und beliebiges # 0 > #0 ergibt sich also
aus Satz (10.3b): ' ist ein bester Test von #0 gegen jedes # 0 2 ‚1 zum Niveau ˛, also
ein gleichmäßig bester Test von #0 gegen die gesamte Alternative ‚1 .
Es bleibt zu zeigen: ' hat auch als Test von ganz ‚0 gegen ‚1 das Niveau ˛,
d. h., es gilt G' .#/ ˛ für alle # 2 ‚0 . Wegen G' .#0 / D ˛ genügt es dazu zu
zeigen, dass die Gütefunktion G' monoton wachsend ist. Sei also # < # 0 . Wie soeben
gezeigt, ist ' ein Neyman-Pearson-Test von # gegen # 0 , also gemäß Satz (10.3b) ein
bester Test zum Niveau ˇ WD G' .#/. Insbesondere ist er besser als der konstante Test
ˇ. Es folgt G' .# 0 / G .# 0 / D ˇ D G' .#/, wie behauptet.
Insgesamt ergibt sich also: Das intuitiv selbstverständliche Testverfahren ist im Fall
des hypergeometrischen Modells wirklich optimal; man braucht also nicht nach bes-
seren Verfahren zu suchen. Das Einzige, was der Importeur noch zu tun hat, ist es, zum
gegebenen Niveau die Konstanten c und
passend zu bestimmen. Für ˛ D 0:025 und
die angegebenen Beispielwerte von N; n; #0 ergeben sich etwa mit Mathematica die
Werte c D 6 und
D 0:52. Da N sehr groß ist, kann man auch die hypergeometrische
Verteilung durch die Binomialverteilung und diese durch die Normalverteilung (oder
auch die Poisson-Verteilung) approximieren. Man bekommt dann ebenfalls c D 6 und
ein leicht verändertes
.
Die Essenz des Optimalitätsbeweises im obigen Beispiel war die Monotonie der
Likelihood-Quotienten. Diese wollen wir deshalb jetzt allgemein definieren.
(10.10) Satz. Einseitiger Test bei monotonen Likelihood-Quotienten. Gegeben sei ein
statistisches Standardmodell .X ; F ; P# W # 2 ‚/ mit ‚ R und mit wachsenden
Likelihood-Quotienten bezüglich einer Statistik T . Ferner seien gegeben ein Schwel-
lenwert #0 2 ‚ und ein Niveau 0 < ˛ < 1. Dann existiert ein gleichmäßig bester Test
' zum Niveau ˛ für das linksseitige Testproblem H0 W # #0 gegen H1 W # > #0 .
Dieser hat die Gestalt 8
<1
ˆ T .x/ > c ;
'.x/ D
falls T .x/ D c ;
ˆ
0 T .x/ < c ;
:
wobei sich c und
aus der Bedingung G' .#0 / D ˛ ergeben. Ferner gilt: Die Güte-
funktion G' ist monoton wachsend.
Beweis. Die Argumentation in Beispiel (10.8) überträgt sich unmittelbar auf den all-
gemeinen Fall; man braucht nur x durch T .x/ zu ersetzen. Die Gleichung zur Bestim-
mung von c und
lautet zum Beispiel P#0 .T > c/ C
P#0 .T D c/ D ˛. Þ
1 1
0.75 0.75
0.5 0.5
0.25 0.25
m v
-1 0 1 2 0 1 2
Gemäß Beispiel (7.27a) und Bemerkung (7.28) ist das Gauß-Modell mit festge-
haltener Varianz ein exponentielles Modell bezüglich des Stichprobenmittels M mit
wachsendem Koeffizienten a.#/ D n#=v. Wegen Beispiel (10.9), Satz (10.10) und
Gleichung (10.7) hat der beste Test ' von H0 W m m0 gegen H1 W m > m0 zum
Niveau ˛ somit den Ablehnungsbereich
M > m0 C v=n ˆ 1 .1 ˛/ :
® p ¯
Dieser Test heißt linksseitiger Gauß-Test. Für dessen Gütefunktion bekommt man wie
in Beispiel (10.5) die Formel
G.m/ D ˆ .m m0 / n=v ˆ 1 .1 ˛/ :
p
Offensichtlich ist G monoton wachsend, wie es nach Satz (10.10) ja auch sein muss;
man vergleiche auch Abbildung 10.5.
bilden bezüglich der Statistik T D niD1 .Xi m/2 . Satz (10.10) ist also anwendbar,
P
und der beste Test ' zu gegebenem Niveau ˛ hat den Verwerfungsbereich
n
°P ±
.Xi m/2 < v0 2nI˛ I
i D1
dabei ist 2nI˛ das ˛-Quantil der 2n -Verteilung. Denn mit Satz (9.10) erhält man
Ev0 .'/ D 2n .Œ0; 2nI˛ Œ / D ˛. Der Test ' heißt daher ein rechtsseitiger 2 -Test. Seine
Gütefunktion G' .v/ D 2n .Œ0; 2nI˛ v0 =vŒ / ist ebenfalls in Abbildung 10.5 dargestellt.
(V ) H0 W v v0 gegen H1 W v > v0
für die Varianz; dabei sind v0 > 0 und ein Niveau ˛ fest vorgegeben. Es ist also
‚0 D R 0; v0 und ‚1 D R v0 ; 1Œ.
Als Anwendungssituation können wir uns vorstellen, dass ein Messinstrument auf
seine Qualität getestet werden soll. Ähnlich wie früher ist es dann natürlich anzu-
nehmen, dass die Messwerte unabhängig und normalverteilt sind. Bei einem guten
Messinstrument soll die Varianz unter einem Toleranzwert v0 liegen.
Wäre m bekannt, hätte der beste Test in Analogie zu Beispiel (10.12) den Ableh-
nungsbereich
°P n ±
.Xi m/2 > v0 2nI1 ˛ ;
i D1
wobei 2nI1 ˛ das ˛-Fraktil der 2n -Verteilung ist. Deshalb liegt es nahe, das unbe-
kannte m durch seinen erwartungstreuen Schätzer M zu ersetzen. Die entstehende
Testgröße .n 1/V =v0 ist nach Satz (9.17) beim Schwellenparameter v0 zwar immer
noch 2 -verteilt, aber mit nur .n 1/ Freiheitsgraden. Also muss das Fraktil 2nI1 ˛
durch 2n 1I1 ˛ ersetzt werden. So gelangen wir zu der Vermutung, dass der Test mit
dem Ablehnungsbereich
.n 1/ V > v0 2n 1I1 ˛
® ¯
(10.13)
optimal ist. Ist dies der Fall?
Bevor wir uns dieser Frage zuwenden, wollen wir eine andere, sorgfältigere Heuris-
tik anstellen, die auf dem Maximum-Likelihood-Prinzip beruht. Betrachten wir wie-
der Abbildung 10.3. Im Fall von zusammengesetzten Hypothesen und Alternativen
wird man sich bei einem Beobachtungsergebnis x sicher dann für die Alternative ent-
scheiden, wenn die maximale Likelihood der Alternative, nämlich sup#2‚1 # .x/,
hinreichend stark über die maximale Likelihood sup#2‚0 # .x/ der Hypothese do-
miniert, d. h., wenn der (verallgemeinerte) Likelihood-Quotient
sup#2‚1 # .x/
(10.14) R.x/ D
sup#2‚0 # .x/
einen Schwellenwert a überschreitet. Solch ein Verfahren wird beschrieben durch
Tests der Form
´
1 falls R > a ;
(10.15) 'D
0 falls R < a :
Solche Tests heißen Likelihood-Quotienten-Tests. Aufgrund des Neyman-Pearson-
Lemmas kann man hoffen, dass solche Tests auch in relativ allgemeinen Situationen
noch gute Optimalitätseigenschaften haben. (Wie schon beim Maximum-Likelihood-
Prinzip stellt sich allerdings heraus, dass dies nicht immer der Fall ist, sehr oft aber
asymptotisch bei großer Beobachtungszahl n.)
Wie sieht ein Likelihood-Quotienten-Test für das Testproblem (V ) aus? Die
Likelihood-Funktion im n-fachen Gauß’schen Produktmodell ist m;v D m;v ˝n . Wie
ein gleichmäßig bester Test zum Niveau ˛ für das Testproblem H0 W v v0 gegen
H1 W v > v0 . Dabei ist M das Stichprobenmittel und 2n 1I1 ˛ das ˛-Fraktil der
2n 1 -Verteilung.
Führen wir wie in Kapitel 9 den Zufallsvektor X D .X1 ; : : : ; Xn /> ein sowie den
1/>, so lässt sich die Testgröße im vorstehenden Satz
Diagonalvektor 1 D .1; : : : ; P
auch in der suggestiven Form niD1 .Xi M /2 D jX M 1j2 schreiben. Die Nullhy-
pothese wird also genau dann akzeptiert, wenn X nah genug an seiner Projektion auf
die Diagonale liegt; vgl. Abbildung 7.3 auf Seite 224. Der Annahmebereich ist also
ein in Richtung 1 orientierter Zylinder. Den nachfolgenden Beweis sollte man beim
ersten Lesen übergehen.
Dabei soll das Wahrscheinlichkeitsmaß wv auf .R; B/ so gewählt werden, dass PNv
möglichst nah bei P#1 liegt, d. h. möglichst schwer von P#1 unterscheidbar ist. Man
spricht deshalb auch von einer ungünstigsten A-priori-Verteilung. Da wir nur Normal-
verteilungen vorliegen haben, liegt es nahe, auch wv als Normalverteilung zu wählen.
Konkret setzen wir wv D Nm1 ;.v1 v/=n für v < v1 und wv1 D ım1 . (Dies ist in der
Tat ein ungünstiger Fall, denn aus Beispiel (3.32) folgt dann
Z
PNv ı M 1 D Nm1 ;.v1 v/=n .d m/ Nm;v=n
1
D Nm1 ;.v1 v/=n ? N0;v=n D Nm1 ;v1 =n D P#1 ı M ;
d. h., allein durch Beobachtung des empirischen Mittelwerts kann man PNv nicht von
P#1 unterscheiden.)
Die Dichtefunktion Nv von PNv ergibt sich durch Integration der Dichtefunktion von
Pm;v mit wv . Wir erhalten also für v < v1
Z n
Y
Nv D d m m1 ;.v1 v/=n .m/ m;v .Xi /
i D1
n
.m m1 /2 m/2
.Xi
Z X
D c1 .v/ d m exp
2.v1 v/=n 2v
i D1
Dies gilt ebenfalls für v D v1 , wenn wir PNv1 WD P#1 D Nm1 ;v1 ˝n setzen. Mit ande-
ren Worten: Die Wahrscheinlichkeitsmaße ¹PNv W 0 < v v1 º bilden eine exponen-
tielle Familie bezüglich der Statistik T D V mit wachsender Koeffizientenfunktion
a.v/ D n2v1 . Satz (10.10) impliziert daher die Existenz eines gleichmäßig besten
Tests ' der Nullhypothese ¹PNv W v v0 º gegen die Alternative ¹PNv1 º zum vorge-
gebenen Niveau ˛. Dieser hat die Gestalt ' D 1¹V >cº ; dabei ergibt sich c aus der
Bedingung ˛ D GN ' .v0 / D PNv0 .V > c/. Insbesondere hängt c ausschließlich von
v0 (und n) ab. Genauer liefert Satz (9.17b) für jedes v v1 die Beziehung
Z
PNv .V > c/ D Nm1 ;.v1 v/=n .d m/ Pm;v .V > c/ D 2n 1 . n v 1 c; 1Œ/ :
v0
Speziell für v D v0 ergibt sich die Gleichung c D n 1 2n 1I1 ˛ . Und für beliebiges
# D .m; v/ 2 ‚0 folgt
n 1
G' .#/ D 2n 1 .Œ v c; 1Œ/ ˛ :
Also hat ' auch als Test von ‚0 gegen #1 das Niveau ˛.
Schließlich ist ' sogar ein gleichmäßig bester Test von ‚0 gegen ‚1 zum Niveau
˛. Ist nämlich ein beliebiger Test von ‚0 gegen ‚1 zu ˛, so gilt für v v0
Z
N
G .v/ D wv .d m/ G .m; v/ ˛ ;
d. h., hat auch als Test von ¹PNv W v v0 º gegen ¹PNv1 º D ¹P#1 º das Niveau ˛.
Für dies Testproblem ist ' aber optimal; also gilt G .#1 / G' .#1 /. Da #1 2 ‚1
beliebig gewählt war, folgt die behauptete Optimalität. Þ
Nun zeigt aber Beispiel (10.12), dass 'm unter allen Tests mit Em;v0 . / ˛ an
allen Stellen .m; v/ mit v < v0 die größte Macht hat. Das heißt, an verschiedenen
Stellen haben jeweils verschiedene Tests zum Niveau ˛ die größte Macht. Es gibt
daher keinen gleichmäßig besten Niveau-˛-Test!
Die für gegebenes m besten Tests 'm haben aber einen gravierenden Nachteil: Sie
sind verfälscht. Denn für beliebige m; m0 2 R und v < v0 gilt
G'm .m0 ; v/ D Nn .0; v E/ jX .m m0 /1j2 < v0 c ! 0 für jm0 j ! 1 :
Dagegen ist der in Analogie zu Satz (10.16) gebildete Test ' mit Ablehnungsbereich
¹jX M 1j2 < v0 2n 1I˛ º unverfälscht zum Niveau ˛; denn für m 2 R und v < v0
gilt wegen des Student’schen Satzes (9.17)
v0 2
G' .m; v/ D 2n 1 .Œ0; v n 1I˛ / > ˛:
Ist also ' vielleicht der beste unter allen unverfälschten Tests zum Niveau ˛? Das ist
in der Tat der Fall:
Wir sparen uns den Beweis, weil wir im nächsten Satz ein ganz ähnliches Argu-
ment geben werden. Das zweiseitige Testproblem für die Varianz ist Gegenstand von
Aufgabe 10.18.
für jedes Monom g.p/ D p k . Aus Linearitätsgründen überträgt sich diese Aussage
auf beliebige Polynome g, und wegen des (in Beispiel (5.10) bewiesenen) Weier-
straß’schen Approximationssatzes auf beliebige stetige Funktionen g W Œ0; 1 ! R.
Dies hat zur Folge, dass auch
(10.20) E0; h.S/ Œ' D0
für alle > 0 und alle stetigen Funktionen h W Œ0; 1Œ ! R mit h.u/e ıu ! 0 für
u ! 1 und alle ı > 0. In der Tat: Ist 0 < ı < fest gewählt,
D ı, und
g W Œ0; 1 ! R definiert durch g.p/ D h.log p1 / p ı für 0 < p 1 und g.0/ D 0, so
ist g stetig, und definitionsgemäß gilt
S ıS
g.e / D h.S/e :
Eingesetzt in (10.19) ergibt dies (10.20).
Der letzte Erwartungswert ist jedoch nichtnegativ, denn nach Wahl von h.S/ haben die
beiden eckigen Klammern stets dasselbe Vorzeichen. Also gilt E; .'/ E; . /,
d. h., ' hat eine mindestens so große Macht wie . Þ
(MD) H0 W m D m0 gegen H1 W m ¤ m0
Zur Motivation denke man sich etwa einen Physiker, der eine physikalische Theorie testen
will. Die Theorie sage bei einem bestimmten Experiment den Messwert m0 2 R voraus.
Zur Überprüfung werden n unabhängige Messungen durchgeführt. Die Ergebnisse werden
wieder als Realisierungen von normalverteilten Zufallsvariablen interpretiert, von denen
nicht nur der Erwartungswert (der gewünschte Messwert), sondern auch die Varianz (die
Präzision der Versuchsanordnung) unbekannt ist.
Hinweise auf ein plausibles Verfahren liefert wieder der Likelihood-Quotient. Wie
beim einseitigen Testproblem (M ) findet man die Gleichung
jTm0 j2 n=2
R D 1C ;
n 1
d. h., R ist eine strikt wachsende Funktion von jTm0 j. Ein Likelihood-Quotienten-Test
' für das zweiseitige Testproblem (MD) hat daher einen Ablehnungsbereich der Form
¹jTm0 j > tº. Gemäß Satz (9.17) muss t als das ˛=2-Fraktil von t n 1 gewählt werden,
wenn ' das Niveau ˛ ausschöpfen soll. Dieser sogenannte zweiseitige Student’sche
t-Test erweist sich wieder als bester unverfälschter Test.
Beweis. Wir gehen genau wie im Beweis von Satz (10.18) vor und verwenden wieder
die gleichen Bezeichnungen.
1. Schritt: Wir führen wieder die neuen Variablen ; ein. Das Testproblem lautet
dann H0 W D 0 gegen H1 W ¤ 0, und der Ablehnungsbereich von ' bekommt die
Form ° p ± ® ¯
jM
fj > r S M f 2 D jM fj > f .S / :
denn ' und S sind symmetrisch und M f antisymmetrisch unter der Spiegelung x 7!
x. Genau wie in (10.20) ergibt sich hieraus, dass auch
(10.22) E0; h.S/ M f Œ' D0
für alle > 0 und alle stetigen und höchstens subexponentiell wachsenden Funk-
tionen h.
3. Schritt: Seien ¤ 0 und > 0 beliebig vorgegeben. Dann ist der Likelihood-
Quotient RW0; D c expŒ M f eine strikt konvexe Funktion von M
f. Wie Abbildung
10.6 zeigt, lässt sich daher der Verwerfungsbereich ¹jM j > f .S/º in der Form
f
® ¯
RW0; > a.S/ C b.S/ Mf
schreiben; dabei sind a.S/ und b.S/ so gewählt, dass die Gerade u 7! a.S/ C b.S/ u
RW0;
e
a.S /Cb.S / M
e
M
f .S / 0 f .S /
denn nach Konstruktion haben die beiden eckigen Klammern stets dasselbe Vorzei-
chen. Setzt man ˛, so folgt insbesondere, dass ' unverfälscht ist. Þ
Die Gütefunktionen von ein- und zweiseitigen t-Tests lassen sich explizit berech-
nen, indem man ausnutzt, dass die Teststatistik Tm0 für m ¤ m0 eine nichtzentrale
tn 1 -Verteilung hat, vgl. Aufgabe 9.15. Für große n hat man außerdem eine Normal-
approximation zur Verfügung; siehe die Aufgaben 10.21 und 10.22. Das typische Aus-
sehen dieser Gütefunktionen zeigt Abbildung 10.7.
1 1
v v
2 2
-1 0 1 -1 0 1
m m
(10.23) Beispiel. Vergleich zweier Schlafmittel. Wir betrachten wieder die Situation
aus Beispiel (8.6): Zwei Schlafmittel A und B werden an n D 10 Patienten verab-
reicht und bei jedem Patienten die Differenz der Schlafdauer gemessen; letztere wird
als normalverteilt angenommen mit unbekannten Parametern m und v. Wir testen
die Nullhypothese H0 W m D 0, dass beide Schlafmittel gleich wirksam sind, zum
p ˛ D 0:01. Für den Datenvektor x aus Beispiel (8.6) ergibt sich T0 .x/ D
Niveau
1:58 10=1:513 D 4:06, und dieser Wert ist größer als das Quantil t9I0:995 D 3:25.
Also wird die Nullhypothese aufgrund von x abgelehnt, d. h., die Wirkung beider
Schlafmittel ist unterschiedlich, und wegen T0 .x/ > 0 ist B offenbar wirksamer.
Aufgaben
10.1 Zusammenhang von Konfidenzbereichen und Tests. Zeigen Sie für ein beliebiges statis-
tisches Modell .X ; F ; P# W # 2 ‚/:
(a) Ist C W X ! P.‚/ ein Konfidenzbereich zum Irrtumsniveau ˛ und #0 2 ‚ beliebig
gewählt, so ist ¹#0 62 C./º der Ablehnungsbereich eines Tests von H0 W # D #0 gegen
H1 W # ¤ #0 zum Niveau ˛.
(b) Ist umgekehrt für jedes #0 2 ‚ ein nichtrandomisierter Test für H0 W # D #0 gegen
H1 W # ¤ #0 zum Niveau ˛ gegeben, so lässt sich daraus ein Konfidenzbereich zum
Irrtumsniveau ˛ gewinnen.
10.2 Test im skalierten Gleichverteilungsmodell aus Beispiel (7.3). Bestimmen Sie im sta-
tistischen Produktmodell
®1 .Rn ; B n ; UŒ0;#
¯
˝n
W # > 0/ die Gütefunktion des Tests mit Annah-
mebereich 2 < max¹X1 ; : : : ; Xn º 1 für das Testproblem H0 W # D 1 gegen H1 W # ¤ 1.
10.3 L Ein Test zum Niveau 0. In einer Sendung von N D 10 Geräten befindet sich eine unbe-
kannte Anzahl fehlerhafter Geräte, wobei der Fehler jeweils nur durch eine sehr kostspielige
Qualitätsprüfung festgestellt werden kann. Ein Abnehmer, der nur an einer völlig einwand-
freien Lieferung interessiert ist, führt folgende Eingangskontrolle durch: Er prüft n Geräte,
1 n N . Sind diese alle einwandfrei, so nimmt er die Sendung an, sonst lässt er sie
zurückgehen. Beschreiben Sie das Vorgehen testtheoretisch und ermitteln Sie das effektive
Niveau des Testverfahrens. Wie viele Geräte müssen überprüft werden, wenn die Wahrschein-
lichkeit für eine irrtümliche Annahme der Sendung höchstens 0.1 betragen soll?
10.4 L Zum Neyman-Pearson-Lemma. Geben Sie in den beiden folgenden Fällen einen besten
Test ' für H0 W P D P0 gegen H1 W P D P1 zum Niveau ˛ 2 0; 1=2Œ an:
(a) P0 D U0;2Œ , P1 D U1;3Œ .
1
(b) P0 D U0;2Œ , P1 hat die Dichtefunktion 1 .x/ D x 10;1 .x/ C 2
1Œ1;2Œ .x/.
10.5 Unfaire Münze. Bei einer Razzia findet die Polizei bei einem Glücksspieler eine Münze,
von der ein anderer Spieler behauptet, dass „Zahl“ mit einer Wahrscheinlichkeit von p D 0:75
statt mit p D 0:5 erscheint. Aus Zeitgründen kann die Münze nur n D 10 Mal überprüft
werden. Wählen Sie Nullhypothese und Alternative gemäß dem Rechtsgrundsatz „In dubio
pro reo“ und geben Sie einen zugehörigen besten Test zum Irrtumsniveau ˛ D 0:01 an.
10.6 Lotto. Anhand von n Ziehungen des Samstagslottos „6 aus 49“ soll getestet werden,
ob die „13“ eine Unglückszahl ist, weil sie seltener gezogen wird als zu erwarten wäre. For-
mulieren Sie das Testproblem und geben Sie (mit Hilfe der Normalapproximation der Bino-
mialverteilung) einen besten Test zum approximativen Niveau ˛ D 0:1 an. Wie lautet Ihre
Entscheidung für die 3093 Ziehungen vom 9.10.1955 bis zum 17.1.2015, bei denen die „13“
nur 314-mal gezogen wurde und damit am unteren Ende der Häufigkeitsskala stand?
10.7 L Neyman-Pearson-Geometrie. In der Situation des Neyman-Pearson-Lemmas (10.3) sei
die beim Niveau 0 < ˛ < 1 bestenfalls zu erreichende Macht; vgl. Abbildung 10.4. Zeigen
Sie:
(a) G ist monoton wachsend und konkav.
(b) Ist ' ein Neyman-Pearson-Test mit Schwellenwert c und Umfang ˛ WD E0 .'/ 2 0; 1Œ,
so ist c die Steigung einer Tangente an G an der Stelle ˛. Hinweis: Nutzen Sie aus, dass
E1 .'/ c E0 .'/ E1 . / c E0 . / für jeden Test .
(c) Verifizieren Sie Aussage (b) in der Situation von Beispiel (10.5).
10.8 Bayes-Tests. Sei ' ein Test von P0 gegen P1 in einem einfachen Alternativ-Standard-
modell .X ; F I P0 ; P1 /, und seien ˛0 ; ˛1 > 0. Zeigen Sie: Genau dann minimiert ' die ge-
wichtete Irrtumswahrscheinlichkeit ˛0 E0 .'/ C ˛1 E1 .1 '/, wenn ' ein Neyman-Pearson-
Test zum Schwellenwert c D ˛0 =˛1 ist. ' heißt dann ein Bayes-Test zur Vorbewertung
.˛0 ; ˛1 /.
10.9 L Minimax-Tests. Gegeben sei ein einfaches Alternativ-Standardmodell .X ; F I P0 ; P1 /.
Ein Test ' von P0 gegen P1 heißt ein Minimax-Test, wenn das Maximum der Irrtums-
wahrscheinlichkeiten erster und zweiter Art minimal ist. Zeigen Sie: Es gibt einen Neyman-
Pearson-Test ' mit E0 .'/ D E1 .1 '/, und dieser ist ein Minimax-Test.
10.10 Unter 3000 Geburten wurden in einer Klinik 1578 Knaben gezählt. Würden Sie auf-
grund dieses Ergebnisses mit einer Sicherheit von 95% an der Hypothese festhalten wollen,
dass die Wahrscheinlichkeit für eine Knabengeburt gleich 1=2 ist?
10.11 Systemvergleich. Betrachten Sie die Situation von Beispiel (10.5) von der Satelliten-
Überprüfung. Der Satelliten-Hersteller hat die Wahl zwischen zwei Systemen A und B. Bei
.A/ p
System A beträgt das Verhältnis des Signals p zum Rauschen m 1 = v D 2, und es kostet
e 105 . System B mit dem Verhältnis m.B/ 1 = v D 1 kostet dagegen nur e 10 . Bei beiden
4
Systemen kostet jede Sendesekunde e 10 , und der Satellit soll insgesamt 100-mal geprüft
2
werden. Bei jeder einzelnen Prüfung soll die Zahl n der Sendesekunden jeweils so groß sein,
dass die Irrtumswahrscheinlichkeiten erster und zweiter Art beide 0:025 sind. Welches Sys-
tem soll der Hersteller verwenden?
10.12 L Normalapproximation für Neyman-Pearson-Tests. Sei .E; E I Q0 ; Q1 / ein statistisches
Standardmodell mit einfacher Nullhypothese und Alternative und strikt positiven Dichten 0 ,
1 . Für die Funktion h D log.0 =1 / existiere die Varianz v0 D V0 .h/. Im zugehörigen un-
endlichen Produktmodell sei Rn der Likelihood-Quotient nach n Beobachtungen. Zeigen Sie:
Der Neyman-Pearson-Test zu einem vorgegebenen Umfang 0 < ˛ < 1 hat einen Ablehnungs-
bereich der Gestalt
p
log Rn > n H.Q0 I Q1 / C nv0 ˆ 1 .1 ˛ Cn /
® ¯
mit n ! 0 für n ! 1. Hinweis: Bestimmen Sie den asymptotischen Umfang der Tests mit
konstantem n D ¤ 0.
10.13 Bestimmen Sie in der Situation der Waldpilze von Aufgabe 7.1 einen besten Test zum
Niveau ˛ D 0:05 für die Nullhypothese, dass die Strahlenbelastung höchstens 1 beträgt, auf-
grund von n D 20 unabhängigen Beobachtungen. Plotten Sie die Gütefunktion (mit Hilfe
eines geeigneten Programms).
10.14 L Optimalität der Gütefunktion auf der Nullhypothese. Sei .X ; F ; P# W # 2 ‚/ ein sta-
tistisches Modell mit ‚ R und wachsenden Likelihood-Quotienten bezüglich einer Statis-
tik T . Für #0 2 ‚ sei ' ein gleichmäßig bester Niveau-˛-Test der Nullhypothese H0 W # #0
gegen die Alternative H1 W # > #0 . Zeigen Sie: Die Gütefunktion von ' ist auf der Nullhypo-
these minimal, d. h., für jeden Test mit E#0 . / D ˛ gilt G' .#/ G .#/ für alle # #0 .
10.15 Test der Funktionsdauer von Geräten. Betrachten Sie das n-fache Produkt des Mo-
dells .0; 1Œ; B0;1Œ ; Q# W # > 0/; dabei sei Q# die Weibull-Verteilung aus Aufgabe 3.27
mit bekannter Potenz ˇ > 0 und unbekanntem Skalenparameter # > 0, d. h., Q# habe die
Dichtefunktion
# .x/ D #ˇ x ˇ 1 expŒ # x ˇ ; x > 0 :
Zeigen Sie:
(a) Unter Q#˝n hat T D # niD1 Xiˇ die Gamma-Verteilung 1;n . Hinweis: Korollar (9.9).
P
(b) Bestimmen Sie einen besten Niveau-˛-Test ' für die Nullhypothese H0 W # #0
(„mittlere Lebensdauer überschreitet Minimalwert“) gegen H1 W # > #0 .
(c) Sei #0 D 1 und ˛ D 0:01. Wie groß muss n sein, damit G' .2/ 0:95 ist? Verwenden
Sie den zentralen Grenzwertsatz.
10.16 Bei einem Preisrätsel wird der Gewinner dadurch ermittelt, dass aus der Menge aller
eingegangenen Postkarten solange (mit Zurücklegen) gezogen wird, bis man eine Karte mit
der richtigen Lösung in der Hand hält. Da bei der letzten Auslosung dazu 7 Karten gezogen
werden mussten, argwöhnt der verantwortliche Redakteur, dass der Anteil p der eingegan-
genen richtigen Lösungen weniger als 50% betragen habe, die Quizfrage also zu schwierig
gewesen sei. Liegt er mit dieser Entscheidung richtig? Führen Sie anhand des vorliegenden
Ergebnisses in einem geeigneten statistischen Modell einen Test für H0 W p 0:5 gegen
H1 W p < 0:5 zum Niveau ˛ D 0:05 durch.
10.17 Zweiseitiger Binomialtest. Konstruieren Sie einen zweiseitigen Binomialtest zum Ni-
veau ˛, d. h. einen Test im Binomialmodell für die Nullhypothese H0 W # D #0 gegen die
Alternative H1 W # ¤ #0 , wobei 0 < #0 < 1. Leiten Sie außerdem mit Hilfe des Satzes (5.23)
von de Moivre-Laplace eine asymptotische Version des Tests her.
10.18 L Zweiseitiger Chiquadrat-Varianztest.Betrachten Sie im zweiparametrigen Gauß’schen
Produktmodell das zweiseitige Testproblem H0 W v D v0 gegen H1 W v ¤ v0 mit folgender
Entscheidungsvorschrift: H0 werde akzeptiert, falls
n 1
c1 V c2
v0
für geeignete Konstanten 0 < c1 < c2 .
(a) Bestimmen Sie die Gütefunktion G dieses Tests und zeigen Sie, dass
@G c2 c1
.m; v/ T 0 je nachdem, ob v T v0 :
@v .n 1/ log.c2 =c1 /
k
X l
1 X
V D .Xi M /2 C .Xj0 M 0 /2 :
k Cl 2
i D1 j D1
10.25 L p-Wert und Kombination von Tests. Betrachten Sie alle Tests mit einem Ablehnungs-
bereich der Form ¹T > cº für eine vorgegebene reellwertige Statistik T , welche auf der Null-
hypothese ‚0 eine nicht von # abhängige Verteilung hat: P# .T c/ D F .c/ für alle # 2 ‚0 ,
c 2 R und eine Verteilungsfunktion F . Insbesondere hat also der Test mit Ablehnungsbereich
¹T > cº den Umfang 1 F .c/. Der p-Wert p.x/ zu einem Beobachtungsergebnis x 2 X
ist dann definiert als der größte Testumfang ˛, bei dem x noch zur Annahme der Nullhypo-
these führt: p.x/ D 1 F ı T .x/. Setzen Sie voraus, dass F stetig und auf dem Intervall
¹0 < F < 1º strikt monoton ist, und zeigen Sie:
(a) Unter der Nullhypothese hat p. / die Verteilung U0;1Œ . Hinweis: Aufgabe 1.21.
(b) Der Test mit Ablehnungsbereich ¹p. / < ˛º ist äquivalent zum Test vom Umfang ˛ mit
Ablehnungsbereich ¹T > cº.
(c) Sind p1 . /; : : : ; pn . / die p-Werte bei nP
unabhängigen Untersuchungen bei Verwen-
dung der Teststatistik T , so ist S D 2 niD1 log pi . / auf der Nullhypothese 22n -
verteilt, und durch den Ablehnungsbereich ¹S > 22nI1 ˛ º wird ein (die verschiedenen
Untersuchungen kombinierender) Test vom Umfang ˛ definiert.