Sie sind auf Seite 1von 30

Kapitel 10

Testen von Hypothesen

Während man in der Schätztheorie die Beobachtungen nur dazu nutzt, den zugrun-
de liegenden Zufallsmechanismus möglichst zutreffend zu beurteilen, geht es in der
Testtheorie um das rationale Verhalten in (eventuell folgenschweren) Entscheidungs-
situationen. Man formuliert eine Hypothese über den wahren Zufallsmechanismus,
der die Beobachtungen steuert, und muss sich anhand der Beobachtungsergebnisse
entscheiden, ob man die Hypothese für zutreffend hält oder nicht. Dabei kann man
sich natürlich irren. Deshalb möchte man Entscheidungsregeln entwickeln, für welche
die Irrtumswahrscheinlichkeit möglichst klein ist – egal welche Situation in Wahrheit
vorliegt.

10.1 Entscheidungsprobleme
Zur Motivation erinnern wir an Beispiel (7.1).

(10.1) Beispiel. Qualitätsprüfung. Ein Orangen-Importeur bekommt eine Lieferung


von N D 10 000 Stück. Den vereinbarten Preis muss er nur zahlen, wenn höchstens
5% faul sind. Um festzustellen, ob das der Fall ist, entnimmt er eine Stichprobe von
n D 50 Orangen und setzt sich eine Grenze c, wie viele faule Orangen in der Stichpro-
be er bereit ist zu akzeptieren. Er verwendet dann die folgende Entscheidungsregel:

höchstens c Orangen faul ) Lieferung akzeptieren,


mehr als c Orangen faul ) Preisnachlass fordern.

Offenbar kommt alles auf die richtige Wahl der Schranke c an. Wie soll diese ge-
schehen? Allgemein geht man in solchen Entscheidungssituationen folgendermaßen
vor.
Statistisches Entscheidungsverfahren.
1. Schritt: Formulierung des statistischen Modells. Wie immer muss zuerst das sta-
tistische Modell formuliert werden. Wenn dieses nicht stimmt, kann man sich alles
Weitere sparen! Im vorliegenden konkreten Fall ist aber klarerweise X D ¹0; : : : ; nº,
‚ D ¹0; : : : ; N º, und P# D HnI#;N # für # 2 ‚.
2. Schritt: Formulierung von Nullhypothese und Alternative. Man zerlegt die Parame-
termenge ‚ in zwei Teilmengen ‚0 und ‚1 gemäß dem folgenden Prinzip:

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Abschnitt 10.1 Entscheidungsprobleme 287

# 2 ‚0 , # ist für mich akzeptabel, d. h., der gewünschte Nor-


malfall liegt vor.
# 2 ‚1 , # ist für mich problematisch, d. h., es liegt eine Ab-
weichung vom Normalfall vor, die ich möglichst
aufdecken möchte, wenn immer sie vorliegt.
Man sagt dann, dass man die Nullhypothese H0 W # 2 ‚0 gegen die Alternative
H1 W # 2 ‚1 testen möchte. (Es ist zweckmäßig, von der Nullhypothese zu sprechen
anstatt schlicht von der Hypothese, weil es sonst leicht zu Verwechslungen kommt:
Die Alternative beschreibt ja den „Verdachtsfall“ und entspricht deshalb gerade dem,
was umgangssprachlich oft als Hypothese bezeichnet wird.) In unserem Beispiel sind
für den Orangen-Importeur
F akzeptabel: alle # 2 ‚0 D ¹0; : : : ; 500º (Qualität stimmt),
F problematisch: alle # 2 ‚1 D ¹501; : : : ; 10 000º (Qualität zu schlecht).
Die Interessenlage eines skrupellosen Lieferanten ist gegebenenfalls genau umge-
kehrt; er würde die Indizes 0 und 1 vertauschen.
3. Schritt: Wahl eines Irrtumsniveaus. Man wählt ein 0 < ˛ < 1, zum Beispiel
˛ D 0:05, und fordert von dem (noch zu formulierenden) Entscheidungsverfahren:
Die Wahrscheinlichkeit eines „peinlichen Irrtums“, d. h. einer Entscheidung für die
Alternative, obgleich die Nullhypothese vorliegt („Fehler erster Art“) soll höchstens
˛ betragen.
4. Schritt: Wahl der Entscheidungsregel. Man wählt eine Statistik ' W X ! Œ0; 1 wie
folgt: Wird x 2 X beobachtet, so ist '.x/ der Grad, mit dem ich aufgrund von x zur
Entscheidung für die Alternative tendiere. Also:
'.x/ D 0 , Ich halte an der Nullhypothese fest, d. h., mein Ver-
dacht auf Vorliegen der Alternative lässt sich durch
das Beobachtungsergebnis x nicht rechtfertigen.
'.x/ D 1 , Ich verwerfe die Nullhypothese und nehme aufgrund
von x an, dass die Alternative vorliegt.
0 < '.x/ < 1 , Ich bin mir nicht definitiv klar über die richtige Ent-
scheidung und führe deshalb ein Zufallsexperiment
durch, das mir mit Wahrscheinlichkeit '.x/ sagt:
Entscheide dich für die Alternative.
Im Beispiel wird der Importeur z. B. die Entscheidungsregel
8
<1
ˆ x >c;
'.x/ D 1=2 falls x D c ;
ˆ
0 x<c
:

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
288 Kapitel 10 Testen von Hypothesen

verwenden, und die oben aufgeworfene Frage nach der Wahl von c kann jetzt be-
antwortet werden: c sei die kleinste Zahl, für welche noch die Forderung aus dem
3. Schritt eingehalten wird. Erst an letzter Stelle folgt schließlich der
5. Schritt: Durchführung des Experiments. Warum erst jetzt und nicht schon früher?
Weil sonst Täuschung und Selbsttäuschung fast unvermeidbar sind! Gesetzt den Fall,
ich habe eine Vermutung, die ich verifizieren möchte, und mache die entsprechenden
Beobachtungen gleich zu Anfang. Dann kann ich in den Daten „schnuppern“ und
F Nullhypothese und Alternative an die Daten anpassen,
F Niveau und Entscheidungsregel geeignet auswählen, und
F notfalls störende „Ausreißer“ eliminieren,
bis die Entscheidungsregel zum gewünschten Ergebnis führt. Wenn so vorgegangen
wird (wozu die menschliche Natur leider neigt!), kann von Wahrscheinlichkeiten kei-
ne Rede mehr sein, und das Ergebnis ist fest vorprogrammiert. Der Test dient dann
einzig dazu, einer vorgefassten Meinung einen pseudowissenschaftlichen Anstrich zu
geben!
Abbildung 10.1 versucht, die Vorgehensweise zeichnerisch zu veranschaulichen.
X
r ‚1?
‚0 ode ?
‚0 'D0 N iveau ˛ den
it # 2 ‚0neiden!
?
Modell ’s m
u s d e n P #
w eg sc h
A eil
ten ˛ -T enn x in
schlech hnen, w
‚0 able ser Teile liegt
ie
# einem d
P#

˛ x

‚1
'D1 Ich lehne die Nullhypothese ‚0 ab!

Abbildung 10.1. Das Prinzip des Testens: ‚ zerfällt in die „Normalfälle“ ‚0 und die
„Problemfälle“ ‚1 ; vom tatsächlichen # soll aufgrund der Beobachtung x ermittelt wer-
den, in welchem Teil es liegt. Der Statistiker analysiert wie immer das Modell, gibt sich
ein Irrtumsniveau ˛ vor und zerlegt (im nichtrandomisierten Fall) den Ergebnisraum X
so in einen Annahmebereich ¹' D 0º und einen Ablehnungsbereich ¹' D 1º, dass der
hier gezeigte „peinliche Fehler“ (# 2 ‚0 , aber '.x/ D 1) höchstens Wahrscheinlichkeit
˛ bekommt, und der umgekehrte Fehler ebenfalls möglichst unwahrscheinlich ist. Dies
geschieht durch Abschneiden eines untypischen ˛-Anteils aus jedem P# mit # 2 ‚0 .

Was ist der mathematische Kern des obigen Verfahrens?

Definition. Sei .X ; F ; P# W # 2 ‚/ ein statistisches Modell und ‚ D ‚0 [ ‚1 eine


Zerlegung von ‚ in Nullhypothese und Alternative. Dann definiert man:

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Abschnitt 10.1 Entscheidungsprobleme 289

(a) Jede Statistik ' W X ! Œ0; 1 (die als Entscheidungsregel interpretiert wird)
heißt ein Test von ‚0 gegen ‚1 . Ein Test ' heißt nichtrandomisiert, falls er nur die
Werte 0 und 1 annimmt, also zu klaren Entscheidungen führt; andernfalls heißt er ran-
domisiert. Im ersten Fall heißt ¹x 2 X W '.x/ D 1º der Ablehnungsbereich, Verwer-
fungsbereich oder kritische Bereich, und ¹x 2 X W '.x/ D 0º der Annahmebereich
des Tests '.
(b) Die im ungünstigsten Fall vorliegende Wahrscheinlichkeit für einen Fehler
erster Art ist sup#2‚0 E# .'/; sie heißt der Umfang oder das effektive Niveau von '.
Ein Test ' hat das (Irrtums- oder Signifikanz-)Niveau ˛, wenn sup#2‚0 E# .'/  ˛.
(c) Die Funktion G' W ‚ ! Œ0; 1, G' .#/ D E# .'/ heißt die Gütefunktion des
Tests '. Für # 2 ‚1 heißt G' .#/ die Macht, Stärke oder Schärfe von ' bei #. Die
Macht ist also die Wahrscheinlichkeit, mit der die Alternative erkannt wird, wenn sie
vorliegt, und ˇ' .#/ D 1 G' .#/ ist die Wahrscheinlichkeit für einen Fehler zweiter
Art: dass nämlich das Vorliegen der Alternative nicht erkannt wird und deshalb die
Nullhypothese fälschlich akzeptiert wird.
Aus der vorangegangenen Diskussion ergeben sich folgende zwei
Forderungen an einen Test ':
F G' .#/  ˛ für alle # 2 ‚0 ; d. h., ' soll das Niveau ˛ einhalten, die Irrtums-
wahrscheinlichkeit erster Art also höchstens ˛ betragen.
Š
F G' .#/ D max für alle # 2 ‚1 ; d. h., die Macht soll möglichst groß, ein Fehler
zweiter Art also möglichst unwahrscheinlich sein.
Diese Forderungen führen zu folgendem Begriff.

Definition. Ein Test ' von ‚0 gegen ‚1 heißt ein (gleichmäßig) bester Test zum
Niveau ˛, wenn er vom Niveau ˛ ist und für jeden anderen Test zum Niveau ˛ gilt:
G' .#/  G .#/ für alle # 2 ‚1 :
(In der englischen Literatur verwendet man das Kürzel „UMP test“ für „uniformly
most powerful test“.)
Unser Ziel wird es also sein, beste Tests zu finden. Ob ein bester Test jedoch auch
gut ist, nämlich gut genug für eine konkrete Entscheidungssituation, ist nicht automa-
tisch klar. In jeder Anwendungssituation steht man vor dem Problem, das Niveau und
die Macht eines Tests geeignet auszubalancieren. Je kleiner das Niveau, desto kleiner
ist im Allgemeinen auch die Macht. Anders gesagt: Je strikter man einen Fehler erster
Art vermeiden möchte, umso geringere Chancen hat man, die Alternative zu entde-
cken, wenn sie vorliegt, d. h. um so wahrscheinlicher wird ein Fehler zweiter Art.
Wenn Niveau und Macht nicht ausreichen für eine hinreichend gesicherte Entschei-
dung, bleibt nur der (manchmal unbequeme) Ausweg, die zur Verfügung stehende
Information zu erhöhen, also mehr oder bessere Beobachtungen durchzuführen. Das
folgende Beispiel soll diese und weitere Probleme verdeutlichen.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
290 Kapitel 10 Testen von Hypothesen

(10.2) Beispiel. Außersinnliche Wahrnehmung (Binomialtest). Ein Medium behaup-


tet, mittels seiner außersinnlichen Fähigkeiten verdeckt aufliegende Spielkarten iden-
tifizieren zu können. Um diese Behauptung zu überprüfen, werden dem Medium
n D 20 Mal die Herz-Dame und der Herz-König eines fabrikneuen Spiels in zufälliger
Anordnung verdeckt vorgelegt. Das Medium soll jeweils die Herz-Dame aufdecken.
Der Versuchsleiter geht nun (ganz lehrbuchmäßig) folgendermaßen vor:
F Ein geeignetes Modell ist offenbar das Binomialmodell mit X D ¹0; : : : ; nº,
P# D Bn;# und ‚ D Œ 12 ; 1 (denn durch bloßes Raten kann das Medium ja
mindestens die Erfolgswahrscheinlichkeit 12 erreichen).
F Getestet werden muss die Nullhypothese ‚0 D 12 gegen die Alternative ‚1 D
® ¯

 21 ; 1; denn der peinliche Irrtum wäre es ja, einer Person mediale Fähigkeiten zu
bescheinigen, obgleich diese in Wirklichkeit auf bloßes Raten angewiesen ist.
F Ein solides Irrtumsniveau ist ˛ D 0:05; das ist klein genug, um ein positives
Testergebnis überzeugend gegen Skeptiker vertreten zu können.
F Genau wie in Beispiel (10.1) bietet sich an, einen Test der Gestalt ' D 1¹c;:::;nº
zu wählen, mit geeignetem c 2 X ; eine nähere Begründung folgt unten. (Im
Anschluss an Satz (10.10) werden wir sogar sehen, dass solch ein ' für sein ef-
fektives Niveau optimal ist.) Ein Blick in eine Tabelle der Binomialquantile lehrt
den Versuchsleiter, dass er c D 15 wählen muss, wenn er das Niveau ˛ einhal-
ten will. Dann gilt allerdings sogar G' . 21 / D Bn;1=2 .¹15; : : : ; nº/  0:0207.
„Umso besser“, denkt er sich, „das effektive Niveau ist also noch kleiner, und
das Testergebnis daher umso überzeugender.“
F Der Test wird durchgeführt, und das Medium erzielt x D 14 Treffer. Es ist also
'.x/ D 0, und der Versuchsleiter muss dem Medium (und der Öffentlichkeit)
mitteilen, dass die medialen Fähigkeiten durch den Versuch nicht bestätigt wer-
den konnten.
Mit diesem Ergebnis will sich der Versuchsleiter aber nicht zufrieden geben. Er ist
durch die Zahl der Treffer (und vielleicht auch die Aura des Mediums) beeindruckt
und überlegt sich das Folgende:
„Das Ergebnis ist nur die Schuld meiner Versuchsplanung. Hätte ich den Test
D 1¹14;:::;nº gewählt, hätte ich dem Medium seine medialen Fähigkeiten zuge-
sprochen, und hat doch immerhin noch das Niveau Bn;1=2 .¹14; : : : ; nº/  0:0577,
also kaum mehr, als ich mir ursprünglich vorgenommen habe. Außerdem: Wenn
das Medium nun wirklich die Trefferwahrscheinlichkeit 0:7 hat, lässt mein Test ihm
nur eine Chance von 41%, diese Fähigkeit zu erkennen, denn es gilt ja G' .0:7/ D
Bn;0:7 .¹15; : : : ; nº/  0:4164. Dagegen ist G .0:7/  0:6080.“
Diese Behauptungen über wären richtig, wenn die Schranke c D 14 schon vor
dem Versuch festgelegt worden wäre. Nun, im Nachhinein, wurde aber genau genom-
men nicht 14 als Schranke gewählt, sondern der Beobachtungswert x; insofern ist
in Wirklichkeit durch die Gleichung .x/ D 1¹x;:::;nº .x/ definiert, also konstant

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Abschnitt 10.1 Entscheidungsprobleme 291

gleich 1, d. h., bei Verwendung von entscheidet man sich mit Sicherheit für die Al-
ternative, und somit sind insbesondere das effektive Niveau G 21 D 1 und für jedes


# 2 ‚1 die Macht G .#/ D 1!


Das Argument über die geringe Macht von ' ist im Prinzip zutreffend, aber das war
ja schon bei der Versuchsplanung bekannt. Wenn diese Macht als nicht ausreichend
erscheint, hätte man von vornherein die Anzahl n der Versuche erhöhen müssen –
bei festgehaltenem Niveau und entsprechender Wahl von c hätte dies die Macht von
' entsprechend erhöht. Wie Abbildung 10.2 zeigt, erhält man eine deutlich bessere
Gütefunktion, wenn das Medium in 40 Versuchen 27 Treffer erzielen muss, obwohl
27=40 < 15=20.

0.8

0.6

0.4

0.2

0.5 0.6 0.7 0.8 0.9

Abbildung 10.2. Gütefunktionen der Tests mit Ablehnungsbereich ¹15; : : : ; 20º (durch-
gezogen) bzw. ¹14; : : : ; 20º (gepunktet) für n D 20, sowie ¹27; : : : ; 40º für n D 40
(gestrichelt). Die Werte an der Stelle 1=2 entsprechen dem jeweiligen Testumfang; sie
betragen 0:0207, 0.0577, 0.0192.

Warum sollte der Test die Gestalt ' D 1¹c;:::;nº haben? Hätten wir nicht auch einen
Test der Form  D 1¹c;:::;d º mit d < n wählen können? Da  offenbar ein kleineres
Niveau hat als ', könnte dies attraktiv erscheinen. Allerdings: Wenn das Medium
gut in Form ist und mehr als d Treffer erzielt, muss die Hypothese der medialen
Fähigkeiten bei  abgelehnt werden! Dementsprechend steigt die Macht von  bei
mäßiger Begabung zwar an, fällt jedoch wieder bei starker Begabung. Insbesondere
gilt G .1/ D 0 < G .1=2/. Im Fall starker Begabung wird eine mediale Fähigkeit
bei Verwendung von  daher mit geringerer Wahrscheinlichkeit akzeptiert als im Fall
des bloßen Ratens. Um solche Absurditäten auszuschließen, führt man den folgenden
Begriff ein.

Definition. Ein Test ' heißt unverfälscht zum Niveau ˛, wenn

G' .#0 /  ˛  G' .#1 / für alle #0 2 ‚0 und #1 2 ‚1 ,

also wenn man sich mit größerer Wahrscheinlichkeit für die Alternative entscheidet,
wenn sie richtig ist, als wenn sie falsch ist.
Im Folgenden widmen wir uns vorrangig dem Problem der Existenz und Konstruk-
tion von besten Tests. Wie sich herausstellen wird, spielt die Unverfälschtheit dabei
manchmal eine Rolle.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
292 Kapitel 10 Testen von Hypothesen

10.2 Alternativtests
Wir betrachten hier die besonders übersichtliche Situation, dass man sich nur zwi-
schen zwei Wahrscheinlichkeitsmaßen P0 und P1 zu entscheiden hat. Wir legen al-
so ein statistisches Modell der Form .X ; F I P0 ; P1 / mit ‚ D ¹0; 1º zugrunde, und
die Nullhypothese ‚0 D ¹0º und die Alternative ‚1 D ¹1º sind einfach, d. h. ein-
elementig. Wir setzen außerdem voraus, dass das Modell ein Standardmodell ist, dass
also P0 und P1 durch geeignete Zähldichten bzw. Dichtefunktionen 0 und 1 auf X
gegeben sind.
Wir suchen einen besten Test ' von P0 gegen P1 zu einem vorgegebenen Niveau
˛. Betrachten wir dazu die Dichten 0 und 1 , vgl. Abbildung 10.3. Gemäß dem
Maximum-Likelihood-Prinzip wird man sich immer dann für die Alternative entschei-
0 1

'D0 'D1

Abbildung 10.3. Zur Konstruktion von Neyman-Pearson-Tests.

den, wenn für das beobachtete x die Dichtefunktion 1 .x/ hinreichend stark über
0 .x/ dominiert. Der Grad der Dominanz von 1 über 0 wird in natürlicher Weise
beschrieben durch den Likelihood-Quotienten
´
1 .x/=0 .x/ falls 0 .x/ > 0 ;
R.x/ D
1 falls 0 .x/ D 0 :

„Hinreichend starke“ Dominanz bedeutet dementsprechend, dass der Likelihood-


Quotient R.x/ einen geeignet gewählten Schwellenwert c übersteigt. Es liegt deshalb
nahe, Tests der Gestalt ´
1 falls R.x/ > c ;
'.x/ D
0 falls R.x/ < c
zu betrachten. (Der Fall R.x/ D c ist hier bewusst ausgespart.) Solch ein ' heißt
Neyman-Pearson-Test zum Schwellenwert c (nach dem ukrainischen, später in Po-
len und den USA arbeitenden Statistiker Jerzy Neyman, 1894–1981, und dem Briten
Egon Sharpe Pearson, 1895–1980). Der folgende, für die Testtheorie grundlegende
Satz zeigt, dass Tests dieser Bauart tatsächlich optimal sind.

(10.3) Satz. Neyman-Pearson-Lemma, 1932. Sei .X ; F I P0 ; P1 / ein Standardmodell


mit einfacher Hypothese und Alternative, und 0 < ˛ < 1 ein vorgegebenes Niveau.
Dann gilt:

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Abschnitt 10.2 Alternativtests 293

(a) Es existiert ein Neyman-Pearson-Test ' mit E0 .'/ D ˛ (der also das Niveau ˛
voll ausschöpft).
(b) Jeder Neyman-Pearson-Test ' mit E0 .'/ D ˛ ist ein bester Test zum Niveau ˛,
und jeder beste Test zu ˛ ist ununterscheidbar von einem Neyman-Pearson-
Test.

Beweis. (a) Sei c ein beliebiges ˛-Fraktil von P0 ı R 1 . Solch ein Fraktil existiert,
denn R nimmt den Wert 1 nur auf der Menge ¹0 D 0º an, die bei P0 Wahrschein-
lichkeit 0 hat; folglich ist P0 .R < 1/ D 1 und also P0 ı R 1 ein Wahrscheinlich-
keitsmaß auf R. Definitionsgemäß gilt also P0 .R  c/  ˛ und P0 .R > c/  ˛, und
folglich ˛ P0 .R > c/  P0 .R  c/ P0 .R > c/ D P0 .R D c/.
Wir unterscheiden nun zwei Fälle: Ist P0 .R D c/ D 0, so ist nach den letzten
beiden Ungleichungen P0 .R > c/ D ˛ und also ' D 1¹R>cº ein Neyman-Pearson-
Test mit E0 .'/ D ˛. Gilt dagegen P0 .R D c/ > 0, so ist
˛ P0 .R > c/
WD 2 Œ0; 1
P0 .R D c/
und also 8
<1
ˆ R.x/ > c ;
'.x/ D falls R.x/ D c ;
ˆ
0 R.x/ < c
:

ein Neyman-Pearson-Test mit E0 .'/ D P0 .R > c/ C P0 .R D c/ D ˛.


(b) Sei ' ein Neyman-Pearson-Test mit E0 .'/ D ˛ und Schwellenwert c sowie
ein beliebiger Test zum Niveau ˛. Wir schreiben
Z

E1 .'/ E1 . / D '.x/ .x/ 1 .x/ dx I
X

im diskreten Fall ist das Integral durch eine Summe zu ersetzen. Ist nun '.x/ > .x/,
so ist '.x/ > 0, also R.x/  c und deshalb 1 .x/  c 0 .x/. Im umgekehrten Fall
'.x/ < .x/ ist '.x/ < 1 und also 1 .x/  c 0 .x/. Stets gilt also
 
f1 .x/ WD '.x/ .x/ 1 .x/  c '.x/ .x/ 0 .x/ DW c f0 .x/ :

Integration (oder Summation) über x liefert daher


Z Z

E1 .'/ E1 . / D f1 .x/ dx  c f0 .x/ dx D c ˛ E0 . /  0 :
X X

Also ist ' ein bester Test zu ˛, wie behauptet.


Sei nun umgekehrt ein beliebiger bester Test zu ˛ und ' wie oben. Da auch
' ein bester Test zu ˛ ist, gilt E1 .'/ D E1 . /. In obiger Ungleichung gilt also
überall die Gleichheit. Das ist aber nur möglich, wenn f1 .x/ D c f0 .x/ für Lebesgue-
fast alle (bzw. im diskreten Fall sogar für alle) x. Es gilt also D ' (fast) überall

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
294 Kapitel 10 Testen von Hypothesen

auf ¹R ¤ cº. Also ist auch ein Neyman-Pearson-Test, zumindest außerhalb einer
Ausnahmemenge N vom Lebesgue-Maß 0. Wegen P0 .N / D P1 .N / D 0 treten
Beobachtungswerte in N jedoch nicht auf und können daher ignoriert werden. Þ
Neyman-Pearson-Tests sind also optimal, zumindest im Fall von einfacher Hypo-
these und einfacher Alternative. Sind sie aber auch gut? Das hängt davon ab, wie groß
ihre Macht ist. Letztere verbessert sich natürlich, je mehr Information vorliegt; siehe
Abbildung 10.4. Wir fragen also: Wie rasch verbessert sich die Macht bei unabhän-
gig wiederholten Beobachtungen? Dafür ist es wieder bequem, wie in Abschnitt 7.6
im Rahmen eines unendlichen Produktmodells zu arbeiten. Sei also .E; E ; Q0 ; Q1 /
ein statistisches Standardmodell mit einfacher Hypothese ‚0 D ¹0º und einfacher
Alternative ‚1 D ¹1º, und sei
.X ; F ; P# W # 2 ¹0; 1º/ D .E N ; E ˝N ; Q#˝N W # 2 ¹0; 1º/
das zugehörige unendliche Produktmodell. Der Einfachheit halber verlangen wir, dass
die Dichten 0 und 1 von Q0 und Q1 beide strikt positiv sind. Wir bezeichnen
wieder mit Xi W X ! E die i -te Projektion und erinnern an die Definition der re-
lativen Entropie in (7.31). Da Q0 und Q1 natürlich verschieden sein sollen, gilt
H.Q0 I Q1 / > 0.

(10.4) Satz. Machtgewinn bei wachsender Information, Charles M. Stein 1956. In


der obigen Situation betrachten wir zu jedem n  1 einen Neyman-Pearson-Test 'n
mit E0 .'n / D ˛, der nur von den Beobachtungen X1 ; : : : ; Xn abhängt. Dann strebt
die Macht E1 .'n / für n ! 1 mit exponentieller Geschwindigkeit gegen 1. Genauer
gilt:
1
lim logŒ1 E1 .'n / D H.Q0 I Q1 / ;
n!1 n

also E1 .'n /  1 e n H.Q0 IQ1 / für großes n.


Abbildung 10.4 zeigt die Entwicklung der Macht bei wachsendem n für zwei Test-
situationen.
Beweis. Für n  1 und # 2 ¹0; 1º sei #˝n D niD1 # .Xi / die n-fache Produktdich-
Q
te sowie Rn D 1˝n =0˝n der Likelihood-Quotient nach den ersten n Beobachtungen.
Sei h D log.0 =1 / und
n
1 1X
hn D log Rn D h.Xi / :
n n
i D1

Definitionsgemäß gilt dann E0 .h/ D H.Q0 I Q1 /, und die Tests 'n haben die Gestalt
´
1 falls hn < an ;
'n D
0 falls hn > an
mit geeigneten Konstanten an 2 R.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Abschnitt 10.2 Alternativtests 295

0.75 0.75

0.5 0.5

0.25 0.25

˛ ˛
0 0.25 0.5 0.75 1 0 0.25 0.5 0.75 1

Abbildung 10.4. Macht der Neyman-Pearson-Tests zum Umfang ˛ für die Alternative
Bn;1=2 gegen Bn;3=4 (links) bzw. N0;1 ˝n gegen N1;1 ˝n (rechts) und n D 2; 4; 8; 16 (von
schwarz bis hellgrau); für den zweiten Fall vergleiche Beispiel (10.5).

Wir zeigen zuerst, dass lim supn!1 n1 logŒ1 E1 .'n /  E0 .h/. Aus der Defi-
nition von 'n folgt: Ist 1 'n > 0, so gilt hn  an und daher 0˝n  e n an 1˝n . Dies
liefert die Abschätzung
Z
1  E0 .1 'n / D .1 'n .x// 0˝n .x/ dx  e n an E1 .1 'n / :
En

Also genügt zu zeigen, dass an > a für beliebiges a < E0 .h/ und alle hinreichend
großen n. Wegen P0 .hn  an /  E0 .'n / D ˛ > 0 ist dies sicher dann der Fall,
wenn P0 .hn  a/ ! 0 für n ! 1. Wie im Beweis von (7.32) folgt dies jedoch
aus dem schwachen Gesetz der großen Zahl, und zwar sowohl wenn h 2 L 1 .P0 / als
auch wenn E0 .h/ D H.Q0 I Q1 / D 1.
Umgekehrt zeigen wir nun, dass lim infn!1 n1 logŒ1 E1 .'n /  E0 .h/. Ohne
Einschränkung ist dazu E0 .h/ < 1, also h 2 L 1 .P0 /. Für a > E0 .h/ folgt wieder
aus Satz (5.7), dem schwachen Gesetz der großen Zahl, dass

P0 1˝n  e na 0˝n D P0 .hn  a/




 P0 jhn E0 .h/j  a E0 .h/  1C˛



2

für alle hinreichend großen n, also

E1 .1 'n / D E0 .1 'n /1˝n =0˝n  E0 e na .1 'n /1¹hn aº


 

 e na E0 1¹hn aº 'n  e na 1C˛ ˛ D e na 1 ˛


 
2 2

schließlich. Hieraus ergibt sich unmittelbar die Behauptung. Þ

Das Stein’sche Lemma zeigt die statistische Bedeutung der relativen Entropie: Je
größer die relative Entropie zwischen zwei Wahrscheinlichkeitsmaßen Q0 und Q1 ,

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
296 Kapitel 10 Testen von Hypothesen

desto schneller wächst die Macht der optimalen Tests von Q0 gegen Q1 mit der An-
zahl der Beobachtungen, d. h., umso leichter lassen sich Q0 und Q1 aufgrund von
Beobachtungen unterscheiden. Die relative Entropie ist also ein Maß für die statisti-
sche Unterscheidbarkeit zweier Wahrscheinlichkeitsmaße.

(10.5) Beispiel. Test für den Erwartungswert zweier Normalverteilungen. Sei E D R


und Q0 D Nm0 ;v , Q1 D Nm1 ;v für festes m0 < m1 und v > 0. Es soll aufgrund von
n Beobachtungen die Nullhypothese H0 W m D m0 gegen die Alternative H1 W m D
m1 getestet werden.

Als Anwendungssituation kann man sich etwa die Funktionsprüfung für eine Satelliten-
komponente vorstellen. Dabei wird ein Testsignal zum Satelliten geschickt, das im Fall
einwandfreien Funktionierens n Sekunden lang ein Antwortsignal auslöst. Letzteres ist
allerdings durch ein allgemeines Rauschen überlagert. Die auf der Erde in jeweils einer
Sekunde ankommende mittlere Signalintensität kann daher als normalverteilt angesehen
werden mit Erwartungswert entweder m0 D 0 (wenn die Komponente ausgefallen ist) oder
m1 > 0 (im einwandfreien Fall). Der peinliche Irrtum erster Art besteht offenbar darin, die
Komponente für funktionstüchtig zu halten, obgleich sie ausgefallen ist.

Wie oben betrachten wir das zugehörige unendliche Produktmodell. Der Likeli-
hood-Quotient für die ersten n Beobachtungen ist gegeben durch
n
h 1 X i
(10.6) Rn D exp .Xi m1 /2 .Xi m0 /2
2v
i D1
hn i
D exp 2.m1 m0 / Mn m21 C m20 I
2v
hier ist wieder Mn D n1 niD1 Xi das Stichprobenmittel. Mit der Bezeichnung des
P
letzten Beweises gilt also

m1 m0 m21 m20
hn D Mn C :
v 2v
Als Neyman-Pearson-Test von m0 gegen m1 nach n Beobachtungen zu einem ge-
gebenen Niveau ˛ bekommt man also 'n D 1¹Mn >bn º , wobei die Konstante bn die
Bedingung
p 
˛ D P0 .Mn > bn / D Nm0 ;v=n .bn ; 1Œ/ D 1 ˆ .bn m0 / n=v

erfüllen soll. Hieraus ergibt sich


1
p
(10.7) bn D m0 C v=n ˆ .1 ˛/ :

Was lässt sich über die Macht von 'n sagen? Man errechnet

m1 m0 m21 m20 .m1 m0 /2


H.P0 I P1 / D E0 .hn / D m0 C D I
v 2v 2v

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Abschnitt 10.3 Beste einseitige Tests 297

im Fall von Normalverteilungen mit gleicher Varianz ist die relative Entropie also
(bis auf den Faktor 1=2v) gerade die quadratische Abweichung der Erwartungswerte.
Satz (10.4) liefert also E1 .1 'n /  expŒ n .m1 m0 /2 =2v. Abbildung 10.4 zeigt
E1 .'n / in Abhängigkeit von ˛ für einige Werte von n.

Dies Ergebnis lässt sich noch verschärfen: Aus (10.7) und der Definition von 'n folgt

E1 .1 'n / D P1 .Mn  bn / D Nm1 ;v=n . 1; bn /


p  p 
D ˆ .bn m1 / n=v D ˆ u˛  n I
p
hier ist u˛ D ˆ 1 .1 ˛/ und  D .m1 m0 /= v. Gemäß Aufgabe 5.15 gilt nun aber
ˆ.c/  .c/=jcj für c ! 1, also
1 p
exp n 2 =2 C n u˛ u2˛ =2 :
 
E1 .1 'n /  p
n!1  2 n
Damit haben wir das genaue asymptotische Verhalten der Macht bestimmt.

10.3 Beste einseitige Tests


Aufgrund des Neyman-Pearson-Lemmas wissen wir im Fall einfacher Nullhypothe-
sen und einfacher Alternativen, wie optimale Tests aussehen. Darauf aufbauend su-
chen wir nun beste Tests bei zusammengesetzten Nullhypothesen und Alternativen.
Diese Aufgabe erweist sich als relativ leicht, wenn geeignete Monotonieeigenschaften
zur Verfügung stehen. Wir erläutern dies zunächst für unser Standardbeispiel (10.1).

(10.8) Beispiel. Qualitätsprüfung. Wir betrachten die bereits bekannte Situation des
Orangen-Importeurs. Zugrunde liegt das hypergeometrische Modell: X D ¹0; : : : ; nº,
‚ D ¹0; : : : ; N º, P# D HnI#;N # für # 2 ‚, wobei n < N . Zu einem vorgegebenen
Irrtumsniveau 0 < ˛ < 1 soll die Nullhypothese ‚0 D ¹0; : : : ; #0 º gegen die Alter-
native ‚1 D ¹#0 C1; : : : ; N º getestet werden. (Früher haben wir die Beispielwerte
n D 50, N D 10 000, #0 D 500 betrachtet.) Es ist naheliegend, einen Test ' der
Gestalt 8
<1
ˆ x >c;
'.x/ D für x D c ;
ˆ
0 x<c
:

zu betrachten. Wir bestimmen die Konstanten c und nun so, dass die Gütefunktion
von ' an der Testgrenze #0 genau den Wert ˛ annimmt. Das geht genau wie im Beweis
von Satz (10.3a): Man wähle zuerst c als ˛-Fraktil von P#0 ; ergibt sich dann aus
der Gleichung

G' .#0 / D P#0 .¹c C1; : : : ; nº/ C P#0 .¹cº/ D ˛ :

c und hängen somit ausschließlich von #0 ab.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
298 Kapitel 10 Testen von Hypothesen

Wir zeigen nun: Der so bestimmte Test ' ist ein gleichmäßig bester Test der Null-
hypothese ‚0 gegen die Alternative ‚1 zum Niveau ˛. Der Beweis beruht auf der fol-
genden Monotonieeigenschaft der Zähldichten # von P# D HnI#;N # : Für # 0 > #
ist der Likelihood-Quotient R# 0 W# .x/ WD # 0 .x/=# .x/ wachsend in x. In der Tat gilt
0 1
#Y #Y10
kC1 .x/ .k C1/.N k nCx/
R# 0 W# .x/ D D
k .x/ .N k/.k C1 x/
kD# kD#

für x  #, und der letzte Ausdruck ist offenbar wachsend in x; für x > # gilt
R# 0 W# .x/ D 1. Aufgrund dieser Monotonie gilt mit cQ D R# 0 W# .c/: Ist R# 0 W# .x/ > c,
Q
so ist x > c und daher '.x/ D 1; im Fall R# 0 W# .x/ < cQ ergibt sich ebenso '.x/ D 0.
' ist also ein Neyman-Pearson-Test der (einfachen) Nullhypothese ¹#º gegen die (ein-
fache) Alternative ¹# 0 º. Speziell für # D #0 und beliebiges # 0 > #0 ergibt sich also
aus Satz (10.3b): ' ist ein bester Test von #0 gegen jedes # 0 2 ‚1 zum Niveau ˛, also
ein gleichmäßig bester Test von #0 gegen die gesamte Alternative ‚1 .
Es bleibt zu zeigen: ' hat auch als Test von ganz ‚0 gegen ‚1 das Niveau ˛,
d. h., es gilt G' .#/  ˛ für alle # 2 ‚0 . Wegen G' .#0 / D ˛ genügt es dazu zu
zeigen, dass die Gütefunktion G' monoton wachsend ist. Sei also # < # 0 . Wie soeben
gezeigt, ist ' ein Neyman-Pearson-Test von # gegen # 0 , also gemäß Satz (10.3b) ein
bester Test zum Niveau ˇ WD G' .#/. Insbesondere ist er besser als der konstante Test
 ˇ. Es folgt G' .# 0 /  G .# 0 / D ˇ D G' .#/, wie behauptet.
Insgesamt ergibt sich also: Das intuitiv selbstverständliche Testverfahren ist im Fall
des hypergeometrischen Modells wirklich optimal; man braucht also nicht nach bes-
seren Verfahren zu suchen. Das Einzige, was der Importeur noch zu tun hat, ist es, zum
gegebenen Niveau die Konstanten c und passend zu bestimmen. Für ˛ D 0:025 und
die angegebenen Beispielwerte von N; n; #0 ergeben sich etwa mit Mathematica die
Werte c D 6 und D 0:52. Da N sehr groß ist, kann man auch die hypergeometrische
Verteilung durch die Binomialverteilung und diese durch die Normalverteilung (oder
auch die Poisson-Verteilung) approximieren. Man bekommt dann ebenfalls c D 6 und
ein leicht verändertes .
Die Essenz des Optimalitätsbeweises im obigen Beispiel war die Monotonie der
Likelihood-Quotienten. Diese wollen wir deshalb jetzt allgemein definieren.

Definition. Ein statistisches Standardmodell .X ; F ; P# W # 2 ‚/ mit ‚  R hat


wachsende Likelihood-Quotienten (oder wachsende Dichtequotienten) bezüglich ei-
ner Statistik T W X ! R, wenn für alle # < # 0 der Dichtequotient R# 0 W# WD # 0 =#
eine wachsende Funktion von T ist, also wenn R# 0 W# D f# 0 W# ı T für eine wachsende
Funktion f# 0 W# .

(10.9) Beispiel. Exponentielle Modelle. Jedes (einparametrige) exponentielle Modell


hat wachsende Likelihood-Quotienten. Denn aus der definierenden Gleichung (7.21)

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Abschnitt 10.3 Beste einseitige Tests 299

für die Likelihood-Funktion folgt für # < # 0

R# 0 W# D exp a.# 0 / a.#/ T C b.#/ b.# 0 / ;


  

und die Koeffizientenfunktion # 7! a.#/ ist nach Voraussetzung entweder strikt


wachsend oder strikt fallend. Im ersten Fall ist a.# 0 / a.#/ > 0 und daher R# 0 W#
eine wachsende Funktion von T ; im zweiten Fall ist R# 0 W# eine wachsende Funktion
der Statistik T .
Die Aussage von Beispiel (10.8) lässt sich sofort auf alle Modelle mit wachsenden
Likelihood-Quotienten verallgemeinern.

(10.10) Satz. Einseitiger Test bei monotonen Likelihood-Quotienten. Gegeben sei ein
statistisches Standardmodell .X ; F ; P# W # 2 ‚/ mit ‚  R und mit wachsenden
Likelihood-Quotienten bezüglich einer Statistik T . Ferner seien gegeben ein Schwel-
lenwert #0 2 ‚ und ein Niveau 0 < ˛ < 1. Dann existiert ein gleichmäßig bester Test
' zum Niveau ˛ für das linksseitige Testproblem H0 W #  #0 gegen H1 W # > #0 .
Dieser hat die Gestalt 8
<1
ˆ T .x/ > c ;
'.x/ D falls T .x/ D c ;
ˆ
0 T .x/ < c ;
:

wobei sich c und aus der Bedingung G' .#0 / D ˛ ergeben. Ferner gilt: Die Güte-
funktion G' ist monoton wachsend.

Beweis. Die Argumentation in Beispiel (10.8) überträgt sich unmittelbar auf den all-
gemeinen Fall; man braucht nur x durch T .x/ zu ersetzen. Die Gleichung zur Bestim-
mung von c und lautet zum Beispiel P#0 .T > c/ C P#0 .T D c/ D ˛. Þ

Im Fall einer rechtsseitigen Hypothese H0 W #  #0 gegen eine linksseitige Alter-


native H1 W # < #0 kann man einfach # und T mit 1 multiplizieren, um wieder in
der Situation von Satz (10.10) zu sein. Der beste Test hat dann die analoge Gestalt,
nur dass „<“ und „>“ vertauscht sind, und die Gütefunktion ist monoton fallend.
Wie in Abschnitt 7.5 gezeigt, gehören viele der klassischen statistischen Model-
le zur Klasse der exponentiellen Modelle und haben daher wachsende Likelihood-
Quotienten. Ein Beispiel ist das Binomialmodell, siehe (7.25). Insbesondere ist der
Test ' im Beispiel (10.2) von der außersinnlichen Wahrnehmung ein bester Test für
das dort vorliegende Testproblem H0 W # D 1=2 gegen H1 W # > 1=2. Ein weiteres
prominentes Beispiel ist das Gauß-Modell, das wir in zwei Varianten diskutieren.

(10.11) Beispiel. Einseitiger Gauß-Test (bekannte Varianz). Wir betrachten wieder


die Situation von Beispiel (7.2): Aufgrund n unabhängiger Messungen soll getestet
werden, ob die Sprödigkeit eines Kühlwasserrohres unterhalb eines zulässigen Grenz-
wertes m0 liegt. Als Modell wählen wir wie früher das n-fache Gauß’sche Produkt-
modell .Rn ; B n ; Nm;v ˝n W m 2 R/ mit bekannter Varianz v > 0.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
300 Kapitel 10 Testen von Hypothesen

1 1

0.75 0.75

0.5 0.5

0.25 0.25

m v
-1 0 1 2 0 1 2

Abbildung 10.5. Gütefunktionen des linksseitigen Gauß-Tests für m0 D 0, v D 1 (links)


und des rechtsseitigen Chiquadrat-Tests für v0 D 1, m D 0 (rechts) beim Niveau ˛ D
0:05 und den Stichprobenumfängen n D 5 bzw. 20 (gestrichelt).

Gemäß Beispiel (7.27a) und Bemerkung (7.28) ist das Gauß-Modell mit festge-
haltener Varianz ein exponentielles Modell bezüglich des Stichprobenmittels M mit
wachsendem Koeffizienten a.#/ D n#=v. Wegen Beispiel (10.9), Satz (10.10) und
Gleichung (10.7) hat der beste Test ' von H0 W m  m0 gegen H1 W m > m0 zum
Niveau ˛ somit den Ablehnungsbereich

M > m0 C v=n ˆ 1 .1 ˛/ :
® p ¯

Dieser Test heißt linksseitiger Gauß-Test. Für dessen Gütefunktion bekommt man wie
in Beispiel (10.5) die Formel

G.m/ D ˆ .m m0 / n=v ˆ 1 .1 ˛/ :
p 

Offensichtlich ist G monoton wachsend, wie es nach Satz (10.10) ja auch sein muss;
man vergleiche auch Abbildung 10.5.

(10.12) Beispiel. Einseitiger Chiquadrat-Varianztest (bekannter Erwartungswert).


Um die genetische Variabilität einer Getreidesorte zu ermitteln, soll aufgrund von n
unabhängigen Beobachtungen getestet werden, ob die Varianz einer Kenngröße wie
z. B. der Halmlänge einen Mindestwert v0 überschreitet. Wir machen die Modellan-
nahme, dass die logarithmierten Halmlängen der einzelnen Pflanzen normalverteilt
sind mit einem bekannten Erwartungswert m (der mittleren logarithmischen Halm-
länge) und einer unbekannten Varianz v > 0. (Es ist nämlich plausibel anzunehmen,
dass die genetischen Einflüsse sich multiplikativ auf die Halmlänge auswirken, und
daher additiv auf den Logarithmus der Halmlänge. Infolge des zentralen Grenzwert-
satzes kann man daher die logarithmischen Halmlängen näherungsweise als normal-
verteilt ansehen.) Als Modell wählen wir deshalb das n-fache Gauß’sche Produkt-
modell .Rn ; B n ; Nm;v ˝n W v > 0/ mit bekanntem Erwartungswert m. Es soll die
(rechtsseitige) Nullhypothese H0 W v  v0 gegen die Alternative H1 W v < v0 getes-
tet werden. Nun wissen wir aus Beispiel (7.27b) und Bemerkung (7.28), dass die
Produktnormalverteilungen mit festem Erwartungswert m eine exponentielle Familie

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Abschnitt 10.4 Parametertests im Gauß-Produktmodell 301

bilden bezüglich der Statistik T D niD1 .Xi m/2 . Satz (10.10) ist also anwendbar,
P
und der beste Test ' zu gegebenem Niveau ˛ hat den Verwerfungsbereich
n
°P ±
.Xi m/2 < v0 2nI˛ I
i D1

dabei ist 2nI˛ das ˛-Quantil der 2n -Verteilung. Denn mit Satz (9.10) erhält man
Ev0 .'/ D 2n .Œ0; 2nI˛ Œ / D ˛. Der Test ' heißt daher ein rechtsseitiger 2 -Test. Seine
Gütefunktion G' .v/ D 2n .Œ0; 2nI˛ v0 =vŒ / ist ebenfalls in Abbildung 10.5 dargestellt.

10.4 Parametertests im Gauß-Produktmodell


In den letzten beiden Beispielen haben wir im Gauß’schen Produktmodell jeweils
einen Parameter als bekannt vorausgesetzt und beste einseitige Tests für den freien
Parameter hergeleitet. Wir wollen nun den zweiparametrigen Fall betrachten, in dem
sowohl der Erwartungswert m als auch die Varianz v der Normalverteilungen un-
bekannt sind. Dementsprechend betrachten wir das zweiparametrige Gauß’sche Pro-
duktmodell

.X ; F ; P# W # 2 ‚/ D .Rn ; B n ; Nm;v ˝n W m 2 R; v > 0/

für einen gegebenen Stichprobenumfang n > 1. In dieser Situation ist es natürlich,


die Tests in den Beispielen (10.11) und (10.12) in der Weise zu modifizieren, dass
der unbekannte Störparameter, der nicht getestet werden soll, einfach durch seinen
Schätzwert ersetzt wird. Sind die so entstehenden Tests aber auch optimal? Nun, wir
werden sehen. Wir betrachten zuerst Tests für die Varianz und dann für den Erwar-
tungswert (von denen die letzteren die wichtigeren sind).

10.4.1 Chiquadrat-Tests für die Varianz


Wir beginnen mit dem linksseitigen Testproblem

(V ) H0 W v  v0 gegen H1 W v > v0

für die Varianz; dabei sind v0 > 0 und ein Niveau ˛ fest vorgegeben. Es ist also
‚0 D R  0; v0  und ‚1 D R  v0 ; 1Œ.
Als Anwendungssituation können wir uns vorstellen, dass ein Messinstrument auf
seine Qualität getestet werden soll. Ähnlich wie früher ist es dann natürlich anzu-
nehmen, dass die Messwerte unabhängig und normalverteilt sind. Bei einem guten
Messinstrument soll die Varianz unter einem Toleranzwert v0 liegen.
Wäre m bekannt, hätte der beste Test in Analogie zu Beispiel (10.12) den Ableh-
nungsbereich
°P n ±
.Xi m/2 > v0 2nI1 ˛ ;
i D1

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
302 Kapitel 10 Testen von Hypothesen

wobei 2nI1 ˛ das ˛-Fraktil der 2n -Verteilung ist. Deshalb liegt es nahe, das unbe-
kannte m durch seinen erwartungstreuen Schätzer M zu ersetzen. Die entstehende
Testgröße .n 1/V  =v0 ist nach Satz (9.17) beim Schwellenparameter v0 zwar immer
noch 2 -verteilt, aber mit nur .n 1/ Freiheitsgraden. Also muss das Fraktil 2nI1 ˛
durch 2n 1I1 ˛ ersetzt werden. So gelangen wir zu der Vermutung, dass der Test mit
dem Ablehnungsbereich
.n 1/ V  > v0 2n 1I1 ˛
® ¯
(10.13)
optimal ist. Ist dies der Fall?
Bevor wir uns dieser Frage zuwenden, wollen wir eine andere, sorgfältigere Heuris-
tik anstellen, die auf dem Maximum-Likelihood-Prinzip beruht. Betrachten wir wie-
der Abbildung 10.3. Im Fall von zusammengesetzten Hypothesen und Alternativen
wird man sich bei einem Beobachtungsergebnis x sicher dann für die Alternative ent-
scheiden, wenn die maximale Likelihood der Alternative, nämlich sup#2‚1 # .x/,
hinreichend stark über die maximale Likelihood sup#2‚0 # .x/ der Hypothese do-
miniert, d. h., wenn der (verallgemeinerte) Likelihood-Quotient
sup#2‚1 # .x/
(10.14) R.x/ D
sup#2‚0 # .x/
einen Schwellenwert a überschreitet. Solch ein Verfahren wird beschrieben durch
Tests der Form
´
1 falls R > a ;
(10.15) 'D
0 falls R < a :
Solche Tests heißen Likelihood-Quotienten-Tests. Aufgrund des Neyman-Pearson-
Lemmas kann man hoffen, dass solche Tests auch in relativ allgemeinen Situationen
noch gute Optimalitätseigenschaften haben. (Wie schon beim Maximum-Likelihood-
Prinzip stellt sich allerdings heraus, dass dies nicht immer der Fall ist, sehr oft aber
asymptotisch bei großer Beobachtungszahl n.)
Wie sieht ein Likelihood-Quotienten-Test für das Testproblem (V ) aus? Die
Likelihood-Funktion im n-fachen Gauß’schen Produktmodell ist m;v D m;v ˝n . Wie

in Beispiel (7.9) ergibt sich deshalb im Fall V > v0


˝n
supm2R; v>v0 m;v n=2 expŒ
supv>v0 v n V =2v
RD ˝n
D n=2 expŒ
supm2R; vv0 m;v supvv0 v n V =2v
hn V V i
D exp log 1 ;
2 v0 v0
während man im alternativen Fall den Kehrwert des letzten Ausdrucks erhält. Somit
ist R eine strikt wachsende Funktion von V und daher auch von V  . Ein Likelihood-
Quotienten-Test für das Testproblem (V ) hat daher den Ablehnungsbereich (10.13).
Die Pointe ist nun, dass solch ein Test tatsächlich optimal ist. Es gilt nämlich folgender

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Abschnitt 10.4 Parametertests im Gauß-Produktmodell 303

(10.16) Satz. Linksseitiger 2 -Test für die Varianz einer Normalverteilung. Im n-


fachen Gauß’schen Produktmodell ist der Test mit dem Ablehnungsbereich
n
°P ±
.Xi M /2 > v0 2n 1I1 ˛
i D1

ein gleichmäßig bester Test zum Niveau ˛ für das Testproblem H0 W v  v0 gegen
H1 W v > v0 . Dabei ist M das Stichprobenmittel und 2n 1I1 ˛ das ˛-Fraktil der
2n 1 -Verteilung.
Führen wir wie in Kapitel 9 den Zufallsvektor X D .X1 ; : : : ; Xn /> ein sowie den
1/>, so lässt sich die Testgröße im vorstehenden Satz
Diagonalvektor 1 D .1; : : : ; P
auch in der suggestiven Form niD1 .Xi M /2 D jX M 1j2 schreiben. Die Nullhy-
pothese wird also genau dann akzeptiert, wenn X nah genug an seiner Projektion auf
die Diagonale liegt; vgl. Abbildung 7.3 auf Seite 224. Der Annahmebereich ist also
ein in Richtung 1 orientierter Zylinder. Den nachfolgenden Beweis sollte man beim
ersten Lesen übergehen.

Beweis. Die Idee besteht in einer Reduktion des vorliegenden Zweiparameter-Pro-


blems auf ein Einparameter-Problem, indem über den Störparameter m mit einer ge-
eignet gewählten A-priori-Verteilung gemittelt wird.
Wir fixieren einen Parameter #1 D .m1 ; v1 / 2 ‚1 in der Alternative und betrachten
eine Familie von Wahrscheinlichkeitsmaßen der Form
Z
N
Pv D wv .d m/ Pm;v ; 0 < v  v1 :

Dabei soll das Wahrscheinlichkeitsmaß wv auf .R; B/ so gewählt werden, dass PNv
möglichst nah bei P#1 liegt, d. h. möglichst schwer von P#1 unterscheidbar ist. Man
spricht deshalb auch von einer ungünstigsten A-priori-Verteilung. Da wir nur Normal-
verteilungen vorliegen haben, liegt es nahe, auch wv als Normalverteilung zu wählen.
Konkret setzen wir wv D Nm1 ;.v1 v/=n für v < v1 und wv1 D ım1 . (Dies ist in der
Tat ein ungünstiger Fall, denn aus Beispiel (3.32) folgt dann
Z
PNv ı M 1 D Nm1 ;.v1 v/=n .d m/ Nm;v=n
1
D Nm1 ;.v1 v/=n ? N0;v=n D Nm1 ;v1 =n D P#1 ı M ;

d. h., allein durch Beobachtung des empirischen Mittelwerts kann man PNv nicht von
P#1 unterscheiden.)
Die Dichtefunktion Nv von PNv ergibt sich durch Integration der Dichtefunktion von
Pm;v mit wv . Wir erhalten also für v < v1

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
304 Kapitel 10 Testen von Hypothesen

Z n
Y
Nv D d m m1 ;.v1 v/=n .m/ m;v .Xi /
i D1
n
.m m1 /2 m/2
 
.Xi
Z X
D c1 .v/ d m exp
2.v1 v/=n 2v
i D1

mit einer geeigneten Konstanten c1 .v/. Zusammen mit der Verschiebungsformel


(7.10) ergibt sich hieraus
.m1 m/2 .m M /2
 Z  
n 1 
Nv D c1 .v/ exp V d m exp :
2v 2.v1 v/=n 2v=n
Das letzte Integral ist nun aber gerade (bis auf einen konstanten Faktor) die gefaltete
Dichte 0;.v1 v/=n ? M;v=n .m1 /, welche gemäß Beispiel (3.32) mit M;v1 =n .m1 /
übereinstimmt. Wir bekommen also mit einer geeigneten Konstanten c2 .v/
n 1  .m1 M /2
 
Nv D c2 .v/ exp V :
2v 2v1 =n

Dies gilt ebenfalls für v D v1 , wenn wir PNv1 WD P#1 D Nm1 ;v1 ˝n setzen. Mit ande-
ren Worten: Die Wahrscheinlichkeitsmaße ¹PNv W 0 < v  v1 º bilden eine exponen-
tielle Familie bezüglich der Statistik T D V  mit wachsender Koeffizientenfunktion
a.v/ D n2v1 . Satz (10.10) impliziert daher die Existenz eines gleichmäßig besten
Tests ' der Nullhypothese ¹PNv W v  v0 º gegen die Alternative ¹PNv1 º zum vorge-
gebenen Niveau ˛. Dieser hat die Gestalt ' D 1¹V  >cº ; dabei ergibt sich c aus der
Bedingung ˛ D GN ' .v0 / D PNv0 .V  > c/. Insbesondere hängt c ausschließlich von
v0 (und n) ab. Genauer liefert Satz (9.17b) für jedes v  v1 die Beziehung
Z
PNv .V  > c/ D Nm1 ;.v1 v/=n .d m/ Pm;v .V  > c/ D 2n 1 . n v 1 c; 1Œ/ :

v0
Speziell für v D v0 ergibt sich die Gleichung c D n 1 2n 1I1 ˛ . Und für beliebiges
# D .m; v/ 2 ‚0 folgt
n 1
G' .#/ D 2n 1 .Œ v c; 1Œ/  ˛ :

Also hat ' auch als Test von ‚0 gegen #1 das Niveau ˛.
Schließlich ist ' sogar ein gleichmäßig bester Test von ‚0 gegen ‚1 zum Niveau
˛. Ist nämlich ein beliebiger Test von ‚0 gegen ‚1 zu ˛, so gilt für v  v0
Z
N
G .v/ D wv .d m/ G .m; v/  ˛ ;

d. h., hat auch als Test von ¹PNv W v  v0 º gegen ¹PNv1 º D ¹P#1 º das Niveau ˛.
Für dies Testproblem ist ' aber optimal; also gilt G .#1 /  G' .#1 /. Da #1 2 ‚1
beliebig gewählt war, folgt die behauptete Optimalität. Þ

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Abschnitt 10.4 Parametertests im Gauß-Produktmodell 305

Wie steht es nun mit dem (umgekehrten) rechtsseitigen Testproblem


(VC) H0 W v  v0 gegen H1 W v < v0
für die Varianz? Braucht man dazu im obigen Satz nur die Relationen „>“ und „<“
zu vertauschen (und 2n 1I1 ˛ durch 2n 1I˛ zu ersetzen), um einen besten Test zu
erhalten? Leider nein!
Zunächst einmal zeigt sich, dass das Argument einer ungünstigsten A-priori-Ver-
teilung nicht mehr möglich ist. Wählt man nämlich wieder einen festen Alternativ-
Parameter .m; v/ mit v < v0 , so hat die Dichte der zugehörigen Normalverteilung
Pm;v D Nn .m1; v E/ einen schärferen „peak“ als die Dichten der Normalverteilun-
gen in der Nullhypothese, und durch Mittelung werden die peaks der letzteren nur
noch flacher. Eine Annäherung an Pm;v durch die Verteilungen in der Nullhypothese
ist daher nicht möglich.
Aber nicht nur das Argument bricht zusammen, sondern auch die Aussage! Für
m 2 R sei nämlich 'm der Test mit Ablehnungsbereich ¹jX m1j2 < v0 cº, wobei
c D 2nI˛ . Dieses 'm hat auf der gesamten Nullhypothese ‚0 D R  Œv0 ; 1Œ das
Niveau ˛, denn für beliebiges .m0 ; v/ 2 ‚0 folgt aus Aufgabe 9.6
G'm .m0 ; v/ D Nn .m0 1; v E/ jX m1j2 < v0 c


 Nn .m1; v E/ jX m1j2 < v0 c D 2n .Œ0; v0 c=v/  ˛ :




Nun zeigt aber Beispiel (10.12), dass 'm unter allen Tests mit Em;v0 . /  ˛ an
allen Stellen .m; v/ mit v < v0 die größte Macht hat. Das heißt, an verschiedenen
Stellen haben jeweils verschiedene Tests zum Niveau ˛ die größte Macht. Es gibt
daher keinen gleichmäßig besten Niveau-˛-Test!
Die für gegebenes m besten Tests 'm haben aber einen gravierenden Nachteil: Sie
sind verfälscht. Denn für beliebige m; m0 2 R und v < v0 gilt
G'm .m0 ; v/ D Nn .0; v E/ jX .m m0 /1j2 < v0 c ! 0 für jm0 j ! 1 :


Dagegen ist der in Analogie zu Satz (10.16) gebildete Test ' mit Ablehnungsbereich
¹jX M 1j2 < v0 2n 1I˛ º unverfälscht zum Niveau ˛; denn für m 2 R und v < v0
gilt wegen des Student’schen Satzes (9.17)
v0 2
G' .m; v/ D 2n 1 .Œ0; v n 1I˛ / > ˛:
Ist also ' vielleicht der beste unter allen unverfälschten Tests zum Niveau ˛? Das ist
in der Tat der Fall:

(10.17) Satz. Rechtsseitiger 2 -Test für die Varianz einer Normalverteilung. Im n-


fachen Gauß’schen Produktmodell ist der Test mit dem Verwerfungsbereich
°P n ±
.Xi M /2 < v0 2n 1I˛
iD1
ein bester unverfälschter Niveau-˛-Test von H0 W v  v0 gegen H1 W v < v0 . Dabei
ist 2n 1I˛ das ˛-Quantil von 2n 1 .

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
306 Kapitel 10 Testen von Hypothesen

Wir sparen uns den Beweis, weil wir im nächsten Satz ein ganz ähnliches Argu-
ment geben werden. Das zweiseitige Testproblem für die Varianz ist Gegenstand von
Aufgabe 10.18.

10.4.2 t-Tests für den Erwartungswert


Wir kommen jetzt zu Tests für den Erwartungswert und betrachten zuerst das einsei-
tige Testproblem
(M ) H0 W m  m0 gegen H1 W m > m0 :
(In diesem Fall gibt es keinen Unterschied zwischen dem betrachteten linksseitigen
Testproblem und dem analogen rechtsseitigen Problem.) Anders als beim Gauß-Test
in Beispiel (10.11) ist die Varianz jetzt unbekannt. Es gilt also
‚0 D  1; m0   0; 1Œ und ‚1 D m0 ; 1Œ  0; 1Œ:
Welches Testverfahren wird durch das Maximum-Likelihood-Prinzip suggeriert?
Da das Maximum über v von m;v e m D jX m1j2 =n erreicht wird,
˝n an der Stelle V

hat der Likelihood-Quotient (10.14) die Gestalt


˝n n=2
supm>m0 ; v>0 m;v supm>m0 V
em
RD ˝n
D
supmm0 ; v>0 m;v supmm0 Ve mn=2
´
e m0 /n=2 falls M  m0 ;
.V =V
D
e m0 =V /n=2 falls M  m0 :
.V
e m0 =V D 1 C Tm2 =.n 1/
Weiter folgt aus der Verschiebungsformel (7.10), dass V 0
mit p
Tm0 D .M m0 / n=V  :
Also ist R eine strikt wachsende Funktion von Tm0 . Jeder Likelihood-Quotienten-Test
für das Testproblem (M ) hat daher einen Ablehnungsbereich der Gestalt ¹Tm0 > tº.
Da Tm0 nach Satz (9.17) unter jedem Pm0 ;v die t-Verteilung t n 1 hat, wird ein vorge-
gebenes Niveau ˛ genau dann ausgeschöpft, wenn man t D tn 1I1 ˛ (das ˛-Fraktil
der tn 1 -Verteilung) setzt. Der so gebildete Test heißt einseitiger Student’scher t-Test.
Wie im Fall des rechtsseitigen Varianz-Testproblems (VC) ergibt sich aus Beispiel
(10.11), dass ein gleichmäßig bester Test nicht existiert, aber dass die für eine feste
Varianz besten Gauß-Tests verfälscht sind. Der t-Test erweist sich dagegen als der
beste unverfälschte Test.

(10.18) Satz. Einseitiger t-Test für den Erwartungswert. Im n-fachen Gauß’schen


Produktmodell ist der Test ' mit dem Ablehnungsbereich
® p ¯
.M m0 / n=V  > tn 1I1 ˛
ein bester unverfälschter Niveau-˛-Test von H0 W m  m0 gegen H1 W m > m0 . Da-
bei ist tn 1I1 ˛ das ˛-Fraktil der tn 1 -Verteilung.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Abschnitt 10.4 Parametertests im Gauß-Produktmodell 307

Beweis. 1. Schritt: Vorbereitung. Ohne Einschränkung setzen wir m0 D 0, denn an-


dernfalls brauchen wir nur die Koordinaten von R zu verschieben. Weiter schreiben
wir die Likelihood-Funktion in der Form
h P n i
; D .2v/ n=2 exp .Xi m/2 =2v D c.; / exp  M
 
f S
i D1
p p Pn 2
mit  D m n=v,  D 1=2v, M f D n M , S D jX j2 D
i D1 Xi , und der
passenden Normierungskonstanten c.; /. In den neuen Variablen .; / nimmt das
Testproblem (M ) die Gestalt H0 W   0 gegen H1 W  > 0 an, und die Testgröße
T0 des t -Tests schreibt sich in der Form
p ıp
T0 D n 1 M f f2 :
S M
Der t-Test ' hat also den Ablehnungsbereich
° p ± ® ¯
f>r S M
M f2 D M f > f .S/ I
p p
dabei ist r D tn 1I1 ˛ = n 1 und f .S/ D r S=.1Cr 2 /.
2. Schritt: Testverhalten auf der Grenzgeraden  D 0. Sei ein beliebiger unver-
fälschter Test. Dann gilt aus Stetigkeitsgründen E0; . / D ˛ für  D 0 und jedes
 > 0. Infolge des Satzes (9.17) von Student gilt ebenfalls
E0; .'/ D P0; .T0 > tn 1I1 ˛ / D˛
und daher E0; .' / D 0 für alle  > 0. Diese Aussage lässt sich noch beträchtlich
verschärfen. Wir setzen zunächst  D Ck mit > 0 und k 2 ZC . Da sich die
Erwartungswerte E0; Ck .' / von E0; .e kS Œ' / nur durch einen anderen
Normierungsfaktor unterscheiden, gilt dann
E0; g.e S / Œ'

(10.19)  D0

für jedes Monom g.p/ D p k . Aus Linearitätsgründen überträgt sich diese Aussage
auf beliebige Polynome g, und wegen des (in Beispiel (5.10) bewiesenen) Weier-
straß’schen Approximationssatzes auf beliebige stetige Funktionen g W Œ0; 1 ! R.
Dies hat zur Folge, dass auch

(10.20) E0; h.S/ Œ'  D0

für alle  > 0 und alle stetigen Funktionen h W Œ0; 1Œ ! R mit h.u/e ıu ! 0 für
u ! 1 und alle ı > 0. In der Tat: Ist 0 < ı <  fest gewählt, D  ı, und
g W Œ0; 1 ! R definiert durch g.p/ D h.log p1 / p ı für 0 < p  1 und g.0/ D 0, so
ist g stetig, und definitionsgemäß gilt
S ıS
g.e / D h.S/e :
Eingesetzt in (10.19) ergibt dies (10.20).

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
308 Kapitel 10 Testen von Hypothesen

3. Schritt: Das Neyman-Pearson-Argument. Sei .; / 2 ‚1 D 0; 1Œ2 beliebig


vorgegeben. Dann ist der Likelihood-Quotient

RW0; WD ; =0; D c expΠM


mit c D c.; /=c.0; / eine strikt wachsende Funktion von M


f. Also lässt sich der
Verwerfungsbereich von ' auch in der Form ¹RW0; > h.S/º schreiben, wobei
h D c expŒf . Zusammen mit (10.20) ergibt sich daher

E; .' / D E0; ŒRW0; h.S/ Œ'  :

Der letzte Erwartungswert ist jedoch nichtnegativ, denn nach Wahl von h.S/ haben die
beiden eckigen Klammern stets dasselbe Vorzeichen. Also gilt E; .'/  E; . /,
d. h., ' hat eine mindestens so große Macht wie . Þ

Schließlich betrachten wir noch das zweiseitige Testproblem

(MD) H0 W m D m0 gegen H1 W m ¤ m0

für den Mittelwert m. Es ist also ‚0 D ¹m0 º  0; 1Œ.

Zur Motivation denke man sich etwa einen Physiker, der eine physikalische Theorie testen
will. Die Theorie sage bei einem bestimmten Experiment den Messwert m0 2 R voraus.
Zur Überprüfung werden n unabhängige Messungen durchgeführt. Die Ergebnisse werden
wieder als Realisierungen von normalverteilten Zufallsvariablen interpretiert, von denen
nicht nur der Erwartungswert (der gewünschte Messwert), sondern auch die Varianz (die
Präzision der Versuchsanordnung) unbekannt ist.

Hinweise auf ein plausibles Verfahren liefert wieder der Likelihood-Quotient. Wie
beim einseitigen Testproblem (M ) findet man die Gleichung

jTm0 j2 n=2
 
R D 1C ;
n 1
d. h., R ist eine strikt wachsende Funktion von jTm0 j. Ein Likelihood-Quotienten-Test
' für das zweiseitige Testproblem (MD) hat daher einen Ablehnungsbereich der Form
¹jTm0 j > tº. Gemäß Satz (9.17) muss t als das ˛=2-Fraktil von t n 1 gewählt werden,
wenn ' das Niveau ˛ ausschöpfen soll. Dieser sogenannte zweiseitige Student’sche
t-Test erweist sich wieder als bester unverfälschter Test.

(10.21) Satz. Zweiseitiger t -Test für den Erwartungswert. Im n-fachen Gauß’schen


Produktmodell ist der Test ' mit dem Ablehnungsbereich
® p ¯
jM m0 j n=V  > tn 1I1 ˛=2

ein bester unverfälschter Niveau-˛-Test von H0 W m D m0 gegen H1 W m ¤ m0 . Da-


bei ist tn 1I1 ˛=2 das ˛=2-Fraktil der tn 1 -Verteilung.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Abschnitt 10.4 Parametertests im Gauß-Produktmodell 309

Beweis. Wir gehen genau wie im Beweis von Satz (10.18) vor und verwenden wieder
die gleichen Bezeichnungen.
1. Schritt: Wir führen wieder die neuen Variablen ;  ein. Das Testproblem lautet
dann H0 W  D 0 gegen H1 W  ¤ 0, und der Ablehnungsbereich von ' bekommt die
Form ° p ± ® ¯
jM
fj > r S M f 2 D jM fj > f .S / :

2. Schritt: Sei ein beliebiger unverfälschter Niveau-˛-Test. Wie im einseitigen


Fall ist dann die Gütefunktion von auf der Nullhypothese H0 W  D 0 konstant
gleich ˛. Dasselbe gilt nach Konstruktion auch für '. Hieraus ergibt sich wieder Glei-
chung (10.20). Wir machen jetzt noch eine zusätzliche Feststellung:
Für alle  > 0 hat die Funktion  7! E; . / an der Stelle  D 0 ein globales
@
Minimum. Somit verschwindet ihre Ableitung @ E; . /jD0 D E0; .M f /; zur
Existenz der Ableitung siehe Lemma (7.23) und die Gestalt von ; . Für ' erhalten
wir entsprechend
Z
E0; .M '/ D c.0; /
f dx e  S.x/ Mf.x/ '.x/ D 0 ;
Rn

denn ' und S sind symmetrisch und M f antisymmetrisch unter der Spiegelung x 7!
x. Genau wie in (10.20) ergibt sich hieraus, dass auch

(10.22) E0; h.S/ M f Œ'  D0

für alle  > 0 und alle stetigen und höchstens subexponentiell wachsenden Funk-
tionen h.
3. Schritt: Seien  ¤ 0 und  > 0 beliebig vorgegeben. Dann ist der Likelihood-
Quotient RW0; D c expŒ M f eine strikt konvexe Funktion von M
f. Wie Abbildung
10.6 zeigt, lässt sich daher der Verwerfungsbereich ¹jM j > f .S/º in der Form
f
® ¯
RW0; > a.S/ C b.S/ Mf

schreiben; dabei sind a.S/ und b.S/ so gewählt, dass die Gerade u 7! a.S/ C b.S/ u

RW0;

e
a.S /Cb.S / M

e
M
f .S / 0 f .S /

Abbildung 10.6. Intervallbestimmung durch die Sekante einer konvexen Funktion.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
310 Kapitel 10 Testen von Hypothesen

die Exponentialfunktion u 7! c expŒ u genau in den Punkten u D ˙f .S/ schnei-


det, also a D c cosh.f / und b D c sinh.f /=f . Aus (10.20) und (10.22) folgt nun
aber 
E0; Œa.S/ C b.S/Mf Œ'  D0
und daher

E; .' / D E0; ŒRW0; a.S/ b.S/M
f Œ'   0;

denn nach Konstruktion haben die beiden eckigen Klammern stets dasselbe Vorzei-
chen. Setzt man  ˛, so folgt insbesondere, dass ' unverfälscht ist. Þ

Die Gütefunktionen von ein- und zweiseitigen t-Tests lassen sich explizit berech-
nen, indem man ausnutzt, dass die Teststatistik Tm0 für m ¤ m0 eine nichtzentrale
tn 1 -Verteilung hat, vgl. Aufgabe 9.15. Für große n hat man außerdem eine Normal-
approximation zur Verfügung; siehe die Aufgaben 10.21 und 10.22. Das typische Aus-
sehen dieser Gütefunktionen zeigt Abbildung 10.7.

1 1
v v
2 2

-1 0 1 -1 0 1
m m

Abbildung 10.7. Gütefunktionen des einseitigen (links) und zweiseitigen (rechts)


t-Tests für m0 D 0, n D 12 und ˛ D 0:1.

Unser abschließendes Beispiel demonstriert eine Anwendung des t-Tests im Kon-


text gepaarter Stichproben.

(10.23) Beispiel. Vergleich zweier Schlafmittel. Wir betrachten wieder die Situation
aus Beispiel (8.6): Zwei Schlafmittel A und B werden an n D 10 Patienten verab-
reicht und bei jedem Patienten die Differenz der Schlafdauer gemessen; letztere wird
als normalverteilt angenommen mit unbekannten Parametern m und v. Wir testen
die Nullhypothese H0 W m D 0, dass beide Schlafmittel gleich wirksam sind, zum
p ˛ D 0:01. Für den Datenvektor x aus Beispiel (8.6) ergibt sich T0 .x/ D
Niveau
1:58 10=1:513 D 4:06, und dieser Wert ist größer als das Quantil t9I0:995 D 3:25.
Also wird die Nullhypothese aufgrund von x abgelehnt, d. h., die Wirkung beider
Schlafmittel ist unterschiedlich, und wegen T0 .x/ > 0 ist B offenbar wirksamer.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Aufgaben 311

(10.24) Bemerkung. Scharfe Nullhypothesen. Im obigen Testproblem (MD) und vie-


len weiteren in den nachfolgenden Kapiteln ist die Nullhypothese scharf in dem Sinne,
dass ‚0 eine kleinere Dimension hat als ‚, und ‚1 daher in ‚ dicht ist. In dieser Si-
tuation wäre es ziemlich naiv anzunehmen, dass solch eine „dünne“ Nullhypothese
jemals in einer realen Situation eintreten könnte. Die Auflösung der reellen Zahlen ist
zu fein, als dass die reale Welt des Zufalls damit Schritt halten könnte. Tatsächlich
sind solche Testprobleme nur Idealisierungen der „weicheren“ Probleme, um die es
in der Praxis geht. So ist etwa (MD) eine idealisierte Version des „wahren“ Testpro-
blems H0 W m  m0 gegen H1 W m 6 m0 . Das heißt: Man möchte eigentlich testen,
ob m hinreichend nah am vorgeschriebenen Wert m0 liegt, oder allgemeiner, ob #
nicht weiter von ‚0 abweicht, als man tolerieren kann. Die hier verwendeten vagen
Begriffe „hinreichend nah“ und „tolerierbar“ bekommen einen Sinn, sobald man sich
die Gütefunktion G' des entsprechenden Testes anguckt: Deren „Bereich steilen An-
stiegs“ (von Werten nahe 0 zu Werten nahe 1) trennt die „effektive Nullhypothese“
(nämlich den Bereich, in dem G' nahe bei 0 ist) von der „effektiven Alternative“ (auf
der G' nahe bei 1 ist); vgl. Abbildung 10.7. Der Umfang ˛ des Tests und die Anzahl
n der Beobachtungen sollten deshalb stets so gewählt werden, dass das entstehende
„effektive Testproblem“ wirklich dem konkret vorliegenden Entscheidungsproblem
entspricht und die Zwischenzone unsicherer Entscheidungen möglichst klein ist. (So
rührten die Probleme in Beispiel (10.2) von der außersinnlichen Wahrnehmung gera-
de daher, dass diese Zwischenzone zu groß war.) Ähnliches gilt auch für halbseitige
Tests, denn auch dort wird der Rand von ‚0 durch die Gütefunktion des verwendeten
Tests „verwischt“; vergleiche etwa Abbildung 10.5 oder 10.7 (links).
Zum Schluss dieses Abschnitts 10.4 sei nochmals betont, dass die Optimalität der
diskutierten 2 - und t -Tests für die Varianz und den Erwartungswert ganz entschei-
dend auf der Normalverteilungsannahme beruht. Ist diese nicht erfüllt, können diese
Tests zu irreführenden Ergebnissen führen.

Aufgaben
10.1 Zusammenhang von Konfidenzbereichen und Tests. Zeigen Sie für ein beliebiges statis-
tisches Modell .X ; F ; P# W # 2 ‚/:
(a) Ist C W X ! P.‚/ ein Konfidenzbereich zum Irrtumsniveau ˛ und #0 2 ‚ beliebig
gewählt, so ist ¹#0 62 C./º der Ablehnungsbereich eines Tests von H0 W # D #0 gegen
H1 W # ¤ #0 zum Niveau ˛.
(b) Ist umgekehrt für jedes #0 2 ‚ ein nichtrandomisierter Test für H0 W # D #0 gegen
H1 W # ¤ #0 zum Niveau ˛ gegeben, so lässt sich daraus ein Konfidenzbereich zum
Irrtumsniveau ˛ gewinnen.
10.2 Test im skalierten Gleichverteilungsmodell aus Beispiel (7.3). Bestimmen Sie im sta-
tistischen Produktmodell
®1 .Rn ; B n ; UŒ0;#
¯
˝n
W # > 0/ die Gütefunktion des Tests mit Annah-
mebereich 2 < max¹X1 ; : : : ; Xn º  1 für das Testproblem H0 W # D 1 gegen H1 W # ¤ 1.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
312 Kapitel 10 Testen von Hypothesen

10.3 L Ein Test zum Niveau 0. In einer Sendung von N D 10 Geräten befindet sich eine unbe-
kannte Anzahl fehlerhafter Geräte, wobei der Fehler jeweils nur durch eine sehr kostspielige
Qualitätsprüfung festgestellt werden kann. Ein Abnehmer, der nur an einer völlig einwand-
freien Lieferung interessiert ist, führt folgende Eingangskontrolle durch: Er prüft n Geräte,
1  n  N . Sind diese alle einwandfrei, so nimmt er die Sendung an, sonst lässt er sie
zurückgehen. Beschreiben Sie das Vorgehen testtheoretisch und ermitteln Sie das effektive
Niveau des Testverfahrens. Wie viele Geräte müssen überprüft werden, wenn die Wahrschein-
lichkeit für eine irrtümliche Annahme der Sendung höchstens 0.1 betragen soll?
10.4 L Zum Neyman-Pearson-Lemma. Geben Sie in den beiden folgenden Fällen einen besten
Test ' für H0 W P D P0 gegen H1 W P D P1 zum Niveau ˛ 2 0; 1=2Œ an:
(a) P0 D U0;2Œ , P1 D U1;3Œ .
1
(b) P0 D U0;2Œ , P1 hat die Dichtefunktion 1 .x/ D x 10;1 .x/ C 2
1Œ1;2Œ .x/.
10.5 Unfaire Münze. Bei einer Razzia findet die Polizei bei einem Glücksspieler eine Münze,
von der ein anderer Spieler behauptet, dass „Zahl“ mit einer Wahrscheinlichkeit von p D 0:75
statt mit p D 0:5 erscheint. Aus Zeitgründen kann die Münze nur n D 10 Mal überprüft
werden. Wählen Sie Nullhypothese und Alternative gemäß dem Rechtsgrundsatz „In dubio
pro reo“ und geben Sie einen zugehörigen besten Test zum Irrtumsniveau ˛ D 0:01 an.
10.6 Lotto. Anhand von n Ziehungen des Samstagslottos „6 aus 49“ soll getestet werden,
ob die „13“ eine Unglückszahl ist, weil sie seltener gezogen wird als zu erwarten wäre. For-
mulieren Sie das Testproblem und geben Sie (mit Hilfe der Normalapproximation der Bino-
mialverteilung) einen besten Test zum approximativen Niveau ˛ D 0:1 an. Wie lautet Ihre
Entscheidung für die 3093 Ziehungen vom 9.10.1955 bis zum 17.1.2015, bei denen die „13“
nur 314-mal gezogen wurde und damit am unteren Ende der Häufigkeitsskala stand?
10.7 L Neyman-Pearson-Geometrie. In der Situation des Neyman-Pearson-Lemmas (10.3) sei

G  .˛/ WD sup E1 . / W Test mit E0 . /  ˛


® ¯

die beim Niveau 0 < ˛ < 1 bestenfalls zu erreichende Macht; vgl. Abbildung 10.4. Zeigen
Sie:
(a) G  ist monoton wachsend und konkav.
(b) Ist ' ein Neyman-Pearson-Test mit Schwellenwert c und Umfang ˛ WD E0 .'/ 2 0; 1Œ,
so ist c die Steigung einer Tangente an G  an der Stelle ˛. Hinweis: Nutzen Sie aus, dass
E1 .'/ c E0 .'/  E1 . / c E0 . / für jeden Test .
(c) Verifizieren Sie Aussage (b) in der Situation von Beispiel (10.5).
10.8 Bayes-Tests. Sei ' ein Test von P0 gegen P1 in einem einfachen Alternativ-Standard-
modell .X ; F I P0 ; P1 /, und seien ˛0 ; ˛1 > 0. Zeigen Sie: Genau dann minimiert ' die ge-
wichtete Irrtumswahrscheinlichkeit ˛0 E0 .'/ C ˛1 E1 .1 '/, wenn ' ein Neyman-Pearson-
Test zum Schwellenwert c D ˛0 =˛1 ist. ' heißt dann ein Bayes-Test zur Vorbewertung
.˛0 ; ˛1 /.
10.9 L Minimax-Tests. Gegeben sei ein einfaches Alternativ-Standardmodell .X ; F I P0 ; P1 /.
Ein Test ' von P0 gegen P1 heißt ein Minimax-Test, wenn das Maximum der Irrtums-
wahrscheinlichkeiten erster und zweiter Art minimal ist. Zeigen Sie: Es gibt einen Neyman-
Pearson-Test ' mit E0 .'/ D E1 .1 '/, und dieser ist ein Minimax-Test.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Aufgaben 313

10.10 Unter 3000 Geburten wurden in einer Klinik 1578 Knaben gezählt. Würden Sie auf-
grund dieses Ergebnisses mit einer Sicherheit von 95% an der Hypothese festhalten wollen,
dass die Wahrscheinlichkeit für eine Knabengeburt gleich 1=2 ist?
10.11 Systemvergleich. Betrachten Sie die Situation von Beispiel (10.5) von der Satelliten-
Überprüfung. Der Satelliten-Hersteller hat die Wahl zwischen zwei Systemen A und B. Bei
.A/ p
System A beträgt das Verhältnis des Signals p zum Rauschen m 1 = v D 2, und es kostet
e 105 . System B mit dem Verhältnis m.B/ 1 = v D 1 kostet dagegen nur e 10 . Bei beiden
4

Systemen kostet jede Sendesekunde e 10 , und der Satellit soll insgesamt 100-mal geprüft
2

werden. Bei jeder einzelnen Prüfung soll die Zahl n der Sendesekunden jeweils so groß sein,
dass die Irrtumswahrscheinlichkeiten erster und zweiter Art beide  0:025 sind. Welches Sys-
tem soll der Hersteller verwenden?
10.12 L Normalapproximation für Neyman-Pearson-Tests. Sei .E; E I Q0 ; Q1 / ein statistisches
Standardmodell mit einfacher Nullhypothese und Alternative und strikt positiven Dichten 0 ,
1 . Für die Funktion h D log.0 =1 / existiere die Varianz v0 D V0 .h/. Im zugehörigen un-
endlichen Produktmodell sei Rn der Likelihood-Quotient nach n Beobachtungen. Zeigen Sie:
Der Neyman-Pearson-Test zu einem vorgegebenen Umfang 0 < ˛ < 1 hat einen Ablehnungs-
bereich der Gestalt
p
log Rn > n H.Q0 I Q1 / C nv0 ˆ 1 .1 ˛ Cn /
® ¯

mit n ! 0 für n ! 1. Hinweis: Bestimmen Sie den asymptotischen Umfang der Tests mit
konstantem n D  ¤ 0.
10.13 Bestimmen Sie in der Situation der Waldpilze von Aufgabe 7.1 einen besten Test zum
Niveau ˛ D 0:05 für die Nullhypothese, dass die Strahlenbelastung höchstens 1 beträgt, auf-
grund von n D 20 unabhängigen Beobachtungen. Plotten Sie die Gütefunktion (mit Hilfe
eines geeigneten Programms).
10.14 L Optimalität der Gütefunktion auf der Nullhypothese. Sei .X ; F ; P# W # 2 ‚/ ein sta-
tistisches Modell mit ‚  R und wachsenden Likelihood-Quotienten bezüglich einer Statis-
tik T . Für #0 2 ‚ sei ' ein gleichmäßig bester Niveau-˛-Test der Nullhypothese H0 W #  #0
gegen die Alternative H1 W # > #0 . Zeigen Sie: Die Gütefunktion von ' ist auf der Nullhypo-
these minimal, d. h., für jeden Test mit E#0 . / D ˛ gilt G' .#/  G .#/ für alle #  #0 .
10.15 Test der Funktionsdauer von Geräten. Betrachten Sie das n-fache Produkt des Mo-
dells .0; 1Œ; B0;1Œ ; Q# W # > 0/; dabei sei Q# die Weibull-Verteilung aus Aufgabe 3.27
mit bekannter Potenz ˇ > 0 und unbekanntem Skalenparameter # > 0, d. h., Q# habe die
Dichtefunktion
# .x/ D #ˇ x ˇ 1 expŒ # x ˇ  ; x > 0 :
Zeigen Sie:
(a) Unter Q#˝n hat T D # niD1 Xiˇ die Gamma-Verteilung 1;n . Hinweis: Korollar (9.9).
P

(b) Bestimmen Sie einen besten Niveau-˛-Test ' für die Nullhypothese H0 W #  #0
(„mittlere Lebensdauer überschreitet Minimalwert“) gegen H1 W # > #0 .
(c) Sei #0 D 1 und ˛ D 0:01. Wie groß muss n sein, damit G' .2/  0:95 ist? Verwenden
Sie den zentralen Grenzwertsatz.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
314 Kapitel 10 Testen von Hypothesen

10.16 Bei einem Preisrätsel wird der Gewinner dadurch ermittelt, dass aus der Menge aller
eingegangenen Postkarten solange (mit Zurücklegen) gezogen wird, bis man eine Karte mit
der richtigen Lösung in der Hand hält. Da bei der letzten Auslosung dazu 7 Karten gezogen
werden mussten, argwöhnt der verantwortliche Redakteur, dass der Anteil p der eingegan-
genen richtigen Lösungen weniger als 50% betragen habe, die Quizfrage also zu schwierig
gewesen sei. Liegt er mit dieser Entscheidung richtig? Führen Sie anhand des vorliegenden
Ergebnisses in einem geeigneten statistischen Modell einen Test für H0 W p  0:5 gegen
H1 W p < 0:5 zum Niveau ˛ D 0:05 durch.
10.17 Zweiseitiger Binomialtest. Konstruieren Sie einen zweiseitigen Binomialtest zum Ni-
veau ˛, d. h. einen Test im Binomialmodell für die Nullhypothese H0 W # D #0 gegen die
Alternative H1 W # ¤ #0 , wobei 0 < #0 < 1. Leiten Sie außerdem mit Hilfe des Satzes (5.23)
von de Moivre-Laplace eine asymptotische Version des Tests her.
10.18 L Zweiseitiger Chiquadrat-Varianztest.Betrachten Sie im zweiparametrigen Gauß’schen
Produktmodell das zweiseitige Testproblem H0 W v D v0 gegen H1 W v ¤ v0 mit folgender
Entscheidungsvorschrift: H0 werde akzeptiert, falls
n 1 
c1  V  c2
v0
für geeignete Konstanten 0 < c1 < c2 .
(a) Bestimmen Sie die Gütefunktion G dieses Tests und zeigen Sie, dass

@G c2 c1
.m; v/ T 0 je nachdem, ob v T v0 :
@v .n 1/ log.c2 =c1 /

(b) Naiv würde man c1 ; c2 ja so wählen, dass


n 1  n 1 
Pm;v0 V  < c1 D Pm;v0 V  > c2 D ˛=2 :
v0 v0
Zeigen Sie im Fall ˛ D 0:02, n D 3, dass dieser Test verfälscht ist, und skizzieren Sie G.
(c) Wie kann man einen unverfälschten Test der obigen Bauart konstruieren?
(d) Welche Gestalt hat der zugehörige Likelihood-Quotienten-Test?
10.19 Nichtexistenz gleichmäßig bester Tests. Zeigen Sie, dass im zweiparametrigen Gauß-
schen Produktmodell kein gleichmäßig bester Test für das einseitige Testproblem H0 W m  0
gegen H1 W m > 0 existiert.
10.20 L Gütefunktion des einseitigen t -Tests. Sei ' der linksseitige t -Test aus Satz (10.18).
Zeigen Sie, dass die Gütefunktion von ' wachsend in m ist und ' somit tatsächlich ein unver-
fälschter Test zum Niveau ˛ ist. Hinweis: Aufgabe 2.18.
10.21 t-Test und nichtzentrale t-Verteilungen. Sei ' ein ein- oder zweiseitiger t -Test für den
Erwartungswert im zweiparametrigen Gauß’schen Produktmodell. Drücken Sie die Gütefunk-
tion G' .m; v/ von ' durch die nichtzentralen t-Verteilungen aus Aufgabe 9.15 aus.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41
Aufgaben 315

10.22 L Approximative Gütefunktion des t-Tests. Betrachten Sie im zweiparametrigen n-fach-


en Gauß’schen Produktmodell den t -Test 'n für das linksseitige Testproblem H0 W m  0
gegen H1 W m > 0 zu einem gegebenen Niveau ˛. Zeigen Sie: Für großes n besitzt die Güte-
funktion von 'n die Normalapproximation
p
G'n .m; v/  ˆ ˆ 1 .˛/ C m n=v :


Hinweis: Verwenden Sie die Sätze (7.29) und (9.17b).


10.23 Eine Lehrmittelfirma liefert physikalische Widerstände und behauptet, deren Wider-
stände seien normalverteilt mit Mittelwert 50 und Standardabweichung 5 (jeweils in Ohm).
Geben Sie je einen Test für die beiden Testprobleme
(a) H0 W m  55 gegen H1 W m > 55
(b) H0 W v  25 gegen H1 W v > 25
zum Niveau ˛ D 0:05 an (bei Vorliegen von 10 Messungen unter Normalverteilungsannahme;
m und v beide unbekannt). Wie lautet die Entscheidung bei folgenden Messergebnissen für
10 Widerstände: 45.9 68.5 56.8 60.0 57.7 63.0 48.2 59.0 55.2 50.6
10.24 L Zweistichproben-Problem im Gauß-Produktmodell. Seien X1 ; : : : ; Xk , X10 ; : : : ; Xl0
unabhängige Zufallsvariablen mit Verteilung Nm;v bzw. Nm0 ;v ; die Parameter m; m0 2 R und
v > 0 seien unbekannt. Zeigen Sie: Jeder Likelihood-Quotienten-Test für das Testproblem
H0 W m  m0 gegen H1 W m > m0 hat einen Ablehnungsbereich der Form
² r ³
1 1 
M M0 > c C V
k l
k l
1 1
Xi , M 0 D Xj0 und
P P
mit M D k l
i D1 j D1

k
X l 
1 X
V D .Xi M /2 C .Xj0 M 0 /2 :
k Cl 2
i D1 j D1

10.25 L p-Wert und Kombination von Tests. Betrachten Sie alle Tests mit einem Ablehnungs-
bereich der Form ¹T > cº für eine vorgegebene reellwertige Statistik T , welche auf der Null-
hypothese ‚0 eine nicht von # abhängige Verteilung hat: P# .T  c/ D F .c/ für alle # 2 ‚0 ,
c 2 R und eine Verteilungsfunktion F . Insbesondere hat also der Test mit Ablehnungsbereich
¹T > cº den Umfang 1 F .c/. Der p-Wert p.x/ zu einem Beobachtungsergebnis x 2 X
ist dann definiert als der größte Testumfang ˛, bei dem x noch zur Annahme der Nullhypo-
these führt: p.x/ D 1 F ı T .x/. Setzen Sie voraus, dass F stetig und auf dem Intervall
¹0 < F < 1º strikt monoton ist, und zeigen Sie:
(a) Unter der Nullhypothese hat p.  / die Verteilung U0;1Œ . Hinweis: Aufgabe 1.21.
(b) Der Test mit Ablehnungsbereich ¹p.  / < ˛º ist äquivalent zum Test vom Umfang ˛ mit
Ablehnungsbereich ¹T > cº.
(c) Sind p1 .  /; : : : ; pn .  / die p-Werte bei nP
unabhängigen Untersuchungen bei Verwen-
dung der Teststatistik T , so ist S D 2 niD1 log pi .  / auf der Nullhypothese 22n -
verteilt, und durch den Ablehnungsbereich ¹S > 22nI1 ˛ º wird ein (die verschiedenen
Untersuchungen kombinierender) Test vom Umfang ˛ definiert.

Bereitgestellt von | Universitätsbibliothek TU Dortmund


Angemeldet
Heruntergeladen am | 07.10.19 08:41