Sie sind auf Seite 1von 67

Statistik

Notizen zur Vorlesung im WS 2007/08


http://ismi.math.uni-frankfurt.de/schneider/statistik0708
Gaby Schneider
schneider@math.uni-frankfurt.de
http://ismi.math.uni-frankfurt.de/schneider
Inhaltsverzeichnis
1 Beschreibende Statistik 1
1.1 Die Lage einer Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Vergleich von Mittelwert und Median . . . . . . . . . . . . . . . 7
1.2 Graphische Darstellungen f ur Verteilungen . . . . . . . . . . . . . . . . . 9
1.2.1 Das Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Der Box-and-Whisker-plot (oder kurz: Boxplot) . . . . . . . . . . 9
1.2.3 Quantilplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Erste statistische Tests 13
2.1 Ein Permutationstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Der Rangsummentest von Wilcoxon / Der Mann-Whitney-U-Test . . . . 13
2.3 Der z-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 p-Wert, Signikanz, Testmacht und Alternativhypothese . . . . . . . . . 17
3 Der t-Test 18
3.1 Zur Geometrie von Strichprobenmittelwert und -varianz . . . . . . . . . 18
3.1.1 Schatzer f ur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.2 Geometrie des Mittelwertes . . . . . . . . . . . . . . . . . . . . . 18
3.1.3 Geometrie der geschatzten Standardabweichung . . . . . . . . . . 19
3.2 Die t-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.1 Die t-Verteilung und ihre Verwandten . . . . . . . . . . . . . . . 20
3.3 Die Standardnormalverteilung auf R
n
und der Satz von Fisher . . . . . 21
3.4 Anwendung: Eine Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5 Der zwei-Stichproben t-Test (f ur gleiche Varianzen) . . . . . . . . . . . . 24
3.6 Zur Geometrie in der zwei-Stichproben-Situation . . . . . . . . . . . . . 25
4 Tests f ur gepaarte Stichproben 26
4.1 t-Test f ur gepaarte Stichproben . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.1 Voraussetzungen und Spezialfall . . . . . . . . . . . . . . . . . . 27
4.2 Wilcoxon-Test f ur gepaarte Stichproben/ Vorzeichenrangtest . . . . . . 28
4.3 Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.4 Permutationstest von Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Schatzverfahren 30
5.1 Der Mittlere quadratische Fehler . . . . . . . . . . . . . . . . . . . . . . 31
5.2 Das Maximum-Likelihood Prinzip . . . . . . . . . . . . . . . . . . . . . . 33
5.2.1 Eigenschaften von Maximum-Likelihood-Schatzern . . . . . . . . 33
5.3 Die Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.4 Kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.5 Bootstrap-Kondenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . 37
5.6 Suzienz und die Minimierung d. mittleren quadratischen Fehlers . . . 38
6 Likelihood-Quotienten-Tests 42
6.1 Einfache Hypothese und einfache Alternative . . . . . . . . . . . . . . . 43
6.2 Generalisierte Likelihood-Quotiententests . . . . . . . . . . . . . . . . . 44
7 Der
2
-Test 46
7.1 Normalverteilungen auf R
k
. . . . . . . . . . . . . . . . . . . . . . . . . 48
7.2 Der
2
-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
8 Vergleich von mehr als zwei Stichproben 51
8.1 Erinnerung: Geometrie beim t-Test . . . . . . . . . . . . . . . . . . . . . 51
8.2 Verallgemeinerung auf k(> 2) Gruppen . . . . . . . . . . . . . . . . . . . 52
8.3 Paarweise Vergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
8.4 Multiples Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
8.4.1 Bonferroni-Korrektur . . . . . . . . . . . . . . . . . . . . . . . . 56
8.4.2 Simultane Kondenzintervalle nach Tukey . . . . . . . . . . . . . 56
8.5 Lineare Kontraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
8.6 Kruskal-Wallis-(H)-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
9 Das normale lineare Modell 60
9.1 Testen linearer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . 61
10 Lineare Regression 62
1 Beschreibende Statistik
Ein wesentlicher Teil der Statistik beschaftigt sich mit Datenanalyse mit Hilfe stochas-
tischer Modelle. Daten liegen oft vor in Form eines Zahlenvektors X = (x
1
, . . . , x
n
). Um
die Variabilitat dieser Beobachtungen zu modellieren, betrachtet man sie im stochasti-
schen Modell als Realisierungen von ZVen X
1
, . . . , X
n
. Wir schreiben daher wahlweise
X = (x
1
, . . . , x
n
) f ur die Beobachtungen bzw. X = (X
1
, . . . , X
n
) f ur einen Vektor von
Zufallsvariablen.
1.1 Die Lage einer Verteilung
1.1.1 Der Erwartungswert
Erinnerung: Denition des Erwartungswertes
Der Erwartungswert einer diskreten Zufallsvariablen X mit Werten in S ist deniert als
= EX =

xS
xWs(X = x).
Der Erwartungswert einer Zufallsvariablen mit Wahrscheinlichkeitsdichte f(x) ist analog
= EX =
_
R
xf(x)dx.
Schatzung des Erwartungswertes durch den Mittelwert Seien X
1
, . . . , X
n
un-
abhangige, identisch verteilte ZVe. Ein beliebter Schatzer f ur den Erwartungswert ist
der Stichprobenmittelwert:
:=

X :=
1
n
n

i=1
X
i
.
Beobachtung 1: Erwartungstreue F ur X
1
, . . . , X
n
u.i.v. mit E[X[ < ist der
Mittelwert ein erwartungstreuer Schatzer f ur den Erwartungswert:
E[ ] =
1
n
n

i=1
EX
i
= EX
1
= .
Beobachtung 2: Der mittlere quadratische Fehler Wie genau konnen wir
schatzen? Ein haug verwendetes Kriterium f ur die G ute eines Schatzers ist der mittlere
quadratische Fehler: die erwartete quadratische Abweichung des Schatzers von dem zu
schatzenden Wert. Schatzt man durch

X, so ist der mittlere quadratische Fehler gerade
E((

X )
2
)
E

X=
= Var(

X) = (1/n)Var(X).
Eine wichtige Unterscheidung: Die Standardabweichung der ZVe X ist
_
Var(X), die
Standardabweichung des Mittelwerts von n unabhangigen ZVen X
i
ist
Der Standardfehler : sd
_
1
n

i
X
i
_
=
_
Var(X)
n
=
sd(X)

n
.
1
Beobachtung 3: Das Starke Gesetz der Groen Zahlen Sei X
1
, X
2
, . . . eine Folge
unabhangiger, identisch verteilter ZVen mit Erwartungswert .

X
n
:= (1/n)

n
i=1
X
i
.
Dann konvergiert

X
n
fast sicher gegen den Erwartungswert, d.h.
Ws(

X
n
) = 1.
Das Starke Gesetz der Groen Zahlen impliziert stochastische Konvergenz des Stich-
probenmittelwertes gegen den Erwartungswert: F ur groe n liegt

X mit hoher Wahr-
scheinlichkeit nah beim Erwartungswert. Ein Schatzer, der stochastisch gegen den zu
schatzenden Wert konvergiert, heit konsistent. Der Stichprobenmittelwert ist also ein
konsistenter Schatzer f ur .
Die Verteilung von

X Drei Beispiele (Siehe auch Figur 1):
1. X
1
, . . . , X
n
unabhangig und ^(,
2
)-verteilt, also gema der Dichte
f(x) =
1

2
2
e

(x)
2
2
2
, x R.
Dann ist der Stichprobenmittelwert normalverteilt mit Erwartungswert und Va-
rianz
2
/n.
2. X
1
, . . . , X
n
unabhangig und Exp()-verteilt, also gema
f(x) = e
x
, x > 0.
Der Stichprobenmittelwert hat Erwartungswert 1/ und Varianz 1/(n
2
). Aber er
ist (zumindest f ur kleine n) nicht normalverteilt. (In der Tat folgt die Summe von n
unabhangigen Exp()-verteilten ZVen einer Gammaverteilung mit den Parametern
und n.)
3. X
1
, . . . , X
n
unabhangig und Unif([a, b])-verteilt. Zwar konnen wir Erwartungswert
und Varianz ausrechnen, aber wie ist die Verteilung?
Erinnerung: Der Zentrale Grenzwertsatz Sei X
1
, X
2
, . . . eine Folge unabhangi-
ger, identisch verteilter ZVen mit Erwartungswert und Varianz 0 <
2
< . S
n
:=

n
i=1
X
i
. Dann ist S
n
approximativ normalverteilt, bzw.
S
n
n

n
^(0, 1) f ur n in Verteilung.
Ein asymptotisches Kondenzintervall f ur Der Zentrale Grenzwertsatz sagt,
dass f ur jede beliebige zugrundeliegende Verteilung der Werte X
1
, . . . , X
n
die Verteilung
des Stichprobenmittelwertes (f ur groe n) einer Normalverteilung folgt. Damit konnen
wir leicht ein erstes Kondenzintervall konstruieren:
Seien wiederum X
1
, . . . , X
n
u.i.v. mit EX = und Var(X) =
2
(0, ). Sei =
1/n

X
i
. ist eine Zufallsvariable und schwankt um . In der Regel ist aber nat urlich
,= (und unsere Schatzung damit zwar gut, aber falsch). Wie falsch ist also unser
2
0 2 4 6 8 10
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
n=3
x
N
o
r
m
a
l
v
e
r
t
e
i
l
u
n
g
0 2 4 6 8 10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
n=10
x
0 2 4 6 8 10
0
.
0
0
.
4
0
.
8
1
.
2
n=30
x
0 2 4 6 8 10
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
x
E
x
p
o
n
e
n
t
i
a
l
v
e
r
t
e
i
l
u
n
g
0 2 4 6 8 10
0
.
0
0
.
2
0
.
4
0
.
6
x
0 2 4 6 8 10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
x
0 2 4 6 8 10
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
x
U
n
i
f
o
r
m
e

V
e
r
t
e
i
l
u
n
g
0 2 4 6 8 10
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
x
0 2 4 6 8 10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
x
Abbildung 1: Verteilung des Stichprobenmittelwertes f ur verschiedene n (Werte z.T. si-
muliert)
Schatzer?
Gesucht ist ein Intervall I(X), das mit hoher Wahrscheinlichkeit den wahren Erwar-
tungswert uberdeckt, z.B.
Ws(I(X) EX) 0.95. (1)
Ein solches Intervall nennt man ein 95%-Kondenzintervall f ur den Erwartungswert.
Man beachte die Schreibweise: Nicht etwa der Erwartungswert ist hier zufallig, son-
dern das Intervall! Nach dem ZGWS gilt (f ur gen ugend groes n), dass approximativ
normalverteilt ist. Das heit, es gibt eine Zahl a so, dass
Ws( a/

n +a/

n) = 0.95.
Bei der Normalverteilung mit Mittelwert und Varianz
2
liegen etwa 95% der Masse
im Intervall [ 2, + 2] (Figur 2, der genaue Wert ist a = 1.96.) Also:
Ws( 1.96/

n + 1.96/

n) = 0.95.
Um dieses Intervall in ein Intervall f ur zu transformieren, beobachten wir:
Ws( 1.96/

n + 1.96/

n)
=Ws(1.96/

n 1.96/

n)
=Ws( + 1.96/

n 1.96/

n)
Also erf ullt I(X) = [ 1.96/

n, + 1.96/

n] Bedingung (1).
3
Normalverteilung

D
i
c
h
t
e
++
68%
++ 2 2
95%
++ 3 3
99.7%
Abbildung 2: Normalverteilung: Flache in Intervallen [ k, +k], k = 1, 2, 3.
Was kann schief gehen?
Die Voraussetzungen konnten nicht zutreen, z.B. existiert EX nicht f ur alle Ver-
teilungen. Wir betrachten die Standard-Cauchy-Verteilung, mit Dichte
f(x) =
1

1
1 +x
2
, x R.
Hier ist zwar f(x) integrierbar, aber nicht xf(x), so dass der Erwartungswert nicht
existiert. Das starke Gesetz der Groen Zahlen gilt hier nicht die normierten
Partialsummen

X
n
= 1/n

n
i=1
X
i
konvergieren nicht (Figur 3).
4 2 0 2 4
0
.
0
0
.
2
0
.
4
x
D
i
c
h
t
e
Normalvert.
Cauchyvert.
0 2000 4000 6000 8000 10000

2
0
2
n
S
n
n
Abbildung 3: Fehlende Konvergenz des Mittelwertes bei der Cauchy-Verteilung.
Die Aussage des ZGWS ist asymptotisch, aber die G ute der Asymptotik hangt von
der zugrundeliegenden Verteilung ab. F ur manche Verteilungen muss f ur approxi-
mative Normalitat n erst sehr gro werden. Zum Beispiel, wenn eine Verteilung
winziges Gewicht auf sehr groen Werten hat:
X habe Verteilung
0
mit Erwartungswert .
X

:=
_
X mit Wkeit 1
1/
2
mit Wkeit
4

:= EX

= (1 ) +
1

2
f ur 0.
F ur festes n gilt f ur jedes von X = (X
1
, . . . , X
n
) abhangige Intervall I(X):
Ws(I(X
1
, . . . , X
n
) = I(X

1
, . . . , X

n
))
0
1.
Kondenzintervalle sollten moglichst klein sein, insbesondere beschrankt. Daher
folgt mit
Ws(I(X
1
, . . . , X
n
)

)
0
0
Ws(I(X

1
, . . . , X

n
)

)
0
0.
Die Approximation aus dem ZGWS kann also beliebig schlecht werden.
F ur so pathologische Falle, z.B. bei ausreierbehafteten Daten, oder wenn man wenige
Informationen uber die zugrundeliegende Verteilung hat, verwendet man gerne nichtpa-
rametrische Ansatze, z.B. Quantile.
1.1.2 Quantile
Erinnerung: Die Verteilungsfunktion einer ZVen X ist deniert als
F(x) = Ws(X x) = ((, x]),
wobei die Verteilung von X bezeichnet. Diskret: F(x) =

yx
Ws(X = y). Hat X
Dichte f(x): F(x) =
x
_

f(y)dy.
Die empirische Verteilungsfunktion Zu einem Datenvektor X = (x
1
, . . . , x
n
) ist
die empirische Verteilungsfunktion deniert als
F
n
(X) =
1
n
[x
i
[x
i
x[.
X=(1,2,4,7,9)
x
#
x
i

x
0
.
0
0
.
4
0
.
8
2 0 2 4 6 8 10 12
q
q
q
q
q
100 normalverteilte ZVen
x
#
x
i

x
0
.
0
0
.
4
0
.
8
0 2 4 6 8 10
Abbildung 4: Beispiel f ur empirische Verteilungsfunktionen
5
Die Quantilfunktion Die Verteilungsfunktion F ist i.a. nicht umkehrbar. Die Quan-
tilfunktion F
1
ist die (verallgemeinerte) Umkehrfunktion der Verteilungsfunktion:
F
1
(p) := supq[F(q) < p p (0, 1]
F
1
(0) := lim
p0
F
1
(p) = infq[F(q) > 0
Betrachte z.B. f ur die empirische Verteilungsfunktion F
5
((1, 2, 4, 7, 9)) aus Figur 4 das
50%-Quantil, also den Median: supq[F(q) < 0.5 = 4, der mittlere Wert der der Groe
nach geordneten Daten.
Der Median Ein Median einer Verteilung ist eine Zahl m mit
Ws(X m) 0.5 und Ws(X m) 0.5.
Mit dieser Denition ist der Median nicht notwendig eindeutig bestimmt.
Beispiel: X sei ZVe mit Werten in 1, 2, mit Ws(X = 1) = 1/2, Ws(X = 2) = 1/2.
Dann ist jede Zahl im Intervall [1, 2] ein Median der Verteilung von X.
Schatzer f ur den Median / Stichprobenmedian Sei (X
(1)
, X
(2)
, . . . , X
(n)
) mit
X
(1)
X
(2)
. . . X
(n)
die Ordnungsstatistik, d.h. die der Groe nach geordnete
Stichprobe. Dann wird der Median geschatzt durch
m =
_
X
(k+1)
f ur n = 2k + 1
1/2(X
(k)
+X
(k+1)
) f ur n = 2k.
Ein allgemeing ultiges Kondenzintervall f ur den Median Im Gegensatz zum
Mittelwert kann man f ur den Median unabhangig von der zugrundeliegenden Verteilung
sogar f ur festes n ein Intervall I(X) angeben so, dass
Ws(I(X) m) moglichst gro (z.B. 0.95).
Wir verwenden dazu wieder die Ordnungsstatistik (X
(1)
, . . . , X
(n)
) und beginnen mit
einem Beispiel:
Beispiel: Eine Stichprobe der Groe n = 11. Betrachte zunachst das Intervall I
1
:=
[X
(1)
, X
(n)
]. Es gilt:
Ws(m / I
1
) = Ws(X
(1)
> m) + Ws(X
(n)
< m)
= 2
_
1
2
_
11
0.001.
6
Konnen wir dieses Intervall verkleinern so, dass Ws(m / I) gerade noch kleiner ist als
0.05? Was ist mit I
2
= [X
(2)
, X
(n1)
]?
Ws(m / I
2
) = Ws(X
(2)
> m) + Ws(X
(n1)
< m)
= Ws(hochstens ein X
i
ist kleiner m) + Ws(hochstens ein X
i
ist groer m)
= 2
_
_
11
1
__
1
2
_
11
+
_
11
0
__
1
2
_
11
_
0.012
in R: = 2 pbinom(1, 11, 0.5)
Um ein moglichst kleines Kondenzintervall zu nden so, dass Ws(m I) 0.95, suchen
wir eine Zahl so, dass 2pbinom(, 11, 0.5) gerade noch kleiner ist als 0.05. Das geht
z.B. in R: mit der implementierten Quantilfunktion: = qbinom(0.05/2, 11, 0.5). Die
Wahrscheinlichkeit 0.05 nennt man das Niveau des Kondenzintervalls. Allgemein also
f ur n und Niveau
= qbinom(/2, n, 0.5).

Ahnliche

Uberlegungen erlauben die Konstruktion von Kondenzintervallen f ur jedes
beliebige Quantil und jede zugrundeliegende Verteilung f ur festes n. (

Ubung)
1.1.3 Vergleich von Mittelwert und Median
F ur symmetrische Verteilungen fallen Erwartungswert und Median zusammen. Was soll-
te man also nehmen, um die Lage zu schatzen? Mittelwert oder Median?
Nach dem ZGWS ist der Stichprobenmittelwert asymptotisch normalverteilt mit Varianz

2
/n. F ur den Median gibt es eine ahnliche Aussage:
Asymptotische Normalitat des Medians Seien X
1
, . . . , X
n
u.i.v. mit einer dif-
ferenzierbaren Verteilungsfunktion F. Sei m der Median der Verteilung, und es gelte
F

(m) > 0 (in diesem Fall ist der Median eindeutig).Sei M


n
der Stichprobenmedian.
Dann gilt

n(M
n
m) ^(0, (2F

(m))
2
) in Verteilung.
Das heit, der Stichprobenmedian ist approximativ normalverteilt, und die approxima-
tive Varianz ist umso kleiner, je groer der Wert der Dichte am Median ist.
Beweis: Es ist zu zeigen, dass
Ws(

n(M
n
m) a) Ws(Z 2aF

(m)) f ur n ,
f ur eine Standardnormalverteilte Zufallsvariable Z. Wir denieren dazu Indikatorvaria-
blen
Y
i
:=
_
1 falls X
i
m+a/

n
0 sonst
Damit gilt
Ws(Y
i
= 1) = F(m+a/

n) =: p
n
.
7
Wir konnen Ws(M
n
m+a

n) nun zur uckf uhren auf die binomialverteilte ZVe



Y
i
,
die approximativ normalverteilt ist:
Ws(M
n
m+a

n)
n ungerade
= Ws
_

Y
i

n + 1
2
_
= Ws
_

Y
i
np
n
_
np
n
(1 p
n
)

(n + 1)/2 np
n
_
np
n
(1 p
n
)
_
Nach dem ZGWS konvergiert
P
Y
i
npn

npn(1pn)
gegen eine standardnormalverteilte ZVe. Bei
Grenzwertbetrachtung des rechten Terms erhalten wir
(n + 1)/2 np
n
_
np
n
(1 p
n
)
=
n(p
n
1/2)
_
np
n
(1 p
n
)
+
1/2
_
np
n
(1 p
n
)
=
1
_
p
n
(1 p
n
)
(p
n
1/2)
1/

n
+
1/2
_
np
n
(1 p
n
)
=
1
_
p
n
(1 p
n
)
(F(m+a/

n) F(m))
1/

n
+
1/2
_
np
n
(1 p
n
)
=
a
_
p
n
(1 p
n
)
. .
2a
F(m+a/

n) F(m)
a/

n
. .
F

(m)
+
1/2
_
np
n
(1 p
n
)
. .
0
n
2aF

(m)
Damit erhalten wir wie gew unscht
Ws(

n(M
n
m) a) Ws(Z 2aF

(m))
Wegen Ws(Z 2aF

(m)) = Ws(Z/2F

(m) a) konvergiert daher M


n
gegen eine
normalverteilte ZVe mit Varianz 1/(2F

(m))
2
.
Lageparameter Mittelwert und Median heien Lageparameter, weil sie bei einer Ver-
schiebung der Verteilung um ebenfalls um verschoben werden:
Seien der Mittelwert und m der Median der Verteilung mit Dichte f
0
(x) und Ver-
teilungsfunktion F
0
(x), so ist + der Mittelwert und m+ der Median der Verteilung

mit Dichte f

(x) = f
0
(x ) und Verteilungsfunktion F

(x) := F
0
(x ). Parameter
mit dieser Eigenschaft heien Lageparameter einer Verteilung.
Skalenparameter beschreiben die Breite einer Verteilung. Ein Parameter heit Ska-
lenparameter einer Verteilung , wenn gilt:
Hat X die Verteilung
(0,1)
mit Dichte f
(0,1)
(x) und Verteilungsfunktion F
(0,1)
(x), so
hat Y := X die Verteilung
(0,)
mit Verteilungsfunktion F
(0,)
(x) := F
(0,1)
(x/) und
Dichte f
(0,)
(x) = 1/f
(0,1)
(x/).
Beispiel: Die Standardabweichung =
_
E(X )
2
ist ein Skalenparameter, denn hat
X Standardabweichung , so hat Y := cX Standardabweichung c.
8
1.2 Graphische Darstellungen f ur Verteilungen
Wir wollen kurz ein paar verbreitete Darstellungsformen f ur Daten und ihre Implemen-
tierung in R kennen lernen (vgl. Fig. 5).
1.2.1 Das Histogramm
Ein Histogramm liefert eine umfangreiche Darstellung einer Haugkeitsverteilung: Wie
viele Beobachtungen fallen in welches Intervall?
1.2.2 Der Box-and-Whisker-plot (oder kurz: Boxplot)
Einen Zahlenvektor x
1
, . . . , x
n
kann man kurz in f unf Zahlen beschreiben: Minimum,
25%-Quantil (Q1, das erste Quartil), 50%-Quantil (Median), 75%-Quantil (Q3, das
dritte Quartil), und Maximum. Ein Boxplot liefert eine graphische Darstellung einer
ahnliche Kurz ubersicht: 25%-und 75%-Quantil bilden die Rander einer Box um den Me-
dian. Hier liegen also die mittleren 50% der Beobachtungen. Der Interquartilabstand
Q3-Q1 ist neben der Standardabweichung eine gangige Art, die Breite einer Verteilung
zu beschreiben.
Die Whisker (Barthaare) konnen bis zu den Extremwerten reichen. Aber in der Regel
betragt ihre Lange das 1.5-Fache des Interquartilabstands Q3-Q1, wobei sie nur bis zur
extremsten Beobachtung innerhalb dieses Bereiches reichen. Werte auerhalb werden
durch Punkte dargestellt.
Tabelle 1: Histogramme in R
Gegeben sei ein Datenvektor x<-c(4,2,5.5,0.7,...)
Histogrammbefehl: hist(x)
n utzliche Optionen
Intervalle: hist(x,breaks=12) produziert 12 Balken
hist(x,breaks=seq(min(x),max(x),by=0.1)) Balken der Breite 0.1
Normiert die Flache auf 1: hist(x,freq=FALSE)
speichere Ausgabe h<-hist(x,plot=FALSE)
weitere Informationen mit ?hist
Auch f ur andere Darstellun- gen g ultige Optionen:
Titel hist(x,main=Histogramm des Datenvektors x)
Achsenbeschriftung hist(x,xlab=Groe, ylab=Anzahl)
dargestellter Bereich hist(x,xlim=c(0,3), ylim=...)
Farbe: hist(x,col=yellow) (Alle Farbnamen: colors())
9
Tabelle 2: Boxplots und stripcharts in R
F ur einen Datenvektor x<-c(4,2,5.5,0.7,...)
einfach boxplot(x)
f ur zwei Boxplots nebeneinander:
Ein Datenvektor x<-c(4,2,5.5,0.7,...)
Ein Vektor, der die Gruppen deniert Gruppe<-c(0,0,0,...,1,1,1,...)
und dann einfach boxplot(x Gruppe)
ganz analog f ur stripchart: stripchart(x Gruppe)
n utzliche Optionen f ur stripchart:
r uttle die Datenpunkte ein wenig: stripchart(x Gruppe,method=jitter)
Beschriftung der Gruppen ...,group.names=c(Gr. 1,Gr. 2))
Tabelle 3: Graphikparameter in R
par(...) setzt Graphikparameter
cex.axis Groe von Achsentiteln
cex.lab Groe von Achsenbeschriftungen
cex.main Groe der

Uberschrift
mfcol=c(2,3) Grakfenster mit 2 Zeilen, 3 Spalten
?par weitere n utzliche Parameter
10
1000 std.normalverteilte ZVen
x
A
n
z
a
h
l
3 2 1 0 1 2 3
0
2
0
4
0
6
0
8
0
Gruppe 1 Gruppe 2

2
0
2
4
6
2 0 2 4 6
G
r
u
p
p
e

1
G
r
u
p
p
e

2
q
q q q
q
q q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q qq
q
q
q
q
q q
q
q
q
q q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q q
q
q
q
q
q
q q
q
q
q
q
q
q q q
q
q
q q q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
Abbildung 5: Beispiele f ur Histogramm, Boxplot und Stripchart
# Graphikparameter
par(mfrow=c(1,3),cex.lab=1.7,cex.axis=1.4,cex.main=1.8,font.main=1,mar=c(4,4.8,3,1))
# Graphik 1
hist(rnorm(1000),col=yellow,breaks=30,xlab=x,ylab=Anzahl,main=1000
std.normalverteilte ZVen)
# Datenerzeugung fur Graphiken 2 und 3
x<-rep(c(Gruppe 1,Gruppe 2),each=100)
y<-c(rnorm(100),rnorm(100,mean=2,sd=2))
# Graphik 2
boxplot(yx,col=red)
# Graphik 3
stripchart(y x,col=blue,pch=19,method=jitter)
11
1.2.3 Quantilplots
Wie ist die Form einer empirischen Verteilung? Vielleicht ungefahr wie eine Normal-
verteilung (mit entsprechendem Mittelwert und Varianz)? Oder hat sie z.B. schwerere
Schwanze, ist sie etwa schief, oder hat sie Locher?
qqnorm Um eine empirische Verteilung mit einer Normalverteilung zu vergleichen,
konnte man entweder eine Normalverteilung anpassen (d.h. Mittelwert und Varianz
schatzen) und als Kurve uber ein Histogramm der empirischen Haugkeitsverteilung le-
gen. Oder man verwendet einen Normalplot: Man identiziert die Zahlen x
1
, . . . , x
n
mit
ihren Quantilen (statt der oben denierten empirischen Quantile 1/n, 2/n, . . . , 1 werden
in R die Zwischenschritte ausgewertet: 1/(2n), 3/(2n), . . . , (2n 1)/(2n)) und tragt die
entsprechenden Quantile der Normalverteilung gegen die Beobachtungen auf (Figur 6,
unten links).
qqplot Dasselbe kann man machen, um zwei empirische Verteilungen zu vergleichen:
Man identiziert die Beobachtungen mit ihren Quantilen und tragt sie gegeneinander
auf. F ur zwei Datensatze x
1
, . . . , x
n
und y
1
, . . . , y
n
mit demselben Stichprobenumfang
tragt man jeweils die i-t-kleinsten Beobachtungen x
(i)
, y
(i)
gegeneinander auf (Figur 6,
unten rechts).
Dichte
2 0 2
Verteilungsfunktion
0
.
0
0
.
5
1
.
0
2 0 2
qqnorm
Beobachtungen: N(5,4)
Q
u
a
n
t
i
l
e

d
.

N
o
r
m
a
l
v
e
r
t
e
i
l
u
n
g
0 5 10

2
0
2
q
q
q
q qq
q
qq
q q
q
q
q
q
q
q
q q
q
qqplot
St.probe aus Exp(1)
S
t
.
p
r
o
b
e

a
u
s

N
(
0
,
1
)
0.0 0.5 1.0 1.5 2.0 2.5 3.0

1
.
0
0
.
0
1
.
0
2
.
0
Abbildung 6: Quantilplots: Erstellung und Interpretation
12
2 Erste statistische Tests
2.1 Ein Permutationstest
Hat das Horen von (m utterlich klingenden) Herztonen einen Eekt auf die Gewichtszu-
nahme von Neugeborenen?
Wir betrachten eine Untersuchung von Lee Salk (The Role of the Heartbeat in the Re-
lation between Mother and Infant, Scientic American, May 1973, p. 26-29). Aus einer
Zahl Neugeborener wurden zufallig einige ausgewahlt, die in ihren ersten Lebenstagen
ohne Unterbrechung den Ton des Herzschlags eines Erwachsenen horen durften. Sonst
wurden alle Babies gleich behandelt. Beobachtet wurde die Gewichtszunahme vom ers-
ten auf den vierten Lebenstag.
Hat die Behandlung (Horen der Herztone) einen Eekt auf die Gewichtszunahme? Gibt
es einen signikanten Unterschied in der Gewichtszunahme zwischen behandelten und
unbehandelten Babies? Oder konnten die beobachteten Unterschiede durch Zufall zu-
stande gekommen sein, auch wenn die Behandlung keinen Eekt hat?
Wir haben aus m+n Individuen zufallig m gezogen und behandelt:
x
1
, . . . , x
m
in der Behandlungsgruppe, mit x =
1
m

x
i
,
y
1
, . . . , y
n
in der Kontrollgruppe, mit y =
1
n

y
i
.
Wir beobachten x > y. Wie gro muss der Unterschied sein, damit wir auch meinen,
das gilt ebenso f ur die Populationsparameter
x
>
y
? Wir betrachten die Nullhypo-
these
x
=
y
, dass die Behandlung keinen Eekt hat. Unter der Nullhypothese sind
die x
1
, . . . , x
m
einfach eine zufallige Stichprobe aus den Geburtsgewichtszunahmen der
m+n Babies, denn dann hatte die Aufteilung der m+n Zahlen in die beiden Gruppen
genauso gut anders ausfallen konnen. Also konnen wir x vergleichen mit dem Wert einer
zufallig aus den m + n Zahlen gezogenen (also einer durch Permutation gewonnenen)
Stichprobe:
Ziehe rein zufallig (ohne Zur ucklegen) Z
1
, . . . , Z
m
aus der Liste x
1
, . . . , x
m
, y
1
, . . . , y
n
und berechne die Wahrscheinlichkeit Ws
_
1
m

Z
i
x
_
.
Einfacher: Approximiere diese Wahrscheinlichkeit durch Simulation: Ziehe (z.B.) 10000
mal Z
1
, . . . , Z
m
und notiere die relative Haugkeit f ur das Ereignis
_
1
m

Z
i
x
_
.
Falls in weniger als 5% der Falle
1
m

Z
i
x, so kann man sagen: Die Unterschiede
zwischen den Gruppen waren auf dem 5%-Niveau signikant. Bedeutung: Wenn es kei-
nen Behandlungseekt gabe, beobachten wir solche Unterschiede in weniger als 5% der
Versuche durch Zufall.
2.2 Der Rangsummentest von Wilcoxon / Der Mann-Whitney-U-Test
Der Permutationstest ist f ur viele Fragestellungen einsetzbar, erfordert nur die Wahl
einer adaquaten Teststatistik (hier: 1/m

Z
i
) und die Simulation mit dem Rechner.
Der Test macht keine Annahmen uber die zugrundeliegenden Verteilungen und ist da-
her allgemein verwendbar. Da aber die Verteilung der Testsatistik 1/m

Z
i
auch von
den beobachteten Werten x
1
, . . . , x
m
, y
1
, . . . , y
n
abhangt, ist sie nur durch Simulation zu
ermitteln.
13
Will man diese Abhangigkeit von den Werten loswerden, kann man z.B. die Rangsum-
menstatistik von Wilcoxon verwenden. Idee: Statt der Werte werden ihre Range verwen-
det:
Beispiel 1: Wenn alle Werte unterschiedlich sind
Beobachtung x 2 0 2.9 2.5 5
Rang von x 2 1 4 3 5
Beispiel 2: Bei Rangbindungen (engl.: ties)
Beobachtung x 2 0 2.9 2 5
Rang von x 2.5 1 4 2.5 5
Vergleicht man (wie im Beispiel der geherzten Babies) die Beobachtungen aus zwei
Gruppen, so werden die Range uber alle Beobachtungen gebildet. Beispiel:
Gruppe 1 1 1 2 1 2 1 2 2 2
Beobachtung x 2 0 0.5 0.7 1.3 1.8 2.8 4 4.2 4.3
Rang von x 1 2 3 4 5 6 7 8 9 10
Rangsumme in Gruppe 1: 18, Rangsumme in Gruppe 2:
10(10+1)
2
18.
Um die Rangsummen bewerten zu konnen, m ussen wir wissen, wie sie unter der Null-
hypothese des rein zufalligen Ziehens von m Zahlen Z
1
, . . . , Z
m
aus den n + m Zahlen
x
1
, . . . , x
m
, y
1
, . . . , y
n
verteilt waren. In dem Fall ist
(Rang(Z
1
), . . . , Rang(Z
m
))
d
= (R
1
, . . . , R
m
),
wobei R
i
rein zufallige Z uge aus 1, . . . , m+n ohne Zur ucklegen sind. Die Rangsumme
bezeichnen wir mit
S :=
m

i=1
R
i
.
Wir betrachten im Folgenden den Fall ohne Rangbindungen, in dem alle n + m Werte
verschieden sind.
Bemerkung 1 Unter der Nullhypothese rein zufalligen Ziehens ist
ES =
m(m+n + 1)
2
,
denn
ER
i
=
m+n

k=1
k
1
m+n
=
(m+n)(m+n + 1)
2

1
m+n
=
m+n + 1
2
,
ES = m ER
1
=
m(m+n + 1)
2
.
14
Bemerkung 2 Unter der Nullhypothese ist
Var(S) =
mn(m+n + 1)
12
.
Beweis:
Wir betrachten wieder den Fall, in dem alle n +m Werte verschieden sind, und konnen
uns daher auf eine angenehmere Darstellung von S zur uckziehen:
Seien U
1
, . . . , U
m
, V
1
, . . . , V
n
unabhangig und gleichverteilt auf [0, 1]. Die Rangsumme
der U
i
,

S =

Rang(U
i
), ist dann verteilt wie die Rangsumme S =

R
i
von oben.
Es reicht also, die Behauptung f ur

S zu zeigen. Der Rang eines Wertes U
i
setzt sich
zusammen aus der Anzahl der U
j
, die kleiner oder gleich U
i
sind, und der Anzahl der
V
j
, die kleiner U
i
sind:
Rang(U
i
) =
m

k=1
I
{U
k
U
i
}
+
n

j=1
I
{V
j
<U
i
}
=

S =
m

i=1
Rang(U
i
) =
m(m+ 1)
2
+
m

i=1
n

j=1
I
{V
j
<U
i
}
.
Damit ist
Var(

S) = Var
_
_
m

i=1
n

j=1
I
{V
j
<U
i
}
_
_
=

(i,j)
Var
_
I
{V
j
<U
i
}
_
+

(i1, j1), (i2, j2)


i1 = i2, j1 = j2
Cov
_
I
{V
j
1
<U
i
1
}
, I
{V
j
2
<U
i
2
}
_
+
m

i=1

(j
1
,j
2
)
Cov
_
I
{V
j
1
<U
i
}
, I
{V
j
2
<U
i
}
_
+
n

j=1

(i
1
,i
2
)
Cov
_
I
{V
j
<U
i
1
}
, I
{V
j
<U
i
2
}
_
Der zweite Summand ist Null, weil f ur i
1
,= i
2
und j
1
,= j
2
die Ereignisse V
j
1
< U
i
1

und V
j
2
< U
i
2
unabhangig sind. F ur den dritten und vierten Summanden gilt
Cov
_
I
{V
j
1
<U
i
}
, I
{V
j
2
<U
i
}
_
= E
_
I
{V
j
1
<U
i
}
I
{V
j
2
<U
i
}
_

1
4
= Ws(V
j
1
< U
i
V
j
2
< U
i
)
1
4
=
1
3

1
4
=
1
12
Damit ist
Var(

S) =
nm
4
+
mn(n 1)
12
+
mn(m1)
12
=
mn(m+n + 1)
12
.

Die Rangsummenstatistik S ist eine Summe von ZVen, von denen f ur groe m, n die
uberwiegende Anzahl unabhangig sind (f ur die meisten Paare (i
1
, j
1
), (i
2
, j
2
) gilt i
1
,= i
2
und j
1
,= j
2
und damit sind V
j
1
< U
i
1
und V
j
2
< U
i
2
unabhangig). Dies macht das
folgende Resultat einleuchtend (das aber hier nicht bewiesen wird):
15
Satz (Hoeding):
F ur m, n gilt:
S
n,m
ES
n,m
_
Var(S
n,m
)
^(0, 1) in Verteilung.
Der Rangsummentest von Wilcoxon in R Zum Vergleich von zwei Vektoren x
und y verwendet man den Befehl wilcox.test(x,y). R berechnet die Mann-Whitney-
Statistik
U =
m

i=1
n

j=1
I
{V
j
<U
i
}
,
die wegen S =
m(m+1)
2
+ U aquivalent ist zur Rangsummenstatistik S. Ohne weitere
Spezikation wird f ur m + n 50 die exakte Verteilung von U ermittelt und damit
der exakte p-Wert. F ur m + n > 50 wird die Normalapproximation verwendet (es sei
denn, man speziziert wilcox.test(x,y,exact=TRUE). F ur diesen Fall ndet man in
der Hilfe (?wilcox.test) eine Warnung: This function can use large amounts of memory
and stack (and even crash R if the stack limit is exceeded) if exact = TRUE and one
sample is large.)
Achtung Der Wilcoxon-Test testet die Nullhypothese, dass beide Verteilungen gleich
sind, gegen die Alternative, dass die eine gegen uber der anderen verschoben ist. Er
ist nicht sensitiv f ur andere Arten von Alternativen (z.B. wenn sich die Streuungen
unterscheiden, nicht aber die Mittelwerte).
Die verbreitetste Fragestellung vergleicht die Erwartungswerte zweier Verteilungen.
Sie ist am leichtesten mit Hilfe eines z-Tests zu behandeln, sofern die Standardabwei-
chung bekannt ist:
2.3 Der z-Test
Aus dem asymptotischen Kondenzintervall f ur den Mittelwert, das wir in Abschnitt
1.1.1 kennengelernt haben, konnen wir leicht einen ersten statistischen Test konstruieren.
Ein Beispiel Wir mochten untersuchen, ob sich das Geburtsgewicht von Babies in
einer bestimmten Region Deutschlands von dem Geburtsgewicht im gesamten Bundes-
gebiet unterscheidet. Angenommen, wir w ussten (z.B. vom statistischen Bundesamt),
dass das mittlere Geburtsgewicht in Deutschland = 3.3 kg betragt und eine Stan-
dardabweichung von = 0.5 kg hat. Um zu untersuchen, ob sich das Geburtsgewicht
in der ausgewahlten Region davon unterscheidet, beobachten wir eine Stichprobe von
n = 50 Babies, die dort geboren wurden. Ihr mittleres Geburtsgewicht betragt x = 3.5
kg. Wie stark weicht x von ab? Spricht diese Abweichung daf ur, dass das mittlere
Geburtsgewicht
R
in dieser Region tatsachlich hoher ist, oder haben wir es mit einer
zufalligen Schwankung zu tun?
Nach dem ZGWS bewerten wir Abweichungen des Mittelwertes in Einheiten des Stan-
dardfehlers, /

n, unsere Teststatistik ist also


z =

x
/

.
16
Falls das Geburtsgewicht in der betreenden Region sich von der ubrigen Population
nicht unterscheidet (also unter der Nullhypothese
R
= ), ist z nach dem ZGWS
approximativ standardnormalverteilt. Auf dieser Basis beurteilen wir, wie wahrscheinlich
das beobachtete Ereignis unter der Hypothese
R
= ist.
In unserem Beispiel ist z = 2.83. F ur eine ^(0, 1)-verteilte ZVe Z ist aber
Ws([Z[ > 2.83) < 0.005.
Unter der Hypothese
R
= haben wir also ein sehr unwahrscheinliches Ereignis beob-
achtet. Man sagt auch: Die Daten sprechen (auf dem 0.5%-Niveau) gegen die Hypothese

R
= .
2.4 p-Wert, Signikanz, Testmacht und Alternativhypothese
Der p-Wert bezeichnet die Wahrscheinlichkeit, ein mindestens so extremes Ereignis
zu beobachten, wenn (d.h. obwohl ) die Nullhypothese zutrit. Im Beispiel von eben also
p = 0.005. Man spricht ublicherweise von statistischer Signikanz, wenn p < 0.05 (gerne
auch durch * markiert), hochsignikant bedeutet oft p < 0.01 (**) oder p < 0.001 (***).
Nicht signikant (n.s.) heit entsprechend: p 0.05.
Wie ist ein nicht signikantes Ergebnis zu interpretieren? Wie sehr spricht es f ur die
Nullhypothese und gegen die Alternative? Das hangt von der gewahlten Alternativhy-
pothese ab.
Beispiel X
1
, . . . , X
n
sind unabhangig identisch verteilt, entweder gema
0
oder gema

1
, mit
H
0
: X
i
^(0, 1) =:
0
i H
1
: X
i
^(1, 1) =:
1
i.
Falls H
0
zutrit, mochten wir sie in hochstens 5% der Falle falschlicherweise ablehnen
(mit einem Signikanzniveau von 5%. Die Nullhypothese falschlicherweise abzulehnen
(false positive) bezeichnet man auch als Fehler erster Art). Damit d urfen wir H
0
nur
ablehnen, wenn
Z =

X
/

n
=

X
1/

n
> 1.64.
Wir testen hier einseitig, denn nur groe (positive) Werte von Z sprechen f ur H
1
und
gegen H
0
. Es gilt:
Ws
H
0
(Z > 1.64) = 0.05.
Was passiert aber, wenn H
1
zutrit? Mit welcher Wahrscheinlichkeit lehnen wir dann
H
0
ab? Diese Wahrscheinlichkeit heit die Macht eines Tests (testpower):
Ws
H
1
_

X
1/

n
> 1.64
_
= Ws
_

X 1
1/

n
> 1.64

n
_
= (1 (1.64

n)),
wobei die Verteilungsfunktion der Standardnormalverteilung ist.
F ur n = 4 ist Ws
H
1
([Z[ > 1.64) 0.63, f ur n = 10 etwa 0.87, f ur n = 20 etwa 0.99.
17
Die Macht des z-Tests hangt ab von , , n und vom gewahlten Signikanzniveau
(

Ubung). Die Wahrscheinlichkeit, H


0
falschlicherweise nicht abzulehnen (false negative,
1-testpower), bezeichnet man auch als Fehler zweiter Art. Insgesamt:
Entscheidung f ur Entscheidung f ur
H
0
H
1
mit Wkeit mit Wkeit
H
0
trit zu 1 (Fehler 1. Art)
H
1
trit zu (Fehler 2. Art) 1
3 Der t-Test
Die z-Statistik hat den Vorteil, dass sie wegen des ZGWS f ur alle Verteilungen von X
(mit endlichem zweiten Moment) approximativ standardnormalverteilt ist. Aber der z-
Test hat auch eine groe Schwache: Er setzt voraus, dass bekannt ist. Dies ist aber im
allgemeinen nicht der Fall; muss aus den Daten geschatzt werden.
3.1 Zur Geometrie von Strichprobenmittelwert und -varianz
3.1.1 Schatzer f ur
Wegen

2
X
= E
_
(X )
2
_
bietet sich folgender Schatzer f ur
2
X
an, falls bekannt ist

2
X
=
1
n

i
(X
i
)
2
(ist wg. E(X
1
)
2
=
2
X
erwartungstreu).
Aber ist selten bekannt und muss aus den Daten geschatzt werden: =

X. Da aber

X den Term

(X
i
c)
2
minimiert, ist
1
n

(X
i


X)
2

1
n

(X
i
)
2
.
Man kann zeigen, dass stattdessen
s
2
=
1
n 1
n

i=1
(X
i


X)
2
(2)
ein erwartungstreuer Schatzer f ur
2
ist.
3.1.2 Geometrie des Mittelwertes
Wir fassen n Beobachtungen x
1
, . . . , x
n
R auf als einen Datenvektor X = (x
1
, . . . , x
n
)
R
n
. Sei D die Hauptdiagonale in R
n
, also
D := c1[c R, wobei 1 := (1, . . . , 1)
T
.
18
Dann ist x1 die orthogonale Projektion des Datenvektors X auf die Hauptdiagonale.
Wir schreiben daf ur
x1 = T
D
X.
Denn das Skalarprodukt
< 1, X c1 >= 0 f ur

x
i
nc = 0, also: c = x.
Da durch die orthogonale Projektion c so bestimmt wird, dass die Lange der Strecke
X c1 minimal wird, bedeutet das gleichzeitig, dass

(x
i
c)
2
= [[X c1[[
2
minimal
ist f ur c = x. Anschaulich gesprochen zerlegen wir X in einen konstanten Anteil x1 und
ein Residuum R := X x1:
X = x
_
_
_
1
.
.
.
1
_
_
_+
_
_
_
x
1
x
.
.
.
x
n
x
_
_
_ = x1 +R,
wobei sowohl x1 als auch R als orthogonale Projektionen aufgefasst werden konnen:
x1 = T
D
X, und R = T
D
X.
3.1.3 Geometrie der geschatzten Standardabweichung
Will man den Vektor X am besten (im Sinne des kleinsten euklidischen Abstandes)
durch eine Zahl beschreiben, so wahlt man den Mittelwert x. Aber wie gut kann man X
durch x beschreiben? Wie weit ist X von der Hauptdiagonale D entfernt?
[[R[[ =
_

(x
i
x)
2
=

n 1 s.
Je k urzer das Residuum R, desto naher ist X an D, desto weniger weichen die Beobach-
tungen von ihrem Mittelwert ab.
3.2 Die t-Statistik
Ersetzt man in der z-Statistik durch s, so ist die resultierende Groe (zumindest f ur
kleine n) nicht mehr normalverteilt. Aber falls X
1
, . . . , X
n
unabhangig und ^(,
2
)-
verteilt sind, hat sie eine bekannte Verteilung: die t-Verteilung mit n1 Freiheitsgraden.
Satz: (William Gosset, alias Student, 1907)
Seien X
1
, . . . , X
n
unabhangig und ^(,
2
)-verteilt. Dann hangt die Verteilung von
T :=

X
s/

n
nur von n ab (und z.B. nicht von ). Genauer: T ist student-verteilt (t-verteilt) mit
(n 1) Freiheitsgraden (Beweis folgt).
19
3.2.1 Die t-Verteilung und ihre Verwandten
Die t-Verteilung ist glockenformig und (in aller Regel) um 0 zentriert. Sie gleicht der
Standardnormalverteilung und geht f ur n in sie uber. F ur kleine n hat sie jedoch
breitere Schwanze (vgl. Figur 7, links): Eine t-verteilte ZVe T nimmt mit hoherer Wahr-
scheinlichkeit extremere Werte an als eine normalverteilte ZVe Z. Die t-Statistik streut
starker als die z-Statistik, weil auch im Nenner eine Zufallsgroe steht. Das Gewicht
auerhalb des Intervalls [1.96, 1.96] ist groer als 5%. Die neuen Schranken kann man
in R mit der Funktion qt(0.025,df) berechnen (typische Werte siehe Tabelle 4).
Normal und tVerteilung
D
i
c
h
t
e
4 2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
df = 2
df = 8

2
Verteilung
D
i
c
h
t
e
0 1 2 3 4 5 6 7
0
.
0
0
.
4
0
.
8
df = 1
df = 2
df = 4
df = 6
Abbildung 7: Die t- und die
2
-Verteilung
df 2 5 10 15 30
t
krit
4.30 2.57 2.23 2.13 2.04 1.96
Tabelle 4: Kritische Werte der t-Verteilung f ur Ws([T[ > t
krit
) = 0.05.
Die Dichte der t-Verteilung mit n Freiheitsgraden ist
f
tn
(x) =
((n + 1)/2)

n(n/2)
_
1 +
x
2
n
_
n+1
2
, x R (vgl. Figur 7).
Eine t-verteilte ZVe kann beschrieben werden als Quotient von unabhangigen ZVen:
Sei T t(n)-verteilt, Z ^(0, 1) und X
2
(n), so ist L(T) = L
_
Z

X/n
_
.
Die
2
-Verteilung Eine ZVe X ist
2
-verteilt mit n Freiheitsgraden, wenn
L(X) = L
_
Z
2
1
+Z
2
2
+ +Z
2
n
_
, mit Z
1
, . . . , Z
n
unabhangig und ^(0, 1)-verteilt.
Die Dichte der
2
-Verteilung mit n Freiheitsgraden ist
f

2
(n)
(x) =
1
(n/2)
1
2
_
x
2
_n
2
1
e

x
2
, x > 0 (vgl. Figur 7).
20
Mit EZ
2
i
= 1 und Var(Z
i
) = 2 sieht man: Ist X
2
(n), so ist E(X) = n und
Var(X) = 2n. (Und am Rande sei bemerkt: An der Dichte sieht man sofort, dass die

2
(2)-Verteilung der Exp(1/2)-Verteilung entspricht.)
Um zu zeigen, dass die T-Statistik t-verteilt ist, brauchen wir noch einige Vor uber-
legungen, die uns auch spater von Nutzen sein werden. Wir stellen dazu zunachst T auf
andere Weise dar: Von X
1
, . . . , X
n
unabhangig und ^(,
2
)-verteilt gehen wir uber zu
Z
i
:=
X
i

unabhangig und ^(0, 1)-verteilt.


Dann ist
T =

X
s/

n
=

X
/

n
s

Z
s/
=

Z
_
1
n1

(Z
i


Z)
2
.
Da Z
i
^(0, 1), ist auch

n

Z ^(0, 1). Es gen ugt also zu zeigen:


1.
n

i=1
(Z
i


Z)
2

2
(n 1)
2.

Z und
n

i=1
(Z
i


Z)
2
sind unabhangig.
3.3 Die Standardnormalverteilung auf R
n
und der Satz von Fisher
Denition Z = (Z
1
, . . . , Z
n
) heit standardnormalverteilt auf R
n
Z
1
, . . . , Z
n
unabhangig und standardnormalverteilt in R. Damit ist die Wahrscheinlichkeitsdichte
von Z gegeben durch

n
(x) =
n

i=1
1

2
e

x
2
i
2
=
1
(2n)
n/2
e

P
x
2
i
2
=
1
(2n)
n/2
e

||x||
2
2
, x = (x
1
, . . . , x
n
).
Insbesondere ist
n
rotationssymmetrisch, weil es nur von der Lange [[x[[ des Vektors x
abhangt.
Der Satz von Fisher Z sei standardnormalverteilt in R
n
, H sei k-dimensionaler
Teilraum von R
n
. Dann gilt:
1. [[T
H
Z[[
2

2
(k)
2. T
H
Z und T
H
Z sind unabhangig.
Zum Beweis brauchen wir ein
Lemma ( uber die orthogonale Invarianz der Standardnormalverteilung)
Z sei standardnormalverteilt in R
n
. Dann gilt:
1. F ur M orthogonale n n-Matrix (d.h. M M
T
= I) ist
Y := M Z wieder standardnormalverteilt.
21
2. Zu jeder ONB von R
n
sind die Koordinaten von Z wieder standardnormalverteilt.
Bew. 1.:
Die Dichte von Y = MZ ist
g(y) =
1
[detM[

n
(M
1
y), y R
n
,
denn
Ws(M(z) B) = Ws(z M
1
(B)) =
_
M
1
(B)

n
(z)dz
z=M
1
(y)
=
_
B

n
(M
1
(y))
1
[detM[
dy.
Nun gilt aber
[detM[ = 1 und [[M
1
(y)[[
2
= y
T
(M
1
)
T
M
1
y = [[y[[
2
,
und damit g(y) =
n
(y).
Bew. 2.:
Sei e
1
, . . . , e
n
ONB von R
n
und M := (e
1
, . . . , e
n
)
T
. Dann sind die Koordinaten von Z
in der neuen ONB gegeben durch Y = MZ und damit nach 1. standardnormalverteilt.

Beweis des Satzes von Fisher


Wir wahlen eine ONB (e
1
, . . . , e
k
) von H und erganzen sie zu einer ONB B := (e
1
, . . . , e
n
)
von R
n
. Die Koordinaten von Z in B seien W
1
, . . . , W
k
, W
k+1
, . . . , W
n
. Sie sind nach dem
vorausgegangenen Lemma wieder unabhangig und standardnormalverteilt. Mit
T
H
Z =
_
_
_
_
_
_
_
_
_
_
W
1
e
1
.
.
.
W
k
e
k
0
.
.
.
0
_
_
_
_
_
_
_
_
_
_
und T
H
Z =
_
_
_
_
_
_
_
_
_
_
0
.
.
.
0
W
k+1
e
k+1
.
.
.
W
n
e
n
_
_
_
_
_
_
_
_
_
_
sind T
H
Z und T
H
Z unabhangig, und [[T
H
Z[[
2
=

k
i=1
W
2
i

2
(k).
Beweis, dass T t(n 1) :
Erinnerung: Wir hatten T folgendermaen umgeschrieben:
T =

X
s/

n
=

Z
_
1
n1

(Z
i


Z)
2
,
22
mit Z
i
^(0, 1). Damit war

n

Z ^(0, 1), und es war zu zeigen:


1.
n

i=1
(Z
i


Z)
2

2
(n 1)
2.

Z und
n

i=1
(Z
i


Z)
2
sind unabhangig.
Da

Z :=

Z1 Projektion von Z auf die Hauptdiagonale D ist und R := Z

Z Projektion
von Z auf das orthogonale Komplement D

, folgt die Behauptung.


Man bemerke: Die Verteilung von T hangt damit nur von n ab (und nicht etwa von
und
2
)! Das ist ein Gl ucksfall, denn n ist der Stichprobenumfang und damit immer
bekannt.
3.4 Anwendung: Eine Stichprobe
Wir wissen jetzt: F ur X
1
, . . . , X
n
unabhangig und ^(,
2
)-verteilt, mit unbekanntem
und 0 <
2
< , ist die t-Statistik T =

n(

X )/s nach t(n 1)-verteilt. Was
n utzt diese Information in der Praxis?
1. Student-Kondenzintervall Man kann (auch f ur kleine n) ein exaktes Konden-
zintervall I
1
(X) f ur zum Niveau (1 ) angeben. Wir schreiben f ur das p-Quantil
der t(n 1)-Verteilung kurz qt
n1
(p) := F
1
t(n1)
(p). Wegen
Ws

[T [qt
n1
(/2), qt
n1
(1 /2)]] = 1
= Ws

_

_

X
s

n
qt
n1
(1 /2),

X +
s

n
qt
n1
(1 /2)
__
ist
I
1
(X) :=
_

X
s

n
qt
n1
(1 /2),

X +
s

n
qt
n1
(1 /2)
_
ein Kondenzintervall f ur zum Niveau (1 ).
2. Der Student-Test testet die Hypothese
H

: = .
Unter H

ist die Teststatistik


T

(X) :=

n(

X )
s
t(n 1)-verteilt.
a) Klassischer t-Test mit Signikanz : Wegen
Ws

[[T

(X)[ qt
n1
(1 /2)] =
23
lehne H

ab, falls [T

(X)[ qt
n1
(1 /2). Dann wird H

falschlicherweise abgelehnt
mit Wahrscheinlichkeit .
b) Allgemein gilt
Ws

[[T

(X)[ [[] = 2 (1 F
t(n1)
([[)).
Das heit, nimmt [T

(X)[ den Wert an, kann man H

ablehnen zum p-Wert 2 (1


F
t(n1)
([[)).
Bemerkung Bei einem Test der Hypothese H

: = wird H

genau dann (zum p-


Wert ) abgelehnt, wenn nicht in dem unter 1. hergeleiteten (1)-Kondenzintervall
I
1
(X) f ur liegt.
3.5 Der zwei-Stichproben t-Test (f ur gleiche Varianzen)
X
1
, . . . , X
m
, Y
1
, . . . , Y
n
seien unabhangig, mit X
1
, . . . , X
m
^(
1
,
2
), Y
1
, . . . , Y
n

^(
2
,
2
), und
1
,
2
,
2
seien unbekannt. Wie testet man die Hypothese
H
0
:
1
=
2
(
1

2
= 0)?
Wir suchen eine geeignete Teststatistik (die nach Moglichkeit nicht von
1
,
2
,
2
abhangt).
Bemerke:

X ^(
1
,
2
/m),

Y ^(
2
,
2
/n)

X

Y ^
_

2
,
2
_
1
m
+
1
n
__
N :=

X

Y (
1

2
)
_
1
m
+
1
n

^(0, 1)
Wir bauen daraus eine t-verteilte Statistik
T :=
N
_
W/d
,
mit W
2
(d)-verteilt mit d = d(n, m) und N, W unabhangig. Wie geht das?
Aus dem Satz von Fisher wissen wir:
1

(X
i


X)
2

2
(m1) und unabhangig von

X
1

(Y
i


Y )
2

2
(n 1) und unabhangig von

Y .
Die Vektoren X = (X
1
, . . . , X
m
) und Y = (Y
1
, . . . , Y
n
) sind sowieso unabhangig, und
damit ist
W :=
1

2
_

(X
i


X)
2
+

(Y
i


Y )
2
_

2
(n +m2)
und unabhangig von

X,

Y (und damit von N). Also gilt
T :=
N
_
W/(n +m2)
t(n +m2).
24
T lasst sich folgendermaen darstellen:
T =

X

Y (
1

2
)
_
1
m
+
1
n
_
1
n+m2
(

(X
i


X)
2
+

(Y
i


Y )
2
)
=:

X

Y (
1

2
)
_
1
m
+
1
n
s
X,Y
,
mit
s
2
X,Y
=
1
n +m2
_

(X
i


X)
2
+

(Y
i


Y )
2
_
.
Kondenzintervall f ur
1

2
Wie in der Situation einer Stichprobe ist ein (1)-
Kondenzintervall f ur
1

2
gegeben durch die Grenzen

X

Y
_
1
m
+
1
n
s
X,Y
qt
m+n2
(1 /2).
Test der Hypothese H

:
1

2
= Unter H

gilt
T

(X, Y) :=

X

Y
_
1
m
+
1
n
s
X,Y
t(m+n 2).
Damit konnen wir H

zum Niveau ablehnen, falls


[T

(X, Y)[ qt
m+n2
(1 /2).
Bemerkung Wieder wird bei einem Test die Hypothese H

genau dann (zum p-Wert


) abgelehnt, wenn nicht im (1 )-Kondenzintervall f ur
1

2
liegt.
3.6 Zur Geometrie in der zwei-Stichproben-Situation
Wie in der Situation mit einer Stichprobe gibt es eine anschauliche geometrische In-
terpretation der T-Statistik. Wir betrachten die Beobachtungen X
1
, . . . , X
m
, Y
1
, . . . , Y
n
wiederum als Eintrage eines Datenvektors im R
m+n
:
Z := (X
1
, . . . , X
m
, Y
1
, . . . , Y
n
)
t
normalverteilt im R
m+n
,
mit X
1
, . . . , X
m
, Y
1
, . . . , Y
n
unabhangig und identisch verteilt gema ^(,
2
). Wir be-
trachten den 2-dimensionalen Unterraum / von R
m+n
:
/:= (a, . . . , a
. .
m
, b, . . . , b
. .
n
)
t
[a, b, R.
/ kann man in zwei orthogonale Unterraume zerlegen:
/:= D E,
25
wobei D wieder die Hauptdiagonale ist und E ihr orthogonales Komplement in /. D
und E werden jeweils aufgespannt durch die Einheitsvektoren
e
0
:=
1

m+n

_
_
_
1
.
.
.
1
_
_
_ und e
1
:=
1
_
1/m+ 1/n

_
_
_
_
_
_
_
_
_
_
1/m
.
.
.
1/m
1/n
.
.
.
1/n
_
_
_
_
_
_
_
_
_
_
.
Jetzt sehen wir, dass
[[Z T
M
Z[[
2
= [[T
M
Z[[
2
=

(X
i


X)
2
+

(Y
j


Y )
2
=
s
2
X,Y
m+n 2
< Z, e
1
> = [[T
E
Z[[ =

X

Y
_
1
m
+
1
n
und damit
T :=

X

Y
_
1
m
+
1
n
s
X,Y
=
[[T
E
Z[[

m+n 2
[[T
M
Z[[
.
Die T-Statistik vergleicht die Langen von zwei orthogonalen Projektionen von Z auf
orthogonale Unterraume: E reprasentiert die Gruppenunterschiede zwischen X und Y
(die Variabilitat zwischen den Gruppen), /

reprasentiert die Variabilitat innerhalb der


Gruppen. Wir werden dieselbe Zerlegung bei der klassischen Varianzanalyse antreen,
die auf analoge Art und Weise die Mittelwerte von mehr als zwei Gruppen miteinander
vergleicht.
4 Tests f ur gepaarte Stichproben
4.1 t-Test f ur gepaarte Stichproben
Ein Beispiel aus Box-Hunter-Hunter, Statistics for Experimenters, Wiley, 1987:
Zwei Materialien (A und B) f ur Schuhsohlen sollen verglichen werden: Welches Material
nutzt sich weniger ab? Zehn Jungen erklaren sich als Testpersonen bereit, 2 Monate lang
nur die entsprechend besohlten Schuhe zu tragen.
Versuchsplanung:
a) Wahle zufallig 5 der 10 Jungen und gebe ihnen Material A, die anderen be-
kommen Material B. Vergleiche nach 2 Monaten die Abnutzung. Nachteil dieses
Versuchsplans: Die Abnutzung der Materialien hangt nicht nur vom Material selbst
ab, sondern auch von den Individuen: Die Variabilitat kommt aus zwei verschie-
denen Quellen, die entsprechenden Eekte sind konfundiert. Ein Materialeekt ist
schwer zu entdecken, wenn die Unterschiede zwischen den Individuen gro sind.
b) Um Unterschiede zwischen den Individuen auszuschalten, geben wir jedem Jun-
gen einen Schuh mit Sohle A und einen Schuh mit Sohle B (jeweils zufallig an den
26
rechten oder linken Fu).
Ergebnisse:
Tabelle 5: Bubenschuhe
Junge 1 2 3 4 5 6 7 8 9 10
A 13.2 8.2 10.9 14.3 10.7 6.6 9.5 10.8 8.8 13.3
B 14.0 8.8 11.2 14.2 11.8 6.4 9.8 11.3 9.3 13.6
Auswertung:
a) Wir betrachten A
1
, . . . , A
10
, B
1
, . . . , B
10
als unabhangig und normalverteilt und
machen einen t-Test f ur zwei unabhangige Stichproben wie im letzten Abschnitt
beschrieben. Das Ergebnis: p = 0.72. Wir konnen die Hypothese
A
=
B
also
nicht ablehnen - die beobachteten Unterschiede konnen in mehr als 70% aller Ver-
suche durch Zufall zustande kommen.
b) Wir haben in a) schon wieder nicht ber ucksichtigt, dass die Daten eine Paa-
rungsstruktur haben, dass also jeder Wert A
i
genau einem Wert B
i
entspricht.
Die Variabilitat zwischen den Individuen ging in a) noch in die T-Statistik ein.
Wir konnen aber leicht davon Gebrauch machen, dass sich bei manchen Jungen
die Sohlen grundsatzlich weniger abnutzen als bei anderen: die Stichproben sind
positiv korreliert (siehe Abb. 8). Wir betrachten die Dierenzen:
D
i
:= A
i
B
i
und untersuchen mit einem t-Test f ur eine Stichprobe die Nullhypothese, dass die
Verteilung dieser Dierenzen Mittelwert Null hat. Das Ergebnis: p = 0.008.
q
q
q
q
q
q
q
q
q
q
6 8 10 12 14
6
8
1
0
1
2
1
4
A
B
Abbildung 8: Gepaarte Stichproben
4.1.1 Voraussetzungen und Spezialfall
Die einzige Voraussetzung beim t-Test f ur gepaarte Stichproben ist, dass der Eekt (in
dem Fall die Unterschiede in der Abnutzung des Materials) normalverteilt ist und un-
27
abhangig f ur jedes Individuum. Man kann also den Eekt E einer Behandlung auf ein
Merkmal untersuchen, ohne die Verteilung des Merkmals in der untersuchten Popula-
tion uberhaupt zu kennen. Allein der Eekt, der sich in der Dierenz D
i
= A
i
B
i
auert, muss normalverteilt sein, nicht die zugrundeliegenden Verteilungen von A und
B. Dennoch sind es interessante Spezialfalle, wenn A und B normalverteilt sind:
Normalverteilung Im Fall A
1
, . . . , A
n
, B
1
, . . . , B
n
unabhangig und normalverteilt,
mit gleicher Varianz und EA =
A
, EB =
B
w urde man f ur die Hypothese
A
=
B
einen Test f ur zwei unabhangige Stichproben durchf uhren, mit
T
ungepaart
:=

A

B
_
2
n
s
A,B
,
wobei T t-verteilt ware mit 2n 2 Freiheitsgraden.
Was passiert, wenn man statt dessen eine Paarungsstruktur einbaut und die Dierenzen
D
i
= A
i
B
i
mit einem Ein-Stichproben-Test betrachtet? (Das kann man machen,
denn die Dierenzen von unabhangigen Normalverteilten sind ja wieder normalverteilt).
Der wesentliche Unterschied besteht darin, dass man Freiheitsgrade einb ut, denn die
entsprechende Teststatistik
T
gepaart
:=

A

B
_
1
n
s
AB
ist unter der Nullhypothese t-verteilt mit nur (n 1) Freiheitsgraden. Damit verliert
man ein wenig Testmacht, was f ur groe n allerdings vernachlassigbar ist. Ansonsten
unterscheiden sich die beiden Teststatistiken im Prinzip nicht, denn f ur unabhangige
A
i
, B
i
mit gleicher Varianz
2
ist Var(AB) =
2
AB
= 2
2
A
.
Sind dagegen A
i
und B
i
positiv korreliert (wie im Beispiel der Bubenschuhe), so ist
Var(A B) = 2
2
A
2Cov(A, B). Infolgedessen wird der Nenner von T
gepaart
kleiner,
die Teststatistik wird groer, und man gewinnt an Testmacht.
Positiv korrelierte Normalverteilte Modell: A
1
, . . . , A
n
seien unabhangig und ^(,
2
)-
verteilt, also A
i
= +Z
i
f ur Z
i
^(0, 1). B
1
, . . . , B
n
seien unabhangig und normalver-
teilt. Aber A
i
und B
i
seien nicht unabhangig, sondern positiv korreliert in der folgenden
Form:
B
i
= A
i
+ +Z

i
, mit R, > 0, Z

i
^(0, 1).
Dann gilt:
B
i
A
i
= +Z

i
, und damit
Var(D
i
) =
2
4.2 Wilcoxon-Test f ur gepaarte Stichproben/ Vorzeichenrangtest
Im t-Test war die einzige benotigte Modellannahme die Normalverteilung der Dieren-
zen:
L(D) = ^(,
2
), bzw. L(D ) = ^(0,
2
).
28
Der Wilcoxon-Test kommt ohne Normalverteilung aus. Er testet die Hypothese H

: =
, dass die Verteilung der Dierenzen symmetrisch um ist, bzw. dass L(D

) symme-
trisch um Null ist. (Alternativen sind hier also sowohl: Eine symmetrische, aber nicht
um zentrierte Verteilung, oder eine Verteilung mit Median , die nicht symmetrisch
ist.) Die Teststatistik verwendet die mit den Vorzeichen versehenen Range:
W

(T) =
n

i=1
1
{D
i
>}
Rang([D
i
[).
Unter H

ist W

so verteilt wie
S =
n

i=1
i V
i
,
wobei V
i
unabhangige, faire 0, 1M unzw urfe sind. Die Verteilung von S kennt R unter
dem Namen signrank (rsignrank, psignrank, etc.). Die Verteilung von S ist symme-
trisch um
ES =

iEV
i
=
1
2

i =
n(n + 1)
4
.
Ein Test auf H

: = liefert als p-Wert entsprechend die Wahrscheinlichkeit, dass die


Teststatistik S um mehr als [W

n(n+1)
4
[ von
n(n+1)
4
abweicht. In R einfach mit dem
Befehl: wilcox.test(A-B), oder wilcox.test(A,B,paired=TRUE). Im obigen Beispiel:
p = 0.014
4.3 Vorzeichentest
Eine weitere simple Statistik verwendet ausschlielich die Vorzeichen der Dierenzen:
Unter der Nullhypothese dass A
i
und B
i
dieselbe Verteilung haben, erwarten wir ge-
nauso viele positive wie negative Dierenzen D
i
= A
i
B
i
. Die Anzahl der positiven
Dierenzen:
S
2
:= [i[D
i
> 0[
ist somit binomialverteilt mit Parametern n und 1/2. Im obigen Beispiel: Nur 2 von 10
Dierenzen sind positiv. Der p-Wert: 2 pbinom(2,10,0.5) 0.11. Der Vorzeichentest
ist weniger machtig als der Vorzeichenrangtest, weil er nicht ber ucksichtigt, dass die
positiven Dierenzen vom Betrag her kleiner sind als die negativen Dierenzen.
4.4 Permutationstest von Fisher
Und noch eine Statistik f ur gepaarte Stichproben:
S
3
:=
n

i=1
(sgn D
i
) D
i
.
Unter der Nullhypothese gilt: Gegeben die Werte der Dierenzbetrage [D
i
[, ist S
3
so
verteilt wie

[D
i
[V
i
, wobei V
i
wieder unabhangige faire 1, 1-M unzw urfe sind.
29
5 Schatzverfahren
In der Regel gibt es f ur einen Parameter mehrere Schatzer. Welchen soll man nehmen?
Welche Schatzverfahren gibt es, und wie bewertet man die Schatzer?
Beispiel: X
1
, . . . , X
n
seien unabhangig und uniformverteilt auf [0, ]. Als Schatzer f ur
bieten sich an:

1
:= 2

X, denn EX = /2.

2
:=
n + 1
n
max
i=1,...,n
(X
i
).
Beide Schatzer sind erwartungstreu: Im zweiten Fall kompensiert der Faktor
n+1
n
daf ur,
dass max(X
i
) =: M < . Um zu zeigen, dass E

2
= , berechnen wir zunachst die
Verteilungsfunktion von M:
F(x) = Ws(M x) =
_
x

_
n
=
d
dx
F(x) =
n

n
x
n1
, 0 x .
= EM =

_
0
x
_
n

n
x
n1
_
dx =
n
n + 1
.
Welchen der beiden Schatzer sollte man nun nehmen? Wir vergleichen die erwarteten
quadratischen Fehler:
E
_
(

1
)
2
_
E

X=
= Var(2

X) =
4
n
Var(X
i
)
=
4
n
_
E(X
2
i
) E(X
i
)
2
_
=
4
n
_
_

_
0
x
2

dx

2
4
_
_
=
4
n


2
12
=
1
3n

2
.
E
_
(

2
)
2
_
E

2
=
= Var
_
n + 1
n
M
_
=
(n + 1)
2
n
2
E(M
2
)
2
.
Mit
E(M
2
) =

_
0
x
2
_
n

2
x
n1
_
dx =
n
n + 2

2
folgt
E
_
(

2
)
2
_
=
2
_
(n + 1)
2
n(n + 2)
1
_
=
1
n(n + 2)

2
.
Der mittlere quadratische Fehler von

2
fallt mit n
1
, aber der mittlere quadratische
Fehler von

2
fallt sogar mit n
2
.
30
5.1 Der Mittlere quadratische Fehler
Warum der mittlere quadratische Fehler? Der mittlere quadratische Fehler ist
einer der gangigsten Mastabe zur Bewertung von Schatzern. In der Tat liefert er beim
Vergleich von Schatzern dieselben Resultate wie jede vern unftige vergleichbare G ute-
funktion EL: Hat von zwei Schatzern

1
,

2
eines Parameters

1
den kleineren quadrati-
schen Fehler, so ist auch EL(

1
) < EL(

2
).
F ur eine vern unftige vergleichbare G utefunktion L gelte
L() = 0: Schatzt man den wahren Parameter, so ist der Fehler Null.
L ist zweimal dierenzierbar und hat an der Stelle ein lokales Minimum, so dass
L

() = 0 und L

() > 0.
Dann kann man L in der Nahe von beschreiben durch c (

)
2
:
L(

) = L()
..
=0
+L

()
. .
=0
(

) +
L

()
2
. .
=c()>0
(

)
2
+. . .
Ist

nahe bei , kann man die weiteren Terme vernachlassigen. Damit
EL(

) c()E((

)
2
).
Hat also

1
einen kleineren mittleren quadratischen Fehler als

2
:
E((

1
)
2
) E((

2
)
2
), so ist auch EL(

1
) EL(

2
).
Konsistenz und der mittlere quadratische Fehler Grob gesprochen, bezeichnet
die Konsistenz eines Schatzers die Eigenschaft, dass die Abweichung des Schatzers vom
zu schatzenden Wert mit wachsendem Stichprobenumfang gegen Null geht. Formal:
Ein Schatzer

n
heit konsistenter Schatzer f ur , falls f ur alle > 0 gilt:
Ws([

n
[ > ) 0 f ur n .
F ur die Konsistenz eines Schatzers reicht es, wenn sein mittlerer quadratischer Fehler
gegen Null geht, also wenn
E
_
(

n
)
2
_
0 f ur n .
Um dies einzusehen, stellen wir fest: [

n
[
2

2
gilt auf der Menge A := [

n
[ > .
Damit konnen wir schreiben
[

n
[
2

2
I
A
,
wobei I
A
= 1 die Indikatorvariable der Menge A ist. Wir bilden die Erwartungswerte:
E
_
(

n
)
2
_

2
Ws([

n
[ > ).
F ur festes und n geht die linke Seite gegen Null und damit auch die rechte.
31
Zerlegung des mittleren quadratischen Fehlers Falls

erwartungstreu ist, so
entspricht der mittlere quadratische Fehler gerade der Varianz von

:
E
_
(

)
2
_
E

=
= Var(

).
Ist

aber nicht erwartungstreu, d.h.
b(

) = E(

) ,= 0 (b...bias),
so kann man den mittleren quadratischen Fehler zerlegen in die Varianz und das Quadrat
der Verzerrung:
E
_
(

)
2
_
= E
_
(

+E

)
2
_
= E
_
(

)
2
_
+ 2b(

)E
_
(

)
_
+b
2
(

)
= Var(

) +b
2
(

).
Haug sind Var(

) und b(

) gegenlaug - je kleiner das eine, desto groer das andere.


Es kann daher manchmal sinnvoll sein, eine kleine Verzerrung in Kauf zu nehmen, um
den erwarteten quadratischen Fehler zu minimieren:
Kontrollierte Verzerrung eines Schatzers. Ein Beispiel Wir wollen die Wahr-
scheinlichkeit p f ur das Eintreten eines Ereignisses A schatzen und f uhren dazu n un-
abhangige Versuche durch. Seien I
1
, . . . , I
n
mit I
i
= 1, falls A eingetreten ist, und Null
sonst.
Ein plausibler Schatzer f ur p ist die relative Haugkeit der Erfolge:
p
1
:=
1
n

i
I
i
.
p
1
ist erwartungstreu und hat mittleren quadratischen Fehler E
_
( p
1
p)
2

= Var( p
1
) =
1
n
Var(I
1
) =
p(1p)
n
. Aber: Dieser Schatzer hat nicht zwangslaug minimalen quadrati-
schen Fehler!
Betrachte einen zweiten Schatzer
p
2
:= p
1
f ur geeignet zu wahlendes .
Mit E( p
2
) = p ist p
2
f ur ,= 1 nicht erwartungstreu. Aber:
E
_
( p
2
p)
2

= Var( p
2
) + (p p)
2
=
1
n
_

2
p(1 p) +np
2
(1 )
2

.
Abhangig von p und kann dies kleiner sein als
p(1p)
n
. F ur = 0.9 ist z.B.
E
_
( p
1
p
0
)
2

= E
_
( p
2
p
0
)
2

f ur p
0

1
1 + 0.05n
.
F ur p < p
0
hat p
2
kleineren quadratischen Fehler, f ur p > p
0
ist p
1
zu bevorzugen. Wenn
also bekannt ist, dass p sicher kleiner ist als ein festes p
0
, so kann man geeignet wahlen
(

Ubung).
32
Aus dem letzten Beispiel haben wir gelernt, dass die G ute eines Schatzers auch vom
Wert des Parameters abhangen kann: F ur einen Parameterbereich kann ein Schatzer
besser sein als ein anderer, f ur einen anderen Parameterbereich kann es anders aussehen.
Es gibt in der Regel keine Schatzmethode, f ur die der mittlere quadratische Fehler f ur
alle Werte von kleiner ware als f ur alle anderen Methoden. Aber es gibt eine Methode,
die meistens gut funktioniert:
5.2 Das Maximum-Likelihood Prinzip
Seien X
1
, . . . , X
n
u.i.v. gema einer Verteilung, die von abhangt. Gegeben (X
1
, . . . , X
n
) =
(x
1
, . . . , x
n
), ist der Maximum-Likelihood-Schatzer von diejenige Zahl

ML
, die dem
Ereignis (X
1
, . . . , X
n
) = (x
1
, . . . , x
n
) maximales Gewicht zuordnet.
Im diskreten Fall ist

ML
so deniert, dass Ws

ML
((X
1
, . . . , X
n
) = (x
1
, . . . , x
n
)) maxi-
mal wird.
Hat X
1
Dichte f

(x), so soll

n
i=1
f

(x
i
) maximal werden.
Bsp. 1: M unzwurf mit Erfolgsparameter p. Von n Versuchen beobachten wir k Er-
folge, mit
Ws(X = k) =
_
n
k
_
p
k
(1 p)
nk
.
Das Maximum dieser Funktion ndet man am einfachsten durch Ableiten ihres Loga-
rithmus, denn da log(x) eine streng monotone Funktion ist, ist das Maximum von log f
an derselben Stelle wie das Maximum von f.
log(Ws(X = k)) = c +k log p +(n k) log(1 p) und damit
d
dp
log(. . .) =
k
p

n k
1 p
.
(F ur p = 0 oder p = 1 gilt Ws(X = 0) = 1 bzw. Ws(X = n) = 1. In beiden Fallen stimmt
der ML-Schatzer p
ML
mit p uberein.) F ur die anderen Falle ndet man durch Nullsetzen
der Ableitung den ML-Schatzer p
ML
= k/n, die relative Haugkeit der Erfolge.
Bsp. 2: Uniformverteilung Seien X
1
, . . . , X
n
unabhangig und Unif[0, ]-verteilt. Ge-
sucht ist der ML-Schatzer f ur . Die Dichte von X ist
f

(x) =
_
1/ x [0, ]
0 sonst
= f

(x
1
, . . . , x
n
) =
_
1/
n
x
i
[0, ] i
0 sonst.
Figur 9 zeigt den Graphen von f

(x
1
, . . . , x
n
): Er ist maximal bei = max(x
i
), doch
ndet man das Maximum hier nicht durch Ableiten, weil f

dort nicht dierenzierbar


ist.
5.2.1 Eigenschaften von Maximum-Likelihood-Schatzern
1.: Ist

ML-Schatzer von , so ist der ML-Schatzer einer (injektiven) Funktion h()
gerade h(

). Warum? Wenn das Ereignis X = x f ur


ML
maximales Gewicht hat, so
hat es auch unter h() = h(

ML
) maximales Gewicht.
33
f
l
((
x
1
,,

,,

x
n
))
maxx
i
1/
n

Abbildung 9: f

(x
1
, . . . , x
n
) f ur X
1
, . . . , X
n
unabhangig und Unif[0, ]-verteilt.
Beispiel Die Lebensdauer X eine Sorte Gl uhbirnen sei Exp()-verteilt, d.h.
Ws(X x) = 1 e
x
.
Wir suchen die Wahrscheinlichkeit, dass eine Gl uhbirne weniger als 200 Stunden brennt,
und beobachten dazu die Lebensdauern x
1
, . . . , x
n
von n Gl uhbirnen.
Der ML-Schatzer von ist

ML
=
1

X
,
wie man leicht durch Logarithmieren und Ableiten der gemeinsamen Dichte f

i
e
x
i
=
n
e

P
x
i
feststellt.
Der ML-Schatzer von Ws(X 200) = 1 e
200
ist damit 1 e

ML
200
.
Da die Exponentialverteilung nur von abhangt, ist auch 1e

ML
x
ML-Schatzer
der zugehorigen Verteilungsfunktion, und f ur jedes Intervall [a, b] ist der ML-
Schatzer von Ws(X [a, b]) gegeben durch e
a
e
b
.
Es kommt nicht auf die Parametrisierung an: Bei (im englischen Sprachraum ubli-
cher) Parametrisierung der Exponentialverteilung mit = 1/:
e
x

gilt

ML
=
1

ML
=

X.
2.: F ur eine (im folgenden naher beschriebene) bestimmte Klasse von Problemen ist
die ML-Methode asymptotisch (d.h. f ur n ) im Sinne des mittleren quadratischen
Fehlers mindestens so gut wie jede andere Schatzmethode. (ML ist asymptotisch ezi-
ent)
Die Problemklasse glatter Probleme Sei R der Wertebereich der ZVe X, d.h.
R :=
_
x[Ws(X = x) > 0 f ur X diskrete ZVe,
kleinstes Intervall [a, b], mit
_
b
a
f(x)dx = 1 f ur X stetige ZVe.
Es soll gelten
34
f

(x) (bzw. Ws

(X = x)) hat stetige zweite Ableitung in ,


Die Ableitungen m ussen auf sinnvolle Weise beschrankt sein: F ur jedes kleine
Intervall J von -Werten soll
_
max
J

(x)

dx < und
_
max
J

(x)

dx <
F ur alle soll max
xR
[f

(x)[ < .
Dies trit f ur die meisten gangigen Verteilungen zu. Ausnahmen bilden die uniforme
Verteilung und die doppelte Exponentialverteilung.
Die Fisher-Information Hat X Dichte f

(x), die von abhangt, so ist die Fisher-


Information der Verteilung von X in deniert als
I() = E
_
_

log f

(x)
_
2
_
.
Also:
I() =
_

i
_

log Ws

(X = x
i
)
_
2
Ws

(X = x
i
) im diskreten Fall,
_ _

log f

(x)
_
2
f

(x)dx im Dichtefall.
Beispiel X Exp(). Dann ist I() = 1/
2
, denn
log f

(x) = log x,

log f

(x) =
1

x
= I() =
_ _
1

x
_
2
f

(x)dx =
1

2
.
In glatten Problemen gibt es eine untere Schranke f ur den mittleren quadratischen
Fehler:
Satz Sei

n
ein konsistenter Schatzer f ur in einem Problem der oben beschriebenen
Klasse. Dann gilt:
E[(

n
)
2
]
1
nI()
+o
_
1
n
_
(Beweisidee in Breiman, Statistics: With a view toward applications, S. 94)
Satz Der ML-Schatzer

ML
n
sei eindeutig (d.h. die ML-Gleichungen haben eine ein-
deutige Losung). Dann gilt
E[(

ML
n
)
2
] =
1
nI()
+o
_
1
n
_
(ohne Beweis)
35
3.: ML-Schatzer sind in der Regel konsistent (bis auf pathologische Falle).
4.: Asymptotische Normalitat des ML-Schatzers Unter (relativ schwachen) Regula-
ritatsvoraussetzungen gilt die schwache Konvergenz:
L(

n(

ML
n
)) ^(0, I()
1
) (n ).
Die Regularitatsvoraussetzungen sind haug erf ullt: L

(x) := log f

(x) muss zweimal


stetig dierenzierbar sein, und es muss gelten
_

2

2
f

(x)dx = 0. (3)
Was impliziert das anschaulich? Unter dieser Bedingung entspricht die Fisher-Information
gerade dem Erwartungswert der zweiten Ableitung von L.
Wir schreiben kurz: f

f ur

f und f

f ur

2

2
f.
I() = E[L

(X)
2
] = E
_
f

(X)
2
f
2

(X)
_
= E
_
f

(X)f

(X) f

(X)
2
f
2

(X)
_
= E[L

(X)],
denn mit
_

2

2
f

(x)dx = 0 ist E(f

(X)/f

(X)) = 0. Die Fisher-Information entspricht


also der (negativen) mittleren Kr ummung: Je starker L

(x) im Mittel an der Stelle


gekr ummt ist, desto kleiner ist die asymtotische Varianz des ML-Schatzers.
Man rechnet Bedingung (3) leicht nach. Z.B. f ur X exponentialverteilt und entspre-
chend f

(x) = e
x
:

2
f

(x) =

_
e
x
xe
x
_
= xe
x
x
_
e
x
xe
x
_
= 2xe
x
+x
2
e
x
_

2

2
f

(x)dx =
2

EX + Var(X) + (EX)
2
=
2

2
+
1

2
+
1

2
= 0
5.3 Die Momentenmethode
Eine weitere gangige Methode, Schatzer zu bestimmen, ist die Methode der Momente:
Man vergleiche die k-ten Momente der Verteilung:
EX
k
=
_
x
k
f

(x)dx
mit den Momenten der Stichprobe:
1
n

x
k
i
,
k = 1, 2, . . . ,. Haug stimmen Momentenschatzer und ML-Schatzer uberein:
M unzwurf mit Erfolgsparameter p: E(
1
n

I
i
) = p = p =

I.
36
Exponentialverteilung X
1
, . . . , X
n
unabh., Exp()-verteilt: Mit EX =
1

folgt

=
1

X
.
Nicht so bei der Uniformen Verteilung auf [0, ], wie wir bereits gesehen haben: Der
Momentenschatzer von ist

= 2

X wegen EX =

2
. Der ML-Schatzer ist M =
max(X
1
, . . . , X
n
).
Momentenschatzer sind nach Konstruktion unverzerrt, und konsistent, und sie sind
manchmal leichter zu ermitteln als ML-Schatzer. Aber sie haben eventuell einen ho-
hen mittleren quadratischen Fehler.
5.4 Kleinste Quadrate
Wir mochten einen Datensatz moglichst gut mit einer bestimmten Funktion V () be-
schreiben. Einfachstes Beispiel: X
1
, . . . , X
n
sollen moglichst gut mit einer konstanten
Funktion V () = 1 beschrieben werden, und zwar so, dass die Quadratsumme der
Residuen zwischen V und X minimal wird:

( X
i
)
2
= min .
Den Schatzer in diesem Fall kennen wir schon: =

X. Da minimale Quadratsummen
durch orthogonale Projektionen entstehen, haben wir auch im t-Test solche Schatzer
kennen gelernt. Wir werden weitere Beispiele in der Varianzanalyse und der linearen
Regression sehen.
Haug stimmen die Schatzer vieler Methoden uberein: F ur X
1
, . . . , X
n
unabhangig
und identisch normalverteilt mit Mittelwert ist

X der kleinste-Quadrate-Schatzer, der
Momentenschatzer und der ML-Schatzer f ur .
5.5 Bootstrap-Kondenzintervalle
Ein Schatzer hangt von den zufalligen Beobachtungen ab und ist daher variabel. Oft
kann man seine exakte Varianz oder gar seine exakte Verteilung bestimmen, wie bei der
t-Statistik. Wenn das nicht moglich ist, gibt es evtl. asymptotische Aussagen (z.B. die
approximative Normalitat der t-Statistik f ur unabhangige und identisch verteilte ZVen).
Was kann man tun, wenn man die Varianz eines Schatzers weder exakt noch asym-
ptotisch ermitteln kann? Man konnte sie empirisch bestimmen, indem man den Versuch
oft wiederholt. Z.B.: Ein Versuch mit n unabhangigen p-M unzw urfen I
i
. Wir schatzen
p = 1/n

I
i
(und wissen: Var( p) = p(1 p)/n). Ohne dieses Wissen konnten wir durch
hauges Wiederholen dieses Versuches auf empirische Weise die Varianz schatzen.
Aber das Wiederholen eines Versuches ist oft teuer oder unmoglich. Daher legt die
Bootstrapmethode die empirische Verteilung statt der wahren Verteilung zu Grunde,
und es werden Bootstrapstichproben aus der empirischen Verteilung gezogen: n Werte,
unabhangig (d.h. mit Zur ucklegen) und identisch verteilt (gema der empirischen Ver-
teilung). Die Idee ist, dass die Varianz des Schatzers in den Bootstrapstichproben die
Varianz des Schatzers aus den echten Stichproben approximiert.
Wir haben also Beobachtungen X = (X
1
, . . . , X
n
), unabhangig und identisch verteilt
gema einer Verteilung . Wir schatzen ein Merkmal m() der Verteilung als Funktion
der Daten: h(X). Wie ist die Verteilung von h(X)m()? Statt neue Stichproben aus der
Originalverteilung zu ziehen, ziehen wir Stichproben X

der Groe n (mit Zur ucklegen)


37
aus der empirischen Verteilung
X
. Idee:
L(h(X) m()) L(h(X

) m(
X
))
Die Verteilung von h(X

) m(
X
) wird in der Praxis durch Monte-Carlo-Simulation
ermittelt, die obere und untere Grenze des Kondenzintervalls f ur m() schatzt man
aus den empirischen Quantilen der durch Simulation ermittelten Verteilung.

Ubrigens ist das Vorgehen im M unzwurall ganz ahnlich, obwohl wir die Formel f ur
die Varianz kennen: Wir schatzen Var( p) = p(1 p)/n mit p(1 p)/n und ermitteln
damit die Varianz des Schatzers f ur den Fall p = p. Das ist dasselbe als w urde man
Bootstrapstichproben aus der empirischen Verteilung mit Parameter p ziehen.
5.6 Suzienz und die Minimierung d. mittleren quadratischen Fehlers
Wir beginnen mit einem Beispiel:
X
1
, . . . , X
n
seien unabhangige 0, 1M unzw urfe mit Erfolgsparameter p (0, 1). K :=

X
i
sei die Anzahl der Erfolge. Dann hangt die Verteilung von (X
1
, . . . , X
n
) f ur festes
K = k (d.h. gegeben das Ereignis K = k) nicht mehr von p ab:
Ws
p
((X
1
, . . . , X
n
) = (x
1
, . . . , x
n
)[

X
i
= k)
=
Ws
p
((X
1
, . . . , X
n
) = (x
1
, . . . , x
n
) K = k)
Ws
p
(K = k)
=
p
k
(1 p)
nk
_
n
k
_
p
k
(1 p)
nk
=
1
_
n
k
_.
Anschaulich:

Uber p konnen wir nicht mehr Informationen gewinnen als durch Betrach-
tung der Funktion K =

X
i
der Daten. Die genauen Zeitpunkte, zu denen die K
Erfolge auftreten, hangen von p nicht mehr ab. Die Statistik K nennt man deswegen
auch suziente Statistik f ur p:
Denition Eine Statistik V (X) heit suzient f ur , falls die bedingte Verteilung von
X, gegeben V (X), nicht von abhangt.
Beispiel: Multinomialverteilung Y
1
, . . . , Y
n
seien unabhangig und nehmen Werte
in k Kategorien an, mit Ws(Y
i
in Kategorie j) = p
j
i, j = 1, . . . , k,

p
j
= 1. Der
interessierende Parameter ist also der Vektor der Gewichte p = (p
1
, . . . , p
k
). Dann ist
der Vektor der Besetzungszahlen X = (X
1
, . . . , X
k
) suzient f ur p (Rechnung analog
zum obigen Beispiel).
Jede Dichte kann man mit Hilfe einer suzienten Statistik V (X) geeignet faktorisie-
ren in eine Funktion von V (X), die von abhangt, und einen Faktor, der nicht von
abhangt:
Der Faktorisierungssatz von Neyman und Pearson Die Verteilung von X besitze
die Dichte (bzw. Gewichte) f

(x). Dann sind aquivalent:


38
i) V (X) ist suziente Statistik f ur .
ii) Die Dichte zerfallt in eine Faktorisierung der Gestalt
f

(x) = g

(V (x)) h(x),
wobei die Funktion h nicht von abhangt.
Die Grundidee des Beweises sieht man im diskreten Fall:
i) = ii) folgt direkt aus der Denition der bedingten Wahrscheinlichkeit:
f

(x) = Ws(X = x V (X) = V (x))


= Ws(V (X) = V (x))
. .
=:g

(V (x))
Ws(X = x[V (X) = V (x))
. .
hangt nach i) nicht von ab
F ur die umgekehrte Richtung ist zu zeigen, dass
Ws

(X = x[V (X) = V (x)) =


Ws(X = x)
Ws(V (X) = V (x))
nicht von abhangt. Wir verwenden daf ur die Faktorisierung und k urzen den Faktor
g

(V (x)):
Ws(V (X) = V (x)) =

y|V (y)=V (x)


Ws(X = y)
ii)
= g

(V (x))

y|V (y)=V (x)


h(y)
Ws(X = x) = g

(V (x)) h(x)
Also hangt
Ws

(X = x[V (X) = V (x)) =


h(x)

y|V (y)=V (x)


h(y)
nicht mehr von ab.
Folgerungen
i) Der Maximum-Likelihood-Schatzer

ML
f ur ist eine Funktion der suzienten Sta-
tistik: Da h(x) nicht von abhangt, gen ugt es zur Bestimmung von

ML
, g

(V (X)) zu
maximieren.
ii) Mit Hilfe des Faktorisierungssatzes kann man anhand der Dichte haug leicht su-
ziente Statistiken erschlieen:
Beispiel: Gammaverteilung X
1
, . . . , X
n
seien unabhangig und Gamma(, )-verteilt,
d.h. f ur jedes X gema der Dichte
f(x) = c(, ) x
1
e
x
, x 0.
Die gemeinsame Dichte von X
1
, . . . , X
n
ist dann
f
,
(x
1
, . . . , x
n
) = c

(, ) (x
1
. . . x
n
)
1
e
(x
1
++xn)
Man sieht sofort: (

X
i
,

X
i
) ist suzient f ur (, ).
Mit Hilfe einer suzienten Statistik kann man manchmal Schatzer mit kleinerem
mittleren quadratischen Fehler erzeugen, wenn man die bedingte Erwartung verwendet.
Der Einfachheit halber betrachten wir hier nur den diskreten Fall.
39
Die bedingte Erwartung Y sei eine ZVe mit diskretem Wertebereich, X habe Dichte
oder Gewichte f(x). Der bedingte Erwartungswert von X, gegeben das Ereignis Y = k,
ist eine Zahl
E[X[Y = k] =
1
Ws(Y = k)
E[I
{Y =k}
X].
F ur jeden Wert k, den Y annehmen kann, ist E[X[Y = k] eine Zahl. Der Zufall kommt
nun durch Y ins Spiel: Die bedingte Erwartung von X, gegeben Y , E[X[Y ], ist eine
Zufallsvariable der Gestalt
E[X[Y ] =

k
I
{Y =k}
E[X[Y = k].
Beispiel Ein zweistuges Zufallsexperiment:
i) Y = 1/3 mit Wahrscheinlichkeit 1/2, und Y = 2/3 mit Wahrscheinlichkeit 1/2.
ii) Gegeben Y = y, sei X die Anzahl der Erfolge beim n-maligen y-M unzwurf, also
X Bi(n, y). Es gilt
E[X[Y = 1/3] = 1/3 n, E[X[Y = 2/3] = 2/3 n.
Damit ist die bedingte Erwartung E[X[Y ] von X gegeben Y die Zufallsvariable E[X[Y ] =
Y n mit Werten in n/3, 2n/3, jeweils mit Wahrscheinlichkeit 1/2.
Der Satz von Rao-Blackwell Wieder beschranken wir uns auf den diskreten Fall,
Analoges gilt f ur den Dichtefall.
Sei S = h(X) ein Schatzer f ur . Sei V (X) eine suziente Statistik f ur . Dann gilt f ur
den Schatzer S

mit
S

:= E[S[V (X)] (die Rao-Blackwellisierung von S)


i) Die Erwartungswerte von S und S

sind gleich.
ii) Der mittlere quadratische Fehler von S

ist hochstens so gro wie der von S.


Bew.
i) Es gilt allgemein
E[E[X[Y ]] = E
_

k
I
{Y =k}
E[X[Y = k]
_
=

k
Ws(Y = k)
E[I
{Y =k}
X]
Ws(Y = k)
=

k
E[I
{Y =k}
X] = E
_
X

I
{Y =k}
_
= EX,
also auch
E[S

] = E[E[S[V (X)]] = E[S].


ii) z.z.: E[(S

)
2
] E[(S )
2
]. Zunachst ist
S

= E[S[V (X)] = E[(S )[V (X)]


E[(S

)
2
] = E(E[(S )[V (X)]
2
).
40
Um zu zeigen, dass E(E[(S )[V (X)]
2
) E[(S )
2
], beobachten wir:
E[(S )[V (X)]
2
=
_

k
I
{V (X)=k}
E[S [V (X) = k]
_
2
=

k
I
{V (X)=k}
E[S [V (X) = k]
2

k
I
{V (X)=k}
E[(S )
2
[V (X) = k]
= E[(S )
2
[V (X)]
und damit
E[E[(S )[V (X)]
2
] E[(S )
2
].

Beispiel Seien X
1
, . . . , X
n
unabhangige p-M unzw urfe. Wir betrachten die Statistik
S := X
1
X
2
zur Schatzung von p
2
. Es gilt oensichtlich: E
p
S = p
2
, und wir wissen, dass
die Anzahl der Erfolge, K :=

X
i
suzient ist f ur p. Also ist die Rao-Blackwellisierung
von S gegeben durch:
S

:= E[X
1
X
2
[K]
Mit
E[X
1
X
2
[K = k] = Ws(X
1
= 1, X
2
= 1[K = k) =
k
n

k 1
n 1
folgt
S

=
K(K 1)
n(n 1)
.
Bemerkung Suziente Statistiken konnen oensichtlich n utzlich sein f ur die eziente
Beschreibung eines Datensatzes sowie zur Erstellung von geeigneten Schatzern. Man
sollte allerdings beachten, dass man damit die Daten stark reduziert und potentielle
Abweichungen von den Modellannahmen nicht mehr erkennen kann.
Beispiel: X
1
, . . . , X
100
unabhangige p-M unzw urfe. K :=

X
i
= 50. Wir schatzen
p = 1/2. Wenn aber alle Erfolge am Anfang der Serie auftraten und alle Misserfol-
ge am Ende, haben wir durchaus Grund, an den Modellannahmen von unabhangigen
M unzw urfen mit demselben Erfolgsparameter zu zweifeln. Dies ist nicht zu erkennen,
wenn man die Daten auf die Anzahl K der Erfolge reduziert.
41
6 Likelihood-Quotienten-Tests
Die Likelihoodfunktion wird nicht nur eingesetzt, um Parameter zu schatzen, sondern
auch um zu quantizieren, wie gut Daten zu einer Hypothese (einer Annahme uber
einen bestimmten Parameter) passen, und um verschiedene Modelle / Hypothesen zu
vergleichen.
Beispiel Wir betrachten zunachst ein klassisches Beispiel aus der Qualitatskontrolle:
Eine Lieferung, bestehend aus n Einzelst ucken, ist zu testen. Ein Anteil p der Ein-
zelst ucke ist schlecht, der Rest ist gut. Konsument und Produzent sind sich (z.B.) einig,
dass p 0.03 annehmbar ist, aber p 0.15 nicht akzeptabel.
Es werden 20 St uck rein zufallig gezogen, die Anzahl X der schlechten St ucke wird
notiert. Also X B = 0, 1, . . . , 20. Man einigt sich auf:
A
0
:= 0, 1, 2 : Die Lieferung wird gekauft, falls X A
0
A
1
:= B A
0
:= 3, 4, . . . , 20 : Die Lieferung wird abgelehnt, falls X A
1
Das Risiko des Produzenten und des Konsumenten haben wir bereits kennengelernt als
Risiko erster und zweiter Art:
Ws
p0.03
(X A
1
) Ws
p=0.03
(X > 2) = 1 pbinom(2, 20, 0.03) 0.021.
Ws
p0.15
(X A
0
) Ws
p=0.15
(X 2) = pbinom(2, 20, 0.15) 0.4.
Der allgemeine Fall Gegeben sei eine ZVe X mit Werten in B, verteilt gema der
Dichte (oder der Gewichte) f

(x). Es sei , wobei die Menge der Parameter


bezeichnet (im Beispiel = [0, 1]). Seien
0
,
1
zwei disjunkte Teilnehmen von (im
Bsp.
0
= [0, 0.003],
1
= [0.15, 1]). Ein Test von
0
gegen
1
teilt den Wertebereich
von X in zwei disjunkte Teilmengen A
0
, A
1
mit A
0
A
1
= B die Annahmebereiche
f ur die Hypothesen
0
bzw.
1
. Man entscheide dann f ur
0
, falls X A
0
,
sonst f ur
1
. Wie gehabt:
Risiko 1. Art: sup

0
Ws

(X / A
0
) =:
Risiko 2. Art: sup

1
Ws

(X / A
1
) =: .
Die Abbildung
Ws

(X A
0
)
heit Operationscharakteristik des Tests. F ur
0
soll sie moglichst gro, sonst
moglichst klein sein.
Gesucht ist nun ein Test, der f ur vorgegebenes Risiko 1. Art (d.h. f ur vorgegebenes
Signikanzniveau) das kleinste Risiko 2. Art besitzt (also die grote Testmacht). Im
Spezialfall ist das einfach:
42
6.1 Einfache Hypothese und einfache Alternative
Seien
0
=
0
,
1
=
1
. Seien f
0
(x), f
1
(x) die Verteilungsdichten (bzw. -gewichte)
von X unter
0
bzw.
1
. Wir betrachten den Likelihood-Quotienten
q(x) :=
f
0
(x)
f
1
(x)
.
Sind die Beobachtungen unter
0
wahrscheinlicher als unter
1
, so ist q(x) > 1, sonst
q(x) 1. Je groer das Verhaltnis dieser Gewichte wird, desto mehr sprechen die Daten
f ur
0
(und umgekehrt).
Das Lemma von Neyman und Pearson Sei c > 0 fest und so gewahlt, dass
A(c) :=
_
x B

f
0
(x)
f
1
(x)
c
_
ein Annahmebereich f ur
0
zum Niveau 1 ist und sein Niveau voll ausschopft, so
dass
Ws

0
(X / A(c)) = .
Dann ist der Test mit Annahmebereich A
0
= A(c) unter allen Tests von
0
gegen

1
mit Signikanz der Machtigste.
Bew.:
Sei A ein weiterer Annahmebereich f ur
0
zum Niveau 1 . Dann ist zu zeigen:
Ws

1
(X A) Ws

1
(X A(c)).
Wir betrachten zunachst
Ws

1
(X A) =
_
A
f
1
(x)dx =
_
A(c)
f
1
(x)dx +
_
A\A(c)
f
1
(x)dx
_
A(c)\A
f
1
(x)dx.
Auf der Menge A A(c) ist f
1
> f
0
/c, und auf A(c) ist f
1
f
0
/c. Daher:
Ws

1
(X A)
_
A(c)
f
1
(x)dx +
1
c
_
A\A(c)
f
0
(x)dx
1
c
_
A(c)\A
f
0
(x)dx
=
_
A(c)
f
1
(x)dx +
1
c
_
_
_
_
_
_
_
A
f
0
(x)dx
. .
=Ws

0
(XA)1

_
A(c)
f
0
(x)dx
. .
=Ws

0
(XA(c))=1
_
_
_
_
_
_

_
A(c)
f
1
(x)dx = Ws

1
(X A(c)).

43
6.2 Generalisierte Likelihood-Quotiententests
Tests nach Neyman und Pearson testen eine einfache Hypothese (ein moglicher Wert
f ur ) gegen eine einfache Alternative. Daher war es relativ leicht, ihre Optimalitat zu
zeigen. Likelihood-Quotiententests sind allerdings viel breiter anwendbar, und obwohl
nicht zwangslaug optimal, so funktionieren sie haug gut und spielen daher beim Testen
eine ahnliche Rolle wie das Maximum-Likelihood-Prinzip in der Schatztheorie.
Wir betrachten unser Beispiel vom Anfang: Seien
0
,
1
zwei disjunkte Teilmengen
von (d.h. nicht mehr zwangslaug einelementig, wie bei Neyman-Pearson), mit
0

1
= . Dann ist der verallgemeinerte Likelihood-Quotient deniert als
Q

(x) :=
sup

0
f

(x)
sup

1
f

(x)
.
Aus technischen Gr unden bevorzugt man meistens die folgende Groe:
Q(x) :=
sup

0
f

(x)
sup

(x)
,
wobei Q(x) = min(Q

(x), 1). (Denn ist der ML-Schatzer f ur in


0
, so ist Q(x) = 1
und Q

(x) 1, ist der ML-Schatzer in


1
, so ist Q(x) = Q

(x).)
Groe Werte von Q sprechen f ur H
0
:
0
. Daher ist analog zu Neyman-Pearson
der Annahmebereich A
0
f ur H
0
festgelegt durch alle Beobachtungen, f ur die Q groer
ist als eine Schranke c: A
0
:= x[Q(x) c, f ur ein c R.
Beispiel: Normalverteilung Seien X
1
, . . . , X
n
unabhangig und identisch ^(,
2
)-
verteilt, mit bekanntem
2
. Sei H
0
: =
0
und H
1
: ,=
0
, d.h.
0
=
0
,

1
= R
0
. Der Zahler von Q(X) ist damit einfach gegeben durch
1
(

2)
n
e

1
2
2
P
(X
i

0
)
2
.
Der Nenner ist der Wert von f am ML-Schatzer

X von :
1
(

2)
n
e

1
2
2
P
(X
i


X)
2
.
Damit ist der Likelihood-Quotient gegeben durch
Q(X) = exp
_

1
2
2
_

(X
i

0
)
2

(X
i


X)
2
_
_
Q wird klein, wenn 2 log Q gro wird:
2 log Q(X) =
1

2
_

(X
i

0
)
2

(X
i


X)
2
_
=
n(

X
0
)
2

2
.
Hier treen wir einen alten Bekannten, denn 2 log Q ist gerade das Quadrat der z-
Statistik zum Test der Hypothese H
0
: =
0
. Z ^(0, 1), also 2 log Q(X)
2
(1).
44
Asymptotische Verteilung von Q Wenn die Verteilung von Q unter H
0
bekannt ist,
ist es leicht, einen Annahme- und Ablehnungsbereich f ur H
0
zu denieren und damit
H
0
gegen ihre Alternative zu testen. Die Verteilung von Q ist nicht immer bekannt,
aber unter bestimmten Regularitatsvoraussetzungen an die Dichte von X ist 2 log Q
asymptotisch
2
-verteilt mit (dim() dim(
0
)) Freiheitsgraden. Im obigen Beispiel
sogar exakt: 2 log Q
2
(1) =
2
(1 0) =
2
(dim() dim(
0
)).
Beispiel: Multinomialverteilung Auch hier ist der Likelihood-Quotiententest (zu-
mindest asymptotisch) aquivalent zu einem haug eingesetzten Test, den wir im nachsten
Abschnitt diskutieren werden: dem
2
-Test zum Vergleich beobachteter und erwarteter
Haugkeiten.
Y
1
, . . . , Y
n
nehmen Werte in k Kategorien an. X
1
, . . . , X
k
seien die beobachteten
Haugkeiten der k Kategorien. Dann ist X = (X
1
, . . . , X
k
) multinomialverteilt mit Pa-
rametern n und (p
1
, . . . , p
k
). Die Menge der moglichen Parameter ist
= (p
1
, . . . , p
k
)[p
i
0,

p
i
= 1.
Wir untersuchen wieder eine einfache Hypothese:

0
:= (
1
, . . . ,
k
), mit festen Gewichten
1
, . . . ,
k
,

i
= 1.
F ur den Nenner von Qbrauchen wir die ML-Schatzer der Zellbesetzungen (p
1
, . . . , p
k
).
Dies sind gerade die relativen Haugkeiten, p
i
= X
i
/n (

Ubung).
Der Likelihood-Quotient ist damit
Q(X) =
n!
X
1
!X
k
!

X
1
1

X
k
k
n!
X
1
!X
k
!
p
X
1
1
p
X
k
k
=

i
p
i
_
X
i
.
Also:
2 log Q(X) = 2

X
i
log
_

i
p
i
_
= 2n

p
i
log
_
p
i

i
_
.
Auch diese Groe ist entsprechend obiger Bemerkung approximativ
2
(dim()dim(
0
)) =

2
(k1)verteilt (dim = k1 wegen

p
i
= 1). Auerdem ist 2 log Q asymptotisch
gleich der Pearsonschen Teststatistik A f ur die Hypothese H

: p = (
1
, . . . ,
k
):
A :=

(X
i
n
i
)
2
n
i
=:

(B
i
E
i
)
2
E
i
,
wobei B
i
:= X
i
die beobachteten Haugkeiten, und E
i
:= n
i
die erwarteten Haugkei-
ten in den k Kategorien bezeichnen.
Die asymptotische Gleichheit von A und 2 log Qsieht man an einer Taylor-Entwicklung:
F ur x nahe x
0
ist
g(x) = xlog
_
x
x
0
_
approximierbar durch
g(x) g(x
0
) + (x x
0
)g

(x
0
) +
(x x
0
)
2
2
g

(x
0
) = (x x
0
) +
(x x
0
)
2
2x
0
.
45
Damit ist (f ur p = ( p
1
, . . . , p
k
) nahe = (
1
, . . . ,
k
), d.h. f ur gen ugend groes n unter
der Nullhypothese p = )
2 log Q = 2n

p
i
log
_
p
i

i
_
2n

_
( p
i

i
) +
(
i
p
i
)
2
2
i
_
= 2n

( p
i

i
) +n

(
i
p
i
)
2

i
=

(n p
i
n
i
)
2
n
i
= A.
7 Der
2
-Test
Wir betrachten die Pearsonsche Teststatistik f ur feste hypothetische Gewichte:
Satz (Pearson, 1900)
X
(n)
= (X
(n)
1
, . . . , X
(n)
k
) sei multinomial (n;
1
, . . . ,
k
)-verteilt. Dann gilt:
A :=
k

i=1
(X
(n)
i
n
i
)
2
n
i

2
(k 1) f ur n in Verteilung.
Die erste Plausibilitats uberlegung hierzu ist die folgende: F ur jedes feste i ist X
(n)
i

Bi(n,
i
), also gilt nach dem Satz von de Moivre-Laplace:
_
X
(n)
i
n
i
_
n
i
(1
i
)
_
2

2
(1) f ur n in Verteilung.
Waren alle X
(n)
i
unabhangig, so w urde gelten

i
_
X
(n)
i
n
i

n
i
(1
i
)
_
2

2
(k). Ein Freiheits-
grad geht verloren durch die Abhangigkeit der X
(n)
i
(denn ihre Summe ist deterministisch
n). Die passende Varianz im Nenner sieht man beim

Ubergang zur Poissonverteilung:
Fishers heuristischer Beweis Wir poissonisieren: Seien N
(n)
1
, . . . , N
(n)
k
unabhangig
mit N
(n)
i
Po(n
i
). Dann ist die Summe der N
i
nicht mehr deterministisch n, sondern
poissonverteilt mit Parameter n:
N
(n)
:=

N
(n)
i
Po(n).
Die ZVe N
(n)
i
Po(n
i
) hat Varianz n
i
, und daher folgt mit dem zentralen Grenz-
wertsatz:
N
(n)
i
n
i

n
i
^(0, 1) f ur n in Verteilung.
Damit konvergiert der Vektor G
n
mit Eintragen (
N
(n)
i
n

n
i
)
i
in Verteilung gegen eine
standardnormalverteilte Zufallsvariable im R
k
:
G
n
:=
_
N
(n)
i
n
i

n
i
_
i=1,...,k
Z f ur n in Verteilung.
46
Aus dem Satz von Fisher wissen wir, dass die Projektionen von Z auf orthogonale Un-
terraume U
1
,U
2
von R
k
unabhangig sind und ihre Langenquadrate
2
-verteilt mit Frei-
heitsgraden dim(U
1
) und dim(U
2
). Wir zerlegen G
n
, was ja in Verteilung gegen Z konver-
giert, durch orthogonale Projektion (und projizieren damit sozusagen den zusatzlichen
Freiheitsgrad der zufalligen Gesamtzahl N
(n)
weg). Projektion auf den von
e :=
_
_
_

1
.
.
.

k
_
_
_
aufgespannten Unterraum liefert
e
T
G
n
= e, G
n
) =
1

n
(N
(n)
n) e
T
Z f ur n in Verteilung,
wobei nach dem Satz von Fisher e
T
Z ^(0, 1).
Wir zerlegen G
n
damit in die Projektion T
e
G
n
auf e und die Projektion T
e
G
n
auf
das orthogonale Komplement von e:
G
n
= T
e
G
n
+T
e
G
n
,
T
e
G
n
= (e
T
G
n
)e =
_
1

n
(N
(n)

i
n

i
)
_
i=1,...,k
T
e
G
n
= G
n
T
e
G
n
=
1

n
_
N
(n)
i

i
N
(n)

i
_
i=1,...,k
Es gilt T
e
G
n
T
e
Z in Verteilung, und damit
[[T
e
G
n
[[
2
=

(N
(n)
i
N
(n)

i
)
2
n
i

2
(k 1).
Auerdem ist [[T
e
G
n
[[
2
([[T
e
Z[[
2
) asymptotisch unabhangig von [[T
e
G
n
[[
2
([[T
e
Z[[
2
) =
1
n
(N
(n)
n)
2
und damit von N
(n)
.
Abschlieend beobachten wir die Beziehung zwischen der Poisson- und der Multino-
mialverteilung: Bedingt unter N
(n)
= n ist (N
(n)
1
, . . . , N
(n)
k
) multinomial(n,
1
, . . . ,
k
)-
verteilt:
Ws(N
(n)
1
= y
1
, . . . , N
(n)
k
= y
k
[N
(n)
= n)
=
Ws(N
(n)
1
= y
1
, . . . , N
(n)
k
= y
k
N
(n)
= n)
Ws(N
(n)
= n)
=
e
n
1
(n
1
)
y
1
y
1
!
e
n
k
(n
k
)
y
k
y
k
!
e
n
n
n
n!
=
_
n
y
1
y
k
_

y
1
1

y
k
k
.
F ur einen rigorosen Beweis brauchen wir Wissen uber Normalverteilungen auf R
k
:
47
7.1 Normalverteilungen auf R
k
Kovarianzmatrizen Y = (Y
1
, . . . , Y
k
)
T
sei R
k
-wertige Zufallsvariable mit Erwar-
tungswert m := EY . Sei Y
0
:= Y m. Dann ist die Matrix C mit Eintragen
C
ij
:= Cov(Y
i
, Y
j
) = E[(Y
i
m
i
)(Y
j
m
j
)] = E[Y
0
i
Y
0
j
]
die Kovarianzmatrix von Y .
Jede Kovarianzmatrix ist symmetrisch und positiv semidenit.
Denn f ur a = (a
1
, . . . , a
k
)
T
R
k
ist
a
T
Ca =

i,j
a
i
Cov(Y
i
, Y
j
)a
j
= Cov
_

a
i
Y
i
,

a
j
Y
j
_
= Var
_

a
i
Y
i
_
0.
Jede symm., positiv semidenite Matrix tritt als Kovarianzmatrix auf.
C sei k k-Matrix, symmetrisch und positiv semidenit. Dann gibt es Eigenwerte
2
1

2
2
. . .
2
k
0 und eine zugehorige ONB aus Eigenvektoren (Beweis: Lineare
Algebra.) Das heit, es gibt eine Darstellung von C der Gestalt:
C =
k

i=1

2
i
e
i
e
T
i
.
Denn in der Tat ist Ce
i
=
2
i
e
i
= (

k
j=1

2
j
e
j
e
T
j
)e
i
.
Denition
Y heit normalverteilt auf R
k
mit Mittelwert m und Kovarianzmatrix C (Y ^(m, C))
Y hat Erwartungswert m und Kovarianzmatrix C, und a R
k
: a
T
Y ist normal-
verteilt auf R.
Satz
Sei C =

k
i=1

2
i
e
i
e
T
i
. Dann gilt:
^(0, C) = L
_
k

i=1

i
Z
i
e
i
_
,
wobei Z
1
, . . . , Z
k
unabhangig und ^(0, 1)-verteilt auf R. Denn mit Y :=

i
Z
i
e
i
ist
E[Y Y
T
] = E[(

i
Z
i
e
i
)(

j
Z
j
e
j
)] =

2
i
e
i
e
T
i
.
Beispiel C =

r
i=1
e
i
e
T
i
mit r < k, e
i
orthonormal. Dann ist C eine Projektionsmatrix
auf einen r-dimensionalen Teilraum von R
k
. Dann ist ^(0, C) die Standardnormalver-
teilung auf dem von e
1
, . . . , e
r
aufgespannten Teilraum von R
k
.
48
Wie im Eindimensionalen gilt auch im R
k
der (nun multivariate) zentrale Grenz-
wertsatz: Seien Y
1
, . . . , Y
n
u.i.v. im R
k
mit Mittelwert 0 und Kovarianzmatrix C. Dann
gilt:
1

n
n

i=1
Y
i
^(0, C) f ur n in Verteilung.
(Beweis Vorlesung Hohere Stochastik, Fr. 14.12.07, 10-12 Uhr).
Beweis (Satz von Pearson):
Seien Y
1
, . . . , Y
n
u.i.v. mit Werten in 1, . . . , k und Verteilungsgewichten (
i
)
i=1,...,k
.
Seien f ur i = 1, . . . , n
V
i
:=
_
_
_
1

1
I
{Y
i
=1}
.
.
.
1

k
I
{Y
i
=k}
_
_
_.
Dann sind alle V
i
unabhangig identisch verteilt mit Erwartungswert e = (

1
, . . . ,

k
)
T
und Kovarianzmatrix
C
ij
= E
__
1

i
I
{Y =i}

i
_

_
1

j
I
{Y =j}

j
__
=
ij

j
,
also C = I ee
T
. Damit folgt
1

n
_

V
i
ne
_
=
1

n
_
_
_
1

1
X
1
n

1
.
.
.
1

k
X
k
n

k
_
_
_ ^(0, Iee
T
) f ur n in Verteilung.
Also gilt

_
X
i
n
i

n
i
_
2
=

n
_

V
i
ne
_

2
[[Z[[
2
mit Z ^(0, I ee
T
). Laut obigem Beispiel ist Z damit standardnormalverteilt auf
R
k1
, denn I ee
T
ist Projektionsmatrix auf einen (k 1)-dimensionalen Unterraum.
Damit ist die Pearsonsche Statistik A approximativ
2
(k 1)-verteilt.
7.2 Der
2
-Test
Satz (Pearson, Fisher)
(X
1
, . . . , X
k
) seien beobachtete Haugkeiten und multinomial (n, )-verteilt. Gegeben
sei eine Hypothese: F, wobei F eine r-dimensionale Hyperache des Simplex
:= (p
1
, . . . , p
k
)[

p
i
= 1, p
i
0
ist. p
F
sei der ML-Schatzer f ur unter der Hypothese F. Dann ist die Teststatistik
T :=
k

i=1
(X
i
n p
F
i
)
2
n p
F
i
unter F f ur groe n annahernd
2
(k 1 r)-verteilt.
49
Beispiel: k = 4. Y
1
, . . . , Y
n
fallen in 4 mogliche Kategorien, mit
=
__
p
11
p
12
p
21
p
22
_

p
ij
= 1, p
ij
0
_
Oensichtlich gilt dim() = 3. Sei nun die Hypothese
F :=
__
(1 )
(1 ) (1 )(1 )
_

0 1, 0 1
_
,
mit dim(F) = 2. Was sind die ML-Schatzer f ur und f ur gegebene Haugkeiten
x
11
, x
12
, x
21
und x
22
? Wir maximieren die Multinomialgewichte:
f

(x) =()
x
11
((1 ))
x
12
((1 ))
x
21
((1 )(1 ))
x
22
c
=
x
1+
(1 )
x
2+

x
+1
(1 )
x
+2
c,
mit x
i+
:=

j
x
ij
und x
+i
:=

j
x
ji
. Durch Ableiten der log-likelihood sieht man:
=
x
1+
n

=
x
+1
n
.
Der
2
Test auf Unabhangigkeit
Das obige Beispiel mit k = 4 ist ein Spezialfall f ur den
2
Test auf Unabhangigkeit.
Gegeben sind dabei zwei Merkmale A und B in I bzw. J Abstufungen, also insgesamt
k = I J Kategorien. Wir beobachten die Haugkeiten x
ij
in den Kategorien (ij). p
ij
sei
die Wahrscheinlichkeit, dass ein zufallig gezogenes Individuum in Kategorie (ij) liegt.
Y
1
, . . . , Y
n
seien u.i.v. mit Gewichten p
ij
. Die Hypothese ist:
p
ij
=
i

j
,
wobei
i
die Wahrscheinlichkeit bezeichnet, in Merkmal A in Kategorie i zu liegen,
und
j
entsprechend die Wahrscheinlichkeit f ur Kategorie j in Merkmal B, mit

i
=

j
= 1. Die Hypothese sagt also, dass die beiden Merkmale in der Population un-
abhangig sind, mit dim(F) = (I 1) + (J 1) = I +J 2. Die ML-Schatzer ermittelt
man analog zu oben:

i
:=
x
i+
n

j
=
x
+j
n
,
mit x
i+
und x
+j
wie oben. Dann folgt mit dem Satz von Pearson und Fisher: Ist
(X
11
, X
12
, . . . , X
IJ
) multinomial (n,
1

1
,
1

2
, . . . ,
I

J
)-verteilt, so ist

i,j
(X
ij
n
i

j
)
2
n
i

j
=

_
X
ij

X
i+
X
+j
n
_
2
X
i+
X
+j
n
f ur groe n approximativ
2
(IJ 1 (I +J 2)) =
2
((I 1)(J 1))-verteilt.
50
8 Vergleich von mehr als zwei Stichproben
8.1 Erinnerung: Geometrie beim t-Test
Wir erinnern uns an das Vorgehen beim t-Test zum Vergleich von zwei unabhangigen
Stichproben und an die geometrische Situation in Sektion 3.6. Gegeben sind zwei Stich-
proben X
11
, . . . , X
1n
1
und X
21
, . . . , X
2n
2
, alle X
ij
unabhangig und normalverteilt mit
gleicher Varianz
2
, aber eventuell mit unterschiedlichen Erwartungswerten E[X
1i
] =
1
f ur i = 1, . . . , n
1
, und E[X
2j
] =
2
f ur j = 1, . . . , n
2
. Das Modell ist also:
X
ij
=
i
+Z
ij
, wobei Z
ij
^(0, 1) und unabhangig, i = 1, 2, j = 1, . . . , n
i
,
mit
1
,
2
R. Oder in Vektorschreibweise:
X = +Z,
mit X = (X
11
, . . . , X
1n
1
, X
21
, . . . , X
2n
2
)
t
, = (
1
, . . . ,
1
,
2
, . . . ,
2
)
t
und Z standard-
normalverteilt im R
n
1
+n
2
. Das allgemeine Modell sagt also
/ mit /:= (
1
, . . . ,
1
,
2
, . . . ,
2
)
t
[
1
,
2
R, dim(/) = 2.
Wir untersuchen die Nullhypothese H
0
:
1
=
2
und damit die Frage, ob eigentlich
in einem eindimensionalen Unterraum T von / liegt mit
T := (, . . . , )
t
[ R.
Um dies zu tun, zerlegen wir den Vektor X in die orthogonalen Projektionen auf die
Unterraume T, E (mit /= T E) und auf /

:
X = T
D
X +T
E
X +T
M
X
= x
_
_
_
_
_
_
1
.
.
.
1
.
.
.
_
_
_
_
_
_
+
_
_
_
_
_
_
x
1
x
.
.
.
x
2
x
.
.
.
_
_
_
_
_
_
+
_
_
_
_
_
_
x
11
x
1
.
.
.
x
21
x
2
.
.
.
_
_
_
_
_
_
,
wobei x
i
:=
1
n
i

n
i
j=1
X
ij
den Gruppenmittelwert in Gruppe i bezeichnet und x :=
1
n
1
+n
2

i,j
X
ij
den globalen Mittelwert von X.
Geometrische Interpretation der t-Statistik
Nun ist die t-Statistik gerade:
T :=
x
1
x
2
s
_
1/n
1
+ 1/n
2
=
[[T
E
X[[
[[T
M
X[[/

n
1
+n
2
2
.
Unter der Nullhypothese: T ist wegen TE: T
E
= 0, und damit T
E
X = T
E
Z.
Damit ist nach dem Satz von Fisher unter der Nullhypothese die t-Statistik (salopp
geschrieben):
T =
_

2
(1)
_

2
(n
1
+n
2
2)/

n
1
+n
2
2
=
^(0, 1)
_

2
(n
1
+n
2
2)/

n
1
+n
2
2
t(n
1
+n
2
2).
51
Denition (Fisher-Verteilung)
Seien X
1

2
(k
1
) und X
2

2
(k
2
) unabhangige Zufallsgroen. Dann heit die Vertei-
lung von
X
1
/k
1
X
2
/k
2
Fisher-Verteilung mit k
1
und k
2
Freiheitsgraden (man sagt auch k
1
Zahler- und k
2
Nennerfreiheitsgrade).
Beobachtung
Ist T student-verteilt mit n Freiheitsgraden, so ist T
2
Fisher-verteilt mit 1 und n Frei-
heitsgraden. Das Quadrat der obigen t-Statistik ist also Fisher(1, n
1
+n
2
2)-verteilt. Ein
(zweiseitiger) t-Test zum Test der Hypothese
1
=
2
gegen
1
,=
2
zum Niveau 1
mit Hilfe von entsprechenden student(n
1
+n
2
2)-Quantilen ist also aquivalent zu einem
Test, der die Statistik T
2
und die entsprechenden Quantile der Fisher(1, n
1
+ n
2
2)-
Verteilung verwendet.
8.2 Verallgemeinerung auf k(> 2) Gruppen
Wie kann man untersuchen, ob die Mittelwerte von mehr als 2 Gruppen sich unter-
scheiden? Ein Beispiel: 24 Wunden von Ratten wurden mit je einer von 4 verschiedenen
Behandlungen (A, B, C, D) behandelt. Hat die Behandlung einen Einuss auf die Blut-
gerinnungszeit? Abbildung 10 zeigt, dass die Mittelwerte der vier Gruppen sich unter-
scheiden. Hatte das Zufall sein konnen? Wie gro sind die Unterschiede zwischen den
vier Mittelwerten, die wir durch Zufall erwarten?
Behandlung
G
e
r
i
n
n
u
n
g
s
z
e
i
t

(
s
)
A B C D
6
0
6
5
7
0
Abbildung 10: Blutgerinnungszeit bei vier verschiedenen Wundbehandlungen
Wir gehen ganz analog zum 2-Stichproben-t-Test vor. Das zugrundeliegende Modell
f ur k Gruppen:
X
1j
=
1
+Z
1j
f ur j = 1, . . . , n
1
.
.
.
X
kj
=
k
+Z
kj
f ur j = 1, . . . , n
k
,
52
also
X = +Z mit /
und /:= (
1
, . . . ,
1
, . . . ,
k
, . . . ,
k
)
t
[
1
, . . . ,
k
R, dim(/) = k. Wir untersuchen
wieder die Nullhypothese
1
= . . . =
k
, also
T mit T := (, . . . , )
t
[ R
und projizieren dazu X orthogonal auf die zueinander orthogonalen Unterraume T, E
(mit /= T E und somit dim(E) = k 1) und /

:
X = T
D
X +T
E
X +T
M
X
= x
_
_
_
_
_
_
1
.
.
.
1
.
.
.
_
_
_
_
_
_
+
_
_
_
_
_
_
x
1
x
.
.
.
x
k
x
.
.
.
_
_
_
_
_
_
+
_
_
_
_
_
_
x
11
x
1
.
.
.
x
k1
x
k
.
.
.
_
_
_
_
_
_
.
Wir betrachten die Teststatistik
F :=
[[T
E
X[[
2
/(k 1)
[[T
M
X[[
2
/(n k)
. (4)
In jedem Fall gilt /, und damit ist T
M
= 0, und es gilt nach dem Satz von
Fisher
1

2
[[T
M
X[[
2
= [[T
M
Z[[
2

2
(n k).
F ur den Zahler von F gilt unter der Nullhypothese ( T) weiterhin T
E
= 0 und
damit
1

2
[[T
E
X[[
2
= [[T
E
Z[[
2

2
(k 1).
Also gilt unter der Nullhypothese, d.h. wenn alle Gruppenmittelwerte gleich sind:
F :=
[[T
E
X[[
2
/(k 1)
[[T
M
X[[
2
/(n k)
Fisher(k 1, n k).
Trit die Nullhypothese aber nicht zu, d.h. ist / T, so ist T
E
,= 0 und damit der
Zahler von F tendenziell groer.
Klassische einfaktorielle Varianzanalyse
Groe Werte von F deuten also auf Abweichungen von der Nullhypothese hin. Ein Test
der Nullhypothese zum Niveau 1 hatte damit den Annahmebereich
F[F qf(1 , k 1, n k),
wobei qf(1, k 1, nk) das 1-Quantil der Fisher-Verteilung mit k 1 und nk
Freiheitsgraden bezeichnet.
Die klassische Varianzanalyse (kurz: ANOVA - ANalysis Of VAriance) zerlegt also
eigentlich nur die Variabilitat der Daten, [[X[[
2
in einen gemeinsamen Anteil, [[T
D
X[[
2
,
in einen Anteil, der die Unterschiede zwischen den Gruppenmittelwerten reprasentiert,
53
[[T
E
X[[
2
, und in einen Anteil, der die zufallige Variabilitat innerhalb der Gruppen re-
prasentiert, [[T
M
X[[
2
. Wegen E[[T
M
X[[
2
=
2
(n k) ist der Nenner von F,
s
2
:= [[T
M
X[[
2
/(n k),
ein erwartungstreuer Schatzer f ur
2
. Wegen Pythagoras ist
[[X[[
2
= [[T
D
X[[
2
+ [[T
E
X[[
2
. .
Treatmentquadratsumme
+ [[T
M
X[[
2
. .
Fehlerquadratsumme
= n x
2
+

i
n
i
( x
i
x)
2
+
k

i=1
n
i

j=1
(x
ij
x
i
)
2
.
Im Blutgerinnungsbeispiel haben wir n
1
= 4, n
2
= n
3
= 6, n
4
= 8, x
1
= 61, x
2
=
66, x
3
= 68, x
4
= 61, n =

n
i
= 24 und x = 64 und damit folgende Zerlegung:
X = T
D
X +T
E
X +T
M
X
mit x
ij
= x + ( x
i
x) + (x
ij
x
i
),
_
_
_
_
_
_
_
_
_
_
_
_
_
62
60
63
59
63
67
.
.
.
59
_
_
_
_
_
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_
_
_
_
_
_
64
64
64
64
64
64
.
.
.
64
_
_
_
_
_
_
_
_
_
_
_
_
_
+
_
_
_
_
_
_
_
_
_
_
_
_
_
3
3
3
3
2
2
.
.
.
3
_
_
_
_
_
_
_
_
_
_
_
_
_
+
_
_
_
_
_
_
_
_
_
_
_
_
_
1
1
2
2
3
1
.
.
.
2
_
_
_
_
_
_
_
_
_
_
_
_
_
,
mit den entsprechenden Quadratsummen [[T
E
X[[
2
= 228 und [[T
M
X[[
2
= 112, und
damit
F =
[[T
E
X[[
2
/(k 1)
[[T
M
X[[
2
/(n k)
=
228/3
112/20
13.6.
Abbildung 11 zeigt, dass so groe Unterschiede unter der Nullhypothese sehr selten
vorkommen (p < 0.001).
0 5 10 15
0
.
0
0
.
2
0
.
4
0
.
6
x
D
i
c
h
t
e
13.6
Abbildung 11: Dichte der Fisher-Verteilung mit 3 und 20 Freiheitsgraden.
54
8.3 Paarweise Vergleiche
In der klassischen einfaktoriellen Varianzanalyse wird die Nullhypothese untersucht, dass
alle Gruppenmittelwerte gleich sind. Welche Schl usse erlaubt ein signikantes Ergebnis?
Welche Gruppen unterscheiden sich?
Zunachst kann man zur uckkehren zu den paarweisen Vergleichen, die wir aus dem t-
Test kennen. F ur ein fest gewahltes Paar (j, ) von Gruppen konnen wir obiges Vorgehen
einschranken, um nur Unterschiede zwischen diesen beiden Gruppen zu untersuchen: Wir
wahlen von / einen zweidimensionalen Teilraum
/
j,
:= (0, . . . , 0, a, . . . , a, 0, . . . , 0, b, . . . , b, 0, . . . , 0)
t
[a, b R,
bei dem die Eintrage aller anderen Gruppen Null sind. Analog
T
j,
:= (0, . . . , 0, a, . . . , a, 0, . . . , 0, a, . . . , a, 0, . . . , 0)
t
[a R /
j,
,
und E
j,
sei das orthogonale Komplement von T
j,
in /
j,
. Wie bisher ist
T
E
j,
X = (0, . . . , 0, x
j
, . . . , x
j
, 0, . . . , 0, x
l
, . . . , x
l
, 0, . . . , 0)
t
,
und damit gilt unter der Nullhypothese
j
=

:
F
j,
:=
[[T
E
j,
X[[
2
/1
[[T
M
X[[
2
/(n k)
Fisher(1, n k),
also
T
j,
:=
_
F
j,
student(n k).
Also ist
I
j,
:=
_
x
j
x
l

1
n
j
+
1
n

s qt(1 /2), x
j
x
l
+

1
n
j
+
1
n

s qt(1 /2)
_
ein Kondenzintervall f ur
j

zum Niveau 1 . Man bemerke: Dieses Vorgehen


ist eine Mischung aus klassischem t-Test und klassischer einfaktorieller Varianzanalyse,
da zwar nur zwei Gruppen verglichen werden, aber der Nenner der Teststatistik, s
2
, aus
dem gesamten Datensatz geschatzt wird.
8.4 Multiples Testen
Hat man ein bestimmtes Paar (j, ) im Auge, eignet sich das eben beschriebene Vorgehen
gut. Aber was, wenn man alle Paare miteinander vergleichen will? Testet man jedes der
_
k
2
_
Paare jeweils zum Signikanzniveau , so ist nat urlich die Wahrscheinlichkeit, dass
mindestens ein Test anschlagt, obwohl
1
=
2
= . . . =
k
, nicht mehr , sondern
groer. Bei
_
k
2
_
unabhangigen Tests ware sie 1 (1 )
(
k
2
)
, und f ur 0 < < 1 ist
(1 )
(
k
2
)
< 1 .
55
8.4.1 Bonferroni-Korrektur
Eine einfache, aber recht pessimistische Moglichkeit, dieses Problem in den Gri zu
bekommen, ist, durch /
_
k
2
_
zu ersetzen und die entsprechenden Quantile f ur den
Test zu verwenden. Die Idee dahinter:
Ws(mind. ein Test schlagt an) = Ws(Test 1 schlagt an . . . Test
_
k
2
_
schlagt an)

(
k
2
)

i=1
Ws(Test i schlagt an) =
_
k
2
_

Also ist 1
_
k
2
_
eine einfache obere Schranke f ur (1 )
(
k
2
)
. Allerdings sind die resul-
tierenden Kondenzintervalle recht gro.
8.4.2 Simultane Kondenzintervalle nach Tukey
Wenn alle Gruppen gleich gro sind (n
1
= n
2
= . . . = n
k
=: m), kann man direkt
simultane Kondenzintervalle f ur alle Paare
j

bilden. Sei daf ur zunachst


I
c
j,
:=
_
x
j
x

c s/

m, x
j
+ x

+c s/

j,
F ur jedes Paar (j, ) bilden wir so ein Intervall mit derselben Breite, die von c abhangt.
Wie gro ist c zu wahlen, damit
1 = Ws(
j

I
c
j,
(j, ))
= Ws( x
j
x

c s/

m
j

x
j
x

+c s/

m (j, ))
= Ws(max
(j,)

m/s [( x
j

j
) ( x

)[ c)
= Ws
_

s
_
max
j

m( x
j

j
)

min

m( x

_
c
_
Die Terme

m( x
i

i
)

, i = 1, . . . , k, sind unabhangig und ^(0, 1)-verteilt. Das bedeutet,


wir konnen f ur k unabhangige und ^(0, 1)-verteilte ZVe Z
1
, . . . , Z
k
die obige Wahr-
scheinlichkeit umschreiben zu
1 = Ws
_
max
j
Z
j
min

_
s
2
/
2
c
_
.
Weiterhin gilt
L
_
s
2

2
_
= L
_
[[T
M
X[[
2
(n k)
2
_
=
1
n k

2
(n k),
und s und

m( x
i

i
)

sind unabhangig. Daher muss man c so wahlen, dass


1 = Ws
_
max
j
Z
j
min

_
Y/g
c
_
,
56
wobei Z
1
, . . . , Z
k
unabhangig und ^(0, 1)-verteilt und unabhangig von Y
2
(g). Die
Verteilung von
max
j
Z
j
min

_
Y/g
heit studentsche Spannweitenverteilung mit Parametern k (Anzahl der Gruppen) und
n k (Anzahl der Freiheitsgrade im Nenner).
Zahlenbeispiele
F ur k = 4, n = 24, = 0.05 ndet man c =qtukey(1 , k, n k) = 3.96. Mit der
Bonferroni-Korrektur hatte man (mit
_
1/n
j
+ 1/n

=
_
2/m) ein Kondenzintervall
mit Faktor qt(1 /12, 6 + 6 2)

2 3.28

2 = 4.63.
F ur k = 6, n = 36, = 0.05 erhalt man mit Tukey: c = 4.3, mit Bonferroni 5.41.
F ur k = 10, n = 60, = 0.05 erhalt man mit Tukey: c = 4.68, mit Bonferroni 6.39.
8.5 Lineare Kontraste
Auer paarweisen Tests kann man auch andere Fragen stellen, z.B.: Ist die Dierenz

1

2
so gro wie die Dierenz
3

4
, also:
1

2
(
3

4
) = 0? All dies sind
Beispiele f ur sogenannte lineare Kontraste, d.h. Ausdr ucke der Form
k

i=1
c
i

i
mit

c
i
= 0.
Wir suchen nach simultanen Kondenzintervallen f ur alle linearen Kontraste von ,
d.h. f ur alle

c
=

c
i

i
mit

c
i
= 0.
Kondenzintervall f ur einen Kontrast
F ur einen einzigen Kontrast
c
=

c
i

i
gilt mit
c
:=

c
i
x
i
und
2
c
:=

c
2
i
:
L( ) = L
_

c
i
x
i
_
= ^
_

c
i

i
,
2
/m
2
c
_
.
Also ist ein (1 )Kondenzintervall f ur gegeben durch
I

:=
_
s/

m
c
qt(1 /2, n k), +s/

m
c
qt(1 /2, n k)

.
(Wir schreiben statt
c
.)
Simultane Kondenzintervalle f ur alle linearen Kontraste
Wir suchen ein so, dass f ur alle c = (c
1
, . . . , c
k
) mit

c
i
= 0 gilt:
I

:=
_
s/

m
c
, +s/

m
c

ist ein (1 )-Kondenzintervall f ur den Kontrast , d.h. so, dass


1 = Ws( I

) = Ws
_
max
c
[[ [[

m
s

_
(5)
Dazu machen wir zunachst zwei Beobachtungen:
57
Beobachtung 1
F ur /= T E zerlegen wir in seine orthogonalen Projektionen auf T und E:
= T
D
+T
E
=: +.
E wird dadurch beschrieben, dass alle x E senkrecht auf (1, . . . , 1)
t
stehen, also:
E := (a
1
, . . . , a
k
)
t
[

a
i
= 0.
Wegen

c
i
= 0 ist daher c E und damit

c
=

c
i

i
=< c, >
=< c, T
D
> + < c, T
E
>=< c, T
E
>=

c
i

i
,
mit = (
1
, . . . ,
k
)
t
. Auerdem deniert jedes Element von E einen Kontrast.
Beobachtung 2
Wegen
c
=

c
i

i
ist
[[ [[ = [
k

i=1
c
i
(

i
)[
C.S.

c
2
i
. .
=c
_

i
)
2
.
Bei Cauchy-Schwarz (C.-S., < x, y > [[x[[[[y[[) gilt genau dann Gleichheit, wenn x und
y kollinear sind, d.h. oben ist maximal, wenn es ein a so gibt, dass c
i
= a(

i
)
i = 1, . . . , k, d.h. wenn die c
i
proportional zu (

i
) sind. Ein solches a gibt es, denn
wegen E und

E ist auch (

) E. Wir kehren zur uck zu Gleichung (5) und


sehen:
max
c
_
[[ [[

c
_
=
_

i
)
2
,
und damit 1 = Ws
_
max
c
[[ [[

m
s

_
= Ws(m/s
2

i
)
2

2
)
= Ws
_

2
[[T
E
Z[[
2

2
[[T
M
Z[[
2
/(n k)

2
_
= Ws
_
[[T
E
Z[[
2
/(k 1)
[[T
M
Z[[
2
/(n k)


2
k 1
_
.
F ur ein simultanes Kondenzintervall zum Niveau (1 ) f ur alle Kontraste
c
muss
also (mit n = m k) gelten:
:=

2
k 1
= qf(1 , k 1, k(m1)),
also ist das 1 -Quantil der Fisher(k 1, k(m1))-Verteilung, und damit sind mit
=
_
(k 1) =
_
(k 1)qf(1 , k 1, k(m1))
die Intervalle
I

:=
_
s/

m
c
, +s/

m
c

simultane (1 )-Kondenzintervalle f ur alle Kontraste .


58
8.6 Kruskal-Wallis-(H)-Test
Wie auch beim t-Test gibt es auch f ur den Wilcoxon-Test ein analoges nichtparametri-
sches Verfahren zum Vergleich von k Stichproben, den Kruskal-Wallis-Test. Analog zum
Wilcoxon-Test werden nicht die Zahlen, sondern die Range verwendet.
Erinnerung: Wilcoxon-Test
Gegeben seien zwei unabhangige Stichproben
X
11
, . . . , X
1n
1
unabhangig und verteilt gema
1
X
21
, . . . , X
2n
2
unabhangig und verteilt gema
2
Der Wilcoxon-Test testet die Nullhypothese, dass beide Stichproben aus derselben Ver-
teilung stammen, also dass
1
=
2
, gegen die Alternative, dass eine Verteilung gegen
die andere verschoben ist. Die Teststatistik war die Summe der Range in Gruppe 1:
S :=
n
1

j=1
R
1j
,
mit ES = n
1
(n
1
+n
2
+ 1)/2, Var(S) = n
1
n
2
(n
1
+n
2
+ 1)/2, und f ur n
1
, n
2

S ES
_
Var(S)
^(0, 1) in Verteilung.
Verallgemeinerung auf k Stichproben Das Modell und die Hypothesen sind ana-
log:
X
11
, . . . , X
1n
1
unabhangig und verteilt gema
1
.
.
.
.
.
.
X
k1
, . . . , X
kn
k
unabhangig und verteilt gema
k
Sei n :=

n
i
. Wir untersuchen die Nullhypothese:
H
0
:
1
= . . . =
k
.
Wieder ersetzen wir dazu die Zahlen X
ij
durch ihre Range R
ij
aus den Gesamtdaten.
Der mittlere Rang aller n Zahlen ist

R =
1
n
n(n + 1)
2
=
n + 1
2
.
Wir untersuchen die Abweichungen der mittleren Range in den k Gruppen,

R
i
:=
1
n
i

n
i
j=1
R
ij
, i = 1, . . . , k vom mittleren Rang

R :
H :=
12
n(n + 1)
k

i=1
n
i
(

R
i


R)
2
.
Sofern die
i
kontinulierlich sind, sind unter der Nullhypothese die Range R
11
, . . . , R
kn
k
eine zufallige Permutation von 1, . . . , n, und es gilt f ur n und n
i
/n p
i
> 0
H
2
(k 1) in Verteilung.
Diese Approximation ist (als grobe Faustregel) f ur k = 3, n
i
5 bzw. k 4 und n
i
4
akzeptabel.
59
Bemerkung
Haug schreibt man H in anderer Form:
H =
12
n(n + 1)

S
2
i
n
i
3(n + 1),
wobei S
i
:=

j
R
ij
die Summe der Range in Gruppe j bezeichnet.
9 Das normale lineare Modell
Die Varianzanalyse ist ein Beispiel einer statistischen Fragestellung im Rahmen eines
linearen Modells. Allgemein haben wir es zu tun mit einem Modell der Form
X = +Z,
wobei Z standardnormalverteilt auf R
n
, 0 und /, mit / k-dimensionaler
Teilraum des R
n
.
Im Rahmen dieses Modells konnen wir und schatzen sowie Kondenzintervalle
f ur lineare Funktionale von erstellen:
Schatzung von und
2
F ur den kleinste-Quadrate-Schatzer von gilt:

(x
i

i
)
2
= min
M

(x
i

i
)
2
,
und daher
[[X [[
2
= min
mM
[[X m[[
2
,
und so ist der kleinste-Quadrate-Schatzer wieder die orthogonale Projektion von X auf
/:
= T
M
X = T
M
+T
M
Z = +T
M
Z.
Also ist erwartungstreuer Schatzer f ur . Analog mit R := T
M
X = T
M
Z:
s
2
:=
[[R[[
2
n k
=
2
[[T
M
Z[[
2
n k
.
Wegen [[T
M
Z[[
2

2
(n k) ist s
2
erwartungstreuer Schatzer f ur
2
, und nach dem
Satz von Fisher unabhangig von .
ist auch der ML-Schatzer f ur , denn f ur X = (X
1
, . . . , X
n
) unabhangig und
X
i
^(
i
,
2
) ist die Likelihoodfunktion gegeben durch

i
1

2
2
exp
(x
i

i
)
2
2
=
1
(2
2
)
n/2
exp

(x
i

i
)
2
2
2
.
Sie wird maximal, wenn die Summe der Residuenquadrate

(x
i

i
)
2
minimal wird,
also f ur den Kleinste-Quadrate-Schatzer .
60
Kondenzintervalle f ur lineare Funktionale von
Sei w R
n
fest. Wir suchen ein Kondenzintervall f ur w
t
=< w, >=< w
M
, >, mit
w
M
:= T
M
w. Als Schatzer bietet sich an
w
t
M
X = w
t
M
+w
t
M
Z = w
t
M
^(w
t
,
2
[[w
t
M
[[
2
).
Damit gilt
(w
t
w
t
)
s [[w
t
M
[[
student(n k),
und
[w
t
M
X qt(1 /2, n k)s[[w
t
M
[[]
ist ein Kondenzintervall f ur w
t
zum Niveau 1 .
9.1 Testen linearer Hypothesen
Wir gehen ganz analog zur Varianzanalyse vor, nur wahlen wir als Modellraum /einen
beliebigen k-dimensionalen Teilraum von R
n
und als Hypotheseraum T einen beliebigen
d-dimensionalen Teilraum von /. Wir untersuchen wie gehabt die Nullhypothese T.
Wie bisher zerlegen wir den Datenvektor A durch orthogonale Projektion auf T und /
(mit /= T E):
X = T
D
X +T
E
X +T
M
X.
Wie bisher ist unter der Nullhypothese T und damit
T
E
X = T
E
Z = 1/
2
[[T
E
X[[
2

2
(dim(E)).
Analog gilt
T
M
X = T
M
Z = 1/
2
[[T
M
X[[
2

2
(n k),
und damit ist unter der Nullhypothese die Teststatistik
F :=
[[T
E
X[[
2
/(k d)
[[T
M
X[[
2
/(n k)
Fisher(k d, n k)-verteilt.
F und der multiple Korrelationskoezient Der eben beschriebene Ansatz macht
sich zunutze, dass unter der Nullhypothese T im orthogonalen Komplement T

von
T nur zufallige (normalverteilte) Variabilitat steckt: Unter H
0
ist
Y := T
D
X = T
D
Z.
Nun kann man aber das standardnormalverteilte Z nach Belieben in orthogonale Un-
terraume projizieren - die Langenquadrate aller Projektionen sind unabhangig und in
jeder Dimension
2
(1)-verteilt. Das heit, in jeder Dimension sollte im Mittel gleich viel
zufallige Variabilitat stecken. Wir fragen also: wieviel Prozent der Variabilitat in X, die
nicht durch T erklart werden kann, steckt in E?
R
2
:=
[[T
M
Y[[
2
[[Y[[
2
bzw. R :=
[[T
M
Y[[
[[Y[[
.
61
Es gilt
F =
R
2
/(k d)
(1 R
2
)/(n k)
,
denn
[[T
E
X[[
2
[[T
M
X[[
2
=
[[T
M
T
D
X[[
2
[[T
M
T
D
X[[
2
=
[[T
M
Y[[
2
[[Y[[
2
[[T
M
Y[[
2
=
[[T
M
Y[[
2
/[[Y[[
2
1
||P
M
Y||
2
||Y||
2
=
R
2
1 R
2
.
Falls T die Hauptdiagonale ist, hat R bekannte Form. Zunachst beobachten wir
R =
[[T
M
Y[[
[[Y[[
=
[[T
M
Y[[
2
[[Y[[ [[T
M
Y[[
=
< Y, T
M
Y >
[[Y[[ [[T
M
Y[[
=
< T
D
X, T
D
>
[[T
D
X[[ [[T
D
[[
,
und mit
T
D
X = Y = (X
1


X, . . . , X
n


X)
t
, = T
M
X = (M
1
, . . . , M
n
)
t
= T
D
= (M
1


M, . . . , M
n


M)
t
folgt
R =

(X
i


X)(M
i


M)
_

(X
i


X)
2

(M
i


M)
2
= Korr(X, ).
Man nennt R dann auch den multiplen Korrelationskoezienten des durch /beschrie-
benen Modells. Dieser wird uns auch im folgenden Abschnitt begleiten.
10 Lineare Regression
Bei der linearen Regression wird der lineare Zusammenhang zwischen mehreren Varia-
blen untersucht. Die klassische Fragestellung: Gegeben seien je n Beobachtungen zweier
Variablen X und Y :
X = (x
1
, . . . , x
n
), Y = (y
1
, . . . , y
n
).
Wenn X und Y in annahernd linearer Beziehung stehen, vermuten wir eine Beziehung
der Form
y
i
=
0
+
1
x + Fehler.
Wir bestimmen zunachst die Koezienten
0
und
1
:
Kleinste Quadrate
In der klassischen Fragestellung werden die Beobachtungen x
i
und y
i
als fest betrachtet,
und wir bestimmen
0
und
1
nach der Methode der kleinsten Residuenquadrate:
n

i=1
(y
i
(

0
+

1
x
i
))
2
= min!
Die Gerade (x, y)[y =

0
+

1
x heit Regressionsgerade.
62
Maximum Likelihood
Lineare Regression kann man aber auch im Rahmen des normalen linearen Modells
betrachten, und damit sind wieder die ML-Schatzer identisch mit den Kleinste-Quadrate-
Schatzern. Diesmal werden nur die x
i
als feste reelle Zahlen betrachtet:
Y
i
=
0
+
1
x
i
+Z
i
,
wobei Z
1
, . . . , Z
n
unabhangig und ^(0, 1)-verteilt, also Y
i
^(
0
+
1
x
i
,
2
), oder
Y =
0
1 +
1
X +Z.
Das heit, die Likelihoodfunktion ist gegeben durch
L =
n

i=1
1

2
2
exp

(Y
i
(
0

1
x
i
))
2
2
2
=
1
(2
2
)
n/2
exp

(Y
i
(
0
+
1
x
i
))
2
2
2
.
Wiederum wird L maximiert f ur minimale Residuenquadratsumme

(Y
i
(
0
+
1
x
i
))
2
,
das heit, die ML-Schatzer und die Kleinste-Quadrate-Schatzer f ur
0
und
1
stimmen
uberein.
Alternative Schreibweise: Das lineare Regressionsmodell
Wir betrachten das Vorhergehende im Lichte des normalen linearen Modells:
Y =
0
1 +
1
X +Z = +Z,
mit
/:=
0
1 +
1
X[
0
,
1
R, dim(/) = 2.
Alternativ:
Y =
_
_
_
1 x
1
.
.
.
.
.
.
1 x
n
_
_
_
. .
=:C
_

0

1
_
+Z.
Die n2-Matrix C nennt man Systemmatrix, = (
0
,
1
)
t
die Regressionskoezienten.
Die Modellannahme ist /:= C[ R
2
.
Ermittlung der Schatzer f ur die Regressionskoezienten
Wir bestimmen

wieder durch orthogonale Projektion auf / : so, dass (Y C

)
t
senkrecht auf /, d.h. (YC

)
t
C = 0 R
2
:
1)(YC

)1 =

(y
i

1
x
i
) = n y n

1
n x = 0.
Also liegt der Schwerpunkt ( x, y) der Datenwolke auf der Regressionsgeraden.
63
1) (YC

)X =
0 =

(y
i

1
x
i
)x
i
(und wegen

(y
i

1
x
i
) x = 0 gilt:)
=

(y
i

1
x
i
)(x
i
x)
=

(y
i

1
x
i
)(x
i
x)
=

((y
i
y)

1
(x
i
x))(x
i
x)
=

1
=

(y
i
y)(x
i
x)

(x
i
x)
2
=
Cov(x, y)
s
2
x
= r
x,y
s
y
s
x
.
Das Regressions-Paradoxon
Der Schatzer f ur
1
zeigt einen interessanten Zusammenhang, der bei standardisierten
Werten f ur x und y besonders deutlich wird. Wir setzen dazu
u
i
:=
x
i
x

x
und v
i
:=
y
i
y

y
.
Dann ist
u
=
v
= 1, und die Korrelation bleibt gleich:
r
x,y
=
Cov(X, Y )

y
=
E[(X EX)(Y EY )]

y
=
E[
x
U
y
V ]

y
= E[UV ] =
E[(U EU)(V EV )]

v
= r
u,v
.
Stellen wir nun V in Abhangigkeit von U dar, so geht die Regressionsgerade durch den
Schwerpunkt (0, 0). so dass:
v =
1
u
mit Steigung
1
= r
u,v
, wegen
u
=
v
= 1.
Stellen wir umgekehrt U in Abhangigkeit von V dar, so erhalten wir als Regressionsge-
rade
u =
1
v
mit Steigung
1
= r
u,v
, und damit die Beziehung
v =
1

1
u =
1

1
u ,=
1
u(!)
Es gibt also (f ur [r
u,v
[ , = 1) zwei Regressionsgeraden - je nach dem, ob man u aus v
vorhersagen mochte, oder umgekehrt. Sehr schon sieht man das auch am Beispiel der
zweidimensionalen Normalverteilung:
Regression bei der zweidimensionalen Normalverteilung
Sei
_
U
V
_
^
_
0,
_
1
1
__
, mit Cov(U, V ) = .
Dann kann man U und V auch so schreiben:
L(U, V ) = L(Z
1
, Z
1
+
_
1
2
Z
2
)
64
(Man rechnet leicht nach: E(Z
1
+
_
1
2
Z
2
) = 0, Var(Z
1
+
_
1
2
Z
2
) = 1,
Cov(Z
1
, Z
1
+
_
1
2
Z
2
) = .)
Wie oben hat die Regressionsgerade hier die Steigung , denn:
L(V [U) = L(Z
1
+
_
1
2
Z
2
[Z
1
) = ^(U, 1
2
),
d.h.
E[V [U] = U.
65

Das könnte Ihnen auch gefallen