Skript

ITT
Vorlesungsskript
Prof. Dr. Volker Schmidt
Stand: Wintersemester 2007/08
Ulm, im Februar 2008
CENDO
Universitt Ulm
Abteilung Stochastik
DO
Statistik II
UR
SCIENDO
ANDO U
N
ERS
IV
INHALTSVERZEICHNIS
Inhaltsverzeichnis
1 Einleitung und Grundlagen
1.1
1.2
1.3
Einige Grundbegriffe und Ergebnisse der MatrixAlgebra . . . . . . . . . . . . . . . . . . . . . . .
1.1.1
Spur und Rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2
Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.3
Diagonalisierungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.4
Symmetrie und Definitheit; Faktorisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Multivariate Normalverteilung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1
Definition und grundlegende Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2
Charakteristiken der multivariaten Normalverteilung . . . . . . . . . . . . . . . . . . . . . . 12
1.2.3
Randverteilungen und Unabhngigkeit von Teilvektoren; Faltungsstabilitt . . . . . . . . . 14
1.2.4
Lineare Transformation von normalverteilten Zufallsvektoren . . . . . . . . . . . . . . . . . 16
1.2.5
Singulre multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Lineare und quadratische Formen normalverteilter Zufallsvektoren . . . . . . . . . . . . . . . . . . 19

1.3.1
Definition, Erwartungswert und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3.2
Nichtzentrale 2 Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.3
Verteilungs und Unabhngigkeitseigenschaften linearer und quadratischer Formen . . . . . 23
2 Lineare Modelle; Designmatrix mit vollem Rang

2.1
2.2
Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.1.1
Normalengleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.2
b
Gteeigenschaften des KQSchtzers
2.1.3
Erwartungstreue Schtzung der Varianz 2 der Strgren . . . . . . . . . . . . . . . . . . . 32
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Normalverteilte Strgren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.1
MaximumLikelihoodSchtzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.2
b und S 2 . . . . . . . . . . . . . . . . . 35
Verteilungs und Unabhngigkeitseigenschaften von
2.2.3
Tests fr die Regressionskoeffizienten; Quadratsummenzerlegung . . . . . . . . . . . . . . . 37
2.2.4
Konfidenzbereiche; Prognose von Zielvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2.5
Konfidenzband . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3 Beliebige Designmatrix; verallgemeinerte Inverse

3.1
3.2
27
46
Varianzanalyse als lineares Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.1.1
Einfaktorielle Varianzanalyse; ANOVANullhypothese . . . . . . . . . . . . . . . . . . . . . 46
3.1.2
Reparametrisierung der Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.3
Zweifaktorielle Varianzanalyse
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Schtzung der Modellparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2.1
KQSchtzer fr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
INHALTSVERZEICHNIS
3.3
3.4
3.2.2
Erwartungswertvektor und Kovarianzmatrix des KQSchtzers . . . . . . . . . . . . . . . 58
3.2.3
Schtzbare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2.4
Beste lineare erwartungstreue Schtzer; GauMarkowTheorem . . . . . . . . . . . . . . . 63
Normalverteilte Strgren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.3.1
MaximumLikelihoodSchtzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.3.2
Tests linearer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3.3
Konfidenzbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.4.1
FTest der ANOVA-Nullhypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.4.2
FTests fr die zweifaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.4.3
Zweifaktorielle Varianzanalyse mit hierarchischer Klassifikation . . . . . . . . . . . . . . . . 82
4 Verallgemeinerte lineare Modelle

4.1
4.2
4.3
4.4
Definition und grundlegende Eigenschaften
5.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.1
Exponentialfamilie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.2
Verknpfung der Parameter; natrliche Linkfunktion . . . . . . . . . . . . . . . . . . . . . . 87
Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2.1
Lineares Modell mit normalverteilten Strgren . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2.2
Binre kategoriale Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.3
Poissonverteilte Stichprobenvariablen mit natrlicher Linkfunktion . . . . . . . . . . . . . 89
MaximumLikelihoodSchtzer fr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.3.1
LoglikelihoodFunktion und ihre partiellen Ableitungen . . . . . . . . . . . . . . . . . . . . 89
4.3.2
HesseMatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.3
MaximumLikelihoodGleichung und numerische Lsungsanstze . . . . . . . . . . . . . . . 93
4.3.4
Asymptotische Normalverteiltheit von MLSchtzern; asymptotische Tests
. . . . . . . . . 95
Gewichteter KQSchtzer bei kategorialer Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.4.1
Schtzung des Erwartungswertvektors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.4.2
Asymptotische Normalverteiltheit des KQSchtzers . . . . . . . . . . . . . . . . . . . . . . 98
4.4.3
Bewertung der Anpassungsgte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5 Tests von Verteilungsannahmen

5.1
85
101
KolmogorowSmirnowTest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.1.1
Empirische Verteilungsfunktion; KSTeststatistik . . . . . . . . . . . . . . . . . . . . . . . . 101
5.1.2
Asymptotische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.1.3
Gteeigenschaften; punktweise und gleichmige Konsistenz . . . . . . . . . . . . . . . . . . 105
Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.2.1
Klassenbildung; PearsonStatistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.2.2
INHALTSVERZEICHNIS
5.2.3
5.3
5.4
Gteeigenschaften; lokale Alternativen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2 Anpassungstest von PearsonFisher
6.2
6.3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3.1
PearsonFisherTeststatistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.3.2
Multivariater zentraler Grenzwertsatz fr MLSchtzer . . . . . . . . . . . . . . . . . . . . 114
5.3.3
FisherInformationsmatrix und zentraler Grenzwertsatz im vergrberten Modell . . . . . . 115
5.3.4
Asymptotische Verteilung der PearsonFisherStatistik . . . . . . . . . . . . . . . . . . . . 117
Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.4.1
2 Anpassungstest auf PoissonVerteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.4.2
2 Anpassungstest auf Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.4.3
Anpassungstests vom ShapiroWilkTyp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6 Nichtparametrische Lokalisationstests
6.1
125
Zwei einfache Beispiele von EinstichprobenProblemen . . . . . . . . . . . . . . . . . . . . . . . . . 125

6.1.1
Binomialtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.1.2
Iterationstest auf Zuflligkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Vorzeichenrangtest von Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

6.2.1
Modellbeschreibung; Mediantest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.2.2
Verteilung der Teststatistik Tn+ fr kleine Stichprobenumfnge . . . . . . . . . . . . . . . . 130
6.2.3
ZweistichprobenProbleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.3.1
Iterationstest von WaldWolfowitz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.3.2
Rangsummentest von Wilcoxon fr Lagealternativen . . . . . . . . . . . . . . . . . . . . . . 136
LITERATUR
Literatur
[1]
Bning, H., Trenkler, G. (1994)

Nichtparametrische statistische Methoden
de Gruyter, Berlin
[2]
Cressie, N.A. (1993)

Statistics for Spatial Data
J. Wiley & Sons, New York
[3]
Dobson, A.J. (2002)

An Introduction to Generalized Linear Models
Chapman & Hall, Boca Raton
[4]
Falk, M., Marohn, F., Tewes, B. (2002)

Foundations of Statistical Analyses and Applications with SAS
Birkhuser, Basel
[5]
Hastie, T., Tibshirami, R., Friedman, J. (2001)

The Elements of Statistical Learnning
Springer, New York
[6]
Koch, K.R. (1997)

Parameterschtzung und Hypothesentests in linearen Modellen
DmmlersVerlag, Bonn
[7]
Lehmann, E.L. (1999)

Elements of LargeSample Theory
Springer, New York
[8]
Lehmann, E.L., Romano, J.P. (2005)

Testing Statistical Hypotheses
Springer, New York
[9]
McCullagh, P., Nelder, J.A. (1989)

Genralized Linear Models
Chapman & Hall, London.
[10]
Pruscha, H. (2000)
Vorlesungen ber mathematische Statistik
TeubnerVerlag, Stuttgart.
[11]
Van der Vaart, A., Wellner, J. (1996)

Weak Convergence and Empirical Processes
SpringerVerlag, New York
[12]
Vapnik, V.N. (1998)

Statistical Learning Theory
J. Wiley & Sons, New York
1 EINLEITUNG UND GRUNDLAGEN
Einleitung und Grundlagen
Die Vorlesung Statistik II ist fr Studierende konzipiert, die bereits ber Grundkenntnisse auf dem Gebiet der
mathematischen Statistik verfgen. Die Schtz und Testverfahren, die in Statistik I behandelt worden sind,
werden dabei als bekannt vorausgesetzt.
Die Vorlesung Statistik II besteht aus den Teilen:
multivariate Normalverteilung (regulre und singulre Normalverteilung, lineare und quadratische Formen)
lineare Modelle (multiple Regression, normalverteilte Strgren, ein und mehrfaktorielle Varianzanalyse)
verallgemeinerte lineare Modelle (logistische Regression, MaximumLikelihoodGleichung, gewichteter KQ
Schtzer, Bewertung der Anpassungsgte)
Tests von Verteilungsannahmen (KolmogorowSmirnowTest, 2 Anpassungstests von PearsonFisher)
Nichtparametrische Lokalisationstests (Binomialtest, Iterationstests, lineare Rangtests)
Dabei werden wir insbesondere Begriffe und Ergebnisse nutzen, die in den Vorlesungen Wahrscheinlichkeitsrechnung bzw. Statistik I eingefhrt worden sind, vgl. das Skript zur Vorlesung Wahrscheinlichkeitsrechnung im
Wintersemester 2006/07 bzw. das Skript zur Vorlesung Statistik I im Sommersemester 2007:
Verweise auf diese Vorlesungsmanuskripte werden wir mit dem Zusatz WR bzw. I vor der Nummer der zitierten
Abschnitte, Lemmata, Theoreme, Korollare bzw. Formeln kennzeichnen.
1.1
Einige Grundbegriffe und Ergebnisse der MatrixAlgebra
Wir erinnern zunchst an einige grundlegende Begriffe und Ergebnisse der MatrixAlgebra, die im folgenden
bentigt werden.
1.1.1
Spur und Rang
Die Spur sp(A) einer quadratischen n n Matrix A = (aij ) ist gegeben durch
sp(A) =
n
X
aii .
(1)
i=1
Sei A eine beliebige n m Matrix. Der Rang rg(A) ist die maximale Anzahl der linear unabhngigen Zeilen
(bzw. Spalten) von A.
Dabei heien die Vektoren a1 , . . . , a` Rm linear abhngig, wenn es reelle Zahlen c1 , . . . , c` R gibt,
die nicht alle gleich Null sind, so dass c1 a1 + . . . + c` a` = o.
Anderenfalls heien die Vektoren a1 , . . . , a` Rm linear unabhngig.
Unmittelbar aus der Definitionsgleichung (1) der MatixSpur und aus der Definition der MatrixMultiplikation
ergibt sich der folgende Hilfssatz.
Lemma 1.1
Sei C eine beliebige nm Matrix und D eine beliebige mn Matrix. Dann gilt sp(CD) = sp(DC).
Man kann zeigen, dass eine quadratische Matrix A genau dann invertierbar ist, wenn A vollen Rang hat bzw.
wenn det A 6= 0 gilt. In diesem Zusammenhang ist auch das folgende Resultat ntzlich.
Lemma 1.2 Sei A eine n m Matrix mit n m und rg(A) = m. Dann gilt rg(A> A) = m.
Beweis
Es ist klar, dass der Rang rg(A> A) der m m Matrix A> A nicht grer als m sein kann.
Wir nehmen nun an, dass rg(A> A) < m. Dann gibt es einen Vektor c = (c1 , . . . , cm )> Rm , so dass
c 6= o und A> Ac = o.
Hieraus folgt, dass auch c> A> Ac = o bzw. (Ac)> (Ac) = o, d.h. Ac = o.
Dies ist jedoch ein Widerspruch zu der Voraussetzung, dass rg(A) = m.
Auerdem kann man zeigen, dass die beiden folgenden Eigenschaften von Spur bzw. Rang gelten.
Lemma 1.3 Seien A und B beliebige n n Matrizen. Dann gilt stets sp(A B) = sp(A) sp(B). Wenn A
idempotent und symmetrisch ist, d.h., A = A2 und A = A> , dann gilt auerdem sp(A) = rg(A).
1.1.2
Eigenwerte und Eigenvektoren
Definition Sei A eine beliebige n n Matrix. Jede (komplexe) Zahl C, fr die es einen Vektor x Cn mit
x 6= o gibt, so dass
(A I)x = o ,
(2)
heit Eigenwert der Matrix A. Auerdem sagt man dann, dass x ein zu gehrender Eigenvektor ist.
Beachte
Die Gleichung (2) hat nur fr solche C eine Lsung x Cn mit x 6= o, fr die eine Lsung der
so genannten charakteristischen Polynomgleichung
det(A I) = 0
(3)
ist, wobei die linke Seite P () = det(A I) von (3) das charakteristische Polynom der Matrix A
genannt wird.
Seien 1 , . . . , k R die reellwertigen Lsungen von (3). Dann lsst sich das charakteristische Polynom
P () in der Form
P () = (1)n ( 1 )a1 . . . ( k )ak q()
(4)
darstellen, wobei a1 , . . . , ak N positive natrliche Zahlen sind,
Pkgenannt die algebraischen Vielfachheiten von 1 , . . . , k , und q() ein Polynom der Ordnung n i=1 ai ist, das keine reellen Lsungen
besitzt.
Lemma 1.4 Sei A = (aij ) eine symmetrische nn Matrix mit reellwertigen Eintrgen aij . Dann sind smtliche
Eigenwerte reell, und die zu verschiedenen Eigenwerten i , j R gehrenden Eigenvektoren xi , xj Rn sind
zueinander orthogonal.
Beweis
Die Determinante det(A I) in (3) ist gegeben durch
Y
Y
X
aii
(aii ) ,
(1)r()
det(A I) =
i: i6=i
(5)
i: i=i
wobei sich die Summation ber alle m! Permutationen = (1 , . . . , m ) der natrlichen Zahlen 1, . . . , m
erstreckt und r() die Anzahl der Zahlenpaare in ist, die sich nicht in der natrlichen Ordnung
befinden.
Weil die Elemente von A reelle Zahlen sind, ist fr jede Lsung = a + i b von (3) gleichzeitig auch
= a i b eine Lsung von (3).
Seien x = a + i b und x = a i b Eigenvektoren, die zu bzw. gehren. Dann gilt Ax = x und
Ax = x bzw.
x> Ax = x> x = x> x
und
>
>
>
x> Ax = A> x x = Ax x = x x = x> x .
Hieraus folgt, dass x> x = x> x.

Weil x> x = |a|2 + |b|2 > 0, ergibt sich hieraus, dass = , d.h., ist eine reelle Zahl.
Auf hnliche Weise lsst sich zeigen, dass es zu verschiedenen Eigenwerten i , j R gehrende
Eigenvektoren xi , xj Rn mit reellwertigen Komponenten gibt, die zueinander orthogonal sind.
Weil die Matrix A i I nur reellwertige Eintragungen hat, sind mit xi auch xi bzw. xi + xi Rn zu
i gehrende Eigenvektoren.
Wir knnen (und werden) deshalb o.B.d.A. annehmen, dass xi , xj Rn . Aus der Gltigkeit von
(A i I)xi = o
und
(A j I)xj = o
ergibt sich auerdem, dass Axi = i xi und Axj = j xj bzw.

>
x>
j Axi = i xj xi
und
>
x>
i Axj = j xi xj .
>
Andererseits gilt offenbar x>
j xi = xi xj , und aus der Symmetrie von A = (aij ) ergibt sich die Identitt
>
>
xj Axi = xi Axj , denn es gilt
x>
j Axi =
n X
n
X
x`j a`m xmi =
m=1 `=1
n X
n
X
xmi am` x`j = x>

i Axj .
`=1 m=1
>
>
Insgesamt ergibt sich somit, dass i x>
j xi = j xi xj bzw. (i j )xj xi = 0.
Wegen i j 6= 0 folgt hieraus, dass x>

j xi = 0.
1.1.3
Diagonalisierungsverfahren
Sei nun A eine invertierbare symmetrische n n Matrix.

In Lemma 1.4 haben wir gezeigt, dass dann smtliche Eigenwerte 1 , . . . , n von A reelle Zahlen sind (wobei
in dieser Folge gegebenenfalls einunddieselbe Zahl mehrfach auftreten kann).
Wegen det A 6= 0 ist = 0 keine Lsung von (3), d.h., smtliche Eigenwerte 1 , . . . , n von A sind von Null
verschieden.
Auerdem kann man zeigen, dass es orthonormale (Basis-) Vektoren v1 , . . . , vn Rn gibt, d.h.
vi> vi = 1 ,
vi> vj = 0 ,
i, j {1, . . . , n} mit i 6= j ,
(6)
so dass vi ein zu i gehrender Eigenvektor ist; i = 1, . . . , n.

Wenn smtliche Eigenwerte 1 , . . . , n voneinander verschieden sind, dann folgt dies unmittelbar aus Teilaussage 2 von Lemma 1.4.
Hieraus resultiert das folgende Diagonalisierungsverfahren fr invertierbare symmetrische Matrizen.
Lemma 1.5
Sei A eine invertierbare symmetrische n n Matrix, und sei V = (v1 , . . . , vn ) die n n Matrix, die aus
den orthonormalen Eigenvektoren v1 , . . . , vn besteht.
Dann gilt
V> AV = ,
(7)
wobei = diag(1 , . . . , n ) die nn Diagonalmatrix bezeichnet, die aus den Eigenwerten 1 , . . . , n gebildet
wird.
Beweis
Aus der Defintionsgleichung (2) von Eigenwerten bzw. -vektoren ergibt sich, dass Avi = i vi fr jedes
i = 1, . . . , n.
Hieraus folgt, dass AV = (1 v1 , . . . , n vn ) bzw. V> AV = V> (1 v1 , . . . , n vn ) = , wobei sich die
letzte Gleichheit aus (6) ergibt.
1.1.4
Symmetrie und Definitheit; Faktorisierung
Lemma 1.6 Sei A eine symmetrische und positiv definite n n Matrix, d.h., es gelte A = A> und x> Ax > 0
fr jeden Vektor x = (x1 , . . . , xn )> Rn mit x 6= o. Dann ist A invertierbar, und es gibt es eine invertierbare
n n Matrix H, so dass
A = HH> .
(8)
Beweis
Wir zeigen nur die Gltigkeit der zweiten Teilaussage.

Aus Lemma 1.5 ergibt sich, dass V> AV = bzw.
A = (V> )1 V1 ,
(9)
wobei V = (v1 , . . . , vn ) die n n Matrix ist, die aus den orthonormalen Eigenvektoren v1 , . . . , vn
besteht,
und = diag(1 , . . . , n ) die nn Diagonalmatrix bezeichnet, die aus den (positiven) Eigenwerten
1 , . . . , n gebildet wird.
Sei nun 1/2 die n n Diagonalmatrix 1/2 = diag( 1 , . . . , n ), und sei

H = (V> )1 1/2 V> .
(10)
Es ist klar, dass die in (10) gegebene Matrix H invertierbar ist. Wegen V> V = I gilt auerdem
HH>
>
(V> )1 1/2 V> (V> )1 1/2 V>
= (V> )1 1/2 V> V1/2 V1
(V> )1 1/2 1/2 V1 = (V> )1 V1 = A ,
wobei sich die letzte Gleichheit aus (9) ergibt.
Beachte
Jede invertierbare n n Matrix H mit A = HH> wird Quadratwurzel von A genannt und mit A1/2
bezeichnet.
Mit Hilfe der CholeskyZerlegung fr symmetrische und positiv definite Matrizen kann man zeigen,
dass es eine (eindeutig bestimmte) untere Dreiecksmatrix H mit A = HH> gibt.
10
Die folgende Eigenschaft symmetrischer Matrizen ist eine Verallgemeinerung von Lemma 1.6.
Lemma 1.7 Sei A eine symmetrische und nichtnegativ definite n n Matrix,
d.h., es gelte A = A> und
>
>
n
x Ax 0 fr jeden Vektor x = (x1 , . . . , xn ) R . Sei nun rg(A) = r n . Dann gibt es eine n r Matrix
H mit rg(H) = r, so dass A = HH> .
Der Beweis von Lemma 1.7 verluft hnlich wie der Beweis von Lemma 1.6.
Lemma 1.8
Seien m, r N beliebige natrliche Zahlen mit 1 r m. Sei A eine symmetrische und positiv definite
m m Matrix, und sei B eine r m Matrix mit vollem Rang rg(B) = r.
Dann sind auch die Matrizen BAB> und A1 positiv definit.
Beweis
Wegen des vollen Ranges von B> gilt B> x 6= o fr jedes x Rr mit x 6= o.
Weil A positiv definit ist, gilt damit auch
x> BAB> x = (B> x)> A(B> x) > 0

fr jedes x Rr mit x 6= o, d.h., BAB> ist positiv definit.
Fr B = A1 ergibt sich hieraus insbesondere, dass
>
A1 = A1 AA1 = A1 A A1
positiv definit ist.
1.2
Multivariate Normalverteilung
In diesem Abschnitt erinnern wir an den Begriff der multivariaten Normalverteilung und diskutieren einige grundlegende Eigenschaften dieser Verteilungsfamilie.
1.2.1
Seien X1 , . . . , Xn : R unabhngige und (identisch) normalverteilte Zufallsvariablen, d.h. insbesondere,

dass
Xi N(, 2 ) ,
i = 1, . . . , n ,
(11)
wobei R und 2 > 0.
In VektorSchreibweise bedeutet die Normalverteilungseigenschaft (11) und die Unabhngigkeit der Stichprobenvariablen, dass die Verteilung der Zufallsstichprobe X = (X1 , . . . , Xn )> gegeben ist durch
X N , 2 In ,
(12)
wobei = (, . . . , )> und N , 2 In die ndimensionale Normalverteilung mit Erwartungswertvektor

und Kovarianzmatrix 2 In bezeichnet.
11
Zur Erinnerung (vgl. Abschnitt WR-4.3.4): Allgemein wird die ndimensionale Normalverteilung wie folgt
definiert.
Sei = (1 , . . . , n )> Rn ein beliebiger Vektor, und sei K eine symmetrische und positiv definite
n n-Matrix.
Sei Z = (Z1 , . . . , Zn )> ein absolutstetiger Zufallsvektor, wobei die gemeinsame Dichte von Z gegeben
sei durch
1
1 n
1
exp (z )> K1 (z )
(13)
f (z) =
2
2
det K
fr jedes z = (z1 , . . . , zn )> Rn .
Dann sagt man, dass der Zufallsvektor Z = (Z1 , . . . , Zn )> (regulr) normalverteilt ist.
Schreibweise: Z N(, K)
Wir zeigen nun, dass die in (13) gegebene Funktion eine (ndimensionale) Wahrscheinlichkeitsdichte ist.
Theorem 1.1 Sei = (1 , . . . , n )> Rn ein beliebiger Vektor, und sei K eine symmetrische und positiv
definite n n-Matrix. Dann gilt
Z
Z
1
...
exp (x )> K1 (x ) dx1 . . . dxn = (2)n/2 (det K)1/2 .
(14)
2
Beweis
Weil K symmetrisch und positiv definit (und damit auch invertierbar) ist, gibt es wegen Lemma 1.5 eine
n n Matrix V = (v1 , . . . , vn ), die aus den orthonormalen Eigenvektoren v1 , . . . , vn von K besteht,
so dass
V> KV = ,
(15)
wobei = diag(1 , . . . , n ) die n n Diagonalmatrix bezeichnet, die aus den Eigenwerten 1 , . . . , n
von K gebildet wird.
Auerdem ergibt sich aus der positiven Definitheit von K, dass vi> Kvi = i > 0 fr jedes i = 1, . . . , n,
d.h., smtliche Eigenwerte 1 , . . . , n von K sind positiv.
Wegen V> V = I gilt auch V> = V1 bzw. VV> = I .
Weil auerdem (AB)1 = B1 A1 gilt, ergibt sich hieraus und aus (15), dass
>
1
1
V KV
= V> K1 V = diag 1
.
1 , . . . , n
Die Abbildung : Rn Rn mit y = (x) = V> (x ), d.h. x = Vy, bildet den Rn bijektiv auf
sich selbst ab, und fr die Jacobi-Determinante der Abbildung : Rn Rn gilt

i
det
(x1 , . . . , xn ) = det V = 1 ,
xj
wobei sich die letzte Gleichheit aus der Tatsache ergibt, dass 1 = det(V> V) = (det V)2 .
Fr das Integral auf der linken Seite von (14) gilt somit, dass
Z
Z
...
=
Rn
Z
1
exp (x )> K1 (x ) dx1 . . . dxn
2
Z
n
1
1 X yi2
> 1
exp (x ) K (x ) d(x1 , . . . , xn ) =
d(y1 , . . . , yn )
exp
2
2 i=1 i
Z
...
exp
n
1 X yi2
2 i=1 i
Rn
!
dy1 . . . dyn =
n
Y
i=1
(2i )1/2 .
12
Hieraus ergibt sich die Behauptung, weil

n
Y
i = det = det V> KV = det V> V det K = det K .
i=1
1.2.2
Charakteristiken der multivariaten Normalverteilung
Sei = (1 , . . . , n )> Rn ein beliebiger Vektor, und sei K = (kij ) eine symmetrische und positiv definite
n n Matrix.
Wir bestimmen zunchst die charakteristische Funktion von normalverteilten Zufallvektoren.
Zur Erinnerung: Die charakteristische Funktion : Rn C eines beliebigen ndimensionalen Zufallsvektors
X = (X1 , . . . , Xn )> : Rn ist gegeben durch
n
!
X
>
(t) = E exp i t X = E exp i
t` X` ,
t = (t1 , . . . , tn )> Rn .
(16)
`=1
Theorem 1.2
Der Zufallsvektor X = (X1 , . . . , Xn )> : Rn sei normalverteilt mit X N(, K).
Dann gilt fr die charakteristische Funktion : Rn C von X, dass
1
(t) = exp i t> t> Kt ,
t Rn .
2
(17)
Beweis
Aus (13) und (16) folgt, dass
Z
(t) =
...
exp i
!
t` x` f (x1 , . . . , xn ) dx1 . . . dxn
`=1
1
n/2
(2)
(det K)1/2
>
n
X
exp(i t )
(2)n/2 (det K)1/2
Z
...
...
1
exp i t> x (x )> K1 (x ) dx1 . . . dxn
2
1
exp i t> y y> K1 y dy1 . . . dyn ,
2
wobei sich die letzte Gleichheit mit Hilfe der Substitution y = x ergibt, fr die die Matrix der
partiellen Ableitungen die Einheitsmatrix und somit die Jacobi-Determinante gleich 1 ist.
Auf hnliche Weise wie im Beweis von Theorem 1.1 ergibt sich nun hieraus mit Hilfe der Substitutionen
y = Vx und t = Vs, dass
(t) =
exp(i t> )
(2)n/2 (det K)1/2
exp(i t> )
(2)n/2 (det K)1/2
Z
...
...
1
exp i s> x x> V> K1 Vx dx1 . . . dxn
2
exp
n
X
`=1
i s` x`
x2`
dx1 . . . dxn
2`
13
und somit
(t) =
n Z
Y
x2`
exp(i t> )
exp
i
s
x
dx`
`
`
2`
(2)n/2 (det K)1/2 `=1
exp(i t> )
n
Y
`=1
1
2`
x2
exp i s` x` ` dx` ,
2`
wobei die Matrix V aus den orthonormalen Eigenvektoren von K besteht und 1 , . . . , n > 0 die
Eigenwerte von K sind mit det K = 1 . . . n .
Nun gengt es zu beachten, dass ` : R C mit
Z
` (s) =
1
x2
dx
exp i sx
2`
2`
die charakteristische Funktion der (eindimensionalen) N(0, ` )Verteilung ist.
Fr diese Funktion hatten wir in Abschnitt WR-5.3.3 gezeigt, dass ` (s) = exp ` s2 /2 .
Es gilt somit
` s2`
(t) = exp(i t> )
exp
= exp(i t> ) exp
2
`=1
t> Kt
= exp(i t> ) exp
.
2
n
Y
n
P
`=1
` s2`
2
Mit Hilfe der in Theorem 1.2 hergeleiteten Formel (17) fr die charakteristische Funktion lassen sich nun der
Erwartungswert und die Kovarianzmatrix von normalverteilten Zufallsvektoren bestimmen.
Korollar 1.1
Wenn X = (X1 , . . . , Xn )> N(, K), dann gilt fr beliebige i, j = 1, . . . , n

E Xi = i ,
und
Cov (Xi , Xj ) = kij .
(18)
Beweis
Aus (17) folgt, dass
X
(t)
= i i
ki` t` (t)
ti
n
(19)
`=1
und
X
X
2 (t)
= kij (t) + i i
ki` t` i j
kj` t` (t) .
ti tj
n
`=1
`=1
Man kann sich leicht berlegen, dass

E Xi = i 1
(t)
.
ti
t=o
Wegen (o) = 1 ergibt sich nun hieraus und aus (19), dass E Xi = i .
(20)
14
Auerdem gilt
E (Xi Xj ) =
2 (t)
.
ti tj t=o
Hieraus und aus (20) ergibt sich, dass Cov (Xi , Xj ) = kij .
Beachte
In Theorem WR-4.14 hatten wir gezeigt, dass die Kovarianzmatrix K = KX eines beliebigen Zufallsvektors X = (X1 , . . . , Xn )> stets symmetrisch und nichtnegativ definit ist.
In der Definitionsgleichung (13) der Dichte der regulren multivariaten Normalverteilung wird zustzlich vorausgesetzt, dass die Kovarianzmatrix K positiv definit ist.
Dabei ist die positive Definitheit von K nicht nur hinreichend, sondern auch notwendig dafr, dass
det K 6= 0, d.h., dass K invertierbar ist bzw. vollen Rang hat.
1.2.3
Randverteilungen und Unabhngigkeit von Teilvektoren; Faltungsstabilitt
In diesem Abschnitt zeigen wir, wie weitere interessante Eigenschaften der multivariaten Normalverteilung
mit Hilfe von Theorem 1.2 hergeleitet werden knnen.
Hierfr bentigen wir eine vektorielle Version des Eindeutigkeitssatzes fr charakteristische Funktionen (vgl.
Korollar WR-5.5), die wir ohne Beweis angeben.
Lemma 1.9 Seien X, Y : Rn beliebige Zufallsvektoren; X = (X1 , . . . , Xn )> , Y = (Y1 , . . . , Yn )> . Dann gilt
d
X=Y
wobei
genau dann, wenn
X (t) = Y (t)
n
X
X (t) = E exp i
tj Xj ,
t = (t1 , . . . , tn )> Rn ,
(21)
n
X
Y (t) = E exp i
tj Yj
j=1
j=1
die charakteristischen Funktionen von X bzw. Y sind.
Zunchst zeigen wir, dass beliebige Teilvektoren von normalverteilten Zufallsvektoren erneut normalverteilt sind.
Dabei setzen wir so wie bisher voraus, dass = (1 , . . . , n )> Rn ein beliebiger Vektor und K = (kij )
eine symmetrische und positiv definite n n-Matrix ist.
Es ist klar, dass der Zufallsvektor (X1 , . . . , Xn )> fr jede Permutation = (1 , . . . , n )> der natrlichen
Zahlen 1, . . . , n normalverteilt ist, wenn X = (X1 , . . . , Xn )> normalverteilt ist.
Bei der Untersuchung der Verteilung von Teilvektoren normalverteilter Zufallsvektoren knnen wir uns somit
o.B.d.A. auf die Betrachtung der ersten Komponenten beschrnken.
Korollar 1.2
Sei X = (X1 , . . . , Xn )> N(, K), wobei K positiv definit sei. Dann gilt
(X1 , . . . , Xm )> N(m , Km )
m = 1, . . . , n ,
wobei m = (1 , . . . , m )> und Km diejenige m m Matrix bezeichnet, die aus den ersten m Zeilen bzw. Spalten
von K gebildet wird.
15
Beweis
Sei : Rn C die charakteristische Funktion von (X1 , . . . , Xn )> .
Fr die charakteristische Funktion m : Rm C von (X1 , . . . , Xm )> gilt dann
m (tm ) = (tm , 0, . . . , 0) ,
tm = (t1 , . . . , tm ))> Rm .
| {z }
nm
Hieraus und aus (17) ergibt sich, dass
1 >
t
K
t
m (tm ) = exp i t>
m m ,
m m
2 m
tm Rm .
Weil mit K auch die m m Matrix Km symmetrisch und positiv definit ist, bedeutet dies wegen Theorem 1.2, dass die charakteristische Funktion des Teilvektors (X1 , . . . , Xm )> mit der charakteristischen
Funktion der N(m , Km )Verteilung bereinstimmt.
Wegen des eineindeutigen Zusammenhanges zwischen der charakteristischen Funktion und der Verteilung von Zufallsvektoren (vgl. Lemma 1.9) ergibt sich hieraus die Behauptung.
Bei der Zerlegung des normalverteilten Zufallsvektors X = (X1 , . . . , Xn )> in die zwei Teilvektoren (X1 , . . . , Xm )>
und (Xm+1 , . . . , Xn )> , wobei 1 m < n, lsst sich ein einfaches Kriterium dafr angeben, dass (X1 , . . . , Xm )>
und (Xm+1 , . . . , Xn )> unabhngig sind.
Korollar 1.3 Sei X = (X1 , . . . , Xn )> ein normalverteilter Zufallsvektor mit X N(, K); K = (kij ). Die
Teilvektoren (X1 , . . . , Xm )> und (Xm+1 , . . . , Xn )> sind genau dann unabhngig, wenn kij = 0 fr beliebige i
{1, . . . , m} und j {m + 1, . . . , n}.
Beweis
Wenn die Teilvektoren (X1 , . . . , Xm )> und (Xm+1 , . . . , Xn )> unabhngig sind, dann sind auch die
(eindimensionalen) Zufallsvariablen Xi und Xj fr beliebige i {1, . . . , m} und j {m + 1, . . . , n}
unabhngig.
Damit gilt insbesondere Cov (Xi , Xj ) = 0, und aus Korollar 1.1 folgt, dass kij = 0.
Wir nehmen nun umgekehrt an, dass kij = 0 fr beliebige i {1, . . . , m} und j {m + 1, . . . , n}.
Dann ergibt sich aus Theorem 1.2, dass sich die charakteristische Funktion (t) von X = (X1 , . . . , Xn )>
wie folgt faktorisieren lsst.
Fr jedes t = (t1 , . . . , tn )> Rn gilt
n
n
n
1 XX
1
ti i
(t) = exp i t> t> Kt = exp i
ti kij tj
2
2 i=1 j=1
i=1
m
m m
n
X
X
1 XX
1
= exp i
ti i
ti kij tj exp i
ti i
2
2
i=1
i=1 j=1
i=m+1
n
X
n
X
ti kij tj ,
i=m+1 j=m+1
wobei die Faktoren des letzten Ausdruckes die charakteristischen Funktionen von (X1 , . . . , Xm )> und
(Xm+1 , . . . , Xn )> sind.
Die Behauptung ergibt sich nun aus dem eineindeutigen Zusammenhang zwischen der Verteilung und
der charakteristischen Funktion von Zufallsvektoren, vgl. Lemma 1.9.
16
Beachte
Schlielich diskutieren wir noch die Faltungsstabilitt der multivariaten Normalverteilung und verallgemeinern dabei Korollar WR-3.2, wo wir diese Eigenschaft fr die eindimensionale Normalverteilung
bewiesen hatten.
In diesem Zusammenhang ist die folgende Formel fr die charakteristische Funktion von Summen
unabhngiger Zufallsvektoren ntzlich, die sich genauso wie die in Theorem WR-5.18 fr den eindimensionalen Fall hergeleitete Formel beweisen lsst.
Lemma 1.10 Seien Z1 , Z2 : Rn unabhngige Zufallsvektoren. Fr die charakteristische Funktion Z1 +Z2 :
Rn C der Summe Z1 + Z2 gilt dann
Z1 +Z2 (t) = Z1 (t) Z2 (t) ,
t Rn ,
(22)
wobei Zi die charakteristische Funktion von Zi bezeichnet; i = 1, 2.
Die folgende Aussage wird Faltungsstabilitt der multivariaten Normalverteilung genannt.

Korollar 1.4 Seien Z1 , Z2 : Rn unabhngige Zufallsvektoren mit Zi N(i , Ki ) fr i = 1, 2. Dann gilt
Z1 + Z2 N(1 + 2 , K1 + K2 ).
Beweis
Aus (17) und (22) ergibt sich, dass
Z1 +Z2 (t) =
Z1 (t) Z2 (t)
1
1
= exp i t> 1 t> K1 t exp i t> 2 t> K2 t
2
2
1
= exp i t> (1 + 2 ) t> (K1 + K2 )t .
2
Hieraus und aus dem Eindeutigkeitssatz fr charakteristische Funktionen von Zufallsvektoren (vgl.
Lemma 1.9) ergibt sich die Behauptung.
1.2.4
Lineare Transformation von normalverteilten Zufallsvektoren
Wir zeigen nun, dass die Lineartransformation normalverteilter Zufallsvektoren erneut zu normalverteilten Zufallsvektoren fhrt.
Theorem 1.3
Sei Y N(, K) ein ndimensionaler normalverteilter Zufallsvektor mit Erwartungswertvektor Rn
und mit (positiv definiter) Kovarianzmatrix K.
Auerdem gelte m n, und A sei eine beliebige m n Matrix mit vollem Rang rg(A) = m bzw. c Rm
ein beliebiger mdimensionaler Vektor.
Dann ist Z = AY + c ein (mdimensionaler) normalverteilter Zufallsvektor mit
Z N(A + c, AKA> ) .
(23)
17
Beweis
Fr jedes a Rm gilt
Z (t) = exp(i t> a)Za (t) ,
t Rm .
Aus der in Theorem 1.2 hergeleiteten Formel (17) und aus dem Eindeutigkeitssatz fr die charakteristische Funktion von normalverteilten Zufallsvektoren folgt somit, dass
Z N(A + c, AKA> ) genau dann, wenn Z (A + c) N(o, AKA> ) .
O.B.d.A. knnen (und werden) wir deshalb annehmen, dass Y N(o, K) und c = o.
Fr die charakteristische Funktion Z (t) von Z = AY ergibt sich dann, dass fr jedes t Rm
Z (t)
= E ei t
=
=
>
>
Z
>
E ei t AY = E ei (A
Y (A> t) ,
t)> Y
wobei Y (A> t) den Wert der charakteristischen Funktion des normalverteilten Zufallsvektors Y an
der Stelle A> t Rn bezeichnet.
Aus der Darstellungsformel (17) fr die charakteristische Funktion normalverteilter Zufallsvektoren
ergibt sich nun, dass
Z (t)
= Y (A> t)
1
= exp (A> t)> K(A> t)

2
1
= exp t> (AKA> )t .

2
Mit anderen Worten: Die charakteristische Funktion von Z stimmt mit der charakteristischen Funktion
der N(o, AKA> )Verteilung berein.
Aus dem Eindeutigkeitssatz fr die charakteristische Funktion von Zufallsvektoren folgt somit, dass
Z N(o, AKA> ).
Aus Theorem 1.3 ergibt sich insbesondere, dass sich normalverteilte Zufallsvektoren durch Lineartransformation
von Vektoren konstruieren lassen, deren Komponenten unabhngige und N(0, 1)-verteilte Zufallsvariablen sind.
Korollar 1.5
Seien Y1 , . . . , Yn : R unabhngige Zufallsvariablen mit Yi N(0, 1) fr jedes i = 1, . . . , n, d.h.
Y = (Y1 , . . . , Yn )> N(o, I).
Sei K eine symmetrische und positiv definite n n Matrix, und sei Rn .
Fr den Zufallsvektor Z = K1/2 Y + gilt dann Z N(, K), wobei K1/2 die Quadratwurzel von K ist.
Beweis
Aus Theorem 1.3 ergibt sich, dass
>
Z N(, K1/2 K1/2 ) .
Hieraus und aus Lemma 1.6 folgt die Behauptung.

1.2.5
18
Singulre multivariate Normalverteilung
Der in Abschnitt 1.2.1 eingefhrten Begriff der (regulren) multivariaten Normalverteilung lsst sich wie folgt
verallgemeinern.
Hierfr ist eine Faktorisierungseigenschaft von Kovarianzmatrizen ntzlich, die wir bereits in Lemma 1.7
erwhnt hatten.
Zur Erinnerung: Sei K eine symmetrische und nichtnegativ definite n n Matrix mit rg(K) = r n. Dann
gibt es eine n r Matrix B mit rg(B) = r, so dass
K = BB> .
(24)
Definition
Sei Y ein ndimensionaler Zufallsvektor mit Erwartungswertvektor = E Y und Kovarianzmatrix
K = Cov (Y), so dass rg(K) = r mit r n.
d
Dann heit Y normalverteilt, wenn Y = + BZ, wobei B eine n r Matrix mit rg(B) = r ist, die
der Gleichung (24) gengt, und Z ein rdimensionaler Zufallsvektor mit Z N(o, Ir ) ist.
Wir sagen, dass Y N(, K) singulr normalverteilt ist, wenn rg(K) < n.
(Schreibweise: Y N(, K))
Beachte
Wenn rg(K) = r < n, dann ist der Zufallsvektor Y N(, K) nicht absolutstetig,
d
denn die Werte von Y = +BZ liegen mit Wahrscheinlichkeit 1 in der rdimensionalen Teilmenge
{ + Bx : x Rr } des Rn ,
d.h., die Verteilung von Y besitzt keine Dichte bezglich des ndimensionalen Lebesgue-Maes.
Ein Beispiel hierfr ist der Zufallsvektor Y = (Z, Z)> = BZ mit Z N(0, 2 ) und B = (1, 1)> ,
der nur Werte auf der Diagonalen {(z1 , z2 ) R2 : z1 = z2 } annimmt.
Die Verteilung des Zufallsvektors + BZ hngt nicht von der Wahl der Matrix B in der Faktorisierungsgleichung (24) ab.
Dies ergibt sich unmittelbar aus den folgenden beiden Kriterien fr das Vorliegen von (singulren bzw.
regulren) multivariaten Normalverteilungen.
Theorem 1.4
Sei Y ein ndimensionaler Zufallsvektor mit Erwartungswertvektor = E Y und Kovarianzmatrix K =
Cov (Y), so dass rg(K) = r mit r n.
Der Zufallsvektor Y ist genau dann normalverteilt, wenn eine der beiden folgenden Bedingungen erfllt ist:
P
n
1. Die charakteristische Funktion (t) = E exp i j=1 tj Yj von Y ist gegeben durch
1
(t) = exp i t> t> Kt ,
2
t = (t1 , . . . , tn )> Rn .
2. Die lineare Funktion c> Y von Y ist fr jedes c Rn mit c 6= o normalverteilt mit
c> Y N(c> , c> Kc) .
Der Beweis von Theorem 1.4 wird in den bungen diskutiert. Er wird deshalb hier weggelassen.
(25)
1.3
19
Lineare und quadratische Formen normalverteilter Zufallsvektoren
1.3.1
Definition, Erwartungswert und Kovarianz
Definition
Seien Y = (Y1 , . . . , Yn )> und Z = (Z1 , . . . , Zn )> beliebige ndimensionale Zufallsvektoren, und sei A
eine symmetrische n n Matrix mit reellwertigen Eintragungen.
Dann heit die (reellwertige) Zufallsvariable Y> AY : R quadratische Form von Y bezglich A.
Die Zufallsvariable Y> AZ : R heit bilineare Form von Y und Z bezglich A.
Zunchst bestimmen wir den Erwartungswert von quadratischen bzw. bilinearen Formen.
Theorem 1.5 Seien Y = (Y1 , . . . , Yn )> und Z = (Z1 , . . . , Zn )> beliebige ndimensionale Zufallsvektoren, und
sei A eine symmetrische n n Matrix mit reellwertigen
Eintragungen.
Die Erwartungswertvektoren
Y = E Y
und Z = E Z sowie die Kovarianzmatrizen KYY = Cov (Yi , Yj ) und KZY = Cov (Zi , Yj ) seien wohldefiniert.
Dann gilt
E Y> AY = sp(AKYY ) + >

und
E Y> AZ = sp(AKZY ) + >
(26)
Y AY
Y AZ .
Beweis
Wir beweisen nur die zweite Formel in (26), denn die erste Formel ergibt sich hieraus als Spezialfall
fr Z = Y.
Offenbar gilt Y> AZ = sp Y> AZ . Auerdem folgt aus Lemma 1.1, dass sp Y> AZ = sp AZY> .
Insgesamt ergibt sich also, dass
E Y> AZ =
=
E sp Y> AZ = E sp AZY> = sp AE (ZY> )
>
sp A(KZY + Z >
Y ) = sp(AKZY ) + Y AZ .
Auf hnliche Weise lsst sich eine Formel fr die Kovarianz von quadratischen Formen normalverteilter Zufallsvektoren herleiten. Dabei sind die folgenden Formeln fr die dritten bzw. vierten gemischten Momente der
Komponenten von zentrierten normalverteilten Zufallsvektoren ntzlich.
Lemma 1.11 Sei Z = (Z1 , . . . , Zn )> N(o, K) ein normalverteilter Zufallsvektor mit Erwartungswertvektor
= o und mit beliebiger Kovarianzmatrix K = (kij ). Dann gilt
E (Zi Zj Z` ) = 0
und
E (Zi Zj Z` Zm ) = kij k`m + ki` kjm + kj` kim
i, j, `, m {1, . . . , n} .
(27)
Der Beweis von Lemma 1.11 wird hier weggelassen. Er ergibt sich unmittelbar aus den Theoremen 1.2 und 1.4,
vgl. auch den Beweis von Korollar 1.1.
Theorem 1.6
Sei Y = (Y1 , . . . , Yn )> ein ndimensionaler Zufallsvektor mit Y N(, K), und seien A = (aij ), B = (bij )
beliebige symmetrische n n Matrizen.
Dann gilt
Cov Y> AY, Y> BY = 2 sp(AKBK) + 4> AKB .
(28)
20
Insbesondere gilt Var Y> AY = 2 sp (AK)2 + 4> AKA.

Beweis
Aus der Definition der Kovarianz und aus Theorem 1.5 ergibt sich, dass
Cov Y> AY, Y> BY = E (Y> AY E (Y> AY))(Y> BY E (Y> BY))
= E (Y> AY sp(AK) > A)(Y> BY sp(BK) > B) .

Mit der Substitution Z = Y bzw. Y = Z + ergibt sich hieraus, dass
Cov Y> AY, Y> BY = E (Z> AZ + 2> AZ sp(AK))(Z> BZ + 2> BZ sp(BK))
= E Z> AZZ> BZ + 2> AE ZZ> BZ + 2> BE ZZ> AZ
E Z> AZ sp(BK) E Z> BZ sp(AK)

=
+4> AKB + sp(AK) sp(BK)
E Z> AZZ> BZ + 2> AE ZZ> BZ + 2> BE ZZ> AZ

+4> AKB sp(AK) sp(BK) ,
wobei sich die letzte Gleichheit aus Theorem 1.5 ergibt, weil Z N(o, K) und somit E Z> AZ =
sp(AK) gilt.
Weil die Matrizen A, B und K symmetrisch sind, ergibt sich aus Lemma 1.11, dass
E Z> AZZ> BZ = E Z> AZ Z> BZ

n X
n X
n X
n
X
=
aij b`m E (Zi Zj Z` Zm )
i=1 j=1 `=1 m=1
n X
n X
n X
n
X
=
aij kji b`m km` + aji ki` b`m kmj + aij kj` b`m kmi
i=1 j=1 `=1 m=1
sp(AK) sp(BK) + 2 sp(AKBK) .
Auerdem ergibt sich aus Lemma 1.11, dass

n n
!
XX
>
E ZZ AZ =
aij E (Zi Zj Z` ) = o
i=1 j=1
(29)
und entsprechend E ZZ> BZ = o.
Zusammen mit dem oben hergeleiteten Ausdruck fr Cov Y> AY, Y> BY ergibt sich nun hieraus
die Behauptung.
Wir leiten nun noch die folgende Formel fr den Kovarianzvektor von linearen bzw. quadratischen Formen normalverteilter Zufallsvektoren her.
Theorem 1.7 Sei Y = (Y1 , . . . , Yn )> ein ndimensionaler Zufallsvektor mit Y N(, K), und seien A =
(aij ), B = (bij ) beliebige symmetrische n n Matrizen. Dann gilt
Cov AY, Y> BY = 2AKB .

(30)
21
Beweis
Weil E (AY) = A und weil in Theorem 1.5 gezeigt wurde, dass
E Y> BY = sp(BK) + > B ,

ergibt sich, dass
Cov AY, Y> BY
= E (AY A)(Y> BY > B sp(BK))
= E (AY A)((Y )> B(Y ) + 2(Y )> B sp(BK)) .
Auerdem gilt E (AY A) = o, und aus (29) folgt mit Z = Y , dass
E (AY A)(Y )> B(Y ) = AE (Y )(Y )> B(Y ) = o .

Somit ergibt sich, dass
Cov AY, Y> BY =
2E (AY A)(Y )> B
= 2AE (Y )(Y )> B

= 2AKB .
1.3.2
Nichtzentrale 2 Verteilung
Um die Verteilung von quadratischen Formen normalverteilter Zufallsvektoren zu bestimmen, fhren wir die
(parametrische) Familie der nichtzentralen 2 Verteilungen ein.
Definition
Sei Rn und (X1 , . . . , Xn )> N(, I). Dann sagt man, dass die Zufallsvariable
Z = (X1 , . . . , Xn )(X1 , . . . , Xn )> =
n
X
Xi2
i=1
eine nichtzentrale 2 Verteilung mit n Freiheitsgraden und dem Nichtzentralittsparameter = > hat.
(Schreibweise: Z 2n, )
Beachte
Fr = o ergibt sich als Spezialfall die bereits in Abschnitt I1.3.1 eingefhrte (zentrale) 2 Verteilung
2n mit n Freiheitsgraden.
Um eine Formel fr die Dichte der nichtzentralen 2 Verteilung herzuleiten, betrachten wir (neben der
charakteristischen Funktion) noch eine weitere Integraltransformation von Wahrscheinlichkeitsdichten.
Definition
Sei f : R [0, ) die Dichte einer reellwertigen Zufallsvariable, so dass das Integral
wohldefiniert ist fr jedes t (a, b) aus einem gewissen Intervall (a, b) mit a < b.
etx f (x) dx
Dann heit die Abbildung : (a, b) R mit

Z
etx f (x) dx ,
(t) =
die momenterzeugende Funktion der Dichte f .
t (a, b)
(31)
22
Es gilt der folgende Eindeutigkeitssatz fr momenterzeugende Funktionen, den wir hier ohne Beweis angeben.
Lemma 1.12
Seien f, f 0 : R [0, ) die Dichten von reellwertigen Zufallsvariablen, und seien die zugehrigen momenterzeugenden Funktionen : (a, b) R bzw. 0 : (a, b) R auf einem (gemeinsamen) Intervall (a, b) mit
a < b wohldefiniert.
Es gilt (t) = 0 (t) fr jedes t (a, b) genau dann, wenn f (x) = f 0 (x) fr fast jedes x R.
Mit Hilfe von Lemma 1.12 knnen wir nun die Dichte der nichtzentralen 2 Verteilung bestimmen.
Theorem 1.8
Sei Zn, : R eine 2n, verteilte Zufallsvariable mit n Freiheitsgraden und Nichtzentralittsparameter
.
Dann ist die Dichte von Zn, gegeben durch
j n
z 2 +j1
2
exp + z
n
,
n
2
fZn, (z) =
2 +j
j!
2
+
j
j=0
wenn z > 0,
(32)
sonst.
Beweis
Sei Rn und (X1 , . . . , Xn )> N(, I).
Die momenterzeugende Funktion Z (t) von Z = (X1 , . . . , Xn )(X1 , . . . , Xn )> =
vall (, 1/2) wohldefiniert, und es gilt fr jedes t < 1/2, dass
Z (t) =
j=1
Xj2 ist im Inter-
Z
Z
n
n
n
X
X
Y
1
1
exp
E exp t
Xj2 =
...
exp t
x2j
(xj j )2 dx1 . . . dxn
2
2
j=1
j=1
j=1
Pn
1
2
!n/2 Z
n Z
Y
j=1
Z
...
n
X
1X
(xj j )2
exp t
x2j
2
j=1
j=1
1
(2)1/2 exp tx2j (xj j )2
2
!
dx1 . . . dxn
!
dxj .
Dabei lsst sich der Exponent des letzten Ausdruckes wie folgt umformen:
1
tx2j (xj j )2
2
=
=
=
1
(2tx2j + x2j 2xj j + 2j )
2
1 2
xj (1 2t) 2xj j + 2j (1 2t)1 + 2j 2j (1 2t)1

2
(xj j (1 2t)1 )2 (1 2t) + 2j (1 (1 2t)1 ) .

2
23
Somit gilt
Z (t) =
n
X
1
exp (1 (1 2t)1 )
2j
2
j=1
n Z
Y
j=1
(x (1 2t)1 )2
j
j
(2)1/2 exp
dxj
2(1 2t)1

= (1 2t)n/2 exp (1 (1 2t)1 ) ,
2
weil unter dem Integral die Dichte der eindimensionalen Normalverteilung (bis auf den konstanten
Faktor (1 2t)1/2 ) steht; = > .
Andererseits ergibt sich fr die momenterzeugende Funktion (t) der in (32) gegebenen Dichte fZn, (z),
dass
Z
X
e/2 (/2)j
z n/2+j1 ez/2
dz ,
etz n
j!
2 2 +j n2 + j
j=0
0
(t) =
wobei das Integral die momenterzeugende Funktion der (zentralen) 2 Verteilung 2n+2j mit n + 2j
Freiheitsgraden ist.
hnlich wie die charakteristische Funktion (vgl. Theorem I1.5) ist die momenterzeugende Funktion
dieser Verteilung gegeben durch
1
2n+2j (t) =
.
(1 2t)n/2+j
Somit gilt
Z
etz
0
z n/2+j1 ez/2
1
dz =
,
n/2+j
n
n
+j
(1
2t)
22 2 + j
bzw.
(t) =
=
j
X
1
(1 2t)1
j! 2
j=0

(1 2t)n/2 exp (1 (1 2t)1 ) .

2
e/2 (1 2t)n/2
Somit gilt (t) = Z (t) fr jedes t < 1/2, und die Behauptung folgt aus Lemma 1.12.
1.3.3
Verteilungs und Unabhngigkeitseigenschaften linearer und quadratischer Formen
Zur Erinnerung: Bei der Definition der nichtzentralen 2 Verteilung in Abschnitt 1.3.2 wurde die Quadratsumme der Komponenten von N(, I)-verteilten Zufallsvektoren betrachtet.
Man kann nun zeigen, dass die (entsprechend modifizierte) Quadratsumme auch dann eine nichtzentrale 2 Verteilung besitzt, wenn der betrachtete normalverteilte Zufallsvektor eine beliebige positiv definite
Kovarianzmatrix hat.
Und zwar sei Rn , und sei K eine symmetrische und positiv definite n n Matrix.
Wenn Z = (Z1 , . . . , Zn )> N(, K), dann ergibt sich aus Theorem 1.3, dass
K1/2 Z N(K1/2 , I) .
24
Aus der Definition der nichtzentralen 2 Verteilung folgt somit, dass
>
Z> K1 Z = K1/2 Z K1/2 Z 2n, ,
(33)
wobei = (K1/2 )> K1/2 = > K1 .
Die Verteilungseigenschaft (33) fr quadratische Formen von normalverteilten Zufallsvektoren lsst sich wie folgt
verallgemeinern. Dabei ist Lemma 1.7 ber die Faktorisierung symmetrischer und nichtnegativ definiter Matrizen
ntzlich.
Theorem 1.9
Sei Z = (Z1 , . . . , Zn )> N(, K), wobei die Kovarianzmatrix K positiv definit sei. Auerdem sei A eine
symmetrische n n Matrix mit rg(A) = r n.
Wenn die Matrix AK idempotent ist, d.h., wenn AK = (AK)2 , dann gilt Z> AZ 2r, , wobei = > A.
Beweis
Die Matrix AK sei idempotent. Dann gilt
AK = AKAK .
Weil K regulr ist, kann man beide Seiten dieser Gleichung von rechts mit K1 multiplizieren. Dabei
ergibt sich, dass
A = AKA
(34)
bzw. fr jedes x Rn
x> Ax = x> AKAx = (Ax)> K(Ax) 0 ,
d.h., A ist nichtnegativ definit.

Gem Lemma 1.7 gibt es somit eine Zerlegung
A = HH> ,
(35)
so dass die n r Matrix H den vollen Spaltenrang r hat.

Wegen Lemma 1.2 bedeutet dies, dass die inverse Matrix (H> H)1 existiert.
Aus Theorem 1.3 ber die lineare Transformation von normalverteilten Zufallvektoren ergibt sich nun
fr den rdimensionalen Vektor Z0 = H> Z, dass
Z0 N(H> , Ir ) ,
weil
H> KH = (H> H)1 (H> H)(H> KH)(H> H)(H> H)1
= (H> H)1 H> (AKA)H(H> H)1
= (H> H)1 H> AH(H> H)1 = Ir ,
wobei sich die letzten drei Gleichheiten aus (34) bzw. (35) ergeben.
(36)

Weil andererseits
25
Z> AZ = Z> HH> Z =
und weil
H> Z
>
H> Z = (Z0 )> Z0
> > >

H H = > HH> = > A ,
ergibt sich die Behauptung nun aus (36) und aus der Definition der nichtzentralen 2 Verteilung.
Auerdem ist das folgende Kriterium fr die Unabhngigkeit von linearen bzw. quadratischen Formen normalverteilter Zufallsvektoren ntzlich. Es kann als (vektorielle) Verallgemeinerung von Lemma 5.3 im Skript zur
Vorlesung Statistik I aufgefasst werden.
Theorem 1.10
Sei Z = (Z1 , . . . , Zn )> N(, K), wobei K eine beliebige (symmetrische, nichtnegativ definite) Kovarianzmatrix sei.
Auerdem seien A, B beliebige r1 n bzw. r2 n Matrizen mit r1 , r2 n, und sei C eine symmetrische
und nichtnegativ definite n n Matrix.
Wenn zustzlich die Bedingung
AKB> = 0
bzw.
AKC = 0
(37)
erfllt ist, dann sind die Zufallsvariablen AZ und BZ bzw. AZ und Z> CZ unabhngig.
Beweis
Wir zeigen zunchst, dass aus (37) die Unabhngigkeit der linearen Formen AZ und BZ folgt.
Wegen des Eindeutigkeitssatzes fr charakteristische Funktionen von Zufallsvektoren (vgl. Lemma 1.9)
gengt es zu zeigen, dass fr beliebige t1 Rr1 , t2 Rr2
>
>
>
E exp i (t>
1 AZ + t2 BZ) = E exp i t1 AZ E exp i t2 BZ .
Aus (37) folgt, dass
>
>
BKA> = (BKA> )>
= AKB>
=0
und somit auch, dass fr beliebige t1 Rr1 , t2 Rr2

>
>
>
>
(t>
1 A)K(t2 B) = t1 AKB t2 = 0 ,
>
>
>
>
(t>
2 B)K(t1 A) = t2 BKA t1 = 0 .
(38)
Aus der in Theorem 1.4 hergeleiteten Darstellungsformel (25) fr die charakteristische Funktion von
normalverteilten Zufallsvektoren und aus (38) ergibt sich dann, dass
>
>
>
E exp i (t>
1 AZ + t2 BZ) = E exp i (t1 A + t2 B)Z
1 >
>
>
>
>
(t1 A + t>
= exp i (t>
2 B)K(t1 A + t2 B)
1 A + t2 B)
2
1
1 >
>
>
>
>
>
= exp i (t1 A + t2 B) (t>
(t2 B)K(t>
1 A)K(t1 A)
2 B)
2
2
1 >
1
>
>
>
>
>
>
= exp i (t1 A) (t1 A)K(t1 A) exp i (t2 B) (t>
2 B)K(t2 B)
2
2 >
= E exp i t>
AZ
E
exp
i
t
BZ
.
1
2
26
Wir zeigen nun noch, dass die Unabhngigkeit von AZ und Z> CZ aus der zweiten Bedingung in (37)
folgt.
Sei rg(C) = r n. Gem Lemma 1.7 gibt es dann eine n r Matrix H mit rg(H) = r, so dass
C = HH> .
Aus (37) ergibt sich dann, dass AKHH> = 0 bzw. AKHH> H = 0.
Hieraus folgt schlielich, dass AKH = 0, weil die r r Matrix H> H wegen Lemma 1.2 den (vollen)
Rang rg(H) = r hat und deshalb invertierbar ist.
Aus dem ersten Teil des Beweises ergibt sich somit, dass die linearen Formen AZ und H> Z unabhngig
sind.
Wegen
Z> CZ = Z> HH> Z = (H> Z)> H> Z
ergibt sich nun aus dem Transformationssatz fr unabhngige Zufallsvektoren (vgl. Theorem I1.8),
dass auch AZ und Z> CZ unabhngig sind.
2 LINEARE MODELLE; DESIGNMATRIX MIT VOLLEM RANG
27
Lineare Modelle; Designmatrix mit vollem Rang
Zur Erinnerung (vgl. Kapitel 5 der Vorlesung Statistik I):

Bei der einfachen linearen Regression wird von zwei Datenstzen (x1 , . . . , xn ) Rn und (y1 , . . . , yn ) Rn
ausgegangen, die stochastisch modelliert werden sollen.
Dabei fassen wir die Vektoren (x1 , y1 ), . . . , (xn , yn ) als Realisierungen von n Zufallsvektoren (X1 , Y1 ), . . . ,
(Xn , Yn ) auf, die typischerweise nicht identisch verteilt sind.
Wir deuten die Zufallsvariablen Y1 , . . . , Yn als Zielvariablen und nehmen an, dass sie auf die folgende Weise
von den Ausgangsvariablen X1 , . . . , Xn abhngen:
Yi = (Xi ) + i ,
i = 1, . . . , n ,
(1)
wobei
: R R eine beliebige (Borelmessbare) Funktion, die so genannte Regressionsfunktion ist und
1 , . . . , n : R Zufallsvariablen, so genannte Strgren sind, durch die beispielsweise zufllige
Messfehler modelliert werden knnen.
Ein wichtiger Spezialfall liegt vor, wenn die Regressionsfunktion : R R eine lineare Funktion ist, die so
genannte Regressionsgerade, d.h., wenn es reelle Zahlen 1 , 2 R gibt mit
(x) = 1 + 2 x ,
x R,
(2)
wobei 1 die Regressionskonstante und 2 der Regressionskoeffizient genannt wird.

Die Gren 1 , 2 R sind unbekannte Modellparameter, die aus den beobachteten Daten (x1 , . . . , xn ) Rn
und (y1 , . . . , yn ) Rn geschtzt werden sollen.
Wir betrachten nun die folgende multivariate Verallgemeinerung des einfachen linearen Regressionsmodells, wobei
m, n 2 beliebige natrliche Zahlen seien, so dass m n.
Wir nehmen an, dass die Zielvariablen Y1 , . . . , Yn von vektoriellen mdimensionalen Ausgangsvariablen
(X11 , . . . , X1m )> , . . . , (Xn1 , . . . , Xnm )> abhngen, d.h., es gelte
Yi = (Xi1 , . . . , Xim ) + i ,
i = 1, . . . , n ,
(3)
wobei
die Regressionsfunktion : Rm R gegeben ist durch
(x1 , . . . , xm ) = 1 x1 + . . . + m xm ,
(x1 , . . . , xm )> Rm
(4)
mit (unbekannten) Regressionskoeffizienten 1 , . . . , m R und

die zuflligen Strgren 1 , . . . , n : R den folgenden Bedingungen gengen:
E i = 0 ,
Var i = 2 ,
Cov (i , j ) = 0 ,
i, j = 1, . . . , n mit i 6= j
(5)
fr eine gewisse (unbekannte) Zahl 2 > 0.

Dabei betrachten wir hier nur den Fall, dass die Ausgangsvariablen (X11 , . . . , X1m )> , . . . , (Xn1 , . . . , Xnm )>
deterministisch sind, d.h., es gelte
(X11 , . . . , X1m )> = (x11 , . . . , x1m )> , . . . , (Xn1 , . . . , Xnm )> = (xn1 , . . . , xnm )>
fr gewisse Vektoren (x11 , . . . , x1m )> , . . . , (xn1 , . . . , xnm )> Rm .
28
Beachte
In Matrixschreibweise lsst sich dann das in (3) und (4) gegebene Modell wie folgt formulieren:
Y = X + ,
(6)
wobei
Y=
Y1
..
.
X=
Yn
x11
..
.
...
xn1
...
x1m
..
.
xnm
1
..
.
m
1
..
.
(7)
Dabei wird X die Designmatrix des Regressionsmodells genannt.
2.1
Methode der kleinsten Quadrate
Das Ziel dieses Abschnittes besteht darin, die unbekannten Modellparameter 1 , . . . , m und 2 aus den beobachteten Daten (x11 , . . . , x1m )> , . . . , (xn1 , . . . , xnm )> Rm und (y1 . . . , yn )> Rn zu schtzen.
hnlich wie in Abschnitt I5.1 betrachten wir hierfr die Methode der kleinsten Quadrate zur Bestimmung
von Schtzern b1 , . . . , bm fr die unbekannten Regressionskoeffizienten 1 , . . . , m .
b = (b1 , . . . , bm )> bestimmt werden, so dass der mittlere quadratische Fehler
Und zwar soll ein Zufallsvektor
e() =
n
2
1 X
Yi (1 xi1 + . . . + m xim )
n i=1
(8)
b minimal wird.
fr =
Beachte Auer den in (5) gemachten Modellannahmen werden zunchst keine zustzlichen Voraussetzungen
ber die Verteilung der zuflligen Strgren 1 , . . . , n : R bentigt.
2.1.1
Normalengleichung
Man kann leicht zeigen, dass die in (8) betrachtete Funktion e() ein eindeutig bestimmtes Minimum hat, wenn
die Designmatrix X vollen (Spalten) Rang hat, d.h., wenn rg(X) = m gilt.
Theorem 2.1
Sei rg(X) = m.
Der mittlere quadratische Fehler e() in (8) ist genau dann minimal, wenn Lsung der folgenden Normalengleichung ist:
X> X = X> Y .
(9)
Dabei hat (9) die eindeutig bestimmte Lsung
b = (X> X)1 X> Y .
(10)
29
Beweis
Die in (8) gegebene Funktion e() ist differenzierbar, wobei
e()
e() >
2 >
e0 () =
,...,
=
X X X> Y
1
m
n
und
e00 () =
2 e()
i j
2 >
X X.
n
Aus e () = o ergibt sich die Normalengleichung (9).

Auerdem folgt aus Lemma 1.2, dass rg(X> X) = m.
Die m m Matrix X> X (und somit auch e00 ()) ist deshalb invertierbar und positiv definit.
Folglich ist e() ist genau dann minimal, wenn Lsung von (9) ist.
b die durch
Weil die m m Matrix X> X invertierbar ist, besitzt (9) eine eindeutig bestimmte Lsung ,
(10) gegeben ist.
b = (X> X)1 X> Y fr ist eine Lineartransformation der Zufallsstichprobe Y, d.h.,

Beachte Der Schtzer
b ist ein linearer Schtzer.
Beispiele
(einfaches und multiples lineares Regressionsmodell)
Fr m = 2 und
X=
1
..
.
x1
..
.
(11)
1 xn
ergibt sich das bereits in Abschnitt I5.1 betrachtete einfache lineare Regressionsmodell als Spezialfall.
Die Designmatrix X in (11) hat genau dann vollen Rang rg(X) = 2, wenn nicht alle x1 , . . . , xn gleich
sind.
b = (b1 , b2 ) fr die Regressionskonstante 1 bzw. den Regressions Der in (10) betrachtete Schtzer
koeffizient 2 hat dann die Form (vgl. auch Theorem I5.1)
b2 =
s2xy
,
s2xx
b1 = y n b2 xn ,
(12)
wobei xn , y n die Stichprobenmittel bezeichnen, d.h.

n
xn =
1X
xi ,
n i=1
yn =
1X
yi ,
n i=1
und die Stichprobenvarianzen s2xx , s2yy bzw. die Stichprobenkovarianz s2xy gegeben sind durch
n
s2xx
2
1 X
=
xi xn ,
n 1 i=1
Fr m > 2 und
s2xy
1 X
=
(xi xn )(yi y n ) ,
n 1 i=1
X=
s2yy
2
1 X
=
yi y n .
n 1 i=1
1
..
.
x12
..
.
...
xn2
...
x1m
..
.
xnm
ergibt sich das so genannte multiple lineare Regressionsmodell.
(13)

2.1.2
30
b
Gteeigenschaften des KQSchtzers
Wir setzen von jetzt an in Abschnitt 2.1 stets voraus, dass die Designmatrix X vollen (Spalten) Rang hat und
b = (b1 , . . . , bm )> her.
leiten drei verschiedene Gteeigenschaften des in (10) gegebenen KQSchtzers
Theorem 2.2
Beweis
b ist erwartungstreu fr , d.h., es gilt E

b = fr jedes Rm .
Der Schtzer
Wegen E = o ergibt sich aus (6) und (10), dass

b
E
(6)
E (X> X)1 X> Y = E (X> X)1 X> (X + ) = + E (X> X)1 X>
+ (X> X)1 X> E = .
(10)
b besitzt auerdem die folgende Eigenschaft der Varianzminimalitt. Dabei bezeichne L die
Der KQSchtzer
e = AY + a fr , wobei A eine (m n)dimensionale Matrix
Familie aller erwartungstreuen linearen Schtzer
>
m
ist und a = (a1 , . . . , am ) R .
Theorem 2.3
e = (e1 , . . . , em ) L gilt
Fr jedes
Var bi Var ei ,
i = 1, . . . , m ,
(14)
e = .
b
wobei die Gleichheit in (14) genau dann fr jedes i = 1, . . . , m gilt, wenn
Beweis
e = AY + a erwartungstreu fr ist, gilt
Weil vorausgesetzt wird, dass der lineare Schtzer
e = E (AY + a) (6)
= E
= E A(X + ) + a = AX + AE + a = AX + a
fr jedes Rm , wobei sich die letzte Gleichheit aus E = o ergibt.
Hieraus folgt, dass
AX = I
und
a = o.
(15)
Somit gilt
e = AY = A(X + ) = AX + A = + A ,
e fr hat die Form

d.h., jeder lineare erwartungstreue Schtzer
e = + A .
(16)
e des Zufallsvektors
e gilt also
Fr die Kovarianzmatrix Cov ()
e = E (
e )(
e )> = E (A)(A)> = AE (> )A> = 2 AA> ,
Cov ()
d.h.
e = 2 AA> .
Cov ()
(17)
b des KQ
Auerdem ergibt sich aus (17) mit A = (X> X)1 X> , dass die Kovarianzmatrix Cov ()
b
Schtzers gegeben ist durch
b = 2 (X> X)1 ,
Cov ()
(18)
denn es gilt
b
Cov ()
>
= 2 (X> X)1 X> (X> X)1 X>
= 2 (X> X)1 X> X(X> X)1
= 2 (X> X)1 .
31
Um die Gltigkeit von (14) zu beweisen, ist somit zu zeigen, dass

> 1
(X X)
AA> ii ,
i = 1, . . . , m .
ii
(19)
Mit D = A (X> X)1 X> gilt
>
AA> = D + (X> X)1 X> D + (X> X)1 X>
=
=
denn wegen (15) gilt
DD> + (X> X)1 X> D> + DX(X> X)1 + (X> X)1

DD> + (X> X)1 ,
DX = A (X> X)1 X> X = AX I = I I = 0 ,
wobei 0 die Nullmatrix bezeichnet.
Pm
Weil mit D = (dij ) die Ungleichung DD> ii = j=1 d2ij 0 gilt, ergibt sich hieraus die Gltigkeit
von (19).
Auerdem wird klar, dass die Gleichheit in (19) fr jedes i = 1, . . . , m genau dann gilt, wenn D = 0,
d.h. A = (X> X)1 X> .
Beachte
b L. Aus Theorem 2.3 ergibt sich auerdem, dass
b im
Aus den Theoremen 2.1 und 2.2 folgt, dass
Sinne von (14) bester erwartungstreuer linearer Schtzer fr ist.
b ein schwach konsistenter Schtzer
Wir leiten nun noch eine hinreichende Bedingung dafr her, dass
fr ist, wobei der Stichprobenumfang n, d.h. die Anzahl der Zeilen der Designmatrix X = Xn gegen
strebt.
e = (Y
e 1 , . . . , Yn ) fr heit schwach konsistent, wenn
Zur Erinnerung: Ein Schtzer
n
e | > ) = 0 ,
lim P (|
n
> 0, Rm .
b asymptotisch normalverteilt ist, wenn

Unter hnlichen Bedingungen kann man auch zeigen, dass
n
n (vgl. Abschnitt III.3.2 in Pruscha (2000)).
Theorem 2.4 Sei f : N R \ {0} eine Funktion mit limn f (n) = 0, so dass der Grenzwert
Q = lim f (n)X>
n Xn
n
(20)
b ein schwach konsistenter Schtzer fr .

existiert und die m m Matrix Q invertierbar ist. Dann ist
n
Beweis
b erwartungstreu ist (vgl. Theorem 2.2), gilt fr jedes n m
Weil
n
b | > )
P (|
n
b |2 > 2 ) = P
= P (|
n
m
X
bin i
> 2
i=1
m
[
X
2
2
2
P bin i >
(bin i )2 >
m
m
i=1
m
mX
Var bin ,
2 i=1
i=1
wobei sich die letzte Abschtzung aus der TschebyschevUngleichung ergibt (vgl. Theorem WR-4.18).
32
Es gengt somit zu zeigen, dass

lim Var bin = 0 ,
i = 1, . . . , m .
(21)
Die Matrix Q1 ist wohldefiniert, weil vorausgesetzt wird, dass die (Grenz) Matrix Q invertierbar ist.
Auerdem ergibt sich aus (20), dass
1
Q1 = lim f (n)X>
.
n Xn
n
Aus der in (18) hergeleiteten Formel fr die Kovarianzmatrix des Zufallsvektors bn ergibt sich nun,
dass
1 2
lim Cov (bn ) = 2 lim X>
= 2 lim f (n) lim f (n)X>
= lim f (n) Q1 = 0 .
n Xn
n Xn
n
Hieraus ergibt sich insbesondere die Gltigkeit von (21).
2.1.3
Erwartungstreue Schtzung der Varianz 2 der Strgren
Neben den in (5) formulierten Bedingungen an die Strgren 1 , . . . , n gelte nun n > m, wobei wir erneut
voraussetzen, dass die Designmatrix X vollen Rang hat, d.h. rg(X) = m.
In Verallgemeinerung des Ansatzes, den wir in Abschnitt I5.1.3 bei der Schtzung von 2 im einfachen
linearen Regressionsmodell betrachtet hatten, setzen wir nun
S2 =
1
b > (Y X)
b .
(Y X)
nm
(22)
Bei normalverteilten Strgren kann S 2 als eine modifizierte Version eines MaximumLikelihoodSchtzers
fr 2 aufgefasst werden; vgl. Abschnitt 2.2.
Wir zeigen, dass durch (22) ein erwartungstreuer Schtzer fr 2 gegeben ist. Hierbei sind die folgenden Hilfsstze
ntzlich.
Lemma 2.1 Die n n Matrix
G = I X(X> X)1 X>
(23)
ist idempotent und symmetrisch, d.h., es gilt

G = G2
G = G> .
und
(24)
Beweis
Die zweite Teilaussage in (24) ergibt sich unmittelbar aus der Definition von G und den Rechenregeln
fr transponierte Matrizen, denn es gilt
G> =
I X(X> X)1 X>
>
= I X(X> X)1 X> = G .
33
Auerdem gilt
G2
=
=
=
I X(X> X)1 X>
I X(X> X)1 X>
I 2X(X> X)1 X> + X(X> X)1 X> X(X> X)1 X>

I X(X> X)1 X> = G .
Lemma 2.2 Fr die in (23) gegebene n n Matrix G gilt sp(G) = n m.

Beweis
Man kann sich leicht berlegen (vgl. Lemma 1.1 und 1.3), dass
sp(A B) = sp(A) sp(B) fr beliebige n n Matrizen A und B,
sp(CD) = sp(DC) fr beliebige n m Matrizen C und beliebige m n Matrizen D .
Hieraus und aus der Definitionsgleichung (23) von G ergibt sich, dass
sp(G) = sp In X(X> X)1 X> = sp(In ) sp X(X> X)1 X>
= sp(In ) sp X> X(X> X)1 = sp(In ) sp(Im ) = n m ,

wobei I` die (` `)dimensionale Einheitsmatrix bezeichnet.
Theorem 2.5
Es gilt E S 2 = 2 fr jedes 2 > 0, d.h., S 2 ist ein erwartungstreuer Schtzer fr 2 .
Beweis
Offenbar gilt
GX = I X(X> X)1 X> X = 0 .
(25)
Hieraus ergibt sich mit Hilfe von (10) und (23), dass
(23)
(25)
b (10)
Y X
= Y X(X> X)1 X> Y = GY = GX + G = G .
Fr den in (22) eingefhrten Schtzer S 2 gilt somit wegen G> G = G2 = G (vgl. Lemma 2.1), dass
S2
=
=
1
1
1
(G)> (G) =
> G> G =
> G
nm
nm
nm
1
1
sp > G =
sp G> .
nm
nm
Wegen E (> ) = 2 In ergibt sich hieraus, dass

E S2 =
1
1
2
sp GE (> ) =
sp G 2 In =
sp G = 2 ,
nm
nm
nm
wobei sich die letzte Gleichheit aus Lemma 2.2 ergibt.
2.2
34
Normalverteilte Strgren
Zustzlich zu den Modellannahmen, die am Anfang von Kapitel 2 formuliert worden sind, setzen wir in diesem Abschnitt noch voraus, dass die zuflligen Strgren 1 , . . . , n : R unabhngig und normalverteilt
sind, d.h. i N(0, 2 ) fr jedes i = 1, . . . , n.
Darber hinaus gelte auch rg(X) = m und n > m.
Gem Theorem 1.3 ist dann die Verteilung des Vektors Y = X + der Zielvariablen bzw. des KQ
b = (X> X)1 X> Y gegeben durch
Schtzers
und
2.2.1
Y N(X, 2 I)
(26)
b N , 2 (X> X)1 .
(27)
MaximumLikelihoodSchtzer
Durch (26) ist ein parametrisches Modell fr die Verteilung des Vektors Y = (Y1 , . . . , Yn )> der Stichprobenvariablen Y1 , . . . , Yn gegeben.
Auer der Methode der kleinsten Quadrate, die in Abschnitt 2.1 diskutiert worden ist, kann nun auch die
MaximumLikelihoodMethode zur Gewinnung von Schtzern fr die unbekannten Modellparameter und
2 verwendet werden.
Aus (1.13) und (26) ergibt sich, dass
1 n
fY (y) =
exp 2 (y X)> (y X)
2
2
(28)
fr jedes y = (y1 , . . . , yn )> Rn .

Wir betrachten also die Likelihood-Funktion
1 n
L(y; , 2 ) =
exp 2 (y X)> (y X)
2
2
(29)
bzw. die Loglikelihood-Funktion

log L(y; , 2 ) =
n
n
1
log(2)
log( 2 )
|y X|2 .
2
2
2 2
(30)
b
Wir suchen Schtzer ,
b2 fr , 2 , so dass mit Wahrscheinlichkeit 1
b
L(Y; ,
b2 ) =
L(Y; , 2 )
(31)
log L(Y; , 2 ) .
(32)
sup
Rm , 2 >0
bzw. quivalent hierzu
b
log L(Y; ,
b2 ) =
sup
Rm , 2 >0
Beachte Die Maximierung in (31) bzw. (32) kann in zwei Schritten erfolgen: zuerst bezglich und dann bezglich 2 . Wegen (30) ist der erste Schritt identisch mit dem in Abschnitt 2.1.1 betrachteten Minimierungsverfahren.
Theorem 2.6 Die Lsung des Maximierungsproblems (31) bzw. (32) ist eindeutig bestimmt und gegeben durch
bzw.
b2 =
b = (X> X)1 X> Y
(33)
1
b > Y X
b .
Y X
n
(34)
35
Beweis
Fr beliebige, jedoch fest vorgegebene y Rn und 2 > 0 betrachten wir zunchst die Abbildung
Rm 3 7 log L(y; , 2 ) .
(35)
In Theorem 2.1 hatten wir gezeigt, dass die in (35) gegebene Abbildung das eindeutig bestimmte
b
globale Maximum (y)
= (X> X)1 X> y besitzt, das nicht von 2 abhngt.
Fr jedes (fest vorgegebene) y Rn betrachten wir nun die Abbildung
b
(0, ) 3 2 7 log L(y; (y),
2 ) .
(36)
Diese Abbildung ist stetig, und es gilt offenbar

b
lim log L(y; (y),
2 ) = .
Weil n > m vorausgesetzt wird, nimmt der ndimensionale absolutstetige Zufallsvektor Y nur mit
Wahrscheinlichkeit 0 Werte in der mdimensionalen Teilmenge {Xz : z Rm } des Rn an.
b 2 > 0 mit Wahrscheinlichkeit 1 und somit
Deshalb gilt |Y X|
b
lim log L(y; (y),
2 ) =
2 0
fr fast jedes y Rn .
Fr fast jedes y Rn besitzt also die in (36) gegebene Abbildung mindestens ein globales Maximum
in (0, ).
Fr jedes dieser Maxima gilt
b
log L(y; (y),
2 )
n
1
>
b
b
=
+
(y X(y))
(y X(y))
= 0.
2
2 2
2 4
Die (eindeutig bestimmte) Lsung dieser Gleichung ist
b2 (y) =
1
>
b
b
(y X(y))
(y X(y))
.
n
Beachte
b fr stimmt mit dem in Theorem 2.1 hergeleiteten
Der in Theorem 2.6 hergeleitete MLSchtzer
KQSchtzer berein.
Der MLSchtzer
b2 fr 2 unterscheidet sich dagegen von dem in Abschnitt 2.1.3 betrachteten
(erwartungstreuen) Schtzer S 2 fr 2 um einen konstanten Proportionalittsfaktor, denn es gilt
b2 =
2.2.2
nm 2
S .
n
b und S 2
Verteilungs und Unabhngigkeitseigenschaften von
b N , 2 (X> X)1 lsst sich auch

Auer der bereits in (27) erwhnten Normalverteilungseigenschaft
die Verteilung des Schtzers
1
b > (Y X)
b .
S2 =
(Y X)
(37)
nm
fr die Varianz 2 der Strgren bestimmen.
36
Hierfr benutzen wir die Darstellungsformel

b = G ,
Y X
(38)
die wir im Beweis von Theorem 2.5 gezeigt hatten, wobei G = I X(X> X)1 X> .
Aus der in Theorem 1.9 hergeleiteten Bedingung fr die 2 Verteiltheit von quadratischen Formen normalverteilter Zufallsvektoren ergibt sich nun das folgende Resultat.
Theorem 2.7
Es gilt
(n m)S 2
2nm ,
2
d.h., die Zufallsvariable (n m)S 2 / 2 hat eine (zentrale) 2 Verteilung mit n m Freiheitsgraden.
(39)
Beweis
In Lemma 2.1 hatten wir gezeigt, dass die Matrix G = IX(X> X)1 X> idempotent und symmetrisch
ist.
(n m)S 2
2
1
b > (Y X)
b = 1 (G)> G = 1 > G> G
(Y X)
2
2
2
1 > 1
= G .
=
Weil 1 N(o, I) und weil die Matrix GI = G idempotent ist, gengt es wegen Theorem 1.9 noch
zu zeigen, dass rg(G) = n m.
Dies ergibt sich aus Lemma 1.3 und 2.2, denn es gilt
rg(G)
Lemma 1.3
sp(G)
Lemma 2.2
n m.
Auerdem nutzen wir das in Theorem 1.10 hergeleitete Kriterium fr die Unabhngigkeit von linearen bzw.
quadratischen Formen normalverteilter Zufallsvektoren, um das folgende Resultat zu zeigen.
Theorem 2.8
b und S 2 fr bzw. 2 sind unabhngig.

Die Schtzer
Beweis
b = (X> X)1 X> Y und Y = X + ergibt sich, dass
Aus
b = (X> X)1 X> + (X> X)1 X> X = (X> X)1 X> + .
Auerdem hatten wir im Beweis von Theorem 2.7 gezeigt, dass sich der Schtzer
1
b > (Y X)
b
S2 =
(Y X)
nm
als quadratische Form von darstellen lsst:
1
S2 =
> G ,
wobei G = I X(X> X)1 X> .
nm
Weil N(o, 2 I) und weil
(X> X)1 X> I X(X> X)1 X> = 0 ,
ergibt sich aus Theorem 1.10, dass die lineare Form (X> X)1 X> und die quadratische Form > G
unabhngig sind.
b und S 2 unabhngig.
Damit sind auch die Zufallsvariablen

2.2.3
37
Tests fr die Regressionskoeffizienten; Quadratsummenzerlegung
Mit Hilfe der Verteilungs und Unabhngigkeitseigenschaften von linearen bzw. quadratischen Formen normalverteilter Zufallsvektoren, die in den Abschnitten 1.3.3 bzw. 2.2.2 hergeleitet wurden, kann man tTests
bzw. FTests zur Verifizierung von Hypothesen ber die Regressionskoeffizienten 1 , . . . , m konstruieren.
b und S 2 fr bzw. 2 , wobei
Dabei verwenden wir so wie bisher die (unabhngigen) Schtzer
b = (X> X)1 X> Y N , 2 (X> X)1
bzw.
(40)
(n m)S 2
1
b > (Y X)
b 2
= 2 (Y X)
nm .
2
(41)
Zunchst diskutieren wir den folgenden FTest, der auch Test auf Gesamtzusammenhang bzw. Test auf Signifikanz
des Modells genannt wird.
Hierbei wird die Null-Hypothese H0 : 1 = . . . = m = 0 (gegen die Alternative H1 : j 6= 0 fr ein
j {1, . . . , m}) getestet.
Die Wahl der Testgre ist durch die folgende Quadratsummenzerlegung motiviert.
Theorem 2.9
b gilt
b = X
Mit der Schreibweise Y
b >Y
b + YY
b > YY
b .
Y> Y = Y
(42)
Beweis
Es gilt
Y> Y
n
X
Yi2 =
i=1
n
X
(Yi Ybi ) + Ybi
i=1
n
X
Ybi2 +
i=1
n
n
X
X
(Yi Ybi )2 + 2
(Yi Ybi )Ybi
i=1
i=1
{z
=0
n
X
Ybi2 +
i=1
n
X
b >Y
b + YY
b > YY
b .
(Yi Ybi )2 = Y
i=1
Dabei ergibt sich die vorletzte Gleichheit aus der folgenden berlegung: Es gilt
n
X
(Yi Ybi )Ybi
i=1
b > X> )X
b = Y > X
b
b > X> X
b
b >Y
b = (Y>
(Y Y)
| {z }
>
b
b X> Y =
Y > X
b
Y > X
>
=X> Y
>
b X> Y = 0 .
Beachte
b
b >Y
b auf der rechten Seite von (42) ist die quadrierte Lnge des Vektors Y
b = X
Der erste Summand Y
der geschtzten Zielwerte Yb1 , . . . , Ybn .
38
Die zweite Komponente der Quadratsummenzerlegung (42), d.h. die Summe der Abweichungsquadrate
b > YY
b , wird Reststreuung genannt.
YY
Manchmal wird auch die so genannte Bestimmtheitsmazahl R2 betrachtet, die gegeben ist durch
n
b > YY
b
YY
1 X
2
R =1
Y
=
,
wobei
Yi .
n
P
n i=1
(Yi Y )2
i=1
Aus unserer Modellannahme, dass die Designmatrix X vollen Rang hat, d.h. rg(X) = m, ergibt sich die Ungleichung (X)> (X) = > (X> X) > 0, wenn die Hypothese H0 : 1 = . . . = m = 0 falsch ist.
b >Y
b des Zufallsvek Deshalb ist es naheliegend, die Hypothese H0 abzulehnen, wenn die quadrierte Lnge Y
b
b
tors Y = X hinreichend gro ist.
Dabei wird auch die Variabilitt 2 der Daten bei der Entscheidung bercksichtigt, was hinreichend gro
ist.
Unter H0 : = o gilt
n
n
X
E Y > Y = E > = E
2i =
E 2i = n 2 .
i=1
i=1
Aus Theorem 2.9 folgt in diesem Fall, dass

>
b Y
b +E YY
b > YY
b ,
n 2 = E Y
b >Y
b und der Summe der
weshalb bei der berprfung der Hypothese H0 : = o der Quotient von Y
>
b
b betrachtet wird.
Abweichungsquadrate Y Y
YY
Genauer gesagt: Wir betrachten die folgende Testgre
Tmod
b > (X> X)
b
=
.
2
mS
(43)
Um einen auf Tmod basierenden Test der Hypothese H0 : 1 = . . . = m = 0 konstruieren zu knnen, muss die
Verteilung der Testgre Tmod bestimmt werden.
Theorem 2.10
Unter H0 : 1 = . . . = m = 0 gilt
Tmod Fm,nm ,
(44)
d.h., die in (43) gegebene Testgre Tmod ist Fverteilt mit (m, n m) Freiheitsgraden.
Beweis
b N(o, K) mit K = 2 (X> X)1 .
Unter H0 : 1 = . . . = m = 0 gilt
Hieraus folgt, dass ( 1 X)> ( 1 X)K = ( 1 X)> ( 1 X) 2 (X> X)1 = I, d.h. insbesondere, dass die
Matrix ( 1 X)> ( 1 X)K idempotent ist.
>
b (X> X)
b eine (zentrale) 2
Aus Theorem 1.9 ergibt sich nun, dass die quadratische Form 2
Verteilung mit m Freiheitsgraden hat.
Auerdem hatten wir in Theorem 2.7 gezeigt, dass die Zufallsvariable (n m)S 2 / 2 eine (zentrale)
2 Verteilung mit n m Freiheitsgraden hat.
b und S 2 unabhngig sind.
In Theorem 2.8 hatten wir gezeigt, dass
39
Aus dem Transformationssatz fr unabhngige Zufallsvektoren (vgl. Theorem I1.8) folgt somit, dass
b > (X> X)
b und (n m)S 2 / 2 unabhngig sind.
auch die Zufallsvariablen 2
Die Behauptung ergibt sich nun aus der Definition der FVerteilung, vgl. Abschnitt I3.1.3.
Beachte
Beim Test der Hypothese H0 : 1 = . . . = m = 0 zum Niveau (0, 1) (gegen die Alternative
H1 : j 6= 0 fr ein j {1, . . . , m}) wird die Nullhypothese H0 abgelehnt, wenn
Tmod > Fm,nm,1 ,
(45)
wobei Fm,nm,1 das 1 Quantil der FVerteilung mit (m, n m) Freiheitsgraden bezeichnet.
Auf hnliche Weise lsst sich ein FTest zur Verifizierung der Hypothese H0 : = 0 zum Niveau
(0, 1) (gegen die Alternative H1 : 6= 0 ) fr einen beliebigen hypothetischen Parametervektor
0 = (01 , . . . , 0m ) konstruieren.
So wie im Beweis von Theorem 2.10 vorgehend kann man zeigen, dass unter H0 : = 0 die Testgre
T0 =
b )> (X> X)(

b )
(
0
0
mS 2
(46)
Fverteilt ist mit (m, n m) Freiheitsgraden.

Die Nullhypothese H0 : = 0 wird somit abgelehnt, wenn
T0 > Fm,nm,1 .
(47)
Zur Verifizierung von Hypothesen ber einzelne Komponenten von = (1 , . . . , m )> werden dagegen tTests
verwendet.
Sei j {1, . . . , m}. Um einen hypothetischen Wert 0,j der jten Komponente j des Parametervektors
= (1 , . . . , m )> zu testen, betrachten wir die Testgre
Tj =
bj j
,
S xjj
(48)
wobei xij die (i, j)te Eintragung der (inversen) Matrix (X> X)1 bezeichnet.
b und S 2 ergibt sich, dass Tj tnm .
Aus (40) (41) und aus der Unabhngigkeit von
Beim Test der Hypothese H0 : j = 0,j zum Niveau (0, 1) (gegen die Alternative H1 : j 6= 0,j ) wird
die Nullhypothese H0 abgelehnt, wenn
bj 0,j
> tnm,1/2 ,
(49)
S xjj
wobei tnm,1/2 das (1 /2)Quantil der tVerteilung mit n m Freiheitsgraden bezeichnet.
Beachte
Der Test der Hypothese H0 : j = 0 (gegen die Alternative H1 : j 6= 0) ist von besonderem Interesse,
weil damit verifiziert werden kann, inwieweit die Zielvariablen Y1 , . . . , Yn berhaupt von dem jten
Einflussfaktor abhngen.
40
Bei diesem Test auf Signifikanz des jten Einflussfaktors wird die Nullhypothese H0 : j = 0 abgelehnt,
wenn

bj
> tnm,1/2 .
(50)
S xjj
Die bisher in diesem Abschnitt betrachteten Tests sind Spezialflle des folgenden universellen Tests. Dabei wird
ein beliebiger Teil der Komponenten des Parametervektors getestet.
Fr ` {1, . . . , m} und 0` , . . . , 0m R soll die Hypothese
H0 : ` = 0` , . . . , m = 0m
versus
H1 : j 6= 0j fr ein j {`, . . . , m}
(51)
getestet werden.
Hierfr betrachten wir die folgende (m ` + 1) (m ` + 1)dimensionale Teilmatrix Kuni der Matrix
(X> X)1 = (xij ) mit
x`` . . . x`m
..
.
Kuni = ..
.
.
xm` . . . xmm
>
1 >
H ,
Man kann zeigen, dass die inverse Matrix K1
uni wohldefiniert ist, denn es gilt Kuni = H(X X)
wobei H = (0, I), die Nullmatrix 0 die Dimension (m ` + 1) (` 1) und die Einheitsmatrix I die
Dimension (m ` + 1) (m ` + 1) hat.
Hieraus und aus Lemma 1.8 folgt, dass die Matrix Kuni positiv definit und damit invertierbar ist.
Ein Ansatz zur Lsung des Testproblems (51) ist dann durch die Testgre
Tuni
> 1
b
b
Kuni
uni
uni
uni
uni
=
(m ` + 1)S 2
(52)
b
b
b
gegeben, wobei
uni = (` , . . . , m ) und uni = (0` , . . . , 0m ).
Denn aus dem folgenden Theorem 2.11 ergibt sich, dass unter der in (51) formulierten Nullhypothese H0
Tuni Fm`+1,nm .
(53)
Die Hypothese H0 : ` = 0,` , . . . , m = 0m wird somit abgelehnt, wenn

Tuni > Fm`+1,nm,1 .
(54)
Wir diskutieren nun noch einen allgemeinen Test fr Linearformen des Parametervektors = (1 , . . . , m ).
Sei r {1, . . . , m}, sei H eine r m Matrix mit vollem Rang rg(H) = r, und sei c Rr .
Getestet werden soll die Hypothese
H0 : H = c
versus
H1 : H 6= c ,
(55)
wobei die folgende Testgre TH betrachtet wird:
TH =
b c > H(X> X)1 H> 1 H

b c
H
.
rS 2
(56)

Theorem 2.11
41
Unter H0 : H = c gilt
TH Fr,nm ,
(57)
d.h., die in (56) gegebene Testgre TH ist F-verteilt mit (r, n m) Freiheitsgraden.
Beweis
Weil die Designmatrix X vollen Rang hat, ist die symmetrische Matrix X> X positiv definit.
Gem Lemma 1.8 sind damit auch die Matrizen (X> X)1 bzw. H(X> X)1 H> positiv definit,
d.h. insbesondere, dass die Matrix H(X> X)1 H> vollen Rang besitzt und deshalb invertierbar
ist.
Die in (56) betrachtete Gre Z> (H(X> X)1 H> )1 Z ist somit wohldefiniert, wobei
b c
Z = H
b N , 2 (X> X)1 .
mit
Aus Theorem 1.3 ergibt sich, dass unter H0 : H = c
Z N o, 2 H(X> X)1 H> .

1
Auerdem ist die r r Matrix A = H(X> X)1 H>

symmetrisch, denn es gilt
A>
=
=
1 >
> 1

>
1
H(X> X)1 H>
= H(X> X)1 H>
= H (X> X)1 H>
> > 1 > 1
1
H (X X)
H
= H(X> X)1 H>
= A.
Weil die Matrix 2 A 2 H(X> X)1 H> = I offenbar idempotent ist, ergibt sich aus Theorem 1.9,
dass 2 Z> AZ eine 2r -verteilte Zufallsvariable ist.
Der Rest des Beweises verluft genauso wie der Beweis von Theorem 2.10.
Beachte Die Nullhypothese H0 : H = c wird abgelehnt, wenn TH > Fr,nm,1 , wobei TH die in (56)
gegebene Testgre ist.
2.2.4
Konfidenzbereiche; Prognose von Zielvariablen
Zur Erinnerung: In Abschnitt 2.2.3 hatten wir die Testgre Tj = (bj j )/(S xjj ) betrachtet, wobei xij
die (i, j)-te Eintragung der (inversen) Matrix (X> X)1 bezeichnet.
Dabei hatten wir gezeigt, dass Tj tnm fr jedes j {1, . . . , m} gilt.
Hieraus ergeben sich die folgenden Konfidenzintervalle zum Niveau 1 (0, 1) fr jeden einzelnen
Regressionskoeffizienten j .
Und zwar gilt jeweils mit Wahrscheinlichkeit 1
bj tnm,1/2 S xjj < j < bj + tnm,1/2 S xjj .
(58)
Beachte
Auf die gleiche Weise wie im Beweis von Theorem I5.8 ergibt sich mit Hilfe der Bonferroni-Ungleichung
(vgl. Lemma I5.4) ein gemeinsamer Konfidenzbereich zum Niveau 1 (0, 1) fr smtliche m
Regressionskoeffizienten 1 , . . . , m .
42
Und zwar ist die Wahrscheinlichkeit, dass
bj tnm,1/2m S xjj < j < bj + tnm,1/2m S xjj
(59)
gleichzeitig fr jedes j = 1, . . . , m gilt, mindestens gleich 1 .

Aus Theorem 2.10 ergibt sich auerdem ein exakter gemeinsamer Konfidenzbereich zum Niveau 1
fr smtliche m Regressionskoeffizienten 1 , . . . , m .
Denn es gilt (vgl. (46) (47)), dass
(
b )> (X> X)(
b )
P
<
F
= 1 .
m,nm,1
mS 2
Dabei stellt der Konfidenzbereich E mit
n
o
b )> (X> X)(
b )
(
E = = (1 , . . . , m ) :
<
F
m,nm,1
mS 2
b = (b1 , . . . , bm ).
einen (zuflligen) Ellipsoid dar mit dem Mittelpunkt
Man kann zeigen, dass sich der Ellipsoid E in einen mdimensionalen achsenparallelen Quader E 0 E
einbetten lsst, wobei
m
q
q
Y
0
E =
bj S mxjj Fm,nm,1 , bj + S mxjj Fm,nm,1 .
j=1
Der Konfidenzbereich E 0 hat eine einfachere Gestalt als E. Wegen E 0 E ist E 0 jedoch eine ungenauere
Schtzung als E.
Auf hnliche Weise ergibt sich ein Konfidenzintervall fr den erwarteten Zielwert
(x01 , . . . , x0m ) = 1 x01 + . . . + m x0m ,
der einem vorgegebenen Vektor x0 = (x01 , . . . , x0m )> Rm von Werten x01 , . . . , x0m der m Einflussfaktoren
entspricht.
Hierfr betrachten wir die 1 m Matrix H = (x01 , . . . , x0m ) (= x>
0 ).
Dann ergibt sich aus Theorem 2.11, dass
p
TH =
b > x (x0 )|
|
d
p 0
= |T | ,
>
>
1
S x0 (X X) x0
wobei T eine tverteilte Zufallsvariable ist mit n m Freiheitsgraden.

Mit Wahrscheinlichkeit 1 gilt also
b > x0 Z0 < (x0 ) x 0 + Z0 ,
wobei
Z0 = tnm,1/2 S
(60)
q
>
1 x .
x>
0
0 (X X)
Beachte
Vllig analog ergibt sich ein Prognoseintervall fr die Zielvariable Y0 = 1 x01 + . . . + m x0m + 0 , wobei
die Strgre 0 normalverteilt und unabhngig von den Strgren 1 , . . . , n ist; 0 N(0, 2 ).
b > x0 Y0 N 0, 2 (1 + x> (X> X)1 x0 ) und somit mit Wahrscheinlichkeit 1

Und zwar gilt
0
wobei Z00 = tnm,1/2 S
b > x0 Z 0 < Y0 x0 + Z 0 ,
0
0
>
1 x .
1 + x>
0
0 (X X)
(61)

2.2.5
43
Konfidenzband
In diesem Abschnitt nehmen wir an, dass die Designmatrix X die Form
1 x12 . . . x1m
..
..
.
X = ..
.
.
1 xn2 . . . xnm
(62)
hat, d.h., wir betrachten das (multiple) lineare Regressionsmodell.

In der Definitionsgleichung (4) fr die Regressionsfunktion (x1 , . . . , xm ) = 1 x1 + . . . + m xm setzen wir
nun x1 = 1 und bestimmen ein Konfidenzband fr die Regressionshyperebene
y = (1, x2 , . . . , xm ) = 1 + 2 x2 + . . . + m xm ,
x2 , . . . , xm R .
Dabei ist eine Zahl a > 0 gesucht, so dass mit der vorgegebenen (berdeckungs) Wahrscheinlichkeit
= 1 (0, 1)
b1 + b2 x2 + . . . + bm xm a Zx < (1, x2 , . . . , xm ) < b1 + b2 x2 + . . . + bm xm + a Zx ,
(63)
gleichzeitig fr jedes x = (1, x2 , . . . , xm ) Rm gilt, wobei

q
b = (X> X)1 X> Y
und
Zx = S
x> (X> X)1 x .
Bei der Lsung dieser Fragestellung ist das folgende Hilfsergebnis ntzlich.
Lemma 2.3
Mit Wahrscheinlichkeit 1 gilt

> > > 1 2
(X ) (X X) x
max
= (X> )> (X> X)1 (X> ) ,
> (X> X)1 x
x
xRm1
1
(64)
wobei Rm1
die Menge aller derjenigen Vektoren x Rm mit x = (1, x2 , . . . , xm )> bezeichnet.
1
Beweis
Aus den Lemmata 1.6 und 1.8 folgt, dass (X> X)1 = HH> fr eine invertierbare m m Matrix H.
Somit kann der Ausdruck
(X> )> (X> X)1 x = ((XH)> )> H> x
als Skalarprodukt der mdimensionalen Vektoren (XH)> und H> x aufgefasst werden.
Analog gilt
(X> )> (X> X)1 X> = ((XH)> )> (XH)>
und
x> (X> X)1 x = (H> x)> H> x .
Hieraus und aus der Ungleichung

|y> z|
y> y
z> z
y, z Rm
(65)
ergibt sich mit y = (XH)> und z = H> x, dass

q
> > > 1 q
(X ) (X X) x (X> )> (X> X)1 (X> ) x> (X> X)1 x
bzw.
> > > 1 2

(X ) (X X) x
(X> )> (X> X)1 (X> ) .
x> (X> X)1 x
(66)
44
Pn
Weil der Zufallsvektor = (1 , . . . , n )> unabhngige absolutstetige Komponenten hat, gilt i=1 i 6= 0
mit Wahrscheinlichkeit 1.
Pn
Sei nun i=1 i 6= 0. P
Dann ergibt sich aus der in (62) betrachteten Form der Designmatrix X, dass
n
der Vektor x = X> / i=1 i zu Rm1
gehrt und dass dann in (66) die Gleichheit gilt.
1
Aus dem folgenden Resultat, das eine vektorielle Verallgemeinerung von Theorem I5.9 ist, ergibt sich das gesuchte
Konfidenzband.
Theorem 2.12
Sei a =
m Fm,nm, . Dann gilt

!
b > x (x) 2
2
max
a = .
S 2 x> (X> X)1 x
xRm1
1
(67)
Beweis
Fr jedes x Rm1
gilt
1
b > x (x) =
b > x > x =
> 1 > >
>
(X X) X Y x > x = + (X> X)1 X> x > x
= (X> )> (X> X)1 x

und somit
>
b x (x) 2
max
S 2 x> (X> X)1 x
xRm1
1
=
=
max
xRm1
1
2
(X> )> (X> X)1 x
1
= 2
2
>
>
1
S x (X X) x
S
> > > 1 2

(X ) (X X) x
max
m1
x> (X> X)1 x
xR1
(X> )> (X> X)1 (X> )

,
S2

Es gilt also
max
m1
xR1
b > x (x) 2
(X> )> (X> X)1 (X> )

=
.
2
>
>
1
S x (X X) x
S2
(68)
Weil N(o, 2 I) und weil
X> I X(X> X)1 X> = 0 ,
ergibt sich aus Theorem 1.10, dass X> und > I X(X> X)1 X> unabhngig sind.
Aus der bereits im Beweis von Theorem 2.7 hergeleiteten Darstellungsformel

S2 =
1
> I X(X> X)1 X>
nm
ergibt sich somit, dass auch die Zufallsvariablen (X> )> (X> X)1 (X> ) und S 2 unabhngig sind.
(n m)S 2 / 2 2nm .
Auerdem ergibt sich aus Theorem 1.9, dass
(X> )> (X> X)1 (X> )/ 2 2m ,
weil die m m (Kovarianz-) Matrix X> X des normalverteilten Zufallsvektors X> vollen Rang hat
und weil die Matrix (X> X)1 (X> X) = I idempotent ist.
45
Wegen (68) haben wir also insgesamt gezeigt, dass

1
m
max
m1
xR1
>
b x (x) 2
Fm,nm .
S 2 x> (X> X)1 x
Fr den in (63) bzw. (67) betrachteten Schwellenwert ergibt sich deshalb a =
m Fm,nm, .
3 BELIEBIGE DESIGNMATRIX; VERALLGEMEINERTE INVERSE
46
Beliebige Designmatrix; verallgemeinerte Inverse

Wir betrachten nun die folgende Verallgemeinerung des in Kapitel 2 behandelten linearen Modells
Y = X + ,
(1)
fr das wir bisher stets vorausgestzt hatten, dass die Designmatrix
x11 x12 . . . x1m
..
..
.
X = ..
.
.
xn1 xn2 . . . xnm
(2)
eine (n m)dimensionale Matrix mit vollem (Spalten) Rang rg(X) = m ist, wobei n m.
In diesem Kapitel werden wir dagegen den Fall rg(X) m betrachten, d.h., wir lassen zu, dass X keinen
vollen Rang besitzt.
So wie in Abschnitt 2.1 setzen wir zunchst ber den Zufallsvektor = (1 , . . . , n )> lediglich voraus, dass
E i = 0 ,
Var i = 2 ,
Cov (i , j ) = 0 ,
i, j = 1, . . . , n mit i 6= j
(3)
fr eine gewisse (unbekannte) Zahl 2 > 0.
3.1
Varianzanalyse als lineares Modell
Wir diskutieren zunchst zwei Beispiele von Fragestellungen, die zu linearen Modellen fhren, deren Designmatrix
keinen vollen Rang hat, vgl. auch Abschnitt 3.4.
Der Begriff Varianzanalyse bedeutet dabei nicht, dass Varianzen von Zufallsvariablen untersucht werden, sondern
es handelt sich um die Analyse der Variablititt von Erwartungswerten. In der englischsprachigen Literatur ist
die Abkrzung ANOVA blich (ANOVA= analysis of variance).
3.1.1
Einfaktorielle Varianzanalyse; ANOVANullhypothese
Bei der einfaktoriellen Varianzanalyse nehmen wir an, dass sich die Zufallsstichprobe Y = (Y1 , . . . , Yn )> in
k Klassen von Teilstichproben (Yij , j = 1, . . . , ni ) zerlegen lt,
Pk
wobei ni > 1 fr jedes i = 1, . . . , k und i=1 ni = n
und die Stichprobenvariablen, die zu einundderselben Klasse gehren, jeweils den gleichen Erwartungswert i haben mgen.
Mit anderen Worten: Wir nehmen an, dass
Yij = i + ij ,
i = 1, . . . , k, j = 1, . . . , ni ,
(4)
wobei 1 , . . . , k R (unbekannte) Parameter sind und die Strgren ij : R unkorreliert sind mit
E ij = 0 ,
Var ij = 2 ,
i = 1, . . . , k, j = 1, . . . , ni .
(5)
Beachte
Die Nummern i = 1, . . . , k der Klassen (Yij , j = 1, . . . , ni ) werden als Stufen eines Einflussfaktors
gedeutet.
47
Die oben gemachten Modellannahmen bedeuten insbesondere, dass die beobachteten Werte y1 , . . . , yn
der Zielvariablen Y1 , . . . , Yn wie folgt tabellarisch strukturiert werden knnen:
Stufe
...
y11
y21
y31
yk1
y12
..
.
y22
..
.
y32
..
.
yk2
yk3
..
.
y3n3
y1n1
y2n2
yknk
Wir zeigen, dass die klassische ANOVA-Nullhypothese H0 : 1 = . . . = k mit Hilfe von so genannten Kontrasten
ausgedrckt werden kann.
Hierfr betrachten wir folgende Menge A Rk mit
k
n
o
X
A = a = (a1 , . . . , ak )> : a 6= o,
ai = 0 .
i=1
Sei t = (t1 , . . . , tk )> Rk ein beliebiger Vektor von Variablen, und sei a = (a1 , . . . , ak )> A ein Vektor
Pk
von (bekannten) Konstanten. Die Abbildung t i=1 ai ti heit dann Kontrast.
Lemma 3.1 Seien 1 , . . . , k R beliebige relle Zahlen. Fr die Gltigkeit von 1 = . . . = k ist dann notwendig
und hinreichend, dass
k
X
ai i = 0
a A.
(6)
i=1
Beweis
Wenn 1 = . . . = k = , dann gilt fr jedes a A
k
X
i=1
ai i =
k
X
ai = 0 .
i=1
Um die Hinlnglichkeit der Bedingung zu beweisen, betrachten wir die Vektoren a1 , . . . , ak1 A mit
a1 = (1, 1, 0, . . . , 0)> ,
a2 = (0, 1, 1, 0, . . . , 0)> ,
... ,
ak1 = (0, . . . , 0, 1, 1)> .
Fr jedes i {1, . . . , k 1} ergibt sich aus der Gltigkeit der Bedingung (6) fr ai , dass i + i+1 = 0
bzw. i = i+1 . Hieraus folgt, dass 1 = . . . k .
Beachte
Wegen Lemma 3.1
Pkist die klassische ANOVA-Nullhypothese H0 : 1 = . . . = k quivalent ist mit der
Hypothese H0 : i=1 ai i = 0 fr jedes a = (a1 , . . . , ak )> A.
48
Auerdem ist klar, dass unter H0

Pni
Pk
Pk
i=1 ai Y i mit Y i =
j=1 Yij /ni fr jedes a A ein erwartungstreuer Schtzer fr
i=1 ai i =
0 ist,
Pk
Pk
Pk
2
die Varianz von i=1 ai Y i gegeben ist durch Var i=1 ai Y i = 2
i=1 ai /ni
und
ni
k X
X
2
1
Sp2 =
Yij Y i
(7)
n k i=1 j=1
ein erwartungstreuer Schtzer fr 2 ist, die so genannte gepoolte Stichprobenvarianz.
Es ist somit naheliegend, H0 : 1 =P. . . = k abzulehnen, wenn das Supremum ber alle a A der
k
(geeignet normierten) Betrge von i=1 ai Y i einen gewissen Schwellenwert
berschreitet, wobei die
.q P
P
k
k
2
2
2
Sp i=1 ai /ni .
Testgre supaA Ta betrachtet wird mit Ta =
i=1 ai Y i
hnlich wie im Beweis von Lemma 2.3 kann man zeigen, dass unter H0 : 1 = . . . = k
k
P
sup Ta2 =
i=1
ni Y i Y
wobei Y =
Pk
i=1
ni Y i
.P
k
i=1
Sp2
aA
(8)
ni .
Durch die folgende Quadratsummenzerlegung ergibt sich eine anschauliche Deutung von Zhler und Nenner der
in (8) betrachteten Testgre supaA Ta2 , vgl. auch Theorem 2.9.
Theorem 3.1
Es gilt
ni
ni
k X
k
k X
X
2 X
2 X
2
Yij Y =
ni Y i Y +
Yij Y i .
i=1 j=1
i=1
(9)
i=1 j=1
Durch Ausmultiplizieren der linken Seite von (9) ergibt sich, dass
Beweis
ni
k X
X
Yij Y
i=1 j=1
ni
k X
X
(Yij Y i ) + (Y i Y )
i=1 j=1
ni
k X
X
(Yij Y i )2 + 2(Yij Y i )(Y i Y ) + (Y i Y )2
i=1 j=1
ni
ni
k X
k
k
X
X
X
X
(Yij Y i )2 + 2
(Y i Y )
(Yij Y i ) +
ni (Y i Y )2 .
i=1 j=1
i=1
j=1
{z
=0
i=1
Beachte
Die Doppelsumme auf der linken Seite von (9) kann als eine Mazahl fr die (Gesamt-) Variabilitt
der Stichprobenvariablen {Yij , i = 1, . . . , k, j = 1, . . . , ni } aufgefasst werden.
Die erste Summe auf der rechten Seite von (9) ist eine Mazahl fr die Variabilitt zwischen den
Stufen des Einflussfaktors, whrend die Doppelsumme auf der rechten Seite von (9) eine Mazahl fr
die Variabilitt innerhalb der Stufen des Einflussfaktors ist.
49
Wegen der in (7) gegebenen Definition von Sp2 ist die in (8) betrachtete Testgre also proportional zu
dem Quotienten, der aus der Variabilitt zwischen den Stufen des Einflussfaktors und der Variabilitt
innerhalb der Stufen gebildet wird.
Die ANOVA-Nullhypothese H0 : 1 = . . . = k wird somit abgelehnt, wenn die Variabilitt zwischen
den Stufen signifikant grer als die Variabilitt innerhalb der Stufen des Einflussfaktors ist.
3.1.2
Reparametrisierung der Erwartungswerte
Das in Abschnitt 3.1.1 betrachtete Modell der einfaktoriellen Varianzanalyse kann auf zwei verschiedene Weisen
als lineares Modell dargestellt werden.
In beiden Fllen wird die Zufallsstichprobe Y = (Y1 , . . . , Yn )> strukturiert, d.h., wir verwenden die Schreib
>
weise Y = Y11 , . . . , Y1n1 , Y21 , . . . , Y2n2 , . . . , Yk1 , . . . , Yknk , wobei n1 + . . . + nk = n.
Der Zufallsvektor Y wird in der Form Y = X+ dargestellt, wobei die Designmatrix X und der Parametervektor jeweils unterschiedlich gewhlt werden.
Dabei hat X im ersten Fall vollen Rang, im zweiten Fall jedoch keinen vollen Rang.
Die zweite (reparametrisierte) Darstellung ist auf die Anwendung der allgemeinen Schtz und Testverfahren ausgerichtet, die in den Abschnitten 3.2 und 3.3 behandelt werden.
Bei normalverteilten Strgren lsst sich auf diese Weise unter H0 : 1 = . . . = k die Verteilung der
in (8) betrachteten Testgre supaA Ta2 bestimmen, vgl. die Formel (89) in Abschnitt 3.4.1.
Fall 1
In diesem Fall ist die Designmatrix X gegeben durch die n k
1
0
0 ... 0
..
..
..
..
.
.
.
.
1
0
0 ... 0
0
1
0 ... 0
.
.
..
..
..
..
.
.
X=
0
1
0 ... 0
0
0
0 ... 0
..
..
..
..
.
.
.
.
0
0
0 ... 0
Matrix
..
.
..
.
,
0
..
.
(10)
und der Parametervektor ist gegeben durch = (1 , . . . , k )> .

Fall 2
Wir betrachten die folgende Reparametrisierung der Erwartungswerte 1 , . . . , k , die den Stufen des
Einflussfaktors entsprechen.
Und zwar seien R und 1 , . . . , k R reelle Zahlen, so dass
i = + i ,
und
k
X
i=1
i = 1, . . . , k
ni i = 0 .
(11)
(12)
50
Dann lsst sich die Zufallsstichprobe Y des einfaktoriellen Varianzanalyse-Modells ebenfalls in der Form
Y = X + darstellen, wobei die Designmatrix X jetzt allerdings gegeben ist durch die n (k + 1)
Matrix
1
1
0
0 ... 0
0
..
..
..
..
..
..
.
.
.
.
.
.
1
0
0
.
.
.
0
0
1
0
1
0 ... 0
0
.
..
..
..
..
..
..
.
.
.
.
.
(13)
X=
,
1
0
1
0 ... 0
0
1
0
0
0 ... 0
1
..
..
..
..
..
..
.
.
.
.
.
.
1
0
0
0 ... 0
1
und der Parametervektor ist gegeben durch = (, 1 , . . . , k )> .
Beachte
Die lineare Nebenbedingung (12) an die Komponenten 1 , . . . , k des Parametervektors bewirkt,
dass die Darstellung (11) (12) der Erwartungswerte 1 , . . . , k eindeutig ist.
Aus (11) und (12) ergibt sich auerdem, dass
n
i
1 XX
E Yij = ,
n i=1 j=1
wobei
der Parameter als allgemeines Mittel der Erwartungswerte E Yij der Stichprobenvariablen Yij
aufgefasst werden kann und
der (Abweichungs-) Parameter i der Effekt der i-ten Stufe des Einflussfaktors genannt wird.
Fr die in (13) gegebene Designmatrix X gilt rg(X) = k, d.h., die n (k + 1)dimensionale Matrix X
hat keinen vollen Spaltenrang.
Theorem 3.2
Es gilt
E Y =
E Y i Y = i
und
(14)
fr jedes i = 1, . . . , k, d.h., durch Y und Y i Y sind erwartungstreue Schtzer fr die Modellparameter bzw.
i gegeben .
Beweis
Aus der Definitionsgleichung von Y ergibt sich, dass

E Y
Pk
ni
k X
X
i=1
ni
i=1 j=1
E Yij = Pk
k
X
i=1
ni
i=1
ni i = + Pk
k
X
i=1
ni
ni i = ,
i=1
wobei sich die letzte Gleichheit aus der Reparametrisierungsbedingung (12) ergibt. Die zweite Teilaussage
in (14) lsst sich auf analoge Weise beweisen.

3.1.3
51
Zweifaktorielle Varianzanalyse
Wir modifizieren nun das in Abschnitt 3.1.1 eingefhrte Modell der einfaktoriellen Varianzanalyse und
nehmen an, dass die Zielvariablen Y1 , . . . , Yn von zwei Einflussfaktoren abhngen.
Dabei zerlegen wir die Zufallsstichprobe Y = (Y1 , . . . , Yn )> in k1 k2 Teilstichproben (Yi1 i2 j , j = 1, . . . , ni1 i2 ),
wobei ni1 i2 > 1 fr alle i1 = 1, . . . , k1 bzw. i2 = 1, . . . , k2 und
k2
k1 X
X
ni 1 i 2 = n ,
i1 =1 i2 =1
Wir nehmen an, dass die Stichprobenvariablen, die zu einundderselben Klasse gehren, jeweils den gleichen
Erwartungswert i1 i2 haben.
Mit anderen Worten: Wir nehmen an, dass
Yi1 i2 j = i1 i2 + i1 i2 j ,
i1 = 1, . . . , k1 , i2 = 1, . . . , k2 , j = 1, . . . , ni1 i2 ,
(15)
wobei i1 i2 R (unbekannte) Parameter und die Strgren i1 i2 j : R unkorreliert sind mit

E i1 i2 j = 0 ,
Var i1 i2 j = 2 ,
i1 = 1, . . . , k1 , i2 = 1, . . . , k2 , j = 1, . . . , ni1 i2 .
(16)
Beachte
Die Darstellung (15) der Stichprobenvariablen Yi1 i2 j fhrt zu der gleichen Art eines linearen Modells,
wie es in Fall 1 von Abschnitt 3.1.2 betrachtet wurde.
Die Nummern i1 = 1, . . . , k1 bzw. i2 = 1, . . . , k2 der Klassen (Yi1 i2 j , j = 1, . . . , ni1 i2 ) werden erneut
als Stufen des jeweiligen Einflussfaktors gedeutet.
Die Designmatrix X hat dabei die Dimension n (k1 k2 ) und den vollen Spaltenrang k1 k2 .
Auerdem betrachten wir eine hnliche Reparametrisierung der Erwartungswerte i1 i2 wie in Abschnitt 3.1.2.
Dabei diskutieren wir hier lediglich den so genannten balancierten Fall, d.h.,
wir setzen zustzlich voraus, dass smtliche k1 k2 Teilstichproben (Yi1 i2 j , j = 1, . . . , ni1 i2 ) identische
Stichprobenumfnge besitzen.
Es gelte also ni1 i2 = r fr alle i1 = 1, . . . , k1 und i2 = 1, . . . , k2 , wobei r = n/(k1 k2 ).
(1)
(2)
Sei R, und fr alle i1 {1, . . . , k1 } und i2 {1, . . . , k2 } seien i1 R, i2 R und i1 i2 R reelle

Zahlen, so dass
(1)
(2)
i1 i2 = + i1 + i2 + i1 i2 ,
i1 = 1, . . . , k1 , i2 = 1, . . . , k2
(17)
und
k1
X
i1 =1
(1)
i1 =
k2
X
i2 =1
(2)
i2 =
k1
X
i1 i2 =
i1 =1
k2
X
i1 i2 = 0 .
(18)
i2 =1
Dann lsst sich die Zufallsstichprobe Y in der Form Y = X + darstellen, wobei

die Designmatrix X gegeben ist durch eine Matrix der Dimension n (1 + k1 + k2 + k1 k2 ), deren
Eintragungen nur aus Nullen und Einsen bestehen und die keinen vollen Rang hat.
Der Parametervektor hat somit die folgende Form:
>
(1)
(1)
(2)
(2)
= , 1 , . . . , k1 , 1 , . . . , k2 , 11 , . . . , k1 k2 .
52
Beachte
Die linearen Nebenbedingungen (18) an die Komponenten des Parametervektors bewirken, hnlich wie bei dem in Abschnitt 3.1.2 betrachteten Modell der einfaktoriellen Varianzanalyse, dass die
Darstellung (17) (18) der Erwartungswerte 11 , . . . , k1 k2 eindeutig ist.
Dabei kann
als allgemeines Mittel der Erwartungswerte E Yi1 i2 j der Stichprobenvariablen Yi1 i2 j aufgefasst
werden,
(1)
i1 wird Haupteffekt der i1 -ten Stufe des ersten Einflussfaktors genannt,

(2)
i2 heit Haupteffekt der i2 -ten Stufe des zweiten Einflussfaktors, und

i1 i2 heit Wechselwirkung zwischen den Stufen i1 und i2 der Stufenkombination (i1 , i2 ).
(1)
(2)
Zur Konstruktion von Schtzern fr die Modellparameter , i1 , i2 bzw. i1 i2 verwenden wir die folgende
Notation: Sei
k2 X
k1 X
r
r
r
X
X
X
Yi1 =
Yi1 i2 j ,
Y i2 =
Yi1 i2 j ,
Yi1 i2 =
Yi1 i2 j
(19)
i2 =1 j=1
i1 =1 j=1
j=1
bzw.
Y i1 =
1
Yi ,
rk2 1
Theorem 3.3
E Y = ,
Y i2 =
1
Y i2 ,
rk1
Es gilt
(1)
E Y i1 Y = i1 ,
Y i1 i2 =
1
Yi i ,
r 12
(2)
E Y i2 Y = i2 ,
Y =
k1 X
k2 X
r
X
1
Yi i j
rk1 k2 i =1 i =1 j=1 1 2
1
(20)
E Y + Y i1 i2 Y i1 Y i2 = i1 i2
(21)
fr beliebige i1 = 1, . . . , k1 , i2 = 1, . . . , k2 , d.h., durch Y , Y i1 Y , Y i2 Y und Y + Y i1 i2 Y i1 Y i2

(1)
(2)
sind erwartungstreue Schtzer fr die Modellparameter , i1 , i2 bzw. i1 i2 gegeben .
Beweis
Aus der Definitionsgleichung von Y in (20) ergibt sich, dass

E Y
k1 X
k2 X
k1 X
k2
r
X
1
1 X
E Yi1 i2 j =
i i
rk1 k2 i =1 i =1 j=1
k1 k2 i =1 i =1 1 2
1
1
k1 k2
k1 X
k2
X
(1)
(2)
i1 + i2 + i1 i2 = ,
i1 =1 i2 =1
wobei sich die letzte Gleichheit aus den Reparametrisierungsbedingungen (18) ergibt. Die anderen drei
Teilaussagen in (21) lassen sich auf analoge Weise beweisen.
Beachte
Die Bedingungen (18), d.h. die Annahme, dass der Parametervektor zu einem linearen Unterraum
des R1+k1 +k2 +k1 k2 gehrt, spielen eine wesentliche Rolle im Beweis von Theorem 3.3.
Dabei knnen die Aussagen von Theorem 3.3 als Erwartungstreue der betrachteten Schtzer bezglich
dieses eingeschrnkten Parameterraumes interpretiert werden.
Wenn jedoch zugelassen wird, dass ein beliebiger Vektor der Dimension 1 + k1 + k2 + k1 k2 ist, dann
gibt es keinen KQSchtzer fr , der gleichzeitig erwartungstreu ist, vgl. die Diskussion am Ende von
Abschnitt 3.2.1.
53
Das folgende Resultat enthlt eine Quadratsummenzerlegung, vgl. auch die Theoreme 2.9 und 3.1.
Theorem 3.4
Es gilt
k2 X
k1 X
r
X
2
Yi1 i2 j Y
k1
X
= rk2
i1 =1 i2 =1 j=1
Y i1 Y
+ rk1
i1 =1
+r
k1
X
k2
X
Y i2 Y
i2 =1
k2
X
k1 X
k2 X
r
X
Yi1 i2 j Y i1 i2
i1 =1 i2 =1 j=1
Y i1 i2 Y i1 Y i2 + Y
(22)
i1 =1 i2 =1
Beweis
Mit der in (19) bzw. (20) eingefhrten Notation gilt

k1 X
k2 X
r
2
X
Yi1 i2 j Y
i1 =1 i2 =1 j=1
k1 X
k2 X
r
X

2
Y i1 Y + Y i2 Y + Yi1 i2 j Y i1 i2 + Y i1 i2 Y i1 Y i2 + Y
i1 =1 i2 =1 j=1
k1 X
k2 X
r
X
Y i1 Y
i1 =1 i2 =1 j=1
k1
X
k2
X
r
X
k1 X
k2 X
r
X
Y i2 Y
i1 =1 i2 =1 j=1
k1 X
k2 X
r
X
Yi1 i2 j Y i1 i2
i1 =1 i2 =1 j=1
Y i1 i2 Y i1 Y i2 + Y
+R,
i1 =1 i2 =1 j=1
wobei hnlich wie im Beweis von Theorem 3.1 gezeigt werden kann, dass die Summe R der gemischten
Produkte gleich Null ist.
Beachte
Die Quadratsumme auf der linken Seite von (22) kann als eine Mazahl fr die (Gesamt-) Variabilitt
der Stichprobenvariablen {Yi1 i2 j , i1 = 1, . . . , k1 , i2 = 1, . . . , k2 , j = 1, . . . , r} aufgefasst werden.
Die ersten beiden Quadratsummen auf der rechten Seite von (22) sind Mazahlen fr die Variabilitt
zwischen den Stufen des ersten bzw. zweiten Einflussfaktors, whrend die dritte Quadratsumme auf der
rechten Seite von (22) eine Mazahl fr die Variabilitt innerhalb der Stufenpaare (i1 , i2 ) der beiden
Einflussfaktoren ist, die so genannte Reststreuung.
Die vierte Quadratsumme auf der rechten Seite von (22) ist eine Mazahl fr die Wechselwirkungen
zwischen den Komponenten der Stufenpaare (i1 , i2 ) der beiden Einflussfaktoren.
Mit hnlichen berlegungen wie im Beweis von Theorem 2.5 kann man zeigen, dass eine geeignet
normierte Version der Reststreuung ein erwartungstreuer Schtzer der Varianz 2 der Strgren ist.
Und zwar gilt E S 2 = 2 , wobei
k1 X
k2 X
r
2
X
1
S =
Yi1 i2 j Y i1 i2 .
k1 k2 (r 1) i =1 i =1 j=1
2
3.2
Schtzung der Modellparameter
Wir kehren nun zur Untersuchung des in (1) (3) gegebenen linearen Modells mit allgemeiner Designmatrix X
zurck, wobei wir in diesem Abschnitt annehmen, dass
rg(X) = r < m, d.h., X hat keinen vollen Spaltenrang, und dass
Rm ein beliebiger mdimensionaler Vektor ist, d.h., es werden zunchst keine Nebenbedingungen vom
Typ (12) bzw. (18) betrachtet.

3.2.1
54
KQSchtzer fr
Wir erinnern zunchst an die folgende Rangformel fr quadratische Matrizen.

Lemma 3.2
Sei A eine beliebige n n Matrix. Dann gilt

rg(A) = n dim Ker(A) ,
(23)
wobei Ker(A) = {x Rn : Ax = o} und dim Ker(A) die Dimension von Ker(A) Rn bezeichnet.
Auerdem ist die folgende Eigenschaft des Ranges von Matrixprodukten ntzlich, die sich unmittelbar aus Lemma 3.2 ergibt.
Lemma 3.3 Seien m, n, r N beliebige natrliche Zahlen, und seien A, B beliebige m n bzw. n r Matrizen.
Dann gilt
rg(AB) min{ rg(A), rg(B)} .
(24)
Beachte
Weil wir jetzt annehmen, dass die Designmatrix X keinen
vollen
Rang besitzt, ist die m m Matrix
X> X nicht invertierbar, denn gem Lemma 3.3 gilt rg X> X rg(X) < m.
Die Normalengleichung (2.9), d.h.,
X> X = X> Y ,
(25)
besitzt deshalb keine eindeutig bestimmte Lsung.

Um die Lsungsmenge der Gleichung (25) zu beschreiben, bentigen wir den Begriff der verallgemeinerten inversen Matrix.
Definition
Eine m n Matrix A heit verallgemeinerte Inverse der n m Matrix A, wenn

AA A = A .
(26)
Um zu zeigen, dass es immer eine Lsung A der Definitionsgleichung (26) gibt, benutzen wir die folgende
allgemeine Matrix-Darstellungsformel, die wir hier ohne Beweis angeben.
Lemma 3.4 Sei A eine n m Matrix mit n m und rg(A) = r m. Dann gibt es invertierbare n n bzw.
m m Matrizen P bzw. Q, so dass
Ir 0
I
0
r
Q1 .
PAQ =
bzw.
A = P1
(27)
0 0
0 0
Mit Hilfe von Lemma 3.4 kann man zeigen, wie man zu Lsungen A von (26) gelangen kann.
Seien P und Q Matrizen mit den in Lemma 3.4 betrachteten Eigenschaften, und sei B eine beliebige m n
Matrix mit
Ir R
P,
(28)
B = Q
S T
wobei R, S, T beliebige Matrizen sind mit den Dimensionen r (n r), (m r) r bzw. (m r) (n r).

Dann ergibt sich aus (27) und (28), dass
Ir
ABA = P1
0
Ir
= P1
0
=
0
0
0
Q1 Q
Ir
S
Ir
55
Ir
PP1
S T
0
R
I 0
r
Q1
T
0 0
0
0
Q1
A,
d.h., die in (28) gegebene Matrix B ist eine verallgemeinerte Inverse von A.
Sei k {r, . . . , m} eine beliebige natrliche Zahl. Setzt man nun beispielsweise
Ikr 0
,
R=0
und
S=0
und
T=
0
0
(29)
dann gilt rg(B) = k.
Insgesamt erhalten wir somit das folgende Ergebnis.

Lemma 3.5 Sei A eine n m Matrix mit n m und rg(A) = r m. Auerdem sei B fr jedes k {r, . . . , m}
die in (28) (29) gegebene m n Matrix. Dann gilt rg(B) = k und A = B ist eine Lsung der Gleichung (26).
Auerdem sind die folgenden Eigenschaften der verallgemeinerten Inversen ntzlich.

Lemma 3.6
Sei A eine beliebige n m Matrix mit n m, und sei A> A eine verallgemeinerte Inverse der symmetrischen m m Matrix A> A.
>
Dann ist auch die transponierte Matrix A> A
eine verallgemeinerte Inverse von A> A.
Auerdem gilt
A> A A> A A> = A> .
Beweis
Definitionsgem gilt fr die verallgemeinerte Inverse, dass A> A A> A A> A = A> A.
Hieraus und aus der Symmetrie der Matrix A> A ergibt sich, dass
A> A =
>
> >
> >
A A
= A> A A> A A> A
= A> A A> A
A A,
d.h. die transponierte Matrix
A> A
>
ist ebenfalls eine verallgemeinerte Inverse von A> A.
Um die zweite Teilaussage (30) zu beweisen, betrachten wir die Matrix
B = A> A A> A A> A> .
(30)
56
Dann gilt
BB>
=
=
>
A> A A> A A> A> A> A A> A A> A>
> >
A> A A> A A> A A> A
A A
> >
A> A A> A A> A A> A A> A
A A + A> A
A> A A> A A> A + A> A = 0 .
Hieraus folgt, dass B = 0.
Mit Hilfe der verallgemeinerten Inversen (X> X) von X> X und ihrer (in Lemma 3.6 betrachteten) Eigenschaften
lsst sich die Lsungsmenge der Normalengleichung (25) beschreiben.
Theorem 3.5 Die allgemeine Lsung der Normalengleichung X> X = X> Y hat die Form
= (X> X) X> Y + Im (X> X) X> X z ,
(31)
wobei (X> X) eine beliebige Lsung der Gleichung

X> X(X> X) X> X = X> X
(32)
und z Rm ein beliebiger mdimensionaler Vektor ist.
Beweis
Durch Einsetzen von (31) in die linke Seite der Normalengleichung (25) erkennt man,
dass fr jedes z Rm durch (31) eine Lsung von (25) gegeben ist,
denn es gilt

X> X = X> X (X> X) X> Y + Im (X> X) X> X z
=
X> X(X> X) X> Y = X> Y ,

e bzw. eine beliebige Lsung bzw. eine durch den Ansatz (31) gegebene Lsung von (25).
Sei nun
Dann ergibt sich durch seitenweise Subtraktion von (25), dass
e ) = o .
X> X(
(33)
Fr ein z Rm gilt also

e
=
=
(33)
e (31)
e
( )
= (X> X) X> Y + Im (X> X) X> X z ( )
e + (X> X) X> X(
e )
(X> X) X> Y + Im (X> X) X> X (z ( ))
e .
(X> X) X> Y + Im (X> X) X> X (z ( ))
e ebenfalls eine durch den Ansatz (31) gegebene Lsung von (25) ist.
Hieraus folgt, dass

Beispiel
57
(einfaktorielle Varianzanalyse)
Zur Erinnerung: Im reparametrisierten Modell der einfaktoriellen Varianzanalyse (vgl. Fall 2 des in
Abschnitt 3.1.2 betrachteten Beispiels) ist die Designmatrix gegeben durch die n (k + 1) Matrix
1
1
0
0 ... 0
0
..
..
..
..
..
..
.
.
.
.
.
.
1
1
0
0
.
.
.
0
0
1
0
1
0 ... 0
0
.
..
..
..
..
..
..
.
.
.
.
.
(34)
X=
,
1
0
1
0 ... 0
0
1
0
0
0 ... 0
1
..
..
..
..
..
..
.
.
.
.
.
.
1
0
0
0 ... 0
1
und der Parametervektor ist gegeben durch = (, 1 , . . . , k )> .
Man kann sich leicht berlegen, dass dann
n n1 n2 n3 . . . nk1
0 ...
0
n1 n1 0
>
0
X X = n2 0 n2 0 . . .
.
.
.
.
..
.
..
..
..
.
.
nk 0
0
0 ...
0
nk
..
.
nk
und dass eine verallgemeinerte Inverse von X> X gegeben ist durch
1
0
0 0 ... 0 0
1
1
0 0 ... 0 0
n n1
>
1
1
0
0 ... 0 0
X X =
n
n2
..
..
..
..
..
..
.
.
.
.
.
.
1
1
0
0 0 ... 0
n
nk
(35)
(36)
Die Normalengleichung (25), d.h. X> X = X> Y, besitzt somit die folgende Gestalt:
n +
k
X
ni i = Y ,
ni + ni i = Yi ,
i = 1, . . . , k .
i=1
Wenn wir die Lsungen dieses Gleichungssystems lediglich in dem eingeschrnkten Parameterraum
Rk+1 suchen, wobei
k
n
o
X
= = (, 1 , . . . , k ) :
ni i = 0 ,
(37)
i=1
58
b = (b
,
b1 , . . . ,
bk ) mit
dann ergibt sich die (eindeutig bestimmte) Lsung
b = Y ,
bi = Y i Y ,
i = 1, . . . , k .
(38)
b der Normalengleichung (25)

Man kann sich leicht berlegen, dass die in (38) gegebene Lsung
b = (X> X) X> Y hat, wobei die verallgemeinerte Inverse (X> X) durch (36) gegeben
die Gestalt
ist, und
ein erwartungstreuer Schtzer fr = (, 1 , . . . , k ) bezglich des eingeschrnkten Parameterraumes ist, der die in (37) gegebene Form hat.
Ohne die in (37) betrachtete Nebenbedingung gibt es jedoch keinen KQSchtzer fr , der gleichzeitig
erwartungstreu ist, vgl. Theorem 3.8.
Wir betrachten jetzt erneut das in (1) (3) gegebene lineare Modell mit allgemeiner Designmatrix X. Insbesondere
betrachten wir die in Theorem 3.5 diskutierten Lsungen der Normalengleichung (25) und zeigen, dass fr z = o
der in (2.8) gegebene mittlere quadratische Fehler e() minimiert wird.
Theorem 3.6
funktion
Sei (X> X) eine beliebige verallgemeinerte Inverse von X> X. Dann minimiert die Stichproben = (X> X) X> Y
(39)
den mittleren quadratischen Fehler e(), d.h., ist ein KQSchtzer fr .

Beweis
Fr jeden mdimensionalen Vektor = (1 , . . . , m )> gilt
>
Y X + X( )
n e() = (Y X)> (Y X) = Y X + X( )
>
>

= Y X
Y X + ( )> X> X( ) Y X
Y X = n e ,
weil
>
( )> X> X( ) = X( )
X( ) 0
und
( )> X> Y X = ( )> X> X> X(X> X) X> Y = 0 ,
3.2.2
Erwartungswertvektor und Kovarianzmatrix des KQSchtzers
Aus den Modellannahmen (3) ber die Strgren 1 , . . . , n und aus den allgemeinen Rechenregeln fr den
Erwartungswert bzw. die Kovarianz von reellwertigen Zufallsvariablen ergibt sich, dass Erwartungswertvektor
und Kovarianzmatrix des KQSchtzers = (X> X) X> Y die folgende Form haben.
Theorem 3.7
und
Es gilt
E = (X> X) X> X
(40)
>
Cov = 2 (X> X) X> X (X> X) .
(41)
59
Beweis
Aus Y = X + und E = o ergibt sich, dass
E = E (X> X) X> Y = (X> X) X> E Y = (X> X) X> X .

Auerdem gilt fr beliebige i, j {1, . . . , m}
Cov i , j
= Cov
n
n
X
X
> >
> >
(X X) X i` Y` ,
(X X) X jr Yr
`=1
r=1
n X
n
X
> > > >
=
(X X) X i` (X X) X jr Cov (Y` , Yr )
`=1 r=1
n
X
(X> X) X>
> >
(X X) X j`
i`
`=1
n
X
> > > >
= 2
(X X) X i` X (X X)
`j
`=1
>
= (X> X) X> X (X> X)

.
ij
2
Aus den Theoremen 3.5 und 3.7 ergibt sich mit Hilfe von Lemma 3.3, dass es keinen KQSchtzer fr gibt, der
gleichzeitig erwartungstreu ist. Insbesondere ist der in (39) gegebene KQSchtzer fr nicht erwartungstreu.
Theorem 3.8
Wenn rg(X) < m, dann gibt es keinen erwartungstreuen KQSchtzer fr .
Beweis
Wegen rg(X) < m ergibt sich aus Lemma 3.3, dass auch rg(X> X) < m bzw.
rg (X> X) X> X < m .

Es gibt also ein 6= o mit (X> X) X> X = o, d.h., die Gleichung
(X> X) X> X =
(42)
gilt nicht fr jedes Rm .

Wegen (40) ist somit der in (39) gegebene KQSchtzer fr nicht erwartungstreu.
Weil (42) nicht fr jedes Rm gilt, ergibt sich darber hinaus, dass auch fr jedes beliebige, jedoch
fest vorgegebene z Rm die Gleichung
(X> X) X> X( z) = z
bzw.
(X> X) X> X + Im (X> X) X> X z =
nicht fr jedes Rm gilt.

Wegen Theorem 3.5 bedeutet dies, dass es keinen KQSchtzer fr gibt, der gleichzeitig erwartungstreu ist.

3.2.3
60
Schtzbare Funktionen
In Abschnitt 3.2.2 hatten wir gezeigt, dass es im linearen Modell ohne Nebenbedingungen keinen erwartungstreuen KQSchtzer fr gibt, wenn die Designmatrix X keinen vollen Rang besitzt.
Anstelle des Vektors betrachtet man deshalb eine Klasse von (reellwertigen) linearen Funktionen a> des
Parametervektors , fr die erwartungstreue KQSchtzer konstruiert werden knnen.
Mit anderen Worten: Anstelle der (vektoriellen) Lineartransformation = (X> X) X> Y der Zufallsstichprobe Y = (Y1 , . . . , Yn )> betrachtet man eine Klasse von (reellwertigen) linearen Funktionen c> Y von Y,
die als Schtzer von a> aufgefasst werden.
Dies fhrt zu der folgenden Begriffsbildung.
Definition
Sei a = (a1 , . . . , am )> Rm ein beliebiger mdimensionaler Vektor.
Die lineare Funktion a> des Parametervektors heit erwartungstreu schtzbar bzw. schtzbare
Funktion, wenn es einen ndimensionalen Vektor c = (c1 , . . . , cn )> gibt, so dass
E c> Y = a> ,
Rm .
(43)
Beispiel
Fr das reparametrisierte Modell der einfaktoriellen Varianzanalyse mit dem Parametervektor =

(, 1 , . . . , k )> Rk+1 kann man zeigen, dass beispielsweise 1 2 eine schtzbare Funktion im
Sinne der Definitionsgleichung (43) ist.
Denn mit
a> = (0, 1, 1, 0, . . . , 0)
und
c> = (0, . . . , 0, 1, 1, 0, . . . , 0)
| {z }
n1 1
gilt
E c> Y = E (Y1n1 Y21 ) = ( + 1 ) ( + 2 ) = 1 2 = a>
fr jedes = (, 1 , . . . , k )> Rk+1 .

Auf hnliche Weise kann man zeigen, dass auch + i fr i = 1, . . . , k bzw. i i0 fr i, i0 = 1, . . . , k
mit i 6= i0 schtzbare Funktionen von sind.
Beispiel
(zweifaktorielle Varianzanalyse mit balancierten Teilstichproben)
Fr das in Abschnitt 3.1.3 eingefhrte Modell der zweifaktoriellen Varianzanalyse mit balancierten
Teilstichproben besitzt die Normalengleichung (25) die folgende Gestalt:
rk1 k2 + rk2
k1
X
(1)
i1
+ rk1
(2)
i2
+r
k1 X
k2
X
i1 i2
i1 i2
Yi1
i1 = 1, . . . , k1
i1 i2
Y i2
i2 = 1, . . . , k2
r + ri1 + ri2 + ri1 i2
Yi1 i2
i1 = 1, . . . , k1 , i2 = 1, . . . , k2
i1 =1
rk2 +
k2
X
i2 =1
(1)
rk2 i1
+r
i1 =1 i2 =1
k2
X
(2)
i2
+r
i2 =1
rk1 + r
k1
X
(1)
k2
X
i2 =1
k1
X
(2)
i1 + rk1 i2 + r
i1 =1
i1 =1
(1)
(2)
61
Unter Bercksichtigung der Nebenbedingung (18) ist dieses Gleichungssystem eindeutig lsbar. Mit
anderen Worten: Wenn nur Parametervektoren
>
(1)
(1)
(2)
(2)
= , 1 , . . . , k1 , 1 , . . . , k2 , 11 , . . . , k1 k2
aus dem eingeschrnkten Parameterraum
k1
k2
k1
k2
n
o
X
X
X
X
(1)
(2)
= :
i1 =
i2 =
i1 i2 =
i1 i2 = 0
i1 =1
i2 =1
i1 =1
i2 =1
betrachtet werden, dann ergibt sich die eindeutig bestimmte Lsung
>
(1)
(1)
(2)
(2)
b=
b,
b1 , . . . ,
b k1 ,
b1 , . . . ,
bk2 ,
b11 , . . . ,
bk1 k2
(44)
der Normalengleichung, wobei
b = Y ,
(1)
bi1 = Y i1 Y ,
(2)
bi2 = Y i2 Y ,
bi1 i2 = Y + Y i1 i2 Y i1 Y i2
(45)
fr beliebige i1 = 1, . . . , k1 , i2 = 1, . . . , k2 .
b der Normalengleichung die Gestalt
Man kann zeigen, dass die in (44) (45) gegebene Lsung
b = (X> X) X> Y
hat, wobei (X> X) eine verallgemeinerte Inverse von X> X und X die Designmatrix des zweifaktoriellen Varianzanalyse-Modells mit balancierten Teilstichproben ist.
b wurde bereits in Theorem 3.3 diskutiert,
Beachte: Die in (44) (45) gegebene Stichprobenfunktion
b
wobei gezeigt wurde, dass ein erwartungstreuer Schtzer fr bezglich des eingeschrnkten Parameterraumes ist.
(1)
(2)
Auerdem kann man zeigen, dass die linearen Funktionen + i1 + i2 + i1 i2 des Parametervektors fr beliebige i1 = 1, . . . , k1 , i2 = 1, . . . , k2 im Sinne der Definitionsgleichung (43) (d.h. ohne
Bercksichtigung der Nebenbedingungen (18)) erwartungstreu schtzbar sind.
Im Modell der zweifaktoriellen Varianzanalyse ohne Wechselwirkungen, d.h. i1 i2 = 0 fr beliebige
(1)
(1)
i1 = 1, . . . , k1 , i2 = 1, . . . , k2 , sind auch i1 i0 fr beliebige i1 , i01 = 1, . . . , k1 mit i1 6= i01 bzw.
(2)
(2)
i2 i0 fr beliebige i2 , i02 = 1, . . . , k2 mit i2 6= i02 erwartungstreu schtzbar.

2
Das folgende Hilfsergebnis, das eine Ergnzung von Lemma 3.6 ist, bentigen wir, um zwei allgemeine Kriterien
fr die erwartungstreue Schtzbarkeit von linearen Funktionen a> des Parametervektors herzuleiten.
Lemma 3.7
Sei X> X eine verallgemeinerte Inverse von X> X. Dann gilt

X(X> X) X> X = X .
Beweis
(46)
In Lemma 3.6 hatten wir gezeigt, dass
>
die transponierte Matrix X> X
ebenfalls eine verallgemeinerte Inverse von X> X ist und dass
X> X X> X X> = X> .
> >
X = X> .
Damit gilt auch X> X X> X
Hieraus ergibt sich (46) durch Vertauschen von Spalten und Zeilen.
Theorem 3.9 Sei a = (a1 , . . . , am )> Rm ein beliebiger Vektor. Die lineare Funktion a> des Parametervektors ist genau dann erwartungstreu schtzbar, wenn eine der folgenden beiden Bedingungen erfllt ist:

1. Es gibt ein c Rn , so dass
62
a> = c> X .
(47)
2. Der Vektor a gengt dem folgenden Gleichungssystem:

a> (X> X) X> X = a> .
(48)
Beweis
Sei a> eine schtzbare Funktion des Parametervektors .
Dann ergibt sich aus (43), dass fr jedes Rm
a> = E c> Y = c> E Y = c> X
bzw.
c > X a> = 0 .
Hieraus folgt, dass a> = c> X.

Umgekehrt sei c ein Vektor, der der Bedingung (47) gengt.
Hieraus folgt, dass
E c> Y = c> E Y = c> X = a> ,
Rm .
Damit ist auch die Hinlnglichkeit der Bedingung (47) bewiesen.

Um die Notwendigkeit der Bedingung (48) zu zeigen, benutzen wir das Ergebnis von Lemma 3.7.
Sei a> eine schtzbare Funktion des Parametervektors .
Dann ergibt sich aus (47) und (46), dass
a> (X> X) X> X = c> X(X> X) X> X = c> X = a> .
Um die Hinlnglichkeit der Bedingung (48) zu zeigen, gengt es zu beachten,
dass sich aus (48) die Gltigkeit von a> = c> X fr c> = a> (X> X) X> ergibt.
Die erwartungstreue Schtzbarkeit von a> ergibt sich nun aus der ersten Teilaussage.
Beachte
Wenn die Designmatrix X vollen Rang hat, d.h. (X> X) = (X> X)1 , dann ist die Bedingung (48)
offenbar fr jedes a Rm erfllt.
In diesem Fall ist somit jede lineare Funktion des Parametervektors erwartungstreu schtzbar, was
bereits in Theorem 2.2 gezeigt wurde.
Fr den Fall, dass die Designmatrix X = (xij ) keinen vollen Rang hat, zeigen wir,
wie sich aus der zweiten Teilaussage von Theorem 3.9 die Schtzbarkeit der folgenden linearen Funktionen
a> von ergibt.
Der (Gewichts-) Vektor c des linearen erwartungstreuen Schtzers c> Y fr a> kann dabei jeweils so wie
im Beweis von Theorem 3.9 gewhlt werden, d.h.,
c> = a> (X> X) X> .
Theorem 3.10
(49)
Die folgenden linearen Funktionen des Parametervektors sind erwartungstreu schtzbar:
1. die Komponenten
Pm
j=1
x1j j , . . . ,
Pm
j=1
xnj j des Erwartungswertvektors E Y = X,
63
2. jede lineare Funktion von schtzbaren Funktionen,

0
0 >
3. die Komponenten 10 , . . . , m
des so genannten projizierten Parametervektors 0 = (10 , . . . , m
) , wobei
0 = (X> X) X> X .
(50)
Beweis
Sei ai = (xi1 , . . . , xim )> fr jedes i {1, . . . , n}. Dann gilt
a>
1
.. > >
. (X X) X X = X(X> X) X> X = X =
a>
n
a>
1
..
.
a>
n
wobei sich die vorletzte

Gleichheit ausPLemma 3.7 ergibt. Aus Theorem 3.9 folgt nun, dass jede der
Pm
m
Linearkombinationen j=1 x1j j , . . . , j=1 xnj j eine schtzbare Funktion ist.
>
Um die zweite Teilaussage zu beweisen, betrachten wir eine beliebige (endliche) Familie a>
1 , . . . , as
>
von s schtzbaren Funktionen, die wir in der Form A darstellen, wobei A = a1 , . . . , as
eine
s mdimensionale Matrix und s N eine beliebige natrliche Zahl ist.
A(X> X) X> X = A .
Fr jeden sdimensionalen Vektor b = (b1 , . . . , bs )> Rs gilt damit auch

b> A(X> X) X> X = b> A .
Hieraus ergibt sich mit Hilfe von Theorem 3.9, dass die lineare Funktion b> A der schtzbaren
Funktionen A selbst eine schtzbare Funktion ist.
In der dritten Teilaussage wird die Familie A von linearen Funktionen des Parametervektors betrachtet, wobei die m m Matrix A gegeben ist durch A = (X> X) X> X.
Hieraus folgt, dass
A(X> X) X> X = (X> X) X> X(X> X) X> X = (X> X) X> X = A ,
wobei sich die vorletzte Gleichheit aus der Definitionsgleichung (26) der verallgemeinerten Inversen
ergibt.
0
Aus Theorem 3.9 folgt nun, dass die Komponenten 10 , . . . , m
des projizierten Parametervektors
0 = A = (X> X) X> X
schtzbare Funktionen sind.
3.2.4
Beste lineare erwartungstreue Schtzer; GauMarkowTheorem
In diesem Abschnitt zeigen wir, wie BLUESchtzer fr schtzbare Funktionen des Parametervektors
konstruiert werden knnen.
Zur Erinnerung: Ein linearer erwartungstreuer Schtzer wird BLUESchtzer genannt, wenn es keinen
linearen erwartungstreuen Schtzer gibt, dessen Varianz kleiner ist (BLUE = best linear unbiased estimator).
In der Theorie linearer Modelle wird das folgende Resultat das GauMarkowTheorem genannt.
64
Theorem 3.11
Sei a> eine schtzbare Funktion des Parametervektors , sei (X> X) eine beliebige verallgemeinerte
Inverse der m m Matrix X> X, und sei = (X> X) X> Y.
Dann ist a> ein BLUESchtzer fr a> , wobei
Var a> = 2 a> (X> X) a .
(51)
Beweis
Wir zeigen zuerst, dass a> ein linearer erwartungstreuer Schtzer fr a> ist.
Es ist klar, dass
a> = a> (X> X) X> Y
eine lineare Funktion der Zufallsstichprobe Y = (Y1 , . . . , Yn ) ist.

Weil vorausgesetzt wird, dass a> eine schtzbare Funktion des Parametervektors ist, folgt aus
Theorem 3.9, dass es ein c Rn gibt, so dass
a> = c> X .
(52)
Somit gilt fr jedes Rm , dass
E a> = c> XE = c> X(X> X) X> E Y = c> X(X> X) X> X = c> X = a> ,
wobei sich die vorletzte Gleichheit aus Lemma 3.7 ergibt.
Damit ist gezeigt, dass a> ein linearer erwartungstreuer Schtzer fr a> ist.
Aus den Rechenregeln fr die Varianz (vgl. Theorem WR-4.13) ergibt sich, dass
m
m X
m
X
X
Var a> = Var

ai i =
ai aj Cov ( i , j ) .
i=1
i=1 j=1
Auerdem hatten wir in Theorem 3.7 gezeigt, dass
>
Cov ( i , j ) = 2 (X> X) X> X (X> X)
.
ij
Hieraus folgt, dass
Var a>
m X
m
X
>
ai aj (X> X) X> X (X> X)
ij
i=1 j=1
>
a (X> X) X> X (X> X) a
>
2 a> (X> X) X> X (X> X) X> c
2 a> (X> X) X> c ,
2 >
wobei sich die vorletzte Gleichheit aus (52) und die letzte Gleichheit aus Lemma 3.6 ergibt.
Die erneute Anwendung von (52) liefert die Varianzformel (51).
Es ist noch zu zeigen, dass der Schtzer a> die kleinste Varianz in der Klasse aller linearen erwartungstreuen Schtzer fr a> hat.
Sei b Rn , so dass b> Y ein linearer erwartungstreuer Schtzer fr a> ist. Dann gilt
a> = E b> Y = b> X

Rm
und somit auch
b > X = a> .
(53)
65
Fr die Kovarianz von a> und b> Y gilt
Cov a> , b> Y = Cov a> (X> X) X> Y, b> Y = 2 a> (X> X) X> b = 2 a> (X> X) a ,
wobei sich die letzte Gleichheit aus (53) ergibt.
Hieraus und aus der Varianzformel (51) folgt, dass
0 Var a> b> Y = Var a> + Var b> Y 2 Cov a> , b> Y
= 2 a> (X> X) a + Var b> Y 2 2 a> (X> X) a
= Var b> Y 2 a> (X> X) a = Var b> Y Var a> .
Beachte
Im Beweis von Theorem 3.11 wurde nirgendwo explizit genutzt, dass rg(X) < m.
Mit anderen Worten: Wenn die Designmatrix X vollen Rang hat, d.h. rg(X) = m, dann ist a> fr
b = a> (X> X)1 X> Y ist
jeden mdimensionalen Vektor a> Rm erwartungstreu schtzbar, und a>
>
ein BLUESchtzer fr a .
Aus der folgenden Invarianzeigenschaft der verallgemeinerten Inversen (X> X) von X> X ergibt sich, dass der
in Theorem 3.11 betrachtete BLUESchtzer a> nicht von der spezifischen Wahl von (X> X) abhngt.
Lemma 3.8
Seien A und A0 beliebige verallgemeinerte Inverse der Matrix X> X. Dann gilt
XAX> = XA0 X> .
(54)
Beweis
In Lemma 3.7 hatten wir gezeigt, dass
XAX> X = X = XA0 X> X
(55)
fr beliebige verallgemeinerte Inverse A und A0 der Matrix X> X.

Wenn diese Gleichungskette von rechts mit AX> multipliziert wird, dann ergibt sich
XAX> XAX> = XA0 X> XAX> .
(56)
Aus (55) ergibt sich fr die linke Seite der letzten Gleichheit, dass XAX> XAX> = XAX> .
Auerdem hatten wir in Lemma 3.6 gezeigt, dass X> XAX> = X> fr jede verallgemeinerte Inverse
A von X> X gilt.
Wenn dies in die rechte Seite von (56) eingesetzt wird, dann ergibt sich (54).
Mit Hilfe von Lemma 3.8 kann nun die oben erwhnte Invarianzeigenschaft des in Theorem 3.11 betrachteten
BLUESchtzers a> bewiesen werden.
Theorem 3.12 Sei a> eine schtzbare Funktion des Parametervektors . Dann hngt der BLUESchtzer
a> = a> (X> X) X> Y nicht von der Wahl der verallgemeinerten Inversen (X> X) ab.
Beweis
66
Zur Erinnerung: Fr jede schtzbare Funktion a> von ergibt sich aus Theorem 3.9, dass a> = c> X
fr ein c Rn .
Hieraus und aus Lemma 3.8 folgt, dass
a> = a> (X> X) X> Y = c> X(X> X) X> Y
nicht von der Wahl der verallgemeinerten Inversen (X> X) abhngt.
Beispiel
Fr das reparametrisierte Modell der einfaktoriellen Varianzanalyse sind + i fr i = 1, . . . , k bzw.

i i0 fr i, i0 = 1, . . . , k mit i 6= i0 schtzbare Funktionen von , vgl. Theorem 3.10.
b+
bi bzw.
bi
bi0 BLUESchtzer fr + i bzw. i i0 sind,
wobei
= (X> X) X> Y = (b
,
b1 , . . . ,
bk )>
mit
b = Y bzw.
bi = Y i Y die Lsung der Normalengleichung (25) ist, die bereits in Abschnitt 3.2.1
betrachtet wurde.
Beispiel
(zweifaktorielle Varianzanalyse mit balancierten Teilstichproben)
Fr das in Abschnitt 3.1.3 eingefhrte balancierte Modell der zweifaktoriellen Varianzanalyse mit ba(1)
(2)
lancierten Teilstichproben sind die linearen Funktionen + i1 + i2 + i1 i2 des Parametervektors
(1)
(1)
(2)
(2)
= , 1 , . . . , k1 , 1 , . . . , k2 , 11 , . . . , k1 k2 fr beliebige i1 = 1, . . . , k1 , i2 = 1, . . . , k2 erwartungstreu schtzbar, vgl. Theorem 3.10.
(1)
(2)
(1)
(2)

b+
b i1 +
b i2 +
bi1 i2 ein BLUESchtzer fr + i1 + i2 + i1 i2
ist, wobei
(2)
(1)
(2)
(1)
bk2 ,
b11 , . . . ,
bk1 k2
bk1 ,
b1 , . . . ,
= (X> X) X> Y =
b,
b1 , . . . ,
mit
b = Y ,
(1)
bi1 = Y i1 Y ,
(2)
bi2 = Y i2 Y ,
bi1 i2 = Y + Y i1 i2 Y i1 Y i2
die bereits in Abschnitt 3.2.3 betrachtete Lsung der Normalengleichung (25) ist.
Darber hinaus ergibt sich aus Theorem 3.10, dass im Modell der zweifaktoriellen Varianzanalyse ohne
(1)
(1)
Wechselwirkungen, d.h. i1 i2 = 0 fr beliebige i1 = 1, . . . , k1 , i2 = 1, . . . , k2 , auch i1 i0 fr
(2)
(2)
beliebige i1 , i01 = 1, . . . , k1 mit i1 6= i01 bzw. i2 i0 fr beliebige i2 , i02 = 1, . . . , k2 mit i2 6= i02

2
erwartungstreu schtzbar sind.
(1)
(1)
(2)
(2)
(1)
(1)
Aus Theorem 3.11 folgt somit, dass

bi1
bi0 bzw.
bi2
bi0 BLUESchtzer fr i1 i0 bzw.
(2)
(2)
i2 i0 sind.
2
3.3
Normalverteilte Strgren
Zustzlich zu den Modellannahmen, die am Anfang von Kapitel 3 formuliert worden sind, setzen wir jetzt erneut voraus, dass n > m und dass die zuflligen Strgren 1 , . . . , n : R unabhngig und (identisch)
normalverteilt sind, d.h. insbesondere, dass i N(0, 2 ) fr jedes i = 1, . . . , n.

3.3.1
67
MaximumLikelihoodSchtzer
Genauso wie im Fall von Designmatrizen mit vollem Spaltenrang, der in Abschnitt 2.2.1 diskutiert wurde,
ergibt sich aus Theorem 1.3, dass der Vektor Y = X + der Zielvariablen normalverteilt ist mit
Y N(X, 2 I) .
Mit anderen Worten: Der Zufallsvektor Y ist absolutstetig mit der Dichte
1 n
fY (y) =
exp 2 (y X)> (y X)
2
2
(57)
(58)
fr jedes y = (y1 , . . . , yn )> Rn .

Die Loglikelihood-Funktion log L(y; , 2 ) = log fY (y) hat somit die Gestalt
log L(y; , 2 ) =
n
n
1
log(2)
log( 2 )
|y X|2 .
2
2
2 2
(59)
Um einen MaximumLikelihoodSchtzer fr den Parametervektor (, 2 ) zu bestimmen, betrachten wir

zunchst (genauso wie im Beweis von Theorem 2.6) fr beliebige, jedoch fest vorgegebene y Rn und
2 > 0 die Abbildung
Rm 3 7 log L(y; , 2 ) .
(60)
Aus (59) und (60) ergibt sich, dass dabei der folgende Ausdruck e() minimiert werden muss, wobei
e() =
1
1
|y X|2 = (y X)> (y X) .
n
n
Aus Theorem 3.6 folgt somit, dass der KQSchtzer = (X> X) X> Y gleichzeitig ein MLSchtzer fr
ist (der nicht von 2 abhngt).
Auerdem ergibt sich genauso wie im Beweis von Theorem 2.6, dass durch (, 2 ) ein MLSchtzer fr
(, 2 ) gegeben ist, wobei
= (X> X) X> Y
und
2 =
>
1
Y X
Y X .
n
(61)
Beachte
In Abschnitt 3.2.2 hatten wir gezeigt, dass im allgemeinen kein erwartungstreuer Schtzer fr ist.
Ebenso ist 2 kein erwartungstreuer Schtzer fr 2 , wobei sich jedoch durch eine einfache Modifikation
von 2 ein erwartungstreuer Schtzer fr 2 ergibt.
Um dies zu zeigen, sind die folgenden Eigenschaften der Matrix
G = I X(X> X) X>
(62)
ntzlich, die als Verallgemeinerung der entsprechenden Matrix-Eigenschaften aufgefasst werden knnen,
die in Lemma 2.1 bzw. in Lemma 2.2 fr den Fall von Designmatrizen X mit vollem Spaltenrang
hergeleitet worden sind.
Lemma 3.9
Sei rg(X) = r m. Fr die in (62) gegebene Matrix G gilt dann:
1) G ist idempotent und symmetrisch,

2) GX = 0 und
3)
sp(G) = rg(G) = n r.
68
Beweis
Aus Lemma 3.6 ergibt sich, dass
G2 = I X(X> X) X> I X(X> X) X>

=
I 2X(X> X) X> + X(X> X) X> X(X> X) X>

|
{z
}
=X>
>
>
>
>
I 2X(X X) X + X(X X) X = G .
>
In Lemma 3.6 hatten wir gezeigt, dass (X> X)
eine verallgemeinerte Inverse von X> X ist. Somit
ergibt sich aus Lemma 3.8, dass
>
>
G> = I X(X> X) X> = I X (X> X) X> = I X(X> X) X> = G .
Damit ist die erste Teilaussage bewiesen. Um die zweite Teilaussage zu beweisen, gengt es zu beachten,
dass
GX = I X(X> X) X> X = X X(X> X) X> X = X X = 0 ,

wobei sich die vorletzte Gleichheit aus Lemma 3.7 ergibt.
Die dritte Teilaussage lsst sich wie folgt zeigen:
Aus Lemma 3.3 und aus Lemma 3.7 ergibt sich, dass
r = rg(X) = rg X(X> X) X> X rg X(X> X) X> rg(X) = r ,

d.h.,
rg X(X> X) X> = r .
>
(63)
>
Aus Lemma 3.6 ergibt sich, dass die Matrix X(X X) X idempotent ist, denn es gilt
X(X> X) X> X(X> X) X> = X(X> X) X> X(X> X) X> = X(X> X) X> .
|
{z
}
=X>
Weil X(X> X) X> auerdem symmetrisch ist, folgt aus Lemma 1.3 mit Hilfe von (63), dass
sp(G) = sp In X(X> X) X>
= sp(In ) sp X(X> X) X>
= n rg X(X> X) X> = n r .
Aus Lemma 3.9 ergibt sich nun eine Formel fr den Erwartungswert des in (61) betrachteten MLSchtzers 2 .
Theorem 3.13
Es gilt
nr 2
.
(64)
n
>
Beweis Fr den in (61) betrachteten MLSchtzer 2 = Y X

Y X /n ergibt sich mit den in
Lemma 3.9 hergeleiteten Eigenschaften der Matrix G = I X(X> X) X> , dass
>
1
E Y X
E 2 =
Y X
n
>

1 >
=
E Y I X(X> X) X>
I X(X> X) X> Y
n
1
1
1 > >
E Y G GY = E |GY|2 = E |G(X + )|2
=
n
n
n
1
1 > >
1 >
2
=
E |G| = E G G = E G
n
n
n
2
nr 2
=
sp(G) =
.
n
n
E 2 =

Beachte
69
Mit der Schreibweise

S2 =
>
1
Y X
Y X
nr
bzw.
S2 =
1
> G
nr
(65)
ergibt sich aus Theorem 3.13, dass E S 2 = 2 , d.h., S 2 ist ein erwartungstreuer Schtzer fr 2 .
Um die Verteilungen der Schtzer bzw. S 2 bestimmen zu knnen, bentigen wir den Begriff der singulren
multivariaten Normalverteilung, vgl. Abschnitt 1.2.5.
Theorem 3.14
Sei rg(X) = r m. Dann gilt
>
N (X> X) X> X, 2 (X> X) X> X (X> X)
(66)
(n r)S 2
2nr ,
2
(67)
und
wobei die Zufallsvariablen und S 2 unabhngig sind.

Beweis
Fr den in (61) gegebenen Schtzer gilt
= (X> X) X> Y = (X> X) X> X + = + B ,

wobei
= (X> X) X> X ,
B = (X> X) X> ,
N(o, 2 In ) .
Aus der Definition der (singulren) multivariaten Normalverteilung ergibt sich nun, dass N(, K),
wobei
>
K = 2 BB> = 2 (X> X) X> X (X> X) .
Damit ist (66) bewiesen. Um die Gltigkeit von (67) zu zeigen, nutzen wir die im Beweis von Theorem 3.13 hergeleitete Identitt
S2 =
1
> G ,
nr
wobei G = I X(X> X) X> .
(68)
Weil N(o, 2 In ) und weil wir in Lemma 3.9 gezeigt hatten, dass
die Matrix G idempotent und symmetrisch ist
mit rg(G) = n r,
ergibt sich aus Theorem 1.9, dass die quadratische Form (n r)S 2 / 2 eine (zentrale) 2 Verteilung
mit n r Freiheitsgraden hat, d.h., (n r)S 2 / 2 2nr .
Weil jede idempotente und symmetrische Matrix gleichzeitig auch nichtnegativ definit ist und weil
wegen Lemma 3.6
BG = (X> X) X> I X(X> X) X> = (X> X) X> (X> X) X> X(X> X) X> = 0 ,
|
{z
}
=X>
ergibt sich aus Theorem 1.10, dass die Zufallsvariablen B und > G unabhngig sind. Damit sind
auch die Zufallsvariablen und S 2 unabhngig.

3.3.2
70
Tests linearer Hypothesen
In diesem Abschnitt diskutieren wir eine verallgemeinerte Version des Tests fr Linearformen von , den wir in
Abschnitt 2.2.3 fr den Fall von Designmatrizen X mit vollem Spaltenrang betrachtet hatten, vgl. Theorem 2.11.
Jetzt nehmen wir dagegen an, dass rg(X) = r < m.
Sei s {1, . . . , m}, sei H eine s m Matrix mit vollem Rang rg(H) = s, und sei d Rs .
Getestet werden soll die Hypothese
H0 : H = d
versus
H1 : H 6= d ,
(69)
wobei angenommen wird, dass die Eintragungen der Matrix H = (h1 , . . . , hs )> und die Komponenten des
Vektors d = (d1 , . . . , ds )> bekannt sind.
Zur Verifizierung der in (69) betrachteten Nullhypothese H0 : H = d wird (hnlich wie in Theorem 2.11)
eine Testgre konstruiert, deren Verteilung nicht von dem unbekannten Parametervektor (, 2 ) abhngt.
Hierfr wird der folgende Begriff eingefhrt, wobei vorausgesetzt wird , dass die Komponenten des Vektors
H erwartungstreu schtzbar sind.
>
Definition Die Hypothese H0 : H = d heit testbar, wenn smtliche Komponenten h>
1 , . . . , hs des Vektors
H schtzbare Funktionen des Parametervektors sind.
Beachte
Aus Theorem 3.9 folgt, dass die Hypothese H0 : H = d genau dann testbar ist, wenn
es eine s n Matrix C gibt, so dass

H = CX ,
(70)
bzw.
die Matrix H der folgenden Gleichung gengt:
H(X> X) X> X = H .
(71)
Bei der Konstruktion einer Testgre zur Verifizierung der in (69) betrachteten Nullhypothese H0 : H = d ist
der folgende Hilfssatz ntzlich.
Lemma 3.10
Sei s m, sei H eine s m Matrix mit vollem Rang rg(H) = s, die der Gleichung (70) bzw. (71) gengt,
und sei (X> X) eine beliebige verallgemeinerte Inverse von X> X.
Dann ist die s s Matrix H(X> X) H> positiv definit (und damit invertierbar).
Beweis
Man kann zeigen, dass die symmetrische m m Matrix X> X mit rg(X> X) = r < m dargestellt
werden kann in der Form:
I
0
r
P1 ,
X> X = P1
0 0
wobei die m m Matrix P invertierbar und symmetrisch ist; vgl. auch die Aussage von Lemma 3.4.
71
Im Beweis von Lemma 3.5 hatten wir gezeigt, dass dann durch
Ir
0
P = PP
P
0 Imr
eine verallgemeinerte Inverse von X> X gegeben ist, die offenbar positiv definit ist.
Aus Lemma 1.8 folgt nun, dass auch die Matrix HPPH> positiv definit ist.
Hieraus folgt, dass H(X> X) H> auch fr jede beliebige verallgemeinerte Inverse (X> X) von X> X
positiv definit ist, denn aus (70) ergibt sich, dass
H(X> X) H> = CX(X> X) X> C> = CXPPX> C> = HPPH> ,
wobei sich die zweite Gleichheit aus Lemma 3.8 ergibt.
Beachte
Aus Lemma 3.10 ergibt sich, dass die Testgre TH mit
>
1
H d
H(X> X) H>
H d
TH =
sS 2
(72)
wohldefiniert ist, wobei und S 2 die in (61) bzw. (65) gegebenen Schtzer fr bzw. 2 sind.
Diese Testgre ist eine Verallgemeinerung der entsprechenden Testgre TH , die in Abschnitt 2.2.3
fr Designmatrizen mit vollem Rang betrachtet wurde. Die Verteilung der in (72) gegebenen Testgre
TH lsst sich wie folgt bestimmen.
Theorem 3.15 Die Hypothese H0 : H = d sei testbar. Unter H0 : H = d gilt dann TH Fs,nr , d.h., die
in (72) gegebene Testgre TH ist F-verteilt mit (s, n r) Freiheitsgraden.
Beweis
Unter H0 : H = d gilt:
Aus der Definitionsgleichung (61) von ergibt sich, dass
H d = H(X> X) X> Y d = H (X> X) X> X + d = + B ,

wobei
= H(X> X) X> X d = C X(X> X) X> X d = H d = o

{z
}
|
=X
und B = H(X> X) X> bzw. N(o, 2 In ).
>
1
Fr den Zhler Z = H d
H(X> X) H>
H d der in (72) gegebenen Testgre TH gilt
somit
1
Z = > B> H(X> X) H>
B
1

>
> >
>
H(X> X) X>
H(X> X) H>
= H(X X) X
= > A ,
1
wobei die Matrix A = X(X> X) H> H(X> X) H>
H(X> X) X> idempotent ist, denn wegen
(71) gilt
1
A2 = X(X> X) H> H(X> X) H>
1
H(X> X) X>
H(X> X) X> X(X> X) H> H(X> X) H>
|
{z
}
=H
H(X> X) X> = A .
X(X X) H> H(X> X) H>
>
72
Weil A auch symmetrisch ist mit rg(A) = s, ergibt sich aus Theorem 1.9, dass die quadratische
Form Z/ 2 eine 2 Verteilung mit s Freiheitsgraden hat.
In Theorem 3.14 wurde auerdem gezeigt, dass (n r)S 2 / 2 2nr und dass die Zufallsvariablen
und S 2 unabhngig sind.
Damit sind auch die Zufallsvariablen Z und S 2 unabhngig, und es gilt
TH =
Z/s 2
Fs,nr .
S 2 / 2
Beachte
Die Wahl der Testgre TH in (72) kann wie folgt motiviert werden: hnlich wie im Beweis von
Theorem 3.15 ergibt sich aus Theorem 1.9, dass die quadratische Form Z/ 2 mit
>
1
Z = H d
H d
H(X> X) H>
im allgemeinen (d.h., ohne die Gltigkeit von H0 : H = d vorauszusetzen) eine nichtzentrale 2
Verteilung 2s, hat mit
>
1
H d
H(X> X) H>
H d
=
.
2
Hieraus folgt, dass
E
Z
2
tZ
d
E exp 2
= s + ,
dt
t=0
wobei sich die letzte Gleichheit aus der Formel fr die momenterzeugende Funktion der 2s, Verteilung
ergibt, die im Beweis von Theorem 1.8 hergeleitet wurde.
Mit anderen Worten: Es gilt
E
Z
s
= 2 +
>
1
H d
H(X> X) H>
H d
,
s
(73)
und aus Theorem 3.13 ergibt sich, dass E (S 2 ) = 2 .

Unter der Nullhypothese H0 : H = d sind somit die Erwartungswerte von Zhler und Nenner
der Testgre TH gleich.
1
Andererseits ergibt sich aus Lemma 1.8 und Lemma 3.10, dass die inverse Matrix H(X> X) H>
positiv definit ist und dass somit
>
1
H d
H(X> X) H>
H d > 0 ,
wenn die Hypothese H0 : H = d falsch ist. Aus (73) folgt dann in diesem Fall, dass
E
Z
s
> 2 = E (S 2 ) .
(74)
Allgemein gilt (wegen der Unabhngigkeit von Z und S 2 ), dass E TH = E Z/s E (1/S 2 ), und aus der
Jensen-Ungleichung folgt, dass E (1/S 2 ) > 1/E (S 2 ).
Aus (74) ergibt sich somit, dass
E
E TH >
wenn H0 falsch ist.
s > 1,
E (S 2 )
73
Es liegt deshalb nahe, die Nullhypothese H0 : H = d abzulehnen, wenn die Testgre TH Werte
annimmt, die signifikant grer als 1 sind.
Wegen der in Theorem 3.15 hergeleiteten Verteilungseigenschaft der Testgre TH wird somit H0
abgelehnt, wenn TH > Fs,nr,1 .
In manchen Fllen ist es zweckmiger, eine alternative Darstellung der in (72) gegebenen Testgre TH zu
betrachten. Hierfr definieren wir die folgenden beiden Summen von quadratischen Abweichungen SSE bzw.
SSEH (Sums of Squared Errors) mit
SSE = (Y X)> (Y X) ,
und
SSEH = (Y X H )> (Y X H ) ,
Theorem 3.16
= (X> X) X> Y
1
H = (X> X) H> H(X> X) H>
H d .
(75)
(76)
Fr die in (72) gegebene Testgre TH gilt

TH =
(SSEH SSE)/s
.
SSE/(n r)
(77)
Beweis
Es gilt
SSEH
(Y X H )> (Y X H )
>
Y X + X( H )
Y X + X( H )
(Y X)> (Y X) + ( H )> X> X( H ) ,
weil sich aus den Teilaussagen 1 und 2 von Lemma 3.9 ergibt, dass
>
X> (Y X) = X> I X(X> X) X> Y = X
| {zG} Y = o .
=0
Aus (70), d.h. H = CX, und aus Lemma 3.6 und 3.7 ergibt sich somit, dass
SSEH
(Y X)> (Y X)
>
1 > > >
+ H d
H(X> X) H>
H (X X)
X X(X> X) H>
|
{z
}
=H(X> X) H>
H(X> X) H>
H d
>
1
SSE + H d
H(X> X) H>
H d .
Beachte
Aus der Definitionsgleichung (76) von H ergibt sich, dass
H H = H (X> X) H> H(X> X) H>

H d = d ,
d.h., der
Zufallsvektor H nimmt nur Werte in dem eingeschrnkten Parameterraum
in (76) gegebene
H = Rm : H = d an.
Auerdem kann man leicht zeigen, dass H den mittleren quadratischen Fehler e() fr alle H
minimiert, wobei
n
2
1 X
e() =
Yi (1 xi1 + 2 xi2 + . . . + m xim ) .
n i=1

3.3.3
74
Konfidenzbereiche
Bei der Konstruktion von Konfidenzbereichen gehen wir hnlich wie in Abschnitt 2.2.4 vor, wo der Fall
betrachtet wurde, dass die Designmatrix X vollen Rang rg(X) = m hat. Dabei nehmen wir jetzt allerdings
so wie in Abschnitt 3.3.2 an, dass rg(X) = r < m.
Sei s {1, . . . , m}, und H sei eine s m Matrix mit vollem Rang rg(H) = s, deren Eintragungen bekannt
seien, wobei H = (h1 , . . . , hs )> .
Dann ergibt sich unmittelbar aus Theorem 3.15 der folgende Konfidenzbereich fr den Vektor H zum
Niveau 1 (0, 1).
>
Theorem 3.17 Smtliche Komponenten h>
1 , . . . , hs des Vektors H seien schtzbare Funktionen von .
Dann ist der (zufllige) Ellipsoid
>
1
n
o
H d
H(X> X) H>
H d
E = d Rs :
Fs,nr,1
(78)
2
sS
ein Konfidenzbereich fr H zum Niveau 1 (0, 1), wobei und S 2 die in (61) bzw. (65) gegebenen Schtzer
fr bzw. 2 sind.
Aus Theorem 3.17 ergibt sich insbesondere das folgende Resultat.
Korollar 3.1
Fr jedes i {1, . . . , s} ist durch

q
q
>
>
>
h>
h>
(, ) = h>
i tnr,1/2 S
i (X X) hi , hi + tnr,1/2 S
i (X X) hi
(79)
ein Konfidenzintervall (, ) fr h>

i zum Niveau 1 (0, 1) gegeben.
Beispiel
Wir betrachten das folgende lineare Modell, vgl. N. Ravishanker und D.K. Dey (2002) A First Course
in Linear Model Theory, Chapman & Hall/CRC, S. 235:
Y1
1 1 0
1
1
Y2 = 1 0 1 2 + 2 ,
Y3
1 1 0
3
3
wobei = (1 , 2 , 3 )> N(o, 2 I).
Mit Hilfe von Korollar 3.1 soll ein Konfidenzintervall fr 1 + 2 /3 + 23 /3 zum Niveau 1 = 0.95
bestimmt werden.
Weil rg(X) = 2 < m = 3, muss zunchst geprft werden, ob
h> = 1 + 2 /3 + 23 /3
(80)
mit h> = (1, 1/3, 2/3) eine erwartungstreu schtzbare Funktion von > = (1 , 2 , 3 ) ist.
Gem Kriterium 1 in Theorem 3.9 ist dies genau dann der Fall, wenn es ein c> = (c1 , c2 , c3 ) R3
gibt, so dass h> = c> X, d.h., wenn
1 =
1/3 =
2/3 =
c1 + c2 + c3
c1 + c3
c2 .
75
Weil dieses Gleichungssystem offenbar lsbar ist, ist somit h> schtzbar.
Auerdem gilt
3 2
X> X = 2 2
1 0
0 ,
und eine verallgemeinerte Inverse von X> X ist gegeben durch:
1 1 0
(X> X) = 1 3/2 0 .
0
0
0
Hieraus folgt, dass h> (X> X) h = 1/2 und
0
1
0
(X> X) X> = 1/2 1 1/2

bzw.
0
0
0
Y2
= (X> X) X> Y = (Y1 2Y2 + Y3 )/2
Somit ergibt sich, dass (X)> = (Y1 + Y3 )/2, Y2 , (Y1 + Y3 )/2 bzw.
h> = (Y1 + 4Y2 + Y3 )/6
und
S 2 = (Y1 Y3 )2 /2 .
Das gesuchte Konfidenzintervall (, ) fr h> zum Niveau 1 = 0.95 hat also die Form
(, ) = (Y1 + 4Y2 + Y3 )/6 Z , (Y1 + 4Y2 + Y3 )/6 + Z

wobei Z = t1,0.975 |Y1 Y3 |/2.
In Verallgemeinerung von Theorem 2.12 leiten wir nun ein so genanntes ScheffKonfidenzband her, d.h. simultane
Konfidenzintervalle fr eine ganze Klasse von schtzbaren Funktionen des Parametervektors .
Sei s {1, . . . , m}, und H sei erneut eine sm Matrix mit vollem Rang rg(H) = s, wobei H = (h1 , . . . , hs )> ,
>
so dass smtliche Komponenten h>
1 , . . . , hs des Vektors H schtzbare Funktionen von sind.
Weil H vollen (Zeilen-) Rang hat, sind die Vektoren h1 , . . . , hs linear unabhngig und bilden die Basis eines
sdimensionalen linearen Unterraumes in Rm , den wir mit L = L(h1 , . . . , hs ) bezeichnen.
Wegen Theorem 3.10 ist h> fr jedes h L eine schtzbare Funktionen von .
Gesucht ist eine Zahl a > 0, so dass mit der (vorgegebenen) Wahrscheinlichkeit (0, 1)
h> a Zh h> h> + a Zh
(81)
p
gleichzeitig fr jedes h L gilt, wobei Zh = S h> (X> X) h und bzw. S 2 die in (61) bzw. (65) gegebenen
Schtzer fr bzw. 2 sind.
Theorem 3.18
Sei a =
s Fs,nr, . Dann gilt
!
2
>
h h>
2
P max 2 > > a = .
hL S h (X X) h
(82)
76
Beweis
hnlich wie im Beweis von Theorem 2.12 ergibt sich aus der Ungleichung von CauchySchwarz fr
Skalarprodukte, vgl. (65), dass

2
>
x
H
>
1
,
H H
H(X> X) H>
H H = max >
x6=o x
H(X> X) H> x
wobei sich das Maximum ber smtliche Vektoren x Rs mit x 6= o erstreckt.
Hieraus und aus Theorem 3.15 ergibt sich nun, dass
>
1
= P H H
H(X> X) H>
H H sS 2 Fs,nr,

2
!
x> H H
2
sS Fs,nr,
= P max >
x6=o x
H(X> X) H> x
!
(H> x)> (H> x)>
2
= P max
sS Fs,nr,
x6=o
(H> x)> (X> X) (H> x)
!
h> h>
= P max
sS 2 Fs,nr, .
hL
h> (X> X) h
3.4
3.4.1
Beispiele
FTest der ANOVA-Nullhypothese
Wir betrachten das reparametrisierte Modell der einfaktoriellen Varianzanalyse, d.h., die Designmatrix X
sei die in (13) gegebene n (k + 1) Matrix mit rg(X) = k < m = k + 1, wobei
X=
1
..
.
1
..
.
0
..
.
0
..
.
...
0
..
.
0
..
.
...
1
..
.
0
..
.
1
..
.
0
..
.
...
0
..
.
0
..
.
...
1
..
.
0
..
.
0
..
.
0
..
.
...
0
..
.
1
..
.
...
(83)
und der Parametervektor hat die Form = (, 1 , . . . , k )> .

Getestet werden soll, ob die Stufen des Einflussfaktors signifikant sind, d.h., wir testen die ANOVA
Nullhypothese H0 : 1 = . . . = k (gegen die Alternative H1 : i 6= j fr ein Paar i, j {1, . . . , k}
mit i 6= j). Dabei nutzen wir den allgemeinen Testansatz von Theorem 3.15 bzw. Theorem 3.16.
77
Eine quivalente Formulierung der Nullhypothese H0 : 1 = . . . = k ist gegeben durch

H0 : 1 2 = 0, . . . , 1 k = 0
wobei H eine (k 1) (k + 1) Matrix ist mit
0 1 1
0 1 0
..
. .
H = .. ..
.
0 1 0
0 1 0
bzw.
H0 : H = o ,
(84)
...
1
..
.
...
0
..
.
...
...
1
0
..
.
(85)
Es ist klar, dass H eine Matrix mit vollem Zeilenrang rg(H) = k 1 ist. Aus Theorem 3.10 ergibt sich
auerdem, dass smtliche Komponenten 1 2 , . . . , 1 k des Vektors H schtzbare Funktionen von
sind.
Mit anderen Worten: Die Matrix H gengt den Bedingungen von Theorem 3.15 bzw. Theorem 3.16, so dass
zur Verifizierung der Hypothese H0 : H = o die in Theorem 3.16 betrachtete Testgre
TH =
(SSEH SSE)/(k 1)
SSE/(n k)
verwendet werden kann, wobei sich die in (75) bzw. (76) definierten Quadratsummen SSE und SSEH wie
folgt bestimmen lassen.
Zur Erinnerung: In Abschnitt 3.2.1 hatten wir gezeigt, dass eine verallgemeinerte Inverse von X> X gegeben
ist durch (36), d.h.
>
1
X X =
n
..
0 ...
1
n1
...
...
..
.
1
n2
..
.
..
.
..
.
0 ...
0
.
..
1
nk
(86)
Hieraus und aus (83) folgt, dass
>
= X> X X> Y = Y , Y 1 Y , . . . , Y k Y
bzw.
>
X = X X> X X> Y = Y 1 , . . . , Y 1 , . . . , Y k , . . . , Y k .
|
{z
}
|
{z
}
n1
nk
Somit ergibt sich fr die Quadratsumme SSE = (Y X)> (Y X), dass

SSE =
ni
k X
X
i=1 j=1
Yij Y i
(87)
78
Beachte
Wegen der speziellen Gestalt (83) der Designmatrix X lsst sich die Formel (87) auch direkt aus der
Tatsache herleiten, dass ein KQSchtzer ist. Und zwar gilt
SSE
=
=
(Y X)> (Y X) = min (Y X)> (Y X)

Rk+1
k n
X
min
xR
i=1
ni
X
ni
k X
2
2 o X
Yij x
=
Yij Y i .
j=1
i=1 j=1
Auerdem ergibt sich aus der Bemerkung am Ende von Abschnitt 3.3.2, dass
2
SSEH = (Y X H )> (Y X H ) = min Y X ,
H
wobei H = { Rk+1 : H = o} und {X : H } Rn die Menge derjenigen ndimensionalen

Vektoren ist, fr die smtliche Komponenten gleich sind.
Somit gilt
SSEH = min
xR
ni
ni
k X
k X
X
2
2 X
Yij x =
Yij Y ,
i=1 j=1
weil der Mittelwert Y die Quadratsumme
(88)
i=1 j=1
Pk
Pni
i=1
j=1
2
Yij x minimiert.

SSEH SSE =
ni
k X
X
Yij Y
i=1 j=1
ni
k X
X
Yij Y i
i=1 j=1
k
X
ni Y i Y ,
i=1
wobei sich die letzte Gleichheit aus der Quadratsummenzerlegung

ni
ni
k X
k X
k
2 X
X
2 X
2
Yij Y =
Yij Y i +
ni Y i Y
i=1 j=1
i=1 j=1
i=1
ergibt, vgl. die Formel (9) in Theorem 3.1.

Fr die in Theorem 3.16 betrachtete Testgre TH gilt also, dass
TH =
(SSEH SSE)/(k 1)
=
SSE/(n k)
(n k)
k
P
i=1
2
ni Y i Y
2
ni
k P
P
(k 1)
Yij Y i
Fk1,nk .
(89)
i=1 j=1
3.4.2
FTests fr die zweifaktorielle Varianzanalyse
Wir konstruieren nun FTests fr das in Abschnitt 3.1.3 eingefhrte Modell der zweifaktoriellen Varianzanalyse
mit balancierten Teilstichproben, d.h.,
der Parametervektor hat die Form
>
(1)
(1)
(2)
(2)
= , 1 , . . . , k1 , 1 , . . . , k2 , 11 , . . . , k1 k2 ,
79
die Designmatrix X hat die Dimension n m, wobei n = rk1 k2 und m = 1 + k1 + k2 + k1 k2 ,

die Eintragungen von X bestehen nur aus Nullen und Einsen, und es gilt rg(X) = k1 k2 < m.
Signifikanz der Einflussfaktoren
Wir konstruieren zunchst einen Test zur Untersuchung der Frage, ob die Stufen des ersten Einflussfaktors
signifikant sind. Hierfr prfen wir die Hypothese, ob die Effekte
(1)
i1
k2
1 X
i i
k2 i =1 1 2
(1)
= i1 +
des ersten Einflussfaktors, zuzglich ihrer Wechselwirkungen gemittelt ber smtliche Stufen des zweiten
Einflussfaktors, gleich sind. Mit anderen Worten: Wir testen die Hypothese
(1)
H0 : 1
(1)
i1
=0
i1 {1, . . . , k1 } vs.
(1)
(1)
H1 : 1
i1
6= 0
fr ein i1 {1, . . . , k1 } ,
(90)
wobei es eigentlich gengt, das Hypothesenpaar

(1)
H0 : 1
(1)
i1
=0
i1 {2, . . . , k1 }
vs.
(1)
H1 : 1
(1)
i1
6= 0
fr ein i1 {2, . . . , k1 }
zu betrachten.
Man kann leicht zeigen, dass die Nullhypothese in (90) die Form H0 : H = o hat,
wobei
H=
0 1
0 1
.. ..
. .
0
..
.
0 1
...
..
...
1
k2
...
1
k2
1
k2
...
1
k2
...
0
..
.
...
0
..
.
1
k2
...
1
k2
...
0
..
.
0
..
.
...
..
.
0
..
.
0
..
.
1 0
...
1
k2
1
k2
...
1
k2
...
1
k2
..
.
...
..
eine (k1 1) m Matrix mit vollem Zeilenrang rg(H) = k1 1 und mit Zeilenblcken der Lngen
1, 1, k1 1, k2 , k2 bzw. (k1 1)k2 ist
und smtliche Komponenten des Vektors H schtzbare Funktionen von sind, denn es gilt
(1)
(1)
i1
k2
1 X
1i2 i1 i2 .
k2 i =1
2
Zur Verifizierung der Hypothese H0 : H = o kann somit erneut die in Theorem 3.16 betrachtete
Testgre TH verwendet werden, wobei
TH =
(SSEH SSE)/(k1 1)
Fk1 1, k1 k2 (r1)
SSE/(k1 k2 (r 1))
mit
SSE =
k1 X
k2 X
r
X
Yi1 i2 j Y i1 i2
(91)
i1 =1 i2 =1 j=1
und
SSEH SSE = rk2
k1
X
i1 =1
Y i1 Y
(92)
80
Dabei lassen sich die Formeln (91) und (92) fr die in (75) bzw. (76) definierten Quadratsummen SSE
und SSEH auf hnliche Weise wie in Abschnitt 3.4.1 herleiten.
Und zwar ergibt sich (91) mit der gleichen Minimierungstechnik, die bei der direkten Herleitung von
(87) verwendet wurde. Darber hinaus lsst sich die Quadratsumme SSEH wie folgt bestimmen.
Sowie bisher ist H = { R1+k1 +k2 +k1 k2 : H = o} der eingeschrnkte Parameterraum.
Wegen der speziellen Gestalt der Matrizen X und H kann bei der Minimierung in
2
SSEH = (Y X H )> (Y X H ) = min Y X

H
die Menge {X : H } Rrk1 k2 auf die folgende Weise (hnlich wie in Formel (88))
durch eine Minimierung bezglich der Menge R RkH2 RkH1 k2 R1+k2 +k1 k2 derjenigen Vektoren
x = (x, x1 , . . . , xk2 , x11 , . . . , xk1 k2 ) R1+k2 +k1 k2 ersetzt werden, die den folgenden Bedingungen
gengen:
k2
k1 X
k2
X
X
xi2 =
xi1 i2 = 0 .
i2 =1
i1 =1 i2 =1
Und zwar gilt

SSEH
min
k
k k2
xRRH2 RH1
min
k
k1 X
k2 X
r
X
2
Yi1 i2 j (x + xi2 + xi1 i2 )
i1 =1 i2 =1 j=1
k k2
xRRH2 RH1
+k1 r
k2
X
k1 X
k2 X
r
X
Yi1 i2 j Y i1 i2
k1
X
2
+ k1 k2 r Y x + k2 r
Y i1 Y
i1 =1
i1 =1 i2 =1 j=1
2
Y i2 Y xi2 + r
i2 =1
k1
X
k2
X
2
Y i1 i2 Y i1 Y i2 + Y xi1 i2
)
,
i1 =1 i2 =1
d.h.,
SSEH
k1 X
k2 X
k1
r
X
X
2
Yi1 i2 j Y i1 i2 + k2 r
Y i1 Y .
i1 =1 i2 =1 j=1
i1 =1
Hieraus und aus (91) ergibt sich (92).

Beachte
Auf die gleiche Weise ergibt sich ein Test, um zu prfen, ob die Stufen des zweiten Einflussfaktors
signifikant sind. Dabei prfen wir die Hypothese, ob die Effekte
(2)
i2
(2)
= i2 +
k1
1 X
i i
k1 i =1 1 2
1
des zweiten Einflussfaktors, zuzglich ihrer Wechselwirkungen gemittelt ber smtliche Stufen des
ersten Einflussfaktors, gleich sind.
Wir testen also die Hypothese
(2)
H0 : 1
(2)
(2)
= 0 , . . . , 1
(2)
k2 = 0
(2)
versus H1 : 1
(2)
i2
6= 0
fr ein i2 {1, . . . , k2 } .
Als Testgre ergibt sich in diesem Fall:

k1 k2 (r 1)rk1
TH =
(k2 1)
k1
P
k2
P
k2
P
i2 =1
Y i2 Y
r
2
P
Yi1 i2 j Y i1 i2
i1 =1 i2 =1 j=1
Fk2 1, k1 k2 (r1)
81
Wechselwirkungen zwischen den beiden Einflussfaktoren

Wir konstruieren nun einen Test, um zu prfen, ob es signifikante Wechselwirkungen zwischen den beiden
Einflussfaktoren gibt. Hierfr wird die Hypothese
H0 : 11
i1 i2 = 0
getestet, wobei
(i1 , i2 ) {1, . . . , k1 } {1, . . . , k2 }
(93)
i1 i2 = i1 i2 i1 i2 +
und
i1 =
k2
1 X
i i ,
k2 i =1 1 2
i2 =
k1
1 X
i i ,
k1 i =1 1 2
k1 X
k2
1 X
i i .
k1 k2 i =1 i =1 1 2
1
Auf hnliche Weise wie bisher kann man zeigen, dass sich die in (93) betrachtete Hypothese in der
Form H0 : H = o schreiben lsst, wobei
H eine (k1 k2 1) m Matrix mit vollem Zeilenrang rg(H) = k1 k2 1 ist und
smtliche Komponenten des Vektors H schtzbare Funktionen von sind, denn es gilt
i1 i2 = i1 i2
k2
k1
k1 X
k2
1 X
1 X
1 X
i1 i2
i1 i2 +
i i .
k2 i =1
k1 i =1
k1 k2 i =1 i =1 1 2
2
Zur Verifizierung der Hypothese H0 : H = o kann somit die in Theorem 3.16 betrachtete Testgre
TH =
(SSEH SSE)/(k1 k2 1)
SSE/(k1 k2 (r 1))
verwendet werden, wobei SSE so wie bisher durch (91) gegeben ist, whrend sich die Quadratsumme
SSEH aus den folgenden berlegungen ergibt.
Wegen der speziellen Gestalt der Matrizen X und H kann bei der Minimierung in
2
H
die Menge {X : H } Rrk1 k2 hnlich wie bisher durch die Menge R RkH1 RkH2 R1+k1 +k2
derjenigen Vektoren
(2)
(1)
(2)
(1)
x = (x, x1 , . . . , xk1 , x1 , . . . , xk2 ) R1+k1 +k2
ersetzt werden, die den folgenden Bedingungen gengen:
k1
X
(1)
xi1 =
i1 =1
k2
X
(2)
xi2 = 0 .
i2 =1
Und zwar gilt

SSEH
(
=
min
k
xRRH1 RH2 i =1 i =1 j=1

1
2
bzw.
SSEH
min
k1 X
k2 X
r
X
(1)
(2) 2
Yi1 i2 j (x + xi1 + xi2 )
xRRH1 RH2
k1 X
k2 X
r
X
2
Yi1 i2 j Y i1 i2
i1 =1 i2 =1 j=1
k1
k2
X
X
2
(1) 2
(2) 2
Y i1 Y xi1
+ k1 r
Y i2 Y xi2
+k1 k2 r Y x + k2 r
i1 =1
+r
k1 X
k2
X
Y i1 i2 Y i1 Y i2 + Y
i2 =1
i1 =1 i2 =1
k1 X
k2 X
r
X
i1 =1 i2 =1 j=1
Yi1 i2 j Y i1 i2
+r
k1 X
k2
X
i1 =1 i2 =1
Y i1 i2 Y i1 Y i2 + Y
82

SSEH SSE = r
k1 X
k2
X
Y i1 i2 Y i1 Y i2 + Y
(94)
i1 =1 i2 =1
Fr die in Theorem 3.16 betrachtete Testgre TH gilt also, dass

TH
(SSEH SSE)/(k1 k2 1)
SSE/ k1 k2 (r 1)
k1 P
k2
2
P
Y i1 i2 Y i1 Y i2 + Y
k1 k2 (r 1)r
i1 =1 i2 =1
(k1 k2 1)
3.4.3
k1 P
k2 P
r
P
i1 =1 i2 =1 j=1
Yi1 i2 j Y i1 i2
Fk1 k2 1, k1 k2 (r1) .
Zweifaktorielle Varianzanalyse mit hierarchischer Klassifikation
Anstelle des in Abschnitt 3.1.3 eingefhrten Modells der zweifaktoriellen Varianzanalyse mit Wechselwirkungen wird manchmal das folgende Modell der zweifaktoriellen Varianzanalyse mit hierarchischer Klassifikation
der Stufenpaare i1 , i2 der beiden Einflussfaktoren betrachtet.
Dabei betrachten wir nun die Darstellung
(1)
(2|1)
i1 i2 = + i1 + i2 |i1 ,
i1 = 1, . . . , k1 , i2 = 1, . . . , k2
(95)
der Erwartungswerte i1 i2 = E Yi1 i2 j der Stichprobenvariablen Yi1 i2 j .

Mit anderen Worten: In jede der k1 Stufen des ersten, d.h. bergeordneten Einflussfaktors sind k2 Stufen
des zweiten (untergeordneten) Einflussfaktors eingebettet.
Diese Situation kann beispielsweise bei klinischen Studien auftreten, die gleichzeitig in k1 Lndern (bergeordneter Einflussfaktor) und dabei jeweils in k2 Krankenhusern (untergeordneter Einflussfaktor) durchgefhrt werden.
Der Parametervektor hat dann die Dimension m = 1 + k1 + k1 k2 mit
(1)
(2|1)
(2|1) >
(1)
= , 1 , . . . , k1 , 1|1 , . . . , k2 |k1 .
Dabei wird
erneut als allgemeines Mittel der Erwartungswerte E Yi1 i2 j der Stichprobenvariablen Yi1 i2 j aufgefasst,
(1)
i1 wird Effekt der i1 -ten Stufe des bergeordneten Einflussfaktors genannt, und
(2|1)
i2 |i1 heit Effekt der i2 -ten Stufe des untergeordneten Einflussfaktors bei Vorliegen der i1 -ten Stufe
des bergeordneten Einflussfaktors.
Wir betrachten wiederum lediglich den balancierten Fall, d.h., wir setzen voraus, dass smtliche k1 k2
Teilstichproben (Yi1 i2 j , j = 1, . . . , ni1 i2 ) identische Stichprobenumfnge besitzen.
Es gilt also ni1 i2 = r fr alle i1 = 1, . . . , k1 und i2 = 1, . . . , k2 mit r = n/(k1 k2 ), die Designmatrix X hat
die Dimension n m mit n = rk1 k2 und m = 1 + k1 + k1 k2 , und die Eintragungen von X bestehen nur aus
Nullen und Einsen; rg(X) = k1 k2 < m.
83
Signifikanz des bergeordneten Einflussfaktors

Genauso wie in Abschnitt 3.4.2 lsst sich zunchst ein Test zur Untersuchung der Frage konstruieren,
ob die Stufen des bergeordneten Einflussfaktors signifikant sind. Hierfr prfen wir die Hypothese,
(1)
ob die gemittelten Effekte i1 gleich sind, wobei
(1)
i1
(1)
= i1 +
k2
1 X
(2|1)
.
k2 i =1 i2 |i1
2
Mit anderen Worten: Wir testen die Hypothese

(1)
H0 : 1
(1)
i1
= 0 i1 {1, . . . , k1 }
(1)
versus
H1 : 1
(1)
i1
6= 0
fr ein i1 {1, . . . , k1 } .
Man kann zeigen, dass die Nullhypothese die Form H0 : H = o hat, wobei H eine (k1 1) m Matrix
mit vollem Zeilenrang rg(H) = k1 1 ist und smtliche Komponenten des Vektors H schtzbare
Funktionen von sind.
TH =
(SSEH SSE)/(k1 1)
Fk1 1, k1 k2 (r1)
SSE/(k1 k2 (r 1))
verwendet werden mit

SSE =
k1 X
k2 X
r
X
Yi1 i2 j Y i1 i2
SSEH SSE = rk2
i1 =1 i2 =1 j=1
k1
X
2
Y i1 Y ,
(96)
i1 =1
wobei die Formeln in (96) genauso wie (91) bzw. (92) bewiesen werden.
Signifikanz des untergeordneten Einflussfaktors
Um zu prfen, ob die Stufen des untergeordneten Einflussfaktors signifikant sind, kann man hnlich
wie bei dem letzten Test in Abschnitt 3.4.2 (auf Signifikanz der Wechselwirkungen) vorgehen. Hierfr
testen wir die Hypothese
(2|1)
H0 : 1|1
(2|1)
i2 |i1 = 0
(i1 , i2 ) {1, . . . , k1 } {1, . . . , k2 } ,
wobei
(2|1)
(2|1)
i2 |i1 = i2 |i1 i1 + ,
i1 =
k2
1 X
(2|1)
,
k2 i =1 i2 |i1
(97)
k1 X
k2
1 X
(2|1)
.
k1 k2 i =1 i =1 i2 |i1
1
Man kann zeigen, dass sich die in (93) betrachtete Hypothese in der Form H0 : H = o schreiben
lsst, wobei H eine k1 (k2 1) m Matrix mit vollem Zeilenrang rg(H) = k1 (k2 1) ist und smtliche
Komponenten des Vektors H schtzbare Funktionen von sind.
TH =
(SSEH SSE)/(k1 (k2 1))

SSE/(k1 k2 (r 1))
verwendet werden, wobei sich die in (75) bzw. (76) definierten Quadratsummen SSE und SSEH wie
folgt bestimmen lassen.
Und zwar gilt so wie bisher
SSE =
k1 X
k2 X
r
X
i1 =1 i2 =1 j=1
Yi1 i2 j Y i1 i2
(98)
84
und die Menge {X : H } in
2
H
(1)
(1)
lsst sich wie folgt durch die Menge RRkH1 R1+k1 derjenigen Vektoren x = (x, x1 , . . . , xk1 ) R1+k1
Pk
(1)
ersetzen, fr die i11=1 xi1 = 0, so dass
SSEH
min
k1 X
k2 X
r
X
(1) 2
Yi1 i2 j (x + xi1 )
xRRH1 i =1 i =1 j=1
1
2
min
xRRH1
+k2 r
k1 X
k2 X
r
X
2
Yi1 i2 j Y i1 i2 + k1 k2 r Y x
i1 =1 i2 =1 j=1
k1
X
k1 X
k2
X
2
(1) 2
Y i1 Y xi1
+r
Y i1 i2 Y i1
i1 =1
k1
X
k2
X
i1 =1 i2 =1
r
X
Yi1 i2 j Y i1 i2
i1 =1 i2 =1 j=1
+r
k1
X
k2
X
Y i1 i2 Y i1
i1 =1 i2 =1

SSEH SSE = r
k1 X
k2
X
2
Y i1 i2 Y i1 .
i1 =1 i2 =1
Somit gilt
k1 k2 (r 1)r
TH =
k1 P
k2
2
P
Y i1 i2 Y i1
i1 =1 i2 =1
k1 P
k2 P
r
2
P
k1 (k2 1)
Yi1 i2 j Y i1 i2
i1 =1 i2 =1 j=1
Fk1 (k2 1), k1 k2 (r1) .
4 VERALLGEMEINERTE LINEARE MODELLE
85
Verallgemeinerte lineare Modelle

In den Kapiteln 2 und 3 hatten wir ber das lineare Modell Y = X + stets vorausgesetzt,
>
dass E = o, d.h., E Y1 , . . . , E Yn = X,
wobei auerdem Y N(X, 2 I) gilt, wenn N(o, 2 I).
Wir verallgemeinern nun dieses Modell und lassen zu, dass die Erwartungswerte E Y1 , . . . , E Yn der Stichprobenvariablen Y1 , . . . , Yn
ber eine beliebige monotone Funktion g : G R R, die so genannte Linkfunktion, durch die
Komponenten des Vektors X ausgedrckt werden knnen, so dass
>
g(E Y1 ), . . . , g(E Yn ) = X ,
(1)
wobei der Definitionsbereich G von g noch genauer spezifiziert wird.
Auerdem mssen jetzt die (unabhngigen) Stichprobevariablen Y1 , . . . , Yn nicht notwendig normalverteilt
sein, denn wir nehmen nur an, dass die Verteilungen von Y1 , . . . , Yn zu einer Exponentialfamilie gehren.
Wir setzen in diesem Kapitel jedoch (so wie in Kapitel 2) stets voraus, dass die Designmatrix X vollen
Spaltenrang hat, d.h. rg(X) = m.
Genauso wie bei den linearen Modellen, die in den Kapiteln 2 und 3 betrachtet wurden, besteht eine Zielstellung
darin, den Parametervektor durch die Beobachtung der Zufallsstichprobe Y = (Y1 , . . . , Yn )> zu schtzen, wobei
angenommen wird, dass die Linkfunktion g : G R R bekannt ist.
4.1
4.1.1

Exponentialfamilie
Wir nehmen an, dass die Stichprobenvariablen Y1 , . . . , Yn unabhngig (jedoch i. a. nicht identisch verteilt) sind,
wobei ihre Verteilungen zu einer einparametrischen Exponentialfamilie gehren, d.h., ihre Dichten bzw.
Wahrscheinlichkeitsfunktionen besitzen die folgende Form: Fr jedes i {1, . . . , n} gilt
im absolutstetigen Fall
f (y; i ) = exp
yi + a(y, ) b(i ) ,
2
y R,
(2)
im diskreten Fall
y
+
a(y,
b(
)
,
y C,
(3)
i
i
2
wobei a : R (0, ) R und b : R gewisse Funktionen sind und C R die kleinste abzhlbare
Teilmenge von R ist, fr die Pi (Yi C) = 1 gilt.
Pi (Yi = y) = exp
Dabei ist 2 > 0 ein so genannter Strparameter, der nicht vom Index i abhngt, wobei oft angenommen
wird, dass 2 bekannt ist.
Dann ist
Z
n
= R:
exp
o
dy <
(4)
o
n
y + a(y, )
X
<
= R:
exp
2
(5)
bzw.
y + a(y, )
2
yC
der natrliche Parameterraum, wobei wir stets annehmen, dass die Integrierbarkeitsbedingung in (4) bzw.
(5) fr mindestens zwei verschiedene 1 , 2 R erfllt ist.
86
Beachte Im absolutstetigen Fall kann der Strparameter 2 die Rolle eines zustzlichen Varianzparameters
spielen, whrend 2 im diskreten Fall meistens gleich 1 gesetzt wird.
Lemma 4.1 Der in (4) bzw. (5) gegebene Parameterraum R ist ein Intervall in R.
Beweis
Wir betrachten hier nur den absolutstetigen Fall, denn im diskreten Fall verluft der Beweis analog.
Man kann sich leicht berlegen, dass fr beliebige x1 , x2 R und (0, 1)
x1 x2 1
xi 1
e
e
max exi
e
= max exi ex1 + ex2 .
i=1,2,
i=1,2,
Hieraus ergibt sich mit der Schreibweise = 1 +(1)2 , dass fr beliebige 1 , 2 und (0, 1)
Z
Z
y + a(y, )
y + a(y, )
y + a(y, ) 1
1
2
exp
dy
=
exp
exp
dy
2
2
Z
y + a(y, )
y + a(y, )
2
1
exp
+
exp
dy < .
2
Somit gilt auch .
Wegen Lemma 4.1 knnen (und werden) wir in diesem Kapitel stets annehmen, dass R ein offenes Intervall
ist, so dass die Integrierbarkeitsbedingung in (4) bzw. (5) fr jedes erfllt ist.
Lemma 4.2
Die Verteilung der Zufallsvariablen Y : R sei durch (2) bzw. (3) fr ein beliebiges gegeben, wobei
E (Y 2 ) <
(6)
gelte und die Funktion b : R zweimal stetig differenzierbar sei.

Dann gilt
E Y = b(1) ()
und
Var Y = 2 b(2) () .
(7)
Beweis
Wir betrachten erneut lediglich den absolutstetigen Fall, denn im diskreten Fall verluft der Beweis
analog. Dabei gilt
Z
Z
1
1
b()/ 2
EY =
y exp 2 y + a(y, ) b() dy = e
y exp 2 y + a(y, ) dy
2
d
1
= eb()/ 2
exp 2 y + a(y, ) dy
d
Z
1
b()/ 2 2 d
= e
exp 2 y + a(y, ) dy
d
Z
1
2
d b()/ 2
exp 2 y + a(y, ) b() dy
= eb()/ 2
e
d
|
{z
}
=1
(1)
() .
Auf hnliche Weise ergibt sich, dass E (Y 2 ) = 2 b(2) () + (E Y )2 .

4.1.2
87
Verknpfung der Parameter; natrliche Linkfunktion
Von nun an setzen wir voraus, dass die Funktion b : R zweimal stetig differenzierbar ist mit b(2) () > 0
fr jedes .
Auerdem sei G = {b(1) () : }, und die Linkfunktion g : G R sei zweimal stetig differenzierbar, so
dass g (1) (x) 6= 0 fr jedes x G. Die Umkehrfunktion von g bezeichnen wir mit h = g 1 .
Wir betrachten das in (1) gegebene verallgemeinerte lineare Modell (GLM = generalized linear model), d.h.,
es gelte
>
g(E Y1 ), . . . , g(E Yn ) = X .
(8)
Mit der Schreibweise X = (xij ) und xi = (xi1 , . . . , xim )> bzw. = (1 , . . . , n )> , wobei i = x>
i ,
ergibt sich dann aus (8) fr die Erwartungswerte i = E Yi (i = 1, . . . , n), dass
i = h(i ) = h x>
i
bzw.
>
= h(1 ), . . . , h(n ) ,
(9)
wobei = (1 , . . . , n )> .
Wegen (7) und (8) sind die Parameter = (1 , . . . , m )> und = (1 , . . . , n )> wie folgt miteinander
verknpft: Es gilt
(1)
>
g b (1 ) , . . . , g b(1) (n )
= X .
(10)
(1)

>
b (1 ), . . . , b(1) (n ) = h(x>
1 ), . . . , h(xn ) .
bzw.
>
(1 , . . . , n ) = h(x>
,
1 ) , . . . , h(xn )
(11)
1
wobei = b(1)
die Umkehrfunktion von b(1) ist.
Auerdem lsst sich auch die Varianz i2 = Var Yi der Stichprobenvariablen Yi fr jedes i = 1, . . . , n als
Funktion i2 () von ausdrcken, denn aus Lemma 4.2 und aus (11) ergibt sich, dass

i2 () = 2 b(2) h(x>
i = 1, . . . , n .
(12)
i )
Beachte Die Linkfunktion g : G R heit natrlich, wenn g = . In diesem Fall gilt i = (i ) bzw. i = x>
i
fr jedes i = 1, . . . , n, d.h.,
(1 , . . . , n )> = X .
(13)
4.2
4.2.1
Beispiele
Lineares Modell mit normalverteilten Strgren
Fr das in Abschnitt 2.2 betrachtete lineare Modell

Y = X +
(14)
mit normalverteilten Strgren = (1 , . . . , n )> N(o, 2 I) gilt

Yi N(i , 2 ) mit i = x>
i ,
wobei wir voraussetzen, dass 2 bekannt ist.
i = 1, . . . , n,
(15)
88
Die Verteilung von Yi gehrt dann zu der in Abschnitt 4.1.1 betrachteten einparametrischen Exponentialfamilie, denn die Dichte f (y; i ) von Yi lsst sich in der folgenden Form darstellen, wobei i = i fr jedes
i = 1, . . . , n:
Es gilt
f (y; i ) =
1
2 2
1
2
exp
(y
)
=
exp
y
+
a(y,
b(
)
i
i
i
2 2
2
wobei
2 = 2 ,
a(y) =
y2
2
und
i2
+ 2 log 2 2 .
2
b(i ) =
y R,
(16)
Wegen (15) gilt fr die Linkfunktion g : R R offenbar, dass g(x) = x fr jedes x R.

Auerdem ergibt sich aus (16), dass x = b(1) (x) fr jedes x R.
Somit gilt g(x) = x = (x) fr jedes x R, d.h., durch g(x) = x ist die natrliche Linkfunktion
gegeben.
4.2.2
Binre kategoriale Regression
In diesem Abschnitt betrachten wir den Fall, dass die Stichprobenvariablen Y1 , . . . , Yn Bernoulliverteilt
sind, d.h., sie knnen nur die Werte 0 bzw. 1 mit positiver Wahrscheinlichkeit annehmen.
Dabei verwenden wir die Schreibweise
i = P(Yi = 1)
= i = E Yi
i = 1, . . . , n ,
wobei vorausgesetzt wird, dass 0 
g(1 ), . . . , g(n ) = X .
(17)
Fr jedes i = 1, . . . , n gehrt die Bin(1, i )Verteilung zu der Exponentialfamilie, die in Abschnitt 4.1.1
eingefhrt worden ist, wobei i = log(i /(1 i )).
Denn fr y = 0, 1 gilt
i
Pi (Yi = y) = iy (1 i )1y = exp y log
+ log(1 i ) = exp 2 yi + a(y, ) b(i ) ,
1 i
wobei
2 = 1 ,
a(y) = 0
und
b(i ) = log(1 + ei ) .
(18)
Beachte
Aus (18) ergibt sich, dass (b(1) )1 (x) = log(x/(1 x)) fr jedes x (0, 1), d.h., die natrliche Linkfunktion g : (0, 1) R ist gegeben durch
x
g(x) = log
x (0, 1) .
(19)
1x
Das in (17) betrachtete GLM mit der in (19) gegebenen natrlichen Linkfunktion wird dann
(binres) logistisches Regressionsmodell genannt.
89
In diesem Fall ist die Abhngigkeit der Wahrscheinlichkeiten i = i () von den Linearkombinationen x>
i gegeben durch
i =
1
1 + exp(x>
i )
i = 1, . . . , n .
(20)
Eine andere (nicht natrliche) Linkfunktion g : (0, 1) R, die in diesem Zusammenhang betrachtet
wird, ist gegeben durch
g = 1 ,
(21)
wobei : R (0, 1) die Verteilungsfunktion der N(0, 1)Verteilung ist.
Dann gilt i = (x>
i ) fr jedes i = 1, . . . , n, und man spricht vom Modell der Probitanalyse.
4.2.3
Poissonverteilte Stichprobenvariablen mit natrlicher Linkfunktion
Die Stichprobenvariablen Y1 , . . . , Yn seien nun Poissonverteilt, d.h., es gelte Yi Poi(i ) mit 0 < i <
fr jedes i = 1, . . . , n.
Die Poi(i )Verteilung gehrt ebenfalls zu der Exponentialfamilie, die in Abschnitt 4.1.1 eingefhrt worden
ist, wobei i = log i .
Denn fr jedes y = 0, 1, . . . gilt
Pi (Yi = y) =
wobei
yi ei
= exp y log i log(y!) i = exp 2 yi + a(y, ) b(i ) ,
y!
2 = 1 ,
a(y) = log(y!)
und
b(i ) = ei .
Die natrliche Linkfunktion g : (0, ) R ist gegeben durch

g(x) = log x
4.3
x > 0.
(22)
MaximumLikelihoodSchtzer fr
Weil wir annehmen, dass die Verteilungen der Stichprobenvariablen Y1 , . . . , Yn zu einer Exponentialfamilie
gehren, kann der Parametervektor mit der MaximumLikelihoodMethode geschtzt werden.
Um dies zu zeigen, diskutieren wir zunchst einige Eigenschaften der LoglikelihoodFunktion log L(Y, ) der
Zufallsstichprobe Y = (Y1 , . . . , Yn )> bzw. ihrer partiellen Ableitungen nach den Komponenten 1 , . . . , m
von .
4.3.1
LoglikelihoodFunktion und ihre partiellen Ableitungen
Aus (2) (3) bzw. aus (11) ergibt sich, dass die LoglikelihoodFunktion log L(Y, ) der Zufallsstichprobe
Y = (Y1 , . . . , Yn )> als eine Funktion log L(Y, ) von geschrieben werden kann.
Und zwar folgt aus (2) (3), dass
log L(Y, ) =
n
X
1
Yi i + a(Yi , ) b(i ) .
2
i=1
(23)
90
Hieraus und aus (11) ergibt sich nun, dass

n
X
1
>
>
log L(Y, ) =
Y
h(x
)
+
a(Y
,
h(x
)
.
i
i
i
i
2
i=1
(24)
Fr verallgemeinerte lineare Modelle mit natrlicher Linkfunktion ergibt sich aus (13) und (23), dass
log L(Y, ) =
n
X
>
1
Yi x>
.
i + a(Yi , ) b xi
2
i=1
(25)
Zur Bestimmung von MaximumLikelihoodSchtzern ist die Kenntnis der so genannten Scorefunktionen, d.h.
der partiellen Ableitungen der LoglikelihoodFunktion, sowie der FisherInformationsmatrix ntzlich, die wie
folgt definiert ist.
Definition
Fr beliebige i, j = 1, . . . , m sei
Ui () =
log L(Y, )
i
Iij () = E Ui ()Uj () .
und
>
Dann wird der mdimensionale
bzw. die (deterministische)
Zufallsvektor U() = U1 (), . . . , Um ()

m mMatrix I() = Iij () der Scorevektor bzw. die FisherInformationsmatrix genannt.
dg(t) 1
di
dh(s)
() =
=
t=h(i )
di
ds s=i
dt
(26)
ergibt sich das folgende Resultat.

Theorem 4.1
Fr beliebige j, k = 1, . . . , m gilt
Uj () =
n
X
di
1
xij Yi i ()
() 2
di
i ()
i=1
und
Ijk () =
n
X
xij xik
i=1
di
2
()
(27)
1
i2 ()
(28)
bzw. in MatrixSchreibweise
U() = X> V1 ()
wobei
d
() (Y ())
d
V() = diag i2 ()
und
und
I() = X> V1 ()
d
d
d
i
() = diag
() .
d
di
Beweis
Die in (23) bzw. (24) gegebene LoglikelihoodFunktion lsst sich in der Form
log L(Y, ) =
n
X
1 (i)
` (i )
2
i=1
schreiben, wobei `(i) (i ) = Yi i + a(Yi , ) b(i ) und i = h(x>

i ) .
2
() X ,
(29)
91
Somit gilt fr jedes j = 1, . . . , m, dass

Uj () =
n
X
1 `(i)
(i ) ,
2 j
i=1
(30)
wobei sich durch die mehrfache Anwendung der Kettenregel ergibt, dass
`(i)
`(i) i i i
=
.
j
i i i j
(31)
Andererseits gilt offenbar, dass i /j = xij , und aus Lemma 4.2 ergibt sich, dass
`(i)
Lemma
= Yi b(1) (i )
=
i
bzw.
1
i
i
i
Lemma 4.2
4.2
b(2) (i )
Yi i
Lemma 4.2
1 2
.
2 i
Hieraus und aus (30) (31) ergibt sich die Gltigkeit von (27).
Um (28) zu zeigen, gengt es zu beachten, dass fr beliebige i, j = 1, . . . , n
i fr i = j,
E (Yi i )(Yj j ) =
0
fr i 6= j.
wegen der Unabhngigkeit der Stichprobenvariablen Y1 , . . . , Yn .
Ijk ()
n
d
2 1
X
i
2
= E Uj ()Uk () =
xij xik
()
4 () E (Yi i )
d
i
i
i=1
n
X
i=1
xij xik
di
2
()
1
i2 ()
Damit ist (28) bewiesen.
>
Korollar 4.1 Sei g(E Y1 ), . . . , g(E Yn ) = X ein GLM mit natrlicher Linkfunktion g : G R. Dann gilt
fr beliebige j, k = 1, . . . , m
Uj () =
1 X
xij Yi i ()
2 i=1
und
Ijk () =
n
1 X
xij xik i2 ()
4 i=1
bzw.
U() =
1
X> (Y ())
2
(32)
bzw.
I() =
1
X> V()X .
4
(33)
Beweis Weil g : G R eine natrliche Linkfunktion ist, gilt i = i fr jedes i = 1, . . . , n. Hieraus und aus
Lemma 4.2 ergibt sich, dass
1
di
= b(2) (i ) = 2 i2 .
di
Die Behauptung ergibt sich somit aus Theorem 4.1.

4.3.2
92
HesseMatrix
Neben dem (Score-) Vektor U() der ersten partiellen Ableitungen der LoglikelihoodFunktion log L(Y, ) wird
auch ihre HesseMatrix, d.h., die m mMatrix
2
W() = Wij () =
log L(Y, )
i j
der zweiten partiellen Ableitungen bentigt.
Theorem 4.2
Fr jedes GLM gilt
W() = X> R()diag Yi i () X I() ,
(34)
wobei I() die in (29) gegebene FisherInformationsmatrix und R() = diag vi () eine (n n)Diagonalmatrix ist mit
1 d2 u(s)
vi () = 2
und
u = h.
>
ds2 s=xi
Fr GLM mit natrlicher Linkfunktion gilt insbesondere

W() = I() .
(35)
Beweis
Aus Formel (27) in Theorem 4.1 ergibt sich, dass fr beliebige j, k = 1, . . . , m
Wjk ()
n
X
di
1
(27)
Uj () =
xij Yi i ()
() 2
k
k i=1
di
i ()
!
n
X
di
1
di
1
i
=
xij Yi i ()
() 2
() 2
() .
k di
i ()
di
i () k
i=1
Dabei ergibt sich mit der Schreibweise i = x>

i aus Lemma 4.2, dass
di
1
1
1
= 2 ( h)(1) (i )
() 2
= b(2) h(i ) ( h)(1) (i ) 2 (2)
di
i ()
b
h(i )
und somit
di
1
1
() 2
= 2 ( h)(2) (i )xik .
k di
i ()
Auerdem gilt
i
di i
=
.
k
di k
Insgesamt ergibt sich also, dass

Wjk () =
n
X
i=1
xij xik (Yi i )vi
n
X
i=1
xij xik
d 2 1
i
.
dj
i2
Hieraus und aus der Darstellungsformel (29) fr die FisherInformationsmatrix I() ergibt sich (34).
Weil fr GLM mit natrlicher Linkfunktion die Superposition u = h die Identittsabbildung ist,
gilt in diesem Fall R() = 0. Somit ergibt sich (35) aus (34).
93
Beachte
Fr die Beispiele von GLM, die in Abschnitt 4.2 betrachtet worden sind, ergeben sich aus den
Theoremen 4.1 und 4.2 bzw. aus Korollar 4.1 die folgenden Formeln fr U() und W().
1. Fr das lineare Modell E Y = X mit normalverteilten Stichprobenvariablen (und mit der Linkfunktion g(x) = x) ist (d/d)() die Einheitsmatrix. Somit gilt
U() =
1
X> (Y X) ,
2
W() =
1
X> X ,
2
(36)
vgl. auch Abschnitt 2.2.

2. Fr das logistische Regressionsmodell (mit der natrlichen Linkfunktion) gilt
U() = X> (Y ) ,
W() = X> diag i (1 i ) X ,
(37)
wobei = (1 , . . . , n )> und die Wahrscheinlichkeiten i so wie in (20) durch ausgedrckt werden
knnen.
3. Fr Poissonverteilte Stichprobenvariablen mit natrlicher Linkfunktion gilt

U() = X> (Y ) ,
W() = X> diag i ) X ,
(38)
>
wobei = (1 , . . . , n )> und i = exi .
4.3.3
MaximumLikelihoodGleichung und numerische Lsungsanstze
Zur Bestimmung eines MaximumLikelihoodSchtzers fr wird die MaximumLikelihoodGleichung

U() = o
(39)
betrachtet, die im allgemeinen nichtlinear ist und deshalb oft nur mit iterativen Methoden gelst werden
kann.
Wegen Theorem 4.1 ist die Gleichung (39) quivalent mit
X> V1 ()
d
() (Y ()) = o .
d
(40)
Beachte
Aus Korollar 4.1 ergibt sich, dass sich (40) im Fall einer natrlichen Linkfunktion vereinfacht zu:
X> (Y ()) = o .
(41)
Weil wir auerdem voraussetzen, dass 0 < i2 () < fr jedes i = 1, . . . , n und dass die Designmatrix
X vollen Spaltenrang hat, ist die Matrix W() = 4 X> V()X der zweiten partiellen Ableitungen
negativ definit.
Somit gilt: Wenn (41) eine Lsung hat, dann ist diese Lsung ein (eindeutig bestimmter) Maximum
b fr .
LikelihoodSchtzer
Wir diskutieren nun die Grundideen von zwei numerischen Iterationsmethoden zur Lsung der Maximum
b ,
b , . . . : Rm , die unter
LikelihoodGleichung (39). Dabei betrachten wir eine Folge von Zufallsvektoren
0
1
b konvergieren, so dass
b Lsung von (39) ist.
gewissen Bedingungen gegen einen Zufallsvektor
94
1. NewtonVerfahren
b : Rm ein geeignet gewhlter Startvektor, und die Iterationen
b ,...,
b seien bereits
Sei
0
1
k
berechnet worden.
b
b
Zur Berechnung der (k + 1)ten Iteration
k+1 aus k wird die linke Seite U() der Maximum
LikelihoodGleichung (39) ersetzt durch
b ) + W(
b )(
b ) der TaylorReihenentwicklung von U() an
die ersten beiden Glieder U(
k
k
k
b
der Stelle = .
k
b
Die (k + 1)te Iteration
k+1 ist also Lsung der Gleichung
b ) + W(
b )(
b ) = o.
U(
k
k
k
(42)
b ) invertierbar ist, dann ergibt sich aus (42), dass

Wenn die Matrix W(
k
1 b
b
b
b ),
( k )U(
k+1 = k W
k
(43)
b ,
b , . . . gegen
b konvergiert, muss
b Lsung von (39) sein und der
Damit die so konstruierte Folge
0
1
b
b
Startvektor 0 muss gengend nahe bei liegen.
2. FisherScoring
Wir betrachten nun eine Variante des NewtonVerfahrens, die so genannte ScoringMethode von Fisher,
bei der die HesseMatrix W() in (42) durch die Erwartungswertmatrix E W() ersetzt wird.
Dies hat den Vorteil, dass die (m m)Matrix E W() invertierbar ist.
Aus den Theoremen 4.1 und 4.2 ergibt sich nmlich, dass
(34)
E W() = E X> R()diag Yi i () X I()
=
(29)
I()
X> V1 ()
d
d
2
() X ,
wobei sich die zweite Gleichheit aus der Identitt E Yi = i () ergibt.

Dabei ist der letzte Ausdruck eine invertierbare (m m)Matrix, weil wir voraussetzen, dass die
Designmatrix X vollen Spaltenrang hat und dass (di /di )() 6= 0 fr jedes i = 1, . . . , n.
Anstelle von (43) wird somit die folgende Iterationsgleichung betrachtet:
!
d
>
1
>
b
b
b
b )
b ) Y (
b ) ,
X Z(
(
k+1 = k + X Z( k )X
k
k
k
d
wobei
Z() = V1 ()
d
d
2
()
und
d
d
() =
d 1
d
() .
Bei natrlicher Linkfunktion ergibt sich aus Lemma 4.2, dass

di
1
= b(2) (i ) = 2 i2
di
bzw.
Z() =
1
V() .
4
In diesem Fall hat dann die Iterationsgleichung (44) die Form:

b ) .
b
b + 2 X> V(
b )X 1 X> Y (
k
k+1
k
k
(44)
95
Beachte
Wenn in (44) die Zufallsstichprobe Y durch die so genannte Pseudo-Zufallsstichprobe
Y() = X +
d
d
() Y ()
ersetzt wird, dann lsst sich die Iterationsgleichung (44) in der folgenden Form schreiben:
>
>
b )X
b
b
b
X Z(
k
k+1 = X Z( k )Y( k ) .
b
Diese Gleichung kann als gewichtete Normalengleichung fr
k+1 bezglich der Pseudo-Zufallsstichb
b )
probe Y( k ) aufgefasst werden, wobei die Gewichte, d.h., die Eintragungen der Diagonalmatrix Z(
k
b abhngen.
ebenfalls von der k-ten Iteration
k
4.3.4
Asymptotische Normalverteiltheit von MLSchtzern; asymptotische Tests
Der Begriff der Verteilungskonvergenz von Zufallsvektoren wird wie folgt definiert.
Sei m N eine beliebige natrliche Zahl, und seien Z, Z1 , Z2 , . . . : Rm beliebige Zufallsvektoren.
Man sagt, dass {Zn } in Verteilung gegen Z konvergiert, wenn
lim P(Zn x) = P(Z x)
(45)
fr jedes x Rm mit P(Z = x) = 0. Schreibweise: Zn Z.

b fr
Wir diskutieren nun asymptotische (Verteilungs) Eigenschaften von MaximumLikelihoodSchtzern
bzw. asmyptotische Tests, wenn der Stichprobenumfang n gegen unendlich geht.
Dabei betrachten wir lediglich den Fall der natrlichen Linkfunktion g : G R
und indizieren die Zufallsstichprobe Y, die LoglikelihoodFunktion log L(Y, ), den Scorevektor U(),
b jeweils mit n.
die FisherInformationsmatrix I() bzw. den MLSchtzer
1. Asymptotische Verteilungseigenschaften
Unter gewissen Bedingungen (vgl. Abschnitt VII.2.6 in Pruscha (2000)) kann man zeigen: Fr jedes Rm
mit x>
i fr i = 1, 2, . . . gibt es
b fr , d.h., fr jedes > 0 gilt
einen konsistenten MLSchtzer
n
b | , Un (
b ) = o = 1,
lim P |
n
n
n
(46)
eine Folge {n } von invertierbaren (m m)Matrizen, die von abhngen knnen und fr die
limn n = 0 gilt,
sowie eine symmetrische und positiv definite (m m)Matrix K(), so dass
1
lim >
()
n In ()n = K
(47)
und
b
1
n n N o, K()
bzw.
d 2
b ) log Ln (Yn , )
2 log Ln (Yn ,
m .
n
(48)
96
2. Asymptotische Tests
Bei groem n kann zur Konstruktion eines asymptotischen Tests fr das Hypothesenpaar
H0 : = 0
die Testgre
vs.
H1 : 6= 0
b ) log Ln (Yn , )
Tn = 2 log Ln (Yn ,
n
0
betrachtet werden. Wegen (48) wird dabei H0 abgelehnt, wenn Tn > 2m,1 .
Von besonderem Interesse ist die Nullhypothese H0 : = o. Wenn diese abgelehnt wird, dann knnen
speziellere Hypothesen getestet werden, zum Beispiel fr jedes i = 1, . . . , m die Hypothese H0 : i = 0.
Beachte
Wenn In () positiv definit fr jedes hinreichend groe n ist und wenn
lim I1
n () = 0 ,
(49)
n
1/2
dann kann n = In
in (47) und (48) gesetzt werden, so dass K() die Einheitsmatrix ist.
In (37) hatten wir gezeigt, dass im logistischen Regressionsmodell In () = X> diag i (1 i ) X gilt.
Weil wir voraussetzen, dass 0 0 und wenn die Eintragungen xij der Designmatrix X so
1
gewhlt werden, dass limn X> X
= 0, dann gilt auch (49).
Sei nun K() die Einheitsmatrix. Wegen (47) und (48) wird dann H0 : i = 0 abgelehnt, wenn

b

n i
q
> z1/2 ,
1 b
In ( n ) ii
(50)
wobei z1/2 das (1 /2)Quantil der N(0, 1)Verteilung ist.
4.4
Gewichteter KQSchtzer bei kategorialer Regression
Anstelle des in Abschnitt 4.3 diskutierten MaximumLikelihoodAnsatzes zur Schtzung des Parametervektors
betrachten wir nun fr das kategoriale Regressionsmodell noch einen gewichteten KQSchtzer fr .
4.4.1
Schtzung des Erwartungswertvektors
Zur Erinnerung (vgl. Abschnitt 4.2.2): Im binren kategorialen Regressionsmodell sind die Stichprobenvariablen
Y1 , . . . , Yn Bernoulliverteilt, d.h., sie knnen nur die Werte 0 bzw. 1 mit positiver Wahrscheinlichkeit annehmen.
Dabei verwenden wir so wie bisher die Schreibweise
i = P(Yi = 1)
= i = E Yi
i = 1, . . . , n ,
wobei vorausgesetzt wird, dass 0 
g(1 ), . . . , g(n ) = X .
(51)
97
>
Um die Vektoren = (1 , . . . , n )> bzw. g() = g(1 ), . . . , g(n ) schtzen zu knnen, nehmen wir an,
dass wir fr jedes i = 1, . . . , n jeweils ni > 0 unabhngige und identischPverteilte Kopien Yi1 , . . . , Yini von
n
Yi beobachten knnen. Der Gesamtstichprobenumfang ist dann gleich i=1 ni .
Fr jedes i = 1, . . . , n ist
bi =
ni
1 X
Yij
ni j=1
(52)
ein natrlicher Schtzer fr i .
>
b = (b
1 ), . . . , g(b
Hieraus ergeben sich die Schtzer
1 , . . . ,
bn )> bzw. g(b
) = g(b
n ) fr bzw. g().
b erwartungstreu fr ist und dass seine Kovarianzmatrix

Man kann
sich leichtberlegen, dass der Schtzer
K(b
) = Cov (b
i ,
bj ) die folgende Form besitzt.
Lemma 4.3
Es gilt
b = ,
E
und
und
Var
bi = i (1 i )/ni
K(b
) = diag Var
bi .
(53)
(54)
Beweis Die Behauptung ergibt sich unmittelbar aus der Tatsache, dass die Zufallsvariablen n1
b1 , . . . , nn
bn
unabhngig und binomialverteilt sind mit ni
bi B(ni , i ) fr jedes i = 1, . . . , n.
>
Auerdem ergibt sich aus dem folgenden zentralen Grenzwertsatz, dass der Schtzer g(b
) = g(b
1 ), . . . , g(b
n )
asymptotisch normalverteilt ist.
Theorem 4.3
dann gilt
Wenn ni fr jedes i = 1, . . . , n, so dass

Pn
j=1 nj
i [1, )
i = 1, . . . , n ,
ni
Xn
j=1
nj
1/2
d
g(b
) g() N(o, K) ,
wobei
K = diag(i )
und
i = i (g (1) (i ))2 i (1 i ) .
(55)
(56)
(57)
Beweis
Weil wir voraussetzen, dass die Linkfunktion g : (0, 1) R zweimal stetig differenzierbar ist, ergibt
sich durch Taylor-Reihenentwicklung, dass fr jedes i = 1, . . . , n
g(b
i ) g(i ) =
g (1) (i )
bi i + g (2) (Zi )
bi i
= g (1) (i )
bi i + Ri ,
2
wobei Ri = g (2) (Zi )
bi i und Zi : R eine Zufallsvariable ist, deren Werte zwischen
bi und
i liegen.
Aus dem zentralen Grenzwertsatz fr Summen von unabhngigen und identisch verteilten Zufallsvariablen (vgl. Theorem WR-5.16) ergibt sich, dass
1/2
ni
bi i N(0, i (1 i ))
i = 1, . . . , n .
(58)
98
Weil
bi i 0 und somit auch Zi i 0 bzw. g (2) (Zi ) g (2) (i ) mit Wahrscheinlichkeit 1, gilt
P
1/2
auerdem, dass ni Ri 0 bzw.
Xn
j=1
nj
1/2
Pn
Ri =
j=1
nj
!1/2
ni
1/2
ni Ri 0 .
Insgesamt ergibt sich also mit Hilfe des Satzes von Slutsky (vgl. die Theoreme WR-5.9 und WR-5.11),
dass
Pn
!1/2
Xn
1/2
1/2
Xn
j=1 nj
1/2
bi i +
nj
nj
g(b
i ) g(i )
=
g (1) (i )ni
Ri
j=1
j=1
ni
d
N 0, i (g (1) (i ))2 i (1 i ) .
1 ) g(1 ), . . . , g(b
i ) g(i ) unabhngig sind, ist damit die Behauptung
Weil die Zufallsvariablen g(b
bewiesen.
4.4.2
Asymptotische Normalverteiltheit des KQSchtzers
Durch die Gestalt der asymptotischen Kovarianzmatrix K in Theorem 4.3 wird der folgende Ansatz zur Schtzung
des Parametervektors motiviert.
hnlich wie in Abschnitt 2.1 betrachten wir hierfr die Methode der kleinsten Quadrate zur Bestimmung
b fr die unbekannten Regressionskoeffizienten 1 , . . . , m .
eines Schtzers
b = (b1 , . . . , bm )> bestimmt werden, so dass der gewichtete quadratische
Und zwar soll ein Zufallsvektor
Fehler
2
n
X
g(b
i ) x >
i
(59)
e() =
2
bii
i=1
Pn
(1)
2
b minimal wird, wobei
=
(b
i ))2
bi (1
bi ) und vorausgesetzt wird, dass die
fr =
bii
j=1 nj /ni (g
2
Gewichte
bii positiv sind.
Beachte
2
Die gewichtete Summe e() der quadrierten Residuen g(b
i ) x >
in (59) kann wie folgt dargestellt
i
2
b = diag
werden: Mit der Schreibweise K
bii gilt
> 1
b
e() = g(b
) X K
g(b
) X .
(60)
Genauso wie im Beweis von Theorem 2.1 lsst sich zeigen, dass der gewichtete quadratische Fehler
e() genau dann minimal ist, wenn Lsung der folgenden Normalengleichung ist:
b 1 X = X> K
b 1 g(b
X> K
) .
(61)
b 1 X invertierbar ist, hat (61) die eindeutig bestimmte Lsung

Weil die Matrix X> K
b = (X> K
b 1 X)1 X> K
b 1 g(b
) .
(62)
b in (62) asymptotisch normalverteilt ist, wenn die (Teil)

Wir zeigen nun, dass der gewichtete KQSchtzer
Stichprobenumfnge ni fr jedes i = 1, . . . , n unbegrenzt wachsen.
Hierfr bentigen wir die folgenden vektoriellen Versionen des Satzes von Slutsky (vgl. die Theoreme WR5.9
und WR5.11) sowie des Continuous Mapping Theorems (vgl. Theorem WR5.12).
99
Lemma 4.4
Sei m N, seien Y, Yn , Zn : Rm beliebige Zufallsvektoren ber einunddemselben Wahrscheinlichkeitsraum, und sei c Rm .
d
Wenn Yn Y und Zn c, dann gilt Yn + Zn Y + c und Yn> Zn c> Y.

Lemma 4.5
Sei m N, seien Z, Z1 , Z2 , . . . : Rm beliebige Zufallsvektoren, und sei : Rm R eine stetige
Funktion.
d
Dann gilt (Zn ) (Z), wenn Zn Z.

Die Beweise der Lemmas 4.4 und 4.5 verlaufen hnlich wie die Beweise der Theoreme WR5.9, WR5.11 bzw.
WR5.12. Sie werden deshalb hier weggelassen.
Theorem 4.4
Wenn ni fr jedes i = 1, . . . , n, so dass

Pn
j=1 nj
i [1, )
i = 1, . . . , n ,
ni
dann gilt
Xn
j=1
nj
(63)
1/2

d
1
b
N o, X> K1 X
(64)
wobei K = diag(i ) die in Theorem 4.3 betrachtete Diagonalmatrix ist.

Beweis
b in (62) ergibt sich, dass
Aus der Definitionsgleichung von
b
b 1 X)1 X> K
b 1 g(b
b 1 X)1 X> K
b 1 g(b
= (X> K
) = (X> K
) X
b 1 X)1 X> K
b 1 g(b
= (X> K
) g() ,
wobei in der letzten Gleichheit verwendet wurde, dass g() = X; vgl. (51).
Xn
1/2
d
nj
g(b
) g() N(o, K) ,
j=1
wobei die asymptotische Kovarianzmatrix K in (57) gegeben ist.

P
b
Auerdem gilt K
K, wenn ni fr jedes i = 1, . . . , n.
Insgesamt ergibt sich hieraus mit Hilfe
des Satzes von Slutsky (vgl. Lemma 4.4),
des Continuous Mapping Theorems (vgl. Lemma 4.5) sowie
des Theorems 1.3 ber die Lineartransformation normalverteilter Zufallsvektoren,
dass
X n
1/2
Xn
1/2
b
b 1 X)1 X> K
b 1 g(b
nj
=
nj
(X> K
) g()
j=1
j=1
Xn
1/2
b 1 X)1 X> K
b 1 (X> K1 X)1 X> K1 1
=
nj
(X> K
j=1
{z
}
|
P
> 1
X) X K
g(b
) g()

>
d
N o, (X> K1 X)1 X> K1 K (X> K1 X)1 X> K1

1
= N o, X> K1 X
.
>
(X K
100
Beachte
Wenn n1 + . . . + nn eine groe Zahl ist, dann kann zur Konstruktion eines asymptotischen Tests fr
das Hypothesenpaar H0 : i = 0 vs. H1 : 6= 0 die Testgre
Xn
1/2 .q
e
nj
bi
kii
T =
j=1
e = X> K
b 1 X 1 ist.
betrachtet werden, wobei e
kii das i-te Diagonalelement der Matrix K
Wegen Theorem 4.4 wird dabei H0 abgelehnt, wenn |T | > z1/2 .
4.4.3
Bewertung der Anpassungsgte
Ein wichtiges Problem ist die Wahl einer geeigneten Designmatrix X, um das Modell g() = X mglichst gut
an die vorliegenden Daten anzupassen. Das folgende Resultat kann zur Beantwortung dieser Frage dienen.
Theorem 4.5
Unter den Bedingungen von Theorem 4.3 gilt

n
X
d 2
b >K
b
b 1 g(b
nj g(b
) X
) X
nm .
(65)
j=1
Beweis
In Theorem 4.3 hatten wir gezeigt, dass der Zufallsvektor
N(o, K) verteilt ist.
Pn
j=1
nj
1/2
g(b
) X nherungsweise
P
P
b
b
Weil
und K
K, ergibt sich die Behauptung mit Hilfe
des Satzes von Slutsky (vgl. Lemma 4.4),

des Continuous Mapping Theorems (vgl. Lemma 4.5) sowie
des Theorems 1.9 ber quadratische Formen von normalverteilten Zufallsvektoren.
Beachte
Pn
b >K
b als Mazahl fr die Gte
b 1 g(b
Wegen Theorem 4.5 kann die Gre j=1 nj g(b
) X
) X
der Anpassung des Models g() = X an die vorliegenden Daten aufgefasst werden.
Dabei wird die Anpassungsgte als hinreichend gut eingeschtzt, wenn
n
X
b >K
b < 2
b 1 g(b
nj g(b
) X
) X
nm,1 .
j=1
Andererseits sollten die Dimensionen von X mglichst klein sein, d.h. insbesondere, dass fr jedes
i = 1, . . . , m die Nullhypothese des Tests H0 : i = 0 vs. H1 : i 6= 0 klar abgelehnt werden sollte.
5 TESTS VON VERTEILUNGSANNAHMEN
101
Tests von Verteilungsannahmen

In diesem Kapitel bezeichnen wir die Stichprobenvariablen mit X1 , . . . , Xn , wobei wir von jetzt an stets
voraussetzen, dass X1 , . . . , Xn : R eine Folge von unabhngigen und identisch verteilten Zufallsvariablen ist.
Die Annahmen, die wir bisher ber die Verteilung P der Stichprobenvariablen X1 , . . . , Xn gemacht haben,
waren entweder rein qualitativ (diskrete bzw. absolutstetige Verteilung) oder parametrisch, wobei in diesem
Fall vorausgesetzt wurde,
dass P zu einer parametrischen Familie {P , } von Verteilungen mit Rm gehrt
und dass lediglich der Parametervektor = (1 , . . . , m )> bzw. ein Teil seiner Komponenten unbekannt
ist.
Im Folgenden diskutieren wir nun so genannte Anpassungstests, die in der englischsprachigen Literatur
GoodnessofFitTests genannt werden.
Dabei betrachten wir zunchst einen Test, um die Hypothese H0 : P = P0 zu verifizieren, dass die
Verteilung P der Stichprobenvariablen gleich einer vorgegebenen (hypothetischen) Verteilung P0 ist.
Anschlieend konstruieren wir Tests, um zu prfen, ob P zu einer vorgegebenen (parametrischen)
Klasse von Verteilungen {P , } gehrt.
5.1
5.1.1
KolmogorowSmirnowTest
Empirische Verteilungsfunktion; KSTeststatistik
In der Literatur werden verschiedene Tests vorgeschlagen, um die Hypothese H0 : P = P0 zu verifizieren,

dass die Verteilung P der unabhngigen und identisch verteilten Zufallsvariablen X1 , . . . , Xn gleich einer
vorgegebenen Verteilung P0 ist.
Ein solches Verfahren ist der KolmogorowSmirnowTest, der auf der Untersuchung der in Abschnitt I1.5
eingefhrten empirischen Verteilungsfunktion Fbn : R Rn [0, 1] beruht, wobei
#{i : 1 i n, xi t}
Fbn (t; x1 , . . . , xn ) =
.
n
Dabei wird die Stichprobenfunktion Tn : Rn [0, ) betrachtet mit
Tn (x1 , . . . , xn ) = n sup | Fbn (t; x1 , . . . , xn ) F0 (t)| .
(1)
(2)
tR
In Abschnitt I1.5.3 hatten wir gezeigt, dass die Verteilung der KSTeststatistik Tn (X1 , . . . , Xn ) nicht von
P0 abhngt, wenn vorausgesetzt wird, dass die zu P0 gehrende Verteilungsfunktion F0 : R [0, 1] stetig
ist, vgl. Theorem I1.19.
Sei sn,1 das (1 )Quantil der Verteilung von Tn (X1 , . . . , Xn ) unter einer beliebigen stetigen Verteilungsfunktion F0 . Der KolmogorowSmirnowTest verwirft die Nullhypothese H0 : P = P0 , wenn
Tn (x1 , . . . , xn ) > sn,1 .
(3)
Beachte
Die Quantile sn,1 lassen sich durch MonteCarloSimulation bestimmen, wobei die Verteilungsfunktion F0 der StandardGleichverteilung in [0, 1] zugrunde gelegt werden kann, vgl. Korollar I1.3.
102
Wenn nicht vorausgesetzt wird, dass F0 stetig ist, dann liefert die in (3) betrachtete Entscheidungsregel
einen Test, dessen Niveau kleiner als sein kann.
Wenn jedoch das Quantil s0n,1 von Tn (X1 , . . . , Xn ) unter F0 (beispielsweise durch MCSimulation)
bestimmt werden kann, dann ist durch Tn (x1 , . . . , xn ) > s0n,1 auch bei unstetigem F0 ein Test
gegeben, der das Niveau ausschpft.
5.1.2
Asymptotische Verteilung
Wir untersuchen nun die asymptotische Verteilung der in (2) eingefhrten KSTeststatistik Tn (X1 , . . . , Xn ), wenn
n . Hierfr stellen wir zunchst einige Hilfsmittel bereit.
Insbesondere bentigen wir den folgenden Stetigkeitssatz fr charakteristische Funktionen von Zufallsvektoren,
der eine mehrdimensionale Verallgemeinerung von Theorem WR5.20 ist und den wir hier ohne Beweis angeben.
Lemma 5.1 Sei m N, und seien Z, Z1 , Z2 , . . . : Rm beliebige Zufallsvektoren mit den charakteristischen
d
Funktionen Zn bzw Z . Es gilt Zn Z genau dann, wenn
lim Zn (t) = Z (t)
t Rm .
(4)
Auerdem bentigen wir einen multivariaten zentralen Grenzwertsatz fr Summen von unabhngigen und identisch verteilten Zufallsvektoren,
dessen Beweis mit Hilfe von Lemma 5.1 auf den entsprechenden zentralen Grenzwertsatz fr reellwertige
Zufallsvariablen (vgl. Theorem WR5.16) zurckgefhrt werden kann.
Dieser Ansatz wird in der englischsprachigen Literatur CramrWoldDevice genannt.
Lemma 5.2
Sei m N, und sei Z1 , Z2 , . . . : Rm eine Folge von unabhngigen und identisch verteilten Zufallsvektoren mit Erwartungswertvektor = (1 , . . . , m )> und Kovarianzmatrix K.
Dann gilt
lim P
(Z + . . . + Z ) n
1
n
x = K (x)
n
x Rm ,
(5)
wobei K : Rm [0, 1] die Verteilungsfunktion der N(o, K)Verteilung bezeichnet.

Beweis
Sei Zn = (Zn1 , . . . , Znm )> . Wegen Lemma 5.1 ist die Verteilungskonvergenz (5) damit quivalent, dass
fr jedes t Rm
lim n (t) = (t) ,
(6)
n
wobei n (t) die charakteristische Funktion von (Z1 + . . . + Zn n)/ n ist mit
m
X
(Z1j + . . . + Znj ) nj
n (t) = E exp i
tj
n
j=1
und (t) die charakteristische Funktion der N(o, K)Verteilung ist mit
1
(t) = exp t> Kt .
2
(7)
103
Auerdem kann man sich leicht berlegen, dass

m
P
tj (Zkj j )
n
X
j=1
n (t) = E exp i
n
t = (t1 , . . . , tm )> Rm
(8)
k=1
und
E
m
X
tj (Zkj j ) = 0 ,
j=1
Var
m
X
tj (Zkj j ) = t> Kt
k N.
(9)
j=1
Wenn t> Kt = 0, dann ergibt sich aus (9),

Pm
dass j=1 tj (Zkj j ) = 0 mit Wahrscheinlichkeit 1 fr beliebige k = 1, . . . , n und n 1.
Hieraus und aus (7) (8) folgt, dass n (t) = 1 = (t) fr jedes n 1, d.h., (6) gilt.
Sei nun t> Kt > 0.
Aus (8) ergibt sich,
Pn dass
Pmdie Zahl n (t) der
Wert der charakteristischen Funktion der reellwertigen
Zufallsvariable k=1 j=1 tj (Zkj j )/ n an der Stelle 1 ist.
Auerdem ergibt sich aus (7), dass (t) der Wert der charakteristischen Funktion der (eindimensionalen) Normalverteilung N(0, t> Kt) an der Stelle 1 ist.
Andererseits folgt aus Theorem WR5.16, d.h., aus dem (1dimensionalen) zentralen Grenzwertsatz fr Summen von unabhngigen und identisch verteilten (reellwertigen) Zufallsvariablen, dass
fr n
m
P
t (Z j )
n
X j=1 j kj
d
N(0, t> Kt) .

(10)
n
k=1
Hieraus, aus (7) (8) und aus Theorem WR-5.20, d.h., aus dem Stetigkeitssatz fr charakteristische
Funktionen von reellwertigen Zufallsvariablen ergibt sich nun die Gltigkeit von (6).
Der folgende Grenzwertsatz, der bereits in Abschnitt I1.5.3 erwhnt wurde, liefert eine Nherungsformel fr die
Verteilungsfunktion von Tn (X1 , . . . , Xn ) bei groem Stichprobenumfang n.
Theorem 5.1
Die Verteilungsfunktion F0 : R [0, 1] sei stetig. Unter H0 : P = P0 gilt dann
lim P Tn (X1 , . . . , Xn ) x = K(x)

x R,
n
wobei K : R [0, 1] die Verteilungsfunktion der sogenannten KolmogorowVerteilung ist mit
(1)k1 exp(2k 2 x2 ) , wenn x > 0,

12
k=1
K(x) =
0,
wenn x 0.
(11)
Beweis
Wir skizzieren hier lediglich die Beweisidee, denn der komplette Beweis von Theorem 5.1 (vgl. z.B. A.
van der Vaart und J. Wellner (1996)) geht ber den Rahmen dieser Vorlesung hinaus,
weil er relativ tiefliegende Hilfsmittel aus der Theorie der stochastischen Prozesse erfordert, die in
den Kursvorlesungen nicht behandelt werden.
Dabei wird insbesondere der Begriff der Verteilungskonvergenz in Funktionenrumen sowie ein so
genannter funktionaler zentraler Grenzwertsatz bentigt,
der als eine (unendlich dimensionale) Verallgemeinerung der klassischen zentralen Grenzwertstze fr Summen von rellwertigen Zufallsvariablen (vgl. Abschnitt WR5.3) bzw. von endlich
dimensionalen Zufallsvektoren (vgl. Lemma 5.2) aufgefasst werden kann.
104
Weil die Verteilung von Tn (X1 , . . . , Xn ) nicht von F0 abhngt (vgl. Theorem I1.19), knnen wir
o.B.d.A. annehmen, dass F0 die Verteilungsfunktion der Gleichverteilung in [0, 1] ist, d.h., F0 (t) = t
fr jedes t [0, 1].
Um die asymptotische Verteilung von Tn (X1 , . . . , Xn ) fr n zu untersuchen, verwenden wir
dabei die abkrzende Schreibweise

Bn (t) = n Fbn (t; X1 , . . . , Xn ) F0 (t)
t [0, 1] ,
(12)
wobei die Familie von Zufallsvariablen {Bn (t), t [0, 1]} ein stochastischer Prozess ist, der in der
Literatur empirischer Prozess genannt wird.
Pn

Fr beliebige t1 , . . . , tm [0, 1] gilt dann n Bn (t1 ), . . . , Bn (tm ) = i=1 Yi (t1 )t1 , . . . , Yi (tm )tm ,
wobei
1 , wenn X t ,
i
j
Yi (tj ) =
0 , wenn X > t .
i
j

Der Zufallsvektor n Bn (t1 ), . . . , Bn (tm ) lsst sich somit fr jedes n 1 als Summe von n
unabhngigen und identisch verteilten Zufallsvektoren mit Erwartungswertvektor o darstellen,
2
2
dessen Kovarianzmatrix K = (ij
) durch ij
= min{ti , tj } ti tj gegeben ist.
Aus Lemma 5.2 ergibt sich nun, dass fr n
Bn (t1 ), . . . , Bn (tm ) B(t1 ), . . . , B(tm ) ,

(13)
wobei B(t1 ), . . . , B(tm ) ein normalverteilter Zufallsvektor ist mit B(t1 ), . . . , B(tm ) N(o, K).
Hieraus und aus dem ContinuousMappingTheorem fr Zufallsvektoren (vgl. Lemma 4.5) folgt,
dass
d

max
nFbn (ti ; X1 , . . . , Xn ) F0 (ti ) max B(ti ) ,
(14)
i=1,...,m
i=1,...,m
Man kann sich leicht berlegen, dass die Verteilung N(o, K) des Zufallsvektors B(t1 ), . . . , B(tm ) als
endlichdimensionale Verteilung des so genannten Brownschen Brckenprozesses {B(t), t [0, 1]}
mit B(t) = X(t) tX(1) aufgefasst werden kann, wobei {X(t), t [0, 1]} ein (Standard) Wiener
Prozess ist,
d.h., {X(t), t [0, 1]} ist ein stochastischer Prozess mit stetigen Trajektorien und unabhngigen
Zuwchsen, so dass X(0) = 0 und X(t2 ) X(t1 ) N(0, t2 t1 ) fr beliebige t1 , t2 [0, 1] mit
t1 < t2 , vgl. Abschnitt 2.4 des Skriptes zur Vorlesung Wahrscheinlichkeitstheorie.
Mit Hilfe der Theorie der Verteilungskonvergenz in Funktionenrumen sowie eines entsprechenden funktionalen zentralen Grenzwertsatzes kann man nun zeigen, dass nicht nur die endlichdimensionalen
Konvergenzen (13) und (14) gelten, sondern dass darber hinaus auch
Bn (t), t [0, 1] B(t), t [0, 1]

(15)
bzw.
max
t[0,1]

nFbn (t; X1 , . . . , Xn ) F0 (t) max B(t) .
t[0,1]
(16)
Auerdem kann man zeigen, dass die Verteilungsfunktion des Maximums maxt[0,1] B(t) der Brownschen Brcke {B(t), t [0, 1]} durch (11) gegeben ist.
Beachte
Wegen Theorem 5.1 wird bei hinreichend groem Stichprobenumfang (als Faustregel gilt n > 40, vgl.
die Bemerkung am Ende von Abschnitt I1.5.3) die Hypothese H0 : P = P0 abgelehnt, wenn
Tn (x1 , . . . , xn ) > 1 ,
wobei 1 das (1 )Quantil der in (11) gegebenen KolmogorowVerteilung bezeichnet, d.h., 1
ist Lsung der Gleichung K(1 ) = 1 .

5.1.3
105
Gteeigenschaften; punktweise und gleichmige Konsistenz
In diesem Abschnitt betrachten wir einige Gteeigenschaften des KolmogorowSmirnowTests.

Um die (punktweise) Konsistenz des KSTests zu zeigen, bentigen wir den Satz von GliwenkoCantelli (vgl.
Theorem I1.18), d.h., dass
(17)
PF0 lim sup Fbn (t; X1 , . . . , Xn ) F0 (t) = 0 = 1 .
n tR
Theorem 5.2 Die Verteilungsfunktion F0 : R [0, 1] sei stetig. Dann ist der KolmogorowSmirnowTest
punktweise konsistent fr jede Verteilungsfunktion F der Stichprobenvariablen mit F 6= F0 , d.h., es gilt
lim PF Tn (X1 , . . . , Xn ) > sn,1 = 1 .

(18)
n
Beweis
Aus (17) ergibt sich, dass fr jedes F 6= F0
PF lim sup Fbn (t; X1 , . . . , Xn ) F0 (t) > 0 = 1 .

n tR
Hieraus folgt, dass Tn (X1 , . . . , Xn ) mit Wahrscheinlichkeit 1 unter F 6= F0 .

Weil sn,1 1 < fr n , wobei 1 das (1 )Quantil der in (11) gegebenen
f.s.
KolmogorowVerteilung ist, gilt auch, dass Tn (X1 , . . . , Xn ) (sn,1 1 ) und somit
lim PF Tn (X1 , . . . , Xn ) > sn,1

= lim PF Tn (X1 , . . . , Xn ) (sn,1 1 ) > 1
n
n
= lim PF Tn (X1 , . . . , Xn ) > 1 = 1 .
Beachte
In Verschrfung von Theorem 5.2 kann man zeigen, dass der KSTest auch gleichmig konsistent ist,
wenn der KolmogorowAbstand
dK (n ; F0 ) = inf sup |F (t) F0 (t)|
F n tR
(19)
zwischen der Familie n der alternativen Verteilungsfunktionen und der (hypothetischen) Verteilungsfunktion F0 mit wachsendem Stichprobenumfang n nicht zu schnell gegen 0 konvergiert.
Hierfr bentigen wir die folgende Verschrfung des Satzes von GliwenkoCantelli, die in der Literatur
die Ungleichung von DworetskyKieferWolfowitz genannt wird und die wir hier ohne Beweis angeben.
Lemma 5.3
Fr beliebige c > 0 und n 1 gilt
PF sup Fbn (t; X1 , . . . , Xn ) F (t) > c C exp 2nc2 ,
(20)
tR
wobei C 2 eine universelle Konstante ist, die nicht von F abhngt.

Beachte
Aus Lemma 5.3 folgt, dass es fr jedes > 0 ein c0 > 0 gibt, das nicht von F abhngt und dass
(21)
inf PF
n sup Fbn (t; X1 , . . . , Xn ) F (t) c0 1 .
n1
tR
106
Um dies zu sehen, gengt es fr (0, 1), den Schwellenwert c in (20) so zu whlen, dass c = c0 / n,
wobei
r

1
0
c = log
.
2
C
Weil c0 nicht von F abhngt, gilt auerdem, dass es fr jedes > 0 ein c0 > 0 gibt, so dass
inf PFn
n sup Fbn (t; X1 , . . . , Xn ) Fn (t) c0 1 ,
n1
(22)
tR
wobei {Fn } eine beliebige Folge von Verteilungsfunktionen ist.
Mit diesen Hilfsmitteln knnen wir die bereits oben erwhnte gleichmige KonsistenzEigenschaft des KSTests
fr den Fall zeigen, dass der KolmogorowAbstand dK (n ; F0 ) zwischen der Familie n der alternativen Verteilungsfunktionen und der (hypothetischen) Verteilungsfunktion F0 mit wachsendem Stichprobenumfang n nicht
zu schnell gegen 0 konvergiert.
Theorem 5.3
Wenn es eine Folge {n } positiver Zahlen mit n gibt, so dass
n dK (n ; F0 ) n
n 1,
dann gilt
lim
inf PF Tn (X1 , . . . , Xn ) > sn,1 = 1 .
n F n
(23)
(24)
Beweis
Sei {n } eine Folge positiver Zahlen mit n , fr die (23) gilt, und sei {Fn } eine beliebige Folge
von Verteilungsfunktionen, so dass fr jedes n 1
Fn n
und somit
n dK (Fn ; F0 ) n ,
(25)
wobei dK (Fn ; F0 ) = suptR |Fn (t) F0 (t)|.
Es gengt zu zeigen, dass
lim PFn Tn (X1 , . . . , Xn ) > sn,1 = 1 .
(26)
Aus der Dreiecksungleichung ergibt sich, dass

dK (Fn , F0 ) dK (Fn , Fbn ) + dK (Fbn , F0 ) .
Tn (X1 , . . . , Xn ) n
n dK (Fn , Fbn ) .
Folglich gilt
PFn Tn (X1 , . . . , Xn ) > sn,1 PFn n dK (Fn , Fbn ) < n sn,1 .
(27)
Weil sn,1 1 < und somit n sn,1 fr n , ergibt sich die Gltigkeit von (26)
aus (22) und (27).
Beachte
Die Bedingung (23) ist insbesondere dann erfllt, wenn dK (n ; F0 ) fr jedes n 1 und > 0 eine
Konstante ist, die nicht von n abhngt.
107
Wenn n dK (Fn ; F0 ) n und n > sn,1 , dann ergibt sich aus (27), wobei die rechte Seite dieser
Ungleichung mit Lemma 5.3 (fr F = Fn ) weiter nach unten abgeschtzt wird, dass fr jedes n 1
die folgende (nicht asymptotische) untere Schranke fr die Macht des KSTests gilt:
PFn Tn (X1 , . . . , Xn ) > sn,1 1 2 exp 2(n sn,1 )2 .

(28)
Bei vorgegebenem (endlichem)
Stichprobenumfang n < kann die Ablehnungswahrscheinlichkeit
PF0 Tn (X1 , . . . , Xn ) > sn,1 jedoch kleiner als sein.
Andererseits kann die (asymptotische) Macht des KSTests beliebig klein werden, d.h., beliebig nahe bei sein,
wenn der KolmogorowAbstand dK (n ; F0 ) zwischen der Familie n der alternativen Verteilungsfunktionen und
der (hypothetischen) Verteilungsfunktion F0 mit wachsendem Stichprobenumfang n hinreichend schnell gegen 0
konvergiert.
Theorem 5.4
Sei {Fn } eine beliebige Folge von stetigen Verteilungsfunktionen, so dass
lim n dK (Fn ; F0 ) = 0 .
(29)
Dann gilt
lim sup PFn Tn (X1 , . . . , Xn ) > sn,1 .
(30)
Beweis
Aus der Dreiecksungleichung ergibt sich, dass
PFn Tn (X1 , . . . , Xn ) > sn,1 PFn n dK (Fbn ; Fn ) + n dK (Fn ; F0 ) > sn,1 .

Hieraus und aus (29) ergibt sich die Gltigkeit von (30), weil die Verteilung von
Fn nicht von n abhngt.
5.2
n dK (Fbn ; Fn ) unter
2 Anpassungstest
Wir diskutieren nun einen asymptotischen Anpassungstest, wobei eine Testgre betrachtet wird, die bei groem
Stichprobenumfang nherungsweise 2 verteilt ist. Dabei wird jedoch im allgemeinen nicht die in Abschnitt 5.1
analysierte Hypothese
H0 : P = P 0
versus H1 : P 6= P0
(31)
betrachtet, denn wir vergrbern das Modell der Zufallsstichprobe (X1 , . . . , Xn ) durch Klassenbildung.
5.2.1
Klassenbildung; PearsonStatistik
Fr eine (hinreichend groe) natrliche Zahl r zerlegen wir den Wertebereich der Zufallsvariablen X1 , . . . , Xn
in r Klassen (a1 , b1 ], . . . , (ar , br ] mit
a1 < b1 = a2 < b2 = . . . = ar < br .
Anstelle der Stichprobenvariablen X1 , . . . , Xn betrachten wir die Klassenstrken Z1 , . . . , Zr , wobei
Zj = #{i : 1 i n, aj < Xi bj }
j = 1, . . . , r .
(32)
108
Wir zeigen zunchst, dass der Zufallsvektor (Z1 , . . . , Zr ) multinomialverteilt ist mit den Parametern n 1 und
p = (p1 , . . . , pr1 )> [0, 1]r1 ,
Lemma 5.4
wobei pj = P(aj < X1 bj )
j = 1, . . . , r 1 .
Fr beliebige natrliche Zahlen k1 , . . . , kr 0 mit k1 + . . . + kr = n gilt

P(Z1 = k1 , . . . , Zr = kr ) =
n!
pk1 . . . pkr r ,
k1 ! . . . kr ! 1
(33)
wobei pr = 1 (p1 + . . . + pr1 ).

Beweis
Weil die Zufallsvariablen X1 , . . . , Xn unabhngig und identisch verteilt sind, gilt
n
Y
P X1 (ai1 , bi1 ], . . . , Xn (ain , bin ] =
P(aij < X1 bij ) = pk11 . . . pkr r
(34)
j=1
fr jede Folge von Intervallen (ai1 , bi1 ], . . . , (ain , bin ], die k1 -mal das Intervall (a1 , b1 ], . . . , kr -mal das
Intervall (ar , br ] enthlt.
Die Behauptung (33) ergibt sich nun durch Summation der in (34) betrachteten Wahrscheinlichkeiten
ber smtliche Permutationen von Folgen (ai1 , bi1 ], . . . , (ain , bin ] dieser Art.
Beachte
Die Multinomialverteilung mit den Parametern n 1 und p = (p1 , . . . , pr1 )> [0, 1]r1 bezeichnen
wir mit Mr1 (n, p). Man kann sich leicht berlegen, dass fr r = 2 die Multinomialverteilung M1 (n, p1 )
mit der Binomialverteilung Bin(n, p1 ) bereinstimmt.
Anstelle das Testproblem (31) zu untersuchen, prfen wir die Hypothese H0 : p = p0 (gegen die
Alternative H1 : p 6= p0 ) fr einen vorgegebenen (hypothetischen) Parametervektor
p0 = (p01 , . . . , p0,r1 )> (0, 1)r1
mit
r1
P
i=1
p0i < 1.
Wir zerlegen also die Familie der insgesamt in Betracht gezogenen Verteilungen der Stichprobenvariablen X1 , . . . , Xn in die Teilmengen
0 = {P : PP (aj < X1 bj ) = p0j j = 1, . . . , r 1}
bzw.
1 = \ 0 .
(35)
Dabei betrachten wir die Stichprobenfunktion Tn : Rn [0, ) mit

Tn (x1 , . . . , xn ) =
r
X
j=1
Zj (x1 , . . . , xn ) np0j
np0j
2
,
(36)
wobei Zj (x1 , . . . , xn ) die Anzahl derjenigen Stichprobenwerte x1 , . . . , xn bezeichnet, die im Intervall

(aj , bj ] liegen.
Unter H0 : p = p0 gilt E Zj (X1 , . . . , Xn ) = np0j fr jedes j {1, . . . , r}.
Es ist deshalb sinnvoll, die Hypothese H0 : p = p0 abzulehnen, wenn Tn (x1 , . . . , xn ) signifikant
grer als 0 ist.
Um dies entscheiden zu knnen, bentigen wir Kenntnisse ber die Verteilung der in (36) eingefhrten Testgre Tn (X1 , . . . , Xn ), die PearsonStatistik genannt wird.

5.2.2
109
Wir zeigen, dass Tn (X1 , . . . , Xn ) in Verteilung gegen die 2 Verteilung mit r 1 Freiheitsgraden strebt, wenn
n . Dies ist die Grundlage des 2 -Anpassungstests, der von Karl Pearson (18571936) eingefhrt worden ist.
Theorem 5.5 Fr jedes P 0 gilt
lim PP Tn (X1 , . . . , Xn ) > 2r1,1 = ,

n
(0, 1) ,
(37)
wobei 2r1,1 das (1 )Quantil der 2 Verteilung mit r 1 Freiheitsgraden bezeichnet.

Beweis
In Lemma 5.4 hatten wir gezeigt, dass der in (32) gegebene Zufallsvektor Zn = (Zn1 , . . . , Znr )> , wobei
Znj = Zj (X1 , . . . , Xn ), multinomialverteilt ist unter P 0 mit den Parametern n N und
p0 = (p01 , . . . , p0,r1 )> [0, 1]r1 ,
wobei p0j = PP (aj < X1 bj ) j = 1, . . . , r 1 .
Hieraus folgt insbesondere, dass fr beliebige i, j {1, . . . , r}
np p ,
wenn i 6= j,
0i 0j
E Zni = np0i ,
Cov (Zni , Znj ) =
np (1 p ) , wenn i = j.
0i
0i
(38)
Pn
Auerdem ergibt sich aus (32), dass Zj = i=1 1I{aj <Xi bj } , wobei 1I{aj <Xi bj } der Indikator des
Ereignisses {aj < Xi bj } ist, d.h., Zn lsst sich als Summe von n unabhngigen und identisch
verteilten Zufallsvektoren darstellen.
Z0n =
Z
>
Z
n1 np01 , . . . , n,r1
np0,r1
n
n
(39)
ergibt sich somit aus Lemma 5.2, dass fr n

d
Z0n Z0 N(o, K) ,
(40)
wobei der (r 1)dimensionale Zufallsvektor Z0 eine (regulre) multivariate Normalverteilung hat,

2
deren Kovarianzmatrix K = (ij
) gegeben ist durch
p p ,
wenn i 6= j,
0i 0j
2
ij
=
(41)
p (1 p ) , wenn i = j.
0i
0i
Man kann sich leicht berlegen, dass K invertierbar ist, wobei die Eintragungen aij der inversen Matrix
A = K1 gegeben sind durch
,
wenn i 6= j,
p0r
aij =
(42)
1
1
+
, wenn i = j.
p0i
p0r
Aus (40) und aus den Eigenschaften von Lineartransformationen normalverteilter Zufallsvektoren
d
(vgl. Theorem 1.3) ergibt sich nun mit Hilfe von Lemma 4.5, dass A1/2 Z0n N(o, Ir1 ), wobei
Ir1 die (r 1) (r 1)dimensionale Einheitsmatrix ist.
Die erneute Anwendung von Lemma 4.5 ergibt somit, dass
A1/2 Z0n
>
d
A1/2 Z0n 2r1 .
110
Es gengt nun zu beachten, dass

1/2 0 > 1/2 0
A Zn
A Zn = Tn (X1 , . . . , Xn ) .
Es gilt nmlich
1/2 0 > 1/2 0
A Zn
A Zn
=
=
0 >
Zn AZ0n
r1 r1
r1
2
Z
X
1 Znj
n X X Zni
nj
n
p0j +
p0i
p0j ,
p
n
p0r i=1 j=1 n
n
j=1 0j
wobei sich der zweite Summand des letzten Ausdruckes schreiben lsst in der Form
r1 r1
r1
Z
2
2
n X Znj
n Znr
n X X Zni
nj
p0i
p0j =
p0j
=
p0r ,
p0r i=1 j=1 n
n
p0r j=1 n
p0r
n
denn offenbar gilt
Pr1
j=1
Znj = n Znr und
Pr1
j=1
p0j = 1 p0r .
Beachte
Bei der praktischen Durchfhrung des 2 -Anpassungstests zur Prfung der Hypothese H0 : p = p0 ist
zunchst der Wert der in (36) definierten Testgre Tn (x1 , . . . , xn ) zu berechnen.
Bei hinreichend groem Stichprobenumfang n wird die Hypothese H0 : p = p0 abgelehnt, wenn
Tn (x1 , . . . , xn ) > 2r1,1 ,
wobei 2r1,1 das (1 )Quantil der 2 Verteilung mit (r 1)-Freiheitsgraden bezeichnet.
Eine Faustregel dafr, dass n hinreichend gro ist, ist die Gltigkeit der Ungleichung np0,j a fr
jedes j {1, . . . , r} und fr eine Konstante a > 0.
ber die erforderliche Gre von a > 0 gibt es unterschiedliche Auffassungen in der Literatur, die
von a = 2 bis a = 5 reichen. Manche Autoren fordern sogar, dass a = 10.
Andere Autoren meinen, dass bei einer groen Zahl von Klassen (etwa r 10) auch schon fr
a = 1 die Approximation hinreichend gut ist.
5.2.3
Gteeigenschaften; lokale Alternativen
Es ist nicht schwierig, die folgende (punktweise) Konsistenz des 2 Anpassungstests zu zeigen.
Theorem 5.6 Der 2 Anpassungstest ist punktweise konsistent gegen jeden Vektor p = (p1 , . . . , pr1 )>
[0, 1]r1 mit p 6= p0 , d.h., es gilt
lim Pp Tn (X1 , . . . , Xn ) > 2r1,1 = 1 .

(43)
n
Beweis
Aus p 6= p0 folgt, dass fr ein j {1, . . . , r 1}
pj 6= p0,j .
(44)
Auerdem ergibt sich aus dem starken Gesetz der groen Zahlen (vgl. Theorem WR5.15), dass
f.s.
Znj /n pj fr n unter Pp .
111
Hieraus und aus (44) folgt, dass unter Pp

Tn (X1 , . . . , Xn ) n
Z
2
f.s.
nj
p0,j .
n
Damit ist (43) bewiesen.
Beachte
Anstelle eines fest vorgegebenen Vektors p 6= p0 sind auch lokale Alternativen pn = (pn1 , . . . , pn,r1 )>
der Form
hj
pnj = p0j +
j = 1, . . . , r 1
(45)
n
denkbar, die vom Stichprobenumfang n abhngen knnen, wobei
r
X
hj = 0 .
(46)
j=1
Dann kann man zeigen, dass fr n die asymptotische Macht des 2 Anpassungstests gegen
solche Alternativen kleiner als 1 sein kann.
Um diese Behauptung zu beweisen, bentigen wir als Hilfsmittel die folgende Abschtzung, die in der Literatur
die Ungleichung von BerryEssen genannt wird.
Lemma
5.5 Sei Y1 , Y2 , . . . : R eine Folge von unabhngigen und identisch verteilten Zufallsvariablen mit
E |Y1 |3 < . Wenn E Y1 = 0 und Var Y1 = 1, dann gilt fr jedes n 1
Y + . . . + Y
E |Y1 |3
1
n
sup P
x (x) C
,
(47)
n
n
xR
wobei : R [0, 1] die Verteilungsfunktion der N(0, 1)Verteilung bezeichnet und C < eine universelle
Konstante ist, die nicht von der Verteilung der Zufallsvariablen Y1 , Y2 , . . . abhngt.
Theorem 5.7
Sei {pn } eine Folge von Vektoren, die durch (45) und (46) gegeben sind.
Dann gilt fr jedes x 0
lim Ppn Tn (X1 , . . . , Xn ) x = Fr1, (x) ,
(48)
wobei Fr1, : R [0, 1] die Verteilungsfunktion der nichtzentralen 2 Verteilung mit r 1 Freiheitsgraden
ist, deren Nichtzentralittsparameter gegeben ist durch
=
r
X
h2j
.
p0j
j=1
(49)
Wenn hj 6= 0 fr ein j = 1, . . . , r, dann konvergiert die Macht des 2 Anpassungstests bei Betrachtung der
lokalen Alternativen {pn } gegen einen Grenzwert, der grer als und kleiner als 1 ist, d.h.,
< lim Ppn Tn (X1 , . . . , Xn ) > 2r1,1 < 1 .

(50)
n
112
Beweis
Der Beweis der ersten Teilaussage verluft analog zum Beweis von Theorem 5.5, denn fr den in (39)
eingefhrten Zufallsvektor Z0n gilt wegen (45) und (46), dass
Z0n =
>
Zn1
Zn,r1
n
pn1 , . . . ,
pn,r1
+ h,
n
n
wobei h = (h1 , . . . , hr1 )> .
(51)
Wegen (51) kann man so wie beim Beweis des multivariaten zentralen Grenzwertsatzes in Lemma 5.2
zeigen, dass
lim Ppn Z0n x = FN(h,K) (x)

x Rr1 .
(52)
n
Dabei gengt es lediglich zu beachten, dass man mit der Ungleichung von BerryEssen in Lemma 5.5
zeigen kann, dass (in Analogie zu Formel (10) im Beweis von Lemma 5.2)
fr beliebige t = (t1 , . . . , tr1 )> Rr1 und x R
r1
lim Ppn n1/2

tj Znj npnj x = FN(0,t> Kt) (x) ,
j=1
wobei K die in (41) eingefhrte Kovarianzmatrix ist.

Genauso wie im Beweis von Theorem 5.5 erhalten wir nun aus (52), dass
lim Ppn A1/2 Z0n x = FN(A1/2 h,Ir1 ) (x)

x Rr1 .
n
Hieraus und aus der Definition der nichtzentralen 2 Verteilung in Abschnitt 1.3.2 ergibt sich,
dass
lim Ppn (A1/2 Z0n )> (A1/2 Z0n ) x = Fr1, (x)

x R,
n
wobei A die inverse Matrix A = K1 in (42) ist und der Nichtzentralittsparameter gegeben ist
durch
r
X
h2j
= (A1/2 h)> (A1/2 h) = h> Ah =
.
p0j
j=1
Damit ist (48) bewiesen, und wegen < 1Fr1, (2r1,1 ) < 1 ergibt sich hieraus auch die Gltigkeit
von (50).
5.3
2 Anpassungstest von PearsonFisher
Die Nullhypothese H0 : p = p0 , die in Abschnitt 5.2 betrachtet wurde, ist in Wirklichkeit eine zusammengesetzte Hypothese, denn sie ist quivalent mit der Hypothese
H0 : P 0 ,
wobei 0 die in (35) eingefhrte Teilmenge von Verteilungen der Stichprobenvariablen ist.
Wenn geprft werden soll, ob die Verteilung P der unabhngigen und identisch verteilten Stichprobenvariablen X1 , . . . , Xn zu einer vorgegebenen (parametrischen) Klasse von Verteilungen {P , } gehrt
mit Rm , dann kann hnlich wie bei dem in Abschnitt 5.2 diskutieren 2 -Anpassungstest vorgegangen
werden.
Die Stichprobenfunktion Tn : Rn [0, ), die bei der Definition der PearsonStatistik Tn (X1 , . . . , Xn ) in
(36) betrachtet wurde, wird dabei durch eine modifizierte Stichprobenfunktion Tbn : Rn [0, ) ersetzt.

5.3.1
113
PearsonFisherTeststatistik
So wie in Abschnitt 5.2.1 vergrbern wir das Modell, d.h.,

wir zerlegen den Wertebereich der Stichprobenvariablen X1 , . . . , Xn in r Klassen (a1 , b1 ], . . . , (ar , br ]
mit a1 < b1 = a2 < b2 = . . . = ar < br , wobei r eine (hinreichend groe) natrliche Zahl
ist.
Anstelle der Stichprobenvariablen X1 , . . . , Xn betrachten wir erneut die Klassenstrken Z1 , . . . , Zr ,
die bereits in (32) eingefhrt wurden, wobei
Zj = #{i : 1 i n, aj < Xi bj }
j = 1, . . . , r .
Gem Lemma 5.4 gilt dann (Z1 , . . . , Zr ) Mr1 (n, p), wobei wir jetzt annehmen,
dass der Parameter p = (p1 , . . . , pr1 )> [0, 1]r1 der Multinomialverteilung Mr1 (n, p)
eine (bekannte) Funktion 7 p() des (unbekannten) Parametervektors = (1 , . . . , m )> Rm
mit m < r 1 ist.
Getestet werden soll die Hypothese H0 : p {p(), }.
Um bei der Verifizierung dieser Hypothese hnlich wie in Abschnitt 5.2 vorgehen zu knnen, muss
b = (b1 , . . . , bm )> fr = (1 , . . . , m )> bestimmt werden.
zunchst ein Schtzer
b . . . , pr ())
b fr die Wahrscheinlichkeiten
p1 , . . . , pbr ) = (p1 (),
Damit ist auch gleichzeitig ein Schtzer (b
(p1 , . . . , pr ) = (p1 (), . . . , pr ()) gegeben, wobei
pj () = P (aj < X1 bj )
Definition
j = 1, . . . , r .
Die Zufallsvariable Tbn (X1 , . . . , Xn ), die durch die Stichprobenfunktion Tbn : Rn [0, ) mit
Tbn (x1 , . . . , xn ) =
r
X
j=1
2
Zj (x1 , . . . , xn ) nb
pj (x1 , . . . , xn )
nb
pj (x1 , . . . , xn )
(53)
gegeben ist, heit PearsonFisherStatistik .

Beachte
b ein (schwach) konsistenter Schtzer fr ist,
Wenn die Abbildung 7 p() stetig und
dann ergibt sich aus dem Gesetz der groen Zahlen (vgl. Theorem WR5.15), dass fr beliebige
j {1, . . . , r} und
1
lim E Zj (X1 , . . . , Xn ) pbj (X1 , . . . , Xn ) = 0 .

n
n
Es ist deshalb sinnvoll, die Nullhypothese H0 : p {p(), } abzulehnen, wenn Tbn (x1 , . . . , xn )
signifikant grer als 0 ist.
Um dies entscheiden zu knnen,
diskutieren wir zunchst Bedingungen an die Abbildung 7 p(), die die Konstruktion einer
bn fr ermglichen, die asymptotisch
Folge von konsistenten (MaximumLikelihood) Schtzern
normalverteilt sind,
und bestimmen danach die (asymptotische Grenz) Verteilung der in (53) eingefhrten Testgre
Tbn (X1 , . . . , Xn ) fr n .

5.3.2
114
Multivariater zentraler Grenzwertsatz fr MLSchtzer
hnlich wie in Abschnitt I2.4.2, wo der Fall m = 1 betrachtet wurde, lsst sich ein multivariater zentraler
Grenzwertsatz fr konsistente Folgen von MaximumLikelihoodSchtzern des Parametervektors herleiten.
Dabei werden die folgenden Regularittsbedingungen bentigt.
Die Familie {P , } bestehe entweder nur aus diskreten Verteilungen oder nur aus absolutstetigen
Verteilungen, wobei Rm eine offene Menge sei.
Es gelte
P 6= P0
genau dann, wenn
6= 0 .
Die Menge B = {x R : L(x; ) > 0} hnge nicht von ab, wobei die LikelihoodFunktion L(x; )
gegeben ist durch
p(x; ) im diskreten Fall,

L(x; ) =
f (x; ) im absolutstetigen Fall
und p(x; ) bzw. f (x; ) die Wahrscheinlichkeitsfunktion bzw. Dichte von P ist.
Auerdem sei die Abbildung L(x; ) fr jedes x B dreimal stetig differenzierbar, und fr jedes x B
gelte
Z
Z
k
k
L(x; ) dx =
L(x; ) dx
k {1, 2, 3}, i1 , . . . , ik {1, . . . , m}, ,
i1 . . . ik
i1 . . . ik
B
(54)
wobei die Integrale im diskreten Fall durch die entsprechenden Summen zu ersetzen sind.
Fr jedes 0 gebe es eine Konstante c0 > 0 und eine messbare Funktion g0 : B [0, ), so dass fr
jedes Tripel (i1 , i2 , i3 ) {1, . . . , m}3
log L(x; ) g0 (x)

i1 i2 i3
x B, mit | 0 | < c0
(55)
und
E 0 g0 (X1 ) < .
(56)
Beachte
Zur Erinnerung :
b = (X
b 1 , . . . , Xn ) fr als Lsung des
Im Allgemeinen wird der MaximumLikelihoodSchtzer
folgenden Optimierungsproblems definiert (vgl. Abschnitt I2.2.2).
b : Rn Rm eine Stichprobenfunktion mit
Dabei ist
b 1 , . . . , xn ))
L(x1 , . . . , xn ; ) L(x1 , . . . , xn ; (x
und
(x1 , . . . , xn ) Rn ,
(57)
p(x ; ) . . . p(x ; ) im diskreten Fall,

1
n
L(x1 , . . . , xn ; ) =
f (x ; ) . . . f (x ; ) im absolutstetigen Fall.
1
n
b 1 , . . . , xn ) fr beliebige
Unter den obengenannten Regularittsbedingungen kann man zeigen, dass (x
x1 , . . . , xn R dem folgenden Gleichungssystem gengt:
b 1 , . . . , xn ) = 0
L x1 , . . . , xn ; (x
i
i = 1, . . . , m .
(58)
115
Um den multivariaten zentralen Grenzwertsatz formulieren zu knnen, bentigen wir den Begriff der
Fischer-Informationsmatrix, der bereits in Abschnitt 4.3.1 eingefhrt wurde.
Fr jedes wird dabei die m m Matrix I() = (Iij ()) betrachtet mit
Iij () = E
log L(X1 ; )
log L(X1 ; ) .
i
j
(59)
wobei vorausgesetzt wird, dass der Erwartungswert in (59) fr beliebige i, j {1, . . . , m} existiert
(und eine endliche reelle Zahl ist).
In Verallgemeinerung von Theorem I2.11, wo der 1dimensionale Fall betrachtet wurde, lsst sich fr schwach
b 1 , . . . , Xn ), n 1} des Parametervektors , die dem
konsistente Folgen von MaximumLikelihoodSchtzern {(X
Gleichungssystem (58) gengen, der folgende multivariate zentrale Grenzwertsatz herleiten.
Theorem 5.8
Die FisherInformationsmatrix I() sei fr jedes positiv definit (und damit invertierbar), und sei
b 1 , . . . , Xn ), n 1} eine schwach konsistente Folge von MaximumLikelihoodSchtzern fr .
{(X
Dann gilt fr n

b 1 , . . . , Xn )
n (X
N o, I1 () .
(60)
Der Beweis von Theorem 5.8 verluft hnlich wie der Beweis von Theorem I2.11. Er wird deshalb hier weggelassen, vgl. beispielsweise E.L. Lehmann und G. Casella (1998) The Theory of Point Estimation, SpringerVerlag,
New York.
5.3.3
FisherInformationsmatrix und zentraler Grenzwertsatz im vergrberten Modell
Wir kehren nun zu dem vergrberten Modell zurck, das bereits in Abschnitt 5.3.1 betrachtet wurde.
Dabei setzen wir voraus, dass die LikelihoodFunktion L : R (0, 1) mit
L(x; ) = pj () ,
wenn x (aj , bj ],
(61)
wobei die Wahrscheinlichkeiten pj () = P (aj < X1 bj ) positiv und kleiner als 1 seien.
ber die in (61) gegebene LikelihoodFunktion setzen wir auerdem voraus, dass die in Abschnitt 5.3.2
formulierten Regularittsbedingungen erfllt sind.
Lemma 5.6
Fr die FisherInformationsmatrix I() gilt dann

I() = C()> C() ,
wobei
p1 ()/1
p
p1 ()
p2 ()/1
p
p2 ()
..
.
C() =
pr ()/1
p
pr ()
p1 ()/2
p
p1 ()
p2 ()/2
p
p2 ()
..
.
pr ()/2
p
pr ()
...
...
...
(62)
p1 ()/m
p
p1 ()
p2 ()/m
p
p2 ()
..
.
pr ()/m
p
pr ()
(63)
116
Beweis
Wegen (61) gilt fr jedes x R
log L(x; ) =
r
X
1I{aj <xbj } log pj () .
j=1
Hieraus ergibt sich fr die Eintragungen Iij () von I(), dass

Iij ()
= E
log L(X1 ; )
log L(X1 ; ) =
log pk ()
log pk () pk ()
i
j
i
j
k=1
X
1
pk () pk ()
pk () = C()> C() .
i
j
ij
k=1
Aus Theorem 5.8 ergibt sich somit das folgende Resultat.

Korollar 5.1
Wenn die in (63) gegebene Matrix I() = C()> C() fr jedes positiv definit ist, dann gilt
d

1

b 1 , . . . , Xn )
n (X
N o, C()> C()
(64)
b 1 , . . . , Xn ), n 1} von MaximumLikelihoodSchtzern fr , die durch

fr jede schwach konsistente Folge {(X
die Beobachtung des vergrberten Modells gewonnen werden.
Beachte
Aus (61) ergibt sich fr die LikelihoodFunktion L(x1 , . . . , xn ; ), dass
L(x1 , . . . , xn ; ) =
r
Y
pj ()Zj (x1 ,...,xn ) ,
j=1
bzw. fr die LoglikelihoodFunktion log L(x1 , . . . , xn ; ), dass

log L(x1 , . . . , xn ; ) =
r
X
Zj (x1 , . . . , xn ) log pj () .
(65)
j=1
b =
b Z1 (x1 , . . . , xn ), . . . , Zr (x1 , . . . , xn ) fr , die aus den
Jede MaximumLikelihoodSchtzung
vergrberten Daten Z1 (x1 , . . . , xn ), . . . , Zr (x1 , . . . , xn ) gewonnen wird, gengt wegen der obengenannten Regularittsbedingungen dem Gleichungssystem
log L(x1 , . . . , xn ; )
= 0,
i
i = 1, . . . , m .
(66)
Dabei ergibt sich aus (65), dass fr beliebige i = 1, . . . , m und

r
log L(x1 , . . . , xn ; ) X Zj (x1 , . . . , xn ) pj ()

=
i
pj ()
i
j=1
bzw.
log L(x1 , . . . , xn ; ) X Zj (x1 , . . . , xn ) npj () pj ()

=
,
i
pj ()
i
j=1
(67)
wobei sich die letzte Gleichheit aus der Tatsache ergibt, dass
r
X
pj ()
j=1
= 0,
i = 1, . . . , m .
(68)

5.3.4
117
Asymptotische Verteilung der PearsonFisherStatistik
Das folgende Theorem ist die Grundlage des 2 -Anpassungstests von Pearson-Fisher. Dabei setzen wir voraus,
dass
die in (61) betrachtete LikelihoodFunktion des vergrberten Modells den Regularittsbedingungen von
Abschnitt 5.3.2 gengt,
die in (62) gegebene FisherInformationsmatrix I() positiv definit ist und dass
bn } = {(X
b 1 , . . . , Xn ), n 1} eine schwach konsistente Folge von MLSchtzern fr ist, die durch die
{
Beobachtung des vergrberten Modells gewonnen werden.
Theorem 5.9
Sei Tbn (X1 , . . . , Xn ) die in (53) eingefhrte PearsonFisherTeststatistik, d.h.,
2
r
X
Zj (X1 , . . . , Xn ) nb
pj (X1 , . . . , Xn )
Tbn (X1 , . . . , Xn ) =
,
nb
pj (X1 , . . . , Xn )
j=1
(69)
b 1 , . . . , Xn ) .
wobei pbj (X1 , . . . , Xn ) = pj (X
Dann gilt
lim P Tbn (X1 , . . . , Xn ) > 2r1m,1 = ,
(0, 1)
(70)
fr jedes , wobei 2r1m,1 das (1 )Quantil der 2 Verteilung mit r 1 m Freiheitsgraden

bezeichnet.
Ein mathematisch strikter Beweis von Theorem 5.9 kann durch Reinterpretation des 2 Anpassungstests von
PearsonFisher als LikelihoodQuotiententest gefhrt werden, vgl. beispielsweise Abschnitt 4.7 in H. Pruscha
(2000) Vorlesungen ber mathematische Statistik, TeubnerVerlag, Stuttgart.
Weil diese Beweistechnik jedoch relativ komplex ist, geben wir hier lediglich eine Herleitung von Theorem 5.9 an,
die teilweise heuristisch ist.
e n () = Zen1 (), . . . , Zenr () > mit

Und zwar sei p() = (p1 (), . . . , pr ())> und Z
Zj (X1 , . . . , Xn ) npj ()
p
Zenj () =
,
npj ()
j = 1, . . . , r .
(71)
e n () = o und weil sich Z

e n () als Summe von n unabhngigen und identisch verteilten Zufallsvek Weil E Z
toren darstellen lsst, ergibt sich aus dem multivariaten zentralen Grenzwertsatz (genauso wie im Beweis
von Theorem 5.5), dass
d e
e n ()
Z
Z() N(o, B()K()B()) ,
(72)
wobei
B() =
1/
p
p1 ()
...
0
..
.
0
p
1/ p2 ()
..
.
...
...
0
..
.
p
1/ pr ()
pi ()pj () ,
K() =
pi ()(1 pj ()) ,
wenn i 6= j,
wenn i = j.
118
Fr die Kovarianzmatrix B()K()B() in (72) gilt somit

B()K()B() = Ir q()q> () ,
wobei q() =
p
p
>
p1 (), . . . , pr () .
(73)
Fr die in (63) eingefhrte Matrix C() gilt wegen (68), dass q> ()C() = o und somit
1 >
1 > >
C> ()C()
C> ()C()
C () Ir q()q> ()
C ()
1
1 >
=
C> ()C()
C () Ir q()q> () C() C> ()C()
1
= C> ()C()
.
Aus (72) und (73) ergibt sich nun, dass
C> ()C()

1
e
C> ()Z()
N o , C> ()C()
.
(74)
Auerdem ergibt sich aus Korollar 5.1 durch TaylorReihenentwicklung, dass
1 >
bn ) p() = n C()
bn + o
bn
n B() p(
N o, C() C> ()C()
C () .
1 >
bn ) p()
e
n B() p(
C() C> ()C()
C ()Z()
.
(75)
Andererseits ergibt sich aus (69) und (71), dass

Tbn (X1 , . . . , Xn )
r
X
bn ) 2
Zenj (
j=1
r
X
enj ()
Zenj () + Z
j=1
r
X
j=1
Zenj () q
bn )
pj (
pj ()
1 q
bn )
pj (
bn ) pj ()
pj (
bn )
pj (
2
bn ) pj () + o(1) ,
pj (
wobei sich die letzte Gleichheit aus der Null-Konvergenz

s
p ()
P
j
e
Znj ()
1 0 ,
bn )
p j (
j = 1, . . . , r
P
bn
ergibt, die aus
und dem ContinuousMappingTheorem fr Zufallsvektoren (vgl. Lemma 4.5)
folgt.
Pr
Mit anderen Worten: Mit der Schreibweise (z1 , . . . , zr ) = j=1 zj2 gilt
bn ) p() + o(1) .
e n () n B() p(
Tbn (X1 , . . . , Xn ) = Z
(76)
Zusammen mit (72) und (75) suggeriert die asymptotische Nherungsformel (76) die Vermutung, dass
fr n
1 >
d
e
Tbn (X1 , . . . , Xn ) Ir C() C> ()C()
C () Z()
.
(77)
Die Verteilungskonvergenz (77) ergibt sich jedoch nicht direkt aus (72), (75) und (76), sondern sie
erfordert einen separaten Beweis, der hier weggelassen wird.
119
Wir zeigen nun noch, dass
1 >
e
2r1m .
Ir C() C> ()C()
C () Z()
(78)
In (72) und (73) hatten wir gezeigt, dass
e
Z()
N o, Ir q()q> () ,
wobei q() =
p
p
>
p1 (), . . . , pr () .
Auerdem ergibt sich aus q> ()q() = 1, dass
2
Ir q()q> ()
Ir 2q()q> () + q() q> ()q() q> ()

| {z }
=1
>
Ir q()q () ,
d.h., die Kovarianzmatrix
>
Ir q()q ()) =
p
1 p1 ()
p1 ()p2 ()
p
1 p2 ()
p1 ()p2 ()
..
..
.
.
p
p
p1 ()pr () p2 ()pr ()
p
p1 ()p3 () . . .
p
p2 ()p3 () . . .
..
.
p
p3 ()pr () . . .
p
p1 ()pr ()
p
p2 ()pr ()
..
.
1 pr ()
e
des Zufallsvektors Z()
ist symmetrisch und idempotent.
Hieraus und aus der ersten Teilaussage von Theorem 1.4 ergibt sich nun die Darstellungsformel
d
e
Z()
= Ir q()q> () ,
(79)
wobei N(o, Ir ).
1 >
C () symmetrisch und idempotent, und aus
Auerdem ist auch die Matrix Ir C() C> ()C()
q> ()C() = o ergibt sich, dass
1 >
1 >
Ir C() C> ()C()
C () Ir q()q> () = Ir C() C> ()C()
C () q()q> () .
Hieraus folgt, dass die Matrix R =

symmetrisch und idempotent ist.
1 >
Ir C() C> ()C()
C () Ir q()q> () ebenfalls
Aus (79) und aus Theorem 1.9 ergibt sich nun, dass
1 >

d
e
Ir C() C> ()C()
C () Z()
= R = > R 2rg(R) .
Mit Hilfe von Lemma 1.3 ergibt sich fr den Rang rg(R) der symmetrischen und idempotenten Matrix
R, dass
rg(R)
=
=
=
sp(R)
1 >
sp(Ir ) sp C() C> ()C()
C () sp q()q> ()
1 >
sp(Ir ) sp C> ()C()
C ()C() sp q> ()q()
= r m 1.
Damit ist die Gltigkeit von (78) bewiesen.
120
Beachte Bei der praktischen Durchfhrung des 2 -Anpassungstests von PearsonFisher kann hnlich wie in
Abschnitt 5.2.2 vorgegangen werden, um die Hypothese H0 : P {P , } zu prfen.
b 1 , . . . , xn ) = (b1 (x1 , . . . , xn ), . . . , bm (x1 , . . . , xn ))> fr =
Zunchst wird eine MLSchtzung (x
>
(1 , . . . , m ) durch Lsung des Gleichungssystems (66) bestimmt.
Dann wird der Wert der in (53) definierten Testgre Tn (x1 , . . . , xn ) berechnet.
Bei hinreichend groem Stichprobenumfang n wird H0 : P {P , } abgelehnt, wenn
Tn (x1 , . . . , xn ) > 2r1m,1 ,
wobei 2r1m,1 das (1 )Quantil der 2 Verteilung mit (r 1 m)-Freiheitsgraden bezeichnet.
5.4
5.4.1
Beispiele
2 Anpassungstest auf PoissonVerteilung
Durch die Beobachtung der (unabhngigen und identisch verteilten) Stichprobenvariablen X1 , . . . , Xn soll
geprft werden, ob die Verteilung P von Xi zur Familie der PoissonVerteilungen gehrt.
Sei also = (0, ) mit = , und sei {P , } = { Poi(), > 0} die Familie der Poisson
Verteilungen.
Wir betrachten die folgenden r Klassen {0}, {1}, . . . , {r 2} und {r 1, r, r + 1, . . .}, d.h.
(a1 , b1 ] = (, 0],
(a2 , b2 ] = (0, 1],
...
(ar1 , br1 ] = (r 3, r 2],
(ar , br ] = (r 2, ] .
Die Wahrscheinlichkeiten pj () = P (aj < X1 bj ) sind dann gegeben durch

pj () =
j1
e
(j 1)!
j = 1, . . . , r 1
und
pr () =
X
i1
e
(i
1)!
i=r
(80)
b fr , die aus den gruppierten Daten gewonnen

Gem (66) gengt jede MaximumLikelihoodSchtzung
wird, der Gleichung
d
r
pj ()
X
Zj (x1 , . . . , xn ) d
= 0.
(81)
pj ()
j=1
Dabei ergibt sich aus (80), dass
d
pj ()
j1
d
=
1 j = 1, . . . , r 1
pj ()
und
d
pr ()
d
=
pr ()
i 1
1 i1
(i 1)!
i=r
X
i=r
i1
(i 1)!
b der folgenden Gleichung gengt:

Hieraus und aus (81) folgt, dass die MLSchtzung
i 1
1 i1
X
r1
j 1
(i 1)!
X
1 + Zr (x1 , . . . , xn ) i=r
Zj (x1 , . . . , xn )
= 0.
X i1
j=1
(i 1)!
i=r
(82)
121
Fr jedes n gibt es ein r0 = r0 (n) N, so dass Zr (x1 , . . . , xn ) = 0 fr jedes r > r0 . Hieraus und aus (82)
folgt, dass fr r
n
X
bn = (x
b 1 , . . . , xn ) xn = 1
xi .
n i=1
Bei einer hinreichend groen Anzahl r von Klassen {0}, {1}, . . . , {r 2}, {r 1, r, r + 1, . . .} bildet
also das Stichprobenmittel xn , das eine MLSchtzung fr im ungruppierten Poisson-Modell ist, eine
bn fr im gruppierten PoissonModell.
gute Nherung fr die MLSchtzung
Die Nullhypothese H0 : P { Poi(), > 0} wird somit abgelehnt, wenn
2
r
X
Z
(x
,
.
.
.
,
x
)
nb
p
(x
,
.
.
.
,
x
)
j
1
n
j
1
n
> 2r2,1 ,
Tbn (x1 , . . . , xn ) =
nb
p
(x
,
.
.
.
,
x
)
j
1
n
j=1
wobei pbj (x1 , . . . , xn ) = pj (xn ) mit der in (80) gegebenen Funktion pj : (0, ) [0, 1] und der Schtzung xn fr .
5.4.2
2 Anpassungstest auf Normalverteilung
Sei nun = R (0, ) mit = (, 2 )> , und sei {P , } = { N(, 2 ), R, 2 > 0} die Familie der
(eindimensionalen) Normalverteilungen.
Die Wahrscheinlichkeiten pj () = P (aj < X1 bj ) sind dann gegeben durch
Zbj
pj () =
f (x; ) dx ,
wobei f (x; ) =
aj
(x )2
1
exp
.
2 2
2
(83)
Gem (66) gengt jede MaximumLikelihoodSchtzung

b 1 , . . . , xn ) = (b
(x
(x1 , . . . , xn ),
b2 (x1 , . . . , xn ))>
fr = (, 2 )> , die aus den gruppierten Daten gewonnen wird, dem Gleichungssystem
r
X
Zj (x1 , . . . , xn )
j=1
Rbj
f (x; ) dx
aj i
Rbj
=0
fr i = 1, 2.
(84)
f (x; ) dx
aj
Dabei ergibt sich aus (83), dass
x
f (x; ) =
f (x; )
(x )2
1
f
(x;
)
=
f
(x;
)
.
2
2 4
2 2
bzw.
b 1 , . . . , xn ) dem folgenden Gleichungssystem gengt:

Hieraus und aus (84) folgt, dass die MLSchtzung (x
Rbj
r
X
j=1
Zj (x1 , . . . , xn )
Rbj
(x )f (x; ) dx
aj
Rbj
= 0,
r
X
Zj (x1 , . . . , xn )
j=1
f (x; ) dx
(x )2 f (x; ) dx
aj
aj
Rbj
n 2 = 0 ,
f (x; ) dx
aj
wobei die erste Gleichung dieses Gleichungssystems quivalent ist mit

Rbj
r
X
j=1
Zj (x1 , . . . , xn )
xf (x; ) dx
aj
Rbj
aj
f (x; ) dx
r
X
j=1
Zj (x1 , . . . , xn ) = 0 .
{z
=n
122
b 1 , . . . , xn ) = (b
(x1 , . . . , xn ),
b2 (x1 , . . . , xn ))> gengt deshalb dem Gleichungssystem
Die MLSchtzung (x
Rbj
Rbj
xf (x; , 2 ) dx
r
aj
1 X
=
Zj (x1 , . . . , xn ) b
n j=1
Rj
,
f (x; , 2 ) dx
r
aj
1 X
2 =
Zj (x1 , . . . , xn )
n j=1
aj
(x )2 f (x; , 2 ) dx
Rbj
,
f (x; , 2 ) dx
aj
das sich bei einer hinreichend groen Anzahl r von Klassen (a1 , b1 ], . . . , (ar , br ] wie folgt nherungsweise
lsen lsst:
r
r
1 X
1 X
cj Zj (x1 , . . . , xn ) ,
b2
(cj
b)2 Zj (x1 , . . . , xn ) ,
b
(85)
n j=1
n j=1
wobei c1 = b1 , cr = br1 der rechte bzw. linke Endpunkt der ersten bzw. r-ten Klasse und cj =
(bj1 + bj )/2 die Klassenmittelpunkte fr j = 2, . . . , r 1 sind.
Die Nullhypothese H0 : P { N(, 2 ), R, 2 > 0} wird abgelehnt, wenn
Tbn (x1 , . . . , xn ) =
r
X
j=1
2
Zj (x1 , . . . , xn ) nb
pj (x1 , . . . , xn )
> 2r3,1 ,
nb
pj (x1 , . . . , xn )
wobei pbj (x1 , . . . , xn ) = pj (b

,
b2 ) mit der in (83)) gegebenen Funktion pj : R (0, ) [0, 1] und der in
(85) gegebenen Schtzung (b
,
b2 ) fr (, 2 ).
Beachte
Die Nherungslsung (85) des Gleichungssystems (84) sollte nur dann verwendet werden, wenn die
Anzahl r der Klassen hinreichend gro ist.
Dies setzt einen hinreichend groen Stichprobenumfang n voraus.
Mit anderen Worten: Wenn der Stichprobenumfang n klein ist, dann ist der 2 -Anpassungstest
auch aus diesem Grund nicht geeignet, um die Hypothese der Normalverteiltheit zu verifizieren.
Alternative Tests auf Normalverteilung sind die folgenden Anpassungstests vom ShapiroWilkTyp, die
auch bei kleinem Stichprobenumfang n zu akzeptablen Ergebnissen fhren.
5.4.3
Anpassungstests vom ShapiroWilkTyp
In diesem Abschnitt diskutieren wir zwei Anpassungstests vom ShapiroWilkTyp, mit denen ebenfalls die
Hypothese H0 : P { N(, 2 ), R, 2 > 0} verifiziert werden kann.
Hierfr werden die Ordnungsstatistiken X(1) , . . . , X(n) der (unabhngigen und identisch verteilten) Stichprobenvariablen X1 , . . . , Xn betrachtet, die bereits in Abschnitt I1.4 eingefhrt worden sind.
Zur Erinnerung: Die Ordnungsstatistiken werden mit Hilfe der Stichprobenfunktion : Rn Rn
definiert, wobei
(x1 , . . . , xn ) (x(1) , . . . , x(n) ) = (x1 , . . . , xn )

mit x(i) = min xj : #{k : xk xj } i
(86)
fr jedes i {1, . . . , n}.
Dabei ist die in (86) gegebene Abbildung : Rn Rn ist eine Permutation der Komponenten des
Vektors (x1 , . . . , xn ), so dass
x(1) x(2) . . . x(n) .
123
Fr jedes sei dann
(X(1) (), . . . , X(n) ()) = X1 (), . . . , Xn ()

die in (86) gegebene (messbare) Permutation von (X1 (), . . . , Xn ()), so dass
X(1) () . . . X(n) () .
(87)
Die auf diese Weise definierten Zufallsvariablen X(1) , . . . , X(n) : R heien die Ordnungsstatistiken
von (X1 , . . . , Xn ).
Wenn Xi N(, 2 ) fr gewisse R und 2 > 0, dann kann man sich leicht berlegen, dass fr die
Erwartungswerte bi = E X(i) der Ordnungsstatisiken X(i) die folgende Darstellungsformel gilt:
bi = + ai
i = 1, . . . , n ,
(88)
wobei ai = E Y(i) der Erwartungswert der iten Ordnungsstatistik Y(i) bei N(0, 1)verteilten Stichprobenvariablen Y1 , . . . , Yn ist.
Der Nutzen der Darstellungsformel (88) besteht darin, dass die Erwartungswerte a1 , . . . , an in Form
von Tabellen vorliegen bzw. durch MonteCarloSimulation bestimmt werden knnen.
Weil sich die Vektoren (b1 , . . . , bn ) und (X(1) , . . . , X(n) ) unter H0 nur relativ wenig voneinander unterscheiden sollten, wird zur Verifizierung der Nullhypothese H0 : P { N(, 2 ), R, 2 > 0} der folgende
empirische Korrelationskoeffizient betrachtet:
n
P
bi b X(i) X
s
,
Te(X1 , . . . , Xn ) = s i=1
n
n
2
P
P
(bi b)2
X(i) X
i=1
wobei b =
Pn
i=1 bi /n
und X =
Pn
i=1
(89)
i=1
Xi /n.
1. ShapiroFranciaTest
Weil Korrelationskoeffizienten invariant gegenber
Pn Lineartransformationen sind, knnen wir in (89) die
bi s durch die ai s ersetzen, wobei dann a = i=1 ai /n = 0.
Auerdem gilt
n
X
i=1
X(i) X
n
X
Xi X
und
i=1
n
X
ai X = 0 ,
i=1
d.h., die Definitionsgleichung (89) von Te(X1 , . . . , Xn ) ist quivalent mit

n
P
Te(X1 , . . . , Xn ) = s
i=1
n
P
i=1
ai X(i)
a2i
n
P
i=1
Xi X
(90)
Weil stets |Te(X1 , . . . , Xn )| 1 gilt, wird H0 abgelehnt, wenn Te(X1 , . . . , Xn ) < qn, , wobei qn, das
Quantil der Verteilung von Te(X1 , . . . , Xn ) bezeichnet.
Das ist der sogenannte ShapiroFranciaTest auf Normalverteilung, wobei die Quantile qn, der Verteilung von Te(X1 , . . . , Xn ) entweder aus Tabellen entnommen oder per MonteCarloSimulation bestimmt werden knnen.

2. ShapiroWilkTest
Anstelle der Konstanten a1 , . . . , an kann in (90) die Lineartransformation
(a01 , . . . , a0n )> = K1 (a1 , . . . , an )>
betrachtet werden, wobei die Kovarianzmatrix K = (kij ) gegeben ist durch
kij = E (Y(i) ai )(Y(j) aj )

mit Yi N(0, 1).
Der auf diese Weise konstruierte Test wird ShapiroWilkTest genannt.
124
6 NICHTPARAMETRISCHE LOKALISATIONSTESTS
125
Nichtparametrische Lokalisationstests
6.1
6.1.1
Zwei einfache Beispiele von EinstichprobenProblemen

Binomialtest
Der in Abschnitt 5.2 betrachtete 2 Anpassungstest kann durch den folgenden Binomialtest ersetzt werden,
wenn r = 2, d.h., wenn nur zwei Klassen betrachtet werden (beispielsweise bei binren Alternativdaten).
Wir zerlegen also den Wertebereich der (unabhngigen und identisch verteilten) Stichprobenvariablen
X1 , . . . , Xn in zwei Teilmengen (a1 , b1 ] und (a2 , b2 ], so dass
(a1 , b1 ] (a2 , b2 ] =
und
P X1 (a1 , b1 ] (a2 , b2 ] = 1 ,
und betrachten die Klassenstrke
T (X1 , . . . , Xn ) = #{i : 1 i n, a1 < Xi b1 } .
Man kann sich leicht berlegen, dass T = T (X1 , . . . , Xn ) binomialverteilt ist, d.h.,
T Bin(n, p) ,
wobei p = P(a1 < X1 b1 ).
(1)
Wir betrachten zunchst das Testproblem H0 : p = p0 versus H1 : p 6= p0 , wobei p0 (0, 1) eine beliebige
positive Zahl ist.
Wegen (1) wird H0 abgelehnt, wenn T t1 oder T t12 ,
wobei die kritischen Werte t1 und t12 fr beliebige 1 , 2 (0, 1) mit 1 + 2 = gegeben sind
durch
t1
= max{t R : Pp0 (T t) 1 }
k
o
n
X
n i
= max k {0, 1, . . . , n} :
p0 (1 p0 )ni 1
i
i=0
bzw.
t12
= min{t R : Pp0 (T t) 2 }
n
n
o
X
n i
= min k {0, 1, . . . , n} :
p0 (1 p0 )ni 2 .
i
i=k
Fr p0 = 0.5 wird dabei normalerweise 1 = 2 = /2 gewhlt. Wenn p0 nahe bei 0 bzw. 1 liegt, dann
ist es zweckmig 1 kleiner bzw. grer als 2 zu whlen.
Die Quantile t1 bzw. t12 der Binomialverteilung Bin(n, p0 ) knnen entweder aus Tabellen entnommen oder per MonteCarloSimulation bestimmt werden.
Das (einseitige) Testproblem H0 : p p0 versus H1 : p > p0 kann hnlich behandelt werden. Dabei wird
H0 abgelehnt, wenn T t1 .
Vllig analog ergibt sich eine Enscheidungsregel fr das (einseitige) Testproblem H0 : p p0 versus H1 :
p < p0 , wobei H0 abgelehnt wird, wenn T t .
Beachte
Der oben beschriebene Binomialtest wird auch Vorzeichentest genannt, weil die Bildung von 2 Klassen
als Binarisierung der ursprnglich vorliegenden Daten aufgefasst werden kann.
126
Bei den beiden einseitigen Testproblemen erfolgt die Bestimmung der kritischen Werte t1 bzw. t
fr p = p0 , obwohl die Nullhypothese H0 : p p0 bzw. H0 : p p0 lautet.
Die Tatsache, dass dennoch die Werte t1 bzw. t betrachtet werden, steht nicht damit im
Widerspruch, dass fr jedes einzelne p < p0 bzw. p > p0 der kritische Wert kleiner als t1 bzw.
grer als t wre und dass dann H0 fter abgelehnt werden msste.
Die Erklrung fr die Wahl der kritischen Werte t1 bzw. t ist, dass nicht ein einzelnes p mit
p < p0 bzw. p > p0 betrachtet wird, sondern dass p beliebig nahe bei p0 liegen kann und dass
insbesondere auch p = p0 zugelassen wird.
Wenn der Stichprobenumfang n gro ist und wenn p0 nahe bei 0 oder 1 liegt,
dann ist die direkte Berechnung der Quantile t1 bzw. t der Binomialverteilung Bin(n, p0 )
schwierig.
Aus dem Gesetz der seltenen Ereignisse (vgl. Abschnitt WR3.2.2) ergibt sich, dass t1 bzw. t
in diesem Fall durch Quantile der PoissonVerteilung Poi() approximiert werden knnen, wobei
= np0 bzw. = n(1 p0 ).
Auerdem kann t1 bzw. t fr jedes beliebige p0 (0, 1) durch geeignet transformierte Quantile der
N(0, 1)Verteilung approximiert werden knnen, wenn der Stichprobenumfang n hinreichend gro ist.
Aus dem zentralen Grenzwertsatz von DeMoivreLaplace (vgl. Theorem WR3.6) ergibt sich dann,
dass die transformierte Testgre
T np0
T0 = p
np0 (1 p0 )
nherungsweise N(0, 1)verteilt ist, d.h., dass
P(T t) = P(T 0 t0 ) (t0 ) ,
t np0
wobei t0 = p
np0 (1 p0 )
und : R [0, 1] die Verteilungsfunktion der N(0, 1)Verteilung ist.

p
Es gilt also, dass t np0 + z np0 (1 p0 ), wobei z das Quantil der N(0, 1)Verteilung ist.
Als ein mgliches Kriterium fr hinreichend gro werden dabei in der Literatur beispielsweise die
Bedingungen n 20 und 10 np0 n 10 angegeben.
Bei der Untersuchung des (zweiseitigen) Testproblems H0 : p = p0 versus H1 : p 6= p0 wird dann
H0 abgelehnt, wenn
p
p
T np0 + z1 np0 (1 p0 )
oder
T np0 + z12 np0 (1 p0 ) .
hnliche Nherungsformeln ergeben sich fr die kritischen Werte der obenerwhnten einseitigen
Tests.
Beispiel
Die Verteilungsfunktion F : R [0, 1] der Stichprobenvariablen X1 , . . . , Xn sei stetig, und es sei p
das pQuantil von F , d.h., es gelte F (p ) = p fr p (0, 1).
Um die Hypothese H0 : p = p0 zu testen, kann man die vergrberte Zufallsstichprobe (Y1 , . . . , Yn )
betrachten mit
1 , wenn X ,
i
p
Yi =
0 , wenn X > .
i
p
Dann gilt Yi Bin(1, p) fr jedes i = 1, . . . , n, und die Hypothese H0 : p = p0 bezglich (X1 , . . . , Xn )
ist quivalent mit der Hypothese H0 : p = p0 bezglich (Y1 , . . . , Yn ).
Mit dem Binomialtest kann also insbesondere die Hypothese H0 : 0.5 = 0 getestet werden.
6.1.2
127
Iterationstest auf Zuflligkeit
In diesem Abschnitt wird nicht vorausgesetzt, dass die Stichprobenvariablen X1 , . . . , Xn unabhngig sind.
Wir nehmen nmlich an, dass X1 , . . . , Xn nur die Werte 0 oder 1 annehmen knnen, wobei n1 mal der
Wert 0 und n2 mal der Wert 1 auftreten mge; n2 = n n1 .

Insgesamt gibt es dann nn1 mgliche Realisierungen der Zufallsstichprobe (X1 , . . . , Xn ).

Dabei soll die Nullhypothese H0 geprft werden, ob jede dieser nn1 Realisierungen die gleiche Wahrscheinlichkeit hat.
Mit anderen Worten: Es soll geprft werden, ob die Lokalisation, d.h. die Reihenfolge rein zufllig
ist, in der die n1 Einsen bzw. die n2 Nullen angeordnet sind.
Als Testgre T : {0, 1, . . .} betrachten wir die Anzahl T () von Iterationen in der (konkreten)
Stichprobe = (x1 , . . . , xn ), d.h. die Anzahl von (Teil) Folgen aufeinanderfolgender gleicher Zeichen in
= (x1 , . . . , xn ).
Beispiel
Sei n = 20 mit n1 = 12 und n2 = 8. Fr
= (1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1)
(2)
gilt dann T () = 7.
Wir untersuchen nun die Frage, ob die in (2) gegebenen Daten mit der Hypothese H0 vereinbart sind,
dass die Reihenfolge rein zufllig ist, oder, ob H0 verworfen wird.
Hierfr bestimmen wir die Verteilung von T , indem wir einen geeignet gewhlten Laplaceschen Wahrscheinlichkeitsraum betrachten, vgl. Abschnitt WR2.4.1.
Theorem 6.1
Unter H0 gilt fr jedes i = 1, 2, . . . , min{n1 , n2 }

n1 1 n2 1
i 1 i 1
n1
P(T = k) =
n1 1 n2 1
n1 1 n2 1
i
i1 i1
i
n1
Auerdem gilt
ET = 1 +
2n1 n2
n
und
Var T =
wenn k = 2i,
(3)
wenn k = 2i + 1.
2n1 n2 (2n1 n2 n)
.
n2 (n 1)
(4)
Beweis
Wir zeigen die Gltigkeit von (3) nur fr den Fall k = 2i, denn der Beweis fr den Fall k = 2i + 1
verluft analog.
Sei also k = 2i. Dann gibt es je i Iterationen, die aus Einsen bzw. aus Nullen bestehen.
1 1
Fr die Zerlegung der n1 Nullen in i Teilmengen gibt es ni1
Mglichkeiten.
n2 1
Fr jede dieser Zerlegungen gibt es i1 Mglichkeiten, die n2 Einsen in i Teilmengen zu zerlegen.
128
Wenn nun noch beachtet wird, dass die Stichprobe =

. . . , xn) entweder mit x1 = 0 oder mit
1 ,
(x
n2 1
1 1
x1 = 1 beginnen kann, dann ergeben sich insgesamt 2 ni1
Zerlegungsmglichkeiten.
i1
Damit ist (3) fr den Fall k = 2i bewiesen.
Bei der Bestimmung des Erwartungswertes E T nutzen wir die folgende berlegung.
Fr jedes j = 2, . . . , n betrachten wir die Indikatorvariable Yj : {0, 1} mit
1 , wenn an der jten Stelle eine Iteration beginnt,

Yj =
0 , sonst.
Dann gilt { : Yj () = 1} = { : Xj1 () 6= Xj ()}, d.h., es gibt 2 nn2

Mglichkeiten,
i 1
dass an der jten Stelle eine Iteration beginnt.
Somit gilt
n2
(n 2)! (n n1 )! n1 !
n1 (n n1 )
ni 1
E Yj = P(Yj = 1) = 2 = 2
= 2
.
n
(n n1 1)!(n1 1)!n!
n(n 1)
n1
Hieraus und aus der Identitt
T =1+
n
X
Yj
(5)
j=2
ergibt sich, dass

ET = 1 +
n
X
E Yj = 1 + 2
j=2
n1 (n n1 )
.
n
Die Varianzformel in (4) lsst sich auf hnliche Weise beweisen, denn aus (5) ergibt sich, dass
Var T
n
X
E Yj
j=2
n
X
E Yj2 +
j=2
n
X
j=2
n
X
E Yj
j=2
n
X
2
E Yj1 Yj2
E Yj
X
2j1 ,j2 n, j1 6=j2
E Yj +
E Yj1 Yj2
2j1 ,j2 n, j1 6=j2
j=2
n
X
E Yj
j=2
so dass lediglich noch die Momente E Yj1 Yj2 zu bestimmen sind.
Beachte
Eine mgliche Alternative zu der Nullhypothese H0 der rein zuflligen Lokalisation der Nullen und
Einsen ist die Tendenz zur Klumpen bzw. Clusterbildung.
Als Ablehnungsbereich von H0 wird dann das linke Ende der Verteilung von T gewhlt.
Mit anderen Worten: H0 wird abgelehnt, wenn T r (n1 ; n2 ), wobei
n
o
r (n1 ; n2 ) = max r {1, 2, . . .} : P(T r)
das Quantil der Verteilung der Testgre T ist.
Die Quantile r (n1 ; n2 ) knnen mit Hilfe der in Theorem 6.1 gegebenen Formeln fr die Wahrscheinlichkeiten P(T = k) berechnet werden. Sie knnen aus Tafeln entnommen werden, die in der Literatur
gegeben sind.
129
Beispiel (Fortsetzung) Fr = 0.1 und n1 = 12, n2 = 8 ergibt sich, dass r0.1 (12; 8) = 7. Andererseits gilt fr
die in (2) betrachtete Stichprobe
T () = 7 r0.1 (12; 8) ,
d.h., H0 wird abgelehnt.
Wenn die (Teil) Stichprobenumfnge n1 und n2 gro sind, dann ist die Bestimmung der Quantile r (n1 ; n2 )
von T = Tn1 ,n2 mit erheblichem Rechenaufwand verbunden. Einen Ausweg bietet dann der folgenden zentrale
Grenzwertsatz, den wir hier ohne Beweis angeben.
Theorem 6.2
dann gilt
lim
n1 ,n2
Wenn n1 , n2 , so dass n1 /(n1 + n2 ) p bzw. n2 /(n1 + n2 ) 1 p fr ein p (0, 1),

1
E Tn1 ,n2 = 2p(1 p)
n1 + n2
sowie
lim
n1 ,n2
und
lim
n1 ,n2
1
Var Tn1 ,n2 = 4p2 (1 p)2
n1 + n2
2(n1 + n2 )p(1 p)
x = (x)
2 n1 + n2 p(1 p)
n1 ,n2
x R,
(6)
(7)
wobei : R [0, 1] die Verteilungsfunktion der N(0, 1)Verteilung ist.
Beachte
Wegen Theorem 6.2 wird H0 fr groe n1 , n2 abgelehnt, wenn

Tn1 ,n2 2n1 n2 /(n1 + n2 )
z ,
2n1 n2 /(n1 + n2 )3/2
(8)
wobei z das Quantil der N(0, 1)Verteilung ist.
6.2
6.2.1
Vorzeichenrangtest von Wilcoxon

Modellbeschreibung; Mediantest
Wir kehren nun wieder zu dem Fall zurck, dass die Stichprobenvariablen X1 , . . . , Xn unabhngig und
identisch verteilt sind, mit der Verteilungsfunktion F : R [0, 1].
Am Ende von Abschnitt 6.1.1 hatten wir im Zusammenhang mit dem Binomial bzw. Vorzeichentest
einen Mediantest diskutiert, um die Hypothese
H0 : 0.5 = 0
(9)
zu verifizieren, wobei 0.5 ein Median von F ist, d.h., F (0.5 ) = 0.5.
In diesem Abschnitt betrachten wir einen weiteren (effizienteren) Ansatz, um die in (9) gegebene
Hypothese zu testen.
Dabei nehmen wir an, dass die Verteilungsfunktion F der Stichprobenvariablen X1 , . . . , Xn zu der folgenden
(nichtparametrischen) Klasse von Verteilungsfunktionen gehrt.
Sei G : R [0, 1] eine beliebige stetige Verteilungsfunktion, die die folgende Symmetrieeigenschaft
bezglich des Nullpunktes besitzt: Fr jedes x R gelte G(x) = 1 G(x).
Hieraus folgt insbesondere, dass G(0) = 1/2, d.h., der Nullpunkt ist ein Median von G.
130
Die Familie von Verteilungsfunktionen der Stichprobenvariablen

X1 , . . . , Xn , die beim (zweiseitigen)
WilcoxonTest in Betracht gezogenen wird, sei gegeben durch = F : F (x) = G(x ) x, R .

Weil G stetig ist, gilt dann fr jedes x R und fr beliebige i, j = 1, . . . , n mit i 6= j
P(Xi = x) = P(Xi = Xj ) = 0 .
(10)
Wir diskutieren das (zweiseitige) Testproblem H0 : = 0 vs. H1 : 6= 0 fr ein 0 R.

Dabei knnen wir (o.B.d.A.) 0 = 0 setzen; ansonsten knnen die transformierten Stichprobenvariablen
X10 , . . . , Xn0 mit Xi0 = Xi 0 betrachtet werden.
Auf hnliche Weise kann auch das (einseitige) Testproblem H0 : = 0 vs. H1 : > 0 behandelt
werden.
Zur Verifizierung der Nullhypothese H0 : = 0 betrachten wir die Rnge R1 , . . . , Rn der Zufallsvariablen
|X1 |, . . . , |Xn | mit
n
X
Ri =
1I{|Xj ||Xi |}
i = 1, . . . , n ,
j=1
wobei die Indikatorvariable 1I{|Xj ||Xi |} : {0, 1} gegeben ist durch
1 , wenn |X ()| |X ()|,

j
i
1I{|Xj ||Xi |} () =
0 , sonst.
Dabei betrachten wir die Teststatistiken
Tn+ =
n
X
Ri 1I{Xi >0}
bzw.
i=1
Tn =
n
X
Ri 1I{Xi <0} .
(11)
i=1
Beachte
Wegen (10) gilt mit Wahrscheinlichkeit 1
Tn
n
X
Ri
Tn+
i=1
n+1
=
Tn+ .
2
(12)
Man kann zeigen, dass Tn = Tn+ unter H0 : = 0 gilt; vgl. (18).
+
Unter H0 : = 0 sollten daher die Teststatistiken
n+1 Tn und Tn etwa gleich groe Werte annehmen.
+
Wegen (12) bedeutet dies, dass dann Tn 2 /2.
Sehr kleine oder sehr groe Werte von Tn+ sprechen daher fr die Alternativhypothese H1 : 6= 0 ,
d.h., H0 : = 0 wird abgelehnt, wenn
Tn+ t/2
oder
Tn+ t1/2 ,
(13)
wobei die kritischen Werte t/2 und t1/2 das (/2)Quantil bzw. das (1 /2)Quantil der Verteilung von Tn+ sind.
6.2.2
Verteilung der Teststatistik Tn+ fr kleine Stichprobenumfnge
Wenn der Stichprobenumfang n nicht zu gro ist, dann lassen sich die Quantile t/2 und t1/2 in (13)
durch kombinatorische berlegungen bestimmen.
Wegen (10) ist der Zufallsvektor R = (R1 , . . . , Rn ) der Rnge R1 , . . . , Rn von |X1 |, . . . , |Xn | eine
(zufllige) Permutation der Zahlen 1, . . . , n.
131
Dabei lsst sich die in (11) gegebene Testgre Tn+ wie folgt darstellen:
Tn+ =
n
X
i Zi ,
i=1
wobei Zi = 1I{X
1 >0}
i
(14)
und R1 = (R11 , . . . , Rn1 ) die zu R inverse Permutation bezeichnet, d.h., wenn Ri = j, dann gilt
Rj1 = i.
Auerdem ist der folgende Hilfssatz ntzlich, um die Verteilung von Tn+ zu bestimmen.
Lemma 6.1
Unter H0 : = 0 gilt:
Die Zufallsvektoren 1I{X1 >0} , . . . , 1I{Xn >0} und R = (R1 , . . . , Rn ) sind unabhngig.
Die Komponenten Z1 , . . . , Zn von (Z1 , . . . , Zn ) sind unabhngig und identisch verteilt mit Zi Bin(1, 1/2).
Beweis
Wir zeigen zunchst, dass die Zufallsvariablen 1I{Xi >0} und |Xi | fr jedes i = 1, . . . , n unabhngig sind.
Fr jedes x 0 gilt
1
P 1I{Xi >0} = 1, |Xi | x = P 0 < Xi x = G(x)
.
2
und
1
1
1
P 1I{Xi >0} = 1 P |Xi | x =
G(x) G(x) =
G(x) (1 G(x)) = G(x)
.
2
2
2
Auerdem gilt offenbar fr jedes x < 0
P 1I{Xi >0} = 1, |Xi | x = 0 = P 1I{Xi >0} = 1 P |Xi | x .

Auf die gleiche Weise lsst sich zeigen, dass fr jedes x R
P 1I{Xi >0} = 0, |Xi | x = P 1I{Xi >0} = 0 P |Xi | x .

Weil
aus der Unabhngigkeit
der Stichprobenvariablen
X1 , . . . , Xn folgt, dass die Zufallsvektoren
1I{X1 >0} , |X1 | , . . . , 1I{Xn >0} , |Xn | unabhngig sind,
ergibt sich nun insgesamt, dass 1I{X1 >0} , . . . , 1I{Xn >0} und |X1 |, . . . , |Xn | unabhngige Zufallsvektoren sind.
Weil R = (R1 , . . . , R
n ) eine Borelmessbare
Funktion von |X1 |, . . . , |Xn | ist, sind damit auch
die Zufallsvektoren 1I{X1 >0} , . . . , 1I{Xn >0} und R unabhngig.
Hieraus folgt, dass fr beliebige i {1, . . . , n} und z {0, 1}
P(Zi = z) = P 1I{X 1 >0} = z

R
X i
P 1I{X 1 >0} = z | R = r P(R = r)

=
r
X
P 1I{X
=
r
1 >0}
r
i
X
P 1I{X
=
r
1 >0}
r
i
= z | R = r P(R = r)
1
1 X
P(R = r) =
,
= z P(R = r) =
2 r
2
wobei sich die Summation ber alle Permutationen r = (r1 , . . . , rn ) der Zahlen 1, . . . , n erstreckt.
132
Damit ergibt sich, dass fr beliebige z = (z1 , . . . , zn ) {0, 1}n
P Z1 = z1 , . . . , Zn = zn
= P 1I{X 1 >0} = z1 , . . . , 1I{X 1 >0} = zn
R1
Rn
X

=
P 1I{X 1 >0} = z1 , . . . , 1I{X 1 >0} = zn | R = r P R = r
R1
Rn
X
P 1I{X
P 1I{X1 >0} = zr1 , . . . , 1I{Xn >0} = zrn | R = r P R = r
P 1I{X1 >0} = zr1 , . . . , 1I{Xn >0} = zrn P R = r
1
= P(Z1 = z1 ) . . . P(Zn = zn ) .
2n
1 >0}
r1
= z1 , . . . , 1I{X
1 >0}
rn
= zn | R = r P R = r
Theorem 6.3
Unter H0 : = 0 ist die Verteilung von Tn+ gegeben durch

P(Tn+ = k) =
wobei
ak
2n
k = 0, 1, . . . , n ,
(15)
n
n
o
X
n
ak = # z = (z1 , . . . , zn ) {0, 1} :
izi = k .
(16)
i=1
Auerdem gilt dann

E Tn+ =
n(n + 1)
4
n(n + 1)(2n + 1)
.
24
Var Tn+ =
und
(17)
Beweis
Aus der Darstellungsformel (14) fr Tn+ und aus Lemma 6.1 ergibt sich, dass fr jedes k = 0, 1, . . . , n
P(Tn+ = k) =
n
X
P
i Zi = k =
i=1
z=(z1 ,...,zn ){0,1}n :
Pn
i=1
izi =k
ak
P Z1 = z1 , . . . , Zn = zn = n .
2
Auerdem ergibt sich auf diese Weise, dass

E Tn+
= E
n
X
i Zi
i=1
und
Var Tn+
= Var
n
X
i=1
i Zi
n
X
1
=
i E Zi =
2
i=1
n+1
2
n(n + 1)
4
n
1 X 2
n(n + 1)(2n + 1)
=
i Var Zi =
i =
.
4
24
i=1
i=1
n
X
Beachte
Aus (12) und (14) ergibt sich darber hinaus mit Hilfe von Lemma 6.1, dass
X
n
n
n
X
X
n+1
n+1
d
+
Tn =
Tn =
i Zi =
i (1 Zi ) =
i Zi = Tn+ ,
2
2
i=1
i=1
i=1
d.h., unter H0 : = 0 gilt
Tn = Tn+ .
(18)
133
Somit ergibt sich aus (12), dass fr jedes k = 0, 1, . . . , n
n(n + 1)
n(n + 1)
P Tn+ = k = P Tn =
k = P Tn+ =
k ,
2
2
d.h., die Verteilung von Tn+ ist symmetrisch bezglich des Erwartungswertes E Tn+ = n(n + 1)/4.
Dies bedeutet, dass auch die Quantile t,n = max{t R : P(Tn+ t) } diese Symmetrieeigenschaft
besitzen, d.h., fr jedes (0, 1) gilt
t,n =
n(n + 1)
t1,n .
2
Die Quantile t,n knnen entweder aus Tabellen entnommen oder per MonteCarloSimulation bestimmt werden.
6.2.3
Wenn der Stichprobenumfang n gro ist, dann ist die direkte Bestimmung der Quantile t/2 und t1/2 mit
Hilfe von Theorem 6.3 schwierig.
Ein anderer Zugang zur (nherungsweisen) Bestimmung der Verteilung der Teststatistik Tn+ beruht
auf der Darstellungsformel (14).
Pn
Dabei wird die Tatsache genutzt, dass Tn+ = i=1 i Zi wegen Lemma 6.1 eine Summe von unabhngigen
Zufallsvariablen ist.
Und zwar kann mit Hilfe eines zentralen Grenzwertsatzes fr Summen von unabhngigen (jedoch nicht
notwendig identisch verteilten) Zufallsvariablen gezeigt werden, dass Tn+ asymptotisch normalverteilt
ist.
Hierfr betrachten wir das folgende stochastische Modell: Fr jedes n 1 sei Xn1 , . . . , Xnn : R eine
Folge von unabhngigen Zufallsvariablen,
wobei wir (o.B.d.A.) voraussetzen, dass fr jedes k {1, . . . , n}
E Xnk = 0 ,
2
0 < nk
= Var Xnk <
und
n
X
2
nk
= 1.
(19)
k=1
Wenn die Zufallsvariablen Xn1 , . . . , Xnn die in (19) formulierten Bedingungen nicht erfllen, dann
0
0
, . . . , Xnn
ber mit
gehen wir zu den transformierten Zufallsvariablen Xn1
Xnk E Xnk
0
=
Xnk
.
nVar Xnk
(20)
Die Verteilungsfunktion von Xnk bezeichnen wir mit Fnk , wobei nicht ausgeschlossen wird, dass Fnk fr
jedes k {1, . . . , n} auch von der Anzahl n der insgesamt betrachteten Zufallsvariablen Xn1 , . . . , Xnn
abhngen kann.
Der folgende zentrale Grenzwertsatz von Lindeberg (vgl.Theorem WR5.22) bildet die Grundlage, um zu zeigen,
dass Tn+ asymptotisch normalverteilt ist.
Lemma 6.2
Fr jedes n N sei Xn1 , . . . , Xnn : R eine Folge von unabhngigen Zufallsvariablen, die den Bedingungen (19) gengen.
134
Wenn auerdem fr jedes > 0

lim
dann gilt fr jedes x R
n Z
X
k=1
x2 dFnk (x) = 0 ,
(21)
R\(,)
lim P Xn1 + . . . + Xnn x = (x) ,
(22)
wobei : R [0, 1] die Verteilungsfunktion der N(0, 1)Verteilung ist.

Theorem 6.4
Unter H0 : = 0 gilt
lim P
T+ E T+
n
n
p
x = (x)
Var Tn+
x R.
(23)
Beweis
Wegen (14) gengt es zu zeigen, dass die Zufallsvariablen Xn1 , . . . , Xnn mit
Xnk =
kZk k E Zk
p
Var Tn+
(24)
den Bedingungen von Lemma 6.2 gengen.

Dabei ergibt sich das Erflltsein von (19) unmittelbar aus der Definitionsgleichung (24).
Es muss also lediglich noch gezeigt werden, dass die LindebergBedingung (22) erfllt ist.
Mit Hilfe von Lemma 6.1 ergibt sich fr die Verteilungsfunktion Fnk : R [0, 1] der in (24) eingefhrten
Zufallsvariablen Xnk , dass
0 , wenn x < p
,
2 Var Tn+
1
k
k
, wenn p
x < p
,
Fnk (x) =
+
2
2 Var Tn
2 Var Tn+
x.
1 , wenn p
2 Var Tn+
R
Hieraus folgt, dass R\(,) x2 dFnk (x) = 0 fr jedes k {1, . . . , n}, wenn n so gewhlt wird, dass
n2
6n2
< 2 ,
+ =
n(n + 1)(2n + 1)
4Var Tn
wobei sich die letzte Gleichheit aus der Formel fr Var Tn+ in Theorem 6.3 ergibt.
Damit ist die Gltigkeit der LindebergBedingung (22) gezeigt.
Beachte
Wegen Theorem 6.4 wird bei dem (zweiseitigen) Testproblem H0 : = 0 vs. H1 : 6= 0 der folgenden
kritische Bereich betrachtet.
Bei hinreichend groem n wird H0 : = 0 abgelehnt, wenn
T+ ET+
n
n
(25)
p
z1/2 ,
+
Var Tn
wobei E Tn+ bzw. Var Tn+ in Theorem 6.3 gegeben sind und z1/2 das (1 /2)Quantil der N(0, 1)
Verteilung ist.
Als ein mgliches Kriterium fr hinreichend gro wird dabei in der Literatur die Bedingung n 20
angegeben.
6.3
135
ZweistichprobenProbleme
In diesem Abschnitt diskutieren wir nichtparametrische Tests fr den Fall, dass zwei unabhngige Zufallsstichproben (X1 , . . . , Xn1 ) und (Y1 , . . . , Yn2 ) beobachtet werden.
Mit anderen Worten: Wir nehmen an, dass die Zufallsvariablen X1 , . . . , Xn1 , Y1 , . . . , Yn2 vollstndig unabhngig sind mit den (unbekannten) Verteilungsfunktionen F bzw. G, d.h.,
F (x) = P(Xi x)
und
G(y) = P(Yj y)
x, y R, i = 1, . . . , n, j = 1, . . . , m .
Ein (zweiseitiges) Testproblem ist dann beispielsweise gegeben durch

H0 : F (x) = G(x)
x R
vs.
H1 : F (x) 6= G(x) x R .
(26)
Als einseitige Alternativen zu H0 : F (x) = G(x) x R knnen zum Beispiel die folgenden Hypothesen
betrachtet werden:
H1 : F (x) G(x) x R und F (x) > G(x) x R
(27)
bzw.
H1 : F (x) G(x) x R und F (x) < G
6.3.1
x R
(28)
Iterationstest von WaldWolfowitz
Zur Untersuchung des in (26) gegebenen Testproblems kann der Iterationstest auf Zuflligkeit angewendet
werden, der in Abschnitt 6.1.2 diskutiert worden ist.
Hierfr vereinigen wir die Stichprobenvariablen X1 , . . . , Xn1 und Y1 , . . . , Yn2 zu einer Zufallsstichprobe
(X10 , . . . , Xn0 ) = (X1 , . . . , Xn1 , Y1 , . . . , Yn2 ) ,
wobei n = n1 + n2 ,
0
0
und betrachten die geordnete Stichprobe (X(1)
, . . . , X(n)
).
Dabei setzen wir voraus, dass die Verteilungsfunktionen F und G stetig sind, d.h., die Abbildung
0
0
(X10 , . . . , Xn0 ) 7 (X(1)
, . . . , X(n)
)
ist mit Wahrscheinlichkeit 1 eindeutig festgelegt.

0
0
Unter H0 : F (x) = G(x) x R ist zu erwarten, dass die Xi s und Yj s in (X(1)
, . . . , X(n)
) gut gemischt
sind,
0
0
, . . . , X(n)
unabhngig und identisch verteilt sind.
weil dann die Stichprobenvariablen X(1)
Wenn als Alternative die Tendenz zur Klumpen bzw. Clusterbildung betrachtet wird, dann wird H0
abgelehnt, wenn die Anzahl T der Iterationen in der (binren) Stichprobe (Z1 , . . . , Zn ) zu klein ist,
0
0
wobei Zi = 0, wenn X(i)
= Xj fr ein j {1, . . . , n}, und Zi = 1, wenn X(i)
= Yj fr ein j {1, . . . , n}.
Beispiel
Im Rahmen einer medizinischen Studie ber Schulanfnger wurde die Krpergre von n1 = 8 Mdchen
und n2 = 10 Jungen untersucht.
Dabei ergaben sich die folgenden Messergebnisse:
xi
117
121
122
124
125
126
128
132
yj
110
113
114
115
116
118
119
120
123
127
136
Wenn wir diese Messwerte der Gre nach ordnen und dabei den Krpergren der Jungen jeweils eine
0 bzw. den Krpergren der Mdchen jeweils eine 1 zuordnen, dann ergibt sich die Folge
= (0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1)
mit T () = 8.
(29)
Andererseits ergibt sich aus Theorem 6.1, dass fr das Quantil r (n1 ; n2 ) der Verteilung von T
beispielsweise r0.05 (8; 10) = 6 fr = 0.05 gilt.
In diesem Fall wird somit H0 nicht abgelehnt, weil T () = 8 > 6 = r0.05 (8; 10).
Beachte
Der in diesem Abschnitt betrachtete Iterationstest kann einseitige Alternativen vom Typ (27) bzw.
(28) nicht erkennen.
Dies wird durch das in (29) gegebene Beispiel klar: Denn die Anzahl der Iterationen T () = 8 ndert
sich nicht, wenn wir (umgekehrt zu der bisherigen Vorgehensweise) den Krpergren der Jungen
jeweils eine 1 bzw. den Krpergren der Mdchen jeweils eine 0 zuordnen.
Auch bei zweiseitigen Alternativen sollte der Iterationstest von WaldWolfowitz, der ein so genannter
Omnibustest ist, nur dann verwendet werden, wenn die Form der Alternative nicht nher spezifiziert
wird.
Beim Vorliegen spezieller Alternativen, die beispielsweise nur Lage oder Variabilittskenngren betreffen, sind andere Testverfahren effizienter, vgl. Abschnitt 6.3.2.
6.3.2
Rangsummentest von Wilcoxon fr Lagealternativen
Wir diskutieren nun einen weiteren nichtparametrischen Test fr den Fall, dass zwei unabhngige Zufallsstichproben (X1 , . . . , Xn1 ) und (Y1 , . . . , Yn2 ) beobachtet werden.
Dabei werden jedoch jetzt speziellere Alternativen als in (26) (28) betrachtet.
Wir nehmen an, dass die Zufallsvariablen X1 , . . . , Xn1 und Y1 , . . . , Yn2 vollstndig unabhngig sind mit
den (unbekannten) stetigen Verteilungsfunktionen F bzw. G.
hnlich wie in Abschnitt 6.2 wird vorausgesetzt, dass es ein R gibt, so dass
F (x) = G(x + )
x R.
Ein (zweiseitiges) Testproblem, das dem oben erwhnten, allgemeineren Testproblem (26) entspricht,
ist dann gegeben durch
H0 : = 0
vs.
H1 : 6= 0 .
(30)
Als einseitige Alternativen zu H0 : = 0 knnen die folgenden Hypothesen betrachtet werden:
H1 : > 0
bzw.
H1 : < 0 .
(31)
Genauso wie in Abschnitt 6.3.1 vereinigen wir die Stichprobenvariablen X1 , . . . , Xn1 und Y1 , . . . , Yn2 zu
einer kombinierten Zufallsstichprobe (X10 , . . . , Xn0 ) = (X1 , . . . , Xn1 , Y1 , . . . , Yn2 ), wobei n = n1 + n2 .
Auerdem betrachten wir den (Zufalls) Vektor der Rnge R0 = (R10 , . . . , Rn0 ) der Stichprobenvariablen
X10 , . . . , Xn0 in der kombinierten Stichprobe, wobei
Ri0 =
n
X
j=1
1I{Xj0 Xi0 }
i = 1, . . . , n .
137
So wie in Abschnitt 6.3.1 ist unter H0 : = 0 zu erwarten, dass die Xi s und Yj s in der kombinierten
0
0
0
0
Stichprobe (X(1)
, . . . , X(n)
) gut gemischt sind, weil dann die Stichprobenvariablen X(1)
, . . . , X(n)
unabhngig und identisch verteilt sind.
Daher wird H0 bei dem zweiseitigen Testproblem in (30) abgelehnt, wenn die Rangsumme
Tn1 ,n2 =
n1
X
Ri0
(32)
i=1
zu klein oder zu gro ist.

Um den Test praktisch durchfhren zu knnen, muss die Verteilung der in (32) eingefhrten Teststatistik
Tn1 ,n2 bestimmt werden. Hierfr ist der folgende Hilfssatz ntzlich.
Lemma 6.3
Sei X : {. . . , 1, 0, 1, . . .} eine diskrete Zufallsvariable, so dass E |X| < und dass fr ein R die
folgende Symmetrieeigenschaft erfllt ist:
P(X = k) = P(X = + k)
k {. . . , 1, 0, 1, . . .} .
(33)
Dann gilt E X = .
Beweis
Wir knnen o.B.d.A. annehmen, dass = 0, weil ansonsten die transformierte Zufallsvariable X 0 =
X betrachtet werden kann.
Dann ergibt sich aus (33) mit = 0, dass
EX =
k P(X = k) =
k=
k P(X = k) +
k=1
(33)
k P(X = k) = 0 .
k=1
Theorem 6.5
Unter H0 : = 0 ist die Verteilung von Tn1 ,n2 gegeben durch
ak,n1 ,n2
P(Tn1 ,n2 = k) =
n1 + n2
n1
wobei
k =
n1 (n1 + 1)
n1 (n1 + 1)
, . . . , n1 n 2 +
,
2
2
nX
1 +n2
n
o
ak,n1 ,n2 = # z = (z1 , . . . , zn1 +n2 ) {0, 1}n1 +n2 : #{i : zi = 1} = n1 ,
izi = k .
(34)
(35)
i=1
Auerdem gilt dann

P(Tn1 ,n2 = k) = P(Tn1 ,n2 = 2 k)
k {. . . , 1, 0, 1, . . .}
(36)
und somit
E Tn1 ,n2 = ,
wobei = n1 (n1 + n2 + 1)/2.
(37)
138
Beweis
Unter H0 : = 0 sind die Stichprobenvariablen X10 , . . . , Xn0 1 +n2 unabhngig und identisch verteilt.
2
Somit hat jede der n1n+n
Aufteilungen der n1 Variablen X1 , . . . , Xn1 auf die n1 + n2 insgesamt
1
vorhandenen Rangpltze die gleiche Wahrscheinlichkeit.
Auerdem gilt fr den Minimal bzw. Maximalwert tmin bzw. tmax von Tn1 ,n2 , dass
tmin =
n1
X
i =
i=1
n1 (n1 + 1)
2
und
tmax =
nX
2 +n1
i = n1 n2 +
i=n2 +1
n1 (n1 + 1)
.
2
Hieraus ergibt sich die Gltigkeit von (34) (35).

Um (36) zu beweisen, nutzen wir die folgende Symmetrieeigenschaft.
Jedem z = (z1 , . . . , zn1 +n2 ) {0, 1}n1 +n2 mit
#{i : zi = 1} = n1
und
nX
1 +n2
izi = k
i=1
entspricht ein e
z = (e
z1 , . . . , zen1 +n2 ) {0, 1}n1 +n2 mit
#{i : zen1 +n2 +1i = 1} = n1
und
nX
1 +n2
(n1 + n2 + 1 i) zei = n1 (n1 + n2 + 1) k .
i=1
0
0
Weil die Stichprobenvariablen X(1)
, . . . , X(n)
unabhngig und identisch verteilt sind, ergibt sich
somit, dass fr jedes k {. . . , 1, 0, 1, . . .}
P(Tn1 ,n2 = k) = P(Tn1 ,n2 = n1 (n1 + n2 + 1) k) = P(Tn1 ,n2 = 2 k) ,
(38)
wobei 2 = n1 (n1 + n2 + 1).

Um (37) zu zeigen, gengt es in (38) die Substitution k = i einzusetzen.
Dann ergibt sich aus (38), dass
P(Tn1 ,n2 = i) = P(Tn1 ,n2 = + i)
i {. . . , 1, 0, 1, . . .} .
Hieraus und aus Lemma 6.3 folgt die Gltigkeit von (37).
Beachte
Aus (38) ergibt sich die folgende Symmetrieeigenschaft fr die Quantile t,n1 ,n2 von Tn1 ,n2 .
Fr jedes (0, 1) gilt
t,n1 ,n2 = n1 (n1 + n2 + 1) t1,n1 ,n2 .
Die Quantile t,n1 ,n2 knnen entweder aus Tabellen entnommen oder per MonteCarloSimulation
bestimmt werden.
Die Nullhypothese H0 : = 0 wird zugunsten von H1 : 6= 0 abgelehnt, wenn
Tn1 ,n2 t/2,n1 ,n2
oder
Tn1 ,n2 n1 (n1 + n2 + 1) t/2,n1 ,n2 .
Analog wird die Nullhypothese H0 : = 0 zugunsten von H1 : < 0 bzw. H1 : > 0 abgelehnt, wenn
Tn1 ,n2 n1 (n1 + n2 + 1) t,n1 ,n2
bzw.
Tn1 ,n2 t,n1 ,n2 .
Wenn die Stichprobenumfnge n1 und n2 gro sind, dann ist die direkte Bestimmung der Quantile t,n1 ,n2 mit
Hilfe von Theorem 6.5 schwierig. Die (nherungsweise) Bestimmung der Verteilung der Teststatistik Tn1 ,n2 ist
dann jedoch mit Hilfe des folgenden zentralen Grenzwertsatzes, den wir hier ohne Beweis angeben.
Theorem 6.6
dann gilt
139
Wenn n1 , n2 , so dass n1 /(n1 + n2 ) p bzw. n2 /(n1 + n2 ) 1 p fr ein p (0, 1),

lim
n1 ,n2
E Tn1 ,n2
x = (x)
Var Tn1 ,n2
n1 ,n2
x R,
(39)
wobei
n1 (n1 + n2 + 1)
n1 n2 (n1 + n2 + 1)
,
Var Tn1 ,n2 =
2
12
und : R [0, 1] die Verteilungsfunktion der N(0, 1)Verteilung ist.
E Tn1 ,n2 =
Beachte
Wegen Theorem 6.6 wird fr groe n1 , n2 die Nullhypothese H0 : = 0 zugunsten von H1 : 6= 0
abgelehnt, wenn
T
n1 ,n2 n1 (n1 + n2 + 1)/2

p
z1/2 ,
n1 n2 (n1 + n2 + 1)/12
wobei z das Quantil der N(0, 1)Verteilung ist.
Analog wird H0 : = 0 zugunsten von H1 : > 0 bzw. H1 : < 0 abgelehnt, wenn
Tn1 ,n2 n1 (n1 + n2 + 1)/2
p
z1
n1 n2 (n1 + n2 + 1)/12
bzw.
Tn1 ,n2 n1 (n1 + n2 + 1)/2

p
z1 .
n1 n2 (n1 + n2 + 1)/12

Skript

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Skript

Hochgeladen von

Copyright:

Verfügbare Formate

ITT

Ulm, im Februar 2008

Einige Grundbegriffe und Ergebnisse der MatrixAlgebra . . . . . . . . . . . . . . . . . . . . . . .

Spur und Rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Symmetrie und Definitheit; Faktorisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Definition und grundlegende Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Charakteristiken der multivariaten Normalverteilung . . . . . . . . . . . . . . . . . . . . . . 12

Randverteilungen und Unabhngigkeit von Teilvektoren; Faltungsstabilitt . . . . . . . . . 14

Lineare Transformation von normalverteilten Zufallsvektoren . . . . . . . . . . . . . . . . . 16

Singulre multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Lineare und quadratische Formen normalverteilter Zufallsvektoren . . . . . . . . . . . . . . . . . . 19

Definition, Erwartungswert und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Verteilungs und Unabhngigkeitseigenschaften linearer und quadratischer Formen . . . . . 23

2 Lineare Modelle; Designmatrix mit vollem Rang

Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Erwartungstreue Schtzung der Varianz 2 der Strgren . . . . . . . . . . . . . . . . . . . 32

Tests fr die Regressionskoeffizienten; Quadratsummenzerlegung . . . . . . . . . . . . . . . 37

Konfidenzbereiche; Prognose von Zielvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 41

3 Beliebige Designmatrix; verallgemeinerte Inverse

Varianzanalyse als lineares Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Einfaktorielle Varianzanalyse; ANOVANullhypothese . . . . . . . . . . . . . . . . . . . . . 46

Reparametrisierung der Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Schtzung der Modellparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Erwartungswertvektor und Kovarianzmatrix des KQSchtzers . . . . . . . . . . . . . . . 58

Beste lineare erwartungstreue Schtzer; GauMarkowTheorem . . . . . . . . . . . . . . . 63

Tests linearer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

FTest der ANOVA-Nullhypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

FTests fr die zweifaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 78

Zweifaktorielle Varianzanalyse mit hierarchischer Klassifikation . . . . . . . . . . . . . . . . 82

4 Verallgemeinerte lineare Modelle

Definition und grundlegende Eigenschaften

Verknpfung der Parameter; natrliche Linkfunktion . . . . . . . . . . . . . . . . . . . . . . 87

Lineares Modell mit normalverteilten Strgren . . . . . . . . . . . . . . . . . . . . . . . . 87

Binre kategoriale Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

Poissonverteilte Stichprobenvariablen mit natrlicher Linkfunktion . . . . . . . . . . . . . 89

LoglikelihoodFunktion und ihre partiellen Ableitungen . . . . . . . . . . . . . . . . . . . . 89

MaximumLikelihoodGleichung und numerische Lsungsanstze . . . . . . . . . . . . . . . 93

Asymptotische Normalverteiltheit von MLSchtzern; asymptotische Tests

Gewichteter KQSchtzer bei kategorialer Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 96

Schtzung des Erwartungswertvektors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

Asymptotische Normalverteiltheit des KQSchtzers . . . . . . . . . . . . . . . . . . . . . . 98

Bewertung der Anpassungsgte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5 Tests von Verteilungsannahmen

Empirische Verteilungsfunktion; KSTeststatistik . . . . . . . . . . . . . . . . . . . . . . . . 101

Asymptotische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

Gteeigenschaften; punktweise und gleichmige Konsistenz . . . . . . . . . . . . . . . . . . 105

Klassenbildung; PearsonStatistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

Asymptotische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Gteeigenschaften; lokale Alternativen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

2 Anpassungstest von PearsonFisher

Multivariater zentraler Grenzwertsatz fr MLSchtzer . . . . . . . . . . . . . . . . . . . . 114

FisherInformationsmatrix und zentraler Grenzwertsatz im vergrberten Modell . . . . . . 115

Asymptotische Verteilung der PearsonFisherStatistik . . . . . . . . . . . . . . . . . . . . 117

2 Anpassungstest auf PoissonVerteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

2 Anpassungstest auf Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Anpassungstests vom ShapiroWilkTyp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

Zwei einfache Beispiele von EinstichprobenProblemen . . . . . . . . . . . . . . . . . . . . . . . . . 125

Iterationstest auf Zuflligkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

Vorzeichenrangtest von Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

Modellbeschreibung; Mediantest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

Verteilung der Teststatistik Tn+ fr kleine Stichprobenumfnge . . . . . . . . . . . . . . . . 130

Asymptotische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133