Sie sind auf Seite 1von 382

Karl-Rudolf Koch

Parametersch
atzung
und
Hypothesentests
in linearen Modellen

Vierte, bearbeitete Auflage

Bonn 2004
http://www.geod.uni-bonn.de
Ehemals Ferd. D
ummlers Verlag, Bonn

II

c
2004
Professor Dr.-Ing., Dr.-Ing. E.h. mult. Karl-Rudolf Koch
Institut f
ur Theoretische Geod
asie
der Rheinischen Friedrich-Wilhelms-Universit
at Bonn
Nuallee 17
D-53115 Bonn
e-mail: koch@theor.geod.uni-bonn.de

III

Vorwort zur vierten Auflage


F
ur die Ver
offentlichung dieses Buches im Internet wurden bekannt gewordene Fehler beseitigt. Auerdem wurde auf einige neuere Entwicklungen durch
zus
atzliche Literaturstellen hingewiesen.

Bonn, im November 2004

KarlRudolf Koch

IV

Vorwort zur dritten Auflage


F
ur die notwendig gewordene dritte Auflage wurde dieses Buch noch einmal vollst
andig u
atzungen
berarbeitet. Ein Kapitel u
ber robuste Parametersch
wurde hinzugef
ugt und der Abschnitt u
ber die Diskriminanzanalyse fortgelassen, da dieses Thema umfassender in dem Buch des Autors Bayesian Infer
ence with Geodetic Applications, SpringerVerlag, Berlin, 1990, behandelt
wird. Einige Beispiele wurden aufgenommen, um die Darstellung anschaulicher zu gestalten. Kleinere Erg
anzungen oder Streichungen wurden vorgenommen, um den Text zu verbessern oder auf neuere Entwicklungen hinzuweisen,
und bekannt gewordene Fehler sind beseitigt worden.
Ich danke den Studentinnen und Studenten unserer Universit
at, die Vorschl
age zur Verbesserung dieses Buches gemacht haben. Danken m
ochte ich
auch den Mitarbeiterinnen und Mitarbeitern des Instituts f
ur Theoretische
Geod
asie, die bei der Neuauflage geholfen haben. Mein besonderer Dank gilt
Herrn Dipl.-Ing. Robert Blinken, der eine Reihe von Anregungen f
ur die Neuauflage gegeben hat, und Frau Ingrid Wahl f
ur das Schreiben und die Gestaltung des Textes und das Zeichnen der Abbildungen dieser dritten Auflage.
Schlielich m
ochte ich noch die gute Zusammenarbeit mit dem Verlag dankend erw
ahnen.

Bonn, im M
arz 1997

KarlRudolf Koch

VI

VII

Vorwort zur zweiten Auflage


Die Notwendigkeit, dieses Buch in einer zweiten Auflage herauszugeben, wurde dazu genutzt, es vollst
andig zu u
berarbeiten. Dabei wurde erneut angestrebt, die Methoden der Parametersch
atzung, der Hypothesenpr
ufung und
der Bereichssch
atzung m
oglichst in sich geschlossen darzustellen und das erforderliche Wissen u
ber die lineare Algebra und die Wahrscheinlichkeitstheorie beizuf
ugen. Der Aufbau des Buches ist also nicht ge
andert worden. Eine
Reihe von Beispielen wurde aber hinzugef
ugt, um die durchweg knapp gehaltene Darstellung der Methoden aufzulockern. Wo der Text zu verbessern oder
wo auf neuere Entwicklungen hinzuweisen war, sind Erg
anzungen oder auch
Streichungen vorgenommen worden, und bekannt gewordene Fehler wurden
beseitigt.
An umfangreicheren Erg
anzungen sind die direkte Berechnung der Cholesky
Faktorisierung zu nennen, die Eigenschaften einer speziellen symmetrischen
reflexiven generalisierten Inversen, die nichtzentralen WishartVerteilungen
f
ur die Matrizen quadratischer Formen, die Interpretation der Restriktionen
in einem freien Netz, die Datumstransformationen, das GauMarkoffModell
f
ur Ausreier in den Beobachtungen, die vereinfachten iterierten Sch
atzungen
der Varianz- und Kovarianzkomponenten, die weniger empfindlichen Hypothesentests im univariaten und multivariaten Modell der Parametersch
atzung,
die Berechnung der Wahrscheinlichkeit des Fehlers 2. Art f
ur Tests im multivariaten Modell, der Konfidenzbereich f
ur mehrere lineare Funktionen der
unbekannten Parameter, die Ableitung des Ausreiertests als Spezialfall des
Tests einer allgemeinen Hypothese im univariaten Modell, die Zuverl
assigkeitsmae und ihre Interpretation.
Allen Studentinnen und Studenten, die mit Verbesserungsvorschl
agen zu dieser Auflage beigetragen haben, danke ich sehr. Mein Dank gilt auch den Mitarbeiterinnen und Mitarbeitern des Instituts f
ur Theoretische Geod
asie, die
an der Vorbereitung der Neuauflage mitgewirkt haben. Besonders danke ich
Frau Dipl.-Ing. Stefanie Schulte, die viele Anregungen zu dieser Auflage gegeben hat, und Frau Karin Bauer, die den gr
oten Teil der Reinschrift besorgte.
Schlielich m
ochte ich dankend noch die gute Zusammenarbeit mit dem Verlag erw
ahnen.
Bonn, im Juli 1986

KarlRudolf Koch

VIII

IX

Vorwort (zur ersten Auflage)


Dieses Buch soll die Methoden der Parametersch
atzung, der Hypothesenpr
ufung und der Bereichssch
atzung erl
autern und begr
unden. Es behandelt
also die statistische Schlufolgerung oder die statistische Inferenz f
ur Parameter. Um einen groen Kreis von Lesern unterschiedlichen Ausbildungsstandes
und verschiedener Fachdisziplinen ansprechen zu k
onnen, wurde das Buch
so angelegt, da zu seinem Verst
andnis auer einigen Grundkenntnissen in
der Analysis keinerlei Voraussetzungen ben
otigt werden. Die erforderlichen
Kenntnisse aus der linearen Algebra und der Wahrscheinlichkeitstheorie werden in den beiden ersten Abschnitten des Buches vermittelt. Da es das Ziel ist,
im Hinblick auf Anwendungen die Inferenz f
ur Parameter darzustellen, wurde
gr
oerer Wert darauf gelegt, das Verst
andnis f
ur die behandelten Verfahren
zu vermitteln, als in den gegebenen Definitionen und Beweisen m
oglichst allgemein zu sein.
Die Sch
atzungen und Hypothesenpr
ufungen erfolgen in linearen Modellen,
doch bedeutet dies keine Einschr
ankung der Allgemeinheit, da unter Voraussetzungen, die meistens bequem zu erf
ullen sind, die nichtlinearen Modelle,
wie gezeigt wird, in lineare Modelle u
uhrt werden k
onnen. Andererseits
berf
bieten die linearen Modelle den Vorzug, da man sich bei ihnen der Methoden der linearen Algebra bedienen kann. Die hierzu erforderlichen Definitionen
und S
atze werden im Abschnitt 1 behandelt, wobei die angef
uhrten S
atze bis
auf wenige Ausnahmen bewiesen werden. Abschnitt 1 enth
alt auch die generalisierten Inversen, die f
ur die Parametersch
atzung in Modellen mit nicht
vollem Rang ben
otigt werden, und die Projektionen, die zur geometrischen
Interpretation der Sch
atzungen dienen.
Da auer der Parametersch
atzung, die in univariaten und multivariaten Modellen erfolgt, auch die Bereichssch
atzung, die Hypothesenpr
ufung und die
Diskriminanzanalyse behandelt werden, befat sich Abschnitt 2 mit der Wahrscheinlichkeitstheorie. Hier werden die Zufallsvariablen eingef
uhrt und die
wichtigsten univariaten und multivariaten Verteilungen sowie die Testverteilungen f
ur die univariaten und multivariaten Modelle der Parametersch
atzung
abgeleitet. Jede Verteilung erh
alt eine Methode zur numerischen Berechnung
ihrer Verteilungsfunktion, so da darauf verzichtet werden kann, Tafeln der
Verteilungsfunktionen abzudrucken.

X
Der Abschnitt 3 behandelt in univariaten und multivariaten Modellen die
Sch
atzung von Parametern, die als feste Gr
oen definiert sind. Feste Parameter gemeinsam mit Zufallsparametern werden in gemischten Modellen
gesch
atzt. Im Abschnitt 3 wird auch auf die Varianzanalyse und auf die
Sch
atzung von Varianz- und Kovarianzkomponenten eingegangen. Der Abschnitt 4 widmet sich dann der Hypothesenpr
ufung, der Bereichssch
atzung
und dem Ausreiertest, w
ahrend der Abschnitt 5 schlielich einen kurzen

Uberblick
u
ber die Diskriminanzanalyse gibt.
Ben
otigt man f
ur Beweise S
atze, die zuvor behandelt worden sind, so wird mit
Hilfe der entsprechenden Nummern auf diese S
atze verwiesen. Der Abschnitt
1 oder auch der Abschnitt 2 brauchen daher nicht vor dem Studium der u
brigen Kapitel gelesen zu werden, aufgrund der Verweise l
at sich das fehlende
Wissen gezielt den beiden ersten Abschnitten entnehmen. Wenn bei den als
Literatur zitierten B
uchern eine Seitenzahl angegeben wird, so bezeichnet sie
nur die erste Seite dessen, was von Interesse ist. Auf die folgenden Seiten, die
ebenfalls von Bedeutung sein k
onnen, wird nicht besonders hingewiesen.
Allen Mitarbeiterinnen und Mitarbeitern des Instituts f
ur Theoretische Geod
asie, die zum Erscheinen dieses Buches beigetragen haben, danke ich sehr.
Mein besonderer Dank gilt Herrn Dipl.-Math., Dipl.-Ing. Burkhard Schaffrin,
der viele Anregungen zu diesem Buch gegeben hat. Schlielich m
ochte ich
noch die gute Zusammenarbeit mit dem Verlag w
ahrend der Entstehung des
Buches dankend erw
ahnen.

Bonn, im September 1979

KarlRudolf Koch

XI

Inhaltsverzeichnis
Einf
uhrung
1 Vektor- und Matrixalgebra
11 Mengen und K
orper . . . . . . . . . . . . . . . . . . . . . . . .
111
Mengenbegriff . . . . . . . . . . . . . . . . . . . . . . . .
112
Verkn
upfung von Mengen . . . . . . . . . . . . . . . . .
113
Relationen . . . . . . . . . . . . . . . . . . . . . . . . .
114
K
orper der reellen Zahlen . . . . . . . . . . . . . . . . .
12 Vektoralgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . .
121
Vektordefinition und Vektorraum . . . . . . . . . . . . .
122
Lineare Abh
angigkeit und Basis eines Vektorraums . . .
123
Skalarprodukt und Euklidischer Raum . . . . . . . . . .
124
Orthogonale Unterr
aume . . . . . . . . . . . . . . . . .
13 Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
131
Matrixdefinition und Matrixverkn
upfungen . . . . . . .
132
Rang einer Matrix . . . . . . . . . . . . . . . . . . . . .
133
Berechnung inverser Matrizen . . . . . . . . . . . . . . .
134
Matrizenidentit
aten . . . . . . . . . . . . . . . . . . . .
135
Spaltenraum und Nullraum einer Matrix . . . . . . . . .
136
Determinanten . . . . . . . . . . . . . . . . . . . . . . .
137
Spur einer Matrix und Darstellung einer Matrix als Vektor
14 Quadratische Formen . . . . . . . . . . . . . . . . . . . . . . . .
141
Transformationen . . . . . . . . . . . . . . . . . . . . . .
142
Eigenwerte und Eigenvektoren . . . . . . . . . . . . . .
143
Definite Matrizen . . . . . . . . . . . . . . . . . . . . . .
15 Generalisierte Inversen . . . . . . . . . . . . . . . . . . . . . . .
151
Rechts- und Linksinversen . . . . . . . . . . . . . . . . .
152
Idempotente Matrizen . . . . . . . . . . . . . . . . . . .
153
Generalisierte Inverse, reflexive generalisierte Inverse und
Pseudoinverse . . . . . . . . . . . . . . . . . . . . . . . .
154
Lineare Gleichungssysteme . . . . . . . . . . . . . . . .
155
Generalisierte Inversen symmetrischer Matrizen . . . . .
156
Eigenschaften der Pseudoinversen und einer speziellen
symmetrischen reflexiven generalisierten Inversen . . . .
16 Projektionen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
161
Allgemeine Projektionen . . . . . . . . . . . . . . . . . .

1
3
3
3
4
5
6
6
6
9
12
13
15
15
21
26
36
37
39
43
45
45
48
50
52
52
53
54
59
62
67
69
69

XII

Inhaltsverzeichnis

17

162
Orthogonale Projektionen . . . . . . . . . . . . . . .
Differentiation und Integration von Vektoren und Matrizen
171
Extrema von Funktionen . . . . . . . . . . . . . . .
172
Differentialquotienten spezieller Funktionen . . . . .
173
Integration und Variablentransformation . . . . . . .

.
.
.
.
.

2 Wahrscheinlichkeitstheorie
21 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . .
211
Einf
uhrung . . . . . . . . . . . . . . . . . . . . . . . .
212
Zuf
allige Ereignisse . . . . . . . . . . . . . . . . . . . .
213
Axiome der Wahrscheinlichkeit . . . . . . . . . . . . .
214
Bedingte Wahrscheinlichkeit und Bayessche Formel . .
215
Unabh
angige Ereignisse . . . . . . . . . . . . . . . . .
22 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . .
221
Definition . . . . . . . . . . . . . . . . . . . . . . . . .
222
Verteilungsfunktion . . . . . . . . . . . . . . . . . . .
223
Diskrete und stetige Zufallsvariable . . . . . . . . . . .
224
Binomialverteilung und PoissonVerteilung . . . . . .
225
Mehrdimensionale stetige Zufallsvariable . . . . . . . .
226
Randverteilung . . . . . . . . . . . . . . . . . . . . . .
227
Bedingte Verteilung . . . . . . . . . . . . . . . . . . .
228
Unabh
angige Zufallsvariable . . . . . . . . . . . . . . .
229
Transformation von Verteilungen . . . . . . . . . . . .
23 Erwartungswerte und Momente von Zufallsvariablen . . . . .
231
Erwartungswert . . . . . . . . . . . . . . . . . . . . . .
232
Multivariate Momente . . . . . . . . . . . . . . . . . .
233
Kovarianzmatrix, Fehlerfortpflanzungsgesetz, Korrelationsmatrix und Gewichtsmatrix . . . . . . . . . . . .
234
Momenterzeugende Funktion . . . . . . . . . . . . . .
24 Univariate Verteilungen . . . . . . . . . . . . . . . . . . . . .
241
Normalverteilung . . . . . . . . . . . . . . . . . . . . .
242
Herleitung der Normalverteilung als Verteilung von Beobachtungsfehlern . . . . . . . . . . . . . . . . . . . .
243
Gammaverteilung . . . . . . . . . . . . . . . . . . . . .
244
Herleitung der Gammaverteilung als Verteilung von Ankunftszeiten . . . . . . . . . . . . . . . . . . . . . . . .
245
Betaverteilung . . . . . . . . . . . . . . . . . . . . . .
25 Multivariate Normalverteilung . . . . . . . . . . . . . . . . .
251
Definition und Herleitung . . . . . . . . . . . . . . . .
252
Momenterzeugende Funktion der Normalverteilung . .
253
Randverteilung und bedingte Verteilung . . . . . . . .
254
Unabh
angigkeit normalverteilter Zufallsvariablen . . .

.
.
.
.
.

70
72
72
74
78

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

81
81
81
83
85
86
88
88
88
89
91
93
96
98
99
100
101
101
101
104

.
.
.
.

107
115
116
116

. 120
. 121
.
.
.
.
.
.
.

124
125
127
127
129
130
132

XIII

Inhaltsverzeichnis

26

27

28

255
Lineare Funktionen normalverteilter Zufallsvariablen . .
256
Summe normalverteilter Zufallsvariablen . . . . . . . . .
Testverteilungen f
ur univariate Modelle der Parametersch
atzung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
261
2 Verteilung . . . . . . . . . . . . . . . . . . . . . . . .
262
Nichtzentrale 2 Verteilung . . . . . . . . . . . . . . . .
263
F Verteilung . . . . . . . . . . . . . . . . . . . . . . . .
264
Nichtzentrale F Verteilung . . . . . . . . . . . . . . . .
265
tVerteilung . . . . . . . . . . . . . . . . . . . . . . . . .
Quadratische Formen . . . . . . . . . . . . . . . . . . . . . . . .
271
Erwartungswert und Kovarianz . . . . . . . . . . . . . .
272
Verteilung der quadratischen Form . . . . . . . . . . . .
273
Unabh
angigkeit zweier quadratischer Formen . . . . . .
274
Unabh
angigkeit einer linearen Form und einer quadratischen Form . . . . . . . . . . . . . . . . . . . . . . . .
Testverteilungen f
ur multivariate Modelle der Parametersch
atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
281
WishartVerteilung . . . . . . . . . . . . . . . . . . . . .
282
Herleitung der WishartVerteilung . . . . . . . . . . . .
283
Verteilung der Summe von WishartMatrizen . . . . . .
284
Verteilung der transformierten WishartMatrix . . . . .
285
Verteilung der Matrizen quadratischer Formen und Unabh
angigkeit der WishartMatrizen . . . . . . . . . . .
286
Verteilung des Verh
altnisses der Determinanten zweier
WishartMatrizen . . . . . . . . . . . . . . . . . . . . .
287
Verteilung spezieller Funktionen von WishartMatrizen

3 Parametersch
atzung in linearen Modellen
31 Methoden der Parametersch
atzung . . . . . . . . . . . . . . .
311
Punktsch
atzung . . . . . . . . . . . . . . . . . . . . .
312
Beste erwartungstreue Sch
atzung . . . . . . . . . . . .
313
Methode der kleinsten Quadrate . . . . . . . . . . . .
314
MaximumLikelihoodMethode . . . . . . . . . . . . .
32 GauMarkoffModell . . . . . . . . . . . . . . . . . . . . . .
321
Definition und Linearisierung . . . . . . . . . . . . . .
322
Beste lineare erwartungstreue Sch
atzung . . . . . . . .
323
Methode der kleinsten Quadrate . . . . . . . . . . . .
324
MaximumLikelihoodMethode . . . . . . . . . . . . .
325
Erwartungstreue Sch
atzung der Varianz der Gewichtseinheit . . . . . . . . . . . . . . . . . . . . . . . . . . .
326
Numerische Berechnung der Sch
atzwerte und ihrer Kovarianzen . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

133
134
134
134
137
138
141
143
144
144
146
147
147
148
148
149
151
152
152
154
158
161
162
162
163
164
165
166
166
169
171
174

. 175
. 179

XIV

33

34

35

36

37

Inhaltsverzeichnis
327
GauMarkoffModell mit Restriktionen . . . . . . . . . 184
328
Rekursive Parametersch
atzung . . . . . . . . . . . . . . 192
329
Abweichungen vom Modell . . . . . . . . . . . . . . . . 193
GauMarkoffModell mit nicht vollem Rang . . . . . . . . . . 196
331
Methode der kleinsten Quadrate und MaximumLikelihoodSch
atzung . . . . . . . . . . . . . . . . . . . . . . 196
332
Sch
atzbare Funktionen . . . . . . . . . . . . . . . . . . . 198
333
Projizierte Parameter als sch
atzbare Funktion . . . . . . 200
334
GauMarkoffModell mit nicht vollem Rang und Restriktionen . . . . . . . . . . . . . . . . . . . . . . . . . 209
Spezielle GauMarkoffModelle . . . . . . . . . . . . . . . . . 214
341
Polynommodell . . . . . . . . . . . . . . . . . . . . . . . 214
342
Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . 217
343
Parametersch
atzung f
ur die Varianzanalyse mit einer
symmetrischen reflexiven generalisierten Inversen . . . . 221
344
Kovarianzanalyse . . . . . . . . . . . . . . . . . . . . . . 225
345
GauMarkoffModell f
ur Ausreier in den Beobachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
Verallgemeinerte lineare Modelle . . . . . . . . . . . . . . . . . 228
351
Regressionsmodell . . . . . . . . . . . . . . . . . . . . . 228
352
Gemischtes Modell . . . . . . . . . . . . . . . . . . . . . 231
353
Beste lineare erwartungstreue Sch
atzung im gemischten
Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
354
Methode der kleinsten Quadrate und MaximumLikelihoodMethode f
ur das gemischte Modell . . . . . . . . . 235
355
Modell der Ausgleichung nach bedingten Beobachtungen 239
356
Pr
adiktion und Filterung . . . . . . . . . . . . . . . . . 240
Sch
atzung von Varianz- und Kovarianzkomponenten . . . . . . 245
361
Beste invariante quadratische erwartungstreue Sch
atzung 245
362
Lokal beste Sch
atzung . . . . . . . . . . . . . . . . . . . 249
363
Iterierte Sch
atzungen . . . . . . . . . . . . . . . . . . . 254
364
Beste erwartungstreue Sch
atzung der Varianz der Gewichtseinheit . . . . . . . . . . . . . . . . . . . . . . . . 258
Multivariate Parametersch
atzung . . . . . . . . . . . . . . . . . 259
371
Multivariates GauMarkoffModell . . . . . . . . . . . 259
372
Sch
atzung der Parametervektoren . . . . . . . . . . . . 261
373
Sch
atzung der Kovarianzmatrix . . . . . . . . . . . . . . 263
374
Numerische Berechnung der Sch
atzwerte und unvollst
andige multivariate Modelle . . . . . . . . . . . . . . . 267
375
Spezielles Modell zur Sch
atzung von Kovarianzmatrizen
und Sch
atzung von Kovarianzen f
ur stochastische Prozesse
. . . . . . . . . . . . . . . . . . . . . . . . . . . 272

XV

Inhaltsverzeichnis

38

376
Multivariates Modell mit Restriktionen
Robuste Parametersch
atzung . . . . . . . . . .
381
Wahl der Zielfunktion . . . . . . . . . .
382
Robuste MSch
atzung . . . . . . . . . .
383
MSch
atzung nach Huber . . . . . . . .
384
Lp Norm Sch
atzung . . . . . . . . . . .
385
Hebelpunkte . . . . . . . . . . . . . . .
386
Modifizierte MSch
atzung nach Huber .
387
Verfahren von Rousseeuw . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

275
277
277
278
281
284
286
289
292

4 Hypothesenpr
ufung, Bereichssch
atzung und Ausreiertest 295
41 Verteilungen aufgrund normalverteilter Beobachtungen . . . . . 296
411
Verteilungen von Funktionen der Residuen im univariaten Modell . . . . . . . . . . . . . . . . . . . . . . . . . 296
412
Verteilungen der im multivariaten Modell gesch
atzten
Kovarianzmatrizen . . . . . . . . . . . . . . . . . . . . . 299
42 Test von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . 301
421
Methode der Hypothesenpr
ufung und LikelihoodQuotiententest . . . . . . . . . . . . . . . . . . . . . . . . . . 301
422
Test einer allgemeinen Hypothese im univariaten Gau
MarkoffModell . . . . . . . . . . . . . . . . . . . . . . . 304
423
Spezielle Hypothesen . . . . . . . . . . . . . . . . . . . . 308
424
Hypothesentest f
ur die Varianz der Gewichtseinheit . . 312
425
Test einer allgemeinen Hypothese im multivariaten
GauMarkoffModell . . . . . . . . . . . . . . . . . . . 314
426
Hypothese der Identit
at einer Kovarianzmatrix mit einer gegebenen Matrix . . . . . . . . . . . . . . . . . . . 321
43 Bereichssch
atzung . . . . . . . . . . . . . . . . . . . . . . . . . 322
431
Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . 322
432
Konfidenzintervalle f
ur Parameter, f
ur lineare Funktionen der Parameter und Konfidenzhyperellipsoide . . . . 323
433
Konfidenzintervall f
ur die Varianz der Gewichtseinheit . 328
44 Ausreiertest . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
441
Hypothesentest f
ur Ausreier . . . . . . . . . . . . . . . 329
442
Test f
ur einen Ausreier . . . . . . . . . . . . . . . . . . 331
443
Fraktilwerte f
ur den Ausreiertest . . . . . . . . . . . . 333
444
Zuverl
assigkeitsmae . . . . . . . . . . . . . . . . . . . . 335
Literatur

339

Sachverzeichnis

355

XVI

Inhaltsverzeichnis

Einfu
hrung
Parameter m
ussen immer dann gesch
atzt werden, wenn bestimmte Abl
aufe,
Zust
ande oder Ereignisse beobachtet werden, um daraus Erkenntnisse und
Schl
usse, beispielsweise u
unftige Entwicklungen der beobachteten Ereigber k
nisse, zu ziehen. Die Parametersch
atzung ben
otigt man also f
ur die mathematische Modellierung der beobachteten Ph
anomene. Die Beobachtungen sind
Funktionen der unbekannten Parameter, wobei die Art der Funktion sich aus
einer physikalischen Gesetzm
aigkeit, aus geometrischen Zusammenh
angen
oder einfach aus dem Experiment ergibt, das den Beobachtungen zugrunde liegt. Die funktionale Abh
angigkeit zwischen den Beobachtungen und den
unbekannten Parametern bildet einen Teil des Modells, in dem die Parametersch
atzung erfolgt.
Die Beobachtungen f
ur die Parametersch
atzung stellen die Ergebnisse von
Zufallsexperimenten dar. Die Beobachtungen, wie zum Beispiel Messungen
der Lufttemperatur, sind also von zuf
alliger Natur und k
onnen mit einer bestimmten Wahrscheinlichkeit innerhalb gewisser Grenzen schwanken. Angaben u
ber das Ma dieser Schwankungen mit Hilfe der Varianzen und Kovarianzen der Beobachtungen bilden den zweiten Teil des Modells f
ur die Parametersch
atzung. Um den Einflu der Zuf
alligkeit der Beobachtungen auf
die Paramter gering zu halten, wird davon ausgegangen, da im allgemeinen
mehr Beobachtungen in die Parametersch
atzung eingef
uhrt werden, als zur
eindeutigen Bestimmung der Parameter notwendig ist.
H
aufig wird zur Erfassung eines Ph
anomens nicht nur ein Merkmal gemessen,
wie beispielsweise die Gr
oe einer Pflanze bei einem Pflanzenversuch, sondern
man beobachtet mehrere Merkmale, wie Gr
oe, Gewicht und Aufbau einer
Pflanze. Die Auswertung dieser Daten geschieht in einem multivariaten Modell, w
ahrend im univariaten Modell lediglich ein Merkmal analysiert wird.
Je nach Aufgabenstellung definiert man die unbekannten Parameter als feste
Gr
oen oder wie die Beobachtungen als Zufallsvariable, was eine Sch
atzung
in unterschiedlichen Modellen bedingt.
Die Aufgabe der Parametersch
atzung besteht darin, in den gegebenen Modellen beste Sch
atzwerte f
ur die unbekannten Parameter zu bestimmen, wobei der Begriff der besten Sch
atzung als Sch
atzung mit minimaler Varianz
definiert wird. Bei groben Fehlern in den Beobachtungen kann als weitere
Eigenschaft gefordert werden, da die Sch
atzungen robust gegen
uber diesen

2
Ausreiern sind. H
aufig interessieren nicht nur die Sch
atzwerte der Parameter, sondern es besteht auch der Wunsch, Informationen u
ber die Parameter,
die man zus
atzlich zu den Beobachtungen besitzt, zu pr
ufen. Dies geschieht in
den Hypothesentests. Weiter lassen sich mit Hilfe der Bereichssch
atzungen f
ur
die unbekannten Parameter in Abh
angigkeit einer vorgegebenen Wahrscheinlichkeit Intervalle angeben, in denen die Parameter liegen.
Das gesamte Aufgabengebiet, das im folgenden behandelt wird, l
at sich kurz
als statistische Inferenz f
ur Parameter charakterisieren.

Vektor- und Matrixalgebra

Die hier behandelte statistische Inferenz f


ur Parameter soll in linearen Modellen erfolgen. Lineare Beziehungen lassen sich kompakt und u
bersichtlich
durch Vektoren und Matrizen darstellen, so da im folgenden auf die sp
ater
ben
otigten Definitionen und S
atze der linearen Algebra eingegangen wird.
Erl
autert werden auch die Methoden der Vektorr
aume, die es erlauben, geometrische Vorstellungen dann noch zu benutzen, wenn die R
aume, die ben
otigt
werden, h
ohere Dimensionen als die des unserer Vorstellung gel
aufigen dreidimensionalen Raumes besitzen. Schlielich werden noch generalisierte Inversen
behandelt, mit denen man bequem von Modellen mit vollem Rang f
ur die Parametersch
atzung auf Modelle mit nicht vollem Rang u
berwechseln kann.

11

Mengen und Ko
rper

111

Mengenbegriff

Im folgenden werden h
aufig Objekte oder Vorkommnisse mit gleichen oder
ahnlichen Eigenschaften behandelt, die auf irgendeine Weise zusammenge
fat werden m
ussen. Dies geschieht zweckm
aig mit dem mathematischen
Begriff der Menge. Unter einer Menge versteht man daher die Zusammenfassung genau definierter wirklicher oder gedachter Objekte. Die zu einer Menge
geh
orenden Objekte sind die Elemente der Menge. Es sei a ein Element und
M eine Menge; man schreibt
aM

oder a 6 M ,

falls a ein Element oder falls a kein Element der Menge M ist. Die Menge M
der Elemente a, f
ur die die Eigenschaft B bez
uglich a, also B(a) erf
ullt ist,
bezeichnet man mit
M = {a|B(a)} ,
beispielsweise M = {a|a ist positiver Teiler von 6} = {1, 2, 3, 6}. Gibt es in
M kein Element mit der Eigenschaft B(a), f
uhrt man die leere Menge M =
ein.
Definition: Die Menge, die kein Element enth
alt, heit leere Menge . (111.1)

1 Vektor- und Matrixalgebra

Wichtige Beispiele f
ur Mengen sind die Zahlenmengen wie die Mengen nat
urlicher Zahlen, ganzer Zahlen oder rationaler Zahlen, also endlicher oder unendlicher, periodischer Dezimalbr
uche. Hierf
ur haben sich Standardbezeichnungen
eingeb
urgert; beispielsweise bezeichnet man mit N die Menge der nat
urlichen Zahlen, also N = {1, 2, 3, . . .}, und mit R die Menge der reellen Zahlen,
also R = {a|a ist endlicher oder unendlicher Dezimalbruch mit beliebigem
Vorzeichen}.
F
ur Elemente, die nicht nur Elemente einer Menge sind, besteht die
Definition: Geh
oren alle Elemente einer Menge M auch einer Menge P an,
so bezeichnet man M als Teilmenge von P und schreibt M P .
(111.2)

112

Verknu
pfung von Mengen

Wie beispielsweise reelle Zahlen durch Rechenoperationen verkn


upft werden
k
onnen, so lassen sich auch Mengen miteinander verkn
upfen.
Definition: Die Vereinigungsmenge M P (M vereinigt mit P ) zweier Mengen M und P besteht aus den Elementen, die wenigstens einer der beiden
Mengen angeh
oren.
(112.1)
Definition: Die Durchschnittsmenge M P (M geschnitten mit P ) zweier
Mengen M und P besteht aus den Elementen, die sowohl der Menge M als
auch der Menge P angeh
oren.
(112.2)
Definition: Die Differenzmenge M \ P (M ohne P ) zweier Mengen M und
P besteht aus den Elementen von M , die nicht zugleich noch P angeh
oren.
(112.3)
Eine anschauliche Darstellung von Vereinigung, Durchschnitt und Differenz
zweier Mengen verm
ogen die sogenannten VennDiagramme zu geben, in denen die Bereiche innerhalb geschlossener Linien die Elemente einer Menge
repr
asentieren. In Abbildung 112-1 ist ein Venn-Diagramm der Vereinigungsmenge M P von M und P , in Abbildung 112-2 der Durchschnittsmenge
M P von M und P und in Abbildung 112-3 der Differenzmenge M \ P von
M und P jeweils schraffiert dargestellt.
Gilt M P = , heien M und P disjunkt. Ist A B, so bezeichnet man die
Menge A
A = B \ A

(112.4)

als Komplementarmenge von A in B. F


ur sie gilt A A = B und A A = .

11 Mengen und Korper

Abb. 112-1:
Vereinigungsmenge

113

Abb. 112-2:
Durchschnittsmenge

Abb. 112-3:
Differenzmenge

Relationen

Nachdem die Zusammenfassung von Objekten aufgrund bestimmter Eigenschaften als Menge eingef
uhrt wurde, m
ussen jetzt Beziehungen zwischen den
Objekten charakterisiert werden. Hierzu wird der folgende Begriff ben
otigt.
Sind a und b irgendwelche Objekte, so nennt man den Ausdruck (a, b) das
geordnete Paar a, b. Zu seiner Erkl
arung soll lediglich definiert werden, wann
zwei geordnete Paare u
bereinstimmen: Es gilt (a, b) = (c, d) genau dann, wenn
a = c und b = d ist. Die Ausdrucksweise genau dann, wenn bedeutet, da

die Folgerung nach beiden Seiten zu ziehen ist. Aus (a, b) = (c, d) folgt also
a = c und b = d und umgekehrt aus a = c und b = d ergibt sich (a, b) = (c, d).
Mit Hilfe des geordneten Paares kann jetzt die folgende Relation zwischen
zwei Mengen definiert werden.
Definition: Die Menge aller geordneten Paare (a, b) mit a A und b B
heit kartesisches Produkt der Mengen A und B, und man schreibt A B =
{(a, b)|a A, b B}.
(113.1)
Geordnete Paare lassen sich als Koordinaten interpretieren, so da das kartesische Produkt R R = R2 der Menge R der reellen Zahlen die Punkte
in einer Ebene ergibt, deren Koordinaten mit Hilfe zweier reeller Koordinatenachsen definiert werden. Die Erweiterung des Paarbegriffes f
uhrt auf das
Tripel, das sind drei geordnete Objekte, auf das Quadrupel mit vier Objekten
und schlielich auf das nTupel mit n Objekten, beispielsweise (x1 , x2 , . . . , xn ).
Die Definition des Tripels, Quadrupels und nTupels erfolgt rekursiv mit Hilfe
des Paarbegriffs, indem die erste Koordinate des Tripels ein geordnetes Paar
ist, die erste Koordinate des Quadrupels ein Tripel und sofort. Entsprechend
(113.1) ergeben sich nTupel als kartesisches Produkt von n Mengen. R3 definiert daher den dreidimensionalen Raum und Rn den ndimensionalen Raum.

1 Vektor- und Matrixalgebra

Weitere Relationen wie Aquivalenzrelationen


und Ordnungsrelationen (Grotemeyer 1970) brauchen hier nicht definiert zu werden.

114

K
orper der reellen Zahlen

Nachdem Relationen zwischen den Elementen von Mengen behandelt wurden,


werden jetzt Verkn
upfungen zwischen den Elementen eingef
uhrt. Die Verkn
upfungen bleiben hier auf die Addition und Multiplikation reeller Zahlen
beschr
ankt, so da der K
orper der reellen Zahlen erhalten wird. Dieser K
orper
besitzt aufgrund der Verkn
upfungen eine algebraische Struktur (Grotemeyer 1970, S.37).
Definition: Die Menge R heit Korper der reellen Zahlen, wenn mit x, y, z
R die Addition und Multiplikation das Kommutativ-, Assoziativ- und Distributivgesetz erf
ullen
x + y = y + x und
x + (y + z) = (x + y) + z und
x(y + z)

xy = yx
x(yz) = (xy)z
xy + xz ,

wenn es zwei ausgezeichnete Elemente 0 (Null) und 1 (Eins) mit 0 6= 1 gibt,


so da f
ur jedes x R gilt x + 0 = x und 1x = x, wenn zu jedem x R ein
additives inverses Element y R existiert, so da x + y = 0 gilt, und wenn es
zu jedem x R0 mit R0 = R \ {0} ein multiplikatives inverses Element z R0
gibt, so da xz = 1 gilt.
(114.1)
Im folgenden wird unter der Menge R immer der K
orper der reellen Zahlen
verstanden.

12

Vektoralgebra

121

Vektordefinition und Vektorraum

Physikalische Gr
oen wie Kraft und Geschwindigkeit lassen sich nicht lediglich
durch eine Zahl, n
amlich ihren Absolutbetrag angeben, auch ihre Richtung
mu festgelegt werden. Drei Zahlen ben
otigt man, wenn beispielsweise die
Gr
oe, das Gewicht und das Alter von Individuen zu registrieren sind. Man
bedient sich hierzu der Vektoren, die nicht nur f
ur die Ebene R2 oder den
3
dreidimensionalen Raum R , sondern auch f
ur den ndimensinalen Raum Rn
definiert werden.
Definition: Es sei xi R mit i {1, . . . , n} und n N, dann bezeichnet man
das nTupel (x1 , x2 , . . . , xn ) des ndimensionalen Raumes Rn als Vektor und

12 Vektoralgebra
schreibt





x =

x1
x2
...
xn

(121.1)

Die xi sind die Komponenten oder die Koordinaten von x.


Der Vektor x l
at sich als gerichtete Verbindung des Ursprungs eines Koordinatensystems des Rn mit den Koordinaten (0, 0, . . . , 0) zum Punkt mit den
Koordinaten (x1 , x2 , . . . , xn ) interpretieren, wobei die Richtung von x auf den
Punkt weist. Eine geometrische Veranschaulichung erlauben die Vektoren mit
zwei Komponenten in der Ebene R2 oder die Vektoren mit drei Komponenten
im dreidimensionalen Raum R3 .
Definition: Zwei Vektoren x, y Rn werden addiert, indem ihre Komponenten addiert werden


x1 + y 1


x2 + y 2

.
(121.2)
x+y =

...


xn + y n
Der Vektoraddition entspricht das Parallelogramm der Kr
afte, das in Abbildung 121-1 f
ur die Ebene dargestellt ist. Die Vektoraddition ist kommutativ
2

x+ y
x

Abb. 121-1: Vektoraddition


und assoziativ, denn f
ur x, y, z Rn gilt wegen (114.1) und (121.2)
x + y = y + x und

x + (y + z) = (x + y) + z .

(121.3)

Das nTupel (0, 0, . . . , 0) des Rn definiert den Nullvektor, und es gilt mit
(114.1) und (121.2)
x + 0 = x f
ur alle x Rn .

(121.4)

1 Vektor- und Matrixalgebra

Jeder Vektor x besitzt die additive Inverse x, so da gilt


x + (x) = 0 f
ur alle x Rn .

(121.5)

Definition: Ist c R, dann ist die Multiplikation des Vektors x Rn mit


c, das man in diesem Zusammenhang auch als Skalar bezeichnet, bestimmt
durch


cx1


cx2
.

(121.6)
cx =


cxn
Vektoraddition und Skalarmultiplikation gen
ugen wegen (114.1) dem Distributiv- und Assoziativgesetz. Mit c, d R und x, y Rn gilt
c(x + y) = cx + cy
(c + d)x = cx + dx
(cd)x = c(dx)
1x = x .

(121.7)

Die Menge der Vektoren, die die angegebenen Gesetze erf


ullen, l
at sich wie
folgt zusammenfassen.
Definition: Es sei V n eine Menge von Vektoren des Rn , dann heit V n linearer Vektorraum u
ur alle c, d R und alle Vektoren x, y, z V n
ber R, wenn f
die Gesetze (121.3) bis (121.5) und (121.7) erf
ullt sind.
(121.8)
Der Vektorraum umfat also die Menge der Vektoren, die durch Vektoraddition und skalare Multiplikation aus einer Menge gegebener Vektoren konstruiert werden kann, wobei die oben angegebenen Gesetze erf
ullt sein m
ussen.
Der Nullvektor 0 ist ein Element jeden Vektorraumes. Die Menge {0}, die
lediglich den Nullvektor enth
alt, ist ebenfalls ein Vektorraum. Vektoren und
Vektorr
aume lassen sich, wie hier geschehen, nicht nur f
ur die K
orper reeller
Zahlen, sondern auch f
ur beliebige Zahlenk
orper definieren (B
ohme 1974,
S.193; Nei und Liermann 1975, S.19).
Werden nur Teilmengen von Vektoren in einem Vektorraum betrachtet, f
uhrt
man den Begriff des Unterraums ein.
Definition: Bezeichnet man mit U n eine Teilmenge von Vektoren des Vektorraumes V n , dann ist U n Unterraum des V n , falls U n selbst Vektorraum
ist.
(121.9)

12 Vektoralgebra

Beispiel: Die Menge der Vektoren




x1


V 3 = {x|x = x2 , xi R}
x3

bilden einen Vektorraum und ebenso die Menge




u1


U 3 = {u|u = 0 , u1 R} .
0

Da U 3 V 3 ist, bildet U 3 einen Unterraum von V 3 .


Extreme Beispiele von Unterr
aumen eines jeden Vektorraums sind die Teilmenge {0}, die nur den Nullvektor enth
alt, und die Teilmenge, die s
amtliche
Vektoren enth
alt.
Es soll nun die Summe von Unterr
aumen betrachtet werden.
Definition: Es seien V1n , V2n , . . . , Vkn Unterr
aume des V n , dann ist die Summe
n
n
n
n
Vi + Vj der Unterr
aume Vi und Vj definiert durch
Vin + Vjn = {i + j |i Vin , j Vjn } ,
worin i einen beliebigen Vektor des Unterraumes Vin und j einen beliebigen
Vektor des Unterraumes Vjn bedeuten. Weiter bezeichnet man den Vektorraum Vn als direkte Summe seiner Unterr
aume V1n , V2n , . . . , Vkn und schreibt
V n = V1n V2n . . . Vkn ,
wenn V n eindeutig darstellbar ist durch = 1 + 2 + . . . + k mit
(121.10)
i Vin .

Gilt V n = V1n . . .Vkn , so gibt es, abgesehen vom Nullvektor, keine Vektoren,
ur i 6= j gemeinsam sind.
die den Unterr
aumen Vin und Vjn f

122

Lineare Abh
angigkeit und Basis eines Vektorraums

Ein f
ur die lineare Algebra grundlegender Begriff ist der der linearen Abh
angigkeit und der linearen Unabh
angigkeit.
Definition: Eine Teilmenge von Vektoren 1 , 2 , . . . , k V n bezeichnet
man als linear abhangig, wenn Skalare c1 , c2 , . . . , ck R existieren, die nicht
alle gleich Null sind, so da gilt
c1 1 + c 2 2 + . . . + c k k = 0 .

10

1 Vektor- und Matrixalgebra

Andernfalls heien die Vektoren linear unabhangig.

(122.1)

Die Beziehung c1 1 + . . . + ck k = 0 kann man sich als ein geschlossenes


Polygon vorstellen.
Die folgenden beiden S
atze werden h
aufiger ben
otigt werden.
Satz: Eine den Nullvektor enthaltende Teilmenge von Vektoren 1 , 2 , . . . ,
k , 0 V n ist stets linear abh
angig.
(122.2)
Beweis: Es gilt c1 1 + . . . + ck k + ck+1 0 = 0, falls c1 = . . . = ck = 0 und
ck+1 6= 0, so da die Aussage folgt.

Satz: Sind die Vektoren 1 , 2 , . . . , k V n linear abh


angig, so ist immer
wenigstens einer als Linearkombination der u
(122.3)
brigen darstellbar.
Beweis: Bei linearer Abh
angigkeit gilt c1 1 +. . .+ck k = 0, wobei zumindest
ein Skalar ungleich Null ist, beispielsweise ci 6= 0. Somit erh
alt man
i =

k
X
cj
j=1
j6=i

ci

j ,

so da die Aussage folgt.


Mit Hilfe der Linearkombination
ergibt sich jetzt die

Pk

i=1 ci i

von Vektoren eines Vektorraums

Definition: Wenn jeder Vektor eines Vektorraums V n durch eine Linearkombination der Vektoren 1 , 2 , . . . , k V n erzeugt werden kann, so sagt man,
da die Vektoren 1 , 2 , . . . , k den Vektorraum aufspannen.
(122.4)
Ist die Teilmenge der Vektoren, die den Vektorraum aufspannen, linear unabh
angig, so erh
alt sie eine besondere Bezeichnung.
Definition: Eine Basis f
ur einen Vektorraum V n ist eine Teilmenge linear
unabh
angiger Vektoren, die den Vektorraum aufspannen.
(122.5)
Satz: Jeder Vektorraum besitzt eine Basis.

(122.6)

Dieser Satz soll lediglich erl


autert werden, ein Beweis befindet sich in (Grotemeyer 1970, S.192). Besteht der Vektorraum aus der Menge {0}, bildet
der Nullvektor die Basis. In den u
allen werden die von Null verschiebrigen F
denen Vektoren 1 , 2 , . . . des Vektorraums nacheinander ausgew
ahlt, wobei
alle Vektoren ausgeschieden werden, die linear abh
angig von den bereits ausgew
ahlten Vektoren sind. Die am Ende des Auswahlprozesses gewonnenen
linear unabh
angigen Vektoren bilden eine Basis des Vektorraums.

12 Vektoralgebra

11

Die Bedeutung einer Basis ergibt sich aus dem


Satz: Jeder Vektor V n wird mit Hilfe der Vektoren einer Basis eindeutig dargestellt.
(122.7)
Pk
Beweis: Seien 1 , 2 , . . . , k die Vektoren einer Basis und stelle i=1 ci i
Pk
Pk
und i=1 di i denselben Vektor dar. Dann ist i=1 (ci di )i = 0, was nur
dann m
oglich ist, falls ci di = 0 f
ur alle i gilt, da die i linear unabh
angig
sind. Hiermit folgt die Aussage.
Die Frage nach der Anzahl der Vektoren in verschiedenen Basen eines Vektorraumes beantwortet der
Satz: Sind 1 , . . . , k und 1 , . . . , l zwei Basen des Vektorraums V n , dann
ist k = l.
(122.8)
Beweis: Zun
achst sei k > l angenommen. Die Vektoren 1 , . . . , k spannen
V n auf und sind linear unabh
angig, da sie eine Basis bilden. Ebenfalls spannen die Vektoren 1 , . . . , k , 1 den Vektorraum V n auf, sie sind jedoch linear
abh
angig, da 1 V n sich nach (122.7) darstellen l
at durch 1 , . . . , k , folglich 1 = c1 1 + c2 2 + . . . + ck k , wobei zumindest ein Skalar ci 6= 0, da
1 ein Basisvektor und somit 1 6= 0 ist. Es gelte c1 6= 0, so da 1 nach
(122.3) durch eine Linearkombination der Vektoren 2 , . . . , k , 1 darzustellen ist, die somit den Vektorraum aufspannen. Ebenso spannen die Vektoren
2 , . . . , k , 1 , 2 den Vektorraum auf, die aber linear abh
angig sind, da 2
darstellbar ist durch 2 = d2 2 + . . . + dk k + d1 1 . F
ur einen Wert di mit
i {2, . . . , k} gilt di 6= 0, da sonst 1 und 2 linear abh
angig w
aren. Es
gelte d2 6= 0, so da 2 durch 3 , . . . , k , 1 , 2 darzustellen ist, so da diese

Vektoren den Vektorraum aufspannen. Die gleichen Uberlegungen


lassen sich
bis k anstellen, so da 1 , . . . , k den Vektorraum aufspannen und die Vektoren k+1 , . . . , l linear abh
angig sind. Folglich ist k = l, und man erh
alt die
Aussage.
Die minimale Anzahl der Vektoren, die einen Vektorraum aufspannen, wird
also durch die Anzahl der Vektoren einer Basis des Vektorraums bestimmt.
Definition: Die Dimension dim V n eines Vektorraums V n ist die Anzahl der
Vektoren einer beliebigen Basis des V n .
(122.9)
Zur Erl
auterung sei der Vektorraum V n betrachtet, der durch die Menge der
Vektoren x mit den n Komponenten xi R gegeben ist. Die Vektoren






1
0
0






0
1
0






e1 =
(122.10)
, e2 = . . . , . . . , e n = . . .
...




0
0
1

12

1 Vektor- und Matrixalgebra

mit n Komponenten sind linear unabh


angig und spannen V n auf, denn jeder
n
beliebige Vektor x V mit den n Komponenten xi l
at sich darstellen durch
x = x1 e1 +x2 e2 +. . .+xn en . Die Vektoren e1 , e2 , . . . , en bilden also eine Basis
des V n , und es gilt dim V n = n. Geometrisch lassen sich diese Basisvektoren
als Vektoren in Richtung von Koordinatenachsen deuten, die die Koordinaten
der Punkte des Rn definieren.

123

Skalarprodukt und Euklidischer Raum

Bis jetzt wurden Vektorr


aume nur unter dem Gesichtspunkt der linearen Unabh
angigkeit betrachtet. Um aber auch mit L
angen von Vektoren und Winkeln zwischen Vektoren arbeiten zu k
onnen, die bei geometrischen Problemen
auftreten, mu das Skalarprodukt, auch inneres Produkt genannt, zweier Vektoren eingef
uhrt werden.
Definition: Es sei x, y V n , wobei x die Komponenten xi und y die Komponenten yi besitze, dann ist das Skalarprodukt x0 y von x und y gegeben
durch
x0 y =

n
X

xi y i .

(123.1)

i=1

Der Grund f
ur die Schreibweise x0 y, h
aufig findet man auch xy oder < x, y >,
ergibt sich aus der Definition (131.6) eines Matrizenproduktes.
Satz: F
ur das Skalarprodukt gilt
x0 y = y 0 x , (x + y)0 z = x0 z + y 0 z , (cx0 )y = c(x0 y) .

(123.2)

Beweis: Mit (114.1) und (123.1) folgen die Aussagen.


Die Lange |x|, der Absolutbetrag oder die Norm eines Vektors x ist definiert
durch
|x| = (x0 x)1/2 .

(123.3)

Der Winkel zwischen zwei Vektoren x und y ergibt sich aus der geometrischen Definition des Skalarproduktes (z.B. Strang 1980, S.106)
x0 y = |x||y| cos

(123.4)

und somit
cos =

x0 y
.
((x0 x)(y 0 y))1/2

(123.5)

12 Vektoralgebra

13

Vektorr
aume mit Skalarprodukt erhalten eine eigene Bezeichnung.
Definition: Ein Vektorraum V n mit dim V n = n, f
ur den das Skalarprodukt definiert ist, bezeichnet man als ndimensionalen Euklidischen Raum
En.
(123.6)
Euklidische R
aume besitzen endliche Dimensionen. Bei der Erweiterung auf
unendliche Dimensionen ergeben sich die Hilbertschen R
aume (Meschkowski
1962), die jedoch im folgenden nicht ben
otigt werden.

124

Orthogonale Unterr
aume

Stehen zwei Vektoren aufeinander senkrecht, folgt mit cos = 0 in (123.4)


x0 y = 0.
Definition: Zwei Vektoren x, y V n heien genau dann zueinander orthogonal, wenn x0 y = 0 gilt.
(124.1)
Der Nullvektor 0 ist also orthogonal zu jedem anderen Vektor.
Satz: Sind die Vektoren 1 , 2 , . . . , k paarweise zueinander orthogonal und
ungleich Null, sind sie linear unabh
angig.
(124.2)
Beweis: Es wird gezeigt, da nur dann 0 = c1 1 +c2 2 +. . .+ck k sich ergibt,
falls ci = 0 f
ur i {1, . . . , k}, was wegen (122.1) lineare Unabh
angigkeit beP
deutet. Skalare Multiplikation der Gleichung mit 0j ergibt 0 = ki=1 ci 0j i =
cj 0j j wegen (124.1). Da j 6= 0, folgt cj = 0 und damit die Aussage.
Es sollen jetzt zueinander orthogonale Basisvektoren behandelt werden.
Definition: Eine Basis des E n bezeichnet man als Orthogonalbasis, falls die
Basisvektoren paarweise zueinander orthogonal sind, und als Orthonormalbasis, falls auerdem die Basisvektoren die L
ange Eins besitzen.
(124.3)
Eine orthonormale Basis des E n bilden die n Vektoren mit den n Komponenten






1
0
0






0




, e2 = 1 , . . . , e n = 0 .
e1 =





...
...
...
0
0
1

Wie bereits im Zusammenhang mit (122.10) erw


ahnt, zeigen diese Basisvektoren in Richtung der Achsen eines Koordinatensystems f
ur Punkte des E n ,
das wegen (124.1) zudem ein orthogonales Koordinatensystem ist.

14

1 Vektor- und Matrixalgebra

Satz: Zu jeder Basis b1 , . . . , bn des E n existiert eine Orthonormalbasis o1 , . . . ,


on derart, da jeder Vektor oi eine Linearkombination von b1 , . . . , bn darstellt.
(124.4)
Der Beweis dieses Satzes wird mit Hilfe des Schmidtschen Orthogonalisierungsverfahrens gef
uhrt (Nei und Liermann 1975, S.134).
Satz: Falls o1 , o2 , . . . , or eine orthonormale Basis eines Unterraums des E n
ist, dann l
at sie sich zur orthonormalen Basis des E n mit den n Basisvektoren o1 , . . . , or , or+1 , . . . , on erg
anzen.
(124.5)
Der Beweis dieses Satzes ergibt sich mit (124.4) und dem Basiserg
anzungssatz
(Grotemeyer 1970, S.193).
Der Begriff der Orthogonalit
at wird auch auf Unterr
aume von Vektorr
aumen
ausgedehnt.
Definition: U und W seien Unterr
aume des E n . Gilt x0 y = 0 f
ur alle x U
und alle y W , dann bezeichnet man U und W als zueinander orthogonale
Unterraume des E n .
(124.6)
F
ur die Menge der Vektoren eines Vektorraums, die orthogonal zu den Vektoren eines Unterraums stehen, gilt der
Satz: Es sei U ein Unterraum des Vektorraums E n und U die Menge
der Vektoren des E n , die orthogonal zu jedem Vektor von U sind. U ist
dann Unterraum des E n und wird als orthogonales Komplement von U in
E n bezeichnet. Weiter ist jeder Vektor z E n eindeutig darstellbar durch
z = x + y mit x U und y U , so da E n = U U gilt. Ferner ist
dim U + dim U = dim E n = n.
(124.7)
Beweis: Die Vektoren u, v E n seien orthogonal zu jedem Vektor in U , so
da u, v U gilt. Dann sind auch Linearkombinationen von u und v orthogonal zu jedem Vektor in U , so da U nach (121.9) einen Unterraum des E n
bildet. Weiter sei dim U = r und 1 , 2 ,P
. . . , r eine orthonormale Basis f
ur
r
U , so da x U nach (122.7) durch x = i=1 ci i mit ci R darstellbar ist.
Ferner sei 1 , . . . , r , r+1 , . . . , n die aufgrund von (124.5) erg
Pannzte orthonormale Basis des E n , so da f
ur z E n die Darstellung z = i=1 di i mit
di R erhalten wird. Die Vektoren z sind nur dann orthogonal zu x U , falls
d1 = d2 = . . . = dr = 0, falls sie also in demP(nr)dimensionalen Unterraum
n
U der Vektoren mit der Darstellung y = i=r+1 di i sich befinden. Hieraus
folgen dann die Aussagen und mit (121.10) die Darstellung des E n als direkte
Summe.

13 Matrizen

15

Beispiel: Der Vektorraum E 3 sei definiert durch




x1


E 3 = {x|x = x2 , x1 , x2 , x3 R} .
x3
Dann ist U



x1


U = {x|x = x2 , x1 , x2 R}
0

ein Unterraum von E 3 und U




0


U = {x|x = 0 , x3 R}
x3

das orthogonale Komplement von U in E 3 .

13

Matrizen

131

Matrixdefinition und Matrixverknu


pfungen

a) Definition einer Matrix


Eine rechteckige Tabelle von Zahlen bezeichnet man als Matrix. Genauer formuliert erh
alt man die
Definition: Es sei K ein K
orper von Zahlen und m, n N. Dann heit die
rechteckige Tabelle der Elemente aij K


a11 a12 . . . a1n


a21 a22 . . . a2n


A = (aij ) =

.....................
am1 am2 . . . amn

eine m n Matrix A, wobei m die Anzahl der Zeilen und n die der Spalten,
also die Dimensionen der Matrix angeben.
(131.1)
Im folgenden werden ausschlielich Matrizen mit Elementen aus dem K
orper
der reellen Zahlen, also aij R behandelt.
Mit n = 1 geht die Matrix A in den mit (121.1) definierten m1 Vektor u
ber,
der auch als Spaltenvektor bezeichnet wird. Mit m = 1 ergibt sich aus A der 1
n Zeilenvektor. Ist m = n, heit A eine quadratische Matrix. Ist aij = 0 f
ur alle

16

1 Vektor- und Matrixalgebra

i, j, wird A zur Nullmatrix 0. Die quadratische nn Matrix A mit aij = 1 f


ur
i = j und aij = 0 f
ur i 6= j bezeichnet man als nn Einheitsmatrix I oder I n .
Die Elemente aii einer quadratischen Matrix heien Diagonalelemente. Gilt in
einer quadratischen nn Matrix A f
ur die NichtDiagonalelemente aij = 0 f
ur
i 6= j, heit A eine Diagonalmatrix, und man schreibt A = diag(a11 , . . . , ann ).
Sind s
amtliche Elemente einer quadratischen Matrix unterhalb der Diagonalelemente gleich Null, liegt eine obere Dreiecksmatrix vor. Befinden sich
die Nullelemente oberhalb der Diagonalelemente, spricht man von unterer
Dreiecksmatrix. Sind die Diagonalelemente einer Dreiecksmatrix gleich Eins,
bezeichnet man sie als EinheitsDreiecksmatrix.
b) Addition von Matrizen
Definition: Zwei m n Matrizen A = (aij ) und B = (bij ) werden addiert,
indem positionsgleiche Elemente addiert werden, also A + B = (aij + bij ).
(131.2)
Die Addition zweier Matrizen ist also nur f
ur Matrizen gleichen Formats oder
gleicher Dimensionen definiert, die gleiche Anzahl von Zeilen und Spalten
besitzen.
Satz: Die Matrizenaddition ist kommutativ und assoziativ
A+B = B+A
A + (B + C) = (A + B) + C .

(131.3)

Beweis: Mit (114.1) und (131.2) folgen die Aussagen.


c) Skalarmultiplikation
Definition: Eine Matrix A = (aij ) wird mit einem Skalar c R multipliziert,
indem jedes Element von A mit c multipliziert wird, also cA = (caij ). (131.4)
Satz: Mit c, d R gilt
(c + d)A = cA + dA
c(A + B) = cA + cB .

(131.5)

Beweis: Mit (114.1) und (131.4) ergeben sich die Aussagen.


d) Matrizenmultiplikation
Definition: Das Produkt AB = (cij ) der m n Matrix A und der n p
Matrix B ist definiert durch
cij =

n
X
k=1

aik bkj

f
ur i {1, . . . , m} und

j {1, . . . , p} .

(131.6)

17

13 Matrizen

Das Produkt zweier Matrizen ist also nur dann definiert, wenn die Anzahl der
Spalten von A der Anzahl der Zeilen von B gleicht. Das Produkt AB besitzt
soviele Zeilen wie A und soviele Spalten wie B.
Beispiel: Die beiden unten definierten Matrizen A und B sollen miteinander
multipliziert werden, wobei zur Rechenkontrolle als zus
atzliche Spalte an die
Matrix B die Summe ihrer Zeilen angeh
angt und in die Multiplikation miteinbezogen werde, so da eine zus
atzliche Spalte in der Produktmatrix AB
erhalten wird, die gleich der Zeilensumme von AB sein mu. Die Zeilensumme von B ergibt sich n
amlich aus Be mit e = |1, . . . , 1|0 und die Zeilensumme

des Produktes aus (AB)e = A(Be). Zur besseren Ubersicht


wird auerdem
das sogenannte Falksche Schema benutzt.

A =

-1
0

B =

1
0
2

-1
1
2

0
1
-2

3
-4
5

3
-2
7

2
3

1
8

5
11

0
-5

-6
8

0
22

1
4

= AB
Satz: Die Matrizenmultiplikation ist assoziativ, distributiv, aber im allgemeinen nicht kommutativ
A(BC) = (AB)C
A(B + C) = AB + AC und (A + B)C = AC + BC
im allgemeinen AB

6=

BA .

(131.7)

Beweis: A = (aij ) sei eine m n Matrix, B = (bij ) eine n p Matrix und


C = (cij ) eine pr Matrix. Ferner sei D = (dij ) = AB und E = (eij ) = BC.
Dann ist
p
n
n

 X
X
X
bkl clj )
aik (
aik ekj =
A(BC) =
k=1

k=1

l=1

p
p X
n

 X
X
dil clj = (AB)C .
=
(
aik bkl )clj =
l=1 k=1

l=1

Analog l
at sich die Distributivit
at beweisen, w
ahrend die NichtKommutativit
at offensichtlich ist, so da die Aussagen sich ergeben.
Die Multiplikation mit der Einheitsmatrix I entsprechender Dimensionen
ver
andert eine Matrix A nicht
IA = A und AI = A .

(131.8)

18

1 Vektor- und Matrixalgebra

e) Transponierung einer Matrix


Definition: Vertauscht man in einer m n Matrix A die Zeilen und Spalten,
so entsteht die transponierte n m Matrix A0




a11 a12 . . . a1n
a11 a21 . . . am1




a21 a22 . . . a2n 0 a12 a22 . . . am2




A=
, A = . . . . . . . . . . . . . . . . . . . . . (131.9)
.....................


am1 am2 . . . amn
a1n a2n . . . amn

Durch Transponierung geht der m 1 Spaltenvektor x in den 1 m Zeilenvektor x0 u


ber, so da die Definition (123.1) des Skalarproduktes zweier
m 1 Vektoren x und y u
bereinstimmt mit (131.6). Bleibt eine quadratische
Matrix bei der Transponierung unver
andert, also A0 = A, bezeichnet man sie
als symmetrische Matrix;
andert sie durch die Transponierung nur ihr Vorzeichen, also A0 = A, heit sie schiefsymmetrisch.
Satz: Die Transponierung der Summe und des Produktes zweier Matrizen A
und B ergibt
(A + B)0 = A0 + B 0

und

(AB)0 = B 0 A0 .

(131.10)

Beweis: Die erste Aussage folgt unmittelbar mit (131.9). Zum Beweis der zweiten seien die mn und np Matrizen A und B gegeben, die dargestellt seien
durch A = |a1 , a2 , . . . , am |0 mit a0i = |ai1 , . . . , ain | und B = |b1 , b2 , . . . , bp |
mit bi = |b1i , . . . , bni |0 . Dann ist AB = (a0i bj ) und mit (131.9) (AB)0 =
(a0j bi ). Weiter gilt B 0 A0 = (b0i aj ) = (a0j bi ) = (AB)0 wegen (123.2), so da
die Aussagen folgen.
Satz: A0 A = 0 gilt genau dann, wenn A = 0 ist.
0

(131.11)
0

Beweis: Mit A = 0 folgt A A = 0. Andererseits folgt aus A A = 0, da die


Summe der Quadrate der Elemente jeder Spalte von A gleich Null und daher
jedes Element gleich Null ist, so da die Aussage folgt.
f) Inverse Matrix
Definition: Existiert f
ur eine n n Matrix A eine n n Matrix B derart,
da AB = I und BA = I gilt, so ist B die inverse Matrix von A. Die Matrix
A heit dann regular, im anderen Fall singular.
(131.12)
Eine notwendige und hinreichende Bedingung daf
ur, da eine Matrix regul
ar
ist, wird im Satz (133.1) angegeben.
Satz: Die Inverse einer regul
aren Matrix ist eindeutig bestimmt und wird mit
A1 bezeichnet.
(131.13)

13 Matrizen

19

Beweis: Es seien A1
und A1
zwei Inversen der regul
aren Matrix A. Aus
1
2
1
1
1
1
A2 A = I folgt A2 AA1
=
A
und
daraus
A
= A1
1
1
2
1 , denn es ist
1
AA1 = I wegen (131.12), so da die Aussage folgt.
Satz: Sind A und B regul
are Matrizen, gilt
(AB)1 = B 1 A1
(A1 )0 = (A0 )1

(131.14)
(131.15)

(A1 )1 = A .

(131.16)

Beweis: Es sei C = B 1 A1 , dann gilt (AB)C = I und C(AB) = I, so


da mit (131.12) und (131.13) die Aussage (131.14) folgt. Durch Transponierung von AA1 = I und A1 A = I ergibt sich mit (131.10) (A1 )0 A0 = I
und A0 (A1 )0 = I, so da A0 regul
ar ist. Dann gilt weiter (A0 )1 A0 = I
0
0 1
und A (A ) = I, so da wegen der Eindeutigkeit der Inversen die Aussage (131.15) folgt. Ebenso ergibt sich aus A1 A = I und AA1 = I, da
A1 regul
ar ist und damit A1 (A1 )1 = I sowie (A1 )1 A1 = I, so da
(131.16) folgt.
Satz: Die Inverse einer symmetrischen Matrix ist wieder symmetrisch.(131.17)
Beweis: Aus (131.15) folgt mit A = A0 unmittelbar (A1 )0 = A1 .
g) Blockmatrizen
Fat man in einer m n Matrix A die ersten r Zeilen und die ersten s Spalten
zu der r s Untermatrix A11 zusammen, die ersten r Zeilen und die verbleibenden ns Spalten zu der r(ns) Untermatrix A12 und die verbleibenden
Zeilen und Spalten entsprechend, so ergibt sich A als Blockmatrix zu


A
A12
.
(131.18)
A = 11
A21 A22

Selbstverst
andlich l
at sich A noch in weitere Untermatrizen zerlegen, doch
soll im folgenden die Unterteilung auf vier Untermatrizen beschr
ankt bleiben.
F
ur die transponierte Blockmatrix A0 folgt mit (131.9)

0
A
A021
.
(131.19)
A0 = 011
A12 A022

Besitzt eine m n Matrix B eine entsprechende Unterteilung wie die Blockmatrix A, so ergibt sich die Summe A + B mit (131.2) zu


A11 + B 11 A12 + B 12
.

(131.20)
A+B =
A21 + B 21 A22 + B 22

20

1 Vektor- und Matrixalgebra

Ist eine n u Matrix C aufgeteilt in s und n s Zeilen und in eine beliebige


Zerlegung der Spalten, lassen sich die Blockmatrix A aus (131.18) und C
miteinander multiplizieren, und man erh
alt mit (131.6)



A
A12 C 11 C 12
AC = 11
A21 A22 C 21 C 22


A11 C 11 + A12 C 21 A11 C 12 + A12 C 22
.

=
(131.21)
A21 C 11 + A22 C 21 A21 C 12 + A22 C 22

h) KroneckerProdukt

Definition: Es sei A = (aij ) eine m n Matrix und B = (bij ) eine p q


Matrix, dann ist das KroneckerProdukt A B von A und B definiert als die
mp nq Matrix


a11 B . . . a1n B


(131.22)
A B = . . . . . . . . . . . . . . . . . . . .
am1 B . . . amn B

Das KroneckerProdukt wird f


ur die multivariaten Modelle der Parametersch
atzung ben
otigt. Folgende Rechenregeln sind zu beachten.

Satz: Es gilt (A B)0 = A0 B 0 .

(131.23)

Beweis: Transponiert man die Matrix A B, ergibt sich




a11 B 0 . . . am1 B 0


(A B)0 = . . . . . . . . . . . . . . . . . . . .
a1n B 0 . . . amn B 0
und mit (131.22) die Aussage.

Satz: Sind A und B sowie E und F jeweils m n Matrizen, dann gilt


(A + B) C = (A C) + (B C)

D (E + F ) = (D E) + (D F ) .
Beweis: Mit (131.2) und (131.22) erh
alt man

(a11 + b11 )C . . . (a1n + b1n )C

(A + B) C = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
(am1 + bm1 )C . . . (amn + bmn )C
= (A C) + (B C)

und die zweite Aussage entsprechend.

(131.24)





21

13 Matrizen
Satz: Mit c R gilt
c(A B) = (cA) B = A (cB) .

(131.25)

Beweis: Mit (131.4) und (131.22) folgen die Aussagen.


Satz: Ist A eine l m, C eine m n Matrix, B eine p q und D eine q r
Matrix, dann gilt
(A B)(C D) = AC BD .

(131.26)

Beweis: Definiert man AC = (fij ), ergibt sich mit (131.6) und (131.22)



a11 B . . . a1m B c11 D . . . c1n D



(A B)(C D) = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
al1 B . . . alm B cm1 D . . . cmn D
P
m
P
m
a1i ci1 BD . . .
a1i cin BD

i=1
i=1

= .................................
P
m
m
P

ali cin BD
ali ci1 BD . . .

i=1

i=1


f11 BD . . . f1n BD

= . . . . . . . . . . . . . . . . . . . . . .
fl1 BD . . . fln BD




= AC BD .

Satz: Sind A und B zwei regul


are m m beziehungsweise n n Matrizen,
dann gilt
(A B)1 = A1 B 1 .

(131.27)

Beweis: Es sei C = A1 B 1 , dann erh


alt man mit (131.26) (A B)C = I
und C(A B) = I, so da mit (131.12) und (131.13) die Aussage folgt.

132

Rang einer Matrix

Wesentliche Eigenschaften einer Matrix sind mit der Anzahl ihrer linear unabh
angigen Zeilen und Spalten verbunden.
Definition: Die maximale Anzahl der linear unabh
angigen Zeilen einer Matrix heit der Rang einer Matrix, und man schreibt r = rgA, wenn r den Rang
und A die Matrix bezeichnet.
(132.1)
Wie aus dem folgenden Satz sich ergibt, kann in dieser Definition das Wort
Zeilen auch durch das Wort Spalten ersetzt werden.

22

1 Vektor- und Matrixalgebra

Satz: Die maximale Anzahl r der linear unabh


angigen Zeilen einer m n Matrix A gleicht der maximalen Anzahl der linear unabh
angigen Spalten, und
es gilt r = rgA = rgA0 min(m, n).
(132.2)
Beweis: Die m n Matrix A sei mit A = |a1 , . . . , an | durch ihre n Spaltenvektoren ak dargestellt. Unter diesen n Spaltenvektoren sollen sich rs n
linear unabh
angige Vektoren befinden, die zu der m rs Matrix B mit
B = |b1 , . . . , brs | zusammengefat seien. Alle Spaltenvektoren ak von A lassen sich aus den Spaltenvektoren von B linear kombinieren
ak = c1k b1 + c2k b2 + . . . + crs k brs

mit

k {1, . . . , n}

oder
A = BC

mit

C = (cik ) , i {1, . . . , rs } , k {1, . . . , n} .

Werden die Matrizen A und C durch ihre Zeilenvektoren dargestellt


0
0
1
1






A = . . . = (aij ) , C = . . . = (cik ) ,
0r
0m
s

ergibt sich mit B = (bij )

0l = bl1 01 + bl2 02 + . . . + blrs 0rs ,

l {1, . . . , m} .

Hieraus folgt n
amlich das Element alp der Matrix A mit
alp = bl1 c1p + bl2 c2p + . . . + blrs crs p

in Ubereinstimmung
mit dem Element alp aus dem Matrizenprodukt BC. Alonnen also als Linearkombinationen der
le Zeilenvektoren 0l der Matrix A k
rs Zeilenvektoren 0i der Matrix C erhalten werden. Die Anzahl rz der linear
unabh
angigen Zeilen der Matrix A ist h
ochstens gleich der Anzahl rs der Zeilen von C und damit h
ochstens gleich der Anzahl rs der linear unabh
angigen

Spalten der Matrix A, also rz rs . Entsprechende Uberlegungen


lassen sich
auch f
ur die transponierte Matrix A0 vornehmen. Dabei ergibt sich, da die
Anzahl der linear unabh
angigen Spalten von A h
ochstens gleich der Anzahl
der linear unabh
angigen Zeilen sein kann, also rs rz . Aus beiden Beziehungen folgt dann rz = rs = r = rgA = rgA0 min(m, n).
Besitzt eine m n Matrix A den Rang rgA = m, bezeichnet man sie als
Matrix mit vollem Zeilenrang und im Fall von rgA = n als Matrix mit vollem
Spaltenrang. Gilt rgA < min(m, n), weist A einen Rangdefekt auf.
Weiter sollen zwei S
atze u
ber den Rang von Matrizenprodukten angegeben
werden.

23

13 Matrizen
Satz: rg(AB) min(rgA, rgB).

(132.3)

Beweis: Es sei A = (aij ) eine m n Matrix und B = (b


Pijn) eine n p
Matrix. Dann besteht die Spalte j des Produktes AB mit k=1 aik bkj f
ur
i {1, . . . , m} aus Linearkombinationen der Spalten von A, so da die Anzahl
der linear unabh
angigen Spalten in AB nicht die in A u
berschreiten kann,
also rgAB rgA. Weiter sind die Zeilen von AB Linearkombinationen der
Zeilen von B, so da rgAB rgB gilt. Beide Aussagen ergeben dann den
Satz.
Satz: F
ur eine beliebige m n Matrix A und zwei beliebige regul
are m m
und n n Matrizen B und C gilt rg(BAC) = rgA.
(132.4)
Beweis: Mit (132.3) folgt rgA rg(AC) rg(ACC 1 ) = rgA, so da rgA =
rg(AC) folgt. Weiter gilt rg(AC) rg(BAC) rg(B 1 BAC) = rg(AC),
so da schlielich rgA = rg(AC) = rg(BAC) und damit die Aussage folgt.

Die praktische Rangbestimmung wird mit Hilfe elementarer Umformungen


vorgenommen, die, wie gezeigt wird, den Rang einer Matrix nicht a
ndern. Sie
bestehen 1. in der Vertauschung von Zeilen (Spalten), 2. in der Multiplikation einer Zeile (Spalte) mit einem Skalar c 6= 0 und 3. in der Addition einer
mit c 6= 0 multiplizierten Zeile (Spalte) zu einer anderen Zeile (Spalte). Die
elementaren Umformungen werden ebenfalls bei der Berechnung inverser Matrizen oder bei der L
osung linearer Gleichungssysteme angewendet, was im
folgenden Kapitel behandelt wird.
Die elementaren Umformungen von Zeilen ergeben sich aus der linksseitigen
Multiplikation der m n Matrix A mit speziellen m m Matrizen E, den
elementaren Matrizen. Gilt



0 1 0 . . . 0


1 0 0 . . . 0

0 0 1 . . . 0 , E 2 =

. . . . . . . . . . . . . . . .


0 0 0 ... 1


1 0 0 ... 0


c 1 0 ... 0


E 3 = 0 0 1 . . . 0 ,
................


0 0 0 ... 1






E 1 =


1 0 0 ... 0
0 c 0 ... 0
0 0 1 ... 0
................
0 0 0 ... 1






,




(132.5)

bewirkt E 1 A den Austausch der ersten und zweiten Zeile von A, E 2 A die
Multiplikation der zweiten Zeile von A mit dem Skalar c und E 3 A die Addi-

24

1 Vektor- und Matrixalgebra

tion der mit c multiplizierten Elemente der ersten Zeile von A zu den entsprechenden Elementen der zweiten Zeile.
F
ur jede elementare Matrix E existiert die inverse Matrix E 1 , die die elementare Umformung r
uckg
angig macht. Es gilt E 1
1 = E 1 und




1 0 0 ... 0
1 0 0 ... 0




0 1/c 0 . . . 0
c 1 0 . . . 0






0 1 . . . 0 , E 1
0 1 . . . 0 , (132.6)
E 1
2 = 0
3 = 0
..................
.................




0 0 0 ... 1
0 0 0 ... 1

1
denn mit E 1 E 1
1 = I und E 1 E 1 = I sowie den entsprechenden Gleichungen
f
ur E 2 und E 3 ist (131.12) erf
ullt.

Rechtsseitige Multiplikationen einer Matrix mit den transponierten elementaren Matrizen bewirken die Spaltenumformungen. So wird durch AE 01 die
erste und zweite Spalte von A ausgetauscht, und durch AE 02 und AE 03 ergeben sich entsprechende Spaltenoperationen, wobei E 01 , E 02 und E 03 jetzt n n
Matrizen bedeuten.
Wie bereits erw
ahnt, gilt der
Satz: Elementare Umformungen
andern den Rang einer Matrix nicht. (132.7)
Beweis: Da die elementaren Matrizen regul
ar sind, folgt aus (132.4), da elementare Umformungen den Rang einer Matrix nicht
andern.
Bei einer praktischen Rangbestimmung bringt man die m n Matrix A durch
elementare Zeilenumformungen, deren Anzahl k betrage, zun
achst auf die Gestalt
E (k) . . . E (2) E (1) A = P A = B
mit









B =





1 b12 b13 . . . b1r . . . b1n


0 1 b23 . . . b2r . . . b2n
0 0
1 . . . b3r . . . b3n
...............................
0 0
0 . . . 1 . . . brn
0 0
0 ... 0 ... 0
...............................
0 0
0 ... 0 ... 0

(132.8)








,






worin P die Dimensionen m m besitzt. Man geht so vor, da s


amtliche Elemente der ersten Zeile durch das erste Element dividiert werden, n
otigenfalls

25

13 Matrizen

nach Zeilenvertauschungen, um das erste Element der ersten Zeile von Null
verschieden zu erhalten. Anschlieend wird die erste Zeile mit entsprechenden
Skalaren multipliziert und zu den folgenden Zeilen addiert, um Nullelemente
in der ersten Spalte der zweiten Zeile und der folgenden zu erzeugen. Dann
werden die Elemente der zweiten Zeile durch das in dieser Zeile an zweiter
Stelle stehende Element dividiert, nachdem, falls erforderlich, zuvor diese Zeile mit einer der folgenden vertauscht wurde. Anschlieend werden mit Hilfe
der zweiten Zeile Nullelemente in der zweiten Spalte der dritten Zeile und der
folgenden Zeilen erzeugt. Entsprechend werden s
amtliche Zeilen bearbeitet,
bis die Matrix B in (132.8) erhalten wird.
Durch rechtsseitige Multiplikationen von B in (132.8) mit den transponierten elementaren Matrizen E 0 folgen dann die Spaltenumformungen. Durch
Multiplikationen der ersten Spalte mit entsprechenden Skalaren und durch
Additionen zu den folgenden Spalten lassen sich Nullen f
ur die ersten Elemente der folgenden Spalten erzeugen. Wiederholt man die entsprechenden
Umformungen f
ur die zweite bis zur rten Spalte, ergibt sich, falls l Umformungen ben
otigt werden


Ir 0
0(k+1) 0(k+2)
0(k+l)

.
BE
E
...E
= BQ = P AQ =
(132.9)
0 0
I r ist die r r Einheitsmatrix, und Q besitzt die Dimensionen n n.

Mit (122.2) ist offensichtlich, da die aus A durch elementare Umformungen


erhaltene Matrix (132.9) r linear unabh
angige Zeilen und Spalten besitzt, so
da rgA = r folgt.
Wie bereits erw
ahnt, existieren f
ur elementare Matrizen E die inversen Matrizen E 1 . Durch linksseitige Multiplikation von (132.8) mit P 1 = (E (1) )1
(E (2) )1 . . . (E (k) )1 wegen (131.14) und durch rechtsseitige Multiplikation
von (132.9) mit Q1 = (E 0 (k+1) )1 . . . (E 0 (k+2) )1 (E 0 (k+l) )1 kann aus
(132.9) A zur
uckerhalten werden. Da P P 1 = P 1 P = I und QQ1 =
1
Q Q = I gelten, sind P und Q nach (131.12) regul
are Matrizen. Folglich
ergibt sich der
Satz: Jede m n Matrix A mit rgA = r l
at sich mit den regul
aren m m
und n n Matrizen P und Q zerlegen in


Ir 0

.
P AQ =
(132.10)
0 0
L
ost man (132.10) nach


0
1 I r
A=P
0 0

A auf, ergibt sich



1
Q
oder A = RS ,

(132.11)

26

1 Vektor- und Matrixalgebra

worin f
ur die m r Matrix R gilt rgR = r und f
ur die r n Matrix S entsprechend rgS = r, denn aus den regul
aren Matrizen P 1 und Q1 wurden m r
Spalten beziehungsweise n r Zeilen gestrichen, um R und S zu erhalten.
Die Zerlegung (132.11) bezeichnet man als Rangfaktorisierung von A. Da die
Matrizen P und Q wegen der verschiedenen M
oglichkeiten der elementaren
Transformationen nicht eindeutig sind, so da die von Null und Eins verschiedenen Elemente von B in (132.8) sich unterschiedlich ergeben k
onnen, ist
auch die Rangfaktorisierung nicht eindeutig.

133

Berechnung inverser Matrizen

Nach der Definition (131.12) der Inversen einer regul


aren Matrix soll jetzt die
Bedingung f
ur die Regularit
at einer Matrix angegeben werden.
Satz: Die nn Matrix A ist genau dann regul
ar, wenn A vollen Rang besitzt,
wenn also rgA = n gilt.
(133.1)
Beweis: Wie aus dem Beweis von (132.10) sich ergibt und wie bei der folgenden
Behandlung des Gauschen Algorithmus noch einmal gezeigt wird, l
at sich
im Falle von rgA = n die Matrix A durch elementare Zeilenumformungen mit
Hilfe der n n Matrix R in eine Einheitsmatrix u
uhren, also RA = I.
berf
Entsprechend gilt f
ur die Spaltenumformungen mit der n n Matrix S die
Beziehung AS = I. Dann ist aber RAS = S und RAS = R, so da R = S
und wegen (131.12) R = S = A1 folgt. Ist andererseits A regul
ar, dann
existiert die regul
are Inverse A1 , so da mit (132.4) rg(A1 A) = rgA =
rgI = n und damit die Aussage sich ergibt.
Im folgenden sollen Methoden zur Inversion regul
arer Matrizen und zur L
osung linearer Gleichungssysteme behandelt werden.
a) Gauscher Algorithmus
Beim Gauschen Algorithmus wird wie in (132.8) die regul
are n n Matrix
A zun
achst durch p = (n 1) + (n 2) + . . . + 1 linksseitige Multiplikationen
mit elementaren Matrizen vom Typ E 3 in (132.5) auf die Form einer oberen
Dreiecksmatrix gebracht, was man als Gausche Elimination bezeichnet,
(p)

(p1)

B = (E 3 E 3

(1)

. . . E 3 )A = C 1 A ,

(133.2)

und zwar werden im ersten Eliminationsschritt durch Multiplikation der ersten


Zeile von A mit entsprechenden Skalaren und durch Addition zu den folgenden
Zeilen Nullelemente in der ersten Spalte von A unterhalb des Diagonalelementes erzeugt. Die n 1 elementaren Umformungen des 1. Eliminationsschrittes

27

13 Matrizen
lassen sich mit A = (aij ) in der





(n1) (n2)
(1)
E3
E3
. . . E 3 =


folgenden Matrix zusammenfassen



1
0 0 . . . 0
a21 /a11 1 0 . . . 0
a31 /a11 0 1 . . . 0 .
. . . . . . . . . . . . . . . . . . . . . . . .
an1 /a11 0 0 . . . 1

(133.3)

Im zweiten Eliminationsschritt werden die Nullelemente unterhalb des Diagonalelementes der zweiten Spalte erzeugt, indem die zweite Zeile mit entsprechenden Skalaren multipliziert zu den folgenden Zeilen addiert wird. Im iten
Eliminationsschritt besitzt die Matrix (133.3) das folgende Aussehen, falls
(i)
aij die Elemente der mit i 1 Eliminationsschritten umgeformten Matrix A
bedeuten


1 0 ...
0
0 . . . 0

0 1 ...
0
0 . . . 0

...................................


0 0 ...
1
0 . . . 0

(133.4)
0 0 . . . a(i) /a(i) 1 . . . 0 .


i+1,i
ii


(i)
(i)
0 0 . . . ai+2,i /aii 0 . . . 0


...................................


0 0 . . . a(i) /a(i) 0 . . . 1
ni

ii

Mit dem (n 1)ten Eliminationsschritt ergibt sich dann aus A die Matrix
B in (133.2). Allgemein erh
alt man die Elemente von B aus A durch
(i) (i)

(i+1)

ajk

f
ur

(i)

= ajk

aji aik

(133.5)

(i)

aii

i {1, . . . , n 1}, j {i + 1, . . . , n} und

k {i, . . . , n} .

Durch n linksseitige Multiplikationen mit elementaren Matrizen vom Typ E 2


wird anschlieend die Matrix B in die EinheitsDreiecksmatrix F u
uhrt
berf
(n)

(n1)

F = (E 2 E 2

(1)

. . . E 2 )B = D1 B = D1 C 1 A

(133.6)

mit D1 = diag(1/b11 , 1/b22, . . . , 1/bnn ), falls B = (bij ) gilt.


Die obere EinheitsDreiecksmatrix F l
at sich nun durch die sogenannte
R
uckrechnung mit p weiteren elementaren Umformungen der Zeilen durch
die elementaren Matrizen vom Typ E 3 in eine Einheitsmatrix u
uhren
berf
(2p)

(E 3

(2p1)

E3

(p+1)

. . . E3

)F = F 1 F = I ,

(133.7)

28

1 Vektor- und Matrixalgebra

und zwar wird im ersten Schritt der R


uckrechnung, die n 1 elementare Umformungen enth
alt, die letzte Zeite von F , in der nur das letzte Element von
Null verschieden ist, mit entsprechenden Skalaren multipliziert zu den dar
uber
liegenden Zeilen addiert, um Nullelemente oberhalb des Diagonalelementes in
der letzten Spalte zu erzeugen. Mit F = (fij ) erh
alt man


1 0 ... 0
f1n

0 1 ... 0
f2n
(p+n1)
(p+1)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . .
(133.8)
E3
. . . E3

0 0 . . . 1 fn1,n



0 0 ... 0
1

Mit den u
brigen Spalten wird dann entsprechend verfahren, bis die Einheitsmatrix in (133.7) erhalten wird, wobei die Matrix des iten Schrittes der
R
uckrechnung den folgenden Aufbau besitzt


1 0 . . . 0 f1,ni+1
0 . . . 0 0

0 1 . . . 0 f2,ni+1
0 . . . 0 0

..........................................


0 0 . . . 1 fni,ni+1 0 . . . 0 0 .
(133.9)



0 0 ... 0
1
0
.
.
.
0
0


..........................................


0 0 ... 0
0
0 ... 0 1

Vereinigt man die Schritte (133.2), (133.6) und (133.7), ergibt sich
(F 1 D1 C 1 )A = A1 A = I ,

(133.10)
1

so da die elementaren Umformungen die inverse Matrix A


bestimmen.
Praktisch kann man so vorgehen, da die n2n Blockmatrix |A, I| mit (133.6)
in |F , D1 C 1 | umgeformt wird, woraus durch die R
uckrechnung (133.10) die
Inverse A1 folgt, also
|I, F 1 D 1 C 1 | = |I, A1 | .

(133.11)

Das zeilenweise Vorgehen beim Aufbau der oberen Dreiecksmatrix B in


(133.2) f
uhrt nur dann zum Ziel, falls im Verlauf der Elimination keine Nullelemente auf der Diagonalen auftreten. Nullelemente erh
alt man immer dann,
wenn f
uhrende Hauptuntermatrizen von A singul
ar sind. F
uhrende Hauptuntermatrizen sind quadratische Blockmatrizen auf der Diagonalen, die das
erste Element der ersten Zeile und ersten Spalte enthalten. Als Beispiel sei auf
die Matrix (155.7) verwiesen. In einem solchen Fall sind zur Beseitigung der
singul
aren Untermatrizen Zeilenvertauschungen und bei symmetrischen Matrizen zur Wahrung der Symmetrie Zeilen- und Spaltenvertauschungen vorzunehmen, oder man arbeitet mit einer Pivotstrategie, indem bei jedem Eliminationsschritt durch Zeilen- und Spaltenvertauschungen das absolut gr
ote

29

13 Matrizen

Element als Diagonalelement, durch das zu dividieren ist, benutzt wird (Rutishauser 1976, Bd.1, S.28; Stiefel 1970, S.21).
Beispiel: Mit dem Gauschen Algorithmus werde die folgende 3 3 VandermondeMatrix V (Gregory und Karney 1969, S.27) invertiert, wobei zur
Rechenkontrolle eine Spalte der Zeilensummen mitgef
uhrt werden soll. An den
Zeilenenden sind jeweils die Faktoren angegeben, mit denen die Zeilen in den
einzelnen Eliminations- und R
uckrechnungsschritten zu multiplizieren sind.

1 1 1 1 0 0 4 (1), (1)

(133.12)
|V , I, Summe| = 1 2 3 0 1 0 7
1 4 9 0 0 1 15
Ende des

1

0

0

1. Eliminationsschrittes
1 1
1 2
3 8

1 0 0
1 1 0
1 0 1

4
3
11

(3)

Ende des

1

0

0

2. Eliminationsschrittes

Ende des

1

0

0

ersten R
uckrechnungsschrittes

1 1
1 2
0 2

1
0 0
1
1 0
2 3 1

4
3
2

(+1)
(+1)
(+1/2)

Erzeugung der EinheitsDreiecksmatrix



1 1 1
1
0
0
4

0 1 2 1
1
0
3

0 0 1
1 3/2 1/2 1 (2), (1)
1 0
1 0
0 1

0 3/2 1/2
3
4
1
1 3/2
1/2

3
1
1

(1)

Ende des zweiten R


uckrechnungsschrittes

1 0 0
3 5/2 1/2

4
1
|I, V 1 , Summe| = 0 1 0 3
0 0 1
1 3/2 1/2

2
1
1

Die Faktorisierung mit Hilfe des Gauschen Algorithmus kann man zusammenfassen in dem
Satz: Jede Matrix A mit regul
aren f
uhrenden Hauptuntermatrizen l
at sich
eindeutig zerlegen in das Produkt dreier regul
arer Matrizen und zwar einer

30

1 Vektor- und Matrixalgebra

unteren EinheitsDreiecksmatrix C, einer Diagonalmatrix D und einer oberen EinheitsDreiecksmatrix F , also A = CDF .
(133.13)
Beweis: Linksseitige Multiplikation von (133.6) mit D ergibt C 1 A = DF .
Wie aus (133.2) bis (133.4) ersichtlich, ist C 1 eine untere EinheitsDreiecksmatrix, w
ahrend F und D in (133.6) eine obere EinheitsDreiecksmatrix beziehungsweise eine Diagonalmatrix darstellen. Nach (131.16) ist C die Inverse von C 1 und ebenfalls untere EinheitsDreiecksmatrix, so wie F und
F 1 mit (133.7) bis (133.9) obere EinheitsDreiecksmatrizen sind. Somit
folgt A = CDF , wobei C, D und F regul
ar sind, da sie aus elementaren Matrizen entstanden sind. Um die Eindeutigkeit der Faktorisierung
zu beweisen, soll A = C 1 D 1 F 1 = C 2 D 2 F 2 angenommen werden, woraus
1
1
1
C 1
2 C 1 D 1 = D 2 F 2 F 1 folgt. Die Produkte C 2 C 1 und F 2 F 1 stellen untere beziehungsweise obere EinheitsDreiecksmatrizen dar, so da sich Iden1
tit
at nur mit C 1
2 C 1 = I, F 2 F 1 = I und D 1 = D 2 einstellen kann. Da die
Matrizen regul
ar sind, folgt mit C 2 C 1
at C 1 = C 2 und
2 C 1 = C 2 die Identit
entsprechend F 1 = F 2 , so da die Aussage sich ergibt.
b) L
osung linearer Gleichungssysteme
Die Begriffe Elimination und R
uckrechnung entstammen dem Verfahren bei
der L
osung linearer Gleichungssysteme. Die n n Matrix A und der n 1
Vektor l seien gegeben. Gesucht wird der n 1 Vektor , f
ur den
A = l

(133.14)

oder
a11 1 + a12 2 + . . . + a1n n = l1
a21 1 + a22 2 + . . . + a2n n = l2
....................................
an1 1 + an2 2 + . . . + ann n = ln
gilt. Man bezeichnet (133.14) als lineares Gleichungssystem mit der Koeffizientenmatrix A, den unbekannten Parametern und den Absolutgliedern l. Ist
rgA = n, sind die Parameter des Gleichungssystems mit
= A1 l

(133.15)

eindeutig bestimmt. Lineare Gleichungssysteme f


ur m n Koeffizientenmatrizen mit beliebigem Rang werden im Kapitel 154 behandelt.
F
ur die Berechnung von ist es nicht notwendig, A1 zu bestimmen. Mit
F = D 1 C 1 A aus (133.6) und g = D 1 C 1 l wird (133.14) in die Dreiecksform
F = g

(133.16)

31

13 Matrizen

u
uhrt, was einer schrittweisen Elimination der Parameter i entspricht.
berf
Hieraus ergeben sich dann die i mit F = (fij ) und g = (gi ) durch R
uckrechnung
n = gn , n1 = gn1 fn1,n n , . . .
also
i = g i

n
X

fij j

j=i+1

f
ur i {n 1, . . . , 1}

(133.17)

oder allgemein
= F 1 g .

(133.18)

Die Identit
at von (133.17) und (133.18) folgt aus der Multiplikation der Matrizen (133.9) der einzelnen Schritte der R
uckrechnung.
c) GauJordanMethode
Eine kompaktere Form der Inversion einer regul
aren Matrix erh
alt man mit
der GauJordanMethode. Hierbei werden mit jedem Eliminationsschritt
nicht nur wie bei der Gauschen Elimination Nullelemente in der jeweiligen
Spalte unterhalb, sondern auch oberhalb des Diagonalelementes und auerdem
eine Eins auf der Diagonalen erzeugt, so da in n Eliminations- beziehungsweise Reduktionsschritten die Einheitsmatrix erhalten wird
T (n) T (n1) . . . T (1) A = I

mit

T (n) . . . T (1) = A1 ,

(133.19)

falls T (i) die Matrix der elementaren Umformungen des iten Reduktionsschrittes bedeutet. T (1) ist identisch mit (133.3), falls dort das erste Element
durch 1/a11 ersetzt wird. F
ur T (i) gilt


(i)
1 0 . . . 0 a(i)
0 . . . 0
1i /aii

0 1 . . . 0 a(i) /a(i) 0 . . . 0


2i
ii
......................................




(i)
(133.20)
T (i) = 0 0 . . . 0
1/aii
0 ... 0 ,


(i)
(i)

0 0 . . . 0 a
1 ... 0
i+1,i /aii

......................................


0 0 . . . 0 a(i) /a(i) 0 . . . 1
ni
ii
(i)

falls T (i1) . . . T (1) A = (aij ) bedeutet. Die Inverse A1 wird unmittelbar


in der Matrix A aufgebaut, indem sowohl die Produkte T (i1) . . . T (1) A zur

32

1 Vektor- und Matrixalgebra

Erzeugung der Einheitsmatrix als auch die Produkte T (i1) . . . T (1) zur Erzeugung der Inversen sukzessiv gebildet werden. Dies erreicht man dadurch,
da die Spalte, in der die Nullelemente und die Eins als Diagonalelement erzeugt werden, die Reduktionsfaktoren aus (133.20) aufnimmt, mit denen alle
u
ur i, j, k {1, . . . , n}
brigen Spalten durchreduziert werden. Es gilt daher f
(i) (i)

(i+1)

ajk

(i)

= ajk

(i)

aii

(i+1)

= aik /aii

(i+1)

= aki /aii

(i+1)

= 1/aii .

aik

aki
aii

(i)

aji aik

(i)

(i)

(i)

f
ur j 6= i und k 6= i

f
ur k 6= i
f
ur k 6= i

(i)

(133.21)

Die beiden letzten Gleichungen entsprechen den Reduktionsfaktoren in


(133.20).
Wie beim Gauschen Algorithmus kann zeilenweise nur dann vorgegangen
werden, falls im Verlauf der Reduktion keine Nullelemente auf der Diagonalen auftreten. Ist das der Fall, m
ussen Zeilen- oder Zeilen- und Spaltenvertauschungen vorgenommen werden, oder man mu mit einer Pivotisierung
arbeiten, wozu sich das GauJordanVerfahren gut eignet.
Beispiel: Als Beispiel soll wieder die 33 VandermondeMatrix V in (133.12)
invertiert werden. Am Ende des ersten, zweiten und letzten Reduktionsschrittes erh
alt man die Matrizen




1 1 1 2 1 1 3 5/2 1/2




1 1 2 , 1
1
2 , 3
4
1 = V 1 .


1 3 8 2 3
2 1 3/2 1/2

d) Symmetrische Matrizen und CholeskyVerfahren

Die Inversen symmetrischer Matrizen, die nach (131.17) ebenfalls symmetrisch


sind, interessieren besonders im Hinblick auf die im Abschnitt 3 zu behandelnden symmetrischen Normalgleichungen f
ur die Parametersch
atzung. Bei
der Berechnung mit Hilfe von elektronischen Datenverarbeitungsanlagen kann
Speicherplatz gespart werden, da die Elemente der zu invertierenden Matrix
und ihrer Inversen unterhalb der Diagonalelemente nicht ben
otigt werden.
(i)
(i)
F
ur symmetrische Matrizen sind in (133.5) aji durch aij und k {i, . . . , n}
durch k {j, . . . , n} zu ersetzen und entsprechende Substitutionen in (133.21)
durchzuf
uhren.

33

13 Matrizen

Mit (133.13) erh


alt man f
ur symmetrische Matrizen A = A0 = CDF =
0
0
F DC , und da die Faktorisierung eindeutig ist, C = F 0 und F = C 0 sowie
A = CDC 0 .

(133.22)

Ist A eine positiv definite Matrix, dann sind, wie aus (143.1) und (143.3)
folgen wird, alle Untermatrizen auf der Diagonalen regul
ar und nach (143.4)
die Diagonalelemente von D positiv. Mit D = diag(d11 , . . . , dnn ) l
at sich
1/2
1/2
1/2
daher die Matrix D
= diag(d11 , . . . , dnn ) definieren, so da gilt A =
(CD 1/2 )(D 1/2 C 0 ) = GG0 . Weiter ist D 1/2 C 0 = D1/2 C 1 A oder mit
(133.2) D1/2 C 0 = D 1/2 B, folglich
A = GG0

G0 = D1/2 B ,

mit

(133.23)

wobei G eine untere Dreiecksmatrix bedeutet. Die Zerlegung (133.23) bezeichnet man als CholeskyFaktorisierung. Sie ist wie (133.22) eindeutig.
Eine Zerlegung nach (133.23) zur Inversion einer Matrix oder zur L
osung eines
Gleichungssystems bezeichnet man als CholeskyVerfahren. Dabei ist genau
wie beim Gauschen Algorithmus vorzugehen, nur wird die Marix A nicht in
die obere EinheitsDreiecksmatrix D 1 B, sondern in die obere Dreiecksmatrix G0 = D 1/2 B u
uhrt, woran sich die R
uckrechnung anschliet.
berf
Die CholeskyZerlegung l
at sich auch direkt ohne Zuhilfenahme des Gauschen Algorithmus berechnen. Mit G0 = (gij ), A = (aij ) und GG0 = A erh
alt
man zum Beispiel f
ur eine 4 4 Matrix A



g11 0
0
0 g11 g12 g13 g14

g12 g22 0
0 0 g22 g23 g24

g13 g23 g33 0 0
0 g33 g34


g14 g24 g34 g44 0
0
0 g44


a11 a12 a13 a14



a22 a23 a24

=
.
a33 a34



a44

Durch Multiplikation folgt f


ur die Diagonalelemente von A
2
g11
= a11
2
2
g12
+ g22
= a22

2
2
2
g13
+ g23
+ g33
= a33
2
2
2
2
g14
+ g24
+ g34
+ g44
= a44

oder allgemein f
ur eine n n Matrix A
gii = (aii

i1
X

k=1

2 1/2
gki
)

f
ur i {1, . . . , n}

(133.24)

34

1 Vektor- und Matrixalgebra

und f
ur die Elemente oberhalb der Diagonalen von A
g12 g13 + g22 g23 = a23
g12 g14 + g22 g24 = a24
g13 g14 + g23 g24 + g33 g34 = a34

g11 g12 = a12


g11 g13 = a13
g11 g14 = a14
oder allgemein
gij = (aij

i1
X

gki gkj )/gii

k=1

j {i + 1, . . . , n}, i {1, . . . , n} .

f
ur

(133.25)

Man kann also G0 zeilenweise aus der Multiplikation von Spalten berechnen,
und es gilt gij = 0 f
ur alle Elemente oberhalb des letzten von Null verschiedenen Elementes aij einer Spalte j. Das Profil der Matrix A, das durch die
Abst
ande der Diagonalelemente jeder Spalte von dem letzten von Null verschiedenen Element der jeweiligen Spalte definiert wird, bestimmt also den
Rechenaufwand bei der Ermittlung von G0 .
F
ur die L
osung des Gleichungssystems A = GG0 = l durch die Cholesky
Zerlegung erh
alt man
Gs = l

G0 = s ,

mit

so da man sich den Absolutgliedvektor l als zus


atzliche Spalte von A vorstellen kann und f
ur s erh
alt
si = (li

i1
X

gki sk )/gii

k=1

f
ur i {1, . . . , n} .

(133.26)

Der Vektor ergibt sich dann durch R


uckrechnung wie in (133.17) mit n =
sn /gnn zu
i = (si

n
X

k=i+1

gik k )/gii

f
ur i {n 1, . . . , 1} .

(133.27)

Die Berechnung der Inversen A1 = (G0 )1 G1 folgt aus G0 A1 = G1 ,


wobei A1 symmetrisch und G1 eine untere Dreiecksmatrix ist, deren Diagonalelemente aus den inversen Diagonalelementen von G sich ergeben. F
ur
die Diagonalelemente von G1 gilt dann mit A1 = (
aij )
n
n
X
X
1
=
gik a
ki = gii a
ii +
gik a
ki .
gii
k=i

k=i+1

35

13 Matrizen
Nach a
ii aufgel
ost ergibt sich
a
ii =

n

X
1  1
gik a
ki .

gii gii

(133.28)

k=i+1

F
ur die Elemente von G1 oberhalb der Diagonalen erh
alt man
0=

n
X

gik a
kj = gii a
ij +

k=i

n
X

gik a
kj

f
ur i < j

k=i+1

und nach a
ij aufgel
ost
a
ij =

n
1 X
gik a
kj
gii

f
ur i < j .

(133.29)

k=i+1

Aus der Produktsumme in (133.28) ist ersichtlich, da zur Berechnung der


Diagonalelemente a
ii von A1 lediglich die Elemente von A1 innerhalb des
Profils ben
otigt werden.
e) Inversion groer und schwach besetzter groer Matrizen
Zur Inversion groer Matrizen und zur L
osung groer linearer Gleichungssysteme werden elektronische Datenverarbeitungsanlagen eingesetzt. Rechenprogramme f
ur die verschiedenen Inversions- und Aufl
osungsmethoden wurden in vielen Varianten aufgestellt und ver
offentlicht (z.B. Ehlert 1977;
George und Liu 1981; Lawson und Hanson 1974; Poder und Tscherning 1973; Rutishauser 1976; Schwarz et al. 1972; Sp
ath 1974). Die Rechenverfahren beschr
anken sich nicht nur auf direkte Inversions- und L
osungsmethoden, auch iterative Verfahren werden angewendet (Faddeev und Faddeeva 1963; Householder 1964; Schwarz et al. 1972).
Matrizen groer Dimensionen besitzen h
aufig die Eigenschaft, da nur ein kleiner Prozentsatz von Elementen von Null verschieden ist. Man bezeichnet sie
als schwach besetzte oder SparseMatrizen. Besondere Techniken wurden f
ur
die Inversion und L
osung entwickelt, um Vorteil aus den vielen Nullelementen zu ziehen (z.B. Ackermann et al. 1970; Barker 1977; George und
Liu 1981; Grepel 1987; Jennings 1977, S.145; Schek et al. 1977; Schendel 1977; Schwarz 1978; Snay 1976; Tewarson 1973). Durch Umordnen
kann man zum Beispiel das Profil schwach besetzter Matrizen reduzieren, so
da sich die von Null verschiedenen Elemente in der N
ahe der Diagonalen
konzentrieren, was die Inversion oder die L
osung stark vereinfacht, wie aus
(133.24) bis (133.29) ersichtlich. Besitzt die Koeffizientenmatrix eines groen
linearen Gleichungssystems BlockDiagonalStruktur, bei der die Bl
ocke nur
wenige gemeinsame Parameter besitzen, kann eine wirkungsvolle Bearbeitung

36

1 Vektor- und Matrixalgebra

des Gleichungssystems in der Zerlegung in Teilsysteme und in der getrennten


Elimination der nicht gemeinsamen Parameter bestehen (Wolf 1968, S.75;
Wolf 1978b). Die reduzierten Systeme f
ur die gemeinsamen Parameter sind
dann abschlieend zu addieren und zu l
osen.
Schlielich erhebt sich bei der Inversion groer Matrizen oder der L
osung
groer linearer Gleichungssysteme die Frage nach der Genauigkeit der numerischen Rechnung. Absch
atzungen hier
uber erlauben die Kondition einer
Matrix (Lawson und Hanson 1974, S.49; Schwarz et al. 1972, S.21; Werner 1975, S.155; Wrobel 1974) oder stochastische RundungsfehlerModelle
(Meissl 1980).

134

Matrizenidentit
aten

Die Inverse einer regul


aren quadratischen Blockmatrix M von der Form
(131.18) soll nun abgeleitet und daraus einige Matrizenidentit
aten entwickelt
werden. Es sei


A B
,
M =
(134.1)
C D
worin A und D regul
are quadratische Untermatrizen seien. Mit




A B E F I 0
1






MM =
=
C D G H 0 I

(134.2)

folgen mit (131.21) die Bestimmungsgleichungen f


ur die Untermatrizen der
Inversen M 1
1. AE + BG = I
3. CE + DG = 0

2. AF + BH = 0
4. CF + DH = I .

Aus 1. ergibt sich E = A1 A1 BG und damit aus 3. CA1 CA1 BG+


DG = 0. Somit ist G = (D CA1 B)1 CA1 , denn die Matrix D
CA1 B ist regul
ar, da sie durch elementare Umformungen von M entsteht, wie in (134.8) gezeigt wird. Damit folgt E = A 1 + A1 B(D
CA1 B)1 CA1 . Aus 2. erh
alt man F = A1 BH und damit aus 4.
1
CA BH + DH = I oder H = (D CA1 B)1 . Folglich


A B 1


C D =
1
A + A1 B(D CA1 B)1 CA1


(D CA1 B)1 CA1


A1 B(D CA1 B)1
.
(D CA1 B)1

13 Matrizen

37
(134.3)

Eine weitere M
oglichkeit die Gleichungen 1. und 3. aufzul
osen besteht darin, aus 3. die Matrix G = D 1 CE zu ermitteln, so da mit 1. AE
BD 1 CE = I und E = (A BD 1 C)1 folgt. Somit ergibt sich G =
D 1 C(A BD 1 C)1 . Aus dem Vergleich mit der ersten Spalte auf der
rechten Seite von (134.3) folgen dann die beiden Identit
aten
(A BD1 C)1 = A1 + A1 B(D CA1 B)1 CA1

(134.4)

D 1 C(A BD 1 C)1 = (D CA1 B)1 CA1 .

(134.5)

und

Ersetzt man in (134.4) A durch A1 und B durch B sowie in (134.5) D 1


durch D und B durch B, erh
alt man
(A1 + BD 1 C)1 = A AB(D + CAB)1 CA

(134.6)

DC(A + BDC)1 = (D 1 + CA1 B)1 CA1 .

(134.7)

und

Die Gausche Elimination (133.2) zur Erzeugung einer Dreiecksmatrix l


at
sich auch f
ur die Blockmatrix M in (134.1) durchf
uhren. Man erh
alt






B
I
0 A B A


(134.8)
=
CA1 I C D 0 D CA1 B .
Hieraus ist ersichtlich, da die Berechnung einer inversen Matrix nach (133.11)
und die L
osung eines linearen Gleichungssystems nach (133.15) auch ohne
R
uckrechnung nach (133.7) und (133.18) ausschlielich durch eine Elimination
nach (133.2) erfolgen kann, falls die zu invertierende Matrix A durch Einheitsund Nullmatrizen sowie durch den Absolutgliedvektor l in (133.14) erweitert
wird, denn fat man die einzelnen Eliminationsschritte entsprechend (134.8)
in einer Blockmatrix zusammen, ergibt sich






I
0 A I l A
I
l


=
(134.9)
A1 I I 0 0 0 A1 A1 l .

135

Spaltenraum und Nullraum einer Matrix

Die Spalten einer Matrix lassen sich als Vektoren auffassen, die einen Vektorraum aufspannen.
Definition: Der Spalten- oder Rangraum R(A) einer m n Matrix A wird
durch die Menge der Vektoren y = Ax mit x E n definiert, R(A) = {y|y =
Ax, x E n }.
(135.1)

38

1 Vektor- und Matrixalgebra

Stellt man APdurch seine n Spaltenvektoren ai mit A = |a1 , . . . , an | dar,


dann ist y = ni=1 xi ai mit xi R, und es ist offensichtlich, da die Vektoren
ai den Spaltenraum R(A) aufspannen. F
ur ihn gilt der

Satz: Der Spaltenraum R(A) einer m n Matrix A ist Unterraum des E m .


(135.2)
Beweis: Mit y = Ax ist y E m , so da mit (121.9) die Aussage folgt.
Ein weiterer Vektorraum einer Matrix ist gegeben durch die
Definition: Der Nullraum N (A) einer m n Matrix A wird durch die Menge
der Vektoren x definiert, f
ur die Ax = 0 mit x E n gilt, N (A) = {x|Ax =
0, x E n }.
(135.3)
Die Beziehung zwischen Null- und Spaltenraum einer Matrix beschreibt der

Satz: F
ur eine mn Matrix A sind der Nullraum von A0 und das orthogonale
Komplement des Spaltenraums von A identisch, also N (A0 ) = R(A) , und
entsprechend N (A) = R(A0 ) .
(135.4)
Beweis: Stellt man A durch seine n Spalten ai mit A = |a1 , . . . , an | dar, ist
x N (A0 ), falls a0i x = 0 f
ur i {1, . . . , n} gilt. Der Vektor x ist dann orthogonal zu jeder Spalte von A und daher orthogonal zum Spaltenraum R(A).
Nach (124.7) ist folglich x Element des orthogonalen Komplements von R(A),

also x R(A) , und es gilt N (A0 ) = R(A) . Durch entsprechende Uberlegungen folgt die zweite Aussage.
Die Dimension des Spalten- und Nullraums einer Matrix erh
alt man mit dem
Satz: Es sei A eine m n Matrix mit rgA = r. Dann gilt rgA = dim R(A) =
rgA0 = dim R(A0 ) = r und dim N (A) = n r sowie dim N (A0 ) = m r.
(135.5)
Beweis: Eine Basis f
ur den Spaltenraum R(A) beziehungsweise R(A0 ) bilden die r linear unabh
angigen Spalten von A beziehungsweise von A0 , so
da mit (122.9) und (132.2) die erste Aussage folgt. Mit (135.4) erh
alt man
dim N (A) = dim R(A0 ) . Da R(A0 ) nach (135.2) Unterraum des E n ist, gilt
mit (124.7) dim R(A0 )+dim R(A0 ) = n und daher dim R(A0 )+dim N (A) =
n und entsprechend dim R(A) + dim N (A0 ) = m, woraus mit dim R(A) =
dim R(A0 ) = r die zweite Aussage folgt.
Der folgende Satz ist f
ur die sp
ater zu behandelnden Normalgleichungen von
Interesse.

39

13 Matrizen

Satz: Es sei A eine m n Matrix mit rgA = r. Dann gilt R(A0 ) = R(A0 A)
und daher rg(A0 A) = r und entsprechend R(A) = R(AA0 ) sowie rg(AA0 )
= r.
(135.6)
Beweis: Aus Ax = 0 folgt A0 Ax = 0. Aus A0 Ax = 0 andererseits folgt
x0 A0 Ax = 0 und daraus mit y = Ax weiter y 0 y = 0 und daher y = 0
sowie Ax = 0. Die beiden Nullr
aume von A und A0 A, die beide Unterr
aume
n
des E sind, sind also identisch, N (A) = N (A0 A). Mit (135.4) folgt dann
R(A0 ) = R(A0 A) und damit aus (124.7) R(A0 ) = R(A0 A). Dann ist
dim R(A0 ) = dim R(A0 A), so da mit (135.5) r = rg(A0 A) sich ergibt. Die

beiden restlichen Aussagen erh


alt man durch entsprechende Uberlegungen.

136

Determinanten

Skalare Gr
oen, die f
ur quadratische Matrizen definiert sind und die sich f
ur
die Charakterisierung dieser Matrizen eignen, sind die Determinanten. Zu ihrer Definition ben
otigt man den Begriff der Permutation, der zusammen mit
dem Begriff der Kombination auch im Abschnitt 2 verwendet wird, so da
zun
achst Permutationen und Kombinationen behandelt werden.
a) Permutation und Kombination
Als eine Permutation von Elementen einer Menge bezeichnet man jede Zusammenstellung, die dadurch entsteht, da die Elemente in irgendeiner Reihenfolge nebeneinander gesetzt werden. Will man die Anzahl der Permutationen beispielsweise der drei Buchstaben a, b, c ermitteln, so kann jeder der
drei Buchstaben an die erste Position ger
uckt werden. Jeder der zwei verbleibenden Buchstaben l
at sich an die zweite Stelle setzen, w
ahrend die dritte
Position von dem unbenutzten Buchstaben eingenommen wird, somit
abc
acb

bac
bca

cab
cba.

Das Besetzen der ersten Position kann auf drei Arten geschehen, das der zweiten auf zwei und das der dritten auf eine, so da die Anzahl der Permutationen
3 2 1 = 6 ergibt. Allgemein gilt daher der
Satz: Die Anzahl der Permutationen n verschiedener Elemente ist gleich
1 2 3 . . . n = n!.
(136.1)
Es soll jetzt die Anzahl der Permutationen bestimmt werden, die man mit n
Elementen erh
alt, wenn nur k Elemente in den Permutationen benutzt werden. Man bezeichnet dies als Kombination kter Ordnung. Stellt man die

gleichen Uberlegungen
wie f
ur (136.1) an, so kann die erste Position auf n
Arten besetzt werden, die zweite auf n 1 Arten und die kte Position auf

40

1 Vektor- und Matrixalgebra

n(k 1) Arten, insgesamt also auf n(n1) . . . (nk +1) Arten. Nimmt man
auf die Anordnung der Elemente in den Kombinationen keine R
ucksicht, so
sind die Kombinationen identisch, die die gleichen Elemente in verschiedenen
Anordnungen enthalten, z.B. a b c und c a b. Falls r die Anzahl der Kombinationen ohne Ber
ucksichtigung der Anordnung ist, so ist rk! die Anzahl
mit Ber
ucksichtigung der Anordnung, da k Elemente sich nach (136.1) k! mal
permutieren lassen. Es gilt daher mit 0! = 1 der
Satz: F
ur n verschiedene Elemente betr
agt die Anzahl der Kombinationen
kter Ordnung ohne Ber
ucksichtigung der Anordnung


n(n 1) . . . (n k + 1)
n!
n
.
(136.2)
=
=
k
123 ... k
k!(n k)!
b) Definition der Determinante
Definition: Die Determinante det A einer nn Matrix A = (aij ) ist gegeben
durch
det A = a1 a2 . . . an ,
wobei u
urlichen Zahlen 1, 2, . . . , n
ber die n! Permutationen , , . . . ,  der nat
zu summieren ist. Das positive Vorzeichen gilt, falls die Anzahl der Zahlenpaare in der Permutation, die nicht in der nat
urlichen Ordnung sich befinden,
gerade ist, und das negative Vorzeichen f
ur eine ungerade Anzahl.
(136.3)
Beispiel: Aufgrund

a
a12
det 11
a21 a22

von (136.3) gilt




= a11 a22 a12 a21 .

c) S
atze f
ur Determinanten

F
ur Determinanten gelten die beiden im folgenden ben
otigten S
atze (Kowalsky 1977, S.87 und 94; Nei und Liermann 1975, S.107 und 111), die
nicht bewiesen werden.
Satz: Werden zwei Spalten oder zwei Zeilen von A vertauscht,
andert det A
das Vorzeichen.
(136.4)
Satz (Laplacescher Entwicklungssatz): Bezeichnet man die Determinante der
Untermatrix von A, die durch das Streichen der iten Zeile und jten Spalte
entsteht, mit det Aij , dann gilt
det A =

n
X
i=1

(1)i+j aij det Aij

f
ur j {1, . . . , n}

(136.5)

41

13 Matrizen
und
det A =

n
X

(1)i+j aij det Aij

j=1

f
ur i {1, . . . , n} .

(136.6)

Mit Hilfe dieser S


atze lassen sich weitere ableiten.
Satz: Besitzt A zwei identische Zeilen oder Spalten, ist det A = 0.

(136.7)

Beweis: Es gelte det A f


ur A mit zwei identischen Zeilen oder Spalten. Mit
(136.4) folgt durch Vertauschen dieser Zeilen oder Spalten det A = det A,
was aber nur f
ur det A = 0 erf
ullt sein kann.
Aus (136.5) und (136.6) ergibt sich
det A = det A0

(136.8)

und mit D = diag(d11 , d22 , . . . , dnn )


det D = d11 d22 . . . dnn ,

(136.9)

denn entwickelt man det D mit (136.5), erh


alt man det D = d11 det D11 =

d11 d22 det(D 11 )22 und so fort. Aus den gleichen Uberlegungen
folgt
det I = 1 und

det G = g11 g22 . . . gnn ,

(136.10)

falls G = (gij ) eine n n obere oder untere Dreiecksmatrix bedeutet.


Mit (136.6) l
at sich zeigen, da elementare Zeilenumformungen mit Hilfe der
Matrizen vom Typ E 3 in (132.5) den Wert einer Determinante nicht a
ndern.
Addiert man n
amlich die mit dem Skalar c multiplizierten Elemente der Zeile
k zur Zeile i, erh
alt man
det A =

n
X

(1)i+j (aij + cakj ) det Aij

j=1

n
X
j=1

(1)i+j aij det Aij + c

n
X
(1)i+j akj det Aij .
j=1

Der zweite Summand auf der rechten Seite verschwindet aber wegen (136.7),
da er die Anwendung des Entwicklungssatzes auf eine Matrix mit zwei identischen Zeilen bedeutet. Gleiches gilt auch f
ur die entsprechenden Spaltenumformungen.
Praktisch l
at sich daher det A mit (133.2) und
det A = det(C 1 A) = det B = b11 b22 . . . bnn

(136.11)

42

1 Vektor- und Matrixalgebra

aus den Diagonalelementen der bei der Gauschen Elimination entstehenden


oberen Dreiecksmatrix B berechnen. Weiter gilt f
ur die Determinante einer
Blockmatrix


B C

= det(B CE 1 D) det E = det B det(E DB 1 C) ,
det
D E
(136.12)
sofern E beziehungsweise B regul
ar sind. Die Determinante der Blockmatrix
andert n
amlich durch die folgende Reduktion auf eine Diagonalit
at in Bl
ocken

mit elementaren Umformungen mittels der Matrizen vom Typ E 3 ihren Wert
nicht





I CE 1 B C
I
0 B CE 1 D 0



=
.
0
D E E 1 D I
I
0
E

Eine weitere Reduktion der rechten Seite auf Dreiecksmatrizen wie in (136.11)
ergibt dann den ersten Ausdruck in (136.12). Der zweite folgt durch entsprechende Umformungen.
Die Determinante des Produktes zweier Matrizen erh
alt man mit dem

Satz: Sind A und B zwei quadratische n n Matrizen, dann ist det AB =


det A det B.
(136.13)
Beweis: In der Identit
at


I A A 0


0 I I B



0 AB
=

I
B

beinhaltet die erste Matrix auf der linken Seite elementare Umformungen mit
Hilfe der Matrizen vom Typ E 3 . F
ur die Determinanten beider Seiten erh
alt
man daher, falls noch eine nfache Vertauschung der Spalten der Matrix der
rechten Seite vorgenommen wird, da I eine n n Einheitsmatrix ist






A 0
0 AB
AB
0
n





det
= det
= (1) det
.
I B
I
B
B I
Ist B regul
ar, l
at sich (136.12) anwenden, und es ergibt sich det A det B =
(1)n det(I) det AB, woraus det AB = det A det B folgt. Sind A und B
singul
ar, ist AB wegen (132.3) ebenfalls singul
ar, so da det A = det B =
det AB = 0 gilt, wie in (136.17) gezeigt wird, und somit det AB = det A det B
auch f
ur diesen Fall gilt.
Aus A1 A = I erh
alt man mit (136.10) und (136.13)
det A1 = (det A)1 .

(136.14)

43

13 Matrizen
Man bezeichnet
aij = (1)i+j det Aij

(136.15)

als die zum Element aij der Matrix A geh


orende Adjunkte und die Matrix
= (a ) die zu A adjungierte Matrix. Wegen (136.5) bis (136.7) gilt
A
ji



a11 a12 . . . a1n a11 a21 . . . an1



a21 a22 . . . a2n a12 a22 . . . an2





AA =


. . . . . . . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . .
an1 an2 . . . ann a1n a2n . . . ann

oder


det A
0
...
0

0
det
A
.
.
.
0
=
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...

0
0
. . . det A

= AA
= (det A)I .
AA





= AA

Falls det A 6= 0, ergibt sich daher mit (131.12)

A
A1 =
.
det A
Damit folgt der

(136.16)

Satz: Eine quadratische nn Matrix A ist genau dann regul


ar, wenn det A 6=
0 ist.
(136.17)
Beweis: Ist det A 6= 0 folgt aus (136.16), da A regul
ar ist. Ist andererseits A
regul
ar, ergibt sich aus AA1 = I mit (136.13) und (136.14) det A(det A)1
= det I = 1, so da det A 6= 0 sein mu und damit die Aussage folgt.
Eine notwendige und hinreichende Bedingung daf
ur, da die n n Matrix
A regul
ar ist, war in (133.1) mit Hilfe des Ranges der Matrix A formuliert
worden. Aus (133.1) und (136.17) folgt daher der
Satz: Es gilt rgA = n genau dann, wenn det A 6= 0 ist.

(136.18)

Damit ist die Beziehung zwischen dem Rang einer quadratischen Matrix und
ihrer Determinante hergestellt worden.

137

Spur einer Matrix und Darstellung einer Matrix als


Vektor

Mit Hilfe der Spur einer Matrix werden h


aufig G
utekriterien f
ur die Parametersch
atzung angegeben.

44

1 Vektor- und Matrixalgebra

Definition: Die P
Spur spA einer quadratischen n n Matrix A mit A = (aij )
ist durch spA = ni=1 aii gegeben.
(137.1)

Satz: Es seien A und B zwei n n Matrizen, dann gilt


sp(A + B) = spA + spB .

(137.2)

Weiter sei A eine n r und B eine r n Matrix, dann gilt


sp(AB) = sp(BA) .

(137.3)

Beweis: (137.2) folgt unmittelbar


alt
Pn Pr aus der Definition. Mit
PrB =
Pn(bij ) erh
man weiter sp(AB) = i=1 j=1 aij bji und sp(BA) = k=1 l=1 bkl alk =
Pn Pr
l=1
k=1 alk bkl und damit (137.3).
Ist die Matrix A ein Skalar, also A = a, dann ist
spA = a .

(137.4)

Eine Matrix l
at sich auch als Vektor darstellen.
Definition: Es sei A = (aij ) eine m n Matrix, dann bezeichnet vecA den
mn 1 Vektor, der durch das Untereinanderschreiben der Spalten von A
entsteht, folglich
vecA = |a11 , . . . , am1 , a12 , . . . , amn |0 .

(137.5)

Zur Umwandlung von Matrizengleichungen der Form ABC = L, in der die


Spalten von B die unbekannten Parametervektoren enthalten, in ein u
bliches
lineares Gleichungssystem dient der
Satz: Es sei A eine m n, B eine n p und C eine p s Matrix, dann gilt
vecABC = (C 0 A)vecB .
Beweis: Mit B = (bi ) und C = (cij )

p

P


i=1 ci1 Abi


vecABC = . . . . . . . . . =
p

P


i=1 cis Abi

(137.6)
erh
alt man
c11 A . . . cp1 A
................
c1s A . . . cps A

= (C 0 A)vecB .

Es folgen noch zwei S


atze mit
ahnlichen Aussagen.



b1


..


bp

45

14 Quadratische Formen
Satz: Es seien A und B zwei n n Matrizen, dann gilt
(vecA)0 vecB = (vecB)0 vecA = sp(AB 0 ) .

(137.7)

Beweis: Mit (123.2) folgt die erste Aussage. Weiter gilt mit A = (aij ), B =
(bij ) und B 0 = (b0ij ) sowie (131.6)
(vecA)0 vecB =

n X
n
X

aij bij =

i=1 j=1

n X
n
X

aij b0ji = sp(AB 0 )

i=1 j=1

wegen (137.1), so da die zweite Aussage folgt.


Satz: Es sei A eine m n, B eine n n und C eine m m Matrix, dann gilt
(vecA)0 (B C)vecA = sp(ABA0 C 0 ) = sp(AB 0 A0 C) .

(137.8)

Beweis: Mit (137.6) und (137.7) erh


alt man
(vecA)0 (B C)vecA = (vecA)0 vecCAB 0 = sp(ABA0 C 0 ) .
Da die Spur einer transponierten Matrix der Spur der urspr
unglichen Matrix
gleicht, folgt mit (137.3) die zweite Aussage.

14

Quadratische Formen

141

Transformationen

a) Affine Transformationen
Die lineare Transformation
y = Bx ,

(141.1)

die den Vektor x mit Hilfe der Matrix B in den Vektor y transformiert,
bezeichnet man als affine Transformation. Tritt noch mit z = Bx + c der
Translationsvektor c hinzu, l
at er sich durch y = z c = Bx eliminieren,
so da es gen
ugt, die Transformation (141.1) zu behandeln. Ist B eine m n
Matrix, kann (141.1) als Abbildung des Vektors x E n in den Vektor y E m
angesehen werden.
Ist B eine regul
are n n Matrix, l
at sich (141.1) als Transformation eines
Vektors x E n bez
uglich einer Basis des E n in einen anderen Vektor y E n
bez
uglich derselben Basis interpretieren. Man kann mit (141.1) aber auch die
Vorstellung der Koordinatentransformation verbinden, indem ein und derselbe
Vektor von der Darstellung bez
uglich einer Basis oder eines Koordinatensystems, dessen Achsen in Richtung der Basisvektoren zeigen, in die Darstellung

46

1 Vektor- und Matrixalgebra

bez
uglich einer anderen Basis oder eines anderen Koordinatensystems u
bergeht. Bei der ersten Interpretation wird der Vektor transformiert, und die
Basis bleibt fest, bei der zweiten wird die Basis oder das Koordinatensystem
transformiert, und der Vektor bleibt unver
andert.
Die affine Transformation u
uhrt als Vektortransformation Strecken in
berf
Strecken,
andert aber die L
angen der Strecken, denn im allgemeinen gilt
|y|2 = y 0 y = x0 B 0 Bx 6= |x|2 . Folglich werden auch Winkel ge
andert, da sie
sich durch die Seiten eines Dreiecks ausdr
ucken lassen. Eine affine Koordinatentransformation rotiert also die einzelnen Koordinatenachsen um beliebige
Winkel und nimmt L
angen
anderungen vor.
b) Orthogonale Transformationen
Gilt f
ur eine n n Matrix B in (141.1) B 0 B = I, bezeichnet man B als orthogonale Matrix und die Transformation mit einer orthogonalen Matrix als
orthogonale Transformation. Es gilt der
Satz: Es sei C eine orthogonale n n Matrix, das heit C 0 C = I. Dann ist
C regul
ar und daher C 1 = C 0 .
(141.2)
Beweis: Aus C 0 C = I folgt, da die Spalten von C paarweise zueinander
orthogonal sind, so da nach (124.2) und (132.2) rgC = n und damit nach
(133.1) die Aussage folgt.
Orthogonale Transformationen
andern Streckenl
angen und damit auch Winkel nicht, denn bezeichnet man mit y = Cx und z = Cu die Endpunkte einer
transformierten Strecke x u, erh
alt man mit (123.3) und (141.2)
|y z|2 = (Cx Cu)0 (Cx Cu) = (x u)0 C 0 C(x u) = |x u|2 .
Die Transformation
x = Ax

(141.3)

sei nun durch die Transformation von n orthonormalen Basisvektoren e1 , . . . ,


en des E n in die n orthonormalen Basisvektoren e1 , . . . , en des E n hervorgerufen. Mit E = |e1 , . . . , en | enth
alt dann x die Komponenten eines Vektors
Ex, dargestellt durch die n Basisvektoren e1 , . . . , en , und x die Komponenten eines Vektors E x , dargestellt mit E = |e1 , . . . , en | durch die n
Basisvektoren e1 , . . . , en , und es gilt Ex = E x , da die Transformation den
Vektor unver
andert l
at, sowie E 0 E = I und E 0 E = I, da orthonormale Basisvektoren vorliegen. Mit (141.3) folgt Ex = E x = E Ax f
ur alle
Vektoren x E n , so da der Transformation (141.3) die Basistransformation
ur alle x, so da
E = E A entspricht. Weiter ergibt sich x = E 0 Ex = Ax f
man A = E 0 E und mit A = (aij ) sowie (123.4) aij = e 0i ej = cos(ei , ej )

47

14 Quadratische Formen

erh
alt, falls (ei , ej ) den Winkel zwischen den Basisvektoren ei und ej bezeichnet. Den Kosinus dieses Winkels nennt man Richtungskosinus. Ferner ergibt
sich x = E 0 E x = A0 x wegen A0 = E 0 E und mit (141.3) x = A0 Ax f
ur
alle x, so da A0 A = I und A als orthogonale Matrix folgt. Sind andererseits
A und E orthogonale Matrizen, erh
alt man E = EA0 aus E = E A, so
0
0
0
da wegen E E = AE EA = I die Basisvektoren e1 , . . . , en orthonormal
sind. Es folgt damit der
Satz: Eine Transformation ist genau dann orthogonal, wenn sie eine orthonormale Basis in eine andere orthonormale Basis u
uhrt. Die Transformaberf
tionsmatrix enth
alt dann die Richtungskosinus zwischen den urspr
unglichen
und den transformierten Basisvektoren.
(141.4)
Der orthogonalen Transformation orthonormaler Basisvektoren entspricht die
orthogonale Transformation orthogonaler Koordinatensysteme.
Beispiel: Orthogonale Transformationen dreidimensionaler, orthogonaler Koordinatensysteme bewirken die Drehmatrizen




cos 0 sin
1
0
0



,
1
0
cos sin , R2 () = 0
R1 () = 0

sin 0
0 sin cos
cos


cos sin 0


(141.5)
R3 () = sin cos 0 ,

0
0
1

die jeweils Koordinatentransformationen in der x2 , x3 Ebene, in der x1 , x3


Ebene und in der x1 , x2 Ebene vornehmen, wobei der Winkel zwischen den
Achsen des urspr
unglichen und des transformierten Systems im Gegenuhrzeigersinn positiv gez
ahlt wird. Mit Hilfe der Drehmatrizen kann durch das Aneinandersetzen von ebenen Transformationen jede beliebige dreidimensionale
Transformation ausgef
uhrt werden, da orthogonale Transformationen nacheinander ausgef
uhrt wieder orthogonale Transformationen ergeben, denn sind
A und B orthogonale Matrizen, gilt (AB)0 (AB) = B 0 A0 AB = I.
Differentielle Drehungen in den Koordinatenebenen um den infinitesimal kleinen Winkel d ergeben sich mit cos d = 1 und sin d = d aus (141.5) zu




1
1 0 d
0
0



R1 (d) = 0
1
d , R2 (d) = 0 1
0 ,
0 d 1
d 0
1

1

R3 (d) = d
0

d
1
0

0
0
1

(141.6)

48

1 Vektor- und Matrixalgebra

Drei differentielle Drehungen um die Winkel d, d, d aneinandergesetzt betragen, falls dd = dd = dd = 0 gesetzt wird,


1
d
d

1
d .
(141.7)
R1 (d)R2 (d)R3 (d) = d
d d
1
c) Quadratische und bilineare Formen

Ist die Matrix B der affinen Transformation (141.1) quadratisch und regul
ar,
existiert die inverse Transformation x = B 1 y, und die quadratische L
ange
des Vektors x l
at sich mit (123.3) durch die transformierten Koordinaten
ausdr
ucken
x0 x = y 0 (B 1 )0 B 1 y = y 0 Ay .

(141.8)

y 0 Ay heit quadratische Form und A die Matrix der quadratischen Form. Sie
ist symmetrisch, denn A = (B 1 )0 B 1 = A0 . Dr
uckt man (123.5) entsprechend auch Winkel im transformierten System aus, treten bilineare Formen
y 0 Az auf. Die bilineare Form stellt eine Verallgemeinerung des Skalarproduktes (123.1) dar.

142

Eigenwerte und Eigenvektoren

Die Extremwerte der quadratischen Form x0 Ax, in der x ein n 1 Vektor


und A eine symmetrische n n Matrix bedeuten, soll durch Variation von x
bestimmt werden. Da x0 Ax bei beliebigem x beliebig gro oder klein gemacht
werden kann, wird als Nebenbedingung
x0 x = 1

(142.1)

eingef
uhrt. Das Extremum wird, wie in (171.6) gezeigt wird, mit Hilfe der
Lagrangeschen Funktion L bestimmt, L = x0 Ax (x0 x 1), in der der
Lagrangesche Multiplikator bedeutet. Die Differentialquotienten L/x gleich
Null gesetzt ergeben die Werte f
ur das Extremum, die mit xi und i bezeichnet
seien. Da L/x = 2Ax 2x gilt, wie in (172.2) abgeleitet wird, erh
alt man
(A i I)xi = 0 .

(142.2)

Man nennt i Eigenwerte und xi Eigenvektoren der Matrix A, falls sie (142.2)
erf
ullen, wobei A nicht, wie hier vorausgesetzt, symmetrisch zu sein braucht.
Damit Vektoren xi existieren, die nicht Nullvektoren sind, m
ussen nach (122.1)
die Spalten der Matrix A i I linear abh
angig sein. Nach (136.17) gilt dann
det(A i I) = 0 .

(142.3)

14 Quadratische Formen

49

Die Entwicklung der Determinante nach (136.5) ergibt, geordnet nach Potenzen von i , die charakteristische Gleichung f
ur A
ri + K1 ir1 + . . . + Kr1 i + Kr = 0 ,

(142.4)

in der die Koeffizienten Ki Funktionen der Elemente von A sind. Die Ordnung
r der Potenzen ergibt sich mit r = rgA, denn die Ordnung der gr
oten von
Null verschiedenen Unterdeterminante von A kann nach (136.18) rgA nicht
u
alt r von Null verschiedene L
osungen f
ur i aus (142.4),
berschreiten. Man erh
die reell sind, falls A symmetrisch ist (Stiefel 1970, S.108).
Die zu den verschiedenen Eigenwerten i geh
orenden Eigenvektoren xi sind
zueinander orthogonal, denn mit (142.2) und der entsprechenden Gleichung
(A j I)xj = 0 f
ur j und xj folgen x0j Axi = i x0j xi und x0i Axj = j x0i xj .
0
Es gilt aber xj Axi = x0i Axj und x0j xi = x0i xj , so da folgt i x0i xj = j x0i xj
und weiter (i j )x0i xj = 0 und somit, falls i 6= j
x0i xj = 0 .

(142.5)

Bei mehrfachen Eigenwerten, beispielsweise i = j , m


ussen die Eigenvektoren aus dem L
osungsraum, der in (154.6) definiert wird, der homogenen
Gleichungen (142.2) derart ausgew
ahlt werden, da sie zu den u
brigen Eigenvektoren jeweils paarweise orthogonal sind.
Nimmt man mit n = rgA vollen Rang f
ur A an und fat mit X = |x1 , x2 , . . . ,
xn | die Eigenvektoren xi zur n n Matrix X zusammen, die mit (142.1) und
(142.5) orthogonal ist, also X 0 X = I und f
uhrt mit = diag(1 , 2 , . . . , n )
die nn Diagonalmatrix der Eigenwerte i ein, so ergibt sich mit Axi = i xi
aus (142.2) die Beziehung X 0 AX = . Ist rgA = r < n, sind nr Eigenwerte
gleich Null. Die entsprechenden Eigenvektoren sind dann beliebig festzulegen,
sie m
ussen lediglich (142.1), (142.2) mit i = 0 und (142.5) erf
ullen. Damit
gilt der
Satz: Jede symmetrische n n Matrix A mit r = rgA l
at sich mit Hilfe
einer orthogonalen n n Matrix X der Eigenvektoren von A derart zerlegen,
da X 0 AX = gilt, worin eine n n Diagonalmatrix bedeutet, deren
Diagonalelemente die reellen Eigenwerte von A enth
alt, unter denen r Werte
von Null verschieden sind.
(142.6)
Bei der praktischen Berechnung der Eigenwerte und Eigenvektoren greift man
gew
ohnlich nicht auf (142.2) und (142.3) zur
uck, sondern benutzt iterative
Methoden (Faddeev und Faddeeva 1963; Householder 1964; Rutishauser 1976, Bd.2; Schwarz et al. 1972).
Im Hinblick auf multivariate Hypothesentests ist die Invarianzeigenschaft der

50

1 Vektor- und Matrixalgebra

Eigenwerte bedeutsam.
Satz: Die Eigenwerte einer Matrix sind invariant gegen
uber orthogonalen
Transformationen.
(142.7)
Beweis: Es sei C mit C 0 C = I eine orthogonale Matrix, die den Vektor
x transformiere in y = Cx, so da mit x = C 0 y wegen (141.2) anstelle von
x0 Ax die quadratische Form y 0 CAC 0 y erhalten wird und anstelle von (142.3)
mit (136.13) det(CAC 0 i I) = det(C(A i I)C 0 ) = det(C 0 C) det(A
i I) = det(A i I), woraus die Aussage folgt.

143

Definite Matrizen

Mit (141.8) war die quadratische Form als L


ange eines transformierten Vektors
eingef
uhrt worden. Damit sie als Ma einer L
ange dienen kann, darf sie nicht
negativ werden. Dies f
uhrt f
ur die Matrix A der quadratischen Form auf die
Definition: Eine symmetrische n n Matrix A bezeichnet man als positiv
definit, wenn
x0 Ax > 0 f
ur alle x 6= 0
und als positiv semidefinit, wenn
x0 Ax 0 f
ur alle x 6= 0 .

(143.1)

Die folgenden S
atze geben Kritierien daf
ur an, da eine Matrix positiv definit
oder positiv semidefinit ist.
Satz: Eine symmetrische Matrix ist genau dann positiv definit, wenn ihre
Eigenwerte positiv sind, und positiv semidefinit, wenn ihre Eigenwerte nicht
negativ sind.
(143.2)
Beweis: F
ur eine symmetrische Matrix A gilt nach (142.6) X 0 AX = . Setzt
man y = X 0 x, so da wegen (141.2) x = Xy folgt, ergibt sich x0 Ax =
y 0 X 0 AXy = y 0 y = 1 y12 + . . . + n yn2 = Q f
ur alle x. Da X vollen Rang
besitzt, gilt wegen (122.1) X 0 x = y = 0 nur f
ur x = 0. Man erh
alt daher
i > 0 f
ur Q > 0. Gilt umgekehrt i > 0, folgt Q > 0, so da A positiv definit
ist. Weiter ergibt sich i 0 f
ur Q 0 und umgekehrt aus i 0, da A
positiv semidefinit ist.
Satz: Eine positiv definite Matrix ist regul
ar.

(143.3)

Beweis: Nach (143.2) besitzt eine positiv definite n n Matrix A positive


Eigenwerte, womit aus (142.6) rgA = n und damit aus (133.1) die Aussage
folgt.

14 Quadratische Formen

51

Satz: Eine symmetrische Matrix ist genau dann positiv definit, wenn die
Diagonalelemente der bei der Gauschen Faktorisierung entstehenden Diagonalmatrix positiv sind.
(143.4)
Beweis: Nach (143.3) ist eine positiv definite Matrix A regul
ar, so da wegen (133.22) die Gausche Faktorisierung C 1 A(C 0 )1 = D gilt, in der C 1
regul
ar ist. Setzt man x = (C 0 )1 y, folgt der Rest des Beweises wie der f
ur
(143.2).
Satz: Eine symmetrische Matrix ist genau dann positiv definit, wenn die
CholeskyFaktorisierung A = GG0 gilt, in der G eine regul
are untere Dreiecksmatrix bedeutet.
(143.5)
Beweis: F
ur eine positiv definite Matrix gilt wegen (143.4) die Cholesky
Zerlegung (133.23). Gilt umgekehrt die CholeskyFaktorisierung, folgt mit
(143.4), da die Matrix positiv definit ist.
Satz: Ist A eine positiv definite oder positiv semidefinite Matrix, gilt spA > 0
f
ur A 6= 0.
(143.6)
Beweis: Ist A positiv definit oder positiv semidefinit, ergibt
Pn sich mit (137.3)
aus (142.6) spA = sp(XX 0 ) = sp(X 0 X) = sp = i=1 i mit i 0
aus (143.2), so da spA > 0 gilt und spA = 0 lediglich mit i = 0 f
ur
i {1, . . . , n}. Im letzteren Fall gilt mit (135.5) und (142.6) dim N (A) = n,
so da Ax = 0 f
ur alle x E n sich ergibt und damit A = 0 folgt.

Satz: Ist A eine positiv definite n n Matrix, dann ist B 0 AB positiv definit,
falls die n m Matrix B vollen Spaltenrang m = rgB besitzt. Bei beliebigem
Rang von B ist B 0 AB positiv definit oder positiv semidefinit. Ist A positiv
semidefinit, ist auch B 0 AB unabh
angig vom Rang von B positiv semidefinit.
(143.7)
Beweis: A sei positiv definit. Mit By = x folgt dann y 0 B 0 ABy = x0 Ax > 0
f
ur alle y, da By = x = 0 wegen des vollen Spaltenrangs f
ur B nur f
ur y = 0
gilt. Bei beliebigem Rang f
ur B kann x = 0 auch f
ur y 6= 0 sich ergeben, so
da x0 AX 0 folgt. Ist A positiv semidefinit, folgt mit By = x unabh
angig
von dem Rang von B schlielich y 0 B 0 ABy = x0 Ax 0.

Satz: Besitzt die m n Matrix B vollen Spaltenrang n = rgB, dann ist B 0 B


positiv definit. Bei beliebigem Rang f
ur B ist B 0 B positiv definit oder positiv
semidefinit.
(143.8)
Beweis: Ersetzt man in (143.7) A durch die positiv definite Einheitsmatrix I,
folgen die Aussagen.

52

1 Vektor- und Matrixalgebra

Satz: Mit A ist auch A1 positiv definit.

(143.9)

Beweis: Ersetzt man in (143.7) B durch die wegen (131.16) regul


are Matrix
A1 , folgt mit (131.17) A1 AA1 = A1 und damit die Aussage.
Satz: Eine positiv semidefinite n n Matrix A mit rgA = r l
at sich zerlegen
in A = HH 0 , worin H eine n r Matrix mit rgH = r bedeutet. (143.10)
Beweis: Nach (142.6) folgt mit der orthogonalen n n Matrix X


2

D 0 D
0
D 0 ,



=
X AX =
0 0 0

worin D 2 die r r Diagonalmatrix der von Null verschiedenen Eigenwerte


von A bedeutet, die wegen (143.2) positiv sind, so da D eine reelle Diagonalmatrix darstellt. Mit H 0 = |D, 0|X 0 , wobei H 0 eine r n Matrix mit
vollem Zeilenrang bedeutet, ergibt sich A = HH 0 = X(X 0 AX)X 0 , womit
die Aussage folgt.

15

Generalisierte Inversen

151

Rechts- und Linksinversen

Nach (133.1) existiert f


ur die n n Matrix A mit rgA = n die inverse Matrix
A1 derart, da AA1 = A1 A = I n gilt. Entsprechend sollen jetzt Inversen
f
ur Rechteckmatrizen mit vollem Zeilen- oder Spaltenrang eingef
uhrt werden.
Es sei A eine m n Matrix mit vollem Zeilenrang m. Die m m Matrix AA0
besitzt nach (135.6) ebenfalls den Rang m, so da (AA 0 )1 existiert. Es gilt
dann
I m = AA0 (AA0 )1 = A(A0 (AA0 )1 ) = AB ,

(151.1)

so da eine nm Matrix B angegeben werden kann, mit der A von rechts multipliziert die mm Einheitsmatrix I m ergibt. B bezeichnet man als Rechtsinverse von A. Die Rechtsinverse ist nicht eindeutig, denn falls rg(ACA 0 ) = m
gilt, ist beispielsweise CA0 (ACA0 )1 ebenfalls eine Rechtsinverse von A.
Die mn Matrix A besitze nun vollen Spaltenrang n. Dann gilt wegen (135.6)
rg(A0 A) = n, so da folgt
I n = (A0 A)1 A0 A = ((A0 A)1 A0 )A = BA .

(151.2)

B bezeichnet man als Linksinverse von A, sie ist wie die Rechtsinverse nicht
eindeutig.

15 Generalisierte Inversen

152

53

Idempotente Matrizen

Im Zusammenhang mit den im folgenden Kapitel zu behandelnden generalisierten Inversen und sp


ater wieder bei den Projektionen treten idempotente
Matrizen auf.
Definition: Eine quadratische Matrix heit idempotent, wenn sie die Bedingung erf
ullt
A2 = AA = A .

(152.1)

Folgende Eigenschaften idempotenter Matrizen sind von Interesse.


Satz: Die Eigenwerte einer idempotenten Matrix sind entweder Null oder
Eins.
(152.2)
Beweis: Es sei ein Eigenwert von A und x ein zugeh
origer Eigenvektor. Aus
(142.2) folgt dann Ax = x und weiter AAx = Ax = 2 x. Wegen A2 = A
ist aber A2 x = x und daher (2 )x = 0. Da x 6= 0, folgt ( 1) = 0
und daher = 0 oder = 1.
Satz: Ist A idempotent, dann gilt rgA = spA.

(152.3)

Beweis: Es sei rgA = r. Aus der Rangfaktorisierung (132.11) f


ur A folgt
A = RS und mit (152.1) RSRS = RS. Nach (151.1) und (151.2) besitzt R
eine Linksinverse L und S eine Rechtsinverse T , so da LRSRST = LRST
und damit SR = I r sich ergibt. Schlielich gilt mit (137.3) spA = sp(SR) =
spI r = r, so da r = rgA = spA folgt.
Satz: Ist die n n Matrix A mit rgA = r idempotent, dann ist auch I A
idempotent mit rg(I A) = n r.
(152.4)

Beweis: Es gilt (I A)2 = I 2A + A2 = I A. Mit (152.3) erh


alt man
weiter rg(I A) = sp(I A) = n sp(A) = n rgA = n r.
Satz: Ist A idempotent und regul
ar, ist A = I.

(152.5)

Beweis: Multipliziert man AA = A von links oder rechts mit A1 , erh


alt
man A = I.
Im folgenden sollen noch drei S
atze bewiesen werden, die f
ur symmetrische
idempotente Matrizen gelten.
Satz: Ist die Matrix A
eine orthogonale Matrix

I
0
0
X AX = r
0 0

mit rgA = r idempotent und symmetrisch, gibt es


X, so da gilt


.
(152.6)

54

1 Vektor- und Matrixalgebra

Beweis: Mit (142.6) folgt f


ur die symmetrische Matrix A die Zerlegung X 0 AX
= , in der die Diagonalmatrix der Eigenwerte wegen (152.2) r Werte Eins
besitzt, so da die Aussage folgt.
Satz: Es gilt A = p1 p01 + . . . + pr p0r , wobei p1 , . . . , pr orthonormale Vektoren
bedeuten, genau dann, wenn A mit rgA = r idempotent und symmetrisch
ist.
(152.7)
Beweis: Ist A mit rgA = r idempotent und symmetrisch, ergibt sich mit einer
orthogonalen Matrix X aus (152.6)
0


p1

Ir 0 0

X = P P 0 = |p1 , . . . , pr | . . .
A = X



0 0
p0r
= p1 p01 + . . . + pr p0r ,

denn die Matrix P besitzt r Spalten pi , die orthonormale Vektoren sind.


Wird andererseits A mit Hilfe r orthonormaler Vektoren pi dargestellt und
fat man sie in der Matrix P = |p1 , . . . , pr | zusammen, besitzt P wegen
(124.2)
dann r = rg(P P 0 ) =
Pr und 0 (132.2) den Rang r. Mit (135.6) folgt
0
rg( i=1 pi pi ) = rgA. Weiter ist A mit A = P P symmetrisch
Pr und 0idempo2
0
0
0 2
tent,
denn
mit
(131.7)
folgt
A
=
(p
p
+
.
.
.
+
p
p
)
=
1 1
r r
i=1 pi (pi pi )pi +
Pr
PP
0
0
0
0
0
i=1 pi pi = A wegen pi pi = 1 und pi pj = 0, da die
i6=j pi (pi pj )pj =
Vektoren pi orthonormal sind, so da die Aussage folgt.
Satz: Ist eine Matrix, die nicht die Einheitsmatrix ist, idempotent und symmetrisch, so ist sie positiv semidefinit.
(152.8)
Beweis: Gilt AA = A und A = A0 , folgt mit A0 A = A aus (143.8) und
(152.5) die Aussage.

153

Generalisierte Inverse, reflexive generalisierte


Inverse und Pseudoinverse

a) Generalisierte Inverse
Die Definition einer inversen Matrix, die sich bislang auf regul
are quadratische Matrizen und auf Rechteckmatrizen mit vollem Zeilen- oder Spaltenrang
beschr
ankte, soll nun auf Rechteckmatrizen von beliebigem Rang ausgedehnt
werden.
Definition: Eine n m Matrix A bezeichnet man als generalisierte Inverse
der m n Matrix A, falls
AA A = A .

(153.1)

55

15 Generalisierte Inversen

Da diese Definition im Hinblick auf die L


osung linearer Gleichungssysteme
sinnvoll ist, wird im n
achsten Kapitel gezeigt. Es sollen nun Eigenschaften
generalisierter Inversen betrachtet werden.
Satz: Eine generalisierte Inverse A der m n Matrix A mit m n und
r = rgA existiert f
ur jedes fest vorgegebene r k n mit rgA = k. (153.2)
Beweis: Aus (132.10) folgt f
ur A mit den regul
aren m m und n n Matrizen
P und Q




Ir 0

0 1
1 I r


P AQ =
und A = P
Q .
0 0
0 0

Sind R, S, T beliebige Matrizen zutreffender Dimensionen, ist eine generalisierte Inverse A gegeben mit


Ir R


P ,
A = Q
(153.3)
S T
denn


Ir

0


0 I r
0 S


R I r
T 0


1
Q = A .
AA A = P



Ip 0

mit 0 p
Setzt man beispielsweise R = 0, S = 0 und T =
0 0
n r in (153.3), ergibt sich wegen (132.4) rgA = r + p. Dies gilt f
ur alle
generalisierten Inversen A , denn aus AA A = A folgt mit (132.3) rgA
rg(AA ) rg(AA A) = rgA und somit rgA rgA n.

0
0

Satz: Das Produkt A A ist idempotent und rg(A A) = rgA.

(153.4)

Beweis: Es gilt (A A)2 = A AA A = A A wegen (153.1). Mit (132.3)


folgt rgA rg(A A) rg(AA A) = rgA und daher rgA = rg(A A).
Satz: Es gilt
A(A0 A) A0 A = A , A0 A(A0 A) A0 = A0
sowie
A0 (AA0 ) AA0 = A0 , AA0 (AA0 ) A = A

(153.5)

und falls V eine positiv definite Matrix ist


A(A0 V A) A0 V A = A , A0 V A(A0 V A) A0 = A0 .

(153.6)

56

1 Vektor- und Matrixalgebra

Beweis: Setzt man E = A(A0 A) A0 A A folgt E 0 E = (A(A0 A) A0 A


A)0 A((A0 A) A0 A I) = 0 wegen (131.10) und (153.1) und daher E = 0
nach (131.11). Setzt man E = A0 A(A0 A) A0 A0 folgt aus EE 0 = 0
die zweite Gleichung von (153.5) und entsprechend die folgenden beiden Beziehungen. Setzt man weiter E = A(A0 V A) A0 V A A, folgt E 0 V E =
(A(A0 V A) A0 V A A)0 V A((A0 V A) A0 V A I) = 0 und mit (131.11)
sowie V = GG0 aus (143.5) G0 E = 0 oder GG0 E = 0 und somit E = 0. Die
zweite Gleichung von (153.6) ergibt sich entsprechend.
Satz: Ist G generalisierte Inverse von A0 A und F generalisierte Inverse von
AA0 , dann sind
a) G0 beziehungsweise F 0 generalisierte Inversen von A0 A beziehungsweise
AA0 ,
(153.7)
b) AGA0 beziehungsweise A0 F A invariant gegen
uber der Wahl von G
beziehungsweise F ,
(153.8)
c) AGA0 beziehungsweise A0 F A symmetrisch unabh
angig davon, ob G
beziehungsweise F symmetrisch ist,
(153.9)
d) A(A0 V A) A0 invariant gegen
uber der Wahl von (A0 V A) und immer
symmetrisch, falls V eine positiv definite Matrix ist.
(153.10)
Beweis: (153.7) folgt durch Transponieren von A0 AGA0 A = A0 A und der
zwei generalisierte Inverentsprechenden Gleichung f
ur F . Es seien G und G
0 A und weiter
sen von A0 A. Dann erh
alt man mit (153.5) AGA0 A = AGA
0
0
0
0
0
AGA , so da mit (153.5) AGA = AGA
0 und damit
AGA AGA = AGA
(153.8) folgt, da entsprechende Gleichungen f
ur F gelten. F
ur symmetrische
Matrizen existieren auch symmetrische generalisierte Inversen, was aus (153.3)
folgt, da f
ur symmetrische Matrizen A in (132.10) Q = P 0 gilt. Ist G eine
symmetrische generalisierte Inverse von A0 A, ist auch AGA0 symmetrisch.
Da aber AGA0 unabh
angig von der Wahl von G ist, mu AGA0 und ent0
sprechend A F A immer symmetrisch sein. Aus (153.6) folgt genau, wie f
ur
AGA0 gezeigt wurde, da A(A0 V A) A0 invariant gegen
uber der Wahl von
(A0 V A) und daher symmetrisch ist, so da (153.10) folgt.
In der Menge der generalisierten Inversen, die (153.1) erf
ullen, lassen sich
durch Zusatzbedingungen Teilmengen spezieller generalisierter Inversen definieren (Ben-Israel und Greville 1974; Bjerhammar 1973; Boullion
und Odell 1971; Caspary und Wichmann 1994; Rao und Mitra 1971).
Im folgenden sollen lediglich die reflexive generalisierte Inverse und die Pseudoinverse eingef
uhrt werden, die f
ur die Parametersch
atzung in Modellen mit
nicht vollem Rang ben
otigt werden.

57

15 Generalisierte Inversen
b) Reflexive generalisierte Inverse

Definition: Eine nm Matrix A


r bezeichnet man als reflexive generalisierte
Inverse der m n Matrix A, falls
AA
r A =A

und A
r AAr = Ar .

(153.11)

Satz: Eine reflexive generalisierte Inverse ist durch A


r = A AA gegeben.
(153.12)

Beweis: Mit AA AA A = A und A AA AA AA = A AA ist


(153.11) erf
ullt.

Satz: A
r ist genau dann reflexive generalisierte Inverse von A, wenn A r

(153.13)
generalisierte Inverse von A und rgAr = rgA gilt.

Beweis: Ist A
r reflexive generalisierte Inverse von A, ist sie auch generalisierte Inverse von A und mit (132.3) und (153.11) folgt rgA rg(A
r A)

rg(A
r AAr ) = rgAr rg(Ar A) rg(AAr A) = rgA und damit rgAr =

rgA. Gilt andererseits rgAr = rgA und AAr A = A folgt mit (153.4)

ur den Fall n m mit einer beliebigen n m Marg(A


r A) = rgAr , so da f

trix Q mit vollem Zeilenrang A


r = Ar AQ gesetzt werden kann, da rgAr

0
0 1

wegen rg(Ar A) rg(Ar AQ) rg(Ar AQQ (QQ ) ) = rg(Ar A) unver


andert bleibt. Durch linksseitige Multiplikation mit A erh
alt man AA
r =

.
F
u
r
den
Fall
AAr AQ = AQ und schlielich Ar AAr = Ar AQ = A
r

A
=
QA
und
A
=
QAA
,
so
da
A
=
QAA
n > m setzt man A
r
r
r
r

A
r AAr = QAAr = Ar und damit die Aussage folgt.
0
Satz: Eine symmetrische reflexive generalisierte Inverse (A0 A)
rs von A A ist
positiv semidefinit.
(153.14)

Beweis: Die Existenz einer symmetrischen reflexiven generalisierten Inversen


0
(A0 A)
ur symmetrische
rs von A A ergibt sich mit (153.13) aus (153.3), da f
0
Matrizen A A in (132.10) Q = P 0 gilt. Da A0 A nach (143.8) bei beliebigem Rang von A positiv semidefinit ist, ergibt sich nach (143.7), da auch
0
0
0

(A0 A)
rs A A(A A)rs = (A A)rs positiv semidefinit ist, so da die Aussage
folgt.
c) Pseudoinverse
F
ur die Pseudoinverse, auch MoorePenroseInverse genannt, gilt die
Definition: Die n m Matrix A+ ist Pseudoinverse der m n Matrix A,
falls
AA+ A = A , A+ AA+ = A+ ,
(AA+ )0 = AA+ , (A+ A)0 = A+ A .

(153.15)

58

1 Vektor- und Matrixalgebra

Satz: Es gilt A+ = A0 (AA0 ) A(A0 A) A0 .

(153.16)

Beweis: Substituiert man die Gleichung f


ur A+ in (153.15), folgt AA+ A =
0
0
0
0
AA (AA ) A(A A) A A = A wegen (153.5). Entsprechend ergibt sich
durch Substitution A+ AA+ = A+ . Weiter sind die Matrizen AA+ = AA0
(AA0 ) A(A0 A) A0 = A(A0 A) A0 und A+ A = A0 (AA0 ) A wegen (153.9)
symmetrisch, so da die Aussage folgt.
Satz: A+ ist eindeutig und rgA+ = rgA.

(153.17)

Beweis: G und F seien zwei Pseudoinversen von A. Dann gilt wegen (153.15)
G = GG0 A0 = GG0 A0 AF = GAF = GAA0 F 0 F = A0 F 0 F = F , so da
G = F = A+ folgt. Aus (153.13) ergibt sich rgA+ = rgA.
Satz: Es gilt (A0 )+ = (A+ )0 , so da f
ur A0 = A folgt A+ = (A+ )0 . (153.18)
Beweis: Aus (153.15) ergibt sich (A0 )+ als Pseudoinverse von A0 . Transponiert man (153.15), so erh
alt man (A+ )0 als Pseudoinverse von A0 . Da die
Pseudoinverse eindeutig ist, folgt (A0 )+ = (A+ )0 und f
ur eine symmetrische
Matrix A die symmetrische Pseudoinverse A+ = (A+ )0 .
Satz: Es gilt (A+ )+ = A.

(153.19)
+ +

Beweis: F
ur die Pseudoinverse (A ) von A gelten ebenso wie f
ur die Pseudoinverse A+ von A die vier Bedingungen (153.15), so da wegen der Eindeutigkeit der Pseudoinversen (A+ )+ = A folgt.
Satz: F
ur die Matrix A mit vollem Zeilenrang und die Matrix B mit vollem
Spaltenrang gilt A+ = A0 (AA0 )1 und B + = (B 0 B)1 B 0 , wobei A+ gleichzeitig eine Rechtsinverse von A und B + eine Linksinverse von B ist. (153.20)
Beweis: Aus (151.1) folgt eine Rechtsinverse R von A zu R = A0 (AA0 )1
und aus (151.2) eine Linksinverse L von B zu L = (B 0 B)1 B 0 . Die Matrizen
R und L erf
ullen (153.15), so da die Aussage folgt.
Satz: F
ur eine beliebige m n Matrix A gilt A+ = lim (A0 A + 2 I)1 A0 =
lim A0 (AA0 + 2 I)1 .

(153.21)

Der Beweis dieses Satzes befindet sich in (Albert 1972, S.19).


Weitere Gleichungen f
ur die Pseudoinverse, beispielsweise diejenigen, die sich
auf die Rangfaktorisierung (132.11) st
utzen, befinden sich in (Ben-Israel
und Greville 1974; Boullion und Odell 1971; Graybill 1969; Rao
und Mitra 1971). Rechenformeln f
ur generalisierte Inversen symmetrischer
Matrizen werden im Kapitel 155 angegeben und weitere Eigenschaften der
Pseudoinversen und einer speziellen symmetrischen reflexiven generalisierten

15 Generalisierte Inversen

59

Inversen im Kapitel 156 behandelt.


Die Beziehung zwischen den Inversen regul
arer Matrizen und den generalisierten Inversen ergibt sich aus dem
Satz: Ist A eine regul
are n n Matrix, dann gilt
+
1
A = A
.
r =A =A

(153.22)

Beweis: Substituiert man die generalisierten Inversen in (153.1), (153.11) und


(153.15) durch A1 , sind s
amtliche Bedingungen erf
ullt. Weiter folgt aus
AA A = A f
ur beliebige A mit A1 AA AA1 = A1 = A , da auer
A1 keine weitere generalisierte Inverse von A existiert.

154

Lineare Gleichungssysteme

In (133.14) wurde bereits ein lineares Gleichungssystem mit quadratischer


Koeffizientenmatrix eingef
uhrt und die L
osung f
ur eine regul
are Koeffizientenmatrix angegeben. In dem linearen Gleichungssystem
A = l

(154.1)

sei nun A eine m n Koeffizientenmatrix mit beliebigem Rang r = rgA,


der n 1 Vektor unbekannter Parameter und l der m 1 Absolutgliedvektor.
Ist l = 0, bezeichnet man (154.1) als homogenes Gleichungssystem. Um die
L
osungsbedingungen von (154.1) zu formulieren, ben
otigt man die folgende
Definition: Ein lineares Gleichungssystem A = l heit konsistent, wenn l
Element des Spaltenraums von A ist, also l R(A).
(154.2)
Die Konsistenz bedeutet nach (135.1), da zu jedem beliebigen Vektor l ein
Vektor w existiert, so da Aw = l gilt.
Satz: Ein Gleichungssystem ist genau dann l
osbar, wenn es konsistent ist.
(154.3)
Beweis: Ist das Gleichungssystem A = l l
osbar, dann existiert ein Vektor
, so da A = l, woraus die Konsistenz, also l R(A) folgt. Ist umgekehrt
A = l konsistent, gilt l R(A), so da f
ur jeden Vektor l ein Vektor w
derart existiert, da Aw = l, womit sich w als L
osung ergibt.
Zwei
aquivalente Formulierungen der L
osungsbedingungen (154.3) werden in
dem folgenden Satz gegeben.
Satz: Das Gleichungssystem A = l ist genau dann l
osbar, wenn f
ur den Spaltenraum der um den Vektor l erweiterten Matrix A die Beziehung rg|A, l| =
rgA gilt oder wenn jede L
osung z des homogenen Gleichungssystems A0 z = 0

60

1 Vektor- und Matrixalgebra

orthogonal zum Absolutgliedvektor l ist.

(154.4)

Beweis: Ist das Gleichungssystem l


osbar, gilt l R(A) und R(|A, l|) = R(A),
so da mit (135.5) rg|A, l| = rgA folgt. Gilt andererseits rg|A, l| = rgA, folgt
mit R(A) R(|A, l|) auch R(A) = R(|A, l|), so da l R(A) und damit
die Gleichung l
osbar ist und die erste Aussage folgt. Ist das Gleichungssystem
l
osbar, gilt R(A) = R(|A, l|) und nach (135.4) N (A0 ) = R(A) , so da alle
L
osungen z der homogenen Gleichungen A0 z = 0 wegen z N (A0 ) orthogonal zu s
amtlichen Vektoren y R(|A, l|), also auch zu l sind. Sind umgekehrt
die L
osungen z orthogonal zu l, mu wegen N (A0 ) = R(A) gelten l R(A),
woraus die L
osbarkeit und damit die zweite Aussage folgt.
Eine L
osung von (154.1) ergibt sich mit dem
Satz: Konsistente Gleichungssysteme A = l besitzen genau dann eine L
osung = A l f
ur alle l, falls A eine generalisierte Inverse von A ist. (154.5)
Beweis: Es sei = A l eine L
osung. Da l R(A), existiert f
ur jedes l ein Vektor w derart, da Aw = l. Folglich ist l = A = AA l = AA Aw = Aw
f
ur alle w, so da AA A = A gelten mu. Ist umgekehrt A generalisierte
Inverse von A, dann ist AA A = A und AA l = l, so da = A l eine
L
osung von A = l ist.
Schreibt man A = A( 0 + ) = 0 + l, wird offensichtlich, da zur L
osung
= A l des konsistenten Gleichungssystems A = l noch die allgemeine
L
osung des homogenen Gleichungssystems A 0 = 0 addiert werden mu, um
die allgemeine L
osung von A = l zu erhalten.
Satz: Eine allgemeine L
osung des homogenen Gleichungssystems A 0 = 0
mit der m n Koeffizientenmatrix A vom Rang r, einer generalisierten Inversen A von A und dem n 1 Vektor 0 unbekannter Parameter ergibt sich
mit dem beliebigen n 1 Vektor z zu
0 = (I A A)z ,
so da der durch diese L
osungen aufgespannte Spaltenraum R(I A A),
der als Losungsraum bezeichnet wird, mit dem Nullraum N (A) der Matrix A
identisch ist.
(154.6)
Beweis: Da A 0 = A(I A A)z = 0 wegen (153.1) gilt, ist 0 eine L
osung
von A0 = 0 und somit R(I A A) N (A). Nach (153.4) ist A A idempotent, so da mit (135.5) und (152.4) rg(I A A) = dim R(I A A) =
n r = dim N (A) und damit R(I A A) = N (A) folgt, so da mit 0 eine
allgemeine L
osung des homogenen Gleichungssystems gefunden ist.
Eine allgemeine L
osung von A = l ergibt sich nun durch Addition der L
osun-

15 Generalisierte Inversen

61

gen in (154.5) und (154.6).


Satz: Eine allgemeine L
osung des konsistenten Gleichungssystems A = l
mit der m n Koeffizientenmatrix A vom Rang r, einer generalisierten Inversen A von A, dem n 1 Vektor unbekannter Parameter und dem m 1
Vektor l der Absolutglieder ergibt sich mit dem beliebigen n 1 Vektor z zu
= A l + (I A A)z .

(154.7)

Die allgemeine L
osung (154.7) ist nicht eindeutig, denn es existieren wegen
(154.6) n r linear unabh
angige L
osungen in dem L
osungsraum der homogenen Gleichungen. Ist n r = 1, besteht der L
osungsraum aus einer Linie,
auf der die L
osungen sich verschieben lassen. Diese Unbestimmtheit tritt beispielsweise ein, wenn aus Messungen von Schwerkraftdifferenzen Absolutwerte
der Schwerkraft bestimmt werden sollen. Ist n r = 2, besteht der L
osungsraum aus einer Ebene, in der die L
osungen willk
urlich zu verschieben sind.
F
ur h
ohere Werte von n r ergeben sich entsprechende Interpretationen.
Gilt nr = 0, ist rgA = n und A 0 = 0 ergibt sich wegen (122.1) und (132.2)
nur f
ur 0 = 0. Die L
osung in (154.7) l
at sich dann mit einer Linksinversen f
ur A aus (151.2) berechnen. Die L
osungen mit Hilfe verschiedener
Linksinversen, beispielsweise 1 = (A0 A)1 A0 l oder 2 = (A0 CA)1 A0 Cl
mit rg(A0 CA) = n, stimmen s
amtlich u
berein, denn wegen der Konsistenz
des Gleichungssystems gibt es zu jedem l einen Vektor w, so da Aw = l gilt,
womit durch Substitution 1 = 2 = w folgt.
Wie im Kapitel 331 gezeigt wird, treten bei der Parametersch
atzung in Modellen mit nicht vollem Rang symmetrische Gleichungssysteme der folgenden
Gestalt auf. F
ur sie gilt der
Satz: Das Gleichungssystem
X 0 X = X 0 y ,

(154.8)

in dem X eine nu Matrix mit rgX = q < u, ein u1 Vektor unbekannter


Parameter und y ein gegebener n1 Vektor bedeuten, ist immer l
osbar. Seine
allgemeine L
osung ist gegeben durch
= (X 0 X) X 0 y + (I (X 0 X) X 0 X)z ,

(154.9)

worin z ein beliebiger u 1 Vektor bedeutet. Gilt rgX = u, ergibt sich die
eindeutige L
osung zu
= (X 0 X)1 X 0 y .

(154.10)

Beweis: Nach (135.6) ist R(X 0 X) = R(X 0 ), so da X 0 y R(X 0 X), womit


nach (154.2) die Gleichung (154.8) konsistent und nach (154.3) immer l
osbar

62

1 Vektor- und Matrixalgebra

ist. (154.9) folgt aus (154.7). Weiter ist wegen (135.6) rgX = rg(X 0 X), so
da mit rgX = u und (153.22) die eindeutige L
osung (154.10) aus (154.9)
sich ergibt.

155

Generalisierte Inversen symmetrischer Matrizen

Es sollen nun Rechenformeln f


ur die generalisierten Inversen symmetrischer
Matrizen angegeben werden, um L
osungen nach (154.9) berechnen zu k
onnen.
Hierbei wird unterschieden in Rechenformeln, die sich aufgrund der Definitionen des Kapitels 153 ergeben, und in solche, die mit Hilfe der Basis des
Nullraums der Koeffizientenmatrix des Gleichungssystems abgeleitet werden.
a) Rechenformeln aufgrund der Definitionen
Es wird vorausgesetzt, da die symmetrische u u Matrix X 0 X = N mit
rgX = rgN = q < u durch Umordnen der Zeilen und Spalten sich derart in
die Blockmatrix


N 11 N 12
0


(155.1)
X X =N =
N 21 N 22

zerlegen l
at, da f
ur die q q Matrix N 11 gilt rgN 11 = q. Aufgrund der
linearen Abh
angigkeit von u q Spalten der Matrix N gibt es wegen (122.3)
eine q (u q) Matrix M derart, da
N 12 = N 11 M

und

N 22 = N 21 M

(155.2)

und

N 22 = N 21 N 1
11 N 12 .

(155.3)

gilt und somit


M = N 1
11 N 12

Eine generalisierte Inverse N und zugleich eine symmetrische reflexive generalisierte Inverse N
rs von N sind gegeben durch


N 1 0
11
= N
N =
(155.4)
rs ,
0
0
denn (153.1) ist erf
ullt mit

N 11
N 12
N N N =
N 21 N 21 N 1
11 N 12



=N

(155.5)

und weiter (153.11). Auerdem ist die reflexive generalisierte Inverse (155.4)
symmetrisch.
Bezeichnet man mit Y die Matrix der Eigenvektoren von N , die der Zerlegung

63

15 Generalisierte Inversen

von N in (155.1) entsprechend aufgespalten sei in Y = |Y 1 , Y 2 |, so folgt aus


(142.6)



0 Y 01
= Y 1 Y 01 ,



N = |Y 1 , Y 2 |
0 0 Y 02
worin die q q Diagonalmatrix der von Null verschiedenen Eigenwerte von
N bedeutet. F
ur die Pseudoinverse N + von N gilt dann
N + = Y 1 1 Y 01 ,

(155.6)

ullt.
denn mit Y 01 Y 1 = I und N N + = N + N = Y 1 Y 01 ist (153.15) erf
b) Rechenformeln mit Hilfe der Basis des Nullraums
Die u u Matrix X 0 X mit rgX = rgX 0 X = q < u soll jetzt mit Hilfe einer
Matrix B wie folgt zur Matrix D erweitert werden


X 0X B0
.

(155.7)
D=
B
0
Dies entspricht bei der Parametersch
atzung, wie im Kapitel 333 gezeigt wird,
der Einf
uhrung der Restriktionen
B = 0

(155.8)

f
ur den u 1 Parametervektor im Gleichungssystem (154.8). Die Matrix B
soll derart gew
ahlt werden, da D regul
ar wird, so da aus (154.8) eindeutig
bestimmbar ist. Da rg(X 0 X) = q gilt, m
ussen u q Restriktionen eingef
uhrt
werden, wie sich aus dem folgenden Satz ergibt.


X
= u, worin B eine (u q) u Matrix bedeutet, genau
Satz: Es gilt rg
B
dann, wenn D regul
ar ist.
(155.9)

Beweis: Die Matrix X besitzt nach Voraussetzung q linear unabh


angige Zeilen, die nach (124.4) und (124.5) um weitere u q linear unabh
angige Zeilen,
zusammengefat
in der Matrix B, erg
anzt werden k
onnen, so da rgB = uq


X
= u folgen. Da f
und rg
ur den durch die Zeilen von X aufgespannten
B

0
Vektorraum
R(X
) nach (135.6) R(X 0 ) = R(X 0 X) gilt, besitzt auch die Ma

0
XX
insgesamt u linear unabh
trix
angige Zeilen und damit nach (132.2)
B
vollen Spaltenrang
u.
Die Spalten dieser Matrix bilden mit den u q Spal B0
insgesamt 2u q linear unabh
ten der Matrix
angige Spalten, denn
0

64

1 Vektor- und Matrixalgebra



X 0X

lassen sich zwar Vektoren
durch Linearkombination der Spalten von
B
erzeugen, deren unterste u q Komponenten gleich Null sind, die oberen u
0
Komponenten
0 bilden aber einen Vektor 6= 0 aus R(X X), so da die Spal B
nicht erzeugt werden k
ten von
onnen, folglich die Matrix D den vollen
0
Rang 2uq besitzt und damit
regul
ar, sind nach

D regul

ar ist. Ist andererseits
X
X 0X




linear unabh
angig, so
und somit von
(133.1) die Spalten von
B
B
da die Aussage sich ergibt.
Um die Inverse von D angeben zu k
onnen, wird die folgende Matrix eingef
uhrt. Aus den beiden Gleichungen in (155.2) N 11 M + N 12 = 0 und
N 21 M + N 22 = 0 folgt, da eine (u q) u Matrix E mit


N 1 N 12
0
11


E =
(155.10)

I
derart existiert, da

X 0 XE 0 = 0 und daher XE 0 = 0 ,

(155.11)

denn aus X 0 XE 0 = 0 folgt (XE 0 )0 XE 0 = 0 und damit XE 0 = 0 wegen


(131.11). Wie ein Vergleich mit (132.8) zeigt, besitzt E vollen Zeilenrang, also rgE = rgE 0 = u q. Die Spalten der Matrix E 0 bilden daher wegen (135.5)
und (155.11) eine Basis f
ur den Nullraum N (X) der Matrix X und wegen
(154.6) ebenfalls eine Basis f
ur den L
osungsraum des aus (154.8) resultierenden homogenen Gleichungssystems. Die Basis l
at sich entweder aus (155.10)

berechnen oder h
aufig unmittelbar angeben, da in ihr die Anderungen
enthalten sind, die die Parameter in (154.8) vornehmen k
onnen, ohne da sich die
Absolutglieder des Gleichungssystems
andern. Beispiele hierzu befinden sich
im Kapitel 333 und 343.
F
ur die Matrizen B und E erh
alt man den


X
= u genau dann, wenn die Matrix BE 0 vollen Rang
Satz: Es gilt rg
B
besitzt.
(155.12)


X
vollen Spaltenrang, dann existiert nach
Beweis: Besitzt die Matrix
B
(151.2) eine Linksinverse, die durch |S, U | gegeben sei, so da SX +U B = I u
gilt und weiter SXE 0 + U BE 0 = E 0 oder U BE 0 = E 0 wegen (155.11). Mit
(132.3) erh
alt man rg(BE 0 ) rg(U BE 0 ) = rgE 0 = u q. Da aber BE 0
eine (u q) (u q) Matrix ist, folgt rg(BE 0 ) =
u q. Besitzt anderer X
< u gilt, dann l
seits BE 0 vollen Rang und nimmt man an, da rg
at
B

65

15 Generalisierte Inversen

sich durch eine Linearkombination h0 B + k0 X der Zeilen von B und X der


Nullvektor erzeugen, also h0 B + k0 X = 0, wobei h 6= 0 ist, da jetzt die
Zeilen von B als linear abh
angig angenommen werden m
ussen. Hiermit folgt
h0 BE 0 = k0 XE 0 = 0 und h = 0, da die Inverse
von
BE 0 existiert. Dies

X
= u und damit die Aussage
f
uhrt aber auf einen Widerspruch, so da rg
B
folgt.
Unter der Voraussetzung von (155.12) soll jetzt die Inverse von (155.7) berechnet werden. Setzt man




X 0 X B 0 1 Qb P 0

=
,
(155.13)
B
P
0
R
da nach (131.17) die Inverse einer symmetrischen Matrix symmetrisch ist,
folgt durch Multiplikation von (155.7) mit der rechten Seite von (155.13)
X 0 XQb + B 0 P = I , X 0 XP 0 + B 0 R = 0 ,
BQb = 0 , BP 0 = I . (155.14)
Mit EX 0 = 0 und rg(EB 0 ) = u q folgt aus der ersten Gleichung P =
(EB 0 )1 E, die die vierte Gleichung erf
ullt. Mit P ergibt sich aus der zweiten
Gleichung von (155.14) wegen (155.11) B 0 R = 0 und weiter EB 0 R = 0 und
somit R = 0, da EB 0 vollen Rang besitzt. Man erh
alt daher anstelle von
(155.13)




X 0 X B 0 1
Qb
E 0 (BE 0 )1
=

(155.15)
(EB 0 )1 E
B
.
0
0

Weiter ergibt sich aus der ersten Gleichung von (155.14)


X 0 XQb = I B 0 (EB 0 )1 E

(155.16)

0 1
oder (X 0 X + B 0 B)(Qb + E 0 (BE 0 )1
(EB
) E) = I wegen BQb = 0 und


X
XE 0 = 0. Hieraus folgt, da |X 0 , B 0 |
vollen Rang besitzt,
B

Qb = (X 0 X + B 0 B)1 E 0 (EB 0 BE 0 )1 E .

(155.17)

(155.17) erf
ullt BQb = 0, denn man erh
alt BQb (X 0 X + B 0 B) = B
0
0 1
0 1
0
BE (BE ) (EB ) EB B = 0.
Rechtsseitige Multiplikation von (155.16) mit X 0 X ergibt X 0 XQb X 0 X =
X 0 X und aus linksseitiger Multiplikation mit Qb folgt Qb X 0 XQb = Qb ,

66

1 Vektor- und Matrixalgebra

da Qb B 0 = 0 gilt. Damit ist (153.11) erf


ullt, und Qb ist eine symmetrische
reflexive generalisierte Inverse von X 0 X,
Qb = (X 0 X)
rs .

(155.18)

Die Inverse Qb ist abh


angig von der Wahl von B und daher nicht eindeutig.
Erf
ullt die (u q) u Matrix C (155.12), dann ist die zugeh
orige Matrix Qc
ebenfalls eine symmetrische reflexive generalisierte Inverse von X 0 X. Zwischen Qb und Qc bestehen wegen (153.11) die Beziehungen
Qb = Qb X 0 XQc X 0 XQb

und Qc = Qc X 0 XQb X 0 XQc

(155.19)

mit Qb X 0 X und Qc X 0 X aus (155.16), wobei f


ur letzteren Ausdruck in
(155.16) B durch C zu ersetzen ist.
Eine symmetrische reflexive generalisierte Inverse Qb l
at sich aus (155.15),
(155.17) oder (155.19) berechnen. Um (155.15) anzuwenden, mu mit Hilfe
einer Pivotisierung gearbeitet werden, oder Zeilen und Spalten sind zu vertauschen, wie bereits im Zusammenhang mit (133.11) erl
autert wurde. Bei
groen, schwach besetzten Matrizen ermittelt man zweckm
aig zun
achst eine
symmetrische reflexive generalisierte Inverse nach (155.4), da bei ihrer Berechnung die schwache Besetzung auszunutzen ist, und transformiert dann (155.4)
mit (155.19) in die gew
unschte symmetrische reflexive generalisierte Inverse.
Ben
otigt man nur Teile dieser Inversen, braucht auch nicht die gesamte Inverse N 1
11 in (155.4) berechnet zu werden (Koch 1983c).
Anstelle von B soll jetzt die Matrix E eingef
uhrt werden. Dies bedeutet, da
anstelle von (155.8) die Restriktionen
E = 0

(155.20)


X
= u wegen (124.2) und (155.11)
gew
ahlt werden, was zul
assig ist, da rg
E
gilt. Mit Qe anstelle von Qb erh
alt man aus (155.15)




X 0 X E 0 1
Qe
E 0 (EE 0 )1

=
(155.21)
E
(EE 0 )1 E

0
0

und anstelle von (155.16)

X 0 XQe = I E 0 (EE 0 )1 E

(155.22)

sowie aus (155.17)


Qe = (X 0 X + E 0 E)1 E 0 (EE 0 EE 0 )1 E .

(155.23)

67

15 Generalisierte Inversen

Wie f
ur Qb gilt X 0 XQe X 0 X = X 0 X und Qe X 0 XQe = Qe . Weiter sind
0
X XQe und Qe X 0 X symmetrisch, so da nach (153.15) Qe die Pseudoinverse von X 0 X ist,
Qe = (X 0 X)+ .

(155.24)

Entsprechend (155.19) gilt


Qe = Qe X 0 XQb X 0 XQe

(155.25)

mit Qe X X aus (155.22).


Die Pseudoinverse Qe l
at sich aus (155.21), (155.23) oder (155.25) berechnen,
wobei das gleiche gilt, was zur Ermittlung der Inversen Qb gesagt wurde.
0
Zur Berechnung von X 0 X aus Qe erh
alt man mit (153.19) Q+
e = X X. Da
0
0
nach (153.17) rgX X = rgQe und nach (155.14) Qe E = 0 gilt, bilden die
Spalten der Matrix E 0 auch eine Basis f
ur den Nullraum N (Qe ), so da zur
0
Berechnung von Q+
e in (155.21) lediglich X X und Qe zu vertauschen sind.
Es folgt dann zum Beispiel aus (155.23)

X 0 X = (Qe + E 0 E)1 E 0 (EE 0 EE 0 )1 E .

(155.26)

Eine im Vergleich zu (155.15) erg


anzte Formel ergibt sich mit der
definiten (u q) (u q) Matrix



X 0 X B 0 1 Qb + E 0 (BE 0 )1 (EB 0 )1 E
E 0 (BE 0 )1
=

0 1


B
(EB ) E
0

positiv


.

Ihre Richtigkeit folgt aus der Definition (131.12) einer inversen Matrix mit
(155.11), (155.16) und BQb = 0 in (155.14). Mit (155.16) ergibt sich weiter
(X 0 X + B 0 1 B)(Qb + E 0 (BE 0 )1 (EB 0 )1 E) = I und hieraus
Qb = (X 0 X + B 0 1 B)1 E 0 (BE 0 )1 (EB 0 )1 E .

(155.27)

Wie aus Kapitel 32 zusammen mit (134.8) ersichtlich, lassen sich also die
Restriktionen B = 0 als Beobachtungen mit der Kovarianzmatrix interpretieren, die beliebig zu w
ahlen ist. Die symmetrische reflexive generalisierte
Inverse Qb folgt dann mit (155.27). Ersetzt man B durch E, ergibt sich die
Pseudoinverse Qe .

156

Eigenschaften der Pseudoinversen und einer speziellen symmetrischen reflexiven generalisierten Inversen

In der Menge der generalisierten Inversen zeichnet sich die Pseudoinverse dadurch aus, da sie nach (153.17) eindeutig ist. Weiter ist sie f
ur symmetrische

68

1 Vektor- und Matrixalgebra

Matrizen wegen (153.18) ebenfalls symmetrisch. Auerdem besitzt sie die beiden folgenden, im Zusammenhang mit Parametersch
atzungen wichtigen Eigenschaften.
Satz: In der Menge der symmetrischen reflexiven generalisierten Inversen
symmetrischer Matrizen besitzt die Pseudoinverse minimale Spur.
(156.1)
Beweis: Mit (155.22) und (155.25) erh
alt man unter Beachtung von (137.3)
0
0
0 1

sp(X 0 X)+ = sp(X 0 X)

sp[(X
X)
E]. Wegen (143.8) und
rs
rs E (EE )
0 1
(143.9) ist (EE ) positiv definit, so da nach (143.5) die CholeskyFaktori0
0 1
sierung gilt, beispielsweise (EE 0 )1 = GG0 . Dann ist sp[(X 0 X)
rs E (EE )
0
0
0
0
0

E] = sp[G E(X X)rs E G] > 0 nach (143.6), da die Matrix G E(X X)


rs
E 0 G wegen (153.14) und (143.7) positiv semidefinit ist. Folglich gilt sp(X 0 X)+
< sp(X 0 X)
rs .
Satz: Das lineare Gleichungssystem X 0 X = X 0 y wird genau dann mit Hilfe der Pseudoinversen durch = (X 0 X)+ X 0 y gel
ost, wenn 0 unter allen
L
osungen im L
osungsraum des Gleichungssystems minimal wird.
(156.2)
Beweis: Mit der Pseudoinversen und mit der Matrix E 0 aus (155.10), deren
Spalten eine Basis des Nullraums der Matrix X enth
alt, ergibt sich als allge im L
meine L
osung
osungsraum von X 0 X = X 0 y mit (154.6) und (154.9)
= (X 0 X)+ X 0 y + E 0 z, worin z ein beliebiger (u q) 1 Vektor ist. Der

0
minimal wird. Dies entspricht, wie im
Vektor z wird derart bestimmt, da
Kapitel 323 gezeigt wird, der Anwendung der Methode der kleinsten Quadrate, so da man mit (323.3) erh
alt z = (EE 0 )1 E(X 0 X)+ X 0 y = 0 wegen
0
+
E(X X) = 0. Damit ergibt sich das Minimum f
ur = (X 0 X)+ X 0 y. Ist
0
0
+
andererseits = (X X) X y die L
osung des Gleichungssystems, dann ist
0
= 0 + z 0 EE 0 z.
0 minimal, denn aus der allgemeinen L
osung folgt
Der zweite Summand auf der rechten Seite ist f
ur alle z 6= 0 gr
oer als Null,
0
gilt.
da EE 0 wegen (143.8) positiv definit ist, so da 0 <
Wie schon durch (155.20) angedeutet wurde und wie mit (333.10) gezeigt
wird, erh
alt man die L
osung des linearen Gleichungssystems X 0 X = X 0 y
mit der Pseudoinversen auch durch Einf
uhrung der Restriktionen E = 0.
Entsprechende Eigenschaften wie f
ur die Pseudoinverse, beschr
ankt allerdings
im Vergleich zu (156.1) auf eine Teilspur und im Vergleich zu (156.2) auf eine
Teilnorm, lassen sich auch f
ur eine symmetrische reflexive generalisierte Inverse zeigen, wenn sie mit Hilfe einer Matrix B in (155.13) berechnet wird,
die aus der Matrix E in (155.10) dadurch entsteht, da nur die der Teilspur
oder Teilnorm zugeh
origen Spalten u
bernommen und die restlichen Spalten
mit Nullen aufgef
ullt werden.
Satz: In der Menge der symmetrischen reflexiven generalisierten Inversen

16 Projektionen

69

symmetrischer Matrizen besitzt die symmetrische reflexive generalisierte Inverse [(X 0 X)


ur die (155.12) gelrs ]b , die mit der Matrix B berechnet wird, f
te und die mit B = ES bestimmt sei, wobei S eine Diagonalmatrix mit
S = diag(0, . . . , 0, 1, . . . , 1, 0, . . . , 0) ist, deren Elemente Eins an beliebigen
Stellen stehen k
onnen, minimale Teilspur und zwar
0

sp(S[(X 0 X)
rs ]b S) < sp(S(X X)rs S) .

(156.3)

Beweis: Mit (155.16) und (155.19) erh


alt man sp{S[(X 0 X)
rs ]b S} = sp{S(I
0
0 1
0
0
0 1

E (BE ) B)(X X)rs (I B (EB ) E)S}, und wegen B = ES, S =


0
0
0

S 0 , SS = S folgt sp{S[(X 0 X)
rs ]b S} = sp(S(X X)rs S)spS(X X)rs SSE
0 1
(ESE ) ES). Nach Voraussetzung besitzt B vollen Zeilenrang, so da
ESE 0 = BB 0 positiv definit ist. Der Rest des Beweises l
auft daher ab wie
im Beweis zu (156.1).
Satz: Das lineare Gleichungssystem X 0 X = X 0 y wird genau dann mit Hilfe einer symmetrischen reflexiven generalisierten Inversen [(X 0 X)
rs ]b durch
0
= [(X 0 X)
ost, wenn 0 S 0 S unter allen L
osungen im L
osungsrs ]b X y gel
raum des Gleichungssystems minimal wird, wobei [(X 0 X)
rs ]b und S wie in
(156.3) definiert sind.
(156.4)
Beweis: Mit [(X 0 X)
rs ]b ergibt sich wie im Beweis von (156.2) als allgemeine
im L
= [(X 0 X) ]b X 0 y + E 0 z
L
osung
osungsraum des Gleichungssystems
rs
0
0
0

oder S = S[(X X)rs ]b X y+SE z. Der Vektor z wird nun derart bestimmt,
0 S 0 S
minimal wird, so da man z = (ES 0 SE 0 )1 ES 0 S[(X 0 X) ]b
da
rs
0
X y = 0 wegen B = ES 0 S und B[(X 0 X)
alt. Damit ergibt sich
rs ]b = 0 erh
0
das Minimum f
ur = [(X 0 X)
rs ]b X y. Der zweite Teil des Beweises entspricht dem von (156.2).
Wie bereits mit (155.8) angedeutet und wie aus (333.9) ersichtlich, ergibt sich
die L
osung des linearen Gleichungssystems X 0 X = X 0 y mit einer symmetrischen reflexiven generalisierten Inversen auch durch die Restriktionen
B = 0.

16

Projektionen

161

Allgemeine Projektionen

Mit Hilfe der Projektionen lassen sich, wie im Kapitel 323 gezeigt wird, die
Methoden der Parametersch
atzung geometrisch interpretieren.
Definition: Der Vektorraum V lasse sich als direkte Summe V = V1 V2 der
Unterr
aume V1 und V2 ausdr
ucken, so da nach (121.10) x V sich eindeutig

70

1 Vektor- und Matrixalgebra

in x = x1 + x2 mit x1 V1 und x2 V2 zerlegen l


at. Die Transformation
Rx = x1 bezeichnet man dann als Projektion des Vektorraums V auf V1
entlang V2 und R als Projektionsoperator.
(161.1)
Der Projektionsoperator besitzt die folgenden Eigenschaften.
Satz: Eine Matrix R ist genau dann Projektionsoperator, falls R idempotent,
also R2 = R ist.
(161.2)
Beweis: Es sei x1 = Rx eine Projektion von x V auf x1 V1 . Eine weitere Projektion von x1 V1 auf V1 mu x1 ergeben, also Rx1 = RRx =
Rx = x1 f
ur alle x V , woraus R2 = R folgt. Gilt andererseits R2 = R,
definiert man V1 = R(R) und V2 = R(I R), so da jedes x V eindeutig
durch x = Rx + (I R)x = x1 + x2 dargestellt werden kann, V also in
die direkte Summe V = V1 V2 zerf
allt wegen Rx2 = (R R2 )x = 0. Mit
2
Rx = Rx1 + Rx2 = R x + 0 = Rx = x1 wird R also Projektionsoperator
von V auf R(R) entlang R(I R).
Satz: Ist R der Projektionsoperator f
ur die Projektion von V auf V1 entlang
V2 , ist I R der Projektionsoperator f
ur die Projektion von V auf V2 entlang
V1 .
(161.3)
Beweis: Nach (152.4) ist I R idempotent, falls R idempotent ist, so da I R
Projektionsoperator ist. Definiert man wie im Beweis zu (161.2) V1 = R(R)
und V2 = (I R), ergibt sich analog zu diesem Beweis die Aussage.

162

Orthogonale Projektionen

Von besonderem Interesse sind die Projektionen des Vektorraums E n auf


einen Unterraum U und sein orthogonales Komplement U . Nach (124.7) gilt
E n = U U und die eindeutige Zerlegung x = x1 + x2 mit x E n , x1 U
und x2 U .

Definition: Der Vektorraum E n werde durch einen Unterraum U und sein


orthogonales Komplement U gebildet. Dann bezeichnet man die Transformation Rx = x1 mit x E n und x1 U als orthogonale Projektion von E n
auf U entlang U und R als orthogonalen Projektionsoperator.
(162.1)

Satz: Die Matrix R ist genau dann orthogonaler Projektionsoperator, wenn


R idempotent und symmetrisch ist.
(162.2)
Beweis: Ist R orthogonaler Projektionsoperator, gilt Rx = x1 U mit
x E n und (I R)y = y 2 U mit y E n wegen (161.3). Da die
Vektoren in U und U zueinander orthogonal sind, gilt x0 R0 (I R)y = 0 f
ur
alle x, y E n , woraus R0 (I R)y = 0 f
ur alle y E n und R0 (I R) = 0

71

16 Projektionen

oder R0 = R0 R oder R = (R0 R)0 = R0 R = R0 folgt, so da R symmetrisch


und idempotent sein mu. Andererseits erh
alt man aus R0 = R und R2 = R
0
0 0
die Beziehung R (I R) = 0 und damit x R (I R)y = 0, so da R(R) = U
und R(I R) zueinander orthogonal sind, also R(I R) = U gilt, so da
die Aussage folgt.
F
ur die orthogonale Projektion auf den Spaltenraum R(A) einer mn Matrix
A, der nach (135.2) Unterraum des E m ist, gilt der
Satz: Ist A eine m n Matrix, dann ist der orthogonale Projektionsoperator
f
ur die orthogonale Projektion des E m auf den Spaltenraum R(A) beziehungsweise auf R(A) gegeben durch
R = A(A0 A) A0

beziehungsweise durch I R ,

so da gilt
RA = A beziehungsweise (I R)A = 0 .

(162.3)

Beweis: R ist mit A(A0 A) A0 A(A0 A) A0 = A(A0 A) A0 wegen (153.5)


idempotent und wegen (153.9) symmetrisch. Auerdem ist R(R) = R(A),
da aus A(A0 A) A0 A = RA = A wegen (153.5) R(A) R(R) und aus
R = A(A0 A) A0 die Beziehung R(R) R(A) folgt. Die u
brigen Aussagen
ergeben sich mit (161.3).
Orthogonale Projektionsoperatoren lassen sich nicht nur bez
uglich des mit
(123.1) eingef
uhrten Skalarproduktes x0 y definieren, sondern auch bez
uglich
des im Zusammenhang mit (141.8) verallgemeinerten Skalarproduktes x0 V y.
Es gilt der
Satz: Die Matrix R ist genau dann orthogonaler Projektionsoperator bez
uglich des durch x0 V y definierten Skalarproduktes, in dem V eine positiv definite Matrix bedeutet, falls R idempotent und V R symmetrisch ist. (162.4)
Beweis: Der Beweis verl
auft analog zu dem f
ur (162.2). Aus x0 R0 V (I R)y =
0
n
0 f
ur alle x, y E folgt R V (I R) = 0 sowie R0 V = R0 V R = (R0 V R)0 =
V R und somit R0 V = V R sowie R0 V R = V RR oder V R = V RR, so da
V R symmetrisch und R idempotent ist.
Satz: Ist A eine m n Matrix, so ist der orthogonale Projektionsoperator f
ur
die orthogonale Projektion des E m auf den Spaltenraum R(A) beziehungsweise R(A) bez
uglich des durch x0 V y definierten Skalarproduktes gegeben
durch
R = A(A0 V A) A0 V

beziehungsweise durch I R ,

72

1 Vektor- und Matrixalgebra

so da gilt
RA = A sowie (I R)A = 0 .

(162.5)

Beweis: R = R, RA = A und (I R)A = 0 folgen aus (153.6). Die


Symmetrie von V R ergibt sich aus (153.10), da V symmetrisch ist, und

R(R) = R(A) erh


alt man mit den gleichen Uberlegungen
wie im Beweis
zu (162.3).

17

Differentiation und Integration von Vektoren und Matrizen

171

Extrema von Funktionen

Im folgenden wird h
aufig das Problem auftreten, Extremwerte, also Maxima
oder Minima von Funktionen von Vektoren oder Matrizen zu bestimmen. Diese Aufgabe soll daher kurz behandelt werden.
Definition: Die Funktion f (x) des Vektors x E n besitzt im Punkt x0 E n
ein Maximum beziehungsweise Minimum, wenn f (x) f (x0 ) beziehungsweise f (x) f (x0 ) f
ur alle x E n gilt. Sind diese Beziehungen nur in der
Nachbarschaft von x0 erf
ullt, liegen lokale Extrema vor.
Obere und untere Schranken einer Menge A bezeichnet man als Supremum
und Infimum von A und schreibt sup A und inf A.
(171.1)
Es sollen nun die notwendigen Bedingungen f
ur das Auftreten von Extrema
angegeben werden. Hierzu m
ussen die Ableitungen von Funktionen eines Vektors oder einer Matrix definiert werden, was f
ur eine Matrix geschehen soll.
Definition: Es sei f (A) eine reelle, differenzierbare Funktion der m n Matrix A = (aij ). Dann ist f (A)/A die m n Matrix der partiellen Ableitungen von f (A) nach den Elementen von A, also f (A)/A = (f (A)/aij ).
(171.2)
Als einfache Beispiele von Funktionen von Matrizen seien f (A) = spA oder
f (A) = det A genannt. F
ur reelle differenzierbare Funktionen gilt folgendes
(Blatter 1974, II, S.168).
Satz: Es sei f (x) eine reelle differenzierbare Funktion von x E n und
x + x E n mit x = |x1 , x2 , . . . , xn |0 ein Nachbarpunkt. Dann
ergibt die TaylorEntwicklung bei Vernachl
assigung von Termen zweiter und
h
oherer Potenzen von xi


f (x) 0

x .
f (x + x) = f (x) +
(171.3)
x

17 Differentiation und Integration von Vektoren und Matrizen

73

Mit Hilfe der TaylorEntwicklung kann nun der Satz u


ber lokale Extrema
bewiesen werden.
Satz: Besitzt die Funktion f (x) im Punkt x0 ein lokales Extremum, so ist sie
dort stationar, das heit
f (x)/x|x=x0 = 0 .

(171.4)

Beweis: Damit x0 Punkt eines lokalen Maximums oder Minimums wird, mu


in der Nachbarschaft von x0 die Differenz f (x) f (x0 ) immer gleiches Vorzeichen aufweisen. Nach (171.3) ist dieses Vorzeichen, falls x klein genug
gew
ahlt wird, abh
angig vom Vorzeichen von |f (x)/x|0 x, das seinerseits
von dem von x abh
angt, das sowohl positiv als auch negativ sein kann. Eine
notwendige Bedingung f
ur das Auftreten eines Extremwertes ist daher
|f (x)/x|0 x = 0 ,

(171.5)

womit die Aussage folgt.


Die Pr
ufung, ob ein lokaler Extremwert ein Maximum, Minimum oder Sattelpunkt darstellt, kann mit Hilfe der zweiten Ableitungen erfolgen. Diese

Methode wird im folgenden nicht angewendet, da durch zus


atzliche Uberlegungen gepr
uft wird, ob nicht nur lokale, sondern absolute Maxima oder
Minima vorliegen.
Zus
atzlich wird das Problem der Extremwertbestimmung unter Restriktionen
zu l
osen sein. Es gilt der
Satz: Es sei f (x) eine reelle differenzierbare Funktion des Vektors x E n .
Weiter gelte m < n und
gi (x) = 0 f
ur i {1, . . . , m} ,
wobei die Funktionen gi (x) reell und differenzierbar seien und die mn Matrix
B = (gi /xj ) vollen Zeilenrang m besitze. Unter den Nebenbedingungen
gi (x) = 0 besitze f (x) ein lokales Extremum im Punkte x0 . Es existiert dann
der m 1 Vektor k = (ki ) der Lagrangeschen Multiplikatoren, so da die
Lagrangesche Funktion w(x) mit
w(x) = f (x) +

m
X

ki gi (x)

i=1

im Punkt x0 station
ar wird, also w(x)/x|x=x0 = 0.
(171.6)
Beweis: An der Stelle des lokalen Extremums gilt mit (171.5), falls dort x =
|dx1 , . . . , dxn |0 gesetzt wird,
f
f
f
dx1 +
dx2 + . . . +
dxn = 0 .
x1
x2
xn

(171.7)

74

1 Vektor- und Matrixalgebra

Wegen der Nebenbedingungen gi (x) = 0 sind die dxi nicht voneinander unabh
angig, sondern man erh
alt durch Differentiation
gi
gi
gi
dx1 +
dx2 + . . . +
dxn = 0 f
ur i {1, . . . , m} .
x1
x2
xn
Multipliziert man die f
ur i = 1 sich ergebende Gleichung mit dem zun
achst
unbestimmten Skalar k1 , die f
ur i = 2 mit k2 und so fort und addiert sie zu
(171.7), erh
alt man
n 
X
f
g1
g2
gm 
+ k1
+ k2
+ . . . + km
dxj = 0 .
xj
xj
xj
xj
j=1

(171.8)

Die m Gleichungen
g1
g2
gm
f
+ k1
+ k2
+ . . . + km
=0
xj
xj
xj
xj
f
ur j {1, . . . , m}

(171.9)

bilden f
ur k1 , k2 , . . . , km ein regul
ares Gleichungssystem, da die Koeffizientenmatrix (gi /xj ) nach Voraussetzung vollen Rang besitzt. Die k1 , k2 , . . . , km
lassen sich daher nach (133.15) eindeutig bestimmen und ergeben in (171.8)
eingesetzt
n
 f
X
g1
g2
gm 
dxj = 0 .
+ k1
+ k2
+ . . . + km
xj
xj
xj
xj
j=m+1

Da die xj f
ur j {m + 1, . . . , n} voneinander unabh
angig sind, erh
alt man
g1
g2
gm
f
+ k1
+ k2
+ . . . + km
=0
xj
xj
xj
xj
f
ur j {m + 1, . . . , n} .

(171.10)

(171.9) zusammen mit (171.10) bedeutet w(x)/x|x=x0 = 0, so da die


Aussage folgt.

172

Differentialquotienten spezieller Funktionen

Im folgenden sollen die Ableitungen h


aufig benutzter Funktionen von Vektoren und Matrizen angegeben werden.
Satz: Es sei c = x0 y = y 0 x. Dann ist c/x = y.
(172.1)
P
n
Beweis: F
ur x, y E n ist nach (123.1) c = i=1 xi yi und somit c/xi = yi

75

17 Differentiation und Integration von Vektoren und Matrizen


und nach (171.2) c/x = y.

Satz: Es sei x ein n 1 Vektor und A eine symmetrische n n Matrix. Dann


ist (x0 Ax)/x = 2Ax.
(172.2)
Beweis: Mit x = (xi ), A = (aij ), Ax = (ci ) und (131.6) erh
alt man, da
A = A0 gilt,
n
n
XX
(x0 Ax)
xj xk ajk
=
xi
xi j=1

k=1
n
X 2
(
x ajj
xi j=1 j

= 2xi aii + 2

n
X

n X
n
X

xj xk ajk )

j=1 k=1
j6=k

xk aik = 2

k=1
i6=k

n
X

xk aik = 2ci .

k=1

Satz: Ist die n n Matrix A regul


ar, gilt
det A/A = (A1 )0 det A .
Ist A auerdem symmetrisch, erh
alt man
det A/A = (2A1 diagA1 ) det A ,
wobei diagA1 die Diagonalmatrix bedeutet, die die Diagonalelemente von
A1 enth
alt.
(172.3)
P
i+j
Beweis: Mit A = (aij ) und (136.5) gilt det A =
aij det Aij f
ur
i (1)
0

festes j und mit (136.15) det A/aij = aij oder det A/A = A f
ur eine Matrix A mit funktional unabh
angigen Elementen. F
ur symmetrisches A
erh
alt man mit (136.5) f
ur festes i und j
det A = (1)1+j a1j det A1j + (1)2+j a2j det A2j + . . .
+(1)i+j aij det Aij + . . .
X
X
(1)k+i
(1)k+i aki det(A1j )ki + (1)2+j a2j
= (1)1+j a1j
k
k6=1

aki det(A2j )ki + . . . + (1)i+j aij

X
k
k6=i

k
k6=2

(1)k+i aki det(Aij )ki + . . .

76

1 Vektor- und Matrixalgebra

Bei der Differentiation nach dem Element aij f


ur i 6= j ist aij = aji zu
ber
ucksichtigen, also
det A/aij = (1)i+j det Aij + (1)1+j a1j [(1)j+i det(A1j )ji ]+
(1)2+j a2j [(1)j+i det(A2j )ji ] + . . .
+(1)i+j aij [(1)j+i det(Aij )ji ] + . . .
X
(1)k+j akj det(Aji )kj
= (1)i+j det Aij + (1)j+i
k
k6=j

= (1)i+j det Aij + (1)j+i det Aji = aij + aji .


Somit erh
alt man
det A/aij = aij + aji

f
ur i 6= j

det A/aij = aii

und

f
ur i = j .

Daraus folgt
diagA

det A/A = 2A
und mit (136.16) die Aussage.
Satz: Es seien A eine m n und B eine n m Matrix. Dann gilt
sp(AB)/A = B 0 .
Falls A und B quadratisch sind und A auerdem symmetrisch ist, erh
alt man
sp(AB)/A = B + B 0 diagB .

(172.4)

Beweis: Mit (131.6) und (137.1) folgt


sp(AB) =

m X
n
X

aij bji

und

sp(AB)/aij = bji .

i=1 j=1

Sind A und B quadratisch und ist A symmetrisch, gilt


sp(AB)/aij = bji + bij

f
ur i 6= j

sp(AB)/aij = bii

f
ur i = j ,

so da die Aussage folgt.

und

17 Differentiation und Integration von Vektoren und Matrizen

77

Satz: Es seien A eine m n Matrix und B sowie C zwei n m Matrizen.


Dann gilt
sp(ABAC)/A = (BAC + CAB)0 .

(172.5)

Beweis: Es sei D = AB, E = AC, F = DE = ABAC, A = (aij ), B = (bij )


und so fort. Dann gilt
fij =

m
X

dik ekj

mit

dik =

k=1

n
X

ail blk

und ekj =

n
X

akr crj ,

r=1

l=1

so da
fij =

m X
n X
n
X

ail blk akr crj

i, j {1, . . . , m}

f
ur

k=1 l=1 r=1

und

spF =

m X
m X
n X
n
X

ail blk akr cri .

i=1 k=1 l=1 r=1

Damit folgt

spF /aop = spF /ail + spF /akr


n
m X
n
m X
X
X
ail blk cri
blk akr cri +
=
=

k=1 r=1
m
X

blk gki +

k=1

i=1 l=1

m
X

cri hik = uli + vrk = upo + vpo ,

i=1

falls G = AC, H = AB, U = BAC und V = CAB. Hieraus folgt dann die
Aussage.
Satz: Sind A, B und C quadratische Matrizen, gilt
sp(ABA0 C)/A = (BA0 C)0 + CAB .
0

Beweis: Mit F = ABA C erh


alt man
XXXX
ail blk ark cri .
spF =
i

Dann folgt

spF /aop = spF /ail + spF /akr


XX
XX
=
blk ark cri +
ail blr cki
k

und damit die Aussage.

(172.6)

78

173

1 Vektor- und Matrixalgebra

Integration und Variablentransformation

Bei der Berechnung von Wahrscheinlichkeiten aus Wahrscheinlichkeitsverteilungen mu u


ber Funktionen von Vektoren oder Matrizen integriert werden. Der Integrand f (x) sei eine reelle Funktion des Vektors x mit x =
|x1 , x2 , . . . , xn |0 , dann ist das Integral I u
ber den Bereich B definiert als
Z
Z
I = . . . f (x)dx1 . . . dxn .
(173.1)
B

F
ur die Herleitung von Wahrscheinlichkeitsverteilungen werden h
aufig Variablentransformationen erforderlich, so da (173.1) in ein Integral neuer Variablen transformiert werde. Hierzu sei die injektive, also eineindeutige Abbildung mittels xi = gi (y) mit i {1, . . . , n} und y = |y1 , . . . , yn |0 gegeben.
Die Funktionen gi werden als einmal stetig differenzierbar vorausgesetzt. Es
existiert dann die Jacobische Matrix J,


g1 /y1 g1 /y2 . . . g1 /yn


g2 /y1 g2 /y2 . . . g2 /yn

,
J =
(173.2)

..................................
gn /y1 gn /y2 . . . gn /yn
deren Determinante, die Funktionaldeterminante oder Jacobische Determinante, von Null verschieden ist, also det J 6= 0. Die Umkehrabbildung yi =
hi (x) ist dann eindeutig. Wird durch xi = gi (y) der Bereich S auf den Bereich B abgebildet, so ist das Integral I in den neuen Variablen gegeben durch
(Blatter 1974, III, S.83)
Z
Z
. . . f (x1 , . . . , xn )dx1 . . . dxn
B

...
S

f (g1 (y), . . . , gn (y))| det J |dy1 . . . dyn ,

(173.3)

worin | det J | den Absolutbetrag von det J bedeutet.


Es sollen noch die Funktionaldeterminanten det J f
ur zwei Transformationen
angegeben werden.
Satz: F
ur die Transformation des n 1 Variablenvektors x in den n 1
Variablenvektor y mittels y = A1 (x c), wobei die n n Matrix A von
Konstanten regul
ar sei und der n 1 Vektor c Konstanten enthalte, gilt
det J = det A .

(173.4)

17 Differentiation und Integration von Vektoren und Matrizen

79

Beweis: Aus y = A1 (x c) folgt x c = Ay und mit (173.2) die Aussage,


da die Komponenten von x c sich aus dem Skalarprodukt der Zeilen von A
und y ergeben, so da (172.1) anwendbar ist.
Satz: F
ur die Transformation der symmetrischen n n Matrix Q von Varianblen in die symmetrische n n Matrix V von Variablen mittels V =
G1 Q(G0 )1 , wobei G eine regul
are untere Dreiecksmatrix bedeutet, gilt
det J = (det G)n+1 .

(173.5)

Beweis: Aus V = G1 Q(G0 )1 folgtP


Q =P
GV G0 und mit Q = (qij ), G =
n
(gij ) und V = (vij ) aus (131.6) qij = l=1 ( nk=1 gik vkl )gjl . Hieraus ergeben
sich die Differentialquotienten
qij
= gik gjl + gil gjk
vkl

f
ur k 6= l ,

da vkl = vlk ist und


qij
= gik gjk
vkk

f
ur k = l .

Die Zeilen der Jacobischen Matrix J in (173.2) enthalten die Elemente qij /
v11 , qij /v12 , . . . , qij /v1n , qij /v22 , . . . , qij /vnn . Da G eine untere
Dreiecksmatrix darstellt, ist auch J , wie sich aus den Differentialquotienten
ergibt, eine untere Dreiecksmatrix. Ihre Determinante berechnet sich nach
(136.10) aus dem Produkt der Diagonalelemente
det J =
=

q11 q12
q1n q22
qnn
...
...
v11 v12
v1n v22
vnn
2
g11
g11 g22

2
. . . g11 gnn g22

2
. . . gnn

n
Y

i=1

= (det G)

n+1

n+1
gii

80

1 Vektor- und Matrixalgebra

81

Wahrscheinlichkeitstheorie

Die Beobachtungen, mit deren Hilfe Parameter sowie Bereiche f


ur die Parameter gesch
atzt und Hypothesenpr
ufungen vorgenommen werden, ergeben sich
als Ergebnisse von Zufallsexperimenten und stellen somit zuf
allige Ereignisse
dar. Sind aber die Beobachtungen zuf
alliger Natur, so erhebt sich die Frage,
mit welcher Wahrscheinlichkeit sie eintreffen. Mit diesem Problem besch
aftigt
sich die Wahrscheinlichkeitstheorie, auf deren Grundbegriffe im folgenden eingegangen wird.
Den Zufallsereignissen werden zun
achst durch Axiome Wahrscheinlichkeiten
zugeordnet. Da es bequemer ist, mit Zufallsvariablen anstelle von Zufallsereignissen zu arbeiten, werden Zufallsvariable als Abbildungen von Ereignissen auf die reelle xAchse eingef
uhrt. Gen
ugt die Abbildung auf eine Achse, liegt eine eindimensionale Zufallsvariable mit einer univariaten Verteilung
vor, aus der die Wahrscheinlichkeit zuf
alliger Ereignisse zu ermitteln ist. Als
Abbildungen auf mehrere Achsen folgen die mehrdimensionalen Zufallsvariablen mit multivariaten Verteilungen. Behandelt werden die univariate und
multivariate Normalverteilung sowie die univariate Beta- und Gammaverteilung. Ferner werden die aus der Normalverteilung folgende 2 , F und t
Verteilung sowie die WishartVerteilung abgeleitet, die f
ur Hypothesentests
und Bereichssch
atzungen in univariaten und multivariaten Modellen der Parametersch
atzung ben
otigt werden.

21

Wahrscheinlichkeit

211

Einfu
hrung

Gegenstand der Wahrscheinlichkeitstheorie bilden die zuf


alligen Ereignisse.
Diese Zufallsereignisse sind das Ergebnis von Messungen oder Experimenten,
die zur Sammlung von Daten u
anomen ausgef
uhrt werber ein bestimmtes Ph
den, wobei die Resultate vom Zufall abh
angen. Das W
urfeln beispielsweise
ist ein solches Experiment, dessen Ergebnis die Zahl darstellt, die oben auf
dem W
urfel erscheint. Dieses Ergebnis ist vom Zufall abh
angig, denn falls der
W
urfel symmetrisch oder ausbalanciert ist, werden bei mehrfachem W
urfeln
die geworfenen Zahlen variieren.
Da die Ergebnisse von Messungen und Experimenten zuf
allig sind, m
ochte
man die Wahrscheinlichkeit angeben, mit der die Ereignisse eintreffen. Bei

82

2 Wahrscheinlichkeitstheorie

bestimmten Experimenten ist die Wahrscheinlichkeit vorweg angebbar. Zum


Beispiel wird beim Werfen einer symmetrischen M
unze nach vielen Wiederholungen die Zahl ebenso h
aufig oben liegen wie der Adler oder anders

ausgedr
uckt, in einem von zwei m
oglichen F
allen wird die Zahl oben liegen, so
da die Wahrscheinlichkeit des Eintreffens einer Zahl gleich 1/2 gesetzt werden kann. Dann betr
agt auch die Wahrscheinlichkeit des Eintreffens des Adlers
1/2. Beim Werfen eines symmetrischen W
urfels wird zum Beispiel die Drei in
einem von sechs m
oglichen F
allen oben liegen, so da die Wahrscheinlichkeit

des W
urfelns der Drei sich zu 1/6 ergibt. Aufgrund dieser Uberlegungen
folgt
die
Definition (Klassische Definition der Wahrscheinlichkeit): Falls bei einem
Experiment n sich gegenseitig ausschlieende und gleichm
ogliche Ergebnisse
erzielt werden k
onnen und falls die Anzahl nA dieser Ergebnisse mit dem Ereignis A verbunden ist, dann ist die Wahrscheinlichkeit P (A) des Ereignisses
A gegeben durch
P (A) = nA /n .

(211.1)

Beispiel: Die Wahrscheinlichkeit P ist gesucht, mit der die Zahlen Eins oder
Zwei bei einmaligem W
urfeln fallen. Man erh
alt P = 2/6 = 0, 333.
Aufgrund von (211.1) ergibt sich als Wahrscheinlichkeit P (A) eines Ereignisses A eine rationale Zahl zwischen Null und Eins, 0 P (A) 1. Diese
Wahrscheinlichkeit kann aber nur f
ur Experimente angegeben werden, deren Ereignisse vorhersagbar sind. Die klassische Wahrscheinlichkeitsdefinition
versagt beispielsweise beim W
urfeln mit unsymmetrischen W
urfeln. Die Definition mu daher erg
anzt werden, was mit Hilfe der relativen H
aufigkeit eines
Ereignisses geschehen kann.
Definition: Die relative Haufigkeit h(A) eines Ereignisses A ergibt sich mit
der Anzahl nA des Eintreffens des Ereignisses A unter n Versuchen zu
h(A) = nA /n .

(211.2)

1. Beispiel: Bei 300 W


urfen mit einem symmetrischen W
urfel wurde die
Zahl Eins 48 mal und die Zahl Zwei 51 mal geworfen, so da sich die relative
H
aufigkeit h des W
urfelns einer Eins oder Zwei zu h = (48 + 51)/300 = 0, 330
ergibt.
2. Beispiel: F
ur den Grauwert g eines Bildelementes, auch Pixel genannt,
eines digitalen Bildes gilt 0 g 255. Besitzen in einem digitalen Bild mit
512 512 Pixeln insgesamt 100 Pixel den Grauwert g = 0, betr
agt seine relative H
aufigkeit h(g = 0) = 100/5122. Die Verteilung der relativen H
aufigkeiten
der Grauwerte g = 0, g = 1, . . . , g = 255 bezeichnet man als Histogramm.

21 Wahrscheinlichkeit

83

Man nimmt nun an, und Versuche wie die des ersten Beispiels unterst
utzen
die Hypothese, da sich die relative H
aufigkeit nach (211.2) bei einer groen
Anzahl von Wiederholungen von Experimenten, deren Ereignisse vorhersagbar sind, der nach (211.1) definierten Wahrscheinlichkeit ann
ahert, so da die
Wahrscheinlichkeit eines Ereignisses mit Hilfe der relativen H
aufigkeit unter
Vorschrift eines Grenzprozesses, bei dem die Anzahl der Versuche gegen unendlich geht, definiert werden k
onnte. Man verzichtet aber auf eine solche
Definition und f
uhrt die Wahrscheinlichkeit durch Axiome ein, wie im Kapitel 213 gezeigt wird. Die Axiome stellen Aussagen u
ber unmittelbar einzusehende Wahrheiten dar, die, als richtig akzeptiert, nicht bewiesen zu werden
brauchen. Zum besseren Verst
andnis der Axiome soll noch darauf hingewiesen
werden, da sich die Wahrscheinlichkeit beziehungsweise die relative H
aufigkeit mehrerer sich gegenseitig ausschlieender Ereignisse aus der Summe der
Wahrscheinlichkeiten beziehungsweise der relativen H
aufigkeiten der einzelnen Ereignisse ergeben, wie das Beispiel zu (211.1) und das erste Beispiel
zu (211.2) zeigen. Bevor aber die Axiome der Wahrscheinlichkeit eingef
uhrt
werden, m
ussen die zuf
alligen Ereignisse definiert werden.

212

Zuf
allige Ereignisse

Das Ergebnis eines bestimmten Experimentes bezeichnet man als Elementarereignis und fat s
amtliche vorstellbaren Elementarereignisse in der Menge
S der Elementarereignisse zusammen, die auch als Ergebnisraum oder Grundraum bezeichnet wird.
Beispiel: Beim W
urfeln ergeben sich als Elementarereignisse die Zahlen 1 bis
6, so da die Menge S der Elementarereignisse sechs Elemente enth
alt.
Teilmengen von S bezeichnet man als zuf
allige Ereignisse und die Menge aller
Teilmengen von S als Menge Z der zuf
alligen Ereignisse. Da die leere Menge
Teilmenge jeder Menge ist, geh
ort sie zur Menge aller Teilmengen, so da
die Menge Z der zuf
alligen Ereignisse auch die leere Menge enth
alt, die als
unm
ogliches Ereignis bezeichnet wird. Schlielich ist auch die Menge S selbst,
die als sicheres Ereignis bezeichnet wird, Element der Menge Z der zuf
alligen
Ereignisse.
Beispiel: Die Menge Z der zuf
alligen Ereignisse beim W
urfeln enth
alt das
unm
ogliche Ereignis, da keine Zahl zwischen 1 und 6 gew
urfelt wird, die
Ereignisse der Zahlen 1 bis 6, die die Elemente der Menge S der Elementarereignisse darstellen, die Ereignisse der Zahlen 1 oder 2, 1 oder 3 und so fort, die
Ereignisse 1 oder 2 oder 3, 1 oder 2 oder 4 und so fort und schlielich das sichere Ereignis 1 oder 2 oder . . . oder 6, somit Z = {, {1}, {2}, . . . , {6}, {1, 2},
{1, 3}, . . . , {1, 2, . . . , 6}}.

84

2 Wahrscheinlichkeitstheorie

F
ur die Teilmengen von S, die die Elemente von Z bilden, lassen sich die im
Kapitel 112 definierten Mengenverkn
upfungen vornehmen. Da im folgenden
nicht nur die Mengen S von endlich vielen oder abz
ahlbar unendlich vielen
Elementarereignissen betrachtet werden, sondern auch die Mengen S von Elementarereignissen, die ein Kontinuum bilden, wird Z als spezielles System von
Teilmengen von S eingef
uhrt, das als Algebra bezeichnet wird (Hinderer
1972, S.75). Eine Algebra Z besitzt die Eigenschaft, da sie als Elemente
die Teilmengen von S und als Element die leere Menge sowie als Element die
Menge S der Elementarereignisse enth
alt. Geh
oren weiter endlich viele oder
abz
ahlbar unendlich viele Elemente zu Z, geh
oren auch die Vereinigung und
der Durchschnitt dieser Elemente zu Z. Gleiches gilt f
ur die Differenz zweier
Elemente. Z enth
alt dann im allgemeinen nicht mehr alle Teilmengen von S,
wie das bei endlich vielen Elementarereignissen der Fall ist. Die Elemente von
Z sind mebare Mengen, f
ur die die im folgenden Kapitel definierten Wahrscheinlichkeitsmae eingef
uhrt werden k
onnen.
Definition: Die Elemente einer Algebra Z von Teilmengen einer bestimmten Menge S von Elementarereignissen bezeichnet man als zufallige Ereignisse.
(212.1)
Definition: Es sei A Z und B Z, dann sagt man, da die Ereignisse A
und B sich gegenseitig ausschlieen, wenn sie kein Elementarereignis gemeinsam haben, wenn also A B = gilt.
(212.2)
Definition: Das Ereignis, das kein Element der Menge S der Elementarereignisse enth
alt, das Ereignis also, das durch die leere Menge gekennzeichnet
ist, bezeichnet man als unmogliches Ereignis.
(212.3)
Definition: Das Ereignis, das alle Elemente von S enth
alt, bezeichnet man
als sicheres Ereignis.
(212.4)
Denkt man sich die Menge S der Elementarereignisse durch die Vereinigung
der sich gegenseitig ausschlieenden Elementarereignisse gebildet, zum Beispiel beim W
urfeln S = {1, 2, . . . , 6} = {1} {2} . . . {6}, so l
at sich das
sichere Ereignis dadurch interpretieren, da zumindest ein Elementarereignis
eintrifft.
Ist A Z, so gilt A S und wegen S Z bildet auch die Menge S \ A nach

(212.1) ein Ereignis. In Ubereinstimmung


mit (112.4) ergibt sich dann die
Definition: Es sei A Z, dann bezeichnet die Differenzmenge S \ A das zu
A komplementare Ereignis A in S, A = S \ A.
(212.5)

21 Wahrscheinlichkeit

213

85

Axiome der Wahrscheinlichkeit

F
ur jedes zuf
allige Ereignis A der Algebra Z von Teilmengen der Menge
S der Elementarereignisse wird jetzt die Wahrscheinlichkeit P (A) eingef
uhrt,
wobei die folgenden Axiome gelten.
Axiom 1: Jedem Ereignis A von Z ist eine reelle Zahl P (A) 0 zugeordnet,
die die Wahrscheinlichkeit von A heit.
(213.1)
Axiom 2: Die Wahrscheinlichkeit des sicheren Ereignisses ist gleich Eins,
P (S) = 1.
(213.2)
Axiom 3: Ist A1 , A2 , . . . eine Folge von endlich vielen oder abz
ahlbar unendlich vielen Ereignissen von Z, die sich gegenseitig ausschlieen, Ai Aj =
f
ur i 6= j, dann gilt
P (A1 A2 . . .) = P (A1 ) + P (A2 ) + . . . .

(213.3)

Das Tripel (S, Z, P ) heit dann Wahrscheinlichkeitsraum.


Aus den Axiomen lassen sich eine Reihe von S
atzen ableiten, auf die im folgenden h
aufig zur
uckgegriffen wird.
Satz: Die Wahrscheinlichkeit, da das Ereignis A Z nicht eintrifft, oder
des zu A komplement
die Wahrscheinlichkeit P (A)
aren Ereignisses A betr
agt

P (A) = 1 P (A).
(213.4)

Beweis: Mit (212.5) ergibt sich A A = und A A = S, so da mit (213.2)


= 1 folgt, woraus die Aussage erhalten wird.
und (213.3) P (A) + P (A)
Satz: Die Wahrscheinlichkeit des unm
oglichen Ereignisses ist gleich Null.
(213.5)
Beweis: Nach (212.3) ist das unm
ogliche Ereignis durch A = definiert. Wei =
ter gilt S = , S S = S, S S = und somit wegen (213.3) P (S S)
P (S) + P () = 1, woraus mit (213.2) P () = 0 folgt.
Satz: Ist A ein beliebiges Ereignis von Z, gilt
0 P (A) 1 .

(213.6)

Beweis: Nach (213.1) ist P (A) 0, so da noch P (A) 1 gezeigt werden


1 wegen P (A)
0 folgt.
mu, was aus (213.4) mit P (A) = 1 P (A)
Das dritte Axiom (213.3) gibt nur die Wahrscheinlichkeit der Vereinigung
sich gegenseitig ausschlieender Ereignisse an. F
ur die Vereinigung beliebiger
Ereignisse gilt der

86

2 Wahrscheinlichkeitstheorie

Satz: Sind A und B zwei beliebige Ereignisse von Z, dann gilt


P (A B) = P (A) + P (B) P (A B) .

(213.7)

Beweis: Das Ereignis A B l


at sich durch die Vereinigung der drei sich ge A B und A B gewinnen, wie
genseitig ausschlieenden Ereignisse A B,
im VennDiagramm der Abbildung 213-1 dargestellt ist. Mit (213.3) folgt
+ P (A B) + P (A B). Entsprechend gilt
dann P (A B) = P (A B)

P (A) = P (A B) + P (A B) sowie P (B) = P (A B) + P (A B) und nach


+ P (A B). Diesen Ausdruck
Addition P (A) + P (B) 2P (A B) = P (A B)
in die erste Gleichung eingesetzt ergibt die Aussage.

A
A B

B
A B

A B

Abb. 213-1: Vereinigung beliebiger Ereignisse


Beispiel: Entnimmt man eine Karte einem Kartenspiel von 52 Spielkarten
und fragt nach der Wahrscheinlichkeit, da sie ein As oder Karo ist, dann
erh
alt man aus (213.7), da die Wahrscheinlichkeit P (A) f
ur das Ziehen eines
Asses nach (211.1) P (A) = 4/52, die Wahrscheinlichkeit P (B) f
ur das Ziehen
einer KaroKarte P (B) = 13/52 und f
ur das Ziehen eines KaroAsses P (A
B) = 1/52 betr
agt, die Wahrscheinlichkeit P (A B) = 4/52 + 13/52 1/52 =
4/13.

214

Bedingte Wahrscheinlichkeit und Bayessche Formel

Es gibt Situationen, in denen nach der Wahrscheinlichkeit eines Ereignisses


unter der Bedingung gefragt wird, da ein anderes Ereignis bereits eingetroffen ist. Als Beispiel seien Textuntersuchungen genannt, in denen die H
aufigkeit von Buchstaben- oder Lautkombinationen untersucht wird, so da die
Wahrscheinlichkeit eines Buchstabens unter der Bedingung gesucht wird, da
bestimmte Buchstaben vorangegangen sind. Man benutzt das Symbol A|B
und sagt A unter der Bedingung, da B eingetroffen ist, um das bedingte
Eintreffen von A auszudr
ucken.
Man stelle sich vor, da bei k Wiederholungen eines Versuches l Ereignisse B
erzielt werden, unter denen m Ereignisse A mit m l erhalten wurden, beispielsweise bei Textuntersuchungen l Buchstaben e, gefolgt von m Buchstaben
i. Die relative H
aufigkeit h(A B) des Ereignisses A B betr
agt nach (211.2)

87

21 Wahrscheinlichkeit

m/k, w
ahrend die relative H
aufigkeit h(B) des Ereignisses B sich zu l/k ergibt. Die relative H
aufigkeit h(A|B) des Ereignisses A unter der Bedingung,
da B eingetreten ist, betr
agt m/l, folglich
h(A|B) =

m
m l
h(A B)
= / =
.
l
k k
h(B)

Entsprechend wird die bedingte Wahrscheinlichkeit eingef


uhrt.
Definition: Die Wahrscheinlichkeit P (B) des zuf
alligen Ereignisses B sei ungleich Null, dann bezeichnet man als bedingte Wahrscheinlichkeit P (A|B) des
Ereignisses A unter der Bedingung, da B eingetroffen ist, das Verh
altnis
P (A|B) =

P (A B)
P (B)

mit P (B) > 0 .

(214.1)

Aus (214.1) folgt unmittelbar die Wahrscheinlichkeit des Durchschnitts A B


der Ereignisse A und B
P (A B) = P (B)P (A|B) = P (A)P (B|A) .

(214.2)

Beispiel: Ein Kasten enthalte 15 rote und 5 schwarze Kugeln. Gefragt wird
nach der Wahrscheinlichkeit, in zwei aufeinanderfolgenden Ziehungen ohne
Zur
ucklegen eine rote und eine schwarze Kugel zu erhalten. Die Wahrscheinlichkeit P (A), eine rote Kugel zu ziehen, ist nach (211.1) P (A) = 15/20 = 3/4.
Die Wahrscheinlichkeit P (B|A) eine schwarze Kugel unter der Bedingung zu
ziehen, da eine rote gezogen wurde, betr
agt P (B|A) = 5/19. Die Wahrscheinlichkeit, in zwei Ziehungen ohne Zur
ucklegen eine rote und eine schwarze Kugel
zu ziehen, betr
agt daher nach (214.2) P (A B) = (3/4)(5/19) = 15/76.
Die im folgenden abgeleitete Bayessche Formel ermittelt aus der gegebenen
PrioriWahrscheinlichkeit P (Ai ) eines Ereignisses Ai die PosterioriWahrscheinlichkeit P (Ai |B) von Ai , die sich durch das Eintreffen eines Ereignisses
B ergibt. Das der Bayesschen Formel entsprechende BayesTheorem, das f
ur
Verteilungen gilt, bildet den Ausgangspunkt f
ur die BayesStatistik, deren
praktische Anwendung sich immer weiter ausbreitet (z.B. Bossler 1972;
Broemeling 1985; Koch und Riesmeier 1985; Koch 1990; Koch und
Schmidt 1994; Koch 2000).
Satz: F
ur die zuf
alligen Ereignisse A1 , A2 , . . . , An im Wahrscheinlichkeitsraum (S, Z, P ) gelte Ai Aj = f
ur i 6= j, A1 A2 . . . An = S und
P (Ai ) > 0, dann ergibt sich f
ur jedes beliebige Ereignis B Z mit P (B) > 0
die Bayessche Formel
P (Ai )P (B|Ai )
P (Ai |B) = Pn
.
j=1 P (Aj )P (B|Aj )

(214.3)

88

2 Wahrscheinlichkeitstheorie

Beweis: Den zweiten Ausdruck von (214.2) in (214.1) substituiert ergibt


P (Ai |B) = P (Ai )P (B|Ai )/P (B). Da Ai Aj = f
ur i 6= j und A1 . . .An =
S gelten, folgt B = (B A1 ).
.
.(B
A
)
und
wegen
(B Ai )(B Aj ) =
n
Pn
f
ur i 6= j mit (213.3) P (B) = j=1 P (B Aj ), woraus mit (214.2) die Aussage
folgt.

215

Unabh
angige Ereignisse

Wenn die bedingte Wahrscheinlichkeit P (A|B) nicht vom Eintreffen des Ereignisses B abh
angt, gilt die
Definition: Die Ereignisse A und B sind voneinander unabhangig, falls gilt
P (A|B) = P (A)

oder P (B|A) = P (B) .

(215.1)

In diesem Fall hat also das Eintreffen des Ereignisses B keinerlei Einflu auf
die bedingte Wahrscheinlichkeit des Ereignisses A und umgekehrt. Beispielsweise f
uhrt das zweimalige W
urfeln auf zwei unabh
angige Ereignisse, da die
Wahrscheinlichkeit des Ergebnisses des zweiten Wurfes unter der Bedingung,
da der erste Wurf ein bestimmtes Ergebnis aufweist, nicht von diesem Ergebnis abh
angt.
Mit (215.1) vereinfacht sich (214.2) zu
P (A B) = P (A)P (B) .

22

Zufallsvariable

221

Definition

(215.2)

In den vorangegangenen Beispielen des Werfens einer M


unze waren es die Begriffe Zahl und Adler, die die Elementarereignisse bildeten. Im allgemeinen
ist es aber vorteilhafter, den Elementarereignissen reelle Zahlen zuzuordnen.
Hierzu wird eine Funktion eingef
uhrt, die die Menge S der Elementarereignisse auf die Menge R der reellen Zahlen abbildet.
Definition: Man bezeichnet eine eindeutige reellwertige Funktion X(si ), die
im Wahrscheinlichkeitsraum (S, Z, P ) auf der Menge S der Elementarereignisse si definiert ist, als Zufallsvariable, falls f
ur jedes beliebige x R das
Ereignis, f
ur das X(si ) < x gilt, zu den zuf
alligen Ereignissen von Z geh
ort.
(221.1)
Beispiel: Beim zweimaligen Werfen einer M
unze besteht die Menge S der Elementarereignisse aus den vier Elementen s1 = AA, s2 = AB, s3 = BA, s4 =
BB, falls A das Erscheinen des Adlers und B das der Zahl bedeutet. Zuf
allige

89

22 Zufallsvariable

Ereignisse sind beispielsweise das Werfen keines oder eines Adlers. Als Zufallsvariable X(si ) l
at sich also die Summe der Adler einf
uhren, so da man
erh
alt X(s1 ) = 2, X(s2 ) = 1, X(s3 ) = 1 und X(s4 ) = 0. F
ur x = 2 bezeichnet
dann X(si ) < 2 das zuf
allige Ereignis, bei dem kein Adler oder ein Adler
geworfen wird.
Die Zufallsvariable bildet also die Menge S der Elementarereignisse zusammen mit Z auf die Menge R der reellen Zahlen mit der Algebra ZR der
sogenannten Borelschen Mengen ab, die durch die Intervalle (, x) f
ur beliebiges x R gebildet werden (Fisz 1976, S.49). F
ur das Urbild X 1 eines
Intervalles wird gefordert
X 1 (, x) Z

f
ur jedes beliebige x R .

(221.2)

Die Zufallsvariable heit dann mebar (Hinderer 1972, S.98). Weiter ist das
Urbild der Vereinigung, des Durchschnitts oder der Differenz von Intervallen
gleich der Vereinigung, dem Durchschnitt oder der Differenz der Urbilder der
Intervalle und damit gleich der Vereinigung, dem Durchschnitt oder der Differenz der entsprechenden Elemente von Z, so da die Intervalle wie zuf
allige
Ereignisse zu behandeln sind.
Die Wahrscheinlichkeit f
ur das zuf
allige Ereignis, f
ur das X(si ) < x gilt, ist
wegen (221.2) definiert durch
P (X(si ) < x) = P (X 1 (, x)) .

(221.3)

Damit bildet die Zufallsvariable den Wahrscheinlichkeitsraum (S, Z, P ) auf


(R, ZR , P ) ab, f
ur den im folgenden die Wahrscheinlichkeit wieder mit P
bezeichnet wird, also
P (X < x) = P (X(si ) < x) .

(221.4)

Bei einem Experiment, dessen Ergebnisse durch relle Zahlen oder durch ein
Meinstrument mit digitaler Anzeige registriert werden, erfolgt die Abbildung
der Menge der Elementarereignisse auf die Menge der reellen Zahlen durch
die digitale Aufzeichnung. Eine Zufallsvariable, die auf diese Weise definiert
wird, bezeichnet man als Messung oder Beobachtung.
Mit (221.1) wird die eindimensionale Zufallsvariable definiert. Sind anstelle
einer Funktion mehrere Funktionen zur Abbildung erforderlich, ergeben sich
die mehrdimensionalen Zufallsvariablen, die im Kapitel 225 behandelt werden.

222

Verteilungsfunktion

Aufgrund von (221.3) und (221.4) wird jetzt die Verteilungsfunktion einer Zufallsvariablen eingef
uhrt.

90

2 Wahrscheinlichkeitstheorie

Definition: Es sei X(si ) eine Zufallsvariable und P (X < x) die Wahrscheinlichkeit des zuf
alligen Ereignisses X(si ) < x, dann bezeichnet man die durch
F (x) = P (X < x) = P (X 1 (, x)) f
ur alle x R
definierte Funktion F (x) als Verteilungsfunktion der Zufallsvariablen X.
(222.1)
Beispiel: Ein Experiment bestehe im Werfen dreier symmetrischer M
unzen,
wobei die Anzahl der oben liegenden Adler die Ereignisse bilden, deren Wahrscheinlichkeit zu berechnen ist. Die Zufallsvariable X bezeichne daher diese
Anzahl von Adlern. Die Gesamtanzahl der M
oglichkeiten, mit der drei M
unzen
fallen k
onnen, betr
agt 23 . Die Anzahl der M
oglichkeiten, da x Adler mit
x {0, 1, 2, 3} oben liegen, berechnet sich nach (136.2) zu x3 . Somit folgt
wegen (211.1)
 
3
P (X = x) =
/23 f
ur x {0, 1, 2, 3}
x
oder
P (0) = 1/8, P (1) = 3/8, P (2) = 3/8, P (3) = 1/8 .
Weiter ergibt sich aus (222.1) F (0) = P (X < 0) = 0 wegen (213.5), F (1) =
P (X < 1) = P (X = 0) = 1/8 und mit (213.3), da die Elementarereignisse
sich gegenseitig ausschlieen, F (2) = P (X < 2) = P (X = 0) + P (X = 1) =
4/8, F (3) = P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) = 7/8 und
schlielich F (4) = P (X < 4) = 1, so da die in Abbildung 222-1 dargestellte
Treppenfunktion f
ur die Verteilungsfunktion erhalten wird.
P(X<x)
1
6 /8
4 /8
2 /8
x
-1

Abb. 222-1: Verteilungsfunktion

91

22 Zufallsvariable

In dem Beispiel zeigen sich drei wichtige Eigenschaften der Verteilungsfunktion, die in dem folgenden Satz genannt sind.
Satz: Ist F (x) Verteilungsfunktion der Zufallsvariablen X, dann gilt mit
x1 < x 2
F (x1 ) F (x2 ) und

F () = 0, F () = 1 .

(222.2)

Beweis: Da wegen x1 < x2 das Intervall (, x2 ) das Intervall (, x1 )


enth
alt, die Ereignisse, f
ur die < X < x1 und x1 X < x2 gelten,
sich aber gegenseitig ausschlieen, gilt mit (213.1) und (213.3) P (X < x2 )
P (X < x1 ), so da mit (222.1) F (x2 ) F (x1 ) folgt. Weiter entspricht X <
dem unm
oglichen Ereignis und X < dem sicheren Ereignis, so da
mit (213.5) und (213.2) die beiden restlichen Aussagen folgen.

223

Diskrete und stetige Zufallsvariable

Eine diskrete Zufallsvariable X nimmt endlich viele oder abz


ahlbar unendlich viele Werte xj an. Die Wahrscheinlichkeit f (xj ) eines solchen Wertes
ergibt sich mit (221.3) als Differenz zweier Intervalle zu P (X(si ) = xj ) =
P (X 1 (xj )), und es folgt die
Definition: Man bezeichnet X als diskrete Zufallsvariable, falls sie lediglich
endlich viele oder abz
ahlbar unendlich viele Werte annimmt. Sind x1 , x2 , . . . ,
xn , . . . diese Werte und f (x1 ), f (x2 ), . . . , f (xn ), . . . ihre Wahrscheinlichkeiten,
nennt man f (xi ) die Dichte oder die Verteilung von X.
(223.1)
Anstelle der kurzen Bezeichnung Dichte oder Verteilung benutzt man auch
Dichtefunktion, Wahrscheinlichkeitsdichte oder Wahrscheinlichkeitsverteilung.
Damit die Funktion f (xi ) der Werte xi einer diskreten Zufallsvariablen X die
Wahrscheinlichkeit angibt, ist es notwendig, da f (xi ) die Axiome (213.1) bis
(213.3) erf
ullt. Da die Werte xi von X sich gegenseitig ausschlieende Ereignisse angeben, erh
alt man mit (213.3) aus (213.1) und (213.2) f
ur die Dichte
f (xi ) die Bedingungen
f (xi ) 0 und

n
X
i=1

f (xi ) = 1 oder

f (xi ) = 1 ,

(223.2)

i=1

falls X insgesamt n Werte xi oder falls X abz


ahlbar unendlich viele Werte xi
annimmt.
F
ur das Ereignis X < xi erh
alt man mit (223.1) wegen (213.3)
X
P (X < xi ) =
f (xj ) .
j<i

(223.3)

92

2 Wahrscheinlichkeitstheorie

Hieraus folgt nach (222.1) f


ur die Verteilungsfunktion einer diskreten Zufallsvariablen
X
f (xj ) .
(223.4)
P (X < xi ) = F (xi ) =
j<i

Die Verteilungsfunktion einer diskreten Zufallsvariablen bildet also eine Treppenfunktion, die in Abbildung 222-1 f
ur ein Beispiel dargestellt wurde.
Im Gegensatz zur Verteilungsfunktion einer diskreten Zufallsvariablen besitzt
die Verteilungsfunktion einer stetigen Zufallsvariablen keine Sprungstellen,
sondern ist stetig.
Definition: Man bezeichnet X als stetige Zufallsvariable, falls eine nichtnegative integrierbare Funktion f (x) existiert, die f
ur beliebiges x R die
Beziehung
Z x
F (x) =
f (t)dt

erf
ullt, wobei F (x) die Verteilungsfunktion von X und t eine Integrationsvariable bedeuten. Die Funktion f (x) nennt man Dichte oder univariate Verteilung
von X.
(223.5)
In Abbildung 223-1 sind die Verteilungsfunktion F (x) und die Dichte f (x)
einer stetigen Zufallsvariablen X dargestellt.

1
F(x)

f(x)
x

Abb. 223-1: Verteilungs- und Dichtefunktion


Die Wahrscheinlichkeit des Ereignisses X < x ergibt sich aus (223.5) zu
Z x
P (X < x) = F (x) =
f (t)dt .
(223.6)

Anstelle der Summation (223.4) u


ber die Dichte zur Berechnung der Wahrscheinlichkeit eines zuf
alligen Ereignisses f
ur eine diskrete Zufallsvariable tritt

93

22 Zufallsvariable

also bei einer stetigen Zufallsvariablen die Integration (223.6) u


ber die Dichte.
F
ur das Ereignis a X < b erh
alt man
Z b
P (a X < b) = F (b) F (a) =
f (t)dt .
(223.7)
a

Da P (a X < b) = P (a < X < b) gilt, wird im folgenden mit offenen


Intervallen gearbeitet. F
ur das Intervall x < X < x + dx erh
alt man
P (x < X < x + dx) = f (x)dx .

(223.8)

Ist f (x) im Punkte x stetig, ergibt sich aus der Ableitung des Integrals auf der
rechten Seite von (223.6) nach seiner oberen Grenze die Beziehung zwischen
Verteilungsfunktion und Dichte einer stetigen Zufallsvariablen zu
dF (x)/dx = f (x) .

(223.9)

Damit die integrierbare Funktion f (x) der Werte x einer stetigen Zufallsvariablen X die Dichte angibt, ist es notwendig, da die aus (223.5) sich ergebende
Verteilungsfunktion F (x) die Axiome (213.1) bis (213.3) erf
ullt. Mit f (x) 0
sind (213.1) und (213.3) erf
ullt, da sich gegenseitig ausschlieende Ereignisse
auf elementenfremde Intervalle abgebildet werden. Weiter ist mit F () = 1
aus (222.2) das 2. Axiom erf
ullt, so da f
ur f (x) die Bedingungen erhalten
werden
Z
f (x)dx = 1 .
(223.10)
f (x) 0 und

Beispiele f
ur univariate Verteilungen stetiger Zufallsvariablen werden im Kapitel 24 behandelt, w
ahrend diskrete Verteilungen im n
achsten Kapitel folgen.

224

Binomialverteilung und PoissonVerteilung

Von den diskreten Verteilungen ist die Binomialverteilung die wichtigste. Sie
gibt die Wahrscheinlichkeit an, da bei n voneinander unabh
angigen Wiederholungen eines Experimentes, wobei das einzelne Experiment nur in einem
Erfolg oder Mierfolg enden kann und der Erfolg die Wahrscheinlichkeit p
aufweist, x Erfolge eintreffen.
Definition: Die Zufallsvariable X besitzt die Binomialverteilung, falls ihre
Dichte gegeben ist durch
 
n x
f (x) =
p (1 p)nx
x
f
ur x {0, 1, . . . , n} und 0 < p < 1 .
(224.1)

94

2 Wahrscheinlichkeitstheorie

Zun
achst wird gepr
uft, ob (223.2) erf
ullt ist. Das ist der Fall, denn mit p > 0
und 1 p > 0 ist auch f (x) > 0, und mit der binomischen Reihe ergibt sich
1 = ((1 p) + p)n =

n  
X
n

k=0

pk (1 p)nk =

n
X

f (x) .

x=0

Die Binomialverteilung soll nun hergeleitet werden. Das Ereignis A bezeichne


den Erfolg, dann ergibt das zu A komplement
are Ereignis A den Mierfolg.
= 1 p folgt. Die WahrscheinWeiter sei P (A) = p, so da mit (213.4) P (A)
lichkeit, da bei n aufeinander folgenden Versuchen zun
achst k Erfolge und
dann n k Mierfolge eintreten, ergibt sich wegen der Unabh
angigkeit der
einzelnen Versuche mit (215.2) zu
= pk (1 p)nk .
P (A A . . . A A A . . . A)
Es brauchen nun die ersten kVersuche nicht auch k Erfolge zu bewirken, sondern nach (136.2) gibt es nk M
oglichkeiten, da k Erfolge bei n Versuchen
eintreffen. Mit (213.3) ergibt
sich
daher die Wahrscheinlichkeit von k Erfolgen

alt man die
unter n Versuchen zu nk pk (1 p)nk . Ersetzt man k durch x, erh
Dichte in (224.1).
Beispiel: Gesucht ist die Wahrscheinlichkeit, da in einer Fertigung von 4
Produkten x Produkte mit x {0, 1, 2, 3, 4} fehlerhaft sind, falls die Wahrscheinlichkeit, da ein bestimmtes Produkt defekt ist, p = 0, 3 betr
agt und
die Fertigungen der einzelnen Produkte voneinander unabh
angig sind. Aus
(224.1) erh
alt man
 
4
f (x) =
0, 3x 0, 74x
x

f
ur x {0, 1, 2, 3, 4}

und somit
f (0) = 0, 240, f (1) = 0, 412, f (2) = 0, 264, f (3) = 0, 076, f (4) = 0, 008 .
Aus (223.3) folgt dann beispielsweise f
ur die Wahrscheinlichkeit P (X < 2),
da weniger als 2 Produkte fehlerhaft sind, P (X < 2) = 0, 652. Die Dichte
f (x) und die Verteilungsfunktion F (x) f
ur dieses Beispiel sind in Abbildung
224-1 dargestellt.
Geht die Anzahl der Wiederholungen eines Experimentes gegen unendlich und
die Wahrscheinlichkeit des Eintreffens eines Erfolges gegen Null, ergibt sich
aus der Binomialverteilung die PoissonVerteilung.

95

22 Zufallsvariable
f(x)

F(x)
1,0

0,4

0,8

0,3

0,6
0,2
0,4
0,1

0,2
x

x
0

Abb. 224-1: Dichte und Verteilungsfunktion


Definition: Die Zufallsvariable X besitzt die PoissonVerteilung mit dem
reellen Parameter , falls ihre Dichte gegeben ist durch
f (x) =

e x
x!

f
ur x {0, 1, 2, . . .} und > 0 .

(224.2)

Da > 0 ist auch f (x) > 0 und mit der Reihenentwicklung der Exponentialfunktion e
e =

X
k
k=0

ergibt sich

(224.3)

k!

x=0

f (x) = 1, so da (223.2) erf


ullt ist.

Zur Herleitung der PoissonVerteilung aus der Binomialverteilung setzt man


p = /n, so da p 0 bei n geht. Hiermit ergibt sich aus (224.1)
n(n 1) . . . (n x + 1)  x 
n 
x
.
1
1
x!
n
n
n

Mit n folgen die Grenzwerte


 n  n 1   n x + 1 
lim
...
= 1 und
n n
n
n

lim

x
=1
n

sowie mit der Definition der Zahl e (Smirnow 1975, Teil I, S.93)
lim

n
= e ,
n

96

2 Wahrscheinlichkeitstheorie

so da die Dichte in (224.2) folgt.


Der Parameter ist der Erwartungswert einer Zufallsvariablen mit der
PoissonVerteilung, denn, wie in (231.1) definiert wird, berechnet sich der
Erwartungswert unter Beachtung von (224.3) zu

x=0

xf (x) =

X
X
x1
e x
= e
=.
x
x!
(x 1)!
x=1
x=0

(224.4)

Die Werte einer Zufallsvariablen mit einer PoissonVerteilung sind positive


ganze Zahlen. Zufallsph
anomene, bei denen gez
ahlt wird, zum Beispiel die
Anzahl der in einer Telefonzentrale pro Stunde eintreffenden Anrufe, ergeben
sich daher h
aufig als Poissonverteilt. Ein Beispiel hierzu befindet sich im
Kapitel 244.

225

Mehrdimensionale stetige Zufallsvariable

Wie bereits im Kapitel 221 erw


ahnt, mu zwischen ein- und mehrdimensionalen Zufallsvariablen unterschieden werden. Mehrdimensionale Zufallsvariable
sollen an den folgenden beiden Beispielen erl
autert werden.
1. Beispiel: Mit einem Bogen wird auf eine Zielscheibe geschossen, die zum
Registrieren der Treffer mit einem orthogonalen (x, y)Koordinatensystem
versehen wurde, dessen Ursprung mit dem Mittelpunkt der Scheibe zusammenf
allt. Jeder Treffer, der ein Elementarereignis darstellt, wird durch seine (x, y)Koordinaten festgelegt. Damit ordnet man jedem Elementarereignis
einen Punkt in der (x, y)Ebene zu, so da eine zweidimensionale Zufallsvariable erhalten wird.
2. Beispiel: Ein Elementarereignis bestehe darin, da die L
angen von n
Strecken mit einem Streckenmeger
at jeweils einmal gemessen werden. Dem
Elementarereignis wird dann ein Punkt mit n Koordinaten beziehungsweise
ein Vektor in dem mit (123.6) definierten ndimensionalen Euklidischen Raum
E n zugeordnet, so da eine ndimensionale Zufallsvariable erhalten wird.
Entsprechend (221.1) ergibt sich die
Definition: Man bezeichnet eine eindeutige Funktion X(si ) = (X1 (si ),
X2 (si ), . . . , Xn (si )) mit Werten im Rn , die im Wahrscheinlichkeitsraum
(S, Z, P ) auf der Menge S der Elementarereignisse si definiert ist, als n
dimensionale Zufallsvariable, falls f
ur jedes beliebige x = (x1 , x2 , . . . , xn ) R
das Ereignis, f
ur das X1 (si ) < x1 , X2 (si ) < x2 , . . . , Xn (si ) < xn gilt, zu den
zuf
alligen Ereignissen von Z geh
ort.
(225.1)

97

22 Zufallsvariable

Von den mehrdimensionalen Zufallsvariablen sollen im folgenden nur die stetigen Zufallsvariablen behandelt werden. (223.5) entsprechend ergibt sich die
Definition: Man bezeichnet X1 , . . . , Xn als stetige ndimensionale Zufallsvariable, falls eine nichtnegative integrierbare Funktion f (x1 , . . . , xn ) existiert,
die f
ur beliebige x1 , . . . , xn R die Beziehung
Z xn
Z x1
F (x1 , . . . , xn ) =
...
f (t1 , . . . , tn )dt1 . . . dtn

erf
ullt, wobei F (x1 , . . . , xn ) die Verteilungsfunktion und t1 , . . . , tn die Integrationsvariablen bedeuten. Die Funktion f (x1 , . . . , xn ) nennt man Dichte oder
multivariate Verteilung von X1 , . . . , Xn .
(225.2)
Die Wahrscheinlichkeit des Ereignisses X1 < x1 , . . . , Xn < xn ergibt sich mit
(225.2) zu
P (X1 < x1 , . . . , Xn < xn ) = F (x1 , . . . , xn )

(225.3)

und des Ereignisses x1u X1 < x1o , . . . , xnu Xn < xno


P (x1u X1 < x1o , . . . , xnu Xn < xno )
Z x1o
Z xno
f (x1 , . . . , xn )dx1 . . . dxn ,
...
=
xnu

(225.4)

x1u

wobei wie bei den eindimensionalen Zufallsvariablen P (x1u X1 < x1o , . . . ,


xnu Xn < xno ) = P (x1u < X1 < x1o , . . . , xnu < Xn < xno ) gilt. Durch
Differentiation des Integrals in (225.2) nach seiner oberen Grenze folgt, sofern
f (x1 , . . . , xn ) an der Stelle x1 , . . . , xn stetig ist,
n F (x1 , . . . , xn )/x1 . . . xn = f (x1 , . . . , xn ) .

(225.5)

Damit die Funktion f (x1 , . . . , xn ) die Dichte einer ndimensionalen Zufallsvariablen X1 , . . . , Xn angibt, ist es notwendig, da (223.10) entsprechend gilt
Z
Z
f (x1 , . . . , xn ) 0 und
...
f (x1 , . . . , xn )dx1 . . . dxn = 1 .

Mehrdimensionale Zufallsvariable definiert man (121.1) entsprechend (225.6)


als Zufallsvektoren, beispielsweise die ndimensionale Zufallsvariable X1 , . . . , Xn als
n 1 Zufallsvektor x = |X1 , . . . , Xn |0 . Der Zufallsvektor x wird bewut mit
einem kleinen Buchstaben bezeichnet, um ihn von einer Matrix zu unterscheiden. Der Zufallsvektor x enth
alt also als Komponenten die Zufallsvariablen
Xi , nicht dagegen die Werte xi , die die Zufallsvariablen Xi annehmen k
onnen.

98

2 Wahrscheinlichkeitstheorie

Diese Unterscheidung wird allerdings zur Vereinfachung der Bezeichnung beginnend mit dem Kapitel 251 fortfallen. Zufallsvariable und die Werte, die sie
annehmen k
onnen, werden dann einheitlich mit kleinen Buchstaben bezeichnet, sofern aus dem Zusammenhang zu entnehmen ist, welche Gr
oe gemeint
ist.

226

Randverteilung

Es sei f (x1 , x2 ) die Dichte einer zweidimensionalen Zufallsvariablen X1 , X2 .


Ist man lediglich an der Zufallsvariablen X1 interessiert und fragt nach der
Wahrscheinlichkeit des Ereignisses X1 < a, ergibt sich mit (225.2) und (225.3)
Z a
Z Z a
g(x1 )dx1 .
f (x1 , x2 )dx1 dx2 =
P (X1 < a) = F (a, ) =

(226.1)

Die Dichte g(x1 ) mit


Z
g(x1 ) =
f (x1 , x2 )dx2

(226.2)

bezeichnet man als Randverteilung von X1 . Sie ist, da u


ber x2 in den Grenzen von bis integriert wird, nur von x1 abh
angig. F
ur n Dimensionen
ergibt sich die
Definition: Es sei f (x1 , . . . , xn ) die Verteilung des n 1 Zufallsvektors x =
|X1 , . . . , Xn |0 . Dann ist die Randverteilungsfunktion G(, . . . , , xi+1 , . . . ,
xn ) der Zufallsvariablen Xi+1 , . . . , Xn gegeben durch
G(, . . . , , xi+1 , . . . , xn )
Z
Z xi+1 Z
Z xn
...
...
=

f (t1 , . . . , tn )dt1 . . . dtn .

(226.3)

Hieraus folgt die Randverteilung g(xi+1 , . . . , xn ) der Zufallsvariablen Xi+1 ,


. . . , Xn mit
g(xi+1 , . . . , xn )
Z
Z
=
...

f (t1 , . . . , ti , ti+1 , . . . , tn )dt1 . . . dti .

(226.4)

Die Reihenfolge und die Anzahl der Zufallsvariablen in (226.3) und (226.4) ist
beliebig. Mit Hilfe der Randverteilung l
at sich also die Dichte mehrdimensionaler Zufallsvariablen auf die Dichte von Zufallsvariablen niedriger Dimension
zur
uckf
uhren, was bei der Herleitung von Verteilungen benutzt wird. Beispiele
f
ur Randverteilungen befinden sich in (253.1) und in den Beweisen zu (245.1),
(263.1), (264.1) und (265.1).

99

22 Zufallsvariable

227

Bedingte Verteilung

Mit (214.1) war die bedingte Wahrscheinlichkeit eines Ereignisses definiert


worden. Entsprechend l
at sich auch die bedingte Verteilung von Zufallsvariablen einf
uhren, was zun
achst f
ur die zweidimensionale Zufallsvariable X1 , X2
mit der Dichte f (x1 , x2 ) gezeigt werden soll. Es wird das Ereignis X1 < x1 unter der Bedingung betrachtet, da das Ereignis x2 X2 < x2 +x2 eingetroffen ist. Mit (214.1), (225.2) und (225.3) ergibt sich seine Wahrscheinlichkeit
zu
P (X1 < x1 , x2 X2 < x2 + x2 )
P (X1 < x1 |x2 X2 < x2 + x2 ) =
P (x2 X2 < x2 + x2 )
x2 +x
R 2 Rx1
f (x1 , x2 )dx1 dx2
x2

f
ur P (x2 X2 < x2 + x2 ) > 0 .
= x +x
2 R
2 R
f (x1 , x2 )dx1 dx2
(227.1)
x2

Die bedingte Wahrscheinlichkeit P (X1 < x1 |X2 = x2 ) ist gesucht. Sie mu


durch einen Grenzproze definiert werden, da mit (223.7) f
ur stetige Zufallsvariable P (X = x) = 0 gilt. Dividiert man Z
ahler und Nenner der
rechten RSeite von (227.1) durch x2 , erh
alt man mit der Randverteilung

g(x2 ) = f (x1 , x2 )dx1 f


ur die bedingte Verteilungsfunktion
F (x1 |x2 ) = lim P (X1 < x1 |x2 X2 < x2 + x2 )
x2 0
Rx1

f (x1 , x2 )dx1

g(x2 )

(227.2)

so da die bedingte Verteilung f (x1 |x2 ) folgt mit


f (x1 |x2 ) =

f (x1 , x2 )
.
g(x2 )

(227.3)

Definition: Es sei f (x1 , . . . , xn ) die Dichte des n 1 Zufallsvektors x =


|X1 , . . . , Xn |0 . Dann ist die bedingte Verteilungsfunktion F (x1 , . . . , xi |xi+1 ,
. . . , xn ) der Zufallsvariablen X1 , . . . , Xi unter der Bedingung, da Xi+1 =
xi+1 , . . . , Xn = xn gilt, gegeben durch

F (x1 , . . . , xi |xi+1 , . . . , xn ) =

Rxi

...

x
R1

f (x1 , . . . , xn )dx1 . . . dxi

g(xi+1 , . . . , xn )

worin g(xi+1 , . . . , xn ) die Randverteilung der Zufallsvariablen Xi+1 , . . . , Xn


bedeutet.
(227.4)

100

2 Wahrscheinlichkeitstheorie

Aus (227.4) ergibt sich die bedingte Verteilung zu


f (x1 , . . . , xi |xi+1 , . . . , xn ) =

f (x1 , . . . , xn )
.
g(xi+1 , . . . , xn )

(227.5)

Ein Beispiel f
ur die bedingte Verteilung befindet sich in (253.2).

228

Unabh
angige Zufallsvariable

Der bedingten Wahrscheinlichkeit entsprechend wurde im vorangegangenen


Kapitel die bedingte Verteilung definiert. Mit Hilfe der bedingten Wahrscheinlichkeit ergab sich in (215.1) die Unabh
angigkeit von Ereignissen, so da unabh
angige Zufallsvariable entsprechend einzuf
uhren sind.
Definition: Es sei x = |X1 , . . . , Xn |0 ein n 1 Zufallsvektor mit der Dichte
f (x1 , . . . , xn ). Ist die bedingte Verteilungsfunktion F (x1 , . . . , xi |xi+1 , . . . , xn )
lediglich eine Funktion H(x1 , . . . , xi ) der Zufallsvariablen X1 , . . . , Xi
F (x1 , . . . , xi |xi+1 , . . . , xn ) = H(x1 , . . . , xi ) ,
dann heien die beiden Mengen X1 , . . . , Xi und Xi+1 , . . . , Xn von Zufallsvariablen voneinander unabhangig.
(228.1)
Auf den folgenden Satz wird sp
ater bei der Herleitung von Verteilungen h
aufig
zur
uckgegriffen werden.
Satz: Zwei Mengen X1 , . . . , Xi und Xi+1 , . . . , Xn von Zufallsvariablen sind
genau dann voneinander unabh
angig, wenn ihre gemeinsame Verteilung aus
dem Produkt ihrer Randverteilungen sich bestimmt.
(228.2)
Beweis: Die beiden Mengen von Zufallsvariablen seien voneinander unabh
angig, so da (228.1) gilt und nach Substitution in (227.4)
Z xi
Z x1
H(x1 , . . . , xi )g(xi+1 , . . . , xn ) =
...
f (x1 , . . . , xn )dx1 . . . dxi .

Integriert man diese Gleichung u


ber xi+1 , . . . , xn in den Grenzen von
bis , ergibt sich mit (225.6) und (226.3) H(x1 , . . . , xi ) = G(x1 , . . . , xi , ,
. . . , ) oder wegen (228.1)
F (x1 , . . . , xi |xi+1 , . . . , xn ) = G(x1 , . . . , xi , , . . . , )
und den Schritten von (226.3) nach (226.4) und (227.4) nach (227.5) entsprechend
f (x1 , . . . , xi |xi+1 , . . . , xn ) = g(x1 , . . . , xi ) .

(228.3)

23 Erwartungswerte und Momente von Zufallsvariablen

101

Dies in (227.5) substituiert ergibt die erste Aussage. Gilt andererseits


f (x1 , . . . , xn ) = g(x1 , . . . , xi )g(xi+1 , . . . , xn ) und wird nach (227.4) die bedingte Verteilungsfunktion F (x1 , . . . , xi |xi+1 , . . . , xn ) gebildet, so ist sie nur
von X1 , . . . , Xi abh
angig, so da nach (228.1) die beiden Mengen von Zufallsvariablen voneinander unabh
angig sind.

229

Transformation von Verteilungen

Ist die Verteilung eines Zufallsvektors bekannt, so stellt sich h


aufig das Problem, die Verteilung einer Funktion des Zufallsvektors abzuleiten.
Satz: F
ur die Transformation der Werte des Zufallsvektors y = |Y1 , . . . , Yn |0
in die von x = |X1 , . . . , Xn |0 gelte die eineindeutige Abbildung xi = gi (y1 , . . . ,
yn ) mit i {1, . . . , n} und der einmal stetig differenzierbaren Funktion gi ,
und es existiere die Jacobische Matrix J = (gi /yj ) mit det J 6= 0 und
i, j {1, . . . , n}, so da die inverse Transformation yi = hi (x1 , . . . , xn ) eindeutig ist. Weiter sei f (x1 , . . . , xn ) die Verteilung von x, dann folgt die Verteilung
b(y1 , . . . , yn ) von y mit
b(y1 , . . . , yn ) = f (g1 (y1 , . . . , yn ), . . . , gn (y1 , . . . , yn ))| det J | .

(229.1)

Beweis: Die Wahrscheinlichkeit, da die Zufallsvariablen X1 , . . . , Xn im Bereich B liegen, ergibt sich aus (225.2). Transformiert man in dem gewonnenen
Integral die Variablen mit xi = gi (y1 , . . . , yn ), wodurch der Bereich S auf den
Bereich B abgebildet werde, erh
alt man mit (173.3)
Z
Z
. . . f (x1 , . . . , xn )dx1 . . . dxn
B

...
S

f (g1 (y1 , . . . , yn ), . . . , gn (y1 , . . . , yn ))| det J |dy1 . . . dyn ,

so da sich als Dichte b(y1 , . . . , yn ) die angegebene Funktion ergibt, die sicher
nicht negativ ist und somit (225.6) erf
ullt.

23

Erwartungswerte und Momente von


Zufallsvariablen

231

Erwartungswert

Man erh
alt den Erwartungswert einer Zufallsvariablen, indem der Durchschnittswert aller m
oglichen Werte der Variablen unter Ber
ucksichtigung ihrer
Wahrscheinlichkeitsdichten gebildet wird. Den Erwartungswert kann man sich

102

2 Wahrscheinlichkeitstheorie

daher auch als einen Mittelwert vorstellen.


Beispiel: Zur Erl
auterung der Binomialverteilung (224.1) war f
ur eine Fertigung von 4 Produkten die Wahrscheinlichkeit von x fehlerhaften Produkten
mit x {0, 1, 2, 3, 4} zu f (0) = 0, 240, f (1) = 0, 412, f (2) = 0, 264, f (3) =
0, 076 und f (4) = 0, 008 berechnet worden. Interpretiert man die Wahrscheinlichkeit nach (211.2) als relative H
aufigkeit, erh
alt man zum Beispiel bei 1000
Fertigungen 240 mal kein fehlerhaftes Produkt, 412 mal ein fehlerhaftes Produkt und so fort. Die Gesamtanzahl der fehlerhaften Produkte betr
agt
240 0 + 412 1 + 264 2 + 76 3 + 8 4 = 1200 ,
so da der Erwartungswert der fehlerhaften Produkte einer Fertigung sich als
Durchschnitt zu 1,2 berechnet. Der Erwartungswert ergibt sich auch unmittelbar aus der Summe der Produkte der Werte der Zufallsvariablen und ihrer
Wahrscheinlichkeitsdichten zu
0, 240 0 + 0, 412 1 + 0, 264 2 + 0, 076 3 + 0, 008 4 = 1, 2 .
Definition: Die diskrete Zufallsvariable X besitze die Dichte f (xi ), dann
bezeichnet man oder E(X)
= E(X) =

n
X

xi f (xi ) f
ur i {1, . . . , n}

xi f (xi ) f
ur i {1, . . . , }

i=1

und
= E(X) =

i=1

als den Erwartungswert der Zufallsvariablen X.

(231.1)

F
ur ndimensionale stetige Zufallsvariable gilt die
Definition: Der n 1 Zufallsvektor x = |X1 , . . . , Xn |0 besitze die Dichte
f (x1 , . . . , xn ), dann bezeichnet man i oder E(Xi )
Z
Z
i = E(Xi ) =
...
xi f (x1 , . . . , xn )dx1 . . . dxn

als den Erwartungswert der Zufallsvariablen Xi , falls das mehrfache Integral


existiert. Ersetzt man Xi und xi durch eine Funktion dieser Gr
oen, ergibt
sich der Erwartungswert einer Funktion der Zufallsvariablen Xi .
(231.2)
F
ur die eindimensionale Zufallsvariable X folgt aus (231.2)
Z
= E(X) =
xf (x)dx

(231.3)

103

23 Erwartungswerte und Momente von Zufallsvariablen

und anstelle von (231.2) mit Hilfe der Randverteilung g(xi ) von Xi aus (226.4)
i = E(Xi ) =

xi g(xi )dxi .

(231.4)

Der Erwartungswert liegt im Zentrum einer Verteilung, wie f


ur die Zufallsvariable Xi in Abbildung 231-1 dargestellt ist, denn die xi Achse kann man

g(x i )

xi
E(X i )

Abb. 231-1: Erwartungswert


sich als Stab mit der Dichte g(xi ) vorstellen. F
ur das Massenzentrum xs des
Stabes gilt nach den Gesetzen der Mechanik
xs =

xi g(xi )dxi /

g(xi )dxi ,

woraus xs = E(Xi ) wegen (225.6) folgt.


F
ur den Erwartungswert einer linearen Transformation von Zufallsvektoren
gilt der folgende
Satz: Es seien A und B zwei m n und m o Matrizen sowie c ein m 1
Vektor von Konstanten, x = |X1 , . . . , Xn |0 und y = |Y1 , . . . , Yo |0 zwei n 1
und o 1 Zufallsvektoren, dann gilt
E(Ax + By + c) = AE(x) + BE(y) + c .

(231.5)

Beweis: Es sei d = Ax mit d = (di ), e = By mit e = (ei ) sowie A =


(aij ), B = (bik ) und c = (ci ). Definiert man die Konstante ci mit ci = h(Xl )
als Funktion h(Xl ) einer Zufallsvariablen XRl mit der Dichte g(xl ), folgt mit

(231.2) und (225.6) E(ci ) = E(h(Xl )) = ci g(xl )dxl = ci und weiter mit

104

2 Wahrscheinlichkeitstheorie

(131.6)
E(di + ei + ci ) = E

n
X

aij Xj +

j=1

o
X

bik Yk + ci

k=1

n
X

aij E(Xj ) +

j=1

o
X

bik E(Yk ) + ci

k=1

und damit die Aussage.


Beispiel: Es ist der Erwartungswert E((X )2 ) zu berechnen, worin X eine
Zufallsvariable und = E(X) bedeuten. Man erh
alt
E((X )2 ) = E(X 2 ) 2E(X) + 2 = E(X 2 ) 2 .

232

Multivariate Momente

Die Erwartungswerte von Zufallsvariablen sind Sonderf


alle der Momente von
Zufallsvariablen.
Definition: Der n1 Zufallsvektor x = |X1 , . . . , Xn |0 besitze die multivariate
Pn
(k)
Verteilung f (x1 , . . . , xn ), dann bezeichnet man x1 ...xn mit k = i=1 ki und
ki N
k1 k2
kn
(k)
x1 ...xn = E(X1 X2 . . . Xn )
Z
Z
xk11 xk22 . . . xknn f (x1 , . . . , xn )dx1 . . . dxn
...
=

als ktes multivariates Moment von X1 , . . . , Xn , falls das mehrfache Integral


existiert.
(232.1)
Das kte Moment von Xi folgt aus (232.1) zu
Z
Z
k
(k)
xki f (x1 , . . . , xn )dx1 . . . dxn
...
xi = E(Xi ) =

(232.2)

und das kte Moment der eindimensionalen Zufallsvariablen X zu


Z
(k)
k
x = E(X ) =
xk f (x)dx .

(1)

(1)

F
ur k = 1 ergeben sich die Erwartungswerte i = xi und = x .
Definition: Momente in bezug auf die Erwartungswerte
E((X1 1 )k1 (X2 2 )k2 . . . (Xn n )kn )

(232.3)

23 Erwartungswerte und Momente von Zufallsvariablen


bezeichnet man als zentrale Momente.

105
(232.4)

Von besonderer Bedeutung sind die zweiten zentralen Momente.


Definition: Als Kovarianz ij oder C(Xi , Xj ) bezeichnet man das zweite
zentrale Moment der Zufallsvariablen Xi und Xj des n 1 Zufallsvektors
x = |X1 , . . . , Xn |0 mit der multivariaten Verteilung f (x1 , . . . , xn )
ij = C(Xi , Xj ) = E((Xi i )(Xj j ))
Z
Z
=
...
(xi i )(xj j )f (x1 , . . . , xn )dx1 . . . dxn

und als Varianz oder Dispersion i2 beziehungsweise V (Xi ) das zweite zentrale
Moment der Zufallsvariablen Xi
i2 = V (Xi ) = ii = C(Xi , Xi ) = E((Xi i )2 )
Z
Z
=
...
(xi i )2 f (x1 , . . . , xn )dx1 . . . dxn

sowie als Standardabweichung i die positive Quadratwurzel der Varianz.


(232.5)
ersichtlich, gilt
Wie aus der Definition der Varianz i2 zusammen mit (225.6) p
2
2
i 0, so da die Standardabweichung i aus i mit i = i2 folgt. Der
positiven und negativen Wurzel der Varianz entspricht in der Fehlertheorie
der Ausgleichungsrechnung der mittlere Fehler, wobei aber auch Sch
atzwerte
dieser Gr
oe als mittlere Fehler bezeichnet werden.
ur die Streuung einer Zufallsvariablen Xi um
Die Varianz i2 ist ein Ma f
ihren Erwartungswert, denn mit der Randverteilung g(xi ) von Xi aus (226.4)
ergibt sich anstelle von (232.5)
i2 =

(xi i )2 g(xi )dxi .

(232.6)

Wenn der Hauptanteil der Fl


ache unter der in Abbildung 231-1 dargestellten
Randverteilung g(xi ) in der N
ahe des Erwartungswertes E(Xi ) liegt, ist die
ache ausgebreitet ist.
Varianz i2 klein. Umgekehrt ist i2 gro, wenn die Fl
Die Kovarianz ij gibt ein Ma f
ur die Abh
angigkeit zwischen den Zufallsvariablen Xi und Xj an, wie mit den beiden folgenden S
atzen deutlich wird.
Satz: Sind die Zufallsvariablen Xi und Xj voneinander unabh
angig, gilt
ij = 0.
(232.7)

106

2 Wahrscheinlichkeitstheorie

Beweis: Aus (232.5) ergibt sich ij = E(Xi Xj ) j E(Xi ) i E(Xj ) + i j


und mit (231.2)
ij = E(Xi Xj ) E(Xi )E(Xj ) .

(232.8)

Weiter gilt mit (232.1) und der Randverteilung g(xi , xj ) f


ur Xi und Xj aus
(226.4)
Z Z
xi xj g(xi , xj )dxi dxj
E(Xi Xj ) =

und wegen der Unabh


angigkeit von Xi und Xj mit (228.2) g(xi , xj ) = g(xi )
g(xj ), so da mit (231.4) E(Xi Xj ) = E(Xi )E(Xj ) und damit die Aussage
folgt.
Umgekehrt bedeutet eine verschwindende Kovarianz im allgemeinen keine Unabh
angigkeit der Zufallsvariablen, wie beispielsweise die in (321.3) bis (321.5)
vorgenommene Transformation eines Zufallsvektors zeigt. Eine Ausnahme bilden, wie in (254.1) nachgewiesen wird, die normalverteilten Zufallsvariablen.
Zum besseren Vergleich der Kovarianzen werden sie normiert.
Definition: F
ur die Varianzen der Zufallsvariablen Xi und Xj gelte i2 > 0
2
und j > 0, dann bezeichnet man ij
ij = ij /(i j )
als Korrelationskoeffizienten von Xi und Xj .

(232.9)

Gilt ij = ij = 0, so sagt man, da die Zufallsvariablen Xi und Xj nicht


miteinander korreliert oder unkorreliert seien.
Satz: F
ur den Korrelationskoeffizienten ij folgt
1 ij 1 ,
wobei ij = 1 genau dann gilt, wenn mit einer Wahrscheinlichkeit von Eins
eine lineare Beziehung zwischen den Zufallsvariablen Xi und Xj besteht, also
P (Xj = cXi + d) = 1 mit den Konstanten c und d.
(232.10)
Beweis: Aufgrund der Integraldarstellung (Smirnow 1975, Teil II, S.487)
Z
Z
2 Z
f 2 dx
g 2 dx
f gdx
A

der Schwarzschen Ungleichung, angewendet auf die Integrale in (232.5), folgt


2
ij
i2 j2 , woraus mit (232.9) die erste Aussage sich ergibt. Definiert man
E([c(Xi i ) (Xj j )]2 ) = h 0 ,

23 Erwartungswerte und Momente von Zufallsvariablen

107

so ist die linke Seite eine quadratische Funktion von c, die der Konstanten h
gleicht, die gr
oer oder gleich Null ist. Mit (231.5) und (232.5) folgt daraus
die quadratische Gleichung f
ur c
i2 c2 2ij c + j2 h = 0
mit reellen oder komplexen L
osungen, wie aus der Diskriminante (Abramowitz und Stegun 1972, S.17)
2
2
4ij
4i2 (j2 h) = 4(ij
i2 j2 + i2 h)
2
ersichtlich, da i2 h 0 und aufgrund der ersten Aussage ij
i2 j2 0 ist.
2
2 2
F
ur h = 0 und ij = i j oder ij = 1 ergeben sich zwei identische reelle
L
osungen, beispielsweise c0 , folglich mit der Randverteilung g(xi , xj ) von Xi
und Xj

E([c0 (Xi i ) (Xj j )]2 )


Z Z
[c0 (xi i ) (xj j )]2 g(xi , xj )dxi dxj = 0 ,
=

was wegen g(xi , xj ) 0 nur erf


ullt sein kann, wenn mit einer Wahrscheinlichkeit von Eins c0 (Xi i ) = Xj j oder Xj = c0 Xi + d mit d = j c0 i gilt,
also P (Xj = c0 Xi + d) = 1. Besteht andererseits eine lineare Beziehung zwischen den Zufallsvariablen Xi und Xj , ergibt sich die quadratische Gleichung
E([c(Xi i ) (Xj j )]2 ) = 0, die f
ur c zwei identische reelle L
osungen
2
besitzt, falls ij
= i2 j2 gilt, woraus die Aussage folgt.

233

Kovarianzmatrix, Fehlerfortpflanzungsgesetz, Korrelationsmatrix und Gewichtsmatrix

a) Kovarianzmatrix und Fehlerfortpflanzungsgesetz


Die Varianzen und Kovarianzen eines Zufallsvektors fat man in einer Matrix
zusammen.
Definition: Es sei x = |X1 , . . . , Xn |0 ein n 1 Zufallsvektor, dann bezeichnet
man
D(x) = (ij ) = (C(Xi , Xj )) = E((x E(x))(x E(x))0 )


V (X1 )
C(X1 , X2 ) . . . C(X1 , Xn )

C(X2 , X1 )
V (X2 )
. . . C(X2 , Xn )
=

.........................................
C(Xn , X1 ) C(Xn , X2 ) . . .
V (Xn )

108

2 Wahrscheinlichkeitstheorie

als Kovarianzmatrix oder Dispersionsmatrix.

(233.1)

Die Kovarianzmatrix eines transformierten Zufallsvektors ergibt sich aus dem


Satz: Es sei x ein n 1 Zufallsvektor mit der Kovarianzmatrix D(x) und A
eine m n Matrix sowie b ein m 1 Vektor von Konstanten. Dann gilt f
ur
die Kovarianzmatrix des aus der linearen Transformation y = Ax + b sich
ergebenden m 1 Zufallsvektors y
D(y) = D(Ax + b) = AD(x)A0 .

(233.2)

Beweis: Aus (233.1) folgt D(y) = E((y E(y))(y E(y))0 ) und mit (231.5)
D(y) = E((Ax + b AE(x) b)(Ax AE(x))0 ) = AE((x E(x))(x
E(x))0 )A0 , woraus die Aussage folgt.
Beispiel: Der 3 1 Zufallsvektor x mit x = (Xi ) und der 3 3 Kovarianzmatrix x werde durch
Y1 = X 1 + X 2 + X 3
Y2 = X 1 X 2 + X 3
in den 2 1 Zufallsvektor y mit y = (Yi ) transformiert. Die 2 2 Kovarianzmatrix y von y folgt dann aus y = Ax A0 mit


1
1 1
A =
.
1 1 1
Satz (233.2) gilt f
ur lineare Transformationen zwischen den Zufallsvektoren x
und y und den Werten x1 , . . . , xn und y1 , . . . , ym , die sie annehmen k
onnen.
Bestehen nun die allgemeinen Beziehungen
y1 = h1 (x1 , . . . , xn ) + b1
y2 = h2 (x1 , . . . , xn ) + b2
............................
ym = hm (x1 , . . . , xn ) + bm

(233.3)

worin hi (x1 , . . . , xn ) reelle differenzierbare Funktionen von x1 , . . . , xn und bi


Konstanten seien, wird mit Hilfe der TaylorEntwicklung (171.3) linearisiert.
Mit x = x0 + x, y = y 0 + y, x0 = (xi0 ), x = (xi ), y = (yi ) erh
alt
man
yi = hi (x10 + x1 , . . . , xn0 + xn ) hi (x10 , . . . , xn0 )
=

hi
hi
x1 + . . . +
xn


x1 x=x0
xn x=x0

23 Erwartungswerte und Momente von Zufallsvariablen


und daher y = Ax mit
h
h1

1
...



x1 x=x0
xn x=x0

A = . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


hm
hm
...



x1 x=x0
xn x=x0

109

(233.4)

Aus (233.2) folgt D(y) = AD(x)A0 und D(y) = D(y) und D(x) =
D(x) wegen y = y y 0 und x = x x0 allerdings nur f
ur kleine Werte
f
ur x und E(x), so da f
ur x0 gen
aherte Erwartungswerte von x gew
ahlt
werden m
ussen. Dann l
at sich bei nichtlinearen Beziehungen (233.3) die Koeffizientenmatrix A in (233.2) aus (233.4) gewinnen.
Beispiel: Der m 1 Zufallsvektor y ergebe sich durch die lineare Transformation y = Bx mit der m n Matrix B = (bij ) aus dem n 1 Zufallsvektor
x. Die Elemente der Matrix A aus (233.4) folgen dann mit


b11 b12 . . . b1n


A = . . . . . . . . . . . . . . . . . . . . = B
bm1 bm2 . . . bmn

in Ubereinstimmung
mit (233.2).

Den Satz (233.2) in Verbindung mit (233.3) und (233.4) bezeichnet man in der
Ausgleichungsrechnung als Fehlerfortpflanzungsgesetz, denn er erlaubt, aus
Varianzen beziehungsweise mittleren Fehlern und Kovarianzen von Zufallsvariablen die Varianzen und Kovarianzen von Funktionen dieser Zufallsvariablen
abzuleiten. Weitere Beispiele zum Fehlerfortpflanzungsgesetz befinden sich am
Ende dieses Kapitels.
Mit Hilfe von (233.2) lassen sich die folgenden Eigenschaften einer Kovarianzmatrix beweisen.
Satz: Eine Kovarianzmatrix ist positiv definit oder positiv semidefinit. (233.5)
Beweis: Die Zufallsvariable Y ergebe sich mit dem n 1 Vektor a von Konstanten durch die lineare Transformation Y = a0 x aus dem n1 Zufallsvektor
x = |X1 , . . . , Xn |0 . Dann gilt mit (233.2) f
ur die Varianz V (Y ) = a0 D(x)a,
0
f
ur die wegen (225.6) und (232.5) a D(x)a 0 gilt, woraus mit (143.1) die
Aussage folgt, da D(x) aus (233.1) wegen C(Xi , Xj ) = C(Xj , Xi ) symmetrisch ist und a beliebig gew
ahlt werden kann.
Satz: Die Kovarianzmatrix D(x) des n 1 Zufallsvektors x = |X1 , . . . , Xn |0
ist genau dann positiv semidefinit, wenn die Wahrscheinlichkeit gleich Eins

110

2 Wahrscheinlichkeitstheorie

ist, da zwischen den Zufallsvariablen X1 , . . . , Xn eine lineare Beziehung besteht, da also a0 x = c f


ur einen n 1 Vektor a 6= 0 und eine Konstante c
gilt.
(233.6)
Beweis: Ist die Kovarianzmatrix D(x) positiv semidefinit, so existiert nach
(143.1) ein n 1 Vektor a 6= 0, f
ur den mitR (233.2) a0 D(x)a = D(a0 x) = 0

0
gilt. Hieraus folgt f
ur Y = a x mit (232.5) (y E(Y ))2 f (y)dy = 0. Dies
kann wegen f (y) 0 nur f
ur Y = E(Y ) mit einer Wahrscheinlichkeit von Eins
erf
ullt sein. Somit ergibt sich P (Y = E(Y )) = 1 oder P (a0 x = E(a0 x) = c) =
1, worin c eine Konstante bedeutet.
P (a0 x = c = E(a0 x)) =
R Gilt andererseits
2
1 f
ur einen Vektor a 6= 0, so folgt (yE(Y )) f (y)dy = 0 f
ur Y = a0 x und
0
0
weiter D(a x) = 0 oder a D(x)a = 0. Dann ist wegen (233.5) D(x) positiv
semidefinit, so da die Aussage folgt.
Zur Interpretation des Satzes (233.6) sei beispielsweise P (a1 X1 + a2 X2 =
c) = 1 angenommen. Die beiden Zufallsvariablen X1 und X2 liegen dann mit
einer Wahrscheinlichkeit von Eins auf einer Geraden, so da lediglich eine Zufallsvariable zu ber
ucksichtigen w
are, wenn die Gerade als Koordinatenachse
gew
ahlt w
urde.
b) Korrelationsmatrix
Fat man die in (232.9) definierten Korrelationskoeffizienten ij in der Korrelationsmatrix R = (ij ) mit


1
12 . . . 1n


1 . . . 2n
R = 21
(233.7)

...................
n1 n2 . . . 1

zusammen, so gilt

R = F D(x)F

mit F = diag(1/1 , . . . , 1/n ) .

(233.8)

F
ur die Korrelationsmatrix gilt der
Satz: Die Korrelationsmatrix ist positiv definit oder positiv semidefinit.
(233.9)
Beweis: Da in (232.9) i2 > 0 vorausgesetzt wurde, besitzt die Matrix F in
(233.8) vollen Rang, so da die Korrelationsmatrix R in Abh
angigkeit von
D(x) wegen (143.7) und (233.5) positiv definit oder positiv semidefinit ist.
Satz: Die Korrelationsmatrix des n1 Zufallsvektors x = |X1 , . . . , Xn |0 ist genau dann positiv semidefinit, wenn mit einer Wahrscheinlichkeit von Eins eine
lineare Beziehung zwischen den Zufallsvariablen X1 , . . . , Xn besteht. (233.10)

111

23 Erwartungswerte und Momente von Zufallsvariablen

Beweis: Ist die Kovarianzmatrix D(x) des Zufallsvektors x positiv semidefinit, dann ist auch die Korrelationsmatrix R positiv semidefinit, wie sich aus
dem Beweis von (233.9) ergibt. Die Aussage folgt dann mit (233.6).
c) Kovarianzen von Zufallsvektoren
Die mit (233.1) definierte m m Kovarianzmatrix D(z) des m 1 Zufallsvektors z werde in die folgenden vier Bl
ocke zerlegt



V (Z1 )
. . . C(Z1 , Zn ) C(Z1 , Zn+1 ) . . . C(Z1 , Zm )

............................. ..............................




V (Zn )
C(Zn , Zn+1 ) . . . C(Zn , Zm )
C(Zn , Z1 ) . . .


.
D(z) =



C(Zn+1 , Z1 ) . . . C(Zn+1 , Zn ) V (Zn+1 ) . . . C(Zn+1 , Zm )


............................. ..............................


C(Zm , Z1 ) . . . C(Zm , Zn ) C(Zm , Zn+1 ) . . .

V (Zm )

Dieser Zerlegung entsprechend soll der Zufallsvektor z nun mit z = |x0 , y 0 |0


und m = n+p in den n1 Vektor x und den p1 Vektor y aufgeteilt werden.
F
ur die Kovarianzmatrix D(z) = D(|x0 , y 0 |0 ) folgt dann


V (X1 )
. . . C(X1 , Xn ) C(X1 , Y1 ) . . . C(X1 , Yp )

.......................... ..........................




V (Xn )
C(Xn , Y1 ) . . . C(Xn , Yp )
C(Xn , X1 ) . . .



x
.
D( ) =

y


V (Y1 )
. . . C(Y1 , Yp )
C(Y1 , X1 ) . . . C(Y1 , Xn )


.......................... ..........................


C(Yp , X1 ) . . . C(Yp , Xn ) C(Yp , Y1 ) . . .
V (Yp )
Auf diese Weise lassen sich aufgrund von (232.5) auch Kovarianzen von Zufallsvektoren einf
uhren.

Definition: Wird der m 1 Zufallsvektor z mit der multivariaten Verteilung


f (z1 , . . . , zm ) in den n 1 Vektor x und den p 1 Vektor y aufgeteilt, wobei
z = |x0 , y 0 |0 und m = n + p gelte, dann bezeichnet C(x, y)
C(x, y) = (C(Xi , Yj )) = E((x E(x))(y E(y))0 )
die n p Kovarianzmatrix der Zufallsvektoren x und y.

(233.11)
0

0 0

Wie gezeigt, ergibt sich f


ur den Zufallsvektor z mit z = |x , y | aus (233.11)
die Kovarianzmatrix D(z) wegen C(x, x) = D(x) und C(y, y) = D(y) zu



x
D(x) C(x, y)



.
D(z) = D( ) =
(233.12)
y
C(y, x) D(y)

112

2 Wahrscheinlichkeitstheorie

Gilt wiederum z = |x0 , y 0 |0 und sind x sowie y zwei n 1 Zufallsvektoren und


u = x y der n 1 Zufallsvektor ihrer Differenz, dann folgt die Kovarianzmatrix D(u) mit

x
u = x y = |I, I|
y
aus (233.2) und (233.12)

D(x y) = D(x) C(x, y) C(y, x) + D(y) .

(233.13)

Sind x und y voneinander unabh


angige Zufallsvektoren, so da nach (232.7)
C(x, y) = 0 und C(y, x) = 0 gelten, ergibt sich anstelle von (233.13)
D(x y) = D(x) + D(y) .

(233.14)

Eine Verallgemeinerung von (233.2) erh


alt man mit dem
Satz: Es seien x und y zwei Zufallsvektoren mit einer gemeinsamen multivariaten Verteilung und A, B, a, b Matrizen und Vektoren von Konstanten,
dann gilt
C(Ax + a, By + b) = AC(x, y)B 0 .

(233.15)

Beweis: Aufgrund von (233.11) verl


auft der Beweis analog zu dem von (233.2).
Zerlegt man zum Beispiel in der Kovarianzmatrix C(u, z) der Zufallsvektoren
u und z den Vektor u in u = |x0 , y 0 |0 , so folgt aus (233.11)


C(x, z)

.
C(u, z) =
(233.16)
C(y, z)

Besitzen nun die Zufallsvektoren x und y gleiche Dimensionen, dann folgt f


ur
C(v, z) mit

x
v = x y = |I, I|
y
aus (233.15) und (233.16)

C(x y, z) = C(x, z) C(y, z) .

(233.17)

d) Gewichtsmatrix
Es sei x = |X1 , . . . , Xn |0 ein n 1 Zufallsvektor und D(x) = seine positiv
definite Kovarianzmatrix. Dann bezeichnet man die n n Matrix P
P = c1 ,

(233.18)

23 Erwartungswerte und Momente von Zufallsvariablen

113

worin c eine Konstante bedeutet, als Gewichtsmatrix und das Diagonalelement pii von P mit P = (pij ) als das Gewicht der Zufallsvariablen Xi . Sind
die Zufallsvariablen voneinander unabh
angig, vereinfacht sich die Kovarianzmatrix wegen (232.7) zur Diagonalmatrix = diag(12 , . . . , n2 ). Das Gewicht
pi von Xi ergibt sich dann zu
pi = pii = c/i2 .

(233.19)

Je kleiner die Varianzen der Zufallsvariablen Xi ausfallen, desto gr


oer sind
ihre Gewichte und je h
oher ist die Pr
azision f
ur Zufallsvariablen, die Messungen repr
asentieren.
e) Beispiele zum Fehlerfortpflanzungsgesetz und ein Beispiel zum Gewicht
1. Beispiel: Die n Zufallsvariablen Xi des n 1 Zufallsvektors x mit x =
|X1 , . . . , Xn |0 seien voneinander unabh
angig, so da mit (232.7) folgt D(x) =
diag(12 , . . . , n2 ). Das Fehlerfortpflanzungsgesetz f
ur Funktionen voneinander
unabh
angiger Zufallsvariablen ergibt sich dann aus (233.2) zu
D(y) = A diag(12 , . . . , n2 )A0 .
Bestehen nichtlineare Beziehungen zwischen den Zufallsvektoren x und y,
folgt mit (233.4)




2 h1
2 h1

1
.
.
.



n


x
x
1 x=x0
n x=x0

................................. 0
D(y) =
A




2 hm
h
m
2

1
.
.
.



n

x1 x=x0
xn x=x0
und somit die Varianz V (Yi ) der Zufallsvariablen Yi mit y = (Yi )
2
2
 h
 h
i
i
+ . . . + n2
V (Yi ) = 12


x1 x=x0
xn x=x0

(233.20)

und die Kovarianz C(Yi , Yj ) entsprechend. In der Ausgleichungsrechnung bezeichnet man (233.20) als Fehlerfortpflanzungsgesetz voneinander unabh
angiger Beobachtungen.
angigen
2. Beispiel: Es seien Xi mit V (Xi ) = i2 die n voneinander unabh
Zufallsvariablen, die durch die n Messungen beispielsweise
einer
Strecke
defiPn
niert werden. Die Varianz des Mittels X = n1 i=1 Xi folgt dann aus (233.20)
mit
V (X) =

1
1 2
+ . . . + 2 n2
n2 1
n

114

2 Wahrscheinlichkeitstheorie

und f
ur i2 = 2
2
.
n
F
ur diesen Fall ist also das mit (233.19) definierte Gewicht c/V (X) = cn/ 2
des Mittels X proportional zur Anzahl n der Messungen.
3. Beispiel: Durch die Messungen der drei Seiten eines Dreiecks sei der 3
1 Zufallsvektor x definiert, wobei die Beobachtungen die folgenden Werte
x1 , x2 , x3 f
ur x in der Dimension Millimeter ergeben haben
V (X) =

x1 = 271 346 , x2 = 389 423 , x3 = 522 118 .


F
ur die Kovarianzmatrix D(x) gelte in der Dimension Millimeter2


1, 0 0, 5 0, 9


D(x) = 0, 5 2, 3 2, 1 .
0, 9 2, 1 4, 0

Gesucht ist die Kovarianzmatrix der beiden der Seite x3 anliegenden Winkel
und in der Dimension 0,0001 gon. (Der Mittelpunktswinkel eines Kreises
betr
agt 400 gon.) Mit y = |, |0 ist also D(y) zu berechnen.
Mit Hilfe des Kosinussatzes erh
alt man
x21 = x22 + x23 2x2 x3 cos

und x22 = x21 + x23 2x1 x3 cos ,

so da f
ur die Koeffizientenmatrix A mit (233.4) folgt










x1

x=x0 x2 x=x0 x3 x=x0


.
A=







x1 x=x x2 x=x x3 x=x
0
0
0

Die Differentialquotienten erh


alt man einfach mit dem vollst
andigen Differential, das f
ur den ersten Ausdruck lautet
x1 dx1 = (x2 x3 cos )dx2 + (x3 x2 cos )dx3 + x2 x3 sin d .
Als N
aherungswerte x0 w
ahlt man die f
ur x gemessenen Werte. Die Elemente
der Matrix A in der Dimension 0,0001 gon/mm folgen dann aus


x1
x3 cos x2 x2 cos x3



x2 x3 sin
x2 x3 sin
400 104 x2 x3 sin

A=


x3 cos x1

2
x
x
cos

x
2
1
3

x x sin
x1 x3 sin
x1 x3 sin
1 3


1, 677 0, 376 1, 152

.
=
0, 539 2, 407 2, 076

23 Erwartungswerte und Momente von Zufallsvariablen

115

Mit den gemessenen Werten erh


alt man und in der Dimension 0,0001 gon
zu = 338 124 und = 518 087, und D(y) folgt aus (233.2) zu


3, 78 3, 52
.

D(y) =
3, 52 9, 15
Die Standardabweichung
des Winkels ergibt sich
daher in der Dimension
0,0001 gon zu = 3, 78 und die von zu = 9, 15.

234

Momenterzeugende Funktion

Mit Hilfe der momenterzeugenden Funktion lassen sich Momente von Zufallsvariablen angeben und Verteilungen ableiten.
Definition: Es sei x = |X1 , . . . , Xn |0 ein n 1 Zufallsvektor mit der multivariaten Verteilung f (x1 , . . . , xn ) und t = |t1 , . . . , tn |0 ein n 1 Vektor von
Konstanten. Dann bezeichnet man Mx (t)
0

Mx (t) = E(et x ) = E(exp(t1 X1 + . . . + tn Xn ))


Z
Z
exp(t1 x1 + . . . + tn xn )f (x1 , . . . , xn )dx1 . . . dxn
=
...

als momenterzeugende Funktion des Zufallsvektors x, falls der Erwartungswert f


ur h < ti < h mit i {1, . . . , n} und ein gewisses h > 0 existiert.
Ersetzt man in t0 x den Vektor x durch Funktionen von x, ergibt sich die
momenterzeugende Funktion von Funktionen der Zufallsvariablen.
(234.1)
Als charakteristische Funktion, die im folgenden nicht verwendet wird, bezeichnet man E(exp(it0 x)) mit i = 1.
Die Momente einer Zufallsvariablen erh
alt man aus der momenterzeugenden
Funktion wie folgt.
Satz: Ist Mx (t) dieP
momenterzeugende Funktion des Zufallsvektors x, dann
n
ergibt sich mit k = i=1 ki und ki N das kte multivariate Moment zu

k Mx (t)
.
(234.2)
(k)
=
x1 ...xn
tk11 . . . tknn t=0
Beweis: Durch k1 fache Differentiation von Mx (t) nach t1 , k2 fache
Pn Differentiation von Mx (t) nach t2 und so fort erh
alt man mit k = i=1 ki aus
(234.1)
Z
Z
k Mx (t)
=
.
.
.
xk11 . . . xknn exp(t1 x1 + . . . + tn xn )
tk11 . . . tknn

f (x1 , . . . , xn )dx1 . . . dxn ,

116

2 Wahrscheinlichkeitstheorie

woraus mit t = 0 wegen (232.1) das kte multivariate Moment folgt.


Sind die Verteilungsfunktionen zweier Zufallsvektoren gleicher Dimensionen
identisch, so sind ihre momenterzeugenden Funktionen identisch. Auch der
umgekehrte Schlu ist zul
assig, wovon im folgenden bei den Ableitungen von
Verteilungen h
aufig Gebrauch gemacht wird.
Satz: Sind x1 und x2 zwei n1 Zufallsvektoren mit den Verteilungsfunktionen
F1 (x) und F2 (x) sowie den momenterzeugenden Funktionen M1 (t) und M2 (t),
so ist genau dann F1 (x) = F2 (x), wenn M1 (t) = M2 (t) f
ur h < ti < h mit
i {1, . . . , n} und ein gewisses h > 0 gilt.
(234.3)
Der Beweis des Satzes befindet sich bei (Wilks 1962, S.118 und 120).
Satz: F
ur den Zufallsvektor x gelte x = |x01 , x02 |0 und entsprechend t =
|t01 , t02 |0 . Die Zufallsvektoren x1 und x2 sind genau dann voneinander unabh
angig, wenn gilt
Mx1 ,x2 (t1 , t2 ) = Mx1 (t1 )Mx2 (t2 ) .

(234.4)

Beweis: Sind die Zufallsvektoren x1 und x2 voneinander unabh


angig, zerf
allt
nach (228.2) ihre gemeinsame Verteilung in das Produkt ihrer Randverteilungen, so da mit (234.1) ihre momenterzeugende Funktion sich aus dem Produkt der momenterzeugenden Funktionen Mx1 (t1 ) und Mx2 (t2 ) berechnet.
Gilt andererseits Mx1 ,x2 (t1 , t2 ) = Mx1 (t1 )Mx2 (t2 ), erh
alt man aus (234.1)
Z
Z
...
exp(t01 x1 + t02 x2 )f (x1 , x2 )dx1 dx2

=
=

...

...

exp(t01 x1 )g(x1 )dx1

...

exp(t02 x2 )g(x2 )dx2

exp(t01 x1 + t02 x2 )g(x1 )g(x2 )dx1 dx2 .

Hieraus folgt wegen (234.3) F (x1 , x2 ) = G(x1 , , . . . , )G(, . . . , , x2 )


und mit (228.2) die Aussage.

24

Univariate Verteilungen

241

Normalverteilung

Die univariate Normalverteilung und ihre multivariate Verallgemeinerung stellen die wichtigsten Verteilungen stetiger Zufallsvariablen dar.

117

24 Univariate Verteilungen

Definition: Die Zufallsvariable X bezeichnet man als normalverteilt mit den


Parametern und 2 , abgek
urzt geschrieben X N (, 2 ), wenn ihre Dichte
f (x) gegeben ist durch
2
2
1
e(x) /2 f
ur < x < .
(241.1)
2
In Abbildung 241-1 sind die Dichten der Normalverteilung f
ur zwei Werte von
gezeichnet. Die Variation von verschiebt den Graphen der Normalverteilung lediglich entlang der xAchse.

f (x) =

f(x)
0,8
= 0,5

0, 6
0, 4

= 1

0, 2
x
0

Abb. 241-1: Normalverteilungen


Die Bedingung (223.10) ist f
ur die Normalverteilung erf
ullt, denn zum einen
ist f (x) 0 und zum anderen gilt
Z
2
2
1

A=
e(x) /2 dx = 1 ,
(241.2)
2
denn substituiert man y = (x )/, so da dy = dx/ folgt, erh
alt man
Z
2
1
A=
ey /2 dy = 1 .
(241.3)
2

Anstatt zu zeigen, da A = 1 gilt, wird A2 = 1 bewiesen, woraus A = 1 wegen


2
ey /2 > 0 folgt. Man erh
alt
Z
Z
2
1
1
2
y 2 /2
A = (
e
dy)(
ez /2 dz)
2
2
Z Z
2
2
1
=
e(y +z )/2 dydz .
2

118

2 Wahrscheinlichkeitstheorie

Mit den Polarkoordinaten y = r cos , z = r sin folgt

A2 =

1
2

rer

/2

ddr =

rer

/2

i
h
2
dr = er /2
=1.
0

Gilt X N (, 2 ), so besitzt die Zufallsvariable X den Erwartungswert und


die Varianz 2 . Dies wird nicht hier, sondern allgemeiner in (252.2) f
ur die
multivariate Normalverteilung bewiesen, die die univariate Normalverteilung
einschliet. Weitere Eigenschaften der univariaten Normalverteilung werden
ebenfalls im Kapitel 25 im Zusammenhang mit der multivariaten Normalverteilung behandelt.
Die Bedeutung der Normalverteilung in der Statistik ergibt sich aus dem zentralen Grenzwertsatz (Cram
er 1946, S.214; Wilks 1962, S.257). Er besagt,
da f
ur n voneinander unabh
angige Zufallsvariable mit beliebigen Verteilungen unter gewissen, recht allgemeinen Bedingungen die Verteilung der Summe
dieser Zufallsvariablen asymptotisch gegen eine Normalverteilung strebt, wenn
n gegen unendlich geht. F
ur die im Kapitel 25 zu behandelnde multivariate
Normalverteilung gilt ein entsprechender Satz (Cram
er 1946, S.316). Da
man sich Zufallsvariable h
aufig aus der Summe sehr vieler voneinander unabh
angiger Zufallsvariablen unterschiedlicher Verteilungen zusammengesetzt
denken kann, beispielsweise die aus einer Vielzahl von Ger
ateeinfl
ussen resultierende elektrooptische Entfernungsmessung, lassen sich bei vielen praktischen Anwendungen die Zufallsvariablen als normalverteilt annehmen.
Wie der Vergleich von (241.2) und (241.3) zeigt, wird durch die Substitution
y = (x )/ die Normalverteilung N (, 2 ) auf die standardisierte Normalverteilung N (0, 1) gebracht, die f
ur eine normalverteilte Zufallsvariable Y mit
dem Erwartungswert = 0 und der Varianz 2 = 1 gilt. F
ur Y N (0, 1)
ergibt sich aus (223.5) die Verteilungsfunktion F (x; 0, 1) zu

1
F (x; 0, 1) =
2

ey

/2

dy

f
ur

<x <.

(241.4)

Werte f
ur F (x; 0, 1) findet man h
aufig tabuliert (z.B. Fisher und Yates
1963, S.45; Pearson und Hartley 1976, Vol.I, S.110), eine graphische Darstellung ist in Abbildung 241-2 gegeben. Mit einer Genauigkeit von 1 105

119

24 Univariate Verteilungen

F(x;0 , 1)
1,0
0,5
x
-3

-2

-1

Abb. 241-2: Verteilungsfunktion


gilt f
ur (241.4) die polynomiale Approximation (Abramowitz und Stegun
1972, S.932)

2
F (x; 0, 1) = 1 ex /2 (a1 t + a2 t2 + a3 t3 )/ 2 f
ur x 0
(241.5)
mit t = 1/(1 + px) und p = 0, 33267, a1 = 0, 4361836, a2 = 0, 1201676, a3 =

0, 9372980. Ahnliche
Approximationen befinden sich in (Carta 1975).
Beispiel: F
ur die Zufallsvariable X mit X N (, 2 ) sind die Wahrscheinlichkeiten P ( < X < + ) und P ( 3 < X < + 3) zu berechnen.
Mit der Variablentransformation y = (x )/ ergibt sich wegen der Symmetrie der Normalverteilung
Z 1
2
1
ey /2 dy
P ( < X < + ) =
2 1
= F (1; 0, 1) (1 F (1; 0, 1)) ,
so da man mit F (1; 0, 1) = 0, 8413 erh
alt
P ( < X < + ) = 0, 683 .
Analog berechnet sich mit F (3; 0, 1) = 0, 9987
P ( 3 < X < + 3) = 0, 997 .
Die Wahrscheinlichkeit ist also n
aherungsweise gleich Eins, da die Werte einer
normalverteilten Zufallsvariablen innerhalb des Intervalls liegen, das durch
ihren Erwartungswert und die dreifache Standardabweichung definiert ist.
Den Wert x , f
ur den
F (x ; 0, 1) =

(241.6)

120

2 Wahrscheinlichkeitstheorie

gilt, bezeichnet man als das Fraktil, Quantil oder den unteren Prozentpunkt der standardisierten Normalverteilung. Entsprechend ist das (1 )
Fraktil oder der obere Prozentpunkt durch F (x1 ; 0, 1) = 1 definiert.
Wegen der Symmetrie der Normalverteilung gilt F (x; 0, 1) = 1 F (x; 0, 1)
und somit wegen F (x1 ; 0, 1) = 1 F (x ; 0, 1)
x = x1 .

(241.7)

Die Fraktile lassen sich den angegebenen Tafeln entnehmen. Bei einer numerischen Berechnung gilt f
ur x mit einer Genauigkeit von 4, 5104 (Abramowitz und Stegun 1972, S.933)
x = t

c 0 + c 1 t + c 2 t2
1 + d 1 t + d 2 t2 + d 3 t3

f
ur

0, 5 < 1

(241.8)

mit
c0 = 2, 515 517 , c1 = 0, 802 853 , c2 = 0, 010 328 , d1 = 1, 432 788 ,
d2 = 0, 189 269 , d3 = 0, 001 308 , t = [ln(1/(1 )2 )]1/2 .

242

Herleitung der Normalverteilung als Verteilung von


Beobachtungsfehlern

Wenn auch die Normalverteilung im vorangegangenen Kapitel definiert wurde, so lassen sich doch eine Reihe von Experimenten angeben, deren ErgebAnordnung der
positiv
negativ

H
aufigkeit


n
0

n1

n
1

...

...

ni

ni1

i+1

...

n

n
i+1

...

...

...

n

Beobachtungsfehler
i =
0 = (n 2 0)
1 = (n 2 1)
...
i = (n 2i)
i+1 = (n 2(i + 1))
...
n = (n 2n)
(242.1)

121

24 Univariate Verteilungen

nisse normalverteilt sind (Rao 1973, S.153), wie beispielsweise die Beobachtungsfehler i , die sich aus sehr vielen kleinen, voneinander unabh
angigen
Elementarfehlern zusammensetzen, die den gleichen Absolutbetrag besitzen
und ebenso leicht positiv, wie negativ sein k
onnen (Hagen 1837, S.34). Bei
n Elementarfehlern ergeben sich die in Tabelle (242.1) angegebenen Anordnungen der , die H
aufigkeit des Vorkommens der Beobachtungsfehler nach
(136.2) und die Werte der Beobachtungsfehler i . Bezeichnet man mit N die
Summe aller H
aufigkeiten, ergeben
sich die relativen
H
aufigkeiten
bei ni1



n
n
n
und n i positiven zu i+1
/N = ni
/N
und
zu
/N
.
Als
Mittel hi
i+1 i
i
und Differenz hi dieser relativen H
aufigkeiten erh
alt man
 
 
n 2i 1 n
n+1
n
und hi =
.
hi =
2(i + 1)N i
(i + 1)N i
Weiter ergeben sich das Mittel xi und die Differenz xi der Beobachtungsfehler i+1 und i zu xi = (n 2i 1) und xi = 2. Identifiziert man nun
die Zufallsvariable X mit der Variablen, die die Werte xi annimmt, so gilt f
ur
ihre Dichte f (x)
f (x)
hi
2(n 2i 1)
2xi
xi xi
=
=
=
=
.
f (x)
hi
n+1
(n + 1)
(n + 1) 2
Geht man von der diskreten Zufallsvariablen zu einer stetigen Zufallsvariablen u
ber, ergibt sich df (x)/f (x) = xdx/((n + 1) 2 ) und durch Integration
ln f (x) + c = x2 /(2(n +1) 2 ). Setzt man (n + 1) 2 = 2 und f
ur die Integrationskonstante c = ln( 2), ergibt sich die Dichte der Normalverteilung
N (0, 2 ).

243

Gammaverteilung

Als weitere univariate Verteilung soll die Gammaverteilung behandelt werden,


die f
ur die im Kapitel 26 abgeleiteten Testverteilungen ben
otigt wird.
Definition: Die Zufallsvariable X besitzt die Gammaverteilung G(b, p) mit
den reellen Parametern b und p, also X G(b, p), falls ihre Dichte gegeben
ist durch
f (x) =

bp p1 bx
x e
(p)

f
ur b > 0 , p > 0 , 0 < x <

und f (x) = 0 f
ur die u
brigen Werte von x.
Der Wert (p) ergibt sich aus der durch
Z
(p) =
tp1 et dt f
ur p > 0
0

(243.1)

(243.2)

122

2 Wahrscheinlichkeitstheorie

definierten GammaFunktion.
Die Gammaverteilung erf
ullt (223.10), denn zum einen ist f (x) 0 und zum
anderen gilt
Z p
b
xp1 ebx dx = 1 ,
(243.3)
(p)
0
R
da mit y = bx und dy = bdx sich wegen (243.2) 0 y p1 ey dy/(p) = 1
ergibt.
Zur Auswertung der GammaFunktion (243.2) wird partiell integriert, und
man erh
alt mit der Regel von de LHospital (Smirnow 1975, Teil I, S.167)
Z
i Z
h
p2 t
p1 t
tp2 et dt ,
(p 1)t e dt = (p 1)
(p) = t e
+
0

woraus die Rekursionsformel folgt


(p) = (p 1)(p 1) .

(243.4)

Ist
eine positive
ganze
Zahl, gilt (p) = (p 1) . . . 2(1) und mit (1) =
R p t


t
=
1
0 e dt = e
0
(p) = (p 1)! f
ur p N und

p>0.

(243.5)

Ist p ein Vielfaches von 1/2, gilt wegen (243.4)



1  (2p 1)(2p 3) . . . 5 3 1
=

p+
2
2p
f
ur p N und p > 0 (243.6)

mit (1/2) = , denn mit der Substitution t = y 2 /2 und dt = ydy folgt


R

R 1/2 t
R

2
2
(1/2) = 0 t
e dt = 2 0 ey /2 dy = , da 0 ey /2 dy/ 2 =
1/2 wegen (241.3) gilt. N
aherungswerte f
ur die Gammafunktion ergeben sich
mit der Stirlingschen N
aherung (Henrici 1977, S.43)

(p) 2 ep pp1/2 .
(243.7)
F
ur die momenterzeugende Funktion einer Zufallsvariablen mit der Gammaverteilung gilt der
Satz: Es sei X G(b, p), dann ergibt sich die momenterzeugende Funktion
Mx (t) von X zu
Mx (t) = (1 t/b)p

f
ur t < b .

(243.8)

123

24 Univariate Verteilungen
Beweis: Mit (234.1) erh
alt man
Mx (t) =

etx

bp p1 bx
x e dx .
(p)

Substituiert man y = bx, folgt mit dy = bdx


Z

1 (ty/by) p1
y
dy
e
(p)
0
Z
(1 t/b)p p1 (1t/b)y
= (1 t/b)p
e
dy ,
y
(p)
0

Mx (t) =

woraus mit (243.3) die Aussage folgt, da nach (243.1) (1 t/b) > 0 gelten
mu.
Von der reproduzierenden Eigenschaft einer Verteilung spricht man, wenn die
Verteilung der Summe unabh
angiger Zufallsvariablen, deren Verteilungen der
gleichen Klasse angeh
oren, ebenfalls zu dieser Klasse von Verteilungen z
ahlt.
Die Gammaverteilung besitzt diese reproduzierende Eigenschaft, denn es gilt
der
Satz: Die Zufallsvariablen Xi mit Xi G(b, pi ) und i {1, . . . , k} seien
voneinander unabh
angig, dann gilt
X1 + . . . + Xk G(b,

k
X

pi ) .

(243.9)

i=1

Beweis: Da die Zufallsvariablen X1 , . . . , Xk voneinander unabh


angig sind,
zerf
allt nach (228.2) ihre gemeinsame Verteilung in das Produkt der Gammaverteilungen G(b, pi ). Die momenterzeugende Funktion MX (t) von X1 +
. . . + Xk berechnet sich dann aus (234.1) mit (243.8) zu
MX (t) = MX1 (t) . . . MXk (t) = (1 t/b)pi .
Das ist aber die momenterzeugende Funktion der Gammaverteilung G(b, pi ),
so da mit (234.3) die Aussage folgt.
F
ur die Zufallsvariable X mit X G(b, p) ergibt sich aus (223.5) die Verteilungsfunktion F (G; b, p) zu
bp
F (G; b, p) =
(p)

G
0

xp1 ebx dx .

(243.10)

124

2 Wahrscheinlichkeitstheorie

Durch partielle Integration erh


alt man
Z
1  bp  p bx G bp+1 G p bx 
x e
+
x e dx
0
p (p)
(p) 0


X
(bG)j
bp Gp ebG 
1+
.
=
(p + 1)
(p + 1)(p + 2) . . . (p + j)
j=1

F (G; b, p) =

(243.11)

Diese Reihe konvergiert nach dem Quotientenkriterium (Blatter 1974, I,


S.93), denn mit wachsendem j gibt es eine Zahl q, f
ur die bG/(p + j) q < 1
gilt.

244

Herleitung der Gammaverteilung als Verteilung von


Ankunftszeiten

Die im vorangegangenen Kapitel definierte Gammaverteilung l


at sich auch
f
ur die Verteilung der Ankunftszeiten von Fahrzeugen ableiten. Hierf
ur soll
zun
achst die Verteilung der Anzahl von Fahrzeugen angegeben werden, die
in einem festen Zeitintervall von t Sekunden an einem bestimmten Ort eintreffen. Betr
agt die Wahrscheinlichkeit p, da ein Fahrzeug in der Zeiteinheit
von einer Sekunde auftaucht, und erscheint nicht mehr als ein Fahrzeug pro
Sekunde, dann folgt f
ur die Anzahl x der Fahrzeuge in n = t angenommenen,
voneinander unabh
angigen Versuchen aus der Binomialverteilung (224.1) die
Dichte
 
n x
f (x) =
p (1 p)nx f
ur x {0, 1, . . . , n} .
x
Werden sehr viel kleinere Zeiteinheiten als eine Sekunde f
ur die einzelnen
Versuche gew
ahlt, das Zeitintervall t des Experimentes aber unver
andert gelassen, folgt mit n , p 0 und np = t f
ur die Dichte f (x) die Poisson
Verteilung (224.2)
f (x) = exp(t)(t)x /x!
f
ur x {0, 1, 2, . . .} und > 0 , t > 0 . (244.1)
Aus dieser Verteilung ergibt sich die Wahrscheinlichkeit, da in einem Zeitintervall t an einem Ort x Fahrzeuge eintreffen. Da nach (224.4) die Gr
oe t den
Erwartungswert der nach (244.1) verteilten Zufallsvariablen angibt, bedeutet
die durchschnittlich zu erwartende Anzahl der ankommenden Fahrzeuge pro
Zeiteinheit, in der t definiert ist.
Mit (244.1) wird jetzt die Verteilung fT (t) der Zeit T bis zur Ankunft des

125

24 Univariate Verteilungen

ersten Fahrzeuges abgeleitet. Die Wahrscheinlichkeit, da T das Zeitintervall


t, dessen L
ange beliebig ist, u
berschreitet, gleicht der Wahrscheinlichkeit, da
keine Ankunft in dem Zeitintervall t stattgefunden hat. Diese Wahrscheinlichkeit ergibt sich aus (244.1) f
ur x = 0, so da P (T > t) = f (0) = exp(t)
gilt. Damit erh
alt man die Verteilungsfunktion F (t) von T nach (213.4) und
(223.6) zu F (t) = P (T < t) = 1 P (T > t) = 1 exp(t) und die Dichte
fT (t) von T nach (223.9) zu
fT (t) = dF (t)/dt = exp(t)

f
ur > 0 , t > 0 .

(244.2)

Dies ist nach (243.1) die Gammaverteilung T G(, 1). Da die Zeit T bis zur
Ankunft des ersten Fahrzeuges kein absolutes Zeitma, sondern ein Zeitintervall angibt, gilt (244.2) auch f
ur die Zeit zwischen zwei Ank
unften, so da auch
die Verteilung f
ur die Zeit Ts = T1 + . . . + Tk zwischen k Ank
unften angebbar
ist, wobei Ti G(, 1) mit i {1, . . . , k} gilt und die einzelnen Ankunftszeiten voneinander unabh
angig sind. Mit (243.9) folgt dann Ts G(, k).

245

Betaverteilung

Als letzte univariate Verteilung, die im folgenden ben


otigt wird, soll die Betaverteilung behandelt werden.
Satz: Die Zufallsvariablen Y und Z mit Y G(b, ) und Z G(b, ) seien
voneinander unabh
angig, dann besitzt die Zufallsvariable X = Y /(Y + Z) die
Betaverteilung B(, ) mit den reellen Parametern und , also X B(, ),
und der Dichte
f (x) =

( + ) 1
x
(1 x)1
()()

f
ur 0 < x < 1

und f (x) = 0 f
ur die u
brigen Werte von x.

(245.1)

Beweis: Wegen der Unabh


angigkeit ergibt sich die gemeinsame Verteilung
f (y, z) von Y und Z nach (228.2) mit (243.1) zu
f (y, z) =

b+
ebybz y 1 z 1 .
()()

F
ur die Transformation y = r sin2 , z = r cos2 mit 0 < r < , 0 < < /2
ergibt sich aus (229.1) mit


y/r y/
= 2r sin cos

det J = det
z/r z/

126

2 Wahrscheinlichkeitstheorie

die Verteilung
f (r, ) =

2b+ br +1
(sin )21