Entdecken Sie eBooks
Kategorien
Entdecken Sie Hörbücher
Kategorien
Entdecken Sie Zeitschriften
Kategorien
Entdecken Sie Dokumente
Kategorien
Parametersch
atzung
und
Hypothesentests
in linearen Modellen
Bonn 2004
http://www.geod.uni-bonn.de
Ehemals Ferd. D
ummlers Verlag, Bonn
II
c
2004
Professor Dr.-Ing., Dr.-Ing. E.h. mult. Karl-Rudolf Koch
Institut f
ur Theoretische Geod
asie
der Rheinischen Friedrich-Wilhelms-Universit
at Bonn
Nuallee 17
D-53115 Bonn
e-mail: koch@theor.geod.uni-bonn.de
III
KarlRudolf Koch
IV
Bonn, im M
arz 1997
KarlRudolf Koch
VI
VII
KarlRudolf Koch
VIII
IX
X
Der Abschnitt 3 behandelt in univariaten und multivariaten Modellen die
Sch
atzung von Parametern, die als feste Gr
oen definiert sind. Feste Parameter gemeinsam mit Zufallsparametern werden in gemischten Modellen
gesch
atzt. Im Abschnitt 3 wird auch auf die Varianzanalyse und auf die
Sch
atzung von Varianz- und Kovarianzkomponenten eingegangen. Der Abschnitt 4 widmet sich dann der Hypothesenpr
ufung, der Bereichssch
atzung
und dem Ausreiertest, w
ahrend der Abschnitt 5 schlielich einen kurzen
Uberblick
u
ber die Diskriminanzanalyse gibt.
Ben
otigt man f
ur Beweise S
atze, die zuvor behandelt worden sind, so wird mit
Hilfe der entsprechenden Nummern auf diese S
atze verwiesen. Der Abschnitt
1 oder auch der Abschnitt 2 brauchen daher nicht vor dem Studium der u
brigen Kapitel gelesen zu werden, aufgrund der Verweise l
at sich das fehlende
Wissen gezielt den beiden ersten Abschnitten entnehmen. Wenn bei den als
Literatur zitierten B
uchern eine Seitenzahl angegeben wird, so bezeichnet sie
nur die erste Seite dessen, was von Interesse ist. Auf die folgenden Seiten, die
ebenfalls von Bedeutung sein k
onnen, wird nicht besonders hingewiesen.
Allen Mitarbeiterinnen und Mitarbeitern des Instituts f
ur Theoretische Geod
asie, die zum Erscheinen dieses Buches beigetragen haben, danke ich sehr.
Mein besonderer Dank gilt Herrn Dipl.-Math., Dipl.-Ing. Burkhard Schaffrin,
der viele Anregungen zu diesem Buch gegeben hat. Schlielich m
ochte ich
noch die gute Zusammenarbeit mit dem Verlag w
ahrend der Entstehung des
Buches dankend erw
ahnen.
KarlRudolf Koch
XI
Inhaltsverzeichnis
Einf
uhrung
1 Vektor- und Matrixalgebra
11 Mengen und K
orper . . . . . . . . . . . . . . . . . . . . . . . .
111
Mengenbegriff . . . . . . . . . . . . . . . . . . . . . . . .
112
Verkn
upfung von Mengen . . . . . . . . . . . . . . . . .
113
Relationen . . . . . . . . . . . . . . . . . . . . . . . . .
114
K
orper der reellen Zahlen . . . . . . . . . . . . . . . . .
12 Vektoralgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . .
121
Vektordefinition und Vektorraum . . . . . . . . . . . . .
122
Lineare Abh
angigkeit und Basis eines Vektorraums . . .
123
Skalarprodukt und Euklidischer Raum . . . . . . . . . .
124
Orthogonale Unterr
aume . . . . . . . . . . . . . . . . .
13 Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
131
Matrixdefinition und Matrixverkn
upfungen . . . . . . .
132
Rang einer Matrix . . . . . . . . . . . . . . . . . . . . .
133
Berechnung inverser Matrizen . . . . . . . . . . . . . . .
134
Matrizenidentit
aten . . . . . . . . . . . . . . . . . . . .
135
Spaltenraum und Nullraum einer Matrix . . . . . . . . .
136
Determinanten . . . . . . . . . . . . . . . . . . . . . . .
137
Spur einer Matrix und Darstellung einer Matrix als Vektor
14 Quadratische Formen . . . . . . . . . . . . . . . . . . . . . . . .
141
Transformationen . . . . . . . . . . . . . . . . . . . . . .
142
Eigenwerte und Eigenvektoren . . . . . . . . . . . . . .
143
Definite Matrizen . . . . . . . . . . . . . . . . . . . . . .
15 Generalisierte Inversen . . . . . . . . . . . . . . . . . . . . . . .
151
Rechts- und Linksinversen . . . . . . . . . . . . . . . . .
152
Idempotente Matrizen . . . . . . . . . . . . . . . . . . .
153
Generalisierte Inverse, reflexive generalisierte Inverse und
Pseudoinverse . . . . . . . . . . . . . . . . . . . . . . . .
154
Lineare Gleichungssysteme . . . . . . . . . . . . . . . .
155
Generalisierte Inversen symmetrischer Matrizen . . . . .
156
Eigenschaften der Pseudoinversen und einer speziellen
symmetrischen reflexiven generalisierten Inversen . . . .
16 Projektionen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
161
Allgemeine Projektionen . . . . . . . . . . . . . . . . . .
1
3
3
3
4
5
6
6
6
9
12
13
15
15
21
26
36
37
39
43
45
45
48
50
52
52
53
54
59
62
67
69
69
XII
Inhaltsverzeichnis
17
162
Orthogonale Projektionen . . . . . . . . . . . . . . .
Differentiation und Integration von Vektoren und Matrizen
171
Extrema von Funktionen . . . . . . . . . . . . . . .
172
Differentialquotienten spezieller Funktionen . . . . .
173
Integration und Variablentransformation . . . . . . .
.
.
.
.
.
2 Wahrscheinlichkeitstheorie
21 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . .
211
Einf
uhrung . . . . . . . . . . . . . . . . . . . . . . . .
212
Zuf
allige Ereignisse . . . . . . . . . . . . . . . . . . . .
213
Axiome der Wahrscheinlichkeit . . . . . . . . . . . . .
214
Bedingte Wahrscheinlichkeit und Bayessche Formel . .
215
Unabh
angige Ereignisse . . . . . . . . . . . . . . . . .
22 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . .
221
Definition . . . . . . . . . . . . . . . . . . . . . . . . .
222
Verteilungsfunktion . . . . . . . . . . . . . . . . . . .
223
Diskrete und stetige Zufallsvariable . . . . . . . . . . .
224
Binomialverteilung und PoissonVerteilung . . . . . .
225
Mehrdimensionale stetige Zufallsvariable . . . . . . . .
226
Randverteilung . . . . . . . . . . . . . . . . . . . . . .
227
Bedingte Verteilung . . . . . . . . . . . . . . . . . . .
228
Unabh
angige Zufallsvariable . . . . . . . . . . . . . . .
229
Transformation von Verteilungen . . . . . . . . . . . .
23 Erwartungswerte und Momente von Zufallsvariablen . . . . .
231
Erwartungswert . . . . . . . . . . . . . . . . . . . . . .
232
Multivariate Momente . . . . . . . . . . . . . . . . . .
233
Kovarianzmatrix, Fehlerfortpflanzungsgesetz, Korrelationsmatrix und Gewichtsmatrix . . . . . . . . . . . .
234
Momenterzeugende Funktion . . . . . . . . . . . . . .
24 Univariate Verteilungen . . . . . . . . . . . . . . . . . . . . .
241
Normalverteilung . . . . . . . . . . . . . . . . . . . . .
242
Herleitung der Normalverteilung als Verteilung von Beobachtungsfehlern . . . . . . . . . . . . . . . . . . . .
243
Gammaverteilung . . . . . . . . . . . . . . . . . . . . .
244
Herleitung der Gammaverteilung als Verteilung von Ankunftszeiten . . . . . . . . . . . . . . . . . . . . . . . .
245
Betaverteilung . . . . . . . . . . . . . . . . . . . . . .
25 Multivariate Normalverteilung . . . . . . . . . . . . . . . . .
251
Definition und Herleitung . . . . . . . . . . . . . . . .
252
Momenterzeugende Funktion der Normalverteilung . .
253
Randverteilung und bedingte Verteilung . . . . . . . .
254
Unabh
angigkeit normalverteilter Zufallsvariablen . . .
.
.
.
.
.
70
72
72
74
78
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
81
81
81
83
85
86
88
88
88
89
91
93
96
98
99
100
101
101
101
104
.
.
.
.
107
115
116
116
. 120
. 121
.
.
.
.
.
.
.
124
125
127
127
129
130
132
XIII
Inhaltsverzeichnis
26
27
28
255
Lineare Funktionen normalverteilter Zufallsvariablen . .
256
Summe normalverteilter Zufallsvariablen . . . . . . . . .
Testverteilungen f
ur univariate Modelle der Parametersch
atzung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
261
2 Verteilung . . . . . . . . . . . . . . . . . . . . . . . .
262
Nichtzentrale 2 Verteilung . . . . . . . . . . . . . . . .
263
F Verteilung . . . . . . . . . . . . . . . . . . . . . . . .
264
Nichtzentrale F Verteilung . . . . . . . . . . . . . . . .
265
tVerteilung . . . . . . . . . . . . . . . . . . . . . . . . .
Quadratische Formen . . . . . . . . . . . . . . . . . . . . . . . .
271
Erwartungswert und Kovarianz . . . . . . . . . . . . . .
272
Verteilung der quadratischen Form . . . . . . . . . . . .
273
Unabh
angigkeit zweier quadratischer Formen . . . . . .
274
Unabh
angigkeit einer linearen Form und einer quadratischen Form . . . . . . . . . . . . . . . . . . . . . . . .
Testverteilungen f
ur multivariate Modelle der Parametersch
atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
281
WishartVerteilung . . . . . . . . . . . . . . . . . . . . .
282
Herleitung der WishartVerteilung . . . . . . . . . . . .
283
Verteilung der Summe von WishartMatrizen . . . . . .
284
Verteilung der transformierten WishartMatrix . . . . .
285
Verteilung der Matrizen quadratischer Formen und Unabh
angigkeit der WishartMatrizen . . . . . . . . . . .
286
Verteilung des Verh
altnisses der Determinanten zweier
WishartMatrizen . . . . . . . . . . . . . . . . . . . . .
287
Verteilung spezieller Funktionen von WishartMatrizen
3 Parametersch
atzung in linearen Modellen
31 Methoden der Parametersch
atzung . . . . . . . . . . . . . . .
311
Punktsch
atzung . . . . . . . . . . . . . . . . . . . . .
312
Beste erwartungstreue Sch
atzung . . . . . . . . . . . .
313
Methode der kleinsten Quadrate . . . . . . . . . . . .
314
MaximumLikelihoodMethode . . . . . . . . . . . . .
32 GauMarkoffModell . . . . . . . . . . . . . . . . . . . . . .
321
Definition und Linearisierung . . . . . . . . . . . . . .
322
Beste lineare erwartungstreue Sch
atzung . . . . . . . .
323
Methode der kleinsten Quadrate . . . . . . . . . . . .
324
MaximumLikelihoodMethode . . . . . . . . . . . . .
325
Erwartungstreue Sch
atzung der Varianz der Gewichtseinheit . . . . . . . . . . . . . . . . . . . . . . . . . . .
326
Numerische Berechnung der Sch
atzwerte und ihrer Kovarianzen . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
133
134
134
134
137
138
141
143
144
144
146
147
147
148
148
149
151
152
152
154
158
161
162
162
163
164
165
166
166
169
171
174
. 175
. 179
XIV
33
34
35
36
37
Inhaltsverzeichnis
327
GauMarkoffModell mit Restriktionen . . . . . . . . . 184
328
Rekursive Parametersch
atzung . . . . . . . . . . . . . . 192
329
Abweichungen vom Modell . . . . . . . . . . . . . . . . 193
GauMarkoffModell mit nicht vollem Rang . . . . . . . . . . 196
331
Methode der kleinsten Quadrate und MaximumLikelihoodSch
atzung . . . . . . . . . . . . . . . . . . . . . . 196
332
Sch
atzbare Funktionen . . . . . . . . . . . . . . . . . . . 198
333
Projizierte Parameter als sch
atzbare Funktion . . . . . . 200
334
GauMarkoffModell mit nicht vollem Rang und Restriktionen . . . . . . . . . . . . . . . . . . . . . . . . . 209
Spezielle GauMarkoffModelle . . . . . . . . . . . . . . . . . 214
341
Polynommodell . . . . . . . . . . . . . . . . . . . . . . . 214
342
Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . 217
343
Parametersch
atzung f
ur die Varianzanalyse mit einer
symmetrischen reflexiven generalisierten Inversen . . . . 221
344
Kovarianzanalyse . . . . . . . . . . . . . . . . . . . . . . 225
345
GauMarkoffModell f
ur Ausreier in den Beobachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
Verallgemeinerte lineare Modelle . . . . . . . . . . . . . . . . . 228
351
Regressionsmodell . . . . . . . . . . . . . . . . . . . . . 228
352
Gemischtes Modell . . . . . . . . . . . . . . . . . . . . . 231
353
Beste lineare erwartungstreue Sch
atzung im gemischten
Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
354
Methode der kleinsten Quadrate und MaximumLikelihoodMethode f
ur das gemischte Modell . . . . . . . . . 235
355
Modell der Ausgleichung nach bedingten Beobachtungen 239
356
Pr
adiktion und Filterung . . . . . . . . . . . . . . . . . 240
Sch
atzung von Varianz- und Kovarianzkomponenten . . . . . . 245
361
Beste invariante quadratische erwartungstreue Sch
atzung 245
362
Lokal beste Sch
atzung . . . . . . . . . . . . . . . . . . . 249
363
Iterierte Sch
atzungen . . . . . . . . . . . . . . . . . . . 254
364
Beste erwartungstreue Sch
atzung der Varianz der Gewichtseinheit . . . . . . . . . . . . . . . . . . . . . . . . 258
Multivariate Parametersch
atzung . . . . . . . . . . . . . . . . . 259
371
Multivariates GauMarkoffModell . . . . . . . . . . . 259
372
Sch
atzung der Parametervektoren . . . . . . . . . . . . 261
373
Sch
atzung der Kovarianzmatrix . . . . . . . . . . . . . . 263
374
Numerische Berechnung der Sch
atzwerte und unvollst
andige multivariate Modelle . . . . . . . . . . . . . . . 267
375
Spezielles Modell zur Sch
atzung von Kovarianzmatrizen
und Sch
atzung von Kovarianzen f
ur stochastische Prozesse
. . . . . . . . . . . . . . . . . . . . . . . . . . . 272
XV
Inhaltsverzeichnis
38
376
Multivariates Modell mit Restriktionen
Robuste Parametersch
atzung . . . . . . . . . .
381
Wahl der Zielfunktion . . . . . . . . . .
382
Robuste MSch
atzung . . . . . . . . . .
383
MSch
atzung nach Huber . . . . . . . .
384
Lp Norm Sch
atzung . . . . . . . . . . .
385
Hebelpunkte . . . . . . . . . . . . . . .
386
Modifizierte MSch
atzung nach Huber .
387
Verfahren von Rousseeuw . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
275
277
277
278
281
284
286
289
292
4 Hypothesenpr
ufung, Bereichssch
atzung und Ausreiertest 295
41 Verteilungen aufgrund normalverteilter Beobachtungen . . . . . 296
411
Verteilungen von Funktionen der Residuen im univariaten Modell . . . . . . . . . . . . . . . . . . . . . . . . . 296
412
Verteilungen der im multivariaten Modell gesch
atzten
Kovarianzmatrizen . . . . . . . . . . . . . . . . . . . . . 299
42 Test von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . 301
421
Methode der Hypothesenpr
ufung und LikelihoodQuotiententest . . . . . . . . . . . . . . . . . . . . . . . . . . 301
422
Test einer allgemeinen Hypothese im univariaten Gau
MarkoffModell . . . . . . . . . . . . . . . . . . . . . . . 304
423
Spezielle Hypothesen . . . . . . . . . . . . . . . . . . . . 308
424
Hypothesentest f
ur die Varianz der Gewichtseinheit . . 312
425
Test einer allgemeinen Hypothese im multivariaten
GauMarkoffModell . . . . . . . . . . . . . . . . . . . 314
426
Hypothese der Identit
at einer Kovarianzmatrix mit einer gegebenen Matrix . . . . . . . . . . . . . . . . . . . 321
43 Bereichssch
atzung . . . . . . . . . . . . . . . . . . . . . . . . . 322
431
Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . 322
432
Konfidenzintervalle f
ur Parameter, f
ur lineare Funktionen der Parameter und Konfidenzhyperellipsoide . . . . 323
433
Konfidenzintervall f
ur die Varianz der Gewichtseinheit . 328
44 Ausreiertest . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
441
Hypothesentest f
ur Ausreier . . . . . . . . . . . . . . . 329
442
Test f
ur einen Ausreier . . . . . . . . . . . . . . . . . . 331
443
Fraktilwerte f
ur den Ausreiertest . . . . . . . . . . . . 333
444
Zuverl
assigkeitsmae . . . . . . . . . . . . . . . . . . . . 335
Literatur
339
Sachverzeichnis
355
XVI
Inhaltsverzeichnis
Einfu
hrung
Parameter m
ussen immer dann gesch
atzt werden, wenn bestimmte Abl
aufe,
Zust
ande oder Ereignisse beobachtet werden, um daraus Erkenntnisse und
Schl
usse, beispielsweise u
unftige Entwicklungen der beobachteten Ereigber k
nisse, zu ziehen. Die Parametersch
atzung ben
otigt man also f
ur die mathematische Modellierung der beobachteten Ph
anomene. Die Beobachtungen sind
Funktionen der unbekannten Parameter, wobei die Art der Funktion sich aus
einer physikalischen Gesetzm
aigkeit, aus geometrischen Zusammenh
angen
oder einfach aus dem Experiment ergibt, das den Beobachtungen zugrunde liegt. Die funktionale Abh
angigkeit zwischen den Beobachtungen und den
unbekannten Parametern bildet einen Teil des Modells, in dem die Parametersch
atzung erfolgt.
Die Beobachtungen f
ur die Parametersch
atzung stellen die Ergebnisse von
Zufallsexperimenten dar. Die Beobachtungen, wie zum Beispiel Messungen
der Lufttemperatur, sind also von zuf
alliger Natur und k
onnen mit einer bestimmten Wahrscheinlichkeit innerhalb gewisser Grenzen schwanken. Angaben u
ber das Ma dieser Schwankungen mit Hilfe der Varianzen und Kovarianzen der Beobachtungen bilden den zweiten Teil des Modells f
ur die Parametersch
atzung. Um den Einflu der Zuf
alligkeit der Beobachtungen auf
die Paramter gering zu halten, wird davon ausgegangen, da im allgemeinen
mehr Beobachtungen in die Parametersch
atzung eingef
uhrt werden, als zur
eindeutigen Bestimmung der Parameter notwendig ist.
H
aufig wird zur Erfassung eines Ph
anomens nicht nur ein Merkmal gemessen,
wie beispielsweise die Gr
oe einer Pflanze bei einem Pflanzenversuch, sondern
man beobachtet mehrere Merkmale, wie Gr
oe, Gewicht und Aufbau einer
Pflanze. Die Auswertung dieser Daten geschieht in einem multivariaten Modell, w
ahrend im univariaten Modell lediglich ein Merkmal analysiert wird.
Je nach Aufgabenstellung definiert man die unbekannten Parameter als feste
Gr
oen oder wie die Beobachtungen als Zufallsvariable, was eine Sch
atzung
in unterschiedlichen Modellen bedingt.
Die Aufgabe der Parametersch
atzung besteht darin, in den gegebenen Modellen beste Sch
atzwerte f
ur die unbekannten Parameter zu bestimmen, wobei der Begriff der besten Sch
atzung als Sch
atzung mit minimaler Varianz
definiert wird. Bei groben Fehlern in den Beobachtungen kann als weitere
Eigenschaft gefordert werden, da die Sch
atzungen robust gegen
uber diesen
2
Ausreiern sind. H
aufig interessieren nicht nur die Sch
atzwerte der Parameter, sondern es besteht auch der Wunsch, Informationen u
ber die Parameter,
die man zus
atzlich zu den Beobachtungen besitzt, zu pr
ufen. Dies geschieht in
den Hypothesentests. Weiter lassen sich mit Hilfe der Bereichssch
atzungen f
ur
die unbekannten Parameter in Abh
angigkeit einer vorgegebenen Wahrscheinlichkeit Intervalle angeben, in denen die Parameter liegen.
Das gesamte Aufgabengebiet, das im folgenden behandelt wird, l
at sich kurz
als statistische Inferenz f
ur Parameter charakterisieren.
11
Mengen und Ko
rper
111
Mengenbegriff
Im folgenden werden h
aufig Objekte oder Vorkommnisse mit gleichen oder
ahnlichen Eigenschaften behandelt, die auf irgendeine Weise zusammenge
fat werden m
ussen. Dies geschieht zweckm
aig mit dem mathematischen
Begriff der Menge. Unter einer Menge versteht man daher die Zusammenfassung genau definierter wirklicher oder gedachter Objekte. Die zu einer Menge
geh
orenden Objekte sind die Elemente der Menge. Es sei a ein Element und
M eine Menge; man schreibt
aM
oder a 6 M ,
falls a ein Element oder falls a kein Element der Menge M ist. Die Menge M
der Elemente a, f
ur die die Eigenschaft B bez
uglich a, also B(a) erf
ullt ist,
bezeichnet man mit
M = {a|B(a)} ,
beispielsweise M = {a|a ist positiver Teiler von 6} = {1, 2, 3, 6}. Gibt es in
M kein Element mit der Eigenschaft B(a), f
uhrt man die leere Menge M =
ein.
Definition: Die Menge, die kein Element enth
alt, heit leere Menge . (111.1)
Wichtige Beispiele f
ur Mengen sind die Zahlenmengen wie die Mengen nat
urlicher Zahlen, ganzer Zahlen oder rationaler Zahlen, also endlicher oder unendlicher, periodischer Dezimalbr
uche. Hierf
ur haben sich Standardbezeichnungen
eingeb
urgert; beispielsweise bezeichnet man mit N die Menge der nat
urlichen Zahlen, also N = {1, 2, 3, . . .}, und mit R die Menge der reellen Zahlen,
also R = {a|a ist endlicher oder unendlicher Dezimalbruch mit beliebigem
Vorzeichen}.
F
ur Elemente, die nicht nur Elemente einer Menge sind, besteht die
Definition: Geh
oren alle Elemente einer Menge M auch einer Menge P an,
so bezeichnet man M als Teilmenge von P und schreibt M P .
(111.2)
112
Verknu
pfung von Mengen
(112.4)
Abb. 112-1:
Vereinigungsmenge
113
Abb. 112-2:
Durchschnittsmenge
Abb. 112-3:
Differenzmenge
Relationen
Nachdem die Zusammenfassung von Objekten aufgrund bestimmter Eigenschaften als Menge eingef
uhrt wurde, m
ussen jetzt Beziehungen zwischen den
Objekten charakterisiert werden. Hierzu wird der folgende Begriff ben
otigt.
Sind a und b irgendwelche Objekte, so nennt man den Ausdruck (a, b) das
geordnete Paar a, b. Zu seiner Erkl
arung soll lediglich definiert werden, wann
zwei geordnete Paare u
bereinstimmen: Es gilt (a, b) = (c, d) genau dann, wenn
a = c und b = d ist. Die Ausdrucksweise genau dann, wenn bedeutet, da
die Folgerung nach beiden Seiten zu ziehen ist. Aus (a, b) = (c, d) folgt also
a = c und b = d und umgekehrt aus a = c und b = d ergibt sich (a, b) = (c, d).
Mit Hilfe des geordneten Paares kann jetzt die folgende Relation zwischen
zwei Mengen definiert werden.
Definition: Die Menge aller geordneten Paare (a, b) mit a A und b B
heit kartesisches Produkt der Mengen A und B, und man schreibt A B =
{(a, b)|a A, b B}.
(113.1)
Geordnete Paare lassen sich als Koordinaten interpretieren, so da das kartesische Produkt R R = R2 der Menge R der reellen Zahlen die Punkte
in einer Ebene ergibt, deren Koordinaten mit Hilfe zweier reeller Koordinatenachsen definiert werden. Die Erweiterung des Paarbegriffes f
uhrt auf das
Tripel, das sind drei geordnete Objekte, auf das Quadrupel mit vier Objekten
und schlielich auf das nTupel mit n Objekten, beispielsweise (x1 , x2 , . . . , xn ).
Die Definition des Tripels, Quadrupels und nTupels erfolgt rekursiv mit Hilfe
des Paarbegriffs, indem die erste Koordinate des Tripels ein geordnetes Paar
ist, die erste Koordinate des Quadrupels ein Tripel und sofort. Entsprechend
(113.1) ergeben sich nTupel als kartesisches Produkt von n Mengen. R3 definiert daher den dreidimensionalen Raum und Rn den ndimensionalen Raum.
114
K
orper der reellen Zahlen
xy = yx
x(yz) = (xy)z
xy + xz ,
12
Vektoralgebra
121
Physikalische Gr
oen wie Kraft und Geschwindigkeit lassen sich nicht lediglich
durch eine Zahl, n
amlich ihren Absolutbetrag angeben, auch ihre Richtung
mu festgelegt werden. Drei Zahlen ben
otigt man, wenn beispielsweise die
Gr
oe, das Gewicht und das Alter von Individuen zu registrieren sind. Man
bedient sich hierzu der Vektoren, die nicht nur f
ur die Ebene R2 oder den
3
dreidimensionalen Raum R , sondern auch f
ur den ndimensinalen Raum Rn
definiert werden.
Definition: Es sei xi R mit i {1, . . . , n} und n N, dann bezeichnet man
das nTupel (x1 , x2 , . . . , xn ) des ndimensionalen Raumes Rn als Vektor und
12 Vektoralgebra
schreibt
x =
x1
x2
...
xn
(121.1)
x+ y
x
x + (y + z) = (x + y) + z .
(121.3)
Das nTupel (0, 0, . . . , 0) des Rn definiert den Nullvektor, und es gilt mit
(114.1) und (121.2)
x + 0 = x f
ur alle x Rn .
(121.4)
(121.5)
(121.7)
12 Vektoralgebra
Gilt V n = V1n . . .Vkn , so gibt es, abgesehen vom Nullvektor, keine Vektoren,
ur i 6= j gemeinsam sind.
die den Unterr
aumen Vin und Vjn f
122
Lineare Abh
angigkeit und Basis eines Vektorraums
Ein f
ur die lineare Algebra grundlegender Begriff ist der der linearen Abh
angigkeit und der linearen Unabh
angigkeit.
Definition: Eine Teilmenge von Vektoren 1 , 2 , . . . , k V n bezeichnet
man als linear abhangig, wenn Skalare c1 , c2 , . . . , ck R existieren, die nicht
alle gleich Null sind, so da gilt
c1 1 + c 2 2 + . . . + c k k = 0 .
10
(122.1)
k
X
cj
j=1
j6=i
ci
j ,
Pk
i=1 ci i
Definition: Wenn jeder Vektor eines Vektorraums V n durch eine Linearkombination der Vektoren 1 , 2 , . . . , k V n erzeugt werden kann, so sagt man,
da die Vektoren 1 , 2 , . . . , k den Vektorraum aufspannen.
(122.4)
Ist die Teilmenge der Vektoren, die den Vektorraum aufspannen, linear unabh
angig, so erh
alt sie eine besondere Bezeichnung.
Definition: Eine Basis f
ur einen Vektorraum V n ist eine Teilmenge linear
unabh
angiger Vektoren, die den Vektorraum aufspannen.
(122.5)
Satz: Jeder Vektorraum besitzt eine Basis.
(122.6)
12 Vektoralgebra
11
12
123
n
X
xi y i .
(123.1)
i=1
Der Grund f
ur die Schreibweise x0 y, h
aufig findet man auch xy oder < x, y >,
ergibt sich aus der Definition (131.6) eines Matrizenproduktes.
Satz: F
ur das Skalarprodukt gilt
x0 y = y 0 x , (x + y)0 z = x0 z + y 0 z , (cx0 )y = c(x0 y) .
(123.2)
(123.3)
Der Winkel zwischen zwei Vektoren x und y ergibt sich aus der geometrischen Definition des Skalarproduktes (z.B. Strang 1980, S.106)
x0 y = |x||y| cos
(123.4)
und somit
cos =
x0 y
.
((x0 x)(y 0 y))1/2
(123.5)
12 Vektoralgebra
13
Vektorr
aume mit Skalarprodukt erhalten eine eigene Bezeichnung.
Definition: Ein Vektorraum V n mit dim V n = n, f
ur den das Skalarprodukt definiert ist, bezeichnet man als ndimensionalen Euklidischen Raum
En.
(123.6)
Euklidische R
aume besitzen endliche Dimensionen. Bei der Erweiterung auf
unendliche Dimensionen ergeben sich die Hilbertschen R
aume (Meschkowski
1962), die jedoch im folgenden nicht ben
otigt werden.
124
Orthogonale Unterr
aume
14
13 Matrizen
15
x1
U = {x|x = x2 , x1 , x2 R}
0
13
Matrizen
131
eine m n Matrix A, wobei m die Anzahl der Zeilen und n die der Spalten,
also die Dimensionen der Matrix angeben.
(131.1)
Im folgenden werden ausschlielich Matrizen mit Elementen aus dem K
orper
der reellen Zahlen, also aij R behandelt.
Mit n = 1 geht die Matrix A in den mit (121.1) definierten m1 Vektor u
ber,
der auch als Spaltenvektor bezeichnet wird. Mit m = 1 ergibt sich aus A der 1
n Zeilenvektor. Ist m = n, heit A eine quadratische Matrix. Ist aij = 0 f
ur alle
16
(131.3)
(131.5)
n
X
k=1
aik bkj
f
ur i {1, . . . , m} und
j {1, . . . , p} .
(131.6)
17
13 Matrizen
Das Produkt zweier Matrizen ist also nur dann definiert, wenn die Anzahl der
Spalten von A der Anzahl der Zeilen von B gleicht. Das Produkt AB besitzt
soviele Zeilen wie A und soviele Spalten wie B.
Beispiel: Die beiden unten definierten Matrizen A und B sollen miteinander
multipliziert werden, wobei zur Rechenkontrolle als zus
atzliche Spalte an die
Matrix B die Summe ihrer Zeilen angeh
angt und in die Multiplikation miteinbezogen werde, so da eine zus
atzliche Spalte in der Produktmatrix AB
erhalten wird, die gleich der Zeilensumme von AB sein mu. Die Zeilensumme von B ergibt sich n
amlich aus Be mit e = |1, . . . , 1|0 und die Zeilensumme
A =
-1
0
B =
1
0
2
-1
1
2
0
1
-2
3
-4
5
3
-2
7
2
3
1
8
5
11
0
-5
-6
8
0
22
1
4
= AB
Satz: Die Matrizenmultiplikation ist assoziativ, distributiv, aber im allgemeinen nicht kommutativ
A(BC) = (AB)C
A(B + C) = AB + AC und (A + B)C = AC + BC
im allgemeinen AB
6=
BA .
(131.7)
k=1
l=1
p
p X
n
X
X
dil clj = (AB)C .
=
(
aik bkl )clj =
l=1 k=1
l=1
Analog l
at sich die Distributivit
at beweisen, w
ahrend die NichtKommutativit
at offensichtlich ist, so da die Aussagen sich ergeben.
Die Multiplikation mit der Einheitsmatrix I entsprechender Dimensionen
ver
andert eine Matrix A nicht
IA = A und AI = A .
(131.8)
18
und
(AB)0 = B 0 A0 .
(131.10)
Beweis: Die erste Aussage folgt unmittelbar mit (131.9). Zum Beweis der zweiten seien die mn und np Matrizen A und B gegeben, die dargestellt seien
durch A = |a1 , a2 , . . . , am |0 mit a0i = |ai1 , . . . , ain | und B = |b1 , b2 , . . . , bp |
mit bi = |b1i , . . . , bni |0 . Dann ist AB = (a0i bj ) und mit (131.9) (AB)0 =
(a0j bi ). Weiter gilt B 0 A0 = (b0i aj ) = (a0j bi ) = (AB)0 wegen (123.2), so da
die Aussagen folgen.
Satz: A0 A = 0 gilt genau dann, wenn A = 0 ist.
0
(131.11)
0
13 Matrizen
19
Beweis: Es seien A1
und A1
zwei Inversen der regul
aren Matrix A. Aus
1
2
1
1
1
1
A2 A = I folgt A2 AA1
=
A
und
daraus
A
= A1
1
1
2
1 , denn es ist
1
AA1 = I wegen (131.12), so da die Aussage folgt.
Satz: Sind A und B regul
are Matrizen, gilt
(AB)1 = B 1 A1
(A1 )0 = (A0 )1
(131.14)
(131.15)
(A1 )1 = A .
(131.16)
Selbstverst
andlich l
at sich A noch in weitere Untermatrizen zerlegen, doch
soll im folgenden die Unterteilung auf vier Untermatrizen beschr
ankt bleiben.
F
ur die transponierte Blockmatrix A0 folgt mit (131.9)
0
A
A021
.
(131.19)
A0 = 011
A12 A022
Besitzt eine m n Matrix B eine entsprechende Unterteilung wie die Blockmatrix A, so ergibt sich die Summe A + B mit (131.2) zu
A11 + B 11 A12 + B 12
.
(131.20)
A+B =
A21 + B 21 A22 + B 22
20
h) KroneckerProdukt
(131.23)
D (E + F ) = (D E) + (D F ) .
Beweis: Mit (131.2) und (131.22) erh
alt man
(a11 + b11 )C . . . (a1n + b1n )C
(A + B) C = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
(am1 + bm1 )C . . . (amn + bmn )C
= (A C) + (B C)
(131.24)
21
13 Matrizen
Satz: Mit c R gilt
c(A B) = (cA) B = A (cB) .
(131.25)
(131.26)
Beweis: Definiert man AC = (fij ), ergibt sich mit (131.6) und (131.22)
a11 B . . . a1m B c11 D . . . c1n D
(A B)(C D) = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
al1 B . . . alm B cm1 D . . . cmn D
P
m
P
m
a1i ci1 BD . . .
a1i cin BD
i=1
i=1
= .................................
P
m
m
P
ali cin BD
ali ci1 BD . . .
i=1
i=1
f11 BD . . . f1n BD
= . . . . . . . . . . . . . . . . . . . . . .
fl1 BD . . . fln BD
= AC BD .
(131.27)
132
Wesentliche Eigenschaften einer Matrix sind mit der Anzahl ihrer linear unabh
angigen Zeilen und Spalten verbunden.
Definition: Die maximale Anzahl der linear unabh
angigen Zeilen einer Matrix heit der Rang einer Matrix, und man schreibt r = rgA, wenn r den Rang
und A die Matrix bezeichnet.
(132.1)
Wie aus dem folgenden Satz sich ergibt, kann in dieser Definition das Wort
Zeilen auch durch das Wort Spalten ersetzt werden.
22
mit
k {1, . . . , n}
oder
A = BC
mit
l {1, . . . , m} .
Hieraus folgt n
amlich das Element alp der Matrix A mit
alp = bl1 c1p + bl2 c2p + . . . + blrs crs p
in Ubereinstimmung
mit dem Element alp aus dem Matrizenprodukt BC. Alonnen also als Linearkombinationen der
le Zeilenvektoren 0l der Matrix A k
rs Zeilenvektoren 0i der Matrix C erhalten werden. Die Anzahl rz der linear
unabh
angigen Zeilen der Matrix A ist h
ochstens gleich der Anzahl rs der Zeilen von C und damit h
ochstens gleich der Anzahl rs der linear unabh
angigen
23
13 Matrizen
Satz: rg(AB) min(rgA, rgB).
(132.3)
E 1 =
1 0 0 ... 0
0 c 0 ... 0
0 0 1 ... 0
................
0 0 0 ... 1
,
(132.5)
bewirkt E 1 A den Austausch der ersten und zweiten Zeile von A, E 2 A die
Multiplikation der zweiten Zeile von A mit dem Skalar c und E 3 A die Addi-
24
tion der mit c multiplizierten Elemente der ersten Zeile von A zu den entsprechenden Elementen der zweiten Zeile.
F
ur jede elementare Matrix E existiert die inverse Matrix E 1 , die die elementare Umformung r
uckg
angig macht. Es gilt E 1
1 = E 1 und
1 0 0 ... 0
1 0 0 ... 0
0 1/c 0 . . . 0
c 1 0 . . . 0
0 1 . . . 0 , E 1
0 1 . . . 0 , (132.6)
E 1
2 = 0
3 = 0
..................
.................
0 0 0 ... 1
0 0 0 ... 1
1
denn mit E 1 E 1
1 = I und E 1 E 1 = I sowie den entsprechenden Gleichungen
f
ur E 2 und E 3 ist (131.12) erf
ullt.
Rechtsseitige Multiplikationen einer Matrix mit den transponierten elementaren Matrizen bewirken die Spaltenumformungen. So wird durch AE 01 die
erste und zweite Spalte von A ausgetauscht, und durch AE 02 und AE 03 ergeben sich entsprechende Spaltenoperationen, wobei E 01 , E 02 und E 03 jetzt n n
Matrizen bedeuten.
Wie bereits erw
ahnt, gilt der
Satz: Elementare Umformungen
andern den Rang einer Matrix nicht. (132.7)
Beweis: Da die elementaren Matrizen regul
ar sind, folgt aus (132.4), da elementare Umformungen den Rang einer Matrix nicht
andern.
Bei einer praktischen Rangbestimmung bringt man die m n Matrix A durch
elementare Zeilenumformungen, deren Anzahl k betrage, zun
achst auf die Gestalt
E (k) . . . E (2) E (1) A = P A = B
mit
B =
(132.8)
,
25
13 Matrizen
nach Zeilenvertauschungen, um das erste Element der ersten Zeile von Null
verschieden zu erhalten. Anschlieend wird die erste Zeile mit entsprechenden
Skalaren multipliziert und zu den folgenden Zeilen addiert, um Nullelemente
in der ersten Spalte der zweiten Zeile und der folgenden zu erzeugen. Dann
werden die Elemente der zweiten Zeile durch das in dieser Zeile an zweiter
Stelle stehende Element dividiert, nachdem, falls erforderlich, zuvor diese Zeile mit einer der folgenden vertauscht wurde. Anschlieend werden mit Hilfe
der zweiten Zeile Nullelemente in der zweiten Spalte der dritten Zeile und der
folgenden Zeilen erzeugt. Entsprechend werden s
amtliche Zeilen bearbeitet,
bis die Matrix B in (132.8) erhalten wird.
Durch rechtsseitige Multiplikationen von B in (132.8) mit den transponierten elementaren Matrizen E 0 folgen dann die Spaltenumformungen. Durch
Multiplikationen der ersten Spalte mit entsprechenden Skalaren und durch
Additionen zu den folgenden Spalten lassen sich Nullen f
ur die ersten Elemente der folgenden Spalten erzeugen. Wiederholt man die entsprechenden
Umformungen f
ur die zweite bis zur rten Spalte, ergibt sich, falls l Umformungen ben
otigt werden
Ir 0
0(k+1) 0(k+2)
0(k+l)
.
BE
E
...E
= BQ = P AQ =
(132.9)
0 0
I r ist die r r Einheitsmatrix, und Q besitzt die Dimensionen n n.
(132.11)
26
worin f
ur die m r Matrix R gilt rgR = r und f
ur die r n Matrix S entsprechend rgS = r, denn aus den regul
aren Matrizen P 1 und Q1 wurden m r
Spalten beziehungsweise n r Zeilen gestrichen, um R und S zu erhalten.
Die Zerlegung (132.11) bezeichnet man als Rangfaktorisierung von A. Da die
Matrizen P und Q wegen der verschiedenen M
oglichkeiten der elementaren
Transformationen nicht eindeutig sind, so da die von Null und Eins verschiedenen Elemente von B in (132.8) sich unterschiedlich ergeben k
onnen, ist
auch die Rangfaktorisierung nicht eindeutig.
133
(p1)
B = (E 3 E 3
(1)
. . . E 3 )A = C 1 A ,
(133.2)
27
13 Matrizen
lassen sich mit A = (aij ) in der
(n1) (n2)
(1)
E3
E3
. . . E 3 =
(133.3)
Im zweiten Eliminationsschritt werden die Nullelemente unterhalb des Diagonalelementes der zweiten Spalte erzeugt, indem die zweite Zeile mit entsprechenden Skalaren multipliziert zu den folgenden Zeilen addiert wird. Im iten
Eliminationsschritt besitzt die Matrix (133.3) das folgende Aussehen, falls
(i)
aij die Elemente der mit i 1 Eliminationsschritten umgeformten Matrix A
bedeuten
1 0 ...
0
0 . . . 0
0 1 ...
0
0 . . . 0
...................................
0 0 ...
1
0 . . . 0
(133.4)
0 0 . . . a(i) /a(i) 1 . . . 0 .
i+1,i
ii
(i)
(i)
0 0 . . . ai+2,i /aii 0 . . . 0
...................................
0 0 . . . a(i) /a(i) 0 . . . 1
ni
ii
Mit dem (n 1)ten Eliminationsschritt ergibt sich dann aus A die Matrix
B in (133.2). Allgemein erh
alt man die Elemente von B aus A durch
(i) (i)
(i+1)
ajk
f
ur
(i)
= ajk
aji aik
(133.5)
(i)
aii
k {i, . . . , n} .
(n1)
F = (E 2 E 2
(1)
. . . E 2 )B = D1 B = D1 C 1 A
(133.6)
(E 3
(2p1)
E3
(p+1)
. . . E3
)F = F 1 F = I ,
(133.7)
28
Mit den u
brigen Spalten wird dann entsprechend verfahren, bis die Einheitsmatrix in (133.7) erhalten wird, wobei die Matrix des iten Schrittes der
R
uckrechnung den folgenden Aufbau besitzt
1 0 . . . 0 f1,ni+1
0 . . . 0 0
0 1 . . . 0 f2,ni+1
0 . . . 0 0
..........................................
0 0 . . . 1 fni,ni+1 0 . . . 0 0 .
(133.9)
0 0 ... 0
1
0
.
.
.
0
0
..........................................
0 0 ... 0
0
0 ... 0 1
Vereinigt man die Schritte (133.2), (133.6) und (133.7), ergibt sich
(F 1 D1 C 1 )A = A1 A = I ,
(133.10)
1
(133.11)
29
13 Matrizen
Element als Diagonalelement, durch das zu dividieren ist, benutzt wird (Rutishauser 1976, Bd.1, S.28; Stiefel 1970, S.21).
Beispiel: Mit dem Gauschen Algorithmus werde die folgende 3 3 VandermondeMatrix V (Gregory und Karney 1969, S.27) invertiert, wobei zur
Rechenkontrolle eine Spalte der Zeilensummen mitgef
uhrt werden soll. An den
Zeilenenden sind jeweils die Faktoren angegeben, mit denen die Zeilen in den
einzelnen Eliminations- und R
uckrechnungsschritten zu multiplizieren sind.
1 1 1 1 0 0 4 (1), (1)
(133.12)
|V , I, Summe| = 1 2 3 0 1 0 7
1 4 9 0 0 1 15
Ende des
1
0
0
1. Eliminationsschrittes
1 1
1 2
3 8
1 0 0
1 1 0
1 0 1
4
3
11
(3)
Ende des
1
0
0
2. Eliminationsschrittes
Ende des
1
0
0
ersten R
uckrechnungsschrittes
1 1
1 2
0 2
1
0 0
1
1 0
2 3 1
4
3
2
(+1)
(+1)
(+1/2)
0 3/2 1/2
3
4
1
1 3/2
1/2
3
1
1
(1)
2
1
1
Die Faktorisierung mit Hilfe des Gauschen Algorithmus kann man zusammenfassen in dem
Satz: Jede Matrix A mit regul
aren f
uhrenden Hauptuntermatrizen l
at sich
eindeutig zerlegen in das Produkt dreier regul
arer Matrizen und zwar einer
30
unteren EinheitsDreiecksmatrix C, einer Diagonalmatrix D und einer oberen EinheitsDreiecksmatrix F , also A = CDF .
(133.13)
Beweis: Linksseitige Multiplikation von (133.6) mit D ergibt C 1 A = DF .
Wie aus (133.2) bis (133.4) ersichtlich, ist C 1 eine untere EinheitsDreiecksmatrix, w
ahrend F und D in (133.6) eine obere EinheitsDreiecksmatrix beziehungsweise eine Diagonalmatrix darstellen. Nach (131.16) ist C die Inverse von C 1 und ebenfalls untere EinheitsDreiecksmatrix, so wie F und
F 1 mit (133.7) bis (133.9) obere EinheitsDreiecksmatrizen sind. Somit
folgt A = CDF , wobei C, D und F regul
ar sind, da sie aus elementaren Matrizen entstanden sind. Um die Eindeutigkeit der Faktorisierung
zu beweisen, soll A = C 1 D 1 F 1 = C 2 D 2 F 2 angenommen werden, woraus
1
1
1
C 1
2 C 1 D 1 = D 2 F 2 F 1 folgt. Die Produkte C 2 C 1 und F 2 F 1 stellen untere beziehungsweise obere EinheitsDreiecksmatrizen dar, so da sich Iden1
tit
at nur mit C 1
2 C 1 = I, F 2 F 1 = I und D 1 = D 2 einstellen kann. Da die
Matrizen regul
ar sind, folgt mit C 2 C 1
at C 1 = C 2 und
2 C 1 = C 2 die Identit
entsprechend F 1 = F 2 , so da die Aussage sich ergibt.
b) L
osung linearer Gleichungssysteme
Die Begriffe Elimination und R
uckrechnung entstammen dem Verfahren bei
der L
osung linearer Gleichungssysteme. Die n n Matrix A und der n 1
Vektor l seien gegeben. Gesucht wird der n 1 Vektor , f
ur den
A = l
(133.14)
oder
a11 1 + a12 2 + . . . + a1n n = l1
a21 1 + a22 2 + . . . + a2n n = l2
....................................
an1 1 + an2 2 + . . . + ann n = ln
gilt. Man bezeichnet (133.14) als lineares Gleichungssystem mit der Koeffizientenmatrix A, den unbekannten Parametern und den Absolutgliedern l. Ist
rgA = n, sind die Parameter des Gleichungssystems mit
= A1 l
(133.15)
(133.16)
31
13 Matrizen
u
uhrt, was einer schrittweisen Elimination der Parameter i entspricht.
berf
Hieraus ergeben sich dann die i mit F = (fij ) und g = (gi ) durch R
uckrechnung
n = gn , n1 = gn1 fn1,n n , . . .
also
i = g i
n
X
fij j
j=i+1
f
ur i {n 1, . . . , 1}
(133.17)
oder allgemein
= F 1 g .
(133.18)
Die Identit
at von (133.17) und (133.18) folgt aus der Multiplikation der Matrizen (133.9) der einzelnen Schritte der R
uckrechnung.
c) GauJordanMethode
Eine kompaktere Form der Inversion einer regul
aren Matrix erh
alt man mit
der GauJordanMethode. Hierbei werden mit jedem Eliminationsschritt
nicht nur wie bei der Gauschen Elimination Nullelemente in der jeweiligen
Spalte unterhalb, sondern auch oberhalb des Diagonalelementes und auerdem
eine Eins auf der Diagonalen erzeugt, so da in n Eliminations- beziehungsweise Reduktionsschritten die Einheitsmatrix erhalten wird
T (n) T (n1) . . . T (1) A = I
mit
T (n) . . . T (1) = A1 ,
(133.19)
falls T (i) die Matrix der elementaren Umformungen des iten Reduktionsschrittes bedeutet. T (1) ist identisch mit (133.3), falls dort das erste Element
durch 1/a11 ersetzt wird. F
ur T (i) gilt
(i)
1 0 . . . 0 a(i)
0 . . . 0
1i /aii
0 1 . . . 0 a(i) /a(i) 0 . . . 0
2i
ii
......................................
(i)
(133.20)
T (i) = 0 0 . . . 0
1/aii
0 ... 0 ,
(i)
(i)
0 0 . . . 0 a
1 ... 0
i+1,i /aii
......................................
0 0 . . . 0 a(i) /a(i) 0 . . . 1
ni
ii
(i)
32
Erzeugung der Einheitsmatrix als auch die Produkte T (i1) . . . T (1) zur Erzeugung der Inversen sukzessiv gebildet werden. Dies erreicht man dadurch,
da die Spalte, in der die Nullelemente und die Eins als Diagonalelement erzeugt werden, die Reduktionsfaktoren aus (133.20) aufnimmt, mit denen alle
u
ur i, j, k {1, . . . , n}
brigen Spalten durchreduziert werden. Es gilt daher f
(i) (i)
(i+1)
ajk
(i)
= ajk
(i)
aii
(i+1)
= aik /aii
(i+1)
= aki /aii
(i+1)
= 1/aii .
aik
aki
aii
(i)
aji aik
(i)
(i)
(i)
f
ur j 6= i und k 6= i
f
ur k 6= i
f
ur k 6= i
(i)
(133.21)
33
13 Matrizen
(133.22)
Ist A eine positiv definite Matrix, dann sind, wie aus (143.1) und (143.3)
folgen wird, alle Untermatrizen auf der Diagonalen regul
ar und nach (143.4)
die Diagonalelemente von D positiv. Mit D = diag(d11 , . . . , dnn ) l
at sich
1/2
1/2
1/2
daher die Matrix D
= diag(d11 , . . . , dnn ) definieren, so da gilt A =
(CD 1/2 )(D 1/2 C 0 ) = GG0 . Weiter ist D 1/2 C 0 = D1/2 C 1 A oder mit
(133.2) D1/2 C 0 = D 1/2 B, folglich
A = GG0
G0 = D1/2 B ,
mit
(133.23)
wobei G eine untere Dreiecksmatrix bedeutet. Die Zerlegung (133.23) bezeichnet man als CholeskyFaktorisierung. Sie ist wie (133.22) eindeutig.
Eine Zerlegung nach (133.23) zur Inversion einer Matrix oder zur L
osung eines
Gleichungssystems bezeichnet man als CholeskyVerfahren. Dabei ist genau
wie beim Gauschen Algorithmus vorzugehen, nur wird die Marix A nicht in
die obere EinheitsDreiecksmatrix D 1 B, sondern in die obere Dreiecksmatrix G0 = D 1/2 B u
uhrt, woran sich die R
uckrechnung anschliet.
berf
Die CholeskyZerlegung l
at sich auch direkt ohne Zuhilfenahme des Gauschen Algorithmus berechnen. Mit G0 = (gij ), A = (aij ) und GG0 = A erh
alt
man zum Beispiel f
ur eine 4 4 Matrix A
g11 0
0
0 g11 g12 g13 g14
g12 g22 0
0 0 g22 g23 g24
g13 g23 g33 0 0
0 g33 g34
g14 g24 g34 g44 0
0
0 g44
a11 a12 a13 a14
a22 a23 a24
=
.
a33 a34
a44
2
2
2
g13
+ g23
+ g33
= a33
2
2
2
2
g14
+ g24
+ g34
+ g44
= a44
oder allgemein f
ur eine n n Matrix A
gii = (aii
i1
X
k=1
2 1/2
gki
)
f
ur i {1, . . . , n}
(133.24)
34
und f
ur die Elemente oberhalb der Diagonalen von A
g12 g13 + g22 g23 = a23
g12 g14 + g22 g24 = a24
g13 g14 + g23 g24 + g33 g34 = a34
i1
X
k=1
j {i + 1, . . . , n}, i {1, . . . , n} .
f
ur
(133.25)
Man kann also G0 zeilenweise aus der Multiplikation von Spalten berechnen,
und es gilt gij = 0 f
ur alle Elemente oberhalb des letzten von Null verschiedenen Elementes aij einer Spalte j. Das Profil der Matrix A, das durch die
Abst
ande der Diagonalelemente jeder Spalte von dem letzten von Null verschiedenen Element der jeweiligen Spalte definiert wird, bestimmt also den
Rechenaufwand bei der Ermittlung von G0 .
F
ur die L
osung des Gleichungssystems A = GG0 = l durch die Cholesky
Zerlegung erh
alt man
Gs = l
G0 = s ,
mit
i1
X
gki sk )/gii
k=1
f
ur i {1, . . . , n} .
(133.26)
n
X
k=i+1
gik k )/gii
f
ur i {n 1, . . . , 1} .
(133.27)
k=i+1
35
13 Matrizen
Nach a
ii aufgel
ost ergibt sich
a
ii =
n
X
1 1
gik a
ki .
gii gii
(133.28)
k=i+1
F
ur die Elemente von G1 oberhalb der Diagonalen erh
alt man
0=
n
X
gik a
kj = gii a
ij +
k=i
n
X
gik a
kj
f
ur i < j
k=i+1
und nach a
ij aufgel
ost
a
ij =
n
1 X
gik a
kj
gii
f
ur i < j .
(133.29)
k=i+1
36
134
Matrizenidentit
aten
(134.2)
2. AF + BH = 0
4. CF + DH = I .
A1 B(D CA1 B)1
.
(D CA1 B)1
13 Matrizen
37
(134.3)
Eine weitere M
oglichkeit die Gleichungen 1. und 3. aufzul
osen besteht darin, aus 3. die Matrix G = D 1 CE zu ermitteln, so da mit 1. AE
BD 1 CE = I und E = (A BD 1 C)1 folgt. Somit ergibt sich G =
D 1 C(A BD 1 C)1 . Aus dem Vergleich mit der ersten Spalte auf der
rechten Seite von (134.3) folgen dann die beiden Identit
aten
(A BD1 C)1 = A1 + A1 B(D CA1 B)1 CA1
(134.4)
(134.5)
und
(134.6)
(134.7)
und
135
Die Spalten einer Matrix lassen sich als Vektoren auffassen, die einen Vektorraum aufspannen.
Definition: Der Spalten- oder Rangraum R(A) einer m n Matrix A wird
durch die Menge der Vektoren y = Ax mit x E n definiert, R(A) = {y|y =
Ax, x E n }.
(135.1)
38
Satz: F
ur eine mn Matrix A sind der Nullraum von A0 und das orthogonale
Komplement des Spaltenraums von A identisch, also N (A0 ) = R(A) , und
entsprechend N (A) = R(A0 ) .
(135.4)
Beweis: Stellt man A durch seine n Spalten ai mit A = |a1 , . . . , an | dar, ist
x N (A0 ), falls a0i x = 0 f
ur i {1, . . . , n} gilt. Der Vektor x ist dann orthogonal zu jeder Spalte von A und daher orthogonal zum Spaltenraum R(A).
Nach (124.7) ist folglich x Element des orthogonalen Komplements von R(A),
also x R(A) , und es gilt N (A0 ) = R(A) . Durch entsprechende Uberlegungen folgt die zweite Aussage.
Die Dimension des Spalten- und Nullraums einer Matrix erh
alt man mit dem
Satz: Es sei A eine m n Matrix mit rgA = r. Dann gilt rgA = dim R(A) =
rgA0 = dim R(A0 ) = r und dim N (A) = n r sowie dim N (A0 ) = m r.
(135.5)
Beweis: Eine Basis f
ur den Spaltenraum R(A) beziehungsweise R(A0 ) bilden die r linear unabh
angigen Spalten von A beziehungsweise von A0 , so
da mit (122.9) und (132.2) die erste Aussage folgt. Mit (135.4) erh
alt man
dim N (A) = dim R(A0 ) . Da R(A0 ) nach (135.2) Unterraum des E n ist, gilt
mit (124.7) dim R(A0 )+dim R(A0 ) = n und daher dim R(A0 )+dim N (A) =
n und entsprechend dim R(A) + dim N (A0 ) = m, woraus mit dim R(A) =
dim R(A0 ) = r die zweite Aussage folgt.
Der folgende Satz ist f
ur die sp
ater zu behandelnden Normalgleichungen von
Interesse.
39
13 Matrizen
Satz: Es sei A eine m n Matrix mit rgA = r. Dann gilt R(A0 ) = R(A0 A)
und daher rg(A0 A) = r und entsprechend R(A) = R(AA0 ) sowie rg(AA0 )
= r.
(135.6)
Beweis: Aus Ax = 0 folgt A0 Ax = 0. Aus A0 Ax = 0 andererseits folgt
x0 A0 Ax = 0 und daraus mit y = Ax weiter y 0 y = 0 und daher y = 0
sowie Ax = 0. Die beiden Nullr
aume von A und A0 A, die beide Unterr
aume
n
des E sind, sind also identisch, N (A) = N (A0 A). Mit (135.4) folgt dann
R(A0 ) = R(A0 A) und damit aus (124.7) R(A0 ) = R(A0 A). Dann ist
dim R(A0 ) = dim R(A0 A), so da mit (135.5) r = rg(A0 A) sich ergibt. Die
136
Determinanten
Skalare Gr
oen, die f
ur quadratische Matrizen definiert sind und die sich f
ur
die Charakterisierung dieser Matrizen eignen, sind die Determinanten. Zu ihrer Definition ben
otigt man den Begriff der Permutation, der zusammen mit
dem Begriff der Kombination auch im Abschnitt 2 verwendet wird, so da
zun
achst Permutationen und Kombinationen behandelt werden.
a) Permutation und Kombination
Als eine Permutation von Elementen einer Menge bezeichnet man jede Zusammenstellung, die dadurch entsteht, da die Elemente in irgendeiner Reihenfolge nebeneinander gesetzt werden. Will man die Anzahl der Permutationen beispielsweise der drei Buchstaben a, b, c ermitteln, so kann jeder der
drei Buchstaben an die erste Position ger
uckt werden. Jeder der zwei verbleibenden Buchstaben l
at sich an die zweite Stelle setzen, w
ahrend die dritte
Position von dem unbenutzten Buchstaben eingenommen wird, somit
abc
acb
bac
bca
cab
cba.
Das Besetzen der ersten Position kann auf drei Arten geschehen, das der zweiten auf zwei und das der dritten auf eine, so da die Anzahl der Permutationen
3 2 1 = 6 ergibt. Allgemein gilt daher der
Satz: Die Anzahl der Permutationen n verschiedener Elemente ist gleich
1 2 3 . . . n = n!.
(136.1)
Es soll jetzt die Anzahl der Permutationen bestimmt werden, die man mit n
Elementen erh
alt, wenn nur k Elemente in den Permutationen benutzt werden. Man bezeichnet dies als Kombination kter Ordnung. Stellt man die
gleichen Uberlegungen
wie f
ur (136.1) an, so kann die erste Position auf n
Arten besetzt werden, die zweite auf n 1 Arten und die kte Position auf
40
n(k 1) Arten, insgesamt also auf n(n1) . . . (nk +1) Arten. Nimmt man
auf die Anordnung der Elemente in den Kombinationen keine R
ucksicht, so
sind die Kombinationen identisch, die die gleichen Elemente in verschiedenen
Anordnungen enthalten, z.B. a b c und c a b. Falls r die Anzahl der Kombinationen ohne Ber
ucksichtigung der Anordnung ist, so ist rk! die Anzahl
mit Ber
ucksichtigung der Anordnung, da k Elemente sich nach (136.1) k! mal
permutieren lassen. Es gilt daher mit 0! = 1 der
Satz: F
ur n verschiedene Elemente betr
agt die Anzahl der Kombinationen
kter Ordnung ohne Ber
ucksichtigung der Anordnung
n(n 1) . . . (n k + 1)
n!
n
.
(136.2)
=
=
k
123 ... k
k!(n k)!
b) Definition der Determinante
Definition: Die Determinante det A einer nn Matrix A = (aij ) ist gegeben
durch
det A = a1 a2 . . . an ,
wobei u
urlichen Zahlen 1, 2, . . . , n
ber die n! Permutationen , , . . . , der nat
zu summieren ist. Das positive Vorzeichen gilt, falls die Anzahl der Zahlenpaare in der Permutation, die nicht in der nat
urlichen Ordnung sich befinden,
gerade ist, und das negative Vorzeichen f
ur eine ungerade Anzahl.
(136.3)
Beispiel: Aufgrund
a
a12
det 11
a21 a22
c) S
atze f
ur Determinanten
F
ur Determinanten gelten die beiden im folgenden ben
otigten S
atze (Kowalsky 1977, S.87 und 94; Nei und Liermann 1975, S.107 und 111), die
nicht bewiesen werden.
Satz: Werden zwei Spalten oder zwei Zeilen von A vertauscht,
andert det A
das Vorzeichen.
(136.4)
Satz (Laplacescher Entwicklungssatz): Bezeichnet man die Determinante der
Untermatrix von A, die durch das Streichen der iten Zeile und jten Spalte
entsteht, mit det Aij , dann gilt
det A =
n
X
i=1
f
ur j {1, . . . , n}
(136.5)
41
13 Matrizen
und
det A =
n
X
j=1
f
ur i {1, . . . , n} .
(136.6)
(136.7)
(136.8)
(136.9)
d11 d22 det(D 11 )22 und so fort. Aus den gleichen Uberlegungen
folgt
det I = 1 und
(136.10)
n
X
j=1
n
X
j=1
n
X
(1)i+j akj det Aij .
j=1
Der zweite Summand auf der rechten Seite verschwindet aber wegen (136.7),
da er die Anwendung des Entwicklungssatzes auf eine Matrix mit zwei identischen Zeilen bedeutet. Gleiches gilt auch f
ur die entsprechenden Spaltenumformungen.
Praktisch l
at sich daher det A mit (133.2) und
det A = det(C 1 A) = det B = b11 b22 . . . bnn
(136.11)
42
mit elementaren Umformungen mittels der Matrizen vom Typ E 3 ihren Wert
nicht
I CE 1 B C
I
0 B CE 1 D 0
=
.
0
D E E 1 D I
I
0
E
Eine weitere Reduktion der rechten Seite auf Dreiecksmatrizen wie in (136.11)
ergibt dann den ersten Ausdruck in (136.12). Der zweite folgt durch entsprechende Umformungen.
Die Determinante des Produktes zweier Matrizen erh
alt man mit dem
0 AB
=
I
B
beinhaltet die erste Matrix auf der linken Seite elementare Umformungen mit
Hilfe der Matrizen vom Typ E 3 . F
ur die Determinanten beider Seiten erh
alt
man daher, falls noch eine nfache Vertauschung der Spalten der Matrix der
rechten Seite vorgenommen wird, da I eine n n Einheitsmatrix ist
A 0
0 AB
AB
0
n
det
= det
= (1) det
.
I B
I
B
B I
Ist B regul
ar, l
at sich (136.12) anwenden, und es ergibt sich det A det B =
(1)n det(I) det AB, woraus det AB = det A det B folgt. Sind A und B
singul
ar, ist AB wegen (132.3) ebenfalls singul
ar, so da det A = det B =
det AB = 0 gilt, wie in (136.17) gezeigt wird, und somit det AB = det A det B
auch f
ur diesen Fall gilt.
Aus A1 A = I erh
alt man mit (136.10) und (136.13)
det A1 = (det A)1 .
(136.14)
43
13 Matrizen
Man bezeichnet
aij = (1)i+j det Aij
(136.15)
AA =
. . . . . . . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . .
an1 an2 . . . ann a1n a2n . . . ann
oder
det A
0
...
0
0
det
A
.
.
.
0
=
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
0
0
. . . det A
= AA
= (det A)I .
AA
= AA
A
A1 =
.
det A
Damit folgt der
(136.16)
(136.18)
Damit ist die Beziehung zwischen dem Rang einer quadratischen Matrix und
ihrer Determinante hergestellt worden.
137
44
Definition: Die P
Spur spA einer quadratischen n n Matrix A mit A = (aij )
ist durch spA = ni=1 aii gegeben.
(137.1)
(137.2)
(137.3)
(137.4)
Eine Matrix l
at sich auch als Vektor darstellen.
Definition: Es sei A = (aij ) eine m n Matrix, dann bezeichnet vecA den
mn 1 Vektor, der durch das Untereinanderschreiben der Spalten von A
entsteht, folglich
vecA = |a11 , . . . , am1 , a12 , . . . , amn |0 .
(137.5)
(137.6)
erh
alt man
c11 A . . . cp1 A
................
c1s A . . . cps A
= (C 0 A)vecB .
b1
..
bp
45
14 Quadratische Formen
Satz: Es seien A und B zwei n n Matrizen, dann gilt
(vecA)0 vecB = (vecB)0 vecA = sp(AB 0 ) .
(137.7)
Beweis: Mit (123.2) folgt die erste Aussage. Weiter gilt mit A = (aij ), B =
(bij ) und B 0 = (b0ij ) sowie (131.6)
(vecA)0 vecB =
n X
n
X
aij bij =
i=1 j=1
n X
n
X
i=1 j=1
(137.8)
14
Quadratische Formen
141
Transformationen
a) Affine Transformationen
Die lineare Transformation
y = Bx ,
(141.1)
die den Vektor x mit Hilfe der Matrix B in den Vektor y transformiert,
bezeichnet man als affine Transformation. Tritt noch mit z = Bx + c der
Translationsvektor c hinzu, l
at er sich durch y = z c = Bx eliminieren,
so da es gen
ugt, die Transformation (141.1) zu behandeln. Ist B eine m n
Matrix, kann (141.1) als Abbildung des Vektors x E n in den Vektor y E m
angesehen werden.
Ist B eine regul
are n n Matrix, l
at sich (141.1) als Transformation eines
Vektors x E n bez
uglich einer Basis des E n in einen anderen Vektor y E n
bez
uglich derselben Basis interpretieren. Man kann mit (141.1) aber auch die
Vorstellung der Koordinatentransformation verbinden, indem ein und derselbe
Vektor von der Darstellung bez
uglich einer Basis oder eines Koordinatensystems, dessen Achsen in Richtung der Basisvektoren zeigen, in die Darstellung
46
bez
uglich einer anderen Basis oder eines anderen Koordinatensystems u
bergeht. Bei der ersten Interpretation wird der Vektor transformiert, und die
Basis bleibt fest, bei der zweiten wird die Basis oder das Koordinatensystem
transformiert, und der Vektor bleibt unver
andert.
Die affine Transformation u
uhrt als Vektortransformation Strecken in
berf
Strecken,
andert aber die L
angen der Strecken, denn im allgemeinen gilt
|y|2 = y 0 y = x0 B 0 Bx 6= |x|2 . Folglich werden auch Winkel ge
andert, da sie
sich durch die Seiten eines Dreiecks ausdr
ucken lassen. Eine affine Koordinatentransformation rotiert also die einzelnen Koordinatenachsen um beliebige
Winkel und nimmt L
angen
anderungen vor.
b) Orthogonale Transformationen
Gilt f
ur eine n n Matrix B in (141.1) B 0 B = I, bezeichnet man B als orthogonale Matrix und die Transformation mit einer orthogonalen Matrix als
orthogonale Transformation. Es gilt der
Satz: Es sei C eine orthogonale n n Matrix, das heit C 0 C = I. Dann ist
C regul
ar und daher C 1 = C 0 .
(141.2)
Beweis: Aus C 0 C = I folgt, da die Spalten von C paarweise zueinander
orthogonal sind, so da nach (124.2) und (132.2) rgC = n und damit nach
(133.1) die Aussage folgt.
Orthogonale Transformationen
andern Streckenl
angen und damit auch Winkel nicht, denn bezeichnet man mit y = Cx und z = Cu die Endpunkte einer
transformierten Strecke x u, erh
alt man mit (123.3) und (141.2)
|y z|2 = (Cx Cu)0 (Cx Cu) = (x u)0 C 0 C(x u) = |x u|2 .
Die Transformation
x = Ax
(141.3)
47
14 Quadratische Formen
erh
alt, falls (ei , ej ) den Winkel zwischen den Basisvektoren ei und ej bezeichnet. Den Kosinus dieses Winkels nennt man Richtungskosinus. Ferner ergibt
sich x = E 0 E x = A0 x wegen A0 = E 0 E und mit (141.3) x = A0 Ax f
ur
alle x, so da A0 A = I und A als orthogonale Matrix folgt. Sind andererseits
A und E orthogonale Matrizen, erh
alt man E = EA0 aus E = E A, so
0
0
0
da wegen E E = AE EA = I die Basisvektoren e1 , . . . , en orthonormal
sind. Es folgt damit der
Satz: Eine Transformation ist genau dann orthogonal, wenn sie eine orthonormale Basis in eine andere orthonormale Basis u
uhrt. Die Transformaberf
tionsmatrix enth
alt dann die Richtungskosinus zwischen den urspr
unglichen
und den transformierten Basisvektoren.
(141.4)
Der orthogonalen Transformation orthonormaler Basisvektoren entspricht die
orthogonale Transformation orthogonaler Koordinatensysteme.
Beispiel: Orthogonale Transformationen dreidimensionaler, orthogonaler Koordinatensysteme bewirken die Drehmatrizen
cos 0 sin
1
0
0
,
1
0
cos sin , R2 () = 0
R1 () = 0
sin 0
0 sin cos
cos
cos sin 0
(141.5)
R3 () = sin cos 0 ,
0
0
1
d
1
0
0
0
1
(141.6)
48
Drei differentielle Drehungen um die Winkel d, d, d aneinandergesetzt betragen, falls dd = dd = dd = 0 gesetzt wird,
1
d
d
1
d .
(141.7)
R1 (d)R2 (d)R3 (d) = d
d d
1
c) Quadratische und bilineare Formen
Ist die Matrix B der affinen Transformation (141.1) quadratisch und regul
ar,
existiert die inverse Transformation x = B 1 y, und die quadratische L
ange
des Vektors x l
at sich mit (123.3) durch die transformierten Koordinaten
ausdr
ucken
x0 x = y 0 (B 1 )0 B 1 y = y 0 Ay .
(141.8)
y 0 Ay heit quadratische Form und A die Matrix der quadratischen Form. Sie
ist symmetrisch, denn A = (B 1 )0 B 1 = A0 . Dr
uckt man (123.5) entsprechend auch Winkel im transformierten System aus, treten bilineare Formen
y 0 Az auf. Die bilineare Form stellt eine Verallgemeinerung des Skalarproduktes (123.1) dar.
142
(142.1)
eingef
uhrt. Das Extremum wird, wie in (171.6) gezeigt wird, mit Hilfe der
Lagrangeschen Funktion L bestimmt, L = x0 Ax (x0 x 1), in der der
Lagrangesche Multiplikator bedeutet. Die Differentialquotienten L/x gleich
Null gesetzt ergeben die Werte f
ur das Extremum, die mit xi und i bezeichnet
seien. Da L/x = 2Ax 2x gilt, wie in (172.2) abgeleitet wird, erh
alt man
(A i I)xi = 0 .
(142.2)
Man nennt i Eigenwerte und xi Eigenvektoren der Matrix A, falls sie (142.2)
erf
ullen, wobei A nicht, wie hier vorausgesetzt, symmetrisch zu sein braucht.
Damit Vektoren xi existieren, die nicht Nullvektoren sind, m
ussen nach (122.1)
die Spalten der Matrix A i I linear abh
angig sein. Nach (136.17) gilt dann
det(A i I) = 0 .
(142.3)
14 Quadratische Formen
49
Die Entwicklung der Determinante nach (136.5) ergibt, geordnet nach Potenzen von i , die charakteristische Gleichung f
ur A
ri + K1 ir1 + . . . + Kr1 i + Kr = 0 ,
(142.4)
in der die Koeffizienten Ki Funktionen der Elemente von A sind. Die Ordnung
r der Potenzen ergibt sich mit r = rgA, denn die Ordnung der gr
oten von
Null verschiedenen Unterdeterminante von A kann nach (136.18) rgA nicht
u
alt r von Null verschiedene L
osungen f
ur i aus (142.4),
berschreiten. Man erh
die reell sind, falls A symmetrisch ist (Stiefel 1970, S.108).
Die zu den verschiedenen Eigenwerten i geh
orenden Eigenvektoren xi sind
zueinander orthogonal, denn mit (142.2) und der entsprechenden Gleichung
(A j I)xj = 0 f
ur j und xj folgen x0j Axi = i x0j xi und x0i Axj = j x0i xj .
0
Es gilt aber xj Axi = x0i Axj und x0j xi = x0i xj , so da folgt i x0i xj = j x0i xj
und weiter (i j )x0i xj = 0 und somit, falls i 6= j
x0i xj = 0 .
(142.5)
50
Eigenwerte bedeutsam.
Satz: Die Eigenwerte einer Matrix sind invariant gegen
uber orthogonalen
Transformationen.
(142.7)
Beweis: Es sei C mit C 0 C = I eine orthogonale Matrix, die den Vektor
x transformiere in y = Cx, so da mit x = C 0 y wegen (141.2) anstelle von
x0 Ax die quadratische Form y 0 CAC 0 y erhalten wird und anstelle von (142.3)
mit (136.13) det(CAC 0 i I) = det(C(A i I)C 0 ) = det(C 0 C) det(A
i I) = det(A i I), woraus die Aussage folgt.
143
Definite Matrizen
(143.1)
Die folgenden S
atze geben Kritierien daf
ur an, da eine Matrix positiv definit
oder positiv semidefinit ist.
Satz: Eine symmetrische Matrix ist genau dann positiv definit, wenn ihre
Eigenwerte positiv sind, und positiv semidefinit, wenn ihre Eigenwerte nicht
negativ sind.
(143.2)
Beweis: F
ur eine symmetrische Matrix A gilt nach (142.6) X 0 AX = . Setzt
man y = X 0 x, so da wegen (141.2) x = Xy folgt, ergibt sich x0 Ax =
y 0 X 0 AXy = y 0 y = 1 y12 + . . . + n yn2 = Q f
ur alle x. Da X vollen Rang
besitzt, gilt wegen (122.1) X 0 x = y = 0 nur f
ur x = 0. Man erh
alt daher
i > 0 f
ur Q > 0. Gilt umgekehrt i > 0, folgt Q > 0, so da A positiv definit
ist. Weiter ergibt sich i 0 f
ur Q 0 und umgekehrt aus i 0, da A
positiv semidefinit ist.
Satz: Eine positiv definite Matrix ist regul
ar.
(143.3)
14 Quadratische Formen
51
Satz: Eine symmetrische Matrix ist genau dann positiv definit, wenn die
Diagonalelemente der bei der Gauschen Faktorisierung entstehenden Diagonalmatrix positiv sind.
(143.4)
Beweis: Nach (143.3) ist eine positiv definite Matrix A regul
ar, so da wegen (133.22) die Gausche Faktorisierung C 1 A(C 0 )1 = D gilt, in der C 1
regul
ar ist. Setzt man x = (C 0 )1 y, folgt der Rest des Beweises wie der f
ur
(143.2).
Satz: Eine symmetrische Matrix ist genau dann positiv definit, wenn die
CholeskyFaktorisierung A = GG0 gilt, in der G eine regul
are untere Dreiecksmatrix bedeutet.
(143.5)
Beweis: F
ur eine positiv definite Matrix gilt wegen (143.4) die Cholesky
Zerlegung (133.23). Gilt umgekehrt die CholeskyFaktorisierung, folgt mit
(143.4), da die Matrix positiv definit ist.
Satz: Ist A eine positiv definite oder positiv semidefinite Matrix, gilt spA > 0
f
ur A 6= 0.
(143.6)
Beweis: Ist A positiv definit oder positiv semidefinit, ergibt
Pn sich mit (137.3)
aus (142.6) spA = sp(XX 0 ) = sp(X 0 X) = sp = i=1 i mit i 0
aus (143.2), so da spA > 0 gilt und spA = 0 lediglich mit i = 0 f
ur
i {1, . . . , n}. Im letzteren Fall gilt mit (135.5) und (142.6) dim N (A) = n,
so da Ax = 0 f
ur alle x E n sich ergibt und damit A = 0 folgt.
Satz: Ist A eine positiv definite n n Matrix, dann ist B 0 AB positiv definit,
falls die n m Matrix B vollen Spaltenrang m = rgB besitzt. Bei beliebigem
Rang von B ist B 0 AB positiv definit oder positiv semidefinit. Ist A positiv
semidefinit, ist auch B 0 AB unabh
angig vom Rang von B positiv semidefinit.
(143.7)
Beweis: A sei positiv definit. Mit By = x folgt dann y 0 B 0 ABy = x0 Ax > 0
f
ur alle y, da By = x = 0 wegen des vollen Spaltenrangs f
ur B nur f
ur y = 0
gilt. Bei beliebigem Rang f
ur B kann x = 0 auch f
ur y 6= 0 sich ergeben, so
da x0 AX 0 folgt. Ist A positiv semidefinit, folgt mit By = x unabh
angig
von dem Rang von B schlielich y 0 B 0 ABy = x0 Ax 0.
52
(143.9)
15
Generalisierte Inversen
151
(151.1)
so da eine nm Matrix B angegeben werden kann, mit der A von rechts multipliziert die mm Einheitsmatrix I m ergibt. B bezeichnet man als Rechtsinverse von A. Die Rechtsinverse ist nicht eindeutig, denn falls rg(ACA 0 ) = m
gilt, ist beispielsweise CA0 (ACA0 )1 ebenfalls eine Rechtsinverse von A.
Die mn Matrix A besitze nun vollen Spaltenrang n. Dann gilt wegen (135.6)
rg(A0 A) = n, so da folgt
I n = (A0 A)1 A0 A = ((A0 A)1 A0 )A = BA .
(151.2)
B bezeichnet man als Linksinverse von A, sie ist wie die Rechtsinverse nicht
eindeutig.
15 Generalisierte Inversen
152
53
Idempotente Matrizen
(152.1)
(152.3)
(152.5)
54
153
a) Generalisierte Inverse
Die Definition einer inversen Matrix, die sich bislang auf regul
are quadratische Matrizen und auf Rechteckmatrizen mit vollem Zeilen- oder Spaltenrang
beschr
ankte, soll nun auf Rechteckmatrizen von beliebigem Rang ausgedehnt
werden.
Definition: Eine n m Matrix A bezeichnet man als generalisierte Inverse
der m n Matrix A, falls
AA A = A .
(153.1)
55
15 Generalisierte Inversen
Sind R, S, T beliebige Matrizen zutreffender Dimensionen, ist eine generalisierte Inverse A gegeben mit
Ir R
P ,
A = Q
(153.3)
S T
denn
Ir
0
0 I r
0 S
R I r
T 0
1
Q = A .
AA A = P
Ip 0
mit 0 p
Setzt man beispielsweise R = 0, S = 0 und T =
0 0
n r in (153.3), ergibt sich wegen (132.4) rgA = r + p. Dies gilt f
ur alle
generalisierten Inversen A , denn aus AA A = A folgt mit (132.3) rgA
rg(AA ) rg(AA A) = rgA und somit rgA rgA n.
0
0
(153.4)
(153.5)
(153.6)
56
57
15 Generalisierte Inversen
b) Reflexive generalisierte Inverse
und A
r AAr = Ar .
(153.11)
Satz: A
r ist genau dann reflexive generalisierte Inverse von A, wenn A r
(153.13)
generalisierte Inverse von A und rgAr = rgA gilt.
Beweis: Ist A
r reflexive generalisierte Inverse von A, ist sie auch generalisierte Inverse von A und mit (132.3) und (153.11) folgt rgA rg(A
r A)
rg(A
r AAr ) = rgAr rg(Ar A) rg(AAr A) = rgA und damit rgAr =
rgA. Gilt andererseits rgAr = rgA und AAr A = A folgt mit (153.4)
0
0 1
.
F
u
r
den
Fall
AAr AQ = AQ und schlielich Ar AAr = Ar AQ = A
r
A
=
QA
und
A
=
QAA
,
so
da
A
=
QAA
n > m setzt man A
r
r
r
r
A
r AAr = QAAr = Ar und damit die Aussage folgt.
0
Satz: Eine symmetrische reflexive generalisierte Inverse (A0 A)
rs von A A ist
positiv semidefinit.
(153.14)
(A0 A)
rs A A(A A)rs = (A A)rs positiv semidefinit ist, so da die Aussage
folgt.
c) Pseudoinverse
F
ur die Pseudoinverse, auch MoorePenroseInverse genannt, gilt die
Definition: Die n m Matrix A+ ist Pseudoinverse der m n Matrix A,
falls
AA+ A = A , A+ AA+ = A+ ,
(AA+ )0 = AA+ , (A+ A)0 = A+ A .
(153.15)
58
(153.16)
(153.17)
Beweis: G und F seien zwei Pseudoinversen von A. Dann gilt wegen (153.15)
G = GG0 A0 = GG0 A0 AF = GAF = GAA0 F 0 F = A0 F 0 F = F , so da
G = F = A+ folgt. Aus (153.13) ergibt sich rgA+ = rgA.
Satz: Es gilt (A0 )+ = (A+ )0 , so da f
ur A0 = A folgt A+ = (A+ )0 . (153.18)
Beweis: Aus (153.15) ergibt sich (A0 )+ als Pseudoinverse von A0 . Transponiert man (153.15), so erh
alt man (A+ )0 als Pseudoinverse von A0 . Da die
Pseudoinverse eindeutig ist, folgt (A0 )+ = (A+ )0 und f
ur eine symmetrische
Matrix A die symmetrische Pseudoinverse A+ = (A+ )0 .
Satz: Es gilt (A+ )+ = A.
(153.19)
+ +
Beweis: F
ur die Pseudoinverse (A ) von A gelten ebenso wie f
ur die Pseudoinverse A+ von A die vier Bedingungen (153.15), so da wegen der Eindeutigkeit der Pseudoinversen (A+ )+ = A folgt.
Satz: F
ur die Matrix A mit vollem Zeilenrang und die Matrix B mit vollem
Spaltenrang gilt A+ = A0 (AA0 )1 und B + = (B 0 B)1 B 0 , wobei A+ gleichzeitig eine Rechtsinverse von A und B + eine Linksinverse von B ist. (153.20)
Beweis: Aus (151.1) folgt eine Rechtsinverse R von A zu R = A0 (AA0 )1
und aus (151.2) eine Linksinverse L von B zu L = (B 0 B)1 B 0 . Die Matrizen
R und L erf
ullen (153.15), so da die Aussage folgt.
Satz: F
ur eine beliebige m n Matrix A gilt A+ = lim (A0 A + 2 I)1 A0 =
lim A0 (AA0 + 2 I)1 .
(153.21)
15 Generalisierte Inversen
59
(153.22)
154
Lineare Gleichungssysteme
(154.1)
60
(154.4)
15 Generalisierte Inversen
61
(154.7)
Die allgemeine L
osung (154.7) ist nicht eindeutig, denn es existieren wegen
(154.6) n r linear unabh
angige L
osungen in dem L
osungsraum der homogenen Gleichungen. Ist n r = 1, besteht der L
osungsraum aus einer Linie,
auf der die L
osungen sich verschieben lassen. Diese Unbestimmtheit tritt beispielsweise ein, wenn aus Messungen von Schwerkraftdifferenzen Absolutwerte
der Schwerkraft bestimmt werden sollen. Ist n r = 2, besteht der L
osungsraum aus einer Ebene, in der die L
osungen willk
urlich zu verschieben sind.
F
ur h
ohere Werte von n r ergeben sich entsprechende Interpretationen.
Gilt nr = 0, ist rgA = n und A 0 = 0 ergibt sich wegen (122.1) und (132.2)
nur f
ur 0 = 0. Die L
osung in (154.7) l
at sich dann mit einer Linksinversen f
ur A aus (151.2) berechnen. Die L
osungen mit Hilfe verschiedener
Linksinversen, beispielsweise 1 = (A0 A)1 A0 l oder 2 = (A0 CA)1 A0 Cl
mit rg(A0 CA) = n, stimmen s
amtlich u
berein, denn wegen der Konsistenz
des Gleichungssystems gibt es zu jedem l einen Vektor w, so da Aw = l gilt,
womit durch Substitution 1 = 2 = w folgt.
Wie im Kapitel 331 gezeigt wird, treten bei der Parametersch
atzung in Modellen mit nicht vollem Rang symmetrische Gleichungssysteme der folgenden
Gestalt auf. F
ur sie gilt der
Satz: Das Gleichungssystem
X 0 X = X 0 y ,
(154.8)
(154.9)
worin z ein beliebiger u 1 Vektor bedeutet. Gilt rgX = u, ergibt sich die
eindeutige L
osung zu
= (X 0 X)1 X 0 y .
(154.10)
62
ist. (154.9) folgt aus (154.7). Weiter ist wegen (135.6) rgX = rg(X 0 X), so
da mit rgX = u und (153.22) die eindeutige L
osung (154.10) aus (154.9)
sich ergibt.
155
zerlegen l
at, da f
ur die q q Matrix N 11 gilt rgN 11 = q. Aufgrund der
linearen Abh
angigkeit von u q Spalten der Matrix N gibt es wegen (122.3)
eine q (u q) Matrix M derart, da
N 12 = N 11 M
und
N 22 = N 21 M
(155.2)
und
N 22 = N 21 N 1
11 N 12 .
(155.3)
Eine generalisierte Inverse N und zugleich eine symmetrische reflexive generalisierte Inverse N
rs von N sind gegeben durch
N 1 0
11
= N
N =
(155.4)
rs ,
0
0
denn (153.1) ist erf
ullt mit
N 11
N 12
N N N =
N 21 N 21 N 1
11 N 12
=N
(155.5)
und weiter (153.11). Auerdem ist die reflexive generalisierte Inverse (155.4)
symmetrisch.
Bezeichnet man mit Y die Matrix der Eigenvektoren von N , die der Zerlegung
63
15 Generalisierte Inversen
(155.6)
ullt.
denn mit Y 01 Y 1 = I und N N + = N + N = Y 1 Y 01 ist (153.15) erf
b) Rechenformeln mit Hilfe der Basis des Nullraums
Die u u Matrix X 0 X mit rgX = rgX 0 X = q < u soll jetzt mit Hilfe einer
Matrix B wie folgt zur Matrix D erweitert werden
X 0X B0
.
(155.7)
D=
B
0
Dies entspricht bei der Parametersch
atzung, wie im Kapitel 333 gezeigt wird,
der Einf
uhrung der Restriktionen
B = 0
(155.8)
f
ur den u 1 Parametervektor im Gleichungssystem (154.8). Die Matrix B
soll derart gew
ahlt werden, da D regul
ar wird, so da aus (154.8) eindeutig
bestimmbar ist. Da rg(X 0 X) = q gilt, m
ussen u q Restriktionen eingef
uhrt
werden, wie sich aus dem folgenden Satz ergibt.
X
= u, worin B eine (u q) u Matrix bedeutet, genau
Satz: Es gilt rg
B
dann, wenn D regul
ar ist.
(155.9)
0
Vektorraum
R(X
) nach (135.6) R(X 0 ) = R(X 0 X) gilt, besitzt auch die Ma
0
XX
insgesamt u linear unabh
trix
angige Zeilen und damit nach (132.2)
B
vollen Spaltenrang
u.
Die Spalten dieser Matrix bilden mit den u q Spal B0
insgesamt 2u q linear unabh
ten der Matrix
angige Spalten, denn
0
64
X 0X
lassen sich zwar Vektoren
durch Linearkombination der Spalten von
B
erzeugen, deren unterste u q Komponenten gleich Null sind, die oberen u
0
Komponenten
0 bilden aber einen Vektor 6= 0 aus R(X X), so da die Spal B
nicht erzeugt werden k
ten von
onnen, folglich die Matrix D den vollen
0
Rang 2uq besitzt und damit
regul
ar, sind nach
D regul
ar ist. Ist andererseits
X
X 0X
linear unabh
angig, so
und somit von
(133.1) die Spalten von
B
B
da die Aussage sich ergibt.
Um die Inverse von D angeben zu k
onnen, wird die folgende Matrix eingef
uhrt. Aus den beiden Gleichungen in (155.2) N 11 M + N 12 = 0 und
N 21 M + N 22 = 0 folgt, da eine (u q) u Matrix E mit
N 1 N 12
0
11
E =
(155.10)
I
derart existiert, da
X 0 XE 0 = 0 und daher XE 0 = 0 ,
(155.11)
berechnen oder h
aufig unmittelbar angeben, da in ihr die Anderungen
enthalten sind, die die Parameter in (154.8) vornehmen k
onnen, ohne da sich die
Absolutglieder des Gleichungssystems
andern. Beispiele hierzu befinden sich
im Kapitel 333 und 343.
F
ur die Matrizen B und E erh
alt man den
X
= u genau dann, wenn die Matrix BE 0 vollen Rang
Satz: Es gilt rg
B
besitzt.
(155.12)
X
vollen Spaltenrang, dann existiert nach
Beweis: Besitzt die Matrix
B
(151.2) eine Linksinverse, die durch |S, U | gegeben sei, so da SX +U B = I u
gilt und weiter SXE 0 + U BE 0 = E 0 oder U BE 0 = E 0 wegen (155.11). Mit
(132.3) erh
alt man rg(BE 0 ) rg(U BE 0 ) = rgE 0 = u q. Da aber BE 0
eine (u q) (u q) Matrix ist, folgt rg(BE 0 ) =
u q. Besitzt anderer X
< u gilt, dann l
seits BE 0 vollen Rang und nimmt man an, da rg
at
B
65
15 Generalisierte Inversen
(155.16)
0 1
oder (X 0 X + B 0 B)(Qb + E 0 (BE 0 )1
(EB
) E) = I wegen BQb = 0 und
X
XE 0 = 0. Hieraus folgt, da |X 0 , B 0 |
vollen Rang besitzt,
B
Qb = (X 0 X + B 0 B)1 E 0 (EB 0 BE 0 )1 E .
(155.17)
(155.17) erf
ullt BQb = 0, denn man erh
alt BQb (X 0 X + B 0 B) = B
0
0 1
0 1
0
BE (BE ) (EB ) EB B = 0.
Rechtsseitige Multiplikation von (155.16) mit X 0 X ergibt X 0 XQb X 0 X =
X 0 X und aus linksseitiger Multiplikation mit Qb folgt Qb X 0 XQb = Qb ,
66
(155.18)
(155.19)
(155.20)
X
= u wegen (124.2) und (155.11)
gew
ahlt werden, was zul
assig ist, da rg
E
gilt. Mit Qe anstelle von Qb erh
alt man aus (155.15)
X 0 X E 0 1
Qe
E 0 (EE 0 )1
=
(155.21)
E
(EE 0 )1 E
0
0
X 0 XQe = I E 0 (EE 0 )1 E
(155.22)
(155.23)
67
15 Generalisierte Inversen
Wie f
ur Qb gilt X 0 XQe X 0 X = X 0 X und Qe X 0 XQe = Qe . Weiter sind
0
X XQe und Qe X 0 X symmetrisch, so da nach (153.15) Qe die Pseudoinverse von X 0 X ist,
Qe = (X 0 X)+ .
(155.24)
(155.25)
(155.26)
positiv
.
Ihre Richtigkeit folgt aus der Definition (131.12) einer inversen Matrix mit
(155.11), (155.16) und BQb = 0 in (155.14). Mit (155.16) ergibt sich weiter
(X 0 X + B 0 1 B)(Qb + E 0 (BE 0 )1 (EB 0 )1 E) = I und hieraus
Qb = (X 0 X + B 0 1 B)1 E 0 (BE 0 )1 (EB 0 )1 E .
(155.27)
Wie aus Kapitel 32 zusammen mit (134.8) ersichtlich, lassen sich also die
Restriktionen B = 0 als Beobachtungen mit der Kovarianzmatrix interpretieren, die beliebig zu w
ahlen ist. Die symmetrische reflexive generalisierte
Inverse Qb folgt dann mit (155.27). Ersetzt man B durch E, ergibt sich die
Pseudoinverse Qe .
156
Eigenschaften der Pseudoinversen und einer speziellen symmetrischen reflexiven generalisierten Inversen
In der Menge der generalisierten Inversen zeichnet sich die Pseudoinverse dadurch aus, da sie nach (153.17) eindeutig ist. Weiter ist sie f
ur symmetrische
68
Matrizen wegen (153.18) ebenfalls symmetrisch. Auerdem besitzt sie die beiden folgenden, im Zusammenhang mit Parametersch
atzungen wichtigen Eigenschaften.
Satz: In der Menge der symmetrischen reflexiven generalisierten Inversen
symmetrischer Matrizen besitzt die Pseudoinverse minimale Spur.
(156.1)
Beweis: Mit (155.22) und (155.25) erh
alt man unter Beachtung von (137.3)
0
0
0 1
sp[(X
X)
E]. Wegen (143.8) und
rs
rs E (EE )
0 1
(143.9) ist (EE ) positiv definit, so da nach (143.5) die CholeskyFaktori0
0 1
sierung gilt, beispielsweise (EE 0 )1 = GG0 . Dann ist sp[(X 0 X)
rs E (EE )
0
0
0
0
0
0
minimal wird. Dies entspricht, wie im
Vektor z wird derart bestimmt, da
Kapitel 323 gezeigt wird, der Anwendung der Methode der kleinsten Quadrate, so da man mit (323.3) erh
alt z = (EE 0 )1 E(X 0 X)+ X 0 y = 0 wegen
0
+
E(X X) = 0. Damit ergibt sich das Minimum f
ur = (X 0 X)+ X 0 y. Ist
0
0
+
andererseits = (X X) X y die L
osung des Gleichungssystems, dann ist
0
= 0 + z 0 EE 0 z.
0 minimal, denn aus der allgemeinen L
osung folgt
Der zweite Summand auf der rechten Seite ist f
ur alle z 6= 0 gr
oer als Null,
0
gilt.
da EE 0 wegen (143.8) positiv definit ist, so da 0 <
Wie schon durch (155.20) angedeutet wurde und wie mit (333.10) gezeigt
wird, erh
alt man die L
osung des linearen Gleichungssystems X 0 X = X 0 y
mit der Pseudoinversen auch durch Einf
uhrung der Restriktionen E = 0.
Entsprechende Eigenschaften wie f
ur die Pseudoinverse, beschr
ankt allerdings
im Vergleich zu (156.1) auf eine Teilspur und im Vergleich zu (156.2) auf eine
Teilnorm, lassen sich auch f
ur eine symmetrische reflexive generalisierte Inverse zeigen, wenn sie mit Hilfe einer Matrix B in (155.13) berechnet wird,
die aus der Matrix E in (155.10) dadurch entsteht, da nur die der Teilspur
oder Teilnorm zugeh
origen Spalten u
bernommen und die restlichen Spalten
mit Nullen aufgef
ullt werden.
Satz: In der Menge der symmetrischen reflexiven generalisierten Inversen
16 Projektionen
69
sp(S[(X 0 X)
rs ]b S) < sp(S(X X)rs S) .
(156.3)
S 0 , SS = S folgt sp{S[(X 0 X)
rs ]b S} = sp(S(X X)rs S)spS(X X)rs SSE
0 1
(ESE ) ES). Nach Voraussetzung besitzt B vollen Zeilenrang, so da
ESE 0 = BB 0 positiv definit ist. Der Rest des Beweises l
auft daher ab wie
im Beweis zu (156.1).
Satz: Das lineare Gleichungssystem X 0 X = X 0 y wird genau dann mit Hilfe einer symmetrischen reflexiven generalisierten Inversen [(X 0 X)
rs ]b durch
0
= [(X 0 X)
ost, wenn 0 S 0 S unter allen L
osungen im L
osungsrs ]b X y gel
raum des Gleichungssystems minimal wird, wobei [(X 0 X)
rs ]b und S wie in
(156.3) definiert sind.
(156.4)
Beweis: Mit [(X 0 X)
rs ]b ergibt sich wie im Beweis von (156.2) als allgemeine
im L
= [(X 0 X) ]b X 0 y + E 0 z
L
osung
osungsraum des Gleichungssystems
rs
0
0
0
oder S = S[(X X)rs ]b X y+SE z. Der Vektor z wird nun derart bestimmt,
0 S 0 S
minimal wird, so da man z = (ES 0 SE 0 )1 ES 0 S[(X 0 X) ]b
da
rs
0
X y = 0 wegen B = ES 0 S und B[(X 0 X)
alt. Damit ergibt sich
rs ]b = 0 erh
0
das Minimum f
ur = [(X 0 X)
rs ]b X y. Der zweite Teil des Beweises entspricht dem von (156.2).
Wie bereits mit (155.8) angedeutet und wie aus (333.9) ersichtlich, ergibt sich
die L
osung des linearen Gleichungssystems X 0 X = X 0 y mit einer symmetrischen reflexiven generalisierten Inversen auch durch die Restriktionen
B = 0.
16
Projektionen
161
Allgemeine Projektionen
Mit Hilfe der Projektionen lassen sich, wie im Kapitel 323 gezeigt wird, die
Methoden der Parametersch
atzung geometrisch interpretieren.
Definition: Der Vektorraum V lasse sich als direkte Summe V = V1 V2 der
Unterr
aume V1 und V2 ausdr
ucken, so da nach (121.10) x V sich eindeutig
70
162
Orthogonale Projektionen
71
16 Projektionen
beziehungsweise durch I R ,
so da gilt
RA = A beziehungsweise (I R)A = 0 .
(162.3)
beziehungsweise durch I R ,
72
so da gilt
RA = A sowie (I R)A = 0 .
(162.5)
17
171
Im folgenden wird h
aufig das Problem auftreten, Extremwerte, also Maxima
oder Minima von Funktionen von Vektoren oder Matrizen zu bestimmen. Diese Aufgabe soll daher kurz behandelt werden.
Definition: Die Funktion f (x) des Vektors x E n besitzt im Punkt x0 E n
ein Maximum beziehungsweise Minimum, wenn f (x) f (x0 ) beziehungsweise f (x) f (x0 ) f
ur alle x E n gilt. Sind diese Beziehungen nur in der
Nachbarschaft von x0 erf
ullt, liegen lokale Extrema vor.
Obere und untere Schranken einer Menge A bezeichnet man als Supremum
und Infimum von A und schreibt sup A und inf A.
(171.1)
Es sollen nun die notwendigen Bedingungen f
ur das Auftreten von Extrema
angegeben werden. Hierzu m
ussen die Ableitungen von Funktionen eines Vektors oder einer Matrix definiert werden, was f
ur eine Matrix geschehen soll.
Definition: Es sei f (A) eine reelle, differenzierbare Funktion der m n Matrix A = (aij ). Dann ist f (A)/A die m n Matrix der partiellen Ableitungen von f (A) nach den Elementen von A, also f (A)/A = (f (A)/aij ).
(171.2)
Als einfache Beispiele von Funktionen von Matrizen seien f (A) = spA oder
f (A) = det A genannt. F
ur reelle differenzierbare Funktionen gilt folgendes
(Blatter 1974, II, S.168).
Satz: Es sei f (x) eine reelle differenzierbare Funktion von x E n und
x + x E n mit x = |x1 , x2 , . . . , xn |0 ein Nachbarpunkt. Dann
ergibt die TaylorEntwicklung bei Vernachl
assigung von Termen zweiter und
h
oherer Potenzen von xi
f (x) 0
x .
f (x + x) = f (x) +
(171.3)
x
73
(171.4)
(171.5)
m
X
ki gi (x)
i=1
im Punkt x0 station
ar wird, also w(x)/x|x=x0 = 0.
(171.6)
Beweis: An der Stelle des lokalen Extremums gilt mit (171.5), falls dort x =
|dx1 , . . . , dxn |0 gesetzt wird,
f
f
f
dx1 +
dx2 + . . . +
dxn = 0 .
x1
x2
xn
(171.7)
74
Wegen der Nebenbedingungen gi (x) = 0 sind die dxi nicht voneinander unabh
angig, sondern man erh
alt durch Differentiation
gi
gi
gi
dx1 +
dx2 + . . . +
dxn = 0 f
ur i {1, . . . , m} .
x1
x2
xn
Multipliziert man die f
ur i = 1 sich ergebende Gleichung mit dem zun
achst
unbestimmten Skalar k1 , die f
ur i = 2 mit k2 und so fort und addiert sie zu
(171.7), erh
alt man
n
X
f
g1
g2
gm
+ k1
+ k2
+ . . . + km
dxj = 0 .
xj
xj
xj
xj
j=1
(171.8)
Die m Gleichungen
g1
g2
gm
f
+ k1
+ k2
+ . . . + km
=0
xj
xj
xj
xj
f
ur j {1, . . . , m}
(171.9)
bilden f
ur k1 , k2 , . . . , km ein regul
ares Gleichungssystem, da die Koeffizientenmatrix (gi /xj ) nach Voraussetzung vollen Rang besitzt. Die k1 , k2 , . . . , km
lassen sich daher nach (133.15) eindeutig bestimmen und ergeben in (171.8)
eingesetzt
n
f
X
g1
g2
gm
dxj = 0 .
+ k1
+ k2
+ . . . + km
xj
xj
xj
xj
j=m+1
Da die xj f
ur j {m + 1, . . . , n} voneinander unabh
angig sind, erh
alt man
g1
g2
gm
f
+ k1
+ k2
+ . . . + km
=0
xj
xj
xj
xj
f
ur j {m + 1, . . . , n} .
(171.10)
172
75
k=1
n
X 2
(
x ajj
xi j=1 j
= 2xi aii + 2
n
X
n X
n
X
xj xk ajk )
j=1 k=1
j6=k
xk aik = 2
k=1
i6=k
n
X
xk aik = 2ci .
k=1
festes j und mit (136.15) det A/aij = aij oder det A/A = A f
ur eine Matrix A mit funktional unabh
angigen Elementen. F
ur symmetrisches A
erh
alt man mit (136.5) f
ur festes i und j
det A = (1)1+j a1j det A1j + (1)2+j a2j det A2j + . . .
+(1)i+j aij det Aij + . . .
X
X
(1)k+i
(1)k+i aki det(A1j )ki + (1)2+j a2j
= (1)1+j a1j
k
k6=1
X
k
k6=i
k
k6=2
76
f
ur i 6= j
und
f
ur i = j .
Daraus folgt
diagA
det A/A = 2A
und mit (136.16) die Aussage.
Satz: Es seien A eine m n und B eine n m Matrix. Dann gilt
sp(AB)/A = B 0 .
Falls A und B quadratisch sind und A auerdem symmetrisch ist, erh
alt man
sp(AB)/A = B + B 0 diagB .
(172.4)
m X
n
X
aij bji
und
sp(AB)/aij = bji .
i=1 j=1
f
ur i 6= j
sp(AB)/aij = bii
f
ur i = j ,
und
77
(172.5)
m
X
dik ekj
mit
dik =
k=1
n
X
ail blk
und ekj =
n
X
akr crj ,
r=1
l=1
so da
fij =
m X
n X
n
X
i, j {1, . . . , m}
f
ur
und
spF =
m X
m X
n X
n
X
Damit folgt
k=1 r=1
m
X
blk gki +
k=1
i=1 l=1
m
X
i=1
falls G = AC, H = AB, U = BAC und V = CAB. Hieraus folgt dann die
Aussage.
Satz: Sind A, B und C quadratische Matrizen, gilt
sp(ABA0 C)/A = (BA0 C)0 + CAB .
0
Dann folgt
(172.6)
78
173
F
ur die Herleitung von Wahrscheinlichkeitsverteilungen werden h
aufig Variablentransformationen erforderlich, so da (173.1) in ein Integral neuer Variablen transformiert werde. Hierzu sei die injektive, also eineindeutige Abbildung mittels xi = gi (y) mit i {1, . . . , n} und y = |y1 , . . . , yn |0 gegeben.
Die Funktionen gi werden als einmal stetig differenzierbar vorausgesetzt. Es
existiert dann die Jacobische Matrix J,
g1 /y1 g1 /y2 . . . g1 /yn
g2 /y1 g2 /y2 . . . g2 /yn
,
J =
(173.2)
..................................
gn /y1 gn /y2 . . . gn /yn
deren Determinante, die Funktionaldeterminante oder Jacobische Determinante, von Null verschieden ist, also det J 6= 0. Die Umkehrabbildung yi =
hi (x) ist dann eindeutig. Wird durch xi = gi (y) der Bereich S auf den Bereich B abgebildet, so ist das Integral I in den neuen Variablen gegeben durch
(Blatter 1974, III, S.83)
Z
Z
. . . f (x1 , . . . , xn )dx1 . . . dxn
B
...
S
(173.3)
(173.4)
79
(173.5)
f
ur k 6= l ,
f
ur k = l .
Die Zeilen der Jacobischen Matrix J in (173.2) enthalten die Elemente qij /
v11 , qij /v12 , . . . , qij /v1n , qij /v22 , . . . , qij /vnn . Da G eine untere
Dreiecksmatrix darstellt, ist auch J , wie sich aus den Differentialquotienten
ergibt, eine untere Dreiecksmatrix. Ihre Determinante berechnet sich nach
(136.10) aus dem Produkt der Diagonalelemente
det J =
=
q11 q12
q1n q22
qnn
...
...
v11 v12
v1n v22
vnn
2
g11
g11 g22
2
. . . g11 gnn g22
2
. . . gnn
n
Y
i=1
= (det G)
n+1
n+1
gii
80
81
Wahrscheinlichkeitstheorie
21
Wahrscheinlichkeit
211
Einfu
hrung
82
2 Wahrscheinlichkeitstheorie
ausgedr
uckt, in einem von zwei m
oglichen F
allen wird die Zahl oben liegen, so
da die Wahrscheinlichkeit des Eintreffens einer Zahl gleich 1/2 gesetzt werden kann. Dann betr
agt auch die Wahrscheinlichkeit des Eintreffens des Adlers
1/2. Beim Werfen eines symmetrischen W
urfels wird zum Beispiel die Drei in
einem von sechs m
oglichen F
allen oben liegen, so da die Wahrscheinlichkeit
des W
urfelns der Drei sich zu 1/6 ergibt. Aufgrund dieser Uberlegungen
folgt
die
Definition (Klassische Definition der Wahrscheinlichkeit): Falls bei einem
Experiment n sich gegenseitig ausschlieende und gleichm
ogliche Ergebnisse
erzielt werden k
onnen und falls die Anzahl nA dieser Ergebnisse mit dem Ereignis A verbunden ist, dann ist die Wahrscheinlichkeit P (A) des Ereignisses
A gegeben durch
P (A) = nA /n .
(211.1)
Beispiel: Die Wahrscheinlichkeit P ist gesucht, mit der die Zahlen Eins oder
Zwei bei einmaligem W
urfeln fallen. Man erh
alt P = 2/6 = 0, 333.
Aufgrund von (211.1) ergibt sich als Wahrscheinlichkeit P (A) eines Ereignisses A eine rationale Zahl zwischen Null und Eins, 0 P (A) 1. Diese
Wahrscheinlichkeit kann aber nur f
ur Experimente angegeben werden, deren Ereignisse vorhersagbar sind. Die klassische Wahrscheinlichkeitsdefinition
versagt beispielsweise beim W
urfeln mit unsymmetrischen W
urfeln. Die Definition mu daher erg
anzt werden, was mit Hilfe der relativen H
aufigkeit eines
Ereignisses geschehen kann.
Definition: Die relative Haufigkeit h(A) eines Ereignisses A ergibt sich mit
der Anzahl nA des Eintreffens des Ereignisses A unter n Versuchen zu
h(A) = nA /n .
(211.2)
21 Wahrscheinlichkeit
83
Man nimmt nun an, und Versuche wie die des ersten Beispiels unterst
utzen
die Hypothese, da sich die relative H
aufigkeit nach (211.2) bei einer groen
Anzahl von Wiederholungen von Experimenten, deren Ereignisse vorhersagbar sind, der nach (211.1) definierten Wahrscheinlichkeit ann
ahert, so da die
Wahrscheinlichkeit eines Ereignisses mit Hilfe der relativen H
aufigkeit unter
Vorschrift eines Grenzprozesses, bei dem die Anzahl der Versuche gegen unendlich geht, definiert werden k
onnte. Man verzichtet aber auf eine solche
Definition und f
uhrt die Wahrscheinlichkeit durch Axiome ein, wie im Kapitel 213 gezeigt wird. Die Axiome stellen Aussagen u
ber unmittelbar einzusehende Wahrheiten dar, die, als richtig akzeptiert, nicht bewiesen zu werden
brauchen. Zum besseren Verst
andnis der Axiome soll noch darauf hingewiesen
werden, da sich die Wahrscheinlichkeit beziehungsweise die relative H
aufigkeit mehrerer sich gegenseitig ausschlieender Ereignisse aus der Summe der
Wahrscheinlichkeiten beziehungsweise der relativen H
aufigkeiten der einzelnen Ereignisse ergeben, wie das Beispiel zu (211.1) und das erste Beispiel
zu (211.2) zeigen. Bevor aber die Axiome der Wahrscheinlichkeit eingef
uhrt
werden, m
ussen die zuf
alligen Ereignisse definiert werden.
212
Zuf
allige Ereignisse
Das Ergebnis eines bestimmten Experimentes bezeichnet man als Elementarereignis und fat s
amtliche vorstellbaren Elementarereignisse in der Menge
S der Elementarereignisse zusammen, die auch als Ergebnisraum oder Grundraum bezeichnet wird.
Beispiel: Beim W
urfeln ergeben sich als Elementarereignisse die Zahlen 1 bis
6, so da die Menge S der Elementarereignisse sechs Elemente enth
alt.
Teilmengen von S bezeichnet man als zuf
allige Ereignisse und die Menge aller
Teilmengen von S als Menge Z der zuf
alligen Ereignisse. Da die leere Menge
Teilmenge jeder Menge ist, geh
ort sie zur Menge aller Teilmengen, so da
die Menge Z der zuf
alligen Ereignisse auch die leere Menge enth
alt, die als
unm
ogliches Ereignis bezeichnet wird. Schlielich ist auch die Menge S selbst,
die als sicheres Ereignis bezeichnet wird, Element der Menge Z der zuf
alligen
Ereignisse.
Beispiel: Die Menge Z der zuf
alligen Ereignisse beim W
urfeln enth
alt das
unm
ogliche Ereignis, da keine Zahl zwischen 1 und 6 gew
urfelt wird, die
Ereignisse der Zahlen 1 bis 6, die die Elemente der Menge S der Elementarereignisse darstellen, die Ereignisse der Zahlen 1 oder 2, 1 oder 3 und so fort, die
Ereignisse 1 oder 2 oder 3, 1 oder 2 oder 4 und so fort und schlielich das sichere Ereignis 1 oder 2 oder . . . oder 6, somit Z = {, {1}, {2}, . . . , {6}, {1, 2},
{1, 3}, . . . , {1, 2, . . . , 6}}.
84
2 Wahrscheinlichkeitstheorie
F
ur die Teilmengen von S, die die Elemente von Z bilden, lassen sich die im
Kapitel 112 definierten Mengenverkn
upfungen vornehmen. Da im folgenden
nicht nur die Mengen S von endlich vielen oder abz
ahlbar unendlich vielen
Elementarereignissen betrachtet werden, sondern auch die Mengen S von Elementarereignissen, die ein Kontinuum bilden, wird Z als spezielles System von
Teilmengen von S eingef
uhrt, das als Algebra bezeichnet wird (Hinderer
1972, S.75). Eine Algebra Z besitzt die Eigenschaft, da sie als Elemente
die Teilmengen von S und als Element die leere Menge sowie als Element die
Menge S der Elementarereignisse enth
alt. Geh
oren weiter endlich viele oder
abz
ahlbar unendlich viele Elemente zu Z, geh
oren auch die Vereinigung und
der Durchschnitt dieser Elemente zu Z. Gleiches gilt f
ur die Differenz zweier
Elemente. Z enth
alt dann im allgemeinen nicht mehr alle Teilmengen von S,
wie das bei endlich vielen Elementarereignissen der Fall ist. Die Elemente von
Z sind mebare Mengen, f
ur die die im folgenden Kapitel definierten Wahrscheinlichkeitsmae eingef
uhrt werden k
onnen.
Definition: Die Elemente einer Algebra Z von Teilmengen einer bestimmten Menge S von Elementarereignissen bezeichnet man als zufallige Ereignisse.
(212.1)
Definition: Es sei A Z und B Z, dann sagt man, da die Ereignisse A
und B sich gegenseitig ausschlieen, wenn sie kein Elementarereignis gemeinsam haben, wenn also A B = gilt.
(212.2)
Definition: Das Ereignis, das kein Element der Menge S der Elementarereignisse enth
alt, das Ereignis also, das durch die leere Menge gekennzeichnet
ist, bezeichnet man als unmogliches Ereignis.
(212.3)
Definition: Das Ereignis, das alle Elemente von S enth
alt, bezeichnet man
als sicheres Ereignis.
(212.4)
Denkt man sich die Menge S der Elementarereignisse durch die Vereinigung
der sich gegenseitig ausschlieenden Elementarereignisse gebildet, zum Beispiel beim W
urfeln S = {1, 2, . . . , 6} = {1} {2} . . . {6}, so l
at sich das
sichere Ereignis dadurch interpretieren, da zumindest ein Elementarereignis
eintrifft.
Ist A Z, so gilt A S und wegen S Z bildet auch die Menge S \ A nach
21 Wahrscheinlichkeit
213
85
F
ur jedes zuf
allige Ereignis A der Algebra Z von Teilmengen der Menge
S der Elementarereignisse wird jetzt die Wahrscheinlichkeit P (A) eingef
uhrt,
wobei die folgenden Axiome gelten.
Axiom 1: Jedem Ereignis A von Z ist eine reelle Zahl P (A) 0 zugeordnet,
die die Wahrscheinlichkeit von A heit.
(213.1)
Axiom 2: Die Wahrscheinlichkeit des sicheren Ereignisses ist gleich Eins,
P (S) = 1.
(213.2)
Axiom 3: Ist A1 , A2 , . . . eine Folge von endlich vielen oder abz
ahlbar unendlich vielen Ereignissen von Z, die sich gegenseitig ausschlieen, Ai Aj =
f
ur i 6= j, dann gilt
P (A1 A2 . . .) = P (A1 ) + P (A2 ) + . . . .
(213.3)
P (A) = 1 P (A).
(213.4)
(213.6)
86
2 Wahrscheinlichkeitstheorie
(213.7)
A
A B
B
A B
A B
214
87
21 Wahrscheinlichkeit
m/k, w
ahrend die relative H
aufigkeit h(B) des Ereignisses B sich zu l/k ergibt. Die relative H
aufigkeit h(A|B) des Ereignisses A unter der Bedingung,
da B eingetreten ist, betr
agt m/l, folglich
h(A|B) =
m
m l
h(A B)
= / =
.
l
k k
h(B)
P (A B)
P (B)
(214.1)
(214.2)
Beispiel: Ein Kasten enthalte 15 rote und 5 schwarze Kugeln. Gefragt wird
nach der Wahrscheinlichkeit, in zwei aufeinanderfolgenden Ziehungen ohne
Zur
ucklegen eine rote und eine schwarze Kugel zu erhalten. Die Wahrscheinlichkeit P (A), eine rote Kugel zu ziehen, ist nach (211.1) P (A) = 15/20 = 3/4.
Die Wahrscheinlichkeit P (B|A) eine schwarze Kugel unter der Bedingung zu
ziehen, da eine rote gezogen wurde, betr
agt P (B|A) = 5/19. Die Wahrscheinlichkeit, in zwei Ziehungen ohne Zur
ucklegen eine rote und eine schwarze Kugel
zu ziehen, betr
agt daher nach (214.2) P (A B) = (3/4)(5/19) = 15/76.
Die im folgenden abgeleitete Bayessche Formel ermittelt aus der gegebenen
PrioriWahrscheinlichkeit P (Ai ) eines Ereignisses Ai die PosterioriWahrscheinlichkeit P (Ai |B) von Ai , die sich durch das Eintreffen eines Ereignisses
B ergibt. Das der Bayesschen Formel entsprechende BayesTheorem, das f
ur
Verteilungen gilt, bildet den Ausgangspunkt f
ur die BayesStatistik, deren
praktische Anwendung sich immer weiter ausbreitet (z.B. Bossler 1972;
Broemeling 1985; Koch und Riesmeier 1985; Koch 1990; Koch und
Schmidt 1994; Koch 2000).
Satz: F
ur die zuf
alligen Ereignisse A1 , A2 , . . . , An im Wahrscheinlichkeitsraum (S, Z, P ) gelte Ai Aj = f
ur i 6= j, A1 A2 . . . An = S und
P (Ai ) > 0, dann ergibt sich f
ur jedes beliebige Ereignis B Z mit P (B) > 0
die Bayessche Formel
P (Ai )P (B|Ai )
P (Ai |B) = Pn
.
j=1 P (Aj )P (B|Aj )
(214.3)
88
2 Wahrscheinlichkeitstheorie
215
Unabh
angige Ereignisse
Wenn die bedingte Wahrscheinlichkeit P (A|B) nicht vom Eintreffen des Ereignisses B abh
angt, gilt die
Definition: Die Ereignisse A und B sind voneinander unabhangig, falls gilt
P (A|B) = P (A)
(215.1)
In diesem Fall hat also das Eintreffen des Ereignisses B keinerlei Einflu auf
die bedingte Wahrscheinlichkeit des Ereignisses A und umgekehrt. Beispielsweise f
uhrt das zweimalige W
urfeln auf zwei unabh
angige Ereignisse, da die
Wahrscheinlichkeit des Ergebnisses des zweiten Wurfes unter der Bedingung,
da der erste Wurf ein bestimmtes Ergebnis aufweist, nicht von diesem Ergebnis abh
angt.
Mit (215.1) vereinfacht sich (214.2) zu
P (A B) = P (A)P (B) .
22
Zufallsvariable
221
Definition
(215.2)
89
22 Zufallsvariable
Ereignisse sind beispielsweise das Werfen keines oder eines Adlers. Als Zufallsvariable X(si ) l
at sich also die Summe der Adler einf
uhren, so da man
erh
alt X(s1 ) = 2, X(s2 ) = 1, X(s3 ) = 1 und X(s4 ) = 0. F
ur x = 2 bezeichnet
dann X(si ) < 2 das zuf
allige Ereignis, bei dem kein Adler oder ein Adler
geworfen wird.
Die Zufallsvariable bildet also die Menge S der Elementarereignisse zusammen mit Z auf die Menge R der reellen Zahlen mit der Algebra ZR der
sogenannten Borelschen Mengen ab, die durch die Intervalle (, x) f
ur beliebiges x R gebildet werden (Fisz 1976, S.49). F
ur das Urbild X 1 eines
Intervalles wird gefordert
X 1 (, x) Z
f
ur jedes beliebige x R .
(221.2)
Die Zufallsvariable heit dann mebar (Hinderer 1972, S.98). Weiter ist das
Urbild der Vereinigung, des Durchschnitts oder der Differenz von Intervallen
gleich der Vereinigung, dem Durchschnitt oder der Differenz der Urbilder der
Intervalle und damit gleich der Vereinigung, dem Durchschnitt oder der Differenz der entsprechenden Elemente von Z, so da die Intervalle wie zuf
allige
Ereignisse zu behandeln sind.
Die Wahrscheinlichkeit f
ur das zuf
allige Ereignis, f
ur das X(si ) < x gilt, ist
wegen (221.2) definiert durch
P (X(si ) < x) = P (X 1 (, x)) .
(221.3)
(221.4)
Bei einem Experiment, dessen Ergebnisse durch relle Zahlen oder durch ein
Meinstrument mit digitaler Anzeige registriert werden, erfolgt die Abbildung
der Menge der Elementarereignisse auf die Menge der reellen Zahlen durch
die digitale Aufzeichnung. Eine Zufallsvariable, die auf diese Weise definiert
wird, bezeichnet man als Messung oder Beobachtung.
Mit (221.1) wird die eindimensionale Zufallsvariable definiert. Sind anstelle
einer Funktion mehrere Funktionen zur Abbildung erforderlich, ergeben sich
die mehrdimensionalen Zufallsvariablen, die im Kapitel 225 behandelt werden.
222
Verteilungsfunktion
Aufgrund von (221.3) und (221.4) wird jetzt die Verteilungsfunktion einer Zufallsvariablen eingef
uhrt.
90
2 Wahrscheinlichkeitstheorie
Definition: Es sei X(si ) eine Zufallsvariable und P (X < x) die Wahrscheinlichkeit des zuf
alligen Ereignisses X(si ) < x, dann bezeichnet man die durch
F (x) = P (X < x) = P (X 1 (, x)) f
ur alle x R
definierte Funktion F (x) als Verteilungsfunktion der Zufallsvariablen X.
(222.1)
Beispiel: Ein Experiment bestehe im Werfen dreier symmetrischer M
unzen,
wobei die Anzahl der oben liegenden Adler die Ereignisse bilden, deren Wahrscheinlichkeit zu berechnen ist. Die Zufallsvariable X bezeichne daher diese
Anzahl von Adlern. Die Gesamtanzahl der M
oglichkeiten, mit der drei M
unzen
fallen k
onnen, betr
agt 23 . Die Anzahl der M
oglichkeiten, da x Adler mit
x {0, 1, 2, 3} oben liegen, berechnet sich nach (136.2) zu x3 . Somit folgt
wegen (211.1)
3
P (X = x) =
/23 f
ur x {0, 1, 2, 3}
x
oder
P (0) = 1/8, P (1) = 3/8, P (2) = 3/8, P (3) = 1/8 .
Weiter ergibt sich aus (222.1) F (0) = P (X < 0) = 0 wegen (213.5), F (1) =
P (X < 1) = P (X = 0) = 1/8 und mit (213.3), da die Elementarereignisse
sich gegenseitig ausschlieen, F (2) = P (X < 2) = P (X = 0) + P (X = 1) =
4/8, F (3) = P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) = 7/8 und
schlielich F (4) = P (X < 4) = 1, so da die in Abbildung 222-1 dargestellte
Treppenfunktion f
ur die Verteilungsfunktion erhalten wird.
P(X<x)
1
6 /8
4 /8
2 /8
x
-1
91
22 Zufallsvariable
In dem Beispiel zeigen sich drei wichtige Eigenschaften der Verteilungsfunktion, die in dem folgenden Satz genannt sind.
Satz: Ist F (x) Verteilungsfunktion der Zufallsvariablen X, dann gilt mit
x1 < x 2
F (x1 ) F (x2 ) und
F () = 0, F () = 1 .
(222.2)
223
n
X
i=1
f (xi ) = 1 oder
f (xi ) = 1 ,
(223.2)
i=1
(223.3)
92
2 Wahrscheinlichkeitstheorie
Die Verteilungsfunktion einer diskreten Zufallsvariablen bildet also eine Treppenfunktion, die in Abbildung 222-1 f
ur ein Beispiel dargestellt wurde.
Im Gegensatz zur Verteilungsfunktion einer diskreten Zufallsvariablen besitzt
die Verteilungsfunktion einer stetigen Zufallsvariablen keine Sprungstellen,
sondern ist stetig.
Definition: Man bezeichnet X als stetige Zufallsvariable, falls eine nichtnegative integrierbare Funktion f (x) existiert, die f
ur beliebiges x R die
Beziehung
Z x
F (x) =
f (t)dt
erf
ullt, wobei F (x) die Verteilungsfunktion von X und t eine Integrationsvariable bedeuten. Die Funktion f (x) nennt man Dichte oder univariate Verteilung
von X.
(223.5)
In Abbildung 223-1 sind die Verteilungsfunktion F (x) und die Dichte f (x)
einer stetigen Zufallsvariablen X dargestellt.
1
F(x)
f(x)
x
93
22 Zufallsvariable
(223.8)
Ist f (x) im Punkte x stetig, ergibt sich aus der Ableitung des Integrals auf der
rechten Seite von (223.6) nach seiner oberen Grenze die Beziehung zwischen
Verteilungsfunktion und Dichte einer stetigen Zufallsvariablen zu
dF (x)/dx = f (x) .
(223.9)
Damit die integrierbare Funktion f (x) der Werte x einer stetigen Zufallsvariablen X die Dichte angibt, ist es notwendig, da die aus (223.5) sich ergebende
Verteilungsfunktion F (x) die Axiome (213.1) bis (213.3) erf
ullt. Mit f (x) 0
sind (213.1) und (213.3) erf
ullt, da sich gegenseitig ausschlieende Ereignisse
auf elementenfremde Intervalle abgebildet werden. Weiter ist mit F () = 1
aus (222.2) das 2. Axiom erf
ullt, so da f
ur f (x) die Bedingungen erhalten
werden
Z
f (x)dx = 1 .
(223.10)
f (x) 0 und
Beispiele f
ur univariate Verteilungen stetiger Zufallsvariablen werden im Kapitel 24 behandelt, w
ahrend diskrete Verteilungen im n
achsten Kapitel folgen.
224
Von den diskreten Verteilungen ist die Binomialverteilung die wichtigste. Sie
gibt die Wahrscheinlichkeit an, da bei n voneinander unabh
angigen Wiederholungen eines Experimentes, wobei das einzelne Experiment nur in einem
Erfolg oder Mierfolg enden kann und der Erfolg die Wahrscheinlichkeit p
aufweist, x Erfolge eintreffen.
Definition: Die Zufallsvariable X besitzt die Binomialverteilung, falls ihre
Dichte gegeben ist durch
n x
f (x) =
p (1 p)nx
x
f
ur x {0, 1, . . . , n} und 0 < p < 1 .
(224.1)
94
2 Wahrscheinlichkeitstheorie
Zun
achst wird gepr
uft, ob (223.2) erf
ullt ist. Das ist der Fall, denn mit p > 0
und 1 p > 0 ist auch f (x) > 0, und mit der binomischen Reihe ergibt sich
1 = ((1 p) + p)n =
n
X
n
k=0
pk (1 p)nk =
n
X
f (x) .
x=0
f
ur x {0, 1, 2, 3, 4}
und somit
f (0) = 0, 240, f (1) = 0, 412, f (2) = 0, 264, f (3) = 0, 076, f (4) = 0, 008 .
Aus (223.3) folgt dann beispielsweise f
ur die Wahrscheinlichkeit P (X < 2),
da weniger als 2 Produkte fehlerhaft sind, P (X < 2) = 0, 652. Die Dichte
f (x) und die Verteilungsfunktion F (x) f
ur dieses Beispiel sind in Abbildung
224-1 dargestellt.
Geht die Anzahl der Wiederholungen eines Experimentes gegen unendlich und
die Wahrscheinlichkeit des Eintreffens eines Erfolges gegen Null, ergibt sich
aus der Binomialverteilung die PoissonVerteilung.
95
22 Zufallsvariable
f(x)
F(x)
1,0
0,4
0,8
0,3
0,6
0,2
0,4
0,1
0,2
x
x
0
e x
x!
f
ur x {0, 1, 2, . . .} und > 0 .
(224.2)
Da > 0 ist auch f (x) > 0 und mit der Reihenentwicklung der Exponentialfunktion e
e =
X
k
k=0
ergibt sich
(224.3)
k!
x=0
lim
x
=1
n
sowie mit der Definition der Zahl e (Smirnow 1975, Teil I, S.93)
lim
n
= e ,
n
96
2 Wahrscheinlichkeitstheorie
x=0
xf (x) =
X
X
x1
e x
= e
=.
x
x!
(x 1)!
x=1
x=0
(224.4)
225
97
22 Zufallsvariable
Von den mehrdimensionalen Zufallsvariablen sollen im folgenden nur die stetigen Zufallsvariablen behandelt werden. (223.5) entsprechend ergibt sich die
Definition: Man bezeichnet X1 , . . . , Xn als stetige ndimensionale Zufallsvariable, falls eine nichtnegative integrierbare Funktion f (x1 , . . . , xn ) existiert,
die f
ur beliebige x1 , . . . , xn R die Beziehung
Z xn
Z x1
F (x1 , . . . , xn ) =
...
f (t1 , . . . , tn )dt1 . . . dtn
erf
ullt, wobei F (x1 , . . . , xn ) die Verteilungsfunktion und t1 , . . . , tn die Integrationsvariablen bedeuten. Die Funktion f (x1 , . . . , xn ) nennt man Dichte oder
multivariate Verteilung von X1 , . . . , Xn .
(225.2)
Die Wahrscheinlichkeit des Ereignisses X1 < x1 , . . . , Xn < xn ergibt sich mit
(225.2) zu
P (X1 < x1 , . . . , Xn < xn ) = F (x1 , . . . , xn )
(225.3)
(225.4)
x1u
(225.5)
Damit die Funktion f (x1 , . . . , xn ) die Dichte einer ndimensionalen Zufallsvariablen X1 , . . . , Xn angibt, ist es notwendig, da (223.10) entsprechend gilt
Z
Z
f (x1 , . . . , xn ) 0 und
...
f (x1 , . . . , xn )dx1 . . . dxn = 1 .
98
2 Wahrscheinlichkeitstheorie
Diese Unterscheidung wird allerdings zur Vereinfachung der Bezeichnung beginnend mit dem Kapitel 251 fortfallen. Zufallsvariable und die Werte, die sie
annehmen k
onnen, werden dann einheitlich mit kleinen Buchstaben bezeichnet, sofern aus dem Zusammenhang zu entnehmen ist, welche Gr
oe gemeint
ist.
226
Randverteilung
(226.1)
(226.2)
(226.3)
(226.4)
Die Reihenfolge und die Anzahl der Zufallsvariablen in (226.3) und (226.4) ist
beliebig. Mit Hilfe der Randverteilung l
at sich also die Dichte mehrdimensionaler Zufallsvariablen auf die Dichte von Zufallsvariablen niedriger Dimension
zur
uckf
uhren, was bei der Herleitung von Verteilungen benutzt wird. Beispiele
f
ur Randverteilungen befinden sich in (253.1) und in den Beweisen zu (245.1),
(263.1), (264.1) und (265.1).
99
22 Zufallsvariable
227
Bedingte Verteilung
f
ur P (x2 X2 < x2 + x2 ) > 0 .
= x +x
2 R
2 R
f (x1 , x2 )dx1 dx2
(227.1)
x2
f (x1 , x2 )dx1
g(x2 )
(227.2)
f (x1 , x2 )
.
g(x2 )
(227.3)
F (x1 , . . . , xi |xi+1 , . . . , xn ) =
Rxi
...
x
R1
g(xi+1 , . . . , xn )
100
2 Wahrscheinlichkeitstheorie
f (x1 , . . . , xn )
.
g(xi+1 , . . . , xn )
(227.5)
Ein Beispiel f
ur die bedingte Verteilung befindet sich in (253.2).
228
Unabh
angige Zufallsvariable
(228.3)
101
229
(229.1)
Beweis: Die Wahrscheinlichkeit, da die Zufallsvariablen X1 , . . . , Xn im Bereich B liegen, ergibt sich aus (225.2). Transformiert man in dem gewonnenen
Integral die Variablen mit xi = gi (y1 , . . . , yn ), wodurch der Bereich S auf den
Bereich B abgebildet werde, erh
alt man mit (173.3)
Z
Z
. . . f (x1 , . . . , xn )dx1 . . . dxn
B
...
S
so da sich als Dichte b(y1 , . . . , yn ) die angegebene Funktion ergibt, die sicher
nicht negativ ist und somit (225.6) erf
ullt.
23
231
Erwartungswert
Man erh
alt den Erwartungswert einer Zufallsvariablen, indem der Durchschnittswert aller m
oglichen Werte der Variablen unter Ber
ucksichtigung ihrer
Wahrscheinlichkeitsdichten gebildet wird. Den Erwartungswert kann man sich
102
2 Wahrscheinlichkeitstheorie
n
X
xi f (xi ) f
ur i {1, . . . , n}
xi f (xi ) f
ur i {1, . . . , }
i=1
und
= E(X) =
i=1
(231.1)
F
ur ndimensionale stetige Zufallsvariable gilt die
Definition: Der n 1 Zufallsvektor x = |X1 , . . . , Xn |0 besitze die Dichte
f (x1 , . . . , xn ), dann bezeichnet man i oder E(Xi )
Z
Z
i = E(Xi ) =
...
xi f (x1 , . . . , xn )dx1 . . . dxn
(231.3)
103
und anstelle von (231.2) mit Hilfe der Randverteilung g(xi ) von Xi aus (226.4)
i = E(Xi ) =
xi g(xi )dxi .
(231.4)
g(x i )
xi
E(X i )
xi g(xi )dxi /
g(xi )dxi ,
(231.5)
(231.2) und (225.6) E(ci ) = E(h(Xl )) = ci g(xl )dxl = ci und weiter mit
104
2 Wahrscheinlichkeitstheorie
(131.6)
E(di + ei + ci ) = E
n
X
aij Xj +
j=1
o
X
bik Yk + ci
k=1
n
X
aij E(Xj ) +
j=1
o
X
bik E(Yk ) + ci
k=1
232
Multivariate Momente
(232.2)
(1)
(1)
F
ur k = 1 ergeben sich die Erwartungswerte i = xi und = x .
Definition: Momente in bezug auf die Erwartungswerte
E((X1 1 )k1 (X2 2 )k2 . . . (Xn n )kn )
(232.3)
105
(232.4)
und als Varianz oder Dispersion i2 beziehungsweise V (Xi ) das zweite zentrale
Moment der Zufallsvariablen Xi
i2 = V (Xi ) = ii = C(Xi , Xi ) = E((Xi i )2 )
Z
Z
=
...
(xi i )2 f (x1 , . . . , xn )dx1 . . . dxn
(232.6)
106
2 Wahrscheinlichkeitstheorie
(232.8)
(232.9)
107
so ist die linke Seite eine quadratische Funktion von c, die der Konstanten h
gleicht, die gr
oer oder gleich Null ist. Mit (231.5) und (232.5) folgt daraus
die quadratische Gleichung f
ur c
i2 c2 2ij c + j2 h = 0
mit reellen oder komplexen L
osungen, wie aus der Diskriminante (Abramowitz und Stegun 1972, S.17)
2
2
4ij
4i2 (j2 h) = 4(ij
i2 j2 + i2 h)
2
ersichtlich, da i2 h 0 und aufgrund der ersten Aussage ij
i2 j2 0 ist.
2
2 2
F
ur h = 0 und ij = i j oder ij = 1 ergeben sich zwei identische reelle
L
osungen, beispielsweise c0 , folglich mit der Randverteilung g(xi , xj ) von Xi
und Xj
233
108
2 Wahrscheinlichkeitstheorie
(233.1)
(233.2)
Beweis: Aus (233.1) folgt D(y) = E((y E(y))(y E(y))0 ) und mit (231.5)
D(y) = E((Ax + b AE(x) b)(Ax AE(x))0 ) = AE((x E(x))(x
E(x))0 )A0 , woraus die Aussage folgt.
Beispiel: Der 3 1 Zufallsvektor x mit x = (Xi ) und der 3 3 Kovarianzmatrix x werde durch
Y1 = X 1 + X 2 + X 3
Y2 = X 1 X 2 + X 3
in den 2 1 Zufallsvektor y mit y = (Yi ) transformiert. Die 2 2 Kovarianzmatrix y von y folgt dann aus y = Ax A0 mit
1
1 1
A =
.
1 1 1
Satz (233.2) gilt f
ur lineare Transformationen zwischen den Zufallsvektoren x
und y und den Werten x1 , . . . , xn und y1 , . . . , ym , die sie annehmen k
onnen.
Bestehen nun die allgemeinen Beziehungen
y1 = h1 (x1 , . . . , xn ) + b1
y2 = h2 (x1 , . . . , xn ) + b2
............................
ym = hm (x1 , . . . , xn ) + bm
(233.3)
hi
hi
x1 + . . . +
xn
x1 x=x0
xn x=x0
109
(233.4)
Aus (233.2) folgt D(y) = AD(x)A0 und D(y) = D(y) und D(x) =
D(x) wegen y = y y 0 und x = x x0 allerdings nur f
ur kleine Werte
f
ur x und E(x), so da f
ur x0 gen
aherte Erwartungswerte von x gew
ahlt
werden m
ussen. Dann l
at sich bei nichtlinearen Beziehungen (233.3) die Koeffizientenmatrix A in (233.2) aus (233.4) gewinnen.
Beispiel: Der m 1 Zufallsvektor y ergebe sich durch die lineare Transformation y = Bx mit der m n Matrix B = (bij ) aus dem n 1 Zufallsvektor
x. Die Elemente der Matrix A aus (233.4) folgen dann mit
b11 b12 . . . b1n
A = . . . . . . . . . . . . . . . . . . . . = B
bm1 bm2 . . . bmn
in Ubereinstimmung
mit (233.2).
Den Satz (233.2) in Verbindung mit (233.3) und (233.4) bezeichnet man in der
Ausgleichungsrechnung als Fehlerfortpflanzungsgesetz, denn er erlaubt, aus
Varianzen beziehungsweise mittleren Fehlern und Kovarianzen von Zufallsvariablen die Varianzen und Kovarianzen von Funktionen dieser Zufallsvariablen
abzuleiten. Weitere Beispiele zum Fehlerfortpflanzungsgesetz befinden sich am
Ende dieses Kapitels.
Mit Hilfe von (233.2) lassen sich die folgenden Eigenschaften einer Kovarianzmatrix beweisen.
Satz: Eine Kovarianzmatrix ist positiv definit oder positiv semidefinit. (233.5)
Beweis: Die Zufallsvariable Y ergebe sich mit dem n 1 Vektor a von Konstanten durch die lineare Transformation Y = a0 x aus dem n1 Zufallsvektor
x = |X1 , . . . , Xn |0 . Dann gilt mit (233.2) f
ur die Varianz V (Y ) = a0 D(x)a,
0
f
ur die wegen (225.6) und (232.5) a D(x)a 0 gilt, woraus mit (143.1) die
Aussage folgt, da D(x) aus (233.1) wegen C(Xi , Xj ) = C(Xj , Xi ) symmetrisch ist und a beliebig gew
ahlt werden kann.
Satz: Die Kovarianzmatrix D(x) des n 1 Zufallsvektors x = |X1 , . . . , Xn |0
ist genau dann positiv semidefinit, wenn die Wahrscheinlichkeit gleich Eins
110
2 Wahrscheinlichkeitstheorie
0
gilt. Hieraus folgt f
ur Y = a x mit (232.5) (y E(Y ))2 f (y)dy = 0. Dies
kann wegen f (y) 0 nur f
ur Y = E(Y ) mit einer Wahrscheinlichkeit von Eins
erf
ullt sein. Somit ergibt sich P (Y = E(Y )) = 1 oder P (a0 x = E(a0 x) = c) =
1, worin c eine Konstante bedeutet.
P (a0 x = c = E(a0 x)) =
R Gilt andererseits
2
1 f
ur einen Vektor a 6= 0, so folgt (yE(Y )) f (y)dy = 0 f
ur Y = a0 x und
0
0
weiter D(a x) = 0 oder a D(x)a = 0. Dann ist wegen (233.5) D(x) positiv
semidefinit, so da die Aussage folgt.
Zur Interpretation des Satzes (233.6) sei beispielsweise P (a1 X1 + a2 X2 =
c) = 1 angenommen. Die beiden Zufallsvariablen X1 und X2 liegen dann mit
einer Wahrscheinlichkeit von Eins auf einer Geraden, so da lediglich eine Zufallsvariable zu ber
ucksichtigen w
are, wenn die Gerade als Koordinatenachse
gew
ahlt w
urde.
b) Korrelationsmatrix
Fat man die in (232.9) definierten Korrelationskoeffizienten ij in der Korrelationsmatrix R = (ij ) mit
1
12 . . . 1n
1 . . . 2n
R = 21
(233.7)
...................
n1 n2 . . . 1
zusammen, so gilt
R = F D(x)F
(233.8)
F
ur die Korrelationsmatrix gilt der
Satz: Die Korrelationsmatrix ist positiv definit oder positiv semidefinit.
(233.9)
Beweis: Da in (232.9) i2 > 0 vorausgesetzt wurde, besitzt die Matrix F in
(233.8) vollen Rang, so da die Korrelationsmatrix R in Abh
angigkeit von
D(x) wegen (143.7) und (233.5) positiv definit oder positiv semidefinit ist.
Satz: Die Korrelationsmatrix des n1 Zufallsvektors x = |X1 , . . . , Xn |0 ist genau dann positiv semidefinit, wenn mit einer Wahrscheinlichkeit von Eins eine
lineare Beziehung zwischen den Zufallsvariablen X1 , . . . , Xn besteht. (233.10)
111
Beweis: Ist die Kovarianzmatrix D(x) des Zufallsvektors x positiv semidefinit, dann ist auch die Korrelationsmatrix R positiv semidefinit, wie sich aus
dem Beweis von (233.9) ergibt. Die Aussage folgt dann mit (233.6).
c) Kovarianzen von Zufallsvektoren
Die mit (233.1) definierte m m Kovarianzmatrix D(z) des m 1 Zufallsvektors z werde in die folgenden vier Bl
ocke zerlegt
V (Z1 )
. . . C(Z1 , Zn ) C(Z1 , Zn+1 ) . . . C(Z1 , Zm )
............................. ..............................
V (Zn )
C(Zn , Zn+1 ) . . . C(Zn , Zm )
C(Zn , Z1 ) . . .
.
D(z) =
C(Zn+1 , Z1 ) . . . C(Zn+1 , Zn ) V (Zn+1 ) . . . C(Zn+1 , Zm )
............................. ..............................
C(Zm , Z1 ) . . . C(Zm , Zn ) C(Zm , Zn+1 ) . . .
V (Zm )
(233.11)
0
0 0
112
2 Wahrscheinlichkeitstheorie
(233.13)
(233.14)
(233.15)
(233.17)
d) Gewichtsmatrix
Es sei x = |X1 , . . . , Xn |0 ein n 1 Zufallsvektor und D(x) = seine positiv
definite Kovarianzmatrix. Dann bezeichnet man die n n Matrix P
P = c1 ,
(233.18)
113
worin c eine Konstante bedeutet, als Gewichtsmatrix und das Diagonalelement pii von P mit P = (pij ) als das Gewicht der Zufallsvariablen Xi . Sind
die Zufallsvariablen voneinander unabh
angig, vereinfacht sich die Kovarianzmatrix wegen (232.7) zur Diagonalmatrix = diag(12 , . . . , n2 ). Das Gewicht
pi von Xi ergibt sich dann zu
pi = pii = c/i2 .
(233.19)
n
x
x
1 x=x0
n x=x0
................................. 0
D(y) =
A
2 hm
h
m
2
1
.
.
.
n
x1 x=x0
xn x=x0
und somit die Varianz V (Yi ) der Zufallsvariablen Yi mit y = (Yi )
2
2
h
h
i
i
+ . . . + n2
V (Yi ) = 12
x1 x=x0
xn x=x0
(233.20)
und die Kovarianz C(Yi , Yj ) entsprechend. In der Ausgleichungsrechnung bezeichnet man (233.20) als Fehlerfortpflanzungsgesetz voneinander unabh
angiger Beobachtungen.
angigen
2. Beispiel: Es seien Xi mit V (Xi ) = i2 die n voneinander unabh
Zufallsvariablen, die durch die n Messungen beispielsweise
einer
Strecke
defiPn
niert werden. Die Varianz des Mittels X = n1 i=1 Xi folgt dann aus (233.20)
mit
V (X) =
1
1 2
+ . . . + 2 n2
n2 1
n
114
2 Wahrscheinlichkeitstheorie
und f
ur i2 = 2
2
.
n
F
ur diesen Fall ist also das mit (233.19) definierte Gewicht c/V (X) = cn/ 2
des Mittels X proportional zur Anzahl n der Messungen.
3. Beispiel: Durch die Messungen der drei Seiten eines Dreiecks sei der 3
1 Zufallsvektor x definiert, wobei die Beobachtungen die folgenden Werte
x1 , x2 , x3 f
ur x in der Dimension Millimeter ergeben haben
V (X) =
Gesucht ist die Kovarianzmatrix der beiden der Seite x3 anliegenden Winkel
und in der Dimension 0,0001 gon. (Der Mittelpunktswinkel eines Kreises
betr
agt 400 gon.) Mit y = |, |0 ist also D(y) zu berechnen.
Mit Hilfe des Kosinussatzes erh
alt man
x21 = x22 + x23 2x2 x3 cos
so da f
ur die Koeffizientenmatrix A mit (233.4) folgt
x1
x=x0 x2 x=x0 x3 x=x0
.
A=
x1 x=x x2 x=x x3 x=x
0
0
0
x
2
1
3
x x sin
x1 x3 sin
x1 x3 sin
1 3
1, 677 0, 376 1, 152
.
=
0, 539 2, 407 2, 076
115
234
Momenterzeugende Funktion
Mit Hilfe der momenterzeugenden Funktion lassen sich Momente von Zufallsvariablen angeben und Verteilungen ableiten.
Definition: Es sei x = |X1 , . . . , Xn |0 ein n 1 Zufallsvektor mit der multivariaten Verteilung f (x1 , . . . , xn ) und t = |t1 , . . . , tn |0 ein n 1 Vektor von
Konstanten. Dann bezeichnet man Mx (t)
0
116
2 Wahrscheinlichkeitstheorie
(234.4)
=
=
...
...
...
24
Univariate Verteilungen
241
Normalverteilung
Die univariate Normalverteilung und ihre multivariate Verallgemeinerung stellen die wichtigsten Verteilungen stetiger Zufallsvariablen dar.
117
24 Univariate Verteilungen
f (x) =
f(x)
0,8
= 0,5
0, 6
0, 4
= 1
0, 2
x
0
A=
e(x) /2 dx = 1 ,
(241.2)
2
denn substituiert man y = (x )/, so da dy = dx/ folgt, erh
alt man
Z
2
1
A=
ey /2 dy = 1 .
(241.3)
2
118
2 Wahrscheinlichkeitstheorie
A2 =
1
2
rer
/2
ddr =
rer
/2
i
h
2
dr = er /2
=1.
0
1
F (x; 0, 1) =
2
ey
/2
dy
f
ur
<x <.
(241.4)
Werte f
ur F (x; 0, 1) findet man h
aufig tabuliert (z.B. Fisher und Yates
1963, S.45; Pearson und Hartley 1976, Vol.I, S.110), eine graphische Darstellung ist in Abbildung 241-2 gegeben. Mit einer Genauigkeit von 1 105
119
24 Univariate Verteilungen
F(x;0 , 1)
1,0
0,5
x
-3
-2
-1
2
F (x; 0, 1) = 1 ex /2 (a1 t + a2 t2 + a3 t3 )/ 2 f
ur x 0
(241.5)
mit t = 1/(1 + px) und p = 0, 33267, a1 = 0, 4361836, a2 = 0, 1201676, a3 =
0, 9372980. Ahnliche
Approximationen befinden sich in (Carta 1975).
Beispiel: F
ur die Zufallsvariable X mit X N (, 2 ) sind die Wahrscheinlichkeiten P ( < X < + ) und P ( 3 < X < + 3) zu berechnen.
Mit der Variablentransformation y = (x )/ ergibt sich wegen der Symmetrie der Normalverteilung
Z 1
2
1
ey /2 dy
P ( < X < + ) =
2 1
= F (1; 0, 1) (1 F (1; 0, 1)) ,
so da man mit F (1; 0, 1) = 0, 8413 erh
alt
P ( < X < + ) = 0, 683 .
Analog berechnet sich mit F (3; 0, 1) = 0, 9987
P ( 3 < X < + 3) = 0, 997 .
Die Wahrscheinlichkeit ist also n
aherungsweise gleich Eins, da die Werte einer
normalverteilten Zufallsvariablen innerhalb des Intervalls liegen, das durch
ihren Erwartungswert und die dreifache Standardabweichung definiert ist.
Den Wert x , f
ur den
F (x ; 0, 1) =
(241.6)
120
2 Wahrscheinlichkeitstheorie
gilt, bezeichnet man als das Fraktil, Quantil oder den unteren Prozentpunkt der standardisierten Normalverteilung. Entsprechend ist das (1 )
Fraktil oder der obere Prozentpunkt durch F (x1 ; 0, 1) = 1 definiert.
Wegen der Symmetrie der Normalverteilung gilt F (x; 0, 1) = 1 F (x; 0, 1)
und somit wegen F (x1 ; 0, 1) = 1 F (x ; 0, 1)
x = x1 .
(241.7)
Die Fraktile lassen sich den angegebenen Tafeln entnehmen. Bei einer numerischen Berechnung gilt f
ur x mit einer Genauigkeit von 4, 5104 (Abramowitz und Stegun 1972, S.933)
x = t
c 0 + c 1 t + c 2 t2
1 + d 1 t + d 2 t2 + d 3 t3
f
ur
0, 5 < 1
(241.8)
mit
c0 = 2, 515 517 , c1 = 0, 802 853 , c2 = 0, 010 328 , d1 = 1, 432 788 ,
d2 = 0, 189 269 , d3 = 0, 001 308 , t = [ln(1/(1 )2 )]1/2 .
242
Wenn auch die Normalverteilung im vorangegangenen Kapitel definiert wurde, so lassen sich doch eine Reihe von Experimenten angeben, deren ErgebAnordnung der
positiv
negativ
H
aufigkeit
n
0
n1
n
1
...
...
ni
ni1
i+1
...
n
n
i+1
...
...
...
n
Beobachtungsfehler
i =
0 = (n 2 0)
1 = (n 2 1)
...
i = (n 2i)
i+1 = (n 2(i + 1))
...
n = (n 2n)
(242.1)
121
24 Univariate Verteilungen
nisse normalverteilt sind (Rao 1973, S.153), wie beispielsweise die Beobachtungsfehler i , die sich aus sehr vielen kleinen, voneinander unabh
angigen
Elementarfehlern zusammensetzen, die den gleichen Absolutbetrag besitzen
und ebenso leicht positiv, wie negativ sein k
onnen (Hagen 1837, S.34). Bei
n Elementarfehlern ergeben sich die in Tabelle (242.1) angegebenen Anordnungen der , die H
aufigkeit des Vorkommens der Beobachtungsfehler nach
(136.2) und die Werte der Beobachtungsfehler i . Bezeichnet man mit N die
Summe aller H
aufigkeiten, ergeben
sich die relativen
H
aufigkeiten
bei ni1
n
n
n
und n i positiven zu i+1
/N = ni
/N
und
zu
/N
.
Als
Mittel hi
i+1 i
i
und Differenz hi dieser relativen H
aufigkeiten erh
alt man
n 2i 1 n
n+1
n
und hi =
.
hi =
2(i + 1)N i
(i + 1)N i
Weiter ergeben sich das Mittel xi und die Differenz xi der Beobachtungsfehler i+1 und i zu xi = (n 2i 1) und xi = 2. Identifiziert man nun
die Zufallsvariable X mit der Variablen, die die Werte xi annimmt, so gilt f
ur
ihre Dichte f (x)
f (x)
hi
2(n 2i 1)
2xi
xi xi
=
=
=
=
.
f (x)
hi
n+1
(n + 1)
(n + 1) 2
Geht man von der diskreten Zufallsvariablen zu einer stetigen Zufallsvariablen u
ber, ergibt sich df (x)/f (x) = xdx/((n + 1) 2 ) und durch Integration
ln f (x) + c = x2 /(2(n +1) 2 ). Setzt man (n + 1) 2 = 2 und f
ur die Integrationskonstante c = ln( 2), ergibt sich die Dichte der Normalverteilung
N (0, 2 ).
243
Gammaverteilung
bp p1 bx
x e
(p)
f
ur b > 0 , p > 0 , 0 < x <
und f (x) = 0 f
ur die u
brigen Werte von x.
Der Wert (p) ergibt sich aus der durch
Z
(p) =
tp1 et dt f
ur p > 0
0
(243.1)
(243.2)
122
2 Wahrscheinlichkeitstheorie
definierten GammaFunktion.
Die Gammaverteilung erf
ullt (223.10), denn zum einen ist f (x) 0 und zum
anderen gilt
Z p
b
xp1 ebx dx = 1 ,
(243.3)
(p)
0
R
da mit y = bx und dy = bdx sich wegen (243.2) 0 y p1 ey dy/(p) = 1
ergibt.
Zur Auswertung der GammaFunktion (243.2) wird partiell integriert, und
man erh
alt mit der Regel von de LHospital (Smirnow 1975, Teil I, S.167)
Z
i Z
h
p2 t
p1 t
tp2 et dt ,
(p 1)t e dt = (p 1)
(p) = t e
+
0
(243.4)
Ist
eine positive
ganze
Zahl, gilt (p) = (p 1) . . . 2(1) und mit (1) =
R p t
t
=
1
0 e dt = e
0
(p) = (p 1)! f
ur p N und
p>0.
(243.5)
p+
2
2p
f
ur p N und p > 0 (243.6)
R 1/2 t
R
2
2
(1/2) = 0 t
e dt = 2 0 ey /2 dy = , da 0 ey /2 dy/ 2 =
1/2 wegen (241.3) gilt. N
aherungswerte f
ur die Gammafunktion ergeben sich
mit der Stirlingschen N
aherung (Henrici 1977, S.43)
(p) 2 ep pp1/2 .
(243.7)
F
ur die momenterzeugende Funktion einer Zufallsvariablen mit der Gammaverteilung gilt der
Satz: Es sei X G(b, p), dann ergibt sich die momenterzeugende Funktion
Mx (t) von X zu
Mx (t) = (1 t/b)p
f
ur t < b .
(243.8)
123
24 Univariate Verteilungen
Beweis: Mit (234.1) erh
alt man
Mx (t) =
etx
bp p1 bx
x e dx .
(p)
1 (ty/by) p1
y
dy
e
(p)
0
Z
(1 t/b)p p1 (1t/b)y
= (1 t/b)p
e
dy ,
y
(p)
0
Mx (t) =
woraus mit (243.3) die Aussage folgt, da nach (243.1) (1 t/b) > 0 gelten
mu.
Von der reproduzierenden Eigenschaft einer Verteilung spricht man, wenn die
Verteilung der Summe unabh
angiger Zufallsvariablen, deren Verteilungen der
gleichen Klasse angeh
oren, ebenfalls zu dieser Klasse von Verteilungen z
ahlt.
Die Gammaverteilung besitzt diese reproduzierende Eigenschaft, denn es gilt
der
Satz: Die Zufallsvariablen Xi mit Xi G(b, pi ) und i {1, . . . , k} seien
voneinander unabh
angig, dann gilt
X1 + . . . + Xk G(b,
k
X
pi ) .
(243.9)
i=1
G
0
xp1 ebx dx .
(243.10)
124
2 Wahrscheinlichkeitstheorie
X
(bG)j
bp Gp ebG
1+
.
=
(p + 1)
(p + 1)(p + 2) . . . (p + j)
j=1
F (G; b, p) =
(243.11)
244
125
24 Univariate Verteilungen
f
ur > 0 , t > 0 .
(244.2)
Dies ist nach (243.1) die Gammaverteilung T G(, 1). Da die Zeit T bis zur
Ankunft des ersten Fahrzeuges kein absolutes Zeitma, sondern ein Zeitintervall angibt, gilt (244.2) auch f
ur die Zeit zwischen zwei Ank
unften, so da auch
die Verteilung f
ur die Zeit Ts = T1 + . . . + Tk zwischen k Ank
unften angebbar
ist, wobei Ti G(, 1) mit i {1, . . . , k} gilt und die einzelnen Ankunftszeiten voneinander unabh
angig sind. Mit (243.9) folgt dann Ts G(, k).
245
Betaverteilung
( + ) 1
x
(1 x)1
()()
f
ur 0 < x < 1
und f (x) = 0 f
ur die u
brigen Werte von x.
(245.1)
b+
ebybz y 1 z 1 .
()()
F
ur die Transformation y = r sin2 , z = r cos2 mit 0 < r < , 0 < < /2
ergibt sich aus (229.1) mit
y/r y/
= 2r sin cos
det J = det
z/r z/
126
2 Wahrscheinlichkeitstheorie
die Verteilung
f (r, ) =
2b+ br +1
(sin )21