Sie sind auf Seite 1von 403

Herbert Möller

Algorithmische
Lineare Algebra

Hypertextversion
mit 2420 Links
Prof. a. D. Dr. H.Möller
Mathematisches Institut der Universität
Einsteinstr. 62, D-48149 Münster
E-Mail: mollerh@math.uni-muenster.de.
WWW: http://wwwmath.uni-muenster.de/u/mollerh (Die Webseite hat den
Namen Mathkompass, mit dem sie auch im Folgenden zitiert wird).

Dieses Buch wurde mit dem Texteditor AlphaX von Pete Keleher und mit dem
Satzsystem TeXShop 2 (Entwicklung koordiniert von Richard Koch, Dirk Olmes
und Gerben Wierda) auf Macintosh-Computern hergestellt.
AlphaX ist ein Shareware-Programm
(http://magnet.fsu.edu/~hall/docscripting/alpha/),
TeXShop 2 ist ein GNU Public Licence Programm
(http://www.uoregon.edu/~koch/texshop).
Macintosh ist ein Warenzeichen der Apple Computer, Inc.

Copyright c 2010 Herbert Möller.


Permission is granted to copy, distribute and/or modify this document
under the terms of the GNU Free Documentation License, Version 1.2
or any later version published by the Free Software Foundation; with no
Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy
of the license is included in the section entitled “GNU Free Documentation
License” (page 386).

Die “Algorithmische Lineare Algebra” wurde von 1997 bis 2004 mit dem Un-
tertitel “Eine Einführung für Mathematiker und Informatiker” von dem Verlag
Vieweg in der von Rolf Möhring, Walter Oberschelp und Dietmar Pfeifer heraus-
gegebenen Reihe “Mathematische Grundlagen der Informatik” veröffentlicht.

2
The algorithmic way of life is best.
Hermann Weyl (1946)

Vorwort

Vor zwanzig Jahren erschien in den USA das richtungweisende Buch “Linear Al-
gebra and its Applications” von Gilbert Strang [13]. Der erste Satz seines Vorworts
lautete: “Ich glaube, dass das Lehren der Linearen Algebra zu abstrakt geworden
ist.” Sein Vorhaben, Theorie und Anwendungen zu kombinieren, wurde zumindest
auf dem USA-Undergraduate-Niveau außerordentlich erfolgreich verwirklicht.
Ein 1978 in Münster begonnener Versuch, das Werk von Strang an die in unse-
ren Anfängervorlesungen üblichen Anforderungen anzupassen, zeigte allerdings,
dass die ausführliche Behandlung von Anwendungen sowohl den zur Verfügung
stehenden Zeitrahmen sprengt als auch einen didaktisch ausgewogenen Aufbau
erschwert. Dagegen war schon damals zu erkennen, dass die von Strang ebenfalls
sorgfältig herausgearbeiteten Algorithmen es ermöglichen, mehrere Probleme der
verschiedenen Vorlesungen zur Linearen Algebra zu lösen: Die reinen Existenzbe-
weise, die sich vor allem im ersten Viertel häufen und die wenig zum Verständnis
beitragen, können eliminiert werden; genügend viele anregende Beispiele sind
verfügbar, und der Bedarf der Angewandten Mathematik, des Hauptabnehmers
der Linearen Algebra, lässt sich sinnvoll berücksichtigen.
Im Rahmen einer 1984 durchgeführten Vorlesung über “Algorithmen in der Li-
nearen Algebra” stellte es sich heraus, dass die bekannten und einige neue Algo-
rithmen ein tragfähiges Fundament für einen Aufbau der Linearen Algebra bilden
können, der der heutigen Bedeutung des “algorithmischen Denkens” (das heißt
grob gesprochen des Denkens in Abläufen) gerecht wird und der die Weichen
für einen angemessenen Einsatz von Computern in diesem dafür prädestinierten
Gebiet stellt.
In den USA hat die weitere Entwicklung in der Mathematikausbildung unter
anderem zu dem 1991 erschienenen, 910 Seiten umfassenden Werk “Discrete
Algorithmic Mathematics” von Stephen B. Maurer und Anthony Ralston [9]
geführt, dessen achtes Kapitel den Titel “Algorithmic Linear Algebra” trägt.
Auch das 740-seitige Buch “Algorithms” von Robert Sedgewick [11], das 1983 auf
den Markt kam und das inzwischen ins Deutsche übersetzt wurde, bestätigt diese

3
4 Vorwort

Tendenz. Wegen der allgemeinen Verfügbarkeit von Computern an nordamerika-


nischen Hochschulen werden in beiden Werken die meisten Algorithmen in einer
aus Standardprogrammiersprachen abgeleiteten Form beziehungsweise in Pascal
dargestellt. Dieses Vorgehen ist bei uns noch nicht möglich. Es sei auch aus-
drücklich darauf hingewiesen, dass die Orientierung an Algorithmen weder ein
Lehrbuch der Numerischen Mathematik ergibt noch zu einer Vernachlässigung
der formalen Aspekte der Linearen Algebra führt.
Die Dynamik der Algorithmen hat aber die Darstellungsweise in dem vorliegenden
Buch an vielen Stellen beeinflusst. So ist etwa der Anfang des ersten Kapitels als
Beispiel für einen Begriffsbildungsprozess zu verstehen; bei der Entdeckung einer
neuen verallgemeinerten Inversen im zweiten Kapitel wird die Genese skizziert;
die besondere algorithmische Bedeutung des Adjunktensatzes, der am Ende des
fünften Kapitels hergeleitet wird, zeigt sich ein Kapitel später unter anderem
in einem neuen grundlegenden Diagonalisierungsalgorithmus; die Entwicklung
der Jordan-Normalform im sechsten Kapitel stellt eine planmäßige Algorithmi-
sierung eines früheren Existenzbeweises dar, und der zum Schluss gewonnene
Potenzsummen-Algorithmus ist das Ergebnis eines als Design bezeichneten Vor-
gangs.
An die Stelle der eleganten Existenzaussagen treten durchweg konstruktive Her-
leitungen. Da die entsprechenden Beweise dem Anfänger Mühe bereiten können,
wird der methodische Typ und der Schwierigkeitsgrad durch die Buchstaben
r, a, h für routinemäßig, anregend, herausfordernd sowie die Ziffern 1, 2, 3 für
leicht, mittel beziehungsweise schwer gekennzeichnet.
Auch mehrere Bezeichnungen erhalten die für Algorithmen notwendige Klarheit.
So wird jeder der Buchstaben von p bis z und von α bis γ als Algorithmus-
Symbol betrachtet, wenn er links oben vor (der Kennzeichnung) einer beliebigen
m×n - Matrix beziehungsweise einer quadratischen Matrix steht: Im Deutschen
wie im Englischen handelt es sich dabei um Abkürzungen für algorithmische
Zuordnungen von Matrizen.
Obwohl in diesem Buch das Problem, die Lineare Algebra zu algorithmisieren, im
Wesentlichen gelöst wird, ist die Arbeit keineswegs abgeschlossen. Insbesondere
sind kritische Hinweise und Änderungsvorschläge willkommen. Alle hier beschrie-
benen Algorithmen sollen auch als Programme verfügbar sein. Ein Teil wurde
bereits mit Computeralgebrasystemen realisiert. Erfreulicherweise ist das gut ge-
eignete “Multi-Processing Algebra Data Tool” (MuPAD) des Instituts für Auto-
matisierung und Instrumentelle Mathematik der Universität Paderborn kostenlos
über das Internet erhältlich.
Sowohl durch die von G. Strang vorgeschlagenen Computerexperimente als auch
durch die in diesem Buch enthaltenen “Fundgrubenaufgaben” wird angeleitetes
Entdecken in der Mathematikausbildung ermöglicht und damit der Bereich der
Vorwort 5

Übungen sinnvoll erweitert. Es erweist sich dabei als besonders vorteilhaft, dass
die Algorithmische Lineare Algebra viel reicher strukturiert ist als die deduktive
Lineare Algebra.
Bei diesen Projekten und bei der Herstellungsarbeit haben folgende Personen
dankenswerterweise geholfen. Jürgen Maaß , der jetzt Universitätsdozent in Linz
(Österreich) ist, schrieb um 1978 einige Teile des Skriptums und führte die wissen-
schaftliche Begleitung durch. Ohne seine Hilfe wäre der Versuch gar nicht zustan-
de gekommen. Die Fortführung wurde nur dadurch möglich, dass Siegfried Kurz
in bewundernswerter Weise das erste Compuskript herstellte. Für die vielfältige
Unterstützung danke ich ihm herzlich. Herrn Kollegen Walter Oberschelp bin ich
für die sorgfältige Durchsicht der Buchvorlage und für zahlreiche Verbesserungs-
vorschläge dankbar. Der größte Dank gebührt Ingrid von Storp, meiner Frau, die
auch viele formelreiche Seiten übertragen hat. Sie schuf vor allem die Rahmen-
bedingungen, die es ermöglichten, mit der Orientierung an Algorithmen und mit
den sonstigen vielen Besonderheiten ein “Leitbuch” zu schreiben. Ihr sei deshalb
dieses Werk gewidmet.
Münster, im Dezember 1996 Herbert Möller

Vorwort zum Neudruck

Die durchweg positiven Rückmeldungen während der Veröffentlichung als Buch


im Verlag Vieweg von 1997 bis 2004 lassen es sinnvoll erscheinen, eine Hyper-
textversion ohne größere Änderungen bereitzustellen. Im Rahmen des Projekts
“Das Pentatop - didaktische Mathematik ” soll damit weiterhin ein Zugang zur
Tätigkeit des “Algorithmisierens” geschaffen werden. Meinen Söhnen Arnold und
Bernhard danke ich herzlich für ihre Hilfe beim Einfügen der Formeln.
Münster, im November 2014 Herbert Möller
Algorithmenverzeichnis
Eliminationsalgorithmus (C. F. Gauß, sehr bekannt) . . . . . . . . . . . . . . . . . . . . . . 20
Zerlegungsalgorithmus (bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Inversen-Algorithmus (C. F. Gauß und C. Jordan, sehr bekannt) . . . . . . . 63
Differenzen-Algorithmus (bekannt, neue Herleitung) . . . . . . . . . . . . . . . . . . . . . . . 76
Interpolationsalgorithmus (I. Newton, bekannt, neue Herleitung) . . . . . . . . . 77
Spline-Algorithmus (bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Zeilenraumvergleichsalgorithmus (bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
Spaltenraumbasis-Algorithmus (bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Linksnullraum-Algorithmus (wenig bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Nullraumbasis-Algorithmus (bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Quasi-Inversen-Algorithmus (neu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Optimallösungsalgorithmus (E. H. Moore, R. Penrose, bekannt) . . . . . . 161
Orthonormalisierungsalgorithmus (J. P. Gram, E. Schmidt,
sehr bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Transformationsalgorithmus (“schnelle Fourier-Transformation”, C. Runge,
H. König, J. W. Cooley und J. W. Tukey, bekannt) . . . . . . . . . . . . . . . . . 187
Polyeder-Algorithmus (wenig bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
Simplex-Algorithmus (G. B. Dantzig, bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . 216
Ellipsoid-Algorithmus (L. G. Chatschijan, bekannt, Skizze) . . . . . . . . . . . . 227
Projektionsalgorithmus (N. Karmarkar, bekannt, Skizze) . . . . . . . . . . . . . . 228
Äquivalenz-Algorithmus (neu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
Adjunkten-Algorithmus (D. K. Faddejew, J. S. Frame und J. M. Souriau,
bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
Diagonalisierungsalgorithmus (bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
Spektralzerlegungsalgorithmus (bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
Adjunktenspektralalgorithmus (neu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
Hauptachsen-Algorithmus (bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
Singulärwert-Algorithmus (bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
Ähnlichkeitsalgorithmus (neu, nach Existenzbeweis von A. F. Filippow) . 334
Minimalpolynom-Algorithmus (bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
Normalform-Algorithmus (bekannt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
Diagonalisierbarkeitsalgorithmus (neu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
Potenzsummen-Algorithmus (neu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
Inhaltsverzeichnis

Vorwort 3

Algorithmenverzeichnis 6

Inhaltsverzeichnis 7

1 Der Eliminationsalgorithmus 15
1.1 Einführung linearer Gleichungssysteme . . . . . . . . . . . . . . . 15
1.1.1 Beispiel zur Dichte einer Legierung . . . . . . . . . . . . . 15
1.1.2 Beispiel zur Mischung von Flüssigkeiten . . . . . . . . . . 16
1.2 Äquivalente Umformungen . . . . . . . . . . . . . . . . . . . . . . 17
1.2.1 Operationen mit Gleichungen . . . . . . . . . . . . . . . . 18
1.2.2 Erlaubte Umformungen . . . . . . . . . . . . . . . . . . . . 19
1.3 Der Eliminationsalgorithmus . . . . . . . . . . . . . . . . . . . . . 20
1.3.1 Beispiel zum Eliminationsalgorithmus . . . . . . . . . . . . 21
1.3.2 Gleichungssysteme in oberer Dreiecksform . . . . . . . . . 22
1.3.3 Verschwindende Koeffizienten . . . . . . . . . . . . . . . . 23
1.3.4 Gleichungssysteme in Stufenform . . . . . . . . . . . . . . 25
1.4 Spaltenvektoren und Matrizen . . . . . . . . . . . . . . . . . . . . 26
1.4.1 Spaltenvektoren . . . . . . . . . . . . . . . . . . . . . . . . 27
1.4.2 Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.4.3 Matrixschreibweise einer äquivalenten Umformung . . . . . 32
1.4.4 Matrizenmultiplikation . . . . . . . . . . . . . . . . . . . . 33

7
8 Inhaltsverzeichnis

1.4.5 Nichtkommutativität der Matrizenmultiplikation . . . . . . 38


1.4.6 Addition und S-Multiplikation von Matrizen . . . . . . . . 39
1.5 Matrixdarstellung des Eliminationsalgorithmus . . . . . . . . . . . 41
1.5.1 Elementarmatrizen . . . . . . . . . . . . . . . . . . . . . . 42
1.5.2 Produkte von Elementarmatrizen . . . . . . . . . . . . . . 45
1.5.3 Umkehrung der äquivalenten Umformungen . . . . . . . . 47
1.5.4 Vorteile der Produktdarstellung . . . . . . . . . . . . . . . 54
1.5.5 Elimination mit Vertauschungen . . . . . . . . . . . . . . . 55
1.5.6 Beispiel für Matrizenvertauschung . . . . . . . . . . . . . . 57
1.5.7 Beispiel zum Zerlegungssatz . . . . . . . . . . . . . . . . . 60
1.5.8 Die UDO-Zerlegung einer invertierbaren Matrix . . . . . . 61
1.5.9 Der Inversen-Algorithmus von GAU ß und JORDAN . . . . 62
1.6 Einige Typen von Matrizen . . . . . . . . . . . . . . . . . . . . . 64
1.6.1 Die allgemeine lineare Gruppe GL(n ;R) . . . . . . . . . . 64
1.6.2 Weitere Beispiele für Gruppen . . . . . . . . . . . . . . . . 65
1.6.3 Die symmetrische Gruppe von In und die Gruppe der n×n -
Permutationsmatrizen . . . . . . . . . . . . . . . . . . . . 69
1.7 Interpolation und weitere Anwendungen . . . . . . . . . . . . . . 71
1.7.1 Die UDO-Zerlegung der Vandermonde-Matrix . . . . . . . 71
1.7.2 Interpolationsformeln . . . . . . . . . . . . . . . . . . . . . 75
1.7.3 Interpolation mit kubischen Splinefunktionen . . . . . . . 78
1.8 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
1.8.1 Abgrenzungen . . . . . . . . . . . . . . . . . . . . . . . . . 81
1.8.2 Anwendungen von Matrizen . . . . . . . . . . . . . . . . . 82
1.8.3 Iterative Verfahren bei großen linearen Gleichungssystemen 84
1.8.4 Aufwandsabschätzung und Komplexität . . . . . . . . . . 85
1.8.5 Parallelrechnen . . . . . . . . . . . . . . . . . . . . . . . . 87
Inhalthaltsverzeichnis 9

2 Vektorräume 88
2.1 Vektorräume und Untervektorräume . . . . . . . . . . . . . . . . 88
2.1.1 Beispiele für Körper . . . . . . . . . . . . . . . . . . . . . 90
2.1.2 Ein fehlerkorrigierender Code . . . . . . . . . . . . . . . . 92
2.1.3 Lösbarkeit und Lösungsmenge linearer Gleichungssysteme . 94
2.1.4 Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . 96
2.1.5 Beispiele für Vektorräume . . . . . . . . . . . . . . . . . . 97
2.1.6 Untervektorräume . . . . . . . . . . . . . . . . . . . . . . . 98
2.1.7 Beispiele für Untervektorräume . . . . . . . . . . . . . . . 99
2.2 Lineare Unabhängigkeit, Basis und Dimension . . . . . . . . . . . 100
2.2.1 Beispiele für lineare Hüllen . . . . . . . . . . . . . . . . . . 101
2.2.2 Beispiele für lineare Unabhängigkeit . . . . . . . . . . . . . 104
2.2.3 Beispiele für Basen . . . . . . . . . . . . . . . . . . . . . . 109
2.2.4 Beispiele zur Dimension von Vektorräumen . . . . . . . . . 113
2.2.5 Die Fibonacci-Folge . . . . . . . . . . . . . . . . . . . . . . 114
2.3 Die vier fundamentalen Untervektorräume . . . . . . . . . . . . . 117
2.3.1 Einführung der Untervektorräume zur Matrix A . . . . . . 117
2.3.2 Der Zeilenraum Z(A) . . . . . . . . . . . . . . . . . . . . . 118
2.3.3 Anwendung des Zeilenraums . . . . . . . . . . . . . . . . . 119
2.3.4 Beispiel zur Berechnung der Basis eines Zeilenraums . . . . 120
2.3.5 Beispiel für Gleichheit von Zeilenräumen . . . . . . . . . . 123
2.3.6 Der Spaltenraum S(A) . . . . . . . . . . . . . . . . . . . . 124
2.3.7 Beispiel zum Basisergänzungssatz . . . . . . . . . . . . . . 128
2.3.8 Der Linksnullraum L(A) und der Nullraum N(A) . . . . . 128
2.3.9 Anwendungen der Nullräume . . . . . . . . . . . . . . . . 132
2.3.10 Beispiel zu Nullräumen . . . . . . . . . . . . . . . . . . . . 132
2.3.11 Beispiel zum Satz über den Spaltenraum als Nullraum . . . 134
2.3.12 Inhomogene lineare Gleichungssysteme . . . . . . . . . . . 135
10 Inhaltsverzeichnis

2.3.13 Beispiel eines inhomogenen Gleichungssystems . . . . . . . 140


2.3.14 Rechtsinverse, Linksinverse und Rangkriterien . . . . . . . 142
2.4 Orthogonalprojektion und der Optimallösungsalgorithmus . . . . . 145
2.4.1 Metrik und Norm . . . . . . . . . . . . . . . . . . . . . . . 146
2.4.2 Skalarprodukt und Orthogonalität . . . . . . . . . . . . . . 148
2.4.3 Beispiele für Skalarprodukte . . . . . . . . . . . . . . . . . 149
2.4.4 Orthogonale Komplemente der fundamentalen Untervek-
torräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
2.4.5 Das lineare Ausgleichsproblem . . . . . . . . . . . . . . . . 155
2.4.6 Summe und Durchschnitt von Untervektorräumen . . . . . 162
2.4.7 Beispiel zur Summe von Untervektorräumen . . . . . . . . 163
2.4.8 Beispiel zum Durchschnitt von Vektorräumen . . . . . . . 164
2.5 Skalarprodukte und der Orthonormalisierungsalgorithmus . . . . . 168
2.5.1 Hermitesche Matrizen . . . . . . . . . . . . . . . . . . . . 168
2.5.2 Positiv definite Matrizen . . . . . . . . . . . . . . . . . . . 169
2.5.3 Orthonormalbasen . . . . . . . . . . . . . . . . . . . . . . 173
2.5.4 Beispiel für die Berechnung einer Orthonormalbasis . . . . 176
2.5.5 Die QR-Zerlegung . . . . . . . . . . . . . . . . . . . . . . . 177
2.5.6 Orthogonale Summen . . . . . . . . . . . . . . . . . . . . . 180
2.5.7 Orthonormalbasen von Polynom-Vektorräumen . . . . . . 181
2.6 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
2.6.1 Hilbert-Räume mit vollständigen Orthonormalsystemen . . 186
2.6.2 Die schnelle Fourier-Transformation (FFT) . . . . . . . . . 187

3 Lineare Ungleichungssysteme 191


3.1 Lineare Ungleichungssysteme und konvexe Polyeder . . . . . . . . 191
3.1.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . 191
3.1.2 Ecken und zulässige Basislösungen . . . . . . . . . . . . . 194
3.1.3 Gewinnung der Basislösungen durch Basisaustausch . . . . 199
Inhalthaltsverzeichnis 11

3.1.4 Beispiel für die Berechnung von Basislösungen . . . . . . . 202


Zusammenhang zwischen P A, ~b und Q vA, vA~b . . . . . 203
 
3.1.5
3.1.6 Beschreibung von konvexen Polyedern mit Hilfe von Ecken 206
3.1.7 Beispiel für die Berechnung von Kegelanteilen . . . . . . . 210
3.2 Lineare Optimierung und der Simplex-Algorithmus . . . . . . . . 212
3.2.1 Lineare Optimierung . . . . . . . . . . . . . . . . . . . . . 212
3.2.2 Beispiel zur linearen Optimierung . . . . . . . . . . . . . . 214
3.2.3 Der Simplex-Algorithmus . . . . . . . . . . . . . . . . . . . 216
3.2.4 Beispiel zum Simplex-Algorithmus . . . . . . . . . . . . . . 222
3.3 Dualitätstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
3.3.1 Duale lineare Optimierungsaufgaben . . . . . . . . . . . . 223
3.3.2 Komplementarität . . . . . . . . . . . . . . . . . . . . . . 225
3.4 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
3.4.1 Der Ellipsoid-Algorithmus . . . . . . . . . . . . . . . . . . 227
3.4.2 Der Projektionsalgorithmus . . . . . . . . . . . . . . . . . 228
3.4.3 Ganzzahlige lineare Optimierung . . . . . . . . . . . . . . 229
3.4.4 Netzplantechnik und Spieltheorie . . . . . . . . . . . . . . 230

4 Lineare Abbildungen 232


4.1 Definition und elementare Eigenschaften . . . . . . . . . . . . . . 232
4.1.1 Vektorraum-Homomorphismen . . . . . . . . . . . . . . . . 232
4.1.2 Beispiele und Bezeichnungen . . . . . . . . . . . . . . . . . 233
4.1.3 Eigenschaften von linearen Abbildungen . . . . . . . . . . 234
4.1.4 Isomorphe Vektorräume . . . . . . . . . . . . . . . . . . . 237
4.2 Lineare Abbildungen und Matrizen . . . . . . . . . . . . . . . . . 239
4.2.1 Darstellung von linearen Abbildungen durch Matrizen . . . 239
4.3 Basistransformationen und Normalformen . . . . . . . . . . . . . 246
4.3.1 Basiswechsel . . . . . . . . . . . . . . . . . . . . . . . . . . 246
4.3.2 Äquivalenz von Matrizen . . . . . . . . . . . . . . . . . . . 248
12 Inhaltsverzeichnis

4.3.3 Äquivalenzrelationen . . . . . . . . . . . . . . . . . . . . . 249


4.3.4 Charakterisierung der Äquivalenzklassen bezüglich der Ma-
trizenäquivalenz . . . . . . . . . . . . . . . . . . . . . . . . 250
4.3.5 Beispiel zum Äquivalenzsatz . . . . . . . . . . . . . . . . . 252
4.3.6 Parameterdarstellung für verallgemeinerte Inverse . . . . . 254

5 Determinanten 256
5.1 Einführung und Eigenschaften . . . . . . . . . . . . . . . . . . . . 256
5.1.1 Das Volumen von Parallelotopen . . . . . . . . . . . . . . 256
5.1.2 Eigenschaften der Determinantenfunktionen . . . . . . . . 258
5.2 Berechnung der Determinanten . . . . . . . . . . . . . . . . . . . 262
5.2.1 Das Signum von Permutationen . . . . . . . . . . . . . . . 262
5.2.2 Die Leibnizsche Formel . . . . . . . . . . . . . . . . . . . . 267
5.2.3 Weitere Berechnungsmöglichkeiten . . . . . . . . . . . . . 270
5.3 Anwendungen von Determinanten . . . . . . . . . . . . . . . . . . 275
5.3.1 Die Adjunkte und die Cramersche Regel . . . . . . . . . . 275
5.3.2 Das charakteristische Polynom und die Busadjunkte . . . . 277
5.3.3 Beispiel zum Adjunktensatz . . . . . . . . . . . . . . . . . 282
5.3.4 Eindeutigkeit der Volumenfunktion . . . . . . . . . . . . . 283
5.3.5 Volumen von Parallelotopen in Untervektorräumen von Rn×1 283
5.4 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
5.4.1 Das Volumen von Simplexen . . . . . . . . . . . . . . . . . 284
5.4.2 Die Funktionaldeterminante . . . . . . . . . . . . . . . . . 285
5.4.3 Orientierung . . . . . . . . . . . . . . . . . . . . . . . . . . 286

6 Eigenwerte und Eigenvektoren 287


6.1 Ähnlichkeit und Diagonalform von Matrizen . . . . . . . . . . . . 287
6.1.1 Beispiel für eine lineare Differenzengleichung . . . . . . . . 289
6.1.2 Beispiel für eine Markow-Kette . . . . . . . . . . . . . . . 290
Inhalthaltsverzeichnis 13

6.1.3 Beispiel für ein lineares homogenes Differentialgleichungs-


system . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
6.2 Diagonalisierbarkeit von Matrizen . . . . . . . . . . . . . . . . . . 293
6.2.1 Spektralzerlegung . . . . . . . . . . . . . . . . . . . . . . . 301
6.2.2 Beispiel einer Spektralzerlegung . . . . . . . . . . . . . . . 304
6.2.3 Beispiel zum Adjunktenspektralsatz . . . . . . . . . . . . . 309
6.2.4 Spektraltheorie in euklidischen und unitären Vektorräumen 311
6.2.5 Beispiel zum Spektralsatz . . . . . . . . . . . . . . . . . . . 313
6.2.6 Hauptachsentransformation . . . . . . . . . . . . . . . . . 316
6.2.7 Beispiel einer Hauptachsentransformation . . . . . . . . . . 317
6.2.8 Quadratische Formen und Definitheit . . . . . . . . . . . . 318
6.2.9 Normalform und Invarianten bei Kongruenztransformationen320
6.2.10 Die Singulärwert-Zerlegung . . . . . . . . . . . . . . . . . 322
6.2.11 Anwendungen der Singulärwert-Zerlegung . . . . . . . . . 325
6.3 Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
6.3.1 Die Jordan-Normalform . . . . . . . . . . . . . . . . . . . 328
6.3.2 Algorithmus zur Berechnung einerJordan-Blockmatrix und
einer Transformationsmatrix . . . . . . . . . . . . . . . . . 334
6.3.3 Beispiel zum Ähnlichkeitsalgorithmus . . . . . . . . . . . . 336
6.3.4 Erweiterung der Eigenräume . . . . . . . . . . . . . . . . . 338
6.3.5 Projektion auf die erweiterten Eigenräume . . . . . . . . . 341
6.3.6 Ähnlichkeitskriterium für zerfallende Matrizen . . . . . . . 343
6.3.7 Das Minimalpolynom . . . . . . . . . . . . . . . . . . . . . 345
6.3.8 Ein effizienter Normalform-Algorithmus . . . . . . . . . . . 346
6.3.9 Beispiel zum Normalformsatz . . . . . . . . . . . . . . . . 349
6.4 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
6.4.1 Matrizenpotenzen . . . . . . . . . . . . . . . . . . . . . . . 350
6.4.2 Die Matrix-Exponentialreihe . . . . . . . . . . . . . . . . . 351
6.4.3 Ein eigenwertfreies Diagonalisierbarkeitskriterium . . . . . 355
6.4.4 Potenzsummen von Polynomnullstellen . . . . . . . . . . . 359
6.4.5 Design eines sicheren und effizienten Algorithmus zur Ap-
proximation aller Nullstellen von Polynomen über C . . . . 360
14 Inhaltsverzeichnis

Definitions- und Satzverzeichnis 378

Symbolverzeichnis 384

GNU Free Documentation License 386

Literaturverzeichnis 394

Index 395

Lineare Gleichungssysteme, Vektoren, Matrizen,


Produktdarstellung des Eliminationsalgorithmus,
Gruppen, Interpolation, Koeffizientenvergleich

Körper, Vektorräume, lineare Unabhängig-


keit, Basen, fundamentale Untervektor-
räume, Skalarprodukte, Orthogonalität

Lineare Unglei- Lineare Abbildungen,


chungssysteme, Matrixdarstellung,
konvexe Poly- Normalformen
eder, lineare
Optimierung Determinanten, Volumina

Diagonalisierung, Eigenwerte, Eigenvektoren,


Spektraltheorie, Jordan-Normalform

Strukturschema
Kapitel 1

Der Eliminationsalgorithmus

1.1 Einführung linearer Gleichungssysteme


Bereits in der Mittelstufe (Sekundarstufe I) der Schule werden mehrere Aufgaben-
typen behandelt, die auf lineare Gleichungen beziehungsweise Gleichungssysteme
führen: zum Beispiel Mischungsrechnung (Flüssigkeiten, Legierungen), Dreisatz-
aufgaben, Zinsaufgaben, Bewegungsaufgaben (zum Beispiel Berg- und Talfahrt
eines Schiffes), Röhrenaufgaben, Rateaufgaben mit Zahlen.

1.1.1 Beispiel zur Dichte einer Legierung


Man mischt 150 g Kupfer (Dichte ρ = 8,85 g/cm3 ) mit 45 g Zink (ρ = 7,1 g/cm3 ).
Wie groß ist die Dichte der Legierung?

(Lösungsidee: Volumen der Legierung = Summe der Volumina von Kupfer und
Zink; Volumen = Masse/Dichte)
150 45
VK = 8,85 [cm3 ], VZ = 7,1 [cm3 ], 1

VL = 150+45
x
150
[cm3 ], also 8,85 45
+ 7,1 = 150+45
x
,

das heißt, 1463,25 x = 12252,825.

Dieses ist eine lineare Gleichung mit einer Unbekannten. Durch Multiplikation
1
Die Schreibweise VK ist eine Abkürzung für “Volumen des Kupfers”. K ist in diesem Fall
ein Index. Wir werden sehr oft Indizes verwenden, um zum Beispiel Elemente von Mengen zu
kennzeichenen.
M = {x1 , . . . , xm } heißt, dass M eine geordnete Menge ist, die aus den verschiedenen Elementen
x1 , . . . , xm besteht.

15
16 Beispiel zur Mischung von Flüssigkeiten 1.1.2

beider Seiten mit dem reziproken Wert des Koeffizienten von x ergibt sich die
Lösung x = 8,37 (das heißt, die Dichte der Legierung ist 8,37 g/cm3 ).

1.1.2 Beispiel zur Mischung von Flüssigkeiten

Aus einer 30 %igen und einer 50 %igen alkoholischen Flüssigkeit sollen durch Mi-
schung 2 Liter einer Flüssigkeit hergestellt werden, deren Gehalt an reinem Al-
kohol 45 % beträgt.

Lösung:

Die gesuchten Flüssigkeitsmengen (in Liter) seien x (30 %ig) und y (50 %ig). Dann
gilt:
x + y = 2,
0,3 x + 0,5 y = 0,9.

Diese Gleichungen bilden ein lineares Gleichungssystem mit zwei Gleichungen


und zwei Unbekannten.

Mit Hilfe eines der Verfahren, die im Unterricht behandelt werden (Einsetzungs-
verfahren, Gleichsetzungsverfahren, Additionsverfahren, grafisches Näherungs-
verfahren) erhält man die Lösung x = 0,5 und y = 1,5.

In der Schule werden nur selten Textaufgaben besprochen, die auf Gleichungssys-
teme mit mehr als zwei Gleichungen oder mehr als zwei Unbekannten führen. In
der Praxis kommen dagegen oft Gleichungssysteme mit mehreren hundert Glei-
chungen und Unbekannten vor. Es ist deshalb zweckmäßig, die Theorie der linea-
ren Gleichungssysteme allgemein, das heißt ohne Beschränkung der Gleichungs-
oder Unbekanntenzahl, zu behandeln. Der Einfachheit halber definieren wir den
Begriff des linearen Gleichungssystems durch explizite Beschreibung:

Definition des linearen Gleichungssystems


a) Eine Gleichung der Form
a1 x 1 + a2 x 2 + · · · + an x n = b
mit den Unbekannten (oder Unbestimmten oder Variablen) x1 , . . . , xn und mit
den reellen Zahlen a1 , . . . , an , b heißt lineare Gleichung (mit den Koeffizienten
a1 , . . . , an ).
1.2 Äquivalente Umformungen 17

b) m lineare Gleichungen
a11 x1 + a12 x2 + · · · + a1n xn = b1
(1.1) .. .. .. ..
. . . .
am1 x1 + am2 x2 + · · · + amn xn = bm
mit den Unbekannten x1 , . . . , xn und mit den reellen Zahlen aik und bi (i =
1, . . . , m; k = 1, . . . , n) heißen lineares Gleichungssystem mit m Gleichungen
und n Unbekannten oder kurz m×n - System. 2
Jedes n -Tupel (x1 , . . . , xn ) von reellen Zahlen, für die alle Gleichungen erfüllt
sind, heißt Lösung des linearen Gleichungssystems.

Übung 1.1.a

Versuchen Sie, eine Textaufgabe zu formulieren, die auf ein 3 × 3 - System


führt.

Die Untersuchung von linearen Gleichungssystemen stellt den wichtigsten Teil


der Linearen Algebra dar. Die Fragen nach der Existenz beziehungsweise Ein-
deutigkeit von Lösungen sind dabei von gleicher Bedeutung wie die Suche nach
geeigneten Lösungsverfahren. Wir beginnen mit der Beschreibung des wichtigs-
ten Lösungsverfahrens, weil wir auf diesem Wege auch das Existenzproblem (und
später das Eindeutigkeitsproblem) lösen können.

1.2 Äquivalente Umformungen

Wir suchen ein Lösungsverfahren, das auf beliebige m×n - Systeme anwendbar ist.
Es ist deshalb naheliegend, das gegebene System schrittweise so zu vereinfachen,
dass ein Teil der neuen Gleichungen ein System bildet, das wir bereits lösen
können. Das ist zum Beispiel der Fall, wenn eine der Gleichungen nur noch eine
Unbekannte enthält (wie in Beispiel 1.1.1). Wir können also versuchen, durch
geeignete Umformung einzelner Gleichungen des gegebenen Systems Unbekannte
zu eliminieren.
2
Gleichungen, die erst durch Umformung diese Gestalt erhalten, wie zum Beispiel x2 + 2 =
(x − 1)2 , wollen wir nicht als lineare Gleichungen ansehen. Die Bezeichnung “linear” hat ihren
Ursprung in der (analytischen) Geometrie, wo zum Beispiel Geraden in einer Koordinatenebene
durch Gleichungen der Form ax + by = c beschrieben werden können.
Falls Missverständnisse möglich sind, werden die beiden Indizes der Koeffizienten durch ein
Komma getrennt.
18 Operationen mit Gleichungen 1.2.1

1.2.1 Operationen mit Gleichungen

Da die Unbekannten durch Zahlen ausgedrückt werden sollen, dürfen wir mit
den Gleichungen rechnen wie mit Zahlengleichungen. Insbesondere können wir
beide Seiten einer Gleichung mit derselben (von Null verschiedenen) Zahl mul-
tiplizieren, und wir können Gleichungen zueinander addieren oder voneinander
subtrahieren.

Hier gehen natürlich entscheidend die Eigenschaften des verwendeten Zahlensys-


tems ein. Wir haben die Definition des linearen Gleichungssystems (Seite 16) für
reelle Zahlen formuliert. In der Praxis werden aber fast immer rationale Zah-
len benutzt, die eine Teilmenge der reellen Zahlen bilden, während die ebenfalls
möglichen komplexen Zahlen die reellen Zahlen umfassen. Im Unterschied zur
Analysis kommt es in der Linearen Algebra nicht darauf an, mit welchem Zahlen-
system man arbeitet, sondern nur darauf, welche Eigenschaften des verwendeten
Systems zu Grunde gelegt werden: Es sind in allen genannten Zahlbereichen (und
in vielen weiteren Systemen) die “Körperaxiome”, die wir erst in der Definition
des Körpers (Seite 89) zusammenstellen werden, weil wir schon in der Mittelstufe
gelernt haben, intuitiv mit ihnen umzugehen.

Damit keine Lösungen verlorengehen oder neue hinzukommen, müssen wir darauf
achten, dass wir nur äquivalente Umformungen durchführen, das heißt solche,
die wir rückgängig machen können, indem wir durch geeignete Umformungen
aus dem neuen Gleichungssystem wieder das vorherige zurückgewinnen (siehe
Abbildung 1.1).

a11 x1 + a12 x2 + · · · + a1n xn = b1 ··· x1 = . . .


.. .. .. .. ..
. . . . .
am1 x1 + am2 x2 + · · · + amn xn = bm ··· xn = . . .

Abbildung 1.1: Auflösung durch äquivalente Umformungen

Jedes so erhaltene n-Tupel reeller Zahlen (x1 , ..., xn ) im letzten Rechteck, in dem
auf der rechten Seite der Gleichungen keine Unbekannten mehr stehen, ist dann
1.2.2 Erlaubte Umformungen 19

offenbar eine Lösung des gegebenen Systems - und weitere Lösungen kann es nicht
geben.

1.2.2 Erlaubte Umformungen


Welche Operationen mit den Gleichungen sind nun solche äquivalenten Umfor-
mungen?
Zwei der oben erwähnten Operationen sind bereits grundlegend:
I. Multiplikation einer Gleichung mit einer von Null verschiedenen
reellen Zahl λ:
Sie wird rückgängig gemacht durch Multiplikation der entsprechenden neuen Glei-
chung mit der Zahl 1/λ.
II. Addition einer Gleichung zu einer anderen (unter Beibehaltung der
ersteren):
Subtraktion der ersteren von der neuen Gleichung ergibt wieder das ursprüngliche
System.
Durch Kombination von I. und II. erhalten wir zwei weitere wichtige äquivalente
Umformungen:
III. Addition des λ -fachen (λ 6= 0) einer Gleichung zu einer anderen;
IV. Vertauschung von zwei Gleichungen.
Bezeichnen wir die betroffenen Gleichungen mit Gi bzw. Gj , so erfolgen die Um-
formungen nach folgendem Schema (Abbildung 1.2):

I.: II.: ··· ···


··· ··· Gi Gi
Gi λGi ··· ···
··· ··· Gj Gj + Gi
··· ···

III.: ··· ··· ··· ···


Gi I λGi II λGi I Gi
··· ··· ··· ···
Gj Gj Gj +λGi Gj +λGi
··· ··· ··· ···
20 Der Eliminationsalgorithmus 1.3

IV.:
··· ··· ··· ··· ···
Gi I Gi II Gi III Gi −(Gi −Gj ) II Gj
··· ··· ··· ··· ···
Gj −Gj Gi − Gj Gi − Gj Gi
··· ··· ··· ··· ···

Abbildung 1.2: Äquivalente Umformungen

Um die Bezeichnung “äquivalente Umformung” zu rechtfertigen, zeigen wir noch,


dass sich die jeweilige Lösungsmenge bei Anwendung einer der obigen Operatio-
nen tatsächlich nicht ändert. Sind L1 und L2 die Lösungsmengen vor beziehungs-
weise nach der Umformung, so wird zum Nachweis der Mengengleichheit L1 = L2
die in der linearen Algebra häufiger benutzte Methode des wechselseitigen Ent-
haltenseins (L1 ⊆ L2 und L2 ⊆ L1 ) verwendet. Ist (x1 , ..., xn ) ∈ L1 , so erfüllt
(x1 , ..., xn ) auch jedes Gleichungssystem, das durch Ausführung von I., II., III.
und IV. entsteht, weil sich durch diese Operationen nur die Koeffizienten und die
rechten Seiten ändern aber nicht die Lösungskomponenten. Also gilt L1 ⊆ L2 .
Bei den Umkehroperationen wird genauso geschlossen, sodass L2 ⊆ L1 und damit
L1 = L2 folgt.

1.3 Der Eliminationsalgorithmus

Der Eliminationsalgorithmus, der meistens Gaußsches Eliminationsverfahren 3


genannt wird, beruht auf folgendem einfachen Prinzip: Ist ein m×n - System ge-
geben, so werden Vielfache einer Gleichung, in der die erste Unbekannte einen
von Null verschiedenen Koeffizienten besitzt, zu allen übrigen Gleichungen ad-
diert, und zwar solche Vielfache, die bewirken, dass die erste Unbekannte in den
neuen Gleichungen nicht mehr vorkommt, weil sie den Koeffizienten 0 besitzt.
Die m − 1 neuen Gleichungen bilden dann ein (m − 1) × (n − 1) - System, auf das
eventuell das gleiche Verfahren bezüglich der nächsten Unbekannten angewandt
werden kann.
Gehen wir von einem n×n - System aus, so können wir auf diese Weise in n − 1
Schritten (wenn das Verfahren nicht vorher abbricht) zu einem 1×1 - System kom-

3
Carl Friedrich Gauß (1777-1855) wird - neben Leonhard Euler (siehe Seite 361) -
als der bedeutendste Mathematiker angesehen. Von allen Ideen, die seinen Namen tragen, ist
diese die am meisten verwendete - obwohl ihre Entdeckung ihn sicherlich nur wenig Zeit und
keine Mühe gekostet hat.
1.3.1 Beispiel zum Eliminationsalgorithmus 21

men, das sich unmittelbar lösen lässt. Wird diese Lösung in das vorausgegangene
2×2 - System eingesetzt, so ergibt sich wieder ein 1×1 - System - und so fort.

1.3.1 Beispiel zum Eliminationsalgorithmus

Wir betrachten zunächst als Beispiel ein 3×3 - System:


−u − v + 2w = −1
(1.2) −2u + 5w = −7
u + 3v = −5.
Der Koeffizient der ersten Unbekannten u in der ersten Gleichung ist von Null
verschieden. Wir können also Vielfache dieser Gleichung zu den beiden anderen
addieren, um daraus die Unbekannte u zu eliminieren. Dazu addieren wir das
(-2)-fache der ersten Gleichung zur zweiten sowie die erste Gleichung selbst zur
dritten. Das neue Gleichungssystem enthält nun ein 2×2 - System:
−u − v + 2w = −1
(1.3) 2v + w = −5
2v + 2w = −6.
Den ersten Koeffizienten -1 in der ersten Gleichung nennen wir ersten Eckkoef-
fizienten. Der nächste Koeffizient, der uns als Multiplikand dienen kann, ist der
Koeffizient 2 der Unbekannten v in der zweiten Gleichung. Wir bezeichnen ihn
als zweiten Eckkoeffizienten. Addieren wir das (-1)-fache der zweiten Gleichung
zur dritten, so erhalten wir bereits eine Gleichung mit nur einer Unbekannten,
deren Koeffizient 1 unser dritter Eckkoeffizient ist:
−u − v + 2w = −1
(1.4) 2v + w = −5
w = −1.
Damit ist die Vorwärtselimination abgeschlossen.
Nun haben wir zwei Möglichkeiten:
Entweder wir gewinnen die (einzige) Lösung des ursprünglichen Gleichungssys-
tems durch Rückwärtseinsetzen, das heißt, wir setzen die Lösung w = −1 der
dritten Gleichung in die zweite und erste ein und erhalten aus der zweiten Glei-
chung die Lösung v = −2, die schließlich in die erste eingesetzt die Lösung u = 1
ergibt.
Oder wir setzen den Eliminationsprozess mit der Rückwärtselimination fort, bis
wir die Lösung des Gleichungssystems unmittelbar ablesen können. Dazu nor-
mieren wir zunächst alle Eckkoeffizienten zu 1, indem wir jede der Gleichungen
22 Gleichungssysteme in oberer Dreiecksform 1.3.2

durch den jeweiligen Eckkoeffizienten dividieren:

u + v − 2w = 1
(1.5) v + 21 w = − 52
w = −1.
Dann elimieren wir die letzte Unbekannte w aus der ersten und zweiten Gleichung:

u + v = −1
(1.6) v = −2
w = −1,
und schließlich entfernen wir noch die zweite Unbekannte v aus der ersten Glei-
chung:
u = 1
(1.7) v = −2
w = −1.

(Natürlich hätten wir hier - wie beim Rückwärtseinsetzen - mehrere Schritte


zusammenfassen können. Wir werden aber später die Gleichungssysteme (1.2)
bis (1.7) einheitlich behandeln können.)

Übung 1.3.a
Wenden Sie Vorwärts- und Rückwärtselimination an, um das folgende 3×3 -
System zu lösen:
2u + v − 2w = 2
2u − w= 3
−4u − v + 4w = −6.
Welches sind die Eckkoeffizienten?

1.3.2 Gleichungssysteme in oberer Dreiecksform

Ganz analog erfolgt der Eliminationsprozess bei n×n - Systemen, solange wir (von
Null verschiedene!) Eckkoeffizienten vorfinden. Ist dieses bei allen n − 1 Elimina-
tionsschritten der Fall, so erhalten wir schließlich ein lineares Gleichungssystem
in oberer Dreiecksform:
0 0 0
a11 x1 + a12 x2 + · · · + a1n xn = b10
0 0
a22 x2 + · · · + a2n xn = b20
(1.8) .. .. ..
. . .
ann xn = bn0 .
0
1.3.3 Verschwindende Koeffizienten 23

Durch Normierung, das heißt nach Division jeder der Gleichungen durch den
entsprechenden Eckkoeffizienten, folgt die normierte obere Dreiecksform, und
Rückwärtselimination ergibt schließlich genau eine Lösung (in normierter Dia-
gonalform).
Übung 1.3.b
Wie viele Multiplikationen und Divisionen werden (höchstens) bei der Vor-
wärtselimination und bei der Rückwärtselimination (einschließlich der Nor-
mierung) benötigt, um ein n×n - System mit n (nichtverschwindenden) Eck-
koeffizienten zu lösen? (Bei einem Computer kann hier die Rechenzeit für
die Additionen beziehungsweise Subtraktionen vernachlässigt werden.)

Übung 1.3.c
Lösen Sie das folgende 4×4 - System:
2u − v = 5
−u + 2v − w = 0
−v + 2w − x = −5
−w + 2x = 0.
Achtung: Fundgrube! [Hinweis: Betrachten Sie das n×n - System mit

2
 für i = k,
aik : = −1 für |i − k| = 1, i, k ∈ {1, . . . , n},

0 sonst.

Welche Form haben zum Beispiel die Eckkoeffizienten?]

1.3.3 Verschwindende Koeffizienten

Bisher haben wir nur den Fall betrachtet, dass nach jedem Eliminationsschritt
ein weiterer Eckkoeffizient für den nächsten Eliminationsschritt bereitsteht. Ist
dieses nicht der Fall, so gibt es zwei Möglichkeiten. Hat die betroffene Unbekannte
xi , deren Koeffizient in der i-ten Gleichung also 0 ist, in einer späteren Gleichung
(etwa der k -ten mit k > i) einen von 0 verschiedenen Koeffizienten, so können
wir einfach die i -te und die k -te Gleichung vertauschen und dann mit dem
Eliminationsverfahren fortfahren, denn die Vertauschung von zwei Gleichungen
ist eine äquivalente Umformung.
Tritt aber xi auch in allen nachfolgenden Gleichungen nicht mehr auf, so brauchen
wir xi daraus nicht zu eliminieren. Das Eliminationsverfahren wird dann bei der
24 Verschwindende Koeffizienten 1.3.3

nächsten Unbekannten, die in den letzten m − i + 1 Gleichungen vorkommt,


fortgesetzt - falls es eine solche Unbekannte noch gibt.

Wir betrachten als Beispiel ein 3×4 - System:


(1.9)
u − 2v − 2w + 3x = 2 u − 2v − 2w + 3x = 2 u − 2v − 2w + 3x = 2
2u − 4v − 2w + 7x = 3 ⇔ 2w + x = −1 ⇔ 2w + x = −1
−u + 2v + 4w − 2x = −3 2w + x = −1 0 = 0.

Hier erhalten wir für jede Wahl von v und x ein 2×2 - System mit genau einer
Lösung für u und w, insgesamt also unendlich vielen Lösungen.

Stände auf der rechten Seite der dritten Gleichung des ursprünglichen Systems
eine von -3 verschiedene Zahl, so ergäbe sich im letzten System eine dritte Glei-
chung der Form 0 = b mit b 6= 0. Diese Gleichung ist natürlich nicht erfüllbar
- wie wir u, v, w und x auch wählen. Also wäre dann das gesamte letzte Glei-
chungssystem und damit auch das ursprüngliche unlösbar.

Übung 1.3.d

Berechnen Sie die Zahlentripel (a, b, c), für die das folgende 3×3 - System
lösbar ist:
u + 2v + w = a
−2u − v + 3w = b
u + 5v + 6w = c.

Übung 1.3.e

Bestimmen Sie bei dem 3×3 - System

ax + by + cz = −2
cx + ay + bz = 8
bx + cy + az = 0
die Koeffizienten a, b, c so, dass das Gleichungssystem genau die Lösung
x = 1, y = −1, z = 2 besitzt.

Übung 1.3.f

Berechnen Sie die Koeffizienten des kubischen Polynoms P (x) = ax3 +bx2 +
cx + d, sodass P (−1) = 0, P (1) = 2, P (2) = 3 und P (3) = 12 gilt.
1.3.4 Gleichungssysteme in Stufenform 25

1.3.4 Gleichungssysteme in Stufenform

Mit den obigen Überlegungen erkennen wir, dass bei einem beliebigen m × n -
System durch Anwendung der im Unterabschnitt 1.2.2 beschriebenen äquivalen-
ten Umformungen ein m×n - System der folgenden Stufenform erreicht werden
kann:
(1.10)
0 0 0 0
a1k 1
xk1 + · · · + a1k2
xk2 + · · · + a1kr
xkr + · · · + a1n xn = b10
0 0 0
a2k xk2 + · · · + a2k xk + · · · + a2n xn = b20
2 r
.. r .. ..
. . .
arkr xkr + · · · + arn xn = br0
0 0

−−−−−−−−−−−−−−−−−−−−−−−−−
0
0 = br+1
.. ..
(falls r < m) . .
0
0 = bm .
Dabei ist r ≤ m (und auch r ≤ n), die Indizes k1 , . . . , kr sind natürliche Zahlen
0 0
mit 1 ≤ k1 < k2 < . . . < kr ≤ n, und die Koeffizienten a1k 1
, . . . , arkr
sind alle von
Null verschieden.
Sie werden Eckkoeffizienten des m×n - Systems genannt. Ist r = m, so fehlen in
0 0
(1.10) die Gleichungen 0 = br+1 , . . . , 0 = bm .
An der Stufenform eines m×n - Systems können wir - wie bei den obigen Beispielen
- unmittelbar ablesen, welcher Fall bezüglich der Lösungsanzahl vorliegt:
i) Es gibt keine Lösung, wenn r < m ist und (mindestens) ein j ∈ {r + 1, . . . , m}
existiert, sodass bj0 6= 0 gilt. Dann lässt nämlich schon die lineare Gleichung 0 ·
x1 + . . . + 0 · xn = bj0 keine Lösung zu.
ii) Es gibt genau eine Lösung, wenn r = n ist und wenn im Falle r < m die
0 0
Zahlen b r+1 ,...,bm alle gleich 0 sind. Diese Lösung wird wie in Beispiel 1.3.1
beziehungsweise im Unterabschnitt 1.3.2 durch Rückwärtseinsetzen oder durch
Rückwärtselimination bestimmt.
iii) Es gibt unendlich viele Lösungen in allen übrigen Fällen, das heißt wenn
0 0
r < n ist und wenn br+1 = . . . = bm = 0 gilt, falls r < m ist. Denn dann
ist I : = {1, . . . , n} \ {k1 , . . . , kr } nicht leer. Setzen wir für jedes xj mit j ∈ I
beliebige Werte ein (und bringen die entsprechenden Summanden auf die rechte
Seite), so erhalten wir stets ein r×r-System mit genau einer Lösung.
Die Fälle ii) und iii) werden wir im Kapitel 2 noch genauer untersuchen.
26 Spaltenvektoren und Matrizen 1.4

Übung 1.3.g

Was bedeuten die Fälle i), ii) und iii) bei einem 1×1 - System?

Übung 1.3.h

Begründen Sie, wieso ein lineares Gleichungssystem mit reellen Koeffizien-


ten niemals genau zwei verschiedene reelle Lösungen haben kann. Wie muss
der Zahlbereich für die Koeffizienten und die Lösungen geändert werden,
damit genau zwei Lösungen herauskommen können? Welches ist dann das
einfachste System mit genau zwei Lösungen?

Übung 1.3.i

Zeigen Sie, dass ein lösbares 3×3 - System


ax + by + cz = d
cx + ay + bz = e
bx + cy + az = f
mit reellen Zahlen a, b, c, d, e, f genau dann unendlich viele Lösungen (x, y,
z) besitzt, wenn a3 + b3 + c3 = 3abc gilt.

Übung 1.3.j

Formulieren Sie in abgekürzter Umgangssprache einen Ablaufplan für die


Erstellung der Stufenform eines beliebigen m × n - Systems. Nummerieren
Sie dazu die einzelnen Schritte, um “Schleifen” und “Sprünge” angeben zu
können.

1.4 Spaltenvektoren und Matrizen

Ein Ziel mathematischer Forschung ist die Vereinfachung. Für große Zahlen m
und n ist sowohl die Form eines (explizit gegebenen) m × n - Systems nach der
Definition des linearen Gleichungssystems (Seite 16) als auch die Beschreibung
der äquivalenten Umformungen im Eliminationsalgorithmus unbefriedigend. In
beiden Fällen müssen wir zuviel schreiben. Wir wollen nun versuchen, beides mit
Hilfe geeigneter Definitionen zu vereinfachen.
1.4.1 Spaltenvektoren 27

1.4.1 Spaltenvektoren

Ein 1×n - System ist sicher einfacher als ein m×n - System. Fassen wir die unterein-
anderstehenden Koeffizienten auf der linken Seite beziehungsweise die Ergebnis-
zahlen auf der rechten Seite eines m×n - Systems zu neuen Gebilden zusammen,
die Spaltenvektoren (der Länge m) genannt werden, so können wir anstelle des
m × n - Systems formal eine lineare Gleichung mit den Unbekannten x1 , . . . , xn
aufschreiben, deren “Koeffizienten” nun aber Spaltenvektoren sind:
       
a11 a12 a1n b1
 ..   .   .   . 
(1.11)  .  x1 +  ..  x2 + · · · +  ..  xn =  .. .
am1 am2 amn bm

Diese Gleichung bekommt natürlich erst dann einen Sinn, wenn die “Multiplika-
tion” von Spaltenvektoren mit reellen Zahlen (“Skalaren”) sowie die Summe und
die Gleichheit von Spaltenvektoren erklärt sind. Damit (1.11) zu (1.1) äquivalent
ist, müssen wir offenbar folgendermaßen definieren:

Definition der Spaltenvektoreigenschaften


Die Addition wird durch
     
a1 b1 a1 + b 1 4
 ..   ..  ..
 .  +  .  := 
 
. 
am bm am + b m

und die Multiplikation mit einem Skalar (S-Multiplikation) durch


   
a1 a1 · c
 ..   . 
 .  · c : =  .. 
am am · c

gegeben.

4
Das Symbol “: =” bedeutet “wird definiert durch”. Das Pluszeichen und das Multiplika-
tionszeichen werden hier (und im Folgenden) in verschiedenen Bedeutungen verwendet, weil
keine Missverständnisse auftreten können. Das Multiplikationszeichen wird meistens weggelas-
sen. Wir kürzen Spaltenvektoren durch kleine lateinische Buchstaben mit einem “darüberlie-
genden nach rechts weisenden Pfeil” an, weil Spaltenvektoren in vielen Anwendungen durch
Pfeile veranschaulicht werden: ~a, ~b, ~c, . . . , ~z.
28 Spaltenvektoren 1.4.1

Zwei Spaltenvektoren (der Länge m)


   
a1 b1
 ..   . 
 .  und  .. 
am bm

sind genau dann gleich, wenn a1 = b1 , . . . , am = bm gilt.

Da die Verknüpfungen der Zahlen in den beiden rechts stehenden Spaltenvektoren


kommutativ sind, gilt das Kommutativgesetz auch für diese beiden Verknüpfun-
gen der Spaltenvektoren.

Mit den Abkürzungen


   
a1k b1
~ak : =  ...  für k ∈ {1, . . . , n} und ~b : =  ... 
   
amk bm
lässt sich unser Gleichungssystem (1.1) nun folgendermaßen schreiben:

(1.12) ~a1 x1 + · · · + ~an xn = ~b.

Die endlichen Mengen, die aus den ersten n natürlichen Zahlen bestehen, treten
in der Linearen Algebra sehr oft auf. Wir werden deshalb auch im Folgenden die
Abkürzung In für {1, . . . , n} mit n ∈ N1 : = N \ {0} benutzen.

Wenden wir die entsprechenden Rechengesetze für reelle Zahlen auf die einzelnen
Komponenten von Spaltenvektoren an, die gemäß der Definition der Spaltenvek-
toreigenschaften (Seite 27) verknüpft werden, so erhalten wir vier Gleichungen,
die sich in der Definition des Vektorraums (Seite 96) als grundlegend für die
Lineare Algebra herausstellen werden:

Satz über Addition und S-Multiplikation von Spaltenvektoren


~ einer festen Länge und für alle a, b ∈ R gilt
Für alle Spaltenvektoren ~v , w

i) ~v · (a + b) = ~v · a + ~v · b, ~ · a = ~v · a + w
ii) (~v + w) ~ · a,
iii) (~v · a) · b = ~v · (ab), iv) ~v · 1 = ~v .
1.4.2 Matrizen 29

1.4.2 Matrizen
Ein 1×1 - System ist sicher noch einfacher als ein 1×n - System. Um ein solches
zu erreichen, fassen wir auf der linken Seite von (1.11) die Unbestimmten zu
einem Spaltenvektor (der Länge n) und die m · n Koeffizienten beziehungsweise
die n Spaltenvektoren der Koeffizienten zu einem neuen Gebilde zusammen, das
m×n - Matrix genannt wird:
    
a11 . . . a1n x1 b1
 .. ..   ..  =  .. .
(1.13)  . .  .   . 
am1 . . . amn xn bm

Auch diese Gleichung erhält erst einen Sinn, wenn die “Multiplikation” einer
m×n - Matrix mit einem Spaltenvektor der Länge n erklärt ist. Damit (1.13) zu
(1.11) und somit zu dem ursprünglichen Gleichungssystem (1.1) äquivalent ist,
bleibt uns für diese Multiplikation nur die folgende Definition:

Definition des Produkts einer Matrix mit einem Spaltenvektor


Das Produkt einer m×n - Matrix mit einem Spaltenvektor der Länge n stellt
einen Spaltenvektor der Länge m dar, der durch
    
a11 . . . a1n c1 a11 c1 + · · · + a1n cn
 .. ..   ..  =  .. .. 
 . .  .   . . 
am1 . . . amn cn am1 c1 + · · · + amn cn
gegeben wird.

Für dieses Produkt gilt das Kommutativgesetz nicht mehr, das heißt, der Spal-
tenvektor darf nicht vor die Matrix geschrieben werden.
Mit den Abkürzungen
     
a11 . . . a1n x1 b1
A : =  ... ..  , ~x : =  ..  und ~b : =  .. 

.   .   . 
am1 . . . amn xn bm

erhält also unser Gleichungssystem (1.1) und Gleichung (1.11) die einfache Form

(1.14) A~x = ~b.


Hier haben wir das Multiplikationszeichen gleich weggelassen. Matrizen kürzen
wir durch große lateinische Buchstaben ab.
30 Matrizen 1.4.2

A heißt Koeffizientenmatrix des m×n - Systems. Die Zahlen aik , i ∈ Im , k ∈ In ,


werden jetzt Elemente (oder Komponenten) von A genannt. Die nebeneinan-
derstehenden Elemente bilden die Zeilen, die untereinanderstehenden Zahlen die
Spalten von A, und zwar ist aik das i-te Element in der k -ten Spalte beziehungs-
weise das k -te Element in der i -ten Zeile. Der Index i gibt also an, in welcher
Zeile das Element aik steht (Zeilenindex ) und der Index k, in welcher Spalte
(Spaltenindex ).

Ein Spaltenvektor der Länge m ist nichts anderes als eine m×1 - Matrix. Entspre-
chend bezeichnen wir eine 1 × n - Matrix als Zeilenvektor der Länge n. Für das
Produkt eines Zeilenvektors der Länge m und eines Spaltenvektors der Länge m
ergibt sich aufgrund der Definition des Produkts einer Matrix mit einem Spalten-
vektor (Seite 29) speziell:
 
b1
(1.15) (a1 . . . am )  ...  = (a1 b1 + · · · + am bm ).
 
bm
Hier steht also auf der rechten Seite eine 1×1 - Matrix. Da 1×1 - Matrizen mit den
Verknüpfungen, die durch die Definition der Spaltenvektoreigenschaften (Seite
27) eingeführt wurden, dieselben Eigenschaften besitzen wie die reellen Zahlen,
lassen wir die Matrizenklammern fort und betrachten eine 1×1 - Matrix und ihr
einziges Element als dasselbe. Das durch (1.15) definierte Produkt wird deshalb
auch Skalarprodukt (oder inneres Produkt) des Zeilenvektors (a1 . . . am ) und des
Spaltenvektors ~b genannt. Insbesondere können wir also die linken Seiten der
linearen Gleichungen in der Definition des linearen Gleichungssystems (Seite 16)
als Skalarprodukte mit dem Spaltenvektor ~x auffassen.

Der folgende Satz erhält seinen Namen, weil er vor allem dazu dient, die Einfüh-
rung des Produkts von Matrizen vorzubereiten:

Vorbereitungssatz
Ist A eine m×n - Matrix und ist p ∈ N1 , so gilt
 
A ~b1 c1 + · · · + ~bp cp = A~b1 c1 + · · · + A~bp cp
 

für alle Spaltenvektoren ~b1 , . . . , ~bp der Länge n und für alle reellen Zahlen
c1 , . . . , c p .
1.4.2 Matrizen 31

Beweis (direkt, a1):

Auf beiden Seiten der Gleichung steht ein Spaltenvektor der Länge n, dessen
jeweilige Komponenten sich mit Hilfe der Definition des Produkts einer Matrix
mit einem Spaltenvektor (Seite 29) berechnen lassen, wenn die Komponenten von
A und von ~b1 , . . . , ~bp verwendet werden.

Wir wählen ein anderes Vorgehen, das die Methode der Superposition (Zurückfüh-
rung auf Spezialfälle) benutzt, die in der Linearen Algebra sowohl bei Beweisen
als auch in der Heuristik - nämlich beim Entdecken von Zusammenhängen und
beim Problemlösen - eine wichtige Rolle spielt. Die beiden sich anbietenden Spe-
zialfälle bereiten außerdem auf die grundlegenden Begriffsbildungen in dem Satz
zur Definition des Untervektorraums (Seite 98) und in der Definition der linearen
Abbildung (Seite 232) vor.

Für p = 1 werden auf der linken Seite zuerst alle Komponenten von ~b1 mit c1
multipliziert und dann A ~b1 c1 gemäß der Definition des Produkts einer Matrix


mit einem Spaltenvektor (Seite 29) berechnet, während auf der rechten Seite die
Multiplikation aller Elemente von A~b1 mit c1 abschließend erfolgt. Mit Hilfe des
Distributivgesetzes für die reellen Zahlen ergibt sich dann die entsprechende Glei-
chung. Im zweiten Fall mit p = 2 und c1 = c2 = 1 wird ganz ähnlich geschlossen:
Anwendung des Distributivgesetzes auf jeden Summanden der Komponenten von
A(~b1 + ~b2 ) und Umordnen erzeugt jeweils zwei Teilsummen, die aufgrund der De-
finition der Spaltenvektoreigenschaften (Seite 27) zu A~b1 + A~b2 führen.

Den allgemeinen Fall erhalten wir nun in zwei Schritten. Mit vollständiger Induk-
tion über p wird zunächst aus dem zweiten Fall die Aussage für c1 = . . . = cp = 1
gewonnen, und anschließend ergibt der Übergang von ~bi zu ~bi ci für i = 1, . . . , p
mit Hilfe des ersten Falles die Gleichung für beliebige reelle Zahlen ci .

Übung1.4.a

Wir machen folgende Annahmen bezüglich der Bewohner der Bundesrepu-


blik Deutschland, die zu Beginn beziehungsweise am Ende des Jahres 1992
in Nordrhein-Westfalen lebten:

Von denen, die das Jahr in NRW begannen, waren am Jahresende noch
80 % in NRW, während 20 % das Land verlassen hatten.
32 Matrixschreibweise einer äquivalenten Umformung 1.4.3

Von denen, die sich zu Beginn des Jahres außerhalb von NRW aufhielten,
waren am Ende des Jahres 10 % in NRW, die übrigen 90 % lebten weiterhin
außerhalb.

Drücken Sie die folgenden Fragen unter Beachtung dieser Annahmen in der
Vektorschreibweise (1.12) beziehungsweise in der Matrixschreibweise (1.14)
aus und beantworten Sie sie:

i) Wenn zu Beginn (beziehungsweise am Ende) des Jahres 17 Millionen


Bundesbürger innerhalb und 62 Millionen außerhalb von NRW lebten, wie
viele waren es dann am Jahresende (beziehungsweise zu Jahresbeginn)?

ii) Welcher Prozentsatz der Bundesbürger müsste zu Beginn des Jahres in


NRW gelebt haben, wenn es am Jahresende derselbe Anteil sein sollte?

1.4.3 Matrixschreibweise einer äquivalenten Umformung

Nun fehlt uns noch eine einfache Beschreibung der äquivalenten Umformungen
im Eliminationsalgorithmus. Wir betrachten deshalb noch einmal unser Beispiel
1.3.1, das wir jetzt mit Hilfe der Spaltenvektoren in der folgenden Form schreiben
können:
       
−1 −1 2 −1
(1.16)  −2  u +  0  v +  5  w =  −7 .
1 3 0 −5

Die erste äquivalente Umformung bestand darin, dass wir das (-2)-fache der ers-
ten Gleichung zur zweiten addiert haben. In der obigen Schreibweise bedeutet
dieses, dass jeder der vier Spaltenvektoren in ganz analoger Weise in einen neuen
Spaltenvektor übergeht:

Die erste und die dritte Komponente bleiben jeweils unverändert, und die zweite
Komponente wird durch die Summe der zweiten und des (-2)-fachen der ersten
Komponente ersetzt. Hat der ursprüngliche Spaltenvektor die Form
   
a a
 b , so lautet der neue also  b − 2a .
c c
Da wir aus der Definition des Produkts einer Matrix mit einem Spaltenvektor
1.4.4 Matrizenmultiplikation 33

(Seite 29) bereits wissen, dass einem Spaltenvektor der Länge n durch Multipli-
kation (von links) mit einer n×n - Matrix wieder ein Spaltenvektor der Länge n
zugeordnet wird, können wir versuchen, den Übergang von
   
a a
 b  = : ~a zu  b − 2a 
c c
durch Multiplikation von ~a mit einer möglichst einfachen 3 × 3 - Matrix E zu
beschreiben. Die einfachste Matrix dieser Art ist sicherlich
 
1 0 0
E =  −2 1 0 ,
0 0 1
denn sie enthält nur ein von 0 und 1 verschiedenes Element, und es gilt aufgrund
der Definition des Produkts einer Matrix mit einem Spaltenvektor (Seite 29)
     
a a+0+0 a
E  b  =  −2a + b + 0  =  b − 2a .
c 0+0+c c

Sind ~a1 , ~a2 , ~a3 und ~b die Spaltenvektoren in (1.16), so folgt mit Hilfe des Vorbe-
reitungssatzes (Seite 30), dass die Multiplikation beider Seiten von (1.16) mit E
tatsächlich dasselbe Gleichungssystem ergibt, das wir durch Multiplikation der
einzelnen Spaltenvektoren mit E erhalten:

E ~a1 u + ~a2 v + ~a3 w = E~a1 u + E~a2 v + E~a3 w = E~b.


   
(1.17)

1.4.4 Matrizenmultiplikation

Fassen wir nun die Spaltenvektoren ~a1 , ~a2 , ~a3 zu der Koeffizientenmatrix A und
die Spaltenvektoren E~a1 , E~a2 , E~a3 zu der Matrix A0 sowie die Unbestimmten
u, v, w zu dem Spaltenvektor ~x zusammen, so erhält (1.17) die Form

(1.18) E(A~x ) = A0~x = E~b.

A0 ist also die Koeffizientenmatrix des neuen Gleichungssystems. Da A0 die Wir-


kung einer “Nacheinandermultiplikation” - nämlich von ~x mit A und von A~x mit
E - wiedergibt, wird A0 das Produkt von E und A genannt und EA geschrieben.
(Beachten Sie die Reihenfolge der Faktoren!) Durch die Einführung des Matri-
zenprodukts gewinnen wir schließlich die folgende einfache Form für das neue
Gleichungssystem:
34 Matrizenmultiplikation 1.4.4

(1.19) (EA)~x = E~b.

Ganz analog können wir nun die Definition des Produkts einer m×n - Matrix A
und einer n × p - Matrix B motivieren: Die “Produktmatrix” C muss diejenige
m × p - Matrix sein, die mit der Multiplikation aus der Definition des Produkts
einer Matrix mit einem Spaltenvektor (Seite 29) für jeden Spaltenvektor ~c der
Länge p dasselbe Ergebnis liefert wie die Nacheinandermultiplikation A(B~c ), das
heißt, es muss

(1.20) C~c : = A(B~c )

für alle Spaltenvektoren ~c der Länge p gelten.

Die obige Darstellung von A0 gibt uns einen Hinweis darauf, wie C berechnet
werden kann: Sind ~b1 , ..., ~bp die Spaltenvektoren (der Länge n) von B und ist
 
c1
~c : =  c2 ,
c3
so gilt aufgrund des Vorbereitungssatzes (Seite 30):

(1.21) A(B~c ) = A ~b1 c1 + · · · + ~bp cp = (A~b1 )c1 + · · · + (A~bp )cp = C~c = : (AB)~c,


das heißt, die k -te Spalte von C = : AB muss für k = 1, ..., p aus den Elementen
des Spaltenvektors A~bk bestehen.

Um die Definition des Matrizenprodukts und viele weitere “Zusammensetzungen”


von Matrizen in einfacher Weise aufschreiben zu können, treffen wir folgende
Vereinbarung:

Definition der Zusammensetzung von Matrizen


Werden anstelle der Elemente einer m×n - Matrix A Matrizen Aik derart ein-
gesetzt, dass die jeweils in einer Spalte von A stehenden Matrizen gleiche
Spaltenzahl und die jeweils in einer Zeile stehenden gleiche Zeilenzahl haben,
so heißt A die aus A11 , ..., Amn zusammengesetzte Matrix, wenn die Klammern
der Matrizen Aik weggelassen (beziehungsweise als nicht vorhanden angesehen)
werden. Die aus den Elementen der einzelnen Untermatrizen bestehenden Teile
von A werden Blöcke genannt. Treten bei parameterabhängigen Blockgrößen
nullzeilige oder nullspaltige Blöcke auf, so gelten diese als nicht vorhanden.
1.4.4 Matrizenmultiplikation 35

Damit erhalten wir die Produktdefinition in der folgenden vorläufigen Form:

Definition des Produkts von zwei Matrizen


Ist A eine m×n - Matrix und B : = (~b1 . . . ~bp ) eine n×p - Matrix, so wird durch
(1.22) AB : = (A~b1 . . . A~bp )
das Produkt von A und B erklärt.

  
2 3 1 2 0
Als Beispiel betrachten wir das Produkt .
4 0 5 −1 0
Die drei Spaltenvektoren der Produktmatrix sind dann
              
23 1 17 23 2 1 23 0 0
= , = , = , also
40 5 4 40 −1 8 40 0 0
    
2 3 1 2 0 17 1 0
= .
4 0 5 −1 0 4 8 0

Diese Berechnungsmethode hat noch den Nachteil, dass wir gezwungen sind,
nacheinander die Spalten von AB auszurechnen, während man meistens lieber
zuerst die Zeilen hinschreibt. Mit Hilfe der Definition des Produkts einer Matrix
mit einem Spaltenvektor (Seite 29) können wir aber sofort jedes einzelne Element
cik , i ∈ Im , k ∈ Ip , der Produktmatrix durch die Elemente aij von A und bjk
von B ausdrücken. Da cik das i -te Element in der k -ten Spalte A~bk von AB ist,
gilt nämlich

(1.23) cik = ai1 b1k + ai2 b2k + · · · + ain bnk für i = 1, ..., m und k = 1, ..., p,

das heißt, cik ist das Skalarprodukt des i -ten Zeilenvektors von A und des
k -ten Spaltenvektors von B. (Beachten Sie, dass die Zeilenvektoren von A und
die Spaltenvektoren von B dieselbe Länge n besitzen!)

Diese Tatsache nutzen wir nun aus, indem wir die Zeilenvektoren von A in ge-
eigneter Weise abkürzen und anschließend die Elemente cik als Produkte gemäß
der Definition des Produkts einer Matrix mit einem Spaltenvektor schreiben. Um
keine neue Buchstabenart für die Zeilenvektoren einführen zu müssen, definieren
wir eine einfache aber wichtige Abbildung, die einer beliebigen m×n - Matrix eine
n×m - Matrix zuordnet:
36 Matrizenmultiplikation 1.4.4

Definition der Transponierten


Ist  
a11 . . . a1n
A =  ... .. 

. 
am1 . . . amn
eine m×n - Matrix, so heißt die n×m - Matrix
 
a11 . . . am1
t
A =  ... .. ,

. 
a1n . . . amn
deren Zeilen die Spalten von A (und deren Spalten damit die Zeilen von A)
sind, die zu A transponierte Matrix oder kurz Transponierte von A. Der Über-
gang von A zu tA wird Transposition genannt.

Zum Beispiel ist


  
t 1 4

t
  1 4  
1 2 3 1 2 3
= 2 5
  und  2 5 =
 .
4 5 6 4 5 6
3 6 3 6

Insbesondere lässt sich jeder Zeilenvektor durch Transposition eines Spaltenvek-


tors gewinnen:  
t a1
 .. 
(a1 . . . an ) =  . .
an

Wir können also Zeilenvektoren mit t~a, t~b, ... abkürzen, wobei ~a, ~b, ... nach wie
vor Spaltenvektoren bezeichnen. Sind t~a1 , ...,t~am die Zeilenvektoren von A, so
sind ~a1 , ..., ~am allerdings die Spaltenvektoren von tA (und nicht von A!).

Damit erhalten wir aus (1.22) und (1.23) eine weitere einprägsame Form der
Produktbildung:
 
t
~a1
Ist A =  ...  eine m×n - Matrix und B = ~b1 . . . ~bp eine n×p - Matrix, so
  
t
~am
gilt
t ~
~a1 b1 . . . t~a1~bp
   
t
~a1
AB =  ...  ~b1 . . . ~bp =  ... .. ,
 
(1.24)
 
. 
t
~am t
~am b1 . . . ~am~bp
~ t
1.4.4 Matrizenmultiplikation 37

wobei t~ai~bk für i = 1, ..., m und k = 1, ..., p das Skalarprodukt des i -ten Zeilen-
vektors von A und des k -ten Spaltenvektors von B darstellt.
Übung 1.4.b
Stellen Sie ein Merkschema für die Matrizenmultiplikation her, und veran-
schaulichen Sie sich die Verträglichkeit der vier bisher eingeführten Produk-
te ab, ~a b, A~b und AB in einer Übersicht.
Als Beispiele betrachten wir die Matrizenprodukte, die den äquivalenten Umfor-
mungen von (1.2) nach (1.3) und von (1.3) nach (1.4) entsprechen. Zunächst gilt
mit den obigen Bezeichnungen:
    
1 0 0 −1 −1 2 −1 −1 2
EA =  −2 1 0   −2 0 5  =  0 2 1 .
0 0 1 1 3 0 1 3 0
   
1 0 0 1 0 0
Mit F : =  0 1 0  und G : =  0 1 0  folgt dann
1 0 1 0 −1 1
    
1 0 0 −1 −1 2 −1 −1 2
F (EA) =  0 1 0   0 2 1  =  0 2 1  sowie
1 0 1 1 3 0 0 2 2
    
1 0 0 −1 −1 2 −1 −1 2
G(F (EA)) =  0 1 0   0 2 1  =  0 2 1 .
0 −1 1 0 2 2 0 0 1
   
1 0 0 −1 −1 2
Außerdem ist F E =  −2 1 0  und (F E)A =  0 2 1 , also F (EA) =
1 0 1 0 2 2
(F E)A.
Diese wichtige Eigenschaft - nämlich dass Klammern beliebig gesetzt beziehungs-
weise weggelassen werden dürfen - könnten wir mit Hilfe von (1.22) und (1.21)
sogar für beliebig lange Produkte von Matrizen mit geeigneter Zeilen- und Spal-
tenzahl beweisen. Da der Beweis mit zweifacher vollständiger Induktion aber
länger als eine Seite und nicht ganz einfach ist, zeigen wir hier nur das Assozia-
tivgesetz für Produkte von drei Matrizen:

Satz über die Assoziativität der Matrizenmultiplikation


Ist A eine m×n - Matrix, B eine n×p - Matrix und C eine p×q - Matrix, so
gilt
(1.25) (AB)C = A(BC).
38 Nichtkommutativität der Matrizenmultiplikation 1.4.5

Beweis (r1):
 (1.22) (1.21)
Ist C : = ~c1 . . . ~cq , so folgt (AB) ~c1 . . . ~cq ) = ((AB)~c1 . . . (AB)~cq ) =
 (1.22) (1.22)
A(B~c1 ) . . . A(B~cq ) = A(B~c1 . . . B~cq ) = A(BC).

Damit können wir auch bei dem letzten der Produkte in unserem obigen Beispiel
die Klammern umsetzen beziehungsweise weglassen:
    
1 0 0 −1 −1 2 −1 −1 2
(G(F (EA))) = (GF E)A =  −2 1 0   −2 0 5  =  0 2 1  .
3 −1 1 1 3 0 0 0 1
Übung 1.4.c

 1 für k ≥ i,
Es sei A = aik die n×n - Matrix mit aik : =
0 sonst.
Berechnen Sie A3 .
Achtung: Fundgrube! [Ap für jedes p ∈ N1 .]

1.4.5 Nichtkommutativität der Matrizenmultiplikation

Ein wichtiges Gesetz der Multiplikation von Zahlen wird von dem Matrizenpro-
dukt nicht erfüllt, nämlich das Kommutativgesetz . Bei unserem obigen Beispiel
können wir uns anschaulich klarmachen, dass die äquivalenten Umformungen,
die durch Matrizenmultiplikation beschrieben werden, nicht immer vertauschbar
sind:

Durch die Matrix E wird das (−2)−fache der ersten Zeile zu der zweiten addiert;
G bedeutet Addition des (−1)−fachen der zweiten Zeile zur dritten. Wenden wir
zuerst E an, so ändert sich die zweite Zeile, bevor sie durch G mit der dritten Zeile
verknüpft wird. Insgesamt wird dann das (+2)−fache der ersten Zeile zur dritten
addiert. In der umgekehrten Reihenfolge bleibt die erste Zeile ohne Einfluss auf
die dritte:    
1 0 0 1 0 0
GE =  −2 1 0  , EG =  −2 1 0 
2 −1 1 0 −1 1

Im Allgemeinen ist die Matrizenmultiplikation nicht kommutativ, das heißt,


es gilt nicht immer AB = BA.
1.4.6 Addition und S-Multiplikation von Matrizen 39

1.4.6 Addition und S-Multiplikation von Matrizen

Um die Matrizen, mit denen wir die äquivalenten Umformungen beschreiben wol-
len, in einfacher Weise darstellen zu können, führen wir abschließend für Matrizen
die entsprechenden Verknüpfungen ein wie in der Definition der Spaltenvektorei-
genschaften (Seite 27) für Spaltenvektoren.

Definition der Addition und der S-Multiplikation für Matrizen


Sind ~a1 . . . ~an und ~b1 . . . ~bn m×n - Matrizen, so wird die Summe durch
 

~a1 . . . ~an + ~b1 . . . ~bn : = ~a1 + ~b1 . . . ~an + ~bn


  

und die Multiplikation mit einem Skalar (S-Multiplikation) durch


  
c ~a1 . . . ~an = ~a1 . . . ~an c : = ~a1 c . . . ~an c
erklärt.

Bei der S-Multiplikation steht der Zahlfaktor meistens vor der Matrix. Wir lassen
deshalb im Folgenden auch bei Spaltenvektoren beide Stellungen zu.
Durch die Zurückführung der Addition und der S-Multiplikation von Matrizen
auf diejenige von Spaltenvektoren übertragen sich die Eigenschaften aus dem
Satz über Addition und S-Multiplikation von Spaltenvektoren (Seite 28) sofort auf
Matrizen:

Satz über Addition und S-Multiplikation von Matrizen


Für alle m×n - Matrizen A, B und alle λ, µ ∈ R gilt
i) (λ + µ)A = λA + µA, ii) λ(A + B) = λA + λB,
iii) λ(µA) = (λµ)A, iv) 1 · A = A.

Ebenfalls sehr leicht erhalten wir die folgenden wichtigen Rechenregeln für die
Matrizenmultiplikation:

Satz über Matrizenmultiplikation


Für alle m×n - Matrizen A, n×p - Matrizen B, C und p×q - Matrizen D sowie
für alle λ ∈ R gilt
i) A(B + C) = AB + AC, ii) (B + C)D = BD + CD,
iii) A(λB) = (λA)B = λ(AB), iv) t (AB) = t B tA.
40 Addition und S-Multiplikation von Matrizen 1.4.6

Die Regeln i) und ii) werden auch als Distributivgesetze bezeichnet.

Beweis (r1):

i), ii), iii): Wegen (1.24) folgen diese Aussagen unmittelbar aus den entsprechen-
den Beziehungen für Zeilen- und Spaltenvektoren:
t ~
~a b + ~c = t~a ~b + t~a ~c (Vorbereitungssatz (Seite 30)),


t~
b + t~c d~ = t~b d~ + t~c d,
~


~a λ~b = λt~a) ~b = λ t~a ~b).


t


(Die Längen von t~a, ~b und ~c in der ersten und dritten Gleichung sind n, die Längen
von t~b, t~c und d~ in der zweiten Gleichung dagegen p.)
t~
   
t
~a1 b1
iv): Mit A =  ... , B = ~b1 . . . ~bp , tA = ~a1 . . . ~am , tB =  ... 
     
t
~am t~
bp

und wegen t~ai ~bk = t~bk ~ai gilt nach (1.24) die wichtige Gleichung

a1~b1 . . . t~a1~bp t~
b1 ~a1 . . . t~b1 ~am
   
t t~

(1.26) t
(AB) =  ... ..  =  .. ..  = tB tA.

.   . . 
t
~am~b1 . . . ~am~bp
t t~bp ~a1 . . . ~bp ~am
t

Übung 1.4.d

Bilden Sie alle möglichen Produkte von je zwei der folgenden Matrizen,
wobei i die komplexe Zahl mit i2 = -1 bezeichnet:
   
2 4 −1 3 1
A1 = (i −i), A2 = , A3 = ,
−1 0 3 2 0
   
  2 3 1
1
A4 = , A5 =  1 , A6 =  −2 0 .
i
3 4 −1
Übung 1.4.e

Suchen Sie Beispiele von 2×2 - Matrizen, sodass gilt:


   
2 −1 0 2 0 0
a) A = ; b) B = N : = mit B 6= N ;
0 −1 0 0
c) CD = −DC mit CD 6= N ;
d) EF = N, wobei E 6= N, F 6= N und E 6= F ist.
1.5 Matrixdarstellung des Eliminationsalgorithmus 41

Übung 1.4.f
A und B seien n×n - Matrizen mit n ≥ 3. Welche der folgenden Aussagen
sind wahr (Begründung), welche sind falsch (Gegenbeispiel)?
a) Wenn die erste und die dritte Spalte von B gleich sind, so sind die erste
und die dritte Spalte von AB auch gleich.
b) Wenn die erste und die dritte Zeile von B gleich sind, so sind auch die
erste und die dritte Zeile von AB gleich.
c) Wenn die erste und die dritte Zeile von A gleich sind, so sind die erste
und die dritte Zeile von AB auch gleich.
d) (AB)2 = A2 B 2 .

Übung 1.4.g
Dieselben Annahmen, die in Übung 1.4.a für das Jahr 1992 gemacht wurden,
mögen auch für die nachfolgenden Jahre gelten. Nach wieviel Jahren würden
dann mehr als 30 % der Bundesbürger in NRW leben, wenn zu Beginn des
ersten Jahres 17 Millionen (von 79 Millionen) in NRW wohnen?

Übung 1.4.h

Ist A = aik eine n×n - Matrix, so wird die Spur von A durch Sp(A) : =
a11 + a22 + · · · + ann definiert. Leiten Sie für alle n×n - Matrizen A, B die
Gleichungen Sp(A + B) = Sp(A) + Sp(B) und Sp(AB) = Sp(BA) her, und

 1 für i = k,
zeigen Sie damit, dass stets AB − BA 6= δik mit δik : =
0 sonst,
gilt (Kronecker-Symbol ) .

Übung 1.4.i

Es sei A = aik eine n × n - Stufenmatrix mit aii = 0 für i = 1, ..., n.
Beweisen Sie, dass An die n×n - Nullmatrix ist.

1.5 Matrixdarstellung des Eliminationsalgo-


rithmus

Wir wollen nun die einzelnen äquivalenten Umformungen, die bei dem Elimina-
tionsalgorithmus für ein m×n - System auftreten, durch Nacheinandermultiplika-
42 Elementarmatrizen 1.5.1

tion der entsprechenden Matrixgleichung A~x = ~b mit geeigneten, möglichst ein-


fachen m×m - Matrizen beschreiben und anschließend das Ergebnis der gesamten
Vorwärtselimination durch eine einprägsame Produktdarstellung ausdrücken.

1.5.1 Elementarmatrizen

Zu jeder in Unterabschnitt 1.2.2 angegebenen äquivalenten Umformung eines be-


liebigen m×n - Systems mit der Koeffizientenmatrix A müssen wir also zunächst
eine m × m - Matrix finden, die nach Multiplikation mit A dasselbe Ergebnis
bezüglich der Zeilen von A liefert wie die äquivalente Umformung bezüglich der
Gleichungen des m×n - Systems.

Da die äquivalenten Umformungen I. und II. als Spezialfälle von III. angesehen
werden können, führen wir nur für die zu III. und IV. gehörenden Matrizen eigene
Bezeichnungen ein:

III.: Eik (λ) mit i, k ∈ Im und λ ∈ R sei eine m × m - Matrix, sodass für jede
m × n - Matrix A gilt: Eik (λ)A ist diejenige m × n - Matrix, die aus A entsteht,
wenn der i-te Zeilenvektor durch die Summe des i-ten Zeilenvektors und des mit
λ multiplizierten k-ten Zeilenvektors ersetzt wird und alle übrigen Zeilenvektoren
unverändert bleiben.

IV.: Pik sei eine m×m - Matrix, sodass für jede m×n - Matrix A gilt: Pik A ist die-
jenige m × n - Matrix, die aus A entsteht, wenn der i-te und der k-te Zeilenvektor
vertauscht werden und alle übrigen Zeilenvektoren unverändert bleiben. Solche
Matrizen heißen Vertauschungsmatrizen.

Die äquivalenten Umformungen vom Typ I. werden dann durch die Matrizen
Eii (λ − 1) mit λ 6= 0 beschrieben, während der Typ II. den Matrizen Eik (1)
entspricht.

Um die Form dieser Matrizen zu bestimmen, beachten wir, dass die in Übung
1.4.h eingeführte n×n - Matrix
 
1 0 ... 0
 0 . . . . . . ... 

 1 für i = k,
En : =  .. . . . . = δik mit δik : =
. . . 0 0 sonst,
0 ... 0 1
1.5.1 Elementarmatrizen 43

die auf der Hauptdiagonalen lauter Einsen und sonst nur Nullen enthält, die
folgenden Eigenschaften besitzt, die sich unmittelbar durch Ausrechnen ergeben:

AEn = A für jede m×n - Matrix A,


(1.27)
En B = B für jede n×p - Matrix B.
En wird deshalb Einheitsmatrix genannt. Wenn keine Verwechslung möglich ist,
schreiben wir E statt En .

Wegen Eik (λ)Em = Eik (λ) und Pik Em = Pik brauchen wir nur die geforderte
Wirkung der obigen Matrizen bei der speziellen Matrix Em festzustellen. Damit
erhalten wir sofort die folgenden Matrizen, bei denen die fett gedruckten Nullen
bedeuten, dass alle nicht eingetragenen Elemente außerhalb der Hauptdiagonalen
gleich 0 sind:

II., III:
 i k 
1
..
 . 0 
1 λ
 
 i
Eik (λ) =  ..
.  , wenn i < k ist,
 
 1 k
 ... 
 0 
1
II., III.:
 k i 
1
..
 . 0 
1
 
 k
Eik (λ) =  ..
.  , wenn i > k ist,
 
 λ 1 i

 ...
 0 
1
I.:  i 
1
...
 0 
1
 
 
Eii (λ − 1) =  λ  i , λ 6= 0,
1
 
...
 

0 
1
44 Elementarmatrizen 1.5.1

IV.:
 i k 
1
..

 . 0 

 1 
 0 1 i
1
 
 
Pik = Pki =  ..
.  .
 
 1 
k
1 0

 
 1 
 .. 
 0 . 
1

Wir erkennen also, dass diese Matrizen bereits durch die geforderte Wirkung bei
den Matrizen Em eindeutig bestimmt sind. Aber wir müssen noch zeigen, dass
auch bei der Multiplikation mit beliebigen m × n - Matrizen A das gewünschte
Ergebnis folgt. Da wir mit den obigen Darstellungen nur schlecht rechnen können,
wollen wir sie zunächst vereinfachen, indem wir sie als Summen schreiben. Dazu
addieren wir zur Einheitsmatrix Em geeignete Matrizen, die nur ein einziges von
Null verschiedenes Element enthalten.

Bezeichnen wir die Spaltenvektoren von Em mit ~e1 , ..., ~em , so können wir jede
m×m - Matrix, die genau eine 1 und sonst nur Nullen enthält, in der Form ~ei t~ek
mit i, k ∈ Im schreiben, und zwar ist ~ei t~ek diejenige Matrix, deren i -tes Element
in der k -ten Spalte gleich 1 ist, während alle übrigen Elemente gleich 0 sind.

Damit erhalten wir für die obigen Matrizen die folgenden übersichtlichen Dar-
stellungen:
II., III.: Eik (λ) = Em + λ ~ei t~ek , i 6= k,



Eii (λ − 1) = Em + (λ − 1) ~ei t~ei , λ 6= 0,

 I.:
(1.28)

 IV.: Pik = Pki = Em − ~ei t~ei − ~ek t~ek + ~ei t~ek + ~ek t~ei

= Em − (~ei − ~ek ) t (~ei − ~ek ) .

Nun können wir mit Hilfe des Satzes über Matrizenmultiplikation (Seite 39) auch
die geforderten Eigenschaften nachweisen, wenn wir beachten, dass ~ei t~ek A die-
jenige Matrix darstellt, deren i -te Zeile die k -te Zeile von A ist, während alle
übrigen Zeilen nur Nullen enthalten:
III., II., I.: Eik (λ)A = Em A + λ ~ei t~ek A = A + λ ~ei t~ek A;
1.5.2 Produkte von Elementarmatrizen 45

IV.: Pik A = A − ~ei t~ei A − ~ek t~ek A + ~ei t~ek A + ~ek t~ei A :

Zuerst werden die Elemente der i -ten und der k -ten Zeile von A durch Nullen
ersetzt, und anschließend wird der ursprüngliche k -te Zeilenvektor von A zum
neuen i -ten und der ursprüngliche i -te zum neuen k -ten Zeilenvektor addiert;
insgesamt werden also der i -te und der k -te Zeilenvektor von A vertauscht.

Damit können wir jede äquivalente Umformung, die im Eliminationsalgorithmus


auftritt, durch Multiplikation der jeweiligen Matrixgleichung (von links) mit ei-
ner der Matrizen aus (1.28) beschreiben. Da diese Matrizen grundlegend und
besonders einfach sind, werden sie Elementarmatrizen genannt.

Übung 1.5.a
Stellen Sie die Elementarmatrizen Eik (λ) und Pik als Produkte von Ele-
mentarmatrizen der Form Eii (λ − 1) mit λ 6= 0 sowie Eik (1) mit i 6= k dar.
(Hinweis: Beachten Sie Abbildung 1.2 (Seite 20).)

1.5.2 Produkte von Elementarmatrizen

Wir betrachten zunächst den Fall, dass der Eliminationsalgorithmus für das m×n -
System mit der Koeffizientenmatrix A ohne Vertauschungen durchgeführt wer-
den kann. Der Einfachheit halber schreiben wir im Folgenden Eik anstelle von
Eik (λik ). Den äquivalenten Umformungen von A~x = ~b entsprechen dann die
aufeinanderfolgenden Multiplikationen beider Seiten mit den Elementarmatrizen
E21 , E31 , . . . , Em1 , E32 , . . . , Em2 , . . . , Em,m−1 . Das Ergebnis der äquivalenten Um-
formungen ist die Stufenform (1.11) des m×n - Systems. Die zugehörige Matrix
definieren wir ganz analog:

Definition der Stufenmatrix


 
s11 . . . s1n
Eine m×n - Matrix S =  ... ..  heißt Stufenmatrix (mit der Stufen-

. 
sm1 . . . smn
zahl r) genau dann, wenn es Spaltenindizes k1 , ..., kr mit 1 ≤ k1 < . . . < kr ≤ n
gibt, so dass
i) s1k1 6= 0, . . . , srkr 6= 0 ist und
ii) sik = 0 gilt, wenn i ≤ r und k < ki oder wenn i > r und k beliebig ist.
46 Produkte von Elementarmatrizen 1.5.2

Fassen wir das Produkt der Elementarmatrizen durch


F : = Em,m−1 · · · · · · Em2 · · · E32 · Em1 · · · E21
zusammen, so ist das Ergebnis der Multiplikationen auf der linken Seite der Glei-
chung A~x = ~b also eine Stufenmatrix S : = F A. Auf der rechten Seite der Glei-
chung ergibt sich gleichzeitig ~c : = F~b als neuer Spaltenvektor, also

(1.29) S~x = ~c mit S : = F A und ~c : = F~b.

Bezeichnen wir die Elementarmatrizen in unserem Beispiel 1.3.1 jetzt mit E21 , E31
beziehungsweise E32 (anstelle von E, F, G auf Seite 37), so ist
     
1 0 0 1 0 0 1 0 0 1 0 0
E32 E31 E21 =  0 1 0   0 1 0   −2 1 0  =  −2 1 0  ,
0 −1 1 1 0 1 0 0 1 3 −1 1

und das Gleichungssystem (1.4) erhält die Form


         
1 00 −1 −1 2 1 00 −1 −1 −1 2 −1
−2 1 0 −2 0 5 ~x = −2 1 0 −7 , also  0 2 1 ~x = −5 .
3 −1 1 1 30 3 −1 1 −5 0 01 −1

Wir erkennen zugleich, dass das Zusammenfassen des Produkts der Elemen-
tarmatrizen zu einer neuen Matrix keinen besonderen Nutzen bringt, weil diese
Matrix Elemente enthält, die sich nicht in einfacher Weise merken beziehungs-
weise deuten lassen (etwa das Element 3 im obigen Beispiel). Wir wollen aber
wenigstens versuchen, den Grund für diese Störung zu finden. Dazu betrachten
wir das Produkt zweier beliebiger Elementarmatrizen vom Typ III:
Eij (λ)Ekl (µ) = (Em + λ~ei t~ej ) (Em + µ~ek t~el )
= Em + λ~ei t~ej + µ~ek t~el + λµ (~ei t~ej ) (~ek t~el ) .

Offenbar ist der letzte Summand das “Störglied”. Wegen des allgemeinen Asso-
ziativgesetzes können wir hier die Klammern umsetzen und erhalten:
~ei · (0) · t~el = 0 · ~ei t~el , wenn j 6= k,

t t t
  t
(1.30) ~ei ~ej ~ek ~el = ~ei ~ej ~ek ~el =
~ei · (1) · t~el = ~ei t~el , wenn j = k ist.

Den “ungestörten” Fall von Produkten mit beliebig vielen Gliedern wollen wir
in einem Satz festhalten. Hierzu (und für viele weitere Darstellungen) ist es
zweckmäßig, die folgenden Abkürzungen für Summen und Produkte von “addier-
baren” oder “multiplizierbaren” Termen A(j) beziehungsweise M (j) einzuführen,
1.5.3 Umkehrung der äquivalenten Umformungen 47

wobei die Laufbereichsgrenzen der Argumente oder Indizes (hier j) nichtnegati-


ve ganze Zahlen sind und der Laufbereich auch durch (zusätzliche) Bedingungen
gegeben oder eingeschränkt werden kann:

n
P  0, wenn m > n ist,
A(j) : = A(m), wenn m = n ist,
j=m
A(m) + · · · + A(n), wenn m < n ist;


n
Q  1, wenn m > n ist,
M (j) : = M (m), wenn m = n ist,
j=m
M (m) · · · M (n), wenn m < n ist.

Satz über Produktauflösung


Sind Eij kj (λj ) = Em + λj ~eij t~ekj , j = 1, ..., s, Elementarmatrizen mit ij , kj ∈
Im und ij 6= kl für alle j, l mit 1 ≤ l ≤ j ≤ s, so gilt
Ys X s
Eij kj (λj ) = Em + λj ~eij t~ekj
j=1 j=1

d.h. tritt in einem Produkt von Elementarmatrizen des Typs III kein
Zweitindex eines Faktors bei einem weiter rechts stehenden Faktor als
Erstindex auf, so ist die Produktmatrix die zu Em addierte Summe der um
Em verminderten Elementarmatrizen.5

Beweis (r1):

Bei der vollständigen Induktion ergibt s = 1 den oben behandelten Induktions-


anfang, und der Induktionsschritt besteht in der Multiplikation beider Seiten der
Gleichung mit einer weiteren Elementarmatrix und Anwendung von (1.30) auf
die von E verschiedenen Summanden.

1.5.3 Umkehrung der äquivalenten Umformungen

Sehen wir uns noch einmal unser Produkt


F : = Em,m−1 · · · · · · Em2 · · · E32 · Em1 · · · E21

5
Mit den fett gedruckten Wortteilen (kein Zweit weiter rechts Erst) lässt sich die Voraus-
setzung dadurch merken, dass zuerst drei ei-Laute und dann drei e-Laute aufeinanderfolgen.
48 Umkehrung der äquivalenten Umformungen 1.5.3

an, so erkennen wir, dass die Voraussetzungen des Satzes über Produktauflösung
erfüllt wären, wenn die Faktoren in der umgekehrten Reihenfolge auftreten wür-
den. Die umgekehrte Reihenfolge der Elementarmatrizen entspricht aber der
umgekehrten Reihenfolge der äquivalenten Umformungen, das heißt also dem
Rückgängigmachen des Eliminationsalgorithmus.

Wir erinnern uns, dass die äquivalenten Umformungen gerade durch die Bedin-
gung der Umkehrbarkeit definiert wurden, und die Umkehrung der Umformung
vom Typ III besteht in der Subtraktion des λ -fachen der k -ten Gleichung von
der i-ten (wenn vorher das λ-fache der k-ten Gleichung zur i-ten addiert wurde).

Die zugehörige Elementarmatrix hat also die Form Eik (−λ). Man kann auch leicht
nachrechnen, dass durch Eik (−λ) die Wirkung von Eik (λ) aufgehoben wird, denn
wegen i 6= k gilt aufgrund des Satzes über Produktauflösung (Seite 47):
(1.31) Eik (λ)Eik (−λ) = E + λ~ei t~ek − λ~ei t~ek = E.
Entsprechend finden wir bei den anderen Typen äquivalenter Umformungen durch
Übersetzung von Unterabschnitt 1.2.2 (Seite 19) jeweils eine Matrix, deren Pro-
dukt mit der vorliegenden Elementarmatrix die Einheitsmatrix ergibt:
(1.32)    
1 1
I. Eii (λ − 1)Eii λ − 1 = E + (λ − 1)~ei ~ei + λ − 1 ~ei t~ei +
t
 
(λ − 1) λ1 − 1 ~ei t~ei = E, falls λ 6= 0 ist;

IV. Pik Pik = E − (~ei − ~ek ) t (~ei − ~ek )2




= E − 2 (~ei − ~ek ) t (~ei − ~ek ) +


(~ei − ~ek ) t (~ei − ~ek ) (~ei − ~ek ) t (~ei − ~ek ) = E, wenn i 6= k ist.
| {z }
2
Ersetzen wir in (1.31) λ durch −λ und in (1.32) I. λ durch λ1 , so erhalten wir die
Produkte mit vertauschten Faktoren. Zu jeder Elementarmatrix gibt es also eine
Elementarmatrix vom selben Typ, sodass das linksseitige und das rechtsseitige
Produkt die Einheitsmatrix darstellt. Diese wichtige Eigenschaft ist Inhalt der
folgenden Definition:

Definition der Invertierbarkeit


Eine m×m - Matrix A heißt invertierbar (oder umkehrbar oder regulär oder
nichtsingulär ) genau dann, wenn es eine m×m - Matrix A0 gibt, so dass AA0 =
A0 A = E gilt.
1.5.3 Umkehrung der äquivalenten Umformungen 49

Im Unterabschnitt 2.3.14 werden wir nachweisen, dass für m × n - Matrizen A


und A0 aus AA0 = E bereits A0 A = E folgt (und umgekehrt). Hier können wir
wenigstens zeigen, dass sich aus AA0 = E und A00 A = E mit m × m - Matrizen
A, A0 und A00 stets A0 = A00 ergibt:

A0 = EA0 = (A00 A)A0 = A00 (AA0 ) = A00 E = A00 .

Insbesondere kann es also keine verschiedenen Matrizen A0 und A00 geben, so


dass AA0 = A0 A = E und AA00 = A00 A = E gilt. Die damit eindeutig durch A
bestimmte Matrix A0 in der Definition der Invertierbarkeit (Seite 48) wird Inverse
von A genannt und mit A−1 (anstelle von A0 ) bezeichnet.

Die Ergebnisse von (1.31) und (1.32) lassen sich nun folgendermaßen zusammen-
fassen:

Satz über die Invertierbarkeit der Elementarmatrizen


Alle Elementarmatrizen sind invertierbar, und es gilt
−1  
I. Eii (λ − 1) = Eii λ1 − 1 , λ 6= 0,
−1
II., III. Eik (λ) = Eik (−λ), i 6= k,
IV. Pik−1 = Pik .

Jetzt können wir die einzelnen Schritte des Eliminationsalgorithmus rückgängig


machen, indem wir alle Teile der Gleichungen F A~x = S~x = F~b nacheinander
mit der Inversen der jeweils am weitesten links stehenden Elementarmatrix mul-
tiplizieren. In unserem Beispiel sind dieses die folgenden Umkehrschritte:

E32 E31 E21 A~x = S~x = E32 E31 E21~b −1


| · E32
E31 E21 A~x = E −1 S~x =
32 E31 E21~b −1
| · E31
E21 A~x = −1 −1
E31 E32 S~x = E21~b −1
| · E21
−1 −1 −1
A~x = E21 E31 E32 S~x = ~b

Genauso können wir im allgemeinen Fall die in F zusammengefassten Elementar-


matrizen schrittweise abbauen. Die jeweiligen Inversen treten dann vor der Matrix
S in der entgegengesetzten Reihenfolge auf wie die zugehörigen Elementarmatri-
zen vor A (beziehungsweise ~b ):
50 Umkehrung der äquivalenten Umformungen 1.5.3

(1.33) −1
A~x = E21 −1 −1
· · · Em1 −1
E32 · · · Em2 −1
· · · · · · Em,m−1 S~x = ~b.

Dieses Gesetz gilt unabhängig von linearen Gleichungssystemen auch für beliebige
invertierbare m×m - Matrizen:

Satz über die Inverse eines Produkts


Sind A1 , . . . , Ap (p ≥ 2) invertierbare m×m - Matrizen, so ist auch A1 · · · Ap
invertierbar, und es gilt
(A1 · · · Ap )−1 = A−1 −1
p · · · A1 .

Beweis (r1):

Induktionsanfang p = 2 :
(A1 A2 ) A−1 −1
= A1 A2 A−1
 −1
A1 = A1 EA−1 −1

2 A1 2 1 = A1 A1 = E,
A−1 −1
(A1 A2 ) = A−1 A−1 −1 −1
 
2 A1 2 1 A1 A2 = A2 EA2 = A2 A2 = E,
also
(A1 A2 )−1 = A−1 −1
2 A1 .

Der Induktionsschritt unter Verwendung des allgemeinen Assoziativgesetzes er-


folgt entsprechend:
(A1 · · · Ap · Ap+1 )−1 = A−1
p+1 (A1 · · · Ap )
−1
= A−1 −1 −1
p+1 · Ap · · · A1 .

Damit erkennen wir zugleich, dass das Produkt der Inversen vor der Matrix S in
(1.33) die Inverse F −1 von F ist, so dass wir jetzt das ursprüngliche Gleichungs-
system in der Form
A~x = F −1 S~x = ~b
schreiben können. Im Unterschied zu F ist F −1 ein Produkt von Elementarmatri-
zen in der “richtigen” Reihenfolge: Da die Zweitindizes monoton wachsen und je-
der Erstindex größer als der zugehörige Zweitindex ist, kann kein Zweitindex eines
Faktors bei einem weiter rechts stehenden Faktor als Erstindex auftreten. Damit
sind die Voraussetzungen des Satzes über Produktauflösung (Seite 47) erfüllt. Ist
Eij die Abkürzung für Eij (λij ), so gilt Eij−1 = Eij (−λij ), und wir erhalten
m−1 m
!
X X
(1.34) U : = F −1 = Em − λjk~ej t~ek .
k=1 j=k+1
1.5.3 Umkehrung der äquivalenten Umformungen 51

Damit ist  
1
 −λ21
 1 0 

U =  −λ31 −λ32 1 .
 
 .. .. . .. . .. 
 . . 
−λm1 −λm2 . . . −λm,m−1 1

Eine solche m × m - Matrix, bei der oberhalb der Hauptdiagonalen nur Nullen
stehen, heißt untere Dreiecksmatrix. Entsprechend wird eine m×m - Matrix obere
Dreiecksmatrix genannt, wenn ihre Transponierte eine untere Dreiecksmatrix ist.
Enthält die Hauptdiagonale einer (unteren oder oberen) Dreiecksmatrix nur Ein-
sen, so spricht man von einer normierten (unteren oder oberen) Dreiecksmatrix.

Die Elemente von U = F −1 unterhalb der Hauptdiagonalen lassen sich noch etwas
einfacher deuten: Da λij während des Eliminationsalgorithmus so bestimmt wird,
dass die Summe des mit λij multiplizierten j -ten Elements der kj -ten Spalte
und des i -ten Elements derselben Spalte Null ergibt, ist uij : = −λij gerade der
Quotient des i -ten und des j -ten Elements der jeweiligen kj -ten Spalte, wobei
kj wie in der Definition der Stufenmatrix (Seite 45) den Spaltenindex des j -ten
Eckkoeffizienten bezeichnet.

Damit haben wir folgenden Satz:

Satz über die US -Zerlegung ohne Vertauschungen


Ist A eine m×n - Matrix, für die der Eliminationsalgorithmus ohne Vertau-
schungen von Zeilen durchgeführt werden kann, so besitzt A die Produktdar-
stellung
A = U S,
wobei U eine normierte untere Dreiecksmatrix und S eine m×n - Stufenmatrix
ist. Bezeichnet kj den Spaltenindex des j -ten Eckkoeffizienten, so sind die
Elemente von U unterhalb der Hauptdiagonalen die Zahlen uij = −λij , die im
Laufe der äquivalenten Umformungen von A als Quotienten des i-ten und des
j -ten Elements der kj -ten Spalte berechnet werden, bevor der entsprechende
Eliminationsschritt (Addition des λij - fachen des j - ten Zeilenvektors zum
i - ten) ausgeführt wird. Die Stufenmatrix S ist die Koeffizientenmatrix der
Stufenform (1.10) des m×n - Systems.

In unserem Beispiel lautet die Produktzerlegung


52 Umkehrung der äquivalenten Umformungen 1.5.3
    
−1 −1 2 1 0 0 −1 −1 2
A =  −2 0 5  =  2 1 0   0 2 1  = U S.
1 3 0 −1 1 1 0 0 1
Wir schließen diesen Abschnitt mit zwei Sätzen über das

Zusammenspiel von Invertierbarkeit und Transposition sowie über Produkte von


Dreiecksmatrizen.

Satz über Transponierte von Inversen


Ist A invertierbar, so stellt auch tA eine invertierbare Matrix dar, und es gilt
(tA)−1 = t (A−1 ).

Beweis (r1):

Die Inverse von A erfüllt definitionsgemäß die Gleichungen


AA−1 = A−1 A = E.
Aufgrund des Satzes über Matrizenmultiplikation (iv) (Seite 39) folgt daraus
t
(A−1 ) tA = t (AA−1 ) = t E = E,
so dass die Invertierbarkeit von tA und die Gleichung (tA)−1 = t (A−1 ) abgelesen
werden können.

Satz über Produkte von Dreiecksmatrizen


Sind A1 , . . . , Ap mit p ≥ 2 (normierte) untere beziehungsweise obere m×n -
Dreiecksmatrizen, so stellt A1 · · · Ap eine Matrix des entsprechenden Typs
dar.

Beweis (r1):

Wegen Teil iv) des Satzes über Matrizenmultiplikation (Seite 39) genügt es, den
Beweis durch vollständige Induktion über p für (normierte) untere Dreiecks-
matrizen zu führen:

Induktionsanfang p = 2 :

Sind A1 = : (aik ) und A2 = : (bik ) untere Dreiecksmatrizen, so gilt aik = bik = 0


für alle i, k ∈ Im mit i < k. Setzen wir (cik ) : = A1 A2 , so ergibt (1.23) für i < k
die Elemente
1.5.3 Umkehrung der äquivalenten Umformungen 53

cik = ai1 0 + · · · + aii 0 + 0bi+1,k + · · · + 0bmk = 0,

das heißt, A1 A2 ist eine untere Dreiecksmatrix. Bei normierten unteren Dreiecks-
matrizen gilt außerdem aii = bii = 1 für i = 1, . . . , m, sodass cii = aii bii = 1 aus
(1.23) folgt. In diesem Fall ist also auch A1 A2 eine normierte untere Dreiecksma-
trix.

Der Induktionsschritt erfolgt mit Hilfe des allgemeinen Assoziativgesetzes durch


Zurückführung auf ein Produkt von zwei Dreiecksmatrizen:

A1 · · · Ap Ap+1 = (A1 · · · Ap )Ap+1 .

Übung 1.5.b

a) Bestimmen Sie alle 2×2 - Matrizen B, für die B 2 = E2 gilt.


b) Es sei A = (aik ) eine invertierbare 2×2 - Matrix. Geben Sie A−1 explizit
an.

Übung 1.5.c

Zeigen Sie, dass die Matrix


 1 
2 2 0 0
2 1 
 2 0
3 3  invertierbar ist. (Hinweis: Stellen Sie die Matrix als Pro-
0 1 2 3
 2 4
dukt von invertierbaren Matrizen dar.)
0 0 14 2
Achtung: Fundgrube! [US -Zerlegung und Invertierbarkeit der m×m -
Matrizen A = (aik ) mit aii : = 2, i = 1, ..., m, aik : = 0 für |i − k| ≥ 2 und
0 < aik < 1 für |i − k| = 1.]

Übung 1.5.d

a) Bestimmen Sie diejenigen 3×3 - Matrizen, die mit allen anderen 3 ×3 -


Matrizen vertauschbar sind.
b) Geben Sie diejenigen normierten oberen 3×3 - Matrizen an, die mit allen
normierten oberen 3× 3 -Matrizen vertauschbar sind.

Übung 1.5.e

Eine m × m - Matrix A heißt nilpotent, wenn es ein n ∈ N1 gibt, sodass


An = (0) gilt. A und B seien nilpotente m×m - Matrizen. Zeigen Sie:
54 Vorteile der Produktdarstellung 1.5.4

a) Aus An = (0) folgt, dass Em − A invertierbar ist und dass (Em − A)−1 =
Em + A + A2 + · · · + An−1 gilt.
b) Aus AB = BA folgt, dass A + B nilpotent ist.
c) Aus AB = BA folgt, dass AB nilpotent ist.

Übung 1.5.f

Es sei A eine m×n - Matrix und B eine n×m - Matrix. Beweisen Sie, dass
En − BA genau dann invertierbar ist, wenn Em − AB eine invertierbare
Matrix darstellt. [Hinweis: Gehen Sie von der Gleichung B(Em − AB) =
(En − BA)B aus, und formen Sie solange um, bis Sie eine Gleichung der
Form (En − BA)X = En erhalten.]

Übung 1.5.g

Es sei A = (aik ) die n × n - Matrix mit ajj : = n für j = 1, . . . , n und


aik : = −1 für i 6= k. Zeigen Sie mit Hilfe der vorigen Übung 1.5.f, dass A
invertierbar ist, und berechnen Sie A−1 .

Übung 1.5.h
 
1 2 5
Bestimmen Sie zu A = zwei verschiedene 3×2 - Matrizen B und
3 4 9
C mit AB = AC = E2 .

Übung 1.5.i

Es sei A eine n×n - Matrix mit A2 = A 6= En . Beweisen Sie, dass A nicht


invertierbar ist.

1.5.4 Vorteile der Produktdarstellung

Was haben wir nun mit der Produktdarstellung der Koeffizientenmatrix A eines
m × n - Systems gewonnen? Zunächst sieht es so aus, als wären wir im Kreise
gelaufen: In der Form U S~x = ~b haben wir das ursprüngliche Gleichungssystem
A~x = ~b zurückerhalten. Die folgenden Vorteile der Produktzerlegung können wir
aber schon jetzt erkennen:

1. Ist die Zerlegung A = U S bekannt, so lässt sich das Gleichungssystem A~x = ~b 0


für jeden Spaltenvektor ~b 0 (der Länge m) mit wesentlich geringerem Aufwand
1.5.5 Elimination mit Vertauschungen 55

als mit der Vorwärtselimination (ca. 13 m3 Operationen - das heißt Multiplika-


tionen und Divisionen - bei einem m × m - System; siehe Übung 1.3.b) behan-
deln beziehungsweise lösen: Da U eine normierte untere Dreiecksmatrix ist, lässt
sich der Spaltenvektor ~y 0 = U −1~b 0 durch “Vorwärtseinsetzen” aus dem System
U~y 0 = ~b 0 mit ca. 1 m2 Operationen berechnen. Ist S eine (invertierbare) obere
2
Dreiecksmatrix, so ergibt sich die (einzige) Lösung ~x des Systems U S~x = ~b 0 durch
Rückwärtseinsetzen mit ebenfalls ca. 12 m2 Operationen aus dem System S~x = ~y 0 .

Als Beispiel hierfür geben wir am Schluss dieses Abschnitts einen Algorithmus
zur Berechnung der Inversen an.

2. Die Faktoren U und S können für manche Matrizen A auch ohne Verwendung
des Eliminationsalgorithmus bestimmt werden. Ein wichtiges Beispiel dafür be-
handeln wir in 1.7.1.

Übung 1.5.j
Lösen Sie die 3×3 - Systeme U S~x = ~bk , k = 1, 2, 3, mit
         
1 00 1 −1 0 2 11 a
  ~
U = −1 1 0 , S = 0 1 −1 , b1 = −1 , b2 =
    ~   ~
7 , b3 = b  .

0 −1 1 0 0 1 3 −3 c

Übung 1.5.k 
111
Bestimmen Sie zu der Matrix A =  1 2 3  eine 3×3 - Matrix X, sodass
149
AX = E3 gilt. [Hinweis: Berechnen Sie zu jedem Spaltenvektor ~ei von E3
einen Lösungsvektor ~xi des Systems A~xi = ~ei .]

1.5.5 Elimination mit Vertauschungen

Wie wir schon in 1.3.3 erkannt haben, können während des Eliminationsverfah-
rens Zeilenvertauschungen notwendig werden, um eine Null durch ein von Null
verschiedenes Element zu ersetzen. Aber auch wenn ein Eckkoeffizient aik nur
wenig von Null verschieden ist, wendet man in der Praxis Zeilenvertauschung
an, um das betragsmäßig größte Element ajk mit j > i an die Stelle von aik zu
bringen (teilweise Pivotisierung) 6 .

6
“Pivot” ist die englisch-amerikanische Bezeichnung für “Dreh- und Angelpunkt” und für
jeden der Koeffizienten, die wir Eckkoeffizienten nennen.
56 Elimination mit Vertauschungen 1.5.5

Im allgemeinen Fall enthält also das Produkt der Elementarmatrizen, die den
Eliminationsalgorithmus beschreiben, auch Vertauschungsmatrizen Pik und zwar
immer dann, wenn bei dem Eliminationsprozess in einer Spalte zuerst ein geeigne-
ter Eckkoeffizient herbeigeschafft werden muss. Wenn wir beachten, dass Pjj = E
und Eik (0) = E ist, können wir den Faktor F aus 1.5.2 durch
F = (Emr · · · Er+1,r Pir r ) · · · (Em2 · · · E32 Pi2 2 ) · (Em1 · · · E21 Pi1 1 )
ersetzen, wobei r die Stufenzahl der Stufenmatrix S = F A ist und ik ≥ k für
k = 1, . . . , r gilt. (Im Falle r = m ist die ganz links stehende Klammer bei F zu
streichen.)
Auch hier können wir A in der Form A = F −1 S zurückgewinnen und F −1 als
Produkt der Inversen der einzelnen Elementarmatrizen in der umgekehrten Rei-
henfolge schreiben (mit der entsprechenden Vereinbarung im Falle r = m):

(1.35) F −1 = Pi1 1 E21−1 −1 −1 −1 −1 −1


  
· · · Em1 · Pi2 2 E32 · · · Em2 · · · Pir r Er+1,r · · · Emr .
Aber nun ist F −1 wegen des Auftretens der Vertauschungsmatrizen in der Regel
keine untere Dreiecksmatrix, das heißt, A lässt sich nicht als Produkt U S mit
einer normierten unteren Dreiecksmatrix U und einer Stufenmatrix S darstellen.
Dieser Mangel lässt sich glücklicherweise durch eine einfache Überlegung besei-
tigen: Wir können die Vertauschungsmatrizen Pik k , k = 1, . . . , r, aus F −1 nach
links herausziehen, ohne die Indexbedingung des Satzes über Produktauflösung
(Seite 47) zu stören. Dazu zeigen wir:

Satz über den Seitenwechsel von Vertauschungsmatrizen


Sind Pij und Ekl (λ) Elementarmatrizen vom Typ IV beziehungsweise III, so
gilt Ekl (λ)Pij = Pij Ek0 l0 (λ) mit
 
j, wenn k = i,
 j, wenn l = i,

0 0
k : = i, wenn k = j, und l : = i, wenn l = j,
 
k sonst, l sonst.
 

Beweis (r1):
Wegen Pij = Pij−1 = tPij gilt

Ek0 l0 (λ) = Pij Ekl (λ)Pij = Pij E + λ~ek t~el Pij = Pij EPij + λPij ~ek t~el Pij


= E + λ Pij ~ek t Pij ~el mit Pij ~ek = ~ek0 und Pij ~el = ~el0 .
 
1.5.6 Beispiel für Matrizenvertauschung 57

Nun können wir jede der in F −1 auftretenden Matrizen Pik k , k = 1, . . . , r, schritt-


weise mit allen weiter links stehenden Elementarmatrizen vom Typ III vertau-
schen. Pi1 1 steht in (1.35) bereits an der richtigen Stelle. Schreiben wir Eik (u0ik )
−1
anstelle von Eik , wobei u0ik : = −λik die im Eliminationsalgorithmus gebildeten
Quotienten sind, so bewirkt das Vorziehen von Pi2 2 , dass in der ersten Klammer
E21 (u021 ) durch Ei2 1 (u021 ) sowie Ei2 1 (u0i2 1 ) durch E21 (u0i2 1 ) ersetzt wird. Entspre-
chend ergibt das Vorziehen der Matrix Pik k mit k ∈ {2, . . . , r} in der j -ten
Klammer für jedes j mit j < k die Ersetzung von Ekj (u0kj ) durch Eik j (u0kj ) sowie
von Eik j (u0ik j ) durch Ekj (u0ik j ).
Da das allgemeine Ergebnis nicht ganz einfach ist, betrachten wir zunächst ein
Beispiel:

1.5.6 Beispiel für Matrizenvertauschung

Es sei A eine 4 × 4 - Matrix, für die der Eliminationsalgorithmus die folgenden


Darstellungen ergibt:
P21 E21 (u021 )E31 (u031 )E41 (u041 )P42 E32 (u032 )E42 (u042 )P43 E43 (u043 )S
= P21 P42 E41 (u021 )E31 (u031 )E21 (u041 ) E32 (u032 )E42 (u042 )P43 E43 (u043 )S
= P21 P42 P43 E31 (u021 )E41 (u031 )E21 (u041 ) E42 (u032 )E32 (u042 ) E43 (u043 )S.
Beachten Sie, dass die Argumente der Ausgangsmatrizen Eik (u0ik ) bei den Ver-
tauschungen unverändert bleiben. Da sich auch die Zweitindizes aller Elementar-
matrizen vom Typ III nicht ändern und da die Indexbedingung des Satzes über
Produktauflösung (Seite 47) durchweg gilt, lassen sich die drei Produkte von Ele-
mentarmatrizen ohne die Permutationsmatrizen als Summen schreiben, bei denen
die Elemente der zugehörigen normierten unteren Dreiecksmatrizen einfach ab-
gelesen werden können.
Die entsprechenden Vertauschungen ergeben dann
 
1 1
   
1 0 
0
 0
u21 1 0  u
−→  41
 0
1 0  −→  u041 1
U = 0 0 = U.
 
u31 u32 1  (P42 )  u031 u032 1  (P43 )  u021 u042 1 
  
 
u041 u042 u043 1 u021 u042 u043 1 u031 u032 u043 1
m−1
Q  m 
0
Ejk (u0jk ) = : (~u10 . . . ~um
0
Q
Im allgemeinen Fall ist U = ) aufgrund des
k=1 j=k+1
Satzes über Produktauflösung die normierte untere Dreiecksmatrix, deren Ele-
mente u0ik unterhalb der Hauptdiagonalen die bei dem Eliminationsalgorithmus
58 Beispiel für Matrizenvertauschung 1.5.6

gebildeten Quotienten sind. Da in der Produktdarstellung kein Zweitindex weiter


rechts als Erstindex auftritt und da Pik k für k = 2, . . . , r in (1.35) nur mit Ele-
mentarmatrizen vertauscht wird, deren Zweitindex kleiner ist als k und ik , bleiben
alle Zweitindizes unverändert. Außerdem wird beim Ersetzen der Erstindizes die
Indexbedingung des Satzes über Produktauflösung (Seite 47) nicht verletzt, sodass
aufgrund der Summendarstellung die Indexvertauschungen beim Vorziehen von
Pik k , k = 2, . . . , r, jeweils die Vertauschung des k -ten und des ik -ten Elements
der j -ten Spalte für j = 1, . . . , k − 1 in der zugehörigen Matrix bedeuten. Unter
Beachtung der Reihenfolge des Herausziehens erhalten wir also
A = F −1 S = Pi1 1 · · · Pir r ) U S mit
U = Pir r · · · Pi2 2 ~u10 Pir r · · · Pi3 3 ~u20 . . . Pir r ~ur−1
0
~ur0 . . . ~um
0

.

Wegen k ≤ ik für k = 1, . . . , r ist U wieder eine normierte untere Dreiecksmatrix.


Der Übergang von U 0 zu U lässt sich damit folgendermaßen beschreiben:

Sind Pi1 1 , . . . , Pir r die während des Eliminationsalgorithmus bei der Matrix
A auftretenden Vertauschungsmatrizen mit ik ≥ k für k = 1, . . . , r (Pjj = E)
und ist U 0 die Quotientenmatrix, so ergibt sich die normierte untere Drei-

ecksmatrix U der U S -Zerlegung von Pir r · · · Pi1 1 A durch die folgenden
Vertauschungen von Elementen aus U 0 :

1. u021  u0i2 1 , u00ik : = u0ik “sonst”,


2. (u0031 u0032 )  (u00i3 1 u00i3 2 ), u000 00
ik : = uik “sonst”,

···
   
(r−1) (r−1) (r−1) (r−1)
(r − 1). ur1 . . . ur,r−1  uir 1 . . . uir ,r−1 ,
(r) (r−1)
uik = uik “sonst”.

Durch Multiplikation von A mit


−1
P = Pi r r · · · Pi 1 1 = P i 1 1 · · · Pi r r

ergibt sich schließlich die Produktdarstellung


(1.36) P A = U S,

die wir auch folgendermaßen deuten können: Wenn wir die Zeilen von A in dersel-
ben Weise und Reihenfolge miteinander vertauschen, wie es während des Elimina-
tionsverfahrens geschieht, so erhalten wir stets eine Matrix, die eine U S-Zerlegung
1.5.6 Beispiel für Matrizenvertauschung 59

besitzt. Der Übergang von dem Gleichungssystem A~x = ~b zu P A~x = U S~x = P~b
gibt dann die entsprechende Vertauschung von Gleichungen wieder.
Der Spaltenvektor P~b lässt sich leicht berechnen, da das Produkt P = Pir r · · · Pi1 1
eine sehr einfache Gestalt besitzt:

Definition der Permutationsmatrix


Eine m×m - Matrix P heißt Permutationsmatrix genau dann, wenn in jeder
Zeile und in jeder Spalte von P genau eine 1 steht und P sonst nur Nullen
enthält.

Jede Vertauschungsmatrix Pik ist offenbar eine Permutationsmatrix, und das Pro-
dukt Pik P 0 einer Vertauschungsmatrix mit einer Permutationsmatrix P 0 ist wie-
der eine Permutationsmatrix, da bei der Vertauschung zweier Zeilen von P 0 die
Zahl der Nullen und Einsen in jeder Zeile und in jeder Spalte unverändert bleibt.
Vollständige Induktion ergibt damit:

Satz über das Produkt von Vertauschungsmatrizen


Jedes Produkt von endlich vielen Vertauschungsmatrizen stellt eine Permu-
tationsmatrix dar.

Im folgenden Abschnitt werden wir zeigen, dass jede Permutationsmatrix auch


als endliches Produkt von Vertauschungsmatrizen geschrieben werden kann.
Nun können wir den allgemeinen Fall zusammenfassen:

Zerlegungssatz
Zu jeder m×n - Matrix A gibt es eine Permutationsmatrix P, eine normierte
untere Dreiecksmatrix U und eine m×n - Stufenmatrix S, sodass
P A = US
gilt. P, U und S können folgendermaßen bestimmt werden:
Der Eliminationsalgorithmus ergibt die Stufenmatrix S mit der Stufenzahl
r. Sind Pi1 1 , . . . , Pir r mit rk > k für k = 1, . . . , r (Pjj = E) die während des
Verfahrens auftretenden Vertauschungsmatrizen, so gilt P = Pir r · · · Pi1 1 . Ist
U 0 die Quotientenmatrix, deren Elemente u 0ik unterhalb der Hauptdiagonalen
60 Beispiel zum Zerlegungssatz 1.5.7

wie im Satz über die U S -Zerlegung ohne Vertauschungen (Seite 51) zu be-
rechnen sind, so ergibt sich U aus U 0 , indem nacheinander die folgenden
Elemente miteinander vertauscht werden:
Das zweite und das i2 -te Element der ersten Spalte, dann das dritte und das
i3 -te Element der ersten beiden Spalten und so weiter bis schließlich in der
ersten bis (r − 1) -ten Spalte jeweils das r -te und das ir -te Element.

1.5.7 Beispiel zum Zerlegungssatz

Führen wir bei unserer vertrauten Beispielmatrix teilweise Pivotisierung durch


und sammeln die Quotienten in der vorweg notierten Matrix U 0 , so erhalten wir
nacheinander die Matrizen
 
1 0 0 
−1 −1 2
 
−2 0 5

 1 −→ −→
U 0 =  2 1 0 , A =  −2 0 5  P21  −1 −1 2  E31 E21

−1 −1 1
2 3
1 3 0 1 3 0

−2 0 5 −2 0 5 −2 0 5
     
 0 −1 − 1  −→  0 3 5  −→  0 3 5 
 2  P32  2  E32  2  = S,
5 1
0 3 2 0 −1 − 2 0 0 13
 
1 00 
0 1 0

 1
U =  − 2 1 0 . Mit P = P32 P21 =  0 0 1  ist dann

1
2
− 13 1 100
   1 0 0   −2 0 5 
−2 0 5
 1 5 
P A =  1 3 0  =  − 2 1 0   0 3 2  = U S.

−1 −1 2 1
− 31 1 0 0 13
2

Übung 1.5.l
Bestimmen Sie die U S -Zerlegung von P A zu der Matrix
 
0 3 −1 0
 3 0 0 1
A=  −1 0 0 3  ,

01 30
wenn während des Eliminationsalgorithmus die erste und dritte Zeile sowie
die zweite und vierte Zeile vertauscht werden (wegen der sich ergebenden
ganzzahligen Quotienten): P = P42 P31 .
1.5.8 Die UDO-Zerlegung einer invertierbaren Matrix 61

1.5.8 Die UDO-Zerlegung einer invertierbaren Matrix

Ist A eine invertierbare m × m - Matrix, so lässt sich die Stufenmatrix S weiter


aufspalten. Da P A und U −1 invertierbar sind, ist auch S = U −1 P A invertierbar.
Insbesondere besitzt S~x = ~em eine Lösung. Also ist smm 6= 0, das heißt, S hat
die Stufenzahl m, und alle Diagonalelemente d1 : = s11 , . . . , dm : = smm sind
Eckkoeffizenten. Damit gilt
 
  1 s12 /d1 . . . s1m /d1
d1 .. .. ..
. 0
 . . .

S=  . .  
 = : DO.

1 sm−1,m /dm−1 

0 dm  0
1
Allgemein heißt eine m×m - Matrix
 
d1
 ... 0 
 
 dr  mit d1 6= 0, . . . , dr 6= 0

 0
 0
 
..
.

0
Diagonalmatrix (mit der Stufenzahl r). Damit können wir den Zerlegungssatz
(Seite 59) durch folgenden Satz ergänzen:

Satz über die UDO-Zerlegung von invertierbaren Matrizen


Ist A eine invertierbare m × m - Matrix und P die Permutationsmatrix, die
die Zeilenvertauschungen während des Eliminationsalgorithmus wiedergibt,
so besitzt P A die Produktdarstellung
P A = U DO.
Dabei ist U die normierte untere Dreiecksmatrix aus dem Zerlegungssatz,
D ist die Diagonalmatrix (mit der Stufenzahl m), deren Diagonalelemente
die Eckkoeffizienten in ihrer vorgegebenen Reihenfolge sind, und O ist die
Koeffizientenmatrix der oberen Dreiecksform (1.8) nach der Normierung.

In diesem Fall sind die Faktoren der Produktdarstellung P A = U DO sogar ein-


deutig durch P A bestimmt:

Satz über die Eindeutigkeit der UDO-Zerlegung


Es sei A eine m × m - Matrix und P eine m × m - Permutationsmatrix. Gilt
P A = U1 D1 O1 = U2 D2 O2 mit normierten unteren Dreiecksmatrizen U1 , U2 ,
62 Der Inversen-Algorithmus von Gauß und Jordan 1.5.9

Diagonalmatrizen D1 , D2 mit der Stufenzahl m und normierten oberen Drei-


ecksmatrizen O1 , O2 , so folgt U1 = U2 , D1 = D2 und O1 = O2 .

Beweis (a1):
Wir formen die Gleichung U1 D1 O1 = U2 D2 O2 zunächst so um, dass auf der einen
Seite eine untere Dreiecksmatrix und auf der anderen Seite eine obere Dreiecks-
matrix steht. Dazu multiplizieren wir von links mit U2−1 und von rechts mit O1−1
und erhalten
U2−1 U1 D1 = D2 O2 O1−1 .
Da U2 ein Produkt von Elementarmatrizen ist, die zugleich untere Dreiecksma-
trizen sind, gilt das gleiche für U2−1 aufgrund des Satzes über die Invertierbarkeit
der Elementarmatrizen (Seite 49) und des Satzes über die Inverse eines Produkts
(Seite 50). Mit Hilfe des Satzes über Produkte von Dreiecksmatrizen (Seite 52)
folgt dann, dass U2−1 und damit auch U3 : = U2−1 U1 D1 eine untere Dreiecksmatrix
ist. Der Satz über Transponierte von Inversen (Seite 52) ergibt weiter, dass O1−1
eine obere Dreiecksmatrix darstellt. Also ist aufgrund des Satzes über Produkte
von Dreiecksmatrizen auch O3 : = D2 O2 O1−1 eine obere Dreiecksmatrix. Wegen
U3 = O3 müssen diese beiden Matrizen eine Diagonalmatrix D3 sein.
In dem Produkt (U2−1 U1 )D1 werden die Spalten der normierten unteren Dreiecks-
matrix U2−1 U1 mit den entsprechenden Diagonalelementen von D1 multipliziert.
Aus D3 = (U2−1 U1 )D1 folgt damit durch Vergleich der Diagonalelemente, dass
D3 = D1 gilt. Derselbe Schluss auf t D3 = t (D2 O2 O1−1 ) = (t O1 )−1 t O2 tD2 ange-
wandt ergibt D3 = D2 . Da diese Diagonalmatrizen als Produkte von Elemen-
tarmatrizen invertierbar sind, erhalten wir schließlich die gekürzten Gleichungen
E = U2−1 U1 und E = O2−1 O1 , die zu U1 = U2 und O1 = O2 führen.
Die Erzeugung der Produktdarstellungen in diesem Abschnitt nennen wie im
Folgenden Zerlegungsalgorithmus.

1.5.9 Der Inversen-Algorithmus von GAU ß und JORDAN


Jede invertierbare m×m - Matrix A besitzt aufgrund des Satzes über die UDO-
Zerlegung von invertierbaren Matrizen (Seite 61) sowie mit (1.35) eine Produkt-
darstellung
A = (P −1 U )DO = F −1 DO.
Jede der Matrizen F −1 , D und O ist dabei Produkt von endlich vielen Elemen-
tarmatrizen. Das gleiche gilt wegen des Satzes über die Invertierbarkeit von Ele-
mentarmatrizen (Seite 49) und des Satzes über die Inverse eines Produkts (Seite
50) auch für
1.5.9 Der Inversen-Algorithmus von Gauß und Jordan 63

A−1 = O−1 D−1 F.


Die Gleichung (O−1 D−1 F )A = E beschreibt aber zugleich die äquivalenten Um-
formungen von A, und zwar gibt F die Vorwärtselimination wieder, D−1 die
Normierung und O−1 die Rückwärtselimination. Fassen wir diese Gleichung mit
der Gleichung (O−1 D−1 F )E = A−1 zusammen, indem wir A und E beziehungs-
weise E und A−1 spaltenweise zu einer Matrix vereinen, so erhalten wir wegen
(1.22)
O−1 D−1 F · (A E) = (E A−1 ).

Dieses ist die Grundlage des Inversen-Algorithmus (von Gauß und Jordan 7 ):
Wendet man die äquivalenten Zeilenumformungen, die A in E überführen gleich-
zeitig auf E an, so erhält man A−1 .

Dieses Verfahren hat einerseits den in Unterabschnitt 1.5.4 erwähnten Vorteil der
Ökonomie, denn es bedeutet die gleichzeitige Lösung der m Gleichungssysteme
A~xi = ~ei , i = 1, . . . , m. Andererseits braucht man nicht vorher zu wissen, ob
A invertierbar ist, denn das Verfahren ergibt zugleich ein Kriterium für die In-
vertierbarkeit einer gegebenen m×m - Matrix A: Erhält man durch äquivalente
Umformungen die Einheitsmatrix (beziehungsweise eine Stufenform mit der Stu-
fenzahl m), so ist A als Produkt von Elementarmatrizen invertierbar. Tritt jedoch
im Laufe des Verfahrens eine Zeile auf, deren erste Hälfte nur Nullen enthält, so
ist A nicht invertierbar.

Als Beispiel betrachten wir zum letzten Mal unsere Standardmatrix:


..
     
−1 −1 2 . 1 0 0 −1 −1 2 1 0 0 −1 −1 2 1 0 0
(A E) = −2 0 5 ... 0 1 0  E31
 −→  −→
0 2 1 −2 1 0 E 0 2 1 −2 1 0 

E21 32
.. 0 22 101 0 0 1 3 −1 1
1 3 0.0 0 1
1 1 −2 −1 0 0 1 1 0 5 −2 2
   
1 1  −→ 
−→ 
D−1 0 1 2 −1 2 0 E13 E23 0 1 0 − 5 1 − 1 
2 2
0 0 1 3 −1 1 0 0 1 3 −1 1
 .   15
1 0 0 .. 15 5 −3 25

2
−3 2 2
−→ 
 . 1  = E A−1 . Also ist A−1 = 

 − 5 1 − 1 .
E12  0 1 0 .. − 5

1 − 2 2
. 2 2 
0 0 1 .. 3 −1 1 3 −1 1

Berechnen Sie zur Kontrolle AA−1 .

7
Camille Jordan (1838-1922), französischer Mathematiker. Die französische Aussprache
des Namens mit Betonung der letzten Silbe klingt wie dschordang.
64 Die allgemeine lineare Gruppe GL(n; R) 1.6.1

Übung 1.5.m
Bestimmen Sie alle 2×2 - Matrizen, für die A tA = E2 gilt.
Übung 1.5.n
Berechnen Sie mit Hilfe des Inversen-Algorithmus die Inverse der 3 × 3 -
Matrix
 1 1 
1
 1 21 31 
 2 3 4  auf folgende Weisen :
 
1 1 1
3 4 5
a) durch exakte Rechnung,
b) indem Sie jedes Element und jedes Zwischenergebnis so runden, dass
höchstens drei Ziffern hinter dem Komma stehen (zum Beispiel 23 = 0, 666).
Übung 1.5.o
Beweisen Sie für m×m - Matrizen A, dass mit A2 auch A invertierbar ist
und dass dann A−1 = A(A2 )−1 gilt.

1.6 Einige Typen von Matrizen

Zunächst wollen wir etwas Ordnung unter den zahlreichen Matrizen schaffen, die
wir in den letzten Abschnitten kennengelernt haben. Anschließend betrachten wir
mehrere wichtige Anwendungen, die auf Gleichungssysteme mit vielen Gleichun-
gen und Unbekannten, aber mit sehr speziellen Koeffizientenmatrizen führen.

1.6.1 Die allgemeine lineare Gruppe GL(n ;R)

Die invertierbaren Matrizen haben bisher die meisten angenehmen Eigenschaften


gezeigt. Wir wollen deshalb für jedes n ∈ N1 die Menge der invertierbaren n×n -
Matrizen etwas genauer untersuchen.
Aufgrund des Satzes über die Inverse eines Produkts (Seite 50) ist das Produkt
von endlich vielen invertierbaren n×n - Matrizen wieder eine invertierbare n×n -
Matrix. Das Assoziativgesetz gilt für je endlich viele (beliebige) n×n - Matrizen,
die Gleichung En B = B ist ebenfalls für beliebige n×n - Matrizen B erfüllt, und zu
jeder invertierbaren Matrix A gibt es aufgrund der Definition die inverse Matrix
A−1 mit A−1 A = En .
1.6.2 Weitere Beispiele für Gruppen 65

Damit stellt die Menge der invertierbaren n×n - Matrizen zusammen mit der Ma-
trizenmultiplikation, der Einheitsmatrix En und der Inversenbildung ein Gebilde
dar, das als Gruppe bezeichnet wird. Diese wichtigste algebraische Struktur wird
folgendermaßen definiert:

Definition der Gruppe


Ein Viertupel (G, ◦, n,¯), bestehend aus
- einer nichtleeren Menge G,
- einer Verknüpfung (oder Komposition) ◦ : G×G → G, (a, b) 7→ a ◦ b,
- einem ausgezeichneten (“neutralen”) Element n ∈ G sowie
- einer Abbildung (“Inversenabbildung”) ¯: G → G, a 7→ ā,
heißt Gruppe genau dann, wenn gilt:
G1 (Assoziativgesetz) (a ◦ b) ◦ c = a ◦ (b ◦ c) für alle a, b, c ∈ G,
G2 (Eigenschaft des neutralen Elements) n ◦ a = a für alle a ∈ G,
G3 (Eigenschaft der inversen Elemente) ā ◦ a = n für alle a ∈ G.
Eine Gruppe heißt abelsch (oder kommutativ), wenn außerdem
G4 a ◦ b = b ◦ a für alle a, b ∈ G erfüllt ist.
Die Eigenschaften G1, G2 und G3 werden Gruppenaxiome genannt.

Der Vorteil einer solchen axiomatischen Definition liegt einerseits darin, dass wir
höchst verschiedenartige Gebilde unter einem einheitlichen Gesichtspunkt ord-
nen können. Andererseits gelten alle Schlussfolgerungen, die wir mit Hilfe der
Regeln der Logik allein aus den Axiomen ziehen können, für alle Gebilde, die die
Axiome erfüllen. Bei abelschen Gruppen wird die Verknüpfung oft als “Addition”
geschrieben. Ist die Verknüpfung eine “Multiplikation”, so wird das Malzeichen
meistens weggelassen. Wir geben zunächst einige Beispiele für Gruppen und zie-
hen anschließend einige Folgerungen aus den Gruppenaxiomen.

1.6.2 Weitere Beispiele für Gruppen

1. (Z, +, 0, −), (Q, +, 0, −) und (R, +, 0, −) : Das inverse Element zu a ist −a.
2. (Q \ {0}, ·, 1, 1/) und (R \ {0}, ·, 1, 1/) : Das inverse Element zu a ist 1/a.
3. Bezeichnet R+ die Menge der positiven reellen Zahlen, so ist auch (R+ , ·, 1, 1/)
eine Gruppe.
Alle diese Gruppen sind abelsch.
4. Bezeichnen wir die Menge der invertierbaren n × n - Matrizen vorübergehend
66 Weitere Beispiele für Gruppen 1.6.2

mit Un , so ist nach unseren Vorüberlegungen ( Un , ·, En , −1 ) eine Gruppe, die


allgemeine lineare Gruppe genannt und mit GL(n; R) bezeichnet wird. Für n > 1
    
1 0 1 1 1 1
ist diese Gruppe nicht abelsch. Zum Beispiel gilt = und
     1 1 0 1 1 2
1 1 1 0 2 1
= .
0 1 1 1 1 1
5. Es sei M eine nichtleere Menge und S(M) die Menge der bijektiven 8 (das
heißt umkehrbaren) Abbildungen von M auf sich selbst. Die Verknüpfung sei die
Hintereinanderausführung von Abbildungen, das neutrale Element die identische
Abbildung idM : M → M, x 7→ x und das inverse Element zu f ∈ S(M)
−1 −1
sei die Umkehrabbildung f ∈ S(M) mit f ◦ f = idM . Um zu erkennen, dass
−1 
S(M), ◦, idM ,  eine Gruppe ist, müssen wir in diesem Falle nur noch das
Assoziativgesetz nachweisen: Sind f, g, h ∈ S(M) und ist x ∈ M, so gilt (h ◦
    
g) ◦ f (x) = (h ◦ g) f (x) = h g f (x) = h g ◦ f )(x) = h ◦ (g ◦ f ) (x), also
(h ◦ g) ◦ f = h ◦ (g ◦ f ).
Diese wichtige Gruppe heißt symmetrische Gruppe der Menge M. Sie ist im
Allgemeinen nicht abelsch. Den speziellen Fall, dass M = Im ist, behandeln wir
im nächsten Abschnitt.
6. (N, +, 0, −) und (N1 , ·, 1, 1/) sind keine Gruppen, da die jeweiligen Inversenab-
bildungen nicht in N beziehungsweise N1 definiert sind.
Die in dem folgenden Satz zusammengestellten Eigenschaften zeigen einerseits,
dass das neutrale Element in G2 und das inverse Element in G3 auch rechts (statt
links) in den Verknüpfungen stehen können und andererseits, dass das neutrale
Element und die Inversenabbildung bereits durch G und ◦ festgelegt sind. Man
schreibt deshalb anstelle des Viertupels meistens kürzer (G, ◦), und wenn klar
ist, um welche Verknüpfung es sich handelt, bezeichnet man oft die Gruppe nur
mit G.

Satz über Gruppeneigenschaften


Es sei (G, ◦, n,¯) eine Gruppe.
1. Dann gilt a ◦ ā = n und a ◦ n = a für alle a ∈ G.

8
Eine Abbildung g : A → B heißt injektiv, wenn g(x) 6= g(y) für alle x, y ∈ A mit x 6= y gilt,
surjektiv, wenn es zu jedem z ∈ B ein x ∈ A mit z = g(x) gibt, und bijektiv, wenn g injektiv
und surjektiv ist.
1.6.2 Weitere Beispiele für Gruppen 67

2. Aus a ◦ c = b ◦ c mit a, b, c ∈ G und ebenso aus c ◦ a = c ◦ b folgt a = b


(Kürzungsregel ).
3. Das neutrale Element und die Inversenabbildung sind eindeutig durch G
und ◦ bestimmt.

Beweis (r1):

1. Nach G3 gibt es zu jedem ā ∈ G ein ā ¯ ∈ G mit ā¯ ◦ ā = n. G1 und G2 ergeben



¯ ◦ ā) ◦ (a ◦ ā) = ā
dann a ◦ ā = n ◦ (a ◦ ā) = (ā ¯ (ā ◦ a) ◦ ā = ā
¯ ◦ (n ◦ ā) = ā
¯ ◦ ā = n.

Daraus folgt weiter a ◦ n = a ◦ (ā ◦ a) = (a ◦ ā) ◦ a = n ◦ a = a.

2. Nach Multiplikation der ersten vorausgesetzten Gleichung mit c̄ von rechts


und Anwendung von 1. und G1 ergibt sich a = a ◦ n = a ◦ (c ◦ c̄) = (a ◦ c) ◦ c̄ =
(b ◦ c) ◦ c̄ = b ◦ (c ◦ c̄) = b ◦ n = b. Analog erhalten wir die zweite Aussage mit
G1, G2 und G3 nach Multiplikation mit c̄ von links.

3. Sind n und n0 Elemente aus G, die a = n ◦ a = n0 ◦ a für ein a ∈ G erfüllen, so


folgt n = n0 mit der Kürzungsregel. Ebenso ergibt 2. für alle ā und ã aus G mit
n = ā ◦ a = ã ◦ a, a ∈ G, dass ā = ã gilt.

Übung 1.6.a
Es sei (G, ◦, n,¯) eine Gruppe. Zeigen Sie, dass die folgenden Beziehungen
gelten:
1. Zu je zwei Elementen a, b ∈ G gibt es genau ein x ∈ G und genau ein
y ∈ G, so dass x ◦ a = b und a ◦ y = b gilt.
2. (ā) = a für alle a ∈ G.
3. (a ◦ b) = b̄ ◦ ā für alle a, b ∈ G.

Übung 1.6.b
  
a b
Für n ∈ N1 sei Gn : = a, b, c, d ∈ Z und ad − bc = n , und

  c d
a b
durch det = ad − bc werde die Abbildung det von der Menge aller
c d
2×2 - Matrizen nach R definiert.
a) Zeigen Sie, dass det (AB) = (det A)(det B) für alle 2×2 - Matrizen A, B
gilt.
b) Beweisen Sie, dass G1 mit der üblichen Matrizenmultiplikation eine Grup-
68 Weitere Beispiele für Gruppen 1.6.2

pe ist, und untersuchen Sie, ob Gn für n ≥ 2 mit der Matrizenmultiplikation


eine Gruppe darstellt.
c) Weisen Sie nach, dass XAY ∈ Gn für jedes n ∈ N1 , für alle A ∈ Gn und
für alle X, Y ∈ G1 gilt.
Übung 1.6.c
Zeigen Sie für 2×2 - Matrizen A und B mit A 6= (0), B 6= (0) und AB = (0),
dass det A = 0 und det B = 0 gilt.
Hinweis: Benutzen Sie die Übungen 1.5.b und 1.6.b.
Übung 1.6.d
Für jedes a ∈ N1 sei z(a) : = max{k ∈ N | 2k ≤ a}, und bk (a), k =
0, . . . , z(a), seien die eindeutig bestimmten “Binärziffern” von a mit bk (a) ∈
z(a)
bk (a)2k . Außerdem werde bk (a) : = 0
P
{0, 1} für k = 0, . . . , z(a) sowie a =
k=0
für k > z(a) sowie z(0) : = 0 und b0 (0) : = 0 gesetzt. Für alle m, n ∈ N
wird die Verknüpfung ++ (binäre Addition, gelesen “biplus”) durch ++ : =
z(m+n)
|bk (m) − bk (n)|2k definiert.
P
k=0

1) Zeigen Sie, dass (N, ++, 0, id) eine abelsche Gruppe ist.
2) Geben Sie mit Hilfe der für jedes a ∈ N1 erklärten Abkürzung â : = 2z(a)
ein rekursives Berechnungsverfahren an, das es erlaubt, die binäre Summe
++ für Zahlen m, n unter 100 im Kopf auszurechnen.
Achtung: Fundgrube!
[Bestimmung aller “Verluststellungen” beim Nimspiel mit Hilfe der binären
Addition. Das Nimspiel wird von zwei Personen folgendermaßen gespielt:
Zunächst werden aus einer Menge von Gegenständen Haufen gebildet, wo-
bei die Anzahl der Haufen und die Anzahl der Gegenstände in jedem Haufen
ganz beliebig ist. Dann verkleinern die Spieler abwechselnd jeweils irgend-
einen der Haufen. Wer schließlich nichts mehr wegnehmen kann, weil alle
Haufen entfernt wurden, hat verloren.
Ein n-tupel (s1 , . . . , sn ) ∈ Nn wird “Stellung” genannt. Ein n-tupel (t1 , . . . ,
tn ) ∈ Nn heißt “Folgestellung” von (s1 , . . . , sn ), wenn es ein k ∈ In gibt, so
dass tk < sk und ti = si für i 6= k gilt. Eine Stellung s heißt “Verluststel-
lung”, wenn jede Folgestellung von s eine “Gewinnstellung” ist oder wenn
s = (0, . . . , 0) ∈ Nn gilt. Eine Stellung s heißt “Gewinnstellung”, wenn
es eine Folgestellung von s gibt, die eine “Verluststellung” ist (rekursive
Definition!).]
1.6.3 Symmetrische Gruppe und Gruppe von Permutationsmatrizen 69

Übung 1.6.e
 
cos ϕ − sin ϕ
Für ϕ ∈ R sei Dϕ : = . Beweisen Sie die folgenden Aus-
sin ϕ cos ϕ
sagen:
a) Dϕ Dψ = Dϕ+ψ = Dψ Dϕ für alle ϕ, ψ ∈ R;
b) t Dϕ = D−ϕ = Dϕ−1 für alle ϕ ∈ R;
c) SO(2) : = ({A ∈ GL(2; R) | Es gibt ϕ ∈ R, sodass D = Dϕ gilt }, · )
ist eine Gruppe.
Übung 1.6.f
Zeigen Sie, dass O(2) : = ({A ∈ GL(2; R) | A tA = E2 }, · ) eine Gruppe
darstellt. Hinweis: Beachten Sie die Übungen 1.5.b, 1.5.m und 1.6.b.
Übung 1.6.g
Beweisen Sie folgende Aussagen für 2×2 - Matrizen A, und bestimmen Sie
dann alle nilpotenten 2×2 - Matrizen:
a) A2 − Sp (A)A + (det A)E2 = (0);
b) Ist A nilpotent, so folgt Sp (A) = 0;
c) Ist A nilpotent, so gilt A2 = (0).
[Hinweis: Nutzen Sie mehrmals die Gleichung in a) aus.]

1.6.3 Die symmetrische Gruppe von In und die Gruppe


der n×n - Permutationsmatrizen
−1 
Die in Beispiel 1.6.2.5 eingeführte symmetrische Gruppe S(M), ◦, idM ,  der
endlichen Menge M = In wird mit Sn bezeichnet. Jede Abbildung σ ∈ S(In )
heißt Permutation der Zahlen 1, . . . , n. Üblicherweise schreibt man Permutatio-
 
1 2 ... n
nen in der Form σ : = .
σ(1) σ(2) . . . σ(n)
   
1 2 1 2
Für n = 2 sind das die Permutationen und .
1 2 2 1
S(I3 ) besteht aus 6 Permutationen:
           
1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3
, , , , , .
1 2 3 1 3 2 2 1 3 2 3 1 3 1 2 3 2 1
Sind σ, τ ∈ Sn , so ergibt die Hintereinanderausführung
     
1 ... n 1 ... n 1 ... n
τ ◦σ = ◦ = .
τ (1) . . . τ (n) σ(1) . . . σ(n) τ (σ(1)) . . . τ (σ(n))
70 Symmetrische Gruppe und Gruppe von Permutationsmatrizen 1.6.3
         
123 123 123 123 123
Zum Beispiel ist ◦ = , aber ◦ =
  132 231 321 231 132
123
, das heißt, S3 ist nicht abelsch. Für jedes n mit n ≥ 3 zeigen die ent-
213
sprechenden beiden Permutationen, die genauso beginnen wie die obigen und die
alle übrigen Elemente festlassen, dass Sn für n ≥ 3 nicht abelsch ist. S1 und S2
sind offensichtlich abelsch.
Jeder Permutation σ ∈ S(In ) lässt sich eine Permutationsmatrix
Pσ : = ~eσ(1) t~e1 + . . . + ~eσ(n) t~en
zuordnen, das heißt, für k = 1, . . . , n wird durch σ der Zeilenindex σ(k) der ein-
zigen 1 in der k -ten Spalte festgelegt. Umgekehrt bestimmen bei jeder n × n -
Permutationsmatrix P die Zeilenindizes der Einsen in den einzelnen Spalten
genau eine Permutation σ ∈ S(In ). Bezeichnet Permn die Menge der n × n -
Permutationsmatrizen, so stellt also

(1.37) Φ : S(In ) → Permn , σ 7→ Pσ = (~eσ(1) . . . ~eσn )

eine bijektive Abbildung dar. Sind σ, τ ∈ Sn und Pσ , Pτ die zugeordneten Per-


mutationsmatrizen, so gilt

Pτ · Pσ = ~eτ (1) t~e1 + · · · + ~eτ (n) t~en ~eσ(1) t~e1 + · · · + ~eσ(n) t~en
 

= ~eτ (σ(1)) t~e1 + · · · + ~eτ (σ(n)) t~en = Pτ ◦σ ,

da alle übrigen Summanden nach (1.30) verschwinden. Der Hintereinanderaus-


führung von zwei Permutationen wird also durch Φ das Produkt der zugehörigen
Permutationsmatrizen zugeordnet:

(1.38) Φ(τ ◦ σ) = Φ(τ ) · Φ(σ).

Da sich jede Permutationsmatrix in der Form P = Pσ mit σ ∈ S(In ) schreiben


lässt, ist damit zugleich gezeigt, dass das Produkt von zwei Permutationsmatrizen
wieder eine Permutationsmatrix ist.
Um zu erkennen, dass Permn , ·, En , −1 mit der Inversenabbildung von Matri-


zen eine Gruppe (und zwar eine “Untergruppe” von GL(n; R) darstellt, müssen
wir noch zeigen, dass jede Permutationsmatrix invertierbar ist und dass die Inver-
se wieder eine Permutationsmatrix ergibt. Zusammen mit dem Satz über die In-
vertierbarkeit der Elementarmatrizen (Seite 49), dem Satz über die Inverse eines
Produkts (Seite 50) und dem Satz über das Produkt von Vertauschungsmatrizen
(Seite 59) erhalten wir diese Eigenschaft aus dem folgenden Satz:
1.7 Interpolation und weitere Anwendungen 71

Satz über Permutationsmatrizen


Jede Permutationsmatrix P ist Produkt von endlich vielen Vertauschungs-
matrizen (Elementarmatrizen vom Typ IV ), und es gilt P −1 = tP.

Beweis (r1):

P = En stellt eine spezielle Vertauschungsmatrix dar. Im Falle P 6= En führen


wir durch Multiplikation mit den Vertauschungsmatrizen Pi1 1 , . . . , Pin n (ik ≥
k, Pjj = En ) Zeilenvertauschungen in der Weise durch, dass schließlich Pin n · · ·
Pi1 1 · P = En gilt. Dann ist P = (Pin n · · · Pi1 1 )−1 = Pi1 1 · · · Pin n und P −1 =
Pin n · · · Pi1 1 = tPin n · · · tPi1 1 = tP.

Damit ist auch Permn , ·, En , −1 eine Gruppe.




Die bijektive Abbildung Φ stellt zwischen Sn und dieser Matrizengruppe einen


Zusammenhang her, den man Gruppenisomorphismus nennt. Im Hinblick auf die
Gruppenstruktur sind diese Gruppen nicht zu unterscheiden: Sie gehen durch
Umbenennung ineinander über.

Übung 1.6.h

Bestimmen Sie die kleinste natürliche Zahl k, sodass P k = E3 für alle 3×3 -
Permutationsmatrizen P gilt.

1.7 Interpolation und weitere Anwendungen

1.7.1 Die UDO-Zerlegung der Vandermonde-Matrix

In der Praxis tritt sehr oft das folgende Interpolationsproblem auf:

Gegeben sind n + 1 paarweise verschiedene Zahlen (“Stützstellen”) x0 , . . . , xn


und zu jeder Zahl xi ein Wert (“Stützwert”) wi , i = 0, . . . , n. Gesucht wird ein
Polynom 9
P (x) = c0 + c1 x + · · · + cn xn .

sodass P (xi ) = wi für i = 0, . . . , n gilt.

9
Im Sinne der Algebra sind damit in diesem Buch stets Polynomfunktionen gemeint, in die
man einsetzen kann, während Polynome mit Unbestimmten gebildet werden.
72 Die UDO-Zerlegung der Vandermonde-Matrix 1.7.1

Die Paare (xi , wi ), i = 0, . . . , n, können dabei sowohl durch einen Messvorgang


als auch durch einen theoretischen Ansatz gegeben sein, letzteres zum Beispiel,
wenn eine komplizierte Funktion f, deren Funktionswerte f (xi ) an geeigneten
Stützstellen xi bekannt sind, durch Polynome angenähert werden soll. Die we-
sentliche Bedeutung der Interpolation mit Polynomen liegt heute in dem zweiten
Bereich, der die Grundlage für viele Verfahren der praktischen Mathematik (zum
Beispiel für die numerische Differentiation und Integration) darstellt.
−w0
Die Fälle n = 0 mit P (x) = w0 und n = 1 mit P (x) = w0 + wx1 −x (x − x0 ) werden
1 0
schon im Schulunterricht behandelt.

Setzen wir in P (x) für x die n + 1 verschiedenen Zahlen xi ein, so erhalten


wir für die Unbekannten ci , i = 0, . . . , n, ein (n + 1)×(n + 1) - System mit der
Koeffizientenmatrix
1 x0 x20 . . . xn0
 
 1 x x2 . . . x n 
1
Vn : =  . . .1 1 
,

 .. .. .. .
.. 
1 xn x2n . . . xnn
die Vandermonde-Matrix genannt wird.
   
c0 w0
Mit ~c : =  ...  und w
~ : =  ...  lautet das Gleichungssystem also
   
cn wn
(1.39) Vn ~c = w
~

Um dieses System zu lösen, könnten wir versuchen, die US - beziehungsweise


UDO - Zerlegung von Vn zu bestimmen. Mit Hilfe unserer bisher gewonnenen
Theorie ist das sicher sehr mühsam. Wir entwickeln deshalb zunächst einen güns-
tigeren Ansatz für das gesuchte Polynom P (x), indem wir es so einrichten, dass
bei Hinzunahme eines weiteren Paares (xk , wk ) immer nur ein neuer Koeffizient
berechnet werden muss. Das ist zum Beispiel der Fall, wenn wir P (x) als Summe
von Polynomen ak pk (x), k = 0, . . . , n, mit

1 für k = 0,
pk (x) : =
(x − x0 ) · · · (x − xk−1 ) für k = 1, . . . , n,

schreiben:
P (x) = a0 p0 + a1 p1 + · · · + an pn ;

denn nun erhalten wir nach dem Einsetzen der xi als Koeffizientenmatrix des
(n + 1) × (n + 1) - Systems mit dem Unbekanntenvektor ~a : = t (a0 . . . an ) eine
untere Dreiecksmatrix, nämlich
1.7.1 Die UDO-Zerlegung der Vandermonde-Matrix 73
 
p0 (x0 ) . . . pn (x0 )
 p0 (x1 ) . . . pn (x1 ) 
 
 p0 (x2 ) . . . pn (x2 ) 
 =
 .. .. 
 . ... . 
p0 (xn ) . . . pn (xn )
 
1
1 x −x 0 
 1 0 
 1 x2 − x0 (x2 − x0 )(x2 − x1 ) .
 
. . . .
 .. .. .. ..


1 xn − x0 (xn − x0 )(xn − x1 ) . . . (xn − x0 ) · · · (xn − xn−1 )

Sie ist das Produkt der normierten unteren Dreiecksmatrix


 
1
 0 
1 1 
 p (x ) 
1 1 2 1 
Un : = 
 p1 (x1 )

 .. .. ...

. .


 p (x ) pn−1 (xn ) 
1 n
1 p (x ) . . . p (x ) 1
1 1 n−1 n−1

und der Diagonalmatrix (mit der Stufenzahl n + 1)


 
p0 (x0 )
0
 .. 
Dn : = 
 . .

0
pn (xn )
Damit ist das Gleichungssystem
(1.40) (Un Dn )~a = w
~
eindeutig durch “Vorwärtseinsetzen” lösbar.
Die Zahlen a0 , . . . , an , die bei vielen Anwendungen auftreten, werden wir im
nächsten Abschnitt noch genauer untersuchen.
Jetzt können wir auch das ursprüngliche Gleichungssystem Vn~c = w ~ lösen, indem
wir die Polynome pk (x), k = 2, . . . , n, “ausmultiplizieren” und die Summe a0 +
a1 p1 (x) + · · · + an pn (x) nach Potenzen von x ordnen. Da pk (x) für k = 2, . . . , n
ein Produkt von k Linearfaktoren ist, hat pk (x) nach dem Ausmultiplizieren die
Form
pk (x) = c0k + c1k x + · · · + ck−1,k xk−1 + xk .

Außerdem ist p0 (x) = 1 und p1 (x) = c01 + x mit c01 = −x0 . Für 1 ≤ i ≤ k ≤ n ist
74 Die UDO-Zerlegung der Vandermonde-Matrix 1.7.1

(−1)i ck−i,k die Summe aller möglichen verschiedenen Produkte von je i verschie-
denen Zahlen aus {x0 , . . . , xk−1 }. Bei jeder Permutation von x0 , . . . , xk−1 geht
(−1)i ck−i,k in sich selbst über. (−1)i ck−i,k wird deshalb die i-te elementarsymme-
trische Funktion von x0 , . . . , xk−1 genannt und mit σi (x0 , . . . , xk−1 ) bezeichnet:
σ1 (x0 , . . . , xk−1 ) = x0 + · · · + xk−1 ,
σ2 (x0 , . . . , xk−1 ) = x0 x1 + · · · + x0 xk−1 + x1 x2 + · · · · · · + xk−2 xk−1 ,
.. ..
. .
σk (x0 , . . . , xk−1 ) = x0 · · · xk−1 .

Definieren wir noch ckk : = 1 für k = 0, . . . , n und cjk : = 0, wenn 0 ≤ k < j ≤ n


ist, so stellt die Matrix  
c00 . . . c0n
 .. .. 
Cn : =  . . 
cn0 . . . cnn
eine normierte obere Dreiecksmatrix dar, und es gilt
(1 x . . . xn ) Cn = p0 (x) p1 (x) . . . pn (x)


für jede reelle Zahl x. Setzen wir nun für x nacheinander die Zahlen x0 , . . . , xn ein
und fassen die entsprechenden Zeilenvektoren auf der linken beziehungsweise der
rechten Seite zu Matrizen zusammen, so erhalten wir die entscheidende Gleichung
(1.41) Vn Cn = Un Dn .
Zusammen mit (1.40) folgt daraus sofort
w
~ = (Un Dn )~a = (Vn Cn )~a = Vn (Cn~a),
das heißt, ~c = Cn~a ist eine Lösung des ursprünglichen Systems Vn~c = w.
~
Da Cn eine normierte obere Dreiecksmatrix ist, stellt auch Cn−1 eine normierte
obere Dreiecksmatrix dar (siehe den Beweis des Satzes über die Eindeutigkeit
der UDO-Zerlegung (Seite 61)). Durch Multiplikation von rechts mit On : = Cn−1
gewinnen wir nun aus (1.41) die UDO-Zerlegung von Vn
(1.42) Vn = Un Dn On .
Aufgrund des Satzes über die Eindeutigkeit der UDO-Zerlegung sind die Matrizen
Un , Dn und On durch Vn eindeutig bestimmt, und aufgrund des Satzes über die
Inverse eines Produkts (Seite 50) ist Vn als Produkt von invertierbaren Matrizen
selbst invertierbar. Der Koeffizientenvektor ~c = Vn−1 w
~ des Interpolationspoly-
noms P (x) ist also ebenfalls eindeutig bestimmt. Damit können wir jetzt sehr
leicht den folgenden Satz beweisen, der die Grundlage der Methode des Koeffi-
zientenvergleichs bei Polynomen ist und der im Polynomvergleichssatz (Seite 279)
auf die im Unterabschnitt 1.2.1 angekündigten allgemeineren algebraischen Struk-
turen übertragen wird:
1.7.2 Interpolationsformeln 75

Koeffizientenvergleichssatz
Sind P (x) = c0 + c1 x + · · · + cn xn und Q(x) = b0 + b1 x + · · · + bm xm mit
0 ≤ m ≤ n Polynome, deren Werte an mehr als n verschiedenen Stellen über-
einstimmen, so gilt bi = ci für i = 0, . . . , m sowie ci = 0 für i = m + 1, . . . , n,
falls n > m ist.

Beweis (r1):
Falls m < n ist, setzen wir bi : = 0 für i = m+1, . . . , n. Nach Voraussetzung gibt es
mindestens n+1 verschiedene Zahlen xi , i = 0, . . . , n, für die Q(xi ) = P (xi ) = : wi
gilt. Mit ~b : = t(b0 . . . bn ), ~c : = t(c0 . . . cn ), und w
~ : = t(w0 . . . wn ), folgt dann wie
oben Vn~b = Vn~c = w, ~ also ~b = ~c = Vn−1 w. ~
Insbesondere besitzt jedes Polynom P (x) genau eine Darstellung in der Form
P (x) = c0 + c1 x + · · · + cn xn mit cn 6= 0. Die Zahl n wird Grad des Polynoms
genannt.

1.7.2 Interpolationsformeln

Zum Abschluss wollen wir die Methode des Koeffizientenvergleichs anwenden, um


zwei nützliche Eigenschaften der Komponenten a0 , . . . , an des Lösungsvektors ~a
des Gleichungssystems Un Dn~a = w ~ herzuleiten und um die Matrix On aus (1.42)
explizit zu bestimmen.
Da die ersten k + 1 Zeilen der unteren Dreiecksmatrix Un Dn nur von x0 , . . . , xk
abhängen, ist ak für k = 0, . . . , n nur von x0 , . . . , xk und w0 , . . . , wk abhängig.
Um diese Abhängigkeit auszudrücken, führen wir für ak das Symbol
ak : = ∆k (x0 , . . . , xk ) w
ein, das aus einem gleich ersichtlichen Grunde k - ter Differenzenquotient von
(x0 , w0 ), . . . , (xk , wk ) genannt wird. Das abschließende w ist hier als Symbol einer
Funktion aufzufassen, für die w(xi ) = wi , i = 0, . . . , k, gilt. Ist anstelle der Werte
w0 , . . . , wk eine Funktion f vorgegeben, so wird ∆k (x0 , . . . , xk ) f entsprechend
mit den Werten f (xi ), i = 0, . . . , k, gebildet.
Zunächst folgt wegen ~c = Cn~a, dass
(1.43) cn = an = ∆n (x0 , . . . , xn )w
gilt. Wir entwickeln nun zwei weitere Darstellungen des Interpolationspolynoms
76 Interpolationsformeln 1.7.2

P (x), aus denen sich dann durch Koeffizientenvergleich die gewünschten Eigen-
schaften ergeben.
n
Q x−xj
Für die Polynome Qk (x) : = xk −xj
, k = 0, . . . , n, gilt Qk (xk ) = 1 und Qk (xi ) =
j=0
j6=k
0 im Falle i 6= k. Damit ist n
X
(1.44) P (x) = wk Qk (x)
k=0
eine weitere Form des Interpolationspolynoms, die Lagrangesche Interpolations-
formel genannt wird. Ihre Herleitung stellt ein schönes Beispiel für das heuristi-
sche Prinzip der “Superposition” dar. In der Praxis spielt diese Formel heute nur
eine geringe Rolle, weil sie wegen der vielen Multiplikationen nicht sehr effektiv
ist.
Durch Ausmultiplizieren der Linearfaktoren von Qk (x) für k = 0, . . . , n und Zu-
sammenfassen der Koeffizienten von xn in den einzelnen Summanden von (1.44)
erhalten wir wegen (1.43) den Koeffizienten cn von P (x) in der Form
n
X n
Y
(1.45) n
∆ (x0 , . . . , xn )w = wk (xk − xj )−1 .
k=0 j=0
j6=k
Die folgende rekursive Herleitung des Interpolationspolynoms ergibt zugleich ein
rekursives Berechnungsverfahren für die höheren Differenzenquotienten. Dazu
führen wir die ebenfalls eindeutig bestimmten Interpolationspolynome Pj,k (x)
mit 0 ≤ j < k ≤ n für die Paare (xj , wj ), (xj+1 , wj+1 ), . . . , (xk , wk ) ein, das
heißt, Pj,k (x) sei das Polynom vom Grade k − j, für das Pj,k (xi ) = wi gilt, wenn
i ∈ {j, j + 1, . . . , k} ist. Setzen wir außerdem Pj,j (x) : = wj für j = 0, . . . , n, so
erhalten wir die Rekursionsformel von Neville :
1 
Pj,k (x) = (x − xj )Pj+1,k (x) + (xk − x)Pj,k−1 (x)
(1.46) xk − xj
für 0 ≤ j < k ≤ n.
und P0,n (x) ist das gesuchte Interpolationspolynom P (x).
Vergleichen wir auf beiden Seiten der Gleichung (1.46) die Koeffizienten der
höchsten Potenz xk−j und beachten wir, dass in diesem Fall (1.43) mit k − j
anstelle von n und mit (xj , . . . xk ) anstelle von (x0 , . . . xn ) gilt, so erhalten wir die
Rekursionsformel
∆0 (xi )w = wi für i = 0, . . . , n,
k−j 1
(1.47) ∆ (xj , . . . , xk )w = ∆k−j−1 (xj+1 , . . . , xk )w−
xk − xj
∆k−j−1 (xj , . . . , xk−1 )w für 0 ≤ j < k ≤ n.

1.7.2 Interpolationsformeln 77

x0
x1 − x0
x1 x2 − x0
x2 − x1 x3 − x0
x2 x3 − x1
x3 − x2 .. ··· xn − x0
x3 .. .
.. .
.. . xn − xn−3
. xn − xn−2
xn − xn−1
xn

w0
∆1 (x0 , x1 )w
w1 ∆2 (x0 , x1 , x2 )w
1
∆ (x1 , x2 )w ∆3 (x0 , . . . , x3 )w
w2 2
∆ (x1 , x2 , x3 )w n
∆1 (x2 , x3 )w .. · · · ∆ (x0 , . . . , xn )w
w3 .. .
.. .. .
. . ∆3 (xn−3 , . . . , xn )w
∆2 (xn−2 , xn−1 , xn )w
1
wn ∆ (xn−1 , xn )w

Abbildung 1.3: k-te Differenzenquotienten

die die Bezeichnung “k-ter Differenzenquotient” rechtfertigt und die vor allem
das in Abbildung 1.3 angedeutete Berechnungsverfahren ermöglicht.

Die normierte obere Dreiecksmatrix On der UDO-Zerlegung von Vn können wir


nun folgendermaßen explizit bestimmen: Wegen (1.42) ist der (k + 1)-te Spalten-
vektor ~ok von On der Lösungsvektor des Gleichungssystems Un Dn~ok = ~vk , wobei
wir mit ~vk : = t(xk0 . . . xkn ) den (k + 1) -ten Spaltenvektor von Vn bezeichnen.
Kürzen wir die Funktion x 7→ xk mit idk ab, so ist das k -te Element in der i-ten
Zeile von On also ∆i (x0 , . . . , xi ) idk .

Abschließend fassen wir die Lösung des Interpolationsproblems in dem folgenden


Satz zusammen:

Interpolationssatz
Sind (x0 , w0 ), . . . , (xn , wn ) n + 1 Zahlenpaare mit xi 6= xj für i 6= j, so gibt
es genau ein Polynom P (x) n-ten Grades, sodass P (xi ) = wi für i = 0, . . . , n
gilt. Dieses Polynom besitzt die Darstellung
X n k
k
Y
(1.48) P (x) = ∆ (x0 , . . . , xk )w (x − xj )
k=0 j=0
10
(Newtonsche Interpolationsformel ).
78 Interpolation mit kubischen Splinefunktionen 1.7.3

1.7.3 Interpolation mit kubischen Splinefunktionen

In diesem Abschnitt werden wir eine ganz andersartige Lösung des Interpolati-
onsproblems kennenlernen, die außerdem auf einen weiteren Matrizentyp - die
sogenannten Bandmatrizen - führt.
Ist die Anzahl der Stützstellen sehr groß, so bereitet es auch mit einer Rechen-
anlage einige Mühe, die Koeffizienten des Interpolationspolynoms zu bestimmen.
In vielen Fällen begnügt man sich deshalb bei der Interpolation mit Funktionen,
die sich aus Polynomen niederen Grades zusammensetzen. Wir betrachten hier
den folgenden wichtigen Spezialfall:

Definition der kubischen Splinefunktion


Sind x0 , . . . , xm+1 Stützstellen mit x0 < . . . < xm+1 , so heißt eine Funk-
tion x 7→ s(x), x ∈ [x0 , xm+1 ],11 natürliche kubische Splinefunktion (zu
x0 , . . . , xm+1 ), wenn es kubische Polynome Pj (x), j = 0, . . . , m, gibt, sodass
gilt:
i) s(x) = Pj (x) für x ∈ [xj , xj+1 ], j = 0, . . . , m,
0
ii) P j−1 (xj ) = P j0 (xj ) für j = 1, . . . , m,
00
iii) P j−1 00
(xj ) = P j00 (xj ) für j = 1, . . . , m und P 000 (x0 ) = P m (xm+1 ) = 0.

Dieser Ansatz und die Bezeichnung ”natürliche kubische Splinefunktion” haben


ihren Ursprung in einer praktischen Lösung des Interpolationsproblems durch
technische Zeichner: Sie verwendeten früher zum Kurvenzeichnen einen elasti-
schen Stab (Holzlatte, engl. spline), der so gebogen wurde, dass er durch die gege-
benen Stützpunkte hindurchführte. Auf Grund der physikalischen Gesetzmäßig-
keiten verschwindet die vierte Ableitung der so gewonnenen Funktion überall.
Zwischen je zwei aufeinanderfolgenden Stützstellen wird damit die Interpolations-
funktion durch ein Polynom beschrieben, dessen Grad höchstens 3 ist. Links von
dem ersten und rechts von dem letzten Stützpunkt verläuft der Stab geradlinig,
so dass die zweite Ableitung an der ersten und letzten Stützstelle verschwindet.
(Dieses ist der Grund für den Zusatz “natürlich”.)
Wir wollen nun zeigen, dass eine natürliche kubische Splinefunktion durch Vor-
gabe der m + 2 Stützstellen x0 , . . . , xm+1 und der zugehörigen Stützwerte s0 , . . . ,
10
Sir Isaac Newton (1643-1727), englischer Mathematiker und Physiker.
11
Für a, b ∈ R mit a ≤ b bezeichnet [a, b] : = {x ∈ R | a ≤ x ≤ b} ein abgeschlossenes Inter-
vall.
1.7.3 Interpolation mit kubischen Splinefunktionen 79

sm+1 eindeutig bestimmt ist und dass sie durch geschickte Elimination der unbe-
kannten Polynomkoeffizienten in einfacher Weise berechnet werden kann. Dazu
schreiben wir die gesuchten kubischen Polynome in der Form
Pj (x) = aj + bj (x − xj ) + 12 cj (x − xj )2 + 61 (x − xj )3 , j = 0, . . . , m.

Für die 4m + 4 unbekannten Koeffizienten ergeben sich folgende lineare Gleichun-


gen: jeweils m durch die Bedingungen i) und ii), m + 2 durch Bedingung iii) und
m+2 durch die Vorgabe der Stützwerte. Also liegt zunächst ein (4m+4)×(4m+4) -
System vor, das wir nun schrittweise reduzieren.
1. Wegen Pj00 (x) = cj + dj (x − xj ) erhalten wir aus iii) mit cm+1 = 0 die Beziehun-
gen cj = cj−1 + dj−1 (xj − xj−1 ), j = 1, . . . , m + 1. Elimination der Koeffizienten
dj ergibt dann Pj00 (x) = xj+11−xj cj+1 (x − xj ) + cj (xj+1 − x) , j = 0, . . . , m.


2. Durch zweimalige Integration von Pj00 (x) folgt


(1.49) Pj (x) = Kj (x) + Lj (x)
mit den kubischen Polynomen
1
cj+1 (x − xj )3 + cj (xj+1 − x)3

(1.50) Kj (x) =
6(xj+1 − xj )
und mit den linearen Polynomen Lj (x) (Integrationskonstanten!), die wir mit
Bedingung i) und mit den vorgegebenen Stützwerten wegen Lj (xj ) = sj − Kj (xj )
sowie Lj (xj+1 ) = sj+1 − Kj (xj+1 ) folgendermaßen berechnen können:
sj+1 − Kj (xj+1 ) sj − Kj (xj )
(1.51) Lj (x) = (x − xj ) + (xj+1 − x), j = 0, . . . , m.
xj+1 − xj xj+1 − xj

3. Für die verbleibenden unbekannten Koeffizienten c1 , . . . , cm ergibt Bedingung


ii) wegen
Kj (xj+1 ) − Kj (xj )
Pj0 (x) = Kj0 − + ∆1 (xj , xj+1 )s
xj+1 − xj
die folgenden Gleichungen:
0
Pj−1 (xj ) = 61 (2cj + cj−1 )(xj − xj−1 ) + ∆1 (xj−1 , xj )s =

Pj0 (xj ) = 61 (2cj + cj+1 )(xj+1 − xj ) + ∆1 (xj , xj+1 )s, j = 1, . . . , m.

Bringen wir alle Unbekannten auf die linke Seite und dividieren die j-te Gleichung
x −x
durch 61 (xj+1 − xj−1 ), so erhalten wir mit der Abkürzung qj : = x j −xj−1 die
j+1 j−1
Gleichungen
qj cj−1 + 2cj + (1 − qj )cj+1 = 6∆2 (xj−1 , xj , xj+1 )s, j = 1, . . . , m,

die wegen c0 = cm+1 = 0 und mit


80 Interpolation mit kubischen Splinefunktionen 1.7.3

2 1 − q1
 
0  
q
 2 2 1 − q2 
 c1
 .. .. ..  . 
B := 
 . . .  ..  ,
 , ~c : = 


 qm−1 2 1 − qm−1 
 cm
0
qm 2
 
6∆2 (x0 , x1 , x2 )s
d~ : = 
 .. 
. 
6∆2 (xm−1 , xm , xm+1 )s
als m×m - System geschrieben werden können:
(1.52) ~
B~c = d.

4. Die US -Zerlegung von B lässt sich mit Hilfe der Eckkoeffizienten ej , die rekursiv
durch e1 : = 2, ek+1 : = 2 − qk+1 (1 − qk )e−1
k , k = 1, . . . , m − 1, bestimmt sind,
direkt angeben:
 
1 e1 1 − q 1

 q2 0 0
e 1 ... ...
 

1 
(1.53) B= .. ..  = : U S.
 
 . . 
 em−1 1 − qm−1 
 0 
qm

0
e
1 em
m−1

Wegen 0 < qj < 1 ergibt sich mit vollständiger Induktion 1 < ej < 2 für
j = 2, . . . , m. Also hat S den Rang m, und ~c berechnet sich eindeutig aus den
besonders einfachen Gleichungssystemen U~x = d~ und S~c = ~x, die der Vorwärts-
elimination und dem Rückwärtseinsetzen entsprechen. Setzen wir die Koeffizien-
ten c1 , . . . , cm in (1.50) ein, so erhalten wir schließlich mit (1.51) und (1.49) die
ebenfalls eindeutig bestimmten kubischen Interpolationspolynome Pj (x), j =
0, . . . , m.
Matrizen, die wie B nur in der Nähe der Hauptdiagonalen von Null verschiede-
ne Elemente enthalten, treten in der Praxis verhältnismäßig oft auf. Sie haben
deshalb einen Namen:

Definition der Bandmatrix


 
b11 . . . b1n
Eine Matrix  ... ..  heißt Bandmatrix der halben Bandbreite b genau

. 
bn1 . . . bnn
dann, wenn bij = 0 für alle i, j ∈ {1, . . . , n} mit |i − j| ≥ b gilt.
Eine Bandmatrix mit b = 2 wird tridiagonale Matrix genannt.
1.8 Ausblick 81

In unserem Fall ist die halbe Bandbreite 2. Besitzt eine Bandmatrix B mit der
halben Bandbreite b eine US-Zerlegung, so sind U und S ebenfalls Bandmatrizen
mit der halben Bandbreite b; denn die Nullen unterhalb der Hauptdiagonalen au-
ßerhalb des Bandes gehen durch Division mit einem Eckkoeffizienten in U ein, und
die Nullen oberhalb der Hauptdiagonalen außerhalb des Bandes werden durch die
elementaren Zeilenumformungen, die S ergeben, gar nicht berührt. Zur Berech-
nung von U und S werden dann höchstens b(b−1)n Divisionen und Multiplikatio-
nen benötigt. Ist b im Verhältnis zu n klein, so verläuft die Vorwärtselimination
und das Rückwärtseinsetzen bei einer n×n -Bandmatrix also um Größenordnun-
gen schneller als bei beliebigen n×n -Matrizen (mit circa n3 Operationen).

n × n -Matrizen, die höchstens cn von 0 verschiedene Elemente haben, wobei c


unabhängig von n klein ist, heißen schwach besetzt.

1.8 Ausblick

1.8.1 Abgrenzungen

Die Lineare Algebra hat in ihrer Entwicklung als eigenständiges Teilgebiet der
Mathematik seit etwa 40 Jahren eine Reihe von Funktionen übernommen. Für
die Reine Mathematik liefert sie einen wesentlichen Teil des Begriffs- und Me-
thodenfundaments. Durch die Bereitstellung des linearen Modells, das neben das
infinitesimale und das stochastische Modell tritt, erlangt sie ihre große Bedeutung
für die Angewandte Mathematik aber auch für die Natur- und Wirtschaftswis-
senschaften. Im Sinne einer ersten und einfachsten Approximationsstufe ist sie
schließlich Ausgangspunkt für die Numerische Mathematik.

Als axiomatisch-deduktive Theorie hat die Lineare Algebra in der Reinen Ma-
thematik keine Abgrenzungsprobleme. Da die Algorithmische Lineare Algebra
diesen Rahmen verlässt, steht sie zahlreichen Forderungen der genannten Ab-
nehmer sowie der Diskreten Mathematik und der Informatik gegenüber. Obwohl
deren Bedürfnisse bereits vom Ansatz her berücksichtigt werden, bleiben eini-
ge Wünsche - zumindest in dieser ersten Darstellung - unerfüllt. Die Ausblicke
sollen deshalb sowohl Skizzen von dazugehörigen Themen bringen als auch die
vorgenommene Grenzziehung begründen. Auf historische Zusammenhänge kann
hier nicht eingegangen werden.
82 Anwendungen von Matrizen 1.8.2

1.8.2 Anwendungen von Matrizen

Wir haben Matrizen als Schemata zur Abkürzung von linearen Gleichungssyste-
men gewonnen. In der Praxis findet man Matrizen darüberhinaus in zahlreichen
Situationen sowohl als reine “Datenstruktur” als auch mit den hier eingeführ-
ten und weiteren Verknüpfungen. Es folgen einige Beispiele, die jeweils für eine
umfangreichere Klasse von Anwendungen typisch sind.

i) Mehrstufige Produktionssysteme

In der betrieblichen Wirtschaft kommt es sehr oft vor, dass gewisse Endprodukte
in einer Reihe von Verarbeitungsstufen aus einer Anzahl von Rohstoffen oder
Ausgangsprodukten herzustellen sind. In jeder Stufe gibt eine Matrix an, wieviele
Einheiten der jeweils vorliegenden Zwischenprodukte zur Herstellung jedes der
Folgeprodukte für die nächste Stufe benötigt werden.

Berechnet man die Zuordnungen beim Überspringen irgendeiner Stufe, so stellt


sich heraus, dass die zugehörigen beiden Matrizen in der entsprechenden Reihen-
folge zu multiplizieren sind. Beim Zusammenfassen mehrerer Stufen treten die
Produkte aller zwischen diesen Stufen vorliegenden Matrizen auf. Insbesondere
erhält man den Bedarf an Ausgangsprodukten zur Herstellung von gewünschten
Mengen der Endprodukte, indem man den Spaltenvektor, der diese Zahlangaben
enthält, der Reihe nach von links mit allen Matrizen der voraufgehenden Stufen
multipliziert.

Da in der Praxis - etwa eines Chemiekonzerns - Produktbildungen mit einer größe-


ren Anzahl von Matrizen und mehreren Tausend Zeilen und Spalten auftreten, ist
es notwendig, den Rechenaufwand zu minimieren, indem die günstigste Reihen-
folge von Teilprodukten bestimmt wird. Dieses algorithmische Problem wird mit
“dynamischer Programmierung” gelöst, die auf einer extremen Anwendung des
Prinzips “Teile und Herrsche” beruht: Man berechnet und speichert alle minima-
len Lösungen bei jeweils zwei Matrizen beginnend mit zunehmender Faktorenzahl
und nutzt dabei die vorher gewonnenen Informationen (siehe [11], Kapitel 42).

ii) Adjazenzmatrizen in der Graphentheorie

Viele Anwendungsprobleme betreffen gewisse Objekte und Verbindungen zwi-


schen ihnen. Als mathematisches Modell werden dann meistens Graphen verwen-
det. Sie bestehen aus einer endlichen Menge V von Knoten (oder Ecken) und einer
Menge E von Kanten, die zweielementige Teilmengen von V sind. Da die Kno-
1.8.2 Anwendungen von Matrizen 83

ten nicht weiter spezifiziert werden, lassen sie sich den Zahlen 1, . . . , n zuordnen,
wenn n die Anzahl der Elemente von V bezeichnet.

Oft ist auf allen Kanten eine Richtung festgelegt. Dann spricht man von gerich-
teten Graphen und sieht E als Teilmenge von V×V an. Jeder Graph lässt sich als
gerichteter Graph auffassen, indem die Kanten durch Paare von Kanten mit ent-
gegengesetzten Richtungen ersetzt werden. Einen gerichteten Graphen beschreibt
man sehr einfach wenn auch nicht immer effizient - durch seine Adjazenzmatrix

n×n 1, wenn (i, j) ∈ E,
(aij ) ∈ Q mit aij : =
0 sonst.
Entsprechend kann man einem nicht gerichteten Graphen eine Adjazenzmatrix
zuordnen, deren 1-Elemente symmetrisch zur Hauptdiagonalen stehen.

Operationen mit Adjazenzmatrizen treten im Zusammenhang mit dem folgenden


Begriff auf. Ein (m + 1) -tupel (k0 , . . . km ) ∈ Inm+1 heißt Weg (oder Pfad) der
Länge m zwischen den Knoten k0 und km genau dann, wenn (ki−1 , ki ) ∈ E für
i = 1, . . . , m gilt. Ist A die Adjazenzmatrix eines Graphen, so beweist man mit
vollständiger Induktion über m, dass t~ei Am~ej für i, j ∈ In die Anzahl der Wege
mit der Länge m zwischen den Knoten i und j darstellt.

In der Praxis müssen den Kanten oft Eigenschaften zugeordnet werden, die für
die Lösung des Problems entscheidend sind. Ein (gerichteter) Graph (V, E) mit
einer “Bewertungsfunktion” b : E → R heißt bewerteter (gerichteter) Graph.
Gehört in einem bewerteten gerichteten Graphen jeder Knoten zu einer Kante,
so spricht man von einem Netzwerk.

In der Adjazenzmatrix (aij ) eines bewerteten gerichteten Graphen wird aij : =


b(i, j) gesetzt, wenn (i, j) ∈ E ist. Da 0 ein Wert von b sein kann, muss aij für
(i, j) ∈
/ E durch ein Symbol erklärt werden, das nicht zur Wertemenge von b
gehört. Im Hinblick auf das wichtige Problem der “kürzesten Wege”, das wir
gleich behandeln werden, wählt man meistens das Symbol ∞ und führt die Ver-
knüpfungen sowie den Vergleich mit reellen Zahlen auf natürliche Weise ein.

Die Länge eines Weges (k0 , . . . , km ) in einem bewerteten gerichteten Graphen


m
P
wird durch b(ki−1 , ki ) definiert. Den folgenden merkwürdigen Algorithmus zur
i=1
Bestimmung der jeweils kürzesten Weglänge zwischen allen Knotenpaaren haben
R. Bellmann und L. R. Ford Jr. gefunden. Sind B, C n × n - Matrizen mit
Elementen aus R ∪ {∞}, so wird zunächst eine Verknüpfung B • C erklärt, bei
der ausgehend von dem Matrizenprodukt BC in jedem der n2 Skalarprodukte
84 Iterative Verfahren bei großen linearen Gleichungssystemen 1.8.3

die Summation durch Minimumbildung und die Multiplikation durch Addition zu


ersetzen ist. Bildet man dann mit der Adjazenzmatrix A die Matrizen Am rekursiv
durch A1 : = A und Ak+1 : = Ak • A für k = 1, 2, . . . , so ergibt vollständige
Induktion über m, dass t~ei Am~ej für i, j ∈ In die minimale Länge aller Wege
zwischen i und j ist, die aus genau m Kanten bestehen. Das Symbol ∞ bedeutet
dabei, dass zwischen i und j kein Weg aus m Kanten existiert.
Enthält b(E) nur nichtnegative Zahlen, so kann man nach s Schritten abbre-
chen, wenn an keiner Position von As eine Verkleinerung gegenüber As−1 ein-
tritt. Das Minimum der Längen aller Wege zwischen i und j ist dann min{r ∈
R | Es gibt h ∈ Is−1 mit r = t~ei Ah~ej }. Speichert man zu jedem von ∞ ver-
schiedenen Element die Indizes, die zu den minimalen Summen gehören, so kann
man auch alle Wege mit der jeweiligen minimalen Länge angeben.
iii) Verflechtungsprobleme
In der Realität verlaufen mehrstufige Prozesse wie die Produktionssysteme unter
ii) nur selten unabhängig voneinander. Interner Verbrauch bei der Herstellung
von komplexen Erzeugnissen, Rückflüsse bei chemischen Produktionsvorgängen
und allgemein vielfältige Verflechtungen bei betriebs- und volkswirtschaftlichen
Prozessen führen dazu, dass der gesuchte Produktionsvektor ~x und der Ergebnis-
vektor ~b sich durch einen Vektor ~y unterscheiden, der die internen Verflechtungen
in der Form ~y = A~x wiedergibt. Dabei ist A eine quadratische Matrix, die die
Anteile der für die einzelnen Komponenten verbrauchten Ressourcen enthält. Sie
besteht also aus nichtnegativen Zahlen, die kleiner als 1 sind, und das mathema-
tische Modell hat die Form ~x − ~y = (E − A)~x = ~b.
Da ~x und ~b nur nichtnegative Komponenten enthalten dürfen, ist neben der Frage
nach der Invertierbarkeit von E −A zu klären, ob in (E −A)−1 negative Elemente
vorkommen. Dieses Problem lässt sich mit Hilfe des Eigenwertbegriffs aus dem
sechsten Kapitel lösen.
Ein weiterer wichtiger Anwendungsbereich dieser Art sind die “Markow-Ketten”,
die spezielle Zufallsprozesse beschreiben. Wir werden in Beispiel 6.1.2 darauf
eingehen. Sie führen auf “stochastische Matrizen”, deren Elemente nichtnegativ
sind und deren Spaltensummen 1 ergeben.

1.8.3 Iterative Verfahren bei großen linearen Gleichungs-


systemen

Bei der algorithmischen Behandlung von linearen Gleichungssystemen tritt ein


1.8.4 Aufwandsabschätzung und Komplexität 85

mehrfaches Abgrenzungsproblem auf. Einerseits gibt es etablierte Gebiete, die


sich intensiv mit den zugehörigen numerischen Verfahren beschäftigen, nämlich
die Numerik (siehe [12]), die auch viele andere Themenbereiche umfasst, die Nu-
merische Lineare Algebra (z.B. [3]) sowie die Theorie der Matrizen und ihrer
Anwendungen (vor allem [14]).
Andererseits kann es sich ergeben, dass die algorithmische Darstellung eines Pro-
blemkreises unterschiedliche Situationen berücksichtigen muss. Das wären in die-
sem Falle spezielle sehr große Gleichungssysteme. Die Grenze der Variablenzahl
bei der Lösung von linearen Gleichungssystemen mit invertierbarer Koeffizien-
tenmatrix durch Eliminationsverfahren wird in Abhängigkeit von der technologi-
schen Entwicklung immer weiter hinausgeschoben und liegt zur Zeit zwischen 104
und 106 . Aber schon seit mehr als 150 Jahren sind Iterationsverfahren bekannt,
mit denen die gesuchte Lösung bei jeweils wesentlich größeren schwach besetzten
Koeffizientenmatrizen durch eine Folge von Vektoren komponentenweise appro-
ximiert wird.
Wir gehen auf diese Methode nur hier im Ausblick ein, weil die zugehörigen
Algorithmen sehr speziell sind und weil die analytischen Probleme der Kon-
vergenzsicherung dominieren. Mehrere Iterationsverfahren zur Lösung linearer
Gleichungssysteme beruhen darauf, dass man das Gleichungssystem A~x = ~b
mit A ∈ GL(n; R) und einem Spaltenvektor ~b der Länge n durch Aufspaltung
von A in der Form A = B − C mit B ∈ GL(n; R) in eine Fixpunktgleichung
~x = B −1 C~x + B −1~b überführen kann. Bildet man dann die “Iterationsfolge”
~xn+1 = B −1 C~xn + B −1~b für m ∈ N1 mit einem beliebigen Spaltenvektor ~x1 der
Länge n, so lässt sich mit Hilfe des Eigenwertbegriffs aus Kapitel 6 eine hinrei-
chende Bedingung für die Konvergenz von (~xn )n gegen die Lösung ~x formulieren.
In der Praxis sorgt man dafür, dass sich B −1 möglichst einfach berechnen lässt.
Wird A so permutiert, dass die Diagonalelemente eine invertierbare Diagonalma-
trix D bilden, so führen die beiden naheliegenden Möglichkeiten mit B : = D
auf das Gesamtschrittverfahren von C. G. J. Jacobi und mit der Dreiecksma-
n P i
(t~ei A~ek )(~ei t~ek ) auf das Einzelschrittverfahren von C. F. Gauß
P
trix B : =
i=1 k=1
und P. L. v. Seidel.

1.8.4 Aufwandsabschätzung und Komplexität

Zur Bewertung der Leistungsfähigkeit eines Algorithmus und zum Vergleich von
Algorithmen für dieselbe Aufgabe verwendet man Aufwandsabschätzungen, die
86 Aufwandsabschätzung und Komplexität 1.8.4

allerdings von einer Reihe von Umständen abhängen. Diese Untersuchungen wer-
den in den zur theoretischen Informatik gehörenden Gebieten der Algorithmen-
analyse und der Komplexitätstheorie durchgeführt. Wir können hier nur auf sehr
wenige Aspekte eingehen und zum Beispiel keine “Turing-Maschine” zum Ver-
gleich heranziehen.
Stattdessen zählen wir die für die Durchführung eines Algorithmus notwendigen
arithmetischen Operationen Addition, Subtraktion, Multiplikation, Division und
Vergleich. Das Ergebnis wird meistens in Abhängigkeit von der Zeilenanzahl m
und der Spaltenanzahl n der Ausgangsmatrix stark vereinfacht durch den Typ
des dominierenden Terms wiedergegeben. Üblicherweise benutzt man dazu die

Schreibweise f (n) = O g(n) , die bedeuten soll, dass es Konstanten c > 0 und
p > 0 gibt, mit denen f (n) ≤ c g(n) für alle n ∈ N1 mit n ≥ p gilt.
Da bei den Algorithmen der Linearen Algebra oft auch die Konstante c eine
Rolle spielt, verwenden wir die Abkürzung f (n)ηn , in der (ηn )n eine Folge mit
lim ηn = 1 ist.
n→∞

Für einige der behandelten Algorithmen gibt es Verbesserungen, die erst bei
sehr großen Matrizen vorteilhaft sind. Das bekannteste Beispiel stammt von
V. Strassen (1968), der für die Multiplikation von n × n - Matrizen einen Al-
gorithmus mit O(n2,81 ) Operationen fand, während das Standardverfahren O(n3 )
Operationen benötigt. Er benutzt die Identität
    
A B E F T +U −V +W X −W
=
C D G H V −Y Z −T −X +Y

mit T : = (A + D)(E − H), U : = (B + D)(G + H), V : = D(E + G), W : =


(A − B)H, X : = A(F + H), Y : = (D − C)E und Z : = (A + C)(E + F ), in der
7 Multiplikationen und 18 Additionen vorkommen. Wird diese Formel rekursiv
auf 2m−1 × 2m−1 -reihige Blockmatrizen angewandt, so kann man zwei 2m × 2m -
Matrizen mit 7m Multiplikationen und 6(7m − 4m ) Additionen multiplizieren. Bei
einer n×n -Matrix ergibt damit das Prinzip des “Teilens und Herrschens” eine
log 7
Operationenzahl O(nα ) mit α = log 2
= 2, 807 . . . (siehe [7], 4.6.4). Inzwischen ist
diese Schranke auf O(n2,376 ) herabgedrückt (Stand von 1988).
Bei der Zählung der Operationen gewinnen wir nur eine Aussage über die “Lauf-
zeit” eines Algorithmus. Zur Komplexität gehört aber auch der maximale Spei-
cherplatzbedarf während des Ablaufs. Wird zum Beispiel der Eliminationsalgo-
rithmus für eine m × n - Matrix von einem Computer-Algebrasystem mit run-
dungsfreier rationaler Arithmetik durchgeführt, so ist es ein nicht naheliegendes
1.8.5 Parallelrechnen 87

Ergebnis von J. Edmonds (1967), dass es eine Darstellung für die auftretenden
rationalen Zahlen gibt, bei der die Laufzeit und der Speicherbedarf durch ein
Polynom in m und n nach oben beschränkt ist (siehe [6], 1. Kapitel).

1.8.5 Parallelrechnen

Aufgrund der stark gesunkenen Hardwarepreise und der extremen Miniaturisie-


rung von Prozessoren findet seit einiger Zeit eine rasante Entwicklung von Par-
allelrechnern und damit auch von parallelen Algorithmen statt. Da sowohl große
Unterschiede in der Anzahl und Leistungsfähigkeit der verwendeten Prozessoren
bestehen als auch zahlreiche Kommunikationsmöglichkeiten zwischen den Pro-
zessoren denkbar sind, gibt es eine solche Fülle von Rechnertypen, dass wir sie
nicht einmal andeutungsweise beschreiben können.
Es sollen lediglich zwei Beispiele aus der Linearen Algebra erwähnt werden, die
einen Hinweis auf die Art der Verbesserung gegenüber Algorithmen für nur einen
Prozessor geben. Die Multiplikation von zwei n×n -Matrizen ist mit n3 Prozes-
soren auf einem Hypercube-Netzwerk in O(log n) Schritten möglich (E. Dekel,
D. Nassimi, S. Sahni: Parallel matrix and graph algorithms. SIAM J. Comp.
10, No. 4, 1981). Ein Hypercube besteht aus 2q (q ∈ N1 ) Prozessoren und stellt
einen Parallelrechner mit festem Verbindungsnetzwerk dar, bei dem je zwei Pro-
zessoren miteinander verbunden sind, wenn sich ihre binären Adressen in genau
einer Bitposition unterscheiden.
Für eine wichtige Klasse von Algorithmen haben H. T. Kung und C. E. Leiser-
son 1980 die Bezeichnung systolische Algorithmen eingeführt, weil sie unter an-
derem folgende Eigenschaften haben: Sie lassen sich mit Hilfe weniger Typen
einfacher Prozessoren realisieren, die eine bestimmte Anzahl von Datenströmen
rhythmisch pulsierend (wie die Systole des Herzmuskels) verarbeiten und jeweils
nur mit wenigen Nachbarn austauschen. Mit Hilfe eines solchen Algorithmus lässt
sich die Multiplikation einer n × n - Matrix und eines Vektors der Länge n mit
2n − 1 Prozessoren in 4n − 2 Schritten durchführen (siehe [11], Kapitel 40).
Kapitel 2

Vektorräume

2.1 Vektorräume und Untervektorräume

Im ersten Kapitel haben wir beliebige lineare Gleichungssysteme gelöst, indem wir
sie schrittweise durch äquivalente Umformungen vereinfachten. Dabei erkannten
wir zwar, wie viele Lösungen ein lineares Gleichungssystem besitzen kann und wie
man die Lösung im Falle der eindeutigen Lösbarkeit gewinnt. Aber einige wichti-
ge Fragen sind noch nicht beantwortet oder gar nicht angesprochen worden, zum
Beispiel ob es einfachere Kriterien für die Lösbarkeit beziehungsweise die ein-
deutige Lösbarkeit gibt und wie sich die Lösungsmenge zweckmäßig beschreiben
lässt, wenn unendlich viele Lösungen vorliegen.

In diesem Kapitel werden wir die Theorie der linearen Gleichungssysteme wei-
terführen und abschließen, indem wir den Begriff des Vektorraums zu Hilfe neh-
men. Dieser Begriff wird sich dann als grundlegend für alle weiteren Teile der
Linearen Algebra herausstellen. Um ihn in voller Allgemeinheit zu erhalten, be-
achten wir zunächst, dass wir bisher nur einen Teil der Eigenschaften verwen-
det haben, die die reellen Zahlen bis auf Umbenennungen (“Isomorphie”) ein-
deutig charakterisieren: Die “Ordnung” 1 und die für die Analysis sehr wichtige
“Vollständigkeit” 2 wurden nicht benötigt. Die übrigen Eigenschaften sind typisch
für eine große Zahl von Gebilden, mit denen wir genauso “rechnen” können wie
im ersten Kapitel mit den reellen Zahlen:

1
Ordnung von R : Für jede reelle Zahl a gilt genau eine der Aussagen a > 0, a = 0, −a > 0,
und für je zwei positive reelle Zahlen a, b sind auch a + b und a · b positiv.
2
Vollständigkeit von R : (zum Beispiel) Jede Intervallschachtelung in R enthält eine reelle
Zahl.

88
2.1 Vektorräume und Untervektorräume 89

Definition des Körpers


Ein Siebentupel (K, , ,  0 ,
1 , , 
∠) bestehend aus einer nichtleeren Menge
K, zwei Verknüpfungen
 : K × K → K, (a, b) 7→ a  b,
: K × K → K, (a, b) 7→ a b,
zwei ausgezeichneten Elementen  0, 1

und zwei Abbildungen


: K → K, a 7→ a,
∠ : K∗ → K∗ , a 7→ 
 ∠ a mit K∗ : = K \ { 0}

heißt Körper genau dann, wenn gilt:


K 1 (“Additive Gruppe”)
(K, , 0 , ) ist eine abelsche Gruppe,

K 2 (“Multiplikative Gruppe”)
(K∗ , | K∗ × K∗ ,  ∠) ist eine abelsche Gruppe,3
1 ,

K 3 (“Links-Null”)
0 a= 0

K 4 (“Rechts-Distributivgesetz”)
a (b  c) = (a b)  (a c) für alle a, b, c ∈ K.

Bevor wir einige wichtige Eigenschaften und Beispiele für Körper zusammen-
stellen, schließen wir uns den üblichen Vereinbarungen zur Vereinfachung der
Schreibweise an:

1. Der  - Rahmen wird weggelassen.


2. Statt a · b schreibt man meistens ab,
a − b bedeutet a + (−b),
a
b
bedeutet a(/b).

3. “Multiplikation bindet stärker als Addition”, das heißt, wir können Klammern
bei Produkten weglassen und zum Beispiel in K 4 a(b + c) = ab + ac schreiben.

4. Falls klar ist, welche Verknüpfungen, neutralen Elemente und Inversenabbil-


dungen gemeint sind, wird der Körper (K, +, ·, 0, 1, −, /) kurz mit K bezeichnet.

3
| K∗ × K∗ heißt Einschränkung von auf K∗ × K∗ : Es werden nur Elemente aus K∗
verknüpft, und jedem Paar aus K∗ × K∗ wird dasselbe Element aus K zugeordnet wie dem
Paar aus K× K.
90 Beispiele für Körper 2.1.1

Satz über Körpereigenschaften


Es sei (K, +, ·, 0, 1, −, /) ein Körper. Dann gilt:
1. a · 0 = 0 für alle a ∈ K,4
2. K ist “nullteilerfrei”, das heißt, für a, b ∈ K mit ab = 0 folgt a = 0 oder
b = 0,
3. a(−b) = (−a)b = −(ab) für alle a, b ∈ K,
4. (−a)(−b) = ab für alle a, b ∈ K.

Beweis (r1):

1. Wegen K 4 gilt a · 0 = a · (0 + 0) = a · 0 + a · 0, und mit der Kürzungsregel des


Satzes über Gruppeneigenschaften (Seite 66) folgt a · 0 = 0.

2. Nach K 2 gilt ab ∈ K∗ für alle a, b ∈ K∗ . Ist also ab = 0, so muss a = 0 oder


b = 0 sein.

3. Aus ab+a(−b) = a b+(−b) = a·0 = 0 folgt a(−b) = −(ab), und ab+(−a)b =

a + (−a) b = 0 · b = 0 ergibt entsprechend (−a)b = −(ab).

4. Mit 3. sowie Übung 1.6.a.2 erhalten wir schließlich (−a)(−b) = − (−a)b =

− − (ab) = ab.

2.1.1 Beispiele für Körper

1. Q und R sind Körper, Z ist kein Körper.

2. C : = (R × R, +, ·, 0̂, 1̂, −, 1̂/) wird durch folgende Definitionen zum Körper der
“komplexen Zahlen”:

(a1 , b1 ) + (a2 , b2 ) : = (a1 + a2 , b1 + b2 ),


(a1 , b1 ) · (a2 , b2 ) : = (a1 a2 − b1 b2 , a1 b2 + a2 b1 ),
0̂ : = (0, 0), 1̂ : = (1, 0),
−(a, b) : = (−a,
 −b), 
a −b
1̂/(a, b) : = a2 +b ,
2 a2 +b2 für (a, b) 6= 0̂.

4
Zusammen mit K 2 und K 3 folgt damit ab = ba und (ab)c = a(bc) für alle a, b, c ∈ K.
2.1.1 Beispiele für Körper 91

Durch die Abbildung R → C, a 7→ (a, 0) erhalten wir einen zu R “isomorphen”


Körper, der in C enthalten ist. Mit den “Identifikationen” a für (a, 0), b für (b, 0)
und i : = (0, 1) schreibt man dann (a, b) = (a, 0) + (b, 0) · (0, 1) = a + b i.

3. Neben den zu Q und R isomorphen Körpern enthält C noch eine Fülle von
weiteren “Unterkörpern”, zum Beispiel die “algebraischen Zahlkörper”: Sie be-
stehen jeweils aus den rationalen Zahlen (in C), aus endlich vielen Nullstellen
von Polynomen mit rationalen Koeffizienten sowie allen Elementen, die sich aus
diesen durch endlich viele Operationen in C gewinnen lassen. Der algebraische
√ √
Zahlkörper Q( 2), der zu Q und 2 gehört, enthält zum Beispiel genau die Ele-

mente der Form a + b 2 mit a, b ∈ Q, denn Summen, Produkte und Inverse
solcher Elemente haben wieder diese Form.

4. Die bisher genannten Körper haben unendlich viele Elemente. Es gibt aber auch
“endliche Körper”. Der kleinste Körper besteht aus zwei Elementen 0 und 1. Die
Verknüpfungen werden durch die folgenden “Verknüpfungstafeln” definiert:
+ 0 1 · 0 1
0 0 1 0 0 0 .
1 1 0 1 0 1
Zu jeder Primzahl p erhalten wir einen endlichen Körper Zp mit p Elementen
0, . . . , p − 1, wenn wir die Verknüpfungen folgendermaßen einführen: Ist c eine
ganze Zahl und rp (c) der kleinste nichtnegative Rest von c beim Teilen durch p,
so sei
a  b : = rp (a + b),
a b : = rp (a · b),
a : = rp (−a)
für alle a, b ∈ {0, . . . p − 1}. Zu jedem a ∈ Ip−1 ist 
∠ a das eindeutig bestimmte
Element aus Ip−1 mit a (
∠ a) = 1.

Ohne Beweis sei erwähnt, dass die Anzahl der Elemente eines endlichen Körpers
stets eine Primzahlpotenz pm mit m ∈ N1 , ist und dass es zu jeder Primzahlpotenz
pm einen (und bis auf Isomorphie nur einen) endlichen Körper mit pm Elementen
gibt.

Übung 2.1.a
a) Weisen Sie nach, dass Z7 : = ({0, . . . , 6}, +, ·) mit den in Beispiel 4 von
Abschnitt 2.1.1 definierten Verknüpfungen ein Körper ist.
92 Ein fehlerkorrigierender Code 2.1.2

b) Berechnen Sie den Wochentag, auf den Silvester 1999 fiel.

Übung 2.1.b

Leiten Sie die Verknüpfungstafeln der additiven und der multiplikativen


Gruppe eines Körpers ({0, 1, a, b}, +, ·, 0, 1) mit vier Elementen her. [Hin-
weis: Sie dürfen annehmen, dass es einen solchen Körper gibt.]

Übung 2.1.c

Jedes Buch größerer Verlage wird mit einer zehnstelligen Zahl gekenn-
zeichnet, die “Internationale Standard-Buchnummer (ISBN)” heißt, wobei
die letzte Ziffer auch die römische Zahl X (für 10) sein kann. Die Ziffern
z1 , . . . , z9 (von links nach rechts) haben dabei folgende Bedeutung: z1 be-
zeichnet die Ländergruppe, zu der der Verlag gehört, z2 z3 z4 steht für den
Verlag und z5 . . . z9 für die Titelnummer des Buches innerhalb des Ver-
lages. Das letzte Zeichen z10 stellt einen “Prüfcode” dar, der mit Hilfe
der in Beispiel 4 von Abschnitt 2.1.1 angegebenen Funktion r11 (c) durch
9
P 
z10 : = r11 izi , X : = 10, bestimmt wird. Zeigen Sie, dass der Prüfcode
i=1
mit Sicherheit erkennen lässt, ob einer der beiden häufigsten Fehler vor-
liegt, nämlich ob (genau) eine Ziffer falsch angegeben oder ob (genau) zwei
(verschiedene) Ziffern vertauscht wurden.

Das folgende Anwendungsbeispiel soll zeigen, dass auch lineare Gleichungssyste-


me über endlichen Körpern in der Praxis eine Rolle spielen.

2.1.2 Ein fehlerkorrigierender Code

In der Informationstechnik werden Signale und Nachrichten meistens binär ver-


schlüsselt, um sie in bequemer Weise übertragen zu können. Die entsprechenden
Code-Wörter (zum Beispiel Symbolblöcke einer festen Länge) bestehen also nur
aus zwei Symbolen (zum Beispiel 0, 1 oder 0, L). Dabei der Übertragung Störun-
gen vorkommen, ist es in vielen Fällen zweckmäßig, die Code-Wörter so “re-
dundant” zu gestalten, dass der Empfänger erkennen kann, ob ein übermitteltes
Wort kein oder (höchstens) ein falsches Symbol enthält. Lässt sich ein erkann-
ter Fehler sogar stets in eindeutiger Weise korrigieren, so spricht man von einem
fehlerkorrigierenden Code.
2.1.2 Ein fehlerkorrigierender Code 93

Wir wollen hier einen solchen Code mit Hilfe linearer Gleichungssysteme über
dem Körper K = Z2 konstruieren, und zwar sind die gesuchten Code-Wörter der
Länge n Lösungen eines Gleichungssystems A~x = ~0 mit einer m×n - Matrix A,
die nur aus Nullen und Einsen besteht. Die Verknüpfungen + und · werden dabei
durch die Verknüpfungstafeln in Beispiel 4 von Abschnitt 2.1.1 definiert.

Um geeignete Matrizen A zu finden, beachten wir, dass ein Spaltenvektor w,


~ der
genau an der i-ten Stelle von einem Code-Wort ~x abweicht, in der Form w
~ = ~x +~ei
geschrieben werden kann. Wegen des Satzes über Matrizenmultiplikation (Seite
39) ist dann
Aw~ = A(~x + ~ei ) = A~x + A~ei = ~0 + A~ei = A~ei ,
und A~ei stellt den i -ten Spaltenvektor von A dar. Wählen wir als Komponenten
des i -ten Spaltenvektors von A die Ziffern der Dualzahldarstellung von i (even-
tuell mit Anfangsnullen - von oben nach unten geschrieben), so gibt also die im
Dezimalsystem zu Aw
~ gehörende Zahl an, ob w
~ ein Code-Wort ist oder an wel-
cher Stelle w
~ von einem Code-Wort abweicht. Dann braucht zur Fehlerkorrektur
nur das entsprechende Symbol durch das komplementäre ersetzt zu werden.

Als Beispiel betrachten wir die durch A~x = ~0 mit


 
0 0 0 1 1 1 1
A :=  0 1 1 0 0 1 1 
1 0 1 0 1 0 1
definierten Code-Wörter der Länge 7. Nach 1.3.4 iii) erhalten wir wegen

x1 = x3 + x5 + x7 , x 2 = x3 + x6 + x7 , x 4 = x5 + x6 + x7

die folgenden 16 Code-Wörter (als Spaltenvektoren einer 7×16 - Matrix):


 
0 1 1 0 1 0 1 0 1 0 1 0 0 1 0 1
0 1 0 1 1 1 0 0 1 1 0 0 1 0 0 1
 
0 1 0 0 0 1 1 1 0 0 0 0 1 1 1 1
 
0 0 1 1 1 1 1 1 0 0 0 1 0 0 0 1
 .
0 0 1 0 0 1 0 0 1 1 0 1 0 1 1 1
 
0 0 0 1 0 0 1 0 1 0 1 1 1 0 1 1
0 0 0 0 1 0 0 1 0 1 1 1 1 1 0 1

Zunächst erkennen wir, dass sich je zwei Code-Wörter an mindestens drei Stel-
len unterscheiden. Damit können keine zwei Spaltenvektoren, die an genau einer
Stelle von einem Code-Wort abweichen, gleich sein. Da es zu jedem Code-Wort
94 Lösbarkeit und Lösungsmenge linearer Gleichungssysteme 2.1.3

7 fehlerhafte Wörter gibt, erhalten wir mit den 16 Code-Wörtern und den 7 · 16
fehlerhaften Wörtern bereits sämtliche 27 = 128 Wörter der Länge 7. Wird zum
Beispiel das Wort w ~ = t(0 1 0 1 1 0 1) empfangen, so ist Aw
~ = t(1 0 0). Wegen
1 · 22 + 0 · 21 + 0 · 20 = 4 ist also die vierte Komponente von w
~ falsch, und das
~ = t(0 1 0 0 1 0 1).
zugehörige Code-Wort lautet berichtigt w

Besteht die m×(2m − 1) - Matrix A aus den Ziffern der Dualzahldarstellungen von
m −4)
i = 1, . . . , 2m − 1, so gewinnt man analog eine vollständige Menge von 2(2
Code-Wörtern der Länge 2m − 1. Solche Codes werden Hamming-Codes genannt.

2.1.3 Lösbarkeit und Lösungsmenge linearer Gleichungs-


systeme

Im Unterabschnitt 1.3.4 haben wir die Lösbarkeit eines linearen Gleichungssys-


tems an der zugehörigen Stufenform abgelesen, und im Falle unendlich vieler
Lösungen erkannten wir, wie die Lösungen durch Einsetzen beliebiger Werte für
bestimmte Variablen berechnet werden können. Diese beiden Fragen nach der
Lösbarkeit linearer Gleichungssysteme und nach der Darstellung der Lösungs-
menge wollen wir jetzt genauer untersuchen. Bei der ersten Frage werden wir
eine vertiefte Einsicht gewinnen, und auf die zweite Frage erhalten wir sogar eine
wesentlich einfachere Antwort als in 1.3.4. Zunächst betrachten wir zwei Beispiele.

Ist das Gleichungssystem A~x = ~b mit


   
0 1 1
A= 2 3
  ~
und b = 0 

2 0 1

über R lösbar? Diese spezielle Frage ersetzen wir sogleich durch folgende allge-
meinere: Für welche Spaltenvektoren
   
b1 0 1
~b =  b2  besitzt das Gleichungssystem  2 3  ~x = ~b
b3 2 0

eine Lösung? Da mehr Gleichungen als Unbekannte vorliegen, erwarten wir, dass
nur für einen kleinen Teil der Spaltenvektoren ~b eine Lösung existiert. Beachten
wir die Gleichungen (1.12) und (1.13), so können wir die “möglichen” Spalten-
vektoren ~b sofort in der Form
2.1.3 Lösbarkeit und Lösungsmenge linearer Gleichungssysteme 95
   
0 1
(2.1) ~b = x1  2  + x2  3  mit x1 , x2 ∈ R
2 0
angeben. Betrachten wir diese Spaltenvektoren als Punkte im R3 , so stellt die ent-
sprechende Punktmenge eine Ebene durch die Punkte (0,0,0), (0,2,2) beziehungs-

weise (0,3,3) und (1,3,0) dar (siehe Abbildung 2.1).

b3
(0,3,3)

b2
(-1,0,3) 3

2 3 (1,3,0)
2
1
1
(3,-1,1)
b1
-1 0 1 2 3
-1
-1

Abbildung 2.1: Durch zwei Vektoren “aufgespannte Ursprungsebene”

Insbesondere erkennen wir, dass der Vektor ~b = t(1 0 1) nicht in dieser Ebene
liegt, das heißt,    
0 1 1
 2 3  ~x =  0  ist unlösbar.
2 0 1
Allgemein können wir also versuchen, das Lösbarkeitsproblem für ein lineares
Gleichungssystem A~x = ~b mit A = (~a1 . . . ~an ) dadurch zu klären, dass wir die
Menge der Vektoren ~y der Länge m untersuchen, für die es einen Vektor ~x der
Länge n mit A~x = ~y gibt, und feststellen, ob ~b in dieser Menge liegt.

Als zweites Beispiel betrachten wir das einfachere lineare Gleichungssystem


(2.2) 3x1 − x2 + x3 = 0.

Es ist sicher lösbar, und für jede Lösung gilt x3 = −3x1 + x2 . Wählen wir x1 und
x2 beliebig aus R, so lässt sich jeder Lösungsvektor ~x = t(x1 x2 x3 ) in der Form
96 Vektorräume 2.1.4

~x = t(x1 x2 − 3x1 + x2 ) darstellen. Mit Hilfe der Definition der Spaltenvektorei-


genschaften (Seite 27) können wir dafür
   
1 0
(2.3) ~x = x1  0  + x2 1  mit x1 , x2 ∈ R

−3 1
schreiben.

Auch hier bildet die Menge der Lösungen ~x als Punktmenge im R3 eine Ebene.
Sehen wir etwas genauer hin, so erkennen wir, dass es sich sogar um dieselbe Ebe-
ne handelt wie oben. Das liegt unter anderem daran, dass der einzige Zeilenvektor
t
~a = (3 −1 1) der Koeffizientenmatrix in (2.2) auf jedem der vier Spaltenvektoren
~ai aus (2.1) und (2.3) “senkrecht steht”, das heißt, es gilt t~a~ai = 0 (siehe (1.15)
und Abbildung 2.1).

2.1.4 Vektorräume

Die obige Ebene ist aber nicht nur eine Teilmenge von R3 . Sie besitzt auch eine
“lineare Struktur”, denn mit je zwei Punkten gehört stets auch deren “Verbin-
dungsgerade” zur Ebene. Das bedeutet für je zwei zugehörige Spaltenvektoren
~a1 , ~a2 , dass auch alle Vektoren x1~a1 + x2~a2 mit x1 , x2 ∈ R in der Teilmenge ent-
halten sind. Damit besitzt die Teilmenge eine ähnliche Struktur wie die Menge
aller Spaltenvektoren (einer festen Länge). Insbesondere gelten die Eigenschaften
aus den Sätzen über Addition und S-Multiplikation von Spaltenvektoren (Seite 28)
beziehungsweise von Matrizen (Seite 39).

Die Möglichkeit der “linearen Verknüpfung” zusammen mit diesen Verträglich-


keitseigenschaften ergibt den folgenden grundlegenden Begriff der Linearen Alge-
bra:

Definition des Vektorraums


Es sei (K, +, ·, 0, 1) ein Körper. Ein Tripel (V, , ) bestehend aus einer nicht-
leeren Menge V, einer “inneren” Verknüpfung
 : V × V → V, (~v , w) ~5
~ 7→ ~v  w,

5
Da keine Missverständnisse zu erwarten sind, verwenden wir für die Elemente beliebiger
Vektorräume dieselbe Schreibweise wie für Spaltenvektoren.
2.1.5 Beispiele für Vektorräume 97

und einer “äußeren” Verknüpfung


: K × V → V, (a, ~v ) 7→ a ~v ,
heißt K -Vektorraum (oder Vektorraum über K) genau dann, wenn gilt:
V1 (V, ) ist eine abelsche Gruppe;
V2 a) (a + b) ~v = (a ~v )  (b ~v ),
b) a (~v  w) ~ = (a ~v )  (a w),
~
c) (a · b) ~v = a (b ~v ),
d) 1 ~v = ~v
~ ∈ V und alle a, b ∈ K.
für alle ~v , w

Das neutrale Element des Vektorraums wird mit ~0 bezeichnet. Es heißt Null-
vektor . Wir vereinbaren zur Vereinfachung der Schreibweise die entsprechenden
Konventionen wie im Anschluss an die Definition des Körpers (Seite 89). Die
Bedeutung des jeweiligen ’+’- beziehungsweise ’·’ -Zeichens ist dann aus dem Zu-
sammenhang erkennbar.

2.1.5 Beispiele für Vektorräume

1. Die Menge der m × n - Matrizen mit Elementen aus einem Körper K und mit
der Matrizenaddition sowie der Multiplikation mit einem Skalar als Verknüpfun-
gen bildet wegen des Satzes über Addition und S-Multiplikation von Matrizen
(Seite 39) einen K -Vektorraum, den wir mit Km × n bezeichnen. Insbesondere ist
Km × 1 der Vektorraum der Spaltenvektoren der Länge m und K1 × n der Vektor-
raum der Zeilenvektoren der Länge n.

2. Ist (L, +, ·) ein Körper, K ⊆ L, K 6= ∅ und (K, + | K × K, · | K × K) ein


“Unterkörper” von L, so stellt (L, +, · | K × L) einen K -Vektorraum dar. So ist

zum Beispiel jeder Körper K (über sich selbst) ein K -Vektorraum. R und Q( 2)
sind Q -Vektorräume, und C ist ein R -Vektorraum.

3. Ist X eine nichtleere Menge und K ein Körper, so wird die Menge V =
Abb(X , K) aller Abbildungen f : X → K ein K -Vektorraum, wenn man ei-
ne Addition
+ : V × V, (f, g) 7→ f + g,

durch (f + g)(x) : = f (x) + g(x) für alle x ∈ X und eine Skalarmultiplikation


· : K × V → V, (λ, f ) 7→ λ · f,
98 Untervektorräume 2.1.6

durch (λ · f )(x) : = λf (x) für alle x ∈ X definiert. In der abelschen Gruppe


(V, +) ist 0 : X → K mit 0(x) : = ~0 für alle x ∈ X das neutrale Element und
− : V × V, f 7→ −f mit (−f )(x) : = −f (x) für alle x ∈ X die Inversenabbildung.
Für X = N1 (beziehungsweise N) erhalten wir Folgenräume und zum Beispiel für
X = K = R oder X = K = C Funktionenräume. Weitere Beispiele werden wir
später kennenlernen.

Satz über Eigenschaften von Vektorräumen


Ist V ein K -Vektorraum, so gilt
1. 0 · ~v = ~0 für alle ~v ∈ V,
2. a · ~0 = ~0 für alle a ∈ K,
3. a · ~v 6= ~0 für alle a ∈ K \ {0} und alle ~v ∈ V \ {~0},
4. (−1) · ~v = −~v für alle ~v ∈ V.

Beweis (r1):
1. Nach V2 a) gilt 0 · ~v = (0 + 0) · ~v = 0 · ~v + 0 · ~v . Außerdem ist 0 · ~v = ~0 + 0 · ~v
und die Kürzungsregel aus dem Satz über Gruppeneigenschaften (Seite 66) ergibt
0 · ~v = ~0.
2. Analog folgt mit V2 b) a · ~0 = a · (~0 + ~0), und wegen a · ~0 = a · (~0 + ~0), erhalten
wir a · ~0 = ~0.
3. Ist a · ~v = ~0 und a 6= 0, so folgt mit V2 d) und c): ~v = 1 · ~v = (a−1 a) · ~v =
a−1 (a · ~v ) = a−1 · ~0 = ~0.
4. Mit V2 d) und a) sowie dem ersten Teil dieses Satzes erhalten wir ~v +(−1)·~v =
1 · ~v + (−1)~v = (1 − 1) · ~v = 0 · ~v = ~0, und Teil 3 des Satzes über Gruppeneigen-
schaften (Seite 66) ergibt die Behauptung.

2.1.6 Untervektorräume

Ähnlich wie bei Gruppen und Körpern spielen auch bei Vektorräumen die “struk-
turtreuen” Teilmengen eine wichtige Rolle.

Satz zur Definition des Untervektorraums


Es sei (V, +, ·) ein K -Vektorraum und U eine nichtleere Teilmenge von V,
für die gilt:
2.1.7 Beispiele für Untervektorräume 99

U1 ~v + w~ ∈ U für alle ~v , w
~ ∈ U,
U2 a · ~v ∈ U für alle a ∈ K und alle ~v ∈ U.
Dann ist (U, + | U × U, · | K × U) ein K -Vektorraum. U wird Untervektor-
raum von V genannt.

Beweis (r1):

Das Assoziativgesetz und das Kommutativgesetz der Addition V1 sowie alle Ei-
genschaften unter V2 sind in U erfüllt, weil sie in V gelten. Da U nicht leer ist,
gibt es mindestens ein ~v ∈ U. Damit ist 0 · ~v = ~0 ∈ U, und wegen ~v + ~0 = ~v für
alle ~v ∈ U stellt ~0 auch das neutrale Element in U dar. Entsprechend folgt mit
U2 beziehungsweise mit Teil 4 des Satzes über Eigenschaften von Vektorräumen
(Seite 98), dass −~v = (−1) · ~v in U liegt und dass −~v für jedes ~v ∈ U das inverse
Element zu ~v ist.

2.1.7 Beispiele für Untervektorräume

1. Jeder Vektorraum V ist natürlich auch Untervektorraum von sich selbst. Eben-
so ist der Nullvektorraum {~0} als Untervektorraum in jedem Vektorraum V ent-
halten.

2. In Km × n erhalten wir Untervektorräume, wenn wir diejenigen Matrizen be-


trachten, die nur an bestimmten Stellen von 0 verschiedene Elemente enthalten,
zum Beispiel ist ({(a b 0) | a, b ∈ R}, +, ·) ein Untervektorraum von R1 × 3 .

3. Ist A ∈ Km × n , so stellt N(A) : = {~v ∈ Kn × 1 | A~v = ~0} einen wichtigen


Untervektorraum von Kn × 1 dar, der Nullraum von A genannt wird. N(A) ist
nichtleer, da A ~0 = ~0 gilt, und mit ~v , w
~ ∈ N(A) liegen wegen des Satzes über
~ und a~v für jedes a ∈ K in N(A).
Matrizenmultiplikation (Seite 39) auch ~v + w

4. Analog wie in 3. können wir zeigen, dass S(A) : = {~y ∈ Km × 1 | Es gibt ~x ∈


Kn × 1 , sodass ~y = A~x ist} einen Untervektorraum von Km × 1 darstellt. Dieser
im Folgenden ebenfalls oft verwendete Untervektorraum heißt Spaltenraum von
A.

5. Ist C(R) : = {f : R → R | f stetig} und D(R) : = {f : R → R | f differen-


zierbar}, so sind C(R) und D(R) zusammen mit den in Beispiel 2.1.5.3 erklärten
100 Lineare Unabhängigkeit, Basis und Dimension 2.2

Verknüpfungen Untervektorräume von (Abb(R, R), +, ·), und D(R) ist außerdem
ein Untervektorraum von C(R). Aus den Rechenregeln für die Ableitung folgt,
dass die Menge der Lösungen einer homogenen linearen Differentialgleichung
a0 y + a1 y 0 + · · · + an y (n) = 0 mit y : = f (x) und y (k) : = f (k) (x) für k = 1, . . . , n
einen Untervektorraum von D(R) bildet.

6. Die Menge der Polynomfunktionen {P : R → R, t 7→ a0 + a1 t + · · · + an tn |


n ∈ N, ai ∈ R für i = 0 . . . , n} ist ebenfalls ein Untervektorraum von D(R).

Übung 2.1.d
Es sei W ein K -Vektorraum, und U, V seien Untervektorräume von W.
Zeigen Sie, dass U = W oder V = W gilt, wenn U ∪ V = W erfüllt ist.

2.2 Lineare Unabhängigkeit, Basis und Dimen-


sion

Mit Beispiel 2.1.7.4 können wir das im Unterabschnitt 2.1.3 entwickelte Kriterium
für die Lösbarkeit eines linearen Gleichungssystems folgendermaßen formulieren:
A~x = ~b ist genau dann lösbar, wenn ~b ∈ S(A) gilt.

Nun kommt es darauf an, S(A) möglichst einfach zu beschreiben. Zunächst führen
wir für die typische Darstellungsweise der Elemente von S(A) eine zweckmäßige
Bezeichnung ein:

Definition der Linearkombination, der linearen Hülle und des Er-


zeugendensystems
a) Ist V ein K -Vektorraum und sind ~a1 , . . . ~an ∈ V, so heißt ~x Linearkombi-
nation von ~a1 , . . . ~an genau dann, wenn es Skalare x1 , . . . , xn ∈ K gibt, sodass
n
X
~x = xi~ai
i=1
gilt.
b) Ist M eine nichtleere Teilmenge von V, so wird die Menge aller Linearkom-
binationen von je endlich vielen Vektoren aus M lineare Hülle von M genannt
und mit Lin M bezeichnet. Außerdem wird Lin ∅ : = {~0} gesetzt.
c) M heißt Erzeugendensystem von Lin M.
2.2.1 Beispiele für lineare Hüllen 101

Satz über die lineare Hülle


Ist V ein K -Vektorraum und M eine beliebige nichtleere Teilmenge von V,
so ist Lin M ein Untervektorraum von V und zwar der kleinste Untervektor-
raum von V, der M enthält, das heißt, für jeden Untervektorraum W von
V mit M ⊆ W gilt Lin M ⊆ W.

Beweis (r1):

1. Lin M ist ein Untervektorraum von V: Lin M ist nichtleer, denn es gilt
Lin ∅ = {~0}, und für M =
6 ∅ folgt mit V2 d), dass ~a ∈ Lin M für alle ~a ∈ M
erfüllt ist, das heißt, es gilt stets
(2.4) M ⊆ Lin M.

Sind ~x, ~y ∈ Lin M, so gibt es ~a1 , . . . , ~am , ~b1 , . . . , ~bn ∈ M und x1 , . . . , xm , y1 , . . . ,


yn ∈ K, sodass m
X n
X
~x = xi~ai und ~y = yj~bj
i=1 j=1
gilt. Dann sind
m
X n
X m
X
~x + ~y = xi~ai + yj~bj und c~x = (cxi )~ai
i=1 j=1 i=1
für jedes c ∈ K Linearkombinationen von je endlich vielen Vektoren aus M.

2. Lin M ist minimal: Ist W ein Untervektorraum von V mit M ⊆ W und ist
m
X
~x = xi~ai ∈ Lin M mit ~ai ∈ M und xi ∈ K,
i=1

so gilt wegen M ⊆ W auch ~ai ∈ W. Da W ein Untervektorraum ist, liegt also ~x


in W, das heißt, Lin M ist ein Untervektorraum von W.

2.2.1 Beispiele für lineare Hüllen

1. Bezeichnen wir mit ~ep,k den k - ten Einheitsvektor in Kp × 1 , k = 1, . . . , p,


so gilt Km × n = Lin {~em,i t~en,j | i = 1, . . . , m; j = 1, . . . , n}. Ist m = 1 oder
n = 1, so schreiben wir einfacher Km × 1 = Lin {~e1 , . . . , ~em } beziehungsweise
K1 × n = Lin {t~e1 , . . . , t~en }.
2. Der Spaltenraum S(A) einer Matrix A = : (~a1 . . . ~an ) ∈ Km × n erhält nun die
Form S(A) = Lin{~a1 , . . . , ~an }.
102 Beispiele für lineare Hüllen 2.2.1

3. Ist A : = t(1 . . . 1) ∈ Km × 1 , m > 1, und M : = {~e2 −~e1 , ~e3 −~e1 , . . . , ~em −~e1 } ⊂
Km × 1 , so gilt N(A) = Lin M : Denn einerseits ist offenbar ~ek − ~e1 ∈ N(A) für
k = 2, . . . , m; aufgrund des Satzes über die lineare Hülle (Seite 101) gilt also
Lin M ⊆ N(A). Andererseits lässt sich jeder Vektor ~x = t(x1 . . . xm ) ∈ N(A)
Pm Pm
wegen x1 = − xk in der Form ~x = xk (~ek − ~e1 ) darstellen, das heißt, es ist
k=2 k=2
N(A) ⊆ Lin M.

4. Für K = R oder K = C sei Pn der K -Vektorraum der Polynomfunktionen,


deren Grad nicht größer als n ist. Dann gilt Pn = Lin{id0 , . . . , idn }, wobei id0 die
konstante Funktion x 7→ 1 und idk für k ≥ 1 die Potenzfunktion x 7→ xk , x ∈ K,
bezeichnet. Für den Vektorraum K[x] der Polynome in einer Unbestimmten mit
Koeffizienten aus K gilt entsprechend K[x] = Lin {xi | i ∈ N} mit x0 : = 1.

5. Es sei F : = ({(ak )k∈N1 | ak ∈ K}, +, ·) der Vektorraum aller Folgen aus K nach
Beispiel 2.1.5.3 und E : = {(δik )k∈N1 | i ∈ N1 } mit

0, wenn i 6= k,
δik : = (Kronecker-Symbol ).
1, wenn i = k,

Dann ist F 6= Lin E, denn alle Folgen aus Lin E enthalten auf Grund der Definition
der Linearkombination nur endlich viele von 0 verschiedene Elemente.

Übung 2.2.a
Bestimmen Sie einen Vektor ~b ∈ R4 × 1 , sodass Lin {~b} der Lösungsraum des
folgenden Gleichungssystems ist:
x1 + 2x2 + 3x3 + 4x4 = 0
4x1 + x2 + 2x3 + 3x4 = 0 .
3x1 + 4x2 + x3 + 2x4 = 0

Der nächste Satz liefert ein nützliches Kriterium für die Gleichheit der linearen
Hüllen von Teilmengen eines Vektorraums. (Im Satz über die Gleichheit von Zei-
lenräumen (Seite 121) werden wir für den Fall der Zeilenräume von Matrizen ein
wesentlich einfacheres Kriterium herleiten.)

Satz über die Gleichheit von linearen Hüllen


Ist V ein K -Vektorraum und sind M1 und M2 Teilmengen von V, so ist
Lin M1 = Lin M2 genau dann, wenn M1 ⊆ Lin M2 und M2 ⊆ Lin M1 gilt.
2.2.2 Lineare Unabhängigkeit 103

Beweis (r1):
Wegen der Symmetrie der Aussage genügt es zu zeigen, dass Lin M1 ⊆ Lin M2
genau dann gilt, wenn M1 ⊆ Lin M2 erfüllt ist.
1. Aus Lin M1 ⊆ Lin M2 folgt wegen M1 ⊆ Lin M1 sofort M1 ⊆ Lin M2 .

2. Aufgrund des Satzes über die lineare Hülle (Seite 101) gilt Lin M1 ⊆ Lin M2 ,
wenn M1 ⊆ Lin M2 vorausgesetzt wird.

Übung 2.2.b
       
 1 2   1 3 
Es seien V1 : = Lin  1 ,
  3  , V2 : = Lin  −1 , −2
  
5 13 −2 −3
   
     
 1 4 3 
und V3 : = Lin  −1  ,  −3  ,  −1  . Untersuchen Sie, welche
−1 −1 3
 

der linearen Hüllen gleich sind.

Übung 2.2.c
Für ~a ∈ Km × 1 sei E~a : = {~x ∈ Km × 1 | t~a ~x = 0}. Beweisen Sie die folgenden
Aussagen:
i) E~a ist ein Untervektorraum von Km × 1 .
ii) Für ~a, ~b ∈ Km × 1 gilt E~a = E~b genau dann, wenn Lin {~a } = Lin {~b }
erfüllt ist.
Wir wollen nun versuchen, unter den vielen möglichen Erzeugendensystemen eines
(Unter-)Vektorraums besonders zweckmäßige zu finden. Dazu definieren wir:

Definition der linearen Unabhängigkeit


Ist V ein K - Vektorraum und sind ~a1 , . . . , ~an ∈ V, so heißen die Vektoren
~a1 , . . . , ~an linear unabhängig genau dann, wenn gilt: Aus
Xn
ci ~ai = ~0
i=1 n
ci ~ai 6= ~0
P
mit ci ∈ K folgt ci = 0 für i = 1, . . . , n, (oder äquivalent dazu:
i=1
für alle (c1 , . . . , cn ) ∈ Kn \ {(0, . . . , 0)}. Andernfalls heißen die Vektoren linear
abhängig.
104 Beispiele für lineare Unabhängigkeit 2.2.2

Ist M eine nichtleere endliche Teilmenge von V, so heißt M linear unabhängig


beziehungsweise linear abhängig, wenn die entsprechende Aussage für die Vek-
toren von M gilt. Eine unendliche Teilmenge M von V heißt linear unbhängig,
wenn je endlich viele verschiedene Vektoren aus M linear unabhängig sind.
Die leere Menge ∅ wird als linear unabhängig angesehen.

Eine unendliche Teilmenge M von V ist also linear abhängig, wenn es endlich
viele verschiedene Vektoren aus M gibt, die linear abhängig sind. Für nichtleere
endliche Mengen M sind die bei unendlichen Teilmengen auftretenden Endlich-
keitsbedingungen von selbst erfüllt: Ist nämlich L eine linear abhängige Teilmenge
von M, so ist auch M linear abhängig, weil sich die nichttriviale Linearkombi-
nation 6 von ~0 aus Lin L durch Hinzunahme der mit 0 multiplizierten Vektoren
aus M \ L zu einer nichttrivialen Linearkombination von ~0 aus Lin M erweitern
lässt. Umgekehrt müssen alle Teilmengen von M linear unabhängig sein, wenn
M es ist.

2.2.2 Beispiele für lineare Unabhängigkeit

a) Lineare Unabhängigkeit:

1. ~e1 . . . , ~en ∈ Kn × 1 sind linear unabhängig:


   
c1 0
 ..   .. 
c1~e1 + · · · + cn~en =  .  =  . 
cn 0
bedeutet nach Definition der Gleichheit von Vektoren, dass ci = 0 für i = 1, . . . , n
gilt.

Der Beweis für die lineare Unabhängigkeit der Matrizen ~em,i t~en,j ∈ Km × n , i =
1, . . . , m, j = 1, . . . , n, in Beispiel 2.2.1.1 verläuft analog.

2. Jeder Vektor ~v ∈ V \ {~0} ist linear unabhängig: Wegen Teil 3 des Satzes über
Eigenschaften von Vektorräumen (Seite 98) folgt aus cw ~ = ~0 und w~ 6= ~0, dass
c = 0 sein muss.

3. Für jedes n ∈ N ist die Menge der ersten n + 1 Potenzfunktionen {id0 , . . . , idn }
n
6
ci ~ai mit (c1 , . . . , cn ) ∈ Kn \ {(0, . . . , 0)} heißen nichttrivial.
P
Die Linearkombinationen
i=1
2.2.2 Lineare Unabhängigkeit 105

linear unabhängig, weil aufgrund der Gleichheitsdefinition für Funktionen c0 id0 +


· · · + cn idn = 0 · id0 mit c0 + c1 x + · · · + cn xn = 0 für alle x ∈ K (= R oder C)
gleichbedeutend ist. Setzen wir n + 1 verschiedene Zahlen x0 , . . . , xn für x ein,
so erhalten wir mit ~c : = t(c0 . . . cn ) das Gleichungssystem Vn~c = ~0, wobei Vn
eine Vandermonde-Matrix darstellt, die wegen (1.41) invertierbar ist. Damit folgt
~c = Vn−1~0 = ~0.

4. Der Nachweis für die lineare Unabhängigkeit der ersten n + 1 Monome {1, x,
. . . , xn } ⊂ K[x] ist erheblich einfacher, weil ein Polynom c0 + c1 x + · · · + cm xm
und das Nullpolynom 0 definitionsgemäß genau dann gleich sind, wenn c0 = c1 =
. . . = cm = 0 gilt.

b) Lineare Abhängigkeit

5. Der Nullvektor ~0 ist stets linear abhängig, denn es gilt 1 · ~0 = ~0, und in jedem
Körper K ist 1 6= 0.

6. Zwei gleiche Vektoren aus V sind linear abhängig, denn es ist 1~a + (−1)~a = ~0
für jedes ~a ∈ V wegen Teil 4 des Satzes über Vektorraumeigenschaften (Seite 98).

Übung 2.2.d
Untersuchen Sie die folgenden Vektoren aus R1 × 3 beziehungsweise R1 × 4
auf lineare Unabhängigkeit:
a) ~a1 = (3 5 7), ~a2 = (1 −1 0), ~a3 = (1 0 8);
b) ~b1 = (3 4 −1), ~b2 = (−1 2 −2), ~b3 = (1 8 −5), ~b4 = (0 2 6);
c) ~c1 = (−3 1 1 0), ~c2 = (−2 0 0 1), ~c3 = (0 0 4 −1), ~c4 = (1 2 0 0).
Übung 2.2.e
Es seien ~vi ∈ Rm × 1 , i = 1, 2, 3, und w
~ k : = ~v1 + ~v2 + ~v3 − ~vk , k = 1, 2, 3.
Zeigen Sie, dass die Vektoren w
~ 1, w
~ 2, w
~ 3 genau dann linear unabhängig sind,
wenn ~v1 , ~v2 , ~v3 linear unabhängige Vektoren darstellen.
Übung 2.2.f
a) Für welche Werte von a ∈ R sind die Vektoren (0 1 a), (a 0 1) und
(1 a 0) in R1 × 3 linear abhängig?
b) Für welche Werte von b ∈ R sind die Vektoren (b + 1 5 3), (1 4b − 2 −1)
und (1 4 2b + 7) in R1 × 3 linear unabhängig?
Das nächste sehr wichtige Beispiel halten wir als Satz fest:
106 Lineare Unabhängigkeit 2.2.2

Satz über die Maximalzahl linear unabhängiger Vektoren


Mehr als m Vektoren aus Km × 1 sind stets linear abhängig.

Beweis (a2):
Wir gehen von n Vektoren ~a1 , . . . , ~an ∈ Km × 1 mit n > m aus, fassen sie zu einer
m × n -Matrix A : = (~a1 . . . ~an ) zusammen und zeigen, dass mindestens zwei
verschiedene Vektoren ~x = t(x1 . . . xn ) ∈ Kn × 1 mit A~x = ~0 existieren. Wegen
A~x = ~a1 x1 + · · · +~an xn ist dann die lineare Abhängigkeit von ~a1 , . . . , ~an bewiesen.
Aufgrund des Zerlegungssatzes (Seite 59) gibt es eine Permutationsmatrix P, eine
normierte untere Dreiecksmatrix U und eine m × n -Stufenmatrix S, sodass P A =
U S gilt. Jede Lösung ~x der Gleichung S~x = ~0 ist dann wegen A~x = P −1 U S~x
auch eine Lösung von A~x = ~0.
Die Stufenzahl r von S (das heißt die Anzahl der Eckkoeffizienten) ist höchstens
gleich m, also nach Voraussetzung kleiner als die Spaltenzahl n. Sind d~1 , . . . , d~n
die Spaltenvektoren von S und k1 , . . . , kr die Spaltenindizes der Eckkoeffizienten,
so bilden die ersten r Zeilen der Matrix d~k . . . d~kr eine obere Dreiecksmatrix

1

(mit nichtverschwindenden Diagonalelementen), während die übrigen m−r Zeilen


nur Nullen enthalten. Setzen wir M : = d~j | j ∈ In \ {k1 , . . . , kr } , so sind auch


bei jedem Vektor w~ ∈ Lin M (mindestens) die letzten m − r Komponenten Null.


Damit ist das Gleichungssystem d~k xk + · · · + d~kr xkr = −w
1 1 ~ ∈ Lin M
~ für jedes w
eindeutig durch Rückwärtseinsetzen lösbar (siehe 1.3.4 ii)).
Bringen wir die zu −w
~ gehörige Linearkombination aus Lin M auf die linke Seite
und ordnen die Summanden nach wachsenden Spaltenindizes, so erhalten wir
~ aus Lin M, der eine nichttriviale Linearkombination der
also zu jedem Vektor w
Vektoren aus M darstellt, genau eine vom Nullvektor verschiedene Lösung ~x der
Gleichung S~x = ~0 und nach der obigen Überlegung auch von A~x = ~0.
Das folgende nützliche Kriterium für lineare Abhängigkeit wird es uns anschlie-
ßend auch ermöglichen, linear abhängige Erzeugendensysteme zu verkleinern:

Satz über ein Kriterium für lineare Abhängigkeit


Eine nichtleere endliche Teilmenge M von V ist genau dann linear abhängig,
wenn es ein ~a ∈ M gibt, sodass ~a ∈ Lin (M \ {~a}) gilt.7
2.2.2 Lineare Unabhängigkeit 107

Beweis (r2):
i) Es sei zunächst M = {~a}. Nach Unterabschnitt 2.2.2 (2. und 5.) ist M genau
dann linear abhängig, wenn ~a = ~0 gilt. Andererseits ist Lin (M \ {~a}) = Lin ∅ =
{~0} aufgrund der Definition der Linearkombination, der linearen Hülle und des
Erzeugendensystems (Seite 100). Also gilt ~a ∈ Lin (M \ {~a}) ebenfalls genau
dann, wenn ~a = ~0 ist.

ii) Es sei M = {~a1 , . . . , ~an } mit n ≥ 2. Ist M linear abhängig, so gibt es


(c1 , . . . , cn ) ∈ Kn \ {(0, . . . , 0)} derart, dass c1~a1 + · · · + cn~an = ~0 gilt. Ist et-
wa ck 6= 0, so folgt
n 
X ci 
~ak = − ~ai , also ~ak ∈ Lin (M \ {~ak }).
i=1
ck
i6=k

Umgekehrt bedeutet die Existenz eines ~ak ∈ M mit ~ak ∈ Lin (M \ {~ak }), dass es
Koeffizienten ci0 ∈ K, i 6= k, gibt, sodass
Xn
~ak = ci0 ~ai
i=1
i6=k
n
gilt. Mit ck0 : = −1 stellt dann aber ci0 ~ai = ~0 eine nichttriviale Linearkombina-
P
i=1
tion von ~0 in M dar, das heißt, M ist linear abhängig.

Übung 2.2.g
Es seien ~a1 , . . . , ~a5 linear unabhängige Vektoren aus einem K -Vektorraum
V. Zeigen Sie, dass für ~a ∈ V genau dann ~a 6∈ Lin {~a1 , . . . , ~a5 } gilt, wenn
die Vektoren ~a, ~a1 , . . . , ~a5 linear unabhängig sind.

Satz über die Verkleinerung des Erzeugendensystems


Ist M eine nichtleere endliche Teilmenge von V und ~a ∈ M mit ~a ∈ Lin(M \
{~a}), so gilt Lin(M \ {~a}) = Lin M.

Beweis (r1):

Aufgrund des Satzes über die Gleichheit von linearen Hüllen (Seite 102) ist
Lin(M \ {~a}) = Lin M genau dann, wenn M \ {~a} ⊆ Lin M und M ⊆ Lin(M \
7
~a ∈ Lin (M \ {~a}) bedeutet, dass ~a Linearkombination der von ~a verschiedenen Vektoren
aus M ist.
108 Lineare Unabhängigkeit 2.2.2

{~a}) gilt. Wegen M \ {~a} ⊆ Lin(M \ {~a}) ⊆ Lin M und mit der Voraussetzung
~a ∈ Lin(M \ {~a}) sind beide Bedingungen erfüllt.

Offenbar können wir diesen Verkleinerungsprozess solange fortsetzen, bis ein li-
near unabhängiges Erzeugendensystem vorliegt:

Satz über linear unabhängige Erzeugendensysteme


Ist M eine endliche Teilmenge von V, so gibt es eine linear unabhängige
Teilmenge B von M, sodass Lin B = Lin M gilt.

Beweis (r1):

Vollständige Induktion über die Anzahl m der Elemente von M.


Induktionsanfang: M = ∅ ist aufgrund der Definition der linearen Unabhängigkeit
(Seite 103) linear unabhängig.
Induktionsschritt:
Die Aussage sei für alle Teilmengen mit m Elementen bewiesen, und M sei eine
Teilmenge mit m + 1 Elementen. Ist M linear abhängig, so gibt es aufgrund
der Sätze über ein Kriterium für lineare Abhängigkeit (Seite 106) und über die
Verkleinerung des Erzeugendensystems (Seite 107) ein ~a ∈ M, sodass Lin(M \
{~a}) = Lin M gilt. Da M \ {~a} eine Teilmenge mit m Elementen ist, gibt es nach
Induktionsannahme eine linear unabhängige Teilmenge B mit B ⊆ M \ {~a} ⊂ M
und Lin B = Lin(M \ {~a}) = Lin M.

Linear unabhängige Erzeugendensysteme haben folgende wichtige Eigenschaft:

Satz über eindeutige Linearkombinationen


Ist B eine nichtleere, linear unabhängige Teilmenge von V, so lässt sich je-
der Vektor ~v ∈ Lin B eindeutig aus endlich vielen Vektoren von B linear
kombinieren.

Beweis (r1):

Wir nehmen an, es gäbe zwei Linearkombinationen von je endlich vielen Vektoren
aus B, die denselben Vektor darstellen. Es sei {~c1 , . . . , ~cn } eine endliche Teilmenge
2.2.3 Beispiele für Basen 109

von B, die alle Vektoren enthält, die in mindestens einer der beiden Linearkom-
binationen von ~v mit einem von Null verschiedenen Koeffizienten vorkommen.
Pn n
P
Dann können wir beide Linearkombinationen in der Form ~v = ai~ci = bi~ci
i=1 i=1
n
mit ai , bi ∈ K schreiben und erhalten als Differenz ~0 = ~v − ~v =
P
(ai − bi ) ~ci .
i=1

Da ~c1 , . . . , ~cn linear unabhängige Vektoren sind, folgt ai = bi , i = 1, . . . , n, das


heißt, die Linearkombination des Vektors ~v ∈ Lin B ist eindeutig bestimmt.

Damit haben wir sehr zweckmäßige Erzeugendensysteme gefunden:

Definition der Basis


Eine Teilmenge B des K -Vektorraums (beziehungsweise Untervektorraums)
V heißt Basis von V genau dann, wenn B ein linear unabhängiges Erzeugen-
densystem von V ist.

2.2.3 Beispiele für Basen

1. Aufgrund der Definition der Linearkombination, der linearen Hülle und des
Erzeugendensystems (Seite 100) und der Definition der linearen Unabhängigkeit
(Seite 103) ist die leere Menge ∅ eine Basis des Nullvektorraums {~0}.
2. {~em,i t~en,k | j = 1, . . . , m; k = 1, . . . , n} stellt eine Basis von Km × n dar (siehe
die Beispiele 2.2.1 und 2.2.2). Insbesondere ist {~e1 , . . . , e~n } die “Standardbasis”
von Kn × 1 .
3. {id0 , . . . , idn } ist eine Basis des Vektorraums Pn der Polynomfunktionen, deren
Grad höchstens n ist (siehe die Beispiele 2.2.1 und 2.2.2).
4. {1, x, x2 , . . .} stellt eine Basis des Vektorraums K[x] aller Polynome mit Ko-
effizienten aus K dar (siehe dieselben Beispiele).

5. Die Folgenmenge E : = {(δij )j∈N1 | i ∈ N1 } ist keine Basis des Vektorraums


F aller Folgen aus K, denn nach Beispiel 2.2.1.5 gilt Lin E 6= F. Es ist zwar
bekannt, dass F eine Basis besitzt, man kann aber keine Basis explizit angeben.

Übung 2.2.h
Die ersten vier Legendre-Polynome P0 , P1 , P2 , P3 werden durch P0 (x) : =
1, P1 (x) : = x, P2 (x) : = 21 (3x2 − 1), P3 (x) : = 12 (5x3 − 3x) definiert. Zeigen
110 Beispiele für Basen 2.2.3

Sie, dass P0 , P1 , P2 , P3 eine Basis des R -Vektorraums aller Polynome vom


Grad ≤ 3 bilden, und stellen Sie die Monome id0 , id1 , id2 , id3 als Linear-
kombinationen der Basiselemente dar.
Übung 2.2.i
Für jede komplexe Zahl z = x+iy mit x, y ∈ R wird die konjugiert komplexe
Zahl z̄ ∈ C durch z̄ : = x − iy definiert. Zu jeder Matrix A = (aik ) ∈ Cm × n
definiert man Ā : = (āik ). Es sei H : = {A ∈ C2 × 2 | tĀ = A} und H0 : =
{A ∈ H | Sp(A) = 0}.
i) Beweisen Sie, dass H : = (H, +, ·) ein R -Vektorraum ist und dass die
     
0 1 0 −i 1 0
Menge der Matrizen E2 , N1 : = , N2 : = , N3 : =
1 0 i 0 0 −1
eine Basis von H bildet.
ii) Zeigen Sie, dass H0 : = (H0 , +, ·) ein R -Untervektorraum von H ist und
dass {N1 , N2 , N3 } eine Basis von H0 (über R) bildet.
Übung 2.2.j
Für k ∈ N definieren wir die Polynomfunktionen gk : R → R durch x 7→
k−1
Q
gk (x) : = (x − j). Weisen Sie nach, dass {g0 , . . . , gn } eine Basis des Vek-
j=0
torraums Pn aller Polynomfunktionen mit einem n nicht überschreitenden
Grad bildet, und stellen Sie die Potenzfunktionen id2 , id3 und id4 als Line-
arkombinationen der Basiselemente g0 , . . . , g4 dar. [Hinweis: Sie können die
Ergebnisse des Unterabschnitts 1.7.1 verwenden.]
Achtung: Fundgrube! [Rekursionsformel für die Koeffizienten S(n, j) der
n
Linearkombinationen idn =
P
S(n, j) gj ; Darstellung der in “geschlossener
j=1
N
k m als Linearkombinatio-
P
Form” geschriebenen Ausdrücke PSm (N ) : =
k=1
nen von Nj+1
+1

, j = 1, . . . , m.]

Übung 2.2.k
Es sei V ein von {~0} verschiedener K -Vektorraum und B eine nichtleere
Teilmenge von V. Zeigen Sie, dass die folgenden Aussagen äquivalent sind:
a) B ist eine Basis von V;
b) B ist linear unabhängig, und jede Teilmenge B 0 von V mit B ⊂ B 0 ist
linear abhängig;
2.2.3 Beispiele für Basen 111

c) B stellt ein Erzeugendensystem von V dar, und keine echte Teilmenge


von B ist ein Erzeugendensystem von V.

Das Beispiel 2.2.3.5 legt die Frage nahe, ob jeder Vektorraum eine Basis besitzt.
Der Nachweis dafür, dass dieses der Fall ist, lässt sich für beliebige Vektorräume
nur mit Hilfe nicht ganz unproblematischer “transfiniter” Methoden der Men-
genlehre (zum Beispiel des Lemmas von Zorn) erbringen. Für eine große Zahl
von Vektorräumen - darunter die meisten der für die Praxis wichtigen - haben
wir in dem Satz über linear unabhängige Erzeugendensysteme (Seite 108) bereits
die Existenz einer Basis bewiesen. Da wir für diese Vektorräume noch wesentlich
mehr zeigen können, geben wir ihnen einen Namen:

Definition des endlich erzeugten Vektorraums


Ein K -Vektorraum V heißt endlich erzeugt genau dann, wenn es eine endliche
Teilmenge M von V gibt, sodass V = Lin M gilt.

Aufgrund des Satzes über linear unabhängige Erzeugendensysteme (Seite 108) be-
sitzt jeder endlich erzeugte Vektorraum sogar eine endliche Basis. Darüberhinaus
gilt der folgende Satz, der es erlaubt, die Elementzahlen aller Basen eines endlich
erzeugten Vektorraums zu vergleichen:

Satz über Basen und linear unabhängige Vektoren


Ist {~b1 , . . . , ~bn } eine Basis des K -Vektorraums V und sind ~v1 , . . . , ~vm linear
unabhängige Vektoren aus V, so gilt m ≤ n.

Beweis (a2):

Da V = Lin {~b1 , . . . , ~bn } ist, gibt es zu jedem Vektor ~vj , j = 1, . . . , m, Skalare


n
aij ~bi gilt. Jede Linearkombination von
P
aij ∈ K, i = 1, . . . , n, sodass ~vj =
i=1
~v1 , . . . , ~vm lässt sich dann folgendermaßen als Linearkombination von ~b1 , . . . , ~bn
schreiben:
m
X n
X  Xn X
m 
(2.5) c1~v1 + · · · + cm~vm = ci aij ~bi = aij cj ~bi .
j=1 i=1 i=1 j=1

Fassen wir nun die Skalare aij zu Vektoren ~aj : = (a1j . . . anj ) ∈ Kn × 1 , j =
t

1, . . . , m, zusammen, so gilt ~a1 c1 + · · · + ~am cm = ~0 ∈ Kn × 1 genau dann, wenn


112 Beispiele für Basen 2.2.3

m
P
die Gleichungen aij cj für i = 1, . . . , n erfüllt sind. Wegen (2.5) ist dieses
j=1
gleichbedeutend mit c1~v1 + · · · + cm~vm = ~0 ∈ V. Da die Vektoren ~v1 , . . . , ~vm als
linear unabhängig vorausgesetzt wurden, folgt cj = 0 für j = 1, . . . , m. Damit
sind auch die Spaltenvektoren ~a1 , . . . , ~am linear unabhängig, und der Satz über
die Maximalzahl linear unabhängiger Vektoren (Seite 106) ergibt m ≤ n.

Da wir schon wissen, dass jeder endlich erzeugte Vektorraum V eine Basis besitzt,
folgt nun sofort, dass jede Basis von V endlich ist und dass alle Basen von V
dieselbe Elementzahl haben. Denn ist {~b1 , . . . ~bn } eine Basis von V, so kann es
aufgrund des Satzes über Basen und linear unabhängige Vektoren (Seite 111) keine
Basis mit mehr als n Elementen geben, weil dann mehr als n Vektoren von V
linear unabhängig wären. Ebenso kann keine Basis mit weniger als n Elementen
existieren, da in diesem Falle {~b1 , . . . ~bn } zu viele linear unabhängige Elemente
enthalten würde. Damit können wir zusammenfassen:

Satz über die Elementanzahl von Basen


Jeder endlich erzeugte K -Vektorraum V besitzt eine endliche Basis, und alle
Basen von V haben dieselbe Elementanzahl.

In vielen Lehrbüchern wird zur Herleitung dieses Satzes der nach E. Steinitz
benannte Austauschsatz bewiesen, der zusätzlich zu der Aussage des Satzes über
Basen und linear unabhängige Vektoren (Seite 111) die Existenz eines σ ∈ Sn
zeigt, mit dem {~v1 , . . . , ~vm , ~bσ(m+1) , . . . , ~bσ(n) } eine Basis von V darstellt. 8

Definition der Dimension eines Vektorraums


Ist V ein endlich erzeugter K -Vektorraum, so heißt die allen Basen von V

8
Als Verallgemeinerung der linear unabhängigen Teilmengen von endlichen Erzeugendensys-
temen hat H. Whitney um 1935 den folgenden Begriff eingeführt, der heute in verschiedenen
Anwendungsbereichen eine zentrale Rolle spielt.
Ist E eine endliche Menge und U eine Menge von Teilmengen von E, so heißt (E, U) Matroid
genau dann, wenn gilt:
i) ∅ ∈ U, und aus I ∈ U, J ⊆ I folgt J ∈ U.
ii) Für jedes T ⊆ E haben alle in U liegenden maximalen Untermengen von T (“Basen”) die-
selbe Elementzahl.
Die Forderung ii) ist äquivalent zu einer Eigenschaft, die dem Austauschsatz entspricht.
2.2.4 Beispiele zur Dimension von Vektorräumen 113

gemeinsame Elementanzahl die Dimension von V. Sie wird mit dimK V ab-
gekürzt.
Ist V nicht endlich erzeugt, so heißt V unendlich-dimensional.

Falls kein Missverständnis möglich ist, wird auch dimV anstelle von dimK V
geschrieben.

2.2.4 Beispiele zur Dimension von Vektorräumen

1. dimK {~0} = 0; 2. dim Km × n = mn; 3. dimK Pn = n + 1 (K = R oder C);


4. dimR C = 2; denn {1, i} ist eine Basis des R -Vektorraums C (siehe Beispiel
2.1.1.2); dimC C = 1.

Ist die Dimension eines endlich erzeugten Vektorraums bekannt, so kann mit Hilfe
des folgenden Satzes einfacher als mit der Definition nachgewiesen werden, dass
eine gegebene Teilmenge eine Basis bildet:

Basissatz
Ist V ein endlich erzeugter K -Vektorraum mit n = dimK V > 0, so stellt
jedes aus n Vektoren bestehende Erzeugendensystem von V eine Basis von
V dar, und auch je n linear unabhängige Vektoren aus V bilden eine Basis
von V.

Beweis (r1):

Es seien ~a1 , . . . , ~an die betreffenden Vektoren. Dann ist im ersten Fall zu zei-
gen, dass sie linear unabhängig sind, und im zweiten Fall, dass sie ein Erzeu-
gendensystem von V darstellen. Beide Nachweise werden indirekt geführt. Wäre
V = Lin{~a1 , . . . , ~an } mit linear abhängigen Vektoren ~a1 , . . . , ~an , so gäbe es auf-
grund der Sätze über ein Kriterium für lineare Unabhängigkeit (Seite 106), über
die Verkleinerung des Erzeugendensystems (Seite 107) und über linear unabhängi-
ge Erzeugendensysteme (Seite 108) eine Basis von V, die weniger als n Elemente
hätte - im Widerspruch zum Satz über die Elementanzahl von Basen (Seite 112).

Die Annahme, dass Lin {~a1 , . . . , ~an } ⊂ V mit linear abhängigen Vektoren ~a1 , . . . ,
~an gilt, ergäbe, dass ein ~b ∈ V mit ~b ∈ / Lin {~a1 , . . . , ~an } existiert. Dann wären
114 Die Fibonacci-Folge 2.2.5

aber die n + 1 Vektoren ~a1 , . . . , ~an , ~b in V linear unabhängig - im Widerspruch


zum Satz über Basen und linear unabhängige Vektoren (Seite 111).
Übung 2.2.l
Es sei {~a1 , . . . , ~an } eine Basis des K -Vektorraums V, und es seien α1 , . . . , αn
∈ K sowie ~a = α1~a1 + · · · + αn~an . Leiten Sie jeweils notwendige und hinrei-
chende Bedingungen für α1 , . . . , αn her, sodass
i) {α1~a1 , . . . , αn~an } eine Basis von V ist,
ii) die Vektoren ~a1 −~a, . . . , ~an −~a linear unabhängig sind [Hinweis: Beachten
Sie Übung 1.5.f ] und
iii) die Mengen {~a1 , . . . , ~an , ~a}\{~ai } für jedes i ∈ In eine Basis von V bilden.
Übung 2.2.m
i) Es sei S : = {A ∈ Kn × n | tA = A} die Teilmenge der symmetrischen
Matrizen von Kn × n . Berechnen Sie dimK Lin S.
ii) Zeigen Sie, dass die Menge der schiefsymmetrischen Matrizen S1 : =
{A ∈ Kn × n | tA = −A} und die Menge S2 : = {A ∈ Kn × n | Sp(A) = 0}
mit den Verknüpfungen aus Kn × n Untervektorräume von Kn × n sind, und
berechnen Sie dimK Si , i = 1, 2, für K = R sowie für den Körper K, der
aus zwei Elementen besteht.
Übung 2.2.n
Für ~a ∈ Km × 1 sei E~a : = {~x ∈ Km × 1 | t~a ~x = 0} wie in Übung 2.2.c definiert.
Zeigen Sie, dass dann dim E~a ∈ {m − 1, m} gilt und dass zu jedem (m − 1) -
dimensionalen Untervektorraum U von Km × 1 ein ~a ∈ Km × 1 mit U = E~a
existiert.

2.2.5 Die Fibonacci-Folge

Als Anwendung von Basen für Untervektorräume des Folgenvektorraums un-


tersuchen wir die rekursiv definierte Folge (fn )n∈N1 mit f1 = 1, f2 = 1 und
fn+2 = fn+1 + fn für alle n ∈ N1 . Sie geht auf das folgende Problem zurück, das
von dem italienischen Mathematiker Leonardo von Pisa (genannt Fibonacci =
Sohn des Bonacci 1180? -1250?) stammt: Wie viele Kaninchenpaare werden in
einem Jahr von einem Paar erzeugt (das Paar selbst mitgerechnet), wenn jedes
Paar vom zweiten Monat an in jedem Monat ein neues Paar erzeugt und keine
Todesfälle eintreten?
Die Anzahl der Paare am Anfang des n -ten Monats ist dann fn :
2.2.5 Die Fibonacci-Folge 115

n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ...
fn 1 1 2 3 5 8 13 21 34 55 89 144 233 377 610 ...

Leonardo von Pisa war der erste “Fachmathematiker” des Abendlandes. Er reiste
als Kaufmann in den Orient, lernte dort die Mathematik der Antike durch die
von den Arabern übermittelten Schriften kennen und schrieb nach seiner Rück-
kehr ein bedeutendes “Rechenbuch” (“Liber abaci”, 1202), das arithmetische und
algebraische Unterweisungen enthielt. Er verwendete als erster in Mitteleuropa
Buchstaben als Vertreter von ganzen und gebrochenen Zahlen und rechnete mit
der Null, mit negativen und irrationalen Zahlen wie mit den bis dahin gebräuch-
lichen positiven rationalen Zahlen.

Die Fibonacci-Folge besitzt zahlreiche Anwendungen und zusammen mit ihren


Verallgemeinerungen soviele Eigenschaften, dass eine eigene Zeitschrift “Fibo-
nacci Quarterly” gegründet wurde. Hier können nur einige Anwendungsbeispiele
erwähnt werden:

In der Biologie kann man Pflanzen mit spiraliger Blattstellung nach dem Winkel
α
ordnen, den zwei aufeinanderfolgende Blattstände bilden: Setzt man q = 360 , so
ist zum Beispiel q = 25 bei Apfel und Eiche, q = 38 beim Birnbaum, q = 13
5
bei der
Weide, und auch q = 12 , q = 13 und q = 21
8
kommen vor. Alle diese Quotienten
haben die Form q = ffn .
n+2

In der Architektur und in der Kunst (vor allem der alten Griechen) sind die

Brüche ffn Näherungen für die Maßzahl x = 21 ( 5 − 1) ≈ 0, 618 des längeren
n+1

Stücks bei der Teilung der Einheitsstrecke nach dem goldenen Schnitt (1 − x) :

x=x:1 .
f 1 √
In der numerischen Mathematik ist lim n+1 f
= 2
(1 + 5) ≈ 1, 618 die “Kon-
n→∞ n
f
vergenzordnung” der “Regula falsi”, und in der Zahlentheorie ist fn+2 der n -te
√ n+1
Näherungsbruch der “Kettenbruchentwicklung” von 12 (1 + 5).

Die rekursive Definition der Fibonacci-Folge hat den Nachteil, dass wir die Ab-
hängigkeit der Folgenglieder von n und insbesondere das Wachstumsverhalten
nicht erkennen können. Wir wollen deshalb eine typische Methode der Linearen
Algebra anwenden, um eine günstigere Darstellung der Folgenglieder zu finden.
Dieselbe Methode führt auch bei sehr vielen rekursiv definierten Folgen der Form
116 Die Fibonacci-Folge 2.2.5

k−1
X
yn+k : = ai yn+i , k ∈ N1 , ai ∈ R,
i=0

zum Erfolg. Solche Gleichungen heißen “homogene lineare Differenzengleichungen


mit konstanten Koeffizienten”.

Wir zeigen, dass die Folgenmenge D : = {(an )n∈N1 | an ∈ R, an+2 = an+1 +


an für alle n ∈ N1 } ein zweidimensionaler Untervektorraum des Folgenraums F
ist und berechnen eine geeignete Basis. Vollständige Induktion ergibt, dass jede
Folge aus D eindeutig durch die Werte von a1 und a2 bestimmt ist. Bezeichnen
wir mit f (a, b) diejenige Folge aus D, für die a1 = a, a2 = b gilt, so erhalten wir
ebenfalls mit vollständiger Induktion
f (a, b) + f (a0 , b0 ) = f (a + a0 , b + b0 ),
cf (a, b) = f (ac, bc) für alle a, b, a0 , b0 , c ∈ R.
Damit ist D ein Untervektorraum von F. Die beiden Folgen f (1, 0) und f (0, 1)
bilden wegen f (a, b) = a f (1, 0)+b f (0, 1) für alle a, b ∈ R ein Erzeugendensystem
von D. Außerdem sind sie linear unabhängig, denn aus c1 f (1, 0) + c2 f (0, 1) =
f (c1 , c2 ) = f (0, 0) folgt c1 = c2 = 0. Also ist dimR D = 2. Aber {f (1, 0), f (0, 1)}
ist leider keine geeignete Basis zur Darstellung der Fibonacci-Folge f (1, 1), weil
sich beide Folgen nur durch die Anfangsglieder von f (1, 1) unterscheiden.
f
Schon die Werte der ersten acht Quotienten n+1 fn
legen die Vermutung nahe, dass
f (1, 1) näherungsweise wie eine geometrische Folge (cd n )n∈N1 wächst. Wir stellen
deshalb zunächst fest, ob D \ {f (0, 0)} geometrische Folgen enthält. Für d 6= 0
ist d n+2 = d n+1 + d n für alle n ∈ N1 äquivalent zu d 2 = d + 1, weil wir durch d n
dividieren können. Diese Gleichung besitzt die Lösungen
√ √
d1 = 21 (1 + 5) und d2 = 12 (1 − 5).

Die beiden Folgen (din )n∈N1 , i = 1, 2, liegen also in D. Sie sind linear unabhängig,
denn aus c1 f (d1 , d12 ) + c2 f (d2 , d22 ) = f (0, 0) folgt wegen di2 = di + 1, i = 1, 2, und

d1 − d2 = 5, dass c1 = c2 = 0 ist. Aufgrund des Basissatzes (Seite 113) bilden
sie also eine Basis von D. Die Koeffizienten der Linearkombination von f (1, 1)
bezüglich dieser Basis bestimmen wir aus f1 = 1 = a d1 +b d2 , f2 = 1 = a d12 +b d22
zu a = −b = √1 . Damit gilt
5
√ √
1 n 1 + 5 n  1 − 5 n o
fn = √ − für alle n ∈ N1 .
5 2 2
2.3 Die vier fundamentalen Untervektorräume 117


Wegen d2n < 12 5 für alle n ∈ N1 folgt schließlich

h 1  1 + √5 n 1 i
(2.6) fn = √ + für alle n ∈ N1 ,
5 2 2
wobei [x] die größte ganze Zahl ≤ x bezeichnet. x + 21 ist dann die nächste
 

ganze Zahl bei x.

2.3 Die vier fundamentalen Untervektorräume

In diesem Abschnitt sei A = (~a1 . . . ~an ) ∈ Km × n eine beliebige m × n -Matrix


mit Elementen aus einem Körper K, und A = GS sei aufgrund des Zerlegungs-
satzes (Seite 59) eine Produktdarstellung von A mit einer invertierbaren m × m -
Matrix G (= P −1 U ) und einer m × n - Stufenmatrix S mit der Stufenzahl r.
Wir wollen nun die im letzten Abschnitt eingeführten Begriffe verwenden, um
Lösbarkeitskriterien für lineare Gleichungssysteme A~x = ~b zu entwickeln sowie
die Lösungsmengen zu beschreiben. Gleichzeitig werden wir dabei verschiedene
Methoden zur Konstruktion von Basen kennenlernen.

2.3.1 Einführung der Untervektorräume zur Matrix A

In den Beispielen 2.1.7.4 und 2.2.1.2 haben wir schon den Spaltenraum von A

S(A) : = {~y ∈ Km × 1 | Es gibt ~x ∈ Kn × 1 mit A~x = ~y }


und in Beispiel 2.1.7.3 den Nullraum von A

N(A) : = {~x ∈ Kn × 1 | A~x = ~0}


eingeführt. Als mindestens ebenso grundlegend werden sich die beiden Untervek-
torräume erweisen, die wir zu der transponierten Matrix tA erhalten. Es ist der
Untervektorraum
Z(A) : = S(tA) ⊆ Kn × 1 ,
der Zeilenraum von A heißt, weil die Spaltenvektoren von tA die Zeilenvekto-
ren von A sind, sowie der Untervektorraum N(tA), der Linksnullraum von A
genannt wird, weil tA~y = ~0 gleichbedeutend ist mit t~y A = t~0, sodass

L(A) : = N(tA) = {~y ∈ Km × 1 | t~y A = t~0 ∈ K1 × n }


gesetzt werden kann.
118 Der Zeilenraum Z(A) 2.3.2

Diese Darstellungen sind zugleich typisch für die meisten Untervektorräume. Ent-
weder ist ein Untervektorraum die lineare Hülle von gegebenen Vektoren - wie
im ersten und dritten Fall, oder er wird wie im zweiten und vierten Fall durch
einschränkende Bedingungen - zum Beispiel lineare Gleichungen - definiert. In
allen Fällen geht es darum, überflüssige Vektoren beziehungsweise Bedingungen
(Gleichungen) zu eliminieren, also geeignete Basen zu konstruieren. Wir beginnen
mit dem Zeilenraum von A, weil wir für ihn am leichtesten eine Basis angeben
können.

2.3.2 Der Zeilenraum Z(A)

Wir zeigen zunächst, dass Z(A) = Z(S) gilt. Wegen A = GS und S = FA mit
F = G−1 ∈ Km × m ist
t
(2.7) A = tS tG und tS = tAtF.
Setzen wir
t
(2.8) F = : (~x1 . . . ~xm ) und tG = (~y1 . . . ~ym ),
so gilt wegen (1.22)
t
A = tS~y1 . . . tS~ym und tS = tA~x1 . . . tA~xm .
 
(2.9)
Jeder Spaltenvektor von tA ist also eine Linearkombination der Spaltenvektoren
von tS, das heißt, jeder Spaltenvektor von tA liegt in S(tS), und umgekehrt gehört
jeder Spaltenvektor von tS zu S(tA). Aufgrund des Satzes über die Gleichheit von
linearen Hüllen (Seite 102) gilt damit S(tA) = S(tS), also
(2.10) Z(A) = Z(S).

Da S eine Stufenmatrix mit der Stufenzahl r ist, sind genau die ersten r Spal-
tenvektoren der Matrix tS von ~0 verschieden. Setzen wir
(2.11) S = : (~z1 . . . ~zm ) = (~z1 . . . ~zr ~0 . . . ~0),
t

so ist also Lin{~z1 , . . . , ~zr } = S(tS).

Außerdem sind ~z1 , . . . ~zr linear unabhängig, denn aus c1~z1 + · · · + cr ~zr = ~0
folgt für die ki -ten Komponenten, i = 1, . . . , r, wobei ki die Spaltenindizes der
Eckkoeffizienten siki von S sind:
c1 s1k1 =0
.. .. ..
. . .
c1 s1kr + · · · + cr srkr = 0 .
2.3.3 Anwendungen des Zeilenraums 119

Da die Eckkoeffizienten von Null verschieden sind, ergibt sich durch Vorwärts-
einsetzen nacheinander c1 = 0, . . . , cr = 0.

Damit ist {~z1 , . . . , ~zr } eine Basis von S(tS), und wegen S(tS) = Z(S) = Z(A)
erhalten wir:

Satz über Basis und Dimension des Zeilenraums


Ist S eine Stufenmatrix zu A mit der Stufenzahl r, so bilden die ersten r
Spaltenvektoren von tS eine Basis von Z(A). Damit gilt
(2.12) dim Z(A) = r.

Die Stufenzahl r von S ist also nur von A (und nicht von G = P −1 U oder S)
abhängig.

Definition des Ranges einer Matrix


Die nur von A abhängige Stufenzahl r von S, die zugleich die Dimension von
Z(A) ist, heißt Rang von A. Sie wird mit Rang A bezeichnet.

Um Matrizen, deren Rang bekannt oder eindeutig bestimmt ist, einfach kenn-
zeichnen zu können, verwenden wir die Abkürzung
×n
Km
r : = {A ∈ Km × n | Rang A = r},
die allerdings im Falle r > 0 nur eine Teilmenge und nicht einen Untervektorraum
von Km × n beschreibt.

2.3.3 Anwendung des Zeilenraums

Die wichtigste Anwendung von Z(A) ist die Berechnung einer Basis zu der linea-
ren Hülle von endlich vielen Vektoren aus Km × 1 oder K1 × n . In beiden Fällen
bilden wir die Matrix A, deren Zeilen aus den Komponenten der gegebenen Spal-
tenvektoren beziehungsweise Zeilenvektoren bestehen, bringen A durch elemen-
tare Zeilenumformungen auf die Stufenform S mit dem Rang r und erhalten als
Basis die ersten r Spaltenvektoren von tS beziehungsweise die ersten r Zeilenvek-
toren von S.
120 Zeilenräume 2.3.4

2.3.4 Beispiel zur Berechnung der Basis eines Zeilen-


raums

Gegeben seien die Spaltenvektoren


~a1 = t(1 3 3 2), ~a2 = t(2 6 9 5) und ~a3 = t(−1 −3 3 0).
Dann ist
    
1 3 3 2 1 0 0 1 3 3 2
A =  2 6 9 5  =  2 1 0   0 0 3 1  = GS.
−1 −3 3 0 −1 2 1 0 0 0 0
Damit bilden ~z1 = t(1 3 3 2) und ~z2 = t(0 0 3 1) eine Basis von Lin{~a1 , ~a2 , ~a3 }.
Ebenso ist {t~z1 , t~z2 } eine Basis von Lin {t~a1 , t~a2 , t~a3 }.

Übung 2.3.a
Es sei U : = Lin {(1 −2 5 −3), (2 3 1 −4), (3 8 −3 −5)} ⊆ R1 × 4 .
Berechnen Sie dimR U.
Übung 2.3.b
     
1 −5 1 1 2 −4
⊆ R2 × 2 . Bestim-

Es sei W : = Lin , ,
−4 2 −1 5 −5 7
men Sie eine Basis von W.
Eine weitere wichtige Anwendung besteht darin, dass wir sehr viel einfacher als
mit dem Satz über die Gleichheit von linearen Hüllen (Seite 102) die Gleichheit
von Zeilenräumen (und damit auch von Spaltenräumen) feststellen können. Dazu
führen wir den folgenden Begriff ein:

Definition der Reduzierten


Ist A ∈ Krm × n \ {(0)} und stellt S eine Stufenmatrix zu A dar, so bezeichnen
wir als reduzierte Stufenmatrix von A oder kurz Reduzierte von A diejenige
r × n -Stufenmatrix S̃, die aus S durch Weglassen der Nullzeilen und durch
folgende elementare Zeilenumformungen mit der r -ten Zeile für i = r, . . . , 1
entsteht:
i) Normierung des r -ten Eckkoeffizienten, das heißt, Division der i -ten Zeile
durch siki , und jeweils direkt anschließend
ii) Rückwärtselimination in der ki -ten Spalte, sodass auch oberhalb der Eck-
koeffizienten nur Nullen stehen.9
2.3.4 Zeilenräume 121

Ist A = (0) ∈ Km × n , so betrachten wir die leere Matrix S̃ ∈ K0 × m als


reduzierte Stufenmatrix zu A.
Die Matrix 
  S̃, wenn r = m ist,
S̃˜ : = S̃
∈ Km × n , wenn r < m gilt,
0

nennen wir Reduzierte (von A) ohne Nullzeilenstreichung.

Zu der Matrix A in unserem obigen Beispiel gehört also die Reduzierte


 
1 3 0 1
S̃ = .
0 0 1 31

Satz über die Gleichheit von Zeilenräumen


Ist A ∈ Km × n , A1 ∈ Kp × n und sind S̃ beziehungsweise S̃1 reduzierte Stufen-
matrizen zu A beziehungsweise A1 , so gilt Z(A) = Z(A1 ) genau dann, wenn
S̃ = S̃1 ist. Insbesondere hängt die reduzierte Stufenmatrix S̃ zu A nur von
A und nicht von G = P −1 U oder S ab.

Beweis (h2):

i) Der Zeilenraum von A ist genau dann der Nullvektorraum, wenn A eine Null-
matrix darstellt, und S̃ ist definitionsgemäß genau dann die leere Matrix, wenn
A = (0) gilt. Also ist die Aussage des Satzes für r = 0 richtig.

ii) Es sei nun A ∈ Km × n \ {(0)} und S̃ sei eine reduzierte r × n - Stufenmatrix zu


A. Da S̃˜ aus A durch elementare Zeilenumformungen entsteht, gibt es eine m×m -
Matrix H, die als Produkt von Elementarmatrizen invertierbar ist, sodass A =
H S̃˜ gilt. Analog wie im Unterabschnitt 2.3.2 folgt damit Z(A) = Z(S̃)
˜ = Z(S̃).
Insbesondere ist Z(A) = Z(A1 ), wenn die zugehörigen reduzierten Stufenmatrizen
S̃ und S̃1 gleich sind.

iii) Wir müssen also noch zeigen, dass für reduzierte Stufenmatrizen S̃ und S̃1
aus Z(S̃) = Z(S̃1 ) stets S̃ = S̃1 folgt.

1. Schritt (Gleichheit der Ränge): Da die Spaltenvektoren von tS̃ und tS̃1 Basen
desselben Untervektorraums Z(S̃) bilden, haben S̃ und S̃1 aufgrund des Satzes

9
S̃ heißt auch Gauß-Jordan-Normalform von A.
122 Zeilenräume 2.3.4

über die Elementanzahl von Basen (Seite 112) dieselbe Zeilenzahl r und damit
gleichen Rang.

2. Schritt (Eigenschaften der “Kombinationsmatrizen”): Aufgrund des Satzes


über die Gleichheit von linearen Hüllen (Seite 102) ist jeder Spaltenvektor von tS̃
eine Linearkombination der Spaltenvektoren von tS̃1 und umgekehrt. Es gibt also
Matrizen C, C1 ∈ Kr × r , sodass
t
(2.13) S̃1 = tS̃ tC, tS̃ = tS̃1 tC1 beziehungsweise S̃ = C1 S̃1 , S̃1 = C S̃
gilt. Setzen wir wechselseitig ein, so erhalten wir tS̃1 = tS̃1 (tC1 tC) und tS̃ =
t t t
S̃( C C1 ). Wegen der linearen Unabhängigkeit der Spaltenvektoren von tS̃ und
t
S̃1 ergibt der Satz über eindeutige Linearkombinationen (Seite 108)
t
C1 tC = Er , tC tC1 = Er ,
das heißt, C und C1 sind invertierbar.

Schreiben wir nun S̃ = : (~s1 . . . ~sn ), S̃1 = : (~s10 . . . ~sn0 ) und bezeichnen die
Spaltenindizes der jeweiligen Eckkoeffizienten mit ki beziehungsweise ki0 , i =
1, . . . , r, so ist einerseits
~sk1 . . . ~skr = ~s k0 10 . . . ~s k0 r0 = Er
 

und andererseits wegen (1.22) und (2.13)


C = CEr = C~sk1 . . . C~skr = ~s k0 1 . . . ~s k0 r ,
 

C1 = C1 Er = C1~s k0 10 . . . C1~s k0 r0 = ~sk10 . . . ~skr0 .


 

3. Schritt (Position der ersten Eckkoeffizienten): Durch einen indirekten Schluss


erkennen wir, dass k1 = k10 gelten muss; denn wäre k1 < k10 oder k1 > k10 , so
würde ~s k0 = ~0 beziehungsweise ~sk0 = ~0 folgen, da in S̃1 vor ~s 00 und in S̃ vor
1 1 k1
~sk1 nur Nullvektoren stehen. In den invertierbaren Matrizen C und C1 können
aber keine Nullspalten vorkommen, da die Spaltenvektoren einer invertierbaren
Matrix linear unabhängig sind. Damit ist

(2.14) k1 = k10 und ~s k0 1 = ~sk10 = ~e1 .

4. Schritt (Position aller Eckkoeffizienten): Wir zeigen nun mit vollständiger


Induktion über r, dass ki = ki0 für i = 1, ..., r gilt. Daraus folgt C = C1 = Er ,
sodass der Satz dann bewiesen ist. Der Induktionsanfang r = 1 ist in (2.14)
enthalten, und die Induktionsannahme besagt, dass für reduzierte Stufenmatrizen
2.3.5 Beispiel für Gleichheit von Zeilenräumen 123

S̃ ∗ , S̃1∗ mit dem Rang r − 1 (r ≥ 2) und mit Z S̃ ∗ = Z S̃1∗ die Spaltenindizes


 

der jeweiligen Eckkoeffizienten übereinstimmen.


Streichen wir in S̃ und S̃1 die erste Zeile, so erhalten wir reduzierte Stufenmatrizen
S̃ ∗ und S̃1∗ mit dem Rang r − 1. Wir brauchen also nur noch zu beweisen, dass
Z S̃ ∗ = Z S̃1∗ gilt. Schreiben wir tS̃ = : (~t1 . . . ~tr ) und tS̃1 = : (~t10 . . . ~tr0 ), so
 

folgen aus (2.13) mit tC = : (cik ) und tC1 = : (c0ik ) die Linearkombinationen
Xr Xr
0
~tj = cjk~tk und ~ti = cik0 ~tk0 für i, j ∈ Ir .
k=1 k=1
Wegen (2.14) gilt
r
X
0 = t~ek1~tj0 = cjk t~ek1~tk = cj1 für j = 2, . . . , r und

k=1
r
X
0 = t~ek1~ti = c0ik t~ek1~tk0 = c0i1 für i = 2, . . . , r;

k=1

das heißt, alle Spaltenvektoren von tS̃1∗ sind Linearkombinationen der Spalten-
vektoren von tS̃ ∗ und umgekehrt. Also ist wieder aufgrund des Satzes über die
Gleichheit von linearen Hüllen (Seite 102) Z S̃ ∗ = Z S̃1∗ , sodass nach Indukti-
 

onsannahme ki = ki0 für i = 2, . . . , r gilt.


Da wir nun wissen, dass S̃ eindeutig durch A bestimmt ist, setzen wir in Zukunft
r ˜
A : = S̃ und 0rA : = S̃.

2.3.5 Beispiel für Gleichheit von Zeilenräumen


 
    1 −1 −1
1 1 5 1 −1 −2
Es sei A = , B = , C =  4 −3 −1  . Wir wollen
2 3 13 3 −2 −3
3 −1 3
feststellen, welche der Zeilenräume Z(A), Z(B), Z(C) gleich sind. Durch elemen-
tare Zeilenumformungen erhalten wir die folgenden reduzierten Stufenmatrizen:
       
1 1 5 1 0 2 1 −1 −2 1 0 1
A→ → , B→ → ,
0 1 3 0 1 3 0 1 3 0 1 3
   
1 −1 −1 1 −1 −1  
1 0 2
C→ 0 1 3
  → 0 1 3
  → .
0 1 3
0 2 6 0 0 0
Also stimmen nur die Zeilenräume von A und C überein.
124 Der Spaltenraum S(A) 2.3.6

Übung 2.3.c
   
1 3 5 1 2 3
Untersuchen Sie, ob die Matrizen  1 4 3  und  −2 −3 −4  densel-
1 1 9 7 12 17
ben Spaltenraum haben.

2.3.6 Der Spaltenraum S(A)


   
1 3 3 2 1 3 3 2
Unser Zeilenraumbeispiel mit A =  2 6 9 5  und S =  0 0 3 1  zeigt,
−1 −3 3 0 0 0 0 0
dass die Spaltenräume S(A) und S(S) nicht immer gleich sind; denn bei allen
Vektoren aus S(S) ist die dritte Komponente 0. Der folgende Zusammenhang
lässt erkennen, dass es auch hier sinnvoll ist, eine Basis von S(S) zu bestimmen,
weil wir mit ihrer Hilfe sofort eine Basis für S(A) angeben können.

i) Wegen A = GS mit A = : (~a1 . . . ~an ) und S = : (~s1 . . . ~sn ) ist ~ai = G~si
und ~si = G−1~ai , i = 1, . . . , n. Bezeichnen wir mit I ⊆ {1, . . . , n} eine beliebige
nichtleere Indexmenge und besteht zwischen ~a ∈ S(A) und ~s ∈ S(S) der Zusam-
menhang ~a = G~s beziehungsweise ~s = G−1~a, so ist
P
ci~ai = ~a genau dann erfüllt,
i∈I
P
wenn ci~si = ~s gilt. Also ist {~ai | i ∈ I} genau dann eine linear unabhängige
i∈I
Teilmenge beziehungsweise ein Erzeugendensystem von S(A) wenn {~si | i ∈ I}
eine linear unabhängige Teilmenge beziehungsweise ein Erzeugendensystem von
S(S) darstellt.

ii) Ist Jb : = {k1 , . . . , kr } die Menge der Spaltenindizes der Eckkoeffizienten von S,
so erkennen wir wie im Beweis des Satzes über die Maximalzahl linear unabhängi-
ger Vektoren (Seite 106), dass B : = {~si | i ∈ Jb } eine Basis von S(S) darstellt:

Da die ersten r Zeilen der Matrix ~sk1 . . . ~skr eine obere Dreiecksmatrix bilden
(während die übrigen Zeilen nur Nullen enthalten), ist das Gleichungssystem
X
(2.15) ~si xi = −~v
i∈Jb

für jedes ~v ∈ S(S) eindeutig durch Rückwärtseinsetzen lösbar. Für ~v = ~0 folgt


daraus sofort, dass B linear unabhängig ist. Außerdem erhalten wir unmittelbar
S ⊆ Lin B. Da B ⊆ S(S) ohnehin gilt, ergibt der Satz über die lineare Hülle (Seite
101) Lin B = S(S).
2.3.6 Der Spaltenraum S(A) 125

Zusammen mit den Überlegungen unter i) haben wir also

Satz über Basis und Dimension des Spaltenraums


Es sei A = (~a1 . . . ~an ) ∈ Km × n . Sind k1 , . . . , kr die Spaltenindizes der

Eckkoeffizienten einer Stufenmatrix S zu A und wird wA : = ~ak1 . . . ~akr
gesetzt, so bilden die Spaltenvektoren von wA eine Basis von S(A), und es
gilt
(2.16) dim S(A) = r = dim Z(A) beziehungsweise
(2.17) Rang tA = Rang S = Rang A.

Da sich die Positionen der Spaltenindizes k1 , . . . , kr beim Übergang von S zu rA


nicht ändern, hängen diese Indizes wie rA nur von A ab. Sie heißen Basisindizes
und die zugehörigen Variablen Basisvariablen. Die Indizes aus Jf : = In \ Jb
werden freie Indizes genannt, weil die zugehörigen freien Variablen bei der Dar-
stellung der Vektoren aus N(A) gemäß 1.3.4 iii) beliebig gewählt werden können.
Mit den Basisindizes ist auch die Matrix wA, die wir Wahlbasismatrix von A nen-
nen, eindeutig durch A festgelegt. Sie entsteht aus A durch Multiplikation von
rechts mit der Untereinheitsmatrix (von A) uA : = ~ek1 . . . ~ekr ∈ Kn × r , die mit

tr
A in den Eckkoeffizienten übereinstimmt und die sonst nur Nullen enthält.

Mehrere wichtige Anwendungen dieser Matrizenzuordnungen beruhen auf dem


folgenden Satz, der unter anderem eine explizite Darstellung der Matrix H aus
dem Beweis des Satzes über die Gleichheit von Zeilenräumen (Seite 121) ergibt.

Reduziertensatz
×n
Ist A ∈ Km r mit r < m und wird L : = (~er+1 . . . ~em ) ∈ Km × (m−r) gesetzt,
so gilt
.
(2.18) A = (wA .. P −1 L) 0rA
.
mit (wA .. P −1 L) ∈ GL(m; K), wobei P die im Zerlegungssatz (Seite 59) be-
stimmte Matrix darstellt. Für jedes A ∈ Km × n \ {(0)} ergibt sich
(2.19) A = wA rA.
126 Der Spaltenraum S(A) 2.3.6

Beweis (a1):

In dem Zerlegungssatz (Seite 59) haben wir Matrizen P, U und S gewonnen, mit
denen A in der Form A = P −1 U S dargestellt werden kann. Die elementaren
Zeilenumformungen, die S in 0rA überführen, lassen sich explizit durch Elemen-
tarmatrizen beschreiben. Da es jetzt nicht auf die Reihenfolge ankommt, nor-
mieren wir zunächst alle Eckkoeffizienten. Dadurch ergibt sich als Faktor eine

Diagonalmatrix der Form D : = s1k1 ~e1 . . . srkr ~er L , wobei s1k1 , . . . , srkr die
Eckkoeffizienten von S sind. Als Produkt von Elementarmatrizen des Typs I ist
D invertierbar. Durch Invertieren des Produkts der Elementarmatrizen, die die
Rückwärtselimination wiedergeben, entsteht eine obere Dreiecksmatrix
−1 −1 −1 −1 −1
O = Er−1,r (λr−1,r ) · · · Eir (λir ) · · · · · · E23 (λ23 )E13 (λ13 )E12 (λ12 )
sik
mit λij : = − j .
siki

Da kein Zweitindex weiter rechts als Erstindex auftritt, erhalten wir durch An-
wendung des Satzes über Produktauflösung (Seite 47)
j−1
r X
X sikj
O = Em + ~ei t~ej .
j=2 i=1
siki
r j−1
sikj ~ei t~ej . Die ersten r Spalten von DO stimmen also
P P
Damit folgt DO = D +
j=2 i=1
mit denjenigen Spalten von S überein, die zu den entsprechenden Eckkoeffizienten
gehören und die deshalb durch S uA zusammengefasst werden können. Da auf die
Nullzeilen von S keine Zeilenoperationen anzuwenden sind, bleiben die letzten
m − r Spalten von Em in DO erhalten.
.
Nach (1.22) ist (P −1 U )(DO) = (P −1 U S uA .. P −1 U L). Wegen P −1 U S = A ergibt
die erste Matrix AuA = wA. Aus der expliziten Angabe von U in dem Satz über
die US-Zerlegung ohne Vertauschungen (Seite 51) und im Zerlegungssatz (Seite
59) folgt, dass auch die letzten m − r Spalten von U und Em gleich sind, so dass
U L = L gilt.
.
Da in dem Produkt A = (P −1 UDO) 0rA = (w A .. P −1 L) 0rA die Elemente von
P −1 L mit den Elementen der Nullzeilen von 0rA zu multiplizieren sind, folgt für
0 < r < m Gleichung (2.19) unmittelbar aus (2.18). Im Falle 0 < r = m ergibt
sich (2.19) wie oben ohne die Matrizen L beziehungsweise P −1 L.
2.3.6 Der Spaltenraum S(A) 127

Die Matrix P −1 L, die aus den letzten m − r Spalten von P −1 besteht, lässt sich
einfach berechnen, indem die Zeilenvertauschungen, die während des Eliminati-
onsverfahrens auftreten, in umgekehrter Reihenfolge auf L angewendet werden.
Die Matrizen 0rA, rA und wA sind stets eindeutig durch A bestimmt, der Faktor
.
P −1 UDO = (wA .. P −1 L) und auch die einzelnen Matrizen P, U, D und O dagegen
im Allgemeinen nicht.

Mit Hilfe des Spaltenraums eines Matrizenprodukts erhalten wir auch eine Ver-
gleichsmöglichkeit für die Ränge der entsprechenden Matrizen. Ist A ∈ Km × n
und B ∈ Kn × p , so gilt nämlich S(AB) ⊆ S(A), denn aus ~y = AB~x folgt ~y = A~z
mit ~z : = B~x. Daraus ergibt sich außerdem Z(AB) = S(tB tA) ⊆ S(tB) = Z(B).
Da die Dimension eines Untervektorraums nicht größer sein kann als die Dimen-
sion eines umfassenden Vektorraums, haben wir den folgenden nützlichen Satz
gewonnen:

Rangvergleichssatz
Sind A und B Matrizen, für die AB erklärt ist, so gilt Rang AB ≤
min {Rang A, Rang B}.10

Aufgrund der in 2.3.6 dargestellten Zusammenhänge zwischen {~ai | i ∈ I} und


{~si | i ∈ I}} wird der Spaltenraum anstelle des Zeilenraums verwendet, wenn es
darauf ankommt, aus einer gegebenen Menge von Vektoren {~a1 , . . . , ~an } ⊂ Km × 1
eine linear unabhängige Teilmenge auszuwählen oder eine gegebene Menge von li-
near unabhängigen Vektoren zu einer Basis des (Unter-)Vektorraums zu ergänzen.
Da {~ai | i ∈ Jb } aufgrund des Satzes über Basis und Dimension des Spaltenraums
(Seite 125) eine maximale linear unabhängige Teilmenge von {~a1 , . . . , ~an } ist,
genügt es, den zweiten Anwendungsfall festzuhalten und ein Beispiel dafür zu
betrachten.

Basisergänzungssatz
Sind die Vektoren ~a1 , . . . , ~ak ∈ Km × 1 mit k < m linear unabhängig und
stellt {~b1 , . . . , ~bm } eine Basis von Km × 1 dar, so bilden die Spaltenvektoren
von w(~a1 . . . ~ak ~b1 . . . ~bm ) eine Basis von Km × 1 , die ~a1 , . . . , ~ak enthält.

10
Ist M eine endliche Teilmenge von R, so bezeichnet min M das kleinste Element (Mini-
mum) und max M das größte Element (Maximum) von M.
128 Der Linksnullraum L(A) und der Nullraum N(A) 2.3.8

2.3.7 Beispiel zum Basisergänzungssatz

Gegeben sind die linear unabhängigen Vektoren ~a1 = t(−1 0 0 1) und ~a2 =
t
(−3 2 0 1) sowie die Vektoren ~b1 = t(0 2 0 −2), ~b2 = t(2 0 0 0), ~b3 = t(−1 1 0 0)
und ~b4 = t(0 1 1 1).

Wir wollen versuchen, die Vektoren ~a1 , ~a2 durch Vektoren aus {~b1 , ~b2 , ~b3 , ~b4 }
zu einer Basis von R4 × 1 zu ergänzen. Dazu überführen wir die Matrix A =
(~a1 ~a2 ~b1 ~b2 ~b3 ~b4 ) durch elementare Zeilenumformungen (mit Vertauschung der
3. und 4. Zeile) in die Stufenmatrix
 
−1 −3 0 2 −1 0
 0 2 2 0 1 1
S=  0
.
0 0 2 0 2
0 0 0 0 0 1
Da die ersten beiden Spaltenvektoren von A und damit auch von S linear un-
abhängig sind, gilt k1 = 1, k2 = 2. In unserem Fall sind k3 = 4 und k4 = 6 die
weiteren Basisindizes. Wegen dim R4 × 1 = 4 ist also {~a1 , ~a2 , ~b2 , ~b4 } eine Basis von
R4 × 1 .

Sind nur die Vektoren ~a1 , ~a2 gegeben, so wählt man zur Ergänzung Vektoren
einer bekannten Basis des R4 × 1 , zum Beispiel {~e1 , ~e2 , ~e3 , ~e4 }.

2.3.8 Der Linksnullraum L(A) und der Nullraum N(A)

Für den Linksnullraum von A können wir ähnlich einfach wie für den Zeilenraum
Z(A) eine Basis bestimmen. Natürlich gewinnen wir dann durch Transponieren
der Matrix A auch eine Basis des Nullraums N(A). Der übliche Weg verläuft
umgekehrt: Mit Hilfe des in 1.3.4 iii) beschriebenen Ansatzes wird eine Basis von
N(A) und - wenn der Linksnullraum überhaupt eingeführt ist - auch von L(A)
angegeben beziehungsweise der jeweilige Nullraum in Parameterform dargestellt.
Da das herkömmliche Verfahren ziemlich kompliziert ist, behandeln wir zuerst
die neue, übersichtlichere Methode.

Wir verwenden dieselben Bezeichnungen wie in 2.3.2: (2.7) tS = tAtF, (2.8)


t
F = : (~x1 . . . ~xm ) und (2.11) tS = : (~z1 . . . ~zm ) = (~z1 . . . ~zr ~0 . . . ~0). Nach
(2.9) gilt dann tS = tA~x1 . . . tA~xm = (~z1 . . . ~zr ~0 . . . ~0), also tA~xi = ~0 für

2.3.8 Der Linksnullraum L(A) und der Nullraum N(A) 129

i = r + 1, . . . , m, falls r < m ist. Wir zeigen, dass B : = {~xr+1 , . . . , ~xm } im Falle


r < m beziehungsweise B : = ∅ im Falle r = m eine Basis von L(A) darstellt.

Als Spaltenvektoren der invertierbaren Matrix tF sind die Vektoren ~x1 , . . . , ~xm
linear unabhängig, denn aus tF~c = ~0 folgt direkt ~c = (tF )−1~0 = ~0. Damit ist
einerseits {~xr+1 , . . . , ~xm } (beziehungsweise ∅) linear unabhängig, und andererseits
gilt Lin {~x1 , . . . , ~xm } = Km × 1 aufgrund des Basissatzes (Seite 113).

Ist nun ~x ∈ L(A), so besitzt ~x als Element von Km × 1 eine Darstellung ~x =


c1~x1 + · · · + cm~xm , und es folgt ~0 = tA~x = c1~z1 + · · · + cm~zm = c1~z1 + · · · + cr ~zr .
Da {~z1 , . . . , ~zr } als Basis von Z(A) linear unabhängig ist, muss c1 = . . . = cr = 0
gelten. Damit erhalten wir ~x = cr+1~xr+1 + · · · + cm~xm ∈ Lin B, falls r < m ist,
beziehungsweise ~x = ~0 ∈ Lin ∅ für r = m. Also gilt L(A) ⊆ Lin B. Da wir oben
bereits B ⊆ L(A) bewiesen haben, ergibt der Satz über die Gleichheit von linearen
Hüllen (Seite 102) Lin B = L(A), das heißt, B ist eine Basis von L(A).

Zur Berechnung der Basis von L(A) müssen wir die Matrix F bestimmen. Ähnlich
wie bei dem Inversen-Algorithmus 1.5.9 von Gauß und Jordan gilt hier

F (A Em ) = (FA FEm ) = (S F ).

Wir brauchen also nur die Zeilenumformungen, die die Matrix A in die Stufenma-
trix S überführen, gleichzeitig auf die Zeilen der Einheitsmatrix Em anzuwenden.
Dabei wird dann Em in F beziehungsweise (A Em ) in (S F ) überführt.

Dieses wichtige Ergebnis halten wir in dem folgenden Satz fest:

Satz über Basis und Dimension des Linksnullraums


×n
Ist A ∈ Km
r mit r < m und wird
(m−r) × m
v
A : = t(~er+1 . . . ~em )U −1 P ∈ Km−r
gesetzt, wobei U und P die Matrizen aus dem Zerlegungssatz (Seite 59) sind,
so bilden die Spaltenvektoren von tvA eine Basis von L(A). Für r = m ist
L(A) ein Nullvektorraum. Damit gilt stets
(2.20) dim L(A) = m − r.
Die Matrix U −1 P entsteht aus Em durch simultane Anwendung der Zeilen-
umformungen, die A in die Stufenmatrix U −1 P A überführen.
130 Der Linksnullraum L(A) und der Nullraum N(A) 2.3.8

Damit die Matrix vA ebenfalls eindeutig durch A festgelegt ist, denken wir uns die
elementaren Zeilenumformungen algorithmisch mit minimalen Zeilenindizes und
mit frühestmöglichem Abbruch durchgeführt. Dann nennen wir vA Verschwin-
dende von A wegen des Verschwindens für r = m und wegen der aus dem obigen
Satz folgenden Gleichungen
(2.21) AA = (0) ∈ K(m−r) × n und A tvtA = (0) ∈ Km × (n−r) ,
v

wobei sich die zweite Aussage durch Transponieren der ersten mit tA anstelle von
A ergibt.

Wegen r = dim S(tA) erhalten wir aus (2.20) die Gleichung


(2.22) dim S(tA) + dim N(tA) = m.

Da tA eine beliebige n × m -Matrix ist, gilt für die m × n -Matrix A entsprechend


die erste Dimensionsformel
(2.23) dim S(A) + dim N(A) = n.

das heißt, es ist dim N(A) = n − r.

Damit brauchen wir aufgrund des Basissatzes (Seite 113) nur noch eine linear
unabhängige Teilmenge von N(A) mit n − r Elementen zu bestimmen. Wegen
A = GS mit einer invertierbaren m × n -Matrix G gilt A~x = GS~x = ~0 genau
dann, wenn S~x = ~0 ist, das heißt, ähnlich wie bei dem Zeilenraum von A haben
wir hier den einfachen Zusammenhang
(2.24) N(A) = N(S).

Unterscheiden wir wie in 2.3.6 die Menge der Basisindizes Jb = {k1 , . . . , kr } und
die Menge der freien Indizes Jf : = In \ Jb , so erhalten wir als Spezialfall von
(2.15) , dass jedes der Gleichungssysteme
P
(2.25) ~si xik = −~sk mit k ∈ Jf
i∈Jb
durch Rückwärtseinsetzen eindeutig lösbar ist. Wegen
P P
~si xik + ~sk · 1 + ~si · 0 = ~0
i∈Jb i∈Jf \{k}
definieren wir die Vektoren ~bk : = t(b1k . . . bnk ) für k ∈ Jf durch

xjk aus (2.25) für j ∈ Jb ,

(2.26) bjk : = 1 für j = k,

0 für j ∈ Jf \ {k}.

2.3.8 Der Linksnullraum L(A) und der Nullraum N(A) 131
n P
Da S~bk = ~sj bjk = ~0 gilt, ist ~bk ∈ N(S) für jedes k ∈ Jf , und aus ck~bk = ~0
P
j=1 k∈Jf
P
folgt für jedes j ∈ Jf , dass 0 = t~ej~0 = t~ej ck~bk = cj bjj = cj ist. Damit haben
k∈Jf
wir n−r linear unabhängige Vektoren in N(S) gefunden, die zugleich die gesuchte
Basis von N(A) darstellen.

Da die Lösung von (2.25) durch Rückwärtseinsetzen denselben Aufwand erfordert


wie die Rückwärtselimination, können wir bei der algorithmischen Bestimmung
der Basis ohne Nachteil S = 0rA wählen. Die Koeffizientenmatrix auf der linken
 
Er
∈ Km × r . Um die Spaltenvek-

Seite von (2.25) ist dann ~sk1 . . . ~skr =
0
toren der rechten Seite von (2.25) aus 0rA herausziehen zu können, setzen wir
für die freien Indizes Jf = : {k10 . . . kn−r 0
} mit k10 < . . . < kn−r
0
. Die Matrix
×
y
 n (n−r)
A : = ~ek10 . . . ~ekn−r
0 ∈K , die wir wegen der Verbindung zu uA die Übrig-
bleibende von A nennen, fasst dann durch das “Produkt” rA yA ∈ Kn × (n−r) die
“freien” Spaltenvektoren zusammen - ähnlich wie A uA die Wahlbasismatrix wA
ergibt.

Dabei ist zu beachten, dass uA und yA in Produkten nur als Buchhaltungsmatrizen


aufzufassen sind, die nicht wirklich ausmultipliziert werden. Der links stehende
Faktor uA in uA rA yA ∈ Kn × (n−r) fügt in diesem Sinne n − r Nullzeilen so in rA yA
ein, dass die r Zeilen von rA yA an den Positionen k1 , . . . , kr stehen. Dann fehlen
nur noch die 1-Komponenten von (2.25), die sich durch Addition von yA erfassen
lassen. Damit gilt
~bk0 . . . ~bk0
 y
(2.27) 1 n−r
= A − uA rA yA,

und wir haben den folgenden wichtigen Satz:

Nullraumbasissatz
n × (n−r)
Ist A ∈ Krm × n mit r < n und wird zA : = yA − uA rA yA ∈ Kn−r gesetzt,
z
so bilden die Spaltenvektoren von A eine Basis von N(A). Für r = n stellt
N(A) einen Nullvektorraum dar.

Wegen der ungewöhnlichen additiven Struktur nennen wir zA die Zusammenge-


setzte von A. 11
11
Die Algorithmussymbole lassen sich durch das Wort Jury merken.
132 Beispiel zu Nullräumen 2.3.10

Übung 2.3.d
Für ~a ∈ Rn × 1 sei E~a : = {~x ∈ Rn × 1 |t~a ~x = 0}, und es seien ~a1 , . . . , ~ak ∈ Rn × 1
mit k ≤ n. Beweisen Sie die folgenden Aussagen:
i) U : = E~a1 ∩ . . . ∩ E~ak ist ein Untervektorraum von Rn × 1 ;
ii) Die Vektoren ~a1 , . . . , ~ak sind genau dann linear unabhängig, wenn dimR U
= n − k gilt.

Übung 2.3.e
Bestimmen Sie eine Matrix A, für die zA 6= tvtA gilt.
Achtung: Fundgrube! [Bedingungen für Gleichheit, Maximalzahl der von
Null verschiedenen Elemente in den “Kompositionsmatrizen” gemäß (2.13).]

2.3.9 Anwendungen der Nullräume


Da die Nullräume Lösungsmengen der sogenannten homogenen linearen Glei-
chungssysteme sind, bedeutet die Angabe einer Basis für einen Nullraum zugleich
die endgültige Lösung des zugehörigen homogenen Gleichungssystems. Zweifel-
tvt
los ist der Simultan-Algorithmus zur Berechnung von A übersichtlicher als der
herkömmliche Auflösungsalgorithmus für zA. Auch bei der Anzahl der Operatio-
nen (Multiplikationen und Divisionen) ist der neue Algorithmus konkurrenzfähig:
×n
Für eine Matrix A ∈ Kmr mit r > 0 erfordert die Überführung in die Stufenform
r−1
(m − k)(n + 1 − k) = m − 21 r n + 1 − 12 r r + 12 1 3
P  
(höchstens) r Operatio-
k=1

nen, die Rückwärtselimination zur Berechnung von 0rA erfolgt in 12 r(r + 1)(n − r)
r−1
P
Schritten, und die Simultanumformung von En benötigt (n − k)(k − 1) =
k=1
1 2
2
(r − 1)(r − 2)(n − 3
r) Operationen, wobei die Multiplikationen mit 0 und 1
natürlich nicht gezählt werden.

In dem folgenden Beispiel vergleichen wir die beiden hergeleiteten Methoden.

2.3.10 Beispiel zu Nullräumen


Für unsere schon früher verwendete Matrix
 
1 3 3 2
A= 2 6 9 5
−1 −3 3 0
2.3.10 Beispiel zu Nullräumen 133

ergibt der Simultan-Algorithmus


   
1 2 −1|1 0 0 0 1 2 −1| 1 0 0 0
 3 6 −3|0 1 0 0 0 0 0 |−3 1 0 0
(tA E4 ) = 
 3 9 3 |0 0
→ →
1 0 0 3 6 |−3 0 1 0
2 5 0 |0 0 0 1 0 1 2 |−2 0 0 1
 
1 2 −1| 1 0 0 0
 0 3 6 | −3 0 1 0
 ,
 0 0 0 | −3 1 0 0
0 0 0 | −1 0 − 13 1
1
das heißt, {~x3 , ~x4 } mit ~x3 : = t(−3 1 0 0), ~x4 : = t(−1 0 − 3
1) bildet eine Basis
von N(A) (nicht von L(A), da wir von (tA En ) ausgegangen sind!).

Für den Auflösungsalgorithmus benötigen wir die Reduzierte rA, die wir in diesem
Falle aus Beispiel 2.3.4 erhalten:  
r 1 3 0 1
A= .
0 0 1 31
Die Elemente von zA = yA − uArA yA können nun unmittelbar aus rA entnommen
werden. Zunächst ist uA = (~e1 ~e3 ), wobei 1 und 3 die Indizes der Eckkoeffizien-
ten sind. Mit den übrigen Indizes in aufsteigender Reihenfolge wird yA = (~e2 ~e4 )
gebildet. Durch −uArA yA kommen die mit -1 multiplizierten Elemente der Spal-
tenvektoren von rA, deren Indizes freie Variable sind, in diejenigen Zeilen von yA,
die keine 1 enthalten. Also gilt  
−3 −1
z
 1 0 
A= .
 0 − 13 
0 1
Aufgrund des Nullraumbasissatzes (Seite 131) bilden damit die Vektoren ~b2 : =
t
(−3 1 0 0) und ~b4 : = t(−1 0 − 31 1) eine Basis von N(A). Offenbar ist ~b2 = ~x3
und ~b4 = ~x4 .

Übung 2.3.f
Bestimmen Sie alle reellen Lösungen des folgenden homogenen Gleichungs-
systems:
x1 − 3 x2 + 4 x3 + x4 = 0
− 6 x2 + 6 x3 + 6x4 = 0 .
2x1 + x2 + x3 − 5x4 = 0

Der folgende Satz ergibt weitere nützliche Anwendungen der Nullräume:


134 Beispiel zum Satz über den Spaltenraum als Nullraum 2.3.11

Satz über den Spaltenraum als Nullraum


×n
Es sei A ∈ Km
r eine Matrix mit s : = m − r > 0. Stellt {~c1 , . . . , ~cs } eine
Basis von L(A) dar und wird C : = t(~c1 . . . ~cs ) ∈ Ks × m gesetzt, so gilt
S(A) = N(C). Insbesondere ist S(A) = N(vA).

Beweis (a1):

1. Wegen t~ck A = t~0 ∈ K1 × n für k = 1, . . . , s ist CA = (0) ∈ Ks × n .

2. Zu jedem ~b ∈ S(A) gibt es ~x ∈ Kn × 1 , sodass A~x = ~b gilt. Mit 1. folgt


~0 = CA~x = C~b, also ~b ∈ N(C). Damit ist S(A) ein Untervektorraum von N(C).

3. Wegen s = dim L(A) = dim S(C) sowie (2.16) und (2.22) erhalten wir
dim S(A) = m − dim L(A) = m − dim S(C) = dim N(C). Aufgrund des Basis-
satzes (Seite 113) ist damit jede Basis von S(A) auch Basis von N(C). Also gilt
S(A) = N(C).

4. Aus dem Satz über Basis und Dimension des Linksnullraums (Seite 129) ent-
nehmen wir, dass C = vA gewählt werden kann.

2.3.11 Beispiel zum Satz über den Spaltenraum als Null-


raum

Wir suchen ein homogenes Gleichungssystem, dessen Lösungsmenge die lineare


Hülle der Vektoren

~a1 : = t(1 −2 0 3), ~a2 : = t(1 −1 −1 4) und ~a3 : = t(1 0 −2 5) = ~a1 − 2~a2

ist. Setzen wir A = (~a1 ~a2 ~a3 ), so stellt die Matrix C aus dem Satz über den Spal-
tenraum als Nullraum (Seite 134) eine Koeffizientenmatrix des gesuchten Glei-
chungssystems dar. Mit dem Simultan-Algorithmus erhalten wir (A E4 ) =
     
1 1 1| 1 1 1| 1 0 0 0 1 1 1| 1 0 0 0
 −2 −1 0 | E4
 →  0 1 2 | 2 1 0 0  →  0 1 2| 2 1 0 0  .
   

 0 −1 −2|   0 −1 −2| 0 0 1 0   0 0 0| 2 1 1 0 
3 4 5| 0 1 2 | −3 0 0 1 0 0 0|−5 −1 0 1
2.3.12 Inhomogene lineare Gleichungssysteme 135
 
2 1 1 0
Also ist C = , und das zugehörige Gleichungssystem lautet
−5 −1 0 1
2x1 + x2 + x3 =0
.
−5x1 − x2 + x4 = 0

Zwei weitere Anwendungen der Nullräume finden sich in dem folgenden Abschnitt
2.4.

2.3.12 Inhomogene lineare Gleichungssysteme

Ist A ∈ Km × n und ~b ∈ Km × 1 \{~0}, so heißt das lineare Gleichungssystem A~x = ~b


inhomogen. Wir haben nun alle Hilfsmittel zur Verfügung, um die Lösungsmenge
L(A, ~b ) : = {~x ∈ Kn × 1 | A~x = ~b } eines inhomogenen linearen Gleichungssys-
tems vollständig und befriedigend zu beschreiben. Zunächst stellen wir fest, dass
L(A, ~b ) kein Untervektorraum von Kn × 1 ist; denn dann müsste aufgrund des Sat-
zes zur Definition des Untervektorraums (Seite 98) der Nullvektor ~0 in L(A, ~b )
liegen, was wegen ~b 6= ~0 nicht möglich ist. Wie wir zum Beispiel in 2.1.3 gesehen
haben, kann auch L(A, ~b ) = ∅ gelten. Dieser Fall wird in Abschnitt 2.4 wieder
aufgenommen.

Die Frage nach der Lösbarkeit erhält jetzt die Form: Wann ist L(A, ~b ) 6= ∅? Die
tautologische Antwort aus 2.2 - nämlich, dass A~x = ~b genau dann lösbar ist, wenn
~b ∈ S(A) gilt - können wir nun durch zwei effektive Kriterien ergänzen:

Satz über die Lösbarkeit eines inhomogenen Gleichungssystems


Ist A ∈ Km × n mit r < m, ~b ∈ Km × 1 und C ∈ K(m−r) × m die durch den Satz
r
über den Spaltenraum als Nullraum (Seite 134) bestimmte Matrix, so sind
folgende Aussagen äquivalent:
i) L(A, ~b ) 6= ∅;
ii) ~b ∈ S(A);
iii) Rang (A ~b ) = r;
iv) C~b = ~0.
Im Falle r = m ist stets L(A, ~b ) 6= ∅, ~b ∈ S(A) und Rang (A ~b ) = r.
136 Inhomogene lineare Gleichungssysteme 2.3.12

Beweis (r1):

Aufgrund der Definition von S(A) sind i) und ii) äquivalent.


ii) ⇒ iii): Ist ~b ∈ S(A), so gilt S(A) = S((A ~b )). Damit folgt Rang (A ~b ) =
dim S((A ~b )) = dim S(A) = r.
iii) ⇒ ii): Aus dim S((A ~b )) = dim S(A), ergibt sich, dass S(A) = S((A ~b )) sein
muss, weil S(A) ein Untervektorraum von S((A ~b )) ist. Aufgrund des Satzes über
die Gleichheit von linearen Hüllen (Seite 102) ist damit ~b ∈ S(A).
ii) ⇔ iv): Dieses ist genau die Aussage des Satzes über den Spaltenraum als
Nullraum (Seite 134).

Für r = m folgt iii) aus der allgemeingültigen Ungleichungskette

r ≤ Rang (A ~b ) ≤ m.

Da die Äquivalenzbeweise für i), ii) und iii) auch im Falle r = m gelten, sind
damit die Aussagen i) und ii) ebenfalls erfüllt.

Übung 2.3.g

Bestimmen Sie zu dem linearen Gleichungssystem


x − 3z = −3
2x + ky − z = −2
x + 2y + kz = 1
mit den Unbekannten x, y, z die Werte von k ∈ Q so, dass sich i) eine
eindeutige Lösung, ii) keine Lösung und iii) mehr als eine Lösung ergibt.
Geben Sie in den Fällen i) und iii) alle Lösungen an.

Ist A ∈ Km × m invertierbar, so stellt ~x = A−1~b für jedes ~b ∈ Km × 1 die eindeutig


bestimmte Lösung des Gleichungssystems A~x = ~b dar. Deshalb liegt die Frage
nahe, ob es zu jeder Matrix A ∈ Km × n “verallgemeinerte Inverse” V derart
gibt, dass L(A, ~b ) 6= ∅ für ein beliebiges ~b ∈ Km × 1 genau dann gilt, wenn
V ~b ∈ L(A, ~b ) erfüllt ist.

Da natürlich L(A, ~b ) nicht leer ist, wenn V ~b in L(A, ~b ) liegt, brauchen wir nur
nach einer Matrix V zu suchen, mit der V ~b eine Lösung darstellt, wenn A~x = ~b
lösbar ist. V ist also genau dann eine geeignete Matrix, wenn A(V ~b ) = ~b für alle
~b ∈ S(A) gilt. Wegen A~x ∈ S(A) folgt AVA~x = A~x für alle ~x ∈ Km × 1 , und
Einsetzen der Einheitsvektoren ergibt die notwendige Bedingung AVA = A.
2.3.12 Inhomogene lineare Gleichungssysteme 137

Ist AVA = A erfüllt und gibt es ein ~x mit A~x = ~b, so können wir von AVA~x = A~x
ausgehend die Schlussrichtung umkehren. Wir erkennen damit, dass jede Matrix
V ∈ Kn × m mit AVA = A unserer Forderung genügt. Ist A zusätzlich eine in-
vertierbare Matrix, so folgt aus AV = AVE = (AVA)A−1 = AA−1 = E, dass
A−1 = V gelten muss. Damit ist es gerechtfertigt, solche Matrizen als “verallge-
meinerte Inverse” zu bezeichnen - zumal sie in vielen Bereichen der numerischen
Mathematik eine wichtige Rolle spielen. Allerdings ist die Namensgebung in den
zahlreichen Literaturstellen sehr uneinheitlich. Um eine symmetrische Beziehung
zwischen den Matrizen A und V (und - wie wir in Übung 2.3.h sehen werden -
auch gleichen Rang) zu erhalten, nimmt man meistens noch die Gleichung hinzu,
die aus AVA = A durch Vertauschen von A und V hervorgeht:

Definition der verallgemeinerten Inversen


Ist A ∈ Km × n , so heißt eine Matrix V ∈ Kn × m verallgemeinerte Inverse von
A genau dann, wenn
(2.28) AVA = A
gilt, und symmetrisch verallgemeinerte Inverse genau dann, wenn
(2.29) AVA = A und VAV = V
erfüllt ist.

Die Frage, ob es zu jeder Matrix A ∈ Km × n eine verallgemeinerte Inverse gibt, be-


antworten wir nun positiv durch die Angabe von (symmetrisch) verallgemeinerten
Inversen in einer neuen Form, die gegenüber den bisher bekannten Darstellungen
den Vorteil hat, dass sie einfacher berechnet werden kann.

Wir versuchen den Inversen-Algorithmus 1.5.9 von Gauß und Jordan zu verall-
r s 
A A
gemeinern, indem wir (A Em ) durch elementare Zeilenumformungen in
0 vA
überführen, wobei die Reduzierte rA ∈ Kr × n aufgrund des Satzes über die Gleich-
heit von Zeilenräumen (Seite 121) durch A eindeutig bestimmt ist und im Falle
RangA < m die Aufspaltung der rechten Hälfte durch die Methode zur Berech-
nung einer Nullraumbasis in 2.3.8 nahegelegt wird. Damit die Matrix sA ebenfalls
eindeutig durch A festgelegt ist, denken wir uns wie bei vA die elementaren Zei-
lenumformungen algorithmisch mit minimalen Zeilenindizes und mit frühestmög-
lichem Abbruch durchgeführt. Dann nennen wir sA ∈ Kr × m Simultane von A.
138 Inhomogene lineare Gleichungssysteme 2.3.12

Ähnlich wie bei dem Inversen-Algorithmus ergibt sA die gesuchte Matrix: Es


müssen nun n − r Nullzeilen in sA so eingefügt werden, dass die j -te Zeile von
s
A für j = 1, . . . , r die kj -te Zeile der erweiterten Matrix wird, wobei k1 , . . . , kr
die Basisindizes von A sind. Diese Erweiterung von sA kann durch Multiplikation
von links mit uA erreicht werden.

Satz über die Quasi-Inverse


Ist A ∈ Km × n \ {(0)}, so stellt die Quasi-Inverse qA : = uAsA eine symme-
trisch verallgemeinerte Inverse von A dar, und auch tqtA = tstA tutA ist eine
symmetrisch verallgemeinerte Inverse von A.12
Insbesondere gilt L(A, ~b ) 6= ∅ genau dann, wenn qA~b in L(A, ~b ) liegt.

Beweis (a1):

Werden die elementaren Zeilenumformungen durch die Matrix F ∈ GL(m; K)


r s  s 
A A A
beschrieben, so folgt F (A Em ) = (FA F ) = v , also F = v und
s  r  0 A A
AA A
FA = v = . Neben (2.21) gilt damit
AA 0
s
(2.30) AA = rA.
Aufgrund der Definitionen von rA und uA ist außerdem
r u
(2.31) A A = Er .
Nun erhalten wir einerseits
A qAA = (AuA)(sAA) = wArA = A
wegen (2.30) und (2.19) und andererseits
q
AA qA = uA(sAA)uAsA = uA(rAuA)sA = uAEr sA = qA
mit (2.31).

Durch Transponieren der beiden Gleichungen in (2.29) ergibt sich, dass V genau
dann eine symmetrisch verallgemeinerte Inverse von A ist, wenn tV eine symme-
trisch verallgemeinerte Inverse von tA darstellt. Damit folgt auch die Aussage für
tqt
A.
12
Die Quasi-Inverse wurde ursprünglich durch tstAtutA eingeführt. Die jetzige Form stammt
von dem Studenten Lars Diening, der auch eine Basis für den Untervektorraum {X ∈
Kn × m | AXA = (0) ∈ Km × n } von Kn × m gefunden hat (siehe Unterabschnitt 4.3.6).
2.3.12 Inhomogene lineare Gleichungssysteme 139

Das Lösbarkeitskriterium für inhomogene Gleichungssysteme A~x = ~b haben wir


bereits in den Vorüberlegungen zu den verallgemeinerten Inversen bewiesen.

Im Hinblick auf die Wahlmöglichkeit bei der Nullraumbasis ist es günstig, dass
wir nun auch bei der Verwendung einer symmetrisch verallgemeinerten Inversen
zum Test der Lösbarkeit eines inhomogenen linearen Gleichungssystem mit Hilfe
einer potentiellen Lösung entscheiden können, ob wir mit A oder mit tA begin-
nen. Im Satz über die Pseudo-Inverse (Seite 161) werden wir eine weitere wichtige
verallgemeinerte Inverse kennenlernen, mit deren Hilfe man sogar jedes inhomo-
gene Gleichungssystem mit Elementen aus R oder C in sinnvoller Weise eindeutig
“lösen” kann. Unterabschnitt 4.3.6 enthält eindeutige Parameterdarstellungen für
alle verallgemeinerten Inversen.

Übung 2.3.h

i) Beweisen Sie, dass Rang V ≥ Rang A für jede verallgemeinerte Inverse V


von A gilt.
ii) Zeigen Sie, dass eine verallgemeinerte Inverse V von A genau dann ei-
ne symmetrisch verallgemeinerte Inverse von A darstellt, wenn Rang V =
Rang A erfüllt ist.

Übung 2.3.i

Bestimmen Sie eine Matrix A, für die qA 6= tqtA gilt.


Achtung: Fundgrube! [Bedingungen für Gleichheit, Maximalzahl der von
Null verschiedenen Elemente.]

Übung 2.3.j
   
2 −1 −1 −8 −10 8
Es sei A : =  1 0  und B : =  1 −2 −5 3  . Berechnen
−3 4 9 22 15 −17
Sie mit Hilfe von A eine Matrix X ∈ Q2 × 4 , die AX = B erfüllt oder
q

entscheidet, dass diese Gleichung unlösbar ist.

Nun können wir auch die Frage nach der Lösungsgesamtheit eines lösbaren in-
homogenen Gleichungssystems A~x = ~b beantworten. Dazu sei A ∈ Km × n , ~b ∈
Km × 1 und ~x0 ∈ L(A, ~b ). Für jede Lösung ~x ∈ L(A, ~b ) folgt A(~x − ~x0 ) =
A~x − A~x0 = ~b − ~b = ~0, also ~x − ~x0 ∈ N(A). Umgekehrt stellt jedes ~x ∈ Kn × 1 mit
~x − ~x0 ∈ N(A) eine Lösung dar, weil A~x = A(~x − ~x0 + ~x0 ) = A(~x − ~x0 ) + A~x0 =
140 Beispiel eines inhomogenen Gleichungssystems 2.3.13

~0 + ~b = ~b gilt. Führen wir nun für einen beliebigen Vektorraum V, einen Unter-
vektorraum U von V und für ~v ∈ V die Abkürzung

~v + U : = {~x ∈ V | ~x − ~v ∈ U}
ein und beachten wir die Darstellungen des Nullraums in dem Satz über Basis und
Dimension des Linksnullraums (Seite 129) beziehungsweise im Nullraumbasissatz
(Seite 131), so haben wir damit

Satz über die Lösungsgesamtheit


Ist A ∈ Km × n , ~b ∈ Km × 1 und ~x0 ∈ L(A, ~b ), so gilt L(A, ~b ) = ~x0 + N(A)
mit  z
S( A), wenn Rang A < n ist,
N(A) =
{~0} für Rang A = n.

Ist L(A, ~b ) 6= ∅, so erhält man also die Lösungsgesamtheit des inhomogenen


Gleichungssystems A~x = ~b, indem man eine (beliebige feste) Lösung ~x0 des inho-
mogenen Systems zu jedem Vektor der Lösungsmenge des zugehörigen homogenen
Gleichungssystems A~x = ~0 addiert.

2.3.13 Beispiel eines inhomogenen Gleichungssystems


 
1 3 3 2
Wir wählen wieder A =  2 6 9 5  und fragen nach der Lösbarkeit bezie-
−1 −3 3 0
hungsweise nach der Lösungsmenge der inhomogenen Gleichungssysteme A~x = ~bi
   
1 −1
mit ~b1 =  5  , ~b2 =  0  .
5 3
Im Anschluss an Beispiel 2.3.10 erhalten wir tqtA anstelle von qA :
1 0 −5| 3 0 − 32 0
   
1 2 −1| 1 0 0 0
 0 3 6 |−3 0 1 0  1
 →  0 1 2 |−1 0 3 0  ,
 
(tA En ) → 
 0 0 0 |−3 1 0 0   0 0 0 |−3 1 0 0 
1
0 0 0 |−1 0 − 3 1 0 0 0 |−1 0 − 13 1

3 0 − 32 0
     
st tut 1 0 0 vt −3 1 0 0
also A = , A= und A = .
−1 0 31 0 0 1 0 −1 0 − 13 0
2.3.13 Beispiel eines inhomogenen Gleichungssystems 141

tqt
Wegen A = tstAtutA ist dann
     
3 −1   −2 −3
 0 0  1  0 
~v1 : = tstA(tutA~b1 ) =   , ~v2 : = tstA(tutA~b2 ) =  02 
 
− 2 1

 5 = 
 1   
3 3 3
0 0 0 0
   
1 −1
  ~
sowie A~v1 = 5 = b1 und A~v2 =  0  6= ~b2 . Damit gilt
5 5
     
−2 
 −3 −1 

 0  
1   0 
~
L(A, b1 ) =  ~
+ Lin   ,  − 1  und L(A, b2 ) = ∅.
     
1  
 0 3 
0 0 1
 

Zum Vergleich behandeln wir dieselben Gleichungssysteme mit der US -Zerlegung


von PA. Hier haben wir zwei Möglichkeiten: Wir können die Spaltenvektoren ~b1
und ~b2 an A anfügen und gleichzeitig umformen, oder wir notieren die normierte
untere Dreiecksmatrix U sowie die Permutationsmatrix P und berechnen mit
ihrer Hilfe die umgeformten Spaltenvektoren ~b 10 , ~b 20 . Denn einerseits ist A~x =
~bi äquivalent zu S~x = U −1 PA~x = U −1 P~bi = : ~b i0, und andererseits beschreibt
U −1 P (A ~b1 ~b2 ) = (S ~b 10 ~b 20 ) die äquivalenten Zeilenumformungen.
   
1 3 3 2|1 −1 1 3 3 2|1 −1
(A ~b1 ~b2 ) =  2 6 9 5|5 0  →  0 0 3 1|3 2 
−1 −3 3 0|5 3 0 0 6 2|6 2
 
1 3 3 2|1 −1
→ 0 0 3 1|3 2  = (S ~b 10 ~b 20 ).

0 0 0 0|0 −2
 
1 0 0
Mit U =  2 1 0  und P = E3 erhalten wir aus U~b i0 = P~bi durch Vorwärts-
−1 2 0
einsetzen dieselben Spaltenvektoren ~b 10 und ~b 20 wie oben.

Da wir nur äquivalente Umformungen ausgeführt haben, gilt L(A, ~bi ) = L(S, ~b i0).
Nach Unterabschnitt 1.3.4 beziehungsweise aufgrund der Aussage iii) des Satzes
über die Lösbarkeit eines inhomogenen Gleichungssystems (Seite 135) ist damit
L(A, ~b1 ) 6= ∅ und L(A, ~b2 ) = ∅. Zur Berechnung einer speziellen Lösung ~x0 =
t
(x1 x2 x3 x4 ) setzen wir für die freien Variablen x2 = x4 = 0. Dann gilt x1 +3x3 =
   
x1 −2
1, 3x3 = 3, sodass wir = durch Rückwärtseinsetzen erhalten.
x3 1
142 Rechtsinverse, Linksinverse und Rangkriterien 2.3.14

Mit dem in Beispiel 2.3.10 bestimmten Nullraum ergibt sich schließlich dieselbe
Darstellung der Lösungsmenge wie oben.

Da die Lösungsmengen inhomogener linearer Gleichungssysteme auch als Teilräu-


me von Vektorräumen eine Rolle spielen, erhalten sie eine eigene Bezeichnung:

Definition des affinen Unterraums


Eine Teilmenge M eines K -Vektorraums V heißt affiner Unterraum von V
genau dann, wenn es ein ~v ∈ V und einen Untervektorraum U ⊆ V gibt,
sodass M = ~v + U gilt.

L(A, ~b ) ist also ein affiner Unterraum von Kn × 1 . Umgekehrt lässt sich auch
jeder affine Unterraum ~v + U von Kn × 1 als Lösungsmenge eines inhomogenen
Gleichungssystems darstellen: Man bestimmt (wie in Beispiel 2.3.11) eine Matrix
C mit N(C) = U und setzt ~b : = C~v . Dann ist L(C, ~b ) = ~v + U.

Im R3 sind Punkte, Geraden und Ebenen (sowie ∅ und R3 ) affine Unterräume.

2.3.14 Rechtsinverse, Linksinverse und Rangkriterien

Im Anschluss an die Definition der Invertierbarkeit (Seite 48) haben wir gezeigt,
dass aus A, A0 , A00 ∈ Rm × m und AA0 = A00 A = E stets A0 = A00 folgt. Mit
den Ergebnissen des letzten Abschnitts können wir nun für beliebige Matrizen
A ∈ Km × n Kriterien für die Existenz solcher “Rechtsinversen” beziehungsweise
“Linksinversen” angeben. Dazu definieren wir:

Definition der Rechts- und Linksinversen


Ist A ∈ Km × n , so heißt eine Matrix A0 ∈ Kn × m Rechtsinverse von A genau
dann, wenn AA0 = Em gilt. Eine Matrix A00 ∈ Kn × m heißt Linksinverse von
A genau dann, wenn A00A = En gilt.

Satz über Rechts- und Linksinverse


×n
Ist A ∈ Km r , so sind die folgenden Aussagen äquivalent (“universelle
Lösbarkeit”):
2.3.14 Rechtsinverse, Linksinverse und Rangkriterien 143

i) r = m;
ii) L(A, ~b ) 6= ∅ für jedes ~b ∈ Km × 1 ;
iii) Es gibt eine Rechtsinverse A0 von A.
Ebenso sind die folgenden Aussagen äquivalent (“Eindeutigkeit”):
iv) r = n;
v) L(A, ~b ) enthält für jedes ~b ∈ Km × 1 höchstens eine Lösung;
vi) Es gibt eine Linksinverse A00 von A.
Ist m = n, so folgt die Invertierbarkeit schon aus der Existenz einer Rechts-
inversen oder einer Linksinversen.

Beweis (r2):

Im Satz über die Lösbarkeit eines inhomogenen Gleichungssystems (Seite 135)


wurde gezeigt, dass ii) aus i) folgt.

ii) ⇒ iii): Mit ~xi ∈ L(A, ~ei ) für i = 1, . . . , m ist A0 : = (~x1 . . . ~xm ) eine Rechts-
inverse von A.

iii) ⇒ i): AA0 = Em ergibt A(A0~b ) = ~b für jedes ~b ∈ Km × 1 . Also ist S(A) =
Km × 1 , das heißt, es gilt r = m.

v) Als Folgerung aus iv) ist es mit der ersten Dimensionsformel (2.23) bewiesen.

v) ⇒ iv): Enthält L(A, ~b ) für jedes ~b ∈ Km × 1 höchstens eine Lösung, so muss


insbesondere L(A, ~0) = N(A) = {~0} gelten. Also ist dim N(A) = n − r = 0.

iv) ⇒ vi): Da n die Zeilenzahl von tA ist, gibt es nach iii) eine Matrix C ∈ Km × n ,
sodass tAC = En gilt. Wegen tCA = En können wir A00 : = tC wählen.

vi) ⇒ iv): A00A = En ergibt tA(tA00~c ) = ~c für jedes ~c ∈ Kn × 1 . Also ist S(tA) =
Kn × 1 , und es gilt r = n.

Im Falle n = m sind i) und iv) beide erfüllt oder beide nicht erfüllt. Also besitzt
A genau dann sowohl eine Rechtsinverse A0 als auch eine Linksinverse A00 , wenn
r = n = m gilt. Aufgrund des Beweises im Anschluss an die Definition der
Invertierbarkeit (Seite 48) folgt dann sogar A0 = A00 , und A ist invertierbar.
144 Rechtsinverse, Linksinverse und Rangkriterien 2.3.14

Dieser Beweis zeigt auch, dass man mit Hilfe der Rechts- beziehungsweise Links-
inversen von A die Lösungen A0~b ∈ L(A, ~b ) und tA00~c ∈ L(tA, ~c ) gewinnt. Ist
r = n und L(A, ~b ) 6= ∅, so gilt wegen AA00 (A~x) = A~x~b = ~b auch A00~b ∈ L(A, ~b ).

Die Existenz von Rechts- oder Linksinversen einer Matrix A hängt also davon
ab, ob der Rang größtmöglich ist. Umgekehrt besteht auch ein Zusammenhang
zwischen dem Rang und der maximalen Größe aller invertierbaren Untermatrizen
von A. Diese anschaulich durch Streichen von Zeilen und Spalten aus A entste-
henden Matrizen lassen sich folgendermaßen präzisieren:

Definition der s-reihigen Untermatrix


Ist A ∈ Km × n und s ∈ N1 mit s ≤ min {m, n}, so heißt eine Matrix B ∈ Ks × s
s -reihige Untermatrix von A genau dann, wenn es natürliche Zahlen j1 , . . . , js
und j10 , . . . , js0 mit 1 ≤ j1 < . . . < js ≤ m und 1 ≤ j10 < . . . < js0 ≤ n
 
gibt, sodass B = t ~em,j1 . . . ~em,js A ~en,j10 . . . ~en,js0 gilt.

Extraktionssatz
Ist A ∈ Krm × n \ {(0)}, so stellt die Extrahierte xA : = tutAAuA eine invertier-
bare r -reihige Untermatrix von A dar. Alle s -reihigen Untermatrizen von A
mit s > r sind nicht invertierbar, das heißt, r ist die maximale Zeilenzahl der
invertierbaren Untermatrizen von A.

Beweis (a2):

Da die Zeilenvektoren von tutA ∈ Kr × m und die Spaltenvektoren von uA ∈ Kn × r


jeweils r Einheitsvektoren mit steigenden 1-Positionen sind, stellt xA eine r -reihige
Untermatrix von A dar. Für den Nachweis der Invertierbarkeit von xA genügt es
aufgrund des Satzes über Rechts- und Linksinverse (Seite 142), Rang xA = r
herzuleiten.

Sind k1 , . . . , kr die Basisindizes von A = : (~a1 . . . ~an ), so gilt


x
A = tutA wA = tutA~ak1 . . . tutA~akr .

(2.32)

Der Satz über Basis und Dimension des Spaltenraums (Seite 125) ergibt, dass
{~ak1 , . . . , ~akr } ein Erzeugendensystem von S(A) ist. Da es zu jedem ~y ∈ S(tutAA)
ein ~x ∈ Kn × 1 mit ~y = tut
AA~x gibt und da A~x als Linearkombination von
2.4 Orthogonalprojektion, Optimallösungsalgorithmus 145

~ak1 , . . . , ~akr dargestellt werden kann, folgt durch Multiplikation der jeweiligen

Linearkombination von links mit tutA, dass B : = tutA~ak1 , . . . , tutA~akr ein Er-
zeugendensystem von S(tutAA) ist.

Wegen tutAA = t(tAutA) = twtA und wegen Rang twtA = Rang wtA = Rang tA = r
nach (2.17) folgt aufgrund des Basissatzes (Seite 113), dass B eine Basis von
S(tutAA) darstellt. Da B nach (2.32) aus den Spaltenvektoren von xA besteht, gilt
Rang xA = r.

Ist s > r, so sind aufgrund des Satzes über Basen und linear unabhängige Vekto-
ren (Seite 111) je s Spaltenvektoren von A linear abhängig. Die entsprechenden
nichttrivialen Linearkombinationen des Nullvektors bleiben erhalten, wenn sie

von links mit einer Matrix t ~em,j1 . . . ~em,js , 1 ≤ j1 < . . . < js ≤ m, multipliziert
werden, wobei sich in der Linearkombination die Spaltenvektoren einer beliebigen
s -reihigen Untermatrix von A ergeben. Damit besteht jede s -reihige Unterma-
trix von A aus linear abhängigen Spaltenvektoren. Da die Spaltenvektoren einer
invertierbaren Matrix B wegen N(B) = {~0} linear unabhängig sind, kann keine
s -reihige Untermatrix von A für s > r invertierbar sein.

Übung 2.3.k

Zeigen Sie, dass uA(xA)−1 (tutA) für jedes A ∈ Km × n \{(0)} eine symmetrisch
verallgemeinerte Inverse von A ist.

Achtung: Fundgrube! [Zusammenhang mit qA und tqt


A.]

2.4 Orthogonalprojektion und der Optimallö-


sungsalgorithmus

Zwei Gründe sprechen dafür, auch unlösbare lineare Gleichungssysteme genauer


zu untersuchen. Einerseits treten in praktischen Anwendungen bei einem als line-
ar bekannten Zusammenhang zum Beispiel durch Messfehler bedingt nur selten
exakt lösbare lineare Gleichungssysteme auf. Das dadurch entstehende “lineare
Ausgleichsproblem” (siehe 2.4.5) wurde schon von C. F. Gauß durch die “Me-
thode der kleinsten Quadrate” gelöst. Die damit angedeutete Minimierungsauf-
gabe ergibt andererseits eine gute Gelegenheit, in Vektorräumen frühzeitig eine
146 Metrik und Norm 2.4.1

zusätzliche Struktur einzuführen, die es ermöglicht, jedem Vektor eine Länge be-
ziehungsweise Vektorpaaren einen Abstand und einen Winkel zuzuordnen.

Um in dem Grundkörper einen “Betrag” zur Verfügung zu haben, werden in den


folgenden beiden Abschnitten nur die Körper R und C zugelassen, für die K (ge-
lesen: Doppel-K) als gemeinsames Symbol gebräuchlich ist. Zu einer komplexen
Zahl u = x + iy mit x, y ∈ R ist ū : = x − iy die konjugiert komplexe Zahl ;
Re u : = x wird Realteil und Im u : = y Imaginärteil von u genannt. Die nicht-
√ p
negative reelle Zahl |u| : = uū = (Re u)2 + (Im u)2 ist dann der Betrag von
u. Für jedes A ∈ Cm×n bezeichnet Ā diejenige Matrix, die aus den konjugiert
komplexen Elementen von A besteht.

Wir entwickeln zunächst die benötigte allgemeine Theorie und lösen dann das
lineare Ausgleichsproblem mit Hilfe der Pseudo-Inversen, die sogar für beliebige
lineare Gleichungssysteme mit Elementen aus K eine eindeutig bestimmte “Op-
timallösung” ergibt.

2.4.1 Metrik und Norm

Ist A ∈ Km × n und ~b ∈ Km × 1 mit ~b ∈


/ S(A), so bezeichnet man die Bestimmung
von Vektoren ~x ∈ Kn × 1 , für die ein geeignet erklärter “Abstand” von A~x und
~b minimal wird, als lineares Ausgleichsproblem. Der aus dem Punktraum R2 be-
kannte Abstand zweier Punkte wird durch den Begriff der Metrik unabhängig
von einer linearen Struktur verallgemeinert:

Definition der Metrik


Es sei X eine Menge. Eine Abbildung d : X × X → R, (x, y) 7→ d(x, y) heißt
Metrik auf X genau dann, wenn für alle x, y, z ∈ X gilt:
M1 d(x, y) = d(y, x) (Symmetrie);
M2 d(x, z) ≤ d(x, y) + d(y, z) (Dreiecksungleichung);
M3 d(x, y) = 0 genau dann, wenn x = y ist (Identifikation).
Eine Menge X zusammen mit einer Metrik auf X heißt metrischer Raum.

Aus M2 für z = x zusammen mit M3 und M1 folgt 0 = d(x, x) ≤ d(x, y) +


d(y, x) = 2d(x, y), das heißt, es gilt 0 < d(x, y) für alle x, y ∈ X mit x 6= y.
2.4.1 Metrik und Norm 147

Lässt sich in einem K -Vektorraum V jedem Vektor eine Länge zuordnen, deren
Eigenschaften der Anschauung entsprechen, so kann man - wie wir gleich zeigen
werden - als Abstand von zwei Vektoren aus V die Länge des Differenzvektors
verwenden. Da dieser Längenbegriff nicht nur geometrische Bedeutung hat, wird
er ähnlich wie die Metrik durch die folgenden Eigenschaften eingeführt:

Definition der Norm


Es sei V ein K -Vektorraum. Eine Abbildung k k : V → R, ~x 7→ k~x k heißt
Norm auf V genau dann, wenn für alle ~x, ~y ∈ V und alle λ ∈ K gilt:
N1 kλ~x k = |λ|k~x k (Betragshomogenität);
N2 k~x + ~y k ≤ k~x k + k~y k (Dreiecksungleichung);
6 0 für alle ~z ∈ V \ {~0} (Anisotropie).
N3 k~z k =
Ein K - Vektorraum V zusammen mit einer Norm auf V heißt normierter
Raum.
Ein Vektor ~x heißt normiert, wenn k~x k = 1 ist.

Analog zur Metrik folgt hier aus N2 für ~y = −~x zusammen mit N1 für λ = 0 und
λ = −1, dass 0 = k~x − ~x k ≤ k~x k + k−~x k = 2k~x k gilt. N3 ergibt damit

(2.33) 0 < k~x k für alle ~x ∈ V \ {~0}.

Bei der folgenden Einführung einer Metrik durch eine Norm und später bei der
Festlegung einer Norm durch ein Skalarprodukt spricht man von der Induzierung
einer Metrik beziehungsweise einer Norm.

Satz über die Induzierung einer Metrik


Ist V ein K -Vektorraum mit der Norm k k, so stellt die Abbildung
d : V × V → R, (~x, ~y ) 7→ k~x − ~y k eine Metrik auf V dar.

Beweis (r1):

N1 mit λ = −1 ergibt M1, aus N2 folgt M2 in der Form k~x − ~z k = k(~x − ~y ) +


(~y − ~z )k ≤ k~x − ~y k + k~y − ~z k, und M3 gilt, weil k~x − ~y k = 0 nach N3 zu ~x − ~y = ~0
äquivalent ist.

Die Umkehrung dieses Satzes ist nicht immer richtig, das heißt, nicht jede Metrik
148 Skalarprodukt und Orthogonalität 2.4.2

wird von einer Norm induziert. Auf jedem K -Vektorraum V mit mindestens zwei
Elementen lässt sich durch

0 für ~x = ~y ,
d (~x, ~y ) : =
1 für ~x 6= ~y ,

offensichtlich eine Metrik (die sogenannte diskrete Metrik ) einführen. Würde d


durch eine Norm k k induziert, so wäre k~x − ~y k = 1 für alle ~x, ~y ∈ V mit
~x 6= ~y , und für ~x 6= ~0, ~y = ~0 sowie für alle λ ∈ R mit λ > 1 ergäbe sich
kλ~x k = 1 6= λ = λk~x k im Widerspruch zu N1.

2.4.2 Skalarprodukt und Orthogonalität

Im Hinblick auf die Ziele, Normen zu induzieren und Winkel beziehungsweise Or-
thogonalität für Paare von Vektoren zu erklären, lassen sich ausgehend von dem
in (1.15) eingeführten Standardskalarprodukt im Rm×1 die notwendigen Eigen-
schaften des allgemeinen Skalarprodukts herleiten. Da die Leistungsfähigkeit die-
ses grundlegenden Begriffs nicht gleich zu erkennen ist, bringen wir die Definition
ohne weitere Motivation, entwickeln dann die für das lineare Ausgleichsproblem
benötigten Ergebnisse und vertiefen schließlich die Untersuchungen im folgenden
Abschnitt 2.5.

Mit den ersten beiden Eigenschaften des Skalarprodukts werden zunächst die
ebenfalls sehr wichtigen Begriffe der “symmetrischen Bilinearform” und der “her-
miteschen Form” definiert. Da in der linearen Algebra noch weitere “Formen”
auftreten, stellen wir zur Begriffserklärung die entsprechende Definition voran,
obwohl sie später nicht explizit benötigt wird:

Definition der Form


Ist V ein K -Vektorraum und m ∈ N1 , so heißt eine Abbildung f : Vm → K,
(~x1 , . . . , ~xm ) 7→ f(~x1 , . . . , ~xm ) Form auf V genau dann, wenn es eine Abbildung
g : Km → K gibt, sodass f (λ1~x1 , . . . , λm~xm ) = g (λ1 , . . . , λm ) f (~x1 , . . . , ~xm )
für alle (λ1 , . . . , λm ) ∈ Km und alle (~x1 , . . . , ~xm ) ∈ Vm gilt.
2.4.3 Beispiele für Skalarprodukte 149

Definition der symmetrischen Bilinearform und der hermiteschen


Form
Es sei V ein K -Vektorraum. Eine Abbildung h : V × V → K, (~x, ~y ) 7→ h (~x, ~y )
heißt für K = R symmetrische Bilinearform auf V und für K = C hermitesche
Form auf V genau dann, wenn gilt:

H1 h(~x, λ~y +µ~z ) = λh(~x, ~y )+µh(~x, ~z ) für alle ~x, ~y , ~z ∈ V und alle λ, µ ∈ K
(Linearität in der zweiten Komponente);

H2 h(~x, ~y ) = h(~y , ~x ) für alle ~x, ~y ∈ V (Symmetrie für K = R und konju-


gierte Symmetrie für K = C).

Da eine symmetrische Bilinearform auf einem R -Vektorraum V zugleich eine


hermitesche Form auf V darstellt, gebrauchen wir die Bezeichnung hermitesche
Form als Oberbegriff für beide Fälle.

Im Falle K = R folgt die Linearität in der ersten Komponente aus der Symmetrie
der Form, sodass die Bezeichnung “Bilinearform” gerechtfertigt ist.

Definition des Skalarprodukts und des euklidischen beziehungsweise


unitären Vektorraums
Ist V ein K -Vektorraum, so heißt eine Abbildung h,i : V × V → K, (~x, ~y ) 7→
h~x, ~y i, Skalarprodukt auf V genau dann, wenn sie eine hermitesche Form auf
V ist und wenn
h~x, ~x i > 0 für alle ~x ∈ V \ {~0 } (positive Definitheit)
gilt.
Ein R -Vektorraum zusammen mit einem Skalarprodukt heißt euklidischer Vek-
torraum, ein C -Vektorraum mit einem Skalarprodukt wird unitärer Vektor-
raum genannt.

2.4.3 Beispiele für Skalarprodukte

1. Für V = Km×1 ist (~x, ~y ) 7→ t~x ~y das Standardskalarprodukt.

2. Auf V = Km×n wird durch hA, B i : = Sp(tĀB) ein Skalarprodukt erklärt, das
für n = 1 mit dem Standardskalarprodukt übereinstimmt.
150 Skalarprodukt und Orthogonalität 2.4.3

3. Auf dem Funktionenraum C([0, 1]) mit reellen oder komplexen Funktionswer-
ten stellt Z1
(f, g) 7→ f (t)g(t)dt
0
ein Skalarprodukt dar. Hier erfordert der Nachweis natürlich Hilfsmittel aus der
Analysis.

Ist V ein euklidischer oder unitärer Vektorraum, so bezeichnen wir im Folgenden


das zugehörige Skalarprodukt stets mit h , i. Für die Induzierung einer Norm
und für die Einführung von Winkeln wird eine Ungleichung benötigt, der jedes
Skalarprodukt genügt:

Satz über die Ungleichung von Cauchy, Schwarz und Bunjakowski


p
Ist V ein euklidischer oder unitärer Vektorraum und wird k~v k : = h~v , ~v i
für jedes ~v ∈ V gesetzt, so gilt
(2.34) |h~x, ~y i| ≤ k~x kk~y k für alle ~x, ~y ∈ V.

Beweis (r1):

Wegen h~v , ~v i ≥ 0 für jedes ~v ∈ V ist die Definition von k~v k sinnvoll.

Für alle ~x, ~y ∈ V und jedes λ ∈ K gilt


(2.35) 0 ≤ h~x − λ~y , ~x − λ~y i = h~x, ~x i − λh~x, ~y i − λ̄h~x, ~y i + λ̄λh~y , ~y i.

Im Falle ~y 6= ~0 kann λ : = h~x, ~y ih~y , ~y i−1 gewählt werden, sodass sich der dritte
und vierte Summand wegheben. Nach Multiplikation mit h~y , ~y i und Ordnen der
Terme folgt wegen der Monotonie der Wurzelfunktion die Behauptung, die für
~y = ~0 offensichtlich erfüllt ist.

Satz über die Induzierung einer Norm


Auf jedem euklidischen oder unitären Vektorraum V stellt die Abbildung
p
k k : V → R, ~x 7→ h~x, ~x i eine Norm dar.

Beweis (r1):
p q
N1 folgt aus kλ~x k = hλ~x, λ~x i = λ̄λh~x, ~x i = |λ|k~x k.
2.4.3 Skalarprodukt und Orthogonalität 151

Bei dem Nachweis von N2 verwenden wir, dass |Re z| ≤ |z| für alle z ∈ C gilt,
sodass
(2.36) |Re h~x, ~y i| ≤ |h~x, ~y i| ≤ k~x kk~y k für alle ~x, ~y ∈ V
wegen (2.34) erfüllt ist. Damit erhalten wir
k~x + ~y k2 = h~x + ~y , ~x + ~y i = h~x, ~x i + h~x, ~y i + h~x, ~y i + h~y , ~y i
= k~x k2 + 2Re h~x, ~y i + k~y k2 ≤ (k~x k + k~y k)2 ,

und die Monotonie der Wurzelfunktion ergibt N2.

Die positive Definitheit des Skalarprodukts ist äquivalent mit N3.

Wie bei der Metrik ist auch hier die Umkehrung des Satzes nicht immer richtig,
das heißt, es gibt Normen, die nicht von einem Skalarprodukt induziert werden.
Zum Beispiel lässt sich durch
k~x k : = max {|t~x ~ei | | i = 1, . . . , m}
eine Norm auf Rm×1 definieren. Gäbe es ein Skalarprodukt h , i auf Rm×1 mit
k~x k = h~x, ~x i, so müsste h~x, ~y i = 21 k~x + ~y k2 − k~x k2 − k~y k2 sein. Diese Abbil-
p 

dung wäre aber für m ≥ 2 etwa wegen h~e1 + ~e2 , ~e2 i = 1 und h~e1 , ~e2 i + h~e2 , ~e2 i = 21
nicht bilinear.

Im Folgenden wird mit k k stets die Norm bezeichnet, die durch das jeweilige
Skalarprodukt h , i induziert ist.

Satz über geometrische Eigenschaften


In jedem euklidischen oder unitären Vektorraum V gilt
(2.37) k~x − ~y k2 = k~x k2 + k~y k2 − 2 Re h~x, ~y i (Pythagoras-Gleichung) und
(2.38) k~x − ~y k2 + k~x + ~y k2 = 2kxk2 + 2k~y k2 (Parallelogrammgleichung)
für alle ~x, ~y ∈ V.

Beweis (r1):

Aus (2.35) mit λ = 1 folgt (2.37), und Addition der beiden aus (2.35) für λ = 1
und λ = −1 entstehenden Gleichungen ergibt (2.38).

Die Gleichung (2.37) entspricht eigentlich dem Cosinussatz der ebenen Geome-
Reh~x,~y i
trie. Tatsächlich nimmt für alle ~x, ~y ∈ V \ {~0} wegen (2.36) nur reelle
k~x k k~y k
152 Skalarprodukt und Orthogonalität 2.4.3

Werte zwischen -1 und 1 an, und es gilt


Rehλ~x,µ~y i Reh~x,~y i
= für alle λ, µ ∈ R mit λ > 0 und µ > 0.
kλ~x k kµ~y k k~x k k~y k
Reh~x,~y i
Damit könnte durch ^(~x, ~y ) : = arccos ein Winkel im Bogenmaß zwischen
k~x k k~y k
0 und π sinnvoll definiert werden. Dann wäre aber in unitären Vektorräumen
die Orthogonalität von zwei Vektoren - dem Winkel π2 entsprechend - durch
Reh~x, ~y i = 0 zu erklären, wodurch sich im Vergleich mit euklidischen Vektorräu-
men, in denen Reh~x, ~y i = h~x, ~y i ist, eine sehr unhandliche Theorie ergäbe. Man
verzichtet deshalb in unitären Vektorräumen auf die Einführung von Winkeln
und definiert die Orthogonalität passend zur Winkeldefinition
h~x,~y i
(2.39) ^(~x, ~y ) : = arccos ∈ [0, π] für ~x, ~y ∈ V \ {~0}
k~x k k~y k
in euklidischen Vektorräumen V :

Definition der Orthogonalität


Ist V ein euklidischer oder unitärer Vektorraum, so heißen zwei Vektoren
~x, ~y ∈ V orthogonal genau dann, wenn h~x, ~y i = 0 gilt.

Übung 2.4.a
Zeigen Sie, dass die Norm k k eines normierten Raums V genau dann von
einem Skalarprodukt h , i auf V induziert wird, wenn die Norm in V die
Parallelogrammgleichung (2.38) erfüllt.
[Hinweis: Stellen Sie zunächst h~x, ~y i mit Hilfe von (2.35) durch Normenqua-
drate dar, leiten Sie dann die Gleichung 2h~x, ~y i+2h~z, ~y i = h~x+~z, 2~y i für alle
~x, ~y , ~z ∈ V aus (2.38) her, und benutzen Sie zum Schluss ein “Stetigkeits-
argument” für den Nachweis der Linearität in der zweiten Komponente.]

Definition des orthogonalen Komplements und der Orthogonalpro-


jektion
Es sei V ein euklidischer oder unitärer Vektorraum und U ein Untervektor-
raum von V. Dann wird
U⊥ : = {~v ∈ V | h~v , ~u i = 0 für alle ~u ∈ U} (gelesen: U ortho)
orthogonales Komplement von U in V genannt.
Eine Abbildung ϕ : V → U heißt Orthogonalprojektion von V auf U genau
dann, wenn ~v − ϕ(~v ) ∈ U⊥ für alle ~v ∈ V gilt.
2.4.4 Orthogonale Komplemente der fundamentalen Untervektorräume 153

Übung 2.4.b
Es sei V ein euklidischer oder unitärer Vektorraum, U ein Untervektorraum
von V und ϕ : V → U eine Orthogonalprojektion von V auf U. Beweisen
Sie die folgenden Eigenschaften von ϕ :
i) ϕ(~u ) = ~u für alle ~u ∈ U;
~ = ~0 für alle w
ii) ϕ(w) ~ ∈ U⊥ .
iii) Zu jedem ~v ∈ V gibt es genau ein Paar (~u, w)~ ∈ U × U⊥ mit ~v = ~u + w,
~
und es gilt ϕ(~v ) = ~u, das heißt, ϕ ist eindeutig durch U bestimmt.
Wenn keine Missverständnisse auftreten können, nennen wir das Bild von ~v ∈ V
unter der Orthogonalprojektion von V auf U auch kurz “Orthogonalprojektion
von ~v auf U ”.

Am Schluss des Abschnitts 2.5 werden wir erkennen, dass für endlich erzeugte
euklidische oder unitäre Vektorräume V stets V = Lin (U ∪ U⊥ ) gilt und dass
daraus die Existenz der (eindeutig bestimmten) Orthogonalprojektion von V auf
U folgt.

2.4.4 Orthogonale Komplemente der fundamentalen Un-


tervektorräume

Satz über orthogonale Komplemente


Ist A ∈ Km×n , so gilt bezüglich des jeweiligen Standardskalarprodukts
Z(Ā)⊥ = N(A), N(A)⊥ = Z(Ā) in Kn×1 und S(A)⊥ = L(Ā), L(Ā)⊥ = S(A)
in Km×1 . Zu jedem ~x ∈ Kn×1 gibt es genau ein Paar (~xz , ~xn ) ∈ Z(Ā) × N(A),
sodass
(2.40) ~x = ~xz + ~xn
gilt, und zu jedem ~y ∈ Km×1 existiert genau ein Paar (~ys , ~yl ) ∈ S(A) × L(Ā)
mit
(2.41) ~y = ~ys + ~yl .
Die Vektoren ~xz , ~xn , ~ys und ~yl sind dabei die Orthogonalprojektionen von ~x
beziehungsweise ~y auf die entsprechenden fundamentalen Untervektorräume.

Beweis (a1):
Für A ∈ Km×n
r ~ ∈ Z(Ā) ⊆ Kn×1 . Dann gilt A~v = ~0,
seien ~v ∈ N(A) ⊆ Kn×1 und w
154 Orthogonale Komplemente der fundamentalen Untervektorräume 2.4.4

und es gibt ~x ∈ Km×1 mit w ~ = t~v¯w


~ = tĀ~x. Damit folgt h~v , wi ~ = t~v¯ tĀ~x = t(A~v )~x =
t~
0~x = 0. Also ist N(A) ⊆ Z(Ā)⊥ und Z(Ā) ⊆ N(A)⊥ .

Im ersten Fall können wir auch umgekehrt schließen:

Ist ~v ∈ Z(Ā)⊥ , so gilt 0 = h~v , tĀ~x i = t~v¯ tĀ~x = t(A~v )~x für alle ~x ∈ Km×1 .
Insbesondere ergibt sich t(A~v ) = t(A~v )Em = t~0, also ~v ∈ N(A), sodass damit
N(A) = Z(Ā)⊥ bewiesen ist.

Die zweite Gleichheit zeigen wir zusammen mit einer wichtigen Summendarstel-
lung. Wegen der positiven Definitheit aller Skalarprodukte gilt stets U ∩ U⊥ =
{~0}, also auch Z(Ā) ∩ N(A) = {~0}. Sind {~a1 , . . . , ~ar } sowie {~ar+1 , . . . , ~an } Ba-
sen von Z(Ā) beziehungsweise N(A), so stellt {~a1 , . . . , ~an } eine Basis von Kn×1
n r
λk~ak = ~0 mit λk ∈ K folgt
P P
dar; denn für jede Linearkombination λk~ak =
n k=1 k=1
λk~ak ∈ Z(Ā) ∩ N(A) = {~0}, also λ1 = . . . = λn = 0.
P

k=r+1
n
Für jedes ~x ∈ Kn×1 gibt es λ1 , . . . , λn ∈ K, sodass ~x =
P
λk~ak gilt. Setzen wir
r n k=1
λk~ak für r < n sowie ~xn : = ~0 für r = n, so folgt
P P
~xz : = λk~ak und ~xn : =
k=1 k=r+1

~x = ~xz + ~xn mit ~xz ∈ Z(Ā) und ~xn ∈ N(A).


Diese Darstellung ist eindeutig; denn aus ~x = ~xz0 + ~xn0 mit ~xz0 ∈ Z(Ā) und ~xn0 ∈
N(A) folgt ~xz − ~xz0 = ~xn0 − ~xn ∈ Z(Ā) ∩ N(A) = {~0}, also ~xz0 = ~xz und ~xn0 = ~xn .

Wegen h~x −~xz , ~v i = h~xn , ~v i = 0 für alle ~v ∈ Z(Ā) ist ~xz die Orthogonalprojektion
von ~x auf Z(Ā), und entsprechend ergibt sich ~xn als Orthogonalprojektion von ~x
auf N(A).

Aus ~x = ~xz + ~xn ∈ N(A)⊥ folgt 0 = h~x, ~xn i = h~xn , ~xn i, also ~xn = ~0 und damit
~x = ~xz ∈ N(A)⊥ , sodass nun auch Z(Ā) = N(A)⊥ bewiesen ist.

Für tĀ anstelle von A ergibt sich L(Ā) = S(A)⊥ , S(A) = L(Ā)⊥ und
~y = ~ys + ~yl für jedes ~y ∈ Km×1
mit eindeutig bestimmten Vektoren ~ys ∈ S(A) und ~yl ∈ L(Ā).

Im Satz über die Pseudo-Inverse (Seite 161) werden explizite Formeln für die Be-
rechnung der Orthogonalprojektionen auf S(A) und Z(Ā) bestimmt. Die übrigen
beiden orthogonalen Projektionen ergeben sich dann durch Differenzbildung aus
(2.40) und (2.41).
2.4.5 Das lineare Ausgleichsproblem 155

Die folgende Anwendung des Satzes über orthogonale Komplemente (Seite 153)
führt zu einer Abbildung, mit deren Hilfe wir anschließend das lineare Ausgleichs-
problem lösen werden. Zunächst betrachten wir die durch A erklärte Abbildung

 : Kn×1 → S(A), ~x 7→ A~x (gelesen: A Dach).

Für jedes ~y ∈ S(A) gibt es ~xz ∈ Z(Ā) und ~xn ∈ N(A), sodass ~y = A(~xz + ~xn ) =
A~xz gilt, das heißt  | Z(Ā) ist surjektiv. Sind ~xz , ~xz0 ∈ Z(Ā) mit A~xz = A~xz0 , so
folgt A(~xz − ~xz0 ) = ~0, also ~xz − ~xz0 ∈ Z(Ā) ∩ N(A) = {~0} und damit ~xz = ~xz0 , das
heißt,  | Z(Ā) ist auch injektiv. Als bijektive Abbildung besitzt  | Z(Ā) eine
Umkehrabbildung α : S(A) → Z(Ā), A~xz 7→ ~xz , die wir mit Hilfe von (2.41) zu
einer Abbildung
(2.42) α : Km×1 → Z(Ā), A~xz + ~yl 7→ ~xz ,

auf Km×1 erweitern. Den durch  und α hergestellten Zusammenhang zwischen


den fundamentalen Untervektorräumen geben die Abbildungen 2.2 und 2.3 wie-
der, die räumlich-perspektivisch aufgefasst werden sollten:

Kn×1 Km×1
Z(Ā) S(A)
(Dim.=r) (Dim.=r)
Â(~xz )
A~xz
~xz
~x Â(~x)

L(Ā)
(Dim.=m-r) ~0
N(A) Â(~xn )
(Dim.=n-r) ~0 ~xn

Abbildung 2.2: Die Abbildung Â

2.4.5 Das lineare Ausgleichsproblem

Dieser Abschnitt 2.4 wurde durch das Problem eingeleitet, unlösbare lineare Glei-
chungssysteme A~x = ~b mit A ∈ Km×n und ~b ∈ Km×1 sinnvoll näherungsweise zu
lösen (siehe Seite 145). Mit den inzwischen eingeführten Begriffen lässt sich dieses
156 Das lineare Ausgleichsproblem 2.4.5

Kn×1 Km×1
Z(Ā) S(A)
~y
α(~y )
~ys = A~xz
~xz α(~ys )

L(Ā)
~yl = ~0
α(~yl ) ~y − ~ys
N(A)
~0

Abbildung 2.3: Die Abbildung α

lineare Ausgleichsproblem durch die Forderung präzisieren, ein ~x0 ∈ Kn×1 so zu


bestimmen, dass kA~x0 − ~bk minimal wird.

In der Praxis treten unlösbare lineare Gleichungssysteme hauptsächlich auf, wenn


die Anzahl m der Gleichungen größer ist als die Anzahl n der Unbekannten. Der
folgende einfache Fall eines linearen Zusammenhangs zwischen zwei Größen führt
bereits zu einer wesentlichen Idee für die Lösung des allgemeinen Falles und lässt
auch erkennen, wieso das von Gauß eingeführte Verfahren Methode der kleinsten
Quadrate heißt. Gegeben seien n Messwerte ui und di , i = 1, . . . , n, etwa die
gemessenen Umfänge und Durchmesser verschiedener Kreise, die nach dem Ein-
tragen in ein Koordinatensystem näherungsweise einen linearen Zusammenhang
der Form u = pd erkennen lassen (Abbildung 2.4).
u
+

+
ui
+

+ u(di )
+

d
di

Abbildung 2.4: Ausgleichsgerade


2.4.5 Das lineare Ausgleichsproblem 157

Um die normalerweise auftretenden Messfehler “auszugleichen”, wird eine (Ur-


sprungs-) Gerade gesucht, die die Messpunkte “möglichst gut” annähert. Es
kommt hier also darauf an, die Steigung der “Ausgleichsgeraden” zu bestim-
men. Ist u(d) = pd die Funktionsgleichung dieser Geraden, so entsteht durch
die Messwerte ein lineares Gleichungssystem pdi = ui , i = 1, . . . , n. Damit ist
A = d~ : = t(d1 . . . dn ) ∈ Rn×1 , ~b = ~u : = t(u1 . . . un ) ∈ Rn×1 und ~x = p ∈ R1×1 .

Der Ansatz, den man heute als Minimierung der Norm (beziehungsweise des Nor-
menquadrats) von A~x − ~b formuliert, wurde von Gauß im Zusammenhang mit
dem ebenfalls von ihm gefundenen “Fehlerwahrscheinlichkeitsgesetz” eingeführt,
aus dem sich herleiten lässt, dass bei Beobachtungsgrößen, die nur mit “zufälli-
gen” Fehlern behaftet sind, der günstigste Wert der unbekannten Größe durch
Minimierung der entsprechenden “Fehlerquadratsumme” gewonnen werden kann.

In unserem Fall ist also p so zu bestimmen, dass


n
X
kpd~ − ~u k2 = (pdi − ui )2
i=1

minimal wird. Nach (2.35) gilt

hpd~ − ~u, pd~ − ~u i = p2 kdk


~ 2 − 2phd,
~ ~u i + k~u k2 ,

sodass sich durch quadratische Ergänzung oder durch Differenzieren nach p die
~ ui
hd,~
Steigung p0 = ergibt, für die die Quadratsumme ihren kleinsten Wert an-
kd~ k2
nimmt.

Im allgemeinen Fall ist dieses Vorgehen nicht möglich, aber schon die Veranschau-
lichung des speziellen Falles für n = 2 führt zu einer wesentlichen Idee (Abbildung
2.5): Die Vektoren p0 d~ und p0 d~ − ~u sind orthogonal, da
~ u i2
hd,~ ~ u i2
hd,~
~ p0 d~ − ~u i = p2 kd~ k2 − p0 hd,
hp0 d, ~ ~u i = − =0
0
kd~ k2 kd~ k2

gilt. Im Hinblick auf den allgemeinen Fall lässt sich damit p0 d~ als Orthogonal-
projektion von ~u auf den Untervektorraum S(d~ ) deuten.

Wir definieren nun zunächst die beiden Lösungstypen, die den anschließenden
Weg zur allgemeinen und eindeutigen Lösung des linearen Ausgleichsproblems
bestimmen.
158 Das lineare Ausgleichsproblem 2.4.5

~e2
~u
p0 d~ − ~u
d~

p0 d~

~e1

Abbildung 2.5: Orthogonalprojektion

Definition der Ausgleichslösung und der Optimallösung


Ist A ∈ Km×n \ {(0)} und ~b ∈ Km×1 , so heißt ~x1 ∈ Kn×1 Ausgleichslösung von
A~x = ~b genau dann, wenn kA~x1 − ~bk ≤ kA~x − ~bk für alle ~x ∈ Kn×1 gilt, wobei
die Norm durch das Standardskalarprodukt induziert sei.
Ein Vektor ~x0 ∈ Kn×1 wird genau dann Optimallösung von A~x = ~b genannt,
wenn ~x0 eine Ausgleichslösung mit minimaler Norm ist.

Satz über die Ausgleichslösungen


Es sei A ∈ Km×n \ {(0)} und ~b ∈ Km×1 . Dann sind die folgenden Aussagen
äquivalent:
i) ~x1 ∈ Kn×1 ist eine Ausgleichslösung von A~x = ~b;
ii) A~x1 stellt die Orthogonalprojektion von ~b auf S(A) dar;
iii) Es gelten die Normalgleichungen
(2.43) ĀA~x1 = tĀ~b.
t

Beweis (a1):

Der Satz über orthogonale Komplemente (Seite 153) ergibt für ~b die eindeutige
Darstellung ~b = ~bs + ~bl mit orthogonalen Vektoren ~bs ∈ S(A) und ~bl ∈ L(A).

Da A~x − ~bs für jedes ~x ∈ Kn×1 in S(A) liegt, sind auch A~x − ~bs und ~bl = ~b − ~bs
orthogonal. Mit Hilfe der Pythagoras-Gleichung (2.37) erhalten wir also kA~x −
~bk2 = k(A~x − ~bs ) − (~b − ~bs )k2 = kA~x − ~bs k2 + k~b − ~bs k2 für jedes ~x ∈ Kn×1 .

Damit ist kA~x1 − ~bk genau dann minimal, wenn A~x1 = ~bs gilt. Wegen A~x1 − ~b =
2.4.5 Das lineare Ausgleichsproblem 159

~bs − ~b = −~bl ∈ L(Ā) ist dieses gleichbedeutend mit tĀ(A~x1 − ~b ) = (0) also mit
der Gültigkeit der Normalgleichungen tĀA~x1 = tĀ~b.
Wegen ihrer Bedeutung bezeichnen wir die Koeffizientenmatrix tĀA der Normal-
gleichungen als Normalmatrix von A. Die folgenden Ergebnisse über Normalma-
trizen benötigen wir, um Aussagen über die Lösbarkeit und die Lösungsmenge
der Normalgleichungen zu erhalten.

Satz über die Normalmatrix


Für jedes A ∈ Km×n
r gilt
i) N(A) = N(tĀA),
ii) S(tĀ) = S(tĀA) und
iii) Rang tĀA = r.
Insbesondere stellt tĀA genau für r = n eine invertierbare Matrix dar.

Beweis (a1):
Aus ~x ∈ N(A) folgt tĀA~x = ~0, also N(A) ⊆ N(tĀA). Umgekehrt gilt kA~x k2 =
t¯ t
~x ĀA~x = 0 für alle ~x ∈ N(tĀA). Wegen der Anisotropie der Norm ergibt sich
A~x = ~0, also N(tĀA) ⊆ N(A) und damit N(A) = N(tĀA).
Aufgrund des Satzes über orthogonale Komplemente (Seite 153) erhalten wir dar-
aus S(tĀ) = Z(Ā) = N(A)⊥ = N(tĀA)⊥ = Z(tAĀ) = S(tĀA). Wegen Rang tĀA =
dim S(tĀA) = dim S(tĀ) = Rang tĀ = Rang A nach (2.16) und (2.17) gilt iii).
Da tĀA ∈ Kn×n ist, folgt die Invertierbarkeitsaussage mit Hilfe des Satzes über
Rechts- und Linksinverse (Seite 142).
Ist p eine Primzahl, K = Zp der zugehörige endliche Körper und A : = t (1 . . . 1) ∈
Kp×1 , so gilt tAA = (0) ∈ K1×1 . Solche “Degenerationen” sind ein Grund dafür,
dass die vielen Anwendungen, in denen tAA (beziehungsweise tĀA) eine Rolle
spielt, nicht auf endliche Körper oder auf Körper, die einen endlichen Körper
enthalten, übertragen werden können.

Satz über die Normalgleichungen


Für jedes A ∈ Km×n
r \ {(0)} und alle ~b ∈ Km×1 sind die Normalgleichungen
(2.43) lösbar.
160 Das lineare Ausgleichsproblem 2.4.5

Im Falle r = n ist die Lösung ~x1 : = (tĀA)−1 tĀ~b eindeutig bestimmt, und
P̂ : Km×1 → S(A), ~b 7→ P~b mit P : = A(tĀA)−1 tĀ ∈ Km×m stellt die
Orthogonalprojektion von Km×1 auf S(A) dar.

Beweis (a1):

Es ist tĀ~b ∈ S(tĀ), und aufgrund des Satzes über die Normalmatrix (Seite 159 ii))
gilt S(tĀ) = S(tĀA). Der Satz über die Lösbarkeit eines inhomogenen Gleichungs-
systems (Seite 135) ergibt damit, dass tĀA~x = tĀ~b stets lösbar ist.

Ebenfalls mit Hilfe des Satzes über die Normalmatrix folgt, dass tĀA für r = n
eine invertierbare Matrix darstellt, sodass in diesem Fall die Lösung ~x1 eindeutig
ist. Der Satz über die Ausgleichslösungen (Seite 158) zeigt dann, dass ~x1 = A~x1 =
A(tĀA)−1 tĀ~b = P~b für jedes ~b ∈ Km×1 die Orthogonalprojektion von ~b auf S(A)
liefert.

Es ist unmittelbar zu erkennen, dass die Matrix P die Gleichungen P 2 = P und


t
P̄ = P erfüllt. Eine Matrix aus Km×m mit diesen beiden Eigenschaften heißt
Projektionsmatrix. Ist K ein beliebiger Körper und P ∈ Km×m , so wird nur die
Bedingung P 2 = P für eine Projektionsmatrix P gefordert. Der folgende Satz
bereitet die abschließende Lösung des linearen Ausgleichsproblems vor, bei der
Projektionsmatrizen eine wesentliche Rolle spielen werden.

Satz über die Optimallösung


Es sei A ∈ Km×n \ {(0)} und ~b ∈ Km×1 . Ein Vektor ~xo ∈ Kn×1 ist genau dann
Optimallösung von A~x = ~b, wenn
i) A~xo die Orthogonalprojektion von ~b auf S(A) darstellt und
ii) ~xo in Z(Ā) liegt.
Dadurch ist ~xo eindeutig bestimmt, und es gilt ~xo = α(~b ).

Beweis (a1):

Aufgrund des Satzes über die Ausgleichslösungen (Seite 158) ist Teil i) äquivalent
dazu, dass jede Optimallösung eine Ausgleichslösung darstellt.

Es sei also ~bs die Orthogonalprojektion von ~b auf S(A) und ~xo eine beliebige
2.4.5 Das lineare Ausgleichsproblem 161

Lösung von A~x = ~bs . Aufgrund der Definition von α ist α(~b ) eine solche Lösung.
Der Satz über die Lösungsgesamtheit (Seite 140) ergibt dann, dass ~xo = α(~b )+~xn
mit ~xn ∈ N(A) gilt, das heißt, alle Ausgleichslösungen von A~x = ~b unterscheiden
sich nur durch die Nullraumkomponente ~xn , die wegen α(~b ) ∈ Z(Ā) zu α(~b )
orthogonal ist. Mit Hilfe der Pythagoras-Gleichung (2.37) folgt also k~xo k2 =
kα(~b ) + ~xn k2 = kα(~b ) k2 + k~xn k2 , sodass k~xo k genau dann minimal ist, wenn
~xn = ~0 und damit ~xo = α(~b ) gilt.

Satz über die Pseudo-Inverse


i) Ist A ∈ Km×n \ {(0)}, und wird
(2.44) A : = trĀ(twĀA trĀ)−1 twĀ
p

gesetzt, so gilt
(2.45) α(~b ) = pA~b für alle ~b ∈ Km×1 .
ii) Multiplikation mit ApA = wA(twĀ wA)−1 twĀ ergibt die Orthogonalprojektion
von Km×1 auf S(A), und Multiplikation mit pAA = trĀ(rAtrĀ)−1 rA liefert die
Orthogonalprojektion von Kn×1 auf Z(Ā).
iii) Die Pseudo-Inverse (Moore-Penrose-Inverse) pA stellt die einzige sym-
metrisch verallgemeinerte Inverse V von A dar, die t (AV ) = AV und
t
(VA) = VA erfüllt.

Beweis (a2):
i) Ist A ∈ Km×n
r \ {(0)}, so sind rA trĀ ∈ Kr×r und twĀwA ∈ Kr×r aufgrund
des Satzes über die Normalmatrix (Seite 159) wegen Rang trĀ = Rang wA = r
invertierbar. Mit der Zerlegung A = wArA aus dem Reduziertensatz (Seite 125)
gilt
(2.46) Ā(twĀA trĀ)−1 twĀ = trĀ(rA trĀ)−1 (twĀwA)−1 twĀ,
tr

sodass pA durch (2.44) definiert werden kann.


Aufgrund des Satzes über die Optimallösung (Seite 160) brauchen wir nur zu zei-
gen, dass pA~b für jedes ~b ∈ Km×1 die Eigenschaften i) und ii) der Optimallösung
hat. Mit A = wArA und (2.46) erhalten wir ApA = wA(twĀwA)−1 twĀ. Da die Rang-
bedingung erfüllt ist, ergibt der Satz über die Normalgleichungen (Seite 159),
p
dass Ad A die Orthogonalprojektion von Km×1 auf S(wA) und damit auf S(A)
darstellt. Wegen pA~b = trĀ~y mit ~y : = (twĀAtrĀ)−1 twĀ~b ∈ Kr×1 ist pA~b ∈ S(trĀ),
162 Summe und Durchschnitt von Untervektorräumen 2.4.6

und aufgrund des Satzes über die Gleichheit von Zeilenräumen (Seite 121) gilt
S(trĀ) = Z(rĀ) = Z(Ā).

Damit ist pA~b für jedes ~b ∈ Km×1 die eindeutig bestimmte Optimallösung α(~b ) von
A~x = ~b, das heißt, die Abbildung α : Km×1 → Z(Ā) kann durch die Zuordnung
~y 7→ pA~y erklärt werden, sodass α = pA
b gilt.
p
ii) Oben wurde schon gezeigt, dass A
d A die Orthogonalprojektion von Km×1 auf
S(A) ergibt. Analog folgt mit Hilfe des Satzes über die Normalgleichungen (Seite
AA mit pAA = trĀ(rAtrĀ)−1 rA die Orthogonalprojektion von Kn×1 auf
159), dass pd
S(trĀ) = Z(Ā) liefert. Wegen α = pA
b steht dieses Ergebnis im Einklang damit,
dass  | Z(Ā) und pA
b | S(A) Umkehrabbildungen voneinander sind, wodurch sich
der Name “Pseudo-Inverse” für pA rechtfertigen lässt.

iii) Die vier Eigenschaften (a) A pAA = A, (b) pAA pA = pA, (c) t (A pA) = A pA, (d)
t p
( AA) = pAA ergeben sich ohne Weiteres durch Ausrechnen. Sind X, Y ∈ Kn×m
Matrizen, die anstelle von pA die Gleichungen (a) bis (d) erfüllen, so folgt
b c a c
X = XAX = X tX̄ tĀ = X tX̄ tĀt Ȳ tĀ = XAXAY
b b d a d a
= XAY = XAYAY = tĀtX̄ tĀt Ȳ Y = tĀt Ȳ Y = YAY = Y.
Damit ist pA die einzige Matrix, für die (a) bis (d) gilt.

Die Pseudo-Inverse pA heißt auch Moore-Penrose-Inverse, weil E. H. Moore


(1920) als Erster Matrizen mit den Eigenschaften (a) bis (d) untersuchte und
weil R. Penrose (1955) die bis dahin nicht beachteten Ergebnisse von Moore
neu entdeckte. Zu (2.44) analoge Darstellungen ergeben sich für jede Vollrangzer-
legung A = BC mit B ∈ Km×r r und C ∈ Kr×n
r . Zum Beispiel verwendet G. Strang
anstelle von wA und rA die Matrizen U : = P −1 U (~e1 . . . ~er ) und S : = t (~e1 . . . ~er )S,
wobei P, U und S durch den Zerlegungsalgorithmus bestimmt sind. Im Satz über
die Singulärwert-Darstellung der Pseudo-Inversen (Seite 328) findet sich eine ein-
fachere Darstellung für pA, die aber in der Regel nur näherungsweise berechnet
werden kann.

2.4.6 Summe und Durchschnitt von Untervektorräumen

Die beiden Summendarstellungen (2.40) und (2.41) aus dem Satz über orthogonale
Komplemente (Seite 153) haben sich bei der Lösung des linearen Ausgleichspro-
blems schon als sehr nützlich erwiesen. Wir wollen deshalb diesen Abschnitt mit
2.4.7 Beispiel zur Summe von Untervektorräumen 163

der Einordnung des speziellen Sachverhalts in die allgemeine Theorie abschließen,


wobei sich sowohl wichtige Zerlegungen von Vektorräumen als auch Zuordnungen
von Untervektorräumen zu zwei (oder mehr) Untervektorräumen ergeben.

Definition der Summe von Untervektorräumen


Sind U und V Untervektorräume eines K -Vektorraums W, so wird
U + V : = {w
~ ∈ W | Es gibt ~u ∈ U und ~v ∈ V, sodass w
~ = ~u + ~v ist}
Summe von U und V genannt.

Der folgende Satz enthält eine einfachere Darstellung für U + V, die zugleich
zeigt, dass U + V stets ein Untervektorraum ist:

Satz über die Summe von Untervektorräumen


Sind U und V Untervektorräume eines K -Vektorraums, so gilt
U + V = Lin (U ∪ V).

Beweis (r1):
Für alle ~u ∈ U und alle ~v ∈ V folgt wegen ~u, ~v ∈ U ∪ V, dass ~u +~v ∈ Lin (U ∪ V)
und damit U + V ⊆ Lin (U ∪ V) gilt.
Umgekehrt gibt es zu jedem w ~ ∈ Lin (U ∪ V) definitionsgemäß Elemente ~u1 , . . . ,
~uk ∈ U, ~v1 , . . . , ~vm ∈ V und λ1 , . . . , λk , µ1 , . . . , µm ∈ K, sodass w
~ = λ1~u1 +
· · · + λk ~uk + µ1~v1 + · · · + µm~vm ist. Setzen wir ~u : = λ1~u1 + · · · + λk ~uk und
~v : = µ1~v1 +· · ·+µm~vm , so gilt w
~ = ~u+~v mit ~u ∈ U und ~v ∈ V, also w
~ ∈ U+V.

2.4.7 Beispiel zur Summe von Untervektorräumen

Sind A ∈ Km×n , B ∈ Km×r und C : = (A B) ∈ Km×(n+r) , so gilt S(A) + S(B) =


 
~u
S(C); denn wegen A~u + B~v = (A B) für alle ~u ∈ Kn×1 und alle ~v ∈ Kr×1
~v
ist ~x ∈ S(A) + S(B) genau dann erfüllt, wenn ~x ∈ S(C) gilt.
Die Vereinigung von Untervektorräumen U und V eines K -Vektorraums ist im
Allgemeinen kein K -Vektorraum, zum Beispiel
         
1 0 2×1 1 0 1
Lin ∪ Lin ⊂R enthält nicht + = .
0 1 0 1 1
164 Summe und Durchschnitt von Untervektorräumen 2.4.8

Für den mengentheoretischen Durchschnitt von zwei (oder mehr) Untervektorräu-


men gilt dagegen:

Satz über den Durchschnitt von Untervektorräumen


Sind U und V Untervektorräume eines K -Vektorraums W, so ist auch ihr
Durchschnitt U ∩ V ein Untervektorraum von W.

Beweis (r1):

Aus ~x, ~x 0 ∈ U ∩ V und c ∈ K folgt ~x + ~x 0 ∈ U, c~x ∈ U, ~x + ~x 0 ∈ V und


c~x ∈ V, also ~x + ~x 0 ∈ U ∩ V und c~x ∈ U ∩ V. Außerdem ist ~0 ∈ U ∩ V. Aufgrund
des Satzes zur Definition des Untervektorraums (Seite 98) ist damit U ∩ V ein
Untervektorraum von W.

2.4.8 Beispiel zum Durchschnitt von Vektorräumen


 
k×n m×n A
Sind A ∈ K , B ∈ K und D : = ∈ K(k+m)×n , so gilt N(A)∩N(B) =
B
N(D); denn A~x = ~0 und B~x = ~0 sind genau dann gleichzeitig erfüllt, wenn
 
A
D~x = ~x = ~0 ist.
B
Nachdem wir (2.23) als “erste Dimensionsformel” hergeleitet haben (Seite 130),
beweisen wir nun mit Hilfe des Durchschnitts als zweite Dimensionsformel ei-
ne Darstellung für dim(U + V), die im Verallgemeinerungssatz (Seite 242) auf
beliebige endlich erzeugte K -Vektorräume übertragen wird.

Satz über die zweite Dimensionsformel


Sind U und V Untervektorräume von Kn×1 , so gilt
(2.47) dim (U + V) = dim U + dim V − dim (U ∩ V).

Beweis (a2):

Es sei {~a1 , . . . , ~ak } eine Basis von U, {~b1 , . . . , ~bm } eine Basis von V und C : =
(~a1 . . . ~ak ~b1 . . . ~bm ). Der Beweis erfolgt dann in drei Schritten:
2.4.8 Summe und Durchschnitt von Untervektorräumen 165

1. dim (U + V) = dim S(C);

2. dim (U ∩ V) = dim N(C);

3. dim (U ∩ V) + dim (U + V) = dim U + dim V.

1. Schritt: Nach Beispiel 2.4.7 ist U + V = S(C), also

(2.48) dim (U + V) = dim S(C).

2. Schritt: Den Zusammenhang zwischen N(C) und U ∩ V erkennen wir durch


folgende Überlegung: Da t(x1 . . . xk+m ) ∈ N(C) genau dann gilt, wenn x1~a1 +
· · · + xk~ak + xk+1~b1 + · · · + xk+m~bm = ~0 ist, spalten wir die Summe auf und setzen
~y : = x1~a1 + · · · + xk~ak = −xk+1~b1 − · · · − xk+m~bm . Damit folgt ~y ∈ U ∩ V. Wir
definieren deshalb
f : N(C) → U ∩ V, t(x1 . . . xk+m ) 7→ x1~a1 + · · · + xk~ak
und zeigen, dass jede Basis von N(C) durch f auf eine Basis von U∩V abgebildet
wird.

a) f ist bijektiv: Da {~a1 , . . . , ~ak } und {~b1 , . . . , ~bm } linear unabhängig sind, gibt es
aufgrund des Satzes über eindeutige Linearkombinationen (Seite 108) zu jedem
~y ∈ U ∩ V genau eine Linearkombination ~y = x1~a1 + · · · + xk~ak ∈ U und genau
eine Linearkombination ~y = −xk+1~b1 −· · ·−xk+m~bm ∈ V, also genau einen Vektor
~x : = t(x1 . . . xk+m ) ∈ N(C) mit f (~x) = ~y .

b) Sind ~x, ~x 0 ∈ N(C) und ist c ∈ K, so gilt

f (~x + ~x 0 ) = (x1 + x10 )~a1 + · · · + (xk + xk0 )~ak = f (~x) + f (~x 0 ) und
f (c~x) = (cx1 )~a1 + · · · + (cxk )~ak = cf (~x).
−1
c) {~c1 , . . . , ~cp } sei eine Basis von N(C). Ist ~y ∈ U∩V und ~x : = f(~y ) = : u1~c1 +· · ·+
up~cp , so folgt wegen b) mit vollständiger Induktion ~y = u1 f (~c1 ) + · · · + up f (~cp ),
das heißt Lin {f (~c1 ), . . . , f (~cp )} = U ∩ V.

d) {f (~c1 ), . . . , f (~cp )} ist linear unabhängig, denn aus v1 f (~c1 ) + · · · + vp f (~cp ) = ~0


folgt f (v1~c1 + · · · + vp~cp ) = ~0 (wegen b)), v1~c1 + · · · + vp~cp = ~0 (wegen f (~0) = ~0
und wegen der Bijektivität von f ), v1 = . . . = vp = 0 (wegen der linearen
Unabhängigkeit von ~c1 , . . . , ~cp ). Damit ist {f (~c1 ), . . . , f (~cp )} eine Basis von U∩V,
also dim (U ∩ V) = dim N(C).
166 Summe und Durchschnitt von Untervektorräumen 2.4.8

(2.23) (2.48)
3. Schritt: Nun folgt p = dim (U ∩ V) = dim N(C) = (k + m) − dim S(C) =
(k + m) − dim (U + V). Da k = dim U und m = dim V ist, haben wir damit die
Behauptung des Satzes.

Der Fall U ∩ V = {~0}, also dim(U + V) = dim U + dim V, ist besonders wichtig:

Definition der direkten Summe


Sind U und V Untervektorräume des K -Vektorraums W, so heißt W direkte
Summe von U und V (in Zeichen: W = U⊕V) genau dann, wenn W = U+V
und U ∩ V = {~0} gilt.

Neben dieser Definition werden auch andere Charakterisierungen benötigt.

Satz über direkte Summen


Für Untervektorräume U, V und W von Kn×1 sind folgende Aussagen äqui-
valent:
i) W = U ⊕ V;
ii) Zu jedem w ~ ∈ W gibt es genau ein Paar (~u, ~v ) mit ~u ∈ U, ~v ∈ V und
w
~ = ~u + ~v ;
iii) W = U + V und dim W = dim U + dim V;
iv) U ∩ V = {~0}, U ⊆ W, V ⊆ W und dim W = dim U + dim V.

Beweis (r1):

~ ∈ W eine Darstellung w
i) und ii) haben gemeinsam, dass jedes w ~ = ~u + ~v mit
~u ∈ U und ~v ∈ V besitzt. Die Herleitung der Eindeutigkeit aus U ∩ V = {~0}
und des umgekehrten Schlusses erfolgt jeweils indirekt: Hätte w ~ zwei verschiedene
~ = ~ui +~vi , i = 1,2, mit ~ui ∈ U, ~vi ∈ V, so läge ~u1 −~u2 = ~v2 −~v1 6=
Darstellungen w
~0 in U ∩ V. Gäbe es in U ∩ V einen von ~0 verschiedenen Vektor ~u, so hätte ~0 die
beiden verschiedenen Darstellungen ~0 = ~0 + ~0 und ~0 = ~u + (−~u).

Zum Nachweis der übrigen Äquivalenzen wird iii) aus i), iv) aus iii) und i) aus iv)
jeweils mit Hilfe der zweiten Dimensionsformel (2.47) hergeleitet. Bei den ersten
beiden benutzt man, dass dim (U ∩ V) = 0 genau dann gilt, wenn U ∩ V = {~0}
ist. Im dritten Fall erhält man zunächst dim W = dim (U + V). Da außerdem
2.4.8 Summe und Durchschnitt von Untervektorräumen 167

U + V ⊆ W ist, stellt jede Basis von U + V auch eine Basis von W dar, sodass
U + V = W gilt.

Mit der Übertragung des Satzes über die zweite Dimensionsformel (Seite 164) auf
beliebige endlich erzeugte K -Vektorräume im Verallgemeinerungssatz (Seite 242)
erweitert sich entsprechend die Gültigkeit des Satzes über direkte Summen. Im
Unterabschnitt 6.2.1 werden direkte Summen für mehr als zwei Untervektorräume
definiert.

Übung 2.4.c

Es seien U, W1 , W2 Untervektorräume eines K -Vektorraums V.


i) Zeigen Sie, dass (U ∩ W1 ) + (U ∩ W2 ) ⊆ U ∩ (W1 + W2 ) gilt.
ii) Geben Sie für V = R2×1 Untervektorräume U, W1 , W2 mit (U ∩ W1 ) +
(U ∩ W2 ) 6= U ∩ (W1 + W2 ) an.

Übung 2.4.d

In dem Vektorraum der Polynome mit Koeffizienten aus R seien U : =


Lin{x3 + 4x2 − x + 3, x3 + 5x2 + 5, 3x3 + 10x2 − 5x + 5} und V : = Lin{x3 +
4x2 + 6, x3 + 2x2 − x + 5, 2x3 + 2x2 − 3x + 9} Untervektorräume. Bestimmen
Sie je eine Basis von U + V und U ∩ V.

Übung 2.4.e

Für ~a ∈ Kn×1 sei E~a : = {~x ∈ Kn×1 | t~a ~x = 0} (vergleiche die Übungen 2.2.c
und 2.2.n).
i) Beweisen Sie, dass E~a ⊕ Lin{~y } = Kn×1 für jedes ~a ∈ Kn×1 und für alle
~y ∈ Kn×1 \ E~a gilt. [Hinweis: Bestimmen Sie im Falle ~a 6= ~0 eine Basis von
E~a , die durch ~y zu einer Basis von Kn×1 ergänzt wird.]
ii) Zeigen Sie für K = R, dass E~a ⊕ Lin {~a} = Rn×1 für jedes ~a ∈ Rn×1
erfüllt ist.

Übung 2.4.f

Wie in Übung 2.2.m seien S und S1 die Untervektorräume der symme-


trischen und der schiefsymmetrischen Matrizen in Kn×n . Zeigen Sie, dass
Kn×n = S ⊕ S1 gilt.
168 Hermitesche Matrizen 2.5.1

2.5 Skalarprodukte und der Orthonormalisie-


rungsalgorithmus

2.5.1 Hermitesche Matrizen

Im letzten Abschnitt wurden einige Begriffe allgemeiner eingeführt als es das li-
neare Ausgleichsproblem erforderte. Wir wollen nun Nutzen daraus ziehen, indem
wir den grundlegenden Begriff des Skalarprodukts in endlich erzeugten K -Vek-
torräumen genauer untersuchen, um schließlich die Berechnung von vielen damit
zusammenhängenden Größen erheblich vereinfachen zu können.

Zunächst klären wir die Beziehung zwischen hermiteschen Formen und Matrizen.
Dazu definieren wir:

Definition der hermiteschen Matrix


Eine Matrix H ∈ Kn×n heißt hermitesch genau dann, wenn H = tH̄ gilt.

Zur Vereinheitlichung der Sprechweise nennen wir im Falle K = R eine symme-


trische Matrix also auch hermitesch - entsprechend der Vereinbarung in der De-
finition der symmetrischen Bilinearform und der hermiteschen Form (Seite 149),
symmetrische Bilinearformen für K = R als hermitesche Formen aufzufassen.

Satz über hermitesche Formen und Matrizen


Es sei V ein K - Vektorraum mit der Basis B : = {~b1 , . . . , ~bn }. Ist h eine
hermitesche Form auf V und MB,h ∈ Kn×n diejenige Matrix, deren Elemente
durch t
~ei MB,h~ek : = h(~bi , ~bk ) für i, k = 1, . . . , n
bestimmt sind, so ergibt die Zuordnung h 7→ MB,h eine bijektive Abbildung
von der Menge der auf V hermiteschen Formen auf die Menge der hermite-
schen Matrizen in Kn×n .
Mit Hilfe des Koordinatenisomorphismus
Xn
κB : V → K , n×1
xk~bk 7→ t(x1 . . . xn ),
k=1
kann die Umkehrabbildung H 7→ fB,H durch
fB,H (~x, ~y ) : = tκB (~x)H κB (~y ) für alle ~x, ~y ∈ V
dargestellt werden.
2.5.2 Positiv definite Matrizen 169

Beweis (a2):

Da keine Missverständnisse auftreten können, lassen wir hier der Einfachheit


halber überall den Index B für die festliegende Basis weg.

i) Wegen t~ek Mh~ei = h(~bk , ~bi ) = h(~bi , ~bk ) = t~ei Mh~ek für i, k = 1, . . . , n ist Mh für
jede hermitesche Form h auf V eine hermitesche Matrix.

ii) Die wichtige bijektive Abbildung κ, deren Bezeichnung sich im vierten Kapitel
klären wird, hat aufgrund des Satzes über eindeutige Linearkombinationen (Seite
108) die “Linearitätseigenschaft”

κ(λ~x + µ~y ) = λκ(~x ) + µκ(~y ) für alle ~x, ~y ∈ V und alle λ, µ ∈ K.

Der Satz über Matrizenmultiplikation (Seite 39) ergibt damit H1. Wegen fH (~y , ~x )
= tκ(~y )Hκ(~x ) = t tκ(~x )tH̄ = fH (~x, ~y ) gilt auch H2, sodass fH für jede hermi-


tesche Matrix H ∈ Kn×n eine hermitesche Form auf V darstellt.

iii) Die Umkehreigenschaften lassen sich einfach nachweisen, wenn man beachtet,
dass κ(~bj ) = ~ej für j = 1, . . . , n gilt. Ist H ∈ Kn×n eine hermitesche Matrix, so
erhalten wir t~ei H~ek = tκ(~bi )Hκ(~bk ) = fH (~bi , ~bk ) = t~ei MfH ~ek für i, k = 1, . . . , n,
also H = MfH . Wegen Mh = H für h : = fH folgt daraus die Surjektivität von
h 7→ Mh .

Für jede hermitesche Form h auf V und für i, k = 1, . . . , n gilt

fMh (~bi , ~bk ) = t~ei Mh~ek = h(~bi , ~bk ).


Mit H1 und H2 sowie durch vollständige Induktion ergibt sich
n X
X n
(2.49) h(~x, ~y ) = ~ei κ(~x ) t~ek κ(~y ) h(~bi , ~bk ) für alle ~x, ~y ∈ V.
t

i=1 k=1

Damit folgt fMh = h. Ist h0 = fMh0 eine von h verschiedene hermitesche Form auf
V, so gilt auch fMh0 6= fMh , also Mh0 6= Mh , das heißt, h 7→ Mh ist bijektiv, und
H 7→ fH stellt die Umkehrabbildung von h 7→ Mh dar.

2.5.2 Positiv definite Matrizen

In dem Satz über hermitesche Formen und Matrizen (Seite 168) haben wir ei-
ne umkehrbar eindeutige Zuordnung aller hermiteschen Formen auf einem n -
170 Positiv definite Matrizen 2.5.2

dimensionalen K - Vektorraum und aller hermiteschen Matrizen in Kn×n erhal-


ten. Um auch die Skalarprodukte vollständig beschreiben zu können, benötigen
wir eine Charakterisierung derjenigen hermiteschen Matrizen, die zu positiv de-
finiten hermiteschen Formen gehören. Wir definieren diese Eigenschaft zunächst
auf naheliegende aber ineffiziente Weise und beweisen anschließend eine einfache
notwendige und hinreichende Bedingung für das Vorliegen dieses Merkmals, das
auch in anderen Zusammenhängen eine Rolle spielt.

Definition der positiv definiten Matrix


Eine hermitesche Matrix H ∈ Kn×n heißt positiv definit genau dann, wenn

~x H ~x > 0 für alle ~x ∈ Kn×n \ {~0} gilt.

Wegen dieser Definition und wegen der Bijektivität des Koordinatenisomorphis-


mus κB ist die im Satz über hermitesche Formen und Matrizen (Seite 168) für
alle ~x, ~y ∈ V definierte hermitesche Form

fB,H (~x, ~y ) = tκB (~x ) H κB (~y )

genau dann ein Skalarprodukt auf V, wenn H eine positiv definite Matrix dar-
stellt. Die Zuordnung H 7→ fB,H ergibt also eine bijektive Abbildung von der
Menge der positiv definiten Matrizen aus Kn×n auf die Menge der Skalarpro-
dukte auf V. Damit erhalten wir durch das folgende effiziente Kriterium für die
positive Definitheit von hermiteschen Matrizen auch eine vollständige Übersicht
über alle Skalarprodukte auf endlich erzeugten K -Vektorräumen.

Satz über die UDO -Darstellung von positiv definiten Matrizen


Eine hermitesche Matrix H ∈ Kn×n ist genau dann positiv definit, wenn der
Zerlegungsalgorithmus ohne Zeilenvertauschungen eine UDO -Darstellung für
H ergibt, bei der D nur positive reelle Diagonalelemente enthält.

Beweis (a2):

Um uns mit der Situation vertraut zu machen, beginnen wir mit dem einfacheren
Nachweis dafür, dass die Existenz einer UDO -Zerlegung mit positiven reellen Dia-
gonalelementen in D für die positive Definitheit von H hinreichend ist. Zunächst
schließen wir aus H = UDO und aus der Invertierbarkeit von U, D und O, dass H
2.5.2 Positiv definite Matrizen 171

invertierbar ist. Aufgrund des Satzes über die Eindeutigkeit der UDO -Zerlegung
(Seite 61) folgt dann aus UDO = H = tH̄ = tŌtD̄tŪ = tŌDtŪ , dass U = tŌ und
O = tŪ gilt. Mit den Abkürzungen t~ck : = t~ek O für die Zeilenvektoren von O und
dk : = t~ek D~ek > 0, k = 1, . . . , n, für die Diagonalelemente von D erhalten wir
also
X n
t¯ t
(2.50) ~xH~x = (O~x )D(O~x ) = dk (t~ck ~x )(t~ck ~x ) ≥ 0 für alle ~x ∈ Kn×1 .
k=1

Da O eine invertierbare Matrix darstellt, gilt t~ck ~x = 0 für k = 1, . . . , n genau


dann, wenn ~x = ~0 ist. Also folgt, dass H positiv definit ist.

Nun zeigen wir, dass jede positiv definite hermitesche Matrix H eine UDO -Zerle-
gung (ohne Zeilenvertauschungen) mit positiven Diagonalelementen in D besitzt.
Zuerst erkennen wir indirekt, dass H invertierbar ist; denn andernfalls hätte
H linear abhängige Spaltenvektoren. Dann gäbe es einen Vektor ~x 6= ~0, sodass
H~x = ~0 und damit t~x¯H~x = ~0 wäre - im Widerspruch zur positiven Definitheit
von H.

Mit der Abkürzung Hk : = t(~e1 . . . ~ek )H(~e1 . . . ~ek ) ∈ Kk×k , k = 1, . . . , n, für die
k -te Hauptuntermatrix von H und mit ~xk ∈ Kk×1 sowie ~0 ∈ K(n−k)×1 gilt
 
~xk
t¯ t~
( ~xk 0)H ~ = t~x¯k Hk ~xk ,
0
das heißt, Hk ist für jedes k ∈ In positiv definit und damit invertierbar. Wen-
den wir von den elementaren Zeilenumformungen, die H in die Stufenmatrix
S überführen, diejenigen, die nur die ersten k Zeilen betreffen, auf Hk an, so
erhalten wir die k - te Hauptuntermatrix Sk von S. Müsste die k - te Zeile mit
einer darunterliegenden vertauscht werden, weil das letzte Diagonalelement von
Sk gleich Null ist, so enthielte Sk eine Nullzeile. Dann wäre Sk und damit auch
Hk nicht invertierbar - im Widerspruch zu der obigen Folgerung aus der positiven
Definitheit von Hk .

Da H selbst invertierbar ist und da keine Zeilenvertauschungen notwendig sind,


besitzt H eine eindeutige UDO -Zerlegung. Für die hermitesche Matrix H ergibt
sich also wie bei (2.50) die Darstellung
n
X

~xH~x = dk (t~ck ~x )(t~ck ~x ).
k=1
172 Positiv definite Matrizen 2.5.2

Für ~yi : = O−1~ei , i = 1, . . . , n, gilt dann t~y¯i H~yi = di ∈ K, und aus der positiven
Definitheit von H folgt di > 0 für i = 1, . . . , n.

Die spezielle UDO -Zerlegung, die sich für positiv definite Matrizen in dem obigen
Beweis ergab, führt zu einer weiteren Zerlegung, die in dem folgenden Satz einen
nützlichen Zusammenhang mit den Normalmatrizen herstellt.

Satz über Definitheit und Normalmatrizen


i) Ist H ∈ Kn×n eine positiv definite Matrix mit der Zerlegung H = tŌDO
1
und bezeichnet D 2 diejenige Diagonalmatrix, deren Diagonalelemente die
Quadratwurzeln der entsprechenden Elemente von D sind, so folgt
1
(2.51) H = tR̄R mit R : = D 2 O, 13
und R stellt die einzige obere Dreiecksmatrix mit positiven reellen Diagonal-
elementen dar, die H = tR̄R erfüllt.
ii) Es gilt
t¯ t
(2.52) ~x ĀA~x ≥ 0 für jedes A ∈ Km×n und für alle ~x ∈ Kn×1 .

iii) Die Normalmatrix tĀA ist für jedes A ∈ Km×n hermitesch. Sie ergibt
genau dann eine positiv definite Matrix, wenn A ∈ Km×n
n ist.

Beweis (a1):

i) Aufgrund des Satzes über die UDO -Darstellung von positiv definiten Matrizen
(Seite 170) hat H die Zerlegung H = tŌDO mit einer normierten oberen Drei-
ecksmatrix O und einer Diagonalmatrix D, deren Diagonalelemente reell und
1 1 1
positiv sind. Deshalb kann D 2 gebildet werden. Es folgt H = tŌD 2 D 2 O =
1 1 1
t
(D 2 O)(D 2 O), wobei D 2 O als Produkt von invertierbaren oberen Dreiecksma-
1 1
trizen von demselben Typ ist. Die Diagonalelemente von D 2 O und D 2 stimmen
überein.

Da sich jede obere Dreiecksmatrix R1 mit positiven reellen Diagonalelementen in


1
der Form R1 = D12 O1 mit einer positiv definiten Diagonalmatrix D1 und einer
normierten oberen Dreiecksmatrix O1 schreiben lässt, folgt aus H = tR̄1 R1 =

13
Für K = R wird diese Darstellung in der numerischen Mathematik Cholesky-Zerlegung
genannt.
2.5.3 Orthonormalbasen 173

t
Ō1 D1 O1 aufgrund des Satzes über die Eindeutigkeit der UDO -Zerlegung (Seite
61), dass D1 = D, O1 = O und damit R1 = R ist.

ii) Wegen t~x¯ tĀA~x = t(A~x )(A~x ) = kA~x k2 mit der Norm zum kanonischen Skalar-
produkt in Km×1 gilt t~x¯ tĀA~x ≥ 0 für alle ~x ∈ Kn×1 .

iii) Da t(tĀA) = tĀA ist, stellt tĀA für jedes A ∈ Km×n eine hermitesche Ma-
trix dar. Der Beweis zu ii) zeigt, dass tĀA genau dann positiv definit ist, wenn
N(A) = {~0} gilt. Die erste Dimensionsformel (2.23) ergibt damit Rang A = n
als notwendige und hinreichende Bedingung für die positive Definitheit der Nor-
malmatrix tĀA.

Übung 2.5.a
Zeigen Sie für jede positiv definite Matrix H ∈ Kn×n : Es gibt “Linear-
formen” fi : Kn×1 → K, i = 1, . . . , n, mit fi (λ~y + µ~z ) = λfi (~y ) + µfi (~z )
für alle ~y , ~z ∈ Kn×1 , alle λ, µ ∈ K und für jedes i ∈ In , sodass t~x¯H~x =
|f1 (~x )|2 + · · · + |fn (~x )|2 für alle ~x ∈ Kn×1 gilt.

2.5.3 Orthonormalbasen

Ist V ein euklidischer oder unitärer Vektorraum mit der Basis B = {~b1 , . . . , ~bn },
so lassen sich aufgrund des Satzes über hermitesche Formen und Matrizen (Seite
168) die Werte des Skalarprodukts h , i in der Form
h~x, ~y i = tκB (~x )MB,h, i κB (~y ) mit t~ei MB,h, i e~k = h~bi , ~bk i,
(2.53)
i, k ∈ In , für alle ~x, ~y ∈ V
darstellen.

Für die positiv definite Matrix MB,h, i , die Strukturmatrix (zur Basis B) genannt
wird, ergibt der Satz über Definitheit und Normalmatrizen (Seite 172) die Zerle-
gung
(2.54) MB,h, i = tR̄R
mit einer eindeutig bestimmten oberen Dreiecksmatrix R, deren Diagonalelemen-
te reell und positiv sind. Gleichung (2.53) erhält damit die Form

h~x, ~y i = t RκB (~x ) RκB (~y ) .


 

Da R invertierbar ist, liegt die Vermutung nahe, dass es eine Basis B 0 von V gibt,
sodass RκB (~x ) = κB0 (~x ) für alle ~x ∈ V gilt. Um diese Vermutung zu überprüfen,
174 Orthonormalbasen 2.5.3

gehen wir umgekehrt vor und betrachten die Wirkung eines Basiswechsels bei κB .
Es sei also
n
X
(2.55) W = : (wik ) ∈ GL(n; K) und ~bk0 : = wik~bi für k = 1, . . . , n,
i=1
wobei wir in Übereinstimmung mit den Vektorsummen im ersten Kapitel die
Koeffizienten der Linearkombination von ~b k0 dem k - ten Spaltenvektor von W
entnehmen.
n
Mit ~c = t(c1 . . . cn ) folgt aus ~0 = ci~bi0 und (2.5), dass W~c = ~0 also ~c = ~0
P
i=1
gilt. Damit ist B : = {~b10 , . . . , ~bn0 } eine linear unabhängige Menge in V, und der
0

Basissatz (Seite 113) ergibt, dass B 0 eine Basis von V darstellt. Wegen
Xn n
X Xn X n
~x = ~
x i bi = 0~ 0
xk bk = wik xk0~bi für jedes ~x ∈ V
i=1 k=1 k=1 i=1
n
wik xk0 für i = 1, . . . , n aufgrund des Satzes über eindeutige Linear-
P
folgt xi =
k=1
kombinationen (Seite 108), das heißt, es gilt
(2.56) κB (~x ) = WκB0 (~x ) für alle ~x ∈ V,

wobei B 0 = {~b10 , . . . , ~bn0 } durch (2.55) definiert ist.

Wird (2.56) in (2.53) eingesetzt, so ergibt sich wegen der Eindeutigkeit der Dar-
stellung die “Transformationsformel”
(2.57) MB0 ,h, i = tW MB,h, i W.
Mit W : = R−1 und wegen (2.54) erhalten wir insbesondere MB0 ,h, i = En und
(2.58) h~x, ~y i = tκB0 (~x )κB0 (~y ) für alle ~x, ~y ∈ V.
Bei dieser speziellen Basis lassen sich die Werte des Skalarprodukts h , i also sehr
einfach mit Hilfe des Standardskalarprodukts in Kn×1 berechnen, während nor-
malerweise die Darstellung (2.49) mit einer Summe von n2 Produkten verwendet
würde. Diese starke Vereinfachung kommt natürlich daher, dass h~bi0 , ~bk0 i = δik für
alle i, k ∈ In gilt. Da Basen mit dieser Eigenschaft in jedem euklidischen oder
unitären Vektorraum eine besondere Rolle spielen, haben sie einen Namen:

Definition der Orthonormalbasis


Ist V ein euklidischer oder unitärer Vektorraum, so heißt eine Basis B von
V Orthonormalbasis genau dann, wenn je zwei verschiedene Vektoren aus B
orthogonal sind und wenn k~bk = 1 für alle ~b ∈ B gilt.
2.5.3 Orthonormalbasen 175

Durch (2.58) wissen wir schon, dass jeder endlich erzeugte euklidische oder unitäre
Vektorraum eine Orthonormalbasis besitzt. Die Herleitung lässt allerdings nicht
erkennen, wieso die neuen Basisvektoren paarweise orthogonal sind. Wir ge-
ben deshalb noch den “anschaulichen” und etwas einfacheren Gram-Schmidt-
Orthonormalisierungsalgorithmus an, den J. P. Gram und E. Schmidt
unabhängig voneinander gefunden haben.

Da die Matrix des Basiswechsels W = R−1 eine obere Dreiecksmatrix mit von
Null verschiedenen Diagonalelementen ist, gilt Lin {~b10 , . . . , ~bk0 } = Lin {~b1 , . . . , ~bk }
für k = 1, . . . , n, und die Vektoren ~bk , k = 1, . . . , n, lassen sich durch
k
X
(2.59) ~bk = rjk~bj0 mit rjk : = t~ej R~ek für j, k ∈ In
j=1

darstellen. Bilden wir auf beiden Seiten von (2.59) die Skalarprodukte mit ~bj0 für
j = 1, . . . , n, so folgt
(2.60) rjk = h~bj0 , ~bk i für j, k ∈ In .
b b −~ ~p ~
Da rkk > 0 und k~bk0 k = 1 gilt, kann ~bk0 rekursiv durch ~b10 = ~ 1 und ~bk0 = ~ k k
kb1 k kbk −~pk k
k−1
P ~0 ~ ~0
mit p~k : = hbj , bk ibj für k = 2, . . . , n berechnet werden. Wegen k~bk − p~k k~bk0 ∈
j=1

(Lin {~b10 , . . . , ~bk−1


0
})⊥ für k = 2, . . . , n ist p~k die Orthogonalprojektion von ~bk auf
Lin {~b 0 , . . . , ~b 0 } (siehe Abbildung 2.6).
1 k−1

~b3

~b 30

~b 20

p~3 = h~b 10 , ~b3 i~b 10 + h~b 20 , ~b3 i~b 20

~b 10

Abbildung 2.6: Orthogonalisierung

Diese wichtigen Ergebnisse fassen wir in dem folgenden Satz zusammen:


176 Beispiel für die Berechnung einer Orthonormalbasis 2.5.4

Orthonormalisierungssatz
Es sei V ein euklidischer oder unitärer Vektorraum mit der Basis {~b1 , . . . , ~bn },
deren Strukturmatrix die eindeutig bestimmte Zerlegung tR̄R habe, wobei R
eine obere Dreiecksmatrix mit positiven reellen Diagonalelementen ist. Dann
stellt {~b10 , . . . , ~bn0 } mit
k
X
~b 0 : = (t~ei R−1~ek )~bi für k = 1, . . . , n
k
i=1

eine Orthonormalbasis von V dar. Diese Basisvektoren lassen sich rekursiv


durch ~ ~ k−1
~b 0 = b1 und ~b 0 = bk − p~k mit p~k : =
X
1 k h~bj0 , ~bk i~bj0
~
kb1 k ~
kbk − p~k k j=1
für k = 2, . . . , n berechnen.

Bei beiden Berechnungsverfahren kann man es so einrichten, dass Quadratwurzeln


1
möglichst spät zu ziehen sind. Einerseits führt nämlich die Darstellung R = D 2 O
nach (2.51) zu der Aufspaltung
k
~b 0 = t~ek D− 21 ~ek 1 1 1
X t
~ei O−1~ek ~bi mit D− 2 : = (D−1 ) 2 = (D 2 )−1 ,

k
i=1
und andererseits lässt sich durch
k k−1 ~ 00 ~
X X hbj , bk i 00
~b 00 : = ~b1 und ~b 00 : = t −1 ~ ~ ~b für k = 2, . . . , n

1 k ~ei O ~ek bi = bk −
h~b 00 , ~b 00 i j
i=1 j=1 j j

eine Basis aus paarweise orthogonalen Vektoren konstruieren, die erst abschlie-
ßend normiert werden.

Da für Vektoren ~b1 , . . . ~bn , die “fast” linear abhängig sind, bei dem zweiten Verfah-
ren durch die Differenzbildung “Auslöschungseffekte” auftreten können, verwen-
det man in der Praxis abgewandelte Orthonormalisierungsalgorithmen, bei denen
zum Beispiel der jeweils neu berechnete Basisvektor von allen verbliebenen (und
eventuell auch schon modifizierten) Vektoren subtrahiert wird.

2.5.4 Beispiel für die Berechnung einer Orthonormalbasis

In dem euklidischen Vektorraum R2×2 mit der Skalarproduktzuweisung hA, B i : =


   
t 1 1 1 1
Sp( AB) gehen wir von den Basiselementen B1 : = , B2 : = ,
1 1 −1 −1
2.5.5 Die QR-Zerlegung 177
 
1 0
B3 : = aus und konstruieren eine Orthonormalbasis von U : = Lin {B1 ,
0 0
B2 , B3 } mit beiden Methoden des Orthonormalisierungssatzes (Seite 176).
 
4 0 1
Die zugehörige Strukturmatrix  0 4 1  besitzt die Zerlegung tRR mit R =
1 1 1 
1 0 14 1 0 − 14
    1 
2 0 0 2
0 0
 0 2 0  0 1 1  , sodass R−1 =  0 1 − 1  0 1 0  ist. Damit
√ 4 4 2 √
0 0 12 2 0 0 1 0 0 1 0 0 2

bilden die Matrizen B10 : = 12 B1 , B20 : = 12 B2 und B30 : = 2 − 41 B1 − 41 B2 + B3 =


 
1 1 −1
2
2 eine Orthonormalbasis von U.
0 0
Der unmodifizierte Orthonormalisierungsalgorithmus von Gram und Schmidt
besteht hier aus den folgenden Rechenschritten: Wegen kB1 k = 2 ist B10 : = 21 B1 .
Da hB10 , B2 i = 0 und kB2 k = 2 gilt, ergibt sich B20 : = 12 B2 . Nun 0
 1 , B2 i =
 führt hB
1 0 1 1 1 1
√ 0 1
√ 1 −1
2
, hB2 , B3 i = 2
und kB3 − 4
B1 − 4
B 2 k = 2
2 zu B 3 = 2
2 .
0 0
Wichtige Beispiele aus der Analysis sind im letzten Abschnitt und in den Ergän-
zungen dieses Kapitels zu finden.

Übung 2.5.b  
2 −1 0
Auf R3×1 werde durch h~x, ~y i : = t~x −1 2 −1  ~y für alle ~x, ~y ∈ R3×1
0 −1 2
eine symmetrische Bilinearform definiert. Zeigen Sie, dass h , i ein Skalar-
produkt darstellt, und bestimmen Sie bezüglich dieses Skalarprodukts eine
Orthonormalbasis für R3×1 .

2.5.5 Die QR-Zerlegung

Ist B = (~b1 . . . ~bn ) ∈ Km×n


n , so bilden die Spaltenvektoren von B eine Basis des
euklidischen oder unitären Vektorraums S(B) mit dem Standardskalarprodukt.
Der Orthonormalisierungssatz (Seite 176) ergibt dann eine Orthonormalbasis für
S(B), deren Vektoren üblicherweise mit ~q1 , . . . , ~qn bezeichnet werden. Für die
Matrix Q : = (~q1 . . . ~qn ) ∈ Kn×m
n gilt also tQ̄Q = En , das heißt, tQ̄ ist eine
Linksinverse von Q. Die Linearkombinationen in (2.59) können jetzt als Matri-
zenprodukt
178 Die QR-Zerlegung 2.5.5

(2.61) B = QR

geschrieben werden, wobei R : = (rik ) ∈ GL(n; K) die eindeutig bestimmte obere


Dreiecksmatrix mit positiven reellen Diagonalelementen aus der Zerlegung tR̄R
der Strukturmatrix zur Basis {~b1 , . . . , ~bn } ist.

Die umgeformten Rekursionsgleichungen des Orthonormalisierungsalgorithmus


(Seite 176)
~bm = h~q1 , ~bm i~q1 + · · · + h~qm−1 , ~bm i~qm−1 + k~bm − p~m k~qm für m = 1, . . . , n

ergeben wegen der Eindeutigkeit der Linearkombinationen die Elemente rik von
R in der einfacher zu berechnenden Form
rik = h~qi , ~bk i für k > i, rii = k~bi − p~i k und rik = 0 für i < k.

Ähnlich wie die US - Darstellung spielt auch die QR - Zerlegung (mit mehreren
Modifikationen) eine wichtige Rolle in der numerischen Mathematik. Zum Bei-
spiel hat das (unlösbare) Gleichungssystem B~x = ~b aufgrund des Satzes über
die Normalgleichungen (Seite 159) und mit (2.61) die eindeutig bestimmte Aus-
gleichslösung
~x1 = (tB̄B)−1 tB̄~b = (tR̄R)−1 tR̄ tQ̄~b = R−1 tQ̄~b,
die wegen der Dreiecksgestalt von R wesentlich leichter zu berechnen ist als die
allgemeine Form von ~x1 .

Ist B und damit auch Q quadratisch mit n linear unabhängigen Spaltenvekto-


ren, so gilt aufgrund des Satzes über Rechts- und Linksinverse (Seite 142) auch
Q tQ̄ = En , das heißt, die Zeilenvektoren von Q sind ebenfalls normiert und
paarweise orthogonal. Vor allem aber ist Q invertierbar mit der sehr einfach zu
bestimmenden Inversen Q−1 = tQ̄. Matrizen mit dieser Eigenschaft spielen un-
abhängig von der QR -Zerlegung in den folgenden Kapiteln und in zahlreichen
Anwendungen eine wichtige Rolle. Wir definieren deshalb schon jetzt:

Definition der orthogonalen und der unitären Matrix


Eine Matrix Q ∈ Rn×n heißt orthogonal genau dann, wenn tQQ = En gilt.
Eine Matrix Q ∈ Cn×n wird genau dann unitär genannt, wenn tQ̄Q = En
erfüllt ist.

Natürlich ist jede orthogonale Matrix auch unitär. Obwohl das Adjektiv “unitär”
2.5.5 Die QR-Zerlegung 179

eigentlich schon (für unitäre Vektorräume) vergeben ist, werden wir es manchmal
auch als Oberbegriff (statt “orthogonal oder unitär”) verwenden.

Wir haben bereits erkannt, dass orthogonale und unitäre Matrizen invertierbar
sind. Es lässt sich leicht zeigen, dass sie sogar Untergruppen von GL(n; K) bilden
(siehe auch die Übungen 1.6.e und 1.6.f). Für unitäre Matrizen A und B gilt
nämlich (AB)−1 = B −1 A−1 = tB̄ tĀ = t(AB) und (A−1 )−1 = A = t(tĀ) = t(A−1 ).
Also sind auch AB und A−1 unitär. Da die übrigen Gruppeneigenschaften schon
in GL(n; K) gelten, erhalten wir zusammenfassend:

Satz über orthogonale und unitäre Gruppen


Wird O(n) : = {Q ∈ Rn×n | tQQ = En } und U(n) : = {Q ∈ Cn×n | tQ̄Q =
En } gesetzt, so stellen O(n) und U(n) zusammen mit der Matrizenmultipli-
kation, der Einheitsmatrix als neutralem Element und der Inversenbildung
Untergruppen von GL (n; K) dar, die orthogonale Gruppe beziehungsweise
unitäre Gruppe (zum Rang n) genannt werden.

Ein weiterer Grund für die Bedeutung der orthogonalen und unitären Matrizen
liegt darin, dass für jede solche Matrix Q die Abbildung Q̂ : Kn×1 → Kn×1 , ~x 7→
Q~x, wegen

(2.62) (Q~x )(Q~y ) = t~x¯ tQ̄Q~y = t~x¯ ~y für alle ~x, ~y ∈ Kn×1
t

das Standardskalarprodukt “invariant” lässt. Damit bleiben Längen und für K =


R auch Winkel erhalten.

In der Geometrie ergeben sich daraus Anwendungen im Umkreis der “Kongruenz-


abbildungen”. Für die numerische Mathematik sind orthogonale Matrizen sehr
wertvoll, unter anderem weil man mit ihrer Hilfe vereinfachen kann, ohne die
Stabilität eines Verfahrens zu gefährden; denn wegen der Längentreue bleiben et-
waige Rundungsfehler unter Kontrolle. Von dieser Art sind auch die Householder-
Transformationen, die in der folgenden Übung auftreten.

Übung 2.5.c

Zeigen Sie, dass Q~a : = En − t~a2~a ~a t~a für jedes ~a ∈ Rn×1 \{~0} eine orthogonale
Matrix ist, und deuten Sie Q̂~a für n = 3 geometrisch.
180 Orthogonale Summen 2.5.6

2.5.6 Orthogonale Summen

Mit Hilfe von Orthonormalbasen können wir nun zeigen, dass in jedem end-
lich erzeugten euklidischen oder unitären Vektorraum V für beliebige Unter-
vektorräume U stets V = Lin(U ∪ U⊥ ) gilt. Dazu ergänzen wir eine Basis
{~b1 , . . . , ~bm } von U zu einer Basis {~b1 , . . . , ~bn } von V, indem wir aus irgendei-
ner Basis B von V n − m Vektoren entnehmen, die zusammen mit ~b1 , . . . , ~bm
linear unabhängig sind. Algorithmisch wenden wir auf die Koordinatenvektoren
κB (~b1 ), . . . , κB (~bm ) den Basisergänzungssatz (Seite 127) mit der Basis {~e1 , . . . , ~en }
von Kn×1 an.

Wird dann der Orthonormalisierungsalgorithmus (Seite 176) mit {~b1 , . . . , ~bn } aus-
geführt, so entsteht eine Orthonormalbasis {~b 0 , . . . , ~b 0 } von V, für die außerdem
1 n

Lin {~b10 , . . . , ~bm


0
~ = λ1~b10 + · · · + λn~bn0 ∈ U⊥ mit λi = h~bi0 , w
} = U gilt. Da w ~i = 0
für i = 1, . . . , m gleichbedeutend ist, muss U⊥ = Lin {~b 0 , . . . , ~b 0 } sein, woraus
m+1 n
sich Lin (U ∪ U⊥ ) = V ergibt.

Wegen der positiven Definitheit des Skalarprodukts ist außerdem U ∩ U⊥ = {~0},


sodass wir V = U ⊕ U⊥ schreiben können. Sind U und W Untervektorräume
von V mit V = U ⊕ W und gilt h~u, w
~ i = 0 für alle ~u ∈ U und w
~ ∈ W, so
bezeichnet man V auch als orthogonale Summe von U und W. Aufgrund der im
Satz über direkte Summen (Seite 166) bewiesenen Eindeutigkeit der Summanden
in der Darstellung als direkte Summe folgt W = U⊥ und W⊥ = U.

Bei nicht endlich erzeugten Vektorräumen braucht eine solche Zerlegung nicht
zu existieren. Man kann zum Beispiel mit Hilfsmitteln aus der Analysis zeigen,
dass in dem euklidischen Vektorraum der auf [0, 1] stetigen Funktionen mit dem
R1
Skalarprodukt (f, g) 7→ f (x)g(x)dx für den Untervektorraum P aller Polynome
0
P⊥ = {0 id0 } gilt.

Mit Hilfe der Zerlegung von V in die orthogonale Summe von U und U⊥ lässt
sich die Orthogonalprojektion ϕ von V auf U durch ϕ(~v ) : = ~u für jedes ~v ∈ V
~ die eindeutig bestimmte Darstellung mit ~u ∈ U
beschreiben, wobei ~v = ~u + w

und w~ ∈ U ist. Eine endliche Orthonormalbasis von U ermöglicht sogar die
explizite Angabe der Orthogonalprojektion ohne Verwendung von U⊥ :
2.5.7 Orthonormalbasen von Polynom-Vektorräumen 181

Satz über die Orthogonalprojektion


Es sei V ein euklidischer oder unitärer Vektorraum und U ein endlich er-
zeugter Untervektorraum von V. Ist {~b10 , . . . , ~bm
0
} eine Orthonormalbasis von
U bezüglich des auf U eingeschränkten Skalarprodukts h , i, so stellt
m
X
ϕ : V → U, ~v 7→ h~v , ~bk0 i~bk0
k=1

die Orthogonalprojektion von V auf U dar.

Beweis (r1):

Einerseits ist ϕ(~v ) ∈ U für alle ~v ∈ V, und andererseits gilt


m
X
h~v − ϕ(~v ), ~bi0 i = h~v , ~bi0 i − h~v , ~bk0 ih~bk0 , ~bi0 i = 0
k=1

für i = 1, . . . , m, sodass ~v − ϕ(~v ) ∈ U folgt.

Übung 2.5.d
Es seien U und W Untervektorräume eines endlich erzeugten euklidischen
oder unitären Vektorraums. Zeigen Sie, dass (U + W)⊥ = U⊥ ∩ W⊥ und
(U ∩ W)⊥ = U⊥ + W⊥ gilt.

2.5.7 Orthonormalbasen von Polynom-Vektorräumen

Im Beispiel 2.2.3.3 haben wir für den R -Vektorraum der Polynome, deren Grad
höchstens n mit n ∈ N ist, die Bezeichnung Pn eingeführt und festgehalten, dass
{id0 , . . . , idn } eine Basis von Pn darstellt. Aufgrund der Definition des Erzeu-
gendensystems (Seite 100) und der Definition der linearen Unabhängigkeit (Seite
103) ist damit {id0 , id1 , . . .} eine Basis des R -Vektorraums P aller Polynome.
R1
Wird auf P zum Beispiel durch (f, g) 7→ f (x)g(x)dx ein Skalarprodukt ein-
−1
geführt, so ergibt der Orthonormalisierungsalgorithmus (Seite 176) eine Folge
von Polynomen p0 , p1 , . . . , von denen die ersten n + 1 für jedes n ∈ N eine Or-
thonormalbasis von Pn darstellen. Da diese Polynome aufgrund der rekursiven
Konstruktion unabhängig von n sind, bildet ihre Vereinigung eine Orthonormal-
basis von P.
182 Orthonormalbasen von Polynom-Vektorräumen 2.5.7

Ähnlich wie die (eventuell auf geeignete Intervalle eingeschränkten) Potenzfunk-


tionen zu Bausteinen für die Potenzreihenfunktionen werden, spielen auch die
Entwicklungen nach “orthogonalen” Polynomen eine wesentliche Rolle in der
Mathematik und in der theoretischen Physik. Wir schließen deshalb dieses Kapitel
mit dem wichtigsten Beispiel einer solchen Polynomfolge - nämlich den Legendre-
Polynomen, die unter anderem in der Potentialtheorie, der Schwingungstheorie
und bei der Darstellung von Wärmeleitungsvorgängen verwendet werden.

Polynomfolgen mit ähnlichen Eigenschaften ergeben sich, wenn in dem Skalar-


R1
produkt (f, g) 7→ w(x)f (x)g(x)dx eine andere geeignete “Gewichtsfunktion”
−1
(oder “Belegungsfunktion”) x 7→ w(x) mit w(x) ≥ 0 für alle x mit −1 < x < 1
benutzt wird. Weitere wichtige Beispiele zum gleichen Integrationsbereich sind
w(x): =(1 − x)α (1 + x)β mit α > −1, β > −1 (Jacobi-Polynome) und w(x) : =
1 1
(1 − x2 )− 2 beziehungsweise w(x) : = (1 − x2 ) 2 (Tschebyscheff-Polynome erster
und zweiter Art).

Die folgende Herleitung ist auch methodisch interessant, weil sie das erste Ver-
fahren aus dem Orthonormalisierungssatz (Seite 176) bei den Untervektorräumen
Pn für beliebiges n ∈ N verwendet und deshalb anders als üblich keine Hilfsmittel
aus der Analysis benötigt (abgesehen von der Berechnung der Strukturmatrix).

Sind sik mit i, k ∈ In+1 die Elemente der Strukturmatrix Sn , die zu Pn mit der
Standardbasis gehört, so gilt
Z1
1 + (−1)i+k
sik = xi−1 xk−1 dx = .
i+k−1
−1
Zuerst bestimmen wir die Diagonalmatrix Dn und die normierte obere Dreiecks-
matrix On in der Zerlegung Sn = tOn Dn On aus dem Satz über die UDO -Dar-
stellung von positiv definiten Matrizen (Seite 170), um anschließend die Koeffizi-
enten des normierten Legendre-Polynoms pk für k ∈ In aufgrund des Orthonor-
malisierungssatzes (Seite 176) als Elemente des (k + 1) -ten Spaltenvektors von
−1
Rn−1 : = On−1 Dn 2 zu gewinnen.
n+1
Durch Ausmultiplizieren von tOn Dn On mit On = : (uik ) und Dn = : di~ei t~ei
P
i=1
erhalten wir die Gleichungen
Xi
(2.63) dj uij ujk = sik für alle i, k ∈ In+1 mit i ≤ k,
j=1
2.5.7 Orthonormalbasen von Polynom-Vektorräumen 183

aus denen - bei i = 1 beginnend - di und uik rekursiv berechnet werden können.
Mit vollständiger Induktion folgt zunächst, dass di und uik von n unabhängig
sind, womit das Weglassen einer entsprechenden Kennzeichnung gerechtfertigt
ist. Im Folgenden geben wir deshalb auch keine obere Schranke für die Indizes
an.

Die Aussage, dass uik = 0 gilt, wenn i + k ungerade ist, ergibt sich ohne Weiteres
mit vollständiger Induktion. Durch die damit naheliegende Fallunterscheidung
bei den Indizes werden wir zu Vermutungen geführt, die sich mit der Abkürzung
n
Y 1
qm,n : = für m, n ∈ N
j=1
2m + 2j − 1

folgendermaßen zusammenfassen lassen:


2
dn+1 = (n!q0,n )2 für alle n ∈ N und
2n + 1
(2.64)
(n + 2m)!
un+1,n+2m+1 = qn+1,m für alle m, n ∈ N.
n!2m m!
Zum Nachweis betrachten wir nun anstelle von (2.63) die Gleichungen
i
X 2
d2m−1 u2m−1,2i−1 u2m−1,2k−1 = und
m=1
2i + 2k − 3
i
X 2
d2m u2m,2i u2m,2k = für i, k ∈ N1 mit i ≤ k.
m=1
2i + 2k − 1
Einsetzen der Werte aus (2.64) auf der jeweils linken Seite und Umformen unter
q 2n n!
Verwendung von qm,n = 0,m+n
q
und q0,n = (2n)! führt auf die Schachtelsummen
0,m
Σ2i−1,2k−1 und Σ2i,2k , die sich durch sukzessives Ausklammern rekursiv darstellen
lassen:
2
Σ2i−1,2k−1 = Bi−1 mit B0 : = 4i − 3 und
(2i − 1)(2k − 1)
4r(k − i + r)
Br : = 4i − 4r − 3 + Br−1 für r = 1, . . . , i − 1,
(4i − 2r − 1)(2k + 2i − 2r − 1)
2
Σ2i,2k = B 0 mit B00 : = 4i − 1 und
(2i + 1)(2k + 1) i−1
4r(k − i + r)
Br0 : = 4i − 4r − 1 + 0
Br−1 für r = 1, . . . , i − 1.
(4i − 2r + 1)(2k + 2i − 2r + 1)
(4i−2r−3)(2k+2i−2r−3)
Vollständige Induktion über r ergibt dann Br = 2k+2i−3
und Br0 =
(4i−2r−1)(2k+2i−2r−1) 2
2k+2i−1
für r = 0, . . . , i − 1, sodass Σ2i−1,2k−1 = 2i+2k−3 und
184 Orthonormalbasen von Polynom-Vektorräumen 2.5.7

2
Σ2i,2k = 2i+2k−1 für alle i, k ∈ N1 mit i ≤ k folgt.

Diese nach dem jeweils letzten Summanden der linken Seite aufzulösenden Glei-
chungen ermöglichen den Induktionsschritt in dem Beweis für die Gültigkeit von
(2.64), wobei der Fall k = i zunächst die Diagonalelemente ergibt, die dann als
Quotienten in die Darstellung von uik für k > i eingehen.

Aus der Positivität aller Diagonalelemente dn+1 lässt sich nun auch mit Hilfe des
Satzes über die UDO-Darstellung von positiv definiten Matrizen (Seite 170) ohne
R1
Infinitesimalrechnung die positive Definitheit von (f, g) 7→ f (x)g(x)dx folgern.
−1

Durch Ausmultiplizieren von On−1 On = En+1 mit On−1 = : (vik ) erhalten wir im
Falle i = k sofort vii = 1 für alle i ∈ N1 . Mit vollständiger Induktion folgt
außerdem vik = 0, wenn i + k ungerade ist. Für die übrigen Elemente, die sich
rekursiv aus den Gleichungen
k
X k
X
v2i−1,2m−1 u2m−1,2k−1 = 0 und v2i,2m u2m,2k = 0 für alle i, k ∈ N1
m=i m=i

mit k > i bestimmen lassen, beweisen wir wie oben die Vermutung
(n + 2m)!
(2.65) vn+1,n+2m+1 = (−1)m qn+m,m für alle m, n ∈ N.
n!2m m!
Werden die Werte aus (2.64) und (2.65) in die Summen auf der linken Seite der
jeweiligen Bestimmungsgleichung eingesetzt, so ergeben sich nach Umformen und
Ausklammern die Schachtelsummen
 q2i−2,k−i+1 00
0
Σ2i−1,2k−1 = k−1
i−1
Bk−i mit B 000 : = 4k − 3 und
qi−1,k−i
r(2k + 2i − 2r − 3)
Br00 : = 4k − 4r − 3 − B 00r−1 für r = 1, . . . , k − i,
(k − i − r + 1)(4k − 2r − 1)
k−1 q2i−1,k−i+1 000
0

sowie Σ2i,2k = i−1 Bk−i mit B 0000 : = 4k − 1 und
qi,k−i
r(2k + 2i − 2r − 1)
Br000 : = 4k − 4r − 1 − B 000 für r = 1, . . . , k − i.
(k − i − r + 1)(4k − 2r + 1) r−1
(4k−2r−3)(k−i−r)
Mit vollständiger Induktion über r folgt nun Br00 = k−i
und Br000 =
(4k−2r−1)(k−i−r) 0 0
k−i
für r = 0, . . . , k − i, sodass Σ 2i−1,2k−1 = Σ 2i,2k = 0 für alle
i, k ∈ N1 mit i < k gilt. Damit steht auch der Induktionsschritt für den Beweis
von (2.65) zur Verfügung.
2.5.7 Orthonormalbasen von Polynom-Vektorräumen 185

Der Orthonormalisierungssatz (Seite 176) ergibt die Orthonormalbasis {p0 , p1 ,


−1
. . .} von P, wobei die Koeffizienten von pn dem letzten Spaltenvektor von On−1 Dn 2
zu entnehmen sind. Um Polynome mit rationalen Koeffizienten zu erhalten, bildet
man die Legendre-Polynome Pn : = √ 1 1 pn . Sie haben damit die Form
n+ 2
[n
2
]

Pn = √ 1 √1
X
1
vn+1−2m,n+1 idn−2m
n+ 2 dn+1
m=0
[n
2
]
1 X m n
 2n−2m  n−2m
= (−1) m n
id für jedes n ∈ N.
2n m=0
Die Darstellung der alten Basiselemente idn durch die Legendre-Polynome folgt
aus (2.59):
n
[2]
X p
n
id = dn−2m+1 un−2m+1,n+1 Pn−2m
m=0
n
[2]
2n−4m+1 n 1 
X 
= 2n−2m 2n−2m+1 m 2n−2m Pn−2m für jedes n ∈ N.
m=0 n−m

Diese bisher nur mit tieferliegenden Hilfsmitteln erreichten Ergebnisse fassen wir
in dem folgenden Satz zusammen.

Satz über die Legendre-Polynome


[n
2
]
n
1
 2n−2m  n−2m
(−1)m m
P
Sind Pn : = 2n n
id für n ∈ N die Legendre-
m=0 q
Polynome und wird pn : = n + 12 Pn für n ∈ N gesetzt, so ist {p0 , p1 , . . .}
eine Orthonormalbasis des aus allen Polynomen mit reellen Koeffizienten
bestehenden euklidischen Vektorraums mit dem Skalarprodukt (f, g) 7→
R1
f (x)g(x)dx, und es gilt
−1 n
[2]
2n−4m+1 n 1 
X 
(2.66) idn = 2n−2m 2n−2m+1 m 2n−2m Pn−2m
m=0 n−m
für jedes n ∈ N.

Übung 2.5.e

Zeigen Sie, dass Pn für jedes n ∈ N folgende Eigenschaften hat:


186 Hilbert-Räume mit vollständigen Orthonormalsystemen 2.6.1

i) Pn = 2n1n! f n , wobei f n die n -te Ableitung von fn : = (id2 − id0 )n ist;


(n) (n)

ii) (n + 2)Pn+2 = (2n + 3) id Pn+1 − (n + 1)Pn ;


iii) Pn (1) = 1;
iv) (id0 − id2 )Pn00 = 2 id Pn0 − n(n + 1)Pn ;
v) (id0 + id2 )Pn+1
0
= (n + 1)(−id Pn+1 + Pn ).
Achtung: Riesige Fundgrube! [Zahlreiche weitere Eigenschaften, ent-
sprechende Gleichungen bei Jacobi-Polynomen und Tschebyscheff-Polyno-
men, analytische Herleitungen.]

2.6 Ausblick

2.6.1 Hilbert-Räume mit vollständigen Orthonormalsys-


temen

Wir schließen an den Satz über die Legendre-Polynome (Seite 185) an und ordnen
das Ergebnis in einen wesentlich weiteren Rahmen ein, der zu dem Gebiet der
“Funktionalanalysis” gehört. Zunächst vergrößern wir den R -Vektorraum der auf
I1 : = [−1, 1] eingeschränkten Polynome, indem wir die Menge aller Funktionen
 R1  21
u : I1 → R betrachten, für die kuk2 : = |u(x)|2 dx existiert und endlich ist.
−1

Die entsprechende Funktionenmenge, die zusammen mit dem durch (f, g) 7→


R1
f (x)g(x)dx definierten Skalarprodukt einen euklidischen Vektorraum bildet,
−1
wird mit L2 (I1 ) bezeichnet. Definiert man mit Hilfe der Norm k k2 analog zur
Infinitesimalrechnung einer reellen Veränderlichen die Konvergenz von Folgen aus
L2 (I1 ) und den Begriff der Cauchy-Folge, so lässt sich zeigen, dass in L2 (I1 ) jede
Cauchy-Folge konvergent ist. Ein unitärer Vektorraum mit dieser Vollständig-
keitseigenschaft wird Hilbert-Raum genannt.

Die am Anfang von Unterabschnitt 2.5.7 erwähnte Bedeutung der Legendre-


Polynome kommt nun daher, dass für jede Funktion u ∈ L2 (I1 ) eine Reihen-

P R1
entwicklung u = ck pk mit ck : = u(x) pk (x)dx möglich ist, wobei die Kon-
k=0 −1
vergenz der Reihe bezüglich der Norm k k2 gemeint ist. Durch diese Eigenschaft
2.6.2 Die schnelle Fourier-Transformation (FFT) 187

zusammen mit der paarweisen Orthonormalität stellen die normierten Legendre-


Polynome ein vollständiges Orthonormalsystem des Hilbert-Raums L2 (I1 ) dar.

In dem Hilbert-Raum L2 (I2 ) mit I2 : = [0, 2π] und mit dem Skalarprodukt
R2π   
(f, g) 7→ f (x)g(x)dx bilden die Funktionen C0 : = x → √1 ,I2 , Ck : = x →
0 2π
  
√1 cos kx, I2 und Sk : = x → √1 sin kx, I2 für k = 1, 2, . . . ein vollständi-
π π
ges Orthonormalsystem. Jedes u ∈ L2 (I2 ) besitzt damit eine Darstellung als

P R2π
Fourier-Reihe u = a0 C0 + (ak Ck + bk Sk ) mit ak : = u(x)Ck (x)dx, k ∈ N, und
k=1 0
R2π
bk : = u(x)Sk (x)dx, k ∈ N1 , bezüglich der Norm, die durch das Skalarprodukt
0
induziert wird.

2.6.2 Die schnelle Fourier-Transformation (FFT)

Die Fourier-Transformation ist eine “Integraltransformation”, mit der bei be-


stimmten Funktionen u : Rn → Rn unter anderem die Operation der Differen-
tiation in die einfachere algebraische Operation der Multiplikation überführt und
rückgängig gemacht werden kann.

Die diskrete Fourier-Transformation zeichnet sich ebenfalls durch eine Vereinfa-


chungsmöglichkeit aus. Wir werden im Folgenden den Fall einer Variablen behan-
deln, weil er weitreichende Anwendungen besitzt. Ist n ∈ N1 , u : {0, . . . , n − 1}
n−1
exp 2πi
P 
→ C und v(s) : = n
st u(t) für s = 0, . . . , n − 1, so gilt u(t) =
t=0
n−1
1 P 2πi 
n
exp − n
st v(s).
s=0

In der m -dimensionalen Form ist u : {0, . . . , n − 1}m → C, es treten m Summa-


tionen von 0 bis n − 1 auf, st ist durch das Standardskalarprodukt der Variablen
zu ersetzen, und der Faktor n1 vor der Summe in der Umkehrformel geht in n1m
über.

Der Fall m = 1 hat zunächst den Vorteil, dass wir die Transformation als Produkt
einer Matrix Fn ∈ Cn×n mit einem Vektor ~u ∈ Cn×1 schreiben können, wobei dann
Fn−1 die Koeffizientenmatrix in der Umkehrformel darstellt. Die Elemente von Fn
sind Potenzen der n -ten Einheitswurzel wn : = cos 2π 2π 

n
+ i sin n
, die ihren
188 Die schnelle Fourier-Transformation (FFT) 2.6.2

(j−1)(k−1)
Namen von der Eigenschaft wnn = 1 hat, und zwar ist fjk : = t~ej Fn~ek = wn
für j, k ∈ In .
 
Setzen wir nun ~u : = t u(0) . . . u(n − 1) und ~v : = t v(0) . . . v(n − 1) , so lautet
die Ausgangsgleichung ~v = Fn~u, und wir müssen t~ej Fn−1~ek = n1 fjk
−1
für alle j, k ∈
1 −1 
In beweisen. Mit Gn : = n fjk ist also Fn Gn = En zu zeigen. Das Skalarprodukt
des j - ten Zeilenvektors von Fn mit dem k - ten Spaltenvektor von Gn ergibt
n−1
P j−1 1−k t
cjk : = n1 wn wn . Daraus folgt direkt cjj = 1 für j = 1, . . . , n. Setzen wir
t=1

z : = wnj−1 wn1−k = wnj−k für j 6= k, so ist z = cos 2π j−k j−k 



n
+ i sin 2π n
6= 1
n−1 n
−1
und z n = 1. Damit erhalten wir cjk = n1 z = n1 zz−1
P t
= 0 für alle j, k ∈ In mit
t=0
j 6= k.

Jede der Matrizen Fn heißt Fourier-Matrix. Bevor wir zeigen, dass die Multipli-
1
kation eines Vektors mit Fn oder Fn−1 extrem schnell - nämlich in 2 ln 2
n(ln n)ηn
Schritten - erfolgen kann, wollen wir uns vor Augen führen, worin die Bedeu-
tung dieser schnellen Fourier-Transformation liegt, die aufgrund ihrer englischen
Bezeichnung Fast Fourier Transform überall mit FFT abgekürzt wird.

Wir überführen zwei Vektoren ~u : = t(u0 . . . un−1 ) und ~u 0 : = t(u00 . . . un−1


0
) in
(v0 . . . vn−1 ) : = Fn~u, t(v00 . . . vn−1
t 0
) : = Fn~u 0 und untersuchen, wie sich die Kom-
ponenten der Rücktransformation von t(v0 v00 . . . vn−1 vn−1 0
) durch die Komponen-
ten von ~u und ~u 0 ausdrücken lassen.
n−1 n−1
uj wnjs und vs0 = u 0k wnks für s = 0, . . . , n − 1 folgt
P P
Wegen vs =
j=0 k=0

n−1 n−1 X
n−1 X n−1
1 1
X X
n
vs vs0 wn−rs = n
uj uk0 wnjs+ks−rs =
s=0 s=0 j=0 k=0
n−1 X
n−1 n−1
X  r n−1
1
X X X
n
uj uk0 (wnj+k−r )s = ur−k uk0 + un+r−k uk0
j=0 k=0 s=0 k=0 k=r+1

für r = 0, . . . , n − 1, weil nur die geklammerten Summen mit j + k = r und mit


j + k = n + r nicht 0 werden.

Auf diese Weise haben wir eine merkwürdige Verknüpfung von zwei Vektoren
entdeckt, die Faltung genannt wird. Die obige Herleitung ergibt also, dass die
2.6.2 Die schnelle Fourier-Transformation (FFT) 189

Faltung der Vektoren ~u und ~u 0 in denjenigen Vektor transformiert wird, dessen


Komponenten die Produkte der entsprechenden Komponenten der Bildvektoren
von ~u und ~u 0 sind (sogenanntes Faltungstheorem). Zur Berechnung der Faltung
benötigt man n2 Multiplikationen und n2 − n Additionen, das gliedweise Produkt
erfordert dagegen nur n Multiplikationen.

Die Faltung tritt in natürlicher Weise bei der Multiplikation von ganzen Zahlen
und von Polynomen auf. Außerdem ist sie für die Signalverarbeitung grundle-
gend. Deshalb ist es nicht überraschend, dass schon früh nach einer schnellen
Berechnungsmöglichkeit für die diskrete Fourier-Transformation gesucht wurde.
Die wesentliche Idee hatten C. Runge und H. König im Jahr 1924, aber erst
1965 gelang J. W. Cooley und J. W. Tukey der entscheidende Durchbruch.

Von mehreren ähnlichen Möglichkeiten ist für uns diejenige am günstigsten, bei
der Fn als Produkt von (log2 n)ηn Matrizen dargestellt wird, die insgesamt nur
(n log2 n)ηn von 0 und 1 verschiedene Elemente enthalten. Wir drücken zunächst
F2m für jedes m ∈ N1 durch Fm aus. Mit der Transformation t(v0 . . . v2m−1 ) =
F2m t(u0 . . . u2m−1 ) erhalten wir
2m−1
X m−1
X m−1
X
jk 2jk (2k+1)j
vj = w2m uk = w2m u2k + w2m u2k+1
k=0 k=0 k=0
m−1
X m−1
X
jk j jk
= wm u2k + w2m wm u2k+1 für j = 0, . . . , 2m − 1.
k=0 k=0
m−1 m−1
Mit uk0 : = u2k , uk00 : = u2k+1 , vj0 : = jk 0
u k und vj00 : = jk 00
P P
wm wm u k für j, k ∈
k=0 k=0
{0, . . . , m − 1} folgt einerseits
 
Fm 0 t 0
(v 00
t
... v 0m−1
... v 000= v 00m−1 )
(u 0 . . . u 0m−1 u 000 . . . u 00m−1 ),
0 Fm
und andererseits ergeben sich die Komponenten v0 , . . . , v2m−1 mit Hilfe der oben
j
hergeleiteten Summe in der Form vj+em = vj0 + (−1)e w2m vj00 für j = 0, . . . , m − 1
j+m j j+m j j
und e = 0, 1, weil wm = wm und w2m = w2 w2m = −w2m für j = 0, . . . , m − 1
gilt.


Ist P2m die Permutationsmatrix, die (u0 . . . u2m−1 ) in (u 00 . . . u 0m−1 u 000 . . . u 00m−1 )
überführt, und H2m die Matrix, die (v0 . . . v2m−1 ) aus (v 00 . . . v 0m−1 v 000 . . . v 00m−1 )
rekonstruiert, so erhalten wir zusammenfassend die für jedes m ∈ N1 gültige
entscheidende Gleichung
190 Die schnelle Fourier-Transformation (FFT) 2.6.2

  m
Fm 0 ∗ ∗
X
~ek t~e2k+1 + ~ek+m t~e2k und

F2m = H2m P2m mit P2m : =
0 Fm
k=1
m
X
~ek t(~ek + wm
k−1
~ek+m ) + ~ek+m t(~ek − wm
k−1

H2m : = ~ek+m ) .
k=1

Es genügt, die Fourier-Matrizen F2k mit k ∈ N1 zu betrachten, weil die zu trans-


formierenden Vektoren durch 0-Komponenten verlängert werden können. Wegen
     
UAV 0 U 0 A0 V 0
= ergibt sich durch Iteration der obigen
0 UAV 0U 0A 0V
Produktdarstellung
   
H2k−1 0 H2 0
F2k = H2k ... P (2k ),
0 H2k−1 0 H2
wobei P (2k ) diejenige symmetrische Permutationsmatrix darstellt, bei der man
die 1-Position in der j -ten Spalte für j = 0, . . . , 2k − 1 durch “Bitumkehr” (das
heißt Rückwärtslesen) der Dualzahldarstellung von j gewinnt.

Jede der übrigen k Matrizen enthält 2k−1 von 0 und 1 verschiedene Elemente. Des-
halb können die Produkte F2k ~u und F2−1 v mit jeweils nur k2k−1 Multiplikationen
k ~

gebildet werden.

Nachdem V. Strassen 1968 die FFT mit Hilfe einer genügend genauen Binär-
darstellung von wn zur erheblichen Beschleunigung der (exakten) Multiplikation
von (großen) ganzen Zahlen verwenden konnte, gelang es ihm und A. Schönha-
ge 1970, die Arithmetik mit komplexen Zahlen durch das Rechnen mit Zahlen
n 
modulo 22 + 1 zu ersetzen. Dieser Algorithmus, der zwei n - Bit-Zahlen in

O n ln n ln(ln n) Schritten multipliziert, bildet heute einen grundlegenden theo-
retischen Hintergrund für das wissenschaftliche Rechnen (siehe [7], 4.3.3).
Kapitel 3

Lineare Ungleichungssysteme

3.1 Lineare Ungleichungssysteme und konvexe


Polyeder

3.1.1 Einführung

Wegen ihrer großen Bedeutung für wirtschaftliche Planungs- und Entscheidungs-


probleme dürfen lineare Ungleichungssysteme in einer algorithmischen linearen
Algebra nicht fehlen. Ähnlich wie die Angewandte Mathematik für das erste Ka-
pitel ist jetzt ein Gebiet, das Operations Research genannt wird, der Hauptabneh-
mer. In den letzten fünf Jahrzehnten hat sich dieser Bereich allerdings so stark
entwickelt und verselbständigt, dass hier nur die wichtigsten Teile berücksichtigt
werden können.
Zunächst betrachten wir die Lösungsmengen von linearen Ungleichungssystemen
unter geometrischen Gesichtspunkten. Damit gewinnen wir vor allem die Hilfsmit-
tel für eine angemessene Beschreibung des grundlegenden “Simplex-Algorithmus”
zur Lösung von Aufgaben der “linearen Optimierung” im zweiten Abschnitt.
Um beliebige Körperelemente aus K vergleichen zu können, muss zu dem Körper
eine Anordnung gehören. In dieser Einführung genügt es, den Körper R (oder
Q) mit der “Kleinerrelation” < (beziehungsweise ≤) zugrunde zu legen. Als
zweckmäßige Abkürzung verwenden wir
R+ : = {r ∈ R | r ≥ 0}.
Eine lineare Ungleichung entsteht aus Teil a) der Definition des linearen Glei-
chungssystems (Seite 16), indem das Gleichheitszeichen durch ≤ oder ≥ ersetzt

191
192 Einführung 3.1.1

wird. Da sich der zweite Typ durch Multiplikation mit -1 in den ersten überführen
lässt und da eine Gleichung t~a ~x = b zu den beiden Ungleichungen t~a ~x ≤ b und
−t~a ~x ≤ −b äquivalent ist, kann jedes lineare Ungleichungssystem mit reellen
Elementen in der Form
A~x ≤ ~b
mit A ∈ Rm×n , ~x ∈ Rn×1 und ~b ∈ Rm×1 geschrieben werden, wobei die Zeichen
≤ beziehungsweise ≥ zwischen Vektoren derselben Länge bedeuten, dass die ent-
sprechende Relation zwischen allen Komponenten mit gleichem Index besteht.

Um die Lösungsmenge

H(t~a, b) : = {~x ∈ Rn×1 | t~a ~x ≤ b}


einer einzelnen linearen Ungleichung t~a~x ≤ b mit ~a ∈ Rn×1 \ {~0} charakterisieren
zu können, definieren wir den Begriff der Strecke [~u, ~v ] zwischen zwei Vektoren
~u, ~v ∈ Rn×1 durch

[~u, ~v ] : = {~x ∈ Rn×1 | Es gibt t ∈ [0, 1], sodass ~x = t~u + (1 − t)~v gilt}.

Sind ~u, ~v ∈ H(t~a, b), so folgt t~a t~u + (1 − t)~v = t t~a ~u + (1 − t)t~a~v ≤ tb + (1 − t)b = b
für jedes t ∈ [0, 1]. Damit gilt

(3.1) [~u, ~v ] ⊂ H(t~a, b) für alle ~u, ~v ∈ H(t~a, b).


Die gleiche Eigenschaft hat H(−t~a, −b). Außerdem zerlegt die Hyperebene

E(t~a, b) : = {~x ∈ Rn×1 | t~a ~x = b} = H(t~a, b) ∩ H(−t~a, −b)


den Vektorraum Rn×1 so in zwei Teile, dass sich H(t~a, b)\E(t~a, b) und H(−t~a, −b)\
E(t~a, b) als “gegenüberliegende Seiten” auffassen lassen, weil für je zwei Vektoren
~u ∈ H(t~a, b)\E(t~a, b) und w
~ ∈ H(−t~a, −b)\E(t~a, b) der eindeutig bestimmte Vektor
~v des Durchschnitts von [~u, w]~ und E(t~a, b) die Teilstrecken [~u, ~v ] in H(t~a, b) und
~ in H(−t~a, −b) ergibt. Für jedes ~a ∈ Rn×1 \ {~0 } und b ∈ R wird deshalb
[~v , w]
H(t~a, b) als Halbraum von Rn×1 bezeichnet.

Bei der weiteren Untersuchung der Lösungsmenge

P(A, ~b) : = {~x ∈ Rn×1 | A~x ≤ ~b}


spielt die Übertragung der Eigenschaft aus (3.1) eine wesentliche Rolle. Wir
führen deshalb mehrere damit zusammenhängende Begriffe ein.
3.1.1 Einführung 193

Definition der Konvexität, der Konvexkombination und der konve-


xen Hülle
a) Eine Menge M ⊆ Rn×1 heißt konvex genau dann, wenn [~u, ~v ] ⊆ M für alle
~u, ~v ∈ M gilt.
b) Man bezeichnet ~u ∈ Rn×1 als Konvexkombination von ~a1 , . . . , ~am ∈ Rn×1
genau dann, wenn es
n Xm o
m
(u1 , . . . , um ) ∈ Km : = (x1 , . . . , xm ) ∈ R+ xi = 1
i=1
gibt, sodass m
X
~u = ui~ai
i=1
erfüllt ist.
c) Stellt M eine nichtleere Teilmenge von Rn×1 dar, so wird die Menge aller
Konvexkombinationen von je endlich vielen Vektoren aus M konvexe Hülle
von M genannt und mit KonvM abgekürzt. Außerdem sei Konv ∅ : = ∅.

Sind M1 und M2 konvexe Mengen in Rn×1 , so folgt [~u, ~v ] ⊆ Mi für alle ~u, ~v ∈
Mi , i = 1, 2. Insbesondere gilt also [~u, ~v ] ⊆ M1 ∩ M2 für alle ~u, ~v ∈ M1 ∩ M2 ,
das heißt, mit M1 und M2 ist auch M1 ∩ M2 konvex. Vollständige Induktion
ergibt die entsprechende Aussage für endlich viele konvexe Teilmengen von Rn×1 .
Da nach (3.1) jeder Halbraum konvex ist, stellt im Falle der Lösbarkeit von
A~x ≤ ~b die Lösungsmenge P(A, ~b ) als Durchschnitt der endlich vielen Halbräume
zu den einzelnen Ungleichungen von A~x ≤ ~b ebenfalls eine konvexe Menge dar,
die (konvexes) Polyeder (oder polyedrische Menge) genannt wird. In anderen
Teilbereichen der Mathematik bezeichnet man den nichtleeren Durchschnitt P
von endlich vielen Halbräumen als (konvexes) Polyeder, wenn P beschränkt ist,
das heißt, wenn es eine Zahl S > 0 gibt, sodass k~x k ≤ S für alle ~x ∈ P gilt. Im
Operations Research heißt ein beschränktes Polyeder Polytop. Ein Polyeder P ist
unbeschränkt, wenn zu jedem S > 0 ein ~x ∈ P mit k~x k > S existiert.
Im Unterabschnitt 3.1.6 werden wir unter anderem zeigen, dass sich jedes Polytop
der Form P(A, ~b ) als konvexe Hülle der endlich vielen “Ecken” darstellen lässt.
Der folgende Satz klärt deshalb den Begriff der konvexen Hülle.

Satz über die konvexe Hülle


Es sei M eine nichtleere Teilmenge von Rn×1 . Dann ist Konv M konvex, und
für jede konvexe Menge C ⊆ Rn×1 mit M ⊆ C gilt Konv M ⊆ C.
194 Ecken und zulässige Basislösungen 3.1.2

Beweis (a1):
1. Konvexität von Konv M: Sind ~u, ~v ∈ Konv M, so gibt es ~a1 , . . . , ~am , ~b1 , . . . , ~bp ∈
m p
yk~bk
P P
M und (x1 , . . . , xm ) ∈ Km , (y1 , . . . , yp ) ∈ Kp , sodass ~u = xi~ai und ~v =
i=1 k=1
m p
(1 − t)yk~bk und tx1 , . . . , txm , (1 −
P P
gilt. Wegen t~u + (1 − t)~v = txi~ai +
i=1 k=1

t)y1 , . . . , (1 − t)yp ∈ Km+p für jedes t ∈ [0, 1] ist [~u, ~v ] ⊆ Konv M.
2. Konvexe Hülle von konvexen Mengen: Ist C ⊆ Rn×1 eine nichtleere konvexe
Menge, so zeigen wir durch vollständige Induktion über die minimale Anzahl m
der positiven Koeffizienten in den Konvexkombinationen von ~x ∈ Konv C, dass
~x ∈ C gilt. Im Falle des Induktionsanfangs m = 1 ist ~x ∈ C. Die Induktions-
annahme besagt, dass m ∈ N1 eine Zahl sei, für die alle Konvexkombinationen
mit positiven Koeffizienten von je m Elementen aus C zu C gehören. Ist dann
m+1
P m+1
P
~x : = xi~ai mit ~ai ∈ C und 0 < xi < 1 für jedes i ∈ Im+1 sowie xi = 1,
i=1 m i=1
P xi
so setzen wir t : = 1 − xm+1 und ~y : = ~a . Damit folgt ~y ∈ C aufgrund der
t i i=1
Induktionsannahme und ~x = t~y + (1 − t)~am+1 ∈ C wegen der Konvexität von C.
Also gilt Konv C ⊆ C. Da C ⊆ Konv C stets erfüllt ist, ergibt sich Konv C = C für
alle konvexen Mengen C ⊆ Rn+1 .
3. Minimalität von Konv M: Für jede konvexe Menge C ⊆ Rn+1 mit M ⊆ C folgt
Konv M ⊆ Konv C = C,
sodass Konv M die kleinste konvexe Menge darstellt, die M enthält.

3.1.2 Ecken und zulässige Basislösungen

Da die Konvexkombinationen an die Stelle der Linearkombinationen aus dem


zweiten Kapitel treten, stellt sich nun die Frage, ob sich ähnlich wie bei der
Beschreibung von L(A, ~b ) im Satz über die Lösungsgesamtheit (Seite 140) auch
endlich viele “Erzeugende” finden lassen, deren konvexe Hülle die Lösungsmen-
ge eines gegebenen lösbaren Ungleichungssystems ist. Bei konvexen Polytopen
können solche Erzeugenden nur die durch ihre Extremaleigenschaft ausgezeich-
neten “Ecken” sein. Wir präzisieren deshalb zunächst diesen wichtigen Begriff.

Definition der Stützhyperebene und der Ecke


Es sei P ⊆ Rn×1 ein nichtleeres konvexes Polyeder.
3.1.2 Ecken und zulässige Basislösungen 195

i) Eine Hyperebene E(t~a, b) mit ~a ∈ Rn×1 \{~0} und b ∈ R heißt Stützhyperebene


von P genau dann, wenn E(t~a, b) ∩ P 6= ∅ ist und wenn P ⊆ H(t~a, b) oder
P ⊆ H(−t~a, −b) gilt.
ii) Ein Vektor ~v ∈ P heißt Ecke von P genau dann, wenn es eine Stützhyper-
ebene S von P gibt, so dass S ∩ P = {~v } ist.

Es lassen sich leicht Bedingungen angeben, unter denen P keine Ecken haben
kann. Ist nämlich ~v ∈ P(A, ~b ) und ~z ∈ N(A) \ {0}, so folgt ~v + Lin {~z } ⊆
P(A, ~b). Damit ergibt sich ~v + Lin{~z} ⊆ E(t~a, b) für jede Stützhyperebene E(t~a, b)
von P(A, ~b ) mit ~v ∈ E(t~a, b), sodass ~v keine Ecke von P(A, ~b) darstellt. Diese
Situation tritt genau dann ein, wenn dim N(A) > 0 gilt, was wegen (2.13) mit
Rang A < n gleichbedeutend ist. In diesem Falle ist die Lösungsmenge P(A, ~b)
also unbeschränkt oder leer.

Ist RangA = m = n, so hat A~x = ~c für jedes ~c ∈ Rn×1 mit ~c ≤ ~b eine eindeutige
Lösung ~x = A−1~c. Also stellt P(A, ~b) ein unbeschränktes Polyeder dar. Mit der
auch im folgenden benötigten Abkürzung
~e : = t(1 . . . 1) ∈ Rn×1
lässt sich leicht zeigen, dass S : = E(t~eA, t~e ~b) eine Stützhyperebene von P(A, ~b)
ist, für die S ∩ P(A, ~b) = {A−1~b} gilt: Einerseits erhalten wir t~eA(A−1~b) = t~e ~b,
also A−1~b ∈ S ∩ P(A, ~b ), und andererseits folgt für alle ~x ∈ P(A, ~b ) \ {A−1~b }
wegen A~x 6= ~b, dass t~eA~x < t~e~b gilt, womit ~x ∈ H(t~eA, t~e~b) \ S bewiesen ist.
Für ~v ∈ P(A, ~b ) und ~z ∈ P(A, ~0 ) \ {~0 } ergibt sich, dass ~v + r~z ∈ P(A, ~b ) für
alle r ∈ R+ erfüllt ist. Nun schließen wir wie oben, dass jedes ~v ∈ P(A, ~b) mit
t
~eA~v < t~e ~b keine Ecke von P(A, ~b) sein kann. Für A ∈ GL(m; R) und ~b ∈ Rm×1
ist also A−1~b die einzige Ecke von P(A, ~b).
Im verbleibenden Fall Rang A = n < m gehen wir zunächst mit Hilfe des folgen-
den Satzes zu einem einfacheren Typ von linearen Ungleichungssystemen über,
der auch im nächsten Abschnitt benötigt wird.

Zurückführungssatz
Es seien A ∈ Rm×n
n mit m > n und ~b ∈ Rm×1 . Das lineare Ungleichungssystem
196 Ecken und zulässige Basislösungen 3.1.2

A~x ≤ ~b ist genau dann lösbar, wenn das lineare Gleichungssystem vA~y = vA~b
eine Lösung ~y ∈ Rm×1 mit ~y ≥ ~0 besitzt. Im Falle der Lösbarkeit kann
~y : = ~b − A~x beziehungsweise ~x : = qA(~b − ~y ) gewählt werden.

Beweis (a1):

Ist ~x ∈ P(A, ~b), so gilt ~y : = ~b − A~x ≥ ~0, und wir erhalten


(2.21)
A~y = vA~b − vAA~x = vA~b.
v

Genügt ~u ∈ Rm×1 den Bedingungen vA~u = vA~b und ~u ≥ ~0, so folgt vA(~b − ~u) = ~0.
Aufgrund des Satzes über den Spaltenraum als Nullraum (Seite 134) ist N(vA) =
~ = ~b−~u ≤ ~b erfüllt ist. Der Satz über
~ ∈ Rn×1 , sodass Aw
S(A). Also existiert ein w
die Quasi-Inverse (Seite 138) ergibt damit, dass qA(~b − ~u ) ∈ P(A, ~b ) gilt, wobei
q
A auch durch eine beliebige andere verallgemeinerte Inverse V von A ersetzt
werden kann.

Die Koeffizientenmatrix und der Ergebnisvektor des Gleichungssystems im Zu-


rückführungssatz haben die Form vA ∈ Rp×m und vA~b ∈ Rp×1 mit p : = m−n < m.
p
Deshalb setzen wir im Folgenden für B ∈ Rp×m
p mit p < m und für ~c ∈ Rp×1 zur
Abkürzung
Q(B, ~c ) : = {~y ∈ Rm×1 | B~y = ~c und ~y ≥ ~0 }.
Außerdem lassen wir manchmal p = m zu.
   
B ~c
Wegen Q(B, ~c ) = P  −B , −~c  stellt Q(B, ~c ) ein konvexes Polyeder
−Em ~0
dar. Im Falle p = m erhalten wir Q(B, ~c ) = {B −1~c }, falls B −1~c ≥ ~0 gilt, und
Q(B, ~c ) = ∅ sonst.

Anschaulich ist jede Ecke von P(A, ~b ) für A ∈ Rm×n


n , m ≥ n, Schnittpunkt von n
Stützhyperebenen mit linear unabhängigen Koeffizientenvektoren, und jede Ecke
von Q(B, ~c ) mit B ∈ Rp×m
p , p ≤ m, erscheint als Schnittpunkt von L(B, ~c ) mit
m−p “Koordinatenhyperebenen” E(t~ei , 0), i ∈ Im . In beiden Fällen müssten sich
also die Ecken als Lösungsvektoren von linearen Gleichungssystemen bestimmen
lassen. Die Nachweise für diese Berechnungsmöglichkeit sind bei den Polyedern
P(A, ~b ) und Q(B, ~c ) im Prinzip ähnlich. Wir behandeln zunächst den zweiten
3.1.2 Ecken und zulässige Basislösungen 197

Fall ausführlich, weil er sich viel leichter darstellen lässt, und beschreiben im
Unterabschnitt 3.1.5 den Zusammenhang mit dem allgemeinen Typ.

Definition der Basisindexmenge und der Basislösung


Es seien B ∈ Rp×m p mit p < m und ~c ∈ Rp×1 .
i) Eine Indexmenge Jb0 ⊆ Im heißt Basisindexmenge von B genau dann, wenn
{B~ei | i ∈ Jb0 } eine Basis von S(B) darstellt. Die Indizes aus Jf0 : = Im \ Jb0
werden freie Indizes genannt.
ii) Ein Vektor ~v ∈ L(B, ~c ) heißt Basislösung von B~y = ~c zur Basisindexmenge
Jb0 genau dann, wenn t~ej ~v = 0 für alle j ∈ Jf0 gilt. Als Basislösung von B~y = ~c
bezeichnet man jeden Vektor ~v ∈ L(B, ~c ), zu dem es eine Basisindexmenge
Jb0 gibt, mit der t~ej ~v = 0 für alle j ∈ Jf0 ist.
iii) Eine Basislösung ~v von B~y = ~c heißt zulässig genau dann, wenn ~v ≥ ~0 gilt.

Ist M ∈ Rp×m und ~x ∈ Rm×1 , so setzen wir im Rest dieses Kapitels für eine
feste Basisindexmenge Jb0 = : {j1 , . . . , jp } und für eine zugehörige Menge Jf0 = :
{j10 , . . . , jm−p
0
} von freien Indizes zur Abkürzung
E|b : = (~ej1 . . .~ejp ) ∈ Rm×p , E|f : = (~ej10 . . . ~ejm−p
0 ) ∈ Rm×(m−p) ,
M|b : = M E|b , M|f : = M E|f , ~xb : = tE|b~x und ~xf : = tE|f ~x.

Dann ist B|b ∈ GL(p; R), und für jede Basislösung ~v von B~y = ~c zur Basisindex-
menge Jb0 folgt
(3.2) ~vb = B|b−1~c und ~vf = ~0.

Insbesondere ist also ~v durch Jb0 eindeutig bestimmt. Wegen B|b~vb = ~c ist ~v auch
nicht von der Reihenfolge der Indizes j1 , . . . , jp abhängig.

Da es m

p
verschiedene Indexteilmengen mit p Elementen aus Im gibt, enthält
m

L(B, ~c ) höchstens p
Basislösungen von B~y = ~c. Ihre Berechnung lässt sich
durch folgende Überlegungen vereinfachen. Aufgrund des Reduziertensatzes
(Seite 125) ist B = wB rB mit wB ∈ GL(p; R). Also gilt
L(B, ~c ) = L rB, (wB)−1~c und Q(B, ~c ) = Q rB, (wB)−1~c .
 
(3.3)

Außerdem erhalten wir für Jb0 = Jb stets die Basislösung ~v mit


(3.4) ~vb = tuB~v = (wB)−1~c und ~vf = tyB~v = ~0.
198 Ecken und zulässige Basislösungen 3.1.2

Im Anschluss an den folgenden Satz, der den wichtigen Zusammenhang zwischen


Ecken und Basislösungen enthält, werden wir ein Verfahren beschreiben, das aus-
gehend von einer Basislösung schrittweise alle Basislösungen durch Austausch
jeweils eines Basisindexes ergibt.

Eckensatz
Ein Vektor ~v ∈ Q(B, ~c ) stellt genau dann eine Ecke von Q(B, ~c ) dar, wenn
~v eine zulässige Basislösung von B~y = ~c ist.

Beweis (a2):

i) Wir behandeln zunächst den Fall ~v = ~0. Wegen B~0 = ~0 muss dann ~c = ~0 sein.
Da S : = E (t~e, 0) eine Stützhyperebene von Q0 : = Q(B, ~0 ) mit S ∩ Q0 = {~0}
ist, stellt ~0 eine Ecke von Q0 dar. Gilt ~y ∈ Q0 mit ~y 6= ~0, so folgt r~y ∈ Q0 für
alle r ∈ R+ . Damit ergibt sich {r~y | r ∈ R+ } ⊆ E(t~a, b) für jede Stützhyperebene
E(t~a, b) von Q0 mit ~y ∈ E(t~a, b), sodass ~y keine Ecke von Q0 sein kann. Wegen
(3.2) ist ~v = ~0 auch die einzige zulässige Basislösung von B~y = ~0.

ii) Es sei ~v = : t(v1 . . . vm ) 6= ~0 eine Ecke von Q(B, ~c ). Wir führen die auch später
benötigte Indexmenge
T (~v ) : = {i ∈ Im | t~ei~v > 0}
ein, die Träger von ~v genannt wird, und zeigen, dass die Vektoren B~ei für i ∈ T (~v )
linear unabhängig sind. Dazu betrachten wir einen beliebigen Vektor
P P
~z : = di B~ei mit di ∈ R und d~ : = di~ei 6= ~0.
i∈T (~v ) i∈T (~v )
vi
Setzen wir µ : = min{s ∈ R+ | Es gibt i ∈ T (~v ) mit di 6= 0 und s = 2|d }, so
i|
ist µ > 0 und vi ± µdi > 0 für alle i ∈ T (~v ). Damit können wir die Vektoren
~ : = ~v − µd~ definieren, für die ~v = 1 ~u + 1 w,
~u : = ~v + µd~ und w 2
~ ~u ≥ ~0, w
2
~ ≥ ~0 und
~ gilt. Aus B~v = ~c und B d~ = ~z folgt außerdem B(~v ± µd)
~u 6= w ~ = B~v ± µB d~ =
~c ± µ~z.
Wäre ~z = ~0, so lägen ~u und w
~ in Q(B, ~c ). Da ~v eine Ecke von Q(B, ~c ) ist, gibt
es eine Stützhyperebene E(t~a, b) von Q(B, ~c ) mit t~a~v = b und mit t~a ~y > b für alle
~y ∈ Q(B, ~c ) \ {~v }. Aus der Annahme ~z = ~0 ergibt sich nun wegen ~v = 1 ~u + 1 w ~ 2 2
t 1t 1 1
~ ∈ Q(B, ~c ) \ {~v } der Widerspruch b = ~a~v =
und ~u, w 2
~a (~u + w)
~ > 2
b + 2 b = b.
Also muss ~z 6= ~0 sein.
3.1.3 Gewinnung der Basislösungen durch Basisaustausch 199

Damit ist nachgewiesen, dass die Vektoren B~ei für i ∈ T (~v ) linear unabhängig
sind. Stellt T (~v ) keine Basisindexmenge von B dar, so lässt sich mit Hilfe des
Basisergänzungssatzes (Seite 127) eine Basisindexmenge Jb0 von B mit T (~v ) ⊆ Jb0
bestimmen. Wegen t~ej ~v = 0 für alle j ∈ Jf0 ist ~v zulässige Basislösung von B~y = ~c
zur Basisindexmenge Jb0 .

iii) Es sei ~v eine zulässige Basislösung von B~y = ~c zur Basisindexmenge Jb00 .
Setzen wir P
~a : = ~ej ∈ Rm×1 ,
j∈Jf00
so gilt ~a 6= ~0, t~a ~v = 0 und t~a ~y ≥ 0 für jedes ~y ∈ Q : = Q(B, ~c ), das heißt,
S 0 : = E(t~a, 0) stellt eine Stützhyperebene von Q mit ~v ∈ S 0 ∩ Q dar.

Ist ~u ∈ S 0 ∩ Q, so folgt aus t~a ~u = 0 und ~u ≥ ~0, dass t~ej ~u = 0 für alle j ∈ Jf00
gilt. Damit ist ~u eine Basislösung von B~y = ~c zur Basisindexmenge Jb00 . Wegen
(3.2) ergibt sich ~u = ~v , sodass S 0 ∩ Q nur ~v enthält. Also stellt ~v eine Ecke von
Q(B, ~c ) dar.

3.1.3 Gewinnung der Basislösungen durch Basisaustausch

In der Regel ist es nicht sinnvoll, alle Basislösungen mit Hilfe von (3.2) zu bestim-
men, weil angenommen werden kann, dass bei Basisindexmengen, die sich nur in
wenigen Elementen unterscheiden, auch die zugehörigen Inversen B|b−1 durch ein-
fache Umformungen ineinander übergehen. Am günstigsten wäre es, wenn - wie
in (3.4) - die Basislösungskomponente ~vb zu einer beliebigen Basisindexmenge Jb0
p×(m+1)
stets als letzter Spaltenvektor einer Matrix (C ~vb ) ∈ Rp herauskäme, die aus
der erweiterten Koeffizientenmatrix (B ~c ) durch elementare Zeilenumformungen
entsteht und in der C|b = Ep gilt. Tatsächlich gibt es zu jeder Basisindexmenge
von B genau eine solche Matrix. Seit den Anfängen der linearen Optimierung
haben diese Matrizen einen besonderen Namen:

Definition des Tableaus


p×(m+1)
Eine Matrix (C d~ ) ∈ Rp heißt Tableau von B~y = ~c zur Basisindexmenge
J 0 genau dann, wenn (C d~ ) aus (B ~c ) durch elementare Zeilenumformungen
b
hervorgeht und wenn C|b = Ep gilt.
200 Gewinnung der Basislösungen durch Basisaustausch 3.1.3

Ist Jb0 eine Basisindexmenge von B, so können wir r(B|b B|f ) betrachten. Da
die Spaltenvektoren von B|b definitionsgemäß eine Basis von S(B) bilden und
da r(B|b B|f ) aus (B|b B|f ) durch elementare Zeilenumformungen entsteht, gilt
einerseits
r
(B|b B|f ) = : (Ep C|f ).
Andererseits lassen sich die elementaren Zeilenumformungen durch Multiplikation
von links mit einer Matrix wiedergeben, die hier eindeutig bestimmt ist, sodass
(B|b B|f ) = B|b (Ep B|b−1 B|f ) und damit C|f = B|b−1 B|f folgt.

Dieser Zusammenhang lässt sich für jedes Tableau (C d~ ) von B~y = ~c zur Basisin-
dexmenge Jb0 herstellen. Also gibt es nur ein solches C. Aus der Eindeutigkeit der
Basislösung ~v folgt außerdem die (3.2) entsprechende Gleichung ~vb = C −1 d~ = d.
~
|b
Wegen (C|b C|f ) = C(E|b E|f ) und weil aufgrund des Satzes über Permutations-
matrizen (Seite 71) (E|b E|f )−1 = t(E|b E|f ) gilt, erhalten wir schließlich
(3.5) C = (Ep B|b−1B|f )t(E|b E|f ), C|f = B|b−1B|f und d~ = ~vb .
Bevor wir den Zusammenhang zwischen Tableaus herstellen, deren Basisindex-
mengen sich nur in einem Element unterscheiden, wollen wir zeigen, dass es
genügt, verkürzte Tableaus der Form
t
~yf
~yb C|f ~vb
zu betrachten, weil sie alle nötigen Informationen enthalten. Völlig analog zur
Herleitung des Nullraumbasissatzes (Seite 131) folgt nämlich, dass die Spalten-
vektoren von E|f − E|b C|f eine Basis von N(B) darstellen. Insbesondere ist also
aufgrund des Satzes über die Lösungsgesamtheit (Seite 140)
(3.6) L(B, ~c ) = ~v + S(E|f − E|b C|f ) für jede Basisindexmenge Jb0 .

Da die Spaltenvektoren von C|f gerade die Koordinatenvektoren bezüglich der


Basis {~e1 , . . . , ~ep } sind, ist es sehr einfach zu entscheiden, welche der Spaltenvek-
toren und der Einheitsvektoren gegeneinander ausgetauscht werden können, um
eine neue Basis zu erhalten. Stellt nämlich ~uk = : t(u1k . . . upk ) den k -ten Spal-
tenvektor von C|f mit k ∈ Im−p dar, so gilt Rang (~ei . . . ~ei−1 ~uk ~ei+1 . . . ~ep ) = p
genau dann, wenn uik 6= 0 ist. Welche dieser Zahlen als Pivotelement gewählt
wird, hängt entweder von systematischen Überlegungen oder von weiteren Be-
dingungen ab. Bei dem Simplex-Algorithmus der linearen Optimierung, den wir
im nächsten Abschnitt behandeln, spielt das Verhalten einer linearen “Zielfunk-
tion” eine entscheidende Rolle.
3.1.3 Gewinnung der Basislösungen durch Basisaustausch 201

Ist die Wahl getroffen, so kann auch das neue Tableau leicht berechnet werden.
An die Stelle von ~uk treten die Komponenten der folgenden Linearkombination
von ~ei bezüglich der aktuellen Basis:
i−1  p 
X ujk  1 X ujk 
(3.7) ~ei = − ~ej + ~uk + − ~ej .
j=1
uik uik j=i+1
uik
Bei den übrigen Spaltenvektoren ~uh mit h ∈ Im−p \ {k} und bei ~vb = : ~um−p+1
ergibt das Ersetzen von ~ei die entsprechenden Linearkombinationen
i−1  p 
X ujk  uih X ujk 
(3.8) ~uh = ujh − uih ~ej + ~uk + ujh − uih ~ej .
j=1
uik u ik j=i+1
uik

Um eine übersichtlichere Darstellung zu erhalten, berücksichtigen wir bei der fol-


genden Zusammenfassung, dass sich die Komponenten in (3.7) und (3.8) durch
Multiplikation mit einer Matrix gewinnen lassen, die sich nur in dem i -ten Spal-
tenvektor von Ep unterscheidet.

Satz über den Austauschschritt


In dem verkürzten Tableau
t
~yf
~yb C|f ~vb
t
 t

seien ~yb = : yj1 . . . yjp , ~yf = : yj10 . . . yjm−p
0 , C|f = : (~u1 . . . ~um−p ) und
t
~ej ~uk = : ujk für j ∈ Ip , k ∈ Im−p .
i) Der Basisindex ji und der freie Index jk0 lassen sich genau dann austauschen,
wenn uik 6= 0 gilt.
ii) Im Falle des Austausches ergibt sich unter Verwendung der Matrix
p
X ujk 1 t
Tik : = Ep − ~ej t~ei + ~ei ~ei
j=1
uik uik
das verkürzte Tableau
t
~yf 0
~yb0 C|f0 0 ~vb00
mit
(C|f0 0 ~vb00 ) = Tik (~u1 . . . ~uk−1 ~ei ~uk+1 . . . ~um−p ~vb ),
(3.9) ~yb0 = t(yj1 . . . yji−1 yjk0 yji+1 . . . yjp ) und
~yf 0 = t(yj10 . . . yjk−1
0 yji yjk+1
0 . . . yjm−p
0 ).
202 Beispiel für die Berechnung von Basislösungen 3.1.4

3.1.4 Beispiel für die Berechnung von Basislösungen

Wir gehen aus von dem Ungleichungssystem A~x ≤ ~b mit


 
t 1 0 0 1 3
A : =  0 1 0 3 2  und ~b : = t(1 2 1 7 6),
0 0 2 5 0

das in modifizierter Form im nächsten Abschnitt eine Rolle spielen wird. Der
Zurückführungssatz (Seite 195) ergibt das zugehörige Gleichungssystem vA~y = vA~b
mit
−1 −3 − 25 1 0
   5
v v ~ −2
B := A = und ~c : = Ab = .
−3 −2 0 0 1 −1
Damit kann
y1 y2 y3
y4 −1 −3 − 25 − 52
y5 −3 −2 0 −1
als verkürztes Ausgangstableau verwendet werden. Die Austauschschritte be-
schreiben wir im Folgenden durch Angabe von (~yb ~vb ):
y1 52 y1 13 y1 13 y1 − 72
         2    2
y3 5 y4 −1 y5 3
13 , 13 , 13 , 13 , 1 , 1 ,
y5 2 y4 − 6 y3 15 y2 4 y2 2 y 2 2 y2 56
 
y5 −1
und . {3, 4} ist keine Basisindexmenge, weil die zugehörige Matrix
y3 1
 5 
−2 1
den Rang 1 hat. Die Ecken von Q(B, ~c ) sind also die zulässigen Ba-
0 0
sislösungen ~v1 : = t( 25 0 0 0 13
2
), ~v2 : = t( 13 0 13
15
0 0), ~v3 : = t(0 1 2
2 5
0 0) und
5
~v4 : = t(0 6
0 0 32 ).

Durch den Zurückführungssatz mit


 
10000
A =  0 1 0 0 0  und ~xi : = qA(~b − ~vi ), i = 1, . . . , 4,
q

0 0 12 0 0

werden diesen Ecken die Vektoren ~x1 = t(− 23 2 12 ), ~x2 = t( 23 2 15


1
), ~x3 = t(1 32 10
3
)
und ~x4 = t(1 7 1 ) des konvexen Polyeders P(A, ~b ) zugeordnet (siehe Abbildung
6 6
3.1 auf Seite 215).

Die folgenden allgemeinen Überlegungen ergeben, dass diese Vektoren die Ecken
von P(A, ~b ) sind.
Zusammenhang zwischen P A, ~b und Q vA, vA~b
 
3.1.5 203

Zusammenhang zwischen P A, ~b und Q vA, vA~b


 
3.1.5

Vom Zurückführungssatz (Seite 195) ausgehend lassen sich wesentlich schärfere


Ergebnisse über die Zuordnung der beiden Polyedertypen gewinnen.

Bijektivitätssatz
Es seien A ∈ Rm×n
n mit m > n, ~b ∈ Rm×1 und V eine verallgemeinerte Inverse
von A. Dann sind die Abbildungen
p : P(A, ~b ) → Q(vA, vA~b ), ~x 7→ ~b − A~x, und
qV : Q(vA, vA~b ) → P(A, ~b ), ~y 7→ V (~b − ~y ),
bijektiv und zueinander invers. Außerdem werden durch p und qV Ecken auf
Ecken und Strecken auf Strecken abgebildet.

Beweis (h2):

Zur Abkürzung setzen wir P : = P(A, ~b ) und Q : = Q(vA, vA~b ).

i) Bijektivität:

Der Beweis des Zurückführungssatzes ergibt bereits, dass p(~x ) ∈ Q für alle ~x ∈

P und qV (~y ) ∈ P für alle ~y ∈ Q gilt. Außerdem ist qV p(~x ) = VA~x. Aus
A(VA~x − ~x ) = AVA~x − A~x = A~x − A~x = ~0 folgt, dass VA~x − ~x in N(A) liegt.
Wegen Rang A = n ist N(A) = {~0}. Damit erhalten wir

qV p(~x ) = ~x für alle ~x ∈ P(A, ~b ).



(3.10)
Daraus ergibt sich, dass p injektiv und qV surjektiv ist; denn einerseits führt die
 
Annahme p(~x1 ) = p(~x2 ) zu ~x1 = qV p(~x1 ) = qV p(~x2 ) = ~x2 , und andererseits

~ ∈ Q für jedes w
ist p(w) ~ ∈ P ein Urbild von w ~ unter qV , weil w
~ = qV p(w)
~ gilt.

Außerdem hängen p und wegen (3.10) auch qV | p(P) nicht von V ab. Deshalb
können wir zum Nachweis der Bijektivität die Pseudo-Inverse pA als geeignete
verallgemeinerte Inverse V wählen. Dann erhalten wir nämlich aus (2.42) und
(2.45), dass pA|S(A)
b und Â|Z(A) bijektiv und zueinander invers sind. In unserem
Falle ist S(A) = N(vA) aufgrund des Satzes über den Spaltenraum als Nullraum
(Seite 134) und Z(A) = Rn×1 , sodass P ⊆ Z(A) und Q ⊆ ~b + S(A) gilt.
Zusammenhang zwischen P A, ~b und Q vA, vA~b
 
204 3.1.5

Da die Verschiebung um den festen Vektor ~b und der Übergang von A zu −A


bijektive Abbildungen darstellen, überträgt sich die Bijektivität und die Inversen-
eigenschaft von Â|Z(A) und pA|S(A)
b unmittelbar auf p und qp . Insbesondere ist
A

also p(P) = Q, sodass qV für jede verallgemeinerte Inverse V von A mit der
Umkehrabbildung von p übereinstimmt. Wir schreiben deshalb im Folgenden q
anstelle von qV .

ii) Zuordnung der zulässigen Basislösungen:

Im Falle des Ungleichungssystems A~x ≤ ~b mit A ∈ Rm×n


n , m > n, bezeichnet
0
man eine n -elementige Indexmenge Jf ⊆ Im als Basisindexmenge von A genau
dann, wenn (tA)|f invertierbar ist. Entsprechend wird die Menge J b0 : = Im \ Jf0
der freien Indizes erklärt. Diese Vertauschung der Bezeichnungen (vergleiche
die Definition der Basisindexmenge und der Basislösung (Seite 197)) wird sich
gleich als sinnvoll herausstellen. Setzen wir vorübergehend zur Abkürzung
Af − : = t(tA)|f = tE|f A,
wobei die Indizierung f− auf die Auswahl der Zeilenvektoren von A mit den
entsprechenden Indizes hinweist, so wird der eindeutig bestimmte Vektor

~u : = A−1 ~
f − bf

Basislösung von A~x ≤ ~b zur Basisindexmenge Jf0 genannt. Eine Basislösung ~u


von A~x ≤ ~b heißt zulässig genau dann, wenn A~u ≤ ~b gilt.

Wir zeigen, dass ~v ∈ Q(vA, vA~b ) genau dann zulässige Basislösung von vA~y = vA~b
zur Basisindexmenge Jb0 ist, wenn ~u : = q(~v ) eine zulässige Basislösung von
A~x ≤ ~b zur Basisindexmenge Jf0 darstellt. Gehen wir von ~v aus, so ergibt sich
wie im Beweis des Zurückführungssatzes (Seite 195) Af −~u = Af − V (~b − ~v ) =
(3.2)
t
E|f AV (~b − ~v ) = tE|f (~b − ~v ) = ~bf − ~vf = ~bf .

Aus ~u : = A−1 ~ v : = p(~u ) = ~b − A~u folgt umgekehrt ~vf = tE|f ~v =


f − bf und ~
~bf − tE|f AA−1~bf = ~bf − Af − A−1~bf = ~0.
f− f−

Es muss also noch bewiesen werden, dass Af − ∈ GL(n; R) genau dann gilt, wenn
(vA)|b in GL(m − n; R) liegt. Wir setzen zunächst die Invertierbarkeit von Af −
voraus und nehmen an, dass ~b ∈ Rm×1 einen Vektor mit vA~b = ~0 und ~bf = ~0
darstellt. Da ~b ∈ N(vA) ist und N(vA) = S(A) aufgrund des Satzes über den
Spaltenraum als Nullraum (Seite 134) gilt, gibt es ein ~x ∈ Rn×1 mit A~x = ~b.
Zusammenhang zwischen P A, ~b und Q vA, vA~b
 
3.1.5 205

Dann folgt Af −~x = ~bf = ~0, sodass ~x = ~0 und damit auch ~b = ~0 ist. Wegen ~bb = ~0
ergibt sich also die Invertierbarkeit von (vA)|b .

Ist Af − nicht invertierbar, so existiert ein ~x ∈ Rn×1 \ {~0} mit Af −~x = ~0. Setzen
wir ~b : = A~x, so folgt ~b 6= ~0, weil ~x 6= ~0 und N(A) = {~0} gilt. Wegen ~b ∈ S(A) und
S(A) = N(vA) erhalten wir vA~b = ~0, also auch (vA)|b~bb = ~0. Da ~bf = Af −~x = ~0
ist, muss ~bb 6= ~0 sein. Damit stellt (vA)|b wie Af − keine invertierbare Matrix dar.

iii) Abbildung der Ecken und Strecken:

Um zu zeigen, dass durch p und q die Mengen der Ecken von P und Q bijektiv
aufeinander abgebildet werden, benötigen wir aufgrund des Eckensatzes (Seite
198) und wegen des eben Bewiesenen nur noch die Aussage, dass auch in P
Ecken und zulässige Basislösungen übereinstimmen.

Ist ~u : = A−1 ~ x ≤ ~b, so ergibt sich wie im Falle


f − bf eine zulässige Basislösung von A~
Rang A = m = n (Seite 195), dass S : = E(t~eAf − , t~e ~bf ) eine Stützhyperebene von
P mit S ∩ P = {~u} darstellt. Also ist ~u eine Ecke von P.

~ ∈ P keine Basislösung von A~x ≤ ~b


In der Gegenrichtung nehmen wir an, dass w
~ nicht Ecke von P sein kann. Setzen wir mit Hilfe
ist und beweisen, dass dann w
des Trägers T aus dem Beweis des Eckensatzes (Seite 198) Jh : = T (~b − Aw)
~ =:
{j1 , . . . , js } ⊆ Im und Ah− : = t(~ej1 . . . ~ejs )A, so ist s < m und Rang Ah− < n,
weil andernfalls w ~ eine Basislösung wäre. Es gibt also ein d~ ∈ N(Ah− )\{~0}, sodass
Ah− (w ~ + λd) ~ = ~bb für alle λ ∈ R gilt, das heißt, die “Gerade” {w ~ + λd~ | λ ∈ R}
liegt in P(Ah− , ~bb ).

Für j ∈ Im \ Jh ist w~ ∈ H(t~ej A, t~ej~b ) \ E(t~ej A, t~ej~b ). Also existiert zu jedem


j ∈ Im \ Jh ein λj > 0, sodass [w
~ − λj d, ~w ~ + λj d~ ] ⊆ H(t~ej A, t~ej~b ) erfüllt ist. Mit
µ : = min{λj | j ∈ Im \ Jh } folgt µ > 0 und [w ~w
~ − µd, ~ + µd~ ] ⊆ P(A, ~b ).

Wäre w ~ eine Ecke von P, so gäbe es eine Stützhyperebene S : = E(t~a, c) von


P mit S ∩ P = {w}. ~ Wegen t~a(w ~ ± µd~ ) < c entstünde dann der Widerspruch
~ + µd~ ) + 1 (w
~ t~a 1 (w ~ − µd~ ) < 1 c + 1 c = c. Also stimmen auch in P

c = t~a w 2 2 2 2
die Ecken mit den zulässigen Basislösungen A~x ≤ ~b überein, sodass p und q die
Mengen der Ecken von P und Q bijektiv aufeinander abbilden.

Die “Streckentreue” von p folgt aus p(s1~x1 + s2~x2 ) = ~b − A(s1~x1 + s2~x2 ) =


s1 p(~x1 ) + s2 p(~x2 ) für alle (s1 , s2 ) ∈ K2 und für ~xi ∈ P, i = 1, 2. Analog gilt
206 Beschreibung von konvexen Polyedern mit Hilfe von Ecken 3.1.6

qV (t1 ~y1 + t2 ~y2 ) = V ~b − V (t1 ~y1 + t2 ~y2 ) = t1 qV (~y1 ) + t2 qV (~y2 ) für alle (t1 , t2 ) ∈ K2
und für ~yi ∈ Q, i = 1, 2.

Bei Ungleichungssystemen A~x ≤ ~b mit ~x ≥ ~0, die im nächsten Abschnitt eine


grundlegende Rolle spielen, wird für jede Ungleichung von A~x ≤ ~b eine Schlupf-
variable yi ≥ 0, i = 1, . . . , m, eingeführt, sodass A~x +~y = ~b mit t~y : = (y1 . . . ym )
folgt. Auf diese Weise erhält man sehr einfach das lineare Gleichungssystem
   
~x ~ ~x
(3.11) (A Em ) = b mit ≥ ~0,
~y ~y
~b
   
A
während der Bijektivitätssatz (Seite 203) auf ≤ ~ anzuwenden wäre.
−En 0
Auf jeden Fall lässt sich stets der einfache Polyedertyp effektiv gewinnen. Für
diese Polyederart können wir im folgenden Unterabschnitt explizit und algorith-
misch die wichtige Darstellung als konvexe Hülle herleiten. Der Bijektivitätssatz
erlaubt dann anschließend die Übertragung dieser Darstellung auf den allgemei-
nen Polyedertyp.

3.1.6 Beschreibung von konvexen Polyedern mit Hilfe von


Ecken

Um eine einprägsame Formulierung des nächsten Satzes zu ermöglichen, ver-


wenden wir für beliebige Teilmengen M1 und M2 eines R -Vektorraums V die
Abkürzungen
M1 + M2 : = {~z ∈ V | Es gibt ~xi ∈ Mi , i = 1, 2, sodass ~z = ~x1 + ~x2 ist},
R+ M1 : = {~z ∈ V | Es gibt r ∈ R+ und ~x ∈ M1 mit ~z = r~x }.

Außerdem bezeichnen wir die Menge der Ecken eines konvexen Polyeders Q(C, d~ )
mit hC; d~ i, wobei es möglich ist, dass es Ecken gibt, die jeweils zu mehr als einer
Basisindexmenge von C gehören. Solche Ecken, die entartet heißen, spielen im
nächsten Abschnitt eine Rolle.

Im Hinblick auf die zweite Summenmenge bei der folgenden Darstellung von
Q(B, ~c ) halten wir fest, dass ein unbeschränktes konvexes Polyeder C polyedri-
scher Kegel genannt wird, wenn R+ C ⊆ C gilt. Für B ∈ Rp×m p mit p < m stellt
Q(B, ~0 ) einen polyedrischen Kegel dar, wenn Q(B, ~0 ) 6= {~0 } ist, und der Fall i)
aus dem Beweis des Eckensatzes (Seite 198) ergibt hB; ~0 i = {~0 }.
3.1.6 Beschreibung von konvexen Polyedern mit Hilfe von Ecken 207

Polyedersatz
Für jedes B ∈ Rp×m
p mit p < m und für alle ~c ∈ Rp×1 gilt
~0
      
B
Q(B, ~c ) = KonvhB; ~c i + R+ {~0} ∪ Konv t ; .
~e 1

Beweis (h2):

Wir schreiben zur Abkürzung QP : = Konv hB; ~c i für den “Polytopanteil” und
 
~
 B
QK : = R+ {0} ∪ KonvhB1 ; ~ep+1 i mit B1 : = t für den “Kegelanteil”.
~e
i) QP + QK ⊆ Q(B, ~c ) :

Da ~0 ∈ QK ist, gilt QP +QK = ∅ genau dann, wenn QP die leere Menge darstellt.
Nun seien hB; ~c i = : {~x1 , . . . , ~xs } mit s ∈ N1 und hB1 ; ~ep+1 i = : {~y1 , . . . , ~yt } mit
t ∈ N. Zu jedem ~x ∈ QP + QK gibt es dann (λ1 , . . . , λs ) ∈ Ks , (µ1 , . . . , µt ) ∈ Kt
s t
µj ~yj gilt. Es folgt ~x ≥ ~0 und B~x =
P P
und r ∈ R+ , sodass ~x = λi~xi + r
i=1 j=1
s t s
P  t
P 
µj ~0 = ~c. Damit ist ~x ∈ Q(B, ~c )
P P
λi B~xi + r µj B~yj = λi ~c + r
i=1 j=1 i=1 j=1
erfüllt.

ii) Q(B, ~c ) ⊆ QP und QK = {~0}, wenn Q(B, ~c ) beschränkt ist:

Wir zeigen zunächst, dass Q(B, ~c ) ein unbeschränktes Polyeder bildet, wenn
Q(B, ~c ) 6= ∅ und hB1 ; ~ep+1 i =
6 ∅ ist. Es sei ~x0 ∈ Q(B, ~c ) und ~y ∈ KonvhB1 ; ~ep+1 i.
t ~
Wegen ~e ~y = 1 gilt ~y 6= 0, und es ergibt sich wie oben ~x0 + r~y ∈ Q(B, ~c ) für
alle r ∈ R+ . Damit ist Q(B, ~c ) unbeschränkt, weil k~x0 + r~y k ≥ rk~y k − k~x0 k aus
der Definition der Norm ((Seite 147) folgt. Wenn Q(B, ~c ) ein Polytop darstellt,
muss also QK = {~0 } sein.

Nun sei Q(B, ~c ) nicht leer, von {~0 } verschieden und beschränkt. Bezeichnet T (~x )
für ~x ∈ Q(B, ~c ), ~x 6= ~0, wie im Beweis des Eckensatzes (Seite 198) den Träger
von ~x und ist
s : = card T (~x )
die Anzahl der Elemente von T (~x ), so beweisen wir durch vollständige Induktion
über s, dass hB; ~c i =
6 ∅ ist und dass ~x ∈ QP gilt. Dazu benötigen wir zwei
Vorbereitungen.
208 Beschreibung von konvexen Polyedern mit Hilfe von Ecken 3.1.6

1. Sind die Vektoren B~ei für i ∈ T (~x ) linear unabhängig, so lässt sich wegen s ≤
p = Rang B mit Hilfe des Basisergänzungssatzes (Seite 127) eine Basisindexmenge
Jb0 von B mit T (~x ) ⊆ Jb0 bestimmen. Aufgrund des Eckensatzes (Seite 198) ist
dann ~x eine Ecke von Q(B, ~c ), weil ~x wegen t~ej ~x = 0 für alle j ∈ Jf0 eine zulässige
Basislösung von B~y = ~c darstellt.

2. Im Falle linear abhängiger Vektoren B~ei für i ∈ T (~x ) gibt es di ∈ R, i ∈ T (~x ),


P P
mit d~ : = di~ei 6= 0 und B d~ : = di B~ei = 0. Setzen wir
i∈T (~x ) i∈T (~x )
~x(u) : = ~x + ud~ für u ∈ R,
so folgt B~x(u) = ~c für jedes u ∈ R. Außerdem gilt ~x(u) ≥ ~0 für alle hinreichend
nahe bei 0 liegenden u, weil T (d~ ) ⊆ T (~x ) ist. Wäre d~ ≥ ~0 oder d~ ≤ ~0, so gehör-
ten die Vektoren ~x(u) beziehungsweise ~x(−u) für jedes u ∈ R+ zu Q(B, ~c ). Dann
wäre Q(B, ~c ) entgegen unserer Voraussetzung nicht beschränkt. Also existieren
i, j ∈ T (~x ) mit di > 0 und dj < 0. Mit den Abkürzungen
u1 : = min {u ∈ R | Es gibt i ∈ T (~x) mit di > 0 und u = − d1 t~ei~x },
i

u2 : = min {u ∈ R | Es gibt j ∈ T (~x) mit dj < 0 und u = − d1 t~ej ~x }


j

ergibt sich u1 < 0, u2 > 0 und ~x(uk ) ≥ ~0 für k = 1, 2. Damit erhalten wir
 
u2 u1 u2 −u1
~x = u −u ~x(u1 ) − u −u ~x(u2 ) mit u −u , u −u ∈ K2 ,
2 1 2 1 2 1 2 1
(3.12) 
~x(uk ) ∈ Q(B, ~c ) und card T ~x(uk ) < s für k = 1, 2.
Jetzt lässt sich der Induktionsbeweis leicht führen. Setzen wir

C(B, ~c ) : = t ∈ Im ∪ {0} | Es gibt ~x ∈ Q(B, ~c ) mit card T (~x ) = t ,
σ : = min C(B, ~c ), τ : = max C(B, ~c ),
so liefert s = σ den Induktionsanfang, weil wegen (3.12) jedes ~x ∈ Q(B, ~c ) mit
card T (~x ) = σ nicht durch Fall 2 erfasst wird, also nach Fall 1 eine Ecke sein
muss. Damit ist auch gezeigt, dass hB, ~c i =
6 ∅ gilt.

Für s ∈ Im mit σ ≤ s < τ sei nun bereits bekannt, dass alle ~x ∈ Q(B, ~c ) mit
card T (~x ) = s in QP liegen. Dann folgt mit Fall 1 beziehungsweise mit (3.12),
dass auch jedes ~x ∈ Q(B, ~c ) mit card T (~x ) = s + 1 zu QP gehört.

iii) Q(B, ~c ) ⊆ QP + QK , wenn Q(B, ~c ) unbeschränkt ist:

Es sei ~x ∈ Q(B, ~c ) mit s : = card T (~x ) > 0. Um durch vollständige Induktion


3.1.6 Beschreibung von konvexen Polyedern mit Hilfe von Ecken 209

über s zeigen zu können, dass ~x ∈ QP + QK gilt, müssen wir die zweite Vorbe-
reitung aus ii) ergänzen. Der Vektor d~ ∈ Rm×1 \ {~0} mit B d~ = ~0 kann nun auch
d~ ≥ ~0 oder d~ ≤ ~0 erfüllen. Wegen d~ =
6 ~0 tritt aber jeweils höchstens eine der
beiden Möglichkeiten ein. Mit den Abkürzungen

v1 : = min {v ∈ R | Es gibt i ∈ T (~x) mit di > 0 und v = − d1 t~ei~x } für d~ ≥ ~0,


i

v2 : = max {v ∈ R | Es gibt j ∈ T (~x) mit dj < 0 und v = − d1 t~ej ~x } für d~ ≤ ~0


j

ergibt sich wie oben v1 < 0, v2 > 0 und ~x(vk ) ≥ ~0, k ∈ I2 . Damit gilt

~x = ~x(v1 ) + (−v1 )d~ für d~ ≥ ~0 beziehungsweise


(3.13) ~ für
~x = ~x(v2 ) + v2 (−d) d~ ≤ ~0 mit ~x(vk ) ∈ Q(B, ~c )

und card T ~x(vk ) < s für k ∈ I2 .

Setzen wir d~1 : = t 1~ d~ für d~ ≥ ~0 oder d~ ≤ ~0 (d~ 6= ~0), so folgt wegen B d~1 = ~0, d~1 ≥
~e d
~0 und ~ed~1 = 1, dass d~1 ∈ Q(B1 , ~ep+1 ) gilt. Als Durchschnitt des polyedrischen
t

Kegels Q(B, ~0) mit dem Polytop Q(t~e, 1) ist dabei Q(B1 , ~ep+1 ) beschränkt. Wegen
i) und ii) haben wir also
(3.14) Q(B1 , ~ep+1 ) = Konv hB1 ; ~ep+1 i.
Als Ergänzung von (3.13) ergibt sich damit
~x = ~x(vk ) + (−vk t~e d~ )d~1 mit −vk t~e d~ > 0
(3.15)
und d~1 ∈ Konv hB1 ; ~ep+1 i für k ∈ I2 .
Der Induktionsanfang stimmt mit dem von ii) überein. Für s ∈ Im mit σ ≤ s < τ
sei bereits bewiesen, dass alle ~x ∈ Q(B, ~c ) mit card T (~x ) = s zu QP + QK
gehören. Dann folgt mit Fall 1 von ii) beziehungsweise mit (3.12) oder mit (3.13)
und (3.15), dass auch jedes ~x ∈ Q(B, ~c ) mit card T (~x ) = s + 1 in QP + QK liegt.
Bei der Anwendung von (3.15) sind die Koeffizienten der Konvexkombination
jeweils mit den positiven Zahlen −vk t~e d~ zu multiplizieren. Der bei QK auftretende
Faktor aus R+ entsteht dann durch Normierung der Koeffizientensumme aller
vorkommenden Vektoren aus hB1 ; ~ep+1 i. Der Induktionsschluss und i) ergeben
damit
Q(B, ~c ) = QP + QK .
Da QP als konvexe Hülle der endlich vielen Ecken aus hB; ~c i beschränkt ist, folgt
aus der Unbeschränktheit von Q(B, ~c ), dass QK unbeschränkt sein muss. Das ist
wegen (3.14) genau dann der Fall, wenn Q(B1 , ~ep+1 ) 6= ∅ gilt.
210 Beispiel für die Berechnung von Kegelanteilen 3.1.7

Aus dem obigen Beweis lässt sich der nur wenig bekannte Polyeder-Algorith-
mus entwickeln, der
i) ausgehend von einem beliebigen ~x ∈ Q(B, ~c ) eine Ecke von Q(B, ~c ) liefert,
ii) zu jedem ~x aus einem Polytop Q(B, ~c ) eine Konvexkombination von ~x aus den
Ecken von Q(B, ~c ) ergibt, ohne die Ecken vorher berechnen zu müssen, und
iii) jedes ~x aus einem unbeschränkten konvexen Polyeder Q(B, ~c ) mit Hilfe der
Ecken von Q(B, ~c ) und der “erzeugenden Ecken” hB1 ; ~ep+1 i des zugehörigen
polyedrischen Kegels darstellt.

Anstelle der Induktion erfolgt dazu jeweils von ~x aus ein “Abstieg” über Vek-
toren ~y ∈ Q(B, ~c ) mit abnehmender Elementzahl card T (~y ) des Trägers. Dabei
wird in i) jeweils nur ein Endvektor ~x(uk ), k ∈ I2 , ausgewählt, während in ii)
jeder Endvektor, der noch keine Ecke bildet, in der angegebenen Weise weiter
aufzuspalten ist. Bei iii) muss jeweils beim Auftreten eines Vektors d~ ≥ ~0 oder
d~ ≤ ~0 nach der Normierung von d~ die zu ii) gehörende Prozedur für Q(B1 , ~ep+1 )
aufgerufen werden.

Außerdem haben wir mit dem Beweis des Polyedersatzes (Seite 207) das folgende
effektive Beschränktheitskriterium erhalten: Das konvexe Polyeder Q(B, ~c ) mit
B ∈ Rp×m
p , p < m, und ~c ∈ Rp×1 ist genau dann ein Polytop, wenn Q(B, ~c ) 6= ∅
~0
   
B
und Q t , = ∅ gilt.
~e 1

3.1.7 Beispiel für die Berechnung von Kegelanteilen

Wir setzen Beispiel 3.1.4 fort und bestimmen den Kegelanteil von Q(B, ~c )
~0
   
~ B
und von P(A, b ), indem wir die Ecken von Q t , berechnen. Aus
~e 1
B ~0
 
t entsteht durch Addition der ersten und zweiten Zeile zur letzten, durch
~e 1
Addition des 75 -Fachen der letzten Zeile zur ersten und durch Multiplikation der
letzen Zeile mit 27 das verkürzte Ausgangstableau
y1 y2
18 9 5
y4 7 7 7
y5 −3 −2 0
10 12 2
y3 7 7 7
3.1.7 Beispiel für die Berechnung von Kegelanteilen 211

Die ersten beiden Austauschschritte, die wir wieder abgekürzt in der Form (~yb ~vb )
schreiben, führen zu zwei weiteren Ecken:

y4 12 y4 15
   

 y5 1  und 3
   
 y5 .
 3   5 
y2 16 y1 1
5

Die übrigen 7 Tableaus gehören noch zweimal zur ersten Ecke und sonst zu nicht
zulässigen Basislösungen. Damit ist
~0
   
B
t ; = : {w
~ 1, w ~ 3 } mit w
~ 2, w ~ 2 : = t(0 61 0 21 13 )
~ 1 : = t(0 0 27 57 0), w
~e 1
~ 3 : = t( 51 0 0 15 53 ).
und w

Da diese “Richtungsvektoren” durch Differenzbildung von Vektoren ~x + w ~ j und


~x aus Q(B, ~c ) entstehen, sind ihre Urbilder die Differenzvektoren ~zj : = qA(~b −
~x − w ~ j ) − qA(~b − ~x) = −qAw~ j , j = 1, 2, 3. Hier erhalten wir ~z1 = − 17 ~e3 , ~z2 =
− 61 ~e2 und ~z3 = − 15 ~e1 . Wie nachfolgend begründet wird, gilt damit P(A, ~b ) =
Konv {~x1 , . . . , ~x4 } + R+ Konv {~z1 , ~z2 , ~z3 } (siehe Abbildung 3.1 auf Seite 215).

Mit einer Skizze der Herleitung des entsprechenden allgemeinen Ergebnisses für
A ∈ Rm×n
n mit m > n und ~b ∈ Rm×1 schließen wir diesen Abschnitt. In einem R -
Vektorraum V 6= {~0} heißen die Teilmengen {~x}+R+ {~z } mit ~x, ~z ∈ V und ~z 6= ~0
Halbgeraden. Mit Hilfe des Bijektivitätssatzes (Seite 203) kann man beweisen,
dass q : Q(vA, vA~b ) → P(A, ~b ), ~y 7→ qA(~b − ~y ), die Mengen der Halbgeraden
aus Q(vA, vA~b ) beziehungsweise aus P(A, ~b ) bijektiv aufeinander abbildet, indem
man die entsprechende Aussage für beliebige Teilstrecken der Halbgeraden zeigt.
Ist Q(vA, ~0 ) 6= ∅, so wird jeder erzeugende Vektor w
~ des polyedrischen Kegels
Q(vA, ~0 ) wie im obigen Beispiel durch w ~ 7→ −qAw~ in einen erzeugenden Vektor
des polyedrischen Kegels P(A, ~0 ) überführt. Konvexkombinationen aus Q(vA, ~0 )
gehen dabei in die entsprechenden aus P(A, ~0 ) über.

Für A ∈ Rm×nn , m > n, und ~b ∈ Rm×1 erhalten wir damit die folgende Darstellung
von P(A, ~b ). Ist hvA; vA~b i = : {v1 , . . . , ~vs }, ~xi : = qA(~b−~vi ), i = 1, . . . , s, mit s ∈ N
~0
 v   
A
und t ; = : {w ~ t }, ~zj : = −qAw
~ 1, . . . , w ~ j , j = 1, . . . , t, mit t ∈ N, so
~e 1
gilt
P(A, ~b ) = Konv {~x1 , . . . , ~xs } + R+ {~0} ∪ Konv {~z1 , . . . , ~zt } .

(3.16)
212 Lineare Optimierung 3.2.1

Im Falle A ∈ Rm×m
m ergibt sich mit den Überlegungen im Anschluss an die Defi-
nition der Stützhyperebene und der Ecke (Seite 194)
(3.17) P(A, ~b ) = {A−1~b} + R+ Konv {−A−1~e1 , . . . , −A−1~em }.

3.2 Lineare Optimierung und der Simplex-Al-


gorithmus

3.2.1 Lineare Optimierung

Als Teilgebiet der mathematischen Optimierung beschäftigt sich die lineare Op-
timierung (oder “lineare Programmierung”) mit der Ermittlung des Minimums
oder Maximums einer linearen Funktion (“Zielfunktion”) endlich vieler Varia-
bler, die endlich vielen Nebenbedingungen (“Restriktionen”) in Gestalt linearer
Gleichungen oder linearer Ungleichungen unterworfen sind.

Bei vielen in der Praxis auftretenden Problemen hat das mathematische Modell
zunächst eine der Formen
A~x ≤ ~b, ~x ≥ ~0, tp~ ~x = Min ! oder
A~x ≥ ~b, ~x ≥ ~0, tp~ ~x = Max !
mit A ∈ Rm×n , ~b ∈ Rm×1 und p~ ∈ Rn×1 , wobei die Gleichung mit “!” jeweils
bedeutet, dass zu der Funktion f : A → R, ~z 7→ tp~ ~z, mit dem Argumentbereich
A, der durch die zugehörigen Ungleichungen bestimmt ist, ein Vektor ~x ∈ A
gesucht wird, für den die Zielfunktion f ihren minimalen beziehungsweise maxi-
malen Wert annimmt, falls ein solcher Wert existiert. Es ist klar, dass die zweite
Problemstellung in der Form −A~x ≤ −~b, ~x ≥ ~0, −tp~ ~x = Min! mit der ersten
äquivalent ist.

Außerdem haben wir mit (3.11) bereits die Möglichkeit gezeigt, durch Einführung
von “Schlupfvariablen” den einfachen Polyedertyp Q(B, ~c ) mit B : = (A Em ) und
~c : = ~b als Argumentbereich zu erhalten, wobei dann die Nichtnegativitätsbedin-
gung für den um die Schlupfvariablen verlängerten Vektor ~x gilt. Der Koeffi-
zientenvektor p~ der Zielfunktion ist entsprechend durch m 0-Komponenten zu
ergänzen. Die damit gewonnene Problemstellung
~ y = Min !
B~y = ~c, ~y ≥ ~0, td~
(3.18)
m×(m+n)
mit B ∈ Rm oder B ∈ Rpp×m , p < m,
3.2.1 Lineare Optimierung 213

stellt den Grundtyp der linearen Optimierung dar. Das konvexe Polyeder Q(B, ~c )
wird zulässiger Bereich des Problems genannt, und jedes ~y ∈ Q(B, ~c ) heißt
zulässiger Vektor (Punkt).

Im Hinblick auf die Einfachheit dieses mathematischen Modells ist es bemerkens-


wert, wie vielfältig die praktischen Probleme sind, die auf (3.18) führen. Wir
können hier nur einige Beispieltypen andeuten.

i) Transport: Die Beförderung eines Transportguts von endlich vielen Orten zu


einer festen Anzahl von Verbrauchern ist so zu planen, dass der geringste Aufwand
entsteht.

ii) Kapazitätsauslastung: Bestimmte Erzeugnisse sind in vorgegebenen Stück-


zahlbereichen bei bekannten Selbstkosten und Bearbeitungszeiten auf Maschinen
mit eingeschränkter Auslastung möglichst kostengünstig zu produzieren.

iii) Mischung: Eine Reihe von Stoffen mit gewissen Eigenschaften und unter-
schiedlicher Verfügbarkeit sind zu Stoffen mit gewünschten Eigenschaftsbereichen
so preiswert wie möglich zu mischen.

iv) Aufteilung: Eine Anzahl von Produkten ist in bestimmten Mengen herzustel-
len. Jede Produkteinheit kann auf einer beliebigen Maschine aus einem Maschi-
nenpark mit unterschiedlichen Kosten und Zeiten fertiggestellt werden. Gesucht
wird die kostengünstigste Aufteilung der Produktion auf die Maschinen.

v) Zuschnitt: Für ein Material mit einheitlichen Maßen gibt es verschiedene


Zuschnittvarianten, bei denen jeweils eine bestimmte Anzahl der geforderten Teile
und Verschnitt entsteht. Die gewünschte Teilemenge soll unter Verwendung von
möglichst wenig Material zugeschnitten werden.

Es ist leicht zu erkennen, dass bei solchen Problemen die Methoden der Diffe-
rentialrechnung nicht zu gebrauchen sind. Bevor wir ein konkretes Beispiel be-
trachten, wollen wir deshalb die entscheidende Aussage der linearen Optimierung
bereitstellen, durch die entsprechende Aufgaben in endlich vielen Schritten gelöst
werden können.
214 Beispiel zur linearen Optimierung 3.2.2

Satz über Optimierungslösungen


Ist die Problemstellung (3.18) lösbar, so befindet sich unter den Lösungsvek-
toren eine Ecke von Q(B, ~c ).

Beweis (r1):

Es sei zunächst B ∈ Rp×m


p mit p < m und ~c ∈ Rp×1 . Dann hat jedes ~x ∈ Q(B, ~c )
aufgrund des Polyedersatzes (Seite 207) eine Darstellung
s
X t
X
~x = λi~xi + r µj ~yj mit ~xi ∈ hB; ~c i, i ∈ Is , (λ1 , . . . , λs ) ∈ Ks ,
i=1 j=1
~0
   
B
~yj ∈ t ; , j ∈ It , (µ1 , . . . , µt ) ∈ Kt und r ∈ R+ .
~e 1

Ist u : = min {v ∈ R | Es gibt i ∈ Is mit v = td~ ~xi } und gilt td~ ~yj ≥ 0 für alle
j ∈ It , so folgt
t~ ~ xk = u für ein ~xk ∈ hB; ~c i.
d~x ≥ u für alle ~x ∈ Q(B, ~c ) und td~
Also ist die Ecke ~xk eine Lösung.
~ yj < 0, so besitzt das Optimierungsproblem keine Lösung,
Gibt es ein j ∈ It mit td~
weil die Zielfunktion nach unten unbeschränkt ist.

Im Falle B ∈ Rp×m mit r < p < m ist Q(B, ~c ) entweder leer, oder es lassen
sich ohne Änderung der Lösungsmenge solange Zeilen von B streichen, bis die
Zeilenzahl und der Rang übereinstimmen, womit dann der Grundtyp vorliegt.

Für B ∈ Rp×m mit p ≥ m enthält Q(B, ~c ) höchstens einen Vektor, der dann auch
Ecke und Lösung ist.

3.2.2 Beispiel zur linearen Optimierung

Eine Firma erhält von mehreren Auftraggebern kurzfristige Bestellungen über


insgesamt 1000 Stück von Produkt A, 2000 Stück von Produkt B und 500 Stück
von Produkt C. Zur Herstellung dieser drei Produkte werden nacheinander zwei
Maschinen benötigt: Pro Stück braucht Maschine 1 zur Fertigstellung von A eine
Stunde, von B drei Stunden und von C fünf Stunden. Bei Maschine 2 betragen
die Fertigungszeiten für A drei Stunden und für B zwei Stunden; Produkt C
3.2.2 Beispiel zur linearen Optimierung 215

kann hiermit nicht bearbeitet werden. Beide Maschinen sind jedoch durch weitere
Aufträge schon so ausgelastet, dass Maschine 1 nur noch freie Kapazitäten in
Höhe von 7000 Stunden und Maschine 2 in Höhe von 6000 Stunden hat. Pro
verkauftem Stück macht die Firma einen Gewinn von 7 Euro bei Produkt A, 3
Euro bei Produkt B und 10 Euro bei Produkt C. Welche der Bestellmengen wird
die Firma erfüllen, wenn Sie mit möglichst hohem Gewinn produzieren will?

Die mathematische Form dieses Problems lautet A~x ≤ ~b, ~x ≥ ~0 und td~
~ x = Max !
 
t 1 0 0 1 3

0 1 0 3 2  , ~b : = 1000 t 1 2 12 7 6 und d~ : = t(7 3 10). Erset-



mit A : = 
0 0 1 5 0
zen wir ~x durch 10−3~x, ~b durch 10−3~b und multiplizieren wir dann die dritte
Ungleichung mit 2, so finden wir die Darstellung von P(A, ~b ) als konvexe Hülle
in den Beispielen 3.1.4 und 3.1.7. Wir berechnen die weiteren Ecken, die durch
die Nichtnegativitätsbedingungen entstehen, mit Hilfe der erzeugenden Halbge-
raden des polyedrischen Kegels R+ Konv {~z1 , ~z2 , ~z3 } und unter Verwendung der

Hyperebene E t(1 3 5), 7 , die ~x1 , ~x2 , ~x3 und ~x4 enthält.
x2
2 ~u2 ~u7
~u5
~x1 ~x2
~x3 ~u8
~u6 ~x4

~u0 ~u1
x1
1
0,5
x3 ~u3 ~u4

Abbildung 3.1: Ecken des zulässigen Bereichs

Abbildung 3.1 gibt dann einen Eindruck von dem zulässigen Bereich mit den
Ecken ~x2 = t 23 2 15 1
, ~x3 = t 1 32 103
, ~x4 = t 1 76 21 , ~u0 = ~0, ~u1 = ~e1 , ~u2 =


2~e2 , ~u3 = 21 ~e3 , ~u4 = ~u1 + ~u3 , ~u5 = t 0 2 15 , ~u6 = t 0 23 12 , ~u7 = t 32 2 0 und
  

~u8 = t 1 32 0 .


Mit den Darstellungen (3.16) und (3.17) und durch Fallunterscheidung ergibt
sich das Analogon zum Satz über Optimierungslösungen (Seite 214) für P(A, ~b ).
216 Der Simplex-Algorithmus 3.2.3

Deshalb brauchen wir nur die Komponenten der obigen Ecken in td~ ~ x einzusetzen
~ x4 = 15,5 als optimale
und die Werte zu vergleichen. Dann erhalten wir ~x4 mit td~
Lösung. Der maximale Gewinn von 15500 Euro würde also bei der Produktion
von 1000 Stück des Produkts A, 1166 32 Stück von B und 500 Stück von C erreicht.
Da nur ganze Stückzahlen in Frage kommen, ist die Eckenlösung durch einen “in
der Nähe liegenden” zulässigen Vektor mit ganzen Komponenten zu ersetzen. Bei
1166 Stück von B ergibt sich in diesem Fall ein maximaler Gewinn von 15498
Euro. Auf die “ganzzahlige lineare Optimierung” gehen wir kurz im Ausblick
3.4.3 ein.

3.2.3 Der Simplex-Algorithmus

a) Vorbemerkungen

Natürlich kann man bei praktischen Problemen mit mehreren Hundert Varia-
blen und Restriktionen weder - wie im Mathematikunterricht - mit graphischen
Verfahren noch - wie im obigen Beispiel - durch Probieren die Lösung des Opti-
mierungsproblems bestimmen. Da bei der Berechnung der Basislösungen durch
Basisaustausch noch weitgehende Freiheit bei der Wahl des von 0 verschiedenen
Pivotelements besteht, erscheint es möglich, die Zahl der Versuche erheblich zu
verkleinern.

Anschaulich ist es plausibel, dass man von einer nicht optimalen Ecke ausgehend
“benachbarte” Ecken in einer Reihenfolge durchlaufen kann, bei der die Werte der
Zielfunktion in diesen Ecken monoton fallen. Das ist die Grundidee des 1947 von
G. B. Dantzig entdeckten Simplex-Algorithmus , der seinen Namen denjenigen
Polytopen verdankt, die die konvexe Hülle von linear unabhängigen Vektoren und
~0 sind (siehe Unterabschnitt 5.4.1).

Wir beschreiben diesen wichtigen Algorithmus geometrisch und formal unter der
anfänglichen Voraussetzung, dass eine Startecke gegeben ist und dass keine ent-
arteten Ecken bei dem Ablauf auftreten. Da eine entartete Ecke ~v zu mindestens
zwei Basisindexmengen Jb0 und Jb00 gehört, ist die Entartung daran zu erkennen,
dass ~vb eine 0-Komponente enthält, die von ~vf 0 = ~0 stammt.

Dann gehen wir darauf ein, wie die bei entarteten Ecken vorkommenden Probleme
zu lösen sind und wie sich eine Startecke finden lässt. Anschließend wenden wir
3.2.3 Der Simplex-Algorithmus 217

das Verfahren auf unser Beispiel an.

Für die geometrische Erläuterung, die hier nur der Motivation dient, benötigen
wir den Begriff der Kante, die bei einem konvexen Polyeder P eine Strecke oder
Halbgerade K ist, zu der es eine Stützhyperebene S von P mit S ∩ P = K gibt.
Zwei Ecken ~u und ~v heißen genau dann benachbart, wenn [~u, ~v ] eine Kante von
P darstellt.

b) Optimalitätstest

Das Optimierungsproblem habe die Form (3.18) mit B ∈ Rpp×m , p < m. Die
Ausgangsecke ~v sei nach (3.5) und (3.2) durch ein verkürztes Tableau
t
~yf
~yb C|f ~vb
mit C|f = B|b−1 B|f und ~vb = B|b−1~c gegeben. Da ~v zulässig ist, gilt ~vb ≥ ~0. Um
feststellen zu können, wie sich die Änderung einer Komponente von ~vf = ~0 auf
die Zielfunktionswerte auswirkt, ist ~yb in der Zielfunktion zu eliminieren. Aus
B~y = B|b ~yb + B|f ~yf = ~c folgt
(3.19) ~yb = B|b−1~c − B|b−1 B|f ~yf = ~vb − C|f ~yf .
Für die Zielfunktion ergibt sich damit
t~
d~y = td~b ~yb + td~f ~yf = td~b~vb + td~f − td~b C|f ~yf .

(3.20)
In der Ausgangsecke ~v mit ~vf = ~0 hat die Zielfunktion den Wert td~b~vb .

Das Durchlaufen einer Kante zwischen ~v und einer benachbarten Ecke bedeutet,
dass eine der 0-Komponenten von ~vf positiv wird und solange wächst, bis die
benachbarte Ecke erreicht ist - gekennzeichnet durch eine neue 0-Komponente
des sich gleichzeitig ändernden Vektors ~vb . Das Verhalten der Zielfunktion wird
dabei durch den “Reduktionsvektor”
~r : = d~f − tC|f d~b ∈ R(m−p)×1
bestimmt, der als Koeffizientenvektor von ~yf in (3.20) auftritt. Besitzt ~r keine
negative Komponente, so hat die Zielfunktion mit td~b~vb ihren minimalen Wert
erreicht. Damit ist ~r ≥ ~0 der Optimalitätstest und auch die Abbruchbedin-
gung für den Simplex-Algorithmus (Seite 216).

c) Wanderung entlang einer Kante

Besitzt ~r mindestens eine negative Komponente, so liegt keine Lösungsecke vor,


218 Der Simplex-Algorithmus 3.2.3

weil sich die Zielfunktionswerte verkleinern lassen. Um die stärkste Abnahme zu


erreichen, wählt man mit den Bezeichnungen des Satzes über den Austauschschritt
(Seite 201) für den Basisaustausch einen Index jk0 ∈ Jf0 , der
t
(3.21) ~r ~ek ≤ t~r ~ej für alle j ∈ Im−p
erfüllt. In ~vf = ~0 wird dann die k -te Komponente vergrößert, sodass sich Vektoren
~vf∗ : = t~ek ∈ R(m−p)×1 mit t ∈ R+
ergeben.
Ersetzen wir in (3.19) ~yf durch ~vf∗ und ~yb durch ~vb∗ : = ~vb − C|f ~vf∗ , so ist

~vb∗ = ~vb − t~uk mit ~uk : = C|f ~ek ∈ Rp×1 .


Schreiben wir nun analog zu (3.5)
   ∗  
~vb ∗ ~vb −~uk
~v = (E|b E|f ) , ~v = (E|b E|f ) und ~u : = (E|b E|f ) ,
~vf ~vf∗ ~ek
so erhalten wir ~v ∗ = ~v + t~u mit B~u = ~0. Aus B~v ∗ = ~c folgt dann

(3.22) ~v + t~u ∈ Q(B, ~c ) für alle t ∈ R+ mit t~uk ≤ ~vb .

Wegen t~r ~ek < 0 ergibt sich für die nach (3.20) berechneten Zielfunktionswerte
t~
(3.23) ~ v für jedes t > 0.
d (~v + t~u) = td~b~vb + t~r ~ek < td~b~vb = td~

Ist die Ecke ~v nicht entartet, so enthält ~vb keine 0-Komponenten. Dann gibt es
~v.
ein t0 > 0 mit ~v + t0~u ∈ Q(B, ~c ) und td~ (~v + t0~u) < td~

Für ~u ≥ ~0 und damit ~uk ≤ ~0 stellt {~v } + R+ {~u } wegen (3.22) und ~u 6= ~0 eine
Halbgerade in Q(B, ~c ) dar, und die mit (3.23) bestimmten Zielfunktionswerte
sind für t ∈ R+ nach unten unbeschränkt. Damit besitzt die Optimierungsaufgabe
(3.18) im Falle ~uk ≤ ~0 keine Lösung.

d) Erreichen einer benachbarten Ecke

Hat ~uk mindestens eine positive Komponente, so definieren wir


t
 
t ~eh~vb
t0 : = min t ∈ R+ | Es gibt h ∈ Ip mit ~eh~uk > 0 und t = t
~eh~uk
(3.24)  t

~
e ~
v
h b
und ji : = min jh ∈ J b0 | t~eh~uk > 0 und t = t0 .
~eh~uk

Aufgrund des Satzes über den Austauschschritt (Seite 201) lassen sich wegen
~ei~uk > 0 der Basisindex ji und der freie Index jk0 austauschen. Als Ergebnis
t
3.2.3 Der Simplex-Algorithmus 219

erhalten wir das verkürzte Tableau für die Basislösung ~v 0 zur Basisindexmenge
Jb00 = Jb0 \ {ji } ∪ {jk0 }.


Durch Fallunterscheidung zeigen wir, dass ~v 0 = ~v + t0~u gilt, wobei wir die Ein-
heitsvektoren aus Rm×1 mit ~ej∗ , j ∈ Im , bezeichnen. Im Falle j ∈ Jf0 \ {jk0 }
haben wir t~e j∗~v 0 = 0 = t~e j∗~v + t0 t~e j∗~u. Außerdem ist t~e j∗0 ~v 0 = t0 = t~e j∗0 (~v + t0~u)
k k
und t~e j∗~v 0 = 0 = t~ei (~vb − t0~uk ) = t~e j∗i (~v + t0~u). Mit Hilfe der Matrix Tik aus
dem Satz über den Austauschschritt (Seite 201), mit der Abkürzung uhk : = t~eh~uk
für h ∈ Ip und wegen u1 t~ei~vb = t0 erhalten wir schließlich für h ∈ Ip \ {i} die
ik
Gleichungskette
t ∗ 0 u
~ejh ~v = t~eh~vb00 (3.9)
= ~
t
eh Tik~vb = t~eh~vb − uhk t~ei~vb =
ik
t
~eh~vb − t0 uhk = t~eh (~vb + t0~ub ) = t~ej∗h (~v + t0~u).

Da ~v 0 eine Basislösung von B~y = ~c darstellt und da ~v + t0~u wegen (3.22) zulässig
ist, haben wir eine Ecke von Q(B, ~c ) erreicht, die im Falle t0 > 0 von ~v verschie-
den ist. Sind alle Ecken, die bei dem Simplex-Algorithmus (Seite 216) durchlau-
fen werden, nicht entartet, so fallen die Werte der Zielfunktion in diesen Ecken
streng monoton. Da es höchstens m+n m
 
n
beziehungsweise p
Ecken gibt, wird
die Lösung des linearen Optimierungsproblems (3.18) aufgrund des Satzes über
Optimierungslösungen (Seite 214) durch den Simplex-Algorithmus gefunden.

e) Vorgehen bei entarteten Ecken

Im Falle einer entarteten Ecke ~v kann es passieren, dass t0 = 0 ist, weil t~eh~vb = 0
für alle h ∈ Ip mit t~eh~uk > 0 gilt. Der Austauschschritt lässt sich dann trotzdem
durchführen. Aber es besteht die Möglichkeit, dass sich einige der nachfolgen-
den Basisindexmengen ständig “zyklisch” wiederholen. Diese Situation, die bei
praktischen Problemen äußerst selten vorkommt, kann durch eine Abänderung
der Pivotregeln vermieden werden. Am einfachsten ist die Bland-Regel (nach
R. G. Bland, 1977), bei der (3.21) durch

(3.25) jk0 : = min {jh0 ∈ Jf0 | t~r~eh < 0}

zu ersetzen ist. Einen zweiten Teil dieser Regel haben wir in (3.24) bereits berück-
sichtigt, indem der Index i eindeutig festgelegt wurde. Da diese Regel “fast nie”
anzuwenden ist, verzichten wir auf den etwas längeren Nachweis dafür, dass dann
keine zyklische Wiederholung von Basisindexmengen eintritt (siehe [2]).
220 Der Simplex-Algorithmus 3.2.3

Ein anderes Verfahren benutzt in (3.24) “lexikographische” Minimumbildung


über die Quotienten der entsprechenden Komponenten aller Zeilenvektoren im
nicht verkürzten Tableau. Schließlich führt auch eine geringe systematische Va-
riation des konstanten Anteils der Restriktionen zum Erfolg. Diese Technik, durch
eine geringfügige Störung übereinstimmender Größen das Verfahren zu einem zy-
kelfreien Ablauf zu bringen, wird in der Praxis besonders gerne angewendet.

f ) Bestimmung einer Startecke

Kennt man keine Ecke des nichtleeren konvexen Polyeders Q(B, ~c ), so lässt sich
ein Verfahren anwenden, das zunächst einen Vektor aus Q(B, ~c ) ergibt, der dann
mit dem ersten Teil des Polyeder-Algorithmus (Seite 210) zu einer Ecke führt. Wir
gehen dabei von einem Tableau (C d~ ) zur Basisindexmenge J 0 = : {j1 , . . . , jp }
b
aus. Im Falle B = (A Ep ) sei C : = B und d~ : = ~b. Sonst können wir wegen (3.3)
und (3.4) Jb0 : = Jb , C : = rB und d~ : = (wB)−1~c wählen.
d~
 
Ist d~ ≥ ~0, so stellt ~v : = (E|b E|f ) ~ bereits eine Ecke von Q(B, ~c ) dar.
0
Andernfalls seien h1 , . . . , hs die Indizes der negativen Komponenten von d. ~ Mit
Hilfe der “Vorzeichenmatrix”
X s
V : = Ep − 2 ~ehi t~ehi ∈ GL(p; R)
i=1

gehen wir zu dem Gleichungssystem VC~y = V d~ mit V d~ ≥ ~0 über. Da nun


VC|b 6= Ep ist, führen wir in jeder Gleichung, die mit −1 multipliziert wurde,
eine “künstliche” Variable ym+i , i = 1, . . . , s, ein. Mit

H : = V C ~eh1 . . . ~ehs , ~z : = (y1 . . . ym ym+1 . . . ym+s )
(3.26)
und Jb00 : = Jb0 \ {jh1 , . . . , jhs } ∪ {m + 1, . . . , m + s}


erhalten wir dann das Gleichungssystem H~z = V d, ~ für das der Vektor ~v 0 : =
V d~
 
(E|b0 E|f 0 ) ~ eine zulässige Basislösung zur Basisindexmenge Jb00 darstellt.
0
Betrachten wir jetzt das lineare Optimierungsproblem

(3.27) ~ ~z ≥ ~0 und (t~0 t~e )~z = Min! mit ~e ∈ Rs×1 ,


H~z = V d,
so ergibt der Simplex-Algorithmus (Seite 216) mit der Startecke ~v 0 eine Lösungs-
ecke ~v 00 = : t(v100 . . . vm+s
00
), weil die Zielfunktion nach unten durch 0 beschränkt
ist. Da jede Ecke ~v von Q(B, ~c ) zu einer Lösung t(t~v t~0 ) des Hilfsproblems führt,
3.2.3 Der Simplex-Algorithmus 221

bei der die Zielfunktion den Wert 0 hat, bedeutet (t~0 t~e )~v 00 > 0, dass Q(B, ~c )
aufgrund des Polyedersatzes (Seite 207) leer ist.

Gilt (t~0 t~e )~v 00 = 0, so ist vm+1


00 00
= . . . = vm+s 00
= 0. Damit erhalten wir t(v100 . . . vm )
∈ Q(B, ~c ). Der Polyeder-Algorithmus (Seite 210) liefert dann eine Ecke von
Q(B, ~c ), und (3.5) ergibt das zugehörige Tableau.

In der Praxis wird unter Berücksichtigung der Zielfunktion Basisaustausch vorge-


nommen, bis keine Indizes von künstlichen Variablen mehr zu den Basisvariablen
gehören. Zum Zweck der schnelleren Elimination gewichtet man dabei die künst-
lichen Variablen in der Zielfunktion des Hilfsproblems oft durch große positive
Konstanten.

g) Revision des Übergangsschritts

Im Verlauf des in b), c) und d) beschriebenen Algorithmusschritts werden die


Vektoren ~vb = B −1~c, t~r = td~f − td~b C|f und ~uk = C|f ~ek berechnet. Beachten
|b
wir, dass nach (3.5) C|f = B|b−1 B|f gilt, so ist es naheliegend, einen günstigeren
Zugang zu den in allen drei Vektoren vorkommenden Produkten mit der Matrix
B|b−1 zu suchen. Wegen (3.9) ist ~vb00 = Tik~vb . Damit folgt B|b−10 ~c = Tik B|b−1~c für
jedes ~c ∈ Rp×1 . Wählen wir für ~c die Einheitsvektoren aus Rp×1 , so erhalten wir
spaltenweise
(3.28) B|b−10 = Tik B|b−1 .
Die Matrizen Tik , die mit Hilfe von ~uk bestimmt werden und die sich nur im i -ten
Spaltenvektor von Ep unterscheiden, lassen sich in der Form (i, Tik~ei ) speichern
und sehr einfach von rechts oder links mit Vektoren multiplizieren:
Tik~a = ~a − (t~ei~a)~ei + (t~ei~a)(Tik~ei ),
(3.29) t
~a Tik = t~a − (t~ei~a)t~ei + t~a(Tik~ei )t~ei .

Um Rundungsfehler klein zu halten, wird B|b−1 in regelmäßigen Abständen (zum


Beispiel nach 10p Schritten) aus B|b explizit berechnet, und die gespeicherten
Daten (i, Tik~ei ) werden ersetzt.

Neuere Verfahren deuten B|b und tB|b als Koeffizientenmatrizen der drei Glei-
chungssysteme B|b~vb = ~c für ~vb , tB|b d~∗ = d~b für d~∗ in ~r = d~f − tB|f d~∗ und
b b b

B|b~uk = B|f ~ek für ~uk . Benutzt man hier für B|b (beziehungsweise für P B|b mit
einer geeigneten Permutationsmatrix) die US -Zerlegung, so können einerseits die
222 Beispiel zum Simplex-Algorithmus 3.2.4

Gleichungssysteme effizient gelöst werden, und andererseits lassen sich die Drei-
ecksmatrizen U und S ähnlich günstig aktualisieren wie B|b−1 .

Wird mit Hilfe der Produktdarstellung von B|b−1 oder mit der US -Zerlegung von
P B|b - und in der Praxis mit weiteren Modifikationen - vorgegangen, so spricht
man von einem revidierten Simplex-Algorithmus.

3.2.4 Beispiel zum Simplex-Algorithmus

Das lineare Optimierungsproblem aus Beispiel 3.2.2 wird nun mit dem Simplex-
Algorithmus (Seite 216) gelöst. Dabei stellen wir der Tableau-Methode einen
 
t 1 0 0 1 3
revidierten Simplex-Algorithmus gegenüber. Mit A = :  0 1 0 3 2  ist jetzt
0 0 2 5 0
B : = (A E5 ), ~c : = t(1 2 1 7 6) und d~ : = t(−7 −3 −10 0 0 0 0 0). Die
~y = Min !.
Optimierungsaufgabe lautet dann B~y = ~c, ~y ≥ ~0 und td~

Im verkürzten Tableau sind jeweils das Pivotelement und die Werte, die zur
Pivotauswahl führen, fett gedruckt. Der revidierte Algorithmus, der stets die-
selben Pivotelemente und Ecken ergibt wie das Tableau-Verfahren, startet mit
~yb : = t(y4 y5 y6 y7 y8 ), ~yf : = t(y1 y2 y3 ), ~vb : = ~c und td~b~vb = 0. In jedem Schritt
(mit der Nummer j) werden die folgenden 10 Vektoren und Zahlen berechnet:
1: td~b B|b−1 ; 2: t~r; 3: k; 4: ~uk = B|b−1 B|f ~ek ; 5: t0 ; 6: i (als ij gespeichert); 7: Tik~ei
(als ~tj gespeichert und als Tj : = E5 − ~eij t~eij + ~tj t~eij verwendet); 8: t~yb0 , t~yf 0 ; 9:
~v 00 = Tik~vb ; 10: td~b0 ~v 00 . Die Vektoren in 8 und 9 ersetzen jeweils die entsprechenden
b b
Ausgangsvektoren.

Schritt 1:

y1 y2 y3 ~vb t 1: (0 0 0 0 0); 2: (−7 −3 −10);


y4 1 0 0 1
3: 3; 4: t(0 0 2 5 0); 5: 12 ; 6: 3;
y5 0 1 0 2
y6 0 0 2 1 0,5 7: t(0 0 12 − 52 0);
y7 1 3 5 7 1,4 8: (y4 y5 y3 y7 y8 ), (y1 y2 y6 );
y8 3 2 0 6
t 9: t(1 2 21 92 6); 10: −5.
~r −7 −3 −10 0
3.3 Dualitätstheorie 223

Schritt 2:
y1 y2 y6 ~vb t 1: td~b T1 = (0 0 −5 0 0);
y4 1 0 0 1 1
2: (−7 −3 5); 3: 1;
y5 0 1 0 2
y3 0 0 12 12 4: T1 B|f ~e1 = t(1 0 0 1 3);
y7 1 3 − 52 92 4,5 5: 1; 6: 1; 7: t(1 0 0 −1 −3);
y8 3 2 0 6 2 8: (y1 y5 y3 y7 y8 ), (y4 y2 y6 );
t
~r −7 −3 5 −5 9: t(1 2 21 72 3); 10: −12.

Schritt 3:

y4 y2 y6 ~vb t 1: td~b T2 T1 = (−7 0 −5 0 0);


y1 1 0 0 1 2: (7 −3 5); 3: 2;
y5 0 1 0 2 2
1 1 4: T2 T1 B|f ~e2 = t(0 1 0 3 2);
y3 0 0 2 2
5: 76 ; 6: 4; 7: t(0 − 13 0 31 − 23 );
y7 −1 3 1,16̄ − 52 7
2 8: (y1 y5 y3 y2 y8 ), (y4 y7 y6 );
y8 −3 2 0 3 1,5
t
~r 7 −3 5 −12 9: t(1 65 12 76 32 ); 10: − 31
2
.

Schritt 4:
y4y7 y6 ~vb
1: td~b T3 T2 T1 = (−6 0 − 52 −1 0);
y1 1 0 0 1
y5 1
− 13 65 5 2: (6 1 52 ).
3 6
1 1
y3 0 0 2 2
y2 − 13 1
3
− 56 7
6
y8 − 73 − 23 35 2 Der maximale Gewinn und die
3 Stückzahlen stimmen mit denen
t
~r 6 1 25 −15,5 von Beispiel 3.2.2 überein.

3.3 Dualitätstheorie

3.3.1 Duale lineare Optimierungsaufgaben

Bei theoretischen Untersuchungen und in der Praxis spielen neben “äquivalen-


ten” linearen Optimierungsaufgaben auch Zuordnungen von Problemstellungen
eine wichtige Rolle, die sich ähnlich zueinander verhalten wie die orthogonalen
Komplemente von Untervektorräumen.
224 Duale lineare Optimierungsaufgaben 3.3.1

Definition der Dualität von linearen Optimierungsaufgaben


Es seien A ∈ Rm×n , ~b ∈ Rm×1 und ~c ∈ Rn×1 . Von den Problemstellungen
(3.30) A~x ≤ ~b, ~x ≥ ~0 und t~c ~x = Max ! sowie
(3.31) A~y ≥ ~c, ~y ≥ ~0 und t~b~y = Min !
t

heißt (3.31) zu (3.30) beziehungsweise (3.30) zu (3.31) dual, wenn jeweils die
nachstehende gegeben ist, die dann auch primale Aufgabe genannt wird.

Offensichtlich ist die duale Problemstellung einer dualen Aufgabe wieder die ur-
sprüngliche. Bei linearen Optimierungsaufgaben aus der Wirtschaft lässt sich das
duale Problem manchmal als eine “Konkurrenzsituation” deuten. Aus Kosten
werden dann “Schattenpreise”.

Der folgende grundlegende Satz zeigt auch, dass nach Einführung von Schlupf-
variablen die gesuchte Lösung durch Anwendung des Simplex-Algorithmus (Seite
216) auf die duale Aufgabe oft mit geringerem Aufwand gefunden werden kann
als bei der primalen Problemstellung.

Dualitätssatz
i) Sind die zulässigen Bereiche der primalen und der dualen Aufgabe nicht
leer, so ist jede der beiden Problemstellungen lösbar.
ii) Erfüllen ~x und ~y die Restriktionen von (3.30) beziehungsweise (3.31) und
ist t~c ~x = t~b~y , so sind ~x und ~y Lösungen der jeweiligen Problemstellung.
iii) Hat die primale Aufgabe eine Lösung, so ist auch die duale Problemstel-
lung lösbar, und die optimalen Werte der Zielfunktionen sind gleich.

Beweis (a2):

i) Ist ~x1 ∈ P(A, ~b ) und ~y1 ∈ P(−tA, −~c ), so folgt


~c ~x1 ≤ t~y1 A ~x1 = t~y1 (A~x1 ) ≤ t~y1~b = t~b~y1 ,
t

(3.32)
weil die Multiplikation mit den nichtnegativen Vektoren ~x1 und t~y1 die Unglei-
chungsrelationen erhält. Damit sind die Zielfunktionen ~x 7→ t~c ~x, ~x ∈ P(A, ~b ), und
~y 7→ t~b~y , ~y ∈ P(−tA, −~c ), nach oben beziehungsweise nach unten beschränkt. Al-
so ergibt der Simplex-Algorithmus für jede der beiden Aufgaben eine Lösung.
3.3.2 Komplementarität 225

ii) Sind ~x1 und ~y1 wie in i), so erhalten wir mit (3.32) t~c ~x1 ≤ t~b~y und t~c ~x ≤ t~b~y1 ,
also nach Voraussetzung t~c ~x1 ≤ t~c ~x und t~b~y ≤ t~b~y1 . Damit ist ~x Lösung von
(3.30), und ~y erfüllt (3.31).

iii) Wir können uns darauf beschränken, von der primalen Aufgabe (3.30) aus-
zugehen, weil (3.31) zu −tA~x ≤ −~c, ~x ≥ ~0 und −t~b~x = Max ! sowie (3.30) zu
−A~y ≥ −~b, ~y ≥ ~0 und −t~c ~y = Min ! äquivalent ist.
 
~ ~v1
Es sei ~v1 eine Lösung von (3.30) und ~v2 : = b − A~v1 . Dann erfüllt ~v : =
~v2
die Problemstellung B~x 0 = ~b, ~x 0 ≥ ~0 und td~~ x 0 = Min! mit B : = (A Em ) und
t~
d : = (−t~c t~0). Aus der zugehörigen Optimalitätsbedingung des Simplex-Algorith-
mus (Seite 216) t~r = td~f − td~b B −1 B|f ≥ t~0 folgt
|b
t~
(3.33) db B|b−1 B|f ≤ td~f .
In der Ecke ~v hat die Zielfunktion wegen (3.2) und wegen ~vf = ~0 den optimalen
Wert
t~
(3.34) db~vb = td~b B|b−1~b.
~ : = −tB|b−1 d~b , so ergibt (3.33) tB|f (−w)
Setzen wir hier w ~ ≤ d~f . Zusammen mit
!
~b
t  t 
B d B
t
~ = d~b ist also t
B|b (−w) |b
(−w)~ ≤ ~ . Mit (E|b E|f ) t |b = tB und
B|f df B |f
!
~
 t   
db ~ t A ~ −~c
(E|b E|f ) ~ = d erhalten wir daraus B(−w) ~ = t (−w)~ ≤d= ~ ,
df Em 0
das heißt, tAw ~ ≥ ~c und w~ ≥ ~0. Wegen (3.34) ist außerdem −t~bw ~ ~b = td~b~vb =
~ = −tw
t~
d~v = −t~c ~v1 . Also stellt w
~ nach ii) eine Lösung von (3.31) dar.

3.3.2 Komplementarität

Erfüllen ~x und ~y die Restriktionen von (3.30) beziehungsweise (3.31), so ergeben


die Teile ii) und iii) des Dualitätssatzes (Seite 224), dass ~x und ~y genau dann
Lösungen der jeweiligen Aufgabe sind, wenn t~c ~x = t~b~y gilt. Durch eine einfache
Umformung erhalten wir hier eine Gleichung, die einen tieferen Einblick in das
Verhalten des Schlupfes ~b − A~x beziehungsweise tA~y − ~c erlaubt:

0 = t~b~y − t~c ~x = t~y ~b − t~y A~x + t~y A~x − t~c ~x =


t ~
~y (b − A~x) + (t~y A − t~c )~x = t~y (~b − A~x) + t~x(tA~y − ~c ).
226 Komplementarität 3.3.2

Da alle m + n Summanden dieser Skalarprodukte nicht negativ sind, muss jeder


einzelne Summand gleich 0 sein. Bevor wir hiervon eine Anwendung bringen, die
auch für die Praxis wichtig ist, halten wir dieses Ergebnis fest.

Satz über den komplementären Schlupf


Die Vektoren ~x ∈ P(A, ~b ) und ~y ∈ P(−tA, −~c ) stellen genau dann Lösungen
von (3.30) beziehungsweise von (3.31) dar, wenn

(3.35) ~y (~b − A~x) + t~x(tA~y − ~c ) = 0


t

gilt, wobei jeder einzelne Summand der Skalarprodukte 0 ist.

Ist ~y eine nicht entartete Lösung von (3.31), so seien i1 , . . . , is die Indizes der
positiven Komponenten von ~y , und j1 , . . . , jt seien die Indizes der positiven Kom-
 
ponenten von tA~y − ~c. Mit H1 : = ~ei1 . . . ~eis und H2 : = ~ej1 . . . ~ejt ist dann
(3.35) äquivalent zu tH1 (~b − A~x) = ~0 und tH2~x = ~0. Damit erfüllt ~x ∈ P(A, ~b )
H1~b
t  t 
H1 A
genau dann die primale Aufgabe (3.30), wenn t ~x = ~0 gilt.
H2

Mit dem Satz über den komplementären Schlupf (engl. complementary slack-
ness) sind wir in die Nähe eines anderen Zugangs zur Dualität gekommen, für
den der folgende Satz typisch ist. Die abschließende kurze Beweisskizze (nach [1])
lässt auch einen Zusammenhang mit orthogonalen Komplementen von Unter-
vektorräumen erkennen, womit eine Verbindung zu der auf Seite 224 erwähnten
Beziehung zwischen dualen linearen Optimierungsaufgaben angedeutet wird.

Alternativensatz (Farkas-Lemma)
Sind A ∈ Rm×n und ~b ∈ Rm×1 , so gilt P(A, ~b ) 6= ∅ genau dann, wenn
t   !
A ~0
Q t~ , leer ist.
b −1

Beweisskizze (a2):
A −~b
 
In einem ersten Schritt wird mit der Abkürzung B : = t~ gezeigt, dass
0 −1
die Satzaussage zu der folgenden ausschließenden Alternative äquivalent ist:
3.4 Ausblick 227

!   !
~0 ~0
    t
B B
P t , 6= ∅ oder Q t , 6= ∅.
− ~en+1 −1 ~em+1 1

Aufgrund des Satzes über orthogonale Komplemente (Seite 153) gilt S(B)⊥ =
N(tB). Mit U : = S(B) ergibt sich dann aus der vorigen die folgende ausschlie-
ßende Alternative:
(Es gibt ~y ∈ U mit ~y ≥ ~0 und t~em+1 ~y > 0) oder
(Es gibt ~u ∈ U⊥ mit ~u ≥ ~0 und t~em+1~u > 0).

In der umgekehrten Richtung wird genutzt, dass sich jeder Untervektorraum U ⊆


R(m+1)×1 , dessen Vektoren nicht alle 0 als letzte Komponente haben, in der Form
U = S(B) mit obigem B bei geeignetem A und ~b schreiben lässt.

Der Beweis der letzten Alternative erfolgt durch vollständige Induktion über m,
wobei der Untervektorraum U ⊆ R(m+1)×1 aufgrund des Satzes über den Nullraum
als Spaltenraum (Seite 134) als Nullraum einer Matrix angesetzt wird.

3.4 Ausblick

3.4.1 Der Ellipsoid-Algorithmus

Obwohl der Simplex-Algorithmus (Seite 216) bei praktischen Problemen mit n


Restriktionen meistens in O(n) Schritten zum Ziel führt, können zu den verschie-
denen Pivotisierungsregeln jeweils Problemklassen angegeben werden, bei denen
die Schrittzahl exponentiell mit der Problemgröße zunimmt. Es war deshalb ein
überraschendes und wichtiges Ereignis, als L. G. Chatschijan 1979 einen Al-
gorithmus veröffentlichte, der für leicht modifizierte lineare Ungleichungssysteme
und auch für lineare Optimierungsaufgaben die Lösung mit einer Schrittzahl er-
gibt, die durch einen Polynomwert P (n) beschränkt ist.

Wir skizzieren hier nur den Algorithmus zur Lösung linearer Ungleichungssysteme
im Anschluss an [2], wo auch die zugehörigen Beweise zu finden sind. Es seien
A : = t(~a1 . . . ~am ) ∈ Rm×n , ~b : = t(b1 . . . bm ) ∈ Rm×1 , P ∗ : = {~x ∈ Rn×1 | t~ai~x <
bi für i = 1, . . . , m}, und P : = P(A, ~b ) sei ein Polytop.

Mit Hilfe des Satzes über die Hauptachsentransformation (Seite 316) und des
Satzes über Eigenwertkriterien für Definitheit (Seite 318) lässt sich die folgende
228 Der Projektionsalgorithmus 3.4.2

Begriffsbildung begründen: Ist B ∈ Rn×n positiv definit und symmetrisch, so


heißt O(B, ~x 0 ) : = {~x ∈ Rn×1 | t(~x − ~x 0 )B −1 (~x − ~x 0 ) ≤ 1} Ellipsoid mit Zentrum
~x 0 .

Der Ellipsoid-Algorithmus startet meistens mit einer Kugel O(rEn , ~x0 ), die P
enthält, und bestimmt zu einem schon gewonnenen Ellipsoid Ok : = O(Bk , ~xk )
/ P ∗ sowie zu einem Index i ∈ Im mit t~ai~xk ≥ bi ein
mit P ⊂ Ok und ~xk ∈
Nachfolgeellipsoid Ok+1 , das Ok ∩ H(t~ai , bi ) enthält und dessen Volumen kleiner
ist als das von Ok .

Den Radius r der Startkugel O0 : = O(rEn , ~x0 ) kann man aus einer groben
Schranke für die Beträge der Elemente von P gewinnen. Sind die Parameter
~xk und Bk eines Ellipsoids O(Bk , ~xk ) berechnet, so ist die Abbruchbedingung,
/ P ∗ wählt man ein i ∈ Im
dass t~ai~xk < bi für alle i ∈ Im gilt. Im Falle ~xk ∈

mit t~ai~xk ≥ bi und bestimmt mit den Abkürzungen w ~ i : = Bk~ai , di : = t~ai w ~i
1−nhk
und hk : = d1 bi − t~ai~xk das nächste Zentrum ~xk+1 : = ~xk − (n+1)d

w
~ i sowie die
i i
 
n2 2
 2(1−nhk ) t
positiv definite Matrix Bk+1 : = n2 −1 1 − hk Bk − (n+1)(1−h )d2 w ~i w ~ i , für die
k i
O(Bk+1 , ~xk+1 ) die oben genannten Eigenschaften hat.

Ist P ∗ 6= ∅ und sind v0 beziehungsweise v die Volumina von P und von O0 , so


benötigt der Ellipsoid-Algorithmus maximal 2 ln vv0 (n + 1) Schritte, um eine
 

Lösung zu finden.

3.4.2 Der Projektionsalgorithmus

Einen weiteren Algorithmus zur Lösung von linearen Optimierungsaufgaben hat


N. Karmarkar 1983 veröffentlicht. Er approximiert eine Optimierungslösung
mit Hilfe der “Zentren” von “deformierten Kugeln”, die dem zulässigen Bereich
einbeschrieben werden können. Wir skizzieren hier im Anschluss an [2] das Prinzip
einer Algorithmus-Version, mit der Karmarkar zeigen konnte, dass die Schritt-
zahl wie bei dem Ellipsoid-Algorithmus “polynomial” in der Problemgröße ist.

Anstelle von (3.18) geht man von der folgenden Problemstellung aus, auf die jede
lineare Optimierungsaufgabe mit Hilfe des Dualitätssatzes (Seite 224) zurück-
geführt werden kann: 
~0
  
B
t ~x = , ~x ≥ ~0, t~c ~x = Min !
~e 1
3.4.3 Ganzzahlige lineare Optimierung 229

wobei B ∈ Rm×nm eine Matrix ist, die B~e = ~0 erfüllt und mit der t~c ~x ≥ 0 für alle
   !
B ~0
~x ∈ Q t , gilt. Stellt ~x0 eine Optimierungslösung dieser Aufgabe
~e 1
dar, so ist das ursprüngliche Problem unlösbar, wenn t~c ~x0 > 0 gilt. Andernfalls
kann man aus ~x0 eine Optimierungslösung der Ausgangsaufgabe konstruieren.
   !
B ~0
Es wird eine Folge von Vektoren ~xk bestimmt, die ~xk ∈ Q t , und
~e 1
t
~ei~xk > 0 für alle i ∈ In erfüllen und für die die positiven Zahlen t~c ~xk dem
minimalen Zielfunktionswert beliebig nahekommen.

Der Startvektor ist ~x0 : = n1 ~e. Außerdem wählt man ε > 0 und berechnet vorweg
1
r : = (n2 − n)− 2 . Liegt ~xk mit t~c ~xk > ε vor, so wird auf folgende Weise zu
einem Ersatzproblem übergegangen, dort die zulässige Lösung verbessert und
dann zurücktransformiert. Dazu sei
n  
X
t
 t  BDk
Dk : = ~ei~xk ~ei ~ei und Hk : = t .
~e
i=1
Der Satz über orthogonale Komplemente (Seite 153) und der Satz über die Pseudo-

Inverse (Seite 161) ergeben, dass p~k : = En − pHk Hk Dk~c die Projektion des
Ersatzzielfunktionsvektors Dk~c auf N(Hk ) darstellt, wodurch der Algorithmus
seinen Namen erhält.

Gilt t~c ~xk > 1r k~pk k, so wird das Verfahren abgebrochen, weil sich zeigen lässt,
dass dann der optimale Zielwert größer als 0 ist. Sonst setzt man d~k : = Dk ~x0 −
r −1
und bildet den nächsten Vektor ~xk+1 : = t 1~ d~k , mit dem die Ab-

2
k~
pk k p
~k
~e dk
bruchbedingung t~c ~xk+1 ≤ ε geprüft und im Falle der Nichterfüllung wie oben
fortgefahren wird.

3.4.3 Ganzzahlige lineare Optimierung

Müssen vor allem bei praktischen Problemen alle oder einige Komponenten des
Lösungsvektors ganze Zahlen sein, so spricht man von einem ganzzahligen li-
nearen Optimierungsproblem. Einen ersten Algorithmus, der mit endlich vielen
Schritten eine solche Aufgabe löst, hat R. E. Gomory 1958 angegeben. Dabei
wird zuerst das zugehörige lineare Optimierungsproblem ohne die Ganzzahlig-
keitsbedingung gelöst. Ist der Lösungsvektor ~x0 ein “Gittervektor”, das heißt ein
230 Netzplantechnik und Spieltheorie 3.4.4

Vektor mit ausschließlich ganzzahligen Komponenten, so genügt dieser auch der


ganzzahligen Aufgabe. Sonst fügt man eine weitere Nebenbedingung hinzu, die
von allen zulässigen Gittervektoren aber nicht von ~x0 erfüllt wird, und wiederholt
das Verfahren, das entscheidend von der Bestimmung der “Schnitthyperebene”
abhängt, weshalb es Schnittebenenverfahren heißt.

Es gibt noch eine weitere Methode, die man Verzweigungsverfahren nennt, weil
schrittweise jeweils ein Problem in zwei Teilprobleme aufgespalten wird, deren
zulässige Bereiche zusammengenommen alle zulässigen Lösungen des vorherigen
ganzzahligen Problems enthalten.

Obwohl also zwei verschiedene Algorithmen für die ganzzahlige lineare Optimie-
rung existieren, ist die Situation bei dieser Problemstellung doch völlig anders
als bei den übrigen algorithmisch gelösten Aufgaben dieses Buches. Wir können
diese Besonderheit, die zur Komplexitätstheorie gehört, allerdings nur andeuten.

Mit P bezeichnet man die Menge aller Probleme, die von mindestens einem “de-
terministischen” Algorithmus in polynomialer Laufzeit gelöst werden, und NP
steht für die entsprechende Menge mit nichtdeterministischen Algorithmen, wo-
bei “nichtdeterministisch” grob bedeutet, dass der Algorithmus beim Vorliegen
mehrerer Möglichkeiten die Fähigkeit hat, eine “zum Nulltarif” erratene Lösung
zu verifizieren.

Man weiß, dass P ⊆ NP gilt, dass die ganzzahlige lineare Optimierung zu NP


gehört und dass sie mit polynomialer Laufzeit in jedes andere Problem aus NP
überführt werden kann. Diese Eigenschaft, die auch zahlreiche weitere für die
Praxis wichtige Probleme haben, heißt NP -Vollständigkeit. Die Entdeckung eines
(deterministischen) Algorithmus, der die Aufgabe der ganzzahligen linearen Op-
timierung in polynomialer Laufzeit löst, würde deshalb bedeuten, dass P = NP
ist, obwohl man für kein einziges NP -vollständiges Problem einen solchen Algo-
rithmus kennt (siehe [6], Kapitel 1, und [11], Kapitel 45). Viele Wissenschaftler
nehmen an, dass P = NP bewiesen werden wird.

3.4.4 Netzplantechnik und Spieltheorie

Zum Abschluss dieses Ausblicks sei auf zwei weitere wichtige Anwendungsbereiche
hingewiesen, die mit der linearen Optimierung zusammenhängen. Die Netzplan-
3.4.4 Netzplantechnik und Spieltheorie 231

technik verwendet Hilfsmittel der Graphentheorie (siehe Seite 82 f.), um vielfälti-


ge Probleme der Ablaufplanung zu lösen.

Die Spieltheorie als Teil der “Entscheidungstheorie” behandelt die Frage, welches
Verhalten von Individuen oder gesellschaftlichen Gruppen unter verschiedenar-
tigen Bedingungen in Bezug auf eine Nutzenskala optimal ist. Die große Klasse
der endlichen Zwei-Personen-Nullsummenspiele, bei denen also die Summen der
“Gewinne” von zwei Spielern in jeder Phase 0 (oder konstant) sind, ist äquivalent
zu “Matrixspielen”, von denen mit Hilfe des Dualitätssatzes (Seite 224) gezeigt
werden kann, dass sie stets eine Lösung besitzen.
Kapitel 4

Lineare Abbildungen

4.1 Definition und elementare Eigenschaften


4.1.1 Vektorraum-Homomorphismen

Im zweiten Kapitel haben wir zahlreiche wichtige Ergebnisse für die fundamenta-
len Untervektorräume der speziellen “arithmetischen” Vektorräume Km×1 herge-
leitet. Die meisten dieser Aussagen lassen sich mit Hilfe “strukturtreuer” Abbil-
dungen auf andere Vektorräume über demselben Körper K übertragen. Da solche
Abbildungen außerdem für die folgenden Teile der Linearen Algebra grundlegend
sind, widmen wir ihnen ein eigenes Kapitel.
Bei beliebigen algebraischen Strukturen, die jeweils aus einer Grundmenge, end-
lich vielen Verknüpfungen und ausgezeichneten Elementen beziehungsweise Teil-
mengen bestehen, heißen die strukturtreuen Abbildungen Homomorphismen, wo-
bei im Zweifelsfalle die Strukturbezeichnung vorangestellt wird, zum Beispiel
Gruppen-Homomorphismus, Ring-Homomorphismus oder Verbandshomomor-
phismus.
Vektorraum-Homomorphismen müssen nur mit den beiden Verknüpfungen ver-
träglich sein, die zu dem jeweiligen Vektorraum gehören. Deshalb stimmen diese
Homomorphismen mit den gleich zu definierenden linearen Abbildungen überein,
die ihren Namen eher der geometrischen Eigenschaft verdanken, lineare Teilmen-
gen (nämlich Untervektorräume) auf ebensolche abzubilden.

Definition der linearen Abbildung


Sind (V, , ) und (W, ⊕, ) K - Vektorräume, so heißt eine Abbildung
ϕ : V → W linear genau dann, wenn

232
4.1.2 Beispiele und Bezeichnungen 233

i) ϕ(~x  ~y ) = ϕ(~x ) ⊕ ϕ(~y ) für alle ~x, ~y ∈ V und


ii) ϕ(c ~x ) = c ϕ(~x ) für jedes c ∈ K und alle ~x ∈ V gilt.

Wie schon bei den einzelnen Vektorräumen lassen wir im Folgenden auch bei
linearen Abbildungen die zusätzliche Kennzeichnung der Verknüpfungen weg, weil
die Bedeutung immer aus dem Zusammenhang entnommen werden kann. Die
Bedingungen i) und ii) sind äquivalent zu der Gleichung
(4.1) ϕ(c~x + d~y ) = cϕ(~x ) + dϕ(~y ) für alle ~x, ~y ∈ V und c, d ∈ K,
die meistens für den Nachweis der Linearität verwendet wird.

4.1.2 Beispiele und Bezeichnungen

Wir haben bereits mehrere lineare Abbildungen benutzt, ohne sie systematisch
einzuordnen. Die wichtigste davon ist die einer beliebigen Matrix A ∈ Km×n
zugeordnete Abbildung
 : Kn×1 → S(A), ~x 7→ A~x,
die in Unterabschnitt 2.4.4 eingeführt und für K = K untersucht wurde. Die
Linearitätseigenschaft trat schon bei der Definition der symmetrischen Biline-
arform und der hermiteschen Form (Seite 149) auf. Die in der Definition des
orthogonalen Komplements und der Orthogonalprojektion (Seite 152) beschriebe-
nen Orthogonalprojektionen sind ebenfalls oft gebrauchte lineare Abbildungen.
Der im Satz über hermitesche Formen und Matrizen (Seite 168) definierte Koor-
dinatenisomorphismus κB wird in diesem Kapitel mit einem beliebigen Körper K
anstelle von K eine wesentliche Rolle spielen. Die Namensgebung hängt mit den
folgenden Begriffen zusammen, die auch bei Homomorphismen anderer algebrai-
scher Strukturen verwendet werden. Sind V und W K -Vektorräume, so erhält
ein Homomorphismus von V nach W die in der folgenden Tabelle stehende Be-
zeichnung genau dann, wenn die durch ein Kreuz gekennzeichneten Bedingungen
erfüllt sind:
Homomorphismus injektiv surjektiv V = W
Monomorphismus X
Epimorphismus X
Isomorphismus X X
Endomorphismus X
Automorphismus X X X
234 Eigenschaften von linearen Abbildungen 4.1.3

Zwei K -Vektorräume V und W heißen isomorph, wenn es einen Isomorphismus


von V auf W gibt. Die Menge aller Homomorphismen von V nach W wird mit
Hom (V,W) abgekürzt. Im Satz über den Homomorphismen-Vektorraum (Seite
240) werden wir zeigen, dass Hom (V,W) mit den im Beispiel 2.1.5.3 eingeführten
Verknüpfungen einen K - Vektorraum darstellt. Als wichtigstes Ergebnis dieses
Kapitels erhalten wir anschließend, dass Hom (V,W) und Km×n isomorph sind,
wenn V die Dimension n und W die Dimension m hat.

Die Nullabbildung 0 : V → W, ~x 7→ ~0, ist stets in Hom (V,W) enthalten.


Ebenso gehört die Identität id : V → V, ~x 7→ ~x, immer zu den Automorphismen
von V, die außerdem nach Beispiel 1.6.2.5 mit der Hintereinanderausführung als
Verknüpfung eine Gruppe bilden.

Das folgende letzte Beispiel kann als Repräsentant des wichtigen Gebiets der
“Funktionalanalysis” angesehen werden. Für den Abbildungsvektorraum C 1 (R)
: ={f : R → R | f ist stetig differenzierbar} stellt D : C 1 (R) → C(R), f 7→ f 0 ,
aufgrund der Differentiationsregeln und wegen des Hauptsatzes der Differential-
und Integralrechnung einen Epimorphismus dar. In der Funktionalanalysis wer-
den Abbildungen meistens Operatoren genannt. Hier handelt es sich um den
Differentialoperator. Auch in der Physik - und dort vor allem in der Wellen- und
Quantenmechanik - spielen lineare Operatoren eine wesentliche Rolle.

4.1.3 Eigenschaften von linearen Abbildungen

Im Folgenden seien V und W K -Vektorräume und ϕ : V → W sei eine lineare


Abbildung. Die meisten Eigenschaften ergeben sich durch einfache Rechnungen.
Unmittelbar aus der Definition folgt ϕ(~0 ) = ϕ(0 · ~0 ) = 0 · ϕ(~0 ) = ~0, wobei die
Nullvektoren in V und W zur Vereinfachung mit demselben Symbol bezeichnet
werden.

Mit vollständiger Induktion lässt sich Teil ii) der Definition der linearen Abbildung
(Seite 232) und (4.1) zu
ϕ(c1~x1 + · · · + cn~xn ) = c1 ϕ(~x1 ) + · · · + cn ϕ(~xn )
(4.2)
für alle ~xi ∈ V und ci ∈ K, i ∈ In ,
verallgemeinern. Zusammen mit ϕ(~0 ) = ~0 erhalten wir daraus, dass linear abhän-
gige Vektoren ~x1 , . . . , ~xn aus V auf Vektoren ϕ(~x1 ), . . . , ϕ(~xn ) abgebildet werden,
die in W linear abhängig sind.
4.1.3 Eigenschaften von linearen Abbildungen 235

Achtung: Die Nullabbildung zeigt, dass die entsprechende Aussage für linear
unabhängige Vektoren ~y1 , . . . , ~yn falsch sein kann.

Ist aber ϕ injektiv und sind ~y1 , . . . , ~yn in V linear unabhängige Vektoren, so gilt
einerseits ϕ(~v ) 6= ~0 für alle ~v ∈ V \ {~0}, und andererseits folgt wieder aus (4.2),
dass ~0 =
6 ϕ(c1 ~y1 + · · · + cn ~yn ) = c1 ϕ(~y1 ) + · · · + cn ϕ(~yn ) für alle (c1 , . . . , cn ) ∈
Kn \ {(0, . . . , 0)} erfüllt ist. Damit stellen ϕ(~y1 ), . . . , ϕ(~yn ) linear unabhängige
Vektoren in W dar. Diese Ergebnisse fassen wir in einem Satz zusammen.

Satz über Linearkombinationen bei linearen Abbildungen


Sind V und W K -Vektorräume und ist ϕ ∈ Hom (V,W), so gilt:
i) ϕ(~0 ) = ~0 und ϕ(c1~x1 + · · · + cn~xn ) = c1 ϕ(~x1 ) + · · · + cn ϕ(~xn ) für alle
~xi ∈ V und ci ∈ K mit i ∈ In .
ii) Für linear abhängige Vektoren ~x1 , . . . , ~xn ∈ V stellen ϕ(~x1 ), . . . , ϕ(~xn )
Vektoren dar, die in W linear abhängig sind.
iii) Ist ϕ injektiv, so werden linear unabhängige Vektoren ~y1 , . . . , ~yn aus V
auf linear unabhängige Vektoren ϕ(~y1 ), . . . , ϕ(~yn ) in W abgebildet.

Der folgende Satz beruht darauf, dass die Definitionen des Untervektorraumes
(Seite 98) und der linearen Abbildung (Seite 232) zueinander passen.

Satz über Untervektorräume bei linearen Abbildungen


Es seien V und W K -Vektorräume, und es sei ϕ ∈ Hom (V,W).
i) Stellen V0 ⊆ V und W0 ⊆ W Untervektorräume dar, so sind auch
ϕ(V0 ) : = {w
~ ∈ W | Es gibt ~v ∈ V0 , sodass ϕ(~v ) = w ~ gilt} und
−1
ϕ (W0 ) : = {~v ∈ V | ϕ(~v ) ∈ W0 } Untervektorräume von W bezie-
hungsweise V. Dieses gilt insbesondere stets für Bild ϕ : = ϕ(V)
−1
und Kern ϕ : = ϕ ({~0}).
ii) Kern ϕ besteht genau dann nur aus dem Nullvektor, wenn ϕ injektiv
ist.
236 Eigenschaften von linearen Abbildungen 4.1.3

Beweis (r1):
−1
i) Da V 0 und W 0 nicht leer sind, gilt das gleiche für ϕ(V0 ) und ϕ (W0 ). Die
−1
Untervektorraum-Eigenschaft von ϕ(V0 ) folgt dann direkt mit (4.1). Bei ϕ (W0 )
−1
schließen wir analog: Sind ~v1 , ~v2 ∈ ϕ (W0 ), also ϕ(~vi ) ∈ W 0 für i = 1, 2, so gilt
ϕ(c1~v1 + c2~v2 ) = c1 ϕ(~v1 ) + c2 ϕ(~v2 ) ∈ W 0 für alle c1 , c2 ∈ K. Damit erhalten wir
−1
c1~v1 + c2~v2 ∈ ϕ (W0 ).

ii) Aus ϕ(~0 ) = ~0 folgt stets ~0 ∈ Kern ϕ. Ist Kern ϕ = {~0 } und sind ~x, ~y ∈ V
mit ϕ(~x ) = ϕ(~y ), so ergibt sich aus (4.1), dass ~0 = ϕ(~x ) − ϕ(~y ) = ϕ(~x − ~y )
gilt. Also ist ~x − ~y ∈ Kern ϕ, sodass wir wegen ~x − ~y = ~0 die Injektivität von
ϕ nachgewiesen haben. Stellt umgekehrt ϕ eine injektive Abbildung dar, so ist
ϕ(~v ) 6= ϕ(~0 ) = ~0 für alle ~v ∈ V \ {~0 }, und es folgt Kern ϕ = {~0 }.

Die Untervektorräume Kern ϕ und Bild ϕ werden auch nach den englischen Be-
griffen “kernel” und “image” mit Ker ϕ und Im ϕ bezeichnet.

Übung 4.1.a

Es sei ϕ : R1×4 → R1×3 die durch ϕ (x y s t) : = (x − y + s + t
x + 2s − t x + y + 3s − 3t) definierte lineare Abbildung. Geben Sie je
eine Basis für Bild ϕ und für Kern ϕ an.
Übung 4.1.b
Es sei V ein endlich erzeugter K -Vektorraum und ϕ ∈ Hom (V,V) sowie
ϕk : = ϕ ◦ ϕk−1 für k ∈ N1 \ {1}.
i) Beweisen Sie, dass Kern ϕk ⊆ Kern ϕk+1 für jedes k ∈ N1 gilt und dass
aus Kern ϕi = Kern ϕi+1 auch Kern ϕi = Kern ϕi+k für jedes k ∈ N1 folgt.
ii) Zeigen Sie, dass es ein k ∈ N1 gibt, sodass V = Bild ϕk ⊕ Kern ϕk gilt.
Ist V ein endlich erzeugter K -Vektorraum und B = : {~b1 , . . . , ~bn } eine Basis von
V, so lässt sich aufgrund des Satzes über eindeutige Linearkombinationen (Seite
108) jeder Vektor ~x ∈ V mit Hilfe des Koordinatenisomorphismus
X n
κB : V → Kn×1 , xi~bi 7→ t(x1 . . . xn )
i=1
n
~ei κB (~x ) ~bi darstellen. Für jede auf V definierte
P t

eindeutig in der Form ~x =
i=1
lineare Abbildung ψ und für jedes ~x ∈ V folgt dann mit (4.2) die Beziehung
n
~ei κB (~x ) ψ(~bi ). Damit ist ψ bereits vollständig durch die Bilder der
P t

ψ(~x ) =
i=1
4.1.4 Isomorphe Vektorräume 237

Basisvektoren bestimmt.
Geben wir nun diese Bildvektoren aus einem K -Vektorraum W durch eine belie-
bige Abbildung f : B → W vor, so erhalten wir einerseits aufgrund der Definition
von κB , dass Xn
t
~ei κB (~x ) f (~bi )

ϕ : V → W, ~x 7→
i=1

eine lineare Abbildung mit ϕ(~bi ) = f (~bi ) für i = 1, . . . , n ist, und andererseits
bedeutet die obige Überlegung, dass ψ = ϕ für jede lineare Abbildung ψ : V →
W mit ψ(~bi ) = f (~bi ) für i = 1, . . . , n gilt.
Für diese Abbildung ϕ leiten wir noch zwei Eigenscnhaften her. Da es zu jedem
n
~ei κB (~x ) f (~bi ) gibt, folgt
P t

~ ∈ ϕ(V) einen Vektor ~v ∈ V mit w
w ~ = ϕ(~v ) =
i=1
Bild ϕ = Lin f (B).
Aufgrund der zweiten Aussage des Satzes über Untervektorräume bei linearen
Abbildungen (Seite 235) und wegen der Isomorphismuseigenschaft von κB ist ϕ
genau dann injektiv, wenn die Vektoren f (~b1 ), . . . , f (~bn ) in W linear unabhängig
sind. Damit haben wir den folgenden wichtigen Satz, der bereits alle auf endlich
erzeugten Vektorräumen definierten linearen Abbildungen beschreibt.

Festlegungssatz
Es sei B = : {~b1 , . . . , ~bn } eine Basis des K -Vektorraums V. Ist f : B → W
eine beliebige Abbildung in einen K -Vektorraum W, so stellt
Xn
t
~ei κB (~x ) f (~bi )

ϕ : V → W, ~x 7→
i=1

die einzige lineare Abbildung dar, die ϕ(~bi ) = f (~bi ) für i = 1, . . . , n erfüllt.
Für diese Abbildung gilt stets Bild ϕ = Linf (B), und ϕ ist genau dann in-
jektiv, wenn die Vektoren f (~b1 ), . . . , f (~bn ) in W linear unabhängig sind.

4.1.4 Isomorphe Vektorräume

Allein mit Hilfe des Festlegungssatzes könnten wir jetzt entscheiden, welche end-
lich erzeugten K-Vektorräume isomorph sind. Da wir die schon bekannte Isomor-
phie eines n- dimensionalen K-Vektorraums V zu Kn×1 , die der Koordinateniso-
morphismus ergibt, ins Spiel bringen wollen, benötigen wir noch einen Satz, der
238 Isomorphe Vektorräume 4.1.4

auch später gebraucht wird. Zur Abkürzung bezeichnen wir die Hintereinander-
ausführung von linearen Abbildungen als Komposition.

Satz über Kompositionen


Es seien U, V,W K -Vektorräume, und ϕ : U → V sowie ψ : V → W seien
lineare Abbildungen.
i) Dann ist auch ψ ◦ ϕ : U → W linear.
ii) Aus der Injektivität beziehungsweise Surjektivität von ϕ und ψ folgt,
dass ψ ◦ ϕ jeweils dieselbe Eigenschaft hat.
−1
iii) Für jeden Isomorphismus ϕ : U → V ist ϕ : V → U ebenfalls ein
Isomorphismus.

Beweis (r1):
   
i) Mit (4.1) gilt ψ ϕ(c~x + d~y ) = ψ cϕ(~x ) + dϕ(~y ) = cψ ϕ(~x ) + dψ ϕ(~y ) für
alle ~x, ~y ∈ U und alle c, d ∈ K. Also ist ψ ◦ ϕ linear.
ii) Sind ϕ und ψ injektiv, so folgt aus ~x, ~y ∈ U mit ~x 6= ~y , dass ϕ(~x ) 6= ϕ(~y ) und
 
ψ ϕ(~x ) 6= ψ ϕ(~y ) ist. Damit stellt auch ψ ◦ ϕ eine injektive Abbildung dar. Im

Falle der Surjektivität ergibt sich ψ ϕ(U) = W aus ϕ(U) = V und ψ(V) = W.
iii) Da ϕ ein Isomorphismus ist, gibt es zu jedem ~vi ∈ V, i = 1, 2, genau
−1 −1 
ein ~ui ∈ U mit ϕ(~ui ) = ~vi , sodass ϕ (c1~v1 + c2~v2 ) = ϕ c1 ϕ(~u1 ) + c2 ϕ(~u2 ) =
−1  −1 −1
ϕ ϕ(c1~u1 + c2~u2 ) = c1~u1 + c2~u2 = c1 ϕ (~v1 ) + c2 ϕ (~v2 ) für alle c1 , c2 ∈ K gilt.
−1
Die Umkehrabbildung einer bijektiven Abbildung ist stets bijektiv. Also ist ϕ
ein Isomorphismus.

Isomorphiesatz
Zwei endlich erzeugte K -Vektorräume V und W sind genau dann isomorph,
wenn dim V = dim W gilt. Insbesondere ist jeder n - dimensionale K -Vektor-
raum V zu Kn×1 isomorph, wobei für jede Basis B von V ein Isomorphismus
durch κB gegeben wird.

Beweis (r1):
Ist ϕ : V → W ein Isomorphismus und {~b1 , . . . , ~bn } eine Basis von V, so ergibt
4.2 Lineare Abbildungen und Matrizen 239

der Festlegungssatz (Seite 237) mit f = ϕ, dass die Vektoren ϕ(~b1 ), . . . , ϕ(~bn ) in
W linear unabhängig sind und dass W = ϕ(V) = Lin ϕ(~b1 ), . . . , ϕ(~bn ) gilt.


Damit ist ϕ(~b1 ), . . . , ϕ(~bn ) eine Basis von W. Also folgt dim W = n = dim V.


Ist umgekehrt n : = dim V = dim W und sind B beziehungsweise B 0 Basen von V


und W, so ergibt der Satz über Kompositionen (Seite 238) für die Isomorphismen
−1 −1
κB : V → Kn×1 und κ B 0 : Kn×1 → W, dass κ B 0 ◦ κB : V → W einen Isomor-
phismus bildet.

4.2 Lineare Abbildungen und Matrizen

4.2.1 Darstellung von linearen Abbildungen durch Matri-


zen

Mit Hilfe des Isomorphiesatzes (Seite 238) übertragen sich alle Struktureigen-
schaften der arithmetischen Vektorräume Kn×1 mit n ∈ N1 auf beliebige n -di-
mensionale K -Vektorräume. Wenn wir nun beachten, dass der Festlegungssatz
(Seite 237) für jede lineare Abbildung ψ : Kn×1 → Km×1 wegen
Xn
t
 
(4.3) ψ(~x ) = ~ei~x ψ(~ei ) = ψ(~e1 ) . . . ψ(~en ) ~x
i=1

die “Darstellung” ψ = Â mit A : = ψ(~e1 ) . . . ψ(~en ) ∈ Km×n ergibt, so liegt es
nahe, auch jede lineare Abbildung ϕ zwischen K -Vektorräumen V und W der
Dimensionen n beziehungsweise m durch eine Matrix aus Km×n zu beschreiben.

Da es in V und W im Allgemeinen keine Standardbasis wie in Kn×1 gibt, müssen


wir jeweils eine Basis A von V und B von W fest wählen, um mit den Koordi-
natenisomorphismen κA und κB die Matrixdarstellung der entsprechenden linea-
ren Abbildung zwischen den zugehörigen arithmetischen Vektorräumen ins Spiel
bringen zu können.
A n×1
Welches ist aber die ϕ zuzuordnende Abbildung M \
B (ϕ) : K → Km×1 ? 1 Der
Festlegunssatz und κB entscheiden diese Frage eindeutig; denn natürlich sollen
die Bilder der einander zugeordneten Basisvektoren von V und Kn×1 durch κB
−1 
aufeinander abgebildet werden, das heißt, mit ~ai : = κA (~ei ) muss κB ϕ(~ai ) =
MAB (ϕ)~
ei für i = 1, . . . , n gelten. Also setzen wir

1
Hier ist M der griechische Buchstabe My, weil MA
B keine Matrix sondern eine Abbildung
darstellt.
240 Darstellung von linearen Abbildungen durch Matrizen 4.2.1
 
MA

B (ϕ) : = κ B ϕ(~
a 1 ) . . . κB ϕ(~
a n ) mit A = : {~a1 , . . . , ~an }.

Aufgrund des Satzes über Kompositionen (Seite 238) ergibt sich die Darstellung
\A −1
M B(ϕ) = κB ◦ ϕ ◦ κA , die durch Abbildung 4.1 veranschaulicht wird.
ϕ
V W
κA κB

Kn×1 Km×1
MA
B (ϕ)

Abbildung 4.1: Visualisierung der Matrixzuordnung

Insbesondere gilt also


κB ϕ(~v ) = MA

(4.4) v ) für alle ~v ∈ V.
B (ϕ)κA (~

Da die Matrizen MA B (ϕ) zu dem K -Vektorraum K


m×n
gehören, kann vermutet
werden, dass auch Hom (V,W) mit geeigneten Verknüpfungen einen K -Vektor-
raum darstellt und dass
MA
B : Hom (V, W) → K
m×n
, ϕ 7→ MA
B (ϕ),

ein Isomorphismus ist. Diese beiden Aussagen, die erst die tiefere Bedeutung der
Beschreibung von linearen Abbildungen durch Matrizen wiedergeben, werden nun
hergeleitet.

Satz über den Homomorphismen-Vektorraum


Es seien V und W beliebige K -Vektorräume. Werden die Verknüpfungen
+ : Hom (V,W) × Hom (V,W) → Hom (V,W), (ϕ, ψ) 7→ ϕ + ψ, und
· : K × Hom (V,W) → Hom (V,W), (c, ϕ) 7→ c · ϕ,

wie in Beispiel 2.1.5.3 definiert, so stellt Hom (V,W), +, · einen K -Vektor-
raum dar.

Beweis (r1):
Für ϕ, ψ ∈ Hom (V,W), a, b, c, d ∈ K und ~x, ~y ∈ V gilt (a · ϕ + b · ψ)(c~x + d~y ) =
aϕ(c~x + d~y ) + bψ(c~x + d~y ) = acϕ(~x ) + adϕ(~y ) + bcψ(~x ) + bdψ(~y ) = c aϕ(~x ) +
 
bψ(~x ) + d aϕ(~y ) + bψ(~y ) = c(a · ϕ + b · ψ)(~x ) + d(a · ϕ + b · ψ)(~y ).
Also ist auch a · ϕ + b · ψ ∈ Hom (V,W), und (4.1) ergibt die Behauptung.
4.2.1 Darstellung von linearen Abbildungen durch Matrizen 241

Darstellungssatz
Es sei A = : {~a1 , . . . , ~an } eine Basis des K -Vektorraums V, und W sei ein
m -dimensionaler K -Vektorraum mit der Basis B. Dann ist
 
MA m×n

B : Hom(V,W) → K , ϕ →
7 κB ϕ(~
a 1 ) . . . κB ϕ(~
a n ) ,
ein Isomorphismus mit dem zugehörigen Umkehrisomorphismus
−1
ΛAB : Km×n → Hom (V,W), C 7→ κB ◦ C
b ◦ κA .2

Beweis (a2):

Zur Vereinfachung lassen wir hier die Kennzeichnung der Basen A und B bei
MA A
B und ΛB weg. Die Linearität und die Injektivität von M ergeben sich aus den
entsprechenden Eigenschaften von κB . Für ϕ, ψ ∈ Hom (V,W) und c, d ∈ K gilt
  
nämlich M(c · ϕ + d · ψ) = κB cϕ(~a1 ) + dψ(~a1 ) . . . κB cϕ(~an ) + dψ(~an ) =
     
c κB ϕ(~a1 ) . . . κB ϕ(~an ) + d κB ψ(~a1 ) . . . κB ψ(~an ) = cM(ϕ) + dM(ψ).

Ist ϕ 6= ψ, so gibt es aufgrund des Festlegungssatzes (Seite 237) ein ~ai ∈ A mit
 
ϕ(~ai ) 6= ψ(~ai ). Damit folgt κB ϕ(~ai ) 6= κB ψ(~ai ) , also M(ϕ) 6= M(ψ).

Die Surjektivität von M zeigen wir zusammen mit dem Nachweis, dass M und Λ
m×n

Umkehrabbildungen voneinander
 sind. Für alle C ∈ K erhalten wir M Λ(C)
−1  −1  −1 
= M κB ◦ C b ◦ κA = κB (κ B ◦ C
b ◦ κA )(~
a 1 ) . . . κB ( κB ◦ Cb ◦ κ A )(~
a n ) =
−1 −1
  
κB κ B (C~e1 ) . . . κB κ B (C~en ) = C(~e1 . . . ~en ) = C. Damit ist M surjektiv.
 −1  −1 
[ ◦ κA (~ai ) = κ
Für alle ~ai ∈ A gilt Λ M(ϕ) (~ai ) = κB ◦ M(ϕ) [ ei ) =
B ◦ M(ϕ) (~
−1
  
κB κB ϕ(~ai ) = ϕ(~ai ). Der Festlegungssatz (Seite 237) ergibt also Λ M(ϕ) = ϕ
−1
für jedes ϕ ∈ Hom (V,W). Zusammenfassend folgt Λ = M .

Übung 4.2.a

Es seien A und B die Standardbasen von R2×1 beziehungsweise R3×1 und


ϕ die lineare Abbildung mit ϕ(~e1 ) = t(1 2 1), ϕ(~e2 ) = t(1 0 −2).
i) Bestimmen Sie MA
B (ϕ).

2
Λ ist der griechische Buchstabe Lambda.
242 Darstellung von linearen Abbildungen durch Matrizen 4.2.1

0
ii) Berechnen Sie MA 0 t t
B 0 (ϕ) zu den Basen A : = { (1 1), (1 2)} von R
2×1

beziehungsweise B 0 : = {t(0 1 1), t(1 0 1), t(1 1 0)} von R3×1 .


Wir nutzen nun noch einmal die am Anfang dieses Abschnitts festgehaltene Idee,
dass Isomorphismen alle Struktureigenschaften von Vektorräumen übertragen.
Zunächst hilft der Koordinatenisomorphismus, einen Zusammenhang zwischen
den Untervektorräumen Kern ϕ beziehungsweise Bild ϕ einerseits und N MA

B (ϕ)
sowie S MA

B (ϕ) andererseits herzustellen. Außerdem erfolgt die vor dem Satz
über die zweite Dimensionsformel (Seite 164) angekündigte Verallgemeinerung
der zweiten Dimensionsformel auf den Durchschnitt und die Summe von
Untervektorräumen eines beliebigen endlich erzeugten Vektorraums.

Verallgemeinerungssatz

i) Es seien V und W endlich erzeugte K -Vektorräume mit den Basen A


beziehungsweise B. Für ϕ ∈ Hom (V,W) stellen dann
κA | Kern ϕ : Kern ϕ → N MA

B (ϕ) und

κB | Bild ϕ : Bild ϕ → S MA

B (ϕ)

Isomorphismen dar. Insbesondere folgt


(4.5) dim Kern ϕ + dim Bild ϕ = dim V und
(4.6) dim Bild ϕ = Rang MA
B (ϕ).

ii) Sind U und V Untervektorräume des endlich erzeugten K -Vektorraums


W, so gilt
(4.7) dim(U ∩ V) + dim(U + V) = dim U + dim V.

Beweis (a1):

i) Da die Injektivität und die Linearität bei Einschränkungen erhalten bleiben,


ist nur die Surjektivität zu zeigen. Dabei sei n : = dim V. Dann gilt
n Xn o
N MA n×1 A ~ n×1 t ~
  
B (ϕ) = {~
x ∈ K | M B (ϕ)~
x = 0 } = ~x ∈ K ~
e i ~
x κB ϕ(~
a i ) = 0
i=1
n Xn o n n
X   o
n×1 t ~ n×1 t
~ei~x ~ai = ~0

= ~x ∈ K ~ei~x ϕ(~ai ) = 0 = ~x ∈ K ϕ
i=1 i=1

= {~x ∈ Kn×1 | Es gibt ~y ∈ Kern ϕ, sodass ~x = κA (~y ) ist} = κA (Kern ϕ).


4.2.1 Darstellung von linearen Abbildungen durch Matrizen 243

Aufgrund der Definition von MA A


  
B (ϕ) gilt S MB (ϕ) = Lin κB ϕ(~a1 ) , . . . ,
 
κB ϕ(~an ) = Lin κB ϕ(A) . Mit der Linearität von κB und mit dem Festle-
 
gungssatz (Seite 237) folgt dann Lin κB ϕ(A) = κB Lin ϕ(A) und Lin ϕ(A) =
Bild ϕ. Aus (2.23) und dem Isomorphiesatz (Seite 238) ergibt sich damit (4.5) als
(verallgemeinerte) erste Dimensionsformel.
 (2.16)
Wegen dim Bild ϕ = dim S MA B (ϕ) = Rang MAB (ϕ) erhalten wir Gleichung
A
(4.6), die auch zeigt, dass Rang MB (ϕ) von A und B unabhängig ist.
ii) Es sei C eine Basis von W. Für U 0 : = κC (U) und V 0 : = κC (V) zeigen wir,
dass κC (U ∩ V) = U 0 ∩ V 0 und κC (U + V) = U 0 + V 0 gilt. Ist w ~ ∈ U ∩ V,
0 0 0 0
so folgt unmittelbar κC (w ~ ) ∈ U ∩ V , also κC (U ∩ V) ⊆ U ∩ V . Umgekehrt
ergibt die Surjektivität von κC , dass zu w~ 0 ∈ U0 ∩ V0 ein w
~ ∈ W mit κC (w~)=w ~0
existiert. Wegen der Injektivität ist dann auch w ~ ∈ U∩V erfüllt, und wir erhalten
0 0
U ∩ V ⊆ κC (U ∩ V).
Analog folgt aus der Linearität von κC , dass κC (U + V) ⊆ U0 + V0 und U0 + V0 ⊆
κC (U + V) gilt. Der Isomorphiesatz (Seite 238) überführt damit (2.47) in (4.7).

Die folgende Abbildung 4.2 kann dazu dienen, den wichtigen ersten Teil des Ver-
allgemeinerungssatzes (Seite 242) einzuprägen.
ϕ
Kern ϕ ⊆ V W ⊇ Bild ϕ

κA | Kern ϕ κA κB κB | Bild ϕ

N MA Km×1 ⊇ S MA
 
B (ϕ) ⊆ Kn×1 B (ϕ)
MA
B (ϕ)

Abbildung 4.2: Teil i) des Verallgemeinerungssatzes

Übung 4.2.b

Es sei Pn : = {f : R → R | f (x) = an xn + · · · + a0 , ai ∈ R} , +, · der R -
Vektorraum der Polynomfunktionen auf R vom Grad ≤ n, und D : Pn →
Pn , f 7→ f 0 , sei die “Ableitungsabbildung”.
i) Zeigen Sie, dass D linear ist. Bestimmen Sie dim Bild D und dim Kern D.
ii) Berechnen Sie die zu D bezüglich der Basis B : = {1, id, . . . , idn } gehören-
de Matrix MBB (D).

Wegen (4.6) lässt sich der grundlegende Begriff des Ranges von Matrizen auf Ho-
244 Darstellung von linearen Abbildungen durch Matrizen 4.2.1

momorphismen zwischen endlich erzeugten K -Vektorräumen V und W übertra-


gen, indem
(4.8) Rang ϕ : = dim Bild ϕ für ϕ ∈ Hom (V,W)

gesetzt wird, wobei also dim Bild ϕ in der Regel durch Rang MA B (ϕ) für irgend-
welche Basen A von V und B von W zu berechnen ist. Insbesondere ergibt
(4.3), dass Rang  = Rang A für alle A ∈ Km×n gilt. Aus (4.5) folgt außerdem
Rang ϕ ≤ dimV für jedes ϕ ∈ Hom (V,W).

Analog zum Satz über Rechts- und Linksinverse (Seite 142) können wir nun auch
Rangkriterien für Monomorphismen, Epimorphismen und Isomorphismen ange-
ben.

Satz über Rangkriterien


Es seien V und W endlich erzeugte K - Vektorräume. Ein Homomorphis-
mus ϕ : V → W ist genau dann injektiv beziehungsweise surjektiv,
wenn Rang ϕ = dim V beziehungsweise Rang ϕ = dim W gilt. Im Falle
dim V = dim W folgt die Bijektivität von ϕ schon aus der Injektivität oder
aus der Surjektivität.
Bildet A eine Basis von V und B eine Basis von W, so stellt ϕ genau dann
einen Isomorphismus dar, wenn MA B (ϕ) eine invertierbare Matrix ist.

Beweis (a1):
Aufgrund des Satzes über Untervektorräume bei linearen Abbildungen (Seite 235)
ist ϕ genau dann injektiv, wenn Kern ϕ = {~0 } gilt. Damit ergibt (4.5) die Äqui-
valenz der Injektivität mit Rang ϕ = dimV. Die Surjektivität von ϕ ist gleich-
bedeutend mit Bild ϕ = W, sodass unmittelbar Rang ϕ = dimW folgt. Die Um-
kehraussage erhalten wir durch Anwendung des Basissatzes (Seite 113) auf den
Untervektorraum Bild ϕ von W. Im Falle dimV = dimW stimmen auch die
Rangbedingungen für Injektivität und Surjektivität überein.

Die obigen Kriterien und (4.6) ergeben, dass ϕ genau dann ein Isomorphismus ist,
wenn Rang ϕ = Rang MA B (ϕ) = dimV = dimW gilt. Dieses ist aufgrund des Sat-
zes über Rechts- und Linksinverse (Seite 142) äquivalent mit der Invertierbarkeit
von MA B (ϕ).

Da aufgrund des Satzes über Kompositionen (Seite 238) die Hintereinander-


4.2.1 Darstellung von linearen Abbildungen durch Matrizen 245

ausführung von Homomorphismen wieder eine lineare Abbildung ergibt, liegt die
Frage nahe, welcher Zusammenhang zwischen den zugehörigen darstellenden Ma-
trizen besteht. Die Antwort gibt der folgende Satz, der zugleich für den nächsten
Abschnitt dieses Kapitels und für weite Teile des sechsten Kapitels grundlegend
ist.

Satz über die Darstellung von Kompositionen


Es seien U, V,W endlich erzeugte K - Vektorräume mit den Dimensionen
n, m, p und den Basen A, B, C. Sind MA
B : Hom (U,V) → K
m×n
, M̄BC :
Hom (V,W) → Kp×m und M̄ ¯ A : Hom (U,W) → Kp×n die Isomorphismen
C
des Darstellungssatzes (Seite 241) mit den Umkehrisomorphismen ΛA B
B , Λ̄C
¯ A , so gilt
und Λ̄ C

¯ A (ϕ ◦ ϕ ) = M̄B (ϕ )MA (ϕ ) für alle ϕ ∈ Hom (U,V) und ϕ ∈


i) M̄C 2 1 C 2 B 1 1 2

Hom (V,W) sowie


¯ A (BA) = Λ̄B (B) ◦ ΛA (A) für alle A ∈ Km×n und B ∈ Kp×m .
ii) Λ̄ C C B

Beweis (a1):
Es gilt κB ϕ1 (~u ) = MA u ), κC ϕ2 ϕ1 (~u ) = M̄BC (ϕ2 )κB ϕ1 (~u ) und
  
B (ϕ1 )κA (~

κC ϕ2 ϕ1 (~u ) = M̄ ¯ A (ϕ ◦ ϕ )κ (~u ) für alle ~u ∈ V wegen (4.4). Lassen wir ~u
C 2 1 A
die Vektoren aus A durchlaufen, so ergibt sich i) aus
¯ A (ϕ ◦ ϕ )~e = M̄B (ϕ )MA (ϕ )~e für k ∈ I .
M̄ C 2 1 k C 2 B 1 k n

Wird ϕ1 : = ΛA B
B (A) und ϕ2 : = Λ̄C (B) gesetzt, so folgt ii) aus i) durch Anwendung

des Umkehrisomorphismus Λ̄¯ A auf beide Seiten der Gleichung, wobei A = MA (ϕ )


C B 1
und B = M̄BC (ϕ2 ) ist.
Abbildung 4.3 gibt die Aussage i) des letzten Satzes in übersichtlicher Form wie-
der.
Übung 4.2.c
Es sei V ein K -Vektorraum mit n : = dimV ≥ 1.
i) Ist A = {~a1 , . . . , ~an } eine Basis von V, so wird durch ϕ(~ai ) : = ~ai+1
für i = 1, . . . , n − 1 und ϕ(~an ) : = ~0 ein Homomorphismus ϕ ∈ Hom (V, V)
definiert. Beweisen Sie, dass ϕn = 0 id0 und ϕn−1 6= 0 id0 ist, und bestimmen
Sie MA A (ϕ).
246 Basiswechsel 4.3.1

ϕ2 ◦ ϕ1

U V W
ϕ1 ϕ2
κA κB κC

MA
B (ϕ1 ) M̄BC (ϕ2 )
n×1 m×1
K K Kp×1

M̄BC (ϕ2 )MA


B (ϕ1 )

Abbildung 4.3: Teil i) des Satzes über die Darstellung von Kompositionen

ii) Es sei ψ ∈ Hom (V, V) mit ψ n = 0 id0 und ψ n−1 6= 0 id0 sowie ~a ∈ V mit
ψ n−1 (~a ) 6= ~0. Beweisen Sie, dass dann B : = {~b1 , . . . , ~bn } mit ~bk : = ψ k (~a )
für k = 1, . . . , n − 1 eine Basis von V ist, für die MBB (ψ) = MA
A (ϕ) gilt.

4.3 Basistransformationen und Normalformen

4.3.1 Basiswechsel

Wie am Anfang von Abschnitt 1.4 wollen wir nun versuchen zu vereinfachen.
Da die darstellenden Matrizen von Homomorphismen von den gewählten Basen
abhängen, kann erwartet werden, dass sich Basen bestimmen lassen, für die die
darstellende Matrix eine möglichst einfache Gestalt hat. Die Suche nach der Form
dieser Matrizen und nach den zugehörigen Basen wird als Normalformproblem be-
zeichnet. Für Homomorphismen werden wir das Normalformproblem in diesem
Abschnitt vollständig lösen. Das viel schwierigere Darstellungsproblem für Endo-
morphismen, bei denen nur eine Basis zur Verfügung steht, können wir dagegen
erst im sechsten Kapitel abschließen, weil dazu neue Methoden benötigt werden,
die wir im nächsten Kapitel einführen.
Zunächst untersuchen wir die Wirkung eines Basiswechsels auf die darstellende
Matrix eines Homomorphismus zwischen endlich erzeugten K -Vektorräumen V
und W. Dazu können wir den Satz über die Darstellung von Kompositionen (Sei-
te 245) verwenden, wenn wir beachten, dass sich die Übergänge zwischen Basen
A und A 0 von V beziehungsweise B und B 0 von W mit Hilfe des Darstellungs-
satzes (Seite 241) durch die Transformationsmatrizen MA B
A 0 (idV ) und MB 0 (idW )
beschreiben lassen, die den Isomorphismen idV und idW zugeordnet werden.
4.3.1 Basiswechsel 247

Aufgrund des Satzes über Rangkriterien (Seite 244) sind MA B


A 0 (idV ) und MB 0 (idW )

invertierbare Matrizen. Der Satz über die Darstellung von Kompositionen (Seite
245) ergibt dann, dass einerseits
0 0
MA B A A
B 0 (ϕ) = MB 0 (idW )MB (ϕ)MA (idV )

erfüllt ist und dass andererseits für die letzte Matrix des Produkts
A0
−1
MA (idV ) = MA A 0 (idV )

gilt. Die entsprechenden Gleichungen für Endomorphismen erhalten wir als Spe-
zialfälle mit A 0 = A und B 0 = B.

Damit haben wir den folgenden Satz, der anschließend durch Abbildung 4.4 ver-
anschaulicht wird.

Transformationssatz
Es seien V,W endlich erzeugte K -Vektorräume mit den Basen A und A 0 be-
ziehungsweise B und B 0 , die durch die Matrizen T1 : = MA
A 0 (idV ) ∈ GL(n; K)
beziehungsweise T2 : = MBB 0 (idW ) ∈ GL(m; K) ineinander überführt werden.
Dann gilt
0
(4.9) MA A −1
B 0 (ϕ) = T2 MB (ϕ) T1 für jedes ϕ ∈ Hom (V,W).

Für Endomorphismen ϕ ∈ Hom (V,V) folgt mit T : = MA


A 0 (idV ) insbesondere
0
(4.10) MA A
A 0 (ϕ) = T MA (ϕ) T
−1
.

V V W W
idV ϕ idW
κA 0 κA κB κB 0

T1 MA
B (ϕ) T2
n×1 n×1
K K Km×1 Km×1

−1
T2 MA
B (ϕ)T1

Abbildung 4.4: Veranschaulichung des Transformationssatzes


248 Äquivalenz von Matrizen 4.3.2

Übung 4.3.a
Es sei V ein R -Vektorraum mit der Basis A : = {~a1 , ~a2 , ~a3 }, und ϕ sei ein
Endomorphismus von V, der bezüglich dieser Basis die darstellende Matrix
 
2 1 1
MAA (ϕ) =
 0 −1 2  besitzt. Berechnen Sie MBB (ϕ) bezüglich der Basis
1 0 1
B : = {~a1 + ~a2 , 2~a2 − ~a3 , −~a1 − 2~a2 + ~a3 }.

Der Transformationssatz (Seite 247) legt die Frage nahe, ob zu jedem Homo-
morphismus beziehungsweise Endomorphismus zwischen endlich erzeugten Vek-
torräumen bei geeigneter Wahl der Basen eine möglichst einfache Matrix gehört.
Mit Hilfe der entsprechenden Transformationsformeln lässt sich diese Frage un-
abhängig von den Homomorphismen als Matrizenproblem formulieren und durch
Angabe von “Normalformen” für die darstellenden Matrizen lösen. Hier werden
wir die Suche nach den Normalformen von Homomorphismen erfolgreich abschlie-
ßen.

4.3.2 Äquivalenz von Matrizen

Sind V und W endlich erzeugte Vektorräume der Dimensionen n beziehungsweise


m, so wissen wir durch den Darstellungssatz (Seite 241), dass Hom (V,W) und
Km×n isomorphe Vektorräume bilden. Jedem Homomorphismus ϕ ∈ Hom (V,W)
lässt sich die Matrizenmenge
M(ϕ) : = {A ∈ Km×n | Es gibt Basen A von V und B von W,
sodass A = MA B (ϕ) gilt}

zuordnen. Die Matrizen MA B (ϕ) aus M(ϕ) sind zwar von den gewählten Ba-
sen A und B abhängig; aber bei einem Basiswechsel von A zu A 0 und von
B zu B 0 mit den Transformationsmatrizen T1 : = MA A 0 (idV ) ∈ GL(n; K) und
B
T2 : = MB 0 (idW ) ∈ GL(m; K) ergibt der Transformationssatz (Seite 247) die
0 A −1
darstellende Matrix MA
B 0 (ϕ) = T2 MB T1 , die auch zu M(ϕ) gehört.

Da jedes Paar von Matrizen T1 ∈ GL(n; K) und T2 ∈ GL(m; K) zu einem Ba-


siswechsel in V beziehungsweise in W führt, folgt T2 A T1−1 ∈ M(ϕ) für jedes
A ∈ M(ϕ). Umgekehrt liegen zwei Matrizen A, B ∈ Km×n nur dann in derselben
Menge M(ϕ), wenn es invertierbare Matrizen T1 und T2 mit B = T2 A T1−1 gibt,
A0
weil A und B von der Form MA B (ϕ) beziehungsweise MB 0 (ϕ) sind und weil der
Basiswechsel sich wie oben beschrieben auswirkt.
4.3.3 Äquivalenzrelationen 249

Um die Suche nach möglichst einfachen darstellenden Matrizen von dem jewei-
ligen Homomorphismus ϕ “abzukoppeln”, können wir also die Eigenschaft der
Matrizen aus Km×n , für einen geeigneten Homomorphismus ϕ zu derselben Men-
ge M(ϕ) zu gehören, durch die folgende von ϕ unabhängige Definition erfassen,
wobei wir der Einfachheit halber T1−1 durch T1 ersetzen:

Definition der Äquivalenz von Matrizen


Zwei Matrizen A, B ∈ Km×n heißen äquivalent genau dann, wenn es Matrizen
T1 ∈ GL(n; K) und T2 ∈ GL(m; K) gibt, sodass B = T2 A T1 gilt.

4.3.3 Äquivalenzrelationen

Die Äquivalenz von Matrizen sollte nicht mit dem folgenden viel allgemeineren
und grundlegenden Begriff der “Äquivalenzrelation” verwechselt werden, von dem
sie jedoch einen Spezialfall darstellt:

Definition der Äquivalenzrelation


Ist M eine Menge, so heißt eine Teilmenge T ⊆ M × M Äquivalenzrelation
auf M genau dann, wenn für x, y, z ∈ M mit der abkürzenden Schreibweise
x ∼ y (gelesen “x äquivalent zu y”) anstelle von (x, y) ∈ T die folgenden drei
Eigenschaften erfüllt sind:
i) x ∼ x (“Reflexivität”);
ii) Aus x ∼ y folgt y ∼ x (“Symmetrie”);
iii) Aus x ∼ y und y ∼ z folgt x ∼ z (“Transitivität”).

Die Gruppeneigenschaft von GL(m; K) und GL(n; K) ergibt, dass die Relation,
die durch die Äquivalenz von Matrizen erklärt ist, eine Äquivalenzrelation auf
Km×n bildet, weil A = Em A En gilt und weil A = T2−1 B T1−1 aus B = T2 A T1 so-
wie C = (T20 T2 )A (T1 T10 ) aus B = T2 A T1 und C = T20 B T10 mit T1 , T10 ∈ GL(n; K)
und T2 , T20 ∈ GL(m; K) folgt.

Wie bei dem obigen Übergang zu der Menge M(ϕ) ist es ein wesentliches Ziel
bei der Einführung einer Äquivalenzrelation auf einer Menge M, alle Elemente
250 Charakterisierung der Äquivalenzklassen zur Matrizenäquivalenz 4.3.4

von M, die paarweise die Äquivalenzrelation erfüllen, zusammenzufassen und die


verschiedenen dieser disjunkten Teilmengen (“Äquivalenzklassen”) durch charak-
teristische Eigenschaften (“Daten”) oder durch ausgezeichnete Elemente (“Re-
präsentanten”) zu beschreiben.
Mit der Abkürzung [x] : = {y ∈ M | x ∼ y} für die Äquivalenzklasse, die x ∈ M
enthält, folgt nämlich aus den drei Eigenschaften der Äquivalenzrelation, dass es
S
eine Repräsentantenmenge R von M gibt, sodass M = [x] und [x] ∩ [y] = ∅
x∈R
S
für alle x, y ∈ R mit x 6= y gilt: Denn einerseits ist M = [x] wegen der
x∈M
Reflexivität, und andererseits ergeben die Transitivität und die Symmetrie, dass
[x] und [y] genau dann einen nichtleeren Durchschnitt haben, wenn x ∼ y und
damit sogar [x] = [y] erfüllt ist. Da je zwei Äquivalenzklassen also entweder
gleich oder disjunkt sind, lässt sich R dadurch bilden, dass man aus jeder der
verschiedenen Äquivalenzklassen ein Element auswählt.
Nach diesem Exkurs in die allgemeine Theorie können wir nun die Abkoppelung
des Vereinfachungsproblems von den Vektorraum-Homomorphismen abschließen:
Die Äquivalenzklassen der Matrizenäquivalenz auf Km×n sind gerade die Mengen
M(ϕ) mit ϕ ∈ Hom (V,W), und zugleich erklärt sich die Übereinstimmung sol-
cher Mengen für verschiedene Homomorphismen aus Hom (V,W). Wir könnten
damit auch eine Äquivalenzrelation auf Hom (V,W) einführen, die wir aber nicht
weiter benötigen.

4.3.4 Charakterisierung der Äquivalenzklassen bezüglich


der Matrizenäquivalenz

Wegen des Auftretens der beiden invertierbaren Matrizen in der Definition der
Äquivalenz von Matrizen (Seite 249) scheint die Suche nach einfachen, aber die
Äquivalenzklassen vollständig charakterisierenden Eigenschaften und nach aus-
gezeichneten Repräsentanten recht schwierig zu sein. Erinnern wir uns jedoch
daran, wie wir im Satz über die Gleichheit von Zeilenräumen (Seite 121) die
S p×n
Zeilenraumgleichheit, die als Äquivalenzrelation auf der Menge K angese-
p∈N1
hen werden kann, auf die Gleichheit der zugehörigen reduzierten Stufenmatrizen
zurückgeführt haben, die damit ausgezeichnete Repräsentanten der zugehörigen
Äquivalenzklassen sind, so wird die Lösung des jetzigen Problems sogar recht
einfach.
Der Beweis des Satz über die Gleichheit von Zeilenräumen (Seite 121) enthält im
Teil ii) die Überlegung, dass für jede Matrix A ∈ Km×n \{(0)} die Reduzierte ohne
4.3.4 Charakterisierung der Äquivalenzklassen zur Matrizenäquivalenz 251

Nullzeilenstreichung 0rA aus A durch elementare Zeilenumformungen entsteht, und


im Reduziertensatz (Seite 125) haben wir die zugehörige Gleichung A = H 0rA mit
H : = (wA P −1L) ∈ GL(m;K) hergeleitet, aus der 0rA = S2 mit S2 : = H −1 folgt.
 
Er 0
Ist r : = Rang A und wird zur Abkürzung Dr : = ∈ Km×n sowie
0 0
D0 : = (0) ∈ Km×n gesetzt, so geht tr 0 A durch besonders einfache elementare
t
Zeilenumformungen in Dr über, das heißt, es gibt eine Matrix S1 ∈ GL(n;K),
sodass Dr = 0rA S1 und damit
Dr = S2 A S1
gilt. Ist also der Rang von zwei Matrizen A, B ∈ Km×n gleich r, so sind sie zu
derselben Matrix Dr und wegen der Symmetrie und Transitivität auch zueinander
äquivalent.
Umgekehrt haben äquivalente Matrizen aufgrund des Verallgemeinerungssatzes
(Seite 242) denselben Rang wie der zugehörige Homomorphismus. Unabhängig
von Homomorphismen folgt die Gleichheit der Ränge von äquivalenten Matrizen
mit dem Rangvergleichssatz (Seite 127):
RangA = Rang (T2−1 T2 A T1 T1−1 ) ≤ Rang (T2 A T1 ) ≤ RangA.
Da die Matrizen Dk wegen RangDk = k untereinander nicht äquivalent sind, ist

R : = D0 , D1 , . . . , Dmin{m,n} eine Repräsentantenmenge von Km×n bezüglich
der Matrizenäquivalenz.
Die Transformationsmatrizen S1 und S2 in der Darstellung Dr = S2 A S1 sind im
Allgemeinen nicht eindeutig bestimmt. Die oben hergeleiteten Matrizen können
wir aber algorithmisch gewinnen und in besonders einfacher Form angeben: We-
r s 
A A
gen S2 (A Em ) = (S2 A S2 ) = mit den im Satz über Basis und Dimensi-
0 vA
on des Linksnullraums (Seite 129) und vor dem Satz über die Quasi-Inverse (Seite
s 
v s A
138) definierten Matrizen A und A entsteht S2 = v aus Em durch simultane
A
Anwendung der elementaren Zeilenumformungen, die A in 0rA überführen.
Für S1 weisen wir die günstigere Darstellung S1 = (uA zA) nach, ohne den Zu-
sammenhang mit der obigen Herleitung herzustellen. Es gilt
s  s  s  s w   
A u z (1.22) A u z A w A A 0 Er 0
v A( A A) = v (A A A A) = v ( A 0)(2.21)
=
(2.31)
= .
A A A 0 0 0 0
Außerdem erhalten wir
 
Er −rA yA
( A A) = A A− A ( A A) = (uA yA)
u z u y u r y

,
0 En−r
252 Beispiel zum Äquivalenzsatz 4.3.5

wobei das Produkt aus einer Permutationsmatrix und einer normierten oberen
Dreiecksmatrix besteht. Damit ist (uA zA) als Produkt von invertierbaren Matri-
zen auch invertierbar.

Sind T1−1 = MA B
A 0 (idV ) und T2 = MB 0 (idW ) die vor dem Transformationssatz
(Seite 247) eingeführten Transformationsmatrizen, die bei einem Basiswechsel
auftreten, so stellt T1 die Wechselmatrix dar, deren Spaltenvektoren die Koeffi-
zienten der Linearkombinationen enthalten, mit denen die neuen Basisvektoren
aus den gegebenen gebildet werden. Für den Vektorraum W ist T2−1 die Wech-
selmatrix. Oben haben wir bereits die einfache Wechselmatrix S2−1 = (wA P −1L)
gefunden. Damit ist das Normalformproblem für äquivalente Matrizen und für
Homomorphismen zwischen endlich erzeugten Vektorräumen vollständig und sehr
befriedigend gelöst:

Äquivalenzsatz
Zwei Matrizen aus Km×n sind genau dann äquivalent, wenn sie denselben
 
m×n Er 0
Rang haben. Jede Matrix A ∈ Kr \{0} ist äquivalent zu Dr : = ∈
0 0
Km×n , und es gilt
s 
A
Dr = v A (uA zA) 3 mit
A s 
u z A
( A A) = : S1 ∈ GL(n;K) und v = : S2 ∈ GL(m;K).
A
Ist A = MA B (ϕ) die darstellende Matrix eines Homomorphismus ϕ zwischen
endlich erzeugten K-Vektorräumen V und W mit den Basen A beziehungs-
weise B, so sind S1 und S2−1 = (wA P −1L) mit P und L aus dem Reduzierten-
0 0
satz (Seite 125) die Wechselmatrizen MA B
A (idV ) und MB (idW ) zu Basen A
0

0
und B 0 , mit denen MA
B 0 (ϕ) = Dr gilt.

4.3.5 Beispiel zum Äquivalenzsatz

Zur Erläuterung der Berechnung und Anwendung von S1 , S2 und S2−1 verwenden

3
Diese Darstellung von Dr lässt sich mit dem Wortpaar “ADReSse VAdUZ” (Hauptstadt
von Liechtenstein) merken.
4.3.5 Beispiel zum Äquivalenzsatz 253
 
1 3 3 2
wir die Matrix A =  2 6 9 5  , die schon im Beispiel 2.3.4 untersucht
−1 −3 3 0
wurde:
   
1 3 3 2|1 0 0 1 3 3 2 1 0 0
(A E3 ) =  2 6 9 5 | 0 1 0  →  0 0 3 1 −2 1 0 
−1 −3 3 0 | 0 0 1 0 0 6 2 1 0 1
1 3 0 1 | 3 −1 0
   
1 3 3 2 1 0 0
→  0 0 3 1 −2 1 0  →  0 0 1 13 | − 23 31 0  = (0rA S2 ).
0 0 0 0 5 −2 1 0 0 0 0 | 5 −2 1
Die Elemente von S1 = (uA yA−uA rA yA) können nun unmittelbar aus 0rA entnom-
men werden. Zunächst ist uA = (~e1 ~e3 ), wobei 1 und 3 die Indizes der Eckkoeffizi-
enten sind. Mit den übrigen Indizes in aufsteigender Reihenfolge wird yA = (~e2 ~e4 )
gebildet und hinter uA eingetragen. Durch −uA rA yA kommen die mit −1 multi-
plizierten Elemente der Spaltenvektoren von rA, deren Indizes freie Variable sind,
hinter diejenigen Zeilen von uA, die eine 1 enthalten. Also gilt
1 0 −3 −1
 
3 −1 0
 
0 0 1 0
 2 1 
D2 = S2 AS1 mit S1 =   0 1 0 − 1  und S2 = − 3 3 0 .

3 5 −2 1
0 0 0 1
 
1 3 0
Außerdem ist S2−1 = (wA ~e3 ) =  2 9 0  .
−1 3 1

Sind A = : {~a1 , ~a2 , ~a3 , ~a4 } und B = : {~b1 , ~b2 , ~b3 } Basen von R-Vektorräumen V
beziehungsweise W, so kann der Homomorphismus ϕ ∈ Hom (V,W), dessen dar-
stellende Matrix A = MA B (ϕ) ist, aufgrund des Festlegungssatzes (Seite 237) durch

ϕ(~a1 ) = ~b1 + 2~b2 − ~b3 , ϕ(~a2 ) = 3~b1 + 6~b2 − 3~b3 ,


ϕ(~a3 ) = 3~b1 + 9~b2 + 3~b3 , ϕ(~a4 ) = 2~b1 + 5~b2

−1 0 0
bestimmt werden. Mit den Wechselmatrizen S1 = MA B
A (idV ) und S2 = MB (idW )
erhalten wir die neuen Basisvektoren durch

~a10 = ~a1 , ~a20 = ~a3 , ~a30 = −3~a1 + ~a2 , ~a40 = −~a1 − 31 ~a3 + ~a4 sowie
~b 0 = ~b1 + 2~b2 − ~b3 , ~b 0 = 3~b1 + 9~b2 + 3~b3 , ~b 0 = ~b3 ,
1 2 3

und es gilt ϕ(~a10 ) = ~b10 , ϕ(~a20 ) = ~b20 , ϕ(~a30 ) = ~0, ϕ(~a40 ) = ~0.
254 Parameterdarstellung für verallgemeinerte Inverse 4.3.6

Übung 4.3.b
 
1 −2 2
 4 −7 10  4×3
−2 4 −5  ∈ R
i) Berechnen Sie zu A =  Matrizen T1 ∈ GL(3 ; R)

3 −5 7
und T2 ∈ GL(4 ; R), sodass T2 A T1 = Dr mit r : = RangA gilt.
ii) Es seien A = : {~a1 , ~a2 , ~a3 } und B = : {~b1 , ~b2 , ~b3 , ~b4 } Basen von R-Vek-
torräumen V beziehungsweise W und ϕ ∈ Hom (V,W) mit MA
B (ϕ) = A.
0
Bestimmen Sie Basen A 0 von V und B 0 von W, für die MA
B 0 = Dr ist.

4.3.6 Parameterdarstellung für verallgemeinerte Inverse

Als Anwendung des Äquivalenzsatzes (Seite 252) leiten wir ein weiteres neues
Ergebnis über verallgemeinerte Inverse her und schließen damit dieses Kapitel
ab. Wir gehen von der verallgemeinerten Inversen qA = uAsA des Satzes über die
Quasi-Inverse (Seite 138) aus und suchen eindeutige Parameterdarstellungen für
alle verallgemeinerten Inversen V einer Matrix A ∈ Km×n
r \ {(0)}.

Aus A qAA = A und A VA = A folgt aufgrund des Satzes über Matrizenmultipli-


kation (Seite 39), dass A(V − qA)A = (0) gilt. Setzen wir
U0 : = {X ∈ Kn×m | AXA = (0)},
so ist auch umgekehrt V : = qA + X für jedes X ∈ U0 eine verallgemeinerte
Inverse von A. Es genügt also, die Matrizen aus U0 explizit zu bestimmen.

Dazu schreiben wir A aufgrund des Äquivalenzsatzes (Seite 252) in der Form
s 
−1 −1 u z A
A = S2 Dr S1 mit S1 = ( A A) ∈ GL(n;K) und S2 = v ∈ GL(m;K).
A
Damit folgt
U0 = {X ∈ Kn×m | S2−1 Dr S1−1 X S2−1 Dr S1−1 = (0)}
 

= {X ∈ Kn×m | Dr S1−1 XS2−1 Dr = (0)}.




 
B0 B1
Setzen wir hier S1−1 XS2−1=: ∈ Kn×m mit B0 ∈ Kr×r , so ist
B2 B3
   
B0 B1 B0 0
Dr Dr = = (0)
B2 B3 0 0
gleichbedeutend mit B0 = (0). Also liegt X genau dann in U0 , wenn es Ma-
4.3.6 Parameterdarstellung für verallgemeinerte Inverse 255

trizen B1 ∈ Kr×(m−r) , B2 ∈ K(n−r)×r und B3 ∈ K(n−r)×(m−r) gibt, sodass


 
0 B1
X = S1 S2 erfüllt ist. Das zeigt auch, dass U0 einen Untervektorraum
B2 B3
von Kn×m mit der Dimension mn − r2 darstellt.
 
q Er 0
Beachten wir nun noch, dass A = S1 S2 gilt, so erhalten wir für jede
0 0
verallgemeinerte Inverse V von A die Darstellung
 
q Er B1
V = A + X = S1 S2 ,
B2 B3
bei der wegen der Invertierbarkeit von S1 und S2 die Matrizen B1 , B2 und B3
eindeutig durch V bestimmt sind.
Die zusätzliche Bedingung VA V = V für symmetrisch verallgemeinerte Inverse
V von A lässt sich jetzt durch einen einfachen Zusammenhang zwischen den
 
Er B1
Matrizen B1 , B2 und B3 wiedergeben. Mit B : = ergibt sich VA V =
 B2 B3
Er B1
S1 B(S2 AS1 )BS2 = S1 (BDr B)S2 = S1 S2 , sodass VA V = V =
B2 B2 B1
S1 BS2 genau dann gilt, wenn B3 = B2 B1 erfüllt ist.
Diese nicht naheliegenden Ergebnisse fassen wir in dem folgenden Satz zusammen.

Satz über verallgemeinerte Inverse


Ist A ∈ Km×nr , so stellt V ∈ Kn×m genau dann eine verallgemeinerte Inverse
von A dar, wenn es Matrizen B1 ∈ Kr×(m−r) , B2 ∈ K(n−r)×r und B3 ∈
K(n−r)×(m−r) gibt, sodass
  s 
u z Er B1 A
V = ( A A) v
B2 B3 A
gilt.
Die Matrix V ∈ Kn×m ist genau dann eine symmetrisch verallgemeinerte
Inverse von A, wenn sich Matrizen B1 ∈ Kr×(m−r) und B2 ∈ K(n−r)×r finden
lassen, die
  s 
u z Er B1 A
V = ( A A) v = (uA + zAB2 )(sA + B1 vA)
B2 B2 B1 A
erfüllen.
Die Matrizen B1 , B2 , B3 sind jeweils eindeutig durch V bestimmt.
Kapitel 5

Determinanten

5.1 Einführung und Eigenschaften

5.1.1 Das Volumen von Parallelotopen

Jeder Matrix A ∈ Kn×n lässt sich ein Körperelement detA - Determinante von
A genannt - zuordnen, das eine Reihe von Eigenschaften der Matrix A “in kon-
zentrierter Form” wiedergibt. Im nächsten Kapitel benötigen wir zum Beispiel,
dass det A 6= 0 genau dann gilt, wenn A invertierbar ist, und dass det A für
alle Matrizen A, die aufgrund des Darstellungssatzes (Seite 241) einem beliebi-
gen Endomorphismus eines n - dimensionalen K -Vektorraums zugeordnet sind,
denselben Wert hat.

Diese Aussagen sind zur Definition ebensowenig geeignet wie die historisch ältes-
ten Ansätze zur Lösung linearer Gleichungssysteme (durch G. W. Leibniz), weil
sie auf komplizierten Formeln für die Determinante beruhen. Im Hinblick darauf,
dass dieser grundlegende Begriff in einigen klassischen Teilbereichen der linearen
Algebra an Bedeutung verloren hat, ist es günstig, dass sich die Determinante als
Zuordnung durch drei einfache Eigenschaften charakterisieren lässt, die mit Hil-
fe einer unverändert wichtigen Anwendung motiviert werden können, nämlich
mit der Bestimmung des Volumens der von n linear unabhängigen Vektoren
~a1 , . . . , ~an ∈ Rn×1 “aufgespannten” Parallelotope
n n
X o

n×1 n
~x ∈ R Es gibt (λ1 , . . . , λn ) ∈ [0, 1] , sodass ~x = λi~ai gilt .
i=1

Für n = 2 handelt es sich um Parallelogramme, und im Fall n = 3 heißt ein


solches Gebilde Parallelepiped.

256
5.1.1 Das Volumen von Parallelotopen 257

Bereits der anschauliche Flächeninhalt von Parallelogrammen führt uns auf die
folgenden wesentlichen Bedingungen, von denen wir später erkennen werden, dass
sie das Volumen V = V(~a1 , . . . , ~an ) eines Parallelotops als Funktion der auf-
spannenden Vektoren ~a1 , . . . , ~an eindeutig festlegen (siehe Abbildung 5.1). Das
Volumen eines Parallelotops ändert sich nicht, wenn einer der aufspannenden
Vektoren zu einem anderen addiert wird; bei Multiplikation eines der Vektoren
mit c ∈ R \ {0} erhält das Volumen den Faktor |c|, und für den “Einheitswürfel”
hat das Volumen den Wert 1.

~a + ~b ~e2
~b ~c
1

~e1
c~a
~a ~a

Abbildung 5.1: Bedingungen für das Volumen eines Parallelotops

Natürlich soll das Volumen auch eine positive Zahl sein. Es wird sich aber er-
geben, dass genau eine Abbildung D : Rn×n → R existiert, die bezüglich der
Spaltenvektoren die erste und die dritte Eigenschaft des Volumens besitzt und
bei der die zweite Bedingung mit einem Faktor c anstelle von |c| erfüllt ist. Wir
führen deshalb die Determinante auf diese Weise für beliebige Matrizen aus Kn×n
ein und erklären später im Falle K = R das Volumen V(~a1 , . . . , ~an ) für n linear
unabhängige Vektoren ~a1 , . . . , ~an durch die Zahl |D(~a1 , . . . , ~an )|, von der wir dann
wissen, dass sie eindeutig bestimmt und positiv ist. Darüber hinaus erhält das
Vorzeichen von D(~a1 , . . . , ~an ) die Bedeutung einer “Orientierung” des n -tupels
(~a1 , . . . , ~an ) ∈ (Rn×1 )n (siehe Unterabschnitt 5.4.3).

Definition der Determinantenfunktion


Es sei K ein Körper und n ∈ N1 . Eine Abbildung D : Kn×n → K,
(~a1 , . . . , ~an ) 7→ D(~a1 , . . . , ~an ) heißt Determinantenfunktion genau dann, wenn
sie folgende Eigenschaften hat, wobei die ersten beiden Aussagen für alle
(~a1 , . . . , ~an ) ∈ Kn×n gelten und die Punkte jeweils für die nicht angegebenen
Spaltenvektoren stehen:
258 Eigenschaften der Determinantenfunktionen 5.1.2

D1 (Addition eines Spaltenvektors zu einem anderen)


D(. . . ~ai . . . ~ak . . .) = D(. . . ~ai + ~ak . . . ~ak . . .) für alle i, k ∈ In mit i 6= k;
D2 (S-Multiplikation eines Spaltenvektors)
D(. . . c~ai . . .) = cD(. . . ~ai . . .) für jedes i ∈ In und für alle c ∈ K;
D3 (Normierung für die Einheitsmatrix)
D(En ) = 1.

5.1.2 Eigenschaften der Determinantenfunktionen

Unter der Annahme, dass für jedes n ∈ N1 mindestens eine Determinantenfunk-


tion existiert, werden wir aus den drei Bedingungen D1, D2 und D3 weitere
Eigenschaften der Abbildung D herleiten. Auf diese Weise ergibt sich in neun
Schritten eine explizite Darstellung von D, die bedeutet, dass es für jedes n ∈ N1
höchstens eine Determinantenfunktion geben kann. Indem wir nachweisen, dass
diese konkrete Funktion D1, D2 und D3 erfüllt, schließen wir den “Rundgang”,
der für jeden Körper K und für jedes n ∈ N1 eine durch die Ausgangsbedingungen
eindeutig festgelegte Determinantenfunktion ergibt.
Bis zur Eigenschaft D12 gelten also zunächst alle Aussagen über D unter der
Voraussetzung, dass D eine Abbildung ist, die die Eigenschaften D1, D2 und
D3 hat. Mit “Vektoren” sind hier stets Spaltenvektoren der jeweiligen Matrix A
gemeint.
D2
Aus D1 und D2 folgt (wie in Abbildung 1.2 III) cD(. . . ~ai . . . ~ak . . .) = D(. . . ~ai . . .
D1 D2
c~ak . . .) = D(. . . ~ai + c~ak . . . c~ak . . .) = cD(. . . ~ai + c~ak . . . ~ak . . .). Ist c 6= 0, so
können wir alle Teile der Gleichungskette durch c dividieren. Zusammen mit dem
trivialen Fall c = 0 erhalten wir also

D4 (Addition des c -fachen eines Vektors zu einem anderen)


D(. . . ~ai . . . ~ak . . .) = D(. . . ~ai + c~ak . . . ~ak . . .)
für alle i, k ∈ In mit i 6= k und für jedes c ∈ K.

Durch wiederholte Anwendung von D4 ergibt sich


5.1.2 Eigenschaften der Determinantenfunktionen 259

D5 (Addition einer Linearkombination von Vektoren zu einem anderen Vek-


tor)  n
X 
D(. . . ~ai . . .) = D . . . ~ai + ck~ak . . .
k=1
k6=i

für jedes i ∈ In und für alle ck ∈ K mit k ∈ In \ {i}.

Nun können wir das Verhalten der Determinantenfunktionen bei linear abhängi-
gen Vektoren ~a1 , . . . , ~an ∈ Kn×1 wiedergeben. In diesem Fall gibt es aufgrund des
Satzes über ein Kriterium für lineare Abhängigkeit (Seite 106) ein i ∈ In , sodass
Pn
~ai = − ck~ak mit ck ∈ K für k ∈ In \ {i} erfüllt ist. Mit D5 folgt dann
k=1
k6=i  n n 
X X
D(. . . ~ai . . .) = D . . . − ck~ak + ck~ak . . . =
k=1 k=1
k6=i k6=i
D2
D(. . . 0~ai . . .) = 0D(. . . ~ai . . .) = 0.

D6 (Verhalten bei linear abhängigen Vektoren)


Sind die Vektoren ~a1 , . . . , ~an ∈ Kn×1 linear abhängig, so gilt
D(~a1 . . . ~an ) = 0.

Bei den folgenden drei Eigenschaften werden wieder nur D1, D2 und D4 benötigt.
Wie in Abbildung 1.2 IV ergibt sich zunächst das Verhalten beim Vertauschen von
zwei Vektoren:
D2 D1 D4
D(. . . ~ai . . . ~ak . . .) = −D(. . . ~ai . . . −~ak . . .) = −D(. . . ~ai . . . ~ai − ~ak . . .) =
D1
−D(. . . ~ai − (~ai − ~ak ) . . . ~ai − ~ak . . .) = −D(. . . ~ak . . . ~ai . . .), also

D7 (Verhalten beim Vertauschen von zwei Vektoren)


D(. . . ~ai . . . ~ak . . .) = −D(. . . ~ak . . . ~ai . . .) für alle i, k ∈ In mit i 6= k.

Während die letzte Eigenschaft für die oben erwähnte “Orientierung” typisch ist,
lässt sich der nächste Zusammenhang auch als “Additivität” des Volumens von
Parallelotopen mit n − 1 festbleibenden erzeugenden Vektoren ~a1 , . . . , ~ai−1 , ~ai+1 ,
260 Eigenschaften der Determinantenfunktionen 5.1.2

. . . , ~an deuten. Sind diese Vektoren im Falle der Determinantenfunktionen linear


abhängig, so gilt D(. . . ~ai0 + ~ai00 . . .) = D(. . . ~ai0 . . .) + D(. . . ~ai00 . . .), weil alle drei
Determinanten wegen D6 den Wert 0 haben.

Zu linear unabhängigen Vektoren ~a1 , . . . , ~ai−1 , ~ai+1 , . . . , ~an ∈ Kn×1 gibt es auf-
grund des Basisergänzungssatzes (Seite 127) einen Vektor ~ai ∈ Kn×1 , sodass die
n Vektoren eine Basis von Kn×1 bilden. Werden ~ai0 , ~ai00 ∈ Kn×1 als Linearkombi-
nationen dieser Basis mit Koeffizienten c10 , . . . , c0n , c100 , . . . , c00n dargestellt, so ergeben
D2 und D4 die Gleichungskette
 X n 
0 00 D4  D2
D(. . . ~ai + ~ai . . .) = D . . . 0 00
(ck + ck )~ak . . . = D . . . (ci0 + ci00 )~ai . . . =
k=1
D2
(ci0 + ci00 )D(. . . ~ai . . .) = ci0 D(. . . ~ai . . .) + ci00 D(. . . ~ai . . .) =
D4
D(. . . ci0~ai . . .) + D(. . . ci00~ai . . .) = D(. . . ~ai0 . . .) + D(. . . ~ai00 . . .).

Damit haben wir

D8 (Additivität in jeder Spalte)


D(. . . ~ai0 + ~ai00 . . .) = D(. . . ~ai0 . . .) + D(. . . ~ai00 . . .)
für jedes i ∈ In und für alle ~ai0 , ~ai00 ∈ Kn×1 .

Diese Eigenschaft wird manchmal zusammen mit D7 anstelle von D1 bei der De-
finition der Determinantenfunktionen verwendet. Dabei ergeben D2 und D8 die
“Linearität in jeder Spalte”. Auf diese Weise werden die Determinantenfunktio-
nen als normierte alternierende Multilinearformen gewonnen, wobei das Adjektiv
“alternierend” von D7 herkommt und die Normierung bei beiden Vorgehenswei-
sen durch D3 erfolgt.
n
Sind ~b1 , . . . ~bn ∈ Kn×1 und ist ~ai : = cki~bk mit beliebigen Koeffizienten cki ∈
P
k=1
K für i, k ∈ In , so lässt sich D(~a1 . . . ~an ) durch wiederholte Anwendung von
D8 und D2 mit vollständiger Induktion als n -fache Summe darstellen, in deren
Summanden neben Koeffizientenprodukten nur Determinantenfunktionswerte zu
den Vektoren ~b1 , . . . , ~bn auftreten:
n
X n
X 
D(~a1 . . . ~an ) = D ck1~bk . . . ckn~bk
k=1 k=1
5.1.2 Eigenschaften der Determinantenfunktionen 261

n  n n 
D8
X X X
= ~
D ck1 1 bk1 ~
ck2 bk . . . ckn~bk
k1 =1 k=1 k=1
n  n n 
D2
X X X
= ck1 1 D ~bk1 ck2~bk . . . ckn~bk
k1 =1 k=1 k=1
...
n
X n
X
ckn n D ~bk1 . . . ~bkn

= ck1 1 . . .
k1 =1 kn =1
X n n
X
ck1 1 · · · ckn n D ~bk1 . . . ~bkn .

= ...
k1 =1 kn =1

Wegen D6 gilt D ~bk1 . . . ~bkn = 0, wenn mindestens zwei der Indizes übereinstim-


men. Die übrigbleibenden Summanden können mit Hilfe der in Unterabschnitt


1.6.3 eingeführten Permutationen σ ∈ Sn in der Form
X
D(~a1 . . . ~an ) = cσ(1)1 · · · cσ(n)n D(~bσ(1) . . . ~bσ(n) )
σ∈Sn

geschrieben werden, wobei die Reihenfolge der n! Permutationen beliebig ist.


Für die konkrete Darstellung verwendet man in der Regel die lexikographische
Anordnung der n -tupel (σ(1), . . . , σ(n)), bei der also bezüglich aller zulässigen
n -tupel der Zahlen 1, . . . , n entsprechende Regeln gelten wie bei der Folge der
Wörter in einem Lexikon.

Mit (1.22) erhalten wir (~bσ(1) . . . ~bσ(n) ) = (~b1 . . . ~bn )(~eσ(1) . . . ~eσ(n) ). Da P : = (~eσ(1)
. . . ~eσ(n) ) eine Permutationsmatrix ist, gibt es aufgrund des Satzes über Permuta-
tionsmatrizen (Seite 71) endlich viele von der Einheitsmatrix verschiedene Ver-
tauschungsmatrizen P1 , . . . , Pr , mit denen P = P1 · · · Pr gilt. Wegen D7 und D3
ergibt sich damit einerseits D(~eσ(1) . . . ~eσ(n) ) = (−1)r D(~e1 . . . ~en ) = (−1)r . Aus
(~bσ(1) . . . ~bσ(n) )Pr−1 · · · P1−1 = (~b1 . . . ~bn ) folgt mit D7 andererseits D(~bσ(1) . . . ~bσ(n) )
= (−1)r D(~b1 . . . ~br ), sodass zusammengefasst D(~bσ(1) . . . ~bσ(n) ) = D(~eσ(1) . . . ~eσ(n) ) ·
D(~b1 . . . ~bn ) gilt.

Da die Anzahl r der Vertauschungen nicht eindeutig ist, könnte es sein, dass
D(~eσ(1) . . . ~eσ(n) ) für verschiedene Determinantenfunktionen unterschiedliche Wer-
te annimmt. Diese Möglichkeit werden wir im nächsten Abschnitt ausschließen.
Auf jeden Fall haben wir nun die folgende Eigenschaft, die für die weiteren Un-
tersuchungen der Determinantenfunktionen entscheidend sein wird.
262 Das Signum von Permutationen 5.2.1

D9 (Darstellung bezüglich gegebener Vektoren)


Sind ~b1 , . . . ~bn ∈ Kn×1 , so gilt
Xn n
X 
D ~
ck1 bk . . . ~
ckn bk =
k=1 k=1
X 
cσ(1)1 · · · cσ(n)n D(~eσ(1) . . . ~eσ(n) ) D(~b1 . . . ~bn )
σ∈Sn

für alle cki ∈ K mit Indizes i, k ∈ In .

Da aufgrund des Basissatzes (Seite 113) je n linear unabhängige Vektoren ~b1 ,


. . . , ~bn ∈ Kn×1 eine Basis von Kn×1 bilden, können wir von D9 auf das Verhalten
der Determinantenfunktionen bei linear unabhängigen Vektoren schließen, indem
n
cki~bk für i = 1, . . . , n gilt. Wegen
P
wir die Koeffizienten cki so wählen, dass ~ei =
k=1
X 
D3 D9
1 = D(~e1 . . . ~en ) = cσ(1)1 · · · cσ(n)n D(~eσ(1) . . . ~eσ(n) ) D(~b1 . . . ~bn )
σ∈Sn

muss dann D(~b1 . . . ~bn ) 6= 0 sein. Zusammen mit D6 erhalten wir damit das am
Anfang dieses Kapitels genannte wichtige Kriterium.

D10 (Verhalten bei linear unabhängigen Vektoren)


Die Vektoren ~b1 , . . . , ~bn ∈ Kn×1 sind genau dann linear unabhängig, wenn
D(~b1 . . . ~bn ) 6= 0 gilt.

5.2 Berechnung der Determinanten

5.2.1 Das Signum von Permutationen

Werden in D9 die Vektoren der Standardbasis {~e1 , . . . , ~en } gewählt, so ergibt sich
auf der linken Seite der Gleichung die Matrix
 
n n c 11 . . . c 1n
ckn~ek =  ... ..  ,
X X 
ck1~ek . . .

. 
k=1 k=1 cn1 . . . cnn
5.2.1 Das Signum von Permutationen 263

und auf der rechten Seite hat der Faktor D(~e1 . . . ~en ) wegen D3 den Wert 1 .
Gehen wir außerdem von den Koeffizienten cik zu den Matrixelementen aik von
A ∈ Kn×n über, so erhalten wir eine Gleichung für D(A), in der nur noch
D(~eσ(1) . . . ~eσ(n) ) berechnet werden muss:

D11 (Darstellung mit Hilfe der Matrixelemente)


 
a11 . . . a1n
Für jede Matrix A = :  ... ..  ∈ Kn×n gilt

. 
an1 . . . ann
X
D(A) = aσ(1)1 · · · aσ(n)n D(~eσ(1) . . . ~eσ(n) ).
σ∈Sn

Der Versuch, mit Hilfe von D7 und D3 die Werte von D(~eσ(1) . . . ~eσ(n) ) zu bestim-
men, führt zu der Vermutung, dass bei jeder festen Permutation σ die Anzahl r der
Vertauschungen nicht eindeutig ist, dass aber (−1)r und damit D(~eσ(1) . . . ~eσ(n) )
nur von σ abhängt. Deshalb liegt es nahe, mit einem möglichst einfachen Ver-
tauschungsalgorithmus den vermutlichen Wert von D(~eσ(1) . . . ~eσ(n) ) als Funktion
von σ ∈ Sn einzuführen.
Da wir in der Regel nicht wissen, an welcher Position sich die Zahl i für jedes
i ∈ In befindet, lässt sich die Methode aus dem Beweis des Satzes über Permu-
tationsmatrizen (Seite 71) hier nicht anwenden. Vertauschen wir aber der Reihe
nach jeweils die beiden Vektoren mit dem lexikographisch kleinsten “absteigen-
den” Indexpaar, so können wir feststellen, dass bei dem entstehenden Index-n -
tupel die Gesamtzahl solcher “Fehlstände” um 1 kleiner ist als bei dem vorherge-
henden. Dabei wird ein Paar (i, k) ∈ In2 mit i < k Fehlstand von σ ∈ Sn genannt,
wenn σ(i) > σ(k) gilt.
Aufgrund der Minimalbedingungen für den jeweils zu vertauschenden Fehlstand
lässt sich mit Fallunterscheidung leicht nachweisen, dass sich bei den übrigen
Fehlständen höchstens die Positionen ändern. Damit stimmt die Gesamtzahl die-
ser speziellen Vertauschungen mit der Anzahl der Fehlstände bei dem ersten n-

tupel σ(1), . . . , σ(n) überein.
Beachten wir nun noch, dass die Fehlstände durch ein negatives Vorzeichen von
σ(k) − σ(i) charakterisiert werden, so können wir die vermutliche Invariante der
Determinantenfunktionen in der folgenden zweckmäßigen Form definieren:
264 Das Signum von Permutationen 5.2.1

Definition des Signums einer Permutation


Q 
Für jedes σ ∈ Sn heißt die Zahl sgn (σ) : = sign σ(k) − σ(i) Signum
1≤i<k≤n

von σ, wobei sign(a) das Vorzeichen (“Signum”) der ganzen Zahl a bezeichnet.
Wird das Signum in einem Körper K verwendet, so sind die Zahlen 1 und -1
als die entsprechenden Körperelemente aufzufassen.

Wir leiten zunächst einige Eigenschaften des Signums her, um zeigen zu können,
dass bei jeder Permutation σ ∈ Sn für alle Vertauschungssequenzen - und nicht
nur für die obige spezielle - D(~eσ(1) . . . ~eσ(n) ) = sgn (σ) gilt und dass die dann
wegen D11 allein übrigbleibende Funktion D die Bedingungen D1, D2 und D3
erfüllt.

Ist id die identische Permutation, so gilt natürlich sgn (id) = 1. Aber schon bei
einer Permutation, die genau zwei Elemente von In vertauscht, lässt sich der Wert
des Signums nicht unmittelbar erkennen. Da diese Permutationen als Bausteine
angesehen werden können, haben sie einen eigenen Namen:

Definition der Transposition


Eine Permutation τ ∈ Sn heißt Transposition genau dann, wenn es ein Paar
(i, k) ∈ In2 mit i < k gibt, sodass τ (k) = i, τ (i) = k und τ (j) = j für alle
j ∈ In \ {i, k} erfüllt ist.

Satz über das Signum von Transpositionen


Für jede Transposition τ ∈ Sn gilt sgn (τ ) = −1.

Beweis (r1):

Ist (i, k) ∈ In mit i < k das Paar, das durch τ vertauscht wird, so gibt es außer
(i, k) noch die Fehlstände (i, j) und (j, k) mit i + 1 ≤ j ≤ k − 1

Die übrigen Paare sind keine Fehlstände, weil mindestens eine Komponente aus
In \ {i, . . . , k} darin vorkommt, und diese steht zu allen anderen Zahlen aus In
in der richtigen Relation. Damit gibt es 1 + 2(k − i − 1) Fehlstände, und es folgt
sgn (τ ) = (−1)2k−2i−1 = −1.
5.2.1 Das Signum von Permutationen 265

Da Sn eine Gruppe ist, existiert zu jedem σ ∈ Sn ein inverses Element, das wir
−1
im Unterabschnitt 1.6.3 mit σ bezeichnet haben, weil es wie σ eine Abbildung
darstellt. Der folgende Satz, der auch über die Lineare Algebra hinaus grundle-
gende Bedeutung im Zusammenhang mit Permutationen hat, wird unter anderem
−1
das Signum von hintereinanderausgeführten Transpositionen und später von σ
ergeben.

Signumproduktsatz
Für alle %, σ ∈ Sn gilt sgn (σ ◦ %) = sgn (σ) sgn(%).

Beweis (a1):
Q  
Da sgn (%) sign %(k) − %(i) = 1 ist und da (i, k) 7→ %(i), %(k) eine bijektive
i<k
Abbildung von In2 auf In2 darstellt, gilt
Y   
sgn (σ ◦ %) = sign σ %(k) − σ %(i) =
i<k
Y  
   
sgn (%) sign %(k) − %(i) sign σ %(k) − σ %(i) =
i<k
Y   Y  
0 0 0 0
sgn (%) sign %(k ) − %(i ) (−1) sign σ(k ) − σ(i ) =
i 0 <k 0 k 0 <i 0
−1 −1 −1 −1
ρ (i 0 )< ρ (k 0 ) ρ (i 0 )< ρ (k 0 )
Y
sign σ(k 0 ) − σ(i 0 ) = sgn (ρ) sgn (σ),

sgn (%)
i 0 <k 0

wobei bezüglich des vorletzten Produktzeichens die Bezeichnungen der Laufpara-


−1
meter vertauscht wurden, sodass sich die beiden Produkte mit ρ - Bedingungen
zusammenfassen lassen.

Nun können wir zeigen, dass D(~eσ(1) . . . ~eσ(n) ) für jede Vertauschungssequenz, die
(~eσ(1) . . . ~eσ(n) ) in En überführt, denselben Wert sgn (σ) besitzt. Einerseits lässt
sich jede Vertauschung von Spaltenvektoren als Produkt von rechts mit der ent-
sprechenden Vertauschungsmatrix schreiben, und andererseits ist (~eσ(1) . . . ~eσ(n) )
die durch (1.37) eingeführte Permutationsmatrix Φ(σ). Sind P1 , . . . , Pr beliebi-
ge Vertauschungsmatrizen, mit denen Φ(σ)P1 · · · Pr = En gilt, so erhalten wir

D Φ(σ) = (−1)r wegen D7 und D3.

Aufgrund des Satzes über die Invertierbarkeit der Elementarmatrizen (Seite 49)
266 Das Signum von Permutationen 5.2.1

−1
ist Pi−1 = Pi für i = 1, . . . , r, und τi : = Φ (Pi ) ∈ Sn stellt jeweils die entspre-
chende Transposition dar. Durch wiederholte Anwendung von (1.38) folgt also
−1 −1
σ = Φ (Pr−1 · · · P1−1 ) = Φ (Pr · · · P1 ) = τr ◦ . . . ◦ τ1 . Der Signumproduktsatz (Sei-
te 265) und der Satz über das Signum von Transpositionen (Seite 264) ergeben

damit sgn (σ) = sgn (τr ) · · · sgn (τ1 ) = (−1)r = D Φ(σ) .

Dieses ist die letzte Eigenschaft, die wir unter der Annahme hergeleitet haben,
dass es wenigstens eine Determinantenfunktion gibt und dass D eine solche ist:

D12 (Darstellung für Permutationsmatrizen)


D(~eσ(1) . . . ~eσ(n) ) = sgn (σ) für jedes σ ∈ Sn .

Zusammen mit D11 ist nun D durch die Elemente der Matrizen A ∈ Kn×n
eindeutig festgelegt, das heißt, höchstens diese spezielle Abbildung kann eine
Determinantenfunktion sein. Im nächsten Unterabschnitt beweisen wir, dass sie
tatsächlich die Eigenschaften D1, D2 und D3 besitzt. Für den folgenden Satz,
den wir bei dem Nachweis von D1 verwenden werden, benötigen wir noch den
−1 
Zusammenhang von sgn σ und sgn (σ) für jedes σ ∈ Sn .
−1 −1 
Mit id = σ ◦ σ ergibt der Signumproduktsatz (Seite 265) 1 = sgn (id) = sgn σ ·
−1  −1
sgn (σ). Daraus erhalten wir sgn σ = sgn (σ) . Wegen sgn (σ) ∈ {1, −1}
folgt
−1 
(5.1) sgn σ = sgn (σ) für jedes σ ∈ Sn .

Satz über die Zerlegung der symmetrischen Gruppe


Ist An : = {σ ∈ Sn | sgn (σ) = 1} und wird für beliebiges τ ∈ Sn \ An
die Menge An τ : = {σ ∈ Sn | Es gibt ein % ∈ An , das σ = % ◦ τ erfüllt}
definiert, so gilt An ∩ An τ = ∅, An ∪ An τ = Sn , und die Abbildung An →
An τ, % 7→ % ◦ τ ist bijektiv.

Beweis (r1):

Wir zeigen zunächst, dass An τ wie Sn \ An genau aus den Permutationen σ ∈ Sn


−1
mit sgn (σ) = −1 besteht. Ist σ eine solche Permutation, so liegt σ ◦ τ aufgrund
5.2.2 Die Leibnizsche Formel 267

des Signumproduktsatzes (Seite 265) und wegen (5.1) in An . Also gehört σ =


−1 
σ ◦ τ ◦ σ zu An τ. Umgekehrt existiert zu jedem σ ∈ An τ ein % ∈ An mit
σ = % ◦ τ, sodass der Signumproduktsatz sgn (σ) = sgn (%) sgn (τ ) = −1 ergibt.

Damit sind einerseits An und An τ disjunkte Teilmengen von Sn , und anderer-


seits folgt aus Sn \ An = An τ, dass An ∪ An τ = Sn gilt. Die Surjektivität der
angegebenen Abbildung ergibt sich unmittelbar aus der Definition von An τ, und
die Injektivität erhalten wir wegen der Umkehrbarkeit von τ, indem wir von
−1 −1
% ◦ τ = % 0 ◦ τ auf % = % ◦ τ ◦ τ = % 0 ◦ τ ◦ τ = % 0 schließen.

Bei der Herleitung von D12 haben wir festgestellt, dass die Anzahl der Trans-
positionen, die nacheinander ausgeführt eine Permutation mit positivem Signum
ergeben, stets gerade ist. Deshalb heißen die Elemente von An gerade Permuta-
tionen und diejenigen von Sn \ An entsprechend ungerade Permutationen. Da die
Hintereinanderausführung von Permutationen aus An wieder in An liegt, stellt
−1
An mit der Verknüpfung ◦, dem neutralen Element id und der Inversenbildung 
von Sn eine Gruppe dar, die alternierende Gruppe der Menge In genannt wird.

5.2.2 Die Leibnizsche Formel

Mit dem folgenden Satz beenden wir den “Rundgang” über Eigenschaften von
Determinantenfunktionen, indem wir zeigen, dass die nach D11 und D12 einzig
mögliche Abbildung, die im Prinzip auf G. W. Leibniz (1678) zurückgeht, die
Bedingungen D1, D2 und D3 erfüllt.

Determinantensatz
Ist K ein Körper und n ∈ N1 , so stellt
 
a11 . . . a1n
det : Kn×n → K,  ... ..  7→
P
sgn (σ) aσ(1)1 · · · aσ(n)n

. 
σ∈Sn
an1 . . . ann

die einzige Determinantenfunktion in Kn×n dar.

Die Bilder dieser Abbildung werden Determinanten genannt und mit det A für
jedes A ∈ Kn×n bezeichnet.
268 Die Leibnizsche Formel 5.2.2

Beweis (a1):

Zur Abkürzung sei ~aj : = t(a1j . . . anj ) für j ∈ In .

D1: Sind i, k ∈ In mit i 6= k, so gilt

det(~a1 . . . ~ai + ~ak . . . ~ak . . . ~an )


P
= sgn (σ)~aσ(1)1 · · · (~aσ(i)i + ~aσ(i)k ) · · · ~aσ(k)k · · · ~aσ(n)n
σ∈Sn
P
= sgn (σ)~aσ(1)1 · · · ~aσ(i)i · · · ~aσ(k)k · · · ~aσ(n)n +
σ∈Sn
P
sgn (σ)~aσ(1)1 · · · ~aσ(i)k · · · ~aσ(k)k · · · ~aσ(n)n .
σ∈Sn

Da die erste Summe bereits det(~a1 . . . ~ai . . . ~ak . . . ~an ) darstellt, müssen wir nur
noch zeigen, dass die zweite Summe verschwindet. Ist τ die Transposition, die i
und k vertauscht, so lässt sich aufgrund des Satzes über die Zerlegung der symme-
trischen Gruppe (Seite 266) die Summation nacheinander über die Permutatio-
nen aus An und dann aus An τ erstrecken. Wegen der Bijektivität der Abbildung
An → An τ, % 7→ % ◦ τ, kann auch im zweiten Teil über % ∈ An summiert werden,
wobei in den Summanden der Laufparameter durch % ◦ τ beziehungsweise der

jeweilige Index durch % τ (j) für j = 1, . . . , n zu ersetzen ist.
P
sgn (σ)~aσ(1)1 · · · ~aσ(i)k · · · ~aσ(k)k · · · ~aσ(n)n
σ∈Sn
P
= sgn (%)~a%(1)1 · · · ~a%(i)k · · · ~a%(k)k · · · ~a%(n)n +
%∈An
P
sgn (% ◦ τ )~a%(τ (1))1 · · · ~a%(τ (i))k · · · ~a%(τ (k))k · · · ~a%(τ (n))n
%∈An
P
= (+1)~a%(1)1 · · · ~a%(i)k · · · ~a%(k)k · · · ~a%(n)n +
%∈An
P
(−1)~a%(1)1 · · · ~a%(k)k · · · ~a%(i)k · · · ~a%(n)n = 0.
%∈An

D2: Für jedes i ∈ In und alle c ∈ K gilt


P
det(~a1 . . . c~ai . . . ~an ) = sgn (σ)~aσ(1)1 · · · c~aσ(i)i · · · ~aσ(n)n =
σ∈Sn
P
c sgn (σ)~aσ(1)1 · · · ~aσ(i)i · · · ~aσ(n)n = c det(~a1 . . . ~ai . . . ~an ).
σ∈Sn

D3: Da nur das Produkt der Diagonalelemente von En nicht verschwindet, ergibt
sich det En = sgn (id)1 · · · 1 = 1.
5.2.2 Die Leibnizsche Formel 269

Dieser etwas längere Weg zur Determinante hat den Vorteil, dass die Leibnizsche
Formel vollständig motiviert ist und dass die Eigenschaften D4 bis D12 nun für
die weitere Untersuchung von Determinanten zur Verfügung stehen. Zunächst ist
klar, dass die Determinante wegen der Summandenzahl n! nur für kleine n auf
diese Weise berechnet werden kann.

Für n ≤ 3 erhalten wir


 
  a11 a12 a13
a11 a12
det (a11 ) = a11 , det = a11 a22 − a21 a12 und det a21 a22 a23  =
a21 a22
a31 a32 a33
a11 a22 a33 − a11 a32 a23 − a21 a12 a33 + a21 a32 a13 + a31 a12 a23 − a31 a22 a13 .

Im Falle n = 3 lässt sich die Formel [ a31 a32 a33 ]


mit der Regel von Sarrus merken. Man  
a11 a12 a13
denkt sich die erste Zeile noch einmal 
 

unter die Matrix und die letzte Zeile a21 a22 a23
über die Matrix geschrieben. Die Pro- 
 

a31 a32 a33
dukte “parallel zur Hauptdiagonalen”  
haben das Signum 1, die übrigen −1. [ a11 a12 a13 ]

Bevor wir bessere Berechnungsmöglichkeiten herleiten, zeigen wir noch, dass


Spalten- und Zeilenvektoren bei Determinanten gleichberechtigt sind.

Satz über die Determinante der Transponierten


Für jedes A ∈ Kn×n gilt det tA = detA.

Beweis (r1):

Da jedes σ ∈ Sn eine bijektive Abbildung mit eindeutig bestimmter Inversenabbil-


−1 −1
dung % : = σ darstellt, gilt σ(i) = j mit i, j ∈ In genau dann, wenn %(j) = σ (j) =
i ist. Daraus und mit (5.1) folgt sgn (σ)a1σ(1) · · · anσ(n) = sgn(%)a%(1)1 · · · a%(n)n ,
weil sich nur die Reihenfolge der Faktoren ändert. Da mit σ auch % alle Permu-
tationen von Sn durchläuft, erhalten wir
P
det tA = sgn (σ)a1σ(1) · · · anσ(n)
σ∈Sn
P
= sgn (%)a%(1)1 · · · a%(n)n = detA.
%∈Sn
270 Weitere Berechnungsmöglichkeiten 5.2.3

5.2.3 Weitere Berechnungsmöglichkeiten

Wegen der Produktdarstellungen, die wir bisher für Matrizen gewonnen haben,
hilft der folgende wichtige Satz oft bei der Vereinfachung von Determinantenbe-
rechnungen.

Determinantenproduktsatz
Für alle Matrizen B, C ∈ Kn×n gilt det (BC) = (det B)(det C).

Beweis (r1):

Beachten wir, dass in D9 auf der linken Seite der Gleichung die Matrix
 
n n c 11 . . . c 1n
ckn~bk = ~b1 . . . ~bn  ... .. 
X X 
ck1~bk . . .

. 
k=1 k=1 cn1 . . . cnn

steht, so ist wegen D11 und D12 der Satz bereits für B : = ~b1 . . . ~bn ∈ Kn×n

 
c11 . . . c1n
und für C : =  ... ..  ∈ Kn×n bewiesen.

. 
cn1 . . . cnn

Besonders wirkungsvoll ist dieser Satz, wenn wir ihn auf die US -Zerlegung von
PA anwenden, weil wir die Determinante der Dreiecksmatrizen U und S sehr
einfach mit Hilfe des folgenden Satzes berechnen können. Als Nebenergebnis er-
halten wir damit, dass die Anzahl der Multiplikationen und Divisionen, die zur
Berechnung einer Determinante benötigt werden, dieselbe Größenordnung 13 n3 ηn
wie der Eliminationsalgorithmus bei einem n × n -System hat.

Satz über die Determinante von Dreiecksmatrizen


Ist B ∈ Kn×n eine obere oder untere Dreiecksmatrix mit den Diagonalele-
menten b11 , . . . , bnn , so gilt
det B = b11 · · · bnn .
5.2.3 Weitere Berechnungsmöglichkeiten 271

Hat A ∈ Kn×n aufgrund des Zerlegungssatzes (Seite 59) die Darstellung


A = P −1 U S, so folgt
det A = (−1)r s11 · · · snn ,
wobei r die Anzahl der Zeilenvertauschungen während des Eliminationsalgo-
rithmus bezeichnet und s11 , . . . , snn die Diagonalelemente von S sind.

Beweis (r1):
−1
Ist σ ∈ S \ {id} und wird i : = min{j ∈ In | σ(j) 6= j} und k : = σ (i) gesetzt,
so gilt σ(i) > i wegen j = σ(j) für j < i sowie σ(i) 6= i, und σ(k) = i < k
folgt aus dem gleichen Grunde. Bei Dreiecksmatrizen verschwinden damit in der
Leibnizschen Formel alle Summanden, die zu Permutationen σ 6= id gehören, weil
sie mindestens einen Faktor 0 enthalten. Also bleibt nur der Summand zu σ = id,
sodass sich detB = b11 · · · bnn ergibt.

Aus A = P −1 U S folgt aufgrund des Determinantenproduktsatzes (Seite 270) und


wegen des eben hergeleiteten Ergebnisses über Dreiecksmatrizen, dass det A =
det (P −1 ) · s11 · · · snn gilt. Nach Unterabschnitt 1.5.5 ist P und damit auch P −1
Produkt von r Vertauschungsmatrizen, deren Determinante wegen D7 jeweils
den Wert −1 hat. Also ergibt sich detA = (−1)r s11 · · · snn wieder mit Hilfe des
Determinantenproduktsatzes.

Eine Produktformel erhalten wir auch für die Determinante von “Blockdreiecks-
matrizen” mit Blockmatrizen auf der Hauptdiagonalen.

Satz über die Determinante von Blockdreiecksmatrizen


 
A1 B
Ist A ∈ K(m+n)×(m+n) eine Matrix der Form A = : mit A1 ∈
0 A2
Km×m , A2 ∈ Kn×n und B ∈ Km×n , so gilt
det A = (det A1 )(det A2 ).

Beweis (a1):

Aufgrund des Zerlegungssatzes (Seite 59) besitzen die Matrizen A1 und A2 eine
Darstellung Ai = Pi−1 Ui Si , i = 1, 2, mit P1 , U1 , S1 ∈ Km×m und P2 , U2 , S2 ∈
272 Weitere Berechnungsmöglichkeiten 5.2.3

Kn×n . Dabei sind die Pi−1 Produkte von ri Vertauschungsmatrizen, die Ui nor-
mierte untere Dreiecksmatrizen und die Si obere Dreiecksmatrizen. Die Matrix
 −1
S1 B 0
  
P1 0 U1 0
A besitzt dann die Produktdarstellung A = .
0 P2−1 0 U2 0 S2
 −1   
P1 0 U1 0
Hier ist das Produkt von r1 +r2 Vertauschungsmatrizen,
0 P2−1 0 U2
S1 B 0
 
ist eine normierte untere Dreiecksmatrix, und stellt eine obere Drei-
0 S2
ecksmatrix mit B 0 : = U1−1 P1 B dar.

Der Satz über die Determinante von Dreiecksmatrizen (Seite 270) ergibt damit
einerseits det Ai = (−1)ri det Si für i = 1, 2 und andererseits det A = (−1)r1 +r2
(det S1 ) · (det S2 ), sodass det A = (det A1 )(det A2 ) folgt.

Übung 5.2.a
Zeigen Sie, dass det An = n! gilt, wenn An = (aik ) die n × n -Matrix mit


 1 für i = k,

−1 für i = k + 1,
aik : =


 i2 für i = k − 1,

0 sonst,
darstellt.
Übung 5.2.b

0 für i = k,
Es sei (aik ) die n × n - Matrix mit aik : = Berechnen Sie
1 sonst.
det (aik ).
Übung 5.2.c 
2
 für i = k,
Es sei An : = (aik ) die n × n - Matrix mit aik : = −1 für |i − k| = 1,

0 sonst.

Berechnen Sie det An mit Hilfe der US -Zerlegung von An .


Übung 5.2.d
n
Es seien x1 , . . . , xn ∈ K und A : = (aik ) ∈ Kn×n mit aik : = xi+k−2
P
j .
j=1

Beweisen Sie, dass det A 6= 0 genau dann gilt, wenn xi 6= xj für alle i, j ∈ In
mit i 6= j erfüllt ist. [Hinweis: Stellen Sie A mit Hilfe der Vandermonde-
Matrix Vn (Seite 72) dar, und verwenden Sie die UDO -Zerlegung von Vn ,
um det Vn zu berechnen.]
5.2.3 Weitere Berechnungsmöglichkeiten 273

Übung 5.2.e
Es seien c ∈ K, ~a, ~b ∈ Kn×1 und A : = En + ~a t~b. Berechnen Sie det A und
c t~b
 
det [Hinweis: Berechnen Sie zuerst die zweite Determinante.]
~a A
Neben der expliziten Einführung der Determinanten mit Hilfe der Leibnizschen
Formel gibt es noch ein rekursives Verfahren, bei dem die Determinante einer
n-reihigen Matrix A als Linearkombination von Determinanten (n − 1)- reihiger
Matrizen mit Elementen von A als Koeffizienten dargestellt wird. Die (n − 1)-
reihigen Matrizen entstehen dabei alle aus A durch Streichen jeweils eines Zei-
lenvektors und eines Spaltenvektors.

Definition der Streichungsmatrizen


Mit A∗ik : = t(~e1 . . . ~ei−1 ~ei+1 . . . ~en ) A (~e1 . . . ~ek−1 ~ek+1 . . . ~en ) ∈ K(n−1)×(n−1) für
i, k ∈ In wird diejenige Streichungsmatrix von A ∈ Kn×n bezeichnet, in der die
Elemente des i-ten Zeilenvektors und des k-ten Spaltenvektors von A fehlen.

Satz über die Determinantenentwicklung (Entwicklungssatz von


Laplace)
 
a11 . . . a1n
Ist A : =  ... ..  ∈ Kn×n , so gilt

. 
an1 . . . ann
n
X
det A = (−1)i+k aik det A∗ik (“Entwicklung nach der i-ten Zeile”) und
k=1
Xn
det A = (−1)i+k aik det A∗ik (“Entwicklung nach der k-ten Spalte”).
i=1

Beweis (r2):

Zur Abkürzung setzen wir ~ai : = t(a1i . . . ani ) und t~b : = (ai1 . . . ai,k−1 ai,k+1 . . . ain )
für i, k ∈ In . Der Satz über Blockdreiecksmatrizen (Seite 271) sowie D7 - zuerst
auf Zeilenvektoren und dann auf Spaltenvektoren angewandt - ergibt
1 t~b
 
∗ D7
det Aik = det ~ ∗ = (−1)i−1 det (~ei ~a1 . . . ~ak−1~ak+1 . . . ~an )
0 Aik
274 Weitere Berechnungsmöglichkeiten 5.2.3

D7
= (−1)i−1+k−1 det (~a1 . . . ~ak−1 ~ei ~ak+1 . . . ~an ), also

(5.2) det A∗ik = (−1)i+k det (~a1 . . . ~ak−1 ~ei ~ak+1 . . . ~an ).

Damit folgt
n
X n
X
i+k ∗
(−1) aik det Aik = det (~a1 . . . ~ak−1 ~ei ~ak+1 . . . ~an )
i=1 i=1
D2  n
X
D8
= det ~a1 . . . ~ak−1 aik~ei ~ak+1 . . . ~an )
i=1
= det (~a1 . . . ~ak−1 ~ak ~ak+1 . . . ~an ) = det A.

Die Entwicklung nach einer Zeile lässt sich analog oder durch Transponieren von
A und A∗ik herleiten.
Bei der Berechnung von Determinanten benutzt man diesen Satz vor allem, wenn
die Zeile oder Spalte, nach der entwickelt wird, höchstens zwei von Null verschie-
dene Elemente enthält. In Übung 5.2.h ist noch ein anderes rekursives Verfahren
zu finden, bei dem sich die Determinante einer n- reihigen Matrix als Produkt
einer Elementpotenz mit der Determinante einer (n − 1)- reihigen Matrix ergibt,
deren Elemente Determinanten von zweireihigen Untermatrizen sind.

Übung 5.2.f
P n n  n
ai~ei t~ei + bj ~e1 t~ej + cj ~ej t~e1 =
P Q
Zeigen Sie, dass Dn : = det ai −
i=1 j=2 i=1
Pn  n
Q 
bj c j ai gilt. [Hinweis: Leiten Sie zunächst eine Rekursionsformel für
j=2 i=2
i6=j
Dn her.]
Übung 5.2.g
  i+k 
Es sei (aik ) ∈ Kn×n mit aik : = a + i + k − 1 − n n+2 d, wobei [x] : =
max{g ∈ Z | g ≤ x} für x ∈ R die Gauß-Klammer darstellt. Berechnen Sie
det (aik ).
Übung 5.2.h
Es sei A = (aik ) ∈ Kn×n \ {(0)}. Sind p, q ∈ In Indizes, für die apq 6= 0 gilt,
so sei B die Matrix der Determinanten aller zweireihigen Untermatrizen von
A, die apq enthalten und die in natürlicher (“lexikographischer”) Reihenfolge
gebildet werden. Drücken Sie det B durch apq und det A aus.
5.3 Anwendungen von Determinanten 275

Achtung: Fundgrube! [Ist Ah eine h-reihige quadratische Untermatrix


k
von A und A|Ah für 1 ≤ h < k < n die n−h

k−h
- reihige quadratische Matrix
der Determinanten aller k- reihigen Untermatrizen von A, die Ah enthal-
ten und die in lexikographischer Reihenfolge zu bilden sind, so kann ein
 k 
Zusammenhang zwischen det A|Ah , det A und det Ah gefunden werden.]

5.3 Anwendungen von Determinanten

5.3.1 Die Adjunkte und die Cramersche Regel

Wir ordnen zunächst jeder Matrix A ∈ Kn×n eine n×n-Matrix zu, deren Elemen-
te die mit wechselndem Vorzeichen versehenen Determinanten aller Streichungs-
matrizen von A sind. Diese Zuordnung wird überraschend viele Anwendungen in
diesem Abschnitt und im nächsten Kapitel ermöglichen.

Definition der Adjunkten


Ist A ∈ Kn×n , so heißt die Matrix
Xn Xn
α
A := (−1)i+k (det A∗k i ) ~ei t~ek ∈ Kn×n
i=1 k=1

Adjunkte von A. Sie wird auch mit adj (A) bezeichnet.

Adjunktenproduktsatz
Für jedes A ∈ Kn×n gilt
α
(5.3) AA = AαA = (det A) En .
Ist A ∈ GL(n; K), so folgt insbesondere det1 A αA = A−1 .

Beweis (r2):
Sind aik und pik mit i, k ∈ In die Elemente von A = : (~a1 . . . ~an ) beziehungsweise
von αAA, so folgt mit Hilfe des Satzes über die Determinantenentwicklung (Seite
n
273) pkk = (−1)i+k (det A∗ik ) aik = det A für k = 1, . . . , n. Im Falle j, k ∈ In mit
P
i=1
j 6= k ergibt sich
276 Die Adjunkte und die Cramersche Regel 5.3.1

n n
X (5.2) X
pjk = (−1) i+j
(det A∗ij )aik = aik det (~a1 . . . ~aj−1 ~ei ~aj+1 . . . ~an )
i=1 i=1
D2  n 
D6
D8
X
= det ~a1 . . . ~aj−1 aik~ei ~aj+1 . . . ~an = det (~a1 . . . ~aj−1 ~ak ~aj+1 . . . ~an ) = 0.
i=1

Damit haben wir αAA = (det A)En .


Das zweite Produkt erhalten wir aufgrund des Satzes über die Determinante der
Transponierten (Seite 269) und wegen t(αA) = α(tA) am einfachsten durch Trans-
ponieren der eben gewonnenen Gleichung: (det tA)En = (det A)tEn = t(αAA) =
t t α
A ( A) = tA α(tA). Da tA jede Matrix aus Kn×n darstellen kann, ist auch dieses
Ergebnis allgemeingültig.

Für A ∈ GL(n; K) gilt det A 6= 0 wegen D10. Damit folgt det1 A αA = A−1 durch
Multiplikation der Gleichung αAA = (det A)En von rechts mit det1 A A−1 .

Am Schluss des nächsten Unterabschnitts werden wir einen Algorithmus herlei-


ten, der mit n4 ηn Operationen unter anderem αA und det A gleichzeitig ergibt,
wobei A ∈ Kn×n auch Parameter enthalten kann. Damit hat die obige Darstellung
von A−1 nicht nur theoretische Bedeutung. Für eine invertierbare 2 × 2- Matrix
 −1  
a b 1 d −b
lässt sich die Formel = noch direkt nachprüfen.
c d ad − bc −c a

Das folgende Ergebnis, das die Komponenten der Lösung eines quadratischen
Gleichungssystems mit invertierbarer Koeffizientenmatrix “elegant” als Quotien-
ten von Determinanten darstellt, spielt heute in der Praxis für n > 2 wegen der
relativ großen Operationenanzahl keine Rolle mehr.

Satz über die Determinantenlösung (Cramersche Regel )


Ist ~x = : t(x1 . . . xn ) die eindeutig bestimmte Lösung des Gleichungssystems
A~x = ~b mit A = : (~a1 . . . ~an ) ∈ GL(n; K) und ~b ∈ Kn×1 , so gilt
xk = det1 A det (~a1 . . . ~ak−1 ~b ~ak+1 . . . ~an ) für k = 1, . . . , n.

Beweis (r1):
Aus ~x = A−1~b mit ~b = : t(b1 . . . bn ) ergibt sich aufgrund des Adjunktenprodukt-
satzes (Seite 275)
5.3.2 Das charakteristische Polynom und die Busadjunkte 277

n
1 t α ~ 1
X
xk = ( ~e A)b
det A k
= det A
(−1)i+k (det A∗ik )bi
i=1
n
(5.2)
= det1 A
X
bi det (~a1 . . . ~ak−1 ~ei ~ak+1 . . . ~an )
i=1
D2  n 
1
D8
X
= det A
det ~a1 . . . ~ak−1 bi~ei ~ak+1 . . . ~an
i=1
1
= det A
det (~a1 . . . ~ak−1 ~b ~ak+1 . . . ~an ) für jedes k ∈ In .

Übung 5.3.a
c t~b
 
Zeigen Sie, dass det = c det A − t~a (αtA)~b für alle c ∈ K, ~a, ~b ∈ Kn×1
~a A
und A ∈ Kn×n gilt.
Übung 5.3.b
Es sei K ein Körper mit x+x 6= 0 für alle x ∈ K\{0}. Eine Matrix A ∈ Kn×n
heißt schiefsymmetrisch genau dann, wenn tA = −A gilt. Beweisen Sie für
schiefsymmetrische Matrizen A, dass det A in K stets ein Quadrat darstellt
und dass det A = 0 gilt, wenn n ungerade ist. [Hinweis: Zeigen Sie zunächst,
dass
E2 −S −1 B
     
E2 0 S B S 0
=
BS −1 En−2
t
−tB C 0 En−2 0 C + tBS −1 B
 
0 a
für S : = mit a 6= 0 und B ∈ K2×(n−2) sowie C ∈ K(n−2)×(n−2)
−a 0
mit n ≥ 3 gilt.]
Übung 5.3.c
Berechnen Sie (det Fn )2 für die Fourier-Matrizen Fn : = (fjk ) ∈ Cn×n mit
und un : = cos πn + i sin πn . [Hinweis: Beachten Sie Übung
2(j−1)(k−1)
fjk : = un
5.2.d und 0 = (u2n − 1)(1 + u2n + · · · + un2n−2 ).]
Achtung: Fundgrube! [Bestimmung von det Fn durch Aufspalten von

u2k 2j
Q
n − un in einen positiven, reellen Faktor und eine i- Potenz.]
0≤j<k≤n−1

5.3.2 Das charakteristische Polynom und die Busadjunkte

Im nächsten Kapitel werden zwei Polynome eine wichtige Rolle spielen, die zu
Matrizen tE − A ∈ Kn×n für variables t ∈ K zu bilden sind, wobei hier und
278 Das charakteristische Polynom und die Busadjunkte 5.3.2

im Folgenden E für En steht. Aufgrund des Determinantensatzes (Seite 267) ist



χA : = t → det (tE −A), t ∈ K ein Polynom vom Grad n, das charakteristisches
Polynom von A heißt. Werden die Produkte in der Leibnizschen Formel des
Determinantensatzes ausmultipliziert, so kommt tn nur in dem Summanden für
σ = id vor. Damit erhalten wir

(5.4) χA (t) = det (tE − A) = : tn + a1 tn−1 + · · · + an für alle t ∈ K.

Da αA aus Determinanten von (n − 1)- reihigen Matrizen besteht, hat jedes Ele-
ment von α(tE − A) als Polynom in t den maximalen Grad n − 1. Wird dann
α
(tE − A) durch Summenbildung so aufgespalten, dass sich die t- Potenzen her-
ausziehen lassen, so gehört zu tn−k für k = 1, . . . , n eine “Koeffizientenmatrix”
Hk−1 ∈ Kn×n . Damit stellt
β
A : = t → α(tE − A), t ∈ K


ein Matrixpolynom dar, das wir Busadjunkte von A nennen und das

β
(5.5) A(t) = α(tE − A) = : H0 tn−1 + · · · + Hn−1 für alle t ∈ K

mit Matrizen Hk−1 ∈ Kn×n , k ∈ In , erfüllt. Diese Matrizen wollen wir im Folgen-
den zusammen mit den Koeffizienten ak des charakteristischen Polynoms durch
einen effizienten Algorithmus bestimmen. Für t = 0 ergeben (5.4), (5.5) und D2
dann auch

(5.6) det A = (−1)n an und αA = (−1)n−1 Hn−1 .

Mit den aus (5.3) folgenden Identitäten


β
(5.7) A(t)(tE − A) = (tE − A)βA(t) = χA (t)E für alle t ∈ K

erhalten wir bereits einen Zusammenhang zwischen βA und χA . Durch Einsetzen


von (5.4) und (5.5) in die letzte Gleichung von (5.7) und durch Ausmultiplizieren
folgt
n−1
X n−1
X
n n−k n
(5.8) H0 t + (Hk − AHk−1 )t − AHn−1 = Et + ak Etn−k + an E.
k=1 k=1

Um die Koeffizientenmatrizen elementweise vergleichen zu können, übertragen


wir den Koeffizientenvergleichssatz (Seite 75) auf Körper K. Der Beweis verläuft
analog, wenn “Zahlen” durch “Körperelemente” ersetzt wird und wenn beliebig
viele Stützstellen zur Verfügung stehen.
5.3.2 Das charakteristische Polynom und die Busadjunkte 279

Polynomvergleichssatz
Es sei K ein Körper mit unendlich vielen Elementen, und es seien P (x) =
bn xn + · · · + b0 und Q(x) = cn xn + · · · + c0 Polynome mit bi , ci ∈ K für
i = 0, . . . , n. Stimmen die Werte von P (x) und Q(x) für mindestens n + 1
verschiedene Elemente x aus K überein, so gilt bi = ci für i = 0, . . . , n, und
es folgt, dass P (x) = Q(x) für alle x ∈ K erfüllt ist.

Da dieser Satz auch im nächsten Kapitel mehrfach gebraucht wird, vereinbaren


wir für das Folgende, dass alle auftretenden Körper K nicht endlich sind
und dass n · 1 6= 0 für die ausgezeichneten Elemente 0, 1 ∈ K und für alle n ∈ N1
gilt. Vergleichen wir nun die Koeffizienten in (5.8) elementweise und fassen wir
das Ergebnis wieder zu Matrizen zusammen, so erhalten wir

(5.9) H0 = E, Hk − AHk−1 = ak E für k = 1, . . . , n − 1 und −AHn−1 = an E.

Werden die Matrizen der k-ten Gleichung für k = 0, . . . , n von links mit An−k
multipliziert und dann aufsummiert, so heben sich auf der linken Seite alle Ma-
trizen weg, und es bleibt die Gleichung
(5.10) An + a1 An−1 + · · · + an E = (0) ∈ Kn×n ,
die als Satz von Cayley-Hamilton bekannt geworden ist.

Um die Matrizen Hk mit Hilfe von (5.9) rekursiv berechnen zu können, muss noch
ak für k = 1, . . . , n in Abhängigkeit von A und H1 , . . . , Hk−1 bestimmt werden.
Der folgende Satz über die Spur der Busadjunkten ergibt diesen Zusammenhang
recht einfach. Wir benötigen zur Formulierung und zur Herleitung die formale
Ableitung von Polynomfunktionen.

Definition der formalen Ableitung von Polynomfunktionen


 n 
bk xk , x ∈ K ein Polynom mit bk ∈ K
P
Ist K ein Körper und P : = x →
k=0
 n−1 
für k = 0, . . . , n, so heißt P 0 : = x → (k + 1) bk+1 xk , x ∈ K formale
P
k=0
Ableitung von P.

 m 
ck xk , x ∈ K erhalten wir als
P
Für zwei Polynome P und Q : = x →
k=0
280 Das charakteristische Polynom und die Busadjunkte 5.3.2

Spezialfälle der Summe und des Produktes von Funktionen mit Hilfe des Poly-
nomvergleichssatzes (Seite 279)
 max{m,n} 
X
(5.11) P + Q := x → (bk + ck )xk , x ∈ K
k=0
 m+n
X Xk  
k
(5.12) PQ := x → bi ck−i x , x ∈ K
k=0 i=0

wobei bk : = 0 für k > n und ck : = 0 für k > m gesetzt wird. Damit lassen sich die
“Summenregel” (P + Q) 0 = P 0 + Q 0 und die “Produktregel” (P Q) 0 = P 0 Q + P Q 0 ,
die wir im Beweis verwenden werden, durch Ausrechnen gewinnen.

Übung 5.3.d

Es seien fi : R → R, i = 1, . . . , n, n- mal differenzierbare Funktionen, die


(n) (0) (n−1)
einer “Differentialgleichung” fi (x) = a0 fi (x) + · · · + an−1 fi (x) mit
(0)
aj ∈ R für j = 0, . . . , n − 1 und mit fi (x) : = fi (x) genügen.
i) Zeigen Sie, dass die Wronski-Determinante w(x) : = det A(x) mit
(k−1) 
A(x) : = fi (x) ∈ Rn×n für jedes x ∈ R differenzierbar ist.
ii) Drücken Sie w 0 (x) durch a0 , . . . , an−1 und w(x) aus.
iii) Beweisen Sie, dass w(x) = 0 für alle x ∈ R genau dann gilt, wenn es ein
x0 ∈ R mit w(x0 ) = 0 gibt.

Satz über die Busadjunktenspur


Ist A ∈ Kn×n , so gilt Sp βA(t) = χA0 (t) für alle t ∈ K.


Beweis (a1): 
t − ajj für i = j,
Für die Elemente von tE − A schreiben wir fij (t) : = Damit
−aij für i 6= j.
gilt f ij0 (t) = δij für alle i, j ∈ In und jedes t ∈ K. Außerdem setzen wir zur
Abkürzung pσ : = fσ(1)1 (t) · · · fσ(n)n (t) für jedes σ ∈ Sn und
 
f11 (t) . . . f1,j−1 (t) δ1j f1,j+1 (t) . . . f1n (t)
Aj (t) : =  ... .. .. .. ..  für j = 1, . . . , n.

. . . . 
fn1 (t) . . . fn,j−1 (t) δnj fn,j+1 (t) . . . fnn (t)

Der Determinantensatz (Seite 267) ergibt mit der Summen- und Produktregel
5.3.2 Das charakteristische Polynom und die Busadjunkte 281

P P n
X n
Y 
χA0 (t) = sgn(σ)pσ0 (t) = sgn(σ) 0
f σ(j)j (t) fσ(i)i (t)
σ∈Sn σ∈Sn j=1 i=1
i6=j
n  P
X n
Y  n
X
= sgn(σ)δσ(j)j fσ(i)i (t) = det Aj (t).
j=1 σ∈Sn i=1 j=1
i6=j

Entwickeln wir nun die n Determinanten det Aj (t) jeweils nach der j -ten Spalte
∗
und beachten, dass Aj (t) jj = (tE − A)∗jj für j = 1, . . . , n und für jedes t ∈ K
n n P
n ∗ n ∗
(−1)i+j δij det Aj (t) ij =
P P P
gilt, so folgt det Aj (t) = det Aj (t) jj =
j=1 j=1 i=1 j=1
n
det (tE − A)∗jj = Sp βA(t) .
P 
j=1

In die gewonnene Gleichung χA0 (t) = Sp βA(t) setzen wir (5.4) und (5.5) ein.


Wegen Sp(A + B) = Sp(A) + Sp(B) für alle A, B ∈ Kn×n erhalten wir dann
ntn−1 + (n − 1)a1 tn−2 + · · · + an−1 = Sp(H0 )tn−1 + Sp(H1 )tn−2 + · · · + Sp(Hn−1 )
für jedes t ∈ K.

Der Polynomvergleichssatz (Seite 279) und (5.9) ergeben (n − k)ak = Sp(Hk ) und
Sp(Hk ) = Sp(AHk−1 ) + Sp(ak E) = Sp(AHk−1 ) + nak für k = 1, . . . , n − 1. Durch
Auflösen nach ak folgt schließlich die Darstellung
1
(5.13) ak = − Sp(AHk−1 ) für k = 1, . . . , n,
k
wobei der Fall k = n wegen der letzten Gleichung in (5.9) gilt.

Damit haben wir den folgenden nützlichen Satz gewonnen, der in den Jahren 1948
und 1949 unabhängig voneinander durch D. K. Faddejew [4], J. S. Frame und
J. M. Souriau entdeckt wurde.

Adjunktensatz
Werden für A ∈ Kn×n die Matrizen Hk−1 ∈ Kn×n und die Koeffizienten
ak ∈ K für k = 1, . . . , n rekursiv durch
H0 : = E, ak : = − k1 Sp(AHk−1 ) und Hk : = AHk−1 + ak E

bestimmt, so gilt
282 Beispiel zum Adjunktensatz 5.3.3

(5.4) χA (t) = tn + a1 tn−1 + · · · + an und


β
(5.5) A(t) = Etn−1 + H1 tn−2 + · · · + Hn−1 für alle t ∈ K.

Der Aufwand dieses Adjunkten-Algorithmus ist leicht zu berechnen: Für die n − 2


Matrizenprodukte AHk−1 , k = 2, . . . , n − 1, werden n4 ηn Multiplikationen und
ebensoviele Additionen benötigt. Weitere Multiplikationen treten nicht auf, und
die Anzahl der übrigen Additionen ist n2 ηn . Im Unterschied zu den Quotienten
bei dem Eliminationsalgorithmus (Seite 20) sind die n − 1 Ganzzahldivisionen
zur Berechnung der Koeffizienten ak völlig unkritisch.

Die damit vorliegende numerische Stabilität ist der wichtigste Vorteil dieses Al-
gorithmus. Deshalb wird in manchen Situationen wegen (5.6) auch die Determi-
nante in der Form det A = (−1)n an und aufgrund des Adjunktenproduktsatzes
(Seite 275) die Inverse durch A−1 = − a1 Hn−1 bestimmt, insbesondere wenn
n
A Parameter oder Funktionssymbole (zum Beispiel Wurzeln) enthält, die eine
Pivotisierung (siehe Unterabschnitt 1.5.5) ausschließen. Dadurch eignet sich der
Adjunkten-Algorithmus insbesondere gut für Computeralgebrasysteme (CAS), die
stets symbolische Formelmanipulation ermöglichen.

5.3.3 Beispiel zum Adjunktensatz


 
−19 30 12 −21
 −8 17 6 −13 
Für die Matrix A =   ∈ Q4×4 ergibt der Adjunktensatz mit
 −28 42 17 −29 
−8 18 6 −14
Hilfe eines Computerprogramms χA (t) = t4 − t3 − 3t2 + t + 2 und
   
−31 36 18 −24 −10 6 6 −3
β
 −40 47 24 −32 
 −32 32
 18 −19 
A(t) = E4 t3 + (A − E4 )t2 + 
 −20 24 11 −16  t +  8 −18
 
−4 13 
−40 48 24 −33 −32 30 18 −17
für alle t ∈ Q. Die vorkommenden Matrixelemente und Koeffizienten sind ganze
Zahlen, obwohl in (5.13) Divisionen auftreten. Durch Vergleich mit dem Deter-
minantensatz (Seite 267) ergibt sich, dass diese Eigenschaft stets gilt, wenn die
Elemente von A ganze Zahlen sind.

Ein Beispiel mit Wurzeln kann aus Übung 6.2.q rekonstruiert werden.
5.3.4 Eindeutigkeit der Volumenfunktion 283

5.3.4 Eindeutigkeit der Volumenfunktion

Da wir die Einführung der Determinante mit dem Volumenproblem bei Paralle-
lotopen motiviert haben, wollen wir die gefundene Lösung noch etwas genauer
betrachten und anschließend in einer allgemeineren Situation anwenden. Sind
~a1 , . . . , ~an ∈ Rn×1 linear unabhängige Vektoren und setzen wir
(5.14) V(~a1 , . . . , ~an ) : = |det(~a1 . . . ~an )|,
so ist V(~a1 , . . . , ~an ) eine positive Zahl. Als Abbildung erfüllt V wie gewünscht die
Bedingungen D1 und D3 sowie D2 mit dem Faktor |c| anstelle von c. Durch den
Übergang zum Betrag könnte allerdings die Eindeutigkeit verlorengegangen sein,
die bei der Volumenfunktion unbedingt vorliegen muss, um die Übereinstimmung
mit dem “Inhalt” zu erhalten, der üblicherweise mit Hilfe des Integralbegriffs
definiert wird.

Ist V1 : Rn×n → R irgendeine “Volumenfunktion”, die die obigen Eigenschaften


hat, so lässt sich mit der Hilfsfunktion
0 für linear abhängige Vektoren ~a1 , . . . , ~an ∈, Rn×1 ,
(
F(~a1 , . . . , ~an ) : = V1 (~a1 ,...,~an ) det(~a1 ... ~an )
V(~a ,...,~a )
sonst,
1 n

folgendermaßen der Nachweis dafür führen, dass V = V1 gilt. Offensichtlich erfüllt


F(~a1 , . . . , ~an ) die Bedingungen D1, D2 und D3, wobei sich der Fall c = 0 bei
D2 durch die lineare Abhängigkeit der Vektoren ~a1 , . . . , 0~ai , . . . , ~an für i ∈ In
ergibt. Aufgrund des Determinantensatzes (Seite 267) folgt damit F(~a1 , . . . , ~an ) =
det(~a1 . . . ~an ).

Für linear unabhängige Vektoren erhalten wir also


V1 (~a1 , . . . , ~an ) = V(~a1 , . . . , ~an )
durch Kürzen. Diese Gleichung ist auch für linear abhängige Vektoren richtig, weil
wie bei der Determinantenfunktion gezeigt werden kann, dass V1 (~a1 , . . . , ~an ) = 0
gilt.

5.3.5 Volumen von Parallelotopen in Untervektorräumen


von Rn×1

Es ist naheliegend, die Volumenbestimmung mit Hilfe von Determinanten auf Par-
allelotope zu übertragen, die durch k linear unabhängige Vektoren ~a1 , . . . , ~ak ∈
284 Das Volumen von Simplexen 5.4.1

Rn×1 mit k ≤ n aufgespannt werden. Stellt B = : {~b1 , . . . , ~bk } eine Orthonormal-


basis von Lin{~a1 , . . . , ~ak } bezüglich des Standardskalarprodukts dar und ist κB
der zugehörige Koordinatenisomorphismus, so erfüllt

(5.15) V(~a1 , . . . , ~ak ) : = det κB (~a1 ) . . . κB (~ak )
die Bedingungen für eine Volumenfunktion auf Lin {~a1 , . . . , ~ak }, wenn V(~b1 , . . . ,
~bk ) = 1 anstelle von D3 gefordert wird.

Definitionsgemäß gilt ~ai = (~b1 . . . ~bk )κB (~ai ) für i = 1, . . . , k. Setzen wir A : =
(~a1 . . . ~ak ) ∈ Rn×k , B : = (~b1 . . . ~bk ) ∈ Rn×k und C : = κB (~a1 ) . . . κB (~ak ) ∈


Rk×k , so folgt A = BC. Außerdem ist tBB = Ek , weil B eine Orthonormalbasis


darstellt. Damit erhalten wir tCC = tC tBBC = tAA
Der Determinantenproduktsatz (Seite 270) und der Satz über die Determinante
der Transponierten (Seite 269) ergeben dann (det C)2 = det(tCC) = det(tAA).
Aus (5.15) folgt also
1
(5.16) V(~a1 , . . . , ~ak ) = |det(tAA)| 2 mit A : = (~a1 . . . ~ak ) ∈ Rn×k .
Da det (tAA) nicht von der Orthonormalbasis B abhängt, ist nun auch nachge-
wiesen, dass V für alle Orthonormalbasen von Lin {~a1 . . . ~ak } denselben Wert
hat.
Als Volumenfunktion auf Rn×k ist V ebenfalls eindeutig bestimmt, wenn man
anstelle von D3 die Normierung V(~b1 , . . . , ~bk ) = 1 für je eine Orthonormalbasis
{~b1 , . . . , ~bk } jedes k- dimensionalen Untervektorraumes von Rn×1 fordert.

5.4 Ausblick

5.4.1 Das Volumen von Simplexen

Da viele Inhaltsprobleme durch Zerlegungen gelöst werden, ist es wünschenswert,


auch für die einfachsten geradlinig begrenzten Objekte eine Volumenformel zu
haben. Als Verallgemeinerung von Dreieck und Tetraeder definieren wir für k ∈ In
das von den linear unabhängigen Vektoren ~a1 , . . . , ~ak ∈ Rn×1 aufgespannte k-
dimensionale euklidische Simplex oder kurz k- Simplex durch

{~x ∈ Rn×1 | Es gibt (λ1 , . . . , λk ) ∈ [0, 1]k mit λ1 + · · · + λk ≤ 1, sodass


k
X
~x = λi~ai gilt}.
i=1
5.4.2 Die Funktionaldeterminante 285

Man kann Parallelotope und Simplexe etwas allgemeiner einführen, indem man
wie bei einem affinen Unterraum zu allen Vektoren der obigen Darstellungen einen
festen Vektor addiert. Für uns kommt es nur darauf an, dass das von k linear
unabhängigen Vektoren erzeugte k- Simplex eine Teilmenge des entsprechenden
Parallelotops ist. Dann lässt sich das Parallelotop in k! volumengleiche k -Simple-
xe zerlegen, unter denen auch dasjenige mit denselben aufspannenden Vektoren
ist.
Die Zerlegung kann systematisch mit elementaren kombinatorischen Überlegun-
gen erfolgen. Zum Beweis der Volumengleichheit mit Hilfe eines verallgemeinerten
Cavalieri-Prinzips benötigt man dagegen einen Volumenbegriff, der erst durch die
Integralrechnung bereitgestellt wird. Im euklidischen Punktraum R3 besagt das
Prinzip von Cavalieri, dass zwei räumliche Körper gleiches Volumen besitzen,
wenn sie zwischen zwei parallelen Ebenen liegen und wenn sie in diesen Ebe-
nen sowie in allen dazu parallelen Zwischenebenen flächengleiche Schnittfiguren
haben.
Bezeichnet S(~a1 , . . . , ~ak ) das Volumen des von ~a1 , . . . , ~ak ∈ Rn×1 aufgespannten
k- Simplexes, so gilt also mit (5.16) und aufgrund der obigen Zerlegung
1 1
(5.17) S(~a1 , . . . , ~ak ) = |det(tAA)| 2 mit A : = (~a1 . . . ~ak ) ∈ Rn×k .
k!
Ist ein k- Simplex in einem euklidischen Punktraum durch seine Eckpunkte gege-
ben, so wird der Nullpunkt durch Koordinatentransformation in einen Eckpunkt
gelegt und das Volumen mit Hilfe der Vektoren berechnet, die dann den übrigen
Eckpunkten zugeordnet sind.

5.4.2 Die Funktionaldeterminante

Auch in der Analysis spielen Determinanten eine Rolle. Die weitreichendste An-
wendung hängt mit dem folgenden Begriff zusammen. Ist f : = (f1 , . . . , fn ) eine
Abbildung von einer Teilmenge D des Rn nach Rn , bei der alle Komponenten-

funktionen fi : = (x1 , . . . , xn ) → fi (x1 , . . . , xn ), (x1 , . . . , xn ) ∈ D mit i ∈ In
nach jeder Variablen xk , k ∈ In , differenzierbar sind, so heißt die Determinante
∂fi
der Matrix, deren Elemente die (“partiellen”) Ableitungen ∂x (c) in einem festen
k
Punkt c ∈ D sind, Funktionaldeterminante von f in c.
Wegen der Eigenschaft D10 charakterisiert die Funktionaldeterminante Punk-
te, in denen sich die zugrundeliegende Abbildung f “regulär” beziehungsweise
286 Orientierung 5.4.3

“singulär” verhält. Bildet man den n- dimensionalen achsenparallelen Würfel mit


dem Mittelpunkt c durch f ab und lässt die Kantenlänge gegen Null gehen, so
stellt der Betrag der Funktionaldeterminante von f in c den Grenzwert der Quo-
tienten des Würfelbildvolumens und des Würfelvolumens dar. Deshalb tritt die
Funktionaldeterminante auch bei Transformationen der Integrationsvariablen von
mehrfachen Integralen auf.

5.4.3 Orientierung

Die am Anfang dieses Kapitels erwähnte Orientierung von Vektor-n-tupeln


(~a1 , . . . , ~an ) ∈ (Rn×1 )n hat zunächst nichts mit Determinanten zu tun. Sind
~a1 , . . . , ~an linear unabhängige Vektoren, so wird (~a1 , . . . , ~an ) n- Kant genannt.
Zwei n- Kante (~a1 , . . . , ~an ) und (~b1 , . . . , ~bn ) ∈ (Rn×1 )n heißen gleich orientiert,

wenn es stetige Funktionen t → fik (t), t ∈ [0, 1] mit i, k ∈ In gibt, so-
dass t f1i (0) . . . fni (0) = ~ai , t f1i (1) . . . fni (1) = ~bi für jedes i ∈ In und
 
 
f11 (t) . . . f1n (t)
Rang ... ..  = n für alle t ∈ [0, 1] gilt. Man sagt, dass (~a , . . . , ~a )

.  1 n
fn1 (t) . . . fnn (t)
ohne Ausartung stetig in (~b1 , . . . , ~bn ) deformiert werden kann.

Dann lässt sich zeigen, dass jedes n- Kant entweder in (~e1 , . . . , ~en−1 , ~en ) oder
in (~e1 , . . . , ~en−1 , −~en ) ohne Ausartung stetig deformierbar ist. Werden alle n-
Kante des ersten Falles als positiv orientiert und die des zweiten als negativ
orientiert bezeichnet, so folgt, dass die Orientierung eines n- Kants (~a1 , . . . , ~an )
dem Vorzeichen von det(~a1 . . . ~an ) entspricht.

Diese Vorgehensweise wird unmittelbar auf die erzeugenden Vektoren von k-


Simplexen im Rk×1 übertragen, sodass sich orientierte k- Simplexe ergeben. Mit
1
(5.17), (5.16) und (5.14) ist dann k! det(~a1 . . . ~ak ) das “orientierte Volumen” des
von ~a1 , . . . , ~ak aufgespannten orientierten k- Simplexes. In der Physik finden wir
die Orientierung unter anderem bei den Dreifingerregeln (rechte Hand: Richtung
des Induktionsstromes; linke Hand: Richtung der Kraft, die an einem stromdurch-
flossenen Draht im Magnetfeld angreift). Hier hängt die Orientierung mit dem
3
Vektorprodukt ~a × ~b : = det(~a ~b ~ei ) ~ei für ~a, ~b ∈ R3×1 zusammen.
P 
i=1
Kapitel 6

Eigenwerte und Eigenvektoren

6.1 Ähnlichkeit und Diagonalform von Matri-


zen
Im Abschnitt 4.3 haben wir die Frage gestellt, ob es zu jedem Homomorphismus
beziehungsweise Endomorphismus zwischen endlich erzeugten Vektorräumen bei
geeigneter Wahl der Basen möglichst einfache darstellende Matrizen gibt. Dieses
Normalformenproblem wurde dort für Homomorphismen vollständig gelöst. Nun
wollen wir das viel schwierigere Problem der Normalformen von Endomorphismen
in Angriff nehmen, wobei die neue Situation dadurch entsteht, dass wegen der
Übereinstimmung von Urbild- und Bildraum nur eine Basis verwendet wird.
Sind A und A 0 solche Basen des n- dimensionalen Vektorraums V und wird
0
A : = MA A
A (ϕ) sowie B : = MA0 (ϕ) für den Endomorphismus ϕ ∈ Hom (V, V)
gesetzt, so ergibt der Transformationssatz (Seite 247) die Darstellung
0
B = T −1AT mit T : = MA
A (idV ).
Wie bei den Homomorphismen können wir die Suche nach charakteristischen
Eigenschaften derjenigen Matrizen, die einem Endomorphismus bezüglich aller
möglichen Basen zugeordnet sind, von den Endomorphismen abkoppeln, indem
wir auf der Menge der quadratischen Matrizen Kn×n die durch die obige Trans-
formationsformel nahegelegte Äquivalenzrelation einführen:

Definition der Ähnlichkeit von quadratischen Matrizen


Zwei Matrizen A, B ∈ Kn×n heißen ähnlich genau dann, wenn es eine Matrix
T ∈ GL(n; K) gibt, sodass

287
288 Ähnlichkeit und Diagonalform von Matrizen 6.1

(6.1) B = T −1AT
gilt.

Ganz analog wie im Unterabschnitt 4.3.5 wird der Nachweis dafür geführt, dass
durch die Ähnlichkeit von Matrizen eine Äquivalenzrelation erklärt ist und dass
die Äquivalenzklassen genau diejenigen Matrizen enthalten, die sich einem geeig-
neten Endomorphismus bezüglich der verschiedenen möglichen Basen zuordnen
lassen.
Da ähnliche Matrizen auch äquivalent sind, stellen die Äquivalenzklassen bezüg-
lich der Matrizenähnlichkeit Teilmengen der Äquivalenzklassen bezüglich der Ma-
trizenäquivalenz auf Kn×n dar. Insbesondere haben ähnliche Matrizen denselben
Rang.
Für T ∈ GL(n; K) ergibt sich außerdem durch mehrmalige Anwendung des De-
terminantenproduktsatzes (Seite 270) die Determinantengleichung
(6.2) det(T −1AT ) = (det T )−1 (det A)(det T ) = det A.
Also besitzen ähnliche Matrizen auch dieselbe Determinante. Da zum Beispiel die
Determinante der Matrix A : = En +(c−1)~e1 t~e1 ∈ Kn×n für jedes c ∈ K den Wert
c hat, ist die Anzahl der Äquivalenzklassen bezüglich der Matrizenähnlichkeit
in Kn×n mindestens so groß wie die Elementzahl von K. Anders als bei der
Matrizenäquivalenz hängt damit die gesuchte Repräsentantenmenge nicht nur
von der Größe der Matrizen sondern auch von K ab.
Die nun naheliegende Vermutung, dass jede Matrix aus Kn×n zu einer Diago-
nalmatrix ähnlich ist, lässt sich durch ein einfaches
  Gegenbeispiel widerlegen.
1 1
Wir nehmen an, dass es zu der Matrix A : = eine invertierbare Matrix
0 1
   
u v λ 0
T = und eine Diagonalmatrix D = gibt, sodass T −1AT = D -
w x 0 µ
beziehungsweise dazu äquivalent AT = T D - gilt. Die beiden Matrizenprodukte
   
u+w v+x λu µv
ergeben = , und mit der Determinantengleichung
w x λw µx
(6.2) erhalten wir λµ = 1. Durch Elementvergleich und Umordnen folgen die
Gleichungen (λ − 1)u = w, (µ − 1)v = x, (λ − 1)w = 0 und (µ − 1)x = 0.
Sowohl für λ = 1 und µ = 1 als auch im Falle λ 6= 1 oder µ 6= 1 muss w = x = 0
gelten, sodass T nicht invertierbar sein kann. Also ist A zu keiner Diagonalmatrix
ähnlich.
Mit einiger Mühe ließe es sich beweisen, dass jede quadratische Matrix zu einer
oberen Dreiecksmatrix ähnlich ist. Die folgende Übung ergibt aber, dass obere
6.1.1 Beispiel für eine lineare Differenzengleichung 289

Dreiecksmatrizen auch zueinander ähnlich sein können, sodass sie im Allgemeinen


keine Repräsentantenmenge darstellen.
Übung 6.1.a    
1 1 1 −1
Zeigen Sie, dass die Matrizen und ähnlich sind.
0 1 0 1
Da die Lösung des Normalformenproblems für ähnliche Matrizen also kaum zu
erraten ist, machen wir uns an drei Beispielen klar, dass es sich im Hinblick
auf praktische Anwendungen lohnt, zunächst den Fall der Ähnlichkeit zu einer
Diagonalmatrix ausführlich zu untersuchen. Tatsächlich werden die Ergebnisse,
die wir dabei im nächsten Abschnitt herleiten, dann auch die entscheidenden
Hilfsmittel für die vollständige Charakterisierung aller Äquivalenzklassen sein.

6.1.1 Beispiel für eine lineare Differenzengleichung

Im Unterabschnitt 2.2.5 haben wir für die Glieder der durch fn+2 = fn+1 + fn und
f1 = f2 = 1 definierten Fibonacci-Folge eine explizite Darstellung hergeleitet, in-
dem wir für den zugehörigen Folgenvektorraum eine geeignete Basis bestimmten.
Solche homogenen linearen Differenzengleichungen mit konstanten Koeffizienten
lassen sich meistens durch den folgenden Ansatz mit geringerer Mühe untersu-
chen.
Wir fassen die aufeinanderfolgenden Glieder, die in der Rekursionsgleichung auf
 
~ fn
der rechten Seite stehen, zu einem Vektor fn : = zusammen. Dann gilt
  fn+1
0 1
f~n+1 = F f~n mit F : = für alle n ∈ N1 , und vollständige Induktion ergibt
1 1
 
~ n 0
(6.3) fn = F für jedes n ∈ N1 .
1  
u v
Könnten wir eine invertierbare Matrix T : = und eine Diagonalmatrix
  w x
λ 0
D := finden, für die T −1 F T = D gilt, so würde
0 µ  n 
−1 n λ 0
(6.4) n
F = (T DT ) = T T −1
0 µn
folgen, weil sich beim Ausmultiplizieren der Potenz die Faktoren T −1 T wegheben
und weil ein Produkt von Diagonalmatrizen aus Kn×n stets die Diagonalmatrix
mit den Produkten der entsprechenden Diagonalelemente auf der Diagonalen ist.
Durch Elementvergleich in den ausmultiplizierten Matrizenprodukten der Glei-
chung F T = TD erhalten wir w = λu, x = µv, u + w = λw und v + x = µx.
Damit T invertierbar ist, muss u 6= 0 und v 6= 0 sein, sodass sich λ2 −λ−1 = 0 und
290 Beispiel für eine Markow-Kette 6.1.2

µ2 − µ − 1 = 0 ergibt, wobei λ 6= µ wegen der Determinantengleichheit λµ = −1


√ √
gilt. Mit λ = 12 (1 − 5), µ = 12 (1 + 5) (oder umgekehrt) und u = v = 1 ist
   
1 1 −1 1 µ −1
T = , T = µ−λ und
λ µ −λ 1
  n      n n

1 1 λ 0 1 µ −1 0 1 µ − λ
f~n = = µ−λ
λ µ 0 µn µ−λ −λ 1 1 µn+1 − λn+1

in Übereinstimmung mit dem Ergebnis von Unterabschnitt 2.2.5.

6.1.2 Beispiel für eine Markow-Kette

In den Übungen 1.4.a und 1.4.g haben wir die Änderung des Anteils der Bewohner
der Bundesrepublik Deutschland betrachtet, die am Ende der Jahre seit 1992 in
Nordrhein-Westfalen lebten. Bezeichnen wir die Bevölkerungsanteile innerhalb
und außerhalb Nordrhein-Westfalens am Ende des n-ten Jahres mit in und an , so
ergibt sich unter der (nicht sehr realistischen) Annahme gleicher Abwanderungs-
und Zuwanderungsraten in den nachfolgenden Jahren die Verteilung
   n  
in 0.8 0.1 i0 17
= mit der durch i0 : = 79 , a0 : = 62
79
an 0.2 0.9 a0
 
i0
festgelegten Anfangsverteilung .
a0
Wie bei der Fibonacci-Folge untersuchen wir die Matrizenpotenzen stellvertre-
tend für eine große Klasse von Anwendungssituationen, nämlich für die (endli-
chen homogenen) Markow-Ketten, die spezielle Zufallsprozesse beschreiben. Die
 
0.8 0.1
Übergangsmatrix A : = ist hier wie bei Markow-Ketten eine stochasti-
0.2 0.9
sche Matrix, deren Elemente nichtnegativ sind und deren Spaltensummen stets 1
ergeben. Bei Markow-Ketten stellen die Elemente der Übergangsmatrizen Wahr-
scheinlichkeiten dar. (In der Wahrscheinlichkeitstheorie werden die entsprechen-
den Vektoren, Matrizen und Gleichungen oft in transponierter Form geschrieben.)
 
u v
Wir versuchen wieder, eine invertierbare Matrix T = : und eine Diago-
  w x
λ 0
nalmatrix D = : zu finden, so dass AT = TD gilt. Jetzt erhalten wir
0 µ
durch Elementvergleich und durch Zusammenfassen die linearen Gleichungssys-
teme
     
0.8 − λ 0.1 u 0.8 − µ 0.1 v
= ~0 und = ~0,
0.2 0.9 − λ w 0.2 0.9 − µ x
6.1.3 Beispiel für ein lineares homogenes Differentialgleichungssystem 291
   
u v
wobei die Spaltenvektoren und der als invertierbar vorausgesetzten
w x
~
Matrix T nicht 0 sein dürfen.
Solche Lösungen gibt es genau dann, wenn die Spaltenvektoren der beiden Koef-
fizientenmatrizen linear abhängig sind. Hier hilft nun entscheidend die im fünf-
ten Kapitel entwickelte Determinantentheorie: Aufgrund der Determinantenei-
genschaft D10 sind n Vektoren ~a1 , . . . , ~an ∈ Kn×1 genau dann linear abhängig,
wenn det(~a1 . . . ~an ) = 0 gilt.
In unserem Falle müssen also λ und µ Lösungen der Gleichung
 
0.8 − y 0.1
det = y 2 − 1.7y + 0.7 = (y − 1)(y − 0.7) = 0
0.2 0.9 − y
       
u 1 v 1
sein. Mit λ = 1, = , µ = 0.7 und = ist T =
w 2 x −1
   
1 1 −1 1 1 1
, T =3 , und es folgt
2 −1 2 −1
      
in 1 1 1 1 0 1 1 i0
= =
an 3 2 −1 0 0.7n 2 −1 1 − i0
      
1 1 0.7n 1 1 1 1 n 1
= + i0 − 3 0.7 für jedes n ∈ N1 .
3 2 −0.7n 3i0 − 1 3 2 −1

Wir erkennen unter anderem, dass die durch i∞ : = lim in und a∞ : = lim an
    n→∞ n→∞
i∞ 1
definierte Grenzverteilung = 13 mit der stabilen Verteilung über-
a∞ 2
einstimmt, nach der in Übung 1.4.a ii) gefragt wurde. Beide Verteilungen erfüllen
das obige homogene Gleichungssystem für λ = 1 - eine Eigenschaft, die jede sto-
chastische Matrix mit lauter positiven Elementen in der entsprechenden Form
besitzt.

6.1.3 Beispiel für ein lineares homogenes Differentialglei-


chungssystem

Eine weitere wichtige Anwendung der Ähnlichkeit zu einer Diagonalmatrix ist bei
linearen homogenen Differentialgleichungssystemen erster Ordnung mit konstan-
ten Koeffizienten möglich. Die allgemeine Situation lässt sich wieder an einem
einfachen Beispiel erklären. Es seien x(t) und y(t) auf R differenzierbare Funktio-
nen, deren Ableitungen durch die folgenden Linearkombinationen von x(t) und
y(t) festgelegt sind:
292 Beispiel für ein lineares homogenes Differentialgleichungssystem 6.1.3

dx(t) dy(t)
dt
= x(t) + 4y(t), dt
= 2x(t) + 3y(t).
Außerdem sei x(0) = 5 und y(0) = 2, sodass ein Anfangswertproblem vorliegt.
 
  dx(t)  
x(t) d dt 1 4
Mit den Abkürzungen ~u(t) : = , dt ~u(t) : = 
dy(t)
 , A :=
y(t) 2 3
  dt
5
und ~u0 : = erhalten wir die Vektorgleichung
2
d
(6.5) dt
~u(t) = A~u(t) mit ~u(0) = ~u0 ,
an der sich auch die einzelnen Begriffsteile dieser speziellen Gleichungssysteme
erläutern lassen: Von einem Differentialgleichungssystem erster Ordnung spricht
man, weil nur Funktionen und ihre ersten Ableitungen auftreten; das System ist
linear mit konstanten Koeffizienten, weil die Funktionen und ihre Ableitungen je-
weils in der ersten Potenz und nicht miteinander multipliziert sondern nur in Sum-
men mit konstanten Koeffizienten vorkommen, und das Fehlen weiterer Funktio-
nen oder Konstanten in den Summen ergibt in diesem Fall das Adjektiv homogen,
das eigentlich auf die Vektorraumeigenschaft der Menge der Lösungsfunktionen
bei fehlenden Anfangsbedingungen hinweist. Trotz dieser Einschränkungen wer-
den durch Differentialgleichungssysteme vom Typ (6.5) mit ~u(t) ∈ Cn×1 für jedes
t ∈ R und mit A ∈ Cn×n viele wichtige Anwendungssituationen erfasst. Wie
wir bei der abschließenden Behandlung dieser Differentialgleichungssysteme im
Abschnitt 6.4 sehen werden, lassen sich außerdem die ebenso wichtigen linearen
homogenen Differentialgleichungen n- ter Ordnung mit konstanten Koeffizienten
vollständig darauf zurückführen.
Als Ausgangspunkt kann der Fall einer Gleichung mit einer unbekannten Funktion
dienen, der oft schon im Mathematikunterricht der Oberstufe behandelt wird: Die
dx(t)
Differentialgleichung dt = λx(t) mit λ ∈ C wird genau durch die Funktionen
x(t) = c eλt erfüllt, wobei c ∈ C eine beliebige Konstante ist.
d
Da der Differentialoperator dt wegen der Gültigkeit der Summenregel und der
Produktregel einen Homomorphismus von dem Vektorraum (der Spaltenvektoren
einer festen Länge n) aller differenzierbaren Funktionen auf R in den Vektorraum
(der Spaltenvektoren derselben Länge n) aller Funktionen auf R darstellt, gilt
d d
B~u(t) für jedes B ∈ Cn×n .

(6.6) B dt ~u(t) = dt
Falls es zu der Matrix A in (6.5) eine invertierbare Matrix T und eine Diago-
nalmatrix D mit D = T −1AT gibt, liegt es nahe, den allgemeinen Fall (6.5) auf
den Spezialfall einer Differentialgleichung zurückzuführen, indem die Funktio-
nen durch Transformation von A auf Diagonalgestalt “entkoppelt” werden. Mit
~z(t) : = T −1~u(t) und mit (6.6) gilt nämlich
6.2 Diagonalisierbarkeit von Matrizen 293

d d d
T −1~u(t) = T −1 dt

dt
~z(t) = dt ~u(t)
(6.7)
= T −1A~u(t) = T −1AT T −1~u(t) = D~z(t).


Die nun schon bekannten Rechenschritte ergeben für unser Beispiel


     
5 0 1 2 −1 1 1 2
D= , T = und T = 3 .
0 −1 1 −1 1 −1
 
v(t) dv(t) dw(t)
Setzen wir ~z(t) = : , so folgt dt = 5v(t) und dt = −w(t), also
w(t)
v(t) = c e5t und w(t) = d e−t mit c, d ∈ C. Durch die Rücktransformation ~u(t) =
   
5t 1 −t 2
T ~z(t) = c e +de und durch Berechnung der Konstanten mit
1   −1  
c −1 3
Hilfe der Anfangswerte = ~z(0) = T ~u0 = erhalten wir schließlich
d 1
die eindeutig bestimmten Lösungsfunktionen
x(t) = 3e5t + 2e−t und y(t) = 3e5t − e−t .
Übung 6.1.b  
2 1 0
i) Beweisen Sie, dass A : =  0 2 0  zu tA ähnlich ist.
0 0 1
ii) Zeigen Sie, dass A zu keiner Diagonalmatrix ähnlich ist.

6.2 Diagonalisierbarkeit von Matrizen


Die durch die obigen drei Beispiele dargelegte Bedeutung der Ähnlichkeit zu einer
Diagonalmatrix rechtfertigt es, eine abkürzende Sprechweise einzuführen:

Definition der Diagonalisierbarkeit


Eine Matrix A ∈ Kn×n heißt diagonalisierbar genau dann, wenn A zu einer
Diagonalmatrix ähnlich ist.
Entsprechend heißt ein Endomorphismus ϕ ∈ Hom (V, V) diagonalisierbar
genau dann, wenn es eine Basis A von V gibt, sodass die darstellende Matrix
MAA (ϕ) eine Diagonalmatrix ist.

Damit ist also A ∈ Kn×n genau dann diagonalisierbar, wenn es eine Matrix
T = : (~v1 . . . ~vn ) ∈ GL(n; K) und eine Diagonalmatrix D = : (λ1~e1 . . . λn~en )
gibt, sodass
(6.8) AT = (A~v1 . . . A~vn ) = TD = (λ1 T~e1 . . . λn T~en ) = (λ1~v1 . . . λn~vn )
294 Diagonalisierbarkeit von Matrizen 6.2

gilt. Die n Vektorgleichungen A~vi = λi~vi , i = 1, . . . , n, führen zu den folgenden


grundlegenden Begriffen:

Definition des Eigenwertes und des Eigenvektors


Ist A ∈ Kn×n , so heißt λ ∈ K Eigenwert von A genau dann, wenn es ein
~v ∈ Kn×1 \ {~0 } gibt, sodass
(6.9) A~v = λ~v
gilt. Jeder Vektor ~v ∈ Kn×1 \ {~0 }, der (6.9) erfüllt, heißt Eigenvektor von A
zum Eigenwert λ.
Ist V ein K-Vektorraum und ϕ ∈ Hom(V, V), so heißt λ ∈ K Eigenwert von ϕ
genau dann, wenn es ein ~v ∈ V \ {~0 } gibt, sodass ϕ(~v) = λ~v gilt. Jeder Vektor
~v ∈ V \ {~0 }, der ϕ(~v ) = λ~v erfüllt, heißt Eigenvektor von ϕ zum Eigenwert
λ.

Aus Beispiel 6.1.2 wissen wir schon, wie sich λ und ~v trennen lassen: Gleichung
(6.9) ist äquivalent zu (λE − A)~v = ~0 mit E : = En , und der Nullraum N(λE −
A) enthält genau dann nicht nur den Nullvektor, wenn det (λE − A) = 0 gilt.

Die Polynomfunktion χA : = t → det (λE − A), t ∈ K ist das bereits in
Unterabschnitt 5.3.2 eingeführte und berechnete charakteristische Polynom
von A.
Wie in (6.2) folgt mit T ∈ GL(n; K), dass
(6.10) χT −1AT (t) = χA (t) für jedes t ∈ K
gilt. Damit gehört zu ähnlichen Matrizen dasselbe charakteristische Polynom.
 
1 1
Die Umkehrung ist jedoch nicht richtig, wie die Matrix zeigt, von der
0 1
wir nachgewiesen haben, dass sie nicht diagonalisierbar ist, die jedoch dasselbe
charakteristische Polynom besitzt wie E2 .
Die Gleichheit von Funktionen wird durch die Übereinstimmung der Funktions-
werte für jedes der möglichen Argumente definiert. Damit wir wie im Unter-
abschnitt 5.3.2 den Polynomvergleichssatz (Seite 279) als Gleichheitskriterium
für Polynomfunktionen in K verwenden können, setzen wir weiterhin vor-
aus, dass K unendlich viele Elemente enthält. Der Grad des Polynoms
 n 
ak tk , t ∈ K mit an 6= 0 ist dann durch Grad P : = n
P
P : = t → P(t) =
k=0
definiert.
Für zwei Polynome P und Q erhalten wir die Summe und das Produkt wie in
(5.11) und (5.12).
6.2 Diagonalisierbarkeit von Matrizen 295

Wird das Nullpolynom durch N : = (t → 0, t ∈ K) erklärt, so sind P + Q und


PQ Polynome mit PQ 6= N für alle P 6= N und Q 6= N.
Ergänzt man die obige Graddefinition durch Grad N : = −∞ und erklärt man
die entsprechenden Additionsregeln in N ∪ {−∞}, so erhält man die nützliche
Gradformel
(6.11) Grad(PQ) = (Grad P) + (Grad Q) für alle Polynome P und Q.

Jedes λ ∈ K mit P(λ) = 0 heißt Nullstelle von P. Ein vom Nullpolynom verschie-
denes Polynom P hat aufgrund des Polynomvergleichssatzes (Seite 279) höchstens
Grad P Nullstellen. Damit sind also die Eigenwerte von A genau die Nullstellen
des charakteristischen Polynoms χA , und die Menge aller Eigenvektoren zu λ ist
N (λE − A) \ {~0 }. Die endliche Menge der (verschiedenen) Eigenwerte von A,
die auch leer sein kann, wird Spektrum von A genannt und mit SpecK (A) oder
kurz mit Spec(A) bezeichnet. Jeder der Nullräume N(λE − A) mit λ ∈ Spec(A)
heißt Eigenraum von A (zum Eigenwert λ). Statt “Dimension des Eigenraums”
sagt man aus etwas später erkennbaren Gründen auch geometrische Vielfachheit
(des Eigenwerts λ).
Als vorläufiges Diagonalisierbarkeitskriterium können wir damit schon festhalten,
dass A ∈ Kn×n genau dann diagonalisierbar ist, wenn es n linear un-
abhängige Vektoren in der Vereinigung aller Eigenräume von A gibt.
Der folgende Satz zeigt, dass die Vereinigung der Basen aller Eigenräume linear
unabhängig ist.

Satz über Eigenraumbasen


Es sei A ∈ Kn×n eine Matrix mit nichtleerem Spektrum {λ1 , . . . , λs } und mit
den geometrischen Vielfachheiten gi : = dim N(λi E − A) für i = 1, . . . , s. Ist
~vi1 , . . . , ~vigi eine Basis von N(λi E − A) für i = 1, . . . , s, so sind die Vektoren
~v11 , . . . , ~v1g1 , . . . . . . , ~vs1 , . . . , ~vsgs linear unabhängig. Insbesondere lässt sich
jeder Vektor ~x ∈ Kn×1 eindeutig in der Form
X s
(6.12) ~x = ~zi mit ~zi ∈ N(λi E − A)
i=1
darstellen.

Beweis (a1):
gi
s P  s gi
Wir setzen ~0 =
P P P
aij ~vij = ~zi mit aij ∈ K und ~zi : = aij ~vij . Für
i=1 j=1 i=1 j=1
296 Diagonalisierbarkeit von Matrizen 6.2

alle j, k ∈ Is gilt (λj E − A)~zk = λj ~zk − A~zk = (λj − λk )~zk . Damit folgt ~0 =
s P s  Q s 
(λj −λk ) ~zk , also ~zk = ~0 für jedes k ∈ Is . Wegen ~0 =
Q
(λj E −A) ~zi =
j=1 i=1 j=1
j6=k j6=k
gi
P
~zi = aij ~vij mit den linear unabhängigen Vektoren ~vi1 , . . . , ~vigi ist schließlich
j=1
aij = 0 für i = 1, . . . , s und j = 1, . . . , gi .

Übung 6.2.a
t
Es sei ~a ∈ Rn×1 \ {~0 } und ϕ : Rn×1 → Rn×1 , ~x 7→ ~x − 2 t~~aa ~~xa ~a.
i) Zeigen Sie, dass ϕ ein Endomorphismus von Rn×1 ist.
ii) Deuten Sie ϕ geometrisch im R3×1 (vergleiche Übung 2.5.c).
iii) Bestimmen Sie im Falle n = 3 und ~a : = t(1 −1 2) eine Basis A von
R3×1 , sodass MA e1 t~e1 + ~e2 t~e2 + ~e3 t~e3 gilt.
A (ϕ) = −~

Übung 6.2.b  
5 −6 −6
Es sei A : =  −1 4 2  . Berechnen Sie die Eigenwerte von A, und be-
3 −6 −4
stimmen Sie Eigenvektoren von A, die eine Basis von R3×1 bilden. Geben Sie
weiter eine zu A ähnliche Diagonalmatrix D und eine Matrix T ∈ GL(3; K)
an, für die D = T −1AT ist.

Übung 6.2.c
Zeigen Sie für A ∈ Kn×n :
i) Aus A2 = A folgt Spec(A) ⊆ {0, 1}.
ii) Ist A nilpotent, so gilt Spec(A) = {0}. [Hinweis: Vergessen Sie nicht den
Nachweis dafür, dass 0 Eigenwert ist.]

Übung 6.2.d
Es sei A ∈ GL (n; K) und Spec (A) = : {λ1 , . . . , λm }. Beweisen Sie, dass
Spec(A−1 ) = {λ−1 −1
1 , . . . , λm } gilt, und drücken Sie χA−1 durch χA aus.

Übung 6.2.e
n−1 n
~ei t~ei+1 − ak−1~en t~ek ∈ Kn×n mit n > 1.
P P
Berechnen Sie χA für A : =
i=1 k=1

Übung 6.2.f
Es seien ~a, ~b ∈ Kn×1 und A : = ~a t~b. Bestimmen Sie χA . [Hinweis: Beachten
Sie Übung 5.2.e.]
6.2 Diagonalisierbarkeit von Matrizen 297

Im Anschluss an unser vorläufiges Diagonalisierbarkeitskriterium könnten wir


aufgrund des Satzes über Eigenraumbasen (Seite 295) das Erfülltsein der Glei-
chung g1 + · · · + gs = n als theoretisch endgültige notwendige und hinreichen-
de Bedingung für die Diagonalisierbarkeit einer Matrix A ∈ Kn×n ansehen. Im
Hinblick auf das allgemeine Normalformenproblem wollen wir aber noch für die
Eig