Sie sind auf Seite 1von 322

Grundstudium Mathematik

Dirk Werner

Lineare
Algebra
Grundstudium Mathematik
Weitere Bände in der Reihe: http://www.springer.com/series/5008
Dirk Werner

Lineare Algebra
Dirk Werner
Fachbereich Mathematik und Informatik
Freie Universität Berlin
Berlin, Deutschland

ISSN 2504-3641 ISSN 2504-3668


Grundstudium Mathematik
ISBN 978-3-030-91106-5 ISBN 978-3-030-91107-2 (eBook)
https://doi.org/10.1007/978-3-030-91107-2

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte
bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

Birkhäuser
© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert an Springer Nature Switzerland AG 2022
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich
vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere
für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verar-
beitung in elektronischen Systemen.
Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem
Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung
unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen
Zeicheninhabers sind zu beachten.
Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem
Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag noch die Autoren oder
die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler
oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in
veröffentlichten Karten und Institutionsadressen neutral.

Planung/Lektorat: Dorothy Mazlum


Birkhäuser ist ein Imprint der eingetragenen Gesellschaft Springer Nature Switzerland AG und ist ein Teil von
Springer Nature.
Die Anschrift der Gesellschaft ist: Gewerbestrasse 11, 6330 Cham, Switzerland
Für Irina, Felix und Nina
Vorwort

Traditionell stehen am Beginn des Mathematikstudiums im deutschsprachigen Raum die


Vorlesungen zur Analysis und zur Linearen Algebra. Jede dieser Veranstaltungen stellt
spezielle Anforderungen an ihre Teilnehmer(m/w/d) ; im Fall der Linearen Algebra ist
insbesondere die Einführung abstrakter algebraischer Begriffe zu nennen.
Da Erstsemestern diese abstrakten Begriffe erfahrungsgemäß nicht immer leicht fallen,
habe ich den Zugang zur Linearen Algebra in diesem Text weniger algebraisch angelegt
als in anderen Quellen; der Begriff des Körpers wird erst relativ spät eingeführt und der
Begriff des Moduls überhaupt nicht. Stattdessen werden die Grundlagen der Linearen
Algebra (Vektorräume, lineare Unabhängigkeit, Basen, lineare Abbildungen, Matrizen,
Determinanten, Eigenwerte, . . . ) zuerst nur im reellen Fall diskutiert und dann der Transfer
zu K-Vektorräumen etc. gemacht. So sollen künstliche algebraische Hürden ab- bzw. gar
nicht erst aufgebaut werden.
Dem trägt auch eine dynamische Notation Rechnung. Im 1. Kapitel (über lineare
Gleichungssysteme) werden Zahlen (wie x) und Vektoren (wie x) in der Notation
unterschieden, später nicht mehr; und im 2. Kapitel (über R-Vektorräume) wird der
Nullvektor des Vektorraums V mit 0V statt einfach nur 0 bezeichnet. Auch das wird später
aufgegeben, wenn die Leserinnen und Leser hinreichend viele Erfahrungen mit den neuen
Begriffen gemacht haben.
Ein anderes Spezifikum sind die eingestreuten „warum?“ oder die lakonische
Aufforderung „nachrechnen!“, die den Lesefluss unterbrechen und als dringende Bitte
zu verstehen sind, diese Details nachzutragen.
Insgesamt werden in diesem Buch die Begriffe und Resultate vorgestellt, die man in
einem einführenden Text erwartet; siehe die obige Stichpunktliste. Darüber hinaus setzt
jedes Lehrbuch andere Schwerpunkte, z. B. in Richtung Algebra oder Geometrie. Mein
Focus liegt auf der Analysis; ich versuche, die enge Verzahnung der Gebiete Analysis
und Lineare Algebra herauszustellen, sei es durch analytische Beispiele (die aber mit
Kenntnissen der Schulmathematik zugänglich sind) oder durch Abschnitte zu speziellen
Themen wie Singulärwertzerlegung, Matrix-Analysis, konvexe Mengen oder Compressed
Sensing, die in der Regel keinen Eingang in die Lehrbuchliteratur finden. Generell nimmt

VII
VIII Vorwort

die Eigenwerttheorie in Innenprodukträumen einen großen Raum in der zweiten Hälfte


des Buchs ein, was man als Aufgalopp zur Funktionalanalysis ansehen kann.
Dieses Buch ist aus Skripten zu Vorlesungen hervorgegangen, die ich an der National
University of Ireland, Galway, und der FU Berlin gehalten habe. Ich möchte mich bei den
Teilnehmern bedanken, deren Kommentare mir geholfen haben, einige Schwachpunkte
zu verbessern. Gleichermaßen gilt mein Dank den vom Verlag bestellten Gutachtern
für deren extrem hilfreiche Bemerkungen. Leider bin ich mir sicher, dass sich immer
noch Ungenauigkeiten im Text verborgen halten – ich weiß nur nicht, wo. Wenn Sie
über solche Stellen stolpern, lassen Sie mich es bitte wissen; meine Email-Adresse ist
werner@math.fu-berlin.de.

Berlin Dirk Werner


im September 2021
Inhaltsverzeichnis

1 Lineare Gleichungssysteme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Beispiele linearer Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Vektoren im Rn und Matrizen über R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Der Gaußsche Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Exkurs über Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5 Invertierbare Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6 Die LR-Zerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.7 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2 R-Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1 Vektorräume und ihre Unterräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Basis und Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3 Der Rang einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.4 Summen von Unterräumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3 Lineare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.1 Definition und erste Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2 Isomorphe Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.3 Matrixdarstellung und Koordinatentransformation . . . . . . . . . . . . . . . . . . . . . . . 65
3.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4 Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.1 Determinantenformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2 Die Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.3 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4 Ein erster Blick auf Eigenwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

IX
X Inhaltsverzeichnis

5 Etwas Algebra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.1 Körper und K-Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2 Polynome, Ringe und K-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.3 Quotientenvektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

6 Innenprodukträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.1 Skalarprodukte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.2 Orthonormalbasen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.3 Lineare Abbildungen auf Innenprodukträumen . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

7 Eigenwerte und Normalformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141


7.1 Nochmals Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.2 Eigenwerte und Diagonalisierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.3 Triangulierbare Abbildungen und Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
7.4 Die Hauptraumzerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
7.5 Die Jordansche Normalform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
7.6 Der Fundamentalsatz der Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
7.7 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

8 Eigenwerttheorie in Innenprodukträumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187


8.1 Selbstadjungierte Abbildungen und Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
8.2 Normale Abbildungen und Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
8.3 Positiv definite Abbildungen und Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
8.4 Die Singulärwertzerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
8.5 Die Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
8.6 Die Norm einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
8.7 Etwas Matrix-Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
8.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

9 Etwas Geometrie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229


9.1 Isometrien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
9.2 Geometrie im R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
9.3 Geometrie im R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
9.4 Kegelschnitte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
9.5 Quadratische Formen und Quadriken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
9.6 Konvexe Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
9.7 Die Minkowskischen Sätze. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
9.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
Inhaltsverzeichnis XI

10 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
10.1 Unendlichdimensionale Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
10.2 Der Dualraum eines Vektorraums . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
10.3 Das Tensorprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
10.4 Lineare Algebra im 21. Jahrhundert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
10.4.1 Die Eigenvektor-Eigenwert-Identität. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
10.4.2 Compressed Sensing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
10.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
Symbolverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
Stichwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
Lineare Gleichungssysteme
1

1.1 Beispiele linearer Gleichungssysteme

Bei linearen Gleichungssystemen handelt es sich um Systeme von m Gleichungen mit


n Unbekannten, die alle nur linear (und nicht quadratisch etc.) vorkommen. Hier einige
Beispiele mit m = n = 3:

Beispiele 1.1.1 (a) Unser erstes Beispiel ist:

2x + 3y − 2z = 8
4x + 5y − 2z = 12
y − 3z = −5

Zur Lösung geht man so vor, dass man nach und nach versucht, die Unbekannten
zu eliminieren. Ersetzt man oben die 2. Zeile durch „2. Zeile minus zweimal
1. Zeile“ (kurz: Z2 ; Z2 − 2Z1 ), erhält man das System

2x + 3y − 2z = 8
−y + 2z = −4
y − 3z = −5

Als nächstes versucht man, aus der letzten Zeile das y zu eliminieren, indem man
Z3 ; Z3 + Z2 ausführt:

2x + 3y − 2z = 8
−y + 2z = −4
−z = −9

© Der/die Autor(en), exklusiv lizenziert an Springer Nature Switzerland AG 2022 1


D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2_1
2 1 Lineare Gleichungssysteme

Jetzt kann man das System von unten nach oben lösen:

z = 9,

daher

−y + 18 = −4,

d. h. y = 22 und

2x + 66 − 18 = 8,

d. h. x = −20. Dieses System hat eine eindeutig bestimmte Lösung. Da man jeden der
Schritte auch rückwärts machen kann (z. B. vom zweiten System zurück zum ersten
gehen), erhält man tatsächlich die Lösung des Ausgangssystems. Dies ist auch bei den
folgenden Beispielen zu beachten.
(b) Ein zweites Beispiel.
x + 4y − 2z = 4
2x + 7y − z = −2
2x + 9y − 7z = 1

Wir bilden Z2 ; Z2 − 2Z1 und Z3 ; Z3 − 2Z1 :

x + 4y − 2z = 4
−y + 3z = −10
y − 3z = −7

Da die letzten beiden Gleichungen einander widersprechen, hat das System keine
Lösung.
(c) Und hier ein drittes Beispiel.
2x − 4y + 2z = −2
2x − 4y + 3z = −4
4x − 8y + 3z = −2

Wir bilden Z2 ; Z2 − Z1 und Z3 ; Z3 − 2Z1 :

2x − 4y + 2z = −2
z = −2
−z = 2

Es muss also z = −2 und

2x − 4y − 4 = −2,
1.1 Beispiele linearer Gleichungssysteme 3

d. h.

x − 2y = 1

sein. Diesmal gibt es unendlich viele Lösungen: Man kann y ∈ R beliebig wählen und
x = 2y + 1 setzen, und z = −2.

Das unterschiedliche Lösungsverhalten kann geometrisch veranschaulicht werden.


In unseren Gleichungssystemen kann jede Zeile als Gleichung einer Ebene im Raum
verstanden werden. Dann wird in jedem Beispiel nach dem Schnitt dreier Ebenen im Raum
gefragt. Ein solcher Schnitt kann
• aus einem Punkt bestehen (Beispiel (a))
• leer sein (Beispiel (b))
• aus einer Geraden bestehen (Beispiel (c))
• aus einer Ebene bestehen, zum Beispiel:

x+ y+ z = 1
2x + 2y + 2z = 2
3x + 3y + 3z = 3

Wir haben in den Beispielen zuerst x, dann y eliminiert. Man kann in jeder beliebigen
Reihenfolge vorgehen; manchmal lässt sich so die Rechenarbeit erheblich vereinfachen.
Die Lösungstechnik ist nicht auf Systeme mit drei Gleichungen und drei Unbekannten
beschränkt:

Beispiel 1.1.2 Betrachten wir etwa folgendes System aus 4 Gleichungen mit 5 Unbekann-
ten:

x1 + x2 + x3 + x4 + x5 = 1
2x1 − x2 + 3x3 + 5x4 + x5 = 2
−3x1 − 2x3 − 7x4 = 7
−x1 − 7x2 + 3x3 + 4x4 = 13

Wir bilden Z2 ; Z2 − 2Z1 , Z3 ; Z3 + 3Z1 und Z4 ; Z4 + Z1 :

x1 + x2 + x3 + x4 + x5 = 1
−3x2 + x3 + 3x4 − x5 = 0
3x2 + x3 − 4x4 + 3x5 = 10
−6x2 + 4x3 + 5x4 + x5 = 14

Nun bilden wir Z3 ; Z3 + Z2 und Z4 ; Z4 − 2Z2 :


4 1 Lineare Gleichungssysteme

x1 + x2 + x3 + x4 + x5 = 1
−3x2 + x3 + 3x4 − x5 = 0
2x3 − x4 + 2x5 = 10
2x3 − x4 + 3x5 = 14

Um x3 zu eliminieren, bilden wir Z4 ; Z4 − Z3 :

x1 + x2 + x3 + x4 + x5 = 1
−3x2 + x3 + 3x4 − x5 = 0
2x3 − x4 + 2x5 = 10
x5 = 4

Wir erhalten unendlich viele Lösungen; nämlich: Wähle t ∈ R beliebig,

x5 = 4
x4 = t
1
x3 = t +1
2
7
x2 = t − 1
6
8
x1 = − t − 3
3

Typischerweise (aber nicht immer) kann man allgemein bei einem System mit n
Unbekannten und m < n Zeilen n − m Unbekannte frei wählen, die die übrigen festlegen;
das gilt, wenn die Zeilen tatsächlich „unabhängig“ sind – nicht aber bei (n = 3, m = 2)

x+ y+ z = 2
2x + 2y + 2z = 4,

wo die zweite Zeile nur eine Verkleidung der ersten ist. Ebenso erhält man „typischer-
weise“ im Fall m > n keine und im Fall m = n genau eine Lösung. (Ausnahmen siehe
oben!)

1.2 Vektoren im Rn und Matrizen über R

Um über Lösungen linearer Gleichungssysteme zu sprechen, bedient man sich der Sprache
der Vektoren und Matrizen; um über die Theorie linearer Gleichungssysteme zu sprechen,
die es gestattet, das im letzten Absatz von Abschn. 1.1 angesprochene typische Verhalten
zu diskutieren, bedient man sich der Sprache der Linearen Algebra. Deshalb werden
1.2 Vektoren im Rn und Matrizen über R 5

wir uns bald um Begriffe wie Vektorraum, Linearkombination, lineare Unabhängigkeit,


Dimension, lineare Abbildung etc. kümmern.
Halten wir zunächst eine kurze Rückschau auf die Schulmathematik. Ein Punkt im R3
wird durch seine drei Koordinaten beschrieben. Verbindet man den Ursprung mit dem
Punkt, erhält man den zugehörigen Vektor; analoges gilt für den R2 .
In der Regel werden wir die Koordinaten eines Vektors untereinander statt nebenein-
ander schreiben. Zwei Vektoren1 (mit gleich vielen Koordinaten!) können addiert werden,
zum Beispiel im R3
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
x x x + x
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
v = ⎝ y ⎠ ,  = ⎝ y ⎠ ,
w  = ⎝ y + y ⎠ .
v + w
z z z + z

Ebenso kann man Vektoren mit reellen Zahlen multiplizieren:


⎛ ⎞
λx
⎜ ⎟
v = ⎝ λy ⎠
λ
λz

Dann gelten die von der herkömmlichen Addition und Multiplikation vertrauten Regeln

u + v) + w
(  = u + (
v + w)

v + w
 =w
 + v
v + w)
λ(  = λ
v + λw

(λ + μ)
v = λ
v + μ
v
v = λ(μ
(λμ) v)

Achtung: Das Produkt zweier Vektoren ist nicht erklärt.


Diese Ideen lassen sich sofort auf den Fall des Rn ausdehnen (allerdings versagt ab
n = 4 die geometrische Anschauung; jedenfalls bei den meisten Menschen). Ein Vektor
x ∈ Rn ist durch n Koordinaten bestimmt, die man untereinander schreibt:
⎛ ⎞
x1
⎜ . ⎟
x = ⎜ ⎟
⎝ .. ⎠ .
xn

1 In diesem einführenden Kapitel werden Vektoren zur Unterscheidung von Zahlen mit einem Pfeil
gekennzeichnet.
6 1 Lineare Gleichungssysteme

(Insbesondere haben wir somit die Menge Rn definiert.)


Wir halten weiter als formale Definition fest:

Definition 1.2.1 Für


⎛ ⎞ ⎛ ⎞
x1 y1
⎜ . ⎟ ⎜ . ⎟
x = ⎜ ⎟
⎝ .. ⎠ ∈ R ,
n
y = ⎜ ⎟
⎝ .. ⎠ ∈ R ,
n
λ∈R
xn yn

sind x + y und λ
x (bzw. λ · x) durch
⎛ ⎞ ⎛ ⎞
x1 + y1 λx1
⎜ ⎟ ⎜ . ⎟
x + y = ⎜

..
.
⎟,
⎠ x = λ · x = ⎜
λ ⎝ .. ⎠

xn + yn λxn

definiert. Wir setzen noch


⎛ ⎞ ⎞ ⎛
0 −x1
⎜ ⎟ ⎜ . ⎟
0 = ⎜ .. ⎟ , x=⎜
− ⎟ x − y = x + (−
⎝.⎠ ⎝ .. ⎠ sowie y ).
0 −xn

Dann hat man folgende Aussagen:

Satz 1.2.2 Für alle x, y, z ∈ Rn und λ, μ ∈ R gilt:


(a) (x + y) + z = x + (
y + z)
(b) 
x + 0 = x
(c) x + (− x ) = 0
(d) x + y = y + x
(e) λ(x + y) = λ x + λ
y
(f) (λ + μ) x = λ x + μx
(g) (λμ) x = λ(μ x)
(h) 1 · x = x

Diese Aussagen begründet man, indem man sie komponentenweise überprüft; das soll
für den Teil (a) im Detail ausgeführt werden. Für
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
x1 y1 z1
⎜ . ⎟ ⎜ . ⎟ ⎜ . ⎟
x = ⎜ ⎟
⎝ .. ⎠ , y = ⎜ ⎟
⎝ .. ⎠ , z = ⎜ ⎟
⎝ .. ⎠
xn yn zn
1.2 Vektoren im Rn und Matrizen über R 7

ist
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
x1 + y1 z1 (x1 + y1 ) + z1
⎜ ⎟ ⎜ . ⎟ ⎜ ⎟
x + y) + z = ⎜
( ⎝
..
.
⎟+⎜ . ⎟=⎜
⎠ ⎝ . ⎠ ⎝
..
.


xn + yn (xn + yn ) + zn
zn
⎛ ⎞⎞ ⎛ ⎛ ⎞
x1 + (y1 + z1 ) x1 y1 + z1
⎜ ⎟ ⎜ . ⎟ ⎜ ⎟
=⎜

..
.
⎟=⎜ . ⎟+⎜
⎠ ⎝ . ⎠ ⎝
..
.
⎟ = x + (
⎠ y + z);
xn + (yn + zn ) xn yn + zn

man sieht, dass das Assoziativgesetz für die Addition von Zahlen unmittelbar zum
Assoziativgesetz für Vektoren führt.
Satz 1.2.2 werden wir zum Ausgangspunkt des abstrakten Vektorraumbegriffs in
Definition 2.1.1 und 5.1.5 nehmen.
Betrachten wir nun noch einmal das Gleichungssystem aus Beispiel 1.1.1(a). Die
rechten Seiten wollen wir als Koordinaten eines Vektors b auffassen, also
⎛⎞
8
⎜ ⎟
b = ⎝ 12 ⎠ .
−5

Auch die linken Seiten lassen sich so auffassen, es entsteht dann


⎛ ⎞
2x + 3y − 2z
⎜ ⎟
⎝ 4x + 5y − 2z ⎠ ;
y − 3z

dieser Vektor lässt sich auch als


⎛ ⎞ ⎛ ⎞ ⎛ ⎞
2 3 −2
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
x ⎝ 4 ⎠ + y ⎝ 5 ⎠ + z ⎝ −2 ⎠ (1.2.1)
0 1 −3

schreiben. Indem wir die drei (Spalten-)Vektoren in (1.2.1) nebeneinander schreiben,


erhalten wir das folgende Schema aus 3 Zeilen und 3 Spalten, das die Koeffizienten auf
der linken Seite des Gleichungssystems wiedergibt:
⎛ ⎞
2 3 −2
⎜ ⎟
⎝ 4 5 −2 ⎠ . (1.2.2)
0 1 −3
8 1 Lineare Gleichungssysteme

Ein solches Schema nennt man eine Matrix, genauer ist (1.2.2) eine quadratische 3 × 3-
Matrix. Führt man dieselben Überlegungen mit dem Gleichungssystem aus Beispiel 1.1.2
durch, erhält man auf der rechten Seite den Vektor
⎛ ⎞
1
⎜ ⎟
⎜ 2⎟
b = ⎜ ⎟ ∈ R4
⎝ 7⎠
13

und auf der linken


⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
1 1 1 1 1
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ 2⎟ ⎜ −1 ⎟ ⎜ 3⎟ ⎜ 5⎟ ⎜1⎟
x1 ⎜ ⎟ + x2 ⎜ ⎟ + x3 ⎜ ⎟ + x4 ⎜ ⎟ + x5 ⎜ ⎟ ,
⎝ −3 ⎠ ⎝ 0⎠ ⎝ −2 ⎠ ⎝ −7 ⎠ ⎝0⎠
−1 −7 3 4 0

was zur Matrix


⎛ ⎞
1 1 1 11
⎜ ⎟
⎜ 2 −1 3 5 1 ⎟
⎜ ⎟
⎝ −3 0 −2 −7 0 ⎠
−1 −7 3 4 0

aus 4 Zeilen und 5 Spalten führt. Es fehlt noch ein Schritt, nämlich die Unbekannten
ebenfalls in einen (Spalten-)Vektor zu schreiben:
⎛ ⎞
⎛ ⎞ x1
⎜x ⎟
x ⎜ 2⎟
⎜ ⎟ ⎜ ⎟
⎝y ⎠ bzw. ⎜ x3 ⎟ .
⎜ ⎟
z ⎝ x4 ⎠
x5

Betrachten wir nun noch einmal (1.2.1). Unser Gleichungssystem aus Beispiel 1.1.1(a)
erweist sich als zu der Vektorgleichung
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
2 3 −2 8
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
x ⎝ 4 ⎠ + y ⎝ 5 ⎠ + z ⎝ −2 ⎠ = ⎝ 12 ⎠
0 1 −3 −5

äquivalent. Die linke Seite wollen wir nun als Wirkung der Matrix A aus (1.2.2) auf den
Vektor
1.2 Vektoren im Rn und Matrizen über R 9

⎛ ⎞
x
⎜ ⎟
x = ⎝ y ⎠
z

x schreibt. Kürzt man wie oben die rechte Seite als b ab,
interpretieren,2 wofür man kurz A
so lautet das Gleichungssystem kompakt


x = b.
A

Genauso lässt sich Beispiel 1.1.2 behandeln. Statt dies explizit auszuführen, kommen
wir gleich zum allgemeinen Fall (den Sie sich mit Hilfe von Beispiel 1.1.2 illustrieren soll-
ten). Gegeben sei ein lineares Gleichungssystem aus m Gleichungen mit n Unbekannten:

a11 x1 + a12 x2 + · · · + a1n xn = b1


a21 x1 + a22 x2 + · · · + a2n xn = b2
..
.
am1 x1 + am2 x2 + · · · + amn xn = bm

Die rechte Seite kann zu einem Vektor b ∈ Rm und die Unbekannten können zu einem
Vektor x ∈ Rn zusammengefasst werden:
⎛ ⎞ ⎛ ⎞
b1 x1
⎜ . ⎟ ⎜ . ⎟
b = ⎜ ⎟
⎝ .. ⎠ , x = ⎜ ⎟
⎝ .. ⎠ .
bm xn

Die Koeffizienten führen zu einer Matrix aus m Zeilen und n Spalten (einer m×n-Matrix3 ):
⎛ ⎞
a11 . . . a1n
⎜ ⎟
⎜ a21 . . . a2n ⎟
A=⎜
⎜ .. .. ⎟.
⎟ (1.2.3)
⎝ . . ⎠
am1 . . . amn

Um zu erklären, wie die m × n-Matrix A auf den Vektor x ∈ Rn wirkt, betrachten wir die
n Spalten

2 Unterscheide den Vektor x von der Zahl x.


3 Merke: Zeile zuerst, Spalte später.
10 1 Lineare Gleichungssysteme

⎛ ⎞ ⎛ ⎞ ⎛ ⎞
a11 a12 a1n
⎜ . ⎟ ⎜ . ⎟ ⎜ . ⎟
s1 = ⎜ ⎟
⎝ .. ⎠ , s2 = ⎜ ⎟
⎝ .. ⎠ , . . . , sn = ⎜
⎝ .. ⎠
⎟ ∈ Rm ,
am1 am2 amn

aus denen A besteht, und setzen (siehe Definition 1.2.3 unten)

x = x1 s1 + . . . + xn sn .
A

Unser Gleichungssystem lautet dann schlicht


x = b.
A

Statt des großen Rechtecks aus (1.2.3) schreibt man kürzer

A = (aij )i=1,...,m; j =1,...,n

oder

A = (aij ),

wenn der Laufbereich der Indizes klar ist. Explizit ist aij der Eintrag in Zeile Nummer i
und Spalte Nummer j (wieder Zeile zuerst, Spalte später); zum Beispiel ist in (1.2.2)

a13 = −2, a31 = 0.

Wir erklären jetzt offiziell (wie bereits angekündigt), wie eine Matrix auf einen Vektor
wirkt.

Definition 1.2.3 Sei A = (aij ) eine m × n-Matrix mit den Spalten s1 , . . . , sn , und sei
x ∈ Rn . Dann ist A
x der Vektor
⎛ ⎞
n
j =1 a1j xj
⎜ ⎟
Ax = x1 s1 + · · · + xn sn = ⎜

..
.
⎟ ∈ Rm .
⎠ (1.2.4)
n
j =1 amj xj

Wieder können wir einige elementare Eigenschaften festhalten.

Satz 1.2.4 Sei A eine m × n-Matrix. Für alle x, y ∈ Rn und λ ∈ R gilt dann

x + y) = A
A( x + A
y, x ) = λ · A
A(λ x.
1.2 Vektoren im Rn und Matrizen über R 11

Beweis Wir führen nur die erste Gleichheit aus und lassen die zweite zur Übung. Es sei
A = (aij ), und x bzw. y habe die Koordinaten x1 , . . . , xn bzw. y1 , . . . , yn . Dann ist
⎛ ⎞
n
j =1 a1j (xj + yj )
⎜ ⎟
x + y) = ⎜
A( ⎝
..
.


n
j =1 amj (xj + yj )
⎛ n ⎞
n
j =1 a1j xj + j =1 a1j yj
⎜ ⎟
=⎜

..
.


n n
a
j =1 mj j x + a
j =1 mj j y
⎛ ⎞ ⎛ ⎞
n n
j =1 a1j xj j =1 a1j yj
⎜ ⎟ ⎜ ⎟
=⎜

..
.
⎟+⎜
⎠ ⎝
..
.
⎟ = A
⎠ x + A
y.
n n
j =1 amj xj j =1 amj yj

Man sieht, dass das Distributivgesetz für Zahlen zum Distributivgesetz für die Matrix-
Vektor-Multiplikation führt. 

Als nächstes behandeln wir die Multiplikation von Matrizen. Es seien A = (aij ) eine
l × m-Matrix, B = (bj k ) eine m × n-Matrix sowie x ∈ Rn . Setze y = B x ∈ Rm . Wir
y ∈ Rl durch x auszudrücken: Es ist
versuchen, z = A
⎛ ⎞ ⎛ ⎞ ⎞ ⎛
n
x1 y1
k=1 b1k xk
⎜ . ⎟ ⎜ ⎟ ⎜ ⎟
x = ⎜ ⎟
⎝ .. ⎠ , y = B x = ⎜

..
.
⎟ =: ⎜ .. ⎟
⎠ ⎝ . ⎠
n
xn b x
k=1 mk k ym

sowie
⎛ ⎞
m
j =1 a1j yj
⎜ ⎟
y=⎜
z = A ⎝
..
.
⎟.

m
j =1 alj yj

In der i-ten Komponente von z steht

m m n n m
zi = aij yj = aij bj k xk = aij bj k xk .
j =1 j =1 k=1 k=1 j =1

Bezeichnet man für i = 1, . . . , l und k = 1, . . . , n


12 1 Lineare Gleichungssysteme

m
cik = aij bj k ,
j =1

so haben wir folgenden Satz gezeigt.

Satz 1.2.5 Sei A = (aij ) eine l × m-Matrix sowie B = (bj k ) eine m × n-Matrix. Definiere
eine l × n-Matrix C mit den Einträgen

m
cik = aij bj k .
j =1

Dann gilt für alle x ∈ Rn

C x = A(B x).

Definition 1.2.6 In den Bezeichnungen von Satz 1.2.5 heißt C das Produkt von A und B.

Beachten Sie: Das Produkt AB ist nur erklärt, wenn gilt:

Anzahl der Zeilen von B = Anzahl der Spalten von A

Ein Beispiel:
⎛ ⎞ ⎛ ⎞
24 18 24 30
⎜ ⎟ ⎜ ⎟
⎜6 0⎟ 123 ⎜ 6 12 18 ⎟
A=⎜ ⎟, B= , C = AB = ⎜ ⎟
⎝2 4⎠ 456 ⎝ 18 24 30 ⎠
80 8 16 24

(z. B.: c12 = a11 b12 + a12 b22 = 2 · 2 + 4 · 5 = 24).


Da man einen Vektor x ∈ Rn auch als n × 1-Matrix auffassen kann, stellt sich das
Matrix-Vektor-Produkt als Spezialfall von Definition 1.2.6 heraus.
Hier ist noch eine andere Sichtweise auf das Matrixprodukt. Wenn B die Spalten
s1 , . . . , sn hat, hat AB die Spalten As1 , . . . , Asn (warum nämlich?).
Die Matrixmultiplikation teilt einige Eigenschaften mit der Multiplikation von Zahlen;
z. B. ist (nachrechnen!) – die passenden Abmessungen der Matrizen vorausgesetzt –

A(BC) = (AB)C;

d. h. die Matrixmultiplikation ist assoziativ.


Hingegen ist AB im Allgemeinen nicht dasselbe wie BA. Zum einen braucht BA gar
nicht definiert zu sein, wenn AB es ist; aber selbst für quadratische Matrizen (wo AB und
1.3 Der Gaußsche Algorithmus 13

BA beide definiert sind) findet man leicht Beispiele für AB = BA, etwa (n = 2):

10 01 01 11
A= , B= , AB = , BA = .
11 10 11 10

Die Matrixmultiplikation ist daher nicht kommutativ.

1.3 Der Gaußsche Algorithmus

In den Beispielen in Abschn. 1.1 haben wir die Gleichungssysteme durch gewisse
Zeilenumformungen gelöst. Das wollen wir jetzt systematisieren; wir arbeiten dabei auf
der Ebene der Matrizen und nicht der Gleichungen.
Bei einem gegebenen Gleichungssystem A x = b nennt man die um die Spalte b

erweiterte m × (n + 1)-Matrix die erweiterte Koeffizientenmatrix; man schreibt (A | b)
(der senkrechte Strich ist eine Hilfslinie, die sich als praktisch erweist).
Es gibt die folgenden drei Typen von elementaren Zeilenumformungen, die wir
vornehmen:

(I) Vertausche zwei Zeilen (kurz: Zi ↔ Zj ).


(II) Addiere koordinatenweise das λ-fache einer Zeile zu einer anderen Zeile (kurz:
Zi ; Zi + λZj ).
(III) Nimm koordinatenweise eine Zeile mit einer Zahl λ = 0 mal (kurz: Zi ; λZi ).

Nehmen wir an, die erweiterte Koeffizientenmatrix des Gleichungssystems A x = b


wäre durch endlich viele elementare Zeilenumformungen in die erweiterte Koeffizienten-
matrix des Gleichungssystems A x = b überführt worden. Dann gilt:

x = b und A x = b haben dieselbe


Satz 1.3.1 Die linearen Gleichungssysteme A
Lösungsmenge.

Beweis Man braucht nur zu überlegen, dass das stimmt, wenn eine einzige Zeilenumfor-
mung vorgenommen wird; und das ist offensichtlich für Typ I und Typ III. Bei Typ II sind
nur zwei Zeilen im Spiel; ohne Einschränkung seien das die ersten beiden. Schreiben wir
die Zeilen als 1 × n-Matrizen, so ist für x ∈ Rn zu zeigen:

Z1 x = b1 , Z2 x = b2 ⇐⇒ Z1 x + λZ2 x = b1 + λb2 , Z2 x = b2 ,

und das ist klar. 

Die Strategie zur Lösung von A x = b wird also sein, die Matrix (A | b)
 in eine
besonders einfache Form zu überführen, so dass die Lösungsmenge unmittelbar abzulesen
14 1 Lineare Gleichungssysteme

ist. Diese Form ist die Zeilenstufenform, deren Konstruktion wir für eine m × n-Matrix A
algorithmisch beschreiben.

• Betrachte a11 . Nach einer Typ-I-Umformung dürfen wir a11 = 0 annehmen. [Sollten
alle ai1 = 0 sein, würde x1 in unserem Gleichungssystem gar nicht explizit
auftauchen.] Anschließend führen wir für i = 2, . . . , m die Typ-II-Umformung
(1)
Zi ; Zi − aa11
i1
Z1 durch. Es ist jetzt eine neue Matrix A(1) entstanden, in der a11 = 0
(1)
und ai1 = 0 für i = 2, . . . , m ist.
(1) (1)
• Betrachte a22 . Es sind zwei Fälle denkbar: Es ist ai2 = 0 für ein i ∈ {2, . . . , m}, oder
(1)
es ist ai2 = 0 für alle i ∈ {2, . . . , m}.
(1)
Im ersten Fall dürfen wir nach einer Typ-I-Umformung a22 = 0 annehmen.
(1)
ai2
Anschließend führen wir für i = 3, . . . , m die Typ-II-Umformung Zi ; Zi − (1) Z2
a22
(2) (2)
durch. Es ist jetzt eine neue Matrix A(2) entstanden, in der = 0 unda22 ai2 = 0 für
i = 3, . . . , m ist.
(1)
Im zweiten Fall betrachte a23 und wiederhole den letzten Schritt.
• Wiederhole den letzten Schritt für die nächste Spalte.

Auf diese Weise entsteht nach endlich vielen Schritten eine Matrix A mit folgender
Eigenschaft: Es gibt 1 ≤ j1 < j2 < · · · < jr ≤ n mit

aij i = 0 für i ≤ r,
aij = 0 für j < ji , i = 1, . . . , r,
aij = 0 für i > r.

Die Elemente aij i heißen die Pivots und die Spalten mit den Nummern j1 , . . . , jr die
Pivotspalten.
Man beachte, dass zur Konstruktion keine Typ-III-Umformungen verwandt wurden!
Wir führen das Verfahren am Beispiel der erweiterten Koeffizientenmatrix aus Bei-
spiel 1.1.1 vor:
⎛ ⎞ ⎛ ⎞
2 3 −2 8
⎜ ⎟ ⎜ ⎟
⎝ A b ⎠ = ⎝ 4 5 −2 12 ⎠
0 1 −3 −5

Dann erhalten wir nacheinander (vergleiche Seite 1)


⎛ ⎞
2 3 −2 8
⎜ ⎟
⎝ 0 −1 2 −4 ⎠
0 1 −3 −5
1.3 Der Gaußsche Algorithmus 15

⎛ ⎞
2 3 −2 8
⎜ ⎟
⎝ 0 −1 2 −4 ⎠
0 0 −1 −9

Ignoriert man die führenden Nullen, so sieht man förmlich die Zeilenstufenform:
⎛ ⎞
3 −2 8
2
⎜ ⎟
⎝ −1 2 −4 ⎠
−1 −9

Durch Rückwärtssubstitution lässt sich jetzt das neuen Gleichungssystem bequem lösen,
und wegen Satz 1.3.1 hat man auch das Originalsystem gelöst; wir erhalten die schon
bekannte eindeutige Lösung. Man beachte, dass sich bei einer anderen rechten Seite b nur
die Werte rechts von der Hilfslinie ändern würden.
Im Beispiel 1.1.2 haben wir folgende Zeilenstufenform:
⎛ ⎞
1
11 1 1 1
⎜ ⎟
⎜ −3 1 3 −1 0⎟
⎜ ⎟ (1.3.1)
⎝ 2 −1 2 10 ⎠
1 4

Da die vorletzte Stufe vor der Hilfslinie nicht die „Länge“ 1 hat, kann man x4 frei wählen
und erhält unendlich viele Lösungen des Gleichungssystems.
Die Methode, ein lineares Gleichungssystem durch Rückwärtssubstitution aus der
Zeilenstufenform der erweiterten Koeffizientenmatrix zu lösen, nennt man Gaußsches
Eliminationsverfahren oder den Gaußschen Algorithmus.
Die Lösbarkeit lässt sich qualitativ so beschreiben.

Satz 1.3.2 Betrachte die Zeilenstufenform der erweiterten Koeffizientenmatrix des Glei-
chungssystems Ax = b mit den Pivot-Indizes 1 ≤ j1 < j2 < · · · < jr ≤ n + 1.
(a) Wenn jr = n + 1 ist, ist das Gleichungssystem nicht lösbar.
(b) Wenn jr ≤ n und r = n ist (so dass all ji = i sind), ist das Gleichungssystem
eindeutig lösbar.
(c) Wenn jr ≤ n und r < n ist, besitzt das Gleichungssystem unendlich viele Lösungen.
Genauer gilt im Fall (c): Ist ji+1 − ji > 1, so können die Variablen xji +1 , . . . , xji+1 −1 frei
gewählt werden; Analoges gilt im Fall n − jr > 1.

Zur Begründung muss man nur die Zeilenstufenform genau ansehen und Satz 1.3.1
heranziehen.
Man nennt ein Gleichungssystem der Form
16 1 Lineare Gleichungssysteme

x = 0
A (1.3.2)

homogen und eins der Form

x = b
A (1.3.3)

 even-
inhomogen. Ein homogenes Gleichungssystem hat stets eine Lösung, nämlich x = 0,
tuell aber noch weitere. Zwischen den Lösungen eines homogenen und eines inhomogenen
Systems (mit derselben Matrix A) besteht folgender Zusammenhang (nachrechnen!):

Satz 1.3.3
(a) Sind x und w Lösungen von (1.3.2), so auch λ x + μw  für λ, μ ∈ R.
(b) Ist x eine Lösung von (1.3.2) und y eine Lösung von (1.3.3), so ist x + y eine Lösung
von (1.3.3).
(c) Sind y1 und y2 Lösungen von (1.3.3), dann ist y1 − y2 eine Lösung von (1.3.2).

Wir erhalten folgendes wichtige Korollar aus Satz 1.3.2.

Korollar 1.3.4 Sei A eine quadratische Matrix. Wenn das zugehörige homogene Glei-
chungssystem nur die triviale Lösung besitzt, ist jedes inhomogene Gleichungssystem
Ax = b eindeutig lösbar.

Beweis Das folgt daraus, dass die Bedingung von Teil (b) in Satz 1.3.2 unabhängig von
der Wahl der rechten Seite b eintritt, und nach Voraussetzung des Korollars tritt sie für
b = 0 ein. 

Hier ein weiteres Korollar.

x = 0 mit m Gleichungen und n >


Korollar 1.3.5 Jedes homogene Gleichungssystem A
m Unbekannten hat unendlich viele Lösungen.

Beweis Hier ist A also eine m × n-Matrix. In der Notation von Satz 1.3.2 ist jetzt jr ≤ n
und r ≤ m, also r < n, so dass Teil (c) dieses Satzes die Behauptung liefert. 

Man kann bei der Bildung der Zeilenstufenform einer Matrix noch einen Schritt wei-
tergehen und alle Einträge oberhalb eines Pivots zu 0 machen (Typ-II-Umformungen) und
den Pivot selbst zu 1 (Typ-III-Umformungen). Das liefert die reduzierte Zeilenstufenform,
und man nennt den Gaußschen Algorithmus dann das Gauß-Jordan-Verfahren. Im Fall der
eindeutigen Lösbarkeit mit einer quadratischen Matrix A wird diese zur Einheitsmatrix
1.4 Exkurs über Abbildungen 17

⎛ ⎞
1 0
⎜ ⎟
En = ⎜

..
. ⎟
⎠ (1.3.4)
0 1

transformiert, in der auf der Hauptdiagonalen nur Einsen und außerhalb nur Nullen stehen.
(Die Hauptdiagonale einer quadratischen Matrix (aij ) enthält alle Einträge aii .)

1.4 Exkurs über Abbildungen

Seien X und Y Mengen. Eine Abbildung f : X → Y bildet jedes Element x des


Definitionsbereichs X auf ein gewisses (von x abhängiges) Element y des Wertevorrats
Y ab. (Genaueres dazu am Ende des Abschnitts.) Ist Y eine Menge von Zahlen, spricht
man auch gern von einer Funktion. Eine Abbildung f ist durch den Definitionsbereich X,
den Wertevorrat Y und die Abbildungsvorschrift x → f (x) festgelegt. Daher sind

f1 : R → R, f1 (x) = x 2
f2 : [0, ∞) → R, f2 (x) = x 2
f3 : R → [0, ∞), f3 (x) = x 2
f4 : [0, ∞) → [0, ∞), f4 (x) = x 2

vier verschiedene Abbildungen!


Unterscheiden Sie stets f (x), den Wert von f an der Stelle x, von der Abbildung f !
Sie müssen drei wichtige Vokabeln lernen:

• f : X → Y heißt injektiv, wenn

x1 , x2 ∈ X, f (x1 ) = f (x2 ) ⇒ x1 = x2

gilt.
• f : X → Y heißt surjektiv, wenn jedes y ∈ Y von der Form f (x) für ein geeignetes
x ∈ X ist. Das können wir auch in Quantorenschreibweise4 ausdrücken:

∀y ∈ Y ∃x ∈ X y = f (x).

• f : X → Y heißt bijektiv, wenn f sowohl injektiv als auch surjektiv ist.

4 ∀ (umgedrehtes A) steht für „für alle“, ∃ (umgedrehtes E) steht für „es existiert“. Manche Autoren
benutzen bei Bedarf auch ∃!, das für „es existiert genau ein“ steht.
18 1 Lineare Gleichungssysteme

In den obigen Beispielen ist f2 injektiv, aber nicht surjektiv, f3 ist surjektiv, aber nicht
injektiv, f4 ist bijektiv, und f1 ist weder injektiv noch surjektiv.
Diese Begriffe können mit Hilfe von Gleichungen ausgedrückt werden: „f ist injektiv“
bedeutet, dass die Gleichung f (x) = y für jedes y ∈ Y höchstens eine Lösung in
X besitzt; „f ist surjektiv“ bedeutet, dass die Gleichung f (x) = y für jedes y ∈ Y
mindestens eine Lösung in X besitzt; „f ist bijektiv“ bedeutet, dass die Gleichung
f (x) = y für jedes y ∈ Y genau eine Lösung in X besitzt.
Wichtige Operationen sind Bild und Urbild einer Abbildung f : X → Y . Für A ⊂ X
ist5

f (A) = {y ∈ Y : ∃x ∈ A f (x) = y} = {f (x): x ∈ A} ⊂ Y

das Bild von A unter f , und für B ⊂ Y ist

f −1 (B) = {x ∈ X: f (x) ∈ B} ⊂ X

das Urbild von B unter f . (Je nach Kontext muss man verstehen, ob mit f ( ) eine
Teilmenge oder ein Element von Y gemeint ist.) Dass f injektiv ist, kann man auch so
ausdrücken:

∀x ∈ X: f −1 ({f (x)}) = {x},

und dass f surjektiv ist, so:

f (X) = Y.

Es gelten folgende Aussagen für A1 , A2 ⊂ X, B1 , B2 ⊂ Y :

f (A1 ∪ A2 ) = f (A1 ) ∪ f (A2 )


f (A1 ∩ A2 ) ⊂ f (A1 ) ∩ f (A2 )
−1
f (B1 ∪ B2 ) = f −1 (B1 ) ∪ f −1 (B2 )
f −1 (B1 ∩ B2 ) = f −1 (B1 ) ∩ f −1 (B2 )

Wir wollen die zweite Aussage begründen und lassen die übrigen zur Übung; zur
Erinnerung: Gleichheit zweier Mengen M1 = M2 bedeutet, dass sowohl M1 ⊂ M2 als
auch M2 ⊂ M1 gilt. Sei also y ∈ f (A1 ∩A2 ). Dann existiert ein x ∈ A1 ∩A2 mit f (x) = y.
Da x ∈ A1 ist, folgt insbesondere y ∈ f (A1 ), und da x ∈ A2 ist, folgt y ∈ f (A2 ). Daher
ist y ∈ f (A1 ) ∩ f (A2 ), und die Inklusion ist gezeigt. Es gilt hier im Allgemeinen keine
Gleichheit; Beispiel: f : R → R, f (x) = x 2 , A1 = [−1, 0], A2 = [0, 1].

5 In diesem Text schließt das Symbol ⊂ die Gleichheit ein; also ist X ⊂ X korrekt.
1.4 Exkurs über Abbildungen 19

Seien f : X → Y und g: Y → Z zwei Abbildungen. Die Komposition von g und f ist


durch

g ◦ f : X → Z, (g ◦ f )(x) = g(f (x))

erklärt; lies „g nach f “ oder „g Kringel f “. Die identische Abbildung auf X (bzw. Y )
werde mit idX (bzw. idY ) bezeichnet. Falls

g ◦ f = idX ,

ist f injektiv und g surjektiv. (Beweis: Aus f (x1 ) = f (x2 ) folgt x1 = g(f (x1 )) =
g(f (x2 )) = x2 , und f ist injektiv; ist x ∈ X gegeben, so ist x = g(f (x)), und g ist
surjektiv.) Allerdings brauchen f und g nicht bijektiv zu sein, und f ◦ g braucht nicht idY
zu sein; z. B.

n − 1 für n ≥ 2,
X = Y = N, f (n) = n + 1, g(n) =
1 für n = 1.

Für eine bijektive Abbildung f : X → Y kann man die inverse Abbildung f −1 durch

f −1 : Y → X, f −1 (y) = x ⇔ f (x) = y

definieren; es gelten dann

f −1 ◦ f = idX , f ◦ f −1 = idY .

Bijektive Abbildungen heißen deshalb auch invertierbar. (Achtung: Der Exponent −1 hat
hier eine andere Bedeutung als beim Urbild.)
Wir können noch einen Schritt weiter gehen:

Lemma 1.4.1
(a) Wenn f : X → Y bijektiv ist und wenn g: Y → X eine Abbildung mit g ◦ f = idX ist,
ist notwendig g = f −1 und deshalb auch f ◦ g = idY .
(b) Wenn f : X → Y bijektiv ist und wenn g: Y → X eine Abbildung mit f ◦ g = idY ist,
ist notwendig g = f −1 und deshalb auch g ◦ f = idX .

Beweis (a) Für y ∈ Y gilt

f −1 (y) = (g ◦ f )(f −1 (y)) = g(f (f −1 (y))) = g(y);

das war zu zeigen.


(b) wird genauso bewiesen. 
20 1 Lineare Gleichungssysteme

Man kann die obige Beschreibung einer Abbildung für unbefriedigend halten (was
genau heißt „bildet x auf y ab“?). In der Mengenlehre führt man daher zuerst den Begriff
der Relation ein – das ist nichts anderes als eine Teilmenge R ⊂ X × Y = {(x, y): x ∈ X,
y ∈ Y }. Eine Abbildung mit dem Definitionsbereich X ist dann eine Relation mit:
• Für alle x ∈ X existiert genau ein y ∈ Y mit (x, y) ∈ R.
So kann man präzise ausdrücken, dass x auf y abgebildet wird.

1.5 Invertierbare Matrizen

Wir betrachten nun Matrizen A und die zugehörigen Abbildungen

LA : x → A
x.

Wir können dann Satz 1.2.4 so umformulieren:

Satz 1.5.1 Sei A eine m × n-Matrix, und sei LA : Rn → Rm wie oben. Für x, y ∈ Rn und
λ ∈ R gilt dann

x + y) = LA (
LA ( x ) + LA (
y ), x ) = λLA (
LA (λ x ).

Diese Eigenschaft werden wir bald mit den Worten ausdrücken, LA sei eine lineare
Abbildung.
Entsprechend kann Satz 1.2.5 so umformuliert werden.

Satz 1.5.2 Sei A eine l × m-Matrix, und sei B eine m × n-Matrix. Dann gilt
LAB = LA ◦ LB .

Schließlich formulieren und ergänzen wir Korollar 1.3.4 in der Sprache der Abbildun-
gen.

Satz 1.5.3 Sei A eine n × n-Matrix. Dann ist LA genau dann injektiv, wenn LA surjektiv
ist.

Beweis „Injektiv impliziert surjektiv“ folgt sofort aus Korollar 1.3.4. Ist umgekehrt LA
surjektiv, so muss in der Notation von Satz 1.3.2 jr ≤ n sein. Wäre r < n, enthielte die
Zeilenstufenform A von A eine Nullzeile, und LA wäre nicht surjektiv; denn A x = b
ist nicht lösbar, wenn die letzte Koordinate von b nicht 0 ist. Betrachten wir solch ein
b und machen wir die Zeilenumformungen, die A in A überführen, rückwärts, erhalten
wir einen Vektor b, für den Ax = b nicht lösbar ist; das zeigt, dass dann auch LA nicht
surjektiv ist. Also muss r = n sein, und LA ist nach Satz 1.3.2 injektiv. 
1.5 Invertierbare Matrizen 21

Nehmen wir nun an, A sei eine quadratische Matrix und LA bijektiv. Um die Gleichung
Ax = b zu lösen, wäre es gut, die inverse Abbildung (LA )−1 zu kennen, denn dann können
wir sofort die Lösung x = (LA )−1 (b) hinschreiben. Wir werden diese Inverse in der Form
LB für eine geeignete Matrix B konstruieren. Dazu zunächst einige Vorbemerkungen.
Sei A eine n × n-Matrix. Nehmen wir an, dass eine n × n-Matrix B mit AB = En
existiert. Wegen Satz 1.5.2 folgt LA ◦ LB = idRn ; deshalb (vgl. Abschn. 1.4) ist LA
surjektiv und wegen Satz 1.5.3 bijektiv. Nach Lemma 1.4.1 ist LB = (LA )−1 und deshalb
auch LBA = LB ◦ LA = idRn sowie (warum?) BA = En .
Genauso schließt man aus der Annahme, dass eine n × n-Matrix B mit BA = En
existiert, dass diese auch AB = En erfüllt.
Beachten wir noch, dass solche B eindeutig bestimmt sind: Aus AB1 = AB2 = En
folgt nämlich (da ja dann auch B1 A = En )

B1 = B1 En = B1 (AB2 ) = (B1 A)B2 = En B2 = B2 .

Das führt uns zu folgender Definition und anschließend zu einem Lemma:

Definition 1.5.4 Eine n × n-Matrix A heißt invertierbar, wenn es genau eine Matrix B
mit AB = BA = En gibt. Bezeichnung: B = A−1 .

Lemma 1.5.5 Eine n × n-Matrix A ist invertierbar, wenn es eine n × n-Matrix B mit
AB = En gibt oder wenn es eine n × n-Matrix B mit BA = En gibt. In beiden Fällen ist
A−1 = B.

Um dieses Lemma richtig wertzuschätzen, erinnere man sich, dass für beliebige
quadratische Matrizen AB und BA im Allgemeinen verschieden sind und dass für
beliebige Abbildungen aus g ◦ f = id im Allgemeinen nicht f ◦ g = id folgt!
Wie kann man einer Matrix ansehen, ob sie invertierbar ist? Leider nicht direkt, aber
die Zeilenstufenform hilft. Wir wissen bereits, dass eine n × n-Matrix A genau dann
invertierbar ist, wenn LA bijektiv ist, und nach Satz 1.3.2 (siehe auch den Beweis von
Satz 1.5.3) passiert das genau dann, wenn die Zeilenstufenform von A keine Nullzeile
(bzw. n Pivotspalten) enthält.
Halten wir das fest.

Lemma 1.5.6 Eine n × n-Matrix A ist genau invertierbar, wenn ihre Zeilenstufenform
keine Nullzeile bzw. n Pivotspalten enthält.

Wie am Ende von Abschn. 1.3 ausgeführt, ist die reduzierte Zeilenstufenform einer
invertierbaren Matrix dann En . Das eröffnet ein Konstruktionsverfahren für die Inverse.
Sei also A eine invertierbare n × n-Matrix. Wir suchen die Matrix A−1 , deren Spalten
wir mit s1 , . . . , sn bezeichnen. Wir nennen
22 1 Lineare Gleichungssysteme

⎛ ⎞ ⎛ ⎞ ⎛ ⎞
1 0 0
⎜0⎟ ⎜1⎟ ⎜0⎟
⎜0⎟ ⎜0⎟ ⎜ ⎟
e1 = ⎜ . ⎟, e2 = ⎜ . ⎟, . . . , en = ⎜ ... ⎟
⎝.⎠ ⎝.⎠ ⎝ ⎠
. . 0
0 0 1

die Einheitsvektoren des Rn . Definitionsgemäß gilt dann für alle k = 1, . . . , n

Ask = ek ,

denn AA−1 = En . Es sind also n Gleichungssysteme zu lösen, wofür wir das Gauß-
Jordan-Verfahren benutzen. Diese n Aufgaben lösen wir simultan wie folgt. Wir wenden
auf die n × 2n-Matrix (A | En ) so lange elementare Zeilenumformungen an, bis links vom
Hilfsstrich En erscheint; rechts vom Hilfsstrich hat man dann A−1 . Warum funktioniert
das? Die transformierte Matrix sei (En | B), und B habe die Spalten b1 , . . . , bn . Nach
Satz 1.3.1 ist die Lösung von A x = ek , also sk , dieselbe wie die Lösung von En x = bk ,
also bk . Daher ist B = A−1 .
Ein Beispiel:

29
A=
14

Wir führen folgende Zeilenumformungen durch:

2910
1401

2 9 10
Z2 ; 2Z2 − Z1 :
0 −1 −1 2

291 0
Z2 ; − Z2 :
0 1 1 −2

2 0 −8 18
Z1 ; Z1 − 9Z2 :
0 1 1 −2

1 1 0 −4 9
Z1 ; Z1 :
2 0 1 1 −2

Daher ist die inverse Matrix

−4 9
A−1 = .
1 −2
1.6 Die LR-Zerlegung 23

Übrigens muss man zur Anwendung dieses Verfahrens gar nicht a priori wissen,
dass A invertierbar ist; das Verfahren liefert auch ein Kriterium zur Überprüfung der
Invertierbarkeit. Bringt man nämlich (A | En ) auf die reduzierte Zeilenstufenform und
erhält man links vom Hilfsstrich nicht En , sondern eine Matrix mit einer Nullzeile, so
war A nicht invertierbar.
Es folgt noch ein sehr einfaches Lemma über invertierbare Matrizen.

Lemma 1.5.7 Sind A und B invertierbare n × n-Matrizen, so ist auch AB invertierbar


mit (AB)−1 = B −1 A−1 .

Beweis Beachte nur die Assoziativität der Matrixmultiplikation und

(B −1 A−1 )(AB) = B −1 (A−1 A)B = B −1 B = En

sowie Lemma 1.5.5. 

1.6 Die LR-Zerlegung

Als nächstes werfen wir einen neuen Blick auf die elementaren Zeilenumformungen. Wir
wählen eine beliebige solche Umformung und führen sie einerseits für die Matrix Em und
andererseits für eine m × n-Matrix A aus; das Resultat sei E ∼ (solch eine Matrix heißt
Elementarmatrix) bzw. A∼ . Ist die Umformung z. B. Z2 ; Z2 + λZ1 vom Typ II, so ist
⎛ ⎞
1 0 0 ... 0
⎜λ 1 0 ... 0⎟
⎜ ⎟
⎜ ⎟
E∼ = ⎜

001 0⎟.
⎟ (1.6.1)
⎜ .. .. .. ⎟
⎝. . .⎠
0 0 0 ... 1

Für alle drei Typen von Umformungen bestätigt man E ∼ A = A∼ sowie, dass E ∼
invertierbar ist. (Für die Inverse im obigen Beispiel muss man nur λ durch −λ ersetzen.)
Bestätigen wir das pars pro toto für die in (1.6.1) genannte Elementarmatrix E ∼ : Ist
x ∈ Rm , so ist E ∼ x derjenige Vektor, für den die erste, dritte, vierte, . . . , m-te Koordinate
dieselbe ist wie bei x, und die zweite Koordinate ändert sich von x2 zu λx1 + x2 . Ist also
sj die j -te Spalte von A, so ist demnach E ∼ sj die j -te Spalte von A∼ , d. h. E ∼ A = A∼ .
Wegen seiner Bedeutung formulieren wir dieses Resultat erneut als Lemma.

Lemma 1.6.1 Wendet man ein und dieselbe Zeilenumformung auf die Einheitsmatrix
Em ∈ Rm×m und eine Matrix A ∈ Rm×n an und erhält man so E ∼ bzw. A∼ , so gilt
A∼ = E ∼ A.
24 1 Lineare Gleichungssysteme

Da nach Lemma 1.5.7 das Produkt invertierbarer Matrizen invertierbar ist, erhalten wir
folgendes Resultat.

Satz 1.6.2 Ist A eine m × n-Matrix und A ihre Zeilenstufenform oder ihre reduzierte
Zeilenstufenform, so existiert eine invertierbare m × m-Matrix S mit SA = A .

Dieser Satz lässt Satz 1.3.1 im neuen Licht erscheinen: In der Tat ist die Äquivalenz

x = b
A ⇔ A x = b

klar, da ja A = SA und b = S b mit invertierbarem S.


Im Folgenden betrachten wir eine quadratische invertierbare n × n-Matrix A mit
Zeilenstufenform A . Wir wollen die in Satz 1.6.2 auftauchende Matrix S genauer
untersuchen.
Zunächst machen wir die zusätzliche Annahme, dass bei der Umformung von A zu

A keine Zeilenvertauschungen notwendig sind, d. h., dass die Pivots immer da sind, wo
wir sie brauchen. Es kommen also nur Typ-II-Umformungen vor, und die entsprechenden
Elementarmatrizen sehen so aus: Auf der Hauptdiagonalen stehen Einsen, an genau einer
Stelle unterhalb der Hauptdiagonalen steht eine Zahl λ = 0, und alle anderen Einträge
sind 0. Insbesondere sind dies alles untere Dreiecksmatrizen: Eine n × n-Matrix C = (cij )
heißt untere Dreiecksmatrix (bzw. obere Dreiecksmatrix), wenn cij = 0 für alle i < j
(bzw. cij = 0 für alle i > j ).
Es ist nun leicht nachzurechnen, dass das Produkt C = (cij ) unterer Dreiecksmatrizen
(1) (2)
C1 = (cij ) und C2 = (cij ) ebenfalls eine untere Dreiecksmatrix ist; denn für i < k ist

n i i
(1) (2) (1) (2) (1)
cik = cij cj k = cij cj k = cij · 0 = 0;
j =1 j =1 j =1

(1) (2)
hier haben wir zuerst benutzt, dass cij = 0 für i < j , und dann, dass cj k = 0 für
j ≤ i < k. Genauso sieht man, dass auf der Hauptdiagonalen von C nur Einsen stehen,
wenn das bei C1 und C2 so ist.
Nun ist es so, dass die Inversen von Elementarmatrizen vom Typ II von derselben
Bauart sind (siehe das obige Beispiel). Die Darstellung

A = Es · · · E1 A

mit Elementarmatrizen vom Typ II führt also zur Darstellung (Fσ = Eσ−1 )

A = F1 · · · Fs A =: LA .
1.6 Die LR-Zerlegung 25

Hier ist L nach den Vorbemerkungen eine untere Dreiecksmatrix mit Einsen auf der
Hauptdiagonalen, und A ist eine obere Dreiecksmatrix mit von 0 verschiedenen Einträgen
auf der Hauptdiagonalen. (Eine genauere Beschreibung von L folgt gleich.) Schreiben wir
R statt A , haben wir mit

A = LR

die Matrix A in das Produkt einer unteren und einer oberen Dreiecksmatrix faktorisiert;
dies nennt man im deutschen Sprachraum die LR-Zerlegung (L wie links und R wie rechts)
und im englischen die LU-decomposition (L wie lower und U wie upper).
Rechnen wir das einmal für unsere Beispielmatrix aus Beispiel 1.1.1(a) durch. Hier war
(siehe oben)
⎛ ⎞ ⎛ ⎞
100 100
⎜ ⎟ ⎜ ⎟
E1 = ⎝ −2 1 0 ⎠ E2 = ⎝ 0 1 0 ⎠ ,
001 011

also
⎛ ⎞ ⎛ ⎞
100 1 00
⎜ ⎟ ⎜ ⎟
F1 = ⎝ 2 1 0 ⎠ F2 = ⎝ 0 1 0 ⎠
001 0 −1 1

und
⎛ ⎞ ⎛ ⎞
1 00 2 3 −2
⎜ ⎟ ⎜ ⎟
L = F1 F2 = ⎝ 2 1 0 ⎠ , R = ⎝ 0 −1 2 ⎠ .
0 −1 1 0 0 −1

Man beachte, dass in L genau dokumentiert ist, welche Typ-II-Umformungen durchge-


führt wurden!
Um dies allgemein zu begründen, führen wir folgende Notation ein. Für i = j sei
Eij (λ) diejenige n × n-Matrix, die auf der Hauptdiagonalen nur Einsen hat und für die
der Eintrag in Zeile i und Spalte j die Zahl λ ist; alle anderen Einträge sind 0. Wie schon
beobachtet, sind diese Matrizen invertierbar mit der Inversen

(Eij (λ))−1 = Eij (−λ),

x ersetzt die i-te Koordinate xi von x durch xi + λxj . Bei der Überführung von
und Eij (λ)
A nach A wird also mit geeigneten Zahlen λij (i > j ) das Matrixprodukt

A = En,n−1 (λn,n−1 )[. . . ](En2 (λn2 ) · · · E32 (λ32 ))(En1 (λn1 ) · · · E21 (λ21 ))A
26 1 Lineare Gleichungssysteme

gebildet, daher ist

L = (E21 (−λ21 ) · · · En1 (−λn1 ))(E32 (−λ32 ) · · · En2 (−λn2 ))[. . . ]En,n−1 (−λn,n−1 ).

Diese Matrix ist jedoch


⎛ ⎞
1 0 ... 0
⎜ −λ 0⎟
⎜ 21 1 0 ... ⎟
⎜ ⎟
L = ⎜ −λ31 −λ32 1 0⎟;
⎜ .. .. .. ⎟
⎝ . . . 0⎠
−λn1 −λn2 . . . −λn,n−1 1

das macht man sich klar, indem man die von den Eij (−λij ) hervorgerufenen Zeilenopera-
tionen genau verfolgt (eine Beispielrechnung für eine 4 × 4-Matrix mag hilfreich sein, um
den allgemeinen Fall zu durchdringen).
Die LR-Zerlegung ist numerisch wichtig, wenn man große (n ≥ 105 ) Gleichungssys-
teme A x = b für „viele“ b lösen soll. Durch eine „Vorwärtssubstitution“ (beginnend bei
der ersten Unbekannten) löst man nämlich zuerst L y = b auf ganz einfache Weise und
anschließend genauso einfach R x = y durch Rückwärtssubstitution (beginnend bei der
letzten Unbekannten). In der Tat ist dann A x = LR x = L 
y = b.
All dies funktioniert unter der Annahme, dass keine Pivotsuche nötig ist. Falls doch,
kann man so vorgehen: Führt eine Kette von Typ-II-Umformungen zu einer 0 an einer
Pivotstelle, muss man jetzt die entsprechende Zeile gegen eine weiter unten stehende
austauschen (wegen Lemma 1.5.6 ist das möglich). Wenn man jedoch vor den Typ-II-
Umformungen bereits tauscht und anschließend die entsprechenden Typ-II-Umformungen
auf die modifizierten Zeilen anwendet, ist man wieder in der Situation von oben. Es gibt
also Typ-I-Elementarmatrizen E1I , . . . , ErI , so dass

AI = ErI · · · E1I A =: QA

der Voraussetzung der ersten Hälfte des Abschnitts genügt. Die Matrix Q = ErI · · · E1I
enthält in jeder Zeile und jeder Spalte genau eine 1 und sonst nur Nullen; sie sorgt für die
Vertauschung der Zeilen und wird eine Permutationsmatrix genannt. Man beachte, dass
P := Q−1 = (E1I )−1 · · · (ErI )−1 = E1I · · · ErI ebenfalls eine Permutationsmatrix ist.
Insgesamt haben wir den Satz von der LR-Zerlegung gezeigt:

Satz 1.6.3 Zu jeder invertierbaren n × n-Matrix A existieren eine Permutationsmatrix P ,


eine untere Dreiecksmatrix L und eine obere Dreiecksmatrix R mit A = P LR.

Das stimmt auch für nicht invertierbare Matrizen; dann hat R aber mindestens eine 0
auf der Hauptdiagonalen.
1.7 Aufgaben 27

1.7 Aufgaben

Aufgabe 1.7.1 Zeigen Sie (d), (e), (f) und (g) von Satz 1.2.2.

Aufgabe 1.7.2 Seien A eine l × m-Matrix, B eine m × n-Matrix und C eine n × p-Matrix.
Zeigen Sie das Assoziativgesetz (AB)C = A(BC).

Aufgabe 1.7.3 Sei A die 3 × 3-Matrix mit den Einträgen aij = 1/(i + j − 1). Bestimmen
Sie A2 .

Aufgabe 1.7.4 Seien k, l ∈ N, n = k + l. Es sei A1 eine k × k-Matrix und A2 eine


l × l-Matrix sowie

A1 0k×l
A= ,
0l×k A2

wobei 0k×l und 0l×k für Nullmatrizen des entsprechenden Formats stehen. (Solch eine
Matrix A nennt man blockdiagonal.) Zeigen Sie für p ∈ N

p
A1 0k×l
Ap = p .
0l×k A2

Aufgabe 1.7.5 Um zwei 2 × 2-Matrizen A = (aij ) und B = (bij ) zu multiplizieren, sind


definitionsgemäß 8 Multiplikationen (und 4 Additionen) durchzuführen; da es aufwändi-
ger ist, zu multiplizieren als zu addieren, zählen wir jetzt nur die Multiplikationen. Mit
dem folgenden Algorithmus von V. Strassen (Gaussian elimination is not optimal. Numer.
Math. 13 (1969), 354–356) kommt man – um den Preis von zusätzlichen Additionen – mit
7 Multiplikationen aus. Man berechnet zunächst die Hilfsgrößen

h1 = (a11 + a22 )(b11 + b22 )


h2 = (a21 + a22 )b11
h3 = a11 (b12 − b22 )
h4 = a22 (−b11 + b21 )
h5 = (a11 + a12 )b22
h6 = (−a11 + a21 )(b11 + b12 )
h7 = (a12 − a22 )(b21 + b22 ).

Zeigen Sie, dass


28 1 Lineare Gleichungssysteme

h 1 + h4 − h5 + h7 h3 + h5
AB = .
h2 + h4 h1 + h3 − h2 + h6

Aufgabe 1.7.6 Seien Aij und Bij Matrizen des Formats 2k−1 × 2k−1 und A und B die
2k × 2k -Matrizen

A11 A12 B11 B12


A= , B= .
A21 A22 B21 B22

Zeigen Sie, dass AB = (Cij ) mit


2
Cij = Aik Bkj .
k=1

Bemerkung: Wendet man den Strassenschen Algorithmus aus Aufgabe 1.7.5 rekursiv
auf diese Matrixblöcke an, kann man zeigen, dass man jetzt größenordnungsmäßig
nlog2 7 = n2.807... arithmetische Operationen für die Multiplikation von zwei n × n-
Matrizen benötigt, während die herkömmliche Methode n3 viele verlangt.

Aufgabe 1.7.7 Seien


⎛ ⎞ ⎛ ⎞
321 6
⎜ ⎟ ⎜ ⎟
A = ⎝1 1 1⎠, bα = ⎝ 3 ⎠ ,
210 α

x = bα .
wo α eine beliebige reelle Zahl ist. Lösen Sie das Gleichungssystem A

Aufgabe 1.7.8 Betrachten Sie das lineare Gleichungssystem

x2 + x3 = 6
3x1 − x2 + x3 = −7
x1 + x2 − 3x3 = −13

Stellen Sie die zugehörige erweiterte Koeffizientenmatrix auf, bringen Sie sie in Zeilen-
stufenform, und lösen Sie so das Gleichungssystem.

Aufgabe 1.7.9 Seien X, Y, Z Mengen, und seien g: X → Y und f : Y → Z zwei


Abbildungen.
(a) Zeigen Sie, dass g injektiv ist, wenn f ◦ g injektiv ist.
(b) Zeigen Sie, dass f surjektiv ist, wenn f ◦ g surjektiv ist.
1.7 Aufgaben 29

Aufgabe 1.7.10 Seien X, Y Mengen, f : X → Y eine Abbildung, A1 , A2 ⊂ X und


B1 , B2 ⊂ Y . Zeigen Sie:
(a) f (A1 ∪ A2 ) = f (A1 ) ∪ f (A2 ).
(b) f −1 (B1 ∪ B2 ) = f −1 (B1 ) ∪ f −1 (B2 ).
(c) f −1 (B1 ∩ B2 ) = f −1 (B1 ) ∩ f −1 (B2 ).

Aufgabe 1.7.11 Untersuchen Sie, ob die Matrix


⎛ ⎞
2 14
⎜ ⎟
⎝3 2 5⎠
0 −1 1

invertierbar ist, und bestimmen Sie gegebenenfalls die inverse Matrix.

Aufgabe 1.7.12 Untersuchen Sie, ob die Matrix


⎛ ⎞
1 3 −2
⎜ ⎟
⎝ 2 5 −3 ⎠
−3 2 −5

invertierbar ist, und bestimmen Sie gegebenenfalls die inverse Matrix.

Aufgabe 1.7.13 Bestimmen Sie die LR-Zerlegung der Matrix


⎛ ⎞
1 3 −1
⎜ ⎟
⎝ 2 8 4⎠
−1 3 4

Aufgabe 1.7.14 Eine 3 × 3-Matrix A wird durch die folgenden Zeilenumformungen in


Zeilenstufenform gebracht: Z2 ; Z2 + 3Z1 , Z3 ; Z3 − 4Z1 , Z3 ; Z3 + 2Z2 . Was ist die
Matrix L in der LR-Zerlegung von A?
R-Vektorräume
2

2.1 Vektorräume und ihre Unterräume

Die Rechnungen aus Kap. 1 basieren auf den in Satz 1.2.2 aufgestellten Regeln. Diese
nimmt man zur Grundlage des Begriffs des Vektorraums, der für die heutige Mathematik
fundamental ist.

Definition 2.1.1 Ein Vektorraum (genauer R-Vektorraum) ist eine Menge V zusammen
mit zwei Operationen, genannt Addition bzw. Skalarmultiplikation,

V × V  (v, w) → v + w ∈ V , R × V  (λ, v) → λ · v = λv ∈ V ,

so dass die folgenden Eigenschaften erfüllt sind:


(a) (u + v) + w = u + (v + w) für alle u, v, w ∈ V (Assoziativität der Addition).
(b) Es existiert ein Element 0V ∈ V mit v + 0V = v für alle v ∈ V.
(c) Für alle v ∈ V existiert ein Element −v ∈ V mit v + (−v) = 0V .
(d) v + w = w + v für alle v, w ∈ V (Kommutativität der Addition).
(e) λ(v + w) = λv + λw für alle λ ∈ R, v, w ∈ V (1. Distributivgesetz).
(f) (λ + μ)v = λv + μv für alle λ, μ ∈ R, v ∈ V (2. Distributivgesetz).
(g) (λμ)v = λ(μv) für alle λ, μ ∈ R, v ∈ V (Assoziativität der Skalarmultiplikation).
(h) 1 · v = v für alle v ∈ V .

Hier ein paar Bemerkungen zur Definition:


(1) Das Pluszeichen erscheint hier in zwei Bedeutungen: einmal ist die Addition in
R gemeint und einmal die in V. Strenggenommen müsste man diese Symbole
unterscheiden, das würde aber schnell sehr unübersichtlich.

© Der/die Autor(en), exklusiv lizenziert an Springer Nature Switzerland AG 2022 31


D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2_2
32 2 R-Vektorräume

(2) Die Elemente eines Vektorraums heißen Vektoren, und Zahlen werden im Vektor-
raum kontext gern Skalare genannt. Statt λv schreibt man der Deutlichkeit halber
auch λ · v (wie in (h)); zum Malpunkt ist das gleiche zu sagen wie in Bemerkung (1).
(3) Die Bedingungen (a) bis (d) kann man auch so ausdrücken, dass (V , +) eine abelsche
Gruppe ist; zum Gruppenbegriff später mehr (Definition 5.1.1).
(4) Das neutrale Element der Addition aus (b) ist eindeutig bestimmt: Erfüllt 0V
ebenfalls (b), so folgt wegen (b), (d) und der Annahme über 0V

0V = 0V + 0V = 0V + 0V = 0V .

(5) Genauso ist das additiv Inverse −v in (c) eindeutig bestimmt: Aus v + v  = 0V folgt
wegen (b), (c), (d), (a), der Annahme über v  und (b)

v  = 0V + v  = (v + (−v)) + v  = ((−v) + v) + v 
= (−v) + (v + v  ) = −v + 0V = −v.

(6) Es gilt λ · 0V = 0V für alle λ ∈ R und 0 · v = 0V für alle v ∈ V . Denn es ist

λ0V = λ(0V + 0V ) = λ0V + λ0V ,

also
0V = λ0V + (−(λ0V )) = (λ0V + λ0V ) + (−(λ0V ))
= λ0V + (λ0V + (−(λ0V ))) = λ0V

sowie
0 · v = (0 + 0) · v = 0 · v + 0 · v,

also wieder

0V = 0 · v + (−(0 · v)) = (0 · v + 0 · v) + (−(0 · v))


= 0 · v + (0 · v + (−(0 · v)) = 0 · v + 0V = 0 · v.

(7) Ist umgekehrt λv = 0V , so ist λ = 0 oder v = 0: Ist nämlich λ = 0, so existiert die


Inverse λ−1 , und es folgt wegen (6)

v = 1 · v = (λ−1 λ)v = λ−1 (λv) = λ−1 0V = 0V .

(8) Es gilt stets −v = (−1) · v: Es ist ja

v + (−1) · v = 1 · v + (−1) · v = (1 + (−1)) · v = 0 · v = 0V ,

und die Behauptung folgt aus (5).


2.1 Vektorräume und ihre Unterräume 33

(9) Die Unterscheidung der Symbole 0 und 0V werden wir noch eine Zeit lang
beibehalten.
(10) Die Bedingung (h) schließt aus, dass (λ, v) → 0V auf V = {0V } eine erlaubte
Skalarmultiplikation ist; alle anderen Bedingungen wären erfüllt. Im Zusammenhang
damit sei erwähnt, dass V = {0V } der kleinstmögliche Vektorraum ist (V = ∅ ist
wegen (b) unmöglich).
(11) In Definition 5.1.5 werden wir allgemeinere Skalare betrachten und so zu dem in der
Algebra üblichen Vektorraumbegriff gelangen.
Diese Rechenregeln und -techniken werden wir immer wieder stillschweigend benut-
zen.

Beispiele 2.1.2
(a) Das Paradebeispiel eines R-Vektorraums ist Rn mit der Addition und Skalarmultipli-
kation aus Definition 1.2.1; siehe Satz 1.2.2.
(b) Sei Rm×n die Menge aller m × n-Matrizen über R. Definiert man für A = (aij )
∈ Rm×n , B = (bij ) ∈ Rm×n und λ ∈ R

A + B = (aij + bij ), λA = (λaij ),

so sind die Bedingungen aus Definition 2.1.1 erfüllt. Man mag beobachten, dass Rm×n
„dasselbe“ ist wie Rmn , nur dass man im ersten Fall die Einträge in ein m×n-Rechteck
einträgt statt in eine Spalte. Die Rechteckschreibweise hat es uns aber erlaubt, das
Produkt von Matrizen zu definieren!
(c) Sei X = ∅ eine Menge und V = Abb(X) die Menge aller Funktionen von X nach R.
Definiert man für f, g ∈ V und λ ∈ R

f + g: x → f (x) + g(x), λf : x → λ · f (x),

so sind die Bedingungen aus Definition 2.1.1 erfüllt. Der „Nullvektor“ ist hier die
Nullfunktion 0V : x → 0, und das additiv Inverse ist −f : x → −(f (x)).
(d) Allgemeiner als in (c) kann man für einen gegebenen Vektorraum W die Abbildungen
von X nach W betrachten. Diese bilden analog den Vektorraum Abb(X, W ).
(e) Sei I ⊂ R ein Intervall, das nicht nur aus einem einzigen Punkt besteht. Wir betrachten
die Teilmenge Pol(I ) ⊂ Abb(I ) aller Polynomfunktionen, also aller Funktionen der
Bauart
n
f: x → ak x k
k=0
34 2 R-Vektorräume

mit geeigneten n ∈ N0 = N ∪ {0} und ak ∈ R. Auch dies ist ein Vektorraum: Da


Abb(I ) ein Vektorraum ist, ist nur zu beachten, dass Summen und skalare Vielfache
von Polynomfunktionen wieder Polynomfunktionen sind.1

Das letzte Beispiel gibt Anlass zu folgender Definition.

Definition 2.1.3 Sei V ein Vektorraum. Eine Teilmenge U ⊂ V heißt Unterraum (oder
Untervektorraum), wenn folgende Bedingungen erfüllt sind:
(0) 0V ∈ U .
(1) v + w ∈ U , wenn v ∈ U und w ∈ U .
(2) λv ∈ U , wenn λ ∈ R und v ∈ U .

Die Bedingungen (1) und (2) kann man auch zusammenfassen zu


(1&2) λv + μw ∈ U , wenn λ, μ ∈ R und v, w ∈ U ;
und statt (0) kann man in Definition 2.1.3 auch
(0 ) U = ∅
zusammen mit (1) und (2) fordern (warum?).
Jeder Unterraum eines Vektorraums ist selbst ein Vektorraum. Dazu ist nur zu überprü-
fen, dass −v ∈ U für v ∈ U gilt, und das folgt aus −v = (−1)v.

Beispiele 2.1.4
(a) V und {0V } sind Unterräume von V.
(b) In Rn ist2
 n 
U = x ∈ Rn : xk = 0
k=1

ein Unterraum. Hier wie im Folgenden wird stillschweigend angenommen, dass ein
Vektor x ∈ Rn (bzw. y ∈ Rn bzw. . . . ) die Koordinaten x1 , . . . , xn (bzw. y1 , . . . , yn
bzw. . . . ) hat.
(c) In Rn sind

U1 = {x ∈ Rn : x1 = 1} bzw. U2 = {x ∈ Rn : − 1 ≤ x1 ≤ 1}

1 In der abstrakten Algebra ist ein Polynom nicht ganz dasselbe wie eine Polynomfunktion. Da
wir aber erst später zu den Punkten gelangen werden, wo dieser Unterschied wichtig wird, werden
wir die Begriffe „Polynom“ und „Polynomfunktion“ einstweilen synonym verwenden. Siehe dazu
Abschn. 5.2.

2 Ab jetzt werden Elemente des Rn nicht mehr mit Pfeilen gekennzeichnet, bis auf 0.
2.1 Vektorräume und ihre Unterräume 35

keine Unterräume.
(d) Die Menge der Lösungen eines linearen Gleichungssystems Ax = 0 (mit A ∈ Rm×n )
bildet einen Unterraum von Rn ; vgl. Satz 1.2.4. Ebenso ist {Ax: x ∈ Rn } ein
Unterraum von Rm .
(e) Im Vektorraum Abb(R) bildet die Menge der Polynomfunktionen Pol(R) einen
Unterraum; so haben wir in Beispiel 2.1.2(e) argumentiert. In der Analysis trifft man
auf viele weitere Unterräume von Abb(R), z. B. die Menge der stetigen Funktionen
C(R) und die Menge der differenzierbaren Funktionen D(R).
(f) In der Analysis sucht man n-mal differenzierbare Funktionen y: R → R, die eine
Differentialgleichung der Form

y (n) + an−1 y (n−1) + · · · + a1 y  + a0 y = 0

erfüllen (y (n) = n-te Ableitung, a0 , . . . , an−1 ∈ R). Aus den Rechenregeln für
Ableitungen ergibt sich sofort, dass die Menge der Lösungen einen Unterraum von
Abb(R) bilden.

Viele Unterräume werden durch den Prozess der linearen Hülle gegeben, den wir jetzt
beschreiben.

Definition 2.1.5 Sei V ein Vektorraum.


(a) Sind v1 , . . . , vn ∈ V und λ1 , . . . , λn ∈ R, so nennt man einen Vektor der Form

n
v = λ1 v1 + · · · + λn vn = λk vk
k=1

eine Linearkombination von v1 , . . . , vn .


(b) Sei ∅ = M ⊂ V . Die lineare Hülle lin M von M besteht aus allen Linearkombinatio-
nen, die man aus endlich vielen Elementen von M bilden kann:

lin M = v ∈ V : ∃n ∈ N, v1 , . . . , vn ∈ M, λ1 , . . . , λn ∈ R

n 
mit v = λk vk .
k=1

Wir setzen noch lin ∅ = {0V }.

Beispiele 2.1.6
(a) Seien p0 , p1 , p2 , . . . die durch pk (x) = x k definierten Funktionen auf R („Monom-
funktionen“) und M = {p0 , p1 , p2 , . . . } ⊂ Abb(R). Dann ist lin M = Pol(R). Diese
Funktionen wollen wir in Zukunft mit xk statt pk bezeichnen.
36 2 R-Vektorräume

(b) Sei A eine m × n-Matrix mit den Spalten s1 , . . . , sn ∈ Rm . Dann ist das Gleichungs-
system Ax = b genau dann lösbar, wenn b ∈ lin{s1 , . . . , sn } ist. Dazu ist nur zu
beachten, dass Ax = x1 s1 + · · · + xn sn ist.

Eine einfache Beobachtung ist, dass stets M ⊂ lin M gilt sowie

M 1 ⊂ M2 ⇒ lin M1 ⊂ lin M2 .

Wir kommen zu einem einfachen, aber wichtigen Satz.

Satz 2.1.7 Seien V ein Vektorraum und M ⊂ V . Dann ist lin M ein Unterraum.

Beweis Da das für M = ∅ klar ist, setzen wir M = ∅ voraus; es existiert also ein Vektor
v0 ∈ M. Dann ist 0V = 0 · v0 ∈ lin M, und Bedingung (0) aus Definition 2.1.3 ist erfüllt.
Um Bedingung (1) nachzuprüfen, seien v, w ∈ lin M gegeben. Dann existieren
Darstellungen

v = λ1 v1 + · · · + λn vn ,
w = μ1 w1 + · · · + μm wm

mit gewissen Skalaren λi , μj und Vektoren vi , wj ∈ M, i = 1, . . . , n, j = 1, . . . , m.


Damit erhält man

v + w = λ1 v1 + · · · + λn vn + μ1 w1 + · · · + μm wm ∈ lin M.

Genauso sieht man Bedingung (2) ein. 

Man kann lin M auch anders beschreiben; dazu zuerst ein Lemma.

Lemma 2.1.8 Sei V ein Vektorraum, und sei U = ∅ eine Menge von Unterräumen. Dann
ist

U0 := U
U ∈U

ebenfalls ein Unterraum. Kurz: Der Schnitt von (beliebig vielen) Unterräumen ist wieder
ein Unterraum.

Zur Erinnerung: Ist X eine Menge und T = ∅ eine Menge von Teilmengen von X, so
setzt man
2.2 Basis und Dimension 37


T = {x ∈ X: x ∈ T für alle T ∈ T },
T ∈T

T = {x ∈ X: es existiert T ∈ T mit x ∈ T }.
T ∈T

Beweis Es ist klar, dass 0V ∈ U0 . Seien v, w ∈ U0 . Dann gilt v, w ∈ U für alle U ∈ U


und deshalb auch v + w ∈ U für alle U ∈ U ; das zeigt v + w ∈ U0 . Genauso sieht man
die Invarianz unter der Skalarmultiplikation. 

Korollar 2.1.9 Seien V ein Vektorraum, M ⊂ V und U = {U ⊂ V : U ist ein Unterraum


und M ⊂ U }. Dann ist

lin M = U. (2.1.1)
U ∈U

Insbesondere ist lin M der kleinste Unterraum von V, der M enthält.

Beweis Es ist U = ∅, da V ∈ U . Nach Satz 2.1.7 ist lin M ∈ U ; deshalb gilt „⊃“

in (2.1.1). Umgekehrt ist U0 = U ∈U U nach Lemma 2.1.8 ein Unterraum, der M
umfasst. Deswegen liegen alle Linearkombinationen von Elementen von M in U0 , und
das zeigt „⊂“. 

2.2 Basis und Dimension

Wir versuchen, Vektorräume in der Form V = lin M für möglichst kleine Mengen M
darzustellen. Dazu benötigen wir das folgende Vokabular. Mit den Buchstaben U, V , W
etc. sind stets R-Vektorräume bezeichnet.

Definition 2.2.1
(a) Ein Erzeugendensystem für V ist eine Teilmenge M ⊂ V mit V = lin M.
(b) V heißt endlich erzeugt, wenn es ein endliches Erzeugendensystem gibt.
(c) Die Vektoren v1 , . . . , vn ∈ V heißen linear unabhängig, wenn die Implikation

λ1 v1 + · · · + λn vn = 0V ⇒ λ1 = · · · = λn = 0

gilt. Andernfalls heißen sie linear abhängig. Eine Teilmenge M ⊂ V heißt li-
near unabhängig, wenn jede endliche Auswahl (paarweise verschiedener) Vektoren
v1 , . . . , vn ∈ M linear unabhängig ist.
(d) Eine Teilmenge M ⊂ V heißt Basis, wenn M ein linear unabhängig es Erzeugenden-
system ist.
38 2 R-Vektorräume

Zunächst einige einfache Bemerkungen zu dieser Definition.

(1) Der Begriff „endlich erzeugt“ hat einen temporären Charakter und wird bald durch
„endlichdimensional“ ersetzt; dazu müssen wir aber ein paar nichttriviale Vorarbeiten
leisten.
(2) Der Begriff „linear unabhängig“ ist zentral für die Lineare Algebra; Sie sollten also
alle Anstrengungen darauf richten, ihn zu meistern. Es ist klar, dass stets

0 · v1 + · · · + 0 · vn = 0V

ist; dies wird die triviale Darstellung der Null genannt. Die lineare Unabhängigkeit
von v1 , . . . , vn besagt, dass die triviale Darstellung die einzige Linearkombination
dieser Vektoren ist, die Null ergibt.
(3) Aus der Definition ergibt sich sofort, dass eine Teilmenge einer Menge linear
unabhängiger Vektoren wieder linear unabhängig ist bzw. eine Obermenge einer
Menge linear abhängiger Vektoren wieder linear abhängig ist.
(4) Explizit sind v1 , . . . , vn linear abhängig, wenn es λ1 , . . . , λn ∈ R gibt, die nicht alle
verschwinden (d. h. = 0 sind), so dass

λ1 v1 + · · · + λn vn = 0V

ist.
(5) Eine wichtige Bemerkung ist: Sind v1 , . . . , vn linear abhängig, so ist mindestens
einer dieser Vektoren eine Linearkombination der übrigen. (Beweis: Es existieren
λ1 , . . . , λn , die nicht alle = 0 sind, mit λ1 v1 + · · · + λn vn = 0V . Sagen wir, dass

λj = 0 ist. Durch Umstellen erhält man dann vj = i=j (−λi /λj )vi .)
(6) In R3 sind die Einheitsvektoren e1 und e2 linear unabhängig, die drei Vektoren v1 =
e1 , v2 = e2 und v3 = e2 sind linear abhängig, aber die Menge {v1 , v2 , v3 } = {e1 , e2 }
ist linear unabhängig. Das erläutert den Zusatz „paarweise verschieden“ in (c).

Beispiele 2.2.2
(a) Im Rn bilden die Einheitsvektoren e1 , . . . , en ein linear unabhängiges Erzeugenden-
system, also eine Basis. Sie wird Einheitsvektorbasis genannt.
(b) Wenn unter den Vektoren v1 , . . . , vn zwei Vektoren übereinstimmen oder einer der
Vektoren der Nullvektor ist, sind v1 , . . . , vn linear abhängig.
(c) Der Vektorraum Pol(R) ist nicht endlich erzeugt: Nehmen wir an, es gäbe ein
endliches Erzeugendensystem, sagen wir {f1 , . . . , fr }. Jedes fk ist ein Polynom,
dessen Grad nk sei. Wenn wir eine Linearkombination λ1 f1 + · · · + λr fr bilden,
erhalten wir ein Polynom vom Grad ≤ max{n1 , . . . , nr } =: N . Also ist das Monom
pN +1 , pN +1 (x) = x N +1 , nicht in lin{f1 , . . . , fr }, und deshalb ist lin{f1 , . . . , fr } =
Pol(R). (Begründung mit Hilfe der Differentialrechnung: Die (N + 1)-te Ableitung
eines Polynoms vom Grad ≤ N verschwindet, aber die (N +1)-te Ableitung von pN +1
verschwindet nicht.)
2.2 Basis und Dimension 39

Seien weiter xk die Monome in Pol(R); vgl. Beispiel 2.1.6(a). Die Menge {xk :k ≥ 0}
ist dann linear unabhängig: Nach Definition zusammen mit Bemerkung (3) ist
Folgendes zu zeigen: Wenn λ0 , . . . , λn ∈ R sind und λ0 x0 + · · · + λn xn = 0Pol(R) ist,
sind alle λ0 = · · · = λn = 0. Wäre das nicht so, gäbe es einen von 0 verschiedenen
Koeffizienten mit maximalem Index, sagen wir λν = 0, λν+1 = · · · = λn = 0. Sei

p = λ0 x0 + · · · + λn xn , also p = νk=0 λk xk ; dann wäre die ν-te Ableitung von p
ein konstantes Polynom = 0, nämlich konstant ν!λν . Insbesondere wäre p = 0.
Wie in Beispiel 2.1.6(a) beobachtet, bilden die Monome ein Erzeugendensystem
und daher eine Basis von Pol(R).
Dasselbe Argument funktioniert für Polynomfunktionen auf einem Intervall po-
sitiver Länge. Allerdings ist es nicht für jeden Definitionsbereich richtig, dass die
Monomfunktionen x0 , x1 , x2 , . . . linear unabhängig sind; als Funktionen auf zum
Beispiel {0, 1} stimmen nämlich alle xk (k ≥ 1) überein.
(d) Sei A eine m × n-Matrix mit den Spalten s1 , . . . , sn ∈ Rm . Dann hat das homogene
lineare Gleichungssystem Ax = 0 genau dann nur die triviale Lösung x = 0,  wenn
s1 , . . . , sn linear unabhängig sind. (Das ist nur eine Umformulierung der Definition.)
Genauso ist es nur eine Umformulierung der Definition, dass das Gleichungssystem
Ax = b genau dann lösbar ist, wenn b ∈ lin{s1 , . . . , sn } ist; siehe Beispiel 2.1.6(b).
Daher sind alle Gleichungssysteme Ax = b genau dann lösbar, wenn {s1 , . . . , sn } ein
Erzeugendensystem von Rm ist.
(e) Wendet man (d) auf das Beispiel 1.1.1(a) an, sieht man, dass
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
2 3 −2
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ 4 ⎠ , ⎝ 5 ⎠ , ⎝ −2 ⎠
0 1 −3

in R3 linear unabhängig sind; vgl. Satz 1.3.2 und Korollar 1.3.4.


(f) Hingegen sind
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
2 3 0
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
v1 = ⎝ 4 ⎠ , v2 = ⎝ 5 ⎠ , v3 = ⎝ 1 ⎠
0 1 −1


linear abhängig, da 3v1 − 2v2 − 2v3 = 0.

Basen haben folgende Minimal- bzw. Maximaleigenschaft.

Satz 2.2.3 Die folgenden Bedingungen an eine Teilmenge B ⊂ V sind äquivalent.


(i) B ist eine Basis.
(ii) B ist ein minimales Erzeugendensystem, d. h.: Wenn M ⊂ B ein Erzeugendensystem
ist, so ist bereits M = B.
40 2 R-Vektorräume

(iii) B ist eine maximale linear unabhängige Teilmenge, d. h.: Wenn M ⊃ B linear
unabhängig ist, so ist bereits M = B.

Beweis (i) ⇒ (ii): Definitionsgemäß ist B ein Erzeugendensystem. Nehmen wir an, dass
M ⊂ B ein Erzeugendensystem ist, aber M = B ist. Dann existiert ein Vektor v ∈
B \ M (d. h. v ∈ B, aber v ∈ / M). Da M ein Erzeugendensystem ist, existieren n ∈ N,
λ1 , . . . , λn ∈ R und (ohne Einschränkung paarweise verschiedene) v1 , . . . , vn ∈ M mit

v = λ1 v1 + · · · + λn vn .

Dann sind v, v1 , . . . , vn ∈ B aber nicht linear unabhängig im Widerspruch zur Annahme,


dass B eine Basis ist.
(ii) ⇒ (i): Sei B ein minimales Erzeugendensystem. Es ist zu zeigen, dass B linear
unabhängig ist. Wäre das nicht so, gäbe es eine nichttriviale Linearkombination λ1 v1 +
· · · + λn vn = 0V mit vk ∈ B, die paarweise verschieden sind; k = 1, . . . , n. Ohne
Einschränkung sei λ1 = 0 und μk = −λk /λ1 für k = 2, . . . , n. Es ist dann v1 = μ2 v2 +
· · · + μn vn . Setze M = B \ {v1 }. Wir haben gerade v1 ∈ lin M gezeigt; daher gilt B ⊂
lin M und dann lin B ⊂ lin M. Also ist M ein echt in B enthaltenes Erzeugendensystem,
das es laut (ii) nicht gibt.
(i) ⇒ (iii): Definitionsgemäß ist B linear unabhängig. Nehmen wir eine Menge M ⊃ B
mit M = B. Dann existiert ein Vektor v ∈ M \ B. Da B ein Erzeugendensystem ist,
existieren n ∈ N, λ1 , . . . , λn ∈ R und paarweise verschiedene v1 , . . . , vn ∈ B mit

v = λ1 v1 + · · · + λn vn ;

also sind die paarweise verschiedenen Vektoren v, v1 , . . . , vn ∈ M linear abhängig, und


M ist nicht linear unabhängig.
(iii) ⇒ (i): Sei B eine maximale linear unabhängige Teilmenge. Es ist zu zeigen, dass
B ein Erzeugendensystem ist. In der Tat: Falls es v ∈ V \ lin B gibt, ist B ∪ {v} linear
unabhängig. (Beweis?) 

Der obige Satz gilt für alle Vektorräume, auch für nicht endlich erzeugte, allerdings
ist es für solche Vektorräume, wie z. B. C(R), schwierig, explizit eine Basis anzugeben,
obwohl man abstrakt ihre Existenz beweisen kann (siehe Satz 10.1.1). Daher werden wir
uns jetzt auf endlich erzeugte Vektorräume konzentrieren.
Wir beweisen nun den Basisexistenzsatz für endlich erzeugte Vektorräume.

Satz 2.2.4 Jeder endlich erzeugte Vektorraum besitzt eine Basis. Genauer gilt: Jedes
endliche Erzeugendensystem enthält eine Basis.
2.2 Basis und Dimension 41

Beweis Ist V = lin ∅ = {0V }, so ist ∅ eine Basis (und zwar die einzige).
Sei jetzt M = {v1 , . . . , vr } = ∅ ein Erzeugendensystem von V. Wenn die vk
linear unabhängig sind, sind wir fertig. Andernfalls ist einer der Vektoren eine Line-
arkombination der übrigen (siehe Bemerkung (5) oben). Bei passender Nummerierung
ist das vr , und dann ist {v1 , . . . , vr−1 } ebenfalls ein Erzeugendensystem: Da nämlich
vr ∈ lin{v1 , . . . , vr−1 } ist, ist auch {v1 , . . . , vr } ⊂ lin{v1 , . . . , vr−1 } und deshalb V =
lin{v1 , . . . , vr } ⊂ lin{v1 , . . . , vr−1 } ⊂ V ; hier geht Korollar 2.1.9 ein.
Wiederholt man dieses Argument, so erhält man nach höchstens r Schritten eine Basis
von V. 

Der folgende Satz sieht harmlos aus, jedoch verlangt sein Beweis einen kleinen Kniff.

Satz 2.2.5 Sei {u1 , . . . , un } eine Basis von V. Dann sind je n + 1 Vektoren v1 , . . . , vn+1
∈ V linear abhängig.
n+1
Beweis Wir zeigen, dass es eine nichttriviale Linearkombination i=1 λi vi = 0V gibt.
Dazu entwickeln wir jeden Vektor vi in die Basis {u1 , . . . , un }:

n
vi = aij uj (i = 1, . . . , n + 1).
j =1

Der Ansatz unserer Linearkombination führt dann zu

n+1 n+1 n n n+1


0V = λi vi = λi aij uj = aij λi uj .
i=1 i=1 j =1 j =1 i=1

Da die uj linear unabhängig sind, folgt

n+1
aij λi = 0 (j = 1, . . . , n).
i=1

Definiert man die n × (n + 1)-Matrix B durch3 bj i = aij (j = 1, . . . , n; i = 1, . . . , n + 1),


so sind nichttriviale Lösungen des Gleichungssystems

B x = 0

gesucht; und da die Zeilenanzahl n von B kleiner als die Spaltenanzahl n + 1 ist, liefert
Korollar 1.3.5 solch eine Lösung. 

3 Das werden wir bald die transponierte Matrix von (a ) nennen.


ij
42 2 R-Vektorräume

Korollar 2.2.6 Sind v1 , . . . , vr ∈ Rn und ist r > n, so sind v1 , . . . , vr linear abhängig.

Korollar 2.2.7 Seien u1 , . . . , us ∈ V linear unabhängig, und sei {v1 , . . . , vr } ein


Erzeugendensystem von V. Dann ist s ≤ r.

Beweis Nach Satz 2.2.4 enthält {v1 , . . . , vr } eine Basis, sagen wir mit n Elementen. Nach
Satz 2.2.5 ist s ≤ n (warum?). Also ist s ≤ n ≤ r. 

Das nächste Korollar ist ohne unsere Vorbereitung ganz und gar nicht selbstverständ-
lich.

Korollar 2.2.8 Sind sowohl {u1 , . . . , un } als auch {u1 , . . . , um } Basen von V, so gilt
m = n.

Beweis Nach Korollar 2.2.7 gilt einerseits n ≤ m und andererseits m ≤ n. 

Je zwei Basen eines endlich erzeugten Vektorraums haben also die gleiche Anzahl von
Elementen. Daher können wir folgende Definition aussprechen.

Definition 2.2.9 Die Dimension dim V eines endlich erzeugten Vektorraums V ist die
Anzahl der Elemente einer beliebigen Basis. Falls dim V = n, sagt man, V sei
n-dimensional.

Wegen dieser Definition nennt man endlich erzeugte Vektorräume endlichdimensional


und nicht endlich erzeugte unendlichdimensional; man schreibt dann dim V = ∞. (Dass
jeder endlich erzeugte Vektorraum eine Basis besitzt, haben wir in Satz 2.2.4 bewiesen.)
Wegen Satz 2.2.5 können wir auch sagen, dass die Dimension eines endlich erzeugten
Vektorraums die Maximalzahl linear unabhängiger Vektoren ist.

Beispiele 2.2.10
(a) dim Rn = n, da es eine Basis aus n Elementen gibt, z. B. die Einheitsvektorbasis.
(b) dim Pol(R) = ∞ (vgl. Beispiel 2.2.2(c)).
(c) In Vorlesungen über Differentialgleichungen lernt man, dass der in Beispiel 2.1.4(f)
beschriebene Vektorraum die Dimension n hat.

Wir benötigen noch folgende Resultate.

Satz 2.2.11 Sei V ein n-dimensionaler Vektorraum.


(a) Sind u1 , . . . , un ∈ V linear unabhängig, so bilden sie eine Basis.
(b) Bilden u1 , . . . , un ∈ V ein Erzeugendensystem, so bilden sie eine Basis.
2.2 Basis und Dimension 43

Beweis
(a) Wir müssen zeigen, dass u1 , . . . , un ein Erzeugendensystem bilden. Wäre das nicht
so, gäbe es einen Vektor v ∈ V , der nicht in lin{u1 , . . . , un } liegt. Dann sind
v, u1 , . . . , un linear unabhängig (Beweis?). Nach Korollar 2.2.7 müsste n + 1 ≤ n
sein: Widerspruch!
(b) Wir müssen zeigen, dass u1 , . . . , un linear unabhängig sind. Wäre das nicht so, wäre
einer der Vektoren eine Linearkombination der übrigen (Bemerkung (5) oben); bei
passender Nummerierung ist das un . Dann ist auch {u1 , . . . , un−1 } ein Erzeugenden-
system. Nach Korollar 2.2.7 müsste n ≤ n − 1 sein: Widerspruch! 

Satz 2.2.12 Sei V endlich erzeugt und U ein Unterraum. Dann ist auch U endlich erzeugt,
und es gilt dim U ≤ dim V . Im Fall dim U = dim V ist U = V .

Beweis Es sei {v1 , . . . , vr } eine Basis von V. Wenn u1 , . . . , uσ linear unabhängig in U


sind, gilt nach Korollar 2.2.7 σ ≤ r. Wir können also ein maximales s ≤ r wählen, für das
s linear unabhängige Vektoren in U existieren, und diese s Vektoren bilden nach Satz 2.2.3
eine Basis von U. Das zeigt dim U ≤ dim V .
Im Fall dim U = dim V folgt U = V aus Satz 2.2.11. 

Die Haupteigenschaft von Basen wird im nächsten Satz ausgedrückt.

Satz 2.2.13 Ist {u1 , . . . , un } eine Basis von V, so existieren zu jedem v ∈ V eindeutig
bestimmte λ1 , . . . , λn ∈ R mit

v = λ1 u1 + · · · + λn un .

Beweis Die Existenz solcher Zahlen ist klar, da eine Basis definitionsgemäß ein Erzeu-
gendensystem ist; die wesentliche Aussage ist die Eindeutigkeit. Sei also v ∈ V mittels
λ1 , . . . , λn ∈ R bzw. μ1 , . . . , μn ∈ R dargestellt als

v = λ1 u1 + · · · + λn un bzw. v = μ1 u1 + · · · + μn un .

Es folgt

(λ1 − μ1 )u1 + · · · + (λn − μn )un = 0V ,

und wegen der linearen Unabhängigkeit der uk hat man

λ1 − μ1 = · · · = λn − μn = 0,

d. h. λk = μk für k = 1, . . . , n. Das war zu zeigen. 


44 2 R-Vektorräume

Die λk können als Koordinaten des Vektors v bezüglich der vorliegenden Basis
aufgefasst werden; mehr dazu in Abschn. 3.3.
Der letzte Satz dieses Abschnitts gilt als Höhepunkt in der Theorie der Basen
endlichdimensionaler Räume.

Satz 2.2.14 (Steinitzscher Austauschsatz) Sei V ein n-dimensionaler Vektorraum. Seien


u1 , . . . , us ∈ V linear unabhängig und M = {v1 , . . . , vr } ein Erzeugendensystem von V.
Dann ist s ≤ n ≤ r, und man kann n − s Vektoren aus M auswählen – bei passender
Nummerierung vs+1 , . . . , vn –, so dass {u1 , . . . , us , vs+1 , . . . , vn } eine Basis von V ist.

Beweis Wir wissen bereits, dass s ≤ n ≤ r ist (siehe Korollar 2.2.7 und seinen Beweis).
Ferner können wir nach Satz 2.2.4 annehmen, dass r = n und M eine Basis ist.
Ist s = n, sind wir wegen Satz 2.2.11(a) bereits fertig. Ist s < n, so ist {u1 , . . . , us }
keine Basis; es muss daher einen Vektor in M geben, der nicht Linearkombination der uj
ist. Bei passender Nummerierung ist das vs+1 . Dann sind aber {u1 , . . . , us , vs+1 } linear
unabhängig, und wir können das Argument wiederholen.
Nach n − s Schritten hat man eine linear unabhängige Teilmenge {u1 , . . . , us , vs+1 ,
. . . , vn } konstruiert, die nach Satz 2.2.11(a) eine Basis ist. 

Der Steinitzsche Austauschsatz impliziert insbesondere:

Korollar 2.2.15 Jede linear unabhängige Teilmenge eines endlichdimensionalen Vektor-


raums lässt sich zu einer Basis ergänzen.

Das Korollar gilt auch für unendlichdimensionale Räume (insbesondere hat auch
jeder unendlichdimensionale Vektorraum eine Basis), verlangt aber einen anderen Beweis
(Korollar 10.1.2).
Das Problem, für Unterräume des Rn Basen konkret anzugeben, werden wir im
nächsten Abschnitt lösen.
In Abschn. 9.7 benötigen wir folgendes Gegenstück zu Korollar 2.2.15, das die zweite
Aussage in Satz 2.2.4 ergänzt.

Korollar 2.2.16 Jedes Erzeugendensystem eines endlichdimensionalen Vektorraums ent-


hält eine Basis.

Beweis Sei u1 , . . . , un eine Basis von V = lin M; hier kann M eine unendliche Menge
sein. Jedes uj kann dann durch gewisse Vektoren in M linear kombiniert werden, da M
ein Erzeugendensystem ist. Insgesamt treten dabei endlich viele Vektoren v1 , . . . , vr ∈
M auf, die also ein endliches Erzeugendensystem von V bilden. Nach Satz 2.2.4 enthält
{v1 , . . . , vr } eine Basis. 
2.3 Der Rang einer Matrix 45

2.3 Der Rang einer Matrix

Sei A eine m × n-Matrix mit den Spalten s1 , . . . , sn ∈ Rm . Wir nennen die lineare Hülle
dieser Vektoren den Spaltenraum von A; mit anderen Worten ist

SR(A) := lin{s1 , . . . , sn } = {Ax: x ∈ Rn } ⊂ Rm .

Definition 2.3.1 Die Dimension von SR(A) heißt der Rang von A; Bezeichnung: rg(A).

Der Rang von A gibt also die Maximalzahl linear unabhängiger Spalten an (warum?).
Eigentlich sollte man vom Spaltenrang sprechen; zum Zusammenhang zum sogenannten
Zeilenrang siehe Satz 2.3.10.
Zur Berechnung des Rangs ist es günstig, ein Lemma vorauszuschicken.

Lemma 2.3.2 Sei S eine invertierbare n × n-Matrix. Dann sind x1 , . . . , xr ∈ Rn genau


dann linear unabhängig, wenn Sx1 , . . . , Sxr linear unabhängig sind.

 Dann
Beweis Seien x1 , . . . , xr linear unabhängig und gelte λ1 · Sx1 + · · · + λr · Sxr = 0.

ist auch S(λ1 x1 + · · · + λr xr ) = 0 und, weil S invertierbar ist,


λ1 x1 + · · · + λr xr = S −1 S(λ1 x1 + · · · + λr xr ) = 0.

Nach Voraussetzung sind alle λk = 0.


Da xk = S −1 (Sxk ) ist, ist damit auch die Umkehrung bewiesen; man muss nur den
ersten Teil des Beweises mit S −1 statt S anwenden. 

Satz 2.3.3 Sei A eine m × n-Matrix.


(a) Wenn S eine invertierbare n × n-Matrix ist, ist SR(A) = SR(AS) und deshalb
rg(A) = rg(AS).
(b) Wenn S eine invertierbare m × m-Matrix ist, ist rg(A) = rg(SA).

Beweis (a) Das ist klar, da

SR(A) = {Ax: x ∈ Rn } = {ASy: y ∈ Rn } = SR(AS),

denn die von S vermittelte Abbildung LS (vgl. Abschn. 1.5) ist bijektiv.
(b) Das folgt aus Lemma 2.3.2, da SA die Spalten Ss1 , . . . , Ssn hat, wenn s1 , . . . , sn die
Spalten von A sind. 
46 2 R-Vektorräume

Dieser Satz liefert uns eine Berechnungsmöglichkeit von rg(A). Hierzu sehen wir uns
die Zeilenstufenform A von A an, die die Pivotspalten sj 1 , . . . , sj r habe, 1 ≤ j1 < j2 <
· · · < jr ≤ n. Diese sind linear unabhängig, also ist rg(A ) ≥ r. Andererseits interessieren
von den Spalten von A nur die obersten r Einträge (der Rest sind Nullen); also können
wir so tun, als wären es Vektoren in Rr , wenn wir die „überflüssigen“ Nullen vergessen.
Dann impliziert Korollar 2.2.6 rg(A ) ≤ r; es ist also rg(A ) = r. Nun ist nach Satz 1.6.2
A = SA für eine invertierbare m × m-Matrix S. Nach Satz 2.3.3(b) ist auch rg(A) = r.
Mehr noch: Satz 2.2.11 impliziert den folgenden Satz.

Satz 2.3.4 Besitzt die Zeilenstufenform einer m × n-Matrix A ihre Pivotspalten an den
Positionen j1 , . . . , jr , so bilden die Spalten sj1 , . . . , sjr eine Basis des Spaltenraums
von A.

Aus diesem Satz und der Definition des Rangs ergibt sich:

Korollar 2.3.5 Für eine m × n-Matrix A gilt rg(A) ≤ min{m, n}.

Mit Satz 2.3.4 löst man auch das Problem, Basen in gewissen Unterräumen von Rm zu
finden: Sei U = lin{s1 , . . . , sn } ein Unterraum von Rm . Um eine Basis von U zu finden,
schreibe man die Vektoren s1 , . . . , sn als Spalten in eine Matrix A und wende Satz 2.3.4
an.
Ein zweites Problem lässt sich ebenfalls lösen. Gegeben seien linear unabhängige Vek-
toren s1 , . . . , sl ∈ Rm . Um diese zu einer Basis von Rm zu ergänzen (vgl. Korollar 2.2.15),
bilde man die Matrix mit den Spalten s1 , . . . , sl , e1 , . . . , em in dieser Reihenfolge (mit ej
sind die Einheitsvektoren in Rm gemeint). Auf diese Matrix wende man Satz 2.3.4 an,
um eine gewünschte Basis zu erhalten. Beachte, dass die ersten l Spalten Pivotspalten der
Zeilenstufenform sind (warum?).
Schließlich betrachten wir noch den Unterraum {x ∈ Rn : Ax = 0},  der auch Kern
der Matrix A genannt wird. Zuerst bestimmen wir seine Dimension, die der Defekt von A
heißt:


df(A) := dim{x ∈ Rn : Ax = 0}.

Der folgende Satz beinhaltet eine der zentralen Aussagen der Linearen Algebra.

Satz 2.3.6 Für eine m × n-Matrix A gilt

df(A) + rg(A) = n.

Beweis Wenngleich man das aus Satz 1.3.2 herauslesen könnte, wollen wir einen Beweis
führen, der die Techniken dieses Kapitels benutzt und auf allgemeinere Situationen
übertragen werden kann (siehe Satz 3.1.8). Wir betrachten eine Basis {u1 , . . . , uk } von
2.3 Der Rang einer Matrix 47

U = {x ∈ Rn : Ax = 0}  und ergänzen sie zu einer Basis {u1 , . . . , uk , uk+1 , . . . , un }


des R . (Hier gehen Korollar 2.2.8 and Korollar 2.2.15 ein.) Es reicht zu zeigen, dass
n

Auk+1 , . . . , Aun eine Basis des Spaltenraums von A bilden.


Zunächst ist klar, dass die Auj Elemente des Spaltenraums sind. Um zu zeigen, dass
sie linear unabhängig sind, setzen wir

λk+1 · Auk+1 + · · · + λn · Aun = 0

 also λk+1 uk+1 + · · · + λn un ∈ U .


an. Dann ist auch A(λk+1 uk+1 + · · · + λn un ) = 0,
Entwickeln wir dieses Element in die gewählte Basis von U :

λk+1 uk+1 + · · · + λn un = λ1 u1 + · · · + λk uk .

Da die u1 , . . . , un linear unabhängig sind, müssen alle λj = 0 sein; insbesondere ist


λk+1 = · · · = λn = 0, was zu zeigen war.
Nun zeigen wir, dass Auk+1 , . . . , Aun ein Erzeugendensystem von SR(A) bilden. Sei
dazu x ∈ Rn geschrieben als

x = ξ1 u1 + · · · + ξn un .

Da u1 , . . . , uk ∈ U , folgt

Ax = ξk+1 · Auk+1 + · · · + ξn · Aun ∈ lin{Auk+1 , . . . , Aun },

was zu zeigen war. 

Man beachte, dass dieser Satz einen neuen Beweis für Satz 1.3.4 liefert.
Um eine Basis des Kerns von A, also des Lösungsraums des homogenen Gleichungs-
systems Ax = 0,  zu bestimmen, geht man gemäß Satz 1.3.2 mit Rückwärtssubstitution
vor; jede Nicht-Pivotspalte generiert dann eine Lösung, und all diese Lösungen sind linear
unabhängig. Da es n − r solche Spalten gibt, hat man nach Satz 2.3.6 wirklich eine Basis
des Lösungsraums bestimmt.
Hier ein Beispiel. Für die Matrix
⎛ ⎞
2 −4 2 −2
⎜ ⎟
⎜ 2 −4 3 −4 ⎟
A=⎜ ⎟
⎝ 4 −8 3 −2 ⎠
0 0 −1 2
48 2 R-Vektorräume

ergibt sich als Zeilenstufenform (nachrechnen!)


⎛ ⎞
2 −4 2 −2
⎜ ⎟
⎜ 0 0 1 −2 ⎟
⎜ ⎟.
⎝0 0 0 0⎠
0 0 0 0

Daher erhält man sämtliche Lösungen von Ax = 0 mit zwei freien Parametern t und s in
der Form

1
x4 = t, x3 = 2t, x2 = s, x1 = (4s − 2 · (2t) + 2t) = 2s − t,
2

also
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
2s − t 2 −1
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ s ⎟ ⎜1⎟ ⎜ 0⎟
x=⎜ ⎟=s⎜ ⎟+t⎜ ⎟.
⎝ 2t ⎠ ⎝0⎠ ⎝ 2⎠
t 0 1

Die Vektoren
⎛ ⎞ ⎛ ⎞
2 −1
⎜ ⎟ ⎜ ⎟
⎜1⎟ ⎜ 0⎟
⎜ ⎟ und ⎜ ⎟
⎝0⎠ ⎝ 2⎠
0 1

bilden daher eine Basis des Lösungsraums des homogenen Gleichungssystems.


Mit dem Begriff des Rangs lässt sich die Lösbarkeit eines inhomogenen Gleichungs-
systems so formulieren.

Satz 2.3.7 Seien A eine m × n-Matrix und b ∈ Rm . Dann ist das Gleichungssystem
Ax = b genau dann lösbar, wenn b im Spaltenraum von A liegt, und das ist äquivalent
dazu, dass A und die erweiterte Koeffizientenmatrix (A | b) denselben Rang haben.

Beweis Die erste Aussage ist klar, da Ax = b genau dann lösbar ist, wenn b ei-
ne Linearkombination der Spalten von A ist. Das zeigt auch, dass in diesem Fall
rg(A) = rg(A | b) ist. Gilt umgekehrt rg(A) = rg(A | b), so muss b von den Spalten von A
linear abhängig sein (Beweis?). Daraus folgt die Lösbarkeit von Ax = b. 

Wir haben den Rang einer Matrix als die Maximalzahl linear unabhängiger Spalten
definiert. Genauso könnte man die Maximalzahl linear unabhängiger Zeilen betrachten.
2.3 Der Rang einer Matrix 49

Da in unserem Weltbild Vektoren immer Spalten sind, benötigen wir einen Kunstgriff, um
diese Definition konsistent zu fassen.
Ist A = (aij )i=1,...,m;j =1,...,n eine m × n-Matrix, so nennen wir die n × m-Matrix

At = (aijt )i=1,...,n;j =1,...,m , aijt = aj i ,

die zu A transponierte Matrix. Beispiel:


⎛ ⎞
1 2
⎜ ⎟ 135
A = ⎝3 4⎠, At = .
246
5 6

Der Zeilenrang von A ist definitionsgemäß der Rang von At .


Zunächst bringen wir zwei nützliche Lemmata über transponierte Matrizen.

Lemma 2.3.8 Ist A eine m × n- und B eine l × m-Matrix, so gilt (BA)t = At B t .



Beweis In Zeile i und Spalte k der Matrix BA steht die Zahl j bij aj k , deshalb steht in
der transponierten Matrix (BA)t in der i-ten Zeile und k-ten Spalte

bkj aj i = (aijt )(bjt k ),


j j

also dasselbe Element wie bei At B t . 

Lemma 2.3.9 Ist S eine invertierbare n × n-Matrix, so ist auch S t invertierbar, und es
gilt (S t )−1 = (S −1 )t .

Beweis Aus SS −1 = S −1 S = En folgt nach Lemma 2.3.8 En = Ent = (S −1 )t S t =


S t (S −1 )t ; das zeigt (S t )−1 = (S −1 )t . 

Der folgende Satz ist recht überraschend.

Satz 2.3.10 Für jede Matrix stimmen Zeilenrang und Spaltenrang überein.

Beweis Wir wissen aus Satz 2.3.3, dass die Multiplikation einer Matrix A mit einer
invertierbaren Matrix von rechts oder links den Rang unverändert lässt. Wegen Lem-
ma 2.3.8 und 2.3.9 sowie Satz 1.6.2 reicht es daher, den Satz zu zeigen, wenn A in
Zeilenstufenform vorliegt, was jetzt angenommen sei. Ist r die Anzahl der Pivotspalten, so
gilt ja rg(A) = r; siehe die Überlegungen vor Satz 2.3.4. Außerdem ist klar, dass genau
die ersten r Spalten von At (= ˆ Zeilen von A) keine Nullspalten und linear unabhängig
sind. Daher ist rg(At ) = r = rg(A). 
50 2 R-Vektorräume

Am Ende von Abschn. 1.1 haben wir Vermutungen über das typische Lösungsverhalten
eines Gleichungssystems mit m Gleichungen und n Unbekannten formuliert. Jetzt wissen
wir das genau: Bei einem homogenen Gleichungssystem, das durch eine m × n-Matrix
beschrieben wird, ist die Zahl der „relevanten“ Gleichungen wichtig; „irrelevant“ sind
diejenigen Gleichungen, die sich durch andere ausdrücken lassen. Mit anderen Worten
ist diese Anzahl r definitionsgemäß gleich dem Zeilenrang von A, also r = rg(A) nach
Satz 2.3.10. Ist k die Anzahl der linear unabhängigen Lösungen von Ax = 0,  so gilt nach
Satz 2.3.6 k + r = n; insbesondere gibt es nichttriviale Lösungen genau dann, wenn r < n
ist.
Unsere Erkenntnisse über den Rang einer quadratischen Matrix können wir so zusam-
menfassen.

Korollar 2.3.11 Für eine n × n-Matrix A sind folgende Bedingungen äquivalent:


(i) rg(A) = n.
(ii) Die Spalten von A sind linear unabhängig.
(iii) Die Zeilen von A sind linear unabhängig.
(iv) Das homogene Gleichungssystem Ax = 0 hat nur die triviale Lösung x = 0.

(v) Für jedes b ∈ R ist das inhomogene Gleichungssystem Ax = b lösbar.
n

(vi) Für jedes b ∈ Rn ist das inhomogene Gleichungssystem Ax = b eindeutig lösbar.


(vii) A ist invertierbar.
(viii) Es existiert eine n × n-Matrix B mit AB = En .
(ix) Es existiert eine n × n-Matrix B mit BA = En .

Im übernächsten Kapitel (Korollar 4.2.5) werden wir als weitere äquivalente Bedingung
(x) det(A) = 0
hinzufügen können, wenn wir die Determinante studieren.

2.4 Summen von Unterräumen

Wir betrachten folgende Situation: V ist ein Vektorraum, und U1 , . . . , Ur sind endlich
viele Unterräume. Als Summe dieser Unterräume bezeichnen wir die Menge

U1 + · · · + Ur = {v ∈ V : Es existieren uj ∈ Uj mit v = u1 + · · · + ur }.

Lemma 2.4.1 Es ist

U1 + · · · + Ur = lin(U1 ∪ . . . ∪ Ur );

insbesondere ist U1 + · · · + Ur ein Unterraum von V.


2.4 Summen von Unterräumen 51

Beweis Die Inklusion „⊂“ ist klar nach Definition der Summe. Sei jetzt v ∈ lin(U1 ∪ . . . ∪
Ur ); dann kann man

v = u1 + · · · + us

mit ui ∈ U1 ∪ . . . ∪ Ur schreiben (warum?). Nun sortieren wir die Indizes:

I1 = {i: ui ∈ U1 }, I2 = {i: ui ∈ U2 } \ I1 , I3 = {i: ui ∈ U3 } \ (I1 ∪ I2 ) etc.

(Einige der Iρ können leer sein.) Dann haben wir die Darstellung4

v= ui + · · · + ui ∈ U1 + · · · + Ur ,
i∈I1 i∈Ir

was die andere Inklusion zeigt. Der Zusatz ist wegen Satz 2.1.7 klar. 

Im Fall r = 2 hat man folgende wichtige Dimensionsformel.

Satz 2.4.2 Sind U1 und U2 endlichdimensionale Unterräume von V, so ist auch U1 + U2


endlichdimensional, und es gilt

dim(U1 + U2 ) + dim(U1 ∩ U2 ) = dim U1 + dim U2 .

Beweis Es sei {u1 , . . . , ur } eine Basis von U1 ∩ U2 ; wir ergänzen sie zu Basen
{u1 , . . . , ur , vr+1 , . . . , vr+k } bzw. {u1 , . . . , ur , wr+1 , . . . , wr+l } von U1 bzw. U2 . Es
ist also dim(U1 ∩ U2 ) = r, dim U1 = r + k, dim U2 = r + l. Wir zeigen, dass
{u1 , . . . , ur , vr+1 , . . . , vr+k , wr+1 , . . . , wr+l } eine Basis von U1 + U2 ist, was die
Behauptung liefert.
Diese Vektoren sind linear unabhängig: Gelte

λ1 u1 + · · · + λr ur + μ1 vr+1 + · · · + μk vr+k + ν1 wr+1 + · · · + νl wr+l = 0V . (2.4.1)

Dann ist

ν1 wr+1 + · · · + νl wr+l = −(λ1 u1 + · · · + λr ur + μ1 vr+1 + · · · + μk vr+k ) ∈ U1 ∩ U2

(denn die rechte Seite liegt in U1 und die linke in U2 ) und daher von der Form

ν1 wr+1 + · · · + νl wr+l = α1 u1 + · · · + αr ur .

4 Die Summe über die leere Menge, 


i∈∅ ui , ist definitionsgemäß 0.
52 2 R-Vektorräume

Die lineare Unabhängigkeit von u1 , . . . , ur , wr+1 , . . . , wr+l liefert, dass alle νi = 0 sind.
Da u1 , . . . , ur , vr+1 , . . . , vr+k linear unabhängig sind, sind in (2.4.1) auch alle μi = 0
und alle λi = 0.
Diese Vektoren bilden ein Erzeugendensystem von U1 +U2 : Sei v ∈ U1 +U2 , sagen wir
v = y1 + y2 mit yj ∈ Uj . Wir können yj in die angegebenen Basen entwickeln; Addition
zeigt dann v ∈ lin{u1 , . . . , ur , vr+1 , . . . , vr+k , wr+1 , . . . , wr+l }. 

Das folgende einfache Korollar ist oft hilfreich.

Korollar 2.4.3 Seien U1 und U2 Unterräume des n-dimensionalen Vektorraums V mit


dim U1 + dim U2 > n. Dann ist U1 ∩ U2 = {0V }.

Wenn Unterräume U1 und U2 von V mit U1 ∩U2 = {0V } vorliegen, nennt man die Sum-
me U1 + U2 eine direkte Summe und schreibt U1 ⊕ U2 ; U2 wird ein Komplementärraum
zu U1 (relativ zu U1 ⊕ U2 ) genannt (zu Eindeutigkeit und Existenz siehe Korollar 5.3.11
und Satz 10.1.3). In diesem Fall gilt folgende Eindeutigkeitsaussage.

Satz 2.4.4 Für u ∈ U1 ⊕ U2 existieren eindeutig bestimmte uj ∈ Uj mit u = u1 + u2 .

Beweis Die Existenz solcher uj ist klar nach Definition. Gelte nun

u = u1 + u2 = ũ1 + ũ2 mit uj , ũj ∈ Uj .

Dann ist u − u = (u1 − ũ1 ) + (u2 − ũ2 ) = 0V , also u1 − ũ1 = ũ2 − u2 ∈ U1 ∩ U2 = {0V }.
Das zeigt u1 = ũ1 und u2 = ũ2 und damit die behauptete Eindeutigkeit. 

Allgemeiner spricht man von einer direkten Summe der Unterräume U1 , . . . , Ur , wenn
sich jedes Element von U1 + · · · + Ur eindeutig als u1 + · · · + ur mit uj ∈ Uj darstellen
lässt; Bezeichnung: U1 ⊕ · · · ⊕ Ur . Aus Satz 2.4.2 folgt induktiv

dim(U1 ⊕ · · · ⊕ Ur ) = dim U1 + · · · + dim Ur . (2.4.2)

Eng verwandt mit den direkten Summen sind die direkten Produkte von Vektorräumen,
die wir kurz streifen. Seien V1 , . . . , Vr Vektorräume und V = V1 ×· · ·×Vr ihr kartesisches
Produkt, d. h.

V = {(v1 , . . . , vr ): vj ∈ Vj für j = 1, . . . , r}.

Wir führen eine Addition und eine Skalarmultiplikation auf V ein gemäß

(v1 , . . . , vr ) + (w1 , . . . , wr ) = (v1 + w1 , . . . , vr + wr ),


λ(v1 , . . . , vr ) = (λv1 , . . . , λvr ).
2.5 Aufgaben 53

Man überprüft dann, dass V mit diesen Operationen die Struktur eines Vektorraums trägt.
(Tun Sie’s!)
Sei für j = 1, . . . , r

Uj = {(v1 , . . . , vr ) ∈ V : vi = 0Vi für i = j }.

Dann ist Uj ein Unterraum von V, und es gilt V = U1 ⊕ · · · ⊕ Ur (Beweis?). Natürlich ist
Uj „irgendwie dasselbe“ wie Vj ; aber um das präzise zu fassen, benötigen wir den Begriff
des Vektorraum-Isomorphismus. Dazu mehr im folgenden Kapitel.

2.5 Aufgaben

Aufgabe 2.5.1 Sei U ein Untervektorraum von V. Dann ist {v ∈ V : v ∈


/ U } kein
Untervektorraum von V.

Aufgabe 2.5.2 Seien U1 und U2 Untervektorräume von V. Dann ist auch U1 ∩ U2 ein
Untervektorraum von V.

Aufgabe 2.5.3 Untersuchen Sie, welche der folgenden Teilmengen U Unterräume des
Vektorraums V sind.
(a) V = Rn , U = {v ∈ V : vn ≥ 0}
(b) V = Abb([0, 2]), U = {f ∈ V : f (0) + f (1) + f (2) = 0}
(c) V = Rn×n , U = {A ∈ V : Aist nicht invertierbar}
1
(d) V = Pol(R), U = {f ∈ V : 0 f (x) dx = 0}
Bemerkungen: In (a) habe v die Koordinaten v1 , . . . , vn . In (d) sind elementare Kenntnisse
der Integralrechung aus der Schule vorausgesetzt.

Aufgabe 2.5.4 Sei V ein Vektorraum, und seien U1 und U2 Unterräume von V. Zeigen
Sie: Wenn U1 ∪ U2 ein Unterraum von V ist, dann ist U1 ⊂ U2 oder U2 ⊂ U1 .

Aufgabe 2.5.5 Zeigen Sie folgende Aussage: Die Vektoren v1 , . . . , vn eines Vektorraums
V sind genau dann linear abhängig, wenn einer von ihnen eine Linearkombination der
übrigen ist.

Aufgabe 2.5.6 Sei A eine m × n-Matrix, und seien v1 , . . . , vk ∈ Rn . Zeigen Sie: Wenn
Av1 , . . . , Avk ∈ Rm linear unabhängig sind, so sind auch v1 , . . . , vk linear unabhängig.
Gilt auch die Umkehrung?
54 2 R-Vektorräume

Aufgabe 2.5.7
(a) Sei
⎧⎛ ⎞ ⎫

⎨ 1 ⎪

⎜ ⎟
M = ⎝ x ⎠ : x ∈ R ⊂ R3 .

⎩ ⎪

x2

Zeigen Sie, dass je drei verschiedene Vektoren v1 , v2 , v3 ∈ M linear unabhängig sind.


(b) Bestimmen Sie 2222 verschiedene Basen des Vektorraums R3 , die aus insgesamt
6666 verschiedenen Vektoren aus M bestehen.

Aufgabe 2.5.8 Die j -te Spaltensumme einer m × n-Matrix A = (aij ) ist

m
σj (A) = aij ,
i=1

und die i-te Zeilensumme ist


n
ζi (A) = aij .
j =1

(a) Zeigen Sie, dass die Menge

V = {A ∈ Rm×n : σ1 (A) = · · · = σn (A) = ζ1 (A) = · · · = ζm (A)}

einen Unterraum von Rm×n bildet.


(b) Bestimmen Sie im Fall m = n = 2 die Dimension von V und eine Basis.

Aufgabe 2.5.9 Sei V ein Vektorraum mit dim(V ) ≥ 2 und einer Basis v1 , . . . , vn .
Betrachten Sie die Vektoren
(a) v1 − v2 , v2 − v3 , v3 − v4 , . . . , vn−1 − vn , vn − v1 ;
(b) v1 + v2 , v2 + v3 , v3 + v4 , . . . , vn−1 + vn , vn + v1 .
Für welche n bilden die Vektoren in (a) bzw. (b) ebenfalls eine Basis von V ?

Aufgabe 2.5.10 Bestimmen Sie den Rang der Matrix


⎛ ⎞
1 3 0 −1 2
⎜ ⎟
⎜ 0 −2 4 −2 0⎟
⎜ ⎟.
⎝ 3 11 −4 −1 6⎠
2 5 3 −4 0
2.5 Aufgaben 55

Aufgabe 2.5.11 Sei A die Matrix


⎛ ⎞
2 −4 2 −2
⎜ ⎟
⎜ 2 −4 3 −4 ⎟
⎜ ⎟.
⎝ 4 −8 3 −2 ⎠
0 0 −1 2

 und
Lösen Sie mit dem Gaußschen Algorithmus das Gleichungssystem Ax = 0,
bestimmen Sie den Rang von A.

Aufgabe 2.5.12 Bestimmen Sie eine Basis für den Unterraum von R5 , der von den
Vektoren
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
1 2 0 3 2 5
⎜ −1 ⎟ ⎜ 1⎟ ⎜ −3 ⎟ ⎜ 3⎟ ⎜4⎟ ⎜ 7⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ 0⎟, ⎜ −2 ⎟ , ⎜ 2⎟, ⎜ −4 ⎟ , ⎜1⎟, ⎜ −3 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ 2⎠ ⎝ 0⎠ ⎝ 4⎠ ⎝ −2 ⎠ ⎝0⎠ ⎝ −2 ⎠
1 0 2 −1 1 0

aufgespannt wird.

Aufgabe 2.5.13 Eine quadratische Matrix A heißt symmetrisch, wenn A = At ist.


(a) Zeigen Sie für eine m × n-Matrix A, dass AAt und At A symmetrisch sind.
(b) Zeigen Sie für eine quadratische Matrix A, dass A + At symmetrisch ist.

Aufgabe 2.5.14 Seien U1 , U2 , U3 Unterräume des n-dimensionalen Vektorraums V.


(a) Zeigen Sie dim(U1 ∩ U2 ∩ U3 ) ≥ dim(U1 ) + dim(U2 ) + dim(U3 ) − 2n.
(b) Geben Sie ein Beispiel, wo „=“ vorkommt.
(c) Geben Sie ein Beispiel, wo „>“ vorkommt.
Lineare Abbildungen
3

3.1 Definition und erste Eigenschaften

Die Diskussion linearer Gleichungssysteme in Kap. 1 hat gezeigt, dass die Hauptbeteilig-
ten einerseits Vektoren und andererseits Matrizen sind. In Kap. 2 haben wir einen Blick
auf die allgemeine Theorie der Vektoren geworfen, und nun wollen wir uns abstrakt den
Matrizen widmen.
Jede Matrix generiert eine Abbildung (vgl. Satz 1.5.1), deren entscheidende Eigen-
schaften in der folgenden Definition herausgestellt sind.

Definition 3.1.1 Seien V und W Vektorräume und L: V → W eine Abbildung. Dann


heißt L linear, wenn
(a) L(u + v) = L(u) + L(v) für alle u, v ∈ V ,
(b) L(λv) = λ · L(v) für alle v ∈ V , λ ∈ R.

Statt lineare Abbildung sagt man auch linearer Operator oder lineare Transformation.
Es gibt zahlreiche Beispiele linearer Abbildungen in der Algebra und der Analysis.
Bevor wir einige davon kennenlernen, machen wir die einfache Bemerkung, dass für eine
lineare Abbildung L: V → W stets L(0V ) = 0W gilt, da ja L(0V ) = L(0 · 0V ) =
0 · L(0V ) = 0W . Ferner ist stets L(−v) = −L(v), da ja −v = (−1) · v ist.

Beispiele 3.1.2
(a) In Satz 1.5.1 wurde bemerkt, dass für eine m × n-Matrix A die Abbildung

LA : Rn → Rm , LA (x) = Ax

linear ist.

© Der/die Autor(en), exklusiv lizenziert an Springer Nature Switzerland AG 2022 57


D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2_3
58 3 Lineare Abbildungen

(b) Sei D(I ) der Vektorraum der differenzierbaren Funktionen auf einem Intervall I . Die
aus der Schulmathematik bekannten Ableitungsregeln implizieren, dass

L: D(I ) → Abb(I ), L(f ) = f 

eine lineare Abbildung ist.


(c) Die Integration ist ebenfalls ein linearer Prozess, wie Sie in der Schulmathematik
gelernt haben. Wir betrachten dies in folgendem Kontext. Sei a < b und
 b
L: Pol([a, b]) → R, L(f ) = f (x) dx.
a

Dann ist L eine lineare Abbildung. Hier ist der Wertebereich R; man spricht in diesem
Fall von einem linearen Funktional oder einer Linearform.
(d) Wir wollen das folgende Funktional auf Pol(R) diskutieren:

n
L: ak xk → a3 .
k=0

(xk steht für die Funktion x → x k .) Man kann unmittelbar die Bedingungen aus
Definition 3.1.1 nachrechnen; aber eine Sache ist zuvor zu klären: Ist diese Abbildung
wohldefiniert? Einerseits ist hierzu zu überlegen, was L mit z. B. quadratischen
Polynomen macht, und andererseits, dass eine Polynomfunktion eindeutig ihre Ko-
effizienten bestimmt. Was Ersteres angeht, können wir ein quadratisches Polynom
künstlich durch Nullen ergänzen, z. B. 2x 2 − x = 0 · x 3 + 2x 2 − x. Allgemein kann
∞
jede Polynomfunktion formal als unendliche Reihe f = k
k=0 ak x geschrieben
werden, wobei aber nur endlich viele ak von 0 verschieden sind. (Also: Es existiert
N ∈ N0 mit ak = 0 für k > N .) Was Letzteres angeht, ist nun Folgendes zu
 ∞
klären: Wenn f ∈ Pol(R) als f = ∞ k=0 ak x und als f =
k k
k=0 bk x dargestellt
ist, wobei nur endlich viele ak bzw. bk nicht verschwinden, dann stimmt jeweils ak
mit bk überein. Dies können wir z. B. mit Hilfe der Differentialrechnung begründen,
da wir

f (k) (0)
ak = = bk
k!

schreiben können (k! = 1 · 2 · · · k für k ∈ N und 0! = 1; lies „k Fakultät“).


Beachten Sie, dass Argument und Aussage auf sehr „kleinen“ Definitionsbereichen
zusammenbrechen: Die Funktion f ∈ Pol({0, 1}), f (x) = x 2 , kann auf diesem
Definitionsbereich auch durch f (x) = x 3 beschrieben werden!
(e) Die Welt der Matrizen hält weitere Beispiele linearer Abbildungen parat. Sei A ∈
Rl×m und
3.1 Definition und erste Eigenschaften 59

L: Rm×n → Rl×n , L(B) = AB.

Dies ist eine lineare Abbildung, da z. B. in der i-ten Zeile und k-ten Spalte von
A(B + C) die Zahl

m m m
aij (bj k + cj k ) = aij bj k + aij cj k
j =1 j =1 j =1

steht, die auch bei der Matrix AB + AC dort zu finden ist. (Hier sei A = (aij ),
B = (bj k ), C = (cj k ).) Genauso zeigt man L(λB) = λL(B).
(f) Für eine n × n-Matrix A = (aij ) setzt man

n
tr(A) = aii ,
i=1

die Spur (engl. trace) von A. Das Spurfunktional

L: Rn×n → R, L(A) = tr(A)

ist klarerweise linear.

Lineare Abbildungen sind durch ihre Wirkung auf eine Basis eindeutig bestimmt, wie
der nächste Satz lehrt (für den unendlichdimensionalen Fall siehe Satz 10.1.6).

Satz 3.1.3 Sei V ein endlichdimensionaler Vektorraum mit einer Basis B = {v1 , . . . , vn }.
Sei W ein weiterer Vektorraum, und sei : B → W eine Abbildung. Dann existiert genau
eine lineare Abbildung L: V → W , die auf B mit übereinstimmt: L(v) = (v) für alle
v ∈ B.

Beweis Sei v ∈ V . Nach Satz 2.2.13 existieren eindeutig bestimmte Zahlen λ1 , . . . , λn


mit v = λ1 v1 + · · · + λn vn . Wenn es überhaupt eine wie im Satz beschriebene Abbildung
gibt, muss sie wegen der Linearität den Vektor v auf λ1 (v1 ) + · · · + λn (vn ) abbilden.
Diese Überlegung zeigt, dass es höchstens eine wie im Satz beschriebene Abbildung geben
kann. Zum Beweis der Existenz definieren wir, motiviert durch obiges Argument,

L: V → W, L(v) = λ1 · (v1 ) + · · · + λn · (vn );

dann ist klar, dass stets L(vj ) = (vj ) ist (warum nämlich?). Zeigen wir jetzt, dass L
linear ist. Sei ein weiteres Element u ∈ V mit Basisentwicklung u = μ1 v1 + · · · + μn vn
gegeben; u + v habe die Basisentwicklung u + v = ρ1 v1 + · · · + ρn vn . Da andererseits
u + v = (μ1 + λ1 )v1 + · · · + (μn + λn )vn ist und die Koeffizienten der Basisentwicklung
60 3 Lineare Abbildungen

eindeutig bestimmt sind, folgt stets ρj = μj + λj . Daher ist

L(u + v) = ρ1 · (v1 ) + · · · + ρn · (vn )


= (μ1 + λ1 ) · (v1 ) + · · · + (μn + λn ) · (vn )
= (μ1 · (v1 ) + · · · + μn · (vn )) + (λ1 · (v1 ) + · · · + λn · (vn ))
= L(u) + L(v).

Genauso beweist man Bedingung (b) aus Definition 3.1.1 (tun Sie’s!). 

Wir studieren als nächstes das Bild (engl. range) und den Kern (engl. kernel) einer
linearen Abbildung; vgl. die allgemeinen Begriffe von Bild und Urbild aus Abschn. 1.4.
Die Symbole V und W bezeichnen stets Vektorräume.

Definition 3.1.4 Sei L: V → W linear. Dann setzt man

ran(L) = L(V ) = {L(v): v ∈ V } ⊂ W,


ker(L) = L−1 ({0W }) = {v ∈ V : L(v) = 0W } ⊂ V .

Lemma 3.1.5 Für eine lineare Abbildung L: V → W ist ran(L) ein Unterraum von W
und ker(L) ein Unterraum von V .

Beweis Zum Bild: Zunächst ist 0W = L(0V ) ∈ ran(L). Seien w1 , w2 ∈ ran(L). Dann
existieren v1 , v2 ∈ V mit L(v1 ) = w1 , L(v2 ) = w2 . Da L linear ist, folgt L(v1 + v2 ) =
w1 + w2 , also w1 + w2 ∈ ran(L). Genauso sieht man, dass λw ∈ ran(L), wenn λ ∈ R und
w ∈ ran(L) ist.
Zum Kern: Zunächst ist wieder L(0V ) = 0W , also 0V ∈ ker(L). Seien v1 , v2 ∈ ker(L).
Dann gilt L(v1 ) = L(v2 ) = 0W , und da L linear ist, folgt L(v1 + v2 ) = L(v1 ) + L(v2 ) =
0W , also v1 + v2 ∈ ker(L). Genauso sieht man, dass λv ∈ ker(L), wenn λ ∈ R und
v ∈ ker(L) ist. 

Hier ist ein weiteres sehr einfaches, aber wichtiges Lemma.

Lemma 3.1.6 Sei L: V → W eine lineare Abbildung. Dann ist L genau dann injektiv,
wenn ker(L) = {0V } ist.

Beweis Wenn L injektiv ist, folgt aus L(v) = 0W natürlich v = 0V (da ja L(0V ) = 0W );
das zeigt ker(L) = {0V }. Gilt umgekehrt ker(L) = {0V } und ist L(v1 ) = L(v2 ), so liefert
die Linearität von L, dass L(v1 − v2 ) = 0W , also v1 − v2 ∈ ker(L). Es folgt v1 = v2 , und
L ist injektiv. 
3.1 Definition und erste Eigenschaften 61

Die folgenden Begriffe und Resultate sind vollkommen analog zu denen für Matrizen
aus Abschn. 2.3.

Definition 3.1.7 Sei L: V → W linear. Man setzt

rg(L) = dim ran(L) (Rang von L),


df(L) = dim ker(L) (Defekt von L).

(Diese Dimensionen können Werte in N0 ∪ {∞} annehmen.)

Satz 3.1.8 Sei V endlichdimensional und L: V → W linear. Dann gilt

df(L) + rg(L) = dim(V ).

Den Beweis dieses bedeutenden Satzes haben wir im Prinzip schon geführt – er ist
identisch mit dem Beweis von Satz 2.3.6, wenn man die Notation anpasst.
Es folgt ein wichtiges Korollar, das wir im Matrixkontext in Satz 1.5.3 „zu Fuß“
bewiesen haben.

Korollar 3.1.9 Sei V endlichdimensional und L: V → V linear. Dann ist L genau dann
injektiv, wenn L surjektiv ist.

Beweis L ist genau dann injektiv, wenn df(L) = 0 ist (Lemma 3.1.6). L ist genau dann
surjektiv, wenn rg(L) = dim(V ) ist (Satz 2.2.12). Es bleibt, Satz 3.1.8 anzuwenden. 

Es ist nicht nur wichtig, einzelne lineare Abbildungen zu studieren, sondern auch ihre
Gesamtheit. Daher setzen wir

L (V , W ) = {L: V → W : L linear}.

In vielen Büchern zur Linearen Algebra wird diese Menge mit Hom(V , W ) („Homomor-
phismen“) bezeichnet. Im Fall V = W schreiben wir L (V ) statt L (V , V ); Freunde der
Algebra sprechen von Endomorphismen und schreiben End(V ).
Für L1 , L2 ∈ L (V , W ) und λ ∈ R setzen wir (v ∈ V )

(L1 + L2 )(v) = L1 (v) + L2 (v); (λL1 )(v) = λ · L1 (v).

Satz 3.1.10 Mit diesen Operationen ist L (V , W ) ein Vektorraum.

Beweis Als erstes beachte man, dass L (V , W ) definitionsgemäß eine Teilmenge von
Abb(V , W ) ist (Beispiel 2.1.2(d)) und die oben definierten Operationen dieselben wie
62 3 Lineare Abbildungen

im Vektorraum Abb(V , W ) sind. Es ist daher nur zu überprüfen, dass L (V , W ) ein


Unterraum von Abb(V , W ) ist.
Es ist klar, dass die Nullabbildung, die jedes v ∈ V auf 0W abbildet, in L (V , W )
liegt, und es ist elementar nachzurechnen, dass Summen und skalare Vielfache linearer
Abbildungen auch linear sind. 

Auch die Komposition linearer Abbildungen ist linear:

Satz 3.1.11 Sind L1 : V → W und L2 : W → Z linear, so auch L2 ◦ L1 : V → Z.

Beweis Nachrechnen! 

3.2 Isomorphe Vektorräume

In der Mathematik trifft man häufig auf Objekte, die sich nicht in ihrer Struktur unterschei-
den; diese fasst man dann als „isomorph“ (also als mit dem vorliegenden Instrumentarium
ununterscheidbar) auf. Um welche Struktur es dabei geht, hängt vom untersuchten Kontext
ab. Geht es z. B. nur um die Anzahl der Elemente einer Menge, sind die Mengen {1, 2, 3},
{∅, {∅}, {{∅}}} sowie, ein Bonmot David Hilberts aufgreifend, {Tisch, Stuhl, Bierseidel}
ununterscheidbar; zwischen je zwei der obigen Mengen gibt es nämlich eine bijektive
Abbildung. In der Analysisvorlesung lernen Sie, dass es eine Bijektion zwischen N und
Q gibt; wenn es also nur um die Anzahl der Elemente geht, ist N „dasselbe“ wie Q,
wenngleich sich diese Mengen in anderen Strukturen unterscheiden (wenn man z. B. die
Subtraktion oder Division von Elementen in Betracht zieht).
In der Linearen Algebra wird man Vektorräume als „isomorph“ ansehen wollen,
wenn es nicht nur eine Bijektion zwischen ihnen gibt, sondern wenn diese auch die
Vektorraumoperationen respektiert. Bevor wir diese Idee formalisieren, halten wir ein
Lemma fest. Weiterhin stehen V , W etc. für Vektorräume.

Lemma 3.2.1 Sei L: V → W linear und bijektiv. Dann ist die Umkehrabbildung
L−1 : W → V ebenfalls linear.

Beweis Seien w1 , w2 ∈ W . Dann existieren eindeutig bestimmte Elemente v1 , v2 ∈ V mit


L(v1 ) = w1 , L(v2 ) = w2 . Da L linear ist, folgt L(v1 + v2 ) = w1 + w2 , d. h.

L−1 (w1 + w2 ) = v1 + v2 = L−1 (w1 ) + L−1 (w2 ).

Genauso zeigt man L−1 (λw) = λ · L−1 (w) für λ ∈ R und w ∈ W (tun Sie’s!). 
3.2 Isomorphe Vektorräume 63

Definition 3.2.2 Eine bijektive lineare Abbildung L: V → W heißt Vektorraumisomor-


phismus (oder kurz Isomorphismus). Zwei Vektorräume V und W heißen isomorph, wenn
es zwischen ihnen einen Vektorraumisomorphismus gibt; in Zeichen: V ∼
= W.

Also überträgt ein Isomorphismus L: V → W die Vektorraumoperationen von V nach


W , und wegen Lemma 3.2.1 überträgt L−1 die Vektorraumoperationen von W nach V .
Daher sind V und W als Vektorräume nicht zu unterscheiden.
Der Isomorphiebegriff erfüllt die folgenden Beziehungen (warum?):
• V ∼= V (Reflexivität)
• V =∼W ⇒ W = ∼ V (Symmetrie)
• V = W, W = Z ⇒ V ∼
∼ ∼ = Z (Transitivität)
Damit können wir die am Ende von Abschn. 2.4 gemachte Bemerkung präzisieren, dass
(Bezeichnungen siehe dort) „Uj irgendwie dasselbe wie Vj “ ist: Die Abbildung L: Vj →
Uj , L(v) = (0, . . . , 0, v, 0, . . . , 0), ist offensichtlich ein Isomorphismus (v steht an der
j -ten Stelle). Ein weiteres einfaches Beispiel bildet die Isomorphie des Raums Rm×n aller
m × n-Matrizen mit dem Raum Rm·n . Hier ist ein interessanteres Beispiel.

Satz 3.2.3 L (Rn , Rm ) und Rm×n sind isomorph.

Beweis Wir werden einen „kanonischen“ Isomorphismus angeben, nämlich

: Rm×n → L (Rn , Rm ), (A) = LA ,

wobei LA (x) = Ax wie in Satz 1.5.1.


Nach den Rechenregeln für die Matrix-Vektor-Multiplikation ist linear. Um die
Injektivität von zu zeigen, müssen wir wegen Lemma 3.1.6 nur ker( ) = {0}
nachweisen:1 Ist nämlich (A) = 0, also LA = 0, so gilt Ax = 0 für alle x ∈ Rn .
Speziell ist für alle Einheitsvektoren Aej = 0, d. h. alle Spalten von A bestehen nur aus
Nullen, und A ist die Nullmatrix.
Es bleibt, die Surjektivität von nachzuweisen. Sei also L ∈ L (Rn , Rm ). Wir
setzen sj = L(ej ) ∈ Rm und bilden die Matrix A mit den Spalten s1 , . . . , sn ; es
gilt also LA (ej ) = Aej = sj . Wegen der Eindeutigkeitsaussage in Satz 3.1.3 folgt
L = LA = (A). Das beweist ran( ) = L (Rn , Rm ), was zu zeigen war. 

Der letzte Satz präzisiert, inwiefern m × n-Matrizen und lineare Abbildungen „dassel-
be“ sind.
Als nächstes nehmen wir Beispiel 3.1.2(d) wieder auf. Wir bezeichnen mit R<∞ die
Menge der „abbrechenden“ Folgen

1 Ab jetzt werden wir nicht mehr zwischen den Symbolen für die Null in unterschiedlichen Vektor-
räumen differenzieren!
64 3 Lineare Abbildungen

a0 , a1 , a2 , . . . , aN , 0, 0, . . . ,

also

R<∞ = {(ak )k≥0 : ∃N ∈ N0 ∀k > N ak = 0}.

Dies erweist sich sofort als Vektorraum, nämlich als Unterraum von Abb(N0 ).

Satz 3.2.4 Pol(R) ist isomorph zu R<∞ .

Beweis Die Abbildung


: R<∞ → Pol(R), ((ak )k≥0 ) = ak xk
k=0

ist offensichtlich linear und surjektiv, und in Beispiel 3.1.2(d) wurde gezeigt, dass
injektiv ist. 

Wir kommen zum Hauptsatz über die Isomorphie endlichdimensionaler Räume (Korol-
lar 3.2.6). Der erste Schritt ist:

Satz 3.2.5 Sei V ein n-dimensionaler Vektorraum. Dann ist V isomorph zu Rn .

Beweis Wir betrachten eine Basis B von V , die aus den Vektoren b1 , . . . , bn bestehe, und
setzen

KB : Rn → V , KB (x) = x1 b1 + · · · + xn bn , (3.2.1)

wenn x die Koordinaten x1 , . . . , xn hat. Klarerweise ist KB linear, surjektiv (da B ein
Erzeugendensystem ist) und injektiv (da B linear unabhängig ist). 

Es gibt einen Umterschied zwischen den Isomorphismen aus Satz 3.2.3 und 3.2.4 sowie
aus Satz 3.2.5: Im letzten Fall hängt die Wahl des Isomorphismus von der Wahl der
betrachteten Basis ab, in den ersten beiden Fällen ist der Isomorphismus kanonisch (d. h.
nicht von der willkürlichen Wahl einer Basis oder anderer Parameter abhängig).
Die Inverse der gerade betrachteten Abbildung KB ist bedeutsam, da sie die Koordina-
ten eines Vektors in der betrachteten Basis wiedergibt; vgl. Satz 2.2.13.

Korollar 3.2.6 Zwei endlichdimensionale Vektorräume V und W sind genau dann iso-
morph, wenn ihre Dimensionen übereinstimmen:

V ∼
=W ⇔ dim(V ) = dim(W ).
3.3 Matrixdarstellung und Koordinatentransformation 65

Beweis Ist dim(V ) = dim(W ) = n, so gilt nach Satz 3.2.5 V ∼= Rn , W ∼


= Rn , und wegen
der Symmetrie und der Transitivität der Isomorphie-Relation auch V ∼= W.
Ist umgekehrt etwa dim(V ) < dim(W ) und L: V → W eine lineare Abbildung, so
kann L wegen Satz 3.1.8 nicht surjektiv sein; deshalb sind V und W nicht isomorph.
Analog ergibt sich, dass eine lineare Abbildung L: V → W im Fall dim(V ) > dim(W )
nicht injektiv sein kann; und wieder sind V und W nicht isomorph.
(Alternativ kann man argumentieren, dass ein Isomorphismus L: V → W eine Basis
von V auf eine Basis von W abbildet.) 

3.3 Matrixdarstellung und Koordinatentransformation

Wir betrachten endlichdimensionale Räume V und W mit Basen B und B  sowie


L ∈ L (V , W ). Wie bereits im Beweis von Satz 3.2.5 wird die Reihenfolge der
Basisvektoren wichtig sein; daher betrachten wir Basen als Tupel statt als Mengen, etwa
B = (b1 , . . . , bn ) und B  = (b1 , . . . , bm
 ), und sprechen von einer geordneten Basis. Mit

Hilfe der Abbildungen KB bzw. KB  (siehe (3.2.1) auf Seite 64) können wir die lineare
Abbildung
L̃ = KB−1 ◦ L ◦ KB : Rn → Rm (3.3.1)

definieren, die gemäß Satz 3.2.3 durch eine m × n-Matrix M dargestellt werden kann. Wie
sieht diese aus? Spätestens aus dem Beweis dieses Satzes wissen wir, dass die j -te Spalte
sj der Matrix M gerade L̃(ej ) ist. Also müssen wir Folgendes tun: Starte mit ej , bilde
KB (ej ) = bj , bilde dann L(bj ) ∈ W und entwickle diesen Vektor in die geordnete Basis
B  ; die entstandenen Koordinaten bilden die Spalte sj .

Definition 3.3.1 Die soeben beschriebene Matrix heißt die darstellende Matrix von L
bezüglich der geordneten Basen B und B  . Wir bezeichnen sie mit M(L; B, B  ).

Beispiele 3.3.2
(a) Betrachte Id: V → V , die identische Abbildung v → v. Wenn man V im Urbildraum
und im Bildraum mit derselben geordneten Basis B versieht, ist M(Id; B, B) immer
die Einheitsmatrix En .
(b) Sei Pol<n (R) der n-dimensionale Vektorraum aller Polynomfunktionen vom Grad <
n. Wir betrachten V = Pol<4 (R) und W = Pol<3 (R) mit den geordneten Basen
B = (1, x, x2 , x3 ) und B  = (1, x, x2 ). Es sei L: V → W der Ableitungsoperator,
L(f ) = f  . Der obige Algorithmus führt wegen L(xk ) = kxk−1 zu
⎛ ⎞
0100
⎜ ⎟
M(L; B, B  ) = ⎝ 0 0 2 0 ⎠ .
0003
66 3 Lineare Abbildungen

(c) Im Vektorraum Pn = Pol<n (R) der Polynomfunktionen auf R vom Grad < n
betrachten wir jetzt die geordnete Basis Bn = (xn−1 , xn−2 , . . . , x, 1). Es sei L:
Pn → Pn durch

(L(p))(x) = (x + 1)p (x)

definiert, wo p die Ableitung von p bezeichnet. [Einschub. Wie ist diese Formel zu
lesen? Die Abbildung L macht aus einer Polynomfunktion p eine weitere Polynom-
funktion L(p); diese wird beschrieben durch ihre Wirkung auf ein x ∈ R, und das ist
(L(p))(x). Bitte beachten: Eine Polynomfunktion macht aus Zahlen wieder Zahlen;
unser L operiert „eine Etage höher“ und macht aus Funktionen wieder Funktionen.]
Wir beobachten, dass L wohldefiniert ist, d. h. dass L(p) wirklich in Pn liegt, denn
der Grad von p ist (falls p = 0) um 1 niedriger als der Grad von p. Ferner bestätigt
man sofort (tun Sie’s!), dass L linear ist.
Speziell sei n = 3, und wir wollen M(L; B3 , B3 ) bestimmen. Dazu sind L(x2 ),
L(x) und L(1) in die Basis B3 zu entwickeln; man erhält

(L(x2 ))(x) = (x + 1) · 2x = 2x 2 + 2x
(L(x))(x) = (x + 1) · 1 = x + 1
(L(1))(x) = 0

und deshalb

L(x2 ) = 2x2 + 2x, L(x) = x + 1, L(1) = 0P3 .

Daher ist
⎛ ⎞
200
⎜ ⎟
M(L; B, B  ) = ⎝ 2 1 0 ⎠ .
010

Formal kann M(L; B, B  ) so beschrieben werden. Es sei

: Rm×n → L (Rn , Rm ), (A) = LA

der Isomorphismus aus Satz 3.2.3. Dann ist

M(L; B, B  ) = −1
(KB−1 ◦ L ◦ KB ).

Dem entnimmt man den folgenden Satz.


3.3 Matrixdarstellung und Koordinatentransformation 67

Satz 3.3.3 In den obigen Bezeichnungen ist L → M(L; B, B  ) linear und in der Tat ein
Isomorphismus der Vektorräume L (V , W ) und Rm×n . Insbesondere ist

dim(L (V , W )) = dim(V ) · dim(W ).

Die Formel M(L; B, B  ) = −1 (KB−1 ◦ L ◦ KB ) kann man auch so ausdrücken. Sei


v ∈ V und x der Koordinatenvektor bzgl. B, d. h. x = KB−1 (v), so ist

y := M(L; B, B  )x = KB−1 (L(v)),

d. h. y ist der Koordinatenvektor von L(v) bzgl. B  .


Wir haben in Satz 1.5.2 festgestellt, dass der Isomorphismus aus Satz 3.2.3 in dem Sinn
multiplikativ ist, dass LA2 A1 = LA2 ◦ LA1 gilt; mit anderen Worten,

(A2 A1 ) = (A2 ) ◦ (A1 ).

(Eigentlich müsste man die ’s in der Notation unterscheiden, da verschieden dimensio-


nierte Matrizen im Spiel sind – aber das würde die Notation allzu schwerfällig machen.)
Das liefert in unserem Kontext Folgendes.

Satz 3.3.4 Seien V , W, Z Vektorräume mit geordneten Basen B, B  , B  . Seien


L1 ∈ L (V , W ) und L2 ∈ L (W, Z) mit darstellenden Matrizen M(L1 ; B, B  ) und
M(L2 ; B  , B  ). Dann hat L2 ◦ L1 die darstellende Matrix

M(L2 ◦ L1 ; B, B  ) = M(L2 ; B  , B  )M(L1 ; B, B  ).

Ist L1 invertierbar, so hat L−1


1 die darstellende Matrix

M(L−1   −1
1 ; B , B) = M(L1 ; B, B ) .

Beweis Es ist

(M(L2 ◦ L1 ; B, B  )) = KB−1 ◦ (L2 ◦ L1 ) ◦ KB


= KB−1 ◦ L2 ◦ (KB  ◦ KB−1 ) ◦ L1 ◦ KB
= (KB−1 ◦ L2 ◦ KB  ) ◦ (KB−1 ◦ L1 ◦ KB )
= (M(L2 ; B  , B  )) ◦ (M(L1 ; B, B  ))
= (M(L2 ; B  , B  )M(L1 ; B, B  )).

Da invertierbar ist, folgt die erste Behauptung, und die zweite ergibt sich aus
−1
L1 ◦ L1 = Id. 
68 3 Lineare Abbildungen

Nun sei ein Vektorraum V mit zwei geordneten Basen A und B vorgelegt. Bezüglich
dieser Basen hat ein Vektor v ∈ V die Koordinaten xA = KA−1 (v) bzw. xB = KB−1 (v).
Wir wollen xB aus xA berechnen. Das ist einfach, da

xB = KB−1 (v) = KB−1 (KA (xA )),

also wird der Übergang xA → xB durch die lineare Abbildung KB−1 ◦ KA : Rn → Rn


beschrieben. Diese wird ihrerseits durch eine Matrix dargestellt, die nichts anderes als
M(Id; A, B) ist; vgl. (3.3.1). Da A und B verschieden sein können, ist dies im Gegensatz
zu Beispiel 3.3.2(a) nicht notwendig die Einheitsmatrix! Wir bezeichnen2

MAB = M(Id; A, B) (3.3.2)

und nennen MAB die Matrix der Koordinatentransformation oder Matrix des Basiswechsels
von A zu B. Es ist also xB = MAB xA .

Beispiele 3.3.5
(a) Wenn V = Rn , A = (a1 , . . . , an ) und E die Einheitsvektorbasis ist, besteht MAE aus
den Spalten a1 , . . . , an .
(b) Im R2 betrachten wir die geordneten Basen
       
1 1 2 1
A= , , B= , .
1 −1 1 0

Um MAB zu berechnen, sind die Basisvektoren von A durch die Basisvektoren von B
linear zu kombinieren. Scharfes Hinsehen zeigt
           
1 2 1 1 2 1
= − , =− +3 ,
1 1 0 −1 1 0

so dass
 
1 −1
MAB = .
−1 3

(c) Aus Satz 3.3.4 ergibt sich sofort MBA = (MAB )−1 .

2 Die Literatur hält hier die unterschiedlichsten Notationen bereit; insbesondere wird die hier
eingeführte Matrix MAB andernorts mit M A bezeichnet. Ich habe M B gewählt, weil man es M-A-B
B A
ausspricht und so an die Richtung „von A nach B“ erinnert wird.
3.3 Matrixdarstellung und Koordinatentransformation 69

(d) Seien A = (a1 , . . . , an ) und B = (b1 , . . . , bn ) zwei geordnete Basen des Rn ; wir
wollen ein Berechnungsverfahren für MAB angeben. Bezeichnet E = (e1 , . . . , en ) die
Einheitsvektorbasis, so ist wegen (a) und (c) sowie Satz 3.3.4 MAB = MEB MAE =
(MBE )−1 MAE , und die Spalten von MAE bzw. MBE sind a1 , . . . , an bzw. b1 , . . . , bn .
Also könnten wir mit dem Verfahren aus Abschn. 1.5 die Inverse von MBE berechnen
und anschließend mit MAE malnehmen. Man kann allerdings ein paar Rechenschritte
mit folgendem Algorithmus einsparen. Wir bilden die n × 2n-Matrix (MBE | MAE ) =
(b1 . . . bn | a1 . . . an ) und überführen sie in die reduzierte Zeilenstufenform. (Der
Strich ist nur der Deutlichkeit halber eingefügt.) Da b1 , . . . , bn linear unabhängig
sind, entsteht dabei eine Matrix der Form (e1 . . . en | c1 . . . cn ). Die durchgeführten
Zeilenoperationen entsprechen der Multiplikation mit einer invertierbaren Matrix S
von links, die wegen Sbj = ej genau die Inverse von MBE ist. Die rechts vom Strich
stehenden Spalten sind daher cj = Saj = (MBE )−1 aj und deswegen die Spalten
von (MBE )−1 MAE . Kurz gesagt entsteht aus (MBE | MAE ) durch Überführung in die
reduzierte Zeilenstufenform (En | MAB ).

Nun ist es nicht mehr schwer, für eine lineare Abbildung L: V → W die Matrixdar-
stellungen bezüglich verschiedener geordneter Basen A, B von V bzw. A , B  von W
ineinander umzurechnen. Schreiben wir (V , A), um anzudeuten, dass auf V die Basis A
betrachtet wird, so ist doch L: (V , A) → (W, A ) durch die Komposition

Id L Id
L: (V , A) −→ (V , B) −→ (W, B  ) −→ (W, A )

gegeben, und Satz 3.3.4 liefert:

Satz 3.3.6 Mit den obigen Bezeichnungen gilt:



M(L; A, A ) = MBA M(L; B, B  )MAB .

Im Fall V = W , A = A und B = B  erhält man wegen Beispiel 3.3.5(c)

M(L; A; A) = (MAB )−1 M(L; B, B)MAB .

Nennt man zwei quadratische Matrizen M1 und M2 ähnlich, wenn es eine invertierbare
Matrix S mit M1 = S −1 M2 S gibt, so erhalten wir:

Korollar 3.3.7 Die darstellenden Matrizen M(L; A, A) und M(L; B, B) sind stets ähn-
lich.

Wir halten abschließend eine Transformationsformel für die Basisvektoren fest.


70 3 Lineare Abbildungen

Satz 3.3.8 Seien A = (a1 , . . . , an ) und B = (b1 , . . . , bn ) geordnete Basen von V . Sei
MAB = (mij ). Dann gilt für alle j

n
aj = mij bi . (3.3.3)
i=1

Beweis Für festes j ist (mij )i die j -te Spalte von MAB , gibt also die Koordinaten von aj
in der Basis B wieder. Genau das ist in (3.3.3) behauptet. 

3.4 Aufgaben

Aufgabe 3.4.1 Untersuchen Sie folgende Abbildungen Lj : Abb(R) → W auf Linearität:


(a) W = R: L1 (f ) = f (0), L2 (f ) = f (0)2 , L3 (f ) = f (0) − 1, L4 (f ) = f (0) − f (1);
(b) W = Abb(R): (L5 (f ))(x) = f (x 2 ), (L6 (f ))(x) = f (x − 1).

Aufgabe 3.4.2 Sei L: Rn → R ein lineares Funktional. Zeigen Sie: Es existieren


a1 , . . . , an ∈ R mit


x1
n
⎜ . ⎟
L(x) = ak xk für alle x = ⎜ ⎟
⎝ .. ⎠ ∈ R .
n

k=1
xn

(Hinweis: Betrachten Sie L(ek )!)

Aufgabe 3.4.3 Eine lineare Abbildung P : V → V auf einem Vektorraum heißt eine
Projektion, wenn P 2 = P ist (P 2 := P ◦ P ). Zeigen Sie: Für eine Projektion gilt
V = ran(P ) ⊕ ker(P ).

Aufgabe 3.4.4 Seien V , W, Z Vektorräume.


(a) Sei T ∈ L (Z, V ). Dann ist die Abbildung

1: L (V , W ) → L (Z, W ), 1 (L) =L◦T

linear.
(b) Sei T ∈ L (W, Z). Dann ist die Abbildung

2: L (V , W ) → L (V , Z), 2 (L) =T ◦L

linear.
3.4 Aufgaben 71

Aufgabe 3.4.5 Die Spur (engl. trace) tr(A) einer n × n-Matrix A = (aij ) ist durch

n
tr(A) = aii
i=1

erklärt; tr(A) ist also die Summe der Hauptdiagonalelemente.


(a) Zeigen Sie tr(AB) = tr(BA) für n × n-Matrizen A und B.
(b) Ist S zusätzlich eine invertierbare n × n-Matrix, so gilt tr(S −1 AS) = tr(A).

Aufgabe 3.4.6 Sei L: V → V linear. Zeigen Sie, dass genau dann L2 = L gilt, wenn
Lx = x für alle x ∈ ran(L) ist.

Aufgabe 3.4.7 Seien L: V → W linear, {v1 , . . . , vn } eine Basis von V und wj = L(vj )
für j = 1, . . . , n. Zeigen Sie, dass L genau dann surjektiv ist, wenn {w1 , . . . , wn } ein
Erzeugendensystem von W ist.

Aufgabe 3.4.8 Seien L: V → W linear, v1 , . . . , vn ∈ V und wj = L(vj ) für j =


1, . . . , n. Zeigen Sie: Wenn {w1 , . . . , wn } linear unabhängig ist, dann auch {v1 , . . . , vn }.

Aufgabe 3.4.9 Seien L: V → W linear und injektiv, {v1 , . . . , vn } eine Basis von V und
wj = L(vj ) für j = 1, . . . , n. Zeigen Sie, dass {w1 , . . . , wn } linear unabhängig ist.

Aufgabe 3.4.10 Sei (b1 , . . . , b5 ) eine geordnete Basis von V . Die lineare Abbildung
L: V → V sei bezüglich dieser Basis durch die Matrix
⎛ ⎞
0 1 1 −2 1
⎜ 1 −1 1 2 1 ⎟
⎜ ⎟
⎜ ⎟
⎜2 1 1 0 2⎟
⎜ ⎟
⎝ 3 −1 2 −2 2 ⎠
4 12 03

dargestellt. Bestimmen Sie den Vektor v = L(b1 + b3 − b4 ) ∈ V , d. h., schreiben Sie v als
Linearkombination der bj .

Aufgabe 3.4.11 Sei P4 der Unterraum von Pol(R), der von den Monomen 1, x, x2 , x3
aufgespannt wird. In P4 betrachte die geordnete Basis B = (x, 1 + x, x + x2 , x3 ) sowie
die lineare Abbildung (p = Ableitung von p)

L: P4 → P4 , L(p) = p − 4p + p.

Bestimmen Sie M(L; B, B).


72 3 Lineare Abbildungen

Aufgabe 3.4.12 Sei Pn = Pol<n (R) der Vektorraum der Polynomfunktionen auf R vom
Grad < n. Betrachten Sie die geordnete Basis Bn = (xn−1 , xn−2 , . . . , x, 1) von Pn . Sei
L: P3 → P3 die Abbildung (p = Ableitung von p)

(L(p))(x) = (x + 1)p (x).

Dann ist L linear.


(a) Ist L injektiv?
(b) Bestimmen Sie die Matrixdarstellung M(L; B3 , B3 ) von L bezüglich der geordneten
Basen B3 und B3 .

Aufgabe 3.4.13 Sei Pol<n (R) der Vektorraum der Polynomfunktionen auf R vom Grad
< n. Betrachten Sie die geordnete Basis Bn = (xn−1 , xn−2 , . . . , x, 1) von Pn . Sei L: P2 →
P3 die lineare Abbildung

(L(p))(x) = (x + 1)p(x − 2).

Bestimmen Sie die Matrixdarstellung von L bezüglich der geordneten Basen B2 und B3 .
Determinanten
4

4.1 Determinantenformen

Gegeben sei ein lineares Gleichungssystem Ax = b mit n Gleichungen und n Unbe-


kannten, mit anderen Worten ist A eine n × n-Matrix. Wir versuchen, der Matrix A
eine Zahl, ihre Determinante det(A), zuzuordnen, an der man ablesen kann, ob solch ein
Gleichungssystem eindeutig lösbar ist oder nicht. Wir wünschen uns also eine Zuordnung
A → det(A), so dass

det(A) = 0 ⇔ A invertierbar;

in Korollar 4.2.5 werden wir dieses Ziel erreichen.


Einen ersten Hinweis, wie man einen solchen Parameter ansetzen könnte, liefert
folgende Überlegung in den Dimensionen 2 und 3. Sei A eine 2×2-Matrix mit den Spalten
s1 und s2 ; wir betrachten das von s1 und s2 aufgespannte Parallelogramm. Dann sind s1 und
s2 genau dann linear unabhängig (d. h. A ist invertierbar), wenn der Flächeninhalt dieses
Parallelogramms = 0 ist. Analog betrachte man den von den drei Spalten einer 3 × 3-
Matrix aufgespannten Spat im R3 ; die drei Spalten sind genau dann linear unabhängig,
wenn das Volumen dieses Spats = 0 ist.
Die Idee der Determinante ist älter als der Begriff der Matrix selbst. Während
Leibniz bereits Determinanten studierte, wurden Matrizen erst im 19. Jahrhundert formal
eingeführt, der moderne Vektorraumbegriff stammt aus dem frühen 20. Jahrhundert.
Wir werden Determinanten einer Matrix nach der Methode von Weierstraß definieren.
Das heißt, zuerst werden wir abstrakt Forderungen aufstellen, denen eine Determinante
nachkommen sollte, dann Existenz und Eindeutigkeit nachweisen und weitere Eigen-
schaften diskutieren. Leider erweist sich die Einführung – und anschließend die konkrete

© Der/die Autor(en), exklusiv lizenziert an Springer Nature Switzerland AG 2022 73


D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2_4
74 4 Determinanten

Berechnung – als ziemlich mühsam.1 Trotzdem bleibt der Begriff der Determinante für
Anwendungen in Analysis und Geometrie unabdingbar.
Wir werden nun (siehe Definition 4.1.3) unsere Forderungen an die Determinante
formulieren. In diesem Abschnitt werden wir den Standpunkt einnehmen, statt einer
Matrix ihren Spalten eine „Determinante“ zuzuordnen. Der erste dafür notwendige Begriff
ist ganz allgemein.

Definition 4.1.1 Sei V ein Vektorraum und sei : V n = V × · · · × V → R eine


Funktion. Dann heißt eine Multilinearform (genauer: n-Linearform), falls in jeder
der n Variablen linear ist, wenn die übrigen n − 1 Variablen festgehalten werden.

Damit ist Folgendes gemeint: Für jedes n-Tupel (v1 , . . . , vn ) ∈ V n und jedes j ∈
{1, . . . , n} ist die Abbildung

V x→ (v1 , . . . , vj −1 , x, vj +1 , . . . , vn )

linear.

Beispiele 4.1.2
(a) Sei V = R und (a1 , . . . , an ) = a1 · · · an , das Produkt dieser n Zahlen. Dies ist eine
Multilinearform.
(b) Sei V = R2 und n = 2. Dann ist

α1 α2
: , → α1 β2 − β1 α2
β1 β2

eine Multilinearform.

Jetzt betrachten wir spezielle n-Linearformen für V = Rn .

Definition 4.1.3 Sei : (Rn )n → R eine Multilinearform. Dann heißt eine


Determinantenform, wenn (s1 , . . . , sn ) = 0 ist, sobald zwei der Vektoren s1 , . . . , sn
übereinstimmen.

In dieser Definition und im Folgenden stellen wir uns s1 , . . . , sn als Spalten einer n×n-
Matrix vor (daher die Bezeichnung sj ) und nennen sie auch Spalten.

1 Das hat Sheldon Axler veranlasst, ein Buch zu schreiben, wie man in der fortgeschrittenen Linearen
Algebra (= Lineare Algebra II) ohne den Begriff der Determinante auskommt: Linear Algebra Done
Right. Springer, 3. Auf̈|lage 2015. Vgl. auch seine Arbeit Down With Determinants!, Amer. Math.
Monthly 102, No. 2 (1995), 139–154.
4.1 Determinantenformen 75

In Beispiel 4.1.2(b) finden wir eine Determinantenform, und in Beispiel 4.1.2(a)


ebenfalls, wenn n = 1 ist (aber nur dann). Die eingangs genannte Flächeninhalts- bzw.
Volumenform ist eine Determinantenform, wenn man sich Flächeninhalt bzw. Volumen
als „orientiert“ vorstellt, ähnlich wie bei der geometrischen Interpretation des bestimmten
Integrals die Fläche „unter der x-Achse“ als negativ angesehen wird.
Wir ziehen ein paar unmittelbare Konsequenzen aus der Definition.

Lemma 4.1.4 Es sei : (Rn )n → R eine Determinantenform, und es seien s1 , . . . , sn ∈


Rn .
(a) Sind s1 , . . . , sn linear abhängig, so ist (s1 , . . . , sn ) = 0.
(b) Ist i =
 j und λ ∈ R, so ist

(s1 , . . . , sj −1 , sj + λsi , sj +1 , . . . , sn ) = (s1 , . . . , sn ).

Kurz: Addiert man zu einer Spalte ein Vielfaches einer anderen Spalte, so ändert sich
der Wert von nicht.
(c) Ist i > j , so ist

(s1 , . . . , sj −1 , si , sj +1 , . . . , si−1 , sj , si+1 , . . . , sn ) = − (s1 , . . . , sn ).

Kurz: Vertauscht man zwei verschiedene Spalten, so ändert der Wert von sein
Vorzeichen.

Beweis
(a) Wenn s1 , . . . , sn linear abhängig sind, ist eine dieser Spalten eine Linearkombination
der übrigen; um die Notation nicht zu schwerfällig zu machen, wollen wir annehmen,

dass das s1 ist: s1 = nj=2 λj sj . Da in der 1. Spalte linear ist, folgt

(s1 , . . . , sn ) = (λ2 s2 + · · · + λn sn , s2 , . . . , sn )
n
= λj (sj , s2 , . . . , sn ) = 0,
j =2

da jeder Summand nach Definition einer Determinantenform verschwindet.


(b) Die linke Seite ist wegen der Linearität in der j -ten Spalte (der Übersichtlichkeit
halber wird jetzt nur diese notiert)

(. . . , sj + λsi , . . . ) = (. . . , sj , . . . ) + λ (. . . , si , . . . )
= (s1 , . . . , sn ) + λ · 0 = (s1 , . . . , sn ).
76 4 Determinanten

(c) Wieder notieren wir nur die j -te und die i-te Spalte und wenden (b) mehrfach an:

(. . . , si , . . . , sj , . . . ) = (. . . , si + sj , . . . , sj , . . . )
= (. . . , si + sj , . . . , sj − (si + sj ), . . . )
= (. . . , si + sj , . . . , −si , . . . )
= (. . . , (si + sj ) − si , . . . , −si , . . . )
= (. . . , sj , . . . , −si , . . . )
= − (. . . , sj , . . . , si , . . . ).

Das war zu zeigen. 

Seien nun s1 , . . . , sn ∈ Rn mit sj = (aij )i ; also sj = a1j e1 + · · · + anj en . (Die ek sind


wie immer die Einheitsvektoren.) Wir wollen diese Darstellung in eine Determinantenform
einsetzen und sehen, was wir erhalten. Zuerst setzen wir s1 ein und nutzen die Linearität
in der 1. Spalte:
n
(s1 , . . . , sn ) = ai1 1 (ei1 , s2 , . . . , sn ).
i1 =1

Jetzt setzen wir s2 ein und nutzen die Linearität in der 2. Spalte:

n n
(s1 , . . . , sn ) = ai1 1 ai2 2 (ei1 , ei2 , s3 , . . . , sn ).
i1 =1 i2 =1

Analog setzen wir nun nach und nach die übrigen Spalten ein:

n n n
(s1 , . . . , sn ) = ··· ai1 1 ai2 2 · · · ain n (ei1 , ei2 , . . . , ein ).
i1 =1 i2 =1 in =1

Jetzt nutzen wir die charakterisierende Eigenschaft einer Determinantenform aus und
schließen, dass (ei1 , . . . , ein ) immer dann verschwindet, wenn zwei der Indices über-
einstimmen. Anders gesagt brauchen wir in der n-fachen Summe nur die Indextupel zu
berücksichtigen, die paarweise verschieden sind. Bei diesen handelt es sich aber um nichts
anderes als um eine Umordnung von {1, . . . , n}.
Die mathematische Vokabel dafür lautet Permutation. Eine Permutation π : {1, . . . , n}
→ {1, . . . , n} ist definitionsgemäß eine bijektive Abbildung; die Menge all dieser
Permutationen wird mit Sn bezeichnet. Es ist nicht schwer, mit vollständiger Induktion
zu beweisen, dass Sn eine Menge mit n! Elementen ist (also ziemlich groß ist). (Für
Kartenspieler: Die Zahl der Anordnungen eines 32-er Blatts ist 32! ≈ 2.6 · 1035 .)
4.1 Determinantenformen 77

Zurück zu unserer Determinantenform; die letzte Überlegung hat

(s1 , . . . , sn ) = aπ(1),1 · · · aπ(n),n (eπ(1) , . . . , eπ(n) )


π ∈Sn

gezeigt. Der finale Schritt ist nun, dass durch systematische Spaltenvertauschungen
eπ(1) , . . . , eπ(n) in e1 , . . . , en überführt werden kann, wobei das System der Vertau-
schungen unabhängig von der vorliegenden Form ist.2 (Nämlich so: Falls π(1) = 1,
mache nichts im ersten Schritt; ansonsten tausche eπ(1) und e1 . Falls jetzt an der 2. Position
e2 steht, mache nichts; ansonsten tausche diesen Einheitsvektor mit e2 ; etc.) Nach
Lemma 4.1.4(c) existieren also nur von π abhängige Vorzeichen ε(π ), so dass

(s1 , . . . , sn ) = ε(π )aπ(1),1 · · · aπ(n),n (e1 , . . . , en ). (4.1.1)


π ∈Sn

Damit ist insbesondere folgender Eindeutigkeitssatz gezeigt.

Satz 4.1.5 Zu jedem c ∈ R existiert höchstens eine Determinantenform : (Rn )n → R


mit (e1 , . . . , en ) = c.

Es ergeben sich sofort folgende Aussagen.

Korollar 4.1.6
(a) Sind und  Determinantenformen, so gilt

 
(e1 , . . . , en ) = (e1 , . . . , en ) .

(b) Ist eine Determinantenform mit (e1 , . . . , en ) = 0, so ist = 0.

Beweis
(a) Die linke Seite und die rechte Seite definieren Determinantenformen, die (e1 , . . . , en )
auf c = (e1 , . . . , en )  (e1 , . . . , en ) abbilden, also stimmen sie nach Satz 4.1.5
überein.
(b) folgt aus Satz 4.1.5 bzw. (4.1.1). 

Als nächstes wollen wir die Existenz von Determinantenformen beweisen.

2 Allerdings wissen wir an dieser Stelle noch nicht, ob es außer = 0 überhaupt Determinantenfor-
men gibt.
78 4 Determinanten

Satz 4.1.7 Zu jedem c ∈ R existiert genau eine Determinantenform : (Rn )n → R mit


(e1 , . . . , en ) = c.

Beweis Die Eindeutigkeit ist ja in Satz 4.1.5 schon bewiesen, daher ist jetzt die Existenz
zu zeigen, die im Fall c = 0 klar ist. Ferner reicht es, den Fall c = 1 zu betrachten
(warum?). Man könnte nun (4.1.1) als Ansatz nehmen, um zu definieren; um zu zeigen,
dass dieses wirklich eine Determinantenform ist, müsste man die Vorzeichen genauer
studieren, was ich jedoch vermeiden möchte.
Stattdessen werden wir per Induktion beweisen:
• Zu jedem n ∈ N existiert eine Determinantenform n : (Rn )n → R mit
n (e1 , . . . , en ) = 1, eine sogenannte normierte Determinantenform.

Der Induktionsanfang ist klar; zu n = 2 betrachte auch Beispiel 4.1.2(b). Wir nehmen nun
an, dass die obige Aussage für n − 1 bewiesen ist, und wir müssen sie für n verifizieren.
Wie oben sei sj = (aij )i=1,...,n ; wir setzen sj = (aij )i=2,...,n ∈ Rn−1 und machen den
Ansatz
n
   
n (s1 , . . . , sn ) = (−1)1+j a1j n−1 (s1 , . . . , sj −1 , sj +1 , . . . , sn ), (4.1.2)
j =1

wobei n−1 die laut Induktionsvoraussetzung gegebene (und laut Satz 4.1.5 eindeutig
bestimmte) normierte Determinantenform ist. Explizit ist

    
n (s1 , . . . , sn ) = a11 n−1 (s2 , . . . , sn ) − a12 n−1 (s1 , s3 , . . . , sn )
   
+ a13 n−1 (s1 , s2 , s4 , . . . , sn ) ± etc.

Dass n leistet, was es soll, sieht man so.


(1) n ist in der k-ten Spalte linear, da es jeder Summand a1j n−1 (s1 , . . . , sj −1 , sj +1 ,
. . . , sn ) ist, denn für j = k ist der zweite Faktor bezüglich k eine Konstante, und für
j = k ist a1j bezüglich k eine Konstante und der zweite Faktor in der entsprechenden
Spalte linear. Also ist n eine Multilinearform.
(2) Stimmen zwei Spalten überein, sagen wir sj1 = sj2 für j1 < j2 , so gilt auch sj 1 = sj 2 ,
und nach Induktionsvoraussetzung verschwinden alle Summanden in (4.1.2), die zu
j ∈ / {j1 , j2 } gehören. Die Summanden zu j1 und j2 stimmen aber bis auf das
Vorzeichen überein, das verschieden ist, so dass die Summe wieder 0 ergibt. Es ist
nämlich nach Voraussetzung a1j1 = a1j2 , und

       
n−1 (s1 , . . . , sj1 −1 , sj1 +1 , . . . , sn ) und n−1 (s1 , . . . , sj2 −1 , sj2 +1 , . . . , sn )

können sich höchstens im Vorzeichen unterscheiden, da links und rechts dieselben


Spalten stehen mit dem Unterschied, dass s  := sj 2 = sj 1 rechts j2 − j1 − 1 Positionen
4.2 Die Determinante 79

weiter vorne steht als links; z. B. j1 = 2, j2 = 6, s  := s2 = s6 :

links: s1 , s3 , s4 , s5 , s  , s7 , . . .


rechts: s1 , s  , s3 , s4 , s5 , s7 , . . .

Durch j2 − j1 − 1 Spaltenvertauschungen werden die beiden Muster zur Deckung


gebracht, d. h. nach Lemma 4.1.4(c)

   
n−1 (s1 , . . . , sj1 −1 , sj1 +1 , . . . , sn ) = (−1)j2 −j1 −1    
n−1 (s1 , . . . , sj2 −1 , sj2 +1 , . . . , sn )

und

   
(−1)1+j1 a1j1 n−1 (s1 , . . . , sj1 −1 , sj1 +1 , . . . , sn )

   
= −(−1)1+j2 a1j2 n−1 (s1 , . . . , sj2 −1 , sj2 +1 , . . . , sn ).

(3) Schließlich gilt n (e1 , . . . , en ) = 1, da für die Einheitsvektoren in (4.1.2) für j ≥ 2


alle a1j = 0 sind und der erste Summand (−1)1+1 · 1 · n−1 (e2 , . . . , en ) = 1 ist. 

Wir haben also gezeigt, dass es zu jedem n genau eine normierte (siehe den Beweis von
Satz 4.1.7) Determinantenform gibt.

4.2 Die Determinante

In diesem Abschnitt bezeichne die soeben nachgewiesene eindeutig bestimmte normier-


te Determinantenform.

Definition 4.2.1 Sei A eine n × n-Matrix mit den Spalten s1 , . . . , sn . Die Determinante
von A ist dann det(A) = (s1 , . . . , sn ).

Aus Abschn. 4.1 können wir folgende Informationen entnehmen.

• Die Determinante ist linear in jeder Spalte.


• Addiert man zu einer Spalte ein Vielfaches einer anderen Spalte, so ändert sich der Wert
der Determinante nicht.
• Vertauscht man zwei Spalten, so ändert die Determinante ihr Vorzeichen.
• Sind die Spalten linear abhängig, verschwindet die Determinante.
• Für die Einheitsmatrix ist det(En ) = 1.

Aus (4.1.1) entnehmen wir die Leibniz-Formel für die Determinante.


80 4 Determinanten

Satz 4.2.2 Es existieren Vorzeichen ε(π ), so dass für jede Matrix A = (aij ) gilt

det(A) = ε(π )aπ(1),1 · · · aπ(n),n . (4.2.1)


π ∈Sn

Die ε(π ) werden Vorzeichen bzw. Signum der Permutation π genannt. Viele Bücher
zur Linearen Algebra studieren diese zuerst kombinatorisch, bevor sie sie zur Definition
der Determinante gemäß der obigen Formel einsetzen. (Wir haben das anders gemacht.) A
posteriori werden sich die ε(π ) als Determinanten von Permutationsmatrizen herausstel-
len, vgl. (4.2.2) im Beweis von Satz 4.2.7.
Mittels Satz 4.2.2 können wir sofort die Determinante einer Dreiecksmatrix berechnen.
Zur Erinnerung (vgl. Abschn. 1.6): Eine quadratische Matrix (aij ) heißt obere (bzw.
untere) Dreiecksmatrix, wenn aij = 0 für i > j (bzw. i < j ) ist.

Korollar 4.2.3 Die Determinante einer Dreiecksmatrix A ist das Produkt ihrer Hauptdia-
gonalelemente: det(A) = a11 · · · ann .

Beweis Das folgt aus Satz 4.2.2, da bei einer Dreiecksmatrix jeder Summand in (4.2.1),
der zu einer Permutation π = id gehört, verschwindet und konstruktionsgemäß ε(id) = 1
ist. 

Wir kommen zum Multiplikationssatz.

Satz 4.2.4 Für n × n-Matrizen A und B gilt

det(AB) = det(A) det(B).

Beweis Wir betrachten die durch

˜ (s1 , . . . , sn ) = (As1 , . . . , Asn )

definierte Abbildung. Es ist klar, dass dies eine Determinantenform ist. Also gilt wegen
Korollar 4.1.6(a) ˜ = ˜ (e1 , . . . , en ) , d. h., wenn sj = Bej die Spalten von B und also
As1 , . . . , Asn die Spalten von AB sind, gilt

det(AB) = (As1 , . . . , Asn )


= ˜ (s1 , . . . , sn )
= ˜ (e1 , . . . , en ) (s1 , . . . , sn )
= det(A) det(B).

Das war zu zeigen. 


4.2 Die Determinante 81

Korollar 4.2.5 Eine n × n-Matrix ist genau dann invertierbar, wenn det(A) = 0 ist. In
diesem Fall ist det(A−1 ) = 1/det(A).

Beweis Wenn A invertierbar ist, ist AA−1 = En , also nach Satz 4.2.4

1 = det(En ) = det(A) det(A−1 ).

Insbesondere ist det(A) = 0 und det(A−1 ) = 1/det(A).


Wenn A nicht invertierbar ist, sind die Spalten von A linear abhängig; vgl. Satz 2.3.6
und Korollar 2.3.11. Aus Lemma 4.1.4(a) folgt det(A) = 0. 

In Korollar 3.3.7 wurden zwei Matrizen A und B ähnlich genannt, wenn es eine
invertierbare Matrix S mit B = S −1 AS gibt. Daher hat man noch folgendes unmittelbare
Korollar.

Korollar 4.2.6 Ähnliche Matrizen haben dieselbe Determinante.

Der nächste Satz erlaubt uns, von den Spalten einer Matrix zu den Zeilen umzuschwen-
ken. Die transponierte Matrix wurde vor Satz 2.3.10 eingeführt.

Satz 4.2.7 Für eine n × n-Matrix A gilt det(A) = det(At ).

Beweis Da A genau dann nicht invertierbar ist, wenn es At auch nicht ist, gilt in diesem
Fall nach Korollar 4.2.5 det(A) = 0 = det(At ).
Im Fall, dass A invertierbar ist, schreiben wir gemäß Satz 1.6.3 A = P LR mit einer
Permutationsmatrix P , einer unteren Dreiecksmatrix L und einer oberen Dreiecksma-
trix R. (Übrigens könnten wir das auch im nicht invertierbaren Fall machen, dann hätte R
mindestens eine 0 auf der Hauptdiagonalen.) Es ist At = R t Lt P t , und nach Korollar 4.2.3
ist det(L) = det(Lt ) sowie det(R) = det(R t ). Wegen des Multiplikationssatzes 4.2.4 ist
der Beweis daher erbracht, wenn wir det(P ) = det(P t ) zeigen können.
Sei also P eine Permutationsmatrix, d. h. in jeder Zeile und in jeder Spalte steht genau
eine 1 und ansonsten nur Nullen. Es existiert also eine Permuation π mit P = Pπ :=
(eπ(1) . . . eπ(n) ), und aus (4.2.1) in Satz 4.2.2 ergibt sich

det(P ) = det(Pπ ) = ε(π ) ∈ {±1}. (4.2.2)

Nun ist π definitionsgemäß eine bijektive Abbildung von {1, . . . , n} auf sich mit Umkehr-
abbildung π −1 . Dann ist klar, dass Pπ−1 die Spaltendarstellung (eπ −1 (1) . . . eπ −1 (n) ) hat,
d. h. Pπ−1 = Pπ −1 = Pπt . (Beachte: Pπ hat die Einsen an den Stellen (π(j ), j ), Pπ −1 hat
die Einsen an den Stellen (π −1 (j ), j ) = (i, π(i)), genau wie Pπt .) Es folgt
82 4 Determinanten

1
det(Pπt ) = det(Pπ−1 ) = = det(Pπ ),
det(Pπ )

da letztere Determinante 1 oder −1 ist. 

Da die Zeilen von A den Spalten von At entsprechen, können wir die oben aufgestellten
Spaltenregeln wegen des letzten Satzes genauso für Zeilen aufstellen; also:

• Die Determinante ist linear in jeder Zeile.


• Addiert man zu einer Zeile ein Vielfaches einer anderen Zeile, so ändert sich der Wert
der Determinante nicht.
• Vertauscht man zwei Zeilen, so ändert die Determinante ihr Vorzeichen.
• Sind die Zeilen linear abhängig, verschwindet die Determinante.

Wir kommen nun zu einem Berechnungsverfahren für Determinanten. Dazu führen wir
folgende Notation ein. Ist A eine n × n-Matrix und sind i, j ∈ {1, . . . , n}, so bezeichnet
Aij diejenige (n − 1) × (n − 1)-Matrix, die durch Streichung der i-ten Zeile und j -ten
Spalte von A entsteht. Beispiel:
⎛ ⎞
3 2 0 1 ⎛ ⎞
⎜ ⎟ 3 2 1
⎜ −2 4 1 2 ⎟ ⎜ ⎟
A=⎜ ⎟ ; A23 = ⎝ 0 −1 1 ⎠
⎝ 0 −1 0 1 ⎠
−1 2 −1
−1 2 0 −1

Die induktive Konstruktion der normierten Determinantenform (und damit der Determi-
nante) in Satz 4.1.7 zeigt

n
det(A) = (−1)1+j a1j det(A1j ). (4.2.3)
j =1

Man führt also die Berechnung der Determinante der n × n-Matrix A auf die Berechnung
der Determinanten von kleineren Matrizen zurück. Man nennt dieses Verfahren „Entwick-
lung nach der 1. Zeile“; offensichtlich ist es sehr rechenintensiv. Allgemeiner hat man
folgende Regeln.

Satz 4.2.8 (Laplacescher Entwicklungssatz)


(a) (Entwicklung nach der i-ten Zeile)

n
det(A) = (−1)i+j aij det(Aij ) (4.2.4)
j =1
4.2 Die Determinante 83

(b) (Entwicklung nach der j -ten Spalte)

n
det(A) = (−1)i+j aij det(Aij ) (4.2.5)
i=1

Beweis
(a) Der Fall i = 1 ist (4.2.3); im allgemeinen Fall kann man nach i − 1 Zeilenvertau-
schungen die i-te Zeile nach ganz oben bringen und die 2. bis i − 1-te Zeile um eins
nach unten rutschen lassen. Dann kann man auf die neue Situation (4.2.3) anwenden;
das liefert (−1)i−1 det(A), was (4.2.4) beweist.
(b) sieht man, indem man (a) auf At anwendet und Satz 4.2.7 benutzt. 

Die Anwendung des Laplaceschen Entwicklungssatzes verbietet sich bei voll besetzten
Matrizen wegen des immensen Rechenaufwands. Wenn es jedoch viele Nullen gibt,
verringert sich der Aufwand sehr, weil man die entsprechenden det(Aij ) gar nicht
berechnen muss, wenn der Vorfaktor aij = 0 ist. In der Tat können wir für die oben
angegebene Beispielmatrix die Determinante jetzt schnell ausrechnen (es ist üblich, die
Determinante einer konkreten Matrix mit senkrechten Strichen zu bezeichnen):
 
 3 2 0 1   
  3 2 1
   
 −2 4 1 2  
  = (−1)2+3 · 1 ·  0 −1 1 
 0 −1 0 1   
  −1 2 −1 
 −1 2 0 −1 

(Entwicklung nach der 3. Spalte)


   
   
 3 1  3 2
= − (−1) 2+2
· (−1) ·   + (−1) 2+3
·1· 
 −1 −1   −1 2
(Entwicklung nach der 2. Zeile)
= −(2 − 8) = 6,

da
 
 
a b
  = ad − bc.
c d
84 4 Determinanten

Abb. 4.1 Die Jägerzaunregel

Bei einer allgemeinen 3 × 3-Matrix liefert die Entwicklung nach der 1. Zeile
 
a a a       
 11 12 13       
   a22 a23   a21 a23   a21 a22 
 a21 a22 a23  = a11   − a12   + a13  
   a32 a33   a31 a33   a31 a32 
 a31 a32 a33 
= a11 a22 a33 + a12 a23 a31 + a13 a21 a32
− a11 a23 a32 − a12 a21 a33 − a13 a22 a31 ;

dies ist als Sarrussche Regel oder „Jägerzaunregel“ (siehe Abb. 4.1) bekannt. Man erkennt
die Form von (4.2.1) und die Vorzeichen der auftauchenden Permutationen. (Vorsicht: Ein
Analogon dieser Regel für andere als 3 × 3-Matrizen ist falsch!)
Ein wichtiges Beispiel einer Determinante ist die Vandermondesche Determinante, die
im nächsten Satz berechnet wird.

Satz 4.2.9 Seien x0 , . . . , xn−1 ∈ R. Betrachte die n × n-Matrix


⎛ ⎞
1 x0 . . . x0n−1
⎜ ⎟
⎜ 1 x1 . . . x1n−1 ⎟
⎜ ⎟
Mn = ⎜ . .. .. ⎟
⎜ .. . ⎟
⎝ . ⎠
n−1
1 xn−1 . . . xn−1

Dann ist
det(Mn ) = (xj − xi ).
0≤i<j ≤n−1

!
(Hier ist das Produktzeichen, der Cousin des Summenzeichens.)
4.2 Die Determinante 85

Beweis Wir führen einen Induktionsbeweis. Die Aussage ist richtig für n = 1 (das „leere
Produkt“ ist definitionsgemäß = 1) und für n = 2. Nehmen wir an, sie ist für Mn bereits
bewiesen, und betrachten wir
⎛ ⎞
1 x0 ... x0n
⎜ ⎟
⎜ 1 x1 ... x1n ⎟
⎜ ⎟
⎜ ⎟
Mn+1 =⎜

..
.
..
.
..
.
⎟.

⎜ ⎟
⎜ n
1 xn−1 . . . xn−1 ⎟
⎝ ⎠
1 xn ... xnn

Von rechts nach links vorgehend, subtrahieren wir xn mal Spalte j von Spalte j + 1 (d. h.
sj +1 ; sj +1 − xn sj in ähnlicher Notation wie in Kap. 1). Das ändert die Determinante
nicht und führt zur Matrix (der Lesbarkeit halber wurden Klammern gesetzt)
⎛ ⎞
1 (x0 − xn ) . . . (x0n−1 − x0n−2 xn ) (x0n − x0n−1 xn )
⎜ ⎟
⎜ 1 (x1 − xn ) . . . (x1n−1 − x1n−2 xn ) ⎟
(x1n − x1n−1 xn )
⎜ ⎟
⎜ ⎟
⎜ .. .. .. ⎟. ..
⎜ . . . ⎟ .
⎜ ⎟
⎜ 1 (xn−1 − xn ) . . . (xn−1 − xn−1 xn ) (xn−1 − xn−1 xn ) ⎟
n−1 n−2 n n−1
⎝ ⎠
1 (xn − xn ) . . . (xn − xn xn ) (xn − xn xn )
n−1 n−2 n n−1

In der letzten Zeile steht vorn eine 1 und sonst nur Nullen; Entwicklung nach dieser Zeile
zeigt  
 (x − x ) . . . (x n−1 − x n−2 x ) (x n − x n−1 x ) 
 0 n 0 0 n 0 0 n 
 
 (x1 − xn ) . . . (x1n−1 − x1n−2 xn ) (x1n − x1n−1 xn ) 
n+2  
det(Mn+1 ) = (−1)  .. .. .. .
 
 . . . 
 
 (xn−1 − xn ) . . . (x n−1 − x n−2 xn ) (x n − x n−1 xn ) 
n−1 n−1 n−1 n−1

Hier kann man in der 1. Zeile den Faktor x0 − xn ausklammern, in der 2. Zeile kann man
x1 − xn ausklammern usw; was übrig bleibt, ist genau det(Mn ). Das liefert zusammen mit
der Induktionsvoraussetzung

det(Mn+1 ) = (−1)n (x0 − xn ) · · · (xn−1 − xn ) det(Mn )


= (xn − x0 ) · · · (xn − xn−1 ) det(Mn )
= (xn − x0 ) · · · (xn − xn−1 ) (xj − xi )
0≤i<j ≤n−1

= (xj − xi ),
0≤i<j ≤n

was zu zeigen war. 


86 4 Determinanten

Der Multiplikationssatz gestattet es, Determinanten auch für lineare Abbildungen


L: V → V eines endlichdimensionalen Raums zu definieren. Wir wählen nämlich eine
geordnete Basis B von V und betrachten die Matrixdarstellung M(L; B, B) von L. Hat
man eine andere geordnete Basis A, so existiert nach Korollar 3.3.7 eine invertierbare
Matrix S mit

M(L; A, A) = S −1 M(L; B, B)S;

aus Satz 4.2.4 folgt (vgl. Korollar 4.2.6)

det M(L; A, A) = det M(L; B, B),

und die folgende Definition hängt daher nicht von der Wahl der Basis ab.

Definition 4.2.10 Ist V ein endlichdimensionaler Vektorraum mit einer geordneten Basis
B und L ∈ L (V ), so setze

det(L) = det M(L; B, B).

Satz 3.3.4 liefert, dass auch in diesem Kontext ein Multiplikationssatz gilt.

Satz 4.2.11 Es sei V ein endlichdimensionaler Vektorraum, und es seien L, L1 , L2 ∈


L (V ).
(a) det(L2 ◦ L1 ) = det(L2 ) det(L1 ).
(b) L ist genau dann bijektiv, wenn det(L) = 0 ist.

4.3 Anwendungen

In einer ersten Anwendung greifen wir noch einmal das Problem auf, ob die Koeffizienten
einer Polynomfunktion auf einer Teilmenge T ⊂ R von dieser eindeutig bestimmt werden.
Wir wissen bereits, dass das für T = R richtig ist (Satz 3.2.4), aber nicht immer
(Beispiel 3.1.2(d)). Wir betrachten nun eine Teilmenge T ⊂ R und die Polynomfunktionen
vom Grad < n, aufgefasst als Funktionen auf T ; also Pol<n (T ) = lin{x0 , . . . , xn−1 } mit
xk : T  x → x k .

Satz 4.3.1 Wenn T mindestens n Elemente enthält, sind x0 , . . . , xn−1 linear unabhängige
Funktionen auf T . In diesem Fall ist dim Pol<n (T ) = n, und (a0 , . . . , an−1 ) →
n−1 ∼ <∞ , wenn T unendlich viele
k=0 ak x ist injektiv. Insbesondere gilt Pol(T ) = R
k

Elemente hat.
4.3 Anwendungen 87

Beweis Seien λ0 , . . . , λn−1 ∈ R mit λ0 x0 + · · · + λn−1 xn−1 = 0. Betrachte n paarweise


verschiedene Elemente x0 , . . . , xn−1 ∈ T . Insbesondere gilt dann für i = 0, . . . , n − 1

λ0 xi0 + · · · + λn−1 xin−1 = 0,

d. h. für den Vektor λ mit den Koordinaten λ0 , . . . , λn−1 gilt

Mn λ = 0,

wo Mn die Vandermondesche Matrix aus Satz 4.2.9 ist. Da die xi paarweise verschieden
sind, ist det(Mn ) = 0; also ist Mn invertierbar, und es folgt λ0 = . . . = λn−1 = 0. Damit
ist alles gezeigt. 

Die zweite Anwendung betrifft die Cramersche Regel.

Satz 4.3.2 Sei A eine invertierbare n×n-Matrix, sei b ∈ Rn , und sei x ∈ Rn die eindeutig
bestimmte Lösung von Ax = b. Sei Bj die Matrix, die man erhält, wenn man die j -te
Spalte von A durch b ersetzt. Dann gilt für die j -te Koordinate von x

det Bj
xj = .
det A

Beweis A habe die Spalten s1 , . . . , sn . Da die Determinante linear in der j -ten Spalte ist,
gilt (nur die j -te Spalte wird angezeigt)

det Bj = det(. . . b . . . )
n
= det . . . xk sk . . .
k=1
n
= xk det(. . . sk . . . )
k=1
= xj det(. . . sj . . . ) = xj det A,

da bei Summanden mit k = j zwei identische Spalten auftreten und die entsprechenden
Determinanten verschwinden. Weil bei einer invertierbaren Matrix det A = 0 ist, folgt die
Behauptung. 

Die Cramersche Regel gibt die Lösung eines linearen Gleichungssystems durch eine
geschlossene Formel an, aber diese Formel ist numerisch nicht effektiv auszuwerten.
Ihre eigentliche Bedeutung liegt auf einer theoretischen Ebene. Aufgrund der Darstellung
(4.2.1) in Satz 4.2.2 kann man nämlich ablesen, dass die Determinante eine stetige
88 4 Determinanten

Funktion der n2 Argumente a11 , . . . , ann ist. In der Analysis lernen Sie, dass mit Hilfe der
Stetigkeit aus det(A) = 0 auch det(Ã) = 0 folgt, wenn die Einträge von à hinreichend
nahe bei denen von A liegen (ε-δ-Kriterium). Daher können wir für solche à schließen:
Wenn Ax = b eindeutig lösbar ist, so auch Ãx̃ = b, und die Lösung x hängt stetig von
den Einträgen von A ab (das ist die wichtige Konsequenz der Cramerschen Regel!).
Auf ähnliche Weise können wir eine geschlossene Formel für die Inverse einer Matrix
angeben. Sei A = (aij ) eine invertierbare n × n-Matrix mit den Spalten s1 , . . . , sn . Seien
Aij die Streichungsmatrizen wie in Satz 4.2.8. Durch Entwicklung nach der j -ten Spalte
sieht man

det(s1 . . . sj −1 ei sj +1 . . . sn ) = (−1)i+j det Aij =: aj#i .

Diese Zahlen (bitte die Reihenfolge der Indices beachten!) heißen die Kofaktoren der
Matrix A und A# = (aij# ) die komplementäre Matrix.3

Satz 4.3.3 Es gilt A# A = det(A)En . Für invertierbares A ist also

1
A−1 = A# .
det(A)

Beweis In der j -ten Zeile und k-ten Spalte von A# A steht

n n
aj#i aik = aik det(s1 . . . sj −1 ei sj +1 . . . sn )
i=1 i=1
= det(s1 . . . sj −1 sk sj +1 . . . sn ),

und das ist = 0, wenn j = k ist, da eine Spalte doppelt vorkommt, und = det(A), wenn
j = k ist. Also ist A# A = det(A)En . Für den Zusatz bleibt, Lemma 1.5.5 anzuwenden. 

Wieder darf man den Satz nicht als Einladung verstehen, die Inverse auf diese Weise
konkret zu berechnen! (Ein praktikables Verfahren wurde in Abschn. 1.5 vorgestellt.) Eine
Ausnahme ist der Fall einer 2 × 2-Matrix, wo die vier Einträge von A# sofort abgelesen
werden können, nämlich

ab d −b
A= ; A# = , det(A) = ad − bc,
cd −c a

3 Manche Bücher nennen sie die adjungierte Matrix, aber dieser Begriff ist in diesem Text den
Innenprodukträumen vorbehalten.
4.4 Ein erster Blick auf Eigenwerte 89

also
−1
ab 1 d −b
= .
cd ad − bc −c a

Wenngleich Determinanten nur für quadratische Matrizen erklärt sind, sind sie auch für
andere Matrizen nützlich. Ist A eine m × n-Matrix und streicht man dort m − s Zeilen
und n − s Spalten, so bleibt eine s × s-Matrix übrig, deren Determinante ein Minor der
Ordnung s genannt wird.

Satz 4.3.4 Sei A eine m × n-Matrix mit rg(A) = r. Dann gilt:


(a) Es gibt einen Minor der Ordnung r, der nicht verschwindet.
(b) Jeder Minor der Ordnung r + 1 verschwindet.

Beweis
(a) Wähle r Spalten, die linear unabhängig sind, und bilde damit eine m × r-Matrix vom
Rang r. Diese hat nach Satz 2.3.10 r linear unabhängige Zeilen, so dass man eine
r × r-Minor erhält, der nicht verschwindet.
(b) Diese Bedingung ist leer für r = min{m, n} und wegen des Allquantors („Jeder Minor
. . . “) automatisch erfüllt. Ansonsten sind je r + 1 Spalten linear abhängig, und in der
daraus gebildeten m × (r + 1)-Matrix wegen Satz 2.3.10 je r + 1 Zeilen ebenfalls
linear abhängig. Daher verschwindet jeder Minor der Ordnung r + 1. 

4.4 Ein erster Blick auf Eigenwerte

Wir beginnen mit einem Gleichungssystem, das die Welt verändert hat.4

We assume page A has pages T1 . . . Tn which point to it (i.e., are citations). The parameter
d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are
more details about d in the next section. Also C(A) is defined as the number of links going
out of page A. The PageRank of a page A is given as follows:

PR(A) = (1 − d) + d(PR(T1 )/C(T1 ) + · · · + PR(Tn )/C(Tn ))

Note that the PageRanks form a probability distribution over web pages, so the sum of all web
pages’ PageRanks will be one.

4 S. Brin, L. Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer
Networks and ISDN Systems 30 (1998), 107–117.
90 4 Determinanten

Dies ist die Definition des PageRank-Algorithmus, mit dem Google die Relevanz von
Internetseiten berechnet (und Milliarden verdient), aus der Originalveröffentlichung der
Google-Gründer, inklusive eines (Tipp-?) Fehlers, siehe unten.
Übersetzen wir dies in die Sprache der Linearen Algebra. Es geht um die Bewertung
der N Webseiten, die das Internet ausmachen. Jede Seite erhält eine Bewertung, ihren
„PageRank“, eine Zahl zwischen 0 und 1. All diese bilden einen Vektor x = (xj )j ∈ RN

mit j xj = 1, wobei also xj der PageRank der Seite j ist. Die Anzahl der Links, die
von Seite j ausgehen, sei C(j ). Ferner sei A die N × N -Matrix mit aij = 1/C(j ), wenn
Seite j einen Link auf Seite i hat, und aij = 0, wenn das nicht der Fall ist. Ferner sei E
die Matrix, die an jeder Stelle den Eintrag 1 hat. Sei

1−d
G= E + dA. (4.4.1)
N

Dann ist das System

Gx = x (4.4.2)

mit der Forderung xj ≥ 0, N j =1 xj = 1 zu lösen. (Bei Brin/Page ist d = 0, 85, und in
der obigen Quelle steht 1 − d statt 1−d
N ; aus den weiteren Ausführungen ergibt sich, dass
Letzteres gemeint sein muss.)
Probleme vom Typ (4.4.2) sind Eigenwertprobleme, die wir jetzt definieren.

Definition 4.4.1
(a) Sei V ein Vektorraum, und sei L: V → V eine lineare Abbildung. Eine Zahl λ ∈ R
heißt Eigenwert von L, wenn es einen Vektor v = 0 mit L(v) = λv gibt. Jedes solche
von 0 verschiedene v ∈ V heißt ein Eigenvektor zu λ, und {v ∈ V : L(v) = λv} ist der
zugehörige Eigenraum.
(b) Sei A eine n × n-Matrix. Eine Zahl λ ∈ R heißt Eigenwert von A, wenn es einen
Vektor x = 0 mit Ax = λx gibt. Jedes solche von 0 verschiedene x ∈ Rn heißt ein
Eigenvektor zu λ, und {x ∈ Rn : Ax = λx} ist der zugehörige Eigenraum.

Diese beiden Begriffe sind auf endlichdimensionalen Vektorräumen vollkommen sym-


metrisch: Ist λ ein Eigenwert der Matrix A, so ist λ auch ein Eigenwert der zugehörigen
linearen Abbildung LA . Ist λ ein Eigenwert der linearen Abbildung L: V → V mit
Eigenvektor v und ist M die bzgl. einer geordneten Basis B darstellende Matrix von L
sowie KB : Rn → V die entsprechende Koordinatenabbildung, so gilt M(KB−1 (v)) =
λKB−1 (v) (vgl. (3.3.1) auf Seite 65), also ist λ ebenfalls Eigenwert von M. Daher
4.4 Ein erster Blick auf Eigenwerte 91

brauchen wir im endlichdimensionalen Fall Eigenwert überlegungen nur im Kontext von


Abbildungen oder von Matrizen anzustellen.5
Wir beobachten noch, dass der Eigenraum zu λ genau ker(L − λ Id) bzw. ker(A − λEn )
:= {x ∈ Rn : (A − λEn )x = 0} ist, also wirklich ein Unterraum von V bzw. Rn ist; daher
ist die Bezeichnung Eigenraum gerechtfertigt.
Sei L: V → V linear und dim(V ) < ∞. Definitionsgemäß ist λ ein Eigenwert von L,
wenn ker(L − λ Id) = {0} ist, was nach Korollar 3.1.9 genau dann passiert, wenn L − λ Id
nicht bijektiv ist, was nach Satz 4.2.11(b) zu det(L − λ Id) = 0 äquivalent ist. Dasselbe
Argument funktioniert für Matrizen (führen Sie es aus!). Daher haben wir folgenden Satz
gezeigt.

Satz 4.4.2
(a) Sei L: V → V linear und dim(V ) < ∞. Dann ist λ genau dann ein Eigenwert von L,
wenn det(L − λ Id) = 0 ist.
(b) Sei A eine n × n-Matrix. Dann ist λ genau dann ein Eigenwert von A, wenn
det(A−λEn ) = 0 ist.

Betrachten wir jetzt den Matrixfall genauer. Zuerst untersuchen wir die Eigenwerte der
transponierten Matrix. Da (A − λEn )t = At − λEn , folgt aus Satz 4.2.7 sofort:

Satz 4.4.3 Eine n × n-Matrix A hat dieselben Eigenwerte wie ihre transponierte Ma-
trix At .

Natürlich brauchen die Eigenräume nicht übereinzustimmen!


Nach Satz 4.4.2 sind die Eigenwerte von A genau die Nullstellen der Funktion

χA : λ → det(A − λEn ).

Diese Funktion wollen wir genauer studieren. Nach der Leibniz-Darstellung der Determi-
nante ((4.2.1) in Satz 4.4.2) hat χA die Gestalt

χA (λ) = ε(π )ãπ(1),1 · · · ãπ(n),n ,


π ∈Sn

wo ãij = aij für i = j und ãii = aii − λ ist. Daraus ersieht man, dass χA eine
Polynomfunktion mit dem führenden Koeffizienten (−1)n (beachte ε(id) = 1) und dem
absoluten Glied det(A) ist:

5 Im unendlichdimensionalen Fall lernt man etwas über Eigenwerte in der Funktionalanalysis.


92 4 Determinanten

χA (λ) = (−1)n λn + an−1 λn−1 + · · · + a1 λ + det(A).

Definition 4.4.4 χA heißt das charakteristische Polynom von A.

Aus der Algebra ist bekannt (vgl. Korollar 7.1.5), dass ein Polynom vom Grad n
höchstens n Nullstellen hat, daher hat eine reelle Matrix höchstens n Eigenwerte. Es kann
" #
aber vorkommen, dass es überhaupt keine Eigenwerte gibt; z. B. gilt für A = 01 −10
 
 

χA (λ) = det(A − λE2 ) =  −λ −1 
 = λ2 + 1,
 1 −λ 

also besitzt χA keine reellen Nullstellen. (Aus dem Zwischenwertsatz der Analysis
folgt jedoch, dass χA für ungerades n stets eine reelle Nullstelle hat.) Sie werden in
Abschn. 7.2 Weiteres zum Eigenwertproblem kennenlernen; wir wollen jedoch an dieser
Stelle wenigstens ein Beispiel durchrechnen.

Beispiel 4.4.5 Sei


⎛ ⎞
210
⎜ ⎟
A = ⎝ −1 0 1 ⎠ .
131

Um die Eigenwerte von A zu bestimmen, berechnen wir das charakteristische Polynom:


 
2 − λ 1 0 

χA (λ) =  −1 −λ 1 
 
 1 3 1 − λ
   
   
 −λ 1   −1 1 
= (2 − λ)  − 
 3 1 − λ  1 1 − λ

= (2 − λ)(−λ + λ2 − 3) − (−(1 − λ) − 1)
= (2 − λ)(λ2 − λ − 3) − (λ − 2)
= −(λ − 2)(λ2 − λ − 2) = −(λ − 2)2 (λ + 1)

Die Eigenwerte sind also λ1 = −1 und λ2 = 2.


Um die Eigenvektoren zu λ1 zu bestimmen, benötigt man die nichttrivialen Lösungen
von (A − λ1 E3 )x = 0. Wendet man den Gaußschen Algorithmus auf A − λ1 E3 an, erhält
man durch elementare Zeilenumformungen
4.4 Ein erster Blick auf Eigenwerte 93

⎛ ⎞ ⎛ ⎞ ⎛ ⎞
310 3 1 0 3 1 0
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ −1 1 1 ⎠ ; ⎝ 0 4/3 1 ⎠ ; ⎝ 0 4/3 1 ⎠ .
132 0 8/3 2 0 0 0

Daran sieht man, dass man für eine Lösung von (A − λ1 E3 )x = 0 die 3. Koordinate von
x frei wählen kann (x3 ), und daraus ergibt sich

3 1 1
x2 = − x3 , x1 = − x2 = x3 .
4 3 4

Daher sind genau die Vektoren der Form


⎛ ⎞
1/4
⎜ ⎟
x3 ⎝ −3/4 ⎠ , x3 = 0
1

die Eigenvektoren von A zum Eigenwert −1.


Eine analoge Rechnung für den Eigenwert λ2 = 2 führt auf die folgenden Zeilenum-
formungen für die Matrix A − λ2 E3 (diesmal benötigt man auch eine Zeilenvertauschung)
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
0 1 0 1 3 −1 1 3 −1 1 3 −1
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ −1 −2 1 ⎠ ; ⎝ −1 −2 1 ⎠ ; ⎝ 0 1 0 ⎠ ; ⎝ 0 1 0 ⎠ .
1 3 −1 0 1 0 01 0 00 0

Wieder kann man x3 frei wählen und erhält x2 = 0 sowie x1 = x3 . Genau die Vektoren
der Form
⎛ ⎞
1
⎜ ⎟
x3 ⎝ 0 ⎠ , x3 = 0
1

sind die Eigenvektoren von A zum Eigenwert 2.

Nun zurück zur Google-Matrix G aus (4.4.1). Diese hat die Eigenschaft, dass alle
Einträge ≥ 0 sind und alle Spaltensummen = 1 sind;6 eine solche Matrix heiße spal-

tenstochastisch. (Um zu zeigen, dass die j -te Spaltensumme = 1 ist, ist nur N
i=1 aij = 1

zu zeigen; diese Summe ist aber i∈Ij 1/C(j ), wobei Ij die Menge der Seiten ist, auf die

j verlinkt. Davon gibt es C(j ) Stück, so dass i∈Ij 1/C(j ) = C(j ) · 1/C(j ) = 1.)

6 An dieser Stelle wird der Einfachheit halber vorausgesetzt, dass es keine „dangling nodes“ gibt,
also Seiten, die auf keine anderen Seiten verlinken.
94 4 Determinanten

Satz 4.4.6 Ist S eine spaltenstochastische Matrix, so ist 1 ein Eigenwert von S.

Beweis S t ist eine Matrix, deren Zeilensummen = 1 sind, also ist für den Vektor e, dessen
sämtliche Koordinaten 1 sind, S t e = e. Daher ist 1 ein Eigenwert von S t und deshalb auch
von S (siehe Satz 4.4.3). 

Also hat die Google-Matrix einen Eigenvektor zum Eigenwert 1; es war jedoch bei
(4.4.2) verlangt, dass dieser nichtnegative Einträge hat, was wir noch nicht wissen. Aber
G besitzt darüber hinaus die Eigenschaft, dass alle Einträge > 0 sind (sie sind ja ≥ 1−d N );
eine Matrix mit dieser Eigenschaft heiße strikt positiv. Über solche Matrizen trifft der Satz
von Perron-Frobenius folgende Aussage.

Satz 4.4.7 Sei S eine strikt positive spaltenstochastische Matrix. Dann ist der Eigenraum
zum Eigenwert λ = 1 eindimensional. Genauer gilt: Es gibt genau einen Eigenvektor

u = (ui ) zum Eigenwert λ = 1 mit ui > 0 für alle i und ni=1 ui = 1, und jeder
Eigenvektor zu λ = 1 ist ein Vielfaches von u.

Beweis Wenn in diesem Beweis von Eigenvektoren die Rede ist, sind stets Eigenvektoren
(= 0) von S = (sij ) zum Eigenwert 1 gemeint; dass es solche Eigenvektoren gibt, zeigt
Satz 4.4.6.
Sei x = (xi ) ein Eigenvektor. Wir zeigen zuerst, dass alle xi ≥ 0 oder alle xi ≤ 0 sind.
Gäbe es nämlich ein xk > 0 und ein xl < 0, wo wäre wegen sij > 0

 n  n
 
|xi | =  sij xj  < sij |xj |
j =1 j =1

(an dieser Stelle benutzt man, dass |α + β| < |α| + |β| für α < 0 < β) und deshalb wegen
n
i=1 sij = 1

n n n n n n
σ := |xi | < sij |xj | = sij |xj | = |xj | = σ.
i=1 i=1 j =1 j =1 i=1 j =1

Aber das ist unmöglich.


Es gilt sogar xi > 0 für alle i oder xi < 0 für alle i: Da wenigstens eine Koordinate
von x nicht verschwindet, sagen wir xr = 0, ist nämlich

n
|xi | = sij |xj | ≥ sir |xr | > 0,
j =1

denn alle sij sind strikt positiv.


4.5 Aufgaben 95

Das hat folgende Konsequenz: Wenn Sz = z ist und z eine verschwindende Koordinate
hat, ist z = 0. Damit können wir zeigen, dass je zwei Eigenvektoren x = (xi ) und y = (yi )
linear abhängig sind: Für z = y1 x − x1 y gilt nämlich Sz = z, und die erste Koordinate
von z verschwindet; daher folgt y1 x − x1 y = 0, und wegen x1 , y1 = 0 (siehe oben) ist das
eine nichttriviale Linearkombination.

Deshalb ist ker(S−En ) eindimensional: ker(S−En ) = lin{ũ}. Dann ist u = ũ/ ni=1 ũi
der gesuchte Eigenvektor mit positiven Koordinaten und Koordinatensumme 1, und er ist
eindeutig bestimmt. 

Dieser Satz beweist, dass Googles PageRank-Vektor existiert und eindeutig bestimmt
ist (wenn 0 < d < 1). K. Bryan und T. Leise nennen ihn den 25-Milliarden-Dollar-
Eigenvektor.7
Eine ganz andere Frage ist die der numerischen Berechnung (die Google-Matrix hat
mehr als 200 Milliarden Zeilen und Spalten!). Vorlesungen und Bücher zur numerischen
Linearen Algebra8 erklären effektive Verfahren dafür.

4.5 Aufgaben

Aufgabe 4.5.1 Sei : (R3 )3 → R eine Determinantenform. Seien s1 , s2 , s3 ∈ R3 so, dass


(s1 , s2 , s3 ) = 3. Bestimmen Sie (t1 , t2 , t3 ) für die folgenden Spalten:
(a) t1 = s 1 + s 1 , t2 = s 1 + s 2 , t3 = s 1 + s 3
(b) t1 = s1 , t2 = s2 , t3 = 2s1 + 3s2
(c) t1 = s1 , t2 = s2 , t3 = 2s1 + 3s2 + 2s3
(d) t1 = s 1 + s 2 , t2 = s 2 + s 3 , t3 = s 3 + s 1

Aufgabe 4.5.2 Es seien k, l ∈ N, n = k + l, A1 eine k × k-Matrix, A2 eine l × l-Matrix,


B eine l × k-Matrix. Es sei A die n × n-Matrix

A1 0
.
B A2

Zeigen Sie (z. B. durch vollständige Induktion nach k)

det(A) = det(A1 ) det(A2 ).

7 Das war der Wert der Firma Google im Jahr 2004; vgl. K. Bryan und T. Leise, The $25,000,000,000
eigenvector: The linear algebra behind Google. SIAM Rev. 48, No. 3 (2006), 569–581.
8 Z. B. F. Bornemann, Numerische lineare Algebra. Springer Spektrum, 2. Auflage 2018.
96 4 Determinanten

Aufgabe 4.5.3 Berechnen Sie die folgende Determinante:


 
2 3 4 6
 
 
 2 0 −9 6 
 
4 1 0 2
 
 0 1 −1 0 

Aufgabe 4.5.4 Bestimmen Sie die Determinante der Abbildung L aus Aufgabe 3.4.12.

Aufgabe 4.5.5 Eine n × n-Matrix A = (aij ) erfülle die Bedingung

n

0 für i =
 k,
aij akj =
j =1
1 für i = k.

Zeigen Sie, dass det(A) = 1 oder det(A) = −1 ist.

Aufgabe 4.5.6 Bestimmen Sie sämtliche Eigenwerte und die dazugehörigen Eigenvekto-
ren für die Matrix
⎛ ⎞
10 0
⎜ ⎟
⎝ −8 4 −6 ⎠ .
81 9

Aufgabe 4.5.7 Sei V ein Vektorraum und P : V → V eine Projektion (vgl. Aufga-
be 3.4.3). Zeigen Sie, dass ein Eigenwert von P entweder 0 oder 1 ist.
Etwas Algebra
5

5.1 Körper und K-Vektorräume

Bislang haben wir Vektorräume über R kennengelernt, d. h., wir konnten einen Vektor mit
einer reellen Zahl malnehmen. In der Algebra nimmt man einen allgemeineren Standpunkt
ein, der auch in der Eigenwerttheorie nützlich ist. Man ersetzt nämlich R durch ein System
von „Zahlen“, in dem die von den reellen Zahlen bekannten Rechenregeln der Addition
und der Multiplikation gelten; so etwas nennt man einen Körper, siehe Definition 5.1.3.
Der Definition eines Körpers schicken wir die Definition einer anderen bedeutsamen
algebraischen Struktur voraus, der einer Gruppe.

Definition 5.1.1 Es sei G eine Menge mit einer inneren Verknüpfung ∗, d. h., jedem Paar
(x, y) von Elementen von G wird ein Element x ∗ y ∈ G zugeordnet. Dann heißt (G, ∗)
eine Gruppe, wenn folgende Bedingungen erfüllt sind.
(a) Assoziativität: (x ∗ y) ∗ z = x ∗ (y ∗ z) für alle x, y, z ∈ G.
(b) Es existiert ein neutrales Element e ∈ G mit e ∗ x = x ∗ e = x für alle x ∈ G.
(c) Zu jedem x ∈ G existiert ein inverses Element x  ∈ G mit x ∗ x  = x  ∗ x = e.
Gilt zusätzlich das Kommutativgesetz
(d) x ∗ y = y ∗ x für alle x, y ∈ G,
so spricht man von einer abelschen oder kommutativen Gruppe.

Es ist schnell zu sehen, dass das neutrale und das inverse Element jeweils eindeutig
bestimmt sind. Sind nämlich e und e neutrale Elemente, so ist e ∗ e = e , weil e neutral
ist, und e ∗ e = e, weil e neutral ist, so dass e = e folgt. Sind x  und x  beide invers zu
x, so zeigt das Assoziativgesetz

© Der/die Autor(en), exklusiv lizenziert an Springer Nature Switzerland AG 2022 97


D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2_5
98 5 Etwas Algebra

x  = e ∗ x  = (x  ∗ x) ∗ x  = x  ∗ (x ∗ x  ) = x  ∗ e = x  .

Wem diese Argumente bekannt vorkommen, wird im folgenden Beispiel 5.1.2(f) eine
Erklärung finden.

Beispiele 5.1.2
(a) Offensichtliche Beispiele von Gruppen sind (Z, +), (R, +), (Q, +), (R \ {0}, ·) und
(Q \ {0}, ·). Sie sind alle abelsch. (N, +), (R, ·) und (Q, ·) sind keine Gruppen (warum
nicht?).
(b) Sei n ∈ N und Zn = {0, . . . , n − 1}. Wir führen folgende „Addition“ auf Zn ein:
x ⊕ y = z, wenn die übliche Addition x + y bei Division durch n den Rest z lässt.
(Zn , ⊕) ist dann eine abelsche Gruppe, wie man schnell überprüft. In der Algebra
lernt man eine intelligentere Beschreibung dieser Gruppe kennen.
(c) Wir führen folgende „Multiplikation“ auf Zn ein: x  y = z, wenn die übliche
Multiplikation x · y bei Division durch n den Rest z lässt. (Zn , ) ist eine assoziative
und kommutative Struktur mit dem neutralen Element 1. Es handelt sich jedoch
nicht um eine Gruppe, da 0 kein multiplikativ Inverses besitzt. Betrachte nun Z∗n =
{1, . . . , n − 1}. Ist n keine Primzahl, so ist  auf Z∗n keine innere Verknüpfung, denn
es existieren n1 , n2 ∈ Z∗n mit n1 · n2 = n, also n1  n2 = 0. Wenn n jedoch eine
Primzahl ist, ist (Z∗n , ) eine abelsche Gruppe, wie man in der Algebra lernt.
(d) In Abschn. 4.1 wurde die Menge Sn der Permutationen (= Bijektionen) von {1, . . . , n}
eingeführt. Mit der Komposition als Verknüpfung erhält man eine Gruppe (warum?),
die jedoch für n ≥ 3 nicht abelsch ist (Beispiel?). Allgemeiner sei X eine Menge und
Bij(X) die Menge der Bijektionen von X, versehen mit der Komposition als innerer
Verknüpfung. (Beachte: Wenn f und g bijektiv sind, ist es auch f ◦ g; also handelt
es sich wirklich um eine innere Verknüpfung.) (Bij(X), ◦) ist eine Gruppe, die nicht
abelsch ist, wenn X mehr als zwei Elemente hat.
(e) Sei GL(n, R) die Menge aller invertierbaren n × n-Matrizen, versehen mit dem
Matrixprodukt. Auch hier handelt es sich um eine Gruppe, die für n ≥ 2 nicht abelsch
ist. Genauso ist SL(n, R) = {A ∈ GL(n, R): det(A) = 1} eine Gruppe.
(f) Sei V ein (R-)Vektorraum; dann ist (V , +) eine abelsche Gruppe.

Gruppen werden im Detail in der Algebra studiert. Uns dienen sie hauptsächlich dazu,
die folgende Definition prägnant zu fassen.

Definition 5.1.3 Es sei K eine Menge, die mit zwei inneren Verknüpfungen + und ·
ausgestattet sei. Es gelte:
(a) (K, +) ist eine abelsche Gruppe mit dem neutralen Element 0.
(b) (K \ {0}, ·) ist eine abelsche Gruppe mit dem neutralen Element 1 = 0.
(c) Es gilt das Distributivgesetz, also
5.1 Körper und K-Vektorräume 99

(λ + μ) · ν = (λ · ν) + (μ · ν) für alle λ, μ, ν ∈ K.

Dann heißt K (genauer (K, +, ·) und noch genauer (K, +, ·, 0, 1)) ein Körper.1

Wie üblich, schreibt man auch λμ statt λ · μ und λ − μ statt λ + (−μ). Ferner gilt stets
−λ = (−1)λ (Beweis?).
Eine unmittelbare Folgerung ist 0 · λ = 0 für alle λ ∈ K, da

0 · λ = (0 + 0) · λ = 0 · λ + 0 · λ,

also

0 = 0 · λ − 0 · λ = (0 · λ + 0 · λ) − 0 · λ = 0 · λ + (0 · λ − 0 · λ) = 0 · λ + 0 = 0 · λ.

(Auch dieses Argument sollte Ihnen bekannt vorkommen!) Daher gelten das Assoziativge-
setz und das Kommutativgesetz der Multiplikation sowie die Neutralität der 1, die formal
laut (b) nur in K\{0} verlangt waren, tatsächlich in ganz K.

Beispiele 5.1.4
(a) (R, +, ·) und (Q, +, ·) sind Körper.
(b) (Vgl. Beispiel 5.1.2(b) und (c)) Ist p eine Primzahl, so ist (Zp , ⊕, ) ein Körper,
wie man in der Algebra lernt. Endliche Körper sind nicht nur in der Algebra wichtig,
sondern auch in der angewandten Mathematik (Kryptographie). √
(c) In√der Zahlentheorie sind die Körper zwischen Q und R√wichtig, z. B. Q( 2) = {a +
b 2: a, b ∈ Q}. Es ist einfach nachzurechnen, dass (Q( 2), +, ·) wirklich ein Körper
ist.
(d) Das für diese Vorlesung wichtigste Beispiel ist der Körper C der komplexen Zahlen,
den wir jetzt beschreiben.

In den Formeln von Tartaglia und Cardano zur Lösung einer kubischen Gleichung
kommen Terme vor, die die Quadratwurzel aus einer negativen Zahl enthalten können.
Obwohl solche Wurzeln in R nicht existieren, hat das Rechnen mit einer imaginären
Wurzel aus −1 im 16. und 17. Jahrhundert erfolgreich reelle Lösungen einer kubischen
Gleichung produziert. Schreibt man i für die hypothetische Wurzel aus −1, kann man
Zahlen der Form a + bi, a, b ∈ R, bilden, und mit ihnen wie üblich zu rechnen bedeutet,
dass Addition und Multiplikation den aus der Schule bekannten Rechenregeln genügen.
Wir wollen nun begründen, dass das wirklich möglich ist.
Auf der Menge der Paare reeller Zahlen führen wir eine Addition und eine Multiplika-
tion ein, nämlich

1 Um die Wortwahl zu verstehen, denke man an Körperschaft, nicht an Körper im Sinn von Leib.
Auf Englisch heißt Körper field.
100 5 Etwas Algebra

(a, b) + (a  , b ) = (a + a  , b + b )
(a, b) · (a  , b ) = (aa  − bb , ab + a  b)

(Wenn man sich hier (a, b) durch a + bi und (a  , b ) durch a  + b i ersetzt vorstellt und
formal ohne viel Federlesens ausmultipliziert, erhält man (aa  − bb ) + (ab + a  b)i, was
das Paar (aa  − bb , ab + a  b) symbolisiert.) Man kann nun verifizieren, dass R2 mit
diesen Operationen einen Körper bildet; das multiplikativ Inverse zu (a, b) = (0, 0) ist
(a/(a 2 + b2 ), −b/(a 2 + b2 )); informelle Eselsbrücke hierfür:

1 a − bi a − bi
= = 2 .
a + bi (a + bi)(a − bi) a + b2

Der Körper R2 enthält via ρ: r → (r, 0) die reellen Zahlen als Teilkörper, und für das
Element (0, 1) ∈ R2 gilt (0, 1) · (0, 1) = (−1, 0); also kann man (0, 1) ∈ R2 als Wurzel
aus −1 auffassen. Setzt man (1, 0) = 1 und (0, 1) = i, kann man (a, b) ∈ R2 als a1 + bi
repräsentieren. (Beachten Sie, dass wir erst an dieser Stelle i präzise definieren; vorher war
i in der Eselsbrücke mehr ein Wunschtraum als ein mathematisches Objekt.) Da 1 ∈ R2
der reellen Zahl 1 via ρ entspricht, schreibt man a + bi statt (a, b).
Der hier beschriebene Körper wird der Körper C der komplexen Zahlen genannt. Ist
z = a + bi ∈ C (a, b ∈ R), nennt man a = Re z den Realteil und b = Im z den
Imaginärteil von z; beachten Sie, dass der Imaginärteil von z eine reelle Zahl ist. Ferner
nennt man z = a − bi die zu z konjugiert komplexe Zahl; es gelten Re z = 12 (z + z),
Im z = 2i1 (z − z) sowie w + z = w + z und wz = w z, wie man durch Nachrechnen sofort
bestätigt.

Trotz seiner Abstraktheit ist im Begriff des Körpers doch nichts anderes als die
Grundschularithmetik kodiert. Im bisherigen Verlauf der Vorlesung haben wir bei der
Entwicklung der Theorie der Vektorräume und der linearen Abbildungen nur diese
arithmetischen Grundlagen von R benutzt (Ausnahme: Satz 4.4.6 und 4.4.7, wo auch die
≥-Relation reeller Zahlen eine Rolle spielte). Daher ist es nun ein Leichtes, mit Hilfe des
folgenden Begriffes sämtliche bisherigen Überlegungen weiterzuentwickeln.

Definition 5.1.5 Seien K ein Körper und V eine Menge. Es existiere eine innere
Verknüpfung V × V  (v, w) → v + w ∈ V und eine Abbildung K × V  (λ, v) →
λ · v =: λv ∈ V mit folgenden Eigenschaften:
(a) (V , +) ist eine abelsche Gruppe.
(b) λ(v + w) = λv + λw für alle λ ∈ K, v, w ∈ V (1. Distributivgesetz).
(c) (λ + μ)v = λv + μv für alle λ, μ ∈ K, v ∈ V (2. Distributivgesetz).
(d) (λμ)v = λ(μv) für alle λ, μ ∈ K, v ∈ V (Assoziativität der Skalarmultiplikation).
(e) 1 · v = v für alle v ∈ V .
Dann heißt V ein K-Vektorraum.
5.2 Polynome, Ringe und K-Algebren 101

Die Elemente von K heißen in diesem Kontext auch Skalare.

Beispiele 5.1.6
(a) Der Koordinatenraum K n ist ein K-Vektorraum, wobei die arithmetischen Operatio-
nen Addition und Skalarmultiplikation analog zu Rn zu verstehen sind.
(b) C ist ein R-Vektorraum, und R ist ein Q-Vektorraum.
(c) Sei X eine Menge und K ein Körper. Abb(X, K) = {f : X → K: f ist eine Funktion}
ist mit den
√ zu Beispiel 2.1.2(c) analogen Operationen ein K-Vektorraum.
(d) Da Q( 2) selbst ein Körper ist (Beispiel 5.1.4(c)), ist es insbesondere ein Q-
Vektorraum. Die Tatsache, dass Körpererweiterungen insbesondere Vektorräume sind
(die eine Dimension haben), spielt in der Algebra eine große Rolle. Zum Beispiel
wird in der Algebra so gezeigt, dass die Anzahl der Elemente eines endlichen Körpers
immer eine Primzahlpotenz ist.

Sämtliche Begriffe und Resultate der ersten vier Kapitel können auf den allgemei-
nen Fall eines K-Vektorraums wörtlich übertragen werden! (Die einzigen Ausnahmen
sind wie gesagt Satz 4.4.6 und 4.4.7. Und bei komplexen Vektorräumen wäre die Wahl des
Buchstaben i als Summationsindex zu vermeiden.)
Bei der Betrachtung der Dimension eines Vektorraums (dim(V )) ist es manchmal
sinnvoll, explizit den zugrundeliegenden Körper anzusprechen (dimK (V )); z. B. ist in
Beispiel 5.1.6(b) dimC (C) = 1, aber dimR (C) = 2 (da 1 und i über R linear
unabhängig sind), und es ist dimR (R) = 1, aber dimQ (R) = ∞. (Andernfalls gäbe es
eine endliche Basis r1 , . . . , rn von R über Q, d. h., jede reelle Zahl wäre als eindeutige
Linearkombination r = λ1 r1 + · · · + λn rn mit rationalen Koeffizienten darstellbar; aber
das würde implizieren, dass R abzählbar ist.)
Wenn im Weiteren von Vektorräumen die Rede ist, sind stets Vektorräume über einem
Körper K gemeint; nur wenn es wichtig ist, um welchen Körper es sich handelt, wird dies
explizit erwähnt.
Bei der Übertragung unserer bisherigen Arbeit auf abstrakteres Terrain gibt es eine
heikle Stelle, nämlich wenn es um Polynome geht. Dem widmen wir uns im nächsten
Abschnitt.

5.2 Polynome, Ringe und K-Algebren

Wir haben bislang Polynome als Polynomfunktionen (auf R oder Teilmengen von R) be-
handelt. Dabei haben wir festgestellt, dass eine Polynomfunktion auf R ihre Koeffizienten
eindeutig bestimmt, vgl. Satz 3.2.4. Dort wurde gezeigt, dass


: R<∞ → Pol(R), ((ak )k≥0 ) = ak xk
k=0
102 5 Etwas Algebra

ein Vektorraumisomorphismus ist; zur Erinnerung:

R<∞ = {(ak )k≥0 : ak ∈ R, ∃N ∈ N ∀k > N ak = 0}.

Mit Hilfe der Vandermondeschen Determinante konnte man in Satz 4.3.1 sehen, dass das
auch stimmt, wenn man Pol(R) durch Pol(T ) mit einer unendlichen Menge T ⊂ R ersetzt.
Mit diesem Argument erhält man dasselbe Resultat wie Satz 3.2.4 für einen Körper mit
unendlich vielen Elementen statt R.

Satz 5.2.1 Für einen Körper K mit unendlich vielen Elementen gilt

K <∞ ∼
= Pol(K, K);

Letzteres bezeichnet den Raum der Polynomfunktionen von K nach K.

Über endlichen Körpern kann ein solches Resultat allein deshalb nicht stimmen, weil es
unendlich viele Folgen in K <∞ gibt, aber nur endlich viele Abbildungen von K nach K.
Konkret ist für K = Z2 die Polynomfunktion x identisch mit der Polynomfunktion x2 ,
aber im Rahmen der Algebra möchte man, dass ein abstrakter Ausdruck wie X definitiv
etwas anderes als X2 ist. Dafür gibt es mehrere Gründe: Zum Beispiel möchte man in X
oder X2 (oder einen allgemeinen polynomialen Ausdruck) auch andere Objekte als Zahlen
" #
oder Körperelemente einsetzen, für K = Z2 etwa die Matrix A = 01 10 , für die A2 = A
ist, obwohl als Polynomfunktion x2 = x ist.
Ein möglicher Ausweg ist, dass man definitionsgemäß ein Polynom mit der Koeffizien-
tenfolge (ak )k≥0 identifiziert (in dieser Sichtweise ist ein Polynom ein Element von K <∞
und von einer Polynomfunktion zu unterscheiden). Im K-Vektorraum K <∞ hat man die
übliche Addition und Skalarmultiplikation, man hat aber auch eine (innere) Multiplikation
gemäß

k
(ak ) ∗ (bk ) = (ck ) ⇔ ck = al bk−l . (5.2.1)
l=0

Der Hintergrund dieser Definition ist, dass beim formalen Ausmultiplizieren der polyno-
  
mialen Ausdrücke ak Xk und bk Xk genau ck Xk mit ck wie oben entsteht (man
beachte, dass alle Summen in Wahrheit endliche Summen sind):

k
ak Xk bk Xk = ck Xk ⇔ ck = al bk−l . (5.2.2)
l=0

In der Algebra führt man daher den Begriff einer Unbestimmten X ein (die Definition
ist leider etwas kompliziert); der Sinn dieser Konstruktion ist, dass es beim Rechnen mit
5.2 Polynome, Ringe und K-Algebren 103

einer Unbestimmten keinerlei Vereinfachungen à la x2 = x gibt. (Im Folgenmodell der


Polynome ist X einfach (0, 1, 0, 0, 0, . . . ).) Die übliche Bezeichnung für den Vektorraum
der Polynome über einem Körper K in der Algebra ist K[X]; die Elemente von K[X]

werden mit nk=0 ak Xk statt (a0 , a1 , . . . , an , 0, 0, . . . ) bezeichnet. Die Vektorraumopera-
tionen sind (alle Summen sind endlich)

ak Xk + bk Xk = (ak + bk )Xk ,

λ ak Xk = (λak )Xk .

Ein Element von K[X] wird typischerweise mit P (X) oder P bezeichnet. Von unserem
Standpunkt ist das nur eine notationstechnisch intuitivere Beschreibung als K <∞ .

Ist P = nk=0 ak Xk ein von 0 verschiedenes Polynom mit an = 0, nennt man n ∈ N0
den Grad von P ; definitionsgemäß hat P = 0 den Grad −∞. Man beachte, dass diese
Definition über endlichen Körpern nur für Polynome und nicht für Polynomfunktionen
sinnvoll ist, da ja z. B. x = x2 über Z2 .
Im Vergleich zu den Polynomfunktionen können wir Folgendes sagen. Sei P (X) =
n
ak Xk ∈ K[X]; dem können wir die Polynomfunktion p: K → K, p(x) =
k=0
n k
k=0 ak x , zuordnen. Die Abbildung

: K[X] → Pol(K, K), (P ) = p

ist linear und surjektiv, und sie ist genau dann injektiv, wenn K unendlich viele Elemente
hat (siehe oben). Zu jedem λ ∈ K ist ferner die Abbildung

ψλ : K[X] → K, ψλ (P ) = p(λ)

linear; ψλ erläutert, wie man in Polynome Zahlen (= Körperelemente) einsetzt.


Ein λ ∈ K mit ψλ (P ) = 0, also p(λ) = 0, nennt man Nullstelle von P .
Im Nullstellenverhalten der Polynome erkennt man einen fundamentalen Unterschied
zwischen R und C: Während zum Beispiel X2 + 1 über R keine Nullstellen hat, hat
jedes nichtkonstante Polynom über C eine Nullstelle. Diese grundlegende Aussage ist als
Fundamentalsatz der Algebra bekannt2 (vgl. Satz 7.1.6).

2 Ein ganzes Buch, das sich unterschiedlichen Beweisen dieses Satzes widmet, ist: G. Rosenberger,
B. Fine, The Fundamental Theorem of Algebra, Springer 1997. Einen sehr elementaren Beweis mit
Methoden der Analysis findet man bei E. Behrends, Analysis 1, 6. Auflage, Springer Spektrum 2015.
In diesem Buch wird in Abschn. 7.6 ein Beweis mit Methoden der Linearen Algebra geführt.
104 5 Etwas Algebra

Ebenso können wir zu einer n × n-Matrix A über K den Ausdruck


n
P (A) = ak Ak (5.2.3)
k=0

bilden. Diese Prozedur wollen wir nun etwas allgemeiner fassen, indem wir die Struktur
eines Rings3 definieren.

Definition 5.2.2 Sei R eine Menge mit zwei inneren Verknüpfungen + und ·. Es gelte:
(a) (R, +) ist eine abelsche Gruppe (mit dem neutralen Element 0).
(b) (x · y) · z = x · (y · z) für alle x, y, z ∈ R.
(c) x · (y + z) = xy + xz, (y + z) · x = yx + zx für alle x, y, z ∈ R.
Dann heißt R (genauer (R, +, ·)) ein Ring. Falls zusätzlich
(d) xy = yx für alle x, y ∈ R
gilt, heißt R ein kommutativer Ring. Falls ein Element 1 ∈ R mit
(e) 1 · x = x · 1 = x für alle x ∈ R
existiert, heißt R ein Ring mit Einselement.

Oben steht xy (etc.) natürlich abkürzend für x · y.

Beispiele 5.2.3
(a) Jeder Körper ist ein kommutativer Ring mit Einselement. Auch (Z, +, ·) ist ein
kommutativer Ring mit Einselement, aber 2Z = {2n: n ∈ Z} ist ein kommutativer
Ring ohne Einselement.
(b) (Vgl. Beispiel 5.1.2(b) und (c)) (Zn , ⊕, ) ist ein kommutativer Ring mit Einsele-
ment.
(c) Sei K ein Körper. Für n ≥ 2 ist K n×n mit der Matrixmultiplikation ein nichtkommu-
tativer Ring mit Einselement.
(d) Sei K ein Körper; K[X] mit der üblichen Addition und der Multiplikation aus (5.2.2)
ist ein kommutativer Ring mit Einselement.

In Körpern gilt (warum?)

λμ = 0 ⇒ λ = 0 oder μ = 0;

3 Auch der Name Ring hat soziologischen Ursprung (vgl. Weißer Ring, RCDS, Ringvereine etc.);
man sollte nicht an ein Schmuckstück denken.
5.2 Polynome, Ringe und K-Algebren 105

man nennt das Nullteilerfreiheit. Ringe brauchen nicht nullteilerfrei zu sein; z. B. gilt 2 
3 = 0 in Z6 , auch K n×n ist für n ≥ 2 nicht nullteilerfrei:

01 00
A= , A2 = .
00 00

Die für die Lineare Algebra wichtigen Ringe haben eine weitere Struktur; sie sind nämlich
außerdem Vektorräume, wobei die Ringmultiplikation und die Vektorraumoperationen
miteinander verträglich sind. Die genauen Bedingungen erläutert die nächste Definition.

Definition 5.2.4 Es seien K ein Körper und R ein Ring mit Einselement, der gleichzeitig
ein K-Vektorraum ist, so dass für λ ∈ K und A, B ∈ R

λ(AB) = (λA)B = A(λB)

erfüllt ist. Dann nennt man R eine K-Algebra (mit Einheit).

Beispiele für K-Algebren sind K[X], K n×n und L (V ), wenn V ein K-Vektorraum ist.

Seien R eine K-Algebra und A ∈ R. Zu einem Polynom P (X) = nk=0 ak Xk ∈ K[X]
können wir das Element
n
P (A) = ak Ak ∈ R
k=0

assoziieren, wo A0 für das Einselement von R steht. Diese Einsetzungsabbildung erfüllt


(nachrechnen!)

(λP )(A) = λP (A),


(P + Q)(A) = P (A) + Q(A),
(P · Q)(A) = P (A)Q(A);

d. h. P → P (A) ist ein sogenannter Algebrenhomomorphismus (oder linearer Ringhomo-


morphismus); sein Bild ist eine kommutative Unteralgebra von R. Das Matrixpolynom in
(5.2.3) ist ein Spezialfall dieser Situation.
In Abschn. 4.4 haben wir das charakteristische Polynom χA einer Matrix über R
kennengelernt, und zwar als Polynomfunktion. Ist K ein Körper mit unendlich vielen
Elementen, kann man analog wegen Satz 5.2.1 χA wahlweise als Polynom oder Poly-
nomfunktion ansehen; für endliche Körper ist hier aber zu unterscheiden.
106 5 Etwas Algebra

Formal ist χA (X) als Determinante


 
a − X a . . . a1n 
 11 12
 
 a21 a12 − X . . . a2n 

χA (X) =   (5.2.4)
.. .. .. 
 . . . 
 
 an1 an2 . . . ann − X 

definiert; im Fall einer Unbestimmten X (statt eines Körperelements) stehen auf der
Hauptdiagonalen aber gar keine Körperelemente, sondern Polynome, und für solche
Objekte ist unsere Determinantentheorie gar nicht ausgelegt! Es gibt mehrere Auswege:
(1) Man definiert diese Determinante gemäß der Leibnizdarstellung (4.2.1) mit ε(π ) =
det(Pπ ), der Determinante der entsprechenden Permutationsmatrix. In jedem Summanden
kommen nur Produkte von Polynomen, also Polynome vor; so erhält man als Determinante
det(A−XEn ) ein Polynom. (2) Man entwickelt eine Determinantentheorie für kommutati-
ve Ringe statt Körper, analog zum ersten Vorschlag. (3) Man kann den Ring der Polynome
K[X] zum Körper K(X) der „rationalen Funktionen“ (das sind formale Quotienten
P (X)/Q(X) von Polynomen und im Allgemeinen keine Funktionen) erweitern und dann
unsere Determinantentheorie in diesem Körper anwenden. Bei jedem dieser Zugänge
erhält man χA (X) ∈ K[X] als wohldefiniertes Polynom.
Bei diesem erweiterten Determinantenbegriff gilt der Multiplikationssatz wie in
Satz 4.2.4; in Korollar 4.2.5 muss man jedoch statt „det(A) = 0“ als Voraussetzung
„det(A) ist invertierbar“ lesen.
Das charakteristische Polynom wird in Kap. 7 eine bedeutende Rolle spielen. Hier
eine kurze Vorschau: Genau wie in Satz 4.4.2 sind die Nullstellen dieses Polynoms, also
die Körperelemente mit χA (λ) = 0, die Eigenwerte von A. Wie wir bereits an einem
Beispiel gesehen haben, braucht eine reelle Matrix keine Eigenwerte zu besitzen; nach
dem Fundamentalsatz der Algebra gibt es aber immer Eigenwerte in C.

5.3 Quotientenvektorräume

Wir beginnen mit einem Exkurs über Äquivalenzrelationen. Eine Relation ∼ auf einer
Menge X ist formal nichts anderes als eine Teilmenge von X × X, allerdings ist die
Schreibweise „x ∼ y“ für „x steht in Relation zu y“ intuitiver als „(x, y) ∈ ∼“. Als
Kompromiss schreiben wir

R∼ = {(x, y) ∈ X × X: x ∼ y}.

Zum Beispiel ist für die Relation „Gleichheit“

R= = {(x, y) ∈ X × X: x = y} = {(x, x): x ∈ X},


5.3 Quotientenvektorräume 107

die „Diagonale“ in X × X. Äquivalenzrelationen schwächen den Begriff der Gleichheit


ab und verlangen nur, dass Elemente in gewissen Aspekten übereinstimmen (siehe die
folgenden Beispiele). Hier ist die formale Definition.

Definition 5.3.1 Eine Relation ∼ auf einer Menge X heißt Äquivalenzrelation, wenn
folgende Bedingungen erfüllt sind:
(a) x ∼ x für alle x ∈ X (Reflexivität),
(b) x ∼ y ⇒ y ∼ x (Symmetrie),
(c) x ∼ y, y ∼ z ⇒ x ∼ z (Transitivität).

Diese Eigenschaften haben wir schon bei der Isomorphie von Vektorräumen kennenge-
lernt.

Beispiele 5.3.2
(a) Die Gleichheit ist auf jeder Menge eine Äquivalenzrelation. Die Relation „x ∼ y,
wenn x ≥ y“ ist keine Äquivalenzrelation auf R, da die Symmetrie verletzt ist.
(b) Sei n ∈ N. Für x, y ∈ Z gelte x ∼ y, wenn n die Differenz y − x teilt. Dies ist eine
Äquivalenzrelation.
(c) Betrachte die Ebene R2 und eine Gerade g ⊂ R2 . Für x, y ∈ R2 gelte x ∼ y, wenn x
und y auf einer zu g parallelen Geraden liegen. Auch dies ist eine Äquivalenzrelation.
(d) Sei V ein K-Vektorraum und U ⊂ V ein Unterraum. Für v, v  ∈ V gelte v  ∼ v,
wenn v  − v ∈ U . Dies ist eine Äquivalenzrelation, wie man sofort nachrechnet. Das
Beispiel (c) ist der Spezialfall K = R, V = R2 , dim(U ) = 1.

Mit einer Äquivalenzrelation einher geht eine Zerlegung der Grundmenge in Äquiva-
lenzklassen.

Definition 5.3.3 Sei ∼ eine Äquivalenzrelation auf X. Die Äquivalenzklasse von x ∈ X


ist

[x] = {y ∈ X: y ∼ x}.

Jedes Element einer Äquivalenzklasse Z wird ein Repräsentant von Z genannt.

Das folgende Lemma ist grundlegend.

Lemma 5.3.4 Sei ∼ eine Äquivalenzrelation auf X. Zwei Äquivalenzklassen sind entwe-
der disjunkt oder identisch.

Beweis Seien [x1 ] und [x2 ] zwei nicht disjunkte Äquivalenzklassen; wir werden [x1 ] =
[x2 ] zeigen. Wähle z ∈ [x1 ] ∩ [x2 ], d. h. z ∼ x1 und z ∼ x2 ; wegen der Symmetrie und
108 5 Etwas Algebra

Transitivität von ∼ folgt dann x1 ∼ x2 . Nun sei y ∈ [x1 ], d. h. y ∼ x1 ; wegen x1 ∼ x2


erhält man y ∼ x2 , d. h. y ∈ [x2 ]. Analog zeigt man für y ∈ [x2 ], dass auch y ∈ [x1 ] (tun
Sie’s!). Das beweist [x1 ] = [x2 ]. 

Das Lemma garantiert, dass man wirklich eine Zerlegung von X in paarweise disjunkte
Teilmengen erhält. Wir wollen die Äquivalenzklassen in den obigen Beispielen bestim-
men.

Beispiele 5.3.5
(a) (Vgl. Beispiel 5.3.2(a)) Hier ist [x] = {x}.
(b) (Vgl. Beispiel 5.3.2(b)) Hier besteht [x] aus all denjenigen ganzen Zahlen, die bei
der Division durch n denselben Rest wie x lassen. Also ist {0, . . . , n − 1} = Zn ein
vollständiges System von Repräsentanten der Äquivalenzklassen dieser Äquivalenz-
relation.
(c) (Vgl. Beispiel 5.3.2(c)) Hier ist [x] diejenige zu g parallele Gerade, auf der x liegt.
(d) (Vgl. Beispiel 5.3.2(d)) Dies ist in dieser Allgemeinheit schwierig zu visualisieren;
versuchen Sie sich an V = R3 , dim(U ) = 2. Man schreibt für diese Äquivalenzrela-
tion die Äquivalenzklasse [v] auch als v + U :

v + U := {v  ∈ V : v  − v ∈ U } = {v + u: u ∈ U }

Im Rest dieses Abschnitts werden wir das letzte Beispiel intensiv studieren; insbesonde-
re werden wir überlegen, wie man mit diesen Äquivalenzklassen rechnet. Damit beginnen
wir jetzt.
Sei also V ein K-Vektorraum, U ⊂ V ein Unterraum. Wir wollen die Summe
zweier Äquivalenzklassen v1 + U und v2 + U definieren. Die folgende Idee sieht
vielversprechend aus:

(v1 + U ) + (v2 + U ) := (v1 + v2 ) + U (5.3.1)

Das Problem hierbei ist, dass wir die Summenbildung von Klassen mit Hilfe der Summen-
bildung von Repräsentanten durchgeführt haben, und andere Wahlen von Repräsentanten
könnten zu einem anderen Resultat führen. Wir müssen daher Folgendes wissen, um die
Wohldefiniertheit in (5.3.1) zu garantieren:

v1 + U = v1 + U, v2 + U = v2 + U ⇒ (v1 + v2 ) + U = (v1 + v2 ) + U (5.3.2)

Es seien also v1 und v1 (bzw. v2 und v2 ) Repräsentanten derselben Äquivalenzklasse,
d. h. sie sind äquivalent: v1 − v1 ∈ U , v2 − v2 ∈ U . Deshalb existieren u1 , u2 ∈ U mit
v1 = v1 + u1 , v2 = v2 + u2 . Sei jetzt w ∈ (v1 + v2 ) + U , also ist w = v1 + v2 + u für
ein geeignetes u ∈ U . Damit ist ebenfalls w = v1 + v2 + u1 + u2 + u = v1 + v2 + u ,
5.3 Quotientenvektorräume 109

wo u = u1 + u2 + u ∈ U (denn U ist ein Unterraum). Das zeigt w ∈ (v1 + v2 ) + U


und damit (v1 + v2 ) + U ⊂ (v1 + v2 ) + U . Die umgekehrte Inklusion kann man genauso
zeigen (tun Sie’s!), oder man wendet Lemma 5.3.4 an. Somit ist (5.3.2) bewiesen, und die
Addition (5.3.1) ist wohldefiniert.
Genauso kann man die skalare Multiplikation einführen:

λ · (v + U ) := λv + U (5.3.3)

Die Wohldefiniertheit ergibt sich aus

v + U = v  + U, λ ∈ K ⇒ λv + U = λv  + U (5.3.4)

In der Tat: Wenn v − v  ∈ U ist, ist auch λv − λv  = λ(v − v  ) ∈ U (denn U ist ein
Unterraum), woraus sich (5.3.4) ergibt.
Veranschaulichen Sie sich diese Operationen am Beispiel V = R2 , dim(U ) = 1!

Definition 5.3.6 Sei V ein K-Vektorraum, und sei U ⊂ V ein Unterraum. Wir bezeichnen
die Menge aller Äquivalenzklassen v + U mit V /U und versehen V /U mit der in (5.3.1)
bzw. (5.3.3) eingeführten Addition bzw. Skalarmultiplikation.

Satz 5.3.7 Seien V und U wie in Definition 5.3.6. Dann ist (V /U, +, ·) ein K-
Vektorraum.

Beweis Sämtliche Forderungen aus Definition 5.1.5 sind leicht auf die entsprechenden
Aussagen über die Repräsentanten zurückzuführen; zum Beispiel ist U das neutrale
Element für die Addition in V /U , das additiv Inverse zu v + U ist (−v) + U (da
v + (−v) = 0 ist), und um etwa das 1. Distributivgesetz einzusehen, schreibe man

λ · ((v + U ) + (w + U )) = λ · ((v + w) + U )
= λ(v + w) + U
= (λv + λw) + U
= (λv + U ) + (λw + U )
= λ · (v + U ) + λ · (w + U ).

Alle übrigen Rechnungen sind ganz ähnlich (führen Sie sie aus!). 

Wir nennen V /U den Quotientenvektorraum von V nach U . Sie sollten im Gedächtnis


behalten, dass die Hauptschwierigkeit bei der Einführung von V /U die Wohldefiniertheit
(d. h. der Nachweis der Unabhängigkeit von den Repräsentanten) der Addition und
Skalarmultiplikation war.
110 5 Etwas Algebra

Eine einfache, aber wichtige Bemerkung ist, dass die kanonische Abbildung

Q: V → V /U, Q(v) = v + U

linear und surjektiv mit Kern ker(Q) = U ist.


Diese Bemerkung liefert sofort wegen dim(V ) = dim(ker(Q)) + dim(ran(Q)) die
folgende Dimensionsformel.

Korollar 5.3.8 Ist V endlichdimensional, so ist

dim V /U = dim V − dim U.

Auch für unendlichdimensionale V kann es vorkommen, dass V /U endlichdimensional


ist; Beispiel: V = Abb(R), U = {f ∈ V : f (0) = f (1) = 0}, dann ist für

f (0)
L: V → R2 , L(f ) =
f (1)

U = ker L sowie R2 = ran L, also nach dem folgenden Homomorphiesatz, Satz 5.3.9,
dim V /U = dim R2 = 2. Man nennt dim V /U die Kodimension von U in V.
Quotientenvektorräume sind interessante Hilfsmittel in der Operatortheorie, also der
Theorie der linearen Abbildungen. Ein wichtiges Resultat ist der Homomorphiesatz der
Linearen Algebra.4

Satz 5.3.9 (Homomorphiesatz) Seien V und W K-Vektorräume und L: V → W linear.


Dann gilt

V /ker L ∼
= ran L.

Beweis Wir zeigen, dass

: V /ker L → ran L, (v + ker L) = L(v)

ein wohldefinierter Isomorphismus ist.


Zur Wohldefiniertheit muss man zeigen:

v1 + ker L = v2 + ker L ⇒ L(v1 ) = L(v2 ).

4 In der Gruppen- und Ringtheorie gibt es ebenfalls einen Homomorphiesatz.


5.3 Quotientenvektorräume 111

Das stimmt, da die Voraussetzung v1 − v2 ∈ ker L impliziert, also L(v1 − v2 ) = 0. Da L


linear ist, erhält man L(v1 ) = L(v2 ).
Dass linear ist, ist leicht nachzurechnen:

((v1 + ker L) + (v2 + ker L)) = ((v1 + v2 ) + ker L)


= L(v1 + v2 ) = L(v1 ) + L(v2 )
= (v1 + ker L) + (v2 + ker L)

bzw.

(λ(v + ker L)) = ((λv) + ker L)


= L(λv) = λL(v) = λ (v + ker L)

Die Injektivität ergibt sich so. Gelte (v + ker L) = 0; dann ist L(v) = 0, also v ∈
ker L, so dass v +ker L = ker L die Nullklasse ist. Die Surjektivität gilt nach Konstruktion
von . 

Korollar 5.3.10 Jede lineare Abbildung L: V → W faktorisiert gemäß

Q j
L: V −→ V /ker L −→ ran L −→ W,

wobei Q die kanonische lineare Surjektion v → v + ker L, der Isomorphismus aus dem
Homomorphiesatz und j die identische Injektion w → w von ran L nach W ist.

Beweis Das ist nur eine Umschreibung der Definition von aus dem letzten Beweis. 

Korollar 5.3.11 Gelte V = U ⊕ U  . Dann ist V /U ∼


= U  . Insbesondere sind je zwei
Komplementärräume zu U isomorph.

Beweis Zum Begriff der direkten Summe, siehe Satz 2.4.4. Wegen dieses Satzes ist die
Abbildung

L: V = U ⊕ U  → U  , v = u + u → u

wohldefiniert und linear. Ihr Kern ist U , und ihr Bild ist U  . Die Behauptung folgt daher
aus dem Homomorphiesatz. 
112 5 Etwas Algebra

5.4 Aufgaben

Aufgabe 5.4.1 Sei G = R \ {−1}. Für x, y ∈ G setze x ∗ y = xy + x + y. Zeigen Sie,


dass (G, ∗) eine Gruppe ist.

Aufgabe 5.4.2 Sei V ein C-Vektorraum mit der Addition + und der skalaren Multiplika-
tion ·. Wir definieren für λ ∈ C und v ∈ V

λ ∗ v = λ · v.

(a) Zeigen Sie, dass (V , +, ∗) ein C-Vektorraum ist.


(b) Sei jetzt V = Cn ; die übliche Addition sei mit + und die übliche skalare Mul-
tiplikation mit · bezeichnet. Sind (V , +, ·) und (V , +, ∗) isomorph? Ist Id ein
Vektorraumisomorphismus?

Aufgabe 5.4.3 Bestimmen Sie die Inverse der komplexen Matrix

i 1
.
−1 − i 1 + i

1 a − ib
Hinweis: = = ···
a + ib (a + ib)(a − ib)

Aufgabe 5.4.4
(a) Berechnen Sie die Determinante der komplexen Matrix
⎛ ⎞
1 2 −i 0
⎜ ⎟
⎜2 0 0 2⎟
A=⎜ ⎟.
⎝3 1 0 3⎠
4 −1 i 0

(b) Bilden die Spaltenvektoren von A eine Basis des C-Vektorraums C4 ?

Aufgabe 5.4.5 Sei A ∈ Cn×n eine Matrix, deren sämtliche Einträge reelle Zahlen sind.
Sei λ ∈ C ein Eigenwert von A mit Eigenvektor v = (vi ) ∈ Cn . Zeigen Sie, dass λ ein
Eigenwert von A mit Eigenvektor v = (v i ) ist.
5.4 Aufgaben 113

Aufgabe 5.4.6 Auf R betrachte die Relation

x∼y ⇔ y − x ∈ Q.

Zeigen Sie, dass es sich dabei um eine Äquivalenzrelation handelt.

Aufgabe 5.4.7 Sei V = Abb (R) und U der Unterraum U = {f ∈ V : f (x) = 0 für alle
x ∈ [0, 1]}. Zeigen Sie durch Angabe eines expliziten Vektorraumisomorphismus, dass
V /U und Abb ([0, 1]) isomorph sind.
Innenprodukträume
6

6.1 Skalarprodukte

Wir kehren zum klassischen Fall der R- und C-Vektorräume zurück; um beide Fälle
simultan zu behandeln, ist es manchmal praktisch, das Symbol K zu verwenden, das
wahlweise für R oder C steht: K ∈ {R, C}.
Wir wollen innere Produkte in K-Vektorräumen einführen; dies wird es u. a. ermögli-
chen zu sagen, dass zwei Vektoren senkrecht aufeinander stehen. Zunächst benötigen wir
eine Vorbemerkung über komplexe Zahlen. Für z = a + ib mit a, b ∈ R nennt man
$ √
|z| = a 2 + b2 = zz

den Betrag von z. Der Betrag hat folgende Eigenschaften (z, w ∈ C beliebig):

(a) |z| ≥ 0 und |z| = 0 genau dann, wenn z = 0.


(b) |z| = |z|, |Re z| ≤ |z|, |Im z| ≤ |z|
(c) |zw| = |z| |w|
(d) |z + w| ≤ |z| + |w|

Beweis hierfür: (a) und (b) sind klar, (c) folgt aus

|zw|2 = (zw)(zw) = zwz w = |z|2 |w|2

© Der/die Autor(en), exklusiv lizenziert an Springer Nature Switzerland AG 2022 115


D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2_6
116 6 Innenprodukträume

und (d) aus

|z + w|2 = (z + w)(z + w) = |z|2 + zw + wz + |w|2


= |z|2 + 2Re zw + |w|2
≤ |z|2 + 2|zw| + |w|2
= |z|2 + 2|z||w| + |w|2 = (|z| + |w|)2 .

Definition 6.1.1 Sei V ein K-Vektorraum. Eine Abbildung V × V  (v, w) → v, w" ∈


K heißt inneres Produkt oder Skalarprodukt, wenn folgende Bedingungen erfüllt sind.
(a) Für jedes w ∈ V ist v → v, w" linear.
(b) Für v, w ∈ V ist v, w" = w, v".
(c) Für v ∈ V ist v, v" eine reelle Zahl, es ist v, v" ≥ 0, und es gilt v, v" = 0 genau
dann, wenn v = 0 ist.
Ein mit einem Skalarprodukt versehener K-Vektorraum wird Innenproduktraum genannt.

Einige Bemerkungen hierzu:


(1) Im Fall K = R lautet (b) einfach v, w" = w, v".
(2) Wegen (a) und (b) ist im reellen Fall auch w → v, w" für jedes v ∈ V linear; . , . "
ist eine Bilinearform. (Multilinearformen wurden in Definition 4.1.1 definiert.)
(3) Im Fall K = C ist w → v, w" zwar additiv ( v, (w1 + w2 )" = v, w1 " + v, w2 "),
aber nicht linear; in der Tat ist es antilinear:

v, λw" = λw, v" = λ w, v" = λ v, w".

Man nennt . , . " eine Sesquilinearform (sesqui = 1 12 ).


(4) Auch im Fall K = C ist stets v, v" ∈ R, obwohl v, w" im Allgemeinen nicht reell
ist.
(5) Ein Innenproduktraum über dem Körper R wird auch euklidischer Vektorraum und
ein Innenproduktraum über dem Körper C wird auch unitärer Vektorraum genannt. In
beiden Fällen spricht man auch von einem Prähilbertraum.
(6) Man unterscheide die Begriffe Skalarprodukt (also v, w") und skalares Produkt (also
λ · v)!

Beispiele 6.1.2
(a) Das euklidische Skalarprodukt des Rn ist durch

n
v, w"e = vk wk (v = (vk ), w = (wk ))
k=1
6.1 Skalarprodukte 117

und das euklidische Skalarprodukt des Cn ist durch

n
v, w"e = vk wk (v = (vk ), w = (wk ))
k=1

erklärt.
(b) Sei A ∈ Rn×n mit akl = alk für alle k, l = 1, . . . , n, also A = At („A ist
symmetrisch“). Setze für v, w ∈ Rn

n n
v, w" = v, Aw"e = vk akl wl .
k=1 l=1

Diese Form erfüllt die Bedingungen (a) und (b) eines Skalarprodukts, und (c) ist
erfüllt, wenn zusätzlich

v, Av" > 0 für alle 0 = v ∈ Rn

erfüllt ist. Solch eine Matrix heißt positiv definit. Wir werden sehen, dass diese
Eigenschaft durch die Eigenwerte der symmetrischen Matrix A charakterisiert werden
kann: Sie müssen alle > 0 sein (Satz 8.3.2).
(c) Sei V = Pol([a, b], R) (oder C([a, b], R), der Vektorraum der reellwertigen stetigen
Funktionen auf [a, b]) und
 b
f, g" = f (t)g(t) dt.
a

Aus den Sätzen der Integrationstheorie folgt, dass es sich um ein Skalarprodukt
handelt. Wer sich traut, komplexwertige Funktionen zu integrieren, erhält mit dem
Ansatz
 b
f, g" = f (t)g(t) dt
a

ein Skalarprodukt auf V = Pol([a, b], C) (bzw. C([a, b], C)).

In einem Innenproduktraum kann man Orthogonalität erklären.

Definition 6.1.3 Sei V ein Innenproduktraum.1 Zwei Elemente v, w ∈ V heißen


orthogonal, wenn v, w" = 0 ist. Das orthogonale Komplement einer Teilmenge A ⊂ V

1 Das zugehörige Skalarprodukt wird stets mit . , . " bezeichnet.


118 6 Innenprodukträume

ist
A⊥ = {v ∈ V : v, w" = 0 für alle w ∈ A}.

Man rechnet sofort folgendes Lemma nach.

Lemma 6.1.4 Sei V ein Innenproduktraum.


(a) A⊥ ist stets ein Unterraum von V , und es gilt stets A⊥ = (lin A)⊥ . Außerdem ist
A⊥ ⊥
1 ⊂ A2 für A2 ⊂ A1 .
(b) Ist U ein Unterraum von V , so gilt U ∩ U ⊥ = {0}.

Um (b) einzusehen, betrachte man u ∈ U ∩ U ⊥ ; definitionsgemäß gilt dann u, u" = 0,


also u = 0.
Ein Spezialfall von (b) ist die Aussage V ⊥ = {0} (warum?); mit anderen Worten: Erfüllt
z ∈ V , dass v, z" = 0 für alle v ∈ V, so ist z = 0. Diese Bemerkung werden wir häufig
benutzen.
Des Weiteren eröffnet ein Innenproduktraum die Möglichkeit, die „Länge“ eines
Vektors zu definieren. Dazu führen wir den Begriff der Norm ein.

Definition 6.1.5 Sei V ein K-Vektorraum. Eine Funktion N : V → R heißt eine Norm,
wenn folgende Bedingungen erfüllt sind.
(a) N (v) ≥ 0 für alle v ∈ V und N(v) = 0 genau dann, wenn v = 0 ist.
(b) N (λv) = |λ|N(v) für alle λ ∈ K, v ∈ V.
(c) N (v + w) ≤ N(v) + N(w) für alle v, w ∈ V.
Die letzte Ungleichung wird auch Dreiecksungleichung genannt; siehe Abb. 6.1.

Abb. 6.1 Die


Dreiecksungleichung im R2
6.1 Skalarprodukte 119

Definition 6.1.6 In einem Innenproduktraum setzen wir

$v$ = v, v"1/2 .

Satz 6.1.7 Sei V ein Innenproduktraum.


(a) (Cauchy-Schwarzsche Ungleichung)
Für v, w ∈ V gilt
| v, w"| ≤ $v$ $w$.

(b) v → $v$ definiert eine Norm auf V.

Beweis
(a) Die Ungleichung ist richtig, wenn w = 0 ist; daher setzen wir jetzt w = 0 (und deshalb
$w$ = 0) voraus. Durch geschickte Wahl von λ ∈ K werden wir die Ungleichung v+
λw, v + λw" ≥ 0 in die Cauchy-Schwarzsche Ungleichung überführen. Man rechnet
für ein einstweilen beliebiges λ ∈ K (für K = R kann man sich die Konjugiert-Striche
sparen)
0 ≤ v + λw, v + λw"
= v, v" + v, λw" + λw, v" + λw, λw"
= v, v" + λ v, w" + λ v, w" + |λ|2 w, w".

v,w"
Speziell setzen wir jetzt λ = − $w$ 2 und erhalten

| v, w"|2 | v, w"|2 | v, w"|2 | v, w"|2


0 ≤ $v$2 − − + $w$2
= $v$2
− .
$w$2 $w$2 $w$4 $w$2

Umstellen liefert | v, w"| ≤ $v$ $w$.


(b) Die ersten beiden Eigenschaften einer Norm folgen durch Einsetzen aus den entspre-
chenden Eigenschaften eines Skalarprodukts. Zum Beweis der Dreiecksungleichung
schätzen wir ab

$v + w$2 = v + w, v + w"
= $v$2 + v, w" + w, v" + $w$2
= $v$2 + 2Re v, w" + $w$2
≤ $v$2 + 2| v, w"| + $w$2
≤ $v$2 + 2$v$ $w$ + $w$2 = ($v$ + $w$)2 ,

wobei bei der letzten Ungleichung die Cauchy-Schwarzsche Ungleichung einging. 


120 6 Innenprodukträume

Die zum euklidischen Skalarprodukt gehörige Norm nennen wir die euklidische Norm;
Bezeichnung $ . $2 .
Die letzte Rechnung zeigt für orthogonale v und w

$v + w$2 = $v$2 + $w$2 ,

also die abstrakte Form des Satzes von Pythagoras. Per Induktion ergibt sich sofort die
allgemeinere Version

$v1 + · · · + vr $2 = $v1 $2 + · · · + $vr $2 (6.1.1)

für paarweise orthogonale vj .


Eine andere wichtige Konsequenz ist die Parallelogrammgleichung

$v + w$2 + $v − w$2 = 2$v$2 + 2$w$2 , (6.1.2)

die man sofort nachrechnet. Ihr Name leitet sich vom Spezialfall des R2 mit der
euklidischen Norm her, wo die linke Seite die Summe der Quadrate über den Diagonalen
eines Parallelogramms und die rechte Seite die Summe der Quadrate über seinen vier
Seiten darstellt.

6.2 Orthonormalbasen

Die Möglichkeit, in Innenprodukträumen orthogonale Elemente auszuzeichnen, ebnet den


Weg zu speziellen Basen eines endlichdimensionalen Innenproduktraums.

Definition 6.2.1 Sei V ein Innenproduktraum. Die Vektoren f1 , . . . , fn bilden ein Ortho-
normalsystem, wenn

1 für i = j,
fi , fj " = δij :=
0 für i = j.

Ein Orthonormalsystem, das eine Basis ist, heißt Orthonormalbasis.

Man beachte, dass wir diese Definition nur für endliche Systeme gefasst haben; für
unendliche Systeme ist die Funktionalanalysis zuständig (eine Orthonormalbasis ist dort
als maximales Orthonormalsystem erklärt).

Beispiele 6.2.2
(a) Die Einheitsvektoren bilden eine Orthonormalbasis bzgl. des euklidischen Skalarpro-
dukts des Kn .
6.2 Orthonormalbasen 121

(b) Sei V = C[0, 2π ] der Vektorraum der stetigen Funktionen auf dem Intervall
[0, 2π ], versehen mit dem Skalarprodukt aus Beispiel 6.1.2(c). Es ist eine klassische
Übungsaufgabe der Analysis, mit partieller Integration zu zeigen, dass das folgende
Funktionensystem f0 , f1 , . . . , fn , g1 , . . . , gn ein Orthonormalsystem ist:

1 1 1
f0 (t) = √ , fk (t) = √ cos(kt), gk (t) = √ sin(kt) (k = 1, . . . , n).
2π π π

(c) Ein wichtiges Problem in Kap. 8 wird sein, zu entscheiden, ob es zu einer linearen
Abbildung L: V → V auf einem endlichdimensionalen Innenproduktraum eine
Orthonormalbasis aus Eigenvektoren von L gibt.

Lemma 6.2.3 Jedes Orthonormalsystem ist linear unabhängig.

Beweis Bilden f1 , . . . , fn ein Orthonormalsystem und gilt λ1 f1 + · · · + λn fn = 0, so


gilt auch λ1 f1 + · · · + λn fn , fj " = 0 für jedes j . Wegen der Orthonormalität ist dieses
Skalarprodukt jedoch λ1 f1 , fj " + · · · + λn fn , fj " = λj fj , fj " = λj . Deshalb sind
f1 , . . . , fn linear unabhängig. 

Umgekehrt kann man linear unabhängige Vektoren immer „orthonormieren“, wie jetzt
erklärt wird.

Satz 6.2.4 (Gram-Schmidt-Verfahren) Sei V ein Innenproduktraum, und seien


v1 , . . . , vn linear unabhängig. Dann existiert ein Orthonormalsystem f1 , . . . , fn mit
lin{v1 , . . . , vk } = lin{f1 , . . . , fk } für k = 1, . . . , n.

Beweis Wir konstruieren die fj induktiv. Da v1 = 0 ist (wegen der linearen Unabhän-
gigkeit), können wir f1 = v1 /$v1 $ definieren. Dann ist {f1 } ein Orthonormalsystem mit
lin{v1 } = lin{f1 }.
Nehmen wir an, dass wir bereits ein Orthonormalsystem f1 , . . . , fk mit

lin{v1 , . . . , vk } = lin{f1 , . . . , fk }

konstruiert haben (k < n); wir setzen

k
gk+1 = vk+1 − vk+1 , fj "fj . (6.2.1)
j =1

Dann steht gk+1 senkrecht auf {f1 , . . . , fk }:


122 6 Innenprodukträume

k
gk+1 , fl " = vk+1 , fl " − vk+1 , fj " fj , fl "
j =1

= vk+1 , fl " − vk+1 , fl " = 0.

Ferner ist

gk+1 ∈ lin{vk+1 , f1 , . . . , fk } = lin{vk+1 , v1 , . . . , vk }

und gk+1 = 0, da sonst

k
vk+1 = vk+1 , fj "fj ∈ lin{f1 , . . . , fk } = lin{v1 , . . . , vk },
j =1

was der linearen Unabhängigkeit der vj widerspricht.


Daher können wir fk+1 = gk+1 /$gk+1 $ definieren, und es ist (siehe oben)

lin{f1 , . . . , fk+1 } ⊂ lin{v1 , . . . , vk+1 }.

Umgekehrt ist konstruktionsgemäß vk+1 ∈ lin{f1 , . . . , fk+1 } und deshalb

lin{v1 , . . . , vk+1 } ⊂ lin{f1 , . . . , fk+1 }.

Damit ist alles gezeigt. 

Mit Hilfe des Begriffs der Orthogonalprojektion und Satz 6.2.10 kann man die
Konstruktion in (6.2.1) geometrisch deuten; siehe Seite 126.
Manchmal ist es praktisch, die induktive Konstruktion in (6.2.1) mit Hilfe der gj zu
formulieren; dann lautet diese Formel

k
vk+1 , gj "
gk+1 = vk+1 − gj .
gj , gj "
j =1

Beispiel 6.2.5 In C3 mit dem euklidischen Skalarprodukt betrachten wir die Vektoren
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
1 1 1
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
v1 = ⎝ i ⎠ , v2 = ⎝ 0 ⎠ , v3 = ⎝ 0 ⎠ ,
i −i 1

auf die das Gram-Schmidt-Verfahren angewandt werden soll. Es ist $v1 $ = 3, also
6.2 Orthonormalbasen 123

⎛ ⎞
1
1 ⎜ ⎟
f1 = √ ⎝ i ⎠ .
3
i

Dann berechnet man g2 = v2 − v2 , f1 "f1 = v2 und $g2 $ = 2, also
⎞⎛
1
1 ⎜ ⎟
f2 = √ ⎝ 0 ⎠ .
2
−i

Schließlich ist

1 1
g3 = v3 − v3 , f1 "f1 − v3 , f2 "f2 = v3 − √ (1 − i)f1 − √ (1 + i)f2 ,
3 2

so dass nach kurzer Rechnung


⎛ ⎞
1−i
1⎜ ⎟ 1
g3 = ⎝ −2 − 2i ⎠ , $g3 $ = √
6 3
1+i

folgt, also
⎛ ⎞
1−i
1 ⎜ ⎟
f3 = √ ⎝ −2 − 2i ⎠ .
2 3
1+i

Korollar 6.2.6 Jeder endlichdimensionale Innenproduktraum besitzt eine Orthonormal-


basis.

Beweis Wenn man auf eine geordnete Basis das Gram-Schmidt-Verfahren anwendet,
erhält man ein Orthonormalsystem mit derselben linearen Hülle, also (Lemma 6.2.3) eine
Orthonormalbasis. 

In der Funktionalanalysis studiert man Orthonormalbasen unendlichdimensionaler


Innenprodukträume (vgl. die auf Definition 6.2.1 folgende Bemerkung); es ist dann nicht
mehr richtig, dass jeder unendlichdimensionale Innenproduktraum eine Orthonormalbasis
besitzt.2

2 J. Dixmier, Sur les bases orthonormales dans les espaces préhilbertiens. Acta Sci. Math. 15 (1953),
29–30.
124 6 Innenprodukträume

Sei f1 , . . . , fn eine Orthonormalbasis des Innenproduktraums V ; jedes v ∈ V hat eine


eindeutige Darstellung v = λ1 f1 +· · ·+λn fn . Wir wollen die Koeffizienten λj berechnen.
Es ist

v, fj " = λ1 f1 + · · · + λn fn , fj "
= λ1 f1 , fj " + · · · + λn fn , fj " = λj ,

da die fl orthonormal sind. Damit ist der folgende Satz gezeigt; der Zusatz folgt aus dem
Satz von Pythagoras, siehe (6.1.1) auf Seite 120.

Satz 6.2.7 Ist V ein Innenproduktraum mit Orthonormalbasis f1 , . . . , fn , so gilt für


v∈V
n
v= v, fj "fj .
j =1

Ferner ist
n
$v$2 = | v, fj "|2 .
j =1

In Abschn. 3.3 haben wir die Matrix MAB = (mlj ) des Basiswechsels von einer
geordneten Basis A zu einer anderen geordneten Basis B studiert; wir wollen jetzt
speziell die Situation von Orthonormalbasen A = (f1 , . . . , fn ) und B = (g1 , . . . , gn )

ansehen. Aus Satz 3.3.8 wissen wir, dass fj = nl=1 mlj gl gilt, und Satz 6.2.7 impliziert
mlj = fj , gl ". Daraus werden wir folgenden Satz schließen.

Satz 6.2.8 Sind A = (f1 , . . . , fn ) und B = (g1 , . . . , gn ) Orthonormalbasen des Innen-


produktraums V, so bilden sowohl die Spalten als auch die Zeilen der Matrix MAB des
Basiswechsels eine Orthonormalbasis von Kn .

Beweis Die Matrix MAB habe die Spalten s1 , . . . , sn . Dann ist

n n
sj , sk "e = mlj mlk = fj , gl " fk , gl "
l=1 l=1
n % n &
= fj , gl " gl , fk " = fj , gl "gl , fk = fj , fk ".
l=1 l=1

Das war zu zeigen.


Die Aussage über die Zeilen ergibt sich, wenn man mjl = mlj beachtet. 
6.2 Orthonormalbasen 125

Eine Matrix mit den in Satz 6.2.8 ausgesprochenen Eigenschaften wird orthogonale
Matrix (K = R) bzw. unitäre Matrix (K = C) genannt; wir werden solchen Matrizen in
Abschn. 6.3 wieder begegnen.
Es folgt einer der wichtigsten Sätze über Innenprodukträume, der Projektionssatz.

Satz 6.2.9 Ist U ein endlichdimensionaler Unterraum eines Innenproduktraums V, so gilt

V = U ⊕ U ⊥.

Beweis Wir beginnen mit einer allgemeinen Vorüberlegung. Eine lineare Abbildung
P : V → V auf einem Vektorraum heißt Projektion, wenn P 2 = P gilt; in diesem Fall ist
V = ran(P ) ⊕ ker(P ). [Schreibe nämlich einen Vektor v ∈ V als v = P (v) + (v − P (v));
dann ist P (v) ∈ ran(P ) (klar) und v − P (v) ∈ ker(P ), da ja P (v − P (v)) =
P (v) − P 2 (v) = P (v) − P (v) = 0 ist. Das zeigt die Summendarstellung. Die Summe
ist direkt, da aus w ∈ ran(P ) ∩ ker(P ) die Existenz eines v ∈ V mit w = P (v) und
0 = P (w) = P 2 (v) = P (v) folgt, so dass w = 0 sein muss.]
Sei jetzt f1 , . . . , fn eine Orthonormalbasis von U (Korollar 6.2.6). Wir definieren

n
PU : V → V , PU (v) = v, fj "fj .
j =1

Dann ist PU linear mit PU2 = PU , denn

n n % n &
PU (PU (v)) = PU (v), fj "fj = v, fk "fk , fj fj
j =1 j =1 k=1
n n n n
= v, fk " fk , fj "fj = v, fk " fk , fj "fj
j =1 k=1 k=1 j =1
n
= v, fk "fk = PU (v).
k=1

Aus der Vorüberlegung folgt somit

V = ran(PU ) ⊕ ker(PU ).

Es bleibt daher, ran(PU ) = U und ker(PU ) = U ⊥ zu zeigen. Hier ist ran(PU ) ⊂ U


klar, und nach Satz 6.2.7 ist PU (u) = u für u ∈ U ; also gilt Gleichheit. Weiterhin liefert
PU (v) = 0, dass für jedes k
126 6 Innenprodukträume

n % n &
0 = PU (v), fk " = v, fj " fj , fk " = v, fj , fk "fj = v, fk "
j =1 j =1

und daher v ∈ {f1 , . . . , fn }⊥ = U ⊥ (Lemma 6.1.4(a)) gilt. Das zeigt ker(PU ) ⊂ U ⊥ . Die
Umkehrung ist klar: Für v ∈ U ⊥ ist stets v, fj " = 0 und deshalb PU (v) = 0.
Damit ist alles gezeigt. 

Die im Beweis konstruierte Abbildung PU heißt die Orthogonalprojektion von V auf


U ; für PU sind Bild und Kern orthogonal. Wegen seiner Bedeutung rekapitulieren wir
daher das oben bewiesene Resultat noch einmal in dieser Sprache.

Satz 6.2.10 Sei V ein Innenproduktraum und U ⊂ V ein endlichdimensionaler Unter-


raum mit Orthonormalbasis f1 , . . . , fn . Dann definiert

n
PU (v) = v, fj "fj
j =1

die Orthogonalprojektion von V auf U .

Die Konstruktion im Gram-Schmidt-Verfahren lässt sich mit Hilfe dieses Satzes so


deuten, dass in (6.2.1)

gk+1 = vk+1 − PUk (vk+1 )

gesetzt wird, wo Uk = lin{f1 , . . . , fk } ist.

Beispiel 6.2.11 Seien


⎛ ⎞ ⎛ ⎞
1 3
⎜ ⎟ ⎜ ⎟
⎜2⎟ ⎜4⎟
v1 = ⎜ ⎟ ∈ R4 , v2 = ⎜ ⎟ ∈ R4
⎝2⎠ ⎝2⎠
1 3

und U = lin{v1 , v2 } ⊂ R4 . Was ist der Orthogonalraum U ⊥ ? Nach Lemma 6.1.4(a) ist
x ∈ U ⊥ genau dann, wenn x, v1 " = 0 und x, v2 " = 0. Das führt auf das Gleichungs-
system Bx = 0 mit der Matrix

1221
B= .
3423
6.2 Orthonormalbasen 127

Durch Zeilenumformung erhält man

1 2 21
B; ,
0 −2 −4 0

und die Lösungen von Bx = 0 sind von der Form


⎛ ⎞ ⎛ ⎞ ⎛ ⎞
2s − t 2 −1
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ −2s ⎟ ⎜ −2 ⎟ ⎜ 0⎟
x=⎜ ⎟=s⎜ ⎟+t⎜ ⎟ =: sw1 + tw2 .
⎝ s ⎠ ⎝ 1⎠ ⎝ 0⎠
t 0 1

Also ist U ⊥ = lin{w1 , w2 }. Wir werden in Beispiel 6.3.9 einen zweiten Blick auf dieses
Beispiel werfen.

Wir halten ein wichtiges Korollar aus Satz 6.2.9 fest.

Korollar 6.2.12 Ist V ein Innenproduktraum und U ⊂ V ein endlichdimensionaler


Unterraum, so gilt U ⊥⊥ = U .

Beweis Die Inklusion U ⊂ U ⊥⊥ gilt nach Definition. Sei nun v ∈ U ⊥⊥ , und zerlege v
gemäß Satz 6.2.9 als v = u + u⊥ ∈ U ⊕ U ⊥ . Da v ∈ U ⊥⊥ ist, folgt

0 = v, u⊥ " = u, u⊥ " + u⊥ , u⊥ " = u⊥ , u⊥ ".

Also ist u⊥ = 0, d. h. v = u ∈ U , was zu zeigen war. 

Der abschließende Satz dieses Abschnitts widmet sich der Darstellung von linearen
Funktionalen auf einem endlichdimensionalen Innenproduktraum.

Satz 6.2.13 Sei V ein endlichdimensionaler Innenproduktraum, und sei : V → K linear.


Dann existiert ein eindeutig bestimmter Vektor v ∈ V mit

(v) = v, v " für alle v ∈ V .

Beweis Sei f1 , . . . , fn eine Orthonormalbasis von V, mit Satz 6.2.7 schreiben wir ein

Element v ∈ V in der Form v = nj=1 v, fj "fj . Daher ist

n % n &
(v) = v, fj "(fj ) = v, (fj )fj ;
j =1 j =1
128 6 Innenprodukträume


setze also v = nj=1 (fj )fj .
Die Eindeutigkeit ist klar: v, v " = v, ṽ " für alle v ∈ V bedeutet v − ṽ ∈ V ⊥ = {0}.


In der Funktionalanalysis lernt man die unendlichdimensionale Version dieses Satzes


kennen, wenn V ein Hilbertraum ist. In diesem Kontext heißt Satz 6.2.13 Satz von Fréchet-
Riesz.

6.3 Lineare Abbildungen auf Innenprodukträumen

Seien (V , . , . "V ) und (W, . , . "W ) Innenprodukträume über demselben Skalarenkörper


K ∈ {R, C}, und sei L: V → W eine lineare Abbildung. Wir versuchen, L eine neue
lineare Abbildung L∗ : W → V zuzuordnen, die

Lv, w"W = v, L∗ w"V für alle v ∈ V , w ∈ W (6.3.1)

erfüllt; hier wie im Folgenden schreiben wir häufig, einer verbreiteten Konvention folgend,
Lv statt L(v) etc. Das Zusammenspiel von L und L∗ wird zu vielen neuen Erkenntnissen
führen; siehe Kap. 8.
Um L∗ definieren zu können, müssen wir allerdings voraussetzen, dass V endlichdi-
mensional ist. Wir gehen dann so vor: Für festes w ∈ W betrachte

w : V → K, w (v) = Lv, w"W .

Dies ist eine lineare Abbildung auf dem endlichdimensionalen Innenproduktraum V; also
existiert nach Satz 6.2.13 ein eindeutig bestimmter Vektor vw ∈ V mit

Lv, w"W = v, vw "V für alle v ∈ V .

Der Beweis von Satz 6.2.13 zeigt auch, wie vw aussieht; ist nämlich f1 , . . . , fn eine
Orthonormalbasis von V, so gilt

n n n
vw = w (fj )fj = Lfj , w"W fj = w, Lfj "W fj .
j =1 j =1 j =1

Setzt man
n
L∗ : W → V , L∗ (w) = w, Lfj "W fj , (6.3.2)
j =1
6.3 Lineare Abbildungen auf Innenprodukträumen 129

so sieht man, dass (6.3.1) erfüllt ist und L∗ linear sowie wegen der Eindeutigkeitsaussage
in Satz 6.2.13 eindeutig bestimmt ist.
Wir halten als Resultat dieser Diskussion fest:

Satz 6.3.1 Seien (V , . , . "V ) ein endlichdimensionaler Innenproduktraum, (W, . , . "W )


ein beliebiger Innenproduktraum über K, und sei L ∈ L (V , W ). Dann existiert eine
eindeutig bestimmte lineare Abbildung L∗ ∈ L (W, V ) mit

Lv, w"W = v, L∗ w"V für alle v ∈ V , w ∈ W.

Definition 6.3.2 Die im vorigen Satz beschriebene Abbildung L∗ heißt die zu L adjun-
gierte Abbildung.

Beispiele 6.3.3
(a) Sei V = Pol<n ([0, 1]) der R-Vektorraum aller Polynomfunktionen auf [0, 1] vom
Grad < n. Zu f ∈ V betrachten wir das j -te Moment (j ∈ N0 )
 1
fj# = t j f (t) dt.
0

Sei
⎛ ⎞
f0#
⎜ . ⎟
L: V → Rn , L(f ) = ⎜ ⎟
⎝ .. ⎠ ;
#
fn−1

klarerweise ist L linear. Nun trage V das Skalarprodukt


 1
f, g"V = f (t)g(t) dt
0

und Rn das euklidische Skalarprodukt. Was ist L∗ : Rn → V ? Für f ∈ V und y ∈ Rn


rechnet man

n−1 n−1  1  1 n−1


L(f ), y" = fj# yj = t j f (t) dt ·yj = f (t) yj t j dt = f, L∗ (y)"V
j =0 j =0 0 0 j =0

 n−1
mit (L∗ y)(t) = n−1 j ∗
j =0 yj t , also L (y) = j =0 yj x ∈ Pol<n ([0, 1]).
j

(b) Sei A = (aj k ) eine reelle m×n-Matrix; wir versehen Rm und Rn mit dem euklidischen
Skalarprodukt. Wir wollen die zu LA : Rn → Rm adjungierte Abbildung bestimmen.
130 6 Innenprodukträume

Dazu seien x ∈ Rn und y ∈ Rm mit den Koordinaten (xk ) bzw. (yj ) vorgelegt. Dann
ist (zur Erinnerung: At bezeichnet die transponierte Matrix)

m n
LA (x), y" = Ax, y" = aj k xk yj
j =1 k=1
n m
= xk aj k yj = x, At y" = x, LAt (y)"
k=1 j =1

und deshalb (LA )∗ = LAt .


(c) Nun sei A eine komplexe m×n-Matrix, und wir wollen die Adjungierte zu LA : Cn →
Cm (jeweils mit dem euklidischen Skalarprodukt) studieren. Dann sieht die Rechnung
so aus:
m n n m
LA (x), y" = Ax, y" = aj k xk yj = xk aj k yj .
j =1 k=1 k=1 j =1

∗ = a . Diese Zahlen bilden die Einträge einer n × m-Matrix A∗ , kurz


Setze nun akj jk
A∗ = At , und es gilt

n m n m
LA (x), y" = xk ∗ y
akj = xk ∗ y = x, A∗ y" = x, L ∗ (y)"
akj
j j A
k=1 j =1 k=1 j =1

sowie (LA )∗ = LA∗ .

Die letzten beiden Beispiele suggerieren die folgende Definition.

Definition 6.3.4
(a) Die adjungierte Matrix A∗ einer reellen Matrix A ∈ Rm×n ist die transponierte Matrix
At ∈ Rn×m .
(b) Die adjungierte Matrix A∗ einer komplexen Matrix A ∈ Cm×n ist die konjugiert-
transponierte Matrix At ∈ Cn×m .

Explizit heißt das für die Einträge der Matrix A∗ , wenn A = (aj k ): In Zeile k und
Spalte j von A∗ steht aj k (reeller Fall) bzw. aj k (komplexer Fall); z. B.

1 2 1 1−i 1 1+i
A= , At = , A∗ = .
1−i i 2 i 2 −i
6.3 Lineare Abbildungen auf Innenprodukträumen 131

Die Aussage von Beispiel 6.3.3(b) und (c) ist also (LA )∗ = LA∗ . Ein entsprechender
Zusammenhang kann zwischen (adjungierten) linearen Abbildungen und den darstellen-
den Matrizen bzgl. gegebener Orthonormalbasen bewiesen werden. (Zur Notation siehe
Definition 3.3.1.)

Satz 6.3.5 Seien V und W endlichdimensionale Innenprodukträume mit Orthonormalba-


sen A = (f1 , . . . , fn ) bzw. B = (g1 , . . . , gm ). Sei L ∈ L (V , W ) mit darstellender Matrix
M = M(L; A, B). Dann ist

M(L∗ ; B, A) = M ∗ ,

d. h. die darstellende Matrix der Adjungierten von L ist die Adjungierte der darstellenden
Matrix von L.

Beweis Um den Eintrag in der k-ten Zeile und j -ten Spalte von M(L∗ ; B, A) zu bestim-
men, muss man L∗ (gj ) in die Basis f1 , . . . , fn entwickeln und den k-ten Koeffizienten
nehmen. Nach Satz 6.2.7 ist das

L∗ (gj ), fk "V = fk , L∗ (gj )"V = L(fk ), gj "W ,

und L(fk ), gj "W ist der j -te Eintrag in der k-ten Spalte von M. Das war zu zeigen. 

Für das Rechnen mit adjungierten Abbildungen und Matrizen hat man folgende
Aussagen (im reellen Fall entfällt das Komplexkonjugieren).

Satz 6.3.6 Seien V , W endlichdimensionale Innenprodukträume, L, L1 , L2 ∈ L (V , W )


und α ∈ K. Dann gelten:
(a) (L1 + L2 )∗ = L∗1 + L∗2 .
(b) (αL)∗ = αL∗ .
(c) L∗∗ = L.
(d) det(L∗ ) = det(L).
Analoge Aussagen gelten für Matrizen.

Beweis (a) und (b) folgen unmittelbar aus der Definition (vgl. (6.3.2)).
(c) ergibt sich aus L∗ (w), v" = w, L∗∗ (v)" (nach Definition von L∗∗ ) und
L∗ (w), v" = v, L∗ (w)" = L(v), w" = w, L(v)" (die zweite Gleichheit fußt auf
der Definition von L∗ ); das zeigt L∗∗ (v) − L(v) ∈ W ⊥ = {0} für alle v ∈ V, also
L∗∗ = L.
(d) folgt aus Satz 4.2.7 und (4.2.1) auf Seite 80, letztere Gleichung ist mit Einträgen
aus C zu lesen.
132 6 Innenprodukträume

Die Aussagen lassen sich wegen (LA )∗ = LA∗ von den linearen Abbildungen auf
Matrizen übertragen. 

Satz 6.3.7 Seien V , W, Z endlichdimensionale Innenprodukträume und L1 ∈ L (V , Z),


L2 ∈ L (Z, W ). Dann ist

(L2 ◦ L1 )∗ = L∗1 ◦ L∗2 .

Eine analoge Aussage gilt für Matrizen.

Beweis Es ist für alle v ∈ V , w ∈ W

(L2 L1 )(v), w"W = L1 (v), L∗2 (w)"Z = v, (L∗1 L∗2 )(w)"V

und definitionsgemäß

(L2 L1 )(v), w"W = v, (L2 L1 )∗ (w)"V .

Wie im letzten Beweis schließt man (L2 L1 )∗ = L∗1 L∗2 . 

Es besteht folgender Zusammenhang zwischen Kern und Bild von L und L∗ ; dies ist
ein erstes Beispiel für die Wechselwirkung von L und L∗ .

Satz 6.3.8 Seien V und W endlichdimensionale Innenprodukträume und L ∈ L (V , W ).


(a) ker(L) = (ran(L∗ ))⊥ .
(b) ker(L∗ ) = (ran(L))⊥ .
(c) ran(L) = (ker(L∗ ))⊥ .
(d) ran(L∗ ) = (ker(L))⊥ .
Insbesondere ist L genau dann injektiv, wenn L∗ surjektiv ist, und L ist genau dann
surjektiv, wenn L∗ injektiv ist.

Beweis
(a) Sei zuerst v ∈ ker(L) sowie v  ∈ ran(L∗ ), also v  = L∗ (w) für ein geeignetes w.
Dann ist v, v  " = v, L∗ (w)" = L(v), w" = 0, w" = 0, also v ∈ (ran(L∗ ))⊥ .
Nun sei umgekehrt v ∈ (ran(L∗ ))⊥ , also v, L∗ (w)" = 0 für alle w ∈ W . Dann ist
L(v), w" = 0 für alle w ∈ W und deshalb L(v) = 0, d. h. v ∈ ker(L).
(b) folgt, wenn man (a) auf L∗ anwendet und L∗∗ = L beachtet.
(c) und (d) folgen aus (b) und (a), wenn man U ⊥⊥ = U benutzt (Korollar 6.2.12). 

Beispiel 6.3.9 Wir können Satz 6.3.8 benutzen, um Orthogonalräume zu berechnen. Dazu
betrachten wir noch einmal Beispiel 6.2.11. Sei A = (v1 v2 ) die 4 × 2-Matrix mit
6.3 Lineare Abbildungen auf Innenprodukträumen 133

den Spalten v1 und v2 aus diesem Beispiel. Dann ist U = lin{v1 , v2 } = ran(LA ) und
deshalb U ⊥ = (ran(LA ))⊥ = ker(LA∗ ); U ⊥ ist also der Lösungsraum des homogenen
Gleichungssystems A∗ x = 0. Deshalb tauchte in Beispiel 6.2.11 die 2 × 4-Matrix B = A∗
mit den Zeilen v1t und v2t auf.

Im Weiteren werden einige spezielle Klassen von Abbildungen bzw. Matrizen eine
Rolle spielen, die wir jetzt einführen.

Definition 6.3.10 Sei V ein endlichdimensionaler Innenproduktraum.


(a) Eine lineare Abbildung L ∈ L (V ) heißt normal, wenn LL∗ = L∗ L.
(b) Eine lineare Abbildung L ∈ L (V ) heißt selbstadjungiert, wenn L = L∗ .
Analoge Begriffe werden für quadratische Matrizen eingeführt.

Offensichtlich ist jede selbstadjungierte Abbildung bzw. Matrix normal, und aus
Satz 6.3.5 ergibt sich, dass eine lineare Abbildung genau dann normal bzw. selbstadjun-
giert ist, wenn es ihre bzgl. einer Orthonormalbasis darstellende Matrix ist.
Im reellen Fall sind die selbstadjungierten Matrizen genau die symmetrischen (aj k =
akj für alle j und k). Ein Beispiel einer nicht normalen Matrix ist

01 00 10
A= : A∗ A = = = AA∗ .
00 01 00

Selbstadjungierte komplexe Matrizen werden auch hermitesch genannt (nach Charles


Hermite). Jede Abbildung der Form L∗ L (bzw. LL∗ ) und jede Matrix der Form A∗ A
(bzw. AA∗ ) ist selbstadjungiert, wie aus Satz 6.3.6(c) und 6.3.7 folgt.

Beispiel 6.3.11 Orthogonalprojektionen sind Beispiele selbstadjungierter Abbildungen.


Es sei U ein Unterraum eines endlichdimensionalen Innenproduktraums V, und sei PU die
Orthogonalprojektion von V auf U . Nach Satz 6.2.10 hat PU die Gestalt

n
PU (v) = v, fj "fj ,
j =1

wenn f1 , . . . , fn eine Orthonormalbasis von U ist. Dann ist

n % n &
PU (v), w" = v, fj " fj , w" = v, fj , w"fj
j =1 j =1

% n &
= v, w, fj "fj = v, PU (w)".
j =1
134 6 Innenprodukträume

Jede lineare Abbildung L ∈ L (V ) auf einem komplexen endlichdimensionalen In-


nenproduktraum lässt sich in selbstadjungierte zerlegen: Setze nämlich L1 = 12 (L + L∗ ),
L2 = 2i1 (L − L∗ ); dann sind L1 und L2 selbstadjungiert, und es gilt L = L1 + iL2 . L
ist genau dann normal, wenn L1 und L2 kommutieren: L1 L2 = L2 L1 . Man beachte, dass
L eine komplexe Linearkombination aus L1 und L2 ist; es ist eine wichtige Bemerkung,
dass die Menge H (V ) der selbstadjungierten L ∈ L (V ) einen R-Vektorraum bildet (aber
keinen C-Vektorraum). Dasselbe gilt für selbstadjungierte Matrizen.
Die obige Zerlegung L = L1 + iL2 erinnert an die Zerlegung einer komplexen Zahl
in Real- und Imaginärteil; die selbstadjungierten L entsprechen in diesem Bild den reellen
Zahlen. Die Analogie L (V ) ↔ C und H (V ) ↔ R erweist sich als erstaunlich tragfähig
(siehe z. B. Satz 8.4.3).
In Definition 6.1.6 haben wir zu einem Skalarprodukt eine Norm assoziiert (vgl.
Satz 6.1.7), die wir jetzt zur Charakterisierung normaler Abbildungen und Matrizen
heranziehen wollen.

Satz 6.3.12 Sei V ein endlichdimensionaler Innenproduktraum, und sei L ∈ L (V ). Dann


sind folgende Bedingungen äquivalent:
(i) L ist normal.
(ii) Lv, Lw" = L∗ v, L∗ w" für alle v, w ∈ V.
(iii) $Lv$ = $L∗ v$ für alle v ∈ V.
Analoge Aussagen gelten für Matrizen.

Beweis
(i) ⇒ (ii): Es ist, wenn L normal ist,

Lv, Lw" = v, L∗ Lw" = v, LL∗ w" = L∗ v, L∗ w".

(ii) ⇒ (iii): Setze v = w.


(iii) ⇒ (ii): Wir bearbeiten zuerst den Fall K = R. Seien v, w ∈ V. Wir wenden (iii)
auf v + w an und erhalten

L(v + w), L(v + w)" = $L(v + w)$2 = $L∗ (v + w)$2 = L∗ (v + w), L∗ (v + w)".

Ausrechnen liefert

L(v), L(v)" + 2 L(v), L(w)" + L(w), L(w)" =


L∗ (v), L∗ (v)" + 2 L∗ (v), L∗ (w)" + L∗ (w), L∗ (w)"

und deshalb wegen $L(v)$ = $L∗ (v)$, $L(w)$ = $L∗ (w)$

Lv, Lw" = L∗ v, L∗ w".


6.3 Lineare Abbildungen auf Innenprodukträumen 135

Im Fall K = C ist das Skalarprodukt nur konjugiert-symmetrisch, deshalb ist in einem


komplexen Innenproduktraum x, y" + y, x" = 2Re x, y", und das obige Argument zeigt

Re Lv, Lw" = Re L∗ v, L∗ w" für alle v, w ∈ V .

Schreibt man diese Zeile erneut für iw statt w hin, erhält man nun wegen Re x, iy" =
−Re i x, y" = Im x, y" auch

Im Lv, Lw" = Im L∗ v, L∗ w" für alle v, w ∈ V .

(ii) ⇒ (i): Wegen (ii) ist v, L∗ L(w)" = v, LL∗ (w)" für alle v, w ∈ V, also stets
L∗ L(w) = LL∗ (w), und L ist normal. 

Die im Beweis angewandte Technik, v + w zu betrachten, nennt man Polarisierung.

Korollar 6.3.13 Für eine normale lineare Abbildung ist ker(L) = ker(L∗ ).

Die Nomenklatur für die als nächstes zu definierenden Abbildungen bzw. Matrizen
unterscheidet sich im reellen und komplexen Fall.

Definition 6.3.14 Seien V und W endlichdimensionale Innenprodukträume mit


dim(V ) = dim(W ), und sei L ∈ L (V , W ). Dann heißt L orthogonal (K = R) bzw.
unitär (K = C), wenn

Lv1 , Lv2 "W = v1 , v2 "V für alle v1 , v2 ∈ V .

Entsprechend heißt eine n × n-Matrix A orthogonal bzw. unitär, wenn

Ax, Ay" = x, y" für alle x, y ∈ Kn .

Satz 6.3.15 Seien V und W endlichdimensionale Innenprodukträume mit dim(V ) =


dim(W ), und sei L ∈ L (V , W ). Dann sind äquivalent:
(i) L ist orthogonal/unitär.
(ii) $L(v)$W = $v$V für alle v ∈ V .
(iii) L ist invertierbar mit L−1 = L∗ .
(iv) Die darstellende Matrix bzgl. zweier Orthonormalbasen von V bzw. W ist orthogo-
nal/unitär.

Beweis (i) ⇔ (ii): Das geht genauso wie (ii) ⇔ (iii) in Satz 6.3.12; bitte schreiben Sie die
Details auf!
136 6 Innenprodukträume

(i)/(ii) ⇒ (iii): Aus (ii) ergibt sich sofort, dass L injektiv ist, und wegen der Vorausset-
zung dim(V ) = dim(W ) ist L auch surjektiv, denn

dim(W ) = dim(V ) = dim ker L + dim ran L = dim ran L.

Eine Anwendung von (i) zeigt für alle v1 ∈ V und w2 = Lv2 ∈ W

v1 , L∗ w2 "V = Lv1 , w2 "W = Lv1 , Lv2 "W = v1 , v2 "V = v1 , L−1 w2 "V ,

also L∗ w2 = L−1 w2 für alle w2 ∈ W , d. h. L∗ = L−1 .


(iii) ⇒ (i): Man lese die letzte Rechnung rückwärts:

v1 , v2 "V = v1 , L−1 w2 "V = v1 , L∗ w2 "V = Lv1 , w2 "W = Lv1 , Lv2 "W .

(iii) ⇔ (iv): Sei M eine solche darstellende Matrix; dann gilt M −1 = M ∗ genau dann,
wenn L−1 = L∗ , und dass dann Mx, My" = x, y" folgt, wurde gerade im Beweis von
(iii) ⇒ (i) nachgerechnet. 

In der Sprache der Matrizen lautet der letzte Satz so.

Korollar 6.3.16 Sei A eine reelle oder komplexe n × n-Matrix. Dann sind äquivalent:
(i) A ist orthogonal/unitär.
(ii) $Ax$ = $x$ für alle x ∈ Kn .
(iii) A ist invertierbar mit A−1 = A∗ .
(iv) Die Zeilen von A bilden eine Orthonormalbasis von Kn .
(v) Die Spalten von A bilden eine Orthonormalbasis von Kn .

Dass (iv) bzw. (v) zu (iii) äquivalent ist, sieht man, wenn man die Gleichungen AA∗ =
En = A∗ A ausschreibt: Hat nämlich A die Spalten s1 , . . . , sn und die Zeilen z1 , . . . , zn ,
so steht in der j -ten Zeile und l-ten Spalte der Matrix A∗ A die Zahl (die Notation sollte
selbsterklärend sein)

n n
(A∗ )j k akl = akl akj = sl , sj "e ;
k=1 k=1

analog steht in der j -ten Zeile und l-ten Spalte der Matrix AA∗ die Zahl zj , zl "e
(hier werden die Zeilen als (normale Spalten-)Vektoren in Cn interpretiert). Es bleibt,
Lemma 1.5.5 anzuwenden.
Wir wollen die Abbildungseigenschaften orthogonaler Transformationen (im Fall
K = R) geometrisch beschreiben. Seien v, w ∈ V \ {0}. Nach der Cauchy-Schwarzschen
Ungleichung ist
6.4 Aufgaben 137

v, w"
∈ [−1, 1],
$v$ $w$

daher existiert ein eindeutig bestimmter Winkel α ∈ [0, π ] mit

v, w"
= cos α. (6.3.3)
$v$ $w$

Insofern ist v, w" (genauer $v$ v w


, $w$ ") ein Maß für den Winkel zwischen den Vek-
toren v und w. Definitionsgemäß ist eine orthogonale Transformation winkeltreu, nach
Satz 6.3.15(ii) ist das äquivalent zur Längentreue.
Wichtige Beispiele orthogonaler Matrizen sind die Drehmatrizen der Form

cos ϕ − sin ϕ
D(ϕ) = ;
sin ϕ cos ϕ

diese haben die Determinante 1. (In der Tat hat jede orthogonale 2 × 2-Matrix mit
Determinante 1 diese Form; das wird in Satz 9.2.1 gezeigt.) Geometrisch bewirkt D(ϕ)
eine Drehung in der Ebene um den Winkel ϕ.

6.4 Aufgaben

Aufgabe 6.4.1 Seien α1 , . . . , αn ∈ C. Bestimmen Sie Bedingungen an die αj , die


gleichzeitig notwendig und hinreichend dafür sind, dass

n
(x, y) → x, y"α := αj xj yj
j =1

ein Skalarprodukt auf Cn ist.

Aufgabe 6.4.2 Sei V ein Innenproduktraum über R oder C mit Skalarprodukt . , . " und
abgeleiteter Norm $ . $. Zeigen Sie für v, w ∈ V die Parallelogrammgleichung

$v + w$2 + $v − w$2 = 2$v$2 + 2$w$2 .

Aufgabe 6.4.3 Betrachten Sie die symmetrische Matrix

ab
A= ∈ R2×2
bd

sowie die Abbildung


138 6 Innenprodukträume

R2 × R2 → R, (x, y) → x, Ay"e

mit dem euklidischen Skalarprodukt . , . "e ; vgl. Beispiel 6.1.2(b). Zeigen Sie, dass es
sich genau dann um ein Skalarprodukt handelt, wenn a > 0 und det(A) > 0 sind.

Aufgabe 6.4.4
(a) In einem reellen Innenproduktraum mit abgeleiteter Norm $ . $ seien zwei Vektoren
mit $v + w$ = $v − w$ gegeben. Zeigen Sie, dass v und w orthogonal sind.
(b) Zeigen Sie, dass die Aussage von (a) in einem komplexen Innenproduktraum im
Allgemeinen falsch ist.

Aufgabe 6.4.5 Seien U1 und U2 Unterräume des Innenproduktraums V. Zeigen Sie

(U1 + U2 )⊥ = U1⊥ ∩ U2⊥ .

Aufgabe 6.4.6 Betrachten Sie den R-Vektorraum Pol<3 ([0, 1]) der Polynomfunktionen
auf [0, 1] vom Grad < 3, der mit dem Skalarprodukt aus Beispiel 6.1.2(c) versehen
wird. Wenden Sie das Gram-Schmidt-Verfahren auf die Basis 1, x, x2 an, um eine
Orthonormalbasis von Pol<3 ([0, 1]) zu bestimmen.

Aufgabe 6.4.7 Auf dem Vektorraum V der quadratischen Polynome über R betrachte
man das Skalarprodukt
 1
f, g" = f (t)g(t) dt.
−1

Bestimmen Sie eine Orthonormalbasis von V.

Aufgabe 6.4.8 Der Rechts-Shift L: Cn → Cn ist durch


⎛ ⎞ ⎛ ⎞
x1 0
⎜ ⎟ ⎜ ⎟
⎜ x2 ⎟ ⎜ x1 ⎟
⎜ . ⎟→⎜ ⎟
⎜ . ⎟ ⎜ .. ⎟
⎝ . ⎠ ⎝ . ⎠
xn xn−1

definiert. Bestimmen Sie L∗ , wenn


(a) Cn jeweils mit dem euklidischen Skalarprodukt versehen ist;
(b) Cn jeweils mit dem Skalarprodukt
6.4 Aufgaben 139

n
(x, y) → j xj yj
j =1

versehen ist.

Aufgabe 6.4.9 Es seien V und W endlichdimensionale Innenprodukträume und


L: V → W linear. Zeigen Sie nur mit Hilfe der Definitionen der auftretenden Begriffe: L
ist genau dann injektiv, wenn L∗ surjektiv ist.

Aufgabe 6.4.10 Seien V und W endlichdimensionale Innenprodukträume und L ∈


L (V , W ). Zeigen Sie
(a) dim ker L∗ = dim ker L + dim W − dim V,
(b) dim ran L∗ = dim ran L.

Aufgabe 6.4.11 Sei V ein endlichdimensionaler Innenproduktraum und L ∈ L (V )


normal. Zeigen Sie ran L = ran L∗ .

Aufgabe 6.4.12 Betrachten Sie den R-Vektorraum V := Pol<3 ([0, 1]) der Polynom-
funktionen auf [0, 1] vom Grad < 3, der mit dem Skalarprodukt aus Beispiel 6.1.2(c)
versehen wird. Sei L: V → V durch L(p) = p (0)x definiert. Zeigen Sie, dass L nicht
selbstadjungiert, aber die darstellende Matrix bezüglich der Basis 1, x, x2 symmetrisch
und deshalb selbstadjungiert ist. Warum ist das kein Widerspruch zum Kommentar zu
Definition 6.3.10?

Aufgabe 6.4.13 Auf dem Raum R4 betrachte man das Skalarprodukt

4
x, y"neu = j xj yj .
j =1

Bestimmen Sie eine Orthonormalbasis (bezüglich des obigen Skalarprodukts) des von den
Vektoren
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
4 1 1
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜3⎟ ⎜ −1 ⎟ ⎜1⎟
x = ⎜ ⎟, y=⎜ ⎟, z=⎜ ⎟
⎝2⎠ ⎝ 1⎠ ⎝1⎠
1 −1 1

aufgespannten Unterraums.
Eigenwerte und Normalformen
7

7.1 Nochmals Polynome

In diesem Kapitel werden wir das Eigenwertproblem für lineare Abbildungen und
Matrizen detailliert studieren. Aus Abschn. 4.4 wissen wir bereits, dass die Eigenwerte
genau die Nullstellen des charakteristischen Polynoms sind. Dort hatten wir den Körper
R zugrundegelegt, aber in Abschn. 5.1 wurde beobachtet, dass diese Aussage für Vektor-
räume über beliebigen Körpern gilt, allerdings muss man hier beim Begriff des Polynoms
Vorsicht walten lassen; Letzteres wurde in Abschn. 5.2 erklärt.
Da wir einstweilen über beliebigen Körpern rechnen wollen, fassen wir noch einmal
einige wichtige Punkte zusammen.

• Ein Polynom über einem Körper K ist eine endliche Folge von Elementen von K,
etwa (a0 , . . . , an ). Man schreibt ein Polynom P in der intuitiven Form

P (X) = an Xn + · · · + a1 X + a0 . (7.1.1)

• Die Menge K[X] aller Polynome über K trägt die Struktur eines K-Vektorraums. Die
kanonische Multiplikation auf K[X] (zur Präzisierung siehe (5.2.1) und (5.2.2) auf
Seite 102) führt zur Struktur eines Rings, sogar einer K-Algebra auf K[X].
• Ist an = 0 in (7.1.1), so hat P (X) den Grad n; in Zeichen deg(P ) = n (deg
wie degree). Definitionsgemäß hat das Nullpolynom den Grad −∞. Ein konstantes
Polynom ist ein solches mit deg(P ) ≤ 0. Es gilt deg(P +Q) ≤ max{deg(P ), deg(Q)}
und deg(P Q) = deg(P ) + deg(Q) (mit der Konvention −∞ + d = −∞).
• Insbesondere bei endlichen Körpern ist ein Polynom P von der assoziierten Polynom-
funktion

p: K → K, p(λ) = an λn + · · · + a1 λ + a0

© Der/die Autor(en), exklusiv lizenziert an Springer Nature Switzerland AG 2022 141


D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2_7
142 7 Eigenwerte und Normalformen

zu unterscheiden; p entsteht durch „Einsetzen“ eines Körperelements λ für die


sogenannte „Unbestimmte“ X. Die Abbildung

ψλ : K[X] → K, P → p(λ)

ist linear und multiplikativ.


• Eine Nullstelle von P ist ein μ ∈ K mit p(μ) = 0.
• Man kann nicht nur Körperelemente für X einsetzen, sondern z. B. quadratische
Matrizen A über K. Das führt zum Einsetzungshomomorphismus

ψA : K[X] → K m×m , P → P (A) = an An + · · · + a1 A + a0 ,

der linear und multiplikativ ist (vgl. Seite 105). Genauso kann man eine lineare
Abbildung L ∈ L (V ), V ein K-Vektorraum, für X einsetzen (und allgemeiner
Elemente einer K-Algebra).

Da wir im nächsten Abschnitt genauere Kenntnisse über Nullstellen von Polynomen


benötigen, sollen die entsprechenden Resultate jetzt entwickelt werden.
Im Folgenden bezeichnet K stets einen Körper. Wir beginnen mit der Division-mit-Rest
von Polynomen.

Satz 7.1.1 Seien P , Q ∈ K[X], Q = 0. Dann existieren eindeutig bestimmte Polynome


, R ∈ K[X] mit P = Q + R und deg(R) < deg(Q).

Beweis Wir betrachten die Menge P aller Polynome der Form P − Q,  ∈ K[X], und
in dieser Menge ein Polynom minimalen Grades. Dieses hat die Gestalt R := P − 0 Q,
und es bleibt, r := deg(R) < deg(Q) =: q zu zeigen.
Nehmen wir stattdessen d := r − q ≥ 0 an. Wir schreiben

Q(X) = αXq + · · · , R(X) = βXr + · · ·

(wo die Pünktchen für Terme niederer Ordnung stehen) mit α = 0 und betrachten
P − (0 + βα Xd )Q ∈ P. Dieses Polynom ist R − βα Xd Q, hat also kleineren Grad als R,
denn die Koeffizienten zur Potenz r heben sich weg. Dies widerspricht der Wahl von R,
und damit ist d < 0 bewiesen.
˜ + R̃ eine weitere Darstellung mit deg(R̃) < deg(Q).
Zur Eindeutigkeit: Sei P = Q
˜
Dann ist ( − )Q = R̃ − R und deg(R̃ − R) < deg(Q), aber, falls  =  ˜ wäre,
˜ ˜
deg(( − )Q) ≥ deg(Q). Es folgt  =  und R = R̃. 

Man kann die Existenz von  und R auch mit dem aus der Schule bekannten Verfahren
der Polynomdivision begründen, was aber etwas mühselig aufzuschreiben ist.
7.1 Nochmals Polynome 143

Wendet man diesen Satz mit Q(X) = X − μ an, erhält man

P (X) = (X)(X − μ) + R, (7.1.2)

wo R ein konstantes Polynom ist. Daher gilt:

Korollar 7.1.2 Ist μ eine Nullstelle des Polynoms P = 0, so existiert ein Polynom P1 ∈
K[X] mit deg(P1 ) = deg(P ) − 1 und

P (X) = P1 (X)(X − μ).

Beweis Sei in (7.1.2) R(X) = c mit c ∈ K. Da die Einsetzungsabbildungen ψλ linear und


multiplikativ sind, erhält man durch Einsetzen von λ

p(λ) = π(λ)(λ − μ) + c,

und da p(μ) = 0 ist, ist auch c = 0. Setze also P1 = . 

Sei nun μ eine Nullstelle von P (X), und schreibe P (X) = P1 (X)(X − μ) wie oben.
Dann können zwei Fälle eintreten: μ ist keine Nullstelle von P1 oder doch. Im letzten
Fall können wir weiter faktorisieren: P1 (X) = P2 (X)(X − μ). Dann können wieder zwei
Fälle eintreten: μ ist keine Nullstelle von P2 oder doch, etc. Da sich der Grad des Faktors
P1 , P2 , . . . stets echt verringert, erhält man folgende Aussage.

Korollar 7.1.3 Ist μ eine Nullstelle des Polynoms P = 0, so existieren eine eindeutig
bestimmte natürliche Zahl n = n(μ) und ein eindeutig bestimmtes Polynom P̃ , für das μ
keine Nullstelle ist, mit

P (X) = P̃ (X)(X − μ)n .

Definition 7.1.4 Die im letzten Korollar beschriebene Zahl n(μ) heißt die Vielfachheit
oder Ordnung der Nullstelle μ. Im Fall n(μ) = 1 heißt die Nullstelle einfach.

Sei nun μ1 eine Nullstelle des Polynoms P = 0 der Vielfachheit n1 , und sei μ2 = μ1
eine weitere Nullstelle von P . Aus der Faktorisierung P (X) = P1 (X)(X − μ1 )n1 folgt
dann p1 (μ2 ) = 0 (denn in Körpern gilt die Nullteilerfreiheit1 ). Entsprechend können wir
P1 als P1 (X) = P2 (X)(X − μ2 )n2 faktorisieren, so dass μ2 nicht Nullstelle von P2 ist. So
fortfahrend, erhält man die Faktorisierung

1 Aus ab = 0 und b = 0 folgt a = 0.


144 7 Eigenwerte und Normalformen

P (X) = Q(X)(X − μr )nr · · · (X − μ1 )n1 , (7.1.3)

in der die μ1 , . . . , μr die paarweise verschiedenen Nullstellen von P sind, nj die


Vielfachheit von μj ist und Q keine Nullstellen besitzt. (In der Tat terminiert das obige
induktive Verfahren nach höchstens deg(P ) Schritten.) Wenn Q ein konstantes Polynom
ist, sagt man, dass P in Linearfaktoren zerfällt.
Aus der obigen Darstellung liest man noch folgende Information über die Anzahl der
Nullstellen eines Polynoms ab.

Korollar 7.1.5 Ein Polynom P vom Grad n ≥ 1 hat höchstens n Nullstellen. Sind
μ1 , . . . , μr die verschiedenen Nullstellen von P mit den Vielfachheiten n1 , . . . , nr , so gilt
n1 + · · · + nr ≤ n.

Anders gesagt: Das einzige Polynom vom Grad ≤ n mit mehr als n Nullstellen ist
das Nullpolynom. Wenn diese Nullstellen paarweise verschieden sind, folgt das auch aus
Satz 4.3.1; die Aussage gilt aber sogar, wenn die Nullstellen nicht paarweise verschieden
sind und mit ihren Vielfachheiten gezählt werden.
Im Kontext von Korollar 7.1.5 sehen wir n1 + · · · + nr als die Anzahl der Nullstellen
inklusive Vielfachheiten an. Beispiel: Das Polynom P (X) = X3 −3X+2 = (X−1)2 (X+2)
∈ R[X] hat die beiden verschiedenen Nullstellen 1 und −2 mit den Vielfachheiten 2 und
1, inklusive Vielfachheiten hat P (X) also 2 + 1 = 3 Nullstellen.
Es kann natürlich vorkommen, dass ein Polynom überhaupt keine Nullstellen hat; das
Paradebeispiel ist X2 + 1 ∈ R[X]. Bei komplexen Polynomen gibt es jedoch immer
Nullstellen.

Satz 7.1.6 (Fundamentalsatz der Algebra) Jedes nichtkonstante Polynom in C[X] hat
eine Nullstelle. Daher zerfällt jedes nichtkonstante Polynom P über C in Linearfaktoren,
und inkl. Vielfachheiten hat P genau deg(P ) Nullstellen.

Dieser Satz ist das Fundament der Eigenwerttheorie über C-Vektorräumen. Man
kann Beweise in Vorlesungen über Analysis, Algebra, Funktionentheorie oder Topologie
kennenlernen; siehe Fußnote 2 auf Seite 103. In diesem Buch wird in Abschn. 7.6 ein
Beweis mit Methoden der Linearen Algebra geführt.
Wir wollen noch die Faktorisierung reeller Polynome diskutieren. Ein reelles Polynom
P ∈ R[X] kann natürlich auch als Polynom über C aufgefasst werden. Die nichtreellen
Nullstellen von P treten dann immer paarweise auf.

Lemma 7.1.7 Sei P ∈ R[X] und sei μ ∈ C eine Nullstelle von P . Dann ist auch μ eine
Nullstelle von P , und μ und μ haben dieselbe Vielfachheit.

Beweis Seien a0 , . . . , an ∈ R und gelte an μn + · · · + a1 μ + a0 = 0. Wenn man das


Konjugiertkomplexe bildet und aj = aj beachtet, erhält man an μn + · · · + a1 μ + a0 = 0.
7.1 Nochmals Polynome 145

Zur Erinnerung: Für komplexe Zahlen gelten die Rechenregeln w + z = w + z, w · z =


w · z.
Es ist noch die Aussage über die Vielfachheit zu beweisen. Sei μ = a + ib mit a, b ∈ R
und ohne Einschränkung b = 0. Dann ist

(X − μ)(X − μ) = (X − a − ib)(X − a + ib) = (X − a)2 + b2 =: Q(X) ∈ R[X].

Mit Hilfe von Satz 7.1.1 schreibt man P = P1 Q + R mit deg(R) < 2 und P1 ∈ R[X].
Daher ist R(X) = r1 X + r0 mit den Nullstellen μ und μ, was wegen Korollar 7.1.5 R = 0
impliziert, d. h. P = P1 Q. Wenn μ keine Nullstelle von P1 ist, ist man fertig; sonst wendet
man den ersten Teil des Lemmas auf P1 an und faktorisiert wieder: P1 (X) = P2 (X)Q(X)
etc. Das liefert schließlich die Behauptung. 
n
Sei nun P (X) = k=0 ak X ∈ R[X] mit an = 0. Seien ρ1 , . . . , ρr die reellen
k

Nullstellen von P ; jede Nullstelle wird so häufig aufgeführt, wie es ihre Vielfachheit
angibt. Die übrigen n − r komplexen Nullstellen (inkl. Vielfachheiten) treten nach
Lemma 7.1.7 in Paaren auf: γ1 , γ1 , . . . , γs , γs . Schreibe γj = aj + ibj mit aj , bj ∈ R,
bj = 0; dann ist (siehe oben)

Qj (X) := (X − γj )(X − γj ) = (X − aj )2 + bj2

ein reelles Polynom ohne reelle Nullstellen. Damit ergibt sich:

Satz 7.1.8 Jedes reelle Polynom 0 = P ∈ R[X] faktorisiert gemäß

P (X) = an (X − ρ1 ) · · · (X − ρr )Q1 (X) · · · Qs (X),

wo die Qσ (X) ∈ R[X] quadratische Polynome ohne reelle Nullstellen und die ρj die inkl.
Vielfachheiten gezählten reellen Nullstellen von P sind. Es ist r + 2s = deg(P ) = n.

Beispiel 7.1.9 Das Polynom X4 + 4 hat die komplexe Nullstelle μ = 1 + i (nach-


rechnen2 !), also auch μ = 1 − i. Da X nur in gerader Potenz vorkommt, sind auch
−μ = −1 − i und −μ = −1 + i Nullstellen. Das führt zu den quadratischen Faktoren
(X − μ)(X − μ) = X2 − 2X + 2 und (X + μ)(X + μ) = X2 + 2X + 2, so dass

X4 + 4 = (X2 − 2X + 2)(X2 + 2X + 2).

2 Diese Aufforderung ist insofern unbefriedigend, als sie nicht erklärt, wie man auf diese Nullstelle
kommt. Wer aus der Analysis die Polarzerlegung komplexer Zahlen kennt, weiß jedoch den
Lösungsweg.
146 7 Eigenwerte und Normalformen

7.2 Eigenwerte und Diagonalisierbarkeit

In Abschn. 4.4 haben wir einen ersten Blick auf das Eigenwertproblem für lineare
Abbildungen und Matrizen geworfen. Die dort für K = R erzielten Resultate sind für
beliebige Körper gültig (Ausnahme: Satz 4.4.6 und Satz 4.4.7, bei denen die Ordnung
von R eine Rolle spielt) und sollen noch einmal allgemein formuliert zusammengefasst
werden; K steht für einen Körper und V für einen K-Vektorraum.
• λ ∈ K heißt Eigenwert von L ∈ L (V ), wenn es einen Vektor v = 0 mit L(v) = λv
gibt. Solch ein v heißt dann ein zugehöriger Eigenvektor. Der Unterraum ker(L−λ Id),
der aus 0 und allen Eigenvektoren zu λ besteht, heißt der zugehörige Eigenraum.
• λ ∈ K heißt Eigenwert von A ∈ K n×n , wenn es einen Vektor x = 0 mit Ax = λx gibt.
Solch ein x heißt dann ein zugehöriger Eigenvektor. Der Unterraum ker(A − λEn ) :=
{y: Ay −λy = 0}, der aus 0 und allen Eigenvektoren zu λ besteht, heißt der zugehörige
Eigenraum.
• Die Eigenwert probleme für lineare Abbildungen auf endlichdimensionalen Vektor-
räumen und für Matrizen sind symmetrisch, siehe die auf Definition 4.4.1 folgenden
Bemerkungen.
• Das charakteristische Polynom einer n × n-Matrix A ist

χA (X) = det(A − XEn ).

Wir betrachten χA als Polynom, nicht als Polynomfunktion, ohne dies im Folgenden
in der Notation zu unterscheiden, wenn es um Nullstellen geht. Dieser Unterschied
kommt nur über endlichen Körpern zum Tragen, wo die im Zusammenhang mit (5.2.4)
auf Seite 106 gemachten Kommentare zu beachten sind. χA ist ein Polynom vom
Grad n.
• Genau dann ist λ ∈ K ein Eigenwert der Matrix A, wenn χA (λ) = 0 ist (Satz 4.4.2),
wenn also λ eine Nullstelle von χA ist.
• Zwei n × n-Matrizen A und B heißen ähnlich, wenn es eine invertierbare Matrix S mit
S −1 AS = B gibt; vgl. Korollar 3.3.7. Da ähnliche Matrizen dieselbe Determinante
haben (Korollar 4.2.6), kann man für L ∈ L (V ), dim(V ) < ∞, die Determinante
von L durch die Determinante einer beliebigen darstellenden Matrix definieren; vgl.
Definition 4.2.10. Auf diese Weise wird das charakteristische Polynom χL von L
erklärt.
• Für L ∈ L (V ), dim(V ) < ∞, ist daher λ ∈ K genau dann ein Eigenwert von L,
wenn χL (λ) = 0 ist.
• Wegen der Symmetrie des Eigenwert begriffs bei Matrizen und linearen Abbildungen
werden wir uns in der Regel nur den Fall im Detail vornehmen, der leichter zu
formulieren ist.
Als erstes schätzen wir die Anzahl der Eigenwerte einer Matrix bzw. einer linearen
Abbildung ab.
7.2 Eigenwerte und Diagonalisierbarkeit 147

Satz 7.2.1 Eine n × n-Matrix hat höchstens n Eigenwerte. Ebenso hat eine lineare
Abbildung auf einem n-dimensionalen Vektorraum höchstens n Eigenwerte.

Das folgt aus Korollar 7.1.5, da das charakteristische Polynom im Kontext von
Satz 7.2.1 ein Polynom vom Grad n ist.
Einem Eigenwert können wir zwei Vielfachheiten zuordnen.

Definition 7.2.2 Die algebraische Vielfachheit α(λ) eines Eigenwerts λ einer n × n-


Matrix ist die Vielfachheit, die λ als Nullstelle des charakteristischen Polynoms hat.
Die geometrische Vielfachheit von λ ist γ (λ) = dim ker(A − λEn ), die Dimension des
Eigenraums zu λ.
Analoge Begriffe werden für lineare Abbildungen definiert.

Eine Matrix bzw. lineare Abbildung wie in Satz 7.2.1 hat daher inkl. algebraischer
Vielfachheiten höchstens n Eigenwerte.
Ist L eine lineare Abbildung mit darstellender Matrix M bzgl. einer gegebenen Basis, so
haben L und M nicht nur dieselben Eigenwerte, auch die entsprechenden Vielfachheiten
stimmen überein, d. h. in selbsterklärender Notation ist αL (λ) = αM (λ), γL (λ) = γM (λ).
(Beweis?)
Ein Beispiel: In Beispiel 4.4.5 hatten wir die Eigenwerte einer gewissen 3 × 3-Matrix
berechnet, diese waren −1 und 2 mit α(−1) = γ (−1) = 1 und α(2) = 2, γ (2) = 1.
Dieses Beispiel illustriert den folgenden Satz.

Satz 7.2.3 Für Eigenwerte gilt stets γ (λ) ≤ α(λ).

Dem Beweis schicken wir ein Lemma über Determinanten von Matrizen einer speziel-
len Gestalt voraus. Es sei A eine m×m-Matrix, B eine m×p-Matrix, D eine p ×p-Matrix
und schließlich M die folgende n × n-Matrix (n = m + p), wo 0 für die Nullmatrix des
Formats p × m steht:

AB
M= . (7.2.1)
0D

Lemma 7.2.4 Es gilt det(M) = det(A) det(D).

Beweis Der Beweis erfolgt durch vollständige Induktion nach m. Im Fall m = 1 ergibt
sich die Behauptung sofort durch Entwicklung nach der 1. Spalte von M. Nun wollen wir
von m − 1 auf m (≥ 2) schließen. Wir entwickeln wieder nach der 1. Spalte:

m m
det(M) = (−1)j +1 aj 1 det(Mj 1 ) ± 0 ∓ 0 ± · · · = (−1)j +1 aj 1 det(Mj 1 ).
j =1 j =1
148 7 Eigenwerte und Normalformen

Hier sind die Streichungsmatrizen Mj 1 , j = 1, . . . , m, wieder von der Form (7.2.1), nur
dass jetzt links oben eine (m − 1) × (m − 1)-Matrix steht, nämlich die Streichungsmatrix
Aj 1 . Darauf können wir die Induktionsvoraussetzung anwenden und erhalten

m
det(M) = (−1)j +1 aj 1 det(Aj 1 ) det(D) = det(A) det(D).
j =1

Das war zu zeigen. 

Nun zum Beweis von Satz 7.2.3, den wir für lineare Abbildungen führen. Sei m = γ (λ),
und sei b1 , . . . , bm eine Basis von ker(L − λ Id). Diese ergänzen wir zu einer Basis
b1 , . . . , bn von V . Sei M die Matrixdarstellung von L bzgl. dieser (geordneten) Basis;
dann ist

χL (X) = χM (X) = det(M − XEn ).

Nun hat M die Gestalt (7.2.1) mit


⎛ ⎞
λ 0 ... 0
⎜ .. ⎟
⎜ ⎟
⎜0 λ .⎟
A=⎜. ⎟;
⎜. .. ⎟
⎝. . 0⎠
0 ... 0 λ

auf der Diagonalen steht m mal λ, außerhalb nur Nullen. Daher ist nach Lemma 7.2.4

det(M − XEn ) = det(A − XEm ) det(D − XEp ) = (λ − X)m χD (X).

Also ist λ eine Nullstelle von χL mit mindestens der Vielfachheit m; mit anderen Worten
ist α(λ) ≥ m = γ (λ). 
Eine nützliche Beobachtung ist im nächsten Satz formuliert.

Satz 7.2.5 Sei L ∈ L (V ) bzw. A ∈ K n×n so, dass das charakteristische Polynom
zerfällt. Dann ist die Determinante von L bzw. A das Produkt der in ihrer algebraischen
Vielfachheit gezählten Eigenwerte.

Beweis Schreibe χA (X) = det(A − XEn ) = (λ1 − X) · · · (λn − X). Indem man 0 für X
einsetzt, erhält man det(A) = λ1 · · · λn . 

Wir kommen jetzt zum Kernproblem dieses Abschnitts: Unter welchen Voraussetzun-
gen hat ein n-dimensionaler Vektorraum eine Basis aus Eigenvektoren einer gegebenen
7.2 Eigenwerte und Diagonalisierbarkeit 149

linearen Abbildung L? Bzw. unter welchen Voraussetzungen hat K n eine Basis aus
Eigenvektoren einer gegebenen n×n-Matrix A? (Solch eine Basis bezeichnet man auch als
Eigenbasis.) In diesem Fall nennt man L bzw. A diagonalisierbar, aus folgendem Grund.
Wenn L diagonalisierbar und b1 , . . . , bn eine Basis aus Eigenvektoren ist, stellen wir L
bzgl. dieser Basis dar. Seien λ1 , . . . , λn die zugehörigen Eigenwerte, also L(bj ) = λj bj .
Die j -te Spalte der darstellenden Matrix M von L enthält die Koordinaten von L(bj ) in
dieser Basis, und diese sind wegen L(bj ) = λj bj alle 0 mit Ausnahme der j -ten, die λj
ist. Daher hat M Diagonalgestalt:
⎛ ⎞
λ1 0 . . . 0
⎜ .. ⎟
⎜ ⎟
⎜ 0 λ2 . ⎟
M=⎜ . ⎟.
⎜ . .. ⎟
⎝ . . 0 ⎠
0 . . . 0 λn

Für eine solche Diagonalmatrix mit den Diagonaleinträgen λ1 , . . . , λn schreiben wir


abkürzend
⎛ ⎞
λ1 0 . . . 0
⎜ .. ⎟
⎜ ⎟
⎜ 0 λ2 . ⎟
diag(λ1 , . . . , λn ) := ⎜ . ⎟.
⎜ . ..
. 0 ⎟
⎝ . ⎠
0 . . . 0 λn

Dass eine n × n-Matrix diagonalisierbar ist, können wir so beschreiben. Sei e1 , . . . , en


die Einheitsvektorbasis von K n , und sei b1 , . . . , bn eine Basis von K n aus Eigenvektoren
von A. Es sei S die Matrix des Basiswechsels von b1 , . . . , bn nach e1 , . . . , en ; S hat also
die Spalten b1 , . . . , bn (siehe Beispiel 3.3.5(a)). Dann ist

S −1 AS = diag(λ1 , . . . , λn ), (7.2.2)

d. h. A ist zu einer Diagonalmatrix ähnlich.


Aus (7.2.2) ergeben sich immense Rechenvorteile; das ist einer der Gründe für die
Bedeutung der Eigenwerttheorie. Zum Beispiel ist für die Potenz einer Diagonalmatrix
(diag(λ1 , . . . , λn ))k = diag(λk1 , . . . , λkn ), also

Ak = (S diag(λ1 , . . . , λn )S −1 )k
= (S diag(λ1 , . . . , λn )S −1 ) · · · (S diag(λ1 , . . . , λn )S −1 )
= S(diag(λ1 , . . . , λn ))k S −1 = S diag(λk1 , . . . , λkn )S −1 .
150 7 Eigenwerte und Normalformen

Für große k ist die rechte Seite erheblich einfacher auszuwerten als die linke – vorausge-
setzt, man hat die Eigenwerte, Eigenvektoren und S −1 berechnet, wofür die numerische
Lineare Algebra hervorragende Näherungsverfahren bereithält.
Es soll noch explizit festgehalten werden, dass aus der Darstellung (7.2.2) automatisch
folgt, dass die λj die Eigenwerte von A und die Spalten sj von S zugehörige Eigenvektoren
bilden, denn (7.2.2) ist zu

Asj = λj sj , j = 1, . . . , n,

äquivalent.
Das Diagonalisierbarkeitsproblem ist also zu entscheiden, ob es (im Kontext obiger L
bzw. A) n linear unabhängige Eigenvektoren gibt. Das nächste Lemma präsentiert eine
entscheidende Beobachtung in dieser Richtung.

Lemma 7.2.6 Seien v1 , . . . , vr Eigenvektoren zu den paarweise verschiedenen Eigenwer-


ten μ1 , . . . , μr einer linearen Abbildung bzw. einer Matrix. Dann sind diese Eigenvektoren
linear unabhängig.

Beweis Wir formulieren den Beweis für lineare Abbildungen. Falls v1 , . . . , vr linear
abhängig sind, existiert eine natürliche Zahl s < r, so dass v1 , . . . , vs linear unabhängig
sind, aber v1 , . . . , vs+1 nicht. (Man beachte, dass Eigenvektoren = 0 sind und deshalb
{v1 } linear unabhängig ist.) Also gibt es eine Linearkombination

s
vs+1 = αj vj ,
j =1

und es folgt

s s
L(vs+1 ) = αj L(vj ) = αj μj vj .
j =1 j =1

Andererseits ist
s
L(vs+1 ) = μs+1 vs+1 = αj μs+1 vj .
j =1

Da v1 , . . . , vs linear unabhängig sind, folgt αj μj = αj μs+1 für alle j . Aber mindestens


ein αj ist von 0 verschieden, sagen wir αj0 = 0. Dann ist μj0 = μs+1 im Widerspruch
dazu, dass die μj paarweise verschieden sind. 

Damit erhalten wir ein erstes Kriterium, das bereits viele Fälle abdeckt.
7.2 Eigenwerte und Diagonalisierbarkeit 151

Satz 7.2.7 Sei L ∈ L (V ) mit dim(V ) = n bzw. A ∈ K n×n . L bzw. A ist diagonalisierbar,
wenn es n verschiedene Eigenwerte für L bzw. A gibt.

Beweis Wählt man zugehörige Eigenvektoren, so sind diese nach Lemma 7.2.6 n linear
unabhängige Vektoren, bilden also eine Basis. 

Unter den Voraussetzungen von Satz 7.2.7 muss jeder Eigenwert einfach sein. Bei
mehrfachen Eigenwerten kann es vorkommen, dass es zu wenige Eigenvektoren gibt: Im
Beispiel 4.4.5 etwa gibt es die beiden Eigenwerte −1 und 2 mit α(−1) = 1, α(2) = 2,
aber der Eigenraum zum Eigenwert 2 ist nur eindimensional. In diesem Beispiel gibt es
nur zwei linear unabhängige Eigenvektoren der 3 × 3-Beispielmatrix.
Um ein allgemeines notwendiges und hinreichendes Kriterium zu beweisen, sei an
den Begriff der direkten Summe U1 ⊕ · · · ⊕ Ur von Unterräumen eines Vektorraums V
aus Abschn. 2.4 erinnert. Im Anschluss an Satz 2.4.4 hatten wir in (2.4.2) die wichtige
Dimensionsformel

dim(U1 ⊕ · · · ⊕ Ur ) = dim(U1 ) + · · · + dim(Ur )

beobachtet.

Satz 7.2.8 Für eine n × n-Matrix A sind äquivalent:


(i) A ist diagonalisierbar.
(ii) Das charakteristische Polynom von A zerfällt in Linearfaktoren, und für jeden
Eigenwert stimmt die algebraische Vielfachheit mit der geometrischen Vielfachheit
überein.
Eine analoge Aussage gilt für lineare Abbildungen auf einem endlichdimensionalen
Vektorraum.

Beweis Wir zerlegen das charakteristische Polynom von A gemäß (7.1.3):

χA (X) = (X − μ1 )n1 · · · (X − μr )nr Q(X),

wo die μj die paarweise verschiedenen Nullstellen sind und Q nullstellenfrei ist. Mit
anderen Worten sind die μj die paarweise verschiedenen Eigenwerte von A mit den
algebraischen Vielfachheiten α(μj ) = nj . Es folgt (Korollar 7.1.5 und Satz 7.2.3)

n ≥ α(μ1 ) + · · · + α(μr ) ≥ γ (μ1 ) + · · · + γ (μr ).

Die Bedingung (ii) besagt, dass hier jeweils Gleichheit herrscht; also ist (ii) zu

γ (μ1 ) + · · · + γ (μr ) = n

äquivalent.
152 7 Eigenwerte und Normalformen

Zeigen wir jetzt, dass auch (i) zu dieser Gleichung äquivalent ist. Wir wissen bereits,
dass (i) durch die Existenz von n linear unabhängigen Eigenvektoren ausgedrückt werden
kann. Sei Uj = ker(A − μj En ) der Eigenraum zu μj ; dann ist also K n = U1 + · · · + Ur .
Nun ist zu beachten, dass die Summe der Uj direkt ist, d. h. ein Element von U1 +
· · · + Ur lässt sich eindeutig als v = u1 + · · · + ur , uj ∈ Uj , darstellen: Nehmen wir
an, v = ũ1 + · · · + ũr , ũj ∈ Uj , ist eine weitere solche Darstellung; dann hat man
0 = (u1 − ũ1 ) + · · · + (ur − ũr ). Aber uj − ũj ist ein Eigenvektor zu μj , oder es ist
uj − ũj = 0; wegen Lemma 7.2.6 muss stets Letzteres eintreten.
Wegen der Dimensionsformel für direkte Summen ist (i) also äquivalent zu

dim(U1 ) + · · · + dim(Ur ) = n,

und definitionsgemäß ist dim(Uj ) = γ (μj ).


Damit ist der Satz bewiesen. 

Wie der Beweis gezeigt hat, können wir den Äquivalenzen von Satz 7.2.8 noch die
folgenden hinzufügen, wo wie oben Uj der Eigenraum zu μj ist.

Korollar 7.2.9 Für eine Matrix A ∈ K n×n sind äquivalent:


(i) A ist diagonalisierbar.
(ii) K n = U1 ⊕ · · · ⊕ Ur .
(iii) n = γ (μ1 ) + · · · + γ (μr ).

Nach dem Fundamentalsatz der Algebra zerfällt jedes nichtkonstante Polynom über C
in Linearfaktoren, deshalb gilt:

Korollar 7.2.10 Für eine Matrix A ∈ Cn×n sind äquivalent:


(i) A ist diagonalisierbar.
(ii) Für jeden Eigenwert stimmt die algebraische Vielfachheit mit der geometrischen
Vielfachheit überein.
Eine analoge Aussage gilt für lineare Abbildungen auf einem endlichdimensionalen C-
Vektorraum.

Beispiele 7.2.11 Wir wollen folgende Matrizen auf Diagonalisierbarkeit überprüfen und
gegebenenfalls eine Basis aus Eigenvektoren angeben.
(a) Sei

0 −1
A= .
1 0
7.2 Eigenwerte und Diagonalisierbarkeit 153

Hier ist χA (X) = X2 + 1, hat also keine reelle Nullstelle, so dass A über R nicht
diagonalisierbar ist. Über C sieht die Welt anders aus: Jetzt gibt es die Nullstellen i
und −i, und Satz 7.2.7 impliziert die Diagonalisierbarkeit über C. Um eine Eigenbasis
zu berechnen, müssen die Gleichungssysteme Ax = ix und Ax = −ix gelöst werden.
Ersteres lautet explizit

−ix1 − x2 = 0
x1 − ix2 = 0
"i #
mit der allgemeinen Lösung x2 = t, x1 = it und den Eigenvektoren t 1 , t ∈ C \ {0}.
" #
Analog berechnet man t −i
1 als Eigenvektoren zu −i; daher bilden

i −i
,
1 1

eine Basis von C2 aus Eigenvektoren von A.


(b) Sei
⎛ ⎞
1 −3 3
⎜ ⎟
A = ⎝ 0 −5 6 ⎠ .
0 −3 4

Durch Entwicklung nach der 1. Spalte sieht man

χA (X) = (1 − X)((−5 − X)(4 − X) − (−18))


= (1 − X)(X2 + X − 2) = −(X − 1)2 (X + 2),

und das charakteristische Polynom zerfällt über R in Linearfaktoren. Hier hat der
Eigenwert −2 die algebraische und deshalb auch geometrische Vielfachheit 1. Zur
Bestimmung der Eigenvektoren wenden wir den Gaußschen Algorithmus an:
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
3 −3 3 3 −3 3 1 −1 1
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
A + 2E3 = ⎝ 0 −3 6 ⎠ ; ⎝ 0 −3 6 ⎠ ; ⎝ 0 −1 2 ⎠
0 −3 6 0 0 0 0 0 0

und erhalten die Eigenvektoren zum Eigenwert −2


⎛ ⎞
1
⎜ ⎟
t ⎝2⎠.
1
154 7 Eigenwerte und Normalformen

Der Eigenwert 1 hat die algebraische Vielfachheit α(1) = 2, und um seine geometri-
sche Vielfachheit zu bestimmen, ist das Gleichungssystem Ax = x zu lösen, wo der
Gaußsche Algorithmus zu
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
0 −3 3 0 −3 3 0 −1 1
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
A − E3 = ⎝ 0 −6 6 ⎠ ; ⎝ 0 0 0 ⎠ ; ⎝ 0 0 0 ⎠
0 −3 3 0 0 0 0 0 0

führt. Man erkennt die allgemeine Lösung in der Form


⎛ ⎞
s
⎜ ⎟
⎝ t ⎠, s, t ∈ R,
t

und mit
⎛ ⎞ ⎛ ⎞
1 0
⎜ ⎟ ⎜ ⎟
⎝0⎠, ⎝1⎠
0 1

hat man zwei linear unabhängige Eigenvektoren gefunden; es ist also auch γ (1) = 2.
Damit ist A über R diagonalisierbar, genauer ist
⎛ ⎞ ⎛ ⎞
−2 0 0 110
⎜ ⎟ ⎜ ⎟
S −1 AS = ⎝ 0 1 0 ⎠ = diag(−2, 1, 1) mit S = ⎝ 2 0 1 ⎠ .
001 101

Dass die Transformation S, mit der man A auf Diagonalgestalt bringt, als Spalten
Eigenvektoren von A enthält, haben wir schon in (7.2.2) beobachtet.

Um den letzten Satz dieses Abschnitts leicht formulieren zu können, führen wir den
Begriff des Spektrums ein.

Definition 7.2.12 Die Menge aller Eigenwerte einer Matrix bzw. einer linearen Abbil-
dung heißt das Spektrum, in Zeichen σ (A) bzw. σ (L).

Satz 7.2.13 (Spektraler Abbildungssatz) Sei A ∈ Cn×n , und sei P ∈ C[X]. Dann ist

σ (P (A)) = {P (λ): λ ∈ σ (A)} = P (σ (A)).

Eine analoge Aussage gilt für lineare Abbildungen.


7.3 Triangulierbare Abbildungen und Matrizen 155

Beweis Die Aussage ist auf jeden Fall für konstante Polynome richtig; A0 ist als
Einheitsmatrix zu lesen. Über C zerfällt jedes nichtkonstante Polynom; ist also μ ∈
σ (P (A)), können wir das Polynom P − μ in Linearfaktoren zerlegen:

P (X) − μ = c(X − λ1 ) · · · (X − λn ). (7.2.3)

Die Einsetzungsabbildung ψA , die formal X durch A ersetzt, ist linear und multiplikativ,
also führt das Einsetzen von A in diese Gleichung zu

P (A) − μEn = c(A − λ1 En ) · · · (A − λn En ). (7.2.4)

Wären alle A − λj En invertierbar, wäre auch P (A) − μEn invertierbar. Aber μ war ein
Eigenwert von P (A), also muss auch ein λj0 ein Eigenwert von A sein. Setzt man λj0 in
(7.2.3) ein, erhält man P (λj0 ) = μ, also μ ∈ P (σ (A)).

P (A) − μEn = Q(A)(A − λEn ),

Ist umgekehrt μ = P (λ) mit einem Eigenwert λ von A, so gilt für jeden zugehörigen
Eigenvektor v (also Av = λv) auch P (A)v = P (λ)v, d. h. μ = P (λ) ist Eigenwert von
P (A) mit demselben Eigenvektor v. 

7.3 Triangulierbare Abbildungen und Matrizen

In Satz 7.2.8 haben wir gesehen, dass eine lineare Abbildung (auf einem endlichdimen-
sionalen Vektorraum) genau dann eine Basis zulässt, bzgl. der die Matrixdarstellung
eine Diagonalmatrix ist, wenn es genügend viele Eigenwerte gibt (das charakteristische
Polynom zerfällt) und jeder Eigenwert hinreichend viele Eigenvektoren nach sich zieht
(die algebraische und die geometrische Vielfachheit stimmen überein). Wir werden jetzt
überlegen, was man erreichen kann, wenn nur die erste Bedingung erfüllt ist. Das
beschreibt der folgende Satz von Schur.

Satz 7.3.1 Sei L ∈ L (V ) eine lineare Abbildung auf einem endlichdimensionalen


Vektorraum, deren charakteristisches Polynom in Linearfaktoren zerfällt. Dann besitzt V
eine Basis b1 , . . . , bn , bzgl. der die darstellende Matrix von L eine obere Dreiecksmatrix
ist.
Eine analoge Aussage gilt für Matrizen: Wenn das charakteristische Polynom einer
Matrix zerfällt, ist diese zu einer oberen Dreiecksmatrix ähnlich.

Eine solche (geordnete) Basis heißt Schur-Basis für L und die entsprechende Ma-
trixdarstellung eine Schur-Darstellung.
156 7 Eigenwerte und Normalformen

Dem Beweis des Satzes schicken wir ein Lemma voraus. Dort steht Uj für
lin{b1 , . . . , bj }.

Lemma 7.3.2 Sei L ∈ L (V ) eine lineare Abbildung auf einem endlichdimensionalen


Vektorraum, und sei (b1 , . . . , bn ) eine geordnete Basis von V . Dann sind äquivalent:
(i) (b1 , . . . , bn ) ist eine Schur-Basis.
(ii) L(bj ) ∈ Uj für j = 1, . . . , n.
(iii) L(Uj ) ⊂ Uj für j = 1, . . . , n.

Beweis (i) ⇔ (ii): In der j -ten Spalte der Matrixdarstellung von L bzgl. der geordneten
Basis (b1 , . . . , bn ) stehen die Koordinaten a1j , . . . , anj von L(bj ); und bei einer Schur-
Basis ist nach Definition aij = 0 für i > j und umgekehrt.
(ii) ⇔ (iii): Das sollte klar sein. 

Ist U ein Unterraum von V mit L(U ) ⊂ U , so nennt man U einen invarianten
Unterraum (genauer L-invarianten Unterraum) von V .
Wir führen jetzt den Beweis von Satz 7.3.1 durch Induktion nach n := dim(V ). Für
n = 1 ist nichts zu zeigen. Seien nun n ≥ 2 und L ∈ L (V ), und wir nehmen die
Behauptung des Satzes von Schur für n − 1 als gegeben an. Da das charakteristische
Polynom von L zerfällt, gibt es garantiert einen Eigenwert λ1 ∈ K mit zugehörigem
Eigenvektor b1 ∈ V . Wir ergänzen b1 zu einer Basis b1 , b2 , . . . , bn von V und setzen
W = lin{b2 , . . . , bn }. Die Matrixdarstellung von L bzgl. b1 , . . . , bn sieht dann so aus:

λ1 ∗
M= .
0 M

Hier steht 0 für eine (n − 1)-Spalte mit lauter Nullen, ∗ für eine (n − 1)-Zeile, über die wir
nichts weiter wissen, und M  für eine (n − 1) × (n − 1)-Matrix.
Wir betrachten nun die lineare Abbildung P : V → W , die durch die Forderungen

P (b1 ) = 0, P (b2 ) = b2 , . . . , P (bn ) = bn

bestimmt ist (siehe Satz 3.1.3), sowie

L : W → W, L (w) = P (L(w)).

Dann ist M  die darstellende Matrix von L bzgl. b2 , . . . , bn . Nach Lemma 7.2.4 ist

χL (X) = (λ1 − X)χL (X),

und da χL zerfällt, zerfällt auch χL .


7.3 Triangulierbare Abbildungen und Matrizen 157

Nach Induktionsvoraussetzung besitzt W eine Schur-Basis b2 , . . . , bn für L . Bzgl. der
Basis b1 , b2 , . . . , bn hat die Matrixdarstellung von L obere Dreiecksgestalt, wie man aus
Lemma 7.3.2 abliest: Für j = 2, . . . , n ist ja

L(bj ) = (Id − P )(L(bj )) + P L(bj )


∈ lin(lin{b1 } ∪ lin{b2 , . . . , bj }) = lin{b1 , b2 , . . . , bj }.

Damit ist der Beweis des Satzes geführt. (Im Matrixfall ist das obige Argument auf die
entsprechende lineare Abbildung LA anzuwenden.) 

Korollar 7.3.3 Zu jeder linearen Abbildung L ∈ L (V ) auf einem endlichdimensionalen


C-Vektorraum und zu jeder komplexen n × n-Matrix gibt es eine Schur-Basis.

Da bei einer Dreiecksmatrix die Determinante das Produkt der Diagonalelemente ist
(Korollar 4.2.3), müssen die Diagonalelemente λ1 , . . . , λn einer Schur-Darstellung M von
L notwendigerweise die Eigenwerte inkl. ihrer algebraischen Vielfachheit sein, also

χL (X) = χM (X) = (λ1 − X) · · · (λn − X).

Beispiel 7.3.4 In Beispiel 4.4.5 haben wir die Matrix


⎛ ⎞
210
⎜ ⎟
A = ⎝ −1 0 1 ⎠
131

mit dem charakteristischen Polynom

χA (X) = −(X − 2)2 (X + 1) = −X3 + 3X2 − 4

und den Eigenwerten λ1 = −1 und λ2 = 2 und den zugehörigen Eigenvektoren


⎛ ⎞ ⎛ ⎞
1 1
⎜ ⎟ ⎜ ⎟
b1 = ⎝ −3 ⎠ und b2 = ⎝ 0 ⎠
4 1

betrachtet (der Eigenraum zu λ2 ist eindimensional). Wir wollen eine Schur-Darstellung


von bzw. eine Schur-Basis für A finden. Da λ1 ein einfacher Eigenwert ist, beginnen wir
mit b1 . Wir nehmen den Eigenvektor b2 zu λ2 hinzu; daher führt jeder zu b1 und b2 linear
unabhängige Vektor zu einer Schur-Basis. Die schnellste Wahl ist e3 , da die Spalten der
Matrix S = (b1 b2 e3 ) offensichtlich linear unabhängig sind. Daher ist S −1 AS eine obere
Dreiecksmatrix; durch explizite Berechnung der Inversen von S findet man
158 7 Eigenwerte und Normalformen

⎛ ⎞
−1 0 −1/3
⎜ ⎟
S −1 AS = ⎝ 0 2 1/3 ⎠ .
00 2

Um die Kraft der Schurschen Normalform zu unterstreichen, wollen wir jetzt einen
Beweis des Satzes von Cayley-Hamilton führen, der beschreibt, was man beim Einsetzen
einer Matrix in ihr charakteristisches Polynom erhält. Wir betrachten allerdings nur den
Fall einer Matrix, deren charakteristisches Polynom zerfällt; der Satz ist jedoch in voller
Allgemeinheit richtig.

Satz 7.3.5 (Satz von Cayley-Hamilton) Für eine n × n-Matrix A, deren charakteristi-
sches Polynom zerfällt, gilt

χA (A) = 0.

Hier steht auf der rechten Seite die Nullmatrix. Beispielsweise behauptet der Satz für
die Matrix aus Beispiel 7.3.4

−A3 + 3A2 − 4E3 = 0.

Beweis Da ähnliche Matrizen dasselbe charakteristische Polynom haben, reicht es wegen


Korollar 7.3.3, den Satz für obere Dreiecksmatrizen zu beweisen, d. h. für Matrizen mit
Aej ∈ lin{e1 , . . . , ej } für j = 1, . . . , n. Gilt nämlich A = S −1 BS, so hat man einerseits
χA = χB und andererseits Ak = (S −1 BS)k = S −1 B k S, und schreibt man χA (X) =

χB (X) = nk=0 ak Xk , erhält man

n n
χA (A) = ak Ak = S −1 ak B k S = S −1 χB (B)S,
k=0 k=0

und es ist χA (A) = 0 genau dann, wenn χB (B) = 0.


Sei also A eine obere Dreiecksmatrix; wir werden (χA (A))(ej ) = 0 für alle j zeigen.
Zunächst faktorisiere das charakteristische Polynom gemäß

χA (X) = (λ1 − X) · · · (λn − X)

mit den Eigenwerten λj von A. Da die Matrizen λj En − A kommutieren, müssen wir nur

(λ1 En − A) · · · (λj En − A)(ej ) = 0 für j = 1, . . . , n


7.3 Triangulierbare Abbildungen und Matrizen 159

zeigen; dies erledigen wir durch Induktion nach j . Hier ist der Fall j = 1 klar, da e1 ein
Eigenvektor zum Eigenwert λ1 ist (siehe oben, Bemerkung nach Korollar 7.3.3). Sei nun
2 ≤ j ≤ n. Wegen der Dreiecksgestalt von A wissen wir (siehe nochmals oben)
⎛ ⎞
λ1 ∗ . . . ∗
⎜ . .. ⎟
⎜ ⎟
⎜ 0 .. . ⎟
A=⎜ . ⎟,
⎜ . .. ⎟
⎝ . . ∗ ⎠
0 . . . 0 λn

wobei die mit ∗ bezeichneten Einträge unerheblich sind. Es folgt

j −1
(λj En − A)(ej ) ∈ lin{e1 , . . . , ej −1 }, etwa (λj En − A)(ej ) = βk ek ,
k=1

und nach Induktionsvoraussetzung ist

((λ1 En − A) · · · (λj −1 En − A))((λj En − A)(ej )) =


j −1
βk ((λ1 En − A) · · · (λj −1 En − A))(ek ) = 0;
k=1

hier benutzen wir erneut die Kommutativität der Faktoren.


Das war zu zeigen. 

Der Satz ist also insbesondere für komplexe Matrizen bewiesen. Außerdem ist auch der
Fall einer reellen Matrix enthalten, denn eine reelle Matrix ist ja eine komplexe Matrix,
deren Einträge reelle Zahlen sind, und χA hängt nicht davon ab, ob man A ∈ Rn×n oder
A ∈ Cn×n auffasst.
Der Beweis des Satzes von Cayley-Hamilton im allgemeinen Fall ist komplizierter.
Wir kommen jetzt zu einer Klasse von linearen Abbildungen bzw. Matrizen, die in den
nächsten Abschnitten eine Rolle spielen werden.

Definition 7.3.6 Eine lineare Abbildung L ∈ L (V ) heißt nilpotent, wenn es ein ν ∈ N


mit Lν = 0 gibt. Eine quadratische Matrix A heißt nilpotent, wenn es ein ν ∈ N mit
Aν = 0 gibt.

Ein Beispiel: Auf dem Vektorraum V = Pol<n (R) der reellen Polynome vom Grad < n
ist der Ableitungsoperator L: f → f  nilpotent; man kann ν = n = dim(V ) wählen.
Der nächste Satz zeigt, dass man in jedem Fall mit ν = dim(V ) in Definition 7.3.6
auskommt.
160 7 Eigenwerte und Normalformen

Satz 7.3.7 Sei dim(V ) = n und L ∈ L (V ). Dann sind äquivalent:


(i) L ist nilpotent.
(ii) L besitzt eine Schur-Darstellung mit Nullen auf der Diagonalen.
(iii) χL (X) = (−1)n Xn .
(iv) Ln = 0.

Beweis (i) ⇒ (ii): Wir beweisen das durch vollständige Induktion nach n. Der Fall n = 1
ist klar; nun zum Induktionsschluss von n − 1 auf n. Da Lν = 0 ist, ist L nicht invertierbar
(sonst wäre es Lν ja auch). Also gibt es einen Vektor b1 = 0 mit L(b1 ) = 0. Ergänze b1
zu einer Basis von V und betrachte die zugehörige Matrixdarstellung, die wie im Beweis
von Satz 7.3.1 die Gestalt

0 ∗
0 M

hat. Deshalb haben die Potenzen von L in dieser Basis die Matrixdarstellungen

0 ∗k
.
0 (M  )k

Definiert man W und L wie im Beweis von Satz 7.3.1, so sieht man, dass L : W → W
nilpotent auf einem (n − 1)-dimensionalen Raum ist. Daher besitzt L nach Induktionsvor-
aussetzung eine Schur-Darstellung mit Nullen auf der Diagonalen bzgl. einer geeigneten
Schur-Basis b2 , . . . , bn von W , und b1 , b2 , . . . , bn ist eine Schur-Basis von V für L mit
der gewünschten Form der Matrixdarstellung.
[Man beachte, dass in (i) nicht vorausgesetzt ist, dass das charakteristische Polynom
zerfällt; daher wissen wir a priori nicht, ob L überhaupt eine Schur-Darstellung besitzt.]
(ii) ⇒ (iii): Das folgt daraus, dass bei einer Dreiecksmatrix die Determinante das
Produkt der Diagonalelemente ist.
(iii) ⇒ (iv) folgt aus dem Satz von Cayley-Hamilton; man beachte, dass das charakte-
ristische Polynom von L nach Voraussetzung (iii) zerfällt.
(iv) ⇒ (i) ist klar. 

Sei nun L eine lineare Abbildung mit Schur-Darstellung


⎛ ⎞
λ1 ∗
⎜ ⎟
⎜ .. ⎟.
⎝ . ⎠
0 λn

Wir zerlegen diese in


7.4 Die Hauptraumzerlegung 161

⎛ ⎞ ⎛ ⎞
λ1 0 0 ∗
⎜ ⎟ ⎜ ⎟
⎜ .. ⎟+⎜ .. ⎟ =: MD + MN .
⎝ . ⎠ ⎝ . ⎠
0 λn 0 0

Hier ist MD die Matrixdarstellung einer diagonalisierbaren linearen Abbildung und MN


die Matrixdarstellung einer nilpotenten Abbildung bzgl. derselben Basis. Daher gilt:

Korollar 7.3.8 Wenn das charakteristische Polynom von L ∈ L (V ) zerfällt, kann man
L = D + N mit einer diagonalisierbaren Abbildung D und einer nilpotenten Abbildung
N schreiben.

In Abschn. 7.5 werden wir zeigen, dass N mit einer sehr speziellen Matrixdarstellung
gewählt werden kann. Einstweilen sei beobachtet, dass bei den Potenzen der nilpotenten
Matrix MN die Nullen nach und nach nach rechts oben wandern:
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
0 ∗ ∗ ... ∗ 0 0 ∗ ... ∗ 00 0 ∗∗
⎜ 0 ⎟ ⎜ 0 ⎟ ⎜ 0 ∗⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
MN = ⎜

..
. ∗⎟
⎟ , M2 = ⎜
N ⎜
..
. ∗⎟
⎟ , M3 = ⎜
N ⎜
..
. 0⎟ ⎟,
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ 0 ∗ ⎠ ⎝ 0 0⎠ ⎝ 0 0⎠
0 0 0 0 0 0

etc.

7.4 Die Hauptraumzerlegung

In diesem Abschnitt diskutieren wir verallgemeinerte Eigenvektoren und die Hauptraum-


zerlegung, die an die Stelle der Eigenraumzerlegung bei nicht diagonalisierbaren Ab-
bildungen tritt. Die Überlegungen führen gleichzeitig zu einer neuen Begründung des
Diagonalisierbarkeitskriteriums aus Satz 7.2.8. Insbesondere werden wir eine geometri-
sche Interpretation der algebraischen Vielfachheit eines Eigenwerts geben.
Im Folgenden bezeichnen L und T lineare Abbildungen auf einem endlichdimensiona-
len K-Vektorraum V . Wir beginnen mit einigen Vorbereitungen.

Lemma 7.4.1 Gelte LT = T L. Dann folgt

L(ran(T )) ⊂ ran(T ) sowie L(ker(T )) ⊂ ker(T ).

Beweis Sei v ∈ ran(T ), etwa v = T (w) mit einem w ∈ V . Dann ist L(v) = L(T w) =
T (Lw) ∈ ran(T ).
Sei v ∈ ker(T ), also T (v) = 0. Dann ist T (Lv) = L(T v) = 0, also L(v) ∈ ker(T ). 
162 7 Eigenwerte und Normalformen

Zur Motivation des Folgenden sei T ∈ L (V ) mit Eigenwert 0. Dann ist ker T der
zugehörige Eigenraum. Nun könnte es Vektoren v mit T (v) = 0, aber T 2 (v) = 0 geben;
diese sind keine Eigenvektoren, aber nicht weit davon entfernt. Ferner könnte es Vektoren
v mit T 2 (v) = 0, aber T 3 (v) = 0 geben, usw.
Daher betrachten wir nun die Unterräume ker(T m ) von V für m ≥ 0. (Hier ist ker T 0 =
ker Id = {0} zu verstehen.) Trivialerweise gilt

{0} ⊂ ker T ⊂ ker T 2 ⊂ . . . .

Lemma 7.4.2 Gilt ker T m = ker T m+1 für ein m ≥ 0, so auch ker T m = ker T m+k für
alle k ≥ 0.

Beweis „⊂“ ist klar. Gelte jetzt umgekehrt T m+k (v) = 0 für ein k ≥ 1; dann ist
T m+1 (T k−1 v) = 0, also T k−1 (v) ∈ ker T m+1 = ker T m und deshalb T m+k−1 (v) = 0.
Iteration dieses Arguments liefert T m (v) = 0. 

Lemma 7.4.3 Ist dim(V ) = n, so gilt

ker T n = ker T n+1 = . . . .

Beweis Andernfalls wäre nach Lemma 7.4.2

{0}  ker T  ker T 2  · · ·  ker T n  ker T n+1 ,

also dim ker T k ≥ k für k ≤ n + 1 und insbesondere dim ker T n+1 > n: Widerspruch! 

Korollar 7.4.4 Es existiert eine Zahl m ≤ dim(V ) mit

{0}  ker T  ker T 2  · · ·  ker T m = ker T m+1 = . . . ,


V  ranT  ranT 2  · · ·  ranT m = ranT m+1 = . . . .

Beweis Die erste Zeile ergibt sich aus Lemma 7.4.2 und 7.4.3 und die zweite aus ran T k ⊃
ran T k+1 und dim ker T k + dim ran T k = dim V . 

Definition 7.4.5 Sei λ ein Eigenwert von L ∈ L (V ) mit dim V = n. Dann heißt
der Unterraum ker(L − λ Id)n der verallgemeinerte Eigenraum oder Hauptraum zu λ,
und seine von 0 verschiedenen Elemente heißen verallgemeinerte Eigenvektoren oder
Hauptvektoren.

Nach Korollar 7.4.4 ist v = 0 ein Hauptvektor zu λ genau dann, wenn es eine Zahl
m ∈ N mit (L − λ Id)m (v) = 0 gibt; und dann gibt es auch solch ein m ≤ n.
7.4 Die Hauptraumzerlegung 163

Satz 7.4.6 Seien λ ein Eigenwert von L und m wie in Korollar 7.4.4, angewandt auf T =
L − λ Id. Dann gelten:
(a) V = ker(L − λ Id)m ⊕ ran(L − λ Id)m .
(b) L(ker(L − λ Id)m ) ⊂ ker(L − λ Id)m .
(c) L(ran(L − λ Id)m ) ⊂ ran(L − λ Id)m .
(d) L − λ Id, eingeschränkt auf ker(L − λ Id)m , ist eine nilpotente Abbildung von
ker(L − λ Id)m nach ker(L − λ Id)m .
(e) L − λ Id, eingeschränkt auf ran(L − λ Id)m , ist ein Isomorphismus von ran(L − λ Id)m
nach ran(L − λ Id)m .

Beweis (a) Wir setzen T = L − λ Id und zeigen zuerst, dass die Summe direkt ist. Sei
dazu v ∈ ker T m ∩ ranT m . Also ist T m (v) = 0 und v = T m (w) für ein w ∈ V . Es folgt

0 = T m (v) = T m (T m w) = T 2m (w) = T m (w) = v;

im vorletzten Schritt wurde w ∈ ker T 2m = ker T m benutzt.


Jetzt wird gezeigt, dass die Summe V aufspannt. Sei v ∈ V . Für ein einstweilen
beliebiges w ∈ V schreibe

v = (v − T m (w)) + T m (w).

Es ist zu zeigen, dass für ein geeignetes w der erste Summand v − T m (w) in ker T m liegt.
Gesucht ist also ein w ∈ V mit T m (v) = T 2m (w). Da T m (v) ∈ ran T m = ran T 2m nach
Wahl von m, gibt es solch ein w.
(b) und (c) folgen aus Lemma 7.4.1, da offensichtlich (L − λ Id)m L = L(L − λ Id)m .
(d) ist klar nach Definition der Nilpotenz.
(e) folgt, weil L − λ Id nach Korollar 7.4.4 auf ran(L − λ Id)m surjektiv und deshalb auch
injektiv ist. 

Schreibt man V1 = ker(L − λ Id)m und V2 = ran(L − λ Id)m sowie T = L − λ Id, so


besagt Satz 7.4.6, dass T : V → V in die Komponenten T1 : V1 → V1 und T2 : V2 → V2
„reduziert“ wird, die beide eine „einfache“ Gestalt haben: T1 ist nilpotent, und T2 ist ein
Isomorphismus. (Das gilt trivialerweise auch, wenn λ kein Eigenwert ist; warum?)
Satz 7.4.6 gestattet es, die algebraische Vielfachheit eines Eigenwerts geometrisch zu
deuten.

Korollar 7.4.7 Die Dimension des Hauptraums zu λ ist gleich der algebraischen Viel-
fachheit von λ.

Beweis Wählt man Basen in ker(L−λ Id)m und in ran(L−λ Id)m , so erhält man insgesamt
eine Basis von V (Satz 7.4.6(a)), und die Matrixdarstellung von L hat dann die Form
(Satz 7.4.6(b) und (c))
164 7 Eigenwerte und Normalformen

M1 0
.
0 M2

Betrachte die Einschränkungen von L

L1 : ker(L − λ Id)m → ker(L − λ Id)m , L2 : ran(L − λ Id)m → ran(L − λ Id)m ;

M1 ist die Matrixdarstellung von L1 und M2 die von L2 . Für das charakteristische
Polynom von L gilt dann (Lemma 7.2.4)

χL (X) = χL1 (X)χL2 (X).

Wegen Satz 7.4.6(a) ist λ kein Eigenwert von L2 ; daher ist die algebraische Vielfachheit
von λ als Eigenwert von L dieselbe wie die von λ als Eigenwert von L1 . Aber nach
Satz 7.4.6(d) ist L1 − λ Idker(L−λ Id)m nilpotent, hat also nach Satz 7.3.7 das charakterische
Polynom (−X)n1 , n1 = dim ker(L − λ Id)m , und das bedeutet χL1 (X) = (λ − X)n1 . Daher
ist die algebraische Vielfachheit von λ gleich n1 , was zu zeigen war. 

Der nächste Satz beschreibt die Zerlegung in verallgemeinerte Eigenräume und ist der
Schlüssel zur Jordanschen Normalform in Abschn. 7.5.

Satz 7.4.8 (Hauptraumzerlegung) Das charakteristische Polynom von L ∈ L (V )


zerfalle in Linearfaktoren,

χL (X) = (μ1 − X)d1 · · · (μr − X)dr ,

mit den paarweise verschiedenen Eigenwerten μ1 , . . . , μr . Sei Vj der Hauptraum zum


Eigenwert μj . Dann gilt für j = 1, . . . , r:
(a) V = V1 ⊕ · · · ⊕ Vr .
(b) dim Vj = dj .
(c) L(Vj ) ⊂ Vj .
(d) L|Vj bezeichne L, aufgefasst als Abbildung von Vj nach Vj ; dann gilt L|Vj =
μj IdVj + Nj mit einer nilpotenten Abbildung Nj : Vj → Vj .

Beweis Wir verwenden vollständige Induktion nach r.


Induktionsanfang, r = 1: Nach Voraussetzung ist χL (X) = (μ1 − X)d1 , also
χL−μ1 Id (X) = (−X)d1 . Es folgt d1 = dim(V ), und N1 = L − μ1 Id ist nach Satz 7.3.7
nilpotent.
7.4 Die Hauptraumzerlegung 165

Induktionsschluss von r − 1 auf r: Der entscheidende Punkt ist, (a) zu zeigen. Da


χL zerfällt, besitzt L mindestens einen Eigenwert μ1 . Wendet man Satz 7.4.6 und
Korollar 7.4.7 für λ = μ1 an, bekommt man sofort (b)–(d) für j = 1; beachte L = μ1 Id+
(L−μ1 Id). Setzt man W = ran(L−μ1 Id)dim V , so kann man die Induktionsvoraussetzung
auf die Einschränkung L : W → W von L auf W anwenden (beachte Satz 7.4.6(c)), denn
wie im Beweis von Korollar 7.4.7 folgt χL (X) = (μ2 − X)d2 · · · (μr − X)dr ; χL zerfällt
also. Deswegen ergeben sich aus der Induktionsvoraussetzung (a) (wegen Satz 7.4.6(a))
und dann (b)–(d) für j = 2, . . . , r. 

Korollar 7.4.9 Wenn das charakteristische Polynom von L ∈ L (V ) zerfällt, gibt es eine
Basis von V , die aus verallgemeinerten Eigenvektoren besteht.

Beweis In der Bezeichnung von Satz 7.4.8 muss man nur eine Basis in jedem Hauptraum
wählen. 

Beispiel 7.4.10 Wir greifen die Matrix aus Beispiel 7.3.4 auf und wollen eine verallge-
meinerte Eigenbasis bestimmen. Wir kennen bereits die Eigenwerte und Eigenvektoren;
für die Hauptraumzerlegung müssen wir uns jetzt noch um ker(A − 2E3 )2 kümmern, da
der Eigenwert 2 die algebraische Vielfachheit 2 hat. Es ist
⎛ ⎞2 ⎛ ⎞
0 1 0 −1 −2 1
⎜ ⎟ ⎜ ⎟
(A − 2E3 )2 = ⎝ −1 −2 1 ⎠ = ⎝ 3 6 −3 ⎠ ;
1 3 −1 −4 −8 4

daher erhält man zusätzlich zum Eigenvektor b2 als zweiten Basisvektor für ker(A−2E3 )2
zum Beispiel
⎛ ⎞
−2
⎜ ⎟
b3 = ⎝ 1 ⎠ .
0

Das liefert als eine Basis aus Hauptvektoren


⎛ ⎞ ⎛ ⎞ ⎛ ⎞
1 1 −2
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
b1 = ⎝ −3 ⎠ , b2 = ⎝ 0 ⎠ , b3 = ⎝ 1 ⎠ .
4 1 0

Da der Hauptraum zum Eigenwert μ stets den entsprechenden Eigenraum enthält,


können wir aus Satz 7.4.8 mit Hilfe von Korollar 7.2.9 sofort folgendes Diagonalisier-
barkeitskriterium ableiten.
166 7 Eigenwerte und Normalformen

Korollar 7.4.11 Das charakteristische Polynom von L ∈ L (V ) zerfalle in Linearfakto-


ren. Genau dann ist L diagonalisierbar, wenn für alle Eigenwerte der Hauptraum mit dem
Eigenraum übereinstimmt. Das ist genau dann der Fall, wenn für alle Eigenwerte

(L − μ Id)2 (v) = 0 ⇒ (L − μ Id)(v) = 0 (7.4.1)

gilt.

Man beachte, dass Korollar 7.4.11 wegen Korollar 7.4.7 einen neuen Beweis dafür gibt,
dass für lineare Abbildungen mit zerfallendem charakteristischen Polynom Diagonalisier-
barkeit äquivalent zur Übereinstimmung von algebraischer und geometrischer Vielfachheit
bei allen Eigenwerten ist (siehe Satz 7.2.8).

Korollar 7.4.12 Wenn das charakteristische Polynom von L ∈ L (V ) zerfällt, existieren


eine diagonalisierbare Abbildung D und eine nilpotente Abbildung N mit

L=D+N und DN = ND.

Beweis Wir benutzen die Bezeichnungen von Satz 7.4.8. Jedes v ∈ V lässt sich eindeutig
als v = v1 + · · · + vr mit vj ∈ Vj schreiben. Setze (warum sind das lineare Abbildungen?)

D(v) = μ1 v1 + · · · + μr vr ,
N(v) = N1 (v1 ) + · · · + Nr (vr ).

Dann ist D diagonalisierbar (denn die Matrixdarstellung von D bzgl. einer Basis aus ver-
allgemeinerten Eigenvektoren ist eine Diagonalmatrix), und N ist nilpotent, da N k (v) =
N1k (v1 ) + · · · + Nrk (vr ) für jedes k nach Konstruktion von N. Für einen verallgemeinerten
Eigenvektor ṽ zu μj gilt

DN (ṽ) = D(Nj (ṽ)) = μj Nj (ṽ)

und

ND(ṽ) = N(μj ṽ) = μj Nj (ṽ),

also stimmen DN und ND auf einer Basis überein (Korollar 7.4.9) und sind deshalb
gleich. 

Eine Zerlegung „diagonal plus nilpotent“ wurde bereits in Korollar 7.3.8 beobachtet;
dort hatte man aber nicht die Kommutativität der beiden Anteile. Letztere liefert sogar,
dass eine solche Zerlegung eindeutig ist; das kann man so einsehen: Außer den in
7.5 Die Jordansche Normalform 167

Korollar 7.4.12 konstruierten Abbildungen existiere eine Zerlegung L = D  + N  mit


D  diagonalisierbar, N  nilpotent, D  N  = N  D  . Dann vertauschen D  und N  auch mit
 " #
L und daher auch mit (L − μ Id)n = nk=0 nk Lk (−μ)n−k (binomischer Satz; siehe die
folgende Fußnote), wo n = dim V . Nach Lemma 7.4.1 lassen D  und N  jeden Hauptraum
invariant; und auf dem Hauptraum zum Eigenwert μ wirkt D nach Konstruktion wie μ Id.
Um D = D  und folglich N = N  zu beweisen, braucht man das nur auf jedem Hauptraum
zu tun. Daher ist zu zeigen:

μ Id + N = D  + N  , D  N  = N  D  ⇒ N = N  , μ Id = D  .

Aus der Vertauschbarkeit von D  und N  folgt die von μ Id + N = D  + N  und N 


und daraus die von N und N  , d. h. NN  = N  N. Letzteres impliziert aber, dass N − N 
nilpotent ist; betrachte nämlich3

2n  
 2n 2n
(N − N ) = N k (N  )2n−k = 0,
k
k=0

denn für k ≥ n ist N k = 0, und für k ≤ n ist (N  )2n−k = 0. Es folgt, dass die
diagonalisierbare Abbildung D  −μ Id nilpotent ist, weswegen sie = 0 ist (warum?). Damit
ist alles gezeigt.

7.5 Die Jordansche Normalform

Das Ziel dieses Abschnitts ist es, die Jordansche Normalform einer Abbildung L ∈ L (V )
konstruieren; diese besteht darin, in jedem Hauptraum von L eine Basis so zu wählen, dass
die Matrixdarstellung von L die Gestalt
⎛ ⎞
 0 ... 0
⎜ ⎟
⎜0  0⎟
⎜ . . . ⎟
⎜ .. .. .. ⎟ (7.5.1)
⎜ ⎟
⎜ ⎟
⎝0  0⎠
0 ... 0 

hat, wobei jedes  für ein „Jordan-Kästchen“

3 Hier und weiter oben haben wir den binomischen Satz benutzt, den Sie aus der Analysis für
Potenzen von Zahlen (x + y)n kennen. Im Beweis der binomischen Entwicklung gehen aber nur
die Rechenregeln eines kommutativen Rings ein; daher hat man für kommutierende Elemente eines
Rings bzw. einer Algebra dieselbe Summendarstellung. (In einem Ring bedeutet k · r die k-fache
Summe r + · · · + r eines Ringelements r.)
168 7 Eigenwerte und Normalformen

⎛ ⎞
μ 1 0
⎜ . . ⎟
⎜ .. .. ⎟
J (μ, p) = ⎜
⎜ ..

⎟ (p × p-Matrix)
⎝ . 1⎠
0 μ

steht mit einem Eigenwert μ und p ∈ N. Im Klartext: In der p × p-Matrix J (μ, p) steht
auf der Hauptdiagonalen immer μ, direkt darüber (auf der „Nebendiagonalen“) immer 1
und ansonsten bloß Nullen, also
⎛ ⎞
μ 1 0
μ 1 ⎜ ⎟
J (μ, 1) = (μ), J (μ, 2) = , J (μ, 3) = ⎝ 0 μ 1 ⎠ , etc.

0 0μ

Als erstes werden wir eine solche Basis für eine nilpotente Abbildung konstruieren;
eine Basis, bzgl. der die darstellende Matrix die Gestalt (7.5.1) hat, nennen wir Jordan-
Basis.

Satz 7.5.1 Seien N: V → V nilpotent und m ∈ N mit N m = 0. Dann existieren



eindeutig bestimmte ganze Zahlen s1 , . . . , sm ≥ 0 mit mk=1 ksk = n := dim(V ) und
eine Basis von V , so dass die Matrixdarstellung von N die Form (7.5.1) hat, wobei in
(7.5.1) genau sk Jordan-Kästchen J (0, k) vorkommen. Diese Normalform ist eindeutig bis
auf die Reihenfolge der Jordan-Kästchen.

Beweis Wir beginnen mit der Eindeutigkeit, die durch vollständige Induktion nach m
bewiesen wird. Der Fall m = 1 ist klar. Zum Induktionsschluss von m − 1 auf m: Gelte
N m = 0; wir unterscheiden die Fälle N m−1 = 0 und N m−1 = 0. Im ersten Fall greift die
Induktionsvoraussetzung sofort und liefert, dass s1 , . . . , sm−1 eindeutig bestimmt sind mit
m−1
k=1 ksk = n; es folgt sm = 0. Nun zum Fall N
m−1 = 0. Da J (0, k)m−1 = 0 für k < m

gilt, jedoch
⎛ ⎞
0 ... 0 1
⎜ ⎟
⎜0 ... 0 0⎟
J (0, m)m−1 =⎜
⎜ .. .... ⎟

⎝. . .⎠
0 ... 0 0

und für blockdiagonale Matrizen


7.5 Die Jordansche Normalform 169

⎛ ⎞m−1 ⎛ ⎞
A1 0 A1m−1 0
⎜ ⎟ ⎜ ⎟
⎜ .. ⎟ =⎜ .. ⎟
⎝ . ⎠ ⎝ . ⎠
0 Ar 0 Arm−1

gilt, besitzt die (m−1)-te Potenz einer Matrix wie in4 (7.5.10 ) genau sm linear unabhängige
Spalten, und diese Zahl stimmt mit rg(N m−1 ) überein: sm = rg(N m−1 ). sm ist also
eindeutig bestimmt. Betrachtet man nun die Einschränkung N  von N auf die lineare
Hülle des Komplements der von diesen sm Jordan-Kästchen involvierten Basisvektoren,
so ist N  nilpotent mit (N  )m−1 = 0, und in der Darstellung (7.5.10 ) von N  kommen
nur die übrigen Jordan-Kästchen vom Format J (0, p), p < m, vor; diese sind aber
nach Induktionsvoraussetzung bis auf die Reihenfolge eindeutig bestimmt. Das zeigt die
Eindeutigkeit der Zahlen s1 , . . . , sm .
Zum Beweis der Existenz betrachten wir zu 0 ≤ k ≤ m die Unterräume Uk = ker N k .
Wir dürfen annehmen, dass m minimal gewählt ist (d. h. N m−1 = 0); dann gilt nach
Korollar 7.4.4

U0 = {0}  U1  · · ·  Um = V .

Durch Ergänzung einer Basis von Um−1 zu einer Basis von Um = V erhält man eine
direkte Summenzerlegung

V = Um = Um−1 ⊕ Wm .

Man beachte, dass N auf Wm injektiv ist, da Wm ∩ ker N ⊂ Wm ∩ Um−1 = {0}. Ferner ist
nach Konstruktion N(Wm ) ⊂ Um−1 , aber N(Wm ) ∩ Um−2 = {0}.
In den nächsten Schritten werden wir folgenden Schluss mehrfach anwenden:
• Sei Z ein endlichdimensionaler Vektorraum, sei Y ⊂ Z ein Unterraum, und sei Y  ⊂ Z
ein weiterer Unterraum mit Y ∩ Y  = {0}. Dann existiert ein Unterraum W ⊂ Z mit
Y  ⊂ W und Z = Y ⊕ W .
(Zum Beweis hierfür sei y1 , . . . , yr eine Basis von Y und yr+1 , . . . , yr+k eine Basis von
Y  ; ergänze zu einer Basis y1 , . . . , yn von Z und setze W = lin{yr+1 , . . . , yn }.)
Sei nun b1m , . . . , btmm eine Basis von Wm . Dann sind wegen der Injektivität von N
auf Wm die Vektoren N(b1m ), . . . , N(btmm ) linear unabhängig in Um−1 , aber ihre von
0 verschiedenen Linearkombinationen sind keine Elemente von Um−2 , und wegen der
Vorüberlegung gibt es eine direkte Summenzerlegung mit einem geeigneten Unterraum
Wm−1 ⊂ Um−1

Um−1 = Um−2 ⊕ Wm−1

4 Der Index 0 soll andeuten, dass jetzt in (7.5.1) auf der Hauptdiagonalen nur Nullen stehen.
170 7 Eigenwerte und Normalformen

mit N(bjm ) ∈ Wm−1 . Ergänze diese linear unabhängigen Vektoren zu einer Basis von
Wm−1 durch Hinzunahme von b1m−1 , . . . , btm−1
m−1
(eventuell braucht man gar nichts hinzuzu-
nehmen, d. h. tm−1 = 0). Da wie oben N(Wm−1 ) ⊂ Um−2 , aber N(Wm−1 ) ∩ Um−3 = {0}
und N auf Wm−1 injektiv ist, können wir N 2 (b1m ), . . . , N 2 (btmm ), N (b1m−1 ), . . . , N (btm−1
m−1
)
m−2 m−2
durch b1 , . . . , btm−2 zu einer Basis eines Unterraums Wm−2 mit

Um−2 = Um−3 ⊕ Wm−2

ergänzen usw., bis man bei U0 landet. Das liefert eine direkte Summe

V = W1 ⊕ · · · ⊕ Wm

und eine Basis von V wie folgt:

b1m , . . . , btmm ;

N (b1m ), . . . , N(btmm ); b1m−1 , . . . , btm−1


m−1
;

N 2 (b1m ), . . . , N 2 (btmm ); N(b1m−1 ), . . . , N (btm−1


m−1
); b1m−2 , . . . , btm−2
m−2
;
etc.
N m−1 (b1m ), . . . , N m−1 (btmm ); N m−2 (b1m−1 ), . . . , N m−2 (btm−1
m−1
); [. . . ]; b11 , . . . , bt11 .

In der ersten Zeile steht eine Basis von Wm (Vektoren, die nach m-maliger Anwendung
von N zu 0 werden, aber nicht eher), in der zweiten eine Basis von Wm−1 (Vektoren, die
nach (m − 1)-maliger Anwendung von N zu 0 werden, aber nicht eher), . . . , in der letzten
eine Basis von W1 (Vektoren, die nach einmaliger Anwendung von N zu 0 werden; W1 =
ker N , und nochmaliges Anwenden von N auf die Vektoren der letzten Zeile liefert 0).
Diese Basis von V ordne man wie folgt an (das obige Schema wird spaltenweise von
unten nach oben gelesen):

N m−1 (b1m ), N m−2 (b1m ), . . . , b1m ; . . . ; N m−1 (btmm ), . . . , btmm ;

N m−2 (b1m−1 ), N m−3 (b1m−1 ), . . . , b1m−1 ; . . . ; N m−2 (btm−1


m−1
), . . . , btm−1
m−1
;
etc.
b11 , . . . , bt11 .
7.5 Die Jordansche Normalform 171

Bezüglich dieser Basis in dieser Anordnung sieht die Matrixdarstellung von N so aus:
⎛ ⎞
J (0, m)
⎜ .. ⎟
⎜ . ⎟
⎜ ⎟
⎜ ⎟
⎜ J (0, m) ⎟
⎜ ⎟
⎜ J (0, m − 1) ⎟
⎜ ⎟
⎜ .. ⎟
⎜ . ⎟
⎜ ⎟
⎜ J (0, m − 1) ⎟
⎜ ⎟
⎜ ⎟
⎜ .. ⎟
⎜ . ⎟
⎜ ⎟
⎜ J (0, 1) ⎟
⎜ ⎟
⎜ .. ⎟
⎝ . ⎠
J (0, 1)

Das ist (7.5.10 ) mit sk = tk , wie gewünscht. 

Um diese abstrakte Konstruktion in einer konkreteren Situation zu veranschaulichen,


nehmen wir an, es sei dim V = 8 und N ∈ L (V ) so, dass N 3 = 0 sowie dim U1 = 3 und
dim U2 = 6 ist. Im ersten Schritt der Konstruktion einer Jordan-Basis wählen wir zwei
linear unabhängige Vektoren b13 und b23 in der „Lücke“ W3 zwischen U2 und U3 = V . Als
nächstes betrachten wir N(b13 ) und N(b23 ), die in der „Lücke“ zwischen U1 und U2 liegen
müssen. Wegen 6 − 3 > 2 hat dort noch ein weiterer zu diesen linear unabhängiger Vektor
b12 Platz. Im nächsten Schritt wenden wir N auf diese Vektoren an und erhalten die drei
linear unabhängigen Vektoren N 2 (b13 ), N 2 (b23 ) und N(b12 ), die wegen dim U1 = 3 bereits
eine Basis von U1 bilden. Das Schema auf Seite 170 sieht also so aus:

b13 , b23 ,
N(b13 ), N (b23 ), b12 ,
N 2 (b13 ), N 2 (b23 ), N (b12 ),

das spaltenweise von unten nach oben gelesen folgende Jordan-Basis ergibt:

N 2 (b13 ), N (b13 ), b13 , N 2 (b23 ), N (b23 ), b23 , N (b12 ), b12 .

Aus der allgemeinen Konstruktion ergibt sich noch (Details zur Übung)

sk = (dim Uk − dim Uk−1 ) − (dim Uk+1 − dim Uk )


= dim Uk /Uk−1 − dim Uk+1 /Uk
172 7 Eigenwerte und Normalformen

mit Um+1 = V . Ferner sieht man, dass jedes Kästchen genau einen Eigenvektor generiert
und man so den gesamten Eigenraum zum Eigenwert 0 bekommt; es ist also γ (0) =
s1 + · · · + sm .

Beispiel 7.5.2 Sei V = R3 und N: V → V bzgl. der Einheitsvektorbasis (e1 , e2 , e3 )


durch
⎛ ⎞
013
⎜ ⎟
A = ⎝0 0 2⎠
000

gegeben, d. h. N (v) = Av. Dann ist


⎛ ⎞ ⎛ ⎞
002 000
⎜ ⎟ ⎜ ⎟
A2 = ⎝ 0 0 0 ⎠ , A3 = ⎝ 0 0 0 ⎠ ,
000 000

und N ist nilpotent mit m = 3. Man erkennt

U0 = {0}, U1 = ker N = lin{e1 }, U2 = ker N 2 = lin{e1 , e2 }, U3 = ker N 3 = V .

Wir können daher W3 = lin{e3 } wählen; aus s3 = dim U3 − dim U2 = 1 sieht man sofort,
dass (7.5.1) in diesem Beispiel nur ein Jordan-Kästchen enthält, nämlich
⎛ ⎞
010
⎜ ⎟
J := J (0, 3) = ⎝ 0 0 1 ⎠ .
000

Für die Transformationsmatrix S, die S −1 AS = J liefert, benötigen wir die Basis, die im
obigen Beweis konstruiert wurde. Das ist hier
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
2 3 0
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
N (e3 ) = ⎝ 0 ⎠ , N(e3 ) = ⎝ 2 ⎠ , e3 = ⎝ 0 ⎠ ;
2

0 0 1

daher
⎛ ⎞ ⎛ ⎞
230 2 −3 0
⎜ ⎟ 1⎜ ⎟
S = ⎝0 2 0⎠ und (nachrechnen!) S −1 = ⎝0 2 0⎠.
4
001 0 0 4

Jetzt kommen wir zum Satz über die Jordansche Normalform.


7.5 Die Jordansche Normalform 173

Satz 7.5.3 Sei L: V → V eine lineare Abbildung, deren charakteristisches Polynom in


Linearfaktoren zerfällt. Dann existiert eine Basis von V , bzgl. der die L darstellende
Matrix die Jordansche Normalform
⎛ ⎞
 0 ... 0
⎜0  0⎟
⎜ ⎟
⎜ . .. ⎟
⎜ . .. ⎟ (7.5.2)
⎜ . . . ⎟
⎜ ⎟
⎝  0⎠
0 ... 0 

hat, in der jedes Kästchen  ein Jordan-Kästchen J (μ, p) repräsentiert. Diese ist
eindeutig bis auf die Reihenfolge der Jordan-Kästchen.

Beweis Zur Existenz: Es reicht wegen Satz 7.4.8, solch eine Basis in jedem Hauptraum
U = ker(L − μ Id)n , n = dim V , zu finden. Auf U wirkt L aber wie μ IdU + N ,
N nilpotent. In Satz 7.5.1 wurde eine passende Basis für N konstruiert, so dass in der
Matrixdarstellung von N gewisse Jordan-Kästchen J (0, p) auftreten. Ersetzt man J (0, p)
jeweils durch J (μ, p), bekommt man eine Jordan-Darstellung für L|U : U → U .
Zur Eindeutigkeit: Da (7.5.2) obere Dreiecksgestalt hat, ist μ genau dann ein Eigenwert
von L, wenn J (μ, p) in (7.5.2) vorkommt. Ist b ein zu diesem Kästchen „gehöriger“
Basisvektor, folgt (L − μ Id)p (b) = 0, also auch (L − μ Id)n (b) = 0. Daher sind diese b
im Hauptraum zu μ; dort ist L = μ Id + N mit einer nilpotenten Abbildung N , und die N
darstellende Jordan-Matrix ist nach Satz 7.5.1 eindeutig bestimmt bis auf die Reihenfolge
der Kästchen. Also ist auch (7.5.2) eindeutig bis auf die Reihenfolge der Kästchen. 

Beispiel 7.5.4 Seien


⎛ ⎞
1 0 −1 −1
⎜ ⎟
⎜1 2 1 1⎟
A=⎜ ⎟
⎝0 0 2 0⎠
1 0 1 3

und L = LA : v → Av die zugehörige lineare Abbildung auf R4 . Das charakteristische


Polynom ist hier χL (X) = (X − 2)4 (nachrechnen!). Für die nilpotente Abbildung
N = L − 2 Id ist N = 0, aber N 2 = 0. Daher (vgl. den Beweis von Satz 7.5.1)
kommen in der Jordanschen Normalform von L nur die Kästchen J (2, 1) und J (2, 2)
vor, und zwar entweder zweimal J (2, 2) oder einmal J (2, 2) und zweimal J (2, 1) (warum
ist viermal J (2, 1) ausgeschlossen?); d. h. die Kandidaten für die Jordansche Normalform
sind (irrelevante Nullen werden nicht dargestellt)
174 7 Eigenwerte und Normalformen

⎛ ⎞ ⎛ ⎞
21 21
⎜ ⎟ ⎜ ⎟
⎜ 2 ⎟ ⎜ 2 ⎟
J1 = ⎜ ⎟ bzw. J2 = ⎜ ⎟.
⎝ 2 ⎠ ⎝ 2 1⎠
2 2

Man kann nun z. B. überprüfen, dass rg(L−2 Id) = rg(A−2E4 ) = 1, aber rg(J2 −2E4 ) = 2
ist. Deshalb ist J1 die Jordansche Normalform von L.
Wenn man zusätzlich die zugehörige Jordan-Basis bestimmen will, muss man die
Methode von Satz 7.5.1 auf L − 2 Id anwenden.

Wie im letzten Beispiel spricht man allgemein von der Jordanschen Normalform
einer Matrix bzw. einer zugehörigen Jordan-Basis des K n , wenn man die entsprechende
Abbildung x → Ax betrachtet.
Kommen wir noch einmal auf Beispiel 7.4.10 zurück. Die dort berechneten Vektoren
b1 , b2 , b3 bilden eine Jordan-Basis für A, denn (A − 2E3 )b3 = b2 , und die Jordansche
Normalform lautet
⎛ ⎞
−1 0 0
⎜ ⎟
⎝ 0 2 1⎠.
002

Wegen des Fundamentalsatzes der Algebra besitzt jede lineare Abbildung eines
C-Vektorraums eine Jordansche Normalform. Wir wollen abschließend einen Blick auf
das Normalformenproblem für R-Vektorräume werfen.
Wir betrachten einen n-dimensionalen R-Vektorraum V und darauf eine lineare
Abbildung; nach Wahl einer Basis dürfen wir V = Rn annehmen. Sei also L: Rn → Rn
linear. Dann kann man L zu einer C-linearen Abbildung LC : Cn → Cn erweitern; schreibt
man nämlich v ∈ Cn als v = v1 + iv2 mit v1 , v2 ∈ Rn , so setze nur

LC (v) = L(v1 ) + iL(v2 ).

Es ist klar, dass LC additiv und R-linear ist (d. h. LC (λv) = λLC (v) für reelles λ); es gilt
aber auch

LC (iv) = LC (iv1 − v2 ) = iL(v1 ) − L(v2 )


= i(L(v1 ) + iL(v2 )) = iLC (v)

(im zweiten Schritt wurde die Definition von LC benutzt), und deshalb ist LC auch
C-linear.
Auf der Ebene der Matrizen bedeutet der Übergang von L zu LC , dass man die
darstellende (reelle) Matrix A auch auf Vektoren in Cn anwendet.
7.5 Die Jordansche Normalform 175

Im Folgenden setze zu v = v1 + iv2 wie oben v = v1 − iv2 ; die Koordinaten von v


sind also konjugiert komplex zu denen von v.

Lemma 7.5.5 Sei L: Rn → Rn linear und LC wie oben.


(a) Ist λ ∈ C ein Eigenwert von LC , so auch λ.
(b) Ist v ein Eigenvektor zu λ, so ist v ein Eigenvektor zu λ.

Beweis
(a) folgt aus Lemma 7.1.7, da χL und damit auch χLC reelle Koeffizienten hat.
(b) Sei A die darstellende Matrix von L (und damit auch von LC ). Dann gilt, weil A reell
ist,

Av = Av = λv = λ v.

(Das zeigt übrigens erneut Teil (a).) 

Sei nun L wie oben, λ ∈ C \ R ein Eigenwert von LC mit Eigenvektor v = v1 + iv2 ,
v1 , v2 ∈ Rn . Beachte

1 1
v1 = (v + v), v2 = (v − v). (7.5.3)
2 2i

Schreibt man λ = α + iβ, so erhält man

1 C
L(v1 ) = LC (v1 ) = (L (v) + LC (v))
2
1
= (λv + λ v)
2
1
= (αv1 + iαv2 + iβv1 − βv2 + αv1 − iαv2 − iβv1 − βv2 )
2
= αv1 − βv2

und genauso

L(v2 ) = βv1 + αv2 .


176 7 Eigenwerte und Normalformen

Die Abbildung L lässt den von v1 und v2 aufgespannten 2-dimensionalen5 Unterraum


U ⊂ Rn also invariant, und bzgl. der Basis v1 , v2 sieht die Matrixdarstellung von T |U
so aus:
α β
.
−β α

Sei A eine reelle Matrix, die L und damit auch LC darstellt, sowie J „die“ Jordansche
Normalform von LC . Es existiert also eine komplexe Matrix S mit S −1 AS = J . Dann ist
auch

(S)−1 AS = S −1 AS = S −1 AS = J

eine Jordansche Normalform von LC . Die Matrix J enthält daher dieselben Jordan-
Kästchen wie J . Enthält J andererseits J (μ, p), so enthält J nach Definition J (μ, p).
Deshalb kommt in J mit jedem Kästchen J (μ, p) auch das konjugierte Kästchen J (μ, p)
vor. Ist b1 , . . . , bp eine dem Kästchen J (μ, p) unterliegende Jordan-Basis, so kann man
nach Lemma 7.5.5 b1 , . . . , bp als J (μ, p) unterliegende Jordan-Basis wählen.
Ist μ ∈ R, können auch b1 , . . . , bp ∈ Rn gewählt werden. Sei nun μ = α + iβ ∈ C \ R,
β = 0. Zerlege bk ∈ Cn wie in (7.5.3) in

bk + bk bk − bk
bk = +i =: bk1 + ibk2 ∈ Rn + iRn .
2 2i

Für k ≥ 2 ist

LC (bk ) = μbk + bk−1 ;

und wie auf Seite 175 rechnet man

bk + bk
L(bk1 ) = LC (bk1 ) = LC
2
1
= (bk−1 + bk−1 + μbk + μ bk )
2
= bk−1
1
+ αbk1 − βbk2

und genauso

L(bk2 ) = bk−1
2
+ βbk1 + αbk2 .

5 Da λ und λ linear unabhängige Eigenvektoren haben (Lemma 7.2.6), sind v und v und deshalb
auch v1 und v2 linear unabhängig.
7.6 Der Fundamentalsatz der Algebra 177

Die Vektoren b11 , b12 , b21 , b22 , . . . , bp1 , bp2 bilden eine Basis des von b1 , . . . , bp , b1 , . . . , bp
aufgespannten 2p-dimensionalen Unterraums U von Cn , der unter LC invariant ist. Die
darstellende Matrix von LC |U bzgl. der Basis b11 , b12 , b21 , b22 , . . . , bp1 , bp2 sieht so aus (mit
" αβ# " 1 0#
der Abkürzung D = −β α , E = 0 1 ):

⎛ ⎞
D E 0
⎜ ⎟
⎜ D E ⎟
⎜ ⎟
J˜(μ, 2p) := ⎜
⎜ D ⎟

⎜ .. ⎟
⎝ . E⎠
D

Da diese Basis aus reellen Vektoren besteht, ist das auch eine darstellende Matrix für
L|U ∩Rn .
Daher gilt folgender Satz über die Jordansche Normalform im reellen Fall.

Satz 7.5.6 Sei L: Rn → Rn linear. Dann existiert eine Basis von Rn , so dass die
darstellende Matrix von L die Gestalt
⎛ ⎞

⎜ .. ⎟
⎝ . ⎠


hat und jedes Kästchen entweder von der Form  = J (μ, p) (wenn μ ein reeller
Eigenwert von L ist) oder von der Form  = J˜(μ, 2p) ist (wenn μ eine nichtreelle
Nullstelle von χL ist).

7.6 Der Fundamentalsatz der Algebra

Aus dem Fundamentalsatz der Algebra (Satz 7.1.6) erhält man sofort die folgende
Aussage.

Satz 7.6.1 Jede lineare Abbildung auf einem endlichdimensionalen C-Vektorraum hat
einen Eigenwert.

Im vorliegenden Abschnitt, den man als Anhang zu diesem Kapitel auffassen kann,
werden wir mit Techniken der Linearen Algebra Satz 7.6.1 direkt beweisen und anschlie-
ßend den Fundamentalsatz der Algebra als Korollar ableiten.6 Zu diesem Zweck benötigen

6 Diese Beweisstrategie folgt H. Derksen, The fundamental theorem of algebra and linear algebra.
Amer. Math. Monthly 110 (2003), 620–623.
178 7 Eigenwerte und Normalformen

wir eine Reihe von Lemmata und verwenden mehrfach verwickelte Induktionsargumente.
Das erste dieser Lemmata ist aus der Analysis bekannt; es folgt aus dem Zwischenwertsatz.

Lemma 7.6.2 Jedes Polynom P ∈ R[X] ungeraden Grades hat mindestens eine reelle
Nullstelle.

Daraus erhält man sofort:

Lemma 7.6.3 Ist V ein R-Vektorraum, dim(V ) ungerade und L ∈ L (V ), so besitzt L


mindestens einen reellen Eigenwert.

Um fortzufahren, führen wir eine Sprechweise ein. Wir sagen, dass zwei lineare
Abbildungen L1 , L2 ∈ L (V ) einen gemeinsamen Eigenvektor v (= 0) haben, wenn es
Eigenwerte λ1 von L1 und λ2 von L2 mit L1 v = λ1 v, L2 v = λ2 v gibt.
Wir betrachten ferner folgende Aussagen, in denen K ein Körper und d eine natürliche
Zahl ist:

P1 (K, d): Ist V ein endlichdimensionaler K-Vektorraum, dessen Dimension kein Viel-
faches von d ist, so besitzt jedes L ∈ L (V ) einen (Eigenwert und daher einen)
Eigenvektor.
P2 (K, d): Ist V ein endlichdimensionaler K-Vektorraum, dessen Dimension kein Viel-
faches von d ist, so besitzt jedes Paar kommutierender L1 , L2 ∈ L (V ) einen
gemeinsamen Eigenvektor.

Lemma 7.6.3 besagt also, dass P1 (R, 2) wahr ist, während P1 (R, 3) trivialerweise
falsch ist (Beispiel?).

Lemma 7.6.4 Aus P1 (K, d) folgt P2 (K, d).

Beweis Sei V ein K-Vektorraum, dessen Dimension n kein Vielfaches von d ist, und seien
L1 , L2 ∈ L (V ) kommutierende lineare Abbildungen. Wir müssen unter der Annahme
P1 (K, d) einen gemeinsamen Eigenvektor für L1 und L2 produzieren; das erreichen wir
durch Induktion über diejenigen n, die der Nebenbedingung „n ist kein Vielfaches von d“
unterworfen sind. Der Fall n = 1 ist klar, und wir nehmen nun die Gültigkeit unserer
Behauptung für alle Dimensionen m < n, die kein Vielfaches von d sind, an.
Wir werden an dieser Stelle folgende Variante des Induktionsprinzips verwenden.
Während der übliche Induktionsschluss von n − 1 auf n schließt, schließt man jetzt von
{1, . . . , n − 1} auf n; mit anderen Worten besagt dieses starke Induktionsprinzip:
• Ist N ⊂ N mit 1 ∈ N und gilt n ∈ N , falls {1, . . . , n − 1} ⊂ N, so ist N = N.
(Eigentlich braucht man hier keinen Induktionsanfang, da man dafür den Induktions-
schluss für n = 1 anwenden kann.) Zum Beispiel ist es mit diesem Prinzip ein Leichtes, die
7.6 Der Fundamentalsatz der Algebra 179

Zerlegbarkeit von natürlichen Zahlen ≥ 2 in Primfaktoren zu zeigen, was mit der üblichen
Induktion nicht gelingt.
Zum Beweis des starken Induktionsprinzips aus dem üblichen betrachte N  = {n ∈
N: {1, . . . , n} ⊂ N}. Dank der neuen Induktionsvoraussetzung zeigt die übliche Induktion
N  = N, also folgt N = N, da ja N  ⊂ N.
Zurück zum Beweis des Lemmas. Nach Voraussetzung hat L1 einen Eigenwert λ1 ; setze
W = ker(L1 − λ1 Id), Z = ran(L1 − λ1 Id). Da L1 und L2 und deshalb auch L1 − λ1 Id
und L2 kommutieren, zeigt Lemma 7.4.1 L2 (W ) ⊂ W und L2 (Z) ⊂ Z, und natürlich
L1 (W ) ⊂ W und L1 (Z) ⊂ Z. Ferner ist dim W + dim Z = n sowie dim W ≥ 1.
Nun sind die Fälle W = V und W = V zu unterscheiden. Im ersten Fall ist L1 = λ1 Id,
und nach Voraussetzung P1 (K, d) hat auch L2 eine Eigenvektor, der dann natürlich auch
Eigenvektor für L1 ist. Im zweiten Fall ist 1 ≤ dim W < n und 1 ≤ dim Z < n, und
nicht beide diese Dimensionen können Vielfache von d sein (sonst wäre es n auch). Also
kann die Induktionsvoraussetzung auf einen der Räume W und Z mit den entsprechenden
Einschränkungen von L1 und L2 angewandt werden und liefert einen gemeinsamen
Eigenvektor. 

Aus Lemma 7.6.3 und Lemma 7.6.4 ergibt sich folgendes Korollar.

Lemma 7.6.5 Ist V ein R-Vektorraum ungerader Dimension, so besitzt jedes Paar
kommutierender L1 , L2 ∈ L (V ) einen gemeinsamen Eigenvektor.

Nun wollen wir P1 (C, 2) beweisen.

Lemma 7.6.6 Ist A ∈ Cn×n und n ungerade, so hat A einen Eigenwert.

Beweis Es sei V = H (Cn ) der R-Vektorraum der selbstadjungierten komplexen n × n-


Matrizen. Eine Basis von V sieht so aus (Ej l bezeichnet die n × n-Matrix, die in der j -ten
Zeile und l-ten Spalte eine 1 und sonst nur Nullen hat):

Ej l + Elj (1 ≤ j < l ≤ n), i(Ej l − Elj ) (1 ≤ j < l ≤ n), Ejj (1 ≤ j ≤ n).

Daher ist dim V = n2 , also ungerade.


Nun betrachten wir folgende Abbildungen L1 , L2 ∈ L (V ):

AB + BA∗ AB − BA∗
L1 (B) = , L2 (B) = .
2 2i

(Man beachte, dass diese Matrizen wirklich selbstadjungiert sind.) Man bestätigt, dass L1
und L2 kommutieren, und kann also Lemma 7.6.5 anwenden. Dies liefert reelle Zahlen
λ1 , λ2 und eine Matrix B = 0 mit
180 7 Eigenwerte und Normalformen

L1 (B) = λ1 B, L2 (B) = λ2 B.

Deswegen ist L1 (B)+iL2 (B) = (λ1 +iλ2 )B, aber nach Definition ist L1 (B) + iL2 (B) =
AB, so dass mit λ = λ1 + iλ2 ∈ C

AB = λB

folgt. Jede von 0 verschiedene Spalte von B ist somit ein Eigenvektor von A zum
Eigenwert λ, und Lemma 7.6.6 ist bewiesen. 

Damit ist Satz 7.6.1 für C-Vektorräume ungerader Dimension bewiesen. Den Rest
erledigt wieder eine raffinierte Induktion.

Lemma 7.6.7 Es gilt P1 (C, 2k ) für alle k ∈ N.

Beweis Der Fall k = 1 ist in Lemma 7.6.6 abgehandelt. Nehmen wir nun als Indukti-
onsvoraussetzung die Gültigkeit von P1 (C, 2k−1 ) und damit wegen Lemma 7.6.4 auch
P2 (C, 2k−1 ) an, und sei A ∈ Cn×n , wo n kein Vielfaches von 2k ist. Wenn n auch kein
Vielfaches von 2k−1 ist, kann man sofort die Induktionsvoraussetzung anwenden; also
müssen wir Dimensionen n = 2k−1 m mit ungeradem m betrachten.
Wie im letzten Beweis werden wir die Induktionsvoraussetzung auf geeignete Matrix-
räume anwenden. Diesmal betrachten wir den C-Vektorraum

V = {B ∈ Cn×n : B = −B t }

der „schiefsymmetrischen“ komplexen Matrizen. Eine Basis dieses Vektorraums ist durch
die n(n−1)
2 Matrizen

Ej l − Elj (1 ≤ j < l ≤ n)

gegeben; die Dimension von V ist also ein ungerades Vielfaches von 2k−2 und daher kein
Vielfaches von 2k−1 .
Seien L1 , L2 ∈ L (V ) durch

L1 (B) = AB + BAt , L2 (B) = ABAt

definiert; wiederum ist zu beachten, dass diese Matrizen schiefsymmetrisch sind und dass
L1 und L2 kommutieren.
Die Induktionsvoraussetzung liefert komplexe Zahlen λ1 , λ2 und eine komplexe Matrix
B = 0 mit

L1 (B) = λ1 B, L2 (B) = λ2 B,
7.6 Der Fundamentalsatz der Algebra 181

also

λ2 B = ABAt = A(λ1 B − AB),

d. h.

(A2 − λ1 A + λ2 En )B = 0.

Wir betrachten jetzt das komplexe Polynom X2 − λ1 X + λ2 , das wir mit geeigneten
α, β ∈ C als (X − α)(X − β) faktorisieren (siehe das folgende Lemma 7.6.8). Jede von 0
verschiedene Spalte v von B erfüllt daher

(A − αEn )(A − βEn )v = 0.

Falls w := (A − βEn )v = 0 ist, ist β ein Eigenwert von A (mit Eigenvektor v); ist w = 0,
ist α ein Eigenwert von A (mit Eigenvektor w).
Damit ist gezeigt, dass A einen Eigenwert hat, was den Induktionsbeweis von
P1 (C, 2k ) abschließt. 

Es bleibt noch ein Lemma nachzutragen.

Lemma 7.6.8 Jedes quadratische Polynom über C zerfällt in Linearfaktoren.

Beweis Um das einzusehen, müssen wir die p-q-Formel im Kontext komplexer Zahlen
verstehen, insbesondere muss die Existenz von Wurzeln
$ aus komplexen Zahlen gezeigt
werden: Sei z = x + iy ∈ C mit x, y ∈ R. Sei r = x 2 + y 2 sowie σ = 1 für y ≥ 0
und σ = −1 für y < 0; dann rechnet man leicht nach (hier gehen nur Wurzeln aus
nichtnegativen reellen Zahlen ein), dass
' ' 2
r +x r −x
+ iσ = z.
2 2

Schreibt man für die Klammer abkürzend z, so sieht man, dass das Polynom X2 +pX+q
die Nullstellen
'
p p 2
z1/2 =− ± −q
2 2

hat, also zerfällt

X2 + pX + q = (X − z1 )(X − z2 ). 
182 7 Eigenwerte und Normalformen

Die obige Beschreibung der Wurzel einer komplexen Zahl ist insofern unbefriedigend,
als nicht klar ist, wie man sie erhält. In der Analysis lernt man die Polarzerlegung einer

komplexen Zahl in der Form z = reiϕ , und dann ist reiϕ/2 eine Wurzel aus z.
Für den Beweis von Satz 7.6.1 ist jetzt nur noch Lemma 7.6.7 mit einem passenden k
(z. B. 2k > dim(V )) anzuwenden. 

Als Korollar von Satz 7.6.1 erhält man den Fundamentalsatz der Algebra, und zwar so.
Sei P (X) = Xn + an−1 Xn−1 + · · · + a1 X + a0 ∈ C[X] ein nichtkonstantes Polynom
(offenbar ist es keine Einschränkung, an = 1 anzusetzen). Es sei A die komplexe n × n-
Matrix (die Begleitmatrix des Polynoms)
⎛ ⎞
0 1 0 0
⎜ ⎟
⎜ .. ⎟
⎜ 0 0 1 . 0 ⎟
⎜ ⎟
A=⎜
⎜ 0 0 0
..
.
..
.
⎟.

⎜ ⎟
⎜ .. ⎟
⎝ . 1 ⎠
−a0 −a1 −a2 . . . −an−1

Die Entwicklung von det(A − XEn ) nach der letzten Zeile zeigt

χA (X) = det(A − XEn ) = (−1)n P (X).

Nach Satz 7.6.1 hat A einen komplexen Eigenwert, also hat P eine komplexe Nullstelle.
Wenn aber jedes nichtkonstante Polynom eine Nullstelle hat, zerfällt es in Linearfaktoren,
wie (7.1.3) auf Seite 144 zeigt. 
Für welche anderen Körper gilt die Aussage des Fundamentalsatzes? Definitionsgemäß
sind das die algebraisch abgeschlossenen Körper; explizit heißt ein Körper K algebraisch
abgeschlossen, wenn jedes Polynom P ∈ K[X] eine Nullstelle in K hat (und daher in
Linearfaktoren zerfällt, siehe (7.1.3)).
Ein in der Algebra und Zahlentheorie wichtiges Beispiel ist der Körper Q der
algebraischen Zahlen; dabei heißt eine komplexe Zahl λ algebraisch, wenn es ein von 0
verschiedenes Polynom P ∈ Q[X] mit P (λ) = 0 gibt. Es ist alles andere als offensichtlich,
aber richtig, dass Q ein Körper ist (das zeigen wir am Ende von Abschn. 10.3), geschweige
denn, dass Q algebraisch abgeschlossen ist. Eine nicht algebraische komplexe Zahl heißt
transzendent. Die berühmten und sehr schwierigen Sätze von Hermite bzw. Lindemann
besagen, dass e bzw. π transzendent sind. Zu diesem Themenkreis vgl. F. Toeniessen, Das
Geheimnis der transzendenten Zahlen. Springer, 2. Auflage 2019.
7.7 Aufgaben 183

Nach einem Satz von Steinitz7 ist es möglich, jeden Körper zu einem kleinstmöglichen
algebraisch abgeschlossenen Körper zu erweitern (wie R zu C oder Q zu Q), der
algebraischer Abschluss genannt wird.

7.7 Aufgaben

Aufgabe 7.7.1 Sei deg(P ) ∈ {−∞} ∪ N0 der Grad eines Polynoms P mit Koeffizienten
aus einem Körper K. Zeigen Sie (mit der Konvention, dass −∞ + d = −∞ für d ∈
{−∞} ∪ N0 )

deg(P + Q) ≤ max{deg(P ), deg(Q)}, deg(P Q) = deg(P ) + deg(Q)

für Polynome P und Q.

Aufgabe 7.7.2 Sei b1 , . . . , bn eine geordnete Basis des K-Vektorraums V , sei L ∈


L (V ), und sei M die bzgl. b1 , . . . , bn darstellende Matrix von L. Sei λ ∈ K; wir wissen
bereits, dass λ genau dann ein Eigenwert von L ist, wenn es ein Eigenwert von M ist. Es
sei U ⊂ V der zugehörige Eigenraum von L, und sei Z ⊂ K n der zugehörige Eigenraum
von M. Zeigen Sie dim(U ) = dim(Z).

Aufgabe 7.7.3 Seien A eine komplexe n × n-Matrix und χA ihr charakteristisches


Polynom,

χ (A)(X) = an Xn + · · · + a1 X + a0 .

Wir wissen bereits, dass an = (−1)n und a0 = det A ist. Bestimmen Sie an−1 und
schließen Sie, dass die Spur von A mit der Summe der in ihrer Vielfachheit gezählten
Eigenwerte übereinstimmt:

n
λj = tr(A).
j =1

(Die Spur wurde in Beispiel 3.1.2(f) eingeführt.)

Aufgabe 7.7.4 Seien V ein K-Vektorraum und L ∈ L (V ). Jeder Vektor in V \ {0} sei
ein Eigenvektor von L. Zeigen Sie, dass L = α Id für ein geeignetes α ∈ K ist.

7 Diesen Namen kennen Sie vom Steinitzschen Austauschsatz, Satz 2.2.14.


184 7 Eigenwerte und Normalformen

Aufgabe 7.7.5 Bestimmen Sie die Eigenwerte und die zugehörigen Eigenräume für die
komplexe Matrix
⎛ ⎞
10 i
⎜ ⎟
⎝ 0 2 0⎠.
−i 0 1

Aufgabe 7.7.6 Zu einer komplexen n × n-Matrix A = (aj k ) setze

ρj (A) = |aj k | (j = 1, . . . , n)
k=j

und
Gj (A) = {z ∈ C: |z − ajj | ≤ ρj (A)};

dies sind die sogenannten Gerschgorinschen Kreise. Zeigen Sie


n
σ (A) ⊂ Gj (A).
j =1

(Hinweis: Betrachten Sie die betragsgrößte Komponente eines Eigenvektors zu einem


Eigenwert.)

Aufgabe 7.7.7 In dieser Aufgabe sollen Sie zeigen, dass jede komplexe n × n-Matrix,
A, einen Eigenwert besitzt, ohne das charakteristische Polynom zu benutzen. (Der
Fundamentalsatz der Algebra wird aber benutzt.) Folgen Sie folgender Anleitung.
(a) Bestimmen Sie eine natürliche Zahl N, so dass En , A, A2 , . . . , AN im Vektorraum
Cn×n linear abhängig sind.
(b) Zeigen Sie, dass es ein Polynom P positiven Grades gibt, für das P (A) = 0 ist.
(c) Sei nun  ein Polynom minimalen Grades, für das (A) = 0 gilt (warum gibt es
so ein Polynom?), sei λ eine Nullstelle von  (warum hat  eine Nullstelle?), und
schreiben Sie (X) = Q(X)(X − λ).
(d) Zeigen Sie, dass A − λEn nicht invertierbar ist.

Aufgabe 7.7.8 Seien A und B (reelle oder komplexe) n × n-Matrizen. Zeigen Sie
σ (AB) = σ (BA), indem Sie
(a) zuerst λ = 0 betrachten,
(b) dann für ein λ = 0, das kein Eigenwert von AB ist,

(B(AB − λEn )−1 A − En )(BA − λEn )

ausrechnen.
7.7 Aufgaben 185

Aufgabe 7.7.9 Sei V der von den Funktionen f1 : R → R, f1 (x) = cos x, f2 : R → R,


f2 (x) = sin x, und f3 : R → R, f3 (x) = 1 aufgespannte Unterraum des R-Vektorraums
aller Funktionen von R nach R. Sei L: V → V der Ableitungsoperator, L(f ) = f  . Ist L
diagonalisierbar?

Aufgabe 7.7.10 Bestimmen Sie die Eigenwerte und Eigenräume der reellen Matrix
⎛ ⎞
201
⎜ ⎟
⎝0 1 0⎠.
002

Ist diese Matrix diagonalisierbar?

Aufgabe 7.7.11 Sei A eine n × n-Matrix, die obere Dreiecksgestalt hat. Zeigen Sie, dass
A genau dann invertierbar ist, wenn kein Eintrag auf der Diagonalen = 0 ist,
(a) mit Hilfe des charakteristischen Polynoms bzw. der Determinante von A,
(b) ohne das charakteristische Polynom bzw. die Determinante von A zu benutzen.

Aufgabe 7.7.12 Seien L1 , L2 ∈ L (V ), und sei L1 L2 nilpotent. Zeigen Sie, dass auch
L2 L1 nilpotent ist.

Aufgabe 7.7.13 Seien L ∈ L (V ) nilpotent sowie v ∈ V und r ∈ N mit Lr (v) = 0.


Zeigen Sie, dass v, L(v), . . . , Lr (v) linear unabhängig sind.

Aufgabe 7.7.14 Sei A eine diagonalisierbare n × n-Matrix über einem Körper K; die
paarweise verschiedenen Eigenwerte von A seien μ1 , . . . , μr . Sei P (X) = (X − μ1 )
· · · (X − μr ).
(a) Zeigen Sie P (A) = 0.
(b) Stimmt das auch, wenn A nicht diagonalisierbar ist?

Aufgabe 7.7.15 Seien V ein endlichdimensionaler Vektorraum und L ∈ L (V ). Dann


nennt man zu gegebenem v ∈ V \ {0} und j ∈ N

Kj (v) = lin{v, L(v), . . . , Lj −1 (v)}

den j -ten Krylov-Raum zu v. Man setzt noch K0 (v) = {0}. Es sei ferner m ∈ N die
kleinste ganze Zahl, für die v, L(v), . . . , Lm (v) linear abhängig sind. Zeigen Sie:
(a) K0 (v)  K1 (v)  · · ·  Km (v) = Km+1 (v) = Km+2 (v) = · · · .
(b) dim Kj (v) = j für j = 0, . . . , m.
(c) L(Km (v)) ⊂ Km (v).
(d) Ist U ein Unterraum von V mit L(U ) ⊂ U und v ∈ U , so ist auch Km (v) ⊂ U .
186 7 Eigenwerte und Normalformen

Aufgabe 7.7.16 Verifizieren Sie den Satz von Cayley-Hamilton für 2 × 2-Matrizen über
einem beliebigen Körper.

Aufgabe 7.7.17 Sei A eine komplexe n × n-Matrix.


(a) Zeigen Sie, dass es genau ein Polynom μA (X) minimalen Grades und mit führendem
Koeffizienten 1 gibt, so dass μA (A) = 0. (Siehe Aufgabe 7.7.7.) μA heißt das
Minimalpolynom von A.
(b) μA (X) teilt jedes Polynom P (X) mit P (A) = 0; insbesondere teilt μA das
charakteristische Polynom.
(c) Die Nullstellen von μA sind genau die Eigenwerte von A.
(d) A ist genau dann diagonalisierbar, wenn alle Nullstellen von μA (X) einfach sind.

Aufgabe 7.7.18 Sei V ein n-dimensionaler C-Vektorraum, L ∈ L (V ), und sei λ ein


Eigenwert von L. Zeigen Sie, dass L − λ Id: ran(L − λ Id)n → ran(L − λ Id)n , also
aufgefasst als Abbildung von ran(L − λ Id)n in sich, bijektiv ist.

Aufgabe 7.7.19 Bestimmen Sie eine Jordan-Basis für die Matrix aus Beispiel 7.5.4.

Aufgabe 7.7.20 Bestimmen Sie die Jordansche Normalform und eine Jordan-Basis für
die Matrix
⎛ ⎞
2 5 0 0 0
⎜0 2 0 0 0⎟
⎜ ⎟
⎜ ⎟
A = ⎜0 0 −1 0 −1 ⎟ .
⎜ ⎟
⎝0 0 0 −1 0 ⎠
0 0 0 0 −1

Aufgabe 7.7.21 Zeigen Sie, dass die im Beweis von Lemma 7.6.6 angegebenen Matrizen
eine Basis des R-Vektorraums H (Cn ) bilden.

Aufgabe 7.7.22 In dieser Aufgabe geht es um die Objekte V , L1 und L2 aus Lem-
ma 7.6.7.
(a) Zeigen Sie, dass die dort angegebenen Matrizen Ej l − Elj eine Basis von V bilden.
(b) Zeigen Sie, dass für B ∈ V auch L1 (B) und L2 (B) in V liegen.
(c) Zeigen Sie, dass L1 und L2 kommutieren.
Eigenwerttheorie in Innenprodukträumen
8

8.1 Selbstadjungierte Abbildungen und Matrizen

Dieses Kapitel handelt davon, wie man die Eigenwerttheorie in Innenprodukträumen ver-
feinern kann. Die für dieses Kapitel gültige Konvention soll sein, dass mit V stets ein end-
lichdimensionaler Innenproduktraum mit Skalarprodukt . , . " über K = R oder K = C
gemeint ist.
Zuerst beschäftigen wir uns mit selbstadjungierten Abbildungen und Matrizen.

Satz 8.1.1 Ist L ∈ L (V ) selbstadjungiert, so ist jeder Eigenwert reell. Eine analoge
Aussage gilt für selbstadjungierte Matrizen.

Beweis Im Fall K = R ist nichts zu zeigen, da dann Eigenwerte definitionsgemäß reell


sind.
Im Fall K = C sei λ ∈ C ein Eigenwert mit zugehörigem Eigenvektor v (= 0). Dann
ist

λ$v$2 = λv, v" = Lv, v" = v, Lv" = v, λv" = λ$v$2

und deshalb λ = λ, also λ ∈ R. 

Satz 8.1.2 Seien λ und μ verschiedene Eigenwerte der selbstadjungierten Abbildung L ∈


L (V ) mit zugehörigen Eigenvektoren v und w. Dann sind v und w orthogonal. Eine
analoge Aussage gilt für selbstadjungierte Matrizen.

© Der/die Autor(en), exklusiv lizenziert an Springer Nature Switzerland AG 2022 187


D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2_8
188 8 Eigenwerttheorie in Innenprodukträumen

Beweis Es ist

λ v, w" = λv, w" = Lv, w" = v, Lw" = v, μw" = μ v, w"

(für den letzten Schritt beachte, dass μ wegen Satz 8.1.1 reell ist), und aus λ = μ folgt
jetzt v, w" = 0. 

Um die Hauptraumzerlegung anzuwenden, benötigen wir das folgende wichtige


Lemma.

Lemma 8.1.3 Sei L ∈ L (V ) selbstadjungiert. Dann gilt

ker(L) = ker(L2 ). (8.1.1)

Beweis Die Inklusion „⊂“ ist klar. Gelte umgekehrt L2 (v) = 0; dann ist auch

0 = L2 (v), v" = L(v), L(v)" = $L(v)$2 ,

also L(v) = 0 und v ∈ ker(L). 

Sei jetzt λ (∈ R!) ein Eigenwert von L. Wendet man Lemma 8.1.3 auf L − λ Id an
(wegen λ ∈ R ist L − λ Id selbstadjungiert), ergibt sich aus Korollar 7.4.11, dass der
Hauptraum zu λ mit dem Eigenraum übereinstimmt. Im komplexen Fall liefert dasselbe
Korollar also, dass L diagonalisierbar ist.
Gehen wir einen Schritt weiter. In jedem Eigenraum ker(L − μk Id) wählen wir
eine Orthonormalbasis. Da Eigenvektoren zu verschiedenen Eigenwerten orthogonal
sind (Satz 8.1.2), erhält man auf diese Weise eine Orthonormalbasis von V , die aus
Eigenvektoren von L besteht.
Wir fassen zusammen:

Satz 8.1.4 Zu jeder selbstadjungierten Abbildung L ∈ L (V ) auf einem komplexen


endlichdimensionalen Innenproduktraum gibt es eine Orthonormalbasis von V , die aus
Eigenvektoren von L besteht.

Die Matrixversion dieses Satzes lautet so.

Korollar 8.1.5 Jede selbstadjungierte Matrix A ∈ Cn×n ist unitär ähnlich zu einer
Diagonalmatrix, d. h. es existiert eine unitäre Matrix U mit U ∗ AU = diag(λ1 , . . . , λn ).

Beweis Es ist nur zu beachten, dass A überhaupt diagonalisierbar ist (siehe oben!), also
S −1 AS = diag(λ1 , . . . , λn ) mit einer geeigneten invertierbaren Matrix S, deren Spalten
aus den Eigenvektoren zu den λj bestehen. Wählt man speziell eine Orthonormalbasis aus
8.1 Selbstadjungierte Abbildungen und Matrizen 189

Eigenvektoren zu LA : x → Ax (Satz 8.1.4), so sind die Spalten von S orthonormal und


bilden deshalb (Korollar 6.3.16) eine unitäre Matrix, die mit U statt S bezeichnet sei, und
dann ist S −1 = U −1 = U ∗ (Letzteres, da U unitär ist). 

Nun soll der reelle Fall behandelt werden; dieser ist überschaubarer in der Welt
der Matrixdarstellungen zu erklären. Sei A eine reelle selbstadjungierte Matrix, diese
können wir als selbstadjungierte Matrix in Cn×n auffassen, die zufällig reelle Einträge
hat. Über C zerfällt das charakteristische Polynom; aber nach Satz 8.1.1 sind sämtliche
Nullstellen reell, und χA zerfällt auch in R[X]. Damit führt das gleiche Argument wie
oben zum reellen Analogon von Korollar 8.1.5 bzw. Satz 8.1.4. Im reellen Fall gilt auch
die Umkehrung dieser Aussagen, die über C gewiss nicht gilt (betrachte z. B. L = i Id,
siehe Satz 8.2.5 zur Umkehrung im komplexen Fall); das besagt der nächste Satz.

Satz 8.1.6 Sei V ein reeller endlichdimensionaler Innenproduktraum, und sei L ∈ L (V ).


Genau dann besitzt V eine Orthonormalbasis aus Eigenvektoren von L, wenn L selbstad-
jungiert ist.

Beweis Es ist nur noch die Notwendigkeit der Selbstadjungiertheit zu begründen. Sei
u1 , . . . , un eine Orthonormalbasis aus Eigenvektoren von L. Das bedeutet, dass die
Matrixdarstellung M von L bzgl. dieser Basis diagonal ist: M = diag(λ1 , . . . , λn ) mit
den Eigenwerten λ1 , . . . , λn , die ja reell sind. Nun hat L∗ die Matrixdarstellung M ∗
(Satz 6.3.5), und M = M ∗ wegen λj ∈ R. Also ist nach Satz 3.3.3 L = L∗ , d. h. L
ist selbstadjungiert. 

Korollar 8.1.7 Genau dann ist eine reelle Matrix A ∈ Rn×n orthogonal ähnlich
zu einer Diagonalmatrix, d. h. es existiert eine orthogonale Matrix U mit U ∗ AU =
diag(λ1 , . . . , λn ), wenn A selbstadjungiert ist.

Der folgende Satz beschreibt die Spektralzerlegung selbstadjungierter Abbildungen;


hier kann K = R oder K = C sein.

Satz 8.1.8 Sei L ∈ L (V ) selbstadjungiert, sei u1 , . . . , un eine Orthonormalbasis aus


Eigenvektoren zu den Eigenwerten λ1 , . . . , λn . Dann gilt

n
L(v) = λj v, uj "uj für alle v ∈ V .
j =1

n
Beweis Sei v ∈ V . Aus Satz 6.2.7 wissen wir, dass v als j =1 v, uj "uj geschrieben
werden kann. Es folgt
190 8 Eigenwerttheorie in Innenprodukträumen

n n
L(v) = v, uj "L(uj ) = λj v, uj "uj ,
j =1 j =1

was zu zeigen war. 

Dieses Resultat kann auch so beschrieben werden. Es seien μ1 , . . . , μk die paarweise


verschiedenen Eigenwerte der selbstadjungierten Abbildung L. Jeder Eigenwert werde
nach seiner (geometrischen = algebraischen) Vielfachheit wiederholt; so entsteht (modulo
Umordnung) die Eigenwert folge in Satz 8.1.8:

(λ1 , . . . , λn ) = (μ1 , . . . , μ1 , μ2 , . . . , μ2 , . . . , μk , . . . , μk ),

wobei μj insgesamt dj = dim ker(L−μj Id)-mal auftritt. Damit ist {1, . . . , n} in k Blöcke
Bj zerlegt, die man so beschreiben kann: i ∈ Bj genau dann, wenn λi = μj .
Es bezeichne Pj die Orthogonalprojektion auf den Eigenraum ker(L − μj Id). Nach

Satz 6.2.10 gilt Pj (v) = i∈Bj v, ui "ui , und daher wird aus der Darstellung von L(v)
aus Satz 8.1.8

k
L(v) = μj Pj (v).
j =1

Kompakter formuliert gilt folgendes Korollar.

Korollar 8.1.9 Unter den obigen Voraussetzungen ist

k
L= μj Pj . (8.1.2)
j =1

Das kann man als Zerlegung der selbstadjungierten Abbildung L in ihre einfachsten
Bestandteile ansehen. Zur Erinnerung: Orthogonalprojektion en sind selbstadjungiert;
siehe Beispiel 6.3.11.

Beispiel 8.1.10 Man bestimme eine Orthonormalbasis des R3 (mit dem euklidischen
Skalarprodukt) aus Eigenvektoren der Matrix
⎛ ⎞
011
⎜ ⎟
A = ⎝1 0 0⎠.
100

Zur Bestimmung der Eigenwerte von A berechnen wir durch Entwicklung nach der letzten
Zeile
8.1 Selbstadjungierte Abbildungen und Matrizen 191

⎛ ⎞
−λ 1 1
⎜ ⎟ 1 1 −λ 1
χA (λ) = det ⎝ 1 −λ 0 ⎠ = det − λ det
−λ 0 1 −λ
1 0 −λ

= λ − λ(λ2 − 1) = −λ(λ2 − 2),


√ √
so dass 0, 2 und − 2 die Eigenwerte von A sind. Zur Berechnung der Eigenvektoren
benutzen wir Zeilenreduktion:
⎛ ⎞ ⎛ ⎞
011 100
⎜ ⎟ ⎜ ⎟
A − 0E3 = ⎝ 1 0 0 ⎠ ; ⎝ 0 1 1 ⎠ ,
100 000

also ist
⎛ ⎞
0
⎜ ⎟
⎝ −1 ⎠
1

ein Eigenvektor zum Eigenwert 0. Genauso erhält man


⎛ √ ⎞ ⎛ √ ⎞
− 2 1 1 − 2 1 1
√ ⎜ √ ⎟ ⎜ 0 −√2 + √1 √1 ⎟
A− 2E3 = ⎝ 1 − 2 0 ⎠ ; ⎝ ⎠
√ 2 √ 2
1 0 − 2 0 √1 − 2+ √1
2 2
⎛ √ ⎞ ⎛ √ ⎞
− 2 1 1 − 2 1 1
⎜ ⎟ ⎜ ⎟
; ⎝ 0 −1 1 ⎠ ; ⎝ 0 −1 1 ⎠
0 1 −1 0 0 0

mit einem Eigenvektor


⎛√ ⎞
2
⎜ ⎟
⎝ 1 ⎠.
1

Eine ähnliche Rechnung für den dritten Eigenwert produziert den Eigenvektor
⎛ √ ⎞
− 2
⎜ ⎟
⎝ 1 ⎠.
1
192 8 Eigenwerttheorie in Innenprodukträumen

Diese Vektoren sind orthogonal, aber noch nicht normiert. Die gesuchte Orthonormalbasis
ist daher
⎛ ⎞ ⎛ √ ⎞ ⎛ √ ⎞
0 1/ 2 −1/ 2
⎜ √ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ −1/ 2 ⎠ , ⎝ 1/2 ⎠ , ⎝ 1/2 ⎠ .

1/ 2 1/2 1/2

Ferner erkennt man die Diagonalisierung


⎛ √ √ ⎞ ⎛ √ √ ⎞ ⎛ ⎞
0 −1/ 2 1/ 2 0 1/ 2 −1/ 2 0 0 0
⎜ √ ⎟ ⎜ √ ⎟ ⎜ √ ⎟
⎝ 1/ 2 1/2 1/2 ⎠ A ⎝ −1/ 2 1/2 1/2 ⎠ = ⎝ 0 2 0 ⎠ .
√ √ √
−1/ 2 1/2 1/2 1/ 2 1/2 1/2 0 0 − 2

8.2 Normale Abbildungen und Matrizen

Als nächstes werden wir die Diagonalisierbarkeit normaler Abbildungen und Matrizen
besprechen. Wir beginnen mit einem Korollar zu Satz 6.3.12. Weiterhin bezeichnet V
einen endlichdimensionalen Innenproduktraum, der diesmal auch komplex sein darf.

Korollar 8.2.1 Sei L ∈ L (V ) normal. Ist λ ein Eigenwert von L mit Eigenvektor v, so
ist λ ein Eigenwert von L∗ , und v ist ebenfalls ein Eigenvektor dazu.

Beweis Das folgt sofort, wenn man Satz 6.3.12 auf die normale Abbildung T = L − λ Id
anwendet, denn dieses Resultat liefert 0 = $T (v)$ = $T ∗ (v)$; aus L(v) = λv folgt daher
L∗ (v) = λv. 

Der nächste Satz ist analog zu Satz 8.1.2.

Satz 8.2.2 Sei L ∈ L (V ) normal. Dann sind Eigenvektoren zu verschiedenen Eigenwer-


ten orthogonal.

Beweis Seien λ = μ Eigenwerte von L mit Eigenvektoren v bzw. w, d. h. L(v) = λv und


L(w) = μw. Dann gilt

λ v, w" = λv, w" = Lv, w"


= v, L∗ w" = v, μw" = μ v, w";

im vorletzten Schritt ging Korollar 8.2.1 ein. Wegen λ = μ muss v, w" = 0 sein. 

Wir notieren ein weiteres nützliches Lemma.


8.2 Normale Abbildungen und Matrizen 193

Lemma 8.2.3 Sei L ∈ L (V ) normal, und sei U ⊂ V ein Unterraum. Dann sind folgende
Aussagen äquivalent:
(i) L(U ) ⊂ U .
(ii) L∗ (U ) ⊂ U .
(iii) L(U ⊥ ) ⊂ U ⊥ .

Beweis (i) ⇒ (ii): Seien u1 , . . . , um eine Orthonormalbasis von U und um+1 , . . . , un eine
Orthonormalbasis von U ⊥ , so dass u1 , . . . , un eine Orthonormalbasis von V ist. Wegen
L(U ) ⊂ U ist

m
L(uk ) = Luk , uj "uj
j =1

sowie
n
L∗ (uk ) = L∗ uk , uj "uj ,
j =1

jeweils für k = 1, . . . , m. Da L normal ist, muss stets $L(uk )$ = $L∗ (uk )$ sein
(Satz 6.3.12), daher (Satz 6.2.7)

m n
| Luk , uj "|2 = | L∗ uk , uj "|2 .
j =1 j =1

Aber

L∗ uk , uj " = uk , Luj " = Luj , uk ",

also
m m m n
| Luk , uj "|2 = | L∗ uk , uj "|2
k=1 j =1 k=1 j =1
m m m n
= | Luj , uk "|2 + | L∗ uk , uj "|2
k=1 j =1 k=1 j =m+1

und deshalb
m n
| L∗ uk , uj "|2 = 0.
k=1 j =m+1
194 8 Eigenwerttheorie in Innenprodukträumen

Das zeigt L∗ uk , uj " = 0 für k = 1, . . . , m, j = m + 1, . . . , n, mit anderen Worten


L∗ uk ∈ U ⊥⊥ = U für k = 1, . . . , m. Das beweist L∗ (U ) ⊂ U .
(ii) ⇒ (iii): Seien u ∈ U und u⊥ ∈ U ⊥ . Dann ist

u, Lu⊥ " = L∗ u, u⊥ " = 0,

da L∗ u ∈ U . Das zeigt Lu⊥ ∈ U ⊥ , d. h. L(U ⊥ ) ⊂ U ⊥ .


(iii) ⇒ (i): Da die Implikation (i) ⇒ (iii) schon gezeigt ist, folgt aus (iii), dass
L(U ⊥⊥ ) ⊂ U ⊥⊥ , also (Korollar 6.2.12) L(U ) ⊂ U . 

Zur Vorbereitung des Hauptsatzes dieses Abschnitts beweisen wir ein weiteres Lemma.

Lemma 8.2.4 Für eine normale Abbildung L ∈ L (V ) gilt ker(L2 ) = ker(L).

Beweis Eine Inklusion ist klar. Gelte also L2 (v) = 0; wir müssen L(v) = 0 zeigen.
Zunächst ergibt sich aus der Normalität von L

0 = L∗ L∗ (L2 v) = (L∗ L)2 (v).

Aber L∗ L ist selbstadjungiert, also schließen wir aus Lemma 8.1.3, dass auch
(L∗ L)(v) = 0 folgt. Letzteres impliziert

0 = (L∗ L)(v), v" = Lv, Lv" = $Lv$2 ,

und es folgt L(v) = 0. 

Wir kommen zum Analogon zu Satz 8.1.6 für komplexe Innenprodukträume.

Satz 8.2.5 Sei V ein endlichdimensionaler komplexer Innenproduktraum, und sei


L∈L (V ). Genau dann besitzt V eine Orthonormalbasis aus Eigenvektoren von L, wenn
L normal ist.

Beweis Wenn L normal ist, zeigt Lemma 8.2.4, dass das Kriterium aus Korollar 7.4.11
erfüllt ist; zur Erinnerung: Mit L ist auch L − μ Id normal. Daher ist L diagonalisierbar.
Nach Satz 8.2.2 sind Eigenvektoren zu verschiedenen Eigenwerten orthogonal. Wählt man
in jedem Eigenraum eine Orthonormalbasis, erhält man auf diese Weise eine Orthonor-
malbasis von V, die aus Eigenvektoren von L besteht.
Wenn es umgekehrt eine Orthonormalbasis aus Eigenvektoren von L gibt, hat die
bzgl. dieser Matrix darstellende Matrix M Diagonalgestalt. Ferner ist M ∗ die darstellende
Matrix von L∗ (Satz 6.3.5). Da je zwei Diagonalmatrizen kommutieren, folgt aus MM ∗ =
M ∗ M auch LL∗ = L∗ L (beachte Satz 3.3.3 und Satz 3.3.4), und L ist normal. 
8.2 Normale Abbildungen und Matrizen 195

Ähnlich wie im selbstadjungierten Fall lautet die Matrixversion so.

Korollar 8.2.6 Ist A eine Matrix über C, so existiert genau dann eine unitäre Matrix U ,
so dass U ∗ AU eine Diagonalmatrix ist, wenn A normal ist.

Auch der Spektralsatz überträgt sich.

Korollar 8.2.7 Ist L ∈ L (V ) normal und u1 , . . . , un eine Orthonormalbasis von V aus


Eigenvektoren (zu den Eigenwerten λ1 , . . . , λn ), so gilt für alle v ∈ V

n
L(v) = λj v, uj "uj .
j =1

Wieder lässt sich diese Formel kompakter als

r
L= μk Pk
k=1

schreiben mit den paarweise verschiedenen Eigenwerten μ1 , . . . , μr und den Orthogonal-


projektion en Pk auf die entsprechenden Eigenräume.
Auch die Schur-Darstellung nichtdiagonalisierbarer Abbildungen lässt auf Innenpro-
dukträumen eine präzisere Version zu.

Satz 8.2.8 Sei V ein endlichdimensionaler Innenproduktraum, und sei L ∈ L (V ) eine


lineare Abbildung, deren charakteristisches Polynom zerfällt (was für K = C immer
zutrifft). Dann existiert eine Orthonormalbasis, so dass die zugehörige Matrixdarstellung
von L obere Dreiecksgestalt hat.

Beweis Der Beweis ist praktisch identisch zum Induktionsbeweis für Satz 7.3.1; der
einzige Unterschied ist, dass man mit Orthonormalbasen arbeitet, also (in der Notation
des Beweises von Satz 7.3.1) eine Orthonormalbasis b2 , . . . , bn von W = {b1 }⊥ wählt. 

Mit dieser Sorte Induktionsbeweis lässt sich übrigens auch die Diagonalisierbarkeit nor-
maler Abbildungen bzgl. einer Orthonormalbasis zeigen; man benötigt dann Lemma 8.2.3.
Dies ist der in den meisten Lehrbüchern dargestellte Beweis. Ein weiterer Beweis geht
so vor, dass direkt gezeigt wird, dass die Schur-Darstellung einer normalen Abbildung
diagonal ist.
196 8 Eigenwerttheorie in Innenprodukträumen

8.3 Positiv definite Abbildungen und Matrizen

Wir wollen in diesem Abschnitt eine wichtige Klasse selbstadjungierter Abbildungen bzw.
Matrizen studieren. V bezeichnet einen endlichdimensionalen Innenproduktraum.

Definition 8.3.1 Eine selbstadjungierte Abbildung L ∈ L (V ) heißt positiv semidefinit,


wenn

v, L(v)" ≥ 0 für alle v ∈ V ;

L heißt positiv definit, wenn

v, L(v)" > 0 für alle v ∈ V , v = 0.

Analog ist positive (Semi-)Definitheit bei Matrizen erklärt.

Einige Bemerkungen zu dieser Definition:

(1) Für selbstadjungiertes L ist v, L(v)" immer reell (denn v, L(v)" = L(v), v" =
v, L(v)").
(2) Für komplexe Innenprodukträume gilt auch die Umkehrung von (1) (so dass sich in
diesem Fall die vorausgesetzte Selbstadjungiertheit automatisch aus der Definitheits-
Bedingung ergibt). Um dies einzusehen, betrachte eine lineare Abbildung L mit
v, L(v)" ∈ R für alle v in einem Innenproduktraum über C. Setze L2 = i(L − L∗ );
dann ist L2 selbstadjungiert, und es gilt

v, L2 (v)" = −i( v, L(v)" − L(v), v") = −i( v, L(v)" − v, L(v)") = 0

nach Voraussetzung über L. Also ist v, L2 (v)" = 0 für alle v. Insbesondere sind alle
Eigenwerte = 0 (warum?), und die Spektralzerlegung aus Satz 8.1.8 liefert L2 = 0,
d. h. L = L∗ .
(3) In Beispiel 6.1.2(b) haben wir schon Bekanntschaft mit positiv definiten reellen
Matrizen gemacht.
(4) Weiterhin ist für jedes L ∈ L (V , W ) die Abbildung L∗ L positiv semidefinit auf V
und LL∗ positiv semidefinit auf W . (Hier ist W ein weiterer Innenproduktraum.)

In Bemerkung (2) oben sind wir auf eine Kernaufgabe der Eigenwert theorie gestoßen:
Was sagen die Eigenwerte einer Abbildung bzw. Matrix über diese aus? Oben haben wir
benutzt: An den Eigenwerten einer selbstadjungierten Abbildung kann man ablesen, ob
diese = 0 ist. Von ähnlicher Bauart (aber vollkommen trivial) ist: An den Eigenwerten
einer linearen Abbildung kann man ablesen, ob diese invertierbar ist. (Warum ist das
trivial?) In dieselbe Richtung weist der nächste Satz.
8.3 Positiv definite Abbildungen und Matrizen 197

Satz 8.3.2 Eine selbstadjungierte Abbildung bzw. Matrix ist genau dann positiv semidefi-
nit, wenn alle Eigenwerte nichtnegativ (also ≥ 0) sind; sie ist genau dann positiv definit,
wenn alle Eigenwerte positiv (also > 0) sind.

Beweis Wir zeigen nur den Teil über die positive Definitheit; der andere Teil ist vollkom-
men analog.
Sei zuerst L ∈ L (V ) positiv definit, und sei λ ein (reeller!) Eigenwert von L mit
Eigenvektor v. Dann gilt

0 < v, L(v)" = v, λv" = λ$v$2

und deshalb λ > 0.


Umgekehrt sei u1 , . . . , un eine Orthonormalbasis von V aus Eigenvektoren (zu den
positiven Eigenwerten λ1 , . . . , λn ) von L; schreibe dann ein v ∈ V \ {0} als v =
n
j =1 v, uj "uj , wo mindestens
n
eines der auftretenden Skalarprodukte = 0 ist (denn
v = 0). Dann ist L(v) = k=1 λk v, uk "uk (vgl. Satz 8.1.8), und es folgt durch Einsetzen
dieser Terme

% n n &
v, L(v)" = v, uj "uj , λk v, uk "uk
j =1 k=1
n n
= v, uj " λk v, uk " uj , uk "
j =1 k=1
n
= λj v, uj " v, uj "
j =1
n
= λj | v, uj "|2 > 0,
j =1

denn alle Summanden sind ≥ 0 und mindestens einer > 0. 

In der Analysis, genauer bei den Extremwertaufgaben für Funktionen mehrerer Verän-
derlicher, benötigt man ein Kriterium für positive Definitheit von Matrizen. Dieses werden
wir in Satz 8.3.7 beweisen, wofür einige an sich interessante Vorbereitungen notwendig
sind. Die erste ist das Minimaxprinzip von Courant, Fischer und Weyl.
Im Folgenden ist V ein endlichdimensionaler Innenproduktraum sowie L ∈ L (V )
selbstadjungiert. Wir ordnen die (reellen!) in ihrer Vielfachheit gezählten Eigenwerte von
L der Größe nach an: λ1 ≥ . . . ≥ λn . Eine zugehörige Orthonormalbasis sei u1 , . . . , un .
Mit diesen Bezeichnungen gilt folgendes Lemma.
198 8 Eigenwerttheorie in Innenprodukträumen

Lemma 8.3.3 Sei W ⊂ V ein k-dimensionaler Unterraum. Dann existiert w ∈ W mit


$w$ = 1 und w, L(w)" ≤ λk .

Beweis Sei Z = lin{uk , . . . , un }, so dass dim Z = n − k + 1. Es ist dim W + dim Z >


n = dim V, also ist W ∩ Z = {0} (Korollar 2.4.3). Wähle w ∈ W ∩ Z mit $w$ = 1.
 
Wir können dann w = nj=k cj uj mit nj=k |cj |2 = 1 schreiben (nämlich cj = w, uj ";
siehe Satz 6.2.7). Dann ist

n n n n
w, L(w)" = cj λl cl uj , ul " = λj |cj | ≤ λk
2
|cj |2 = λk ,
j =k l=k j =k j =k

was zu zeigen war. 

Satz 8.3.4 (Minimaxprinzip) Mit den obigen Bezeichnungen gilt für k = 1, . . . , n

λk = max min w, L(w)".


dim W =k w∈W,$w$=1

Das Maximum wird bei W = lin{u1 , . . . , uk } angenommen.

Beweis Dass das innere Minimum tatsächlich angenommen wird, lehrt die Analysis, da
w → w, L(w)" stetig und {w ∈ W : $w$ = 1} kompakt ist. Nun zum eigentlichen
Beweis.
„≥“ folgt aus Lemma 8.3.3.

„≤“: Setze W = lin{u1 , . . . , uk }. Sei w ∈ W mit $w$ = 1, also w = kj =1 cj uj mit
k
j =1 |cj | = 1. Dann gilt (vgl. den Beweis von Lemma 8.3.3)
2

k k
w, L(w)" = λj |cj | ≥ λk
2
|cj |2 = λk .
j =1 j =1

Daraus folgt auch der Zusatz. 

Korollar 8.3.5 Mit den obigen Bezeichnungen gilt

λk = min max w, L(w)".


dim W =n+1−k w∈W,$w$=1

Beweis Wende Satz 8.3.4 auf −L an. 

Es sei jetzt A eine selbstadjungierte n × n-Matrix, und die (n − 1) × (n − 1)-Matrix


B entstehe, wenn man in A die letzte Zeile und die letzte Spalte streicht; also ist auch B
8.3 Positiv definite Abbildungen und Matrizen 199

selbstadjungiert. Wir wollen die Eigenwerte λ1 ≥ . . . ≥ λn von A mit den Eigenwerten


μ1 ≥ . . . ≥ μn−1 von B vergleichen.

Satz 8.3.6 (Cauchyscher Verschränkungssatz) Es gilt λ1 ≥ μ1 ≥ λ2 ≥ μ2 ≥ · · · ≥


μn−1 ≥ λn .

Beweis Sei k ∈ {1, . . . , n − 1}. Seien v1 , . . . , vk ∈ Kn−1 orthonormale Eigenvektoren von


B zu den Eigenwerten μ1 , . . . , μk ; setze W = lin{v1 , . . . , vk } ⊂ Kn−1 . Aus Satz 8.3.4
folgt

μk = min w, Bw".
w∈W,$w$=1

Nun können wir Elemente von Kn−1 via v = (t1 , . . . , tn−1 ) → ṽ = (t1 , . . . , tn−1 , 0)
auch als Elemente von Kn auffassen; dann ist ṽ, Aṽ" = v, Bv" und deswegen in
selbsterklärender Notation

μk = min w̃, Aw̃" ≤ λk ,


w̃∈W̃ ,$w̃$=1

wobei die letzte Abschätzung durch eine erneute Anwendung von Satz 8.3.4 zustande
kommt.
Wendet man das auf −A und −B an, erhält man −μk ≤ −λk+1 (!), d. h. λk+1 ≤ μk . 

Jetzt können wir das angekündigte Definitheitskriterium beweisen.

Satz 8.3.7 Sei A eine selbstadjungierte n × n-Matrix, und sei Ar die r × r-Matrix, die
nach Streichen der letzten n − r Zeilen und Spalten von A entsteht. Dann ist A genau dann
positiv definit, wenn det Ar > 0 für r = 1, . . . , n ist.

Die Zahlen det Ar heißen die Hauptminoren von A; zum Begriff des Minors siehe
Satz 4.3.4.

Beweis Ist A positiv definit, dann auch alle Ar ; man muss nur Vektoren x der Form
x = (s1 , . . . , sr , 0, . . . , 0)t (hier platzsparend transponiert in Zeilenform geschrieben) in
x, Ax" einsetzen. Da die Determinante einer selbstadjungierten Matrix das Produkt ihrer
Eigenwerte ist (warum?), folgt aus Satz 8.3.2 stets det Ar > 0.
Die Umkehrung zeigen wir durch vollständige Induktion nach n. Hier ist der Fall n = 1
klar. Um von n − 1 auf n zu schließen, beobachten wir, dass nach Induktionsvoraussetzung
An−1 positiv definit ist, also Eigenwerte > 0 hat. Satz 8.3.6 impliziert dann, dass die n − 1
größten Eigenwerte von A ebenfalls > 0 sind. Wegen det A > 0 ist aber auch der letzte
Eigenwert von A positiv, denn die Determinante ist das Produkt der Eigenwerte. Wiederum
nach Satz 8.3.2 ist A positiv definit. 
200 8 Eigenwerttheorie in Innenprodukträumen

Dieses Kriterium ist besonders handlich für 2 × 2-Matrizen:

ab
A=
bd

ist genau dann positiv definit, wenn a > 0 und det A > 0 (d. h. ad > b2 ).
Das Analogon von Satz 8.3.7 für positiv semidefinite Matrizen stimmt nicht: Für die
Matrix

0 0
0 −1

sind alle Hauptminoren ≥ 0, aber sie ist nicht positiv semidefinit (warum nicht?); die
andere (weniger interessante) Implikation bleibt richtig, siehe den obigen Beweis.
Der letzte Satz dieses Abschnitts ist der Sylvestersche Trägheitssatz.

Satz 8.3.8 Ist A eine selbstadjungierte und S eine invertierbare n × n-Matrix, so haben
A und S ∗ AS gleich viele positive Eigenwerte.

Beweis Nach dem Minimaxprinzip (Satz 8.3.4) besitzt A mindestens r positive Eigenwer-
te (also Eigenwerte > 0) genau dann, wenn ein r-dimensionaler Unterraum W ⊂ Kn mit
w, Aw" > 0 auf W \ {0} existiert.
Sei nun r die Anzahl der positiven Eigenwerte von A, und sei W ein r-dimensionaler
Unterraum mit w, Aw" > 0 auf W \ {0}. Dann ist auch W  := {S −1 w: w ∈ W } ein
r-dimensionaler Unterraum, und für w = 0 in W  mit Sw  = w ∈ W \ {0} gilt

w  , S ∗ ASw  " = Sw  , A(Sw  )" > 0.

Ist r̃ die Anzahl der positiven Eigenwerte von à := S ∗ AS, so haben wir nach der
Vorbemerkung gerade r̃ ≥ r gezeigt. Da A = (S −1 )∗ ÃS −1 , folgt aus Symmetriegründen
r ≥ r̃, zusammen r = r̃, was zu zeigen war. 

Die Matrizen A und S ∗ AS mit invertierbarem S heißen kongruent. Im Gegensatz zu


ähnlichen Matrizen brauchen kongruente Matrizen nicht dieselben Eigenwerte zu haben,
aber die „Signatur“ bleibt invariant.
8.4 Die Singulärwertzerlegung 201

8.4 Die Singulärwertzerlegung

Als nächstes versuchen wir, eine Art Diagonalisierung von nichtnormalen Abbildungen
und Matrizen zu konstruieren, die sogar zwischen verschiedenen Innenprodukträumen
operieren dürfen.
Wir beginnen damit, Wurzeln aus linearen Abbildungen (bzw. Matrizen) zu ziehen.

Satz 8.4.1 Zu jeder positiv semidefiniten Abbildung L ∈ L (V ) auf einem endlich-


dimensionalen Innenproduktraum existiert eine eindeutig bestimmte positiv semidefinite
Abbildung S ∈ L (V ) mit S 2 = L.

Beweis Schreibe die Spektralzerlegung der selbstadjungierten Abbildung L gemäß Korol-


lar 8.1.9 als
r
L= μj Pj ,
j =1

wo die paarweise verschiedenen Eigenwerte μ1 , . . . , μr stets ≥ 0 sind (siehe Satz 8.3.2)


und Pj die Orthogonalprojektion auf den zugehörigen Eigenraum bezeichnet. Daher
können wir eine lineare Abbildung S ∈ L (V ) durch

r

S= μj Pj
j =1

definieren. Man bestätigt sofort durch Nachrechnen, dass S selbstadjungiert und positiv
semidefinit mit S 2 = L ist. (Zur Erinnerung: Pj ist selbstadjungiert, Beispiel 6.3.11.)
Sei nun T eine weitere positiv semidefinite Abbildung mit T 2 = L mit den paarweise
verschiedenen Eigenwerten ν1 , . . . , νs , die allesamt ≥ 0 sind. Ist v ein Eigenvektor von T
zu νj , so ist

Lv = T 2 v = νj2 v;

also ist νj2 ein Eigenwert von L, sagen wir μk . Gleichzeitig haben wir für die Eigenräume

ker(T − νj Id) ⊂ ker(L − μk Id)

gezeigt. Das liefert s ≤ r und dim ker(T − νj Id) ≤ dim ker(L − μk Id), denn μk „gehört“
zu keinem anderen Eigenwert νl , da Letztere ≥ 0 sind. Weil T und L diagonalisierbar sind,
ist andererseits

V = ker(T − ν1 Id) ⊕ · · · ⊕ ker(T − νs Id) = ker(L − μ1 Id) ⊕ · · · ⊕ ker(L − μr Id)


202 8 Eigenwerttheorie in Innenprodukträumen

und deshalb (siehe (2.4.2) auf Seite 52)

s r
dim ker(T − νj Id) = dim ker(L − μk Id).
j =1 k=1

Deshalb muss r = s und dim ker(T − νj Id) = dim ker(L − μk Id) sowie schließlich nach
passender Umnummerierung ker(T − νj Id) = ker(L − μj Id) sein. Das zeigt T = S. 

Die im letzten Satz konstruierte Abbildung bezeichnen wir mit L1/2 .

Definition 8.4.2 Sei L ∈ L (V , W ) eine lineare Abbildung zwischen den endlichdimen-


sionalen Innenprodukträumen V und W . Wir setzen

|L| = (L∗ L)1/2 ∈ L (V ).

Zur Erinnerung: L∗ L ∈ L (V ) ist stets positiv semidefinit.


Jetzt kommen wir zur Polarzerlegung einer linearen Abbildung, die an die Polarzerle-
gung z = eiϕ |z| komplexer Zahlen erinnern sollte.

Satz 8.4.3 (Polarzerlegung) Ist L ∈ L (V , W ) eine lineare Abbildung zwischen den


endlichdimensionalen Innenprodukträumen V und W , so existiert eine orthogonale bzw.
unitäre Abbildung U : ran |L| → ran L mit L = U |L|.

Beweis Es gibt nur eine Chance, U zu definieren, nämlich durch |L|(v) → L(v); es ist
zu überprüfen, dass dieser Ansatz wohldefiniert ist, d. h., dass aus |L|(v1 ) = |L|(v2 ) auch
L(v1 ) = L(v2 ) folgt. Das sieht man durch folgende Rechnung:

$ |L|(v) $2 = |L|(v), |L|(v)" = v, |L|2 (v)"


= v, (L∗ L)(v)" = L(v), L(v)" = $L(v)$2 .

Das zeigt die oben angesprochene Wohldefiniertheit (denn |L|(v1 − v2 ) = 0 genau dann,
wenn L(v1 − v2 ) = 0), und dann kann man schließen, dass U linear ist (warum?).
Nach Konstruktion ist U : |L|(v) → L(v) von ran |L| nach ran L surjektiv, und wie
gerade nachgerechnet ist U normerhaltend. Nach Satz 6.3.15 ist U orthogonal bzw. unitär.
Schließlich ist konstruktionsgemäß L = U |L|. 

Jetzt ist es nur noch ein kleiner Schritt zur Singulärwertzerlegung.

Definition 8.4.4 Die in ihrer Vielfachheit gezählten Eigenwerte von |L| ∈ L (V ) heißen
die singulären Werte von L ∈ L (V , W ). Diese sind stets ≥ 0, und üblicherweise stellt
man sie sich als der Größe nach angeordnet vor: σ1 ≥ σ2 ≥ . . . ≥ σn ≥ 0; n = dim V.
8.4 Die Singulärwertzerlegung 203

Im Kontext von Definition 8.4.4 sei r := rg(L) = dim ran L = dim ran |L| = rg(|L|);
also hat man σ1 ≥ . . . ≥ σr > σr+1 = . . . = σn = 0.

Satz 8.4.5 (Singulärwertzerlegung) Sei L ∈ L (V , W ) mit den singulären Werten σ1 ≥


σ2 ≥ . . . ≥ σn ≥ 0. Es seien dim V = n, dim W = m und r = rg(L). Dann existieren
Orthonormalbasen f1 , . . . , fn von V und g1 , . . . , gm von W mit

r
L(v) = σj v, fj "gj für alle v ∈ V .
j =1

Beweis Sei
n r
|L|(v) = σj v, fj "fj = σj v, fj "fj
j =1 j =1

die Spektralzerlegung der selbstadjungierten Abbildung |L|; vgl. Satz 8.1.8. Schreibe
L = U |L| gemäß Satz 8.4.3, und setze gj = U (fj ) für j = 1, . . . , r, also wenn σj = 0.
Da U orthogonal bzw. unitär ist, sind auch die gj orthonormal. Dieses Orthonormalsystem
aus r Vektoren kann zu einer Orthonormalbasis von W ergänzt werden. Damit folgt die
Behauptung. 

Wir wollen die Singulärwertzerlegung in der Version für Matrizen diskutieren, also für
Abbildungen x → Ax. Dazu ist folgende Bemerkung hilfreich. Seien x und y (Spalten-)
Vektoren in Kn . Diese können wir uns auch als n × 1-Matrizen vorstellen; dann ist das
euklidische Skalarprodukt x, y"e nichts anderes als das Matrixprodukt y ∗ x, wenn man
diese 1 × 1-Matrix als Element von K auffasst:

x, y"e = y ∗ x.

Satz 8.4.6 (Singulärwertzerlegung einer Matrix) Sei A ∈ Km×n . Dann existieren eine
orthogonale bzw. unitäre n × n-Matrix , eine orthogonale bzw. unitäre m × m-Matrix
und eine m × n-Diagonalmatrix  mit


A=  .

Wie im quadratischen Fall nennen wir  = (σkl ) eine Diagonalmatrix, wenn σkl = 0
für k = l.

Beweis Wir übersetzen die Darstellung aus Satz 8.4.5 für die Abbildung LA : x → Ax.
Mit Hilfe der Orthonormalbasis f1 , . . . , fn von Kn bilden wir die n × n-Matrix =
(f1 . . . fn ), die orthogonal bzw. unitär ist, weil ihre Spalten orthonormal sind. Genauso
204 8 Eigenwerttheorie in Innenprodukträumen

bilden wir die m×m-Matrix = (g1 . . . gm ), und es sei  die m×n-Matrix mit σkk = σk
für k ≤ rg(A) =: r und σkl = 0 sonst. Nach der Vorbemerkung ist
⎛ ⎞
σ1 x, f1 "
⎛ ⎞ ⎜ .. ⎟
⎜ . ⎟
x, f1 " ⎜ ⎟
⎜ . ⎟ ⎜ ⎟
⎜ σ x, f " ⎟

x=⎜
⎝ .. ⎠
⎟ sowie  ∗x = ⎜ r r

⎜ 0 ⎟
x, fn " ⎜ ⎟
⎜ .. ⎟
⎝ . ⎠
0

und
r

 x= σj x, fj "gj = LA (x) = Ax.
j =1

Das war zu zeigen. 

Die Singulärwertzerlegung ist ein bedeutsames Hilfsmittel in der Datenkompression,


z. B. bei der Bildverarbeitung. Ein digitales (Schwarzweiß-) Foto kann man sich als m×n-
Matrix A vorstellen (z. B. m = 400, n = 600), deren Einträge die Graustufen der einzelnen
Pixel sind, also ganze Zahlen zwischen 0 und 255. (Bei einem Farbfoto sind es drei solche
Matrizen, je eine für den Rot-, Grün- bzw. Blauwert.) Ein Schwarzweißbild ist demnach
durch m · n Zahlen bestimmt.
Betrachten wir nun die Singulärwertzerlegung von A. Diese ist durch die Vektoren
f1 , . . . , fn , g1 , . . . , gm und die Singulärwerte σ1 , . . . , σn festgelegt (typischerweise hat
die Matrix eines Digitalbilds vollen Rang); das sind insgesamt n2 + m2 + r Zahlen, also
deutlich mehr als die ursprünglichen m · n Einträge.
Nun wollen wir versuchen, unser Bild (also die Matrix A) approximativ mit erheblich
weniger als m · n Zahlen zu beschreiben. Die Idee hierbei ist, statt der exakten Darstellung

r
Ax = σj x, fj "gj
j =1

in der Singulärwertzerlegung nur die ersten ρ Summanden zu betrachten, also A durch Aρ


mit
ρ
Aρ x = σj x, fj "gj
j =1

zu ersetzen. Die Intuition hinter diesem Ansatz ist, dass der Beitrag der Summanden
σj x, fj "gj unerheblich ist, wenn σj klein ist. In der Darstellung A =  ∗ bedeutet
das, dass nur die ersten ρ Spalten von und benutzt werden, und dafür sind nur
8.5 Die Methode der kleinsten Quadrate 205

Abb. 8.1 Singulärwertzerlegung in der Bildkompression

ρm+ρn+ρ ≈ ρ(m+n) Informationen notwendig. Für ein Bild im Format 400×600 Pixel
m·n
erhält man in Abhängigkeit von ρ eine Kompressionsrate von ungefähr ρ(m+n) = 240
ρ .
Hier ein Beispiel. Die folgende Abbildung (aufgenommen 1996 in San Francisco)
entspricht einer Matrix im Format 690 × 484 (= 333 960 Pixel). Sie hat vollen Rang
(= 484). Links ist das Original, daneben stehen die Approximationen mit den 140 bzw. 70
bzw. 40 größten Singulärwerten, was zu Kompressionsraten von 2.07 bzw. 4.06 bzw. 7.11
führt (siehe Abb. 8.1).
Mathematische Softwarepakete wie Matlab, Maple oder Mathematica haben eingebaute
Routinen, um die Singulärwertzerlegung einer Matrix zu berechnen. Auf verschiedenen
Seiten im Internet1 kann man Experimente zur Bildkompression mittels Singulärwertzer-
legung selbst durchführen.

8.5 Die Methode der kleinsten Quadrate

Das erste Resultat dieses Abschnitts beschreibt eine Minimaleigenschaft der Orthogonal-
projektion.

Satz 8.5.1 Seien V ein Innenproduktraum, U ein endlichdimensionaler Unterraum, PU


die Orthogonalprojektion auf U und v0 ∈ V. Dann gilt

$v0 − PU (v0 )$ ≤ $v0 − u$ für alle u ∈ U.

Ferner ist PU (v0 ) der einzige Vektor in U mit dieser Eigenschaft. Mit anderen Worten ist
PU (v0 ) derjenige Vektor in U , dessen Abstand zu v0 kleinstmöglich ist:

$v0 − PU (v0 )$ = min $v0 − u$.


u∈U

1 Z. B. http://timbaumann.info/svd-image-compression-demo/.
206 8 Eigenwerttheorie in Innenprodukträumen

Beweis Da U endlichdimensional ist, existiert die Orthogonalprojektion; vgl. Satz 6.2.9


und 6.2.10.
Betrachte die orthogonale Zerlegung

v0 = u0 + u⊥
0 ∈U ⊕U

mit u0 = PU (v0 ). Für ein beliebiges u ∈ U ist

v0 − u = (u0 − u) + u⊥
0 ∈U ⊕U

und deshalb

$v0 − u$2 = $u0 − u$2 + $u⊥


0$ .
2

Die rechte Seite (und daher auch die linke) wird genau für u = u0 minimal; das war zu
zeigen. 

Es sei jetzt u1 , . . . , um eine Basis (nicht unbedingt eine Orthonormalbasis) des


m-dimensionalen Unterraums U von RN , der mit dem euklidischen Skalarprodukt ver-
sehen wird. Für einen Vektor v ∈ RN soll die Orthogonalprojektion PU (v) beschrieben
werden. Sei dazu A die N × m-Matrix2 mit den Spalten u1 , . . . , um . Dann kann man

PU (v) = ξ1 u1 + · · · + ξm um = Aξ

mit einem gewissen Vektor


⎛ ⎞
ξ1
⎜ . ⎟
ξ =⎜ ⎟
⎝ .. ⎠
ξm

schreiben, wobei Aξ − v ∈ U ⊥ ist. Für alle η ∈ Rm ist also, da Aη ∈ U ,

0 = Aη, Aξ − v" = η, A∗ Aξ − A∗ v",

2 Den Gepflogenheiten in der Statistik folgend soll die Anzahl der Zeilen diesmal N und nicht m
sein.
8.5 Die Methode der kleinsten Quadrate 207

daher A∗ Aξ − A∗ v = 0 und A∗ Aξ = A∗ v. Nun hat A∗ A stets denselben Rang wie A


(Beweis?), der hier m ist. Also ist die m × m-Matrix A∗ A invertierbar, und wir erhalten

ξ = (A∗ A)−1 A∗ v. (8.5.1)

Das beweist das folgende Lemma.

Lemma 8.5.2 Mit den obigen Bezeichnungen gilt

PU (v) = A((A∗ A)−1 A∗ v) bzw. PU = A(A∗ A)−1 A∗ .

Bei der Methode der kleinsten Quadrate geht es um Folgendes. Gegeben seien N Daten
(x1 , y1 ), . . . , (xN , yN ). Jedes Paar kann man sich als Punkt in der xy-Ebene denken, und
gesucht ist eine Gerade y = ax + b, die „am besten“ durch diese Punktwolke passt. „Am
besten“ kann recht unterschiedlich interpretiert werden; nach Gauß macht man den Ansatz,
dass die Summe der Quadrate der Abweichungen

N
(yj − (axj + b))2
j =1

minimal sein soll. Fasst man diesen Ausdruck als Funktion der reellen Variablen a und b
auf, kann man die Lösung recht einfach mit Mitteln der Analysis im R2 finden (Gradient
= 0 setzen etc.). Aber auch die Lineare Algebra kann weiterhelfen.
Wir schreiben dazu
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
y1 x1 1
⎜ . ⎟ ⎜ . ⎟ ⎜.⎟
y=⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ .. ⎠ , x = ⎝ .. ⎠ , 1 = ⎝ .. ⎠ ∈ R .
N

yN xN 1

Dann ist unser Problem, a und b so zu finden, dass

$y − (ax + b1)$

minimal ist. Sei U der von x und 1 aufgespannte Unterraum von RN . Nach Satz 8.5.1
heißt das, a und b zu finden, so dass

ax + b1 = PU (y)

ist. Schreibt man A für die N × 2-Matrix mit den Spalten x und 1, lautet die letzte
Gleichung
208 8 Eigenwerttheorie in Innenprodukträumen

a
A = PU (y),
b

nach (8.5.1) heißt das

a
= (A∗ A)−1 A∗ y.
b

Man bekommt die gesuchten a und b also als Lösung des Gleichungssystems

a
A∗ A = A∗ y.
b

Die Matrix A∗ A hat die Gestalt

x, x" x, 1"
;
1, x" 1, 1"

definiert man, wie in der Statistik üblich, die Stichprobenmittel

N
1 1
x= xj = x, 1"
N N
j =1

N
1 1
y= yj = y, 1"
N N
j =1

N
1 1
xy = xj yj = x, y"
N N
j =1

N
1 1
x2 = xj2 = x, x",
N N
j =1

so ist also

x2 x a xy
=
x 1 b y

zu lösen (beachte 1, 1" = N), und man erhält nach kurzer Rechnung (zum Beispiel mit
der Cramerschen Regel, Satz 4.3.2)
8.5 Die Methode der kleinsten Quadrate 209

xy − x y x 2 y − x xy
a= und b = y − ax = .
x2 − x2 x2 − x2

Dies war der Fall der „linearen Regression“. Auch die „quadratische Regression“, d. h.
eine Parabel ax 2 + bx + c durch eine Punktwolke zu legen, kann mit dieser Methode
behandelt werden. (Wie?)
Das Ausgangsproblem dieses Abschnitts war, den Abstand eines Vektors von einem
(endlichdimensionalen) Unterraum zu berechnen und den Punkt kürzesten Abstands
darin zu bestimmen. Speziell für m-dimensionale Unterräume U ⊂ RN ist die Lösung
dieses Problems aus (8.5.1) und Lemma 8.5.2 abzulesen. Dort hatten wir für einen
m-dimensionalen Unterraum mit Basis u1 , . . . , um die Matrix A mit diesen Spalten
betrachtet; und das Problem lautet dann, $Aξ − v$ zu minimieren, was auf die Lösung
des Gleichungssystems (A∗ A)ξ = A∗ v hinausläuft. Im komplexen Fall ist das genauso,
wir bleiben jetzt aber bei K = R.
Nehmen wir nun für einen Moment an, dass u1 , . . . , um eine Orthonormalbasis von U
ist. Dann hat A orthonormale Spalten, und A∗ A ist die Einheitsmatrix Em , so dass einem
die Lösung von (A∗ A)ξ = A∗ v ins Gesicht starrt. Wenn u1 , . . . , um nicht orthonormal
ist, wenden wir das Gram-Schmidt-Verfahren aus Satz 6.2.7 an. Dort wurden induktiv die
Vektoren

g1 = u1 , f1 = g1 /$g1 $,
k−1
gk = uk − uk , fj "fj , fk = gk /$gk $
j =1

konstruiert. Schreibt man Q für die Matrix mit den Spalten f1 , . . . , fm , so kann das Gram-
Schmidt-Verfahren durch die Matrixgleichung

A = QR (8.5.2)

mit
⎛ ⎞
$g1 $ u2 , f1 " . . . um , f1 "
⎜ ⎟
⎜ .. .. ⎟
⎜ $g $ . . ⎟

R=⎜ 2 ⎟
. ⎟
⎜ .. u , f
m m−1 " ⎠


$gm $

(die übrigen Einträge sind = 0) wiedergegeben werden; R ist also eine obere Dreiecksma-
trix vom Format m × m. Man rechnet (8.5.2) nach, indem man Q auf die k-te Spalte von
R wirken lässt; das ergibt nach Konstruktion von fk
210 8 Eigenwerttheorie in Innenprodukträumen

k−1
uk , fj "fj + $gk $fk = uk ,
j =1

also die k-te Spalte von A.


Halten wir dieses Ergebnis fest.

Satz 8.5.3 (QR-Zerlegung) Sei A ∈ RN ×m mit Rang m. Dann existieren eine N × m-


Matrix Q mit orthonormalen Spalten und eine m × m-Matrix R in oberer Dreiecksgestalt
mit

A = QR.

Kehren wir zur Aufgabe zurück, $Aξ − v$ zu minimieren bzw. A∗ Aξ = A∗ v =: b zu


lösen. Sei dazu A = QR die QR-Zerlegung von A. Dann geht es um das Gleichungssystem

R ∗ Rξ = b,

da A∗ A = R ∗ Q∗ QR = R ∗ R. Nun ist R eine obere und R ∗ eine untere Dreiecksmatrix,


daher ist es ein Leichtes, R ∗ η = b von oben nach unten und anschließend Rξ = η von
unten nach oben zu lösen.

Beispiel 8.5.4 Hier ist ein einfaches Beispiel mit N = 3 und m = 2. Sei
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
1 1 1 1
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
u1 = ⎝ 0 ⎠ , u2 = ⎝ 1 ⎠ , A = ⎝0 1⎠.
1 1 1 1

Das Gram-Schmidt-Verfahren liefert


⎛ √ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
1/ 2 1 1 0
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
g1 = u1 , f1 = ⎝ 0 ⎠ , g2 = ⎝ 1 ⎠ − u2 , f1 " ⎝ 1 ⎠ = ⎝ 1 ⎠ = f2 ,

1/ 2 1 1 0

so dass

√ ⎞
1/ 2 0 √ √
⎜ ⎟ 2 2
Q=⎝ 0 1⎠, R= .
√ 0 1
1/ 2 0

Um A∗ Aξ = b zu lösen, löse zuerst R ∗ η = b, also


8.6 Die Norm einer Matrix 211


2 0 η1 b1
√ = ,
2 1 η2 b2

was η1 = b1 / 2 und η2 = b2 − b1 ergibt, und dann Rξ = η, also
√ √
2 2 ξ1 η1
= ,
0 1 ξ2 η2

was ξ2 = η2 = b2 − b1 und ξ1 = η1 / 2 − ξ2 = 32 b1 − b2 ergibt. Daher ist der Vektor
in U = lin{u1 , u2 }, der den kürzesten Abstand zu beispielsweise e1 ∈ R3 hat, durch
"#
ξ1 u1 + ξ2 u2 mit A∗ Aξ = A∗ e1 = 11 gegeben; und das ist der Vektor 12 u1 (siehe oben).

Die QR-Zerlegung hat viele Anwendungen in der numerischen Mathematik; sie kann
sehr effektiv mit Hilfe der sogenannten Householder-Matrizen berechnet werden.

8.6 Die Norm einer Matrix

Sei A = (aj k ) eine m × n-Matrix; dann können wir A auch als Element von Kmn ansehen
und die euklidische Norm
m n
1/2
$A$2 = |aj k |2
j =1 k=1

betrachten, die auch Frobenius-Norm oder Hilbert-Schmidt-Norm von A genannt wird. Es


ist jedoch häufig sinnvoll, A auf andere Weise zu normieren.
Dazu sei x = (xk ) ∈ Kn . Dann ist

m m  n 2
 
$Ax$22 = |(Ax)j |2 =  aj k xk 
j =1 j =1 k=1
m n n
≤ |aj k |2 |xk |2
j =1 k=1 k=1

= $A$22 $x$22 ,

wobei in der zweiten Zeile die Cauchy-Schwarzsche Ungleichung einging. Mit anderen
Worten ist

$Ax$2 ≤ $A$2 $x$2 für alle x ∈ Kn . (8.6.1)


212 8 Eigenwerttheorie in Innenprodukträumen

Nun ist $A$2 in der Regel nicht die beste Konstante in dieser Ungleichung; diese erscheint
in der folgenden Definition.

Definition 8.6.1 Die kleinste Konstante C, die in der Ungleichung

$Ax$2 ≤ C$x$2 für alle x ∈ Kn

zulässig ist, heißt die Operatornorm oder Matrixnorm von A; Bezeichnung: $A$op .

Mit anderen Worten ist

$Ax$2
$A$op = sup = sup $Ax$2 (8.6.2)
x=0 $x$2 $x$2 =1

und

$Ax$2 ≤ $A$op $x$2 für alle x ∈ Kn .

In (8.6.2) ist das erste Gleichheitszeichen einfach die Definition des Supremums, und für
das zweite beachte man

$Ax$2 ( x (
( (
= (A ( .
$x$2 $x$2 2

In der Tat weiß man aus der Analysis, dass das oben auftretende Supremum sogar ein
Maximum ist, da {x ∈ Kn : $x$2 = 1} kompakt und x → $Ax$2 stetig ist.
Wir wollen nun begründen, dass in Definition 8.6.1 tatsächlich eine Norm definiert
wurde (wie es der Name bereits nahelegt), die sich jedoch im Gegensatz zur euklidi-
schen Norm nicht von einem Skalarprodukt ableitet. (Zur Definition einer Norm siehe
Definition 6.1.5.)

Satz 8.6.2 Die Abbildung A → $A$op ist eine Norm auf dem Vektorraum Km×n .

Beweis Aus der Definition ergibt sich sofort, dass A = 0 genau dann gilt, wenn $A$op = 0
ist. Ferner zeigt (8.6.2) unmittelbar, dass stets $λA$op = |λ|$A$op gilt, und auch die
Dreiecksungleichung erhalten wir einfach:

$(A + B)x$2 = $Ax + Bx$2


≤ $Ax$2 + $Bx$2
≤ $A$op $x$2 + $B$op $x$2
= ($A$op + $B$op )$x$2 ,
8.6 Die Norm einer Matrix 213

daher ist die beste Konstante in der Ungleichung $(A + B)x$2 ≤ C$x$2 , also $A + B$op ,
höchstens so groß wie die gerade gefundene:

$A + B$op ≤ $A$op + $B$op . 

Den Zusammenhang der beiden Normen einer Matrix A beschreibt das folgende
Lemma.

Lemma 8.6.3 Für eine m × n-Matrix A gilt



$A$op ≤ $A$2 ≤ n$A$op .

Beweis Die linke Ungleichung wurde schon am Anfang des Abschnitts begründet; siehe
(8.6.1). Nun berechnen wir $Ax$2 , wenn x = ek der k-te Einheitsvektor ist. Wir erhalten

m
|aj k |2 = $Aek $22 ≤ $A$2op $ek $22 = $A$2op
j =1

und daraus
n m n n
$A$22 = |aj k |2 = $Aek $22 ≤ $A$2op = n$A$2op .
k=1 j =1 k=1 k=1

Das war zu zeigen. 

Da in Lemma 8.6.6 $A$op = $A∗ $op gezeigt werden wird und da nach Definition

$A$2 = $A∗ $2 gilt, hat man auch die Ungleichung $A$2 ≤ m$A$op , also zusammen
$
$A$op ≤ $A$2 ≤ min{m, n}$A$op .

Beispiel 8.6.4 Sei m = n und A = diag(λ1 , . . . , λn ). Es ist Ax = (λj xj )j und deshalb

n n
$Ax$22 = |λj |2 |xj |2 ≤ max |λj |2 |xj |2
j
j =1 j =1

sowie

$A$op ≤ max |λj |.


j

Indem man die Einheitsvektoren einsetzt, sieht man sogar


214 8 Eigenwerttheorie in Innenprodukträumen

$A$op = max |λj |,


j

während
n
1/2
$A$2 = |λj |2 .
j =1

Es folgen einige allgemeine Aussagen über die Matrixnorm.

Lemma 8.6.5 Für A ∈ Km×n und B ∈ Kn×p gilt

$AB$op ≤ $A$op $B$op .

Beweis Es ist für x ∈ Rp

$(AB)x$2 = $A(Bx)$2 ≤ $A$op $Bx$2 ≤ $A$op $B$op $x$2

und deshalb $AB$op ≤ $A$op $B$op . 

Im Allgemeinen gilt hier die echte Ungleichung; Beispiel:

01
m = n = p = 2, A = B = , AB = 0, $A$op = $B$op = 1.
00

Lemma 8.6.6 Für A ∈ Km×n gilt $A∗ $op = $A$op .

Beweis Wir erhalten mit der Cauchy-Schwarzschen Ungleichung für y ∈ Km

$A∗ y$22 = A∗ y, A∗ y" = AA∗ y, y" ≤ $A(A∗ y)$2 $y$2 ≤ $A$op $A∗ y$2 $y$2

sowie daraus

$A∗ y$2 ≤ $A$op $y$2 ,

was $A∗ $op ≤ $A$op liefert. Wegen A∗∗ = A folgt auch die umgekehrte Ungleichung. 

Lemma 8.6.7 Für A ∈ Km×n gilt $A∗ A$op = $AA∗ $op = $A$2op .

Beweis Wir betrachten zuerst A∗ A; dann folgt $A∗ A$op ≤ $A$2op aus Lemma 8.6.5 und
Lemma 8.6.6. Umgekehrt ist für x ∈ Kn
8.6 Die Norm einer Matrix 215

$Ax$22 = Ax, Ax" = A∗ Ax, x" ≤ $A∗ Ax$2 $x$2 ≤ $A∗ A$op $x$22 ,

also $A$op ≤ $A∗ A$op , wie behauptet.


1/2

Daher gilt auch $AA∗ $op = $A∗ $op = $A$op wegen Lemma 8.6.6. 

Für selbstadjungierte Matrizen hat man also $A2 $op = $A$2op .


Die Ideen dieses Abschnitts lassen sich auch für lineare Abbildungen aussprechen. Im
Weiteren seien V und W endlichdimensionale Innenprodukträume. Wir erklären dann in
Analogie zu Definition 8.6.1:

Definition 8.6.8 Für L ∈ L (V , W ) sei $L$op , die Operatornorm von L, die kleinste
Konstante in der Ungleichung

$L(v)$ ≤ C$v$ für alle v ∈ V ,

d. h.

$L(v)$
$L$op = sup = sup $L(v)$.
v=0 $v$ $v$=1

Dass dies wohldefiniert ist und dass sich sämtliche Resultate, die in diesem Abschnitt
über Matrizen formuliert wurden, auch im Kontext der linearen Abbildungen repro-
duzieren lassen, zeigt der nächste Satz zusammen mit den aus Abschn. 3.3 bekannten
Aussagen über darstellende Matrizen. Natürlich lassen sich Lemma 8.6.5–8.6.7 für lineare
Abbildungen in Analogie zum Matrixfall auch direkt beweisen.

Satz 8.6.9 Seien B = (v1 , . . . , vn ) eine Orthonormalbasis von V, B  = (w1 , . . . , wm )


eine Orthonormalbasis von W , L ∈ L (V , W ) und A = M(L; B.B  ) die bzgl. dieser
Orthonormalbasen darstellende Matrix von L. Dann ist $L$op = $A$op .

Beweis Es sind nur folgende Beobachtungen zu kombinieren. Nach Definition stimmen


$LA $op und $A$op überein. (Wie üblich ist LA (x) = Ax.) Ferner ist in der Bezeichnung
von (3.3.1) auf Seite 65 LA = KB−1 LKB , wo KB : Kn → V und KB  : Km → W die
Koordinatenabbildungen sind, die nach Satz 6.2.7 normerhaltend sind. Daher ist stets
$KB x$ = $x$2 und $KB−1 LKB x$2 = $LKB x$. Deshalb gilt $LA (x)$2 ≤ C$x$2 für
alle x ∈ Kn genau dann, wenn $L(v)$ ≤ C$v$ für alle v ∈ V. 

Das letzte Ziel dieses Abschnitts ist es, die Eigenwerte einer Matrix bzw. linearen
Abbildung gegen ihre Norm abzuschätzen.

Satz 8.6.10 Sei λ ∈ K ein Eigenwert der quadratischen Matrix A. Dann gilt |λ| ≤ $A$op .
Eine analoge Aussage gilt für L ∈ L (V ).
216 8 Eigenwerttheorie in Innenprodukträumen

Beweis Es existiert ein x = 0 mit Ax = λx; also ist

$Ax$
|λ| = ≤ $A$op ,
$x$

wie behauptet. 

Man nennt

r(A) = max{|λ|: λ Eigenwert von A}

den Spektralradius von A (analog für L ∈ L (V )); also besagt Satz 8.6.10

r(A) ≤ $A$op bzw. r(L) ≤ $L$op .

Im selbstadjungierten bzw. normalen Fall kann man noch mehr aussagen.

Satz 8.6.11 Ist A ∈ Kn×n selbstadjungiert (K = R) oder auch bloß normal (K = C), so
ist r(A) = $A$op . Eine analoge Aussage gilt für lineare Abbildungen.

Beweis Wir führen den Beweis diesmal im Fall L ∈ L (V ). Die Spektralzerlegung


(Satz 8.1.8 bzw. Korollar 8.2.7) liefert eine Orthonormalbasis u1 , . . . , un aus Eigenvek-
toren zu den Eigenwerten λ1 , . . . , λn , so dass

n
L(v) = λj v, uj "uj für alle v ∈ V .
j =1

Daher ist
n n
$L(v)$2 = |λj |2 | v, uj "|2 ≤ r(L)2 | v, uj "|2 = r(L)2 $v$2 .
j =1 j =1

Das zeigt $L$op ≤ r(L); und die umgekehrte Ungleichung kennen wir bereits aus
Satz 8.6.10. 

Korollar 8.6.12 Ist A ∈ Kn×n selbstadjungiert (K = R) oder normal (K = C), so ist

$A$op = sup | Ax, x"| = max | Ax, x"|.


$x$2 =1 $x$2 =1
8.7 Etwas Matrix-Analysis 217

Beweis Für $x$2 = 1 ist nach der Cauchy-Schwarzschen Ungleichung

| Ax, x"| ≤ $Ax$2 $x$2 ≤ $A$op $x$22 = $A$op ;

daher gilt „≥“. Umgekehrt wissen wir aus Satz 8.6.11, dass es einen Eigenwert μ von A
mit $A$op = |μ| gibt. Ist x ein zugehöriger normierter Eigenvektor, hat man

$A$op = |μ| = | μx, x"| = | Ax, x"|;

also gilt sogar „=“, und wir haben gleichzeitig bewiesen, dass das Supremum angenom-
men wird. 

Für die Singulärwerte können wir noch folgende Aussage treffen.

Satz 8.6.13 Für L ∈ L (V , W ) ist σ1 = $L$op .

Beweis Nach Konstruktion ist σ12 der größte Eigenwert von L∗ L; also σ12 = $L∗ L$op
nach Satz 8.6.11. Ferner ist $L∗ L$op = $L$2op nach Lemma 8.6.7. Das zeigt die
Behauptung. 

8.7 Etwas Matrix-Analysis

Dieser Abschnitt liegt an der Schnittstelle von Analysis und Linearer Algebra, denn wir
besprechen unendliche Folgen und Reihen von Matrizen.
Wir beginnen mit ein paar grundsätzlichen Erwägungen. Setzt man für Elemente eines
normierten Raums (V , $ . $)

d(v, w) = $v − w$,

so erhält man eine Metrik auf V , wie aus der Analysis bekannt ist und wie man
durch einfaches Nachrechnen bestätigt. Damit stehen die Begriffe konvergente Folge,
Cauchyfolge, stetige Funktion etc. zur Verfügung; explizit bedeutet „(vk ) konvergiert
gegen v“ (kurz vk → v)

∀ε > 0 ∃k0 ∈ N ∀k ≥ k0 $vk − v$ < ε,

und „(vk ) ist eine Cauchyfolge“ bedeutet

∀ε > 0 ∃k0 ∈ N ∀k, l ≥ k0 $vk − vl $ < ε.


218 8 Eigenwerttheorie in Innenprodukträumen

Ein normierter Raum heißt vollständig (oder Banachraum), wenn jede Cauchyfolge
konvergiert; diese Begriffe sollten aus der Analysis geläufig sein.3
Wir betrachten nun Reihen in einem normierten Raum; wie üblich bedeutet
∞ k
j =0 vk = v, dass die Folge der Partialsummen sk = j =0 vj gegen v konvergiert.
Wir werden folgendes Kriterium benötigen.

Lemma 8.7.1 Sei (V , $ . $) ein vollständiger normierter Raum, und gelte ∞j =0 $vj $<∞.
∞
Dann konvergiert j =0 vj . Kurz: In einem vollständigen Raum ist jede absolut konver-
gente Reihe konvergent.

Beweis Wir zeigen, dass die Folge der Partialsummen sk = kj =0 vj eine Cauchyfolge
bildet. Das ist eine einfache Konsequenz der Dreiecksungleichung: Es ist

( k ( k
( (
$sk − sl $ = ( vj ( ≤ $vj $,
j =l+1 j =l+1

und die rechte Seite fällt kleiner als ein gegebenes ε > 0 aus, wenn nur k > l hinreichend
groß sind. 

Der normierte Raum, der in diesem Abschnitt von Interesse ist, ist der Raum Kn×n
der n × n-Matrizen, versehen mit der Operatornorm $ . $op aus Definition 8.6.1. Wir
kennen noch eine zweite Norm, nämlich die euklidische oder Hilbert-Schmidt-Norm

$A$2 = ( j,k |aj k |2 )1/2 . Diese beiden sind mittels der Ungleichung

$A$op ≤ $A$2 ≤ n$A$op

verknüpft; vgl. Lemma 8.6.3. Diese Ungleichungen implizieren für eine Matrixfolge (Ak )
sofort
• $Ak − A$op → 0 genau dann, wenn $Ak − A$2 → 0,
• (Ak ) ist eine Cauchyfolge bzgl. $ . $op genau dann, wenn (Ak ) ist eine Cauchyfolge
bzgl. $ . $2 ist.
Schließlich ist (Kn×n , $ . $2 ) nichts anderes als der mit der euklidischen Norm versehene
2
Raum Kn , und in der Analysis wird die Vollständigkeit dieses Raums gezeigt. Das liefert:

Lemma 8.7.2 Der normierte Raum (Kn×n , $ . $op ) ist vollständig.

Nun müssen wir noch die Submultiplikativität der Operatornorm in Erinnerung rufen
(d. h. $AB$op ≤ $A$op $B$op ; vgl. Lemma 8.6.5). Insbesondere gilt

3 Siehe zum Beispiel O. Forster, Analysis 2. Springer Spektrum.


8.7 Etwas Matrix-Analysis 219

$Ak $op ≤ $A$kop für alle k ∈ N;

wir setzen noch A0 = En , die Einheitsmatrix.


Die im folgenden Satz auftauchende Reihe nennt man die Neumannsche Reihe (nach
Carl Neumann).
∞
Satz 8.7.3 Sei A eine n × n-Matrix mit $A$op < 1. Dann konvergiert die Reihe j
j =0 A ,
und zwar ist

Aj = (En − A)−1 .
j =0

Beweis Beachten Sie, dass die Invertierbarkeit von En − A Teil der Behauptung ist. Die
Konvergenz der Reihe ergibt sich aus Lemma 8.7.1 und Lemma 8.7.2 wegen4

∞ ∞
j
$Aj $op ≤ $A$op < ∞,
j =0 j =0

k
da $A$op < 1. Um den Grenzwert S zu bestimmen, setze man Sk = j
j =0 A ; dann
bekommt man

k k+1
(En − A)Sk = Aj − Aj = En − Ak+1 → En
j =0 j =1

mit k → ∞. Andererseits ist

$(En − A)(Sk − S)$op ≤ $En − A$op $Sk − S$op → 0;

zusammen folgt (En − A)S = En . Das war zu zeigen. 

Die Neumannsche Reihe ist das Matrix-Analogon zur geometrischen Reihe für Zahlen-
1
folgen; das wird besonders augenfällig, wenn man formal 1−A statt (En − A)−1 schreibt
und daran denkt, dass die Einheitsmatrix En multiplikativ neutral ist, wie die 1 bei den
Zahlen.
Die Neumannsche Reihe liefert ein Verfahren zur Approximation der Inversen. Um
den Fehler abzuschätzen, den man macht, wenn man die unendliche Reihe durch eine
Partialsumme ersetzt, beachte man einfach

4 Dieses Argument verwendet die Dreiecksungleichung für unendliche Reihen; Beweis?


220 8 Eigenwerttheorie in Innenprodukträumen

( ( $A$k+1
( ( j op
( Aj ( ≤ $Aj $op ≤ $A$op = .
op 1 − $A$op
j >k j >k j >k

Durch Vertauschen der Rollen von A und En − A kann man Satz 8.7.3 auch so
aussprechen.

Korollar 8.7.4 Sei A eine n × n-Matrix mit $En − A$op < 1. Dann ist A invertierbar mit


(En − A)j = A−1 .
j =0

Wir wollen eine Variante von Satz 8.7.3 unter spektralen Voraussetzungen besprechen.
In Definition 7.2.12 wurde die Menge der Eigenwerte einer Matrix A das Spektrum σ (A)
von A genannt, und in Abschn. 8.6 haben wir den Spektralradius r(A) einer quadratischen
Matrix A durch

r(A) = max{|λ|: λ ∈ σ (A)}

definiert. Aus Satz 8.6.10 folgt, dass stets r(A) ≤ $A$op gilt.
Beachten Sie, dass der folgende Satz für reelle Matrizen nicht zu gelten braucht, wenn
man nur reelle Eigenwerte in Betracht zieht (Beispiel?).

Satz 8.7.5 Für eine komplexe n × n-Matrix A gilt Ak → 0 genau dann, wenn r(A) < 1
ist.

Beweis Gelte Ak → 0. Sei λ ein Eigenwert von A mit zugehörigem normierten


Eigenvektor v. Dann ist λk v = Ak v → 0, denn $Ak v$ ≤ $Ak $op $v$, also λk → 0;
es folgt |λ| < 1 und deshalb r(A) < 1.
Für die Umkehrung beobachtet man zunächst, dass für blockdiagonale Matrizen
⎛ ⎞k ⎛ ⎞
A1 Ak1
⎜ ⎟ ⎜ ⎟
⎜ .. ⎟ =⎜ .. ⎟
⎝ . ⎠ ⎝ . ⎠
Ar Akr

und
(⎛ ⎞(
( A (
( 1 (
(⎜ ⎟ (
(⎜ .. ⎟ (
(⎝ . ⎠( = max{$A1 $op , . . . , $Ar $op }
( (
( Ar (op
8.7 Etwas Matrix-Analysis 221

gelten. Nehmen wir nun an, dass A in Jordanscher Normalform vorliegt; A ist also
blockdiagonal mit Jordan-Kästchen als Blöcken. Wegen unserer Vorüberlegung reicht es
dann, für einen p × p Jordan-Block J (λ, p) mit |λ| < 1 die Konvergenz J (λ, p)k → 0
zu zeigen. Wir schreiben
⎛ ⎞
λ 1 0
⎜ . .. ⎟
⎜ .. . ⎟
J (λ, p) = ⎜


. . ⎟ = λEp + N,
⎝ . 1⎠
0 λ

wo N p = 0 ist. Da N und die Einheitsmatrix kommutieren, können wir mit dem


binomischen Satz für k > p schreiben

k   p−1  
k k
J (λ, p)k = (λEn + N)k = N j λk−j = N j λk−j .
j j
j =0 j =0

Da |λ| < 1, ist hier |λ|k−j ≤ |λ|k−p+1 und deshalb wegen $N$op ≤ 1

p−1   p−1
k
$J (λ, p) $op ≤
k
|λ|k−p+1 ≤ k j |λ|k−p+1 → 0,
j
j =0 j =0

" #
wobei die triviale Abschätzung jk ≤ k j sowie limk k j |λ|k = 0 für |λ| < 1 verwendet
wurden.
Im allgemeinen Fall ist die komplexe Matrix A einer Matrix J in Jordanscher
Normalform ähnlich, also A = S −1 J S. Dann ist r(A) = r(J ) und, wie gerade gezeigt,
$J k $op → 0, daher auch

$Ak $op = $S −1 J k S$op ≤ $S −1 $op $J k $op $S$op → 0. 

Als nächstes zeigen wir die Gelfandsche Spektralradiusformel.

Satz 8.7.6 Sei A eine komplexe n × n-Matrix.


1/k
(a) Die Folge ($Ak $op ) konvergiert, und zwar ist

1/k 1/k
lim $Ak $op = inf $Ak $op .
k→∞ k∈N

1/k
(b) Es gilt r(A) = limk→∞ $Ak $op .
222 8 Eigenwerttheorie in Innenprodukträumen

Beweis
1/k 1/m
(a) Sei α = infk∈N $Ak $op , und sei ε > 0. Wähle m ∈ N mit $Am $op < α + ε. Jedes
k ∈ N kann eindeutig als k = rm + s mit s ∈ {0, . . . , m − 1} geschrieben werden. Es
folgt mit β = β(ε) = maxs<m $As $op

$Ak $op = $Arm+s $op ≤ $Am $rop $As $op ≤ (α + ε)mr β

sowie

$Ak $op ≤ (α + ε)mr/k β 1/k = (α + ε)(α + ε)−s/k β 1/k < α + 2ε,


1/k

1/k
wenn k groß genug ist. Das zeigt $Ak $op → α.
(b) Ist λ ein Eigenwert von A mit zugehörigem normierten Eigenvektor v, so folgt λk v =
1/k
Ak v sowie |λk | ≤ $Ak $op $v$ und deshalb |λ| ≤ $Ak $op ; Teil (a) liefert jetzt die
1/k
Abschätzung r(A) ≤ limk $Ak $op .
Sei nun ε > 0 und B = A/(r(A) + ε). Dann ist r(B) = r(A)/(r(A) + ε) < 1.
Satz 8.7.5 impliziert B k → 0, insbesondere $B k $op < 1 für k ≥ k0 . Diese Ungleichung
1/k
bedeutet $Ak $op < (r(A) + ε)k für k ≥ k0 , und das zeigt limk $Ak $op ≤ r(A). 

Kommen wir noch einmal auf die Neumannsche Reihe zurück.


∞
Satz 8.7.7 Für eine komplexe n × n-Matrix konvergiert die Reihe j =0 A
j genau dann,
wenn r(A) < 1 ist. In diesem Fall ist


Aj = (En − A)−1 .
j =0

Beweis Wenn die Reihe konvergiert, gilt $Aj $op → 0 und wegen Satz 8.7.5 r(A) < 1.

Ist umgekehrt r(A) < 1, konvergiert ∞ $Aj $op nach dem Wurzelkriterium (hier
∞ j =0 j
geht Satz 8.7.6(b) ein), und die Reihe j =0 A konvergiert nach Lemma 8.7.1. Dass der
Grenzwert (En − A)−1 ist, sieht man wie bei Satz 8.7.3. 

Neben der geometrischen Reihe ist die Exponentialreihe die wohl wichtigste Reihe der

Analysis. Wir werden sehen, dass man auch in diese Reihe, also ∞j =0 z /j !, quadratische
j

Matrizen einsetzen kann. Für eine solche Matrix A ist nämlich


∞ ( Aj ( ∞
$A$op
j
( (
( ( ≤ = exp($A$op ),
j ! op j!
j =0 j =0

∞
j =0 A /j !
also ist j absolut konvergent und daher (Lemma 8.7.1) konvergent.
8.7 Etwas Matrix-Analysis 223

Definition 8.7.8 Für eine quadratische Matrix A setzen wir


Aj
exp(A) = .
j!
j =0

Es ist im allgemeinen falsch, dass für A = (aij ) auch exp(A) = (eaij ) ist. Man
überzeugt sich aber leicht, dass das für Diagonalmatrizen zutrifft.
Für komplexe Zahlen gilt die Funktionalgleichung

exp(w + z) = exp(w) exp(z);

bei Matrizen kann einem die Nichtkommutativität einen Strich durch die Rechnung
machen.

Beispiel 8.7.9 Seien

01 00
A= , B= ,
00 10

so dass An = B n = 0 für n ≥ 2; also exp(A) = E2 + A, exp(B) = E2 + B und

21
exp(A) exp(B) = E2 + A + B + AB = .
11

Weiter ist

01
A+B = , (A + B)2 = E2 , (A + B)3 = A + B, ...
10

und deshalb
∞ ∞
1 1
exp(A + B) = E2 + (A + B).
(2j )! (2j + 1)!
j =0 j =0

Die beiden Diagonalelemente sind hier also gleich, während sie bei exp(A) exp(B)
verschieden sind.

Für kommutierende Matrizen gilt jedoch das Analogon zu obiger Gleichung, wie jetzt
gezeigt wird.
224 8 Eigenwerttheorie in Innenprodukträumen

Satz 8.7.10 Seien A, B ∈ Kn×n .


(a) Wenn A und B kommutieren, also AB = BA, gilt

exp(A + B) = exp(A) exp(B).

(b) exp(A) ist stets invertierbar, und zwar ist

exp(A)−1 = exp(−A).

Beweis
(a) Wir stellen dem Beweis eine Vorbemerkung voran.
• Sind (SN ) und (TN ) konvergente Folgen in Kn×n , etwa SN → S und TN → T ,
so gilt SN TN → ST .
Das folgt aus der Abschätzung

$SN TN − ST $op ≤ $SN (TN − T )$op + $(SN − S)T $op


≤ $SN $op $TN − T $op + $SN − S$op $T $op → 0,

da konvergente Folgen beschränkt sind.


Nun zum eigentlichen Beweis. Es ist

N N N 2N
1 j 1 l 1 1 j l 1 1 j l
A B = A B + A B
j! l! j ! l! j ! l!
j =0 l=0 s=0 j +l=s s=N +1 j +l=s
j,l≤N

=: LN + RN .

Der linke Summand wird umgeformt zu

N s N
1 s! 1
LN = Aj B s−j = (A + B)s
s! j !(s − j )! s!
s=0 j =0 s=0

nach dem binomischen Satz, denn A und B kommutieren. Den rechten Summanden
kann man gemäß

2N
1 1 j
$RN $op ≤ $A$op $B$lop
j ! l!
s=N +1 j +l=s
j,l≤N
8.7 Etwas Matrix-Analysis 225

2N s
1 s! j s−j
≤ $A$op $B$op
s! j !(s − j )!
s=N +1 j =0

2N
1
= ($A$op + $B$op )s
s!
s=N +1

abschätzen. Es folgt RN → 0 und daher mit der Vorbemerkung die Behauptung.


(b) Aus (a) folgt

exp(A) exp(−A) = exp(A − A) = exp(0) = En ,

also exp(A)−1 = exp(−A).




Die Exponentialmatrix taucht bei der Lösung von Differentialgleichungssystemen


mit konstanten Koeffizienten auf. Seien A ∈ Kn×n und y0 ∈ Kn ; gesucht ist eine
differenzierbare Funktion y: R → Kn mit

y  (t) = Ay(t) (t ∈ R)
y(0) = y0 .

In Vorlesungen über gewöhnliche Differentialgleichungen wird gezeigt, dass es genau eine


Lösung dieses Problems gibt. Diese findet man gemäß

y(t) = exp(tA)y0 ;

wie bei der klassischen Exponentialfunktion darf man nämlich auch hier die Exponential-
reihe gliedweise differenzieren, d. h.

y  (t) = A exp(tA)y0 = Ay(t),

und natürlich ist y(0) = y0 . Also ist y die Lösung unseres Anfangswertproblems. Dies
kann man auch so ausdrücken:5 y0 → exp(•A)y0 ist ein Vektorraumisomorphismus
zwischen Kn und dem Lösungsraum der homogenen Gleichung y  = Ay; eine Basis des
Lösungsraums (ein sogenanntes Fundamentalsystem) erhält man durch die Spalten von
exp(•A), also die exp(•A)ej .

5 exp(•A) steht für die Funktion t → exp(tA).


226 8 Eigenwerttheorie in Innenprodukträumen

8.8 Aufgaben

Aufgabe 8.8.1 Wir versehen K3 mit dem euklidischen Skalarprodukt. Seien


⎛ ⎞ ⎛ ⎞
1 2
⎜ ⎟ ⎜ ⎟
x = ⎝2⎠, y = ⎝ −2 ⎠ .
3 3

Gibt es eine (reelle oder komplexe) selbstadjungierte 3 × 3-Matrix A mit Ax = 0 und


Ay = y?

Aufgabe 8.8.2 Sei V ein endlichdimensionaler Innenproduktraum, und sei L ∈ L (V )


selbstadjungiert. Es sei λ der größte Eigenwert von L. Zeigen Sie

λ = max{ Lv, v": $v$ = 1}.

Aufgabe 8.8.3 Sei V ein endlichdimensionaler komplexer Innenproduktraum, und sei


L ∈ L (V ) normal; L besitze nur die Eigenwerte 0 und 1. Zeigen Sie, dass L eine
Orthogonalprojektion ist.

Aufgabe 8.8.4 Zeigen Sie rg(A) = rg(A∗ A) für A ∈ Km×n .

Aufgabe 8.8.5 Sei V ein endlichdimensionaler Innenproduktraum über C. Sei L ∈ L (V )


normal mit L9 = L8 . Zeigen Sie, dass jeder Eigenwert von L in {0, 1} liegt und dass
L2 = L ist.

Aufgabe 8.8.6 Sei V ein endlichdimensionaler komplexer Innenproduktraum, und sei


L ∈ L (V ) normal. Ferner seien μ ∈ C, v ∈ V mit $v$ = 1 und r > 0 so, dass

$L(v) − μv$ < r.

Zeigen Sie, dass L einen Eigenwert λ mit |λ − μ| < r besitzt.


(Hinweis: Benutzen Sie eine Orthonormalbasis aus Eigenvektoren und beachten Sie
Korollar 8.2.7!)

Aufgabe 8.8.7 Seien L1 , L2 ∈ L (V ) selbstadjungierte Abbildungen auf dem endlichdi-


mensionalen reellen oder komplexen Innenproduktraum V, die kommutieren. Zeigen Sie,
dass L1 und L2 simultan diagonalisiert werden können, d. h. es gibt eine Basis u1 , . . . , un
von V, so dass jedes uj sowohl Eigenvektor von L1 als auch Eigenvektor von L2 ist. Gibt
es auch solch eine Orthonormalbasis?
(Hinweis: Beachten Sie Lemma 7.4.1.)
8.8 Aufgaben 227

Aufgabe 8.8.8 Sei V ein endlichdimensionaler Innenproduktraum, und sei L ∈ L (V )


positiv semidefinit. Zeigen Sie, dass L genau dann positiv definit ist, wenn L invertierbar
ist.

Aufgabe 8.8.9 Sei L ∈ L (R4 ) durch


⎛ ⎞ ⎛ ⎞
x1 0
⎜ ⎟ ⎜ ⎟
⎜x ⎟ ⎜ 3x1 ⎟
L: ⎜ 2 ⎟ → ⎜ ⎟
⎝ x3 ⎠ ⎝ 2x2 ⎠
x4 −3x4

definiert. Bestimmen Sie |L|.

Aufgabe 8.8.10
(a) Sei V ein endlichdimensionaler Innenproduktraum, und sei L ∈ L (V ) selbstadjun-
giert. Zeigen Sie, dass es eine Abbildung T ∈ L (V ) mit T 3 = L gibt.
(b) Stimmt die Aussage auch, wenn L nicht selbstadjungiert ist?
(Hinweis: Versuchen Sie nilpotente Abbildungen!)

Aufgabe 8.8.11 Im R4 mit dem Skalarprodukt

4
x, y"neu = j xj yj
j =1

und der zugehÃűrigen Norm betrachte man die Vektoren


⎛ ⎞ ⎛ ⎞ ⎛ ⎞
1 1 1
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜1⎟ ⎜1⎟ ⎜2⎟
u = ⎜ ⎟, v = ⎜ ⎟, w = ⎜ ⎟.
⎝0⎠ ⎝1⎠ ⎝3⎠
0 2 4

Es sei U der von u und v aufgespannte Untervektorraum. Bestimmen Sie denjenigen


Vektor z ∈ U , für den $z − w$ minimal ist.

Aufgabe 8.8.12 Seien A und Aρ wie am Ende von Abschn. 8.4. Zeigen Sie

$A − Aρ $op = σρ+1 .

Aufgabe 8.8.13 Bestimmen Sie $L$op für die Abbildung L aus Aufgabe 8.8.9.
228 8 Eigenwerttheorie in Innenprodukträumen

Aufgabe 8.8.14 Sei

A1 0
A=
0 A2

eine blockdiagonale Matrix. Zeigen Sie

$A$op = max{$A1 $op , $A2 $op }.

Aufgabe 8.8.15 Sei A ∈ Km×n , und sei u1 , . . . , un eine Orthonormalbasis von Kn .


Zeigen Sie

n n
$Auk $22 = σj2
k=1 j =1

und schließen Sie für die Hilbert-Schmidt-Norm von A


n
$A$22 = σj2 .
j =1

Hinweise: (1) Berechnen Sie die linke Seite der ersten Gleichung mit Hilfe der Singulär-
wertzerlegung von A. (2) Betrachten Sie die Einheitsvektorbasis.

Aufgabe 8.8.16 Zeigen Sie: Wenn A und B ähnlich sind, sind auch exp(A) und exp(B)
ähnlich.

Aufgabe 8.8.17 Sei A = diag(a1 , . . . , an ) eine Diagonalmatrix. Zeigen Sie exp(A) =


diag(ea1 , . . . , ean ).
Etwas Geometrie
9

9.1 Isometrien

Dieses Kapitel handelt vom Zusammenspiel von Linearer Algebra und Geometrie. Alle
hier auftretenden Vektorräume sind R-Vektorräume, und Rn wird mit dem euklidischen
Skalarprodukt versehen.
In der euklidischen Geometrie interessiert man sich unter anderem für Kongruenz bei
Dreiecken. Der dahinterstehende Begriff ist der einer Isometrie.

Definition 9.1.1 Sei V ein Innenproduktraum. Eine Abbildung F : V → V heißt


Isometrie oder Kongruenzabbildung, wenn

$F (v) − F (w)$ = $v − w$ für alle v, w ∈ V .

Man beachte, dass eine solche Abbildung nicht als linear vorausgesetzt wurde; wir
werden aber gleich sehen, dass isometrische Abbildungen „fast“ linear sind. Ferner ist
klar, dass Isometrien injektiv sind.
Nach Satz 6.3.15 ist eine lineare Abbildung eines endlichdimensionalen Innenpro-
duktraums in sich genau dann isometrisch, wenn sie orthogonal ist. Ein Beispiel einer
nichtlinearen isometrischen Abbildung ist die Translationsabbildung

Ta : V → V , Ta (v) = a + v

für ein a ∈ V . Der nächste Satz erklärt, dass jede isometrische Abbildung aus diesen
beiden Typen zusammengesetzt werden kann.

© Der/die Autor(en), exklusiv lizenziert an Springer Nature Switzerland AG 2022 229


D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2_9
230 9 Etwas Geometrie

Satz 9.1.2 Sei V ein endlichdimensionaler reeller Innenproduktraum, und sei F : V → V


isometrisch.
(a) Dann ist F affin, d. h.

F (λv1 + (1 − λ)v2 ) = λF (v1 ) + (1 − λ)F (v2 ) für v1 , v2 ∈ V , 0 ≤ λ ≤ 1.

(b) Wenn F (0) = 0 ist, ist F linear.


(c) Es existieren eine orthogonale lineare Abbildung U und eine Translation Ta mit
F = Ta ◦ U .

Beweis (a) Wir benötigen folgende Aussage.


• Sind u1 , u2 , z ∈ V , r = $u1 − u2 $, s = $u1 − z$, t = $u2 − z$ und r = s + t, so ist

t s
z = u1 + u2 .
r r

Eine Skizze lässt diese Aussage als fast offensichtlich erscheinen, aber damit können
wir uns nicht zufrieden geben. Zum Beweis betrachten wir die „Kugeln“

K1 = {x ∈ V : $x − u1 $ ≤ s}, K2 = {x ∈ V : $x − u2 $ ≤ t}.

Nach Voraussetzung liegt z im Schnitt K1 ∩K2 , und Einsetzen zeigt, dass auch rt u1 + rs u2 ∈
K1 ∩ K2 . Zeigen wir also, dass dieser Schnitt aus nur einem Punkt besteht. Sind nämlich
x1 , x2 ∈ K1 ∩K2 und x1 = x2 , so setze y = 12 (x1 +x2 ) (geometrisch ist das der Mittelpunkt
der Strecke [x1 , x2 ]); es folgt nach der Parallelogrammgleichung (6.1.2) auf Seite 120
(x − u x2 − u1 (
( 1 1 (2
$y − u1 $2 = ( + (
2 2
( x − u (2 ( x − u (2 ( x − u x2 − u1 (
( 1 1( ( 2 1( ( 1 1 (2
= 2( ( + 2( ( −( − (
2 2 2 2
s2 s2 ( (
( x1 − x2 (2
≤ + −( ( < s2,
2 2 2

da x1 = x2 . Daher ist $y − u1 $ < s und genauso $y − u2 $ < t, so dass

r = $u1 − u2 $ = $(u1 − y) + (y − u2 )$ ≤ $u1 − y$ + $y − u2 $ < s + t = r;

Widerspruch!
9.1 Isometrien 231

Nun zurück zum Beweis von (a). Wir setzen u1 = F (v1 ), u2 = F (v2 ) und z = F (λv1 +
(1 − λ)v2 ). Mit Hilfe der Isometrie-Eigenschaft von F berechnet man

r := $u1 − u2 $ = $v1 − v2 $
s := $u1 − z$ = $v1 − (λv1 + (1 − λ)v2 )$ = (1 − λ)$v1 − v2 $
t := $u2 − z$ = $v2 − (λv1 + (1 − λ)v2 )$ = λ$v1 − v2 $,

so dass r = s + t, t/r = λ und s/r = 1 − λ. Die Hilfsbehauptung liefert daher


z = λu1 + (1 − λ)u2 ; das war zu zeigen.
(b) Zuerst zeigen wir F (λv) = λF (v) für v ∈ V und 0 ≤ λ ≤ 1. Das folgt aus (a)
wegen F (0) = 0 und

F (λv) = F (λv + (1 − λ) · 0) = λF (v) + (1 − λ)F (0) = λF (v).

Der nächste Schritt ist, F (λv) = λF (v) für v ∈ V und λ > 1 zu zeigen. Dazu setze
μ = 1/λ ∈ [0, 1]; wir wissen bereits, dass F (μ(λv)) = μF (λv) ist – aber diese Gleichung
ist genau F (v) = λ1 F (λv), was zu zeigen war.
Jetzt kommen wir zur Additivität, d. h. F (v1 +v2 ) = F (v1 )+F (v2 ) für alle v1 , v2 ∈ V .
Da wir den Faktor 12 in F hineinziehen dürfen (siehe oben), ist

v1 + v2 F (v1 ) + F (v2 )
F =
2 2

zu zeigen. Das folgt jedoch aus (a).


Zuletzt erhalten wir F (λv) = λF (v) auch für λ < 0 aus

F (λv) + F (−λv) = F (λv + (−λv)) = F (0) = 0,

so dass

F (λv) = −F ((−λ)v) = −(−λ)F (v) = λF (v);

im zweiten Schritt ging −λ > 0 ein.


(c) Sei a = F (0); dann ist U := T−a ◦ F isometrisch (klar) und bildet 0 auf 0 ab (auch
klar). Nach Teil (b) ist U linear und deshalb (Satz 6.3.15) eine orthogonale Abbildung,
und F = Ta ◦ U ist die gesuchte Darstellung. 

Für das Verständnis der Isometrien reicht es also, die orthogonalen Abbildungen zu
untersuchen. Wir führen folgende Bezeichnungen ein.
232 9 Etwas Geometrie

Definition 9.1.3 Es bezeichnet O(V ) die Menge aller orthogonalen Abbildungen auf
dem endlichdimensionalen reellen Innenproduktraum V und S O(V ) die Teilmenge aller
orthogonalen Abbildungen mit Determinante 1. Genauso bezeichnet O(n) die Menge der
orthogonalen n × n-Matrizen und SO(n) die Teilmenge der orthogonalen n × n-Matrizen
mit Determinante 1.

Explizit ist also

O(n) = {U ∈ Rn×n : U ∗ U = En }
SO(n) = {U ∈ O(n): det(U ) = 1}.

Als nächstes werden wir begründen, dass diese Mengen unter der Komposition von
Abbildungen bzw. der Matrixmultiplikation Gruppen sind; siehe Definition 5.1.1 zur
Definition einer Gruppe.

Satz 9.1.4 O(V ), S O(V ), O(n) und SO(n) sind Gruppen, genannt orthogonale Gruppe
bzw. spezielle orthogonale Gruppe.

Beweis Wir diskutieren die Details im Matrixfall. Sind U1 , U2 ∈ O(n), so auch U1 U2 , da

(U1 U2 )∗ U1 U2 = U2∗ U1∗ U1 U2 = U2∗ U2 = En ;

also handelt es sich um eine innere Verknüpfung. Das Assoziativgesetz gilt bei allen
Matrizen, nicht nur den orthogonalen; und das neutrale Element ist die Einheitsmatrix,
die natürlich orthogonal ist. Schließlich ist für orthogonale Matrizen definitionsgemäß
U −1 = U ∗ , und U ∗ ist orthogonal (warum?).
Dasselbe Argument funktioniert auch für SO(n); es ist nur det(U1 U2 ) =
det(U1 ) det(U2 ) und det(U ∗ ) = det(U t ) = det(U ) (und natürlich det(En ) = 1) zu
beachten. 

Wir kommen nun zu den Eigenwerten bzw. der Determinante orthogonaler Abbildun-
gen und Matrizen. (Übrigens gelten analoge Aussagen im komplexen Fall für unitäre
Abbildungen und Matrizen.)

Lemma 9.1.5 Sei U ∈ O(n) bzw. L ∈ O(V ).


(a) Dann ist |det(U )| = 1 bzw. |det(L)| = 1.
(b) Ist λ ein Eigenwert von U bzw. L, so ist |λ| = 1.

Beweis
(a) Es ist 1 = det(En ) = det(U ∗ U ) = det(U ∗ ) det(U ) = det(U )2 .
(b) Ist v ein zugehöriger Eigenvektor, so ist $v$ = $U v$ = $λv$ = |λ| · $v$. 
9.1 Isometrien 233

Eine wichtige Klasse orthogonaler Abbildungen sind die Spiegelungen, die wir jetzt
einführen. Es sei V ein n-dimensionaler Innenproduktraum; ein Unterraum der Dimension
n − 1 heißt dann eine Hyperebene. (Im Fall n = 3 ist eine Hyperebene eine Ebene
und im Fall n = 2 eine Gerade.) Eine Hyperebene H ist also nichts anderes als der
Orthogonalraum eines Vektors vH = 0: H = {vH }⊥ .

Definition 9.1.6 Sei H ⊂ V eine Hyperebene und PH die zugehörige Orthogonalprojek-


tion auf H . Dann heißt die lineare Abbildung SH = 2PH − Id die Spiegelung an H .

Um zu verstehen, wie SH wirkt, sei vH ∈ H ⊥ \ {0}. Jedes v ∈ V kann in der Form

v = PH v + (v − PH v) = PH v + λv vH

geschrieben werden. Dann ist wegen PH2 = PH und PH vH = 0

SH v = 2PH (PH v + λv vH ) − (PH v + λv vH ) = PH v − λv vH ;

insofern „spiegelt“ SH den Vektor v an H .


Eine Spiegelung hat folgende Eigenschaften.

Lemma 9.1.7 Sei SH die Spiegelung an der Hyperebene H .


(a) SH ∈ O(V ).
−1
(b) SH = SH .
(c) Es gibt eine Orthonormalbasis von V , bzgl. der SH durch eine Diagonalmatrix
diag(1, 1, . . . , 1, −1) dargestellt wird.
(d) det(SH ) = −1.

Beweis
(a) Schreibt man v ∈ V als v = PH v + λv vH ∈ H ⊕ H ⊥ , so ist SH v = PH v − λv vH ,
und der Satz von Pythagoras zeigt $SH v$ = $v$. Nach Satz 6.3.15 ist SH orthogonal.
(b) folgt sofort aus der Definition von SH .
(c) Wählt man eine Orthonormalbasis von H und ergänzt diese durch den normierten
Vektor vH /$vH $ zu einer Orthonormalbasis von V , so ist die Matrixdarstellung von
SH in dieser Basis genau diag(1, 1, . . . , 1, −1).
(d) folgt aus (c). 

Umgekehrt ist leicht aus der Bedingung in (c) zu folgern, dass es sich um eine
Spiegelung handelt.
Der Hauptsatz dieses Abschnitts besagt, dass jede orthogonale Abbildung aus Spiege-
lungen zusammengesetzt ist.
234 9 Etwas Geometrie

Satz 9.1.8 Sei L ∈ O(V ) mit dim(V ) = n. Dann existieren Spiegelungen S1 , . . . , Sk ,


k ≤ n, mit L = S1 · · · Sk .

Beweis Wir zeigen, dass es k ≤ n Spiegelungen S1 , . . . , Sk mit Sk · · · S1 L = Id


gibt, was wegen Lemma 9.1.7(b) ausreicht. Dies erreicht man durch höchstens n-malige
Anwendung folgender Behauptung.
• Sei T ∈ O(V ), T = Id. Dann existiert eine Spiegelung S mit ker(T −Id)  ker(ST −
Id) und deshalb

dim ker(ST − Id) > dim ker(T − Id).

Zuerst wendet man diese Behauptung nämlich auf T = L an (im Fall L = Id ist nichts zu
zeigen) und konstruiert S = S1 , so dass S1 L mehr Vektoren festlässt als L, dann wendet
man sie auf T = S1 L ∈ O(V ) an und konstruiert S = S2 , so dass S2 S1 L mehr Vektoren
festlässt als S1 L usw., bis nach höchstens k ≤ n Schritten alle Vektoren festgehalten
werden, d. h. Sk · · · S1 L = Id.
Kommen wir zum Beweis der Behauptung. Da T = Id, existiert ein Vektor x mit
T x = x. Dann steht T x − x senkrecht1 auf ker(T − Id): Ist nämlich T y = y, so ist auch
T ∗ y = T ∗ T y = y und deshalb

T x − x, y" = T x, y" − x, y" = x, T ∗ y" − x, y" = x, T ∗ y − y" = 0.

Daher ist H = {T x − x}⊥ eine Hyperebene, die ker(T − Id) enthält. Sei S = SH die
Spiegelung an H . Ist T v = v, so folgt ST v = Sv = v wegen v ∈ ker(T − Id) ⊂ H ,
d. h. ker(T − Id) ⊂ ker(ST − Id). Aber diese Inklusion ist echt, denn T x = x, jedoch
ST x = x: Beachte dazu

x + T x, x − T x" = $x$2 − $T x$2 = 0,

also 12 (x + T x) ∈ {x − T x}⊥ = H und T x = 1


2 (x + T x) + 12 (T x − x), so dass
ST x = 12 (x + T x) − 12 (T x − x) = x.
Damit ist alles gezeigt. 

Durch Vergleich der Determinanten (siehe Lemma 9.1.7(d)) erhält man noch die
Zusatzinformation, dass für L ∈ S O(V ) die Anzahl k gerade sein muss.
In den nächsten beiden Abschnitten werden wir die klassischen Fälle der euklidischen
Ebene (dim(V ) = 2) und des euklidischen Anschauungsraums (dim(V ) = 3) genauer an-

1 Alternativ kann man auch so argumentieren: Da T normal ist, ist ran(T − Id) =
[ker((T − Id)∗ )]⊥ = [ker(T − Id)]⊥ wegen Satz 6.3.8 und Korollar 6.3.13.
9.2 Geometrie im R2 235

sehen und insbesondere nach Matrixdarstellungen orthogonaler Transformationen fragen.


Dort wird folgender Begriff eine Rolle spielen.

Definition 9.1.9 Seien B = (b1 , . . . , bn ) und B  = (b1 , . . . , bn ) zwei geordnete Basen

eines reellen Vektorraums. Sei MBB die Matrix des Basiswechsels von B nach B  (vgl.

(3.3.2) auf Seite 68). Dann heißen B und B  gleich orientiert, wenn det MBB > 0, und

entgegengesetzt orientiert, wenn det MBB < 0.

Im Fall V = Rn kann man einen Schritt weiter gehen. Hier steht nämlich mit der
Einheitsvektorbasis (e1 , . . . , en ) eine kanonische Basis zur Verfügung; diese nennen wir
positiv orientiert und jede dazu gleich orientierte Basis ebenfalls. Im R2 ist (e2 , −e1 )
positiv orientiert, aber (e1 , −e2 ) und (e2 , e1 ) sind negativ orientiert. Im R3 kann man sich
mit dem Kreuzprodukt positiv orientierte Basen verschaffen; siehe Satz 9.3.4(d).

9.2 Geometrie im R2

Wir haben bereits am Ende von Abschn. 6.3 orthogonale 2 × 2-Matrizen kennengelernt,
nämlich Matrizen der Form
cos ϕ − sin ϕ
D(ϕ) = , (9.2.1)
sin ϕ cos ϕ

und diese als Drehungen um den Winkel ϕ interpretiert. (Es ist sogar D(ϕ) ∈ SO(2).) Wir
werden jetzt die Matrixdarstellungen von Abbildungen L ∈ O(R2 ) studieren, und zwar
zunächst für Abbildungen in S O(R2 ).

Satz 9.2.1 Sei L ∈ S O(R2 ) und (u, v) eine Orthonormalbasis von R2 . Dann hat die
Matrixdarstellung von L bzgl. (u, v) die Form D(ϕ) mit einem eindeutig bestimmten ϕ ∈
(−π, π ].

Beweis Sei A = (aij ) die darstellende Matrix, also

Lu = a11 u + a21 v,
Lv = a12 u + a22 v.

Da L orthogonal und (u, v) eine Orthonormalbasis ist, hat man die Gleichungen

2
a11 + a21
2
=1
2
a12 + a22
2
=1
a11 a12 + a21 a22 = 0.
236 9 Etwas Geometrie

Insbesondere ist |a11 | ≤ 1, und man kann a11 = cos ϕ für ein passendes ϕ schreiben.
2 = 1 − cos2 ϕ = sin2 ϕ, also a = ± sin ϕ. Indem man eventuell ϕ durch −ϕ
Dann ist a21 21
ersetzt, erhält man a21 = sin ϕ, und ϕ ∈ (−π, π ] ist durch diese Eigenschaften eindeutig
bestimmt. Genauso führt die zweite Gleichung zu einem ψ mit a12 = sin ψ, a22 = cos ψ.
Die dritte Gleichung lautet dann

0 = cos ϕ sin ψ + sin ϕ cos ψ = sin(ϕ + ψ).

Daher ist ϕ + ψ ein ganzzahliges Vielfaches von π , also2 ψ ∈ {−ϕ, ±π − ϕ} wegen der
Einschränkung ψ ∈ (−π, π ]. Im ersten Fall ist cos ψ = cos ϕ, sin ψ = − sin ϕ, und A hat
in der Tat die Determinante 1. Im zweiten Fall ist cos ψ = − cos ϕ, sin ψ = sin ϕ, und A
hat die Determinante −1. Also ist für L ∈ S O(R2 ) der Winkel ψ = −ϕ der Winkel der
Wahl, und es ist A = D(ϕ). 

Korollar 9.2.2 Die Gruppen S O(R2 ) und SO(2) sind abelsch, aber O(R2 ) bzw. O(2)
sind nicht abelsch.

Beweis Seien A1 , A2 ∈ SO(2); nach Satz 9.2.1 haben sie die Form A1 = D(ϕ1 ) und
A2 = D(ϕ2 ). Nach den Additionstheoremen für Sinus und Kosinus ist

cos ϕ2 − sin ϕ2 cos ϕ1 − sin ϕ1


D(ϕ2 )D(ϕ1 ) =
sin ϕ2 cos ϕ2 sin ϕ1 cos ϕ1

cos ϕ2 cos ϕ1 − sin ϕ2 sin ϕ1 − cos ϕ2 sin ϕ1 − sin ϕ2 cos ϕ1


=
sin ϕ2 cos ϕ1 + cos ϕ2 sin ϕ1 − sin ϕ2 sin ϕ1 + cos ϕ2 cos ϕ1

cos(ϕ1 + ϕ2 ) − sin(ϕ1 + ϕ2 )
=
sin(ϕ1 + ϕ2 ) cos(ϕ1 + ϕ2 )
= D(ϕ1 + ϕ2 ),

also D(ϕ2 )D(ϕ1 ) = D(ϕ1 )D(ϕ2 ) wegen ϕ1 +ϕ2 = ϕ2 +ϕ1 , und A1 und A2 kommutieren.
Dass O(2) nicht kommutativ ist, sieht man etwa an dem Beispiel

01 1 0 1 0 01
= . (9.2.2)
−1 0 0 −1 0 −1 −1 0

Das zeigt gleichzeitig die Aussagen über S O(R2 ) und O(R2 ). 

2 Ausnahme: ϕ = ψ = π , was dem folgenden ersten Fall unterzuordnen ist.


9.2 Geometrie im R2 237

Wir wollen die Matrixdarstellung von L ∈ S O(R2 ) unter Basiswechsel studieren.

Satz 9.2.3 Seien L ∈ S O(R2 ) und (u, v) und (ũ, ṽ) Orthonormalbasen von R2 ; L
besitze bzgl. (u, v) die Matrixdarstellung D(ϕ).
(a) Wenn (u, v) und (ũ, ṽ) gleich orientiert sind, besitzt L bzgl. (ũ, ṽ) ebenfalls die
Matrixdarstellung D(ϕ).
(b) Wenn (u, v) und (ũ, ṽ) entgegengesetzt orientiert sind, besitzt L bzgl. (ũ, ṽ) die
Matrixdarstellung D(−ϕ).

Beweis
(a) Es sei M die Matrix des Basiswechsels von (ũ, ṽ) nach (u, v). Da es sich um
Orthonormalbasen handelt, ist M eine orthogonale Matrix (Satz 6.2.8), und da die
Orientierungen gleich sind, ist M ∈ SO(2). Die Matrixdarstellung von L bzgl. (ũ, ṽ)
ist also M ∗ D(ϕ)M (siehe Satz 3.3.6 und Satz 6.3.5); aber nach Korollar 9.2.2 ist
SO(2) abelsch, daher ist diese Matrixdarstellung M ∗ D(ϕ)M = D(ϕ)M ∗ M = D(ϕ).
(b) Nach Teil (a) ist die Matrixdarstellung bzgl. (ṽ, ũ) die Matrix D(ϕ), also ist die
gesuchte Matrixdarstellung

01 01 cos ϕ sin ϕ
D(ϕ) = = D(−ϕ);
10 10 − sin ϕ cos ϕ

"0 1 #
man beachte, dass 10 die beiden Basisvektoren austauscht. 

Um Teil (b) des Satzes zu veranschaulichen, betrachten wir eine Drehung um 90◦
(entgegen dem Uhrzeigersinn), die bzgl. der Standardbasis (e1 , e2 ) durch D(π/2) dar-
gestellt wird. In den negativ orientierten Basen (e2 , e1 ) bzw. (−e1 , e2 ) ist die darstellende
Matrix aber D(−π/2), was wie eine Drehung im Uhrzeigersinn aussieht, aber wegen der
negativen Orientierung nicht ist.
Kommen wir nun zu den orthogonalen Abbildungen mit Determinante −1.

Satz 9.2.4 Sei L ∈ O(R2 ) \ S O(R2 ).


(a) Sei (u, v) eine Orthonormalbasis von R2 ; dann hat die Matrixdarstellung von L die
Form

cos ϕ sin ϕ
sin ϕ − cos ϕ

mit einem eindeutig bestimmten ϕ ∈ (−π, π ].


238 9 Etwas Geometrie

(b) Es existiert eine Orthonormalbasis (u, v), so dass die Matrixdarstellung von L

1 0
0 −1

lautet; also ist L die Spiegelung an der „u-Achse“.

Beweis
(a) wurde bereits im Beweis von Satz 9.2.1 gezeigt.
(b) Es ist det L = −1, und gleichzeitig ist det L das Produkt der Eigenwerte (Satz 7.2.5),
die möglicherweise komplex sind. Wäre α +iβ ein komplexer, nicht reeller Eigenwert,
so auch α − iβ (Lemma 7.1.7), und es wäre (α + iβ)(α − iβ) = α 2 + β 2 ≥ 0. Daher
müssen die Eigenwerte reell sein, und es kommen nach Lemma 9.1.5 nur 1 und −1
in Frage. Also ist 1 ein Eigenwert (mit zugehörigem normierten Eigenvektor u) und
−1 ein weiterer Eigenwert (mit zugehörigem normierten Eigenvektor v). Dies ist die
gesuchte Orthonormalbasis; u und v sind wegen Satz 8.2.2 orthogonal. 

Wir erkennen jetzt geometrisch, warum das Beispiel aus (9.2.2) funktioniert hat: Es
handelt sich dort um die Drehung um 90◦ und die Spiegelung an der „x-Achse“, und die
kommutieren nicht.
Um die Kraft der Linearen Algebra zu veranschaulichen, beweisen wir zum Schluss
einen klassischen Satz der Dreiecksgeometrie.

Satz 9.2.5 Die drei Höhen eines Dreiecks schneiden sich in einem Punkt.

Beweis Da das Problem translationsinvariant ist, können wir einen Eckpunkt des Dreiecks
(sagen wir C) in den Ursprung legen; zu den anderen beiden gehören die Vektoren A und
B im R2 . Sei P der Schnittpunkt der Höhen durch A und B; es ist also P − A, B" = 0
und P − B, A" = 0 nach Definition einer Höhe. Dass die dritte Höhe auch durch P geht,
ist die Behauptung P , B − A" = 0. Aber unsere Voraussetzung war ja P , B" = A, B"
und P , A" = B, A", also P , B" = P , A", und das zeigt die Behauptung. 

9.3 Geometrie im R3

Wir wollen uns nun der Gruppe SO(3) widmen und beobachten als erstes, dass diese im
Gegensatz zur SO(2) nicht kommutativ ist; das sieht man mit Hilfe der Beispiele
⎛ ⎞ ⎛ ⎞
10 0 010
⎜ ⎟ ⎜ ⎟
A = ⎝ 0 0 −1 ⎠ , B = ⎝0 0 1⎠.
01 0 100
9.3 Geometrie im R3 239

Wir wissen schon, dass jedes A ∈ SO(3) bzw. L ∈ S O(R3 ) als Produkt von zwei
Spiegelungen geschrieben werden kann (Satz 9.1.8; das gilt auch für die Identität, da
ja Id = S ◦ S für jede Spiegelung gilt). Außerdem ist A ∈ SO(3) genau dann, wenn
−A ∈ O(3) \ SO(3), denn det(−A) = (−1)3 det(A).
Wir werden zeigen, dass jedes L ∈ S O(R3 ) eine Drehung ist. Als reelle Eigenwerte
kommen nach Lemma 9.1.5 nur 1 und −1 in Frage, und wenn α + iβ ein komplexer, nicht
reeller Eigenwert ist, ist es auch α − iβ (Lemma 7.1.7). Da das Produkt der Eigenwerte
in ihrer Vielfachheit die Determinante von L, also 1, ist (Satz 7.2.5), muss λ = 1 ein
Eigenwert sein. Sei u ein zugehöriger normierter Eigenvektor. Da L normal ist, folgt
aus Lemma 8.2.3, dass {u}⊥ ein zweidimensionaler L-invarianter Unterraum von R3
ist. Satz 9.2.1 impliziert, dass die Matrixdarstellung von L: {u}⊥ → {u}⊥ bzgl. einer
Orthonormalbasis (v, w) von {u}⊥ eine Drehmatrix D(ϕ) ist. Das beweist den folgenden
Satz.

Satz 9.3.1 Zu L ∈ S O(R3 ) existiert eine Orthonormalbasis, so dass die darstellende


Matrix die Form
⎛ ⎞
1 0 0
⎜ ⎟
⎝ 0 cos ϕ − sin ϕ ⎠
0 sin ϕ cos ϕ

hat.

Die geometrische Intepretation dieses Resultats ist, dass L als Drehung um den Winkel
ϕ mit dem ersten Basisvektor als Drehachse wirkt.
Mit dem gleichen Argument zeigt man, dass jedes L ∈ O(R3 ) \ S O(R3 ) durch eine
Matrix
⎛ ⎞
−1 0 0
⎜ ⎟
⎝ 0 cos ϕ − sin ϕ ⎠
0 sin ϕ cos ϕ

dargestellt werden kann, die als Drehspiegelung wirkt.


Wir wollen nun beliebige Drehungen durch Drehungen um die Koordinatenachsen
beschreiben. Dazu führen wir zu einem Winkel α die speziellen SO(3)-Matrizen D1 (α),
D2 (α) und D3 (α) ein:
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
1 0 0 cos α 0 − sin α cos α − sin α 0
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ 0 cos α − sin α ⎠ , ⎝ 0 1 0 ⎠, ⎝ sin α cos α 0⎠.
0 sin α cos α sin α 0 cos α 0 0 1
240 9 Etwas Geometrie

Satz 9.3.2 Zu A ∈ SO(3) existieren Winkel α, β, γ mit

A = D1 (α)D2 (β)D3 (γ ).

Beweis Da (D1 (α))−1 = (D1 (α))∗ = D1 (−α) und genauso für D3 , ist die Existenz von
Winkeln α  , β, γ  mit

D1 (α  )AD3 (γ  ) = D2 (β)

zu zeigen. Sei α  beliebig; wir berechnen den Eintrag b23 der Matrix B = D1 (α  )A. Dieser
ist

b23 = cos α  · a23 − sin α  · a33 ,

und wir können α  so wählen, dass b23 = 0 ist (im Fall a33 = 0 muss α  die Gleichung
tan α  = a23 /a33 erfüllen). Mit dieser Wahl von α  und beliebigem γ  berechnen wir die
Einträge c2k der Matrix C = BD3 (γ  ):

c21 = b21 cos γ  + b22 sin γ 


c22 = b21 (− sin γ  ) + b22 cos γ 
c23 = b23 = 0

Wir wählen γ  so, dass c21 = 0. Da für γ  + π ebenfalls c21 = 0 ist, können wir ferner
c22 ≥ 0 erreichen. Da C als Produkt orthogonaler Matrizen ebenfalls orthogonal ist, hat
die zweite Zeile, also (0 c22 0), die Norm 1, und wegen c22 ≥ 0 muss c22 = 1 sein. Da
auch die zweite Spalte von C die Norm 1 hat, hat C die Gestalt
⎛ ⎞
c11 0 c13
⎜ ⎟
⎝ 0 1 0 ⎠.
c31 0 c33

Wegen det C = 1 ist

c11 c13
∈ SO(2)
c31 c33

und hat daher die Gestalt (Satz 9.2.1)

cos β − sin β
.
sin β cos β

Das zeigt D1 (α  )AD3 (γ  ) = D2 (β), wie behauptet. 


9.3 Geometrie im R3 241

Erstaunlicherweise reichen bereits Drehungen um zwei Koordinatenachsen aus, um ein


beliebiges A ∈ SO(3) darzustellen. Mit einem zu Satz 9.3.2 analogen Argument zeigt man
nämlich folgendes Ergebnis.

Satz 9.3.3 Zu A ∈ SO(3) existieren Winkel ϕ, ψ, ω mit

A = D3 (ϕ)D1 (ω)D3 (ψ).

Diese Winkel heißen Eulersche Winkel von A; sie sind auch in der Physik bedeutsam.3
Das letzte Thema dieses Abschnitts ist das Kreuzprodukt im R3 . Für x, y ∈ R3
definiert man das Kreuzprodukt oder Vektorprodukt oder äußere Produkt x × y ∈ R3
folgendermaßen:
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
x1 y1 x2 y3 − x3 y2
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
x = ⎝ x2 ⎠ , y = ⎝ y2 ⎠ , x × y = ⎝ x3 y1 − x1 y3 ⎠ .
x3 y3 x1 y2 − x2 y1

Als Eselsbrücke kann man sich die Definition mit Hilfe der rein formal ausgerechneten
Determinante aus den Koordinaten von x und y sowie den drei Einheitsvektoren merken:
 
x y e       
 1 1 1      
   x2 y2   x1 y1   x1 y1 
x × y =  x2 y2 e2  =   e1 −   e2 +  e .
   x3 y3   x3 y3   x2 y2  3
 x3 y3 e3 

Das Kreuzprodukt ist nur im R3 erklärt und nicht in anderen Dimensionen.

Satz 9.3.4 Für x, y ∈ R3 gelten folgende Aussagen.


(a) x × y = −(y × x).
(b) x × y = 0 genau dann, wenn x und y linear abhängig sind.
(c) x ⊥ (x × y), y ⊥ (x × y).
(d) Sind x und y linear unabhängig, so ist (x, y, x × y) positiv orientiert.

Beweis (a) und (c) folgen unmittelbar aus der Definition, genauso wie in (b) x × y = 0,
falls (ohne Einschränkung) y = λx. Ist dort umgekehrt x × y = 0, findet man x2 /x3 =
y2 /y3 (falls die Nenner = 0 sind) etc., so dass x und y linear abhängig sind. Um (d) zu
zeigen, ist nachzurechnen, dass die Matrix mit den Spalten x, y und x × y eine positive
Determinante hat. Entwickelt man nach der letzten Spalte, erhält man

3 Vgl. §35 in L.D. Landau, L.M. Lifschitz, Lehrbuch der theoretischen Physik. Band 1. Akademie-
Verlag; 9. Auflage 1976.
242 9 Etwas Geometrie

(x2 y3 − x3 y2 )2 + (x3 y1 − x1 y3 )2 + (x1 y2 − x2 y1 )2 = $x × y$2 ≥ 0,

und sogar > 0 nach (b), da x und y linear unabhängig sind. 

Physiker merken sich (c) und (d) mit der „Rechte-Hand-Regel“: Zeigt der Daumen der
rechten Hand in Richtung x und der Zeigefinger in Richtung y, so weist der Mittelfinger
senkrecht dazu in Richtung x × y.
Das Kreuzprodukt ist nicht assoziativ; stattdessen gilt die Jacobi-Identität

(x × y) × z + (y × z) × x + (z × x) × y = 0,

was aus dem nächsten Satz folgt (wie?).


Für die geometrische Interpretation des Kreuzprodukts notieren wir folgende Eigen-
schaften.

Satz 9.3.5 Seien x, y, z ∈ R3 .


(a) Es gilt die „Graßmannsche Identität“

x × (y × z) = x, z"y − x, y"z.

(b) Für die Matrix mit den Spalten x, y, z gilt det(x y z) = x × y, z".
(c) x × y, z" = x, y × z".
(d) x, y"2 + $x × y$2 = $x$2 $y$2 .

Beweis (a) sieht man durch (etwas langwieriges) Nachrechnen ein, und (b) folgt
durch Entwicklung der Determinante nach der 3. Spalte. Daraus ergibt sich (c) wegen
det(x y z) = − det(y x z) = det(y z x). Die Rechnung für (d) verwendet (c) und (a) und
lautet

$x × y$2 = x × y, x × y"
= x, y × (x × y)" (wg. (c))
% &
= x, y, y"x − y, x"y (wg. (a))

= $x$2 $y$2 − x, y"2 ;

daraus folgt die Behauptung. 

In (6.3.3) auf Seite 137 haben wir mit Hilfe eines Winkels ϕ ∈ [0, π ]

x, y" = $x$ $y$ cos ϕ


9.4 Kegelschnitte 243

geschrieben; also impliziert Satz 9.3.5(d)

$x × y$2 = $x$2 $y$2 (1 − cos2 ϕ) = $x$2 $y$2 sin2 ϕ

und daher
$x × y$ = $x$ $y$ sin ϕ,

da sin ϕ ≥ 0 für 0 ≤ ϕ ≤ π . Der Ausdruck rechter Hand ist der Flächeninhalt des von den
Vektoren x und y aufgespannten Parallelogramms; dies ist die geometrische Interpretation
von $x × y$.

9.4 Kegelschnitte

Kegelschnitte gehören zur klassischen Geometrie und wurden schon in der Antike studiert.
Ein Kegelschnitt entsteht, wenn man einen Kreis(doppel)kegel mit einer Ebene schnei-
det, die im Allgemeinen nicht den Ursprung enthält („affine Ebene“). Dabei entstehen
unterschiedliche Schnittkurven, nämlich Kreise, Ellipsen, Parabeln und Hyperbeln; siehe
Abb. 9.1 (diese Bilder zeigen nur die untere Hälfte des Doppelkegels).
Um das rechnerisch nachzuvollziehen, setzen wir den Kegel im R3 in der Form

K = {x ∈ R3 : x12 + x22 = x32 }

an. Hier und im Weiteren bezeichnen x1 , x2 , x3 die Koordinaten des Vektors x (und analog
für y etc.). Der obige Kegel K hat einen Öffnungswinkel von 90◦ ; andere Öffnungswinkel
verlangen den Ansatz x12 + x22 = tan2 α2 · x32 . Statt K mit einer (schiefen) Ebene zu
schneiden, werden wir K drehen und dann mit derjenigen Ebene schneiden, deren Punkte
die dritte Koordinate = c haben. Dazu bedienen wir uns der Drehung um die x1 -Achse
⎛ ⎞
1 0 0
⎜ ⎟
D1 (ϕ) = ⎝ 0 cos ϕ − sin ϕ ⎠ ,
0 sin ϕ cos ϕ

Abb. 9.1 Kegelschnitte: Kreis, Ellipse, Parabel, Hyperbel


244 9 Etwas Geometrie

die wir bereits in Satz 9.3.2 kennengelernt haben; wegen der Symmetrie des Kegels reicht
es, solche Drehungen zu betrachten.
Es sei c ≥ 0. Uns interessiert der Zusammenhang von y1 und y2 für diejenigen y ∈ R3
mit y3 = c und y = D1 (ϕ)x für ein (eindeutig bestimmtes) x ∈ K in Abhängigkeit
vom Winkel ϕ ∈ [0, π/2] (aus Symmetriegründen braucht man nur diese Winkel zu
betrachten).
Da (D1 (ϕ))−1 = D1 (−ϕ) ist, haben wir die Gleichungen

x1 = y1
x2 = cos ϕ · y2 + sin ϕ · y3
x3 = − sin ϕ · y2 + cos ϕ · y3

sowie

x12 + x22 = x32 .

Dies, zusammen mit y3 = c, führt zu

y12 + (cos2 ϕ − sin2 ϕ)y22 + 4c cos ϕ sin ϕ · y2 + c2 (sin2 ϕ − cos2 ϕ) = 0. (9.4.1)

Behandeln wir zunächst den Fall c = 0, in dem die Ebene den Ursprung enthält.
Falls cos2 ϕ > sin2 ϕ (d. h. 0 ≤ ϕ < π/4), ist y1 = y2 = 0 die einzige Lösung; der
Kegelschnitt besteht aus genau einem Punkt. Im Fall cos2 ϕ = sin2 ϕ (d. h. ϕ = π/4),
ist y1 = 0 und y2 beliebig; der Kegelschnitt (in den y-Koordinaten) ist die y2 -Achse. Es
$ Fall cos ϕ < sin ϕ (d. h. π/4 < ϕ ≤ π/2); hier entstehen die beiden Geraden
2 2
bleibt der
y1 = ± sin ϕ − cos ϕ y2 .
2 2

Der Fall c > 0 ist interessanter. Wenn ϕ = 0 ist, erhält man

y12 + y22 = c2 ,

also einen Kreis mit Radius c. Im Bereich 0 < ϕ < π/4 ist 0 < cos2 ϕ − sin2 ϕ < 1;
schreiben wir α für diese Differenz sowie β = 2 cos ϕ sin ϕ. Dann wird aus (9.4.1)

y12 + αy22 + 2cβy2 = αc2

und durch quadratische Ergänzung

cβ 2 c2 β 2 c2
y12 + α y2 + = αc2 + = ,
α α α

denn α 2 + β 2 = 1, sowie schließlich


9.4 Kegelschnitte 245

y1 2 y2 − m2 2
+ =1
a b

mit a = c/ α, b = c/α und m2 = −cβ/α. Das ist die Gleichung einer Ellipse mit den
Halbachsen a und b und Mittelpunkt (0, m2 ) in der y1 -y2 -Ebene.
Die gleiche Rechnung führt im Bereich π/4 < ϕ ≤ π/2 zu (diesmal ist α = cos2 ϕ −
sin ϕ ∈ [−1, 0))
2

y2 − m2 2 y1 2
− =1
b a

mit a = c/ |α|, b = c/|α|, m2 = −cβ/α. Dies ist die Gleichung
√ einer Hyperbel.
Es bleibt der Fall ϕ = π/4; hier ist cos ϕ = sin ϕ = 1/ 2, und (9.4.1) wird zu

y12 + 2cy2 = 0,

was die Gleichung einer Parabel ist.


Wir verschieben nun die Koordinaten und führen im Fall der Hyperbel zusätzlich eine
Spiegelung an der Winkelhalbierenden durch (die die beiden Koordinaten vertauscht) und
erhalten die Standardgleichungen für Ellipse und Hyperbel in der Form

ξ1 2 ξ2 2
+ = 1, (9.4.2)
a b
ξ1 2 ξ2 2
− = 1. (9.4.3)
a b

Im Fall der Ellipse führt der Fall a = b zu einem Kreis. Jeder Punkt eines Kreises
(gemeint: auf dem Kreisrand) hat denselben Abstand zum Mittelpunkt. Um die entspre-
chende Eigenschaft für eine Ellipse herzuleiten, führen wir die Brennpunkte
√ der durch
±
(9.4.2) gegebenen Ellipse als die Punkte F ∈ R mit den Koordinaten (±√ a 2 − b2 , 0)
2

ein, wobei wir ohne Einschränkung a ≥ b voraussetzen. Dann ist mit d = a 2 − b2 für
einen Punkt P auf der Ellipse mit den Koordinaten ξ1 und ξ2

$P − F + $2 = (ξ1 − d)2 + ξ22 = ξ12 − 2dξ1 + d 2 + ξ22


ξ12
= ξ12 − 2dξ1 + (a 2 − b2 ) + b2 1 −
a2
d2 2 d 2
= ξ − 2dξ1 + a 2 = ξ1 − a
a2 1 a

und genauso

d 2
$P − F − $2 = ξ1 + a .
a
246 9 Etwas Geometrie

Wegen da ξ1 − a ≤ 0 und da ξ1 + a ≥ 0 erhält man die Gleichung

$P − F + $ + $P − F − $ = 2a; (9.4.4)

mit anderen Worten ist die Summe der Abstände eines Punkts auf einer Ellipse zu den
Brennpunkten gleich dem Doppelten der großen Halbachse. Umgekehrt kann man auch
(9.4.2) aus (9.4.4) schließen (tun Sie’s!). √
Bei der Hyperbel in (9.4.3) setzt man d = a 2 + b2 und F + = (d, 0) und F − =
(−d, 0) ähnlich wie oben. Eine analoge Rechnung zeigt dann
 
 $P − F + $ − $P − F − $  = 2a

für Punkte auf der Hyperbel. Die Gleichungen

b
ξ2 = ± ξ 1
a

beschreiben die Asymptoten der Hyperbel, denn für Hyperbelpunkte mit „sehr großem“ ξ1
ist
)
ξ2 b a 2 b
=± 1− ≈± ;
ξ1 a ξ1 a

das „≈“ kann (und sollte!) durch eine Grenzwertbeziehung präzisiert werden. (Siehe
Abb. 9.2 zur Skizze der Asymptoten.)

Abb. 9.2 Ellipse und Hyperbel (mit Asymptoten) zu den Parametern a = 2, b = 3


9.5 Quadratische Formen und Quadriken 247

9.5 Quadratische Formen und Quadriken

In diesem Abschnitt wollen wir uns ansehen, was die Lineare Algebra zum Thema
Kegelschnitte zu sagen hat.
In Definition 4.1.1 sind wir bereits Multilinearformen begegnet; hier interessiert
uns der Spezialfall einer Bilinearform, den wir der Vollständigkeit halber noch einmal
präsentieren.

Definition 9.5.1 Seien V und W Vektorräume über einem Körper K.


(a) Eine Abbildung B: V × W → K heißt Bilinearform, wenn v → B(v, w) für jedes
w ∈ W und w → B(v, w) für jedes v ∈ V linear sind.
(b) Eine Abbildung Q: V → K heißt quadratische Form, wenn es eine Bilinearform
B: V × V → K mit Q(v) = B(v, v) für alle v ∈ V gibt.

Ein Skalarprodukt auf einem reellen Vektorraum ist eine Bilinearform, und v → $v$2
ist eine quadratische Form auf einem reellen Innenproduktraum. (Auf einem komplexen
Vektorraum ist ein Skalarprodukt nicht bilinear!)
Wir haben im Folgenden immer den Vektorraum Rn im Auge. Hier lassen sich
Bilinearformen mit Hilfe des euklidischen Skalarprodukt s darstellen.

Satz 9.5.2 Zu jeder Bilinearform B auf Rn × Rn existiert eine eindeutig bestimmte reelle
n × n-Matrix A mit

B(x, y) = x, Ay" für alle x, y ∈ Rn .

Beweis Setze aij = B(ei , ej ) und A = (aij ). Dann ist für x, y ∈ Rn mit den Koordinaten
x1 , . . . , xn und y1 , . . . , yn

n n
B(x, y) = B xi ei , y = xi B(ei , y)
i=1 i=1
n n n
= xi B ei , yj ej = xi yj B(ei , ej )
i=1 j =1 i,j =1
n n n
= xi yj aij = xi aij yj
i,j =1 i=1 j =1
n
= xi (Ay)i = x, Ay".
i=1
248 9 Etwas Geometrie

Ist à eine weitere darstellende Matrix, so folgt x, (A − Ã)y" für alle x, y ∈ Rn , und
das impliziert A − Ã = 0. 

Jede quadratische Form auf Rn hat also die Gestalt x → x, Ax". Hier ist A jedoch
nicht eindeutig bestimmt, da ja x, Ax" = A∗ x, x" = x, A∗ x". Indem man A durch die
selbstadjungierte Matrix 12 (A + A∗ ) ersetzt, erhält man die Existenzaussage in folgendem
Satz.

Satz 9.5.3 Zu jeder quadratischen Form Q auf Rn existiert eine eindeutig bestimmte
selbstadjungierte n × n-Matrix A mit

Q(x) = x, Ax" für alle x ∈ Rn .

Beweis Nur die Eindeutigkeit ist noch zu begründen. Dazu verwenden wir die Polarisie-
rungstechnik aus Satz 6.3.12.
Seien A und à selbstadjungierte darstellende Matrizen für Q. Dann gilt für alle
x, y ∈ Rn

Q(x + y) = x + y, A(x + y)" = x + y, Ã(x + y)".

Ausrechnen der Skalarprodukte zusammen mit x, Ax" = x, Ãx" und y, Ay" = y, Ãy"
liefert

x, Ay" + y, Ax" = x, Ãy" + y, Ãx",

was wegen der Selbstadjungiertheit zu

x, Ay" = x, Ãy" für alle x, y ∈ Rn

führt. Das impliziert A = Ã. 

Die Kegelschnittgleichung (9.4.1) ist eine quadratische Gleichung in zwei Veränder-


lichen. Wir wollen die allgemeine quadratische Gleichung im Rn studieren. Diese hat die
Form

Q(x) + (x) + α = 0

mit einer quadratischen Form Q = 0, einer linearen Abbildung : Rn → R und einer


Konstanten α ∈ R. Wir können Q durch eine selbstadjungierte Matrix A = 0 darstellen
und  gemäß Satz 6.2.13 in der Form

(x) = 2 x, v"
9.5 Quadratische Formen und Quadriken 249

angeben; der hier künstlich erscheinende Faktor 2 wird sich bald als praktisch erweisen.
Unsere quadratische Gleichung lautet also

x, Ax" + 2 x, v" + α = 0 (9.5.1)

oder ausgeschrieben

n n
aij xi xj + 2 vj xj + α = 0.
i,j =1 j =1

Falls diese Gleichung lösbar ist, nennt man die Menge aller Lösungen eine Quadrik.
Eine elegante Umschreibung von (9.5.1) gelingt durch folgenden Trick. Sei A = (aij ),
und v habe die Koordinaten v1 , . . . , vn . Wir bilden dann die (n + 1) × (n + 1)-Matrix A
und Vektoren x  ∈ Rn+1 gemäß
⎛ ⎞ ⎛ ⎞
a11 . . . a1n v1 x1
⎜ . .. .. ⎟ ⎜ . ⎟
⎜ .. . ⎟ ⎜ .. ⎟
A = ⎜

. ⎟,
⎟ x = ⎜
⎜ ⎟.

⎝ an1 . . . ann vn ⎠ ⎝ xn ⎠
v1 . . . vn α 1

Dann erfüllt x die Gleichung (9.5.1) genau dann, wenn

x  , A x  " = 0.

Die zu (9.5.1) gehörende Quadrik ist also

Q = {x ∈ Rn : x  , A x  " = 0}.

Wir wollen in diesem Abschnitt zeigen, dass die Gestalt einer Quadrik durch die Eigen-
werte von A bestimmt wird, und insbesondere die klassischen Kegelschnitte wiederfinden.
Dazu ist der erste Schritt eine fortgeschrittene Version der quadratischen Ergänzung mit
dem Ziel, den linearen Term zum Verschwinden zu bringen oder zumindest anderweitig
zu kontrollieren.
Wir bezeichnen die zu (9.5.1) gehörige Quadrik mit Q(A, v, α) und untersuchen die
Wirkung der Translation x → x + c auf die Quadrik. Es ist x + c ∈ Q(A, v, α) genau
dann, wenn (beachte, dass A selbstadjungiert ist)

0 = x + c, A(x + c)" + 2 x + c, v" + α


= x, Ax" + 2 x, Ac + v" + c, Ac" + 2 c, v" + α,
250 9 Etwas Geometrie

d. h. x ∈ Q(A, w, β) mit w = Ac + v, β = c, Ac" + 2 c, v" + α. Bezeichnet man die


linke Seite von (9.5.1) mit PA,v,α (x), so haben wir sogar

PA,v,α (x + c) = PA,w,β (x) mit w = Ac + v, β = PA,v,α (c) (9.5.2)

gezeigt.
Nun wählen wir c so, dass

A2 c + Av = 0

ist. Solch ein c existiert aus folgendem Grund: Nach Lemma 8.1.3 ist ker(A) = ker(A2 )
und deshalb ran(A) = ran(A2 ) (Korollar 7.4.4; mit ran(A) ist natürlich der Wertebereich
der Abbildung x → Ax gemeint), und weil ja −Av ∈ ran(A) ist, gilt auch −Av ∈ ran(A2 )
und hat daher die Form A2 c für ein geeignetes c. Mit dieser Wahl von c gilt für den
Parameter w in (9.5.2) Aw = 0.
Falls w = 0 ist, werden wir das konstante Glied in (9.5.2) zum Verschwinden bringen.
Dazu sei r ∈ R beliebig; die zu (9.5.2) führende Rechnung liefert bei unserer Wahl von c

PA,w,β (x + rw) = PA,z,γ (x) mit z = A(rw) + w = w, γ = PA,w,β (rw).

Man beachte PA,w,β (rw) = rw, A(rw)" + 2r w, w" + β = 2r$w$2 + β wegen Aw = 0,


und die Wahl r = −β/(2$w$2 ) führt zu γ = 0. Zusammen ergibt sich also mit dieser
Wahl von c und r

PA,v,α (x + c + rw) = PA,w,β (x + rw) = PA,w,γ (x).

Diese Rechnungen beweisen daher folgendes Lemma.

Lemma 9.5.4 Es gibt Vektoren c ∈ Rn und w ∈ Rn mit Aw = 0 sowie γ ∈ R, so dass

PA,v,α (x + c ) = PA,w,γ (x) für alle x ∈ Rn ,

und es ist γ = 0 wählbar, falls w = 0.

Mit anderen Worten wird die Quadrik Q(A, v, α) mit einer geeigneten Translation auf
die Quadrik Q(A, w, γ ) abgebildet, wobei Aw = 0 und γ w = 0 ist.
Der zweite (entscheidende) Schritt ist, die selbstadjungierte Matrix A zu diagonalisie-
ren (Korollar 8.1.5):

U ∗ AU = D = diag(λ1 , . . . , λn )
9.5 Quadratische Formen und Quadriken 251

mit den Eigenwerten λj ∈ R und einer orthogonalen Matrix U , deren Spalten uj eine
zugehörige Orthonormalbasis aus Eigenvektor en bilden. Wenn wir x in dieser Basis
als x = U ξ = ξ1 u1 + · · · + ξn un darstellen, erhält der quadratische-Form-Anteil die
Darstellung

n
x, Ax" = U ξ, AU ξ " = ξ, U ∗ AU ξ " = ξ, Dξ " = λj ξj2 .
j =1

Damit bekommt man aus der Darstellung in Lemma 9.5.4

n
PA,w,γ (x) = λj ξj2 + 2 ξ, U ∗ w" + γ = PD,U ∗ w,γ (ξ ). (9.5.3)
j =1


Wenn w = 0 ist, entfällt der lineare Term, und es bleibt nj=1 λj ξj2 + γ . Ist w = 0, so
ist laut Lemma 9.5.4 γ = 0 und Aw = 0, so dass w ein Eigenvektor zum Eigenwert 0 von
A ist. Durch Umnummerierung können wir λn = 0 erreichen sowie, dass w ein positives
Vielfaches von un = U en ist; dann ist ξ, U ∗ w" = 12 ρξn mit einem ρ > 0. In (9.5.3)

bleibt somit n−1
j =1 λj ξj + ρξn .
2

Zusammengefasst haben wir folgenden Satz bewiesen.

Satz 9.5.5 Jede Quadrik kann durch eine Isometrie in eine der folgenden Normalformen
überführt werden:

(a) Qa = {ξ ∈ Rn : nj=1 λj ξj2 + γ = 0}

(b) Qb = {ξ ∈ Rn : n−1
j =1 λj ξj + ρξn = 0}
2

mit reellen Zahlen λj , γ und ρ > 0. Dabei sind die λj die Eigenwerte der selbstadjun-
gierten Matrix A, die die quadratische Form in der gegebenen Quadrik darstellt.

Sind alle λj > 0, muss der Fall (a) vorliegen. Ist dort γ > 0, so ist Qa = ∅; ist γ = 0,
so ist Qa = {0}; ist γ < 0, so kann man Qa mit geeigneten aj > 0 in der Form
* ξ1 2 ξn 2 +
ξ ∈ Rn : + ··· + =1
a1 an

wiedergeben. Dies ist ein Ellipsoid mit den Halbachsen a1 , . . . , an ; die zugehörigen Basis-
vektoren u1 , . . . , un sind die Hauptachsen des Ellipsoids, weswegen die Diagonalisierung
einer selbstadjungierten Matrix auch als Hauptachsentransformation bekannt ist.
Generell ist die Gestalt der Quadrik hauptsächlich von den Vorzeichen der Eigenwerte
abhängig, z. B. hat man bei n = 3 außer Ellipsoiden (λ1 , λ2 , λ3 > 0, γ < 0) unter anderem
noch einschalige Hyperboloide (λ1 , λ2 > 0, λ3 < 0, γ < 0), zweischalige Hyperboloide
252 9 Etwas Geometrie

Abb. 9.3 Ellipsoid und hyperbolisches Paraboloid

Abb. 9.4 Ein- und zweischaliges Hyperboloid

(λ1 > 0, λ2 , λ3 < 0, γ < 0) oder hyperbolische Paraboloide (λ1 > 0, λ2 < 0, λ3 = 0,
γ = 0, ρ > 0) als „Flächen 2. Ordnung“; vgl. Abb. 9.3 und 9.4.
Der Fall n = 2 führt zu den Kegelschnitten aus Abschn. 9.4. In (9.4.1) wird die
quadratische Form durch die Diagonalmatrix diag(1, cos2 ϕ − sin2 ϕ) dargestellt mit den
Eigenwerten λ1 = 1 und λ2 = cos2 ϕ − sin2 ϕ. Ist λ2 = 0 und γ < 0 im elliptischen Fall
(λ2 > 0) bzw. γ = 0 im hyperbolischen Fall (λ2 < 0), so erkennt man die Darstellungen
aus (9.4.2) und (9.4.3) als Umformungen derjenigen aus Satz 9.5.5(a). (γ = 0 führt zu den
Grenzfällen Punkt bzw. Doppelgerade.) Ist ϕ = π/4, hat man die Eigenwerte 1 und 0 und
ist im parabolischen Fall von Satz 9.5.5(b).
9.6 Konvexe Mengen 253

9.6 Konvexe Mengen

In diesem Abschnitt ist V bzw. W stets ein reeller Vektorraum.

Definition 9.6.1 Eine Teilmenge C ⊂ V heißt konvex, wenn

v, w ∈ C, 0 ≤ λ ≤ 1 ⇒ λv + (1 − λ)w ∈ C

gilt.

Geometrisch heißt das, dass mit zwei Punkten auch die Verbindungsstrecke in C liegt.
Definitionsgemäß ist auch die leere Menge konvex.

Beispiele 9.6.2
(a) In Abb. 9.5 sieht man einige Beispiele für konvexe oder nicht konvexe Teilmengen
von R2 .
(b) Sei V ein Innenproduktraum; dann sind die „Kugeln“ B[x, r] := {v ∈ V : $v−x$ ≤ r}
und B(x, r) := {v ∈ V : $v − x$ < r} konvex: Gelten nämlich $v − x$ ≤ r,
$w − x$ ≤ r und 0 ≤ λ ≤ 1, so folgt wegen der Dreiecksungleichung

$(λv + (1 − λ)w) − x$ = $λ(v − x) + (1 − λ)(w − x)$


≤ $λ(v − x)$ + $(1 − λ)(w − x)$
= λ$v − x$ + (1 − λ)$w − x$
≤ λr + (1 − λ)r = r.

Der Beweis für die „offene“ Kugel B(x, r) geht genauso.


(c) Seien a1 , . . . , an ∈ R und b1 , . . . , bn ∈ R. Dann ist die Menge {v ∈ Rn : aj vj ≤ bj für
j = 1, . . . , n} konvex, wie man sofort nachrechnet (natürlich soll v die Koordinaten
v1 , . . . , vn haben).

Das letzte Beispiel kann man leichter mit dem folgenden allgemeinen Lemma begrün-
den, das sich direkt aus der Definition ergibt.

Abb. 9.5 Konvexe und nicht konvexe Mengen


254 9 Etwas Geometrie

Lemma 9.6.3
(a) Sei L ∈ L (V , W ), und sei C ⊂ V konvex. Dann ist auch L(C) ⊂ W konvex.
(b) Sei L ∈ L (V , W ), und sei C ⊂ W konvex. Dann ist auch L−1 (C) ⊂ V konvex.
(c) Sei I eine Indexmenge, und für jedes i ∈ I sei Ci ⊂ V eine konvexe Menge. Dann ist

auch i∈I Ci konvex.

Beweis
(a) Seien w1 , w2 ∈ L(C) und 0 ≤ λ ≤ 1; dann existieren vi ∈ C mit wi = L(vi ). Es
folgt

λw1 + (1 − λ)w2 = λL(v1 ) + (1 − λ)L(v2 ) = L(λv1 + (1 − λ)v2 ) ∈ L(C),

da ja wegen der Konvexität λv1 + (1 − λ)v2 in C liegt.


(b) Seien v1 , v2 ∈ L−1 (C) und 0 ≤ λ ≤ 1; dann sind L(v1 ) ∈ C und L(v2 ) ∈ C. Es folgt

L(λv1 + (1 − λ)v2 ) = λL(v1 ) + (1 − λ)L(v2 ) ∈ C,

da C konvex ist. Das zeigt λv1 + (1 − λ)v2 ∈ L−1 (C).



(c) Seien v1 , v2 ∈ i Ci und 0 ≤ λ ≤ 1. Für jedes i ∈ I gilt dann v1 , v2 ∈ Ci und deshalb

λv1 + (1 − λ)v2 ∈ Ci , denn Ci ist konvex. Das zeigt λv1 + (1 − λ)v2 ∈ i Ci . 

Wir wollen mit Hilfe dieses Lemmas das Beispiel 9.6.2(c) sezieren. Wir setzen Lj (v) =
aj vj , also Lj ∈ L (Rn , R). Es ist (−∞, bj ] ⊂ R konvex und wegen Lemma 9.6.3(b) auch
n
Cj := L−1 j ((−∞, bj ]), und Lemma 9.6.3(c) liefert, dass j =1 Cj konvex ist. Aber das ist
genau die im obigen Beispiel beschriebene Menge. Mit dieser Technik – beobachte, dass
eine gegebene Menge das lineare Bild oder Urbild einer offensichtlich konvexen Menge
oder der Schnitt solcher Mengen ist – lässt sich häufig die Konvexität einer Menge sehr
schnell begründen. (Ähnlich geht man in der Analysis vor, wenn es um offene oder abge-
schlossene Mengen und stetige Abbildungen geht.)
Sei nun M ⊂ V eine beliebige Teilmenge, und es sei C = {C ⊂ V : M ⊂ C und

C ist konvex}; es ist C = ∅, da V ∈ C . Nach Lemma 9.6.3(c) ist C̃ := C∈C C
ebenfalls konvex, und C̃ umfasst M. Konstruktionsgemäß ist C̃ Teilmenge jeder konvexen,
M umfassenden Menge, also ist sie die kleinste dieser Art.

Definition 9.6.4 Die gerade beschriebene Menge heißt die konvexe Hülle von M und wird
mit co(M) bezeichnet:

co(M) = {C ⊂ V : M ⊂ C, C konvex}.

Diese Konstruktion ist natürlich eng verwandt mit der Bildung der linearen Hülle in
Korollar 2.1.9.
9.6 Konvexe Mengen 255

Lemma 9.6.5 Es gilt

 N N 
co(M) = λj vj : N ∈ N, 0 ≤ λj ≤ 1, λj = 1, vj ∈ M (j = 1, . . . , N) .
j =1 j =1

N

Ein Ausdruck j =1 λj vj wie auf der rechten Seite, also mit 0 ≤ λj ≤ 1 und
j λj = 1, wird Konvexkombination der vj genannt. (Übrigens reicht es wegen der
Summenbedingung, λj ≥ 0 zu wissen.)
N1
Beweis Die Menge rechter Hand ist konvex: Sind nämlich v = j =1 λj vj und
N 2
w = k=1 μk wk Konvexkombinationen von Elementen v1 , . . . , vN1 ∈ M bzw.
w1 , . . . , wN2 ∈ M sowie 0 ≤ λ ≤ 1, so ist auch

N1 N2 N1 +N2
λv + (1 − λ)w = λλj vj + (1 − λ)μk wk = νl zl
j =1 k=1 l=1

mit νl = λλl für l ≤ N1 , νl = (1 − λ)μl−N1 für l > N1 , zl = vl für l ≤ N1 , zl = wl−N1


 1 +N2
für l > N1 eine Konvexkombination von Elementen aus M, denn N l=1 νl = 1 und
0 ≤ νl ≤ 1. Ferner enthält diese Menge die Menge M (zu v ∈ M wähle N = 1, λ1 = 1,
v1 = v). Das zeigt die Inklusion „⊂“.
Um „⊃“ zu zeigen, reicht es, sich Folgendes klarzumachen (warum reicht das?):

• Ist C konvex und v = N j =1 λj vj eine Konvexkombination von Elementen von C, so
ist v ∈ C.
Das zeigt man schnell mit vollständiger Induktion nach N : Die Fälle N = 1, N = 2 sind
klar. Um von N − 1 auf N zu schließen, betrachten wir eine Konvexkombination aus N

Summanden v = N j =1 λj vj , wobei ohne Einschränkung λN = 1 ist. Dann erhält man
nach Induktionsvoraussetzung

N −1
λj
v = (1 − λN ) vj + λN vN ∈ C,
1 − λN
j =1

 −1 λj
denn Nj =1 1−λN vj ist eine Konvexkombination: Alle λj /(1 − λN ) sind ≥ 0 und ihre
Summe ist = 1. 

Man beachte, dass in Lemma 9.6.5 Konvexkombinationen beliebiger Länge N auftreten


können. Das ist im endlichdimensionalen Fall anders.
256 9 Etwas Geometrie

Satz 9.6.6 (Satz von Carathéodory) Ist dim(V ) = n, so ist für M ⊂ V

n+1 n+1 
co(M) = λj vj : 0 ≤ λj ≤ 1, λj = 1, vj ∈ M (j = 1, . . . , n + 1) .
j =1 j =1

Beweis Die Inklusion „⊃“ ist klar nach Lemma 9.6.5. Umgekehrt sei v ∈ co(M). Nach
Lemma 9.6.5 können wir

v = λ1 v1 + · · · + λN vN (9.6.1)

mit geeigneten N ∈ N, vj ∈ M und λj ∈ [0, 1] mit j λj = 1 schreiben. Ist N ≤
n + 1, sind wir fertig (falls N < n + 1, müsste man noch künstlich mit Nullen auffüllen:
v = λ1 v1 + · · · + λN vN + 0 · v1 + · · · + 0 · v1 , damit man exakt n + 1 Terme erhält).
Nun sei N > n + 1. Wir betrachten den Vektorraum V ⊕ R, der die Dimension n + 1
hat. Also sind die N Elemente (v1 , 1), . . . , (vN , 1) dieses Vektorraums linear abhängig,
und es existieren α1 , . . . , αN ∈ R, die nicht alle = 0 sind, mit

α1 v1 + · · · + αN vN = 0, α1 + · · · + αN = 0. (9.6.2)

Sei Ij = {r ∈ R: λj + rαj ≥ 0} für j = 1, . . . , N. Wenn αj = 0 ist, ist Ij = R, und


wenn αj = 0 ist, ist Ij ein Intervall des Typs (−∞, γj ] oder des Typs [γj , ∞). Daher

ist I = N j =1 Ij ein abgeschlossen es Intervall, das nicht R ist; ferner ist stets 0 ∈ Ij ,
d. h. I = ∅. Also besitzt I mindestens einen Randpunkt γ , der dann auch Randpunkt von
einem der Intervalle Ij ist, sagen wir von Ip . Es gilt also λj + γ αj ≥ 0 für alle j und
λp + γ αp = 0. Aus (9.6.1) und (9.6.2) folgt jetzt

v = (λ1 + γ α1 )v1 + · · · + (λN + γ αN )vN .

Dies ist eine Konvexkombination nach Wahl von γ , aber effektiv sind höchstens N − 1
Summanden vorhanden, da der Koeffizient von vp verschwindet.
Das Verfahren kann man nun so lange wiederholen, bis man eine Konvexkombination
aus n + 1 Elementen hat. 

Genauer haben wir gezeigt:


• Ist dim(V ) = n und v ∈ co{v1 , . . . , vN } für ein N > n + 1, so existieren
v1 , . . . , vn+1
 ∈ {v1 , . . . , vN } mit v ∈ co{v1 , . . . , vn+1
 }.
Auch im nächsten Satz taucht die Abhängigkeit von der Dimension des umgebenden
Raums auf. Machen Sie sich eine Skizze für n = 2 oder n = 3!
9.7 Die Minkowskischen Sätze 257

Satz 9.6.7 (Satz von Helly) Sei dim(V ) = n sowie N ≥ n + 1. Seien C1 , . . . , CN ⊂ V


konvexe Mengen so, dass je n + 1 dieser Mengen einen gemeinsamen Punkt haben. Dann

ist Nj =1 Cj = ∅.

Beweis Wir verwenden vollständige Induktion nach N mit dem Induktionsanfang


N = n + 1, wo nichts zu zeigen ist. Nun zum Induktionsschluss von N − 1 (≥ n + 1)
auf N (≥ n + 2). Seien C1 , . . . , CN wie in der Formulierung des Satzes gegeben. Nach

Induktionsvoraussetzung ist für jedes j ∈ {1, . . . , N } der Schnitt i=j Ci nicht leer; sei

vj ∈ i=j Ci . Das sind N ≥ n + 2 Vektoren in einem n-dimensionalen Raum. Wie im
Beweis des Satzes von Carathéodory (siehe (9.6.2)) erhalten wir α1 , . . . , αN ∈ R, die
nicht alle = 0 sind, mit

α1 v1 + · · · + αN vN = 0, α1 + · · · + αN = 0.

Bei geeigneter Nummerierung sind α1 , . . . , αr > 0 und αr+1 , . . . , αN ≤ 0 (wegen der



Summenbedingung j αj = 0 und der Tatsache, dass nicht alle αj verschwinden, muss

1 ≤ r < N sein). Es sei α := rj =1 αr > 0 und λj = αj /α für j = 1, . . . , r sowie
μj = −αj /α für j = r + 1, . . . , N. Es ist dann

v := λ1 v1 + · · · + λr vr = μr+1 vr+1 + · · · + μN vN

jeweils eine Konvexkombination (warum?); die letzte Gleichheit gilt wegen der Wahl
der αj . Nach Konstruktion ist


N 
r
v1 , . . . , vr ∈ Ci , vr+1 , . . . , vN ∈ Ci ,
i=r+1 i=1

 
also gilt auch für deren Konvexkombination v, dass v ∈ N Ci und v ∈ ri=1 Ci
N
i=r+1
(verwende die Hilfsbehauptung auf Seite 255). Deshalb ist v ∈ i=1 Ci . 

9.7 Die Minkowskischen Sätze

Wir steuern zum Abschluss des Kapitels auf einen der wichtigsten Sätze der Konvexgeo-
metrie zu, den auf H. Minkowski zurückgehenden Trennungssatz; diesen diskutieren wir in
zwei Versionen in Satz 9.7.5 und Satz 9.7.6. Anschließend besprechen wir Extremalpunkte
konvexer Mengen. Dazu müssen wir allerdings das rein algebraische Vorgehen um einige
Ideen aus der Welt der metrischen Räume ergänzen, deren Grundbegriffe als bekannt
258 9 Etwas Geometrie

vorausgesetzt seien.4 Daher betrachten wir nun einen endlichdimensionalen reellen Innen-
produktraum V (und nicht bloß einen Vektorraum) und nennen eine Teilmenge M ⊂ V
offen, wenn es zu jedem x ∈ M eine Kugel B(x, r), r > 0, mit B(x, r) ⊂ M gibt. Zur
Erinnerung: B(x, r) = {v ∈ V : $v − x$ < r}, siehe Beispiel 9.6.2(b). Zum Beispiel ist
B(x, r) selbst offen (Beweis?), auch {(x1 , x2 ) ∈ R2 : x1 > 0, x2 > 0} ist offen (Beweis?).
Wir beweisen zuerst einige Lemmata.

Lemma 9.7.1 Sei C ⊂ R2 eine nichtleere offene konvexe Menge mit 0 ∈


/ C. Dann existiert
ein eindimensionaler Unterraum U von R2 mit U ∩ C = ∅.

Beweis Zu jedem Winkel ϕ ∈ R betrachten wir die Halbgerade hϕ , die mit der positiven
x-Achse den Winkel ϕ einschließt; eine Halbgerade ist eine Menge der Form {λu: λ > 0}
für ein u = 0. Seien

I = {ϕ ∈ R: hϕ ∩ C = ∅}, J = {ϕ ∈ R: hϕ ∩ C = ∅}.

Dann ist I ∩ J = ∅, I ∪ J = R; ferner ist I offen, da C offen ist (Beweis?), und I = ∅, da


C = ∅. Außerdem folgt aus 0 ∈
/ C die Implikation

ϕ∈I ⇒ ϕ + π ∈ J;

μ
sonst gäbe es nämlich u = 0, λ, μ > 0 mit λu ∈ C, μ(−u) ∈ C, so dass 0 = λ+μ λμ +
λ
λ+μ (−μu) ∈ C.
Nehmen wir nun an, dass es keinen eindimensionalen Unterraum mit U ∩ C = ∅ gibt.
Dann gilt die Implikation

ϕ∈J ⇒ ϕ + π ∈ I,

d. h.

J = {ϕ + π : ϕ ∈ I },

und J ist ebenfalls offen.


Das führt zu einem Widerspruch: Ist nämlich ϕ0 ∈ I , so betrachte ψ = sup (I ∩
[ϕ0 , ϕ0 + π ]). Dann ist ψ < ϕ0 + π , und ψ kann wegen der Supremumseigenschaft weder
zu I noch zu J gehören, da I und J beide offen sind. 

Indem man nach Auswahl einer Orthonormalbasis einen zweidimensionalen Innenpro-


duktraum V mit R2 identifiziert, kann man dieses Lemma auch so ausdrücken.

4 Wie schon in Abschn. 8.7 sei O. Forster, Analysis 2. Springer Spektrum als Standardquelle genannt.
9.7 Die Minkowskischen Sätze 259

Lemma 9.7.2 Sei V ein zweidimensionaler Innenproduktraum, und sei C ⊂ V eine


offene konvexe Menge mit der Eigenschaft, dass U ∩ C = ∅ für jeden eindimensionalen
Unterraum U von V . Dann ist 0 ∈ C.

Lemma 9.7.3 Sei V ein endlichdimensionaler Innenproduktraum der Dimension


dim(V ) ≥ 2, und sei C ⊂ V eine offene konvexe Menge mit der Eigenschaft, dass
U ∩ C = ∅ für jeden eindimensionalen Unterraum U von V . Dann ist 0 ∈ C.

Beweis Sei W ⊂ V ein zweidimensionaler Unterraum; nach Voraussetzung über C ist


C  := C ∩ W nicht leer und konvex, und wenn man C  als Teilmenge von W (statt V )
auffasst, ist C  auch offen (Beweis?). Da C  und W die Voraussetzung von Lemma 9.7.2
erfüllen, folgt 0 ∈ C  und erst recht 0 ∈ C. 

Lemma 9.7.4 Sei V ein endlichdimensionaler Innenproduktraum, und sei C ⊂ V eine


offene konvexe Menge mit 0 ∈
/ C. Dann existiert eine Hyperebene H , also ein Unterraum
der Dimension dim(V ) − 1, mit H ∩ C = ∅.

Beweis Es sei U ein Unterraum von V maximaler Dimension d mit U ∩ C = ∅. (Dass


es überhaupt solche Unterräume gibt, folgt aus der Voraussetzung 0 ∈ / C: {0} ∩ C = ∅.)
Wenn d = dim(V ) − 1 ist, sind wir fertig. Nehmen wir also d = dim(U ) ≤ dim(V ) − 2
an; es folgt dim(U ⊥ ) ≥ 2. Sei P die Orthogonalprojektion auf U ⊥ und C  := P (C). Dann
ist C  konvex (Lemma 9.6.3(a)) und, wenn man C  als Teilmenge von U ⊥ ansieht, auch
offen in U ⊥ (Beweis?).
Wegen der vorausgesetzten Maximalität muss jeder eindimensionale Unterraum von
U ⊥ die Menge C  schneiden: Gäbe es nämlich ein 0 = u0 ∈ U ⊥ mit lin{u0 } ∩ C  = ∅, so
wäre U0 := U ⊕ lin{u0 } ein Unterraum von V mit U0 ∩ C = ∅ (Begründung folgt) und
dim(U0 ) > d, was unmöglich ist.
Um U0 ∩ C = ∅ einzusehen, nehme man das Gegenteil an: Es existieren u ∈ U und
λ ∈ R mit u + λu0 ∈ C, d. h. P (u + λu0 ) ∈ C  , also wegen P (u) = 0 und P (u0 ) = u0
auch λu0 ∈ C  , was lin{u0 } ∩ C  = ∅ widerspricht.
Wir haben gezeigt, dass U ⊥ und C  die Voraussetzung von Lemma 9.7.3 erfüllen. Es
folgt 0 ∈ C  , also U ∩ C = ∅ (denn P (v) = 0 genau dann, wenn v ∈ U ), was der Wahl
von U widerspricht.
Damit ist das Lemma bewiesen. 

Zur Vorbereitung der Trennungssätze soll Lemma 9.7.4 umformuliert werden. Die dort
vorkommende Hyperebene kann in der Form

H = {vH }⊥ = {v: v, vH " = 0} = ker 

angegeben werden, wo vH = 0 und  das lineare Funktional v → v, vH " ist. Die


Hyperebene H teilt den Vektorraum V in zwei offene Halbräume H + = {v: v, vH " > 0}
260 9 Etwas Geometrie

und H − = {v: v, vH " < 0} auf. Dass C ∩ H = ∅ ist, impliziert, dass entweder C ⊂ H +
oder C ⊂ H − (warum?). Insofern „trennt“ die Hyperebene H die konvexe Menge C
von 0.

Satz 9.7.5 (1. Trennungssatz) Sei V ein endlichdimensionaler Innenproduktraum. Seien


C1 , C2 ⊂ V konvex, C1 sei offen, und C1 und C2 seien disjunkt. Dann existieren vH ∈ V
und α ∈ R mit

C1 ⊂ {v: v, vH " < α}, C2 ⊂ {v: v, vH " ≥ α}.

Die „affine Hyperebene“ {v: v, vH " = α} trennt also C1 und C2 .

Beweis Setze C = {v1 − v2 : v1 ∈ C1 , v2 ∈ C2 }. Dann ist C konvex (leicht zu sehen) und


offen, was man am schnellsten aus der Darstellung

C= {v1 − v2 : v1 ∈ C1 }
v2 ∈C2

abliest, denn dies ist eine Vereinigung offener Mengen, also offen (leicht zu sehen und
noch leichter aus der Analysis zu zitieren). Da C1 und C2 disjunkt sind, ist 0 ∈
/ C. Mit
den obigen Bezeichnungen folgt aus Lemma 9.7.4, dass C ⊂ H + oder C ⊂ H − ; ohne
Einschränkung können wir das Letztere annehmen, andernfalls ersetze vH durch −vH .
Für v1 ∈ C1 und v2 ∈ C2 ist also v1 − v2 , vH " < 0, mit anderen Worten v1 , vH " <
v2 , vH ". Setzt man α = supv1 ∈C1 v1 , vH ", so erhält man

v1 , vH " ≤ α ≤ v2 , vH " für alle v1 ∈ C1 , v2 ∈ C2 .

Wenn man nun noch beachtet, dass für die offene konvexe Menge C1 die Zahlen v1 , vH "
(v1 ∈ C1 ) ein offenes Intervall bilden (warum?), erhält man die Behauptung des Satzes. 

Man beachte, dass die vorstehenden Aussagen nicht zu gelten brauchen, wenn keine
Offenheit vorausgesetzt wird; in R2 ist zum Beispiel C = {(x1 , x2 ): x1 > 0} ∪
{(0, x2 ): x2 > 0} ein Gegenbeispiel zu Lemma 9.7.1.
Die folgende Version des Trennungssatzes gestattet sogar „strenge Trennung“. Dazu
benötigen wir eine weitere Vokabel aus der Analysis: Eine Teilmenge M eines Innenpro-
duktraums heißt abgeschlossen, wenn ihr Komplement {v ∈ V : v ∈ / M} offen ist.

Satz 9.7.6 (2. Trennungssatz) Sei V ein endlichdimensionaler Innenproduktraum, sei


C ⊂ V abgeschlossen und konvex sowie v0 ∈
/ C. Dann existieren vH ∈ V und α1 , α2 ∈ R
mit

v0 , vH " ≤ α1 < α2 ≤ v, vH " für alle v ∈ C.


9.7 Die Minkowskischen Sätze 261

Beweis Es existiert ein r > 0 mit B(v0 , r) ∩ C = ∅, da C abgeschlossen ist. Nach


Satz 9.7.5 existieren vH ∈ V sowie α2 ∈ R mit

w, vH " < α2 ≤ v, vH " für alle v ∈ C, w ∈ B(v0 , r),

d. h.

v0 + x, vH " < α2 ≤ v, vH " für alle v ∈ C, $x$ < r.

r vH
Setzt man x = 2 $vH $ und α1 = v0 , vH " + 2r $vH $, so ergibt sich

v0 , vH " ≤ α1 < α2 ≤ v, vH " für alle v ∈ C,

was zu zeigen war. 

Alternativ kann man auch die Ungleichungen

v, vH " ≤ β1 < β2 ≤ v0 , vH " für alle v ∈ C (9.7.1)

erreichen, wenn man oben vH durch −vH ersetzt.


Die Trennungssätze spielen eine herausragende Rolle in der linearen Optimierung und
anderen mathematischen Gebieten; in der Funktionalanalysis sind sie mit den Namen
Hahn und Banach verknüpft.
Auch im Beweis des folgenden Darstellungssatzes 9.7.14 von Minkowski sind sie unab-
dingbar. Zur Vorbereitung dieses Satzes benötigen wir ein paar Überlegungen allgemeiner
Natur. Zunächst eine weitere Vokabel: x heißt innerer Punkt einer Menge C, wenn es ein
r > 0 mit B(x, r) ⊂ C gibt; die Menge der inneren Punkte von C (das Innere von C)
werde mit int C bezeichnet. Es folgen einige Lemmata über das Innere einer konvexen
Menge.
Im Folgenden nehmen wir weiterhin an, dass sich alle Überlegungen im Kontext eines
endlichdimensionalen Innenproduktraums abspielen.

Lemma 9.7.7 Das Innere einer konvexen Menge ist konvex.

Beweis Seien x und y innere Punkte einer konvexen Menge C (für int C = ∅ ist nichts
zu zeigen). Dann existieren Radien r1 , r2 > 0 mit B(x, r1 ) ⊂ C, B(y, r2 ) ⊂ C. Für
r = min{r1 , r2 } ist also sowohl B(x, r) ⊂ C als auch B(y, r) ⊂ C. Sei nun 0 ≤ λ ≤ 1
und z = λx + (1 − λ)y; wir zeigen B(z, r) ⊂ C und damit die Konvexität von int C.
Ein beliebiges Element von B(z, r) kann als z + u mit $u$ < r dargestellt werden.
Dann ist x + u ∈ B(x, r) ⊂ C und genauso y + u ∈ C. Da C konvex ist, liegt auch
λ(x + u) + (1 − λ)(y + u) in C, aber dieser Punkt ist nichts anderes als z + u. Das beweist
B(z, r) ⊂ C, wie behauptet. 
262 9 Etwas Geometrie

Der Begriff des inneren Punkts ist genauso wie der einer offenen Menge immer relativ
zu der gegebenen Obermenge (hier dem Innenproduktraum V ) zu verstehen; z. B. ist das
Intervall (0, 1) als Teilmenge von R offen, nicht aber als Teilmenge von R2 , wenn man
(0, 1) als Teilmenge der x-Achse ansieht. Das nächste Lemma erklärt, wie man durch
Verschiebungen zu inneren Punkten konvexer Mengen relativ zu ihrer linearen Hülle
kommt.

Lemma 9.7.8 Sei C ⊂ V konvex und nicht leer. Wenn 0 ∈ C ist, hat C relativ zu lin(C)
einen inneren Punkt. Insbesondere hat für jedes a ∈ C die konvexe Menge C  = {x−a: x ∈
C} nichtleeres Inneres relativ zu lin(C  ).

Beweis Sei W = lin(C). Nach Korollar 2.2.16 enthält das Erzeugendensystem C von W
eine Basis b1 , . . . , bm von W . Wegen bj ∈ C und 0 ∈ C folgt

m
1
p := bj ∈ C.
m+1
j =1

Wir zeigen, dass p relativ zu W ein innerer Punkt von C ist. Dazu werden wir einen Radius
r mit

p+u∈C für alle u ∈ W mit $u$ < r

angeben.
Jeder Vektor w ∈ W kann mittels der Basis b1 , . . . , bm linear kombiniert werden, sagen
wir
m
w= βj (w)bj .
j =1

Die βj sind lineare Abbildungen auf W und können gemäß Satz 6.2.13 in der Form

βj (w) = w, wj "

mit geeigneten wj ∈ W dargestellt werden. Es sei K = max $wj $ > 0; dann liefert die
Cauchy-Schwarz-Ungleichung (Satz 6.1.7)

|βj (w)| = | w, wj "| ≤ $w$ $wj $ ≤ K$w$.

Sei r = (m(m + 1)K)−1 , und sei u ∈ W mit $u$ < r; wir wollen p + u ∈ C beweisen.
m
In der Tat ist p + u = j =1 ( m+1 + βj (u))bj , und dieser Vektor liegt in C, falls
1

1
alle m+1 + βj (u) ≥ 0 sind und m j =1 ( m+1 + βj (u)) ≤ 1 ist (da 0 ∈ C, reicht es,
1
9.7 Die Minkowskischen Sätze 263

m m
1
j =1 ( m+1+ βj (u)) ≤ 1 zu zeigen); die letzte Bedingung ist zu j =1 βj (u) ≤ 1
m+1
äquivalent. Gelte nun $u$ < r; dann folgt

1
|βj (u)| ≤ K$u$ < Kr =
m(m + 1)

und deshalb
m m
1 1
βj (u) ≤ |βj (u)| ≤ m =
m(m + 1) m+1
j =1 j =1

sowie

1 1 1
+ βj (u) ≥ − ≥ 0.
m+1 m + 1 m(m + 1)

Das war zu zeigen.


Der Zusatz ist klar. 

Im folgenden Lemma benutzen wir die Schreibweise { < α} = {x ∈ V : (x) < α}


und analog für { ≤ α} etc.

Lemma 9.7.9 Sei C ⊂ V eine konvexe Menge mit int C = ∅. Sei : V → R linear mit
int C ⊂ { < α}. Dann gilt C ⊂ { ≤ α}.

Beweis Seien x ∈ C, y ∈ int C (nach Voraussetzung gibt es solch ein y). Zu 0 < λ < 1
setze xλ = λy + (1 − λ)x = x + λ(y − x) ∈ C. Ist r > 0 so, dass B(y, r) ⊂ C, so zeigt
eine einfache Rechnung B(xλ , λr) ⊂ C, also xλ ∈ int C. Nun gilt nach Voraussetzung
(x) + λ(y − x) = (xλ ) < α für alle 0 < λ < 1; das impliziert (x) ≤ α durch
Grenzübergang λ → 0. 

Wir wollen als nächstes die geometrischen Begriffe des Extremalpunkts bzw. einer
Seite einführen.

Definition 9.7.10 Sei C ⊂ V konvex.


(a) Eine konvexe Teilmenge S ⊂ C heißt Seite von C, wenn

x, y ∈ C, 0 < λ < 1, λx + (1 − λ)y ∈ S ⇒ x, y ∈ S.

(b) Ein Element p ∈ C heißt Extremalpunkt von C, wenn

x, y ∈ C, 0 < λ < 1, p = λx + (1 − λ)y ⇒ x = y = p.


264 9 Etwas Geometrie

Die Menge der Extremalpunkte von C wird mit ex C bezeichnet.

Ein Extremalpunkt ist also ein Punkt von C, der nicht im (relativen) Innern einer in C
verlaufenden Strecke (mit verschiedenen Endpunkten) liegen kann.
Aus der Definition ergibt sich sofort, dass p genau dann ein Extremalpunkt ist, wenn
{p} eine Seite ist. Ferner zeigt die Definition unmittelbar, dass ein Extremalpunkt einer
Seite von C auch ein Extremalpunkt von C selbst ist:

Lemma 9.7.11 Ist C ⊂ V konvex und S eine Seite von C, so gilt ex S ⊂ ex C, genauer
ex S = S ∩ ex C.

Beispiele 9.7.12
(a) Natürlich braucht eine konvexe Menge überhaupt keine Extremalpunkte zu besitzen,
z. B. ex V = ∅ (falls dim V ≥ 1). Ein weiteres Beispiel: ex B(u, r) = ∅ (leicht zu
verifizieren, vgl. auch (b)).
(b) Für abgeschlossene Kugeln eines Innenproduktraums gilt

ex B[u, r] = {v: $v − u$ = r}; (9.7.2)

die Extremalpunkte sind genau die Randpunkte. Der einfacheren Notation halber
führen wir den Beweis nur für u = 0, r = 1. Ist dann 0 = $v$ = 1, so ist v =
$v$ $v$
v
+ (1 − $v$) · 0 eine nichttriviale Konvexkombination, daher v ∈/ ex B[0, 1].
Ferner ist 0 ∈ / ex B[0, 1] klar; daher gilt „⊂“ in (9.7.2). Nun sei $v$ = 1 und
v = λx + (1 − λ)y mit 0 < λ < 1, $x$, $y$ ≤ 1; nach der Dreiecksungleichung
muss dann notwendig $x$ = $y$ = 1 sein. Die Parallelogrammgleichung ((6.1.2) auf
Seite 120) liefert

2$x$2 + 2$y$2 = 4 = $x + y$2 + $x − y$2 ,

also ist entweder x = y oder $ 12 (x +y)$ < 1. Nehmen wir Letzteres an und setzen wir
z = 12 (x + y). Ist λ ≤ 12 , so ist v = 2λz + (1 − 2λ)y eine Konvexkombination und die
Dreiecksungleichung impliziert $v$ ≤ 2λ$z$ + (1 − 2λ)$y$ < 1 (Widerspruch!), und
für λ > 12 liefert v = (2λ − 1)x + 2(1 − λ)z auf ähnliche Weise einen Widerspruch.
Also ist x = y bewiesen, und v ist ein Extremalpunkt.
(c) Die Koordinaten eines Vektors x ∈ Rn seien x1 , . . . , xn ; wir betrachten den
Hyperwürfel

H = {x ∈ Rn : |xj | ≤ 1 für j = 1, . . . , n}

und behaupten
9.7 Die Minkowskischen Sätze 265

ex H = {x ∈ Rn : |xj | = 1 für j = 1, . . . , n}.

(Man visualisiere den Fall n = 3!) Ist nämlich x ∈ H mit |xk | < 1 und ε = 1 − |xk |,
so gilt x ± εek ∈ H , und x = 12 (x + εek ) + 12 (x − εek ) ist kein Extremalpunkt von H .
Ist jedoch stets |xj | = 1 und sind y, z ∈ H , 0 < λ < 1 mit x = λy + (1 − λ)z, so ist
stets xj = λyj + (1 − λ)zj vom Betrag 1 mit |yj |, |zj | ≤ 1. Daher folgt yj = zj = xj
und y = z = x, und x ist ein Extremalpunkt von H .
(d) Sei C eine konvexe Teilmenge eines Innenproduktraums V , und sei : V → R linear.
Die lineare Abbildung  nehme auf C ihr Supremum an, d. h., es existiert v0 ∈ C mit
(v0 ) ≥ (v) für alle v ∈ C. Dann ist die konvexe Menge S := {v ∈ C: (v) = (v0 )}
eine Seite von C. Seien nämlich v ∈ S, 0 < λ < 1, x, y ∈ C mit v = λx + (1 − λ)y.
Weil (v0 ) der Maximalwert von  auf C ist, folgt (x) ≤ (v0 ) und (y) ≤ (v0 );
andererseits ist (v0 ) = (v) = λ(x) + (1 − λ)(y). Deshalb muss (x) = (y) =
(v0 ) sein, und wir haben x, y ∈ S gezeigt.

Das nächste Beispiel ist weniger offensichtlich und erscheint daher als Satz. Die
Operatornorm wurde in Abschn. 8.6 eingeführt.

Satz 9.7.13 Sei C = {L ∈ L (V ): $L$op ≤ 1}. Dann besteht ex C genau aus den
orthogonalen bzw. unitären Abbildungen.

Beweis Die Dreiecksungleichung für die Operatornorm zeigt, dass C konvex ist. Sei zuerst
U ∈ C orthogonal bzw. unitär mit U = λA + (1 − λ)B, 0 < λ < 1, A, B ∈ C. Da U
isometrisch ist, folgt für alle v ∈ V mit $v$ = 1

U (v) = λ · Av + (1 − λ) · Bv

mit $U v$ = 1, $Av$ ≤ 1, $Bv$ ≤ 1. Nach Beispiel 9.7.12(b) ist U v ein Extremalpunkt


der Einheitskugel B[0, 1] von V , so dass U v = Av = Bv folgt. Das zeigt U = A = B,
und U ist ein Extremalpunkt von C.
Umgekehrt sei U nicht orthogonal bzw. unitär, d. h., es gelte U ∗ U = Id. Dann muss in
der Singulärwertzerlegung von Satz 8.4.5 gelten

n
U (v) = σj v, fj "gj mit 0 ≤ σn < 1.
j =1

Sei ε = 1 − σn > 0, und sei Ũ ∈ L (V ) durch Ũ (v) = ε v, fn "gn definiert. Dann schätzt
man ab

(n−1 (2
( (
$(U ± Ũ )(v)$2 = ( σj v, fj "gj + (σn ± ε) v, fn "gn (
j =1
266 9 Etwas Geometrie

n−1
= σj2 | v, fj "|2 + (σn ± ε)2 | v, fn "|2
j =1
n
≤ | v, fn "|2 = $v$2 ,
j =1

also ist U ± Ũ ∈ C, und U = 12 (U + Ũ ) + 12 (U − Ũ ) ∈


/ ex C. 

Der Hauptsatz über Extremalpunkte konvexer Mengen – auch dieser Satz stammt von
Minkowski – lautet wie folgt; manchmal wird der Satz nach seinem unendlichdimensio-
nalen Analogon auch Satz von Krein-Milman genannt.

Satz 9.7.14 Sei V ein endlichdimensionaler reeller Innenproduktraum, und sei ∅ = C ⊂


V konvex, abgeschlossen und beschränkt.5 Dann gilt C = co ex C; insbesondere ist
ex C = ∅.

Beweis Wir führen einen Induktionsbeweis nach der Dimension von V . Für dim V = 1
können wir V durch R repräsentieren, und C hat notwendig die Gestalt C = [a, b] mit
a ≤ b; die Aussage des Satzes ist dann klar.
Jetzt sei dim V = n ∈ N fest, und die Behauptung des Satzes sei für alle Dimensionen
< n angenommen (wir benutzen jetzt das starke Induktionsprinzip von Seite 178). Sei
C ⊂ V wie im Satz. Wenn int C = ∅ ist, können wir eine Verschiebung C  von C mit W :=
lin C  = V finden; das folgt aus Lemma 9.7.8. Man beachte noch, dass die Extremalpunkte
der verschobenen Menge genau die Verschiebungen der Extremalpunkte von C sind und
dass mit C auch C  konvex, abgeschlossen und beschränkt ist (und umgekehrt). Also greift
die Induktionsvoraussetzung, und die Aussage des Satzes ist für solch ein C begründet.
Es bleibt der Fall int C = ∅ zu diskutieren. Sei zunächst p ∈ C \ int C. Mit Hilfe des
1. Trennungssatzes, Satz 9.7.5, findet man einen Vektor vH = 0 und eine Zahl α ∈ R mit

v, vH " < α für v ∈ int C, p, vH " ≥ α.

Lemma 9.7.9 liefert v, vH " ≤ α für v ∈ C, und : v → v, vH " nimmt ein Maximum
über der Menge C bei p an. Die Menge S := {v ∈ C: v, vH " = p, vH "} ist daher eine
Seite von C (siehe Beispiel 9.7.12(d)). Die verschobene Seite S − p := {v − p: v ∈ S}
hat die gleiche (nur verschobene) Extremalstruktur wie S, und S − p liegt in dem (n − 1)-
dimensionalen Raum vH ⊥ . Nach Induktionsvoraussetzung ist daher p ∈ co ex S, aber nach

Lemma 9.7.11 ist ex S ⊂ ex C. Das zeigt p ∈ co ex C.

5 D. h. sup
v∈C $v$ < ∞.
9.7 Die Minkowskischen Sätze 267

Sei abschließend p ∈ int C; wir werden auch für solch ein p die Beziehung p ∈ co ex C
zeigen. Dazu sei 0 = v ∈ V beliebig; wir betrachten die Gerade g = {p + tv: t ∈ R}
sowie C ∩ g. Dann gelten die folgenden Aussagen (bitte im Detail verifizieren!): C ∩ g
ist konvex und von der Form {p + tv: t ∈ [−t − , t + ]} mit −t − < 0 < t + . (Dies folgt
daraus, dass C konvex, abgeschlossen und beschränkt sowie p ein innerer Punkt ist.)
Ferner sind p+ = p + t + v und p− = p − t − v keine inneren Punkte von C. Nach
dem Trennungsargument aus dem letzten Absatz liegen p+ und p− auf Seiten von C
 + +
und können nach Induktionsvoraussetzung als Konvexkombinationen p+ = m j =1 λj xj ,

m− −
p = k=1 λk yk von Extremalpunkten von C dargestellt werden. Dann zeigt die
Darstellung

m− m+
t+ t− t+ t−
p= + p −
+ p+ = λ− yk + λ+ xj ,
t + t− t+ + t− t+ + t− k t+ + t− j
k=1 j =1

dass p ∈ co ex C. 

Kombiniert man Satz 9.7.14 mit dem Satz von Carathéodory (Satz 9.6.6) bzw. dem
darauf folgenden Zusatz, erhält man, dass jeder Punkt einer konvexen, abgeschlossenen
und beschränkten Teilmenge C eines n-dimesionalen reellen Innenproduktraums als
Konvexkombination von höchstens n + 1 Extremalpunkten dargestellt werden kann.
Satz 9.7.14 gilt auch für Innenprodukträume über C, obwohl der Beweis sich definitiv
auf reelle Räume bezieht (wir haben mit dem Maximum eines Funktionals argumentiert).
Aber jeder komplexe Vektorraum ist auch ein R-Vektorraum, so dass die Aussage des
Satzes auch im komplexen Fall gilt. Diese Bemerkung ist für das folgende Korollar
nützlich, das Satz 9.7.14 illustriert.

Korollar 9.7.15 Sei A eine reelle oder komplexe n × n-Matrix mit $A$op ≤ 1. Dann kann
A als Konvexkombination von orthogonalen bzw. unitären Matrizen geschrieben werden.

Beweis Um Satz 9.7.14 anwenden zu können, muss man nur bemerken, dass wegen
2
Lemma 8.6.3 die Menge {A: $A$op ≤ 1} abgeschlossen im Innenproduktraum Kn
ist (warum?), und die Charakterisierung der Extremalpunkte dieser Menge aus der
Matrixversion von Satz 9.7.13 benutzen. 
268 9 Etwas Geometrie

9.8 Aufgaben

Aufgabe 9.8.1 Zeigen Sie, dass die Isometrien auf einem endlichdimensionalen Innen-
produktraum mit der Komposition eine Gruppe bilden.

Aufgabe 9.8.2 Sei V ein endlichdimensionaler reeller Innenproduktraum, und sei L ∈


L (V ). Sei (u1 , . . . , un ) eine Orthonormalbasis, bezüglich der L durch die Diagonalmatrix
diag(1, 1, . . . , 1, −1) dargestellt wird. Zeigen Sie, dass L eine Spiegelung ist.

Aufgabe 9.8.3 Sei L ∈ L (R3 ) eine Spiegelung. Bezüglich einer gewissen Orthonormal-
basis besitze L die Matrixdarstellung
⎛ ⎞
−1 0 0
⎜ ⎟
⎝ 0 cos ϕ − sin ϕ ⎠
0 sin ϕ cos ϕ

mit einem ϕ ∈ [−π, π ]. Benutzen Sie die Eigenwerte von L, um ϕ = 0 zu zeigen.

Aufgabe 9.8.4 Sei F : R2 → R2 eine Isometrie; schreiben Sie F (v) = U v + a mit


U ∈ O(2) und a ∈ R2 gemäß Satz 9.1.2. Ein Vektor x ∈ R2 heißt Fixpunkt von F , wenn
F (x) = x gilt.
(a) Sei U ∈ SO(2). Unter welchen Bedingungen besitzt F einen Fixpunkt? Ist er
eindeutig bestimmt?
(b) Sei U ∈ / SO(2). Unter welchen Bedingungen besitzt F einen Fixpunkt? Ist er
eindeutig bestimmt?
(Tipp: Eigenwerte könnten wichtig sein.)

Aufgabe 9.8.5 Beweisen Sie Satz 9.3.3.

Aufgabe 9.8.6 Sei u ∈ R3 mit $u$ = 1. Seien ferner ϕ, ψ ∈ R.


(a) Sei Qu : R3 → R3 , Qu (v) = u × v. Zeigen Sie, dass Qu linear und Q3u = −Qu ist.
(b) Sei Du (ϕ) = Id + (sin ϕ)Qu + (1 − cos ϕ)Q2u . Zeigen Sie Du (ϕ)(u) = u und

Du (ϕ)(v) = (cos ϕ)v + (1 − cos ϕ) u, v"u + (sin ϕ)(u × v)

für alle v ∈ R3 .
(c) Zeigen Sie Du (ϕ)Du (ψ) = Du (ϕ + ψ).

Aufgabe 9.8.7 Seien C1 und C2 nichtleere konvexe Teilmengen des Rn . Sei

C = {x + y: x ∈ C1 , y ∈ C2 }.
9.8 Aufgaben 269

(a) Zeigen Sie, dass C konvex ist.


(b) Skizzieren Sie C, wenn C1 ⊂ R2 ein Quadrat und C2 ⊂ R2 ein Kreis jeweils mit dem
Mittelpunkt im Ursprung sind.
n
Aufgabe 9.8.8 Sei C = {x ∈ Rn : j =1 |xj | ≤ 1}. Zeigen Sie, dass C konvex ist,
bestimmen Sie die Extremalpunkte von C, und verifizieren Sie, dass C = co ex C ist.

Aufgabe 9.8.9 Eine reelle n × n-Matrix A heißt doppelt stochastisch, wenn all ihre
Einträge ≥ 0 sind und für die Zeilen- und Spaltensummen

n n
aij = 1 (i = 1, . . . , n), aij = 1 (j = 1, . . . , n)
j =1 i=1

gilt.
(a) Zeigen Sie, dass die Menge C aller doppelt stochastischen n × n-Matrizen konvex ist.
(b) Zeigen Sie, dass jede Permutationsmatrix ein Extremalpunkt von C ist. (Die Umkeh-
rung ist ebenfalls richtig und als Satz von Birkhoff bekannt.)

Aufgabe 9.8.10 Die Funktion f : Rn → R erfülle

f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y)

für alle x, y ∈ Rn , 0 ≤ λ ≤ 1; man nennt solch ein f eine konvexe Funktion. Zeigen Sie,
dass der Epigraph von f

epi(f ) = {(x, t) ∈ Rn+1 : f (x) ≤ t}

konvex ist.

Aufgabe 9.8.11 Seien f, g: Rn → R konvexe Funktionen (vgl. die obige Aufga-


be 9.8.10). Es gelte −g ≤ f . Zeigen Sie: Es existiert eine affine Funktion a der Gestalt
x → b + x, v" mit −g ≤ a ≤ f .
(Hinweis: Wenden Sie den Trennungssatz an!)
Ergänzungen
10

10.1 Unendlichdimensionale Vektorräume

In diesem Abschnitt wird bewiesen, dass jeder K-Vektorraum eine Basis hat. Dazu sind
Vorbereitungen aus der Mengenlehre nötig.
In der axiomatischen Mengenlehre versucht man, ausgehend von wenigen grundlegen-
den Axiomen die gesamte Mengenlehre rigoros aufzubauen. Das allgemein anerkannte
Fundament sind die Zermelo-Fraenkel-Axiome, in denen festgelegt ist, welche Operatio-
nen bei Mengen erlaubt sind.1 Wenn es um unendliche Mengen geht, sind diese Axiome
häufig nicht stark genug; deshalb wird ein weiteres Axiom benötigt, das Auswahlaxiom.

Auswahlaxiom. Sei ∼ eine Äquivalenzrelation auf einer nichtleeren Menge X. Dann


existiert eine Teilmenge von X, die aus jeder Äquivalenzklasse genau ein Element enthält.

Zum Begriff der Äquivalenzrelation siehe Definition 5.3.1.


Dieses Axiom hat viele Konsequenzen in der Mathematik, manche sind sehr natürlich
und erwartbar, andere absolut kontraintuitiv. Zu Letzteren gehört das Banach-Tarski-
Paradoxon:

• Seien K ⊂ R3 und K  ⊂ R3 zwei Kugeln. Dann gibt es n ∈ N sowie disjunkte Zerle-


gungen K = A1 ∪ . . . ∪ An und K  = A1 ∪ . . . ∪ An , so dass Aj und Aj stets kongruent
im Sinne der euklidischen Geometrie sind (d. h. es gibt Kongruenzabbildungen Tj , also
Kompositionen von Drehungen und Translationen, mit Tj (Aj ) = Aj ).

1 Einen ersten kurzen Überblick bietet Kapitel 12 von O. Deiser, C. Lasser, E. Vogt, D. Werner,
12×12 Schlüsselkonzepte zur Mathematik. 2. Auflage, Springer Spektrum 2016.

© Der/die Autor(en), exklusiv lizenziert an Springer Nature Switzerland AG 2022 271


D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2_10
272 10 Ergänzungen

Das ist unvorstellbar, wenn die Kugeln unterschiedliche Radien haben, aber mit dem
Auswahlaxiom beweisbar.2
Betrachten wir ein paar Beispiele. Im Kontext der Beispiele 5.3.2(b) bzw. 5.3.4(b) ist
Zn = {0, . . . , n − 1} solch eine Auswahlmenge, und im Kontext von Beispiel 5.3.2(c)
bzw. 5.3.4(c) ist es jede Gerade, die nicht parallel zu g ist. In diesen Beispielen benötigt
man das Auswahlaxiom nicht, um die Existenz einer Auswahlmenge zu garantieren; man
kann eine solche sogar explizit angeben. Im folgenden Beispiel ist das nicht so. Sei ∼ die
Äquivalenzrelation auf R

x∼y ⇔ x − y ∈ Q.

Hier kann man keine explizite Auswahlmenge angeben, aber das Auswahlaxiom impliziert
die Existenz einer solchen. Eine Auswahlmenge für diese Äquivalenzrelation ist in der
Lebesgueschen Integrationstheorie von Bedeutung, da sie ein Beispiel für eine nicht
Lebesgue-messbare Menge ist.
Eine Konsequenz des Auswahlaxioms ist das Zornsche Lemma.3 Wir werden folgende
Version anwenden.

Zornsches Lemma Sei X eine Menge und X = ∅ eine Menge von Teilmengen von X.
Wenn jede Kette in X nach oben beschränkt ist, besitzt X ein maximales Element.

Hier sind einige Vokabeln zu erläutern. Eine Kette K ist eine Teilmenge von X derart,
dass für A, B ∈ K stets eine der Inklusionen A ⊂ B bzw. B ⊂ A gilt. (Beispiel: Sei
X ⊂ R2 , sei X die Menge aller Kreisscheiben, die Teilmengen von X sind, und sei
x0 ∈ X. Dann ist {K ∈ X : K hat Mittelpunkt x0 } eine Kette.) K ⊂ X heißt nach oben
beschränkt, wenn es eine Menge S ∈ X mit A ⊂ S für alle A ∈ K gibt; solch ein S
heißt obere Schranke von K . Eine Menge M ∈ X heißt maximal, wenn aus M ⊂ M 
und M  ∈ X die Gleichheit M = M  folgt.
Das Zornsche Lemma garantiert die Existenz gewisser mathematischer Objekte; aller-
dings liefert es keine Methode, solche Objekte konkret zu konstruieren.
Jetzt können wir den Basisexistenzsatz beweisen; vgl. Satz 2.2.4 für den endlichdimen-
sionalen Fall.

Satz 10.1.1 Jeder K-Vektorraum besitzt eine Basis.

Beweis Der Vektorraum V = {0} hat die Basis ∅. Sei nun V = {0} ein K-Vektorraum.
Nach Satz 2.2.3 müssen wir eine maximale linear unabhängige Teilmenge von V finden

2 S. Wagon, The Banach-Tarski Paradox. Cambridge University Press 1985.


3 Einen Beweis findet man zum Beispiel in P. Halmos, Naive Mengenlehre, Vandenhoeck &
Ruprecht 1976.
10.1 Unendlichdimensionale Vektorräume 273

(genauer: deren Existenz beweisen); dazu verwenden wir das Zornsche Lemma mit X =
{T ⊂ V : T ist linear unabhängig}. Es ist X = ∅, da V = {0}: Ist 0 = v0 ∈ V , so ist
{v0 } ∈ X . Da eine maximale Menge im Sinne des Zornschen Lemmas genau das ist, was
wir in Satz 2.2.3 suchen, ist nur zu zeigen, dass jede Kette in X nach oben beschränkt ist.
,
Sei also K ⊂ X eine Kette. Wir betrachten K0 = K∈K K und behaupten,
dass K0 ∈ X ist; es ist also zu zeigen, dass K0 eine linear unabhängige Menge
ist. Definitionsgemäß heißt das, dass jede endliche Teilmenge {v1 , . . . , vn } ⊂ K0 aus
paarweise verschiedenen Elementen linear unabhängig ist. Um das zu zeigen, bemerken
wir, dass es zu jedem j = 1, . . . , n eine Menge Kj ∈ K mit vj ∈ Kj gibt. Wir
vergleichen nun K1 und K2 . Da K eine Kette ist, gilt K1 ⊂ K2 oder K2 ⊂ K1 . Sei
i2 ∈ {1, 2} so, dass Ki2 die größere dieser beiden Mengen ist; also ist sowohl K1 ⊂ Ki2 als
auch K2 ⊂ Ki2 . Nun vergleichen wir Ki2 und K3 . Da K eine Kette ist, gilt Ki2 ⊂ K3 oder
K3 ⊂ Ki2 . Sei i3 ∈ {i2 , 3} so, dass Ki3 die größere dieser Mengen ist; also ist Kj ⊂ Ki3 für
j = 1, 2, 3. So fortfahrend, erhält man nach n − 1 Schritten einen Index in mit Kj ⊂ Kin
für j = 1, . . . , n; insbesondere ist {v1 , . . . , vn } ⊂ Kin . Da Kin eine linear unabhängige
Menge ist, ist auch {v1 , . . . , vn } linear unabhängig.
Da klarerweise K ⊂ K0 für alle K ∈ K gilt, ist K0 eine obere Schranke von K , und
K ist nach oben beschränkt.
Damit ist der Satz bewiesen. 

Es sei betont, dass dies im Unendlichdimensionalen ein reiner Existenzsatz mit


einem nichtkonstruktiven Beweis ist; zum Beispiel ist es noch niemandem gelungen,
eine explizite Basis für Funktionenräume wie C(R) (stetige Funktionen) oder D(R)
(differenzierbare Funktionen) anzugeben.
Jetzt können wir auch Korollar 2.2.15 auf den allgemeinen Fall ausdehnen.

Korollar 10.1.2 Jede linear unabhängige Teilmenge eines K-Vektorraums lässt sich zu
einer Basis ergänzen.

Beweis Dies ist ein Korollar zum Beweis von Satz 10.1.1. Ist T0 eine linear unabhängige
Teilmenge des K-Vektorraums V, wende man das Zornsche Lemma wie im letzten Beweis
auf X0 = {T ⊂ V : T0 ⊂ T , T ist linear unabhängig} an. 

Wir halten ferner eine Bemerkung über die Existenz von Komplementärräumen fest.

Satz 10.1.3 Sei V ein K-Vektorraum und U ⊂ V ein Unterraum. Dann existiert ein
Unterraum U  ⊂ V mit V = U ⊕ U  . Ferner existiert eine lineare Projektion von V
auf U .

Beweis Sei B eine Basis von U (Satz 10.1.1). Ergänze B zu einer Basis B ∪ B  von V
(Korollar 10.1.2), wo B ∩ B  = ∅. Setze U  = lin B  ; dann ist V = U ⊕ U  , wie man
leicht nachprüft.
274 10 Ergänzungen

Zur Erinnerung: Eine lineare Projektion von V auf U ist eine lineare Abbildung P ∈
L (V ) mit P 2 = P und ran(P ) = U . Hier ist v = u + u → u solch eine Abbildung. 

Wir wollen nun die Sätze 2.2.13 und 3.1.3 auf den unendlichdimensionalen Fall
übertragen. Dazu ist folgende Notation hilfreich. Seien vi (i ∈ I ) Elemente eines
K-Vektorraums V, von denen nur endlich viele von 0 verschieden sind; also ist I0 = {i ∈
I : vi = 0} endlich. Wir setzen dann4

vi := vi ;
i∈I i∈I0

 
es ist klar, dass für jede endliche Menge I0 ⊂ I1 ⊂ I ebenfalls i∈I vi = i∈I1 vi gilt.
(Man beachte, dass es sich nur formal um eine unendliche Reihe handelt; es ist keinerlei
Konvergenz im Spiel.) Ist {wi : i ∈ I } ⊂ V ein weiterer Satz von Vektoren, für die I0 =
{i: wi = 0} endlich ist, so gilt die vertraute Summenregel

(vi + wi ) = vi + wi ,
i∈I i∈I i∈I

denn J0 := {i ∈ I : vi + wi = 0} ⊂ {i ∈ I : vi = 0} ∪ {i ∈ I : wi = 0} ist endlich und

(vi + wi ) = (vi + wi ) = (vi + wi )


i∈I i∈J0 i∈(I0 ∪I0 )

= vi + wi = vi + wi .
i∈(I0 ∪I0 ) i∈(I0 ∪I0 ) i∈I0 i∈I0

Genauso sieht man das Distributivgesetz

λ vi = (λvi )
i∈I i∈I

ein.
Jetzt können wir die Basisentwicklung im allgemeinen Fall diskutieren.

Satz 10.1.4 Sei V ein K-Vektorraum mit Basis B = {bi : i ∈ I }. Dann existieren zu jedem
v ∈ V eindeutig bestimmte Skalare λi ∈ K (i ∈ I ) mit

v= λi bi .
i∈I

4 Definitionsgemäß ist 
i∈ ∅ vi = 0.
10.1 Unendlichdimensionale Vektorräume 275

Beweis Die Existenz ist klar, da B ein Erzeugendensystem ist. Zur Eindeutigkeit: Gelte
  
v = i∈I λi bi = i∈I μi bi ; dann folgt (siehe Vorbemerkung) i∈I (λi − μi )bi = 0.
(Zur Erinnerung: In diesen Summen sind höchstens endlich viele Summanden = 0.) Da B
linear unabhängig ist, sind alle λi − μi = 0. Das war zu zeigen. 

Die Eindeutigkeit der Basisdarstellung hat eine wichtige Konsequenz. Da in der



Darstellung v = i∈I λi bi die Koeffizenten λi eindeutig bestimmt sind, können wir
wohldefinierte Abbildungen durch

i : V → K, v → λi

erklären (i ∈ I ).

Korollar 10.1.5 Die Abbildungen i sind linear.

Beweis Seien v, w ∈ V mit

v= i (v)bi , w= i (w)bi .
i∈I i∈I

Dann ist einerseits


v+w = (i (v) + i (w))bi
i∈I

und andererseits nach Definition

v+w = i (v + w)bi .
i∈I

Da die Koeffizienten eindeutig sind, folgt i (v + w) = i (v) + i (w).


Genauso zeigt man i (λv) = λi (v). 

Nun zur Übertragung von Satz 3.1.3.

Satz 10.1.6 Sei V ein Vektorraum mit einer Basis B. Sei W ein weiterer Vektorraum, und
sei : B → W eine Abbildung. Dann existiert genau eine lineare Abbildung L: V → W ,
die auf B mit übereinstimmt: L(v) = (v) für alle v ∈ B.

Beweis Der Beweis ist eine Blaupause des Beweises von Satz 3.1.3. Schreibe v ∈ V
gemäß Satz 10.1.4 mit den gerade eingeführten linearen Abbildungen i als

v= i (v)bi = i (v)bi (10.1.1)


i∈I i∈I0
276 10 Ergänzungen

mit I0 = {i ∈ I : i (v) = 0}. Wenn es überhaupt eine wie im Satz beschriebene Abbildung
L gibt, muss sie wegen ihrer Linearität den Vektor v auf

i (v) (bi ) = i (v) (bi )


i∈I0 i∈I

abbilden. Das zeigt, dass es höchstens ein L wie im Satz geben kann, und gibt gleichzeitig
einen Anhaltspunkt, wie die Existenz zu begründen ist. Setze nämlich

L: V → W, L(v) = i (v) (bi ).


i∈I

Dann ist L(bj ) = (bj ) für j ∈ I klar (warum?), und L ist aus folgendem Grund linear.
Die Linearität der i impliziert nämlich

L(v) + L(w) = i (v) (bi ) + i (w) (bi ) = (i (v) + i (w)) (bi )
i∈I i∈I i∈I

= i (v + w) (bi ) = L(v + w).


i∈I

Genauso zeigt man L(λv) = λL(v). 

10.2 Der Dualraum eines Vektorraums

Wir werden in diesem Abschnitt den Dualraum eines K-Vektorraums einführen. Die
Idee dahinter ist, Elemente eines abstrakten Vektorraums durch die Werte, die gewisse
Abbildungen auf ihnen annehmen, zu beschreiben.
In diesem Abschnitt bezeichnet V (bzw. W ) stets einen Vektorraum über einem festen
Körper K.

Definition 10.2.1 Ein lineares Funktional auf V ist eine lineare Abbildung von V nach K.
Die Menge aller linearen Funktionale auf V heißt der Dualraum von V, in Zeichen V  .

Die Notation V  ist in der Literatur nicht verbreitet;5 üblich sind V ∗ oder V  , aber diese
Symbole haben wir bereits in einem anderen Kontext verwandt.
Es ist also V  = L (V , K), so dass sich als Spezialfall von Satz 3.1.10 ergibt:

Lemma 10.2.2 Der Dualraum V  von V ist ein K-Vektorraum.

5 Wie soll man das aussprechen? Ich schlage „V dual“ vor.


10.2 Der Dualraum eines Vektorraums 277

Beispiele 10.2.3
(a) Auf V = K n sind (j = 1, . . . , n beliebig)

1 : V → K, 1 (v) = vj

und

2 : V → K, 2 (v) = v2 + · · · + vn

lineare Funktionale. (Wie üblich hat v die Koordinaten v1 , . . . , vn .)


(b) Auf Rn ist

v → max{v1 , . . . , vn }

kein lineares Funktional, wenn n ≥ 2 ist.


(c) In Korollar 10.1.5 hatten wir die linearen Koordinatenfunktionale im unendlichdimen-
sionalen Fall kennengelernt.
(d) Auf dem R-Vektorraum C[0, 1] aller stetigen reellwertigen Funktionen auf [0, 1] ist
 1
: C[0, 1] → R, (f ) = f (x) dx
0

ein lineares Funktional, wie die Integralrechnung lehrt.


(e) Auf einem endlichdimensionalen Innenproduktraum V über K = R oder K = C ist
für festes w ∈ V

w : V → K, w (v) = v, w"

ein lineares Funktional, und jedes lineare Funktional hat diese Gestalt (vgl.
Satz 6.2.13).

Mittels des letzten Beispiels lassen sich die Trennungssätze (Satz 9.7.5 und 9.7.6) aus
Abschn. 9.7 neu interpretieren. Satz 9.7.6 lässt sich so deuten, dass man mit Hilfe des
Dualraums entscheiden kann, ob ein Vektor v0 in einer abgeschlossenen konvexen Menge
C liegt oder nicht; denn v0 ∈ / C gilt genau dann, wenn es ein  ∈ V  mit (v0 ) <
infv∈C (v) gibt. Insofern wirkt der Dualraum als „Orakel“, ob v0 in C liegt.
Wir formulieren einen Spezialfall von Satz 10.1.6.

Satz 10.2.4 Sei V ein K-Vektorraum mit einer Basis B, und sei λ: B → K eine
Abbildung. Dann existiert genau eine lineare Abbildung  ∈ V  , die auf B mit λ
übereinstimmt: (v) = λ(v) für alle v ∈ B. Insbesondere ist ein lineares Funktional
durch seine Werte auf einer Basis eindeutig festgelegt.
278 10 Ergänzungen

Wir kommen zur Definition des „dualen Objekts“ einer linearen Abbildung.

Definition 10.2.5 Sei L ∈ L (V , W ). Dann heißt die durch

L : W  → V  , L () =  ◦ L

definierte Abbildung die zu L duale oder transponierte Abbildung.

Da die Komposition linearer Abbildungen wieder linear ist, ist stets L () ∈ V  ; ferner
ist L ∈ L (W  , V  ), und man kann leicht verifizieren, dass L → L ebenfalls linear ist
(tun Sie’s!).
Bevor wir uns gleich dem etwas durchsichtigeren endlichdimensionalen Fall zuwenden,
hier ein Beispiel im unendlichdimensionalen Kontext.

Beispiel 10.2.6 Betrachte den R-Vektorraum V = R<∞ aller abbrechenden Folgen;


es wird sich als zweckmäßig erweisen, diese mit 0, 1, 2, . . . statt mit 1, 2, 3, . . . zu
indizieren. In diesem Vektorraum bilden die Vektoren

e0 = (1, 0, 0, 0, . . . ), e1 = (0, 1, 0, 0, . . . ), e2 = (0, 0, 1, 0, . . . ), etc.

eine Basis. Nach Satz 10.2.4 ist eine lineare Abbildung  auf V durch ihre Wirkung
auf die ej festgelegt; setze aj = (ej ). Umgekehrt gibt es für jede Zahlenfolge a =
(a0 , a1 , a2 , . . . ) ∈ RN0 ein eindeutig bestimmtes Funktional a ∈ V  mit a (ej ) = aj ,
j = 0, 1, 2, . . . ; mit anderen Worten ist


a (v) = aj vj ,
j =0

wobei die Reihe in Wirklichkeit eine endliche Reihe ist, weil die Folge v = (vj ) abbricht.
Das heißt, dass die Abbildung

: RN0 → V  , (a) = a

bijektiv ist, und man bestätigt durch einfaches Nachrechnen (tun Sie’s!), dass linear,
also ein Isomorphismus der Vektorräume RN0 und V  ist.
Sei nun L: V → V die durch

(v0 , v1 , v2 , . . . ) → (v1 , 2v2 , 3v3 , . . . )

definierte lineare Abbildung. (Stellt man sich statt der abbrechenden Folgen Polynomfunk-
tionen vor, erkennt man in L ein Modell des Ableitungsoperators.) Um L : V  → V  zu
beschreiben, betrachten wir −1 ◦ L ◦ : RN0 → RN0 . Es ist (L ◦ )(a) = L (a ), also
10.2 Der Dualraum eines Vektorraums 279

∞ ∞
[(L ◦ )(a)](v) = [L (a )](v) = (a ◦ L)(v) = aj (j + 1)vj +1 = bj vj = b (v)
j =0 j =0


mit b = (bj ) = (0, a1 , 2a2 , . . . ). (Zur Erinnerung: ∞j =0 [. . . ] ist in Wirklichkeit eine
endliche Reihe, da v eine abbrechende Folge ist.) Das zeigt

−1
( ◦ L ◦ )(a) = b,

und wir haben eine explizite Beschreibung von L auf der Ebene der „Symbole“ a statt
der a gefunden. Genauer ist

−1
L = ◦ ◦

mit

: RN0 → RN0 , (a) = (0, a1 , 2a2 , . . . ).

Modulo der Identifizierung von V  mit RN0 mittels „ist“ L also .

Es sei jetzt V endlichdimensional mit einer (geordneten) Basis b1 , . . . , bn . Wir



definieren lineare Funktionale bj ∈ V  gemäß Satz 10.2.4 durch die Forderung

 1 für i = j,
bj (bi ) = δij =
0 für i = j ;

δij wird das Kronecker-Symbol genannt.

 
Satz 10.2.7 Mit den obigen Bezeichnungen ist b1 , . . . , bn eine Basis des Dualraums V  .
Insbesondere ist dim(V  ) = dim(V ).

  
Beweis Wir zeigen als erstes die lineare Unabhängigkeit von b1 , . . . , bn . Gelte also λ1 b1 +

· · · + λn bn = 0. Dann ist für i = 1, . . . , n

 
0 = (λ1 b1 + · · · + λn bn )(bi ) = λi bi (bi ) = λi ,

und das war zu zeigen.


 
Nun zeigen wir, dass b1 , . . . , bn ein Erzeugendensystem bilden. Dazu sei  ∈ V  ; setze
n
αi = (bi ). Dann stimmen  und  :=

j =1 αj bj auf den Basisvektoren b1 , . . . , bn
280 10 Ergänzungen

 
überein und sind deshalb gleich (Satz 10.2.4 bzw. 3.1.3). Es folgt  ∈ lin{b1 , . . . , bn }, was
zu zeigen war. 

 
Definition 10.2.8 Die gerade konstruierte Basis b1 , . . . , bn heißt die duale Basis zu
b1 , . . . , bn .

Aus dim(V ) = dim(V  ) < ∞ folgt, dass ein endlichdimensionaler Vektorraum und
sein Dualraum isomorph sind (Korollar 3.2.6). Das bedeutet allerdings nicht, dass man
diese Objekte identifizieren sollte; in der Tat ist es in der Differentialgeometrie wichtig,
den Tangentialraum an einem Punkt einer Mannigfaltigkeit von dessen Dualraum, dem
Kotangentialraum, zu unterscheiden. Es gibt nämlich in der Regel keinen kanonischen
Isomorphismus zwischen V und V  , also einen, den man ohne Kenntnis einer Basis
explizit definieren kann; als Beispiel betrachte man den n-dimensionalen R-Vektorraum
aus Beispiel 2.1.4(f) und 2.2.10(c). Für einen endlichdimensionalen Innenproduktraum
besitzt man jedoch den kanonischen linearen Isomorphismus aus Beispiel 10.2.3(e) (im
komplexen Fall ist er nur fast linear, da dann λw = λw gilt).
Als nächstes erklären wir den Zusammenhang zwischen transponierten Abbildungen
und Matrizen. Es seien V und W endlichdimensionale Vektorräume mit geordneten Basen
A und B. In den Dualräumen V  und W  betrachte man die dualen Basen A und B  .
Es sei L ∈ L (V , W ); wie schon beobachtet, ist L ∈ L (W  , V  ). Für die darstellenden
Matrizen gilt dann:

Satz 10.2.9 M(L ; B  , A ) = M(L; A, B)t

Beweis Es sei M(L; A, B) die m × n-Matrix (αij ) und M(L ; B  , A ) die n × m-Matrix
(βij ). Definitionsgemäß ist
m n
 
L(aj ) = αkj bk und L (bi ) = βli al .
k=1 l=1

Daraus folgt
 
bi (L(aj )) = αij und (L (bi ))(aj ) = βj i .

Aber
  
bi (L(aj )) = (bi ◦ L)(aj ) = (L (bi ))(aj ),

also

αij = βj i für i = 1, . . . , m, j = 1, . . . , n.

Das war zu zeigen. 


10.2 Der Dualraum eines Vektorraums 281

Wir werfen noch einen Blick auf den Bidualraum V  := (V  ) , also den Dualraum
des Dualraums. Wir können die kanonische Abbildung

iV : V → V  , (iV (v))() = (v)

definieren. Es ergibt sich unmittelbar, dass iV wohldefiniert ist (d. h., iV (v) ist wirklich
linear auf V  ) und dass iV linear ist (bitte nachrechnen!). Für diese Definition braucht V
nicht endlichdimensional zu sein.

Satz 10.2.10 Die lineare Abbildung iV : V → V  ist stets injektiv. Sie ist genau dann
surjektiv, wenn V endlichdimensional ist.

Beweis Gelte iV (v0 ) = 0. Dann ist

0 = (iV (v0 ))() = (v0 ) für alle  ∈ V  . (10.2.1)

Wäre v0 = 0, könnte man die linear unabhängige Menge {v0 } mit Korollar 10.1.2 zu
einer Basis von V ergänzen und anschließend ein Element 0 ∈ V  dadurch definieren,
dass 0 (v0 ) = 1 und 0 (b) = 0 für die übrigen Basisvektoren ist; das widerspricht aber
(10.2.1). Daher ist iV injektiv.
Im Fall dim(V ) < ∞ gilt wegen Satz 10.2.7 dim(V ) = dim(V  ); also ist gemäß
Satz 3.1.8 iV auch surjektiv. (Man beachte, dass man mit iV einen kanonischen Iso-
morphismus zwischen einem endlichdimensionalen Vektorraum und seinem Bidualraum
gefunden hat.)
Nun sei V unendlichdimensional. Wir betrachte eine Basis B = {bi : i ∈ I } von V und

definieren bj ∈ V  wie im endlichdimensionalen Fall:


bj (bi ) = δij (i, j ∈ I ).


Wie im Beweis von Satz 10.2.7 sieht man, dass {bj : j ∈ I } eine linear unabhängige
Teilmenge von V  ist; wir ergänzen sie mit Korollar 10.1.2 zu einer Basis  von V  .
Schließlich können wir ein ϕ ∈ V  durch die Forderung ϕ(γ ) = 1 für alle γ ∈ 
definieren. Wir zeigen jetzt, dass ϕ nicht in ran(iV ) liegt.
 
Sonst gäbe es nämlich ein v ∈ V mit 1 = ϕ(bj ) = bj (v) für alle j ∈ I . Man kann den
Vektor v mit Hilfe einer geeigneten endlichen Teilmenge I0 ⊂ I in die Basis B entwickeln:

v = i∈I0 βi bi . Weil I wegen dim(V ) = ∞ eine unendliche Menge ist, existiert ein Index
    
k ∈ I \ I0 . Dann ist einerseits bk (v) = bk ( i∈I0 βi bi ) = i∈I0 βi bk (bi ) = 0, da k ∈
/ I0 ,

und andererseits bk (v) = 1 wegen der Annahme ϕ = iV (v): Widerspruch! 
282 10 Ergänzungen

Dass iV injektiv ist, lässt sich wieder als Fähigkeit von V  beschreiben, als Orakel
zu fungieren: Der Dualraum „erkennt“, ob ein Vektor der Nullvektor ist, denn (10.2.1)
impliziert v0 = 0.
Es sei erwähnt, dass die wahre Heimat der in diesem Abschnitt vorgestellten Ideen im
unendlichdimensionalen Fall in der Funktionalanalysis liegt: Dort studiert man normierte
Vektorräume und nicht den vollen Dualraum V  , sondern den Teilraum V  , der aus den
stetigen linearen Funktionalen besteht und der häufig explizit beschrieben werden kann. Es
gibt dann viele wichtige Fälle (reflexive Banachräume), wo das Analogon zur Abbildung
iV surjektiv ist.

10.3 Das Tensorprodukt

Das Ziel dieses Abschnitts ist es, eine ziemlich abstrakte Konstruktion vorzustellen, die es
gestattet, gewisse Abbildungen zu „linearisieren“. Diese Abbildungen haben wir bereits
bei der Definition einer Determinantenform (Definition 4.1.1) und in Definition 9.5.1 im
skalarwertigen Fall kennengelernt.
Im Folgenden sind V, W, Z etc. stets Vektorräume über einem Körper K.

Definition 10.3.1 Eine Abbildung β: V × W → Z heißt bilinear, wenn v → β(v, w)


für alle w ∈ W linear ist und w → β(v, w) für alle v ∈ V linear ist. Die Menge aller
bilinearen Abbildungen von V × W nach Z bezeichnen wir mit B(V , W ; Z), im Fall
Z = K schreiben wir B(V , W ).

Es ist leicht zu verifizieren, dass B(V , W ; Z) ein K-Vektorraum ist (tun Sie’s!).
Beispiele für skalarwertige bilineare Abbildungen (Bilinearformen) haben Sie schon
im Anschluss an Definition 9.5.1 gesehen. Hier sind weitere Beispiele:
(a) Das Kreuzprodukt definiert eine bilineare Abbildung β: R3 × R3 → R3 , β(v, w) =
v × w.
(b) Die Multiplikation definiert eine bilineare Abbildung β: Abb(M) × Abb(M) →
Abb(M), β(f, g) = f g. (Zur Erinnerung: Abb(M) steht für den R- bzw.
K-Vektorraum aller Funktionen auf einer Menge M nach R bzw. K.)
(c) Die Komposition definiert eine bilineare Abbildung β: L (V1 , V2 ) × L (V2 , V3 ) →
L (V1 , V3 ), β(L1 , L2 ) = L2 ◦ L1 .
Der folgende Satz ist das unendlichdimensionale Analogon zu Satz 9.5.2.

Satz 10.3.2 B(V , W ) ist isomorph zu L (V , W  ).

Beweis Wir definieren eine Abbildung : B(V , W ) → L (V , W  ) auf folgende Weise.


Zu β ∈ B(V , W ) und v ∈ V setze
10.3 Das Tensorprodukt 283

( β)(v) = β(v, .);

mit dem Symbol rechter Hand ist die (lineare!) Abbildung w → β(v, w) gemeint.
Einfache Rechnungen zeigen, dass ( β)(v) ∈ W  und v → ( β)(v) linear ist; also
ist wirklich β ∈ L (V , W  ). Ferner zeigt eine routinemäßige Rechnung, dass eine
lineare Abbildung ist.
Wir zeigen jetzt, dass ein Isomorphismus der K-Vektorräume B(V , W ) und
L (V , W ) ist. Um die Injektivität einzusehen, gelte β = 0 für ein β ∈ B(V , W ).


Definitionsgemäß heißt das, dass β(v, .) = 0 für alle v ∈ V ist, und das heißt
definitionsgemäß β(v, w) = 0 für alle v ∈ V , w ∈ W . Also ist β = 0, und ist injektiv.
Nun zur Surjektivität. Sei L ∈ L (V , W  ). Für jedes v ∈ V ist dann Lv ∈ W  , und
wir können β(v, w) = (Lv)(w) definieren. Dies ist eine Bilinearform (warum?), und
konstruktionsgemäß ist ( β)(v) = Lv, also β = L. 

Mit dem Ansatz ( β)(w) = β(., w) erhält man analog einen Isomorphismus zwischen
B(V , W ) und L (W, V  ).
Wir wollen nun einen Vektorraum konstruieren, das Tensorprodukt von V und W, auf
dem jede bilineare Abbildung β: V × W → Z linear „wird“; siehe Satz 10.3.4. Dazu
gehen wir so vor. Setze

β⊗ : V × W → B(V , W ) , (v, w) → v ⊗ w

mit

(v ⊗ w)(β) = β(v, w).

Es ist zu beachten, dass die soeben definierte Abbildung v⊗w wirklich linear auf B(V , W )
ist; also ist β⊗ wohldefiniert. Ferner ist β⊗ bilinear: Für festes w ∈ W und β ∈ B(V , W )
ist nämlich

(β⊗ (v1 + v2 , w))(β) = β(v1 + v2 , w) = β(v1 , w) + β(v2 , w)


= (β⊗ (v1 , w))(β) + (β⊗ (v2 , w))(β),

und das zeigt

β⊗ (v1 + v2 , w) = β⊗ (v1 , w) + β⊗ (v2 , w).

Die übrigen Forderungen an eine bilineare Abbildung zeigt man analog.

Definition 10.3.3 Die lineare Hülle der Elementartensoren v ⊗w heißt das Tensorprodukt
von V und W :
284 10 Ergänzungen

V ⊗ W = lin{v ⊗ w: v ∈ V , w ∈ W } (⊂ B(V , W ) ).

Die Elemente von V ⊗ W sind also Linearkombinationen von Elementartensoren;


solche Darstellungen sind aber nicht eindeutig, wie die folgenden Beispiele zeigen:

v ⊗ w = (−v) ⊗ (−w)
v1 ⊗ w1 + v2 ⊗ w2 = (v1 − v2 ) ⊗ w1 + v2 ⊗ (w1 + w2 )

Der folgende Satz beschreibt die oben angesprochene Linearisierung.

Satz 10.3.4 (Universelle Eigenschaft des Tensorprodukts) Zu jeder bilinearen Abbil-


dung β: V ×W → Z existiert eine eindeutig bestimmte lineare Abbildung Lβ : V ⊗W → Z
mit β = Lβ ◦ β⊗ .

Diese Aussage veranschaulicht man sich mittels eines kommutativen Diagramms so:

β -Z
V ×W
@
β⊗@ Lβ
@
V ⊗W

Beweis Wir zeigen zuerst folgende Aussage: Wenn {vi : i ∈ I } und {wj : j ∈ J } Basen
von V bzw. W sind, ist auch B = {vi ⊗ wj : i ∈ I , j ∈ J } eine Basis von V ⊗ W .
Zur linearen Unabhängigkeit von B: Sei F ⊂ I × J eine endliche Teilmenge und seien
λij ∈ K mit

λij vi ⊗ wj = 0.
(i,j )∈F

Also ist für jedes β ∈ B(V , W )

λij β(vi , wj ) = 0.
(i,j )∈F

 
Wie im Beweis von Satz 10.2.10 definieren wir vk ∈ V  und wl ∈ W  durch

 
vk (vi ) = δki , wl (wj ) = δlj ;
10.3 Das Tensorprodukt 285

und wir erklären Bilinearformen βkl durch

 
βkl (v, w) = vk (v)wl (w).

Damit gilt für alle k und l

 
λij vk (vi )wl (wj ) = λij βkl (vi , wj ) = 0.
(i,j )∈F (i,j )∈F

Für (i0 , j0 ) ∈ F liefert die Wahl k = i0 und l = j0 dann λi0 j0 = 0, wie gewünscht.
Zur Erzeugenden-Eigenschaft von B: Jedes Element u ∈ V ⊗ W kann in der Form

N
u= λk ṽk ⊗ w̃k
k=1

mit λk ∈ K, ṽk ∈ V und w̃k ∈ W dargestellt werden (tatsächlich kann man stets
λk = 1 erreichen, indem man ṽk durch λk ṽk ersetzt), und jedes ṽk bzw. w̃k kann in die
entsprechenden Basen entwickelt werden:

ṽk = αki vi , w̃k = γkj wj .


i j

(Zur Summenschreibweise siehe Seite 274.) Setzt man dies ein, erkennt man u als
Linearkombination der vi ⊗ wj ; dabei geht ein, dass β⊗ bilinear ist.
Um jetzt die Aussage selbst zu beweisen, reicht es, Lβ auf der Basis B zu bestimmen.
Definiert man

β (vi , wj ) = β(vi , wj )

und setzt man β : B → Z gemäß Satz 10.1.6 zu einer linearen Abbildung Lβ : V ⊗


W → Z fort, so gilt konstruktionsgemäß β = Lβ ◦ β⊗ auf {(vi , wj ): i ∈ I , j ∈ J }
und durch lineare Fortsetzung zunächst auch auf {(v, wj ): v ∈ V , j ∈ J } und dann auf
{(v, w): v ∈ V , w ∈ W }, also auf ganz V × W .
Die Eindeutigkeit von Lβ ist klar, denn jedes L ∈ L (V ⊗ W, Z), das β = L ◦ β⊗
erfüllt, muss L(vi ⊗ wj ) = β(vi , wj ) garantieren, also mit Lβ auf B übereinstimmen. Die
Eindeutigkeitsaussage in Satz 10.1.6 liefert L = Lβ . 

Da die im letzten Beweis konstruierte Korrespondenz β → Lβ linear und bijektiv ist


(Beweis?), können wir den Inhalt von Satz 10.3.4 auch so zusammenfassen.
286 10 Ergänzungen

Korollar 10.3.5 Es existiert ein Vektorraumisomorphismus

B(V , W ; Z) ∼
= L (V ⊗ W, Z);

insbesondere ist (V ⊗ W ) ∼
= B(V , W ).

Satz 10.3.4 beinhaltet die Lösung des Linearisierungsproblems für bilineare Abbildun-
gen durch das Paar (V ⊗ W, β⊗ ). Wir untersuchen nun die Eindeutigkeit. Es ist klar, dass
jeder Oberraum von V ⊗ W ebenfalls eine Lösung ermöglicht (man kann nämlich von
dort auf V ⊗ W linear projizieren, vgl. Satz 10.1.3). Daher ist eine Eindeutigkeitssaussage
(modulo Isomorphie) nur unter (natürlichen) Zusatzannahmen möglich.

Satz 10.3.6 Sei T ein Vektorraum und sei βT : V × W → T eine bilineare Abbildung,
so dass jede bilineare Abbildung β: V × W → Z gemäß β = L ◦ βT für ein geeignetes
L ∈ L (T , Z) faktorisiert. Es gelte lin{βT (v, w): v ∈ V , w ∈ W } = T . Dann ist T
isomorph zu V ⊗ W .

Beweis Wir verwenden Satz 10.3.4 für Z = T und β = βT ; wir erhalten eine lineare
Abbildung L: V ⊗ W → T mit βT = L ◦ β⊗ . Analog liefert die Voraussetzung über T
mit Z = V ⊗ W und β = β⊗ eine lineare Abbildung L : T → V ⊗ W mit β⊗ = L ◦ βT .
Also ist βT = L ◦ L ◦ βT , und es folgt (L ◦ L )(t) = t für alle t im Wertebereich von βT .
Aber dessen lineare Hülle ist nach Annahme ganz T , und es folgt, da L ◦ L linear ist,
L ◦ L = IdT . Genauso sieht man L ◦ L = IdV ⊗W . Das zeigt, dass L invertierbar mit
Inverser L ist, und L: V ⊗ W → T ist ein Isomorphismus. 

Wegen dieses Eindeutigkeitssatzes bezeichnet man jeden Vektorraum T wie in


Satz 10.3.6 als Tensorprodukt von V und W, und der Raum unserer Konstruktion, also
B(V, W ) , ist dann eine Darstellung des Tensorprodukts. Dazu betrachten wir zwei
Beispiele.

Beispiel 10.3.7 Wir betrachten den R-Vektorraum C([0, 1], Rn ) aller stetigen Funktionen
von [0, 1] nach Rn und behaupten, dass dies das Tensorprodukt von C[0, 1] und Rn „ist“.
Mit anderen Worten wollen wir

C[0, 1] ⊗ Rn ∼
= C([0, 1], Rn )

zeigen. Für f ∈ C[0, 1] und x ∈ Rn bezeichnen wir die Funktion t → f (t)x mit
f (.)x; sie ist ein Element von C([0, 1], Rn ). Ferner betrachten wir die bilineare Abbildung
β: C[0, 1] × Rn → C([0, 1], Rn ), β(f, x) = f (.)x. Diese linearisieren wir gemäß
Satz 10.3.4 mittels einer linearen Abbildung Lβ : C[0, 1] ⊗ Rn → C([0, 1], Rn ) und
wollen nun zeigen, dass Lβ ein Isomorphismus ist. Zunächst ist Lβ surjektiv, denn liegt
F in C([0, 1], Rn ) mit den Koordinatenfunktionen f1 , . . . , fn ∈ C[0, 1] vor, erhalten wir
(die ej sind die kanonischen Basisvektoren im Rn )
10.3 Das Tensorprodukt 287

n n n n
Lβ fj ⊗ ej = Lβ (fj ⊗ ej ) = β(fj , ej ) = fj (.)ej = F ;
j =1 j =1 j =1 j =1

im ersten Schritt haben wir offenkundig die Linearität von Lβ benutzt.


Zum Beweis der Injektivität sei u ∈ C[0, 1] ⊗ Rn mit Lβ (u) = 0. Konstruktionsgemäß
 n
besitzt u eine Darstellung u = N k=1 gk ⊗ xk , und jedes xk kann als xk = j =1 xkj ej
(xkj ∈ R) geschrieben werden. Die Bilinearität von β⊗ gestattet es,

N N n
u= gk ⊗ xk = gk ⊗ xkj ej
k=1 k=1 j =1

N n n N
= xkj gk ⊗ ej = xkj gk ⊗ ej
k=1 j =1 j =1 k=1
n
= fj ⊗ ej
j =1


mit fj = N k=1 xkj gk zu schreiben. Ist F die vektorwertige Funktion mit den Koordina-
tenfunktionen f1 , . . . , fn , so haben wir (siehe oben) Lβ (u) = F gezeigt. Aus Lβ (u) = 0
folgt daher F = 0, d. h. f1 = · · · = fn = 0 und deshalb u = 0.

Beispiel 10.3.8 Sei F (V , W ) der aus allen linearen Abbildungen endlichen Ranges
bestehende Unterraum von L (V , W ). (Warum ist das ein Untervektorraum?) Dann „ist“
F (V , W ) das Tensorprodukt von V  und W , genauer

V ⊗W ∼
= F (V , W ).

Die Begründung ist ähnlich wie im vorigen Beispiel. Wir betrachten die durch β(v  , w) =
v  (.)w definierte Bilinearform auf V  × W , wobei v  (.)w die lineare Abbildung v →
v  (v)w von V nach W bezeichnet, die den Rang 1 hat, sofern sie = 0 ist. Durch
Linearisierung erhält man eine lineare Abbildung Lβ : V  ⊗ W → F (V , W ), die sich
als Isomorphismus erweisen wird. Die Surjektivität sieht man so. Sei F ∈ F (V , W );
  N 
definitionsgemäß ist F dann von der Form N k=1 vk (.)wk . Für u = k=1 vk ⊗ wk ist also

N N N
  
Lβ (u) = Lβ (vk ⊗ wk ) = β(vk , wk ) = vk (.)wk = F. (10.3.1)
k=1 k=1 k=1
288 10 Ergänzungen

Um die Injektivität zu zeigen, gelte Lβ (u) = 0 für ein u ∈ V  ⊗ W . Der Tensor u hat
 
die Gestalt N k=1 vk ⊗ wk . Sei e1 , . . . , en eine Basis des endlichdimensionalen Raums
n
lin{w1 , . . . , wN }; dann können wir wk in der Form j =1 wkj ej schreiben. Dieselbe
Rechnung wie im letzten Beispiel zeigt

n N
  
u= fj ⊗ ej mit fj = wkj vk ∈ V  .
j =1 k=1

n 
Wenn Lβ (u) = 0 ist, folgt j =1 fj (v)ej = 0 für alle v ∈ V ; vgl. (10.3.1). Da die
 
e1 , . . . , en linear unabhängig sind, müssen alle fj (v) verschwinden; daher f1 = · · · =

fn = 0, und es folgt u = 0.

Im endlichdimensionalen Fall können wir die Rollen von V und V  vertauschen, und
man erhält:

Satz 10.3.9 Falls V endlichdimensional ist, existiert ein Isomorphismus

V ⊗W ∼
= L (V  , W ).

Falls V und W beide endlichdimensional sind, ist also

dim V ⊗ W = dim V · dim W.

Dieses Resultat sollte mit dem Isomorphismus

= L (V , W  ) ∼
(V ⊗ W ) ∼ = L (W, V  ) (10.3.2)

aus Korollar 10.3.5 und Satz 10.3.2 verglichen werden.

Beweis Der Isomorphismus ergibt sich aus Beispiel 10.3.8 zusammen mit V  ∼ = V
im endlichdimensionalen Fall (Satz 10.2.10); man beachte, dass dann L (V , W ) =


F (V  , W ) ist. Daraus folgt die Dimensionsformel mit Hilfe von Satz 10.2.7. 

Beispiel 10.3.10 Im Fall eines endlichdimensionalen Vektorraums erhält man aus (10.3.2)
wegen V ∼ = V  den Isomorphismus (V ⊗ V  ) ∼
= L (V ). Welches Funktional auf V ⊗ V 
entspricht dem identischen Operator Id ∈ L (V )? Nachrechnen des Isomorphismus zeigt,
dass dies das durch

N N
 
tr vk ⊗ vk = vk (vk )
k=1 k=1
10.3 Das Tensorprodukt 289

 
definierte sogenannte Spurfunktional ist. Man nennt N k=1 vk (vk ) die Spur des Tensors
N   N 
k=1 vk ⊗ vk bzw. des zugehörigen Operators k=1 vk (.)vk . n
In Beispiel 3.1.2(f) hatten wir die Spur einer Matrix (aij ) als tr(A) = i=1 aii
definiert. Um den Zusammenhang zu tr zu sehen, schreiben wir die zu A gehörige lineare
Abbildung LA in der Form

n

LA = aij ej (.)ei ,
i,j =1

 
wo e1 , . . . , en die kanonische Basis des K n und e1 , . . . , en die zugehörige duale Basis
bezeichnet. Dann ist
n n

tr (LA ) = aij ej (ei ) = aii = tr(A).
i,j =1 i=1

Nicht nur kann man Vektorräume, sondern auch lineare Abbildungen tensorieren. Dazu
betrachten wir lineare Abbildungen L1 ∈ L (V1 , W1 ) und L2 ∈ L (V2 , W2 ). Es sei β: V1 ×
V2 → W1 ⊗ W2 die bilineare Abbildung

β(v1 , v2 ) = L1 (v1 ) ⊗ L2 (v2 ).

Durch Linearisieren erhalten wir die lineare Abbildung

L1 ⊗ L2 ∈ L (V1 ⊗ V2 , W1 ⊗ W2 ),

die man das Tensorprodukt der linearen Abbildungen L1 und L2 nennt.


Im endlichdimensionalen Fall wollen wir die Matrixdarstellung von L1 ⊗ L2 disku-
tieren. Seien A1 = (v11 , . . . , vl1 ), A2 = (v12 , . . . , vn2 ), B1 = (w11 , . . . , wp1 ) und B2 =
(w12 , . . . , wq2 ) geordnete Basen von V1 , V2 , W1 bzw. W2 . Die darstellenden Matrizen von
L1 bzw. L2 seien M1 = M(L1 ; A1 , B1 ) bzw. M2 = M(L2 ; A2 , B2 ). Das Argument des
ersten Teils des Beweises von Satz 10.3.4 zeigt, dass

v11 ⊗ v12 , . . . , v11 ⊗ vn2 , v21 ⊗ v12 , . . . , v21 ⊗ vn2 , . . . , vl1 ⊗ v12 , . . . , vl1 ⊗ vn2

eine geordnete Basis von V1 ⊗ V2 und

w11 ⊗ w12 , . . . , w11 ⊗ wq2 , w21 ⊗ w12 , . . . , w21 ⊗ wq2 , . . . , wp1 ⊗ w12 , . . . , wp1 ⊗ wq2

eine geordnete Basis von W1 ⊗ W2 ist; diese Basen bezeichnen wir mit A1 ⊗ A2 bzw.
B1 ⊗ B2 . Bezüglich dieser Basen lautet die darstellende Matrix von L1 ⊗ L2 dann in
Blockschreibweise
290 10 Ergänzungen

⎛ ⎞
m111 M2 m112 M2 . . . m11l M2
⎜ 1 ⎟
⎜ m21 M2 m122 M2 . . . m12l M2 ⎟
⎜ ⎟
⎜ .. .. .. ⎟ ,
⎜ . ⎟
⎝ . . ⎠
m1p1 M2 m1p2 M2 . . . m1pl M2

was man sich am besten mit „kleinen“ Matrizen M1 und M2 veranschaulicht. Diese Matrix
wird das Kronecker-Produkt von M1 und M2 genannt; Schreibweise: M1 ⊗ M2 . Beispiel:

12 123
M1 = , M2 = ,
34 456
⎛ ⎞
12 3 4 5 6
⎜ ⎟
M2 2M2 ⎜ 2 4 6 8 10 12 ⎟
M1 ⊗ M 2 = =⎜ ⎟.
3M2 4M2 ⎝ 3 6 9 12 15 18 ⎠
4 8 12 16 20 24

Wir halten die obige Diskussion in einem Satz fest.

Satz 10.3.11 Mit den obigen Bezeichnungen gilt

M(L1 ⊗ L2 ; A1 ⊗ A2 , B1 ⊗ B2 ) = M(L1 ; A1 , B1 ) ⊗ M(L2 ; A2 , B2 ).

Mit Hilfe des Kronecker-Produkts können wir unsere Diskussion des Körpers Q der
algebraischen Zahlen von Seite 182 wieder aufnehmen. Dort hatten wir eine komplexe
Zahl α als algebraisch definiert, wenn es ein nichtkonstantes Polynom P ∈ Q[X] gibt, also
ein Polynom mit rationalen Koeffizienten, das α als Nullstelle hat. Das dort angesprochene
Problem war, die Körpereigenschaften von Q zu zeigen, insbesondere die Invarianz von
Q unter Addition und Multiplikation. Das ist nicht trivial, denn wenn P1 (α1 ) = 0 und
P2 (α2 ) = 0 sind, bietet sich kein offensichtliches Polynom an, das α1 + α2 oder α1 α2 als
Nullstelle hat. Solche Polynome wollen wir jetzt angeben.
Der Trick besteht darin, dies als Eigenwertproblem anzusehen. Wie auf Seite 182
definieren wir zu einem Polynom P (X) = Xn + an−1 Xn−1 + · · · + a0 die Begleitmatrix
⎛ ⎞
0 1 0 0
⎜ ⎟
⎜ .. ⎟
⎜ 0 0 1 . 0 ⎟
⎜ ⎟
A=⎜
⎜ 0 0 0
..
.
..
.
⎟.

⎜ ⎟
⎜ .. ⎟
⎝ . 1 ⎠
−a0 −a1 −a2 . . . −an−1
10.4 Lineare Algebra im 21. Jahrhundert 291

Wie dort bewiesen, stimmen die Eigenwerte von A mit den Nullstellen von P überein; und
die Einträge von A sind rational, wenn es die Koeffizienten von P sind. Umgekehrt ist für
jede Matrix A ∈ Qn×n das charakteristische Polynom in Q[X].
Nun seien α1 und α2 algebraische Zahlen; dann existieren Polynome P1 , P2 ∈ Q[X],
deren führende Koeffizienten = 1 sind, mit P1 (α1 ) = 0 = P2 (α2 ). Wir betrachten die
zugehörigen Begleitmatrizen A1 ∈ Qm×m und A2 ∈ Qn×n . Da die αj Eigenwerte von Aj
sind, existieren v1 ∈ Cm und v2 ∈ Cn mit Aj vj = αj vj und vj = 0. Nun bilden wir
A1 ⊗ A2 und beobachten

(A1 ⊗ A2 )(v1 ⊗ v2 ) = A1 v1 ⊗ A2 v2 = α1 v1 ⊗ α2 v2 = α1 α2 · v1 ⊗ v2 ;

α1 α2 ist also ein Eigenwert von A1 ⊗ A2 , und das ist eine Matrix mit rationalen Einträgen.
Das charakteristische Polynom χA1 ⊗A2 hat daher rationale Koeffizienten mit α1 α2 als
Nullstelle; das beweist, dass α1 α2 algebraisch ist.
Um die Summe α1 + α2 zu studieren, betrachten wir die rationalen mn × mn-Matrizen
M1 = A1 ⊗ En , M2 = Em ⊗ A2 . Für sie gilt

M1 (v1 ⊗ v2 ) = A1 v1 ⊗ v2 = (α1 v1 ) ⊗ v2 = α1 · v1 ⊗ v2 ,
M2 (v1 ⊗ v2 ) = v1 ⊗ A2 v2 = v1 ⊗ (α2 v2 ) = α2 · v1 ⊗ v2 .

Deshalb ist auch

(M1 + M2 )(v1 ⊗ v2 ) = (α1 + α2 ) · v1 ⊗ v2 ,

und α1 + α2 ist ein Eigenwert der rationalen Matrix M1 + M2 ; das beweist, dass α1 + α2
algebraisch ist.
Dass auch −α1 und (falls α1 = 0) die Inverse α1−1 algebraisch sind, ist viel einfacher
einzusehen (wie nämlich?).
Damit ist gezeigt, dass Q unter Addition, Subtraktion, Multiplikation und Division
invariant ist und deshalb die Körpereigenschaften von C erbt.

10.4 Lineare Algebra im 21. Jahrhundert

Dass auf der Basis der Einführungsvorlesungen zur Linearen Algebra aktuelle nichttriviale
Forschung betrieben wird, soll in diesem Abschnitt an zwei Beispielen dokumentiert
werden.
292 10 Ergänzungen

10.4.1 Die Eigenvektor-Eigenwert-Identität

Im Sommer 2019 entdeckten drei Elementarteilchenphysiker6 einen numerischen Zu-


sammenhang zwischen den Eigenwerten und Eigenvektoren einer selbstadjungierten
3 × 3-Matrix; zusammen mit T. Tao7 gaben sie mehrere Beweise im n-dimensionalen Fall.
Außerdem stellten sie heraus, wie ihre neue Formel mit anderen schon im 20. Jahrhundert
publizierten Varianten zusammenhängt.
Worum geht es? Sei A eine normale n × n-Matrix über C mit den Eigenwerten
λ1 (A), . . . , λn (A) und einer zugehörigen Orthonormalbasis aus Eigenvektoren v1 , . . . , vn ;
die k-te Komponente des Vektors vj werde mit vj (k) bezeichnet. Ferner bezeichne Ahj
die (n − 1) × (n − 1)-Matrix, die durch Streichen der h-ten Zeile und j -ten Spalte von
A entsteht. Diese komplexe Matrix hat inklusive Vielfachheiten n − 1 Eigenwerte, die
mit λ1 (Ahj ), . . . , λn−1 (Ahj ) bezeichnet werden. (Man beachte, dass Ahj im Allgemeinen
nicht normal ist; Beispiel?)
Mit diesen Bezeichnungen gilt die folgende Eigenvektor-Eigenwert-Identität.

n−1
Satz 10.4.1 |vj (k)|2 (λs (A) − λj (A)) = (λs (Akk ) − λj (A))
s=j s=1

Diese Formel gestattet es, die Betragsquadrate |vj (k)|2 aus den Eigenwerten von A und
Akk zu berechnen; vj (k) erhält man zwar nicht (das ist auch nicht zu erwarten, da mit vj
auch −vj ein Eigenvektor ist), aber für die Anwendung auf Neutrino-Oszillationen war
es genug, |vj (k)|2 zu kennen. Ist A selbstadjungiert, kann man sich manchmal auf andere
Weise Informationen über die Vorzeichen verschaffen. Die Botschaft von Satz 10.4.1 ist
daher leicht verkürzt, dass man aus den Eigenwerten die Eigenvektoren berechnen kann.

Beweis Der hier geführte Beweis fußt auf der Formel B # = det(B)B −1 für eine
invertierbare Matrix B aus Satz 4.3.3; hier ist B # die komplementäre Matrix mit den
# = (−1)k+l det B . Dies wenden wir für B = A − λE an, wenn λ kein
Einträgen bkl lk n
Eigenwert von A ist; also ist

(A − λEn )# = det(A − λEn ) · (A − λEn )−1 . (10.4.1)

6 P.D. Denton, S.J. Parke, X. Zhang, Eigenvalues: the Rosetta Stone for neutrino oscillations in
matter. arXiv:1907.02534.
7 P.D. Denton, S.J. Parke, T. Tao, X. Zhang, Eigenvectors from eigenvalues: a survey of a basic
identity in linear algebra. arXiv:1908.03795v2.
10.4 Lineare Algebra im 21. Jahrhundert 293

Wir wollen die rechte Seite der Gleichung auf einen Eigenvektor vr anwenden. Es ist

(A − λEn )−1 vr = (λr (A) − λ)−1 vr ,

denn

(A − λEn )(λr (A) − λ)−1 vr = (λr (A) − λ)−1 (A − λEn )vr


= (λr (A) − λ)−1 (λr (A) − λ)vr = vr .

Ferner ist det(A − λEn ) das Produkt der Eigenwerte der Matrix A − λEn , also
!n
s=1 (λs (A) − λ), daher erhält man aus (10.4.1)

(A − λEn )# vr = (λs (A) − λ)vr .


s=r

Das zeigt, dass v1 , . . . , vn auch Eigenvektoren von (A − λEn )# mit den Eigenwerten
!
s=r (λs (A) − λ) (r = 1, . . . , n) sind, und nach Satz 8.2.5 ist (A − λEn ) normal. Die
#

Spektralzerlegung (Korollar 8.2.7) lautet

n
(A − λEn )# v = (λs (A) − λ) v, vr "vr .
r=1 s=r

Sehen wir vr und v als n × 1-Matrizen an und bilden wir die adjungierte 1 × n-Matrix vj∗ ,
können wir v, vr "vr als vr vr∗ v schreiben, und wir erhalten

n
(A − λEn )# = (λs (A) − λ) vr vr∗ .
r=1 s=r

Nun machen wir eine kleine Anleihe bei der Analysis. Aufgrund der Leibniz-Formel
für die Determinante (Satz 4.2.2) hängt diese stetig von den Einträgen der Matrix ab; der
Grenzübergang λ → λj (A) liefert daher

n
(A − λj (A)En ) = #
(λs (A) − λj (A)) vr vr∗
r=1 s=r

= (λs (A) − λj (A)) vj vj∗ ,


s=j

!
denn s=r (λs (A) − λj (A)) = 0, wenn r = j .
294 10 Ergänzungen

Uns interessieren die k-ten Diagonaleinträge dieser Matrizen. Rechter Hand entsteht

(λs (A) − λj (A)) |vj (k)|2 ,


s=j

da die Matrix vj vj∗ den Eintrag vj (k)vj (l) in der k-ten Zeile und l-ten Spalte hat, und links
entsteht

(−1)k+k det(A − λj (A)En )kk = det(Akk − λj (A)En−1 )


n−1
= (λs (Akk ) − λj (A)).
s=1

Das war zu zeigen. 

10.4.2 Compressed Sensing

Beim Compressed Sensing (auch Compressive Sensing genannt) geht es, rein mathema-
tisch formuliert, darum, ein lineares Gleichungssystem Ax = y eindeutig zu lösen, wenn
A eine m × n-Matrix mit m < n (sogar sehr viel kleiner als n) ist. Dies ist natürlich
unmöglich, wie wir aus Kap. 1 wissen, es sei denn, man hat a-priori Informationen über
x. In vielen Anwendungen, z. B. bei bildgebenden Verfahren in der Medizin, kann man
davon ausgehen, dass in einer passenden Basis „die meisten“ Koordinaten des Vektors x
verschwinden, und dann kann man für geeignete Matrizen A in der Tat den Vektor x aus
Ax rekonstruieren, wie in diesem Abschnitt gezeigt werden wird.
Jede Zeile des Gleichungssystems kann als Resultat einer Messung des Signals
x aufgefasst werden, und man möchte (zum Beispiel im Hinblick auf medizinische
Anwendungen) mit möglichst wenigen Messungen auskommen – daher der Begriff
Compressed Sensing („komprimiertes Messen“). Die grundlegenden Arbeiten zu diesem
Thema stammen von E.J. Candès, J. Romberg und T. Tao8 sowie D.L. Donoho9 aus dem
Jahr 2006.
Um unser Szenario präzise zu beschreiben, führen wir einige Bezeichnungen ein. In
diesem Abschnitt ist A eine reelle oder komplexe m × n-Matrix, und in der Regel ist
m < n. Für x ∈ Kn sei $x$0 die Anzahl der von 0 verschiedenen Koordinaten von x, und
es sei

s = {x ∈ Kn : $x$0 ≤ s};

8 Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency
information. IEEE Trans. Inform. Theory 52, 489–509 (2006).
9 Compressed sensing. IEEE Trans. Inform. Theory 52, 1289–1306 (2006).
10.4 Lineare Algebra im 21. Jahrhundert 295

ein x ∈ s heißt s-schwach besetzt. Man beachte, dass s kein Unterraum von Kn ist; es
ist eine endliche Vereinigung von Unterräumen. Der Träger eines Vektors x ∈ Kn mit den
Kooordinaten x1 , . . . , xn ist

supp(x) = {k: xk = 0}.

Das Problem beim Compressed Sensing ist dann, Bedingungen an m, n, s bzw. A


zu stellen, so dass die zu A gehörige lineare Abbildung LA auf s injektiv ist (und
idealerweise ein effektives Verfahren für die Berechnung von x aus Ax vorliegt). Das
nächste Lemma gibt hinreichende und notwendige Bedingungen dafür an.

Lemma 10.4.2 Sei s ≤ n/2. Für eine m × n-Matrix A sind folgende Bedingungen
äquivalent.
(i) LA ist injektiv auf s .
(ii) ker A ∩ {z ∈ Kn : $z$0 ≤ 2s} = {0}.
(iii) Je 2s Spalten von A sind linear unabhängig.

Beweis (i) ⇒ (ii): Gelte Az = 0 mit $z$0 ≤ 2s. Wir können z = z + z mit
z , z ∈ s und supp(z ) ∩ supp(z ) = ∅ schreiben. Dann ist Az = A(−z ) und wegen
Voraussetzung (i) z = −z . Das beweist z = 0.

(ii) ⇒ (iii): Seien sk1 , . . . , sk2s Spalten von A mit 2s
r=1 λr skr = 0. Ist z der Vektor mit
den Koordinaten zkr = λr , k = 1, . . . , 2s, und zj = 0 sonst, so ist $z$0 ≤ 2s und Az = 0.
Wegen (ii) folgt z = 0, und es sind alle λr = 0.
(iii) ⇒ (i): Seien z, z ∈ s mit Az = Az . Dann ist w := z − z ∈ 2s mit
Aw = 0. Sind wk1 , . . . , wkt , t ≤ 2s, die von 0 verschiedenen Koordinaten von w und

sk1 , . . . , skt die entsprechenden Spalten von A, ist also tr=1 wkr skr = 0. Wegen (iii) folgt
wk1 = · · · = wkt = 0, also w = 0 und z = z . 

Beispiel 10.4.3 Wir betrachten die komplexe n × n-Fouriermatrix (mit ζ = e2π i/n )
⎛ ⎞
1 1 1 ... 1
⎜1 ζ 2 ζ n−1 ⎟
⎜ ζ ... ⎟
⎜ ⎟
F =⎜ ⎟
1 ζ 2 ζ 2·2 ... ζ (n−1)·2
⎜ ⎟
⎜ .. .. .. .. .. ⎟
⎝. . . . . ⎠
1 ζ n−1 ζ 2·(n−1) . . . ζ (n−1)·(n−1)

mit den Spalten f1 , . . . , fn . Für k = l ist mit μ = ζ k−l = 1

n−1 n−1 n−1


(k−1)j −(l−1)j μn − 1
fk , fl " = ζ ζ = ζ (k−l)j
= μj = = 0.
μ−1
j =0 j =0 j =0
296 10 Ergänzungen

Daher sind die Spalten von F paarweise orthogonal und deshalb linear unabhängig.
( √1n F ist eine unitäre Matrix.) Es sei Fm die aus den ersten m Zeilen von F bestehende
m × n-Matrix. Je m Spalten von Fm sind linear unabhängig: Die Spalten einer solchen
m × m-Untermatrix Fmm haben die Form
⎛ ⎞
1
⎜ ζ k−1 ⎟
⎜ ⎟
⎜ ⎟
⎜ ζ (k−1)·2 ⎟.
⎜ ⎟
⎜ .. ⎟
⎝ . ⎠
ζ (k−1)·(m−1)

Daher ist die Transponierte von Fmm eine Matrix vom Vandermonde-Typ (siehe
Satz 4.2.9), und dieser Satz impliziert det(Fmm ) = det(Fmmt ) = 0; das war zu zeigen.

Also erfüllt die Matrix Fm für m ≥ 2s die Bedingungen von Lemma 10.4.2.
Das Beispiel ist insofern optimal, als jede Matrix wie in Lemma 10.4.2 rg(A) ≥ 2s
erfüllt und rg(F2s ) = 2s ist.

Wir übersetzen nun die Aufgabe, x ∈ s aus Ax zu rekonstruieren, in eine Optimie-


rungsaufgabe.

Lemma 10.4.4 Seien s ≤ n/2, y ∈ Km und x ∈ s . Gelte Ax = y. Dann sind folgende


Aussagen äquivalent.
(i) Wenn z ∈ s und Az = y ist, so ist z = x; der Vektor x ist also die einzige s-schwach
besetzte Lösung von Az = y.
(ii) Der Vektor x ist die einzige Lösung des Problems
• Minimiere $z$0 für z ∈ Kn mit Az = y. (P0 )

Beweis (i) ⇒ (ii): Jede Lösung von (P0 ) muss $z$0 ≤ $x$0 ≤ s erfüllen (warum hat (P0 )
garantiert mindestens eine Lösung?); aber unter diesen z erfüllt wegen (i) nur z = x die
Bedingung Az = y. Also ist x der eindeutig bestimmte Minimierer für (P0 ).
(ii) ⇒ (i): Wegen (ii) kann es keine Lösung von Az = y mit $z$0 < $x$0 geben; und
ist Az = y und $z$0 = $x$0 , so ist z ebenfalls ein Minimierer für (P0 ), also z = x. 

Allerdings ist die Lösung des Rekonstruktionsproblems via (P0 ) rechnerisch nicht
praktikabel (es ist in der Sprache der Komplexitätstheorie „NP-schwer“). Wir werden
nun eine Variante von (P0 ) besprechen, die praktikabel ist und für viele Matrizen die
Lösbarkeit des Rekonstruktionsproblems garantiert. Dazu benötigen wir zwei weitere, von
der euklidischen Norm verschiedene, Normen auf dem Raum Kn ; siehe Definition 6.1.5
zum Begriff der Norm.
10.4 Lineare Algebra im 21. Jahrhundert 297

Definition 10.4.5 Für x ∈ Kn mit den Koordinaten x1 , . . . , xn setze

n
$x$1 = |xk |,
k=1
$x$∞ = max{|xk |: k = 1, . . . , n}.

$x$1 heißt die Summen- oder 1 -Norm von x und $x$∞ die Maximumsnorm.

Im Folgenden wird hauptsächlich die 1 -Norm eine Rolle spielen.


Dass es sich tatsächlich um Normen handelt, wird im nächsten Lemma nachgerechnet.

Lemma 10.4.6
(a) $ . $1 und $ . $∞ sind Normen auf Kn .
(b) Es gelten

$x$2 ≤ $x$1 ≤ n$x$2
√ √
$x$2 ≤ n$x$∞ ≤ n$x$2
$x$∞ ≤ $x$1 ≤ n$x$∞

für alle x ∈ Kn .

Beweis (a) Nur der Beweis der Dreiecksungleichung ist nicht vollkommen offensichtlich.
Die sieht man für die 1 -Norm so (x = (xk ), y = (yk )):

n n n n
"
$x + y$1 = |xk + yk | ≤ |xk | + |yk | = |xk | + |yk | = $x$1 + $y$1
k=1 k=1 k=1 k=1

und für die Maximumsnorm so: Für 1 ≤ k ≤ n ist

|xk + yk | ≤ |xk | + |yk | ≤ $x$∞ + $y$∞

und deshalb

$x + y$∞ ≤ $x$∞ + $y$∞ .

(b) Es ist wegen der Cauchy-Schwarzschen Ungleichung

n n n
1/2 1/2 √
$x$1 = 1 · |xk | ≤ 12 |xk |2 = n$x$2
k=1 k=1 k=1
298 10 Ergänzungen

und andererseits
n n n n
2
$x$21 = |xk | = |xk |2 + |xk ||xl | ≥ |xk |2 = $x$22 .
k=1 k=1 k=1 l=k k=1

Ferner ist
n n
$x$22 = |xk |2 ≤ $x$2∞ = n$x$2∞
k=1 k=1

sowie für geeignetes j ∈ {1, . . . , n}

n
$x$2∞ = |xj |2 ≤ |xk |2 = $x$22 .
k=1

Die letzte Ungleichungskette ergibt sich aus dem bereits Bewiesenen. 

Hat x höchstens s von 0 verschiedene Koordinaten, so zeigt unser Argument



$x$1 ≤ s$x$2 ; (10.4.2)

das werden wir später benötigen.


Die euklidische und die 1 -Norm gehören zur Skala der für p ∈ [1, ∞) definierten
p -Normen
n
1/p
$x$p = |xk |p ;
k=1

hier ist der Nachweis der Dreiecksungleichung allerdings nicht trivial. (Definiert man $x$p
wie oben auch für 0 < p < 1, erhält man keine Norm, da die Dreiecksungleichung
nicht erfüllt ist; man spricht von einer Quasinorm.) Für die p -(Quasi-)Normen gelten die
Grenzwertbeziehungen

p
lim $x$p = $x$∞ , lim $x$p = $x$0 für alle x ∈ Kn .
p→∞ p→0

Es ist zu beachten, dass Normen konvexe Funktionen sind, d. h. sie erfüllen die
Ungleichung f (λv + (1 − λ)w) ≤ λf (v) + (1 − λ)f (w) für v, w ∈ Kn , 0 ≤ λ ≤ 1;
aber v → $v$0 ist nicht konvex (und keine Norm).
Die 1 -Norm ist in unserem Kontext wegen der folgenden Idee wichtig. Statt des
Problems (P0 ) werden wir ein verwandtes Problem betrachten, nämlich:
• Minimiere $z$1 für z ∈ Kn mit Az = y = Ax, x ∈ s . (P1 )
10.4 Lineare Algebra im 21. Jahrhundert 299

Solch ein Problem kann man in der Optimierungstheorie effektiv lösen, da die Zielfunktion
$ . $1 konvex ist. Wir werden sehen, dass unser Rekonstruktionsproblem, x aus Ax zu
bestimmen, für gewisse Matrizen äquivalent durch (P1 ) beschrieben wird. Dazu benötigen
wir eine Definition.
Für S ⊂ {1, . . . , n} und v ∈ Kn bezeichne mit v S den Vektor mit den Koordinaten
vk = vk für k ∈ S und vkS = 0 sonst; hat S nur s Elemente, ist also v S ∈ s . Ferner setzen
S

wir S c = {1, . . . , n} \ S, das Komplement von S.

Definition 10.4.7 Eine m × n-Matrix A hat die Kern-Eigenschaft der Ordnung s, wenn
für alle S ⊂ {1, . . . , n} mit höchstens s Elementen
c
$v S $1 < $v S $1 für alle v ∈ ker A, v = 0

gilt.

Indem man $v S $1 zu dieser Ungleichung addiert, erkennt man die Äquivalenz der
gegebenen Bedingung zu

1
$v S $1 < $v$1 für alle v ∈ ker A, v = 0.
2

Man kann die Bedingung so umschreiben, dass Vektoren im Kern von A nicht auf
Indexmengen mit höchstens s Elementen konzentriert sein können, es sei denn v = 0.

Satz 10.4.8 Für eine m × n-Matrix A und s ≤ n sind folgende Bedingungen äquivalent:
(i) Ist x ∈ s und y = Ax, so ist z = x die eindeutig bestimmte Lösung von (P1 ).
(ii) A hat die Kern-Eigenschaft der Ordnung s.

Beweis (i) ⇒ (ii): Sei S ⊂ {1, . . . , n} mit höchstens s Elementen und 0 = v ∈ ker A;
dann ist v S ∈ s . Setze y = Av S ; nach Voraussetzung (i), angewandt auf v S , ist v S dann
der eindeutig bestimmte Minimierer für $z$1 unter der Nebenbedingung Az = y. Wegen
c c c
v S + v S = v und Av = 0 ist ebenfalls A(−v S ) = y. Da −v S = v S (denn v = 0), folgt
c
aus (i) die Ungleichung $−v S $1 > $v S $1 . Das war zu zeigen.
(ii) ⇒ (i): Seien x ∈ s und y = Ax. Sei S = supp(x), so dass S also höchstens s
Elemente besitzt. Sei nun z ∈ s mit Az = y und z = x; wir müssen $z$1 > $x$1 zeigen.
Zunächst gilt

$x$1 = $(x − zS ) + zS $1 ≤ $x − zS $1 + $zS $1 = $v S $1 + $zS $1 ,


c c
wo wir v = x − z ∈ ker A gesetzt haben; beachte x S = x und v S = −zS sowie v = 0.
Wegen der Kern-Eigenschaft folgt daher
300 10 Ergänzungen

c c
$x$1 ≤ $v S $1 + $zS $1 < $v S $1 + $zS $1 = $−zS $1 + $zS $1 = $z$1 .

Das war zu zeigen. 

Korollar 10.4.9 Wenn die m × n-Matrix die Kern-Eigenschaft der Ordnung s erfüllt,
ist LA auf s injektiv, d. h., jeder s-schwach besetzte Vektor x ist eindeutig durch Ax
bestimmt. Ferner kann x als Lösung von (P1 ) bestimmt werden.

Beweis Nach Satz 10.4.8 ist jedes x ∈ s der eindeutig bestimmte Minimierer für (P1 );
nach Lemma 10.4.4 ist zu zeigen, dass x der eindeutig bestimmte Minimierer für (P0 ) ist.
Sei $z $0 minimal unter der Nebenbedingung Az = Ax; dann ist natürlich $z $0 ≤ $x$0 ,
also z ∈ s . Daher kann man (i) in Satz 10.4.8 mit z anstelle von x anwenden. Es folgt
z = x, und x ist in der Tat der eindeutig bestimmte Minimierer für (P0 ). 

Wir geben jetzt eine Klasse von Matrizen an, die die Kern-Eigenschaft haben.

Definition 10.4.10 Die s-te RIP-Konstante δs einer m × n-Matrix A ist die kleinste Zahl
δ ≥ 0 mit

(1 − δ)$x$22 ≤ $Ax$22 ≤ (1 + δ)$x$22 für alle x ∈ s .

Hier steht RIP für restricted isometry property.

Es ist klar, dass δ1 ≤ δ2 ≤ · · · ≤ δn . Um die Bedeutung dieser Definition zu


veranschaulichen, nehmen wir an, dass δ2s „klein“ ist; dann ist für x, x  ∈ s
$
$Ax − Ax  $2 ≈ $x − x  $2 (bis auf einen Term der Größe δ2s $x − x  $2 ),

da ja x − x  ∈ 2s ; das Anwenden von A verändert den Abstand solcher Vektoren also
„wenig“, und A wirkt „fast“ wie eine Isometrie auf s .
Speziell folgt für δ2s < 1 aus x, x  ∈ s und x = x  auch Ax = Ax  , so dass LA auf s
injektiv ist. Aber erst die Anwendung von Satz 10.4.8 würde ein praktisch anwendbares
Verfahren gestatten, um x ∈ s aus Ax zu rekonstruieren, nämlich als Lösung von (P1 ).
Der folgende Satz garantiert das.

Satz 10.4.11 Eine m × n-Matrix A mit δ2s < 13 erfüllt die Kern-Eigenschaft der Ordnung
s ≤ n/2. Insbesondere ist für eine solche Matrix LA auf s injektiv, und man kann x ∈ s
aus Ax als Lösung des Problems (P1 ) gewinnen.
10.4 Lineare Algebra im 21. Jahrhundert 301

Für den Beweis benötigen wir einige Lemmata. Dort benutzen wir folgende Bezeich-
nungen. Ist S ⊂ {1, . . . , n}, so bezeichnet AS die Matrix, die aus den Spalten sk von A mit
k ∈ S besteht. Außerdem sei #(S) die Anzahl der Elemente von S.
Ist #(S) = σ , so ist A∗S AS eine σ × σ -Matrix, und E#(S) = Eσ bezeichnet die σ × σ -
Einheitsmatrix.

Lemma 10.4.12 Für s ≤ n gilt

δs = max $A∗S AS − E#(S) $op .


#(S)≤s

Beweis Nach Definition ist δs die kleinste Konstante in der Ungleichung

−δ ≤ $Ax$2 − 1 ≤ δ für alle x ∈ s , $x$2 = 1.

Ist supp(x) ⊂ S (wir schreiben dann x ∈ KS ) mit $x$2 = 1, so ist

$Ax$22 − 1 = $Ax$22 − $x$22 = Ax, Ax" − x, x"


= AS x, AS x" − x, x" = A∗S AS x − x, x".

(Eigentlich müsste man AS xS statt AS x schreiben, wo xS der Vektor mit den #(S)
Koordinaten aus S ist.) Also ist

δs = max sup{| (A∗S AS − E#(S) )x, x"|: supp(x) ⊂ S, $x$2 = 1}


#(S)≤s

= max $A∗S AS − E#(S) $op


#(S)≤s

nach Korollar 8.6.12. 

Lemma 10.4.13 Seien v, w ∈ Kn mit $v$0 , $w$0 ≤ s ≤ n/2. Es gelte supp(v) ∩


supp(w) = ∅. Dann folgt

| Av, Aw"| ≤ δ2s $v$2 $w$2 .

Beweis Wir setzen S = supp(v) ∪ supp(w); nach Voraussetzung ist #(S) ≤ 2s. Da die
Träger von v und w disjunkt sind, sind v und w orthogonal. Mit einer Notation wie in
Lemma 10.4.12 liefert dieses

| Av, Aw"| = | AS vS , AS wS "|


= | A∗S AS vS , wS " − vS , wS "|
≤ |( A∗S AS − E#(S) )vS , wS "|
302 10 Ergänzungen

≤ $(A∗S AS − E#(S) )vS $2 $wS $2


≤ $A∗S AS − E#(S) $op $vS $2 $wS $2
≤ δ2s $v$2 $w$2 ;

im 2. Schritt ging die Trägerbedingung ein. 

Lemma 10.4.14 Erfüllen v, w ∈ Ks die Ungleichung |vk | ≤ |wl | für alle k und l, so folgt

1
$v$2 ≤ √ $w$1 .
s

Beweis Nach Lemma 10.4.5 ist $v$2 ≤ s$v$∞ und

s$v$∞ ≤ |w1 | + · · · + |ws | = $w$1

nach Voraussetzung über v und w. 

Beweis von Satz 10.4.11. Sei 0 = v ∈ ker A. Es sei S0 ⊂ {1, . . . , n} eine Indexmenge,
deren Elemente zu s betragsgrößten Koordinaten von v „gehören“. (Eine solche Teilmenge
ist nicht eindeutig bestimmt, da ja alle |vk | gleich sein können.) Es ist also |vk | ≥ |vl |,
wenn k ∈ S0 und l ∈ / S0 . Im nächsten Schritt wählen wir eine Teilmenge S1 ⊂ S0c , deren
Elemente zu s betragsgrößten Koordinaten |vk | mit k ∈ / S0 gehören. Es ist also |vk | ≥ |vl |,
wenn k ∈ S1 und l ∈ / S0 ∪S1 . Entsprechend wählen wir S2 ⊂ (S0 ∪S1 )c etc. Das liefert eine
disjunkte Zerlegung {1, . . . , n} = S0 ∪ S1 ∪ · · · ∪ Sr in Teilmengen, die mit der möglichen
Ausnahme von Sr je s Elemente haben; es ist auf jeden Fall #(Sr ) ≤ s.
Wir erinnern an die Notation v S , die vor Definition 10.4.6 eingeführt wurde. Es ist
v = v S0 + v S1 + · · · + v Sr sowie wegen Av = 0

Av S0 = −(Av S1 + · · · + Av Sr ). (10.4.3)

Nach Definition von δ2s ist

1 1
$v S0 $22 ≤ $Av S0 $22 = Av S0 , Av S0 "
1 − δ2s 1 − δ2s
r
1
= Av S0 , −Av Sk ",
1 − δ2s
k=1

Letzteres nach (10.4.3). Wegen S0 ∩ Sk = ∅ liefert Lemma 10.4.13

Av S0 , −Av Sk " ≤ δ2s $v S0 $2 $v Sk $2 .


10.4 Lineare Algebra im 21. Jahrhundert 303

Nun sind nach Konstruktion die Koordinaten von v Sk betragsmäßig höchstens so groß wie
die von v Sk−1 , daher ist wegen Lemma 10.4.14

1
$v Sk $2 ≤ √ $v Sk−1 $1 .
s

Setzt man das oben ein, erhält man

r
δ2s 1
$v S0 $22 ≤ $v S0 $2 √ $v Sk−1 $1 .
1 − δ2s s
k=1

Die Voraussetzung über δ2s impliziert δ2s /(1 − δ2s ) < 12 , daher

r
1 1
$v $2 < √
S0
$v Sk−1 $1 ≤ √ $v$1 .
2 s 2 s
k=1


Nach (10.4.2) können wir $v S0 $1 ≤ s$v S0 $2 abschätzen. Ist S ⊂ {1, . . . , n} irgendeine
Teilmenge mit s Elementen, folgt jetzt die gesuchte Abschätzung

√ S0 1
$v S $1 ≤ $v S0 $1 ≤ s$v $2 < $v$1 .
2

(Wo ging im Beweis eigentlich v = 0 ein?) 

Leider ist es schwierig, explizit Matrizen mit kleinen RIP-Konstanten anzugeben.


Aber die Wahrscheinlichkeitstheorie hilft weiter, denn man kann zufällige Matrizen (also
Matrizen, deren Einträge Zufallsvariable sind) erzeugen, die mit hoher Wahrscheinlichkeit
kleine RIP-Konstanten haben. Wir wollen abschließend ein Beispiel für dieses Phänomen
zitieren.
Es sei A eine m × n-Matrix, deren Einträge akl unabhängige Zufallsvariable sind. Wir
betrachten im nächsten Satz zwei Spezialfälle:
• Die akl sind standardnormalverteilt.
• Die akl sind Bernoulli- 12 -verteilt, d. h., die Wahrscheinlichkeit, dass akl den Wert 0
bzw. 1 annimmt, ist jeweils 12 .
Für solche Zufallsmatrizen gilt folgender Satz,10 dessen Beweis allerdings vertiefte
Kenntnisse in Wahrscheinlichkeitstheorie verlangt.

10 Theorem 9.2 in S. Foucart und H. Rauhut, A Mathematical Introduction to Compressive Sensing.


Birkhäuser 2013. Dies ist das Standardwerk zu Compressed Sensing.
304 10 Ergänzungen

Satz 10.4.15 Sei A eine zufällige Matrix wie oben beschrieben. Dann existiert eine
Konstante C > 0 mit folgender Eigenschaft. Ist δ > 0 und
" #
m ≥ Cδ −2 s log(en/s) + log(2/ε) , (10.4.4)

so besitzt die Zufallsmatrix √1 A


m
mit einer Wahrscheinlichkeit von mindestens 1 − ε die
RIP-Konstante δs ≤ δ.

Das bedeutet im Hinblick auf Satz 10.4.11, dass mit hoher Wahrscheinlichkeit ein s-
schwach besetzter Vektor x aus y = Ax als Lösung von (P1 ) rekonstriert werden kann,
wenn die Anzahl m der Messungen die Bedingung (10.4.4), angewandt mit δ2s und δ < 13 ,
erfüllt, die man verkürzt mit m ≥ C  s log(en/s) wiedergeben kann.
Wir haben uns in dieser Einführung um Vektoren gekümmert, die nur s von 0
verschiedene Koordinaten haben. Realistischere Modelle nehmen an, dass alle bis auf
s Koordinaten „sehr klein“ statt exakt 0 sind und dass die Messung y „verrauscht“ ist,
also statt Ax = y nur $Ax − y$2 ≤ η erfüllt ist. All diese Phänomene können in
die Theorie des Compressed Sensing eingebracht und effektiv gelöst werden. Auf dem
Internationalen Mathematiker-Kongress ICM 2014 in Seoul hat Emmanuel Candès einen
faszinierenden Vortrag über die Theorie und Anwendungen des Compressed Sensing
gehalten, den Interessierte auf YouTube ansehen können.11

10.5 Aufgaben

Aufgabe 10.5.1 Sei X die Menge aller echten Teilmengen von N. Geben Sie eine Kette
in X ohne eine obere Schranke in X an.

Aufgabe 10.5.2 Sei (R, +, ·) ein Ring mit Einselement e; vgl. Definition 5.2.2. Eine
Teilmenge I ⊂ R heißt Ideal, wenn I eine Untergruppe von (R, +) ist und für x ∈ R
und y ∈ I

xy ∈ I, yx ∈ I

gelten. Ein Ideal heißt maximal, wenn I = R und

I  J, J ideal ⇒ J =R

gilt. Zeigen Sie, dass jedes Ideal I = R in einem maximalen Ideal enthalten ist.
(Hinweis: Zornsches Lemma!)

11 https://www.youtube.com/watch?v=W-b4aDGsbJk.
10.5 Aufgaben 305

Aufgabe 10.5.3 Sei U ein Unterraum des K-Vektorraums V, und sei u ∈ U  . Dann
existiert ein v  ∈ V  mit v  (u) = u (u) für alle u ∈ U ; v  ist also eine Fortsetzung
von u .

Aufgabe 10.5.4 Zeigen Sie, dass es eine Funktion f : R → R mit



f (1) = 1, f ( 2) = 0, f (x + y) = f (x) + f (y) für alle x, y ∈ R

gibt. (Hinweis: Betrachten Sie R als Q-Vektorraum.)

Aufgabe 10.5.5 Sei U ein Unterraum des K-Vektorraums V ; setze

U (⊥) = {v  ∈ V  : v  (u) = 0 für alle u ∈ U }.

Dann existieren kanonische Vektorraumisomorphismen

U ∼
= V  /U (⊥) , (V /U ) ∼
= U (⊥) .

Aufgabe 10.5.6 Zeigen Sie die Existenz eines kanonischen Vektorraumisomorphismus

Pol(R) ⊗ Pol(R) ∼
= Pol(R2 );

Letzteres bezeichnet den Vektorraum aller Polynomfunktionen in zwei reellen Variablen.

Aufgabe 10.5.7 Seien S1 ∈ L (V1 , W1 ) und S2 ∈ L (V2 , W2 ).


(a) S1 ⊗ S2 : V1 ⊗ V2 → W1 ⊗ W2 ist genau dann injektiv, wenn S1 und S2 injektiv sind.
(b) S1 ⊗ S2 : V1 ⊗ V2 → W1 ⊗ W2 ist genau dann surjektiv, wenn S1 und S2 surjektiv sind.

Aufgabe 10.5.8 Seien V , W, Z jeweils K-Vektorräume. Zeigen Sie, dass es eine lineare
Abbildung L: (V ⊗ W  ) ⊗ (W ⊗ Z) → V ⊗ Z gibt mit
" #
L (v ⊗ w  ) ⊗ (w ⊗ z) = w  (w) · (v ⊗ z)

für alle v ∈ V , w ∈ W , w ∈ W  , z ∈ Z.

Aufgabe 10.5.9 Die Spaltensummennorm einer reellen oder komplexen m × n-Matrix A


ist durch
m
$A$σ = max |aj k |
k
j =1

erklärt.
306 10 Ergänzungen

(a) Zeigen Sie, dass das eine Norm auf Km×n ist.
(b) Zeigen Sie

$A$σ = sup $Ax$1 .


$x$1 ≤1

Aufgabe 10.5.10 Die Zeilensummennorm einer reellen oder komplexen m × n-Matrix A


ist durch
n
$A$ζ = max |aj k |
j
k=1

erklärt.
(a) Zeigen Sie, dass das eine Norm auf Km×n ist.
(b) Zeigen Sie

$A$ζ = sup $Ax$∞ .


$x$∞ ≤1

(c) $A$ζ = $At $σ = $A∗ $σ .


Symbolverzeichnis

N {1, 2, 3, . . . }
N0 {0, 1, 2, 3, . . . }
R Menge der reellen Zahlen
C Menge der komplexen Zahlen
K R oder C
Re z Realteil der komplexen Zahl z
Im z Imaginärteil der komplexen Zahl z
|z| Betrag der komplexen Zahl z
A⊂B A ist (nicht notwendig echte) Teilmenge von B
AB A ist echte Teilmenge von B
f (A) Bild der Menge A unter der Abbildung f
f −1 (A) Urbild der Menge A unter der Abbildung f
lin(M) lineare Hülle von M
dim(V ) Dimension von V
U1 + U2 Summe der Unterräume U1 und U2
U1 ⊕ U 2 direkte Summe der Unterräume U1 und U2
V ∼=W V ist isomorph zu W
V /U Quotientenvektorraum
v+U Element des Quotientenvektorraums
V Dualraum von V
V ⊗W Tensorprodukt
v⊗w Elementartensor
co(M) konvexe Hülle von M
ex(C) Menge der Extremalpunkte von C
x×y Kreuzprodukt der Vektoren x, y ∈ R3
supp(x) Träger des Vektors x ∈ Rn
s Menge aller s-schwach besetzten Vektoren

© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert an Springer Nature 307
Switzerland AG 2022
D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2
308 Symbolverzeichnis

Abb(X) Vektorraum der reellwertigen Funktionen auf einer Menge X


Pol(I ) Vektorraum der Polynomfunktionen auf I
Pol<n (R) Vektorraum der Polynomfunktionen vom Grad < n
C(R) Vektorraum der stetigen Funktionen
D(R) Vektorraum der differenzierbaren Funktionen
xk Monomfunktion x → x k
R<∞ Vektorraum der abbrechenden reellen Folgen
K <∞ Vektorraum der abbrechenden Folgen in K
Rm×n Vektorraum der m × n-Matrizen
K[X] Polynomring (bzw. -algebra) über K
deg(P ) Grad des Polynoms P
L (V , W ) Vektorraum aller linearen Abbildungen von V nach W
L (V ) Vektorraum aller linearen Abbildungen von V nach V
F (V , W ) Vektorraum aller linearen Abbildungen endlichen Ranges
H (V ) R-Vektorraum der hermiteschen Abbildungen
B(V , W ; Z) Vektorraum der bilinearen Abbildungen

SR(A) Spaltenraum einer Matrix


ker(A) Kern einer Matrix
rg(A) Rang von A
df(A) Defekt von A
det(A) Determinante von A
tr(A) Spur von A
At transponierte Matrix
A# komplementäre Matrix
A∗ adjungierte Matrix
diag(λ1 , . . . , λn ) Diagonalmatrix
χA (X) charakteristisches Polynom
σ (A) Spektrum von A
r(A) Spektralradius von A
exp(A) Exponential von A
A1 ⊗ A2 Kronecker-Produkt

ran(L) Bildraum der linearen Abbildung L


ker(L) Kern von L
rg(L) Dimension von ran(L)
df(L) Dimension von ker(L)

KB Koordinatenabbildung x → j xj bj
MAB Matrix des Basiswechsels von A nach B
M(L; B, B  ) darstellende Matrix von L
L∗ adjungierte lineare Abbildung
|L| Betrag der linearen Abbildung L
Symbolverzeichnis 309

L duale lineare Abbildung


L1 ⊗ L 2 Tensorprodukt zweier linearer Abbildungen

α(λ) algebraische Vielfachheit des Eigenwerts λ


γ (λ) geometrische Vielfachheit des Eigenwerts λ
J (μ, p) p × p-Jordan-Kästchen

.,." Skalarprodukt
. , . "e euklidisches Skalarprodukt
$.$ Norm
$ . $e , $ . $2 euklidische Norm
$ . $1 Summennorm
$ . $∞ Maximumsnorm
M⊥ orthogonales Komplement
$A$op Operatornorm einer Matrix
B(x, r) offene Kugel
B[x, r] abgeschlossene Kugel

O(V ) orthogonale Gruppe von V


S O(V ) spezielle orthogonale Gruppe von V
O(n) Gruppe der orthogonalen n × n-Matrizen
SO(n) Gruppe der orthogonalen n × n-Matrizen mit Determinante 1
Literaturverzeichnis

Propädeutische Texte und Überblicke

1. L. Alcock, Wie man erfolgreich Mathematik studiert (Springer-Spektrum, Heidelberg 2017)


2. A. Beutelspacher, Das ist o.B.d.A. trivial!, 9. Aufl. (Springer-Vieweg, Wiesbaden 2009)
3. O. Deiser, C. Lasser, E. Vogt, D. Werner, 12 × 12 Schlüsselkonzepte zur Mathematik, 2. Aufl.
(Springer-Spektrum, Heidelberg 2015)
4. T. Gowers, Mathematics. A Very Short Introduction (Oxford University Press, Oxford bzw.
Stuttgart (Reclam) 2002). (Deutsch unter dem Titel Mathematik. Reclam 2011)
5. D. Grieser, Mathematisches Problemlösen und Beweisen, 2. Aufl. (Springer-Spektrum, Heidel-
berg 2017)
6. I. Hilgert, J. Hilgert, Mathematik – ein Reiseführer (Springer-Spektrum, Heidelberg 2012)
7. K. Houston, Wie man mathematisch denkt (Springer-Spektrum, Heidelberg 2012)
8. H. Schichl, R. Steinbauer, Einführung in das mathematische Arbeiten (Springer, Berlin 2009)

Lehrbücher

9. S. Axler, Linear Algebra Done Right, 3. Aufl. (Springer, New York 2015)
10. Chr. Bär, Lineare Algebra und analytische Geometrie (Springer-Spektrum, Wiesbaden 2018)
11. A. Beutelspacher, Lineare Algebra, 8. Aufl. (Springer-Spektrum, Heidelberg 2014)
12. G. Fischer, Lernbuch Lineare Algebra und Analytische Geometrie, 3. Aufl. (Springer-Spektrum,
Heidelberg 2017)
13. G. Fischer, Lineare Algebra, 18. Aufl. (Springer-Spektrum, Heidelberg 2014)
14. J.B. Fraleigh, R.A. Beauregard, Linear Algebra, 3. Aufl. (Addison-Wesley, Reading, MA 1995)
15. P. Knabner, W. Barth, Lineare Algebra (Springer-Spektrum, Berlin 2013)
16. M. Koecher, Lineare Algebra und analytische Geometrie, 4. Aufl. (Springer, Berlin 1997)
17. T.W. Körner, Vectors, Pure and Applied. A General Introduction To Linear Algebra (Cambridge
University Press, Cambridge 2013)
18. H.-J. Kowalsky, G.O. Michler, Lineare Algebra, 12. Aufl. (De Gruyter, Berlin 2003)
19. S. Lang, Linear Algebra, 3. Aufl. (Springer, New York 1987)
20. J. Liesen, V. Mehrmann, Lineare Algebra, 2. Aufl. (Springer-Spektrum, Heidelberg 2015)
21. H. Muthsam, Lineare Algebra, 2. Aufl. (Springer-Spektrum, Heidelberg 2006)
22. B. Said-Houari, Linear Algebra (Birkhäuser, Cham 2017)

© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert an Springer Nature 311
Switzerland AG 2022
D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2
312 Literaturverzeichnis

Tutorien

23. O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra (Springer-Spektrum, Heidelberg 2015)
24. F. Modler, M. Kreh, Tutorium Analysis 1 und Lineare Algebra 1, 3. Aufl. (Springer-Spektrum,
Heidelberg 2014)

Fortgeschrittene Literatur

25. R. Bhatia, Matrix Analysis (Springer, New York 1997)


26. H. Dym, Linear Algebra in Action, 2. Aufl. (American Mathematical Society, Providence, RI
2013)
27. R.A. Horn, Ch.R. Johnson, Matrix Analysis, 2. Aufl. (Cambridge University Press, Cambridge
2013)
28. R.A. Horn, Ch.R. Johnson, Topics in Matrix Analysis (Cambridge University Press, Cambridge
1991)
29. H. Shapiro, Linear Algebra and Matrices (American Mathematical Society, Providence, RI
2015)
30. X. Zhan, Matrix Theory (American Mathematical Society, Providence, RI 2013)
31. F. Zhang, Matrix Theory, 2. Aufl. (Springer, New York 2011)
Stichwortverzeichnis

A Basisentwicklung 43, 274


Abbildung 17 Basisergänzungssatz 44, 273
adjungierte 129 Basisexistenzsatz 40, 272
affine 230 Begleitmatrix 182
bilineare 282 Bidualraum 281
inverse 19 bijektiv 17
invertierbare 19 Bild einer Abbildung 18
kanonische in den Bidualraum 281 Bildraum einer linearen Abbildung 60
lineare 57 Bilinearform 116, 247
Abbildung, lineare 57
adjungierte 129
Betrag 202 C
diagonalisierbare 149 Cauchyfolge 217
nilpotente 159 Cauchyscher Verschränkungssatz 199
normale 133 Cauchy-Schwarzsche Ungleichung 119
orthogonale 135, 265 Compressed Sensing 294
positiv definite 196 Cramersche Regel 87
positiv semidefinite 196
Quadratwurzel 201
D
selbstadjungierte 133
Defekt
transponierte 278
einer linearen Abbildung 61
unitäre 135, 265
einer Matrix 46
Abbildungssatz, spektraler 154
Determinante 79
Äquivalenzklasse 107
einer linearen Abbildung 86
Äquivalenzrelation 63, 107, 271
Leibniz-Formel 80
Algebrenhomomorphismus 105
Determinantenform 74
Auswahlaxiom 271
normierte 78
Determinantenmultiplikationssatz 80
B Diagonalisierbarkeit 149, 151, 165, 188, 194
Banachraum 218 Diagonalmatrix 149
Banach-Tarski-Paradoxon 271 Differentialgleichung 35, 225
Basis 37, 39, 272 Dimension 42
duale 280 Drehmatrix 137, 235
geordnete 65 Dreiecksmatrix 24

© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert an Springer Nature 313
Switzerland AG 2022
D. Werner, Lineare Algebra, Grundstudium Mathematik,
https://doi.org/10.1007/978-3-030-91107-2
314 Stichwortverzeichnis

Dreiecksungleichung 118 Google-Matrix 90


Dualraum 276 Grad eines Polynoms 103, 141
Gram-Schmidt-Verfahren 121
Graßmannsche Identität 242
E Gruppe 97
Eigenraum 90, 146 abelsche 97
verallgemeinerter 162 orthogonale 231
Eigenvektor 90, 146 spezielle orthogonale 231, 240
25-Milliarden-Dollar-Eigenvektor 95
verallgemeinerter 162
Eigenvektor-Eigenwert-Identität 292 H
Eigenwert 90, 146 Hauptminor 199
algebraische Vielfachheit 147, 163 Hauptraum 162
für normale Abbildungen und Matrizen 192 Hauptraumzerlegung 164
für selbstadjungierte Abbildungen und Hauptvektor 162
Matrizen 187 Höhensatz 238
geometrische Vielfachheit 147 Homomorphiesatz 110
Einheitsmatrix 16 Hülle
Einheitsvektor 22 konvexe 254, 256
Einsetzungshomomorphismus 105, 142 lineare 35
Element, maximales 272 Hyperbel 245
Elementarmatrix 23 Hyperboloid 251
Elementartensor 283 Hyperebene 233
Ellipse 245
Ellipsoid 251
endlich erzeugt 37 I
Entwicklung, orthogonale 124 Ideal 304
Erzeugendensystem 37 Imaginärteil 100
Exponentialreihe 223 injektiv 17
Extremalpunkt 263 Innenproduktraum 116
Isometrie 229
Isomorphie von Vektorräumen 62, 64
F
Folge, konvergente 217
Form, quadratische 247 J
Fouriermatrix 295 Jacobi-Identität 242
Fundamentalsatz der Algebra 144, 182 Jägerzaunregel 84
Funktion 17 Jordan-Basis 168
konvexe 269 Jordan-Kästchen 167
Funktional, lineares 58, 127, 276 Jordansche Normalform 173
reeller Fall 177

G
Gauß-Jordan-Verfahren 16 K
Gaußscher Algorithmus 15 K-Algebra 105
Gerschgorinsche Kreise 184 Kegelschnitt 243
Gleichungssystem, lineares 1, 48, 50, 87 Kern
homogenes 15 einer linearen Abbildung 60
inhomogenes 16 einer Matrix 46
Stichwortverzeichnis 315

Kern-Eigenschaft 299 Matrix, inverse


Kette 272 Berechnung 22, 88
Kodimension 110 Matrixmultiplikation 12, 27
Koeffizientenmatrix, erweiterte 13, 48 Matrix-Vektor-Multiplikation 10
Körper 98 Matrizen, ähnliche 69, 81
algebraisch abgeschlossener 182 Menge
Kofaktor 88 abgeschlossene 260
Komplement, orthogonales 117 konvexe 253
Komplementärraum 52, 111, 273 offene 258
Komposition 19 Methode der kleinsten Quadrate 207
Kongruenzabbildung 229 Minimalpolynom 186
Koordinate 5, 275 Minimaxprinzip von Courant, Fischer
Kreuzprodukt 241 und Weyl 198
Kronecker-Produkt 290 Minor 89
Krylov-Raum 185 Hauptminor 199
Monomfunktion 35
Multilinearform 74
L
längentreu 137
Laplacescher Entwicklungssatz 82 N
linear abhängig 37 Neumannsche Reihe 219
Linearfaktor 144 nilpotent 159
Linearkombination 35 Norm 118
linear unabhängig 37 einer Matrix 212
LR-Zerlegung 25, 26 euklidische 120
Frobenius-Norm 211
Hilbert-Schmidt-Norm 211
M Maximumsnorm 296
Matrix 9 Spaltensummennorm 305
adjungierte 130 Summennorm 296
blockdiagonale 27, 227 Zeilensummennorm 306
darstellende 65, 131, 280, 290 normal 133
des Basiswechsels 68 Nullstelle 103, 142
diagonalisierbare 149, 151 Vielfachheit 143
doppelt stochastische 269
hermitesche 133
invertierbare 21, 81, 88 O
komplementäre 88 Operatornorm 212, 215
nilpotente 159 Orientierung 235
normale 133 Orthogonalprojektion 126, 205
orthogonale 135 Orthonormalbasis 120
positiv definite 196 Existenz 123
positiv semidefinite 196 Orthonormalsystem 120
selbstadjungierte 133
spaltenstochastische 93
symmetrische 133 P
transponierte 49, 81, 91, 130 PageRank 90
unitäre 135 Parabel 245
zufällige 303 Parallelogrammgleichung 120
316 Stichwortverzeichnis

Permutation 76 Helly 257


Signum 80 Krein-Milman 266
Permutationsmatrix 26, 80 Minkowski
Pivotspalte 14 über Extremalpunkte konvexer
Polarisierung 135 Mengen 266
Polarzerlegung 202 über Trennung konvexer Mengen 260
Polynom 102, 141 Perron-Frobenius 94
Polynomdivision 142 Pythagoras 120
Polynomfunktion 33 Schur 155, 195
Prähilbertraum 116 Schranke, obere 272
Produkt Schur-Basis 155
direktes 52 orthonormale 195
inneres 116 Schur-Darstellung 155, 195
Projektion 70, 125 Seite 263
Projektionssatz 125 selbstadjungiert 133
Sesquilinearform 116
Singulärwertzerlegung 203
Q Skalar 101
QR-Zerlegung 210 Skalarprodukt 116
Quadrik 249, 251 euklidisches 116
Quantoren 17 Spaltenrang 49
Quotientenvektorraum 109 Spaltenraum 45
Dimension 110 Spektralradius 216, 220, 221
Spektralzerlegung 189, 195
Spektrum 154
R Spiegelung 233
Rang Spur 59, 71, 183, 289
einer linearen Abbildung 61 Steinitzscher Austauschsatz 44
einer Matrix 45, 46, 49, 50 Strassenscher Algorithmus 27, 28
Rang-Defekt-Formel 46, 61 Summe, direkte 52, 111
Raum, normierter 118 Summe von Unterräumen 50
vollständiger 218 Dimension 51
Realteil 100 surjektiv 17
Rechte-Hand-Regel 242 Sylvesterscher Trägheitssatz 200
Regression 209
Reihe. absolut konvergente 218
Relation 20 T
Repräsentant 107 Tensorprodukt 283, 286
Rieszscher Darstellungssatz 127 universelle Eigenschaft 284
Ring 104 Träger 295
RIP-Konstante 300 Trennung konvexer Mengen 260
Triangulierbarkeit 155

S
Sarrussche Regel 84 U
Satz von Unterraum 34
Carathéodory 256 invarianter 156, 193
Cayley-Hamilton 158 Schnitt 36
Fréchet-Riesz 127 Urbild einer Abbildung 18
Stichwortverzeichnis 317

V W
Vandermondesche Determinante 84 Wert, singulärer 202
Vektor 5 winkeltreu 137
schwach besetzter 295
Vektoradddition 6
Vektorraum Z
K-Vektorraum 100 Zahl
R-Vektorraum 31 algebraische 182, 290
endlichdimensionaler 42 konjugiert komplexe 100
endlich erzeugter 37 transzendente 182
euklidischer 116 Zahlen, komplexe 99
normierter 118 Betrag 115
unendlichdimensionaler 42, 272 Zeilenrang 49
unitärer 116 Zeilenstufenform 14, 46
Vektorraumisomorphismus 62 reduzierte 16
Vielfachheit Zeilenumformung, elementare 13
algebraische 147, 163 zerfallen in Linearfaktoren 144
geometrische 147 Zornsches Lemma 272

Das könnte Ihnen auch gefallen