Sie sind auf Seite 1von 230

Gregor Kemper∗

Lineare Algebra und diskrete


Strukturen 1 und 2
Vorlesungsmanuskript
Technische Universität München

14. Februar 2019


Verbesserungsvorschläge und Fehlermeldungen bitte an: kemper@ma.tum.de.
Inhaltsverzeichnis

Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1 Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Abbildungen und Mächtigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Diskrete Strukturen: Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33


4 Wege und Bäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5 Multigraphen und eulersche Graphen . . . . . . . . . . . . . . . . . . . . . 41

Algebraische Strukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6 Gruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7 Ringe und Körper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

Lineare Algebra: Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67


8 Vektorräume und Unterräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
9 Lineare Gleichungssysteme und Matrizen . . . . . . . . . . . . . . . . . . 74
10 Lineare Unabhängigkeit und Basen . . . . . . . . . . . . . . . . . . . . . . . 80
11 Lineare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
12 Darstellungsmatrizen und Matrixprodukt . . . . . . . . . . . . . . . . . . 94
13 Diskrete Strukturen: Lineare Codes . . . . . . . . . . . . . . . . . . . . 102
14 Faktorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
15 Direkte Summen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Lineare Algebra: Normalformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115


16 Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
17 Eigenwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
18 Die Smith-Normalform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
19 Die Jordansche Normalform und allgemeine Normalform . . . . 146
20 Dualraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

3
4 Inhaltsverzeichnis

Diskrete Strukturen: Zählen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165


21 Binomialkoeffizienten und Kombinatorik . . . . . . . . . . . . . . . . . . . 165
22 Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

Lineare Algebra: Euklidische und unitäre Räume . . . . . . . . . . . . . 185


23 Skalarprodukte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
24 Der Spektralsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
25 Singulärwertzerlegung und Moore-Penrose-Inverse . . . . . . . . . . 209
26 Diskrete Strukturen: Spektren von Graphen . . . . . . . . . . . . . 217

Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
1 Grundbegriffe


 1. Vorlesung,

y 17.10.2018
2 Wenn man heutzutage den Aufbau der Mathematik erklären will, kommt
3 man um folgende zwei Elemente nicht herum: Logik und Mengenlehre. In
4 dieser Vorlesung werden wir einen naiven, intuitiven Umgang mit der Logik
5 pflegen und logische Strukturen und Sprechweisen im wesentlichen en passant
6 kennenlernen. Die Mengenlehre werden wir ausführlicher behandeln und ihr
7 den ersten Abschnitt der Vorlesung widmen.
8 Um starten zu können, erinnern wir ganz kurz an einige Sprachelemen-
9 te der Logik, deren inhaltliche Bedeutung wir, wie oben angedeutet, dem
10 gesunden Menschenverstand“ überlassen wollen.

11 Sprachelemente der Logik:
12 • und“ (bisweilen geschrieben als ∧),

13 • oder“ (bisweilen geschrieben als ∨),

14 • nicht“ (bisweilen geschrieben als ¬), sowie die Quantoren

15 • für alle“ (geschrieben als ∀, genannt der Allquantor) und

16 • es gibt“ (geschrieben als ∃, genannt der Existenzquantor).

17 Aus diesen Sprachelementen setzt man neue zusammen:
18 • A ⇒ B bedeutet: B oder nicht A.
19 • A ⇔ B bedeutet A ⇒ B und B ⇒ A.
20 Ein typisches Beispiel für die Verwendung von logischen Sprachelementen
21 ist die bekannte Epsilon-Delta-Definition der Stetigkeit: Es seien f : R → R
22 eine Funktion und x0 ∈ R. Dann heißt f stetig in x0 , falls
 
23 ∀ ε > 0 ∃ δ > 0: ∀x ∈ R: |x − x0 | < δ ⇒ |f (x) − f (x0 )| < ε .
6 Mengen

1 1 Mengen

2 Alle Mathematik Lernenden haben schon mit zahlreichen Mengen zu tun


3 gehabt: R, N, die Menge aller Geraden in einer Ebene, die Menge aller stetigen
4 Funktionen R → R, die Menge aller Paare (p, q) von Primzahlen p und q
5 mit q − p = 2, und so weiter. Georg Cantor, den man als Begründer der
6 Mengenlehre bezeichnet, formulierte 1895 folgende Definition:
7 Eine Menge ist eine Zusammenfassung von bestimmten, wohlunterschiedenen

8 Objekten unserer Anschauung oder unseres Denkens zu einem Ganzen.“

9 Aus heutiger Sicht mag man diese Definition kritisieren, weil sie nicht exakt
10 ist und weil die vorkommenden Begriffe ihrerseits einer Definition bedürfen.
11 Schwerer wiegt jedoch die Russelsche Antinomie, die 1903 entdeckt wurde:
12 Gemäß dem Cantorschen Mengenbegriff müsste es auch die Menge aller
13 Mengen geben, die hier mit X bezeichnet werden soll. Insbesondere gilt X ∈
14 X. Weiter können wir auch

15 R := {A ∈ X | A ∈
/ A},

16 also die Menge aller Mengen, die nicht Element von sich selbst sind, bilden.
17 (Das Symbol :=“ bedeutet hierbei: wird definiert als“.) Es gilt R ∈ R
” ”
18 oder R ∈ / R. Falls R ∈ R, wäre die Bedingung A ∈ / A für A = R nicht
19 erfüllt, also definitionsgemäß R ∈/ R. Falls R ∈/ R, wäre A ∈ / A für A = R
20 erfüllt, also definitionsgemäß R ∈ R. Wir erhalten also in beiden Fällen einen
21 Widerspruch.
22 Die Entdeckung dieses Widerspruchs hat das Ende der naiven, Cantor-
23 schen Mengenlehre hervorgerufen. Aber nicht das Ende der Mathematik. Es
24 gab mehrere Schulen, die neue Begründungen der Mengenlehre entwickel-
25 ten. Hiervon hat sich die Zermelo-Fraenkel-Mengenlehre durchgesetzt, die wir
26 hier in Grundzügen besprechen wollen. In der Zermelo-Fraenkel-Mengenlehre
27 wird kein Versuch unternommen, den Mengenbegriff oder die Elementseins-
28 beziehung inhaltlich zu definieren. Es werden lediglich Regeln ( Axiome“)

29 postuliert. Ein weiteres Merkmal ist, dass sämtliche mathematische Objek-
30 te Mengen sind. (Eine Variante lässt auch sogenannte Urelemente zu.) Die
31 Zutaten der Zermelo-Fraenkel-Mengenlehre sind:
32 • Logik,
33 • das Symbol ∈“, gelesen als ist Element von“,
” ”
34 • Axiome,
35 • vereinbarte Schreibweisen, Abkürzungen und Sprechweisen.
36 Die folgenden Axiome werden in der Zermelo-Fraenkel-Mengenlehre po-
37 stuliert:
38 • Extensionalitätsaxiom (Seite 7),
39 • Aussonderungsaxiom (Seite 8),
40 • Vereinigungsmengenaxiom (Seite 9),
Mengen 7

1 • Zweiermengenaxiom (Seite 10),


2 • Potenzmengenaxiom (Seite 10),
3 • Unendlichkeitsaxiom (Seite 11),
4 • Fundiertheitsaxiom (wird hier nicht behandelt),
5 • Ersetzungsaxiom (wird hier nicht behandelt),
6 • Auswahlaxiom (Seite 13).
7 In einigen Darstellungen der Zermelo-Fraenkel-Mengenlehre wird das Leer-
8 mengenaxiom hinzugenommen oder das Auswahlaxiom als Erweiterung an-
9 gesehen. Wir beginnen mit einer Schreib- und Sprechweise, die den Gleich-
10 heitsbegriff definiert.
11 Definition 1.1. Zwei Mengen A, B heißen gleich, falls sie sich bezüglich
12 ∈“ identisch verhalten. Formaler: Wir schreiben A = B, falls gilt:

   
13 ∀ X: X ∈ A ⇔ X ∈ B und A ∈ X ⇔ B ∈ X .

14 Aus Definition 1.1 folgen sofort:


15 (a) ∀ A: A = A. ( Reflexivität“),
” 
16 (b) ∀ A, B: A = B ⇔ B = A ( Symmetrie“),
” 
17 (c) ∀ A, B, C: A = B und B = C ⇒ A = C ( Transitivität“).

18 Nun können wir das erste Axiom der Zermelo-Fraenkel-Mengenlehre for-
19 mulieren.
20 Axiom 1.2 (Extensionalitätsaxiom). Falls zwei Mengen dieselben Elemente
21 haben, sind sie gleich. Formaler: Für alle A, B gilt:
 
22 ∀ x: x ∈ A ⇔ x ∈ B ⇒ A = B.

23 Mit einem intuitiven, inhaltlichen Verständnis der Mengenlehre erscheint


24 die Gültigkeit von Axiom 1.2 selbstverständlich. Dass es nicht inhaltsleer ist,
25 zeigen Beispiele, in denen die Elementseinsbeziehung mit einem neuen Inhalt
26 gefüllt ist.
27 Beispiel 1.3. (1) Für zwei Menschen x, y schreiben wir x ∈ y, falls x ein Kind
28 von y ist. Es gilt also x = y genau dann, wenn x und y identisch oder
29 Geschwister sind und dieselben Kinder haben. Axiom 1.2 würde dann
30 besagen, dass zwei Menschen, die dieselben Kinder haben, Geschwister
31 sind—ein Unfug. Axiom 1.2 gilt in diesem Beispiel also nicht.
32 (2) Für zwei Menschen x, y schreiben wir x ∈ y, falls das Geburtsjahr von x
33 nach dem von y liegt. Es gilt also x = y genau dann, wenn x und y
34 dasselbe Geburtsjahr haben. In diesem Beispiel gilt Axiom 1.2.
35 (3) Für zwei natürliche Zahlen x, y schreiben wir x ∈ y, falls x < y gilt. Dies
36 ergibt den gewöhnlichen Gleichheitsbegriff. Auch in diesem Beispiel gilt 
 2. Vorlesung,
37 Axiom 1.2. 
y 19.10.2018
38 (4) Für zwei natürliche Zahlen x, y schreiben wir x ∈ y, falls x + 1 = y. Dies
39 liefert den gewöhnlichen Gleichheitsbegriff. Es gilt Axiom 1.2. /
8 Mengen

1 Wir verwenden die folgenden Schreib- und Sprechweisen:


2 • x∈ / A :⇐⇒ nicht x ∈ A,
3 • x 6= y :⇐⇒ nicht x = y,  
4 • A ⊆ B ( Teilmenge“) :⇐⇒ ∀ x: x ∈ A ⇒ x ∈ B ,
” 
5 • A $ B ( echte Teilmenge“) :⇐⇒ A ⊆ B und ∃ x: x ∈ B und x ∈ /A .

6 (Hierbei deutet der Doppelpunkt vor dem Äquivalenzzeichen an, dass eine
7 Sprechweise oder Eigenschaft definiert wird.) Aus Axiom 1.2 erhalten wir:
8 Falls A ⊆ B und B ⊆ A gelten, dann A = B.
9 Um in gewohnter Weise Mengenlehre betreiben zu können, müssen wir
10 Mengen bilden können wie

11 {x ∈ N | ∃ y ∈ N: x = y 2 }

12 oder
n  o
13 x ∈ N | x 6= 1 und ∀ y, z ∈ N: x = y · z ⇒ (y = 1 oder z = 1) .

14 Das folgende Axiom erlaubt es, Mengen zu konstruieren, indem wir aus einer
15 gegebenen Menge alle Elemente, die eine gewisse Bedingung erfüllen, ausson-
16 dern. Was heißt hierbei Bedingung“? Die Antwort fällt in den Bereich der

17 Logik. Etwas vergröbert kann man sagen, dass eine Bedingung ein Ausdruck
18 C(x) ist, der aus dem Symbol ∈“, logischen Operatoren, mathematischen

19 Objekten und Variablen“ gebildet ist, und in dem x als freie Variable“
” ”
20 vorkommt, während alle anderen Variablen durch Quantoren (∀ und ∃) ge-
21 bunden sind. In der Sprache der Prädikatenlogik würde man sagen: C(x) ist
22 ein einstelliges Prädikat erster Stufe.
23 Axiom 1.4 (Aussonderungsaxiom). Für jede Bedingung C(x) und jede Men-
24 ge A existiert eine Menge B mit:
 
25 ∀ x: x ∈ B ⇔ x ∈ A und C(x) gilt .

26 Wegen Axiom 1.2 ist die Menge B aus Axiom 1.4 eindeutig bestimmt. Wir
27 schreiben
28 B = {x ∈ A | C(x)} .
29 Beispiel 1.5. Wir kommen auf die Beispiele in 1.3 zurück.
30 (1) Für dieses Beispiel gilt Axiom 1.4 nicht. Man betrachte die Bedingung
31 C(x): ∀ y: y ∈
/ x, die besagt, dass x kinderlos ist. Axiom 1.4 würde nun
32 bedeuten, dass es zu jedem Menschen A einen Menschen B gibt, dessen
33 Kinder genau die kinderlosen Kinder zu A sind. Das ist Unfug!
34 (2) Auch hier gilt Axiom 1.4 nicht. Wir betrachten C(x): x ∈ / Lorenz, wo-
35 bei Lorenz 2010 geboren wurde. C(x) bedeutet, dass x im Jahr 2010
36 oder früher geboren wurde. Martin wurde 2008 geboren. Nach Axi-
37 om 1.4 müsste es einen Menschen B geben, so dass die Menschen,
Mengen 9

1 deren Geburtsjahr nach dem von B liegt, genau diejenigen sind mit
2 2008 < Geburtsjahr ≤ 2010. Das ist Unfug.
3 (3) Auch hier gilt Axiom 1.4 nicht. Man betrachte A = 5 und die Bedingung
4 C(x): x = 4. Axiom 1.4 würde bedeuten, dass es eine natürliche Zahl B
5 gibt, so dass für alle natürlichen Zahlen x gilt: x < B ⇔ x = 4. Auch
6 das ist Unfug!
7 (4) In diesem Beispiel hat jede positive natürliche Zahl A nur das einzige
8 Element A − 1, und die 0 hat gar kein Element. Ist C(x) eine Bedingung
9 und A eine natürliche Zahl, so können wir B = A setzen, falls C(A − 1)
10 gilt, und andernfalls B = 0. Dann wird Axiom 1.4 durch B erfüllt, es gilt
11 also. /
12 Falls überhaupt eine Menge A existiert (dies folgt aus Axiom 1.12 auf
13 Seite 11), dann gibt es nach Axiom 1.4 auch

14 ∅ := {x ∈ A | x 6= x},

15 die leere Menge, die nach Axiom 1.2 eindeutig bestimmt ist, unabhängig
16 von der Wahl von A. Weiter existiert zu Mengen A, B auch die Schnitt-
17 menge
18 A ∩ B := {x ∈ A | x ∈ B} = {x ∈ B | x ∈ A}.
19 Zwei Mengen A, B heißen disjunkt, falls A ∩ B = ∅. Außerdem gibt es zu
20 Mengen A, B die Differenzmenge

21 A \ B := {x ∈ A | x ∈
/ B}.

22 Ist allgemeiner M eine nicht-leere Menge, so können wir B ∈ M wählen und


23 die Schnittmenge
\
24 M := {x ∈ B | ∀ A ∈ M : x ∈ A}

25 bilden, die wegen Axiom 1.2 unabhängig


\ von der Wahl von B ist. Eine alter-
T
26 native Schreibweise für M ist A.
A∈M
27 Unsere bisherigen Axiome garantieren also die Existenz von Schnittmen-
28 gen. Können wir auch die Existenz von Vereinigungsmengen folgern? Das Bei-
29 spiel 1.3(4) zeigt, dass die Antwort nein ist. Jede Menge in diesem Beispiel
30 hat höchstens ein Element, also kann man hier keine Vereinigungsmengen
31 bilden, obwohl die Axiome 1.2 und 1.4 gelten. Wir benötigen also ein weite-
32 res Axiom. Da wir nicht nur die Vereinigung zweier Mengen bilden wollen,
33 sondern die Vereinigung beliebig vieler, fassen wir das Axiom weiter.
34 Axiom 1.6 (Vereinigungsmengenaxiom). Zu jeder Menge M existiert eine
35 Menge B, so dass gilt:
 
36 ∀ x: x ∈ B ⇔ ∃ A: A ∈ M und x ∈ A .
10 Mengen

1 Die Menge B aus[ Axiom 1.6 ist wieder eindeutig bestimmt und wird mit
S
2 M , alternativ A, bezeichnet.
A∈M
3 Können wir mit den bisherigen Axiomen die Existenz der Vereinigung
4 zweier Mengen A, B garantieren? Dazu bräuchten wir eine Menge M , deren
5 Elemente genau A und B sind. Dies liefert das folgende Axiom.
6 Axiom 1.7 (Zweiermengenaxiom). Für alle x, y existiert eine Menge A, so
7 dass gilt:  

 3. Vorlesung, 8 ∀ z: z ∈ A ⇔ z = x oder z = y .

y 23.10.2018
9 Die durch Axiom 1.7 gegebene, eindeutig bestimmte Menge wird als
10 A = {x, y} geschrieben, bzw. A = {x} im Falle x = y. Man beachte den
11 Unterschied zwischen x und {x}. Beispielsweise ist {∅} 6= ∅. Ebenso beachte
12 man den Unterschied zwischen A ∪ B und {A, B}. Durch Anwendung der
13 Axiome 1.6 und 1.7 kann man auch Dreiermengen {x, y, z} bilden und so
14 weiter.
15 Axiom 1.8 (Potenzmengenaxiom). Zu jeder Menge A existiert eine Menge
16 B, deren Elemente genau die Teilmengen von A sind, es gilt also:
 
17 ∀ x: x ∈ B ⇔ x ⊆ A .

18 Die durch Axiom 1.8 gegebene Menge heißt die Potenzmenge von A und
19 wird als P(A) geschrieben.
  
20 Beispiel
 1.9. P(∅) = {∅}, P {∅} = ∅, {∅} , und für x 6= y gilt P {x, y} =
21 ∅, {x}, {y}, {x, y} . /
22 Wir haben darauf verzichtet, die Gültigkeit der Axiome 1.6 bis 1.8 in
23 unseren bisherigen Beispielen zu überprüfen. Es folgt nun ein interessantes
24 Beispiel, in dem sie alle erfüllt sind.
25 Beispiel 1.10. Da dies ein Beispiel ist und nicht Teil des Aufbaus der Ma-
26 thematik, ist es legitim, unser Wissen über natürliche Zahlen zu verwenden.
27 Wir treffen wieder die Konvention, dass die natürlichen Zahlen Pmit 0 begin-
mn i
28 nen. Jede natürliche Zahl n hat eine Binärdarstellung n = i=0 i 2 mit
a
29 ai = 0 oder ai = 1 für alle i. Ist k eine weitere natürliche Zahl, so schreiben
30 wir k ∈ n, falls k ≤ mn und ak = 1. (Man könnte auch sagen, dass k ∈ n
31 gilt, falls die größte natürliche Zahl, die ≤ 2nk ist, ungerade ist.) Es gilt also
32 beispielsweise 2 ∈ 5, aber nicht 1 ∈ 5.
33 Es ergibt sich der gewöhnliche Gleichheitsbegriff. Axiom 1.2 besagt, dass
34 zwei natürliche Zahlen mit derselben Binärdarstellung gleich sind, das Axiom
35 gilt also. Wir beobachten, dass jede natürliche Zahl endlich viele Elemen-
36 te enthält. Sind umgekehrt k1 , . . .P, ks endlich viele paarweise verschiedene
s
37 natürliche Zahlen, so enthält n := i=1 2ki genau die Elemente k1 , . . . , ks .
38 Aus dieser Beobachtung folgt die Gültigkeit der Axiome 1.4 und 1.6 bis 1.8.
39 (In der Tat gelten in diesem Beispiel alle Axiome der Zermelo-Fraenkel-
40 Mengenlehre bis auf das Unendlichkeitsaxiom 1.12. Das Beispiel liefert ein
41 Modell für die Mengenlehre endlicher Mengen.)
Mengen 11

1 Wir betrachten ein paar Beispiele zu den Axiomen. Zu 2 und 5 existiert


2 nach Axiom 1.7 die Menge {2, 5}, nämlich {2, 5} = 22 + 25 = 36. Die Einer-
3 menge {4} ist {4} = 16. Was ist die Potenzmenge von 5? Es gilt 5 = {0, 2},
4 also

P(5) = ∅, {0}, {2}, {0, 2} = {0, 1, 4, 5} = 20 + 21 + 24 + 25 = 51.



5

S
6 Es sei dem Leser überlassen, die
n Vereinigungsmenge Movon M = 4 294 968 320 =
32 10

7 2 + 2 zu bilden. Was ist ∅, {{∅}} , ∅, {∅} , {∅} ? /
8 Der nächste Schritt ist die Konstruktion der natürlichen Zahlen. Damit
9 stellen wir uns in den Gegensatz zu dem Mathematiker L. Kronecker (1823–
10 1881), der gesagt haben soll: Die natürlichen Zahlen hat der liebe Gott

11 gemacht, alles andere ist Menschenwerk.“ Wir setzen

12 0 := ∅,
13 1 := {0}(= {∅}),
 
14 2 := {0, 1} = 1 ∪ {1} = ∅, {∅} ,
 n  o
15 3 := {0, 1, 2} = 2 ∪ {2} = ∅, {∅}, ∅, {∅} ,
..
16 .

17 Um hieraus eine mathematische Definition zu machen und die Menge der


18 natürlichen Zahlen konstruieren zu können, machen wir folgende Definition:
19 Definition 1.11. (a) Für eine Menge A ist

20 A+ := A ∪ {A}

21 der Nachfolger von A.


22 (b) Eine Menge M heißt induktiv, falls gelten:
23 (1) ∅ ∈ M und
24 (2) ∀ A ∈ M : A+ ∈ M .
25 Es folgt das nächste Axiom.
26 Axiom 1.12 (Unendlichkeitsaxiom). Es gibt eine induktive Menge.
27 Nun können wir die Menge N der natürlichen Zahlen konstruieren. Zunächst
28 beobachten wir, dass die Schnittmenge einer Menge von induktiven Mengen
29 wieder induktiv ist. Es sei nun M eine induktive Menge, deren Existenz von
30 Axiom 1.12 geliefert wird. Wir setzen

IM := M 0 ∈ P(M ) | M 0 ist induktiv .



31

32 Wegen M ∈ IM ist IM nicht leer, und wir können


12 Mengen
\
1 NM := IM

2 setzen. Damit ist NM induktiv, genauer ist NM die kleinste induktive Teil-
3 menge von M .
4 Proposition 1.13. Sind M und N induktive Mengen, so gilt NM = NN .
5 Beweis. Die Schnittmenge NM ∩ N ist induktiv, also NM ∩ N ∈ IN . Nach
6 Konstruktion folgt NN ⊆ NM ∩ N ⊆ NM . Ebenso zeigt man NM ⊆ NN . t u

7 Nachdem die Unabhängigkeit von der Wahl von M geklärt ist, können
8 und werden wir statt NM auch N schreiben. Um die Theorie der natürli-
9 chen Zahlen weiter zu treiben, kann man nun direkt aus der Konstruktion
10 die sogenannten Peano-Axiome beweisen, mit deren Hilfe sich die natürlichen
11 Zahlen vollständig charakterisieren lassen. Danach kann man durch rekursive
12 Definitionen die Addition und Multiplikation und die Vergleichsrelation ≤“

13 natürlicher Zahlen erklären. Nach dem Beweis der Peano-Axiome, spätestens
14 nach der Definition der arithmetischen Operationen, kann man die hier gege-
15 bene Definition von N vergessen und arbeitet nur noch mit den Eigenschaften
16 der natürlichen Zahlen und mit den üblichen Symbolen 0, 1, 2, und so wei-
17 ter. Ebenso erübrigt sich die hier gemachte Konstruktion des Nachfolgers

 4. Vorlesung,
18 (Definition 1.11(a)), und man schreibt statt n+ fortan das gebräuchlichere

y 24.10.2018 19 n + 1.
20 Ein wichtiges Beweismittel ist das Prinzip der vollständigen Indukti-
21 on, auch kurz Induktion genannt. Dies funktioniert folgendermaßen: Es sei
22 A(n) eine Aussage über n (genauer: ein Prädikat erster Stufe mit n als freie
23 Variable). Falls es gelingt, zu beweisen dass
24 (a) A(0) gilt und  
25 (b) für alle n ∈ N gilt: A(n) ⇒ A(n + 1) ,
26 so folgt, dass A(n) für alle n ∈ N gilt. Intuitiv mag die Gültigkeit des Prinzips
27 der vollständigen Induktion einleuchten, es ist aber doch beweisbedürftig. Wir
28 geben folgenden Beweis: Die Menge

29 S := {n ∈ N | A(n) gilt}

30 ist wegen der Voraussetzungen (a) und (b) induktiv. Nach Konstruktion ist
31 N aber die kleinste induktive Menge, und es folgt S = N. Damit ist gezeigt,
32 dass A(n) für alle n ∈ N gilt.
33 Nachdem N zusammen mit den arithmetischen Operationen und der Re-
34 lation ≤“ konstruiert ist, kann man hieraus Schritt für Schritt die weiteren

35 Zahlenbereiche Z, Q, R und C konstruieren. Hierbei sind alle Konstruktio-
36 nen und Beweise im Rahmen der Zermelo-Fraenkel-Mengenlehre machbar.
37 Wir werden es bei dieser Andeutung belassen und den Aufbau des Zahlensy-
38 stems hier nicht behandeln.
39
Mengen 13

1 Das letzte Axiom der Zermelo-Fraenkel-Mengenlehre, das wir hier bespre-


2 chen wollen, ist das Auswahlaxiom. Es ist sicherlich das prominenteste“ un-

3 ter den Axiomen. Bisweilen wird es als Erweiterung der Zermelo-Fraenkel-
4 Mengenlehre betrachtet. Man kann einen substanziellen Teil der Mathematik
5 ohne Verwendung des Auswahlaxions betreiben. Es gibt Mathematiker, die
6 diejenigen Teile der Mathematik, bei denen das Auswahlaxiom benötigt wird,
7 markieren und gewissermaßen mit einem mentalen Warnschild versehen. Es
8 gibt sogar solche, die das Auswahlaxiom ablehnen.
9 Axiom 1.14 (Auswahlaxiom). Es sei M eine Menge, deren Elemente nicht
10 leere, paarweise disjunkte Mengen sind (letzteres bedeutet, dass für A, B ∈ M
11 mit A 6= B gilt: A ∩ B = ∅). Dann gibt es eine Menge X, die jedes A ∈ M
12 in genau einem Element schneidet, d.h.

13 ∀ A ∈ M ∃ a: A ∩ X = {a}.

14 Die Bezeichnung Auswahlaxiom“ rührt daher, dass die Menge X gewisser-



15 maßen aus jeder Menge A in M ein Element auswählt“. Man hüte sich aller-

16 dings davor, bei jedem Auftreten des Wortes (aus-)wählen“ in einem mathe-

17 matischen Beweis eine versteckte Anwendung des Auswahlaxioms zu vermu-
18 ten. Ein Beispiel für die Anwendung des Auswahlaxioms werden wir im Be-
19 weis von Satz 2.6(b) sehen. Das Auswahlaxiom ist von den übrigen Axiomen
20 der Zermelo-Fraenkel-Mengenlehre in folgendem Sinne unabhängig: Unter der
21 Annahme, dass die übrigen Axiomen der Zermelo-Fraenkel-Mengenlehre wi-
22 derspruchsfrei sind, ist sowohl die Zermelo-Fraenkel-Mengenlehre mit dem
23 Auswahlaxiom also auch die Zermelo-Fraenkel-Mengenlehre mit der Negati-
24 on des Auswahlaxioms widerspruchsfrei. Es ist also prinzipiell unmöglich, das
25 Auswahlaxiom aus den übrigen Axiomen zu beweisen oder zu widerlegen.
26 Für das Auswahlaxiom selbst gibt es zahlreiche alternative Formulierun-
27 gen, deren Äquivalenz (unter Voraussetzung der übrigen Axiome der Zermelo-
28 Fraenkel-Mengenlehre) jeweils leicht einzusehen sind. (Siehe z.B. Anmer-
29 kung 2.7.) Außerdem ist das Auswahlaxiom (unter Voraussetzung der übrigen
30 Axiome der Zermelo-Fraenkel-Mengenlehre) äquivalent zum Zornschen Lem-
31 ma (siehe Satz 3.12) und zum Wohlordnungssatz (siehe Satz 3.13).
32 Die zwei verbleibenden Axiome der Zermelo-Fraenkel-Mengenlehre, das
33 Fundiertheitsaxiom und das Ersetzungsaxiom, werden hier nicht behandelt,
34 weil sich der allergrößte Teil der Mathematik ohne Benutzung dieser beiden
35 Axiome entwickeln lässt. Mathematiker, die sich nicht mit einigen speziellen
36 Fragen, insbesondere in der Mengenlehre selbst, beschäftigen, werden niemals
37 mit diesen beiden Axiomen konfrontiert werden, weder explizit noch implizit.
38

39 Wir schließen diesen Abschnitt ab mit der Konstruktion von geordneten


40 Paaren und kartesischen Produkten. Ziel ist es, zu x, y ein neues Objekt (x, y)
41 zu konstruieren, so dass für alle x, y, x0 , y 0 die Gleichheit (x, y) = (x0 , y 0 )
42 impliziert, dass x = x0 und y = y 0 gelten.
43 Definition 1.15. (a) Zu x, y definieren wir die Schreibweise
14 Abbildungen und Mächtigkeit

1 (x, y) := {x}, {x, y} .

2 Wir nennen (x, y) ein geordnetes Paar.


3 (b) Für Mengen A, B ist

4 A × B := {(x, y) | x ∈ A und y ∈ B}

5 das kartesische Produkt von A und B. Dessen Existenz und Eindeu-


6 tigkeit wird durch unsere Axiome garantiert, denn
n  o
7 A × B = C ∈ P (P(A ∪ B)) ∃ x ∈ A, ∃ y ∈ B: C = {x}, {x, y} .

8 Proposition 1.16. Für alle x, y, x0 , y 0 gilt:

9 (x, y) = (x0 , y 0 ) ⇐⇒ x = x0 und y = y 0 .

10 Beweis. Es ist klar, dass die Gleichheiten x = x0 und y = y 0 auch (x, y) =


0 0 0 0
11 (x
 , y ) implizieren. Umgekehrt sei
 (x, y) = (x , y ). Mit C := (x, y) =
0 0 0 0 0 0

12 {x}, {x, y} und C := (x , y ) = {x }, {x , y } folgt
\ \
13 {x} = C= C 0 = {x0 },

14 also x = x0 . Weiter gilt


(
[  \  {y} falls x 6= y
15 C \ C =
∅ falls x = y

16 und entsprechendes für C 0 , x0 und y 0 . Wegen C = C 0 folgt hieraus auch


17 y = y0 . t
u

18 Von nun an kann man die exakte (und recht willkürliche) Definition von
19 geordneten Paaren vergessen. Es wird nur noch die Schreibweise (x, y) be-
20 nutzt und die Eigenschaft aus Proposition 1.16.
21 Man kann nun auch geordnete Tripel (x, y, z) durch (x, y, z) := ((x, y), z)
22 definieren und so weiter, entsprechend das kartesische Produkt A × B × C :=
23 (A × B) × C für A, B und C Mengen. Im nächsten Abschnitt lernen wir eine
24 alternative Konstruktion hierfür kennen (siehe Beispiel 2.3(10)).

25 2 Abbildungen und Mächtigkeit

26 Der Begriff einer Abbildung (gleichbedeutend: Funktion) ist zentral in allen


27 Teilgebieten der Mathematik. Die Mathematik hat lange um einen tragfähi-
28 gen Funktionenbegriff gerungen, beispielsweise um die Fragen, ob eine Funk-
Abbildungen und Mächtigkeit 15

1 tion durch eine Abbildungsvorschrift gegeben sein muss und inwieweit diese
2 eindeutig sein muss. Wir benutzen die moderne Definition.
3 Definition 2.1. Es seien A, B Mengen. Eine Teilmenge f ⊆ A × B heißt
4 eine Abbildung (= Funktion) von A in B, falls es für jedes x ∈ A genau
5 ein y ∈ B gibt mit (x, y) ∈ f . (Mit genau ein“ ist hierbei gemeint, dass über

6 die Existenz von y hinaus für alle y 0 ∈ B gilt: (x, y 0 ) ∈ f ⇒ y 0 = y.)
7 Für dieses y schreiben wir y = f (x) und nennen es das Bild von x (un-
8 ter f ). A heißt der Definitionsbereich, B der Bildbereich von f .
9 Um auszudrücken, dass f eine Abbildung von A in B ist, schreiben wir
10 f : A → B. Falls eine Abbildungsvorschrift bekannt ist und angegeben werden
11 soll, schreibt man f : A → B, x 7→ . . ., wobei die Pünktchen für die Abbil-
12 dungsvorschrift, die das Bild von x definiert, stehen. Diese wird in der Regel
13 aus bereits definierten Abbildungen und anderen mathematischen Objekten
14 ( Konstanten“), bisweilen mit Fallunterscheidungen, gebildet.

15 Bevor wir Beispiele betrachten, machen wir ein paar Anmerkungen und
16 eine weitere Definition.
17 Anmerkung. (a) In der Literatur findet man bisweilen die Schreibweise
18 f (x) für eine Funktion. Wir folgen dem Standard, dass f (x) immer für
19 das Bild eines Elements x des Definitionsbereichs steht, und schreiben f
20 für die Funktion selbst.
21 (b) Es gibt keine Funktionen mit mehreren Argumenten“. Allerdings gibt

22 es etwa Funktionen f : A × B → C, deren Bilder man zweckmäßigerweise
23 als f (x, y) statt f (x, y) schreibt.
24 (c) Zu jeder Abbildung müssen Definitions- und Bildbereich angegeben wer-
25 den. Laut unserer Definition wird allerdings B nicht eindeutig bestimmt
26 durch f ⊆ A × B. Um dies zu erreichen, wäre es besser, eine Abbildung
27 als ein geordnetes Tripel f = (A, B, C) zu definieren, wobei C ⊆ A × B
28 die Bedingung aus Definition 2 erfüllt. Auch wenn sie formal besser wäre,
29 würden wir mit einer solchen Definition vom gängigen Standard abwei-
30 chen.
31 (d) Aus Definition 2.1 und Proposition 1.16 folgt folgender Gleichheitsbegriff
32 für zwei Abbildungen f, g: A → B:

33 f =g ⇐⇒ ∀ x ∈ A: f (x) = g(x).

/

34  5. Vorlesung,

y 26.10.2018
35 Es folgen weitere Begriffe und Schreibweisen, die mit Abbildungen zu tun
36 haben.
37 Definition 2.2. Es seien A, B Mengen und f : A → B eine Abbildung.
38 (a) Für eine Teilmenge A0 ⊆ A schreiben wir

39 f (A0 ) := {f (x) | x ∈ A0 } = {y ∈ B | ∃ x ∈ A0 : y = f (x)} ⊆ B.


16 Abbildungen und Mächtigkeit

1 (b) Die Teilmenge


2 Bild(f ) := f (A) ⊆ B
3 heißt das Bild von f .
4 (c) Die Abbildung f heißt surjektiv, falls f (A) = B. Man spricht dann auch
5 von einer Abbildung von A auf B (statt in B).
6 (d) Für eine Teilmenge B 0 ⊆ B heißt

7 f −1 (B 0 ) := {x ∈ A | f (x) ∈ B 0 } ⊆ A

8 das Urbild von B 0 (unter f ).


9 (e) Die Abbildung f heißt injektiv, falls für alle x, x0 ∈ A gilt:

10 f (x) = f (x0 ) ⇒ x = x0 .

11 Gleichbedeutend ist die Bedingung, dass für x, x0 ∈ A mit x 6= x0 auch


12 f (x) 6= f (x0 ) gilt, oder auch, dass für alle y ∈ Bild(f ) das Urbild f −1 ({y})
13 genau ein Element hat.
14 (f ) Die Abbildung f heißt bijektiv, falls f surjektiv und injektiv ist. Gleich-
15 bedeutend ist die Bedingung, dass für alle y ∈ B das Urbild f −1 ({y})
16 genau ein Element hat. Falls f bijektiv ist, so existiert eine Umkehrab-
17 bildung
18 f −1 : B → A, y 7→ x mit f (x) = y.
19 Formaler lässt sich f −1 definieren als

20 f −1 = {(y, x) ∈ B × A | (x, y) ∈ f } .

21 Es ist klar, dass f −1 dann auch bijektiv ist. Statt Umkehrabbildung sagt
22 man bisweilen auch inverse Abbildung oder Inverse. Es besteht Ver-
23 wechselungsgefahr bei den Schreibweisen für das Urbild einer Menge und
24 für die Umkehrabbildung. Eine bessere Notation wäre hier nützlich, stünde
25 aber außerhalb jeder Tradition.
26 Beispiel 2.3. (1) Die Abbildung f : R → R, x 7→ x2 ist weder injektiv noch
27 surjektiv.
28 (2) Mit R≥0 := {x ∈ R | x ≥ 0} definiert

f := (x, y) ∈ R≥0 × R≥0 | y 2 = x



29

30 eine Abbildung f : R≥0 → R≥0 . Erst nach Einführung √der Wurzel-


31 Symbols können wir für f die Abbildungsvorschrift x 7→ x angeben,
32 die aber nichts anderes als eine Abkürzung für f (x) ist. Die Abbildung f
33 ist bijektiv mit f −1 : R≥0 → R≥0 , x 7→ x2 . Im Gegensatz zur Abbildung
34 im Beispiel (1) ist f −1 bijektiv, weil Definitions- und Bildbereich anders
35 festgelegt sind.
36 (3) Es sei A eine Menge. Die identische Abbildung ist definiert durch
Abbildungen und Mächtigkeit 17

1 idA : A → A, x 7→ x.

2 Sie ist bijektiv und ihre eigene Umkehrabbildung.


3 (4) Es sei A = ∅ und B eine beliebige Menge. Gibt es eine Abbildung A → B?
4 Das kartesische Produkt ist A × B = ∅, also ist ∅ die einzige Teilmenge
5 von A × B. Die leere Menge erfüllt die Bedingung aus Definition 2.1 an
6 eine Abbildung, weil nichts gefordert wird, also ist sie eine Abbildung. Es
7 gibt also genau eine Abbildung ∅ → B. Sie ist injektiv und das Bild ist ∅.
8 Im Kontrast hierzu gibt es nur dann eine Abbildung A → ∅, wenn A = ∅.
9 (5) Die Abbildung f : N → N, x 7→ 3x ist injektiv, aber nicht surjektiv.
10 (6) Die Abbildung f : R → R≥0 , x 7→ x2 ist surjektiv, aber nicht injektiv.
11 (7) Die Exponentialfunktion exp : R → R>0 ist bijektiv. Die Umkehrabbil-
12 dung ist (definitionsgemäß) der natürliche Logarithmus.
13 (8) Die Abbildung
(
0 falls x gerade ist
14 f : N → {0, 1}, x 7→
1 sonst

15 ist surjektiv, aber nicht injektiv. Das Urbild f −1 ({1}) ist die Menge aller
16 ungerader Zahlen.
17 (9) Die Addition und Multiplikation auf N (und auf den weiteren Zahlenbe-
18 reichen) sind durch Abbildungen a, m: N × N → N definiert. Statt a(i, j)
19 bzw. m(i, j) benutzt man die Schreibweisen i + j bzw. i · j.
20 (10) Ist A eine Menge und n ∈ N>0 := {n ∈ N | n > 0}, so können wir ein
21 n-Tupel von Elementen in A definieren als eine Abbildung

22 {1, . . . , n} → A, i 7→ ai ,

23 wobei {1, . . . , n} := {i ∈ N | 1 ≤ i ≤ n}. Ein n-Tupel schreiben wir als


24 (a1 , . . . , an ). Mit

An = (a1 , . . . , an ) | ∀ i ∈ {1, . . . , n}: ai ∈ A



25

26 bezeichnen wir die Menge aller n-Tupel. /


27 Es folgt eine weitere Definition.
28 Definition 2.4. Es seien A, B Mengen und f : A → B eine Abbildung.
29 (a) Sei A0 ⊆ A eine Teilmenge. Die Einschränkung von f auf A0 ist

30 f |A0 : A0 → B, x 7→ f (x).

31 Ebensogut könnte man schreiben f |A0 = {(x, y) ∈ f | x ∈ A0 }.


32
b eine Menge mit A ⊆ A.
(b) Es sei A b Eine Abbildung fb: A b → B heißt eine
33 Fortsetzung von f auf A, falls f |A = f gilt. Man beachte, dass eine
b b
34 Funktion im Normalfall mehrere Fortsetzungen hat, da die Bilder der
35 Elemente von A b \ A willkürlich festgelegt werden können.
18 Abbildungen und Mächtigkeit

1 (c) Es seien C eine Menge und g: B → C eine weitere Funktion. Die Kom-
2 position (= Hintereinanderausführung) von f und g ist definiert
3 als
4 g ◦ f : A → C, x 7→ g (f (x)) .
5 Ebensogut könnte man schreiben

6 g ◦ f = {(x, z) ∈ A × C | ∃ y ∈ B: (x, y) ∈ f und (y, z) ∈ g} .

7 Die Schreibweise g ◦ f sorgt manchmal für Verwirrung, weil die zweitge-


8 nannte Funktion f als erste ausgeführt wird.
9 Anmerkung 2.5. (a) Sind f : A → B, g: B → C und h: C → D Abbildun-
10 gen, so gilt das Assoziativitätsgesetz

11 h ◦ (g ◦ f ) = (h ◦ g) ◦ f.

12 (b) Es seien f, g: A → A Abbildungen. Obwohl f ◦ g und g ◦ f definiert sind,


13 ist das Kommutativitätsgesetz

14 f ◦g =g◦f

15 im Allgemeinen falsch. Als Beispiel betrachten wir

16 f : N → N, x 7→ 2x und g: N → N, x 7→ x + 1,

17 also gilt für x ∈ N:

18 (f ◦ g)(x) = 2x + 2 und (g ◦ f )(x) = 2x + 1.

19 Die Ungleichheit von f ◦ g und g ◦ f sieht man z.B. durch Einsetzen von
20 x = 0.
21 (c) Ist f : A → B bijektiv, so gelten

22 f ◦ f −1 = idB und f −1 ◦ f = idA .

23 (d) Die Einschränkung einer nicht injektiven Abbildung kann injektiv sein.
24 (e) Fortsetzungen von Abbildungen sind vor allem dann interessant, wenn
25 man von der Fortsetzung gewisse Eigenschaften (z.B. Stetigkeit) fordert.
26 Dadurch kann es je nach Situation passieren, dass gar keine solche Fort-

 6. Vorlesung, 27 setzung existiert, oder eine Fortsetzung eindeutig bestimmt ist. /

y 31.10.2018
28 Der folgende Satz stellt interessante Zusammenhänge zwischen den Begrif-
29 fen injektiv und surjektiv her. Für den Beweis benötigen wir das Auswahl-
30 axiom.
31 Satz 2.6. Es seien A, B Mengen mit A 6= ∅ und f : A → B eine Abbildung.
32 (a) Genau dann ist f injektiv, wenn es eine Abbildung g: B → A gibt mit
Abbildungen und Mächtigkeit 19

1 g ◦ f = idA .

2 (Man nennt g dann auch eine Linksinverse von f .)


3 (b) Genau dann ist f surjektiv, wenn es eine Abbildung g: B → A gibt mit

4 f ◦ g = idB .

5 (Man nennt g dann auch eine Rechtsinverse von f .)


6 Anmerkung. Wegen (b) ist das g aus (a) surjektiv, und wegen (a) ist das g
7 aus (b) injektiv. /
8 Beweis von Satz 2.6. (a) Wir setzen zunächst voraus, dass f injektiv ist. Wir
9 bilden g: B → A, indem wir jedem y ∈ Bild(f ) sein eindeutig bestimmtes
10 Urbild zuordnen und die Elemente von B \ Bild(f ) auf ein willkürlich
11 gewähltes Element von A abbilden. Formal führen wir den Beweis fol-
12 gendermaßen: Wegen A 6= ∅ existiert a ∈ A, also auch
n  o
13 g := (y, x) ∈ B × A | (x, y) ∈ f oder y ∈/ Bild(f ) und x = a .

14 Zu y ∈ Bild(f ) existiert wegen der Injektivität von f ein eindeutiges x


15 mit (y, x) ∈ g, und zu y ∈ B \ Bild(f ) ist x = a das eindeutige x mit
16 (y, x) ∈ g. Also ist g eine Abbildung. Für x ∈ A gilt (x, f (x)) ∈ f , also
17 (f (x), x) ∈ g und damit (x, x) ∈ g ◦ f . Damit ist g ◦ f = idA gezeigt.
18 Umgekehrt nehmen wir an, dass es g: B → A mit g ◦ f = idA gibt. Für
19 x, x0 ∈ A mit f (x) = f (x0 ) folgt dann

20 x = idA (x) = g (f (x)) = g (f (x0 )) = idA (x0 ) = x0 ,

21 also ist f injektiv.


22 (b) Wir nehmen zunächst an, dass f surjektiv ist. Die Idee ist, mit Hilfe
23 des Auswahlaxioms zu jedem y ∈ B ein Element des Urbilds f −1 ({y})
24 auszuwählen und dieses als g(y) zu definieren. Formal gehen wir folgen-
25 dermaßen vor: Wir bilden

M := f −1 ({y}) | y ∈ B = A0 ∈ P(A) | ∃ y ∈ B: A0 = f −1 ({y})


 
26

27 wobei der zweite Ausdruck nur dazu dient zu zeigen, dass die Existenz von
28 M durch die Axiome 1.8 und 1.4 garantiert wird. Wegen der Surjektivität
29 von f ist jede Menge in M nicht leer. Um zu zeigen, dass die Mengen aus
30 M paarweise disjunkt sind, betrachten wir zwei Elemente f −1 ({y}) und
31 f −1 ({y 0 }) aus M . Falls deren Schnittmenge ein Element x enthält, so
32 folgt y = f (x) = y 0 , also f −1 ({y}) = f −1 ({y 0 }). Damit ist die paarweise
33 Disjunktheit von M bewiesen, Axiom 1.14 liefert also eine Menge X mit
34

35 ∀ y ∈ B ∃ a ∈ X: f −1 ({y}) ∩ X = {a}. (2.1)


36 Nun definieren wir
20 Abbildungen und Mächtigkeit

1 g := {(y, x) ∈ B × A | (x, y) ∈ f und x ∈ X} .

2 Für y ∈ B und x ∈ A liegt (y, x) genau dann in g, wenn x ∈ f −1 ({y})∩X,


3 also ist g wegen (2.1) eine Abbildung. Für y ∈ B sei x := g(y), also
4 (y, x) ∈ g. Es folgt (x, y) ∈ f , also (y, y) ∈ f ◦ g. Damit ist f ◦ g = idB
5 gezeigt.
6 Umgekehrt setzen wir voraus, dass g: B → A mit f ◦ g = idB existiert.
7 Für y ∈ B gilt dann

8 y = idB (y) = f (g(y)) ∈ Bild(f ),

9 also ist f surjektiv. t


u
10 Anmerkung 2.7. Satz 2.6(b) besagt, dass jede surjektive Abbildung eine
11 Rechtsinverse hat. Es ist nicht schwer zu zeigen, dass diese Aussage sogar
12 äquivalent zum Auswahlaxiom 1.14 ist. /
13 Mit Hilfe der folgenden Definition lassen sich Mengen hinsichtlich ihrer
14 Größe“ vergleichen.

15 Definition 2.8. Es seien A, B Mengen.
16 (a) A und B heißen gleichmächtig, falls es eine Bijektion (= bijektive Ab-
17 bildung) f : A → B gibt. Wir drücken dies durch die Schreibweise A ∼ B
18 aus.
19 (b) A heißt höchstens so mächtig wie B, falls es eine Injektion (= in-
20 jektive Abbildung) f : A → B gibt, falls A also gleichmächtig mit einer
21 Teilmenge von B ist. Wir drücken dies durch die Schreibweise A . B
22 aus. Wegen Satz 2.6 ist A . B gleichbedeutend mit der Bedingung, dass
23 es eine Surjektion B → A gibt oder A leer ist.
24 (c) B heißt mächtiger als A, falls A . B und A und B nicht gleichmächtig
25 sind. Wir schreiben dann A ≺ B.
26 Bevor wir Beispiele betrachten, bringen wir einen grundlegenden Satz über
27 die Mächtigkeit von Mengen, auf dessen Beweis wir hier verzichten müssen.
28 Satz 2.9. Es seien A, B Mengen.
29 (a) Es gilt A . B oder B . A.

 7. Vorlesung, 30 (b) Falls A . B und B . A gelten, so folgt A ∼ B.

y 02.11.2018
31 Anmerkung 2.10. (a) Man kann Satz 2.9 auch folgendermaßen ausdrücken:
32 Genau einer der drei folgenden Fälle tritt ein ( Trichotomie“): A ≺ B,

33 A ∼ B oder B ≺ A.
34 (b) Die Aussage (a) des Satzes wird auch als Vergleichbarkeitssatz“ bezeich-

35 net. Wir werden den Beweis mit Hilfe des Zornschen Lemmas (Satz 3.12)
36 am Ende des nächsten Abschnitts führen. Die Aussage (b) ist bekannt als
37 der Satz von Schröder und Bernstein. Einen Beweis kann man finden in:
38 Paul Halmos, Naive Mengenlehre, Vandenhoeck & Ruprecht, Göttingen
39 1994. Wir lassen den Beweis aus Zeitgründen weg.
Abbildungen und Mächtigkeit 21

1 (c) Die Umkehrung von Satz 2.9(b) folgt direkt aus Definition 2.8: Falls A ∼
2 B, dann A . B und B . A.
3 (d) Aus Satz 2.9 folgt, dass B genau dann mächtiger als A ist, wenn es keine
4 Injektion B → A gibt, oder (gemäß Satz 2.6) gleichbedeutend, wenn es
5 keine Surjektion A → B gibt und B nicht leer ist.
6 (e) Da die Komposition zweier Injektionen wieder eine Injektion ist, folgt
7 für Mengen A, B, C aus A . B und B . C die Beziehung A . C
8 ( Transitivität“). Außerdem gilt A . A ( Reflexivität“). Ebenso ist die
” ”
9 Gleichmächtigkeitsbeziehung transitiv und reflexiv, und außerdem sym-
10 metrisch (d.h. aus A ∼ B folgt B ∼ A). /
11 Beispiel 2.11. (1) Die Potenzmenge P({1, 2}) und {1, 2, 3, 4} sind gleichmächtig.
12 Eine Bijektion f zwischen den beiden ist gegeben durch f (1) = ∅,
13 f (2) = {1}, f (3) = {2}, f (4) = {1, 2}.
14 (2) {1, 4, 5} ist mächtiger als {3, 4}. N ist mächtiger als P({1, . . . , 10}).
15 (3) Die Abzählung“ 0, 1, −1, 2,−2, 3,  −3, . . . liefert eine Bijektion f : N → Z,

16 als Formel f (a) = (−1)a+1 · a+1 2 , wobei für x ∈ R die größte ganze Zahl
17 ≤ x mit bxc bezeichnet wird. Es folgt N ∼ Z.
18 (4) Überraschender ist, dass auch N und das kartesische Produkt N × N
19 gleichmächtig sind. Das Schema
0 1 2 3 4 5 ···
0 0 1 3 6 10 15 · · ·
1 2 4 7 11 16 · · ·
2 5 8 12 17 ···
20
3 9 13 18 ···
4 14 19 ···
5 20 · · ·
..
.
21 liefert eine Abzählung“ von N × N, die man formal durch die Abbildung

(a + b)(a + b + 1)
22 f : N × N → N, (a, b) 7→ +a
2
23 beschreiben kann. Es ist etwas mühsam, die Bijektivität von f , die intui-
24 tiv aus obigem Schema hervorgeht, nachzuweisen. Wie behauptet ergibt
25 sich N × N ∼ N.
a
26 (5) Die Surjektion f : Z × N → Q, (a, b) 7→ b+1 liefert Q . Z × N. Ande-
27 rerseits ist N als Teilmenge von Q höchstens so mächtig wie Q. Mit den
28 Beispielen (3) und (4) folgt N . Q . Z × N ∼ N × N ∼ N, also

29 Q∼N

30 wegen Satz 2.9(b).


31 (6) Die Abbildung X
32 f : P(N) → R, A 7→ 10−k
k∈A
22 Abbildungen und Mächtigkeit

1 ist injektiv, denn eine Menge A wird auf eine reelle Zahl abgebildet, in
2 deren Dezimalbruchentwicklung nur Nuller und Einser vorkommen. Dies
3 liefert P(N) . R. Nun definieren wir eine Abbildung

4 g: R → P(Q), x 7→ {a ∈ Q | a < x}.

5 Diese ist injektiv, denn für verschiedene reelle Zahlen x, y mit x < y gibt
6 es bekanntlich eine rationale Zahl a ∈ Q mit x ≤ a < y, also a ∈ g(y) aber
7 a∈/ g(x), wodurch g(x) 6= g(y) gezeigt ist. Wegen dem obigen Beispiel (5)
8 ergibt sich insgesamt

9 P(N) . R . P(Q) ∼ P(N),

10 gemäß Satz 2.9(b) also


11 R ∼ P(N). (2.2)
12 Aus Satz 2.12, den wir gleich beweisen, folgt, dass R mächtiger ist als N.
13 (7) Wir haben eine Bijektion

14 f : P(N) × P(N) → P(N), (A, B) 7→ {2x | x ∈ A} ∪ {2x + 1 | x ∈ B}.

15 Es folgt P(N) × P(N) ∼ P(N), wegen (2.2) also auch

16 R × R ∼ R.

17 Die reelle Ebene“ und die Zahlengerade“ sind also gleichmächtig! /


” ”
18 Der folgende auf Georg Cantor zurückgehende Satz zeigt, dass es unendlich
19 viele Stufen“ der Unendlichkeit gibt.

20 Satz 2.12. Sei A eine Menge. Dann ist die Potenzmenge P(A) mächtiger
21 als A.

22 Beweis. Wegen Anmerkung 2.10(d) ist zu zeigen, dass es keine Surjektion


23 A → P(A) gibt. Es sei f : A → P(A) irgendeine Abbildung. Um zu zeigen,
24 dass f nicht surjektiv ist, brauchen wir eine Teilmenge B ⊆ A mit B ∈ /
25 Bild(f ). Wir setzen

26 B := {x ∈ A | x ∈
/ f (x)} ⊆ A.

27 Es sei x ∈ A beliebig. Für den Nachweis von B 6= f (x) betrachten wir die
28 Fälle x ∈ B und x ∈/ B. Falls x ∈ B, dann folgt x ∈
/ f (x) aus der Definition
29 von B, also B 6= f (x). Falls andererseits x ∈
/ B gilt, so folgt x ∈ f (x), also
30 auch in diesem Fall B 6= f (x).
31 Wie behauptet liegt B nicht im Bild von f , also ist f nicht surjektiv. t u
32 Mit (2.2) folgt, dass R mächtiger als N ist. Die berühmte Kontinuumshy-
33 pothese besagt, dass es keine Menge A gibt, so dass A mächtiger als N und R
34 mächtiger als A ist, dass also nichts zwischen N und R“ liegt. In den 1960er

Relationen 23

1 Jahren wurde nach langem Ringen bewiesen, dass die Kontinuumshypothese


2 aus den Axiomen der Zermelo-Fraenkel-Mengenlehre weder beweisbar noch
3 widerlegbar ist, in dem selben Sinne, wie dies für das Auswahlaxiom aus den 
 8. Vorlesung,
4 übrigen Axiomen gilt. 
y 06.11.2018
5 Wir beenden den Abschnitt mit einer Definition.
6 Definition 2.13. Es sei A eine Menge.
7 (a) A heißt endlich, falls es eine natürliche Zahl n ∈ N gibt, so dass A und
8 {1, . . . , n} gleichmächtig sind. (Insbesondere ist ∅ endlich mit n = 0.)
9 Wir schreiben dann
10 | A |= n
11 und nennen dies die Elementzahl von A. Endlichkeit bzw. Unendlichkeit
12 von A drücken wir symbolisch durch | A |< ∞ bzw. | A |= ∞ aus.
13 (b) A heißt abzählbar unendlich, falls A und N gleichmächtig sind, und
14 überabzählbar, falls A mächtiger als N ist.
15 Anmerkung 2.14. (a) Es ist beweisbedürftig, dass die Elementanzahl ei-
16 ner endlichen Menge A eindeutig bestimmt ist, d.h. dass zwei An-

17 fangsstücke“ {1, . . . , n} und {1, . . . , m} mit n, m ∈ N nur dann gleichmächtig
18 sind, wenn n = m gilt. Man kann den Beweis per Induktion führen, wor-
19 auf wir hier verzichten.
20 (b) Man kann zeigen, dass jede der folgenden zwei Bedingungen äquivalent
21 zur Endlichkeit einer Menge A sind:
22 • Jede Injektion f : A → A ist surjektiv.
23 • Jede Surjektion f : A → A ist injektiv.
24 (c) In Beispiel 2.11 haben wir schon zwei Beispiele von unendlichen Mengen
25 A gesehen, für die A × A ∼ A gilt. Man kann zeigen, dass dies für jede
26 unendliche Menge gilt.
27 Beweise zu den Aussagen (a) und (c) finden sich im oben angegebenen
28 Buch von Halmos. /

29 3 Relationen

30 Ebenso wie beim Mengenbegriff unternehmen wir auch beim Begriff einer
31 Relation keinen Versuch einer inhaltlichen Definition.
32 Definition 3.1. Sei A eine Menge. Eine Relation auf A ist eine Teilmenge
33 R ⊆ A × A. Falls R eine Relation ist und x, y ∈ A, schreiben wir häufig xRy
34 statt (x, y) ∈ R und sagen, dass x in der Relation R zu y steht.
35 Anmerkung. Bisweilen werden Relationen auch allgemeiner als Teilmengen
36 eines kartesischen Produkts A × · · · × A von k Exemplaren von A definiert
37 (k-stellige Relation). Eine Relation wie in Definition 3.1 nennt man auch eine
38 binäre Relation.
24 Relationen

1 Noch allgemeiner kann man Relationen als Teilmengen eines kartesischen


2 Produkts A1 × A2 × · · · × Ak mit Ai Mengen definieren. /
3 Beispiel 3.2. (1) Durch R := {(x, y) ∈ A × A | x = y} wird die Gleichheits-
4 relation auf einer Menge A definiert.
5 R0 := {(x, y) ∈ A × A | x 6= y} ist die Ungleichheitsrelation“.

6 (2) Beispiele für Relationen auf N sind:
7 • die Relationen ≤“, ≥“, <“, gegeben durch
” ” ”
8 R = {(x, x + a) | x, a ∈ N}

9 und so weiter;
10 • die Teilbarkeitsrelation, gegeben durch

11 x|y :⇐⇒ ∃ a ∈ N: y = ax

12 (gelesen als: x teilt y“);



13 • die Parität“, gegeben durch

14 x≡y :⇐⇒ 2 | (x − y);

15 • die Nachfolgerrelation“, gegeben durch



16 R = {(x, x + 1) | x ∈ N}.

17 (3) Sind A, B Mengen und f : A → B eine Abbildung, so ist

18 R = {(x, y) ∈ A × A | f (x) = f (y)}

19 eine Relation.
20 (4) Für eine Menge A sind A × A bzw. ∅ immer Relationen (alles steht in
21 Relation bzw. nichts steht in Relation). /
22 Ist R eine Relation auf einer Menge A, so lässt sich R auf eine Teilmenge
23 B ⊆ A einschränken, indem man (B × B) ∩ R bildet.
24 Ebenso wie Abbildungen können auch Relationen Eigenschaften haben.
25 Definition 3.3. Es sei R ⊆ A × A eine Relation.
26 (a) R heißt reflexiv, falls für alle x ∈ A gilt:

27 (x, x) ∈ R, d.h. xRx.

28 (b) R heißt symmetrisch, falls für alle x, y ∈ A gilt:

29 xRy ⇒ yRx.

30 (c) R heißt antisymmetrisch, falls für alle x, y ∈ A gilt:

31 xRy und yRx ⇒ x = y.


Relationen 25

1 (d) R heißt transitiv, falls für alle x, y, z ∈ A gilt:

2 xRy und yRz ⇒ xRz.

3 (e) R heißt eine Äquivalenzrelation, falls R reflexiv, symmetrisch und


4 transitiv ist.
5 (f ) R heißt eine Ordnungsrelation, falls R reflexiv, antisymmetrisch und
6 transitiv ist.
7 Beispiel 3.4. Wir prüfen die Eigenschaften der in Beispiel 3.2(2) betrachteter
8 Relationen auf N.
reflexiv symm. antisymm. transitiv Äquiv.-/Ordnungsrel.
= ja ja ja ja beides
6= nein ja nein nein weder noch
≤ ja nein ja ja Ordnungsrelation
≥ ja nein ja ja Ordnungsrelation
9 < nein nein ja ja weder noch
Teilbarkeit ja nein ja ja Ordnungsrelation
Parität ja ja nein ja Äquivalenzrelation
Nachfolger nein nein ja nein weder noch
N×N ja ja nein ja Äquivalenzrelation
∅ nein ja ja ja weder noch

10 /  9. Vorlesung,

y 07.11.2018
11 Wir beschäftigen uns nun zunächst mit Äquivalenzrelationen. Ist R eine
12 Äquivalenzrelation auf einer Menge A, so schreiben wir der besseren Lesbar-
13 keit halber x ∼ y statt xRy und sprechen auch von der Äquivalenzrelation
14 ∼“.

15 Definition 3.5. Wir setzen obige Situation voraus.
16 (a) Für x ∈ A heißt
17 [x]∼ := {y ∈ A | x ∼ y}
18 die Äquivalenzklasse von x. Also ist [x]∼ ⊆ A eine Teilmenge und
19 x ∈ [x]∼ .
20 (b) Die Menge

21 A/∼ := {[x]∼ | x ∈ A} = {C ⊆ A | ∃ x ∈ A: C = [x]∼ } ⊆ P(A)

22 aller Äquivalenzklassen heißt die Faktormenge (= Quotientenmen-


23 ge) von A nach ∼.
24 (c) Für C ∈ A/∼ heißt jedes x ∈ C ein Vertreter (= Repräsentant) der
25 Klasse C.
26 (d) Die Abbildung
27 π: A → A/∼, x 7→ [x]∼
28 heißt die kanonische Projektion.
26 Relationen

1 Beispiel 3.6. (1) Die Gleichheit ist eine Äquivalenzrelation. Die Äquivalenz-
2 klassen sind alle einelementig, also [x]= = {x} und

3 A/= = {{x} | x ∈ A} ,

4 was nicht dasselbe wie A ist.


5 (2) Die Paritätsrelation lässt sich auch auf Z definieren durch

6 x≡y :⇐⇒ 2 | (x − y).

7 Es gibt zwei Klassen: [0]≡ , die Klasse aller geraden Zahlen, und [1]≡ , die
8 Klasse aller ungeraden Zahlen. Z/ ≡ hat zwei Elemente.
9 (3) Allgemeiner sei m ∈ N>0 fest gewählt. Für x, y ∈ Z schreiben wir

10 x≡y mod m :⇐⇒ m | (x − y)

11 und sagen dann, dass x kongruent zu y modulo m ist. Es ist leicht zu


12 sehen, dass die Kongruenz modulo m eine Äquivalenzrelation ist. Die
13 Äquivalenzklasse von x ∈ Z lässt sich schreiben als

14 [x]∼ = {x + km | k ∈ Z}

15 und wird auch als die Restklasse von x modulo m bezeichnet. Die Fak-
16 tormenge wird geschrieben als Z/(m). Sie hat genau die m Elemente

17 Z/(m) = {[0]∼ , [1]∼ , . . . , [m − 1]∼ } ,

18 wobei man statt [0]∼ ebenso gut [m]∼ schreiben könnte und so weiter.
(4) Es sei A = {0, 1} × {0, 1} × {0, 1} das dreifache kartesische Produkt der
Menge {0, 1}. Zwei Tripel (a, b, c) und (a0 , b0 , c0 ) aus A seien äquivalent,
wenn sie bis auf die Reihenfolge übereinstimmen. Es gibt vier Äquiva-
lenzklassen:

[(0, 0, 0)]∼ = {(0, 0, 0)},


[(1, 1, 1)]∼ = {(1, 1, 1)},
[(0, 0, 1)]∼ = {(0, 0, 1), (0, 1, 0), (1, 0, 0)} und
[(1, 1, 0)]∼ = {(1, 1, 0), (1, 0, 1), (0, 1, 1)}.

19 (5) Die Relation aus Beispiel 3.2(3) ist eine Äquivalenzrelation. Die Äqui-
20 valenzklassen sind die Urbilder f −1 ({y}) der einelementigen Teilmengen
21 der Bildmenge f (A).
22 (6) Für jede Menge A ist A × A eine Äquivalenzrelation. Für alle x, y ∈ A
23 gilt x ∼ y. Falls A nicht leer ist, folgt

24 A/∼ = {A}.
Relationen 27

1 (7) Die Gleichmächtigkeitsbeziehung ist reflexiv, symmetrisch und transitiv


2 (siehe Anmerkung 2.10(e)). Sie ist aber keine Relation, da es die Menge
3 aller Mengen nicht gibt. /
4 Es sei [x]∼ eine Äquivalenzklasse bezüglich einer Äquivalenzrelation auf
5 einer Menge A. Weiter sei y ∈ [x]∼ , also x ∼ y. Für alle z ∈ [y]∼ gilt dann
6 wegen der Transitivität von ∼“ auch x ∼ z, also z ∈ [x]∼ . Wir erhalten

7 [y]∼ ⊆ [x]∼ . Wegen der Symmetrie von ∼“ folgt aus y ∈ [x]∼ auch x ∈ [y]∼ ,

8 das gleiche Argument mit vertauschten Rollen liefert also [x]∼ ⊆ [y]∼ , und
9 wir schließen [x]∼ = [y]∼ . Wir haben gezeigt, dass jedes Element y ∈ C einer
10 Äquivalenzklasse C die Klasse vertritt“ in dem Sinne, dass C = [y]∼ gilt.

11 Daher nennt man die Elemente von Äquivalenzklassen auch Vertreter. Alle
12 Vertreter sind gleichberechtigt, und jede Auswahl eines bestimmten Vertre-
13 ters ist ein Akt der Willkür.
14 Außerdem folgt, dass zwei Äquivalenzklassen, die auch nur ein Element
15 gemeinsam haben, identisch sind. Außerdem sind Äquivalenzklassen wegen
16 der Reflexivität nie leer, und ihre Vereinigung ergibt ganz A. Wir haben
17 bewiesen:
18 Satz 3.7. Es seien ∼“ eine Äquivalenzrelation auf einer Menge A und

19 M := A/ ∼ die Faktormenge. Dann sind S die Elemente von M nicht leer
20 und paarweise disjunkt. Außerdem gilt M = A.
21 Der Satz liefert eine Steilvorlage für die Anwendung des Auswahlaxioms
22 (Axiom 1.14). Indem man es auf A/∼ anwendet und die erhaltene Menge X
23 mit A schneidet, erhält man eine Menge Y = A ∩ X, die zu jeder Äquivalenz-
24 klasse genau einen Vertreter enthält und die aus diesen Vertretern besteht.
25 Eine solche Menge nennt man ein Vertretersystem. Es ist nicht schwer
26 zu sehen, dass das Auswahlaxiom (unter Annahme der übrigen Axiome der
27 Zermelo-Fraenkel-Mengenlehre) äquivalent ist zu der Aussage, dass es zu je-
28 der Äquivalenzrelation ein Vertretersystem gibt. 
 10. Vorlesung,
29 
y 09.11.2018
30 Für den Rest des Abschnitts beschäftigen wir uns mit Ordnungsrelatio-
31 nen. Ist R eine Ordnungsrelation, so schreiben wir standardmäßig x ≤ y
32 statt xRy und sprechen von der Ordnungsrelation ≤“. Eine Menge mit ei-

33 ner Ordnungsrelation heißt auch eine geordnete Menge.
34 Beispiel 3.8. (1) Die bekannten Zahlenbereiche N, Z, Q und R sind in
35 herkömmlicher Weise geordnet. Beispielsweise gilt für x, y ∈ Z genau
36 dann x ≤ y, wenn y − x ∈ N. Auf C gibt es keine natürliche Ordnungsre-
37 lation.
38 (2) Die Teilbarkeitsbeziehung auf N (siehe Beispiel 3.2(2)) ist eine Ordnungs-
39 relation. Für x = 3 und y = 5 gilt weder x | y noch y | x. Jede natürliche
40 Zahl teilt 0 und ist durch 1 teilbar.
41 (3) Man kann die Teilbarkeitsbeziehung auch auf Z definieren. Dies ergibt
42 allerdings keine Ordnungsrelation, da die Antisymmetrie fehlt. Beispiels-
43 weise gelten −1 | 1 und 1 | −1. Die Teilbarkeitsbeziehung auf N ist die
44 Einschränkung der Teilbarkeitsbeziehung auf Z.
28 Relationen

1 (4) Auf A = {1, 2, 3, 4} ist eine Ordnungsrelation definiert durch

2 R = {(3, 3), (3, 2), (3, 1), (1, 1), (1, 2), (2, 2), (4, 4)}.

3 Es gilt also 3 ≤ 1 ≤ 2.
4 (5) Ist A eine Menge, so ist die Potenzmenge P(A) durch die Teilmengenbe-
5 ziehung geordnet, für B, C ⊆ A ist also

6 B≤C :⇐⇒ B ⊆ C.

7 (6) Ist ≤“ eine Ordnungsrelation auf einer Menge A, so erhalten wir eine

8 neue Ordnungsrelation “ auf A, indem wir für x, y ∈ A definieren:

9 xy ⇐⇒ y ≤ x.

10 (7) Auf jeder Menge A ist {(x, x) | x ∈ A} eine Ordnungsrelation. /


11 Ist ≤“ eine Ordnungsrelation auf einer Menge A, so benutzt man häufig

12 folgende Schreib- und Sprechweisen für x, y ∈ A:
13 • x≥y :⇐⇒ y ≤ x,
14 • x<y :⇐⇒ x ≤ y und x 6= y,
15 • x>y :⇐⇒ y < x,
16 • x und y heißen vergleichbar, falls x ≤ y oder y ≤ x.
17 An den obigen Beispielen haben wir gesehen, dass in einer geordneten
18 Menge A nicht unbedingt alle x, y ∈ A vergleichbar sind. Dies (und Anderes)
19 wird in folgender Definition thematisiert.
20 Definition 3.9. Es sei ≤“ eine Ordnungsrelation auf einer Menge A.

21 (a) Die Ordnungsrelation ≤“ heißt eine totale Ordnung, falls alle x, y ∈ A

22 vergleichbar sind. In diesem Fall heißt A eine total geordnete Menge.
23 Falls ≤“ nicht total ist, spricht man auch von einer partiellen Ordnung

24 und nennt A eine partiell geordnete Menge.
25 (b) Eine Teilmenge B ⊆ A heißt eine Kette (oder auch total geordnete
26 Teilmenge), falls die auf B eingeschränkte Ordnungsrelation total ist.
27 (c) Ein Element a ∈ A heißt maximal bzw. minimal, falls es kein x ∈ A
28 gibt mit x > a bzw. x < a.
29 (d) Ein Element a ∈ A heißt größtes bzw. kleinstes Element, falls für alle
30 x ∈ A gilt: x ≤ a bzw. a ≤ x.
31 (e) A heißt wohlgeordnet (und die Ordnungsrelation ≤“ entsprechend ei-

32 ne Wohlordnung), falls jede nicht leere Teilmenge B ⊆ A ein kleinstes
33 Element besitzt.
34 (f ) Eine Teilmenge B ⊆ A heißt nach oben bzw. nach unten beschränkt,
35 falls es ein a ∈ A gibt, so dass x ≤ a bzw. a ≤ x für alle x ∈ B gilt. Ein
36 solches a heißt dann eine obere bzw. untere Schranke von B.
37 Die durchaus subtilen Unterscheidungen dieser Definition illustrieren wir
38 nun an Beispielen.
Relationen 29

1 Beispiel 3.10. (1) Die herkömmlichen Ordnungsrelationen auf N, Z, Q und


2 R sind total. Damit ist auch jede Teilmenge eine Kette. Der Ausdruck
3 Kette“ kann irreführend sein, weil er suggeriert, dass man die Elemente

4 einer Kette als a1 , a2 , a3 , . . . schreiben kann mit a1 < a2 < a3 < · · · . Das
5 Beispiel der Kette R zeigt, dass dies nicht so ist, allein schon deshalb,
6 weil R überabzählbar ist.
7 N hat das kleinste Element 0, sonst gibt es in den bekannten Zahlenberei-
8 chen keine kleinsten oder größten Elemente und ebensowenig maximale
9 oder minimale Elemente.
10 Das offene Intervall {x ∈ R | x < 1} hat keine größten, kleinsten, maxima-
11 len oder minimalen Elemente, es ist aber nach oben beschränkt durch die
12 obere Schranke 1. Jede Zahl ≥ 1 ist eine obere Schranke, obere Schranken
13 sind also im Allgemeinen nicht eindeutig bestimmt.
14 (2) N ist durch die Teilbarkeitsbeziehung partiell geordnet. Die Menge aller
15 Zweierpotenzen ist eine Kette. Das kleinste Element ist 1, das größte 0.
16 Wenn man die Teilbarkeitsbeziehung auf N \ {1} einschränkt, sind die
17 minimalen Elemente genau die Primzahlen. Minimale Elemente sind also
18 im Allgemeinen nicht eindeutig bestimmt.
19 (3) Die Ordnungsrelation aus Beispiel 3.8(4) ist partiell. Die Elemente 3 und 4
20 sind minimal, 2 und 4 sind maximal.
21 (4) Das Standardbeispiel für eine wohlgeordnete Menge ist N mit der her-
22 kömmlichen Ordnungsrelation. Intuitiv düfte klar sein, dass N wohlge-
23 ordnet ist. Den Nachweis führen wir am Ende des Abschnitts (Satz 3.14).
24 Wir merken an, dass jede wohlgeordnete Menge totalgeordnet ist, aber
25 nicht umgekehrt, wie die Beispiele Z, Q und R zeigen.
26 (5) Es seien A eine Menge und P(A) die Potenzmenge mit der Teilmengenbe-
27 ziehung als Ordnungsrelation (siehe Beispiel 3.8(5)). Die Ordnung ist nur
28 dann total, wenn A höchstens ein Element enthält. Das kleinste Element
29 von P(A) ist ∅, das größte S ist A. Jede Teilmenge M ⊆ P(A) ist nach
30 oben beschränkt durchT M (dies ist sogar die kleinste obere Schranke)
31 und nach unten durch M (größte unterer Schranke) falls M 6= ∅, sonst
32 durch jede beliebige Teilmenge.
33 (6) In jeder geordneten Menge A sind alle einelementigen Teilmengen und ∅
34 Ketten. /
35 Nur in partiell geordneten Mengen gibt es einen Unterschied zwischen
36 größten und maximalen Elementen (bzw. zwischen kleinsten und minimalen).
37 Die folgende Proposition handelt vom Verhältnis dieser beiden Begriffe.
38 Proposition 3.11. Falls es in einer geordneten Menge A ein größtes Ele-
39 ment a gibt, so ist dies eindeutig bestimmt, und für alle b ∈ A gilt:

40 b ist maximal ⇐⇒ b = a.

41 Entsprechendes gilt für kleinste und minimale Elemente. 


 11. Vorlesung,

y 14.11.2018
30 Relationen

1 Beweis. Da jedes größte Element maximal ist, geht die Eindeutigkeit des
2 größten Elements aus der zweiten Behauptung hervor, und es ist nur die Im-
3 plikation ⇒“ zu zeigen. Ist b maximal, so ist a > b unmöglich. Andererseits

4 gilt nach Voraussetzung a ≥ b, also folgt a = b.
5 Der Beweis für die entsprechenden Aussagen über kleinste und minimale
6 Elemente läuft analog. t
u
7 Wir haben nun alle Begriffe, um das Zornsche Lemma formulieren zu
8 können.
9 Satz 3.12 (Zornsches Lemma). Falls in einer geordneten Menge M jede
10 Kette nach oben beschränkt ist, so gibt es in M mindestens ein maximales
11 Element.
12 Anmerkung. Bisweilen wird zusätzlich gefordert, dass M nicht leer ist. Die-
13 se Forderung ist jedoch in den Voraussetzungen von Satz 3.12 enthalten, denn
14 es wird insbesondere für die leere Kette die Existenz einer oberen Schranke
15 vorausgesetzt. /
16 Wie bereits erwähnt ist das Zornsche Lemma äquivalent zum Auswahlaxi-
17 om. Der schwierigere Teil des Beweises ist die Herleitung des Zornschen Lem-
18 mas aus dem Auswahlaxiom. Wir könnten dies mit den uns zur Verfügung
19 stehenden Mitteln durchführen, es ist jedoch sehr aufwändig und kompliziert.
20 Der Nachweis findet sich in dem bereits erwähnten Buch von Halmos.
21 Als Anwendung des Zornschen Lemmas führen wir nun den Beweis des
22 Vergleichbarkeitssatzes für Mengen.

Beweis von Satz 2.9(a). Für zwei Mengen A, B ist zu zeigen, dass es eine
injektive Abbildung A → B oder eine injektive Abbildung B → A gibt. Wir
nennen eine Teilmenge C ⊆ A × B des kartesischen Produkts eine partielle
Korrespondenz, falls für alle x, x0 ∈ A und y, y 0 ∈ B gelten:

(x, y) ∈ C und (x, y 0 ) ∈ C ⇒ y = y0 , (3.1)


0
(x, y) ∈ C und (x , y) ∈ C ⇒ x = x0 . (3.2)

23 Nun setzen wir

24 M := {C ⊆ A × B | C ist eine partielle Korrespondenz}

25 und versehen M mit der durch die Teilmengenbeziehung gegebene Ordnungs-


26 relation. Für den Nachweis der Voraussetzung des Zornschen Lemmas be-
27 trachtenS wir eine beliebige Kette K ⊆ M und bilden die Vereinigungsmenge
28 Z := K. Falls wir nachweisen können, dass Z eine partielle Korrespondenz
29 ist, liefert Z eine obere Schranke von K. Es seien also x ∈ A und y, y 0 ∈ B
30 mit (x, y) ∈ Z und (x, y 0 ) ∈ Z. Dann gibt es C, C 0 ∈ K mit (x, y) ∈ C und
31 (x, y 0 ) ∈ C 0 . Da K total geordnet ist, gilt C ⊆ C 0 oder C 0 ⊆ C. Im ersten
32 Fall folgt (x, y) ∈ C 0 , also y = y 0 , da C 0 eine partielle Korrespondenz ist.
33 Im zweiten Fall folgt ebenso y = y 0 . Also wird (3.1) durch Z erfüllt. Der
Relationen 31

1 Nachweis von (3.2) läuft entsprechend. Damit ist Z wie behauptet eine obere
2 Schranke von K.
3 Das Zornsche Lemma (Satz 3.12) liefert die Existenz eines maximalen
4 Elements C ∈ M . Wir nehmen nun an, dass es x ∈ A gibt, so dass (x, y 0 ) ∈ /C
5 für alle y 0 ∈ B, und dass es y ∈ B gibt, so dass (x0 , y) ∈
/ C für alle x0 ∈ A.
6 Dann ist (x, y) ∈ / C, aber C ∪ {(x, y)} ist eine partielle Korrespondenz. Dies
7 steht im Widerspruch zur Maximalität von C, die Annahme ist also falsch.
8 Aus der Negation der Annahme erhalten wir zwei Fälle. Im ersten gibt
9 es für alle x ∈ A ein y 0 ∈ B mit (x, y 0 ) ∈ C. Wegen (3.1) ist C dann eine
10 Abbildung A → B, die wegen (3.2) injektiv ist. Im zweiten Fall gibt es für
11 alle y ∈ B ein x0 ∈ A mit (x0 , y) ∈ C. Wegen (3.2) ist C ∗ := {(y, x) ∈ B × A |
12 (x, y) ∈ C} dann eine Abbildung B → A, die wegen (3.1) injektiv ist. Dies
13 schließt den Beweis ab. t
u
14 Wir haben bereits erwähnt, dass das Auswahlaxiom äquivalent ist zum
15 Wohlordnungssatz. Dieser wird in der Vorlesung nie verwendet, wir formu-
16 lieren ihn hier aber.
17 Satz 3.13 (Wohlordnungssatz). Auf jeder Menge gibt es eine Wohlordnung.
18 Die herkömmliche Ordnungsrelation auf N ist definiert durch

19 n≤m :⇐⇒ m = n + x mit x ∈ N.

20 Satz 3.14. Mit der herkömmlichen Ordnung ist N wohlgeordnet.


21 Vor dem Beweis des Satzes bringen wir ein Lemma mit einem sehr seltsa-
22 men Induktionsbeweis.
23 Lemma 3.15. Für jedes n ∈ N mit n 6= 0 gibt es ein m ∈ N mit n = m + 1.

24 Beweis. Wir benutzen Induktion. Für n = 0 ist nichts zu zeigen. Im Induk-


25 tionsschritt müssen wir die Aussage für n + 1 anstelle von n zeigen. Sie gilt
26 in der Tat mit m = n. t
u
27 Beweis von Satz 3.14. Um zu beweisen, dass jede nicht-leere Teilmenge von
28 A ⊆ N ein kleinstes Element hat, zeigen wir per Induktion nach n, dass
29 folgende Aussage für jedes n ∈ N gilt: Ist A ⊆ N eine Menge, die mindestens
30 eine Zahl ≤ n enthält, so hat A ein kleinstes Element.
31 Der Induktionsanfang n = 0 funktioniert folgendermaßen: Nach Annahme
32 gibt es ein k ∈ A mit k ≤ 0. Andererseits gilt k = 0 + k ≥ 0, also k = 0. Nun
33 gilt für jedes m ∈ A: m = 0 + m ≥ 0, also ist 0 kleinstes Element von A.
34 Für den Induktionsschritt ist die Voraussetzung, dass es ein k ∈ A mit
35 k ≤ n+1 gibt. Falls es auch ein k ∈ A mit k ≤ n gibt, so folgt die Behauptung
36 per Induktion. Wir dürfen also voraussetzen, dass es kein k ∈ A mit k ≤ n
37 gibt. Wir behaupten, dass dann n + 1 kleinstes Element von A ist. Es sei
38 m ∈ A beliebig. Die Menge {n, m} hat nach Induktionsvoraussetzung ein
39 kleinstes Element, und da m ≤ n nicht gilt, muss dieses n sein, also n < m.
32 Relationen

1 Dies bedeutet m = n + x mit 0 6= x ∈ N, also nach Lemma 3.15 x = y + 1


2 mit y ∈ N. Wir erhalten

3 m = n + y + 1 = (n + 1) + y ≥ n + 1.

4 Dies zeigt, dass n + 1 eine untere Schranke von A ist. Da A aber auch eine
5 Zahl ≤ n + 1 enthält, muss diese gleich n + 1 sein, also n + 1 ∈ A, und damit

 12. Vorlesung, 6 ist n + 1 kleinstes Element. t
u

y 16.11.2018
7 Auf Satz 3.14 beruht das Prinzip der starken Induktion, das wir nun
8 vorstellen: Es sei A(n) eine Aussage über eine natürliche Zahl n. Man darf
9 nun voraussetzen, dass A(k) für alle natürlichen Zahlen k < n gilt (Induk-
10 tionsannahme), und muss daraus folgern, dass A(n) gilt. Dann ist A(n) für
11 alle n ∈ N bewiesen.
12 Für den Beweis, dass dies tatsächlich zutrifft, nehmen wir an, dass es
13 natürliche Zahlen n gibt, für die A(n) nicht gilt. Dann ist die Menge

14 M := n ∈ N | A(n) gilt nicht ⊆ N

15 nicht leer. Nach Satz 3.14 hat M ein kleinstes Element n0 ∈ M . Für k ∈ N
16 mit k < n0 folgt k ∈
/ M , also gilt A(k) für diese k. Da man hieraus schließen
17 kann, dass auch A(n0 ) gilt, folgt n0 ∈
/ M , ein Widerspruch.
18 Ein typisches Beispiel für starke Induktion ist der Beweis des folgenden
19 wichtigen Satzes.
20 Satz 3.16. Jede natürliche Zahl n ≥ 2 lässt sich als Produkt von Primzahlen
21 schreiben.
22 Beweis. Es sei n ∈ N. Falls n < 2, so ist nichts zu zeigen, wir nehmen also
23 n ≥ 2 an. Ist n eine Primzahl so sind wir fertig. Andernfalls gibt es eine
24 Zerlegung n = a · b mit 2 ≤ a, b < n. Gemäß der Induktionsannahme sind a
25 und b Produkte von Primzahlen, also auch n. t
u

26 Der Satz sagt nicht, dass die Zerlegung als Produkt von Primzahlen bis
27 auf die Reihenfolge eindeutig ist. Dies beweisen wir (wesentlich) später, siehe
28 Satz 18.14.
29 Es fällt auf, dass das Prinzip der starken Induktion keinen Induktionsan-
30 fang benötigt.
1 Diskrete Strukturen: Graphen

2 4 Wege und Bäume

3 Graphen sind diskrete Objekte, die vielseitig zur Beschreibung realer Situa-
4 tionen einsetzbar sind. Wir beginnen mit der Definition.
5 Definition 4.1. Ein Graph ist ein geordnetes Paar G = (V, E), bestehend
6 aus einer nicht-leeren, endlichen Menge V und einer Menge

7 E ⊆ {x, y} | x, y ∈ V, x 6= y

8 von zweielementigen Teilmengen von V . Die Elemente von V werden Kno-


9 ten oder auch Ecken genannt, die von E werden Kanten genannt.
10 Oft werden Graphen durch Diagramme gekennzeichnet oder gegeben, wie
11 durch folgendes Beispiel gezeigt wird.
12 Beispiel 4.2. (1) Die Knotenmenge sei gegeben durch die Länder Zentral-
13 amerikas (gekennzeichnet durch ihre Anfangsbuchstaben), also

14 V = {B, C, E, G, H, N, P }.

15 Falls zwei dieser Länder aneinander grenzen, seien sie durch eine Kante
16 verbunden. Wir erhalten

17 E = {B, G}, {C, N }, {C, P }, {E, G}, {E, H}, {G, H}, {H, N } ,

18 was sich als das Diagramm


34 Wege und Bäume

B G H N C P

1
E

2 darstellt.
3 (2) Das folgende Diagramm stellt den Graphen mit den zweielementigen Teil-
4 mengen der Menge {1, 2, 3, 4} als Knoten dar, wobei zwei Knoten eine
5 Kante haben, falls ihre Schnittmenge nicht leer ist.

{1,4} {1,3}

{3,4} {1,2}

{2,4} {2,3}
6

7 (3) Auch interessant ist der Graph, dessen Knoten alle Teilnehmer bei Fa-
8 cebook sind, mit Kanten zwischen Facebook-Freunden. Diesen Graphen
9 hier zu zeichnen würde den Umfang des Skrips sprengen. /
10 Anmerkung 4.3. Es gibt einige Varianten des Begriffs eines Graphen. Die
11 wichtigsten hiervon wollen wir hier vorstellen.
12 (a) Zunächst werden häufig auch unendliche Graphen betrachtet, d.h. die
13 Bedingung der Endlichkeit an V wird weggelassen.
14 (b) Manchmal werden in Graphen auch Kanten von einem Knoten zu sich
15 selbst ( Schleifen“) zugelassen, definiert als einelementige Teilmengen von

16 V.
17 (c) Gerichtete Graphen: Die Kanten haben eine Richtung und werden
18 durch Pfeile gekennzeichet. Mathematisch definiert man dies, indem man
19 sagt, dass die Kantenmenge eine Teilmenge des kartesischen Produkts
20 V × V ist, wobei Schleifen (also Kanten der Form (x, x)) meist nicht zu-
21 gelassen werden. Ein Beispiel ist die Nahrungskette verschiedener Tierar-
22 ten, die eben im Allgemeinen keine Kette, sondern ein gerichteter Graph
23 ist. Hier betrachten wir: Kormoran (K) und Forelle (F) fressen Steinkrebs
24 (S), Adler (A) und Kormoran fressen Forelle, und Adler frisst Komoran.
25 Der Graph ist
Wege und Bäume 35

K F

1
S

2 (d) Multigraphen : Zwischen zwei Knoten sind mehrere Kanten erlaubt.


3 Die exakte mathematische Definition geben wir später (Definition 5.1).
4 Als Beispiel zeichnen wir den Graphen, dessen Knoten die Teilmengen von
5 S := {1, 2, 3} sind, wobei jedes gemeinsame Element von zwei Teilmengen
6 für eine Kante sorgt.

{1}

{1,3}

{3} {1,2} ∅
S

{2,3}

{2}
7

8 Man betrachtet auch gerichtete Mutigraphen.


9 (e) Gewichtete Graphen: Dies sind Graphen, deren Kanten mit Elemen-
10 ten aus einer Menge (oft R oder R ∪ {∞}) gewichtet“ sind. Man kann sie

11 definieren, indem man die Kantenmenge E durch eine Funktion ersetzt,
12 die jeder zweielementigen Menge von Knoten das Gewicht der Kante zwi-
13 schen ihnen zuordnet. Hierbei kann ein bestimmtes Gewicht (typischer-
14 weise 0 oder ∞) als nicht-existente Kante gedeutet werden. Ein typisches
15 Beispiel ist der Entfernungsgraph zwischen Städten, dessen Kanten die
16 Entfernung (Straßenverbindung auf dem Landweg) angibt. Für Berlin
17 (B), Edinburgh (E), Hamburg (H), London (L) und München (M) ergibt
18 sich
36 Wege und Bäume

H

E
288


640 775 B


585
L

1
M

2 Die mit ∞ gewichteten Kanten bedeuten, dass es keinen Landweg gibt,


3 sie können auch weggelassen werden.
4 Man betrachtet auch gewichtete gerichtete Graphen sowie Graphen, deren

 13. Vorlesung, 5 Knoten gewichtet sind.

y 21.11.2018
6 Im Lichte dieser Varianten spricht man bisweilen von einem einfachen
7 Graph, um zu spezifizieren, dass ein Graph gemäß Definition 4.1 gemeint
8 ist. /
9 Im diesem Abschnitt sein G = (V, E) immer ein Graph (gemäß Definiti-
10 on 4.1).
11 Definition 4.4. (a) Ein Weg ist ein (n+1)-Tupel (x0 , . . . , xn ) von Knoten,
12 so dass {xi−1 , xi } ∈ E für 1 ≤ i ≤ n und außerdem xi 6= xj für alle
13 i, j ∈ {0, . . . , n} mit 0 < i − j < n. (Alle Knoten müssen verschieden sein
14 bis auf die mögliche Ausnahme von x0 und xn .) Genauer spricht man
15 von einem Weg der Länge n von x0 nach xn .
16 (b) Ein Weg heißt ein Kreis, falls x0 = xn und n ≥ 3.
17 (c) G heißt zusammenhängend, falls es für alle Knoten x, y ∈ V mit x 6= y
18 einen Weg von x nach y gibt.
19 (d) G heißt kreisfrei, falls G keine Kreise hat.
20 Beispiel 4.5. In dem Graphen aus Beispiel 4.2(2) sind zwei Wege von {3, 4}
21 nach {1, 2} rot und grün gefärbt. Ein Kreis ist blau gefärbt.
Wege und Bäume 37

{1,4} {1,3}

{3,4} {1,2}

{2,4} {2,3}
1

2 Der Graph ist zusammenhängend. Dies triff nicht auf das Beispiel in Anmer-
3 kung 4.3(d) zu. /
4 Anmerkung 4.6. Für zwei Knoten x, y von G können wir x ∼ y schreiben,
5 falls es einen Weg von x nach y gibt oder x = y. Dies ergibt eine Relation
6 auf V , die reflexiv und symmetrisch ist. Um die Transitivität einzusehen,
7 müssen wir Wege von Knoten x nach y und von y nach z zusammenhängen.
8 Das Resultat ist ein Tupel wie in Definition 4.4(a), aber ohne die Verschie-
9 denheit der xi . Treten in dem Tupel aber zwei gleiche xi auf, so kann man
10 es verkürzen, indem man das Zwischenstück und eines der xi herausnimmt.
11 So bekommt man schließlich einen Weg von x nach z. Damit ist gezeigt,
12 dass ∼“ eine Äquivalenzrelation ist. Die Äquivalenzklassen, zusammen mit

13 den Kanten zwischen ihren Knoten, heißen die Zusammenhangskompo-
14 nenten von G. Diese sind zusammenhängend, und G selbst ist genau dann
15 zusammenhängend, falls es nur eine Zusammenhangskomponente gibt. /
16 Zum Thema Zusammenhang und Kreisfreiheit werden wir etwas später
17 beweisen:
18 Satz 4.7. (a) Ist G zusammenhängend, so folgt |E| ≥ |V | − 1.
19 (b) Ist G kreisfrei, so folgt |E| ≤ |V | − 1.
20 (c) G ist genau dann kreisfrei, wenn es für zwei verschiedene Knoten x, y
21 von G höchstens einen Weg von x nach y gibt.
22 Ein wichtiger Typ von Graphen wird durch die folgende Definition gege-
23 ben.
24 Definition 4.8. Der Graph G heißt ein Baum, falls er zusammenhängend
25 und kreisfrei ist. In diesem Zusammenhang nennt man einen kreisfreien
26 Graph auch einen Wald, da seine Zusammenhangskomponenten Bäume sind.
27 Beispielsweise ist der Graph

28
38 Wege und Bäume

1 ein Baum. Über Bäume werden wir beweisen:


2 Satz 4.9. Die folgen Aussagen sind äquivalent:
3 (a) G ist ein Baum.
4 (b) Für zwei verschiedene Knoten x, y von G gibt es genau einen Weg von x
5 nach y.
6 (c) Es gilt |E| = |V | − 1, und G ist zusammenhängend oder kreisfrei.
7 Hat G also die richtige“ Kantenzahl (nämlich |V |−1), so reicht der Nach-

8 weis des Zusammenhangs oder der Kreisfreiheit, um die andere dieser Eigen-
9 schaften zu garantieren.
10 Wir beweisen die Sätze 4.7 und 4.9 nach dem folgenden Satz 4.12, für
11 dessen Formulierung wir eine (auch sonst wichtige) Definition brauchen.
12 Definition 4.10. (a) Ein Graph H = (W, F ) heißt Teilgraph von G, falls
13 W ⊆ V und F ⊆ E. Wir drücken dies durch H ≤ G aus. Ist W = V ,
14 so heißt H ein aufspannender Teilgraph. Gleichbedeutend mit Teil-

15 graph“ sprechen wir auch von Untergraphen und Subgraphen.
16 (b) Ein aufspannender Teilgraph B von G heißt ein Spannbaum von G,
17 falls B ein Baum ist.
18 Beispiel 4.11. (1) Die Zusammenhangskomponenten eines Graphen sind Teil-
19 graphen.
20 (2) Das folgende Diagramm stellt einen Graphen mit einem (nicht aufspan-
21 nenden) Teilgraphen dar.

22

23 Der Teilgraph ist kreisfrei, aber nicht zusammenhängend. Im folgenden


24 Diagramm sind zwei Spannbäume des linken Graphen farbig markiert.

25

26 Wir sehen, dass Spannbäume nicht eindeutig bestimmt sind. Aber aus
27 Satz 4.9(c) wissen wir, dass alle Spannbäume dieselbe Kantenzahl (hier 5)
28 haben müssen. /
Wege und Bäume 39

1 Satz 4.12. Der Graph G sei zusammenhängend, und H ≤ G sei ein kreis-
2 freier Teilgraph. Dann gibt es einen Spannbaum B von G mit H ≤ B. Insbe-
3 sondere hat jeder zusammenhängende Graph einen Spannbaum. 
 14. Vorlesung,

y 23.11.2018
4 Beweis. Wir benutzen Induktion nach der Kantenzahl |E|. Falls G bereits
5 kreisfrei ist, gibt es nichts zu zeigen. Wir nehmen also an, dass G einen Kreis
6 K hat. Da H kreisfrei ist, gibt es in diesem Kreis zwei aufeinander folgende
7 Knoten x, y, so dass die Kante {x, y} ∈ E nicht Kante von H ist. Durch
8 Entfernen dieser Kante bilden wir den aufspannenden Teilgraph

G0 := V, E \ {x, y} .
 
9

10 Es folgt H ≤ G0 . Wir behaupten, dass G0 zusammenhängend ist. Auch in


11 G0 gibt es einen Weg von x nach y, also x ∼ y (siehe Anmerkung 4.6 für
12 die verwendete Notation). Ist nun (x0 , . . . , xn ) irgendein Weg in G, so gilt
13 xi ∼ xi+1 für alle i auch in G0 , also wegen der Transitivität x0 ∼ xn . Nachdem
14 wir wissen, dass G0 zusammenhängend ist, liefert die Induktionsannahme
15 einen Spannbaum B von G0 mit H ≤ B. Da G0 in G und B in G0 aufspannend
16 sind, folgt, dass B auch ein Spannbaum von G ist. t
u
17 Vor dem Beweis der Sätze 4.7 und 4.9 schieben wir eine Definition und
18 zwei Lemmata ein.
19 Definition 4.13. Der Grad eines Knotens x ∈ V ist die Anzahl der Kan-
20 ten, die x mit anderen Knoten verbinden. Er wird mit deg(x) bezeichnet,
21 also 
22 deg(x) := {x, y} | {x, y} ∈ E .
23 Knoten vom Grad 0 nennt man auch isolierte Knoten.
24 Lemma 4.14. Falls G kreisfrei ist und E 6= ∅, so hat G mindestens zwei
25 Knoten vom Grad 1.
26 Beweis. Da es Kanten gibt, gibt es auch Wege. Wir wählen einen Weg
27 (x0 , . . . , xn ) maximaler Länge n. Also gibt es eine Kante zwischen x0 und x1
28 und damit deg(x0 ) ≥ 1. Um zu zeigen, dass der Grad nicht größer als 1 ist,
29 nehmen wir an, dass es eine Kante {x0 , y} ∈ E mit y 6= x1 gibt. Falls y = xi
30 für ein i, dann wäre i ≥ 2 und damit (y, x0 , . . . , xi ) ein Kreis, im Widerspruch
31 zur Kreisfreiheit von G. Falls aber y 6= xi für alle i, so wäre (y, x0 , . . . , xn )
32 ein Weg der Länge n + 1 im Widerspruch zur Maximalität von n. Da dasselbe
33 auch mit xn anstelle von x0 gilt, ist das Lemma bewiesen. t
u
34 In einem Baum nennt man Knoten von Grad 1 auch Blätter.
35 Lemma 4.15. Ist G ein Baum, so folgt |E| = |V | − 1.
36 Beweis. Wir führen den Beweis per Induktion nach der Knotenzahl |V |. Für
37 |V | = 1 ist nichts zu zeigen, wir setzen also |V | ≥ 2 voraus. Weil G zusam-
38 menhängend ist, gibt es Kanten, also nach Lemma 4.14 auch einen Knoten x0
40 Wege und Bäume

1 vom Grad 1. Es sei x1 ∈ V der (einzige) mit x0 verbundene Knoten. Wir ent-
2 fernen nun x0 aus dem Graphen, d.h. wir bilden den (nicht aufspannenden)
3 Teilgraph
G0 := V \ {x0 }, E \ {x0 , x1 } .
 
4

5 G0 ist zusammenhängend, denn für verschiedene Knoten x, y von G0 gibt es


6 einen Weg in G von x nach y. Weil x0 nur mit einem einzigen Knoten eine
7 Kante hat, kann in diesem Weg x0 wegen der Verschiedenheit der Knoten im
8 Weg nicht vorkommen, also liegt der Weg in G0 . Da außerdem jeder Teilgraph
9 eines kreisfreien Graphen selbst kreisfrei ist, gilt dies auch für G0 , also ist G0
10 ein Baum. Die Induktionsannahme liefert nun

11
E \ {x0 , x1 } = |V \ {x0 }| − 1,

12 woraus die Behauptung folgt. t


u
13 Beweis von Satz 4.7. (a) Nach Satz 4.12 hat G einen Spannbaum B =
14 (V, F ), für den nach Lemma 4.15 |F | = |V | − 1 gilt. Wegen F ⊆ E
15 folgt |E| ≥ |V | − 1.
16 (b) Durch Hinzufügen von Kanten können wir aus G einen zusammenhängenden
17 Graph G0 machen. Nach Satz 4.12 hat G0 einen Spannbaum B = (V, F )
18 mit G ≤ B, also E ⊆ F . Mit Lemma 4.15 folgt |E| ≤ |V | − 1.
19 (c) Wir setzen zunächst voraus, dass G kreisfrei ist und nehmen an, dass
20 es zwei verschiedene Wege (x0 , . . . , xn ) und (y0 , . . . , ym ) gibt mit x0 =
21 y0 6= xn = ym . Sei k ≥ 0 maximal mit xi = yi für i ≤ k, d.h. die
22 Wege trennen sich nach dem Knoten xk = yk . Wegen der Verschiedenheit
23 der xi bzw. der yi folgt k < min{n, m}. Wegen xn = ym gibt es auch ein
24 minimales l > k, so dass xl mit einem der yi übereinstimmt, etwa xl = yj ,
25 d.h. die Wege laufen bei xl wieder zusammen. Wir erhalten den Kreis

26 (xk = yk , yk+1 . . . yj−1 , yj = xl , xl−1 , . . . , xk )

27 und damit einen Widerspruch zur Kreisfreiheit von G.


28 Da umgekehrt jeder Kreis (x0 , . . . , xn = x0 ) zu zwei verschiedenen Wegen
29 (x0 , xn−1 ) und (x0 , x1 , . . . , xn−1 ) führt, folgt auch, dass ein Graph mit
30 höchstens einem Weg zwischen zwei Knoten kreisfrei ist. t
u

31 Beweis von Satz 4.9. Die Äquivalenz von (a) und (b) ergibt sich aus Satz 4.7(c)
32 und der Definition von zusammenhängend“ für Graphen. Die Implikation

33 (a) ⇒ (c)“ folgt aus der Definition eines Baumes und Lemma 4.15.

34 Es bleibt zu zeigen, dass (a) aus (c) folgt, wir haben also die Fälle zu
35 betrachten, dass G zusammenhängend oder kreisfrei ist. Im ersten Fall hat
36 G nach Satz 4.12 einen Spannbaum B = (V, F ). Nach Lemma 4.15 folgt
37 |F | = |V | − 1 = |E|, also F = E und G ist somit selbst ein Baum.
38 Sei nun G kreisfrei. Wie im Beweis von Satz 4.7(b) finden wir einen Baum
39 B = (V, F ) mit E ⊆ F , und Lemma 4.15 mit der Voraussetzung |E| = |V |−1
40 liefert wieder F = E. t
u
Multigraphen und eulersche Graphen 41


 15. Vorlesung,

y 27.11.2018

1 5 Multigraphen und eulersche Graphen

2 Im 18ten Jahrhundert gab es in Königsberg (heute: Kaliningrad) sieben


3 Brücken über den Fluss Pregel. Sie verbanden die Königsberger Stadtgebiete
4 (gekennzeichnet durch die Buchstaben A-D) wie folgt:

B C

5
D

6 Als das Königsberger Brückenproblem bezeichnet man die Frage, ob ein


7 Spaziergang möglich ist, auf dem man jede Brücke genau einmal benutzt.
8 Im besten Fall sollte dieser Weg sogar geschlossen sein. Dabei dürfen die
9 Stadtgebiete mehrmals besucht werden. Möglicherweise hat Leonhard Euler
10 (1707-1783) als erster erkannt, dass sich das Problem auf eine Graphentheo-
11 retische Frage reduziert. Da Stadtgebiete durch Brücken verbunden werden,
12 stellt man sie als Knoten und die Brücken als Kanten dar. So erhält man den
13 folgenden Multigraph
A

B C

14
D

15 Die Frage ist nun, ob man sich so durch den Graph bewegen kann, dass
16 man jede Kante genau einmal benutzt. Um diese anzugehen, müssen wir
17 zunächst eine exakte Definition von Multigraphen geben. Es gibt verschiede-
18 ne Möglichkeiten, dies zu tun. Wir folgen der Idee, die Kanten nicht nur als
19 Zweiermengen von Knoten zu definieren, sondern ihnen zusätzlich eine Num-
20 mer zu geben, so dass man verschiedene Kanten zwischen denselben beiden
21 Knoten unterscheiden kann.
42 Multigraphen und eulersche Graphen

1 Definition 5.1. Ein Multigraph ist ein geordnetes Paar G = (V, E), beste-
2 hend aus einer nicht-leeren, endlichen Menge V und einer endlichen Menge
3 E, deren Elemente die Form

4 K = {x, y}, n

5 mit x, y ∈ V , x 6= y, und n ∈ N haben. Ein solches K steht für eine Kante


6 zwischen den Knoten x und y.
Der obige obige Graph wäre also gegeben durch die Kantenmenge
   
E= {A, B}, 1 , {A, B}, 2 , {B, C}, 1 ,
   
{B, D}, 1 , {B, D}, 2 , {A, C}, 1 , {C, D}, 1 .

7 Die Multigraphen stellen eine Verallgemeinerung der einfachen Graphen


8 (gemäß Definition 4.1) dar. Die Begriffe und Resultate aus Abschnitt 4
9 übertragen sich direkt auf den Fall von Multigraphen, wobei nur ein Be-
10 griff geschärft werden muss: Gibt es zwischen zwei Knoten x und y mehr als
11 eine Kante, so sieht man (definitionsgemäß) den Weg von x nach y über eine
12 der Kanten und zurück nach x über eine andere Kante als Kreis an, so dass
13 ein Multigraph, der überhaupt mehrfache Kanten hat, niemals kreisfrei ist.
14 Für den Rest des Abschnits sei G = (V, E) ein Multigraph, auch wenn wir
15 bisweilen einfach von dem Graph“ G sprechen werden.

16 Da Leonhard Euler das Königsberger Brückenproblem gelöst hat, sind die
17 Begriffe, die das Problem präzisieren, nach ihm benannt.
18 Definition 5.2. (a) Ein Kantenzug
 ist ein m-Tupel Z = (K1 , . . . , Km )
19 mit Ki = {xi−1 , xi }, ni ∈ E, wobei x0 , . . . , xm ∈ V (nicht notwendiger-
20 weise verschiedene) Knoten sind, die Ki aber paarweise verschieden sein
21 müssen. Wir sagen, dass der Kantenzug die Kanten K1 , . . . , Km benutzt
22 und die Knoten x0 , . . . , xm besucht. Ein Kantenzug ist also eine Tour“,

23 bei der jede Kante höchstens einmal benutzt werden darf.
24 (b) Ein Kantenzug Z wie oben heißt geschlossen, falls x0 = xm . Er heißt
25 eulersch, falls m = |E|, d.h. falls jede Kante des Graphen benutzt wird.
26 (c) Der Graph G heißt eulersch, falls es einen geschlossenen eulerschen
27 Kantenzug gibt. Er heißt semi-eulersch, falls es einen (nicht notwendig
28 geschlossenen) eulerschen Kantenzug gibt.
29 Anschaulich gesprochen ist ein Graph semi-eulersch, wenn man seine Kan-
30 ten in einem Zug, also ohne abzusetzen, durchzeichnen kann. Ziel dieses Ab-
31 schnittes ist es, einfache Kriterien herzuleiten für die Entscheidung, ob G
32 (semi-)eulersch ist (Sätze 5.4 und 5.6). Beispiele für einen semi-eulerschen
33 und einen eulerschen Graph sind das Haus des Nikolaus“ und das Haus des
” ”
34 Nikolaus mit Fundament“.
Multigraphen und eulersche Graphen 43

2 Hierbei ist momentan offen, ob das Haus des Nikolaus sogar eulersch und
3 nicht nur semi-eulersch ist. Aus Satz 5.4, dessen Beweis wir nun angehen
4 werden, ergibt sich jedoch, dass dies nicht der Fall ist.
5 Wie bei einfachen Graphen ist auch bei Multigraphen der Grad eines
6 Knotens x ∈ V als die Anzahl der von dem Knoten ausgehenden Kanten
7 definiert. Beispielsweise haben im Haus des Nikolaus mit Fundament“ alle

8 Knoten den Grad 4 bis auf den obersten, der Grad 2 hat.
9 Proposition 5.3. Die folgenden Aussagen sind äquivalent:
10 (a) Es gibt geschlossene Kantenzüge Z1 , . . . , Zr , so dass jede Kante von E in
11 genau einem der Zi benutzt wird.
12 (b) Sämtliche Knoten von G haben eine gerade Zahl als Grad.
13 Bevor wir die Proposition beweisen, illustrieren wir die Situation der Aus-
14 sage (a) bei dem Haus des Nikolaus mit Fundament“, wobei die Kantenzüge

15 Zi durch verschiedene Farben dargestellt sind.

16

17 Es gibt viele andere mögliche Wahlen für die Kantenzüge Zi .


18 Beweis von Proposition 5.3. Wir setzen zunächst die Aussage (a) voraus. Bei
19 einem geschlossenen Kantenzug wird jeder Knoten, der besucht wird, auch
20 wieder verlassen, und dabei werden verschiedene Kanten benutzt. Hieraus
21 ergibt sich (b).
22 Nun setzen wir (b) voraus und beweisen (a) mit (starker) Induktion
23 nach der Kantenzahl |E|. Im Falle E = ∅ ist nichts zu zeigen (r = 0).
24 Im Falle E 6= ∅ gibt es Kantenzüge, und wir können einen Kantenzug
25 Z = (K1 , . . . , Km ) mit maximaler Länge m wählen. Die von Z besuchten
26 Knoten seien x0 , . . . , xm . Wir nehmen an, dass Z nicht geschlossen sei, al-
27 so x0 6= xm . Dann leisten die Kanten von Z zu dem Grad von xm (ebenso
28 von x0 ) einen ungeraden Beitrag. Wegen (b) folgt, dass von xm eine von Z
44 Multigraphen und eulersche Graphen

1 nicht benutzte Kante ausgeht. Diese können wir an Z anhängen, im Wider-


2 spruch zur Maximalität der Länge von Z. Also ist Z doch geschlossen.
3 Wir wissen bereits, dass die Kanten von Z zu jedem Grad eines Knotens
4 einen geraden Beitag leisten. Also gilt (b) auch für den Teilgraph

G0 := V, E \ {K1 , . . . , Km } .

5

6 Per Induktion folgt nun (a) für G0 und damit, durch Hinzufügen von Z zu

 16. Vorlesung, 7 den Kantenzügen von G0 , auch für G. t
u

y 28.11.2018
8 Für die Formulierung der nächsten beiden Sätze benutzen wir folgende ad
9 hoc Notation: Mit G0 bezeichnen wir den Teilgraphen, der aus G durch das
10 Entfernen aller isolierter Knoten aber Beibehalten aller Kanten entsteht.
11 Satz 5.4. Falls E 6= ∅, so sind die folgenden Aussagen äquivalent:
12 (a) G ist eulersch.
13 (b) G0 ist zusammenhängend, und sämtliche Knoten von G haben eine gerade
14 Zahl als Grad.
15 In diesem Fall ist jeder eulersche Kantenzug geschlossen.

16 Beweis. Falls G eulersch ist, gilt die Aussage (a) aus Proposition 5.3 mit r =
17 1, also haben gemäß der Proposition alle Knoten geraden Grad. Außerdem
18 besucht ein eulerscher Kantenzug jeden nicht isolierten Knoten, woraus der
19 Zusammenhang von G0 folgt.
20 Gilt umgekehrt (b), so liefert Proposition 5.3 geschlossene Kantenzüge
21 Z1 , . . . , Zr mit den dort genannten Eigenschaften. Im Falle r = 1 ist (a) ge-
22 zeigt, wir setzen also r ≥ 2 voraus. Nun nehmen wir an, dass es für kein
23 i ∈ {2, . . . , r} einen Knoten gibt, der sowohl von Zi als auch von Z1 besucht
24 wird. Dann gehen von den von Z1 besuchten Knoten nur die Kanten aus Z1
25 aus. Diese Knoten bilden also eine Zusammenhangskomponente, im Wider-
26 spruch zum Zusammenhang von G0 . Es folgt, dass es ein i ≥ 2 gibt, so dass
27 mindestens ein Knoten sowohl von Z1 als auch von Zi besucht wird.
28 Es sei x ein solcher gemeinsam von Z1 und Zi besuchter Knoten. Wir
29 können die Kanten in Z1 und Zi so umnummerieren, dass beide bei x be-
30 ginnen und enden. Nun hängen wir Z1 und Zi zusammen, indem wir die
31 entsprechenden Kanten hintereinander schreiben. Dies ergibt einen geschlos-
32 senen Kantenzug, der alle Kanten von Z1 und von Zi genau einmal benutzt.
33 Nun können wir Z1 durch den neuen Kantenzug ersetzen und Zi streichen.
34 Indem wir so fortfahren, erreichen wir schließlich r = 1.
35 Die letzte Behauptung folgt aus der Beobachtung, dass die Endknoten
36 eines nicht geschlossenen eulerschen Kantenzugs ungeraden Grad haben. t u
37 Beispiel 5.5. Das Aneinanderhängen der Kantenzüge aus dem obigen Beweis
38 ist hier anhand des Hauses des Nikolaus mit Fundament“ illustriert:

Multigraphen und eulersche Graphen 45

1 2 2 3 2 3
3 4 4

4 6 5 7 5 7
7 5 1 6 1 6
9

8
Aneinanderhängen Umnummerieren Anhängen des
der grünen und für Start roten Kantenzugs
blauen Kantenzüge links unten
1

2 /
3 Nach Satz 5.4 ist das Haus des Nikolaus also nicht eulersch, aber gemäß
4 dem folgenden Satz semi-eulersch.
5 Satz 5.6. Falls E 6= ∅, so sind die folgenden Aussagen äquivalent:
6 (a) G ist semi-eulersch aber nicht eulersch.
7 (b) G0 ist zusammenhängend, und G hat genau zwei Knoten mit einer un-
8 geraden Zahl als Grad.
9 In diesem Fall hat jeder eulersche Kantenzug die beiden Knoten mit ungera-
10 dem Grad als Endknoten.
11 Beweis. Falls die Aussage (a) gilt, so gibt es einen nicht geschlossenen eu-
12 lerschen Kantenzug. Wir haben schon im Beweis von Satz 5.4 gesehen, dass
13 hieraus der Zusammenhang von G0 folgt. Außerdem haben die Endknoten des
14 eulerschen Kantenzugs ungeraden Grad, alle anderen Knoten aber geraden
15 Grad, es folgt also (b).
16 Nun setzen wir umgekehrt die Aussage (b) voraus. Hieraus folgt, dass jeder
17 eulersche Kantenzug die beiden Knoten mit ungeradem Grad als Endknoten
18 hat, die letzte Behauptung des Satzes. Insbesondere gibt es keinen geschlos-
19 senen eulerschen Kantenzug, G ist also nicht eulersch. Um einzusehen, dass
20 G semi-eulersch ist, verbinden wir die beiden Knoten mit ungeradem Grad
21 durch eine zusätzliche Kante K. Dadurch entsteht ein Graph G0 , bei dem
22 alle Knoten geraden Grad haben. Nach Satz 5.4 ist G0 eulersch, wir haben
23 also einen geschlossenen eulerschen Kantenzug. Dessen Kanten können wir so
24 anordnen, dass die zusätzliche Kante K als letzte Kante benutzt wird. Nun
25 streichen wir diese Kante und erhalten so einen eulerschen Kantenzug in G.
26 Die Aussage (a) gilt also. t
u
27 Das Haus des Nikolaus“ ist demnach semi-eulersch, mit den unteren Kno-

28 ten vom Grad 3. Einen eulerschen Kantenzug erhält man, indem zwischen
29 diesen beiden Knoten eine weitere Kante hinzufügt und nun einen geschlosse-
30 nenen eulerschen Kantenzug konstruiert mit der neuen Kante als letzte. Dies
31 wurde in Beispiel 5.5 durchgeführt. Durch Entfernen dieser Kante erhält man
32 folgenden eulerschen Kantenzug für das Haus des Nikolaus“:

46 Multigraphen und eulersche Graphen

2 3
4

5 7
1 6

1
8

2 Der obige eulersche Kantenzug ist bei weitem nicht der einzig mögliche.
3 Nun können wir zurückkommen auf unsere Ausgangsfrage, das Königsberger
4 Brückenproblem. Bei dem entsprechenden Multigraph (siehe zu Beginn des
5 Abschnitts) haben sämtliche Knoten ungeraden Grad. Der Graph ist daher
6 nicht semi-eulersch, also hat das Problem eine negative Antwort. Wir können
7 noch mehr sagen: Sobald man eine Brücke abreißt oder hinzubaut, ändert
8 man den Grad von genau zwei Knoten um Eins, also wird der Graph semi-
9 eulersch. Per Wikipedia oder Google Maps erfährt man, dass in der heutigen
10 Innenstadt von Kaliningrad zwei der Brücken fehlen: Es gibt nur noch je eine
11 Brücke zwischen der Insel und den nördlichen und südlichen Stadtgebieten.
12 Der heutige Graph ist also

B C

13
D

14 und damit semi-eulersch. Ein Spaziergang, der jede Brücke genau einmal
15 benutzt, ist in der folgenden Skizze eingezeichnet.

B C

16
D

17 Es gibt aber keinen Rundgang, der jede Brücke genau einmal benutzt.
1 Algebraische Strukturen


 17. Vorlesung,

y 31.11.2018
2 Wir beschäftigen uns nun mit den grundlegenden algebraischen Strukturen:
3 Gruppen, Ringe und Körper. Für diese werden wir jeweils die Grundbegriffe
4 und einige Beispiele besprechen.

5 6 Gruppen

Definition 6.1. Eine Gruppe ist eine Menge G zusammen mit einer Ab-
bildung p: G × G → G (die wir Produkt nennen und für die wir die Schreib-
weise p(a, b) = a · b = ab verwenden), so dass die folgenden Axiome gelten:

∀ a, b, c ∈ G : (a · b) · c = a · (b · c), (AG)

∃e∈G: ∀a∈G: e · a = a, (NE)


0 0
∀a∈G: ∃a ∈G: a · a = e. (IE)
6 (Hierbei ist (IE) eigentlich eine weitere Eigenschaft von e.)
Eine Gruppe G heißt abelsch (oder auch kommutativ), falls außerdem
gilt:
∀ a, b ∈ G : a · b = b · a. (KG)
7 Anmerkung. Unsere Ausdrucksweise eine Menge . . . zusammen mit einer

8 Abbildung“ ist eigentlich ungenau. Formal befriedigender wäre es, eine Grup-
9 pe als ein geordnetes Paar (G, p) zu definieren, wobei G eine Menge und
10 p: G × G → G eine Abbildung ist, so dass die obigen Axiome gelten. /
11 Bevor wir Beispiele von Gruppen anschauen, beweisen wir das folgende
12 Resultat:
13 Satz 6.2. Für jede Gruppe G gelten:
48 Gruppen

1 (a) Es gibt genau ein e ∈ G, das (NE) erfüllt. Dieses e heißt das neutrale
2 Element von G.
3 (b) Für jedes a ∈ G gibt es genau ein a0 ∈ G, das (IE) erfüllt. Dieses a0 heißt
4 das inverse Element zu a und wird mit a0 = a−1 bezeichnet.
5 (c) Für jedes a ∈ G gelten

6 ae = a und aa−1 = e.

7 Beweis. Wir beginnen mit (c). Für a ∈ G gibt es wegen (IE) a0 ∈ G mit
8 a0 a = e und a00 ∈ G mit a00 a0 = e. Es folgt

aa0 = e(aa0 ) = (a00 a0 )(aa0 ) = a00 (a0 (aa0 ))


(NE) (IE) (AG)
9 (6.1)
= a ((a a)a ) = a (ea ) = a00 a0 = e,
00 0 0 00 0
(AG) (IE) (NE) (IE)

10 und weiter
11 ae = a(a0 a) = (aa0 )a = ea = a. (6.2)
(IE) (AG) (6.1) (NE)

12 Damit ist (c) nachgewiesen. Zum Beweis von (a) sei ee ∈ G ein weiteres
13 Element, das (NE) erfüllt. Dann folgt

14 ee = eee = e,
(6.2) (NE)

15 a ∈ G ein
was die behauptete Eindeutigkeit liefert. Zum Beweis von (b) sei e
16 weiteres Element mit e
aa = e. Dann folgt

17 a = e
e a(aa0 ) = (e
ae = e aa)a0 = ea0 = a0 .
(6.2) (6.1) (AG) (NE)

18 Dies schließt den Beweis ab. t


u
19 Beispiel 6.3. (1) Die Mengen Z, Q und R zusammen mit der gewöhnlichen
20 Addition als Produkt sind abelsche Gruppen mit 0 als neutralem Ele-
21 ment.
22 (2) Die Mengen Q\{0} und R\{0} zusammen mit dem gewöhnlichen Produkt
23 sind abelsche Gruppen mit 1 als neutralem Element.
24 (3) Die Menge Z \ {0} mit dem gewöhnlichen Produkt ist keine Gruppe,
25 da (IE) verletzt ist. Aber {1, −1} ⊆ Z ist mit dem gewöhnlichen Produkt
26 eine Gruppe.
27 (4) Auf der Menge
G = (a1 , a2 ) ∈ R2 | a1 6= 0

28

29 definieren wir ein Produkt durch

30 (a1 , a2 ) · (b1 , b2 ) = (a1 b1 , a1 b2 + a2 ),


Gruppen 49

wobei wir in den Formeln die gewöhnliche Addition und Multiplikation


von R verwenden. Für den Nachweis von (AG) nehmen wir (a1 , a2 ), (b1 , b2 ), (c1 , c2 ) ∈
G und bilden
 
(a1 , a2 ) · (b1 , b2 ) · (c1 , c2 ) = (a1 b1 , a1 b2 + a2 ) · (c1 , c2 )
 
= a1 b1 c1 , a1 b1 c2 + a1 b2 + a2

und
 
(a1 , a2 ) · (b1 , b2 ) · (c1 , c2 ) = (a1 , a2 ) · (b1 c1 , b1 c2 + b2 )
 
= a1 b1 c1 , a1 (b1 c2 + b2 ) + a2 .

1 Durch Vergleich erkennt man die Gültigkeit von (AG). Mit e := (1, 0)
2 gilt für alle (a1 , a2 ) ∈ G:

3 e · (a1 , a2 ) = (a1 , a2 ).

4 Außerdem gilt für (a1 , a2 ) ∈ G:

5 (a−1 −1
1 , −a1 a2 ) · (a1 , a2 ) = (1, 0) = e

6 (wobei a−1
1 das reelle Inverse ist). Also ist G eine Gruppe. Ist G abelsch?
7 Das Beispiel (1, 1) · (2, 1) = (2, 2) und (2, 1) · (1, 1) = (2, 3) zeigt, dass dies
8 nicht der Fall ist.
9 (5) Die Menge G = {e} mit e · e = e bildet eine Gruppe, die triviale Gruppe.
10 (6) Die Menge aller Drehungen, die ein Quadrat in sich selbst überführen,
11 ist mit der Komposition eine Gruppe. Sie hat 4 Elemente. Man nennt G
12 die Symmetriegruppe des Quadrates. Auch andere geometrische Objekte
13 haben Symmetriegruppen, ebenso Kristalle oder Moleküle. /
14 Für eine Gruppe G gelten die folgenden Rechenregeln:
15 • ∀ a ∈ G : (a−1 )−1 = a,
16 • ∀ a, b ∈ G : (ab)−1 = b−1 a−1 .
17 Wir verwenden die folgenden Schreibweisen:
18 • Statt (a · b) · c = a · (b · c) schreiben wir a · b · c, und entsprechend a · b · c · d
19 und so weiter.
20 • Für n ∈ N>0 : an = |a ·{z · · a}, a0 = e und a−n = (an )−1 .
n mal
21 • Abelsche Gruppen schreiben wir oft additiv: Statt a · b schreiben wir a + b.
22 In diesem Fall schreiben wir 0 für das neutrale Element und −a für das
inverse Element von a ∈ G.

23  18. Vorlesung,

y 04.01.2018
24 Das für uns wichtigste Beispiel einer Gruppe ist die symmetrische Gruppe,
25 die wir nun einführen.
50 Gruppen

1 Definition 6.4. Für eine Menge A wird

2 SA := {f : A → A | f ist bijektiv}

3 durch f · g := f ◦ g (Komposition) eine Gruppe. (Die Gültigkeit von (AG) ist


4 klar, die Identität ist das neutrale Element, und zu f ∈ SA ist die Umkehr-
5 abbildung das inverse Element.) SA heißt die symmetrische Gruppe auf
6 A. Die Elemente von SA heißen Permutationen. Besonders wichtig ist der
7 Fall A = {1, . . . , n} mit n ∈ N. Hier schreiben wir Sn statt SA und sprechen
8 von der symmetrischen Gruppe auf n Ziffern.
9 Beispiel 6.5. (1) Für n = 2 ist

10 Sn = {id, σ}

11 mit σ(1) = 2 und σ(2) = 1. Es gilt σ 2 = id. S2 ist abelsch.


12 (2) Die S3 hat 6 Elemente, denn es gibt 6 = 3! bijektive Abbildungen
13 {1, 2, 3} → {1, 2, 3}. Wir benutzen folgende Schreibweise: (1, 2, 3) steht
14 für die Permutation aus S3 mit 1 7→ 2 7→ 3 7→ 1, und (1, 2) steht für die
15 Permutation mit 1 7→ 2 7→ 1 und 3 7→ 3 (und entsprechend für andere
16 Ziffern). Dann gilt

17 S3 = id, (1, 2, 3), (3, 2, 1), (1, 2), (1, 3), (2, 3) .
| {z } | {z }
=:σ =:τ
18 Es gilt
19 σ · τ = (1, 3),
20 aber
21 τ · σ = (2, 3).
22 (Man beachte, dass man für die Bildung von σ · τ zuerst τ und dann σ
23 ausführen muss.) S3 ist also nicht abelsch. /
24 Das obige Beispiel zeigt, dass Sn für n ≥ 3 nicht abelsch ist. Es gilt
25 allgemein
26 |Sn | = n!,
27 wobei n! = n(n − 1) · · · 2 · 1 wie immer für die Fakultät von n steht.
28 Anmerkung 6.6. Wie schon im obigen Beispiel gezeigt, benutzt man für
29 Elemente der symmetrischen Gruppe Sn oft eine Darstellung durch element-
30 fremde Zykel, die hier kurz erklärt werden soll. Zunächst ist ein Zykel eine
31 Permutation, die gewisse Zahlen a1 , . . . , ar ∈ {1, . . . , n} zyklisch vertauscht,
32 d.h. ai wird auf ai+1 abgebildet (1 ≤ i ≤ r − 1), ar wird auf a1 abgebil-
33 det, und alle anderen Zahlen bleiben fest. Man schreibt diese Permutation
34 als (a1 , . . . , ar ). Durch einen Induktionsbeweis kann man einsehen, dass sich
35 jede Permutation σ ∈ Sn schreiben lässt als ein Produkt

36 σ = (a1,1 , a1,2 , . . . , a1,r1 )(a2,1 , . . . , a2,r2 ) · · · (as,1 , . . . , as,rs ), (6.3)


Gruppen 51

1 wobei die ai,j paarweise verschieden sind. Aufgrund dieser Verschiedenheit


2 nennt man die vorkommenden Zykel elementfremd. Wegen der Elementfremd-
3 heit spielt die Reihenfolge der Zykel in (6.3) keine Rolle.
4 Beipielsweise hat die Permutation σ ∈ S5 mit σ(1) = 4, σ(2) = 5, σ(3) = 1,
5 σ(4) = 3 und σ(5) = 2 die Darstellung σ = (1, 4, 3)(2, 5). /
6 Wir behandeln in diesem Abschnitt noch drei wichtige Begriffe aus der
7 Gruppentheorie: Untergruppen, Erzeugung und Homomorphismen.
8 Definition 6.7. Eine nicht leere Teilmenge H ⊆ G einer Gruppe heißt Un-
9 tergruppe, falls für alle a, b ∈ H auch das Produkt a · b und das Inverse a−1
10 Elemente von H sind. Insbesondere liegt das neutrale Element von G in H,
11 und H ist dann selbst eine Gruppe.
12 Beispiel 6.8. (1) Für jede Gruppe G sind {e} ⊆ G und G ⊆ G Untergruppen.
13 (2) In Z (als Gruppe zusammen mit der Addition) ist n · Z := {nx | x ∈ Z}
14 für jedes n ∈ Z eine Untergruppe.
15 (3) In R \ {0} (zusammen mit dem herkömmlichen Produkt) ist {1, −1} eine
16 Untergruppe. Aber {1, 2, −1, −2} ist keine Untergruppe.
17 (4) Die Gruppe G aus Beispiel 6.3(4) hat die Untergruppen

18 H = {(a, 0) | a ∈ R \ {0}} .

19 und
20 N = {(1, a) | a ∈ R}.
21 (5) In S3 sind
22 A3 = {id, (1, 2, 3), (3, 2, 1)}
23 und
24 H = {id, (1, 2)}
25 Untergruppen, und ebenso H 0 = {id, (1, 3)} und H 00 = {id, (2, 3)}. /
26 Anmerkung. Es ist leicht zu zeigen, dass der Schnitt zweier Untergruppen
27 einer Gruppe G wieder eine Untergruppe ist. Dies gilt auch für den Schnitt
28 beliebig vieler Untergruppen.
29 Allerdings ist die Vereinigung von Untergruppen in der Regel keine Unter-
30 gruppe, wie man etwa anhand der Untergruppe A3 und H aus Beispiel 6.8(5)
31 sieht. /
32 Definition 6.9. Es seien G eine Gruppe und M ⊆ G eine Teilmenge. Die
33 von M erzeugte Untergruppe von G ist die Menge aller Elemente von
34 G, die sich als Produkt a1 a2 · · · ak beliebiger Länge k schreiben lassen, wobei
35 für jedes i gilt: ai ∈ M oder a−1 i ∈ M . Die Faktoren ai in einem solchen
36 Produkt müssen nicht verschieden sein. Die von M erzeugte Untergruppe ist
37 tatsächlich eine Untergruppe, genauer gesagt die kleinste Untergruppe, die
38 alle Elemente von M enthält.
39 Falls die von M erzeugt Untergruppe ganz G ist, so sagen wir, dass G von
40 M erzeugt wird.
52 Gruppen

1 Beispiel 6.10. (1) Z mit der gewöhnlichen Addition wird durch M = {1}
2 (man sagt auch: durch das Element 1) erzeugt.
3 (2) Die Symmetriegruppe des Quadrats (siehe Beispiel 6.3(6)) wird durch
4 eine Drehung um 900 erzeugt.
5 (3) Die von der Permutation (1, 2, 3) erzeugte Untergruppe der S3 ist die A3
6 (siehe Beispiel 6.8(5)).
7 (4) Die S3 wird von σ = (1, 2, 3) und τ = (1, 2) erzeugt. Dies kann man leicht
8 nachrechnen. /
9 Anmerkung. Die von einer Teilmenge M ⊆ G erzeugte Untergruppe lässt
10 sich auch als der Schnitt aller Untergruppen H ⊆ G mit M ⊆ H definieren.
11 Es kommt dabei dasselbe heraus wir in Definition 6.9. /
12 Die folgende Proposition gibt ein Erzeugendensystem der symmetrischen
13 Gruppe Sn an. Als eine Transposition bezeichnen wir eine Permutation
14 mit Zykeldarstellung von der Form (i, j): Zwei Zahlen werden vertauscht,
15 alle anderen festgelassen. Transpositionen sind ihre eigenen Inversen.
16 Proposition 6.11. Die Gruppe Sn wird von Transpositionen erzeugt.

17 Beweis. Wir benutzen Induktion nach n. Für n ≤ 1 ist |Sn | = 1, also erzeugt
18 durch die leere Menge. Wir setzen ab jetzt n ≥ 2 voraus und müssen zeigen,
19 dass jede Permutation σ ∈ Sn ein Produkt von Transpositionen ist. Zunächst
20 betrachten wir den Fall σ(n) = n. Dann liefert die Einschränkung von σ auf
21 {1, . . . , n − 1} ein Element von Sn−1 , welches nach Induktion ein Produkt
22 von Transpositionen ist. Also ist auch σ ein Produkt von Transpositionen.
23 Schließlich betrachten wir den Fall σ(n) 6= n. Wir setzen k := σ(n) und
24 bilden
25 τ := (k, n) ◦ σ.
26 Es folgt τ (n) = n, also ist τ nach dem obigen Fall ein Produkt von Transpo-
27 sitionen, und σ = (k, n) ◦ τ auch. t
u
28 Anmerkung. Man kann zeigen, dass die Sn auch von den beiden Permuta-

 19. Vorlesung, 29 tionen σ = (1, 2, . . . , n) und τ = (1, 2) erzeugt wird. /

y 05.12.2018
30 Definition 6.12. Es seien G und H Gruppen. Eine Abbildung ϕ: G → H
31 heißt ein Homomorphismus (von Gruppen), falls für alle a, b ∈ G gilt:

32 ϕ(ab) = ϕ(a)ϕ(b).

33 Für einen Homomorphismus ϕ: G → H heißt

34 Kern(ϕ) := {a ∈ G | ϕ(a) = eH }

35 der Kern von ϕ. (Hierbei ist eH das neutrale Element von H.)
36 Beispiel 6.13. (1) Die Exponentialfunktion liefert einen Homomorphismus
37 von R mit der Addition in R \ {0} mit der Multiplikation. Der Kern
Gruppen 53

1 ist {0} und das Bild ist R>0 . Auch die Exponentialfunktion von C liefert
2 einen Homomorphismus von der additiven Gruppe von C in C \ {0}. Der
3 Kern ist Z · 2πi.
4 (2) Die Abbildung ϕ: Z → {1, −1}, i 7→ (−1)i ist ein Homomorphismus von
5 der additiven Gruppe von Z in die multiplikative Gruppe {±1}. Der Kern
6 besteht aus allen geraden Zahlen.
7 (3) Für eine positive natürliche Zahl n ist ϕn : Z → Z, x 7→ nx ein injektiver
8 Homomorphismus.
9 (4) Es sei G die Gruppe aus Beispiel 6.3(4). Dann ist

10 ϕ: G → R \ {0}, (a1 , a2 ) 7→ a1

11 ein Homomorphismus in die multiplikative Gruppe von R. Der Kern ist


12 die Untergruppe N aus Beispiel 6.8(4). Allerdings ist

13 ψ: G → R, (a1 , a2 ) 7→ a2

14 kein Homomorphismus in die additive Gruppe.


15 (5) Sind G und H Gruppen, so ist ϕ: G → H, a 7→ eH (das neutrale Element
16 von H) ein Homomorphismus.
17 (6) Sei G eine Gruppe. Die Abbildung ϕ: G → G, a 7→ a−1 ist nur dann ein
18 Homomorphismus, wenn G abelsch ist.
19 (7) Sei G eine Gruppe und a ∈ G. Dann ist

20 ϕa : G → G, x 7→ axa−1

21 ein Homomorphismus. /
22 Proposition 6.14. Es seien G, H Gruppen und ϕ: G → H ein Homomor-
23 phismus. Dann gelten:
24 (a) ϕ(eG ) = eH (mit der offensichtlichen Bezeichnung für die neutralen Ele-
25 mente der beiden Gruppen).
26 (b) Für alle a ∈ G gilt ϕ(a−1 ) = ϕ(a)−1 .
27 (c) Bild(ϕ) ⊆ H ist eine Untergruppe.
28 (d) Kern(ϕ) ⊆ G ist eine Untergruppe.
29 (e) Genau dann ist ϕ injektiv, wenn Kern(ϕ) = {eG }.
30 Beweis. (a) Es gilt

31 ϕ(eG ) = ϕ(eG · eG ) = ϕ(eG ) · ϕ(eG ).

32 Durch Multiplikation mit ϕ(eG )−1 ergibt sich die Behauptung.


33 (b) Für a ∈ G gilt:

34 ϕ(a−1 ) · ϕ(a) = ϕ(a−1 a) = ϕ(eG ) = eH .


(a)

35 Hieraus folgt die Behauptung.


54 Gruppen

1 (c) Es seien x, y ∈ Bild(ϕ). Dazu gibt es a, b ∈ G mit x = ϕ(a) und y = ϕ(b).


2 Also
3 xy = ϕ(a)ϕ(b) = ϕ(ab) ∈ Bild(ϕ)
4 und
5 x−1 = ϕ(a)−1 = ϕ(a−1 ) ∈ Bild(ϕ).
(b)

6 (d) Wegen (a) gilt eG ∈ Kern(ϕ), also Kern(ϕ) 6= ∅. Weiter gilt für a, b ∈
7 Kern(ϕ):

8 ϕ(ab) = ϕ(a)ϕ(b) = eH eH = eH und ϕ(a−1 ) = e−1


H = eH ,
(b)

9 also ab ∈ Kern(ϕ) und a−1 ∈ Kern(ϕ).


10 (e) Wir nehmen zunächst an, dass ϕ injektiv sei. Für a ∈ Kern(ϕ) gilt dann

11 ϕ(a) = eH = ϕ(eG ) =⇒ a = eG .
(a)

12 Da eG wegen (a) immer ein Element von Kern(ϕ) ist, folgt Kern(ϕ) =
13 {eG }.
14 Wir nehmen nun umgekehrt Kern(ϕ) = {eG } an. Es seien a, b ∈ G mit
15 ϕ(a) = ϕ(b). Dann folgt

16 eH = ϕ(a)ϕ(b)−1 = ϕ(a)ϕ(b−1 ) = ϕ(ab−1 ),


(b)

17 also ab−1 ∈ Kern(ϕ). Nach Voraussetzung folgt ab−1 = eG , also a = b.


18 Die Injektivität von ϕ ist damit nachgewiesen. t
u
19 Anmerkung. Ist a ∈ Kern(ϕ) im Kern eines Homomorphismus ϕ: G → H,
20 so gilt für alle b ∈ G:

21 ϕ(bab−1 ) = ϕ(b)ϕ(a)ϕ(b)−1 = ϕ(b)ϕ(b)−1 = eH ,

22 also bab−1 ∈ Kern(ϕ). Man sagt, dass Kern(ϕ) ein Normalteiler von G
23 ist, also eine Untergruppe H, bei der für jedes Element a ∈ H auch die
24 konjugierten Elemente bab−1 (b ∈ G) in H liegen. /
25 Ein bijektiver Homomorphismus G → H zwischen zwei Gruppen heißt
26 auch ein Isomorphismus. Zwei Gruppen G und H heißen isomorph, falls
27 es einen Isomorphismus G → H gibt.
28 Beipielsweise sind die Gruppen S2 und {1, −1} isomorph. Nicht isomorph
29 sind die S3 und die Symmetriegruppe G des regelmäßigen Sechsecks (definiert
30 wie in Beispiel 6.3(6)), obwohl beide Gruppen 6 Elemente haben; denn S3
31 ist nicht abelsch, G aber schon. Isomorphe Gruppen haben exakt die selben
32 gruppentheoretischen Eigenschaften.
Ringe und Körper 55

1 7 Ringe und Körper

2 Definition 7.1. Ein Ring ist eine Menge R zusammen mit zwei Abbildun-
3 gen R × R → R, (a, b) 7→ a + b ( Summe“) und R × R → R, (a, b) 7→ a · b

4 ( Produkt“), so dass gelten:

5 (a) Zusammen mit der Addition ist R eine abelsche Gruppe. (Wir benutzen
6 additive Notation und schreiben 0 für das neutrale Element.)
7 (b) Für a, b, c ∈ R gilt
8 (a · b) · c = a · (b · c).
9 (c) Es gibt 1 ∈ R, so dass für alle a ∈ R gilt:

10 1 · a = a · 1 = a.

11 (d) Für alle a, b, c ∈ R gelten:

12 a · (b + c) = a · b + a · c und (a + b) · c = a · c + b · c.

13 Ein Ring R heißt kommutativ, falls für alle a, b ∈ R gilt:

14 a · b = b · a.

15 Ein kommutativer Ring R heißt ein Körper, falls 0 6= 1 und zu jedem a ∈ R


16 mit a 6= 0 ein a−1 ∈ R \ {0} existiert mit a−1 a = 1. Dies ist gleichbedeutend
17 damit, dass R \ {0} mit dem Produkt eine Gruppe bildet.
18 Anmerkung. Manchmal wird die Forderung (c) weggelassen und zwischen
19 Ringen mit Eins“ und Ringen ohne Eins“ unterschieden. /
” ”
20 Bevor wir Beispiele von Ringen anschauen, beweisen wir ein paar wichtige
21 Rechenregeln in Ringen.
22 Satz 7.2. Es sei R ein Ring.
23 (a) Für alle a ∈ R gilt:
24 0 · a = a · 0 = 0.
25 (b) Für alle a, b ∈ R gilt:

26 (−a) · b = a · (−b) = −(a · b).

27 Beweis. (a) Wir haben

28 0 · a = 0 · a + a − a = 0 · a + 1 · a − a = (0 + 1) · a − a = 1 · a − a = a − a = 0,

29 und ebenso folgt a · 0 = 0.


30 (b) Es gilt

31 (−a)·b = (−a)·b+a·b−(a·b) = (−a+a)·b−(a·b) = 0·b−(a·b) = −(a·b),


(a)
56 Ringe und Körper


 20. Vorlesung, 1 und ebenso folgt a · (−b) = −(a · b). t
u

y 07.12.2018
2 Beispiel 7.3. (1) Z, Q, R und C sind kommutative Ringe. Q, R und C sind
3 Körper.
4 (2) Der kleinste Ring ist R = {0} mit 0 + 0 = 0 und 0 · 0 = 0. In diesem Ring
5 gilt 1 = 0.
6 (3) Es seien S eine Menge und A ein (kommutativer) Ring. Dann wird

7 R = AS := {f : S → A | f ist eine Abbildung}

8 mit
9 f · g: S → A, x 7→ f (x) · g(x)
+ +

10 (also punktweiser Addition und Multiplikation) ein (kommutativer) Ring.


11 Das Nullelement ist die Nullabbildung S → A, s 7→ 0, und das Einsele-
12 ment ist die Einsabbildung.
13 (4) Wir versehen R := R3 mit einer Summe und einem Produkt durch

14 (a1 , a2 , a3 ) + (b1 , b2 , b3 ) := (a1 + b1 , a2 + b2 , a3 + b3 )

15 und
16 (a1 , a2 , a3 ) · (b1 , b2 , b3 ) := (a1 · b1 , a2 · b2 , a1 b3 + a3 b2 ).
17 (Hierbei werden auf den rechten Seiten der Gleichungen die herkömmli-
18 chen Operationen von R benutzt.) Die Bedingungen (a) und (d) aus Defi-
19 nition 7.1 sind unmittelbar klar. Das Assoziativitätsgesetz in (b) bestätigt
20 man durch Nachrechnen. Weiter gilt für (a1 , a2 , a3 ) ∈ R3 :

21 (1, 1, 0) · (a1 , a2 , a3 ) = (a1 , a2 , a3 )

22 und
23 (a1 , a2 , a3 ) · (1, 1, 0) = (a1 , a2 , a3 ),
24 also gilt auch (c). Ist R kommutativ? Die Antwort lautet nein, denn

25 (1, 0, 0) · (0, 0, 1) = (0, 0, 1), aber (0, 0, 1) · (1, 0, 0) = (0, 0, 0).

26 An der letzten Gleichung sieht man, dass das Produkt zweier Ringele-
27 mente, die beide ungleich 0 sind, trotzdem 0 sein kann. Dies Phänomen
28 kann auch bei kommutativen Ringen auftreten (siehe Beispiel 7.5(2)). /
29 Wir haben in Beispielen schon verschiedentlich über Teilbarkeit von gan-
30 zen Zahlen gesprochen. Dies verallgemeinern wir auf allgemeine kommutative
31 Ringe R, indem wir für a, b ∈ R sagen, dass a ein Teiler von b ist (gleich-
32 bedeutend: a teilt b, oder auch: b ist Vielfaches von a), falls es c ∈ R gibt
33 mit
34 b = ac.
Ringe und Körper 57

1 Wir benutzen hierfür die Schreibweise a | b. Man beachte, dass die Teilbarkeit
2 von dem gewählten Ring abhängt. In R = Q gilt beispielsweise 2 | 3. Der
3 folgende Satz ist zugleich auch eine Definition.
4 Satz 7.4. Es seien R ein kommutativer Ring und a ∈ R.
5 (a) Durch
6 x≡y mod a :⇐⇒ a | (x − y) für x, y ∈ R
7 wird eine Äquivalenzrelation auf R definiert. Falls x ≡ y mod a, so sagen
8 wir, dass x und y kongruent modulo a sind.
9 (b) Die Äquivalenzklasse eines x ∈ R ist

10 [x]≡ = {x + ya | y ∈ R} =: x + Ra

11 und wird auch eine Restklasse modulo a genannt. Die Faktormenge


12 schreiben wir als

13 R/(a) := R/ ≡= {x + Ra | x ∈ R} .

14 (c) Die Faktormenge R/(a) wird ein kommutativer Ring durch folgende De-
15 finition der Summe und des Produkts: Für C1 , C2 ∈ R/(a) wählen wir
16 x, y ∈ R mit x ∈ C1 und y ∈ C2 und setzen

17 C1 + C2 := (x + y) + Ra und C1 · C2 = xy + Ra.

18 R/(a) heißt der Restklassenring modulo a.


19 Beweis. (a) Für alle x ∈ R ist x − x = 0 = a · 0 (wegen Satz 7.2(a)), also gilt
20 die Reflexivität. Zum Nachweis der Symmetrie seien x, y ∈ R mit x ∼ y
21 mod a, also x − y = ac mit c ∈ R. Dann folgt

22 y − x = −(ac) = a(−c)

23 (wegen Satz 7.2(b)), also gilt die Symmetrie. Zum Nachweis der Tran-
24 sitivität seien x, y, z ∈ R mit x ∼ y mod a und y ∼ z mod a, also
25 x − y = ac und y − z = ad mit c, d ∈ R. Dann folgt

26 x − z = (x − y) + (y − z) = ac + ad = a(c + d),

27 also x ∼ z mod a. Damit gilt auch die Transitivität.


28 (b) Für y ∈ R sind äquivalent:

29 y ∈ [x]∼ ⇐⇒ ∃ z ∈ R: y − x = za ⇐⇒ y ∈ x + Ra.

30 Dies zeigt die behauptete Gleichheit.


31 (c) Das Entscheidende ist hier der Nachweis der Wohldefiniertheit, also dass
32 C1 + C2 und C1 · C2 nicht von der Wahl der Vertreter x, y abhängen. Es
58 Ringe und Körper

1 seien also x0 ∈ C1 und y 0 ∈ C2 weitere Vertreter. Wir haben also c, d ∈ R


2 mit x0 − x = ca und y 0 − y = da. Es folgt

3 (x0 + y 0 ) − (x + y) = (c + d) · a, also (x0 + y 0 ) + Ra = (x + y) + Ra,

4 und weiter

5 x0 y 0 − xy = x0 y 0 − x0 y + x0 y − xy = x0 da + cay = (x0 d + cy) · a,

6 also x0 y 0 + Ra = xy + Ra. Damit ist die Wohldefiniertheit gezeigt.


7 Die Ringaxiome vererben sich von R auf R/(a). Exemplarisch rechnen
8 dies anhand des Assoziativgesetzes der Multiplikation nach: Es seien
9 C1 , C2 , C3 ∈ R/(a) und x ∈ C1 , y ∈ C2 und z ∈ C3 . Dann gelten
10 xy ∈ C1 · C2 und yz ∈ C2 · C3 , also

11 (C1 · C2 ) · C3 = (xy)z + Ra und C1 · (C2 · C3 ) = x(yz) + Ra,

12 also (C1 · C2 ) · C3 = C1 · (C2 · C3 ). Das Nullelement von R/(a) ist 0 + Ra =


13 Ra, und das Einselement ist 1 + Ra. t
u
14 Wir beschäftigen uns nun mit dem Ring R = Z/(m), wobei m ∈ N>0
15 eine fest gewählte positive natürliche Zahl ist. Für x ∈ Z schreiben wir x =
16 x + Zm ∈ Z/(m). Es gilt also

17 Z/(m) = 0, 1, . . . , m − 1 .

18 Beispiel 7.5. (1) Für m = 3 werden Summe und Produkt in folgenden Ta-
19 bellen gegeben:

+ 0 1 2 · 0 1 2
0 0 1 2 0 0 0 0
20 und
1 1 2 0 1 0 1 2
2 2 0 1 2 0 2 1

21 Wir sehen hieran, dass Z/(3) ein Körper ist. Es gilt 1 + 1 + 1 = 0.


22 (2) Für m = 4 ergibt sich folgende Multiplikationstabelle:

· 0 1 2 3
0 0 0 0 0
23 1 0 1 2 3
2 0 2 0 2
3 0 3 2 1

24 Z/(4) ist kein Körper, denn 2 ist nicht invertierbar. Es gilt 2 · 2 = 0.


25 (3) Für m = 1 ist Z/(m) = {0} der Nullring. /
Ringe und Körper 59

1 Im Beispiel haben wir beobachtet, dass Z/(3) ein Körper ist, Z/(4) aber
2 nicht. Dies sind Instanzen des folgenden Satzes. Wir erinnern daran, dass
3 eine natürliche Zahl n ∈ N eine Primzahl heißt, falls n > 1 und n nur die
4 Teiler 1 und n hat.
5 Satz 7.6. Für m ∈ N>0 ist Z/(m) genau dann ein Körper, wenn m eine
6 Primzahl ist.

7 Beweis. Wir setzen zunächst voraus, dass Z/(m) ein Körper ist. Aus 1 6= 0
8 folgt dann m > 1. Es sei m = xy mit x, y ∈ N und y > 1. Wir müssen
9 y = m zeigen. Wegen 1 ≤ x < m ist x 6= 0, also ist x nach Voraussetzung
10 invertierbar. Wir erhalten

11 y = x−1 · x · y = x−1 · m = x−1 · 0 = 0.

12 Es folgt m | y, also y = m.
13 Nun sei umgekehrt m eine Primzahl. Aus m > 1 folgt dann 1 6= 0. Es sei
14 y ∈ Z/(m) \ {0}. Die Abbildung

15 ϕ: Z/(m) → Z/(m), x 7→ x · y

16 ist (wegen des Distributivgesetzes) ein Homomorphismus der additiven Grup-


17 pe von Z/(m). Wir wollen das Kriterium aus Proposition 6.14(e) benutzen,
18 um die Injektivität von ϕ zu zeigen. Es sei also ϕ(x) = 0. Dies bedeutet
19 m | (x · y). Weil m eine Primzahl ist und m - y, folgt m | x, also x = 0. Nach
20 Proposition 6.14(e) folgt die Injektivität von ϕ. Als injektive Selbstabbildung
21 einer endlichen Menge ist ϕ also auch surjektiv (siehe Anmerkung 2.14(b)).
22 Insbesondere existiert x ∈ Z/(m) mit ϕ(x) = 1, also x · y = 1. Damit ist jedes
23 y ∈ Z/(m) \ {0} invertierbar, und damit ist Z/(m) ein Körper. t
u 
 21. Vorlesung,

y 12.12.2018
24 Anmerkung 7.7. (a) Im obigen Beweis kam folgender Schluss vor: Falls
25 eine Primzahl ein Produkt ganzer Zahlen teilt, so teilt sie mindestens
26 einen der Faktoren. Für diesen Schluss haben wir stillschweigend den Satz
27 über eindeutige Primzerlegung in N benutzt. Dieser wird im Abschnitt 18
28 bewiesen (siehe Satz 18.14).
29 (b) Ist p eine Primzahl, so schreiben wir standardmäßig Fp statt Z/(p).
30 (c) Die effiziente Berechnung von Inversen in Fp lässt sich mit Hilfe des eu-
31 klidischen Algorithmus durchführen, den wir hier nicht besprechen.
32 (d) Zu jeder Primzahlpotenz q = pn (mit n ∈ N>0 ) gibt es einen Körper Fq
33 mit q Elementen. Es handelt sich dabei nicht um Z/(q), die Konstruktion
34 ist komplizierter. /
35 Definition 7.8. Es sei R ein Ring. Falls es ein m ∈ N>0 gibt mit

36 1 + · · · + 1 = 0,
| {z }
m mal
60 Ringe und Körper

1 so heißt das kleinste m mit dieser Eigenschaft die Charakteristik von R,


2 geschrieben als char(R). Falls es kein solches m gibt, setzen wir char(R) := 0.
3 Beispiel 7.9. (1) char(Z) = char(Q) = char(R) = char(C) = 0.
4 (2) char (Z/(m)) = m, char(Fp ) = p. /
5 Anmerkung. Die Charakteristik eines Körpers ist eine Primzahl oder 0. /
6 Im Rest dieses Abschnitts beschäftigen wir uns mit Polynomen. Nach
7 dem naiven Polynombegriff sind Polynome Funktionen von einer bestimmten
8 Form, nämlich

9 f = an xn + an−1 xn−1 + · · · + a1 x + a0 .

10 Wenn wir das Polynom f = x2 − x als Polynom mit Koeffizienten in F2


11 anschauen, sehen wir, dass f (0) = f (1) = 0, also müsste f nach diesem
12 Polynombegriff das Nullpolynom sein. Wir möchten aber auch Elemente aus
13 größeren Ringen in Polynome einsetzen können, und dabei können z.B. bei
14 dem obigen Polynom Werte ungleich Null herauskommen. Wir benötigen
15 also einen anderen Polynombegriff. Die Idee ist, dass Polynome durch die
16 Folgen ihrer Koeffizienten a0 , a1 , . . . gegeben sein sollen. Es ist naheliegend,
17 sie entsprechend als nichts anderes als Koeffizientenfolgen zu definieren.
18 Definition 7.10. Es sei R ein kommutativer Ring.
19 (a) Ein Polynom über R ist eine Abbildung f : N → R, i 7→ ai (d.h. ein
20 R-wertige Folge), bei der höchstens endlich viele der ai ungleich 0 sind.
21 Die ai heißen die Koeffizienten von f .
22 (b) Falls bei einem Polynom f mindestens eines der ai ungleich 0 ist, so heißt
23 das maximale i mit ai 6= 0 der Grad von f , geschrieben als deg(f ). Falls
24 alle ai gleich 0 sind, so setzen wir deg(f ) = −∞.
25 (c) Für zwei Polynome f : N → R, i 7→ ai und g: N → R, i 7→ bi definieren
26 wir
27 f + g: N → R, i 7→ ai + bi
28 und
i
X X
29 f · g: N → R, i 7→ aj bi−j = aj · bk .
j=0 j,k∈N
mit j+k=i

30 (d) Mit x bezeichnen wir das spezielle Polynom, bei dem 1 ∈ N auf 1 ∈ R und
31 alle anderen i ∈ N auf 0 ∈ R abgebildet werden. Für a ∈ R bezeichnen
32 wir das Polynom mit 0 7→ a und i 7→ 0 für i > 0 mit a. (Anders gesagt:
33 Wir fassen die Elemente von R als spezielle Polynome auf.)
34 (e) Die Menge aller Polynome über R heißt der Polynomring über R und
35 wird mit R[x] bezeichnet.
36 Satz 7.11. Es sei R ein kommutativer Ring.
37 (a) Der Polynomring R[x] ist ein kommutativer Ring.
Ringe und Körper 61

1 (b) Für ein Polynom f : N → R, i 7→ ai mit ai = 0 für i > n gilt


n
X
2 f = an xn + an−1 xn−1 + · · · + a1 x + a0 = a i xi (7.1)
i=0

3 (mit x0 := 1).
Beweis. (a) Es ist klar, dass R[x] mit der Summe aus Definition 7.10(c) eine
abelsche Gruppe bildet mit der Nullfolge als Nullelement. Für den Nach-
weis der weiteren Ringaxiome seien f : N → R, i 7→ ai , g: N → R, i 7→ bi
und h: N → R, i 7→ ci drei Polynome. Der i-te Koeffizient von (f · g) · h
ist
i
X
(j-ter Koeffizient von f · g) · ci−j =
j=0

X j
i X  X j
i X X
ak bj−k ci−j = ak bj−k ci−j = aj bk cl .
j=0 k=0 j=0 k=0 j,k,l∈N
mit j+k+l=i

4 Da die entsprechende Rechnung für f ·(g ·h) zu demselben Ergebnis führt,


5 folgt die Bedingung (b) von Definition 7.1. Man sieht sofort, dass das
6 Kommutativgesetz f · g = g · f gilt. Weiter ergibt sich der i-te Koeffizient
7 von f · (g + h) zu
i
X i
X i
X
8 aj (bi−j + ci−j ) = aj bi−j + aj ci−j ,
j=0 j=0 j=0

9 welches auch der i-te Koeffizient von f · g + f · h ist. Zusammen mit


10 dem Kommutativgesetz ergibt dies Definition 7.1(d). Das Polynom mit
11 0 7→ 1 und i 7→ 0 für i > 0 liefert ein Einselement. Insgesamt ist R[x] ein
12 kommutativer Ring.
13 (b) Wir schreiben (
1 falls i = j,
14 δi,j := .
0 sonst
15 Also ist x definiert als die Folge j 7→ δ1,j . Für i ∈ N behaupten wir,
16 dass xi die Folge j 7→ δi,j ist. Für den Beweis benutzen wir Induktion
17 nach i. Für i = 0 ist die Behauptung korrekt. Falls sie für ein i gilt, so
18 ist xi+1 = x · xi die Folge
j
X
19 j 7→ δ1,k δi,j−k = δi,j−1 = δi+1,j ,
k=0
62 Ringe und Körper

1 also gilt die Behauptung auch für i + 1. Für a ∈ R bezeichnen wir die
2 Folge j 7→ a · δ0,j mit a. Also ist a · xi die Folge
j
X
3 j 7→ a · δ0,k δi,j−k = a · δi,j ,
k=0
Pn
4 und für a0 , . . . , an ∈ R ist i=0 ai xi die Folge
n
X
5 j 7→ ai · δi,j = aj .
i=0


 22. Vorlesung, 6 Es folgt (7.1). t
u

y 14.12.2018
7 Von nun an schreiben wir Polynome nur noch in der Form (7.1).
8 Die folgende Definition erlaubt es, Elemente eines Rings in Polynome ein-
9 zusetzen.
Pn
10 Definition 7.12. Es seien R ein kommutativer Ring, f = i=0 ai xi ∈ R[x]
11 ein Polynom und c ∈ R.
12 (a) Das Element
n
X
13 f (c) := ai ci ∈ R
i=0

14 heißt die Auswertung von f bei c.


15 (b) Falls f (c) = 0, so heißt c eine Nullstelle von f .
16 (c) Die Abbildung
17 R → R, c 7→ f (c)
18 heißt die zu f gehörige Polynomfunktion.
19 Anmerkung 7.13. (a) Wir können ein Polynom aus R[x] auch bei Elemen-
20 ten aus einem Ring S, der R umfasst, auswerten. S muss dafür nicht
21 kommutativ sein.
22 (b) Für f, g ∈ R[x] und c ∈ R gelten

23 (f + g)(c) = f (c) + g(c) und (f · g)(c) = f (c) · g(c).

24 Dies kann man auch ausdrücken, indem man sagt, dass die Abbildung
25 R[x] → R, f 7→ f (c) ein Ring-Homomorphismus ist.
26 (c) Ist f ∈ R[x] ein Polynom vom Grad 0 oder −∞, so ist die zugehörige
27 Polynomfunktion konstant. Man nennt f ein konstantes Polynom , falls
28 deg(f ) ≤ 0. /
29 Von nun an beschäftigen wir uns mit Polynomen über Körpern. In diesem
30 Fall kann man Polynome nicht nur addieren und multiplizieren, sondern man
31 hat auch eine Division mit Rest, die im folgenden Satz behandelt wird.
Ringe und Körper 63

1 Satz 7.14. Es seien K ein Körper und f, g ∈ K[x] Polynome mit g 6= 0.


2 Dann gibt es q, r ∈ K[x] mit

3 f =g·q+r und deg(r) < deg(g).

4 Beweis. Wir schreiben


n
X m
X
5 f= ai xi und g = bi x i
i=0 i=0

6 mit ai , bi ∈ K, bm 6= 0, und benutzen Induktion nach n. Im Fall n < m


7 stimmt der Satz mit q = 0 und r = f . Falls n ≥ m, bilden wir

8 fe := f − b−1
m an x
n−m
· g.
Pn−1
9 Dann gilt fe = i=0 ci xi mit ci ∈ K. Nach Induktion gibt es qe, r ∈ K[x] mit

10 fe = qe · g + r und deg(r) < deg(g).

11 Es folgt
f = fe + b−1 n−m
· g = qe + b−1 n−m

12 m an x m an x ·g + r.
| {z }
=:q

13 Dies schließt den Beweis ab. t


u
14 Beispiel 7.15. Für f = x4 und g = x2 + 1 ergibt sich

15 x4 = (x2 + 1)(x2 − 1) + 1,

16 also q = x2 − 1 und r = 1. /
17 Wir bemerken, dass für zwei Polynome f, g ∈ K[x] über einem Körper die
18 Formel
19 deg(f · g) = deg(f ) + deg(g) (7.2)
20 gilt. (Die Konvention deg(0) := −∞ war dadurch motiviert, dass diese Glei-
21 chung auch für das Nullpolynom gelten sollte.) Die obige Formel kann schief-
22 gehen über Ringen, in denen zwei Elemente ungleich Null trotzdem das Pro-
23 dukt 0 haben können.
24 Korollar 7.16. Es sei f ∈ K[x] \ {0} ein Polynom über einem Körper K
25 und c ∈ K eine Nullstelle. Dann gilt

26 f = (x − c) · g (7.3)

27 mit g ∈ K[x] und deg(g) = deg(f ) − 1.


28 Beweis. Division mit Rest liefert

29 f = (x − c) · g + r
64 Ringe und Körper

1 mit g, r ∈ K[x], deg(r) < deg(x − c) = 1. Also ist r konstant. Einsetzen von c
2 liefert
3 0 = f (c) = (c − c) · g(c) + r(c) = r.
4 Hieraus folgt (7.3). Die Aussage über den Grad von g folgt aus (7.2). t
u
5 Korollar 7.17. Es sei f ∈ K[x]\{0} ein Polynom über einem Körper. Dann
6 hat f höchstens deg(f ) Nullstellen (in K).

7 Beweis. Wir führen den Beweis durch Induktion nach n := deg(f ). Im Falle
8 n = 0 ist f konstant und ungleich Null, also gibt es keine Nullstellen.
9 Im Weiteren sei n > 0 und c ∈ K eine Nullstelle von f . Nach Korollar 7.16
10 gilt f = (x−c)·g mit g ∈ K[x] und deg(g) = n−1. Für jede weitere Nullstelle
11 b ∈ K von f gilt
12 0 = f (b) = (b − c)g(b).
13 Falls b 6= c, liefert Multiplikation mit (b − c)−1 , dass g(b) = 0 sein muss.
14 Nach Induktion hat aber g höchstens n − 1 Nullstellen, und es folgt die
15 Behauptung. t
u
16 Beispiel 7.18. (1) Wir betrachten f = x4 − 1 ∈ R[x]. Wegen f (1) = 0 ist f
17 durch x − 1 teilbar:

18 x4 − 1 = (x − 1) (x3 + x2 + x + 1) .
| {z }
=:g

19 Für g finden wir die Nullstelle −1, und es gilt

20 g = (x + 1)(x2 + 1),

21 also
22 f = (x − 1)(x + 1)(x2 + 1).
23 Das Polynom x2 + 1 hat keine Nullstelle (in R).
24 (2) Um zu sehen, dass die Voraussetzung in Korollar 7.17, dass K ein Körper
25 ist, nicht weggelassen werden kann, betrachten wir den Ring R = Z/(8)
26 und das Polynom f = x2 − 1 ∈ R[x]. Wir finden die Nullstellen 1, 3, 5
27 und 7 von f , also mehr, als der Grad angibt. /
28 Ist f ∈ K[x] \ {0} ein Polynom über einem Körper und c eine Nullstelle, so
29 gilt f = (x − c) · g mit g ∈ K[x] (Korollar 7.16). Man nennt den Faktor x − c
30 auch einen Linearfaktor. Nun kann es passieren, dass c auch eine Nullstelle
31 von g ist. In diesem Fall folgt f = (x − c)2 h mit h ∈ K[x], und man kann
32 fortfahren, bis das verbleibende Polynom c nicht mehr als Nullstelle hat.
33 Der höchste Exponent e, so dass (x − c)e ein Teiler von f ist, heißt die
34 Vielfachheit der Nullstelle c von f . Insbesondere spricht man von einfachen
35 (e = 1) und mehrfachen (e > 1) Nullstellen.
36 Nachdem man alle Linearfaktoren (x−c) zur Nullstelle c von f abgespalten
37 hat, kann man weitere Nullstellen des verbleibenden Polynoms suchen und
Ringe und Körper 65

1 die entsprechenden Linearfaktoren abspalten. Falls dieser Prozess mit einem


2 konstanten Polynom endet, also
n
Y
3 f =a· (x − ci )
i=1

4 mit a, ci ∈ K, a 6= 0 (wobei die ci nicht unbedingt verschieden sein müssen),


5 so sagen wir, dass f (über K) in Linearfaktoren zerfällt.
6 Beispiel 7.19. Wir setzen K = R.
7 (1) Das Polynom

8 f = x5 − 2x3 + x = x(x2 − 1)2 = x(x − 1)2 (x + 1)2

9 zerfällt in Linearfaktoren. Es hat die Nullstellen ±1 mit der Vielfachheit 2


10 und 0 als einfache Nullstelle.
11 (2) Das Polynom x4 − 1 aus Beispiel 7.18(1) zerfällt nicht in Linearfaktoren.
12 /
13 Definition 7.20. Ein Körper K heißt algebraisch abgeschlossen, falls
14 jedes nicht-konstante Polynom f ∈ K[x] eine Nullstelle in K hat.
15 Ist K algebraisch abgeschlossen, so zerfällt jedes nicht-konstante Polynom
16 f ∈ K[x] in Linearfaktoren.
17 R ist nicht algebraisch abgeschlossen, z.B. fehlt dem Polynom x2 + 1 eine
18 Nullstelle in R. Das wichtigste Beispiel für einen algebraisch abgeschlossenen
19 Körper ist C:
20 Satz 7.21 (Fundamentalsatz der Algebra). Der Körper C der komplexen Zah-
21 len ist algebraisch abgeschlossen.
22 Wir können den Beweis hier nicht führen, da er Methoden aus der Funk-
23 tionentheorie (oder der Algebra) benötigt.
24 Aus der obigen Betrachtung folgt, dass jedes Polynom über einem alge-
25 braisch abgeschlossenen Körper in Linearfaktoren zerfällt.
1 Lineare Algebra: Vektorräume


 23. Vorlesung,

y 18.12.2018
2 In diesem Kapitel kommen wir zu den Kernthemen der linearen Algebra: den
3 Vektorräumen, ihren Abbildungen und den Matrizen.

4 8 Vektorräume und Unterräume

5 In diesem Abschnitt steht K immer für einen Körper. Man verliert nichts
6 Wesentliches, wenn man sich K = R oder K = C vorstellt.
7 Definition 8.1. Ein K-Vektorraum (auch: Vektorraum über K) ist eine
8 Menge V zusammen mit zwei Abbildungen : V × V → V, (v, w) 7→ v  w
9 und : K × V → V, (a, v) 7→ a v, so dass folgende Axiome gelten:
10 (1) V ist mit  als Verknüpfung eine abelsche Gruppe. Man verwendet addi-
11 tive Schreibweise.
12 (2) Für alle a ∈ K und v, w ∈ V gilt

13 a (v  w) = a va w

14 (mit der Konvention Punkt vor Strich, also a va w = (a v)(a w)).
15 (3) Für alle a, b ∈ K und v ∈ V gilt

16 (a + b) v=a vb v.

17 (4) Für alle a, b ∈ K und v ∈ V gilt

18 (a · b) v=a (b v).

19 (5) Für alle v ∈ V gilt


20 1 v = v.
68 Vektorräume und Unterräume

1 Die Elemente eines Vektorraums heißen Vektoren. Die Elemente von K


2 werden (in diesem Zusammenhang) oft Skalare genannt. Wir haben die Sym-
3 bole “ und “ für die Unterscheidung von der Addition und Multiplika-
” ”
4 tion im Körper K verwendet. Ab jetzt werden wir immer v + w für v  w und
5 a · v oder av für a v schreiben.
6 Wir hätten einen Vektorraum auch formaler als ein Tripel (V, , ) de-
7 finieren können. Wir verwenden jedoch den etwas laxeren Sprachgebrauch
8 eine Menge . . . zusammen mit Abbildungen . . .“.

9 Beispiel 8.2. (1) Es sei n ∈ N>0 fest und

10 Kn = K × · · · × K
| {z }
n mal

11 das n-fache kartesische Produkt. K n wird zu einem K-Vektorraum durch

12 (x1 , . . . , xn ) + (y1 , . . . , yn ) := (x1 + y1 , . . . , xn + yn ) für xi , yi ∈ K

13 und
14 a · (x1 , . . . , xn ) := (ax1 , . . . , axn ) für a, xi ∈ K.
15 Dies sieht man sofort durch Nachprüfen von Definition 8.1. Der Null-
16 vektor ist (0, . . . , 0). Man nennt K n auch den den n-dimensionalen
17 Standardraum.
18 (2) V = {0} (abelsche Gruppe mit nur einem Element 0) wird mit a · 0 := 0
19 für a ∈ K ein K-Vektorraum. Dieser Vektorraum heißt der Nullraum.
20 (3) K selbst ist ein K-Vektorraum (mit der Addition und Multiplikation von
21 K).
22 (4) C ist ein R-Vektorraum; R ist ein Q-Vektorraum.
23 (5) Der Polynomring K[x] ist ein K-Vektorraum (mit der üblichen Polyno-
24 maddition und dem üblichen Produkt einer Konstanten aus K und eines
25 Polynoms).
26 (6) Für (festes) d ∈ N ist {f ∈ K[x] | deg(f ) < d} ein K-Vektorraum.
27 (7) S sei irgendeine Menge und

28 V := K S = {f : S → K | f Abbildung}.

29 Für f, g ∈ V und a ∈ K definieren wir f + g und a · f ∈ V durch

30 f + g: S → K, x 7→ f (x) + g(x) und a · f : S → K, x 7→ a · f (x).

31 (Man sagt auch, dass die Summe von Funktionen und das skalare Viel-
32 fache einer Funktion punktweise definiert werden.) Durch stures Nach-
33 rechen sieht man, dass V ein K-Vektorraum ist. Der Nullvektor ist die
34 sogenannte Nullfunktion f0 , definiert durch f0 (x) = 0 für alle x ∈ S.
35 (8) Gegenbeispiel: Es sei V eine abelsche Gruppe mit neutralem Element 0,
36 aber V 6= {0}. Wir setzen a · v := 0 für alle a ∈ K und v ∈ V . Dann
Vektorräume und Unterräume 69

1 sind die Axiome (1) bis (4) in Definition 8.1 erfüllt, aber (5) nicht. Der
2 mögliche Verdacht, dass (5) überflüssig sein könnte, erweist sich also als
3 unbegründet. /
4 Anmerkung 8.3. Man kann in Definition 8.1 auch K durch einen Ring R
5 ersetzen. Dadurch wird der Begriff eines R-Moduls definiert. Man könnte
6 sagen, dass ein Modul dasselbe ist wie ein Vektorraum, nur über einem Ring
7 statt über einem Körper.
8 Beispielsweise wird jede (additiv geschriebene) abelsche Gruppe G ein Z-
9 Modul, indem wir für n ∈ N und x ∈ G

10 n · x := x + · · · + x und (−n) · x := −(n · x)


| {z }
n mal

11 setzen. /
12 Aus den Vektorraumaxiomen ergeben sich ein paar Rechenregeln:
13 Proposition 8.4. Es seien V ein K-Vektorraum und a ∈ K, v ∈ V . Dann
14 gelten:
15 (a) a · 0 = 0 und 0 · v = 0 (in der ersten Gleichung bezeichnet die linke 0 den
16 Nullvektor, in der zweiten das Nullelement von K);
17 (b) (−a) · v = a · (−v) = −(a · v);
18 (c) aus a · v = 0 folgt a = 0 oder v = 0.

19 Beweis. Wir verwenden nur die Vektorraum- (und Körper-)Axiome.


20 (a) Es gelten

21 a · 0 = a · 0 + a · 0 − (a · 0) = a · (0 + 0) − (a · 0) = a · 0 − (a · 0) = 0
(1) (2) (1) (1)

22 und

23 0 · v = 0 · v + 0 · v − (0 · v) = (0 + 0) · v − (0 · v) = 0 · v − (0 · v) = 0.
(1) (3) (1)

24 (b) Es gelten

25 (−a)v = (−a)v + av − (av) = (−a + a)v − (av) = 0v − (av) = −(av)


(1) (3) (a)

26 und

27 a(−v) = a(−v) + av − (av) = a(−v + v) − (av) = a0 − (av) = −(av).


(1) (2) (1) (a)

28 (c) Es sei a · v = 0 aber a 6= 0. Dann folgt

29 v = 1 · v = (a−1 a) · v = a−1 · (av) = a−1 · 0 = 0.


(5) (4) (a)
70 Vektorräume und Unterräume

1 t
u
2 Definition 8.5. Sei V ein K-Vektorraum. Eine Teilmenge U ⊆ V heißt ein
3 Unterraum (auch: Untervektorraum, Teilraum), falls gelten:
4 (1) U 6= ∅;
5 (2) Für v, w ∈ U ist auch v + w ∈ U (also ist U mit + eine Untergruppe);
6 (3) Für a ∈ K und v ∈ U gilt a · v ∈ U .
7 Aus der Definition folgt sofort:
8 • Jeder Unterraum enthält den Nullvektor.
9 • Mit den Operationen +“ und ·“ von V wird ein Unterraum U selbst ein
” ”
10 K-Vektorraum.
11 • Für den Nachweis, dass eine nicht-leere Teilmenge U ⊆ V ein Unterraum
12 ist, genügt es zu zeigen, dass für v, w ∈ U und a ∈ K auch av + w in U
13 liegt.
14 Beispiel 8.6. (1) V = R2 . Jede Gerade durch den Nullpunkt ist ein Unter-
15 raum. Formaler: Wähle v ∈ V . Dann ist K · v := {a · v | a ∈ K} ⊆ V ein
16 Unterraum. Dies gilt sogar für jeden Vektorraum V und v ∈ V . Geraden
17 im R2 , die nicht durch den Nullpunkt gehen, sind keine Unterräume.
18 (2) U = {0} und V selbst sind Unterräume eines Vektorraums V .
19 (3) Sei V = K[x] der Polynomring und d ∈ N fest. Dann ist

20 U = {f ∈ V | deg(f ) < d} ⊆ V

 24. Vorlesung,

y 19.12.2018 21 ein Unterraum (siehe Beispiel 8.2(5) und (6)).
22 (4) Sei S eine Menge und V = K S (siehe Beispiel 8.2(7)). Wähle x ∈ S fest.
23 Dann ist
24 U := {f ∈ V | f (x) = 0} ⊆ V
25 ein Unterraum. (Die Bedingung f (x) = 1 würde nicht zu einem Unter-
26 raum führen!)
27 (5) Die Menge aller stetigen (differenzierbaren) Funktionen R → R bildet
28 einen Unterraum von RR .
29 (6) Die Vereinigungsmenge zweier Geraden U1 , U2 ⊆ R2 durch den Nullpunkt
30 ist kein Unterraum (es sei denn U1 = U2 ). /
31 Das letzte Beispiel zeigt, dass Vereinigungen von Unterräumen im Allge-
32 meinen keine Unterräume sind. Die folgende Proposition beschäftigt sich mit
33 Schnitten von Unterräumen.
34 Proposition 8.7. Es seien V ein K-Vektorraum und U1 , U2 ⊆ V Un-
35 terräume. Dann gelten:
36 (a) U1 ∩ U2 ⊆ V ist ein Unterraum.
37 (b) U1 + U2 := {v + w | v ∈ U1 , w ∈ U2 } ⊆ V ist ein Unterraum.
38 (c) Ist M = 6 ∅ eine nicht-leere Menge, deren Elemente Unterräume von V
39 sind, so ist auch der Schnitt
Vektorräume und Unterräume 71
\ \
1 M= U ⊆V
U ∈M

2 ein Unterraum.

3 Beweis. Wir müssen nur (b) und (c) zeigen, da (a) ein Spezialfall von (c) ist.
4 (b) Es gilt U1 + U2 6= ∅. Seien v + w und v 0 + w0 Elemente von U1 + U2 mit
5 v, v 0 ∈ U1 , w, w0 ∈ U2 . Dann folgt

6 (v + w) + (v 0 + w0 ) = (v + v 0 ) + (w + w0 ) ∈ U1 + U2 ,

7 und für a ∈ K folgt a · (v + w) = av + aw ∈ U1 + U2 . Also ist U1 + U2 ein


8 Unterraum. T
9 (c) Wir schreiben W := U ∈M U . Für alle U ∈ M gilt 0 ∈ U , also 0 ∈ W .
10 Weiter gilt für v, w ∈ W , dass v und w in allen U ∈ M liegen. Damit
11 auch v + w ∈ U für alle U ∈ M, also v + w ∈ W . Ebenso folgt a · v ∈ W
12 für a ∈ K und v ∈ W . damit ist gezeigt, dass W ein Unterraum ist. t u
13 Der Unterraum U1 + U2 aus Proposition 8.7(b) heißt der Summenraum
14 von U1 und U2 . Man kann auch aus mehr als zwei Unterräumen den Sum-
15 menraum bilden. Proposition 8.7(c) drückt man manchmal aus, indem man
16 sagt, dass die Menge der Unterräume eines Vektorraums ein durchschnittsab-
17 geschlossenes System bilden. Proposition 8.7(c) macht die folgende Definition
18 möglich.
19 Definition 8.8. Es seien V ein K-Vektorraum und S ⊆ V eine Teilmenge.
20 (Wir setzen nicht voraus, dass S ein Unterraum ist.) Wir betrachten die
21 Menge M := {U ⊆ V | U ist ein Unterraum und S ⊆ U } und bilden
\
22 hSi := U. (8.1)
U ∈M

23 hSi heißt der von S erzeugte Unterraum (auch: aufgespannter Unterraum,


24 Erzeugnis) von V . Falls S = {v1 , . . . , vn } endlich ist, schreiben wir hSi auch
25 als
26 hv1 , . . . , vn i.
27 Man sieht sofort, dass hSi der kleinste Unterraum von V ist, der S (als
28 Teilmenge) enthält. Genauer: Jeder Unterraum von V , der S enthält, enthält
29 auch hSi.
30 Die obige Definition ist konzeptionell elegant. Sie wirft jedoch die Frage
31 auf, wie sich der von S erzeugte Unterraum explizit beschreiben lässt. Dieser
32 Frage wenden wir uns jetzt und zu Beginn des folgenden Abschnitts zu.
33 Beispiel 8.9. (1) Sei v ∈ V ein Vektor. Wie sieht hvi aus? Die Antwort lautet:
34 hvi = K · v = {a · v | a ∈ K}. Denn K · v ist ein Unterraum, der v enthält,
35 und andererseits ist K · v in jedem Unterraum U mit v ∈ U enthalten.
36 (2) Noch einfacher ist der Fall S = ∅: h∅i = {0}, der Nullraum. /
72 Vektorräume und Unterräume

1 Wir betrachten nun den Fall, dass S die Vereinigung zweier Unterräume
2 ist.
3 Satz 8.10. Es seien V ein K-Vektorraum, U1 und U2 Unterräume und S :=
4 U1 ∪ U2 . Dann gilt
5 hSi = U1 + U2 .

6 Beweis. Nach Proposition 8.7(b) ist U1 + U2 ein Unterraum. Außerdem liegt


7 jedes v ∈ U1 (als v+0) und jedes w ∈ U2 (als 0+w) in U1 +U2 . U1 +U2 ist also
8 einer der Räume U , die in (8.1) zum Schnitt kommen, also hSi ⊆ U1 + U2 .
9 Umgekehrt sei U ⊆ V ein Unterraum mit S ⊆ U . Für v ∈ U1 und w ∈
10 U2 folgt dann v + w ∈ U , also U1 + U2 ⊆ U . Wegen (8.1) impliziert dies
11 U1 + U2 ⊆ hSi. t
u

12 Beispiel 8.11. Es seien U1 , U2 ⊆ R3 zwei verschiedene Geraden durch den


13 Nullpunkt. Dann ist U1 + U2 eine Ebene. /
14 Um eine allgemeingültige Antwort auf die Frage nach einer expliziten Be-
15 schreibung des erzeugten Unterraums hSi einer Teilmenge S ⊆ V zu geben,
16 benötigen wir eine Definition.
17 Definition 8.12. (a) Es seien v1 , . . . , vn ∈ V Vektoren. Ein Vektor v ∈ V
18 heißt Linearkombination von v1 , . . . , vn , falls es Skalare a1 , . . . , an ∈ K
19 gibt mit
20 v = a 1 v1 + · · · + a n vn .
21 (b) Es sei S ⊆ V eine Teilmenge. Ein Vektor v ∈ V heißt Linearkombi-
22 nation von S, falls es n ∈ N und v1 , . . . , vn ∈ S gibt, so dass v eine
23 Linearkombination von v1 , . . . , vn ist. Falls S = ∅, so sagen wir, dass der
24 Nullvektor 0 (die einzige) Linearkombination von S ist. (0 wird als leere
25 Summe aufgefasst.)
26 Es ist klar, dass die Teile (a) und (b) der Definition für endliche Mengen
27 S = {v1 , . . . , vn } übereinstimmen. In (b) geht man über endliche Auswah-
28 len von Vektoren, da es in der linearen Algebra nur endliche Summen gibt
29 (ebenso wie in der Analysis, in der man Grenzwerte von endlichen Teilsum-
30 men betrachtet).
31 Nun beantworten wir die Frage nach dem erzeugten Unterraum.
32 Satz 8.13. Für eine Teilmenge S ⊆ V ist der erzeugte Unterraum hSi die
33 Menge aller Linearkombinationen von S:

34 hSi = {v ∈ V | v ist Linearkombination von S} .

35 Insbesondere gilt für v1 , . . . , vn ∈ V :


n
nX o
36 hv1 , . . . , vn i = ai vi | a1 , . . . , an ∈ K .
i=1
Vektorräume und Unterräume 73

1 Beweis. Es sei W ⊆ V die Menge aller Linearkombinationen von S. Es gilt


2 0 ∈ W . Da die Summe zweier Linearkombinationen und ein skalares Vielfa-
3 ches einer Linearkombination wieder Linearkombinationen sind, folgt, dass
4 W ein Unterraum ist. Außerdem liegt jedes v ∈ S in W . Damit ist W einer
5 der Unterräume U , die in (8.1) zum Schnitt kommen. Es folgt hSi ⊆ W .
6 Andererseits sei U ⊆ V ein Unterraum mit S ⊆ U . Für v1 , . .P. , vn ∈ S
n
7 und a1 , . . . , an ∈ K liegen dann alle vi in U und damit auch i=1 ai vi .
8 Also enthält U alle Linearkombinationen von S, d.h. W ⊆ U . Dies impliziert
9 W ⊆ hSi, und der Beweis ist abgeschlossen. t
u 
 25. Vorlesung,

y 21.12.2018
10 Beispiel 8.14. (1) Die Vektoren v = (1, −1), w = (0, 1) ∈ R2 haben die
11 Linearkombination

12 1 · (1, −1) + 3 · (0, 1) = (1, 2).

13 Die Menge aller Linearkombinationen ist

14 hv, wi = {a · (1, −1) + b · (0, 1) = (a, −a + b) | a, b ∈ R} = R2 .

15 (2) Die Vektoren v = (1, −1), w = (−1, 1) ∈ R2 haben die Linearkombinati-


16 on
17 1 · v + 3 · w = (−2, 2) = −2 · v.
18 Die Menge aller Linearkombinationen ist

19 hv, wi = {a · v + b · w = (a − b, −a + b) | a, b ∈ R} = hvi = hwi $ R2 .

20 (3) Mit
21 e1 := (1, 0, 0), e2 := (0, 1, 0), e3 := (0, 0, 1) ∈ R3
22 gilt
23 R3 = he1 , e2 , e3 i.
24 Es ist klar, dass sich dies von R3 auf K n verallgemeinern lässt.
25 (4) Es seien V = RR und f, g ∈ V mit f (x) = sin(x) und g(x) = cos(x). Es
26 sei h ∈ hf, gi, also h(x) = a sin(x) + b cos(x) mit a, b ∈ R. Es gibt ein
27 x0 ∈ R mit
p p
28 a = a2 + b2 · cos(x0 ) und b = a2 + b2 · sin(x0 ).

29 Es folgt
p p
30 h(x) = a2 + b2 (cos(x0 ) sin(x) + sin(x0 ) cos(x)) = a2 + b2 ·sin(x0 +x),

31 also sind alle Linearkombinationen von f und g phasenverschobene“



32 Sinus-Funktionen verschiedener Amplitude“.

33 (5) Es seien V = K[x] der Polynomring über einem Körper und
74 Lineare Gleichungssysteme und Matrizen

1 S = {xi | i ∈ N} = {1, x, x2 , . . .}.

2 Dann gilt
3 V = hSi,
4 denn jedes Polynom Pist eine Linearkombination von Potenzen xi . Die

5 Exponentialfunktion i=0 i!1 xi liegt jedoch nicht in hSi, da nur endliche
6 Summen enthalten sind. /

7 9 Lineare Gleichungssysteme und Matrizen

8 Auch in diesem Abschnitt steht K immer für einen Körper. Wir entwickeln
9 Rechentechniken, die bei fast allen rechnerischen Problemen der linearen Al-
10 gebra zum Einsatz kommen.
11 Wir untersuchen Gleichungssysteme von der Art

x1 + 2x3 + x4 = −3
2x1 + 4x3 − 2x4 = 2
12 (9.1)
x2 − x4 = 2
x1 + 2x3 + 2x4 = −5 .

13 Solche Gleichungssysteme nennt man lineare Gleichungssysteme (kurz:


14 LGS). Wir verfolgen dabei folgende Idee: Das Addieren eines Vielfachen ei-
15 ner Gleichung zu einer andern ändert die Lösungsmenge nicht, es kann aber
16 das Gleichungssystem vereinfachen. Wenn wir beispielsweise in (9.1) die er-
17 ste Gleichung von der vierten subtrahieren, ergibt sich x4 = −2. Um die
18 Handhabung zu vereinfachen, werden wir lineare Gleichungssysteme in so-
19 genannte Matrizen zusammenfassen. Zunächst definieren wir, was wir unter
20 einer Matrix verstehen wollen.
21 Definition 9.1. Es seien m, n ∈ N>0 positive natürliche Zahlen. Eine m×n-
22 Matrix ist eine rechteckige Anordnung“

 
a1,1 a1,2 · · · a1,n
 a2,1 a2,2 · · · a2,n 
A= .
 
23 .. .. 
 .. . . 
am,1 am,2 · · · am,n

24 mit ai,j ∈ K. Formaler definieren wir eine m × n-Matrix als eine Abbildung
25 {1, . . . , m} × {1, . . . , n} → K, wobei das Bild von (i, j) mit ai,j bezeichnet
26 wird.
27 Das Element ai,j einer Matrix A heißt der (i, j)-te Eintrag von A. Wir
28 benutzen verschiedene Schreibweisen für Matrizen:
Lineare Gleichungssysteme und Matrizen 75

1 A = (ai,j )i=1,...,m = (ai,j )1≤i≤m = (ai,j )i,j = (ai,j ),


j=1,...,n 1≤j≤n

2 wobei die beiden letzten benutzt werden, wenn m und n aus dem Kontext klar
3 sind. Durch die Definition einer Matrix ergibt sich automatisch der Gleich-
4 heitsbegriff von Matrizen: Zwei m × n-Matrizen A = (ai,j ) und B = (bi,j )
5 sind gleich, falls ai,j = bi,j für alle i und j gilt.
6 Die Menge aller m × n-Matrizen wird mit K m×n bezeichnet.
1×n
7 Eine 1 × n-Matrix
  (a1 , . . . , an ) ∈ K wird als Zeilenvektor, eine
a1
n × 1-Matrix  ...  ∈ K n×1 als Spaltenvektor bezeichnet. Elemente des
 
8

an
9 n-dimensionalen Standardraums werden wir meist als Spaltenvektoren schrei-
10 ben. Es wird sich bald zeigen, warum dies praktisch ist.
11 Für A = (ai,j ) ∈ K m×n und i ∈ {1, . . . 
, m} ist(ai,1 , . . . , ai,n ) ∈ K
1×n
die
a1,j
i-te Zeile von A. Für j ∈ {1, . . . , n} ist  ...  ∈ K m×1 die j-te Spalte
 
12

am,j
13 von A.
14 Eine Matrix A ∈ K m×n mit m = n heißt quadratisch. Für A = (ai,j ) ∈
m×n
15 K ist AT := (aj,i ) ∈ K n×m die transponierte Matrix; also z.B.
 
 T 14
123
16 = 2 5 .
456
36

17 Eine quadratische Matrix heißt symmetrisch, falls AT = A gilt.


18 Zu einem linearen Gleichungssystem mit m Gleichungen und n Unbekann-
19 ten x1 , . . . , xn bilden wir nun die Koeffizientenmatrix, indem wir den Ko-
20 effizienten von xj in der i-ten Gleichung als (i, j)-ten Eintrag nehmen. Dies
21 ergibt eine m × n-Matrix. Das Gleichungssystem heißt homogen, falls auf
22 der rechten Seite der Gleichungen lauter Nullen stehen, und andernfalls in-
23 homogen. Falls das lineare Gleichungssystem inhomogen ist, erweitert man
24 die Koeffizientenmatrix, indem man eine Spalte mit den rechten Seiten der
25 Gleichungen anhängt. Die so gebildete m × (n + 1)-Matrix nennt man die
26 erweiterte Koeffizientenmatrix. Sie kodiert die gesamte Information des
27 LGS. Beispielsweise gehört zu dem System (9.1) die erweiterte Koeffizienten-
28 matrix  
1 0 2 1 −3
 2 0 4 −2 2 
29  .
 0 1 0 −1 2 
1 0 2 2 −5
30 Die Trennlinie vor der letzten Spalte hat keine mathematische Bedeutung, 
 26. Vorlesung,
31 sie dient nur als Gedächtnisstütze. 
y 09.01.2019
76 Lineare Gleichungssysteme und Matrizen

1 Unser Ziel ist es, einen Algorithmus zur Bestimmung der Lösungsmenge
2 (also die Menge aller x ∈ K n , für die alle Gleichungen eines LGS gelten)
3 zu entwickeln. Hierfür definieren wir zunächst einige Manipulationen, die auf
4 Matrizen allgemein und im Besonderen auf die erweiterte Koeffizientenmatrix
5 eines LGS angewandt werden können. Diese Manipulationen heißen elemen-
6 tare Zeilenoperationen und gliedern sich in drei Typen:
7 Typ I: Vertauschen zweier Zeilen;
8 Typ II: Multiplizieren einer Zeile mit einem Skalar a ∈ K \ {0};
9 Typ III: Addieren des a-fachen einer Zeile zu einer anderen, wobei a ∈ K.
10 Es ist unmittelbar klar, dass das Anwenden von elementaren Zeilenopera-
11 tionen auf die erweiterte Koeffizientenmatrix eines LGS die Lösungsmenge
12 unverändert lässt. Wir können ein LGS also mit diesen Operationen mani-
13 pulieren mit dem Ziel, es auf eine so einfache Gestalt zu bringen, dass man
14 die Lösungsmenge direkt ablesen kann. Die angestrebte Gestalt ist die Zei-
15 lenstufenform gemäß der folgenden Definition.
16 Definition 9.2. Es sei A ∈ K m×n . Wir sagen, dass A in Zeilenstufen-
17 form ist, falls gelten:
18 (a) Beginnt eine Zeile mit k Nullen, so stehen unter diesen Nullen lauter
19 weitere Nullen.
20 (b) Unter dem ersten Eintrag 6= 0 einer jeden Zeile (falls diese nicht nur aus
21 Nullen besteht) stehen lauter Nullen.
22 Wir sagen, dass A in strenger Zeilenstufenform ist, falls zusätzlich gilt:
23 (c) Über dem ersten Eintrag 6= 0 einer jeden Zeile (falls diese nicht nur aus
24 Nullen besteht) stehen lauter Nullen.
25 Beispiel 9.3. Zur Illustration mögen folgende Beispiele dienen:
 
012
26 (1) Die Matrix 1 0 0 ist nicht in Zeilenstufenform.
000
 
012
27 (2) Die Matrix 0 1 1 ist nicht in Zeilenstufenform.
000
 
1 2 −1
28 (3) Die Matrix 0 0 −1 ist in Zeilenstufenform, aber nicht in strenger Zei-
00 0
29 lenstufenform.
 
12 0
30 (4) Die Matrix 0 0 −1 ist in strenger Zeilenstufenform. /
00 0
31 Beispiel 9.4. Wir wenden elementare Zeilenoperationen auf die erweiterte
32 Koeffizientenmatrix des LGS (9.1) an mit dem Ziel, die Matrix auf stren-
33 ge Zeilenstufenform zu bringen.
Lineare Gleichungssysteme und Matrizen 77
   
1 0 2 1 −3 1 0 2 1 −3
 2 0 4 −2 2 −2  0 0 0 −4 8  
  −→   −→
 0 1 0 −1 2  Typ III  0 1 0 −1 2  Typ I 
1 0 2 2 −5  −1 0 0 0 1 −2
   
1 0 2 1 −3 1 0 2 1 −3
 0 1 0 −1 2   0 1 0 −1 2 
 −→
 Typ   −→
 0 0 0 −4 8 ·(− 1 II  0 0 0 1 −2  Typ III
4)

0 0 0 1 −2 0 0 0 1 −2 −1
   
1 0 2 1 −3  −1 1 0 2 0 −1
 0 1 0 −1 2 1 0 1 0 0 0
  −→  
 0 0 0 1 −2  Typ III  0 0 0 1 −2 
1
000 0 0 0000 0

2 Hierbei haben wir jeweils gekennzeichnet, wie wir von einer Matrix zur
3 nächsten gekommen sind. Dies ist sehr zu empfehlen, damit die Rechnung
4 nachvollziehbar und Fehler korrigierbar sind. /
5 Nun können wir das Verfahren formalisieren. Wir erhalten den berühmten
6 Gauß-Algorithmus.
7 Algorithmus 9.5 (Gauß).
8 Eingabe: Eine Matrix A ∈ K m×n .
9 Ausgabe: Eine Matrix B ∈ K m×n in (strenger) Zeilenstufenform, die aus
10 A durch elementare Zeilenoperationen hervorgeht.
11 (1) Setze B := A.
12 (2) B sei bis zur r-ten Zeile in Zeilenstufenform, d.h. (a) und (b) aus Defini-
13 tion 9.2 seien bis zur r-ten Zeile erfüllt. (Hierbei ist r = 0 möglich!)
14 (3) Falls r = m, so ist B in Zeilenstufenform. Falls strenge Zeilenstufenform
15 gewünscht ist, gehe zu (8).
16 (4) Suche den am weitesten links stehenden Eintrag 6= 0 von B unterhalb
17 der r-ten Zeile. (Falls es mehrere solche Einträge gibt, wähle einen aus.)
18 (5) Bringe diesen Eintrag in die (r + 1)-te Zeile (Operation Typ I).
19 (6) Erzeuge unterhalb dieses Eintrags lauter Nullen (Operationen Typ III,
20 optional auch II).
21 (7) Gehe zu (2).
22 (8) Bringe B auf strenge Zeilenstufenform (Operationen Typ III).
23 Der Gaußalgorithmus ist das rechnerische Herz“ der linearen Algebra.

24 Wir werden noch sehen, dass er für viele rechnerische Aufgaben eingesetzt
25 wird. Wir haben ihn im Zusammenhang mit linearen Gleichungssystemen
26 eingeführt. Da wir bereits gesehen haben, dass sich bei elementaren Zeilen-
27 operationen die Lösungsmenge nicht ändert, müssen wir uns nur noch über-
28 zeugen, dass wir anhand einer (strengen) Zeilenstufenform des Systems die
29 Lösungsmenge besonders leicht ablesen können.
78 Lineare Gleichungssysteme und Matrizen

1 Beispiel 9.6. Wir setzen das Beispiel des in (9.1) gegebenen LGS fort. In
2 Beispiel 9.4 wurde die erweiterte Koeffizientenmatrix auf strenge Zeilenstu-
3 fenform gebracht, wodurch wir das äquivalente LGS mit Matrix
 
1 0 2 0 −1
 0 1 0 0 0 
4
 
 0 0 0 1 −2 
0 0 0 0 0

5 erhalten. In ausführlicher Schreibweise liest sich dies als

6 x1 + 2x3 = −1,
7 x2 = 0,
8 x4 = −2.

9 Die Lösungsmenge lässt sich ablesen:


10  
−2x3 − 1
n 0  o
 x3 ∈ K beliebig .
11 L=   x3 
−2
12 Man kann den Parameter x3 hierbei natürlich durch einen anderen Buchsta-
13 ben ersetzen. /
14 Jetzt geben wir unser Lösungsverfahren für LGS in formalerer Weise an.
15 Algorithmus 9.7 (Lösen von LGS).
16 Eingabe: Ein LGS mit der erweiterten Koeffizientenmatrix (A|b) mit A ∈
17 K m×n und b ∈ K m (also m Gleichungen mit n Unbekannten).
18 Ausgabe: Die Lösungsmenge L.
19 (1) Bringe die erweiterte Koeffizientenmatrix (A|b) ∈ K m×(n+1) auf strenge
20 Zeilenstufenform. Ab jetzt setzen wir voraus, dass (A|b) bereits in stren-
21 ger Zeilenstufenform ist.
22 (2) Es sei r die Anzahl der Zeilen, die mindestens einen Eintrag 6= 0 haben.

 27. Vorlesung,
23 Für i = 1, . . . , r sei ji ∈ {1, . . . , n + 1} die Position (= Spalte), in der der

y 11.01.2019 24 erste Eintrag 6= 0 der i-ten Zeile steht.
25 (3) Falls jr = n+1, so ist das LGS unlösbar, also L = ∅. (Die r-te Zeile lautet
26 dann nämlich (0 · · · 0|br ) mit br 6= 0, was der Gleichung 0·x1 +· · ·+0·xn =
27 br entspricht.)
28 (4) Andernfalls seien k1 , . . . , kn−r diejenigen Zahlen in {1, . . . , n}, die nicht
29 eines der ji sind. Also {1, . . . , n} \ {j1 , . . . , jr } = {k1 , . . . , kn−r }.
(5) Die Lösungsmenge ist
Lineare Gleichungssysteme und Matrizen 79
 
x1
 .. 
n
L=  .  xk1 , . . . , xkn−r ∈ K beliebig,
xn
 n−r
X  o
xji = a−1
i,ji · bi − ai,kj · x kj für i = 1, . . . , r . (9.2)
j=1
1 (Diese Formel ergibt sich durch Auflösen der i-ten Gleichung nach xji .)
2 Die Lösungsmenge wird also parametrisiert durch die freien“ Variablen

3 xki , während die xji von diesen abhängig sind.
4 Es ist fast unmöglich, sich die Formel (9.2) zu merken, und noch unmögli-
5 cher, sie tatsächlich anzuwenden, es sei denn, man ist ein Computer und
6 kein Mensch. Man ist also weiterhin darauf angewiesen, die Lösungsmenge
7 eines LGS anhand der strengen Zeilenstufenform mit Hilfe von mathematisch-
8 handwerklichen Grundfertigkeiten abzulesen.
9 Bei LGS können drei Hauptfälle“ für die Lösungsmenge L eintreten:

10 (1) Unlösbarkeit: L = ∅ ⇔ jr = n + 1.
11 (2) Eindeutige Lösbarkeit: |L| = 1 ⇔ r = n und jr = n. In diesem Fall gilt
12 automatisch ji = i für alle i, und die strenge Zeilenstufenform hat die
13 übersichtliche Gestalt
···
 
a1,1 0 0 b1
 .. .. 
 0 a2,2 . . 
. .. 
 
 . .. ..

 . 
 .
 ..

14 a 0 b n−1  .
n−1,n−1


 0
 · · · 0 an,n b 
n 
 0
 · · · · · · 0 0 

 . . .
 .. .. .. 

0 ··· ··· 0 0

  
x1 b1 /a1,1
Die (einzige) Lösung ergibt sich dann als  ...  =  ..
.
   
15
.
xn bn /an,n
16 (3) Uneindeutige Lösbarkeit: |L| > 1 ⇔ r < n und jr 6= n + 1. Dann hat die
17 Lösungsmenge n − r freie Parameter. Insbesondere folgt |L| = ∞, falls K
18 unendlich viele Elemente hat (der Standardfall).
19 Allein aus der Anzahl der Gleichungen und der Unbekannten kann man
20 nicht auf den Eintritt einer der Hauptfälle schließen. Als Einziges lässt sich
21 sagen, dass eindeutige Lösbarkeit nur dann eintreten kann, wenn mindestens
22 so viele Gleichungen wie Unbekannte vorhanden sind.
23 Die Zahl r aus Algorithmus 9.7 spielt eine wichtige Rolle. Daher geben wir
24 ihr einen Namen.
80 Lineare Unabhängigkeit und Basen

1 Definition 9.8. Es sei A ∈ K m×n , und A0 ∈ K m×n sei eine Matrix in Zei-
2 lenstufenform, die durch elementare Zeilenoperationen aus A hervorgegangen
3 ist. Dann ist der Rang von A die Anzahl r der Zeilen in A0 , die mindestens
4 einen Eintrag 6= 0 haben. Wir schreiben r =: rg(A).
5 Eine quadratische Matrix A ∈ K n×n heißt regulär, falls rg(A) = n.
6 Das Problem bei dieser Definition ist, dass es verschiedene Matrizen A0
7 gibt, die in Zeilenstufenform sind und die durch elementare Zeilenoperationen
8 aus A hervorgegangen sind. Es ist (bisher) nicht klar, dass all diese A0 dieselbe
9 Anzahl von Zeilen 6= 0 haben. Nur wenn dies klar ist, ist rg(A) eindeutig
10 definiert. Wir werden dies in Abschnitt 10 nachtragen.
11 Wir sehen sofort, dass für A ∈ K m×n die Ungleichung rg(A) ≤ min{m, n}
12 gilt. Unser Lösbarkeitskriterium für LGS können wir nun so formulieren:
13 Satz 9.9. Ein LGS mit erweiterter Koeffizientenmatrix (A|b) ist genau dann
14 lösbar, wenn A denselben Rang hat wie (A|b).
15 In diesem Zusammenhang ist das folgende Resultat interessant:
16 Proposition 9.10. Es seien A, A0 ∈ K m×n , wobei A0 durch elementare Zei-
17 lenoperationen aus A hervorgegangen ist. Dann erzeugen die Zeilen von A
18 denselben Unterraum von K 1×n wie die Zeilen von A0 .
19 Beweis. Wir müssen zeigen, dass elementare Zeilenoperationen den von den
20 Zeilen v1 , . . . , vm erzeugten Raum U nicht ändern.
21 Typ I: Offenbar ändert sich U nicht.
22 Typ II: ebenso.
23 Typ III: Nach Umnummerieren der Zeilen ersetzt die Operation v1 durch
24 v1 + cv2 , c ∈ K. Die neuen Zeilen erzeugen
n m
X o
25 hv1 + cv2 , v2 , . . . , vm i = a1 (v1 + cv2 ) + ai vi | ai ∈ K = U,
i=2

26 also auch hier keine Änderung. t


u
27 Zum Schluss des Abschnitts sei erwähnt, dass die Lösungsmengen von
28 homogenen LGS mit n Unbekannten immer Unterräume des K n sind.

29 10 Lineare Unabhängigkeit und Basen

30 In diesem Abschnitt führen wir einige zentrale Begriffe der linearen Algebra
31 ein. Wie zuvor bezeichnet K immer einen Körper und V einen Vektorraum.
32 Bei Beispiel 8.14(1),(3),(4) und (5) fällt auf, dass jeder Vektor aus dem
33 erzeugten Unterraum eindeutig als Linearkombination darstellbar ist, d.h. es
34 gibt nur eine Wahl für die Koeffizienten ai . Beim Beispiel 8.14(2) ist dies
35 nicht der Fall. Diese Beobachtung gibt Anlass zu folgender Definition.
Lineare Unabhängigkeit und Basen 81

1 Definition 10.1. (a) Vektoren v1 , . . . , vn ∈ V heißen linear unabhängig,


2 falls für alle a1 , . . . , an folgende Implikation gilt:

3 a1 v1 + · · · + an vn = 0 ⇒ a1 = 0, a2 = 0, . . . , an = 0.

4 Gleichbedeutend damit ist: Für jede Linearkombination Pn v ∈ hv1 , . . . , vn i


5 gibt es eindeutig bestimmte a1 , . . . , an ∈ K mit v = i=1 ai vi ( eindeu-

6 tige Darstellungseigenschaft“). Der Beweis, dass lineare Unabhängigkeit
7 und die eindeutige Darstellungseigenschaft gleichbedeutend sind, sei dem
8 Leser überlassen. Die Vektoren v1 , . . . , vn heißen linear abhängig, falls
9 sie nicht linear unabhängig sind. Wir betonen, dass es sich hierbei nicht
10 um Eigenschaften von einzelnen Vektoren handelt (außer im Fall n = 1),
11 sondern um Eigenschaften eines Ensembles“ von Vektoren.

12 (b) Eine Teilmenge S ⊆ V heißt linear unabhängig, falls für alle n ∈
13 N und alle paarweise verschiedenen v1 , . . . , vn ∈ S gilt, dass v1 , . . . , vn
14 linear unabhängig ist. Andernfalls heißt S linear abhängig. S = ∅ ist
15 (per definitionem) linear unabhängig.
   
2 1 1
16 Beispiel 10.2. (1) Seien V = R , v1 = und v2 = . Wir testen auf
1 −1
17 lineare Unabhängigkeit. Es gelte also a1 v1 + a2 v2 = 0 mit a1 , a2 ∈ R.
18 Hieraus ergibt sich das homogene LGS a1 + a2 = 0, a1 − a2 = 0. Die 
 28. Vorlesung,
19 einzige Lösung ist a1 = a2  = 0, 
also sind v1 , 
v2 linear
 unabhängig.

y 15.01.2019
1 2
20 (2) Nun betrachten wir v1 = −1 und v2 = −2 ∈ R3 . Wenn wir wie
0 0
21 oben auf lineare Unabhängigkeit testen, erhalten wir das homogene LGS
22 a1 + 2a2 = 0, −a1 − 2a2 = 0, 0 = 0, das (unter anderen) die nicht-triviale
23 Lösung a1 = 2, a2 = −1 hat. Es folgt 2v1 − v2 = 0, also sind v1 , v2 linear
24 abhängig.
25 (3) Es seien V = K[x] und S = {xi | i ∈ N}. Wir behaupten, dass S
26 linear unabhängig ist. Zum Nachweis nehmen Pn wir beliebige, paarweise
27 verschiedene xi1 , . . . , xin ∈ S und setzen j=1 aj xij = 0 mit aj ∈ K
28 voraus. Hieraus folgt (mit dem üblichen Identitätsbegriff für Polynome)
29 direkt, dass aj = 0 für alle j. Also ist S linear unabhängig.
30 (4) Der Fall n = 1: Ein einzelner Vektor v ∈ V ist genau dann linear un-
31 abhängig, wenn v 6= 0. Dies folgt aus Proposition 8.4(c). /
32 Für Vektoren v1 , . . . , vn ∈ K m haben wir folgenden Test auf lineare Un-
33 abhängigkeit: Man bilde die Matrix A := (v1 |v2 | · · · |vn ) ∈ K m×n mit den vi
34 als Spalten. (Die senkrechten Linien sollen nur der Verdeutlichung dienen.)
35 Dann gilt:

36 v1 , . . . , vn sind linear unabhängig ⇐⇒ rg(A) = n.


82 Lineare Unabhängigkeit und Basen

1 Begründung: Die vi sind genau dann linear unabhängig, wenn das homogene
2 LGS mit Koeffizientenmatrix A als einzige Lösung den Nullvektor hat (siehe
3 auch Beispiel 10.2(1) und (2)). Nach (2) auf Seite 79 und Definition 9.8 trifft
4 dies genau dann ein, wenn rg(A) = n.
5 Wegen rg(A) ≤ min{m, n} (siehe nach Definition 9.8) folgt aus unse-
6 rem Test sofort, dass im K m höchstens m Vektoren linear unabhängig sein
7 können. Hat man mehr als m Vektoren, so sind diese automatisch linear
8 abhängig.
9 Definition 10.3. Es sei S ⊆ V eine Teilmenge.
10 (a) S heißt ein Erzeugendensystem von V , falls hSi = V .
11 (b) S heißt eine Basis von V , falls S ein linear unabhängiges Erzeugen-
12 densystem von V ist. Anders gesagt: S ist Basis, falls jedes v ∈ V in
13 eindeutiger Weise als Linearkombination von S darstellbar ist.
14 Beispiel 10.4. (1) Die Vektoren
     
1 0 0
15 e1 = 0 , e2 = 1 und e3 = 0
0 0 1

16 bilden eine Basis von K 3 .


17 (2) Auch die Vektoren
    

1 0 0
18 v1 = 1 , v2 = 1 und v3 =  0 
0 0 −1

19 bilden eine Basis von K 3 . Wir sehen also, dass ein Vektorraum mehrere
20 Basen haben kann. (In der Tat haben fast alle“ Vektorräume sehr viele“
” ”
21 verschiedene Basen.)
22 (3) In Verallgemeinerung von (1) sei
 
0
 .. 
.
 
0
n
 
23 (i-te Position) → 1 =: ei ∈ K .

0
 
.
 .. 
0

24 Dann ist S = {e1 , . . . , en } eine Basis von K n . S heißt die Standardbasis


25 des K n .
26 (4) Für V = K[x] ist S = {xi | i ∈ N} eine Basis. Dies geht aus Bei-
27 spiel 8.14(5) und aus Beispiel 10.2(3) hervor. Wir haben es hier mit einer
28 unendlichen Basis zu tun.
Lineare Unabhängigkeit und Basen 83

1 (5) Der Nullraum V = {0} hat die leere Menge S = ∅ als Basis. Dies ist einer
2 der exotischen Fälle, in denen es nur eine Basis gibt.
3 (6) Wir betrachten das homogene LGS mit der Koeffizientenmatrix
 
1 0 2 1
2 0 4 −2
4 A= 0 1 0 −1 .

1 0 2 2

5 Wir können A in Zeilenstufenform B bringen, indem wir uns an Bei-


6 spiel 9.4 orientieren, und erhalten
 
1 0 2 0
0 1 0 0
7 B= 0 0 0 1 .

0 0 0 0

8 Hieraus lesen wir die Lösungsmenge


   
−2a −2
n 0  o D 0 E
9 L=   a |a∈K =  1 
  

0 0

10 ab. (Wir könnten auch das formale Lösungsverfahren 9.7 benutzen.) Der
11 angegebene erzeugende Vektor bildet eine einelementige Basis von L. /
12 Allgemein sei ein homogenes LGS mit der Koeffizientenmatrix A ∈ K m×n
13 gegeben. Es seien k1 , . . . , kn−r ∈ {1, . . . , n} die im Lösungsverfahren 9.7(4)
14 bestimmten Indizes. Für i = 1, . . . , n − r sei vi der durch (9.2) gewonnene
15 Lösungsvektor mit xki = 1 und xkl = 0 für l 6= i. In vi ist die jl -te Kompo-
16 nente also −a−1
l,jl · al,ki (l = 1, . . . , r). Dann ist {v1 , . . . , vn−r } eine Basis des
17 Lösungsraums L. Die Erzeugereigenschaft ergibt sich direkt aus (9.2), Pn−r und
18 diese Gleichung zeigt außerdem, dass die kj -te Koordinate von i=1 bi vi
19 (mit bi ∈ K) genau bj ist, woraus die lineare Unabhängigkeit folgt. Wir ha-
20 ben also ein Verfahren, um für den Lösungsraum eines homogenen LGS eine
21 Basis zu finden.
22 Wir geben nun zwei (zur Definition alternative) Charakterisierungen von
23 Basen an.
24 Satz 10.5. Für eine Teilmenge S ⊆ V sind äquivalent:
25 (a) S ist eine Basis von V .
26 (b) S ist eine maximal linear unabhängige Teilmenge von V (d.h. S ist linear
27 unabhängig, aber für jedes v ∈ V \ S wird S ∪ {v} linear abhängig).
28 (c) S ist ein minimales Erzeugendensystem von V (d.h. V = hSi, aber für
29 alle v ∈ S ist S \ {v} kein Erzeugendensystem).
84 Lineare Unabhängigkeit und Basen

1 Beweis. Wir beginnen mit der Implikation (a) ⇒ (b)“. Sei also S eine Ba-

2 sis von V . Dann ist S linear unabhängig, es ist also nur die Maximalität
3 zu zeigen. Hierzu sei v ∈ V \ S. Da S ein Erzeugendensystem ist, gibt es
4 v1 , . . . , vn ∈ S und a1 , . . . , an ∈ K mit
n
X
5 v= ai vi ,
i=1

6 also
n
X
7 (−1) · v + ai vi = 0.
i=1

8 Hierbei können wir die vi als paarweise verschieden annehmen. Dies zeigt,
9 dass {v, v1 , . . . , vn } linear abhängig ist, also auch S ∪ {v}.
10 Nun zeigen wir (b) ⇒ (c)“. Es sei also S maximal linear unabhängig.

11 Wir zeigen zunächst, dass S ein Erzeugendensystem ist. Hierzu sei v ∈ V .
12 Falls v ∈ S, so gilt auch v ∈ hSi, und wir sind fertig. Wir dürfen also v ∈ /
13 S annehmen. Nach Voraussetzung ist S ∪ {v} linear abhängig, also gibt es
14 paarweise verschiedene v1 , . . . , vn ∈ S und a, a1 , . . . , an ∈ K, die nicht alle 0
15 sind, so dass
X n
16 av + ai vi = 0.
i=1

17 (Selbst falls v in einer solchen Darstellung des Nullvektors nicht vorkäme,


18 könnten wir es künstlich“ durch a := 0 hinzufügen.) Falls a = 0, so wären

19 v1 , . . . , vn linear abhängig, im Widerspruch zur linearen Unabhängigkeit von
20 S. Es folgt a 6= 0, also
n
X
21 v=− a−1 ai vi ∈ hSi.
i=1

22 Nun ist noch die Minimalität von S als Erzeugendensystem zu zeigen. Hierzu
23 sei v ∈ S. Falls S \ {v} ein Erzeugendensystem wäre, dann gäbe es insbeson-
24 dere v1 , . . . , vn ∈ S \ {v} und a1 , . . . , an ∈ K mit
n
X
25 v= ai vi .
i=1

26 Hierbei
Pn können wir die vi als paarweise verschieden annehmen. Es folgt (−1)·
27 v + i=1 ai vi = 0, im Widerspruch zur linearen Unabhängigkeit von S. Also
28 ist S tatsächlich ein minimales Erzeugendensystem.
29 Schließlich zeigen wir (c) ⇒ (a)“. Es sei also S ein minimales Erzeugen-

30 densystem. Wir müssen die lineare Unabhängigkeit von S zeigen. PEs seien also
n
31 v1 , . . . , vn ∈ S paarweise verschieden und a1 , . . . , an ∈ K mit i=1 ai vi = 0.
32 Wir nehmen an, dass nicht alle ai Null sind. Durch Umnummerieren können
Lineare Unabhängigkeit und Basen 85

1 wir a1 6= 0 erreichen. Es folgt


n
X
2 v1 = −a−1 0
1 ai vi ∈ hS i
i=2

3 mit S 0 := S \ {v1 }. Alle Elemente von S liegen also in hS 0 i, also V = hS 0 i,


4 im Widerspruch zur Minimalität von S. Somit ist S linear unabhängig. t u
5 Die Frage, ob jeder Vektorraum eine Basis hat, wird durch den folgenden
6 Satz mit ja“ beantwortet, den wir mit Hilfe des Zornschen Lemmas beweisen

7 werden.
8 Satz 10.6 (Basisergänzungssatz). Es seien S ⊆ V ein Erzeugendensystem
9 (z.B. S = V ) und A ⊆ S eine linear unabhängige Teilmenge (z.B. A = ∅).
10 Dann gibt es eine Basis B von V mit A ⊆ B ⊆ S.
11 Beweis. Wir betrachten die Menge

12 M := {X ⊆ V | X ist linear unabhängig und A ⊆ X ⊆ S} .

13 Die Menge M ist geordnet durch X ≤ Y :⇐⇒ X ⊆ Y . Wir prüfen die


14 Voraussetzung des Zornschen Lemmas (Satz 3.12). Es sei also C ⊆ M eine
15 Kette. Falls C = ∅, so liefert A ∈ M eine obere Schranke von C. Andernfalls
16 setzen wir [ [
17 Y := C= X
X∈C

18 und behaupten Y ∈ M . (Hieraus folgt, dass Y eine obere Schranke von C ist.)
19 Es ist klar, dass A ⊆ Y ⊆ S gilt. Zum Nachweis der linearen Unabhängigkeit
20 von Y nehmen wir paarweise verschiedene v1 , . . . , vn ∈ Y . Für jedes i gibt
21 es ein Xi ∈ C mit vi ∈ Xi . Da C totalgeordnet ist, gibt es ein Xi , das alle
22 anderen umfasst. Damit sind v1 , . . . , vn Elemente von diesem Xi . Wegen der
23 linearen Unabhängigkeit von Xi folgt, dass v1 , . . . , vn linear unabhängig ist.
24 Also ist Y linear unabhängig und damit ein Element von M .
25 Das Zornsche Lemma liefert nun die Existenz eines maximalen Elements
26 B ∈ M . Es folgt sofort, dass B linear unabhängig ist und A ⊆ B ⊆ S. Zum
27 Nachweis der Erzeugereigenschaft von B nehmen wir zunächst einen Vektor
28 v ∈ S. Falls v ∈ B, so folgt v ∈ hBi. Andernfalls gilt

29 A ⊆ B $ B ∪ {v} ⊆ S.

30 Wegen der Maximalität von B muss B ∪ {v} also linear abhängig sein, d.h. es
31 gibt paarweise verschiedene v1 , . . . , vn ∈ B und a, a1 , . . . , an ∈ K, die nicht
32 alle 0 sind, so dass
X n
33 av + ai vi = 0.
i=1

34 Wegen der linearen Unabhängigkeit von B folgt a 6= 0, also


86 Lineare Unabhängigkeit und Basen
n
X
1 v= −a−1 ai vi ∈ hBi.
i=1

2 Es ergibt sich S ⊆ hBi, also

3 V = hSi ⊆ hBi ⊆ V.

4 Damit ist B ein linear unabhängiges Erzeugendensystem von V , und der Satz
5 ist bewiesen. t
u
6 Durch Anwendung von Satz 10.6 auf S = V und A = ∅ ergibt sich:

 29. Vorlesung, 7 Korollar 10.7 (Basissatz). Jeder Vektorraum hat eine Basis.

y 16.07.2019
8 Anmerkung. Man kann die Begriffe Linearkombination, Erzeugendensy-
9 stem und lineare Unabhängigkeit auch auf Moduln anwenden und somit den
10 Basissatz für Moduln formulieren. Er ist jedoch für Moduln im Allgemeinen
11 falsch. Beispielsweise hat keine nicht-triviale, endliche abelsche Gruppe als
12 Z-Modul (siehe Anmerkung 8.3) eine Basis. /
13 Beispiel 10.8. Es sei M eine unendliche Menge und V = K M . Für V ist
14 keine Basis bekannt, auch wenn Satz 10.6 die Existenz garantiert! Auch in
15 Spezialfällen oder für viele interessante Unterräume ist keine Basis bekannt.
16 Beispielsweise ist keine Basis für den Vektorraum der konvergenten reellen
17 Folgen bekannt.
18 Für jedes x ∈ M kann man die Abbildung δx ∈ V mit δx (y) = 1 für
19 y = x, 0 sonst, betrachten. Dann ist S := {δx | x ∈ M } linear unabhängig.
20 S ist jedoch keine Erzeugendensystem, da es in der linearen Algebra keine
21 unendlichen Summen gibt. /
22 Wir haben gesehen, dass ein Vektorraum (sehr viele) verschiedene Basen
23 haben kann. Unser nächstes Ziel ist der Nachweis, dass alle Basen gleich viele
24 Elemente haben (sofern sie endlich sind). Der Schlüssel hierzu ist das folgende
25 Lemma.
26 Lemma 10.9. Es seien E ⊆ V ein endliches Erzeugendensystem und U ⊆ V
27 eine linear unabhängige Menge. Dann gilt für die Elementanzahlen:

28 |U | ≤ |E|.

29 Beweis. Als Teilmenge einer endlichen Menge ist auch E \ U endlich. Wir be-
30 nutzen Induktion nach |E \ U |. Wir schreiben E = {v1 , . . . , vn } mit v1 , . . . , vn
31 paarweise verschieden.
32 1. Fall: U ⊆ E. Dann ist automatisch |U | ≤ |E|, also nichts zu zeigen.
33 2. Fall: Es gibt ein v ∈ U \ E. Wir werden ein Austauschargument“ be-

34 nutzen und einen Vektor von E durch v ersetzen. Dies funktioniert folgen-
35 dermaßen: Wegen V = hEi existieren a1 , . . . , an ∈ K mit
Lineare Unabhängigkeit und Basen 87

1 v = a1 v1 + · · · + an vn . (10.1)

2 Wegen v ∈ / E gilt v 6= vi für alle i. Es gibt ein i, so dass vi ∈


/ U und
3 ai 6= 0, denn sonst ergäbe (10.1) die lineare Abhängigkeit von U . Nach
4 Umnummerieren haben wir v1 ∈ E \ U und a1 6= 0. Dies zeigt auch, dass
5 der Induktionsanfang (|E \ U | = 0) automatisch in den 1. Fall fällt. Mit
6 E 0 := {v, v2 , . . . , vn } ergibt sich aus (10.1):
n
!
X
−1
7 v1 = a1 · v − ai vi ∈ hE 0 i.
i=2

8 Hieraus folgt, dass auch E 0 ein Erzeugendensystem ist. Nach Definition


9 von E 0 gilt |E 0 \ U | = |E \ U | − 1. Induktion liefert also |U | ≤ |E 0 |. Wieder
10 nach Definition gilt |E 0 | = |E|, und es folgt die Behauptung. t
u
11 Korollar 10.10. Falls V ein endliches Erzeugendensystem hat, so sind alle
12 Basen von V endlich und haben gleich viele Elemente.
13 Beweis. B1 und B2 seien Basen von V . Da B1 und B2 linear unabhängig
14 sind, liefert Lemma 10.9 |B1 | < ∞ und |B2 | < ∞. Weiter liefert Lemma 10.9
15 mit U = B1 und E = B2 : |B1 | ≤ |B2 |. Nach Rollenvertauschung erhalten wir
16 ebenso |B2 | ≤ |B1 |, also Gleichheit. t
u
17 Anmerkung. Es gilt die folgende, weitergehende Aussage: Je zwei Basen ei-
18 nes Vektorraums sind gleichmächtig. Der Beweis ist nicht schwierig, benutzt
19 aber Methoden der Kardinalzahlarithmetik, die uns nicht zur Verfügung ste-
20 hen. /
21 Nun können wir einen der wichtigsten Begriffe der linearen Algebra defi-
22 nieren.
23 Definition 10.11. Falls V ein endliches Erzeugendensystem hat, so ist die
24 Dimension von V die Elementanzahl einer (und damit jeder) Basis von
25 V . Wir schreiben dim(V ) für die Dimension von V . Falls V kein endliches
26 Erzeugendensystem hat, schreiben wir dim(V ) = ∞, um diesen Sachverhalt
27 auszudrücken. (Wir unterscheiden unendliche Basen also gewöhnlich nicht
28 durch ihre Mächtigkeit.) Im ersten Fall heißt V endlich-dimensional, im
29 zweiten unendlich-dimensional.
30 Beispiel 10.12. (1) Der Standardraum K n hat die Dimension n. Damit ist
31 auch die Bezeichnung n-dimensionaler Standardraum“ aufgeklärt.

32 (2) Der Lösungsraum des homogenenen LGS aus Beispiel 10.4(6) hat die
33 Dimension 1.
34 (3) Der Nullraum V = {0} hat die Dimension 0.
35 (4) Für V = K[x] gilt dim(V ) = ∞. Hier können wir eine unendliche Basis
36 angeben (sieheBeispiel 10.4(4)). Ist M eine unendliche Menge, so gilt
37 auch dim K M = ∞. Wir können zwar keine Basis angeben, aber doch
88 Lineare Unabhängigkeit und Basen

1 eine unendliche linear unabhängige Menge (siehe Beispiel 10.8), so dass


2 K M nach Lemma 10.9 nicht endlich erzeugt sein kann. /
3 Aus dem nach Beispiel 10.4 angegebenen Verfahren zum Finden einer Basis
4 des Lösungsraums eines homogenen LGS gewinnen wir:
5 Proposition 10.13. Gegeben sei ein homogenes LGS mit Koeffizientenma-
6 trix A ∈ K m×n . Dann gilt für die Lösungsmenge L:

7 dim(L) = n − rg(A).

8 Wie kann man eine Basis eines Unterraums U ⊆ K n finden? Wir nehmen
9 an, U sei durch erzeugende Vektoren v1 , . . . , vm gegeben. Dann bilden wir
10 die Matrix A ∈ K m×n mit den vi als Zeilen. Nun bringen wir A mit dem
11 Gauß-Algorithmus auf Zeilenstufenform. Dann bilden diejenigen Zeilen der
12 Zeilenstufenform, die nicht komplett aus Nullen bestehen, eine Basis von U .
13 Begründung: Nach Proposition 9.10 wird U von den Zeilen der Zeilenstu-
14 fenform erzeugt, also auch durch die Zeilen 6= 0. Außerdem sieht man sofort,
15 dass die Zeilen 6= 0 einer Matrix in Zeilenstufenform immer linear unabhängig
16 sind.
17 Es folgt insbesondere: dim(U ) = rg(A). Damit haben wir bewiesen:
18 Proposition 10.14. Der Rang einer Matrix A ∈ K m×n ist die Dimension
19 des von den Zeilen aufgespannten Unterraums von K 1×n .
20 Hiermit haben wir für den Rang eine nicht-prozedurale Charakterisierung
21 gefunden. Hierdurch ist die Lücke, die sich durch Definition 9.8 ergeben hat,
22 geschlossen. Eine weitere Charakterisierung des Rangs ist bereits in Proposi-
23 tion 10.13 enthalten. Auch diese zeigt die eindeutige Bestimmtheit des Rangs.
24 Wir ziehen noch ein paar weitere Folgerungen aus Lemma 10.9. Die er-
25 ste ermöglicht in vielen Fällen, die Basiseigenschaft zu verifizieren oder zu
26 falsifizieren.
27 Korollar 10.15. Es sei S ⊆ V endlich. Dann gelten:
28 (a) S ist eine Basis von V ⇐⇒ dim(V ) = |S| und S ist linear unabhängig
29 ⇐⇒ dim(V ) = |S| und V = hSi.
30 (b) Falls |S| < dim(V ), so folgt V 6= hSi.
31 (c) Falls |S| > dim(V ), so ist S linear abhängig.
32 Beweis. Wir wählen eine Basis B von V .
33 (b) Falls S ein Erzeugendensystem ist, so folgt |S| ≥ |B| = dim(V ) nach
34 Lemma 10.9. Hieraus ergibt sich (b).
35 (c) Wir nehmen an, dass S linear unabhängig ist. Falls B endlich ist, so folgt
36 |S| ≤ |B| = dim(V ) nach Lemma 10.9. Falls B unendich ist, gilt diese
37 Ungleichung ohnehin. Es ergibt sich (c).
38 (a) Falls S eine Basis ist, so folgt aus Korollar 10.10 und Definition 10.3,
39 dass dim(V ) = |S|, V = hSi, und dass S linear unabhängig ist. Ist um-
40 gekehrt dim(V ) = |S| und S linear unabhängig, so folgt aus (c), dass
Lineare Abbildungen 89

1 S maximal linear unabhängig ist, also ist S nach Satz 10.5 eine Basis.
2 Falls dim(V ) = |S| und V = hSi, so folgt aus (b), dass S ein minimales
3 Erzeugendensystem ist, also ist S nach Satz 10.5 eine Basis. t
u

4 An dieser Stelle lohnt es sich, auf einige formale Parallelen zwischen der
5 Theorie der Basen von Vektorräumen und der Theorie der Spannbäume von
6 Graphen hinzuweisen, auch wenn die tatsächlichen Inhalte der Theorien und
7 die Beweise nichts miteinander zu tun haben. Hierbei entsprechen sich die
8 Begriffe Erzeugendensystem“ und zusammenhängend“ sowie linear un-
” ” ”
9 abhängig“ und kreisfrei“. Genauer gibt es deutliche Parallelen zwischen

10 Satz 10.6 und Satz 4.12, zwischen Korollar 10.15(a) und Satz 4.9(c), sowie
11 zwischen Korollar 10.15(b),(c) und Satz 4.7(a),(b)
12 Korollar 10.16. Es sei U ⊆ V ein Unterraum. Dann gelten:
13 (a) dim(U ) ≤ dim(V ).
14 (b) Falls dim(U ) = dim(V ) < ∞, so folgt U = V .

15 Beweis. Es sei A eine Basis von U . Wegen Satz 10.6 gibt es eine Basis B
16 von V mit A ⊆ B. Hieraus folgt (a). Falls dim(U ) = dim(V ) < ∞, so folgt
17 A = B, also U = V . t
u

18 11 Lineare Abbildungen

19 Auch in diesem Abschnitt sei K ein Körper. Weiter seien V und W zwei
20 K-Vektorräume (über demselben Körper K!).
21 Definition 11.1. Eine Abbildung ϕ: V → W heißt linear, falls gelten:
22 (1) Für alle v, v 0 ∈ V : ϕ(v + v 0 ) = ϕ(v) + ϕ(v 0 ). (Hierbei ist das +“ auf der

23 linken Seite das von V , das auf der rechten das von W ; ϕ ist also ein
24 Homomorphismus von Gruppen.)
25 (2) Für alle v ∈ V und a ∈ K: ϕ(a · v) = a · ϕ(v).
26 Insbesondere bildet wegen Proposition 6.14(a) eine lineare Abbildung den
27 Nullvektor von V auf den Nullvektor von W ab.
28 Beispiel 11.2. (1) Die folgenden geometrisch definierten Abbildungen R2 →
29 R2 sind linear: Drehungen um den Nullpunkt, Streckungen mit dem Null-
30 punkt als Zentrum, Spiegelungen an einer durch den Nullpunkt gehenden
31 Geraden, Projektionen auf eine durch den Nullpunkt gehende Gerade. 
 30. Vorlesung,
32 Drehungen um Punkte 6= 0 und Verschiebungen sind nicht linear. 
y 18.01.2019
33 (2) Die Nullabbildung V → W , v 7→ 0 ist linear.
34 (3) Sei A = (ai,j ) ∈ K m×n . Dann ist
90 Lineare Abbildungen
   
x1 y1 n
ϕA : K n → K m ,  ...  7→  ... 
X
mit yi = ai,j xj
   
1

xn ym j=1

2 eine lineare Abbildung. Dies ist einer der wichtigsten Typen von linearen
3 Abbildungen. Die Bezeichnung ϕA werden wir in Zukunft weiter benut-
4 zen.
5 (4) Für V = R[x] ist

6 ϕ: V → V, f 7→ f 0 (Ableitung)

7 linear. Ebenso ist ψ: V → R, f 7→ f (1) linear.


8 (5) Für V = K n und i ∈ {1, . . . , n} ist
 
x1
 .. 
9 πi : V → K,  .  7→ xi
xn

10 linear. Man bezeichnet πi als das i-te Koordinatenfunktional.


11 (6) Es sei M eine Menge und x1 , . . . , xn ∈ M irgendwelche (fest gewählten)
12 Elemente. Dann ist
 
f (x1 )
ϕ: V := K M → K n , f 7→  ... 
 
13

f (xn )

14 linear. /
15 Sind ϕ, ψ: V → W linear, so gilt dies auch für

16 ϕ + ψ: V → W, v 7→ ϕ(v) + ψ(v).

17 Außerdem ist für ein a ∈ K auch

18 a · ϕ: V → W, v 7→ a · ϕ(v)

19 linear. Dies bedeutet, dass die Menge Hom(V, W ) aller linearer Abbildungen
20 V → W einen K-Vektorraum bildet.
21 Weiter gilt: Sind ϕ: V → W und ψ: W → U (mit U ein weiterer K-
22 Vektorraum) linear, so gilt dies auch für die Komposition ψ ◦ ϕ: V → U .
23 Damit wird Hom(V, V ) sogar zu einem Ring. (Wir werden sehen, dass dieser
24 für dim(V ) ≥ 2 nicht-kommutativ ist.)
25 Definition 11.3. Es sei ϕ: V → W linear. Der Kern von ϕ ist die Menge

26 Kern(ϕ) := {v ∈ V | ϕ(v) = 0} ⊆ V.
Lineare Abbildungen 91

1 Das Bild von ϕ ist

2 Bild(ϕ) := ϕ(V ) = {ϕ(v) | v ∈ V } ⊆ W.

3 Satz 11.4. Es sei ϕ: V → W eine lineare Abbildung.


4 (a) Kern(ϕ) ⊆ V ist ein Unterraum.
5 (b) Bild(ϕ) ⊆ W ist ein Unterraum.
6 (c) Es gilt die Äquivalenz:

7 ϕ ist injektiv ⇐⇒ Kern(ϕ) = {0}.

8 Beweis. (a) Der Nullvektor von V ist in Kern(ϕ) enthalten. Für v, v 0 ∈


9 Kern(ϕ) gilt ϕ(v + v 0 ) = ϕ(v) + ϕ(v 0 ) = 0, also v + v 0 ∈ Kern(ϕ). Weiter
10 gilt für v ∈ Kern(ϕ) und a ∈ K: ϕ(a · v) = a · ϕ(v) = a · 0 = 0, also
11 a · v ∈ Kern(ϕ). Insgesamt folgt (a).
12 (b) folgt durch einfaches Nachrechnen.
13 (c) Dies folgt aus Proposition 6.14(e). t
u
14 Beispiel 11.5. (1) Sei A ∈ K m×n . Dann ist Kern(ϕA ) die Lösungsmenge des
15 homogenen LGS mit Koeffizientenmatrix A. Es folgt: ϕA ist injektiv ⇐⇒
16 rg(A) = n.
17 (2) Sei V = R[x] und ϕ: V → V, f 7→ f 0 (Ableitung). Kern(ϕ) ist die Menge
18 aller konstanter Polynome. (Wie wir wissen) ist ϕ nicht injektiv. Es gilt
19 Bild(ϕ) = V . /
20 Definition 11.6. Eine lineare Abbildung ϕ: V → W heißt Isomorphis-
21 mus, falls ϕ bijektiv ist. Dann ist auch die Umkehrabbildung ϕ−1 : W → V
22 ein Isomorphismus. V und W heißen isomorph, falls es einen Isomorphis-
23 mus V → W gibt. Notation: V ∼ = W.
24 Wir betrachten einen K-Vektorraum V mit n = dim(V ) < ∞. Nachdem
25 wir eine Basis B = {v1 , . . . , vn } von V gewählt haben, können wir die lineare
26 Abbildung  
a1 n
n  ..  X
27 ϕ: K → V,  .  7→ ai vi
an i=1

28 definieren. Die lineare Unabhängigkeit von B liefert Kern(ϕ) = {0}, also


29 ist ϕ nach Satz 11.4(c) injektiv. Da B ein Erzeugendensystem ist, folgt die
30 Surjektivität von ϕ. Also ist ϕ ein Isomorphismus. Die Umkehrabbildung
31 ist dadurch gegeben, dass jedem v ∈ V sein Koordinatenvektor
  bezüglich
a1
B zugewiesen wird, also der eindeutig bestimmte Vektor  ...  ∈ K n mit
 
32

an
Pn
33 v= i=1 ai vi . Wir haben bewiesen:

34 Satz 11.7. Es sei n := dim(V ) < ∞. Dann gilt


92 Lineare Abbildungen

1 V ∼
= K n.

2 Beispiel 11.8. V = {f ∈ K[x] | deg(f ) < 3} ∼


= K 3 . Ein Isomorphismus wird
3 gegeben durch
 
a1
4 ϕ: K 3 → V, a2  7→ a1 + a2 x + a3 x2 .
a3
5 /
6 Der Isomorphismus aus Satz 11.7 kann immer erst nach Wahl einer Ba-
7 sis angegeben werden. Man spricht auch von einem nicht kanonischen Iso-
8 morphismus. Satz 11.7 besagt, dass man sich beim Studium von endlich-
9 dimensionalen Vektorräumen immer auf den Fall V = K n zurückziehen kann.
10 Satz 11.9 (Dimensionssatz für lineare Abbildungen). Sei ϕ: V → W line-
11 ar. Dann gilt:

12 dim(V ) = dim (Kern(ϕ)) + dim (Bild(ϕ)) .

13 Beweis. Wir betrachten nur den Fall, dass Kern(ϕ) und Bild(ϕ) endlich-
14 dimensional sind. (Der allgemeine Fall geht genauso, benötigt aber aufwändi-
15 gere Notation.) Es seien {w1 , . . . , wn } eine Basis von Bild(ϕ) und {v1 , . . . , vm }
16 eine Basis von Kern(ϕ). Wir können v10 , . . . , vn0 ∈ V wählen mit ϕ(vi0 ) = wi .
17 Behauptung: B := {v1 , . . . , vm , v10 , . . . , vn0 } ist eine Basis von V .
18 Zum Nachweis der linearen Unabhängigkeit sei

19 a1 v1 + · · · + am vm + b1 v10 + · · · + bn vn0 = 0 (11.1)

20 mit ai , bi ∈ K. Anwendung von ϕ auf (11.1) liefert:


m
X n
X n
X
21 0 = ϕ(0) = ai ϕ(vi ) + bi ϕ(vi0 ) = bi w i .
i=1 i=1 i=1

22 Wegen der linearen Unabhängigkeit der wi liefert dies b1 = · · · = bn = 0.


23 Nun folgt aus (11.1)
24 a1 v1 + · · · + am vm ,
25 also auch a1 = · · · = am = 0.
26 Für den Nachweis, dass B ein Erzeugendensystem ist, sei vP∈ V beliebig.
n
27 Wegen ϕ(v) ∈ Bild(ϕ) Pnkönnen wir v schreiben als ϕ(v) = i=1 bi wi mit
0
28 bi ∈ K. Mit ve := v − i=1 bi vi folgt
n
X n
X
29 v ) = ϕ(v) −
ϕ(e bi ϕ(vi0 ) = ϕ(v) − bi wi = 0,
i=1 i=1

30 also ve ∈ Kern(ϕ). Damit gibt es a1 , . . . , am ∈ K, so dass


Lineare Abbildungen 93

1 ve = a1 v1 + · · · + am vm .

2 Insgesamt erhalten wir


n
X m
X n
X
3 v = ve + bi vi0 = ai vi + bi vi0 ,
i=1 i=1 i=1

4 also v ∈ hBi.
5 Wir haben nachgewiesen, das B eine Basis von V ist, also dim(V ) = |B| =
6 m + n = dim (Kern(ϕ)) + dim (Bild(ϕ)). t
u 
 31. Vorlesung,

y 23.01.2019
7 Wir betrachten jetzt eine durch eine Matrix A ∈ K m×n gegebene lineare
8 Abbildung ϕA : K n → K m (siehe Beispiel 11.2(3)). Nach Proposition 10.13
9 hat Kern(ϕA ) die Dimension n−rg(A). Satz 11.9 liefert n = dim (Kern(ϕA ))+
10 dim (Bild(ϕA )), also folgt dim (Bild(ϕA )) = rg(A). Was ist Bild(ϕA )? Das
11 Bild besteht genau aus allen Linearkombinationen der Spalten von A. Damit
12 haben wir bewiesen:
13 Korollar 11.10. Der Rang einer Matrix A ∈ K m×n ist die Dimension des
14 von den Spalten aufgespannten Unterraums von K m .
15 Der Vergleich mit Proposition 10.14 ist besonders interessant! Die durch
16 Proposition 10.14 und Korollar 11.10 gegebenen Interpretationen des Rangs
17 laufen unter der Merkregel

18 Zeilenrang“ = Spaltenrang“.
” ”

19 Korollar 11.11. Es gelte dim(V ) = dim(W ) < ∞, und ϕ: V → W sei eine


20 lineare Abbildung. Dann sind äquivalent:
21 (a) ϕ ist ein Isomorphismus.
22 (b) ϕ ist injektiv.
23 (c) ϕ ist surjektiv.

24 Beweis. Es wird behauptet, dass in der betrachteten Situation Injektivität


25 und Surjektivität von ϕ äquivalent sind. Nach Satz 11.4(c) ist Injektivität
26 gleichbedeutend mit Kern(ϕ) = {0}, also mit dim (Kern(ϕ)) = 0. Wegen
27 Satz 11.9 ist

28 dim (Bild(ϕ)) = dim(V ) − dim (Kern(ϕ)) = dim(W ) − dim (Kern(ϕ)) .

29 Also ist ϕ genau dann injektiv, wenn dim (Bild(ϕ)) = dim(W ). Dies ist wegen
30 Korollar 10.16(b) gleichbedeutend mit Bild(ϕ) = W , also mit der Surjekti-
31 vität von ϕ. t
u
32 Zum Abschluss des Abschnitts beweisen wir einen Satz, der im folgenden
33 Abschnitt eine wichtige Rolle spielen wird.
94 Darstellungsmatrizen und Matrixprodukt

1 Satz 11.12 (lineare Fortsetzung). Es sei B = {v1 , . . . , vn } eine Basis von


2 V.
3 (a) Eine lineare Abbildung ϕ: V → W ist durch die Bilder der Basisvektoren
4 vi eindeutig bestimmt. Mit anderen Worten: Ist ψ: V → W eine weitere
5 lineare Abbildung mit ϕ(vi ) = ψ(vi ) für alle i, so folgt ϕ = ψ.
6 (b) Seien w1 , . . . , wn ∈ W beliebig. Dann gibt es eine lineare Abbildung
7 ϕ: V → W mit ϕ(vi ) = wi für alle i.
8 Zusammengefasst: Man kann lineare Abbildungen eindeutig definieren, indem
9 man die Bilder der Basisvektoren angibt. Dies nennt man das Prinzip der
10 linearen Fortsetzung.
11 Beweis. (a) Es gelte ϕ(vi ) P = ψ(vi ) für alle i. Sei v ∈ V . Dann gibt es
n
12 a1 , . . . , an ∈ K mit v = i=1 ai vi , also
n
! n n n
!
X X X X
13 ϕ(v) = ϕ ai vi = ai ϕ(vi ) = ai ψ(vi ) = ψ ai vi = ψ(v).
i=1 i=1 i=1 i=1

14 Dies bedeutet ϕ = ψ. Pn
15 (b) Wir definieren ϕ: V → W folgendermaßen: Für v ∈ V sei v = i=1 ai vi
16 mit ai ∈ K. Dann setzen wir
n
X
17 ϕ(v) := ai wi .
i=1

18 Die eindeutige Darstellungseigenschaft von B liefert die Wohldefiniertheit


19 von ϕ. Die Linearität ergibt sich durch einfaches Nachprüfen. Außerdem
20 gilt nach Konstruktion ϕ(vi ) = wi . t
u

21 12 Darstellungsmatrizen und Matrixprodukt

22 In diesem Abschnitt seien K ein Körper, V und W endlich-dimensionale K-


23 Vektorräume und B = {v1 , . . . , vn } bzw. C = {w1 , . . . , wm } Basen von V
24 bzw. von W . Für das Folgende ist die Reihenfolge der Basisvektoren wichtig.
25 Wir könnten dies zum Ausdruck bringen, indem wir als neues mathematisches
26 Objekt eine geordnete Basis einführen, etwa als ein Element des n-fachen kar-
27 tesischen Produkts V × · · · × V (mit den entsprechenden Zusatzeigenschaften
28 einer Basis). Wir werden aber davon absehen, solchen begrifflichen und no-
29 tationstechnischen Aufwand zu betreiben.
30 Nun sei ϕ: V → W eine lineare Abbildung. Für j ∈ {1, . . . , n} können wir
31 schreiben:
Xm
32 ϕ(vj ) = ai,j wi
i=1
Darstellungsmatrizen und Matrixprodukt 95

1 mit ai,j ∈ K. Nun bilden wir die Matrix


 
a1,1 · · · a1,n
A = (ai,j ) =  ... ..  ∈ K m×n .

2
. 
am,1 · · · am,n

3 Die Spalten von A sind also die Koordinatenvektoren der ϕ(vi ).


4 Definition 12.1. Die oben definierte Matrix A heißt die Darstellungsma-
5 trix von ϕ (bezüglich der Basen B und C). Schreibweise:

6 A = DC,B (ϕ).

7 Falls V = W gilt, so verwendet man dieselbe Basis B = C und schreibt


8 DB (ϕ) ∈ K n×n .
9 Anmerkung 12.2. (a) Die Notation DC,B (ϕ) dieser Vorlesung ist nicht all-
10 gemein gebräuchlich. Viele Lehrbücher verwenden für die Darstellungs-
11 matrix andere oder gar keine Notation.
12 (b) Es erscheint zunächst unnatürlich, dass bei DC,B (ϕ) die Basis des Ziel-
13 raums W als erstes und die des Definitionsraums V als zweites geschrie-
14 ben wird. Der Grund hierfür ist, dass sich durch diese Konvention we-
15 sentlich schönere und leichter zu merkende Formeln ergeben, etwa in
16 Satz 12.8. /
17 Als Merkregel halten wir fest:

18 Spalten der Darstellungsmatrix ←→ Bilder der Basisvektoren

19 Beispiel 12.3. (1) Es sei V = W = R2 mit Basis B = {e1 , e2 }, und ϕ: V → V


20 sei eine Drehung um 60◦ nach links. Wir haben
  √
1/2 1 3
21 ϕ(e1 ) = √ = e1 + e2 ,
3/2 2 2
 √  √
− 3/2 3 1
22 ϕ(e2 ) = =− e1 + e2 ,
1/2 2 2

23 also  √ 
√1/2 − 3/2
24 DB (ϕ) = .
3/2 1/2
25 (2) Es sei V = {f ∈ R[x] | deg(f ) < 3} mit Basis B = {1, x, x2 }. Für ϕ: V →
26 V, f 7→ f 0 (Ableitung) erhalten wir

27 ϕ(1) = 0, ϕ(x) = 1 und ϕ(x2 ) = 2x,

28 also
96 Darstellungsmatrizen und Matrixprodukt
 
010
1 DB (ϕ) = 0 0 2 .
000
2 /
m×n
3 Wir machen die Menge K aller m×n-Matrizen zu einem K-Vektorraum,
4 indem wir zwei Matrizen A := (ai,j ) und B = (bi,j ) ∈ K m×n komponenten-
5 weise addieren, also
6 A + B = (ai,j + bi,j )i,j ,
7 und das Produkt mit einem Skalar c ∈ K definieren als

8 c · A = (c · ai,j )i,j .

9 Nun können wir formulieren:


10 Satz 12.4. Es gilt
11 Hom(V, W ) ∼
= K m×n .
12 Ein Isomorphismus wird gegeben durch

 13 ∆: Hom(V, W ) → K m×n , ϕ 7→ DC,B (ϕ).


 32. Vorlesung,

y 25.01.2019
14 Beweis. Die Linearität von ∆ folgt direkt aus den Definitionen. Zum Beweis
15 der Injektivität sei ∆(ϕ) = 0. Dann folgt ϕ = 0 (die Nullabbildung) aus
16 Satz 11.12(a). Für den Beweis der Surjektivität sei A = (a Pi,j ) ∈ K m×n .
m
17 Wegen Satz 11.12(b) gibt es ϕ ∈ Hom(V, W ) mit ϕ(vj ) = i=1 ai,j wi . Es
18 folgt ∆(ϕ) = A. t
u

19 In Beispiel 11.2(3) haben wir mit Hilfe einer Matrix eine lineare Abbildung
20 K n → K m definiert, also bereits eine Zuordnung zwischen Matrizen und
21 linearen Abbildungen hergestellt. Besteht zwischen dieser Zuordnung und
22 Definition 12.1 ein Zusammenhang?
23 Satz 12.5. Gegeben seien V = K n und W = K m mit den Standardbasen B
24 und C, und eine lineare Abbildung ϕ: V → W . Mit A := DC,B (ϕ) gilt dann

25 ϕ = ϕA .

26 Insbesondere sind alle linearen Abbildungen V → W von der Form ϕA mit


27 A ∈ K m×n , und A ist die Darstellungsmatrix von ϕA bezüglich der Standard-
28 basen.
29 Beweis. Wir schreiben A = (ai,j ). Für den Standardbasisvektor ej gilt
 
m a1,j
ai,j ei =  ...  = ϕA (ej ).
X
ϕ(ej ) =
 
30

i=1 am,j
Darstellungsmatrizen und Matrixprodukt 97

1 Aus Satz 11.12(a) folgt nun die Behauptung. t


u
2 Anmerkung. Aus der Wahl der Basen B und C erhalten wir Isomorphismen
3 ψB : K n → V und ψC : K m → W . Für die Darstellungsmatrix A = DC,B (ϕ)
4 einer linearen Abbildung ϕ: V → W gilt dann:
−1
5 ϕA = ψC ◦ ϕ ◦ ψB .

6 Dies ist eine (leicht zu beweisende) Verallgemeinerung von Satz 12.5. /


7 Wir wissen, dass die Komposition von linearen Abbildungen wieder linear
8 ist. Damit ergibt sich die Frage: Was passiert mit den Darstellungsmatrizen
9 bei Bildung der Komposition? Zur Beantwortung dieser Frage brauchen wir
10 das Matrixprodukt.
11 Definition 12.6. Für A = (ai,j ) ∈ K m×n und B = (bi,j ) ∈ K n×l ist das
12 Produkt A · B ∈ K m×l definiert durch A · B = (ci,j ) mit
n
X
13 ci,j := ai,k bk,j .
k=1

14 Das Produkt ist also nicht komponentenweise definiert. Es ist nur definiert,
15 wenn die Spaltenzahl von A mit der Zeilenzahl von B übereinstimmt. Ein
16 wichtiger Spezialfall ist das
 Produkt
 einer Matrix A = (ai,j ) ∈ K m×n mit
x1
 .. 
17 einem Spaltenvektor v =  .  ∈ K n :
xn
 
y1 n
A · v =  ...  ∈ K m
X
mit yi = ai,j xj .
 
18

ym j=1

Beispiel 12.7.
 
  11    
101  
- 1·1+0·1+1·0 1·1+0·2+1·1 12
· 1 2 = = .
0 1 2- 0·1+1·1+2·0 0·1+1·2+2·1 14
01
??
19

20 /
m×n n m
21 Zu A ∈ K kann man nun die lineare Abbildung ϕA : K → K durch
22 ϕA (v) := A · v definieren. Außerdem können wir ein LGS mit erweiterter
23 Koeffizientenmatrix (A | b) schreiben als A · x = b.
24 Satz 12.8. Es seien U , V und W endlich-dimensionale K-Vektorräume mit
25 Basen A, B bzw. C, und es seien ϕ: U → V und ψ: V → W lineare Abbil-
26 dungen. Dann gilt
98 Darstellungsmatrizen und Matrixprodukt

1 DC,A (ψ ◦ ϕ) = DC,B (ψ) · DB,A (ϕ).

2 Als Merkregel halten wir fest:

3 Komposition von linearen Abbildungen ←→ Matrixprodukt

4 Beweis. Wir müssen zunächst Bezeichnungen einführen. Wir schreiben A =


5 {u1 , . . . , un }, B = {v1 , . . . , vm }, C = {w1 , . . . , wl } und

6 DC,B (ψ) = (ai,j ) ∈ K l×m , DB,A (ϕ) = (bi,j ) ∈ K m×n .

Für j ∈ {1, . . . , n} gilt:

m
! m
X X
(ψ ◦ ϕ)(uj ) = ψ bk,j vk = bk,j ψ(vk ) =
k=1 k=1
m l
! l m
!
X X X X
bk,j ai,k wi = ai,k bk,j wi .
k=1 i=1 i=1 k=1

7 Aus der Beobachtung, dass im letzten Ausdruck der Koeffizient von wi genau
8 der (i, j)-te Eintrag des Produkts DC,B (ψ) · DB,A (ϕ) ist, folgt die Behaup-
9 tung. t
u
10 Man könnte sagen, dass das Matrixprodukt so definiert ist, dass Satz 12.8
11 richtig wird. Da für drei lineare Abbildungen ϕ1 : V1 → V2 , ϕ2 : V2 → V3 und
12 ϕ3 : V3 → V4 das Assoziativitätsgesetz“ ϕ3 ◦ (ϕ2 ◦ ϕ1 ) = (ϕ3 ◦ ϕ2 ) ◦ ϕ1 gilt,

13 folgt für Matrizen A ∈ K m×n , B ∈ K n×l und C ∈ K l×r :

14 (A · B) · C = A · (B · C). (12.1)

15 Wir haben schon gesehen, dass Hom(V, V ) ein Ring wird. Aus Satz 12.8
16 folgt, dass K n×n mit der Addition und Multiplikation von Matrizen ein Ring
17 ist, der isomorph zu der Hom(V, V ) ist. Das Einselement von K n×n ist die
18 Einheitsmatrix
··· 0
 
1 0
 .. 
0 1 .
 
In := 
 ..  = (δi,j )i,j ∈ K n×n .

19
 . 
.
 ..

1 0
0 ··· 0 1

20 Für n ≥ 2 ist K n×n nicht kommutativ, wie das Beispiel


Darstellungsmatrizen und Matrixprodukt 99
           
11 10 21 10 11 11
1 · = , aber · = ,
01 11 11 11 01 12

2 das sich auf beliebige n × n-Matrizen mit n ≥ 2 ausweiten lässt, zeigt. Damit
3 ist auch Hom(V, V ) für dim(V ) ≥ 2 nicht kommutativ. Das wäre auch nicht
4 zu erwarten gewesen, denn die Komposition von Abbildungen ist selten“


 33. Vorlesung,
5 kommutativ (siehe Anmerkung 2.5(b)). 
y 29.01.2019
6 Aus (12.1) folgt für A ∈ K m×n , B ∈ K n×l und v ∈ K l :

7 ϕA·B (v) = (A · B) · v = A · (B · v) = ϕA (ϕB (v)) ,

8 also
9 ϕA·B = ϕA ◦ ϕB . (12.2)
n×n
10 Wann ist eine Matrix A ∈ K invertierbar, d.h. wann gibt es eine
11 inverse Matrix A−1 ∈ K n×n mit A · A−1 = In ? Dies gilt wegen (12.2)
12 genau dann, wenn die zugehörige lineare Abbildung ϕA : K n → K n surjektiv
13 ist. Nach Korollar 11.11 ist dies gleichbedeutend mit der Injektivität von ϕA ,
14 also nach Beispiel 11.5(1) damit, dass rg(A) = n. Wir halten fest:

15 A ∈ K n×n ist invertierbar ⇐⇒ rg(A) = n.

16 Für die Bedingung rg(A) = n haben wir auch die Sprechweise eingeführt,
17 dass A regulär ist.
18 Da aus der Invertierbarkeit von A die Bijektivität von ϕA folgt, gilt auch
19 ϕ−1
A ◦ ϕA = id. Hieraus folgt mit (12.2), dass auch A
−1
A = In gilt.
20 Für das Berechnen einer inversen Matrix zu A ∈ K n×n haben wir das
21 folgende Verfahren.
22 (1) Bilde die erweiterte“ Matrix (A|In ) ∈ K n×(2n) durch Anhängen einer

23 Einheitsmatrix.
24 (2) Führe diese (mit dem Gauß-Algorithmus) über in strenge Zeilenstufen-
25 form, so dass zusätzlich in jeder Zeile 6= 0 der erste Eintrag 6= 0 eine 1
26 ist.
27 (3) 1. Fall: Die Zeilenstufenform hat die Gestalt (In |B) mit B ∈ K n×n : Dann
28 gilt B = A−1 , und wir sind fertig.
29 2. Fall: Die Zeilenstufenform hat eine andere Gestalt: Dann ist rg(A) < n,
30 A ist also nicht invertierbar.

31 Die Korrektheit des Algorithmus begründen wir wie folgt: Es werden si-
32 multan die LGSe A · x = ei (i-ter Standardbasisvektor) gelöst. Der erste Fall
33 ist der Fall eindeutiger Lösbarkeit. Dann sind die Spalten von B jeweils die
34 Lösungsvektoren, und es folgt A · B = In .
 
1 −2 0
35 Beispiel 12.9. Wir möchten die Matrix A = −1 3 −2 ∈ R3×3 invertie-
−1 2 −1
36 ren. Obiges Verfahren läuft wie folgt ab:
100 Darstellungsmatrizen und Matrixprodukt
   
1 −2 0 1 0 0 1 −2 0 1 0 0
 −1 3 −2 0 1 0  −→  0 1 −2 1 1 0  −→
−1 2 −1 0 0 1 0 0 −1 1 0 1
1
   
1 −2 0 1 0 0 1 0 0 −1 2 −4
 0 1 0 −1 1 −2  −→  0 1 0 −1 1 −2  ,
0 0 −1 1 0 1 0 0 1 −1 0 −1
 
−1 2 −4
2 also A−1 = −1 1 −2. Per Probe-Multiplikation prüft man leicht A·A−1 =
−1 0 −1
3 A−1 · A = I3 nach. /
n×n
4 Für zwei invertierbare Matrizen A, B ∈ K ist auch A · B invertierbar,
5 die Inverse ist
6 (A · B)−1 = B −1 A−1 .
7 Außerdem ist A−1 invertierbar. Es folgt, dass die Menge

GLn (K) := A ∈ K n×n | A ist invertierbar



8

9 eine Gruppe bildet. Sie heißt die allgemeine lineare Gruppe. Für n ≥ 2
10 ist GLn (K) nicht abelsch.
11

12 Für den Rest des Abschnitts beschäftigen wir uns mit dem Thema Basis-
13 wechsel.
14 Wir wissen, dass Vektorräume verschiedene Basen haben. Was passiert
15 mit der Darstellungsmatrix einer linearen Abbildung V → V , wenn man die
16 Basis von V wechselt?
17 Es sei B = {v1 , . . . , vn } eine Basis von V , und B 0 = {v10 , . . . , vn0 } sei eine
18 weitere Basis. Wir können die neuen“ Basisvektoren vj0 mit Hilfe der alten

19 ausdrücken:
n
X
20 vj0 = ai,j vi (12.3)
i=1

21 mit ai,j ∈ K. Hieraus können wir die Matrix S := (ai,j ) ∈ K n×n bilden.
22 S heißt die Basiswechselmatrix. Sie beschreibt den Übergang von B zu
23 B 0 . Man schreibt bisweilen S =: SB,B 0 . (Für diese Schreibweise gilt das in
24 Anmerkung 12.2(a) Gesagte.) Die Basiswechselmatrix wird nach folgender
25 Merkregel gebildet:

26 Spalten von S = Koordinatenvektoren der neuen“ Basisvektoren


27 Man kann auch umgekehrt die vj mit Hilfe der vi0 ausdrücken und erhält so
28 die Basiswechselmatrix SB 0 ,B .
29 Proposition 12.10. Die Basiswechselmatrix ist invertierbar, und es gilt
Darstellungsmatrizen und Matrixprodukt 101

−1
1 SB,B 0 = SB 0 ,B .

2 Beweis. Vorbemerkung: Dass es unüblich ist, bei der Bildung der Darstel-
3 lungsmetrix einer linearen Selbstabbildung zwei verschiedene Basen zu be-
4 nutzen, heißt nicht, dass es verboten ist. Genau das tun wir in diesem Beweis.
5 Ein Blick auf die Definitionen der Basiswechselmatrix und der Darstel-
6 lungsmatrix zeigt nämlich, dass

7 SB,B 0 = DB,B 0 (idV ) (12.4)

8 gilt. Aus Satz 12.8 folgt nun SB,B 0 SB 0 ,B = DB,B (idV ◦ idV ) = In . t
u
| {z }
=idV

9 Wir bemerken außerdem, dass jede invertierbare Matrix S = (ai,j ) ∈


10 GLn (K) einen Basiswechel beschreibt, indem man die neue Basis einfach
11 durch (12.3) definiert.
12 Wir kehren zurück zu unserer Ausgangsfrage und betrachten zunächst eine
13 lineare Abbildung ϕ: V → W zwischen zwei Vektorräumen.
14 Satz 12.11. Es seien B, B 0 endliche Basen von V und C, C 0 endliche Basen
15 von W . Dann gilt für eine lineare Abbildung ϕ: V → W :

−1
16 DC 0 ,B 0 (ϕ) = SC 0 ,C · DC,B (ϕ) · SB,B 0 = SC,C 0 · DC,B (ϕ) · SB,B 0 .

Beweis. Die erste Gleichheit ergibt sich mit (12.4) und Satz 12.8 durch

SC 0 ,C · DC,B (ϕ) · SB,B 0 = DC 0 ,C (idW )DC,B (ϕ)DB,B 0 (idV ) =


DC 0 ,B (idW ◦ϕ)DB,B 0 (idV ) = DC 0 ,B 0 (idW ◦ϕ ◦ idV ) = DC 0 ,B 0 (ϕ).

17 Hieraus folgt die zweite Gleichung mit Proposition 12.10. t


u
18 Wir betrachten nun den Spezialfall W = V und erhalten das folgende
19 Ergebnis, das wesentlich häufiger benutzt wird als Satz 12.11.
20 Korollar 12.12. Es seien B und B 0 Basen eines endlich-dimensionalen K-
21 Vektorraums V und S := SB,B 0 die Basiswechselmatrix. Dann gilt für eine
22 lineare Abbildung ϕ: V → V :

23 DB 0 (ϕ) = S −1 · DB (ϕ) · S.

24 Wir nehmen die letzten beiden Resultate (und die Bemerkung, dass jede
25 invertierbare Matrix einen Basiswechsel vermittelt) zum Anlass für folgende
26 Definition:
27 Definition 12.13. (a) Zwei quadratische Matrizen A, B ∈ K n×n heißen
28 ähnlich, falls es S ∈ GLn (K) gibt mit
102 Diskrete Strukturen: Lineare Codes

1 B = S −1 AS.

2 (b) Zwei Matrizen A, B ∈ K m×n heißen äquivalent, falls es S ∈ GLn (K)


3 und T ∈ GLm (K) gibt mit

4 B = T −1 AS.


 34. Vorlesung,
5 Wie man sich leicht überlegt, sind Ähnlichkeit und Äquivalenz Äquivalenz-

y 30.01.2019 6 relationen. Von diesen beiden Begriffen ist die Ähnlichkeit der wichtigere.
7 Das folgende Beispiel soll einen Hinweis darauf geben, weshalb ein Basis-
8 wechsel nützlich sein kann.    
x y
9 Beispiel 12.14. Es seien V = R2 und ϕ: V → V, 7→ . Mit der
y x
10 Standardbasis B = {e1 , e2 } haben wir
 
01
11 DB (ϕ) = .
10
   
1 1
12 Als neue Basis wählen wir B 0 = { , }. Die Basiswechselmatrix und
1 −1
13 ihre Inverse sind
   
1 1 −1 1 1 1
14 S = SB,B 0 = und S = .
1 −1 2 1 −1

15 Es ergibt sich
           
1 1 1 01 1 1 1 1 1 1 −1 1 0
16 D (ϕ) =
B0 · · = · = .
2 1 −1 10 1 −1 2 1 −1 1 1 0 −1

17 Die Darstellungsmatrix DB 0 (ϕ) beschreibt ϕ in einfacherer Weise: Der erste


18 Basisvektor wird durch ϕ festgehalten, der zweite wird umgeklappt“. /

19 13 Diskrete Strukturen: Lineare Codes

20 In diesem Abschnitt werden die bisher erarbeiteten Konzepte auf die Da-
21 tenübertragung über einen nicht perfekten Kanal angewandt. Wir stellen uns
22 vor, dass nacheinander Bits x1 , x2 , x3 , . . . über einen Kanal gesendet (oder
23 auf einem Datenträger gespeichert) werden. Hierbei sind Fehler möglich: Mit
24 einer gewissen Wahrscheinlichkeit (etwa p = 10−6 ) wird ein Bit fehlerhaft
25 übertragen bzw. gespeichert. Um trotzdem die korrekten Daten rekonstruie-
26 ren zu können, oder um zumindest mit großer Wahrscheinlichkeit auf einen
27 Fehler aufmerksam zu werden, schickt man die Daten mit einer gewissen
28 Redundanz.
Diskrete Strukturen: Lineare Codes 103

1 Die naivste Idee ist hierbei das Wiederholen: Alle Daten werden zweimal
2 gesendet (oder 3,4, . . . mal). Bei Einteilung in Viererblocks wird also statt
3 (x1 , x2 , x3 , x4 ) das Wort“ (x1 , x2 , x3 , x4 , x1 , x2 , x3 , x4 ) gesendet.

4 Als allgemeinen Rahmen wollen wir die folgende Situation betrachten: Ein
5 Bit wird als ein Element des Körpers K = F2 (= Z/2Z) modelliert. Wir
6 können jedoch auch Elemente eines anderen (endlichen) Körpers K betrach-
7 ten. Der zu sendende Bit-Strom wird in Blocks der Länge k zerlegt, z.B.
8 k = 4. Statt (x1 , . . . , xk ) ∈ K k wird (c1 , . . . , cn ) ∈ K n gesendet (bzw. gespei-
9 chert). Hierbei gibt es eine Zuordnung (x1 , . . . , xk ) 7→ (c1 , . . . , cn ). Diese ist
10 häufig linear, d.h. gegeben durch eine Matrix G ∈ K n×k , also:
   
c1 x1
 ..   .. 
11  .  = G ·  . .
cn xk

12 (Man beachte, dass wir hier je nach Bequemlichkeit Zeilen- und Spalten-
13 vektoren schreiben.) Der gesendete Vektor (c1 , . . . , cn ) heißt Codewort, und
14 (x1 , . . . , xk ) heißt Informationswort. G heißt Generatormatrix. Die Men-
15 ge    
x1 x1
 ..   .. 
n o
16 C := G ·  .   .  ∈ K k
xk xk
17 aller Codewörter bildet einen Unterraum des K n . Eine solche Datenübertra-
18 gung ist nur sinnvoll, wenn die Zuordnung des Codeworts zu einem Datenwort
19 injektiv ist. Das inhomogene LGS G · x = c muss also für alle c ∈ C eindeutig
20 lösbar sein, also rg(G) = k. Aus unserem Test auf lineare Unabhängigkeit auf
21 Seite 81 folgt, dass die Spalten von G linear unabhängig sind. Diese Spalten
22 erzeugen C, also folgt
23 dim(C) = k.
24 Ausgehend von dieser Situation machen wir folgende Definition:
25 Definition 13.1. Ein linearer Code ist ein Unterraum C ⊆ K n . Mit k :=
26 dim(C) bezeichnen wir C auch als einen (n, k)-Code. Die Länge von C ist n.
27 Die Informationsrate ist k/n, die Redundanz ist n − k.
28 Bei der Definition fällt auf, dass die Abbildung K k → K n nicht in die De-
29 finition des Codes aufgenommen wird. Für die meisten Fragestellungen der
30 Codierungstheorie ist diese nämlich unerheblich. Als Generatormatrix eines
31 Codes C kann man jede Matrix nehmen, deren Spalten eine Basis von C bil-
32 den. Wir bemerken noch, dass bisweilen auch nicht-lineare Codes betrachtet
33 werden.
34 Beispiel 13.2. (1) Die Generatormatrix
104 Diskrete Strukturen: Lineare Codes
 
1 0 0 0
0 1 0 0
 
0 0 1 0
 
0 0 0 1
1 G := 
1

 0 0 0

0 1 0 0
 
0 0 1 0
0 0 0 1

2 liefert den Wiederholungscode, bei dem alles einmal wiederholt wird. Dies
3 ist ein (8,4)-Code, die Informationsrate ist also 1/2. Falls bei der Übert-
4 ragung höchstens ein Fehler auftritt, wird dies beim Empfang festgestellt.
5 Der Fehler kann jedoch nicht korrigiert werden. Man spricht von einem
6 1-fehlererkennenden Code.
7 (2) Der sogenannte Parity-Check-Code ist gegeben durch die Generatorma-
8 trix  
1000
0 1 0 0
 
9
0 0 1 0 .
G :=  
0 0 0 1
1111
10 Als Abbildung kann man ihn als (x1 , . . . , x4 ) 7→ (x1 , . . . , x4 , x1 +x2 +x3 +
11 x4 ) definieren. Dies ist ein (5,4)-Code. Falls einer oder 3 Fehler auftreten,
12 wird dies erkannt. Also ist auch dieser Code 1-fehlererkennend. Aber seine
13 Informationsrate ist mit 4/5 höher als die des Wiederholungscodes. Der
14 Parity-Check-Code ist wohl eine der ältesten Ideen der Informatik.
15 (3) Es ist auch möglich, jedes Informationswort dreimal zu senden. Der ent-
16 sprechende Code hat die Generatormatrix
 
I4
17 G = I4  ∈ K 12×4 .
I4

18 Dies ist ein (12,4)-Code. Falls höchstens ein Fehler auftritt, kann man die-
19 sen nach Empfang korrigieren. Man spricht von einem 1-fehlerkorrigierenden
20 Code. /
21 Das Dekodieren läuft folgendermaßen ab: Das empfangene Wort c0 =
22 (c01 , . . . , c0n )
kann sich von dem gesendeten Wort c durch Übertragungsfehler
23 unterscheiden. Falls c0 ein Codewort ist, also c0 ∈ C, so wird c = c0 angenom-
24 men, denn dann ist der wahrscheinlichste Fall, dass kein Fehler auftrat. In
25 diesem Fall wird durch das Auflösen des LGS G · x = c0 das (wahrscheinliche)
26 Informationswort x ∈ K k ermittelt. Interessanter ist der Fall c0 ∈
/ C. Es wird
27 (wieder) mit der Annahme gearbeitet, dass die Anzahl der Fehlerbits mit
28 hoher Wahrscheinlichkeit klein ist. Also sucht man ein Codewort c00 ∈ C, das
29 sich von c0 an möglichst wenig Koordinaten unterscheidet. Falls es genau ein
Diskrete Strukturen: Lineare Codes 105

1 solches c00 gibt, wird c = c00 angenommen und x ∈ K k mit G · x = c00 ausge-
2 geben. Andernfalls wird eine Fehlermeldung ausgegeben: dann ist sinnvolles
3 Dekodieren nicht möglich. Die Güte eines Codes entscheidet sich darin, dass
4 dieser Fall möglichst vermieden wird, und dass korrektes Dekodieren (c00 = c)
5 mit möglichst hoher Wahrscheinlichkeit passiert.
6 Definition 13.3. Für c = (c1 , . . . , cn ) ∈ K n ist
n o
w(c) := i ∈ {1, . . . , n} ci 6= 0

7

8 das Hamming-Gewicht von c. Für c, c0 ∈ K n ist


n o
d(c, c0 ) := w(c − c0 ) = i ∈ {1, . . . , n} ci 6= c0i

9

10 der Hamming-Abstand von c und c0 . (Nebenbei: Dies ist eine Metrik auf
11 K n .) Für eine Teilmenge C ⊆ K n ist
n o
d(C) := min d(c, c0 ) c, c0 ∈ C, c 6= c0

12

13 der Hamming-Abstand von C. (Falls |C| ≤ 1, so setzen wir d(C) := n+1.)


14 Falls C ein Unterraum ist, ergibt sich
n o
d(C) = min w(c) c ∈ C \ {0} .

15

16 Beispiel 13.4. (1) Der (8,4)-Wiederholungscode (Beispiel 13.2(1)) hat d(C) =


17 2.
18 (2) Der (5,4)-Parity-Check-Code (Beispiel 13.2(2)) hat ebenfalls d(C) = 2.
19 (3) Der (12,4)-Wiederholungscode (Beispiel 13.2(3)) hat d(C) = 3. /
20 Folgende Überlegung zeigt, dass der Hamming-Abstand entscheidend ist
21 für die Güte eines Codes.
22 Es sei zunächst d(C) = 2e + 1 ungerade. Das (durch Übertragungsfehler
23 bedingte) Ändern von höchstens e Bits in einem Codewort ergibt ein c0 ∈
24 K n mit d(c, c0 ) ≤ e. Dann ist c das eindeutig bestimmte Codewort c00 ∈ C
25 mit d(c00 , c0 ) ≤ e. Aus d(c00 , c0 ) ≤ e und c00 ∈ C folgt nämlich d(c00 , c) ≤
26 2e, also c00 = c wegen der Annahme. Dies bedeutet, dass korrekt dekodiert
27 wird, falls höchstens e Übertragungsfehler auftreten. Der Code ist also e-
28 fehlerkorrigierend. (Bei mehr als e Fehlern ist allerdings eine misslungene
29 oder gar falsche Dekodierung möglich.)
30 Nun sei d(C) = 2e + 2 gerade. Nach obigem Argument ist C auch e-
31 fehlerkorrigierend. Zusätzlich gilt: Bei e + 1 Fehlern gibt es kein Codewort
32 c00 ∈ C mit d(c00 , c0 ) ≤ e (denn dann wäre c00 6= c und d(c, c00 ) ≤ d(c, c0 ) +
33 d(c0 , c00 ) ≤ e + 1 + e < d(C), ein Widerspruch). Falls es nun ein eindeutig
34 bestimmtes Codewort mit minimalem Abstand zu c0 gibt, so ist dieses gleich c,
35 und das Dekodieren liefert das korrekte Wort. Es ist aber möglich, dass c0
36 genau zwischen“ c und einem weiteren Codewort c00 liegt, d.h. d(c, c0 ) =

106 Diskrete Strukturen: Lineare Codes

1 d(c00 , c0 ) = e + 1. Dann wird eine Fehlermeldung ausgegeben. Dies bedeutet,



 35. Vorlesung,
2 dass e+1 Fehler zumindest erkannt werden. Ein Code mit Hamming-Abstand

y 01.02.2019 3 2e + 2 ist also in diesem Sinne (e + 1)-fehlererkennend.
4 Wir fassen zusammen:
5 Satz 13.5. Sei C ⊆ K n ein Code.
6 (a) Falls d(C) = 2e + 1, so ist C e-fehlerkorrigierend.
7 (b) Falls d(C) = 2e+2, so ist C e-fehlerkorrigierend und (e+1)-fehlererkennend.
8 Alles, was wir über das Dekodieren und den Hamming-Abstand gesagt ha-
9 ben, gilt auch für nicht-lineare Codes. Nun erinnern wir uns, dass wir lineare
10 Codes betrachten wollen, also Unterräume C ⊆ K n , die von den (linear un-
11 abhängigen) Spalten einer Matrix G erzeugt werden. Wegen rg(G) = k ist es
12 gemäß Proposition 10.14 möglich, k linear unabhängige Zeilen von G auszu-
13 suchen. Durch Vertauschungen der Zeilen kann man also annehmen, dass die
14 ersten k Zeilen von G linear unabhängig sind. Dies bedeutet, dass wir auch bei
15 den Codewörtern c ∈ C die Reihenfolge der Koordinaten ci ändern, eine un-
16 wesentliche Änderung. Nun können wir auf G elementare Spaltenoperationen
17 anwenden und G auf strenge Spaltenstufenform bringen; dies entspricht den
18 gewohnten Zeilenoperationen auf der transponierten Matrix GT . Wegen Pro-
19 position 9.10 ändern die Spaltenoperationen den Code C nicht. Wir ersetzen
20 G durch die in strenge Spaltenstufenform gebrachte Matrix. Wegen der li-
21 nearen Unabhängigkeit der ersten k Zeilen ergibt sich (nach Normieren der
22 Diagonaleinträge)  
I
23 G= k (13.1)
A
24 mit A ∈ K (n−k)×k . Bei unserern bisherigen Beispielen lag G jeweils schon zu
25 Beginn in dieser Form vor. Nun bilden wir die Matrix
 
26 P := −A In−k ∈ K (n−k)×n .

27 P hat den Rang n − k, und es gilt


  
I

28 P · G = −A In−k · k = 0.
A

29 Hieraus folgt P · c = 0 für alle c ∈ C. Andererseits hat die Lösungsmenge


30 L des homogenen LGS P · x = 0 nach Proposition 10.13 die Dimension
31 n − (n − k) = k = dim(C). Wegen Korollar 10.16(b) folgt L = C. Wir halten
32 fest, dass für c ∈ K n gilt:

33 c∈C ⇐⇒ P · c = 0.

34 P heißt die Parity-Check-Matrix. Nebenbei sei erwähnt, dass für lineare


35 Codes auch ohne die Voraussetzung (13.1) eine Parity-Check-Matrix existiert.
Diskrete Strukturen: Lineare Codes 107

1 Beispiel 13.6. (1) Der (8,4)-Wiederholungscode (Beispiel 13.2(1)) hat die


2 Parity-Check-Matrix
 
−1 0 0 0 1 0 0 0
 0 −1 0 0 0 1 0 0 4×8
3 P =  0 0 −1 0 0 0 1 0 ∈ K .

0 0 0 −1 0 0 0 1

4 (2) Der (5,4)-Parity-Check-Code (Beispiel 13.2(2)) hat die Parity-Check-


5 Matrix
P = −1 −1 −1 −1 1 ∈ K 1×5 .

6

7 Mit Hilfe der Parity-Check-Matrix kann man das Dekodierungsverfahren


8 verbessern. Es sei c0 ∈ K n das empfangene Wort. Den Unterschied von c
9 und c0 quantifizieren wir durch den (dem Empfänger nicht bekannten) Feh-
10 lervektor f := c0 − c ∈ K n . Es ergibt sich

11 P · c0 = P · (c + f ) = 0 + P · f = P · f.

12 Der Vektor P · c0 ∈ K n−k heißt das Syndrom von c0 . Es misst, wie weit c0
13 von einem Codewort abweicht. Nach obiger Gleichung haben empfangenes
14 Wort und Fehlervektor das gleiche Syndrom. Das Dekodieren kann nun so
15 geschehen: Man berechnet das Syndrom P · c0 . Nun sucht man ein f ∈ K n ,
16 welches unter allen f 0 ∈ K n mit P · f 0 = P · c0 minimales Hamming-Gewicht
17 hat. Falls c0 ∈ C, so ergibt sich automatisch f = 0. Falls es ein eindeutig
18 bestimmtes solches f gibt, setzt man c00 := c0 − f ∈ C und gibt x ∈ K k mit
19 G · x = c00 aus. Falls es kein eindeutiges f gibt, gibt man eine Fehlermeldung
20 aus. Dies entspricht genau dem oben beschriebenen Dekodierungsverfahren.
21 Da es nur |K|n−k mögliche Syndrome gibt, kann man das f (oder Fehlermel-
22 dung) zu jedem Syndrom in einer Tabelle speichern. Oft gibt es noch bessere
23 Methoden zur Ermittlung von f . Dies ist in folgendem Beispiel der Fall.

24 Der (7,4)-Hamming-Code

25 Wir definieren nun den sogenannten (7,4)-Hamming-Code. Dieser zeigt, dass


26 Codierungstheorie zu mehr in der Lage ist, als die bisherigen, relativ offen-
27 sichtlichen Beispiele von Codes zu analysieren. Der Hamming-Code C ⊂ F72
28 wird durch die Generatormatrix
 
1000
0 1 0 0
 
0 0 1 0
7×4
 
29 G= 0 0 0 1 ∈ F2

0 1 1 1
 
1 0 1 1
1101
108 Diskrete Strukturen: Lineare Codes

1 definiert, als Abbildung F42 → F72 also (x1 , . . . , x4 ) 7→ (x1 , x2 , x3 , x4 , x2 +


2 x3 + x4 , x1 + x3 + x4 , x1 + x2 + x4 ). C ist ein (7,4)-Code, hat also höhere
3 Informationsrate als der (8,4)-Wiederholungscode aus Beispiel 13.2(1). Die
4 Parity-Check-Matrix ist
 
0111100
5 P = 1 0 1 1 0 1 0 .
1101001

6 Welchen Hamming-Abstand hat C? Dazu müssen wir w(c) für c ∈ C \ {0}


7 ermitteln. Die Bedingung c ∈ C ist gleichbedeutend mit P · c = 0. Gibt es
8 ein solches c mit w(c) = 1? Dies würde bedeuten, dass (mindestens) eine der
9 Spalten von P eine Nullspalte ist, was nicht der Fall ist. Gibt es ein c ∈ F72 mit
10 P · c = 0 und w(c) = 2? Dies würde bedeuten, dass es in P zwei Spalten gibt,
11 die linear abhängig sind. Auch dies ist nicht der Fall! Es folgt also d(C) > 2.
12 In diesem Argument zeigt sich die eigentliche Idee des Hamming-Codes: Man
13 beginnt mit der Parity-Check-Matrix und stellt sie so auf, dass sie keine
14 zwei linear abhängigen Spalten enthält. Hieraus folgt dann d(C) > 2. Die
15 Generatormatrix G leitet man dann aus der Parity-Check-Matrix her. Da G
16 selbst (sogar mehr als) einen Vektor von Gewicht 3 enthält, folgt

17 d(C) = 3.

18 Der (7,4)-Hamming Code ist also 1-fehlerkorrigierend. Damit hat er einerseits


19 eine höhere Informationsrate, andererseits bessere Fehlerkorrektureigenschaf-
20 ten als der (8,4)-Wiederholungscode!
21 Das Dekodieren ist hier ganz besonders einfach: Es gibt nur acht mögliche
22 Syndrome, nämlich alle Vektoren von F32 . Wir können diese schreiben als
23 v0 = 0, v1 , . . . , v7 , wobei vi die i-te Spalte von P ist (i > 0). Für v0 ist der
24 Nullvektor das Codewort kleinsten Gewichtes mit Syndrom v0 . Für vi (i > 0)
25 ist dies der i-te Standardbasisvektor ei , denn P · ei = vi . Der vollständige
26 Dekodieralgorithmus läuft also so ab: Man ermittelt das Syndrom s := P · c0
27 des empfangenen Wortes c0 = (c01 , . . . , c07 ). Falls s = vi mit 1 ≤ i ≤ 4, so
28 gibt man (x1 , . . . , x4 ) = (c01 , . . . , c04 ) + ei aus (d.h. das i-te Bit wird geändert).
29 Andernfalls gibt man (x1 , . . . , x4 ) = (c01 , . . . , c04 ) aus. (Falls das Syndrom einer
30 der Vektoren v5 , v6 , v7 ist, so wird ei mit i > 4 zu c0 hinzuaddiert, aber dies
31 ändert (x1 , . . . , x4 ) nicht.) In dem wahrscheinlichen Fall, dass bei der Über-
32 tragung höchstens ein Fehler auftritt, wird so das korrekte Informationswort
33 ausgegeben.

34 Der Bauer-Code

35 Einen weiteren interessanten Code erhalten wir durch folgende Erweiterung


36 des (7,4)-Hamming Codes: Wir hängen einfach zusätzlich noch ein Parity-Bit
37 c8 = c1 + · · · + c7 an, d.h. wir benutzen die Abbildung
Faktorräume 109

1 (x1 , . . . , x4 ) 7→ (x1 , x2 , x3 , x4 , x2 +x3 +x4 , x1 +x3 +x4 , x1 +x2 +x4 , x1 +x2 +x3 ).

2 Der hierdurch definierte Code C wird Bauer-Code (nach F. L. Bauer, In-


3 formatiker an der TU München) genannt. Es ist ein (8,4)-Code. Was ist der
4 Hamming-Abstand d(C)? Auf jeden Fall mindestens 3, denn die ersten 7 Bits
5 sind ja identisch mit dem Hamming-Code. Aber falls ein Wort (c1 , . . . , c7 ) des
6 Hamming-Codes das Gewicht 3 hat, so ist c1 + · · · + c7 = 1, also hat das ent-
7 sprechende Wort in C Gewicht 4. Wir erhalten d(C) = 4. Der Bauer-Code
8 ist also 1-fehlerkorrigierend und 2-fehlererkennend. Er hat damit wesentlich
9 bessere Eigenschaften als der (8,4)-Wiederholungscode.

10 14 Faktorräume 
 36. Vorlesung,

y 06.02.2019
11 In diesem Abschnitt übertragen wir das Prinzip von Restklassenringen (siehe
12 Satz 7.4) auf Vektorräume. Der folgende Satz ist zugleich auch eine Definition.
13 Satz 14.1. Es seien V ein K-Vektorraum und U ⊆ V ein Unterraum.
14 (a) Auf V wird eine Äquivalenzrelation definiert durch

15 v∼w :⇐⇒ v − w ∈ U.

16 (b) Die Äquivalenzklasse eines v ∈ V ist

17 [v]∼ = {v + u | u ∈ U } =: v + U ⊆ V.

18 Teilmengen von V von der Gestalt v + U nennt man auch affine Un-
19 terräume
20 (c) Die Faktormenge
21 V /U := {v + U | v ∈ V }
22 wird durch folgende Definitionen zu einem K-Vektorraum: Für C1 , C2 ∈
23 V /U und a ∈ K wählen wir v ∈ C1 und w ∈ C2 und setzen

24 C1 + C2 := (v + w) + U und a · C1 = av + U.

25 Mit dieser Vektorraumstruktur heißt V /U der Faktorraum von V nach


26 U.
27 (d) Die Abbildung
28 π: V → V /U, v 7→ v + U
29 ist linear und surjektiv. Der Kern ist Kern(π) = U .
30 (e) Es gilt
31 dim(U ) + dim(V /U ) = dim(V ).
32 Beweis. (a) Die Reflexivität von ∼ folgt wegen 0 ∈ U . Für v, w ∈ V mit
33 v ∼ w gilt w − v = −(v − w) ∈ U , also ist ∼ symmetrisch. Für u, v, w ∈ V
110 Faktorräume

1 mit u ∼ v und v ∼ w folgt

2 u − w = u − v + v − w ∈ U,

3 also u ∼ w. Damit ist ∼ auch transitiv.


4 (b) Für w ∈ V gilt die Äquivalenz

5 w ∈ [v]∼ ⇐⇒ ∃ u ∈ U: w − v = u ⇐⇒ w ∈ v + U.

6 (c) Der wichtigste Schritt ist der Nachweis der Wohldefiniertheit, d.h. der
7 Unabhängigkeit der Definitionen von der Wahl der Vertreter v und w. Es
8 seien also v 0 , w0 ∈ V mit v 0 ∼ v und w0 ∼ w. Dann folgt

9 (v 0 +w0 )−(v+w) = (v 0 −v)+(w0 −w) ∈ U und av 0 −av = a(v 0 −v) ∈ U,

10 also [v 0 + w0 ]∼ = [v + w]∼ und [av 0 ]∼ = [av]∼ . Nachdem die Wohldefi-


11 niertheit geklärt ist, ist klar, dass sich die Vektorraumaxiome von V auf
12 V /U vererben. Der Nullvektor von V /U ist [0]∼ = 0 + U = U .
13 (d) Für v, w ∈ V gilt π(v + w) = v + w + U = (v + U ) + (w + U ), und für
14 a ∈ K gilt π(av) = av + U = a(v + U ). Also ist π linear. Die Surjektivität
15 von π ist klar. Für v ∈ V gilt

16 v ∈ Kern(π) ⇐⇒ v+U =0+U ⇐⇒ v ∈ U,

17 also Kern(π) = U .
18 (e) Dies folgt aus (d) und Satz 11.9 t
u
19 Beispiel 14.2. (1) In V = R2 sei U ⊆ V eine Gerade durch den Nullpunkt.
20 Dann ist V /U die Menge aller Geraden, die parallel zu U sind (aber nicht
21 durch den Nullpunkt laufen müssen).
22 (2) Für U = {0} ist V /U = {{v} | v ∈ V }. In diesem Fall ist π ein Isomor-
23 phismus, also V /{0} ∼
=V.
24 (3) Für U = V ist V /U = {V } der Nullraum.
25 /
26 Als Anwendung des Faktorraums beweisen wir den folgenden Satz.
27 Satz 14.3 (Dimensionssatz für Unterräume). Es seien U, W ⊆ V Unterräume
28 eines K-Vektorraums. Dann gilt

29 dim(U ∩ W ) + dim(U + W ) = dim(U ) + dim(W ).

30 Beweis. Wir betrachten die Abbildung

31 ϕ: W → V /U, w 7→ w + U.

32 Es ist klar, dass ϕ linear ist. Außerdem gilt

33 Kern(ϕ) = U ∩ W und Bild(ϕ) = (U + W )/U.


Direkte Summen 111

1 Mit Satz 11.9 folgt

2 dim(W ) = dim(U ∩ W ) + dim ((U + W )/U ) .

3 Durch Addition von dim(U ) auf beiden Seiten der Gleichung und Anwendung
4 von Satz 14.1(e) ergibt sich die Behauptung. t
u
5 Beispiel 14.4. Es seien U und W zwei zwei-dimensionale Unterräume (= Ebe-
6 nen) von V = K 3 . Dann gilt

7 dim(U ∩ W ) = dim(U ) + dim(W ) − dim(U + W ) ≥ 2 + 2 − 3 = 1,

8 also schneiden sich die Ebenen mindestens in einer Geraden. /

9 15 Direkte Summen

10 In diesem Abschnitt ist V immer ein Vektorraum über einem Körper K.


11 Wir erinnern uns an den Begriff des Summenraums. Sind U1 , . . . , Un ⊆ V
12 Unterräume, so ist
n
X
13 Ui = U1 + · · · + Un = {v1 + · · · + vn | v1 ∈ U1 , . . . , vn ∈ Un } ⊆ V
i=1

14 der Summenraum der Ui . Dies ist ein Unterraum von V .


15 Definition
Pn 15.1. (a) Es seien U1 , . . . , Un ⊆ V Unterräume. Die Summe
16
i=1 i heißt direkt, falls für alle v1 ∈ U1 , . . . , vn ∈ Un gilt:
U

17 v1 + · · · + v n = 0 =⇒ v1 = · · · = vn = 0.

18 Wir schreiben dann


n
M
19 U1 ⊕ · · · ⊕ Un = Ui
i=1
Pn
20 für i=1 Ui .
21 (b) Sei U ⊆ V ein Unterraum. Ein Unterraum W ⊆ V heißt ein Komple-
22 ment von U , falls
23 V = U ⊕ W.
24 Proposition 15.2. Für Unterräume U1 , . . . , Un ⊆ V sind äquivalent:
25 (a) Die Summe W := U1 + · · · + Un ist direkt.
26 (b) Für alle w ∈ W gibt es eindeutig bestimmte v1 ∈ U1 , . . . , vn ∈ Un mit
27 w = v1 + · · · + vn .
28 (c) Für alle i ∈ {1, . . . , n} gilt
112 Direkte Summen
 
X
1 Ui ∩  Uj  = {0}.
j∈{1,...,n}\{i}

2 Für n = 2 lautet die Bedingung (c): U1 ∩ U2 = {0}.


3 Beweis. Wir setzen (a) voraus und zeigen (b). Behauptet wird die Eindeu-
4 tigkeit der vi . Es seien also v10 ∈ U1 , . . . , vn0 ∈ Un mit w = v10 + · · · + vn0 . Dann
5 gilt
6 (v1 − v10 ) + · · · + (vn − vn0 ) = w − w = 0,
7 und wegen vi − vi0 ∈ Ui und (a) folgt vi = vi0 für alle i.
8 Nun zeigen wir, dass aus (b) die
P  Bedingung (c) folgt. Es sei also i ∈
9 {1, . . . , n} und vi ∈ Ui ∩ j6=i Uj . Dann gilt

X
10 vi = vj mit vj ∈ Uj ,
j6=i

11 und wegen (b) folgt vi = 0. Die Bedingung (c) gilt also.


12 Nun setzen wir (c) voraus und zeigen (a). Es sei also v1 + · · · + vn = 0 mit
13 vi ∈ Ui . Für i ∈ {1, . . . , n} folgt
X X
14 vi = (−vj ) ∈ Uj ,
j6=i j6=i
P
 15 also vi ∈ Ui ∩ j6=i Uj . Wegen (c) folgt vi = 0, also ist (a) gezeigt. t
u
 37. Vorlesung,

y 08.02.2019
16 Beispiel 15.3. (1) In V = R3 seien U1 , U2 ⊆ V Unterräume mit dim(U1 ) =
17 dim(U2 ) = 2 und U1 6= U2 . Dann gilt U1 + U2 = V , aber nach Satz 14.3
18 folgt
19 dim(U1 ∩ U2 ) = dim(U1 ) + dim(U2 ) − dim(V ) = 1.
20 Also ist U1 ∩ U2 6= {0}. Die Summe U1 + U2 ist also nicht direkt.
21 (2) In V = R3 seien U1 , U2 ⊆ V Unterräume mit dim(U1 ) = 1, dim(U2 ) = 2
22 und U1 6⊆ U2 . Dann gilt U1 + U2 = V und nach Satz 14.3 folgt

23 dim(U1 ∩ U2 ) = dim(U1 ) + dim(U2 ) − dim(V ) = 0.

24 Die Summe U1 + U2 ist also direkt, und wir können sie als U1 ⊕ U2
25 schreiben.
26 (3) Ist {v1 , . . . , vn } eine Basis von V , so folgt

27 V = hv1 i ⊕ · · · ⊕ hvn i.

28 (4) U = V hat das Komplement {0}. /


29 Falls W ⊆ V ein Komplement eines Unterraums U ⊆ V ist, so ist die
30 lineare Abbildung
Direkte Summen 113

1 ϕ: W → V /U, w 7→ w + U
2 ein Isomorphismus, denn Bild(ϕ) = (W + U )/U = V /U und Kern(ϕ) =
3 W ∩ U = {0}. Also gilt W ∼ = V /U .
Ln
4 Satz 15.4. Für eine direkte Summe W := i=1 Ui von Unterräumen Ui ⊆
5 V gilt
n
X
6 dim(W ) = dim(Ui ).
i=1

7 Beweis. Wir benutzen Induktion


Ln nach n. Für n = 1 ist nichts zu zeigen. Für
8 n ≥ 2 setzen wir W 0 = i=2 Ui . Wegen Proposition 15.2(c) folgt U1 ∩ W 0 =
9 {0}, also dim(U1 ∩ W 0 ) = 0. Es gilt W = U1 + W 0 , und mit Satz 14.3 folgt

10 dim(W ) = dim(U1 ∩ W 0 ) + dim(U1 + W 0 ) = dim(U1 ) + dim(W 0 ).


Pn
11 Nach Induktion gilt dim(W 0 ) = i=2 dim(Ui ), und der Satz ist bewiesen.
12 Alternativ lässt sich der Beweis auch führen, indem man Basen der Ui
13 wählt und zeigt, dass deren Vereinigung eine Basis von W bildet. t
u

14 In Beispiel 15.3(1) sieht man, dass die Direktheit der Summe für die Gültig-
15 keit von Satz 15.4 erforderlich ist.
16 Satz 15.5. Jeder Unterraum U ⊆ V besitzt ein Komplement.
17 Beweis. Es sei A eine Basis von U . Nach dem Basisergänzungssatz (Satz 10.6)
18 gibt es eine Basis B von V mit A ⊆ B. Wir setzen C := B \ A, W = hCi und
19 behaupten, dass W ein Komplement von U ist.
20 Für den Nachweis von U + W = V sei v ∈ V . Dann gibt es v1 , . . . , vn ∈ A,
21 w1 , . . . , wm ∈ C und ai , bi ∈ K, so dass
n
X m
X
22 v= ai v i + bi wi ∈ U + W.
i=1 i=1

23 Weiter sei v ∈ U ∩ W . Dann gibt es paarweise verschiedene v1 , . . . , vn ∈ A,


24 paarweise verschiedene w1 , . . . , wm ∈ C und ai , bi ∈ K, so dass
n
X m
X
25 v= ai vi und v = bi wi .
i=1 i=1

26 Wegen A ∩ C = ∅ sind die v1 , . . . , vn , w1 , . . . , wm paarweise verschieden, und


27 aus der Gleichung
Xn m
X
28 ai vi − bi w i = 0
i=1 i=1

29 und der linearen Unabhängigkeit von B folgt a1 = · · · = an = b1 = · · · =


30 bm = 0, also v = 0. Damit ist U ∩ W = {0} gezeigt, und der Beweis ist
31 abgeschlossen. t
u
114 Direkte Summen

1 Anmerkung. Man kann den Beweis von Satz 15.5 auch direkt mit dem
2 Zornschen Lemma führen, indem man die Menge aller Unterräume W ⊆ V
3 mit U ∩ W = {0} betrachtet. /
1 Lineare Algebra: Normalformen


 38. Vorlesung,

y 24.04.2019
2 Das übergreifende Thema dieses Kapitels ist, für eine gegebene lineare Ab-
3 bildung ϕ: V → V eines endlich-dimensionalen Vektorraums eine Basis B zu
4 finden, so dass die Darstellungsmatrix DB (ϕ) möglichst übersichtlich wird.
5 Wegen Korollar 12.12 ist dies gleichbedeutend damit, zu einer gegebenen Ma-
6 trix A ∈ K n×n eine zu A ähnliche Matrix B zu finden (siehe Definition 12.13),
7 die eine einfache Gestalt hat. In jeder Ähnlichkeitsklasse werden wir einen
8 solch einfachen Vertreter B finden und diesen dann eine Normalform von A
9 nennen.
10 Wir beginnen mit dem Begriff der Determinante, der bei weitem nicht nur
11 für die Thematik der Normalformen von Bedeutung ist. Danach kommen wir
12 zu den Eigenwerten und dem Begriff der Diagonalisierbarkeit. Den eigent-
13 lichen Normalformen werden wir uns nähern, indem wir zunächst Matrizen
14 über Z und über dem Polynomring K[x] behandeln.

15 16 Determinanten

16 Bevor wir die Determinante definieren, müssen wir uns mit der symmetri-
17 schen Gruppe beschäftigen. Zur Erinnerung: Für n ∈ N>0 ist die symme-
18 trische Gruppe definiert als

19 Sn := {σ: {1, . . . , n} → {1, . . . , n} | σ ist bijektiv} .

20 Die Elemente von Sn heißen Permutationen, und die Verknüpfung ist durch
21 die Komposition gegeben.
22 Definition 16.1. Für σ ∈ Sn definieren wir
116 Determinanten

1 • w(σ) als die Anzahl der Paare (i, j) ∈ N × N mit 1 ≤ i < j ≤ n aber
2 σ(i) > σ(j) (solche Paare nennt man auch Fehlstellen);
3 • sgn(σ) := (−1)w(σ) , das Vorzeichen von σ.
4 Beispiel 16.2. (1) Die Identität id ∈ Sn hat keine Fehlstellen, also sgn(id) =
5 1.
6 (2) Es sei σ = (1, 2) ∈ Sn (also σ(1) = 2, σ(2) = 1 und σ(i) = i für i > 2).
7 Offenbar ist (1, 2) die einzige Fehlstelle von σ, also sgn(σ) = −1.
8 (3) Es seien 1 ≤ i < j ≤ n, und σ = (i, j) ∈ Sn (d.h. σ vertauscht i und j und
9 lässt alle anderen Elemente von {1, . . . , n} fest). Eine solche Permutation
10 nennt man auch eine Transposition. Wir zählen Fehlstellen und kommen
11 auf w(σ) = 2(j − i) − 1, also sgn(σ) = −1. /
12 Die wichtigste Eigenschaft des Vorzeichens ist seine Multiplikativität:
13 Satz 16.3. Für σ, τ ∈ Sn gilt

14 sgn(στ ) = sgn(σ) sgn(τ ).

15 Die Abbildung sgn : Sn → {1, −1} ist also ein Gruppen-Homomorphismus.


16 Beweis. Es seien x1 , . . . , xn ∈ Q paarweise verschiedene rationale Zahlen.
17 Wir behaupten, dass für alle σ ∈ Sn gilt:
Y xσ(i) − xσ(j)
18 sgn(σ) = . (16.1)
xi − xj
1≤i<j≤n

19 Um dies einzusehen bemerken wir, dass Zähler und Nenner des Produkts bis
20 auf das Vorzeichen übereinstimmen. Im Zähler tritt aber genau w(σ) mal ein
21 xk − xl mit k > l auf, während dies im Nenner nie vorkommt. Hieraus ergibt
22 sich (16.1).
23 Nun setzen wir yi := xσ(i) . Ebenso wie die xi sind auch die yi paarweise
24 verschieden, also gilt wegen (16.1) für alle τ ∈ Sn
Y yτ (i) − yτ (j) Y xστ (i) − xστ (j)
25 sgn(τ ) = = . (16.2)
yi − yj xσ(i) − xσ(j)
1≤i<j≤n 1≤i<j≤n

Wir erhalten
Y xστ (i) − xστ (j)
sgn(στ ) = =
xi − xj
1≤i<j≤n
Y xστ (i) − xστ (j) Y xσ(i) − xσ(j)
· = sgn(τ ) sgn(σ).
xσ(i) − xσ(j) xi − xj (16.2)
1≤i<j≤n 1≤i<j≤n

26 t
u
27 Nun können wir die Determinante einer quadratischen Matrix definieren.
28 Ab jetzt sei K ein Körper.
Determinanten 117

1 Definition 16.4. Es sei A = (ai,j ) ∈ K n×n eine quadratische Matrix. Die


2 Determinante von A ist
X n
Y
3 det(A) := sgn(σ) · ai,σ(i) .
σ∈Sn i=1

4 Die Definition lässt sich erweitern für den Fall, dass A Einträge in einem
5 kommutativen Ring hat.
6 Beispiel 16.5. Für n ≤ 3 machen wir Definition 16.4 explizit.
7 (1) Für n = 1 ist A = (a) und

8 det(A) = a.

9 (2) Für n = 2 ist Sn = {id, σ} mit σ = (1, 2). Wir erhalten


 
a1,1 a1,2
10 det = a1,1 a2,2 − a1,2 a2,1 .
a2,1 a2,2

(3) Für n = 3 hat die Sn sechs Elemente: die Identität, die drei Transpositio-
nen (1, 2), (1, 3) und (2, 3), sowie die zyklischen“ Permutationen (1, 2, 3)

und (3, 2, 1) (siehe Beispiel 6.5(2)). Die zyklischen Permutationen haben
Vorzeichen 1. Wir erhalten
 
a1,1 a1,2 a1,3
det a2,1 a2,2 a2,3  = a1,1 a2,2 a3,3 + a1,2 a2,3 a3,1 + a1,3 a2,1 a3,2
a3,1 a3,2 a3,3
− a1,2 a2,1 a3,3 − a1,3 a2,2 a3,1 − a1,1 a2,3 a3,2 .

11 Es gibt eine graphische Merkeregel für die Determinante einer 3 × 3-


12 Matrix, die sogenannte Sarrus-Regel:
 
a1,1 Z
Z a1,2 Z
a
1,3 a
 1,1 a
1,2
Z
a2,1 aZZ Z 
2,2 a2,3 a 2,1 a2,2
 
Z 
Z 
a3,1 
 a 
Z aZ
3,3 a
Z 3,1 a
Z

 3,2  Z ZZ Z3,2
Z
13 − − − + + +

14 Der Zusammenhang zwischen der obigen Formel und der Graphik dürfte
15 selbsterklärend sein.
16 (4) Für die Einheitsmatrix In gilt: det(In ) = 1. /
17 Nun entwickeln wir die Theorie der Determinante.
18 Lemma 16.6. Sei A = (ai,j ) ∈ K n×n .
19 (a) det(AT ) = det(A) (transponierte Matrix).
20 (b) Es sei σ ∈ Sn . Wir definieren bi,j := ai,σ(j) und B := (bi,j ) ∈ K n×n (d.h.
21 B geht aus A durch Permutation der Spalten gemäß σ hervor). Dann gilt
118 Determinanten

1 det(B) = sgn(σ) · det(A).

2 Entsprechendes gilt für Permutationen der Zeilen.


3 (c) Falls in A zwei Zeilen oder zwei Spalten übereinstimmen, so folgt

4 det(A) = 0.

Beweis. (a) Wir rechnen

X n
Y X n
Y
det(AT ) = sgn(σ) · aσ(i),i = sgn(σ) · aj,σ−1 (j)
σ∈Sn i=1 σ∈Sn j=1
X n
Y
= sgn(τ −1 ) · aj,τ (j) = det(A).
τ ∈Sn j=1

(b) Wir rechnen

X n
Y X n
Y
det(B) = sgn(τ ) · bi,τ (i) = sgn(τ ) · ai,στ (i)
τ ∈Sn i=1 τ ∈Sn i=1
X n
Y
= sgn(σ −1 ρ) · ai,ρ(i) = sgn(σ −1 ) · det(A),
ρ∈Sn i=1

5 wobei Satz 16.3 für die letzte Gleichheit benutzt wurde. Satz 16.3 liefert
6 auch sgn(σ −1 ) = sgn(σ), also folgt die Behauptung.
7 Die entsprechende Aussage für Zeilenpermutationen lässt sich durch (a)
8 auf die für Spaltenpermutationen zurückführen.
9 (c) Wegen (a) ist det(A) = 0 nur für den Fall zweier gleicher Spalten nach-
10 zuweisen. Wir nehmen also an, dass es 1 ≤ j < k ≤ n gibt, so dass
11 ai,j = ai,k für alle i gilt. Es sei τ = (j, k) ∈ Sn die Transposition, die j
12 und k vertauscht (siehe Beispiel 16.2(3)). Für alle i, l ∈ {1, . . . , n} gilt
13 dann
14 ai,l = ai,τ (l) . (16.3)
15 Aus (b) folgt det(A) = sgn(τ ) det(A) = − det(A). Im Fall char(K) 6= 2
16 liefert dies die Behauptung det(A) = 0. Da wir aber auch den Fall
17 char(K) = 2 mitnehmen möchten, müssen wir etwas mehr Aufwand be-
18 treiben. Wir definieren

19 An := {σ ∈ Sn | sgn(σ) = 1}.

20 (Nebenbei gesagt folgt aus Satz 16.3, dass An eine Untergruppe der Sn
21 ist; sie heißt die alternierende Gruppe.) Wegen sgn(τ ) = −1 folgt aus
22 Satz 16.3, dass Sn die disjunkte Vereinigung von An und τ An := {τ σ |
23 σ ∈ An } ist: .
24 Sn = An ∪ τ An .
Determinanten 119

(Hiermit ist die Vereinigungsmenge gemeint, wobei der Schnitt der beiden
vereinigten Mengen leer ist; dies wird durch den Punkt ausgedrückt.) Nun
folgt

n n
!
X Y Y
det(A) = sgn(σ) · ai,σ(i) + sgn(τ σ) · ai,τ σ(i)
σ∈An i=1 i=1
n n
!
X Y Y
= sgn(σ) · ai,σ(i) − ai,τ (σ(i)) = 0,
σ∈An i=1 i=1

1 wobei (16.3) für die letzte Gleichheit verwendet wurde. t


u
2 Der wohl wichtigste Satz über die Determinante ist der folgende.
3 Satz 16.7 (Determinantenmultiplikationssatz). Für A, B ∈ K n×n gilt

4 det(A · B) = det(A) · det(B).

5 Beweis. Wie immer schreiben


Pn wir A = (ai,j ) und B = (bi,j ). Der (i, j)-te
6 Eintrag von A · B ist k=1 ai,k bk,j , also
n n
!
X Y X
7 det(A · B) = sgn(σ) · ai,k bk,σ(i) .
σ∈Sn i=1 k=1

Ausmultiplizieren des Produkts und Vertauschung der Summation liefern

X n
X n
Y 
det(A · B) = sgn(σ) · ai,ki bki ,σ(i)
σ∈Sn k1 ,...,kn =1 i=1
n
X X Yn n
Y
= sgn(σ) · ai,ki · bki ,σ(i) =
k1 ,...,kn =1 σ∈Sn i=1 i=1
n
X n
Y
ai,ki · det(bkj ,l )j,l=1,...,n . (16.4)
k1 ,...,kn =1 i=1

Wegen Lemma 16.6(c) ist det(bkj ,l )j,l=1,...,n nur dann 6= 0, wenn die kj paar-
weise verschieden sind, d.h. wenn die Abbildung {1, . . . , n} → {1, . . . , n},
j 7→ kj eine Permutation ist. Statt über die k1 , . . . , kn zu summieren, können
wir also auch über die Permutationen τ ∈ Sn summieren und erhalten
120 Determinanten
n
X Y
det(A · B) = ai,τ (i) · det(bτ (j),l )j,l=1,...,n
τ ∈Sn i=1
n
X Y
= ai,τ (i) · sgn(τ ) · det(B) = det(A) · det(B),
τ ∈Sn i=1

1 wobei für die zweite Gleichheit Lemma 16.6(b) verwendet wurde. t


u
2 Die Determinante ist also multiplikativ. Als Warnung sei hier angemerkt,
3 dass sie nicht additiv ist (außer im Fall n = 1)!
4 Der folgende Satz enthält zwei rekursive Formeln zur Berechnung der De-
5 terminante.
6 Satz 16.8. Es sei A = (ai,j ) ∈ K n×n mit n ≥ 2. Für i, j ∈ {1, . . . , n} sei
7 Ai,j ∈ K (n−1)×(n−1) die Matrix, die aus A durch Weglassen der i-ten Zeile
8 und der j-ten Spalte entsteht. Für alle i ∈ {1, . . . , n} gilt
n
X
9 det(A) = (−1)i+j ai,j · det(Ai,j ), (16.5)
j=1

10 und für alle j ∈ {1, . . . , n} gilt


n
X
11 det(A) = (−1)i+j ai,j · det(Ai,j ). (16.6)
i=1

12 Die Berechnung der Determinante gemäß Formel (16.5) wird als Entwick-
13 lung nach der i-ten Zeile bezeichnet, und gemäß (16.6) als Entwicklung nach
14 der j-ten Spalte. Man kann eine dieser Formeln anwenden und dabei i bzw. j
15 nach Opportunitätsgesichtspunkten auswählen.
16 Beispiel 16.9. Wir möchten die Determinante von
 
012
17 A = 3 4 5
678

berechnen und entscheiden uns für Entwicklung nach der ersten Zeile. Es
ergibt sich
     
45 35 34
det(A) = 0 · det − 1 · det + 2 · det
78 68 67
= −(3 · 8 − 6 · 5) + 2 · (3 · 7 − 6 · 4) = 6 − 6 = 0.

18 /

Beweis von Satz 16.8. Wegen Lemma 16.6(a) genügt es, die Gleichung (16.5)
nachzuweisen. Für i ∈ {1, . . . , n} gilt
Determinanten 121

X n
Y
det(A) = sgn(σ) · ak,σ(k)
σ∈Sn k=1
Xn X Y
= sgn(σ) · ak,σ(k) · ai,j .
j=1 σ∈Sn k∈{1,...,n}
mit σ(i)=j mit k6=i

1 Mit X Y
2 ci,j := sgn(σ) · ak,σ(k)
σ∈Sn k∈{1,...,n}
mit σ(i)=j mit k6=i

3 ist also ci,j = (−1)i+j det(Ai,j ) zu zeigen. Wir benutzen die beiden speziellen
4 Permutationen

5 η = (i, i + 1, . . . , n − 1, n) und ρ = (j, j + 1, . . . , n − 1, n) ∈ Sn .

6 Es gelten sgn(η) = (−1)n−i und sgn(ρ) = (−1)n−j . Mit

7 bk,l := aη(k),ρ(l)

8 gilt
9 Ai,j = (bk,l )k,l=1,...,n−1 .
10 Außerdem gilt für σ ∈ Sn die Äquivalenz

11 σ(i) = j ⇐⇒ (ρ−1 ση)(n) = n.

12 Mit τ := ρ−1 ση als neue Summationsvariable erhalten wir


X Y
13 ci,j = sgn(ρτ η −1 ) · ak,(ρτ η−1 )(k) ,
τ ∈Sn k∈{1,...,n}
mit τ (n)=n mit k6=i

14 und weiter mit l := η −1 (k) (welches zwischen 1 und n − 1 läuft)

X n−1
Y
15 ci,j = sgn(ρ) sgn(η −1 ) · sgn(τ ) · aη(l),(ρτ )(l) = (−1)i+j det(Ai,j ).
τ ∈Sn−1 l=1
| {z }
=bl,τ (l)

16 Dies schließt den Beweis ab. t


u

17 Wir nehmen Satz 16.8 zum Anlass für folgende Definition:


18 Definition 16.10. Es sei A ∈ K n×n mit n ≥ 2. Für i, j ∈ {1, . . . , n} sei
19 Ai,j ∈ K (n−1)×(n−1) die Matrix, die aus A durch Weglassen der i-ten Zeile
20 und der j-ten Spalte entsteht. Mit

21 ci,j := (−1)i+j det(Aj,i )


122 Determinanten

1 heißt C := (ci,j ) ∈ K n×n die adjunkte Matrix von A.


2 Man beachte den kleinen Unterschied zwischen der Definition der ci,j im
3 Beweis von Satz 16.8 und Definition 16.10.
4 Satz 16.11. Es sei A ∈ K n×n mit n ≥ 2. Dann gilt für die adjunkte Matrix
5 C ∈ K n×n von A:
6 A · C = C · A = det(A) · In .
7 Beweis. Wir schreiben A = (ai,j ). Der (i, i)-te Eintrag von A · C ist
n
X n
X
8 ai,j cj,i = (−1)i+j ai,j det(Ai,j ) = det(A),
j=1 j=1

9 wobei für die letzte Gleichheit (16.5) verwendet wurde. Nun sei k ∈ {1, . . . , n}
10 mit k 6= i, und A0 ∈ K n×n sei die Matrix, die aus A durch Weglassen der k-
11 ten Zeile und durch Verdoppeln (zweimal untereinander schreiben) der i-ten
12 Zeile entsteht. Der (i, k)-te Eintrag von A · C ist
n
X n
X n
X
13 ai,j cj,k = (−1)i+j ai,j det(Ak,j ) = (−1)i+j ai,j det(A0i,j ) = det(A0 ).
j=1 j=1 j=1

14 Wegen Lemma 16.6(c) gilt aber det(A0 ) = 0. Insgesamt haben wir A · C =


15 det(A) · In nachgewiesen, und der Beweis von C · A = det(A) · In läuft ebenso.
16 t
u
17 Wir ziehen eine wichtige Folgerung.
18 Satz 16.12. Für A ∈ K n×n gilt die Äquivalenz

19 A ist invertierbar ⇐⇒ det(A) 6= 0.

20 Falls A invertierbar ist, so gelten

21 det(A−1 ) = 1/ det(A)

22 und
1
23 A−1 = · C, (16.7)
det(A)
24 wobei C für die adjunkte Matrix steht.
25 Beweis. Falls A invertierbar ist, folgt nach Satz 16.7 und Beispiel 16.5(4)

26 det(A−1 ) · det(A) = det(A−1 · A) = det(In ) = 1,

27 also det(A) 6= 0 und det(A−1 ) = 1/ det(A).


28 Ist umgekehrt det(A) 6= 0, so liefert Satz 16.11 die Gleichung
Determinanten 123

1
1 · C · A = In ,
det(A)

2 und es folgen (16.7) und die Invertierbarkeit von A. t


u
3 Anmerkung 16.13. Das Berechnen der Inversen nach der Formel (16.7)
4 ist aufwändiger als durch das in Abschnitt 12 angegebene Verfahren. Die
5 Formel kann jedoch nützlich sein, wenn in A Parameter vorkommen, oder
6 um die auftretenden Nenner zu kontrollieren. Außerdem merken wir an, dass
7 alles bisher gesagte auch gilt, wenn K durch einen kommutativen Ring ersetzt
8 wird, wobei die Bedingung det(A) 6= 0“ in Satz 16.12 durch det(A) ist (als
” ”
9 Element von K) invertierbar“ zu ersetzen ist. /
10 Beispiel 16.14. (1) Für invertierbare 2 × 2-Matrizen liest sich (16.7) als
 −1  
ab 1 d −b
11 = · .
cd ad − bc −c a

12 Dies lässt sich auch direkt verifizieren.


13 (2) Für welche a ∈ R ist die Matrix A = ( a1 a1 ) invertierbar? Die Bedingung
14 hierfür ist nach Satz 16.12 det(A) 6= 0, also 1 − a2 6= 0. A ist also nur für
15 a = ±1 nicht invertierbar. /
16 Wir haben inzwischen eine ganze Reihe Eigenschaften kennengelernt, die
17 alle für eine quadratische Matrix A ∈ K n×n äquivalent sind. Diese äquiva-
18 lenten Eigenschaften sind:
19 • A ist regulär;
20 • A ist invertierbar (anders gesagt: A ∈ GLn (K));
21 • die Zeilen von A sind linear unabhängig;
22 • die Spalten von A sind linear unabhängig;
23 • die Abbildung ϕA ist injektiv;
24 • die Abbildung ϕA ist surjektiv;
25 • das LGS A · x = 0 ist eindeutig lösbar.
26 • für alle b ∈ K n ist das LGS A · x = b eindeutig lösbar.
27 • det(A) 6= 0.
28 Wir ziehen eine weitere Folgerung aus Satz 16.7.
29 Korollar 16.15. Zwei Matrizen A, B ∈ K n×n seien ähnlich. Dann gilt

30 det(A) = det(B).

31 Beweis. Wir haben B = S −1 AS mit S ∈ GLn (K). Wegen der Sätze 16.7
32 und 16.12 folgt

33 det(B) = det(S)−1 det(A) det(S) = det(A).

34 t
u
124 Determinanten

1 Korollar 16.15 hat eine interessante konzeptionelle Interpretation: Ist


2 ϕ: V → V eine lineare Selbstabbildung eines endlich-dimensionalen Vek-
3 torraums V , so lässt sich det(ϕ) nach Wahl einer Basis B von V durch

4 det(ϕ) := det (DB (ϕ))

5 definieren. Denn bei einer anderen Basiswahl geht DB (ϕ) nach Korollar 12.12
6 über in eine ähnliche Matrix.
7 Definition 16.16. Die Menge

SLn (K) := A ∈ K n×n | det(A) = 1



8

9 heißt die spezielle lineare Gruppe. Aus Satz 16.7 folgt, dass SLn (K) eine
10 Untergruppe der GLn (K) ist, womit SLn (K) selbst eine Gruppe ist.
11 Nur quadratische Matrizen haben Determinanten. Bei beliebigen Matrizen
12 A ∈ K m×n kann man sogenannte Minoren (auch: Unterdeterminanten) be-
13 trachten. Für r ≤ min{m, n} wird ein r × r-Minor von A durch eine Auswahl
14 von r Zeilen und r Spalten von A gebildet, wodurch eine r×r-Matrix entsteht.
15 Der Minor ist die Determinante dieser Matrix. Es gibt also im Allgemeinen
16 eine ganze Menge Minoren. Beispielsweise ist die Anzahl der 2 × 2-Minoren
17 einer 3 × 4-Matrix 3 · 6 = 18. Die 1 × 1-Minoren sind einfach die Einträge
18 einer Matrix. Mit Hilfe von Korollar 11.10 und Satz 16.12 kann man zeigen,
19 dass das maximale r, für dass es einen r × r-Minor 6= 0 gibt, der Rang der
20 Matrix ist.
21 Nun beschäftigen wir uns mit dem effizienten Berechnen der Determinante.
22 Die Definition 16.4 ist explizit, so dass eine direkte Berechnung möglich ist.
23 Sie erfordert jedoch wegen |Sn | = n! etwa n · n! Körperoperationen, ein für
24 große n nicht hinnehmbarer Aufwand. Wir werden ein besseres Verfahren
25 entwickeln.
26 Wir können schon jetzt die Determinante einiger spezieller Matrizen im
27 Eilverfahren“ berechnen. Wir führen drei Fälle an. Begründen kann man die

28 Ergebnisse jeweils entweder durch Entwicklung nach einer Zeile oder Spalte,
29 oder indem man direkt mit Definition 16.4 arbeitet.
30 (1) Für eine Diagonalmatrix
 
a1 0
A =  ... 
 
31

0 an

32 gilt
33 det(A) = a1 · · · an .
34 Man schreibt Diagonalmatrizen wie oben auch als

35 A = diag(a1 , . . . , an ).
Determinanten 125

1 (2) Für eine obere Dreiecksmatrix


 
a1 ∗
A=
 .. 
(16.8)
2 . 
0 an

3 gilt
4 det(A) = a1 · · · an . (16.9)
5 Zur Erklärung: (16.8) soll andeuten, dass oberhalb der Diagonalen ir-
6 gendwelche Einträge stehen können, unterhalb aber lauter Nullen. Man
7 könnte eine obere Dreiecksmatrix A = (ai,j ) ∈ K n×n auch formaler durch
8 die Bedingung ai,j = 0 für i > j definieren.
9 Dasselbe Ergebnis (16.9) gilt auch für untere Dreiecksmatrizen.
10 (3) Für eine Matrix  
B 0
11 A=
CD
12 mit B ∈ K l×l , D ∈ K (n−l)×(n−l) und C ∈ K (n−l)×l gilt

13 det(A) = det(B) · det(D).

14 Man sagt auch, dass A Block-Dreiecksgestalt hat. Dies lässt sich erweitern
15 auf Matrizen mit mehr als zwei Diagonal-Blöcken.
16 Nun wenden wir uns dem Berechnen der Determinante einer Matrix, die
17 keine spezielle Gestalt hat, zu. Ziel ist es, auch hierfür den Gauß-Algorithmus
18 einzusetzen. Wir müssen uns also überlegen, welche Auswirkungen elementa-
19 re Zeilenoperationen auf die Determinante haben. Bei Operationen von Typ I
20 (Vertauschen zweier Zeilen) geht die Antwort aus Lemma 16.6(b) hervor:
21 Die Determinante ändert das Vorzeichen. Für Operationen vom Typ II und
22 (wichtiger!) vom Typ III ist es zweckdienlich, diese als Links-Multiplikation
23 mit gewissen Matrizen zu interpretieren: Multiplikation der i-ten Zeile von A
24 mit einem Skalar a 6= 0 entspricht der Multiplikation von A mit der Matrix

25 S = diag(1, . . . , 1, a, 1, . . . , 1),

26 wobei a der i-te Eintrag ist; also A → S ·A. Wegen Satz 16.7 und der Regel (1)
27 ergibt sich, dass sich bei einer Operation von Typ II die Determinante mit a
28 multipliziert.
29 Um Operationen von Typ III zu behandeln, betrachten wir Matrizen Ei,j ∈
30 K n×n , die per Definition überall Nullen haben außer im (i, j)-ten Eintrag,
31 der 1 ist. Nun sieht man leicht, dass Addition des a-fachen der j-ten Zeile
32 zu der i-ten Zeile einer Multiplikation mit In + a · Ei,j von links entspricht:
33 A → (In + a · Ei,j ) · A. Da In + a · Ei,j eine Dreiecksmatrix ist, folgt aus der
34 Regel (2), dass det(In + a · Ei,j ) = 1 ist, also ändert sich nach Satz 16.7 die
35 Determinante bei Operationen von Typ III nicht. Wir fassen zusammen:
126 Determinanten

1 Typ I (Vertauschen zweier Zeilen): Die Determinante ändert das Vorzei-


2 chen.
3 Typ II (Multiplikation einer Zeile mit einem Skalar a ∈ K \ {0}): Die
4 Determinante multipliziert sich mit a. Als Formel ausgedrückt:

5 det(neue Matrix) = a · det(alte Matrix).

6 Typ III (Addition des a-fachen einer Zeile zu einer anderen): Die Deter-
7 minante ändert sich nicht.

8 Wir bemerken noch, dass Entsprechendes auch für elementare Spaltenope-


9 rationen gilt.
10 Nun kann man den Gauß-Algorithmus zum Berechnen von Determinan-
11 ten verwenden. Die Strategie ist, jeweils eine Spalte (oder Zeile) so weit aus-
12 zuräumen, dass eine Entwicklung nach dieser Spalte (Zeile) sehr einfach wird.
13 Man kann dabei den Gauß-Algorithmus variieren, denn es kommt nicht dar-
14 auf an, welche Spalte bzw. Zeile jeweils ausgeräumt wird.
Beispiel 16.17. Wir berechnen (mit nachfolgenden Kommentaren zu den Re-
chenschritten)
   
1 3 4 2 1 3 4 2  
1 −2 −2
1 4 2 0   0 1 −2 −2
det 
0 = det  = 1 · det  2 1 3 
2 1 3  (1) 0 2 1 3  (2)
−8 −4 −3
1 −5 0 −1 0 −8 −4 −3
 
504  
54
= det 2 1 3 = 1 · det
  = 5 · 9 = 45.
(3) (4) 0 9 (5)
009

15 Hierbei wurden folgende Schritte durchgeführt:


16 (1) Ausräumen der ersten Spalte durch Addition des (−1)-fachen der ersten
17 Zeile zur zweiten und zur vierten Zeile;
18 (2) Entwicklung nach der ersten Spalte;
19 (3) Ausräumen der zweiten Spalte durch Addition des 2-fachen der zweiten
20 Zeile auf die erste und Addition des 4-fachen der zweiten Zeile auf die
21 dritte (Ausräumen der ersten Spalte wäre ein etwas größerer arithmeti-
22 scher Aufwand gewesen: Wer möchte schon mit 8 multiplizieren?);
23 (4) Entwicklung nach der zweiten Spalte;
24 (5) die Formel für Dreiecksmatrizen (oder die Formel für 2×2-Determinanten).
25 /
26 Zum Abschluss des Abschnitts geben wir noch eine geometrische Interpre-
27 tation der Determinante. Für v1 , v2 ∈ R2 ist | det(v1 v2 )| der Flächeninhalt des
28 Parallelogramms mit den Seiten v1 und v2 . Dies lässt sich auf n-dimensionale
29 Volumina verallgemeinern. Diese Interpretation ist solange nicht beweisbar,
30 wie wir keinen mathematisch definierten Begriff von Flächeninhalt haben.
Eigenwerte 127

1 Flächeninhalte von Parallelogrammen (bzw. deren höher-dimensionalen Ver-


2 allgemeinerungen) sind besonders wichtig, weil Parallelogramme bei Flächen-
3 Integralen als infinitessimale“ Flächenelemente auftreten.

4 17 Eigenwerte

5 Auch in diesem Abschnitt sei K ein Körper.


6 Definition 17.1. Sei A ∈ K n×n eine quadratische Matrix. Ein λ ∈ K heißt
7 Eigenwert von A, falls es v ∈ K n \ {0} gibt mit A · v = λ · v. Ein solcher
8 Vektor v heißt dann ein Eigenvektor von A (zum Eigenwert λ).

9 Eλ := {v ∈ K n | A · v = λ · v}

10 heißt der Eigenraum zum Eigenwert λ. Er besteht aus allen Eigenvektoren


11 und dem Nullvektor. Eλ ist auch definiert, wenn λ ∈ K kein Eigenwert ist.
12 Für eine lineare Abbildung ϕ: V → V eines K-Vektorraums V werden
13 Eigenwerte, Eigenvektoren und Eigenräume durch die Eigenschaft

14 ϕ(v) = λ · v

15 definiert.
 
01
16 Beispiel 17.2. (1) Für A = ∈ R2×2 gilt
10
   
1 1
17 A· = ,
1 1
 
1
18 also ist 1 ein Eigenwert von A und ein zugehöriger Eigenvektor. Ein
1
19 weiterer Eigenwert ist −1, denn
     
1 −1 1
20 A· = =− .
−1 1 −1

21 Der Eigenraum zu λ = 1 ist

E1 = v ∈ K 2 | A · v = v = v ∈ K 2 | (A − I2 ) · v = 0 ,
 
22

23 also der Lösungsraum


 des homogenen LGS (A − I2 ) · x = 0. Die Ma-
−1 1
24 trix A − I2 = hat den Rang 1, also folgt dim(E1 ) = 1 nach
1 −1
25 Proposition 10.13. Wir erhalten also
128 Eigenwerte
 
1
1 E1 = h i,
1

2 und mit den gleichen Argumenten


 
1
3 E−1 =h i.
−1
   
1 1
4 Insgesamt stellen wir fest, dass { , } eine Basis aus Eigenvekto-
1 −1
5 ren bildet. Die Frage, ob A außer ±1 noch weitere Eigenwerte hat, werden
6 wir bald beantworten können.
7 (2) Auf dem Vektorraum V = C ∞ (R) der unendlich oft differenzierbaren
8 Funktionen R → R sei ϕ: V → V, f 7→ f 0 gegeben. Für λ ∈ R ist die
9 Exponentialfunktion fλ : R → R, x 7→ exp(λx) ein Eigenvektor (man
10 spricht in diesem Zusammenhang auch von einer Eigenfunktion) zum Ei-
11 genwert λ. Die Theorie der gewöhnlichen Differenzialgleichungen liefert,
12 dass der Eigenraum Eλ von fλ erzeugt wird, er ist also eindimensional.
13 Alle λ ∈ R sind in diesem Beispiel Eigenwerte.
14 (3) Für eine lineare Abbildung ϕ: V → V ist genau dann 0 ein Eigenwert,
15 wenn ϕ nicht injektiv ist. Der Eigenraum ist E0 = Kern(ϕ). /
16 Im obigen Beispiel haben wir bereits gesehen, dass Eigenräume Un-
17 terräume sind. Dies gilt allgemein, wie man leicht nachrechnet. Wir halten
18 fest:
19 Proposition 17.3. Für eine Matrix A ∈ K n×n bzw. eine lineare Abbildung
20 ϕ: V → V und λ ∈ K ist Eλ ein Unterraum von K n bzw. von V .
21 Wie kann man Eigenwerte einer Matrix A ∈ K n×n berechnen? Nach De-
22 finition ist λ ∈ K genau dann ein Eigenwert, wenn Eλ 6= {0}, d.h. wenn das
23 homogene LGS
24 (A − λIn ) · x = 0
25 nicht eindeutig lösbar ist. Dies ist nach den Ergebnissen von Abschnitt 16
26 äquivalent zu det(A − λIn ) = 0. Diese Überlegungen nehmen wir zum Anlass
27 für eine Definition.
28 Definition 17.4. Sei A ∈ K n×n eine quadratische Matrix. Die charakte-
29 ristische Matrix von A ist die Matrix

30 x · In − A ∈ K[x]n×n

31 mit Einträgen im Polynomring K[x]. Weiter heißt

32 χA := det(x · In − A) ∈ K[x]

33 das charakteristische Polynom von A.


34 Den folgenden Satz haben wir bereits gezeigt.
Eigenwerte 129

1 Satz 17.5. Die Eigenwerte einer quadratischen Matrix A sind die Nullstel-
2 len des charakteristischen Polynoms χA .
 
01
3 Beispiel 17.6. (1) Für A = ∈ R2×2 gilt
10
 
x −1
4 χA = det = x2 − 1,
−1 x

5 also sind  −1 die (einzigen) Eigenwerte.


1 und 
0 1
6 (2) Für A = ∈ R2×2 gilt
−1 0
 
x −1
7 χA = det = x2 + 1,
1 x

8 also hat A keine Eigenwerte (in R). /


9 Anmerkung 17.7. (a) Das charakteristische Polynom χA einer Matrix A ∈
10 K n×n hat den Grad n und es ist normiert, d.h. der Koeffizient von xn
11 ist 1. Mit A = (ai,j ) gilt genauer
Xn 
12 χA = xn − ai,i · xn−1 + · · · + (−1)n det(A).
i=1
13 Die in er Klammer stehende Summe über die Diagonaleinträge nennt man
14 auch die Spur von A.
15 (b) Zwei ähnliche Matrizen A, B ∈ K n×n haben gleiche charakteristische
16 Polynome, denn aus A = S −1 BS mit S ∈ GLn (K) folgt

χA = det(xIn − S −1 BS) = det S −1 (xIn − B)S = χB



17

18 wegen Korollar 16.15. /


19 Aus Korollar 7.17 ergibt sich, dass eine n × n-Matrix höchstens n Eigen-
20 werte hat. Falls K algebraisch abgeschlossen ist, so hat jede quadratische
21 Matrix über K Eigenwerte.
22 Im Lichte der bisherigen Überlegungen erscheinen die folgenden zwei De-
23 finitionen für die Vielfachheit eines Eigenwertes als natürlich.
24 Definition 17.8. Es sei λ ∈ K ein Eigenwert einer Matrix A ∈ K n×n .
25 (a) Die algebraische Vielfachheit ma (λ) von λ ist die Vielfachheit der
26 Nullstelle λ im charakteristischen Polynom χA .
27 (b) Die geometrische Vielfachheit von λ ist

28 mg (λ) := dim (Eλ ) .


130 Eigenwerte
 
01
1 Beispiel 17.9. (1) A = ∈ R2×2 hat die Eigenwerte 1 und −1 (siehe
10
2 Beispiel 17.2). Für beide Eigenwerte sind algebraische- und geometrische
3 Vielfachheit
 gleich
 1.
11
4 (2) Für A = ∈ R2×2 gilt
01
 
x − 1 −1
5 χA = det = (x − 1)2
0 x−1

6 (obere Dreiecksmatrix), also ist λ = 1 der einzige Eigenwert mit algebrai-


7 sche Vielfachheit ma (λ) = 2. Zur Ermittlung der geometrischen Vielfach-
8 heit bemerken wir, dass
 
01
9 A − I2 =
00

10 den Rang 1 hat, also mg (λ) = 1. /


11 Satz 17.10. Ist λ ∈ K ein Eigenwert einer Matrix A ∈ K n×n , so gilt

12 1 ≤ mg (λ) ≤ ma (λ).

13 Beweis. Die erste Ungleichung ist klar, denn für einen Eigenwert gilt Eλ 6=
14 {0}, also dim (Eλ ) ≥ 1.
15 Zur Beweis der zweiten Ungleichung setzen wir m := mg (λ) und wählen
16 eine Basis {v1 , . . . , vm } von Eλ . Diese können wir zu einer Basis B =
17 {v1 , . . . , vn } von K n ergänzen. Für 1 ≤ i ≤ m gilt

18 ϕA (vi ) = A · vi = λ · vi ,

19 also hat die Darstellungsmatrix von ϕA bzgl. B die Form


 
λ 0
 .
 ..

∗ 
DB (ϕA ) =  0  =: D
 
20
 λ 
 
0 C

21 mit C ∈ K (n−m)×(n−m) . Mit S := (v1 . . . vn ) ∈ GLn (K) (die Matrix mit


22 den vi als Spalten) gilt S −1 AS = D (wegen Korollar 12.12), wegen Anmer-
23 kung 17.7(b) also
24 χA = χD .
25 Die Matrix xIn − D ist jedoch (ebenso wie D selbst) eine obere Block-
26 Dreiecksmatrix. Damit können wir die Determinante ablesen und erhalten

27 χA = (x − λ)m · χC .
Eigenwerte 131

1 Also ist χA durch (x − λ)m teilbar, und wir schließen ma (λ) ≥ m, wie be-
2 hauptet. t
u
3 Definition 17.11. Eine quadratische Matrix A ∈ K n×n heißt diagonali-
4 sierbar, falls es eine Basis von K n bestehend aus Eigenvektoren von A gibt.
5 Gleichbedeutend: A ist ähnlich zu einer Diagonalmatrix.
6 Ebenso kann man von der Diagonalisierbarkeit einer linearen Abbildung
7 ϕ: V → V eines K-Vektorraums V sprechen.
 
01
8 Beispiel 17.12. (1) A = ∈ R2×2 ist diagonalisierbar (siehe Bei-
10
9 spiel 17.2).
 
0 1
10 (2) A = ∈ R2×2 ist nicht diagonalisierbar. Es fehlen Eigenwerte
−1 0
11 (sieheBeispiel
 17.6(2)).
11
12 (3) A = ∈ R2×2 ist nicht diagonalisierbar. Es fehlen Eigenvektoren
01
13 (siehe Beispiel 17.9(2)). /
14 Wir werden folgendes Kriterium für Diagonalisierbarkeit beweisen. Es be-
15 sagt, dass die in Beispiel 17.12(2) und (3) aufgetretenen Hindernisse für die
16 Diagonalisierbarkeit tatsächlich die einzig möglichen Hindernisse sind.
17 Satz 17.13. Eine Matrix A ∈ K n×n ist genau dann diagonalisierbar, wenn
18 beide der folgenden Bedingungen erfüllt sind:
19 (a) Das charakteristische Polynom χA zerfällt in Linearfaktoren, also
r
Y
20 χA = (x − λi )ei
i=1

21 mit ei = ma (λi ).
22 (b) Für alle Eigenwerte λi gilt

23 mg (λi ) = ma (λi ).

24 Das folgende Lemma benötigen wir für den Beweis.


25 Lemma 17.14. Es seien λ1 , . . . , λr ∈ K paarweise
Prverschiedene Eigenwerte
26 einer Matrix A ∈ K n×n . Dann ist die Summe i=1 Eλi der Eigenräume
27 direkt.
28 Beweis. Wir benutzen Induktion nach r. Für r = 1 ist nichts zu zeigen. Wir
29 können also ab jetzt r ≥ 2 voraussetzen. Zum Nachweis der Direktheit der
30 Summe seien vi ∈ Eλi (i = 1, . . . , r) mit v1 + · · · + vr = 0. Wir rechnen:
r r r
!
X X X
31 λ i vi = A · vi = A · vi = A · 0 = 0.
i=1 i=1 i=1
132 Eigenwerte

1 Andererseits gilt !
r
X r
X
2 λ 1 vi = λ 1 · vi = 0.
i=1 i=1

3 Wir subtrahieren beide Gleichungen und erhalten


r
X
4 (λi − λ1 )vi = 0.
i=2

5 Da (λi −λ1 )vi in Eλi liegt, liefert die Induktionsvoraussetzung (λi −λ1 )vi = 0
6 für i ∈ {2, . . . , r}. Wegen λi 6= λ1 folgt vi = 0 für i ∈ {2, . . . , r}. Nun folgt
7 auch v1 = −(v2 + · · · + vr ) = 0. t
u
8 Beweis von Satz 17.13. Zunächst nehmen wir an, dass A diagonalisierbar ist,
9 es gibt also eine Basis B von K n aus Eigenvektoren. Sind λ1 , . . . , λr die
10 Eigenwerte von A, so folgt mit Bi := B ∩ Eλi :
r
X r
X r
X
11 n = |B| = |Bi | ≤ mg (λi ) ≤ ma (λi ) ≤ deg(χA ) = n,
i=1 i=1 i=1

12 wobei die mittlere Ungleichung aus Satz 17.10 folgt und die letzte aus der
13 Definition der ma (λi ) als Vielfachheiten der Nullstellen von χA folgt. Es muss
14 also überall Gleichheit gelten, und es folgen (a) und (b).
15 Nun nehmen wir umgekehrt an, dass (a) und (b) gelten. Für i ∈ {1, . . . , r}
16 sei Bi eine Basis des Eigenraums Eλi . Wir setzen B := B1 ∪ · · · ∪ Br . Es
17 ist klar, dass B aus Eigenvektoren besteht. Aus Lemma 17.14 folgt, dass B
18 linear unabhängig ist. Außerdem gilt
r
X r
X r
X
19 |B| = |Bi | = mg (λi ) = ma (λi ) = deg(χA ) = n.
(b) (a)
i=1 i=1 i=1

20 Insgesamt folgt mit Korollar 10.15(a), dass B eine Basis von K n ist. t
u
21 Aus Satz 17.13 und Satz 17.10 erhalten wir ein Kriterium, das in vielen
22 Fällen bereits die Diagonalisierbarkeit einer Matrix garantiert.
23 Korollar 17.15. Es sei A ∈ K n×n . Falls χA in Linearfaktoren zerfällt und
24 nur Nullstellen der Vielfachheit 1 hat, so ist A diagonalisierbar.
Als Anwendung betrachten wir ein physikalisches Beispiel. Wir stellen uns
vor, dass zwei gleichschwere Massen mit identischen, masselosen Federn an
gegenüberliegenden Wänden verbunden sind, und dass zwischen den Mas-
sepunkten eine weitere, andersartige Feder befestigt ist. Man spricht auch
von gekoppelten Schwingern. Wenn x1 (t) und x2 (t) die Auslenkungen der
Massepunkte (gemessen ab er Ruhelage) zur Zeit t bezeichnen, so gelten die
Differentialgleichungen
Eigenwerte 133

ẍ1 (t) = −ax1 (t) − b ((x1 (t) − x2 (t)) ,


ẍ2 (t) = −ax2 (t) − b ((x2 (t) − x1 (t)) ,

1 wobei die Doppelpunkte wie üblich für die zweite Ableitung nach t stehen
2 und die positiven Konstanten a und b von den Federeigenschaften und dem
3 Gewicht der Massepunkte anhängen. In Matrixschreibweise:
     
ẍ1 −a − b b x
4 = · 1 .
ẍ2 b −a − b x2
| {z }
=:A

5 Das charakeristische Polynom von A ist


 
x+a+b −b
6 χA = det = (x + a + b)2 − b2 = (x + a)(x + a + 2b).
−b x+a+b

7 Korollar 17.15 garantiert, dass A diagonalisierbar ist. Die Eigenräume be-


8 rechnen wir durch Auflösen von homogenen LGS (oder hinschauen):
   
1 1
9 E−a = h i und E−a−2b = h i.
1 −1
 
1 1
10 Mit S := folgt
1 −1
 
−1 −a 0
11 S AS = .
0 −a − 2b
   
y1 x1
12 Wir setzen := S −1 und erhalten die Differentialgleichung
y2 x2
          
ÿ1 −1 ẍ1 −1 x1 −1 y1 −a 0 y1
13 =S =S A = S AS = .
ÿ2 ẍ2 x2 y2 0 −a − 2b y2

14 Die Diagonalisierung der Matrix hat also dazu geführt, dass wir zwei getrenn-
15 te Differentialgleichungen
√ für y1 und√y2 bekommen haben. Diese können wir
16 leicht lösen. Mit ω := a und ω e := a + 2b lautet die allgemeine Lösung
   
y1 (t) c1 cos(ωt) + c2 sin(ωt)
17 =
y2 (t) c3 cos(e
ω t) + c4 sin(e
ω t)

18 mit Konstanten ci . Durch Multiplikation mit S erhalten wir


         
x1 (t) cos(ωt) sin(ωt) cos(e
ω t) sin(e
ω t)
19 = c1 + c2 + c3 + c4 .
x2 (t) cos(ωt) sin(ωt) − cos(e
ω t) − sin(e
ω t)
134 Eigenwerte

1 Interessant ist die Lösung mit c1 = c3 = 0 und c2 = c4 = 1, die (nach ein


2 paar Umformungen)

cos ωe −ω ω
e +ω
     
3
x1 (t)
=2 2 · t · sin 2 ·t 
x2 (t) − sin ωe −ω
2 · t · cos
ωe +ω
2 ·t

4 lautet. Diese beschreibt ein periodisches Übertragen der Schwingung von der
5 einen Masse zur anderen und zurück.
6 Bei der Definition von Polynomen war uns wichtig, Elemente eines größe-
7 ren Rings in Polynome einsetzen zu können. Nun werden wir Matrizen in
8 Polynome einsetzen.
 
0 1
9 Beispiel 17.16. Für A = und f = x2 + 1 gilt
−1 0
     
−1 0 10 00
10 f (A) = A2 + I2 = + = .
0 −1 01 00
11 /
12 Im obigen Beispiel haben wir eine Matrix in ihr eigenes charakteristische
13 Polynom eingesetzt, und heraus kam die Nullmatrix. Der folgende Satz sagt,
14 dass das kein Zufall war.
15 Satz 17.17 (Satz von Cayley-Hamilton). Für ein quadratische Matrix A ∈
16 K n×n gilt
17 χA (A) = 0.
18 Beweis. Wir schreiben A = (ai,j ) und setzen B := xIn −AT , also die Transpo-
19 nierte der charakteristischen Matrix. Von B können wir die adjunkte Matrix
20 C ∈ K[x]n×n bilden. Satz 16.11 liefert

21 C · B = det(B) · In = χA · In .

22 Für j, k ∈ {1, . . . , n} gilt also (mit B = (bi,j ) und C = (ci,j ))


n
X
23 ck,i bi,j = δj,k · χA .
i=1

24 In diese Gleichungen von Polynomen können wir x = A einsetzen und erhal-


25 ten
Xn
26 ck,i (A)bi,j (A) = δj,k · χA (A). (17.1)
i=1

27 Nach Definition von B gilt bi,j (A) = δi,j · A − aj,i · In . Wir schreiben ej für
28 den j-ten Standardbasisvektor und erhalten
n
X n
X
29 bi,j (A)ej = A · ei − aj,i ej = 0. (17.2)
j=1 j=1
Die Smith-Normalform 135

1 Für k ∈ {1, . . . , n} folgt


n
X n
X
2 χA (A) · ek = δj,k · χA (A) · ej = ck,i (A)bi,j (A)ej = 0,
(17.1) (17.2)
j=1 i,j=1

3 woraus die Behauptung χA (A) = 0 folgt. t


u

4 18 Die Smith-Normalform

5 Da es in diesem Abschnitt um ganzzahlige Lösungen geht, könnte man ihn


6 mit einem gewissen Recht der diskreten Mathematik zurechnen. Der Aus-
7 gangspunkt der Überlegungen dieses Abschnitts sind ganzzahlige lineare Glei-
8 chungssysteme.
Beispiel 18.1. Für welche b = bb12 ∈ Z2 ist das ganzzahlige LGS


2x1 +3x2 + 4x3 = b1 ,


5x1 +6x2 + 7x3 = b2 ,

9 mit xi ∈ Z lösbar? Wie sieht die Lösungsmenge aus? Was ist die Lösungs-
10 menge für den Fall b = 0? Man kann das LGS in Matrixform als A · x = b
11 schreiben mit A ∈ Z2×3 . /
12 Die Fragestellungen als diesem Beispiel lassen sich mit der Smith-Normalform
13 der Matrix A beantworten. Um diese zu definieren, werden wir an den Begriff
14 der Äquivalenz von Matrizen (siehe Definition 12.13(b)) auf Matrizen über
15 beliebigen Ringen ausweiten.
16 Definition 18.2. Es sei R ein kommutativer Ring.
17 (a) Eine quadratische Matrix A ∈ Rn×n heißt invertierbar, falls A−1 ∈
18 Rn×n existiert mit A−1 · A = In . Wegen Anmerkung 16.13 ist A genau
19 dann invertierbar, wenn det(A) ∈ R ein invertierbares Element von R
20 ist.
21 Wir schreiben

GLn (R) := A ∈ Rn×n | A ist invertierbar



22

23 für die allgemeine lineare Gruppe über R, die mit dem Matrixprodukt eine
24 Gruppe bildet.
25 (b) Zwei Matrizen A, B ∈ Rm×n heißen äquivalent, falls es S ∈ GLm (R)
26 und T ∈ GLn (R) gibt mit
27 B = SAT.
28 Um dies auszudrücken, benutzen wir die (ad hoc) Schreibweise

29 A ≈ B.
136 Die Smith-Normalform

1 Beispiel 18.3. (1) Eine Matrix A ∈ Zn×n ist genau dann invertierbar, wenn
2 det(A) ∈ {1, −1}.
3 (2) Die Matrizen
   
234 100
4 A= und B = ∈ Z2×3
567 030

5 sind äquivalent, denn


   
    −1 3 1   −1 3 1  
1 0 234  234  100
6 · · 1 −2 −2 = · 1 −2 −2 = ,
−1 1 567 333 030
| {z } 0 0 1 0 0 1
=:S | {z }
=:T

7 und man verifiziert anhand der Determinanten, dass S und T über Z


8 invertierbar sind. /
9 Wir betrachten nun den Fall R = Z. Später werden wir sämtliche Schritte
10 auf den Fall R = K[x] (Polynomring über einem Körper) übertragen. Wir
11 kennzeichnen durch Fußnoten, welche Änderungen für den Übergang von Z
12 nach K[x] gemacht werden müssen. Diese Fußnoten können beim ersten Lesen
13 des Skripts übergangen werden. Wir erinnern an die Schreibweise a | b ( a

14 teilt b“).
15 Definition 18.4. Es sei A = (ai,j ) ∈ Zm×n .
16 (a) A heißt in Smith-Normalform, falls
 
d1 0 ··· 0 ··· 0
 0 d2 
 
A =  ... .. .. ..  ,

17
 . . .
 dr−1 
0 ··· 0 dr 0 ··· 0

18 d.h. ai,j = δi,j · di mit di ∈ Z (i = 1, . . . , r := min{m, n}), und falls


19 zusätzlich gelten:

20 di ≥ 01 (i = 1, . . . , r) und di | di+1 (i = 1, . . . , r − 1).

21 (b) Eine Matrix B ∈ Zm×n heißt eine Smith-Normalform von A, falls B


22 in Smith-Normalform und äquivalent zu A ist.
23 Beispiel 18.5. In Beispiel 18.3(2) ist B eine Smith-Normalform von A. Wir
24 können damit das LGS aus Beispiel 18.1 behandeln. Wegen SAT = B gilt

25 A·x=b ⇐⇒ BT −1 x = S · b,
1
Beim Ersetzen von Z durch K[x] lautet die Bedingung: di ist normiert oder 0.
Die Smith-Normalform 137
 y1 
1 mit y2
y3
:= T −1 x ergibt sich also in diesem Beispiel das LGS
   
y1 b1
2 = .
3y2 b2 − b1

3 Also ist das LGS genau dann lösbar, wenn b2 − b1 durch 3 teilbar ist, also
4 wenn b1 ≡ b2 mod 3. In diesem Fall liefert y1 = b1 und y2 = b2 −b 3
1
eine
5 Lösung, also
           
x1 y1 −1 3 1 b1 b2 − 2b1 1
6 x2  = T · y2  =  1 −2 −2 ·  b2 −b1  =  5b1 −2b2  + c · −2
3 3
x3 y3 0 0 1 c 0 1

7 mit c ∈ Z beliebig. Die Smith-Normalform (zusammen mit den transformie-


8 renden Matrizen S und T ) liefert also ein Kriterium für die Lösbarkeit und
9 die allgemeine Lösung. Insbesondere ergibt sich für b = 0 die Lösungsmenge
1

10 Z· −2 .
1
11 Es ist klar, dass dies für beliebige ganzzahlige LGS funktioniert. /
12 Unser nächstes Ziel ist der Nachweis, dass jede ganzzahlige Matrix eine
13 Smith-Normalform besitzt. Danach werden wir zeigen, dass diese eindeutig
14 bestimmt ist. Den Existenzbeweis führen wir, indem wir einen Algorithmus
15 angeben, der eine Matrix in Smith-Normalform bringt. Das entscheidende
16 Hilfsmittel im Algorithmus ist Division mit Rest.
17 Algorithmus 18.6 (Smith-Normalform).
18 Eingabe: Eine Matrix A ∈ Zm×n .
19 Ausgabe: Eine Smith-Normalform B von A.
20 (1) Setze B := A, schreibe B = (bi,j ).
21 (2) Falls B = 0, so ist B in Smith-Normalform und wird ausgegeben.
22 (3) Wähle i ∈ {1, . . . , m} und j ∈ {1, . . . , n} mit bi,j 6= 0, so dass der Betrag
23 |bi,j | minimal wird2 .
24 (4) Vertausche die i-te und die erste Zeile und die j-te und die erste Spalte
25 von B, so dass das Element 6= 0 mit minimalem Betrag nun b1,1 ist.
26 (5) Falls b1,1 < 0, multipliziere die erste Zeile von B mit −1. Danach ist b1,1
27 positiv3 .
28 (6) Für j = 2, . . . , n durchlaufe die Schritte 7 bis 9.
29 (7) Führe Division mit Rest durch:

30 b1,j = b1,1 · q + r
2
Beim Ersetzen von Z durch K[x] ist der Grad deg(bi,j ) zu minimieren.
3
Beim Ersetzen von Z durch K[x] wird mit dem Inversen des höchsten Koeffizienten
von b1,1 multipliziert, so dass b1,1 normiert wird.
138 Die Smith-Normalform

1 mit q, r ∈ Z, so dass |r| < |b1,1 | gilt4 .


2 (8) Subtrahiere das q-fache der ersten Spalte von der j-ten Spalte. Nun gilt
3 b1,j = r.
4 (9) Falls b1,j 6= 0, gehe zu Schritt 3.
5 (10) Führe die Schritte 6 bis 9 analog für die Zeilen von B durch.
6 (11) Wenn dieser Schritt erreicht wird, sind außer b1,1 alle Einträge der ersten
7 Zeile und Spalte 0.
8 Falls m = 1 oder n = 1, so ist B in Smith-Normalform und wird ausge-
9 geben.
10 (12) Falls i, j > 1 existieren, so dass b1,1 kein Teiler von bi,j ist, addiere die
11 i-te Zeile zur ersten und gehe zu Schritt 6. Eine der Divisionen mit Rest
12 wird nun nicht aufgehen.
13 (13) Berechne durch einen rekursiven Aufruf eine Smith-Normalform D0 von
14 B 0 = (bi,j )i,j≥2 ∈ Z(m−1)×(n−1) .
15 (14) Die Matrix  
b1,1 0 · · · 0
 0 
 ∈ Zm×n
 
16  ..
 . 0 
D
0
17 ist in Smith-Normalform und wird ausgegeben.
18 Das folgende Lemma brauchen wir für den Nachweis, dass Algorith-
19 mus 18.6 tatsächlich eine Smith-Normalform berechnet.
20 Lemma 18.7. Die Operationen aus Algorithmus 18.6 lassen sich durch Mul-
21 tiplikation von links bzw. von rechts mit folgenden Matrizen realisieren (mit
22 k = m bzw. k = n):
23 • Ik + aEi,j mit a ∈ Z, i, j ∈ {1, . . . , k} und i 6= j (wobei Ei,j ∈ Zk×k die
24 Matrix mit einer 1 als (i, j)-ten Eintrag und sonst lauter Nullen ist, siehe
25 auf Seite 125);
26 • die Diagonalmatrix diag(−1, 1, . . . , 1) ∈ Zk×k .5
27 Beweis. Dies ist korrekt für die Schritte, bei denen ein Vielfaches einer Zeile
28 oder Spalte zu einer anderen addiert wird. (Dies haben wir auf Seite 125
29 schon für Zeilen überlegt.) Schritt 4 lässt sich folgendemaßen realisieren: Ad-
30 dition der ersten Zeile zur i-ten, Subtraktion der i-ten Zeile von der ersten,
31 Addition der ersten Zeile zur i-ten, Multiplikation der ersten Zeile mit −1,
32 danach die entsprechenden Operationen mit der ersten und j-ten Spalte. Die
33 Multiplikation der ersten Zeile bzw. Spalte mit −1 entspricht einer Multipli-
34 kation mit diag(−1, 1, . . . , 1) von links bzw. rechts. Schritt 5 ist damit auch
35 abgedeckt. t
u
4
Beim Ersetzen von Z durch K[x] wird der Betrag durch den Grad ersetzt.
5
Beim Ersetzen von Z durch K[x] muss man statt der −1 alle konstanten Polynome
6= 0 zulassen.
Die Smith-Normalform 139

1 Satz 18.8. Algorithmus 18.6 terminiert nach endlich vielen Schritten und
2 liefert eine Smith-Normalform von A. Insbesondere besitzt jede Matrix in
3 Zm×n eine Smith-Normalform.
4 Beweis. Aus Lemma 18.7 folgt, dass die Matrix B zu jeder Zeit während des
5 Algorithmus äquivalent zu A ist.
6 Jedesmal, wenn die Division durch b1,1 einen Rest r 6= 0 lässt, wird das mi-
7 nimale |bi,j | mit bi,j 6= 0 kleiner. Deshalb wird Schritt 13 irgendwann erreicht.
8 Per Induktion nach min{m, n} folgt, dass der rekursive Aufruf eine Smith-
9 Normalform D0 von B 0 liefert. Wegen der Äquivalenz von B 0 und D0 sind alle
10 Einträge von D0 Linearkombinationen der Einträge von B 0 mit Koeffizienten
11 aus Z. Da die Einträge von B 0 beim Erreichen von Schritt 13 Vielfache von
12 b1,1 sind, folgt dies also auch für die Einträge von D0 . Also ist die Matrix in
13 Schritt 14 tatsächlich in Smith-Normalform. t
u
14 Man kann Algorithmus 18.6 so variieren, dass die transformierenden Ma-
15 trizen S und T mitberechnet werden, indem man, ähnlich wie beim Verfah-
16 ren zur Berechnung einer inversen Matrix aus Seite 99, eine m × m- und
17 eine n × n-Einheitsmatrix mitführt, auf die man alle Zeilen- bzw. Spalten-
18 operationen ausübt. Wegen Lemma 18.7 erhält man aus diesen am Schluss
19 des Algorithmus die Matrizen S und T . Wir werden dies im Beispiel 18.9(2)
20 durchführen.
21 Beispiel 18.9. (1) Wir beginnen mit einer relativ großen Matrix. An diesem
22 Beispiel kann man lernen, dass es entscheidend ist, die Matrix-Einträge
23 im Verlauf der Rechnung möglichst klein zu halten. Stures Vorgehen nach
24 Algorithmus 18.6 ließe die Einträge explodieren. Wir betrachten
 
8 2 9 −2
25 A = 22 2 28 −8  ∈ Z3×4
20 −6 31 −12

26 und rechnen
     
8 2 9 −2 8 2 9 −2 1 −4 −2 −2
22 2 28 −8  −→ −2 −4 1 −2 −→ 9 2 8 −2 −→
20 −6 31 −12 (1) −4 −12 4 −6 (2) 4 −12 −4 −6 (3)
     
1 −4 −2 −2 1 0 0 0 1 0 0 0
27 0 38 26 16  −→ 0 38 26 16 −→ 0 2 4 4  −→
(4) (5) (6)
0 4 4 2 0 4 4 2 0 16 26 38
     
10 0 0 10 0 0 1000
0 2 4 4 −→ 0 2 0 0 −→ 0 2 0 0 .
(7) (8)
0 0 −6 6 0 0 −6 6 0060

28 Die Schritte waren: (1) Subtraktion des 3-fachen der ersten Zeile von der
29 zweiten und dritten, (2) Vertauschung der ersten und zweiten Zeile sowie
140 Die Smith-Normalform

1 der ersten und dritten Spalte, (3) Subtraktion der 9- bzw. 4-fachen der
2 ersten Zeile von der zweiten bzw. dritten, (4) Addition des 4-, 2- bzw.
3 2-fachen der ersten Spalte zu der zweiten, dritten bzw. vierten, (5) Ver-
4 tauschung der zweiten und vierten Spalte sowie der zweiten und dritten
5 Zeile, (6) Subtraktion des 8-fachen der zweiten Zeile von der dritten, (7)
6 Subtraktion des 2-fachen der zweiten Spalte von der dritten und vierten
7 und (8) Addition der dritten Spalte zur vierten und Multiplikation der
8 dritten Spalte mit −1. Normalerweise kennzeichnet man diese Schritte
9 direkt an den Matrizen wie in Beispiel 9.4.
10 (2) Wir betrachten wie in Beispiel 18.3(2) die Matrix
 
234
11 A= ∈ Z2×3
567

12 Bei der Rechnung führen wir eine Einheitmatrix rechts von A und eine
13 weitere unterhalb von A mit, und wenden alle Zeilenoperationen auf die
14 erste und alle Spaltenoperationen auf die zweite mit an.
     
23410 23 1 10 2 1 1 10
5 6 7 0 1 5 6 1 0 1 5 1 1 0 1
     
1 0 0


 −→  1 0 0
 
 −→  1 −1 0

 −→
0 1 0   0 1 −1   0 1 −1 
001 00 1 0 0 1
15
     
1 2 0 10 1 2 0 1 0 1 0 0 1 0
 1 5 0 0 1  0 3 0 −1 1   0 3 0 −1 1 
     
 −→  −1 1 1  −→  −1 3 1
 −1 1 1     .
 
 1 0 −2   1 0 −2   1 −2 −2 
0 0 1 0 0 1 0 0 1

16 Auf die Beschreibung der einzelnen Schritte soll hier verzichtet werden.
17 Wir erhalten die Smith-Normalform B = ( 10 03 00 ) und die transformie-
1 0
 −1 3 1
18 renden Matrizen S = −1 1 und T = 1 −2 −2 . In Beispiel 18.3(2)
0 0 1
19 haben wir SAT = B schon nachgerechnet. /
20 Die Bezeichnung Smith-Normalform“ suggeriert, dass diese eindeutig be-

21 stimmt ist. Wir zeigen dies, indem wir die Diagonaleinträge einer Smith-
22 Normalform mit größten gemeinsamen Teilern von Minoren in Verbindung
23 bringen. Den Begriff größter gemeinsamer Teiler“ (ggT) erläutern wir kurz:

24 Sind a1 , . . . , an ∈ Z ganze Zahlen, so heißt eine ganze Zahl a ≥ 0 ein größter
25 gemeinsamer Teiler (ggT) von a1 , . . . , an , wenn a ein gemeinsamer Teiler
26 der ai und gleichzeitig ein Vielfaches von jedem anderen gemeinsamen Tei-
27 ler ist.6 Nach dieser Definition ist es zunächst gar nicht klar, dass es immer
28 einen ggT gibt. Wenn es aber einen gibt, so ist dieser eindeutig bestimmt,
6
Beim Ersetzen von Z durch K[x] wird statt a ≥ 0“ gefordert, dass a normiert

oder 0 ist.
Die Smith-Normalform 141

1 denn zwei ggT’s von a1 , . . . , an müssten sich gegenseitig teilen, sind also we-
2 gen der Bedingung a ≥ 0“ gleich.

3 Satz 18.10. Für A ∈ Zm×n sei B ∈ Zm×n eine Smith-Normalform mit Dia-
4 gonaleinträgen d1 , . . . , dr (wobei r = min{m, n}). Dann gilt für k = 1, . . . , r:
5 Das Produkt d1 · · · dk ist der ggT aller k × k-Minoren von A.
6 Insbesondere ist die Smith-Normalform von A eindeutig bestimmt.

Beweis. Wir schreiben A = (ai,j ) und nehmen ein k ∈ {1, . . . , r}. Zunächst
zeigen wir, dass sich die Menge der gemeinsamen Teiler der k × k-Minoren
von A nicht ändert, wenn A von links mit einer Matrix S = (si,j ) ∈ GLm (Z)
multipliziert wird. Wir betrachten zunächst den mit den ersten k Zeilen und
Spalten von S · A gebildeten Minor M und erhalten durch dieselbe Rechung
wie in (16.4)
 
X k
Y Xm
M= sgn(σ) ·  si,j aj,σ(i)  =
σ∈Sk i=1 j=1
m k
!
X Y
= si,ji · det(ajt ,l )t,l=1,...,k .
j1 ,...,jk =1 i=1

7 Die det(ajt ,l )t,l=1,...,k sind gewisse k × k-Minoren von A, die Gleichung zeigt
8 also, dass jeder gemeinsame Teiler der k × k-Minoren von A auch ein Teiler
9 von M ist. Aus Symmetriegründen (und durch die selbe Rechnung) sehen wir,
10 dass dies auch gilt, wenn M irgendein k × k-Minor von C := S · A ist. Jeder
11 gemeinsame Teiler der k × k-Minoren von A ist also auch ein gemeinsamer
12 Teiler der k × k-Minoren von C. Wegen A = S −1 C gilt die Umkehrung, also
13 bleibt die Menge der gemeinsamen Teiler aller k × k-Minoren unverändert,
14 wenn man A durch S · A ersetzt. Ebenso bleibt diese Menge unverändert,
15 wenn man A durch A · S mit S ∈ GLn (Z) ersetzt, denn AS = (S T AT )T
16 (transponierte Matrizen), und die Minoren ändern sich beim Transponieren
17 nicht. Es folgt insbesondere, dass die Menge der gemeinsamen Teiler der
18 k × k-Minoren beim Übergang von A zur Smith-Normalform B unverändert
19 bleibt.
20 Die k × k-Minoren von B sind gleich 0 oder Produkte von k der di . We-
21 gen di | di+1 für i < r folgt: Eine ganze Zahl ist genau dann Teiler aller
22 k × k-Minoren, wenn sie Teiler des Produkts d1 · · · dk ist. Die Menge der ge-
23 meinsamen Teiler der k × k-Minoren von B ist also identisch mit der Menge
24 der Teiler von d1 · · · dk . Andererseits haben wir gesehen, dass diese Menge
25 identisch ist mit der Menge der gemeinsamen Teiler der k × k-Minoren von
26 A. Also ist d1 · · · dk tatsächlich der ggT der k × k-Minoren von A.
27 Hieraus folgt sofort die eindeutige Bestimmtheit der Diagonaleinträge bis
28 zu dem kleinsten k, bei dem dk = 0 gilt. Dieses k ist auch eindeutig bestimmt,
29 und wegen dk | di für i > k sind alle di mit i > k auch 0 und damit ebenso
30 eindeutig bestimmt. t
u
142 Die Smith-Normalform

1 Nach Satz 18.10 sind die Diagonaleinträge di in der Smith-Normalform


2 einer Matrix A ∈ Zm×n eindeutig bestimmt. Man nennt die di die Ele-
3 mentarteiler (manchmal auch invariante Faktoren) von A.
4 Korollar 18.11. Zwei Matrizen A, B ∈ Zm×n sind genau dann äquivalent,
5 wenn ihre Elementarteiler übereinstimmen.
6 Beweis. Falls A ≈ B, so ist die Smith-Normalform von A auch eine Smith-
7 Normalform von B, also sind die Smith-Normalformen von A und B identisch.
8 Falls umgekehrt A und B die gleiche Smith-Normalform haben, so sind A und
9 B zu ein und derselben Matrix äquivalent, also A ≈ B. t
u
10 Man kann das Korollar auch so ausdrücken, dass die Äquivalenzklassen
11 von Matrizen in Zm×n durch die Elementarteiler klassifiziert werden. Das
12 wichtigste über die Smith-Normalform haben wir nun erarbeitet.
13 Als Anwendung werden wir nun die Existenz von ggT’s nachweisen und
14 den Satz über eindeutige Primzerlegung in Z herleiten. Wir wenden Satz 18.10
15 auf ganz bestimmte Matrizen an. Es seien a1 , . . . , an ∈ Z und A := (a1 , . . . , an ) ∈
16 Z1×n . Die Smith-Normalform von A hat dann die Form B = (d, 0, . . . , 0), und
17 wegen Satz 18.10 ist d der ggT von a1 , . . . , an . Wir erhalten also die Existenz
18 von ggT’s. Wir schreiben

19 d := ggT(a1 , . . . , an ).

20 Da A und B äquivalent sind, folgt insbesondere, dass sich d als d = x1 a1 +


21 · · ·+xn an mit xi ∈ Z darstellen lässt, wobei die xi aus den transformierenden
22 Matrizen S und T gewonnen werden. Wir haben damit die folgende wichtige
23 Aussage über ganze Zahlen bewiesen.
24 Proposition 18.12. Zu a1 , . . . , an ∈ Z gibt es x1 , . . . , xn ∈ Z, so dass
n
X
25 ggT(a1 , . . . , an ) = xi ai .
i=1

26 Beispiel 18.13. Der ggT von 15 und 21 ist 3, und es gilt 3 = 3 · 15 − 2 · 21. /
27 Aus Proposition 18.12 können wir den Fundamentalsatz der Arithmetik,
28 d.h. den Satz über die eindeutige Primzerlegung in Z herleiten. Wir erinnern
29 daran, dass eine ganze Zahl p > 1 eine Primzahl heißt, wenn 1 und p die
30 einzigen positiven ganzzahligen Teiler von p sind7 .
31 Satz 18.14 (Fundamentalsatz der Arithmetik). Jede ganze Zahl a > 1 ist
32 Produkt von (nicht notwendig verschiedenen) Primzahlen:

33 a = p1 · · · pr .
7
Ein normiertes, nicht konstantes Polynom p ∈ K[x] heißt Primpolynom, falls 1
und p die einzigen normierten Teiler von p sind.
Die Smith-Normalform 143

1 Hierbei sind die Primzahlen pi bis auf die Reihenfolge eindeutig bestimmt.8
2 Beweis. In Satz 3.16 haben wir bereits gezeigt, dass jedes a > 1 Produkt von
3 Primzahlen ist.
4 Für den Beweis der Eindeutigkeit betrachten wir zunächst eine Primzahl p
5 und b, c ∈ Z mit p | (b · c). Falls p kein Teiler von b ist, so ist 1 der ggT
6 von p und b, also gibt es nach Proposition 18.12 ganze Zahlen x und y mit
7 1 = xb + yp. Es folgt
8 c = xbc + ypc,
9 also ist p ein Teiler von c. Wir haben gesehen: Falls eine Primzahl ein Produkt
10 ganzer Zahlen teilt, so teilt sie mindestens einen der Faktoren.
11 Nun seien a = p1 · · · pr und a = q1 · · · qs zwei Darstellungen von a als
12 Produkte von Primzahlen. Falls r = 1 ist, ist a eine Primzahl, also s = 1 und
13 q1 = p1 . Wir können also r > 1 annehmen. Wegen der obigen Aussage gibt es
14 ein i ∈ {1, . . . , s} mit p1 | qi , also p1 = qi , da qi eine Primzahl ist. Nun folgt
15 p2 · · · pr = q1 · · · qi−1 qi+1 · · · qs , und der Rest folgt per Induktion nach r. t
u
16 Natürlich können wir die Zerlegung einer ganzen Zahl a > 1 auch so
17 anordnen, dass gleiche Primzahlen in eine Potenz zusammengefasst werden,
18 also
Y r r
Y
19 a= pei i =: qi (18.1)
i=1 i=1

20 mit pi paarweise verschiedene Primzahlen und ei ∈ N. Wir nennen dies eine


21 Zerlegung von a in Primzahlpotenzen. Nun ergibt sich auch die Existenz von
22 kleinsten gemeinsamen Vielfachen (kgV).
23 In der folgenden Proposition, die (in ihrer Version für Polynome in K[x])
24 in Abschnitt 19 gebraucht wird, geht es um die Elementarteiler von Dia-
25 gonalmatrizen mit Primzahlpotenzen als Einträgen. Es ist praktisch, einen
26 Elementarteiler einer Matrix als wesentlich zu bezeichnen, falls er 6= 1 ist.
27 Es ist klar, dass Korollar 18.11 auch gilt, wenn nur die wesentlichen Ele-
28 mentarteiler betrachtet werden.
29 Proposition 18.15. Seien d1 , . . . , dr ∈ Z mit di > 1 für alle i und di |
30 di+1 für i < r. Sei A die Diagonalmatrix mit den Primzahlpotenzen aus den
31 Zerlegungen der di in Primzahlpotenzen als Einträge. Dann sind die di die
32 wesentlichen Elementarteiler von A.
33 Beweis. Wir betrachten zunächst den Fall r = 1, also d1 = q1 , . . . , qs mit qi
34 paarweise teilerfremde Primzahlpotenzen. Die (s − 1) × (s − 1)-Minoren von
35 A = diag(q1 , . . . , qs ) sind Null oder bis auf Vorzeichen Produkte der q1 , . . . , qs ,
36 bei denen ein Faktor qi fehlt. Aus Satz 18.14 folgt, dass der ggT dieser Mi-
37 noren 1 ist. Aus Satz 18.10 folgt, dass die ersten s − 1 Elementarteiler von A
8
Beim Ersetzen von Z durch K[x] lautet der Satz: Jedes nicht konstante, normierte
Polynom lässt sich eindeutig (bis auf Reihenfolge) als Produkt von Primpolynomen
darstellen.
144 Die Smith-Normalform

1 gleich 1 sind. Das Produkt der Elementarteiler ist aber gleich det(A) = d1 ,
2 also muss der letzte (und einzig wesentliche) Elementarteiler
Qsi d1 sein.
3 Nun betrachten wir den Fall r > 1. Es seien di = j=1 qi,j die Zerlegungen
4 in Primzahlpotenzen. Mit Ai := diag(qi,1 , . . . , qi,si ) folgt die Äquivalenz

5 Ai ≈ diag(1, . . . , 1, di )

6 aus dem Fall r = 1, also


 
A1
A=
 ..  ≈ diag(1, . . . , 1, d1 , . . . , dr ).

7 .
Ar

8 Da die rechte Matrix in Smith-Normalform ist, folgt die Behauptung. t


u
9 Bereits zu Beginn des Abschnitts haben wir angekündigt, dass sich die ge-
10 samte in diesem Abschnitt entwickelte Mathematik von Z auf den Polynom-
11 ring K[x] über einem Körper K überträgt. Was haben diese beiden Ringe
12 gemeinsam? Beides sind kommutative Ringe, in denen es eine Division mit
13 Rest gibt (siehe Satz 7.14). Division mit Rest ist die entscheidende Technik,
14 die den Algorithmus 18.6 zum Laufen bringt. Wir haben durch Fußnoten
15 gekennzeichnet, welche Änderungen beim Übergang von Z zu K[x] zu ma-
16 chen sind. Statt des Betrags einer ganzen Zahl wird der Grad eines Polynoms
17 betrachtet. Den positiven ganzen Zahlen entsprechen die normierten Polyno-
18 me. Mit diesen Änderungen zieht sich die gesamte Theorie durch. Matrizen
19 in K[x]m×n haben also eindeutig bestimmte Smith-Normalformen. Die Ele-
20 mentarteiler sind normierte Polynome oder 0. Auch die Existenz von ggT’s
21 und der Satz über eindeutige Primzerlegung übertragen sich.
22 Beispiel 18.16. Wir betrachten die charakteristische Matrix xI3 − A von
 
−3 −1 2
23 A =  4 1 −4 ∈ R3×3
0 0 −1

24 und bringen sie mit folgenden Schritten in Smith-Normalform:


Die Smith-Normalform 145
   
x+3 1 −2 1 x + 3 −2
 −4 x − 1 4  −→ x − 1 −4 4  −→
(1) (2)
0 0 x+1 0 0 x+1
   
1 x+3 −2 1 0 0
1 0 −x2 − 2x − 1 2x + 2 −→ 0 −(x + 1)2 2(x + 1) −→
(3) (4)
0 0 x+1 0 0 x+1
   
1 0 0 1 0 0
0 x + 1 0  −→ 0 x + 1 0 .
(5)
0 2(x + 1) −(x + 1)2 0 0 (x + 1)2

2 Die Schritte waren: (1) Vertauschung der ersten und zweiten Spalte, (2) Ad-
3 dition des −(x − 1)-fachen der ersten Zeile zur zweiten, (3) Addition des
4 −(x + 3)- bzw. 2-fachen der ersten Spalte zur zweiten bzw. dritten, (4) Ver-
5 tauschung der zweiten und dritten Spalte und der zweiten und dritten Zeile,
6 (5) Addition des −2-fachen der zweiten Zeile zur dritten und Multiplikation
7 der dritten Spalte mit −1.
8 Die wesentlichen Elementarteiler der charakteristischen Matrix xI3 − A
9 sind also x + 1 und (x + 1)2 . /
10 Wir haben gesehen, dass die Mathematik dieses Abschnitts für die Rin-
11 ge Z und K[x] entwickelbar ist. Der gemeinsame Oberbegriff dieser beiden
12 Ringe ist der Begriff eines euklidischen Rings. Euklidische Ringe werden
13 (etwas grob gesagt) definiert als kommutative Ringe, bei denen Division mit
14 Rest möglich ist. Der Rest muss dabei bezüglich einer geeigneten Bewertung
15 (in unseren Beispielen Betrag einer ganzen Zahl bzw. Grad eines Polynoms)
16 kleiner sein als der Divisor. Weitere Beispiele für euklidische Ringe sind:
 √
17 • Der Ring R = a + b −1 | a, b ∈ Z ⊆ C der Gaußschen ganzen Zahlen
18 mit √
19 R → N, a + b −1 7→ a2 + b2
20 als Bewertungsfunktion.
21 • Jeder Körper K mit
(
1 falls a 6= 0,
22 K → N, a 7→
0 sonst

23 als Bewertungsfunktion.
24 Ein Beispiel für einen nicht euklidischen Ring ist der Polynomring Z[x] über
25 Z. Dies kann man beispielsweise daran sehen, dass die Matrix (2, x) ∈ Z[x]1×2
26 keine Smith-Normalform besitzt.
146 Die Jordansche Normalform und allgemeine Normalform

1 19 Die Jordansche Normalform und allgemeine


2 Normalform

3 In diesem Abschnitt geht es um die Frage, wie man eine quadratische Matrix
4 umformen kann in eine ähnliche Matrix, die eine möglichst übersichtliche Ge-
5 stalt hat. Dies ist gleichbedeutend zu der Frage, wie man zu einer linearen
6 Abbildung ϕ: V → V eines endlich-dimensionalen Vektorraums V eine Basis
7 B von V finden kann, so dass die Darstellungsmatrix DB (ϕ) übersichtlich
8 wird. Dies Thema wurde schon im Abschnitt 17 unter dem Stichwort Dia-

9 gonalisierbarkeit“ angeschnitten. Wir werden in jeder Ähnlichkeitsklasse von
n×n
10 Matrizen in K einen Standardvertreter“ finden und somit die Ähnlich-

11 keitsklassen klassifizieren. Dieser Standardvertreter wird die allgemeine Nor-
12 malform oder, falls das charakteristische Polynom in Linearfaktoren zerfällt,
13 die Jordansche Normalform genannt. Im Falle einer diagonalisierbaren Matrix
14 wird die Jordansche Normalform eine Diagonalmatrix sein.
15 Die Ergebnisse des vorherigen Abschnitts werden eine zentrale Rolle spie-
16 len. Dort ging es um Äquivalenz von Matrizen, nicht um Ähnlichkeit. Die
17 Brücke zwischen beiden Begriffen wird durch den folgenden, erstaunlichen
18 Satz gebildet. Wie zuvor steht in diesem Abschnitt K immer für einen Körper.
19 Satz 19.1. Zwei quadratische Matrizen über K sind genau dann ähnlich,
20 wenn ihre charakteristischen Matrizen äquivalent sind.
21 Beweis. Es seien A, B ∈ K n×n . Zunächst setzen wir voraus, dass A und B
22 ähnlich sind, und leiten daraus die Äquivalenz der charakteristischen Ma-
23 trizen xIn − A und xIn − B her. Es gibt S ∈ GLn (K) mit S −1 AS = B,
24 also
25 S −1 (xIn − A)S = S −1 xIn S − S −1 AS = xIn − B,
26 also in der Tat xIn − A ≈ xIn − B.
27 Umgekehrt setzen wir nun die Äquivalenz von xIn − A und xIn − B voraus
28 und zeigen die Ähnlichkeit von A und B. Dies ist der schwierigere Teil des
29 Beweises. Wir haben also S, T ∈ GLn (K[x]), so dass

30 xIn − A = S · (xIn − B) · T. (19.1)

31 Ist C ∈ K[x]n×n
Pmirgendeine Matrix mit Einträgen in K[x], so können wir
32 schreiben C = i=0 xi Ci mit Ci ∈ K n×n und definieren
m
X
33 C(A) := Ai Ci ∈ K n×n . (19.2)
i=0

Pk
34 Für jede weitere Matrix D ∈ K[x]n×n mit D = j=0 xj Dj (wobei Dj ∈
35 K n×n ) gelten dann die Regeln

36 (C + D)(A) = C(A) + D(A), (19.3)


Die Jordansche Normalform und allgemeine Normalform 147

 
Xm X
k X
(C · D)(A) =  xi+j Ci Dj  (A) = Ai+j Ci Dj
i=0 j=0 i,j
2 ! (19.4)
k
X m
X
= Aj Ai Ci · Dj = (C(A) · D) (A)
j=0 i=0

3 und
4 C ∈ K n×n =⇒ C(A) = C. (19.5)
5 Es gilt
6 (xIn − A)(A) = AIn − A = 0,
wegen (19.4) also

0 = (xIn − A) · T −1 (A) = (S · (xIn − B)) (A) = (xS)(A) − (SB)(A)



(19.1) (19.3)

= A · S(A) − (S(A) · B) (A) = A · S(A) − S(A) · B


(19.4) (19.5)

7 und damit A · S(A) = S(A) · B. Per Induktion ergibt sich hieraus

8 Ai · S(A) = S(A) · B i (19.6)

für alle i ∈ N. Wir zeigen nun, dass S(A) invertierbar ist. Wegen
Pm S ∈
GLn (K[x]) gibt es C ∈ K[x]n×n mit S·C = In . Wir schreiben C = i=0 xi Ci
mit Ci ∈ K n×n und erhalten

In = In (A) = (S · C)(A) = (S(A) · C) (A)


(19.5) (19.4)
m
X m
X
= Ai S(A)Ci = S(A) · B i Ci = S(A) · C(B).
(19.6)
i=0 i=0

9 Wie behauptet folgt also S(A) ∈ GLn (K), und aus (19.6) erhalten wir

10 S(A)−1 · A · S(A) = B.

11 Also sind A und B in der Tat ähnlich. t


u
12 Aus dem Beweis sieht man, wie man aus Matrizen S, T ∈ GLn (K[x])
13 mit (19.1) eine Matrix gewinnt, die die Ähnlichkeit von A und B realisiert“:

14 Mit R := S(A) (gebildet gemäß (19.2)) gilt nämlich

15 R−1 AR = B.

16 Mit Korollar 18.11 (übertragen auf den Fall von Matrizen mit Einträgen in
17 K[x]) erhalten wir:
148 Die Jordansche Normalform und allgemeine Normalform

1 Korollar 19.2. Zwei quadratische Matrizen über K sind genau dann ähn-
2 lich, wenn ihre charakteristischen Matrizen dieselben (wesentlichen) Ele-
3 mentarteiler haben.
4 Man kann die Ähnlichkeitsklasse einer quadratischen Matrix also an den
5 Elementarteilern der charakteristischen Matrix ablesen. Die Aufgabe, in de-
6 rer Ähnlichkeitsklasse einen übersichtlichen“ Vertreter zu finden, reduziert

7 sich nun darauf, zu einer gegebenen Folge von Elementarteilern eine über-

8 sichtliche“ Matrix zu finden, deren charakteristische Matrix genau diese Ele-
9 mentarteiler hat.
10 Beispiel 19.3. Wir betrachten
 
−1 0 0
11 A =  0 −1 0  ∈ R3×3 .
0 1 −1

12 Wir könnten die Elementarteiler der charakteristischen Matrix


 
x+1 0 0
13 xI3 − A =  0 x + 1 0 
0 −1 x + 1

14 berechnen, indem wir sie auf Smith-Normalform bringen. Alternativ wählen


15 wir den Weg, die ggT’s der Minoren zu berechnen und daraus die Elementar-
16 teiler gemäß Satz 18.10 zu gewinnen. Wegen des Eintrags −1 haben die 1 × 1-
17 Minoren den ggT 1. Man sieht außerdem, dass der ggT der 2 × 2-Minoren
18 x+1 ist. Die Determinante ist (x+1)3 , und wir erhalten die wesentlichen Ele-
19 mentarteiler x+1 und (x+1)2 . Ein Vergleich mit Beispiel 18.16 zeigt, dass die
20 charakteristische Matrix der dort betrachteten Matrix dieselben wesentlichen
21 Elementarteiler hat. Nach Korollar 19.2 sind also
   
−3 −1 2 −1 0 0
22  4 1 −4 und  0 −1 0 
0 0 −1 0 1 −1

23 ähnlich. Die zweite Matrix ist hierbei übersichtlicher. Sie ist ein Beispiel für
24 ein Matrix in Jordanscher-Normalform, die wir in Kürze definieren werden.
25 /
26 Die folgende Definition ist Bestandteil unseres Projekts, übersichtliche Ma-
27 trizen zu finden, deren charakteristische Matrizen vorgegebenen Elementar-
28 teiler haben. Wir erinnern daran, dass ein Primpolynom ein normiertes, nicht
29 konstantes Polynom f ∈ K[x] ist, dessen einzige normierten Teiler 1 und f
30 selbst sind. Beispielsweise ist jedes Polynom der Form x−a ein Primpolynom,
31 und x2 + 1 ∈ R[x] ist ein Primpolynom.
32 Definition 19.4. (a) Sei f = xn − an−1 xn−1 − · · · − a1 x − a0 ∈ K[x] ein
33 nicht konstantes, normiertes Polynom. Dann heißt
Die Jordansche Normalform und allgemeine Normalform 149
 
0 0 a0
1
 .. a1

. 
 ∈ K n×n
 
1 Bf :=  ..
 .. 0 . 

 . 

0 1 an−1

2 die Begleitmatrix von f . Besonders wichtig ist der Fall f = x − a, in


3 dem Bf nichts weiter als eine 1 × 1-Matrix mit dem Eintrag a ist.
4 (b) Ist f ∈ K[x] wie in (a) und e ∈ N>0 eine positive ganze Zahl, so setzen
5 wir
 

 Bf 0 

 
1
 
 
 
 Bf 
 
 
1
 
(e)  ..  ∈ K en×en .

6 Bf := 
 . 
 

 1 


 Bf 

 
 

 1 

 0 Bf 

(e)
7 Bf ist also eine Block-Diagonalmatrix mit e identischen Blöcken Bf
8 und zusätzlich Einsern an den Positionen links unterhalb der Berühr-
(1)
9 punkte der Blöcke. Für e = 1 ist Bf = Bf . In dem wichtigen Spezialfall
10 f = x − a heißt
 
a 0
 1 a 
 
(e)
Bx−a = 
 ..  ∈ K e×e

11
 . 
 a 
0 1 a

12 ein Jordan-Kästchen. Es hat a als Diagonaleinträge und Einsen in der


13 unteren Nebendiagonalen. (Manchmal werden Jordan-Kästchen auch mit
14 Einsen auf der oberen Nebendiagonalen definiert; dies ist eine Frage der
15 Konvention.)
16 (c) Eine quadratische Matrix A ∈ K n×n heißt in allgemeiner Normal-
17 form, falls
150 Die Jordansche Normalform und allgemeine Normalform
 
(e )

 Bf11 0 

 
 
 
(e )
Bf22
 
   
 =: diag B (e1 ) , . . . , B (es )
 
1 A=
  f1 fs
 .. 

 . 

 
 
 
(e )
 0 Bfss 

(e )
2 eine Block-Diagonalmatrix ist mit Matrizen Bfi i als Blöcke, wobei die
3 fi ∈ K[x] Primpolynome sind. Falls alle fi den Grad 1 haben (falls also
(e )
4 die Bfi i Jordan-Kästchen sind), so heißt A in Jordanscher Normal-
5 form.
6 (d) Sei A ∈ K n×n eine quadratische Matrix. Eine Matrix B ∈ K n×n heißt
7 eine allgemeine Normalform von A, falls B in allgemeiner Normal-
8 form und ähnlich zu A ist. Falls B sogar in Jordanscher Normalform ist,
9 so heißt sie eine Jordansche Normalform von A.
10 Beispiel 19.5. (1) Die Begleitmatrix eines normierten Polynoms f = x2 −
11 ax − b von Grad 2 ist  
0b
12 Bf =
1a
13 (2) Die Matrizen
       
−1 0 0 200 000 1 0 0
14  0 −1 0  , 0 1 0 , 1 0 0 und 0 −1 0 
0 1 −1 011 010 0 0 −1

15 sind in Jordanscher Normalform, die Matrix


 
−1 0 0
16  0 −1 0
0 1 1

17 aber nicht.
18 (3) Wegen Beispiel 19.3 hat
 
−3 −1 2
19 A =  4 1 −4 ∈ R3×3 .
0 0 −1

20 die Matrix
Die Jordansche Normalform und allgemeine Normalform 151
 
−1 0 0
1 B =  0 −1 0 
0 1 −1
2 als Jordansche Normalform.
3 (4) Über K = R ist x2 + x + 1 ein Primpolynom, also sind die Matrizen
     
0 −1 0 0 0 −1 0 0 0 −1 0 0
1 −1 0 0  1 −1 0 0  1 −1 0 0
4
0 1 0 −1 , 0 0 0 −1 und 0 0 2 0
     

0 0 1 −1 0 0 1 −1 0 0 12

5 in allgemeiner Normalform. /
6 Lemma 19.6. Es sei f ∈ K[x] ein nicht konstantes, normiertes Polynom
7 und e ∈ N>0 .
8 (a) Das charakteristische Polynom der Begleitmatrix Bf ist χBf = f .
(e)
9 (b) Die charakteristische Matrix von Bf hat den einzigen wesentlichen Ele-
e
10 mentarteiler f .
11 Beweis. (a) Wir schreiben f = xn − an−1 xn−1 − · · · − a1 x − a0 und A := Bf .
12 Für die Standardbasisvektoren ei mit 1 ≤ i ≤ n − 1 gilt A · ei = ei+1 ,
13 also
14 Ai · e1 = e1+i (i = 0, . . . , n − 1). (19.7)
15 Weiter gilt
n−1
X n−1
X
n
16 A · e1 = A · en = ai ei+1 = ai Ai · e1 .
(19.7) (19.7)
i=0 i=0

17 Es folgt
18 f (A) · e1 = 0.
19 Andererseits folgt aus dem Satz von Cayley-Hamilton (Satz 17.17) mit
20 g := χA die Beziehung g(A) · e1 = 0. Da f und g normiert vom Grad n
Pn−1
21 sind, können wir f − g = i=0 bi xi mit bi ∈ K schreiben, und es folgt
n−1
X n−1
X
22 0 = (f − g)(A) · e1 = bi Ai · e 1 = bi e1+i ,
(19.7)
i=0 i=0

23 also bi = 0 für alle i und damit g = f . Dies war zu zeigen.


(e)
24 (b) Wenn wir in der charakteristischen Matrix xIm − Bf (mit m := en)
25 die erste Zeile und die letzte Spalte streichen, erhalten wir eine untere
26 Dreiecksmatrix mit dem Eintrag −1 überall auf der Diagonalen. Also tritt
27 (−1)m−1 als einer der (m − 1) × (m − 1)-Minoren auf. Es folgt, dass 1 der
28 ggT der (m − 1) × (m − 1)-Minoren ist. Wegen Satz 18.10 (in der Version
29 für Matrizen über K[x]) folgt, dass die ersten m−1 Elementarteiler 1 sind.
152 Die Jordansche Normalform und allgemeine Normalform

1 Der letzte Elementarteiler muss daher gleich der Determinante von xIm −
(e)
2 Bf sein. Dies ist eine untere Block-Dreiecksmatrix mit Diagonalblöcken
3 xIn − Bf . Wegen (a) ist der gesuchte letzte Elementarteiler also f e . t
u
4 Wir kommen nun zum Hauptergebnis dieses Abschnitts, dass jede quadra-
5 tische Matrix eine allgemeine Normalform besitzt. Der Satz 18.14 über ein-
6 deutige Primzerlegung überträgt sich auf Polynome. Insbesondere kann man
7 bei der Primzerlegung eines nicht konstanten, normierten Polynoms f ∈ K[x]
8 jeweils gleiche Primpolynome fi zu Potenzen zusammenfassen und erhält so
9 eine Zerlegung
Ys
10 f= fiei
i=1

11 in Primpolynompotenzen.
12 Satz 19.7. Sei A ∈ K n×n eine quadratische Matrix.
13 (a) A hat eine allgemeine Normalform. Anders gesagt: A ist ähnlich zu einer
14 Matrix B in allgemeiner Normalform.
15 (b) A hat genau dann eine Jordansche Normalform, wenn das charakteri-
16 stische Polynom χA in Linearfaktoren zerfällt. Falls K algebraisch ab-
17 geschlossen ist (z.B. K = C), so hat also jede quadratische Matrix eine
18 Jordansche Normalform. Die Diagonaleinträge der Jordanschen Normal-
19 form sind die Eigenwerte von A.
20 Beweis. (a) Es seien d1 , . . . , dr ∈ K[x] die wesentlichen Elementarteiler von
21 xIn − A, und f1e1 , . . . , fses seien die Primpolynompotenzen aus der Zerle-
22 gung der di . Wir bilden die Block-Diagonalmatrix
 
(e ) (e )
23 B = diag Bf11 , . . . , Bfss

(e )
24 also eine Matrix in allgemeiner Normalform. Jedes Bf1i hat ei · deg(fi )
25 Zeilen und Spalten, wegen
s s
! r
!
X Y Y
ei
26 ei deg(fi ) = deg fi = deg di = deg(χA ) = n
i=1 i=1 i=1

27 gilt B ∈ K n×n . Wegen Lemma 19.6(b) gilt die Äquivalenz

28 xIn − B ≈ diag (1, . . . , 1, f1e1 , . . . , fses ) .

29 Wegen Proposition 18.15 (in der Version für Polynome in K[x]) gilt weiter

30 diag (f1e1 , . . . , fses ) ≈ diag (1, . . . , 1, d1 , . . . , dr ) ,


Die Jordansche Normalform und allgemeine Normalform 153

1 insgesamt also xIn − B ≈ diag (1, . . . , 1, d1 , . . . , dr ). Dies bedeutet, dass


2 d1 , . . . , dr die wesentlichen Elementarteiler von xIn − B sind. Aus Korol-
3 lar 19.2 folgt, dass A ähnlich zu B ist.
4 (b) Falls χA in Linearfaktoren zerfällt, so gilt dies wegen d1 · · · dr = χA auch
5 für die Elementarteiler di . Die fi aus dem Beweis von (a) haben also den
6 Grad 1, also ist B in Jordanscher Normalform, und die Diagonaleinträge
7 sind die Nullstellen von χA , also die Eigenwerte.
8 Falls umgekehrt A ähnlich ist zu einer Matrix B in Jordanscher Normal-
9 form, so folgt χA = χB (siehe Anmerkung 17.7(b)), und χB zerfällt in
10 Linearfaktoren, denn die charakteristische Matrix xIn − B ist eine untere
11 Dreiecksmatrix mit normierten Polynomen vom Grad 1 auf der Diagona-
12 len. t
u
13 Wir können mit Hilfe der Elementarteiler auch die Eindeutigkeit der all-
14 gemeinen Normalform beweisen.
15 Satz 19.8. Die allgemeine Normalform einer quadratischen Matrix A ∈
16 K n×n ist bis auf die Reihenfolge der Blöcke eindeutig bestimmt.
(e )
17 Genauer gilt: Die Blöcke Bfi i der allgemeinen Normalform gehören zu
18 den Primpolynompotenzen fiei , die in der Zerlegung der wesentlichen Ele-
19 mentarteiler der charakteristischen Matrix xIn − A auftreten.
 
(e ) (e )
20 Beweis. Es sei B = diag Bf11 , . . . , Bfss eine Matrix in allgemeiner Nor-
21 malform, die zu A ähnlich ist. Wegen Satz 19.1 und Lemma 19.6 folgt

22 xIn − A ≈ xIn − B ≈ diag (1, . . . , 1, f1e1 , . . . , fses ) .

23 Aus der Liste von Primpolynompotenzen fiei bilden wir nun wie folgt eine
24 Sequenz d1 , . . . , dr von Polynomen: Zunächst sei d1 das kleinste gemeinsame
25 Vielfache der fiei . Die Zerlegung von d1 in Primpolynompotenzen besteht aus
26 einigen der fiei , die wir aus nun der Liste streichen. Von den verbleibenden
27 fiei bilden wir erneut das kgV und setzen es d2 . So fahren wir fort, bis alle
28 fiei abgearbeitet sind. Die fiei sind nun genau die Primpolynompotenzen, die
29 in der Zerlegung der dj auftreten. Außerdem ist jedes dj ein Vielfaches des
30 nachfolgenden. Indem wir die Reihenfloge der dj umdrehen, erreichen wir also
31 dj | dj+1 für j < r. Wegen Proposition 18.15 (in der Version für Polynome in
32 K[x]) folgt

33 diag (f1e1 , . . . , fses ) ≈ diag (1, . . . , 1, d1 , . . . , dr ) .

34 Zusammen mit der obigen Äquivalenz ergibt sich, dass xIn − A die Smith-
35 Normalform diag (1, . . . , 1, d1 , . . . , dr ) hat, also sind die dj die wesentlichen
36 Elementarteiler von xIn − A. Damit ist der Satz bewiesen. t
u
37 Zum Berechnen der allgemeinen Normalform kann man also Algorith-
38 mus 18.6 auf die charakteristische Matrix anwenden und erhält die Elementar-
39 teiler. Aus deren Zerlegung in Primpolynompotenzen geht dann die allgemei-
154 Die Jordansche Normalform und allgemeine Normalform

1 ne Normalform hervor. Dies Berechnungsverfahren ist allerdings aufwändig.


2 Wesentlich schneller geht es mit gewissen Rang-Formeln, die wir hier für den
3 Fall der Jordanschen Normalform besprechen möchten. Da wir die Eindeu-
4 tigkeit der allgemeinen Normalform nachgewiesen haben, werden wir bei dem
5 nächsten Satz auf einen Beweis verzichten.
6 Satz 19.9. Es sei A ∈ K n×n eine quadratische Matrix, für die es eine
7 Jordansche Normalform gibt. Für jeden Eigenwert λ von A gelten dann:
8 (a) Für e ∈ N>0 ist

ce (λ, A) := rg (A − λIn )e−1 − 2 rg ((A − λIn )e )) + rg (A − λIn )e+1 )


 
9

10 die Anzahl der Jordan-Kästchen der Länge e zum Eingenwert λ.


11 (b) Die Gesamtlänge der Jordan-Kästchen zum Eigenwert λ ist gleich der
12 algebraischen Vielfachheit des Eigenwerts λ.
13 (c) Die Anzahl der Jordan-Kästchen zum Eigenwert λ ist gleich der geome-
14 trischen Vielfachheit des Eigenwerts λ.
15 Wir fassen die Methode zur Berechnung der Jordanschen Normalform, die
16 sich aus Satz 19.9 ergibt, zusammen.
17 Der erste Schritt ist die Berechnung des charakteristischen Polynoms χA
18 und das Auffinden der Nullstellen. Wir setzen voraus, dass χA in Linearfak-
19 toren zerfällt. Damit sind die Eigenwerte und deren algebraische Vielfachhei-
20 ten bekannt. Hat ein Eigenwert λ die algebraische Vielfachheit 1, so gibt es
21 zu λ genau ein Jordan-Kästchen der Länge 1, also einen Diagonaleintrag λ
22 in der Jordanschen Normalform ohne Einsen in der Nebendiagonalen. Bei
23 algebraischer Vielfachheit > 1 berechnet man die geometrische Vielfachheit,
24 also n−rg (A − λIn ). Damit kennt man die Anzahl der Jordan-Kästchen zum
25 Eigenwert λ, womit man zusammen mit der Kenntnis der Gesamtlänge (=
26 algebraische Vielfachheit) häufig schon deren Längen bestimmen kann. Falls
27 das nicht geht, muss man die Ränge der Matrizen (A − λIn )k berechnen und
28 daraus die ce (λ, A) gemäß Satz 19.9(a). Das macht man solange, bis man
29 aufgrund der Kenntnis der Gesamtlänge die Längen aller Jordan-Kästchen
30 zum Eigenwert λ bestimmt hat. Auf diese Art arbeitet man alle Eigenwerte λ
31 ab.
32 Beispiel 19.10. (1) Wir betrachten nochmals die Matrix
 
−3 −1 2
33 A =  4 1 −4 ∈ R3×3 ,
0 0 −1

deren Jordansche Normalform wir eigentlich schon kennen (siehe Bei-


spiel 19.5(3)). Das charakteristische Polynom ist
Die Jordansche Normalform und allgemeine Normalform 155
 
x+3 1 −2  
x+3 1
χA = det  −4 x − 1 4  = (x + 1) · det
−4 x − 1
0 0 x+1
= (x + 1) · (x2 + 2x + 1) = (x + 1)3 ,

1 wobei wir im ersten Schritt nach der dritten Zeile entwickelt haben. Der
2 einzige Eigenwert ist also λ = −1 mit algebraischer Vielfachheit 3. Der
3 Rang von  
−2 −1 2
4 A + I3 =  4 2 −4
0 0 0
5 ist 1, also gibt es zwei Jordan-Kästchen. Da die Gesamtlänge 3 ist, müssen
6 sie die Länge 1 und 2 haben, die Jordansche Normalform ist also
 
−1 0 0
7  0 −1 0  .
0 1 −1

8 (2) Wir betrachten die Matrix


 
−3 −1 4 −3 −1
 1 1 −1 1 0 
5×5
 
9 A= −1 0 2 0 0  ∈ R .

 4 1 −4 5 1 
−2 0 2 −2 1

Das Berechnen des charakteristischen Polynoms ist aufwändig:


 
x+3 1 −4 3 1
 −1 x−1 1 −1 0 
 
χA = det  1
 0 x−2 0 0 
 −4 −1 4 x−5 −1 
2 0 −2 2 x−1

−x2 − x + 2
 
x+3 1 3 1
 −1 x−1 x−1 −1 0 
 
= det  1 0 0 0 0 
(1) 
 −4

−1 4x − 4 x−5 −1 
2 0 −2x + 2 2 x−1

−x2 − x + 2
 
1 3 1
x − 1 x−1 −1 0 
= det  
(2)  −1 4x − 4 x−5 −1 
0 −2x + 2 2 x−1
156 Die Jordansche Normalform und allgemeine Normalform

−x2 + 3x − 2
 
0 x−2 0
 x−1 x−1 −1 0
= det  
(3)  −1 4x − 4 x−5 −1
−x + 1 4x2 − 10x + 6 x2 − 6x + 7 0

−x2 + 3x − 2
 
0 x−2
= det x − 1
 x−1 −1 
(4) 2 2
−x + 1 4x − 10x + 6 x − 6x + 7

−x2 + 3x − 2
 
0 x−2
= det x − 1 x−1 −1 
(5)
0 4x2 − 9x + 5 x2 − 6x + 6
 2 
−x + 3x − 2 x−2
= −(x − 1) · det
(6) 4x2 − 9x + 5 x2 − 6x + 6
 
0 x−2
= −(x − 1) · det 3
(7) x − 3x2 + 3x − 1 x2 − 6x + 6

= (x − 1)(x − 2)(x3 − 3x2 + 3x − 1) = (x − 2)(x − 1)4 .

1 Die Schritte waren: (1) Addieren des (−x+2)-fachen der ersten Spalte zur
2 dritten, (2) Entwickeln nach der dritten Zeile, (3) Addition der dritten
3 Zeile zur ersten und des (x − 1)-fachen der dritten Zeile zur letzten,
4 (4) Entwickeln nach der letzten Spalte, (5) Addieren der zweiten Zeile
5 zur dritten, (6) Entwickeln nach der ersten Spalte und (7) Addieren des
6 (x − 1)-fachen der zweiten Spalte zur ersten.
Der Eigenwert 2 ergibt ein Jordan-Kästchen der Länge 1. Der Eigenwert 1
hat algebraische Vielfachheit 4. Wir berechnen den Rang von A − I5 :
   
−4 −1 4 −3 −1 0 −1 0 1 −1
 1 0 −1 1 0  1 0 −1 1 0 
   
rg(A − I5 ) = rg 
 −1 0 1 0 0  = rg 0 0 0 1 0 
  
 4 1 −4 4 1  0 1 0 0 1 
−2 0 2 −2 0 0 0 0 0 0
 
00 0 10
1 0 −1 1 0
 
0 0 0 1 0 = 3.
= rg  
0 1 0 0 1
00 0 00

7 Es gibt also 5 − 3 = 2 Jordan-Kästchen zum Eigenwert 1. Dafür gibt es


8 zwei Möglichkeiten (zwei Kästchen der Länge 2 oder je eines der Länge 1
9 und 3). Um die Anzahl c1 (1, A) der Jordan-Kästchen der Länge 1 nach
10 Satz 19.9(a) zu berechnen, brauchen wir den Rang von (A − I5 )2 :
Die Jordansche Normalform und allgemeine Normalform 157
   
1 1 −1 1 1 0 1 0 01
1 0 −1 1 0 1 0 −1 1 0
rg (A − I5 )2 = rg 
    
1
3 1 −3 3  = rg 0
1  1 0 0 1
 = 2.
3 0 −3 3 0 0 0 0 0 0
−2 0 2 −2 0 0 0 0 00

2 Wir erhalten c1 (1, A) = 5 − 2 · 3 + 2 = 1. Es gibt also ein Jordan-Kästchen


3 der Länge 1, und A hat die Jordansche Normalform
 
20000
 0 1 0 0 0
 
4
 0 0 1 0 0 .
 
 0 0 1 1 0
00011
5 /
6 Oft ist es von Interesse, nicht nur die allgemeine bzw. Jordansche Nor-
7 malform B einer Matrix A ∈ K n×n zu bestimmen, sondern auch eine trans-
8 formierende Matrix S ∈ GLn (K) mit B = S −1 AS. Dies ist gleichbedeutend
9 mit der Bestimmung einer Basis von K n , bezüglich der ϕA die Darstellungs-
10 matrix B hat. Bisweilen wird eine solche Basis (im Falle der Jordanschen
11 Normalform) eine Jordan-Basis genannt.
12 Eine Methode zur Berechnung einer transformierenden Matrix wird aus
13 der Bemerkung vor Korollar 19.2 klar: Aus der Kenntnis einer der trans-
14 formierenden Matrizen für die Äquivalenz der charakteristischen Matrizen
15 xIn − A und xIn − B erhält man eine transformierende Matrix für die Ähn-
16 lichkeit von A und B. Diese Methode ist jedoch meist zu aufwändig. Daher
17 wird normalerweise eine wesentlich effizientere Methode verwendet, die wir
18 nun (im Fall der Jordanschen Normalform) skizzieren.
19 Es wird vorausgesetzt, dass die Jordansche Normalform einer Matrix
20 A ∈ K n×n bekannt ist, und das Ziel ist die Bestimmung einer Jordan-Basis.
21 Diese setzt man zusammen aus Vektoren, die durch Anwendung von A gemäß
22 den einzelnen Jordan-Kästchen transformiert werden. Man behandelt die Ei-
23 genwerte λ nacheinander. Zu einem Eigenwert λ sucht man zunächst Basis-
24 vektoren, die zu den längsten Jordan-Kästchen zum Eigenwert λ gehören. Ist
25 deren Länge e, so berechnet man den sogenannten Hauptraum
(e)
26 Eλ := {v ∈ K n | (A − λIn )e · v = 0} .

27 Haupträume stellen eine Verallgemeinerung der Eigenräume dar. Man ergänzt


(e−1) (e)
28 nun eine Basis des Unterraums Eλ zu einer Basis von Eλ . Die ergänzen-
29 den Vektoren bilden die Keime“ der zu den Jordan-Kästchen gehörenden

(e)
30 Basisvektoren. Ist v ∈ Eλ ein solcher, so setzen wir nämlich

31 v1 := v, v2 := Av1 − λv1 , ..., ve := Ave−1 − λve−1 . (19.8)


158 Die Jordansche Normalform und allgemeine Normalform

1 Für i ≤ e − 1 folgt A · vi = λ · vi + vi+1 , also genau das Verhalten, das durch


(e)
2 ein Jordan-Kästchen beschrieben wird. Aus v ∈ Eλ folgt weiter Ave = λ·ve ,
3 was auch dem Jordan-Kästchen entspricht. Die Vektoren vi fügt man zu der
4 Jordan-Basis hinzu, und so verfährt man mit allen Vektoren, die eine Basis
(e−1) (e)
5 von Eλ zu einer von Eλ ergänzen. Nun hat man Basisvektoren, die zu
6 den Jordan-Kästchen zum Eigenwert λ mit der maximalen Länge e gehören.
7 Es geht weiter mit den Basisvektoren zu den Jordan-Kästchen der Länge
8 e−1 (falls vorhanden). Um lineare Abhängigkeit mit den schon in der Jordan-
(e−2)
9 Basis befindlichen Vektoren zu vermeiden, muss man Basen von Eλ und
(e) (e−1)
10 von (A − λIn ) · Eλ zu einer Basis von Eλ ergänzen. Eine Basis von
(e)
11 (A − λIn ) · Eλ erhält man hierbei aus den Abkömmlingen“ v2 gemäß (19.8)
” (e−1) (e)
12 der Vektoren aus der Basisergänzung von Eλ zu Eλ . Auch hier bilden
13 die ergänzenden Basisvektoren die Keime“ der zu den Jordan-Kästchen der

14 Länge e − 1 gehörenden Basisvektoren.
15 Beispiel 19.11. Zur Illustration der Methode betrachten wir unsere Stan-
16 dardbeispiele.
17 (1) Wir betrachten wieder
 
−3 −1 2
18 A =  4 1 −4 ∈ R3×3 .
0 0 −1

19 Wir wissen, dass es zwei Jordan-Kästchen der Länge 1 und 2 zum Ei-
20 genwert −1 gibt (siehe Beispiel 19.5(3)). Der Eigenraum E−1 hat also
(2)
21 die Dimension 2, der Hauptraum E−1 muss also Dimension 3 haben.
22 (Diese Dimensionen ergeben sich auch aus der Formel in Satz 19.9(a).)
23 Wir können als Keim“ einer Jordanbasis also mit einem beliebigen Vek-

24 tor außerhalb E−1 beginnen. Wir wählen den ersten Standardbasisvektor
25 v1 := e1 . Weiter setzen wir
 
−2
26 v2 := Av1 + v1 =  4  .
0

27 Diese beiden Vektoren gehören zum Jordan-Kästchen der Länge 2. Um


28 einen Basisvektor zum Jordan-Kästchen der Länge 1 zu bekommen,
29 ergänzen wir v2 durch  
0
30 v3 = 2
1
31 zu einer Basis von E−1 . In der Reihenfolge v3 , v1 , v2 bilden unsere Vek-
32 toren eine Jordan-Basis zu der Jordanschen Normalform mit der Reihen-
33 folge der Kästchen wie in Beispiel 19.5(3). Eine transformierende Matrix
34 ist
Die Jordansche Normalform und allgemeine Normalform 159
 
0 1 −2
1 S = 2 0 4  .
10 0
2 (2) Nun betrachten wir unser zweites Standardbeispiel, nämlich
 
−3 −1 4 −3 −1
 1 1 −1 1 0 
5×5
 
3 A= −1 0 2 0 0  ∈ R

 4 1 −4 5 1 
−2 0 2 −2 1

4 (siehe Beispiel 19.10(2)). Für den Eigenwert λ = 2 finden wir durch Lösen
5 des entsprechenden homogenen LGS den Eigenvektor
 
0
1
 
6
 2 ,
v1 =  
3
−2

7 den wir als ersten Vektor in die Jordan-Basis aufnehmen. Nun behandeln
8 wir den Eigenwert λ = 1 und suchen als erstes einen Vektor für das
(3)
9 Jordan-Kästchen der Länge 3. Hierzu müssen wir E1 , also den Kern von
3
10 (A − I5 ) , berechnen. Wir kennen aus Beispiel 19.10(2) bereits die Ränge

11 von A−I5 und (A−I5 )2 (nämlich 3 und 2), und erhalten rg (A − I5 )3 =
12 1 durch Auflösen der Formel aus Satz 19.9(a). Es genügt also, eine Zeile
13 von (A−I5 )3 zu berechnen, wobei wir (A−I5 )2 schon aus Beispiel 19.10(2)
14 kennen. Am einfachsten ist die dritte Zeile von (A − I5 )3 , die sich zu
15 (2, 0, −2, 2, 0) ergibt. Wir wählen
 
0
1
  (3) (2)
16
0 ∈ E1 \ E1 .
v3 :=  
0
0

17 und weiter
   
−1 1
0 0
   
18 v4 := (A − I5 ) · v3 = 
0
 und v5 := (A − I5 ) · v4 = 
1 .

1 0
0 0

19 Die Vektoren v3 , v4 , v5 gehören zum Jordan-Kästchen der Länge 3, was


20 wir durch Nachrechnen von
160 Die Jordansche Normalform und allgemeine Normalform

1 A · v 3 = v3 + v4 , A · v4 = v4 + v5 und A · v5 = v5

2 bestätigen können. Für das Jordan-Kästchen der Länge 1 brauchen wir


(1)
3 einen Vektor aus E1 (also einen Eigenvektor), der zusammen mit v5
4 linear unabhängig ist. Wir haben A − I5 in Beispiel 19.10(2) bereits mit
5 Spaltenoperationen behandelt und sind auf die Matrix
 
00 0 10
1 0 −1 1 0
 
6
0 0 0 1 0
 
0 1 0 0 1
00 0 00

7 gekommen, an der man die Basis


   
0 1
−1 0
   
8
 0  und 1
   
0 0
1 0
(1)
9 des Eigenraums E1 abliest. Wir können also als letzten Basisvektor
 
0
−1
 
10
0
v2 =  
0
1

11 wählen. Die Nummerierung der vi haben wir so gemacht, dass sie mit der
12 gewählten Reihenfolge der Jordan-Kästchen in Beispiel 19.10(2) kompa-
13 tibel ist. Als transformierende Matrix erhält man
 
0 0 0 −1 1
 1 −1 1 0 0
 
14 S=  2 0 0 0 1 .

 3 0 0 1 0
−2 1 0 0 0
15 /
16 Dies ist eine geeignete Stelle, um den Begriff des Minimalpolynoms ei-
17 ner Matrix A ∈ K n×n einzuführen. Nach dem Satz von Cayley-Hamilton
18 (Satz 17.17) gilt für das charakteristische Polynom χA die Beziehung χA (A) =
19 0, also existiert ein (normiertes) Polynom, das A als Nullstelle“ hat. (Dies

20 hätten wir auch daraus folgern können, dass wegen dim(K n×n ) < ∞ die Po-
21 tenzen von A linear abhängig sein müssen.) Das Minimalpolynom von A
Dualraum 161

1 ist das normierte Polynom g ∈ K[x] minimalen Grades, so dass g(A) = 0


2 gilt. Es ist nicht schwer zu sehen, dass g eindeutig bestimmt ist, und dass die
3 Polynome f ∈ K[x] mit f (A) = 0 genau die Vielfachen von g sind. Außerdem
4 haben ähnliche Matrizen das gleiche Minimalpolynom.
5 Beispiel 19.12. Für die Projektionsmatrix“

 
1000
0 1 0 0
6 A= 
0 0 0 0
0000

7 gilt A2 = A, und A hat das Minimalpolynom x2 − x = x(x − 1). Das charak-


8 teristische Polynom ist χA = x2 (x − 1)2 . /
9
QrAus der Theorie
ei
der Jordanschen Normalform sieht man: Ist χA =
10
i=1 (x − λi ) mit paarweise verschiedenen Eigenwerten λi , so ist
r
Y
11 g= (x − λi )li
i=1

12 mit li die maximale Länge eines Jordan-Kästchens zum Eigenwert λi das


13 Minimalpolynom. Entsprechend verhält es sich mit der allgemeinen Normal-
14 form. Äquivalent ist folgende Aussage: Das Minimalpolynom von A ist der
15 letzte Elementarteiler dn der charakteristischen Matrix xIn − A.

16 20 Dualraum

17 Dieser Abschnitt passt nicht wirklich unter das Stichwort Normalformen“.



18 Weiterhin steht K immer für einen Körper. Wir erinnern daran, dass für
19 zwei K-Vektorräume V, W auch die Menge Hom(V, W ) der linearen Abbil-
20 dungen V → W ein Vektorraum wird, wobei die Operationen punktweise
21 definiert sind.
22 Definition 20.1. Es sei V ein K-Vektorraum. Eine Linearform (auf V )
23 ist eine lineare Abbildung V → K. Der Raum

24 V ∗ := Hom(V, K)

25 aller Linearformen heißt der Dualraum von V .


26 Beispiel 20.2. (1) Eine Linearform auf dem n-dimensionalen Standardraum
27 V = K n hat eine Darstellungsmatrix (bzgl. der Standardbasen) aus
28 K 1×n . Umgekehrt liefert jeder Zeilenvektor aus K 1×n eine Linearform,
29 und die Addition bzw. Multiplikation mit Skalaren von Zeilenvekto-
30 ren entspricht den entsprechenden Operationen der Linearformen. Wir
162 Dualraum

1 können V ∗ also mit dem Vektorraum K 1×n der Zeilenvektoren identifi-


2 zieren.
3 (2) Sei V = K[x] der Polynomring. Zu jeder Linearform ϕ: V → K erhal-
4 ten wir eine Folge (b0 , b1 , . . .) durch bi := ϕ(xi ) ∈ K. Ist umgekehrt
5 (b0 , b1 , . . .) eine Folge mit bi ∈ K, so liefert
n
X n
X
6 ϕ: V → K, ai xi 7→ ai bi
i=0 i=0

7 eine Linearform. Wir können V ∗ also mit dem Raum der K-wertigen
8 Folgen identifizieren. /
9 Es sei nun V ein K-Vektorraum und B eine Basis. Jedes v ∈ V lässt sich
10 also eindeutig schreiben als
X
11 v= aw · w
w∈B

12 mit aw ∈ K, wobei nur endlich viele der aw ungleich 0 sind. Wir fixieren jetzt
13 einen Basisvektor b ∈ B und definieren eine Abbildung
X
14 b∗ : V → K, v = aw · w 7→ ab .
w∈B

15 Es ist klar, dass b∗ eine Linearform ist, also b∗ ∈ V ∗ . Die Menge

16 B ∗ := {b∗ | b ∈ B}

17 heißt die Dualbasis zu B. Die Bezeichnung Dualbasis“ ist etwas irreführend,



18 wie der Teil (b) des folgenden Satzes zeigt.
19 Satz 20.3. Es seien V ein K-Vektorraum und B eine Basis.
20 (a) Die Dualbasis B ∗ ⊆ V ∗ ist linear unabhängig.
21 (b) B ∗ ist genau dann eine Basis von V ∗ , falls dim(V ) < ∞. In diesem Fall
22 gilt also
23 dim(V ) = dim(V ∗ ).
24 Beweis. (a) Es seien b1 , . . . , bn ∈ B paarweise verschieden und a1 , . . . , an ∈
25 K, so dass
Xn
26 f := ai b∗i = 0.
i=1

27 Dann gilt für alle j = 1, . . . , n


n
X
28 0 = f (bj ) = ai b∗i (bj ) = aj .
i=1

29 Also sind b∗1 , . . . , b∗n linear unabhängig.


Dualraum 163

1 (b) Es sei dim(V ) < ∞ Pund B = {b1 , . . . , bn }. Für f ∈ V ∗ setzen wir ai :=


n
2 f (bi ) ∈ K und g := i=1 ai b∗i . Dann gilt für j ∈ {1, . . . , n}
n
X
3 g(bj ) = ai b∗i (bj ) = aj = f (bj ),
i=1

4 f und g stimmen also auf der Basis B überein. Wegen Satz 11.12(a) folgt
5 f = g. Wegen g ∈ hB ∗ i erhalten wir V ∗ = hB ∗ i, also ist B ∗ eine Basis.
6 Nun sei B unendlich. Jede Linearkombination von B ∗ ist eine Linearform,
7 die nur auf endlich vielen Basisvektoren einen Wert 6= 0 annimmt. Also
8 liegt die Linearform
X X
9 f : V → K, v = aw · w 7→ aw
w∈B w∈B

10 nicht in hB ∗ i, B ∗ ist also keine Basis. t


u
11 Das Wesen des Dualraums wird klarer, wenn man sich sogenannte duale
12 Abbildungen anschaut. Diese werden wie folgt gebildet. Ist ϕ: V → W ei-
13 ne lineare Abbildung zwischen zwei K-Vektorräumen, so definieren wir die
14 duale Abbildung
15 ϕ∗ : W ∗ → V ∗ , f 7→ f ◦ ϕ.
16 Offenbar ist ϕ∗ auch linear. Die duale Abbildung ϕ∗ geht in umgekehrter
17 Richtung wie ϕ.
18 Man kann auch den Dualraum des Dualraums bilden, also

19 V ∗∗ := (V ∗ )∗ .

20 Man nennt V ∗∗ den Bidualraum. Für v ∈ V können wir ein ganz spezielles
21 Element ϕv ∈ V ∗∗ wie folgt definieren:

22 ϕv : V ∗ → K, f 7→ f (v).

23 In der Tat gelten für f, g ∈ V ∗ und a ∈ K:

24 ϕv (f + g) = (f + g)(v) = f (v) + g(v) = ϕv (f ) + ϕv (g)

25 und
26 ϕv (a · f ) = (a · f )(v) = a · f (v) = a · ϕv (f ).
27 Satz 20.4. Es sei V ein K-Vektorraum.
28 (a) Die Abbildung
29 Φ: V → V ∗∗ , v 7→ ϕv
30 ist linear und injektiv.
31 (b) Genau dann ist Φ ein Isomorphismus, wenn dim(V ) < ∞.
164 Dualraum

1 Beweis. (a) Für v, w ∈ V , a ∈ K und f ∈ V ∗ gelten

2 ϕv+w (f ) = f (v + w) = f (v) + f (w) = ϕv (f ) + ϕw (f )

3 und
4 ϕav (f ) = f (av) = af (v) = aϕv (f ).
5 also

6 Φ(v + w) = ϕv+w = Φ(v) + Φ(w) und Φ(av) = ϕav = aΦ(v).

7 Damit ist Φ linear. Für den Nachweis von Kern(Φ) = {0} nehmen wir ein
8 v ∈ V mit v 6= 0. Wir können {v} zu einer Basis B von V ergänzen. Für
9 f := v ∗ ∈ B ∗ gilt dann f (v) = 1, also ϕv (f ) 6= 0. Es folgt v ∈
/ Kern(Φ).
10 Damit ist auch die Injektivität von Φ gezeigt.
11 (b) Falls dim(V ) < ∞, so liefert zweimaliges Anwenden von Satz 20.3(b)

12 dim(V ) = dim(V ∗ ) = dim(V ∗∗ ).

13 Aus (a) und Korollar 11.11 folgt, dass Φ ein Isomorphismus ist.
14 Nun sei V unendlich-dimensional und B eine Basis. Die Dualbasis B ∗ ist
15 nach Satz 20.3(a) linear unabhängig, also lässt sie sich zu einer Basis C ∗
16 von V ∗ ergänzen. Wir definieren ϕ ∈ V ∗∗ durch
X X
17 ϕ: V ∗ → K, f = ac · c 7→ ac
c∈C ∗ c∈C ∗

18 und behaupten, dass ϕ 6= ϕv für alle v ∈ V gilt, also ϕ ∈


/ Φ(V ). Es sei
19 also X
20 v= ab · b ∈ V.
b∈B

21 Da ab nur für endlich viele b ∈ B ungleich 0 ist, gibt es b ∈ B mit ab = 0,


22 also
23 ϕv (b∗ ) = b∗ (v) = ab = 0 6= 1 = ϕ(b∗ ).
24 Dies schließt den Beweis ab. t
u
1 Diskrete Strukturen: Zählen

2 21 Binomialkoeffizienten und Kombinatorik

3 Laut Wiktionary ist Kombinatorik die mathematische Disziplin, die sich



4 mit der Frage befasst, welche Möglichkeiten (Kombinationen) es gibt, eine
5 bestimmte Anzahl von Dingen miteinander zu kombinieren“. Wenn die Din-

6 ge“ mathematische Objekte sind, läuft das Zählen von Kombinationen in
7 der Regel auf das Bestimmen der Elementzahl einer endlichen Menge hinaus.
8 Hiervon handelt der erster Satz des Abschnitts.
9 Satz 21.1. (a) Sind A und B zwei gleichmächtige endliche Mengen, so gilt
10 |A| = |B|.
11 (b) Sind A1 , . . . , An paarweise disjunkte endliche Mengen (d.h. Ai ∩ Aj = ∅
12 für i 6= j), so gilt

13 |A1 ∪ · · · ∪ An | = |A1 | + · · · + |An |.

14 Anmerkung: Man nennt die Vereinigung paarweiser disjunkter Mengen


15 auch disjunkte Vereinigung und schreibt sie als
. .
16 A1 ∪ · · · ∪ An .

17 (c) Sind A1 , . . . , An endliche Mengen, so gilt für das kartesische Produkt

18 |A1 × · · · × An | = |A1 | · · · |An |.

19 Zum Beweis des Satzes bemerken wir, dass der Teil (a) direkt aus Defini-
20 tion 2.13 folgt. Will man aber die Teile (b) und (c) beweisen, so braucht man
21 eine Definition der Addition und der Multiplikation von natürlichen Zah-
22 len. Da wir dies nicht gemacht, sondern nur grob angedeutet haben (siehe
23 Seite 12), können wir die Beweise nicht führen. Verfügt man über Defini-
166 Binomialkoeffizienten und Kombinatorik

1 tionen für Addition und der Multiplikation von natürlichen Zahlen, so ist
2 der Nachweis der Teile (b) und (c) jedoch nicht schwer. Da diese Teile intui-
3 tiv unmittelbar einsichtig sind, sollte uns das Fehlen formaler Beweise keine
4 Kopfschmerzen bereiten.
5 Den schwierigeren Fall von nicht disjunkten Vereinigungen werden wir
6 später behandeln (siehe Satz 21.8).
7 Beispiel 21.2. Sind A und B endliche Mengen mit k := |A| und n := |B|, so
8 können wir die Anzahl der injektiven Funktionen g: A → B bestimmen. Falls
9 A = ∅, so gibt es genau eine solche Funktion. Andernfalls wählen wir a0 ∈ A
10 und zerlegen die Menge F der injektiven Funktionen A → B disjunkt als
.
[ 
11 F = g: A → B | g injektiv, g(a0 ) = b .
b∈B
| {z }
=:Fb

12 Die Einschränkung auf A \ {a0 } liefert eine Bijektion von Fb auf die Menge
13 der Injektionen A\{a0 } → B \{b}. Die gesuchte Elementanzahl f (k, n) = |F |
14 erfüllt also die Gleichung

15 f (k, n) = n · f (k − 1, n − 1).

16 Nun liefert eine einfache Induktion nach k die Formel


k−1
Y
17 |F | = n(n − 1) · · · (n − k + 1) = (n − i) =: nk .
i=0

18 Die Zahl nk wird die k-te fallende Faktorielle (von n) genannt. Für k ≤ n
19 ist dies gleich n!/(n−k)!, und für k > n ist dies gleich 0. Insbesondere erhalten
20 wir die bekannte Formel |Sn | = n! für die symmetrische Gruppe. /
21 Wir hätten das obige Beispiel auch weniger formal behandeln können und
22 die Zahl |F | interpretieren können als die Anzahl der Möglichkeiten, aus n
23 Kugeln hintereinander k Stück ohne Zurücklegen zu ziehen, wobei es auf die
24 Reihenfolge der Züge ankommt. Kommt es jedoch nicht auf die Reihenfolge
25 der Züge an, so muss man die fallende Faktorielle durch k! dividieren. Es
26 gibt also nk /k! Möglichkeiten, eine ungeordnete Menge von k Kugeln aus ei-
27 ner Urne mit n Kugeln ohne Zurücklegen zu ziehen. Wir werden dies später
28 mathematischer formulieren und formaler beweisen (siehe Satz 21.6), neh-
29 men die obige Formel aber zum Anlass für die folgende etwas allgemeinere
30 Definition.
31 Definition 21.3. Für eine komplexe Zahl a ∈ C und eine natürliche Zahl
32 k ∈ N ist
  Qk−1
a (a − i) a a−1 a − (k − 1) ak
33 = i=0 = · ··· =
k k! 1 2 k k!
Binomialkoeffizienten und Kombinatorik 167

1 der (k-te) Binomialkoeffizient (von a). Er wird häufig gelesen als  ”a


a
2 über k“. Im Fall k = 0 interpretieren wir das leere Produkt als 1, also 0 = 1.
Ebensogut wie für komplexe Zahlen a lässt sich ka für Elemente a ∈ R ei-

3

4 nes kommutativen Ringes R, der die rationalen Zahlen Q enthält, definieren.


5 Interessant und wichtig ist dabei der Fall a = x ∈ Q[x], in dem
  Qk−1
x (x − i)
6 = i=0 ∈ Q[x]
k k!

7 ein Polynom vom Grad k ist. Einsetzen von x = a in dieses Polynom ergibt
a
8
k .

9 Die Binomialkoeffizienten stehen in einem Geflecht von Beziehungen zu-


10 einander und zu anderen Größen. Die vielleicht wichtigsten davon fassen wir
11 in folgendem Satz zusammen.
12 Satz 21.4. Für alle k ∈ N, n ∈ Z und a, b ∈ C (oder allgemeiner a, b Ele-
13 mente in einem kommutativen Ring, der Q enthält) gelten:
(a)  
n
14 ∈Z (Ganzzahligkeit).
k
15 (b) Falls n ≥ k, dann  
n n!
16 = > 0.
k k!(n − k)!
17 (c) Falls n ≥ k, dann
   
n n
18 = (Symmetrie).
k n−k

19 (d) Falls 0 ≤ n < k, dann


 
n
20 =0 (Nullstellen).
k

(e)
     
a a a+1
21 + = (Formel für das Pascalsche Dreieck).
k k+1 k+1

(f )    
a a
22 =1 und =a (spezielle Werte).
0 1
(g)    
−a k a+k−1
23 = (−1) .
k k
168 Binomialkoeffizienten und Kombinatorik

1 (h) Falls n ≥ 0, dann


n  
X n k n−k
2 (a + b)n = a b (binomische Formel).
k
k=0

3 (Dies gilt sogar dann, wenn a und b aus einem kommutativen Ring kom-
4 men, der nicht Q enthält.)
5 (i) Falls n ≥ 0, dann
n    
X i n+1
6 = (Summenformel).
i=0
k k+1

(j)
k     
X a b a+b
7 = (Vandermondesche Identität).
j=0
j k−j k

Beweis. Die Aussagen (b), (d), (f) und (g) folgen direkt aus der Definition,
und (c) folgt aus (b). Teil (e) ergibt sich aus der Rechung
    Qk−1 Qk
a a (k + 1) i=0 (a − i) + i=0 (a − i)
+ =
k k+1 (k + 1)!
Qk
(k + 1 + a − k) j=1 (a − j + 1)
 
a+1
= = .
(k + 1)! k+1

8 Wie wir sehen werdem, wird (e) für alle weiteren Nachweise entscheidend
9 verwendet.
10 Die Ganzzahligkeit (a) gilt für k = 0 oder n = 0 nach (f) und (d). Für
11 positive n und k folgt sie per Induktion nach n mit (e), und für negative n
12 dann aus (g).
Die binomische Formel (h) zeigen wir per Induktion. Für n = 0 folgt sie
aus (f). Weiter gilt

(a + b)n+1 =
n   n   n  
X n k n−k X n k n+1−k X n k+1 n−k
(a + b) a b = a b + a b =
k k k
k=0 k=0 k=0
n    
X n n
1 · bn+1 +
 k n+1−k
+ a b + 1 · an+1 =
k k−1
k=1
n+1
X n + 1 
ak bn+1−k ,
k
k=0
Binomialkoeffizienten und Kombinatorik 169

1 wobei wir für die erste Gleichheit Induktion und für die letzte (e) benutzt
2 haben.
3 Teil (i) lässt sichebenfalls durch Induktion nach n zeigen. Für n = 0 lautet
4 die Behauptung k0 = k+1 1
, was wegen (d) und (f) stimmt. Weiter gilt

n+1
X       
i n+1 n+1 n+2
5 = + = ,
i=0
k k+1 k k+1

6 wobei wir für die erste Gleichheit Induktion und für die zweite (e) benutzt
7 haben.
8 Der Nachweis der Vandermondeschen Identität (j) ist der schwierigste und
9 interessanteste. Wir beginnen mit dem Spezialfall, dass a und b im Polynom-
10 ring Q[x] liegen, und zwar, noch spezieller, dass a = x und b = n ∈ N. Wir
11 benutzen Induktion nach n. Zu zeigen ist also
k     
X x n x+n
12 = , (21.1)
j=0
j k−j k

was für n = 0 zu der Gleichung xk = xk wird, und für k = 0 zu 1 · 1 = 1.


 

Wir setzen nun k > 0 voraus und rechnen

k      k−1
X  x  n   
X x n+1 x n 
= + + =
j=0
j k−j k j=0
j k−j k−j−1
     
x+n x+n x+n+1
+ = ,
k k−1 k

13 wobei wir für die erste und dritte Gleichheit (e) und für die zweite In-
14 duktion verwendet haben. Hiermit ist (21.1) nachgewiesen. Es mag erstau-
15 nen, dass dieser Spezialfall eigentlich schon den allgemeinen Fall beinhaltet.
16 Denn (21.1) sagt, dass (für jedes k ∈ N) das Polynom
k     
X x y x+y
17 −
j=0
j k−j k

18 in der Variablen y und mit Koeffizienten aus Q[x] alle natürlichen Zahlen als
19 Nullstellen hat. Es muss sich also um das Nullpolynom handeln. Setzt man
20 nun in dieses Polynom x = a und y = b ein, ergibt sich (j). t
u

21 Alle Eigenschaften aus 21.4 sind wichtig für Anwendungen. Für die Formel
22 in (e) werden wir einige sehen. Nicht direkt klar ist, warum die Summenfor-
23 mel (i) und die Vandermondesche Identität (21.1) wichtig sind. Letztere wird
24 im nächsten Abschnitt 22 eine interessante Rolle spielen. Die Summenformel
25 wenden wir in folgendem Beispiel an.
170 Binomialkoeffizienten und Kombinatorik

1 Beispiel 21.5. Die berühmte Formel

n(n + 1)
2 1 + 2 + ··· + n =
2
3 ist
Pnder kFall k = 1 in Satz 21.4(i). Man bekommt auch Summenformeln für
k
4 i
i=0  , indem man das Polynom x als (ganzzahlige) Linearkombination
von x1 , . . . , xk darstellt und dann Satz 21.4(i) für die Summation der Bino-

5

6 mialkoeffizienten benutzt. Im Beispiel k = 3 läuft das so:


     
3 x x x
7 x =6 +6 + ,
3 2 1

8 also nach Satz 21.4(i)


n
n4 n3 n2 n2 (n + 1)2
     
X n+1 n+1 n+1
9 i3 = 6 +6 + = + + = ,
i=0
4 3 2 4 2 4 4

10 wobei wir die Details der Rechnung weggelassen haben. /


11 Nun können wir unsere frühere Behauptung über ungeordnes Ziehen

12 von k Kugeln ohne Zurücklegen“ beweisen. Dies bedeutet nichts anderes als
13 die Auswahl einer k-elementigen Teilmenge, und entsprechend formulieren
14 wir das Ergebnis.
15 Satz 21.6. Es seien A eine endliche Menge mit n Elementen und k ∈ N
16 eine natürliche Zahl. Dann gilt für die Menge

17 M := T ⊆ A | |T | = k

18 aller k-elementigen Teilmengen von A die Formel


 
n
19 |M | = .
k

Beweis. Im Falle k = 0 gilt M = {∅}, also |M | = 1 = nk wegen Satz 21.4(f).



20

21 Wir setzen ab jetzt


 k > 0 voraus und benutzen Induktion nach n. Für n = 0
22 gilt |M | = 0 = nk wegen Satz 21.4(d). Es bleibt der Fall n > 0, in dem wir
23 ein Element x ∈ A wählen können. Es gilt
 . 
24 M = T ⊆ A | |T | = k und x ∈ T ∪ T ⊆ A | |T | = k und x ∈ /T .
| {z } | {z }
=:Mx =:Mx

Ordnet man einer (k − 1)-elementigen Teilmenge


 S ⊆ A \ {x} die Menge
S ∪ {x} zu, so ergibt dies
 eine Bijektion | S ⊆
A \ {x} | |S| = k − 1 → Mx .
Außerdem gilt Mx = T ⊆ A \ {x} | |T | = k . Wir erhalten
Binomialkoeffizienten und Kombinatorik 171

|M | = |Mx | + |Mx | =
Satz 21.1(b) Satz 21.1(a)
 
S ⊆ A \ {x} | |S| = k − 1 + T ⊆ A \ {x} | |T | = k
     
n−1 n−1 n
= + = .
Induktion k − 1 k Satz 21.4(e) k

1 Damit ist der Satz bewiesen. t


u
2 Beispiel 21.7. Ein Beispiel für Lottospieler: Die Anzahl der Möglichkeiten,
3 aus 49 Zahlen 6 auszuwählen, ist
 
49
4 = 13983816.
6

5 Auf der Webseite lotto.de wird die Wahrscheinlichkeit für Gewinnklasse 2


6 (sechs richtige) mit 1 zu 15537573 angegeben. Warum? /
7 Durch Satz 21.6 motiviert ist die häufig benutzte Schreibweise
 
A 
8 := T ⊆ A | |T | = k
k

9 für eine Menge A. Mit dieser Schreibweise lautet der Satz


   
A |A|
10
k = k .

11 Eine weitere gängige Schreibweise ist

12 [n] := {1, 2, . . . , n}

13 für n ∈ N.
14 Im folgenden Satz geht es um die Elementanzahl einer Vereinigung von
15 endlich vielen endlichen Mengen, die nicht disjunkt sein müssen. Wir könnten
16 solche Mengen als A1 , . . . , An aufzählen oder sie als endliches Mengensy-
17 stem zu schreiben. Der Satz enthält beide Varianten und benutzt die obigen
18 Schreibweisen.
19 Satz 21.8 (Inklusion-Exklusion). Für endliche Mengen A1 , . . . , An gilt
 
n n

[ X
X \ 
k−1
Ai = (−1) Ai  . (21.2)

20

i=1 k=1 [n]
I∈( k ) i∈I

21 Gleichbedeutend hierzu ist: Sei M ein Mengensystem bestehend aus endlichen


22 Mengen. Dann gilt
[ X \
M = (−1)|N |−1 N . (21.3)

23

∅6=N ⊆M
172 Binomialkoeffizienten und Kombinatorik

1 Beispiel 21.9. Vor dem Beweis des Satzes schauen wir die Fälle n = 2 und
2 n = 3 an, die lauten (mit endlichen Mengen A, B, C):

3 |A ∪ B| = |A| + |B| − |A ∩ B| (21.4)

4 und

5 |A ∪ B ∪ C| = |A| + |B| + |C| − |A ∩ B| − |A ∩ C| − |B ∩ C| + |A ∩ B ∩ C|.

6 Beide Formeln sind einigermaßen einsichtigund werden nun bewiesen. /

7 Beweis von Satz 21.8. Wir benutzen Induktion nach n. Für n = 1 lautet die
8 Behauptung |A1 | = |A1 | (und auch für n = 0 stimmt der Satz mit den leeren
9 Summen interpretiert als 0). Für den Induktionsschritt brauchen wir den Fall
10 n = 2. Es seien also A und B irgendwelche endliche Mengen. Dann gelten
. .
11 A ∪ B = A ∪ (B \ A) und B = (B \ A) ∪ (A ∩ B),

12 woraus sich mit Satz 21.1(b) die Formel (21.4) ergibt. Für den Fall n ≥ 3 ist
13 es günstig, die behauptete Formel (21.2) umzuschreiben zu
n
[ X \
|I|−1
Ai = (−1) Ai ,

14

i=1 ∅6=I⊆[n] i∈I

15 wodurch auch die Äquivalenz zu (21.3) klar wird.


Sn−1 Sn
16 Wir setzen B := i=1 Ai . Wegen i=1 Ai = B ∪ An ergibt sich aus (21.4)

[n
Ai = |B| + |An | − |B ∩ An |.

17

i=1

Sn−1
Anwendung der Induktionsannahme auf B und auf B ∩ An = i=1 (Ai ∩ An )
liefert
n
[ X \
|I|−1
Ai = (−1) Ai + |An |+


i=1 ∅6=I⊆[n−1] i∈I

X \ X \
|I| |I|−1

(−1) Ai = (−1) Ai ,


∅6=I⊆[n−1] i∈I∪{n} ∅6=I⊆[n] i∈I

18 was den Beweis abschließt. t


u

19 Beispiel 21.10. In diesem Beispiel geht es um sogenannte fixpunktfreie Per-


20 mutationen. Damit ist folgendes gemeint: Eine Permutationen σ ∈ SA einer
21 Menge A heißt fixpunktfrei, falls es kein x ∈ A gibt mit σ(x) = x. Wir
22 setzen voraus, dass A endlich ist und schreiben D ⊆ SA für die Menge aller
Erzeugende Funktionen 173

1 fixpunktfreien Permutationen. Das Komplement SA \ D ist die Vereinigungs-


2 menge der Mengen

3 (SA )x := σ ∈ SA | σ(x) = x (x ∈ A),

4 aber die Vereinigung ist nicht disjunkt. Mit n := |A| liefert Satz 21.8
 
n

X X \
k−1
|SA \ D| = (−1) (SA )x  .

5

k=1 I∈(A x∈I
k)

T
6 Für eine nicht leere Teilmenge I ⊆ A besteht die Schittmenge x∈I (SA )x
7 aus den Permutationen, die jedes Element von I fixieren. Die Abbildung
\
8 (SA )x → SA\I , σ 7→ σ|A\I (Einschränkung)
x∈I
T
ist bijektiv, also x∈I (SA )x = |SA\I | = (n − |I|)! wegen Satz 21.1(a). Wir
erhalten

|D| = |SA | − |SA \ D| =


n     n
k−1 n n!
X X
n! − (−1) (n − k)! = (−1)k .
k Satz 21.4(b) k!
k=1 k=0

k
Der Quotient |D| D
Pn (−1)
9
n! = |SA | ist also k=0 k! , was für n → ∞ sehr schnell
1
10 gegen exp(−1) = e konvergiert. Als Fazit haben wir gelernt, dass ungefähr
11 37 Prozent aller Permutationen fixpunktfrei sind. /

12 22 Erzeugende Funktionen

13 Wir beginnen mit den berühmten Fibonacci-Zahlen, benannt nach Leonardo


14 Fibonacci, der im frühen 13. Jahrhundert das Wachstun von Kaninchenpo-
15 pulationen unter folgenden idealisierten Annahmen untersuchte:
16 • Ab dem Alter von zwei Monaten bekommen Kaninchen Nachwuchs.
17 • Jedes Paar von Kaninchen bekommt pro Monat zwei Nachkommen, die
18 sich gleichmäßig in männliche und weibliche aufteilen.
19 • Sie hören nie auf, Nachkommen zu bekommen.
20 Aus diesen (sicher nur für eingeschränkte Zeiträume halbwegs realistischen)
21 Annahmen ergibt sich für die Anzahl an+2 der Kaninchenpaare im Monat n+
22 2 die Gleichung
23 an+2 = an+1 + an ,
174 Erzeugende Funktionen

1 wobei die Summanden den Bestand vom Vormonat und die Nachkommen der
2 mindestens zwei Monate alten Kaninchen darstellen. Die Zahlen an sind die
3 Fibonacci-Zahlen, wobei zusätzlich

4 a0 = 0 und a1 = 1

5 festgelegt wird. Dies ergibt die Folge (an )n = (0, 1, 1, 2, 3, 5, 8, 13, 21, 34, . . .).
6 Gesucht ist eine Formel für die Berechnung der an . Eine solche lässt sich fin-
7 den, indem man die obige Rekursionsgleichung in Matrix-Schreibweise bringt
8 und dann per Diagonalisierung die Potenzen der vorkommenden Matrix be-
9 rechnet. Wir wählen hier einen anderen Weg, der auf eine größere Klasse von
10 durch Rekursionsgleichungen definierten Zahlenfolgen anwendbar ist.
11 Wir stellen die sogenannte erzeugende Funktion auf, womit die Potenz-
12 reihe mit den an als Koeffizienten gemeint ist, also

X
13 f= an xn .
n=0

14 Dieser Ansatz ist zugleich gewagt und naiv. Gewagt, weil es zunächst un-
15 plausibel erscheint, dass beim Verwendung irgendeiner Zahlenfolge als Koef-
16 fizienten einer Potenzreihe eine sinnvolle“ Funktion herauskommt. Und naiv

17 deshalb, weil wir uns keine Gedanken über die Konvergenz der Potenzreihe
18 gemacht haben. Diese Gedanken werden wir nachholen und der Konvergenz-
19 frage auf eine vielleicht überraschende Art begegnen. Zunächst rechnen wir
20 weiter und tun so, also sei alles in Ordnung. Aus den obigen Gleichungen
21 ergibt sich

X ∞
X
22 f =x+ an+2 xn+2 = x + (an + an+1 )xn+2 = x + (x + x2 )f,
n=0 n=0

23 und durch Auflösen nach f :


x
24 f= .
1 − x − x2
25 Dies ist tatsächlich eine handhabbare Funktion, deren Potenzreihenentwick-
26 lung wir nun durch Partialbruchzerlegung bestimmen werden. Hiermit ist
27 gemeint, dass wir den Ansatz
β1 β2
28 f= +
1 − γ1 x 1 − γ2 x
29 mit β1 , β2 , γ1 , γ2 ∈ C machen, der äquivalent ist zu

x(1 − γ1 x)(1 − γ2 x) = β1 (1 − γ2 x) + β2 (1 − γ1 x) (1 − x − x2 ).

30
Erzeugende Funktionen 175

1 Vergleich der konstanten Koeffizienten liefert β2 = −β1 , nach Division mit x


2 also
3 (1 − γ1 x)(1 − γ2 x) = β1 (γ1 − γ2 )(1 − x − x2 ),
1
4 also β1 = γ1 −γ2
, γ1 + γ2 = 1 und γ1 γ2 = −1. Die γi müssen also Nullstellen
2
5 des Polynoms x − x − 1 sein, also etwa
√ √
1+ 5 1− 5 1 −1
6 γ1 = , γ2 = , β1 = √ und β2 = √ .
2 2 5 5
1
7 Was haben wir durch die Partialbruchzerlegung gewonnen? Wir können 1−γ ix
P∞
8 durch die geometrische Reihe n=0 (γi x)n ausdrücken und erhalten
∞ ∞ √ !n √ !n !
X X 1 1 + 5 1 − 5
β1 γ1n + β2 γ2n xn = xn .

9 f= √ −
n=0 n=0
5 2 2

10 Durch Koeffizientenvergleich erhalten wir nun die gewünschte Formel für die
11 Fibonacci-Zahlen:
√ !n √ !n !
1 1+ 5 1− 5
12 an = √ − . (22.1)
5 2 2

13 Wir haben unser Ziel erreicht, müssen allerdings unsere Rechnungen nun
14 (nachträglich) auf solide Füße stellen.
15 Dies tun wir, indem wir Potenzreihen nicht als (konvergente) Reihen be-
16 trachten, sondern sie definieren als formale Potenzreihen, bei denen Konver-
17 genzbetrachtungen keine Rolle spielen. Dazu erinnern wir uns an unsere Defi-
18 nition von Polynomen (Definition 7.10) und modifizieren diese auf scheinbar
19 geringfügige Weise.
20 Definition 22.1. Es sei R ein kommutativer Ring.
21 (a) Eine formale Potenzreihe über R ist eine Abbildung f : N → R, n 7→ an
22 (d.h. ein R-wertige Folge). Die an heißen die Koeffizienten von f . Der
23 Unterschied zwischen einem Polynom und einer formalen Potenzreihe ist
24 also, dass bei einem Polynom nur endliche viele Koeffizienten ungleich 0
25 sein dürfen.
26 (b) Für zwei formale Potenzreihen f : N → R, n 7→ an und g: N → R, n 7→ bn
27 definieren wir
28 f + g: N → R, n 7→ an + bn
29 und
n
X X
30 f · g: N → R, n 7→ aj bn−j = aj · bk .
j=0 j,k∈N
mit j+k=n

31 (c) Für eine formale Potenzreihe benutzen wir die Schreibweise


176 Erzeugende Funktionen

X
1 f= an xn ,
n=0

2 wobei man statt x bisweilen andere Variablennamen verwendet. Mit die-


3 ser Schreibweise erkennen wir das oben definierte Produkt als das übliche
4 Cauchy-Produkt von Potenzreihen.
5 (d) Die Menge aller formalen Potenzreihen über R heißt der formale Po-
6 tenzreihenring über R und wird mit R[[x]] bezeichnet. Es gilt also
7 R[x] ⊆ R[[x]].
8 Der formale Potenzreihenring ist tatsächlich ein kommutativer Ring, wobei
9 sich der Beweis von Satz 7.11(a) wörtlich überträgt. Das Betrachten von
10 formalen Potenzreihen hat gegenüber dem Betrachten von Potenzreihen in
11 der Analysis einige Vorteile:
12 • Man braucht sich nicht um Konvergenz zu kümmern.
13 • Die Definition funktioniert über beliebigen Ringen R, auch über solchen,
14 in denen überhaupt kein Konvergenzbegriff existiert.
15 • Die Aussage, dass zwei Potenzreihen genau dann übereinstimmen, wenn
16 alle ihre Koeffizienten übereinstimmen ( Koeffizientenvergleich“), ergibt

17 sich unmittelbar aus der Definition.
18 Es gibt jedoch, verglichen mit Polynomen und Potenzreihen, auch Ein-
19 schränkungen:
20 • Man kann formale Potenzreihen nicht auswerten, d.h. man kann keine
21 Werte einsetzen. Deshalb kann man sie auch nicht als Funktionen R → R
22 interpretieren.
23 • Formale Potenzreihen haben keinen Grad. Allerdings bildet das minima-
24 le n mit an 6= 0 in mancher Hinsicht einen Ersatz.
25 Im Polynomring R[x] sind die einzigen invertierbaren Element die kon-
26 stanten Polynome a ∈ R, bei denen a als Element von R invertierbar ist.
27 Im formalen Potenzreihenring verhält sich dies ganz anders, wie der folgende
28 Satz zeigt.
P∞
29 Satz 22.2. Eine formale Potenzreihe f = n=0 an xn über einem kommu-
30 tativen Ring R ist genau dann invertierbar (als Element von R[[x]]), falls a0
31 (als Element von R) invertierbar ist.
32 Beweis. Zunächst sei f invertierbar, es gibt also eine formale Potenzreihe
33 g ∈ R[[x]] mit f g = 1. Dann muss das Produkt von a0 und dem konstanten
34 Koeffizienten von g geich 1 sein, also ist a0 invertierbar.
35 Nun setzen wir umgekehrt voraus, dass a0 invertierbar ist, also gibt es
36 b0 ∈ R mit a0 b0 = 1. Wir definieren rekursiv eine Folge (bn ) durch
n
X
37 bn := −b0 · aj bn−j für n ≥ 1.
j=1
Erzeugende Funktionen 177
Pn P∞
1 Es folgt j=0 aj bn−j = 0, für die formale Potenzreihe g = n=0 bn xn ergibt
2 sich also f · g = 1 direkt aus der Definition des Produkts. t
u
3
P∞ n22.3. Das Polynom 1 − x hat in R[[x]] die geometrische Reihe
Beispiel
4
n=0 x als Inverse. Da das inverse Element eines Ringelements r gewöhnlich
5 als r−1 oder 1r schreibt, ist die Gleichung

1 X
6 = xn (22.2)
1 − x n=0

7 korrekt. Für Ringelemente β und γ ∈ R gilt weiter



β X
8 = βγ n xn . (22.3)
1 − γx n=0

9 /
10 Nun können wir unsere RechnungenP∞ zu den Fibonacci-Zahlen vollständig
11 rechtfertigen: Die Potenzreihe f = n=0 an xn (mit an die Fibonacci-Zahlen)
12 ist eine formale Potenzreihe in C[[x]], und für diese haben wir die Gleichung
13 f = x + (x + x2 )f hergeleitet. Da 1 − x − x2 in C[[x]] invertierbar ist, folgt
x
14 f = 1−x−x 2 . Auch die Rechungen zur Partialbruchzerlegung spielen sich

15 komplett im formalen Potenzreihenring ab, und die Formel (22.1) für die an
16 ergibt sich aus (22.3).
17 In R[[x]] gibt es auch eine ganze Menge Elemente mit Quadratwurzeln.
P∞
18 Man kann beispielsweise ähnlich wie in Satz 22.2 zeigen, dass f = n=0 an xn
19 in R[[x]] eine Quadratwurzel hat, falls a0 6= 0 in R eine Quadratwurzel hat
20 und außerdem 2 in R invertierbar ist. Inverse bzw. Quadratwurzeln werden
21 hierbei urch rekursive Formeln gegeben. Aus dem folgenden Satz werden wir
22 dies für einige formale Potenzreihen explizit machen.
23 Satz 22.4. Es seien a, b ∈ R Elemente eines kommutativen Rings, der Q
24 enthält. Mit
∞  
X a k
25 Fa := x ∈ R[[x]]
k
k=0

26 gilt dann
27 Fa · Fb = Fa+b .
28 Insbesondere gelten

29 Fa−1 = F−a und Fan = Fna für n ∈ N.

30 Man nennt Fa eine Binomialreihe.


31 Beweis. Die erste Gleichung ist eine direkte Folgerung aus der Vandermon-
32 deschen Identität (Satz 21.4(j)). Die zweite folgt wegen F0 = 1, und die dritte
33 per Induktion. t
u
178 Erzeugende Funktionen

1 Beispiel 22.5. Für und a = 1 gilt Fa = 1 + x, also


∞   ∞
1 X −1 k X
2 = x = (−1)k xk ,
1+x k Satz 21.4(g)
k=0 k=0

2
3 woraus (22.2) folgt. Weiter gilt F1/2 = F1 , was man salopp als
∞ 


X 1/2
4 1+x= xk
k
k=0

5 schreiben kann. (Die Schreibweise ist deshalb salopp, weil die Quadratwurzel
6 nicht eindeutig definiert ist.) /
7 Als eine interessante Anwendung von erzeugenden Funktionen und des obi-
8 gen Satzes werden wir nun die sogenannten Catalan-Zahlen behandeln. Wir
9 werden zwei Zählprobleme anschauen und jeweils aus Rekursionsgleichungen
10 mit Hilfe von erzeugenden Funktionen Ausdrücke für die gesuchten Zahlen
11 herleiten.
12 Als erstes fragen wir, wieviele Möglichkeiten es gibt, ein regelmäßiges n-
13 Eck (oder allgemeiner ein konvexes n-Eck) durch Verbindungslinien zwischen
14 einigen der Eckpunkte in Dreiecke aufzuteilen. Eine solche Aufteilung in
15 Dreiecke nennt man eine Triangulation. Triangulationen spielen in der To-
16 pologie eine wichtige Rolle, weil sie helfen können, Oberflächen und andere
17 geometrische Objekte zu klassifizieren. Für Vierecke (n = 4) gibt es zwei
18 Möglichkeiten:

19

20 Für n = 5 sieht man, dass es genau fünf Möglichkeiten gibt:

21

22 Alle fünf Triangulierungen gehen durch Symmetrie (genauer: Drehungen)


23 auseinander hervor, und ebenso verhält es sich für n = 4. Komplizierter
24 ist der Fall n = 6. Hier kommt man auf drei wesentlich verschiedene Trian-
25 gulierungen:
Erzeugende Funktionen 179

  ↔ 

1
6 6 2

2 Die ersten beiden Triangulierungen führen durch Anwendung von Drehungen


3 und Spiegelungen zu jeweils fünf weiteren, und die dritte zu einer. Insgesamt
4 erhalten wir so 14 verschiedene Triangulierungen. Durch angestrengtes Nach-
5 denken findet man, dass es keine weiteren gibt. Beginnen wir mit der Anzahl
6 der Triangulierungen für n = 3, also mit 1, so erhalten wir die Zahlenfolge

7 1, 2, 5, 14, . . .

8 Das zweite Zählproblem, das in keinem offensichtlichen Zusammenhang


9 mit dem ersten steht, fragt, wieviele Möglichkeiten es gibt, ein Produkt
10 A1 · · · An von n nicht kommutierenden quadratischen Matrizen auszurech-
11 nen, indem man nacheinander Multiplikationen von jeweils zwei Matrizen
12 ausführt. Diese Möglichkeiten entsprechen Klammerungen des Produkts. Für
13 n = 3 gibt es beispielsweise zwei Möglichkeiten K3,1 und K3,2 :

14 A1 (A2 A3 ) und (A1 A2 )A3 .


| {z } | {z }
K3,1 K3,2

Für n = 4 erhalten wir genau fünf Klammerungen:

A1 (A2 (A3 A4 )), A1 ((A2 A3 )A4 ), (A1 A2 )(A3 A4 ),


(A1 (A2 A3 ))A4 und ((A1 A2 )A3 )A4 .

15 Bei der dritten Klammerung hat man die Möglichkeiten, zuerst A1 A2 und
16 dann A3 A4 auszurechnen oder umgekehrt. Wir lassen jedoch die Reihenfolge
17 der Berechnungen außer Acht, betrachten also tatsächlich nur die Klamme-
18 rung. Wer in der Auflistung der Klammerungen für n = 4 eine Systematik
19 entdeckt hat, kann nun in der selben Weise fortfahren mit dem Fall n = 5,
20 bei dem die Sequenz der Klammerungen beginnt mit

21 A1 (A2 (A3 (A4 A5 ))), A1 (A2 ((A3 A4 )A5 )), A1 ((A2 A3 )(A4 A5 )) . . .

22 Am Ende erhält man 14 Klammerungen. Da es für n = 2 genau eine Klam-


23 merung gibt, erhalten wir die Zahlenfolge

24 1, 2, 5, 14, . . .
180 Erzeugende Funktionen

1 Wir beobachten Übereinstimmung für beide Zählprobleme, und solche Über-


2 einstimmungen sind selten Zufall!
Um der Sache auf den Grund zu gehen, erarbeiten wir nun eine Rekur-
sionsformel für die Anzahl an der Möglichkeiten, ein Produkt A1 · · · An zu
klammern. Dazu teilen wir eine Klammerung in zwei Teilprodukte auf, im
Beispiel n = 4 also

A1 (A2 (A3 A4 )), A1 ((A2 A3 )A4 ), (A1 A2 ) (A3 A4 ),


|{z} | {z } |{z} | {z } | {z } | {z }
K1,1 K3,1 K1,1 K3,2 K2,1 K2,1
j=1 j=1 j=2

(A1 (A2 A3 )) A4 und ((A1 A2 )A3 ) A4 .


| {z } |{z} | {z } |{z}
K3,1 K1,1 K3,2 K1,1
j=3 j=3

3 Bei jeder Klammerung bezeichnet die darunterstehende Zahl j die Anzahl der
4 Matrizen, die zum linken Teilprodukt gehören. Ist M die Menge aller Kam-
5 merungen des Produkts A1 · · · An , so erhalten wir eine disjunkte Zerlegung
. .
6 M = M1 ∪ · · · ∪ Mn−1 ,

7 wobei Mj die Menge aller Klammerungen ist, bei der das linke Teilprodukt j
8 Matrizen enthält. Da linkes und rechtes Teilprodukt beliebig geklammert sein
9 können, ergibt sich mit Satz 21.1(c) |Mj | = aj · an−j , wobei wir (wie oben
10 eingeführt) an := |M | schreiben. Dies ergibt mit Satz 21.1(b) die gewünschte
11 Rekursionsformel
Xn
12 an = aj an−j (n ≥ 2), (22.4)
j=0

13 wobei wir a0 := 0 gesetzt haben. Die Folge der an ist durch (22.4) und a0 = 0,
14 a1 = 1 eindeutig bestimmt.
15 Bevor wir eine explizite Formel für die an herleiten, wollen wir uns ver-
16 gewissern, dass unsere beiden Zählprobleme wirklich dieselbe Lösung haben.
17 Dies bedeutet, dass an die Anzahl der Triangulierungen eines (n + 1)-Ecks
18 sein sollte. Wenn wir bn für die Anzahl der Triangulierungen eines (n + 1)-
19 Ecks schreiben und b0 := 0, b1 := 1 setzen, so ist die Rekursionsformel (22.4)
20 für die bn nachzuweisen.
21 Wir nummerieren die Ecken unseres (n + 1)-Ecks mit 1, 2, . . . , n + 1. Bei
22 jeder Triangulierung ist die Kante zwischen den Punkten n und n + 1 Be-
23 standteil von genau einem Dreieck. Die dritte Ecke dieses Dreiecks sei die
24 Ecke j, also j ∈ {1, . . . , n − 1}. Indem wir die Trianguliereungen nach dem
25 Wert von j sortieren, erhalten wir eine disjunkte Zerlegung der Menge aller
26 Triangulierungen. Für n = 6 sieht diese wie folgt aus:
Erzeugende Funktionen 181

1 1 1
2 2 2
7 7 ? 7
?
? 3 3 3
?
?
6 6 6
4 4 4
5 5 5
j=1 j=2 j=3
1

1 1
2 2
7 7
?
3 ? 3

6 ? 6
4 4
5 5
j=4 j=5
3

4 Die Fragezeichen deuten dabei an, dass in den m-Ecken ober- und unter-
5 halb des gewählten Dreiecks beliebige Triangulationen vorgenommen wer-
6 den können. Genauer haben wir oberhalb ein (j + 1)-Eck und unterhalb ein
7 (n − j + 1)-Eck, wobei es für j = 1 bzw. j = n − 1 kein m-Eck ober- bzw.
8 unterhalb gibt. Für die Anzahl bn der Triangulationen des (n+1)-Ecks ergibt
9 sich damit die Formel
n−2
X n
X
10 bn = bn−1 + bj bn−j + bn−1 = bj bn−j (n ≥ 2),
j=2 j=0

11 wobei sich die letzte Gleichung aufgrund der Konventionen b0 = 0 und b1 =


12 1 ergibt. Da die Folge der an dieselbe Rekursionsgleichung und dieselben
13 Anfangswerte hat, folgt in der Tat an = bn für alle n.
14 Nun wollen wir eine Formel für die Zahlen an = bn herleiten, und dazu
15 benutzen wir die erzeugende Funktion

X
16 f := an xn ∈ C[[x]].
n=0

17 Aus (22.4) und a0 = 0, a1 = 1 erhalten wir


   

X Xn ∞
X n
X
18 f =x+  aj an−j  xn = x +  aj an−j  xn = x + f 2 ,
n=2 j=0 n=0 j=0
182 Erzeugende Funktionen

1 also f 2 − f + x = 0 und durch Auflösen nach f



1 ± 1 − 4x
2 f= .
2
3 Die Existenz und Bedeuting der Quadratwurzel wird hierbei durch Bei-
4 spiel 22.5 gegeben, also
∞ 


X 1/2
5 1 − 4x = (−4)n xn ∈ C[[x]].
n=0
n

6 Der konstante Koeffizient hiervon ist 1. Da f den konstanten Koeffizient 0


7 hat, muss von den obigen Lösungen für f diejenige mit −“ die richtige sein.

8 Wir erhalten die Formel
 
−1 1/2
9 an = (−4)n (n ≥ 1).
2 n

Diese Formel lässt sich vereinfachen, und das geht am besten, wenn man die
Folge der an verschiebt, indem man cn := an+1 setzt. Für n ≥ 0 gilt
Qn
−(−4)n+1 i=0 (1/2 − i)
 
−1 1/2
cn = (−4)n+1 = =
2 n+1 2(n + 1)!
Qn Qn Qn Qn
−2n+1 i=0 (2i − 1) 2n i=1 (2i − 1) (2i) i=1 (2i − 1)
= = i=1
2(n + 1)! (n + 1)! n!(n + 1)!
 
(2n)! 1 2n
= 2
= .
(n + 1)(n!) n+1 n

10 Die Zahl cn heißt die n-te Catalan-Zahl. Die Folge der Catalan-Zahlen
11 beginnt mit

12 c0 = 1, c1 = 1, c2 = 2, c3 = 5, c4 = 14, c5 = 42, . . .

13 Wir fassen zusammen:


14 Satz 22.6. Für n ≥ 1 gibt die n-te Catalan-Zahl
 
1 2n
15 cn = ∈N
n+1 n

16 an, auf wieviele Arten man ein Produkt von n + 1 nicht kommutierenden
17 Matrizen klammern kann, und auf wieviele Arten man ein regelmäßiges (n +
18 2)-Eck triangulieren kann.
19 Die zwei Anwendungsbeispiele, anhand derer wir die Catalan-Zahlen ein-
20 geführt haben, reichen nicht aus, um deren Wichtigkeit erahnen zu lassen.
21 Tatsächlich gehören sie zu den Stars“ der Kombinatorik, wie man in den

22 Lehrbüchern von Stanley (R.P. Stanley, Enumerative Combinatorics, Band 1
Erzeugende Funktionen 183

1 und 2, Cambridge University Press), in denen über 60 Anwendungen gegeben


2 werden, nachlesen kann.
1 Lineare Algebra: Euklidische und
2 unitäre Räume

3 Bis jetzt haben wir die gesamte Theorie über beliebigen Körpern entwickelt.
4 Dabei hat jeglicher Begriff von Abstand“ gefehlt. Die Einführung eines

5 Abstandsbegriffs ist über allgemeinen Körpern auch nicht (in geometrisch
6 sinnvoller Weise) möglich. Nun spezialisieren wir den Grundkörper zu R
7 oder C und führen das Skalarprodukt ein. Mit diesem werden dann Längen,
8 Abstände und auch Winkel definiert. Schließlich wenden wir uns nochmal der
9 Diagonalisierbarkeit von Matrizen zu.

10 23 Skalarprodukte
x1
!
11
n
Auf R ist das Standard-Skalarprodukt zweier Vektoren v = .. und
.
xn
y1 !
12 w= .. ∈ Rn durch
.
yn

n
X
13 hv, wi := xi yi (= v T · w) ∈ R
i=1

14 definiert. Achtung: Die Notation ist anfällig für Verwechselungen mit dem
15 Erzeugnis!
16 Es gelten die folgenden Regeln:
17 (a) Für alle u, v, w ∈ Rn und a ∈ R gelten:

18 hu, v + a · wi = hu, vi + a · hu, wi


186 Skalarprodukte

1 und
2 hu + a · v, wi = hu, wi + a · hv, wi.
3 (Man sagt auch, dass das Skalarprodukt bilinear ist.)
4 (b) Für v, w ∈ Rn gilt
5 hv, wi = hw, vi.
6 (Man sagt auch, dass das Skalarprodukt symmetrisch ist.)
7 (c) Für v ∈ Rn mit v 6= 0 gilt
8 hv, vi > 0.
9 (Man sagt auch, dass das Skalarprodukt positiv definit ist.)
10 Wir nehmen dies zum Anlass für folgende Definition:
11 Definition 23.1. Es sei V ein reeller Vektorraum (d.h. ein Vektorraum über
12 R). Eine Abbildung

13 V × V → R, (v, w) 7→ hv, wi

14 heißt eine symmetrische Bilinearform, falls sie symmetrisch und biline-


15 ar ist. Eine symmetrische Bilinearform heißt ein Skalarprodukt, wenn sie
16 zusätzlich positiv definit ist.
17 Ein reeller Vektorraum zusammen mit einem Skalarprodukt heißt ein eu-
18 klidischer Raum.
19 Beispiel 23.2. (1) V = Rn ist zusammen mit dem Standardskalarprodukt ein
20 euklidischer Raum.
21 (2) Für reelle Zahlen a < b sei V := C([a, b], R) der Vektorraum aller stetiger
22 Funktionen [a, b] → R auf dem abgeschlossenen Intervall [a, b]. Durch
Z b
23 hf, gi := f (x)g(x)dx
a

24 wird ein Skalarprodukt auf V definiert.


25 (3) Auf V = R2 wird für v = ( xx12 ) und w = ( yy12 ) ein Skalarprodukt erklärt
26 durch
27 hv, wi = 5x1 y1 + 3x1 y2 + 3x2 y1 + 2x2 y2 .
28 Die Bilinearität und Symmetrie sind klar, und die positive Definitheit
29 geht aus

30 hv, vi = 5x21 + 6x1 x2 + 2x22 = (2x1 + x2 )2 + (x1 + x2 )2

31 hervor.
32 (4) Ebenso wie oben kann man

33 hv, vi = x1 y1 − x2 y2
Skalarprodukte 187

1 definieren und erhält ein Beispiel für eine nicht positiv definite, symme-
2 trische Bilinearform. /
3

4 Zu einer symmetrischen Bilinearform auf Rn erhält man durch Einsetzen


5 der Standardbasisvektoren Zahlen ai,j := hei , ej i, die man zu einer Matrix
6 A = (ai,j ) ∈ Rn×n zusammenfassen kann. A ist symmetrisch und wird die
7 Darstellungsmatrix der symmetrischen Bilinearform ! genannt. Die!Biline-
x1 y1
8 arform wird durch A codiert,“ denn für v = ..
und w = .. ∈ Rn
” . .
xn yn
9 gilt
Xn n
X n
X
10 hv, wi = h xi ei , yj ej i = xi yj ai,j = v T · A · w.
i=1 j=1 i,j=1

11 Die Darstellungsmatrix des Standard-Skalarprodukts ist die Einheitsmatrix.


12 Allgemeiner kann man auch Darstellungsmatrizen von symmetrischen Bili-
13 nearformen auf endlich-dimensionalen Vektorräumen betrachten, indem man
14 eine Basis wählt und die Basisvektoren in die Form einsetzt. Nun kann man
15 auch überlegen, wie sich ein Basiswechsel auf die Darstellungsmatrix aus-
16 wirkt. Wir werden dieses Thema nicht weiter verfolgen, sondern uns nun mit
17 komplexen Vektorräumen beschäftigen.
18 In einem komplexen Vektorraum V (d.h. einem Vektorraum über C) kann
19 es kein Skalarprodukt im Sinne von Definition 23.1 geben (es sei denn, V =
20 {0}). Denn für 0 6= v ∈ V müsste hv, vi > 0 gelten, also

21 hiv, ivi = i2 hv, vi = −hv, vi < 0.

22 (Darüber hinaus wäre beispielsweise h(i+1)·v, (i+1)·vi = 2ihv, vi nicht einmal


23 reell.) Man behilft sich, indem man die komplexe Konjugation benutzt, die wir
24 nun in Erinnerung rufen: Für z = a + bi ∈ C ist das komplex konjugierte

25 z := a − bi ∈ C.

26 Man rechnet nach, dass für z, w ∈ C die Regeln

27 z+w =z+w und z · w = z · w

28 gelten. Wir haben es also mit einem Ring-Homomorphismus zu tun. Außer-


29 dem gilt
30 z · z = a2 + b2 ∈ R≥0 ,

31 was die Definition des Betrags | z |:= z · z möglich macht. Nur die Null hat
32 den Betrag Null. Es ist klar, dass z genau dann reell ist, wenn z = z.
33 Das Standard-Skalarprodukt auf Rn wird nun ersetzt durch das Produkt
n
X
34 hv, wi := xi yi (= v T · w) ∈ C (23.1)
i=1
188 Skalarprodukte
x1
! y1 !
1 für v = .. und w = .. ∈ Cn ersetzt. Dies ist ein komplexes Skalar-
. .
xn yn
2 produkt gemäß der folgenden Definition.
3 Definition 23.3. Es sei V ein komplexer Vektorraum. Eine Abbildung

4 V × V → C, (v, w) 7→ hv, wi

5 heißt
6 (a) sesquilinear, falls für u, v, w ∈ V und a ∈ C die Regeln

7 hu, v + a · wi = hu, vi + a · hu, wi

8 und
9 hu + a · v, wi = hu, wi + a · hv, wi
10 gelten;
11 (b) hermitesch, falls für v, w ∈ V die Regel

12 hv, wi = hw, vi

13 gilt;
14 (c) positiv definit, falls für v ∈ V \ {0}

15 hv, vi ∈ R und hv, vi > 0

16 gilt.
17 Man spricht dann auch von einer Sesquilinearform bzw. einer hermite-
18 schen Form. Eine positiv definite, hermitesche Sesquilinearform heißt ein
19 komplexes Skalarprodukt.
20 Ein komplexer Vektorraum zusammen mit einem komplexen Skalarprodukt
21 heißt ein unitärer Raum.
22 Anmerkung. Man drückt die Bedingung der Sesquilinearität auch aus, in-
23 dem man sagt, dass die Form linear im zweiten und semilinear im ersten
24 Argument ist. Einige Autoren treffen die umgekehrte Konvention, indem sie
25 Linearität im ersten und Semilinearität im zweiten Argument fordern. /
26 Beispiel 23.4. (1) V = Cn mit dem Standardprodukt (23.1) ist ein unitärer
27 Raum.
28 (2) Für reelle Zahlen a < b sei V := C([a, b], C) der Vektorraum aller stetiger
29 Funktionen [a, b] → C auf dem abgeschlossenen Intervall [a, b] ⊆ R. Durch
Z b
30 hf, gi := f (x)g(x)dx
a

31 wird ein komplexes Skalarprodukt auf V definiert. /


Skalarprodukte 189

1 Zu einer hermiteschen Sesquilinearform auf einem endlich-dimensionalen


2 Vektorraum mit einer Basis {v1 , . . . , vn } erhält man eine Matrix A = (ai,j ) ∈
3 Cn×n durch ai,j := hvi , vj i. Es folgt ai,j = aj,i für alle i, j ∈ {1, . . . , n}, also

4 AT = A.

5 Matrizen mit dieser Eigenschaft nennt man hermitesch. Die Darstellungs-


6 matrizen von hermiteschen Sesquilinearformen sind also hermitesche Matri-
7 zen.
8 Von nun an sei V ein euklidischer oder unitärer Raum. Wir kommen nun
9 zum Abstands- und Längenbegriff.
10 Definition 23.5. Für v ∈ V heißt
p
11 || v ||:= hv, vi ∈ R≥0

12 die Länge (auch: Norm) von v.


13 Für v, w ∈ V heißt

14 d(v, w) := ||v − w|| ∈ R≥0

15 der Abstand von v und w.


16 Proposition 23.6 (Schwarzsche Ungleichung). Für v, w ∈ V gilt

17 |hv, wi| ≤ ||v|| · ||w||.

18 Hierbei gilt Gleichheit genau dann, wenn v und w linear abhängig sind.
19 Beweis. Wir können w 6= 0 annehmen, da für w = 0 die Ungleichung und die
20 Zusatzbehauptung erfüllt sind.
21 Für a ∈ R oder (im Falle eines komplexen Vektorraums) a ∈ C gilt

22 0 ≤ ||v − aw||2 = hv − aw, v − awi = ||v||2 − ahv, wi − ahw, vi + aa||w||2 .


hw,vi
Speziell für a = ||w||2 ergibt dies

hw, vihv, wi hw, vihw, vi hw, vihw, vi


0 ≤ ||v||2 − − +
||w||2 ||w||2 ||w||2
1 
2

= ||v||2 ||w||2 − |hv, wi| .
||w||2

23 Dies liefert die Ungleichung und zeigt, dass genau dann Gleichheit gilt, wenn
hw,vi
24 v = ||w|| 2 · w. Die lineare Abhängigkeit ist also notwendig für die Gleichheit.

25 Ist umgekehrt v = aw mit a ∈ R bzw. a ∈ C, so folgt

hw, vi a||w||2
26 = = a,
||w||2 ||w||2
190 Skalarprodukte

1 also Gleichheit. t
u
2 Nun können wir die wichtigsten Eigenschaften der Länge und des Abstands
3 beweisen.
4 Satz 23.7. Für alle u, v, w ∈ V und a ∈ R bzw. a ∈ C gelten:
5 (a) Falls v 6= 0, so folgt ||v|| > 0.
6 (b) ||a · v|| = |a| · ||v||.
7 (c) ||v + w|| ≤ ||v|| + ||w|| (Dreiecksungleichung).
8 (d) Falls v 6= w, so folgt d(v, w) > 0.
9 (e) d(v, w) = d(w, v).
10 (f ) d(u, w) ≤ d(u, v) + d(v, w) (Dreiecksungleichung).
Beweis. Die Teile (a), (b), (d) und (e) sind unmittelbar klar. Für den Nach-
weis von (c) rechnen wir:

||v + w||2 = ||v||2 + hv, wi + hw, vi + ||w||2 = ||v||2 + 2 Re (hv, wi) + ||w||2
≤ ||v||2 + 2 |hv, wi| + ||w||2 ≤ ||v||2 + 2||v|| · ||w|| + ||w||2
Proposition 23.6
2
= (||v|| + ||w||) ,

11 wobei Re(z) := a für z = a + bi ∈ C den Realteil bezeichnet. Der Nachweis


12 von (f) wird durch

13 d(u, w) = ||u − w|| = ||u − v + v − w|| ≤ ||u − v|| + ||v − w|| = d(u, v) + d(v, w)
(c)

14 erbracht. t
u
15 Wir nehmen diesen Satz zum Anlass, ein paar Begriffe zu erwähnen, die
16 in dieser Vorlesung nicht weiter vorkommen werden.
17 Anmerkung 23.8. (a) Ein normierter Vektorraum ist ein reeller oder
18 komplexer Vektorraum V mit einer Abbildung

19 V → R≥0 , v 7→ ||v||,

20 die (a)–(c) aus Satz 23.7 erfüllt.


21 (b) Ein metrischer Raum ist eine Menge V mit einer Abbildung

22 d: V × V → R≥0 ,

23 die (d)–(f) aus Satz 23.7 erfüllt. Die Abbildung d heißt dann eine Metrik
24 auf V .
25 (c) Sobald man einen Abstandsbegriff hat, kann man von konvergenten Fol-
26 gen und von Cauchy-Folgen sprechen. Vollständigkeit bedeutet, dass jede
27 Cauchy-Folge konvergent ist. Ein Banachraum ist ein vollständiger nor-
28 mierter Raum. Ein Hilbertraum ist ein vollständiger euklidischer oder
29 unitärer Raum. /
Skalarprodukte 191

1 Wir erhalten eine hierarchische Anordnung unserer Begriffe: Jeder euklidi-


2 sche oder unitäre Raum ist normiert, und jeder normierte Raum ist metrisch.
3 Jeder Hilbertraum ist ein Banachraum.
4 Beispiel 23.9. (1) Beispiele für Normen, die nicht von einem Skalarprodukt
5 kommen, sind die Manhattan-Norm auf Rn , definiert durch
n
X
6 ||v|| = |vi |
i=1

7 (wobei vi die Komponenten von v ∈ Rn sind) und die Maximum-Norm


8 auf C([a, b], C), definiert durch

9 ||f || := max {|f (x)| | x ∈ R, a ≤ x ≤ b} .

10 (2) Ein Beispiel für eine Metrik, die nicht von einer Norm kommt, ist die
11 Hamming-Metrik auf Rn (oder K n mit einem Körper K), definiert durch

12 d(v, w) := |{i ∈ {1, . . . , n} | vi 6= wi }| ,

13 wobei vi und wi die Komponenten von v, w ∈ Rn sind.


14 (3) Es ist nicht schwer zu zeigen, dass jeder endlich-dimensionale euklidi-
15 sche oder unitäre Raum ein Hilbertraum ist. Ebenso ist jeder endlich-
16 dimensionale normierte Raum ein Banachraum.
17 (4) Der euklidische Raum C([a, b], R) (siehe Beispiel 23.2(2)) ist nicht vollständig,
18 also kein Hilbertraum.
19 (5) Man kann zeigen, dass C([a, b], R) und C([a, b], C) zusammen mit der
20 Maximum-Norm (siehe (1)) Banachräume sind. Der durch die Maximum-
21 Norm gegebene Konvergenzbegriff ist die gleichmäßige Konvergenz.
22 (6) Das wohl einfachste Beispiel für einen unendlich-dimensionalen Hilber-
23 traum ist derPRaum `2 aller komplexer Folgen a = (an ) mit der Eigen-

24 schaft, dass n=1 |an |2 konvergiert. Das Skalarprodukt wird durch

X
25 ha, bi = an bn
n=1

26 definiert. Der Nachweis der Vollständigkeit von `2 ist nicht ganz einfach.
27 /
28

29 Die Schwarzsche Ungleichung (Proposition 23.6) ermöglicht es, für Vek-


30 toren v, w ∈ V positiver Länge in einem euklidischen Raum den Winkel
31 zwischen v und w als die eindeutig bestimmte Zahl α in dem abgeschlossenen
32 Intervall [0, π] mit
hv, wi
33 cos(α) =
||v|| · ||w||
192 Skalarprodukte

1 zu definieren. Diese Definition erscheint zunächst willkürlich, sie liefert aber


2 genau das Erwartete.
3 Beispiel 23.10. Für v = ( 10 ) und w = ( 11 ) ∈ R2 ist

hv, wi 1
4 =√ ,
||v|| · ||w|| 2
5 also beträgt der Winkel π/4. /
6 In unitären Räumen lässt sich kein sinnvoller Winkelbegriff definieren,
7 man kann aber (ebenso wie in euklidischen Räumen) davon sprechen, dass
8 zwei Vektoren senkrecht aufeinander stehen. Dies ist Inhalt der folgenden
9 Definition.
10 Definition 23.11. Es sei V ein euklidischer oder unitärer Raum.
11 (a) Zwei Vektoren v, w ∈ V heißen orthogonal (gleichbedeutend: senk-
12 recht), falls
13 hv, wi = 0.
14 (b) Eine Menge S ⊆ V heißt ein Orthogonalsystem, falls je zwei Vektoren
15 v, w ∈ S mit v 6= w orthogonal sind.
16 (c) Ein Orthogonalsystem S ⊆ V heißt ein Orthonormalsystem, falls
17 zusätzlich alle Vektoren v ∈ S die Länge ||v|| = 1 haben.
18 (d) Ein Orthonormalsystem S ⊆ V heißt Orthonormalbasis, falls es
19 zusätzlich eine Basis ist.
20 (e) Zu einem Unterraum U ⊆ V heißt

21 U ⊥ := {v ∈ V | hv, ui = 0 für alle u ∈ U }

22 das orthogonale Komplement von U . Es ist klar, dass U ⊥ ein Unter-


23 raum von V ist.
24 Beispiel 23.12. (1) Die Standardbasis ist eine Orthonormalbasis von Rn bzw.
25 Cn mit dem Standard-Skalarprodukt.
26 (2) Die Vektoren
   
1 1
1   1  
27 v1 = √ 0 und v2 = √ 0
2 1 2 −1

28 bilden ein Orthonormalsystem im R3 .


29 (3) Im Raum C([0, 2π], C) der stetigen komplexen Funktionen auf den Inter-
30 vall [0, 2π] mit dem Skalarprodukt aus Beispiel 23.4 bilden die Funktionen
1
31 fn (t) = √ · eint (n ∈ Z)

32 ein Orthonormalsystem. Die Theorie der Fourierreihen basiert hierauf. /
Skalarprodukte 193

1 Satz 23.13. Jedes Orthogonalsystem S ⊆ V in einem euklidischen oder


2 unitären Raum, das nicht den Nullvektor enthält, ist linear unabhängig. Falls
3 |S| = dim(V ) < ∞, so ist S eine Basis.

4 Beweis. Seien v1 , . . . , vn ∈ S paarweise verschieden. Weiter sei

5 a1 v1 + · · · + an vn = 0

6 mit ai ∈ R bzw. ai ∈ C. Für alle j ∈ {1, . . . , n} folgt durch Bildung des


7 Skalaprodukts mit vj :
* n
+ n
X X
8 0 = hvj , 0i = vj , ai vi = ai hvj , vi i = aj hvj , vj i.
i=1 i=1

9 Wegen vj 6= 0 sind also sind alle aj = 0, und die lineare Unabhängigkeit ist
10 bewiesen.
11 Die zweite Aussage folgt mit Korollar 10.15(a). t
u
12 Orthonormalbasen haben einige günstige Eigenschaften. Ist beispielswei-
13 se S = {v1 , . . . , vn } eine Orthonormalbasis eines endlich-dimensionalen eu-
14 klidischen oder unitären Raums und v ∈ V , so sind die Skalarprodukte
15 hvi , vi genau die Koordinaten von v bezüglich der Basis S. Gilt nämlich
16 v = a1 v1 + · · · + an vn , so folgt
* n
+ n
X X
17 hvi , vi = vi , a j vj = aj hvi , vj i = ai hvi , vi i = ai .
j=1 j=1

18 Mit Orthonormalbasen lassen sich also Koeffizienten isolieren“. Es stellt



19 sich die Frage, ob jeder endlich-dimensionale euklidische oder unitäre Raum
20 eine Orthonormalbasis hat. Diese Frage werden wir konstruktiv durch das
21 Schmidtsche Orthogonalisierungsverfahren beantworten.
22 Algorithmus 23.14 (Schmidtsches Orthogonalisierungsverfahren).
23 Eingabe: Vektoren v1 , . . . , vk eines euklidischen oder unitären Raums V .
24 Ausgabe: Eine Orthonormalbasis {u1 , . . . , um } des von den vi erzeugten
25 Unterraums von V .

26 (1) Setze m := 0.
27 (2) Für i = 1, . . . , k führe Schritte (3) und (4) aus.
28 (3) Setze
Xm
29 wi := vi − huj , vi i · uj . (23.2)
j=1

30 (Im Fall m = 0 bedeutet dies wi := vi .)


31 (4) Falls wi 6= 0, setze m := m + 1 und
194 Skalarprodukte

1
1 um := · wi .
||wi ||

2 Satz 23.15. Algorithmus 23.14 liefert eine Orthonormalbasis von hv1 , . . . , vk i ⊆


3 V.
4 Beweis. Wir benutzen Induktion nach der Anzahl k der Erzeuger von V und
5 können k ≥ 1 voraussetzen. Nach Induktion gelten nach Durchlaufen der
6 Schleife für i = 1, . . . , k − 1:

7 hui , uj i = δi,j (1 ≤ i, j ≤ m) (23.3)

8 und
9 hv1 , . . . , vk−1 i = hu1 , . . . , um i, (23.4)
10 wobei m das aktuelle“ m nach k − 1 Schleifendurchläufen ist. Aus (23.2)

11 folgt für i ≤ m
m
X
12 hui , wk i = hui , vk i − huj , vk i · hui , uj i = hui , vk i − hui , vk i = 0.
(23.3)
j=1

13 Außerdem folgt aus (23.2)

14 hu1 , . . . , um , wk i = hu1 , . . . , um , vk i = hv1 , . . . , vk i.


(23.4)

15 Falls wk = 0, so folgt hv1 , . . . , vk i = hu1 , . . . , um i. Falls wk 6= 0, so


16 wird {u1 , . . . , um+1 } ein Orthonormalsystem und ein Erzeugendensystem von
17 hv1 , . . . , vk i, also nach Satz 23.13 eine Orthonormalbasis. t
u
18 Beispiel 23.16. Wir wollen Algorithmus 23.14 auf
     
D 3 1 1 E
19 V := 0 , 0 , 0 ⊆ R3
4 0 2

20 anwenden. Wir erhalten


   
3 3/5
1
21 w1 = v1 = 0
 und u1 = · w1 =  0  .
||w1 ||
4 4/5

22 Im zweiten Schritt erhalten wir


     
1 3/5 16
3 1
23 w2 = v2 − hu1 , v2 i · u1 = 0 − ·  0  = · 0 
5 25
0 4/5 −12

24 und
Skalarprodukte 195
 
4/5
1
1 u2 = · w2 =  0  .
||w2 ||
−3/5
Der dritte Schritt liefert

w3 = v3 − hu1 , v3 i · u1 − hu2 , v3 i · u2 =
       
1 3/5 4/5 0
0 − 11 2
·  0  + ·  0  = 0 .
5 5
2 4/5 −3/5 0

2 Also ist {u1 , u2 } eine Orthonormalbasis von V . /


3

4 Wenn man das Schmidtsche Orthogonalisierungsverfahren auf eine Basis


5 B = {v1 , . . . , vk } von V anwendet, bekommt man eine Orthonormalbasis
6 B 0 = {u1 , . . . , uk }. Es ist interessant, dass die Basiswechselmatrix SB,B 0 au-
7 tomatisch eine obere Dreiecksmatrix wird. Dies folgt aus (23.4).
8 Aus der Korrektheit von Algorithmus 23.14 folgt:
9 Korollar 23.17. Jeder endlich-dimensionale euklidische oder unitäre Raum
10 hat eine Orthonormalbasis.
11 Zwischen euklidischen bzw. unitären Räumen kann man strukturerhal-

12 tende“ Abbildungen studieren.
13 Definition 23.18. Es seien V und W zwei euklidische bzw. zwei unitäre
14 Räume. Eine lineare Abbildung ϕ: V → W heißt orthogonal bzw. unitär,
15 falls für alle u, v ∈ V gilt:

16 hϕ(u), ϕ(v)i = hu, vi.

17 Eine unitäre oder orthogonale Abbildung ϕ ist injektiv, denn aus ϕ(v) = 0
18 für v ∈ V folgt hv, vi = hϕ(v), ϕ(v)i = 0, also v = 0. Weiter gilt

19 ||ϕ(v)|| = ||v||

20 für alle v ∈ V und damit auch

21 d(ϕ(u), ϕ(v)) = d(u, v)

22 für u, v ∈ V , ϕ ist also abstandserhaltend“. Abbildungen zwischen metri-



23 schen Räumen mit dieser Eigenschaft nennt man auch Isometrien. Es ist
24 nicht schwer zu zeigen, dass jede lineare Isometrie zwischen euklidischen oder
25 unitären Räumen eine orthogonale bzw. unitäre Abbildung ist.
26 Beispiel 23.19. (1) Jede Drehung um den Nullpunkt definiert eine orthogo-
27 nale Abbildung R2 → R2 .
196 Skalarprodukte

1 (2) Auf dem Raum V = C([a, b], C) der stetigen Funktionen eines Intervalls
2 [a, b] in C wird durch ϕ: V → V, f 7→ fˆ mit fˆ(x) = f (a + b − x) eine
3 unitäre Abbildung gegeben. /
4 Was sind die orthogonalen bzw. unitären Abbildungen V → V für V = K n
5 mit K = R bzw. K = C? Ist ϕ eine solche, so muss ϕ jede Orthonormalbasis
6 wieder auf eine Orthonormalbasis abbilden. Ist A ∈ K n×n die Darstellungs-
7 matrix von ϕ bezüglich der Standardbasis (also ϕ = ϕA ), so folgt, dass die
8 Spalten von A eine Orthonormalbasis von V bilden. Dies kann man aus-
9 drücken durch die Bedingungen

10 AT · A = I n (für K = R) (23.5)

11 bzw.
T
12 A · A = In (für K = C), (23.6)
13 wobei A durch komplexe Konjugation aller Einträge aus A hervorgeht. (Die
14 zweite Bedingung umfasst eigentlich die erste, da A = A für K = R.) Ist
15 umgekehrt A ∈ K n×n eine Matrix, die (23.5) bzw. (23.6) erfüllt, so folgt für
16 u, v ∈ V
T
17 hϕA (u), ϕA (v)i = (Au)T · (Av) = uT A Av = hu, vi.
18 Dies bedeutet, dass genau die Matrizen mit (23.5) bzw. (23.6) orthogonale
19 bzw. unitäre Abbildungen V → V definieren. Wir nehmen dies zum Anlass
20 für die folgende Definition.
21 Definition 23.20. (a) Eine Matrix A ∈ Rn×n heißt orthogonal, falls
22 sie (23.5) erfüllt. Dies ist gleichbedeutend damit, dass die Spalten von
23 A eine Orthonormalbasis von Rn bilden, und wegen A · AT = In auch
24 damit, dass die Zeilen von A eine Orthonormalbasis von Rn bilden.
25 (b) Eine Matrix A ∈ Cn×n heißt unitär, falls sie (23.6) erfüllt. Dies ist
26 gleichbedeutend damit, dass die Spalten von A eine Orthonormalbasis von
T
27 Cn bilden, und wegen A · A = In auch damit, dass die Zeilen von A eine
n
28 Orthonormalbasis von C bilden.
29 (c) Die Untergruppe

On := A ∈ Rn×n | AT · A = In ⊆ GLn (R)



30

31 heißt die orthogonale Gruppe, und

32 SOn := On ∩ SLn (R)

33 heißt die spezielle orthogonale Gruppe.


34 (d) Die Untergruppe
n T
o
35 Un := A ∈ Cn×n | A · A = In ⊆ GLn (C)

36 heißt die unitäre Gruppe, und


Skalarprodukte 197

1 SUn := Un ∩ SLn (C)

2 heißt die spezielle unitäre Gruppe.


3 Besonders interessante orthogonale bzw. unitäre Abbildungen sind soge-
4 nannte Spiegelungen, die man folgendermaßen definieren kann. Ist e ∈ V ein
5 Vektor mit ||e|| = 1, so heißt

6 ϕe : V → V, v 7→ v − 2he, vi · e

7 die Spiegelung entlang e. Der folgende Satz sagt aus, dass die orthogonale
8 Gruppe On durch Spiegelungen erzeugt werden.
9 Satz 23.21. Es sei V ein euklidischer oder unitärer Raum.
10 (a) Jede Spiegelung ϕe (mit e ∈ V , ||e|| = 1) ist eine orthogonale bzw. unitäre
11 Abbildung.
12 (b) Ist V euklidisch und n = dim(V ) < ∞, so lässt sich jede orthogona-
13 le Abbildung ϕ: V → V als Komposition von höchstens n Spiegelungen
14 schreiben. Die orthogonale Gruppe wird also durch Spiegelungen erzeugt.
Beweis. (a) Es ist klar, dass ϕe linear ist. Für v, w ∈ V gilt
D E
hϕe (v), ϕe (w)i = v − 2he, vi · e, w − 2he, wi · e
= hv, wi − 2he, wihv, ei − 2he, vihe, wi + 4he, vihe, wi
= hv, wi,

15 also ist ϕe orthogonal bzw. unitär.


16 (b) Wir führen den Beweis per Induktion nach n. Im Fall ϕ = idV (der den
17 Induktionsanfang n = 0 einschließt) ist nichts zu zeigen. Wir setzen also
18 ϕ 6= idV voraus und wählen v ∈ V mit ϕ(v) 6= v. Mit
1
19 e := · (ϕ(v) − v)
||ϕ(v) − v||

folgt

hϕ(v) − v, vi
ϕe (v) = v − 2 · (ϕ(v) − v)
||ϕ(v) − v||2
hϕ(v), vi − ||v||2
=v−2 · (ϕ(v) − v)
||ϕ(v)||2 − 2hϕ(v), vi + ||v||2
= v + (ϕ(v) − v) = ϕ(v).

20 Nun setzen wir


21 ϕ0 := ϕ−1
e ◦ϕ

22 und bemerken, dass auch ϕ0 orthogonal ist. Es folgt ϕ0 (v) = v. Für u ∈


23 U := hvi⊥ folgt
198 Der Spektralsatz

1 hv, ϕ0 (u)i = hϕ0 (v), ϕ0 (u)i = hv, ui = 0,

2 also ϕ0 (u) ∈ U . Damit ist die Einschränkung ϕ0 |U eine orthogonale Abbil-


3 dung auf U . Wegen dim(U ) < n erhalten wir per Induktion die Existenz
4 von e1 , . . . , ek ∈ U mit k < n und ||ei || = 1, so dass

5 ϕ0 |U = ϕe1 ◦ · · · ◦ ϕek ,

wobei die ϕei hier Spiegelungen auf U sind. Wenn wir die ϕei als Spiege-
lungen von V auffassen, gilt ϕei (v) = v wegen ei ∈ U . Es sei nun w ∈ V .
Mit a := hv,wi
hv,vi gilt dann w − av ∈ U , also

ϕ0 (w) = ϕ0 (av) + ϕ0 (w − av) = av + (ϕe1 ◦ · · · ◦ ϕek )(w − av)


= (ϕe1 ◦ · · · ◦ ϕek )(w).

6 Also gilt ϕ0 = ϕe1 ◦ · · · ◦ ϕek und damit ϕ = ϕe ◦ ϕe1 ◦ · · · ◦ ϕek . t


u

7 24 Der Spektralsatz

8 In diesem Abschnitt steht V wieder für einen euklidischen oder unitären


9 Raum.
10 Definition 24.1. Sei ϕ: V → V eine lineare Abbildung. Eine lineare Abbil-
11 dung ψ: V → V heißt zu ϕ adjungiert, falls für alle v, w ∈ V gilt:

12 hv, ϕ(w)i = hψ(v), wi.

13 In diesem Fall schreiben wir auch ψ = ϕ∗ .


14 Es besteht Verwechselungsgefahr mit der dualen Abbildung! Das Zusam-
15 menfallen der Notationen ist Ausdruck eines Zusammenhangs zwischen dua-
16 ler und adjungierter Abbildung. Bevor wir Beispiele betrachten, wollen wir
17 uns überzeugen, dass die adjungierte Abbildung eindeutig bestimmt ist (wie
18 die Notation ϕ∗ ja schon andeutet).
19 Proposition 24.2. Sei ϕ: V → V linear.
20 (a) Falls ϕ eine adjungierte Abbildung hat, so ist diese eindeutig bestimmt.
21 (b) Falls ϕ eine adjungierte Abbildung ϕ∗ hat, so ist deren adjungierte Ab-
22 bildung ϕ, d.h.
23 ϕ∗∗ = ϕ.

24 Beweis. (a) Es seien ψ, ψ 0 : V → V zwei adjungierte Abbildungen von ϕ. Für


25 v, w ∈ V gilt dann

26 hψ(v) − ψ 0 (v), wi = hψ(v), wi − hψ 0 (v), wi = hv, ϕ(w)i − hv, ϕ(w)i = 0.


Der Spektralsatz 199

1 Setzt man speziell w = ψ(v) − ψ 0 (v) ein, so ergibt sich ψ(v) = ψ 0 (v), also
2 ψ = ψ0 .
3 (b) Für v, w ∈ V gilt

4 hv, ϕ∗ (w)i = hϕ∗ (w), vi = hw, ϕ(v)i = hϕ(v), wi,

5 also ist ϕ zu ϕ∗ adjungiert. t


u
6 Beispiel 24.3. (1) Es sei V = C([a, b], C) wie in Beispiel 23.4. Für ein fest
7 gewähltes h ∈ V betrachten wir ϕh : V → V, f 7→ h · f . Für f, g ∈ V gilt
Z b Z b
8 hf, ϕh (g)i = f (x)h(x)g(x)dx = f (x)h(x)g(x)dx = hhf, gi,
a a

9 also ϕ∗h = ϕh .
10 (2) Es sei V wie oben und x0 ∈ [a, b] fest gewählt. Wir betrachten ϕ: V →
11 V, f 7→ f (xo ), wobei f (x0 ) als konstante Funktion angesehen wird. Für
12 f, g ∈ V gilt
Z b Z b
13 hf, ϕ(g)i = f (x)g(x0 )dx = g(x0 ) f (x)dx
a a

14 Falls ϕ eine adjungierte Abbildung hätte, so würde mit h := ϕ∗ (f ) für


15 alle g ∈ V gelten:
Z b Z b
16 g(x0 ) f (x)dx = hh, gi = h(x)g(x)dx.
a a
Rb
17 Eine solche Funktion h gibt es aber nur, falls a f (x)dx = 0, was nicht
18 für alle f der Fall ist. Es folgt, dass ϕ keine adjungierte Abbildung hat. /
19 Die folgende Proposition klärt die Situation bei den Standard-Räumen Rn
20 und Cn .
21 Proposition 24.4. (a) Es seien V = Rn mit dem Standardskalarprodukt
22 und A ∈ Rn×n . Dann gilt
23 ϕ∗A = ϕAT .
24 (b) Es seien V = Cn mit dem Standardskalarprodukt und A ∈ Cn×n . Dann
25 gilt
26 ϕ∗A = ϕAT .
27 Beweis. Wir führen nur den (etwas schwereren) Nachweis von (b). Für v, w ∈
28 Cn gilt
T
T
29 hv, ϕA (w)i = v T Aw = (AT v)T w = (A v) w = hϕAT (v), wi.

30 Dies liefert die Behauptung. t


u
200 Der Spektralsatz

1 Entsprechend verhält es sich bei linearen Abbildungen ϕ: V → V von


2 endlich-dimensionalen euklidischen oder unitären Räumen: Ist S eine Ortho-
3 normalbasis von V , so wird die adjungierte Abbildung ϕ∗ gegeben durch die
4 Darstellungsmatrix
T
5 DS (ϕ∗ ) = DS (ϕ) .
6 Definition 24.5. (a) Eine lineare Abbildung ϕ: V → V heißt normal, falls
7 die adjungierte Abbildung ϕ∗ existiert und

8 ϕ ◦ ϕ∗ = ϕ∗ ◦ ϕ

9 gilt.
10 (b) Eine Matrix A ∈ Rn×n bzw. A ∈ Cn×n heißt normal, falls
T T
11 A·A =A ·A

12 gilt. Im Fall A ∈ Rn×n liest sich das als AT · A = A · AT .


13 Wir haben bereits eine Reihe normaler Abbildungen und Matrizen ken-
14 nengelernt.
15 Beispiel 24.6. (1) Sei A ∈ Rn×n symmetrisch oder A ∈ Cn×n hermitesch.
16 Dann ist A normal.
17 (2) Sei A ∈ Rn×n mit AT = −A. (Solche Matrizen heißen antisymmetrisch.)
18 Dann ist A normal. Ebenso sind antihermitesche Matrizen (mit der of-
19 fensichtlichen Begriffsbildung) normal.
20 (3) Jede othogonale oder unitäre Matrix ist normal.
21 (4) Für die Matrix A = ( 13 24 ) gilt
       
T 13 12 10 14 T 5 11
22 A ·A= · = aber A · A = ,
24 34 14 20 11 25

23 also ist A nicht normal.


24 (5) Sei ϕ: V → V eine surjektive orthogonale bzw. unitäre Abbildung. Dann
25 ist ϕ bijektiv, und es gilt für v, w ∈ V :

26 hv, ϕ(w)i = hϕ−1 (v), ϕ−1 (ϕ(w))i = hϕ−1 (v), wi.

27 Es folgt ϕ∗ = ϕ−1 , also ist ϕ normal.


28 (6) Für die Abbildung ϕh aus Beispiel 24.3(2) gilt ϕ∗h = ϕh , also ist ϕh
29 normal. Falls h nur reelle Werte annimmt, so gilt ϕ∗h = ϕh . Lineare
30 Abbildungen mit dieser Eigenschaft nennt man selbstadjungiert. /
31 Unser nächstes Ziel ist es zu zeigen, dass jede normale Abbildung eines
32 endlich-dimensionalen unitären Raums diagonalisierbar ist. Für eine lineare
33 Abbildung ϕ: V → V und λ ∈ R bzw. λ ∈ C betrachten wir den Eigenraum

34 Eλ (ϕ) := {v ∈ V | ϕ(v) = λv} .


Der Spektralsatz 201

1 Das folgende Lemma ist entscheidend.


2 Lemma 24.7. Es sei ϕ: V → V normal.
3 (a) Für λ ∈ R bzw. λ ∈ C. Dann gilt

4 Eλ (ϕ) = Eλ (ϕ∗ ).

5 (b) Sind v ∈ Eλ (ϕ) und w ∈ Eµ (ϕ) mit λ, µ ∈ R bzw. λ, µ ∈ C verschieden,


6 so folgt hv, wi = 0.
7 (c) Sei L ⊆ V das Erzeugnis aller Eigenvektoren (zu allen Eigenwerten)
8 von ϕ. Dann gilt
ϕ L⊥ ⊆ L⊥ ,

9

10 und L⊥ enthält keine Eigenvektoren von ϕ.


11 Beweis. (a) Für v ∈ Eλ (ϕ) gelten

12 ||ϕ∗ (v)||2 = hv, ϕ (ϕ∗ (v))i = hv, ϕ∗ (ϕ(v))i = hv, ϕ∗ (λv)i = λhv, ϕ∗ (v)i

13 und
14 hϕ∗ (v), vi = hv, ϕ(v)i = hv, λvi = λ · ||v||2 ,
15 also

16 ||ϕ∗ (v) − λv||2 = ||ϕ∗ (v)||2 − λhϕ∗ (v), vi − λhv, ϕ∗ (v)i + |λ|2 ||v||2 = 0.

17 Es folgt v ∈ Eλ (ϕ∗ ), also Eλ (ϕ) ⊆ Eλ (ϕ∗ ). Durch Anwenden auf ϕ∗ und


18 λ ergibt sich
19 Eλ (ϕ∗ ) ⊆ Eλ (ϕ∗∗ ) = Eλ (ϕ),
20 also Gleichheit.
21 (b) Die Behauptung ergibt sich aus

22 (λ − µ)hv, wi = hλv, wi − hv, µwi = hϕ∗ (v), wi −hv, ϕ(w)i = 0,


| {z }
=hv,ϕ(w)i

23 wobei die zweite Gleichheit aus (a) folgt.


24 (c) Ist v ein Eigenvektor, so gilt v ∈ L \ {0} und hv, vi = / L⊥ .
6 0, also v ∈
⊥ ⊥
25 Nun sei v ∈ L . Für den Nachweis von ϕ(v) ∈ L genügt es zu zeigen,
26 dass ϕ(v) zu allen Eigenvektoren w ∈ V orthogonal ist. Es sei also ϕ(w) =
27 λw mit λ ∈ R bzw. λ ∈ C. Dann gilt

28 hw, ϕ(v)i = hϕ∗ (w), vi = hλw, vi = λhw, vi = 0,

29 wobei die zweite Gleichheit aus (a) folgt. Dies schließt den Beweis ab. t
u
30 Satz 24.8 (Spektralsatz für unitäre Räume). Es seien V ein endlich-dimen-
31 sionaler unitärer Raum und ϕ: V → V eine normale Abbildung. Dann besitzt
32 V eine Orthonormalbasis B, die aus Eigenvektoren von ϕ besteht. Genauer:
202 Der Spektralsatz

1 Jede Vereinigungsmenge von Orthonormalbasen der Eigenräume von ϕ bildet


2 eine solche Basis B. Insbesondere ist ϕ diagonalisierbar.
3 Beweis. Es seien λ1 , . . . , λr die Eigenwerte von ϕ. Wegen Korollar 23.17 gibt
4 es für jeden Eigenraum Eλi eine Orthonormalbasis Bi . Wegen Lemma 24.7(b)
5 ist B := B1 ∪ · · · ∪ Br ein Orthonormalsystem. Wegen Satz 23.13 ist B also
6 eine Orthonormalbasis des Unterraums L ⊆ V , der von allen Eigenvektoren
7 von ϕ erzeugt wird. Es ist klar, dass B aus Eigenvektoren von ϕ besteht.
8 Also ist nur noch L = V zu zeigen.
9 Wir schreiben B = {v1 , . . . , vn }. Dann ist L⊥ der Kern der linearen Ab-
10 bildung
11 ψ: V → Cn , v 7→ (hv1 , vi, . . . , hvn , vi) ,
12 wegen Satz 11.9 also

13 dim(V ) = dim(L⊥ ) + dim (Bild(ψ)) ≤ dim(L⊥ ) + dim(L).

14 (In Wirklichkeit gilt Gleichheit, aber das wird hier nicht gebraucht.) Wäre
15 L⊥ 6= {0}, so enthielte L⊥ wegen der algebraischen Abgeschlossenheit von C
16 und der ersten Aussage von Lemma 24.7(c) einen Eigenvektor von ϕ, was der
17 zweiten Aussage von Lemma 24.7(c) widerspräche. Es folgt L⊥ = {0}, also
18 liefert die obige Dimensionsungleichung L = V . t
u
19 Korollar 24.9 (Spektralsatz für komplexe normale Matrizen). Sei A ∈ Cn×n
20 normal. Dann gibt es eine unitäre Matrix S ∈ Un , so dass S −1 AS eine Dia-
T
21 gonalmatrix ist. Wegen S ∈ Un gilt S −1 AS = S AS.
22 Anmerkung 24.10. Es gilt auch die Umkehrung von Korollar 24.9: Sei
23 A ∈ Cn×n eine Matrix, für die S ∈ Un existiert, so dass S −1 AS = D ei-
24 ne Diagonalmatrix ist. Dann folgen
T T T
25 A = SDS −1 = SDS und A = SDS ,

26 also
T T T T T
27 A · A = SDS SDS = SDDS = A · A.
28 Damit ist A normal. /
29 Nun wenden wir uns der Frage zu, was im reellen Fall passiert.
30 Lemma 24.11. Es seien A ∈ Rn×n , λ ∈ C und v ∈ Cn mit A · v = λv.
31 (a) Für den Vektor v ∈ Cn , der aus v durch Konjugation aller Koordinaten
32 entsteht, gilt
33 A · v = λv.
34 (b) Für den Real- und Imaginärteil von v gelten

35 A · Re(v) = Re(λ) Re(v) − Im(λ) Im(v)


Der Spektralsatz 203

1 und
2 A · Im(v) = Im(λ) Re(v) + Re(λ) Im(v).
3 Beweis. (a) Dies ergibt sich aus

4 A · v = A · v = A · v = λv = λv.

(b) Es gilt

A · Re(v) + iA · Im(v) = A · v = λv
= Re(λ) Re(v) − Im(λ) Im(v) + i (Im(λ) Re(v) + Re(λ) Im(v)) .

5 Die Behauptung ergibt sich durch Vergleich von Real- und Imaginärteil.
6 t
u
7 Korollar 24.12 (Spektralsatz für reelle normale Matrizen). Sei A ∈ Rn×n
8 normal. Dann gibt es eine orthogonale Matrix S ∈ On , so dass
 
λ1 0
 .
..

 
 

 λr 

S −1 AS =  a1 −b1
 
9 
 b1 a1 
..
 
.
 
 
 
as −bs
0 bs as

10 mit λ1 , . . . , λr , a1 , . . . , as , b1 , . . . , bs ∈ R und bi > 0 für alle i.


11 Wegen S ∈ On gilt S −1 AS = S T AS.
12 Beweis. Das charakteristische Polynom χA zerfällt über C in Linearfaktoren,
13 wir können also schreiben
r
Y s
Y t
Y
14 χA = (x − λi ) (x − µi ) (x − νi )
i=1 i=1 i=1

15 mit λi ∈ R, µi .νi ∈ C, so dass Im(µi ) < 0 und Im(νi ) > 0. Aus der eindeutigen
16 Primzerlegung folgt durch komplexe Konjugation wegen χA = χA
t
Y s
Y
17 (x − νi ) = (x − µi ),
i=1 i=1

18 also s = t und
19 n = deg(χa ) = r + s + t = r + 2s.
20 Wir wenden Satz 24.8 auf ϕA : Cn → Cn an und erhalten Vektoren u1 , . . . , ur , v1 , . . . , vs ∈
21 Cn mit
204 Der Spektralsatz

1 A · ui = λi ui , A · vi = µi vi , hui , uj i = δi,j , und hvi , vj i = δi,j

2 für alle i, j. (Satz 24.8 liefert auch Eigenvektoren für die Eigenwerte νi , aber
3 die brauchen wir hier nicht.) Die ui können aus beliebigen Orthonormalbasen
4 der Eigenräume Eλi gewählt werden, also können wir ui ∈ Rn annehmen. Für
5 i = 1, . . . , s setzen wir
√ √
6 wi := 2 Re(vi ), wi0 := 2 Im(vi ), ai := Re(µi ) und bi := − Im(µi ).

7 Falls
8 B := {u1 , . . . , ur , w1 , w10 , . . . , ws , ws0 }
9 eine Basis von Cn bildet, so folgt aus Lemma 24.11(b), dass DB (ϕA ) genau die
10 im Korollar angegebene Block-Diagonalmatrix ist, also folgt die Behauptung
11 mit S := (v1 , . . . , vr , w1 , w10 , . . . , ws , ws0 ) ∈ GLn (R). Wegen n = |B| genügt es
12 nach Satz 23.13 zu zeigen, dass B ein Orthonormalsystem ist, und dann folgt
13 auch S ∈ On . Für j ∈ {1, . . . , r} und k ∈ {1, . . . , s} gilt

14 huj , wk i + ihuj , wk0 i = 2huj , vk i = 0,

also huj , wk i = huj , wk0 i = 0. Weiter gilt für j, k ∈ {1, . . . , s}:


 
1 1
hwj , wk i = √ (vj + vj ), √ (vk + vk )
2 2
1 
= hvj , vk i + hvj , vk i + hvj , vk i + hvj , vk i = δj,k ,
2
15 wobei hvj , vk i = hvj , vk i = 0 aus Lemma 24.11(a) und Lemma 24.7(b) folgen.
16 Entsprechende Rechnungen liefern

17 hwj0 , wk0 i = δj,k und hwj , wk0 i = 0.

18 Dies schließt den Beweis ab. t


u
19 Wir spezialisieren dies Resultat nun für die beiden wichtigsten Klassen
20 von normalen reellen Matrizen, die orthogonalen und die symmetrischen Ma-
21 trizen. Wir beginnen mit dem orthogonalen Fall.
22 Sei also A ∈ On . Wegen Korollar 24.12 gibt es S ∈ On , so dass B :=
23 S −1 AS die im Korollar angegebene Form hat. Dann muss B selbst orthogonal
24 sein, also gilt für die λi , ai und bi :

25 λi = ±1 und a2i + b2i = 1.

26 Wegen bi > 0 folgt insbesondere |ai | < 1, also ai = cos(αi ) mit 0 < αi < π
27 und bi = sin(αi ). Für α ∈ R schreiben wie
 
cos(α) − sin(α)
28 D(α) := .
sin(α) cos(α)
Der Spektralsatz 205

1 und nennen dies ein Drehkästchen. Es beschreibt eine Drehung der Ebene
2 R2 um den Winkel α mit festgehaltenem Nullvektor. Wir formulieren unser
3 Resultat geometrisch.
4 Korollar 24.13. Es sei ϕ: Rn → Rn eine orthogonale Abbildung. Dann gibt
5 es eine Orthonormalbasis B, bezüglich der die Darstellungmatrix von ϕ die
6 Block-Diagonalgestalt
 
1 0
 .. 

 . 


 1 


 −1 


 . ..


 
7 DB (ϕ) = 
 −1 

 
D(α1 )
 
 
 
 

 . ..


 
 
0 D(αs )
 

8 mit αi ∈ R, 0 < αi < π annimmt.


9 Beispiel 24.14. Jede orthogonale Abbildung ϕ: R3 → R3 hat bezüglich einer
10 geeigneten Orthonormalbasis B die Darstellungsmatrix
 
±1 0 0
11 DB (ϕ) =  0 cos(α) − sin(α)
0 sin(α) cos(α)

12 mit 0 ≤ α ≤ π. Genau dann liegt ϕ in der speziellen orthogonalen Gruppe,


13 wenn der erste Eintrag der Matrix 1 ist. Die Elemente der SO3 beschreiben
14 also Drehungen um eine gewisse Achse. /
15 Wir behandeln nun die symmetrischen Matrizen und beweisen das wichtige
16 Resultat, dass sie diagonalisierbar sind. Dies Ergebnis läuft manchmal unter
17 der Bezeichnung Hauptachsentransformation. Außerdem beweisen wir, dass
18 auch hermitesche Matrizen reelle Eigenwerte haben.
19 Korollar 24.15. (a) Sei A ∈ Rn×n eine symmetrische Matrix. Dann gibt es
20 eine orthogonale Matrix S ∈ On , so dass S −1 AS eine Diagonalmatrix ist.
21 Insbesondere sind alle Eigenwerte von A reell, und A ist diagonalisierbar.
22 (b) Sei A ∈ Cn×n hermitesch (so dass A nach Korollar 24.9 mit einer
23 unitären Matrix diagonalisierbar ist). Dann sind alle Eigenwerte von A
24 reell.
206 Der Spektralsatz

1 Beweis. (a) Nach Korollar 24.12 gibt es S ∈ On , so dass S T AS =: D die im


2 Korollar angegebene Gestalt hat. Es folgt

3 DT = S T AT S = S T AS = D,

4 d.h. D ist symmetrisch. Hieraus folgt, dass in D kein Block der Form
ai −bi
5
bi ai auftritt, da ein solcher wegen bi > 0 der Symmetrie widerspre-
6 chen würde.
T
7 (b) Wegen Korollar 24.9 gibt es S ∈ Un mit S AS = diag(λ1 , . . . , λn ) =: D.
8 Es folgt
T T T T
9 D = D = S A S = S AS = D
10 also λi ∈ R für alle i. t
u

11 Beispiel 24.16. (1) Wir betrachten die symmetrische Matrix


 
21 1
12 A = 1 2 1 ∈ R3×3 .
11 2

Um A zu diagonalisieren, berechnen wir das charakteristische Polynom


und erhalten
 
x − 2 −1 −1
χA = det  −1 x − 2 −1  = (x − 2)3 − 2 − 3(x − 2) =
−1 −1 x − 2
x3 − 6x2 + 9x − 4 = (x − 1)(x2 − 5x + 4) = (x − 1)2 (x − 4).

13 Damit wissen wir schon, dass A zu diag(1, 1, 4) ähnlich ist. Wir wollen eine
14 orthogonale Transformationsmatrix ausrechnen. Hierfür müssen wir die
15 Eigenräume bestimmen. Der Eigenraum E1 zum Eigenwert 1 ergibt sich
16 als Lösungsraums des homogenen LGS mit Matrix A − I3 . Wir erhalten
   
D 1 1 E
17 E1 =  0  , −1 .
−1 0

18 Auf die Basis von E1 wenden wir das Schmidtsche Orthogonalisierungs-


19 verfahren an. Der erste Schritt liefert
 
1
1  
20 u1 = √ 0 .
2 −1

21 Weiter erhalten wir


Der Spektralsatz 207
   
1 1
1 1
1 w2 = −1 − √ u1 = −2 ,
2 2
0 1

2 also  
1
1
3 u2 = √ −2 .
6 1
4 Nun berechnen wir E4 und erhalten durch Lösen des entsprechenden LGS
5 (oder durch die Beobachtung, dass alle Zeilensummen von A gleich 4 sind)
 
D 1 E
6 E4 = 1 .
1

7 Normieren liefert als letzten Vektor der Orthonormalbasis


 
1
1
8 u3 = √ 1 .
3 1

9 Damit gilt
√1 √1 √1
 
 02 √ 6 3
−2 √1 
10 S=  6 3
∈ O3 (R)
−1 √1 √1

2 6 3

11 und  
100
12 S −1 AS = 0 1 0 .
004
13 (2) Es stellt sich die Frage, ob Korollar 24.15(a) auch über anderen Körpern
14 außer R gilt, z.B. über C. Um diese zu beantworten, betrachten wir die
15 symmetrische Matrix
 
1 i
16 A= ∈ C2×2 .
i −1

17 Das charakteristische Polynom ist


 
x − 1 −i
18 χA = det = (x − 1)(x + 1) + 1 = x2 ,
−i x + 1

19 also haben wir 0 als einzigen Eigenwert. Die algebraische Vielfachheit


20 ist 2, die geometrische aber 1, also ist A nicht diagonalisierbar. Mit C
21 statt R wäre Korollar 24.15(a) also nicht korrekt. Ebenso verhält es sich
22 mit Q statt R. /
208 Der Spektralsatz

1 Anmerkung 24.17. Die Aussagen über reelle Eigenwerte in Korollar 24.15


2 stehen in einem breiteren Kontext. In der Tat sind die Eigenwerte einer selbst-
3 adjungierten Abbildung ϕ: V → V eines unitären Raums immer reell. Es seien
4 nämlich λ ∈ C ein Eigenwert und v ∈ V \ {0} ein zugehöriger Eigenvektor.
5 Dann gilt

6 λ · ||v||2 = hv, λvi = hv, ϕ(v)i = hϕ(v), vi = hλv, vi = λ · ||v||2 .

7 Hieraus folgt λ ∈ R. /
8 Korollar 24.15(a) hat beispielsweise physikalische Anwendungen. Zu einem
9 starren Körper betrachtet man den sogenannten Trägheitstensor. Dieser ist
10 eine Matrix in I ∈ R3×3 , die die Winkelgeschwindigkeit (als Vektor) mit
11 dem Drehimpuls verbindet, ähnlich wie die Masse die Geschwindigkeit mit
12 dem Impuls verbindet. Es stellt sich heraus, dass I symmetrisch ist. Also
13 liefert Korollar 24.15, dass es für jeden starren Körper drei senkrecht zuein-
14 ander stehende Achsen gibt, so dass bei einer Drehung um diese Achsen die
15 Drehgeschwindigkeit und der Drehimpuls in dieselbe Richtung zeigen. Diese
16 Achsen heißen Hauptträgheitsachsen. Wegen des Drehimpulserhaltungssatzes
17 bedeutet dies, dass Drehungen um die Hauptträgheitsachsen schlingerfrei“

18 möglich sind. Bei konstantem Drehimpuls ist eine Drehung um die Achse mit
19 dem größten Eigenwert (= Hauptträgheitsmoment) die energetisch günstigste
20 und daher stabilste.
21 Wir haben bereits im Zusammenhang mit symmetrischen Bilinearformen
22 und hermiteschen Sesquilinearformen von positiver Definitheit gesprochen.
23 Nun übertragen wir dies auf Matrizen. Da alle Eigenwerte einer symmetri-
24 schen (reellen) oder hermiteschen Matrix oder reell sind, können wir fragen,
25 ob sie positiv sind.
26 Definition 24.18. Sei A ∈ Rn×n symmetrisch bzw. A ∈ Cn×n hermitesch.
27 A heißt
28 • positiv definit, falls alle Eigenwerte von A positiv sind;
29 • positiv semidefinit, falls alle Eigenwerte von A positiv oder Null sind;
30 • negativ definit, falls alle Eigenwerte von A negativ sind;
31 • negativ semidefinit, falls alle Eigenwerte von A negativ oder Null sind;
32 • indefinit, falls es sowohl positive als auch negative Eigenwerte gibt.
33 Satz 24.19. Eine symmetrische bzw. hermitesche Matrix A ∈ Rn×n bzw.
34 A ∈ Cn×n ist genau dann positiv definit, wenn für alle v ∈ Rn \ {0} bzw.
35 v ∈ Cn \ {0} gilt:
36 hv, A · vi > 0.
37 Die Bedingung bedeutet, dass die durch A definierte Bilinearform bzw. Ses-
38 quilinearform positiv definit ist. A ist positiv semidefinit, wenn hv, A · vi ≥ 0
39 gilt. Entsprechendes gilt für negativ (semi-)definit.
40 Beweis. Wegen Korollar 24.15 gibt es S ∈ On bzw. S ∈ Un mit
Singulärwertzerlegung und Moore-Penrose-Inverse 209
 
λ1 0
T ..
S AS =   =: D,
 
1 .
0 λn

2 wobei die λi ∈ R die Eigenwerte von A sind. Wegen der Invertierbarkeit von
x1
!
T .. T
3 S ist für jeden Vektor v ∈ Rn \ {0} bzw. v ∈ Cn \ {0} auch . := S · v
xn
4 ungleich 0, und jeder Vektor aus Rn \ {0} bzw. Cn \ {0} tritt als ein solches
T
5 S · v auf. Es gilt
 
x1 n
T T  ..  X
6 hv, A · vi = v SDS v = (x1 , . . . , xn )D  .  = λi |xi |2 .
xn i=1

7 Hieraus folgen alle Behauptungen. t


u
8 Beispiel 24.20. Wir betrachten
 
a 0 −a 0
 0 b 0 −b
9 A= −a 0 a 0 
 mit a, b ∈ R.
0 −b 0 b

10 Wir wenden Satz!24.19 zur Feststellung der Definitheitseigenschaften von A


x1
11 an. Für v = .. ∈ R4 gilt
.
x4
 
a(x1 − x3 )
 b(x2 − x4 )  2 2
12
−a(x1 − x3 ) = a(x1 − x3 ) + b(x2 − x4 ) .
hv, A · vi = (x1 , x2 , x3 , x4 ) ·  

−b(x2 − x4 )

13 Damit ist A positiv semidefinit, falls a, b ≥ 0, negativ semidefinit, falls a, b ≤


14 0, und sonst indefinit. /

15 25 Singulärwertzerlegung und Moore-Penrose-Inverse

16 Eine in der numerischen Mathematik wichtige Technik ist die sogenannte


17 Singulärwertzerlegung, die durch den folgenden Satz gegeben wird. Wie wir
18 im Beweis sehen werden, verdankt die Singulärwertzerlegung ihre Existenz
19 dem Korollar 24.15.
210 Singulärwertzerlegung und Moore-Penrose-Inverse

1 Satz 25.1 (Singulärwertzerlegung). Sei A ∈ Cm×n eine (nicht notwendig


2 quadratische) Matrix. Dann gibt es unitäre Matrizen U ∈ Um und V ∈ Un ,
3 so dass  
σ1
 .. 

 . 0 

T σ
U AV =  r  =: Σ ∈ Rm×n (25.1)
 
4
 
 
 0 0 

5 mit σ1 ≥ σ2 ≥ · · · ≥ σr > 0, wobei r = rg(A). Im Fall A ∈ Rm×n können


6 U ∈ Om und V ∈ On gewählt werden. Die zur obigen Gleichung äquivalente
7 Gleichung
T
8 A = U ΣV
9 bezeichnet man als Singulärwertzerlegung von A.
T
10 Beweis. Die Matrix A A ∈ Cn×n ist wegen
 T
T T
11 A A = AT A = A A

12 hermitesch. Außerdem ist sie gemäß Satz 24.19 positiv semidefinit, denn für
13 v ∈ Cn gilt
T T T
14 hv, A Avi = v T A Av = Av Av = hAv, Avi ≥ 0.

15 Wegen Korollar 24.15 gibt es V ∈ Un (wobei V ∈ On im reellen Fall), so dass


16  
λ1
T T
V A AV =  . . .  (25.2)
 
17

λn
18 mit λi ∈ R≥0 , die wir so anordnen können, dass λ1 ≥ · · · ≥ λn . Es sei r
19 maximal mit λr > 0. (Später werden wir r = rg(A) sehen.) Für i ∈ {1, . . . , r}
20 setzen wir p
21 σi := λi .
22 Wir schreiben v1 , . . . , vn für die Spalten von V , und für i ∈ {1, . . . , r} setzen
23 wir
24 ui := σi−1 Avi ∈ Cm (25.3)
Sind i, j ∈ {1, . . . , r}, so folgt
T T
hui , uj i = (σi σj )−1 Avi Avj = (σi σj )−1 vi T A Avj
= (σi σj )−1 λi δi,j = δi,j ,
(25.2)
Singulärwertzerlegung und Moore-Penrose-Inverse 211

1 also bilden u1 , . . . , ur ein Orthonormalsystem. Dies lässt sich, etwa mit


2 dem Schmidtschen Orthogonalisierungsverfahren, zu einer Orthonormalba-
3 sis u1 , . . . , um von Cm ergänzen. Wir setzen

4 U := (u1 , . . . , um ) ∈ Um .

5 Sei i ∈ {1, . . . , m} und j ∈ {1, . . . , n}. Falls j ≤ r, so gilt

6 ui T Avj = ui T σj uj = δi,j σj .
(25.3)

7 Falls j > r, so folgt


T
8 ||Avj ||2 = vj T A Avj = λj = 0,
(25.2)

9 also Avj = 0 und daher auch

10 ui T Avj = 0.
T T
11 damit ist (25.1) gezeigt. Es folgt nun auch A = U ΣV . Da U und V reguläre
12 Matrizen sind, folgt hieraus

13 rg(A) = rg(Σ) = r.

14 Schließlich bemerken wir, dass im Fall A ∈ Rm×n alle vorkommenden Matri-


15 zen reell sind und insbesondere U und V orthogonal. t
u
16 Anmerkung 25.2. (a) Ist A ∈ Cm×n mit Singulärwertzerlegung A =
T
17 U ΣV , so folgt
T T T T T
18 A A = V Σ U U ΣV = V Σ T ΣV ,
T
19 also ist Σ T Σ = diag(σ12 , . . . , σr2 , 0, . . . , 0) ∈ Rn×n ähnlich zu A A. Die
T
20 σi2 sind also genau die Eigenwerte von A A, die nicht Null sind. Damit
21 sind die σi (wegen σ1 ≥ · · · ≥ σr ) eindeutig bestimmt. Man nennt sie die
22 Singulärwerte von A.
23 Die Matrizen U, V aus der Singulärwertzerlegung sind im Allgemeinen
24 nicht eindeutig bestimmt.
25 (b) Die folgende Rechnung liefert eine Interpretation des größten Singlärwerts
T
26 σ1 . Für v ∈ Cn \ {0} setzen wir w := V v und schreiben wi für die
27 Koordinaten von w. Dann gilt
v
u r
uX
28 ||Av|| = ||U Σw|| = ||Σw|| = t σi2 |wi |2 ≤ σ1 · ||w|| = σ1 · ||v||,
i=1
212 Singulärwertzerlegung und Moore-Penrose-Inverse

1 wobei Gleichheit gilt, wenn v die erste Spalte von V ist. Es folgt
 
||Av|| n
2 σ1 = max v ∈ C \ {0} =:|| A ||s .
||v||

3 Die mit ||A||s bezeichnete Zahl nennt man die Spektralnorm von A. Wir
4 haben also die Gleichheit von Spektralnorm und dem ersten Singulärwert
5 gezeigt. Die Spektralnorm ist eine Norm auf Cm×n im Sinne von Anmer-
6 kung 23.8(a), die zusätzlich submultiplikativ ist, d.h. es gilt die Regel
7 ||AB||s ≤ ||A||s · ||B||s für A ∈ Cm×n , B ∈ Cn×l .
T
8 (c) Ist A ∈ Cn×n quadratisch und A = U ΣV eine Singulärwertzerlegung,
9 so folgt
T T
10 A = U V V ΣV = B · C
T T
11 mit B = U V ∈ Un unitär und C = V ΣV hermitesch und positiv
12 semidefinit (definit genau dann, wenn A ∈ GLn (C)). Man nennt eine
13 Zerlegung A = BC mit B unitär und C hermitesch und positiv semide-
14 finit eine Polarzerlegung von A. /
15 Beispiel 25.3. Die Matrix
 
1 2
16 A= ∈ R2×2
−2 −3.99

17 hat den Rang 2, ist aber nahe an einer Matrix vom Rang 1. Dies wird wider-
18 gespiegelt durch die Singulärwerte, die sich näherungsweise zu

19 σ1 ≈ 4.992 und σ2 ≈ 0.002

20 ergeben. Ersetzt man −3.99 in A durch −4, so sieht man, dass für v = ( 12 )
21 (der kein Eigenvektor ist) die Spektralnorm 5 erreicht“ wird. /

22 Die Singulärwertzerlegung spielt in der numerischen Mathematik eine
23 große Rolle. Weitere Anwendungen gibt es beispielsweise in der Bildkompres-
24 sion. Ein (digitales) Bild mit m × n Pixeln lässt sich durch eine m × n-Matrix
25 A darstellen. Bei vielen Bildern weist die Folge der Singulärwerte (σi ) einen
26 dramatischen Abbruch auf, d.h. ab einem gewissen (kleinen) s sind die Werte
27 der σi für i > s extrem klein im Verhältnis zu den σi mit i ≤ s. Setzt man in
28 der Singulärwertzerlegung
T
29 A = U ΣV
30 alle σi mit i > s gleich Null, so erhält man eine neue Matrix Σ 0 , so dass der
T
31 Übergang von A zu A0 := U Σ 0 V zwar einen Datenverlust darstellt, der aber
32 im Bild nicht sichtbar ist. Der Gewinn ist, dass man für das Auswerten von
T
33 A0 = U Σ 0 V nur die ersten s Spalten von U Σ 0 und von V speichern muss,
34 insgesamt also
35 s · (n + m) statt m · n
Singulärwertzerlegung und Moore-Penrose-Inverse 213

1 Einträge. Dies kann zu einer erheblichen Datenkompression führen.


2 Eine weitere wichtige Anwendung der Singulärwertzerlegung ist die Be-
3 rechnung (und der Existenznachweis) der Moore-Penrose-Inversen, die wir
4 nun definieren. Die Moore-Penrose-Inverse ist wohl die wichtigste Vertrete-
5 rin der Pseudo-Inversen, die das Ziel haben, für nicht invertierbare Matrizen
6 einen für gewisse Zwecke tauglichen Ersatz für eine Inverse zur Verfügung zu
7 stellen.
8 Definition 25.4. Es sei A ∈ Cm×n eine (nicht notwendig quadratische)
9 komplexe Matrix. Eine Matrix A+ ∈ Cn×m heißt Moore-Penrose-Inverse
10 von A, falls gelten:
11 (1) AA+ A = A,
12 (2) A+ AA+ = A+ und
13 (3) AA+ und A+ A sind hermitesch.
14 Wir werden nun die Existenz und Eindeutigkeit der Moore-Penrose-
15 Inversen beweisen. Falls A invertierbar ist, erfüllt A−1 alle Eigenschaften (1)–
16 (3), also liefert die Eindeutigkeit in diesem Fall A+ = A−1 . Die Moore-
17 Penrose-Inverse verallgemeinert also die Inverse.
18 Satz 25.5. Es sei A ∈ Cm×n .
19 (a) Ist  
σ1
 .. 

 . 0 

20 A=
 σr  ∈ Rm×n

 
 
 0 0 

21 eine Diagonalmatrix mit r ≤ min{m, n} und σi 6= 0 für alle i, so ist


 −1 
σ1
 .. 

 . 0  
22 A+ = 
 σr−1  ∈ Rn×m

 
 
 0 0 

23 eine Moore-Penrose-Inverse von A.


T
24 (b) Ist A = U ΣV eine Singulärwertzerlegung von A, so ist
T
25 A+ = V Σ + U

26 eine Moore-Penrose-Inverse von A. Dabei kann Σ + aus (a) verwendet


27 werden.
28 (c) Die Moore-Penrose-Inverse von A ist eindeutig bestimmt.
214 Singulärwertzerlegung und Moore-Penrose-Inverse

1 Beweis. Der Nachweis von (a) und (b) geschieht durch direktes Nachprüfen
2 der Eigenschaften (1)–(3) in Definition 25.4. Für den Nachweis von (c) ma-
T
3 chen wir folgende Vorbemerkung. Für eine Matrix B ∈ Cm×n mit B · B = 0
4 folgt
T
5 ||Bv||2 = v T B Bv = 0 für alle v ∈ Cn ,
6 also B = 0. Es seien nun A+ , A
e ∈ Cn×m zwei Moore-Penrose-Inverse von A.
7 Dann gelten
T
8 (A+ A − AA)
e (A+ A − AA)
e = (A+ A − AA)
e 2 = A+ A − A+ A − AA
e + AA
e =0
(3) (1)

9 und
T
10
e (AA+ − AA)
(AA+ − AA) e = (AA+ − AA)
e 2 = AA+ − AA
e − AA+ + AA
e = 0,
(3) (1)

11 also gemäß unserer Vorbemerkung A+ A = AA


e und AA+ = AA.
e Hieraus folgt

12 A+ = A+ AA+ = AAA
e + = AA
e Ae = A,
e
(2) (2)

13 die Eindeutigkeit ist also bewiesen. t


u
14 Die Moore-Penrose-Inverse hat viele interessante Eigenschaften. Um die
15 wichtigsten zu beweisen, werden wir uns mit dem Begriff einer orthogonalen
16 Projektion beschäftigen, der von unabhängigen Interesse ist.
17 Satz 25.6. Sei ϕ: V → V eine lineare Abbildung eines euklidischen oder
18 unitären Raums V , für die ϕ2 = ϕ (mit ϕ2 := ϕ ◦ ϕ) gilt. Wir schreiben
19 U := Bild(ϕ)
20 (a) Genau dann ist ϕ selbstadjungiert, wenn für alle u ∈ U und w ∈ Kern(ϕ)
21 gilt: hu, wi = 0 (d.h. Bild und Kern von ϕ stehen senkrecht aufeinander).
22 In diesem Fall heißt ϕ eine orthogonale Projektion (auf U ).
23 (b) Falls ϕ eine orthogonale Projektion ist, so gilt für alle v ∈ V : ϕ(v) ist
24 der eindeutig bestimmte Vektor aus U , der zu v minimalen Abstand hat.
25 (c) Falls ϕ eine orthogonale Projektion ist, so gilt dies auch für ψ := idV −ϕ.

26 Beweis. (a) Zunächst sei ϕ selbstadjungiert und u ∈ U und w ∈ Kern(ϕ),


27 also u = ϕ(v) mit v ∈ V . Es folgt

28 hu, wi = hϕ(v), wi = hv, ϕ(w)i = hv, 0i = 0.

29 Umgekehrt nehmen wir an, dass Bild und Kern von ϕ senkrecht aufein-
30 ander stehen. Für v, w ∈ V folgt

31 hv, ϕ(w)i = hv − ϕ(v) +ϕ(v), ϕ(w)i = hϕ(v), ϕ(w)i,


| {z }
∈Kern(ϕ)
Singulärwertzerlegung und Moore-Penrose-Inverse 215

1 und ebenso hϕ(v), wi = hϕ(v), ϕ(w)i. Also ist ϕ selbstadjungiert.


(b) Es sei u ∈ U , also auch u − ϕ(v) ∈ U . Wegen ϕ2 = ϕ gilt ϕ(v) − v ∈
Kern(ϕ), also hu − ϕ(v), ϕ(v) − vi = 0. Es folgt

||u − v||2 = hu − ϕ(v) + ϕ(v) − v, u − ϕ(v) + ϕ(v) − vi


= ||u − ϕ(v)||2 + ||ϕ(v) − v||2 .

2 Also wird ||u − v|| genau für u = ϕ(v) minimal.


3 (c) Dies folgt aus
4 ψ 2 = id2V −2ϕ + ϕ2 = idV −ϕ = ψ
5 und ψ ∗ = id∗V −ϕ∗ = idV −ϕ = ψ. t
u
6 Aus dem nächsten Satz geht hervor, dass die Moore-Penrose-Inverse sich
7 in Bezug auf das Lösen von linearen Gleichungssystemen so verhält, wie man
8 dies von einer Pseudo-Inversen erwarten würde. Interessant ist, dass hier-
9 bei Aussagen über nicht lösbare sowie über nicht eindeutig lösbare lineare
10 Gleichungssysteme gemacht werden können.
11 Satz 25.7. Zu A ∈ Cm×n und b ∈ Cm betrachten wir das lineare Gleichungs-
12 system Ax = b.
13 (a) Ist das lineare Gleichungssystem lösbar, so ist x = A+ b ∈ Cn eine
14 Lösung, und A+ b hat unter allen Lösungen die minimale Länge.
15 (b) Für alle x ∈ Cn gilt:

16 ||Ax − b|| ≥ ||AA+ b − b||.

17 A+ b liefert also eine bestmögliche näherungsweise Lösung. Unter allen


18 Vektoren, die eine bestmögliche näherungsweise Lösung liefern, ist A+ b
19 der kürzeste.
20 (c) Im Falle b = 0 (homogenes lineares Gleichungssystem) wird der Lösungs-
21 raum L durch die Spalten von In − A+ A erzeugt. Genauer: In − A+ A
22 definiert eine orthogonale Projektion auf L.
23 Beweis. (c) Wegen A+ AA+ A = A+ A und weil A+ A hermitesch ist, wird
24 durch A+ A gemäß Satz 25.6(a) eine orthogonale Projektion gegeben, also
25 nach Satz 25.6(c) auch durch In − A+ A. Wegen

26 A · (In − A+ A) = A − AA+ A = A − A = 0

27 liegt deren Bild im Lösungsraum L, und umgekehrt gilt für x ∈ L:

28 (In − A+ A)x = In x = x,

29 also ist L im Bild der Projektion enthalten.


30 (b) Wegen AA+ AA+ = AA+ und weil AA+ hermitesch ist, wird durch AA+
31 gemäß Satz 25.6(a) eine orthogonale Projektion ϕ: Cm → Cm gegeben.
32 Es gilt
216 Singulärwertzerlegung und Moore-Penrose-Inverse

1 Bild(ϕ) ⊆ {Ax | x ∈ Cn } =: U,
2 und umgekehrt gilt für Ax ∈ U

3 Ax = AA+ Ax = ϕ(Ax) ∈ Bild(ϕ).

4 Also ist ϕ eine orthogonale Projektion auf U . Damit folgt aus Satz 25.6(b)
5 die behauptete Ungleichung.
Für den Beweis der zweiten Behauptung in (b) sei x ∈ Cn mit ||Ax−b|| =
||AA+ b − b||. Aus der Eindeutigkeit des Vektors aus U mit minimalem
Abstand zu b folgt Ax = AA+ b, also A+ b − x ∈ L. Weiter gilt:

||x|| minimal ⇔ A+ b − x hat minimalen Abstand zu A+ b


| {z }
∈L
⇔ A b − x = (In − A+ A)A+ b ⇔ A+ b − x = 0 ⇔ x = A+ b,
+

6 wobei die zweite Äquivalent aus (c) und Satz 25.6(b) folgt. Dies liefert
7 die zweite Behauptung.
8 (a) Ist das lineare Gleichungssystem lösbar, so gibt es x ∈ Cn mit ||Ax−b|| =
9 0. Aus (b) folgt AA+ b = b und die Minimalität der Länge von A+ b unter
10 den Lösungen. t
u
11 Satz 25.5(b) enthält eine Methode zur Bestimmung der Moore-Penrose-
12 Inversen über die Singulärwertzerlegung, deren Berechnung aus dem Be-
13 weis von Satz 25.1 hervorgeht. Diese Methode ist numerisch stabil, aber
14 aufwändig. Eine einfachere Methode funktioniert wie folgt: Ist A ∈ Cm×n
15 mit r = rg(A), so lässt sich A zerlegen als

16 A=B·C

17 mit B ∈ Cm×r und C ∈ Cr×n , beide vom Rang r. Beispielsweise kann man r
18 linear unabhängige Spalten von A aussuchen und diese in B schreiben und
19 dann in C hineinkodieren“, wie sich die Spalten von A als Linearkombi-

20 nationen der Spalten von B ausdrücken. Aus Anmerkung 25.2(a) folgt die
21 Beziehung
T T
22 rg(A) = rg(A A) = rg(AA ),
23 angewandt auf B und C ergibt dies also die Invertierbarkeit der Produkte
T T
24 B B und von CC . Nun verifiziert man durch Überprüfung der Eigenschaf-
25 ten aus Definition 25.4, dass

T −1
T
   T −1 T
26 A+ = C CC B B B (25.4)

27 gilt.
28 Beispiel 25.8. Bei
Diskrete Strukturen: Spektren von Graphen 217
 
2 3 −2
1 A :=  3 5 −3 ∈ R3×3
−2 −3 2
2 ist die dritte Spalte gleich dem Negativen der ersten, also
 
2 3  
1 0 −1
3 A= 3 5 · =: B · C.
01 0
−2 −3

4 Auswerten von (25.4) liefert


 
5 −6 −5
1
5 A+ = −6 8 6  .
4
−5 6 5

6 Für das lineare Gleichungssystem


 
1
7 Ax = 2 =: b
1

8 liefert  
−3
9 x = A+ b =  4 
3
10 nach Satz 25.7(b) den kürzesten Vektor, dessen Produkt mit A möglichst nah
11 an b liegt. /

12 26 Diskrete Strukturen: Spektren von Graphen

13 In diesem Abschnitt greifen wir nochmals die Graphentheorie auf und verbin-
14 den sie mit den Methoden der linearen Algebra, insbesondere aus Abschnitt
15 Abschnitt 24. Der Einfachheit halber betrachten wir wieder einfache Graphen
16 gemäß Definition 4.1. Ein Graph ist also ein Paar G = (V, E) mit V einer
17 endlichen, nicht leeren Menge von Knoten“ und E einer Menge

18 E ⊆ {{x, y} | x, y ∈ V, x 6= y}

19 von Kanten“.

20 Definition 26.1. Zwei Graphen G = (V, E) und G0 = (V 0 , E 0 ) heißen iso-
21 morph, falls es eine Bijektion f : V → V 0 gibt, so dass

{f (x), f (y)} | {x, y} ∈ E = E 0 .



22
218 Diskrete Strukturen: Spektren von Graphen

1 Gewissenmaßen sind isomorphe Graphen bis auf die Bezichnung oder


2 Nummerierung ihrer Knoten identisch. Es ist ein schwieriges Problem, zu
3 zwei gegebenen (großen) Graphen festzustellen, ob sie isomorph sind. Eine
4 Methode, um das Problem anzugehen, ist das Vergleichen der Spektren der
5 Graphen, die wir nun einführen.
6 Es sei G = (V, E) ein Graph mit V = {x1 , . . . , xn }. Wir setzen
(
1 falls {xi , xj } ∈ E
7 gi,j := und A := (gi,j ) ∈ Rn×n .
0 sonst

8 A heißt die Adjazenzmatrix von G. Die Menge der Eigenwerte von A


9 (gezählt mit Vielfachheiten) ist das Spektrum von G.
10 Aus der Definition ist klar, dass die Adjazenzmatrix symmetrisch ist. Da-
11 her sind wegen Korollar 24.15(a) alle Eigenwerte reell, und die algebraischen
12 und geometrischen Vielfachheiten stimmen überein. Da das Spektrum eine
13 Menge mit Vielfachheiten ist, ist es zweckmäßig, die Eigenwerte als der Größe
14 nach geordnete Liste anzugeben.
15 Beispiel 26.2. Der Graph G mit

16 V = {1, 2, 3, 4} und E = {{1, 2}, {2, 3}, {3, 4}, {1, 4}}

17 wird wie folgt gezeichnet:

2 1

18
3 4

19 Die Adjazenzmatrix ist  


0 1 0 1
1 0 1 0
20 A=
0
.
1 0 1
1 0 1 0
21 Deren charakteristisches Polynom ergibt sich nach kurzer Rechnung zu
 
x −1 0 −1
−1 x −1 0  4 2
22
 0 −1 x −1 = x − 4x .
χA = det  

−1 0 −1 x

23 Als Spektrum bekommen wir −2, 0, 0, 2. /


24 Das Interesse am Spektrum eines Graphen ist durch fogenden Satz be-
25 gründet.
Diskrete Strukturen: Spektren von Graphen 219

1 Satz 26.3. Die Spektren isomorpher Graphen stimmen überein.


2 Beweis. Es seien A = (gi,j ) und A0 = (gi,j0
) ∈ Rn×n die Adjazenzmatrizen
3 zweier isomorpher Graphen. Die Isomorphie bedeutet, dass es σ ∈ Sn gibt
4 mit
0
5 gi,j = gσ(i),σ(j) .
6 Also geht A0 aus A hervor, indem die Permuation σ auf die Zeilen und auf
7 die Spalten angewandt wird. Ebenso geht die Matrix (x · In − A0 ) ∈ R[x]n×n
8 aus x · In − A durch Permutation der Zeilen und Spalten mit σ hervor. Aus
9 Lemma 16.6(b) folgt χA0 = χA , also stimmen die Spektren überein. t
u
10 Man drückt Satz 26.3 auch aus, indem man sagt, dass das Spektrum ei-
11 ne Graph-Invariante ist. In analoger Sprechweise könnte man auch sagen,
12 dass die Dimension eine Invariante eines Vektorraums ist, oder die Ordnung
13 eine Invariante einer Gruppe. Eine weitere Graphinvariante ist die Anzahl
14 der Zusammenhangskomponenten. Die Adjazenzmatrix selbst ist aber keine
15 Graph-Invariante.
16 Gilt auch die Umkehrung von Satz 26.3? Werden also Graphen bis auf
17 Isomorphie durch ihr Spektrum bestimmt? Wie das folgende Beispiel zeigt,
18 ist dies leider nicht der Fall.
19 Beispiel 26.4. Die Graphen G und G0 , gegeben durch

s s s
G G0
 CS
s   C S
  C S
  C S
s s s s s s
  C S
20

21 (bei G ist der in der Mitte gezeichnete Punkt mit keinem verbunden), haben
22 beide das Spektrum −2, 0, 0, 0, 2. Sie sind aber nicht isomorph. Dies kann
23 man z.B. daran sehen, dass G0 zusammenhängend ist, G aber nicht. /
24 Zwei Graphen mit demselben Spektrum nennt man isospektral. Wir führen
25 nun eine Variante des Spektrums ein.
26 Definition 26.5. Es sei G ein Graph mit Knoten {x1 , . . . , xn } und Adja-
27 zenzmatrix
Pn A = (gi,j ) ∈ Rn×n . Für i = 1, . . . , n setzen wir di := deg(xi ) =
28
j=1 gi,j , den Grad des Knotens xi . Wir bilden die Matrix
(
n×n −gi,j falls i 6= j
29 L = (li,j ) ∈ R mit li,j = .
di falls i = j

30 L heißt die Laplace-Matrix von G. Die Menge der Eigenwerte von L


31 (gezählt mit Vielfachheiten) ist das Laplace-Spektrum von G.
220 Diskrete Strukturen: Spektren von Graphen

1 Da auch L symmetrisch ist, sind die Eigenwerte reell. Außerdem haben


2 isomorphe Graphen identische Laplace-Spektren. Dies beweist man genau so
3 wie Satz 26.3.
4 Beispiel 26.6. (a) Wenn wir die Knoten des Graphen G aus Beispiel 26.4 wie
5 folgt nummerieren,
1 2

6
3 4

7 so ergibt sich die Laplace-Matrix


 
2 −1 −1 0 0
−1 2 0 −1 0
 
8 L= −1 0 2 −1 0 .

 0 −1 −1 2 0
0 0 0 0 0

9 Rechnung liefert, dass das Laplace-Spektrum 0,0,2,2,4 ist. Der Graph G0


10 aus Beispiel 26.4 hat im Gegensatz dazu das Laplace-Spektrum 0,1,1,1,5.
11 Diese beiden Graphen lassen sich also durch ihre Laplace-Spektren tren-
12 nen! Wir sehen also, dass das Laplace-Spektrum eine neue Invariante ist,
13 die weitere Informationen liefert.
14 (b) Nun betrachten wir die folgenden Graphen G und G0 :

G s s
G0
s
@
s s
@
@s b "
b "
@ b "
@ b"
s @s " b
" b
s" bs
@@ b "
b "
15
@s b s"

16 Aufstellen der Laplace-Matrizen und Berechnen der Eigenwerte ergibt,


17 dass G und G0 beide das Laplace-Spektrum
√ √
18 0, 3 − 5, 2, 3, 3, 3 + 5

19 haben. G und G0 sind aber nicht isomorph. Dies kann man z.B. daran
20 sehen, dass G0 einen Knoten von Grad 1 enthält, G aber nicht. /
21 Man kann auch Beispiele nicht isomorpher Graphen finden, bei denen das
22 Spektrum und das Laplace-Spektrum übereinstimmen.
Diskrete Strukturen: Spektren von Graphen 221

1 Satz 26.7. Die Laplace-Matrix eines Graphen ist positiv semidefinit. Das
2 Laplace-Spektrum besteht also aus lauter nicht-negativen Zahlen.
Beweis. Es sei A = (gi,j ) ∈ Rn×n !die Adjazenzmatrix eines Graphen. Wir
x1
benutzen Satz 24.19. Für v = .. ∈ Rn gilt
.
xn

n
X n
X X
hv, L · vi = xi li,j xj = di x2i − gi,j xi xj =
i,j=1 i=1 i6=j
n X
X n n X
X n X
gi,j x2i − gi,j x2i + x2j − 2xi xj =

gi,j xi xj =
i=1 j=1 i=1 j=1 1≤i<j≤n
j6=i j6=i
X
gi,j (xi − xj )2 ≥ 0. (26.1)
1≤i<j≤n

3 t
u
4 Indem wir den obigen Beweis nochmal anschauen und analysieren, für
5 welche Vektoren v ∈ Rn die Gleichung hv, L · vi = 0 gilt, erhalten wir einen
6 interessanten Zusatz.
7 Satz 26.8. Die Anzahl der Zusammenhangskomponenten eines Graphen G
8 ist die Vielfachheit des Eigenwertes 0 im Laplace-Spektrum.
x1
!
9 Beweis. Für welche Vektoren v = .
.. ∈ Rn gilt hv, L · vi = 0? We-
xn
10 gen (26.1) muss xi = xj für alle i, j mit gi,j = 1 gelten. Wegen der Transi-
11 tivität der Gleichheitsbeziehung gilt dann auch automatisch xi = xj , wenn i
12 und j in derselben Zusammenhangskomponente von G liegen. Umgekehrt
13 kann man für jede Zusammenhangskomponente Zk eine Zahl αk ∈ R wählen
14 und dann für alle Knoten i ∈ Zk xi := αk setzen. So erhält man einen
15 Vektor v mit hv, L · vi = 0. Wir fassen zusammen: Mit

16 E0 := {v ∈ Rn | hv, L · vi = 0}

17 gilt

18 dim(E0 ) = Anzahl der Zusammenhangskomponenten. (26.2)

19 Warum ist dim(E0 ) die Vielfachheit des Eigenwertes 0 von L? Wegen Korol-
20 lar 24.15(a) gibt es eine Orthonormalbasis {v1 , . . . , vn } aus Eigenvektoren.
21 Also L · vi = λi vi mit λi ≥ 0 wegen Satz 26.7. Durch Umordnen Pn können wir
22 λ1 = · · · = λl = 0 und λi > 0 für i > l erreichen. Für v = i=1 yi vi ∈ Rn
23 folgt
222 Diskrete Strukturen: Spektren von Graphen
n
X n
X
1 hv, L · vi = yi λj yj hvi , vj i = λi yi2 ,
i,j=1 i=1

2 also v ∈ E0 genau dann wenn yl+1 = · · · = yn = 0. Dies ergibt

3 dim(E0 ) = l = Vielfachheit des Eigenwertes 0 von L.

4 Mit (26.2) folgt die Behauptung. t


u
1 Notation

2 A/∼, 25 35 :⇐⇒, 8
3 A+ , 11, 213 36 ⇔, 5
4 A−1 , 99 37 || A ||s , 212
5 | A |, 23 38 AS , 56
6 | A |< ∞, 23 39 A ∩ B, 9
7 | A |= ∞, 23 40 AT , 75
8 A, 196 41 A · v, 97
9 a−1 , 48
10 (a1 , . . . , an ), 17 42 Bild(ϕ), 91
. .
11 A1 ∪ · · · ∪ An , 165 43 Bild(f ), 16
12 a · b, 47 44 b∗ , 162
13 a | b, 57 45 B ∗ , 162
14 ab, 47
15 A + B, 96 46 c · A, 96
16 A ≈ B, 135 47 C([a, b], C), 188
17 A · B, 97 48 C([a, b], R), 186
18 A . B, 20 49 char(R), 60
19 A ≺ B, 20 50 χA , 128
20 A ∼ B, 20
21 A ⊆ B, 8 51 D(α), 204
22 A $ B, 8 52 DB , 95
23 A × B, 14 53 DC,B , 95
24 A = B, 7 54 deg(f ), 60
25 (ai,j
 ), 75 55 deg(x), 39
a
26
k
, 166 56 δi,j , 61
A
27
k
, 171 57 det(A), 117
28 ∀,\ 5 58 diag(a1 , . . . , an ), 124
29 A, 9 59 dim(V ), 87
A∈M 60 d(v, w), 189
[
30 A, 10
A∈M 61 ei , 82
31 A \ B, 9 62 Ei,j , 125
32 an , 49 63 Eλ , 127
33 An , 17 64 ∈, 6
34 An , 118 65 ∃, 5

223
224 Notation

1 f −1 , 16 45 R≥0 , 16
2 F2 , 103 46 R/(a), 57
3 f (A0 ), 15 47 Re(z), 190
4 f |A0 , 17 48 rg(A), 80
5 f : A → B, 15 49 R[[x]], 176
6 f : A → B, x 7→ . . ., 15 50 R[x], 60
7 f −1 (B 0 ), 16
8 f (c), 62 51 hSi, 71
9 f ◦ g, 18 52 SA , 50
10 ϕA , 90 53 SB,B 0 , 100
11 ⇒, 5 54 sgn(σ), 116
12 Fp , 59 55 SLn (K), 124
13 f (x), 15 56 Sn , 50, 115

14 G0 , 44 57 U1 + U2 , 70
15 g ◦ f , 18 58
L1n⊕ · · · ⊕ Un , 111
U
16 ggT(a1 , . . . , an ), 142 59
Pni=1 Ui , 111
17 :=, 6 60
i=1 Ui , 111
18 GLn (K), 100 61 ∧, 5
19 GLn (R), 135
62 || v ||, 189
20 Hom(V, W ), 90 63 V /U , 109
64 hv1 , . . . , vn i, 71
21 idA , 17 65 V ∗ , 161
22 In , 98 66 V ∗∗ , 163
23 e, 48 67 v + U , 109
68 hv, wi, 185, 187
24 Kern(ϕ), 90 69 V ∼ = W , 91
25 Kern(ϕ), 52
26 K m×n , 75 70 w(σ), 116
27 K n , 68
28 K[x], siehe R[x] 71 [x]∼ , 25
72 bxc, 21
73 x, 58
29 ∅, 9
74 x∈ / A, 8
T 75 {x ∈ A | C(x)}, 8
30
S M, 9 76 x + Ra, 57
31 M , 10
77 xRy, 23
32 ma (λ), 129
78 (x, y), 14
33 mg (λ), 129 79 {x, y}, 10
80 x < y, 28
34 [n], 171 81 x = y, 7
35 {1, . . . , n}, 17 82 x > y, 28
36 N, 12 83 x ≥ y, 28
37 N>0 , 17 84 x ≤ y, 27
38 n!, 50 85 x | y, 24
39 ¬, 5 86 x 6= y, 8
n
, siehe a

40
k k 87 x ∼ y, 25
k
41 n , 166 88 x ≡ y mod a, 57
89 x ≡ y mod m, 26
42 ∨, 5
90 | z |, 187
43 P(A), 10 91 z, 187
44 ϕ∗ , 163, 198 92 Z/(m), 26
1 Index

2 Abbildung, 15 37 Basissatz, 86
3 Gleichheit, 15 38 Basiswechsel, 100–102
4 Abbildungsvorschrift, 15 39 Basiswechselmatrix, 100, 195
5 abelsch, 47 40 Bauer-Code, 109
6 Abstand, 189 41 Baum, 37, 37–41
7 abzählbar unendlich, 23 42 Bedingung, 8
8 additive Schreibweise, 49 43 Begleitmatrix, 149
9 Adjazenzmatrix, 218 44 beschränkt, siehe nach oben oder nach
10 adjungierte Abbildung, 198 45 unten beschränkt
11 adjunkte Matrix, 122 46 Bidualraum, 163
12 affiner Unterraum, 109 47 Bijektion, 20
13 ähnliche Matrizen, 101 48 bijektiv, 16
14 algebraisch abgeschlossen, 65, 152 49 Bild, 15, 16
15 algebraische Vielfachheit, 129, 154 50 Bild einer linearen Abbildung, 91
16 Algorithmus von Gauß, siehe Gauß- 51 Bildbereich, 15
17 Algorithmus 52 bilinear, 186
18 allgemeine lineare Gruppe, 100 53 Binomialkoeffizient, 167, 166–171
19 allgemeine Normalform, 149, 150 54 Binomialreihe, 177
20 Allquantor, 5 55 Blatt
21 alternierende Gruppe, 118 56 Graph, 39
22 antisymmetrisch, 24, 200 57 Block-Diagonalmatrix, 149
23 äquivalente Matrizen, 102, 135 58 Block-Dreiecksgestalt, 125
24 Äquivalenzklasse, 25
25 Äquivalenzrelation, 25, 25–27, 37, 57, 59 Cantor, Georg, 6, 22
26 102, 109 60 Catalan-Zahlen, 182, 178–183
27 Assoziativitätsgesetz, 18 61 Cauchy-Folge, 190
28 aufgespannter Unterraum, siehe er- 62 Cauchy-Produkt, 176
29 zeugter Unterraum 63 Cayley-Hamilton
30 aufspannender Teilgraph, 38 64 Satz von, 134, 151
31 Aussonderungsaxiom, 8 65 Charakteristik, 60
32 Auswahlaxiom, 13, 19, 27 66 charakteristische Matrix, 128, 146
33 Auswertung, 62 67 charakteristische Polynom, 128
68 Code, 103
34 Banachraum, 190 69 Codewort, 103
35 Basis, 82
36 Basisergänzungssatz, 85, 113 70 Darstellungsmatrix, 95

225
226 Index

1 einer symmetrischen Bilinear- 54 minimal, 83


2 form, 187 55 Erzeugnis, siehe erzeugter Unterraum
3 Definitionsbereich, 15 56 erzeugte Untergruppe, 51
4 Determinante, 117 57 erzeugter Unterraum, 71, 72
5 Entwicklung, 120 58 euklidischer Algorithmus, 59
6 Determinantenmultiplikationssatz, 59 euklidischer Raum, 186
7 119 60 euklidischer Ring, 145
8 diagonalisierbar, 131, 202 61 Euler, Leonhard, 41
9 Diagonalmatrix, 124 62 eulerscher Graph, 42, 42–46
10 Differenzmenge, 9 63 eulerscher Kantenzug, 42
11 Dimension, 87 64 Existenzquantor, 5
12 Dimensionssatz 65 Extensionalitätsaxiom, 7
13 für lineare Abbildungen, 92
14 für Unterräume, 110 66 Facebook, 34
15 direkte Summe, 111, 131 67 Faktormenge, 25, 57
16 disjunkt, 9, 165 68 Faktorraum, 109
17 disjunkte Vereinigung, 118, 165 69 Fakultät, 50
18 Division mit Rest, 62, 137, 144 70 fallende Faktorielle, 166
19 Drehkästchen, 205 71 fehlererkennend, 106
20 Dreiecksmatrix, 125 72 fehlerkorrigierend, 105
21 Dreiecksungleichung, 190 73 Fehlstellen, 116
22 Dualbasis, 162 74 Fibonacci-Zahlen, 173–175, 177
23 duale Abbildung, 163 75 formale Potenzreihe, 175
24 Dualraum, 161 76 formaler Potenzreihenring, 176
25 durchschnittsabgeschlossenes System, 77 Fortsetzung, 17
26 71 78 Fourierreihe, 192
79 Fundamentalsatz der Algebra, 65
27 Ecke 80 Fundamentalsatz der Arithmetik, 142
28 Graph, siehe Knoten 81 Fundiertheitsaxiom, 13
29 Eigenfunktion, 128 82 Funktion, siehe Abbildung
30 Eigenraum, 127
31 Eigenvektor, 127 83 Gaußschen ganzen Zahlen, 145
32 Eigenwert, 127 84 Gauß-Algorithmus, 77, 88, 99, 125
33 Vielfachheit, 129 85 gekoppelte Schwinger, 132
34 eindeutige Darstellungseigenschaft, 81 86 genau ein, 15
35 einfacher Graph, 36 87 Generatormatrix, 103
36 Einheitsmatrix, 98 88 geometrische Vielfachheit, 129, 154
37 Einschränkung, 17 89 geordnete Basis, 94
38 Relation, 24 90 geordnete Menge, 27
39 Eintrag einer Matrix, 74 91 geordnetes Paar, 14
40 elementare Spaltenoperationen, 126 92 geordnetes Tripel, 14
41 elementare Zeilenoperationen, 76, 125 93 gerichteter Graph, 34
42 Elementarteiler, 142 94 geschlossener Kantenzug, 42
43 wesentlich, siehe wesentlicher 95 gewichteter Graph, 35
44 Elementarteiler 96 ggT, 140, 142
45 elementfremde Zykel, 50 97 Gleichheit, 7
46 Elementzahl, 23 98 gleichmächtig, 20, 165
47 endlich, 23 99 Grad
48 endlich-dimensional, 87 100 Knoten, 39, 43, 219
49 Entwicklung der Determinante, 120 101 Polynom, 60
50 Ersetzungsaxiom, 13 102 Graph, 33, 33–46
51 erweiterte Koeffizientenmatrix, 75 103 einfach, 36
52 erzeugende Funktion, 174 104 gerichtet, 34
53 Erzeugendensystem, 82 105 gewichtet, 35
Index 227

1 zusammenhängend, 36 52 Jordan-Kästchen, 149


2 größte untere Schranke, 29 53 Jordansche Normalform, 150
3 größter gemeinsamer Teiler, siehe ggT
4 größtes Element, 28 54 kanonisch, 92
5 Gruppe, 47 55 kanonische Projektion, 25
56 Kante
6 Halmos, Paul, 20 57 Graph, 33, 42
7 Hamming-Abstand, 105 58 Kantenzug, 42
8 Hamming-Code, 107 59 kartesisches Produkt, 14, 165
9 Hamming-Gewicht, 105 60 Kern, 52, 90
10 Hamming-Metrik, 191 61 Kette, 28
11 Hauptachsentransformation, 205 62 kgV, 143, 153
12 Hauptraum, 157 63 kleinste obere Schranke, 29
13 Haus des Nikolaus, 42 64 kleinstes Element, 28
14 hermitesch, 208 65 kleinstes gemeinsames Vielfaches, sie-
15 hermitesche Form, 188 66 he kgV
16 hermitesche Matrix, 189, 205 67 Knoten
17 Hilbertraum, 190 68 Graph, 33
18 Hintereinanderausführung, 18 69 Koeffizient, 60
19 höchstens so mächtig, 20 70 Koeffizientenmatrix, 75
20 homogenes LGS, 75 71 kommutative Gruppe, siehe abelsch
21 Basis des Lösungsraums, 83 72 kommutativer Ring, 55
22 Dimension des Lösungsraums, 88 73 Kommutativitätsgesetz, 18
23 Homomorphismus 74 Komplement, 111
24 von Gruppen, 52 75 komplexe Konjugation, 187
25 von Ringen, 62 76 komplexe Zahlen, 65
77 komplexer Vektorraum, 187
26 identische Abbildung, 16 78 komplexes Skalarprodukt, 188
27 indefinit, 208 79 Komposition, 18, 90, 97
28 Induktion, siehe vollständige Indukti- 80 kongruent, 26, 57
29 on 81 Königsberger Bückenproblem, 41, 46
30 induktive Menge, 11 82 Kontinuumshypothese, 22
31 Informationsrate, 103 83 konvergente Folge, 190
32 Informationswort, 103 84 Koordinatenfunktional, 90
33 inhomogenes LGS, 75 85 Koordinatenvektor, 91
34 Injektion, 20 86 Körper, 55
35 injektiv, 16 87 Kreis, 36
36 Inklusion-Exklusion, 171 88 in Multigraphen, 42
37 invariante Faktoren, 142 89 kreisfreier Graph, 36, 36–40
38 Inverse, 16
39 inverse Abbildung, 16 90 Länge, 189
40 inverse Matrix, 99 91 Länge eines Codes, 103
41 inverses Element, 48 92 Laplace-Matrix, 219
42 invertierbar, 99, 135 93 Laplace-Spektrum, 219
43 isolierter Knoten, 39, 44 94 leere Menge, 9
44 Isometrie, 195 95 Leonhard Euler, 41, 42
45 isomorphe Graphen, 217 96 LGS, siehe lineares Gleichungssystem
46 isomorphe Gruppen, 54 97 linear abhängig, 81
47 isomorphe Vektorräume, 91 98 linear unabhängig, 81
48 Isomorphismus, 91 99 maximal, 83
49 Gruppen, 54 100 Test, 81
50 isospektral, 219 101 lineare Abbildung, 89
102 Dimensionssatz, 92
51 Jordan-Basis, 157 103 lineare Fortsetzung, 94
228 Index

1 linearer Code, 103 52 orthogonal, 192


2 lineares Gleichungssystem, 74 53 orthogonale Abbildung, 195
3 ganzzahlig, 135 54 orthogonale Gruppe, 196
4 Lösungsverfahren, 78 55 orthogonale Matrix, 196
5 Linearfaktor, 64 56 orthogonale Projektion, 214
6 Linearform, 161 57 orthogonales Komplement, 192
7 Linearkombination, 72 58 Orthogonalsystem, 192
8 Linksinverse, 19 59 Orthonormalbasis, 192
9 Logik, 5 60 Orthonormalsystem, 192
10 Lösungsmenge, 76
61 paarweise disjunkt, 13
11 mächtig, siehe gleichmächtig, 62 Parity-Check-Code, 104
12 höchstens so mächtig 63 Parity-Check-Matrix, 106
13 mächtiger, 20 64 Partialbruchzerlegung, 174
14 Mächtigkeit, 20 65 partiell geordnete Menge, 28
15 Manhattan-Norm, 191 66 partielle Ordnung, 28
16 Matrix, 74 67 Pascalsche Dreieck, 167
17 Matrixprodukt, 97 68 Peano-Axiome, 12
18 maximal linear unabhängig, 83 69 Permutation, 50, 115
19 maximales Element, 28 70 fixpunktfrei, 172
20 Maximum-Norm, 191 71 Polarzerlegung, 212
21 Metrik, 105, 190 72 Polynom, 60
22 metrischer Raum, 190 73 konstant, 62
23 minimales Element, 28 74 Polynomfunktion, 62
24 minimales Erzeugendensystem, 83 75 Polynomring, 60
25 Minimalpolynom, 160 76 positiv definit, 186, 188, 208
26 Minor, 124, 141 77 positiv semidefinit, 208
27 Modul, 69, 86 78 Potenzmenge, 10, 22, 28
28 modulo, 57 79 Potenzmengenaxiom, 10
29 Moore-Penrose-Inverse, 213 80 Prädikat, 8
30 Multigraph, 35, 42, 41–46, 218 81 Primpolynom, 142, 148
82 Primzahl, 59, 142
31 n-Tupel, 17 83 Produkt, 47
32 nach oben beschränkt, 28 84 Produkt von Matrizen, 97
33 nach unten beschränkt, 28 85 Pseudo-Inverse, 213
34 Nachfolger, 11 86 punktweise, 68
35 natürliche Zahlen, 11
36 negativ definit, 208 87 quadratische Matrix, 75
37 negativ semidefinit, 208 88 Quantor, 5
38 neutrales Element, 48 89 Quotientenmenge, 25
39 Norm, 189
40 normale Abbildung, 200 90 Rang, 80, 88, 93
41 normale Matrix, 200 91 Realteil, 190
42 Normalteiler, 54 92 Rechtsinverse, 19
43 normierter Vektorraum, 190 93 Redundanz, 103
44 normiertes Polynom, 129, 136 94 reeller Vektorraum, 186
45 Nullabbildung, 89 95 reflexiv, 24
46 Nullfunktion, 68 96 Reflexivität, 7, 21
47 Nullraum, 68, 71, 83, 87 97 reguläre Matrix, 80, 99, 122
48 Nullstelle, 62 98 ist invertierbar, 99
99 Relation, 23
49 obere Dreiecksmatrix, 125 100 binär, 23
50 obere Schranke, 28 101 k-stellig, 23
51 Ordnungsrelation, 25, 27–32 102 Repräsentant, 25
Index 229

1 Restklasse, 26, 57 53 Teilbarkeit, 24


2 Restklassenring, 57 54 Teiler, 56
3 Ring, 55 55 Teilgraph, 38
4 Ring-Homomorphismus, 62 56 aufspannend, 38
5 Russelsche Antinomie, 6 57 Teilraum, siehe Unterraum
58 teilt, 24
6 Sarrus-Regel, 117 59 total geordnete Menge, 28
60 totale Ordnung, 28
7 Schleife, 34
61 Trägheitstensor, 208
8 Schmidtsches Orthogonalisierungsver-
62 transitiv, 25
9 fahren, 193, 206
63 Transitivität, 7, 21
10 Schnittmenge, 9
64 transponierte Matrix, 75, 106, 117,
11 Schröder und Bernsein
65 141
12 Satz von, 20
66 Transposition, 52, 116
13 Schwarzsche Ungleichung, 189
67 Triangulation, 178
14 selbstadjungiert, 200, 208, 214
68 Trichotomie, 20
15 semi-eulerscher Graph, 42, 42–46
69 triviale Gruppe, 49
16 semilinear, 188
70 Tupel, siehe n-Tupel
17 senkrecht, 192
18 sesquilinear, 188
71 überabzählbar, 23
19 Sesquilinearform, 188
72 Umkehrabbildung, 16
20 Singulärwerte, 211 73 unendlich-dimensional, 87
21 Singulärwertzerlegung, 210 74 Unendlichkeitsaxiom, 11
22 Skalare, 68 75 unitäre Abbildung, 195
23 Skalarprodukt, 185, 186 76 unitäre Gruppe, 196
24 Smith-Normalform, 136 77 unitäre Matrix, 196
25 Spalte, 75 78 unitärer Raum, 188
26 Spaltenrang, 93 79 Unterdeterminante, siehe Minor
27 Spaltenvektor, 75 80 untere Dreiecksmatrix, 125
28 Spannbaum, 38 81 untere Schranke, 28
29 Spektralnorm, 212 82 Untergraph, siehe Teilgraph
30 Spektralsatz, 201–203 83 Untergruppe, 51
31 Spektrum, 218 84 Unterraum, 70
32 spezielle lineare Gruppe, 124 85 affin, siehe affiner Unterraum
33 spezielle orthogonale Gruppe, 196 86 Untervektorraum, siehe Unterraum
34 spezielle unitäre Gruppe, 197 87 Urbild, 16
35 Spiegelung, 197
36 Spur, 129 88 Vektor, 68
37 Standard-Skalarprodukt, siehe Skalar- 89 Länge, siehe Länge
38 produkt 90 Vektorraum, 67
39 Standardbasis, 82, 96 91 Vereinigungsmengenaxiom, 9
40 Standardraum, 68, 75, 87 92 vergleichbar, 28
41 starke Induktion, 32, 43 93 Vertreter, 25, 27
42 strenge Zeilenstufenform, 76 94 Vertretersystem, 27
43 Subgraph, siehe Teilgraph 95 Vielfaches, 56
44 Summenraum, 71, 111 96 Vielfachheit, 129
45 Surjektion, 20 97 einer Nullstelle, 64
46 surjektiv, 16 98 vollständige Induktion, 12
47 Symmetriegruppe, 49 99 Vorzeichen, 116
48 symmetrisch, 24
49 symmetrische Bilinearform, 186 100 Wald, siehe kreisfreier Graph
50 symmetrische Gruppe, 50, 52, 115 101 Weg, 36
51 symmetrische Matrix, 75, 205 102 wesentlicher Elementarteiler, 143
52 Syndrom, 107 103 Wiederholungscode, 104
230 Index

1 Winkel, 191 11 Zeilenvektor, 75


2 Wohldefiniertheit, 57, 110 12 Zerlegung in Primzahlpotenzen, 143
3 wohlgeordnet, 28, 31–32
13 Zermelo-Fraenkel-Mengenlehre, 6
4 Wohlordnung, 28, 31–32
5 Wohlordnungssatz, 31 14 Zornsches Lemma, 13, 20, 30, 31, 85
15 zusammenhängender Graph, 36
6 Zeile, 75
16 Zusammenhangskomponente, 37, 38,
7 Zeilenrang, 93
17 219, 221
8 Zeilenstufenform, 76
9 streng, siehe strenge Zeilenstu- 18 Zweiermengenaxiom, 10
10 fenform 19 Zykel, 50