Sie sind auf Seite 1von 110

Univ.Prof.Dr.

Aicke Hinrichs
TNF
Institut für Analysis

Version vom
3. März 2018

Analysis 2

Vorlesungsnotizen – Sommersemester 2018

JOHANNES KEPLER
UNIVERSITÄT LINZ
Altenbergerstraße 69
4040 Linz, Österreich
www.jku.at
DVR 0093696
i

Inhaltsverzeichnis
8 Folgen und Reihen von Funktionen 1
8.1 Gleichmäßige Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
8.1.1 Gleichmäßige Konvergenz und Stetigkeit . . . . . . . . . . . . . . . . . . . . 6
8.1.2 Gleichmäßige Konvergenz und Integration . . . . . . . . . . . . . . . . . . . 7
8.1.3 Gleichmäßige Konvergenz und Differentiation . . . . . . . . . . . . . . . . . 8
8.2 Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

9 Metrische Räume 15
9.1 Definition, Begriffe und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . 15
9.2 Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
9.3 Stetige Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
9.4 Der Banachsche Fixpunktsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
9.5 Kompaktheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

10 Differentialrechnung multivariater Funktionen 31


10.1 Darstellung von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
10.2 Differenzierbarkeit und Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . 33
10.3 Rechenregeln für Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
10.4 Höhere Ableitungen und Vertauschungssatz von Schwarz . . . . . . . . . . . . . 44
10.5 Satz von Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
10.6 Lokale Extrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
10.7 Satz von der inversen Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
10.8 Satz von der impliziten Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . 59
10.9 Lokale Extrema mit Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . 64

11 Integralrechnung multivariater Funktionen 67


11.1 Wege, Kurven, Kurvenintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
11.1.1 Wege und Kurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
11.1.2 Kurvenintegrale 1. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
11.1.3 Kurvenintegrale 2. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
11.1.4 Wegunabhängigkeit, Potentiale und Gradientenfelder . . . . . . . . . . . . . 76
11.2 Das mehrdimensionale Riemann-Integral . . . . . . . . . . . . . . . . . . . . . . 81
11.2.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
11.2.2 Satz von Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
11.2.3 Substitutionsregel und Koordinatenwechsel . . . . . . . . . . . . . . . . . . . 92
11.3 Flächen und Oberflächenintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . 95
11.3.1 Flächen, Parametrisierungen, Normalenvektor . . . . . . . . . . . . . . . . . 95
ii

11.3.2 Oberflächenintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
11.4 Die Integralsätze von Gauß und Stokes . . . . . . . . . . . . . . . . . . . . . . . 100
11.4.1 Divergenz und Rotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
11.4.2 Der Integralsatz von Gauß in der Ebene . . . . . . . . . . . . . . . . . . . . 101
11.4.3 Der Integralsatz von Gauß im Raum . . . . . . . . . . . . . . . . . . . . . . 103
11.4.4 Der Integralsatz von Stokes . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
1

8 Folgen und Reihen von Funktionen


P∞
In diesem Kapitel wollen wir uns mit Folgen (fk ) und Reihen k=0 fk beschäftigen, deren Glieder
Funktionen fk : D → C mit D ⊂ R, C sind.
Funktionenreihen sind wir bereits beim Studium von Taylorreihen begegnet. Ist f : (a, b) → R
eine beliebig oft differenzierbare Funktion und ist x0 ∈ (a, b), dann ist die Taylorreihe von f
gegeben durch

X f (k) (x0 )
(x − x0 )k .
k!
k=0

Prominentestes Beispiel ist die Reihe der Exponentialfunktion



X xk
ex = ,
k!
k=1

die für alle x ∈ R, sogar für alle x ∈ C konvergiert. Reihen dieser Form heißen Potenzreihen,
diese wollen wir im zweiten Abschnitt dieses Kapitels studieren.
Im
P∞ersten Abschnitt soll es um allgemeine Reihen und Folgen von Funktionen gehen. Ist z.B.
k=0 fk (x) eine Reihe, deren Glieder fk : I → R auf einem Intervall I definierte Funktionen
sind, dann stellen sich folgende natürliche Fragen:

(a) Für welche x ∈ I konvergiert die Reihe?


P∞
(b) Falls die Funktionen fk stetig sind, ist dann die Grenzfunktion s(x) = k=0 fk (x) stetig?
P∞
(c) Falls die Funktionen fk differenzierbar
P∞ sind, ist dann die Grenzfunktion s(x) = k=0 fk (x)
0 0
differenzierbar und gilt s (x) = k=0 fk (x)?

(d) Falls die Funktionen fk Riemann-integrierbar sind, ist dann die Grenzfunktion s(x) =
P∞ Rb P∞ R b
k=0 fk (x) Riemann-integrierbar und gilt a s(x) dx = k=0 a fk (x) dx?

Bei den letzten drei Fragen handelt es sich um für die Analysis fundamentale Fragen zur Vertau-
schung von Grenzwerten, z.B. bei (c) um die Frage nach der Vertauschbarkeit der Summation
(Reihe als Grenzwert der Partialsummen) mit der Ableitung (Differentialquotient als Grenzwert
der Differenzenquotienten). Um dies noch deutlicher zu machen, betrachten wir zunächst Funk-
tionenfolgen statt Funktionenreihen. Funktionenreihen sind ja nichts anderes als die Folgen der
Partialsummen.
Ist also wieder (fn ) eine Folge von Funktionen fn : I → R mit limn→∞ fn (x) = f (x) für x ∈ I,
so lauten die entsprechenden Fragen (b) und (c):

(b) Falls die Funktionen fn stetig sind, ist dann die Grenzfunktion f stetig, gilt also

lim lim fn (x) = lim lim fn (x) ?


x→x0 n→∞ n→∞ x→x0

(c) Falls die Funktionen fn differenzierbar sind, ist dann die Grenzfunktion f differenzierbar
und gilt f 0 (x) = limn→∞ fn0 (x), also

fn (x) − fn (x0 ) fn (x) − fn (x0 )


lim lim = lim lim ?
x→x0 n→∞ x − x0 n→∞ x→x0 x − x0
2

Ziel des ersten Abschnittes dieses Kapitels ist die Beantwortung dieser Fragen.
Um die Existenz der Grenzfunktion begrifflich zu fassen, führen wir die folgende Sprechweise ein.

Definition 8.1 (Punktweise Konvergenz). Sei D eine beliebige Menge und sei (fn )n∈N eine
Folge von Funktionen fn : D → C. Die Folge (fn ) heißt punktweise konvergent, wenn für jedes
x ∈ D der Grenzwert f (x) = limn→∞ fn (x) existiert. In diesem Fall heißt f : D → C der
pw
punktweise Grenzwert der Funktionenfolge fn und wirP schreiben fn −−→ f .
Ist die Partialsummenfolge einer Funktionenreihe ∞ k=0 fk (x) punktweise P
konvergent, so sa-
gen wir, dass die Funktionenreihe punktweise konvergiert mit Summe s(x) = ∞ k=0 fk (x).

Die folgenden Beispiele zeigen, dass Grenzwertvertauschungen im allgemeinen nicht harmlos sind.
m
Beispiel 8.2. Hier betrachten wir zunächst nur eine Doppelfolge am,n = m+n für m, n ∈ N. Für
jedes feste n ist limm→∞ am,n = 1, für jedes feste m hingegen limn→∞ am,n = 0. Wir haben also

lim lim am,n = 0 6= 1 = lim lim am,n .


m→∞ n→∞ n→∞ m→∞

Man kann die beiden Grenzwerte nicht einfach vertauschen.


x 2
Beispiel 8.3. Für x ∈ R und k ∈ N0 setzen wir fk (x) = (1+x 2 )k und betrachten die Funktio-

nenreihe
∞ ∞
X X x2
f (x) = fk (x) = .
(1 + x2 )k
k=0 k=0

Die fk sind stetige Funktionen. Für die punktweise Summe f erhalten wir f (0) = 0 und für x 6= 0
eine geometrische Reihe mit

X 1 x2
f (x) = x2 2 k
= 1 = 1 + x2 .
(1 + x ) 1 − 1+x2
k=0

Die Funktion f ist offenbar bei x = 0 unstetig. Eine punktweise konvergente Reihe von stetigen
Funktionen kann eine unstetige Summe haben. Ebenso kann eine punktweise konvergente Folge
von stetigen Funktionen einen unstetigen Grenzwert haben.
Beispiel 8.4. Für m, n ∈ N und x ∈ R setzen wir
2n
fm (x) = lim cos(m!πx) .
n→∞

Die Funktionen fm sind also punktweise Grenzwerte


2 stetiger Funktionen. Ist m!x eine ganze
Zahl, dann ist fm (x) = 1, sonst ist cos(m!πx) < 1 und damit fm (x) = 0. Wieder haben wir
einen unstetigen punktweisen Grenzwert stetiger Funktionen. Für rationales x ist nun m!x eine
ganze Zahl für genügend großes m, für irrationales x niemals. Also folgt

2n 1 für rationales x
lim fm (x) = lim cos(m!πx) =
m→∞ m→∞ 0 für irrrationales x.

Wir erhalten also einen nirgends stetigen punktweisen Grenzwert, der nicht Riemann-integrierbar
ist, obwohl die Funktionen fm Riemann-integrierbar sind.
Beispiel 8.5. Für x ∈ R und n ∈ N setzen wir fn (x) = sin(nx) √
n
. Dann ist der punktweise
0
Grenzwert f (x) = limn→∞ fn (x) = 0 differenzierbar mit f (x) = 0 für x ∈ R. Nun ist aber
√ √
fn0 (x) = n cos(nx) nicht punktweise konvergent, z.B. gilt fn0 (0) = n → ∞. Man kann also
nicht einfach punktweise Grenzwerte und Ableitungen vertauschen.
3

Beispiel 8.6. Für x ∈ [0, 1] und n ∈ N setzen wir fn (x) = n2 x(1 − x2 )n . Dann existiert der
punktweise Grenzwert f (x) = limn→∞ fn (x). Offensichtlich ist f (0) = f (1) = 0. Außerdem ist
auch f (x) = 0 für 0 < x < 1 wegen 0 < 1 −Rx2 < 1 und limn→∞ n2 (1 − x2 )n = 0. Wir haben also
1
einen stetigen punktweisen Grenzwert mit 0 f (x) dx = 0. Nun berechnet man aber leicht
Z 1 Z 1
n2
fn (x) dx = n2 x(1 − x2 )n dx =
0 0 2n + 2
und somit Z 1
lim fn (x) dx = ∞.
n→∞ 0

Um Vertauschungen von Grenzwerten bei Funktionenfolgen und Funktionenreihen ausführen zu


können, brauchen wir also einen stärkeren Begriff von Konvergenz, die gleichmäßige Konvergenz.

8.1 Gleichmäßige Konvergenz

Definition 8.7 (Gleichmäßige Konvergenz). Sei D eine beliebige Menge und sei (fn )n∈N eine
Folge von Funktionen fn : D → C. Die Folge (fn ) heißt gleichmäßig konvergent gegen die
Funktion f : D → C, wenn es für jedes ε > 0 ein n0 ∈ N gibt, so dass für alle x ∈ D und n ≥ n0
die Abschätzung |fn (x) − f (x)| < ε gilt. In diesem Fall heißt f der gleichmäßige Grenzwert der
glm
Funktionenfolge fn und wir schreiben fn −−→ f .
Ist die Partialsummenfolge einer Funktionenreihe ∞
P
k=0 fk (x) gleichmäßig konvergent, so sa-
gen wir, dass die Funktionenreihe gleichmäßig konvergiert mit Summe s(x) = ∞
P
k=0 fk (x).

Bemerkung. Um uns die Beziehung zwischen gleichmäßiger und punktweiser Konvergenz deut-
lich zu machen, schreiben wir diese kompakt mit Quantoren:
pw
fn −−→ f ⇐⇒ ∀ε > 0 ∀x ∈ D ∃n0 ∈ N ∀n ∈ N : n ≥ n0 ⇒ |fn (x) − f (x)| < ε
glm
fn −−→ f ⇐⇒ ∀ε > 0 ∃n0 ∈ N ∀x ∈ D ∀n ∈ N : n ≥ n0 ⇒ |fn (x) − f (x)| < ε.

Im Fall der punktweisen Konvergenz darf also das n0 von x abhängen, im Fall der gleichmäßigen
Konvergenz nicht. Es folgt:
glm pw
fn −−→ f =⇒ fn −−→ f.
Bemerkung. Auch anschaulich kann man sich die gleichmäßige Konvergenz leicht veranschau-
lichen. Dazu betrachten wir eine Funktionenfolge fn : I → R auf einem Intervall I = [a, b]. Dann
glm
bedeutet die gleichmäßige Konvergenz fn −−→ f , dass für jedes ε > 0 fast alle fn die Ungleichung
f − ε < fn < f + ε erfüllen. Die Graphen fast aller Funktionen fn liegen also in einem ε-Schlauch
um den Graph der Funktion f , siehe Abbildung 1.

Ebenfalls nützlich zur Beschreibung der gleichmäßigen Konvergenz ist die Einführung des fol-
genden Begriffs.

Definition 8.8 (Supremumsnorm). Sei D eine beliebige Menge und sei f : D → C eine
beschränkte Funktion. Dann heißt

kf k∞ = sup |f (x)|
x∈D

Supremumsnorm von f .
4

25 y f (x) ± ε

20

15

10

x
3 4 5 6 7 8

Abbildung 1: Der ε-Schlauch

Bemerkung. Ist D = [a, b] ein abgeschlossenes Intervall und f : [a, b] → R stetig, dann liefert
der Satz vom Maximum und Minimum

kf k∞ = sup |f (x)| = max |f (x)|.


x∈[a,b] x∈[a,b]

In diesem Fall nennt man deshalb die Supremumsnorm manchmal auch Maximumsnorm

Bemerkung. Wir haben also die Äquivalenz


glm
fn −−→ f ⇐⇒ kfn − f k∞ → 0.

Vergleiche dies mit der entsprechenden Tatsache für Zahlenfolgen:

an → a ⇐⇒ |an − a| → 0.

Bemerkung. Die Supremumsnorm hat die folgenden offensichtlichen Eigenschaften:

(a) kf k∞ = 0 ⇐⇒ f = 0.

(b) kλf k∞ = |λ|kf k∞ für beschränktes f und λ ∈ C.

(c) kf + gk∞ ≤ kf k∞ + kgk∞ für beschränkte f und g.

Dabei folgt die dritte Eigenschaft, die man Dreiecksungleichung für die Supremumsnorm nennt,
direkt aus der Dreiecksungleichung für Zahlen. Diese Eigenschaften sind die Eigenschaften einer
Norm, die wir im nächsten Kapitel systematischer untersuchen wollen.
sin(nx) 1
Beispiel 8.9. Die Funktionenfolge fn (x) = n für x ∈ R ist wegen |fn (x)| ≤ n gleichmäßig
konvergent gegen die Nullfunktion.
5

Beispiel 8.10. Die Funktionenfolge fn (x) = xn ist auf D = [0, 1] punktweise konvergent gegen
die Funktion 
1 für x = 1
f (x) =
0 für 0 ≤ x < 1.
Wegen kfn − f k∞ = 1 für alle n (warum eigentlich?) ist sie aber nicht gleichmäßig konvergent.

In Analogie zu Zahlenfolgen definieren wir:

Definition 8.11. Sei D eine beliebige Menge und sei (fn )n∈N eine Folge von Funktionen fn :
D → C. Die Folge (fn ) heißt gleichmäßige Cauchy-Folge oder Cauchy-Folge in Supremumsnorm,
wenn es zu jedem ε > 0 ein n0 gibt mit

kfn − fm k∞ < ε für alle m, n ≥ n0 .

Ebenfalls in Analogie zu Zahlenfolgen gelten die Cauchy-Kriterien für Folgen und für Reihen.

Satz 8.12 (Cauchy-Kriterium). Sei D eine beliebige Menge und sei (fn )n∈N eine Folge von
Funktionen fn : D → C. Dann ist (fn ) gleichmäßig
P konvergent genau dann, wenn (fn ) eine
gleichmäßige Cauchy-Folge ist. Die Reihe fk konvergiert gleichmäßig genau dann, wenn für
jedes ε > 0 die Abschätzung
Xm
fk < ε



k=n

für genügend große m, n mit m ≥ n gilt.

Beweis. Vergleiche die Beweise mit den entsprechenden Beweisen für Zahlenfolgen. Man muss
nur den Betrag durch die Supremumsnorm ersetzen.
Das Cauchy-Kriterium für Reihen folgt direkt aus dem für Folgen, wir brauchen also nur das
Kriterium für Folgen zu zeigen.
Konvergiere zunächst (fn ) gleichmäßig gegen f . Für jedes ε > 0 gibt es dann ein n0 mit kfn −
f k∞ < 2ε für n ≥ n0 . Aus der Dreiecksungleichung für die Supremumsnorm folgt

kfn − fm k∞ ≤ kfn − f k∞ + kf − fm k∞ < ε für n, m ≥ n0 .

Also ist (fn ) eine gleichmäßige Cauchy-Folge.


Sei nun (fn ) eine gleichmäßige Cauchyfolge. Wegen |fn (x) − fm (x)| ≤ kfn − fm k∞ ist dann
fn (x) eine Cauchyfolge von komplexen Zahlen und damit konvergent, sagen wir gegen f (x).
pw
Wir erhalten also zunächst die punktweise Konvergenz fn −−→ f . Zu zeigen ist die gleichmäßige
glm
Konvergenz fn −−→ f . Sei dazu ε > 0 gegeben. Da (fn ) eine gleichmäßige Cauchy-Folge ist,
finden wir n0 ∈ N, so dass für alle x ∈ D

|fn (x) − fm (x)| < ε für n, m ≥ n0

gilt. lassen wir in dieser Ungleichung m → ∞ gehen, so erhalten wir für alle x ∈ D

|fn (x) − f (x)| < ε für n ≥ n0

und damit durch Übergang zum Supremum über alle x ∈ D auch kfn − f k∞ ≤ ε für n ≥ n0 ,
also die gewünschte gleichmäßige Konvergenz.
6

Für Reihen gibt es das folgende nützliche Konvergenzkriterium.

Satz 8.13 (Weierstraß-Kriterium). Sei D eine beliebige Menge und sei (fk )k∈N0 eine Folge von
Funktionen fk : D → C. Gilt dann
X∞
kfk k∞ < ∞,
k=0
P∞
dann konvergiert die Reihe k=0 fk gleichmäßig.
P∞
Beweis. Sei ε > 0. Aus dem Cauchy-Kriterium für die Zahlenreihe k=0 kfk k∞ folgt die Existenz
eines n0 ∈ N mit
Xm
kfk k∞ < ε für m ≥ n ≥ n0 .
k=n
Aus der Dreiecksungleichung für die Supremumsnorm folgt dann
Xm m
X
fk ≤ kfk k∞ < ε für m ≥ n ≥ n0 .



k=n k=n

Aus dem Cauchy-KriteriumP für die gleichmäßige Konvergenz von Reihen folgt nun die gleichmä-
ßige Konvergenz der Reihe ∞ k=0 fk .
P∞
Bemerkung.
P∞ Manchmal sagt man, dass die Funktionenreihe k=0 fk normal konvergiert, wenn
k=0 kfk k∞ < ∞ gilt. Dann haben wir also für Reihen die Implikationen

normale Konvergenz ⇒ gleichmäßige Konvergenz ⇒ punktweise Konvergenz.

Bemerkung. Das Weierstraß-Kriterium kann man auch folgendermaßen P formulieren und an-
P Gibt es Zahlen ak ∈ R mit |fk (x)| ≤ ak für alle x ∈ D und ist
wenden: ak konvergent, dann
ist fk gleichmäßig konvergent.
zk
Beispiel 8.14. Die Exponentialreihe ez = ∞
P
k=0 k! ist in jedem Kreis KR = {z ∈ C : |z| ≤ R}
normal und damit gleichmäßig
k konvergent. Dies folgt aus dem Weierstraß-Kriterium, da für
k Rk
z ∈ KR die Ungleichung k! ≤ Rk! gilt und die Reihe ∞
z P R
k=0 k! = e konvergiert. Ebenso sind
die Sinus- und die Cosinusreihe in jedem KR gleichmäßig konvergent.
1 P∞ k
Beispiel 8.15. Die geometrische Reihe 1−z = k=0 z ist in jedem Kreis KR = {z ∈ C :
|z| ≤ R} mit 0 < R < 1 normal undPdamit gleichmäßig konvergent wegen |z k | ≤ Rk und der
Konvergenz der geometrischen Reihe ∞ k 1
k=0 R = 1−R .

8.1.1 Gleichmäßige Konvergenz und Stetigkeit

Bei gleichmäßiger Konvergenz überträgt sich Stetigkeit auf die Grenzfunktion.

Satz 8.16. Sei D ⊆ C und sei (fn )n∈N eine Folge von stetigen Funktionen fn : D → C, die
gleichmäßig gegen eine Funktion f : D → C konvergiert. Dann ist f stetig.

Beweis. Der Beweis ist ein typischer Fall der Anwendung des sogenannten 3ε -Tricks.
Sei x0 ∈ D. Wir wollen Stetigkeit von f in x0 zeigen. Sei also ε > 0. Wir benutzen die Abschät-
zung
|f (x) − f (x0 )| ≤ |f (x) − fn (x)| + |fn (x) − fn (x0 )| + |fn (x0 ) − f (x0 )|,
7

die aus der Dreiecksungleichung folgt. Aus der Definition der Supremumsnorm erhalten wir dann

|f (x) − f (x0 )| ≤ kf − fn k∞ + |fn (x) − fn (x0 )| + kfn − f k∞ = 2kfn − f k∞ + |fn (x) − fn (x0 )|.
glm
Wegen fn −−→ f haben wir kfn − f k∞ → 0 und finden somit ein n ∈ N mit kfn − f k∞ < 3ε .
Dieses n fixieren wir nun. Die Stetigkeit von fn liefert uns ein δ > 0 mit |fn (x) − fn (x0 )| < 3ε für
|x − x0 | < δ. Zusammen erhalten wir
2ε ε
|f (x) − f (x0 )| < + =ε
3 3
für |x − x0 | < δ und damit die Stetigkeit von f .

Während also punktweise Grenzwerte stetiger Funktionen unstetig sein können, ist das bei gleich-
mäßigen Grenzwerten nicht der Fall.

8.1.2 Gleichmäßige Konvergenz und Integration

Bei gleichmäßiger Konvergenz kann man Grenzwert und Integral vertauschen.

Satz 8.17. Sei I = [a, b] ⊂ R und sei (fn )n∈N eine Folge von Riemann-integrierbaren Funktionen
fn : I → R, die gleichmäßig gegen eine Funktion f : I → R konvergiert. Dann ist f Riemann-
integrierbar und es gilt
Z b Z b
lim fn (x) dx = f (x) dx.
n→∞ a a

Beweis. Zu ε > 0 gibt es wegen der gleichmäßigen Konvergenz ein n0 ∈ N mit

fn (x) − ε ≤ f (x) ≤ fn (x) + ε für n ≥ n0 und x ∈ I.

Diese Ungleichungen übertragen sich auf die unteren und oberen Integrale und liefern

Z b Zb Zb ∗ Z b
fn (x) dx − ε(b − a) ≤ f (x) dx ≤ f (x) dx ≤ fn (x) dx + ε(b − a).
a ∗ a
a a

Rb
Z b
Setzen wir zur Abkürzung Jn = a fn (x) dx und J∗ = f (x) dx, so haben wir also |Jn − J∗ | ≤
∗a
ε(b − a) und damit die Konvergenz Jn → J∗ . Entsprechend folgt die Konvergenz Jn → J ∗ =
Z ∗b
f (x) dx. Also ist J∗ = J ∗ , f ist Riemann-integrierbar und
a
Z b Z b
f (x) dx = lim fn (x) dx.
a n→∞ a

Diese Vertauschbarkeit von gleichmäßigem Grenzwert und Integral überträgt sich wegen der
Linearität des Integrals sofort auf Reihen.
8

Satz 8.18 (Satz über die gliedweise Integration). Sei I = [a, b] ⊂ R undPsei (fk )k∈N0 eine Folge

von Riemann-integrierbaren Funktionen. fn : I → R und sei s(x) = k=0 fk (x) gleichmäßig
konvergent. Dann ist s Riemann-integrierbar und es gilt
Z b ∞ Z
X b
s(x) dx = fk (x) dx.
a k=0 a

Beispiel 8.19 (Logarithmusreihe). Für |x| < 1 haben wir wegen der gleichmäßigen Konvergenz
der geometrischen Reihe im Intervall [0, |x|]
x ∞ x ∞
xk+1 x2 x3
Z Z
dt X X
log(1 + x) = = (−1)k tk dt = (−1)k =x− + − +...
0 1+t 0 k+1 2 3
k=0 k=0

Beispiel 8.20 (Arcustangensreihe). Für |x| < 1 haben wir wegen der gleichmäßigen Konvergenz
der geometrischen Reihe im Intervall [0, |x|]
x ∞ x ∞
x2k+1 x3 x5
Z Z
dt X X
arctan x = = (−1)k t2k dt = (−1)k =x− + − +...
0 1 + t2 0 2k + 1 3 5
k=0 k=0

8.1.3 Gleichmäßige Konvergenz und Differentiation

Im Beispiel 8.5 haben wir gesehen, dass die gleichmäßige Konvergenz der Funktionenfolge für
die Vertauschbarkeit mit der Differentiation nicht ausreicht. Hier benötigt man gleichmäßige
Konvergenz der Ableitungsfolge.

Satz 8.21. Sei I = (a, b) ⊂ R und sei (fn )n∈N eine Folge von stetig differenzierbaren Funktionen
fn : I → R derart, dass die Folge (fn0 ) gleichmäßig gegen eine Funktion g : I → R konvergiert
und (fn ) punktweise gegen f : I → R konvergiert. Dann ist f stetig differenzierbar mit f 0 = g,
also gilt
lim fn0 (x) = f 0 (x).
n→∞

glm
Beweis. Wegen der gleichmäßigen Konvergenz fn0 −−→ g ist g stetig und Grenzwert und Integral
können vertauscht werden. Wir haben also mit einem festen c ∈ (a, b)
Z x Z x
g(t) dt = lim fn0 (t) dt = lim (fn (x) − fn (c)) = f (x) − f (c).
c n→∞ c n→∞

Nach dem Hauptsatz der Differential- und Integralrechnung ist die linke Seite eine Stammfunktion
von g, also ist auch f eine Stammfunktion von g, es gilt f 0 = g.

Diese Vertauschbarkeit von gleichmäßigem Grenzwert und Integral überträgt sich wegen der
Linearität der Ableitung sofort auf Reihen.

Satz 8.22 (Satz über die gliedweise Differentiation). Sei I = (a, b) ⊂ RPund sei (fk )k∈N0 eine
FolgePvon stetig differenzierbaren Funktionen fk : I → R und sei s(x) = ∞ k=0 fk (x) punktweise
∞ 0
und k=0 fk (x) gleichmäßig konvergent. Dann ist s differenzierbar und es gilt

X ∞
0 X
s0 (x) = fk (x) = fk0 (x).
k=0 k=0
9

Beispiel 8.23. Man erhält durch gliedweise Differentiation neue Nachweise der Formeln (ex )0 =
ex , (sin x)0 = cos x und (cos x)0 = − sin x.

Mit deutlich mehr Aufwand kann man zeigen, dass in diesen Sätzen die Stetigkeit der Ableitungen
der Funktionen (fk ) nicht notwendig ist. Das Resultat ist der folgende Satz, für dessen Beweis
wir hier auf die Literatur verweisen.

Satz 8.24. Sei I = (a, b) ⊂ R und sei (fn )n∈N eine Folge von differenzierbaren Funktionen
fn : I → R derart, dass die Folge (fn0 ) gleichmäßig gegen eine Funktion g : I → R konvergiert
und die Folge (fn (x0 )) zumindest für einen Punkt x0 ∈ (a, b) konvergiert. Dann konvergiert auch
(fn ) gleichmäßig gegen eine Funktion f : I → R und f ist differenzierbar mit f 0 = g.

8.2 Potenzreihen
Definition 8.25. Ist (ak ) eine Folge komplexer Zahlen, dann heißt die Reihe ∞ k
P
k=0 ak z eine
Potenzreihe mit der Variablen z ∈ C. Die Zahlen ak heißen Koeffizienten der Potenzreihe.

Bemerkung. Auch Reihen der Form ∞ k


P
k=0 ak (z −z0 ) für ein festes z0 ∈ C heißen Potenzreihen.
Die folgenden Resultate lassen sich durch eine einfache Translation z → z − z0 auch für solche
Reihen formulieren.

Bemerkung. An einigen Stellen in diesem AbschnittP wollenk wir nur reelle Koeffizienten und
reelle Argumente z betrachten. Dann schreiben wir ∞
k=0 ak x für die reelle Version der Potenz-
reihe.

Das Konvergenzgebiet einer Potenzreihe ist ein Kreis (möglicherweise mit Radius 0, wenn die
Reihe nur für z = 0 konvergiert, oder Radius ∞, wenn die Reihe für alle z ∈ C konvergiert wie
bei der Exponentialreihe). Darüber, und wie man diesen Konvergenzradius berechnet, gibt der
folgende Satz Auskunft.

Satz 8.26. Für eine Folge (ak ) komplexer Zahlen setzen wir
p
k 1
α = lim sup |ak | und R= .
k→∞ α

Dann ist die Potenzreihe ∞ k


P
k=0 ak z absolut konvergent für |z| < R und divergent für |z| > R.
In jedem Kreis Kr =P {z ∈ C : |z| ≤ r} mit r < R ist die Potenzreihe gleichmäßig konvergent.
Die Funktion f (z) = ∞ k
k=0 ak z für |z| < R ist eine stetige Funktion.

Beweis. Setzen wir bk = ak z k , so erhalten wir die Aussage über die absolute Konvergenz für
|z| < R und Divergenz für |z| > R aus dem Wurzelkriterium:
p
k
p |z|
lim sup |bk | = |z| lim sup k |ak | = α|z| = .
k→∞ k→∞ R

Die gleichmäßige Konvergenz in Kr für r < R folgt dann mittels des Weierstraß-Kriteriums
k k |ak |rk . Die Partialsummen der
P
aus der Abschätzung |ak z | ≤ |ak |r und der Konvergenz von
Potenzreihe sind Polynome, also stetig. Damit ist auch f stetig als gleichmäßiger Grenzwert in
Kr für alle r < R und damit für alle |z| < R.
10

Bemerkung. Der Radius R des Konvergenzkreises heißt Konvergenzradius. Man kann ihn eben-
falls berechnen als

1 ak
R= p bzw. R = lim ,
limk→∞ k |ak | k→∞ ak+1

falls diese Grenzwerte existieren. Die erste Formel ist dabei klar, die zweite folgt aus dem Quo-
tientenkriterium.
Für reelle Reihen sprechen wir auch vom Konvergenzintervall statt vom Konvergenzkreis.
P k k
Beispiel 8.27. Die Potenzreihe k z hat den Konvergenzradius R = 0.
P k
Beispiel 8.28. Die geometrische Reihe z , die Logarithmus- und die Arcustangens-Reihe
haben den Konvergenzradius R = 1.

Beispiel 8.29. Die Exponentialreihe, die Sinus- und die Cosinus-Reihe haben den Konvergenz-
radius R = ∞.

Über das Konvergenzverhalten einer Potenzreihe auf dem Rand des Konvergenzkreises kann man
keine einfache Aussage treffen, was die folgenden Beispiele zeigen.
P k
Beispiel 8.30. Die geometrische Reihe z konvergiert für kein z ∈ C mit |z| = 1, da die
Glieder der Reihe keine Nullfolge bilden.
P zk
Beispiel 8.31. Die Reihe k hat ebenfalls den Konvergenzradius R = 1, sie divergiert für
z = 1 (harmonische Reihe) und konvergiert für z = −1 (alternierende harmonische Reihe). Man
kann zeigen, dass sie auch für alle z ∈ C mit |z| = 1 und z 6= 1 konvergiert.
P zk
Beispiel 8.32. Die Reihe k2 P 1 den Konvergenzradius R = 1 und konvergiert für
hat ebenfalls
alle z ∈ C mit |z| = 1 sogar absolut, da k2
konvergiert.

Der folgende Satz erlaubt Schlußfolgerungen über die Konvergenz auf dem Rand des Konver-
genzkreises.

P 8.33 (Abelscher Grenzwertsatz). SeiP(a


Satz k ) eine Folge komplexer Zahlen, für die die Reihe
ak konvergiert. Setzen wir dann f (x) = ∞ k
k=0 ak x für x ∈ (−1, 1), so gilt


X
lim f (x) = ak .
x%1
k=0

Pn
Beweis. Mit den Partialsummen sn = k=0 ak und s−1 = 0 erhalten wir
n
X n
X n−1
X
ck xk = (sk − sk−1 )xk = (1 − x) sk xk + sn xn .
k=0 k=0 k=0

Für |x| < 1 ergibt sich durch Grenzübergang n → ∞



X
f (x) = (1 − x) s k xk .
k=0
11

Sei nun s = lim sn = ∞ ε


P
P sei εk> 0 gegeben. Dann wählen wir n0 ∈ N, so dass |sn −s| <
k=0 ak und 2
für n ≥ n0 gilt. Wegen (1 − x) ∞ k=0 x = 1 erhalten wir schließlich

n0
X
k
X ε
|f (x) − s| = (1 − x) (sk − s)x ≤ (1 − x) |sk − s||x|k + < ε

2
k=0 k=0
für x > 1 − δ mit geeignet gewähltem δ > 0. Das liefert aber gerade die behauptete Grenz-
wertaussage limx%1 f (x) = s.
Beispiel 8.34. Anwendung des Abelschen Grenzwertsatzes auf die Logarithmusreihe
x2 x3
log(1 + x) = x − + − +...
2 3
für |x| < 1 liefert für x = 1 die Summe der alternierenden harmonischen Reihe
1 1 1
log 2 = 1 − + − + − . . .
2 3 4
Beispiel 8.35. Anwendung des Abelschen Grenzwertsatzes auf die Arcustangensreihe
x3 x5
arctan x = x − + − +...
3 5
für |x| < 1 liefert für x = 1 die Identität
π 1 1 1
= 1 − + − + −...
4 3 5 7
Beispiel 8.36. Als Anwendung erhält man ebenfalls die Konvergenz des Cauchy-Produktes zwei-
er Reihen ohne Voraussetzung von absoluter Konvergenz. Bei Vorliegen von absoluter Konvergenz
hatten wir diese Aussage aus dem Umordnungssatz für Reihen gefolgert.
P P P
Seien A = ak , B = bk und C = ck konvergente Reihen komplexer Zahlen mit
ck = a0 bk + a1 bk−1 + a2 bk−2 + . . . ak b0 .
Dann gilt C = AB.
Zum Beweis setzen wir für 0 ≤ x ≤ 1
X∞ ∞
X ∞
X
f (x) = ak xk , g(x) = bk xk , h(x) = ck xk .
k=0 k=0 k=0
Da diese Reihen für |x| < 1 absolut konvergieren, erhalten wir h(x) = f (x)g(x) als Cauchy-
Produkt. Aus dem Abelschen Grenzwertsatz folgt nun limx%1 f (x) = A, limx%1 g(x) = B und
limx%1 h(x) = C und damit AB = C.

Potenzreihen kann man im gemeinsamen Konvergenzgebiet addieren und multiplizieren, was


sofort aus der absoluten Konvergenz und dem Cauchyprodukt folgt:
Satz 8.37. Sind

X ∞
X
f (z) = ak z k und g(z) = bk z k
k=0 k=0

zwei Potenzreihen mit Konvergenzradien R1 , R2 , so gilt für |z| < min(R1 , R2 )



X
f (z) + g(z) = (ak + bk )z k
k=0

X
f (z)g(z) = (a0 bk + a1 bk−1 + a2 bk−2 + · · · + ak b0 )z k
k=0
12

Aus den Sätzen über die gliedweise Differentiation und Integration und der gleichmäßigen Kon-
vergenz von Potenzreihen folgt, dass man Potenzreihen gliedweise differenzieren und integrieren
kann.

Satz 8.38. Ist f (x) = ∞ k


P
k=0 ak x eine Potenzreihe mit Konvergenzradius R, so haben auch die
Potenzreihen
∞ ∞
X
k−1
X ak k+1
g(x) = ak kx und h(x) = x
k+1
k=1 k=0

den Konvergenzradius R und es gilt


Z
f 0 (x) = g(x) und f (x) dx = h(x).

Insbesondere ist jede Potenzreihe in ihrem Konvergenzintervall eine beliebig oft differenzierbare
Funktion.

Beweis. Es genügt, die Behauptung für die Ableitung zu zeigen. Dafür brauchen wir nur noch
die Übereinstimmung der Konvergenzradien von f und g einzusehen, die aber sofort wegen
p √k
p p
lim sup k |kak | = lim k lim sup k |ak | = lim sup k |ak |
k→∞ k→∞ k→∞ k→∞

folgt.

Beispiel 8.39 (Potenzreihe ist ihre eigene


P∞ Taylorreihe). Durch sukzessives Differenzieren erhal-
k
ten wir die Ableitungen von f (x) = k=0 ak x als

X
f (n) (x) = k(k − 1) . . . (k − n + 1)ak xk−n ,
k=n

insbesondere gilt also f (n) (0) = n! an . Man kann also die Koeffizienten der Potenzreihe berechnen
f (n) (0)
als an = n! und erhält

X f (k) (0)
f (x) = xk .
k!
k=0

Dieser Satz zeigt, dass zwei Potenzreihen, die in einem beliebig kleinen Intervall um 0 die gleiche
Funktion darstellen, übereinstimmen. Erstaunlicherweise gilt dies schon, wenn Gleichheit nur in
einer Folge von Punkten gefordert wird, die gegen 0 konvergieren.

Satz 8.40 (Identitätssatz für Potenzreihen). Seien f (x) = ∞


P k
P∞ k
k=0 ak x und g(x) = k=0 bk x
zwei Potenzreihen mit Konvergenzradius mindestens R und sei (xm ) ⊂ (−R, R) \ {0} eine Folge
mit xm → 0 und f (xm ) = g(xm ). Dann gilt ak = bk für alle k ∈ N0 und f (x) = g(x) für alle
reellen (sogar komplexen) x mit |x| < R.

Beweis. Wir zeigen induktiv ak = bk . Aus der Stetigkeit von f und g folgt

a0 = f (0) = lim f (xm ) = lim g(xm ) = g(0) = b0 .


m→∞ m→∞

Sei nun ai = bi für i = 0, 1, . . . , n − 1 schon gezeigt. Dann betrachten wir die Potenzreihen

X ∞
X
u(x) = an+k xk und v(x) = bn+k xk
k=0 k=0
13

sowie das Polynom


n
X n
X
p(x) = ak xk = bk xk .
k=0 k=0

Wegen
xn u(x) = f (x) − p(x) und xn v(x) = g(x) − p(x)
und xm 6= 0 folgt aus der Voraussetzung des Satzes u(xm ) = v(xm ). Aus der Stetigkeit von u
und v folgt
an = u(0) = lim u(xm ) = lim v(xm ) = v(0) = bn .
m→∞ m→∞

Beispiel 8.41 (Binomialreihe). Wir wollen die binomische Formel


n  
n
X n k
(1 + x) = x
k
k=0

auf f (x) = (1 + x)α für beliebige reelle Koeffizienten α verallgemeinern. Dazu leiten wir zunächst
die Taylorreihe von f (x) her, die man mittels sukzessiven Ableitens als
∞  
X α k
bα (x) = x
k
k=0

mit den verallgemeinerten Binomialkoeffizienten


 
α α(α − 1) · · · (α − k + 1)
=
k k!

berechnet. Den Konvergenzradius erhalten wir für α ∈


/ N0 durch


ak α
R = lim = lim k  = lim k + 1 = lim k + 1 = 1 − lim α + 1 = 1.
α
k→∞ ak+1 k→∞ k→∞ |α − k| k→∞ k − α k→∞ k − α
k+1

Es bleibt noch zu zeigen, dass tatsächlich bα (x) = (1 + x)α für |x| < 1 gilt. Dazu differenzieren
wir die Potenzreihe für bα und erhalten
∞   ∞   ∞  
X α X α X α
b0α (x) = kxk−1
= k
(k + 1)x = (α − k)xk .
k k+1 k
k=1 k=0 k=0

Multiplikation mit 1 + x liefert


∞   ∞   ∞  
X α X α X α
(1 + x)b0α (x) = k
(α − k)x + k
kx = αxk = αbα (x).
k k k
k=0 k=1 k=0

Für die Funktion g(x) = (1 + x)−α bα (x) gilt dann g(0) = 1 und

g 0 (x) = (−α)(1 + x)−α−1 bα (x) + (1 + x)−α b0α (x) = 0.

Damit muss g(x) = 1 für alle x ∈ (−1, 1) sein, was die Behauptung war.
14

Beispiel 8.42. Aus bekannten Potenzreihen kann man durch Integrieren, Differenzieren und
Substitutionen weitere Potenzreihen ableiten. Einige Beispiele dafür haben wir schon behandelt,
als weiteres Beispiel wollen wir die Arcussinus-Reihe herleiten. Wir beginnen mit der Binomial-
reihe für α = − 12 und erhalten für |x| < 1
∞  1
1 X −2 k
√ = x .
1 + x k=0 k

Substituieren wir hier x = −u2 mit |u| < 1, ergibt sich


∞  1
1 k −2
X
√ = (−1) u2k
1−u2 k
k=0

und schließlich durch Integration


x ∞  1  2k+1
k −2 1 x3 1 · 3 x5 1 · 3 · 5 x7
Z
du X u
arcsin x = √ = (−1) =x+ · + · + · + ...
0 1 − u2 k 2k + 1 2 3 2·4 5 2·4·6 7
k=0
15

9 Metrische Räume
Zentraler Bestandteil des zweiten Teils der Analysisvorlesung ist die Analysis von Funktionen
mehrerer Variabler. Dazu ist es notwendig, in den Vektorräumen Rd und Cd mit einem Ab-
standsbegriff zu arbeiten. Bekannt ist Ihnen vielleicht bereits der euklidische Abstand. Die vielen
Anwendungen motivieren einen abstrakteren Zugang zum Abstandsbegriff über metrische Räu-
me. Ein metrischer Raum ist eine Menge mit einer Metrik, die zwei Elementen der Menge einen
Abstand zuordnet. Diese Metrik soll natürliche Eigenschaften eines Abstands haben, insbeson-
dere die Dreiecksungleichung erfüllen.
In einem metrischen Raum kann man dann konvergente Folgen betrachten, ganz analog zu kon-
vergenten Folgen komplexer Zahlen. Der grundlegende Unterschied ist, dass der Abstand der
komplexen Zahlen (gemessen als Betrag der Differenz) durch den Abstand der Punkte des me-
trischen Raums ersetzt wird.
Ebenso kann man den Begriff der Stetigkeit auf Funktionen zwischen zwei metrischen Räumen
ausdehnen.
Eine wichtige Eigenschaft, die ein metrischer Raum haben kann, ist die Kompaktheit. Sätze wie
der Satz vom Maximum und vom Minimum und der Satz von Bolzano-Weierstraß lassen sich auf
Folgen oder Funktionen ausdehnen, die auf einem kompakten metrischen Raum definiert sind.
Weiter sind stetige Funktionen auf kompakten Räumen automatisch gleichmäßig stetig.

9.1 Definition, Begriffe und Beispiele

Definition 9.1. Sei X eine nichtleere Menge. Eine Funktion d : X × X → R heißt Metrik oder
Abstand auf X, wenn gilt:

• Positive Definitheit: d(x, y) ≥ 0 für alle x, y ∈ X und d(x, y) = 0 ⇔ x = y

• Symmetrie: d(x, y) = d(y, x) für alle x, y ∈ X

• Dreiecksungleichung: d(x, z) ≤ d(x, y) + d(y, z) für alle x, y, z ∈ X.

Dann nennt man (X, d) einen metrischen Raum.

Bemerkung. Ist klar, welche Metrik gemeint ist, dann spricht man oft einfach von dem metri-
schen Raum X. Die Elemente eines metrischen Raums X nennt man auch Punkte des Raumes
X.
Beispiel 9.2. Auf den reellen Zahlen R bzw. den komplexen Zahlen C wird durch d(x, y) = |x−y|
eine Metrik definiert. Dadurch können R und C als metrische Räume betrachtet werden.
Beispiel 9.3 (Euklidische Metrik). Elemente der Vektorräume Rd und Cd werden wir in dieser
Vorlesung schreiben als x = (ξ1 , . . . , ξd ) = (ξk )dk=1 . Die Vektoren werden also mit lateinischen, die
Koordinaten mit griechischen Buchstaben geschrieben. Befinden wir uns allerdings im R2 oder
R3 , so werden wir gelegentlich auch wie üblich die Schreibweisen (x, y) ∈ R2 und (x, y, z) ∈ R3
benutzen. Auf den Vektorräumen Rd und Cd ist durch die Definition
v
u d
uX
d(x, y) = t |ξ − η |2
k k für x = (ξ )d und y = (η )d
k k=1 k k=1
k=1

die euklidische Metrik gegeben. Symmetrie und Definitheit sind klar, die Dreiecksungleichung
beweisen wir gleich.
16

Beispiel 9.4 (Diskrete Metrik). Auf jeder nichtleeren Menge X ist durch die Definition
(
0 für x = y
d(x, y) =
1 für x 6= y

eine Metrik gegeben, die sogenannte diskrete Metrik. Hier sind die Eigenschaften einer Metrik
offensichtlich erfüllt.
Beispiel 9.5 (Französische Eisenbahnmetrik). In Frankreich gehen alle Eisenbahnstrecken von
Paris aus. Für einen Bahnreisenden in Frankreich ist deshalb der Abstand zweier Orte mit Bahn-
anschluss folgender: Liegen die Orte A, B auf einer Eisenbahnlinie A → B → Paris, dann ist ihr
Abstand die Länge der Strecke von A nach B. Ist das nicht der Fall, dann ist ihr Abstand die
Summe der Strecken von A nach Paris und von Paris nach B. In letzterem Fall kann es sein,
dass man lieber zu Fuß gehen sollte.
Beispiel 9.6 (Teilräume von metrischen Räumen). Ist (X, d) ein metrischer Raum und ist A ⊆ X
eine Teilmenge, so ist auch (A, dA ) mit dA (x, y) = d(x, y) für x, y ∈ A ein metrischer Raum. Die
Metrik dA heißt die von d auf A induzierte Metrik. So wird jede Teilmenge von R oder Rd , z.B.
jedes Intervall, selbst ein metrischer Raum.

Viele wichtige Metriken auf Vektorräumen werden aus Normen gewonnen. Die euklidische Metrik
ist eine solche. Diese Metriken haben die Eigenschaft, translationsinvariant zu sein, d.h es gilt
d(x−z, y−z) = d(x, y). Man braucht also nur den Abstand eines Punktes x von 0 zu spezifizieren,
Abstände zwischen beliebigen x, y ergeben sich dann als Abstand von x − y zu 0.

Definition 9.7. Sei X ein Vektorraum über K = R oder K = C. Eine Funktion k · k : X → R


mit den Eigenschaften

• Positive Definitheit: kxk ≥ 0 für alle x ∈ X und kxk = 0 ⇔ x = 0

• Homogenität: kλxk = |λ|kxk für alle x ∈ X und alle λ ∈ K

• Dreiecksungleichung: kx + yk ≤ kxk + kyk für alle x, y ∈ X

heißt Norm auf X. Ist k · k eine Norm auf X, dann heißt (X, k · k) normierter Raum. Die durch
d(x, y) = kx − yk für x, y ∈ X auf X definierte Metrik heißt induzierte Metrik.

Bemerkung. Ist wieder klar, welche Norm gemeint ist, dann spricht man oft einfach von dem
normierten Raum X. Dass die von einer Norm induzierte Metrik tatsächlich eine Metrik ist, sieht
man leicht ein:

• Positive Definitheit: d(x, y) = kx − yk ≥ 0 und

d(x, y) = 0 ⇔ kx − yk = 0 ⇔ x − y = 0 ⇔ x = y

• Symmetrie: d(x, y) = kx − yk = k(−1)(y − x)k = ky − xk = d(y, x)

• Dreiecksungleichung:

d(x, z) = kx − zk = k(x − y) + (y − z)k ≤ kx − yk + ky − zk = d(x, y) + d(y, z).

Beachten Sie, dass eine Norm immer auf einem Vektorraum definiert ist, wohingegen eine Metrik
auf einer beliebigen Menge ohne algebraische Struktur gegeben sein kann.
17

Beispiel 9.8. Auf den reellen Zahlen R bzw. den komplexen Zahlen C ist x 7→ |x| eine Norm.
Die induzierte Metrik ist d(x, y) = |x − y|.
Beispiel 9.9. Auf den Vektorräumen Rd und Cd ist durch die Definition
v
u d
uX
kxk2 = t |ξk |2 für x = (ξk )dk=1
k=1

die euklidische Norm gegeben. Definitheit und Homogenität sind klar, die Dreiecksungleichung
beweisen wir gleich. Die induzierte Metrik d(x, y) = kx − yk2 ist die euklidische Metrik. Zwei
weitere Normen sind die Summennorm oder Betrags-Summennorm und die Maximumsnorm
d
X
kxk1 = |ξk | und kxk∞ = max |ξk |.
k=1,...,d
k=1

Hier sind die Normeigenschaften offensichtlich (tatsächlich?). Die Vektorräume Rd und Cd mit
einer der Normen k·kp für p = 1, 2, ∞ bezeichnet man auch kurz als `dp . Die von der Summennorm
erzeugte Metrik heißt auch Manhattan-Metrik, warum eigentlich? Dieses Beispiel zeigt, dass es
auf einer Menge verschiedene Metriken gibt. Je nach Anwendungsfall wird man eine passende
wählen.

Wir vervollständigen jetzt den Nachweis, dass die euklidische Norm und damit auch die eukli-
dische Metrik die Dreiecksungleichung erfüllen. Dies gibt uns Gelegenheit, eine weitere wichtige
Ungleichung, die Cauchy-Schwarz-Ungleichung kennenzulernen.

Satz 9.10 (Cauchy-Schwarz-Ungleichung in Rd und Cd ). Für x = (ξk )dk=1 , y = (ηk )dk=1 ∈ Cd


gilt v v
Xd u d
uX
u d
uX
|ξk ||ηk | ≤ kxk2 kyk2 = t |ξk |2 t |ηk |2 .
k=1 k=1 k=1

Beweis. Für x = 0 oder y = 0 ist nichts zu zeigen. Ansonsten benutzen wir die elementare
2 2
Ungleichung ab ≤ a +b
2 für reelle Zahlen a, b. Wir setzen

|ξk | |ηk |
ak = und bk =
kxk2 kyk2
und beobachten zunächst
d
X d
X
a2k = b2k = 1.
k=1 k=1
Es folgt
d d d
X X X a2k + b2k
|ξk ||ηk | = kxk2 kyk2 ak bk ≤ kxk2 kyk2 = kxk2 kyk2 .
2
k=1 k=1 k=1

Den Ausdruck hx, yi = dk=1 ξk ηk ist das euklidische Skalarprodukt von x und y. Dann kann die
P
Cauchy-Schwarz-Ungleichung auch formuliert werden als

hx, yi ≤ kxk2 kyk2 .
18

Satz 9.11 (Dreiecksungleichung für die euklidische Norm). Für x = (ξk )dk=1 , y = (ηk )dk=1 ∈ Cd
gilt kx + yk2 ≤ kxk2 + kyk2 .

Beweis. Dies folgt mittels der Cauchy-Schwarz-Ungleichung durch


d
X d
X d
X
2
|ξk |2 + ξk ηk + ξk ηk + |ηk |2

kx + yk2 = |ξk + ηk | = (ξk + ηk )(ξk + ηk ) =
k=1 k=1 k=1
d
X 2
≤ kxk22 + 2 |ξk ||ηk | + kyk22 ≤ kxk22 + 2kxk2 kyk2 + kyk22 = kxk2 + kyk2 .
k=1

Beispiel 9.12 (Funktionenräume). Viele Räume von Funktionen bilden Vektorräume und kön-
nen mittels Normen studiert werden. Als Beispiel betrachten wir

C[a, b] := {f : [a, b] → R : f ist stetig}

mit der Supremums- oder Maximumsnorm

kf k∞ = sup |f (t)| = max |f (t)|.


t∈[a,b] t∈[a,b]

Warum ist das Supremum hier tatsächlich ein Maximum? Da Summen und skalare Vielfache
stetiger Funktionen wieder stetig sind, ist C[a, b] ein reeller Vektorraum. Die Normeigenschaften
der Maximumsnorm sind wieder offensichtlich. Die induzierte Metrik ist die maximale Differenz
der Funktionswerte
d(f, g) = kf − gk∞ = max |f (t) − g(t)|.
t∈[0,1]

Wir führen jetzt einige natürliche geometrische Begriffe für metrische Räume ein, die die ent-
sprechenden Begriffe in Rd und C verallgemeinern.

Definition 9.13 (Geometrische Begriffe in metrischen Räumen). Sei (X, d) ein metrischer
Raum.

• Sei x ∈ X und ε > 0. Die Menge

Uε (x) = {y ∈ X : d(x, y) < ε}

heißt offene Kugel mit Mittelpunkt x und Radius ε bzw. ε-Umgebung von x. Die Menge

Bε (x) = {y ∈ X : d(x, y) ≤ ε}

heißt abgeschlossene Kugel mit Mittelpunkt x und Radius ε.

• Ist U ⊆ X und x ∈ U , dann heißt x ein innerer Punkt der Menge U und U heißt Umgebung
von x, wenn es ein ε > 0 mit Uε (x) ⊆ U gibt.

• Eine Menge O ⊆ X heißt offen, wenn jeder Punkt x ∈ O innerer Punkt von O ist.

• Eine Menge A ⊆ X heißt abgeschlossen, wenn das Komplement X \ A offen ist.


19

Die Dreiecksungleichung impliziert, dass offene Kugeln offen und abgeschlossene Kugeln abge-
schlossen sind, die Begriffsbildung ist also sinnvoll. Prüfen Sie das nach!
Ebenfalls aus der Dreiecksungleichung folgt die „offensichtliche“ Tatsache, dass sich zwei offene
Kugeln mit Radien r bzw. s um zwei Punkte mit Abstand r+s nicht schneiden: Sei r+s ≤ d(x, y),
dann ist Ur (x) ∩ Us (y) = ∅. Wäre nämlich z ∈ Ur (x) ∩ Us (y), dann folgt der Widerspruch

r + s ≤ d(x, y) ≤ d(x, z) + d(y, z) < r + s.

Beispiel 9.14. In einem diskreten metrischen Raum besteht eine Kugel entweder nur aus ei-
nem Punkt oder ist der gesamte Raum. Jede Teilmenge ist gleichzeitig offen und abgeschlossen.
Das System der offenen und auch das System der abgeschlossenen Mengen ist das System aller
Teilmengen, die Potenzmenge. Diskrete metrische Räume sind für die Analysis nicht sonderlich
interessant, sollen uns aber weiter als Beispiel dienen.

Beispiel 9.15. In R mit der Betragsmetrik sind Kugeln Intervalle, genauer

Uε (x) = (x − ε, x + ε) und Bε (x) = [x − ε, x + ε].

In C veranschaulicht als Gaußsche Zahlenebene sind Kugeln Kreise.

Beispiel 9.16. In der euklidischen Metrik auf R2 sind Kugeln ebenfalls Kreise, auf R3 die
üblichen dreidimensionalen Kugeln.

Beispiel 9.17. Bezüglich der Maximumsnorm in Rd sind Kugeln in R2 achsenparallele Quadrate,


in R3 achsenparallele Würfel, für d ≥ 4 spricht man ebenfalls von Würfeln oder Hyperwürfeln.
Veranschaulichen Sie sich das!

Beispiel 9.18. Bezüglich der Summennorm, also der `1 -Metrik, in Rd sind Kugeln in R2 auf der
Spitze stehende Quadrate, in R3 reguläre Oktaeder, für d ≥ 4 spricht man von Kreuzpolytopen.
Veranschaulichen Sie sich das!

Abbildung 2: Eine `1 -Kugel - Oktaeder


20

Satz 9.19 (Eigenschaften des Systems offener Mengen). Sei X ein metrischer Raum. Dann
gilt:

(a) ∅ und X sind offen.

(b) Sind O1 und O2 offen, dann ist auch O1 ∩ O2 offen.

S I eine beliebige Indexmenge und sind Oi für i ∈ I offen, dann ist auch die Vereinigung
(c) Ist
i∈I Oi offen.

Beweis. Die Eigenschaft (a) ist klar.


Sind O1 und O2 offen, so finden wir ε1 > 0 und ε2 > 0 mit Uε1 ⊆ O1 und Uε2 ⊆ O2 . Dann ist
Umin{ε1 ,ε2 } ⊆ O1 ∩ O2 .
S
Sind Oi für i ∈ I offen und ist x ∈ O := i∈I Oi , dann gibt es ein i0 ∈ I mit x ∈ Oi0 . Da Oi0
offen ist, finden wir ein ε > 0 mit Uε ⊆ Oi0 ⊆ O, also ist auch O offen.

Die Eigenschaft (c) impliziert, dass es zu jeder Teilmenge M ⊆ X eines metrischen Raumes X
eine größte in M enthaltene offene Menge gibt, die man durch
◦ [
M := O ⊆ X : O offen und O ⊆ M

definieren kann und das Innere oder den inneren Kern von M nennt. Zum Beispiel ist
◦ ◦
U ε (x) = B ε (x) = Uε (x).

Sei τ das System aller offenen Teilmengen des metrischen Raumes (X, d), also

τ = {O ⊆ X : O ist offen}.

Dann ist also ∅, X ∈ τ , Durchschnitte endlich vieler und Vereinigungen beliebig vieler Mengen
aus τ sind in τ . Ein System von Teilmengen einer Menge X mit diesen Eigenschaften nennt man
auch eine Topologie auf der Menge X und (X, τ ) nennt man einen topologischen Raum. Viele der
Betrachtungen in diesem Kapitel lassen sich auf topologische Räume verallgemeinern, sie sind
in gewissem Sinn die allgemeinste Struktur, auf der man Analysis betreiben kann. Das ist für
unsere Zwecke aber viel zu umständlich, metrische Räume genügen und sind anschaulicher.
Mittels Komplementbildung und De Morgan-Regeln folgen entsprechende Eigenschaften für das
System der abgeschlossenen Mengen.

Satz 9.20 (Eigenschaften des Systems abgeschlossener Mengen). Sei X ein metrischer Raum.
Dann gilt:

(a) ∅ und X sind abgeschlossen.

(b) Sind A1 und A2 abgeschlossen, dann ist auch A1 ∪ A2 abgeschlossen.

(c) Ist I eine beliebige


T Indexmenge und sind Ai für i ∈ I abgeschlossen, dann ist auch der
Durchschnitt i∈I Ai abgeschlossen.

Die Eigenschaft (c) impliziert, dass es zu jeder Teilmenge M ⊆ X eines metrischen Raumes X
eine kleinste M enthaltende abgeschlossene Menge gibt, die man durch
\
M := A ⊆ X : A abgeschlossen und A ⊇ M
21

definieren kann und den Abschluss oder die abgeschlossene Hülle von M nennt. Zum Beispiel ist

U ε (x) = B ε (x) = Bε (x).

Der Rand ∂M von M ist die Menge aller Punkte, deren Umgebungen sowohl Punkte von M als
auch von X \ M enthalten, also formal

∂M = {x ∈ X : ∀ε > 0 : Uε (x) ∩ M 6= ∅, Uε (x) ∩ (X \ M ) 6= ∅}.

Zum Beispiel ist


∂Uε (x) = ∂Bε (x) = {y ∈ X : d(x, y) = ε}.
Der Rand ∂M einer Menge ist stets abgeschlossen und es gilt
◦ ◦
M ∪ ∂M = M und ∂M = M \ M .

Alle behaupteten Eigenschaften sind leicht anhand der Definitionen nachzuweisen. Machen Sie
das als Übung!

9.2 Konvergenz

In diesem Abschnitt halten wir einen metrischen Raum (X, d) fest. Mittels des Abstands lässt
sich ausdrücken, dass zwei Punkte des Raumes nahe beieinander liegen. Dies ermöglicht die
Verallgemeinerung des Konvergenzbegriffs von Folgen.

Definition 9.21 (Konvergenz einer Folge). Eine Folge (xn )n∈N ⊆ X in X heißt konvergent mit
Grenzwert oder Limes x ∈ X, wenn gilt

∀ε > 0 ∃ n0 ∈ N ∀n ∈ N : n ≥ n0 ⇒ d(xn , x) < ε.

In diesem Fall schreiben wir wieder x = limn→∞ xn oder xn → x für n → ∞ oder auch kurz
x = lim xn .

Mit den Begriffen des letzten Abschnitts können wir also auch kurz formulieren: Die Folge (xn )
konvergiert gegen x, wenn in jeder Umgebung von x fast alle Folgenglieder xn liegen.
In einem normierten Raum spricht man im Fall xn → 0 wieder von einer Nullfolge (xn ). Dann
gilt wieder
xn → x ⇐⇒ (xn − x) ist Nullfolge.
Beispiel 9.22. Für reelle oder komplexe Zahlenfolgen ist das der Konvergenzbegriff aus der
Analysis 1.
Beispiel 9.23. In der diskreten Metrik sind nur Folgen konvergent, die ab einem gewissen Index
konstant sind.
Beispiel 9.24. In C[a, b] ist die Folgenkonvergenz gerade die gleichmäßige Konvergenz.

Der folgende Satz zeigt, dass man den Abschluss einer Menge M auch als Menge aller Grenzwerte
von Folgen in M charakterisieren kann.

Satz 9.25. Sei M ⊆ X eine Teilmenge eines metrischen Raumes X und sei x ∈ X. Dann ist
x ∈ M genau dann, wenn es eine Folge (xn ) mit xn ∈ M für n ∈ N und xn → x gibt. Insbesondere
ist M genau dann abgeschlossen, wenn Grenzwerte konvergenter Folgen aus M wieder in M sind.
22

Beweis. Sei zunächst xn → x und xn ∈ M für n ∈ N. Dann enthält jede Umgebung von x fast
alle xn . Somit ist Uε (x) ∩ M 6= ∅ für alle ε > 0 und damit entweder x ∈ M oder x ∈ ∂M . In
jedem Fall ist x ∈ M .
Sei nun andererseits x ∈ M . Ist x ∈ M , so ist nichts zu zeigen. Ist x ∈ ∂M , so ist nach Definition
U1/n (x) ∩ M 6= ∅ und wir können wir jedes n ∈ N ein xn ∈ M wählen mit xn ∈ U1/n (x). Dann
folgt xn → x.

Wichtig für uns wird die Konvergenz von Folgen in Rd und Cd sein. Der folgende Satz zeigt, dass
man dies auf die Betrachtung der Konvergenz der einzelnen Koordinatenfolgen zurückführen
kann. Das ist ganz analog zu dem Sachverhalt, dass eine komplexe Zahlenfolge genau dann
konvergiert, wenn die Folgen der Realteile und der Imaginärteile konvergieren.

Satz 9.26. Sei (xn ) eine Folge in Kd mit K = R oder K = C und sei x ∈ Kd . Die Koordina-
tendarstellungen seien xn = (ξn,k )dk=1 und x = (ξk )dk=1 . Dann sind die folgenden Eigenschaften
äquivalent:

(a) limn→∞ xn = x in einer der Normen k · kp , p = 1, 2, ∞.

(b) limn→∞ xn = x in jeder der Normen k · kp , p = 1, 2, ∞.

(c) limn→∞ ξn,k = ξk für k = 1, 2, . . . , d.

Beweis. Es genügt, die Behauptung für x = 0 zu zeigen. Wir benutzen die Ungleichungen

kxk∞ ≤ kxk2 ≤ kxk1 ≤ d kxk∞

oder ausgeschrieben
v
u d d
uX X
max |ξk | ≤ t 2
|ξk | ≤ |ξk | ≤ d max |ξk |
k=1,...,d k=1,...,d
k=1 k=1

für jedes x = (ξk ) ∈ Cd . Von diesen Ungleichungen ist nur die mittlere nicht offensichtlich. Diese
folgt aber direkt durch Quadrieren. Diese Ungleichungen zeigen, dass eine Nullfolge in einer der
Normen k · kp auch Nullfolge in allen diesen Normen ist und beweisen damit die Äquivalenz von
(a) und (b).
Gilt nun limn→∞ ξn,k = 0 für k = 1, 2, . . . , d, so folgt limn→∞ kxn k1 = dk=1 limn→∞ |ξn,k | = 0
P
und damit die Implikation (c) ⇒ (a).
Ist umgekehrt limn→∞ kxn k∞ = 0, so folgt für jedes k = 1, . . . , d wegen |ξn,k | ≤ kxn k∞ sofort
limn→∞ ξn,k = 0 und damit die Implikation (b) ⇒ (c).

Der Grenzwert einer konvergenten Folge in einem metrischen Raum ist wieder eindeutig be-
stimmt. Der Beweis ist eine fast wörtliche Übertragung des Beweises für Zahlenfolgen, der Ab-
stand komplexer Zahlen ist einfach durch den Abstand im metrischen Raum zu ersetzen.
Wir führen einen Widerspruchsbeweis, nehmen also xn → a und xn → b mit a 6= b an. Dann
definieren wir ε > 0 durch 2ε = d(a, b) und wählen n1 , n2 ∈ N mit

d(xn , a) < ε für n ≥ n1


d(xn , b) < ε für n ≥ n2 .
23

Wählen wir nun ein beliebiges n ≥ max{n1 , n2 }, so erhalten wir den Widerspruch

2ε = d(a, b) ≤ d(a, xn ) + d(xn , b) < ε + ε = 2ε.

In normierten Räumen kann man ebenfalls ganz analog zu den Beweisen der entsprechenden
Regeln für Zahlenfolgen die algebraische Struktur ausnutzen, um die folgenden Konvergenzsätze
einzusehen:

Satz 9.27. Ist X ein normierter Raum und sind (xn ), (yn ) zwei Folgen in X mit xn → x und
yn → y, dann gilt xn + yn → x + y. Ist weiter λn eine Zahlenfolge mit λn → λ, so gilt auch
λn xn → λx.

Wie den Konvergenzbegriff kann man auch den Begriff der Cauchyfolge direkt auf Folgen in
metrischen Räumen verallgemeinern.

Definition 9.28 (Cauchyfolge). Eine Folge (xn )n∈N in einem metrischen Raum X heißt
Cauchyfolge, wenn gilt

∀ε > 0 ∃ n0 ∈ N ∀m, n ∈ N : m, n ≥ n0 ⇒ d(xm , xn ) < ε.

Jede konvergente Folge ist eine Cauchyfolge, der Beweis für Zahlenfolgen überträgt sich direkt.
Die Umkehrung muss nicht gelten, z.B. gibt es im metrischen Raum (Q, |·|) der rationalen Zahlen
mit dem Betrag als Abstand Cauchyfolgen, die keinen Grenzwert in Q haben. Das haben wir
ausführlich unter dem Stichwort Vollständigkeit der reellen Zahlen behandelt. Deshalb definiert
man:

Definition 9.29 (Vollständigkeit). Eine metrischer Raum X heißt vollständig, wenn jede
Cauchyfolge in X konvergent ist. Ein vollständiger normierter Raum heißt auch Banach-Raum.

Beispiel 9.30. R und C mit der Betragsmetrik sind vollständig. Abgeschlossene Intervalle in R
mit der Betragsmetrik sind vollständige metrische Räume, offene Intervalle nicht (warum?).
Beispiel 9.31. Eine Folge (xn ) in Rd oder Cd (mit einer der Normen k · kp , p = 1, 2, ∞) ist
genau dann eine Cauchyfolge, wenn jede der Koordinatenfolgen (ξn,k )n∈N eine Cauchyfolge in R
ist. Dies folgt aus Satz 9.26 und der Vollständigkeit von R oder C. Alternativ kann man dies
auch direkt beweisen. Insbesondere sind Rd oder Cd mit jeder der Normen k · kp , p = 1, 2, ∞
vollständige normierte Räume, also Banach-Räume.
Beispiel 9.32. Da gleichmäßige Cauchyfolgen konvergent sind, ist C[a, b] vollständig, also ein
Banach-Raum.
Beispiel 9.33. Jeder diskrete metrische Raum ist vollständig.

9.3 Stetige Abbildungen

Mit den Begriffen aus den letzten beiden Abschnitten lässt sich nun die Stetigkeit von Abbildung
zwischen metrischen Räumen fassen. Wir machen das in folgendem Satz, in dem gleich einige
äquivalente Formulierungen für den Stetigkeitsbegriff gefunden werden, insbesondere die ε-δ-
Definition, und die Folgenstetigkeit. Wir erinnern daran, dass wir die Begriffe Abbildung und
Funktion synonym benutzen. Im Zusammenhang mit metrischen Räumen spricht man aber meist
von Abbildungen.
24

Satz 9.34 (Satz und Definition Stetigkeit). Seien (X1 , d1 ) und (X2 , d2 ) metrische Räume und
sei f : X1 → X2 eine Abbildung und sei x0 ∈ X1 . Dann sind die folgenden Eigenschaften
äquivalent.

(a) Zu jedem ε > 0 gibt es ein δ > 0, so dass für alle x ∈ X1 gilt:

d1 (x, x0 ) < δ =⇒ d2 (f (x), f (x0 )) < ε.

(b) Für jede Folge (xn ) ⊆ X1 mit xn → x0 gilt f (xn ) → f (x0 ).

(c) Zu jeder Umgebung V von f (x0 ) in X2 existiert eine Umgebung U von x0 in X1 mit
f (U ) ⊆ V .

(d) Das Urbild f −1 (V ) jeder Umgebung V von f (x0 ) ist eine Umgebung von x0 .

Gilt eine dieser (und damit alle) Eigenschaften, dann heißt f stetig in x0 . Die Abbildung f heißt
stetig, wenn f in allen x0 ∈ X1 stetig ist.

Beweis. Die Eigenschaften (c) und (d) sind einfache Umformulierungen der Eigenschaft (a).
Wir zeigen nun (d) ⇒ (b). Sei also xn → x0 und sei V eine beliebige Umgebung von f (x0 ). Wir
müssen zeigen, dass f (xn ) ∈ V für fast alle n gilt. Da f −1 (V ) eine Umgebung von x0 ist, gilt
aber xn ∈ f −1 (V ) und damit f (xn ) ∈ V für fast alle n.
Schließlich zeigen wir (b) ⇒ (a). Hier führen wir den Beweis ganz analog wie für reelle Funktionen
und nehmen an, f wäre nicht stetig in x0 und konstruieren dann eine Folge (xn ) ⊆ D mit xn → x0 ,
aber f (xn ) 6→ f (x0 ). Die Unstetigkeit von f in x0 liefert uns ein ε0 > 0, so dass für alle δ > 0
ein x ∈ X1 existiert mit den beiden Eigenschaften

d1 (x, x0 ) < δ und d2 (f (x), f (x0 )) ≥ ε0 .

Für n ∈ N benutzen wir jetzt diese Aussage mit δ = n1 , um ein xn ∈ D mit den beiden
Eigenschaften
1
d1 (xn , x0 ) < und d2 (f (xn ), f (x0 )) ≥ ε0
n
zu finden. Wir erhalten also eine Folge (xn ) ⊆ X1 . Die Eigenschaft d1 (xn , x0 ) < n1 für n ∈ N
liefert xn → x0 , die zweite Eigenschaft d2 (f (xn ), f (x0 )) ≥ ε0 für n ∈ N liefert f (xn ) 6→ f (x0 ).

Der bisher betrachtete Stetigkeitsbegriff für reelle und komplexe Funktionen stimmt in diesem
konkreten Fall offenbar mit dem neuen allgemeineren überein.
Aus der Äquivalenz von (a) und (d) folgt eine oftmals sehr bequeme Charakterisierung der
globalen Stetigkeit:

Satz 9.35 (Charakterisierung Stetigkeit). Seien (X1 , d1 ) und (X2 , d2 ) metrische Räume und
sei f : X1 → X2 eine Abbildung. Dann ist f stetig genau dann, wenn das Urbild f −1 (O2 ) jeder
(in X2 ) offenen Menge O2 ⊆ X2 offen (in X1 ) ist.

Ebenfalls lässt sich nun leicht zeigen, dass Kompositionen von stetigen Funktionen wieder stetig
sind.

Satz 9.36. Sind X, Y, Z drei metrische Räume und sind f : X → Y und g : Y → Z stetige
Funktionen, dann ist g ◦ f : X → Z stetig. Genauer gilt: Ist f stetig in x0 ∈ X und ist g stetig
in y0 = f (x0 ) ∈ Y , dann ist g ◦ f stetig in x0 .
25

Beweis. Ist W ⊆ Z eine Umgebung von z0 = g(y0 ) = g(f (x0 )), dann ist wegen der Stetigkeit
von g das Urbild V = g −1 (W ) ⊆ Y eine Umgebung von y0 = f (x0 ). Wegen der Stetigkeit von f
ist dann U = f −1 (V ) ⊆ X eine Umgebung von x0 . Aus (g ◦ f )−1 (W ) = f −1 (g −1 (W )) = U folgt
also, dass das Urbild bezüglich g ◦ f jeder Umgebung von z0 eine Umgebung von x0 ist. Also ist
g ◦ f stetig in x0 .

Beispiel 9.37 (Koordinatenprojektionen). Die Funktionen πj : Rd → R gegeben durch πj (x) =


ξj für x = (ξk ) ∈ Rd heißen Koordinatenprojektionen und sind stetig, da Konvergenz in Rd ja
koordinatenweise Konvergenz ist.

Beispiel 9.38 (Funktionen mit Werten in Rm ). Ist f : X → Rm eine Funktion auf einem
metrischen Raum X, so erhält man die Koordinatenfunktionen oder Komponentenfunktionen
fj : X → R für j = 1, . . . , m als Komposition
 πj ◦ f mit den Koordinatenprojektionen πj : Rm →
R. Es ist also f (x) = f1 (x), . . . , fm (x) . Aus dem Folgenkriterium ergibt sich, dass gilt:

f ist stetig ⇐⇒ fk ist stetig für k = 1, . . . , m.

Die Stetigkeit Rm -wertiger Funktionen lässt sich also einfach auf die Stetigkeit R-wertiger Funk-
tionen zurückführen. Insbesondere sind Summen und skalare Vielfache stetiger Rm -wertiger
Funktionen wieder stetig. Ebenso sind Produkte f g stetiger R-wertiger Funktionen f, g : X → R
wieder stetig.

Beispiel 9.39 (Polynome in mehreren Variablen). Ist x = (ξk ) ∈ Rd und a = (αk ) ∈ Nd0 , dann
nennen wir die Funktion ma : Rd → R gegeben durch x 7→ xa := ξ1α1 . . . ξdαd Monome. Line-
arkombinationen von Monomen heißen Polynome in d Variablen oder d-variate Polynome. Als
Produkte stetiger R-wertiger Funktionen sind Monome und damit auch Polynome in mehreren
Variablen stetig. Ein Beispiel für ein Polynom in drei Variablen in der üblichen Schreibweise ist

f (x, y, z) = x4 + y 4 + z 4 + 2x3 y 2 z + 42x + 27.

Abbildung 3: Eine separat stetige, nicht stetige Funktion

Beispiel 9.40. Wir betrachten weiter Funktionen f : D → R mit D ⊆ Rd . Eine solche


Funktion heißt separat stetig oder getrennt stetig, wenn für jedes k = 1, . . . , d und fixierte
26

ξ1 , . . . , ξk−1 , ξk+1 , . . . , ξd die Funktion ξk 7→ f (ξ1 , . . . , ξd ) (als Funktion von R nach R) stetig
ist. Jede stetige Funktion ist natürlich separat stetig. Die Umkehrung gilt allerdings nicht, wie
das folgende illuminierende Beispiel zeigt. Sei f : R2 → R gegeben durch
(
2xy
x2 +y 2
für (x, y) 6= (0, 0)
f (x, y) =
0 für (x, y) = (0, 0).

Offensichtlich ist f stetig in allen Punkten (x, y) 6= (0, 0). In (0, 0) ist f auch separat stetig, da
x 7→ f (x, 0) = 0 und y 7→ f (0, y) = 0 stetig sind. Aber f ist nicht stetig, da für die gegen (0, 0)
konvergierende Folge (xn , yn ) = n1 , n1 die Funktionswerte f (xn , yn ) = 1 sind und nicht gegen


f (0, 0) = 0 konvergieren. In Abbildung 3 ist die Funktion dargestellt.

Beispiel 9.41. Seien (X1 , d1 ) und (X2 , d2 ) metrische Räume und sei f : X1 → X2 eine Abbil-
dung. Existiert dann eine Konstante L > 0 mit d2 f (x), f (y) ≤ L d1 (x, y) für alle x, y ∈ X1 ,
dann heißt f eine Lipschitz-Abbildung oder Lipschitz-Funktion. Die kleinstmögliche Konstante
L heißt dann Lipschitz-Konstante von f . Dieser Begriff verallgemeinert den schon bekannten
Begriff der Lipschitz-Funktion auf R. Lipschitz-Abbildungen sind offenbar stetig. Die Koordina-
tenprojektionen πj : Rd → R sind z.B. Lipschitz mit Konstante 1 für jede der Normen k · kp .

Beispiel 9.42 (Lineare Abbildungen sind Lipschitz-stetig). Ist A : Rd → Rm eine lineare Abbil-
dung, dann ist A Lipschitz-stetig. Zum Beweis betrachten wir die linearen Komponentenfunktio-
nen Ai : Rd → R, die sich wie aus der linearen Algebra bekannt als Ai x = hx, ai i = dk=1 αik ξk
P
für ein ai = (αik ) ∈ Rd darstellen lassen. Hierbei ist ai gerade die i-te Zeile in der Matrixdarstel-
lung von A. Die Cauchy-Schwarz-Ungleichung liefert |Ai x| ≤ kai k2 kxk2 und damit

d
!1/2 d
!1/2
X X
kAxk2 = |Ai x|2 ≤ kai k22 kxk2 .
i=1 i=1

P 1/2
d 2
Mit L = i=1 kai k2 ist also

kAx − Ayk2 ≤ Lkx − yk2

und die Lipschitz-Stetigkeit von A ist gezeigt.

Beispiel 9.43 (Diskrete Metrik und Stetigkeit). Jede Abbildung f : X1 → X2 auf einem dis-
kreten metrischen Raum X1 ist stetig.

Wie für reelle Funktionen kann man auch Grenzwerte von Funktionen zwischen metrischen Räu-
men definieren.

Definition 9.44 (Grenzwerte von Funktionen). Seien (X1 , d1 ) und (X2 , d2 ) metrische Räume
und sei f : X1 → X2 eine Abbildung. Weiter sei x0 ∈ X1 . Dann sagen wir, dass f für x → x0
den Grenzwert y0 ∈ X2 hat, falls für jede Folge (xn ) ⊆ X \ {x0 } mit xn → x0 auch f (xn ) → y0
gilt. In diesem Fall schreiben wir limx→x0 f (x) = y0 oder f (x) → y0 für x → x0 .

Beispiel 9.45. Eine Funktion f : X1 → X2 ist in x0 ∈ X1 stetig genau dann, wenn limx→x0 f (x) =
f (x0 ) gilt.

Beispiel 9.46. Für die Funktion f aus Beispiel 9.40 existiert der Grenzwert lim(x,y)→(0,0) f (x, y)
nicht.
27

9.4 Der Banachsche Fixpunktsatz

Fixpunktsätze sind wichtige Hilfsmittel, um die Existenz und Eindeutigkeit von Lösungen von
algebraischen Gleichungen und von Differentialgleichungen zu zeigen. Ein einfacher, allgemeiner
und sehr nützlicher Fixpunktsatz ist der Banachsche Fixpunktsatz für kontrahierende Abbildun-
gen auf einem vollständigen metrischen Raum.

Definition 9.47. Ist M eine Menge und f : M → M eine Abbildung, dann heißt x ∈ M
Fixpunkt von M , wenn f (x) = x ist.

Bemerkung. In der Analysis 1 haben wir mit dem Zwischenwertsatz gezeigt, dass jede stetige
Abbildung f : [0, 1] → [0, 1] einen Fixpunkt hat.

Definition 9.48. Seien (X1 , d1 ) und (X2 , d2 ) metrische Räume und sei f : X1 → X2 eine Ab-
bildung. Dann heißt f eine Kontraktion
 oder kontrahierende Abbildung, wenn es eine Konstante
L < 1 gibt mit d2 f (x), f (y) ≤ Ld1 (x, y) für alle x, y ∈ X1 . Eine Kontraktion ist also eine
Lipschitz-Abbildung mit Lipschitz-Konstante kleiner als 1, insbesondere also stetig.

Bemerkung. Für eine differenzierbare Funktion f : (a, b) → R ist es sehr einfach nachzuprüfen,
ob f eine Kontraktion ist. Es gilt nämlich die Äquivalenz

f ist Lipschitz mit Konstante L ⇐⇒ kf 0 k∞ ≤ L.

Also ist f eine Kontraktion genau dann, wenn kf 0 k∞ < 1 ist.

Beweis. Ist kf 0 k∞ ≤ L, so gibt es nach dem Mittelwertsatz der Differentialrechnung zu gegebenen


x1 , x2 ∈ (a, b) mit x1 6= x2 ein ξ ∈ (a, b) mit

f (x1 ) − f (x2 )
= f 0 (ξ)
x1 − x2
und es folgt

|f (x1 ) − f (x2 )| = |f 0 (ξ)| |x1 − x2 | ≤ kf 0 k∞ |x1 − x2 | ≤ L |x1 − x2 |.

Ist umgekehrt f Lipschitz mit Konstante L, so folgt für jeden Differenzenquotienten



f (x) − f (x0 )
≤L
x − x0

und damit
0
f (x) − f (x0 )
|f (x0 )| = lim
≤L
x→x0 x − x0

für jedes x0 ∈ (a, b).

Beispiel 9.49. Die Cosinus-Funktion cos : [−1, 1] → [−1, 1] ist eine Kontraktion wegen | cos0 x| ≤
sin 1 < 1 für x ∈ [−1, 1].

Der folgende Satz erklärt z.B., warum Sie bei Eingabe einer Zahl zwischen -1 und 1 und anschlie-
ßendem wiederholten Betätigen der Cosinus-Taste auf Ihrem Taschenrechner einen Grenzwert
(etwa 0.73908 . . . ) erhalten, unabhängig von welchem Wert aus Sie starten. Nicht vergessen,
vorher auf Bogenmaß zu stellen! Mit welchen Tasten funktioniert das noch?
28

Satz 9.50 (Banachscher Fixpunktsatz). Eine kontrahierende Abbildung f : X → X auf einem


vollständigen metrischen Raum X besitzt genau einen Fixpunkt. Ist x0 ∈ X beliebig und ist die
Folge (xn ) definiert durch xn = f (xn−1 ) für n ∈ N, dann konvergiert diese Folge gegen den
Fixpunkt.

Beweis. Die Eindeutigkeit ist klar, da aus f (a) = a 6= b = f (b) sofort der Widerspruch

d(a, b) = d f (a), f (b) ≤ L d(a, b) < d(a, b)

folgt.
Ist die Folge (xn ) konvergent, sagen wir xn → x, dann folgt aus der Stetigkeit von f

f (x) = f (lim xn ) = lim f (xn ) = lim xn+1 = x,

also ist x der Fixpunkt von f .


Es bleibt die Konvergenz der Folge (xn ) zu zeigen. Da X vollständig ist, genügt es zu zeigen,
dass (xn ) eine Cauchyfolge ist. Induktiv folgt

d(xn , xn+1 ) = d(f (xn−1 ), f (xn ) ≤ L d(xn−1 , xn ) ≤ · · · ≤ Ln d(x0 , x1 )

für n ∈ N. Aus der Dreiecksungleichung folgt dann für m > n

d(xn , xm ) ≤ d(xn , xn+1 )+d(xm−2 , xm−1 )+· · ·+d(xm−1 , xm ) ≤ Ln + Ln+1 + · · · + Lm−1 d(x0 , x1 ).


Mit der Abschätzung durch die geometrische Reihe



n n+1 m−1 n
X Ln
L +L + ··· + L ≤L Lk ≤
1−L
k=1

folgt
Ln
d(xn , xm ) ≤ d(x0 , x1 ).
1−L
Wegen 0 ≤ L < 1 ist also (xn ) tatsächlich eine Cauchyfolge. Sofern man L kennt, liefert diese
Ungleichung auch gleich eine Abschätzung des Abstands zum Fixpunkt nach n Iterationen:
Ln
d(xn , a) ≤ d(x0 , x1 ).
1−L

Beispiel 9.51. Hat man zwei Landkarten desselben Gebiets (sagen wir Oberösterreich), aber
mit zwei verschiedenen Maßstäben, und legt diese so übereinander, dass die kleine Karte nicht
über die größere ragt, dann gibt es genau einen Ort, dessen Darstellungen in den Karten direkt
übereinander liegen. Man kann ihn folgendermaßen finden: Suche Linz auf der kleinen Karte,
schaue welcher Ort auf der großen Karte darunter liegt. Sagen wir, das ist Wels. Suche Wels auf
der kleinen Karte, schaue welcher Ort auf der großen Karte darunter liegt und wiederhole das
Spiel ad infinitum.
29

9.5 Kompaktheit

Wir wollen schließlich noch die Teilmengen eines metrischen Raumes betrachten, für die der Satz
von Bolzano-Weierstraß gilt. Dies sind gerade die kompakten Mengen, die richtige Verallgemei-
nerung von abgeschlossenen Intervallen in R.

Definition 9.52. Eine Teilmenge K eines metrischen Raumes heißt kompakt, wenn jede Folge
in K eine konvergente Teilfolge mit Grenzwert in K besitzt.

Beispiel 9.53. In Rd und Cd sind genau die beschränkten und abgeschlossenen Mengen kom-
pakt. Diese Aussage nennt man auch den Satz von Heine-Borel. Dass eine kompakte Teilmenge
von Rd oder Cd beschränkt und abgeschlossen ist, ist klar. Ist umgekehrt eine Folge in einer be-
schränkten und abgeschlossenen Teilmenge A in Rd oder Cd gegeben, so können wir mittels des
eindimensionalen Satzes von Bolzano-Weierstraß sukszessive Teilfolgen finden, die konvergent in
der 1., 1. und 2., 1.-3.,. . . , 1.-d. Koordinate sind. Damit ist die letzte Teilfolge konvergent und
der Grenzwert ist in A wegen der Abgeschlossenheit von A.

Eine wichtige Anwendung ist die folgende weitreichende Verallgemeinerung des Satzes von Ma-
ximum und Minimum.

Satz 9.54. Seien (X1 , d1 ) und (X2 , d2 ) metrische Räume und sei f : X1 → X2 eine stetige
Abbildung. Dann ist das Bild f (K) jeder kompakten Menge K ⊆ X1 kompakt in X2 . Insbesondere
nimmt jede stetige Funktion f : K → R auf einer kompakten Teilmenge eines metrischen Raumes
Maximum und Minimum an.

Beweis. Ist (yn ) eine Folge in f (K), so wählen wir xn ∈ K mit f (xn ) = yn . Da K kompakt
ist, gibt es eine konvergente Teilfolge (xnk ) mit Grenzwert x ∈ K. Da f stetig ist, ist auch die
Bildfolge (ynk ) konvergent mit Grenzwert f (x). Also ist f (K) kompakt.
Der zweite Teil folgt, da kompakte Mengen in R beschränkt und abgeschlossen sind und damit
ihr Supremum/Infimum enthalten.

Die Definition der Kompaktheit, die wir gegeben haben, nennt man auch Folgenkompaktheit.
Es gibt eine zweite Möglichkeit, Kompaktheit durch die sogenannte Überdeckungskompaktheit
zu definieren. Dies ist die richtige Variante für die Definition von Kompaktheit in allgemeinen
topologischen Räumen. In metrischen Räumen sind beide Varianten äquivalent, wie der folgende
Satz zeigt.

Satz 9.55 (Äquivalenz von Folgen- und Überdeckungskompaktheit). Eine Teilmenge K eines
metrischen Raumes X ist genau dann kompakt, wenn es zu jeder offenen Überdeckung von K
eine endliche Teilüberdeckung gibt: Sind Oi , i ∈ I offene Teilmengen von X und gilt
[
K⊆ Oi ,
i∈I

dann gibt es i1 , . . . , in mit


K ⊆ Oi1 ∪ · · · ∪ Oin .

Beweis. Wir zeigen zunächst, dass die Überdeckungskompaktheit die Folgenkompaktheit impli-
ziert und nehmen für einen Widerspruch an, dass es eine Folge (xn ) in K ohne konvergente
30

Teilfolge gibt. Dann gibt es zu jedem y ∈ K ein ε > 0, so dass in Uε (y) nur endlich viele Folgen-
glieder xn liegen. Da die Uε (y), y ∈ K eine offene Überdeckung von K bilden, gibt es wegen der
Überdeckungskompaktheit y1 , . . . , yn ∈ K mit

K ⊆ Uε1 (y1 ) ∪ · · · ∪ Uεn (yn ).

Nun enthält jede dieser Mengen nur endliche viele Folgenglieder, andererseits sind aber alle
Folgenglieder in K, ein Widerspruch.
Wir zeigen
Snun die Umkehrung, Folgenkompaktheit impliziert Überdeckungskompaktheit. Dazu
sei K ⊆ i∈I Oi eine offene Überdeckung. Wir zeigen unten, dass es ein ε > 0 gibt, so dass
zu jedem x ∈ K ein i ∈ I mit Uε (x) ⊆ Oi existiert. Wir wählen nun ein beliebiges x1 und
Oi1 mit Uε (x1 ) ⊆ Oi1 und anschließend induktiv, solange möglich, xn ∈ K \ (Oi1 ∪ · · · ∪ Oin−1 )
und Oin mit Uε (xn ) ⊆ Oin . Bricht dieser Prozess ab, haben wir eine endliche Teilüberdeckung
K ⊆ Oi1 ∪ · · · ∪ Oin gefunden. Bricht dieser Prozess nicht ab, so haben wir eine Folge (xn )
gefunden mit d(xn , xm ) ≥ ε für alle m 6= n. Diese Folge kann aber keine Cauchy-Teilfolge und
damit keine konvergente Teilfolge enthalten im Widerspruch zur Folgenkompaktheit von K.
Es bleibt zu zeigen, dass es ein ε > 0 gibt, so dass zu jedem x ∈ K ein i ∈ I mit Uε (x) ⊆ Oi
existiert. Nehmen wir wieder für einen Widerspruch an, dass dem nicht so ist. Dann finden wir
eine Folge (xn ) in K so, dass U1/n (xn ) in keinem Oi liegt. Da K folgenkompakt ist, finden wir eine
konvergente Teilfolge (xnk ), sagen wir mit Grenzwert x ∈ K. Da die Oi eine offene Überdeckung
von K bilden, finden wir i ∈ I und ε > 0 mit Uε (x) ⊆ Oi . Für genügend großes k ist dann aber
d(xnk , x) < 2ε und n1k < 2ε und damit doch U1/nk (xnk ) ⊆ Uε (x) ⊆ Oi , ein Widerspruch.

Warum manchmal die Überdeckungskompaktheit der bequemere Begriff ist, zeigt der Beweis
des folgenden Satzes über die gleichmäßige Stetigkeit von stetigen Funktionen auf kompakten
Mengen. Einen solchen Satz haben wir mittels des Satzes von Bolzano-Weierstraß für reelle
stetige Funktionen auf abgeschlossenen Intervallen in der Analysis 1 gezeigt.

Definition 9.56. Seien (X1 , d1 ) und (X2 , d2 ) metrische Räume und sei f : X1 → X2 . Dann
heißt f gleichmäßig stetig, wenn es zu jedem ε > 0 ein δ > 0 gibt, so dass für alle x, y ∈ X1 gilt:

d1 (x, y) < δ =⇒ d2 (f (x), f (y)) < ε.

Satz 9.57 (Gleichmäßige Stetigkeit stetiger Funktionen auf Kompakta). Sind (X1 , d1 ) und
(X2 , d2 ) metrische Räume und ist f : K → X2 eine stetige Funktion auf einer kompakten Menge
K ⊆ X1 , dann ist f gleichmäßig stetig.

Beweis. Sei ε > 0 fixiert. Da f stetig ist, gibt es zu jedem x ∈ K ein δx > 0 mit d2 (f (x), f (y)) <
ε/2 für alle y ∈ K mit d1 (x, y) < δx . Da K kompakt ist, gibt es x1 , . . . , xn , so dass die Ku-
geln Uδxi /2 (xi ) ganz K überdecken. Wir setzen δ = min{δx1 /2, . . . , δxn /2}. Sind nun x, y ∈ K
mit d1 (x, y) < δ und ist i ∈ {1, . . . , n} so gewählt, dass x ∈ Uδxi /2 (xi ) ist, so folgt aus der
Dreiecksungleichung d1 (xi , y) ≤ d1 (xi , x) + d1 (x, y) < 2δ ≤ δxi und somit

d2 (f (x), f (y)) ≤ d2 (f (x), f (xi )) + d2 (f (xi ), f (y)) < ε.


31

10 Differentialrechnung multivariater Funktionen


Viele praktisch relevante Funktionen hängen von mehr als einem Parameter ab. So ist das Volu-
men eines Kreiszylinders V = πr2 h eine Funktion von Höhe h und Radius der Grundfläche r. Ein
ideales Gas ist beschrieben durch die Gleichung p V = n R T mit Druck p, Volumen V , Stoffmenge
n, Gaskonstante R und Temperatur T . Durch Umstellen erhält man z.B. den Druck als Funktion
der restlichen Parameter. Die Temperatur in einem Raum ist eine Funktion T (x, y, z, t) von drei
Ortsparametern x, y, z und einem Zeitparameter t. Ziel dieses Kapitels ist die Ausdehnung der
Differentialrechnung samt ihrer Anwendungen auf solche Funktionen mit mehreren Variablen.
Aus dem Abschnitt über metrische Räume kennen wir schon die Begriffe Stetigkeit und Grenzwert
für multivariate Funktionen. Wir werden uns zunächst mit der Veranschaulichung solcher Funk-
tionen beschäftigen. Anschließend lernen wir die Grundbegriffe Differenzierbarkeit, verschiedene
Ableitungen und deren grundlegende Eigenschaften kennen. Wir werden dann Mittelwertsatz
und Taylorschen Satz auf Funktionen mehrerer Variabler ausdehnen. Dies ermöglicht ebenfalls
die Untersuchung solcher Funktionen auf lokale Extremalstellen. Schließlich behandeln wir den
Satz von der impliziten Funktion über die Auflösbarkeit nichtlinearer Gleichungen. Damit wird
es dann möglich, auch Funktionen unter Nebenbedingungen auf Extrema zu untersuchen.

10.1 Darstellung von Funktionen

Dieser Abschnitt dient hauptsächlich zur Erklärung, wie sich Funktionen f : R2 → R, f : R → Rd


(mit d = 2, 3) und f : Rd → Rd (mit d = 2, 3) veranschaulichen lassen. Im ersten Fall erhalten
wir als Funktionsgraphen (gekrümmte) Flächen im R3 , im zweiten Fall stellt man sich am besten
die Bildmenge als Kurve im Rd vor, der letzte Fall beschreibt Vektorfelder.

-1

-2
-2 -1 0 1 2

Abbildung 4: Der Paraboloid z = x2 + y 2

Betrachten wir zunächst eine Funktion f : D → R auf einem Definitionsbereich D ⊆ R2 . Um ein


konkretes Beispiel zu haben, sei f : R2 → R gegeben durch f (x, y) = x2 +y 2 . Der Funktionsgraph
dieser Funktion in der (x, y, z)-Ebene ist dann also

{(x, y, z) ∈ R3 : z = x2 + y 2 }

und ist dargestellt in Abbildung 4. Diese Fläche heißt Paraboloid. Eine zweite Möglichkeit der
32

Darstellung ergibt sich durch die zweidimensionale Abbildung der Höhenlinien


{(x, y) ∈ R2 : f (x, y) = c}
für verschiedene Werte der Konstanten c. Man erhält eine topographische Karte der Fläche. Für
den Paraboloiden f (x, y) = x2 + y 2 sind die Höhenlinien Kreise. Dies ist ebenfalls in Abbildung
4 dargestellt, zusätzlich sind verschiedene Intervalle im Wertebereich farbig hinterlegt.
In Abbildung 5 ist der Hyperboloid gegeben durch die Funktion f (x, y) = x2 − y 2 dargestellt, in
Abbildung 6 ein komplexeres Beispiel.

-1

-2
-2 -1 0 1 2

Abbildung 5: Der Hyperboloid z = x2 − y 2

-1

-2
-3 -2 -1 0 1 2 3

Abbildung 6: Die Funktion z = sin(x + y 2 )

Betrachten wir nun Funktionen f : [a, b] → Rd , die auf einem Intervall definiert sind und de-
ren Wertebereich der Rd ist. Hier ist oftmals die Vorstellung hilfreich, dass das Argument der
Funktion ein Zeitparameter t ∈ [a, b] ist und f (t) ∈ Rd den Ort darstellt, zu dem sich ein
sich bewegender Punkt zum Zeitpunkt t befindet. Vernachlässigt man dann in der Darstellung
den Zeitparameter, so erhält man eine Kurve im Rd , die vom sich bewegenden Punkt durch-
laufen wird. So stellt zum Beispiel die Funktion f (t) = (cos t, sin t) für t ∈ R einen (mehrfach
durchlaufenen) Einheitskreis dar. In den Abbildungen 7 und 8 sind als Beispiele die Funktio-
nen f (t) = (t cos t, t sin t) und g(t) = (cos t, sin t, t) dargestellt, die Kurven heißen archimedische
Spirale und Schraubenlinie.
33

100

50

-100 -50 50 100

-50

-100

Abbildung 7: Archimedische Spirale Abbildung 8: Schraubenlinie

Betrachten wir schließlich Funktionen f : D → Rd , die auf einem Definitionsbereich D ⊆ Rd


definiert sind. Hier sind also Dimension von Definitionsbereich und Wertebereich gleich. Solche
Funktionen treten z.B. als Vektorfelder auf, stellen Sie sich das Gravitationsfeld der Erde oder das
Geschwindigkeitsfeld einer strömenden Flüssigkeit vor. In jedem Punkt des Definitionsbereichs
denkt man sich dazu einen Vektor angeheftet. Ist zum Beispiel d = 2, so zeichnen wir in gewissen
Punkten (x, y) des Definitionsbereichs einen Vektor f (x, y) mit Anfangspunkt (x, y). Als Beispiel
ist in Abbildung 9 das Vektorfeld f (x, y) = (x, −y) in zwei Varianten dargestellt.

3
3

2
2

1 1

0 0

-1 -1

-2
-2

-3
-3

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

Abbildung 9: Das Vektorfeld (x, −y)

10.2 Differenzierbarkeit und Ableitungen

Zur Definition von Differenzierbarkeit und Ableitung erinnern wir zunächst an die Vorstellung
der Ableitung einer reellen Funktion als Bestimmung der Tangente an einen Funktionsgraphen
als beste lineare Approximation. Für eine differenzierbare Funktion f : I → R auf einem Intervall
I ergab sich die Tangentengleichung im Punkt (x0 , f (x0 )) als

y = f (x0 ) + f 0 (x0 )(x − x0 )


34

und f war differenzierbar in x0 , wenn in der Darstellung

f (x) = f (x0 ) + a(x − x0 ) + r(x0 , x)

mit a = f 0 (x0 ) die Grenzwertbedingung

r(x0 , x) f (x) − f (x0 ) − a(x − x0 )


lim = lim =0
x→x0 x − x0 x→x0 x − x0
gilt.
Ist nun f : D → Rm mit D ⊆ Rd eine multivariate Funktion, so lässt sich diese Definition einfach
übertragen. Wir wollen eine Darstellung

f (x) = f (x0 ) + A(x − x0 ) + r(x0 , x)

haben mit
r(x0 , x) f (x) − f (x0 ) − A(x − x0 )
lim = lim = 0.
x→x0 kx − x0 k x→x 0 kx − x0 k
Zunächst haben wir also im Nenner x − x0 durch kx − x0 k ersetzt. Hier kann man eine beliebige
Norm auf Rd benutzen, meist wird mit der euklidischen Norm gearbeitet. Deshalb bezeichnen wir
ab jetzt mit k · k auf Rd immer die euklidische Norm k · k2 . Damit die Gleichung sinnvoll ist, muss
A eine Abbildung sein, die aus dem Vektor x−x0 ∈ Rd einen Vektor im Bildraum Rm macht. Wir
wollen die beste lineare Approximation zu f finden, also wird A : Rd → Rm eine lineare Abbildung
sein. Außerdem müssen wir Punkte des Rd hier als Spaltenvektoren auffassen. Wir verstehen also
ab jetzt Punkte im Rd als x = (ξ1 , . . . , ξd )T , auch wenn wir oft weiter x = (ξ1 , . . . , ξd ) schreiben
werden.
Wir gelangen also zur folgenden Definition.

Definition 10.1 (Differenzierbarkeit, Ableitung). Sei D ⊆ Rd offen und sei f : D → Rm und


x0 ∈ D. Dann heißt f in x0 differenzierbar, wenn es eine lineare Abbildung A : Rd → Rm gibt,
so dass für
r(x0 , x) = f (x) − f (x0 ) − A(x − x0 )
r(x0 ,x)
die Grenzwertbeziehung limx→x0 kx−x 0k
= 0 gilt. In diesem Fall heißt A die Ableitung oder
Differential von f in x0 und wird mit f 0 (x0 ) oder Df (x0 ) bezeichnet. Ist f in jedem x0 ∈ D
differenzierbar, so heißt f (überall) differenzierbar.

Bemerkung. Die Definition lässt sich wörtlich weiter verallgemeinern auf Abbildungen f : X →
Y zwischen normierten Räumen X und Y . Dann spricht man meist davon, dass die Funktion f in
x0 Frechét-differenzierbar ist mit Ableitung f 0 (x0 ). Diese Frechét-Ableitung ist dann eine lineare
Abbildung von X nach Y . In unendlichdimensionalen Vektorräumen fordert man zusätzlich die
Stetigkeit von f 0 (x0 ), die in endlichdimensionalen Räumen nach Beispiel 9.42 automatisch erfüllt
ist.

Beispiel 10.2. Ist D = I ⊆ R ein offenes Intervall und f : I → R, so stimmt die Definition der
Differenzierbarkeit mit der aus der Analysis 1 überein. Die Ableitung a = f 0 (x0 ) ist in diesem
Fall eine reelle Zahl, die wir mit der linearen Multiplikationsabbildung a : x 7→ ax identifizieren.

Beispiel 10.3. Ist A : Rd → Rm eine lineare Abbildung, dann ist A differenzierbar mit A0 (x0 ) =
A. Die Ableitung A0 (x0 ) ist hier also unabhängig vom Punkt x0 und ist A selbst. Dies folgt sofort
aus der Definition wegen r(x0 , x) = A(x) − A(x0 ) − A(x − x0 ) = 0.
35

Wie für Funktionen einer Variablen ist Differenzierbarkeit eine stärkere Eigenschaft als Stetigkeit.

Satz 10.4. Sei D ⊆ Rd offen und sei f : D → Rm und x0 ∈ D. Ist f in x0 differenzierbar,


dann ist f in x0 stetig.

Beweis. Sei zur Abkürzung A = f 0 (x0 ). Für

r(x0 , x) = f (x) − f (x0 ) − A(x − x0 )


r(x0 ,x)
gilt dann wegen limx→x0 kx−x 0k
= 0 erst recht limx→x0 r(x0 , x) = 0. Da lineare Abbildungen
stetig sind (Beispiel 9.42), ist auch limx→x0 A(x − x0 ) = A(0) = 0. Es folgt
 
lim f (x) = lim f (x0 ) + A(x − x0 ) + r(x0 , x) = f (x0 )
x→x0 x→x0

und damit die Stetigkeit von f in x0 .

Lineare Abbildungen A : Rd → Rm lassen sich als m × d–Matrizen bezüglich der kanonischen


Basen in Rd und Rm schreiben. Wir werden bald sehen, wie sich die Einträge der Ableitungsma-
trix A = f 0 (x0 ) berechnen lassen. Zunächst wollen wir einsehen, wie sich die Ableitung f 0 (x0 )
einer Funktion f : D → Rm aus den Ableitungen der Komponentenfunktionen f1 , . . . , fm ergibt.
Wegen der koordinatenweisen Beschreibung von Grenzwerten in Satz 9.26 erhalten wir sofort

Satz 10.5. Sei D ⊆ Rd offen und sei f : D → Rm und x0 ∈ D. Dann ist f in x0 differenzier-
bar genau dann, wenn die Komponentenfunktionen f1 , . . . , fm differenzierbar sind. Dann ist in
Matrixform  0 
f1 (x0 )
f 0 (x0 ) =  ...  .
 

fm0 (x )
0

Man kann sich also zur Bestimmung der Ableitung immer auf den Fall von Funktionen f : D → R
zurückziehen. Betrachten wir diesen Fall noch etwas genauer. Die Ableitung f 0 (x0 ) ist eine lineare
Abbildung A : Rd → R, eine Linearform. Die Matrixdarstellung ist dann eine Zeilenvektor. Der
Graph einer Linearform ist eine Hyperebene in Rd+1 , also ein linearer Teilraum der Dimension d.
Für d = 2 ist das einfach eine Ebene. Der Graph der linearen Funktion T (x) = f (x0 ) + A(x − x0 )
ist also eine Verschiebung dieses linearen Teilraumes, ebenfalls eine (Hyper)-Ebene. Für x = x0
haben wir T (x0 ) = f (x0 ), außerdem bedeutet die Definition der Ableitung gerade, dass T (x) die
beste lineare Approximation zu f (x) lokal im Punkt x0 ist. Deshalb bezeichnet man in Analogie
zur Tangente an den Graph einer Funktion einer Variablen den Graph von T als Tangentialebene
an den Graph von f im Punkt (x0 , f (x0 )). Die Tangentialebene existiert gerade dann, wenn f
in x0 differenzierbar ist. In Abbildung 10 sind zwei Beispiele dargestellt.
Es ergeben sich nun folgende Fragen:

• Ist die Ableitung f 0 (x0 ) eindeutig bestimmt?

• Wie berechnet man f 0 (x0 )?

• Wie kann man einer gegebenen Funktion ansehen, ob sie differenzierbar ist?
36

Abbildung 10: Tangentialebenen an z = x2 + y 2 und z = x2 − y 2

Diese Fragen wollen wir jetzt beantworten. Dazu können wir uns auf den Fall f : D → R mit
D ⊆ Rd beschränken. Wir benötigen dazu den Begriff der Richtungsableitung, speziell der parti-
ellen Ableitungen. Diese sind Ableitungen von Funktionen einer Variablen und lassen sich deshalb
leicht berechnen. Wir werden anschließend sehen, wie sie mit der Ableitung f 0 (x0 ) zusammen-
hängen.

Definition 10.6 (Richtungsableitungen). Sei D ⊆ Rd offen und sei f : D → R. Weiter sei


x0 ∈ D und r ∈ Rd . Falls der Grenzwert
df d f (x0 + tr) − f (x0 )
(x0 ) := f (x0 + tr) = lim ,

dr dt t=0 t→0 t

so heißt df
dh (x0 ) die Richtungsableitung von f in Richtung r. Die Richtungsableitungen in Rich-
tung der Einheitsvektoren ei heißen partielle Ableitungen von f in x0 und werden bezeichnet
mit
∂f
(x0 ) = ∂ξi f (x0 ) = ∂i f (x0 ) = fξi (x0 ).
∂ξi

Die Richtungsableitung kann man also interpretieren als momentane Änderungsrate der Funktion
f in x0 bei geradliniger Bewegung mit Geschwindigkeitsvektor r.
Für Funktionen von zwei oder drei Variablen benutzen wir wieder die üblichen Bezeichnungen
f (x, y) bzw. f (x, y, z) und damit z.B. auch ∂f ∂f
∂x , ∂x und fx , fy , fz für die partiellen Ableitungen.
Die partielle Ableitung nach der ersten Koordinate im Punkt x0 = (ξ1o , . . . , ξdo ) ist also

∂f f (ξ1o + t, ξ2o , . . . , ξdo ) − f (ξ1o , ξ2o , . . . , ξdo )


(x0 ) = lim ,
∂ξi t→0 t
Man kann sie also berechnen als Ableitung der Funktion f betrachtet nur als Funktion der ersten
Variablen mit festgehaltenen restlichen Variablen. Entsprechend berechnet man die i-te partielle
Ableitung, indem man nach der i-ten Variable ableitet und die anderen Variablen als Konstante
betrachtet.
37

Beispiel 10.7. Sei f (x) = kxk2 = di=1 ξi2 . Wir wollen die Richtungsableitungen von f berech-
P
nen. Seien dazu x0 , r ∈ Rd . Dann ist
df d
2 d 2 2

2
(x0 ) = kx0 + thk = kx0 k + 2thx0 , ri + t krk = 2hx0 , ri.
dr dt t=0 dt t=0

Für x0 = 0 sind z.B. alle Richtungsableitungen gleich 0.

Beispiel 10.8. Die partiellen Ableitungen des Polynoms f (x, y) = x3 + 42x2 y sind

∂f ∂f
fx = = 3x2 + 84xy und fy = = 42x2 .
∂x ∂y

Die partiellen Ableitungen der Funktion g(x, y) = xy definiert für x, y > 0 sind

∂f ∂g
gx = = yxy−1 und gy = = ln x · xy .
∂x ∂y
Bemerkung. Die Richtungsableitung in der Definition hängt nicht nur von der Richtung des
Vektors r, sondern auch von dessen Länge ab. So gilt offenbar für λ ∈ R

df f (x0 + tλr) − f (x0 ) f (x0 + tr) − f (x0 ) df


(x0 ) = lim = λ lim =λ (x0 ).
d(λr) t→0 t t→0 t dr

Aus diesem Grund wird in manchen Büchern die Definition eingeschränkt auf normierte Rich-
tungsvektoren r mit krk = 1. Das ist manchmal aber unpraktisch.

Der folgende Satz stellt den Zusammenhang zwischen Ableitungen und Richtungsableitungen
her. Insbesondere zeigt er, dass die Ableitung eindeutig bestimmt ist.

Satz 10.9. Sei D ⊆ Rd offen und sei f : D → R in x0 ∈ D differenzierbar. Dann existieren in


x0 alle Richtungsableitungen und es gilt df 0
dr (x0 ) = f (x0 ) · r. Insbesondere ist die i-te Komponente
∂f
von f 0 (x0 ) gerade die partielle Ableitung dξ i
(x0 ).

Beweis. Für r = 0 ist nichts zu zeigen, also sei r 6= 0. Wir setzen zur Abkürzung A = f 0 (x0 ) und
betrachten nur so kleine t ∈ R, für die x0 + th ∈ D ist. Dann erhalten wir für

s(tr, x0 ) = f (x0 ) − f (x0 + tr) − A(tr) = f (x0 ) − f (x0 + tr) − tA(r)

aus der Definition der Ableitung A

s(tr, x0 ) s(tr, x0 )
lim = krk lim =0
t→0 |t| t→0 ktrk

und damit
f (x0 ) − f (x0 + tr) s(tr, x0 ) df
A(r) = lim A(r) = lim − lim = (x0 ),
t→0 t→0 t t→0 t dr
also die Existenz der Richtungsableitung und die Formel.

Bemerkung. In f 0 (x0 ) · r multiplizieren wir also einen Zeilenvektor mit einem Spaltenvektor
und erhalten eine Zahl. Würde man beide Vektoren als Spaltenvektoren betrachten, ist dieses
Produkt gerade das Skalarprodukt.
38

Bemerkung (Gradient). Unter den Voraussetzungen des Satzes hängt also die Richtungsablei-
tung df
dr (x0 ) linear von r = (%1 , . . . , %d ) ab mit
 
d   %1
df X ∂f ∂f ∂f  .. 
(x0 ) = %i · (x0 ) = (x0 ), . . . , (x0 ) ·  .  .
dr ∂ξi ∂ξ1 ∂ξd
i=1 %d

Wir werden in Zukunft oft zur Vereinfachung der Notation den Punkt x0 in der Bezeichnung für
Ableitungen weglassen. Machen Sie sich aber immer klar, dass es um lokale Aussagen im Punkt
x0 geht. Der Zeilenvektor
   
∂f ∂f ∂f ∂f
∇f = ∇f (x0 ) = (x0 ), . . . , (x0 ) = ,...,
∂ξ1 ∂ξd ∂ξ1 ∂ξd
heißt Gradient von f , falls alle partiellen Ableitungen von f existieren. Das Symbol ∇ spricht
man als „Nabla “. Für eine differenzierbare Funktion ist also ∇f = f 0 und wir haben für die
Richtungsableitungen die Formel
df
= ∇f · r.
dr
Aus der Cauchy-Schwarz-Ungleichung folgt für normiertes r mit krk = 1

df
dr ≤ k∇f k · krk = k∇f k.

Gleichheit gilt, wenn r in Richtung des Gradienten zeigt. Der Gradient zeigt also immer in die
Richtung des steilsten Anstiegs. Das ist der Weg, den ein sehr motivierter Bergsteiger nehmen
würde. Je steiler der Anstieg, desto länger ist der Gradient. Andererseits ist die Richtungs-
ableitung 0 in Richtung orthogonal zu ∇f . Das ist gerade in Richtung der Höhenlinien, wo die
Funktion konstant ist. Diesen Weg würde ein nicht sehr motivierter Wanderer wählen.
Besitzt f : D → R in jedem Punkt partielle Ableitungen (und sind diese stetig), so liefert die
Abbildung ∇ : D → Rd ein Vektorfeld, das sogenannte Gradientenfeld. Dieses kann man sich
am Höhenlinienprofil von f leicht veranschaulichen: Der Gradient ist immer orthogonal zu den
Höhenlinien, je enger die Höhenlinien beieinanderliegen liegen, desto steiler ist der Anstieg, also
desto länger der Gradient.

Beispiel 10.10 (Berechnung der Tangentialebene). Für differenzierbare Funktionen f : D → R


können wir jetzt also die Gleichung

T (x) = f (x0 ) + f 0 (x0 )(x − x0 ) = f (x0 ) + ∇f (x0 ) · (x − x0 )

der Tangentialebene im Punkt x0 berechnen. Als konkretes Beispiel betrachten wir die Funktion
f : R2 → R gegeben durch f (x, y) = x2 + y 2 mit den partiellen Ableitungen fx (x0 , y0 ) = 2x0 und
fy (x0 , y0 ) = 2y0 . Die Gleichung der Tangentialebene im Punkt (x0 , y0 , f (x0 , y0 )) = (x0 , y0 , x20 +
y02 ) ist dann

T (x, y) = f (x0 , y0 ) + fx (x0 , y0 )(x − x0 ) + fy (x0 , y0 )(y − y0 )


= x20 + y02 + 2x0 (x − x0 ) + 2y0 (y − y0 )
= 2x0 x + 2y0 y − x20 − y02 .
1
Die Tangentialebene in (1/2, 1/2, 1/2) mit der Gleichung T (x, y) = x + y − 2 ist in Abbildung
10 gezeigt.
39

Ein Vektor, der senkrecht auf einer Hyperebene steht, heißt Normalenvektor zu dieser Hyperebe-
ne. Die Richtung des Normalenvektors ist eindeutig bestimmt, da das orthogonale Komplement
eines linearen Teilraums der Dimension d im Rd+1 ein eindimensionaler linearer Teilraum ist.
Wir wollen einen Normalenvektor zur Tangentialebene bestimmen. Dieser heißt auch Norma-
lenvektor bezüglich der Fläche, die durch den Funktionsgraphen dargestellt wird. Der Norma-
lenvektor n = (ν1 , . . . , νd+1 ) muss also senkrecht auf allen Differenzen von Vektoren der Form
x, T (x) ∈ Rd+1 stehen, also muss das Skalarprodukt hn, (x, T (x))i unabhängig von x ∈ Rd
sein. Wählen wir n = (∇f (x0 ), −1) = (fξ1 , . . . , fξd , −1), so erhalten wir

hn, (x, T (x))i = ∇f (x0 ) · x − T (x) = f (x0 ),

was unabhängig von x ist. Also lässt sich auch ein Normalenvektor an die Tangentialebene einfach
berechnen als
n = (∇f (x0 ), −1).

Für obiges Beispiel erhalten wir im Punkt (x0 , y0 , f (x0 , y0 )) den Normalenvektor n = (2x0 , 2y0 , −1),
speziell im Punkt (1/2, 1/2, 1/2) ergibt sich n = (1, 1, −1).
Bemerkung (Das totale Differential). Eine besonders in der älteren Literatur und der Inge-
nieursliteratur anzutreffender Begriff ist der des totalen Differentials für den Ausdruck
d
X ∂f
df = dξi .
∂ξi
i=1

Damit soll ausgedrückt werden, dass bei sehr kleinen (infinitesimalen) Änderungen der Variablen
ξi um jeweils dξi sich der Funktionswert in erster Näherung um gerade diesen Wert ändert.

Abbildung 11: Veranschaulichung totales Differential

Wir haben im Satz 10.9 eingesehen, dass die Differenzierbarkeit die Existenz aller Richtungsablei-
tungen impliziert. Die Umkehrung gilt nicht. Es gibt Funktionen, die in einem Punkt sämtliche
Richtungsableitungen besitzen, aber keine Tangentialebene in diesem Punkt haben, also nicht
differenzierbar sind. Wir präsentieren ein allgemeines anschauliches Beispiel.
40

Beispiel 10.11. Sei eine Stange im Mittelpunkt drehbar gelagert. Dieser Mittelpunkt sei der
Koordinatenursprung. Bei Rotation der Stange um diesen Punkt um 180 Grad in der (x, y)-Ebene
überstreicht die Stange eine Kreisfläche in der (x, y)-Ebene. Stellen Sie sich nun vor, dass die
Stange bei der Drehung auch vertikal wackelt, allerdings nach einer 180-Grad-Drehung wieder
in Ausgangslage ist. Wenn sie dabei niemals senkrecht steht, überstreicht sie eine Fläche, die
einem Funktionsgraph einer Funktion z = f (x, y) entspricht. Da die Stange nicht verbogen wird,
existieren im Punkt 0 alle Richtungsableitungen, die Funktionen ϕ(t) = f (tr, ts) sind ja linear.
Aber f ist in 0 nur dann differenzierbar, wenn die Stange sich in einer (evtl. geneigten) Ebene
bewegt.

Abbildung 12: Gedrehte Stange

Zur mathematischen
p Beschreibung benutzen wir am besten Polarkoordinaten, schreiben also
r = r(x, y) = x + y 2 für den Abstand des Punkts (x, y) vom Ursprung und ϕ = ϕ(x, y) für das
2

Argument. Dann erhält man die durch die Stange beschriebene Funktion als f (x, y) = rw(ϕ) mit
einer 2π-periodischen Funktion w : [0, 2π] → R, die die Symmetriebedingung w(x + π) = −w(x)
erfüllt. Die Richtungsableitung in Richtung (r, s) ∈ R2 im Punkt 0 ist dann
df f (tr, ts) − f (0, 0)
(0, 0) = lim = f (r, s),
d(r, s) t→0 t
existiert also sogar für unstetiges w. Andererseits ist f genau dann differenzierbar, wenn die
Richtungsableitung, also f (r, s), eine lineare Funktion von (r, s) ist. Das ist gerade der Fall,
wenn die Stange in einer Ebene rotiert.

Für eine teilweise Umkehrung, mit der man bequem Differenzierbarkeit einer Funktion nachwei-
sen kann, benötigt man partielle Ableitungen nicht nur im Punkt x0 , sondern in einer ganzen
Umgebung.

Satz 10.12. Sei f : D → R in x0 ∈ D und sei x0 ∈ D. Existieren alle partiellen Ableitungen


von f in einer Umgebung von x0 und sind sie in x0 stetig, dann ist f in x0 differenzierbar
41

Beweis. Wir führen den Beweis nur für d = 2, für allgemeines d geht das analog. Der einzige
mögliche Kandidat für die Ableitung von A = f 0 (x0 , y0 ) ist die lineare Abbildung

A(g, h) = fx (x0 , y0 )g + fy (x0 , y0 )h.

Wir müssen also zeigen, dass mit

r(g, h) = f (x0 + g, y0 + h) − f (x0 , g0 ) − fx (x0 , y0 )g − fy (x0 , y0 )h


r(g,h)
die Grenzwertbeziehung lim(g,h)→0 k(g,h)k = 0 gilt.
Nach Voraussetzung existiert ein δ > 0, so dass die partiellen Ableitungen von f in (x0 +
g, y0 + h) existieren, falls k(g, h)k < δ ist. Für solche g, h ist nach dem Mittelwertsatz der
Differentialrechnung

f (x0 + g, y0 + h) − f (x0 , y0 ) = f (x0 + g, y0 + h) − f (x0 , y0 + h) + f (x0 , y0 + h) − f (x0 , y0 )


= gfx (ξ, y0 + h) + hfy (x0 , η)

mit ξ zwischen x0 und x0 + g und η zwischen y0 und y0 + h. Wir haben also r(g, h) = ag + bh
mit a = fx (ξ, y0 + h) − fx (x0 , y0 ) und b = fy (x0 , η) − fy (x0 , y0 ). Nach Voraussetzung sind fx und
fy in (x0 , y0 ) stetig, also gilt a, b → 0 für (g, h) → 0. Aus der Cauchy-Schwarz-Ungleichung folgt
|r(g, h)| ≤ k(a, b)k · k(g, h)k und damit schließlich

r(g, h)
lim = 0.
(g,h)→0 k(g, h)k

Kehren wir nun zum allgemeinen Fall einer Funktion f : D → Rm mit den Komponentenfunktio-
nen f1 , . . . , fm zurück. Ist f in x0 differenzierbar, dann existieren in x0 alle partiellen Ableitungen
∂fk
∂ξi für k = 1, . . . , m und i = 1, . . . , d. Nach Satz 10.5 erhalten wir dann die Matrixdarstellung
von f 0 (x0 ) als
  ∂f1
· · · ∂f
 0   1

f1 (x0 ) ∇f1 ∂ξ1 ∂ξd
f 0 (x0 ) =  ...  =  ...  =  ... ..  .
    
. 
0
fm (x0 ) ∇fm ∂f ∂f
∂ξ
m
1
· · · ∂ξm d

Die Matrix  ∂f1 ∂f1


···

∂ξ1 ∂ξd
Jf (x0 ) = Jf =  ... .. 

. 
∂fm ∂fm
∂ξ1 ··· ∂ξd

bezeichnet man als Jacobi-Matrix von f an der Stelle x0 , auch für nicht notwendig differenzier-
bares f , für das aber wenigstens alle partiellen Ableitungen existieren. Für differenzierbares f
ist also f 0 = Jf , und wir haben eine bequeme Möglichkeit gefunden, Ableitungen multivariater
Funktionen zu berechnen.
Für Funktionen f : D → Rd , D ⊆ Rd , also Vektorfelder, ist die Jacobi-Matrix eine quadratische
d × d–Matrix. Später wird die Invertierbarkeit dieser Matrix eine große Rolle spielen. Da die
Matrix Jf genau dann invertierbar ist, wenn det Jf 6= 0 ist, bezeichnet man die Determinante
det Jf auch als Jacobi-Determinante.
42

Beispiel 10.13 (Polarkoordinaten). Wir betrachten die Abbildung f : (0, ∞)×R → R2 gegeben
durch f (r, ϕ) = (x, y) = x(r, ϕ), y(r, ϕ) mit

x = r cos ϕ
y = r sin ϕ.

Die Funktion f berechnet also aus den Polarkoordinaten (r, ϕ) die kartesischen Koordinaten
(x, y). Die Jacobi-Matrix ist
   
xr xϕ cos ϕ −r sin ϕ
Jf = =
yr yϕ sin ϕ r cos ϕ

und die Jacobi-Determinante ist

det Jf = r cos2 ϕ + r sin2 ϕ = r.

Da alle partiellen Ableitungen stetig sind, ist f differenzierbar und Jf ist die Matrix der Ablei-
tung. Außerdem ist wegen det Jf = r > 0 die Jacobi-Matrix invertierbar.

10.3 Rechenregeln für Ableitungen

In diesem Abschnitt wollen wir die für Ableitungen reeller Funktionen bekannten Regeln, insbe-
sondere die Kettenregel, auf multivariate Funktionen erweitern.

Satz 10.14 (Linearität). Sei D ⊆ Rd offen und seien f, g : D → Rm in x0 ∈ D differenzierbar.


Dann ist für beliebige λ, µ ∈ R die Funktion λf + µg in x0 differenzierbar und es gilt

(λf + µg)0 (x0 ) = λf 0 (x0 ) + µg 0 (x0 ).

Beweis. Folgt sofort aus der Definition der Ableitung.

Satz 10.15 (Kettenregel). Seien D ⊆ Rd und E ⊂ Re offen und seien f : D → E in x0 ∈ D


und g : E → Rm in y0 = f (x0 ) differenzierbar. Dann ist g ◦ f in x0 differenzierbar mit

(g ◦ f )0 (x0 ) = g 0 (y0 ) ◦ f 0 (x0 ) = g 0 f (x0 ) ◦ f 0 (x0 ).




Bemerkung. Auf der rechten Seite steht die Hintereinanderausführung von linearen Abbildun-
gen. Für die darstellenden Jacobi-Matrizen bedeutet das also einfach das Produkt von Matrizen

Jg◦f (x0 ) = Jg (f (x0 )) · Jf (x0 ).

Beweis. Zur Abkürzung schreiben wir F = g ◦ f , A = f 0 (x0 ) und B = g 0 (y0 ) und setzen

u(h) = f (x0 + h) − f (x0 ) − Ah und v(k) = g(y0 + k) − g(y0 ) − Bk

für h ∈ Rd und k ∈ Re , für die f (x0 + h) und g(y0 + k) definiert sind. Aus den Differenzierbar-
keitsvoraussetzungen folgt, dass dann mit

ku(h)k = ε(h)khk und kv(k)k = δ(k)kkk

die Grenzwertbeziehungen limh→0 ε(h) = 0 und limk→0 δ(k) = 0 gelten.


43

Ist nun h gegeben, setzen wir k = f (x0 + h) − f (x0 ). Aus der Differenzierbarkeit von f in x0 folgt
die Stetigkeit von f in x0 . Somit gilt k → 0 für h → 0. Da A linear ist, gibt es eine Konstante
L > 0 mit kAhk ≤ Lkhk für h ∈ Rd und somit

kkk = kf (x0 + h) − f (x0 )k = kAh + u(h)k ≤ (L + ε(h))khk.

Weiter folgt

F (x0 + h) − F (x0 ) − BAh = g(y0 + k) − g(y0 ) − BAh = B(k − Ah) + v(k) = Bu(h) + v(k).

Da B linear ist, gibt es ebenfalls eine Konstante M > 0 mit kBkk ≤ M kkk für k ∈ Re . Zusammen
ergibt sich
kF (x0 + h) − F (x0 ) − BAhk kBu(h) + v(k)k 
= ≤ M ε(h) + L + ε(h) δ(k).
khk khk
Für h → 0 strebt die rechte Seite und damit auch die linke gegen 0 und wir haben Differenzier-
barkeit von F in x0 zusammen mit F 0 (x0 ) = BA gezeigt.

Beispiel 10.16. Ein oft auftretender Spezialfall ist der Fall d = m = 1. Wir schreiben dann
wieder d statt e. Wir haben also eine Funktion γ : (a, b) → D ⊆ Rd , also eine Kurve im Rd , und
eine Funktion f : D → R und betrachten die Komposition g(t) = f (γ(t)), also die Funktion f
auf der Kurve γ. Dann erhält man aus der Kettenregel
d
X ∂f
g 0 (t) = f 0 (γ(t))γ 0 (t) = ∇f (γ(t))γ 0 (t) = γ(t) γi0 (t).

∂ξi
i=1

Als Spezialfall finden wir wieder die Richtungsableitung, wenn nämlich γ die Gerade γ(t) = x0 +tr
für einen Richtungsvektor r beschreibt. Dann ist γ 0 (t) = r und wir erhalten wieder
df
(x0 ) = g 0 (0) = ∇f (x0 ) · r.
dr
Umgekehrt sieht man, dass die Ableitung von f entlang der Kurve γ in x = γ(t) gerade die
Richtungsableitung in Richtung des (Geschwindigkeits-)Vektors γ 0 (t) ist.
Beispiel 10.17. Betrachten wir zwei konkrete Ableitungen für die Funktion f (x, y) = x2 + y 2
entlang von Kurven. Sei zunächst γ(t) = (t, 3t) die Darstellung einer Geraden. Dann erhalten
wir mit x = t, y = 3t

(f ◦ γ)0 (t) = fx · 1 + fy · 3 = 2x + 6y = 2t + 18t = 20t.

Dies kann man auch direkt durch Einsetzen bekommen: (f ◦ γ)(t) = t2 + 9t2 = 10t2 und damit
(f ◦ γ)0 (t) = 20t. Was erhalten wir entlang des Kreises γ(t) = (cos t, sin t)? Es ergibt sich

(f ◦ γ)0 (t) = 2x · (− sin t) + 2y · cos t = −2 cos t sin t + 2 cos t sin t = 0,

klar, da wir ja entlang einer Höhenlinie der Funktion f integrieren.

Satz 10.18 (Produkt- und Quotientenregel). Sei D ⊆ Rd offen und seien f, g : D → R in


x0 ∈ D differenzierbar. Dann sind die Funktion f g : D → R und (falls g(x) 6= 0 für x ∈ D ist)
die Funktion fg : D → R in x0 differenzierbar und es gilt
 0
0 0 0 f g(x0 )f 0 (x0 ) + f (x0 )g 0 (x0 )
(f g) (x0 ) = g(x0 )f (x0 ) + f (x0 )g (x0 ) und (x0 ) = .
g g(x0 )2
44

Beweis. Dies kann man direkt ähnlich wie in der Analysis 1 beweisen, aber auch als Anwendung
der Kettenregel sehen. Wir wollen letzteren Weg gehen. Dazu setzen wir F : D → R2 mit
F (x) = (f (x), g(x))T und erhalten F 0 (x0 ) = (f 0 (x0 ), g 0 (x0 ))T . Hier schreiben wir zur Deutlichkeit
Punkte im R2 als Spaltenvektoren. Weiter setzen wir G : R2 → R an als G(u, v) = uv. Dann ist
G0 (u, v) = (v, u). Wegen G ◦ F = f g erhalten wir aus der Kettenregel

 f 0 (x0 )
 
0 0 0 0
  0
(f g) (x0 ) = G F (x0 )F (x0 ) = G f (x0 ), g(x0 ) F (x0 ) = g(x0 ), f (x0 ) ·
g 0 (x0 )
= g(x0 )f 0 (x0 ) + f (x0 )g 0 (x0 ).

Benutzt man statt G die Funktion H(u, v) = uv , so erhält man die Quotientenregel.

10.4 Höhere Ableitungen und Vertauschungssatz von Schwarz

In diesem Abschnitt wollen wir höhere Ableitungen auf multivariate Funktionen verallgemeinern.
Wir beginnen hier zunächst mit höheren partiellen Ableitungen und interpretieren diese dann
zum besseren Verständnis als ein geeignetes algebraisches Objekt. Im Vergleich zur (ersten)
Ableitung gehen wir also umgekehrt vor. Dort hatten wir zunächst die Ableitung als lineare
Abbildung (algebraisches Objekt) definiert und dann eingesehen, wie sich diese aus den partiellen
Ableitungen zusammensetzt.

Definition 10.19 (partielle Ableitung höherer Ordnung). Sei D ⊆ Rd offen und sei f : D → R.
Weiter seien i, j ∈ {1, . . . , d}. Ist f partiell differenzierbar nach ξi und ist die partielle Ableitung
∂f
∂ξi = fξi : D → R partiell differenzierbar nach ξj , so heißt

∂2f
 
∂ ∂f
fξj ξi := :=
∂ξj ∂ξi ∂ξj ∂ξi

die partielle Ableitung 2. Ordnung von f nach ξi und ξj . Entsprechend ist für i1 , . . . , ip ∈
{1, . . . , d} die partielle Ableitung der Ordnung p von f nach den Variablen ξi1 , . . . , ξip definiert
als
∂pf
    
∂ ∂ ∂f
:= ... ...
∂ξip . . . ∂ξi1 ∂ξip ∂ξi2 ∂ξi1
.

p
Man schreibt auch ∂ξi ∂...∂ξi f um deutlicher zu machen, was die Ableitungen und was die abge-
p 1
leitete Funktion ist. Die höheren Ableitungen hängen natürlich wieder vom Punkt x0 ∈ D ab, in
dem sie berechnet werden. Will man den Punkt x0 deutlich machen, schreibt man
∂pf ∂p
(x0 ) oder f (x0 ).
∂ξip . . . ∂ξi1 ∂ξip . . . ∂ξi1

Manche Autoren schreiben auch fξi ξj statt fξj ξi . Wir werden gleich einsehen, dass das unter
milden Voraussetzungen an f egal ist.

Beispiel 10.20. Betrachten wir die Funktion f (x, y) = x2 cos y, so finden wir die partiellen
Ableitungen erster Ordnung als fx = 2x cos y und fy = −x2 sin y. Nochmaliges Ableiten liefert die
partiellen Ableitungen zweiter Ordnung fxx = 2 cos y, fyy = −x2 cos y und fxy = fyx = −2x sin y.
Bei den gemischten Ableitungen fxy und fyx erhalten wir das gleiche Ergebnis, es ist unabhängig
von der Reihenfolge, in der wir die Ableitungen ausführen. Das ist kein Zufall.
45

Satz 10.21 (Vertauschungssatz von Schwarz). Sei D ⊆ Rd offen, f : D → R und x0 ∈


∂f ∂f 2f
D. Weiter seien i, j ∈ {1, . . . , d}. Falls die partiellen Ableitungen ∂ξ ,
i ∂ξj
und ∂ξ∂j ∂ξ i
in einer
∂2f
Umgebung von x0 existieren und dort stetig sind, dann existiert auch ∂ξi ∂ξj in x0 und es gilt

∂2f ∂2f
(x0 ) = (x0 ).
∂ξi ∂ξj ∂ξj ∂ξi

Beweis. Wir betrachten zur Vereinfachung der Notation und ohne Beschränkung der Allgemein-
heit den Fall d = 2 und x0 = (0, 0). Wir wollen zeigen, dass unter der Voraussetzung der Stetigkeit
von fx , fy , fyx in einer Umgebung von (0, 0) auch fxy (0, 0) existiert und fxy (0, 0) = fyx (0, 0) ist.
Die Definition liefert
fx (0, k) − fx (0, 0) f (h, k) − f (0, k) − f (h, 0) + f (0, 0)
fyx (0, 0) = lim = lim lim .
k→0 k k→0 h→0 hk
Einen entsprechenden Ausdruck mit vertauschten Grenzwerten erhält man für fxy (0),
f (h, k) − f (0, k) − f (h, 0) + f (0, 0)
fxy (0, 0) = lim lim .
h→0 k→0 hk
Eine solche Vertauschung wollen wir also rechtfertigen, denn wir müssen die Existenz des zwei-
ten Ausdrucks (und die Gleichheit) zeigen. Das machen wir durch zweimalige Anwendung des
Mittelwertsatzes.
Seien also nun h, k 6= 0 fest. Zunächst liefert der Mittelwertsatz angewendet auf die Funktion
ϕk (x) = f (x, k) − f (x, 0) ein ξ zwischen 0 und h mit
f (h, k) − f (0, k) − f (h, 0) + f (0, 0) = ϕk (h) − ϕk (0) = hϕ0k (ξ) = h fx (ξ, k) − fx (ξ, 0) .


Eine zweite Anwendung des Mittelwertsatzes liefert ein η zwischen 0 und k mit fx (ξ, k) −
fx (ξ, 0) = kfyx (ξ, η), also
f (h, k) − f (0, k) − f (h, 0) + f (0, 0) = hkfyx (ξ, η).
Die Stetigkeit von fyx und die Grenzwerte ξ, η → 0 für h, k → 0 ergeben dann
f (h, k) − f (0, k) − f (h, 0) + f (0, 0)
lim lim = lim lim fyx (ξ, η) = fyx (0, 0).
h→0 k→0 hk h→0 k→0

Damit ist die Existenz von fxy (0, 0) und die Gleichheit fxy (0, 0) = fyx (0, 0) gezeigt.

Definition 10.22. Sie D ⊆ Rd offen. Der Raum C k (D) der k-mal stetig differenzierbaren
Funktionen auf D besteht aus allen Funktionen f : D → R, für die alle partiellen Ableitungen
bis zur Ordnung k existieren und stetig sind.

Bemerkung. Der Raum C k (D) ist ein Vektorraum.


Bemerkung. Per Induktion folgt aus dem Satz von Schwarz, dass man für Funktionen f ∈
C k (D) bei Ableitungen bis zur Ordnung k die Reihenfolge der Ableitungen vertauschen kann.
Für ` ≤ k und i1 , . . . , i` ∈ {1, . . . , d} ist
fξπ(1) ,...,ξπ(`) = fξ1 ,...,ξ`
für jede Permutation π der Zahlen {1, . . . , `}. Wie viele verschiedene Ableitungen k-ter Ordnung
gibt es dann noch? Das sind gerade so viele, wie es Auswahlen von k Elementen aus {1, . . . , d}
d+k−1

mit Wiederholung und ohne Beachtung der Reihenfolge gibt, also k .
46

Wir wollen jetzt genauer analysieren, wie man die Ableitungen k-ter Ordnung besser übersicht-
lich darstellen kann und welches Objekt dem Differential für k = 1 als linearer Abbildung ent-
spricht. Dazu verallgemeinern wir zunächst die Richtungsableitungen auf höhere Ordnungen.
Sind r1 , . . . , rk ∈ Rd und ist f ∈ C k (D), so ist die iterierte Richtungsableitung von f in diese
Richtungen definiert als
dk f
    
d d df
= ... ... .
drk . . . dr1 drk dr2 dr1
Durch Induktion folgt aus der Formel
d
df X ∂f
= f 0 (x0 ) · r = %i (1)
dr ∂ξi
i=1

für r = (%1 , . . . , %d ) die Formel


d
dk f X ∂kf (1) (d)
= %i1 . . . %id (2)
drk . . . dr1 ∂ξi1 . . . ∂ξik
i1 ,...,ik =1

(j) (j)
für rj = (%1 , . . . , %d ). Der Satz von Schwarz zeigt wieder, dass die Reihenfolge der Richtungs-
ableitungen keine Rolle spielt.
Wir erinnern daran, dass die Ableitung oder das Differential von f die lineare Abbildung f 0 (x0 ) =
Df (x0 ) : r 7→ Df · r ist. Das motiviert die folgende Definition für Differentiale oder Ableitungen
höherer Ordnung. Wir benutzen in dieser Definition die Bezeichnungen von oben.

Definition 10.23. Sei k ≥ 1 und f ∈ C k (D). Für x0 ∈ D heißt die Abbildung

A(k) : Rd × · · · × Rd → R

gegeben durch
d
X ∂kf (1) (d)
A(k) (r1 , . . . , rk ) = % . . . %id
∂ξi1 . . . ∂ξik i1
i1 ,...,ik =1

die Ableitung oder das Differential k-ter Ordnung von f im Punkt x0 . Die Ableitung A(k) wird
bezeichnet mit
D(k) f = D(k) f (x0 ) = f (k) (x0 )

An dieser Definition kann man die algebraischen Eigenschaften der k-ten Ableitung ablesen.
Zunächst ist die Abbildung A(k) = f (k) (x0 ) linear in jeder Komponente, d.h. es gilt

A(k) (r1 , . . . , rj−1 , λrj + µsj , rj+1 , . . . , rk )


= λA(k) f (r1 , . . . , rj−1 , rj , rj+1 , . . . , rk ) + µA(k) f (r1 , . . . , rj−1 , sj , rj+1 , . . . , rk ).

Eine Abbildung A(k) mit dieser Eigenschaft nennt man eine multilineare Abbildung oder genauer
k–lineare Abbildung. Eine 2–lineare Abbildung heißt bilinear. Außerdem gilt nach dem Satz von
Schwarz für jede Permutation π von {1, . . . , k}

A(k) (rπ(1) , . . . , rπ(k) ) = A(k) (r1 , . . . , rk ).

Eine Abbildung mit dieser Eigenschaft heißt symmetrisch. Insgesamt erhalten wir also den fol-
genden Satz.
47

Satz 10.24. Die k–te Ableitung einer Funktion f ∈ C k (D) im Punkt x0 ∈ D ist eine symme-
trische k-lineare Abbildung.

Neben der ersten Ableitung wird für uns die zweite Ableitung eine große Rolle spielen. Diese ist
also eine symmetrische bilineare Abbildung. Jede symmetrische bilineare Abbildung β : Rd ×
Rd → R kann man bezüglich der kanonischen Basis als d × d-Matrix B = (βij ) schreiben mit
βij = β(ei , ej ). Die Matrix B ist wegen β(ei , ej ) = β(ej , ei ) symmetrisch . Dann ist

β(x, y) = xT By = y T Bx.

Definition 10.25 (Hesse-Matrix). Sei f ∈ C 2 (D) und x0 ∈ D. Die symmetrische Matrix


∂2f ∂2f ∂2f
 
∂ξ1 ∂ξ1 ∂ξ1 ∂ξ2 ··· ∂ξ1 ∂ξd
 ∂2f ∂2f ∂2f 
 ∂ξ2 ∂ξ1 ∂ξ2 ∂ξ2 ··· ∂ξ2 ∂ξd 
Hf (x0 ) = 
.. .. ..


 . . . 
∂2f ∂2f ∂2f
∂ξd ∂ξ1 ∂ξd ∂ξ2 ··· ∂ξd ∂ξd

heißt Hesse-Matrix von f in x0 .

Die Hesse-Matrix beschreibt also die zweite Ableitung von f . Der genaue Zusammenhang ist

f 00 (x0 )(r, s) = rT · Hf (x0 ) · s.

Beispiel 10.26. Sei f : R2 → R gegeben durch f (x, y) = x2 + 4xy + y 2 . Die zweiten partiellen
Ableitungen von f sind fxx = fyy = 2 und fxy = fyx = 4. Die zweite Ableitung im Punkt (x0 , y0 )
ist also die bilineare Abbildung f 00 (x0 , y0 ) : R2 × R2 → R gegeben durch

f 00 (x0 , y0 )(r, s) = fx x%1 σ1 + fxy %1 σ2 + fyx %2 σ1 + fyy %2 σ2 = 2%1 σ1 + 4%1 σ2 + 4%2 σ1 + 2%2 σ2

für r = (%1 , %2 ) und s = (σ1 , σ2 ). Hier ist die zweite Ableitung also unabhängig vom Punkt
(x0 , y0 ). Mittels der Hesse-Matrix
 
2 4
Hf (x0 , y0 ) =
4 2
lässt sich die zweite Ableitung kompakter schreiben als
  
00 T
 2 4 σ1
f (x0 , y0 )(r, s) = r Hf (x0 , y0 )s = %1 %2 .
4 2 σ2

Wir werden bald sehen, dass die Eigenwerte der Hesse-Matrix in x0 entscheidend sind für das
Verhalten der Funktion f in der Nähe von x0 .

10.5 Satz von Taylor

Wir haben jetzt eine bequeme Notation für höhere Ableitungen multivariater Funktionen. Dies
ermöglicht die einfache Übertragung des Satzes von Taylor ins mehrdimensionale.
Wir erinnern zunächst an den eindimensionalen Satz von Taylor: Ist f ∈ C k+1 (a, b) und x0 ∈
(a, b), dann gilt für h ∈ R mit x0 + h ∈ (a, b) die Formel

f 00 (x0 ) 2 f (k) (x0 ) k


f (x0 + h) = f (x0 ) + f 0 (x0 )h + h + ··· + h + Rk+1
2! k!
48

mit
f (k+1) (x0 + τ h) k+1
Rk+1 = h
(k + 1)!
für ein geeignetes τ ∈ (0, 1). Für multivariates f hat der Satz von Taylor eine ganz analoge Form.

Satz 10.27 (Satz von Taylor). Sei D ⊆ Rd offen und f ∈ C k+1 (D). Für x0 ∈ D und h ∈ Rd ,
für das die Strecke {x0 + th 0 ≤ t ≤ 1} ganz in D liegt, gilt

f 00 (x0 )(h, h) f (k) (x0 )(h, . . . , h)


f (x0 + h) = f (x0 ) + f 0 (x0 )(h) + + ··· + + Rk+1
2! k!
mit
f (k+1) (x0 + τ h)(h, . . . , h, h)
Rk+1 =
(k + 1)!
für ein geeignetes τ ∈ (0, 1).

Hierbei ist also der Term f (j) (x0 )(h, . . . , h) die Anwendung der j-linearen Abbildung f (j) (x0 )
auf (h, . . . , h), also die j-malige iterierte Richtungsableitung von f in Richtung h.

Beweis. Wir setzen einfach ϕ(t) = f (x0 + th) und erhalten sukzessive durch Anwenden der
Kettennregel ϕ(j) (t) = f (j) (x0 + th) für j = 0, 1, . . . , k + 1. Dann ergibt sich die Behauptung aus
dem eindimensionalen Satz von Taylor für die Funktion ϕ.

Definition 10.28. Sei D ⊆ Rd offen, f ∈ C k (D) und x0 ∈ D. Das Polynom

f 00 (x0 )(h, h) f (k) (x0 )(h, . . . , h)


Tk (h) = f (x0 ) + f 0 (x0 )(h) + + ··· +
2! k!
heißt k-tes Taylorpolynom von f im Punkt x0 .

Unter den Voraussetzungen und mit den Bezeichnungen des Satzes von Taylor ist also

f (x0 + h) = Tk (h) + Rk+1 (h).

Für d = 1 ergeben sich gerade die bekannten Begriffe aus der Analysis 1. Das Taylorpolynom ist
ein (multivariates) Polynom in h.

Beispiel 10.29. Für k = 1 erhalten wir

T1 (h) = f (x0 ) + f 0 (x0 )(h)

und mit h = x − x0 wieder

T1 (x) = T (x) = f (x0 ) + ∇f · (x − x0 )

die Gleichung der Tangentialebene.

Beispiel 10.30. Für k = 2 erhalten wir


1 1
T2 (h) = f (x0 ) + f 0 (x0 )(h) + f 00 (x0 )(h, h) = f (x0 ) + ∇f · h + hT · Hf · h
2 2
49

mit der Hesse-Matrix Hf = Hf (x0 ). Setzen wir h = (%1 , . . . , %d ) ∈ Rd und schreiben dies aus, so
ergibt sich
d d
X 1 X
T2 (h) = f (x0 ) + fξi (x0 )%i + fξi ξj (x0 )%i %j .
2
i=1 i,j=1

Mittels des Satzes von Schwarz kann man in der Doppelsumme noch gleiche Terme zusammen-
fassen, dadurch wird die Formel aber nicht übersichtlicher.

Beispiel 10.31. Wir wollen von der Funktion f (x, y) = x + y + ex+y das zweite Taylorpolynom
im Punkt (0, 0) berechnen. Dazu benötigen wir die partiellen Ableitungen erster und zweiter
Ordnung im Punkt (x, y) = (0, 0). Wir finden f (0, 0) = 1, fx (0, 0) = fy (0, 0) = 2 und fxx (0, 0) =
fyy (0, 0) = fxy (0, 0) = fyx (0, 0) = 1. Damit erhalten wir

T2 (g, h)
1
fxx (0, 0)g 2 + fxy (0, 0)gh + fyx (0, 0)hg + fyy (0, 0)h2

= f (0, 0) + fx (0, 0)g + fy (0, 0)h +
2
1
= 1 + 2(g + h) + (g 2 + h2 ) + gh
2
(g + h)2
= + 2(g + h) + 1.
2

Die Bedeutung des Taylorpolynoms liegt wieder darin, dass es die beste lokale Approximation
der Funktion f in x0 durch ein Polynom mit Grad k ist. Man kann es also zur approximativen
Berechnung von Funktionswerten verwenden. Darüber hinaus werden wir es wie für univariate
Funktionen benutzen, um Kriterien für Extremwerte herzuleiten. Diese lassen sich durch das
zweite Taylorpolynom und damit durch die Hesse-Matrix analysieren.
Wir wollen eine weitere Möglichkeit diskutieren, die Taylorsche Formel mittels der Multiindex-
schreibweise darzustellen. Ein Multiindex ist einfach ein a = (α1 , . . . , αd ) ∈ Nd0 . Die Schreibweise

xa = ξ1α1 ξ2α2 . . . ξdαd

für Monome in x = P(ξ1 , . . . , xd ) haben wir bereits in Beispiel 9.39 benutzt. Der Grad dieses
Monoms ist |a| := di=1 αi . Mittels Multiindizes lassen sich auch höhere partielle Ableitungen
bequem schreiben. Für f ∈ C k (D) und |a| = k schreiben wir kurz

∂ |a| f ∂kf
:= α1 .
∂x a ∂ξ1 . . . ∂ξdαd

Möglich ist dies, da die Reihenfolge der Ableitungen nach dem Satz von Schwarz keine Rolle
spielt. Außerdem benötigen wir noch die Multinomialkoeffizienten
 
k k!
= .
a α1 ! . . . αd !

Die gewöhnlichen Binomialkoeffizienten ergeben sich für d = 2 als


   
k k! k
= = .
` `!(k − `)! (`, k − `)

Benutzen wir noch die Bezeichnung


a! = α1 ! . . . αd !,
50

so sehen Multinomialkoeffizienten so aus:


 
k k!
= .
a a!

Mittels vollständiger Induktion nach der Anzahl der Variablen lässt sich der binomische Satz
verallgemeinern zum multinomischen Satz
k  
k
X k a
(ξ1 + · · · + ξd ) = x .
a
|a|=0

Hier werden also beim Ausmultiplizieren gleiche Monome zusammengefasst, der richtige Koeffizi-
ent ist gerade der Multinomialkoeffizient. Ganz entsprechend ergibt sich durch Zusammenfassen
gleicher partieller Ableitungen in f (k) (x0 )(h, . . . , h) die Formel
X k  ∂ |a|f
(k)
f (x0 )(h, . . . , h) = (x0 )ha
a ∂xa
|a|=k

und damit die Darstellung des Taylorpolynoms in Multiindexschreibweise


k
X 1 ∂ |a| f
Tk (h) = (x0 )ha ,
a! ∂xa
|a|=0

die wieder sehr ähnlich zur eindimensionalen Version ist.

10.6 Lokale Extrema

Die Definitonen von lokalen Extrema läßt sich einfach auf multivariate Funktionen ausdehnen.

Definition 10.32. Sei D ⊆ Rd offen und sei f : D → R. Ein Punkt x0 ∈ D heißt lokale
Minimalstelle von f , falls es eine Umgebung U ⊆ D von x0 gibt mit

f (x) ≥ f (x0 ) für x ∈ U.

Ein Punkt x0 ∈ I heißt lokale Maximalstelle von f , falls es eine Umgebung U ⊆ D von x0 gibt
mit
f (x) ≤ f (x0 ) für x ∈ U.
Der entsprechende Funktionswert f (x0 ) heißt lokales Minimum bzw. lokales Maximum. Eine
lokale Extremalstelle ist eine lokale Minimalstelle oder Maximalstelle, ein lokales Extremum ist
ein lokales Minimum oder ein lokales Maximum.

Aus der Analysis 1 wissen wir, dass für das Vorliegen einer lokalen Extremalstelle in x0 bei einer
differenzierbaren Funktion f die Bedingung f 0 (x0 ) = 0 notwendig ist. Daraus ergibt sich sofort

Satz 10.33 (Lokale Extrema - notwendige Bedingung). Sei D ⊆ Rd offen und sei f : D → R
differenzierbar. Hat f in x0 ∈ D eine lokale Extremalstelle, dann sind die partiellen Ableitungen
von f in x0 gleich 0, also
∇f (x0 ) = 0.
51

∂f
Diese notwendige Bedingung liefert also die d (im Allgemeinen nichtlinearen) Gleichungen ∂ξ i
=0
zur Bestimmung von Kandidaten für lokale Extremalstellen. Geometrisch bedeutet die Bedingung
∇f (x0 ) = 0 gerade, dass die Tangentialebene in x0 horizontal verläuft, eine intuitiv einleuchtende
notwendige Bedingung für eine lokale Extremalstelle.
Die Punkte x0 ∈ D mit ∇f (x0 ) = 0 nennt man auch kritische Punkte oder stationäre Punkte
von f .

Beispiel 10.34. Für jede der Funktionen f1 (x, y) = x2 + y 2 , f2 (x, y) = x2 − y 2 und f3 (x, y) =
−x2 − y 2 mit (x, y) ∈ R2 erhalten wir als einzigen Kandidaten für eine lokale Extremalstelle den
Punkt (0, 0).

Ebenfalls aus der Analysis wissen wir, dass für eine zweimal stetig differenzierbare Funktion
eine hinreichende Bedingung für eine Minimalstelle die Positivität der zweiten Ableitung, also
f 00 (x0 ) > 0, ist. Im multivariaten Fall ist die zweite Ableitung eine Bilinearform gegeben durch die
Hesse-Matrix. Welche Bedingung an die Hesse-Matrix liefert nun die entsprechende hinreichende
Bedingung? Dies ist gerade die aus der linearen Algebra bekannte Definitheit der Hesse-Matrix.

Definition 10.35. Eine symmetrische d × d-Matrix A heißt

• positiv definit, wenn hT Ah > 0 für alle h ∈ Rd mit h 6= 0 ist.

• positiv semidefinit, wenn hT Ah ≥ 0 für alle h ∈ Rd ist.

• negativ definit, wenn hT Ah < 0 für alle h ∈ Rd mit h 6= 0 ist.

• negativ semidefinit, wenn hT Ah ≥ 0 für alle h ∈ Rd ist.

• indefinit, wenn sie weder positiv noch negativ semidefinit ist.

Auch die entsprechenden bilinearen Abbildungen h 7→ hT Ah heißen dann positiv/negativ definit


oder semidefinit. Ebenfalls aus der linearen Algebra ist bekannt, dass man mittels der folgen-
den Äquivalenzen an den (reellen!) Eigenwerten der symmetrischen Matrix A die Definitheit
entscheiden kann:
A ist positiv definit ⇐⇒ alle Eigenwerte von A sind > 0
A ist positiv semidefinit ⇐⇒ alle Eigenwerte von A sind ≥ 0
A ist negativ definit ⇐⇒ alle Eigenwerte von A sind < 0
A ist negativ semidefinit ⇐⇒ alle Eigenwerte von A sind ≤ 0
A ist indefinit ⇐⇒ A hat positive und negative Eigenwerte.

Beispiel 10.36. Für die Funktionen aus Beispiel 10.34 erhalten wir als Hesse-Matrix in (0, 0)
das folgende:
Funktion: f1 (x, y) = x2 + y 2 f2 (x, y) = x2 − y 2 f3 (x, y) = −x2 − y 2
     
2 0 2 0 −2 0
Hesse-Matrix: Hf1 (0, 0) = Hf2 (0, 0) = Hf3 (0, 0) =
0 2 0 −2 0 −2

Eigenwerte: 2, 2 2, −2 −2, −2

Definitheit: positiv definit indefinit negativ definit


Extremum: Minimum kein Extremum Maximum
52

Der aus dieser Zusammenstellung ersichtliche Zusammenhang gilt auch allgemein. Dies formu-
lieren wir in folgendem Kriterium.

Satz 10.37 (Lokale Extrema - hinreichende Bedingung). Sei D ⊆ Rd offen und sei f : D → R
zweimal stetig differenzierbar mit ∇f (x0 ) = 0. Ist die Hesse-Matrix Hf (x0 ) positiv definit, so hat
f in x0 ein lokales Minimum. Ist Hf (x0 ) negativ definit, so hat f in x0 ein lokales Maximum.
Ist Hf (x0 ) indefinit, so hat f in x0 weder ein lokales Minimum noch ein lokales Maximum, es
liegt ein Sattelpunkt vor.

Zur Vorbereitung des Beweises wollen wir die positive Definitheit einer Matrix genauer untersu-
chen.

Satz 10.38 (Charakterisierung der positiven Definitheit). Für eine symmetrische d × d-Matrix
A sind äquivalent:

(i) A ist positiv definit.

(ii) Alle Eigenwerte von A sind positiv.

(iii) Für jedes h ∈ Rd mit khk = 1 ist hT Ah > 0.

(iv) Es gibt ein α > 0 mit hT Ah ≥ αkhk2 für alle h ∈ Rd .

(v) Es gibt ein α > 0 mit hT Ah ≥ α für alle h ∈ Rd mit khk = 1.

Beweis. Die Äquivalenz von (i) und (ii) kennen wir aus der linearen Algebra. Dass (iii) äquivalent
zu (i) ist folgt aus der Homogenität des Skalarprodukts, ebenso die Äquivalenz von (iv) und (v).
Natürlich folgt (iii) aus (v).
Es bleibt also zu zeigen, dass (v) aus (iii) folgt. Da die Funktion h 7→ hT Ah stetig und die
Einheitssphäre {h ∈ Rd : khk = 1} kompakt ist, ist dies eine Folgerung aus dem Satz von
Maximum und Minimum. Das Minimum α der Funktion auf der Sphäre ist sicher nichtnegativ,
kann aber wegen (iii) auch nicht gleich Null sein.

Ebenfalls zur Vorbereitung des Beweises wollen wir an Beispiel 9.42 erinnern, in dem die Stetigkeit
von linearen Abbildungen A : Rn → Rm gezeigt wurde. Genauer wurde die Abschätzung
 1/2
m X
X n
kAxk ≤  |αij |2  kxk
i=1 j=1

gezeigt, wenn A = (αij ) ist. Zur Abkürzung werden wir


 1/2
Xm X
n
kAk =  |αij |2 
i=1 j=1

schreiben und haben dann


kAxk ≤ kAk kxk.
Die Abbildung A 7→ kAk ist eine Norm auf dem Vektorraum aller n × m-Matrizen. Es ist einfach
die euklidische Norm des Vektors aus allen Einträgen. Diese Norm nennt man auch Frobeniusnorm
von A.
53

Diese erfüllt ebenfalls die multiplikative Ungleichung

kABk ≤ kAk kBk

für Matrizen A, B, für die das Produkt AB definiert ist. Der Beweis folgt aus der Cauchy-
Schwarz-Ungleichung. Sind nämlich ai die Zeilen von A und bj die Spalten von B, so sind die
Einträge von AB gerade die Skalarprodukte hai , bj i und wir erhalten
X X X X
kABk2 = |hai , bj i|2 ≤ kai k2 kbj k2 = kai k2 kbj k2 = kAk kBk.
i,j i,j i j

Diese Bezeichnungen ermöglichen uns, das folgende Stabilitätsresultat für die Definitheit einer
symmetrischen d × d-Matrix einzusehen.

Satz 10.39. Ist A eine positiv definite symmetrische d × d–Matrix, dann gibt es ein ε > 0, so
dass jede symmetrische d × d-Matrix B mit kB − Ak < ε ebenfalls positiv definit ist. Entspre-
chendes gilt für negativ definite und indefinite Matrizen. Mit anderen Worten: Die Mengen der
positiv definiten, negativ definiten und indefiniten Matrizen im normierten Raum der symmetri-
schen d × d–Matrizen sind offene Mengen.

α
Beweis. Sei A positiv definit. Wähle α wie in Eigenschaft (iv) in Satz 10.38 und setze ε = 2.
Dann gilt für alle h ∈ Rd mit khk = 1
α
hT Bh = hT Ah − hT (A − B)h ≥ α − kA − Bk ≥ .
2
Ist A negativ definit, betrachte −A statt A.
Ist A indefinit, so existieren α > 0 und h+ , h− ∈ Rd mit kh+ k = kh− k = 1 und hT+ Ah+ ≥ α und
hT− Ah− ≤ −α. Obige Abschätzung zeigt dann auch hT+ Bh+ ≥ α/2 und hT− Bh− ≤ −α/2.

Beweis des Satzes 10.37. Der Satz von Taylor für k = 1 liefert zusammen mit der Bedingung
∇f (x0 ) = 0 die Gleichung
1
f (x0 + h) = f (x0 ) + f 00 (x0 + th)(h, h) = f (x0 ) + hT Hf (x0 + th)h
2
mit einem t ∈ [0, 1]. Diese Gleichung gilt für alle h in einer genügend kleinen Umgebung von 0.
Ist Hf (x0 ) positiv definit, so ist nach Satz 10.39 wegen der Stetigkeit der zweiten partiellen
Ableitungen auch Hf (x0 + th) in einer genügend kleinen Umgebung von 0 positiv definit. Also
ist f (x0 + h) > f (x0 ) für h 6= 0 in einer Umgebung von 0 und in x0 liegt ein lokales Minimum
von f vor.
Der Fall, dass Hf (x0 ) negativ definit ist, ergibt sich analog oder durch Betrachtung der Funktion
−f statt f .
Ist Hf (x0 ) indefinit, so existieren nach dem Beweis des Satzes 10.39 h+ , h− ∈ Rd mit kh+ k =
kh− k = 1 mit hT+ Hf (x0 + th+ )h+ > 0 und hT− Hf (x0 + th− )h− < 0 für genügend kleines t.

Beispiel 10.40. Wir wollen die lokalen Extrema der Funktion f (x, y) = x2 + 4y + y4 für x, y ∈ R
bestimmen. Dazu berechnen wir zunächst die partiellen Ableitungen fx = 2x und fy = 4 − y42 .
Die kritischen Punkte (x, y) mit ∇f (x, y) = 0 sind also gerade die Punkte, die die Gleichungen
1
fx = 2x = 0 und fy = 4 − =0
y2
54

erfüllen. Wir erhalten die zwei kritischen Punkte (x1 , y1 ) = (0, 1) und (x2 , y2 ) = (0, −1). Zur
Bestimmung, ob eine Extremalstelle vorliegt und welcher Art diese ist, betrachten wir die Hes-
sematrix    
fxx fxy 2 0
Hf (x, y) = = .
fyx fyy 0 y83
In den kritischen Punkten ist diese
   
2 0 2 0
Hf (0, 1) = und Hf (0, −1) = .
0 8 0 −8
Die Matrix Hf (0, 1) ist offensichtlich positiv definit, also liegt in (0, 1) ein lokales Minimum
mit dem Funktionswert f (0, 1) = 8 vor. Die Matrix Hf (0, −1) ist offensichtlich indefinit, also
liegt in (0, −1) kein lokales Extremum, sondern ein Sattelpunkt vor. Der Funktionswert ist hier
f (0, −1) = −8.

Es gibt ein einfaches Verfahren, die Definitheit einer symmetrischen d × d–Matrix A = (aij ) zu
bestimmen, ohne die Eigenwerte explizit auszurechnen. Dazu betrachtet man die sogenannten
Hauptminoren
Ak = (αi,j )ki,j=1
und berechnet deren Determinanten. Die Matrix A ist genau dann positiv definit, wenn diese
alle positiv sind. Die Matrix A ist genau dann negativ definit, wenn det A1 = a11 < 0 ist
und die det Ak abwechselnd positives und negatives Vorzeichen. Dieses Kriterium heißt Hurwitz-
Kriterium. Für einen Beweis verweisen wir auf die Literatur zur linearen Algebra.
Besonders einfach wird dies im Fall d = 2. Die Hesse-Matrix
 
fxx fxy
Hf (x, y) =
fyx fyy
2 >0
ist also genau dann definit, wenn fxx 6= 0 ist und wenn die Diskriminante D = fxx fyy − fxy
ist. Ist also in einem kritischen Punkt D > 0, so liegt ein Minimum vor, falls fxx > 0 ist, und
ein Maximum, falls fxx < 0 ist. Ist D < 0, so liegt ein Sattelpunkt vor.
Beispiel 10.41. Gegeben seien n Punkte (x1 , y1 ), . . . , (xn , yn ) ∈ R2 . Gesucht ist die Gerade
y = ax + b, für die die Summe
n
X
f (a, b) = (yi − axi − b)2
i=1

minimal wird. Diese Gerade heißt Ausgleichsgerade. Ihre Bestimmung heißt auch Gaußsche Me-
thode der kleinsten Quadrate. Gauß benutzte diese Methode, um den Asteroiden Ceres wieder-
zufinden, den die Astronomen nach der Entdeckung wieder aus den Augen verloren hatten.
Wir haben also eine Funktion von zwei Variablen a, b ∈ R zu minimieren. Ein solches Minimum
muss nach dem Satz vom Maximum und Minimum existieren, da es ausreicht, (a, b) in einem
beschränkten Quadrat |a|, |b| ≤ R zu betrachten.
Wir bestimmen zunächst die kritischen Punkte. In den kritischen Punkten haben wir
n n
∂f X ∂f X
= −2 xi (yi − axi − b) = 0 und = −2 (yi − axi − b) = 0.
∂a ∂b
i=1 i=1

Setzen wir x = (x1 , . . . , xn ), y = (y1 , . . . , yn ), 1 = (1, . . . , 1) ∈ Rn , so ergibt sich

hx, y − ax − b1i = 0 und h1, y − ax − b1i = 0.


55

Umstellen ergibt das Gleichungssystem

hx, xia + hx, 1ib = hx, yi und hx, 1ia + h1, 1ib = h1, yi.

Dieses Gleichungssystem ist eindeutig lösbar, wenn nicht alle xi gleich sind. Dies folgt wegen

hx, 1i2 ≤ hx, xih1, 1i

aus der Cauchy-Schwarz-Ungleichung. Für die Hesse-Matrix erhält man


 
hx, xi hx, 1i
Hf = 2 .
hx, 1i h1, 1i

Wegen hx, xi > 0 und D = hx, xih1, 1i − hx, 1i2 > 0 liegt tatsächlich ein Minimum vor.

10.7 Satz von der inversen Funktion

In diesem Abschnitt wollen wir uns mit der Existenz und den Eigenschaften von inversen Funktio-
nen f : D → Rd definiert auf einer offenen Menge D ⊆ Rd beschäftigen. Die Gleichung f (x) = y
kann man dann mit x = (ξ1 , . . . , ξd ), y = (η1 , . . . , ηd ) ∈ Rd und den Komponentenfunktionen
f1 , . . . , fd : D → R als nichtlineares Gleichungssystem

f1 (ξ1 , . . . , ξd ) = η1
f2 (ξ1 , . . . , ξd ) = η2
···
fd (ξ1 , . . . , ξd ) = ηd

mit d Gleichungen in d Variablen ξ1 , . . . , ξd schreiben. Es geht also um die Auflösung solcher


Gleichungen: für gegebene rechte Seite η1 , . . . , ηd finde man ξ1 , . . . , ξd , so dass dieses Gleichungs-
system erfüllt ist.
Zur Motivation des Ergebnisses betrachten wir zwei bekannte Beispiele. Ist d = 1, so suchen wir
also eine inverse Funktion wie in der Analysis 1. Sei f (x0 ) = y0 und sei f 0 (x0 ) > 0 und f 0 stetig.
Dann ist f 0 (x) > 0 in einer Umgebung von x0 . Somit ist f dort streng monoton wachsend und
die inverse Funktion f −1 existiert. Die inverse Funktion ist differenzierbar und es gilt
0 −1
f −1 (y) = f 0 f −1 (y) .

Übersichtlicher wird diese Formel, wenn wir x = f −1 (y), also y = f (x), setzen. Dann ist
0
f −1 (y) = f 0 (x)−1 .

Für allgemeines d ∈ N kennen wir auch aus der linearen Algebra inverse Abbildungen zu linearen
Abbildungen. Sei also f : Rd → Rd linear und gegeben durch eine Matrix A, d.h. f (x) =
Ax. Dann ist f invertierbar, wenn die Matrix A invertierbar ist und in diesem Fall ist f −1 =
A−1 gegeben durch die inverse Matrix. Wir erinnern daran, dass f 0 = f = A ist. Also ist f 0
invertierbar, wenn f invertierbar ist und wieder gilt
0
f −1 (y) = f 0 (x)−1 mit x = f −1 (y).

Das erste Beispiel legt nahe, dass man mittels der Ableitung f 0 (x0 ) die lokale Invertierbarkeit
erhalten kann, das zweite bekräftigt dies. Wir werden den folgenden Satz zeigen.
56

Satz 10.42 (Satz von der inversen Funktion). Sei D ⊆ Rd offen und f : D → Rd sei stetig
differenzierbar. Weiter sei x0 ∈ D und y0 = f (x0 ) und f 0 (x0 ) sei invertierbar. Dann existieren
offene Umgebungen U von x0 und V von y0 in Rd , so dass f : U → V bijektiv ist und so, dass
die inverse Funktion f −1 : V → U stetig differenzierbar in V ist mit
0
f −1 (y) = f 0 (x)−1 für y = f (x) ∈ V.

Bemerkung. Die Formel kann man sich leicht herleiten. Dazu setzen wir g = f −1 . Dann haben
wir die Gleichung g(f (x)) = x. Differenzieren dieser Gleichung mit formaler Anwendung der
Kettenregel liefert g 0 (f (x))f 0 (x) = Id und damit

g 0 (y) = f 0 (x)−1 .

Das ist natürlich nur eine formale Rechnung.

Der Beweis des Satzes beruht auf dem Fixpunktsatz von Banach. Er ist technisch nicht ganz
einfach. Zur Vorbereitung brauchen wir eine Aussage über die Stabilität der Invertierbarkeit von
Matrizen.

Satz 10.43. Die Menge M der invertierbaren d × d–Matrizen ist offen im Raum aller d × d–
Matrizen mit der Frobenius Norm und die Abbildung A 7→ A−1 ist bijektiv und stetig auf M.
Außerdem gilt für d × d– Matrizen A, B

A ∈ M und kB − Ak kA−1 k < 1 =⇒ B ∈ M.


−1
Beweis. Die Bijektivität der Abbildung A 7→ A−1 ist wegen A−1 klar. Die Cramersche Regel
zeigt, dass die Einträge der inversen Matrix A−1 stetige Funktionen der Einträge der Matrix A
sind. Also ist die Abbildung A 7→ A−1 stetig.
Sei jetzt A ∈ M und kB − Ak kA−1 k < 1. Dann gilt für x ∈ Rd

kxk = kA−1 Axk ≤ kA−1 kkAxk ≤ kA−1 k (k(A − B)xk + kBxk)


≤ kA−1 k kA − Bk kxk + kA−1 k kBxk

und folglich
1 − kB − Ak kA−1 k kxk ≤ kA−1 k kBxk.


Also ist B injektiv und damit bijektiv, d.h. B ∈ M ist gezeigt.

Beweis von Satz 10.42. Wir setzen A = f 0 (x0 ) und wählen λ > 0 so, dass

2λkA−1 k = 1 (3)

ist. Da f 0 in x0 stetig ist, gibt es eine offene Kugel U ⊆ D mit Mittelpunkt x0 , so dass

kf 0 (x) − Ak < λ für x ∈ U (4)

gilt.
Jedem y ∈ Rd ordnen wir nun eine Funktion ϕ : D → Rd zu, die gegeben ist durch

ϕ(x) = x + A−1 y − f (x)



für x ∈ D. (5)
57

Der Grund für diesen Ansatz ist, dass f (x) = y genau dann gilt, wenn x ein Fixpunkt von
ϕ ist. Wir haben also die aufzulösende Gleichung als Fixpunktproblem geschrieben. Nun ist ϕ
differenzierbar mit
ϕ0 (x) = Id − A−1 f 0 (x) = A−1 A − f 0 (x) .


Mit (3) und (4) folgt


1
kϕ0 (x)k ≤ kA−1 k kA − f 0 (x)k ≤ für x ∈ U.
2
Der Mittelwertsatz zeigt, dass ϕ dann die Ungleichung
1
kϕ(x1 ) − ϕ(x2 )k ≤ kx1 − x2 k für x1 , x2 ∈ U (6)
2
erfüllt. Also ist ϕ eine Kontraktion auf U ist, eine der Voraussetzungen des Banachschen Fix-
punktsatzes. Insbesondere hat ϕ höchstens einen Fixpunkt, also gilt f (x) = y für höchstens ein
x ∈ U . Damit ist f injektiv auf U . Wir setzen V = f (U ).
Allerdings können wir den Banachschen Fixpunktsatz nur auf Abbildungen auf einem vollständi-
gen metrischen Raum anwenden. Deshalb wählen wir nun eine offene Kugel B mit Mittelpunkt
x0 und Radius r, deren Abschluss B noch ganz in U liegt. Wir wollen zunächst zeigen, dass

ky − y0 k < λr =⇒ y∈V

gilt. Dann ist auch die Offenheit von V gezeigt. Sei also y ∈ Rd mit ky − y0 k < λr. Aus (5)
erhalten wir
r
kϕ(x0 ) − x0 k = kA−1 (y − y0 )k < kA−1 kλr = .
2
Für x ∈ B folgt mit (6)
1 r
kϕ(x) − x0 k ≤ kϕ(x) − ϕ(x0 )k + kϕ(x0 ) − x0 k < kx − x0 k + ≤ r,
2 2
also ist ϕ(x) ∈ B.
Also ist ϕ : B → B eine Kontraktion auf dem vollständigen metrischen Raum B. Nun ist der
Banachsche Fixpunktsatz anwendbar, also hat ϕ genau einen Fixpunkt x ∈ B ⊂ U . Für dieses
x gilt f (x) = y und es folgt y ∈ f (B) ⊆ f (U ) = V .
Auch die Bijektivität von f : U → V ist somit gezeigt. Es bleibt, die stetige Differenzierbarkeit
von f −1 nachzuweisen. Dazu wählen wir y, y + k ∈ V beliebig und finden x, x + h ∈ U mit
f (x) = y, f (x + h) = y + k. Mit (5) erhalten wir

ϕ(x + h) − ϕ(x) = h + A−1 f (x) − f (x + h) = h − A−1 k.




Aus (6) folgt dann kh − A−1 kk ≤ 12 khk und weiter kA−1 kk ≥ 12 khk. Weiter folgt

khk ≤ 2kA−1 k kkk = λ−1 kkk. (7)

Insbesondere ist h → 0 für k → 0.


Nach Satz 10.43 und (3),(4) hat f 0 (x) eine Inverse, sagen wir T . Nun ist mit g = f −1 : V → U

g(y + k) − g(y) − T k = h − T k = −T (f (x + h) − f (x) − f 0 (x)h.

Aus (7) folgt dann


kg(y + k) − g(y) − T kk kT k kf (x + h) − f (x) − f 0 (x)hk
≤ .
kkk λ khk
58

Für k → 0 ist h → 0 und die rechte Seite konvergiert nach der Definition von f 0 (x) gegen 0.
Damit konvergiert auch die linke Seite für k → 0 gegen 0. Also ist g differenzierbar in y und
g 0 (y) = T .
Es bleibt nur noch die Stetigkeit von g 0 = (f −1 )0 zu zeigen. Da g : V → U als differenzierbare
Abbildung stetig ist und f 0 : U → M als Abbildung in die invertierbaren d × d–Matrizen stetig
ist, liefert die Anwendung von Satz 10.43 diese Stetigkeit von g 0 .

Bemerkung. Induktiv kann man zeigen, dass für eine C k –Funktion f mit k ≥ 2 auch die
Umkehrfunktion f −1 : V → U in Satz 10.42 eine C k –Funktion ist. Eine solche Funktion nennt
man C k –Diffeomorphismus oder eine C k –Koordinatentransformation von U auf V .
Bemerkung. Der Satz 10.42 zeigt auch das folgende: Ist f : D → Rd mit offenem D ⊆ Rd eine
C 1 –Funktion und ist f 0 (x) invertierbar für jedes x ∈ D, dann ist das Bild V = f (U ) jeder offenen
Teilmenge U ⊆ D eine offene Menge in Rd . Man nennt eine Abbildung mit dieser Eigenschaft
eine offene Abbildung.
Beispiel 10.44. Im Fall d = 1 ist eine C 1 -Funktion f : (a, b) → R unter der Voraussetzung
f 0 (x) > 0 für x ∈ (a, b) auf einem offenen Intervall (a, b) sogar global invertierbar. Dann ist
die Funktion f streng monoton wachsend, das Bild f (a, b) ist ein offenes (eventuell unendliches)
Intervall (c, d) und aus der Analysis 1 wissen wir, dass die Umkehrfunktion f −1 : (c, d) →
(a, b) existiert und stetig differenzierbar ist. Das folgende Beispiel zeigt, dass eine entsprechende
Tatsache über die globale Invertierbarkeit einer C 1 -Funktion f : D → Rd mit offenem D ⊆ Rd
nicht gilt.
Dazu betrachten wir die komplexe Exponentialfunktion ez in reellen Koordinaten. Wegen ex+iy =
ex cos y + iex sin y ist diese gegeben als
f (x, y) = (ex cos y, ex sin y)
und ist eine C ∞ -Funktion f : R2 → R2 . Die Ableitung f 0 (x, y) : R2 → R2 ist gegeben durch die
Matrix ! 
∂f1 ∂f1
ex cos y −ex sin y

0 ∂x ∂y
f (x, y) = ∂f2 ∂f2 = .
∂x ∂y
ex sin y ex cos y

Damit ist det f 0 (x, y) = ex > 0 für alle (x, y) ∈ R2 , trotzdem ist f nicht global injektiv wegen
f (x, y + 2π) = f (x, y). Allerdings liefert Satz 10.42 lokale inverse Abbildungen. In der Funk-
tionentheorie werden diese genauer studiert, es sind die verschiedenen Blätter des komplexen
Logarithmus.
Beispiel 10.45. Wir betrachten die Funktion f : R2 → R2 gegeben durch f (x, y) = (ex+y , ex−y ).
Dann ist ! 
∂f1 ∂f1
ex+y ex+y

0 ∂x ∂y
f (x, y) = ∂f2 ∂f2 = x−y .
∂x ∂y
e −ex−y

Die Determinante dieser Matrix ist −2e2x 6= 0 für alle (x, y) ∈ R2 . Also ist f überall lokal
umkehrbar. Die Ableitung der inversen Funktion g = f −1 and der Stelle (u, v) = f (x, y) =
(ex+y , ex−y ) erhalten wir als inverse Matrix von f 0 (x, y), also
 1 1

0 0 −1 2e x+y 2e x−y
g (u, v) = f (x, y) = 1 1 .
2ex+y
− 2ex−y

In diesem Fall kann man die Umkehrfunktion direkt berechnen. Dazu müssen wir das Gleichungs-
system
ex+y = u und ex−y = v
59

lösen. Multiplikation der beiden Gleichungen ergibt uv = e2x und damit x = 21 log u + 12 log v.
Analog ergibt sich y = 21 log u+ 21 log v. Also existiert in diesem Fall g = f −1 : (0, ∞)×(0, ∞ → R2
sogar global und ist gegeben durch
 
1 1 1 1
g(u, v) = log u + log v, log u − log v .
2 2 2 2

Hier erhalten wir direkt


1 1 1 1
   
0 2u 2v 2ex+y 2ex−y
g (u, v) = 1 1 = 1 1 .
2u − 2v 2ex+y
− 2ex−y

10.8 Satz von der impliziten Funktion

Ein verwandtes Problem zum Auffinden der inversen Funktion ist das Auflösen impliziter Glei-
chungen. Hier ist eine Funktion f : D × E → Rm mit offenen D ⊆ Rd und E ⊆ Rm gegeben und
man möchte die Gleichung f (x, y) = 0 mit gegebenem x ∈ D auflösen, also y = g(x) bestimmen
mit f (x, g(x)) = 0. Schreiben wir das wieder mit x = (ξ1 , . . . , ξd ) ∈ Rd , y = (η1 , . . . , ηm ) ∈ Rm
und den Komponentenfunktionen f1 , . . . , fm : D × E → R, so geht es also um die Lösung des
nichtlinearen Gleichungssystems

f1 (ξ1 , . . . , ξd , η1 , . . . , ηm ) = 0
f2 (ξ1 , . . . , ξd , η1 , . . . , ηm ) = 0
···
fm (ξ1 , . . . , ξd , η1 , . . . , ηm ) = 0.

Wir haben also m Gleichungen für die m Unbekannten

η1 = g1 (ξ1 , . . . , ξd )
η2 = g2 (ξ1 , . . . , ξd )
···
ηm = gm (ξ1 , . . . , ξd ).

Betrachten wir wieder zwei Beispiele.

Beispiel 10.46. Gegeben sei die Funktion f : R×R → R durch f (x, y) = x2 +y 2 −1. Das Problem
besteht also darin, die Kreisgleichung f (x, y) = x2 + y 2 − 1 = 0 aufzulösen. Die Lösungsmenge
ist der Einheitskreis {(x, y) ∈ R2 : x2 + y 2 = 1}.
Wann lässt sich nun y als Funktion von x schreiben? Da die Gleichung äquivalent zu y 2 = 1 − x2
ist, ist die Auflösung nicht allgemein möglich. Wir werden wieder nach lokaler Auflösbarkeit in
der Umgebung eines Punkte (x √0 , y0 ) mit f (x0 , y0 ) = 0 fragen. Ist dann x0 6= ±1 und y0 > 0, dann
erhalten wir als Lösung y = 1 − x2 . Dies liefert √ den oberen Halbkreis. Ist hingegen x0 6= ±1
und y0 < 0, dann erhalten wir als Lösung y = − 1 − x2 . Dies liefert den unteren Halbkreis. Für
x0 = ±1 ist y0 = 0 und in einer Umgebung dieser Punkte (x0 , y0 ) = (±1, 0) lässt sich offenbar y
nicht als Funktion von x schreiben. Allerdings könnte man hier x als Funktion von y schreiben.

Beispiel 10.47. Den Fall einer linearen Funktion f : Rd × Rm → Rm können wir wieder mit
Mitteln der linearen Algebra analysieren. Dann ist f als m × (d + m)–Matrix A gegeben, die wir
60

aufteilen als A = (Ax | Ay ) mit einer m × d–Matrix Ax und einer quadratischen m × m–Matrix
Ay . Dann haben wir also
f (x, y) = A(x, y) = Ax x + Ay y.
Die Gleichung f (x, y) = 0 ist genau dann nach y auflösbar, wenn Ay invertierbar ist. In diesem
Fall finden wir die auflösende Funktion y = g(x) einfach als

y = g(x) = −A−1
y Ax x.

Dies ist natürlich wieder eine lineare Abbildung.

Das zweite Beispiel legt nahe, dass man im allgemeinen Fall die Ableitung von f , also die m ×
(d + m)–Jacobi-Matrix A = Jf von f in zwei Teile zerlegen sollte, und zwar als A = (Ax | Ay )
mit einer m × d–Matrix Ax und einer quadratischen m × m–Matrix Ay . Dann ist also
 ∂f1 ∂f1  ∂f1 ∂f1 
··· ···

∂ξ1 ∂ξd ∂η1 ∂ηm
∂f ∂f
:= Ax =  ... ..  und := Ay =  ... ..  .
 
∂x .  ∂y . 
∂f ∂fm ∂f ∂fm
m
∂ξ1 ··· ∂ξd
m
∂η1 ··· ∂ηm

∂f
Entscheidend für die lokale Auflösbarkeit ist die Invertierbarkeit von ∂y = Ay .

Satz 10.48 (Satz von der impliziten Funktion). Seien D ⊆ Rd und E ⊆ Rm offen und f :
D × E → Rm sei stetig differenzierbar. Weiter sei (x0 , y0 ) ∈ D × E mit f (x0 , y0 ) = 0 derart,
dass ∂f
∂y (x0 , y0 ) invertierbar ist. Dann existieren offene Umgebungen W ⊆ D × E von (x0 , y0 )
und U ⊆ D von x0 sowie eine stetig differenzierbare Funktion g : U → Rm mit g(x0 ) = y0 so,
dass für alle (x, y) ∈ W
f (x, y) = 0 ⇐⇒ y = g(x)
gilt. Weiter gilt für alle x ∈ U die Gleichung
 −1
0 ∂f ∂f
g = Jg = − .
∂y ∂x

Bemerkung.
 Die Formel kann man sich wieder leicht herleiten, indem man die Gleichung
f x, g(x) = 0 mit der Kettenregel differenziert. Es folgt
 
Id
0 = (Ax | Ay ) = Ax + Ay Jg .
g0

Auflösen liefert
Jg = −A−1
y Ax .

Beim Bearbeiten von konkreten Beispielen ist es oft vorteilhaft, diese Rechnung in Koordinaten
direkt durchzuführen. Unter Verwendung der Komponentenfunktionen von f und g haben wir
ja das Gleichungssystem

f1 ξ1 , . . . , ξd , g1 (ξ1 , . . . , ξd ), . . . , gm (ξ1 , . . . , ξd ) = 0

f2 ξ1 , . . . , ξd , g1 (ξ1 , . . . , ξd ), . . . , gm (ξ1 , . . . , ξd ) = 0
···

fm ξ1 , . . . , ξd , g1 (ξ1 , . . . , ξd ), . . . , gm (ξ1 , . . . , ξd ) = 0.
61

Ableiten der i-ten Gleichung nach ξk liefert mit der Kettenregel


m
∂fi X ∂fi ∂gj
+ für i = 1, . . . , m und k = 1, . . . , d.
∂ξk ∂ηj ∂ξk
j=1

Umgestellt erhalten wir


m
X ∂fi ∂gj ∂fi
=− für i = 1, . . . , m und k = 1, . . . , d.
∂ηj ∂ξk ∂ξk
j=1

∂gj
Für jedes feste k ist dies ein System aus m linearen Gleichungen für die m Unbekannten ∂ξk .

Bemerkung. Wieder kann man induktiv zeigen, dass für eine C k –Funktion f mit k ≥ 2 auch die
auflösende Funktion g : U → V in Satz 10.48 eine C k –Funktion ist. Auch die höheren Ableitungen
von g kann man durch die Kettenregel und das Lösen der entstehenden Gleichungen bestimmen.
Bemerkung. Oft sind die Variablen in der impliziten Definition noch nicht explizit nach den
unabhängigen Variablen x = (ξ1 , . . . , ξd ) und y = (η1 , . . . , ηm ) unterschieden. Wir haben also
eine Funktion f : Rd+m → Rm gegeben. In diesem Fall kann man nach geeigneten m Variablen
auflösen. Das geht lokal in x0 ∈ Rd+m , falls die Matrix Jf (x0 ) vollen Rang m hat. Dann gibt
es nämlich in Jf (x0 ) sicherlich m linear unabhängige Spalten, die zu diesen Spalten gehörenden
Variablen übernehmen die Rolle der Variablen η1 , . . . , ηm .

Beweis. Grundidee ist die Zurückführung auf den Satz von der inversen Funktion. Dazu definie-
ren wir F : D × E → Rd × Rm durch F (x, y) = x, f (x, y) . Offenbar ist F stetig differenzierbar
mit  
0 Id 0
F = .
Ax Ay
Da Ay (x0 , y0 ) invertierbar ist, ist auch F 0 (x0 , y0 ) invertierbar. Also ist der Satz über die inverse
Funktion auf F anwendbar
 und liefert eine Umgebung W von (x0 , y0 ) und eine Umgebung U0
von x0 , f (x0 , y0 ) = (x0 , 0), so dass F : W → U0 bijektiv und die Umkehrfunktion G : U0 → W
stetig differenzierbar ist.
Wir definieren nun
U = {x ∈ D : (x, 0) ∈ U0 }.
Da U0 und D offen sind, ist auch U offen. Außerdem ist x0 ∈ U , also ist U eine offene Umgebung
von x0 .
Für x ∈ U gibt es ein (x, y) ∈ W mit (x, 0) = F (x, y), also (x, y) = G(x, 0). Dieses y ist eindeutig
bestimmt. Ist nämlich (x, y 0 ) ∈ W mit (x, 0) = F (x, y 0 ), so folgt
F (x, y 0 ) = x, f (x, y 0 ) = x, f (x, y) = F (x, y)
 

und damit y = y 0 wegen der Injektivität von F auf W . Setzen wir y = g(x), so haben wir eine
wohldefinierte
 Funktion g : U → Rm mit g(x0 ) = y0 . Wegen F x, g(x) = (x, 0) für x ∈ U ist
x, g(x) = G(x, 0). Da G stetig differenzierbar ist, ist auch g stetig differenzierbar. Die Formel
für die Ableitung haben wir bereits in obiger Bemerkung gezeigt.

Beispiel 10.49. Wir wollen das Gleichungssystem


f1 (x, y, z) = x2 + y 2 + z 2 − 1 =0
f2 (x, y, z) = x + y + z =0
62

so auflösen, dass wir y = g1 (x), z = g2 (x) haben. Wir sind im Fall d = 1 und m = 2. Geometrisch
stellt die erste Gleichung die Oberfläche der Einheitskugel im R3 dar, die zweite eine Ebene durch
Null. Die Jacobi-Matrix von f = (f1 , f2 ) ergibt sich als
! 
∂f1 ∂f1 ∂f1 
∂x ∂y ∂z 2x 2y 2z
∂f2 ∂f2 ∂f2 = .
∂x ∂y ∂z
1 1 1

Entscheidend für die Auflösbarkeit ist die Invertierbarkeit der quadratischen Teilmatrix
! 
∂f1 ∂f1 
∂(f1 , f2 ) ∂y ∂z 2y 2z
= ∂f2 ∂f2 = .
∂(y, z) ∂y ∂z
1 1

Diese ist invertierbar genau dann, wenn ihre Determinante 2y −2z 6= 0 ist, also genau dann, wenn
y 6= z ist. In diesem Fall existieren also die auflösenden Funktionen y = g1 (x) und z = g2 (x).
Zur Vereinfachung der Notation schreiben wir y = y(x) und z = z(x) statt y = g1 (x) und
z = g2 (x). Dann bezeichnen wir die Ableitungen dieser Funktionen natürlich wie üblich mit y 0
und z 0 . Ableiten des gegebenen Gleichungssystems nach x mittels der Kettenregel liefert

2x + 2yy 0 + 2zz 0 = 0
1 + y 0 + z 0 = 0.

Aus diesem Gleichungssystem lassen sich die unbekannten y 0 , z 0 bestimmen. Wir erhalten
z−x x−y
y0 = und z0 = .
y−z y−z

Konkret erfüllt z.B. (x0 , y0 , z0 ) = 0, √12 , − √12 das gegebene Gleichungssystem, dieses ist in


einer Umgebung von (x0 , y0 , z0 ) nach y, z als Funktionen von x auflösbar. Die Ableitungen in
(x0 , y0 , z0 ) ergeben sich als
z0 − x 0 1 x 0 − y0 1
y 0 (0) = =− und z 0 (0) = =− .
y0 − z0 2 y0 − z0 2

Wollen wir auch noch die zweiten Ableitungen y 00 (0) und z 00 (0) berechnen, so leiten wir das
Gleichungssystem mittels der Kettenregel ein weiteres mal ab. Wir erhalten

2 + 2(y 0 )2 + 2yy 00 + 2(z 0 )2 + 2zz 00 = 0


y 00 + z 00 = 0.

Setzen wir die schon berechneten Werte y 0 (0) = z 0 (0) = 21 ein, so liefert das
√ √
3 + 2y 00 − 2z 00 = 0
y 00 + z 00 = 0.

Hieraus bestimmen sich nun die zweiten Ableitungen als


3 3
y 00 (0) = − √ und z 00 (0) = √ .
2 2 2 2
63

Beispiel 10.50. Wir wollen eine Gleichung

f (x, y, z) = z 4 − x2 z + 2yz + 2y 2 = 0

in einer Umgebung des Punktes (x0 , y0 , z0 ) = (1, −1, 1) (der tatsächlich f (x0 , y0 , z0 ) = 0 erfüllt!)
in der Form z = z(x, y) auflösen und das Taylorpolynom der Funktion z(x, y) der Ordnung 2
bestimmen. Die Anwendbarkeit des Satzes von der impliziten Funktion ist wegen

fz = 4z 3 − x2 + 2y = 1 6= 0

in (x0 , y0 , z0 ) = (1, −1, 1) gesichert. Also existiert die auflösende Funktion z(x, y) in einer Um-
gebung von (x0 , y0 ) = (1, −1) mit Werten in einer Umgebung von z0 = 1. Da f beliebig oft
differenzierbar ist, gilt dies auch für die auflösende Funktion z(x, y) und wir können diese in eine
Taylorreihe mit Entwicklungspunkt (x0 , y0 ) = (1, −1) entwickeln.
Das gesuchte Taylorpolynom 2. Ordnung ist
zxx zyy
T2 (x, y) = z0 + zx (x − x0 ) + zy (y − y0 ) + (x − x0 )2 + (y − y0 )2 + zxy (x − x0 )(y − y0 ).
2 2
Die Ableitungen von z(x, y) werden hierbei jeweils an der Stelle (x0 , y0 ) = (1, −1) berechnet.
Wir werden die folgenden Ableitungen von f im Punkt (x0 , y0 , z0 ) = (1, −1, 1) benötigen:

fx = −2xz = −2, fy = 2z + 4y = −2, fz = 4z 3 − x2 + 2y = 1

fxx = −2z = −2, fyy = 4, fzz = 12z 2 = 12


fxy = 0, fxz = −2x = −2, fyz = 2.

Zunächst ist z(1, −1) = z0 = 1. Differenzieren von f (x, y, z(x, y)) = 0 nach x und y liefert mit
der Kettenregel
0 = fx + fz zx = −2 + zx , 0 = fy + fz zy = −2 + zy
und damit
zx = zy = 2.
Nochmaliges Differenzieren mit der Kettenregel und der Produktregel liefert

0 = (fxx + fxz zx ) + ((fzx + fzz zx )zx + fz zxx ) = 38 + zxx


0 = (fyy + fyz zy ) + ((fzy + fzz zy )zy + fz zyy ) = 60 + zyy
0 = (fxy + fxz zy ) + ((fzy + fzz zy )zx + fz zxy ) = 48 + zxy

und damit
zxx = −38, zyy = −60, zxy = −48.
So ergibt sich schließlich das gesuchte Taylorpolynom als

T2 (x, y) = 1 + 2(x − 1) + 2(y + 1) − 19(x − 1)2 − 30(y + 1)2 − 24(x − 1)(y + 1)


= −19x2 − 30y 2 − 24xy + 16x − 34y − 24.
64

10.9 Lokale Extrema mit Nebenbedingungen

Wir haben bereits gelernt, wie man lokale Extrema von Funktionen f : D → R definiert auf einem
offenen Gebiet D ⊆ Rd durch Nullsetzen des Gradienten findet. In Anwendungen treten aber
häufiger Extremwertprobleme unter Nebenbedingungen auf. Gesucht wird ein Extremum von f ,
wobei der Variablenbereich durch zusätzliche geforderte Gleichungen g1 (x) = 0, . . . , gm (x) = 0
eingeschränkt ist. Diese Nebenbedingungen fassen wir zu einer Nebenbedingung g(x) = 0 mit
g : D → Rm zusammen.
Ein offensichtlicher Lösungsweg ist der folgende: Durch Auflösen der Nebenbedingungen be-
stimmt man m der Variablen in Abhängigkeit der anderen, setzt diese in f ein und erhält ein
Extremalproblem ohne Nebenbedingungen mit weniger Variablen. Dieses kann man dann mit
dem bisherigen Verfahren lösen.
Beispiel 10.51. Aus einem kreisrunden Blech vom Radius 1 soll ein Rechteck mit größt-
möglichem Inhalt ausgeschnitten werden. Legen wir den Kreis in den Koordinatenursprung,
das Rechteck achsenparallel, und bezeichnen den rechten oberen Eckpunkt des Rechtecks mit
(x, y), so muss dieser im Extremalfall offenbar auf dem Kreis liegen, also die Nebenbedingung
g(x, y) = x2 + y 2 − 1 = 0 erfüllen. Maximiert werden soll der Flächeninhalt des Rechtecks, also
die Funktion f (x,
√ y) = 4xy. Lösen wir die Nebenbedingung auf, so erhalten wir wegen y > 0 die
Gleichung y = 1 − x2 mit 0 < x < 1. Setzen
√ wir diese Gleichung in die Zielfunktion ein, ergibt
sich das Problem, die Funktion h(x) = x 1 − x2 für 0 < x < 1 zu maximieren. Einfacher ist es
h(x)2 = x2 (1 − x2 ) zu maximieren, man erhält als Lösung nach dem üblichen Verfahren x2 = 12 ,
also x = y = √12 . Die Lösung ist ein Quadrat.

Problematisch an diesem Verfahren ist, dass das explizite Auflösen der Gleichung g(x) = 0 im
allgemeinen schwierig oder unmöglich ist. Um das Extremalproblem trotzdem zu behandeln,
kann man die kritischen Punkte mit dem Multiplikatorverfahren von Lagrange, dem Lagrange-
Formalismus bestimmen. Wir beschreiben diesen zunächst und beweisen dann seine Richtigkeit
mittels des Satzes von der impliziten Funktion.
Man betrachtet die Lagrange-Funktion

F (x, λ) = f (x) + λ1 g1 (x) + · · · + λm gm (x)

mit neuen Variablem λ = (λ1 , . . . , λm ) ∈ Rm und bestimmt die kritischen Punkte dieser Funkti-
on, also die (x, λ), die die d + m Gleichungen
∂F ∂f ∂g1 ∂gm
= + λ1 + . . . λm =0
∂ξi ∂ξi ∂ξi ∂ξi
∂F
= gj (x) = 0
∂λj
mit i = 1, . . . , d und j = 1, . . . , m erfüllen. Man sieht, dass die Ableitungen nach den Lagrange-
Multiplikatoren λi gerade wieder die Nebenbedingungen liefern. Diese sind also für die berech-
neten kritischen Punkte automatisch erfüllt.
Wir zeigen im nächsten Satz, dass jede lokale Extremalstelle unter den gegebenen Nebendin-
gungen durch dieses Verfahren erhalten wird. Eine Aussage, ob tatsächlich ein Maximum oder
Minimum vorliegt, ist mit diesem Verfahren direkt nicht möglich. Dazu muss man gesonderte
Betrachtungen anstellen, die sich aber oft aus der Natur des konkreten Problems ergeben.
Beispiel 10.52. Wir führen nun dieses Verfahren an obigem Beispiel durch: Maximiert werden
soll die Funktion f (x, y) = 4xy unter der Nebenbedingung g(x, y) = x2 + y 2 − 1 = 0. Die
65

Lagrangefunktion lautet also

F (x, y, λ) = 4xy + λ(x2 + y 2 − 1).

Ableiten nach den Variablen x, y, λ und Nullsetzen liefert das Gleichungssystem


∂F
= 4y + 2λx = 0
∂x
∂F
= 4x + 2λy = 0
∂y
∂F
= x2 + y 2 − 1 = 0.
∂λ
Multiplikation der ersten Gleichung mit y und der zweiten Gleichung mit x zeigt x2 = y 2 . Dann
folgt aus der Nebenbedingung x2 = y 2 = 21 und wir erhalten unter der Voraussetzung x, y > 0 als
einzigen kritischen Punkt wieder x = y = √12 . Aus anschaulichen Gründen (oder durch geeignete
Anwendung des Satzes vom Maximum und Minimum) ist klar, dass es ein Maximum geben muss,
welches wir damit gefunden haben.

Der folgende Satz validiert das Lagrange-Multiplikatorverfahren.

Satz 10.53 (Lagrange-Formalismus). Sei m < d, sei D ⊆ Rd offen und seien f : D → R


und g : D → Rm stetig differenzierbare Funktionen. Hat f in x0 ∈ D mit g(x0 ) = 0 ein lokales
Extremum auf der Menge {x ∈ D : g(x) = 0} und hat die Jacobi-Matrix Jg (x0 ) vollen Rang m,
dann existiert λ = (λ1 , . . . , λm ) ∈ Rm , so dass die Funktion

F (x, λ) = f (x) + λ1 g1 (x) + · · · + λm gm (x)

die Bedingung ∇F (x0 , λ) = 0 erfüllt.

Beweis. Der Satz von der impliziten Funktion besagt, dass man das System der Nebenbedingun-
gen in einer Umgebung von x0 auflösen kann. Durch Umnummerieren können wir also annehmen,
dass sich ξ1 , . . . , ξm als Funktionen von ξm+1 , . . . , ξd schreiben lassen. Einsetzen in f liefert eine
Funktion

ϕ(ξm+1 , . . . , ξd ) = f ξ1 (ξm+1 , . . . , ξd ), . . . , ξm (ξm+1 , . . . , ξd ), ξm+1 , . . . , ξd .

Wir wollen zeigen, dass sich kritische Punkte dieser Funktion gerade durch den Lagrange-
Formalismus gewinnen lassen. Alle Ableitungen im Folgenden werden in x0 ausgewertet.
Die kritischen Punkte von ϕ sind die Punkte, die das Gleichungssystem
∂f ∂ξ1 ∂f ∂ξm ∂f
+ ··· + + =0 (8)
∂ξ1 ∂ξh ∂ξm ∂ξh ∂ξh
für h = m + 1, . . . , d erfüllen. Differenzieren der Nebenbedingungen nach ξh liefert
∂gi ∂ξ1 ∂gi ∂ξm ∂gi
+ ··· + + =0 (9)
∂ξ1 ∂ξh ∂ξm ∂ξh ∂ξh
für h = m + 1, . . . , d und i = 1, . . . , m. Nach Voraussetzung existieren eindeutig bestimmte
λ1 , . . . , λm mit
∂f ∂g1 ∂gm
+ λ1 + · · · + λm =0 (10)
∂ξi ∂ξi ∂ξi
66

für i = 1, . . . , m. Zu zeigen ist, dass diese letzte Gleichheit auch für i = m + 1, . . . , d gilt. Ersetzt
man hier i durch h, so ist also
∂f ∂g1 ∂gm
+ λ1 + · · · + λm =0
∂ξh ∂ξh ∂ξh
∂f ∂gj
für h = m + 1, . . . , d zu zeigen. Dies folgt, indem man ∂ξh und ∂ξh mittels (8) und (9) ersetzt,
∂ξi
∂ξh ausklammert und nochmals (10) beachtet.

Bemerkung. Sind umgekehrt für gewisse λ1 , . . . , λm ∈ R die Gleichungen (10) für i = 1, . . . , d


erfüllt, so folgt ganz analog (8) mittels (9). Jeder kritische Punkte der Lagrange-Funktion liefert
also auch immer einen kritischen Punkt für das gegebene Extremalproblem mit Nebenbedingung.

Beispiel 10.54. Wir wollen die Ungleichung zwischen geometrischem und arithmetischem Mittel
p
n ξ1 + · · · + ξn
ξ1 . . . ξn ≤
n
für ξ1 , . . . , ξn > 0 mittels des Lagrange-Formalismus beweisen. Wegen der Homogenität der
Ungleichung genügt es, den Fall ξ1 + · · · + ξn = n zu betrachten. Wir müssen also die Funktion

f (ξ1 , . . . , ξn ) = ξ1 . . . ξn

unter der Nebenbedingung

g(ξ1 , . . . , ξn ) = ξ1 + · · · + ξn − n = 0

maximieren auf dem Gebiet

D = (ξ1 , . . . , ξn ) ∈ Rn : 0 ≤ ξ1 , . . . , ξn ≤ n .


Das Gebiet D ist kompakt. Deshalb nimmt f nach dem Satz von Maximum und Minimum ein
Maximum auf D an. Da f auf dem Rand von D verschwindet, wird dieses im Inneren von D
angenommen, also in einem der kritischen Punkte.
Die Vollrangbedingung ist in jedem Punkt erfüllt wegen Jg = ∇g = (1, 1, . . . , 1), was offensicht-
lich vollen Rang 1 hat. Wir können also die kritischen Punkte mit dem Lagrange-Formalismus
bestimmen.
Die Lagrangefunktion ist

F (ξ1 , . . . , ξn , λ) = ξ1 . . . ξn + λ(ξ1 + · · · + ξn − n).

Die kritischen Punkte erfüllen also die Gleichungen


∂F ξ1 . . . ξn
= +λ=0
∂ξi ξi
für i = 1, . . . , n. Es folgt ξ1 = · · · = ξn , und die Nebenbedingung liefert ξ1 = · · · = ξn = 1. In
diesem Fall ist
f (ξ1 , . . . , ξn ) = ξ1 . . . ξn = 1
und die Ungleichung zwischen geometrischem und arithmetischem Mittel ist gezeigt. Wir haben
auch noch den Gleichheitsfall identifiziert: Gleichheit gilt genau dann, wenn ξ1 = · · · = ξn ist.
67

11 Integralrechnung multivariater Funktionen


In diesem Kapitel wollen wir uns mit der Integration von Funktionen mehrerer Variabler be-
schäftigen. Dieses Kapitel gliedert sich in mehrere Abschnitte, die unterschiedliche Typen von
Integralen behandeln.
Im ersten Abschnitt geht es um Integrale über Kurven. Im zweiten Abschnitt behandeln wir den
Begriff des Riemann-Integrals über mehrdimensionale Bereiche. Danach führen wir in Analogie
zu Kurvenintegralen Integrale über gekrümmte Flächen ein, sogenannte Oberflächenintegrale.
Im abschließenden Abschnitt lernen wir zentrale Integralsätze der Vektoranalysis wie den Satz
von Gauß und den Satz von Stokes kennen. Diese erlauben es, Integrale über zweidimensionale
Flächen in Kurvenintegrale und Integrale über dreidimensionale Gebiete in Oberflächenintegrale
zu überführen.

11.1 Wege, Kurven, Kurvenintegrale

In diesem Abschnitt führen wir zunächst die Begriffe Kurve und Weg ein und ordnen Kurven eine
Länge zu. Anschließend werden zwei Typen von Kurvenintegralen behandelt: Kurvenintegrale
bezüglich Skalarfeldern, mit denen man zum Beispiel das Gewicht einer inhomogen mit Masse
belegten Kurve berechnen kann, und Kurvenintegrale bezüglich Vektorfeldern, mit denen man
zum Beispiel die Arbeit berechnen kann, die bei der Bewegung durch ein Kraftfeld verrichtet
wird. Wir werden sogenannte konservative Felder kennenlernen, in denen die verrichtete Arbeit
nur von Anfangs- und Endpunkt des Weges, nicht vom konkret durchlaufenen Weg, abhängt.

11.1.1 Wege und Kurven

Definition 11.1 (Weg und Kurve). Ein Weg im Rd ist eine stetige Funktion γ : [a, b] → Rd
definiert auf einem abgeschlossenen Intervall [a, b] mit a < b. Die Punkte γ(a) und γ(b) heißen
Anfangspunkt bzw. Endpunkt des Weges. Eine Kurve im Rd ist das Bild C = γ([a, b]) eines
Weges. In diesem Fall heißt γ auch Parameterdarstellung der Kurve C. Ist γ(a) = γ(b), so heißt
γ geschlossener Weg und C geschlossene Kurve.

Bemerkung. In der Literatur sind die Begriffe Weg und Kurve nicht eindeutig festgelegt. Histo-
risch wurde zwischen Weg und Kurve nicht genau unterschieden. Man findet ebenfalls die Begriffe
Bogen und Spur.

Bemerkung. Der Begriff Kurve in unserer Definition ist eigentlich zu allgemein. So kann man
z.B. einen Weg im R2 finden, der das ganze Quadrat [0, 1]2 ausfüllt, eine Peanokurve. Der na-
türlichen Vorstellung einer Kurve als eindimensionales Objekt kommt man erst nahe, wenn man
Kurven ohne Doppelpunkte betrachtet.

Bemerkung. Zur dynamischen Betrachtung eines Weges stellt man sich den Parameter t als
Zeitparameter vor. Zur Zeit t befindet man sich also im Punkt γ(t) des Weges.

Wir wollen nun einem Weg auf natürliche Weise eine Länge zuordnen. Dazu betrachten wir alle
Polygonzüge, die dem Weg einbeschrieben sind.
68

Definition 11.2 (Rektifizierbarkeit und Länge). Ein Weg γ : [a, b] → Rd heißt rektifizierbar,
wenn
Xn
L(γ) = sup kγ(ti ) − γ(ti−1 )k
i=1

endlich ist, wobei das Supremum über alle Zerlegungen a = t0 < t1 < · · · < tn = b gebildet wird.
Dann heißt L(γ) die Länge der Kurve γ.

Hat man zwei Wege, die dieselbe Kurve parametrisieren, soll natürlich die Länge nicht von der
konkreten Parametrisierung abhängen. Dies führt uns zur Definition der Äquivalenz von Wegen.

Definition 11.3 (Äquivalenz von Wegen). Zwei Wege γ1 : [a, b] → Rd und γ2 : [c, d] → Rd
heißen äquivalent, wenn es eine stetige streng monoton
 wachsende bijektive Funktion h : [a, b] →
[c, d] gibt mit γ1 = γ2 ◦ h, also γ1 (t) = γ2 h(t) für t ∈ [a, b].

Bemerkung. Offensichtlich ist die Äquivalenz von Wegen eine Äquivalenzrelation. Insbesondere
ist für äquivalente Wege γ1 (a) = γ2 (c) und γ1 (b) = γ2 (d), also bleiben Anfangs- und Endpunkt bei
Äquivalenz erhalten. Wichtige Eigenschaften von Kurven sollten unabhängig von der konkreten
Parametrisierung sein, für äquivalente Wege also das gleiche ergeben. Das werden wir an vielen
Beispielen nachweisen.

Im nächsten Satz zeigen wir, dass die Länge unabhängig von der Parametrisierung ist. Deshalb
spricht man auch von der Länge einer Kurve.

Satz 11.4 (Unabhängigkeit der Länge von der Parameterdarstellung). Sind die Wege γ1 :
[a, b] → Rd und γ2 : [c, d] → Rd äquivalent, dann ist γ2 rektifizierbar genau dann, wenn γ1
rektifizierbar ist. In diesem Fall ist L(γ1 ) = L(γ2 ).

Beweis. Sei h : [a, b] → [c, d] die zugehörige Parametertransformation mit γ1 = γ2 ◦ h und sei
a = t0 < t1 < · · · < tn = b eine Zerlegung von [a, b]. Dann ist c = h(t0 ) < h(t1 ) < · · · < h(tn ) = d
eine Zerlegung von [c, d] und es gilt
n
X n
X
kγ1 (ti ) − γ1 (ti−1 )k = kγ2 (h(ti )) − γ2 (h(ti−1 )k ≤ L(γ2 ).
i=1 i=1

Mit der Definition von L(γ1 ) folgt L(γ1 ) ≤ L(γ2 ). Analog gilt L(γ2 ) ≤ L(γ1 ) und damit L(γ1 ) =
L(γ2 ).

Der Längenbegriff von Wegen erfüllt folgende elementare Eigenschaften:

• Ist γ : [a, b] → Rd linear, also γ(t) = x0 + tx1 , dann ist γ rektifizierbar und es gilt

L(γ) = kx1 k(b − a) = kγ(b) − γ(a)k.

• Ist γ : [a, b] → Rd eine Lipschitzfunktion mit kγ(t1 ) − γ(t2 )k ≤ L|t1 − t2 | für t1 , t2 ∈ [a, b],
dann ist γ rektifizierbar und es gilt

L(γ) ≤ L(b − a).

Ist insbesondere γ stetig differenzierbar mit kγ 0 (t)k ≤ L für t ∈ (a, b), dann gilt L(γ) ≤
L(b − a).
69

• Sind γ1 , γ2 : [a, b] → Rd rektifizierbare Wege, so sind γ1 + γ2 und γ1 − γ2 rektifizierbar mit



L(γ1 + γ2 ) ≤ L(γ1 ) + L(γ2 ) und L(γ1 ) − L(γ2 ) ≤ L(γ1 − γ2 ).

• Ist γ : [a, b] → Rd ein rektifizierbarer Weg, dann gilt

L(γ) ≥ kγ(b) − γ(a)k.

Sind γ1 : [a, b] → Rd und γ2 : [b, c] → Rd zwei Wege mit γ1 (b) = γ2 (b), dann definiert man
den zusammengesetzten Weg γ = γ1 ⊕ γ2 : [a, c] → Rd durch γ(t) = γ1 (t) für t ∈ [a, b] und
γ(t) = γ2 (t) für t ∈ [b, c]. Offenbar ist dann γ rektifizierbar, wenn γ1 und γ2 rektifizierbar sind
und es gilt L(γ) = L(γ1 ) + L(γ2 ).
Um die Länge eines Weges einfach zu berechnen, schränken wir uns auf glatte Wege und Kurven
ein.

Definition 11.5. Der Weg γ : [a, b] → Rd heißt (stetig) differenzierbar, wenn γ (stetig) dif-
ferenzierbar ist. Der Weg γ : [a, b] → Rd heißt stückweise stetig differenzierbar, wenn es eine
Zerlegung von [a, b] gibt, so dass γ auf jedem Teilintervall stetig differenzierbar ist. Eine Kurve
heißt (stückweise stetig) differenzierbar, wenn sie eine (stückweise stetig) differenzierbare Para-
meterdarstellung besitzt.

Satz 11.6. Ist γ ein stückweise stetig differenzierbarer Weg, dann ist γ rektifizierbar und es
gilt
Z b Z bp
L(γ) = kγ̇(t)k dt = γ̇1 (t)2 + · · · + γ̇d (t)2 dt,
a a
wobei γ̇(t) = γ 0 (t)
die Ableitung von γ bezeichnet und γ1 , . . . , γd : [a, b] → R die Komponenten-
funktionen von γ sind.

Bemerkung. Die Bezeichnung γ̇ für die Ableitung nach dem Zeitparameter t ist aus der Phy-
sik entlehnt und gerade in physikalischen Zusammenhängen oft bequem. Die Ableitung γ̇(t) ist
die Momentangeschwindigkeit. Der Satz beschreibt also den intuitiv einsichtigen Zusammen-
hang zwischen Geschwindigkeit und Weglänge: Letztere ergibt sich als Integral der (Norm der)
Geschwindigkeit über die Zeit.

Beweis. Es genügt, den Beweis für einen stetig differenzierbaren Weg γ zu führen. Da γ stetig
differenzierbar ist, ist γ eine Lipschitzfunktion, sagen wir es gilt

kγ(t1 ) − γ(t2 )k ≤ L|t1 − t2 | für t1 , t2 ∈ [a, b].

Dann gilt für jede Zerlegung a = t0 < t1 < · · · < tn = b


n
X n
X
kγ1 (ti ) − γ1 (ti−1 )k ≤ L |ti − ti−1 | = L(b − a).
i=1 i=1

Also ist γ rektifizierbar.


Sei `(t) die Länge des Weges γ : [a, t] → Rd . Wir werden zeigen, dass dann ` stetig differenzierbar
ist mit
˙ = kγ̇(t)k.
`(t)
70

Dann folgt die zu beweisende Formel direkt aus dem Hauptsatz der Differential- und Integral-
rechnung.
Zum Beweis der Gleichung `(t)˙ = kγ̇(t)k benutzen wir, dass aus der Stetigkeit von γ̇ auf [a, b]
sogar die gleichmäßige Stetigkeit folgt (siehe Satz 9.57). Zu ε > 0 gibt es also δ > 0 mit

|t1 − t2 | < δ =⇒ kγ̇(t1 ) − γ̇(t2 )k < ε.

Sind nun t1 , t2 ∈ [a, b] mit t1 < t2 < t1 + δ und ist γ̄ : [t1 , t2 ] → Rd der lineare Weg gegeben
durch
γ̄(t) = γ(t1 ) + (t − t1 )γ̇(t1 ),
so ist dieser rektifizierbar mit
L(γ̄) = (t2 − t1 )kγ̇(t)k.

Ist ψ = γ − γ̄ in [t1 , t2 ] der Differenzweg, dann ist ψ̇(t) = γ̇(t) − γ̇(t1 ) und somit kψ̇(t)k =
kγ̇(t) − γ̇(t1 )k < ε und schließlich L(ψ) < ε(t2 − t1 ). Es folgt

`(t2 ) − `(t1 ) − (t2 − t1 )kγ̇(t1 )k = L(γ|[t ,t ] ) − L(γ̄) ≤ L(ψ) < ε(t2 − t1 ).
1 2

Division durch t2 − t1 liefert schließlich



`(t2 ) − `(t1 )

t2 − t1 − kγ̇(t1 )k < ε.

Der Grenzübergang ε → 0 und damit δ → 0 und t2 → t1 beweist dann die behauptete Gleichheit
˙ 1 ) = kγ̇(t1 )k.
`(t

Beispiel 11.7 (Länge von Funktionsgraphen). Ist f : [a, b] → R eine stetig differenzierbare
Funktion, so parametrisiert γ : [a, b] → R2 mit γ(t) = t, f (t) den Funktionsgraphen. Dann ist
γ̇(t) = 1, f 0 (t) und kγ̇(t)k = 1 + |f 0 (t)|2 . Für die Länge des Funktionsgraphen ergibt sich
 p

also Z bp
L= 1 + |f 0 (t)|2 dt.
a
Zum Beispiel ist die Länge eines Bogens der Sinusfunktion gegebenen durch
Z πp
L= 1 + cos2 (t) dt.
0

Beispiel 11.8 (Umfang einer Ellipse). Die Ellipse mit den Halbachsen a ≥ b > 0 ist parametri-
siert durch γ(t) = (a cos t, b sin t) mit t ∈ [0, 2π]. Dann ist γ̇(t) = (−y sin t, b cos t) und
p p
kγ̇(t)k = a2 cos2 t + b2 sin2 t = a 1 − k 2 cos2 t

2 2
mit der sogenannten Exzentrizität k = a a−b der Ellipse. Für den Umfang L der Ellipse ergibt
sich Z 2π p Z π/2 p
L=a 2 2
1 − k cos t dt = 4a 1 − k 2 cos2 t dt.
0 0
Das auftretende Integral ist ein elliptisches Integral, das sich nicht mittels elementarer Funktionen
auflösen lässt.
Der Spezialfall a = b = r und k = 0 ist der Kreis mit dem Radius r. Für den Kreisumfang erhalten
wir mit L = 2πr die bekannte Formel für den Kreisumfang. Damit ist der Zusammenhang der
früher definierten Kreiszahl π mit dem Umfang des Kreises hergestellt. Dies konnten wir erst an
dieser Stelle machen, da wir eben dazu einen Begriff von der Länge einer Kurve benötigen.
71

Beispiel 11.9 (Wege in Polarkoordinaten-Darstellung). Wege γ : [a, b] → R2 der Form



γ(t) = r(t) cos t, r(t) sin t
mit einer stetigen Funktion r : [a, b] → R heißen Wege in Polarkoordinaten-Darstellung. Hier ist
r(t) der Abstand des Kurvenpunktes γ(t) zum Ursprung und t ist das Argument. Ist r stetig
differenzierbar, dann finden wir γ̇(t) = (r0 (t) cos t − r(t) sin t, r0 (t) sin t + r(t) cos t) und damit
p
kγ̇(t)k = r0 (t)2 + r(t)2 .
Wir erhalten Z bp
L(γ) = r0 (t)2 + r(t)2 dt.
a

1.0

2.0
0.5
1.5

1.0
-2 -1 1 2
0.5
-0.5
1 2 3 4 5 6

-1.0
Abbildung 14: Zykloide
Abbildung 13: Ellipse

Beispiel 11.10 (Zykloide). Die durch γ(t) = (t − sin t, 1 − cos t) für t ∈ [0, 2π] definierte Kurve
heißt Zykloide. Ihre Länge ist
Z 2π q Z 2π Z π
2 2
L= 1 − cos t) + sin t dt = 2 | sin(t/2)| dt = 4 sin u du = 8.
0 0 0

Um den Längenbegriff auf Kurven zu übertragen, ist es notwendig, sich auf Wege zu beschränken,
die keine Doppelpunkte enthalten.

Definition 11.11. Eine Kurve C ⊂ Rd heißt Jordan-Kurve, wenn es einen Weg γ : [a, b] → Rd
gibt, so dass γ : [a, b] → C bijektiv ist. Der Weg γ heißt dann Jordan-Darstellung von C. Eine
Kurve C ⊂ Rd heißt geschlossene Jordan-Kurve, wenn es einen geschlossenen Weg γ : [a, b] → Rd
gibt, so dass γ : [a, b) → C bijektiv ist. Eine (geschlossene) Jordan-Kurve heißt glatt, wenn es
eine stetig differenzierbare Jordan-Darstellung γ : [a, b] → C gibt mit γ̇(t) 6= 0 für alle t ∈ [a, b].

Zwei Jordan-Darstellungen einer Jordan-Kurve mit der gleichen Durchlaufrichtung sind äquiva-
lent. Also können wir die Länge einer Jordankurve definieren als L(C) = L(γ), wobei γ irgendeine
Jordan-Darstellung von C ist.
Für glatte Jordankurven C ⊂ Rd gibt es eine ausgezeichnete Parametrisierung nach der Bogen-
länge γ : [0, L(C)] → Rd , für die t die Länge des Weges γ|[0,t] ist. Ist γ1 : [a, b] → C eine beliebige
stetig differenzierbare Jordan-Darstellung mit γ˙1 (s) 6= 0 für alle s ∈ [a, b] und ist `(s) die Länge
des Weges γ1 |[a,s] , so erhält man mit Satz 11.6
Z s
`(s) = kγ˙1 (σ)k dσ.
a

Da γ˙1 (s) 6= 0 für alle s ∈ [a, b] ist, ist ` : [a, b] → [0, L(C)] eine streng monoton wachsende
˙ = kγ˙1 (s)k für s ∈ [a, b]. Definieren wir dann γ : [0, L(C)] → Rd durch
Bijektion und `(s)
γ(t) = γ1 `−1 (t) ,

72

so erhalten wir eine stetig differenzierbare Jordan-Darstellung γ von C mit

γ˙1 (s) γ˙1 (s)


γ̇(t) = = für s = `−1 (t).
˙
`(s) kγ˙1 (s)k

Folglich ist kγ̇(t)k = 1 für t ∈ [0, L(C)] und damit ist die Länge von γ|[0,t] gerade t.

11.1.2 Kurvenintegrale 1. Art

Mittels Kurvenintegralen bezüglich Skalarfeldern, sogenannten Kurvenintegralen 1. Art, kann


man zum Beispiel das Gewicht einer inhomogen mit Masse belegten Kurve berechnen. An diesem
Beispiel wollen wir die Definition motivieren.
Dazu sei ein Weg γ : [a, b] → Rd und eine Dichtefunktion f : D → R gegeben, wobei die
Kurve C = γ([a, b]) ganz in D liegt. Die Dichtefunktion f nennt man auch Skalarfeld. Zur
Approximation des Gesamtgewichts betrachten wir wie bei der Berechnung der Weglänge eine
Zerlegung a = t0 < t1 < · · · < tn = b des Intervalls [a, b] und Zwischenpunkte τi ∈ [ti−1 , ti ] für
i = 1, . . . , n. Ist `(t) wieder die Länge des Weges γ|[a,t] , so stellt die Zwischensumme
n
X  
f γ(τi ) `(ti ) − `(ti−1
i=1

für stetiges f und genügend feine Zerlegungen eine gute Approximation für das Gesamtgewicht.
Ist γ zusätzlich stetig differenzierbar, zeigt man ähnlich wie im Beweis von Satz 11.6, dass dies
für eine Folge von Zerlegungen, deren Feinheit gegen 0 konvergiert, gegen das Integral
Z b 
f γ(t) kγ̇(t)k dt
a

konvergiert. Allerdings ist der Beweis nicht ganz einfach, man arbeitet am besten mit sogenannten
Riemann-Stieltjes-Integralen. Um diese Schwierigkeit zu vermeiden, definieren wir einfach das
Kurvenintegral 1. Art nur für glatte Jordan-Kurven durch diese Formel.

Definition 11.12 (Kurvenintegral 1. Art). Sei C ⊂ Rd eine glatte Jordan-Kurve und sei
f : C → R stetig. Das Kurvenintegral 1. Art von f entlang C ist gegeben durch
Z Z b 
Z b p
f (x) ds := f γ(t) kγ̇(t)k dt = f γ(t) γ̇1 (t)2 + · · · + γ̇d (t)2 dt,
C a a

wobei γ : [a, b] → C eine stetig differenzierbarer Jordan-Darstellung und γ̇(t) 6= 0 für alle t ∈ [a, b]
ist.

Bemerkung. Für stückweise glatte Wege und Kurven definiert man das Kurvenintegral 1. Art
als Summe der Kurvenintegrale über die glatten Teilstücke.
R
Bemerkung. Das ds in der Bezeichnung C f (x) ds soll darauf hinweisen, dass über die Bo-
genlänge integriert wird. Man nennt ds = kγ̇(t)k dt auch das Bogenelement.

Bemerkung. Das Kurvenintegral 1. Art hängt nicht von der konkreten Jordan-Darstellung ab,
ist also wohldefiniert. Zum Beweis seien γ1 : [a, b] → Rd und γ2 : [c, d] → Rd äquivalente glatte
Jordan-Darstellungen und sei h : [a, b] → [c, d] eine zugehörige Parametertransformation mit
γ1 = γ2 ◦ h. Wir können voraussetzen, dass h stetig differenzierbar ist, indem wir z.B. für γ2 die
73

Parametrisierung nach der Bogenlänge wählen. Mit der Kettenregel und der Substitutionsregel
folgt dann
Z b Z b Z d
0
  
f γ1 (t) kγ˙1 (t)k dt = f γ2 (h(t)) kγ˙2 (h(t))k h (t) dt = f γ2 (τ ) kγ˙2 (τ )k dτ.
a a c

Das Kurvenintegral 1. Art hat offenbar die folgenden Eigenschaften:

• Linearität: Z Z Z
(αf (x) + βg(x)) ds = α f (x) ds + β g(x) ds.
C C C

• Additivität bezüglich Zusammensetzung:


Z Z Z
f (x) ds = f (x) ds + f (x) ds.
C1 ⊕C2 C1 C2

Hierbei seien C1 und C2 zwei glatte Jordan-Kurven und γ1 : [a, b] → Rd und γ2 : [b, c] → Rd
stetig differenzierbare Jordan-Darstellungen mit γ1 (b) = γ2 (b) und C1 ⊕ C2 = γ1 ⊕ γ2 ([a, c])
die zusammengesetzte Kurve.

Außerdem gilt offensichtlich die Abschätzung


Z

f (x) ds ≤ max |f (x)| L(C).

C
x∈C

1.0

0.5

0.5 1.0 1.5 2.0

-0.5

-1.0

Abbildung 15: Kardioide

Beispiel 11.13. Die in Polarkoordinatendarstellung gegebene Kurve r = 1 + cos t für t ∈ [0, 2π]
heißt Kardioide. Dies ist eine glatte geschlossene Jordankurve C. Wir wollen das Kurvenintegral
1. Art Z p
4
x2 + y 2 ds
C
berechnen. Das Bogenelement ergibt sich als
p q p
ds = kγ̇(t)k dt = r (t) + r(t) dt = sin2 t + (1 + cos t)2 dt = 2(1 + cos t) dt
0 2 2
74

In Polarkoordinaten ist x2 + y 2 = r2 und damit ist die zu integrierende Funktion auf der Kurve
p √ √
f (x, y) = 4 x2 + y 2 = r = 1 + cos t.
Zusammen ergibt sich
Z p
4
Z 2π √ p √ Z 2π √
2 2
x + y ds = 1 + cos t 2(1 + cos t) dt = 2 (1 + cos t) dt = 2 2π.
C 0 0

11.1.3 Kurvenintegrale 2. Art

Mittels Kurvenintegralen bezüglich Vektorfeldern, sogenannten Kurvenintegralen 2. Art, kann


man zum Beispiel die Arbeit berechnen kann, die bei der Bewegung durch ein Kraftfeld verrichtet
wird.
In diesem Fall hängt das Resultat anders als bei Kurvenintegralen 1. Art im Allgemeinen von
der Durchlaufrichtung der Kurve ab. Um dies zu formalisieren, betrachten wir zu einem Weg
γ : [a, b] → Rd den inversen Weg γ̄ : [a, b] → Rd gegeben durch γ̄(t) = γ(a + b − t). Durchlaufen
wird die gleiche Kurve C, aber in umgekehrtem Durchlaufsinn. Anfangs- und Endpunkt wer-
den vertauscht. Wir bezeichnen eine Kurve mit gegebenem Durchlaufsinn als orientierte Kurve.
Die orientierte Kurve C̄ ist (als Punktmenge) die gleiche Kurve wie C, aber mit umgekehrtem
Durchlaufsinn.
Ist der Weg γ : [a, b] → Rd stetig differenzierbar, so stellt in der dynamischen Betrachtungsweise
die Ableitung γ̇(t) den Geschwindigkeitsvektor zur Zeit t dar. Er zeigt in Richtung des Weges und
ist tangential zur Kurve C = γ([a, b]). Ist nun F : D → Rd ein stetiges Vektorfeld gegeben auf
D ⊆ Rd mit C ⊆ D, dann berechnet sich die Komponente des Kraftvektors F γ(t) , die in Rich-
tung der Kurve im Punkt γ(t) wirkt, als Skalarprodukt mit dem normierten Tangentialvektor,
also als  
 γ̇(t)
f (t) = F γ(t) , .
kγ̇(t)k
Die verrichtete Arbeit (Weg mal Zeit) ist dann das Kurvenintegral 1. Art von f über C, also
Z b Z b


f γ(t) kγ̇(t)k dt = F γ(t) , γ̇(t) dt.
a a
Damit ist die folgende Definition motiviert.

Definition 11.14 (Kurvenintegral 2. Art). Sei C ⊂ Rd eine glatte orientierte Jordan-Kurve


und sei F : C → Rd stetig. Das Kurvenintegral 2. Art von F entlang C ist gegeben durch
Z Z b

F (x) · dx := F γ(t) , γ̇(t) dt,
C a

wobei γ : [a, b] → C eine stetig differenzierbarer Jordan-Darstellung und γ̇(t) 6= 0 für alle t ∈ [a, b]
ist.
Bemerkung. Für stückweise glatte Wege und Kurven definiert man das Kurvenintegral 2. Art
als Summe der Kurvenintegrale über die glatten Teilstücke.
R
Bemerkung. Die Bezeichnung C F (x) · dx soll darauf hinweisen, dass ein Skalarprodukt gebil-
det wird. Mit den Komponentenfunktionen F1 , . . . , Fd von F benutzt man auch oft die Bezeich-
nungen
Z Z Z Z
F (x) · dx = F · dx = F1 (x) dξ1 + · · · + Fd (x) dξd = F1 dξ1 + · · · + Fd dξd ,
C C C C
75

da ja
Z b

Z b 
Z b 
F γ(t) , γ̇(t) dt = F1 γ(t) γ˙1 (t) dt + · · · + Fd γ(t) γ˙d (t) dt
a a a
und die Schreibweise dξi = γ̇i (t) dt eine naheliegende Schreibweise für das Differential in Richtung
der i-ten Koordinate ist. Für d = 2 oder d = 3 und ein Vektorfeld (F, G) bzw. (F, G, H) schreiben
wir dann mit den üblichen Bezeichnungen x, y und z für die Koordinaten auch
Z Z
F dx + G dy bzw. F dx + G dy + H dz.
C C

Bemerkung. Bei gleicher Orientierung hängt das Kurvenintegral 2. Art nicht von der konkreten
Jordan-Darstellung ab, ist also wohldefiniert. Dies folgt wie bei Kurvenintegralen 1. Art mittels
der Substitutionsregel.

Das Kurvenintegral 2. Art hat offenbar die folgenden Eigenschaften:

• Linearität:
Z Z Z
(αF (x) + βG(x)) · dx = α F (x) · dx + β G(x) · dx
C C C

• Additivität bezüglich Zusammensetzung:


Z Z Z
F (x) · dx = F (x) · dx + F (x) · dx
C1 ⊕C2 C1 C2

• Verhalten bei Umkehrung der Orientierung:


Z Z
F (x) · dx = − F (x) · dx
C̄ C

Außerdem folgt aus der Cauchy-Schwarz-Ungleichung die Abschätzung


Z

F (x) · dx ≤ max kF (x)k L(C).

C
x∈C

Beispiel 11.15. Wir betrachten drei orientierte Kurven C1 , C2 , C3 , die vom Punkt (0, 0) zum
Punkt (1, 1) führen und gegeben sind durch die folgenden Parameterdarstellungen:
( (
(t, 0), t ∈ [0, 1] (0, t), t ∈ [0, 1]
γ1 (t) = (t, t) für t ∈ [0, 1], γ2 (t) = γ3 (t) =
(1, t − 1), t ∈ [1, 2], (t − 1, 1), t ∈ [1, 2].

Die Ableitungen dieser Parameterdarstellungen sind dann


( (
(1, 0), t ∈ [0, 1] (0, 1), t ∈ [0, 1]
γ˙1 (t) = (1, 1) für t ∈ [0, 1], γ˙2 (t) = γ˙3 (t) =
(0, 1), t ∈ [1, 2], (1, 0), t ∈ [1, 2].

Wir betrachten die zwei Vektorfelder F (x, y) = (x, y) und G(x, y) = (y, 0).
Zur Berechnung der Kurvenintegrale 2. Art bezüglich des Vektorfelds F bestimmen wir
( (
  (t, 0), t ∈ [0, 1]  (0, t), t ∈ [0, 1]
F γ1 (t) = (t, t), F γ2 (t) = F γ3 (t ) =
(1, t − 1), t ∈ [1, 2], (t − 1, 1), t ∈ [1, 2]
76

und damit
(



 t, t ∈ [0, 1]
F γ1 (t) , γ˙1 (t) = 2t und F γ2 (t) , γ˙2 (t) = F γ3 (t) , γ˙3 (t) =
t − 1, t ∈ [1, 2].

Schließlich erhalten wir die Kurvenintegrale


Z Z 1 Z 1


F (x, y) · d(x, y) = F γ1 (t) , γ˙1 (t) dt = 2t dt = 1,
C1 0 0
Z Z 2

Z 1 Z 2
F (x, y) · d(x, y) = F γ2 (t) , γ˙2 (t) dt = t dt + (t − 1) dt = 1,
C2 0 0 1
Z Z 2

Z 1 Z 2
F (x, y) · d(x, y) = F γ3 (t) , γ˙3 (t) dt = t dt + (t − 1) dt = 1.
C3 0 0 1

In diesem Fall hängt das Kurvenintegral 2. Art offenbar nicht vom konkreten Weg, sondern nur
von Anfangs- und Endpunkt ab.
Zur Berechnung der Kurvenintegrale 2. Art bezüglich des Vektorfelds G bestimmen wir
( (
  (t, 0), t ∈ [0, 1]  (0, 0), t ∈ [0, 1]
G γ1 (t) = (t, 0), G γ2 (t) = G γ3 (t ) =
(1, 0), t ∈ [1, 2], (t − 1, 0), t ∈ [1, 2]

und damit
(



 0, t ∈ [0, 1]
G γ1 (t) , γ˙1 (t) = t, G γ2 (t) , γ˙2 (t) = 0, G γ3 (t) , γ˙3 (t) =
1, t ∈ [1, 2].

Schließlich erhalten wir die Kurvenintegrale


Z Z 1 Z 1

 1
G(x, y) · d(x, y) = G γ1 (t) , γ˙1 (t) dt = t dt = ,
C1 0 0 2
Z Z 2

G(x, y) · d(x, y) = G γ2 (t) , γ˙2 (t) dt = 0,
C2 0
Z Z 2

Z 1 Z 2
G(x, y) · d(x, y) = G γ3 (t) , γ˙3 (t) dt = 0 dt + 1 dt = 1.
C3 0 0 1

In diesem Fall hängt das Kurvenintegral 2. Art offenbar vom konkreten Weg ab.

Ziel des nächsten Abschnittes ist die Analyse, unter welchen Bedingungen an das Vektorfeld das
Kurvenintegral 2. Art nicht vom Weg, sondern nur von Anfangs- und Endpunkt abhängt.

11.1.4 Wegunabhängigkeit, Potentiale und Gradientenfelder

In diesem Abschnitt wollen wir Vektorfelder F : D ⊆ Rd charakterisieren, für die Kurvenintegrale


2. Art nicht vom Weg abhängen. Damit beliebige Punkte von D durch geeignete Wege verbunden
werden können, definieren wir

Definition 11.16 (Zusammenhang). Eine offene Menge D ⊆ Rd heißt zusammenhängend, wenn


es zu je zwei Punkten xa , xb ∈ D einen stückweise stetig differenzierbaren Weg γ : [a, b] → D
mit γ(a) = xa und γ(b) = xb gibt.
77

Definition 11.17 (Wegunabhängige Integrierbarkeit). Sei D ⊆ Rd eine zusammenhängende


offene Menge und sei F : D → Rd ein stetiges Vektorfeld. Dann heißt F in D wegunabhän-
gig integrierbar oder konservativ, wenn für alle orientierten stückweise stetig differenzierbaren
Jordan-Kurven C1 , C2 ⊂ D mit Anfangspunkt xa und Endpunkt xb gilt:
Z Z
F (x) · dx = F (x) · dx.
C1 C2

In diesem Fall schreibt man auch kurz


Z xb
F (x) · dx
xa

für dieses Kurvenintegral 2. Art.

Bemerkung. Die Bezeichnung konservativ deutet darauf hin, dass in einem solchen Kraftfeld die
Summe aus kinetischer und potentieller Energie eines sich bewegenden Massepunktes konstant
ist, also konserviert wird. Es gilt der Energieerhaltungssatz. Offenbar ist F in D konservativ genau
dann, wenn jedes Kurvenintegral über eine geschlossene glatte Jordan-Kurve verschwindet.

Definition 11.18 (Potentialfeld, Gradientenfeld). Sei D ⊆ Rd eine zusammenhängende offene


Menge und sei F : D → Rd ein stetiges Vektorfeld. Dann heißt F ein Potentialfeld oder Gradi-
entenfeld, wenn es ein stetig differenzierbares Skalarfeld V : D → R gibt mit F = ∇V . In diesem
Fall heißt V Stammfunktion und −V Potential von F .

Bemerkung. Ist V eine Stammfunktion von F , dann ist auch V + c mit einer Konstanten
c eine Stammfunktion von F . Sind andererseits V, W zwei Stammfunktionen von F , dann ist
∇(V − W ) = 0. Aus dem Satz von Taylor folgt dann, dass V − W konstant ist. Stammfunktion
und Potential sind also bis auf eine Konstante eindeutig bestimmt.

Es stellt sich nun heraus, dass konservative Felder gerade Gradientenfelder sind.

Satz 11.19. Sei D ⊆ Rd eine zusammenhängende offene Menge und sei F : D → Rd ein stetiges
Vektorfeld. Dann ist F genau dann konservativ, wenn F ein Gradientenfeld ist. In diesem Fall
ist Z xb
F (x) · dx = V (xb ) − V (xa ),
xa

wenn V Stammfunktion von F ist.

Beweis. Ist F ein Gradientenfeld, V eine Stammfunktion von F und γ : [a, b] → D eine stetig
differenzierbare Jordan-Darstellung der Jordan-Kurve C, dann folgt mit der Kettenregel und
dem Hauptsatz der Differential- und Integralrechnung
Z Z b
d
Z bX d
Z bX
  ∂V 
F (x) · dx = F γ(t) , γ̇(t) dt = Fi γ(t) γ̇i (t) dt = γ(t) γ̇i (t) dt
C a a i=1 a ∂ξi
i=1
Z b
d   
= V γ(t) dt = V γ(b) − V γ(a) .
a dt

Diese Gleichung gilt dann auch durch Zusammensetzen für stückweise glatte Jordan-Kurven.
Also ist F konservativ und die Formel zur Berechnung des Kurvenintegrals 2. Art ist gezeigt.
78

Ist umgekehrt F konservativ, dann definieren wir für beliebiges festes x0 ∈ D und variables
z∈D Z z
V (x) = F (x) · dx.
x0
Wir zeigen, dass V stetig differenzierbar ist mit ∇V = F , also dass V eine Stammfunktion von
F ist. Dazu sei ε > 0 so gewählt, dass die Kugel Uε (z) in D enthalten ist. Sei C die Strecke von z
nach z +h, die dann ebenfalls ganz in D enthalten ist. Aus der wegunabhängigen Integrierbarkeit
von F folgt
Z z+h Z z Z
F (x) · dx = F (x) · dx + F (x) · dx.
x0 x0 C

Parametrisieren wir C durch γ : [0, 1] → D mit γ(t) = z + th, so erhalten wir aus der Definition
des Kurvenintegrals 2. Art
Z Z 1 Z 1
F (z) · dx = hF (z), γ̇(t)i dt = hF (z), hi dt = F (z)h.
C 0 0

Wir erhalten

V (z + h) − V (z) − F (z)h Z
1 

L(C)
= F (x) − F (z) · dx ≤ max F (x) − F (z)k.
khk khk C
khk x∈C

Nun ist aber L(C) = khk und damit folgt



V (z + h) − V (z) − F (z)h
≤ max f (x) − f (z)k = max F (z + th) − F (z)k.
khk x∈C t∈[0,1]

Da F stetig ist, konvergiert die rechte Seite und damit auch die linke Seite für h → 0 ebenfalls
gegen 0. Also ist V differenzierbar in z mit ∇V (z) = F (z). Da z ∈ D beliebig war, ist F ein
Gradientenfeld und V eine Stammfunktion von F .

Beispiel 11.20. Wir betrachten die beiden Vektorfelder F, G : R2 → R2 gegeben durch F (x, y) =
(x, y) und G(x, y) = (0, y) aus Beispiel 11.15. In diesem Beispiel haben wir gesehen, dass G nicht
konservativ ist, also existiert keine Stammfunktion zu G. Aus dem Beispiel vermuten wir, dass
F konservativ ist. Falls dem so wäre, können wir eine Stammfunktion berechnen als
Z (x0 ,y0 ) Z (x0 ,y0 )
V (x0 , y0 ) = F (x, y) · d(x, y) = x dx + y dy.
(0,0) (0,0)

Wählen wir als Kurve die Strecke von (0, 0) nach (x0 , y0 ) parametrisiert durch γ(t) = (tx0 , ty0 )
für t ∈ [0, 1], so erhalten wir
Z 1 Z 1
x2 + y02
V (x0 , y0 ) = hF (tx0 , ty0 ), γ̇(t)i dt = t(x20 + y02 ) dt = 0 .
0 0 2
x2 +y 2
Tatsächlich ist für V (x, y) = 2

∇V = (x, y) = F (x, y),

also ist F ein Gradientenfeld und V eine Stammfunktion. Nun können wir einfach das Kurven-
integral 2. Art für eine beliebige Kurve C von (xa , ya ) nach (xb , yb ) berechnen als

x2 − x2a + yb2 − ya2


Z
x dx + y dy = V (xb , yb ) − V (xa , ya ) = b .
C 2
79

Was uns noch fehlt wäre ein Kriterium an das Vektorfeld F , an dem man ablesen kann, ob es ein
Gradientenfeld ist. Und das ohne wie im letzten Beispiel ein Potential erraten zu müssen. Dazu
beobachten wir zunächst, dass für ein stetig differenzierbares Gradientenfeld F = ∇V mittels
des Satzes von Schwarz die Integrabilitätsbedingungen
∂Fi Fj
=
∂ξj ∂ξi
für i, j = 1, . . . , d folgen. Tatsächlich ist dann V ∈ C 2 (D) und wir finden
∂Fi ∂2V ∂2V Fj
= = = .
∂ξj ∂ξj ∂ξi ∂ξi ∂ξj ∂ξi
Diese Integrabilitätsbedingungen sind also notwendig dafür, dass F ein Gradientenfeld ist.
Unter geeigneten Voraussetzungen an das Gebiet D gilt auch die Umkehrung. Die allgemeinste
Voraussetzung ist der sogenannte einfache Zusammenhang von D. Anschaulich bedeutet das,
dass D keine Löcher hat. Dies ist aber schwierig zu fassen, weshalb wir uns mit einer einfacher
darzustellenden Eigenschaft von D begnügen wollen.

Definition 11.21. Eine offene Menge D ⊆ Rd heißt sternförmig, wenn es einen Punkt a ∈ D
gibt, so dass für alle x ∈ D auch die Verbindungsstrecke von a zu x in D liegt.
Bemerkung. Eine sternförmige Menge ist offensichtlich zusammenhängend.

Satz 11.22. Sei D ⊆ Rd sternförmig und sei F : D → Rd ein stetig differenzierbares Vektorfeld,
dass die Integrabilitätsbedingungen
∂Fi Fj
= für i, j = 1, . . . , d
∂ξj ∂ξi

erfüllt. Dann ist F ein Gradientenfeld.

Beweis. Sei D sternförmig bezüglich a = (αi ) ∈ D. Zu x = (ξi ) ∈ D betrachten wir die durch
γx : [0, 1] → D mit γ(t) = a + t(x − a) parametrisierte Strecke Cx von a nach x und definieren
Z
V (x) = F (u) · du.
Cx

Dann gilt
Z 1 Z 1X d
∂V ∂  ∂ 
= hF γx (t) , γ̇x (t)i dt = Fi a + t(x − a) (ξi − αi ) dt
∂ξk ∂ξk 0 ∂ξk 0
i=1
Z 1X d
∂ h  i
= Fi a + t(x − a) (ξi − αi ) dt
0 i=1 ∂ξk
Z 1 "X d
#
∂Fi  
= a + t(x − a) t(ξi − αi ) + Fk a + t(x − a) dt
0 ∂ξk
i=1
Z 1 "X d
#
∂Fk  
= a + t(x − a) t(ξi − αi ) + Fk a + t(x − a) dt
0 ∂ξi
i=1
Z 1
d  
= tFk a + t(x − a) dt
0 dt
= Fk (x).
80

Beim Übergang von der ersten zur zweiten Zeile in dieser Gleichungskette haben wir in das
Integral hineindifferenziert. Dass dies gerechtfertigt
 ist, beweisen wir hier nicht. Voraussetzung
dafür ist, dass die Funktionen Fi a + t(x − a) (ξi − αi ) stetig differenzierbar sind, was aber nach
Voraussetzung erfüllt ist.

Korollar 11.23. Ist D ⊆ Rd sternförmig und ist F : D → Rd ein stetig differenzierbares


Vektorfeld, dann sind die folgenden Eigenschaften äquivalent:

(a) F ist in D konservativ, also wegunabhängig integrierbar.

(b) Das Kurvenintegral von F über jede geschlossene stückweise glatte Jordankurve verschwin-
det.

(c) F ist ein Gradientenfeld.


∂Fi Fj
(d) F erfüllt die Integrabilitätsbedingungen ∂ξj = ∂ξi für i, j = 1, . . . , d.

Wir wollen die Integrabilitätsbedingungen im Fall d = 3 betrachten.

Definition 11.24 (Rotation). Ist F = (P, Q, R) ein stetig differenzierbares Vektorfeld auf
D ⊆ R3 , so heißt das Vektorfeld
 
∂R ∂Q ∂P ∂R ∂Q ∂P
rot F = rot(P, Q, R) = − , − , −
∂y ∂z ∂z ∂x ∂x ∂y

Rotation von F . Ist rot F (x) = 0 für alle x ∈ D, dann heißt F in D rotationsfrei oder wirbelfrei.

Bemerkung. Man kann sich die Definition von rot F leicht merken, wenn man mit i, j, k die
Einheitsvektoren im R3 bezeichnet und die Determinante
 
i j k
∂ ∂ ∂ 
det  ∂x ∂y ∂z
P Q R

formal nach der ersten Zeile entwickelt. Aus diesem Grund schreibt man manchmal auch ∇ × F
für rot F .

Nun lassen sich die Integrabilitätsbedingungen für das Vektorfeld F = (P, Q, R) einfach als
rot F = 0 zusammenfassen und wir erhalten in einem sternförmigen Gebiet

F ist konservativ ⇐⇒ F ist Gradientenfeld ⇐⇒ F ist rotationsfrei.

Beispiel 11.25. An folgendem Beispiel wollen wir erläutern, wie man nach Prüfung der Inte-
grabilitätsbedingungen eine Stammfunktion finden kann. Dazu sei das Vektorfeld

F (x, y, z) = (P, Q, R) = (y + z, x + z, x + y)

gegeben. Offensichtlich ist rot F = 0 im sternförmigen Gebiet D = R3 , also ist F ein Gradien-
tenfeld mit einer Stammfunktion V = V (x, y, z). Dann folgt aus

∂V
y + z = P (x, y, z) =
∂x
81

durch unbestimmte Integration nach x, dass V die Gestalt

V (x, y, z) = xy + xz + C(y, z)

hat. Hierbei ist die Integrationskonstante C noch abhängig von y und z. Leiten wir diese Glei-
chung nach y ab, so erhalten wir
∂V ∂C
x + z = Q(x, y, z) = =x+ ,
∂y ∂y
also ist
∂C
z= .
∂y
Durch unbestimmte Integration nach y folgt, dass C die Gestalt

C(y, z) = yz + D(z)

hat. Hierbei ist die Integrationskonstante D noch abhängig von z. Dann hat also V die Form

V (x, y, z) = xy + xz + yz + D(z).

Leiten wir diese Gleichung nach z ab, so erhalten wir


∂V
x + y = R(x, y, z) = = x + y + D0 (z),
∂z
also ist D(z) eine Konstante, die wir auch 0 setzen können. Eine Stammfunktion von F ist also
gegeben durch
V (x, y, z) = xy + xz + yz.

11.2 Das mehrdimensionale Riemann-Integral

In diesem Abschnitt wollen wir die Verallgemeinerung des Riemann-Integrals für multivariate
Funktionen kennenlernen. Dabei gehen wir zunächst ganz analog zur Einführung des Riemann-
Integrals von Funktionen einer Variablen vor.

11.2.1 Definition und Eigenschaften

Die Motivation für das Riemann-Integral war die Berechnung des Flächeninhalts unter dem Gra-
phen einer Funktion f : [a, b] → R, wobei [a, b] ⊂ R ein eindimensionales abgeschlossenes Intervall
war. Nun wollen wir den Inhalt unter dem Graphen einer Funktion f : [a, b] → R berechnen,
wobei [a, b] eine abgeschlossenes d-dimensionales Intervall ist. Hier sind a = (α1 , . . . , αd ), a =
(β1 , . . . , βd ) ∈ Rd mit αi < βi und [a, b] ist nichts anderes als die Produktmenge

[a, b] = [α1 , β1 ] × · · · × [αd , βd ].

Für d = 2 ist [a, b] also eine achsenparalleles Rechteck, für d = 3 ein achsenparalleler Quader.
Das Volumen des d-dimensionalen Intervalls [a, b] ist
d
 Y
vol [a, b] = (βi − αi ).
i=1
82

Abbildung 16: Volumen unter einer Fläche

Haben wir nun für jedes Intervall [αi , βi ] eine Zerlegung Zi in Teilintervalle gegeben, so bilden die
Produkte dieser Teilintervalle eine Zerlegung Z = (Z1 , . . . , Zd ) von [a, b] in d-dimensionale In-
tervalle. Die Menge dieser d-dimensionalen Teilintervalle bezeichnen wir mit T I(Z). Die Feinheit
von Z definieren wir als
|Z| = max |Zi |,
i=1,...,d

das ist also die maximale Länge, die unter allen Seiten der Zerlegungsintervalle auftritt.
Eine Treppenfunktion ist wieder eine Funktion f : [a, b] → R, die auf den offenen Teilintervallen
einer Zerlegung konstant ist. Auch im mehrdimensionalen kann man zu zwei Treppenfunktionen
f, g auf [a, b] immer eine Zerlegung finden, so dass beide Funktionen f, g auf den Teilintervallen
dieser Zerlegung konstant sind. Dies erreicht man, indem man alle Unterteilungspunkte der zu
f und g gehörenden Zerlegungen als eine neue Zerlegung auffasst. Das ist eine gemeinsame
Verfeinerung beider Zerlegungen.

Abbildung 17: Eine Treppenfunktion

Die Treppenfunktionen auf einem Intervall [a, b] bilden einen linearen Raum, sind also f, g Trep-
penfunktionen und c, d ∈ R, so ist cf + dg ebenfalls eine Treppenfunktion.
83

Definition 11.26. Sei f : [a, b] → R eine Treppenfunktion mit f (x) = cI im Inneren des
Zerlegungsintervalls I ∈ T I(Z). Dann ist das Integral von f über [a, b] gegeben durch
Z X
f (x) dx = cI vol(I).
[a,b] I∈T I(Z)

Das Integral einer Treppenfunktion ist unabhängig von der konkreten Wahl der Zerlegung Z.
Daraus ergibt sich sofort die Linearität des Integrals für Treppenfunktionen. Sind f, g Treppen-
funktionen auf [a, b] und c, d ∈ R, dann gilt
Z Z Z

cf (x) + dg(x) dx = c f (x) dx + d g(x) dx.
[a,b] [a,b] [a,b]

Ebenfalls sofort aus der Definition folgt die Monotonie des Integrals für Treppenfunktionen
Z Z
f (x) ≤ g(x) für x ∈ [a, b] =⇒ f (x) dx ≤ g(x) dx.
[a,b] [a,b]

Ist nun f eine beschränkte Funktion, so kann man Treppenfunktionen (sogar konstante Funktio-
nen) g, h finden mit g ≤ f ≤ h Das rechtfertigt wieder die Existenz von Supremum und Infimum
in der folgenden

Definition 11.27. Sei f : [a, b] → R beschränkt. Dann heißt


Z Z
f (x) dx = sup g(x) dx
∗ [a,b]
[a,b]

Unterintegral von f , wobei das Supremum über alle Treppenfunktionen g mit g ≤ f gebildet
wird. Entsprechend heißt Z ∗ Z
f (x) dx = inf h(x) dx
[a,b]
[a,b]

Oberintegral von f , wobei das Infimum über alle Treppenfunktionen h mit f ≤ h gebildet wird.

Sind g, h Treppenfunktionen
R mit Rg ≤ f ≤ h, so folgt aus der Monotonie des Integrals für
Treppenfunktionen [a,b] g(x) dx ≤ [a,b] h(x) dx. Also ist immer
Z Z ∗
f (x) dx ≤ f (x) dx.

[a,b] [a,b]

Definition 11.28 (Riemann-Integral). Sei f : [a, b] → R beschränkt. Gilt


Z Z ∗
f (x) dx = f (x) dx,

[a,b] [a,b]

dann heißt f Riemann-integrierbar und der gemeinsame Wert


Z Z Z ∗
f (x) dx = f (x) dx = f (x) dx.
[a,b] ∗
[a,b] [a,b]

heißt Riemann-Integral von f über [a, b].


84

R
Beispiel 11.29. Wir wollen das Riemann-Integral [0,1]2 xy d(x, y) mittels der Definition berech-
nen. Dazu betrachten wir die Zerlegung
n    
2
[ i−1 i j−1 j
[0, 1] = , × , .
n n n n
i,j=1

 h i
, ni × j−1 j
 i−1
Das Minimum von f (x, y) = xy auf dem Zerlegungsintervall n n , n wird im lin-
(i−1)(j−1)
ken unteren Eckpunkt angenommen, ist also .
Das Maximum wird im rechten oberen
n2
ij
Eckpunkt angenommen, ist also n2 . Das Volumen jedes Zerlegungsintervalls (in diesem Fall die
Fläche) ist n12 . Wir erhalten also für das Integral der Treppenfunktion g ≤ f , die auf jedem
Zerlegungsintervall gleich dem Minimum von f ist, das Integral
n n
!2
(i − 1)(j − 1) 1 n2 (n − 1)2 (n − 1)2
Z X 1 X
g(x, y) d(x, y) = 2
· 2 = 4 (i − 1) = = .
[a,b] n n n 4n4 4n2
i,j=1 i=1

Also gilt für das Unterintegral von f


Z ∗
(n − 1)2 1
xy d(x, y) ≥ sup 2
= .
n∈N 4n 4
[0,1]2

Für das Integral der Treppenfunktion h ≥ f , die auf jedem Zerlegungsintervall gleich dem Ma-
ximum von f ist, haben wir
n n
!2
n2 (n + 1)2 (n + 1)2
Z X ij 1 1 X
h(x, y) d(x, y) = 2
· 2 = 4 i = = .
[a,b] n n n 4n4 4n2
i,j=1 i=1

Also gilt für das Oberintegral von f

(n + 1)2
Z
1
xy d(x, y) ≤ inf 2
= .
∗ n∈N 4n 4
[0,1]2

Also sind Ober- und Unterintegral gleich, f ist Riemann-integrierbar und wir erhalten
Z
1
xy d(x, y) = .
[0,1]2 4

Wieder erhält man direkt aus der Definition die folgende Charakterisierung.

Satz 11.30. Sei f : [a, b] → R beschränkt. Dann ist f Riemann-integrierbar genau dann, wenn
es zu jedem ε > 0 Treppenfunktionen g, h : [a, b] → R gibt mit g ≤ f ≤ h und
Z Z
h(x) dx − g(x) dx ≤ ε.
[a,b] [a,b]

Mittels dieser Charakterisierung kann man wieder ganz analog zur Analysis 1 die Riemann-
Integrierbarkeit stetiger Funktionen zeigen.

Satz 11.31. Sei f : [a, b] → R stetig. Dann ist f Riemann-integrierbar.


85

Auch die grundlegenden Eigenschaften des Integrals für Treppenfunktionen übertragen sich auf
das Riemann-Integral. Die Riemann-integrierbaren Funktionen auf [a, b] bilden also einen linearen
Raum, sind f, g Riemann-integrierbar und c, d ∈ R, dann ist auch cf + dg Riemann-integrierbar.
Wir haben wieder die Linearität des Integrals
Z Z Z

cf (x) + dg(x) dx = c f (x) dx + d g(x) dx.
[a,b] [a,b] [a,b]

Ebenfalls gilt die Monotonie des Riemann-Integrals:


Z Z
f (x) ≤ g(x) für x ∈ [a, b] =⇒ f (x) dx ≤ g(x) dx.
[a,b] [a,b]

Weiter kann man direkt die Riemann-Integrierbarkeit von f · g und von |f |p für 0 < p < ∞
folgern. Es gilt die Cauchy-Schwarz-Ungleichung für Riemann-Integrale
Z Z !1/2 Z !1/2

f g dx ≤ |f |2 dx |g|2 dx ,


[a,b] [a,b] [a,b]

die aus der Cauchy-Schwarz-Ungleichung für die Integrale von Treppenfunktionen folgt (dies sind
ja endliche Summen).
Ebenfalls nützlich sind die offensichtlichen Abschätzungen
Z
 
vol [a, b] inf f (x) ≤ f (x) dx ≤ vol [a, b] sup f (x)
x∈[a,b] [a,b] x∈[a,b]

und Z Z

f (x) dx ≤ f (x) dx ≤ vol [a, b] kf k∞ .


[a,b] [a,b]

Bemerkung (Zwischensummen). Alternativ kann man ebenfalls den Zugang zum Riemann-
Integral über Zwischensummen gehen.

Bemerkung. Um die obige Frage nach dem Volumen unter dem Graphen einer Funktion in
mehreren Variablen formal exakt zu untersuchen, gibt es noch weitere Herangehensweisen. Un-
ser Zugang war bestimmt von der Analogie zu unserer Einführung des Riemann-Integrals für
Funktionen einer Variablen und der dadurch gegebenen Anschaulichkeit.
Für Anwendungen z. B. in der Stochastik ist es allerdings unabdingbar, den Integralbegriff deut-
lich zu erweitern. Man kann Integrale nicht nur für Funktionen auf dem Rd , sondern viel allge-
meiner für Funktionen auf sogenannten Maßräumen einführen. Diese allgemeinere Integrations-
theorie, das sogenannte Lebesgue-Integral, ist vom theoretischen Standpunkt her zwar deutlich
schöner, allerdings auch deutlich komplizierter als die Riemannsche Theorie. Dieses Studium ist
Bestandteil der Vorlesung „Funktionalanalysis und Integrationstheorie“ im 3. Semester. Deshalb
werden wir auch nicht weiter in die Feinheiten der Theorie des Riemann-Integrals eindringen.

Um nun Integrale von Funktionen f : D → R zu definieren, die auf einem beschränkten Definiti-
onsgebiet D ⊂ Rd gegeben sind, das kein Intervall ist, setzen wir die Funktion f außerhalb von
D mit 0 fort.
86

Definition 11.32. Sei D ⊂ Rd beschränkt, sei [a, b] ein Intervall mit D ⊆ [a, b] und sei f : D →
R eine beschränkte Funktion. Dann heißt f Riemann-integrierbar (über D), wenn die Funktion
g : [a, b] → R gegeben durch (
f (x) x ∈ D
g(x) =
0 x∈/D
Riemann-integrierbar ist. Dann setzt man
Z Z
f (x) dx := g(x) dx.
D [a,b]

Bemerkung. Man sieht leicht, dass die Definition unabhängig von der Wahl des Intervalls [a, b]
mit D ⊆ [a, b] ist. Problematisch an dieser Definition ist, dass nicht mehr klar ist, ob eine stetige
Funktion f : D → R Riemann-integrierbar ist. Die fortgesetzte Funktion ist ja im allgemeinen
am Rand ∂D nicht mehr stetig. Wir diskutieren dies im Anschluss an die folgende Definition des
Volumens.

Definition 11.33. Eine beschränkte Menge D ⊂ Rd heißt Jordan-messbar, wenn die charakte-
ristische Funktion χD von D Riemann-integrierbar ist. Dann heißt
Z Z
vol(D) := χD (x) dx = 1 dx
D D

Jordan-Inhalt oder (d-dimensionales) Volumen von D, im Fall d = 2 auch Flächeninhalt von D.

Wir geben nun eine zentrale Eigenschaft des Riemann-Integrals und des Jordan-Inhalts ohne
Beweis an. Diese ist nützlich für das Verständnis. Wir verzichten auf den nicht ganz einfachen
Nachweis, da das Lebesgue-Maß und das Lebesgue-Integral auch in dieser Hinsicht deutlich fle-
xibler sind. Es handelt sich um das Integrabilitätskriterium von Lebesgue. Dazu definieren wir,
dass eine Menge D ⊂ Rd Nullmenge heißt, wenn es zu jedem ε > 0 eine Folge abgeschlossener
Intervalle (Ik ) gibt mit

[ X∞
D⊆ Ik und vol(Ik ) < ε.
k=1 k=1

Dann besagt das Integrabilitätskriterium von Lebesgue für eine beschränkte Funktion f : [a, b] →
R

f ist Riemann-integrierbar ⇐⇒ die Unstetigkeitsstellen von f bilden eine Nullmenge.

Damit folgt auch sofort für eine beschränkte Menge D ⊂ Rd

D ist Jordan-messbar ⇐⇒ ∂D ist eine Nullmenge.

Weiter überträgt sich das Integrabilitätskriterium von Lebesgue auf beschränkte Funktion f :
D → R. Insbesondere sind stetige beschränkte Funktionen auf Jordan-messbaren Mengen Riemann-
integrierbar.
Die Eigenschaften des Riemann-Integrals auf Intervallen übertragen sich direkt auf das Riemann-
Integral über Jordan-messbare Mengen. Es gelten also wieder Linearität, Monotonie und Cauchy-
Schwarz-Ungleichung sowie die Abschätzungen
Z
vol(D) inf f (x) ≤ f (x) dx ≤ vol(D) sup f (x)
x∈D D x∈D
87

und Z Z

f (x) dx ≤ f (x) dx ≤ vol(D)kf k∞ .

D D

Die Monotonie des Riemann-Integrals liefert auch die Monotonie des Jordan-Inhalts: Sind D, E ⊂
Rd Jordan-messbare Mengen mit D ⊆ E, dann gilt vol(D) ≤ vol(E).
Eine weitere zentrale Eigenschaft ist die Additivität von Jordan-Inhalt und Riemann-Integral:
Sind D, E ⊂ Rd beschränkt und Jordan-messbar und D ∩ E ⊆ ∂D ∪ ∂E, so ist D ∪ E Jordan-
messbar mit
vol(D ∪ E) = vol(D) + vol(E).
Ist f : D ∪ E → R Riemann-integrierbar über D und über E, dann ist f auch Riemann-
integrierbar über D ∪ E mit
Z Z Z
f dx = f dx + f dx.
D∪E D E

Ohne die Voraussetzung D ∩ E ⊆ ∂D ∪ ∂E hat man ebenfalls Jordan-Messbarkeit von D ∪ E


und Riemann-Integrierbarkeit von f mit

vol(D ∪ E) = vol(D) + vol(E) − vol(D ∩ E)

und Z Z Z Z
f dx = f dx + f dx − f dx.
D∪E D E D∩E

Schließlich wollen wir noch das Verhalten des Jordan-Inhalts bezüglich linearer Transformationen
analysieren. Insbesondere wollen wir einsehen, dass kongruente Mengen den gleichen Jordan-
Inhalt haben.
Aus der Definition des Riemann-Integrals und des Jordan-Inhalts ist klar, dass die Verschiebung
D + a = {x + a : x ∈ D} genau dann Jordan-messbar ist, wenn D Jordan-messbar ist und dass
dann
vol(D + a) = vol(D)
gilt. Gleiches gilt für Punktspiegelungen und Spiegelungen an einer Koordinatenachse. Betrachten
wir eine Diagonalmatrix A mit Diagonaleinträgen λ1 , . . . , λd , so ist das Bild eines abgeschlossenen
Intervalls I = [a, b] wieder ein abgeschlossenes Intervall D(I) mit Volumen

vol A(I) = λ1 . . . λd vol(I) = det(A) vol(I).

Dann folgt aus der Definition des Riemann-Integrals und des Jordan-Inhalts, dass A(D) genau
dann Jordan-messbar ist, wenn D Jordan-messbar ist und dass dann

vol A(D) = det(A) vol(D)

gilt.
Der folgende Satz besagt, dass dies für beliebige lineare Abbildungen gilt.

Satz 11.34. Sei A : Rd → Rd eine lineare


 Abbildung
und D ⊂ Rd sei Jordan-messbar. Dann
ist A(D) Jordan-messbar mit vol A(D) = det(A) vol(D).

88

Beweis. Wir führen den Beweis nicht im Detail aus, sondern skizzieren nur die Idee.
Ist det(A) = 0, so ist A singulär und bildet in eine Hyperebene ab. Dann ist D(A) eine Jordansche
Nullmenge.
Also sei det(A) 6= 0. Aus der linearen Algebra weiß man dann, dass orthogonale Matrizen O1
und O2 und eine Diagonalmatrix B existieren mit A = O1 BO2 (Singulärwertzerlegung). Wegen

det(A) = det(O1 ) det(B) det(O2 ) = det(B)

und der Vorbetrachtung zu Diagonalmatrizen genügt es also, den Satz für orthogonale Matrizen
zu zeigen.
Sei also jetzt A orthogonal. Dann ist das Bild A(Q) des Einheitswürfels Q = [0, 1]d (ein verdrehter
Einheitswürfel) Jordan-messbar,
 da der Rand eine Nullmenge ist. Sei die Konstante c > 0 so
gewählt, dass vol A(Q) = c vol(Q) ist. Die Gleichung vol A(D) = c vol(D) überträgt sich
dann auf beliebige endliche Vereinigungen von Würfeln und damit Quadern. Man zeigt damit,
dass für beliebiges Riemann-integrierbares f die folgende Substitutionsregel gilt:
Z Z

f (x) dx = c f A(u) du.
A(D) D

Insbesondere erhält man mit der charakteristischen Funktion von A(D) die Gleichung vol A(D) =
c vol(D) für beliebige Jordan-messbare Mengen D.
Nun ist aber A(K) = K für die Einheitskugel K, damit muss c = 1 gelten und die Behauptung
ist gezeigt.

11.2.2 Satz von Fubini

Im letzten Abschnitt haben wir die Theorie des Riemann-Integrals für Funktionen einer Varia-
blen so weit auf Funktionen mehrerer Variabler übertragen, wie dies ohne große Änderungen
möglich ist. Natürlich müssen wir nun aber auch noch untersuchen, wie man mehrdimensionale
Integrale überhaupt in der Praxis berechnen kann, ohne jedes mal Grenzwerte von Unter- und
Obersummen bestimmen zu müssen.
Zur Motivation betrachten wir R eine Funktion f : [α1 , β1 ] × [α2 , β2 ] → R, von der wir das Volumen
unter dem Graphen, also [α1 ,β1 ]×[α2 ,β2 ] f (x, y) d(x, y) berechnen wollen. Halten wir zunächst
y ∈ [α2 , β2 ] fest, so liefert das eindimensionale Integral
Z β1
F (y) = f (x, y) dx
α1

gerade die Querschnittsfläche des betrachteten Volumens mit einer senkrechten Ebene beim fes-
ten Wert y. Anschaulich ist also F (y) dy das Volumen einer dünnen Scheibe des betrachteten
Volumens mit Querschnittsfläche F (y) und Dicke dy. Aufsummieren der Volumina dieser dünnen
Scheiben liefert einerseits (im Grenzwert)
Z β2
F (y) dy,
α2

andererseits ist das das gesuchte Gesamtvolumen. Diese Betrachtung legt nahe, dass wir das
zweidimensionale Integral als zwei iterierte eindimensionale Integrale nach der Formel
Z Z β2  Z β1 
f (x, y) d(x, y) = f (x, y) dx dy
[α1 ,β1 ]×[α2 ,β2 ] α2 α1
89

berechnen können.
Wir werden nun beweisen, dass dies unter milden Voraussetzungen an f in der Tat richtig ist,
und zwar in einer Version für beliebige Dimension x ∈ Rd und y ∈ Re . Der Beweis setzt die obige
Idee um. Stellen Sie sich dabei zur Veranschaulichung den Fall d = e = 1 vor!

Satz 11.35 (Fubini für Intervalle). Seien [a, b] ⊂ Rd und [c, d] ⊂ Re abgeschlossene Intervalle
und sei f : [a, b] × [c, d] → RR Riemann-integrierbar. Weiter existiere für jedes feste y ∈ [c, d] das
Riemann-Integral F (y) := [a,b] f (x, y) dx. Dann ist F auf [c, d] Riemann-integrierbar und es gilt

Z Z Z Z !
f (x, y) d(x, y) = F (y) dy = f (x, y) dx dy.
[a,b]×[c,d] [c,d] [c,d] [a,b]

Bemerkung. Die Voraussetzung des Satzes ist für stetige Funktionen f erfüllt.
R
Beweis. Wir setzen zur Abkürzung I = [a,b]×[c,d] f (x, y) d(x, y). Nach Definition des Riemann-
Integrals existiert zu gegebenem ε > 0 eine Treppenfunktion g : [a, b] × [c, d] → R mit g ≤ f
und Z
g(x, y) d(x, y) > I − ε.
[a,b]×[c,d]

Für festes y ∈ [c, d] ist g(·, y) eine Treppenfunktion auf [a, b] und es folgt
Z Z
G(y) := g(x, y) dx ≤ f (x, y) dx = F (y).
[a,b] [a,b]

Nun ist G ebenfalls eine Treppenfunktion (auf [c, d]) und es folgt
Z Z Z
g(x, y) d(x, y) = G(y) dy ≤ F (y) dy.
[a,b]×[c,d] [c,d] ∗
[c,d]

Zusammen erhalten wir Z


F (y) dy ≥ I − ε.

[c,d]

Da ε > 0 beliebig war, finden wir Z


F (y) dy ≥ I.

[c,d]

Ganz analog erhält man Z ∗


F (y) dy ≤ I.
[c,d]

Also ist Z Z ∗
I= F (y) dy = F (y) dy

[c,d] [c,d]

und die Behauptung ist gezeigt.


90

Korollar 11.36. Sei [a, b] = [α1 , β1 ] × · · · × [αd , βd ] ⊂ Rd ein abgeschlossenes Intervall und sei
f : [a, b] → R stetig. Dann gilt
Z Z β1 Z β2  Z βd   
f (x) dx = ... f (ξ1 , . . . , ξd ) dξd . . . dξ2 dξ1 .
[a,b] α1 α2 αd

Außerdem darf die Reihenfolge dieser eindimensionalen Integrale dabei beliebig vertauscht wer-
den.
Bemerkung. Die Klammern im iterierten Integral lässt man in diesem Fall oft weg und schreibt
Z β1 Z β2 Z βd
... f (ξ1 , . . . , ξd ) dξd . . . dξ2 dξ1 .
α1 α2 αd
R
Die Stetigkeitsvoraussetzung ist nicht notwendig, es genügt, dass neben [a,b] f (x) dx alle auftre-
R
tenden iterierten Integrale existieren. Die Voraussetzung, dass [a,b] f (x) dx existiert, ist notwen-
dig. Sie folgt nicht automatisch aus der Existenz der iterierten Integrale. Zum Beispiel ist die
Funktion f : [0, 1] × [0, 1] → R gegeben durch
(
1 für y ∈ Q
f (x, y) =
2x für y ∈/Q

unstetig in allen (x, y) mit x 6= 12 und damit nicht Riemann-integrierbar. Andererseits ist die
R1
Funktion f (·, y) für jedes feste y stetig und somit existiert F (y) = 0 f (x, y) dx = 1, also auch
das iterierte Integral Z 1Z 1
f (x, y) dx dy = 1.
0 0
R1
Das Integral 0 f (x, y) dy existiert nur für x = 12 .
R
Beispiel 11.37. Wir wollen das Riemann-Integral [0,1]2 xy d(x, y) aus Beispiel 11.29 mittels des
Satzes von Fubini berechnen. Da f (x, y) = xy stetig ist, erhalten wir
Z Z 1 Z 1  Z 1
y 1
xy d(x, y) = xy dx dy = dy = .
[0,1]2 0 0 0 2 4

Wir wollen nun eine Version des Satzes von Fubini für Integrale über allgemeine Jordan-messbare
Mengen ableiten. Dazu sei D ⊂ Rd × Re zunächst eine beliebige Menge. Die Projektion von D
auf den Re ist dann die Menge
P (D) := y ∈ Re : ∃x ∈ Rd mit (x, y) ∈ D .


Für y ∈ P (D) ist dann die Menge


Dy := x ∈ Rd : (x, y) ∈ D ⊆ Rd


der (nichtleere) Schnitt von D mit dem affinen Teilraum parallel zu Rd durch y.

Satz 11.38 (Fubini). Sei D ⊂ Rd × Re Jordan-messbar und sei f : D → R Riemann-


Rintegrierbar. Weiter existiere für jedes feste y ∈ P (D) das Riemann-Integral F (y) :=
Dy f (x, y) dx. Dann ist F auf P (D) Riemann-integrierbar und es gilt

Z Z Z Z !
f (x, y) d(x, y) = F (y) dy = f (x, y) dx dy.
D P (D) P (D) Dy
91

Beweis. Zum Beweis wählen wir einfach abgeschlossene Intervalle [c, d] ⊂ Re mit P (D) ⊆ [c, d]
und [a, b] ⊂ Rd mit D ⊆ [a, b] × [c, d] und wenden den Satz 11.35 von Fubini für Intervalle auf
die mit 0 fortgesetzte Funktion an.

Aus dem Satz von Fubini folgt die Multiplikativität des Volumens bezüglich Kreuzprodukten.
Sind D ⊂ Rd und E ⊂ Re Jordan-messbar, dann ist auch D × E ⊂ Rd+e Jordan-messbar mit

vold+e (D × E) = vold (D) vole (E).

Hier bezeichnen wir zur Verdeutlichung der Dimension das d-dimensionale Jordan-Maß mit vold .
Aus dem allgemeinen Satz von Fubini folgt sofort

Korollar 11.39 (Prinzip von Cavalieri). Sei D ⊂ Rd Jordan-messbar und sei das abgeschlossene
Intervall [a, b] so gewählt, dass ξ1 ∈ [a, b] für alle (ξ1 , . . . , ξd ) ∈ D gilt. Für alle ξ ∈ [a, b] sei die
Menge
Q(ξ) := (ξ2 , . . . , ξd ) ∈ Rd−1 : (ξ, ξ2 , . . . , ξd ) ∈ D ⊂ Rd−1


im Rd−1 Jordan-messbar mit (d − 1)-dimensionalem Jordan-Inhalt q(ξ). Dann gilt


Z b
vol(D) = q(ξ) dξ.
a

Beispiel 11.40 (Integration über ebene Normalbereiche). Eine Teilmenge des R2 der Form

D := (x, y) ∈ R2 : a ≤ x ≤ b, ϕ(x) ≤ y ≤ ψ(x)




mit stetigen Funktionen ϕ, ψ : [a, b] → R und ϕ ≤ ψ heißt Normalbereich (bezüglich der x-Achse)
im R2 . Normalbereiche sind Jordan-messbar und das Integral einer stetigen Funktion f : D → R
lässt sich mittels des Satzes von Fubini berechnen als
Z Z b Z ψ(x)
f (x, y) d(x, y) = f (x, y) dy dx.
D a ϕ(x)

Normalbereiche bezüglich der y-Achse sind symmetrisch definiert.


Zum Beispiel kann man das Innere einer Ellipse
n x2 y 2 o
D = (x, y) ∈ R2 : 2 + 2 ≤ 1
a b
mit den Halbachsen a, b > 0 als Normalbereich darstellen durch
( r r )
x 2 x 2
D = (x, y) ∈ R2 : −a ≤ x ≤ a, −b 1 − 2 ≤ y ≤ b 1 − 2 .
a a

Der Flächeninhalt von D ist dann


q
2
b 1− x2
r
a a 1
x2
Z Z Z Z
a
p
1 dy dx = 2b 1 − 2 dx = 2ab 1 − u2 du = πab.
a
q
2
−a −b 1− x2 −a −1
a

Beispiel 11.41 (Integration über räumliche Normalbereiche). Eine Teilmenge des R3 der Form

D := (x, y, z) ∈ R3 : a ≤ x ≤ b, ϕ1 (x) ≤ y ≤ ψ1 (x), ϕ2 (x, y) ≤ z ≤ ψ2 (x, y)



92

mit stetigen Funktionen ϕ1 , ψ1 , ϕ2 , ψ2 und ϕ1 ≤ ψ1 , ϕ2 ≤ ψ2 heißt Normalbereich im R3 . Nor-


malbereiche sind Jordan-messbar und das Integral einer stetigen Funktion f : D → R lässt sich
mittels des Satzes von Fubini berechnen als
Z Z b Z ψ1 (x) Z ψ2 (x,y)
f (x, y, z) d(x, y, z) = f (x, y, z) dz dy dx.
D a ϕ1 (x) ϕ2 (x,y)

Durch Vertauschen der Rollen von x, y, z erhält man ebenfalls Normalbereiche.


Zum Beispiel kann man die Einheitskugel
n o
D = (x, y, z) ∈ R3 : x2 + y 2 + z 2 ≤ 1

als Normalbereich darstellen durch


n p p p p o
D = (x, y) ∈ R2 : −1 ≤ x ≤ 1, − 1 − x2 ≤ y ≤ 1 − x2 , − 1 − x2 − y 2 ≤ z ≤ 1 − x2 − y 2 .

Das Volumen von D ist dann


Z 1 Z √1−x2 Z √1−x2 −y2 Z 1 Z √
1−x2 p
vol(D) = √ √ 1 dz dy dx = 2 √ 1 − x2 − y 2 dy dx
−1 − 1−x2 − 1−x2 −y 2 −1 − 1−x2
Z 1 Z 1 Z 1 Z 1
p p 4π
=2 (1 − x2 ) 2
1 − t dt dx = (1 − x2 ) dx 1 − t2 dt = .
−1 −1 −1 −1 3

11.2.3 Substitutionsregel und Koordinatenwechsel

In diesem Abschnitt wollen wir das Analogon zur Substitutionsregel für Funktionen einer Varia-
blen behandeln. Diese hatte die Form
Z g(b) Z b
f g(u) g 0 (u) du

f (x) dx =
g(a) a

für eine streng monoton wachsende stetig differenzierbare (und damit bijektive) Funktion g :
[a, b] → [g(a), g(b)].
Für invertierbare lineare Abbildungen A : Rd → Rd haben wir in der Beweisskizze zum Satz
11.34 eine verwandte Substitutionsregel
Z Z

f (x) dx = f A(u) det(A) du
A(D) D

erhalten. Diese überträgt sich auch auf geeignete nichtlineare Substitutionen.

Satz 11.42 (Substitutionsregel, Transformationssatz). Sei Φ : G → Rd eine stetig differenzier-


bare Abbildung auf einer offenen Menge G ⊆ Rd und seien D ⊂ G kompakt und Jordan-messbar
und N ⊂ D eine Nullmenge, so dass Φ auf G \ N injektiv ist und det(Φ0 ) auf G \ N entwe-
der überall positiv oder überall negativ ist. Dann ist Φ(D) Jordan-messbar und für jede stetige
Funktion f : g(D) → R gilt
Z Z
f Φ(u) det(Φ0 (u)) du.

f (x) dx =
Φ(D) D

Bemerkung. Für d = 1 ergibt sich die bekannte Substitutionsregel für Funktionen einer Varia-
blen. Die Determinante det(Φ0 (u)) ist die Jacobi-Determinante von Φ.
93

Bemerkung. Der Beweis der Substitutionsregel ist aus im wesentlichen technischen Gründen
relativ lang. Die Grundidee ist, dass eine Zerlegung von D in Teile (Dk ) mit kleinem Durchmes-
ser zu einer Zerlegung von Φ(D) in Teile (Φ(Dk )) mit kleinem Durchmesser führt. Dabei wird
das Volumen etwa mit einem Faktor det(Φ0 (uk )) für einen beliebig gewählten Punkt uk ∈ Dk
multipliziert. Wegen der Stetigkeit von f ist dann
X X
f (Φ(uk )) det(Φ0 (uk )) vol(Dk ),

f (xk ) vol(Φ(Dk )) ≈
k k

wobei xk beliebig in Φ(Dk )) gewählt werden kann. Führt man nun einen Grenzübergang aus,
indem man den maximalen Durchmesser der Zerlegungsteile gegen
R 0 gehen lässt,
 dann konvergiert
die linke Seite gegen Φ(D) f (x) dx und die rechte Seite gegen D f Φ(u) det(Φ0 (u)) du. Wir
R

führen die Details hier nicht aus. Diese können z.B. im Analysis-Buch von Heuser nachgelesen
werden.

Die Substitutionsregel wird meist angewendet, wenn das Integrationsgebiet D und eventuell auch
die zu integrierende Funktion f am besten in einem anderen als dem kartesischen Koordinatensys-
tem dargestellt wird. Klassische Beispiele, die wir jetzt betrachten wollen, sind Polar-, Zylinder-
und Kugelkoordinaten.

Beispiel 11.43 (Polarkoordinaten). Zu jedem Punkt (x, y) ∈ R2 \ {(0, 0} gibt es genau ein Paar
(r, ϕ) ∈ (0, ∞) × [0, 2π) mit x = r cos ϕ, y = r sin ϕ. Dies sind die Polarkoordinaten von (x, y).
Setzen wir nun Φ(r, ϕ) = (r cos ϕ, r sin ϕ) auf G = R × R, dann ist Φ stetig differenzierbar mit
 
0 cos ϕ −r sin ϕ
det(Φ (r, ϕ)) = det = r,
sin ϕ r cos ϕ

siehe Beispiel 10.13. Ist also D ⊆ [0, ∞) × [0, 2π] kompakt und Jordan-messbar, dann sind die
Voraussetzungen der Substitutionsregel erfüllt. Also ist Φ(D) Jordan-messbar und für jede stetige
Funktion f : g(D) → R gilt
Z Z
f (x, y) d(x, y) = f (r cos ϕ, r sin ϕ) r d(r, ϕ).
Φ(D) D

Gebiete, die gut für die Behandlung mit Polarkoordinaten geeignet sind, sind Sektoren von
Kreisringen Φ(K) mit

K = (r, ϕ) ∈ [0, ∞) × [0, 2π] : r1 ≤ r ≤ r2 , ϕ1 ≤ ϕ ≤ ϕ2

für gegebene r1 , r2 , ϕ1 , ϕ2 . Dann liefert der Satz von Fubini


Z Z ϕ2 Z r2
f (x, y) d(x, y) = f (r cos ϕ, r sin ϕ) r dr dϕ).
Φ(K) ϕ1 r1

Zum Beispiel erhält man den Flächeninhalt des Kreisrings als


Z Z ϕ2 Z r2
1
vol(Φ(K)) = 1 d(x, y) = r dr dϕ = (r22 − r12 )(ϕ2 − ϕ1 )
Φ(K) ϕ1 r1 2

und das Integral über die Funktion f (x, y) = x2 + y 2 als


Z Z ϕ2 Z r2
2 2 1
(x + y ) d(x, y) = r3 dr dϕ = (r24 − r14 )(ϕ2 − ϕ1 )
Φ(K) ϕ1 r1 4
94

Beispiel 11.44 (Zylinderkoordinaten). Die Zylinderkoordinaten eines Punktes (x, y, z) sind


(r, ϕ, z), wobei (r, ϕ) die Polarkoordinaten von (x, y) sind. Dann ist Φ(r, ϕ, z) = (r cos ϕ, r sin ϕ, z)
die zugehörige Transformation und
 
cos ϕ −r sin ϕ 0
det(Φ0 (r, ϕ, z)) = det  sin ϕ r cos ϕ 0 = r.
0 0 1
Die Substitutionsregel hat dann die Form
Z Z
f (x, y, z) d(x, y, z) = f (r cos ϕ, r sin ϕ, z) r d(r, ϕ, z).
Φ(D) D

Als Beispiel wollen wir das Integral der Funktion f (x, y, z) = x2 yz über den Viertelzylinder
E := (x, y, z) ∈ R3 : x, y ≥ 0, x2 + y 2 ≤ 1, 0 ≤ z ≤ 1


berechnen. Man könnte D direkt in kartesischen Koordinaten als Normalbereich darstellen und
damit das Integral berechnen. Einfacher wird es in Zylinderkoordinaten, in denen E = Φ(D) die
Form n π o
D = (r, ϕ, z) : 0 ≤ ϕ ≤ , r ≤ 1, 0 ≤ z ≤ 1
2
hat. Also ist
Z Z
x2 yz d(x, y, z) = r4 cos2 ϕ sin ϕz d(r, ϕ, z)
E D
Z 1 Z 1 Z π/2
= r4 dr z dz cos2 ϕ sin ϕ dϕ
0 0 0
1 π/2 1
= (− cos3 ϕ) 0 = .
30 30

Abbildung 18: Kugelkoordinaten - By Ag2gaeh (Own work) [CC BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0)],

via Wikimedia Commons

Beispiel 11.45 (Kugelkoordinaten). Die Kugelkoordinaten eines Punktes (x, y, z) ∈ R3 sind


(r, θ, ϕ) mit
x = r sin θ cos ϕ
y = r sin θ sin ϕ
z = r cos θ
95

Dabei ist r ≥ 0, θ ∈ [0, π] und ϕ ∈ [0, 2π). Diese sind eindeutig bestimmt, wenn (x, y, z) nicht
auf der z-Achse liegt. Geometrisch beschreibt r den Abstand vom Ursprung, θ den „Breitengrad“
und ϕ den „Längengrad“. Mit etwas Mühe berechnet man die Jacobi-Determinante zu
 
sin θ cos ϕ r cos θ cos ϕ −r sin θ sin ϕ
det(Φ0 (r, θ, ϕ)) = det  sin θ sin ϕ r sin θ sin ϕ r sin θ cos ϕ  = r2 sin θ.
cos θ −r sin θ 0

Die Substitutionsregel hat dann die Form


Z Z
f (x, y, z) d(x, y, z) = f (r sin θ cos ϕ, r sin θ sin ϕ, r cos θ) r2 sin θ d(r, θ, ϕ).
Φ(D) D

Zum Beispiel ist die Einheitskugel

K := (x, y, z) ∈ R3 : x2 + y 2 + z 2 ≤ 1


in Polarkoordinaten gegeben als K = Φ(D) mit



D = (r, θ, ϕ) : 0 ≤ r ≤ 1, 0 ≤ ϕ ≤ 2π, 0 ≤ θ ≤ π .

Ihr Volumen berechnet sich dann einfach als


Z Z Z 1 Z π Z 2π
2 2 1 4π
vol(K) = d(x, y, z) = r sin θ d(r, θ, ϕ) = r dr sin θ dθ dϕ = · 2 · 2π = .
K D 0 0 0 3 3

11.3 Flächen und Oberflächenintegrale

In diesem Abschnitt behandeln wir zunächst (zweidimensionale) Flächen im dreidimensionalen


Raum. Wir werden Flächen durch Parameterdarstellungen beschreiben. Um die lokale Struktur
einer Fläche zu analysieren benötigen wir den Normalenvektor in einem Punkt an die Fläche.
Anschließend behandeln wir wie für Kurven zwei Integrale über Flächen. Oberflächenintegrale
1. Art berechnen das Integral eines Skalarfelds über eine Fläche. Wie bei Kurvenintegralen 1.
Art ist eine Motivation die Berechnung der Gesamtmasse einer mit einer inhomogenen Mas-
severteilung belegten Fläche. Insbesondere kann man so Flächeninhalte gekrümmter Flächen
berechnen. Oberflächenintegrale 2. Art berechnen das Integral eines Vektorfelds über eine Flä-
che. Eine anschauliche Motivation ist die Berechnung des Gesamtflusses einer Flüssigkeit durch
ein Flächenstück, wobei das Geschwindigkeitsfeld des Flusses gegeben ist.

11.3.1 Flächen, Parametrisierungen, Normalenvektor

Als zweidimensionale Menge lässt sich eine Fläche als Funktion von zwei Parametern darstellen.
Zum Beispiel erhält man durch Fixieren des Radius r in den Kugelkoordinaten eine Parametri-
sierung der Oberfläche einer Kugel mit Radius r:

x(θ, ϕ) = r sin θ cos ϕ


y(θ, ϕ) = r sin θ sin ϕ
z(θ, ϕ) = r cos θ.

Hierbei ist (θ, ϕ) ∈ [0, π]×[0, 2π], der Parameterbereich ist also ein Rechteckbereich [0, π]×[0, 2π].
Bis auf Randpunkte des Parameterbereichs ist der Punkt (x, y, z) eindeutig durch die Parameter
(θ, ϕ) bestimmt.
96

Definition 11.46 (Parameterdarstellung einer Fläche). Sei K ⊂ R2 nichtleer, kompakt und


Jordan-messbar und sei D ⊃ K offen. Ist Φ : D → R3 stetig differenzierbar, so heißt die
Einschränkung Φ : K → R3 eine Parameterdarstellung der Fläche S = Φ(K) in R3 . Der Bereich
K heißt Parameterbereich der Darstellung.

Hat man zwei Parametrisierungen derselben Fläche, möchte man wie bei Wegen von äquivalenten
Parametrisierungen sprechen. Die formale Definition ist

Definition 11.47 (Äquivalenz von Parametrisierungen). Zwei Parametrisierungen Φi : Di →


R3 mit Parameterbereich Ki für i = 1, 2 derselben Fläche S = Φ1 (K1 ) = Φ2 (K2 ) heißen äqui-
valent, wenn es eine stetig differenzierbare injektive Funktion g : D2 → D1 mit g(K2 ) = K1
und Φ2 = Φ1 ◦ g gibt, deren Jacobi-Determinante nirgends verschwindet und überall das gleiche
Vorzeichen hat. In diesem Fall heißt g eine zulässige Parametertransformation.
Bemerkung. Die Äquivalenz von Parameterdarstellungen von Flächen eine Äquivalenzrelation.
Wichtige Eigenschaften von Flächen sollten unabhängig von der konkreten Parametrisierung sein.
Beispiel 11.48 (explizite Darstellung,
 Funktionsgraph). Hat die Parameterdarstellung die Form
(x, y, z) = Φ(x, y) = (x, y, g(x, y) , so spricht man von einer expliziten Darstellung der Fläche
S. In diesem Fall ist S einfach der Graph der Funktion g. Zum Beispiel kann man das Parallelo-
gramm S mit den Eckpunkten A = (1, 0, 0), B = (2, 2, 1), C = (2, 6, −1), D = (1, 4, −2) implizit
parametrisieren als
         
x 1 1 0 1+s
y  = A + s(B − A) + t(D − A) = 0 + s 2 + t  4  = 2s + 4t
z 0 1 −2 s − 2t
mit Parameterbereich (s, t) ∈ K = [0, 1] × [0, 1]. Aus diesen Gleichungen ergibt sich die explizite
Darstellung von S als z = 2x − y2 − 2. Der Parameterbereich für diese explizite Darstellung ist
die Projektion des Parallelogramms S in die (x, y)-Ebene, also das Parallelogramm P mit den
Eckpunkten A0 = (1, 0), B 0 = (2, 2), C 0 = (2, 6), D0 = (1, 4) oder
P = {(x, y) ∈ R2 : 1 ≤ x ≤ 2, 2x − 2 ≤ y ≤ 2x + 2}.

Der Normalenvektor an eine Fläche S im Punkt (x, y, z) ist orthogonal zu dieser Fläche, besser zur
Tangentialebene an die Fläche im Punkt (x, y, z). Im Fall einer explizit gegebenen Fläche haben
wir in Beispiel 10.10 gesehen, wie man einen Normalenvektor bestimmen kann. Im Fall einer
allgemeinen Parameterdarstellung ist es sinnvoll, den Normalenvektor mittels des Vektorprodukts
zu bestimmen.
Das Vektorprodukt oder Kreuzprodukt zweier Vektoren p1 = (x1 , y1 , z1 ) ∈ R3 und p2 = (x2 , y2 , z2 ) ∈
R3 ist gegeben durch  
y1 z2 − z1 y2
p 1 × p 2 =  z 1 x2 − x1 z 2  .
x 1 y2 − y1 x 2
Man rechnet leicht nach, dass p1 × p2 senkrecht auf p1 und p2 und damit senkrecht auf der durch
p1 und p2 aufgespannten Ebene steht. Außerdem ist die euklidische Norm von p1 × p2 gerade der
Flächeninhalt des durch p1 und p2 aufgespannten Parallelogramms.

Definition 11.49. Sei Φ : K → R3 die Parameterdarstellung der Fläche S = Φ(K) in R3 . Der


(zu Φ gehörende) Normalenvektor an S in Φ(s, t) ∈ S ist

∂Φ ∂Φ
n(s, t) := (s, t) × (s, t).
∂s ∂t
97

Bemerkung. Ist γ : [a, b] → K ein stetig differenzierbarer Weg, so ist α = Φ ◦ γ ein stetig
differenzierbarer Weg in S. Der Tangentialvektor an diesen Weg in τ ∈ [a, b] ergibt sich mit der
Kettenregel als
∂Φ ∂Φ
α0 (τ ) = (γ(τ ))γ10 (τ ) + (γ(τ ))γ20 (τ ).
∂s ∂t
Also steht der Normalenvektor n(s, t) orthogonal auf allen Tangentialvektoren an durch (s, t)
und in S verlaufenden Kurven.
Bemerkung. Was passiert mit dem Normalenvektor bei einer zulässigen Parametertransforma-
tion? Sind Φi : Di → R3 mit Parameterbereich Ki für i = 1, 2 Parametrisierungen derselben
Fläche S = Φ1 (K1 ) = Φ2 (K2 ) und ist g : D2 → D1 eine zulässige Parametertransformation, so
liefert die Kettenregel nach einiger Rechnung
 
∂Φ2 ∂Φ2 ∂Φ1 ∂Φ1
(s, t) × (s, t) = det Jg (s, t) (g(s, t)) × (g(s, t)) . (11)
∂s ∂t ∂u ∂v
Hierbei bezeichnen (s, t) ∈ K2 und (u, v) ∈ K1 die Parameter der beiden Parameterdarstellungen.
Der Normalenvektor wird also mit der Jacobideterminante multipliziert, die Richtung bleibt
erhalten.

Ist die Fläche S aus endlich vielen (kleinen) Parallelogrammen zusammengesetzt, so ergibt sich
der Flächeninhalt von S als Summe der Flächen dieser Parallelogramme und kann somit als
Summe der Normen der Normalenvektoren bei geeigneter Parametrisierung berechnet werden.
Approximation einer beliebigen Fläche S durch solche aus Parallelogrammen zusammengesetzte
Flächen motiviert die folgende Definition. Eine geometrisch anschaulichere Definition des Flä-
cheninhalts einer gekrümmten Fläche ist schwieriger und wird hier deshalb nicht durchgeführt.

Definition 11.50 (Flächeninhalt einer parametrisierten Fläche). Sei Φ : K → R3 die Parame-


terdarstellung der Fläche S = Φ(K) in R3 mit dem zugehörigen Normalenvektor n : K → R3 .
Der Flächeninhalt von S ist definiert durch
Z
I(S) := kn(s, t)k d(s, t).
K

Bemerkung. Die Formel (11) und die Substitutionsregel zeigen, dass diese Definition unabhän-
gig von der konkreten Parameterdarstellung von S ist.
Bemerkung. Wir wollen noch eine praktische Variante des Umgangs mit dem Normalenvektor
erläutern. Dazu schreiben wir die Parameterdarstellung der Fläche S in der Form (x, y, z) =
Φ(s, t) = x(s, t), y(s, t), z(s, t) . Die Größen

∂Φ 2

E= = x2s + ys2 + zs2
∂s
∂Φ 2

G= = x2t + yt2 + zt2
∂t
 
∂Φ ∂Φ
F = , = xs xt + ys yt + zs zt
∂s ∂t

nennt man Gaußsche Flächengrößen. Dann rechnet man leicht nach, dass
p
kn(s, t)k = EG − F 2
98

und damit Z p
I(S) := EG − F 2 d(s, t)
K

ist. Den Ausdruck kn(s, t)k d(s, t) = EG − F 2 d(s, t) nennt man in Analogie zum Bogenelement
bei Kurvenintegralen auch Oberflächenelement.

Beispiel 11.51. Wir wollen die Oberfläche S einer Kugel vom Radius r berechnen und benutzen
die Parametrisierung

x(θ, ϕ) = r sin θ cos ϕ y(θ, ϕ) = r sin θ sin ϕ z(θ, ϕ) = r cos θ

mit (θ, ϕ) ∈ [0, π] × [0, 2π]. Durch partielles Ableiten erhalten wir

xθ = r cos θ cos ϕ yθ = r cos θ sin ϕ zθ = −r sin θ


xϕ = −r sin θ sin ϕ yϕ = r sin θ cos ϕ zϕ = 0

und daraus die Gaußschen Flächengrößen

E = R2 sin2 θ, G = R2 , F = 0.

Die Oberfläche von K ist also


Z p Z π Z 2π
I(S) = EG − F 2 d(θ, ϕ) = R2 sin θ dϕ dθ = 4πR2 .
[0,π]×[0,2π] 0 0

Beispiel 11.52. Ist die Fläche S in expliziter Darstellung durch z = g(x, y) mit (x, y) ∈ K
gegeben, so sind die Gaußschen Flächengrößen

E = 1 + gx2 , G = 1 + gy2 , F = gx gy

und EG − F 2 = 1 + gx2 + gy2 . Die Oberfläche von S ist also


Z q
I(S) = 1 + gx2 + gy2 d(x, y).
K

11.3.2 Oberflächenintegrale

Wir kommen nun zur Definition von Oberflächenintegralen. Wie bereits dargestellt ist die Mo-
tivation für das Oberflächenintegral 1. Art die Berechnung der Gesamtmasse einer mit einer
inhomogenen Verteilung belegten Fläche. Dazu multipliziert man das Oberflächenelement mit
der Dichtefunktion und integriert über den Parameterbereich.

Definition 11.53 (Oberflächenintegral 1. Art). Sei Φ : K → R3 die Parameterdarstellung der


Fläche S = Φ(K) in R3 und sei n der zu Φ gehörende Normalenvektor. Ist f : K → R ein stetiges
Skalarfeld, dann heißt Z Z

f dσ := f Φ(s, t) kn(s, t)k d(s, t)
S K
das Oberflächenintegral 1. Art von f über S.
99

Die Motivation für das Oberflächenintegral 2. Art ist die Berechnung des Gesamtflusses einer
Flüssigkeit durch ein Flächenstück, wobei das Geschwindigkeitsfeld des Flusses gegeben ist. Der
lokale Fluss ist dabei durch das Skalarprodukt des Geschwindigkeitsvektors mit dem Normalen-
vektor gegeben.

Definition 11.54 (Oberflächenintegral 2. Art). Sei Φ : K → R3 die Parameterdarstellung der


Fläche S = Φ(K) in R3 und sei n der zu Φ gehörende Normalenvektor. Ist F : K → R3 ein
stetiges Vektorfeld, dann heißt
Z Z Z


F · do := hF, ni dσ = F Φ(s, t) , n(s, t) d(s, t)
S S K

das Oberflächenintegral 2. Art von F über S.

Die Unabhängigkeit der Oberflächenintegrale von der Parameterdarstellung folgt wieder aus der
Substitutionsregel.
Beispiel 11.55. Eine halbkugelförmige Metallkuppel S mit dem Radius R = 10 Meter hat im
Punkt (x, y, z) die Massedichte (100 − x2 − y 2 ) Kilogramm pro Quadratmeter. Wir berechnen
die Gesamtmasse M der Halbkugel als Oberflächenintegral 1. Art. Dazu benutzen wir Kugelko-
ordinaten. Das Flächenelement
R2 sin θ dϕ dθ = 100 sin θ dϕ dθ
π
haben wir bereits oben berechnet. Der Parameterbereich für die Halbkugel ist 0 ≤ θ ≤ 2 und
0 ≤ ϕ ≤ 2π. Die Dichtefunktion ist
f (x, y, z) = 100 − x2 − y 2 = 100(1 − sin2 θ) = 100 cos2 θ.
Dann erhalten wir die Gesamtmasse
Z Z 2π Z π/2
20000π
M= f dσ = 10000 cos2 θ sin θ dϕ dθ = ≈ 20944
S 0 0 3
Kilogramm.
Beispiel 11.56. Wir wollen den Gesamtfluss des Vektorfeldes (x, 0, 0) durch die Oberfläche der
Einheitskugel berechnen. Wir benutzen wieder Kugelkoordinaten
x(θ, ϕ) = sin θ cos ϕ y(θ, ϕ) = sin θ sin ϕ z(θ, ϕ) = cos θ
mit den Ableitungen
xθ = cos θ cos ϕ yθ = cos θ sin ϕ zθ = − sin θ
xϕ = − sin θ sin ϕ yϕ = sin θ cos ϕ zϕ = 0.

der Normalenvektor ergibt sich als Vektorprodukt


n(θ, ϕ) = (xθ , yθ , zθ ) × (xϕ , yϕ , zϕ ) = sin θ(sin θ cos ϕ, sin θ sin ϕ, cos θ).
Der lokale Fluss ist dann
hF, ni = sin3 θ cos2 ϕ
und der gesuchte Gesamtfluss das Oberflächenintegral 2. Art
Z Z 2π Z π Z 2π Z π
3 2 2 4π
F · do = sin θ cos ϕ dϕ dθ = cos ϕ dϕ sin3 θ dθ = .
S 0 0 0 0 3
100

11.4 Die Integralsätze von Gauß und Stokes

In diesem Abschnitt wollen wir die Integralsätze von Gauß und Stokes kennenlernen, die ver-
schiedene Integrale in Beziehung zueinander setzen und physikalisch motiviert sind.

11.4.1 Divergenz und Rotation

Zunächst wollen wir die Interpretationen der Divergenz als lokale Quelldichte und der Rotation
als Wirbelgeschwindigkeit eines Vektorfeldes motivieren.
Die Divergenz ist leicht für Vektorfelder F : D → Rd mit einer offenen Menge D ⊆ Rd in
beliebiger Dimension d ∈ N zu definieren als
d
X ∂Fi
div F (x) = (x).
∂ξi
i=1

Die Divergenz ist also die Summe der Diagonalelemente der Jacobi-Matrix JF , die Spur von JF .
Mit dem Nabla-Operator kann man die Divergenz formal auch schreiben als
div F = h∇, F i = ∇ · F.

Wir wollen nun die physikalische Motivation der Divergenz als Quelldichte eines Strömungsfeldes
darstellen. Dazu beschränken wir uns der Einfachheit halber auf eine strömende Flüssigkeit im
2-dimensionalen Raum. Das Geschwindigkeitsfeld sei gegeben durch F = (P, Q) : R2 → R2 .
Wir legen einen achsenparallelen kleinen Würfel der Seitenlänge h mit linkem unterem Eckpunkt
(x, y) in die Strömung und überlegen uns, welche Flüssigkeitsmenge zu einem festen Zeitpunkt
in den Würfel ein- und austritt. Durch die vertikale Seite bei x tritt näherungsweise die Flüs-
sigkeitsmenge P (x, y)h ein und durch die vertikale Seite bei x + h tritt die Flüssigkeitsmenge
P (x + h, y)h aus. In x-Richtung ergibt sich also als Nettobilanz
P (x + h, y) − P (x, y) 2
h .
h
Entsprechend ergibt sich als Bilanz in y-Richtung
Q(x, y + h) − Q(x, y) 2
h
h
und als Gesamtbilanz
 
P (x + h, y) − P (x, y) Q(x, y + h) − Q(x, y) 2
+ h .
h h
Dividieren wir dies durch das Volumen h2 des Würfels und lassen h gegen 0 gehen, erhalten wir
P (x + h, y) − P (x, y) Q(x, y + h) − Q(x, y)
lim + = Px + Qy = div F.
h→0 h h
Die Divergenz div F ist also die Quellstärke des Geschwindigkeitsfeldes F . Deshalb nennt man
auch einen Punkt x mit div F (x) > 0 eine Quelle und einen Punkt x mit div F (x) < 0 eine Senke
von F . Ein Feld F mit div F (x) = 0 für alle x ∈ D heißt quellen- und senkenfrei.
Die Rotation rot F eines stetig differenzierbaren Vektorfeldes F = (P, Q, R) auf D ⊆ R3 haben
wir bereits in Definition 11.24 als
 
∂R ∂Q ∂P ∂R ∂Q ∂P
rot F = rot(P, Q, R) = − , − , −
∂y ∂z ∂z ∂x ∂x ∂y
101

kennengelernt. Betrachten wir als Beispiel das Vektorfeld F = (−ωy, ωx, 0), so erhalten wir
rot F = (0, 0, 2ω). Andererseits stellt F offensichtlich ein Geschwindigkeitsfeld dar, dass eine Ro-
tation um die z-Achse mit Winkelgeschwindigkeit ω beschreibt. Dir Rotation eines Vektorfeldes
ist also proportional zur Winkelgeschwindigkeit der Drehbewegung des Feldes. Daher kommt die
Bezeichnung. Ist rot F = 0, so heißt F wirbel- oder rotationsfrei, anderenfalls spricht man von
einem Wirbelfeld. Wir haben bereits eingesehen, dass Potentialfelder wirbelfrei sind und das auch
die Umkehrung in sternförmigen Gebieten gilt.

11.4.2 Der Integralsatz von Gauß in der Ebene

Der Integralsatz von Gauß ist eine Verallgemeinerung des Hauptsatzes der Differential- und
Integralrechnung. Diesen wollen wir zunächst in Dimension 2 studieren. Dazu betrachten wir
noch einmal den Hauptsatz der Differential- und Integralrechnung in der Form
Z b
F 0 (x) dx = F (b) − F (a).
a

Anschaulich beschreibt die linke Seite das Integral über die Divergenz des 1-dimensionalen Vek-
torfeldes F über das Intervall [a, b], die rechte Seite den Fluss von F durch den Rand des Intervalls
[a, b], der nur aus den Punkten a und b besteht. In Dimension 2 ersetzen wir das Intervall [a, b]
durch einen Normalbereich und die Randpunkte durch die Randkurve.

Satz 11.57 (Integralsatz von Gauß in der Ebene). Sei D ⊆ R2 offen, sei B ⊆ D ein Normal-
bereich in x- und in y-Richtung, dessen Rand ∂B stückweise stetig differenzierbar ist. Weiter sei
F = (P, Q) : D → R2 ein stetig differenzierbares Vektorfeld. Dann gilt
Z Z
(Qx − Py ) d(x, y) = P dx + Q dy,
B ∂B

wobei ∂B die in mathematisch positiver Richtung durchlaufene Randkurve von B ist.


Bemerkung. Der Integralsatz von Gauß in der Ebene wird oft auch als Integralsatz von Green
bezeichnet.
Bemerkung. Der äußere Normalenvektor an einen Punkt des Randes ∂B in einer Parametri-
sierung γ in mathematisch positiver Richtung ist senkrecht zum Geschwindigkeitsvektor (γ̇1 , γ̇2 )
und ergibt sich als n = (−γ̇2 , γ̇1 ). Betrachtet man statt des Vektorfelds F = (P, Q) das um π2
gedrehte Vektorfeld G = (−Q, P ), dann nimmt der Gaußsche Integralsatz in der Ebene die Form
Z Z
div G d(x, y) = hG, ni dσ
B ∂B

an. In dieser Form werden wir ihn auf höhere Dimensionen verallgemeinern. Die physikalische
Interpretation ist wie oben beim Hauptsatz der Differential- und Integralrechnung: Das Integral
über die Divergenz, also die Quellendichte, ist gleich dem Fluss durch den Rand.

Beweis. in Vorlesung

Bemerkung. Mit dem Beweis haben wir auch gezeigt, dass für eine stetig differenzierbare Funk-
tion g : D → R die Identitäten
Z Z b Z Z b
 
gy d(x, y) = − g x(t), y(t) ẋ(t) dt und gx d(x, y) = g x(t), y(t) ẏ(t) dt
B a B a
102


gelten, wobei t 7→ x(t), y(t) mit t ∈ [a, b] eine Parametrisierung von ∂B in mathematisch
positiver Richtung ist.
Bemerkung. Die Aussage des Integralsatzes von Gauß in der Ebene überträgt sich sofort auf
Gebiete B, die endliche Vereinigungen von Normalbereichen in beide Richtungen sind, wobei das
Innere zweier Teilbereiche jeweils disjunkt ist. Dies liegt an der Tatsache, dass beim Aufsummie-
ren der einzelnen Kurvenintegrale 2. Art die inneren gemeinsamen Randteile zweier Teilbereiche
einmal mit positivem und einmal mit negativem Vorzeichen auftreten.
Beispiel 11.58. Sei F (x, y) = P (x, y), Q(x, y) mit P (x, y) = xy und Q(x, y) = x2 − y 2 und


sei B = [0, 2] × [2, 5]. Offensichtlich ist B als Rechteck ein Normalbereich in beide Richtungen.
Dann erhalten wir für das Bereichsintegral
Z Z 2Z 5 Z 2
(Qx − Py ) d(x, y) = (2x − x) dy dx = 3 x dx = 6.
B 0 2 0
Damit haben wir nach dem Integralsatz von Gauß auch das Kurvenintegral 2. Art
Z
P dx + Q dy = 6
∂B
viel einfacher als direkt berechnet.
Beispiel 11.59. Sei F (x, y) = P (x, y), Q(x, y) mit P (x, y) = x4 − y 3 und Q(x, y) = x3 − y 4


und sei B der Einheitskreis im R2 . Offensichtlich ist B ein Normalbereich in beide Richtungen.
Dann erhalten wir für das Bereichsintegral
Z Z
(Qx − Py ) d(x, y) = 3 (x2 + y 2 ) d(x, y).
B B
Dieses Integral läßt sich leicht mittels Polarkoordinaten als
Z Z 1 Z 2π
2 2 3π
3 (x + y ) d(x, y) = 3 r3 dϕ dr =
B 0 0 2
berechnen. Damit haben wir nach dem Integralsatz von Gauß auch das Kurvenintegral 2. Art
Z

P dx + Q dy =
∂B 2
berechnet.
Beispiel 11.60. Den Gaußschen Integralsatz kann man auch zur Berechnung  von Flächeninhal-
ten benutzen. Betrachtet man das Vektorfeld F (x, y) = P (x, y), Q(x, y) mit P (x, y) = 0 und
Q(x, y) = x, dann liefert der Satz wegen
Z Z
I(B) = 1 d(x, y) = (Qx − Py ) d(x, y)
B B
die Inhaltsformel Z
I(B) = x dy.
∂B

Analog erhält man durch Betrachtung des Vektorfeldes F (x, y) = P (x, y), Q(x, y) mit P (x, y) =
−y und Q(x, y) = 0 die Formel Z
I(B) = (−y) dx.
∂B
So lässt sich zum Beispiel der Flächeninhalt einer Ellipse E mit den Halbachsen a, b > 0 mittels
der Parametrisierung t 7→ (a cos t, b sin t) des Randes ∂E leicht berechnen als Kurvenintegral 2.
Art Z Z 2π Z 2π
I(E) = x dy = (a cos t)(b cos t) dt = ab cos2 t dt = abπ.
∂E 0 0
103

11.4.3 Der Integralsatz von Gauß im Raum

Der Integralsatz von Gauß im dreidimensionalen Raum hat die folgende einsichtige strömungsme-
chanische Interpretation: Ist B ein Bereich innerhalb einer strömenden Flüssigkeit mit durchlässi-
ger Oberfläche ∂B, so ist der Fluss durch die Oberfläche ∂B gleich dem Integral der Quellendichte
über B, also der in B pro Zeiteinheit durch Quellen entstehenden (und in Senken verschwinden-
den) Flüssigkeitsmenge. Gibt es in B keine Quellen oder Senken, so ist die Gesamtbilanz der ein-
und ausströmenden Flüssigkeit Null.
Dies können wir nun formalisieren als Gleichheit des Bereichsintegrals über die Divergenz mit
dem Oberflächenintegral 2. Art, das den Fluss durch die Oberfläche beschreibt.
Für die Formulierung wollen wir etwas abweichend von der bisherigen Sprechweise eine Menge
der Form
B := (x, y, z) ∈ R3 : (x, y) ∈ K, ϕ(x, y) ≤ y ≤ ψ(x, y)


mit einer Jordan-messbaren kompakten Menge K ⊂ R2 und stetig differenzierbaren ϕ, ψ : K → R


mit ϕ ≤ ψ einen Normalbereich in z-Richtung nennen.

Satz 11.61 (Integralsatz von Gauß im Raum). Sei D ⊆ R3 offen, sei B ⊆ D ein Normalbe-
reich in x-, y- und z-Richtung, dessen Rand ∂B eine stetig differenzierbare Parameterdarstellung
besitzt. Weiter sei F : D → R3 ein stetig differenzierbares Vektorfeld. Dann gilt
Z Z
div F d(x, y) = F · do,
B ∂B

wobei die Parametrisierung von ∂B so ist, dass der Normalenvektor n nach außen zeigt.

Beweis. Wir schreiben wieder F = (P, Q, R) und zeigen für einen Normalbereich in z-Richtung
die Identität Z Z
Rz d(x, y, z) = Rnz .
B ∂B
Die behauptete Identität folgt dann durch Addition dieser und der analogen Gleichungen
Z Z Z Z
Px d(x, y, z) = P nx und Qy d(x, y, z) = Qny ,
B ∂B B ∂B

die man erhält, wenn man B als Normalbereich in x- bzw. y-Richtung betrachtet.
Also sei
B := (x, y, z) ∈ R3 : (x, y) ∈ K, ϕ(x, y) ≤ y ≤ ψ(x, y)


als Normalbereich in z-Richtung geschrieben. Dann besteht der Rand ∂B aus einer explizit
durch ϕ parametrisierten Bodenfläche ∂1 , einer explizit durch ψ parametrisierten Deckelfläche ∂2
und einer vertikalen Mantelfläche ∂3 . Auf der vertikalen Mantelfläche ∂3 ist der Normalenvektor
orthogonal zur z-Achse, hier ist also nz = 0. Der äußere (nach unten zeigende) Normalenvektor
auf der Bodenfläche ist n = (ϕx , ϕy , −1) und somit nz = −1. Auf der Deckfläche ist n =
(−ψx , −ψy , +1) und somit nz = +1. Insgesamt ergibt sich
Z Z Z Z Z
 
Rnz = Rnz + Rnz = − R x, y, ϕ(x, y) d(x, y) + R x, y, ψ(x, y) d(x, y).
∂B ∂1 ∂2 K K
104

Andererseits erhält man aus dem Satz von Fubini und dem Hauptsatz der Differential- und
Integralrechnung
Z Z Z ψ(x,y)
Rz d(x, y, z) = Rz (x, y, z) dz d(x, y)
B K ϕ(x,y)
Z
  
= R x, y, ψ(x, y) − R x, y, ϕ(x, y) d(x, y)
K
R R
und folglich die behauptete Gleichheit B Rz d(x, y, z) = ∂B Rnz do.

Bemerkung. Der Integralsatz von Gauß wird auch als Divergenzsatz bezeichnet. Man kann
einen analogen Satz für beliebige Dimension d ≥ 1 zeigen. Auch der Integralsatz von Gauß in
der Ebene gehört in diese Familie. Seine Gestalt ist nur deshalb etwas anders, da das Vektorfeld
F bei der Definition des Kurvenintegrals 2. Art mit dem Tangentialvektor und nicht wie bei
Oberflächenintegralen 2. Art mit dem Normalenvektor skalar multipliziert wird.

Bemerkung. Wie beim Integralsatz von Gauß in der Ebene kann man die Gültigkeit des Satzes
im Raum (und im Rd ) auf Vereinigungen von Normalbereichen in jede Richtung erweitern. Damit
ist auch die Betrachtung von Gebieten mit Löchern möglich, allerdings muss man darauf achten,
dass der Normalenvektor immer nach außen gerichtet ist.

Beispiel 11.62. Wir wollen den Fluss des Vektorfeldes F (x, y, z) = (x, y, z) durch den Rand der
Einheitskugel B berechnen. Eine direkte Berechnung erfordert eine Parametrisierung der Kugel
zum Beispiel durch Kugelkoordinaten und einige Rechnung. Da div F = 3 und das Volumen von
B gleich 4π
3 ist, erhalten wir hingegen aus dem Integralsatz von Gauß sofort
Z Z
F · do = div F d(x, y) = 4π.
∂B B

Als Folgerung aus dem Integralsatz von Gauß wollen wir die Greenschen Formeln ableiten, die
damit ebenfalls in Rd für jede Dimension d ≥ 1 gelten. Diese sind nützlich in der Theorie partieller
Differentialgleichungen. Zur Formulierung benötigen wir den Laplace-Operator

∂2 ∂2
∆= + · · · +
∂ξ12 ∂ξd2

der einer Funktion f ∈ C 2 (D) mit offenem D ⊆ Rd die Funktion

∂2 ∂2
∆f = + · · · +
∂ξ12 ∂ξd2

zuordnet, also die Spur der Hesse-Matrix.

Satz 11.63 (Greensche Formeln). Sei D ⊆ Rd offen, sei B ⊆ D ein Bereich mit Rand ∂B,
für den der Gaußsche Integralsatz gilt. Weiter seien f, g ∈ C 2 (D). Dann gelten die 1. Greensche
Formel Z  Z
 dg
f ∆g + h∇f, ∇gi dx = f dσ
B ∂B dn
und die zweite Greensche Formel
Z  Z  
 dg df
f ∆g − g∆f dx = f −g dσ
B ∂B dn dn
105

Beweis. Die 2. Greensche Formel folgt, indem man die 1. Greenschen Formeln für f, g und g, f
voneinander subtrahiert.
Zum Beweis der 1. Greenschen Formel wenden wir den Gaußschen Integralsatz auf das Vektorfeld
F = f ∇g an. Wegen
d ∂g d d
X ∂(f ∂ξ ) i
X ∂ 2 g X ∂f ∂g
div F = = f 2+ = f ∆g + h∇f, ∇gi
∂ξi ∂ξi ∂ξi ∂ξi
i=1 i=1 i=1

und
 dg
F · n = f ∇g · n = f
dn
liefert dieser gerade die 1. Greensche Formel.

11.4.4 Der Integralsatz von Stokes

Der Integralsatz von Stokes besagt, dass ein Oberflächenintegral 2. Art über die Rotation eines
Vektorfeldes in ein geschlossenes Kurvenintegral über die Tangentialkomponente des Vektorfel-
des umgewandelt werden kann. Dies ist hilfreich, da das Kurvenintegral das Vektorfeld allein
enthält und in der Regel einfacher zu berechnen ist als Flächenintegrale, insbesondere wenn die
betrachtete Fläche gekrümmt ist.
Ein einfacher Fall ist äquivalent zum Integralsatz von Gauß in der Ebene. Dazu fassen wir ein
Gebiet B ⊂ R2 als Fläche S im R3 mit Parameterdarstellung (x, y, 0) für (x, y) ∈ K auf. Der
Rand von B = S sei dabei eine geschlossene Jordan-Kurve ∂B = ∂S. Der Normalenvektor ist
dann konstant n = (0, 0, 1). Weiter betrachten wir auch das zweidimensionale Vektorfeld (P, Q)
als dreidimensionales Vektorfeld F = (P, Q, R) mit R = 0. Dann ist rot F = (0, 0, Qx − Py ) und
folglich rot f · n = Qx − Py . Der Gaußsche Integralsatz in der Ebene
Z Z
(Qx − Py ) d(x, y) = P dx + Q dy
B ∂B

lässt sich also äquivalent schreiben als


Z Z
rot f · do = F · d(x, y, z).
S ∂S

Der Integralsatz von Stokes besagt nun, dass diese Identität für allgemeine Flächen S im R3 und
Vektorfelder F = (P, Q, R) gilt.
Dazu wollen wir zunächst die Voraussetzungen an die Fläche S zusammenfassen. Zunächst soll
es eine zweimal stetig differenzierbare Parametrisierung Φ : K → R3 von S geben, für die K ⊂
D ⊆ R2 ein in der offenen Menge D enthaltener Normalbereich ist. Die Randkurve C = ∂K habe
eine stückweise stetig differenzierbare Parameterdarstellung γ : [a, b] → R2 . Dann bezeichnen wir
mit ∂S die durch Φ ◦ γ parametrisierte Randkurve von S im R3 . Die Orientierung der Randkurve
und der Normalenvektor von S müssen hierbei so abgestimmt sein, dass beim Umlaufen der
Randkurve, wobei man sich im Sinne der Normalen oben auf der Fläche befindet, die Fläche
links liegt.

Satz 11.64 (Satz von Stokes). In der beschriebenen Situation gilt für jedes stetig differenzierbare
Vektorfeld F : D → R3 die Identität
Z Z
rot F · do = F · d(x, y, z).
S ∂S
106


Beweis. Wir setzen wieder F = (P, Q, R) und Φ(s, t) = x(s, t), y(s, t), z(s, t) . Dann ist

rot F = (Ry − Qz , Pz − Rx , Qx − Py )

und der Normalenvektor ist

n = (nx , ny , nz ) = (xu , yu , zu ) × (xv , yv , zv ) = (yu zv − zu yv , zu xv − xu zv , xu yv − yu xv ).

Bei den folgenden Rechnungen lassen wir zu Gunsten der Übersichtlichkeit die Argumente der
Funktionen oft weg. Überlegen Sie sich an jeder Stelle, welche das sind!
R
Wir berechnen zunächst ∂S P dx. Nach Definition des Kurvenintegrals 2. Art ist
Z Z b  d
Z b 
Z
P dx = P Φ(γ(t)) x(γ(t)) dt = (P xu )γ̇1 +(P xv )γ̇2 dt = (P xu )du+(P xv )dv.
∂S a dt a ∂K

Damit haben wir das dreidimensionale Kurvenintegral über ∂S in ein zweidimensionales Kur-
venintegral über ∂K umgewandelt und können den zweidimensionalen Integralsatz von Gauß
anwenden. Wir erhalten
Z Z
 
P dx = (P xv )u − (P xu )v d(u, v).
∂S K

Wenden wir nun die Produkregel an und beachten, dass nach dem Satz von Schwarz xuv = xvu
ist, so bekommen wir
Z Z  
∂P (Φ(u, v)) ∂(Φ(u, v))
P dx = xv − xu d(u, v).
∂S K ∂u ∂v

Jetzt kommt die Kettenregel zum Zuge und liefert


Z Z
P dx = [xv (Px xu + Py yu + Pz zu ) − xu (Px xv + Py yv + Pz zv )] d(u, v).
∂S K

Buchhalterisch zusammenfassen ergibt


Z Z Z
P dx = [Py (xv yu − xu yv ) + Pz (xv zu − xu zv )] d(u, v) = [−Py nz + Pz ny ] d(u, v).
∂S K K

Ganz analog erhält man die Identitäten


Z Z Z Z
Q dy = [Qx nz − Qz nx ] d(u, v) und R dz = [−Rx ny + Ry nx ] d(u, v).
∂S K ∂S K

Durch Addition dieser drei Identitäten gelangen wir schließlich zu


Z Z
P dx + Q dy + R dz = [(Qx − Py )nz + (Pz − Rx )ny + (Ry − Qz )nx ] d(u, v),
∂S K

was nach Definition der Integrale und der Rotation


Z Z Z
F · d(x, y, z) = rot F · n d(u, v) = rot F · do
∂S K S

liefert und den Beweis beendet.


107

Beispiel 11.65. Sei S die Halbkugel

S = (x, y, z) ∈ R3 : x2 + y 2 + z 2 = 4, z ≥ 0 .


Als Parameterbereich wählen wir den Kreis K =p {(x, y) ∈ R2 : x2 + y 2 ≤ 4} und benutzen


die explizite Darstellung von S mittels z(x, y) = 4 − x2 − y 2 . Das Vektorfeld F = (P, Q, R)
sei gegeben durch P (x, y, z) = −y, Q(x, y, z) = x, R(x, y, z) = 1. Dann ist ∂S der Kreis in
der (x, y)-Ebene um den Ursprung mit Radius 2, den wir parametrisieren können durch γ(t) =
(2 cos t, 2 sin t, 0) mit t ∈ [0, 2π]. Dann gilt
Z Z Z 2π Z 2π
2 2
F · d(x, y, z) = P dx + Q dy + R dz = (4 sin t + 4 cos t) dt = 4 dt = 8π.
∂S ∂S 0 0

Der Satz von Stokes besagt nun, dass auch


Z
rot F · do = 8π
S

ist, was wir noch direkt nachrechnen wollen. Wir erhalten rot F = (0, 0, 2). Für die explizite
Darstellung von S erhalten wir den Normalenvektor n = (−zx , −zy , 1) und damit rot F · n = 2.
Also ist tatsächlich Z Z
rot F · do = 2 d(x, y) = 8π.
S K