Sie sind auf Seite 1von 174

Numerische Mathematik II

Günter Bärwolff
15. März 2010

Skript, geschrieben parallel zur Vorlesung Numerische Mathematik im


WS2009/10 an der TU Berlin,
Stand nach Berücksichtigung der Korrekturhinweise von K. Peisert und A.
Heydt

i
Inhaltsverzeichnis

0 Vorwort 1

1 Numerische Lösung von AWPs gewöhnlicher Dgln. 2


1.1 Methoden zur geschlossenen Lösung von Dgln. . . . . . . . . . 3
1.1.1 Trennung der Veränderlichen . . . . . . . . . . . . . . . 3
1.1.2 Variation der Konstanten . . . . . . . . . . . . . . . . 4
1.1.3 Homogene Systeme mit konstanten Koeffizienten . . . . 5
1.1.4 Existenz- und Eindeutigkeitsaussagen . . . . . . . . . . 7
1.2 Theorie der Einschrittverfahren . . . . . . . . . . . . . . . . . 10
1.3 Spezielle Einschrittverfahren . . . . . . . . . . . . . . . . . . . 14
1.3.1 Euler-Verfahren . . . . . . . . . . . . . . . . . . . . . . 14
1.3.2 Einschrittverfahren der Konsistenzordnung p = 2 . . . 15
1.4 Verfahren höherer Ordnung . . . . . . . . . . . . . . . . . . . 16
1.4.1 Mehrstufige Runge-Kutta-Verfahren . . . . . . . . . . . 16
1.5 Einige konkrete Runge-Kutta-Verfahren und deren Butcher-Tabellen 20
1.6 Asymptotische Entwicklungen . . . . . . . . . . . . . . . . . . 23
1.7 Schrittweitensteuerung . . . . . . . . . . . . . . . . . . . . . . 33
1.7.1 Einbettungsverfahren . . . . . . . . . . . . . . . . . . . 33
1.7.2 Schrittweitensteuerung durch Extrapolation . . . . . . 35
1.8 Mehrschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . 37
1.8.1 Technische Hilfsmittel zur Konstruktionvon linearen Mehrschrittverfahren 43
1.8.2 Adams-Verfahren . . . . . . . . . . . . . . . . . . . . . 46
1.8.3 Konsistenzordnung linearer Mehrschrittverfahren . . . 51
1.8.4 Stabilität von Lösungsverfahren . . . . . . . . . . . . . 55
1.8.5 BDF-Verfahren . . . . . . . . . . . . . . . . . . . . . . 60
1.9 Steife Differentialgleichungen . . . . . . . . . . . . . . . . . . . 63
1.10 Weitere klassische lineare Mehrschrittverfahren . . . . . . . . . 68

2 Zweipunkt-Randwertaufgaben 70
2.1 Theoretische Grundlagen . . . . . . . . . . . . . . . . . . . . . 70
2.1.1 Einführendes Beispiel und Definitionen . . . . . . . . . 70

ii
2.1.2 Lösbarkeit des 1. RWP im symmetrischen Fall . . . . . 72
2.1.3 Maximum-Prinzip für lineare RWP . . . . . . . . . . . 74
2.2 Finite- Differenzen- Verfahren . . . . . . . . . . . . . . . . . . 77
2.2.1 Definition der klassischen FDM . . . . . . . . . . . . . 77
2.2.2 Lösung des diskreten Problems . . . . . . . . . . . . . 78
2.2.3 Stabilitäts- und Konvergenzanalyse . . . . . . . . . . . 80
2.3 Ritz-Galerkin-Verfahren für RWP . . . . . . . . . . . . . . . . 86
2.3.1 Variationsgleichungen . . . . . . . . . . . . . . . . . . . 86
2.3.2 Verallgemeinerte Ableitungen . . . . . . . . . . . . . . 88
2.3.3 Ritz-Galerkin-Verfahren . . . . . . . . . . . . . . . . . 91
2.3.4 Finite-Element-Methode für Zweipunkt-RWP . . . . . 94
2.3.5 Weitere mögliche Basisfunktionen . . . . . . . . . . . . 98
2.4 Kollokationsverfahren . . . . . . . . . . . . . . . . . . . . . . . 99
2.5 Schießverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 101
2.5.1 Das einfache Schießverfahren für skalare Gleichungen . 101
2.5.2 Schießverfahren für Dgl.-Systeme . . . . . . . . . . . . 104
2.5.3 Schießverfahren für lineare Randwertaufgaben . . . . . 105
2.5.4 Mehrzielverfahren (linearer Fall) . . . . . . . . . . . . . 108
2.5.5 Mehrzielverfahren (allgemeiner Fall) . . . . . . . . . . . 110

3 Partielle Differentialgleichungen und deren numerische Lösung112


3.1 Beispiele partieller Differentialgleichungen der math. Physik . 112
3.2 Numerische Lösungsmethoden für part. Dgln. . . . . . . . . . 118
3.2.1 Finite-Differenzen-Methoden . . . . . . . . . . . . . . . 118
3.2.2 Finite-Volumen-Methode . . . . . . . . . . . . . . . . . 129

4 Matrix-Eigenwertprobleme 139
4.1 Problembeschreibung und algebraische Grundlagen . . . . . . 139
4.2 Abschätzungen und Lokalisierung von Eigenwerten . . . . . . 143
4.3 Numerische Methoden zur Eigenwertberechnung . . . . . . . . 149
4.3.1 Transformation auf Hessenberg- bzw. Tridiagonalform . 149
4.3.2 Newton-Verfahren zur Berechnung von Eigenwerten von Hessenberg-Matrizen15
4.3.3 Das Newtonverfahren für tridiagonale Matrizen . . . . 153
4.3.4 Jacobi-Verfahren zur Eigenwertberechnung . . . . . . . 154
4.3.5 Von-Mises-Vektoriteration . . . . . . . . . . . . . . . . 159
4.3.6 QR-Verfahren . . . . . . . . . . . . . . . . . . . . . . . 164

iii
Kapitel 0

Vorwort

Diese Skript entsteht parallel zur Vorlesung im Wintersemester 2009/10 und


enthält die wesentlichen Inhalte wie z.B. alle Definitionen und Sätze, wobei
bei den Beweisen in der Regel nur Verweise auf Textbücher oder Beweisskiz-
zen angegeben werden. Als Lehrbücher seien z.B.

• Robert Plato: Numerische Mathematik kompakt. Grundlagenwissen für


Studium und Praxis

• Stoer/Bulirsch: Numerische Mathematik 1/2

• Deuflhard/Hohmann/Bornemann: Numerische Mathematik 1/2

• Hans R. Schwarz, Norbert Köckler: Numerische Mathematik

• Günter Bärwollf: Numerik für Ingenieure, Physiker und Informatiker

• Walter Oevel: Einführung in die numerische Mathematik

empfohlen.

1
Kapitel 1

Numerische Lösung von AWPs


gewöhnlicher Dgln.
1. Vor-
Im Ergebnis mathematischer Modellierungen entstehen oft Differentialglei- lesung
chungen, die nicht geschlossen lösbar sind. Z.B. erhält man Dgln. der Form am
13.10.2009
ẋ = αx − βxy
(1.1)
ẏ = γxy − δy

wobei x(t) z.B. eine ”Beutepopulation” und y(t) eine ”Räuberpopulation”


beschreiben (α, β, γ, δ > 0, reelle Konstanten). Mit vorgegebenen Anfangs-
werten, z.B.
x(0) = x0 , y(0) = y0 (1.2)
hat man mit (1.1), (1.2) ein Anfangswertproblem mit einem System von Dgln.
1. Ordnung gegeben, dass nur numerisch lösbar ist.
Als weitere Beispiele von AWP seien hier mathematische Modelle für den
radioaktiven Zerfall
dm
= −k(t) m , m(t0 ) = m0 ∈ R ,
dt
wobei k(t) eine positive vorgegebene Funktion ist, bzw. das Modell für die
Abkühlung eines ”idealen” Körpers
dT
= −k(T − Tu ) , T (t0 ) = T0 ∈ R ,
dt
mit einer positiven reellen Konstanten k und der Umgebungstemperatur Tu
genannt.

2
1.1 Methoden zur geschlossenen Lösung von
Dgln.
Bevor man numerische Methoden zur Lösung von Dgln. bemüht, sollte man
gegebenenfalls prüfen, ob eine Lösung auf analytischem Weg bestimmt wer-
den kann. Im Folgenden sollen einige wichtige Methoden der geschlossenen
Lösung von gewöhnlichen Dgln. kurz dargestellt werden.

1.1.1 Trennung der Veränderlichen


Hat man eine homogene Dgl. der Form
y ′ = g(y)h(t) (1.3)
zu lösen, dann kann man unter der Voraussetzung, dass g(y) 6= 0 ist, unter
Nutzung der Substitutionsregel den folgenden Lösungsweg beschreiben:
Z Z
y′ dy
= h(t) =⇒ = h(t) dt =⇒ G(y) = H(t) + c ,
g(y) g(y)
wobei hier davon ausgegangen wurde, dass mit G(y) und H(t) Stammfunk-
1
tionen von g(y) und h(t) vorliegen. Vorausgesetzt, dass der Teil des Definiti-
onsbereiches von G(y), auf dem G injektiv ist, nichtleer ist, kann man mit
y(t) = G−1 [H(t) + c]
die allgemeine Lösung der Differentialgleichung bestimmen. c ist hierbei eine
freie Konstante, die man bei Vorgabe einer Anfangsbedingung y(t0 ) = y0
durch
c = G(y0 ) − H(t0 )
bestimmen kann. Als Beispiel betrachten wir das AWP
2ty
y′ = , y(0) = 1 .
t2 + 1
Nach Trennung der Veränderlichen y und t erhält man
Z Z
y′ 2t dy 2t
= 2 =⇒ = 2
dt =⇒ ln |y| = ln(1 + t2 ) + c ,
y t +1 y t +1
und nach Integration erhält man
y(t) = ± exp(c)(1 + t2 ) =: c∗ (1 + t2 )
und die Berücksichtigung des AWs ergibt mit c∗ = 1 die Lösung des AWPs
y(t) = 1 + t2 .

3
1.1.2 Variation der Konstanten
Hat man es mit einer linearen Differentialgleichung der Form

y ′ + a(t)y = f (t) (1.4)

zu tun, dann gehen wir nun davon aus, dass man mit der Methode der Tren-
nung der Veränderlichen die allgemeine Lösung yh (t) der zugehörigen homo-
genen Dgl. y ′ + a(t)y = 0 bestimmt hat. Mit yh ist auch c yh eine Lösung der
homogenen Dgl. y ′ + a(t)y = 0 und durch den Ansatz der Variation der
Konstanten
yp (t) = c(t)yh (t)
kann nun eine partikuläre Lösung yp der Dgl. (1.4) bestimmt werden. Mit

yp′ (t) = c′ (t)yh (t) + c(t)yh′ (t)

erhält man durch Einsetzen in (1.4)

c′ (t)yh (t) + c(t)yh′ (t) + a(t)c(t)yh (t) =


c′ (t)yh (t) + c(t)[yh′ (t) + a(t)yh (t)] = c′ (t)yh (t) = f (t) ,

da yh Lösung der homogenen Dgl. ist. Unter der Voraussetzung, dass yh 6= 0


gilt, erhält man mit Z
f (t)
c(t) = dt
yh (t)
die ”variierte” Konstante und erhält schließlich mit

y(t) = c0 yh (t) + yp (t) , c0 ∈ R ,

die allgemeine Lösung der Dgl. (1.4). Die freie Konstante c0 erlaubt die
Erfüllung einer Anfangsbedingung.
Hat man die mit
yh (t) = c1 y1 (t) + · · · + cn yn (t)
die allgemeine Lösung des linearen homogenen Dgl.-Systems 1. Ordnung

y′ = A(t)y , (1.5)

wobei A(t) eine (n × n)-Matrix stetiger Koeffizientenfunktionen ist, gegeben,


dann kann man für das lineare inhomogene Dgl.-System

y′ = A(t)y + f (t)

4
ebenfalls durch Variation der Konstanten eine partikuläre Lösung bestim-
men. Der Ansatz

yp (t) = c1 (t)y1 (t) + · · · + cn (t)yn (t) =: W (t)c(t)

ergibt nach Differentiation

yp′ (t) = W ′ (t)c(t) + W (t)c′ (t) = A(t)W (t) + f (t) =⇒ W (t)c′ (t) = f (t) ,

da die Spalten yk der Matrix W (t) Lösungen des homogenen Systems sind.
Bilden yk , k = 1, . . . , n, eine Lösungsbasis, handelt es sich bei der Matrix W
um die Wronski-Matrix und man erhält nach Integration
Z
c(t) = W −1 (t)f (t) dt

mit
y(t) = c1 y1 (t) + · · · + cn yn (t) + W (t)c(t)
die allgemeine Lösung des linearen inhomogenen Dgl.-Systems (1.5) (W −1 (t)
existiert, da yk , k = 1, . . . , n, eine Lösungsbasis ist).

1.1.3 Homogene Systeme mit konstanten Koeffizien-


ten
Im vorigen Abschnitt wurde von einer allgemeinen Lösung eines homogenen
Dgl.-Systems 1. Ordnung ausgegangen. Im Allg. ist die Bestimmung einer
solchen allgemeinen Lösung nicht ohne Weiteres möglich. Recht einfach wird
es jedoch im Fall eines Systems mit konstanten Koeffizienten, d.h. Systemen
der Form
y′ = Ay , (1.6)
mit einer konstanten (n × n)-Matrix. Besonders einfach wird es, wenn die
Matrix A diagonalisierbar ist, d.h. in der Form

A = BΛB −1

mit einer Diagonalmatrix Λ darstellbar ist. Die Spalten von B bestehen dabei
aus den Eigenvektoren von A und die Diagonalmatrix Λ enthält die Eigen-
werte λk , wobei auch mehrfache EW möglich sind, bei denen allerdings die
algebraische und geometrische Vielfachheit im Falle der Diagonalisierbarkeit
übereinstimmt. Mit der Hilfsfunktion z = B −1 y erhält man aus (1.5)

y′ = BΛB −1 y =⇒ z′ = Λz

5
mit den Lösungen
zk (t) = ck eλk t , k = 1, . . . , n, ck ∈ R,
für die einzelnen Komponenten von z. Für die allgemeine Lösung von (1.5)
erhält man schließlich
y(t) = c1 eλ1 t b1 + · · · + cn eλn t bn .
Die Lösung von (1.5) ist also gleichbedeutend mit der Lösung des Eigenwert-
problems für die Matrix A.
Etwas komplizierter ist der allgemeine Fall einer Matrix A, die nicht dia-
gonalisierbar ist. Hier wird die Jordansche Normalform benötigt, d.h. eine
reguläre Matrix B und eine Matrix D (Jordansche Normalform)
 
  λi 1
J1
 ... 

 λi 1 

D=  , Ji =  . .  ,
 0 . 1 
Jk
λi
mit den (ni × ni )-Jordan-Kästchen Ji , so dass
A = BDB −1 ⇐⇒ B −1 AB = D
gilt. Wie oben führen wir die Hilfsfunktion z = B −1 y ein, wobei
z(t) = (z (1) (t), . . . , z (k) (t))T
mit z (i) (t) ∈ Rni partitioniert ist. Das Gleichungssystem (1.6) lässt sich zer-
legen in die separaten Systeme
[z (i) (t)]′ = Ji z (i) (t) , 1 ≤ i ≤ k .
Es ist nun leicht festzustellen, dass das Gleichungssystem
 
λ 1

 λ 1 
 ∈ Rs×s ,
 
w = Jw , J =  . .
 0 . 1 
λ
also
w1′ = λw1 + w2
..
.

ws−1 = λws−1 + ws

ws = λws

6
die allgemeine Lösung
ws (t) = cs eλt
ws−1 (t) = (cs−1 + cs t)eλt
..
. (1.7)
s−1
cs t
w1 (t) = (c1 + c2 t + · · · + eλt
(s − 1)!
hat. Die allgemeine Gestalt von z (i) entnimmt man jeweils aus (1.7) für λ = λi
und s = ni . Mit y = Bz erhält man schließlich die allgemeine Lösung des
ursprünglichen Problems.
Alles in allem lässt sich die Lösung eines linearen homogenen Dgl.-Systems
mit konstanten Koeffizienten auf die Lösung eines EW-Problems der Koeffizi-
entenmatrix oder allgemeiner auf die Bestimmung der Jordanschen Normal-
form der Koeffizientenmatrix A zurückführen (die Bestimmung der Jordan-
schen Normalform fällt mit der Diagonalisierung zusammen, wenn bei allen
EW von A die algebraische mit der geometrischen Vielfachheit übereinstimmt).

1.1.4 Existenz- und Eindeutigkeitsaussagen


2. Vor-
Wenn man Lösungen nicht wie in den diskutierten Fällen ”ausrechnen” kann, lesung
dann sollte vor einer evtl. numerischen Lösung klar sein, ob überhaupt eine am
Lösung existiert, und wenn ja, ob es die einzige ist. 14.10.2009
Im Folgenden werden die wichtigsten Aussagen zur Existenz und Einzigkeit
der Lösung von Anfangswertproblemen der Form
y ′ = f (t, y) , y(t0 ) = y0 , (1.8)
Die wichtigsten Anforderungen an die Funktion
f : [t0 , T ] × Rn → Rn
sollen an Beispielen herausgearbeitet werden.
Betrachtet man die Dgl.
y ′ = sgn(t) ,
d.h. man hat als rechte Seite eine unstetige Funktion, dann gibt es in jedem
Intervall, das Null enthält, keine Lösung, denn für t > 0 hätte man mit
y(t) = t und für t < 0 mit y(t) = −t eine Lösung, und das ergibt eine
Funktion, die an der Stelle t = 0 nicht diff’bar ist, was aber für eine Lösung
einer Dgl. zutreffen sollte. Damit ist die Stetigkeit zumindest eine notwendige
Voraussetzung für die Existenz einer Lösung. Diesen Sachverhalt beschreibt
der

7
Satz 1.1 (Peano). Für das AWP (1.8) sei f : Za,b → Rn stetig auf

Za,b := [t0 − a, t0 + a] × Ūbn (y0 )

(mit Ūbn (y0 ) = {y ∈ Rn | ||y − y0 || ≤ b}, a, b > 0). Dann existiert mindestens
eine Lösung des AWPs (1.8) auf dem Intervall [t0 − α, t0 + α], wobei
b
α := min{a, }, M := max{||f (t, y)|| | (t, y) ∈ Za,b } .
M
Dieser Satz wird auch Existenzsatz von Peano genannt. Der Beweis wird
unter Zuhilfenahme von Euler-Polygonen, die uns spaeter bei der numeri-
schen Lösung von AWPs begegnen werden, unter wesentlicher Nutzung der
Stetigkeitsvoraussetzung geführt.
Aber nicht hier. Zum Nachlesen sei z.B. auf das Buch von B. Aulbach ”Gew.
Dgln.” verwiesen.
Nach dem Satz von Peano existiert also bei Stetigkeit der rechten Seite ein
Lösung. Wir werden aber mit dem folgenden Beispiel sehen, dass die Stetig-
keit keine Eindeutigkeit garantiert.
Wir betrachten das Beispiel
p
y ′ = 3 y 2 , y(0) = 0 .

Mit der Trennung der Veränderlichen findet man die allgemeine Lösung der
Form
1
y(t) = (t − c)3
27
mit c ∈ R. Als Lösungen des AWPs findet man mit
 1
 27 (t − α)3 , t ≤ α
yα,β (t) = 0 , t=0 ,
 1 3
27
(t − β) , t≥β

wobei α ≤ 0 ≤ β beliebige reelle Zahlen sind. Man findet p damit unendlich


viele Lösungen des AWPs. Die rechte Seite f (t, y) = 3 y 2 ist offensichtlich
stetig. Allerdings ist die rechte Seite in der Nähe von y = 0 nicht Lipschitz-
stetig. Grob gesprochen liegt das daran, dass die Ableitung fy (t, y) = 3y21/3
für kleine y groß wird, d.h. man findet keine Lipschitz-Konstante L, so dass

|f (t, y1 ) − f (t, y2 )| ≤ L|y1 − y2 |

für alle t und y1 , y2 ∈ R gilt. Im folgenden Satz von Picard-Lindelöf wird ge-
zeigt, dass im Falle der Lipschitz-Stetigkeit von f bezügl. y die Eindeutigkeit
einer Lösung gesichert ist.

8
Satz 1.2 (Picard-Lindelöf). Für das AWP (1.8) sei f : Za,b → Rn stetig auf

Za,b := [t0 − a, t0 + a] × Ūbn (y0 )

(mit Ūbn (y0 ) = {y ∈ Rn | ||y − y0 || ≤ b}, a, b > 0). Außerdem gebe es eine
Konstante L ≥ 0 mit der Eigenschaft

||f (t, y) − f (t, z)|| ≤ L||y − z|| für alle (t, y), (t, z) ∈ Za,b . (1.9)

Dann existiert genau eine Lösung des AWPs (1.8) auf dem Intervall [t0 −
α, t0 + α], wobei
b
α := min{a, }, M := max{||f (t, y)|| | (t, y) ∈ Za,b } .
M
Beweis. Im folgenden werden die wesentlichen Beweis-Schritte skizziert.
Schritt 1: Auf [t0 − α, t0 + α] wird die Folge der Picard-Iterierten

λ0 (t) := y0
Z t
λk+1 (t) := y0 + f (s, λk (s)) ds , k∈N (1.10)
t0

konstruiert, wobei mit dem Nachweis der Ungleichung

||λk (t) − y0 || ≤ b

und damit (s, λk (s)) ∈ Za,b , also im Def.-Bereich von f , die Konstruktion
gerechtfertigt wird.
2. Schritt: Mit vollst. Induktion wird für alle t ∈ [t0 − α, t0 + α] und alle
k ∈ N die Ungleichung
|t − t0 |k+1
||λk+1 (t) − λk (t)|| ≤ M Lk
(k + 1)!
gezeigt, wobei wesentlich die Voraussetzung (1.9) benutzt wird.
3. Schritt: Es wird die gleichmäßige Konvergenz der Funktionenfolge (λk (t))k∈N
auf dem Intervall [t0 − α, t0 + α] gezeigt. Die Grenzfunktion wird mit λ∞ (t)
bezeichnet.
4. Schritt: Es wird gezeigt, dass die Grenzfunktion λ∞ (t) Lösung des AWP
ist, d.h. dass Z t
λ∞ (t) = y0 + f (s, λ∞ (s)) ds
t0

gilt. Dazu wird gezeigt, dass mit (λk (t))k∈N auch f (t, λk (t))k∈N gleichmäßig
auf [t0 − α, t0 + α] konvergiert.

9
5. Schritt: Die Eindeutigkeit wird gezeigt, indem man annimmt, dass mit µ(t)
eine weitere Lösung des AWP existiert. Durch vollst. Induktion zeigt man,
dass
|t − t0 |k+1
||λk (t) − µ(t)|| ≤ M Lk
(k + 1)!
gilt, und damit mit dem Grenzübergang k → ∞ die Gleichheit von λ∞ (t)
und µ(t) gezeigt wird.
Aus dem Satz 1.2 folgt für jedes n ∈ N die folgende Fehlerabschätzung für
die Picard-Iterierten
αk+1
||λk (t) − λ∞ (t)|| ≤ M Lk (1.11)
(k + 1)!

für alle t ∈ [t0 − α, t0 + α].


Mit dem Satz von Picard-Lindelöf liegt somit nicht nur ein qualitatives Ergeb-
nis vor, sondern mit den Picard-Iterierten (1.10) ein Algorithmus zur Kon-
struktion von Näherungslösungen sowie mit (1.11) eine Fehlerabschätzung
(vorausgesetzt, man kann M und L quantifizieren).

1.2 Theorie der Einschrittverfahren


3. Vor-
Definition 1.3. Unter dem Richtungsfeld der Differentialgleichung lesung
am
y ′ = f (t, y) 20.10.2009

versteht man das Vektorfeld


 1


1+f 2 (t,y)
r(t, y) =  f (t,y)


1+f 2 (t,y)

d.h. das Vektorfeld der normierten Steigungen

Betrachtet man um einen beliebigen Punkt (t0 , y0 ) der (t, y)- Ebene, kann
man Lösungskurven y(t) durch diesen Punkt annähern:

Beispiel.  
√ 1
1+(y 2 +t2 )2
y ′ = y 2 + t2 , r(t, y) =  2 2 
√ y +t
1+(y 2 +t2 )2

10
(I) y ′ (t0 ) = y02 + t20 , (t0 = a entspricht Start in Anfangspunkt (a, y0 ))
t-Achse wird durch tk = t0 + hk äquidistant unterteilt

(II) mit dem Schritt von Punkt

(t0 , y0 ) zu (t0 + h, y0 + hy ′ (t0 )) =: (t1 , y1 )

bzw. allgemein vom Punkt

(tk , yk ) zu (tk + h, yk + hf (tk , yk )) =: (tk+1 , yk+1 )


b−a
erhält man mit h = N
nach m Schritten mit

y0 , y1 , . . . , yN

unter “günstigen” Umständen eine Approximation der Lösung y(t) an


den Stellen
a = t0 , t1 , . . . , tN = b

(III) D.h. man fährt das Richtungsfeld geeignet ab, um eine numerische
Lösung yk , k = 0, 1, . . . , N zu erhalten
Die Polygonzüge, die man beim durchlaufen des Richtungsfeldes erzeugt,
nennt man auch Eulerpolygone. Diese Polygonzüge finden z.B. Verwendung
bei dem Beweis des Existenzsatzes von Peano. Im Folgenden werden wir sie
aber auch bei den numerischen Lösungsverfahren für Anfangswertprobleme
(1.8) verwenden.
Definition 1.4. Ein Einschrittverfahren zur näherungsweisen Bestim-
mung einer Lösung des AWP (1.8) hat die Form

yk+1 = yk + hk Φ(tk , yk , yk+1 , hk ), k = 0, 1, . . . , N − 1 (1.12)

mit einer Verfahrensfunktion

Φ : [a, b] × R × R × R+ → R

und einem (noch nicht näher spezifizierten) Gitter bzw. Schrittweiten

∆ = {a = t0 < t1 < . . . < tN ≤ b}, hk := tk+1 − tk , k = 0, 1, . . . , N − 1


(1.13)
Bemerkung. Hängt die Verfahrensfunktion nicht von yk+1 ab, ist die Be-
rechnungsvorschrift (1.12) eine explizite Formel zur Berechnung von yk+1 und
man spricht von einem expliziten Einschrittverfahren.

11
Zur Klassifizierung und Bewertung von numerischen Lösungsverfahren für
AWP benötigen wir im Folgenden einige Begriffe (y(t) bezeichnet hier die
exakte Lösung).

Definition 1.5. Unter dem lokalen Diskretisierungsfehler an der Stelle


tk+1 des Verfahrens (1.12) versteht man den Wert

dk+1 := y(tk+1 ) − y(tk ) − hk Φ(tk , y(tk ), y(tk+1 ), hk ) (1.14)

Bemerkung 1.6. Benutzt man die Darstellung

yk+1 = y(tk ) + hk Φ(tk , y(tk ), y(tk+1 ), hk )

für die an der Stelle t = tk+1 berechnete Näherung mit einem Einschrittver-
fahren mit der Verfahrensfunktion Φ, dann kann man den lokalen Diskreti-
sierungsfehler auch in der Form

dk+1 := y(tk+1 ) − yk+1 (1.15)

darstellen. Da man tk+1 beliebig aus [a, b] durch die Wahl eines geeigneten
h wählen kann, kann man den lokalen Diskretisierungsfehler an der Stelle t
auch in der Form

τ (t, h) = y(t + h) − y(t) − hΦ(t, y(t), y(t + h), h)

aufschreiben.

Definition 1.7. Unter dem globalen Diskretisierungsfehler gk an der


Stelle tk versteht man den Wert

gk := y(tk ) − yk

Definition 1.8. Ein Einschrittverfahren (1.12) besitzt die Fehlerordnung


p, falls für seinen lokalen Diskretisierungsfehler dk die Abschätzungen

|dk | ≤ Chp+1
k , k = 1, . . . , N

max |dk | ≤ D = Chp+1 p+1


max = O(hmax ) (1.16)
1≤k≤N

mit einer Konstanten C >= und hmax = maxk=0,...,N −1 tk+1 − tk gilt. (Statt
Fehlerordnung verwendet man auch den Begriff Konsistenzordnung.) Ist p ≥
1, dann heißt das Verfahren konsistent.

12
Die Bedingungen

|Φ(t, u1 , u2 , h) − Φ(t, v1 , u2 , h)| ≤ L1 |u1 − v1 |


(1.17)
|Φ(t, u1 , u2 , h) − Φ(t, u1 , v2 , h)| ≤ L2 |u2 − v2 |

für t ∈ [a, b], 0 < h ≤ b − t, uj , vj ∈ R, mit positiven Konstanten L1 , L2


sind für die folgenden Konvergenzuntersuchungen von Einschrittverfahren
von Bedeutung
Satz 1.9. Ein Einschrittverfahren (1.12) zur Lösung des AWP (1.8) besitze
die Konsistenzordnung p ≥ 1 und die Verfahrensfunktion erfülle die Bedinung
(1.17). Dann liegt die Konvergenzordnung p vor, d.h. es gilt

max |yk − y(tk )| ≤ Khpmax


k=0,...,N

Mit einer Konstanten K, die vom Intervall [a, b], Konstanten C aus der
Abschätzung (1.16) und L1 , L1 aus (1.17) herrührt.
Bewiesen werden soll der Satz 1.9 für ein explizites Einschrittverfahren (Be-
weise von allgemeinen Einschrittverfahren in Bärwolff oder Schwarz).
Benötigt wird das
Lemma 1.10. Für Zahlen L > 0, ak ≥ 0, hk ≥ 0 und b ≥ 0 sei

ak+1 ≤ (1 + hk L)ak + hk b, k = 0, 1, . . . , N − 1

erfüllt. Dann gelten die Abschätzungen


k−1
eLtk − 1 X
ak ≤ b + eLtk a0 mit tk := hj (k = 0, . . . , N )
L j=0

Beweis. (vollständige Induktion)


Induktionsanfang ist für k = 0 offensichtlich gewährleistet. Der Schritt k →
k + 1 ergibt sich wie folgt:
µ Ltk ¶
e −1 Ltk
ak+1 ≤ (1 + hk L) b + e a0 + hk b
L
µ L(tk +hk ) ¶
e − 1 − hk L
≤ + hk b + eL(tk +hk ) a0
L
eLtk+1 − 1
= b + eLtk+1 a0
L

13
Beweis von Satz 1.9. Mit den Festlegungen
ek = yk − y(tk ), k = 0, 1, . . . , N
gilt für k = 0, 1, . . . , N − 1
y(tk+1 ) = y(tk ) + hk Φ(tk , y(tk ), hk ) − dk+1
yk+1 = yk + hk Φ(tk , yk , hk )
und damit
ek+1 = ek + hk (Φ(tk , yk , hk ) − Φ(tk , y(tk ), hk )) + dk+1
bzw.
|ek+1 | ≤ |ek | + hk |Φ(tk , yk , hk ) − Φ(tk , y(tk ), hk )| + |dk+1 |
≤ (1 + hk L1 ) |ek | + hk Chpmax
Die Abschätzung des Lemmas 1.10 liefert wegen e0 = 0 die Behauptung des
Satzes 1.9

1.3 Spezielle Einschrittverfahren


1.3.1 Euler-Verfahren
Mit der Verfahrensfunktion
Φ(t, y, hk ) = f (t, y)
erhält man mit
yk+1 = yk + hk f (tk , yk ), k = 0, . . . , N − 1 (1.18)
das Euler-Verfahren.
Für eine stetig partiell diff’bare Funktion f : [a, b]×R → R besitzt das Euler-
Verfahren die Konsistenzordnung p = 1, denn mit der Taylorentwicklung
h2 ′′
y(t + h) = y(t) + y ′ (t)h + y (ξ), ξ ∈ [a, b]
2
erhält man
h2k ′′
dk+1 = y(tk+1 ) − y(tk ) − hk f (tk , y(tk )) = y (ξ)
2
bzw.
1
|dk+1 | ≤ Ch2k mit C = max |y ′′ (ξ)|
2 ξ∈[a,b]

14
1.3.2 Einschrittverfahren der Konsistenzordnung p = 2
Um ein explizites Einschrittverfahren der Konsistenzordnung p = 2 zu erhal-
ten, machen wir den Ansatz
Φ(t, y, h) = a1 f (t, y)+a2 f (t+b1 h, y+b2 hf (t, y)), t ∈ [a, b], h ∈ [0, b−t], y ∈ R
(1.19)
mit noch festzulegenden Konstanten aj , bj ∈ R. Es gilt nun der
Satz 1.11. Ein Einschrittverfahren (1.12) mit einer Verfahrensfunktion der
Form (1.19) ist konsistent mit der Ordnung p = 2, falls f : [a, b] × R → R
zweimal stetig partiell diff ’bar ist und für die Koeffizienten
1 1
a1 + a2 = 1, a2 b 1 = , a2 b 2 = (1.20)
2 2
gilt.
Beweis. Taylorentwicklung von Φ(t, y(t), ·) im Punkt h = 0 und von der
Lösung y in t ergeben

Φ(t, y(t), h) = Φ(t, y(t), 0) + h (t, y(t), 0) + O(h2 )
dh µ
∂f
= (a1 + a2 )f (t, y(t)) + h a2 b1 (t, y(t))
∂t

∂f
+a2 b2 f (t, y(t)) (t, y(t)) + O(h2 )
∂y
h ∂f h ∂f
= f (t, y(t)) + (t, y(t)) + f (t, y(t)) (t, y(t)) + O(h2 )
2 ∂t 2 ∂y

h2
y(t + h) = y(t) + hy ′ (t) + y ′′ (t) + O(h3 )
· 2 ¸
h ′′
= y(t) + h f (t, y(t)) + y (t) + O(h3 )
2
· ½
h ∂f
= y(t) + h f (t, y(t)) + (t, y(t))
2 ∂t
¾¸
∂f
+f (t, y(t)) (t, y(t)) + O(h3 )
∂y
= y(t) + hΦ(t, y(t), h) + O(h3 )
und damit folgt
dk+1 = y(tk+1 ) − y(tk ) − hk Φ(tk , y(tk ), hk ) = O(h3k )
also p = 2

15
Mit der konkreten Wahl a1 = 0, a2 = 1, b1 = b2 = 21 erhält man mit
µ ¶
hk hk
yk+1 = yk + hk f tk + , yk + f (tk , yk ) , k = 0, . . . , N − 1 (1.21)
2 2
das modifizierte Euler-Verfahren (verbesserte Polygonzugmethode) mit
der Konsistenzordnung p = 2
Mit der Wahl a1 = a2 = 12 , b1 = b2 = 1 erhält man mit
hk
yk+1 = yk + [f (tk , yk ) + f (tk + hk , yk + hk f (tk , yk ))] , k = 0, . . . , N − 1
2
(1.22)
das Verfahren von Heun mit der Konsistenzordnung p = 2

1.4 Verfahren höherer Ordnung


1.4.1 Mehrstufige Runge-Kutta-Verfahren
Die bisher besprochenen Methoden (Euler, Heun) haben wir weitestgehend
intuitiv ermittelt. Um systematisch Einschrittverfahren höherer Ordnung zu
konstruieren, betrachten wir die zum AWP y ′ = f (t, y), y(a) = y0 äquivalente
Gleichung (nach Integration)
Z t
y(t) = y0 + f (s, y(s))ds (1.23)
a

bzw. für eine Diskretisierung des Intervalls [a, b]


Z tk+1
y(tk+1 ) = y(tk ) + f (s, y(s))ds (1.24)
tk

Das letzte Integral aus (1.24) approximieren wir durch eine Quadraturformel
Z tk+1
f (s, y(s))ds (1.25)
tk

wobei die sl zu einer Zerlegung von [tk , tk+1 ] gehören. (1.24) und (1.25) erge-
ben m
X
y(tk+1 ) ≈ y(tk ) + hk γl f (sl , y(sl )) (1.26)
l=1

wobei wir die Werte y(sl ) nicht kennen. Sie müssen näherungsweise aus y(tk )
bestimmt werden, damit (1.26) als Integrationsverfahren benutzt werden
kann.

16
1
Wählt man z.B. m = 2 und γ1 = γ2 = 2
sowie s1 = tk und s2 = tk+1 , dann
bedeutet (1.26)

hk
y(tk+1 ) ≈ y(tk ) + [f (tk , y(tk )) + f (tk+1 , y(tk+1 ))]
2
und mit der Approximation

y(tk+1 ) ≈ y(tk ) + hk f (tk , y(tk ))

ergibt sich mit


hk
y(tk+1 ) ≈ y(tk ) + [f (tk , y(tk )) + f (tk+1 , y(tk ) + hk f (tk , y(tk )))]
2
die Grundlage für das Verfahren von Heun.
Im Weiteren wollen wir mit yk die Verfahrenswerte zur Näherung der exakten
Werte y(tk ) bezeichnen und als Näherungen von f (sl , y(sl ))

f (sl , y(sl )) ≈ kl (tj , yj )

verwenden. Mit 4. Vor-


l−1
X lesung
sl = tk + αl hk , αl = βlr
am
r=1
21.10.2009
werden die kl rekursiv definiert:

k1 (tk , yk ) = f (tk , yk )
k2 (tk , yk ) = f (tk + α2 hk , yk + hk β21 k1 (tk , yk ))
k3 (tk , yk ) = f (tk + α3 hk , yk + hk (β31 k1 + β32 k2 )) (1.27)
..
.
km (tk , yk ) = f (tk + αm hk , yk + hk (βm1 k1 + · · · + βmm−1 km−1 ))

Ausgehend von (1.26) und (1.27) wird durch

yk+1 = yk + hk (γ1 k1 (tk , yk ) + · · · + γm km (tk , yk )) (1.28)

ein explizites numerisches Verfahren zu Lösung des AWP y ′ = f (t, y), y(a) =
y0 definiert.

Definition 1.12. Das Verfahren (1.28) heißt m-stufiges Runge-Kutta-


Verfahren mit kl aus (1.27) und die kl heißen Stufenwerte.

17
Bemerkung. Wir haben oben schon festgestellt, dass im Fall m = 2 mit
γ1 = γ2 = 21 , α2 = 1, β21 = 1 (1.28) gerade das Heun-Verfahren ergibt, also ein
Verfahren mit der Konsistenzordnung p = 2. Wir werden nun Bedingungen
für die freien Parameter im Verfahren (1.28) formulieren, sodass einmal ein
konsistentes Verfahren (p ≥ 1) entsteht und andererseits eine möglichst große
Konsistenzordnung erhalten wird.

Aus der Verwendung der Quadraturformel


m
X Z tk+1
hk γl f (sl , y(sl )) ≈ f (s, y(s))ds
l=1 tk

folgt die sinnvolle Forderung

1 = γ1 + γ2 + · · · + γ m (1.29)

also haben die γl die Funktion von Gewichten.


Fordert man vom Verfahren (1.28), dass die Dgl y ′ = 1 (y linear) exakt
integriert wird, ergibt sich die Bedingung

αl = βl1 + · · · + βll−1 (1.30)

Es ist nämlich f (t, y) ≡ 1 und damit kl ≡ 1 für alle l. Ausgangspunkt war

kl (tk , yk ) ≈ f (sl , y(sl ))

und
kl ≈ f (tk + αl hk , y(tk ) + hk (βl1 k1 + · · · + βll−1 kl−1 ))
Also steht das y-Argument für y(sl ) = y(tk + αl hk ). Wir fordern, dass dies
bei f ≡ 1 exakt ist, also

y(sl ) = y(tk ) + hk (βl1 + · · · + βll−1 ) (1.31)

da alle kr = 1 sind. Andererseits ist y als exakte Lösung linear, d.h.

y(sl ) = y(tk ) + αl hk (1.32)

und aus dem Vergleich von (1.31),(1.32) folgt

αl = βl1 + · · · + βll−1

18
Definition 1.13. Die Tabelle mit den Koeffizienten αl , βlr , γr in der Form

0
α2 β21
α3 β31 β32
.. .. .. ... (1.33)
. . .
αm βm1 βm2 . . . βmm−1
γ1 γ2 . . . γm−1 γm

heißt Butcher-Tabelle und beschreibt das Verfahren (1.28). α1 ist hier


gleich 0, weil explizite Verfahren betrachtet werden.

Satz 1.14. Ein explizites Runge-Kutta-Verfahren (1.28), dessen Koeffizien-


ten die Bedingungen (1.29) und (1.30) erfüllen, ist konsistent.

Beweis. Es ist zu zeigen, dass der lokale Diskretisierungsfehler die Ordnung


O(hp+1
k ) mit p ≥ 1 hat. Wir setzen hk =: h, da k jetzt fixiert ist.

|dk+1 | = |y(tk+1 ) − y(tk ) − hΦ(tk , y(tk ), h)|


¯ m
¯
¯ X ¯
¯ ¯
= ¯y(tk+1 ) − y(tk ) − h γr kr (tk , y(tk ))¯
¯ r=1
¯
¯ m
¯
¯ X ¯
(1.29) ¯ ¯
= ¯y(tk+1 ) − y(tk ) − hf (tk , y(tk )) − h γr (kr (tk , y(tk )) − f (tk , y(tk )))¯
¯ r=1
¯
¯ ¯
¯ m ¯
¯X ¯
′ ¯ ¯
≤ |y(tk+1 ) − y(tk ) − hy (tk )| +h ¯ γr (kr (tk , y(tk )) − f (tk , y(tk )))¯
| {z } ¯ r=1 | {z }¯
∈O(h2 ) ¯ ∈O(h) (1.30) ¯

also
|dk+1 | ≤ Ch2

Bemerkung. Butcher hat bewiesen, wie groß die maximale Ordnung ist,
welche mit einem m-stufigen Runge-Kutta-Verfahren erreichbar ist, was in
der folgenden Tabelle notiert ist:

m 1 2 3 4 5 6 7 8 9 für m ≥ 9
p 1 2 3 4 4 5 6 6 7 p<m−2

19
1.5 Einige konkrete Runge-Kutta-Verfahren
und deren Butcher-Tabellen
(i) Euler-Verfahren
0
m = 1, γ1 = 1
1
yk+1 = yk + hk f (tk , yk ), p=1
(ii) Modifiziertes Euler-Verfahren
0
1 1 1 1
2 2 m = 2, γ1 = 0, γ2 = 1, α2 = , β21 =
2 2
0 1

k1 = f (tk , yk )
1 1
k2 = f (tk + hk , yk + hk k1 )
2 2
yk+1 = yk + hk k2 , p = 2

(iii) Verfahren von Runge von 3. Ordnung

0
1 1
2 2
1 0 1
0 0 1
1 1
m = 3, γ1 = γ2 = 0, γ3 = 1, α2 = , α3 = 1, β21 = , β31 = 0, β32 = 1
2 2
k1 = f (tk , yk )
1 1
k2 = f (tk + hk , yk + hk k1 )
2 2
k3 = f (tk + hk , yk + hk k2 )
yk+1 = yk + hk k3 , p = 3

(iv) Klassisches Runge-Kutta-Verfahren 4. Ordnung

0
1 1
2 2
1 1
2
0 2
1 0 0 1
1 1 1 1
6 3 3 6

20
k1 = f (tk , yk )
1 1
k2 = f (tk + hk , yk + hk k1 )
2 2
1 1
k3 = f (tk + hk , yk + hk k2 )
2 2
k4 = f (tk + hk , yk + hk k3 )
µ ¶
1 1 1 1
yk+1 = yk + hk k1 + k2 + k3 + k4 , p=4
6 3 3 6

Bemerkung. Die Ordnung eines konkreten Runge-Kutta-Verfahrens kann


mit Hilfe von Taylor-Entwicklungen ermittelt werden, wobei man dabei von
einer geeigneten Glattheit von f (t, y) ausgeht.

Im Folgenden soll die Ordnung eines 3-stufigen expliziten Runge-Kutta-Verfahrens


bestimmt werden.

Satz 1.15. Sei f dreimal stetig partiell diff ’bar und gelte für die Parameter

α2 = β21
α3 = β31 + β32
γ1 + γ2 + γ3 = 1

sowie
1
α2 γ2 + α3 γ3 =
2
1
α2 γ3 β32 =
6
1
α22 γ2 + α32 γ3 =
3
Dann hat das Runge-Kutta-Verfahren (explizit, 3-stufig) die Fehlerordnung
p=3

Beweis. Grundlage für den Beweis ist die Taylor-Approximation


µ ∂f ¶µ ¶
∂t
(t, y) ∆t
f (t + ∆t, y + ∆y) = f (t, y) + ∂f
(t, y) ∆y
à 2 2
!∂tµ ¶ (1.34)
∂ f ∂ f
1 ∂t2
(t, y) ∂t∂y (t, y) ∆t
+ (∆t, ∆y) 2
∂ f ∂2f + O(∆3 )
2 ∂y∂t
(t, y) ∂y 2
(t, y) ∆y

21
∂2f ∂2f
der Funktion f , wobei ∂t∂y
= ∂y∂t
aufgrund der Glattheit von f gilt. Mit

k̄1 = f (tk , y(tk ))


k̄2 = f (tk + α2 h, y(tk ) + α2 hk̄1 )
k̄3 = f (tk + α3 h, y(tk ) + h(β31 k̄1 + β32 k̄2 ))
gilt es, den lokalen Diskretisierungsfehler
dk+1 = y(tk+1 ) − y(tk ) − h(γ1 k̄1 + γ2 k̄2 + γ3 k̄3 )
abzuschätzen, wobei schon α2 = β21 verwendet wurde (h = hk ). Mit ∆t =
α2 h und ∆y = α2 hf (tk , y(tk )) ergibt (1.34) für k̄2
k̄2 = f (tk + ∆t, y(tk ) + ∆y)
1 1
= f + α2 hft + α2 hf fy + α22 h2 ftt + α22 h2 f fty + α22 h2 f 2 fyy + O(h3 )
2 2
1 2 2 3
=: f + α2 hF + α2 h G + O(h ) (1.35)
2
f, ft , . . . , fyy sind dabei die Funktions- bzw. Ableitunswerte an der Stelle
(tk , y(tk )). Für k̄3 erhält man unter Nutzung von (1.35) und (1.34)
k̄3 = f (tk + α3 h, y(tk ) + h(β31 k̄1 + β32 k̄2 ))
1
= f + α3 hft + h(β31 k̄1 + β32 k̄2 )fy + α32 h2 ftt
2
1
+ α3 (β31 k̄1 + β32 k̄2 )h2 fty + (β31 k̄1 + β32 k̄2 )2 h2 fyy + O(h3 )
2 ³
= f + h(α3 ft + [β31 + β32 ]f fy ) + h2 α2 β32 F fy
1 1 ´
+ α32 ftt + α3 [β31 + β32 ]f fty + (β31 + β32 )f 2 fyy + O(h3 )
2 2
1 2
= f + α3 hF + h (α2 β32 F fy + α3 G) + O(h3 )
2
(1.36)
2
Mit (1.35) und (1.36) folgt für den lokalen Diskretisierungsfehler
µ ¶
2 1
dk+1 = h(1 − γ1 − γ2 − γ3 )f + h − α2 γ2 − α3 γ3 F
2
µ· ¸ · ¸ ¶ (1.37)
3 1 1 1 2 1 2 4
+h − α2 γ3 β32 F fy + − α γ2 − α3 γ3 G + O(h )
6 6 2 2 2
Aufgrund der Voraussetzungen werden die Klammerausdrücke gleich Null
und es gilt
dk+1 = O(h4 )
also hat das Verfahren die Fehlerordnung p = 3

22
1.6 Asymptotische Entwicklungen
5. Vor-
Um zu einer Methode mit einer Fehlerordnung größer als 1 zu gelangen, lesung
nehmen wir an, mit dem expliziten Eulerverfahren seien bis zu einer gege- am
benen Stelle t = tk+1 zwei Integrationen durchgeführt worden, zuerst mit 27.10.2009
der Schrittweite h[0] = h und dann mit der Schrittweite h[1] = h2 . Für die
erhaltenen Werte yh[0] und yh[1] nach k bzw. 2k Integrationsschritten gilt
näherungsweise (wird weiter unten erläutert)

yh[0] = y(t) + c1 h[0] + O(h2 )


yh[1] = y(t) + c1 h[1] + O(h2 ) . (1.38)

Durch Linearkombination der beiden Beziehungen erhält man nach der so


genannten Richardson-Extrapolation den extrapolierten Wert

ỹ = 2yh[1] − yh[0] = y(t) + O(h2 ) , (1.39)

dessen Fehler gegenüber y(t) von zweiter Ordnung in h ist. Anstatt ei-
ne Differentialgleichung nach der Euler-Methode zweimal mit unterschied-
lichen Schrittweiten parallel zu integrieren, ist es besser, die Extrapolation
direkt auf die Werte anzuwenden, die einmal von einem Integrationsschritt
mit der Schrittweite h[1] und andererseits von einem Doppelschritt mit halber
Schrittweite h[2] stammen. In beiden Fällen startet man vom Näherungspunkt
(tk , yh (tk )).
Der Normalschritt mit der Euler-Methode mit der Schrittweite h[0] ergibt

yh[0] = yh (tk ) + h[0] f (tk , yh (tk )) . (1.40)

Ein Doppelschritt mit der Schrittweite h[2] ergibt sukzessive die Werte

yk+ 1 = yh (tk ) + h[1] f (tk , yh (tk )) ,


2

yh[1] = yk+ 1 + h[1] f (tk + h[1] , yk+ 1 ) . (1.41)


2 2

Die Richardson-Extrapolation, angewandt auf yh[1] und yh[0] , ergibt mit h[0] =
h, h[1] = h/2

yk+1 = 2yh(1) − yh(0)


h
= 2yk+ 1 + hf (tk + , yk+ 1 ) − yk − hf (tk , yk )
2 2 2

h
= 2yk + hf (tk , yk ) + hf (tk + , yk+ 1 ) − yk − hf (tk , yk )
2 2

h h
= yk + hf (tk + , yk + f (tk , yk )) . (1.42)
2 2

23
Wir fassen das Ergebnis (1.42) algorithmisch zusammen

k1 = f (tk , yk )
h h
k2 = f (tk + , yk + k1 ) (1.43)
2 2
yk+1 = yk + h k2

und nennen die Rechenvorschrift (1.43) verbesserte Polygonzugmethode


von Euler. Für die Funktion Φ ergibt sich im Falle der verbesserten Polygon-
zugmethode
h h
Φ(tk , yk , yk+1 , h) = f (tk + , yk + f (tk , yk )) .
2 2
k1 stellt die Steigung des Richtungsfeldes im Punkt (xk , yk ) dar, mit der der
Hilfspunkt (tk + h2 , yk + h2 k1 ) und die dazugehörige Steigung k2 berechnet
wird. Schließlich wird yk+1 mit der Steigung k2 berechnet. Die geometri-
sche Interpretation eines Verfahrensschrittes ist in Abb. 1.1 dargestellt. Per
Konstruktion hat diese Methode die Ordnung p = 2. Die eben beschriebene

y
y(t)

k2
k1
yk yk+1/2 yk+1

tk t k+h/2 t k+1 t

Abbildung 1.1: Verbesserte Polygonzug-Methode

Methode kann man natürlich sukzessiv fortsetzen, indem man z.B. 4 Schritte
(3)
des Eulerverfahrens mit der Schrittweite h[2] = h/4 mit dem Ergebnis yk+1
durchführt. Man geht dann von der näherungsweisen Gültigkeit der Entwick-
lungen

yh[0] ≈ y(t) + c1 h + c2 h2 + O(h3 )


h h2
yh[1] ≈ y(t) + c1 + c2 + O(h3 ) (1.44)
2 4
h h2
yh[2] ≈ y(t) + c1 + c2 + O(h3 )
4 16

24
aus. Und mit der Richardson-Extrapolation erhält man ausgehend von den
Werten yh[2] , yh[1] und yh[0] eine Approximation
1
yk+1 = [yh[0] − 6yh[1] + 8yh[2]) ] (1.45)
3
des Lösungswertes y(tk+1 ). Das entstehende 3-stufige Einschrittverfahren hat
dann die Ordnung p = 3.
Für eine folgende allgemeine Darstellung der Extrapolationsverfahren geben
wir die Schrittweitenabhängigkeit der Approximationen eines Einschrittver-
fahrens wie folgt explizit an:

yh (tk+1 ) := yh (tk ) + hΦ(tk , yh (tk ), h) ,


k = 0, 1, . . . , N − 1, yh (a) = y0 ,
(1.46)
wobei der Einfachheit halber ein äquidistantes Gitter mit h > 0 und tk =
a+k h für k =, 1, . . . , N , mit 0 < N ≤ b−a
h
verwendet wird. Grundlage für die
eben skizzierte Methode zur Konstruktion von Verfahren höherer Ordnung
sind asymptotische Entwicklungen (1.38), (1.44) von Diskretisierungsfehlern
von Einschrittverfahren. Es gilt der
Satz 1.16 (Gragg). Es sei yh die von einem Einschrittverfahren der Ordnung
p gelieferte Näherungslösung der Lösung y(t) des AWPs y ′ = f (t, y), y(a) =
y0 , mit der Schrittweite h, wobei f und die Verfahrensfunktion des Einschritt-
verfahrens Φ als p + r mal stetig partiell differenzierbar vorausgesetzt wurde.
Dann besitzt yh eine asymptotische Entwicklung der Form

yh (t) = y(t) + cp (t)hp + cp+1 (t)hp+1 + · · ·+ cp+r−1 (t)hp+r−1 + O(hp+r ) , (1.47)

mit cp+j (a) = 0 und cp+j ∈ C r+1−j ([a, b], R) für alle j = 0, . . . , r − 1, und h =
hi = t−a
i
, i = 1, 2, . . . , wobei die angegebenen Konvergenzraten gleichmäßig
in t auftreten.
Auf den Beweis des Satzes 1.16 kommen wir etwas später noch einmal zurück
(s.auch Plato oder Deuflhard/Bornemann).
Die Ergebnisse (1.42) und (1.44) kann man auch durch folgende Überlegung
erhalten. Wir definieren
t−a
Ht = { , m = 1, 2, . . . } ,
m
so dass man nach m Schritten eines Einschrittverfahrens mit der Schrittwei-
te h ∈ Ht eine Näherung yh (t) des Lösungswertes y(t) erreicht. Bei einem
Verfahren der Ordnung p gilt

yh (t) = y(t) + O(hp ) für h → 0, h ∈ Ht .

25
Unter Nutzung der asymptotischen Entwicklung (1.47) betrachtet man zur
Approximation von y(t) für die feste Stelle t ∈ [a, b] Schrittweiten h[0] >
h[1] > h[2] > . . . aus Ht und eine Zahl 0 ≤ m ≤ r (für den Fall (1.44) wären
das h[0] = h, h[1] = h/2, h[2] = h/4 und r = 2) das Polynom

P0,...,m (h) = d0 + dp hp + dp+1 hp+1 + · · · + dp+m−1 hp+m−1 , h ∈ R (1.48)

mit Koeffizienten d0 , dp , dp+1 , . . . , dp+m−1 , wobei diese m + 1 Koeffizienten so


zu bestimmen sind, dass die m + 1 Interpolationsbedingungen

P0,...,m (h[k] ) = uh[k] (t) für k = 0, . . . , m , (1.49)

erfüllt sind. Für die Wahl der Schrittweiten gilt bezüglich einer Grundschritt-
weite h ∈ Ht

h[k] = h/nk für k = 0, 1, . . . , mit 1 ≤ n0 ≤ n1 ≤ . . . . (1.50)

Als Näherung für y(t) wird schließlich P0,...,m (0) herangezogen, d.h. man ex-
trapoliert von h[0] > h[1] > h[2] > . . . auf 0. Durch diese Extrapolation nach
h → 0 erhält man ein Verfahren der Ordnung m + p, es gilt

P0,...,m (0) = y(t) + O(hm+p ) .

Die Berechnung von P0,...,m (0) erfolgt mit dem Schema von Neville/Aitken
zur Polynomwertberechnung an der Stelle 0.

h[0] uh[0] = P0
h[1] uh[1] = P0 P0,1
h[2] uh[2] = P0 P0,1 P0,1,2
..
.
h[m] uh[m] = P0 P0,1 P0,1,2 . . . P0,...,m

Dabei ist das Tableau so zu verstehen, dass z.B. in der dritten Spalte und
der dritten Zeile mit P0,1 der Wert des Polynoms 1. Grades zu verstehen
ist, das die Werte (h[1] , uh[1] ) und (h[2] , uh[2] ) interpoliert. Entscheidend ist
das letzte Element der letzten Zeile, wo mit P0,...,m der gewünschte Wert
P0,...,m (0) steht. Für den Fall (1.44) erhalten wir konkret das Schema

yh[0]
(0−h[0] )yh[1] −(0−h[1] )yh[0]
yh[1] h[1] −h[0]
= 2yh[1] − yh[0]
(0−h[1] )yh[2] −(0−h[2] )yh[1] (0−h[0] )[2yh[1] −yh[0] ]−(0−h[2] )[2yh[2] −yh[1] ]
yh[2] h[2] −h[1]
= 2yh[2] − yh[1] h[2] −h[0]

26
und mit
(0 − h[0] )[2yh[1] − yh[0] ] − (0 − h[2] )[2yh[2] − yh[1] ] 8yh[2] − 6yh[1] + yh[0]
=
h[2] − h[0] 3
erhält man das obige Resultat (1.45). Ist h[k] eine streng monoton fallende
Nullfolge, so konvergiert die erste Spalte des obigen Neville/Aitken-Schemas
wie h[k] gegen y(t), die zweite Spalte wie h2[k] gegen y(t) und die dritte Spalte
wie h3[k] gegen y(t). Mittels Extrapolation hat man damit ein Verfahren der
Ordnung p + m = 1 + 2 = 3 konstruiert.
Bei den besprochenen Extrapolationsverfahren haben wir pro Extrapolati-
onsschritt aufgrund von (1.47) die Ordnung um eins erhöht. Besonders vor-
teilhaft ist jedoch die Situation, wenn man für ein Verfahren statt (1.47) eine
asymptotische Entwicklung der Form
yh (t) = y(t) + cp (t)z p + cp+1 (t)z p+1 + · · · + cp+r−1 (t)z p+r−1 + O(z p+r ) , (1.51)
mit z = hγ mit γ ∈ N, γ ≥ 2 vorzuliegen hat. Dann wird pro Extrapolati-
onsschritt die Ordnung des zugrunde liegenden Verfahrens um γ erhöht.
Bemerkung 1.17. Eine solche Situation liegt z.B. dem Rombergverfahren
zugrunde, denn für die summierte Trapezregel
n−1
1 X
T (h) = h( (f (a) + f (b)) + f (a + i h)), h = (b − a)/n, (1.52)
2 i=1
Rb
zur näherungsweisen Berechnung des Integrals a
f (x) dx gibt es eine asym-
ptotische Entwicklung der Form
T (h) = τ0 + τ1 h2 + τ2 h4 + · · · + τm h2m + Rm+1 (h) (1.53)
mit Z b
B2k (2k−1)
τ0 = f (x) dx , τk = [f (b) − f (2k−1) (a)] ,
a (2k)!
wobei B2k die Bernoullizahlen sind, und für das Restglied Rm+1 (h) = O(h2m+2 )
für h → 0 gilt (außerdem muss f die Glattheitsforderung f ∈ C (2m+2) ([a, b])
erfüllen). Man berechnet nun T (hk ) nach (1.52) für h[0] > h[1] > . . . (z.B.
h[k] = (b − a)/nk , nk = 1, 2, . . . ) und legt ein Polynom Pm (z), z = h2 ,
durch die Punkte (h2[0] , T (h[0] )), (h2[1] , T (h[1] )), . . . , (h2[m] , T (h[m] )) und findet
Rb
mit Pm (0) eine Näherung von τ0 = a f (x) dx vor, wobei
Pm (0) = τ0 + O(h2m+2 )
gilt. Man erhöht damit pro Extrapolationsschritt die Ordnung von q auf q+2.

27
Im Folgenden sollen die Grundlagen für den Nachweis der Existenz der asym-
ptotischen Entwicklung (1.47) diskutiert werden. Wir betrachten ein Ein-
schrittverfahren der Form (1.46), also
yh (tk+1 ) := yh (tk ) + hΦ(tk , yh (tk ), h) , k = 0, 1, . . . , N − 1, yh (a) = y0 .
Zuerst soll eine spezielle Darstellung des lokalen Verfahrensfehlers eines Ein-
schrittverfahrens gezeigt werden.
Lemma 1.18. f und die Verfahrensfunktion Ψ eines Einschrittverfahrens
der Ordnung p seien p + r-mal stetig partiell differenzierbar (wie in Satz
1.16). Dann gilt für den lokalen Diskretisierungsfehler eines Verfahrens mit
der Ordnung p die Entwicklung
y(t + h) − y(t) − hΦ(t, y(t), h) = dp+1 (t)hp+1 + O(hp+2 ) für h → 0 , (1.54)
mit einer Funktion dp+1 ∈ C r ([a, b]), wobei die angegebenen Konvergenzraten
gleichmäßig in t sind.
Beweis. Eine Taylorentwicklung der Hilfsfunktion g(h) = y(t + h) − y(t) −
hΦ(t, y(t), h) in h = 0 ergibt
p+1
X
y(t+h)−y(t)−hΦ(t, y(t), h) = dl (t)hl +O(hp+2 ) = dp+1 (t)hp+1 +O(hp+2 )
l=0

da wegen der vorliegenden Konsistenzordnung p notwendigerweise d0 (t) =


· · · = dp (t) = 0 gilt, womit das Lemma bewiesen ist. Für die Funktion dp+1 (t)
gilt die Darstellung
y (p+1) (t) 1 ∂ pΦ
dp+1 (t) = − (t, y(t), 0) .
(p + 1)! p! ∂hp

Es gilt nun der folgende


Satz 1.19. Das Einschrittverfahren (1.46) habe die Konvergenzordnung p,
d.h. es gilt
y(tk+1 ) − y(tk ) − hΦ(tk , y(tk ), h) = dp+1 (tk ) hp+1 + O(hp+2 ) . (1.55)
f und Φ seien p + 2-mal stetig partiell differenzierbar. Sei cp die Lösung des
linearen, inhomogenen AWPs
∂f
c′p (t) = (t, y(t))cp (t) + dp+1 (t) (1.56)
∂y
cp (a) = 0 .

28
Dann ist
yh∗ (tk ) = yh (tk ) + cp (tk ) hp (1.57)
Lösung eines Einschrittverfahrens mit der Verfahrensfunktion
Φ∗ (t, y ∗ , h) = Φ(t, y ∗ − cp (t) hp , h) + (cp (t + h) − cp (t))hp−1 (1.58)
mit der Konsistenzordnung p + 1.
Beweis. Offensichtlich gilt yh∗ (a) = yh (a) = y0 und man erhält induktiv für
t = a + h, a + 2h, . . .
yh∗ (t + h) = yh∗ (t) + hΦ∗ (t, yh∗ (t), h)
= yh (t) + hp cp (t) + hΦ(t, yh (t), h) + [cp (t + h) − cp (t)]hp
= yh (t) + hΦ(t, yh (t), h) +cp (t + h)hp .
| {z }
=yh (t+h)

Für den lokalen Diskretisierungsfehler (damit es keine Konfusion mit (1.56)


gibt, bezeichnen wir ihn mit τ ) gilt nun

τk+1 = y(tk+1 ) − y(tk ) − hΦ∗ (tk , y(tk ), h)
= y(tk+1 ) − y(tk ) − hΦ(tk , y(tk ) − cp (tk )hp , h) − (cp (tk+1 ) − cp (tk ))hp
= y(tk+1 ) − y(tk ) − hΦ(tk , y(tk ), h) − [cp (tk+1 ) − cp (tk )]hp
+h[Φ(tk , y(tk ), h) − Φ(tk , y(tk ) − cp (tk )hp , h)] ,
wegen (1.55) und der Glattheitsvoraussetzungen an f und Φ gilt [cp (tk+1 ) −
cp (tk )] = hc′p (tk ) + O(h2 ) und
∂Φ
[Φ(tk , y(tk ), h) − Φ(tk , y(tk ) − cp (tk )hp , h)] = cp (tk )hp (tk , y(tk ), h) + O(h2 ) ,
∂y

so dass sich für τk+1 unter Nutzung von (1.54)

∗ ∂Φ
τk+1 = (dp+1 (tk ) + (tk , y(tk ), h)cp (t) − c′p (t))hp+1 + O(hp+2 )
∂y
ergibt. Da die Konsistenzordnung p vorliegt, gilt auch
∂Φ ∂f
(tk , y(tk ), h) − (tk , y(tk )) = O(h) ,
∂y ∂y
so dass sich letztendlich
∗ ∂f
τk+1 = {dp+1 (tk ) + (tk , y(tk ))cp (tk ) − c′p (tk )}hp+1 + O(hp+2 )
∂y
ergibt, und da der Klammerausdruck wegen (1.56) verschwindet, ergibt sich
als Ordnung p + 1.

29
6. Vor-
Die rekursive Anwendung des Satzes 1.19 ermöglicht durch die beschriebene lesung
Veränderung der Verfahrensfunktion eine sukzessive Erhöhung der Verfah- am
rensordnung und ergibt schließlich unter Nutzung des Lemma 1.18 auch eine 27.10.2009
asymptotische Entwicklung des lokalen Diskretisierungsfehlers. Bezeichnet
man y0,h = yh und die durch Rekursion mit der Verfahrensfunktion (1.58)
ausgehend von yl,h (Verfahren der Ordnung p + l) konstruierte Lösung yl+1,h
(Verfahren der Ordnung p + l + 1, Lösung im Satz 1.19 mit yh∗ bezeichnet),
so erhält man

yl+1,h (t) = yl,h + cp+l (t) hp+l , l = 0, . . . , r − 1,

beziehungsweise

yr,h (t) = yh (t) + cp (t)hp + cp+1 (t)hp+1 + · · · + cp+r−1 (t)hp+r−1 . (1.59)

Das rekursiv definierte Verfahren mit der Lösung yr,h (t) besitzt nun gemäß
Satz 1.19 die Konvergenzordnung p + r, d.h. es gilt

yr,h (t) − y(t) = O(hp+r ) . (1.60)

Aus (1.59) und (1.60) folgt direkt die asymptotische Entwicklung (1.47) und
damit der Beweis des Satzes 1.16.

Bemerkung 1.20. Die rekursive Anwendung des Satzes 1.19, speziell die
mittels (1.56) sukzessiv konstruierten Verfahren mit wachsender Ordnung,
hat nur eine theoretische beweistechnische Bedeutung für den Nachweis der
Existenz der asymptotischen Entwicklung (1.47), und keine praktische Be-
deutung für die numerische Lösung eines AWPs.

Im Folgenden soll aus der Existenz einer asymptotischen Entwicklung (1.47)


für den globalen Diskretisierungsfehler auf die Existenz einer asymptotischen
Entwicklung für den lokalen Diskretisierungsfehler geschlossen werden.

Satz 1.21. f und die Verfahrensfunktion Ψ eines Einschrittverfahrens der


Ordnung p seien p + r-mal stetig partiell differenzierbar. Dann gilt für jede
fixierte Zahl l ∈ N die folgende Entwicklung für den lokalen Diskretisierungs-
sfehler:

yh (a + lh) − y(a + lh) = bp+1 hp+1 + · · · + bp+r−1 hp+r−1 + O(hp+r ) (1.61)

für h > 0, mit gewissen von l abhängigen Koeffizienten bp+1 , . . . , bp+r−1 ∈ R.

30
Beweis. Aus Satz 1.16 erhält man unter Verwendung der Taylorentwicklun-
gen
r−j−1
X (k) (lh)k
cp+j (a + lh) = cp+j (a) + O(hr−j )
k=0
k!
unter Berücksichtigung von cp (a) = 0 mit
r−1
X
yh (a + lh) = y(a + lh) + cp+j (a + lh)hp+j + O(hp+r )
j=0
r−1 r−j−1
X X (k) lk p+s
= [ cp+s−k (a) ] h + O(hp+r )
j=1 k=0
k!
| {z }
=:bp+s

die Aussage des Satzes.

Korollar 1.22. Unter den Bedingungen des Satzes 1.16 über die Asymptotik
des globalen Verfahrensfehlers und mit jeder Zahl l ∈ N gilt für den lokalen
Extrapolationsfehler
p+r−1
X
P0,...,m (0) − y(a + lh) = bj hj + O(hp+r ) (1.62)
j=p+m+1

mit gewissen von l abhängigen Koeffizienten bp+m+1 , . . . , bp+r−1 ∈ R. Insbe-


sondere gilt für r ≥ m + 1 die Darstellung P0,...,m (0) − y(a + lh) = O(hp+r+1 ).

Der Beweis erfolgt analog zum Beweis von Satz 1.21.

Wir haben schon darauf hingewiesen, dass man mit Entwicklung der Form
(1.51) mit γ ≥ 2 durch Extrapolation die Verfahrensordnung nicht nur um 1
sondern um γ erhöhen kann. Es ist also sinnvoll nach Verfahren zu suchen,
für die eine asymptotische Entwicklung der Form (1.51) mit γ ≥ 2 existiert.
Dazu benötigen wir einige Begriffe.

Definition 1.23 (Adjungiertes Verfahren). Sei mit

yh (tk+1 ) = yh (tk ) + hΦ(tk , yh (tk ), yh (tk+1 ), h) (1.63)

ein Einschrittverfahren gegeben, dann wird durch

y−h (tk ) = y−h (tk+1 ) − hΦ(tk+1 , y−h (tk+1 ), y−h (tk ), −h)

31
oder umgeschrieben

y−h (tk+1 ) = y−h (tk ) + hΦ(tk+1 , y−h (tk+1 ), y−h (tk ), −h) (1.64)

gespiegelt. Die Gleichung (1.64) wird als eine implizite Gleichung zur Bestim-
mung von y−h (tk+1 ) betrachtet, die für kleine Schrittweiten h nach dem Satz
über implizite Funktionen auch (lokal eindeutig) auflösbar ist. Wir schreiben
dann für die Lösung

y−h (tk+1 ) = y−h (tk ) + hΦ∗ (tk , y−h (tk ), −h)

und bezeichnen mit Φ∗ die Verfahrensfunktion des gespiegelten oder adjun-


gierten Einschrittverfahrens von Φ.
In der Definition beschränken wir uns nicht auf explizite Verfahren, sondern
betrachten mit der Verfahrensfunktion Φ(tk , yh (tk ), yh (tk+1 ), h) auch implizite
Einschrittverfahren.
Beispiel 1.24. Betrachten wir das explizite Eulerverfahren

yh (tk+1 ) = yh (tk ) + hf (tk , yh (tk )) ,

die Spiegelung ergibt im ersten Schritt durch die Ersetzung von h durch −h

y−h (tk−1 = y−h (tk ) − hf (tk , y−h (tk )) ,

und die Ersetzung von t durch t + h das gespiegelte Verfahren

y−h (tk ) = y−h (tk+1 ) − hf (tk+1 , y−h (tk+1 )) ,

das umgeschrieben die Form

y−h (tk+1 ) = y−h (tk ) + hf (tk+1 , y−h (tk+1 ))

hat. Darin erkennen wir das implizite Eulerverfahren.


Definition 1.25. Ein Einschrittverfahren (1.63) heißt symmetrisch, falls
Φ = Φ∗ ist.
Wir erkennen am Beispiel, dass das Eulerverfahren offensichtlich nicht sym-
metrisch ist.
Bemerkung 1.26. Das explizite Eulerverfahren ist leider kein Einzelfall.
Man kann zeigen, dass es kein explizites Einschrittverfahren gibt, das sym-
metrisch ist. Nur unter den impliziten Verfahren findet man symmetrische
Verfahren.

32
Beispiel 1.27. Sowohl die implizite Mittelpunktsregel
1
yh (tk+1 ) = yh (tk ) + hf (tk+1/2 , [yh (tk ) + yh (tk+1 )]) (1.65)
2
als auch die implizite Trapezregel
h
yh (tk+1 ) = yh (tk ) + [f (tk , yh (tk )) + f (tk+1 , yh (tk+1 ))] (1.66)
2
sind symmetrische Verfahren.

Bei den symmetrischen Verfahren ergibt sich für den Schritt (tk , yh (tk )) zu
(tk+1 , yh (tk+1 )), dass man mit dem adjungierten Verfahren ausgehend von
(tk+1 , yh (tk+1 )) durch einen Schritt mit der Schrittweite −h, also einen Rück-
schritt (tk , yh (tk )) erhält.
Der Wert von symmetrischen Einschrittverfahren besteht darin, dass sie die
oben angesprochenen quadratischen asymptotischen Entwicklungen (1.51)
mit z = γ, γ = 2 besitzen. Es gilt der

Satz 1.28. Der globale Diskretisierungsfehler von symmetrischen Einschritt-


verfahren mit der Fehlerordnung p ≥ 1 besitzt unter den Vorausetzungen des
Satzes 1.16 eine quadratische asymptotische Entwicklung der Form

yh (t) − y(t) = cp (t)z p + cp+1 (t)z p+1 + · · · + cp+r−1 (t)z p+r−1 + O(z p+r )

mit z = h2 .

Beweis. Beweis als Übung.

1.7 Schrittweitensteuerung
1.7.1 Einbettungsverfahren
Bisher wurde die Schrittweite h = tk+1 − tk in der Regel äquidistant vor-
gegeben. Lässt man hier eine Variabilität zu, hat man die Möglichkeit, den
lokalen Diskretisierungsfehler dk+1 durch die Wahl einer geeigneten Schritt-
weite hk+1 = tk+1 − tk betragsmäßig zu beschränken. Man spricht hier von
Schrittweitensteuerung. Das Prinzip soll am Beispiel des Heun-Verfahrens
(1.22) der Ordnung p = 2

h
k1 = f (tk , yk ) , k2 = f (tk + h, yk + h k1 ) , yk+1 = yk + [k1 + k2 ]
2

33
erläutert werden. Als lokaler Diskretisierungsfehler ergibt sich
(H) h
dk+1 = y(tk+1 ) − y(tk ) − [k̄1 + k̄2 ] ,
2
wobei k̄1 , k̄2 aus k1 , k2 dadurch hervorgehen, dass yk durch y(tk ) ersetzt
wird. Nun sucht man ein Verfahren höherer, also mindestens dritter Ord-
nung, dessen Steigungen k1 und k2 mit den Steigungen des Heun-Verfahrens
übereinstimmen. Solch ein Runge-Kutta-Verfahren 3. Ordnung soll nun kon-
struiert werden. Die Forderung der Gleichheit der Steigungen k1 und k2 mit
den Steigungen des Heun-Verfahrens bedeutet α2 = β21 = 1. Die weiteren
Parameter ergeben sich aus dem Gleichungssystem aus dem Satz 1.15 bei der
Wahl von α3 = 21
2 1 1 1 1
γ3 = , γ2 = , γ1 = , β32 = , β31 = α3 − β32 = ,
3 6 6 4 4
so dass sich das Runge-Kutta-Verfahren 3. Ordnung (auch Heun-Verfahren
3. Ordnung genannt)
1 h
k1 = f (tk , yk ), k2 = f (tk + h, yk + h k1 ), k3 = f (tk + h, yk + (k1 + k2 ))
2 4
h
yk+1 = yk + [k1 + k2 + 4k3 ] (1.67)
6
ergibt. Für den lokalen Diskretisierungsfehler des Verfahrens (1.67) ergibt
sich
(RK) h
dk+1 = y(tk+1 ) − y(tk ) − [k̄1 + k̄2 + 4k̄3 ] .
6
Damit kann man den lokalen Diskretisierungsfehler des Heun-Verfahrens in
der Form
(H) h h (RK)
dk+1 = [k̄1 + k̄2 + 4k̄3 ] − [k̄1 + k̄2 ] + dk+1
6 2
(RK)
darstellen. Berücksichtigt man dk+1 = O(h4 ), so erhält man

(H) h h h
dk+1 = [k̄1 + k̄2 + 4k̄3 ] − [k̄1 + k̄2 ] + O(h4 ) = [2k̄3 − k̄1 − k̄2 ] + O(h4 )
6 2 3
und benutzt man (unter Voraussetzung genügender Glattheit von f )
h h
[2k̄3 − k̄1 − k̄2 ] − [2k3 − k1 − k2 ] = O(h4 ) ,
3 3
so erhält man schließlich
(H) h
dk+1 = [2k3 − k1 − k2 ] + O(h4 )
3

34
und damit kann der lokale Diskretisierungsfehler des Heun-Verfahrens mit der
zusätzlichen Steigungsberechnung von k3 durch den Ausdruck h3 [2k3 − k1 −
k2 ] recht gut geschätzt werden. Aufgrund der Kontrolle des Betrages dieses
Ausdrucks kann man eine vorgegebene Schranke ǫtol > 0 durch entsprechende
Wahl von h = hk+1 = tk+1 − tk
hk+1 3ǫtol
|2k3 − k1 − k2 | < ǫtol ⇐⇒ hk+1 <
3 |2k3 − k1 − k2 |

unterschreiten.
Man spricht bei der dargestellten Methode der Schrittweitensteuerung auch
von einer Einbettung des Heun-Verfahrens (1.22) zweiter Ordnung in das
Runge-Kutta-Verfahren (1.67) dritter Ordnung.

1.7.2 Schrittweitensteuerung durch Extrapolation


Zur Lösung des AWPs y ′ = f (t, y), y(a) = y0 wird für eine Verfahrensfunk-
tion Φ mit der Konsistenzordnung p ≥ 1 die Vorschrift

w = yk + h2k Φ(tk , yk , h2k ), 
yk+1 = w + h2k Φ(tk + h2k , w, h2k ), (1.68)

tk+1 := tk + hk , k = 0, 1, . . . .

betrachtet. Nun wird eine adaptive Wahl der Schrittweiten hk diskutiert mit
dem Ziel einer effizienten Fehlerkontrolle.
Ausgehend von einer gegebenen Stelle tk ∈ [a, b] und einer gegebenen Nähe-
rung yk ≈ y(tk ) soll eine Schrittweite hk > 0 bestimmt werden, für die

|yk+1 − z(tk + hk )| ≈ ǫtol (1.69)

erfüllt ist, wobei yk+1 aus einem Schritt des Verfahrens (1.68) hervorgeht,
ǫtol > 0 eine vorgegebene Fehlerschranke ist, und z : [tk , b] → R die Lösung
des AWPs
z ′ = f (t, z) , t ∈ [tk , b] ; z(tk ) = yk , (1.70)
ist.

Bemerkung 1.29. Die Forderung (1.69) bedeutet, dass die angestrebte


Schrittweitensteuerung auf einer Vorgabe des lokalen Verfahrensfehlers be-
ruht.
Die Lösung des AWPs (1.70) ist nicht bekannt, also insbesondere z(tk + hk ),
und muss erst noch bestimmt werden.

35
Wie bei Plato führen wir zur Vereinfachung der Notation die Bezeichnung
für einen von dem Punkt (tk , yk ) ausgehenden Verfahrensschritt (1.68) mit
der Länge h ein,
hk hk hk hk hk
y2×h/2 = w + Φ(tk + , w, ) mit w = yk + Φ(tk , yk , ) . (1.71)
2 2 2 2 2
Zur Bestimmung einer Schrittweite hk , mit der die Forderung (1.69) annä-
hernd erfüllt wird, geht man von einer nicht zu kleinen Startschrittweite h(0)
aus, und für j = 0, 1, . . . , führt man den folgenden Algorithmus aus:

1) Berechnung von y2×h/2 .

2) Ermittelung einer Schätzung für den Fehler |y2×h/2 − z(tk + h)| und
Abbruch des Iterationsprozesses mit jǫtol = j, falls die Schätzung kleiner
gleich ǫtol ausfällt.

3) Anderenfalls, falls diese Schätzung größer als ǫtol ist, wird eine neue
Testsschrittweite h(s+1) < h(s) bestimmt.

Wie man den unbekannten Wert z(tk + h) schätzt und im Falle von 3) die
neue Testschrittweite h(s+1) bestimmt, soll im Folgenden beschrieben werden.
Der Wert z(tk + hk ) wird mittels lokaler Extrapolation entsprechend Korollar
1.22 mittels zh(s) geschätzt, wobei man mit vh = yk + hΦ(tk , yk , h), also einem
Schritt mit der Schrittweite h = h(s) , und y2×h/2
vh − y2×h/2
zh = y2×h/2 − p−1
.
| {z 2 }
z(tk +h(s) )+O(hp+2 )

Der Fehler y2×h(s) /2 − z(tk + h(s) )| berechnet sich dann näherungsweise zu

|vh − y2×h(s) /2 |
δ (s) = |y2×h(s) /2 − z(tk + h(s) )| = . (1.72)
2p − 1

Zur Bestimmung der neuen Testschrittweite h(s+1) benutzt man die nähe-
rungsweise Darstellung des Fehlers y2×h/2 − z(tk + h):

Lemma 1.30. Mit den Notationen (1.70)-(1.72) gilt unter den Bedingungen
des Satzes 1.16 über die Asymptotik des globalen Verfahrensfehlers (für r = 2)

h p+1 (s)
|y2×h/2 − z(tk + h)| = ( ) δ + O((h(s) )p+2 ), 0 < h ≤ h(s) . (1.73)
h(s)

36
Gilt also (h(s) )p+2 ≪ ǫtol , so gewinnt man aus der Darstellung (1.73) unter
Vernachlässigung des Restgliedes die neue Testschrittweite
ǫtol 1/(p+1) (s)
h(s+1) = ( ) h (1.74)
δ (s)
und wiederholt damit den oben beschriebenen Algorithmus mit s um eins
erhöht.

Beweis. Der Beweis des Satzes beruht im Wesentlichen auf den Darstellungen

y2×h/2 − z(tk + h) = bp+1 hp+1 + O(hp+2 ), h > 0, (1.75)

und
zh − z(tk + h) = O(hp+2 ) .
Damit hat man

y2×h/2 − zh = bp+1 hp+1 + O((h(s) )p+2 ) . (1.76)

Wegen δ (s) = |y2×h(s) /2 − z(tk + h(s) )| bedeutet (1.76) insbesondere

δ (s)
|bp+1 |(h(s) )p+1 = δ (s) + O((h(s) )p+2 ) bzw. |bp+1 | = + O(h(s) ) .
(h(s) )p+2
(1.77)
Und die Darstellung (1.77) eingesetzt in (1.75) ergibt die Behauptung des
Lemmas.

1.8 Mehrschrittverfahren
7. Vor-
Die Klasse der Mehrschrittverfahren zur Lösung von Anfangswertproblemen lesung
ist dadurch gekennzeichnet, dass man zur Berechnung des Näherungswertes am
yk+1 nicht nur den Wert yk verwendet, sondern auch weiter zurückliegende 03.11.2009
Werte, z.B. yk−1 , yk−2 , yk−3 . Ausgangspunkt für die Mehrschrittverfahren
bildet die zur Differentialgleichung y ′ = f (t, y) äquivalente Integralgleichung
Z tk+1
y(tk+1 ) = y(tk ) + f (t, y(t)) dt . (1.78)
tk

Kennt man z.B. die Werte fk = f (tk , yk ), . . . , fk−3 = f (tk−3 , yk−3 ), dann
kann man das Integral auf der rechten Seite durch eine interpolatorische
Quadraturformel i.d.R. besser approximieren als bei den Einschrittverfahren
unter ausschließlicher Nutzung des Wertes fk . Das ist die Grundidee der

37
Mehrschrittverfahren. Man bestimmt das Interpolationspolynom durch die
Stützpunkte (tj , fj ) (j = k − 3, . . . , k)
3
X
p3 (t) = fk−j Lk−j (t)
j=0

mit den Lagrange’schen Basispolynomen


k
Y t − ti
Lj (t) = (j = k − 3, k − 2, k − 1, k)
i=k−3
tj − ti
i6=j

und bestimmt das Integral in (1.78) unter Nutzung der Näherung von f durch
p3 . Man erhält
3
Z tk+1 X 3
X Z tk+1
yk+1 = yk + fk−j Lk−j (t) dt = yk + fk−j Lk−j (t) dt .
tk j=0 j=0 tk

Im Fall äquidistanter Stützstellen und h = tk+1 − tk erhält man für den


zweiten Integralsummanden (j = 1)
Z tk+1 Z tk+1
(t − tk−3 )(t − tk−2 )(t − tk )
I1 = Lk−1 (t) dt = dt
tk tk (tk−1 − tk−3 )(tk−1 − tk−2 )(tk−1 − tk )

und nach der Substitution ξ = t−th


k
, dt = hdξ,
Z 1 Z
(ξ + 3)(ξ + 2)ξ h 1 3 59
I1 = h dξ = − (ξ + 5ξ 2 + 6ξ) dξ = − h .
0 2 · 1 · (−1) 2 0 24
Für die restlichen Summanden erhält man
55 37 9
I0 = h, I2 = h, I3 = − h,
24 24 24
so dass sich schließlich mit
h
yk+1 = yk + [55fk − 59fk−1 + 37fk−2 − 9fk−3 ] (1.79)
24
das Verfahren ergibt.
Bei Verwendung von m Stützwerten (tk , fk ), . . . , (tk−m+1 , fk−m+1 ) zur Berech-
nung eines Interpolationspolynoms pm−1 zur Approximation von f zwecks
näherungsweiser Berechnung des Integrals (1.78) spricht man von einem li-
nearen m-Schrittverfahren. Im Folgenden werden wir uns in der Darstel-
lung und Diskussion der Verfahren auf äquidistante Gitter, d.h. hk = h =
const. beschränken.

38
Definition 1.31. (allgemeine lineare Mehrschrittverfahren)
Unter einem linearen m-Schrittverfahren (m > 1) versteht man eine
Vorschrift
m
X m
X
aj yl+j = h bj f (tl+j , yl+j ), l = 0, 1, . . . , n − m (1.80)
j=0 j=0

wobei am 6= 0 ist und aj , bj geeignet zu wählende reelle Zahlen sind. Die


konkrete Wahl der Koeffizienten aj , bj entscheidet über die Ordnung des Ver-
fahrens (1.80). Als Gitterpunkte oder Schrittweiten werden tl = a + lh, l =
0, . . . , n, mit h = b−a
n
betrachet. y0 , . . . , ym−1 sind nicht näher spezifizierte
Startwerte.
In Verallgemeinerung zur Definition der Fehler eines Einschrittverfahrens de-
finieren wir den lokalen und globalen Verfahrensfehler.
Definition 1.32. Ein lineares Mehrschrittverfahren (1.80) besitzt die Kon-
vergenzordnung p ≥ 1, falls sich zu jeder Konstanten c ≥ 0 und beliebigen
Startwerten y0 , . . . , ym−1 ∈ R mit |yk − y(tk )| ≤ c hp für k = 0, . . . , m − 1 der
globale Verfahrensfehler in der Form
max |yl − y(tl )| ≤ K hp (1.81)
l=m,...,n

mit einer von der Schrittweite h unabhängigen Konstanten K ≥ 0 abschätzen


lässt.
Definition 1.33. Für ein lineares Mehrschrittverfahren zur Lösung des AWPs
y ′ = f (t, y), y(a) = y0 bezeichnet
P Pm ¾
τ (t, h) := [ mj=0 aj y(t + jh)] − h[ j=0 bj f (t + jh, y(t + jh))] ,
(1.82)
0 < h ≤ b−t
m
,
den lokalen Verfahrensfehler im Punkt (t, y(t)) bezüglich der Schrittweite
h.
Nun kann man wie bei den Einschrittverfahren die Fehlerordnung eines m-
Schrittverfahrens definieren.
Definition 1.34. (Fehlerordnung eines m-Schrittverfahrens)
Ein m-Schrittverfahren hat die Fehler- oder Konsistenzordnung p, falls
es eine Konstante C und eine hinreichend kleine Zahl H > 0 gibt, so dass
für seinen lokalen Diskretisierungsfehler τ die Abschätzung
|τ (t, h)| ≤ Chp+1 , a≤t≤b, 0≤h≤H
gilt.

39
Für das spezielle lineare 4-Schritt-Verfahren (1.79) erhält man durch Taylor-
Reihenentwicklung und entsprechender Glattheit (sechsfache stetige Diffe-
renzierbarkeit von y(t)) den lokalen Diskretisierungsfehler
251 5 (5)
τ= h y + O(h6 ) . (1.83)
720
Das sogenannte Adams-Bashforth-Verfahren (1.79) besitzt aufgrund der
Abschätzung (1.83) die Fehlerordnung 4.
Bevor wir weiter konkrete m-Schrittverfahren konstruieren, sollen allgemeine
Konvergenzaussagen gemacht werden. Eine wichtige Voraussetzung für die
Konvergenz eines m-Schrittverfahrens ist die Nullstabilität.

Definition 1.35. Ein m-Schrittverfahren zur Lösung von y ′ = f (t, y), y(a) =
y0 heißt nullstabil, falls das erzeugende Polynom

ρ(ξ) := am ξ m + am−1 ξ m−1 + · · · + a0 ∈ Πm (1.84)

die folgende Dahlquistsche Wurzelbedingung erfüllt,

ρ(ξ) = 0 =⇒ |ξ| ≤ 1
ρ(ξ) = 0, |ξ| = 1 =⇒ ξ ist einfache Nullstelle von ρ .

An dieser Stelle sei darauf hingewiesen, dass alle Einschrittverfahren nullsta-


bil sind, da sie das triviale erzeugende Polynom

ρ(ξ) = ξ − 1

haben, das die Dahlquistsche Wurzelbedingung offensichtlicht erfüllt.


Es gilt nun der

Satz 1.36. Ein m-Schrittverfahren (1.80) für das AWP y ′ = f (t, y), y(a) =
y0 sei nullstabil und die Funktion f genüge der Lipschitzbedingung

|f (t, y) − f (t, z)| ≤ L|y − z| , L∗ ≥ 0, t ∈ [a, b], y, z ∈ R .

Dann existieren Konstanten K ≥ 0 und H > 0, so dass für 0 < h = (b −


a)/n ≤ H die Abschätzung

max |yl − y(tl )| ≤ K[ max |yk − y(tk )| + ( max |τ (t, h)|)/h] (1.85)
l=0,...,n k=0,...,m−1 a≤t≤b−mh

gilt.

40
Beweis. O.B.d.A. nehmen wir am = 1 an, und setzen

el = yl − y(tl ) , l = 0, 1, . . . , n
τl = τ (tl , h) , l = 0, 1, . . . , n − m ,

es gelten dann für l = 0, . . . , n − m die Darstellungen


m
X Xm
aj yl+j = h[ bj f (tl+j , yl+j )] ,
j=0 j=0
m
X Xm
aj y( tl+j ) = h[ bj f (tl+j , y(tl+j ))] + τl ,
j=0 j=0

und damit
m
X m
X
aj el+j = h bj [f (tl+j , yl+j ) − f (tl+j , y(tl+j ))] −τl . (1.86)
j=0 j=0
| {z }
=:δl

(1.86) kann man nun wie folgt schreiben,


      
el+1 0 1 el 0
 el+2  
   . .. ... 
 el+1  
  0 

 ..   =  .. + .. 
 .   0 1  .   . 
el+m −a0 . . . . . . −am−1 el+m−1 δl − τl
| {z } | {z }| {z } | {z }
=:El+1 =:A =:El =:Fl
(1.87)
mit der reellen Matrix A vom Typ m × m und den Vektoren El , Fl ∈ Rm .
Mit vollständiger Induktion schlussfolgert man aus (1.87) die Beziehung
l−1
X
El = Al E0 + Al−1−ν Fν , l = 0, 1, . . . , n − m + 1 . (1.88)
ν=0

An dieser Stelle berücksichtigen wir, dass die Eigenwerte der Matrix A mit
den Nullstellen des erzeugenden Polynoms des m-Schrittverfahrens überein-
stimmen, die aufgrund der vorausgesetzten Nullstabilität die Dahlquistsche
Wurzelbedingung erfüllen. Daraus folgt die Potenzbeschränktheit der Matrix
A (die als Übung bewiesen werden sollte!), d.h.

||Ak ||∞ ≤ C , k = 0, 1, . . . , (1.89)

41
mit einer Konstanten C > 0. Aus (1.88) und (1.89) ergibt sich dann die
Abschätzung
l−1
X
||El ||∞ ≤ C[||E0 ||∞ + ||Fν ||∞ ] , l = 0, 1, . . . , n − m + 1 . (1.90)
ν=0
Pm
Wegen (1.86) und (1.87) gilt mit L := L∗ j=0 |bj |
m
X
||Fν ||∞ = |δν − τν | ≤ |τν | + hL |eν+j |
j=0
≤ max |τj | + hLm||Eν ||∞ + hL||Eν+1 ||∞ ,
j=0,...,n−m

die Summation ergibt dann


l−1
X l−1
X
||Fν ||∞ ≤ n[ max |τj |] + hc1 ||Eν ||∞ + hL||El ||∞ (1.91)
j=0,...,n−m
ν=0 ν=0

mit c1 := L(m + 1). Dieses Ergebnis eingesetzt in (1.90) führt für 0 < h < H
mit einer Konstanten H < 1/(CL) auf die Abschätzung
C
||El ||∞ ≤ (||E0 ||∞ + n[ max |τj |])
1 − CLH j=0,...,n−m
l−1
Cc1 X
+ h ||Eν ||∞
1 − CLH ν=0
C
≤ max{1, }(||E0 ||∞ + n[ max |τj |])
1 − CLH j=0,...,n−m
| {z }
=:α
l−1
Cc1 X
+ h ||Eν ||∞ , l = 1, 2, . . . , n − m + 1 .
|1 − {z
CLH} ν=0
=:β

bzw.
l−1
X
||El ||∞ ≤ α + βh ||Eν ||∞ , l = 1, 2, . . . , n − m + 1
ν=0

mit ||E0 ||∞ ≤ α. Aus dem diskreten Gronwallschen Lemma


l−1
X
|v0 | ≤ α, |vl | ≤ α + βh |vj |, l = 1, . . . , r =⇒ |vl | ≤ α eβlh , l = 0, . . . , r
j=0

42
und aufgrund von

||E0 ||∞ = max |yl − y(tl )| , |yl − y(tl )| ≤ ||El ||∞


l=0,...,m−1

folgt die Behauptung des Satzes.


Der Satz zeigt wie in vielen Fällen der Numerik die Gültigkeit des Prinzips

Stabilität + Konsistenz =⇒ Konvergenz .

Satz 1.37. (Konvergenz von Mehrschrittverfahren)


Konsistente und nullstabile Mehrschrittverfahren sind konvergent, falls f (t, y)
bezügl. y Lipschitz-stetig ist. D.h., die berechneten Näherungswerte an einer
festen Stelle t = t0 + hk für h → 0 mit kh = t − t0 konvergieren gegen den
Wert der Lösung y(t) der Differentialgleichung.

1.8.1 Technische Hilfsmittel zur Konstruktion


von linearen Mehrschrittverfahren
Beim obigen AB-Verfahren haben wir die Integration des Lagrangeschen
Interpolationspolynoms konkret durchgeführt und damit die Verfahrensvor-
schrift (1.79) hergeleitet. Um die Berechnung der Gewichte der Verfahrens-
vorschrift (1.79) etwas zu erleichtern und um auch schneller zu Abschätzungen
von Diskretisierungsfehlern zu gelangen, sollen nun ein paar Hilfsmittel bereit
gestellt werden.

Definition 1.38 (Rückwärtsdifferenzen). Für einen gegebenen Datensatz


g0 ,..., gr ∈ R sind die Rückwärtsdifferenzen ∇k gj ∈ R für 0 ≤ k ≤ j ≤ r
rekursiv durch

∇ 0 gj = gj , j = 0, 1, . . . , r,
∇ gj = ∇ gj − ∇k−1 gj−1 , j = k, k + 1, . . . , r
k k−1
(k = 1, 2, . . . , r)

erklärt.

Man kann die rekursive Rückwärtsdifferenzenberechnung durch das folgende

43
Schema beschreiben:
∇ 0 g0 = g0
ց
0
∇ g1 = g1 → ∇ 1 g1
ց ց
∇ 0 g2 = g2 → ∇ 1 g2 → ∇ 2 g2
.. .. .. ...
. . .
∇0 gr−1 = gr−1 → ∇1 gr−1 → ... ... ∇r−1 gr−1
ց ց ց
0 1 r−1
∇ gr = gr → ∇ gr → ... ... ∇ gr → ∇ r gr
Zur Berechnung der Rückwärtsdifferenzen benutzen wir das
Lemma 1.39. Für die Rückwärtsdifferenzen ∇k gj ∈ R eines gegebenen Da-
tensatzes g0 , ..., gr ∈ R gilt
k µ ¶
i k
X
k
∇ gj = (−1) gj−i , j = 1, 2, . . . , r . (1.92)
i=0
i

Beweis. Wenn man mit S den Rückwärtsshift


Sgj := gj−1 , j = 1, 2, . . . , r ,
bezeichnet, und (I − S)k und S i ebenso rekursiv erklärt, d.h.
(I − S)gj = gj − gj−1 , (I − S)2 gj = (I − S)(I − S)gj , S i gj = S(S i−1 gj ) . . .
dann erhält man mit dem binomischen Satz
k µ ¶
k k
X k k−i i
i
∇ gj = (I − S) gj = (−1) I S gj
i=0
i
k µ ¶ k µ ¶
i k i k
X X
i
= (−1) S gj = (−1) gj−i .
i=0
i i=0
i

Lemma 1.40. Gegeben seien r + 1 äquidistante Stützstellen tl = t0 + l h für


l = 0, 1, . . . , r, mit Zahlen t0 ∈ R und h > 0. Dann besitzt das zu den Werten
g0 , . . . , gr ∈ R gehörende eindeutug bestimmte interpolierende Polynom P ∈
Πr (Polynome r-ten Grades) die Darstellung
r µ ¶
k −s
X
P(tr + s h) = (−1) ∇ k gr , s ∈ R . (1.93)
k=0
k

44
Dabei gelten die Identitäten
µ ¶
−s (−s)(−s − 1) . . . (−s − k + 1) (−1)k
= = s(s + 1) . . . (s + k − 1) .
k k! k!
(1.94)
Beweis. Unter Verwendung von (1.94) erhält man für P mit der Newton-
Interpolation
P(tr + s h) = a0 + a1 (tr + sh − tr ) + · · · + ar (tr + sh − tr ) . . . (tr + sh − t1 )
Xr X r
k−1
= ak Πj=0 (tr + sh − tr−j ) = ak Πk−1
j=0 (tr + sh − (tr − jh))
k=0 k=0
r r µ ¶
X
k
X −s
= ak h Πk−1
j=0 (s + j) = ak h k!k
(1.95)
k=0 k=0
k
mit den dividierten Differenzen
ak = g[tr , . . . , tr−k ] ∈ R , k = 0, 1, . . . , r . (1.96)
Mittels vollständiger Induktion erhält man für die dividierten Differenzen
(1.95) die Darstellung
∇ k gl
g[tl , . . . , tr−l ] =
0≤k≤l≤r,
k!hk
die zusammen mit (1.95) die Aussage des Lemmas ergibt.
Lemma 1.41. Zu einer gegebenen Funktion g ∈ C r+1 ([c, d]) und zu gegebe-
nen Stützstellen tl = t0 + l h ∈ [c, d], l = 0, 1, . . . , r, bezeichne P ∈ Πr das zu-
gehörige interpolierende Polynom. Der Interpolationsfehler in tr + sh ∈ [c, d]
besitzt die Darstellung
¡ −s ¢ ¾
g(tr + sh) − P(tr + sh) = (−1)r+1 r+1 F (s)hr+1
(1.97)
F (s) = g (r+1) (ξ(s)) ∈ R ,
mit einer geeigneten Zwischenstelle ξ(s) ∈ [c, d] .
Beweis. Mit der (aus der Polynominterpolation...) bekannten Fehlerdarstel-
lung
ω(tr + sh)g (r+1) (ξ(s))
g(tr + sh) − P(tr + sh) = ,
(r + 1)!
wobei ω(t) = (t − t0 ) · · · (t − tr ) gilt, erhält man mit der Darstellung (1.94)
ω(tr + sh) = Πrj=0 (tr + sh − (tr − jh)) = hr+1 Πrj=0 (s + j)
µ ¶
r+1 r+1 −s
= h (−1) (r + 1)! ,
r+1
also die Aussage des Lemmas.

45
1.8.2 Adams-Verfahren
Wir hatten oben die Integralgleichung
Z tl+m
y(tl+m ) − y(tl+m−1 ) = f (t, y(t)) dt , l = 0, 1, . . . , n − m (1.98)
tl+m−1

als Ausgangspunkt für die Konstruktion von Mehrschrittverfahren betrach-


tet. Adams-Verfahren gewinnt man durch Ersetzen des Integranden durch
geeignete Polynome P
Z tl+m
yl+m − yl+m−1 = P(t) dt , l = 0, 1, . . . , n − m . (1.99)
tl+m−1

P ist dabei ein Interpolationspolynom, dass unter Nutzung der Werte

(tj , f (tj , yj )), j = l, l + 1, . . . , l + m − 1

bestimmt wird. Je nach spezieller Wahl von P erhält man explizite oder
implizite Mehrschrittverfahren.

Adams-Bashforth-Verfahren
Wir beginnen mit explizitenen Adams-Verfahren.
Definition 1.42. Für m ≥ 1 erhält man das m-schrittige Adams-Bashforth-
Verfahren durch den Ansatz (1.99) mit

P ∈ Πm−1 , P(tj ) = fj (:= f (tj , yj )), j = l, l + 1, . . . , l + m − 1 . (1.100)

Der folgende Satz liefert eine formelmäßig explizite Darstellung für das Adams-
Bashforth-Verfahren.
Satz 1.43. Das m-schrittige Adams-Bashforth-Verfahren hat die Gestalt
m−1
X
yl+m − yl+m−1 = h γk ∇k fl+m−1 , l = 0, 1, . . . , n − m , (1.101)
k=0

mit den von m unabhängigen Koeffizienten


Z 1µ ¶
k −s
γk = (−1) ds , k = 0, 1, . . . . (1.102)
0 k
die sich rekursiv berechnen durch
1 1 1 1
γ0 + γ1 + γ2 + · · · + γk−1 + γk = 1 für k = 0, 1, . . . . (1.103)
k+1 k k−1 2

46
Beweis. Darstellung (1.101) mit den Koeffizienten (1.102) folgt aus Lemma
1.40, man erhält
Z tl+m Z 1 m+1 Z 1 ¶µ
X
k −s
P(t) = h P(tl+m−1 +sh) ds = h (−1) ds ∇k fl+m−1 .
tl+m−1 0 k=0 | 0 k
{z }
γk
(1.104)
Für den Nachweis der Rekursionsvorschrift (1.103) betrachtet man
∞ ∞ Z 1µ ¶ Z 1X ∞ µ ¶
X
k
X
k −s −s
G(t) := γk t = (−t) ds = [ (−t)k ]ds
k=0 k=0 0 k 0 k=0 k
Z 1
1
= (1 − t)−s ds = − (1 − t)−s |s=1
s=0
0 ln(1 − t)
t
= − , −1 < t < 1 . (1.105)
(1 − t) ln(1 − t)
R P
Die dabei
P∞ vorgenommene
¡ ¢ Vertauschung von und war möglich, da die
k −s
Reihe k=0 (−t) k für s ∈ [0, 1] gleichmäßig konvergiert. Die Darstellung
für G(t) ergibt
− ln(1 − t) 1
G(t) = , |t| < 1 ,
t 1−t
− ln(1−t) 1
bzw. unter Nutzung der Reihen für t
und 1−t

t t2
(γ0 + γ1 t + γ2 t2 + . . . )(1 + + + . . . ) = (1 + t + t2 + . . . ) , (1.106)
2 3
und ein Koeffizientenvergleich ergibt die Rekursionsvorschrift (1.103).
Bemerkung 1.44. Aufgrund von
m−1 m−1 k µ ¶ m−1 m−1
X µk ¶
X
k
XX k
j
X
j
γk ∇ fl+m−1−j = (−1) γk fl+m−1−j = [(−1) γk ] fl+m−1
k=0 k=0 j=0
j j=0 k=j
j
| {z }
=:βm,m−1−j

kann man das m-schrittige Adams-Bashforth-Verfahren (1.101) auf eindeu-


tige Weise in der Form
m−1
X
yl+m − yl+m−1 = h βm,j fl+j , l = 0, 1, . . . , n − m , (1.107)
j=0

schreiben.

47
Die Rekursion (1.103) ergibt für die ersten Koeffizienten
1 5 3 251
γ0 = 1, γ1 = , γ2 = , γ3 = , γ4 = .
2 12 8 720
Mit etwas Rechenarbeit kann man unter Nutzung der Koeffiezienten und der
dividierten Differenzen die folgenden 3-, 4-, 5- und 6-Schritt-Verfahren vom
Adams-Bashforth-Typ herleiten.
h
yk+1 = yk + [23fk − 16fk−1 + 5fk−2 ] , (1.108)
12
h
yk+1 = yk + [55fk − 59fk−1 + 37fk−2 − 9fk−3 ] , (1.109)
24
h
yk+1 = yk + [1901fk − 2774fk−1
720
+2616fk−2 − 1274fk−3 + 251fk−4 ] , (1.110)
h
yk+1 = yk + [4277fk − 7923fk−1
1440
+9982fk−2 − 7298fk−3 + 2877fk−4 − 475fk−5 ].

Die Formeln der Mehrschrittverfahren funktionieren erst ab dem Index k =


m, d.h., bei einem 3-Schrittverfahren braucht man die Werte y0 , y1 , y2 , um
y3 mit der Formel (1.108) berechnen zu können. Die Startwerte y1 , y2 werden
meistens mit einem Runge-Kutta-Verfahren berechnet, wobei evtl. auch meh-
rere Schritte mit kleineren Schrittweiten h̃ < h, z.B. 4 Runge-Kutta-Schritte
mit der Schrittweite h̃ = h/2 zur Berechnung von y1/2 , y1 , y3/2 , y2 benutzt
werden.

Adams-Moulton-Verfahren
Es ist offensichtlich möglich, die Qualität der Lösungsverfahren für das An-
fangswertproblem y ′ = f (t, y), y(a) = y0 , zu erhöhen, indem man das Inte-
gral in der Beziehung (1.78) genauer berechnet. Das soll nun durch die Hin-
zunahme des Stützpunktes (tk+1 , fk+1 ), also die Benutzung des unbekannten
Funktionswertes fk+1 := f (tk+1 , yk+1 ) getan werden. Analog zur Herleitung
der Formel (1.79) erhält man mit dem Ansatz
3
X
p4 (t) = fk−j Lk−j (t)
j=−1

bei Verwendung der Lagrange’schen Basispolynome Lk+1 , ..., Lk−3


3
Z tk+1 X 3
X Z tk+1
yk+1 = yk + fk−j Lk−j (t) dt = yk + fk−j Lk−j (t) dt
tk j=−1 j=−1 tk

48
bzw. nach Auswertung der Integrale
h
yk+1 = yk + [251f (tk+1 , yk+1 ) + 646fk − 264fk−1 + 106fk−2 − 19fk−3 ] .
720
(1.111)
Das Verfahren (1.111) heißt Methode von Adams-Moulton (kurz AM-
Verfahren) und ist eine implizite 4-Schritt-Methode, da die Formel (1.111)
auf beiden Seiten yk+1 enthält und die 4 Werte yk , . . . , yk−3 zur Berechnung
von yk+1 benutzt werden. Für ein implizites 3-Schritt-Verfahren vom Adams-
Moulton-Typ erhält man auf analogem Weg
h
yk+1 = yk + [9f (tk+1 , yk+1 ) + 19fk − 5fk−1 + fk−2 ] . (1.112)
24
Allgemein kann man das Adams-Moulton-Verfahren wie folgt beschreiben.
Definition 1.45. Für m ≥ 1 erhält man das m-schrittige Adams-Moulton-
Verfahren durch den Ansatz (1.99) mit
P ∈ Πm , P(tj ) = fj (:= f (tj , yj )), j = l, l + 1, . . . , l + m . (1.113)
Genau wie beim Adams-Bashforth-Verfahren gibt es prägnante Darstellun-
gen des Verfahrens, es gelten die Aussagen:
Satz 1.46. Das m-schrittige Adams-Moulton-Verfahren hat die Gestalt
m
X
yl+m − yl+m−1 = h γk∗ ∇k fl+m , l = 0, 1, . . . , n − m , (1.114)
k=0

mit den von m unabhängigen Koeffizienten


Z 0µ ¶
∗ k −s
γk = (−1) ds , k = 0, 1, . . . . (1.115)
−1 k
die sich rekursiv berechnen durch γ0∗ = 1 und
1 1 1 1 ∗
γ0∗ + γ1∗ + γ2∗ + · · · + γk−1 + γk∗ = 1 für k = 1, . . . . (1.116)
k+1 k k−1 2
Für die ersten Koeffizienten findet man
1 1 1
γ0∗ = 1, γ1∗ = − , γ2∗ = − , γ3∗ = , .
2 12 24
Zur Bestimmung von yk+1 bei den impliziten Verfahren (1.111) bzw. (1.112)
kann man z.B. eine Fixpunktiteration der Art
(s+1) h (s)
yk+1 = yk + [9f (tk+1 , yk+1 ) + 19fk − 5fk−1 + fk−2 ]
24

49
(0)
zur Lösung von (1.112) durchführen (als Startwert empfiehlt sich yk+1 = yk ).
(0)
Bestimmt man den Startwert yk+1 als Resultat eines expliziten 3-Schritt-
Adams-Bashforth-Verfahrens und führt nur eine Fixpunktiteration durch,
dann erhält man in Analogie zum Heun-Verfahren das Prädiktor-Korrektor-
Verfahren
(p) h
yk+1 = yk + [23fk − 16fk−1 + 5fk−2 ] ,
12
h (p)
yk+1 = yk + [9f (tk+1 , yk+1 ) + 19fk − 5fk−1 + fk−2 ] . (1.117)
24
Diese Kombination von Adams-Bashforth- und Adams-Moulton-Verfahren
bezeichnet man als Adams-Bashforth-Moulton-Verfahren (kurz als
ABM-Verfahren). Das ABM-Verfahren (1.117) hat ebenso wie das Verfahren
(1.112) den lokalen Diskretisierungsfehler τ = O(h5 ) und damit die Fehler-
ordnung 4. 8. Vor-
Generell kann man mit dem Lemma (1.47) zeigen, dass m-Schritt-Verfahren lesung
vom AM- oder ABM-Typ durch die geeignete Wahl der Koeffizienten ak , bk am
jeweils die Fehlerordnung p = m + 1 haben. Im folgenden Abschnitt werden 04.11.2009
wir Konstruktionsvorschriften für allgemeine lineare Mehrschrittverfahren
mit maximaler Fehlerordnung besprechen.

Bei den bisher betrachteten konkreten Mehrschrittverfahren haben wir die


zurückliegenden Werte yk , . . . , yk−m+1 nur benutzt, um das Integral in (1.78)
möglichst genau zu approximieren. Schreibt man das 3-Schritt-Adams-
Bashforth-Verfahren (1.108) in der Form
yk+1 − yk 1
= [23fk − 16fk−1 + 5fk−2 ]
h 12

auf, dann ist die rechte Seite eine Approximation des Funktionswertes von
f an der Stelle (tk , yk ) von der Ordnung O(h3 ). Die linke Seite ist allerdings
nur eine Approximation der Ordnung O(h) von y ′ an der Stelle tk . Da man
die Werte yk , yk−1 , yk−2 sowieso benutzt, kann man sie auch verwenden, um
die Ableitung y ′ genauer zu approximieren. Das ist die Grundidee der allge-
meinen linearen Mehrschrittverfahren. In den bisher behandelten Verfahren
war jeweils am = 1 und am−1 = −1 sowie am−2 = · · · = a0 = 0. Bei explizi-
ten Verfahren ist bm = 0 und bei impliziten Verfahren ist bm 6= 0. Ohne die
Allgemeinheit einzuschränken, setzen wir im Folgenden am = 1. Die anderen
2m−1 freien Parameter aj , bj sind so zu wählen, dass die linke und die rechte
Seite von (1.80) Approximationen von
Z tk+1
α[y(tk+1 ) − y(tk )] bzw. α f (t, y(t)) dt
tk

50
sind, wobei α eine von Null verschiedene Zahl ist. Später werden wir mit den
BDF-Verfahren spezielle lineare Mehrschrittverfahren behandeln, bei denen
nur der Koeffizient bm 6= 0 ist und alle anderen Koeffizienten bk gleich Null
sind.

1.8.3 Konsistenzordnung linearer Mehrschrittverfah-


ren
Im Folgenden sollen Vorschriften zur Konstruktion konsistenter Mehrschritt-
verfahren, d.h. Verfahren mit einer Fehlerordnung p ≥ 1 erarbeitet werden.
Dazu betrachten wir das folgende

Lemma 1.47. Sind für das lineare m-Schrittverfahren


m
X m
X
aj yl+j = h bj f (tj+l , yj+l ) , l = 0, 1, . . . , n − m,
j=0 j=0

mit einer (p + 1)-mal stetig differenzierbaren Funktion f : [a, b] × R → R


(p ≥ 1) die Gleichungen
m
X
[j ν aj − νj ν−1 bj ] = 0 , ν = 0, 1, . . . , p, (1.118)
j=0

erfüllt, so ist das m-Schrittverfahren konsistent mit der Fehlerordnung p. Es


gilt die Darstellung
)
τ (t, h) = Cp+1 y (p+1) (t)hp+1 + O(hp+2 ) für h → 0,
P j p+1 aj j p bj (1.119)
mit Cp+1 = m j=0 [ (p+1)! − p! ] .

Beweis. Die Lösung y(t) des AWPs ist (p + 2)-mal stetig differenzierbar auf-
grund der Voraussetzung über f . Taylorentwicklungen von y und y ′ im Punkt
t ∈ [a, b − mh] ergeben
Pp+1(jh)ν (ν)
y(t + jh) = ν=0 ν! y (t) + O(hp+2 )
Pp (jh)ν (ν+1) (1.120)
y ′ (t + jh) = ν=0 ν! y (t) + O(hp+1 ) .

51
Für den lokalen Verfahrensfehler folgt daraus
m
X
τ (t, h) = [aj y(t + jh) − hbj f (t + jh, y(t + jh))]
j=0
Xm
= [aj y(t + jh) − hbj y ′ (t + jh)]
j=0
p+1 m
XX y (ν) ν
= [ [j ν aj − νj ν−1 bj ]] h + O(hp+2 ), (1.121)
ν=0 j=0
ν!
b−t
0<h≤ .
m
Da nach Voraussetzung die ersten p + 1 Faktoren
m
X
cν := [ [j ν aj − νj ν−1 bj ] , ν = 0, 1, . . . , p,
j=0

gleich Null sind, ergibt (1.121) die Aussage des Lemmas.


Mit dem Lemma erhält mit der Bedingung c0 = · · · = cp = 0 Bestim-
mungsgleichungen für die Koeffizienten des Mehrschrittverfahrens. Damit das
Mehrschrittverfahren (1.80) überhaupt zur numerischen Lösung des Anfangs-
wertproblems taugt, muss es konsistent sein, d.h. die Fehlerordnung muss
mindestens gleich 1 sein.
Für die Koeffizienten cj ergibt sich konkret
c 0 = a0 + a1 + · · · + a m ,
c1 = a1 + 2a2 + · · · + mam − (b0 + b1 + · · · + bm ) ,
c2 = (a1 + 22 a2 + · · · + m2 am ) − 2(b1 + 2b2 + · · · + mbm ) ,
..
.
cr = (a1 + 2r a2 + · · · + mr am ) − r(b1 + 2r−1 b2 + · · · + mr−1 bm )
(1.122)
für r = 2, 3, . . . , p.
Beispiel 1.48. Es soll ein explizites 2-Schritt-Verfahren
a0 yk−1 + a1 yk + a2 yk+1 = h[b0 fk−1 + b1 fk ]
der Ordnung 2 bestimmt werden. Mit der Festsetzung a2 = 1 ergibt sich für
c0 , c1 , c2
c0 = a0 + a1 + 1 = 0 ,
c1 = a1 + 2 − (b0 + b1 ) = 0 ,
c2 = (a1 + 4) − 2b1 = 0 .

52
Zur Bestimmung von 4 Unbekannten stehen 3 Gleichungen zur Verfügung,
also ist eine Unbekannte frei wählbar. Die Festlegung von a1 = 0 führt auf
die Lösung a0 = −1, b0 = 0 und b1 = 2, so dass das 2-Schritt-Verfahren die
Form
yk+1 = yk−1 + h 2 fk (1.123)
hat.
Es wurde schon darauf hingewiesen, dass nur konsistente Verfahren (Ordnung
mindestens gleich 1) von Interesse sind. Aus dem Gleichungssystem (1.122)
kann mit dem ersten und zweiten charakteristischen Polynom
m
X m
X
j
ρ(z) = aj z , σ(z) = bj z j (1.124)
j=0 j=0

des Mehrschrittverfahrens (1.80) eine notwendige und hinreichende Bedin-


gung für die Konsistenz formulieren.
Satz 1.49. (notwendige und hinreichende Bedingung für die Konsistenz)
Notwendig und hinreichend für die Konsistenz des Mehrschrittverfahrens
(1.80) ist die Erfüllung der Bedingungen

c0 = ρ(1) = 0 , c1 = ρ′ (1) − σ(1) = 0 . (1.125)

Macht man außer der Wahl von a2 = 1 keine weiteren Einschränkungen an


die Koeffizienten des expliziten 2-Schritt-Verfahrens

a0 yk−1 + a1 yk + a2 yk+1 = h[b0 fk−1 + b1 fk ] ,

dann erreicht man die maximale Ordnung p = 3 durch die Lösung des Glei-
chungssystems (1.122) für q = 3, also cj = 0 (j = 0, 1, 2, 3). Man findet die
eindeutige Lösung

a0 = −5 , a1 = 4 , b0 = 2 , b1 = 4

und damit das Verfahren

yk+1 = 5yk−1 − 4yk + h[4fk + 2fk−1 ] . (1.126)

Obwohl das Verfahren die maximale Fehlerordnung p = 3 hat, ist es im


Vergleich zum Verfahren (1.123) unbrauchbar, weil es nicht nullstabil ist.
Das soll im Folgenden genauer untersucht werden. Wir betrachten dazu die
Testdifferentialgleichung

y ′ = λy , y(0) = 1 λ ∈ R, λ < 0 , (1.127)

53
von der wir die exakte abklingende Lösung y(t) = eλt kennen. Von einem
brauchbaren numerischen Lösungsverfahren erwartet man mindestens die
Widerspiegelung des qualitativen Lösungsverhaltens. Mit f = λy folgt für
das Verfahren (1.126)

(−5 − λh2)yk−1 + (4 − λh4)yk + yk+1 = 0 . (1.128)

Macht man für die Lösung yk der Differenzengleichung (1.128) den Ansatz
yk = z k , z 6= 0, dann erhält man durch Einsetzen in (1.128) nach Division
durch z k−1

(−5 − λh2) + (4 − λh4)z + z 2 = 0 ⇐⇒ φ(z) = ρ(z) − λhσ(z) = 0 (1.129)

mit den ersten und zweiten charakteristischen


p Polynomen der Methode
(1.126). Die Nullstellen z1,2 = −2 + λh2 ± (2 − λh2)2 + 5 + λh2 von φ(z)
aus (1.129) liefern die allgemeine Lösung von (1.128)

yk = c1 z1k + c2 z2k (c1 , c2 beliebig) . (1.130)

Die Konstanten c1 , c2 sind mit den vorzugebenden Startwerten der 2-Schritt-


Methode y0 , y1 eindeutig als Lösung des linearen Gleichungssystems
c 1 + c 2 = y0 ,
z1 c1 + z2 c2 = y1

festgelegt. Notwendig (nicht unbedingt hinreichend) für das Abklingen der


Lösung yk in der Form (1.130) für wachsendes k ist die Bedingung |z1,2 | ≤ 1.
Da für h → 0 die Nullstellen von φ(z) in die Nullstellen des ersten charakteris-
tischen Polynoms übergehen, dürfen diese dem Betrage nach nicht größer als
1 sein. Im Fall einer doppelten Nullstelle z von φ(z) eines 2-Schritt-Verfahrens
hat die Lösung yk der entsprechenden Differenzengleichung die Form

yk = c1 z k + c2 kz k ,

so dass das Abklingen der Lösung yk unter der stärkeren Bedingung |z| < 1
erreicht wird. Die Überlegungen zeigen die Bedeutung der Nullstabilität für
Qualität von Mehrschrittverfahren.
Man erkennt, dass aufgrund der Nullstellen z1,2 = −2 ± 3 des ersten cha-
rakteristischen Polynoms ρ(z) das Verfahren (1.126) der Ordnung 3 nicht
nullstabil ist. Im Unterschied dazu ist das Verfahren (1.123) der Ordnung 2
mit dem ersten charakteristischen Polynom ρ(z) = −1 + z 2 und den Null-
stellen z1,2 = ±1 nullstabil.
Generell erkennt man leicht an den ersten charakteristischen Polynomen, dass
Adams-Bashforth- und Adams-Moulton-Verfahren nullstabil sind.

54
1.8.4 Stabilität von Lösungsverfahren
Im vorangegangenen Abschnitt wurde die Nullstabilität von m-Schritt-Ver-
fahren als Kriterium für die Tauglichkeit der Verfahren zur korrekten Wieder-
gabe des Abklingverhaltens der numerischen Lösung im Vergleich zur Lösung
der Testaufgabe (1.127) behandelt. Nun soll der Begriff der absoluten Stabi-
lität von Verfahren eingeführt werden. Ausgangspunkt ist wiederum eine im
Vergleich zu (1.127) leicht modifizierte Testaufgabe

y ′ = λy , y(0) = 1 , λ ∈ R oder λ ∈ C , (1.131)

mit der Lösung y(t) = eλt . Die Zulässigkeit von komplexen Zahlen λ bein-
haltet z.B. auch den Fall von Lösungen der Form eαt cos(βt). Eine solche
Situation kann entstehen, wenn man es mit Differentialgleichungen höherer
Ordnung oder Systemen erster Ordnung zu tun hat. Das Differentialglei-
chungsystem
y′ = Ay
mit der reellen (n × n)-Matrix A und y : [a, b] → Rn kann man unter der
vereinfachenden Annahme der Diagonalisierbarkeit von A mit einer orthogo-
nalen Matrix C überführen in das äquivalente System

Cy′ = CAC −1 Cy ⇐⇒ z′ = Dz (z := Cy) ,

wobei die Diagonalmatrix D = CAC −1 = (dij ) mit djk = λk die Eigenwerte


der Matrix A enthält, die im Allg. komplex sind. Die entkoppelten Diffe-
rentialgleichungen zk′ = λk zk , i = 1, . . . , n haben dann die Form unserer
Testaufgabe (1.131) (s. auch obige Diskussion von (1.6)).
Die numerischen Verfahren sollen auch in diesem Fall im Allg. komplexer
Zahlen λ für α = Re(λ) < 0 den dann stattfindenden Abklingprozess korrekt
wiedergeben. Betrachtet man das Euler-Verfahren

yk+1 = yk + hf (tk , yk ) ,

dann erhält man mit f (t, y) = λy

yk+1 = yk + hλyk ⇐⇒ yk+1 = (1 + hλ)yk =: F (hλ)yk .

Falls λ > 0 und reell ist, wird die Lösung, für die y(tk+1 ) = y(tk + h) =
ehλ y(tk ) gilt, in jedem Fall qualitativ richtig wiedergegeben, denn der Faktor
F (hλ) = 1 + λh besteht ja gerade aus den ersten beiden Summanden der e-
Reihe, und es wird ein Fehler der Ordnung 2 gemacht, was mit der Ordnung
1 des Euler-Verfahrens korreliert. Im Fall eines reellen λ < 0 wird nur unter

55
der Bedingung |F (hλ)| = |1 + hλ| < 1 das Abklingverhalten der Lösung
beschrieben. Der Fall λ < 0 und reell ist deshalb im Folgenden von Interesse.
Beim Kutta-Verfahren 3. Ordnung
1 1
k1 = f (tk , yk ), k2 = f (tk + h, yk + h k1 ), k3 = f (tk + h, yk − hk1 + 2hk2 )
2 2
h
yk+1 = yk + [k1 + 4k2 + k3 ] .
6
ergeben die gleichen Überlegungen
1 1
k1 = λyk , k2 = λ(yk + hk1 ) = (λ + hλ2 )yk ,
2 2
k3 = λ(yk − hk1 + 2hk2 ) = (λ + hλ2 + h2 λ3 )yk ,
h 1 1
yk+1 = yk + [k1 + 4k2 + k3 ] = (1 + hλ + h2 λ2 + h3 λ3 )yk (1.132)
,
6 2 6
also yk+1 als Produkt von yk mit dem Faktor
1 1
F (hλ) = 1 + hλ + h2 λ2 + h3 λ3 . (1.133)
2 6
Der Faktor (1.133) enthält gerade die ersten 4 Summanden der e-Reihe und es
wird ein Fehler der Ordnung 4 gemacht, so dass die Lösung y(t) = eλt qualita-
tiv durch (1.132) beschrieben wird. Für reelles λ < 0 muss die Lösung abklin-
gen, was nur bei |F (hλ)| < 1 erreicht wird. Wegen limhλ→−∞ F (hλ) = −∞
ist die Bedingung |F (hλ)| < 1 nicht für alle negativen Werte von hλ erfüllt.
Auch im Fall einer komplexen Zahl λ sollte für den Fall α = Re(λ) < 0 durch
das numerische Verfahren das Abklingverhalten qualitativ korrekt beschrie-
ben werden. Das ist der Fall, wenn die Bedingung |F (hλ)| < 1 erfüllt ist.
Offensichtlich arbeiten die numerischen Verfahren genau dann stabil, wenn
die Bedingung |F (hλ)| < 1 erfüllt ist. Damit ist die folgende Definition ge-
rechtfertigt.

Definition 1.50. (Gebiet der absoluten Stabilität eines Einschrittverfahrens)


Für ein Einschrittverfahren, das für das Testanfangswertproblem (1.131) auf
yk+1 = F (hλ)yk führt, nennt man die Menge

B = {µ ∈ C | |F (µ)| < 1} (1.134)

Gebiet der absoluten Stabilität. Enthält das Gebiet der absoluten Sta-
bilität B eines Verfahrens die gesamte linke Halbebene G = {z = a + i b ∈
C, a < 0}, dann nennt man das Verfahren A-stabil.

56
Um mit einem Einschrittverfahren im Fall Re(λ) < 0 das Abklingen des
Betrages der Lösung zu sichern, ist also eine Schrittweite h zu wählen, so
dass µ = hλ ∈ B gilt. Hat man es mit mehreren Abklingkonstanten λj
mit Re(λj ) < 0 zu tun, muss hλj ∈ B für alle j gelten. Das Gebiet der
absoluten Stabilität liefert also eine Information zur Wahl der Schrittweite
h. Da man allerdings in den meisten Fällen evtl. Abklingkonstanten des von
der zu lösenden Differentialgleichung beschriebenen Modells nicht kennt, hat
man in der Regel keine quantitative Bedingung zur Wahl der Schrittweite
zur Verfügung.
In der Abbildung 1.2 sind die Gebiete der absoluten Stabilität für das expli-
zite Euler-Verfahren 1. Ordnung (F (µ) = F (hλ) = 1 + hλ) und ein explizites
Runge-Kutta-Verfahren 2. Ordnung (F (µ) = F (hλ) = 1 + hλ + h2 λ2 /2)
skizziert. Den Rand des Gebietes der absoluten Stabilität des Runge-Kutta-

Runge−Kutta−
Verfahren
Euler−Verfahren
1

−2 −1 0 1

−1

−2

Abbildung 1.2: Gebiete der absoluten Stabilität

Verfahrens (1.132) erhält man wegen |eiθ | = 1 über die Parametrisierung


1
F (µ) = 1 + µ + µ2 = eiθ (θ ∈ [0, 2π]) ,
2
so dass die Lösungen der quadratischen Gleichung µ2 + 2µ + 2 − 2eiθ = 0
p
µ(θ) = −1 ± 1 − 2 + 2eiθ (θ ∈ [0, 2π])

gerade die Randpunkte ergeben. Die Gebiete der absoluten Stabilität für
explizite Verfahren höherer Ordnung werden größer als in den betrachteten
Fällen, wobei die Bestimmung der Gebiete recht aufwendig ist. In der folgen-
den Tabelle sind die reellen Stabilitätsintervalle, d.h. die Schnittmenge der
Gebiete der absoluten Stabilität mit der Re(µ)-Achse, für explizite r-stufige

57
r Stabilitätsintervall
1 ] − 2, 0[
2 ] − 2, 0[
3 ] − 2, 51, 0[
4 ] − 2, 78, 0[
5 ] − 3, 21, 0[

Tabelle 1.1: Stabilitätsintervalle expliziter Runge-Kutta-Verfahren

Runge-Kutta-Verfahren angegeben.

Besonders komfortabel ist die Situation, wenn das Gebiet der absoluten Sta-
biltät eines Verfahrens mindestens aus der gesamten linken Halbebene, d.h.
B ⊇ {µ ∈ C | Re(µ) < 0}, besteht, also im Falle der A-Stabilität. Dann gibt
es keine Einschränkungen für die Schrittweite.
Unter den Einschrittverfahren sind die folgenden impliziten Runge-Kutta-
Verfahren A-stabil.
k1 = f (tk + 12 h, yk + 21 hk1 )
(1.135)
yk+1 = yk + hk1 ,
√ √
k1 = f (tk + 3−6√3 h, yk + 41 hk√1 + 3−2
12
3
hk2 )
3+ 3 3+2 3
k2 = f (tk + 6 h, yk + 12 hk1 + 4 hk2 ) 1 (1.136)
yk+1 = yk + h2 [k1 + k2 ] .
Für (1.135) erhält man mit f = λy
1 λ
k1 = λ(yk + hk1 ) =⇒ k1 = yk ,
2 1 − 12 hλ
hλ 1 + 12 hλ
yk+1 = yk + hk1 = yk + yk = yk = F (hλ)yk .
1 − 12 hλ 1 − 21 hλ

Der Faktor F (hλ) ist für λ mit negativem Realteil α = Re(λ) < 0 dem
Betrage nach kleiner als 1, denn es gilt für negatives a offensichtlich

|1 + a + b i| < |1 − a − b i| . (1.137)

Für das implizite Runge-Kutta-Verfahren 2. Ordnung (1.136) erhält man auf


ähnliche Weise
1 2 2
1 + 12 hλ + 12 hλ
F (hλ) = 1 1 2 2
1 − 2 hλ + 12 h λ
und stellt ebenso wie bei (1.135) die absolute Stabilität fest, weil |F (hλ)| < 1
aus (1.137) folgt.

58
Für die Trapezmethode yk+1 = yk + h2 (f (tk , yk ) + f (tk+1 , yk+1 ) erhält man
den gleichen Faktor F (hλ) wie im Fall des Runge-Kutta-Verfahrens (1.135)
so dass die absolute Stabilät folgt.
9. Vor-
Bei den Mehrschrittverfahren (1.80) versteht man unter Stabilität ebenfalls lesung
die Verfahrenseigenschaft, dass im Fall Re(λ) < 0 die numerische Lösung der am
Testaufgabe (1.131) das Abklingverhalten der analytischen Lösung der Auf- 10.11.2009
gabe hat. Wir erhalten mit den Nullstellen z1 , . . . , zm der charakteristischen
Gleichung φ(z) = ρ(z)−hλσ(z) des jeweiligen Verfahrens für die Testaufgabe
im Fall paarweise verschiedener Nullstellen

yk = c1 z1k + c2 z2k + · · · + cm zm
k

als numerische Lösung. yk klingt mit wachsendem k genau dann ab, wenn
|zj | < 1 für alle j gilt. Das führt auf die

Definition 1.51. (Gebiet der absoluten Stabilität eines Mehrschrittverfah-


rens)
Das Gebiet der absoluten Stabilität eines Mehrschrittverfahrens (1.80)
besteht aus den Zahlen µ = h λ, für die die charakteristische Gleichung
ρ(z) − hλσ(z) = 0 nur Lösungen zj ∈ C aus dem Inneren des Einheitskreises
hat.

Die Lokalisierung des Randes des Gebietes der absoluten Stabilität ist durch
die Gleichung |z| = 1 möglich. Man bestimmt µ = hλ aus der charakteris-
tischen Gleichung mit den Punkten des Einheitskreises z = eiθ , θ ∈ [0, 2π]
und erhält mit
ρ(z) ρ(eiθ )
µ(z(θ)) = =
σ(z) σ(eiθ )
die Randpunkte. Für das Adams-Bashforth-Verfahren (1.79) ergibt sich kon-
kret
24z 4 − 24z 3 24ei4θ − 24ei3θ
µ(z(θ)) = =
55z 3 − 59z 2 + 37z − 9 55ei3θ − 59ei2θ + 37eiθ − 9
als Randkurve, die in der Abb. 1.3 skizziert ist. Bei der Bestimmung der Ge-
biete der absoluten Stabilität zeigt sich, dass die Adams-Moulton-Methoden
größere Stabilätsbereiche als die Adams-Bashforth-Methoden haben. Für das
3-Schritt-AM-Verfahren (1.112) ergibt sich mit dem ersten und zweiten cha-
rakteristischen Polynom
9 3 19 2 5 1
ρ(z) = z 3 − z 2 und σ(z) = z + z − z+
24 24 24 24

59
Adams−Bashforth−
Verfahren
Adams−Moulton−
1 Verfahren

−3 −2 −1 0 1

−1

−2

Abbildung 1.3: Gebiete der absoluten Stabilität von AB- und AM-Verfahren

der Rand des Gebietes der absoluten Stabilität als


24z 3 − 24z 2 24ei3θ − 24ei2θ
µ(z(θ)) = = (θ ∈ [0, 2π]) ,
9z 3 + 19z 2 − 5z + 1 9ei3θ + 19ei2θ − 5eiθ + 1
der in der Abb. 1.3 im Vergleich zum AB-Verfahren skizziert ist.

1.8.5 BDF-Verfahren
Mehrschritt-Verfahren (1.80), bei denen bis auf den Koeffizienten bm alle
anderen b-Koeffizienten gleich null sind, also Verfahren der Form
m
X
aj yl+j = hbm f (tl+m , yl+m ) , (1.138)
j=0

werden Rückwärtsdifferentiationsmethoden oder kurz BDF-Verfahren


(backward differentiation formula) genannt. Die Idee dieser Verfahren be-
steht darin, ausgehend von den Wertepaaren (tl , yl ), . . . , (tl+m , yl+m ) ein In-
terpolationspolynom P zur Approximation von y(t) zu bestimmen, wobei
yl , . . . , yl+m− bekannte Werte sind, und durch P ′ (tl+m ) = f (tl+m , yl+m ), also
die Nutzung der Differentialgleichung, eine Gleichung zur Berechnung von
yl+m zu verwenden.
Definition 1.52. Für m ≥ 1 erhält man das m-schrittige BDF-Verfahren,
indem man ausgehend von yl , . . . , yl+m für das Interpolationspolynom
P ∈ Πm , P(tj ) = yj , j = l, l + 1, . . . , l + m , (1.139)
die Erfüllung der Bedingung
P ′ (tl+m ) = fl+m (= f (tl+m , yl+m )) (1.140)
fordert.

60
Bei der Konstruktion von BDF-Verfahren hilft der

Satz 1.53. Das m-schrittige BDF-Verfahren hat die Gestalt


m
X 1
∇k yl+m = hfl+m , l = 0, 1, . . . , n − m . (1.141)
k=1
k

Beweis. Das Polynom P nach (1.139) hat wie früher gezeigt die Darstellung
m µ ¶
X
k −s
P(tl+m + sh) = (−1) ∇k yl+m , s ∈ R, (1.142)
k=0
k

wobei yl+m als Parameter noch frei ist. Zur Anpassung an die Bedingung
(1.140) wird (1.142) differenziert, man erhält
m µ ¶
′ 1 d 1X k d −s
P (tl+m ) = P(tl+m + sh)|s=0 = (−1) |s=0 ∇k yl+m ,
h ds h k=0 ds k
¡ ¢
und wegen −s0
= 1 und der Definition des verwendeten Binomialkoeffizien-
ten
µ ¶
d −s d (−s)(−s − 1) · · · (−s − k + 1) (−1) · · · (−k + 1)
|s=0 = |s=0 =
ds k ds k! k!
k
1 · 2 · · · (k − 1) (−1)
= (−1)k = .
k! k!
Für k ≥ 1 erhält man die Äquivalenz von (1.141) und (1.139), (1.140).

Bemerkung 1.54. Das m-schrittige BDF-Verfahren (1.141) kann man auch


auf eindeutige Weise in der Form
m
X
αm,j yl+m = hfl+m , l = 0, 1, . . . , n − m,
k=1

schreiben, wobei sich für die von m abhängigen Koeffizienten αm,j


m m k µ ¶ m m µ ¶
X 1 k
X 1X k j
X
j
X 1 k
∇ yl+m = (−1) yl+m−j = [(−1) ] yl+m−j
k=1
k k=1
k j=0 j j=0
k j
k=max{j,1}
| {z }
=:αm,m−j

ergibt.

61
Die einfachsten 2- und 3-Schritt-BDF-Verfahren 2. und 3. Ordnung haben
die Form
3 1
yk+1 − 2yk + yk−1 = hf (tk+1 , yk+1 ) , (1.143)
2 2
11 3 1
yk+1 − 3yk + yk−1 − yk−2 = hf (tk+1 , yk+1 ) . (1.144)
6 2 3
Das einfachste BDF-Verfahren ist das so genannte Euler-rückwärts-Verfahren

yk+1 − yk = hf (tk+1 , yk+1 ) . (1.145)

Für das Euler-rückwärts-Verfahren findet man für das Testproblem y ′ = λy


schnell mit der Beziehung
1
yk+1 = yk = F (hλ)yk
1 − hλ
heraus, dass |F (hλ)| < 1 für Re(λ) < 0 ist. D.h., das Euler-rückwärts-
Verfahren ist absolut stabil. Das BDF-Verfahren (1.143) hat die charakte-
ristische Gleichung

3 1 3z 2 − 4z + 1
φ(z) = z 2 − 2z + − µz 2 = 0 ⇐⇒ µ(z) = .
2 2 2z 2
Für die Punkte z = eiθ , θ ∈ [0, 2π] erhält man die in der Abb. 1.4 skizzierte
Randkurve µ(z(θ)) des Gebiets der absoluten Stabilität. Da man z.B. für µ =
− 21 die Lösung z1,2 = 12 mit |z1,2 | < 1 findet, kann man schlussfolgern, dass
der Bereich der absoluten Stabilität im Außenbereich der Randkurve liegt.
Damit ist das Verfahren (1.143) absolut stabil. Das Verfahren (1.144) ist nicht
absolut stabil, weil das Gebiet der absoluten Stabilität nicht die gesamte linke
komplexe Halbebene enthält. In der Abb. 1.4 ist der Rand des Gebietes der
absoluten Stabilität des Verfahrens skizziert. Das Gebiet liegt wiederum im
Außenbereich der Randkurve. In solchen Situationen kann man den Winkel
α zwischen der reellen Achse und einer Tangente an die Randkurve durch
den Ursprung legen. Bei dem BDF-Verfahren (1.144) ist der Winkel α = 88o ,
so dass das Verfahren A(88o )-stabil ist. A(90o )-Stabilität bedeutet absolute
Stabilität. Liegt der Winkel α nahe bei 90o , dann liegt zwar kein absolut
stabiles, jedoch ein ”sehr” stabiles Verfahren vor. Bei BDF-Verfahren höherer
Ordnung wird der Winkel α kleiner, so dass die Stabilität der BDF-Verfahren
nachlässt, jedoch zumindest noch A(α)-stabil sind. Zur Illustration ist das
Gebiet der absoluten Stabilität des 4-Schritt-BDF-Verfahrens
25 4 1
yk+1 − 4yk + 3yk−1 − yk−2 + yk−3 = hf (tk+1 , yk+1 ) , (1.146)
12 3 4

62
BDF−Verfahren
2.Ordnung
3.Ordnung 4
4.Ordnung

72°

−4 0 4 8

−4

−8

Abbildung 1.4: Gebiete der absoluten Stabilität der BDF-Verfahren (1.143),


(1.144) und (1.146)

also die Kurve


25 4
12
z − 4z 3 + 3z 2 − 34 z + 1
4
25 i4θ
12
e − 4ei3θ + 3ei2θ − 34 eiθ + 1
4
µ(z(θ)) = = ,
z4 ei4θ
θ ∈ [0, 2π], in der Abbildung 1.4 im Vergleich zu den Verfahren (1.143) und
(1.144) skizziert. Das Verfahren (1.146) ist A(72o )-stabil.
Zur Konvergenz von BDF-Verfahren notieren wir den

Satz 1.55. Das m-schrittige BDF-Verfahren ist genau für 1 ≤ m ≤ 6 null-


stabil. Für hinreichend glatte Funktionen f besitzt es die Konvergenzordnung
p = m.

1.9 Steife Differentialgleichungen


Differentialgleichungssysteme, die physikalische oder chemische Prozesse be-
schreiben, haben oft Lösungen, die sich aus sehr unterschiedlich schnell ab-
klingenden Komponenten zusammensetzen. Das passiert dann, wenn Teilpro-
zesse mit stark unterschiedlichen Geschwindigkeiten ablaufen. Man spricht
hier auch von Teilprozessen mit sehr unterschiedlichen Zeitkonstanten.
Als Beispiel soll hier das lineare Differentialgleichungssystem

y1′ = −y1 + 50y2


y2′ = −70y2

mit den Anfangswerten y1 (0) = 1 und y2 (0) = 10 betrachtet werden. Als


Lösung findet man mit der Eigenwertmethode mit den Eigenwerten λ1 = −1,

63
λ2 = −70 und den dazugehörigen Eigenvektoren ~v1 = (1, 0)T bzw. ~v2 =
(−50, 69)T unter Berücksichtigung der Anfangsbedingungen

y1 (t) = 8, 24638e−t − 7, 2464e−70t , y2 (x) = 10e−70t .

Um die am schnellsten abklingende Komponente mit einer Genauigkeit von


ǫ = 10−4 durch ein numerisches Lösungsverfahren zu erfassen, muss man die
Schrittweite h so wählen, dass e−70h mit F (−70h)e0 = F (−70h) auf fünf
Stellen übereinstimmt. Bei dem Runge-Kutta-Verfahren 3. Ordnung (1.132)
mit
1 1
F (λh) = 1 + hλ + h2 λ2 + h3 λ3
2 6
bedeutet das aufgrund des Restglieds der Taylor-Reihenentwicklung der e-
Reihe die Erfüllung der Ungleichung
1
|e−70h − F (−70h)| ≤ (70h)4 ≤ 10−6 ,
24
was mit h = 0, 001 möglich ist. Nach 100 Schritten ist die
Lösungskomponente mit der Abklingfunktion e−70t gegenüber der langsa-
mer abklingenden Komponente e−t schon sehr klein geworden (e−70·0,1 =
0, 00091188 < e−0,1 = 0, 90484). Deshalb kann man im weiteren Verlauf der
numerischen Integration die Schrittweite erhöhen durch die Forderung der
Übereinstimmung von e−h mit F (−h) auf fünf Stellen. Die entsprechende
Ungleichung
1
|e−h − F (−h)| ≤ h4 ≤ 10−6
24
wird mit h = 0, 069 erfüllt. Da −70h = −4, 8995 < −2, 17 außerhalb des In-
tervalls der absoluten Stabilität des 3-stufigen Runge-Kutta-Verfahrens liegt
(s. dazu Tab. 1.1), kann man die numerische Integration aber zumindest mit
−70
der Schrittweite h = −2,17 = 0, 031 stabil fortsetzen. Allerdings ist dieses
Beispiel mit S = |λ2 /λ1 | = 70 (s. dazu Def. 1.56) nicht sehr steif. Von steifen
Systemen spricht man etwa ab S = 103 .
Das Beispiel zeigt in etwa die Problematik der Lösung von Differential-
gleichungen bzw. Systemen, mit denen Prozesse mit stark unterschiedli-
chen abklingenden Teilprozessen beschrieben werden. Um überhaupt etwas
von dem Abklingprozess mit der Konstanten λ2 = −70 im numerischen
Lösungsprozess wiederzuerkennen, darf man auf keinen Fall mit maxima-
len Schrittweiten h gemäß Stabilitätsintervall des Verfahrens am Beginn der
Rechnung arbeiten. Die Schrittweiten müssen zum jeweils relevanten Ab-
klingverhalten der Lösung passen.
Der Begriff der Steifheit soll für ein lineares Differentialgleichungssystem er-
klärt werden.

64
Definition 1.56. (Steifheit eines Differentialgleichungssystems)
Das lineare Differentialgleichungssystem mit der Matrix A vom Typ n × n

~y ′ (t) = A~y (t) + ~b(t) (~y (t), ~b ∈ Rn ) (1.147)

heißt steif, falls die Eigenwerte λj (j = 1, . . . , n) von A sich sehr stark


unterscheidende negative Realteile besitzen. Als Maß S der Steifheit des Dif-
ferentialgleichungssystems (1.147) gilt der Quotient der Beträge der absolut
größten und kleinsten Realteile der Eigenwerte
max1≤j≤n |Re(λj )|
S= . (1.148)
min1≤j≤n |Re(λj )|
Das oben beschriebene Phänomen der Steifheit tritt sehr häufig bei nichtli-
nearen Differentialgleichungssystemen

~y ′ (t) = F~ (t, ~y (t)) (~y (t) ∈ Rn ) (1.149)

auf und es entsteht das Problem, dass man die Abklingkonstanten nicht a
priori kennt. Man kann aber versuchen, die Steifheit von (1.149) durch eine
schrittweise Linearisierung zu analysieren. Ausgehend von einer bekannten
Näherung ~yk an der Stelle tk kann man den Ansatz ~y (t) = ~yk + ~z(t) für
tk ≤ t ≤ tk + h für eine kleine Schrittweite h und einen Änderungsvektor ~z(t)
mit einer kleinen Länge machen. Aus (1.149) folgt dann

~y ′ (t) = ~z ′ (t) = F~ (t, ~y (t)) = F~ (tk + (t − tk ), ~yk + ~z(t)) (~z(t) ∈ Rn ) . (1.150)

In Verallgemeinerung der Linearisierung einer Funktion zweier Veränderlicher


∂f ∂f
f (t + ∆t, y + ∆y) ≈ f (t, y) + (t, y)∆t + (t, y)∆y
∂t ∂y
erhält man für (1.150) die Linearisierung

∂ F~
~z ′ (t) ≈ (tk , ~yk )(t − tk ) + F~ ′ (tk , ~yk )~z(t) , (1.151)
∂t
wobei
 ∂f1 ∂f1

 ∂f1  ∂y1 (tk , ~yk ) ... ∂yn (tk , ~yk )
∂t (tk , ~
yk )  ∂f2
(t , ~
yk ) ... ∂f2
(t , ~
yk ) 
∂ F~  ..  ~ ′
 ∂y1 k ∂yn k 
(tk , ~yk ) =  .  =: ~
q , F (t ,
k k~
y ) =  .. ..  =: Ak
∂t ∂fn

 . .


∂t (t ,
k k~
y ) ∂fn ∂fn
∂y1 k , ~
(t yk ) . . . ∂yn k , ~
(t yk )
(1.152)

65
gilt. Mit dem Vektor ~b(t) = (t − tk )~q und der Matrix Ak nach (1.152) ist
(1.151) ein lineares Differentialgleichungssystem der Form (1.147), also

~z ′ (t) ≈ Ak ~z(t) + ~b(t) ,

für das man die Steifheit durch Betrachtung der Eigenwerte von Ak ermitteln
kann. In der Regel kann man somit im k-Integrationsschritt durch eine Ei-
genwertbetrachtung der Matrix Ak Informationen für die Wahl einer Schritt-
weite h erhalten, die eine Berücksichtigung aller Lösungskomponenten mit
unterschiedlichem Abklingverhalten sichert.
Bei der praktischen Anwendung dieser Methode stellt man fest, dass die Steif-
heit eines Differentialgleichungssystems an unterschiedlichen Stellen tk vari-
iert. Speziell bei der Beschreibung von chemischen Reaktionen durch nicht-
lineare Differentialgleichungssysteme nimmt die Steifheit mit wachsendem t
oft ab. 10.
Als Integrationsverfahren benötigt man Verfahren, die die Wahl großer Vorle-
Schrittweiten h ermöglicht. In Frage kommen hauptsächlich die absolut sung
stabilen impliziten Runge-Kutta-Methoden und die A(α)-stabilen BDF- am
Methoden. Bei Verwendung anderer Methoden muss man bei der Schritt- 11.11.2009
weitenwahl immer die aufgrund eines endlichen Stabilitätsintervalls existie-
rende untere Schranke für hλ im Fall einer reellen Abklingkonstante λ < 0
berücksichtigen.
Beispiel 1.57. In Schwarz[1997] wurde das Gleichungssystem

y1′ = −0, 1y1 + 100y2 y3


y2′ = 0, 1y1 − 100y2 y3 − 500y22 (1.153)
y3′ = 500y22 − 0, 5y3

zur Beschreibung der kinetischen Reaktion von drei chemischen Substanzen


Y1 , Y2 , Y3 mit den Anfangsbedingungen y1 (0) = 4, y2 (0) = 2, y3 (0) = 0, 5
untersucht. Die Lösungskomponenten y1 (t), y2 (t), y3 (t) bedeuten dabei die
Konzentrationen der Substanzen zum Zeitpunkt t. Eine genauere Analyse
der Eigenwerte der Jacobi-Matrizen F~ ′ der Linearisierung (1.151) ergab ab-
nehmende Steifheiten im Laufe der Zeit.
Im Zusammenhang mit steifen Differentialgleichungen wurde mit der soge-
nannten L-Stabilität ein Stabilitätsbegriff eingeführt, der die absolute Sta-
bilität umfasst, aber speziell auf das Problem von Lösungskomponenten mit
stark unterschiedlichem Abklingverhalten ausgerichtet ist. Man betrachtet
wiederum das Testproblem

y ′ = λy , y(0) = 1, λ∈C.

66
Von einem L-stabilen Verfahren

yk+1 = F (hλ)yk

erwartet man, dass im Falle von Re(λ) < 0 auch für beliebig große Schritt-
weiten h
lim yk = 0
k→∞

gilt, d.h. das qualitative Lösungsverhalten der exakten Lösung y(t) = eλt
auch für große h durch das numerische Verfahren beschrieben wird. Für li-
neare Mehrschrittverfahren ergibt sich die

Definition 1.58. Ein lineares Mehrschrittverfahren heißt L-stabil, wenn


die Wurzeln zj der charakteristischen Gleichung

ρ(z) − hλσ(z) = 0

auch für hRe(λ) → −∞ die Eigenschaft |zj | < 1 haben.

Die A-stabile Trapezregel


h
yk+1 = yk + [f (tk+1 , yk+1 ) + f (tk , yk )]
2
ergibt für die Testaufgabe

yk+1 1+ 2
= hλ
= F (hλ)
yk 1− 2

und man erhält


yk+1
lim | |=1,
hRe(λ)→−∞ yk
und damit ist das Verfahren nicht L-stabil. Für große Schrittweiten h und
λ < 0, reell, ist der Faktor F (hλ) negativ, so dass das Vorzeichen von yk für
wachsendes k alterniert, was auch nicht für das Lösungsverfahren spricht.
Aus
yk+1 1
=
yk 1 − hλ
folgt dagegen für das implizite Euler-Verfahren die L-Stabilität.

67
1.10 Weitere klassische lineare Mehrschritt-
verfahren
Geht man bei der Konstruktion von linearen Mehrschrittverfahren von der
Beziehung
Z tl+m

y = f (t, y) ⇐⇒ y(tl+m )−y(tl+m−2 ) = f (t, y(t)) dt , l = 0, 1, . . . , n−m ,
tl+m−2
(1.154)
aus so kann man mit dem Ansatz
Z tl+m
yl+m − yl+m−2 = P(t) dt , (1.155)
tl+m−2

durch eine geeignete Wahl des Polynoms P die Nyström- bzw. Milne-
Simpson-Verfahren konstruieren.
Definition 1.59. Für m ≥ 1 erhält man das m-schrittige Nyström-
Verfahren durch den Ansatz (1.155) mit

P ∈ Πm−1 , P(tj ) = fj (:= f (tj , yj )), j = l, l + 1, . . . , l + m − 1 . (1.156)

Das Nyström-Verfahren ist damit ein explizites Mehrschrittverfahren. Bei-


spiele von Nyström-Verfahren sind

m = 2 : yl+2 = yl + 2hfl+1 , (1.157)


h
m = 3 : yl+3 = yl+1 + [7fl+2 − 2fl+1 + fl ] , (1.158)
3
h
m = 4 : yl+4 = yl+2 + [8fl+3 − 5fl+2 + 4fl+1 − fl ] . (1.159)
3
Es ist offensichtlich, dass die Nyström-Verfahren nullstabil sind. Es gilt
darüberhinaus der
Satz 1.60. Das m-schrittige Nyström-Verfahren ist nullstabil. Für genügend
glatte Funktionen f hat es die Konsistenzordnung p = m.
Approximiert man die ”rechte” Seite von (1.154) genauer, dann erhält man
das Milne-Simpson-Verfahren.
Definition 1.61. Für m ≥ 1 erhält man das m-schrittige Milne-Simpson-
Verfahren durch den Ansatz (1.155) mit

P ∈ Πm , P(tj ) = fj (:= f (tj , yj )), j = l, l + 1, . . . , l + m . (1.160)

68
Die Bedingung (1.160) bedeutet, dass das Milne-Simpson-Verfahren ein im-
plizites lineares Mehrschrittverfahren ist. Der damit erhöhte Berechnungs-
aufwand für yl+m wirkt sich positiv auf die Konsistenzordnung aus. Es gilt
der

Satz 1.62. Das m-schrittige Milne-Simpson-Verfahren ist nullstabil. Für


genügend glatte Funktionen f gilt bezüglich der Konsistenzordnung:

• Für m = 2, also ein zweischrittiges Milne-Simpson-Verfahren, erhält


man die Konsistenzordnung p = 4.

• Für m ≥ 4 besitzt das m-schrittige Milne-Simpson-Verfahren die Kon-


sistenzordnung p = m + 1.

Beispiele von Milne-Simpson-Verfahren sind


h
m = 2 : yl+2 = yl + [fl+2 + 4fl+1 + fl ] ,
3
h
m = 4 : yl+4 = yl+2 + [29fl+4 + 124fl+3 + 24fl+2 + 4fl+1 − fl ] .
90
Das zweischrittige Verfahren heißt auch Verfahren von Milne und entspricht
der Simpson- bzw. Keplersche Fassregel der numerischen Integration.
Die Bestimmung der Bereiche der absoluten Stabilität der angegebenen
Nyström bzw. Milne-Simpson-Verfahren sei ebenso wie der Nachweis der re-
sultierenden Konsistenzordnungen (durch Taylorapproximationen) als Übung
empfohlen.

69
Kapitel 2

Zweipunkt-Randwertaufgaben
11.
Wir setzen in den folgenden drei Kapiteln die Einführung in die numerische Vorle-
Behandlung gewöhnlicher Differentialgleichungen mit Randwertaufgaben 2. sung
Ordnung fort. Dabei sucht man die Lösung einer Differentialgleichung zweiter am
Ordnung. Deren eindeutige Festlegung erfolgt durch Randbedingungen, d.h. 17.11.2009
Bedingungen an die Lösung am Randes des betrachteten Lösungsintervalls.

2.1 Theoretische Grundlagen


2.1.1 Einführendes Beispiel und Definitionen
Beispiel 2.1. Wir betrachten einen isothermen Strömungsreaktor mit konti-
nuierlicher Zufuhr bzw. Abfuhr der Reaktionsmasse bzw. des Reaktionspro-
duktes. Die Konzentrationsverteilung C(x1 , x2 , x3 , t) im Reaktor ergibt sich
aus der Stoffbilanzgleichung
3 3
∂c X ∂ X ∂ ∂c
=− (wi c) + (D ) + r(c) .
∂t i=1
∂xi i=1
∂xi ∂xi
Dabei sind w = (wi )i=1,2,3 das Geschwindigkeitsfeld der Strömung im Re-
aktor, D der Diffusionskoeffizient und r(c) der Reaktionsterm. Zur Verein-
fachung nehmen wir einen stationären Reaktorbetrieb, d.h. ∂c ∂t
= 0, einen
konstanten Diffusionskoeffizienten D und ein konstantes Geschwindigkeits-
feld w = (w, 0, 0) an. Ferner sollen Änderungen der Konzentration c nur in
axialer Richtung x des rotationssymmetrischen Reaktors betrachtet werden.
Dann vereinfacht sich die Stoffbilanzgleichung zur gewöhnlichen Differential-
gleichung 2. Ordnung

d2 c dc
−D 2
+w + r(c) = 0, 0<x<L.
dx dx

70
Durch Entdimensionierung mittels ξ := Lx , u = c
c0
mit der Anfangskonzen-
wL
tration c0 erhalten wir mit der Peclet-Zahl P := D

1 d2 u du
− + + R(u) = 0 , 0 < ξ < 1 .
P dξ 2 dξ
Die Lösung kann vereinfachend durch die Randbedingungen
1 du du
u(0) − |ξ=0 = 1 , |ξ=1 = 0
P dξ dξ
festgelegt werden.
Wir geben nachfolgend eine Klassifikation gewöhnlicher Differentialgleichun-
gen 2. Ordnung
F (x, u(x), u′ (x), u′′ (x)) = 0. (2.1)
Definition 2.2. Eine Differentialgleichung 2. Ordnung heißt quasilinear,
falls
F (x, u, u′ , u′′ ) := −u′′ + B(x, u)u′ + C(x, u) = 0,
semilinear , falls

F (x, u, u′ , u′′ ) := −u′′ + b(x)u′ + C(x, u) = 0,

bzw. linear, falls

F (x, u, u′ , u′′ ) := −u′′ + b(x)u′ + c(x)u − f (x) = 0.

Offenbar ist die im Beispiel 2.1 betrachtete Gleichung semilinear. Die Rand-
bedingungen sind im allgemeinen Fall

Gi (a, b, u(a), u(b), u′ (a), u′ (b)) = 0, i = 1, 2

nicht linear und gekoppelt. In Anwendungen ist es oft ausreichend, Randbe-


dingungen in linearer und entkoppelter Form zu betrachten. Dies vereinfacht
auch die Untersuchung entsprechender Randwertprobleme (RWP) erheblich.
Definition 2.3. Lineare und entkoppelte Randbedingungen der Form

u(a) = α, u(b) = β (2.2)


u′ (a) = α, u′ (b) = β (2.3)
c1 u(a) + u′ (a) = α, c2 u(b) + u′ (b) = β (2.4)

heißen Randbedingungen 1. Art (oder vom DIRICHLET-Typ), 2. Art


(oder vom NEUMANN-Typ) bzw. 3. Art (oder vom ROBIN-Typ).

71
Man spricht von gemischten Randbedingungen, wenn auf x = a und x = b
unterschiedliche Typen von Randbedingungen gestellt werden. Dies trifft in
Beispiel 2.1 zu. Bei den weiteren Betrachtungen werden wir in der Regel
vereinfachend lineare RWP 1. Art, d.h.

(Lu)(x) := −u′′ (x) + b(x)u′ (x) + c(x)u(x) = f (x), a < x < b, (2.5)
u(a) = α, u(b) = β , (2.6)

betrachten. Mittels
x−b x−a
u(x) = v(x) + α +β
a−b b−a
kann man die Untersuchung auf den Fall homogener Randbedingungen, d.h.
α = β = 0 zurückführen. Über x = (b − a)ξ transformiert man das RWP
auch oft auf das Einheitsintervall, d.h.

(Lu)(x) := −u′′ (x) + b(x)u′ (x) + c(x)u(x) = f (x), 0 < x < 1 (2.7)
u(0) = u(1) = 0 . (2.8)

2.1.2 Lösbarkeit des 1. RWP im symmetrischen Fall


Das nachfolgendes Beispiel zeigt, dass RWP 2. Ordnung nicht in jedem Fall
lösbar oder eindeutig lösbar sind.

Beispiel 2.4. Die allgemeine Lösung der Schwingungsgleichung

−u′′ (x) − u(x) = 0, 0<x<b

hat die Form u(x) = cl cos x + c2 sin x. Die beiden Konstanten sind so zu
bestimmen, dass jeweils die folgenden Randbedingungen u(0) = α, u(b) = β
erfüllt werden. Daraus ergibt sich das lineare System

cos(0) c1 + sin(0) c2 = α,
cos(b) c1 + sin(b) c2 = β .

Im Ergebnis der Lösungstheorie linearer Gleichungssysteme zeigt sich, dass


das entstehende System in Abhängigkeit von b sowie α und β entweder eine
eindeutige, keine oder unendlich viele Lösungen hat.

Wir betrachten noch einen wichtigen Spezialfall, in dem die Lösung in Inte-
gralform angebbar ist. Die mehrdimensionale Verallgemeinerung ist das für
Anwendungen wichtige POISSON-Problem.

72
Lemma 2.5. Die Funktion
Z 1
u(x) = G(x, t)f (t) dt, x ∈ [0, 1]
0

mit der sogenannten Greenschen Funktion


½
t(1 − x), 0 ≤ t ≤ x ≤ 1,
G(x, t) :=
x(1 − t), 0 ≤ x ≤ t ≤ 1
löst das 1. RWP der POISSON-Gleichung
−u′′ (x) = f (x), x ∈ (0, 1); u(0) = u(1) = 0.
Zur Klärung der Lösbarkeit des RWP (2.7), (2.8) betrachten wir hier zunächst
den allgemeinen symmetrischen Fall mit b(x) = 0. Hier gilt der
Satz 2.6. Gelte c, f ∈ C[0, 1] sowie b(x) = 0, c(x) ≥ 0 in [0, 1]. Dann
existiert eine und nur eine Lösung u ∈ C 2 [0, 1] des RWP (2.7), (2.8).
Beweis. (i) Eindeutigkeit: Wir nehmen an, u1 , u2 sind Lösungen des RWP
(2.7), (2.8). Dann genügt u := u1 − u2 dem homogenen RWP
−u′′ + cu = 0, 0 < x < 1; u(0) = u(1) = 0.
Multiplikation der Differentialgleichung mit u, Integration über [0, 1] und
partielle Integration des Integralterms mit u′′ u führt unter Beachtung der
Randbedingungen auf
Z 1 Z 1
′′
0= (−u + cu)u dx = [(u′ )2 + cu2 ] dx.
0 0

Wegen c ≥ 0 und u ∈ C[0, 1] folgt daraus u(x) = 0 in [0, 1] und damit die
Eindeutigkeit der Lösung von (2.7), (2.8).
(ii) Existenz: Die allgemeine Lösung des RWP (2.7), (2.8) hat die Gestalt
u(x) = α1 u1 (x) + α2 u2 (x) + up (x) .
Dabei bilden ul , u2 ein Fundamentalsystem aus zwei linear unabhängigen
Lösungen der homogenen Differentialgleichung (d.h. mit f (x) = 0). up ist eine
(beliebige partikuläre) Lösung der Gleichung (2.7). Die Aussage lässt sich mit
Hilfe des Satzes von PICARD-LINDELÖF zeigen, der im Zusammenhang mit
der Lösbarkeit von Anfangswertproblemen behandelt wurde. Zur Erfüllung
der Randbedingungen entsteht das lineare Gleichungssystem
ul (0)α1 + u2 (0)α2 = α − up (0)
ul (1)α1 + u2 (1)α2 = β − up (1)

73
für die Koeffizienten α1 und α2 . Dieses System ist eindeutig lösbar. Sind
nämlich αi , i = 1, 2 Lösung des zugehörigen homogenen Systems, wäre u =
αl ul + α2 u2 Lösung des entsprechenden homogenen RWP und damit u = 0
nach Teil (i). Wegen der linearen Unabhängigkeit von u1 , u2 impliziert dies
α1 = α2 = 0.
Bemerkung 2.7. Die Existenz- und Eindeutigkeitsaussage von Satz 2.6 lässt
sich unter Verwendung Greenscher Funktionen ausdehnen auch auf den se-
milinearen Fall

−u′′ (x) = g(x, u(x)), x ∈ (0, 1), u(0) = u(1) = 0.

2.1.3 Maximum-Prinzip für lineare RWP


Wir betrachten nun das (eventuell nichtsymmetrische ) RWP

(Lu)(x) := −u′′ (x) + b(x)u′ (x) + c(x)u(x) = f (x), 0 < x < 1 (2.9)
u(0) = α, u(1) = β. (2.10)

Zunächst gelingt eine Transformation auf den symmetrischen Fall mittels


Z
1 x
u(x) = v(x) exp( b(t)dt).
2 0
Nach kurzer Rechnung erhält man für v das RWP

(Lv)(x) := −v ′′ (x) + c̃(x)v(x) = f˜(x), 0 < x < 1; v(0) = α̃, v(1) = β̃

mit
Z x
1 1 1
c̃(x) := c(x) + b2 (x) − b′ (x), f˜(x) := f (x) exp(− b(t)dt)
4 2 2 0

und entsprechend modifizierten Randwerten α̃, β̃. Unter der Voraussetzung


c̃(x) ≥ 0, x ∈ [0, 1] erhält man sofort nach Satz 2.6 Existenz und Eindeutig-
keit der Lösung des RWP (2.9), (2.10), sofern b ∈ C[0, 1] gilt. Allgemeiner
gilt der folgende
Satz 2.8. (i) Hat das (2.9), (2.10) zugeordnete homogene RWP (d.h. f (x) =
0, α = β = 0) nur die triviale Lösung, so hat das RWP (2.9), (2.10) eine
und nur eine Lösung in

X := {v ∈ C 2 [0, 1] : v(0) = α, v(1) = β}.

(ii) Ist c(x) ≥ 0, so hat das (2.9), (2.10) zugeordnete homogene RWP nur
die triviale Lösung.

74
Wir beweisen hier nur das Resultat (ii) des Satzes mittels des wichtigen
Maximum-Minimum Prinzips.
Lemma 2.9. Gelte b, c ∈ C[0, 1] sowie c(x) ≥ 0. Dann gelten für u ∈
C[0, 1] ∩ C 2 (0, 1) die Aussagen:
(i) (Lu)(x) ≤ 0 in (0, 1) =⇒ u(x) ≤ max{0; u(0), u(1)}
(ii) (Lu)(x) ≥ 0 in (0, 1) =⇒ u(x) ≥ min{0; u(0), u(1)}.
Beweis. (1) Für den Differentialoperator L̃u := −u′′ + bu′ , d.h. c = 0, bewei-
sen wir zuerst die Aussagen
(i’) (L̃u)(x) ≤ 0 in (0, 1) =⇒ u(x) ≤ max{u(0), u(1)}
(ii’) (L̃u)(x) ≥ 0 in (0, 1) =⇒ u(x) ≥ min{u(0), u(1)}.
Wir beschränken uns beim Nachweis auf (i’).
(i′1 ) Sei (L̃u)(x) < 0 in (0, 1). Wir nehmen an, dass u ein Maximum in
x0 ∈ (0, 1) annimmt. Wegen u′ (x0 ) = 0 folgt
(L̃u)(x0 ) = −u′′ (x0 ) < 0
im Widerspruch zur Bedingung u′′ (x0 ) < 0 für ein Maximum.
(i′2 ) Sei nun (L̃u)(x) ≤ 0 in (0, 1). Für die Hilfsfunktion v(x) := δ eλx mit
δ > 0 gilt
(L̃v)(x) = λ(b − λ)δ eλx < 0
für geeignetes λ. Wegen L̃(u + v)(x) < 0 ergibt (i′1 )
(u + v)(x) ≤ max{(u + v)(0), (u + v)(1)}.
Im Grenzfall δ → 0 folgt die gesuchte Aussage (i’).
(2) Sei jetzt c(x) ≥ 0 in (0, 1). Die Punktmenge
G+ := {x ∈ (0, 1) : u(x) > 0}
ist wegen u ∈ C[0, 1] offen. Ferner ist
(L̃u)(x) ≤ −c(x)u(x) ≤ 0 auf G+ .
Anwendung von (1) auf jeder Zusammenhangskomponente Gi von G+ zeigt
u(x) ≤ max u(x), f.a. x ∈ G+ .
x∈∂Gi

Dabei ist ∂Gi der Rand von Gi . Nach Definition von G+ impliziert das die
gewünschte Aussage
u(x) ≤ max{0, u(0), u(1)} .
(3) Die Minimumaussage (ii) wird analog bewiesen.

75
Als Folgerung beweisen wir folgendes Resultat über die Stabilität der Lösung
bezüglich der Problemdaten f, α, β.
Satz 2.10. Seien b, c ∈ C[0, 1] und c(x) ≥ 0. Für Lösungen u ∈ C 2 (0, 1) ∩
C[0, 1] des RWP

Lu(x) = f (x), x ∈ (0, 1); u(0) = α, u(l) = β

gilt
||u||C[0,1] ≤ C||f ||C[0,1] + max{u(0), u(1)} .
Beweis. Für die Hilfsfunktion

v(x) := A − B eλx , A, B > 0

mit hinreichend großer Konstante λ > 0 gilt

Lv(x) = −B eλx {c(x) + b(x)λ − λ2 } + c(x)A


≥ B eλx {λ2 − λb(x) − c(x)} ≥ B .

Mit B := ||f ||C[0,1] folgert man daraus

L(v ± u)(x) ≥ B ± f (x) ≥ B − ||f ||C[0,1] = 0 .

Ferner gilt für die Randwerte x = 0 und x = 1

(v ± u)(x) = A − B eλx ± u(x) ≥ A − B eλ − max{u(0), u(1)} = 0 ,

sofern A := max{u(0), u(1)}+B eλ . Wegen L(v±u) ≥ 0 in (0, 1) und v±u ≥ 0


für die Randpunkte x = 0 und x = 1 erhalten wir nach Lemma 2.9 (ii)

(v ± u)(x) ≥ 0 ,

d.h. ±u(x) ≤ v(x) und damit

|u(x)| ≤ v(x) ≤ A − B
≤ max{u(0), u(1)} + B(eλ − 1)
≤ max{u(0), u(1)} + (eλ − 1)||f ||C[0,1] ,

also die Behauptung des Satzes.


Korollar 2.11. Die Aussage des Satzes 2.10 impliziert nun die Eindeutigkeit
der Lösung, d.h. die Aussage von Satz 2.8 (ii).
Nach Aussage (i) des Satzes 2.8 ergibt sich daraus auch eine Existenzaussage
für das RWP (2.9), (2.10).

76
2.2 Finite- Differenzen- Verfahren
12.
Im vorliegenden Kapitel besprechen wir das klassische Finite Differenzen Ver- Vorle-
fahren (FDM) zur Lösung von Zweipunkt-Randwertaufgaben. Bei der Finite- sung
Differenzen Methode ersetzt man Ableitungen in der Differentialgleichung am
durch Differenzenquotienten. Dies führt dann zu einem linearen Gleichungs- 18.11.2009
system für Näherungswerte uh , an die gesuchten Werte u der Lösung in vor-
gegebenen Knotenpunkten.

2.2.1 Definition der klassischen FDM


Ausgangspunkt ist das lineare Randwertproblem (RWP)

− u′′ (x) + b(x)u′ (x) + c(x)u(x) = f (x), 0 < x < 1, (2.11)


u(0) = u(1) = 0 . (2.12)

Wir betrachten vereinfachend eine äquidistante Zerlegung Ωh = {xi = ih, i =


1
0, ..., n+1} mit der Schrittweite h = n+1 , n ∈ N. Zur Approximation der ers-
ten Ableitung u′ (xi ) betrachten wir drei Varianten, die auf dem sogenannten
Dreipunktestern {xi−1 , xi , xi+1 } basieren.
u(xi+1 )−u(xi )
• Vorwärtsdifferenzenquotient: D+ u(xi ) := h

u(xi )−u(xi−1 )
• Rückwärtsdifferenzen-Quotient: D− u(xi ) = h

u(xi+1 )−u(xi−1 )
• Zentraler Differenzen-Quotient: D0 u(xi ) = 2h
.

Zur Approximation von u′′ (xi ) nutzen wir den zentralen Differenzenquotien-
ten 2. Ordnung
u(xi+1 ) − 2u(xi ) + u(xi−1 )
D+ D− u(xi ) := .
h2
Für die Näherungswerte uh (xi ) an die gesuchten Lösungswerte u(xi ) in den
Knotenpunkten xi erhalten wir bei Approximation der ersten und zweiten
Ableitungen in der Differentialgleichung (2.11) durch die zentralen Differen-
zenquotienten 1. bzw. 2. Ordnung das System
uh (xi+1 ) − 2uh (xi ) + uh (xi−1 ) uh (xi+1 ) − uh (xi−1 )
− +b(x i ) +c(xi )uh (xi ) = f (xi ) .
h2 2h
Mit der Notation

ui = uh (xi ), bi := b(xi ), ci := c(xi ), fi := f (xi )

77
erhalten wir das System von Differenzengleichungen
1 bi h bi h
2
[−(1 + )ui−1 + (2 + ci h2 )ui − (1 − )ui+1 ] = fi , i = 1, ..., n . (2.13)
h 2 2
Hinzu kommen wegen der Randbedingungen (2.12) die Forderungen

u0 = un+1 = 0. (2.14)

Mit den Bezeichnungen


1 bi h bi h
A := 2
tridiag{−(1 + ); (2 + ci h2 ); −(1 − )}
h 2 2
und U = (u1 , ..., un )T , F = (f1 , ..., fn )T ergibt sich aus (2.13),(2.14) das
lineare Gleichungssystem
AU = F . (2.15)

Bemerkung 2.12. Im Fall inhomogener Randbedingungen 1. Art u(0) =


α, u(1) = β setzt man u0 = α, un+1 = β und bringt die entsprechenden
Matrixeinträge h12 (1 + b12h )α für i = 1 und h12 (1 − b12h )β für i = n auf die
rechte Seite. Die Diskretisierung von Randbedingungen 2. und 3. Art werden
in den Übungen behandelt.

Von Interesse sind nun folgende Fragen:

• Lösbarkeit des diskreten Problems (2.15).

• Konvergenz der Lösung von (2.15) für h → 0 gegen die Lösung des
Zweipunkt-RWP (2.11), (2.12).

2.2.2 Lösung des diskreten Problems


Eine hinreichende Lösbarkeitsbedingung für das diskrete Problem (2.15) gibt

Satz 2.13. Für das Problem (2.11), (2.12) gelte

bi h
ci = c(xi ) ≥ 0, | | ≤ 1, i = 1, ..., n. (2.16)
2
Dann hat das zugehörige klassische Finite-Differenzen Schema (2.13), (2.14)
bzw. (2.15) eine und nur eine Lösung U = (u1 , . . . , un )T .

Bemerkung 2.14. Für bi 6= 0 ergibt Bedingung (2.16) eine Schrittweiten-


beschränkung h ≤ h0 . Darauf wird später nochmal eingegangen.

78
Beweis. (von Satz 2.13) Die Matrix A ist unter Voraussetzung (2.16) schwach
diagonal-dominant, denn es ist
n
2
X bi h bi h
|aii | := |2 + ci h | ≥ |aij | := |1 + | + |1 − |=2, i = 1, ..., n .
j=1,j6=i
2 2

Außerdem ist A irreduzibel. Die schwache Diagonaldominanz und die Irredu-


zibilität von A ergeben die Invertierbarkeit von A und damit die eindeutige
Lösbarkeit des Systems (2.15).
Unter den Voraussetzungen von Satz 2.13 ist das diskrete Problem durch die
einfachsten iterativen Verfahren (wie Gesamt- und Einzelschritt Verfahren,
SOR) lösbar. Ein derartiger Zugang ist auch beim allgemeineren Problem von
Randwertaufgaben bei partiellen Differentialgleichungen für die dort entste-
henden sehr großen und schwachbesetzten linearen Gleichungssysteme erfor-
derlich. Aufgrund der sehr speziellen Tridiagonalstruktur der Matrix A er-
weist sich aber hier die direkte Lösung mittels LU -Zerlegung als wesentlich
efffizienter. Wir betrachten dazu allgemeiner Tridiagonalmatrizen

A = tridiag(bi , ai , ci ) ∈ Rn×n , b1 = c n = 0 .

Für die LU-Zerlegung setzen wir an

A = LU, L = tridiag(bi , αi , 0) ∈ Rn×n , U = tridiag(0, 1, γi ) ∈ Rn×n .

Ausmultiplizieren auf der Hauptdiagonalen ergibt die Beziehungen

a1 = α1 , ai = αi + bi γi−1 , i = 2, . . . , n ,

auf der oberen Nebendiagonalen entsteht

ci = γi αi , i = 1, ..., n − 1 .

Dies ermöglicht eine rekursive Berechnung der Größen αi und γi über


ci−1
α1 = a1 , γi−1 = , αi = ai − bi γi−1 , i = 2, ..., n .
αi−1
Die Realisierbarkeit dieses Verfahrens ist bei αi 6= 0, i = 1, ..., n gesichert, was
etwas später noch gezeigt wird. Wir erhalten damit den folgenden THOMAS-
Algorithmus oder Methode des Vertreibens genannt:

1. LU-Zerlegung von A, d.h. Bestimmung von αi , γi

79
2. Löse das gestaffelte System Lz = F durch Vorwärtseinsetzen
f1 1
z1 = , zi = (fi − bi zi−1 ), i = 2, . . . , n
α1 αi

3. Löse das gestaffelte System UU = z durch Rückwärtseinsetzen

un = zn , ui = zi − γi ui+1 , i = n − 1, ..., 1 .

Eine hinreichende Lösbarkeitsbedingung liefert das

Lemma 2.15. Für die Matrix A = tridiag(bi , ai , ci ) ∈ Rn×n gelte

|a1 | > |c1 | > 0 , |an | > |bn | > 0 ,


|ai | > |bi | + |ci | > 0 , bi ci 6= 0 , i = 2, . . . , n − 1 . (2.17)

Dann ist die Matrix A nichtsingulär und für die Koeffizienten der LU-
Zerlegung gilt

|γi | < 1 , i = 1, ..., n − 1 , αi 6= 0 , i = 1, . . . , n .

Beweis sei als Übung empfohlen.

Bemerkung 2.16. Für den THOMAS-Algorithmus benötigt man O(n) we-


sentliche Operationen, d.h. der Rechenaufwand ist asymptotisch für n → ∞
optimal.

2.2.3 Stabilitäts- und Konvergenzanalyse


Wir führen hier die für die Fehleranalyse des Verfahrens wesentlichen Begriffe
ein. Sie sind so allgemein gehalten, dass sich die Analyse auf allgemeinere
Diskretisierungsverfahren für Randwertaufgaben übertragen lässt.
Seien Ωh := {x1 , ..., xn } die inneren Knotenpunkte im Intervall (0, 1) und
Γh := Ωh \ Ωh = {x0 , xn } die Randpunkte. Rh v bezeichne die Einschränkung
von v ∈ C[0, 1] auf Ωh und L den Differentialoperator des Randwertpro-
blems. u bzw. uh sind die Lösung des Randwertproblems bzw. des diskreten
Problems. Dann gilt für den Diskretisierungsfehler Rh u − uh

A(Rh u − uh ) = ARh u − Auh = ARh u − F = ARh u − Rh Lu ,

wobei der letzte Term auch als Defekt bezeichnet wird.


Zur Fehlerabschätzung sind nun sowohl eine Abschätzung des Defekts nach
oben (Konsistenzanalyse) als auch eine Abschätzung des links stehenden

80
Terms (Stabilitätsanalyse) in einer geeigneten Norm erforderlich. Bei unseren
Untersuchungen verwenden wir die folgende (diskrete) Maximum-Norm

||vh ||∞,Ωh := max |vi | für vh = (v1 , . . . , vn )T .


i=1,...,n

Dies führt auf die

Definition 2.17. (i) Eine FDM heißt konsistent in der Maximum-Norm,


falls
lim ||ARh u − Rh Lu||∞,Ωh = 0 .
h→0

(ii) Die FDM hat die Konsistenzordnung p, falls mit einer von h un-
abhängigen Konstanten Ck > 0 gilt

||ARh u − Rh Lu||∞,Ωh ≤ Ck hp .

Der Konsistenzbegriff beschreibt, wie gut der Differentialoperator durch das


Differenzenverfahren approximiert wird. Konsistenz liegt demnach immer
dann vor, wenn p > 0 ist.

Definition 2.18. Eine FDM heißt stabil in der Maximum-Norm, falls für
den Vektor W aus

AW = F in Ωh , W |Γh = 0

die Existenz einer von h unabhängigen Konstanten CS folgt mit

||W ||∞,Ωh = ||A−1 F ||∞,Ωh ≤ CS ||F ||∞,Ωh .

Definition 2.19. (i) Eine FDM heißt konvergent in der Maximum-Norm,


falls
lim ||Rh u − uh ||∞,Ωh = 0 .
h→0

(ii) Die FDM hat die Konvergenzordnung p, falls mit einer von h un-
abhängigen Konstanten M > 0 gilt

||Rh u − uh ||∞,Ωh ≤ M hp .

Wir beginnen mit der Analyse des Konsistenzfehlers:


Die Abschätzung des Konsistenzfehlers der klassischen FDM (2.13), (2.14)
für das Zweipunkt-RWP (2.11), (2.12) erfolgt mittels des Taylorschen Satzes.
Zunächst betrachten wir die Genauigkeit der Approximation der auftretenden
Ableitungen durch zentrale Differenzenquotienten.

81
Lemma 2.20. Es gilt
1
(i) (D0 u)(x) = u′ (x) + h2 R, |R| ≤ ||u(3) ||C[0,1] , falls u ∈ C 3 [0, 1]
6
bzw.
1 (4)
(ii) (D+ D− u)(x) = u′′ (x)+h2 R, ||u ||C[0,1] , falls u ∈ C 4 [0, 1] .
|R| ≤
12
Beweis. Aus der Taylor-Entwicklung an der Stelle x folgt
′′
′ (x) 2u
u(x ± h) = u(x) ± hu (x) + h ± R3±
2
′′
u (x) u(3) (x)
u(x ± h) = u(x) ± hu′ (x) + h2 ± h3 + R4±
2 6
mit den Restgliedern R3± = O(h3 ) und R4± = O(h4 ) (z.B. in der Lagrange-
Form). Die Aussage (i) erhält man durch die Kombination der Entwicklungen
u(x + h) − u(x − h)
(D0 u)(x) = = u′ (x) + (R3+ − R3− )/h = u′ (x) + O(h2 ) .
2h
Die Aussage (ii) wird analog bewiesen.
Damit finden wir
Lemma 2.21. Unter der Voraussetzung u ∈ C 4 [0, 1] an die Lösung des RWP
(2.11), (2.12) hat die FDM (2.13), (2.14) die Konsistenzordnung 2.
Beweis. Aus (2.13), (2.14) bzw. (2.11), (2.12) haben wir unter Beachtung
der eingeführten Bezeichnungen
(ARh u − Rh Lu)(xi ) = (−D+ D− u(xi ) + bi D0 u(xi ) + ci u(xi ))
−(−u′′ (xi ) + bi u′ (xi ) + ci u(xi )) .
Lemma 2.20 ergibt daraus
1 1
|(ARh u − Rh Lu)(xi )| ≤ h2 ||u(4) ||C[0,1] + h2 ||b||C[0,1] ||u(3) ||C[0,1] , xi ∈ Ωh .
12 6
Maximumbildung über alle Gitterpunkte xi liefert die Behauptung.
Bemerkung 2.22. Die Glattheits-Voraussetzung an die Lösung u des RWP
ist in der Regel nicht realistisch. Eine sorgfältige Abschätzung zeigt
½
Chα , u ∈ C 2;α [0, 1]
||ARh u − Rh Lu||∞,Ωh ≤
Ch1+α , u ∈ C 3;α [0, 1]
mit 0 ≤ α ≤ 1 und den Hölder-Räumen
( )
(k) (k)
|v (x) − v (y)|
C k;α [0, 1] := v ∈ C k [0, 1] : sup <∞ .
x,y∈(0,1);x6=y |x − y|α

82
Wir kommen nun zur Stabilitätsanalyse der klassischen FDM:
Die oben angegebene Stabilitätsdefinition ist äquivalent zu
Xn
−1
||A ||∞ ≤ CS mit ||B||∞ := max |bij |
i=1,...,n
j=1

(Zeilensummennorm von B). 13.


Bei den weiteren Untersuchungen nutzen wir die Halbordnungsrelation x ≥ Vorle-
0 für Vektoren x, falls komponentenweise gilt xi ≥ 0. Entsprechend gilt sung
x ≥ y, falls x − y ≥ 0 gilt. Ferner schreiben wir für Matrizen A ≥ 0, falls am
komponentenweise gilt aij ≥ 0. 24.11.2009
Definition 2.23. Eine Matrix A heißt inversmonoton, falls aus der Hal-
bordnungsrelation Ax ≤ Ay auch x ≤ y folgt.
Zur Inversmonotonie von A ist die Existenz von A−1 mit A−1 ≥ 0 äquivalent.
Lemma 2.24. Unter den Voraussetzungen von Satz 2.13 ist A inversmono-
ton, d.h. A−1 ≥ 0.
Beweis. Wir betrachten die iterative Lösung des linearen Gleichungssystems
Az = r mit dem Gesamtschritt- oder Jacobi-Verfahren. Aus der Zerlegung
A = AD + AL + AR mit der Diagonalmatrix AD und den strikten unteren
bzw. oberen Dreiecksmatrizen AL und AR ergibt sich die Iteration
zk+1 = −A−1 −1
D (AL + AB )zk + AD r, k = 0, 1, . . . . (2.18)
Das Jacobi-Verfahren konvergiert unter den Voraussetzungen des Satzes 2.13,
denn dann ist die Matrix A sowohl schwach diagonaldominant als auch unzer-
legbar (außerdem gilt akk > 0 und ajk ≤ 0, j 6= k). Man vergleiche hierzu die
Ergebnisse aus dem Kurs ”Einführung in die Numerische Mathematik”. Für
die Spalten der inversen Matrix A−1 = (a1 , ..., an ) gilt Aai = ei , i = 1, ..., n
mit den kartesischen Einheitsvektoren ei . Damit entsteht ai als Grenzelement
der Iteration (2.18) mit r = ei und dem Startvektor z0 = 0. Nach den Vor-
aussetzungen von Satz 2.13 sind die Elemente von A−1 −1
D und −AD (AL + AR )
nichtnegativ. Daraus folgt die Aussage A−1 ≥ 0.
Nun besteht das Ziel darin, die Stabilitätskonstante CS abzuschätzen. Wir
nutzen dazu das
Lemma 2.25. (M-Kriterium)
Sei A ∈ Rn×n L0 -Matrix, d.h. gelte akj ≤ 0 für k 6= j. Dann ist A invers-
monoton genau dann, wenn ein (majorisierender) Vektor e > 0 existiert mit
Ae > 0. Ferner gilt dann die Abschätzung
||e||∞
||A−1 ||∞ ≤ . (2.19)
mink (Ae)k

83
Man spricht hier vom M -Kriterium, weil man inversmonotone L0 -Matrizen
auch M -Matrizen nennt.
Beweis. (i) Sei A inversmonoton. Dann wähle man e = A−1 (1, ..., 1)T . Es
ist offensichtlich aufgrund der Inversmonotonie e > 0 und auch Ae =
(1, . . . , 1)T > 0.
(ii) Sei e > 0 ein Vektor mit Ae > 0, d.h.
n
X
(Ae)k = akj ej > 0 für alle k ,
j=1

daraus folgt akk > 0, da nach Voraussetzung akj ≤ 0 für k 6= j gilt, und damit
ist AD := diag(akk ) invertierbar. Wir setzen (E ist die Einheitsmatrix)

P := A−1
D (AD − A) ⇐⇒ A = AD (E − P ) .

Nach Konstruktion gilt P ≥ 0. Damit ergibt sich

(E − P )e = A−1
D Ae > 0 also P e < e .

Wir definieren mit


|xk |
||x||e := max
k ek
eine spezielle Vektornorm und bezeichnen mit || · ||e die induzierte Ma-
trixnorm. Aus
||P ||e = sup ||P x||e
||x||e =1

und P ≥ 0 folgt ||P ||e = ||P e||e . Mit

|(P e)k |
||P ||e = ||P e||e = max
k ek
und P e < e, was oben gezeigt wurde, erhält man ||P ||e < 1. Daher existiert
(E − P )−1 mit
X∞
−1
(E − P ) = Pj .
j=0

Da A = AD (E − P ) gilt, existiert mit A−1


D und (E − P )
−1
auch A−1 und aus
P ≥ 0 folgt A−1 ≥ 0.
Zum Nachweis der Stabilitätsschranke für ||A−1 ||∞ betrachten wir die Glei-
chung Aw = f . Dann ist

±w = ±A−1 f ≤ ||f ||∞ A−1 (1, . . . , 1)T .

84
Die Ungleichung Ae ≥ mink (Ae)k (1, . . . , 1)T ergibt
e
A−1 (1, . . . , 1)T ≤ .
mink (Ae)k

Beide Ungleichungen ergeben nun

||e||∞
||w||∞ ≤ ||f ||∞ ,
mink (Ae)k

woraus die Behauptung (2.19) folgt.


Die gesuchte Abschätzung der Stabilitätskonstanten CS gelingt nun bei ge-
eigneter Wahl eines majorisierenden Vektors e zur Matrix A gemäß Lemma
2.25.

Korollar 2.26. (i) Unter der Voraussetzung c(x) ≥ c∗ > 0 gilt


1
||A−1 ||∞ ≤ P .
mink (akk − j6=k |ajk |)

(ii) Bei c(x) ≥ 0 existiert eine Konstante CS > 0 mit

||A−1 ||∞ ≤ CS .

Beweis. (i) Bei c(x) ≥ c∗ > 0 ist A streng diagonaldominant. Die Behaup-
tung folgt aus Lemma 2.25 mit e = (1, 1, ..., 1)T .
(ii) Die Matrix A ist eine L0 -Matrix und nach Lemma 2.24 inversmonoton.
Damit folgt aus Lemma 2.24 die Existenz eines majorisierenden Vektors e > 0
mit Ae > 0, woraus
||e||∞
CS =
mink (Ae)k
folgt.

Bemerkung 2.27. Auf die folgende Weise kann man einen majorisierenden
Vektor e konstruieren. Sei e(x) Lösung des RWP

−e′′ (x) + b(x)e′ (x) = 1, 0 < x < 1; e(0) = e(1) = 0 .

Aus dem Maximumprinzip (vgl. Lemma 2.9) folgt e(x) > 0, 0 < x < 1.
Ferner ist nach Konstruktion (Le)(x) ≥ 1, 0 < x < 1. Nun wählen wir den
Vektor
e := (e(x1 ), ..., e(xn ))T .

85
1
Aus Konsistenzgründen ist Ae ≥ 2
für h ≤ h0 , denn in der Darstellung

Ae = ARh e = (ARh − Rh L)e + Rh Le

konvergiert der erste Term der rechten Seite nach Lemma 2.21 gegen 0. Für
den zweiten Term ist Rh Le ≥ 1. Diese Argumentation erfordert allerdings
e(x) ∈ C 4 [0, 1], was wir nur unter bestimmten Anforderungen an b(x) zeigen
können.
e := (e(x1 ), ..., e(xn ))T ist damit ein majorisierender Vektor mit dem man CS
ausrechnen kann.
Wir kombinieren die Ergebnisse zum folgenden Konvergenzsatz.
Satz 2.28. Unter den Voraussetzungen von Satz 2.13 liege die Lösung u des
RWP (2.11), (2.12) in C 4 [0, 1]. Ferner sei h hinreichend klein. Dann gilt für
den Diskretisierungsfehler der klassischen FDM (2.13), (2.14)

||Rh u − uh ||∞,Ωh = max |u(xk ) − uk | ≤ M h2 ,


k

d.h. das Verfahren hat die Konvergenzordnung 2.


Beweis. Nach Konstruktion ist Rh u − uh = 0 auf Γh . Nach Lemma 2.21 ist
ferner
||ARh u − Rh Lu||∞,Ωh ≤ CK h2 .
Mittels Korollar 2.26 folgt

CS−1 ||Rh u − uh ||∞,Ωh ≤ ||ARh u − Rh Lu||∞,Ωh ≤ CK h2 ,

und damit die Konvergenzaussage mit M = CS CK .

2.3 Ritz-Galerkin-Verfahren für RWP


Im vorliegenden Kapitel schwächen wir den bisher verwendeten ”klassischen”
Lösungsbegriff für Zweipunkt-Randwertaufgaben ab. Dies erlaubt zugleich
einen natürlichen Zugang zu der Finite-Elemente Methode (FEM) und ver-
einfacht die Konvergenzanalyse.

2.3.1 Variationsgleichungen
Betrachtet wird die Zweipunkt-Randwertaufgabe

− u′′ (x) + b(x)u′ (x) + c(x)u(x) = f (x), 0 < x < 1, (2.20)


u(0) = u(1) = 0. (2.21)

86
Zunächst streben wir eine Abschwächung des klassischen Lösungsbegriffs,
d.h. von u ∈ C 2 (0, 1) ∩ C[0, 1], an. Sei etwa b = c = 0 sowie f ∈
/ C(0, 1).
2
Dann liegt die Lösung nicht in C (0, 1). Wir wollen aber auch im Fall von
f∈/ C(0, 1) von Lösungen sprechen.
Multiplikation von Gleichung (2.20) mit einer beliebigen Testfunktion
v ∈ X̃ := {w ∈ C 1 (0, 1) ∩ C[0, 1] : w(0) = w(1) = 0} (2.22)
und Integration über (0, 1) ergibt
Z 1 Z 1
′′ ′
(−u + bu + cu)vdx = f vdx .
0 0
R1
Partielle Integration des Terms − 0 u”vdx liefert unter Beachtung der Rand-
werte v(0) = v(1) = 0
Z 1 Z 1 Z 1
′ ′ ′
u v dx + (bu + cu)vdx = f vdx , ∀v ∈ X̃ . (2.23)
0 0 0

Klassische Lösungen u ∈ C 2 (0, 1) ∪ C[0, 1] von (2.20), (2.21) lösen


offenbar auch (2.23). Ebenso sind (bei hinreichend glatten Daten)
nach Rückwärtsausführung der vorgenommenen Umformungen klassische
Lösungen von (2.23) auch Lösungen von (2.20), (2.21). Offenbar reicht aber
z.B. schon die Forderung u ∈ X̃ für die Lösungen von (2.23) aus. Daher
bezeichnet man die Aufgabe
Finde u ∈ X̃, so dass a(u, v) = f (v), ∀v ∈ X̃ (2.24)
mit
Z 1 Z 1
′ ′
a(u, v) := u v dx + (bu′ + cu)vdx (2.25)
0 0
Z 1
f (v) := f vdx (2.26)
0

auch als verallgemeinerte Aufgabenstellung zu (2.20), (2.21) bzw. als zu-


gehörige Variationsgleichung.
Wir vertiefen diesen Gedanken im folgenden Abschnitt weiter. Zuvor betrach-
ten wir noch den Zusammenhang mit Variationsproblemen. Seien vereinfa-
chend b(x) = 0 und c(x) ≥ 0. Mit dem Funktional
1
J(u) := a(u, u) − f (u) (2.27)
2Z Z 1
1 1 ′ 2 2
= [(u ) + cu ] dx − f u dx, u ∈ X̃
2 0 0

87
betrachten wir das Variationsproblem

Finde u ∈ X̃, so dass J(u) ≤ J(v), ∀v ∈ X̃ . (2.28)

Dann gilt

Lemma 2.29. Notwendige Lösbarkeitsbedingung für das Variationsproblem


(2.28) ist im Fall b(x) = 0, c(x) ≥ 0 die Variationsgleichung (2.24).

Beweis. Wir setzen für festes u, v ∈ X̃ und t ∈ R

Ψ(t) := J(u + tv) .

Notwendige Minimumbedingung für die reellwertige Funktion Ψ ist wegen


Z Z 1
1 1 ′ ′ 2 2
J(u + tv) = [(u + tv ) + c (u + tv) ]dx − f (u + tv)dx
2 0 0

dann
Z Z 1
′ 1 1 ′ ′ ′
Ψ (0) = [2(u + tv )v + c (u + tv)v] dx|t=0 − f v dx
2 0 0
= a(u, v) − f (v) = 0 .

14.
Vorle-
Bemerkung 2.30. Man kann zeigen, dass unter gewissen Glattheitsforde- sung
rungen an die Daten (z.B. c, f ∈ C[0, 1]) eine Lösung u ∈ X̃ der Variations- am
gleichung (2.24) auch Minimum von (2.28) ist. 25.11.2009
Variationsprobleme treten sehr oft in Naturwissenschaften und Technik als
bekannte Grundprinzipien (z.B. Prinzip der minimalen Energie usw.) auf und
bilden einen wesentlichen Zugang zur mathematischen Modellierung realer
Vorgänge. Es sei hervorgehoben, dass die Variationsgleichung (2.24) als ver-
allgemeinerte Aufgabenstellung zu (2.20), (2.21) auch im allgemeinen Fall
sinnvoll bleibt, wenn nicht b(x) = 0 gilt.

2.3.2 Verallgemeinerte Ableitungen


Wir untersuchen jetzt Eigenschaften des Raumes X̃ (vgl. (2.22)) in Verbin-
dung mit der SOBOLEV-Norm
Z 1 Z 1
′ 2
||u||H 1 := [ [u (x)] dx + [u(x)]2 dx]1/2 . (2.29)
0 0

88
Der Raum {X̃; || · ||H 1 } ist offenbar normierter Raum, jedoch kein
vollständiger Raum, d.h. kein BANACH-Raum. Die Norm (2.29) ist auch
noch für messbare Funktionen u, u′ sinnvoll, die quadratisch über (0, 1) im
LEBESGUE-Sinne integrierbar sind, d.h. für Funktionen im LEBESGUE-
Raum
Z 1
L2 (0, 1) := {v : (0, 1) → R messbar : [v(x)]2 dx < ∞} . (2.30)
0

Im Hinblick auf die Näherungslösung von Zweipunkt-Randwertaufgaben mit-


tels FEM ist eine weitere Abschwächung des klassischen Lösungsbegriffs
sinnvoll. Wir wollen den entsprechenden Gedankengang hier nur skizzieren:
Zunächst benötigen wir einige Begriffe. Es bezeichnet clV (A) die Abschlie-
ßung der Teilmenge A von V in der Topologie des Raumes V . Dann heißt

supp v := clR {x ∈ (0, 1) : v(x) 6= 0}

Träger von v ∈ C[0, 1]. Sei

C0∞ (0, 1) := {v ∈ C ∞ (0, 1) : supp v ⊂ C(0, 1)} ,

d.h. Elemente dieser Menge verschwinden von beliebiger Ordnung bei x = 0


und x = 1. Ferner sei
Z
1
Lloc (0, 1) := {v : (0, 1) → R; messbar : |v(x)| dx < ∞ ∀A ⊂⊂ (0, 1)} .
A

A ⊂⊂ B bedeutet dabei, dass A abgeschlossene Teilmenge von B ist. Partielle


Integration ergibt für u ∈ C 1 [0, 1] und beliebige Testfunktionen v ∈ C0∞ (O, 1)
Z 1 Z 1

u v dx = − uv ′ dx . (2.31)
0 0

Nach der HÖLDER’schen Ungleichung


Z 1 Z Z
′ ′ ′
| uv dx| = | uv dx| ≤ ||v ||C[0,1] |u|dx
0 supp v supp v

bzw. Z Z Z
1
′ ′
| u vdx| = | u vdx| ≤ ||v||C[0,1] |u′ |dx
0 supp v supp v

ergeben die Integrale in (2.31) noch Sinn für u, u ∈ L1loc (0, 1).′

89
Definition 2.31. w ∈ L1loc (0, 1) heißt verallgemeinerte erste Ableitung
von u ∈ L1loc (0, 1), falls
Z 1 Z 1
wv dx = − uv ′ dx, ∀v ∈ C0∞ (0, 1)
0 0

gilt. Man schreibt w = u′ .

Wir erklären nun

Definition 2.32. Die Menge

H 1 (0, 1) := {v ∈ L2 (0, 1) : ∃v ′ ∈ L2 (0, 1)}

heißt SOBOLEV-Raum der Funktionen mit verallgemeinerten und qua-


dratisch auf (0, 1) integrierbaren Ableitungen. Ferner ist

H01 (0, 1) := clH 1 (0,1) C0∞ (0, 1) .

Bemerkung 2.33. Man kann zeigen, dass auch gilt

H 1 (0, 1) := clH 1 (0,1) C ∞ (0, 1) .

Ohne Beweis zitieren wir

Satz 2.34. Die Räume {H 1 (0, 1); || · ||H 1 (0,1) } und {H01 (0, 1); || · ||H 1 (0,1) }
sind HILBERT-Räume mit dem Skalarprodukt
Z 1 Z 1
(u, v)H l := uvdx + u′ v ′ dx.
0 0

Offenbar ist X := H01 (0, 1) der geeignete Funktionenraum, um eine verallge-


meinerte Aufgabenstellung zu (2.20), (2.21) zu formulieren:

Finde u ∈ H01 (0, 1) : a(u, v) = f (v) ∀v ∈ H01 (0, 1) . (2.32)

Vertiefende Kenntnisse über die hier zum Teil nur heuristisch eingeführten In-
halte, insbesondere zur Existenz verallgemeinerter Lösungen (Satz von LAX-
MILGRAM) kann man in einer Vorlesung über partielle Differentialgleichun-
gen oder über Funktionalanalysis erwerben.

90
2.3.3 Ritz-Galerkin-Verfahren
Im vorliegenden Kapitel führen wir Näherungsverfahren zur approxima-
tiven Lösung von Variationsgleichungen ein. Die Darstellung ist dabei
zunächst möglichst allgemein gehalten. Erst im abschließenden Teil be-
trachten wir speziell eine Finite-Elemente-Methode (FEM) für Zweipunkt-
Randwertaufgaben. Ausgangspunkt ist die Variationsgleichung

Finde u ∈ X : a(u, v) = f (v) ∀v ∈ X . (2.33)

im HILBERT-Raum X. Dabei verwenden wir die im Kapitel vorne ein-


geführten Bezeichnungen und Voraussetzungen an die Bilinearform a(·, ·) so-
wie die Linearform f (·). Gesucht ist nun eine Näherung un an die Lösung u
von (2.33) im endlich-dimensionalen Teilraum Xn ⊂ X mit dim Xn = n < ∞.
Offenbar ist dann {Xn ; || · ||X } BANACH-Raum.
Definition 2.35. Die Aufgabe

Finde un ∈ Xn : a(un , v) = f (v) ∀v ∈ Xn . (2.34)

heißt RITZ-GALERKIN-Verfahren zur Variationsgleichung (2.33).


Wir zeigen nun, dass das RITZ-GALERKIN-Verfahren stets einem linearen
Gleichungssystem entspricht. Sei {φi }ni=1 Basis von Xn . Es bezeichne P :
Rn → Xn ⊂ X die durch
n
X
Pv = vi φi , v = (v1 , . . . , vn )T
i=1

erklärte Abbildung. Offensichtlich ist P ein Isomorphismus zwischen Rn und


Xn . Unter Beachtung der Basisdarstellung in Xn = span{φ1 , ..., φn } erhält
man das
Lemma 2.36. Das RITZ-GALERKIN- Verfahren (2.34) ist äquivalent zu
dem System der Gleichungen

Finde un ∈ Xn : a(un , φi ) = f (φi ) i = 1, . . . , n . (2.35)

Mit den Bezeichnungen

u = (u1 , ..., un )T ∈ Rn , un := P u ,
A = (aij ) ∈ Rn×n , aij := a(φi , φj ) ,
f = (f1 , ..., fn )T ∈ Rn , fi := f (φi )

formulieren wir

91
Satz 2.37. Das RITZ-GALERKIN-Verfahren (2.34) ist äquivalent zu dem
linearen Gleichungssystem
Au = f . (2.36)
Beweis. Nach Lemma 2.36Psind (2.34) und (2.35) äquivalent. Die Behauptung
folgt nun mit u = P u = nj=1 uj φj aus
n

n
X n
X
n
a(u , φi ) = uj a(φj , φi ) = aij uj = f (φi ) , i = 1, ..., n .
j=1 j=1

Bemerkung 2.38. (i) Mit dem Skalarprodukt


n
X
hu, vi := uj v j
j=1

im Rn sowie u = P u, v = P v gilt
a(u, v) = hAu, vi, f (v) = hf , vi .
(ii) Das lineare Gleichungssystem (2.36) besitzt genau dann eine eindeutig
bestimmte Lösung un ∈ Xn , wenn die Matrix A nicht singulär ist.
Folgende Aufgaben sind nun zu lösen:
• Konstruktion geeigneter Unterräume Xn
• Generierung und Lösung des linearen Gleichungssytems
• Fehlerabschätzung.
Nachfolgend geben wir hinreichende Lösbarkeitsbedingungen für das RITZ-
GALERKIN-Verfahren sowie eine a-priori Abschätzung der Lösung an.
Satz 2.39. Seien Xn ⊂ X, dim Xn = n < ∞ und X HILBERT-Raum.
Ferner sei a(·, ·) : X × X → R X-elliptische, stetige Bilinearform, d.h. gelte
∃γ > 0 : a(v, v) ≥ γ||v||2X ∀v ∈ X (2.37)
sowie
∃M > 0 : |a(u, v)| ≤ M ||u||X ||v||X ∀u, v ∈ X (2.38)
und f : X → R sei linear und stetig, d.h.
∃K > 0 : |f (v)| ≤ K||v||X ∀v ∈ X . (2.39)
Dann gilt

92
(i) Die Matrix A = (a(φj , φi )) ∈ Rn×n ist nicht singulär. (Daraus folgt die
eindeutige Lösbarkeit von (2.36).)

(ii) Für die Lösung un ∈ Xn des RITZ-GALERKIN- Verfahrens gilt die


a-priori Abschätzung
K
||un ||X ≤ . (2.40)
γ
Beweis. (i) Mit u 6= 0 folgt P u 6= 0 sowie wegen der X-Elliptizität von a(·, ·)
die Aussage
hAu, ui = a(P u, P u) ≥ γ||P u||2X > 0 ,
d.h. Au 6= 0.
(ii) Wegen (2.38) und (2.39) gilt

γ||P u||2X ≤ a(P u, P u) = f (P u) ≤ K||P u||X ,

also (2.40).
Eine Abschätzung zwischen den Lösungen u ∈ X der Variationsgleichung
(2.33) und un ∈ Xn des RITZ-GALERKIN-Verfahrens (2.34) liefert der

Satz 2.40. Seien Xn ⊂ X, dim Xn = n < ∞, X HILBERT-Raum und


a(·, ·) : X × X → R X-elliptische, stetige Bilinearform, d.h. gelte (2.37) und
(2.38). Dann folgt
M
||u − un ||X ≤ inf ||u − v||X . (2.41)
γ v∈Xn
Beweis. Aus (2.33) und (2.34) folgern wir zunächst die sogenannte Fehler-
gleichung

a(u − un , w) = a(u, w) − a(un , w) = 0 ∀w ∈ Xn . (2.42)

Man nennt (2.42) auch GALERKIN-Orthogonalität. Unter Beachtung von


(2.33),(2.34) und (2.38) ergibt sich

γ||u − un ||2X ≤ a(u − un , u − un ) = a(u − un , u − w)


≤ M ||u − un ||X ||u − w||X , ∀w ∈ Xn .

Daraus folgt durch Bildung des Infimums in Xn die Behauptung (2.41).


Mit dem Satz 2.40 ist die Fehlerabschätzung auf eine Abschätzung des In-
terpolationsfehlers zurückgeführt. Auf Details dieser Interpolationstheorie in
SOBOLEV-Räumen können wir hier nicht eingehen. Es gilt zumindest

93
Lemma 2.41. Seien

X1 ⊂ ... ⊂ Xn−1 ⊂ ... ⊂ X

sowie X = ∪∞
n=1 Xn .
Dann ist
lim inf ||u − w||X = 0 . (2.43)
n→∞ w∈Xn

Beweis. Die Aussage ergibt sich aus der Dichtheit von ∪∞


n=1 Xn in X.

2.3.4 Finite-Element-Methode für Zweipunkt-RWP


Wir betrachten jetzt speziell die zum Zweipunkt-RWP

− u′′ (x) = f (x), x ∈ (0, 1); u(0) = u(1) = 0 (2.44)

gehörige Variationsgleichung

Finde u ∈ X = H01 (0, 1) : a(u, v) = f (v) ∀v ∈ X . (2.45)

mit Z Z
1 1
′ ′
a(u, v) := u (x)v (x) dx, f (v) := f (x)v(x)dx . (2.46)
0 0
Man kann einfach zeigen, dass durch die Halbnorm
Z 1
1/2
||v||X := (a(v, v)) = ( u′ (x)v ′ (x)dx)1/2
0

sogar eine Norm auf dem Raum X = H01 (0, 1) erklärt wird. Hierbei sind
die (verallgemeinerten) homogenen Randbedingungen wesentlich. Dann ist
die Bilinearform a offenbar X-elliptisch mit der Konstanten γ = 1 und stetig
mit der Konstanten M = 1. Beide Konstanten sind optimal. Wir konstruieren
nun passende Unterräume Xn ⊂ X. Unter Zerlegung des Intervalls

[0, 1] = ∪n+1
i=1 Mi , Mi := [xi−1 , xi ]

mit der Gitterweite hi := xi − xi−1 betrachten wir den endlich-dimensionalen


Raum

Xn := {v ∈ C[0, 1] : v(0) = v(1) = 0, v|Mi ∈ Π1 (Mi ), i = 1, ..., n + 1}.


(2.47)

94
Mittels stückweise linearer LAGRANGE’scher Basisfunktionen (finite Ele-
mente)  x−x
i−1
 xi −xi−1 , x ∈ Mi

xi+1 −x
φi (x) := xi+1 −xi
, x ∈ Mi+1 , i = 1, . . . , n

 0, sonst
ergibt sich
Xn = span{φ1 (x), . . . , φn (x)} ⊂ X . (2.48)
Man beachte hierbei, dass die Funktionen aus Xn per Konstruktion die ho-
mogenen DIRICHLET-Randbedingungen erfüllen.

Lemma 2.42. Jede Funktion v n ∈ Xn ist durch die Knotenwerte vi = v(xi )


eindeutig festgelegt und besitzt die Darstellung
n
X
n
v = vj φj (x) .
j=1

Wir kommen nun zur Generierung des linearen Gleichungssystems: Wegen


supp φi = [xi−1 , xi+1 ] ist
Z 1
aij = φ′i φ′j dx = 0, |i − j| ≥ 2 .
0

Für die Nichtnullelemente der Matrix A erhalten wir nach kurzer Rechnung
−1 1 1 −1
ai,i−1 = , ai,i−1 = + , ai,i+1 = ,
xi − xi−1 xi − xi−1 xi+1 − xi xi+1 − xi
d.h.
1 1 1 1
A = tridiag{− ; + ;− }. (2.49)
hi hi hi+1 hi+1
Für die rechte Seite des Gleichungssystems folgt
Z 1 Z xi Z xi+1
fi = f φi dx = f φi dx + f φi dx . (2.50)
0 xi−1 xi

Die Koeffizienten aij sind in diesem Spezialfall exakt integrierbar. 15.


Im allgemeinen Fall interpoliert man die Daten durch Splines und/oder inte- Vorle-
griert mit passenden Quadraturformeln. Dadurch entsteht dann in der Regel sung
ein kleiner Konsistenzfehler. Die bei der klassischen Finite-Differenzen Me- am
thode entstehende Matrix A für Problem (2.44) stimmt mit der bei stückweise 1.12.2009
linearen finiten Elementen entstehenden Matrix A im äquidistanten Fall

95
h = hi , i = 1, ..., n + 1 bis auf den Skalierungsfaktor h1 überein. Unter-
schiede entstehen jedoch ggf. bei der rechten Seite. Zur Lösung des linearen
Gleichungssystems für die FEM können damit der Thomas-Algorithmus oder
Standard-Iterationsverfahren herangezogen werden.
Es verbleibt die Ableitung einer Fehlerabschätzung.

Satz 2.43. Unter der Voraussetzung u′ ∈ H 1 (0, 1) gilt


1
||u − un ||L2 (0,1) ≤ √ h||u′ ||H 1 (0,1) . (2.51)
2 2
Beweis.
Sei v := Πh u die lineare LAGRANGE-Interpolierende. Für e := u − Πh u mit
e(xi ) = 0, i = 0, ..., n + 1 gilt dann unter Verwendung der SCHWARZ’schen
Ungleichung
Z x Z x Z x
2 ′ 2 2
|e(x)| = | e (ξ) dξ| ≤ 1 dξ · |e′ (ξ)|2 dξ
xj xj xj
Z xj +hj+1 /2
≤ |x − xj | |e′ (ξ)|2 dξ ,
xj

falls x ∈ [xj , xj + hj+1 /2]. Integration liefert


Z xj +hj+1 /2 Z xj +hj+1 /2 Z xj +hj+1 /2
2 ′ 2
|e(x)| dx ≤ |e (x)| dx |x − xj | dx
xj xj xj
Z xj +hj+1 /2
1
= |e′ (x)|2 dx · h2j+1 .
xj 8

und sinngemäß
Z xj Z xj
2 1
|e(x)| dx ≤ |e′ (x)|2 dx · h2j .
xj −hj /2 xj −hj /2 8

Aufsummation über j = 1, . . . , n + 1 ergibt mit h := maxj hj


n+1 Z xj
X 1 1
||e||2L2 (0,1) ≤ h2j (e′ (x))2 dx ≤ h2j ||e′ ||2L2 (0,1) ,
j=1
8 xj−1 8

also
1
||e||L2 (0,1) ≤ √ h||e′ ||L2 (0,1) . (2.52)
2 2

96
Weiterhin gilt für den Interpolationsfehler mittels partieller Integration daher

||(u − Πh u)′ ||2L2 (0,1) − ||u′ ||2L2 (0,1) + ||(Πh u)′ ||2L2 (0,1)
Z 1
= 2 (Πh u)′ [(Πh u)′ − u′ ] dx
0
n+1 Z
X xj
= 2 (Πh u)′ [(Πh u)′ − u′ ] dx
j=1 xj−1

n+1
X Z xj

= 2 {(Πh u) (Πh u − u)|xxjj−1 − (Πh u)′′ [(Πh u) − u] dx} = 0 ,
j=1 xj−1

daher

||e′ ||L2 (0,1) = ||(u − Πh u)′ ||2L2 (0,1) = ||u′ ||2L2 (0,1) − ||(Πh u)′ ||2L2 (0,1) ≤ ||u′ ||2L2 (0,1) .

Unter Beachtung von (2.52) ergibt sich daraus


1
||e||L2 (0,1) ≤ √ h||u′ ||L2 (0,1) . (2.53)
2 2
Eine weitere Nebenrechnung (mit mehrfacher partieller Integration und der
Berücksichtigung von (Πh u)′′ = 0) liefert unter Beachtung der vorherigen
Berechnung und von (2.52)
Z 1
′ 2 ′ 2
||e ||L2 (0,1) = ||(u − Πh u) ||L2 (0,1) = (u − Πh u)′ (u − Πh u)′ dx
0
Z 1
= u′ (u − Πh u)′ dx
0
Z 1
= − u′′ (u − Πh u) dx
0
′′
≤ ||u ||L2 (0,1) ||u − Πh u||L2 (0,1)
1
≤ √ h||(u − Πh u)′ ||L2 (0,1) ||u′′ ||L2 (0,1) .
2 2
Damit hat man
1 1
||e||L2 (0,1) ≤ √ h||u′ ||L2 (0,1) und ||e′ ||L2 (0,1) ≤ √ h||u′′ ||L2 (0,1) (2.54)
2 2 2 2
Es gilt bekanntlich

||u − un ||L2 (0,1) ≤ ||u − un ||H 1 (0,1)

97
und unter Nutzung des Satzes 2.40 folgt

||u − un ||2L2 (0,1) ≤ ||e||2H 1 (0,1) = ||e||2L2 (0,1) + ||e′ ||2L2 (0,1) ,

und mit (2.54) folgt mit


1
||u − un ||L2 (0,1) ≤ √ h||u′ ||H 1 (0,1)
2 2
die Behauptung.
Bemerkung 2.44. Die Forderung der Existenz der verallgemeinerten zwei-
ten Ableitung u′′ ∈ L2 (0, 1) ist recht stark. Man vergleiche jedoch die hier
verwendeten Regularitätsannahmen an die Lösung des RWP mit denen, die
für die Konvergenzanalyse bei der schon behandelten klassischen Finite-
Differenzen-Methode gestellt wurden.
Die Darlegungen in diesem Abschnitt können in mehrfacher Hinsicht verall-
gemeinert werden:
• Zunächst kann die Methode auf den Fall des RWP (2.20), (2.21) sowie
für gemischte Randbedingungen erweitert werden. Die Voraussetzungen
der Existenz- und Konvergenzsätze gelten zum Beispiel beim 1. RWP
unter der Voraussetzung c(x) − 12 b′ (x) ≥ 0.

• Bei der Generierung des entsprechenden linearen Gleichungssystems


muss man bei variablen Daten b, c, f aber numerisch integrieren.

• Schließlich kann man allgemeiner global stetige und stückweise polyno-


miale Basisfunktionen höheren Grades verwenden.
FEM-Programmpakete erlauben in der Regel alle hier beschriebenen Verall-
gemeinerungen.

2.3.5 Weitere mögliche Basisfunktionen


Aus der Fourier-Analysis wissen wir, dass eine stetige, ungerade 1-periodische
Funktion f : R → R auf dem Intervall [0, 1] beliebig gut durch Fourier-
Polynome
Xn
bk sin(kπx) ,
k=1

also mit den Basisfunktionen

φk (x) = sin(kπx) (2.55)

98
annähern kann, d.h. der Raum

Xn = span{sin(πx), sin(2πx), . . . , sin(nπx)}

hat die Eigenschaft X = ∪∞ n=1 Xn . Mit den hier angegebenen Basisfunktionen


′′
erhält man für RWP −y + c(x)y = f (x), y(0) = y(1) = 0, aufgrund der
Orthogonalität der Funktionen φk (x) = sin(kπx) Diagonalmatrizen A.
Neben einer trigonometrischen Basis kann man z.B. mit der polynomialen
Basis
φk (x) = xk (1 − x), k = 1, 2, . . . (2.56)
arbeiten. Die Unterräume Xn = span{x(1−x), x2 (1−x), . . . , xn (1−x)} haben
auch die Eigenschaft X = ∪∞ n=1 Xn . Hier erhält man allerdings aufgrund
fehlender Ortogonalität keine schwach besetzte Matrix A des zugehörigen
Ritz-Galerkin-Verfahrens.

2.4 Kollokationsverfahren
Neben den bisher besprochenen klassischen Finite-Differenzen-Verfahren
und den Ritz-Galerkin-Verfahren, die auf der Basis von Variationsgleichun-
gen gewonnen werden, kann man Näherungslösungen von RWP auch mit
dem Kollokationsverfahren bestimmen, das zumindest hinsichtlich des
Lösungsansatzes dem Ritz-Galerkin-Verfahren ähnelt.
Betrachten wir das RWP −y ′′ + q(x)y = f (x), y(0) = y(1) = 0. Wie beim
Ritz-Galerkin-Verfahren geht man von Basis- oder Ansatz-Funktionen φk (x)
aus, die mindestens 2-mal differenzierbar sein sollen und die Randbedingun-
gen φk (0) = φk (1) = 0 erfüllen sollen. Nun macht man den Ansatz
n
X
u(x) = ck φk (x) (2.57)
k=1

für die Näherungslösung und fordert für die zu wählenden Kollokationspunkte


x1 , . . . , xn ∈]0, 1[, dass Näherungslösung u(x) die Differentialgleichung in den
Kollokationspunkten exakt erfüllt. Das bedeutet
n n
d2 X X
− 2[ ck φk (x)]|xj + q(xj ) ck φk (xj ) = f (xj ) , j = 1, . . . , n, bzw.
dx k=1 k=1
n
X
ck [−φ′′k (xj ) + q(xj )φk (xj )] = f (xj ) .
k=1

99
Mit A = (ajk ) = (−φ′′k (xj ) + q(xj )φk (xj )) und c = (c1 , . . . , cn )T bzw. f =
(f1 , . . . , fn )T erhält man das lineare Gleichungssystem
Ac = f
zur Bestimmung von c und damit schließlich auch die Näherungslösung u(x).
Betrachtet man als Ansatzfunktionen z.B. (2.55), dann ergibt sich mit
A = (ajk ) , ajk = (kπ)2 sin(kπxj ) + q(xj ) sin(kπxj )
eine vollbesetzte bzw. zumindest nicht schwach besetzte Koeffizienten-
Matrix. Für die Ansatzfunktionen (2.56) erhält man mit
φ′k (x) = xk−1 [k − (k + 1)x] , φ′′k (x) = kxk−2 [k − 1 − (k + 1)x]
die Matrix
A = (ajk ) , ajk = −kxk−2
j [k − 1 − (k + 1)xj ] + q(xj )(1 − xj ) ,
also ebenfalls eine nicht schwach besetzte Koeffizienten-Matrix.
Der Grund für starke Besetzung der Koeffizienten-Matrizen A liegt an
den Trägern supp φk der gewählten Basisfunktionen (2.55) bzw. (2.56),
die nicht h-lokal sind. Eine Möglichkeit der Erzeugung schwach besetzter
Koeffizienten-Matrizen A von Kollokationsverfahren besteht in der Wahl so-
genannter h-lokaler Ansatz- bzw. Basisfunktionen. In Frage kommen dabei
kubische B-Splines, die bei gleichabständigen Knoten x1 = 0, x2 , . . . , xn = 1
und h = xi+1 − xi durch
 1

 4h3
(x − xi−2 )3 xi−2 ≤ x ≤ xi−1
 1 3 3 2 3 3

 4 4h+ (x − x i−1 ) + 4h2
(x − x i−1 ) − 4h3
(x − x i−1 ) xi−1 ≤ x ≤ xi
1 3 3 2 3 3
Bi (x) = 4
+ 4h (xi+1 − x) + 4h2 (xi+1 − x) − 4h3 (xi+1 − x) xi ≤ x ≤ xi+1
 1

 (xi+2 − x)3 xi+1 ≤ x ≤ xi+2
 4h3

0 x ≤ xi−2 , xi+2 ≤ x
erklärt sind. Man rechnet nach, dass Bi (xi ) = 1, Bi (x±i ) = 14 und Bi (xj ) =
0 für |i − j| > 1 gilt. Mit den ”Hilfs”-Gitterpunkten x−2 , x−1 , x0 und
xn+1 , xn+2 , xn+3 , die man geeignet vor x1 = 0 und nach xn = 1 platziert,
kann man nun Bi (x) für i = 0, . . . , n + 1 bestimmen. Ausgehend von den
Bi (x) erhält man mit
φ1 (x) = B1 (x) − 4B0 (x)
φ2 (x) = 4B2 (x) − B1 (x)
φi (x) = Bi (x) , i = 3, . . . , n − 2,
φn−1 (x) = 4Bn−1 (x) − Bn (x)
φn (x) = Bn (x) − 4Bn+1 (x)

100
Ansatzfunktionen (Basis), die ebenso wie deren Linearkombinationen die
Randbedingung φi (0) = φi (1) = 0, i = 1, . . . , n, erfüllen. Außerdem haben
diese Ansatzfunktionen einen sogenannten h-lokalen Träger, denn es gilt

supp φi ⊂ [xi−2 , xi+2 ] ,

was zu einer schwach besetzten Koeffizienten-Matrix eines Kollokationsver-


fahrens führt. Die Matrix ist in unserem Beispiel tridiagonal. Allerdings
erhält man in unserem Beispiel-RWP wie auch im Allgemeinen beim Kol-
lokationsverfahren keine symmetrische Koeffizienten-Matrix.
Die eben eingeführten Ansatzfunktionen kann man selbstverständlich auch
als Grundlage für ein Finite-Element-Verfahren ausgehend von einer Varia-
tionsgleichung verwenden.

2.5 Schießverfahren
16.
Ziel soll es im Folgenden sein, RWP der Art Vorle-
sung
y ′′ = f (x, y, y ′ ) , y(a) = ηa , y(b) = ηb (2.58) am
2.12.2009
für eine skalare Funktion y : [a, b] → R, oder allgemeiner

y ′ = f (x, y) , r(y(a), y(b)) = 0 (2.59)

für y = (y1 , . . . , yn )T , yk : [a, b] → R zu lösen. Beim Problem (2.59) be-


schreibt r eine möglicherweise nichtlineare Randbedingung.

2.5.1 Das einfache Schießverfahren für skalare Glei-


chungen
Das Grundprinzip des Schießverfahrens soll für das spezielle erste RWP

y ′′ = f (x, y) , y(a) = ηa , y(b) = ηb (2.60)

erläutert werden. Schießverfahren zur Lösung von Zweipunkt-


Randwertproblemen basieren auf Methoden zur Lösung von Anfangs-
wertproblemen. Beim ersten Randwertproblem (2.60) nutzt man dabei z.B.
die Randbedingung y(a) = ηa als Anfangsbedingung und versucht durch
eine geeignete Wahl von sa = y ′ (a) als Anfangsbedingung für die Ableitung
mit einer Lösung des Anfangswertproblems

y ′′ = f (x, y) , y(a) = ηa , y ′ (a) = s (2.61)

101
die Randbedingung y(b) = ηb zu treffen. Für vorgegebenes s sei y(x, s) die
Lösung von (2.61). y(x, s) ist dann Lösung des Zweipunkt-Randwertproblems
(2.60), wenn s Nullstelle der Funktion

g(s) = y(b, s) − ηb (2.62)

ist. Für eine Funktionswertberechnung von g ist ein Anfangswertproblem


(2.60) zu lösen. Eine Möglichkeit zur Bestimmung der Nullstelle von g ist mit
dem Bisektionsverfahren gegeben. Allerdings ist es durchaus möglich, dass
durch Fehler bei der Lösung des Anfangswertproblems das Vorzeichen von g
nicht immer korrekt berechnet werden kann, so dass das Bisektionsverfahren
unbrauchbar wird.
Eine andere Möglichkeit zur Bestimmung der Nullstelle von g bietet das
Newton-Verfahren. Die Differentiation von g nach s ergibt

g ′ (s) = ys (b, s) , (2.63)

wobei ys (b, s) die partielle Ableitung von y(x, s) nach s ausgewertet an der
Stelle x = b ist. Die Differentiation der Gleichung y ′′ (x, s) = f (x, y(x, s))
nach s ergibt
∂ ′′
[y (x, s)] = fy (x, y(x, s))ys (x, s) . (2.64)
∂s
fy bedeutet dabei die partielle Ableitung von f (x, y) nach y. Mit der Vor-
aussetzung der Vertauschbarkeit der Ableitungen nach s und x erhält man
aus (2.64) die Differentialgleichung 2. Ordnung

ys′′ (x, s) = fy (x, y(x, s))ys (x, s) (2.65)

für ys (x, s). Durch Differentiation der Anfangsbedingungen der Aufgabe


(2.61) nach s erhält man die Anfangsbedingungen

ys (a, s) = 0 , ys′ (a, s) = 1 . (2.66)

Mit (2.65), (2.66) liegt ein Anfangswertproblem zur Berechnung von ys (x, s),
also auch zur Berechnung der Ableitung von g vor (gemäß (2.63)). Da-
mit kann man durch Lösung der Anfangswertprobleme (2.61) und (2.65),
(2.66) Funktionswert und Ableitung von g(s) berechnen und kann somit ein
Newton-Verfahren zur Nullstellenberechnung von g durchführen. Hierzu ist
anzumerken, dass man zur Lösung von (2.65), (2.66) die Funktion y(x, s) als
Lösung des Anfangswertproblems (2.61) benötigt, um die Funktionswerte von
fy (x, y(x, s)) berechnen zu können. Da man die exakte Lösung y(x, s) nicht
zur Verfügung hat, verwendet man die Näherungswerte yk an den Stützstellen
xk des Intervalls [a, b] zur Berechnung von fy an den Stützstellen xk . Beim

102
Schießverfahren ist es in jedem Fall sinnvoll, ein recht genaues Verfahren zur
erforderlichen Lösung der Anfangswertprobleme (2.61) und (2.65), (2.66) zu
verwenden, da speziell bei wachsenden Lösungen die Sensibilität der Lösung
y(x, s) von s sehr groß sein kann und somit kleine Änderungen von s große
Auswirkungen auf y(b, s) haben können.
Beim Schießverfahren für das RWP mit der Differentialgleichung y ′′ =
f (x, y, y ′ ) erhält man statt dem AWP (2.65) durch Differentiation der Dgl.
y ′′ (x, s) = f (x, y(x, s), y ′ (x, s)) und Vertauschung der Ableitungsreihenfolge

ys′′ (x, s) = fy (x, y(x, s), y ′ (x, s))ys (x, s) + fy′ (x, y(x, s), y ′ (x, s))ys′ (2.67)

und nach Differentiation der Randbedingungen

ys (a, s) = 0 , ys′ (a, s) = 1 . (2.68)

Mit der Lösung der AWP (2.65),(2.66) bzw. (2.67),(2.68) hat man g ′ (s) =
ys (b, s) zur Verfügung und wenn man mit dem Newtonverfahren

g(s)
s(i+1) = s(i) −
g ′ (s)
erfolgreich eine Nullstelle von g bestimmen kann auch die Lösung des ur-
sprünglichen RWPs bestimmt.
Das erfordert aber in jedem Fall eine recht genaue Lösung der AWP (2.61)
und (2.67),(2.68), deren Lösung man ja zur Berechnung von g(s) und g ′ (s)
braucht.
Mögliche Gründe für das Scheitern des Schießverfahrens sollen am folgenden
Beispiel dargestellt werden.
Beispiel 2.45. Man betrachte das Problem

y ′′ − 100y = 0 , y(0) = 1 , y(1) = 0 . (2.69)

Die exakte Lösung dieses Randwertproblems lässt sich aus der allgemeinen
Lösung y(x) = c1 e−10x + c2 e10x unter der Beachtung der Randbedingungen
zu
1 −10x e−20 10x
y(x) = e − e
1 − e−20 1 − e−20
bestimmen. Beim Schießverfahren arbeitet man statt der Randbedingung
y(1) = 0 mit der Anfangsbedingung y ′ (0) = s und findet für das entspre-
chende AWP die exakte Lösung
10 − s −10x 10 + s 10x
y(x; s) = e + e .
20 20

103
Am zweiten Summanden erkennt man, dass am Intervallendpunkt x = 1 der
Wert y(1; s) sehr empfindlich auf Änderungen von s reagiert. Man findet mit
1 + e−20
se = −10 ≈ −10
1 − e−20
den s-Wert, der zur exakten Lösung des RWPs (2.69) gehört. Selbst eine
geringfügige Abweichung von se , z.B. mit s = se +0.001 ergibt statt y(1; se ) =
0 den Wert y(1; se + 0.001) = 1, 1014, und mit s = se + 0.01 den Wert
y(1; se + 0.01) = 11.013. Der Grund für dieses Verhalten liegt in der Größe
der Lipschitzkonstanten für die rechte Seite der Differentialgleichung.

2.5.2 Schießverfahren für Dgl.-Systeme


Es werden nun Randwertprobleme der Form (2.59) betrachtet. Man versucht
wieder einen Startvektor s ∈ Rn so zu bestimmen, dass die Lösung des RWPs
y ′ = f (x, y) , y(a) = s (2.70)
y(x) = y(x, s) den Randbedingungen
r(y(a, s), y(b, s)) ≡ r(s, y(b, s)) = 0
genügt. Dazu ist eine Lösung s = (σ1 , σ2 , . . . , σn )T der Gleichung
G(s) = 0 (2.71)
mit G(s) := r(s, y(b, s)) zu finden. Ein Newton-Verfahren zur Lösung von
(2.71) lautet
s(i+1) = s(i) − [G′ (s(i) )]−1 G(s(i) ) ,
wobei in jedem Schritt G(s(i) ) mittels der Lösung des AWPs (2.70) zu be-
stimmen ist, und die Ableitungsmatrix
∂Gj
G′ (s(i) ) = [ ] (i)
∂σk s=s
zu berechnen ist. Zur Berechnung von G′ findet man durch Differentiation
G′ (s) = Du r(s, y(b)) + Dv r(s, y(b, s))Z(b, s)
mit den Matrizen
∂ri (u, v)
Du r(u, v) = [ ],
∂uj
∂ri (u, v)
Dv r(u, v) = [ ],
∂vj
∂yi (b, s)
Z(b, s) = Ds y(b, s) = [ ].
∂σj

104
Sowohl beim Schießverfahren für skalare Probleme, als auch beim eben darge-
stellten Schießverfahren für Systeme kann man statt des Newton-Verfahrens
auch mit Sekanten-Verfahren arbeiten, d.h. die Ableitung g ′ oder die Ablei-
tungsmatrix G′ durch Differenzenquotienten ersetzen und damit die aufwen-
dige Lösung des AWPs (2.67),(2.68) bzw. die aufwendige Berechnung von
Du , Dv und Z vermeiden um den Preis der mehrfachen Lösung der AWP
(2.61) bzw. (2.70).

2.5.3 Schießverfahren für lineare Randwertaufgaben


17.
Satz 2.46. (Lösungsdarstellung) Vorle-
Mit der Fundamentalmatrix Y : I → Rn x n und der speziellen (partikulären) sung
Lösung y0 : I → Rn als Lösungen der AWP am
8.12.2009
y0′ (x) − A(x)y0 (x) = f (x), x ≥ a, y0 (a) = 0,
Y ′ (x) − A(x)Y (x) = 0, x ≥ a, Y (a) = E (2.72)

kann man die Lösung des RWPs

y ′ (x) − A(x)y(x) = f (x) , x ∈ I = [a, b],


Ba y(a) + Bb y(b) = g,

durch
y(x) = y0 (x) + Y (x)s (2.73)
mit der Lösung s ∈ Rn des linearen Gleichungssystems

[Ba + Bb Y (b)] s = g − Bb y0 (b) , (2.74)


| {z }
=Q

darstellen, vorausgesetzt, die Matrix Q ist regulär.


Mit anderen Worten, die Funktion y(x) = y(x; s) löst das AWP

y ′ (x; s) − A(x)y(x; s) = f (x), y(a; s) = s,

wobei gerade die Randbedingung

Ba y(a; s) + Bb y(b; s) = g

erfüllt ist.

105
Beweis. Für y(x) = y(x; s) und s = y(a) ist die Randbedingung genau dann
erfüllt, wenn

g = Ba y(a) + Bb y(b)
= Ba (Y (a)s + y0 (a)) + Bb (Y (b)s + y0 (b))
= [Ba Y (a) + Bb Y (b)]s + Bb y0 (b)

gilt, also (2.74). Dass (2.73) eine Lösung des AWPs ist, bestätigt man durch
Differenzieren und Einsetzen.
Für das ”Einfache Schießverfahren” ergibt sich i.d.Regel der folgende Algo-
rithmus:

1. Zur Schrittweite h = (b − a)/N werden mit einem konsistenten Ein-


h
schrittverfahren die n + 1 Näherungen (yi,k )0≤k≤N , 0 ≤ i ≤ n, zu den
Lösungen yi (x) der AWP (2.72) bestimmt (Stützstellen xk = a + kh).

2. Mit der Matrix


Qh := Ba + Bb YNh (2.75)
wird, falls sie regulär ist, das Gleichungssystem

Qh sh = g − Bb y0,N
h
(2.76)

gelöst.

3. Die eindeutige Lösung sh des Gleichungssystems (2.76) ergibt die


Lösung
ykh := y0,k
h
+ Ykh sh , k = 0, 1, 2, . . . , N.

Bemerkung 2.47. Natürlich kann ebenfalls mit variabler Schrittwei-


te operiert werden. Dann bietet es sich an, anstelle von Schritt 3 die
Näherungslösung als Lösung des AWP

y ′ (x; sh ) − A(x)y(x; sh ) = f (x), y(a; sh ) = sh ,

erneut mit variabler Schrittweite zu berechnen. Bei diesem Vorgehen kann


h
auf das Speichern aller Zwischenwerte yi,k , k < N , verzichtet werden.

Zur Frage der Invertierbarkeit der Matrix Qh in (2.75) und der Konvergenz
für h → 0 dient der folgende Satz.

106
Satz 2.48. (Konvergenz des einfachen Schiessverfahrens)
A(x) und f (x) seien stetig differenzierbar und die Matrix Q = Ba + Bb Y (b)
h
sei regulär. Zur Berechnung der yi,k , 0 ≤ i ≤ n,werde jeweils ein Verfahren
der Ordnung m eingesetzt. Dann ist für hinreichend kleines h die Matrix Qh
ebenfalls regulär und das Verfahren konvergiert mit der Ordnung m, also
max |ykh − y(xk )| = O(hm ), h → 0.
0≤k≤N

Beweis. Die Lipschitzkonstante der (homogenen und inhomogenen) Differen-


tialgleichungen in (2.72) ist
L := max ||A(x)||.
x∈I

Für die Näherungslösungen an der Stelle x = b gilt also


h
||yi,N − yi (b)|| ≤ KeL(b−a) hm ,
wobei die Konstante K im Wesentlichen nur von den gegebenen Daten A(t)
und f (t) abhängt. Hieraus ergibt sich sofort
||Q − Qh || = ||Bb (Y (b) − YNh )|| ≤ ||Bb || max ||yi (b) − yi,N
h
|| = O(hm ).
1≤i≤n

Für hinreichend kleines h ist also Qh regulär und


||Q − Qh || < 1/||Q−1 || =⇒ ||Q−1 (Qh − Q)|| < 1,
und dies impliziert die Regularität von Qh = Q(E + Q−1 (Qh − Q)) sowie die
Abschätzung
||Q−1 ||
||(Qh )−1 || ≤ .
1 − ||Q−1 || · ||Qh − Q||
Wegen
Q−1 − (Qh )−1 = Q−1 (Qh − Q)(Qh )−1 , (Qh )−1 = (E + Q−1 (Qh − Q))−1 Q−1
folgt weiter
||Q−1 ||2
||Q−1 − (Qh )−1 || ≤ ||Qh − Q|| = O(hm ).
1 − ||Q−1 || · ||Qh − Q||
Daraus können wir nun folgern, dass
||s − sh || = ||Q−1 [g − Bb y0 (b)] − (Qh )−1 [g − Bb y0,N
h
]||
≤ ||Q−1 − (Qh )−1 || · ||g|| +
+||Q−1 − (Qh )−1 || · ||Bb || · ||y0 (b)|| +
+||(Qh )−1 || · ||Bb || · ||y0 (b) − y0,N
h
||
m
= O(h )

107
gilt. Mit den Bezeichnungen
(1) (2)
ek = ykh − y(xk ) , h
ek = y0,k − y0 (xk ) , ek = Ykh − Y (xk )

und den Konsistenzeigenschaften der Verfahren zur Lösung der AWP

||e(ν) || = O(hm ) , ν = 1, 2,

folgt

||ek || = ||ykh − y(xk )|| = ||y0,k


h
− y0 (xk ) + Ykh sh − Y (xk )s||
(1) (2)
= ||[ek + ek s] + Ykh (sh − s)||
(1) (2)
≤ ||ek || + ||ek || · ||s|| + ||Ykh || · ||sh − s||
= O(hm ) ,

also die Behauptung.

2.5.4 Mehrzielverfahren (linearer Fall)


Entscheidend für eine Fehlerverstärkung bei Lösungsverfahren von AWP ist
die Konstante
M = eL(b−a) ,
wobei L eine Lipschitzkonstante ist, z.B.

L = max ||A(x)||
x∈[a,b]

für ein AWP y ′ = A(x)y+f (x), y(a) = s. Wenn L groß ist, dann (siehe obiges
Beispiel 2.45), dann kann das einfache Schießverfahren scheitern. Zur Abhilfe
dieser Probleme führt man die Mehrfachschießmethode (Mehrzielverfahren)
ein, das im Folgenden für lineare RWP

y ′ = A(x)y + f (x), Ba y(a) + Bb y(b) = g ,

beschrieben werden soll. Dazu diskretisiert man das Intervall I = [a, b] durch

a = x1 < x2 < · · · < xr+1 = b .

Für gegebene Vektoren sj ∈ Rn , 1 ≤ j ≤ r, seien

y(x; xj , sj ) , 1≤j≤r,

die Lösungen der AWP

y ′ = A(x) + f (x) , x ∈ [xj , xj+1 ], y(xj ) = sj .

108
Im Unterschied zum einfachen Schießverfahren hat man es bei der Lösung der
lokalen AWP nicht mehr mit der Fehlerverstärkungskonstante M , sondern
mit der kleineren Konstante M 1/r zu tun, so dass die begründete Hoffnung
besteht, dass das Mehrzielverfahren stabiler als das einfache Schießverfahren
ist.
Das Problem besteht darin, die r Vektoren sj so zu bestimmen, dass die
zusammengesetzte Funktion

y : [a, b] → Rn , y(x) = y(x; xj , sj ) für x ∈ [xj , xj+1 ], 1 ≤ j ≤ r, (2.77)

stetig auf I = [a, b] ist und die Randbedingung Ba y(a) + Bb y(b) = g erfüllt.
Man kann zeigen, dass aus der Stetigkeit von y gemäß (2.77) und der
Erfüllung der Randbedingung die Differenzierbarkeit folgt.
Die Forderung nach Stetigkeit von y und die Erfüllung der (globalen) Randb-
dingung bedeuten die Bedingungen

y(xj+1 ; xj , sj ) = sj+1 , j = 1, 2, . . . , r − 1 (2.78)


Ba s1 + Bb y(b; xr , sr ) = g .

Wie beim einfachen Schießverfahren werden auf jedem Teilintervall (1 ≤ j ≤


r) die partikuläre Lösung yj und die Fundamentalmatrix Yj als Lösungen der
AWP

yj′ = A(x)yj + f (x) , x ∈ [xj , xj+1 ], yj (xj ) = 0, (2.79)


Yj′ = A(x)Yj , x ∈ [xj , xj+1 ], Yj (xj ) = E (2.80)

bestimmt. Die lokale Lösung hat dann wie beim einfachen Schießverfahren
die Form
y(x; xj , sj ) = yj (x) + Yj (x)sj , j = 1, . . . , r . (2.81)
Die Bedingungen (2.78) erhalten so die Form eines linearen Gleichungssys-
tems für die Parametervektoren s1 , . . . , sr :

Ba s1 + Bb Yr (b)sr = g − Bb yr (b)
−Y1 (x2 )s1 + s2 = y1 (x2 )
− Y2 (x3 )s2 + = y2 (x3 )
..
.
−Yr−1 (xr )sr−1 + sr = yr−1 (xr )

Dies ist ein lineares Gleichungssystem mit der (r n × r n)-Matrix Ar , die die

109
Faktorisierung
   
Q1 Q2 . . . Qr E ...

 E   −Y1 (x2 ) E
 


Ar =  ...  ·  ... ... 
   
E −Yr−1 (xr ) E
| {z } | {z }
R L

besitzt, wobei die Matrizen Q1 , . . . , Qr−1 die Rekursion

Qr = Bb Yr (b) ,
Qj = Qj−1 Yj (xj+1 ) , j = r − 1, r − 2, . . . , 2 ,
Q1 = Ba + Q2 Y1 (x2 )

erfüllen. Insbesondere ist

Q1 = Ba + Bb Yr (b) · · · Y2 (x3 )Y1 (x2 ) . (2.82)

Offensichtlich ist die Matrix Ar genau dann regulär, wenn die Matrix Q1 re-
gulär ist. Man kann nun zeigen, dass Q1 dann regulär ist, wenn die Matrix
Q = Ba +Bb Y (b) des einfachen Schießverfahrens regulär ist, also ist die Mehr-
fachschießmethode immer durchführbar, wenn es die einfache Schießmethode
ist.

2.5.5 Mehrzielverfahren (allgemeiner Fall)


18.
Statt dem oben betrachteten linearen Randwertproblem soll das Mehrziel- Vorle-
verfahren für nichtlineare RWP, also sung
am
y ′ = f (x, y) , r(y(a), y(b)) = 0 (2.83)
9.12.2009
für y = (y1 , . . . , yn )T , yk : [a, b] → R. Wie beim Mehrzielverfahren für lineare
RWP betrachtet man AWP auf den Teilintervallen [xj , xj+1 ], und zwar

y ′ = f (x, y) , y(xj ) = sj , j = 1, . . . , r ,

und fordert, dass

y : [a, b] → Rn , y(x) = y(x; xj , sj ) für x ∈ [xj , xj+1 ], 1 ≤ j ≤ r, (2.84)

110
stetig auf I = [a, b] ist und die Randbedingung r(y(a), y(b)) =
r(s1 , y(b; xr , sr )) = 0 erfüllt ist. Das bedeutet ein i.Allg. nichtlineares Glei-
chungssystem für s = (s1 , . . . , sr )T der Form
   
F1 (s1 , s2 ) y(x2 ; x1 , s1 ) − s2
 F2 (s2 , s3 )   y(x3 ; x2 , s2 ) − s3 
   
F (s) := 
 .
.   .
. 
.  :=  .  = 0 , (2.85)
   
 Fr−1 (sr−1 , sr )   y(xr−1 ; xr−2 , sr−2 ) − sr−1 
Fr (s1 , sr ) r(s1 , y(b; xr , sr ))

wobei die Bedingung y(xr+1 ; xr , sr ) = y(b; xr , sr ) = y(b) und


r(s1 , y(b; xr , sr )) = 0 zusammengefasst wurden. Eine Nullstelle von F bzw.
die Lösung von (2.85) wird i.d.Regel mit einem Sekantenverfahren (regula
falsi) durchgeführt, d.h. man muss für das Verfahren Differenzenquotienten
bestimmen, also F an den Stellen
 (j)   (j)

s1 s1
 ..   .. 
 .   . 
 (j)   
 s  und  s(j) + ∆s(j)  k = 1, . . . , n
 k   k k 
 ..   .. 
 .   . 
(j) (j)
sn sn

berechnen, dann die Differenzenquotienten berechnen, eine Approximation


F∆ (s(j) ) der Funktionalmatrix F ′ (s(j) ) berechnen, und schließlich das System

F∆ (s(j) )∆s = −F (s(j) ) mit ∆s = s(j+1) − s(j)

lösen. Aufgrund der konkreten Form der Komponenten Fk von F ist die
Matrix F∆ (s(j) ) schwach besetzt und hat eine ähnliche Blockdiagonalstruktur
wie die Matrix Ar im linearen Fall. Mit s(j+1) = s(j) + ∆s erhält man dann
die neue Iterierte. Auf die wichtige Wahl geeigneter Startiterationen sei hier
nur hingewiesen.

111
Kapitel 3

Partielle
Differentialgleichungen und
deren numerische Lösung

3.1 Beispiele partieller Differentialgleichun-


gen der math. Physik
Im Ergebnis der mathematischen Modellierung bzw. Beschreibung von tech-
nischen Prozessen oder physikalischen Phänomenen entstehen partielle Diffe-
rentialgleichungen. Als Beispiel seien hier die Kontinuitätsgleichung als Re-
sultat einer Massenbilanz
∂ρ
+ div(ρ v) = 0 (3.1)
∂t
und die Navier-Stokes-Gleichung
∂v 1 4
+ (v · ∇)v = − ∇p + ν[ ∆v − ∇ × (∇ × v)] + F (3.2)
∂t ρ 3
als Ergebnis der Bilanzierung des Impulses genannt. Die Differentiationen in
der Gleichung sind dabei auf alle Komponenten des Vektorfeldes v anzuwen-
den und (3.2) besteht aus 3 skalaren Gleichungen für die 3 Geschwindigkeits-
komponenten. Die Funktionen bzw. Vektorfelder

ρ : [0, T ] × Ω → R, p : [0, T ] × Ω → R, v : [0, T ] × Ω → R3

bezeichnen die Dichte, den Druck und das Geschwindigkeitsfeld. Ω ⊂ R3 ist


das räumliche Gebiet, in dem der jeweilige Prozess betrachtet wird, und [0, T ]

112
ist das interessierende Zeitintervall. ν bezeichnet die kinematische Viskosität
und F steht für ein äußeres Kraftfeld.
Im Fall eines inkompressiblen Fluids gilt ρ = const. und die Konti-
nuitätsgleichung (3.1) vereinfacht sich zu

div v = 0 . (3.3)

Unter Nutzung von (3.3) vereinfacht sich die Navier-Stokes-Gleichung (3.2)


zu
∂v 1
+ (v · ∇)v = − ∇p + ν∆v + F . (3.4)
∂t ρ
Als Ergebnis der Energiebilanz erhält man für ein inkompressibles
Medium als Spezialfall die parabolische Wärmeleitungsgleichung mit
Berücksichtigung des konvektiven Transports
∂θ
+ (v · ∇)θ = a∆θ + Q (3.5)
∂t
für das Temperaturfeld θ : [0, T ] × Ω → R (a ist die Temperaturleitzahl und
Q beschreibt Wärmequellen oder -senken in Ω).
In der Navier-Stokes-Gleichung (3.2) beschreiben der Term

∂v
ρ[ + (v · ∇)v]
∂t
die Beschleunigungskräfte,
∇p
die Druckkraft und
4
νρ[ ∆v − ∇ × (∇ × v)]
3
die Reibungskräfte. Z.B. bei der Modellierung der Umströmung eines Trag-
flügels spielen die Reibungskräfte nur eine untergeordnete Rolle, so dass bei
diesem Strömungsproblem die Impulsbilanz als Spezialfall der Navier-Stokes-
Gleichung (ohne Reibungsterme) durch die hyperbolische Euler-Gleichung

∂v 1
+ (v · ∇)v = − ∇p + F (3.6)
∂t ρ
beschrieben wird.
Bei den zeitabhängigen Problemen sind Anfangsbedingungen für die zu be-
rechnenden Felder, z.B. für die Temperatur etwa

θ(0, x) = θ0 (x) , x ∈ Ω, (3.7)

113
vorzugeben. Handelt es sich bei den beschreibenden Differentialgleichungen
um Gleichungen mit räumlichen zweiten Ableitungen, sind Randbdingungen,
als Beispiel
θ(t, x) = θr (t, x) , x ∈ Γ = ∂Ω, (3.8)
zum Abschluss des jeweiligen Modells vorzugeben. Bei Vorgabe eines
Geschwindigkeitsfeldes v sowie von a und Q ist durch (3.5), (3.7), (3.8)
ein Anfangs-Randwert-Problem zur Bestimmung des zeitlich veränderlichen
Temperaturfeldes θ(t, x) in [0, T ] × Ω gegeben, dessen Lösung i.d.Regel
numerische erfolgen muss.
19.
Im Folgenden sollen noch 2 Randwertprobleme im Rahmen der Bestimmung Vorle-
des Minimums eines Funktionals bzw. der thermischen Kontrolle eines tech- sung
nologischen Prozesses angegeben werden. am
Es soll das sogenannte Mumford-Shah-Funktional 15.12.2009
Z
E(f ) = [(f − d)2 + α2 (R − I)2 ] dF (3.9)

minimiert werden. Dabei ist d ein gegebenes, i.d.Regel verrauschtes Daten-


feld einer räumlichen Kontur (Fläche S im Raum), dass durch irgendwelche
Sensoren generiert wurde. I beschreibt ein Intensitätsfeld R ist der Reflekti-
onsgrad. Die gesuchte glatte Funktion f beschreibt die entrauschte geglättete
Fläche S. Wenn l den Einheitsvektor in Richtung der Lichtquelle, die das zu
erfassende Objekt mit der Oberfläche S beleuchtet, bezeichnet, und n den
äußeren Normalvektor, ergibt sich für R
(−fx , −fy , 1)
R=n·l = p · (l1 , l2 , l3 ) , (3.10)
1 + |∇f |2
wobei fx , fy die partiellen Ableitunge von f bedeuten. Mit den Setzungen
(l1 , l2 ) n·l
∇fx ,fy R = − p −p ∇f , (3.11)
1 + |∇f |2 1 + |∇f |2
V = α2 (R − I)∇fx ,fy R (3.12)
erhält man aus der notwendigen Extremalbedingung für die Variation
δE(f ; v) = 0 für alle Richtungen v die Euler-Lagrange-Differentialgleichung
∇ · V + (d − f ) = 0 auf Ω (3.13)
mit der Randbedingung
∂2f
n·V =0, = 0 auf Γ = ∂Ω . (3.14)
∂n2

114
Bei genauerem Hinsehen erkennt man in (3.13) eine biharmonische Differen-
tialgleichung mit Ableitungen von f bis zur Ordnung 4.
Im zweiten Beispiel zur Optimierung mit partiellen Differentialgleichungen
soll in einem Bereich Ω durch eine bestimmte Heiz- bzw. Kühlstrategie (reali-
siert durch eine vorzugebenden Wärmestromdichte am Rand) eine bestimm-
te vorgegebene Temperaturverteilung T eingestellt oder sehr gut angenähert
werden. Denkbar wäre hier die Bearbeitung eines Stahlblockes oder das Auf-
schmelzen von Ausgangsstoffen zur Erzeugung eines homogenen Gemischs.
Auf einem Teil des Randes Γd von Ω sei eine fixierte Temperatur vorgegeben
und auf dem verbleibenden Rand Γc wird geheizt.

ΓC

Abbildung 3.1: Bereich Ω und Heizungsrand Γc

Bemerkung 3.1. Für die nun folgenden Betrachtungen verabreden wir, dass
wir von den beteiligten Funktionen soviel Regularität fordern, dass die vor-
kommenden Integrale existieren!
Es ist eine vorzugebende Wärmestromdichte (Heizstrategie) gesucht, die in
Ω eine Temperaturverteilung zur Folge hat, die den um ein Kostenglied er-
weiterten quadratischen Abstand
Z Z
1 2 α
J(T, q) = (T − T ) dV + q 2 dF (3.15)
2 Ω 2 Γc
minimiert. Im Ergebnis der mathematischen Modellierung erhält man zur
Berechnung der Temperaturverteilung T in Ω das elliptische Randwertpro-
blem
∂T
− ∆T = f in Ω, T = 0 auf Γd , = q auf Γc , (3.16)
∂n
wobei f vorgegeben ist und q die gesuchte optimale Wärmestromdichte ist.
Die Randbedingung T = 0 auf Γc stellt keine Einschränkung der Allgemein-
heit dar, da man von Null verschiedene Randtemperaturen Td auf Γd auf Ω

115
zu T0 fortsetzen kann, und für die Differenz T − T0 auf Γd eine homogene
Randbedingung erhält. Statt der Wärmeleitungsgleichung −∆T = g würde
man dann für die Differenz die Gleichung −∆(T − T0 ) = g + ∆T0 =: f er-
halten.
Wir definieren das Lagrange-Funktional
Z Z
1 2 α
L(T, κ, q, χ) = (T − T ) dV + q 2 dF (3.17)
2 Ω 2 Γc
Z Z
∂T
− (∆T + f )κ dV + ( − q)χ dF
Ω Γc ∂n

und man erkennt, dass für eine Lösung T von (3.16)


Z Z
1 2 α
L(T, κ, q, χ) = (T − T ) dV + q 2 dF = J(T, q)
2 Ω 2 Γc
gilt. Wir suchen das Minimum von L für auf Ω definierten Funktionen T und
κ.
Für die Fréchet-Ableitung von L findet man an der Stelle w = (T, κ, q, χ)T
in Richtung h = (T̃ , κ̃, q̃, χ̃)T
 R R R ∂ T̃ 

(T − T )T̃ dV − Ω
∆ T̃ κ dV + Γc ∂n
χ dF
 R 
′  − Ω
(∆T + f )κ̃ dV 
L [w](h) =  R R  . (3.18)
 αq q̃ dF − Γc q̃χ dF
Γc R

( ∂T − q)χ̃ dF
Γc ∂n

Beachtet man, dass


Z Z Z Z
∂ T̃ ∂κ
∆T̃ κ dV = ∆κ T̃ dV + κ dF − T̃ dF ,
Ω Ω Γ ∂n Γ ∂n

aufgrund der zweiten Greenschen Integralformel gilt, und variiert die Test-
funktionen T̃ , κ̃, q̃, χ̃, dann ergibt sich mit der speziellen Wahl χ = κ auf Γc ,
aus (3.18)
 R R ∂κ 

[(T − T ) − ∆κ]T̃ dV + Γc ∂n T̃ dF
R


 − Ω (∆T + f )κ̃ dV 

L [w](h) =  R  . (3.19)
 Γ c
[αq − κ]q̃ dF 
R ∂T
( − q)χ̃ dF
Γc ∂n

Aus (3.19) wird deutlich, dass man mit der Lösung T des Randwertproblems
(3.16) und der Lösung κ des dazu adjungierten Problems
∂κ
− ∆κ = −(T − T ) in Ω, κ = 0 auf Γd , = 0 auf Γc , (3.20)
∂n

116
sowie der Wärmestromdichte
1
q= κ auf Γc (3.21)
α
einen stationären Punkt des Funktionals L gefunden hat, denn dann gilt

L′ [w](h) = L′ [T, κ, q, χ](T̃ , κ̃, q̃, χ̃) = 0 .

Für die Berechnung eines stationären Punktes sind damit zwei gekoppelte el-
liptische Randwertprobleme (3.16) und (3.20) zu lösen, und mit den Werten
von κ auf Γc hat man letztendlich durch die Beziehung (3.21) eine optima-
le Heizstrategie gefunden. Die Diskussion der Existenz und Einzigkeit einer
Lösung dieser Optimierungsaufgabe würde den Rahmen dieser Darstellung
deutlich sprengen, da dazu umfassende funktionalanalytische Untersuchun-
gen erforderlich werden. Deshalb wird darauf nicht eingegangen.
Abschließend sei mit der Wellengleichungen zweiter Ordnung
∂ 2u
= a2 ∆u (3.22)
∂t2
bzw. Wellengleichunger erster Ordnung
∂u ∂u
+a =0, (3.23)
∂t ∂x
aus der die Gleichung (3.22) im räumlich eindimensionalen Fall folgt, auf
die Klasse der hyperbolischen Differentialgleichungen hingewiesen. Die Glei-
chung (3.23) ist ein Spezialfall der Erhaltungsgleichung
∂~u
+ ∇ · f (~u) = 0 , (3.24)
∂t
die für  
ρ µ ¶
f1 (~u
~u =  ρu  , f (~u) =
f2 (~u)
ρv
mit    
ρu ρv
f1 =  ρu2 + p  und f2 =  ρuv  .
ρuv ρv 2 + p
auch die Eulergleichungen umfasst.
Mit hyperbolischen Differentialgleichungen werden Wellenphänomene aus
dem Gebiet der Akustik, der Elektromagnetik, der Seismik, der Optik bzw.
der Strömungsmechanik beschrieben.

117
3.2 Numerische Lösungsmethoden für part.
Dgln.
Im Folgenden wird eine Übersicht über numerische Lösungsmethoden für
partielle Differentialgleichungen gegeben. Dabei werden klassische Finite-
Differenzen-Methoden (FDM), Finite-Element-Methoden (FEM) und Finite-
Volumen-Methoden (FVM) behandelt.

3.2.1 Finite-Differenzen-Methoden
Die FDM soll am Beispiel eines elliptischen RWPs

− ∆u + cu = f in Ω ∈ R2 , u = 0 auf Γ = ∂Ω , (3.25)

erläutert werden. Es handelt sich hierbei um eine Verallgemeinerung der


Lösung eines Zweipunktrandwertproblems −u′′ + cu = f , u(0) = u(1) = 0,
das ein eindimensionales elliptisches Problem ist.
Mit den Differenzenquotienten

u(x + h, y) − u(x, y) u(x, y) − u(x − h, y)


Dx+ u = , Dx− u =
h h
und
u(x, y + k) − u(x, y) u(x, y) − u(x, y − k)
Dy+ u = , Dy− u =
k k
wird durch
∆h u = Dx+ Dx− u + Dy+ Dy− u
der Laplace-Operator diskretisiert. Für den Fall eines Rechteckgebietes Ω =
]0, b[×]0, d[ wird mit h = b/(N + 1), k = d/(M + 1) , N, M ∈ N, und

R2h = {(ih, jk) | i ∈ Z, j ∈ Z}

durch
Ωh = Ω ∩ R2h , Γh = Γ ∩ R2h , Ω̄h = Ωh ∪ Γh
Differenzengitter eingeführt und die numerische Lösung von (3.25) wird als
Gitterfunktion
uh : Ω̄h → R
gesucht, und zwar als Lösung von

− ∆h uh + cuh = fh in Ωh , u = 0 auf Γh . (3.26)

118
Zur vereinfachenden Darstellung verabreden wir

ui,j = uh (xi , yj ) und fi,j = f (xi , yj ) .

(3.26) entspricht dann mit

Uh = (u1,1 , . . . , uN,1 , u1,2 , . . . , uN,2 , . . . , u1,M , . . . , uN,M )T

und
Fh = (f1,1 , . . . , fN,1 , f1,2 , . . . , fN,2 , . . . , f1,M , . . . , fN,M )T
dem linearen Gleichungssystem

Ah Uh = Fh (3.27)

mit der (N M × N M )-Block-tridiagonalen Koeffizientenmatrix


 
D B
 B D B 
 
Ah = 
 . . . . . . . . .


 
 B D B 
B D

und der (N × N )-Tridiagonalmatrix


 
α −β
 −β α −β 
 
D=
 ... ... ... 

 
 −β α −β 
−β α

sowie der (N × N )-Diagonalmatrix


 
−γ

 −γ 

B= ... 
 
−γ

mit
1 1
β= 2
, γ = 2 , α = 2β + 2γ + c .
h k
Man erkennt, dass Ah zumindest eine schwach diagonal dominante irreversi-
ble Matrix ist, die außerdem symmetrisch und positiv definit ist. Damit ist

119
(3.27) eindeutig lösbar und damit die Existenz und Eindeutigkeit der nume-
rischen Lösung Uh gezeigt.
Konsistenz und Stabilität im obigen Sinn können sowohl in der Maximum-
Norm als auch in der diskreten L2 -Norm gezeigt werden, woraus die Konver-
genz von Uh gegen die Lösung u von (3.25) (deren Existenz und erforderliche
Regularität wir voraussetzen) folgt.

Numerische Lösung von hyperbolischen Differentialgleichungen


Als Modellproblem betrachten wir das Cauchy-Problem
∂u ∂u
+a =0, t>0, u(x, 0) = u0 (x) , (3.28)
∂t ∂x
für x ∈ R.
Man überprüft schnell, dass bei entsprechender Glattheit von u0

u(x, t) = u0 (x − a t)

eine Lösung ist. Das Problem (3.28) wird oft als Referenzproblem für die
Bewertung numerischer Lösungverfahren betrachtet.
Betrachtet man die Gleichung ∂u ∂t
+ a ∂u∂x
= 0 für x aus einem endlichen oder
halbendlichen Intervall, z.B. auf ]0, b], dann ist in Abhängigkeit vom Vorzei-
chen von a eine Randbedingung vorzugeben, und zwar im Fall a > 0 etwa

u(0, t) = g0 (t) . (3.29)

Wir wollen das Anfangs-Randwert-Problem (3.28), (3.29) für den Fall g0 (t) =
0 numerisch lösen und betrachten dazu das Raum-Gitter

Ωh = {xj = j h , h = b/N, j = 1, . . . , N − 1} , Ω̄h = Ωh ∪ {x0 , xN }

und bezeichnen durch

uh : Ω̄h × R≥0 → R uj (t) = uh (xj , t)

eine zeitabhängige Gitterfunktion.


Die räumliche Diskretisierung von (3.28) ergibt mit den
+
Vorwärtsdifferenzenquotienten D das semi-diskrete Verfahren
duj a
(t) = − (uj+1 (t) − uj (t)) , j = 1, . . . , N − 1 , (3.30)
dt h
mit dem Rückwärtsdifferenzenquotienten D− das Verfahren
duj a
(t) = − (uj (t) − uj−1 (t)) , j = 1, . . . , N − 1 , (3.31)
dt h

120
und mit dem Zentraldifferenzenquotienten (D+ + D− )/2 das Verfahren
duj a
(t) = − (uj+1 (t) − uj−1 (t)) , j = 1, . . . , N − 1 . (3.32)
dt 2h
Beim Vorwärtsdifferenzenquotienten und beim Zentraldifferenzenquotienten,
also bei den Verfahren (3.30) und (3.32) erkennt man Probleme mit der
Randbedingung, denn man benötigt uN (t) = uh (b, t). Beim Verfahren (3.31)
hat man u0 = 0 aufgrund der Randbedingung (3.29) gegeben und kann das
Anfangswertproblem
du1 a
(t) = − u1 (t) , u1 (0) = u0 (x1 )
dt h
lösen und findet die Lösung

u1 (t) = ae−t/h u0 (x1 ) .

Die weiteren Gleichungen lassen sich auch explizit lösen und man erhält in-
duktiv
j
X 1 t
uj (t) = ae−t/h u0 (xi ) ( )j−i .
i=1
(j − i)! h
Es gilt nun
j
−t/h
X 1 t
|uj (t)| ≤ ae |u0 (xi )| ( )j−i
i=1
(j − i)! h
j
−t/h
X 1 t
≤ a max |u0 (xi )|e ( )j−i ≤ a max |u0 (xi )| ≤ a||u0 ||∞ ,
i
i=1
(j − i)! h i

und das bedeutet die Stabilität des Verfahrens in der Supremum-Norm.


Man überprüft, das durch
j Z t
1 X 1 t t−s
uj (t) = a et/h u0 (xi ) (− )j−i − (s − t)n−j e h uN (s) ds (3.33)
h i=1
i! h 0

eine Lösung des semi-diskreten Problems


duj a
(t) = − (uj+1 (t) − uj (t)) , uj (0) = u0 (x1 )
dt h
mit dem Vorwärtsdifferenzenquotienten gegeben ist. Allerdings erkennt man,
dass die Lösung (3.33) durch den Faktor et/h instabil wird und uj (t) nicht
gleichmäßig beschränkt werden kann.

121
Die eben durchgeführte Diskussion zeigt, dass man immer in Richtung bzw.
entlang der Charakteristiken

x=t+a,

die man als Lösung der charakteristischen Gleichungen


dt dx
=1, =a
ds ds
erhält, auf denen die Lösung der hyperbolischen Differentialgleichung kon-
stant ist, rechnen muss. Für den Fall a < 0 würde man mit t < 0, also
durch eine Rechnung rückwärts in der Zeit, für (3.33) die Stabilität in der
Supremum-Norm zeigen können, wobei man dann den Randwert für x = b,
also uN +1 (t) = uh (b, t) vorzugeben hätte.
Im Folgenden sollen nun Lösungsverfahren auf dem Raum-Zeit-Gitter 20.
Vorle-
Σh,τ = {(xj , tn ) | xj = jh, tn = nτ, n = 0, 1, . . . } sung
am
betrachten werden, wobei τ die Zeitschrittweite bedeutet. Als numerische 16.12.2009
Lösung betrachten wir Gitterfunktionen uh : Σh,τ → R und führen die Be-
zeichnung
unj = uh (xj , tn )
ein. Bevor wir auf konkrete Verfahren eingehen, soll der Begriff der Stabilität
eines Differenzenverfahrens zur Lösung eines zeitabhängigen (hyperbolisch,
parabolisch) Problems definiert werden.

Definition 3.2. (Lax/Richtmyer)


Sei durch

Bun+1 = Cun + fn ⇐⇒ un+1 = Aun + dn , n = 0, 1, . . . , N,

A := B −1 C, dn := B −1 fn , ein Anfangsrandwertproblem durch ein FD-


Verfahren diskretisiert, wobei die Invertierbarkeit der Matrix B, also die
Existenz der Differenzenlösung vorausgesetzt wird. Dann ist das Verfahren im
Sinne von Lax/Richtmyer stabil in der Norm || ||, wenn eine von den Dis-
kretisierungsparametern n, h, k, τ etc. unabhängige Konstante M existiert, so
dass
||An || ≤ M , n = 1, 2, . . . , N,
gilt.

122
Wegen
||An || = ||AAn−1 || ≤ ||A|| ||An−1 || ≤ · · · ≤ ||A||n
ist dann die Stabilität immer gegeben, wenn
||A|| ≤ 1
gilt.
Im Folgenden sollen nun konkrete FD-Verfahren diskutiert werden. Auf der
Basis der Approximation von Ableitungen durch Differenzenquotienten erge-
ben sich die folgenden Verfahren.
• Upwind-Verfahren (Forward Time Backward Space, FTBS), a > 0
un+1
j − unj unj − unj−1
+a =0,
τ h
bzw.
un+1
j = unj − σ(unj − unj−1 ) (3.34)
mit der CFL-Zahl (Courant-Friedrichs-Levy-Zahl)
τ
σ=a , (3.35)
h
die für die Stabilität der Verfahren von Bedeutung ist.
• Downwind-Verfahren (Forward Time Forward Space, FTFS), a > 0
un+1
j − unj unj+1 − unj
+a =0,
τ h
bzw.
un+1
j = unj − σ(unj+1 − unj ) (3.36)

• Centered-Verfahren (Forward Time Centered Space, FTCS)


Die Nutzung des zentralen Differenzenquotienten zur Approximation
der räumlichen Ableitung ergibt
σ
un+1
j = unj − (unj+1 − unj−1 ) (3.37)
2
• Leapfrog-Verfahren
un+1
j − ujn−1 unj+1 − unj−1
+a =0,
2τ 2h
bzw.
un+1
j = ujn−1 − σ(unj+1 − unj−1 ) (3.38)

123
• Lax-Wendroff-Schema
Hier wird die Cauchy-Kowalewski-Technik angewandt. Man betrachtet
die zeitliche Taylor-Entwicklung von u
∂u τ 2 ∂2u
u(x, t + τ ) = u(x, t) + τ (x, t) + (x, t) + O(τ 3 ) . (3.39)
∂t 2 ∂t2
Aus der Gültigkeit der Differentialgleichung
∂u ∂u
= −a
∂t ∂x
folgt für genügend glattes u durch die iterative Nutzung der Differen-
tialgleichung die Wellengleichung
∂2u 2
2∂ u
= a . (3.40)
∂t2 ∂x2
Aus (3.39) und (3.40) folgt

∂u τ 2 ∂2u
u(x, t + τ ) = u(x, t) − τ a (x, t) + a2 2 (x, t) + O(τ 3 ) . (3.41)
∂x 2 ∂x
Die Approximation der räumlichen Ableitungen durch zentrale Diffe-
renzenquotienten und durch forward differencing in der Zeit folgt mit
σ n σ2
un+1
j = unj − (uj+1 − unj−1 ) + (unj+1 − 2unj + unj−1 ) (3.42)
2 2
das Lax-Wendroff-Schema.
Wir werden später feststellen, dass keines der eben dargestellten explizi-
ten Verfahren unbedingt stabil in dem Sinne ist, dass die Werte von unj
gleichmäßig beschränkt werden können. In jedem Fall sind hierfür Bedin-
gungen für die CFL-Zahl σ und damit Einschränkungen für die Wahl der
Diskretisierungsparameter τ und h erforderlich.
Um diese Einschränkungen zu überwinden, sind implizite Verfahren zu be-
tracheten. Wir wollen 2 implizite Verfahren angeben.
• Backward-Centered (Backward Time Centered Space, BTCS)
Wie bei der expliziten FTCS-Methode verwendet man die Approxima-
tion der räumlichen Ableitung durch zentrale Differenzen, betrachtet
diese allerdings zum Zeitpunkt tn+1 und erhält implizite Verfahren
σ n+1
un+1
j = unj − (u − un+1
j−1 ) . (3.43)
2 j+1

124
• Crank-Nicolson-Verfahren
Ausgangspunkt ist die Mittelung der räumlichen Ableitung in der Zeit,
d.h.
n+1 n+1
∂u 1 unj+1 − unj−1 uj+1 − uj−1
≈ [ + ].
∂x 2 2h 2h
Das Crank-Nicolson-Verfahren lautet dann
σ
un+1
j = unj − [unj+1 − unj−1 + un+1 n+1
j+1 − uj−1 ] . (3.44)
4
Der folgende Satz sollte als Übung durch entsprechende Taylor-
Entwicklungen nachgewiesen werden.
Satz 3.3. (Konsistenz)
Alle aufgeführten Verfahren (3.34)-(3.38) bzw. (3.42), (3.44) sind konsistent,
d.h. bei Einsetzen der hinreichend glatten exakten Lösung u betrachtet an
den relevanten Gitterpunkten des Raum-Zeit-Gitters ergibt sich eine lokaler
Diskretisierungsfehler der Form
O(τ α + hβ )
mit α ≥ 1, β ≥ 1.
21.
Vorle-
von Neumann-Stabilitätsanalyse von FDM sung
am
Im Folgenden wird eine Stabilitätsanalyse vorgestellt, die zur Untersu-
5.1.2010
chung der Stabilität von Lösungsverfahren für zeitabhängige Probleme, also
Lösungsverfahren für hyperbolische oder parabolische Aufgabenstellungen,
benutzt werden kann.
Die Methode wird am Beispiel der oben dargestellten Verfahren zur Lösung
hyperbolischer Aufgaben erläutert.
Ausgangspunkt für die von Neumann-Stabilitätsanalyse ist die Überlegung,
dass instabile Lösungen oszillieren. Deshalb entwickelt man numerische
Lösungen in eine Fourier-Reihe und untersucht Stabilität, indem man die
zeitliche Entwicklung der Koeffizienten untersucht.
Ohne die Allgemeinheit der Stabilitätsuntersuchung einzuschränken, nehmen
wir der Einfachheit halber die Periodizität der Lösung mit der Periode b an,
gehen also von periodischen Randbedingungen u(0, t) = u(b, t) aus, so dass
un0 = unN für alle n ∈ N gelten soll.
Die Methode soll am Beispiel des expliziten FTCS-Schemas dargestellt wer-
den. Die Entwicklung der Werte unj in eine Fourier-Reihe ergibt
N/2
X
unj = Ckn e2πk i j/N (3.45)
k=−N/2

125
mit i2 = −1. k bezeichnet die Wellenzahl der entsprechenden Mode. Formeln
für un+1
j und unj±1 ergeben sich analog zur Formel (3.45). Das Einsetzen der
Entwicklungen (3.45) in das FTCS-Schema (3.37) ergibt nach Ausklammern
von e2πkij/N
X σ
[Ckn+1 − Ckn + (Ckn e2πi/N − Ckn e−2πi/N )]e2πkij/N = 0 .
k
2

Mit eix = cos x + i sin x und θk = 2πk/N erhält man für Ckn 6= 0 für das
FTCS-Schema
X C n+1
Ckn [ k n − 1 + iσ sin θj ]eiθk j = 0 ,
k
Ck
also eine Linearkombination von linear unabhängigen trigonometrischen
Funktionen, d.h. es muss
Ckn+1
= 1 − iσ sin θk (3.46)
Ckn
für alle k gelten. Für das Quadrat des Verhältnis der Amplituden zu den
beiden Zeitschichten tn und tn+1 folgt
Ckn+1 2
| | = 1 + σ 2 sin2 θk > 1 , (3.47)
Ckn
so dass
|Ckn+1 | > |Ckn |
für alle k mit −π < θk < π folgt, und damit ist das Verfahren generell instabil
für beliebige Zeitschrittweiten τ .
Die eben beschriebene Methode kann man auch vereinfachen. Anstatt immer
das ganze Fourier-Polynom einzusetzen, kann man aufgrund des Superposi-
tionsprinzips auch nur einen Term der Summe verwenden, also

unj = Ckn eiθk j . (3.48)

Für lineare Gleichungen kann man zeigen, dass das Verhältnis Ckn+1 /Ckn für
alle n gleich ist, so dass man durch
Ckn+1
Vk = (3.49)
Ckn
einen von n unabhängigen Verstärkungsfaktor definieren kann. Man findet
nun
Ckn C2 C1
unj = n−1 . . . k1 k0 Ck0 eiθk j
Ck Ck Ck

126
bzw.
unj = Vkn Ck0 eiθk j ,
wobei der obere Index von V hier die n-te Potenz bedeutet. Ck0 kann man
der Einfachheit halber gleich 1 setzen, so dass man Stabilitätsuntersuchungen
mit der Darstellung
unj = Vkn eiθk j (3.50)
durchführen kann. Als Beziehung zwischen k und θk gilt
2πk 2πkh
θk = = , (3.51)
N b
wobei b die räumliche Periode ist. Aus (3.51) erkennt man, dass Stabilität
durch |Vk | ≤ 1 für alle θk ∈ [−π, π] gesichert ist. Statt (3.50) kann man mit
dem von der Wellenlänge θ abhängigen Verstärkungsfaktor V auch

unj = V n eiθj (3.52)

schreiben und Stabilität liegt vor, wenn |V | ≤ 1 gilt für alle θ ∈ [−π, π].
Nach diesen Überlegungen soll nun die Stabilität der Upwind-Methode un-
tersucht werden. Mit der Lösungsdarstellung (3.52) folgt für die Upwind-
Methode
un+1
j = unj − σ(unj − unj−1 )
nach Einsetzen

V n+1 eiθj = V n eiθj + σV n [eiθ(j−1) − eiθj ] .

Division durch V n und eiθj ergibt


V n+1
= 1 + σ(e−iθ − 1) .
Vn
Für das Betragsquadrat erhält man nach kurzer Rechnung
V n+1 2
λ(θ) := | | = (1 + σ(e−iθ − 1))(1 + σ(eiθ − 1))
Vn
= 1 + σ(e−iθ + eiθ − 2) − σ 2 (e−iθ + eiθ − 2)
θ
= 1 − 4σ(1 − σ) sin2 ( ) .
2
Der Faktor σ(1 − σ) wird auf dem Intervall ]0, 1[ für σ = 12 mit 14 maximal
und wegen −π ≤ θ ≤ π bzw. sin2 ( 2θ ) ≤ 1 folgt mit |λ(θ)| ≤ 1 die Stabilität
des Upwind-Verfahrens, wobei daran erinnert sei, dass wir hier a > 0 voraus-
gesetzt hatten.

127
Die Stabilitätsanalyse der anderen oben angegebenen Verfahren wird als
Übung empfohlen. Die von Neumann-Stabilitätsanalyse ist nicht auf den
räumlich eindimensionalen Fall beschränkt. Hat man es mit 2 oder 3 Raumdi-
mensionen zu tun, dann muss man z.B. im zweidimensionalen Fall von einer
Entwicklung der numerischen Lösung unj,k = uh (xj , yk , tn ) in der Form

unj,k = V n eiθj eiκk (3.53)

ausgehen, wobei θ und κ die Wellenlängen in x- bzw. y-Richtung sind, und


V ein von θ und κ abhängiger Verstärkungsfaktor ist.

Bemerkung 3.4. Obwohl die von Neumann-Stabilitätsanalyse nur für


lineare Probleme gültig ist, wird sie auch oft auf nichtlineare Probleme ange-
wandt. Das gleiche gilt für nicht-periodische Randbedingunen und oft reicht
die lokale Analyse im Innern aus, um notwendige Bedingungen für die Sta-
bilität zu erhalten oder Instabilität zu zeigen.
Probleme treten bei sehr kleinen und sehr großen Wellenlängen kb (θ ≈ π, θ ≈
0) auf. Bei kleinen Wellenlängen ”hilft” eine Dämpfung durch die Einführung
einer künstlichen Viskosität, um Verfahren zu stabilisieren.

Numerische Lösung von parabolischen Differentialgleichungen


Wir betrachten ein Anfangs-Randwertproblem (Wärmeleitung/Diffusion)
der Form
∂u
= a∆ u + f , in Ω×]0, T ], Ω ⊂ R2 , (3.54)
∂t
u(x, t) = ur (x, t) , auf Γ = ∂Ω, u(x, 0) = u0 (x) , x ∈ Ω , (3.55)

wobei u(x, t) als orts- und zeitveränderliche Temperatur gesucht ist. a ist Ma-
terialparameter (z.B. die Wärmeleitzahl) und f beschreibt Wärmequellen
oder -senken. Statt der Dirichlet-Randbedingung sind auch Neumann-
Randbedingungen oder Robin-Randbedingungen (gemischte RB) denkbar.
Es gibt nun unterschiedliche Möglichkeiten der numerischen Lösung von
(3.54),(3.55) mit FD-Methoden. Diskretisiert man in der Zeit, d.h. man dis-
kretisiert das Zeitintervall [0, T ] durch

t0 < t1 < · · · < tM , tn = nτ, τ = T /M, M ∈ N ,

und approximiert die Zeitableitung etwa durch


uτ (x, tn ) − uτ (x, tn − τ ) ∂u
≈ (tn , x)
τ ∂t

128
dann hat man in jeder Zeitschicht ein elliptisches Problem der Form

− τ a∆ uτ + uτ = uτ (x, tn−1 ) + τ f (x, tn ), x ∈ Ω, (3.56)


uτ (x, tn ) = ur (x, tn ) , auf Γ , (3.57)

für n = 1, . . . , M zu lösen. Die Gleichung (3.56) ist von der Form −a∆u +
c u = f , für die zu Beginn des Abschnitts 3.2.1 ein FD-Verfahren besprochen
wurde.
Im Ergebnis erhält man dann eine implizite Methode, bei der man pro Zeit-
schritt ein lineares Gleichungssystem zu lösen hat.
Approximiert man die Zeitableitung durch
uτ (x, tn + τ ) − uτ (x, tn ) ∂u
≈ (tn , x) ,
τ ∂t
dann erhält man bei einer geeigneten Ortsdiskretisierung von Ω bzw. Γ durch
Ωh bzw. Γh sowie des Laplace-Operators

Lh u := Dx+ Dx− u + Dy+ Dy− u


u(x + h, y, t) − 2u(x, y, t) + u(x − h, y, t)
= +
h2
u(x, y + k, t) − 2u(x, y, t) + u(x, y − k, t)
+ ≈ ∆u
k2
und die Betrachtung einer Gitterfunktion unj,i = uh,τ (xj , yi , tn ) und fj,i
n
=
f (xj , yi , tn ) durch

un+1 n n n
j,i = uj,i + τ aLh uj,i + τ fj,i für (xj , yi ) ∈ Ωh (3.58)

unter Berücksichtigung der diskretisierten Randbedingungen für n =


0, 1, . . . , M − 1 ein explizites Verfahren zur Berechnung von unj,i . Als Übung
sollte mit der von Neumann-Stabilitätsanlyse die Stabilität des Verfahrens
untersucht werden.

3.2.2 Finite-Volumen-Methode
Im Folgenden wird eine Bilanzmethode zur Lösung von Gleichungen der Form

− div (λ(~x)grad u) = f (~x) (~x ∈ Ω ⊂ Rn ) . (3.59)

mit den Randbedingungen


∂u
u(~x) = ud (~x), ~x ∈ Γd , λ (~x) + µu(~x) = qn (~x), ~x ∈ Γn (3.60)
∂~n

129
betrachet. Für den Rand von Ω soll Γd ∪ Γn = Γ gelten, wobei Γd ∩ Γn gleich
der leeren Menge oder einer Menge vom Maß Null (im R1 können das endlich
viele einzelne Punkte sein, im R2 endlich viele Kurven usw.) ist.
Der Gauß’sche Integralsatz (auch Divergenz-Theorem oder Satz von Gauß-
Ostrogradski genannt) für die Bereiche Ων ⊂ Rν , ν gleich 2 oder 3, mit
stückweise glatter Berandung ∂Ων und ein stetig differenzierbares Vektorfeld
~v : D → Rν , D offene Menge und Ων ⊂ D,
Z Z
div ~v dV = ~v · ~n dF , (3.61)
Ων ∂Ων

ist das wesentliche Hilfsmittel bei der Konstruktion von Finite-Volumen-


Diskretisierungen. ~n ist dabei der äußere Normalenvektor auf dem Rand ∂Ων .
Im zweidimensionalen Fall (ν = 2) ist das Integral auf der rechten Seite von
(3.61) ein Linienintegral und im dreidimensionalen Fall ein Flussintegral.
Die Beziehung (3.61) bedeutet eine Flussbilanz über den Rand von Ω unter
Berücksichtigung der Quelldichte div~v in Ω.
Aus Gründen der besseren Anschauung betrachten wir den zweidimensiona-
len Fall Ω ⊂ R2 . Der Bereich Ω wird mit einem Gitter überzogen und damit
in quadrilaterale Elemente ωij unterteilt (im R3 finite Volumen, daher der
Name Finite-Volumen-Methode). In der Abb. 3.2 ist die Unterteilung
nebst Position der diskreten Stützwerte skizziert. Die Begriffe Stützwerte,
Gitterfunktion, diskrete Lösung (FV-Lösung) oder Differenzenlösung werden
synonym verwendet und bezeichnen an Stützstellen (Gitterpunkten) zu be-
rechnende oder vorgegebene Werte.

ui j+1
yj+1

ui-1 j ui j ui+1 j-1


yj ∆y j
ωij

ui j-1
yj-1

∆x i

x i-1 xi x i+1

Abbildung 3.2: Diskretisierung des Bereichs Ω mit dem Element ωij

Die Integration des (−1)-fachen der linken Seite der Gleichung (3.59) über
das Element ωij und die Anwendung des Gauß’schen Satzes in der Ebene

130
ergibt
Z Z Z
[div (λgrad u)] dF = λgrad u · ~n ds = λgrad u · ~n ds
ωij ∂ωij ∂ωo
Z Z Z
+ λgrad u · ~n ds + λgrad u · ~n ds + λgrad u · ~n ds
∂ωw ∂ωn ∂ωs
Z Z Z Z
∂u ∂u ∂u ∂u
= λ dy − λ dy + λ dx − λ dx , (3.62)
∂ωo ∂x ∂ωw ∂x ∂ωn ∂y ∂ωs ∂y

wobei ~n der äußere Normalenvektor ist und ∂ωw , ∂ωo , ∂ωn , ∂ωs westlicher,
¡östlicher,
−1
¢ nördlicher und südlicher Rand von ωij sind. Z.B. ist ~n auf ∂ωo gleich
0
, so dass grad u · ~n = − ∂u
∂x
ist. Gemäß der Abb. 3.2 werden ausgehend
von den Stützpunkten (xi , yj ) die Vereinbarungen

xi+1/2j = (xi+1 + xi )/2, yij+1/2 = (yj+1 + yj )/2, ∆xi = (xi+1 − xi−1 )/2,
∆yj = (yj+1 − yj−1 )/2, ∆xi+1/2 = xi+1 − xi , ∆yj+1/2 = yj+1 − yj ,
λi+1/2j = λ(xi+1/2j , yj ), λij+1/2 = λ(xi , yj+1/2 ), fij = f (xi , yj )

getroffen. Unter Nutzung der Stützwerte uij approximiert man die Linienin-
tegrale (3.62) in kanonischer Weise durch
Z Z
∂u ui+1j − uij ∂u uij − ui−1j
λ dy ≈ λi+1/2j ∆yj , λ dy ≈ λi−1/2j ∆yj ,
∂ωo ∂x ∆xi+1/2 ∂ωw ∂x ∆xi−1/2
Z Z
∂u uij+1 − uij ∂u uij − uij−1
λ dx ≈ λij+1/2 ∆xi , λ dx ≈ λij−1/2 ∆xi ,
∂ωn ∂y ∆yj+1/2 ∂ωs ∂y ∆yj−1/2

bzw. im Fall eines Randstücks ∂ω als Teil eines Neumann-Randes durch


Z
∂u
λ ds ≈ L(∂ω)q
∂ω ∂~ n

mit L(∂ω) als Länge des Randstücks ∂ω. Die Integration der rechten Seite
der Gleichung (3.59) ergibt
Z
f dF ≈ ∆xi ∆yj fij ,
ωij

so dass die Bilanz der Gleichung (3.59) über das Element ωij insgesamt
ui+1j − uij uij − ui−1j
(λi+1/2j − λi−1/2j )∆yj
∆xi+1/2 ∆xi−1/2
uij+1 − uij uij − uij−1
+(λij+1/2 − λij−1/2 )∆xi = ∆xi ∆yj fij ,
∆yj+1/2 ∆yj−1/2

131
bzw. nach Division mit ∆xi ∆yj die Gleichung
ui+1j − uij uij − ui−1j
(λi+1/2j − λi−1/2j )/∆xi
∆xi+1/2 ∆xi−1/2
uij+1 − uij uij − uij−1
+(λij+1/2 − λij−1/2 )/∆yj = fij (3.63)
∆yj+1/2 ∆yj−1/2

für alle Elemente, die keine Kanten als Teile eines Neumann-Randes besitzen,
liefert. Für Elemente, deren rechte Kante ∂ωo Teil eines Neumann-Randes ist,
erhält man statt (3.63) die Gleichung
uij − ui−1j
qi+1/2j − λi−1/2j )/∆xi
∆xi−1/2
uij+1 − uij uij − uij−1
+(λij+1/2 − λij−1/2 )/∆yj = fij . (3.64)
∆yj+1/2 ∆yj−1/2

In den Gleichungen (3.63), (3.64) für Elemente ωij , die an einen Dirichlet- 22.
Rand grenzen, wird auf Stützwerte ui+1j , ui−1j , uij+1 oder uij−1 zurück ge- Vorle-
griffen, die außerhalb von Ω liegen (s. dazu die Abb. 3.3). Diese Stützwerte sung
bezeichnet man als Ghost-Werte. Nimmt man Linearität von u in Richtung am
der äußeren Normalen ~n von Γd an, dann kann man mit Bedingungen der 12.1.2010
Art

(ui+1j + uij )/2 = ud (xi+1/2 , yj ), (xi+1/2 , yj ) ∈ Γd ,


(ui−1j + uij )/2 = ud (xi−1/2 , yj ), (xi−1/2 , yj ) ∈ Γd ,
(uij+1 + uij )/2 = ud (xi , yj+1/2 ), (xi , yj+1/2 ) ∈ Γd , (3.65)
(uij−1 + uij )/2 = ud (xi , yj−1/2 ), (xi , yj−1/2 ) ∈ Γd

die Dirichlet-Randbedingungen (3.60) approximieren und das Gleichungssys-


tem zur Berechnung der unbekannten Stützwerte uij abschließen. In der Abb.
3.3 sind die Orte mit unbekannten Stützwerten durch •-Punkte gekennzeich-
net. ◦-Punkte bezeichnen Orte, an denen die Randwerte von u oder q-Werte
vorgegeben sind.
Die Ghost-Werte kann man mit Hilfe der Randgleichungen (3.65) eliminie-
ren. Damit liegt mit (3.63) bzw. (3.64) unter Berücksichtigung von (3.65)
ein Gleichungssystem zur Bestimmung der uij für (xi , yj ) ∈ Ω ∪ Γ vor. Ver-
wendet man die in der Abb. 3.3 vorgenommene äquidistante Diskretisierung
von Ω (h = ∆x = ∆xi+1/2 = ∆xi , h = ∆y = ∆yj+1/2 = ∆yj ) und gibt
auf Γj , j = 2, 3, 4, Dirichlet-Randbedingungen vor, und auf Γ1 Neumann-
Randbedingungen, dann erhält man bei konstantem λ für die gesuchten

132
u
j=4   24  
Γ4
u
  13   
Γ3 ω13 Γ1

h u22 u
     42
ω42
h
u ω21 u u
 01   21  31 

u Γ2
j=0    30 
i=0 i=4

Abbildung 3.3: Rechteck Ω als Integrationsbereich mit den Randstücken


Γ1 , . . . Γ 4

Stützwerte uij das Gleichungssystem



 f˜11 + 2u1 1/2 + 2u1/2 1 
6 −1 0 0 −1 0 0 0 0 0 0 0 u11
 −1 5 −1 0 0 −1 0 0 0 0 0 0   u   f˜21 + 2u2 1/2
 

   21   ˜ 
 0 −1 5 −1 0 0 −1 0 0 0 0 0   u   f31 + 2u3 1/2 
   31   hq 
 0 0 −1 6 0 0 0 −1 0 0 0 0   u   f˜41 + 2u4 1/2 + 4+1/2 1 
   41   λ 
 −1 0 0 0 5 −1 0 0 −1 0 0 0   u   f˜12 + 2u 
   12   1/2 2 
    f˜ 
 0 −1 0 0 −1 4 −1 0 0 −1 0 0   u22   22 
=
 0 0 −1 0 0 −1 4 −1 0 0 −1 0   u32   f˜32
    

    hq 
 0 0 0 −1 0 0 −1 5 0 0 0 −1   u42   f˜42 + 4+1/2 2 
    λ 
 0 0 0 0 −1 0 0 0 6 −1 0 0   u13   f˜13 + 2u
1/2 3 + u1 3+1/2

    
 0 0 0 0 0 −1 0 0 −1 5 −1 0   u23   f˜ + 2u 
    23 2 3+1/2 
 0 0 0 0 0 0 −1 0 0 −1 5 −1   u33   ˜ 
 f33 + 2u3 3+1/2 
0 0 0 0 0 0 0 −1 0 0 −1 6 u43 ˜ hq4+1/2 3
f43 + 2u4 3+1/2 + λ
(3.66)

mit f˜ij = hλ fij . Dabei wurden die Randgleichungen (3.65) eliminiert, so


2

dass ein Gleichungssystem zur Berechnung von uij , i = 1, . . . , 4, j = 1, 2, 3


entsteht. Man erkennt die Symmetrie der Koeffizientenmatrix und die Diago-
naldominanz, so dass das Gleichungssystem eindeutig lösbar ist. Die Matrix
(3.66) hat eine Blockstruktur und 5 Nichtnull-Diagonalen.
Aus der Abb. 3.3 und den durchgeführten Bilanzierungen über die Elemente
ωij , i = 1, . . . , 4, j = 1, 2, 3 ist zu ersehen, dass die Finite-Volumen-Methode
sämtliche
R lokalen Bilanzen R über alle ωij ⊂ Ω im Diskreten erfüllt, d.h.,
− ωij div (λgrad u) dF = ωij f dF und die Summation über alle Elemente

133
ergibt mit
X Z X Z Z Z
− div (λgrad u) dF = f dF ⇐⇒ − div (λgrad u) dF = f dF
ωij ∈Ω ωij ωij ∈Ω ωij Ω Ω

die globale Bilanz, wobei allerdings ∪ij ωij = Ω gesichert sein muss. Diese
lokale und globale Erhaltungseigenschaft ist der Hauptgrund, weshalb die
Finite-Volumen-Methode in den Ingenieurwissenschaften und der Physik oft
anderen Diskretisierungsmethoden vorgezogen wird.
Die Finite-Volumen-Methode ergibt für Rechteckgebiete Ω klar strukturierte
Gleichungssysteme der Form (3.66). Für FV-Diskretisierungen auf krummli-
nig berandeten Bereichen sei auf die Ausführungen in den Numerik-Büchern
von Dahmen/Reusken und Bärwolff verwiesen.

Konsistenz, Stabilität und Konvergenz von FV-Verfahren


Die Konsistenz der FV-Methoden lässt sich unter der Voraussetzung ausrei-
chender Glattheit der Lösung und der Daten völlig analog zur Konsistenz
von FD-Methoden durch Taylor-Approximationen zeigen.
Z.B. wird bei elliptischen Randwert-Problemen die Stabilität in der
Maximum-Norm unter Nutzung von Maximum-Prizipien gezeigt und Sta-
bilität in der Spektralnorm durch Abschätzung der Eigenwerte der
Koeffizienten-Matrix des im Ergebnis der Diskretisierung zu lösenden linea-
ren Gleichungssystems wie bei den FD-Methoden gezeigt.
Aus Konsistenz und Stabilität folgt dann die Konvergenz der FV-Methoden
bezügl. der entsprechenden Norm.

FV-Diskretisierung des Stokes-Problems


Zum Abschluss der FV-Thematik soll mit der Diskretisierung des Stokes-
Problems (o.B.d.A. hier als 2d-Problem), d.h. den Gleichungen

− ν∆ ~u = −∇p + f~ (3.67)
∇ · ~u = 0 (3.68)

im Gebiet Ω, wobei mit


~
~u = φ (3.69)
Dirichlet-Randbedingungen auf Γ = ∂Ω vorgegeben sein sollen. ~u = (u, v)T
und p seien Geschwindigkeits- und Druckfeld einer Strömung eines Mediums
mit sehr hoher Viskosität, ν = const. > 0, f~ und φ
~ seien vorgegebene Daten.

134
Die Gleichungen (3.67) und (3.68) ergeben sich aus der Impuls- bzw. Masse-
nerhaltung. Grundlage der FV-Diskretisierung ist die Zerlegung von Ω durch

Ω = ∪ij ω ij , ωij ∩ ωi′ j ′ = N ,

für i 6= i′ oder j 6= j ′ und N Menge vom Maß Null. Aus Darstellungsgründen


verwenden wir Ω und ωij als Rechteckgebiete, wobei die ωij alle die Breite h
und die Höhe k haben sollen. In der Abb. 3.4 ist ein finites Kontrollelement
ωij dargestellt.
v
ij+1/2
o

u P ij u
i−1/2j x x x i+1/2j

ω
ij

o
v ij−1/2

Abbildung 3.4: Rechteck ωij und die Stützstellen für numerische Lösung der
Geschwindigkeit u und des Drucks p

Die lokale Bilanzierung der Gleichung (3.68) über ωij ergibt mit dem Gaus-
sschen Satz Z Z
∇ · ~u dF = ~u · ~n dγ ,
ωij ∂ωij

und mit γo , γw , γn , γs als östlichen, westlichen, nördlichen und südlichen Rand


von ωij erhält man weiter
Z Z Z Z Z
~u · ~n dγ = u dy − u dy + v dx − v dx .
∂ωij γo γw γn γs

Die Approximation der Linienintegrale durch


Z Z Z Z
u dy ≈ ui+1/2j k, u dy ≈ ui−1/2j k, v dx ≈ vij+1/2 h, v dx ≈ vij−1/2 h
γo γw γn γs

ergibt mit

(ui+1/2j − ui−1/2j )k + (vij+1/2 − vij−1/2 )h = 0 ⇐⇒


ui+1/2j − ui−1/2j vij+1/2 − vij−1/2
+ =0 (3.70)
h k

135
die diskretisierte Massenbilanz.
Zur FV-Diskretierung der Impulsbilanz betrachten wir exemplarisch die erste
Komponente der Gleichung (3.67)
−ν∆ u = −∇p + fu .
Im Unterschied zur Diskretisierung der Massenbilanz betrachten wir die lo-
kalen Kontrollelemente ωi+1/2j , d.h. Elemente mit dem Stützwert ui+1/2j im
Zentrum und den Druckwerten pi bzw. pi+1j am westlichen und östlichen
Rand (s.a. Abb. 3.4). Man erhält
Z Z Z
−ν∆ u dF = − ∇p dF + fu dF
ωi+1/2j ωi+1/2j ωi+1/2j
Z Z
T
= − ∇ · (p, 0) dF + fu dF ,
ωi+1/2j ωi+1/2j

und die Anwendung des Gaussschen Integralsatzes ergibt (γo etc. bezeichnen
wieder die entsprechenden Ränder von ωi+1/2j )
Z Z Z
T
−ν ∇u · ~n dγ = − (p, 0) · ~n dγ + fu dF .
∂ωi+1/2j ∂ωi+1/2j ωi+1/2j

Approximiert man die beispielsweise die Flussintegrale


Z Z
∂u ui+3/2j − ui+1/2j
∇u · ~n dγ = dy durch k
γo γo ∂x h
und die anderen Integrale entsprechend, sowie
Z Z Z
T
(p, 0) · ~n dγ = p dy − p dy durch (pi+1j − pij )k
∂ωi+1/2j γo γw

und Z
fu dF durch fu,i+1/2j h k
ωi+1/2j

dann erhält man nach Division durch h k die FV-Diskretisierung


ui+3/2j − 2ui+1/2j + ui−1/2j ui+1/2j+1 − 2ui+1/2j + ui+1/2j−1
− 2

h k2
pi+1j − pij
=− + fu,i+1/2j (3.71)
h
der u-Gleichung. Für die v-Gleichung erhält man auf analoge Weise
vij+3/2 − 2vij+1/2 + vij−1/2 vi+1j+1/2 − 2vij+1/2 + vi−1j+1/2
− −
k2 h2
pij+1 − pij
=− + fv,ij+1/2 , (3.72)
k

136
wobei man über das Kontrollelement ωij+1/2 bilanziert, d.h. das Element
mit dem Stützwert vij+1/2 im Zentrum und pij bzw. pij+1 am südlichen und
nördlichen Rand (s.a. Abb. 3.4).
Zu den Gleichungen (3.71) und (3.72) ist anzumerken, dass nur
Z XZ XZ
dF = dF + O(h) = dF + O(k)
Ω ωi+1/2j ωij+1/2

gilt, während Z XZ
dF = dF
Ω ωij

erfüllt wird. D.h. beim Impuls wird nicht über ganz Ω sondern nur über
Ωh ≈ Ω bilanziert.
Da zur Konstruktion der FV-Diskretisierungen (3.70), (3.71), (3.72) mit
ωij , ωi+1/2j und ωij+1/2 jeweils unterschiedliche Kontrollelemente verwendet
werden, die ausgehend von ωij jeweils um h/2 bzw. k/2 verschoben sind,
spricht man bei der dargelegten Diskretisierung auch von der staggered-
Grid-Methode.
Mit der Berücksichtigung der Geschwindigkeitsrandbedingungen erhält man
ausgehend von (3.70), (3.71), (3.72) ein Gleichungssystem der Form
    
Lu 0 G u u ru
 0 Lv G v   v  =  rv  . (3.73)
T T
Gu Gv 0 p rp

Lu und Lv sind Ergebnis des Diskretiserungen der viskosen Glieder, Gu , Gv


sind Ergebnis der Diskretisierung des Druckgradienten und GTu , GTv ergeben
sich aus der Diskretisierung der Geschwindigkeitsdivergenz.
An dieser Stelle sei darauf hingewiesen, dass das Gleichungsystem (3.73)
lösbar ist, allerdings nicht eindeutig. Die (N × N )-Koeffizienten-Matrix A
von (3.73) hat den Rang N − 1. Das liegt daran, dass beim Stokes-Problem
zwar die Geschwindigkeit eindeutig bestimmt ist, allerdings der Druck nur
bis auf eine Konstante (der Druckgradient ist eindeutig bestimmt).
Ausgehend von (3.73) kann man durch Linksmultiplikation der ersten bei-
den Block-Gleichungen mit GTu L−1 T −1
u bzw. Gv Lv und die Kombination des
Ergebnisses mit der dritten Blockgleichung das Gleichungssystem

(GTu L−1 T −1 T −1 T −1
u Gu + Gv Lv Gv )p = Gu Lu ru + Gv Lv rv − rp ⇐⇒ Sp = r (3.74)

erhalten. Dabei bezeichnet S die sogenannte Schur-Komplement-Matrix.


Statt der Lösung des Systems (3.73) kann man auch mit der Gleichung (3.74)
zuerst den Druck bestimmen, und damit dann durch die seperate Lösung der

137
ersten beiden Blockgleichungen von (3.73) die Geschwindigkeiten. Man löst
also statt eines sehr großen linearen Gleichungssystems mit etwa N Gleichun-
gen drei lineare Gleichungssysteme mit je ca. N/3 Gleichungen.
Die eben dargelegte FV-Diskretisierung des Stokes-Problems kann auch auf
das Navier-Stokes-Problem mit den Gleichungen

(~u · ∇)~u − ν∆ ~u = −∇p + f~ (3.75)


∇ · ~u = 0 (3.76)

angewandt werden. Allerdings erfordert die Diskretisierung der konvektiven


Glieder ½
∇ · (u2 , uv)T
(~u · ∇)~u =
∇ · (uv, v 2 )T
im Fall der versetzten Gitter (staggered grids) zusätzlich Interpolationen und
man erhält letztendlich im Ergebnis der Diskretisierung ein nichtlineares al-
gebraisches Gleichungssystem.

138
Kapitel 4

Matrix-Eigenwertprobleme
23.
In vielen natur- und ingenieurwissenschaftlichen Disziplinen sind Eigenwert- Vorle-
wertprobleme zu lösen. Zur Bestimmung von Eigenschwingungen von Bau- sung
werken oder zur Ermittlung von stabilen statischen Konstruktionen sind Ei- am
genwerte zu berechnen. Aber auch bei der Berechnung des Spektralradius 13.01.2010
bzw. der Norm einer Matrix sind Eigenwerte erforderlich.
Sowohl bei der Lösung von Differentialgleichungssystemen als auch bei Ex-
tremwertproblemen sind Eigenwerte von Matrizen Grundlage für die Kon-
struktion von Lösungen von Differentialgleichungen oder entscheiden über
die Eigenschaften von stationären Punkten.
Bei der Berechnung von Eigenwerten und Eigenvektoren werden wir Ergeb-
nisse aus vorangegangenen Semestern, speziell die QR-Zerlegung einer Ma-
trix, als wichtiges Hilfsmittel nutzen können.

4.1 Problembeschreibung und algebraische


Grundlagen
Gegeben ist eine reelle Matrix A vom Typ n × n, zum Beispiel die Koeffizi-
entenmatrix eines linearen Differentialgleichungssystems
 
x′ = 2x +y −z 2 1 −1
y ′ = x +2y +3z ⇐⇒ ~x′ = A~x, A =  1 2 3  . (4.1)
z ′ = −x +3y +2z −1 3 2

Wir werden sehen, dass man mit den Eigenwerten und Eigenvektoren der
Matrix A die Lösung des Differentialgleichungssystems (4.1) sehr schnell er-
mitteln kann.
Das Matrix-Eigenwertproblem ist wie folgt definiert.

139
Definition 4.1. (Matrix-Eigenwertproblem)
Sei A eine Matrix vom Typ n × n. Der Vektor ~x 6= ~0 und die Zahl λ heißen
Eigenvektor bzw. Eigenwert der Matrix A, falls

A~x = λ~x (4.2)

gilt. ~x bezeichnet man als Eigenvektor zum Eigenwert λ. Die Menge aller
Eigenwerte eine Matrix A heißt Spektrum von A und wird durch σ(A) be-
zeichnet. Die Gleichung (4.2) heißt Eigengleichung.
Zur Definition 4.1 ist anzumerken, dass auch im Fall einer reellen Matrix
A die Eigenwerte und Eigenvektoren durchaus komplex sein können. Wir
werden das später bei der Behandlung von Beispielen noch sehen.
Aus der Eigengleichung (4.2) folgt mit der Einheitsmatrix E

A~x − λ~x = A~x − λE~x = (A − λE)~x = ~0 (4.3)

ein homogenes lineares Gleichungssystem, das nur dann eine Lösung ~x 6= ~0


hat, wenn die Matrix A − λE singulär ist. Damit gilt zur Bestimmung der
Eigenwerte einer Matrix der
Satz 4.2. (Eigenwertkriterium)
Für die Eigenwerte λ einer Matrix A gilt

χA (λ) := det(A − λE) = 0 . (4.4)

χA heißt charakteristisches Polynom der Matrix A. Die Nullstellen von


χA sind die Eigenwerte der Matrix A.
Die Eigenvektoren zu den Eigenwerten λ ergeben sich dann als Lösung des
homogenen linearen Gleichungssystems (A − λE)~x = ~0.
Beispiel 4.3. Für Matrix A aus (4.1) erhält man das charakteristische Po-
lynom
¯ ¯
¯ 2−λ 1 −1 ¯¯
¯
det(A − λE) = ¯¯ 1 2−λ 3 ¯¯
¯ −1 3 2−λ ¯
= (2 − λ)(2 − λ)(2 − λ) − 3 − 3 − 9(2 − λ) − (2 − λ) − (2 − λ)
= −λ3 + 6λ2 − λ − 20

und mit etwas Glück durch Probieren die Nullstelle


√ λ1 = 5 sowie nach Po-
lynomdivision die weiteren Nullstellen λ2,3 = 2 ± 217 . In der Regel hat man
1

nicht immer solches Glück bei der Eigenwertbestimmung, sondern man muss
die Nullstellen numerisch berechnen.

140
Dabei stellt man bei dem Weg über die Nullstellen des charakteristischen
Polynoms sehr schnell fest, dass die Berechnung nicht stabil ist, sondern dass
kleine Fehler in den Polynomkoeffizienten mitunter zu gestörten Nullstellen,
die sich wesentlich von den exakten unterscheiden, führen können. Im Fol-
genden werden iterative Methoden zur Bestimmung von Eigenwerten und
Eigenvektoren behandelt, ohne das Kriterium 4.2 zu verwenden.
Bevor wir zu den konkreten Berechnungsmethoden von Eigenwerten und Ei-
genvektoren kommen, fassen wir an dieser Stelle einige wichtige und nützliche
Grundlagen der linearen Algebra zum Spektralverhalten von Matrizen zu-
sammen. Eine wichtige Rolle spielen die im Folgenden definierten Begriffe.
Definition 4.4. (ähnliche Matrizen)
Die (n × n)-Matrix à ist der Matrix A ähnlich, wenn eine reguläre (n × n)-
Matrix C existiert, so dass
à = C −1 AC
gilt. Man sagt dann, dass à aus A durch eine reguläre Transformation mit C
hervorgegangen ist. Ist die Matrix C eine orthogonale Matrix, dann bezeichnet
man à auch als Orthogonaltransformation von A und mit C −1 = C T
gilt dann
à = C T AC .
Gibt es eine reguläre Matrix C, so dass die Transformation von A

D = C −1 AC

mit D eine Diagonalmatrix ergibt, dann heißt A diagonalisierbar.


Für das Spektrum bzw. die Eigenwerte spezieller Matrizen kann man aus der
Definition 4.1 folgende Eigenschaften zeigen.
Satz 4.5. (Eigenwerte spezieller Matrizen)
Sei A eine (n × n)-Matrix über C. Dann gilt:
a) Ist A eine Dreiecksmatrix, dann sind die Diagonalelemente gerade die
Eigenwerte.

b) Ist à eine reguläre Transformation der Matrix A mit der regulären


Matrix C, dann haben à und A die gleichen Eigenwerte.

c) Sind λ1 , . . . , λr die Eigenwerte von A, so besitzt die Matrix Aǫ = A+ǫE


die Eigenwerte µj = λj + ǫ (j = 1, . . . , r).

d) Ist A regulär mit den Eigenwerten λ1 , . . . , λr , dann sind die Eigenwerte


verschieden von null und die Inverse A−1 hat die Eigenwerte λ11 , . . . , λ1r .

141
e) Die transponierte Matrix AT hat die gleichen Eigenwerte wie die Matrix
A.
Die Aussagen des Satzes 4.5 sind einfach zu zeigen und der Nachweis wird
zur Übung empfohlen. Oben wurde schon darauf hingewiesen, dass auch bei
Matrizen mit ausschließlich reellen Elementen komplexe Eigenwerte auftreten
können. Als Beispiel betrachten wir die Matrix
µ ¶
1 5
A=
−1 3
und finden als Nullstellen des charakteristischen Polynoms χA (λ) = λ2 −4λ+
8 die Eigenwerte λ1,2 = 2 ± 2i. An dieser Stelle sei daran erinnert, dass Poly-
nome mit ausschließlich reellen Koeffizienten, was bei den charakteristischen
Polynomen reeller Matrizen der Fall ist, immer eine gerade Zahl (0, 2, 4, . . . )
von komplexen Nullstellen haben. Denn wenn überhaupt komplexe Nullstel-
len auftreten, dann immer als Paar der komplexen Zahl λ mit der konjugiert
komplexen Zahl λ̄.
Allerdings gibt es eine große Klasse von reellen Matrizen, die ausschließlich
reelle Eigenwerte besitzen. Es gilt der
Satz 4.6. (Eigenschaften symmetrischer reeller Matrizen)
Für jede reelle symmetrische (n × n)-Matrix S gilt:
a) Alle Eigenwerte von S sind reell.
b) Eigenvektoren ~qk , ~qj , die zu verschiedenen Eigenwerten λk 6= λj von S
gehören, stehen senkrecht aufeinander, d.h., ~qkT ~qj = h~qk , ~qj i = 0.
c) Es gibt n Eigenvektoren ~q1 , . . . , ~qn von S, die eine Orthonormalbasis
des Rn bilden.
d) Die Matrix S ist diagonalisierbar.
e) Die spezielle symmetrische Matrix S = AT A, wobei A eine beliebige
reelle (n × n)-Matrix ist, hat nur nichtnegative Eigenwerte.
Zum Nachweis von a). Wir bezeichnen mit x∗ den Vektor xT , wobei x der
konjugiert komplexe Vektor zu x ist. Sei nun λ ein Eigenwert von S und x
ein zugehöriger Eigenvektor. Damit ist x∗ x = |x|2 =: r > 0 reell und es folgt
x∗ Sx = x∗ λx = λx∗ x = λr .
Für jede komplexe Zahl z, aufgefasst als (1 × 1)-Matrix gilt z = z T . Damit
und aus der Symmetrie von S folgt für die komplexe Zahl x∗ Sx
x∗ Sx = (x∗ Sx)T = xT Sx∗T = x∗ Sx = x∗ Sx = λr = λr

142
Es ergibt sich schließlich λr = λr, d.h., λ ist reell.
Wegen der Voraussetzung λk 6= λj für die Aussage b) muss einer dieser
Eigenwerte von null verschieden sein, z.B. λk 6= 0. Aus S~qk = λk ~qk folgt
1 1 T T 1
~qk = S~qk sowie ~qkT = ~qk S = ~qkT S .
λk λk λk
Daraus folgt
1 T 1 λj
~qkT ~qj =
~qk S~qj = ~qkT λj ~qj = ~qkT ~qj
λk λk λk
und aus dieser Gleichung folgt
λj T
(1 − )~qk ~qj = 0 ⇐⇒ ~qkT ~qj = h~qk , ~qj i = 0 .
λk
Zu c) sei nur angemerkt, dass man im Fall eines Eigenwerts λk , der ins-
gesamt σk -mal auftritt (algebraische Vielfachheit gleich σk ), als Lösung des
homogenen linearen Gleichungssystems (S−λk E)~q = ~0 immer σk orthogonale
Eigenvektoren ~qk1 , . . . , ~qkσk finden kann, so dass man auch im Fall mehrfacher
Eigenwerte der symmetrischen (n × n)-Matrix S immer n orthogonale bzw.
nach Normierung orthonormierte Eigenvektoren ~q1 , . . . , ~qn finden kann.
Die mit den orthonormierten Eigenvektoren gebildete Matrix
 
| | |
Q =  ~q1 ~q2 . . . ~qn 
| | |

ist wegen h~qk , ~qj i = δkj orthogonal und es gilt für k = 1, . . . , n

S~qk = λk ~qk (k = 1, . . . , n) ⇐⇒ SQ = QD ⇐⇒ D = QT SQ ,

wobei die Diagonalmatrix D = diag(λ1 , . . . , λn ) genau die Eigenwerte


λ1 , . . . , λn als Hauptdiagonalelemente hat, also ist S diagonalisierbar.
e) ergibt sich durch die einfache Rechnung mit dem Eigenvektor ~q von S zum
Eigenwert λ

λ||~q||2 = hλ~q, ~qi = hS~q, ~qi = hAT A~q, ~qi = hA~q, A~qi = ||A~q||2 ≥ 0 .

4.2 Abschätzungen und Lokalisierung von Ei-


genwerten
Zur Lokalisierung der Eigenwerte einer (n × n)-Matrix A = (aij ) dient der
folgende

143
Satz 4.7. (Lokalisierung von Eigenwerten in Gerschgorin-Kreisen)
Sei A = (aij ) eine (n × n)-Matrix mit den Gerschgorin-Kreisen
n
X
Kj = {z ∈ C | |z − ajj | ≤ |ajk |} .
k=1
k6=j

a) Dann gilt für das Spektrum σ(A) von A


n
[
σ(A) ⊂ Kj ,
j=1

d.h., sämtliche Eigenwerte von A liegen in der Vereinigung der Gerschgorin-


Kreise.
b) Es sei {i1 , . . . , ik } ∪ {ik+1 , . . . , in } =: I1 ∪ I2 = {1, 2, . . . , n}. Sind die
Gerschgorin-Kreise Ka = ∪i∈I1 Ki und Kb = ∪i∈I2 Ki disjunkt, dann liegen in
Ka genau k und in Kb genau n − k Eigenwerte von A.
Beweis. Zum Nachweis von a) betrachten wir einen zum Eigenwert λ
gehörenden Eigenvektor ~u. uj sei eine Koordinate von ~u mit

|uj | = ||~u||∞ = max |uk | .


k=1,...,n

Die j-te Gleichung der Eigengleichung A~u = λ~u ist


n
X
ajk uk = λuj
k=1

und es ergibt sich


n
X n
X n
X
|ajj − λ| |uj | = | ajk uk | ≤ ||~u||∞ |ajk | = |uj | |ajk | .
k=1 k=1 k=1
k6=j k6=j k6=j
Pn
Daraus folgt |ajj − λ| ≤ k=1 |ajk |, d.h., λ liegt in Kj .
k6=j
Zum Nachweis von b) betrachten wir mit D die Diagonale von A und N =
A − D. Sei A(ǫ) = D + ǫN mit den Eigenwerten λ(ǫ). Für ǫ = 0 bestehen
die Kreise Ki (ǫ) aus den durch die Diagonalelemente gegebenen Punkten,
die beim steigen Vergrößern von ǫ = 0 zu ǫ = 1 zu den Gerschgorin-Kreisen
Ki = Ki (1) von A anwachsen (die Radien sind proportional zu ǫ und es
gilt Ki (ǫ1 ) ⊂ Ki (ǫ2 ) für ǫ1 ≤ ǫ2 ). Die Eigenwerte hängen stetig von den
Matrixelementen und damit von ǫ ab und können aufgrund der Aussage a)
wegen der Disjunktheit nicht zwischen Ka und Kb wechseln.

144
¡ 1 5
¢
Beispiel 4.8. 1) Die Matrix A = −1 3
hat die Gerschgorin-Kreise

K1 = {z ∈ C | |z − 1| ≤ 5} und K2 = {z ∈ C | |z − 3| ≤ 1} .

Die oben berechneten Eigenwerte λ1,2 = 2 ± 2i liegen in K1 ∪ K2 = K1 , wie


in der Abb. 4.1 zu erkennen
 ist. 
4 1 0
2) Die Matrix B =  1 2 1  hat die Gerschgorin-Kreise
1 0, 5 7

K1 = {z ∈ C | |z−4| ≤ 1}, K2 = {z ∈ C | |z−2| ≤ 2}, K3 = {z ∈ C | |z−7| ≤ 1, 5},

die in der Abb. 4.2 dargestellt sind (Eigenwerte λ1 = 4, 26, λ2 = 7, 1681, λ3 =


1, 5791).

K1

λ1 K2
2 K3
K2 K1

1 6 2 4 7

λ2

Abbildung 4.1: Gerschgorin-Kreise Abbildung 4.2: Gerschgorin-Kreise


und Eigenwerte von A von B

Definition 4.9. Der Rayleigh-Quotient von ~x 6= 0 bezügl. der Matrix A


ist durch
h~x, A~xi
rA (~x) =
h~x, ~xi
definiert.
Der Rayleigh-Quotient ist ein wichtiges Hilfsmittel zur Eigenwert-
abschätzung. Es gilt der
Satz 4.10. Sei A reell und symmetrisch, ~x ∈ Rn \ {0} beliebig.
a) Mit dem kleinsten bzw. größten Eigenwert λmin bzw. λmax von A gilt

λmin ≤ rA (~x) ≤ λmax .

Die Extremwerte werden für die entsprechenden Eigenvektoren ~x angenom-


men.

145
b) Eigenwertabschätzung durch den Rayleigh-Quotienten eines Testvektors:
es existiert ein Eigenwert λ von A mit

2 ||(A − rA (~x)E)~x||22
2
|λ − rA (~x)| ≤ r (~x) − [rA (~x)] =
A2 .
| {z } h~x, ~xi
Auslöschungsgefahr | {z }
numerisch stabil
Beweis.
a) Sei
P~x1 , . . . , ~xn eine Orthonormalbasis von Eigenvektoren (A~xi = λi~xi ). Mit
~x = i xi~xi folgt
P P P ½
h i xi~xi , i λi xi~xi i i λi x2i ≤ λmax
rA (~x) = P P = P 2 .
h i xi~xi , i xi~xi i i xi
≥ λmin

b) Sei µ nicht Eigenwert von A, dann gilt

||(A − µE)−1 (A − µE)~x||22 −1 2 ||(A − µE)~ x||22


1= ≤ ||(A − µE) ||2 ,
||~x||22 ||~x||22

und damit
||(A − µE)~x||22 1 1
2
≥ −1 2
=
||~x||2 ||(A − µE) ||2 ρ((A − µE)−1 )2
1
= = min |λi − µ|2 .
maxi |λi − µ|−2 i=1,...,n

Außerdem folgt für beliebiges µ auch

h(A − µE)~x, (A − µE)~xi ||(A − µE)~x||22


= 2
≥ min |λi − µ|2 .
h~x, ~xi ||~x||2 i=1,...,n

Aufgrund von

h(A − µE)~x, (A − µE)~xi hA~x, A~xi h~x, A~xi 2 h~x, A~xi 2


= −[ ] + [µ − ]
h~x, ~xi h~x, ~xi h~x, ~xi h~x, ~xi
| {z } | {z }
rA2 (~
x) rA (~
x)

wird die Abschätzung optimal für µ = rA (~x) und b) gilt.

Bemerkung 4.11. Wenn ~x ein Eigenvektor ist, dann ergibt der Rayleigh-
Quotient rA (~x) den entsprechenden Eigenwert. Rayleigh-Quotienten werden
als Hilfsmittel benutzt, um aus einer Approximation eines Eigenvektors eine
Approximation eines Eigenwerts abzuleiten.

146
Bemerkung 4.12. Es stellt sich die Frage, wann ~x ∈ Rn (bzw. Cn ) Approxi-
mation eines Eigenvektors ist. Es sei E der Eigenraum zum Eigenwert λ und
F der von der restlichen Eigen- bzw. Hauptvektoren aufgespannte Raum, so
dass Rn = E ⊕ F (bzw. Cn = E ⊕ F ) gilt. Mit der Zerlegung ~x = ~xE + ~xF
mit ~xE ∈ E, ~xF ∈ F vereinbart man:

~x ist approximativer Eigenvektor zum Eigenwert λ


⇐⇒ ~x ≈ ~xE ⇐⇒ ||~xF || << ||~xE || .

Für symmetrische Matrizen ist F das orthogonale Komplement von E


(h~xE , ~xF i = 0). Der Winkel φ zwischen ~x und seiner orthogonalen Projektion
~xE auf den Eigenraum E, definiert durch

h~xE , ~xE i h~xF , ~xF i


cos2 φ = bzw. sin2 φ = ,
h~x, ~xi h~x, ~xi

ist ein Maß für den Abstand von ~x zum Eigenraum E.

Satz 4.13. Für eine symmetrische Matrix A mit den Eigenwerten λi gilt

(min |λ − λi |) sin2 φ ≤ |λ − rA (~x)| ≤ (max |λ − λi |) sin2 φ .


λi 6=λ λi 6=λ

Beweis.
h~xE + ~xF , A(~xE + ~xF )i
λ − rA (~x) = λ −
h~x, ~xi
h~xE , A~xE i h~xF , A~xE i h~xF , A~xF i
= λ− −2 −
h~x, ~xi h~x, ~xi h~x, ~xi
h~xE , A~xE i h~xF , A~xF i
= λ− −
h~x, ~xi h~x, ~xi
h~xE , ~xE i h~xF , ~xF i h~xF , A~xF i
= λ(1 − )−
h~x, ~xi h~x, ~xi h~xF , ~xF i
h~xF , A~xF i
= sin2 φ(λ − ).
h~xF , ~xF i

Der auf F eingeschränkte Rayleigh-Quotient nimmt in Analogie zu Satz 4.10


a) als Extremwerte einen der von λ verschiedenen Eigenwerte von A an, d.h.

h~xF , A~xF i
min λi ≤ ≤ max λi ,
λi 6=λ h~xF , ~xF i λi 6=λ

und damit folgt die Aussage des Satzes.

147
Bemerkung 4.14. Der Satz 4.13 zeigt aufgrund des Faktors sin2 φ, dass im
Falle von symmetrischen Matrizen verhältnismäßig schlechte Eigenwertap-
proximationen durch den Rayleigh-Quotienten trotzdem gute Eigenwertap-
proximationen geliefert werden.
Satz 4.15. Sei A = T ΛT −1 mit Λ = diag(λ1 , . . . , λn ) eine diagonalisierbare
Matrix mit den Eigenwerten λ1 , . . . , λn . Für einen beliebigen Eigenwert λ̃
einer gestörten Matrix à = A + ∆A gilt

min |λi − λ̃| ≤ condp (T )||∆A||p .


i=1,...,n

Beweis. λ̃ sei nicht Eigenwert von A (ansonsten wird es trivial). Es folgt

||(A − λ̃E)−1 ||p = ||T (Λ − λ̃E)−1 T −1 ||p ≤ condp (T )||(Λ − λ̃E)−1 ||p .

Da die p-Norm einer Diagonalmatrix gleich dem maximalen Betrag der Dia-
gonalelemente ist, gilt
1 1
||(Λ − λ̃E)−1 ||p = max = .
i=1,...,n |λ − λ̃| mini=1,...,n |λi − λ̃|
i

Es folgt nun
condp (T )
min |λi − λ̃| ≤ . (4.5)
i=1,...,n ||(A − λ̃E)−1 ||p
Mit einem Eigenvektor ~y von à zum Eigenwert λ̃ ergibt sich

Ã~y = λ̃~y =⇒ (A − Ã)~y = (A − λ̃)~y =⇒ (A − λ̃E)−1 (A − Ã)~y = ~y

und weiter

1 ≤ ||(A − λ̃E)−1 (A − Ã)||p ≤ ||(A − λ̃E)−1 ||p ||A − Ã||p ,

also 1/||(A − λ̃E)−1 ||p ≤ ||∆A||p . Unter Nutzung von (4.5) folgt die Behaup-
tung.
Da man symmetrische Matrizen mit orthogonalen Matrizen (bestehend aus
den orthogonalen Eigenwerten) diagonalisieren kann, gilt für symmetrische
Matrizen A und beliebige Matrizen à = A + ∆A

min |λi − λ̃| ≤ ||∆A||2 ,


i=1,...,n

da man eine Transformationsmatrix T mit cond2 (T ) = 1 findet.


Ohne Beweis wird noch ein Vergleichssatz für Eigenwerte symmetrischer Ma-
trizen angegeben.

148
Satz 4.16. Für symmetrische reelle (n × n)-Matrizen A und à mit den
Eigenwerten

λ1 ≤ · · · ≤ λn von A bzw. λ̃1 ≤ . . . λ̃n von Ã

gilt
|λi − λ̃i | ≤ ρ(A − Ã) ≤ ||A − Ã||
für beliebige Matrixnormen.

Einen Beweis dieses Satzes findet man z.B. im Numerik-Buch von W. Oevel.

4.3 Numerische Methoden zur Eigenwertbe-


rechnung
Es geht zuerst darum, die Aufgabe der Eigenwertberechnung zu vereinfachen.
Dazu werden ausgehend von A einfachere ähnliche Matrizen konstruiert.
Zur Eigenwertberechnung werden dann Newtonverfahren, Jacobi-Verfahren
und die Givensrotation besprochen.
Am Ende werden wir die sukzessive Konstruktion von zu A ähnlichen Ma-
trizen zur näherungsweisen Eigenwertberechnung mit dem sogenannten QR-
Verfahren nutzen.

4.3.1 Transformation auf Hessenberg- bzw. Tridiago-


nalform
24.
Das Ziel der nächsten Überlegungen ist die Konstruktion einer Matrix H, die Vorle-
der Matrix A, von der wir Eigenwerte suchen, ähnlich sind, allerdings eine sung
wesentlich einfachere Gestalt als A haben. Die einfachere Bestimmung der am
Eigenwerte von H ergibt dann die Lösung des Eigenwertproblems von A. 19.01.2010

Definition 4.17. Unter einer Hessenberg-Matrix versteht man eine Matrix


H = (hij ), für die hij = 0 für i > j + 1 gilt, also eine Matrix der Form
 
h11 h12 . . . h1 n−1 h1n
 h21 h22 . . . h2 n−1 h2n 
 
H =  0 h32 . . . h3 n−1 h3n  ,
 
 .. . . . . .. .. 
 . . . . . 
0 . . . 0 hn n−1 hnn

die unter der Hauptdiagonale nur ein Band besitzt.

149
Wir werden nun zeigen, dass man jede Matrix A durch eine orthogonale
Ähnlichkeitstransformation auf Hessenberg-Form transformieren kann, d.h.,
dass es eine orthogonale Matrix Q mit

H = QT AQ

gibt. Betrachten wir dazu mit ~a1 die erste Spalte von A. Wir suchen nun eine
Householder-Matrix
~u1~uT1
H1 = E − 2 ,
h~u1 , ~u1 i
(1)
so dass sich mit ~a1 = H1~a1 = (a11 , ∗ , 0, . . . , 0)T ein Vektor ergibt, der bis
auf die ersten beiden Komponenten nur Null-Komponenten besitzt. Analog
zum Vorgehen bei der Erzeugung von QR-Zerlegungen leistet der Vektor

~u1 = (0, c + a21 , a31 , . . . , an1 )T


p
mit c = sign(a21 ) a221 + · · · + a2n1 das Geforderte. Es ergibt sich
(1)
~a1 = H1~a1 = (a11 , −c, 0, . . . , 0)T .

Für die j-te Spalte ~aj von A erzeugt die Householder-Matrix


~uj ~uTj
Hj = E − 2 (4.6)
h~uj , ~uj i
mit
q
T
~uj = (0, . . . , 0, c + aj+1 j , . . . , anj ) und c = sign(aj+1 j ) a2j+1 j + · · · + a2nj

(j)
einen Vektor ~aj = Hj~aj = (a1j , . . . , ajj , −c, 0, . . . , 0)T , der bis auf die ersten
j + 1 Komponenten nur Null-Komponenten besitzt. Die Multiplikation einer
Matrix A mit der Householder-Matrix Hj (4.6) lässt alle Spalten der Form

~s = (s1 , s2 , . . . , sj , 0, . . . , 0)T

invariant, d.h., es gilt Hj ~s = ~s. Damit bleiben durch die Multiplikation von A
mit Householder-Matrizen H1 , . . . , Hj−1 erzeugte Nullen im unteren Dreieck
erhalten, d.h., mit den Householder-Matrizen H1 , . . . , Hn−2 erhält man mit
 
a11 a12 . . . a1 n−1 a1n
 g21 g22 . . . g2 n−1 g2n 
 
 0 g32 . . . g3 n−1 g3n 
G = Hn−2 Hn−3 . . . H1 A =  
 .. . . . . .. .. 
 . . . . . 
0 . . . 0 gn n−1 gnn

150
eine Hessenberg-Matrix. Man überprüft durch Nachrechnen, dass die
Multiplikation der Matrix G von rechts mit den Householder-Matrizen
H1 , . . . , Hn−2 die Hessenberg-Form nicht zerstört. Man erkennt nun, dass
die Matrix H1 AH1 wieder eine Hessenberg-Matrix ist. Insgesamt erhält man
mit
 
a11 h12 . . . h1 n−1 h1n
 h21 h22 . . . h2 n−1 h2n 
 
 0 h32 . . . h3 n−1 h3n 
H = Hn−2 Hn−3 . . . H1 AH1 H2 . . . Hn−2 =  
 .. . . . . .. .. 
 . . . . . 
0 . . . 0 hn n−1 hnn

die gewünschte Hessenberg-Matrix, die aufgrund der Orthogonalität der


Householder-Matrizen Hi eine orthogonale Transformation von A ist. Es gilt

H = QT AQ mit Q = H1 H2 . . . Hn−2 , QT = Hn−2 Hn−3 . . . H1 .

H ist ähnlich zu A und deshalb haben H und A die gleichen Eigenwerte.


Beispiel 4.18. Für die Transformation der Matrix
 
2 3 4
A=3 2 3
4 1 6

ergibt sich mit ~u1 = (0, 3 + 5, 4)T die Householder-Matrix


 
T 1 0 0
~u1~u1 3 4
H1 = E − 2 =  0 −5 −5  .
h~u1 , ~u1 i
0 − 45 3
5

Weiter gilt
   
2 3 4 2 −5 0
33 162 59
G = H1 A =  −5 −2 − 5  und H = H1 AH1 =  −5 25 − 25  .
6 9 38
0 −1 5
0 − 25 25

H = H1 AH1 = H1T AH1 ist offensichtlich eine Hessenberg-Matrix und eine


orthogonale Transformation von A.
Fordert man von der zu transformierenden Matrix A die Symmetrie, dann
führt der eben dargelegte Algorithmus zur Transformation auf eine symme-
trische Hessenberg-Matrix, die folglich eine symmetrische Tridiagonal-Matrix
ist.

151
4.3.2 Newton-Verfahren zur Berechnung von Eigen-
werten von Hessenberg-Matrizen
Das charakteristische Polynom χ(µ) einer Hessenbergmatrix und die zu-
gehörige Ableitung χ′ (µ) lassen sich jeweils über die Auflösung spezieller
gestaffelter linearer Gleichungssysteme berechnen. Dazu betrachten wir den
Satz 4.19. Sei H = (hij ) ∈ RN ×N eine Hessenbergmatrix mit hi i+1 6= 0 für
i = 1 . . . , N −1 und charakteristischem Polynom χ(µ) = det (H −µE), µ ∈ R.
Im Folgenden sei µ ∈ R fest gewählt und kein Eigenwert von H, und es
bezeichne ~x = ~x(µ) = (xj (µ)) ∈ RN den eindeutig bestimmten Vektor mit

(H − µE)~x = ~e1 , (4.7)

mit ~e1 = (1, 0, . . . , 0)T ∈ RN . Dann gelten die folgenden Darstellungen

(−1)N −1 h21 h32 · · · hN N −1 χ(µ) 1 d 1


χ(µ) = , = ( ). (4.8)
xN (µ) χ′ (µ) xn (µ) dµ xn (µ)
Beweis. Die Anwendung der Cramerschen Regel auf die Gleichung (4.7) er-
gibt die erste Aussage in (4.8),
 
h11 − µ h12 ··· h1 N −1 1
 .. 
 h21 h22 − µ . 0 
xN = det 

 . .. .. .. 
 /χ(µ)
 h32 . . 
 . . . hN −1 N −1 − µ .. 
 . 
hN N −1 0
 
..
h21 h22 − µ .

 ... ..

= (−1) N −1
det  h32 . /χ(µ) ,
 ... 
 hN −1 N −1 − µ 
hN N −1
| {z }
=h21 h32 ···hN N −1

wobei die Determinate durch die Entwicklung nach der letzten Spalte be-
rechnet wurde. Damit wurde die erste Aussage von (4.8) gezeigt. Eine an-
schließende Differentiation ergibt die zweite Aussage.
Bemerkung 4.20. Die Forderung hi i+1 6= 0 im letzten Satz ist keine wirk-
liche Einschränkung, da anderenfalls die Hessenbergmatrix in Teilmatrizen
zerfällt, die ebenfalls Hessenbergmatrizen sind und dann ebenso behandelt
werden können wie die Matrix H im Satz.

152
Satz 4.21. Mit den Bezeichnungen aus Satz 4.19 erhält man die Werte
d
1/xN (µ) und dµ ( xN1(µ) ) aus den folgenden (durch Umformung und Differen-
tiation von (4.7) entstandenen) gestaffelten linearen Gleichungssystemen
1
9
(h11 − µ)v1 + h12 v2 + ··· + h1 N −1 vN −1 + h1N = xN (µ) >
>
>
>
h21 v1 + (h22 − µ)v2 + ··· + h2 N −1 vN −1 + h2N = 0 >
>
=
.. .. . .
. .
. . . . >
>
>
hN −1 N −2 vN −2 − (hN −1 N −1 − µ)vN −1 + hN −1 N = 0 >
>
>
;
hN N −1 vN −1 + hN N − µ = 0
(4.9)
beziehungsweise
d 1
9
(h11 − µ)z1 + h12 z2 + ··· + h1 N −1 zN −1 − v1 = dµ xN (µ)
>
>
>
>
h21 z1 + (h22 − µ)z2 + ··· + h2 N −1 zN −1 − v2 = 0 >
>
=
.. .. . .
. . . . >
. . >
>
hN −1 N −2 zN −2 − (hN −1 N −1 − µ)zN −1 − vN −1 = 0 >
>
>
;
hN N −1 zN −1 − 1 = 0
(4.10)

die man rekursiv nach den Unbekannten vN −1 , . . . , v1 , 1/xN (µ) beziehungs-


d 1
weise zN −1 , . . . , z1 , dµ xN (µ)
auflöst.
Beweis. Die Aussage (4.9) erhält man (für vj = xj (µ)/xN (µ)), indem man
die einzelnen Zeilen des Gleichungssystems (4.7) durch xN (µ) dividiert. Die
dv
Differentiation der Gleichungen in (4.9) nach µ liefert für zj = ( dµj )(µ) un-
mittelbar (4.10).

4.3.3 Das Newtonverfahren für tridiagonale Matrizen


Die Transformation einer symmetrischen Matrix auf Hessenbergform ergibt
eine tridiagonale Matrix. Deshalb ist es sinnvoll, das Newtonverfahren für
tridiagonale Matrizen betrachten, denn χ(µ) = det (H −µE) und χ′ (µ) lassen
sich dann auf einfache Weise rekursiv berechnen.
Lemma 4.22. Zu gegebenen Zahlen δ1 , . . . , δN ∈ R und γ2 , . . . , γN ∈ R
gelten für die charakteristischen Polynome
 
δ1 γ2
 ... ... 
γ
χk (µ) = det (Jk − µE) , Jk =  2 .

.  , k = 1, . . . , N,
 . . . . γk 
γk δk
die folgenden Rekursionsformeln
¾
χ1 (µ) = δ1 − µ ,
(4.11)
χk (µ) = (δk − µ)χk−1 (µ) − γk2 χk−2 (µ) , k = 2, . . . , N,

153
mit der Notation χ0 (µ) := 1. Für die Ableitungen gelten

χ′1 (µ) = −1 ,
χ′k (µ) = −χk−1 + (δk − µ)χ′k−1 (µ) − γk2 χ′k−2 (µ) , k = 2, . . . , N .

Beweis. Die Darstellung für χ1 ergibt sich unmittelbar, und für χ2 ist
µ· ¸¶
δ1 − µ γ2
χ2 (µ) = det = (δ1 − µ)(δ2 − µ) − γ22 ,
γ2 δ2 − µ | {z }
=χ1 (µ)

was die behauptete Darstellung von χ2 ist. Für k ≥ 3 erhält man durch
Entwicklung der Determinate nach der letzten Spalte
02 31
δ1 − µ γ2
B6 .. .. 7C
B6
B6 γ2 . . 7C
7C
B6 7C
χk (µ) = det B6 .. 7C (4.12)
B6 . δk−2 − µ γk−1 7C
B6 7C
@4 γk−1 δk−1 − µ γk 5A
γk δk − µ
02 31
δ1 − µ γ2
B6 .. .. 7C
B6
B6 γ2 . . 7C
7C
B6 7C
= (δk − µ)χk−1 (µ) − γk det B6 .. 7C , (4.13)
B6 . δk−3 − µ γk−2 7C
B6 7C
@4 γk−2 δk−2 − µ γk−1 5A
0 γk
| {z }
=γk χk−2 (µ)

womit das Lemma bewiesen wäre.


Mit den Ergebnissen zur Bestimmung des charakteristischen Polynoms χ(µ)
und des Quotienten χχ(µ)
′ (µ) und Informationen zur Lage von Eigenwerten (z.B.

nach dem Satz von Gerschgorin), kann man mit dem Newtonverfahren Ei-
genwerte berechnen.

4.3.4 Jacobi-Verfahren zur Eigenwertberechnung


Im Unterschied zum Newtonverfahren geht es beim Jacobi-Verfahren darum,
durch die sukzessive Konstruktion von zu A ähnlichen Matrizen A(k) mit
Reduktion der Nichtdiagonalelemente die Eigenwerte durch die Diagonalein-
träge von A(k) zu approximieren.

Approximation der Eigenwerte durch Diagonaleinträge


Um zu verabreden, was unter Konvergenz eines solchen Verfahrens zu verste-
hen ist, braucht man ein Maß zur Größe des Nichtdiagonalteils einer Matrix.

154
Definition 4.23. Für eine Matrix B = (bij ) ∈ RN ×N ist die Zahl S(B) ∈ R+
folgendermaßen erklärt,
N
X
S(B) := b2ij . (4.14)
i,j=1,i6=j

Offensichtlich gilt für S(B) mit der Frobeniusnorm || · ||F


N
X
S(B) := ||B||2F − b2jj = ||B − D||2F , mit D := diag (b11 , . . . , bN N ) .
j=1
(4.15)
Ist S(B) klein, dann stellen die Diagonalelemente Approximationen für die
Eigenwerte dar. Es gilt der

Satz 4.24. Seien λ1 ≥ λ2 ≥ · · · ≥ λN die Eigenwerte der symmetrischen


Matrix B = (bij ) ∈ RN ×N , und seien bk1 k1 ≥ bk2 k2 ≥ · · · ≥ bkN kN die der
Größe nach geordneten Diagonalelemente von B. Dann gilt
p
|bkj kj − λj | ≤ S(B) , j = 1, . . . , N .

Beweis. Mit D := diag (b11 , . . . , bN N ) erhält man


p
max |bkj kj − λj | ≤ ||B − D||2 ≤ ||B − D||F = S(B) ,
j=1,...,N

wobei erstens ein Störungsresultat aus Satz 4.16 benutzt wurde, und zweitens
|| · ||2 ≤ || · ||F verwendet wurde.

Givensrotation zur Reduktion der Nichtdiagonaleinträge


Das Verfahren von Jacobi zur approximativen Bestimmung der Eigenwerte
symmetrischer Matrizen A ∈ RN ×N durch die Konstruktion von A(k) mit
S(A) = S(A(1) ) > S(A(2) ) > . . . beruht auf der sogenannten Givensrotation.
Es werden zu A ähnliche Matrizen

A(k+1) = Sk−1 A(k) Sk , k = 1, 2, . . . mit A = A(1)

155
konstruiert, wobei die einzelnen Ähnlichkeitstransformationen von der allge-
meinen Form
 
1
 ... 
 
 
 1 
 
 c −s 
 
 1 
−1
 . 
B̂ := Ωpq BΩpq , Ωpq =   ..  ∈ RN ×N

 1 
 
 s c 
 
 1 
 

 . . .


1
(4.16)
sind mit einer symmetrischen Matrix B ∈ RN ×N und mit speziell zu
wählenden Indizes p 6= q und reellen Zahlen

c, s ∈ R , c2 + s2 = 1 . (4.17)

Die Spalte mit den Zahlen c und s ist die p-te Spalte, die Spalte mit den
Zahlen −s und c ist die q-te Spalte, woraus die entsprechenden Zeilen folgen.
Ausgehend von B = (bij ) erhält man durch die Transformation

b̂pp = c2 bpp + 2csbpq + s2 bqq , (4.18)


b̂qq = s2 bpp − 2csbpq + c2 bqq , (4.19)
2 2
b̂pq = b̂qp = cs(bqq − bpp ) + (c − s )bpq , (4.20)
b̂ij = bij , i, j ∈
/ {p, q} . (4.21)

Weiter gilt für die Einträge der p-ten und q-ten Spalten und Zeilen

b̂kp = b̂pk = cbkp +sbkq , b̂kq = b̂qk = −sbkp +cbkq , für k ∈


/ {p, q} . (4.22)

Bevor der Zusammenhang zwischen S(B̂) und S(B) hergestellt wird, soll ein
Hilfsresultat hergeleitet werden.

Lemma 4.25. Für jede Matrix B ∈ RN ×N und jede orthogonale Matrix


Q ∈ RN ×N gilt
||Q−1 BQ||F = ||B||F .

156
PN
Beweis. Unter der Spur einer Matrix A verstehen wir spur (A) = j=1 ajj .
Es gelten nun die elementaren Identitäten

||A||F = spur (AT A) , spur (ST ) = spur (T S) für alle A, S, T ∈ RN ×N ,

woraus die Aussage des Lemmas folgt.


Für den Zusammenhang zwischen S(B̂) und S(B) gilt der

Satz 4.26. Für eine symmetrische Matrix B = (bij ) ∈ RN ×N gilt mit den
Beziehungen aus (4.16)

S(B̂) = S(B) − 2(b2pq − b̂2pq ) .

Beweis. Man rechnet


N
X N
X
S(B̂) = ||B̂||2F − b̂2jj = (||B||2F − b2jj ) +b2pp + b2qq − b̂2pp − b̂2qq (4.23)
j=1 j=1
| {z }
=S(B)

aus. Die letzten 4 Summanden in (4.23) kann man in der Form


· ¸ · ¸· ¸· ¸
b̂pp b̂pq c s bpp bpq c −s
=
b̂pq b̂qq −s c bpq bqq s c
| {z } | {z }
=:b̂ =:b

darstellen. Die Matrizen b̂ und b ∈ R2×2 sind orthogonal ähnlich zueinander,


und damit folgt aus Lemma 4.25

b̂2 + b̂2qq + 2b̂2pq = b2pp + b2qq + 2b2pq , (4.24)


|pp {z } | {z }
=||b̂||2F =||b||2F

und die Identitäten (4.23) und (4.24) ergeben die Behauptung.


Mit Satz 4.26 wird offensichtlich, dass bei festem Index (p, q) im Fall b̂pq = 0
die Zahl S(B̂) die größtmögliche Verringerung gegenüber S(B) erfährt.

Korollar 4.27. Wählt man in (4.16) die Zahlen c und s so, dass b̂pq = 0
erfüllt ist, dann gilt
S(B̂) = S(B) − 2b2pq .
25.
Vorle-
sung
157 am
20.01.2010
Satz 4.28. In (4.16) erhält man den Eintrag b̂pq = b̂qp = 0 durch die Wahl
der Zahlen c und s (o.B.d.A. sei bpq 6= 0)
r r
1+C 1−C bpp − bqq
c= , s = sign (bpq ) mit C = q .
2 2 2 2
(bpp − bqq ) + 4bpq
(4.25)

Beweis. Mit den Beziehungen (4.20) folgt


r
1 − C2
b̂pq = sign (bpq ) (bqq − bpp ) + Cbpq
4
sign (bpq )|bpq |(bqq − bpp ) bpp − bqq
= q +q bpq = 0 ,
(bpp − bqq )2 + 4b2pq (bpp − bqq )2 + 4b2pq

wobei der Schritt von der ersten zur zweiten Zeile aus
r s
1 − C2 1 (bpp − bqq )2 + 4b2pq − (bpp − bqq )2 |bpq |
= 2 2
=q
4 2 (bpp − bqq ) + 4bpq (bpp − bqq )2 + 4b2pq

folgt.
Das Korollar 4.27 und der folgende Satz liefern einen Hinweis zur jeweiligen
Wahl der Indizes p und q.

Satz 4.29. Für Indizes (p, q) mit p 6= q sei

|bpq | ≥ |bij | für i, j = 1, . . . , N, i 6= j , (4.26)

erfüllt. Mit den Bezeichnungen aus (4.16) und c und s aus Satz 4.28 gilt die
Abschätzung
2
S(B̂) ≤ (1 − η)S(B) , mit η := .
N (N − 1)

Beweis. Wegen (4.26) gilt die Abschätzung


N
X
S(B) = b2ij ≤ N (N − 1)b2pq ,
i,j=1,...,N,i6=j

da die Anzahl der Nichtdiagonalelemente gleich N (N − 1) ist. Die Aussage


des Satzes folgt unter Nutzung des Korollars 4.27.

158
Bemerkung 4.30. Nach Satz 4.29 gilt für die Messgrößen S(A(k) ) des Ja-
cobiverfahrens
2
S(A(k) ) ≤ (1 − η)k S(A) , für k = 1, 2, . . . (η = , A = A(1) ) .
N (N − 1)

Bei Vorgabe einer Genauigkeit ǫ > 0 für S(A(k) ) ergibt sich


p
log( S(A)/ǫ) p
S(A(k) ) ≤ (1 − η)k S(A) < ǫ ⇐⇒ k ≥ 2 ≈ N 2 log(( S(A)/ǫ)
− log(1 − η)

für die durchzuführenden Givensrotationen bei jeweiliger Wahl des betrags-


größten Nichtdiagonalelements zur Ermittlung vom Indexpaar (p, q).

4.3.5 Von-Mises-Vektoriteration
Bei vielen angewandten Aufgabenstellungen ist der betragsgrößte Eigenwert
von besonderer Bedeutung. Bei Schwingungsproblemen ist oft die Grund-
schwingung von Interesse und für deren Berechnung benötigt man den be-
tragsgrößten Eigenwert. Für den Fall, dass die Matrix A Eigenwerte mit der
Eigenschaft
|λ1 | > |λ2 | ≥ · · · ≥ |λN | (4.27)
besitzt, kann man ausgehend von einem geeigneten Startvektor ~u0 mit der
Iteration
~u1 = A~u0 , ~u2 = A~u1 , . . . , ~uk+1 = A~uk , . . . (4.28)
den betragsgrößten Eigenwert und den dazugehörigen Eigenvektor berech-
nen. Betrachten wir als Startvektor

~u0 = ~q1 + ~q2 + · · · + ~qN ,

wobei ~q1 , . . . , ~qN die Eigenvektorbasis einer als diagonalisierbar vorausgesetz-


ten Matrix A sind. Mit A~qk = λk ~qk erhält man mit der Iteration (4.28)

~uk = A~uk−1 = Ak ~u0 = λk1 ~q1 + · · · + λkN ~qn (4.29)

und bei der Iteration setzt sich die Vektorkomponente mit dem betragsgößten
Eigenwert durch, so dass die Iteration in gewisser Weise gegen den Eigen-
vektor ~q1 strebt. Multipliziert man (4.29) mit einem Testvektor ~z, von dem
h~z, ~q1 i =
6 0 gefordert wird, dann erhält man

h~uk , ~zi ≈ λ1 h~uk−1 , ~zi

159
für genügend große k und es gilt
h~uk , ~zi
λ1 = lim ,
k→∞ h~
uk−1 , ~zi
wobei wir die gesicherte Existenz des Grenzwerts nicht zeigen. Ist ~q1 als
Eigenvektor mit einer positiven ersten von null verschiedenen Komponente
zum betragsgrößten Eigenwert λ1 normiert, dann konvergiert die Folge
~uk
~vk := ζk (4.30)
||~uk ||
gegen ~q1 , wobei ζk ∈ {+1, −1} so zu wählen ist, dass die erste von null ver-
schiedene Komponente von ~vk positiv ist. Die durchgeführten Betrachtungen
können wir zusammenfassen.
Satz 4.31. (Von-Mises-Vektoriteration)
Sei A eine diagonalisierbare (N ×N )-Matrix, deren Eigenwerte die Bedingung
(4.27) erfüllen. ~qj seien die Eigenvektoren zu λj . Seien ~uk und ~vk durch (4.29)
bzw. (4.30) erklärt und gelte h~u0 , ~q1 i =
6 0, h~z, ~q1 i =
6 0 für die Vektoren ~z, ~u0 .
Dann konvergiert die Folge ~vk gegen den Eigenvektor ~q1 und der betragsgrößte
Eigenwert λ1 ergibt sich als Grenzwert
h~uk , ~zi h~vk , ~zi
λ1 = lim = lim . (4.31)
k→∞ h~
uk−1 , ~zi k→∞ h~vk−1 , ~zi
Für die Konvergenzgeschwindigkeit gilt
h~uk+1 , ~zi λ2
| − λ1 | ≤ K| |k , (4.32)
h~uk , ~zi λ1
wobei die Konstante K von der Wahl von ~z, ~u0 abhängt.
Zum Satz 4.31 ist anzumerken, dass man auch im Fall

λ1 = · · · = λr , |λ1 | = · · · = |λr | > |λr+1 | ≥ · · · ≥ |λN |, r > 1

mit der Von-Mises-Iteration (4.29), (4.30), (4.31) den mehrfachen Eigenwert


λ1 bestimmen kann. Allerdings konvergiert die Folge (4.30) nur gegen irgend-
einen Eigenvektor aus dem Unterraum der Lösungen des linearen Gleichungs-
systems (A − λ1 E)~v = ~0. Eventuelle weitere Eigenvektoren zum mehrfachen
Eigenwert λ1 muss man dann auf anderem Weg, z.B. durch die Bestimmung
weiterer Lösungen von (A − λ1 E)~v = ~0, berechnen.
Nach der Bestimmung von λ1 weiß man, dass für eine symmetrische Matrix
A alle Eigenwerte auf jeden Fall im Intervall [a, b] := [−|λ1 |, |λ1 |] liegen, da

160
sie reell sind. Evtl. kann man das Intervall [a, b] durch die Betrachtung der
Gerschgorin-Kreise noch verkleinern.
Mit der folgenden Überlegung kann man unter Umständen Eigenwerte von
A schneller bestimmen als mit der Von-Mises-Iteration nach Satz 4.31. Ist λ
ein Eigenwert von A und ~u ein zu λ gehörender Eigenvektor von A, dann ist
für µ 6= λ wegen
1
A~u = λ~u ⇐⇒ (A − µE)~u = (λ − µ)~u ⇐⇒ (A − µE)−1~u = ~u
λ−µ
1
die Zahl λ−µ ein Eigenwert von (A − µE)−1 . Wendet man den Satz 4.31 auf
das Eigenwertproblem der Matrix (A − µE)−1 an, dann ergibt sich mit dem
folgenden Satz eine effiziente Methode zur Eigenwert- und Eigenvektorbe-
stimmung.
Satz 4.32. (inverse Von-Mises-Vektoriteration)
Sei A eine Matrix vom Typ N × N mit den Eigenwerten λ1 , . . . , λN und
sei µ ∈ C eine komplexe Zahl ungleich allen Eigenwerten von A, so dass
die Matrix A einen Eigenwert hat, der näher bei µ als bei allen anderen
Eigenwerten liegt, d.h.

0 < |λ1 − µ| < |λ2 − µ| ≤ · · · ≤ |λN − µ|

gilt (λ1 ist der Eigenwert, der µ am nächsten liegt). Mit der Iterationsfolge

~uk := (A − µE)−1~uk−1 (k = 1, 2, . . . ) (4.33)

gilt
h~uk , ~zi 1 h~uk−1 , ~zi
lim = ⇐⇒ λ1 = lim +µ,
k→∞ h~
uk−1 , ~zi λ1 − µ k→∞ h~uk , ~zi
wobei h~u0 , ~qµ i =
6 0, h~z, ~qµ i =
6 0 für den Startvektor ~u0 und den Testvektor
1
~z mit ~qµ als dem zu λ1 −µ gehörenden Eigenvektor der Matrix (A − µE)−1
gelten muss. Die normalisierten Vektoren ~vk = ||~~uukk || konvergieren gegen den
Eigenvektor ~qµ . Die Iteration (4.33) heißt inverse Von-Mises-Iteration. Für
die Konvergenzgeschwindigkeit gilt
h~uk+1 , ~zi 1 1/(λ2 − µ) k λ1 − µ k
| − | ≤ K| | = K| | .
h~uk , ~zi λ1 − µ 1/(λ1 − µ) λ2 − µ
Der Satz 4.32 ist in zweierlei Hinsicht von Bedeutung. Zum einen kann man
durch eine günstige Wahl von µ in der Nähe eines Eigenwertes λ1 die Kon-
vergenzgeschwindigkeit der inversen Von-Mises-Iteration groß machen und
schnell zu diesem Eigenwert gelangen. Zweitens kann man bei Kenntnis des

161
λ +λmax
Intervalls [λmin , λmax ] durch die Wahl von µ = min 2 und die Berech-
nung des Eigenwertes λµ von A, der µ am nächsten liegt, mit
λ + λµ λµ + λmax
µ1 = min , µ2 =
2 2
die Iteration (4.33) für µ1 und µ2 durchführen. Die sukzessive Fortsetzung die-
ses Algorithmus liefert nach evtl. Aussortierung von Punkten, für die (4.33)
nicht konvergiert, alle Eigenwerte von A. Bei der Wahl der Parameter µ kann
man natürlich auch Informationen zur Lage der Eigenwerte aus dem Satz 4.7
nutzen.
Ein weiterer Weg, sämtliche von null verschiedenen Eigenwerte einer Matrix
A durch Von-Mises-Vektoriterations-Methoden zu bestimmen, ist mit Hilfe
der Deflation möglich. Kennt man einen Eigenwert λ1 6= 0 der symmetri-
schen Matrix A und mit ~x1 den dazugehörenden Eigenvektor und bezeichnet
die restlichen Eigenwerte von A mit λ2 , . . . , λN , dann hat die Matrix
~x1~xT1 λ1
à = (E − )A = A − ~x1~xT1
h~x1 , ~x1 i h~x1 , ~x1 i
die Eigenwerte 0, λ2 , . . . , λN . Außerdem ist jeder Eigenvektor von A auch
Eigenvektor von à und umgekehrt. Mit der Deflation transformiert man den
Eigenwert λ1 auf 0.
Beispiel 4.33. Für die Matrix
 
2 −1 0
A =  −1 2 −1 
0 −1 2
√ √
findet man die Eigenwerte λ1 = 2, λ2 = 2 − 2, λ3 = 2 + 2 mit den
Eigenvektoren
   1   1 
− √12 2
−2
1  √1  .
~x1 =  0 , ~x2 =
  √
2
, ~x3 = 
2
1 1 1

2 2
− 2

Für à ergibt sich


 
1 −1 1
λ1
à = A − ~x1~xT1 =  −1 2 −1 
h~x1 , ~x1 i
1 −1 1
√ √
mit den Eigenwerten 0, λ2 = 2 − 2, λ3 = 2 + 2 und den Eigenvektoren
   1   1 
− √12 2
−2
1  √1  .
~x1 =  0 , ~x2 =
  √
2
, ~x3 = 
2
1 1 1

2 2
− 2

162
Für den allgemeineren Fall der nicht notwendigerweise symmetrischen Matrix
A gilt der folgende

Satz 4.34. (Deflation)


Sei ~z 6= ~0 ein beliebiger Vektor und es sei ~x1 mit h~x1 , ~zi =
6 0 ein Eigenvektor
der Matrix A zum Eigenwert λ1 . Dann liefert jeder weitere von ~x1 linear
unabhängige Eigenvektor ~x von A zum Eigenwert λ mit

h~x, ~zi
~y = ~x − ~x1 (4.34)
h~x1 , ~zi

einen Eigenvektor der Matrix

~x1~zT
à = (E − )A
h~x1 , ~zi

zum gleichen Eigenwert λ. Der Eigenvektor ~x1 ist ebenfalls Eigenvektor der
Matrix à zum Eigenwert 0. Umgekehrt liefert jeder Eigenvektor ~y von à zum
Eigenwert λ einen Eigenvektor

hA~y , ~zi
x~′ = (A − λ1 E)~y = (λ − λ1 )~y + ~x1 (4.35)
h~x1 , ~zi

von A zum selben Eigenwert. Alle Eigenvektoren von à zu nichtverschwin-


denden Eigenwerten stehen senkrecht auf ~z.

Ã~y = λ~y und Ax~′ = λx~′ rechnet man durch Einsetzen nach. Die Multiplika-
tion von ~zT A mit (4.34) ergibt

~zT A~y = hA~y , ~zi = hA~x, ~zi − λ1 h~x, ~zi ⇐⇒ hA~y , ~zi = (λ − λ1 )h~x, ~zi
1
und Einsetzen von h~x, ~zi = λ−λ 1
hA~y , ~zi in (4.34) liefert (4.35) mit dem Ei-
~′
genvektor x = (λ − λ1 )~x. Die skalare Multiplikation von Ã~y mit ~z ergibt
unter Nutzung von Ã~y = λ~y

hA~y , ~zi
hÃ~y , ~zi = hA~y , ~zi − h~x1 , ~zi = hA~y , ~zi − hA~y , ~zi = λh~y , ~zi ,
h~x1 , ~zi

woraus h~y , ~zi für λ 6= 0 folgt. Damit ist der Satz 4.34 bewiesen.
Mit dem Satz 4.34, d.h., der sukzessiven Deflation, kann man also mit Von-
Mises-Iterationen sämtliche Eigenwerte einer Matrix, beginnend mit dem be-
tragsgrößten, und die dazugehörenden Eigenvektoren berechnen.

163
4.3.6 QR-Verfahren
26.
Das QR-Verfahren zur Berechnung der Eigenwerte der Matrix A basiert Vorle-
auf der sukzessiven Konstruktion von QR-Zerlegungen. Bevor das Verfah- sung
ren erläutert und Konvergenzbetrachtungen angestellt werden, sind einige am
Aussagen zu QR-Zerlegungen bereitzustellen. 26.01.2010
Lemma 4.35. (Eindeutigkeit der QR-Zerlegung)
Für Orthogonalmatrizen Q1 , Q2 ∈ RN ×N und reguläre rechte Dreiecksmatri-
zen R1 , R2 ∈ RN ×N sei
Q1 R1 = Q2 R2
erfüllt. Dann existiert eine Vorzeichenmatrix S = diag (σ1 , . . . , σN ) ∈ RN ×N
mit σj ∈ {−1, 1}, so dass

Q2 = Q1 S , R2 = SR1

gilt.
Beweis. Nach Voraussetzung gilt

Q−1 −1
1 Q2 = R1 R2 =: S .

Produkte und Inverse von orthogonalen Matrizen sind wieder orthogonal,


und Gleiches gilt für Dreiecksmatrizen. Folglich ist S sowohl rechte Dreiecks-
matrix als auch orthogonal, d.h.
 
∗ ∗ ··· ∗
−1 T

 ∗ ··· ∗   N ×N
S =S , S= . . ..  ∈ R . (4.36)
 . . 

Damit kann S nur eine Diagonalmatrix sein, also eine Matrix S =


diag (σ1 , . . . , σN ) ∈ RN ×N . Aus

S −1 = S T ⇐⇒ S T S = E

folgt σj = 1/σj für j = 1, . . . , N , also σj ∈ {−1, 1}.


(k)
Definition 4.36. Für Matrizen Ak = (aij ) ∈ RN ×N und A = (aij ) ∈ RN ×N
schreibt man
(k)
Ak → A für k → ∞ :⇐⇒ aij → aij für k → ∞ (i, j = 1, . . . , N )

(Ak → A für k → ∞ gilt genau dann, wenn ||Ak − A|| → 0 für k → ∞,


wobei || · || irgendeine Matrixnorm ist).

164
Für die folgenden Konvergenzbetrachtungen des noch zu erklärenden QR-
Verfahren soll unter O(∆k ) für eine Matrix ∆k als O(||∆k ||2 ) für die Matri-
xeinträge verstanden werden.

Lemma 4.37. (Stetigkeit der QR-Zerlegung)


Für Orthogonalmatrizen Qk , Q ∈ RN ×N und rechte Dreiecksmatrizen
Rk , R ∈ RN ×N sei
=:∆
z }|k {
Qk Rk − QR → 0 für k → ∞ (4.37)

erfüllt, und die Matrix QR ∈ RN ×N sei regulär. Dann existieren Vorzeichen-


matrizen
(k) (k) (k)
Sk = diag (σ1 , . . . , σN ) ∈ RN ×N mit σj ∈ {−1, 1} , (4.38)

mit

Qk Sk = Q + O(∆k ) , Sk Rk = R + O(∆k ) für k → ∞ . (4.39)

Beweis. Der Beweis dieses Lemmas zur Stetigkeit der QR-Faktorisierung ist
recht aufwendig und soll in den wesentlichen Beweisschritten dargestellt wer-
den.
Da R, Q und QR reguläre Matrizen sind, existiert

R̂k := Rk R−1 .

Mit

R̂kT R̂k = (R−1 )T RkT Rk R−1 = (RT )−1 (Qk Rk )T (Qk Rk )R−1
= (RT )−1 [(QR)T + O(∆k )](QR + O(∆k ))R−1
= (RT )−1 RT RR−1 +O(∆k ) für k → ∞
| {z }
=E

wurde
R̂kT R̂k = E + O(∆k ) für k → ∞ , (4.40)
gezeigt. Nun wird mit Hilfe von (4.40) gezeigt, dass für gewisse Vorzeichen-
matrizen Sk ∈ RN ×N der Form (4.38)

Sk R̂k = E + O(∆k ) für k → ∞ , (4.41)

165
gilt. Zum Nachweis der Konvergenzaussage (4.41) betrachtet man die Zerle-
gung von R̂k
 (k)   
r̂11 ∗ . . . ∗ 0 ∗ ... ∗
 . . .
.
 . . . .. 
 .. . . . .
(k) 
 r̂22 . .  (k) (k) . 
R̂k = 
  =: diag (r̂ , . . . , r̂ ) + ,
... }  ... ...
 11 NN 
 ∗  | {z
=:Dk
∗
(k)
r̂N N 0 ... ... 0
| {z }
=:Uk
(4.42)
die dadurch begründet ist, dass Inverse und Produkte von oberen Dreiecks-
matrizen wieder Dreicksmatrizen sind. Mit Dk und Uk aus (4.42) wird nun

Dk2 = E + O(∆k ) , Uk = O(∆k ) für k → ∞ (4.43)

gezeigt. Dazu stellt man als erstes

R̂k = (R̂kT )−1 + Bk mit Bk := (R̂kT )−1 (R̂kT R̂k − E)

fest. Aus (4.40) folgt


Bk = O(∆k )
wobei außerdem anzumerken ist, dass (4.40) die Beschränktheit der Matrix-
1/2
folge R̂0−1 , R̂1−1 , . . . impliziert (||R̂k−1 ||2 = ||(R̂kT R̂k )−1 ||2 → 1 für k → ∞).
Da R̂kT eine untere Dreiecksmatrix ist, ist auch (R̂kT )−1 eine untere Dreiecks-
matrix. Damit stimmt notwendigerweise das strikte obere Dreieck (ohne die
Hauptdiagonale) von Bk mit dem strikten oberen Dreieck von Uk überein.
Insgesamt erhält man damit die Darstellung
 

∗ ∗ 
 
Bk =  .. ...  + Uk = O(∆k ) ,
 . 
∗ ··· ··· ∗

also gilt der zweite Teil von (4.43). Zum Nachweis des ersten Teils von (4.43)
findet man

Dk2 = DkT Dk = (R̂kT − UkT )(R̂k − Uk )


= R̂kT R̂k − R̂kT Uk − UkT R̂k + UkT Uk = E + O(∆k )
| {z } | {z } | {z } | {z }
=E+O(∆k ) =O(∆k ) =O(∆k ) O(∆k )

für k → ∞. Aus (4.43) folgt nun mit den Vorzeichenmatrizen


(k) (k)
Sk = diag (sign(r̂11 ), . . . , sign(r̂N N ))

166
(4.41) unmittelbar.
Mit (4.41) folgt nun mit
Sk Rk = Sk R̂k R = R + O(∆k ) ,
(∗) (∗∗)
Qk Sk = (Qk Rk )(Sk Rk )−1 = (QR + O(∆k ))(R−1 + O(∆k ))
= Q + O(∆k ) für k → ∞ ,
der Nachweis des Aussage (4.39) des Lemmas, wobei man bei (*)
berücksichtigt, dass nach Voraussetzung Sk2 = E gilt, und dass für hinrei-
chend große k die Matrix Rk regulär ist (ergibt sich aus (4.37), der Regula-
rität von QR und aus ||Q−1
k ||2 = 1). (**) folgt aus dem Störungsresultat für
Matrizen
1
||(A + ∆A)−1 − A−1 || ≤ c||∆A|| für ||∆A|| ≤ , mit c = 2||A−1 ||2 .
2||A−1 ||

Nun soll das QR-Verfahren erklärt werden. Für eine beliebige Matrix A ∈
RN ×N wird durch

QR-Algorithmus
A(1) := A ,
bestimme Qk , Rk durch die Faktorisierung A(k) = Qk Rk ,(4.44)
A(k+1) := Rk Qk = Rk A(k) Rk−1

eine Folge A(1) , A(2) , . . . erklärt, die, wie später gezeigt wird, für k → ∞
gegen eine Diagonalmatrix konvergiert, die aufgrund der Ähnlichkeit von A
und A(k) die Eigenwerte von A enthält (oder für wachsendes k approximieren
die Diagonaleinträge von A(k) die Eigenwerte von A).
Für die weitere Untersuchung des QR-Verfahrens werden einige spezielle Dar-
stellungen für A(k) und Ak benötigt.
Lemma 4.38. Mit den Bezeichnungen aus (4.44) sowie den Festlegungen
Q1...k := Q1 Q2 · · · Qk , Rk...1 := Rk Rk−1 · · · R1 , (4.45)
gilt
A(k+1) = Q−1 (k)
k A Qk ,
A(k+1) = Q−1
1...k AQ1...k ,
Ak = Q1...k Rk...1 ,
für k = 1, 2, . . . .

167
Der (einfache) Beweis sei als Übung empfohlen. Zum Konvergenzverhalten
des QR-Verfahrens betrachten wir den

Satz 4.39. Die Matrix A ∈ RN ×N sei regulär und diagonalisierbar mit be-
tragsmäßig einfachen Eigenwerten λ1 , . . . , λN ∈ R, die o.B.d.A. betragsmäßig
fallend angeordnet seien,

|λ1 | > |λ2 | > · · · > |λN | > 0 , (4.46)

und die Inverse der Matrix T = [v1 | . . . |vN ] ∈ RN ×N der Eigenvektoren


vj ∈ RN zu λj besitze ohne Zeilenvertauschung eine LR-Faktorisierung.
Dann gilt für den QR-Algorithmus (4.44)

λj+1
A(k) = Sk U Sk + O(q k ) für k → ∞, mit q := max | |,
j=1,...,N −1 λj

mit geeigneten Matrizen von der Form


 
λ1 ∗ . . .

... 
λ2 . .

(k) (k) . 
Sk = diag (σ1 , . . . , σN ) ∈ RN ×N , U =   ∈ RN ×N ,

...
 ∗ 
λN
(4.47)
(k)
mit σj ∈ {−1, 1}. Insbesondere approximieren die Diagonalelemente von
(k)
A(k) = (aij ) die betragsmäßig fallend sortierten Eigenwerte von A,
(k)
max |ajj − λj | = O(q k ) für k → ∞ .
j=1,...,N

Beweis. Für die Eigenvektormatrix T wird eine QR-Zerlegung wie folgt be-
trachtet
 
∗ ∗ ··· ∗

 ∗ ··· ∗   N ×N
T = QR̂ , Q orthogonal, R̂ =  . . ..  ∈ R . (4.48)
 . . 

Nun wird
A(k) = Sk (R̂DR̂−1 )Sk + O(q k ) für k → ∞ (4.49)
mit einer Matrix Sk ∈ RN ×N der Form (4.38) und der Diagonalmatrix

D := diag (λ1 , . . . , λN ) ∈ RN ×N (4.50)

168
gezeigt. Die Aussage des Satzes erhält man schließlich mit der Matrix U :=
R̂DR̂−1 . Für den Nachweis von (4.49) wird die vorausgesetzte Faktorisierung
   
1 ∗ ∗ ··· ∗
.
 ∗ .. ∗ ··· ∗ 
  
−1  N ×N   N ×N
T = LR , L =  . . . ∈R , R= . . ..  ∈ R ,
 .. . . . .   . . 
∗ ... ∗ 1 ∗
(4.51)
benötigt. Nun gilt
Lk := Dk LD−k = E + O(q k ) für k → ∞ , (4.52)
denn mit L = (lij ) ergibt sich Lk = ((λi /λj )k lij ), und dann folgt (4.52)
aus der Ungleichung |λi /λj | ≤ q für i ≥ j + 1. Weiterhin braucht man eine
QR-Zerlegung von R̂Lk ∈ RN ×N , etwa
 
∗ ∗ ··· ∗
 ∗ ··· ∗ 
R̂Lk =: Q̂k R̂k , Q̂k ∈ RN ×N orthogonal, R̂k =   ∈ RN ×N .
 
... ..
 . 

Aus (4.52) erhält man die Konvergenz
Q̂k R̂k = R̂ + O(q k ) = E R̂ + O(q k ) für k → ∞ ,
und Lemma 4.37 über die Stetigkeit der QR-Zerlegung liefert mit einer ent-
sprechenden Vorzeichenwahl in den Spalten der Matrix Q̂k bzw. in den Zeilen
der Matrix R̂k
Q̂k = E + O(q k ) , R̂k = R̂ + O(q k ) für k → ∞ . (4.53)
Die Aussage (4.53) ist der erste Schritt zum Nachweis von (4.49). Im zweiten
Schritt erhält man für die Potenzen Ak , k ≥ 1, die beiden folgenden QR-
Zerlegungen,
(∗) (∗∗)
Ak = T Dk T −1 = QR̂Dk LR = Q R̂Lk Dk R = QQ̂k R̂k Dk R , (4.54)
|{z} |{z} | {z }
Q̂k R̂k orthog. Dreieck
k
A = Q1...k Rk...1 , (4.55)
wobei (*) aus (4.48), (4.51) folgt, und (**) aus (4.52). Die Eindeutigkeit der
QR-Zerlegung (Lemma 4.35) liefert nun
Q1...k = QQ̂k Sk+1 ,
(k+1) (k+1)
Rk...1 = Sk+1 R̂k Dk R , mit Sk+1 = diag (σ1 , . . . , σN ) ∈ RN ×N ,

169
(k+1)
mit geeigneten σj ∈ {−1, 1}. Daraus folgt
=E
z }| {
Qk = Q−1
1...k−1 Q1...k = Sk Q̂−1
k−1 Q−1 Q Q̂k Sk+1 ,
−1
Rk = Rk...1 Rk−1...1 −1
= Sk+1 R̂k Dk RR−1 (D−1 )k−1 R̂k−1 Sk ,
| {z }
=D

und daraus schließlich


A(k) = Qk Rk = Sk Q̂−1 2
Q̂k Sk+1
k−1 |{z}
−1
R̂k D R̂k−1 Sk ,
| {z } |{z} |{z} | {z }
→E →E =E →R̂ →R̂−1

wobei man aus (4.53) erkennt, dass die angegebenen Konvergenzeigenschaf-


ten mit der Rate O(q k ) gelten. Die letzten Betrachtungen ergeben nun die
Behauptung (4.49), also
Sk A(k) Sk = R̂DR̂−1 + O(q k ) für k → ∞ ,
was den Beweis des Satzes abschließt.
Analog zur Überlegung, die zur inversen Von-Mises-Vektoriteration geführt
hat, kann man auch bei der QR-Iteration die Konvergenz verbessern, indem
man das QR-Verfahren zur Bestimmung der Eigenwerte einer geshifteten
Matrix A − κE mit geeignet zu wählenden spektralen Shifts κ anwendet.
T
Bei der Berechnung der Folge A(k+1) = Q(k) A(k) Q(k) waren Q(k) , R(k) die
Faktoren der QR-Zerlegung von A(k) , wobei mit A(1) = A gestartet wurde.
Für geeignet zu wählende Shifts κk ∈ C (Verschiebungen) wird die Folge A(k)
(k = 1, 2, . . . ) durch
A(k+1) = R(k) Q(k) + κk E , (4.56)
wobei Q(k) , R(k) die Faktoren der QR-Zerlegung von (A(k) − κk E) sind, und
die Wahl von A(1) = A, konstruiert. Eine kurze Rechnung zeigt, dass die
durch (4.56) definierten Matrizen A(k+1) ähnlich zu A sind, denn es gilt
T
A(k) − κk E = Q(k) R(k) ⇐⇒ R(k) = Q(k) (A(k) − κk E) =⇒
H
A(k+1) = R(k) Q(k) + κk E = Q(k) (A(k) − κk E)Q(k) + κk E
H H H
= Q(k) A(k) Q(k) − κk Q(k) Q(k) + κk E = Q(k) A(k) Q(k) .
Für die Orthogonalmatrix P (k) = Q(1) Q(2) . . . Q(k) ergibt sich dann die
H
Matrixäquivalenz A(k) = P (k) AP k . Der obere Index H kennzeichnet hier
die Hermite’sche Matrix P H , die durch
P H = P̄ T
mit P̄ = (p̄ij ) (p̄ij konjugiert komplex zu pij ) definiert ist. Für reelle Shifts
ist P H = P T . Es gilt nun für das QR-Verfahren mit Shifts der

170
Satz 4.40. (QR-Verfahren mit Shifts)
Sei A eine reelle Matrix vom Typ (N × N ) mit Eigenwerten λ1 , . . . , λN , für
die |λ1 | > |λ2 | > · · · > |λN | gilt. Dann konvergiert die durch (4.56) definierte
Folge A(k) gegen eine obere Dreiecksmatrix Λ, die als Diagonalelemente die
Eigenwerte von A(1) = A besitzt. Für die orthogonalen Matrizen P (k) =
Q(1) Q(2) . . . Q(k) gilt P = limk→∞ P (k) und Λ = P T AP .
Ist A symmetrisch, dann ist die Matrix Λ eine Diagonalmatrix.
Die Geschwindigkeit der Konvergenz gegen die obere Dreiecksmatrix bzw. ge-
gen die Diagonalmatrix Λ ist exponentiell und für ein Element des unteren
Dreiecks durch
(k) λi − κk k
aij = O(| | ) für i > j (4.57)
λj − κk
gegeben.

Aus der Beziehung (4.57) wird deutlich, dass man die Geschwindigkeit der
Konvergenz gegen die obere Dreiecksmatrix bzw. gegen die Diagonalmatrix
Λ durch eine gute Wahl der Shifts κk erhöhen kann.
Zu den beiden Sätzen 4.39 und 4.40 ist anzumerken, dass die QR-Verfahren
auch für den Fall von mehrfachen Eigenwerten λ1 = · · · = λr (r > 1) von A
im Grenzprozess eine obere Dreiecksmatrix bzw. eine Diagonalmatrix Λ mit
den geschilderten Eigenschaften erzeugen.
Durch eine geschickte Wahl der Shifts κk kann man |λN −κk | ≪ |λj −κk | und
somit die Konvergenzgeschwindigkeit beträchtlich erhöhen. Als gute Wahl
hat sich für den Fall reeller Eigenwerte
(k)
κk = aN N

erwiesen. Für den Fall komplexer Eigenwerte wählt man als Shift κk den
Eigenwert λ der (2 × 2)-Matrix
à !
(k) (k)
aN −1 N −1 aN −1 N
(k) (k) ,
aN N −1 aN N

(k)
für den |aN N − λ| kleiner ist. Diesen Shift bezeichnet man auch als
Wilkinson-Shift (s. dazu weitere Ausführungen in den Büchern von
Schwarz und Bärwolff).
Zum Abschluss sei noch darauf hingewiesen, dass es für das QR-Verfahren
zur Berechnung der Eigenwerte von A offensichtlich von Vorteil ist, wenn die
Matrix wenig Nichtnull-Einträge im unteren Dreieck hat, so dass ein vorge-
schaltete Transformation von A auf eine ähnliche Hessenbergmatrix sinnvoll
ist.

171