Mathematik für Physiker
Skriptum für eine zweisemestrige Vorlesung
Version 2.0, 18.04.2008
Universität Würzburg
Institut für Mathematik
Richard Greiner
Vorwort
Die Mathematik ist ein besonders geeignetes Werkzeug zur Behandlung abstrakter Begriffe jeder Art und ihrer Anwendung sind
keine Grenzen gesetzt. Aus diesem Grund muss auch ein Buch
über moderne Physik, wenn es nicht bloß rein beschreibend für
experimentelle Arbeiten ist, im wesentlichen mathematisch sein.
P. A. M. Dirac (Quantum Mechanics, 1930)
In dieser zweisemestrigen Vorlesung sollen möglichst zügig die wichtigsten mathematischen Grundlagen
für ein erfolgreiches Studium der Physik gelegt werden. Aus zwei Gründen meine ich, dass es keinen Sinn
ergibt, dies durch die Vermittlung reines Methodenwissens zu bewerkstelligen. Einerseits halte ich das
reine Vermitteln von Rechenrezepten eines Universitätsstudiums unwürdig, andererseits ist es letztlich
uneffektiv. Genau so wie die Physik dadurch mächtig wird, dass die verschiedene Phänomene der Natur
durch wenige grundlegende Gesetze zu beschreiben vermag (man denke z.B. an die Newtonschen Gesetze
auf denen die Klassische Mechanik fußt), wird die Mathematik mächtig und universell nutzbar, wenn
man Ihre Grundlagen kennt und sich nutzbar zu machen vermag.
Um diese beiden Ziele zu verwirklichen, ist ein Spagat notwendig, bei dem ich manchmal dem effektiven
und letztlich insgesamt zeitsparenden Aufbau der Grundlagen den Vorzug gebe (beispielsweise werden
die komplexen Zahlen recht bald eingeführt). Meistens aber sollen die notwendigen mathematischen Methoden rechtzeitig zur Verfügung stehen. Ich hoffe, dass dies weitgehend gelingt, und fordere Sie auf, das
notwendige Arbeitstempo mitzumachen.
Von den vielen guten Büchern zur Mathematik für Physiker halte ich das von Fischer und Kaul [FiKau,
Band 1] für den zuvor genannten Zweck am geeignetsten und orientiere mich weitgehend daran. Ein eigenes Vorlesungsskript soll trotzdem angeboten werden, damit Sie eine optimale Arbeitsgrundlage haben.
Wie sie diese nutzen, bleibt letztlich Ihnen selbst überlassen.
Wann immer es sich anbietet werde ich in der Vorlesung vorführen, wie Sie durch Computeralgebra- oder
Numerik-Programme Unterstützung beim Arbeiten bekommen können. Hierbei ist die Beschränkung
R letztlich willkürlich, entspricht aber den Gegebenheiten vor Ort. Verlassen Sie sich
auf Mathematica
nicht gedankenlos auf derartige Hilfsmittel, sonst sind Sie verlassen. Wenn Sie aber wissen, was sie wollen,
d.h. wenn Sie die Hintergründe verstanden haben, so werden Sie bei der Verwirklichung Ihres Ziels mit
derartiger Software eine kräftige Hilfe bekommen.
Auch wenn Mathematiker oft für abgehoben gehalten werden, so ist nach meiner Überzeugung alles,
was sie machen, darin verwurzelt zu verstehen, was hinter ganz konkreten Begebenheiten unsers Lebens,
unserer Umwelt steckt. In diesem Sinne ist Mathematik — wie Hans-Otto Peitgen sagt — die Antwort
”
des Menschen auf die Komplexität der Welt“.
Und nun: viel Freude an der Mathematik!
Würzburg, den 18.07.2007
Richard Greiner
Zum Gebrauch
Das Skript ist gegliedert nach Kapiteln, Paragraphen, Abschnitten und Nummern. Innerhalb eines Kapitels wird mit §x.y.z auf Paragraph x, Abschnitt y, Unterabschnitt z verwiesen. Bei Verweisen innerhalb
eines Paragraphen genügt ein Verweis der Form y.z.
Sätze und wichtige Begriffe sind kursiv gedruckt. Für ein vorläufiges Verständnis nicht so wichtige Teile
sind mit ∗ gekennzeichnet. Sie können beim ersten Lesen übergangen werden.
Danksagung
Mein herzlicher Dank geht an alle Vorlesungsteilnehmerinnen und -teilnehmer, die mich auf Fehler oder
Unklarheiten im Skript hingewiesen oder Verbesserungsvorschläge gemacht haben.
iii
Inhaltsverzeichnis
1 Grundlagen
§1
§2
§3
§4
1
Natürliche, ganze, rationale und reelle Zahlen . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
Aussagen und Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2
Was sind Zahlen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
Addition und Multiplikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
4
Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
Natürliche Zahlen und vollständige Induktion . . . . . . . . . . . . . . . . . . . . .
6
6
Rationale Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
7
Intervalle, beschränkte Mengen, Maximum und Minimum . . . . . . . . . . . . . .
12
8
Beweistechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Vollständigkeit der reellen Zahlen, Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1
Supremum und Infimum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2
Folgerungen aus dem Supremumsaxiom . . . . . . . . . . . . . . . . . . . . . . . .
15
3
Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
4
Nullfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
5
Sätze über Nullfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
6
Konvergente Folgen, Grenzwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
7
Intervallschachtelung und Dezimalbruchentwicklung . . . . . . . . . . . . . . . . .
24
8
Konvergenznachweis ohne Kenntnis des Grenzwerts . . . . . . . . . . . . . . . . . .
26
9
Uneigentliche Grenzwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
Komplexe Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
1
Rechnen mit komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2
Gaußsche Zahlenebene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3
Folgen komplexer Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
Unendliche Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
1
Partialsummen, Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
2
Konvergenzkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3
Umordnung von Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
iv
INHALTSVERZEICHNIS
2 Elementare Funktionen
§1
§2
§3
§4
45
Grundlegendes über Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
1
Zum Funktionsbegriff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
2
Wichtige Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
3
Funktionen im Reellen oder Komplexen . . . . . . . . . . . . . . . . . . . . . . . .
48
Exponentialfunktion und Verwandte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
1
Exponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
2
Exponentialfunktion im Reellen und natürlicher Logarithmus . . . . . . . . . . . .
51
3
Allgemeine Potenzen und Logarithmen . . . . . . . . . . . . . . . . . . . . . . . . .
53
4
Hyperbelfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
5
Exponentialfunktion im Komplexen und trigonometrische Funktionen . . . . . . .
57
Algebraische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
1
Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
2
Rationale Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
3
Weitere algebraische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
1
Grundlegendes über Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
2
Zusammensetzen von Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
3 Vektorrechnung
§1
§2
§3
§4
78
Grundlegendes zur Vektorrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
1
Skalare und vektorielle Größen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
2
Geometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
Vektorrechnung im R
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
1
Die Ebene als Vektorraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
2
Geraden und Strecken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
3
Matrizenkalkül für (2 × 2)-Matrizen, Gruppen . . . . . . . . . . . . . . . . . . . . .
84
4
Abstand, Länge, Winkel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
5
Orthogonalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
6
Längen- und winkelerhaltende Abbildungen . . . . . . . . . . . . . . . . . . . . . .
88
Vektorrechnung im R
n
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
1
Vektorräume und euklidische Vektorräume
. . . . . . . . . . . . . . . . . . . . . .
90
2
Euklidische Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
3
Orthonormalsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Spezialitäten der Vektorrechnung im R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
1
Vektorprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2
Spatprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3
Drehungen im Raum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
INHALTSVERZEICHNIS
4 Analysis, vornehmlich in einer Variablen
§1
§2
§3
§4
§5
§6
v
110
Grundlegendes über Raum, Zeit und Funktionen . . . . . . . . . . . . . . . . . . . . . . . 110
1
Folgen von Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2
Kurven, Skalar- und Vektorfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3
Topologisches Vokabular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
Grenzwerte bei Funktionen und Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
1
Grenzwerte bei Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2
Spezielle Grenzwerte bei Funktionen, Landau-Symbole . . . . . . . . . . . . . . . . 120
3
Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4
Abbildungsverhalten stetiger Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 128
Differentialrechnung in einer Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
1
Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
2
Umgang mit differenzierbaren Funktionen . . . . . . . . . . . . . . . . . . . . . . . 133
3
Abbildungsverhalten differenzierbarer Funktionen . . . . . . . . . . . . . . . . . . . 138
4
Höhere Ableitungen und Taylor-Entwicklung . . . . . . . . . . . . . . . . . . . . . 139
5
Bestimmung von Extremwerten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
6
Weitere Anwendungen der Differentialrechnung . . . . . . . . . . . . . . . . . . . . 147
7
Partielle Ableitungen bei Funktionen mehrerer Variablen . . . . . . . . . . . . . . 151
Integralrechnung in einer Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
1
Integration von Treppenfunktionen und integrierbare Funktionen . . . . . . . . . . 155
2
Hauptsatz der Differential- und Integralrechnung . . . . . . . . . . . . . . . . . . . 164
3
Integrationstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
4
Geometrie von Kurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5
Skalare und vektorielle Kurvenintegrale . . . . . . . . . . . . . . . . . . . . . . . . 179
6
Gradientenfelder, Rotation und Divergenz . . . . . . . . . . . . . . . . . . . . . . . 182
Elementar lösbare gewöhnliche Differentialgleichungen . . . . . . . . . . . . . . . . . . . . 190
1
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
2
Differentialgleichungen mit getrennten Variablen . . . . . . . . . . . . . . . . . . . 192
3
Lineare Differentialgleichungen erster Ordnung . . . . . . . . . . . . . . . . . . . . 196
4
Einfache Substitutionstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
Vertauschung von Grenzübergängen, uneigentliche Integrale . . . . . . . . . . . . . . . . . 199
1
Punktweise und gleichmäßige Konvergenz . . . . . . . . . . . . . . . . . . . . . . . 199
2
Vertauschungssätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
3
Uneigentliche Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
vi
INHALTSVERZEICHNIS
5 Lineare Algebra
§1
§2
§3
§4
§5
§6
§7
211
Lineare Abbildungen, Vektorräume, Dimension . . . . . . . . . . . . . . . . . . . . . . . . 211
1
Wovon handelt die lineare Algebra? . . . . . . . . . . . . . . . . . . . . . . . . . . 211
2
Basis und Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
Lineare Abbildungen und Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
1
Umgang mit linearen Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
2
Darstellung linearer Abbildungen durch Matrizen . . . . . . . . . . . . . . . . . . . 219
3
Grundlegender Matrizenkalkül . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
4
Basiswechsel, Koordinatentransformation und Darstellungsmatrizen . . . . . . . . 229
Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
1
Lösbarkeit, Struktur des Lösungsraums . . . . . . . . . . . . . . . . . . . . . . . . 231
2
Gauß-Elimination
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
1
Beispiele und Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
2
Eigenschaften der Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
3
Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
Eigenwerttheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
1
Das Eigenwertproblem bei Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . 248
2
Eigenwerttheorie bei linearen Operatoren . . . . . . . . . . . . . . . . . . . . . . . 253
Vektorräume mit Skalarprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
1
Bilinear- und Sesquilinearformen, quadratische Formen . . . . . . . . . . . . . . . . 256
2
Skalarprodukte, euklidische und unitäre Vektorräume . . . . . . . . . . . . . . . . 259
3
Orthogonale und unitäre Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . 262
4
Symmetrische und hermitesche Abbildungen, Hauptachsentransformation . . . . . 265
5
Matrizenexponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
Fourier-Analysis und Hilbert-Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
1
Fourier-Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
2
Hilbert-Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
6 Analysis in mehreren Variablen
§1
291
Differentialrechnung in mehreren Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . 291
1
Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
2
Umgang mit differenzierbaren Funktionen . . . . . . . . . . . . . . . . . . . . . . . 297
3
Reellwertige Funktionen: Gradient und Richtungsableitungen . . . . . . . . . . . . 300
4
Taylor-Entwicklung und lokale Extrema . . . . . . . . . . . . . . . . . . . . . . . . 303
INHALTSVERZEICHNIS
§2
§3
vii
5
Lokale Umkehrbarkeit und Koordinatentransformationen . . . . . . . . . . . . . . 309
6
Implizite Funktionen und Lösungsmannigfaltigkeiten . . . . . . . . . . . . . . . . . 313
7
Lokale Extrema mit Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . 320
Integralrechnung in mehreren Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
1
Das Lebesgue-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
2
Berechnung von Integralen durch sukzessive Integration . . . . . . . . . . . . . . . 329
3
Transformationsformel für Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . 332
Integralsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
Literaturverzeichnis
337
Index
339
1
Kapitel 1
Grundlagen
§1
1
Natürliche, ganze, rationale und reelle Zahlen
Aussagen und Mengen
Wir geben keine Einführung in Aussagenlogik und Mengenlehre. Mathematische Schlussweisen werden
wir zunächst an Beispielen kennenlernen und die wichtigsten von ihnen in Abschnitt 7 zusammenstellen.
1.1 Aussagen. Eine mathematische Aussage bezieht sich immer auf einen bestimmten Gegenstandsbereich der Mathematik und ist immer entweder wahr oder falsch: tertium non datur“. So ist die Aussage
”
die Gleichung x + 2 = 1 ist lösbar“ wahr in der Theorie der ganzen Zahlen, aber falsch in der Theorie
”
der natürlichen Zahlen.
Sind A und B zwei Aussagen, so bilden wir die Aussagen ¬A (nicht A, Verneinung), A ∧ B (logisches
und ), A ∨ B (logisches oder ), A ⇒ B (Implikation, aus A folgt B), A ⇔ B (Äquivalenz , A ist äquivalent
zu B) gemäß der folgenden Wahrheitstafeln.
A
w
f
¬A
f
w
A
w
w
f
f
B
w
f
w
f
A∧B
w
f
f
f
A
w
w
f
f
B
w
f
w
f
A∨B
w
w
w
f
A
w
w
f
f
B
w
f
w
f
A⇒B
w
f
w
w
A
w
w
f
f
B
w
f
w
f
A⇔B
w
f
f
w
In der Alltagssprache wird das Wort oder“ anders als im mathematischen Sprachgebrauch manchmal
”
auch in der Bedeutung entweder oder“ benutzt. Zur Implikation ist anzumerken, dass aus etwas Falschem
”
alles gefolgert werden kann ( ex falso quodlibet“). Die Aussage Wenn ich mit Lichtgeschwindigkeit fliege,
”
”
werde ich grün.“ ist wahr, da die Voraussetzung ich fliege mit Lichtgeschwindigkeit“ immer falsch ist.
”
1.2 Mengen. Der Begriff Menge“ hat Mathematiker lange beschäftigt. Georg Cantor verstand unter
”
”
einer Menge M jede Zusammenfassung von bestimmten wohlunterschiedenen Objekten m unserer Anschauung oder unseres Denkens (welche Elemente von M genannt werden) zu einem Ganzen“. Dass solch
ein Definitionsversuch problematisch ist zeigt die Russellsche Antinomie. In einer populären Form ist sie
die Geschichte eines Barbiers in einem Ort, der von sich selbst behauptet, er rasiere alle Männer in dem
Ort, nur nicht die, die sich selbst rasieren. Rasiert sich dieser Barbier nun selbst oder nicht?
1.3 Darstellung von Mengen. Wir bezeichnen Mengen gewöhnlich mit Großbuchstaben. Wichtige
Mengen sind
R, die Menge der reellen Zahlen,
Q, die Menge der rationalen Zahlen,
2
§1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN
Z, die Menge der ganzen Zahlen,
N, die Menge der natürlichen Zahlen 1, 2, 3, . . .,
N0 , die Menge der Zahlen 0, 1, 2, 3, . . ..
Wir werden diese Mengen in den folgenden Abschnitten genauer kennenlernen.
Wenn m zur Menge M gehört, so schreiben wir m ∈ M , andernfalls m ∈
/ M . Die wichtigsten Darstellungsarten von Mengen sind
• das Auflisten der Elemente in einer Mengenklammer {. . .},
• die Beschreibung durch eine Aussageform: ist E(x) eine Aussageform, so bezeichnet {x ∈ M | E(x)}
die Menge aller x ∈ M , für die E(x) wahr ist,
• die Darstellung durch einen Funktionsausdruck: {f (x) | x ∈ M } ist die Menge aller Zahlen der Form
f (x) mit x ∈ M .
Überlegen Sie sich, welche Darstellungsformen in den folgenden Beispielen jeweils verwendet werden.
{n ∈ N | n ist eine einstellige ungerade Zahl} = {1, 3, 5, 7, 9}
{x ∈ R | x2 = 1} = {−1, 1}
{x ∈ N | x2 = 1} = {1}
{2k + 1 | k ∈ N0 } = {1, 3, 5, . . .}
Bei der Auflistung der Elemente einer Menge kommt es nicht auf die Reihenfolge und auch nicht auf
Wiederholungen an. Daher gilt {1, 3, 1, 2} = {1, 2, 3}.
1.4 Umgang mit Mengen. Sind M und N zwei Mengen, mit x ∈ M für jedes x ∈ N , so nennen wir N
eine Teilmenge von M und schreiben N ⊂ M . Der Fall N = M ist dabei mit eingeschlossen. Manchmal
schreibt man auch N ⊆ M , um zu betonen, dass bei einer Inklusion Gleichheit zugelassen ist, andernfalls
N ( M . Beispielsweise gilt N ⊂ N0 ⊂ Z ⊂ Q ⊂ R und wir werden einsehen, dass alle diese Inklusionen
echt sind.
Wir nennen
M ∩ N := {x | x ∈ M ∧ x ∈ N } den Durchschnitt von M und N ,
M ∪ N := {x | x ∈ M ∨ x ∈ N } die Vereinigung von M und N ,
M r N := {x | x ∈ M ∧ x ∈
/ N } das Komplement von N bezüglich M .
Ist die Aussage E(x) für kein x ∈ M wahr, so heißt die Menge {x ∈ M | E(x)} leer und wird mit ∅
bezeichnet. Beispielsweise gilt {x ∈ R | x2 = −1} = ∅. Wir vereinbaren, dass die leere Menge Teilmenge
einer jeden Menge ist und bezeichnen sie immer mit ∅.
Um Probleme wie die Russellsche Antinomie zu vermeiden, werden wir nur mit Mengen umgehen, die
als Teilmengen einer festen Grundmenge aufgefasst werden können. Dabei muss immer klar sein, welcher
Natur die Elemente sind und wann zwei Elemente gleich sind. Beispielsweise hat
M := { 11 , 12 , . . . , 19 , 12 , 22 , . . . , 92 , . . . , 91 , 92 , . . . , 99 , }
81 verschiedene Elemente, wenn wir selbige als Schreibfiguren auffassen. Fassen wir
gilt 11 = 22 = 33 = . . ., 21 = 42 = . . ., usw. und
N :=
nm
n
∈ Q | m, n ∈ {1, 2, . . . , 9}
ist eine ganz andere Menge als M . Wieviele Elemente hat N ?
o
m
n
als Bruch auf, so
KAPITEL 1. GRUNDLAGEN
2
3
Was sind Zahlen?
Richard Dedekind sagt: Die Zahlen sind freie Schöpfung des menschlichen Geistes, sie dienen als ein
”
Mittel, um die Verschiedenheit der Dinge leichter und schärfer aufzufassen. Durch den rein logischen
Aufbau der Zahlen-Wissenschaft und durch das in ihr gewonnene stetige Zahlen-Reich sind wir erst in
den Stand gesetzt, unsere Vorstellung von Raum und Zeit genau zu untersuchen, indem wir dieselben auf
dieses in unserem Geiste geschaffene Zahlen-Reich beziehen.“ Diese Sichtweise markiert einen Endpunkt
in der Jahrtausende alten Entwicklung des Zahlbegriffs und führt ihn auf Prinzipien der Mengenlehre
und Logik zurück.
Ohne uns über die Details auszulassen können wir also akzeptieren, dass es die reellen Zahlen gibt. Sie
werden vollständig beschrieben durch einen Satz von grundlegenden Regeln (Axiomen), die sich in drei
Gruppen gliedern.
• Die Körperaxiome legen die Rechenregeln für Addition +“ und Multiplikation ·“ fest.
”
”
• Die Ordnungsaxiome regeln die Verwendung von <“ und erlauben uns, die reellen Zahlen als Punkte
”
auf der Zahlengeraden vorzustellen.
• Das Supremumsaxiom stellt sicher, dass es genügend viele (und gleichzeitig nicht zu viele) reelle
Zahlen gibt.
Für Messungen, Größenangaben in Physik und Informatik oder für Rechnungen im Alltag genügen eigentlich die rationalen Zahlen, welche genau so wie die reellen Zahlen die Körperaxiome und die Ordnungsaxiome erfüllen. Es stellt sich aber heraus, dass sie schon zur Beschreibung einfacher geometrischer
Sachverhalte nicht ausreichen. Erst ihre Ergänzung zu den reellen Zahlen durch Hinzunahme des Supremumsaxioms ermöglicht die Differential- und Integralrechnung, die (in Verbindung mit der Geometrie)
maßgeblich dafür verantwortlich ist, dass Mathematik zur Sprache für Physik, alle anderen Naturwissenschaften und darüber hinaus geworden ist, oder umgekehrt, dass das Nachdenken der Menschheit
über verschiedene Phänomene der Natur auf einheitliche Wurzeln führt: Mathematik ist die Antwort des
Menschen auf die Komplexität der Welt.
Wir werden uns in den restlichen Abschnitten dieses Paragraphen zunächst nur mit den Körper- und
den Ordnungsaxiomen beschäftigen. Dabei wiederholen wir knapp den aus der Schule bekannten Umgang mit Gleichungen und Ungleichungen, indem wir die grundlegenden Rechenregeln (eben die Körperund Ordnungsaxiome) angeben und weitere aus ihnen ableiten. Mit dem Supremumsaxiom und seinen
Konsequenzen beschäftigen wir uns dann in §2.
3
Addition und Multiplikation
3.1 Körperaxiome. Für das Addieren und das Multiplizieren reeller Zahlen gelten die folgenden grundlegenden Gesetze. Sie werden Körperaxiome genannt.
(A1) Kommutativgesetze: a + b = b + a und a · b = b · a.
(A2) Assoziativgesetze: (a + b) + c = a + (b + c) und (a · b) · c = a · (b · c).
(A3) Distributivgesetz : (a + b) · c = (a · c) + (b · c).
(A4) Neutrale Elemente: a + 0 = a und a · 1 = a wobei 0 6= 1.
(A5) Inverse Elemente: Zu jedem a existiert genau eine Zahl, bezeichnet mit −a, mit a + (−a) = 0. Zu
jedem jedem a 6= 0 existiert genau eine Zahl, bezeichnet mit a−1 , mit a · a−1 = 1.
Wie üblich vereinbaren wir, dass Punktrechnung vor Strichrechnung geht und dass der Malpunkt unterdrückt werden kann. Statt (a · c) + (b · c) können wir also ac + bc schreiben. Für a + (−b) schreiben wir
a − b, für ab−1 auch a/b oder ab . Die Rechenoperationen Subtraktion und Division lassen sich also auf die
Addition und die Multiplikation zurückführen.
4
§1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN
3.2 Rechenregeln. Alle weiteren Rechenregeln können aus den Körperaximomen (A1)–(A5) abgeleitet
werden. Wir illustrieren dies an drei Beispielen.
(a) Die Gleichung a + x = b hat die eindeutige Lösung x = b − a. Die Gleichung ax = b hat für a 6= 0 die
eindeutige Lösung x = b/a. Es gilt nämlich
(A1)
(A2)
(A5)
(A4)
a+x = b ⇔ (a+x)−a = b−a ⇔ (x+a)−a = b−a ⇔ x+(a−a) = b−a ⇔ x+0 = b−a ⇔ x = b−a.
Dies zeigt nicht nur die Existenz einer Lösung von a + x = b (Schlussrichtung ⇐“), sondern auch deren
”
Eindeutigkeit (Schlussrichtung ⇒“). Für die Gleichung ax = b argumentiere man analog und überlege
”
sich, an welcher Stelle die Bedingung a 6= 0 benötigt wird.
(b) 0 · a = 0. Denn aus (A4) folgt 0 = 0 + 0 und damit
(A4)
(A4)
(A3)
0 · a + 0 = 0 · a = (0 + 0) · a = 0 · a + 0 · a.
Wie in (a) gezeigt, hat aber die Gleichung 0 · a + x = 0 · a genau eine Lösung. Also muss 0 · a = 0 gelten.
(c) Aus ab = 0 folgt a = 0 oder b = 0. Gilt nämlich ab = 0 und ist a 6= 0, so folgt mit (a) sofort b = 0.
Ähnlich kann man weitere Rechenregeln wie −(−a) = a, (−a) + (−b) = −(a + b), (a−1 )−1 = a für a 6= 0,
a−1 b−1 = (ab)−1 für a, b 6= 0 oder a(−b) = −ab herleiten.
3.3 Körper. Sind a =
m
n
und b =
p
q
mit m, n, p, q ∈ Z und n, q 6= 0 rationale Zahlen, so auch
a+b=
mq + np
nq
und
ab =
mp
.
nq
Man sagt: Q ist abgeschlossen bezüglich Addition und Multiplikation. Außerdem gelten für rationale
Zahlen die Axiome (A1)–(A5).
Allgemein nennt man eine Menge K einen Körper , wenn auf K zwei Operationen +“ und ·“ (d.h.
”
”
zwei Vorschriften, die je zwei Elementen a, b ∈ K eindeutig bestimmte Elemente a + b ∈ K und a · b ∈ K
zuordnen) erklärt sind, welche die Körperaxiome (A1)–(A5) erfüllen. Neben R und Q gibt es noch weitere
Körper, z.B. den Minikörper {0, 1} aus zwei Elementen, in dem Addition und Multiplikation durch
folgende Tafeln erklärt sind.
+ 0 1
· 0 1
0 0 1
0 0 0
1 1 0
1 0 1
In §3 werden wir die komplexen Zahlen kennenlernen und einsehen, dass auch sie einen Körper bilden.
3.4 Teilbarkeit in Z. Die ganzen Zahlen bilden keinen Körper. Sie erfüllen zwar (A1)–(A4) und (A5)
für die Addition, aber nicht (A5) für die Multiplikation. Man kann das auch so formulieren, dass die
Gleichung ax = b in Z nicht immer lösbar ist. Sind a und b ganze Zahlen, so sagen wir a teilt b“ (in
”
Zeichen a|b), wenn a 6= 0 und die Gleichung ax = b eine Lösung x ∈ Z besitzt, d.h. wenn ab ∈ Z.
Eine ganze Zahl b heißt gerade, wenn 2|b. Gerade Zahlen lassen sich in der Form 2k mit k ∈ Z schreiben.
Mit Hilfe von (A1)–(A3) erkennt man, dass Summen und Produkte gerader Zahlen wieder gerade Zahlen
sind. Eine ganze Zahl heißt ungerade, wenn sie nicht gerade ist. Offenbar ist jede Zahl der Form 2k + 1
mit k ∈ Z ungerade, da (2k + 1)/2 = k + 12 ∈
/ Z. In 5.6 zeigen wir, dass jede ungerade Zahl so dargestellt
werden kann.
Kam Ihnen der Minikörper aus 3.3 seltsam vor, insbesondere das 1 + 1 = 0“? Nun, ersetzen Sie in
”
den Tafeln für Addition und Multiplikation 0 durch gerade“ und 1 durch ungerade“. Die Tafeln liefern
”
”
Ihnen dann gerade die bekannten Regeln für das Addieren und Multiplizieren von gerade und ungeraden
Zahlen. Also ist der Minikörper auch nützlich.
Überlegen Sie sich, welche Teile der Axiome (A1)–(A5) für die natürlichen Zahlen bzw. N0 erfüllt sind.
5
KAPITEL 1. GRUNDLAGEN
4
Ungleichungen
4.1 Ordnungsaxiome. Der Umgang mit Ungleichungen für reelle Zahlen wird durch die folgenden
grundlegenden Gesetze beschreiben.
(A6) Trichotomiegesetz : Es gilt immer genau eine der Beziehungen a < b, a = b, b < a.
(A7) Transitivitätsgesetz : Aus a < b und b < c folgt a < c.
(A8) Monotoniegesetze: Aus a < b folgt a + c < b + c für jedes c. Aus a < b und c > 0 folgt ac < bc.
Für b < a schreiben wir auch a > b. Gilt a < b (a > b) oder a = b, so schreiben wir a ≤ b (a ≥ b). Ist
a > 0 (a < 0), so nennen wir a positiv (negativ ).
4.2 Geordnete Körper. Auch die Axiome (A1)–(A8) sind keine exklusive Spezialität von R, sie gelten
auch in Q. Wir nennen einen Körper K geordnet, wenn auf ihm eine Relation <“ (d.h. eine Regel, die
”
für beliebige a, b ∈ K angibt, ob die Aussage a < b wahr oder falsch ist) erklärt ist, welche die Axiome
(A6)–(A8) erfüllt.
Während R und Q geordnete Körper sind, kann der zweielementige Minikörper aus 3.3 nicht geordnet
werden. Würde nämlich eine Anordnung existieren, so wäre wegen 0 6= 1 (gemäß (A4)) nach dem Trichotomiegesetz entweder 0 < 1 oder 1 < 0. Im Fall 0 < 1 folgt aus dem Monotoniegesetz 1 = 0+1 < 1+1 = 0,
im Fall 1 < 0 folgt analog 0 < 1. Wir erhalten also in jedem Fall einen Widerspruch zum Trichotomiegesetz, der Minikörper kann nicht angeordnet werden.
4.3 Rechenregeln. Wie schon bei den Körperaxiomen erhalten wir aus den Ordnungsaxiome eine Fülle
von abgeleiteten Rechenregeln. Wir geben die wichtigsten an, beweisen aber nicht alle. Versuchen Sie ggf.
selbst eine Herleitung.
(a) Genau dann gilt a < b wenn −b < −a. Insbesondere ist a genau dann positiv (negativ), wenn −a
negativ (positiv) ist. Eine zweimalige Anwendung von (A8) liefert nämlich a < b ⇔ 0 = a − a < b − a ⇔
−b = 0 − b < b − a − b = −a.
(b) Genau dann gilt ab > 0, wenn a, b > 0 oder a, b < 0. Insbesondere ist a2 > 0 für a 6= 0 und 1 > 0.
Für die Schlussrichtung ⇒“ unterscheiden wir mehrere Fälle. Wäre a = 0 oder b = 0, so folgt ab = 0 im
”
Widerspruch zu (A6). Wäre a > 0 und b < 0, so folgt −b > 0 wegen (a). Mit (A8) folgt −ab = a(−b) > 0
und mit (a) dann ab < 0 im Widerspruch zu (A6). Ebenso schließt man a < 0 und b > 0 aus. Nach (A6)
gilt also a, b > 0 oder a, b < 0. Die Schlussrichtung ⇐“ folgt aus (A8) und (−a)(−b) = ab.
”
(c) Ist a < b und c < 0, so gilt ac > bc. Eine Ungleichung gemäß der Monotoniegesetze erhalten, wenn
man auf beiden Seiten dieselbe Zahl addiert oder mit derselben positiven Zahl multipliziert. Will man
aber mit einer negativen Zahl multiplizieren, so muss man das Ungleichheitszeichen umdrehen.
(d) Aus a > 0 folgt
1
a
> 0, aus a < 0 folgt
1
a
< 0.
(e) Aus a ≤ b und b ≤ a folgt a = b.
(f) Aus a ≤ b und b ≤ c folgt a ≤ c.
(g) Aus a ≤ b und c ≥ 0 folgt ac ≤ bc.
(h) Aus a ≤ b und c ≤ d folgt a + c ≤ b + d.
4.4 Ungleichungsketten. Die Schreibweise a < b < c wird gerne verwendet und ist eine Abkürzung
für a < b und b < c. In diesem Sinn gelten die folgenden Ungleichungsketten.
(i) Aus 0 < a < b folgt 0 < 1/b < 1/a. Nach (A7) gilt nämlich b > 0. Hieraus folgt mit (d) einerseits
1/b > 0, wegen a > 0 andererseits auch ab > 0 · b = 0. Nochmal mit (d) folgt 1/(ab) > 0 und mit (A8)
dann 1/b = a · 1/(ab) < b · 1/(ab) = 1/a.
6
§1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN
(j) Aus 0 ≤ a < b folgt a2 < b2 . Gilt umgekehrt a2 < b2 und b > 0, so folgt a < b. Gilt a2 ≤ b2 und b ≥ 0,
so folgt a ≤ b. Aus a2 ≤ b2 allein folgt aber nicht a ≤ b, wie das Gegenbeipiel a = −1, b = −2 zeigt.
4.5 Betrag und Vorzeichen. Wir setzen
(
a
für a ≥ 0
|a| :=
−a für a < 0
bzw.
1
sgn(a) := 0
−1
für a > 0
für a = 0
für a < 0
und nennen |a| den Betrag bzw. sgn(a) das Vorzeichen (Signum) von a.
Beispielsweise gilt |2| = 2, | − 2| = 2, |0| = 0, | − 21 | = 12 , sgn(−3) = −1, sgn( 32 ) = 1. Allgemein erhalten
wir |a| ≥ 0, | − a| = |a|, |a|2 = a2 und −|a| ≤ a ≤ |a|.
Der Betrag |a| gibt an, wie weit a auf der Zahlengeraden vom Ursprung entfernt ist. Für zwei reelle
Zahlen a und b gibt |a − b| an, wie weit a von b entfernt ist. So etwas werden wir später bei komplexen
Zahlen und bei Vektoren auch benötigen.
4.6 Rechenregeln für den Betrag. Von den folgenden fünf Rechenregeln für den Betrag beweisen wir
nur die letzten zwei. Die ersten drei folgen sofort mit einfachen Fallunterscheidungen aus der Definition.
(k) Genau dann gilt |a| ≤ b, wenn ±a ≤ b (d.h. a ≤ b und −a ≤ b). Diese Regel besagt, dass man
Ungleichungen mit einem Betrag am durch eine Fallunterscheidung beweisen kann.
(l) Immer gilt |a| ≥ 0. Dagegen gilt |a| > 0 nur für a 6= 0 und |a| = 0 nur für a = 0.
(m) Es gilt |ab| = |a||b|.
4.7 Dreiecksungleichung.
(n) Dreiecksungleichung: |a + b| ≤ |a| + |b|
Nach (k) gilt nämlich ±a ≤ |a| und ±b ≤ |b|. Mit (h) folgt zunächst ±(a + b) ≤ |a| + |b|, mit (k) dann
|a + b| ≤ |a| + |b|.
(o) Umgekehrte Dreiecksungleichung: ||a| − |b|| ≤ |a − b|
Aus |a| = |a − b + b| ≤ |a − b| + |b| und |b| = |b − a + a| ≤ |a − b| + |a| folgt nämlich ±(|a| − |b|) ≤ |a − b|,
nach (k) also ||a| − |b|| ≤ |a − b|.
4.8 Weitere wichtige Ungleichungen.
(p) |ab| ≤ 12 (a2 + b2 )
(q) (a + b)2 = |a + b|2 ≤ 2(a2 + b2 )
(r) Arithmetisches Mittel : für a < b gilt a < 12 (a + b) < b
(s) Für a, b > 0 gilt ab ≤ 41 (a + b)2 . Gleichheit tritt hierbei nur für a = b ein.
Achtung. Absolute Sicherheit im Umgang mit Ungleichungen und Beträgen ist lebenswichtig für das
weitere Verständnis!
5
Natürliche Zahlen und vollständige Induktion
Wenn wir annehmen, dass die reellen Zahlen durch die Axiome (A1)–(A8) und das noch ausstehende
Supremumsaxiom definiert sind, so erscheint es leicht, die natürlichen Zahlen als die Menge bestehend
aus den Zahlen 1 (vgl. (A4)), 2 := 1+1, 3 := 2+1, usw. einzuführen. Das Problem liegt in der Präzisierung
von usw.“. Wir müssen uns damit näher beschäftigen, weil wir dabei das wichtige Beweisverfahren der
”
vollständigen Induktion kennenlernen werden.
5.1 Induktive Mengen und natürliche Zahlen. Eine Teilmenge N der reellen Zahlen (oder allgemeiner eines geordneten Körpers) heißt induktiv , wenn sie folgende Eigenschaften hat.
7
KAPITEL 1. GRUNDLAGEN
(N1) Es gilt 1 ∈ N .
(N2) Aus n ∈ N folgt n + 1 ∈ N .
Offensichtlich gibt es induktive Mengen, beispielsweise R selbst oder auch {x ∈ R | x ≥ 1}. Die natürlichen Zahlen sind nun der Durchschnitt aller induktiver Teilmengen von R. Damit ist N sozusagen die
kleinste“ Menge mit den Eigenschaften (N1) und (N2).
”
5.2 Ganze Zahlen. Aus den natürlichen Zahlen erhalten wir mittels Z := {n | n ∈ N ∨ n = 0 ∨ −n ∈ N}
die ganzen Zahlen.
5.3 Induktionsprinzip. Ist M eine Teilmenge von N mit 1 ∈ M und folgt aus k ∈ M immer auch
k + 1 ∈ M , so gilt schon M = N.
Nach Voraussetzung gilt nämlich einerseits M ⊂ N, andererseits ist M induktiv und damit an der
Durchschnittsbildung für N beteiligt, d.h. N ⊂ M . Zusammen folgt wie behauptet M = N.
5.4 Beweisverfahren der vollständigen Induktion.
Für jede natürliche Zahl n sei eine Aussage A(n) gegeben, und es sei folgendes erfüllt.
(IV) Induktionsverankerung: Die Aussage A(1) sei wahr.
(IS) Induktionsschritt: Für jedes n ∈ N ist die Implikation A(n) ⇒ A(n + 1) wahr.
Dann ist die Aussage A(n) für alle n ∈ N wahr (Induktionsschluss).
Die Gültigkeit des Beweisverfahrens der vollständigen Induktion folgt unmittelbar aus dem Induktionsprinzip, denn die Menge M := {n ∈ N | A(n) ist wahr} erweist sich dank (IV) und (IS) als induktive
Teilmenge von N.
Wenn wir beispielsweise die Aussage A(n) die Summe der ersten n natürlichen Zahlen ist n(n + 1)/2“,
”
d.h.
n(n + 1)
“
1 + 2 + ··· + n =
”
2
für alle n ∈ N beweisen wollen, so geschieht dies durch vollständige Induktion folgendermaßen.
Induktionsverankerung: Wegen 1 = 1(1 + 1)/2 ist A(1) wahr.
Induktionsschritt: Gilt 1 + 2 + · · · + n = n(n+1)
für ein n ∈ N, so folgt 1 + 2 + · · · + n + (n + 1) =
2
(n+1)(n+2)
n(n+1)
+
(n
+
1)
=
,
d.h.
ist
A(n)
wahr,
so auch A(n + 1).
2
2
Induktionsverankerung und Induktionsschritt zusammen erlauben uns dank des Induktionsprinzips den
Induktionsschluss: A(n) ist für alle n ∈ N wahr. Für jede natürliche Zahl n gilt also 1+2+· · ·+n = n(n+1)
2
und wir haben diese unendlich vielen Aussagen nicht alle einzeln beweisen müssen (was wir auch nicht
ansatzweise vor unserem Tod geschafft hätten).
Versuchen Sie in ähnlicher Manier den Nachweis von
12 + 22 + · · · + n2 =
n(n + 1)(2n + 1)
6
für alle n ∈ N.
5.5 Varianten der vollständigen Induktion. Natürlich kann eine vollständige Induktion auch bei
einer anderen natürlichen Zahl n0 anstelle der 1 gestartet werden.
Eine Aussage A(n) ist für alle natürlichen Zahlen n ≥ N richtig, falls gilt
(IV’) Die Aussage A(N ) ist wahr.
(IS’) Für jedes n ≥ N folgt aus der Richtigkeit von A(n) die von A(n + 1).
8
§1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN
Manchmal ist auch die folgende Variante nützlich.
Eine Aussage A(n) ist für alle natürlichen Zahlen n ∈ N richtig, falls gilt
(IV’) Die Aussage A(1) ist wahr.
(IS’) Für jedes n ∈ N folgt aus der Richtigkeit von A(1), A(2),. . . , A(n) die von A(n + 1).
5.6 Wohlordung der natürlichen Zahlen. Jede nichtleere Menge natürlicher Zahlen hat ein kleinstes
Element, d.h. ist M ⊂ N mit M 6= ∅, so existiert ein m ∈ M mit k ≥ m für alle k ∈ M .
Man kann zeigen (vgl. [FiKau, Band 1, §1.6.1], dass das Induktionsprinzip 5.3 äquivalent zum Wohlordnungsprinzip ist. Das wollen wir hier nicht tun. Dafür leiten wir aus ihm ab, dass jede ungerade
natürliche Zahl b die Form b = 2k − 1 mit einem k ∈ N besitzt. Hierzu betrachten wir die Menge
M := {n ∈ N | 2n > b}. Selbige ist wegen 2b ∈ M nicht leer, hat also nach dem Wohlordnungsprinzip
ein kleinstes Element k. Wegen der Minimalität von k gilt 2(k − 1) ≤ b < 2k. Da b eine natürliche Zahl
ist, muss b = 2k − 2 oder b = 2k − 1 gelten. Da b ungerade ist, bleibt nur die Möglichkeit b = 2k − 1.
5.7 Summen- und Produktzeichen. Wir verwenden die Abkürzungen
n
X
n
Y
ak := a1 + a2 + · · · + an ,
ak := a1 · a2 · · · an
k=1
k=1
P1
Q1
für n ∈ N. Insbesondere gilt k=1 ak = a1 und k=1 ak = a1 . Die Formeln aus Abschnitt 5.4 erhalten
dann die Form
n
n
X
X
n(n + 1)(2n + 1)
n(n + 1)
,
k2 =
.
k=
2
6
k=1
k=1
Der Name des Index k ist unerheblich, wir hätten auch
schreiben können.
Pn
j=1
aj statt
Pn
k=1
ak oder
Qn
l=1
al statt
Qn
k=1
ak
Manchmal läuft der Index nicht ab 1 sondern ab 0 oder einer anderen ganzen Zahl. Ist I allgemein eine
endliche Teilmenge von Z, etwas I = {n1 , . . . , nm }, so setzen wir
X
ak := an1 + · · · + anm ,
k∈I
Y
ak := an1 · · · anm .
k∈I
P
Q
Im Fall I = ∅ werden sich die Vereinbarungen k∈I ak := 0 und k∈I ak := 1 als günstig erweisen.
Insbesondere gilt
a
+
a
+
·
·
·
+
a
für
m
>
l,
l
l+1
m
m
m
al · al+1 · · · am für m > l,
X
Y
ak = al
ak = al
für m = l,
für m = l,
k=l
k=l
0
für m < l,
1
für m < l.
Indexersetzungen der Form
n−1
X
k=0
ak+1 =
n
X
ak
k=1
werden Indexverschiebung genannt.
In
Pmder Physik ist die Einsteinsche Summenkonvention gebräuchlich, bei der eine Summe der Form
k=l ak bk knapp als ak bk geschrieben wird: Sobald ein Index doppelt vorkommt, ist automatisch über
ihn zu summieren. Auf Laufbereich des Index muss hierbei aus den Rahmenbedingungen geschlossen
werden.
9
KAPITEL 1. GRUNDLAGEN
5.8 Potenzen, Fakultäten und Binomialkoeffizienten. Für eine beliebige Zahl c setzen wir
n
c
:=
n
Y
n ∈ N0 ,
c,
k=1
n!
n
Y
:= n · (n − 1) · · · 2 · 1 =
n ∈ N0 ,
k,
k=1
c
k
:=
k−1
c(c − 1) · · · (c − k + 1)
1 Y
=
(c − l),
k(k − 1) · · · 1
k!
k ∈ N0 .
l=0
Man nennt cn die n-te Potenz von c, n! die Fakultät von n bzw. kc den Binomialkoeffizient c über k
(oder k aus c). In cn heißt c die Basis und n der Exponent. Für c 6= 0 erweitert man diese Definition
−n
durch cn := 1/c
auf Exponenten n ∈ Z mit n < 0. Nach unserer Konvention gilt insbesondere 00 = 1,
c
0! = 1 und 0 = 1 für beliebige c.
Die Binomialkoeffizienten nk werden meistens für n, k ∈ N0 mit 0 ≤ k ≤ n verwendet. Dann gilt
n
n
=
= 1,
0
n
n
n
n!
.
=
=
k
n−k
k!(n − k)!
Für 0 ≤ k < n gilt ferner das Additionstheorem für Binomialkoeffizienten
n+1
n
n
,
=
+
k+1
k+1
k
welches direkt nachgerechnet werden kann.
n
n
+
k
k+1
k−1
k
Y
1
1 Y
(n − l) +
(n − l)
k!
(k + 1)!
=
l=0
k+1
(k + 1)!
=
n+1
(k + 1)!
=
1
(k + 1)!
=
l=0
k−1
Y
(n − l) +
l=0
k−1
Y
k−1
n−k Y
(n − l)
(k + 1)!
l=0
k
(n − l) =
l=0
n+1 Y
(n − (l − 1))
(k + 1)!
l=1
(k+1)−1
Y
(n + 1 − l) =
l=0
n+1
.
k+1
In der drittletzten Umformung haben wir eine Indexverschiebung vorgenommen.
Mit dem Additionstheorem für Binomialkoeffizienten erhält man das Pascalsche Dreieck , in dem die
Summe einer jeden Zahl gleich der Summe der beiden schräg darüber stehenden Zahlen ist.
n
0
1
1
1
2
1
3
1
4
1
5
6
1
1
2
3
4
5
6
1
3
6
10
15
1
1
4
10
20
1
5
15
1
6
1
10
§1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN
5.9 Binomische Formel. Für beliebige a, b gilt
n
(a + b) =
n X
n
k=0
k
ak bn−k
für n ∈ N0 .
Beweis durch vollständige Induktion.
0
Induktionsverankerung:
Für n = 0 lautet die linke Seite der Formel (a + b) = 1, die rechte Seite
P0
0 0 0
0 k 0−k
= 0 a b = 1. Also stimmt die Formel für n = 0.
k=0 k a b
Induktionsschritt: Gilt die binomische Formel für ein n ≥ 0, so folgt mit einer Indexverschiebung
(a + b)n+1
=
(a + b)(a + b)n = (a + b)
n X
n
k=0
ak bn−k
n+1 n X
n k+1 n−k
n k n+1−k X
n
n k n+1−k
a
b
+
a b
=
ak bn−k+1 +
a b
k
k
k−1
k
k=0
k=0
k=1
k=0
n n+1
X n + 1
X
n
n
n+1
k n+1−k
n+1
= a
+
+
a b
+b
=
ak bn+1−k .
k−1
k
k
=
n X
k
n X
k=1
k=0
Dies ist die behauptete Formel für n + 1 anstelle von n.
Der Fall n = 2 in der binomischen Formel ist aus der Schule bekannt: (a + b)2 = a2 + 2ab + b2 ( erste
”
binomische Formel“) bzw. mit b durch −b ersetzt (a − b)2 = a2 − 2ab + b2 ( zweite binomische Formel“).
”
5.10 Geometrische Summenformel.
n−1
X
ak bn−1−k = (a − b)
an − bn = (a − b) an−1 + an−2 b + · · · + abn−2 + bn−1 = (a − b)
X
ak bl .
k+l=n−1
k=0
Auch diese Formel beweisen wir mit einer Indexverschiebung.
(a − b)
n−1
X
ak bn−1−k
n−1
X
=
ak+1 bn−1−k −
k=0
k=0
n−1
X
=
n−1
X
ak bn−k =
k=0
k=1
−
ak bn−k −
k=1
!
ak bn−k + an
n
X
bn +
n−1
X
n−1
X
ak bn−k
k=0
!
ak bn−k
= an − bn .
k=1
Für n = 2 erhalten wir die aus der Schule bekannte dritte binomische Formel“ a2 − b2 = (a − b)(a + b).
”
Für a = q und b = 1 folgt nach Ersetzen von n durch n + 1
n
X
k=0
qk =
1 − q n+1
1−q
für q 6= 1.
5.11 Bernoullische Ungleichung. Für n ∈ N und x ≥ −1 gilt (1 + x)n ≥ 1 + nx.
Beweis durch vollständige Induktion.
Induktionsverankerung: Für n = 1 besteht sogar Gleichheit: (1 + x)1 = 1 + 1 · x.
Induktionsschritt: Gilt (1 + x)n ≥ 1 + nx, so folgt mit 4.3 (g) wegen 1 + x ≥ 0 auch
(1 + x)n+1 = (1 + x)n (1 + x) ≥ (1 + nx)(1 + x) = 1 + (n + 1)x + nx2 ≥ 1 + (n + 1)x.
11
KAPITEL 1. GRUNDLAGEN
6
Rationale Zahlen
6.1 Rationale Zahlen. Die rationalen Zahlen werden definiert durch Q := { m
n | m, n ∈ Z, n 6= 0}. Wir
haben uns schon in 3.3 und 4.2 überlegt, dass Q ein geordneter Körper ist. Jetzt wollen wir ihn genauer
betrachten.
6.2 Archimedische Anordnung von Q. Zu jeder noch so großen positiven rationalen Zahl r gibt es
eine natürliche Zahl N mit N > r. Wir zeigen allgemeiner: Sind p, q ∈ Q positiv, so existiert ein N ∈ N
mit N p > q.
r
Sind nämlich p = m
n und q = s mit m, n, r, s ∈ N vorgegeben, so setzen wir N := nr + 1. Dann gilt
(nr+1)m
mnr
Np =
> n = mr ≥ r ≥ rs = q.
n
Geometrisch interpretiert besagt die zweite Aussage, dass jede noch so kurze Strecke (der Länge p) eine
vorgegebene Strecke (der Länge q) übertrifft, wenn man sie nur oft genug (N -mal) aneinandersetzt.
6.3 Dichtheit von Q. Zwischen je zwei rationalen Zahlen liegen unendlich viele weitere rationale
Zahlen. Tatsächlich, für p, q ∈ Q mit p < q ist r1 := 12 (p + q) wieder eine rationale Zahl und nach 4.8
(r) gilt p < r1 < q. Analog gibt es zu r1 und q ein r2 ∈ Q mit r1 < r2 < q. Per Induktion können wir
unendlich viele rationale Zahlen r1 , r2 , . . . konstruieren mit p < r1 < r2 < . . . < q.
Die rationalen Zahlen liegen also unendlich fein gepackt auf der Zahlengeraden. Trotzdem gibt es nur
wenige“ rationale Zahlen, wie wir gleich sehen werden.
”
6.4 Abzählbarkeit von Q. Die rationalen Zahlen lassen sich abzählen. Das soll heißen, dass wir die
rationalen Zahlen mit Hilfe der natürlichen Zahlen durchnummerieren können. In diesem Sinn hat Q
nicht mehr Elemente als N.
Die Nummerierung erfolgt mit dem Cantorschen Diagonalverfahren. In der nebenstehend
skizzierten Weise verwenden wir die ungeraden Zahlen außer 1 zur Nummerierung der
positiven rationalen Zahlen. Eingeklammerte
Zahlen brauchen wir nicht mehr zu nummerieren, da sie schon zuvor nummeriert wurden.
Die negativen rationalen Zahlen werden analog mit Hilfe der gerade Zahlen nummeriert,
die 0 erhält die Nummer 1.
2
1
1
1
↓
%
1
2
( 22 )
.
1
3
↓
1
4
..
.
→
.
3
1
%
3
2
%
2
3
%
3
3
..
.
5
1
···
5
2
···
5
3
···
5
4
···
..
.
%
4
3
%
3
4
→
.
( 42 )
.
.
( 42 )
..
.
4
1
.
( 44 )
..
.
..
.
6.5 Unvollständigkeit von Q. Es gibt keine rationale Zahl r mit r2 = 2. Der Beweis hierfür ist schon
seit der Antike bekannt: Gäbe es ein r ∈ Q mit r2 = 2, so könnten wir r = m
n mit teilerfremden Zahlen
m, n ∈ N schreiben. Insbesondere ist dann mindestens eine der beiden Zahlen m und n ungerade. Wegen
m2 = 2n2 ist m2 und damit auch m gerade, hat also die Form m = 2k mit k ∈ N. Dann folgt aber
(2k)2 = 2n2 , d.h. n2 = 2k 2 und n muss — im Widerspruch zur Annahme — auch gerade sein.
Da Q ein geordneter Körper ist, können wir uns die rationalen Zahlen auf einer Zahlengeraden vorstellen.
Gemäß 6.3 liegen die rationalen Zahlen dicht auf dieser Geraden. Trotzdem muss es Löcher“ geben:
”
Wir errichten über dieser Zahlengeraden ein Einheitsquadrat mit einer Ecke im Nullpunkt, schlagen um
den Nullpunkt einen Kreis mit der Diagonalenlänge d als Radius. Nach dem Satz des Pythagoras gilt
d2 = 12 + 12 = 2. Unsere vorherige Überlegung zeigt, dass dieser Kreis unsere rationale Zahlengerade“
”
nicht trifft. Die rationalen Zahlen genügen uns also nicht.
12
7
§1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN
Intervalle, beschränkte Mengen, Maximum und Minimum
7.1 Intervalle. Für reelle Zahlen c und d mit c < d setzen wir
[c, d]
]c, d[
[c, d[
]c, d]
[c, +∞[
]c, +∞[
] − ∞, d]
] − ∞, d[
] − ∞, +∞[
:=
:=
:=
:=
:=
:=
:=
:=
:=
{x ∈ R :
{x ∈ R :
{x ∈ R :
{x ∈ R :
{x ∈ R :
{x ∈ R :
{x ∈ R :
{x ∈ R :
R.
c ≤ x ≤ d},
c < x < d},
c ≤ x < d},
c < x ≤ d},
c≤x
},
c<x
},
x ≤ d},
x < d},
und nennen derartige Mengen Intervalle. Die Zahlen c und d heißen untere bzw. obere Intervallgrenze.
Achtung. Das Symbol ∞ wird in der Analysis häufig benutzt, aber immer in einem genau präzisierten
Sinn. so ist [c, +∞[ lediglich eine Kurzbezeichnung für die Menge {x ∈ R : x > c}. Insbesondere
bezeichnen −∞“ und +∞“ keine reelle Zahl.
”
”
Die neun zuvor angegebenen Intervallarten werden in folgende Typen unterteilt.
Typ
offen
halboffen
abgeschlossen
kompakt
beschränkt
unbeschränkt
Intervalle dieses Typs
]c, d[, ]c, +∞[, ] − ∞, d[, ] − ∞, +∞[
]c, d], [c, d[
[c, d], [c, +∞[, ] − ∞, d]
[c, d]
[c, d], ]c, d], [c, d[, ]c, d[
] − ∞, d[, ] − ∞, d], ] − ∞, +∞[, [c, +∞[, ]c, +∞[
Insbesondere nennt man
R+
:=
R+
0
−
R
:= [0, +∞[ die nichtnegativen reellen Zahlen oder die abgeschlossene rechte Halbgerade,
:= ] − ∞, 0[ die negativen reellen Zahlen oder die offene linke Halbgerade,
R−
0
:=
]0, +∞[
] + ∞, 0]
die positiven reellen Zahlen oder die offene rechte Halbgerade,
die nichtpositiven reellen Zahlen oder die abgeschlossene linke Halbgerade.
Für offene Intervalle ]c, d[ findet man in der Literatur oft auch die Bezeichnung (c, d).
7.2 Obere und untere Schranken. Eine Teilmenge M ⊂ R heißt nach oben (unten) beschränkt, wenn
es eine Zahl m gibt, mit x ≤ m (x ≥ m) für alle x ∈ M . Jede solche Zahl m heißt eine obere (untere)
Schranke.
Ist m eine obere (untere) Schranke von M und ist m0 eine reelle Zahl mit m0 ≥ m (m0 ≤ m), so ist auch
m0 eine obere (untere) Schranke von m. Wenn eine Menge nach oben beschränkt ist, so besitzt sie viele“
”
obere Schranken. Aus formalen Gründen ist die leere Menge ∅ sowohl nach oben als auch nach unten
beschränkt.
Beispielsweise ist N nach unten beschränkt, 1 ist eine untere Schranke aber auch jede negative reelle Zahl
ist eine. Dagegen ist N nach oben unbeschränkt, das folgt aus der Archimedischen Eigenschaft 6.2.
Die Menge M := {x ∈ R | x2 < 2} ist nach oben durch 2 beschränkt, denn für jedes x ∈ M gilt
x2 < 2 < 22 , d.h. x < 2 nach 4.4 (j). Ähnlich sieht man ein, dass M durch −2 nach unten beschränkt ist.
13
KAPITEL 1. GRUNDLAGEN
7.3 Beschränkte Mengen. Eine Teilmenge M ⊂ R heißt beschränkt, wenn sie nach oben und nach
unten beschränkt ist.
In diesem Fall existieren Schranken mo , mu ∈ R mit mu ≤ x ≤ mo für alle x ∈ M . Wählen wir für m die
größere der beiden Zahlen |mu | und |mo |, so gilt |x| ≤ m für alle x ∈ M . Existiert umgekehrt ein m ∈ R
mit |x| ≤ m für alle x ∈ M , so ist m eine obere und −m eine untere Schranke für M .
Eine Teilmenge M ⊂ R ist also genau dann beschränkt, wenn es eine Schranke m ∈ R gibt mit |x| ≤ m
für alle x ∈ M .
7.4 Maximum und Minimum. Für zwei reelle Zahlen a und b setzen wir
(
(
a falls a ≥ b,
a falls a ≤ b,
max{a, b} :=
min{a, b} :=
b falls b ≥ a,
b falls b ≤ a,
Durch Induktion nach der Anzahl der Elemente finden wir für je endlich viele reelle Zahlen a1 , . . . , an
eine größte und eine kleinste und bezeichnen diese mit
max{a1 , . . . , an },
min{a1 , . . . , an }.
Für Mengen von unendlich vielen reellen Zahlen ist es aber nicht a priori klar, ob ein größtes oder ein
kleinstes Element existiert. Beispielsweise hat R+ =]0, +∞[ kein kleinstes Element. Für jedes x ∈ R+ ist
nämlich auch x2 ∈ R+ und es gilt x2 < x. Zu jedem Element in R+ gibt es also ein noch kleineres, das
auch in R+ liegt. Die Zahl 0 dagegen können wir nicht als kleinstes Element wählen, es gilt ja 0 ∈
/ R+ .
Um im Allgemeinen zu klären, ob eine Menge reeller Zahlen ein Maximum bzw. ein Minimum besitzt,
müssen wir also vorsichtig vorgehen.
Definition. Eine nichtleere Teilmenge M ⊂ R hat ein Maximum (Minimum) m =: max M (m =: min M )
falls m eine obere (untere) Schranke von M ist und falls m ∈ M .
Achtung. Nicht jede nichtleere nach oben (unten) beschränkte Teilmenge von R besitzt ein Maximum
(Minimum).
Welche der in 7.1 angegebenen Intervalle haben ein Maximum, welche ein Minimum?
Das Wohlordnungsprinzip 5.6 besagt, dass jede nichtleere Teilmenge von N ein Minimum besitzt.
8
Beweistechniken
In den vorangegangenen Abschnitten haben wir diverse Aussagen formuliert und bewiesen. Jetzt wollen
wir die dabei verwendeten Techniken beleuchten.
8.1 Implikationen. Die meisten mathematischen Sätze haben die folgende Bauart: Innerhalb eines
bestimmten Gegenstandsbereichs der Mathematik folgt unter der Voraussetzung A die Behauptung B.
Hierfür schreiben wir
A⇒B
( aus A folgt B“,
”
wenn A, dann B“,
”
A impliziert B“).
”
Durchforsten Sie die vorangegangenen Abschnitte nach Beispielen. Wir geben drei davon an.
(a) Abschnitt 4.8 (r): für reelle Zahlen a und b
A: a < b
B: a <
1
(a + b) < b.
2
(b) Abschnitt 6.2: für rationale Zahlen r
A: r > 0
B : es gibt ein N ∈ N mit N > r.
14
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
(c) Abschnitt 6.5: für reelle Zahlen
A: r ∈ Q
B : r2 6= 2.
Der Beweis einer Aussage des Typs A ⇒ B kann auf drei Arten geführt werden. Dabei sollten wir uns an
die Wahrheitstafel der Implikation erinnern.
A
w
w
f
f
B
w
f
w
f
A⇒B
w
f
w
w
8.2 Direkter Beweis. Mit Hilfe der Grundannahmen im jeweiligen Gegenstandsbereich, den schon bewiesenen Sätzen und der Voraussetzung A schließen wir mit Hilfe der Logik auf die Richtigkeit von B.
Beispiel. Der Beweis von 4.4 (i).
8.3 Indirekter Beweis. Wir zeigen auf direktem Wege: ist B falsch, so ist auch A falsch. Wenn dann A
richtig ist, so muss auch B richtig sein, sonst hätten wir einen Widerspruch: A müsste gleichzeitig richtig
und falsch sein. Kurz gesagt: statt A ⇒ B beweisen wir ¬B ⇒ ¬A.
Beispiel. Der Beweis in 4.2, dass der Minikörper {0, 1} nicht angeordnet werden kann.
8.4 Widerspruchsbeweis. Wir nehmen an, dass A richtig und dass B falsch ist und leiten daraus einen
Widerspruch ab, d.h. wir zeigen, dass dann eine bestimmte Aussage gleichzeitig mit ihrem Gegenteil wahr
sein müsste.
Beispiel. Der Beweis von es gibt keine rationale Zahl r mit r2 = 2“ in 6.5.
”
8.5 Notwendige und hinreichende Bedingungen. Gilt A ⇒ B, so sagen wir: A ist eine hinreichende
Bedingung für B, und B ist eine notwendige Bedingung für A.
8.6 Äquivalente Bedingungen. Sind zwei Ausagen A und B entweder beide gleichzeitig richtig oder
beide gleichzeitig falsch, so schreiben wir gemäß der Wahrheitstafeln in 1.1
A⇔B
( genau dann A, wenn B“,
”
A ist äquivalent zu B“)
”
und sagen, dass A eine notwendige und hinreichende Bedingung für B ist.
Beispiel. Abschnitt 4.6 (k): für a, b ∈ R
A : |a| ≤ b
B : (a ≤ b) ∧ (−a ≤ b).
Eine Äquivalenzaussage A ⇔ B wird gerne durch den Nachweis der beiden Implikationen A ⇒ B und
B ⇒ A bewiesen.
§2
Vollständigkeit der reellen Zahlen, Folgen
In diesem Abschnitt kommen wir zu dem noch ausstehenden ominösen Supremumsaxiom, welches die
reellen Zahlen erst auszeichnet. Wir formuliern dieses Axiom zunächst, ziehen anschließend diverse Folgerungen über reelle Zahlen und erhalten insbesondere die gesamte Konvergenztheorie für Folgen. Das
ist die Stelle, an der die Unendlichkeit der reellen Zahlen die Analysis zum Leben erweckt.
KAPITEL 1. GRUNDLAGEN
1
15
Supremum und Infimum
1.1 Das Supremumsaxiom.
(A9) Jede nach oben beschränkte und nichtleere Teilmenge M von R besitzt eine kleinste obere Schranke.
Diese wird das Supremum von M genannt und mit sup M bezeichnet.
Im Detail: ξ = sup M bedeutet
• die Zahl ξ ist obere Schranke von M , d.h. es gilt x ≤ ξ für jedes x ∈ M ,
• keine Zahl ζ < ξ ist obere Schranke von M : zu jedem ζ < ξ existiert mindestens ein x ∈ M mit
ζ < x.
Spiegeln wir M an der Zahlengeraden, d.h. ersetzen wir die Elemente x ∈ M durch −x, so erhalten
wir analog: Jede nach unten beschränkte und nichtleere Teilmenge M von R besitzt eine größte untere
Schranke. Diese wird das Infimum von M genannt und mit inf M bezeichnet.
1.2 Anmerkungen zum Supremumsaxiom. Für M =]0, 1[ gilt sup M = 1. Offensichtlich ist 1 eine
obere Schranke von M , und für jedes ζ < 1 existiert ein x ∈ M mit x > ζ, nämlich beispielsweise
x = (1 + ζ)/2 für ζ > −1 und x = 1/2 für ζ ≤ −1. Für ein beliebiges offenes beschränktes Intervall ]a, b[
zeigt man analog sup]a, b[= b und inf]a, b[= a.
Besitzt eine nichtleere Teilmenge M reeller Zahlen ein Maximum (Minimum) m = max M (m = min M ),
so ist m auch das Supremum (Infimum) von M .
Achtung. Beachten Sie den Unterschied zwischen Maximum und Supremum. Wie in §1.7.4 gezeigt,
muss eine nichtleere und nach oben beschränkte Teilmenge von R kein Maximum besitzen. Nach dem
Supremumsaxiom (A9) hat sie aber ein Supremum. Das Supremum einer Menge M muss nicht notwendigerweise zu M gehören.
Dass das Supremumsaxiom eine Besonderheit von R ist, illustrieren wir am folgenden Beispiel: Die Menge
M = {x ∈ Q | x2 < 2} ist eine nichtleere Teilmenge von Q (z.B. gilt 1 ∈ M ) und (wie in §1.7.2 gezeigt)
nach oben beschränkt. In 2.4 werden wir sehen, dass jeder Kandidat für ξ = sup M die Bedingung ξ 2 = 2
erfüllen muss. Es gibt aber keine rationale Zahl ξ mit ξ 2 = 2. Also gilt in Q kein Supremumsaxiom.
1.3 Anmerkung zur Existenz und Eindeutigkeit der reellen Zahlen. Die Menge R der reellen
Zahlen sind durch die Axiome (A1)–(A9) vollständig beschrieben. Alle ihre Eigenschaften (und damit die
gesamte Analysis) können aus diesen neun Axiomen abgeleitet werden. Dennoch erscheint es zunächst
weder sicher, dass es die reellen Zahlen überhaupt gibt, noch dass es nicht mehrere verschiedene“ Mengen
”
gibt, die diese neun Axiome erfüllen. Wir werden aber in 7.3 sehen, dass aus den Axiomen (A1)–(A9)
sowohl Existenz als auch Eindeutigkeit der reellen Zahlen abgeleitet werden können. Dort wird sich
nämlich R als die“ Menge aller Dezimalbrüche erweisen.
”
2
Folgerungen aus dem Supremumsaxiom
2.1 Archimedisches Prinzip. Ähnlich wie in §1.6.2 gilt:
(a) Zu jeder noch so großen positiven reellen Zahl r gibt es eine natürliche Zahl N mit N > r.
(b) Sind a, b ∈ R positiv, so existiert ein N ∈ N mit N a > b.
(c) Zu jedem ε > 0 gibt es ein N ∈ N mit 1/N < ε.
In (a) wird ausgesagt, dass N in R nach oben unbeschränkt ist. Dies zeigen wir mit einem Widerspruchsbeweis: Wäre N in R nach oben beschränkt, so existiert ξ := sup N ∈ R nach dem Supremumsaxiom
16
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
(A9). Nach der Definition des Supremums ist ξ − 1 keine obere Schranke von N, es gibt also ein n ∈ N
mit n > ξ − 1. Für die natürliche Zahl n + 1 gilt also ξ < n + 1 im Widerspruch zur ξ = sup N. Nun folgt
(b) mit r = b/a und (c) mit r = 1/ε.
2.2 Satz des Eudoxos. Ist x ≥ 0 reell und gilt x < 1/n für alle n ∈ N, so folgt x = 0.
Dieser Satz wird uns an mehreren Stellen nützlich sein, er folgt sofort durch Negation von 2.1 (c).
2.3 Gauß-Klammer. Für jede reelle Zahl x existiert genau eine ganze Zahl n mit n ≤ x < n + 1. Diese
Zahl wird mit [x] bezeichnet und Gauß-Klammer von x genannt. Offensichtlich ist [x] die größte ganze
Zahl kleiner oder gleich x.
Beweis∗ . Wir betrachten die Menge M := {m ∈ Z | x < m + 1}. Diese Menge ist nicht leer: für
x ≤ 0 gilt 0 ∈ M , für x > 0 liefert das Archimedische Prinzip 2.1 (a) ein Element in M . Ferner ist M
konstruktionsgemäß nach unten beschränkt (durch x). Nach dem Supremumsaxiom (genauer gesagt der
in 1.1 angegebenen Folgerung) existiert m := inf M . Nach 2.1 (a) gibt es ein N ∈ N mit N > |m|. Die
um N verschobene Menge {m + N ∈ Z | m ∈ M } ist dann eine Teilmenge von N und besitzt nach
dem Wohlordnungsprinzip §1.5.6 ein Minimum. Also hat M selbst ebenfalls ein Minimum n, d.h. es gilt
x < n + 1 aber x ≥ (n + 1) − 1 = n. Damit hat n die gewünschte Eigenschaft n ≤ x < n + 1.
Beispielsweise gilt [1.3] = 1, [−2.7] = −3, [−6] = −6.
2.4 Existenz von Wurzeln. Zu jeder reellen Zahl a ≥ 0 und jeder natürlichen√ Zahl n gibt es genau
n
eine Zahl x ≥ 0 mit x
Zahl wird n-te Wurzel von a genannt und mit n a bezeichnet. Im Fall
√ = a. Diese
√
2
n = 2 schreiben wir a statt a und nennen diese Zahl Wurzel oder Quadratwurzel von a.
Die Existenz von Wurzeln ist eine der spannenden Folgerungen aus dem Supremumsaxiom (A9). Wir
führen den Beweis nicht um seiner selbst willen, sondern weil er eine gute Fingerübung im Umgang mit
Ungleichungen ist. Für das grundlegende Verständis ist aber wichtiger, dass Sie wissen, was eine n-te
Wurzel ist.
n
Beweis. Die Fälle n = 1 oder a = 0 sind klar. Sei n ≥ 2 und a > 0. Die Menge M := {x ∈ R+
0 : x ≤ a}
ist wegen 0 ∈ M nichtleer und nach oben beschränkt. Nach dem Supremumsaxiom (A9) existiert daher
ξ := sup M . Durch einen indirekten Beweis zeigen wir nun, dass ξ eine Lösung von xn = a ist.
Angenommen, es gilt ξ n < a. Für zunächst beliebiges m ∈ N folgt aus der binomischen Formel §1.5.9
ξ+
1
m
n
= ξn +
n X
n 1 n−k
b
ξ
≤ ξn +
k
k m
m
k=1
mit b :=
n X
n
k=1
k
ξ n−k > 0.
Nach dem Archimedischen Prinzip 2.1 (c) gibt es wegen (a − ξ n )/b > 0 ein m ∈ N mit (a − ξ n )/n < 1/m,
d.h. ξ n + b/m < a. Es folgt (ξ + 1/m)n < a und damit ξ + 1/m ∈ M . Also kann ξ nicht das Supremum
von M sein.
Angenommen, es gilt ξ n > a. Für wieder zunächst beliebiges m ∈ N liefert die Bernoullische Ungleichung
§1.5.11
n
n
1
1
n
c
n
n
ξ−
=ξ 1−
≥ξ 1−
= ξn −
mit c := nξ n−1 > 0.
m
ξm
ξm
m
Nach dem Archimedischen Prinzip 2.1 (c) gibt es wegen (ξ n − a)/c > 0 ein m ∈ N mit (ξ n − a)/c > 1/m,
d.h. ξ n − c/m > a. Es folgt (ξ − 1/m)n > a. Damit ist ξ − 1/m eine kleinere obere Schranke für M als ξ.
Also kann ξ nicht das Supremum von M sein.
Mit (A6) folgt ξ n = a. Also besitzt xn = a eine nichtnegative Lösung. Wäre ζ ≥ 0 eine weitere Lösung
mit ζ 6= x, so können wir (ggf. nach Umbenennen) ζ < x annehmen. Aus (A8) folgt a = ζ n < xn = a
und wir haben einen Widerspruch. Also hat xn = a genau eine nichtnegative Lösung.
17
KAPITEL 1. GRUNDLAGEN
3
Folgen
3.1 Was ist eine Folge? Wird durch irgendeine Vorschrift jeder natürlichen Zahl n eine reelle Zahl an
zugeordnet, so nennen wir dies eine Folge reeller Zahlen oder eine Zahlenfolge und schreiben dafür
(a1 , a2 , a3 , . . .),
(an )n∈N ,
(an )n≥1
oder kurz (an )n .
Für die Folgenglieder an und den Index n kann man auch eine andere Bezeichnung wählen, z.B. (ak )k
oder (fl )l . Manchmal beginnt die Zählung nicht bei 1 sondern bei 0 oder einer anderen ganzen Zahl, z.B.
(xk )k≥0 .
Überlegen Sie sich für jedes der folgenden Beispiele, ob es besser ist, das Bildungsgesetz anzugeben, oder
einfach die ersten Folgenglieder aufzuzählen.
1
1 1 1
=
1, , , , . . . ,
n n
2 3 4
(q n )n≥0 = 1, q, q 2 , q 3 , . . . ,
n 1
9 64 625
1+
,... ,
=
2, , ,
n
4 27 256
n
(1, 0, 1, 0, 0, 1, 0, 0, 0, 1, . . .).
3.2 Rekursiv definierte Folgen. Aus dem Induktionsprinzip §1.5.3 kann das Rekursionsprinzip abgeleitet werden. Es besagt, dass eine Folge (an )n≥0 eindeutig festgelegt ist, wenn ihr Anfangsglied a0 = c
gegeben ist und wenn für jedes n ≥ 1 eine Vorschrift gegeben ist, wie das n-te Glied an aus den vorangehenden Gliedern a0 , . . . , an−1 zu bilden ist.
Wir verzichten auf den (kunstvollen) Beweis, geben aber Beispiele an.
(a) Durch
a1 := 2,
an+1 :=
1
2
an +
2
an
für n ≥ 1,
wird eine Folge (an )n definiert. Wir berechnen einige Folgeglieder
n
2
3
4
5
3
= 1, 5
2
17
= 1, 416 . . .
12
6
665857
= 1, 414 213 562 374 . . .
470832
√
und haben den Eindruck, dass sie schnell konvergente Approximationen an 2 liefert. In 8.5 werden wir
zeigen, dass unsere Vermutung zutrifft.
an
2
577
= 1, 414 25 . . .
408
(b) Die Folge der Fibonacci-Zahlen (fn )n≥0 wird rekursiv definiert durch
f0 := 1,
f1 := 1,
fn := fn−1 + fn−2
für n ≥ 2.
Man sagt, dass die Fibonacci-Zahlen einer Rekursion zweiter Ordnung genügen, da zur Berechnung der
n-ten Fibonacci-Zahl fn die beiden vorherigen Fibonacci-Zahlen fn−1 und fn−2 notwendig sind. Daher
muss man auch zwei Startwerte f0 und f1 vorgeben.
Wir können fn als die Anzahl der Kaninchenpaare im Monat n interpretieren, wenn ein Kaninchenpaar
in jedem Monat ein neues Paar in die Welt setzt, welches sich im übernächsten Monat in gleicher Weise
vermehrt. Wir erhalten
n
fn
0
1
1
1
2
1+1=2
3
2+1=3
4
3+2=5
5
5+3=8
6
8 + 5 = 13
7
.
13 + 8 = 21
18
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
(c) Unsere Definition von Summen- und Produkten in §1.5.7 ist streng genommen eine rekursive: In
einem Körper ist zunächst nur die Summe und das Produkt zweier Zahlen erklärt, rekursiv kann sie
auf Summen bzw. Produkte von drei, vier und allgemein endlich vielen Zahlen erweitert werden. Durch
Induktion zeigt man, dass die Rechenregeln (A1)–(A3) (Kommutativ-, Assoziativ- und Distributivgesetze)
weiterhin gelten.
Summen und Produkte von unendlich vielen Zahlen werden wir in §4 kennenlernen und feststellen, dass
mit ihnen vorsichtig umgegangen werden muss. Insbesondere übertragen sich die grundlegenden Rechenregeln (A1)–(A3) nicht automatisch.
(d)∗ Bevölkerungswachstum bei beschränktem Lebensraum wird durch die Verhulst-Gleichung
cn+1 = γcn (1 − cn )
modelliert. Hierbei gibt cn den Anteil an der Maximalbevölkerung in der n-ten Generation an, die Maximalbevölkerung ist hierbei zu 1 (d.h. 100%) normiert. Ohne Lebensraumbeschränkung wächst eine
Populatoin von der n-ten zur (n + 1)-ten Generation um den Wachstumsfaktor γ, d.h. es gilt cn+1 = γcn .
Der zusätzliche Faktor 1 − cn in unserem Modell dämpft dieses Wachstum um so mehr, je stärker sich
die Population in der n-ten Generation der Maximalbevölkerung 1 angenähert hat.
Wählen wir als Wachsumskoeffizient γ = 3, 987 und als Startpopulation c0 = 0, 89, so erhalten wir
n
0
1
2
3
4
5
6
7
8
cn ≈ 0, 890 0, 390 0, 949 0, 194 0, 623 0, 937 0, 236 0, 720 0, 805
n
9
10
11
12
13
14
15
16
17
cn ≈ 0, 627 0, 933 0, 251 0, 749 0, 749 0, 749 0, 749 0, 749 0, 750
Eine graphische Darstellung der Bevölkerungsentwicklung über 200 Generationen vermittelt allerdings
ein durchaus chaotisches Bild.
1
0.8
0.6
0.4
0.2
50
100
150
200
Abbildung 1.1: Beispiel für Bevölkerungswachstum nach Verhulst über 200 Generationen.
3.3 Teilfolgen. Durch Weglassen von Folgegliedern aus einer Folge (an )n entsteht eine Teilfolge. Sie hat
die Gestalt (ank )k = (an1 , an2 , an3 , . . .) mit natürlichen Zahlen n1 < n2 < n3 < . . .. Der Fall nk = k ist
dabei zugelassen (und entspricht der gesamten Folge), i.A. gilt nk ≥ k.
Für (1/n)n lautet die Teilfolge (an2 )n der Folgenglieder mit Quadratzahlen als Indizes (1, 1/4, 1/9, . . .) =
(1/n2 )n . Die Teilfolge der Folgenglieder mit geraden Indizes von ((−1)n )n≥0 = (1, −1, 1, −1, . . .) ist
(1, 1, 1, . . .).
4
Nullfolgen
4.1 Einleitung. Wir wollen mathematisch streng fassen, was die Folge (an )n hat den Grenzwert a“
”
(an → a für n → ∞) bedeuten soll. Hierzu erklären wir zunächst, wass an → 0 für n → ∞“ bedeutet
”
19
KAPITEL 1. GRUNDLAGEN
und führen dann an → a für n → ∞“ auf an − a → 0 für n → ∞“ zurück.
”
”
Die gesamte Analysis baut auf den Konvergenzbegriff auf. Alle Konvergenzbetrachtungen werden letzlich
auf reelle Nullfolgen zurückgeführt. Darum wollen wir diesen Begriff genau erklären. Hierbei kommt es
zu einem weiteren Kontakt mit dem Unendlichen.
4.2 Wozu eine saubere Definition? Wahrscheinlich zweifelt niemand daran, dass 1/n → 0 für n → ∞
oder dass (1/2)n → 0 für n → ∞. Aber wie steht es mit (n/2n )n ? Zwar gilt 1/2n → 0 für n → ∞, aber n
wächst über alle Grenzen. Und wie steht es mit der Folge (n!/100n )n ? Wir haben
n
1
2
3
4
5
6
n!
100n
1
100
1
5.000
3
500.000
3
12.500.000
3
250.000.000
9
12.500.000.000
7
≈ 5, 04 · 10−11
100
.
≈ 9, 33 · 10−43
Da liegt die Vermutung n!/100n → 0 für n → ∞ nahe. Aber: a1000 ≈ 4, 02 · 10567 .
4.3 Definition: Nullfolge. Eine Folge (an )n heißt eine Nullfolge, in Zeichen
lim an = 0
n→∞
oder
an → 0
für n → ∞,
wenn es zu jeder (noch so kleinen) Zahl ε > 0 eine Zahl nε ∈ N gibt mit |an | < ε für alle n ≥ nε .
In Quantorenschreibweise lautet diese Definition
(∀ε > 0)(∃nε ∈ N)(∀n ∈ N)(n ≥ nε ⇒ |an | < ε).
In Worten: Für jeden noch so kleinen Fehler ε > 0 unterscheiden sich mit vielleicht endlich vielen
”
Ausnahmen alle Folgenglieder um weniger als ε von Null.“
4.4 Einfache Nullfolgen.
(a) Die Folge (1/n)n ist eine Nullfolge.
Zu gegebenem ε > 0 setzen wir nε := [1/ε + 1]. Für n ≥ nε erhalten wir mit der Definition der GaußKlammer dann n > (1/ε + 1) − 1 = 1/ε, also |1/n| = 1/n < ε. Ähnlich sieht man ein:
(b) Für jedes c ∈ R ist (c/n)n eine Nullfolge.
√
(c) Für jedes m ≥ 2 ist (1/ m n)n eine Nullfolge.
Sei ε > 0 gegeben. In den Übungen haben√wir für a, b ∈ R+
0 und m ∈ N bewiesen, dass a < b genau
m
dann, wenn am < bm . Die Ungleichung
1/
n
<
ε
ist
also
gleichwertig
mit 1/n < εm . Wir setzen also
√
nε := [1/εm ] + 1 und erhalten |1/ m n| < ε für n ≥ nε .
4.5 Anmerkung. Um nachzuweisen, dass (an )n eine Nullfolge ist, muss man zu jedem ε > 0 eine
natürliche Zahl nε finden mit |an | < ε für alle Indizes n ≥ nε . Die Bezeichung nε soll andeuten, dass der
Grenzindex“ nε , ab dem die Ungleichung |an | < ε gilt, vom vorgegebenen Fehler ε abhängt. Hierbei muss
”
man i.A. nε um so größer wählen, je kleiner ε ist. Dabei wird nicht verlangt, den optimalen Grenzindex
zu finden.
4.6 Vergleichskriterium für Nullfolgen. Gilt von einem bestimmten Index ab eine Abschätzung
|an | ≤ bn , wobei (bn )n eine bekannte Nullfolge ist, so ist auch (an )n eine Nullfolge.
Ändert man insbesondere endlich viele Folgenglieder in einer Nullfolge ab, so entsteht wieder eine Nullfolge.
Beweis. Sei |an | ≤ bn für alle n ≥ N . Insbesondere ist dann bn ≥ 0 für n ≥ N . Nach Voraussetzung
existiert zu jedem ε > 0 ein nε mit |bn | < ε für n ≥ nε . Setzen wir Nε := max{N, nε }, so gilt für
n ≥ Nε einerseits n ≥ N und damit |an | ≤ bn , andererseits n ≥ nε und damit |bn | ≤ ε. Es folgt
|an | ≤ bn = |bn | < ε für n ≥ Nε .
4.7 Beispiel zum Vergleichskriterium für Nullfolgen. Die Folge (n/(n2 + 1))n ist eine Nullfolge,
denn es gilt
n n
n
1
n2 + 1 = n2 + 1 < n2 = n
und (1/n)n ist eine Nullfolge.
20
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
4.8 Weitere Nullfolgen.
(d) Für beliebige q ∈] − 1, 1[ und m ∈ N0 ist (nm q n )n eine Nullfolge.
Beweis. Der Fall q = 0 ist trivial, sei also 0 < |q| < 1. Dann gilt |q| = 1/(1 + h) mit einer reellen Zahl
h > 0. Für n ≥ m + 1 liefert die binomische Formel §1.5.9
n X
n k
n
n(n − 1) · · · (n − m) m+1
n
h
(1 + h)
=
h >
hm+1 =
k
(m + 1)!
m+1
k=0
nm+1
1
m m+1
=
·1· 1−
··· 1 −
h
(m + 1)!
n
n
1
1
m
≥
1−
··· 1 −
hm+1 nm+1 ,
(m + 1)!
m+1
m+1
|
{z
}
=:A
wobei A eine positive Konstante ist. Für diese n folgt
|nm q n | =
nm
1
nm
≤
=
.
n
(1 + h)
Anm+1
An
Nach dem Vergleichskriterium 4.6 und (b) ist (nm q n )n damit eine Nullfolge.
(e) Für beliebige x ∈ R ist (xn /n!)n eine Nullfolge.
Beweis. Wählen wir eine natürliche Zahl N ≥ 2|x|, so gilt
n N n−N
n
x x |x|
|x| xN 1
2N |x|N 1
=
=
n! N ! N + 1 · · · n ≤ N ! 2
N!
2
für alle n ≥ N und die Behauptung folgt mit (d) für q = 1/2 und m = 0 wieder aus dem Vergleichskriterium 4.6.
5
Sätze über Nullfolgen
5.1 Eigenschaften von Nullfolgen.
(a) Jede Nullfolge ist beschränkt.
Ist (an )n eine Nullfolge, so gibt es zu jedem ε > 0 ein nε mit |an | < ε für n ≥ nε . Insbesondere gilt dies für
ε = 1. Also existiert ein n1 ∈ N mit |an | ≤ 1 für n ≥ n1 . Setzen wir M := max{|a1 |, |a2 |, . . . , |an1 −1 |, 1},
so ist |an | ≤ M für alle n ≥ 1.
(b) Jede Teilfolge einer Nullfolge ist eine Nullfolge.
Ist (ank )k Teilfolge von (an )n , so ist nk ≥ k für k ∈ N (vgl. 3.3). Gilt daher |ak | ≤ ε für alle k ≥ nε , so
erst recht |ank | < ε.
5.2 Rechenregeln für Nullfolgen.
(c) Ist (an )n eine Nullfolge, so auch (can )n für jedes c ∈ R.
Für c = 0 haben wir nichts zu tun. Sei also c 6= 0 und sei ε > 0 gegeben. Ist (an )n eine Nullfolge, so
geben wir als Fehler ε/|c| vor und wissen, dass ein nε ∈ N existiert mit |an | < ε/|c| für alle n ≥ nε . Für
diese n gilt dann |can | < ε. Also ist auch (can )n eine Nullfolge.
(d) Sind (an )n und (bn )n Nullfolgen, so auch (an + bn )n .
Sei ε > 0 gegeben. Da (an )n eine Nullfolge ist, können wir ε/2 als Fehler vorgeben und finden ein nε,a ∈ N
mit |an | < ε/2 für n ≥ nε,a . Analog finden wir ein nε,b ∈ N mit |bn | < ε/2 für n ≥ nε,b . Nun setzen wir
21
KAPITEL 1. GRUNDLAGEN
nε := max{nε,a , nε,b } und erhalten mit der Dreiecksungleichung |an + bn | ≤ |an | + |bn | < ε/2 + ε/2 = ε
für n ≥ nε , da dann sowohl n ≥ nε,a als auch n ≥ nε,b gilt.
(e) Ist (an )n eine Nullfolge, so auch (|an |)n .
Das folgt unmittelbar aus der Definition.
(f) Ist (an )n eine Nullfolge und ist (bn )n beschränkt, so ist (an bn )n eine Nullfolge.
Ist die Folge (bn )n beschränkt, so existiert eine Schranke M ≥ 0 mit |bn | ≤ M für alle n ∈ N. Dann gilt
auch |an bn | ≤ M |an | für alle n ∈ N. Gemäß (c) und (e) ist mit (an )n auch (M |an |)n eine Nullfolge. Mit
dem Vergleichskriterium 4.6 entpuppt sich auch (an bn )n als Nullfolge.
p
(g) Ist (an )n eine Nullfolge, so auch m |an | für jedes m ∈ N.
n
m
Sei ε > 0 gegeben. Ist (an )n eine Nullfolge, so können
p wir als Fehler ε vorgeben und finden ein nε mit
m
m
|an | < ε.
|an | < ε für alle n ≥ nε . Für diese n folgt dann
5.3 Beispiel. Wir betrachten die Folge (an )n mit
an :=
n2 − 1
n2 + 3
1
2
+√
2
n
n
2
.
2
Wir wissen, dass (1/n)n eine Nullfolge ist. Nach (b)
√ ist (1/n )n als Teilfolge mit den Quadratzahlen
eine Nullfolge.
√ Ferner ist nach (g) und (c) auch (2/ n)n eine Nullfolge. Nun erweist sich nach (d) auch
(1/n2 + 2/ n)n als Nullfolge. Wegen |(n2 − 1)/(n2 + 3)| ≤ n2 /n2 = 1 ist ((n2 − 1)/(n2 + 3))n eine
beschränkte Folge. Somit ist
2
2
n −1 1
+√
n2 + 3 n2
n
n
nach (f) auch Nullfolge. Da nach (a) Nullfolgen beschränkt sind, können wir (f) nochmal anwenden, und
erhalten, dass (an )n eine Nullfolge ist.
6
Konvergente Folgen, Grenzwert
6.1 Definition: Grenzwert. Eine Folge (an )n konvergiert gegen eine Zahl a oder hat den Grenzwert,
in Zeichen
oder
an → a für n → ∞,
lim an = a
n→∞
wenn (an − a)n eine Nullfolge ist, d.h. wenn zu jedem ε > 0 ein nε ∈ N existiert mit |an − a| < ε für alle
n ≥ nε .
In Quantorenschreibweise lautet diese Definition
(∃a ∈ R)(∀ε > 0)(∃nε ∈ N)(∀n ∈ N)(n ≥ nε ⇒ |an − a| < ε).
In Worten: Für jeden noch so kleinen Fehler ε > 0 unterscheiden sich mit vielleicht endlich vielen
”
Ausnahmen alle Folgenglieder um weniger als ε vom Grenzwert a.“
Eine konvergente Folge hat nur einen Grenzwert. Wären nämlich a und ã zwei Grenzwerte, so sind
(an − a)n und (an − ã)n Nullfolgen und damit auch ((an − a) − (an − ã))n = (a − ã)n . Das ist dann aber
eine konstante Nullfolge. Also gilt a = ã.
Nicht jede Folge konvergiert, wie das Beispiel ((−1)n )n zeigt.
6.2 Beispiele.
((2n + 1)/n)n hat den Grenzwert 2. Es gilt nämlich (2n + 1)/n − 2 = 1/n und (1/n)n ist eine Nullfolge.
22
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
(1 − 1/n2 )n )n konvergiert gegen 1. Nach der Bernoullischen Ungleichung §1.5.11 gilt nämlich
n
1
1
1
0<1− 1− 2
≤1− 1−n 2 =
n
n
n
und (1 − (1 − 1/n2 ))n ist damit nach dem Vergleichskriterium 4.6 eine Nullfolge.
6.3 Sandwichprinzip. Aus limn→∞ an = b = limn→∞ cn und an ≤ bn ≤ cn für alle n ∈ N folgt
limn→∞ bn = b.
Das Sandwichprinzip ist für Folgen ähnlich grundlegend wie das Vergleichskriterium 4.6 für Nullfolgen.
Beweis. Sei ε > 0 vorgegeben. Da (an )n und (cn )n gegen b konvergieren, existieren Zahlen nε,a , nε,c ∈ N
mit |an − b| < ε für alle n ≥ nε,a bzw. |cn − b| < ε für alle n ≥ nε,c . Setzen wir nε := max{nε,a , nε,c }, so
gilt für jedes n ≥ nε entweder bn ≥ b und damit 0 ≤ bn − b ≤ cn − b = |cn − b| < ε oder bn < b und damit
0 < b − bn ≤ b − an = |an − b| < ε. Auf jeden Fall gilt also |bn − b| < ε. Daher konvergiert (bn )n gegen b.
6.4 Monotonie des Grenzwerts. Konvergiert (an )n gegen a und existiert eine Schranke m ∈ R sowie
ein Index N mit an ≥ m (an ≤ m) für alle n ≥ N , so gilt a ≥ m (a ≤ m).
Konvergiert (an )n gegen ein a > 0, so existiert ein Index N ∈ N mit an > a/2 für alle n ≥ N .
Diese beiden Sätze geben an, wie sich Konvergenz mit der Anordnung von R verträgt. Ihr Beweis verläuft
ähnlich wie der des Sandwichprinzips 6.3.
Achtung. Aus an > m und limn→∞ an = a folgt nicht a > m, wie das Gegenbeispiel an = 1/n und
m = 0 zeigt.
6.5 Supremum und Infimum als Grenzwert. Sei M ⊂ R nichtleer und nach oben (unten) beschränkt. Nach dem Supremumsaxiom (A9) existiert dann ξ := sup M (ξ := inf M ). Definitionsgemäß
existiert zu jedem n ∈ N ein an ∈ M mit ξ − 1/n < an ≤ ξ (ξ ≤ an < ξ + 1/n). Also konvergiert (an )n
gegen ξ. Daher gilt:
Existiert ξ = sup M (ξ = inf M ) für M ⊂ R, so gibt es eine Folge in M , die gegen ξ konvergiert.
6.6 Eigenschaften konvergenter Folgen.
(a) Jede konvergente Folge ist beschränkt.
Konvergiert (an )n gegen a, so ist (an − a)n als Nullfolge nach 5.1 (a) beschränkt durch ein M ≥ 0. Mit
der Dreiecksungleichung folgt |an | = |a + an − a| ≤ |a| + |an − a| ≤ |a| + M für alle n ∈ N. Damit ist
(an )n durch |a| + M beschränkt.
(b) Jede Teilfolge einer konvergenten Folge konvergiert und hat denselben Grenzwert wie die Folge selbst.
Das folgt sofort aus 5.1 (b).
6.7 Rechenregeln für konvergente Folgen.
Ist a := limn→∞ an und b := limn→∞ bn , so gilt:
(c) limn→∞ (αan + βbn ) = αa + βb für beliebige α, β ∈ R.
(d) limn→∞ |an | = |a|.
(e) limn→∞ an bn = ab.
(f) limn→∞ bn /an = b/a falls a 6= 0. Dabei kann an höchstens endlich oft Null sein, die entsprechenden
Glieder müssen dann natürlich in der Folge (bn /an )n weggelassen werden.
(g) limn→∞ an m = am für jedes m ∈ N.
√
√
(h) limn→∞ an = a falls an ≥ 0 für alle n ∈ N.
23
KAPITEL 1. GRUNDLAGEN
Beweis. Wir machen jeweils durch geschicktes Abschätzen das Vergleichskriterium 4.6 anwendbar.
Zu (c): Wir zeigen, dass ((αan + βbn ) − (αa + βb))n eine Nullfolge ist. Tatsächlich gilt
|(αan + βbn ) − (αa + βb)| = |α(an − a) + β(bn − b)| ≤ |α||an − a| + |β||bn − b|
und die rechte Seite strebt nach den Rechenregeln für Nullfolgen 5.2 gegen Null.
Zu (d): Die umgekehrte Dreicksungleichung (siehe §1.4.7) liefert ||an | − |a|| ≤ |an − a| und die rechte Seite
konvergiert gegen Null. Also ist (|an | − |a|)n eine Nullfolge.
Zu (e): Nach 6.6 (b) ist (bn )n beschränkt, d.h. es gibt ein M ≥ 0 mit |bn | ≤ M für alle n ∈ N. Damit gilt
|an bn − ab| = |an bn − abn + abn − ab| = |(an − a)bn + a(bn − b)| ≤ M |an − a| + |a||bn − b|.
Die rechte Seite konvergiert nach den Rechenregeln für Nullfolgen 5.2 gegen Null, also auch (an bn − ab)n .
Zu (f): Wir zeigen limn→∞ 1/an = 1/a. Die Behauptung folgt dann aus (e). Sei zunächst a > 0. Nach 6.4
existiert ein N ∈ N mit an ≥ a/2 > 0 für alle n ≥ N . Für diese n folgt
1
1 a − an |an − a|
2
−
≤ 2 |an − a|
=
=
an
a an a an a
a
und entlarvt (1/an − 1/a)n als Nullfolge. Für a < 0 schließe man analog.
Zu (g): Dies folgt aus (e) durch Induktion nach m.
Zu (h): Aus an ≥ 0 folgt a ≥ 0 dank der Monotonie des Grenzwerts 6.4. Damit erhalten wir
an − a √
√
1
= √|an − a|
√
√ ≤ √ |an − a|.
| an − a| = √
an + a an + a
a
√
√
Die rechte Seite ist eine Nullfolsge und damit auch ( an − a)n .
6.8 Weitere konvergente Folgen.
p
(i) limn→∞ n |a| = 1 für jedes a 6= 0.
p
Beweis. Sei zunächst |a| ≥ 1. Dann ist bn := n |a| − 1 ≥ 0, und wir müssen limn→∞ bn = 0 zeigen. Aus
der Bernoullischen Ungleichung folgt |a| = (1 + bn )n ≥ 1 + nbn und weiter 0 ≤ bn ≤ (|a|
p − 1)/n für n ∈ N.
Nun liefert das Sandwichprinzip 6.3 die Behauptung. Für 0 < |a| < 1 betrachte man n 1/|a| und schließe
analog.
√
(j) limn→∞ n nm = 1 für jedes m ∈ N.
√
Beweis. Wir zeigen, dass an := n nm −1 eine Nullfolge ist. Für alle n ∈ N gilt an ≥ 0. Für alle n ≥ m+1
erhalten wir mit der binomischen Formel 5.9
n √ n
X
n
n
n
k
m
n
m
n
=
n
= (1 + an ) =
an ≥
an m+1
k
m+1
k=0
n(n − 1) · · · (n − m) m+1
nm+1
1
m
=
an
=
·1· 1−
··· 1 −
an m+1
(m + 1)!
(m + 1)!
n
n
1
1
m
≥
1−
··· 1 −
an m+1 nm+1
(m + 1)!
m+1
m+1
|
{z
}
=:B
mit einer Zahl B > 0. Für alle n ≥ m + 1 gilt daher 0 ≤ an m+1 ≤ 1/(Bn) und damit auch
|an | ≤
1
√
m+1
B
1
√ .
n
m+1
Nun zeigt das Vergleichskriterium 4.6 zusammen mit 4.4 (c), dass (an )n eine Nullfolge ist.
24
7
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
Intervallschachtelung und Dezimalbruchentwicklung
7.1 Definition: Intervallschachtelung. Eine Folge von Intervallen [cn , dn ] bildet eine Intervallschachtelung, wenn [cn+1 , dn+1 ] ⊂ [cn , dn ] für alle n ∈ N und dn − cn → 0 für n → ∞.
7.2 Satz über die Intervallschachtelung. Eine Intervallschachtelung erfasst genau eine reelle Zahl.
D.h. es existiert eine und nur eine Zahl x ∈ R, die zu allen Intervallen gehört. Für diese Zahl gilt
limn→∞ cn = x = limn→∞ dn .
Beweis. Definitionsgemäß gilt c1 ≤ c2 ≤ . . . ≤ cn ≤ cn+1 ≤ dn+1 ≤ dn ≤ . . . ≤ d2 ≤ d1 . Insbesondere ist
cn ≤ d1 für alle n ∈ N. Damit ist M := {cn | n ∈ N} nichtleer und nach oben beschränkt. Also existiert
x := sup M . Offensichtlich gilt x ≥ cn für alle n ∈ N. Nun ist auch jedes dn obere Schranke für M . Und
da x die kleinste obere Schranke von M ist, folgt x ≤ dn für alle n ∈ N. Wir haben also cn ≤ x ≤ dn für
alle n ∈ N und damit 0 ≤ x − cn ≤ dn − cn . Wegen limn→∞ (dn − cn ) = 0 gilt limn→∞ cn = x nach dem
Vergleichskriterium. Analog folgt limn→∞ dn = x.
7.3 Dezimalbruchentwicklung. Für eine vorgegebene reelle Zahl x ≥ 0 setzen wir
x0
:=
x1
:=
x2
:=
[x]
k
≤x ,
max k ∈ {0, 1, 2, . . . , 9} x0 +
10
x1
k
max k ∈ {0, 1, 2, . . . , 9} x0 +
+ 2 ≤x ,
10 10
usw. d.h. sind die Ziffern x0 , x1 , . . . , xn schon gefunden, so setzen wir
x1
x2
xn
k
xn+1 := max k ∈ {0, 1, 2, . . . , 9} x0 +
+
+ · · · + n + n+1 ≤ x ,
10 102
10
10
So ordnen wir jeder reellen Zahl x ≥ 0 eine ganze Zahl x0 ≥ 0 und eine Folge (xn )n von Ziffern zu, die
Dezimalbruchentwicklung von x, und schreiben
x = x0 , x1 x2 x3 . . .
(im angelsächsischen wird das Dezimalkomma durch einen Dezimalpunkt ersetzt). Gibt es ein N ∈ N mit
xn = 0 für alle n > N , so schreiben wir einfach
x = x0 , x1 x2 x3 . . . xN
und nennen x einen endlichen Dezimalbruch. Durch
cn := x0 +
x1
xn
+ ··· + n,
10
10
dn := cn +
1
10n
erhalten wir offensichtlich eine Intervallschachtelung [cn , dn ]. Konstruktionsgemäß gilt dann cn ≤ x < dn
für n ∈ N.
√
Beispiel. x = 5. Wegen 22 < 5 < 32 ist x0 = 2. Durch Probieren erhalten wir x1 = 2, da
2+
2
10
2
= 4, 84 < 5 < 5, 29 =
2+
3
10
2
,
und weiter x2 = 3, da
2+
Damit gilt 2, 23 <
√
2
3
+
10 10
5 < 2, 24.
2
= 4, 9729 < 5 < 5, 0176 =
2+
2
4
+
10 10
2
.
25
KAPITEL 1. GRUNDLAGEN
7.4 Eigenschaften der Dezimalbruchentwicklung.
(a) In der Dezimalbruchentwicklung kann es nicht vorkommen, das ab einer bestimmten Stelle alle Ziffern
gleich 9 sind.
(b) Ist x0 ≥ 0 eine ganze Zahl und ist (xn )n eine Folge von Ziffern, die nicht von einer bestimmten Stelle
ab alle gleich 9 sind, so gibt es genau eine reelle Zahl x, die diese Dezimalbruchentwicklung hat.
(c) Genau dann sind x und y verschieden, wenn sich die Dezimalbruchentwicklungen von x und y an
mindestens einer Stelle unterscheiden.
Beweis∗ . Zu (a): Wäre xn = 9 für alle n > N und xN < 9, so zeigt eine kurze Rechnung
cn = cN +
9
9
+ ··· + n,
10N +1
10
dn = cn +
1
1
= cN + N .
10n
10
Wegen dn → x hätten wir x = cN + 1/10N im Widerspruch zur Definition von cN .
Zu (b): Die zu x0 und den Ziffern x1 , . . . , xn wie zuvor gebildeten Zahlen
cn := x0 +
xn
x1
+ ··· + n,
10
10
dn := cn +
1
10n
ergeben eine Intervallschachtelung, welche genau eine Zahl x erfaßt. Wir müssen nur noch begründen,
dass x die vorgegebene Dezimalbruchentwicklung hat. Hierzu genügt der Nachweis von cn ≤ x < dn
für alle n ∈ N. Wäre x = dN für ein N , so auch x = dn für alle n ≥ N , da dn ≤ dN . Es folgt
cn+1 − cn = (dN − 1/10n+1 ) − (dN − 1/10n ) = 9/10n+1 , d.h. xn = 9 für alle n > N , was nicht sein darf.
Zu (c): Unterscheiden sich die Dezimalbruchentwicklungen von x und y erstmals an der N -ten Stelle, so
können wir xN < yN annehmen (ansonsten vertausche man die Rollen von x und y). Dann gilt
xN
1
yN yN − xN − 1
≥ 0.
y − x > y0 + · · · + N − x0 + · · · + N + N =
10
10
10
10N
Also sind x und y verschieden.
7.5 Gültige Stellen beim Runden von Dezimalbrüchen. Schreiben wir x = 5, 23, so bedeutet das
2
x = 5 + 10
+ 1032 . Dagegen soll x ≈ 5, 23 besagen, dass die letzte angegebene Stelle aus der Dezimalbruchentwicklung von x durch Runden entstanden ist. In unserem Fall gilt 5, 255 ≤ x < 5, 235 und wir sagen,
dass x auf drei Stellen genau“ angegeben ist. In diesem Zusammenhang wird die Potenzschreibweise
”
verwendet. Will man beispielsweise 42010 auf drei gültige Stellen angeben, so schreibt man 4, 20 · 104 ,
analog wird 0, 00587 durch 5, 9 · 10−3 auf zwei gültige Stellen angegeben.
Messwerte werden immer mit sovielen Stellen angegeben, wie es der Messgenauigkeit entspricht. Werden
Messergebnisse in Berechnungen verwendet, so hat der Messfehler Auswirkungen auf die Genauigkeit des
Ergebnisses. Wie sich der Messfehler fortpflanzt, können wir später mit Mitteln der Analysis untersuchen.
Haben wir beispielsweise x ≈ 0, 010, d.h. 0, 0095 ≤ x < 0, 0105, so gilt 95 < 1/x < 106.
7.6 Überabzählbarkeit von R. Schon die Menge [0, 1[ und damit erst recht R lässt sich nicht abzählen.
Wäre nämlich [0, 1[= {zn | n ∈ N} abzählbar, so könnten wir aus den einzelnen Dezimaldarstellungen
z1
=
0, x11 x12 x13 . . . ,
z2
=
0, x21 x22 x23 . . . ,
z3
=
..
.
0, x31 x32 x33 . . . ,
eine Zahl y = 0, y1 y2 , y3 . . . mittels yn := 9 − xnn konstruieren. Dann wäre y ∈ [0, 1[ und keine der Zahlen
obiger Aufzählung, da sich y von zn an der n-ten Nachkommastelle unterscheidet — ein Widerspruch.
26
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
7.7∗ Bemerkung zur Existenz und Eindeutigkeit von R. Wer sich für einen deduktiven Aufbau
der Analysis interessiert: Wir haben postuliert, dass die reellen Zahlen die Axiome (A1)–(A8) erfüllen —
ohne zunächst zu wissen, ob es überhaupt eine oder vielleicht sogar viele derartige Mengen gibt. Jetzt
haben wir aus diesem Postulat abgeleitet, dass sich jede dieser Mengen als die Menge aller Dezimalbrüche
darstellen lässt. In diesem Sinn gibt es eine und auch nur eine Menge reeller Zahlen — nämlich die Menge
aller Dezimalbrüche.
8
Konvergenznachweis ohne Kenntnis des Grenzwerts
8.1 Problemstellung. Die uns bisher bekannten Techniken zur Konvergenzuntersuchung haben einen
entscheidenden Nachteil: man muss einen Kandidaten für den Grenzwert haben, um mit dem Konvergenznachweis beginnen zu können. Betrachten Sie das folgende Beispiel. Haben Sie eine Vermutung über
den Grenzwert?
n
1
2
3
4
5
10
15
20
30
50
(1 − n1 )n
0
0, 25
≈ 0, 296
≈ 0, 316
≈ 0, 328
≈ 0, 349
≈ 0, 355
≈ 0, 358
≈ 0, 362
≈ 0, 364
0.4
0.3
0.2
0.1
20
40
60
80
100
Abbildung 1.2: Die ersten 100 Glieder von ((1 − 1/n)n )n .
Wir werden nun Kriterien bereitstellen, mit denen die Konvergenz einer Folge nachgewiesen werden kann,
ohne den Grenzwert zu kennen. Wozu das alles? Nun, wir können solche Folgen dazu verwenden, neue“
”
Zahlen (wie die Eulersche Zahl e) und Funktionen (wie die Exponentialfunktion und die trigonometrischen
Funktionen) zu definieren.
8.2 Monotone Folgen. Eine Folge (an )n heißt monoton wachsend (monoton fallend ), wenn an ≤ an+1
für alle n ∈ N. Gilt sogar an < an+1 (an > an+1 ), so heißt (an )n streng monoton wachsend (streng
monoton fallend .
Da das Konvergenzverhalten einer Folge nicht von den ersten Gliedern abhängt, ist es i.A. nur wichtig
zu wissen, ob eine Folge von einer bestimmten Stelle an monoton ist.
8.3 Monotoniekriterium für Folgen. Jede monoton wachsende (fallende) und nach oben (unten)
beschränkte Folge konvergiert.
Beweis. Sei (an )n eine beschränkte und monoton wachsende Folge. Die Menge {an ∈ R | n ∈ N} ist
damit nach oben beschränkt. Also besitzt sie ein Supremum a ∈ R und es gilt an ≤ a alle n ∈ N. Sei nun
ε > 0 vorgegeben. Nach Definition des Supremums existiert ein nε ∈ N mit anε ≥ a − ε, andernfalls wäre
a − ε eine kleinere obere Schranke als a. Da (an )n monoton wächst, folgt 0 ≤ a − an ≤ a − anε < ε für
n ≥ nε . Damit konvergiert (an )n gegen a. Für eine monoton fallende Folge argumentiere man analog.
27
KAPITEL 1. GRUNDLAGEN
8.4 Anwendungsbeispiel: radioaktiver Zerfall. Die Anzahl ∆N der innerhalb einer Zeitspanne
∆T zerfallenden Atome einer radioaktiven Substanz ist näherungsweise proportional zur Anzahl N der
vorhandenen Atome. Es gilt also ∆N = β∆T N und nach ∆T sind noch N − ∆N = N (1 − β∆T ) Atome
vorhanden. Der Proportionalitätsfaktor β wird Zerfallskonstante genannt.
Gibt es zur Zeit t = 0 gerade N0 Atome, so erhält man die Anzahl N (t) von Atomen nach einer längeren
Zeit t näherungsweise, indem man den Zeitraum in n gleichgroße Teilintervalle ∆T = t/n aufteilt. Nach
∆T sind dann N0 (1 − βt/n), nach 2∆T noch N0 (1 − βt/n)2 und zur Zeit t schließlich N0 (1 − βt/n)n
Atome vorhanden. Im Grenzfall haben wir also zur Zeit t noch N (t) = N0 limn→∞ (1 − βt/n)n Atome.
Wie verhält sich nun die Folge an = (1 − x/n)n für ein x > 0? Wegen an < 1n = 1 ist (an )n nach oben
beschränkt. Mit der Bernoullischen Ungleichung §1.5.11 erhalten wir für n > x
an+1
an
=
≥
n+1
( n+1−x
n+1 )
n+1
n+1
n+1−x n
n−x
x
=
1
+
n
n+1 n−x
n
(n + 1)(n − x)
( n−x
n )
n−x
(n + 1)x
n−x
x
1+
=
1+
= 1,
n
(n + 1)(n − x)
n
n−x
=
n−x
n
d.h. an+1 ≥ an . Also ist (an )n ab einem Index monoton wachsend. Damit konvergiert ((1 − x/n)n )n . In
2.§2 werden den Grenzwert als die Zahl e−x entlarven, d.h. N (t) = N0 e−βt . Aus der obigen Schranke für
(an )n erhalten wir mit der Monotonie des Grenzwerts 6.4 momentan lediglich limn→∞ (1 − x/n)n ≤ 1.
8.5 Anwendungsbeispiel: Babylonisches Wurzelziehen. Für jede Zahl a > 1 konvergiert die durch
1
a
a1 := a,
an+1 :=
an +
für n ≥ 1
2
an
rekursiv definierte Folge (an )n monoton fallend gegen
0 < an+1 −
√
√
a. Hierbei besteht die Fehlerabschätzung
√
1
a < √ (an − a)2 .
a
Den Nachweis der Monotonie und Beschränktheit von (an )n sowie
√ der Fehlerabschätzung lassen wir als
Übungsaufgabe. Die Existenz des Grenzwerts limn→∞ an =: c ≥ a folgt dann aus dem Monotoniekriterium 6.4.
Nun zeigen wir, wie wir hier aus dem bloßen Wissen um die Existenz des Grenzwerts c auch seinen Wert
erhalten. Nach 6.7 gilt mit an → c auch (an + a/an )/2 → (c + a/c)/2 für n → ∞. Wir können also
in der Rekursion an+1 = (an + a/an )/2 auf beiden Seiten zum
und erhalten die
√ Grenzwert übergehen
√
Bedingungsgleichung c = (c + a/c)/2, d.h. c2 = a. Wegen c ≥ a muss dann c = a gelten.
√
Die Fehlerabschätzung ist√beachtenswert: Hat man im n-ten Schritt
√ a durch an mit einem Fehler ε approximiert (d.h.
√ gilt |a√n − a| = ε), so folgt für den Fehler |an+1 − a| im nächsten Approximationsschritt
0 < an+1 − a < ε2 / a < ε2 . Die Anzahl der gültigen Ziffern verdoppelt sich also jeweils.
8.6∗ Satz von Bolzano-Weierstraß. Jede beschränkte Folge besitzt mindestens eine konvergente Teilfolge.
Dieser Satz ist meist die letzte Rettung, wenn man das Monotoniekriterium 6.4 nicht anwenden kann.
Vermutet man bei einer beschränkten Folge Konvergenz und liegt keine Monotonie vor, so kann man mit
diesem Satz wenigstens eine konvergente Teilfolge aussondern und sich von dieser aus weiterhangeln.
Beweis. Wir konstruieren eine Intervallschachtelung. Ist (an )n durch M beschränkt, so setzen wir
(
[−M, 0] falls an ≤ 0 für unendlich viele Indizes n,
I1 = [c1 , d1 ] :=
[0, M ]
sonst.
28
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
Den kleinsten Index der Folgenglieder an ∈ I1 bezeichnen wir mit n1 , d.h. n1 := min{n ≥ 1 | an ∈ I1 }.
Dann gilt an1 ∈ I1 und in I1 liegen unendlich viele Folgenglieder. Nun setzen wir
c1 + d1
c1 + d1
falls an ≤
für unendlich viele Indizes n,
c1 ,
2
2
I2 = [c2 , d2 ] :=
c1 + d1
, d1
sonst.
2
Nun bezeichnen wir den kleinsten Index der an ∈ I2 , n ≥ n1 , mit n2 , d.h. n2 := min{n ≥ n1 | an ∈ I2 }.
Dann gilt an2 ∈ I2 und in I2 liegen unendlich viele Folgenglieder. So fahren wir fort und erhalten nach k
Schritten ein Intervall Ik = [ck , ck ] mit Ik ⊂ Ik−1 , dk − ck = M/2k , einen Index nk mit ank ∈ Ik und Ik
enthält unendlich viele Folgenglieder.
Die so definierte Intervallschachtelung erfasst genau eine Zahl a = limk→∞ ck = limn→∞ dk . Wegen
ck ≤ ank ≤ dk gilt aber auch limk→∞ ank = a und wir haben eine konvergente Teilfolge gefunden.
8.7∗ Cauchy-Folgen. Eine Folge (an )n heißt Cauchy-Folge, wenn es zu jedem ε > 0 ein nε ∈ N gibt
mit |an − am | < ε für alle n, m ∈ N mit n, m ≥ nε .
Cauchy-Folgen können zur Konvergenzdiskussion ohne Kenntnis des Grenzwerts verwendet werden. Die
Ungleichung
|an − am | = |(an − a) + (a − am )| ≤ |an − a| + |am − a|
impliziert nämlich: jede konvergente Folge ist eine Cauchy-Folge.
Umgekehrt gilt in R: jede Cauchy-Folge besitzt einen Grenzwert, man sagt: R ist vollständig. Der Beweis wird mit Hilfe des Satzes von Bolzano-Weierstraß geführt. Tatsächlich kann man zeigen, dass die
Vollständigkeit von R äquivalent zum Supremumsaxiom (A9) ist (vgl. [Kön, Band 1, 5.6]).
9
Uneigentliche Grenzwerte
9.1 Definition: uneigentlicher Grenzwert.
(divergiert bestimmt gegen −∞) in Zeichen
lim an = +∞
n→∞
oder
Eine Folge (an )n konvergiert uneigentlich gegen +∞
an → +∞
für n → ∞,
wenn zu jedem M ∈ R ein nM ∈ N existiert mit an > M für alle n ≥ nM .
In Quantorenschreibweise lautet diese Definition
(∀M ∈ R)(∃nM ∈ N)(∀n ∈ N)(n ≥ nM ⇒ an > M ).
In Worten: Für jede noch so große Schranke M sind mit vielleicht endlich vielen Ausnahmen alle Fol”
genglieder größer als M .“
Analog erklären wir, was uneigentliche Konvergenz bzw. bestimmte Divergenz gegen −∞ bedeutet.
9.2 Eigentliche und uneigentliche Konvergenz. Die zuvor in den Abschnitten 4–7 diskutierte
Konvergenz einer Folge gegen eine reelle Zahl nennt man auch eigentliche Konvergenz , um selbige von der
uneigentlichen abzusetzen. Eine Folge, die weder eigentlich noch uneigentlich konvergiert, heißt divergent.
Beispiel. Die Folge (n2 )n konvergiert uneigentlich gegen +∞. Dagegen ist ((−n)n+1 )n weder eigentlich
noch uneigentlich konvergent. Die Teilfolge ((−2k)2k+1 )k = (−(2k)2k+1 )k der Folgenglieder mit geradem
Index dagegen divergiert bestimmt gegen −∞.
9.3 Umgang mit uneigentlichen Grenzwerten. Leider lassen sich nicht alle der in Abschnitt 6
für eigentlich konvergente Folgen genannten Eigenschaften auf uneigentlich konvergente Folgen übertragen. Aus limn→∞ an = +∞ und limn→∞ bn = −∞ kann beispielsweise überhaupt nichts über das
Konvergenzverhalten von (an + bn )n geschlossen werden. Man mache sich das an Beispielen klar.
29
KAPITEL 1. GRUNDLAGEN
Achtung. Wir haben keine Rechenregeln für uneigentlich konvergenten Folgen.
Normalerweise hilft der folgende Satz weiter, der uneigentliche Konvergenz auf eigentliche zurückspielt.
Genau dann ist (an )n uneigentlich konvergent gegen +∞ (−∞), wenn ab einem Index N alle Folgenglieder
positiv (negativ) sind, d.h. an > 0 (an < 0) für alle n ≥ N und wenn (1/an )n≥N eine Nullfolge ist.
Beispiel. 2n /(2n − 5) → +∞, da (2n − 5)/2n > 0 für n ≥ 3 und (2n − 5)/2n = 2n(1/2)n − 5(1/2)n → 0
nach 4.8 und 5.2 (d).
9.4∗ Häufungspunkte. Eine reelle Zahl a heißt (eigentlicher) Häufungspunkt einer Folge (an )n , wenn
es eine Teilfolge gibt, die gegen a konvergiert. Hat (an )n eine Teilfolge, die uneigentlich gegen +∞ (−∞)
konvergiert, so heißt +∞ (−∞) uneigentlicher Häufungspunkt von (an )n .
Nach dem Satz von Bolzano-Weierstraß 8.6 hat jede beschränkte Folge mindestens einen eigentlichen
Häufungspunkt. Jede Folge hat somit mindestens einen (eigentlichen oder uneigentlichen) Häufungspunkt.
Und eine konvergente Folge hat nach 6.6 (b) genau einen Häufungspunkt.
Man kann zeigen, dass die Folge (cn )n in 3.2 (d) beschränkt ist mit 0 ≤ cn ≤ 1 und dass jede Zahl
c ∈ [0, 1] ein Häufungspunkt von (cn )n ist.
9.5 Landau-Notation für Folgen. Um das Konvergenz- oder Wachstumsverhalten einer Folge (an )n
genauer zu beschreiben möchte man manchmal nicht nur den Grenzwert angeben, sondern auch ausdrücken wie schnell“ sie eigentlich oder uneigentlich konvergiert. Hierzu wählt man eine Vergleichsfolge
”
(bn )n und schreibt
an an = O(bn ) für n → ∞
falls eine Konstante M > 0 existiert mit ≤ M für alle n ∈ N.
bn
In Worten: an ist ein Groß-O von bn für n → ∞“. Das Landau-O drückt aus, dass (an )n mindestens so
”
schnell wie (bn )n konvergiert, bzw. höchstens so schnell wie (bn )n wächst
Will man mitteilen, dass (an )n schneller wie (bn )n konvergiert bzw. langsamer als (bn )n wächst, so
verwendet man das Landau-O,
an = O(bn )
für n → ∞
falls
an
→ 0 für n → ∞.
bn
In Worten: an ist ein Klein-O von bn für n → ∞“.
”
Für die Vergleichsfolge (bn )n wählt man typischerweise
• (nm )n , m ∈ N, polynomiales Wachstum,
• (M n )n , M > 1, exponentielles Wachstum,
• (n−m )n , m ∈ N, polynomialer Abfall ,
• (q n )n , 0 < q < 1, exponentieller Abfall .
Beispiel. Die Folge ((n + 1)2 (2x)n )n wächst exponentiell für |x| > 1/2, polynomial für |x| = 1/2 und
fällt exponentiell für |x| < 1/2.
Die Grenzwertaussage limn→∞ nm q n = 0 für m ∈ N0 und |q| < 1 aus 4.8 besagt q n = O(n−m ) sowie
nm = O(M n ), M := 1/|q|, für n → ∞. Man sagt: exponentieller Abfall schlägt polynomialen“, bzw.
”
exponentielles Wachstum schlägt polynomiales“.
”
9.6 Asymptotische Gleichheit. Zwei Folgen (an )n und (bn )n heißen asymptotisch gleich, in Zeichen
an ' bn wenn limn→∞ an /bn = 1.
Beispiel. Es gilt (n + 1)2 ' n2 , obwohl limn→∞ (an − bn ) = +∞.
30
§3. KOMPLEXE ZAHLEN
§3
Komplexe Zahlen
Wir führen die komplexen Zahlen frühzeitig ein, weil sich Vieles dann einheitlich und leicht darstellen
lässt. Dies trifft beispielsweise für den Umgang mit Polynomen und rationalen Funktionen zu, aber auch
für trigonometrische Funktionen. Ebenso lassen sich die verschiedenen Schwingungsdifferentialgleichungen
mit einem einheitlichen Ansatz lösen.
1
Rechnen mit komplexen Zahlen
1.1 Was sind komplexe Zahlen? Im 16. Jahrhundert begann man die komplexen Zahlen zum Lösen
von quadratischen und kubischen Gleichungen zu verwenden. So rechnete 1545 Geronimo Cardano unter
”
Überwindung geistiger Qualen“ mit Quadratwurzeln aus negativen Zahlen. Leonhard Euler (1707–1783),
dem auch die erstmalige Verwendung des Symbols i als Lösung der Gleichung z 2 = −11 zugeschrieben
wird, setzte komplexe√Zahlen
Gewinn, aber auch unbedenklich ein. So tritt bei ihm beispiels√
√ mit großem
weise die Rechnung −1 · −4 = 4 = 2 auf. Nach den Regeln der Algebra müsste aber i · 2i = −2
sein.
Wir werden uns zunächst darum kümmern, das Rechnen mit den komplexen Zahlen abzusichern. Anschließend wenden wir uns ihrer geometrischen Interpretation zu.
1.2 Komplexe Zahlen, Addition und Multiplikation.
geordneten Paare reeller Zahlen erklären wir durch
(a, b) + (c, d)
(a, b) · (c, d)
Auf der Menge {(a, b) | a, b ∈ R} der
:= (a + c, b + d),
:= (ac − bd, ad + bc)
eine Addition und eine Multiplikation. Diese Menge nennen wir die komplexen Zahlen und bezeichnen sie
mit C.
1.3 Körpereigenschaft von C. Durch Nachrechnen verifiziert man, dass die Körperaxiome (A1)–(A5)
erfüllt sind. Beispielsweise ist (0, 0) das neutrale Element der Addition, (1, 0) das neutrale Element der
Multiplikation, additiv Inverses zu (a, b) ist (−a, −b), multiplikativ Inverses zu (a, b) 6= (0, 0) (d.h. a 6= 0
oder b 6= 0) ist (a/(a2 + b2 ), −b/(a2 + b2 )).
1.4 Einbettung der reellen Zahlen in C. Mit Paaren der Form (x, 0) wird in C genauso gerechnet
wie mit den Zahlen x ∈ R. Es gilt dann nämlich
(x, 0) + (y, 0)
(x, 0) · (y, 0)
:= (x + y, 0),
:= (xy, 0).
Wir unterscheiden daher ab sofort nicht mehr zwischen der komplexen Zahl (x, 0) und der reellen Zahl x,
sondern wir fassen x = (x, 0) als Element von C auf. Damit ist R ein Teilkörper von C.
1.5 Imaginäre Einheit. Setzen wir
i := (0, 1),
so folgt i2 = (−1, 0) = −1. Die Zahl i heißt imaginäre Einheit. Damit hat die Gleichung z 2 + 1 = 0 in C
eine Lösung: i2 + 1 = 0. Selbstverständlich gilt auch (−i)2 + 1 = 0. Eine beliebige Zahl (a, b) ∈ C kann
nun in der Form
(a, b) = (a, 0) + (0, b) = (a, 0) + (0, 1) · (b, 0) = a + ib
geschrieben werden. Für eine komplexe Zahl schreiben wir darum ab sofort statt (a, b) einfach a + ib.
1.6 Real- und Imaginärteil. In der Darstellung z = a+ib einer komplexen Zahl z mit reellen Zahlen a
und b heißt a =: Re(z) der Realteil und b =: Im(z) der Imaginärteil von z.
1 Für
reelle Variable wird gerne das Symbol x verwendet, für komplexe z.
31
KAPITEL 1. GRUNDLAGEN
1.7 Addition und Multiplikation komplexer Zahlen. Insbesondere erhalten wir für z, w ∈ C mit
z = a + ib und w = c + id die Beziehungen
z+w
=
(a + ib) + (c + id) = (a + c) + i(b + d),
z−w
zw
z
w
= (a + ib) − (c + id) = (a − c) + i(b − d),
= (a + ib)(c + id) = (ac − bd) + i(ad + bc),
a + ib
(a + ib)(c − id))
ac + bd
−ad + bc
=
=
= 2
+i 2
2
c + id
(c + id)(c − id)
c +d
c + d2
falls w 6= 0.
Komplexe Zahlen werden also addiert, indem man jeweils ihre Real- und Imaginärteile addiert:
Re(z + w) = Re(z) + Re(w),
Im(z + w) = Im(z) + Im(w).
Die Multiplikation ist etwas komplizierter, Real- bzw. Imaginärteil des Produkts berechnen sich gemäß
Re(zw) = Re(z) Re(w) − Im(z) Im(w),
Im(zw) = Re(z) Im(w) + Im(z) Re(w).
1.8 Was bleibt erhalten? Die komplexen Zahlen bilden ebenso wie die reellen einen Körper. Darum
bleiben alle Formeln, wie wir nur aus den Körpereigenschaften abgeleitet haben, erhalten. Insbesondere
sind dies die Rechenregeln §1.3.2, unsere Definitionfür Potenzen (cn für c ∈ C und n ∈ N0 bzw. c ∈ Cr{0}
und −n ∈ N) und Binomialkoeffizienten §1.5.8 ( kc für c ∈ C und n ∈ N0 ), die binomische Formel §1.5.9
((a + b)n für a, b ∈ C und n ∈ N0 ) und die geometrische Summenformel §1.5.10 (an − bn für a, b ∈ C und
n ∈ N0 ).
Im Gegensatz zu R kann C nicht geordnet werden. In einem geordneten Körper haben wir nämlich a2 > 0
für alle a 6= 0 nach §1.4.3 (b), in C gilt aber i2 = −1.
2
Gaußsche Zahlenebene
2.1 Komplexe Zahlen als Punkte in der Ebene.
Wir haben die komplexen Zahlen als Paare reeller
Zahlen (a, b) eingeführt. Für das Rechnen ist die Darstellung a + ib vorteilhafter. Die Paardarstellung (a, b)
hat aber auch ihren Nutzen: wir können die komplexen
Zahlen als Punkte in der Zahlenebene wiederfinden. Zu
Ehren von Carl Friedrich Gauß wird sie auch Gaußsche
Zahlenebene genannt.
Die reellen Zahlen (a, 0) bilden die reelle Achse, die rein
imaginären Zahlen (0, b) bilden die imaginäre Achse.
Real- und Imaginärteil einer komplexen Zahl sind dann
gerade die Koordinaten bezüglich dieser beiden Achsen.
Man nennt sie auch kartesische Koordinaten.
b = Im(z)
i
|z| =
0
z = a + ib
√
a2 + b2
1
a = Re(z)
Abbildung 1.3: Zahlenebene.
2.2 Betrag einer komplexen Zahl. Für z = a + ib ∈ C, a, b ∈ R, nennen wir
p
p
|z| := a2 + b2 = (Re z)2 + (Im z)2 .
den Betrag von z. Nach dem Satz des Pythagoras ist |z| gerade der Abstand von z zum Ursprung der
Zahlenebene.
√
Für reelle Zahlen stimmt diese neue Betragsdefinition wegen a2 = |a| für a ∈ R mit der alten aus §1.4.5
überein.
Durch |z − a| wird der Abstand zweier komplexer Zahlen z und a angegeben. Darum ist
Kr (a) := {z ∈ C | |z − a| < r}
für r > 0
gerade das Innere des Kreises mit Mittelpunkt a und Radius r. Wie beschreibt man eine Kreisscheibe,
bzw. eine Kreislinie?
32
§3. KOMPLEXE ZAHLEN
2.3 Beschränkte Mengen. Eine Teilmenge M ⊂ C
heißt beschränkt, wenn es eine Schranke m ≥ 0 gibt mit
−z = −a + ib
|z| ≤ m für alle z ∈ M .
z = a + ib
Ist M sogar eine Teilmenge von R so stimmt diese
Definition mit der alten §1.7.3 überein. Geometrisch
gesehen bedeutet Beschränktheit von M , dass die
Menge M ganz in der Kreisscheibe mit Radius m um
−z = −a − ib
den Ursprung enthalten ist.
z = a − ib
2.4 Konjugieren. Für z = a + ib mit a, b ∈ R heißt
z := a − ib die zu z konjugierte Zahl. Insbesondere gilt
i = −i. Geometrisch gedeutet ist das Konjugieren gerade das Spiegeln an der reellen Achse.
Abbildung 1.4: Konjugieren.
2.5 Rechenregeln für Konjugieren und Betrag. Für komplexe Zahlen z und w gilt
(a) z + w = z + w, zw = z · w, z = z;
(b) Re(z) =
z+z
2 ,
Im(z) =
z−z
2i ;
(c) |z|2 = z · z;
(d)
1
z
=
z
|z|2
falls z 6= 0;
(e) | Re z|, | Im z| ≤ |z| ≤ | Re z| + | Im z|;
(f) |z| ≥ 0 und genau dann ist |z| = 0, wenn z = 0;
(g) |zw| = |z||w|;
(h) |z + w| ≤ |z| + |w| (Dreiecksungleichung);
(i) ||z| − |w|| ≤ |z − w| (umgekehrte Dreiecksungleichung).
Beweis. Die Regeln (a), (b) und (f) sind unmittelbar einsichtig. Setzen wir a = Re(z) und b = Im(z) so
erhalten wir (c) aus z · z = (a + ib)(a − ib) = a2 − (ib)2 = a2 + b2 = |z|2 . Hieraus folgt sofort (d) sowie
|zw|2 = |z|2 |w|2 . Wurzelziehen liefert dank (f) nun (g). Ebenso erhalten wir (e) aus
| Re z|2
≤ (Re z)2 + (Im z)2 ≤ | Re z|2 + 2| Re z|| Im z| + | Im z|2 = (| Re z| + | Im z|)2 ,
{z
}
|
| Im z|2
=|z|2
sowie (h) aus
|z + w|2
=
(e)
≤
(z + w)(z + w) = zz + zw + zw + ww = |z|2 + 2 Re(zw) + |w|2
|z|2 + 2|zw| + |w|2
(a),(g)
=
|z|2 + 2|z||w| + |w|2 = (|z| + |w|)2 .
Nun folgt (i) genau so wie im reellen Fall.
2.6 Beispiele zu Konjugieren und Betrag. Man sieht, dass Konjugieren oft nützlicher als sofortiges
Bilden von Real- und Imaginärteil ist. Beispielsweise berechnen wir Real- und Imaginärteil von 1/(1 + i)
bequem mit Hilfe von (d) zu
1−i
1−i
1−i
1
1
1
=
=
=
= −i ,
1+i
(1 + i)(1 − i)
1 − i2
2
2
2
d.h.
Re
1
1
= ,
1+i
2
Im
1
1
=− .
1+i
2
z+1
Ähnlich leicht können wir die Punkte z ∈ C mit | z−1
| = 1 bestimmen. Für diese Punkte gilt nämlich
0 = |z + 1|2 − |z − 1|2 = (z + 1)(z + 1) − (z − 1)(z − 1) = 2z + 2z = 4 Re(z),
33
KAPITEL 1. GRUNDLAGEN
d.h. z ist rein imaginär. Zu derselben Einsicht kommen wir auch durch geometrische Interpretation der
Bedingung |z + 1| = |z − 1|. Der Punkt z muss von den Punkten −1 und 1 gleich weit entfernt sein, d.h.
er liegt auf der imaginären Achse.
2.7 Geometrische Deutung der Addition. Die komponentenweise Addition komplexer Zahlen bedeutet geometrisch die Addition von Vektoren. Man erhält z + w, indem man die Punkte 0, z und w zu
einem Parallelogramm ergänzt. Die Dreiecksungleichung 2.5 (h) besagt daher: in einem Dreieck ist eine
”
Seite nie länger als die Summe der beiden anderen Seitenlängen“.
Fixieren wir in unserer geometrischen Vorstellung der Addition z + w die Zahl w, so bewirkt z 7→ z + w
eine Verschiebung von z um w. Beispielsweise geht das Kreisinnere Kr (0) durch Verschiebung um w in
das Kreisinnere Kr (w) über.
z+w
w
z
z
z+w
0
z 7→ z + w
Abbildung 1.5: Addition komplexer Zahlen mit der Parallelogrammregel, Addition als Verschiebung.
2.8 Geometrische Deutung der Multiplikation. Die Multiplikation z 7→ rz mit einer positiven
Zahl r, bewirkt wegen r(a + ib) = ra + irb eine Streckung um den Faktor r (für r > 1 ist das eine echte
Streckung, für 0 < r < 1 ist eine Stauchung).
Analog bewirkt die Multiplikation z 7→ iz mit i wegen i(a + ib) = −b + ia eine Vierteldrehung gegen
den Urzeigersinn. Daher bewirkt z 7→ −z = i(iz) eine halbe Drehung und z 7→ −iz = i(i(iz)) eine
Dreivierteldrehung gegen den Uhrzeigersinn.
rz
z
z
iz
z 7→ rz
z 7→ iz
Abbildung 1.6: Steckung bzw. Vierteldrehung in der Zahlenebene.
34
§3. KOMPLEXE ZAHLEN
Allgemein kann eine Multiplikation z 7→ zw mit einer komplexen Zahl w 6= 0 als eine Drehstreckung
gedeutet werden. Wir werden das in 2.§2.5.16 mit Hilfe der Polarkoordinatendarstellung z = reiϕ einsehen,
welche z durch den Betrag r = |z| und das Argument ϕ, d.h. den orientierten Winkel zwischen z und der
positiven reellen Achse darstellt. Stellen wir auch w = ρeiψ in Polarkoordinaten dar und verwenden wir
im Vorgriff die Funktionalgleichung ex+y = ex ey der Expontentialfunktion aus 2.§2.1.2, so gilt nämlich
zw = reiϕ ρeiψ = rρei(ϕ+ψ) , d.h. der Betrag von z hat sich nach Multiplikation mit w um den Faktor ρ
vergrößert und das Argument um ψ erhöht. Also ist zw gegenüber z um den Faktor ρ gestreckt und um
den Winkel ψ gedreht.
zw = rρei(ϕ+ψ)
rρ
ρ
w = ρeiψ
zw
ψ
r
ϕ+ψ
z
z = reiϕ
ϕ
z 7→ zw
Abbildung 1.7: Multiplikation komplexer Zahlen in Polarkoordinaten, Multiplikation als Drehstreckung.
2.9 Geometrische Deutung des Kehrwertbildens.
Die Inversion z 7→ 1/z wird wegen 1/z = z/|z|2 als
Spiegelung am Einheitskreis {z ∈ C | |z| = 1} und
anschließender Spiegelung an der reellen Achse gedeutet.
Allgemein sagt man, dass zwei Punkte z und z 0 durch
Spiegelung am Kreis mit Radius r um den Ursprung
auseinander hervorgehen, wenn
• z und z 0 auf der selben Halbgeraden durch 0 liegen
und
z0
z
• das Produkt ihrer Längen r2 ist.
Diese Beobachtung ist in der Optik nützlich.
2.10 Fazit. Addition und Multiplikation komplexer
Zahlen können geometrisch gedeutet werden. Für die
Addition ist die Darstellung in kartesischen Koordinaten, für die Multiplikation die in Polarkoordinaten vorteilhaft. Wir werden das in 2.§2.5.16 vertiefen.
3
1/z = z 0
Abbildung 1.8: Inversion am Einheitskreis.
Folgen komplexer Zahlen
3.1 Konvergenz für Folgen komplexer Zahlen. Wir erinnern uns an die Einführung des Konvergenzbegriffs für reelle Zahlenfolgen §2.6.1: Für jeden noch so kleinen Fehler ε > 0 unterscheiden sich mit
”
vielleicht endlich vielen Ausnahmen alle Folgenglieder um weniger als ε vom Grenzwert a.“ Nun können
wir auch in C den Abstand von z und a messen — nämlich durch den Betrag |z − a|. Damit lässt sich
die Grenzwertdefinition auf komplexe Zahlenfolgen erweitern.
35
KAPITEL 1. GRUNDLAGEN
Definition. Eine Folge (an )n komplexer Zahlen konvergiert gegen eine komplexe Zahl a, in Zeichen
limn→∞ an = a oder an → a für n → ∞, wenn zu jedem ε > 0 ein nε ∈ N existiert mit |an − a| < ε für
alle n ≥ nε .
3.2 Konvergenznachweis. Eine komplexe Zahlenfolge (an )n konvergiert genau dann gegen eine komplexe Zahl a, wenn (|an − a|)n eine Nullfolge ist.
Dies folgt sofort aus der Definition 3.1. Mit dem Vergleichskriterium §2.4.6 und 2.5 (e) erhalten wir nun:
Eine komplexe Zahlenfolge (an )n konvergiert genau dann, wenn die beiden reellen Zahlenfolgen (Re an )n
der Realteile und (Im an )n der Imaginärteile konvergieren. Gilt Re an → α und Im an → β für n → ∞,
so folgt an → α + iβ für n → ∞.
Achtung. Da C nicht geordnet ist, haben wir keinen direkten Ersatz für das Sandwichprinzip §2.6.3.
3.3 Was bleibt erhalten? Die Eigenschaften konvergenter Folgen §2.6.6 (a)–(b) sowie die Rechenregeln
§2.6.7 (c)–(g) bleiben erhalten, der Beweis überträgt sich wörtlich.
Sind also (zn )n und (wn )n komplexe Zahlenfolgen mit limn→∞ zn = z und limn→∞ wn = w, so folgt
(a) (zn )n ist beschränkt,
(b) jede Teilfolge von (zn )n konvergiert gegen z,
(c) limn→∞ (αzn + βwn ) = αz + βw für beliebige α, β ∈ C,
(d) limn→∞ |zn | = |z|,
(e) limn→∞ zn wn = zw,
(f) limn→∞ zn /wn = z/w falls w 6= 0,
(g) limn→∞ zn m = z m für jedes m ∈ N.
3.4 Beispiele.
√
(g) Für an := (1 + i)−n gilt |an | = 1/|1 + i|n = (1/ 2)n → 0 für n → ∞. Also konvergiert (an )n gegen 0.
Können Sie sich die Folgenglieder an als Punkte in der Gaußschen Zahlenebene vorstellen?
(h) Für eine beliebige komplexe Zahl q mit |q| < 1 gilt q n → 0 für n → ∞. Mit der geometrischen
Summenformel §1.5.10 folgt
lim
n→∞
n
X
k=0
1
1 − q n+1
=
n→∞
1−q
1−q
q k = lim
für |q| < 1.
3.5∗ Satz von Bolzano-Weierstraß in C. Da wir in C keine Anordnung haben, erhalten wir auch
keinen Ersatz für das Monotoniekriterium für reelle Zahlenfolgen §2.8.3. Dafür lässt sich der Satz von
Bolzano-Weierstraß §2.8.6 übertragen.
Jede beschränkte Folge komplexer Zahlen enthält eine konvergente Teilfolge.
Ist (zn )n beschränkt, so auch (Re zn )n und es existiert eine konvergente Teilfolge (Re znk )k . Auch (Im zn )n
ist beschränkt und damit (Im znk )k , so dass eine konvergente Teilteilfolge (Im znkl )l existiert. Mit (Re znk )k
ist auch (Re znkl )l konvergent. Dank 3.2 konvergiert dann (znkl )l .
3.6∗ Cauchy-Folgen in C. Wie in §2.8.7 erklären wir: eine Folge (an )n komplexer Zahlen heißt CauchyFolge, wenn es zu jedem ε > 0 ein nε ∈ N gibt mit |an − am | < ε für alle n, m ∈ N mit n, m ≥ nε .
Mit der Dreiecksungleichung sieht man ein, dass eine komplexe Zahlenfolge genau dann eine Cauchy-Folge
ist, wenn dies für die Folgen der Real- und der Imaginärteile zutrifft. Da eine reelle Zahlenfolge gemäß
§2.8.7 genau dann konvergiert, wenn sie eine Cauchy-Folge ist, gilt dies dank 3.2 dann auch in C.
Eine komplexe Zahlenfolge ist genau dann eine Cauchy-Folge, wenn sie konvergiert.
36
§4
§4. UNENDLICHE REIHEN
Unendliche Reihen
Unendliche Reihen gehören neben den Integralen zu den wichtigsten konstruktiven Hilfsmitteln der Analysis. Wir werden viele wichtige Funktionen, beispielsweise die Exponentialfunktion und die trigonometrischen Funktionen durch Reihen darstellen. Viele Differentialgleichungen lassen sich durch Reihenansätze
lösen. Und: sobald wir eine Reihendarstellung haben, können wir approximieren, d.h. in beliebiger Genauigkeit nähern.
1
Partialsummen, Konvergenz
1.1 Was ist eine unendliche Reihe? Wir können bisher nur Summen und Produkte endlich vieler
Zahlen bilden. In §3.3.4 haben wir erstmalig unendlich viele Zahlen addiert: 1 + q + q 2 + · · · = 1/(1 − q)
für |q| < 1. Dabei haben wir die unendliche“ Summe über den Grenzwert limn→∞ (1 + q + q 2 + · · · + q n )
”
definiert. A priori ist nicht klar, ob wir dabei die Grundrechenregeln (A1)–(A3) für die Addition weiter
verwenden können.
1.2 Definition: unendliche Reihe, unendliches Produkt.
Pn Sei (ak )k≥0 eine Folge reeller oder komplexer Zahlen. Für n ∈ N0 wird sn := a0 + a1 + · · · + an = k=0 ak gesetzt. Die Folge (sn )n≥0 heißt dann
eine unendliche Reihe und wird bezeichnet mit dem Symbol
∞
X
ak .
k=0
Die Zahl sn nennt man die n-te Partialsumme der Reihe, die Zahlen ak Glieder der Reihe.
P∞
Q∞
Unendliche Reihen der Gestalt k=r ak mit r ∈ Z und unendliche Produkte k=r ak werden analog
eingeführt.
1.3 Konvergenz und Divergenz unendlicher Reihen bzw. unendlicher Produkte. FallsP
die Fol∞
ge (sn )n der Partialsummen gegen eine Zahl s konvergiert, so nennt man die unendliche Reihe k=0 ak
konvergent und s den Grenzwert der Reihe. Im Konvergenzfall bezeichnet man den Grenzwert mit demselben Symbol wie die Reihe selbst, man schreibt also
s=
∞
X
ak .
k=0
Falls die Folge (sn )n divergiert, so nennt man die unendliche Reihe
P∞
k=0
ak divergent.
Für unendliche Produkte werden die entsprechenden Begriffe analog eingeführt.
P∞
Achtung. Das Symbol k=0 ak hat zwei Bedeutungen: zum einen bezeichnet es (unabhängig von Konvergenz) die Folge der Partialsummen, zum anderen (und nur im Konvergenzfall) den Grenzwert.
1.4 Geometrische Reihe. Für q ∈ C heißt
∞
X
k=0
P∞
qk =
k=0
q k eine geometrische Reihe. Es gilt
1
1−q
Für |q| ≥ 1 ist die geometrische Reihe divergent.
1.5 Harmonische Reihe. Die harmonische Reihe
∞
X
1
k
k=1
für |q| < 1.
37
KAPITEL 1. GRUNDLAGEN
divergiert. Die Folge der Partialsummen ist nämlich wegen
m
s2m
=
2
X
1 1
1 1 1 1
1
1
1
1
=1+ +
+
+ + +
+
·
·
·
+
+
+ ··· +
k
2
3 4
5 6 7 8
2m−1 + 1
2m
k=1
≥ 1+
1
1
1
m
+ 2 · + · · · + 2m−1 m = 1 +
2
4
2
2
nach oben unbeschränkt.
1.6 Teleskopreihen. Wegen
n
X
k=1
n
X
1
=
k(k + 1)
k=1
1
1
−
k k+1
=
n
n+1
X
1 X1
1
−
=1−
→1
k
k
n+1
k=1
für n → ∞
k=2
konvergiert die Reihe
∞
X
k=1
Ähnlich kann man die Konvergenz von
Teleskopreihen genannt.
1
=1
k(k + 1)
P∞
1
k=1 k(k+m)
für m ∈ N nachweisen. Derartige Reihen werden
1.7 Eigenschaften konvergenter Reihen.
(a) Die Glieder einer konvergenten Reihe bilden eine Nullfolge. (Notwendiges Konvergenzkriterium)
(b) Eine konvergente (divergente) Reihe bleibt konvergent (divergent), wenn man endlich viele Glieder
verändert. Der Grenzwert kann sich allerdings ändern.
P∞
Zu (a): Sei ε > 0 vorgegeben. Konvergiert k=0 ak gegen s, so existiert ein nε ∈ N mit |sn − s| < ε/2 für
alle n ≥ nε . Insbesondere folgt mit der Dreiecksungleichung für zwei aufeinander folgende Partialsummen
|an | = |sn − sn−1 | = |(sn − s) + (s − sn−1 )| ≤ |sn − s| + |sn−1 − s| <
ε ε
+ =ε
2 2
sobald n ≥ nε + 1. Daher ist (ak )k eine Nullfolge.
P∞
P∞
Zu (b): Unterscheiden sich k=0 ak und k=0 bk in nur endlich vielen Gliedern, so existiert ein Index
N ∈ N mit ak = bk für k ≥ N . Für die Partialsummen sn bzw. tn folgt
sn − (a0 + a1 + · · · + aN ) = tn − (b0 + b1 + · · · + bN )
Daher konvergiert
Grenzwerte
P∞
ak genau dann, wenn auch
k=0
∞
X
P∞
ak − (a0 + a1 + · · · + aN ) =
k=0
k=0 bk
∞
X
für n ≥ N.
konvergiert. Im Konvergenzfall gilt für die
bk − (b0 + b1 + · · · + bN ).
k=0
Achtung.
Das notwendige Konvergenzkriterium ist nicht hinreichend. Das zeigt die harmonische Reihe
P∞
k=1 1/k. Ihre Glieder bilden eine Nullfolge obwohl die Reihe divergiert.
1.8 Rechenregeln für konvergente Reihen.
(c) Aus
∞
X
k=0
(d) Aus
∞
X
k=0
ak = s und
∞
X
bk = t folgt
k=0
ak = s folgt
∞
X
k=0
∞
X
(ak + bk ) = s + t.
k=0
cak = cs für jede reelle oder komplexe Zahl c.
38
§4. UNENDLICHE REIHEN
(e) Konvergiert
∞
X
∞
X
ak so bilden die Reihenreste
k=0
(f) Mit
∞
X
!
ak
k=n+1
|ak | konvergiert auch
k=0
∞
X
k=0
eine Nullfolge.
n
∞
∞
X
X
ak und es gilt ak ≤
|ak |.
k=0
k=0
Beweis∗ . Die Regeln P
(c) und (d) folgen sofortPaus der entsprechenden
Rechenregel
§2.6.7 (c) für konP∞
Pn
∞
∞
vergente Folgen. Gilt
a
=
s,
so
folgt
a
=
a
−
a
=
s − sn → 0. Das
k=0 k
k=n+1 k
k=0 k
k=0 k
zeigt (e).
Der Beweis zu (f) ist überraschend kompliziert, man muss entweder den Satz von Bolzano-Weierstraß
P∞
§2.8.6 oder das Cauchy-Kriterium 3.6 verwenden. Das liegt daran, dass wir den Grenzwert von k=0 ak
nicht kennen.
P∞
Pn
Wir bezeichnen den
Pn Grenzwert von k=0 |ak | mit t und die Partialsummen mit tn := k=0 |ak |. Weiter
setzen wir sn := k=0 ak . Wenn (tn )n konvergiert, so ist diese Folge auch beschränkt. Wegen
n
n
X
X
|sn | = ak ≤
|ak | = tn
k=0
k=0
ist damit auch (sn )n beschränkt und besitzt nach dem Satz von Bolzano-Weierstraß eine konvergente
Teilfolge (snk )k , deren Grenzwert wir s nennen. Wir wollen zeigen, dass (sn )n selbst gegen s konvergiert.
Sei ε > 0 vorgegeben. Es existiert ein kε ∈ N mit |snk − s| < ε/3 für alle k ≥ kε . Ferner gibt es ein nε ∈ N
mit |t − tn | < ε/3 für alle n ≥ nε . Nun betrachten wir ein beliebiges n ≥ max{nkε + 1, nε }. Dann existiert
ein k ≥ kε mit nk ≥ n und es gilt
n
n
X
X
|sn − s| = snk +
ak − s ≤ |snk − s| +
|ak | = |snk − s| + (tn − tnk )
k=nk +1
k=nk +1
= |snk − s| + |(tn − t) − (tnk − t)| ≤ |snk − s| + |tn − t| + |tnk − t| <
Also ist die Folge der Partialsummen sn von
2
P∞
k=0
ε ε ε
+ + = ε.
3 3 3
ak konvergent.
Konvergenzkriterien
2.1 Bemerkung. Mit dem notwendigen Konvergenzkriterium 1.7 (a) haben wir einen einfachen Divergenztest für Reihen: Bilden die Reihenglieder keine Nullfolge, so divergiert die Reihe.
Wir geben nun drei weitere wichtige Konvergenzkriterien an. Zu beachten ist, dass wir zwei von ihnen
nur für Reihen mit reellen Gliedern verwenden können.
P∞
2.2 Monotoniekriterium. Sind
≥ 0 ab einem
P∞ die Glieder ak einer Reihe k=0 ak alle reell und gilt akP
n
Index N ∈ N, so konvergiert k=0 ak genau dann, wenn die Folge der Partialsummen k=0 ak nach
oben beschränkt ist.
Beweis. Gilt ak ≥ 0 für k ≥ N , so ist sn+1 = sn + an+1 ≥ sn für n ≥ N . Also ist die Folge der
Partialsummen sn ab dem Index N monoton wachsend. Nach dem Monotoniekriterium §2.8.3 konvergiert
die Folge der Partialsummen genau dann, wenn sie nach oben beschränkt ist.
2.3 Beispiel zum Monotoniekriterium. Die Reihe
∞
X
1
k2
k=1
39
KAPITEL 1. GRUNDLAGEN
konvergiert, denn die Partialsummen sind monoton wachsend und wegen
n
n
X
X
2
1
1
≤
=2 1−
≤2
sn =
k2
k(k + 1)
n+1
k=1
k=1
(vgl. 1.6) nach oben beschränkt. In 5.§7.1.7 werden wir mit Hilfe der Fourier-Analysis als Grenzwert π 2 /6
erhalten.
P∞
2.4 Majorantenkriterium. Ist k=0 aP
und gilt |ak | ≤ bk
k eine Reihe reeller oder komplexer Zahlen P
∞
∞
ab
einem
Index
N
∈
N
wobei
die
Reihe
b
konvergiert,
so
konvergiert
sowohl
k=0 k
k=0 ak als auch
P∞
|a
|.
k=0 k
P∞
P∞
Die Reihe k=0 bk wird dann konvergente Majorante für k=0 ak genannt.
Die am häufigsten verwendeten Majoranten sind
∞
X
M qk
mit M > 0 und q ∈ [0, 1[
sowie
k=0
∞
X
c
k2
mit c > 0.
k=0
Beweis. Indem wir ggf. P
die ersten N Glieder abändern, können wir für den Konvergenznachweis
PnN = 0
∞
annehmen. Konvergiert k=0 bk und gilt |ak |P≤ bk für k ∈ N0 , so bilden die Partialsummen k=0 |ak |
∞
eine monoton
Folge, welche durch k=0P
bk beschränkt ist. Nach dem Monotoniekriterium 2.2
Pwachsende
∞
∞
konvergiert k=0 |ak | und dann nach 1.7 (g) auch k=0 ak .
2.5 Beispiele zum Majorantenkriterium.
(a) Die Exponentialreihe
exp(z) :=
∞
X
zk
k=0
k!
=1+z+
z2
z3
+
+ ···
2!
3!
konvergiert für jedes z ∈ C.
Zu gegebenem z ∈ C wählen wir ein N ∈ N mit N > 2|z|. In §2.4.8 (e)
P∞haben wir für k > 2|z| die
Abschätzung |z k /k!| ≤ M (1/2)k mit M := |2z|N /N ! bewiesen und damit k=0 M (1/2)k als konvergente
Majorante gefunden.
Wir werden durch diese Reihe in 2.§21.1 die Exponentialfunktion definieren.
(b) Die verallgemeinerte harmonische Reihe
∞
X
1
1
1
= 1 + s + s + ···
ks
2
3
konvergiert für alle s ∈ N mit s ≥ 2 und divergiert für s = 1.
k=1
s
2
Die
P∞Fälle 2s = 1 und s = 2 haben wir schon in 1.5 und 2.3 behandelt. Wegen 1/n ≤ 1/n für s ≥ 2 ist
k=1 1/k konvergente Majorante für die verbleibenden Fälle.
(c) Die verallgemeinerte geometrische Reihe
∞
X
k m z k = z + 2m z 2 + 3m z 3 + · · ·
konvergiert für alle m ∈ N und jedes z ∈ C mit |z| < 1.
k=0
Setzen wir r :=
p
|z| und ak := k m z k , so gilt r < 1 und
|ak | = k m rk · rk .
Die Folge (k m rk )k ist alsPNullfolge (vgl. §2.4.8 (d)) beschränkt durch ein M > 0. Es folgt |ak | ≤ M rk
∞
und wegen 0 ≤ r < 1 ist k=0 M rk konvergente Majorante.
40
§4. UNENDLICHE REIHEN
Für |z| ≥ 1 divergiert die verallgemeinerte geometrische Reihe, da dann die Reihenglieder keine Nullfolge
mehr bilden und das notwendige Konvergenzkriterium 1.7 (a) verletzt ist.
(d) Die Binomialreihe
∞ X
c k
c(c − 1) 2
z + ···
Bc (z) :=
z = 1 + cz +
2!
k
konvergiert für c ∈ C und jedes z ∈ C mit |z| < 1.
k=0
Wegen
c
k+1 k+1 z
c k
z
k
=
|c − k|
|z| → |z|
k+1
für k → ∞
gibt es für |z| < 1 nämlich einen Index k0 ∈ N0 , so dass
c k+1 k+1z
1 + |z|
=: q < 1
für k ≥ k0 .
≤
c k
2
k z
P∞
Durch Induktion folgt dann | kc z k | ≤ M q k mit M := | kc0 | für k ≥ k0 und wir haben wieder k=0 M q k
als konvergente Majorante.
Ist c eine natürliche Zahl oder Null, so verschwinden inP
der Binomialreihe
alle Glieder mit Index k > c.
c
Mit der binomischen Formel erhalten wir dann Bc (z) = k=0 kc z k = (1 + z)c und die Reihe konvergiert
trivialerweise für alle z ∈ C. In 2.§2.3 definieren wir Potenzen mit beliebigen Exponenten. In 4.§3.4.16
zeigen wir, dass diese Formel auch für c ∈ C r N0 gilt, dann aber nur für |z| < 1, da ansonsten die
Reihenglieder keine Nullfolge mehr bilden und das notwendige Konvergenzkriterium 1.7 (a) verletzt ist.
2.6 Leibniz-Kriterium.
Ist (ak )k eine monoton P
fallende Nullfolge reeller Zahlen, so konvergiert
die
P∞
P∞
n
Reihe k=0 (−1)k ak . Für die Partialsummen sn = k=0 (−1)k ak und den Grenzwert s = k=0 (−1)k ak
gelten die Abschätzungen
s2m+1 ≤ s ≤ s2m
|s − sn | ≤ an
für m, n ∈ N0 .
Reihen des oben genannten Typs werden alternierend oder Leibniz-Reihen genannt.
Beweis. Die aus den Partialsummen sn gebildeten Intervalle [s2m+1 , s2m ] bilden eine Intervallschachtelung. Wegen a2m−1 ≥ a2m ≥ a2m+1 gilt nämlich
s2m+1
s2m
s2m − s2m+1
= s2m−1 + a2m − a2m+1 ≥ s2m−1 = s2(m−1)+1 ,
= s2m−2 − a2m−1 + a2m ≤ s2m−2 = s2(m−1) ,
= −(−1)2m+1 a2m+1 = a2m+1 → 0
für m → ∞.
Gemäß §2.7.2 existiert limm→∞ s2m = s = limm→∞ s2m+1 . Ist n gerade, so gilt sn+1 ≤ s ≤ sn , d.h.
|s − sn | = sn − s ≤ sn − sn+1 = an+1 ≥ an . Ist dagegen n ungerade, so gilt sn ≤ s ≤ sn−1 , d.h.
|s − sn | = s − sn ≤ sn−1 − sn = an .
Achtung. Im Leibniz-Kriterium kann weder auf die Monotonie noch auf die Nullfolgeneigenschaft verzichtet werden. Das mache man sich an Beispielen klar.
2.7 Beispiele zum Leibniz-Kriterium.
(e) Die alternierende harmonische Reihe
∞
X
(−1)k+1
k=1
k
=1−
1 1 1
+ − ± ···
2 3 4
konvergiert nach dem Leibniz-Kriterium, da (1/k)k eine monoton fallende Nullfolge ist. Den Grenzwert
ln(2) werden wir erst in 4.§3.4.16 mit Hilfe der Differentialrechnung bestimmen können. Gleiches gilt für
die Reihe
∞
X
(−1)k
1 1 1
= 1 − + − ± ···
2k + 1
3 5 7
k=0
41
KAPITEL 1. GRUNDLAGEN
Pn
welche gegen π/4 konvergiert. Zur Approximation
von π durch die Partialsumme 4 k=0 (−1)k /(2k + 1)
Pn
erhalten wir die Fehlerabschätzung |π − 4 k=0 (−1)k /(2k + 1)| ≤ 4/(2n + 1). D.h. wir müssen 4.000
Glieder aufsummieren, um π auf drei Nachkommastellen zu erhalten.
(f) Die Reihe
∞
X
(−1)k
√
√
k=0
(2k)!
x2k = 1 −
x2
x4
x6
+
−
± ···
2!
4!
6!
ist für −2 3 ≤ x ≤ 2 3 ab dem Glied mit Index k = 1 alternierend.
√
Setzen wir nämlich ak := x2k /(2k)!, so gilt ak+1 /ak = x2 /[(2k + 2)(2k + 1)] ≤ x2 /12 ≤ 1 für |x| ≤ 2 3
und k ≥ 1 sowie ak → 0 für k → ∞ nach §2.4.8 (d). Also ist (ak )k≥1 eine monoton fallende Nullfolge und
es gilt
∞
X
√
√
x2
(−1)k 2k
x2
x4
1−
≤
x ≤1−
+
für − 2 3 ≤ x ≤ 2 3.
2
(2k)!
2
24
k=0
In 2.§2.5 werden wir sehen, dass die obige Reihe cos(x) darstellt. Wir haben also einfache Abschätzungen
für cos(x) für x in der Nähe von 0 gefunden.
3
Umordnung von Reihen
P∞
3.1 Umordnung von Reihen. Ist k=0 ak eine Reihe und ist (ϕ(k))k eine Umordnung der Indizes,
d.h. eine Indexfolge, in der jede P
Zahl k ∈ N0 genau einmal vorkommt, so heißt die unendliche Reihe
P
∞
∞
a
eine
Umordnung
von
ϕ(k)
k=0
k=0 ak .
Beispielsweise ist
1 1 1 1 1
− + + − ± ···
3 2 5 7 4
eine Umordnung der alternierenden harmonischen Reihe 1 − 1/2 + 1/3 − 1/4 ± · · · , in der immer auf zwei
Glieder mit positivem Vorzeichen eines mit negativem folgt.
1+
3.2 Vertauschen der Glieder einer Reihe kann
P∞furchtbare Folgen haben. Wir haben in 2.7
gesehen, dass die alternierende harmonische Reihe k=1 (−1)k+1 /k konvergiert. Jetzt zeigen wir, dass
man durch Umordnung der Glieder das Konvergenzverhalten beliebig verändern kann. Hierzu nutzen wir
aus, dass die beiden Teilreihen der Glieder mit ungeradem bzw. geradem Index streng monoton wachsend
gegen +∞ bzw. streng monoton fallend gegen −∞ konvergieren. Dies erkennt man durch Vergleich mit
der harmonischen Reihe, es gilt nämlich
1 1
1
1
1 1
1
1 + + + ··· +
>
1 + + + ··· +
→ +∞
für m → ∞,
3 5
2m − 1
2
2 3
m
1
1
1 1
1
1 1 1
= −
1 + + + ··· +
→ −∞
für m → ∞.
− − − − ··· −
2 4 6
2m
2
2 3
m
Geben wir nun eine beliebige reelle Zahl x vor und summieren wir abwechselnd soviele ungerade bzw.
gerade Glieder auf, dass wir jeweils eine Partialsumme sn erhalten, die gerade über bzw. unter x liegt, so
ist |sP
n − x| kleiner als der Betrag des zuletzt aufsummierten Gliedes. Wir erhalten somit eine Umordung
∞
von k=1 (−1)k /k, die gegen x konvergiert. Analog kann man Umordnungen angeben, die uneigentlich
gegen +∞ bzw. gegen −∞ konvergieren.
Das Konvergenzverhalten einer Reihe kann sich ändern, wenn man die Reihenfolge der Glieder verändert.
3.3 Absolute und bedingte Konvergenz. Den gerade an der alternierenden harmonischen Reihe
aus positiven
illustrierten Effekt kann man mit jeder unendlichen Reihe erzielen, für welche die Teilreihen
P∞
und negativen
Gliedern
jeweils
divergieren.
Solche
Reihen
erkennt
man
daran,
dass
a
konvergiert,
k
k=0
P∞
während k=0 |ak | divergiert, und nennt sie bedingt konvergent.
42
§4. UNENDLICHE REIHEN
Konvergiert dagegen
konvergent.
P∞
k=0
|ak | und dann nach 1.8 (f) auch
P∞
k=0
ak selbst, so heißt die Reihe absolut
absoluter Konvergenz verwendet werden,
Monotonie- und Majorantenkriterium können nur zum
PNachweis
∞
da sie letztlich nur eine Konvergenzsaussage
über
|a
|
machen.
Das Leibniz-Kriterium dagegen
k
k=0
P∞
kann zum Konvergenznachweis über k=0 ak selbst verwendet werden — allerdings nur für alternierende
Reihen. Damit kann es neben einem direkten Konvergenznachweis als einziges Kriterium auch für bedingt
konvergente Reihe eingesetzt werden.
P∞
3.4 Beispiele für absolut konvergente Reihen.
Die Exponentialreihe k=0 z k /k! aus 2.5 (a) konP∞
k
vergiert für jedes z P
∈ C absolut, da auch
sind die verallgemeinerte
k=0 |z| /k! konvergiert.
P∞ Ebenso
∞
m k
geometrische Reihe k=0 k z aus 2.5 (c) und die Binomialreihe k=0 kc z k für jedes z ∈ C mit |z| < 1
absolut konvergent.
3.5 Umordnungssatz. Bei einer absolut konvergenten Reihe konvergiert die Reihe selbst und jede ihrer
Umordnungen gegen denselben Grenzwert.
Für den Beweis sei z.B. auf [Kön, Band 1, 6.3] oder [HeuA, Band 1, IV.32] verwiesen. Wir unterscheiden
also drei Typen von Reihen:
P∞
P∞
• absolut konvergente Reihen ( k=0 ak und k=0 |ak | konvergieren),
P∞
P∞
• bedingt konvergente Reihen ( k=0 ak konvergiert, aber k=0 |ak | divergiert),
P∞
• divergente Reihen ( k=0 ak divergiert).
Absolut konvergente Reihen erweisen sich dank dem Umordnungssatz als robust und angenehm handhabbar. Bei bedingt konvergenten Reihen dagegen sind Vorsicht und Fingerspitzengefühl angebracht,
insbesondere gilt kein Kommutativgesetz für die Reihenglieder.
3.6 P
Doppelreihen. Gegeben seien reelle oder komplexe Zahlen ak,l mit Indizes k, l ∈ N0 . Dann nennen
∞
wir k,l=0 ak,l eine Doppelreihe.
Wenn wir erklären wollen, was Konvergenz für eine Doppelreihe bedeuten soll, können wir nicht wie bei
Reihen auf die Folge der Partialsummen zurückgreifen. Wie sollen die Partialsummen denn gebildet werden? Um so etwas zu erklären, müssen wir die Indexpaare (k, l) auf irgend eine Weise durchnummerieren,
d.h. wir setzen (k, l) = ϕ(n), so dassPzu jedem Indexpaar (k, l), k, l ∈ N0 , genau eine Zahl n ∈ N0 gehört.
∞
Anschließend können wir die Reihe n=0 aϕ(n) auf Konvergenz untersuchen. Beliebte Anordnungen sind
P∞
• zeilenweise, d.h. wir bilden zuerst die Reihen l=0 ak,l und
— falls alle diese Reihen konvergieren — anschließend
!
∞
∞
X
X
ak,l ,
k=0
l=0
P∞
• spaltenweise, d.h. wir bilden zuerst die Reihen
k=0 ak,l
und — falls alle diese Reihen konvergieren — anschließend
!
∞
∞
X
X
ak,l ,
l=0
k=0
a0,0 → a0,1 → a0,2 → . . .
a1,0 → a1,1 → a1,2 → . . .
..
.
a0,0
↓
a1,0
↓
..
.
..
.
..
.
a0,1
↓
a1,1
↓
..
.
a0,2
↓
a1,2
↓
..
.
...
...
43
KAPITEL 1. GRUNDLAGEN
• diagonal, d.h. wir bilden erstP
die Summen a0,0 , a1,0 + a0,1 ,
a2,0 + a1,1 + a0,2 , . . . , d.h.
k+l=n ak,l für n ∈ N0 , und
anschließend
!
!
∞
∞
n
X
X
X
X
ak,l =
ak,n−k .
n=0
n=0
k+l=n
a0,0
a0,1
%
a0,2
%
a1,1
a1,0
%
a1,2
%
a2,1
a2,2
a2,0
..
..
.
. % . % ..
k=0
...
%
...
%
...
Nach unseren Erkenntnissen in 3.2 liegt die Befürchtung nahe, dass wir ohne weitere Informationen über
die Zahlen ak,l bei verschiedenen Summierungsverfahren zu verschiedenen Ergebnissen kommen können.
Zum Glück gibt es für Doppelreihen ein Analogon zum Umordungssatz 3.5.
3.7 Großer Umordnungssatz. Für jede Doppelfolge (ak,l )k,l≥0 reeller oder komplexer Zahlen sind die
folgenden Aussagen äquivalent.
P∞
(a) Die Doppelreihe n=0 |aϕ(n) | konvergiert für eine Anordnung ϕ.
P∞ P∞
(b) Die Reihe
P∞ k=0 ( l=0 |ak,l |) über die Zeilensummen konvergiert, dies schließt die Konvergenz aller
Reihen l=0 |ak,l |, k ∈ N0 , mit ein.
P∞ P∞
(c) Die Reihe
P∞ l=0 ( k=0 |ak,l |) über die Spaltensummen konvergiert, dies schließt die Konvergenz aller
Reihen k=0 |ak,l |, l ∈ N0 , mit ein.
P∞ P
(d) Die Reihe n=0
k+l=n |ak,l | über die Diagonalsummen konvergiert.
P∞
(e) Die Doppelreihe n=0 aϕ(n) konvergiert für jede Anordnung ϕ.
Ist eine dieser fünf Aussagen erfüllt, so gilt
∞
X
aϕ(n) =
n=0
∞
∞
X
X
l=0
!
ak,l
=
k=0
∞
∞
X
X
k=0
!
ak,l
=
l=0
∞
X
X
n=0
k+l=n
!
ak,l
.
In diesem Fall bezeichnen wir den gemeinsamen Grenzwert mit dem selben Symbol
∞
X
ak,l
k,l=0
wie die Reihe selbst und sagen, dass die Doppelreihe konvergiert.
Achtung. Für Doppelreihen haben wir nur ein Analogon zur absoluten Konvergenz.
Auch hier verweisen wir für den Beweis auf [Kön, Band 1, 6.3]. Als unmittelbare Folgerung erhalten wir
den folgenden Satz über das Produkt zweier Reihen.
P∞
P∞
3.8 Cauchy-Produkt von Reihen. Sind k=0 ak und k=0 bk zwei absolut konvergente Reihen reeller
oder komplexer Zahlen, so gilt
!
!
!
∞
∞
∞
n
X
X
X
X
ak ·
bk =
ak bn−k .
k=0
Die unendliche Reihe
n=0
k=0
k=0
P∞
Pn
P∞
P∞
k=0 ak und
k=0 bk .
n=0 (
k=0 ak bn−k ) heißt Cauchy-Produkt von
3.9 Cauchy-Produkt für die Exponentialfunktion. Seien z, w ∈ C. Da die aus 2.5 (a) bekannte
Exponentialreihe absolut konvergiert, folgt mit der binomischen Formel
!
!
n
∞
∞
∞
n ∞
X
X
X
X
z k wn−k
1 X n k n−k
z k X wk
=
=
z w
exp(z) exp(w) =
k!
k!
k! (n − k)!
n!
k
n=0
n=0
=
k=0
∞
X
k=0
k=0
n
(z + w)
= exp(z + w).
n!
n=0
k=0
44
§4. UNENDLICHE REIHEN
3.10 Cauchy-Produkt bei Binomialreihen. Für c, d ∈ C und z ∈ C mit |z| < 1 gilt dank der
absoluten Konvergenz der Bionomialreihe
!
n ∞ ∞ ∞
X
d
c kX d k X X c
k n−k
Bc (z)Bd (z) =
z
z =
z z
k
n−k
k
k
n=0 k=0
k=0
k=0
!
∞
n ∞ X
X
X
c
d
c+d n
=
zn =
z = Bc+d (z),
k
n−k
n
n=0
n=0
k=0
d Pn
durch Induktion aus dem Additionstheorem für Bino= c+d
wobei man die Identität k=0 kc n−k
n
mialkoeffizienten folgern kann (wir werden dies später in 2.§31.13 auf andere Weise beweisen).
Wir wollen zwei Spezialfälle dieser Identität näher betrachten.
m+1
(f) Aus Bm+1 (z)B−m−1 (z) = B0 (z) für
1 und
und
km ∈ N0 erhalten wir mit Bm+1 (z) = (1 + z)
P∞|z| <−m−1
m+1
z
=
1.
Hieraus
folgt
nach
Ersetzung
von
z
durch
−z
B0 (z) = 1 die Beziehung (1 + z)
k=0
k
m+k
−m−1
k m+k
= (−1) m die Formel
= (−m − 1)(−m − 2) · · · (−m − k)/k! = (−1)
und mit
k
k
1
(1 − z)m+1
=
∞ X
m+k
m
k=0
=
zk
1 + (m + 1)z +
(m + 2)(m + 1) 2
z + ···
2!
für m ∈ N0 und z ∈ C mit |z| < 1.
Insbesondere gilt für m = 0, 1, 2 damit
∞
∞
X
1
=
zk ,
1−z
X
1
(k + 1)z k ,
=
(1 − z)2
k=0
k=0
∞
X (k + 2)(k + 1)
1
=
zk .
(1 − z)3
2
k=0
− 3(k + 1) + 1 erhalten wir für die ersten zwei
Aus den Zerlegungen k = (k + 1) − 1 bzw. k 2 = 2 (k+2)(k+1)
2
verallgemeinerten geometrischen Reihen dann die Summenformeln
∞
X
kz k
k=0
∞
X
k2 z k
=
=
k=0
∞
X
(k + 1)z k −
k=0
∞
X
2
k=0
=
∞
X
k=0
zk =
1
z
1
−
=
(1 − z)2
1−z
(1 − z)2
∞
∞
k=0
k=0
für |z| < 1,
X
X
(k + 2)(k + 1) k
z −3
(k + 1)z k +
zk
2
1
1
z(1 + z)
1
−3
+
=
2
(1 − z)3
(1 − z)2
1−z
(1 − z)3
für |z| < 1.
Analog findet man Summenformeln für die anderen verallgemeinerten geometrischen Reihen.
n
(g) Aus B1/n (x)
Wurzelziehen
√
n
1+x =
= B1 (x) für reelle x ∈] − 1, 1[ und n ∈ N ergibt sich mit B1 (x) = (1 + x) nach
∞ 1
X
n
k=0
=
1+
k
xk
n−1 2
(2n − 1)(n − 1) 3
1
x+
x +·
x + ···
n
2!n2
3!n3
für n ∈ N und x ∈] − 1, 1[.
45
Kapitel 2
Elementare Funktionen
Der Funktionsbegriff ist eines der wichtigsten und universellsten Mittel in der Mathematik. Er wird in
vielseitiger Weise zur mathematischen Beschreibung von Wirklichkeit eingesetzt, nämlich immer dann,
wenn Kausalität herrscht, wenn wir den Zustand eines Systems durch Wirkung der Systemparameter
beschreiben.
Wir stellen in §1 zuerst knapp die wichtigsten Begriffe zusammen und beschäftigen uns dann in §2–§4
ausführlich mit den wichtigsten elementaren Funktionen.
§1
1
Grundlegendes über Funktionen
Zum Funktionsbegriff
1.1 Was ist eine Funktion? Gegeben seien zwei nichtleere Mengen D und W . Unter einer Funktion
(oder einer Abbildung) f verstehen wir eine Zuordnungsvorschrift, welche jedem Element aus x ∈ D ein
wohlbestimmtes Element aus y ∈ W zuordnet. Dieses Element y bezeichnen wir mit f (x), schreiben
y = f (x) und nennen y den Wert der Funktion f an der Stelle x (oder das Bild von x unter der
Abbildung f . Diesen Sachverhalt drücken wir aus durch die Schreibweise
f : D → W,
f : x 7→ f (x).
1.2 Definitionsbereich und Wertevorrat. Die Menge D nennen wir den Definitionsbereich von f ,
die Menge W den Wertevorrat oder Zielbereich von f .
Eine Funktion ist also festgelegt durch
• die Angabe des Definitionsbereichs D,
• die Angabe der Abbildungsvorschrift x 7→ f (x) und
• die Angabe, welcher Art die Bilder f (x) sein sollen, d.h. in welcher Menge W sie liegen sollen.
Die letzte Angabe ist i.A. nicht wesentlich, man gibt sich gerne mit irgend einem einfach anzugebenden
Wertevorrat zufrieden, ohne den die genaue Wertemenge von f , d.h. die Teilmenge
f (D)
:= {f (x) ∈ W : x ∈ D} = {y ∈ W : es gibt ein x ∈ D mit y = f (x)}
des Wertevorrats W anzugeben.
Achtung. Man kann sich viel Kummer sparen, wenn man bei einer Funktion nicht nur an die Zuordnungsvorschrift denkt (was man gerne tut), sondern auch immer nach dem Definitionsbereich fragt.
46
§1. GRUNDLEGENDES ÜBER FUNKTIONEN
1.3 Natürlicher Definitionsbereich. Wenn wir bei einer konkreten Funktion nichts über den Definitionsbereich sagen, so nehmen wir stillschweigend den natürlichen Definitionsbereich, d.h. maximal
möglichen an. Das sind all die Zahlen, für welche die Abbildungsvorschrift ausgeführt werden kann. Wird
z.B. f durch die Abbildungsvorschrift f (x) := x2 /(x − 2) definiert und nichts über den Definitionsbereich
gesagt, so ist D = R r {2} zu setzen (bzw. D = C r {2}, falls das für die Diskussion der Funktion
nützlicher ist oder vom Zusammenhang gefordert wird).
1.4 Anmerkung zu Bezeichnungen. Die Begriffe Funktion“ und Abbildung“ werden synonym
”
”
verwendet. Im ersten Fall stellt man sich Definitionsbereich und Wertevorrat allerdings gerne als Zahlenmengen vor, im zweiten Fall steht eine geometrische Vorstellung im Vordergrund.
Es sind weitere Bezeichnungen üblich. Eine Zahlenfolge, d.h. eine Folge reeller bzw. komplexer Zahlen,
ist nichts anderes als eine Funktion mit Definitionsbereich N und Wertevorrat R bzw. C. Später (z.B. in
Kapitel 5) werden wir Operatoren und Funktionale kennenlernen. Das sind Funktionen, die Funktionen
auf Funktionen bzw. Zahlen abbilden. Der Differentialoperator f 7→ f 0 ordnet beispielsweise einer differenzierbaren Funktion f ihre Ableitung f 0 zu. Das Integral einer Funktion f über das Intervall [c, d] ist ein
Rd
Operator, der einer auf [c, d] integrierbaren Funktion eine Zahl (eben ihr Integral c f (x) dx) zuordnet.
1.5 Explizite Zuordnungsvorschrift. Im Kapitel 1 haben wir schon viele Funktionen kennengelernt.
Bei den meisten konnten wir die Zuordungsvorschrift explizit angeben.
(a) Die Signum-Funktion sgn : R → R aus 1.§1.4.5 ordnet jeder reellen Zahl ihr Vorzeichen zu. Die
Zuordnungsvorschrift x 7→ sgn(x) := 1 für x > 0, x 7→ sgn(0) := 0 und x 7→ sgn(x) := −1 für x < 0 ist
abschnittsweise erklärt. Die Wertemenge ist die dreielementige Menge {−1, 0, 1}.
(b) Der Betrag einer
C → R+
0 mit der Zuordnungsvorpkomplexen Zahl (vgl. 1.§3.2.2) ist eine Funktion
√
schrift z 7→ |z| := (Re z)2 + (Im z)2 . Wir hätten auch z 7→ zz als Zuordnungsvorschrift und R als
Zielbereich wählen können.
(c) Für irgend eine nichtleere Menge D nennen wir idD : D → D, idD (x) := x, die Identität oder
identische Abbildung. Wir schreiben einfach id statt idD , wenn aus dem Zusammenhang klar ist, welche
Definitionsmenge gerade gemeint ist.
(d) Eine Funktion, die nur einen Wert annimmt, heißt konstant. Sie wird wie ihr einziger Wert bezeichnet.
1.6 Implizite Zuordnungsvorschrift. Wird in der Zuordnungsvorschrift einer Funktion f der Funktionswert f (x) an der Stelle x nicht explizit in Abhängigkeit von x angegeben, so liegt eine implizite
Zuordnungsvorschrift vor.
(e) Durch die Rekursion a1 := 1, an+1 = 1 + an /2 wird eine Folge (an )n implizit definiert. Das Rekursionprinzip aus 1.§2.3.2 stellt sicher, dass die Folge (an )n hierdurch eindeutig festgelegt ist. Durch einen
Induktionsbeweis kann man zeigen, dass die Folge explizit durch an = 2 − 21−n angegeben werden kann.
√
+
n
a bezeichnete
(f) Für n ∈ N ist die in 1.§2.2.4 eingeführte n-te Wurzel eine Funktion R+
0 → R0 . Der mit
n
Funktionswert an der Stelle a ist die Lösung der Gleichung x = a. Hierzu musste (mit viel Mühe)
sichergestellt werden, dass diese Gleichung eine eindeutige Lösung besitzt.
(g) In 4.§3.6.6 werden wir sehen, dass durch die Differentialgleichung f 0 = f und die Anfangsbedingung
f (0) = 1 eine Funktion f : R → R eindeutig festgelegt ist (nämlich die Exponentialfunktion).
(h) Man kann zeigen, dass es genau eine stetige Funktion R → R mit f (0) = 1 gibt, welche die Funktionalgleichung f (x + y) = f (x)f (y) erfüllt (nämliche ebenfalls die Exponentialfunktion).
Bei implizit definierten Funktionen sind Existenz und Definitionsbereich meist schwierig zu klären.
1.7 Gleichheit von Funktionen, Fortsetzung und Einschränkung. Wir nennen zwei Funktionen f
und g gleich, wenn sie denselben Definitionsbereich und dieselbe Zuordnungsvorschrift haben. Wir schreiben dann f = g oder f (x) ≡ g(x).
KAPITEL 2. ELEMENTARE FUNKTIONEN
47
Sind f und F zwei Funktionen mit Definitionsbereichen D bzw. D̃ und gilt D ( D̃ sowie f (x) = F (x)
für alle x ∈ D, so nennen wir F eine Fortsetzung von f auf D̃ bzw. f die Einschränkung von F auf D
und schreiben f = F |D .
Beispiel. Aus f = 0 folgt f (x) = 0 für alle x ∈ D. Daher gilt zwar sgn(0) = 0 aber sgn 6= 0. Die
Betragsfunktion auf C ist eine Fortsetzung der Betragsfunktion auf R.
2
Wichtige Begriffe
2.1 Injektivität. Eine Funktion f : D → W heißt injektiv , eineindeutig oder 1-1-Abbildung, wenn sie
jeden Wert höchstens einmal annimmt, d.h. wenn für jedes y ∈ W die Gleichung f (x) = y höchstens eine
Lösung x ∈ D besitzt. Injektivität bedeutet also, dass aus f (x1 ) = f (x2 ) stets x1 = x2 folgt — oder
andersherum: x1 6= x1 impliziert stets f (x1 ) 6= f (x2 ).
Beispiel. Die durch f (x) := x3 definierte Funktion f : R → R ist injektiv, weil aus 0 = f (x1 ) − f (x2 ) =
x1 3 − x2 3 = (x1 − x2 )(x1 2 + x1 x2 + x2 2 ) = (x1 − x2 )(x1 2 + x2 2 + (x1 + x1 )2 )/2 in jedem Fall x1 = x2
folgt. Dagegen ist die durch g(x) := x2 definierte Funktion g : R → R nicht injektiv. Es gilt nämlich
g(−1) = g(1). Die Einschränkung g|R+ von g auf R+
0 dagegen erweist sich als eineindeutig.
0
2.2 Surjektivität. Eine Funktion f : D → W heißt surjektiv, wenn sie jeden Wert mindestens einmal
annimmt, d.h. wenn die Gleichung f (x) = y für jedes y ∈ W mindestens eine Lösung x ∈ D besitzt.
Achtung. Auch wenn die Angabe der Zielmenge i.A. für die Festlegung einer Funktion nicht wesentlich
ist, bei der Surjektivität kommt es auf sie an.
Surjektivität kann durch Verkleinern des Wertevorrats auf die Wertemenge erzwungen werden. Dazu muss
allerdings die Wertemenge ermittelt werden.
2.3 Bijektivität. Eine Funktion heißt bijektiv , umkehrbar oder eine Bijektion, wenn sie injektiv und
surjektiv ist.
√
+
Beispiel. Für jedes n ∈ N ist die n-te Wurzel x 7→ n x ist eine bijektive Abbildung R+
0 → R0 . Wir
+
+
n
haben ja in 1.§2.2.4 gezeigt, dass die Gleichung x = a für jedes a ∈ R0 genau eine Lösung in R0 besitzt.
2.4 Umkehrfunktion. Ist f : D → W eine Bijektion und bezeichnen wir für y ∈ W die eindeutig
bestimmte Lösung x ∈ D von f (x) = y mit g(y), so haben wir eine Funktion g : W → D definiert, für die
f (g(y)) = y für alle y ∈ W sowie g(f (x)) = x für alle x ∈ D gilt. Als Abbbildung von W nach D ist g
selbst eine Bijektion. Sie wird Umkehrabbildung von f genannt und mit f −1 bezeichnet.
√
Beispiel. Die Umkehrfunktion zur n-ten Potenzabbildung x 7→ xn ist die n-te Wurzel y 7→ n y. Als
gemeinsamer Definitions- und Wertebereich fungiert R+
0.
2.5 Verkettung. Sind f : D → B und g : B → W zwei Funktionen bei denen der Wertevorrat von f mit
dem Definitionsbereich von g übereinstimmt, so können wir durch x 7→ g(f (x)) eine Abbildung D → W
definieren. Wir nennen diese Funktion Verkettung, Hintereinanderausführung oder Komposition von f
mit g und bezeichnen sie mit g ◦ f .
Beispiel. Ist f : D → W bijektiv, so gilt f ◦ f −1 = idW und f −1 ◦ f = idD .
Achtung. Bei der Verkettung g ◦ f von f mit g muss die Wertemenge von f im Definitionsbereich von g
liegen. Es kommt also auf die Reihenfolge an.
Beispiel. Durch f (x) := 2x + 1 und g(x) := x2 werden zwei Funktionen f, g : R → R definiert. Diese
beiden Funktionen können in beliebiger Reihenfolge verkettet werden. Es gilt (g ◦ f )(x) = (2x + 1)2 =
4x2 + 4x + 1 und (f ◦ g)(x) = 2x2 + 1. Wegen (g ◦ f )(1) = 9 6= 3 = (f ◦ g)(1) gilt aber g ◦ f 6= g ◦ f .
2.6 Graph. Das Abbildungsverhalten einer Funktion f : D → W veranschaulichen wir gerne durch eine
graphische Darstellung der Punktepaare (x, f (x)), x ∈ D. Wir nennen die Menge {(x, f (x)) | x ∈ D}
den Graphen der Funktion f .
48
§1. GRUNDLEGENDES ÜBER FUNKTIONEN
Sind D und W Teilmengen von R, so kann man den Graphen als Teil der Ebene gut zeichnen. In anderen
Fällen wird die Darstellung schwierig oder ist nur im übertragenen Sinn zu verstehen.
1
1
sgn
1
( n1 )n
-1
|·|
1
-1
1
2
3
4
5
6
7
8
9 10
-1
1
Abbildung 2.1: Graphen der Folge (1/n)n , der Betragsfunktion | · | sowie der Signumfunktion sgn. Was
hat der Graph von x 7→ 1/x für x > 0 mit dem von (1/n)n zu tun?
Ist f eine Bijektion, so entsteht der Graph von f −1 durch Spiegeln an der Winkelhalbierenden (vgl.
Abbildung 2.2).
3
Funktionen im Reellen oder Komplexen
3.1 Beschränktheit. Eine reell- oder komplexwertige Funktion f mit einer beliebigen Definitionsmenge D nennen wir beschränkt, wenn es eine Zahl M ≥ 0 gibt mit |f (x)| ≤ M für alle x ∈ D.
Geometrisch interpretiert bedeutet dies, dass die Wertemenge f (D) in einem abgeschlossenen Intervall
um 0, bzw. in einer Kreisscheibe um 0 enthalten ist.
Beispiel. Die Abbildung x 7→ 1/x ist auf [1, +∞[ beschränkt, auf ]0, 1] dagegen nicht.
3.2 Monotonie. Eine Funktion f : D ⊂ R → R heißt monoton wachsend (monoton fallend ), wenn
für x1 , x2 ∈ D aus x1 < x2 immer f (x1 ) ≤ f (x2 ) (f (x1 ) ≥ f (x2 )) folgt. Gilt sogar f (x1 ) < f (x2 )
(f (x1 ) > f (x2 )), so heißt f streng monoton wachsend (streng monoton fallend ).
Eine streng montone wachsende (fallende) Funktion ist auf ihrer Wertemenge umkehrbar und die Umkehrabbildung ist wieder streng monoton wachsend (fallend).
x4 x3 x2
√
y
√
3 y
√
4 y
1
1
1
1
Abbildung 2.2: Graphen dreier Potenzabbildungen x 7→ xn sowie deren Umkehrrabbildungen y 7→
√
n
y.
49
KAPITEL 2. ELEMENTARE FUNKTIONEN
3.3 Zusammengesetzte Funktionen. Für Funktionen f, g : D → C (das schließt den Fall f, g : D → R
mit ein) und eine reelle oder komplexe Zahl λ definieren wir
(a) die Summe zweier Funktionen f + g : D → C durch die Abbildungsvorschrift x 7→ f (x) + g(x),
(b) das Produkt zweier Funktionen f g : D → C durch die Abbildungsvorschrift x 7→ f (x)g(x),
(c) das Vielfache einer Funktion λf : D → C durch die Abbildungsvorschrift x 7→ λf (x),
(d) die reziproke Funktion
1
f
: D r {x ∈ D | f (x) = 0} → C durch die Abbildungsvorschrift x 7→
1
f (x) ,
(e) das Negative einer Funktion −f : D → C durch die Abbildungsvorschrift x 7→ −f (x).
Für das Rechnen mit Funktionen gelten dieselben Rechengesetze wie in Z, d.h. (A1)–(A4) und (A5) für
die Addition. Die Nullfunktion oder identisch verschwindende Funktion 0 : D → R, x 7→ 0, übernimmt
dabei die Rolle des neutralen Elements der Addition, die Einsfunktion 1 : D → R, x 7→ 1, die des
neutralen Elements der Multiplikation. Man mache sich an einem Beispiel klar, dass es zu vorgegebenen
Funktionen f und h nicht immer eine Funktion g gibt mit f g = h.
Achtung. Die reziproke Funktion hat nichts mit der Umkehrfunktion zu tun.
3.4 Achsen- und Punktsymmetrie. Ist f : D ⊂ R → R eine Funktion mit f (−x) = f (x) für alle x ∈ D,
so nennen wir f achsensymmetrisch oder gerade. Gilt dagegen f (−x) = −f (x) für alle x ∈ D, so nennen
wir f punktsymmetrisch oder ungerade. Genau so definieren wir dies für eine Funktion f : D ⊂ C → C.
Der Graph einer geraden Funktion ist achsensymmetrisch, der einer ungeraden ist punktsymmetrisch
zum Ursprung. Dabei muss natürlich auch der Definitionsbereich auf der Zahlengeraden (bzw. in der
Zahlenebene) symmetrisch zum Ursprung 0 liegen, d.h. aus x ∈ D folgt immer −x ∈ D.
Machen Sie sich klar, dass für das Produkt von geraden bzw. ungeraden Funktionen dieselben Rechenregeln wie im Minikörper mit zwei Elementen 1.§1.3.3 gelten, d.h. das Produkt zweier gerader bzw. zweier
ungerader Funktionen ist gerade, das Produkt einer geraden und einer ungeraden Funktion ist ungerade.
Beispiel. Die Potenzabbildung x 7→ xn ist achsensymmetrisch oder punktsymmetrisch, je nachdem ob
n ∈ N gerade oder ungerade ist. Dagegen ist f (x) := x2 + x für x ∈ R weder achsen- noch punktsymmetrisch, da f (1) = 2 und f (−1) = 0.
(−x)
Jede Funktion kann mittels f = fg + fu mit fg (x) := f (x)+f
und fu (x) :=
2
Funktion fg und eine ungerade Funktion fu zerlegt werden.
f (x)−f (−x)
2
in eine gerade
3.5 Periodische Funktionen. Eine Funktion f : R → W heißt periodisch, wenn es eine Zahl p 6= 0
gibt mit f (x + p) = f (x) für alle x ∈ R. Jede derartige Zahl wird eine Periode von f genannt. Durch
Induktion folgt, dass mit p auch für jedes n ∈ Z r {0} die Zahl np eine Periode von f ist.
Analog definiert man dies für eine Funktion f : D ⊂ C → W , falls D die Zahlenebene selbst oder ein
Streifen in der Zahlenebene ist. Die Perioden dürfen dann komplexe Zahlen sein.
Eine konstante Funktion auf R ist periodisch und jede Zahl p ∈ R r {0} ist eine Periode.
§2
1
Exponentialfunktion und Verwandte
Exponentialfunktion
1.1 Definition: Exponentialfunktion. Die Exponentialfunktion wird definiert durch
exp : C → C,
exp(z) :=
∞
X
zk
k=0
Gemäß 1.§4.2.5 (a) konvergiert die Exponentialreihe
P∞
k=0
k!
.
z k /k! auf ganz C.
50
§2. EXPONENTIALFUNKTION UND VERWANDTE
1.2 Funktionalgleichung. Die Exponentialfunktion erfüllt die Funktionalgleichung
für beliebige z, w ∈ C.
exp(z + w) = exp(z) exp(w)
Dies haben wir in 1.§4.3.9 bewiesen. Für w = −z folgt insbesondere exp(z) exp(−z) = exp(0) = 1.
Die Exponentialfunktion hat keine Nullstellen und es gilt
exp(−z) =
1
exp(z)
für z ∈ C.
1.3 Berechnung der Exponentialfunktion. Es besteht die Fehlerabschätzung
n
X
z k 2|z|n+1
für z ∈ C und n ∈ N mit n ≥ 2|z|.
exp(z) −
≤
k! (n + 1)!
k=0
Da die Exponentialfunktion durch eine Reihe definiert ist, können wir ihre Werte i.A. nicht explizit
berechnen. Obige Fehlerabschätzung erlaubt uns aber
Pn an einer beliebigen Stelle z ∈ C die näherungsweise
Berechnung von exp(z) durch die Partialsumme k=0 z k /k!. Wegen 2|z|n+1 /(n + 1)! → 0 für n → ∞
müssen wir für einen beliebig vorgegebenen Fehler ε > 0 nur n ≥ 2|z| groß genug wählen, um exp(z) mit
dem Fehler ε zu approximieren.
Beweis. Sei z ∈ C gegeben. Für n ∈ N mit n ≥ 2|z| gilt |z|/n ≤ 1/2 und mit 1.§4.1.8 (f) folgt
∞
∞
n
X
X
X
z k |z|n+1
|z|
|z|2
|z|k
z k =
1+
+
+ ···
= ≤
exp(z) −
k! k! k!
(n + 1)!
n + 2 (n + 2)(n + 3)
k=n+1
k=0
k=n+1
|z|n+1
|z| |z|2
|z|n+1
1
2|z|n+1
1
≤
1+
1 + + 2 + ··· =
+ 2 + ··· ≤
.
(n + 1)!
n
n
(n + 1)!
2 2
(n + 1)!
1.4 Grenzwertdarstellung. Für den Wert der Exponentialfunktion exp(z) an der Stelle z gilt
z n
exp(z) = lim 1 +
für z ∈ C.
n→∞
n
Damit können wir insbesondere das Zerfallsgesetz aus 1.§2.8.4 in der Form N (t) = N0 exp(−βt) schreiben.
Beweis∗ . Zunächst gilt für n, k ∈ N die Beziehung
1
1
2
k−1
1
n 1
=
1
−
1
−
·
·
·
1
−
≤ .
k
k n
k!
n
n
n
k!
1
Hieraus folgt außerdem limn→∞ nk n1k = k!
, da in obiger Darstellung jeder der k − 1 Faktoren 1 −
l = 1, 2, . . . , k − 1, gegen 1 konvergiert.
l
n,
Da die Behauptung im Fall z = 0 offensichtlich wahr ist, können wir z 6= 0 annehmen. Zu gegebenem
k
P∞
ε
ε > 0 wählen wir N ∈ N so groß, dass k=N +1 |z|
k! < 3 . Dies ist möglich, da die Reihenreste dank der
1
Konvergenz der Exponentialreihe
bilden. Wegen nk n1k → k!
für n → ∞ existiert für jedes
eine Nullfolge
n 1
1
ε
k ∈ N0 ein nk ∈ N mit | k! − k nk | < 3(N +1)|z|k für n ≥ nk . Setzen wir nun nε := max{N, n0 , . . . , nN }
so erhalten wir aus unsren bisherigen Überlegungen für n ≥ nε die Abschätzung
∞
n X
z k X n z k z n −
= exp(z) − 1 +
n
k!
k nk k=0
k=0
N ∞
n X
X
X
1
|z|k
n |z|k
− n 1 |z|k +
≤
+
k!
k
k n
k!
k nk
N +1
N +1
k=0
N ∞
∞
N
X
X
X
X
1
|z|k
|z|k
ε
ε ε
− n 1 |z|k +
≤
+
<
+ + = ε.
k!
k nk k!
k!
3(N + 1) 3 3
k=0
Dies zeigt (1 + nz )n → exp(z) für n → ∞.
N +1
N +1
k=0
51
KAPITEL 2. ELEMENTARE FUNKTIONEN
1.5 Eulersche Zahl. Den Wert
∞
X
1
e := exp(1) =
k!
k=0
der Exponentialfunktion an der Stelle 1 nennen wir Eulersche Zahl .
Für z = 1 und n = 13 ist der Fehler in 1.3 kleiner als 4 · 10−10 und wir erhalten e ≈ 2, 718 281 828.
Die Folgen ((1 + n1 )n )n bzw. ((1 + n1 )n+1 )n sind streng monoton wachsend bzw. fallend und es gilt
n
n+1
1
1
lim 1 +
= e = lim 1 +
.
n→∞
n→∞
n
n
Die Grenzwertaussagen folgen aus 1.4, die Monotonieaussagen beweist man ähnlich wie in 1.§2.8.4.
Die Eulersche Zahl e ist irrational. Wäre nämlich e = m/n rational mit m, n ∈ N, so ist sicher n ≥ 2 und
e · n! ist dann eine ganze Zahl. Damit ist auch
!
n
X
1
c := n! e −
k!
k=0
eine ganze Zahl. Im Widerspruch hierzu folgt aus 1.3 aber 0 < c < n! · 2/(n + 1)! = 2/(n + 1) < 1.
Man kann zeigen, dass e sogar eine transzendente Zahl ist, d.h. eine Nullstelle eines Polynoms mit ganzzahligen Koeffizienten.
2
Exponentialfunktion im Reellen und natürlicher Logarithmus
2.1 Schranken für die Exponentialfunktion im Reellen nahe bei Null. Für die Exponentialfunktion gilt
1 + x ≤ exp(x) ≤
1
1−x
1
1−x
exp(x)
für reelles x < 1.
Beweis. Die Abschätzung 1 + x ≤ exp(x) erhalten wir
für x ≥ 0 aus exp(x) = 1 + x + x2 /2! + · · · ≥ 1 + x, für
−1 < x < 0 aus der Tatsache, dass 1 + x + x2 /2 + · · ·
dann eine alternierende Reihe ist. Ersetzen wir nun x
durch −x, so folgt 0 < 1 − x ≤ exp(−x) = 1/ exp(x), d.h.
exp(x) ≤ 1/(1 − x) für x < 1.
1+x
1
Wie die Herleitung zeigt, gilt exp(x) ≥ 1 + x für alle
x ∈ R. Die nebenstehende Skizze legt nahe, dass diese
Abschätzungen nur für x nahe bei Null gut sind.
-1
1
Abbildung 2.3: Exponentialfunktion
im Reellen und Schranken im Intervall ] − ∞, 1[.
2.2 Abbildungsverhalten der Exponentialfunktion
im Reellen. Die Exponentialfunktion bildet R bijektiv
und streng monoton wachsend auf R+ ab.
Beweis∗ . Wir beweisen zuerst die Monotonie. Für x, y ∈ R mit x < y folgt im Fall x > 0 zunächst
xk < y k und mit der Monotonie des Grenzwerts dann
1 = exp(0) < exp(x) =
∞
X
xk
k=0
k!
<
∞
X
yk
k=0
k!
= exp(y).
Gilt x ≤ 0 < y, so erhalten wir aus −x ≥ 0 und y > 0 zunächst exp(−x) ≥ 1 und exp(y) > 1, dann
aber auch exp(x) = 1/ exp(−x) ≤ 1 < exp(y). Gilt schließlich y ≤ 0, so folgt −x > −y ≥ 0 und
52
§2. EXPONENTIALFUNKTION UND VERWANDTE
exp(x) = 1/ exp(−x) < 1/ exp(−y) = exp(y). Auf jeden Fall folgt also aus x < y auch exp(x) < exp(y).
Damit ist exp streng monoton wachsend und es gilt exp(R) ⊆ R+ .
Wir müssen noch zeigen, dass die Gleichung exp(x) = y für jedes y ∈ R+ eine Lösung x ∈ R besitzt.
Ferner genügt es, diesen Nachweis für y > 1 zu führen: für y = 1 können wir nämlich x = 0 wählen, für
0 < y < 1 folgt 1/y > 1 und wenn es ein x ∈ R gibt mit exp(x) = 1/y, so gilt exp(−x) = y.
Um zu zeigen, dass exp(x) = y für ein gegebenes y > 1 eine reelle Lösung besitzt, gehen wir ähnlich wie
im Nachweis der Existenz von Wurzeln in 1.§2.2.4 vor und verwenden dabei die Abschätzungen aus 2.1.
Wir setzen M := {ζ ∈ R : exp(ζ) ≤ y}. Dann ist M wegen 0 ∈ M nichtleer. Aus exp(y) ≥ 1 + y und der
schon bewiesenen Monotonie der Exponentialfunktion folgt, dass y eine obere Schranke für M ist. Nach
dem Vollständigkeitsaxiom (A9) existiert dann die reelle Zahl x := sup M . Wir zeigen nun exp(x) = y,
indem wir die zwei folgenden Fälle ausschließen.
Fall 1, es gilt exp(x) < y. Dann gibt es ein h ∈]0, 1[ mit exp(x)/(1 − h) < y und wir erhalten mit 2.1
exp(x + h) = exp(x) exp(h) <
exp(x)
< y.
1−h
Also ist x + h ∈ M und x kann nicht das Supremum von M sein. Damit tritt dieser Fall nicht ein.
Fall 2, es gilt exp(x) > y. Dann gibt es ein h ∈]0, 1[ mit exp(x)(1 − h) > y und es folgt aus 2.1
exp(x − h) =
exp(x)
> exp(x)(1 − h) > y.
exp(h)
Also ist x − h eine kleinere obere Schranke für M als x. Somit kann auch dieser Fall nicht eintreten.
2.3 Definition: natürlicher Logarithmus. Die auf R+ existierende Umkehrfunktion der Exponentialfunktion heißt Logarithmusfunktion, Logarithmus oder natürlicher Logarithmus und wird mit ln bezeichnet:
ln : R+ → R,
ln(x) := exp−1 (x) für x ∈ R+ .
Aus der Funktionalgleichung 1.2, den Schranken 2.1 und den Abbildungseigenschaften 2.2 der Exponentialfunktion im Reellen erhalten wir sofort entsprechende Eigenschaften des Logarithmus.
2.4 Funktionalgleichung des Logarithmus. Es gilt
x−1
ln(xy) = ln(x) + ln(y)
für x, y ∈ R+ .
Insbesondere gilt ln(1) = 0 und ln(e) = 1 sowie
ln( x1 ) = − ln(x) für x > 0.
2.5 Abbildungseigenschaften des Logarithmus.
Die Logarithmusfunktion bildet R+ bijektiv und streng
monoton wachsend auf R ab. Für alle x ∈ R gilt
ln(exp(x)) = x, für alle y ∈ R+ gilt exp(ln(y)) = y.
2.6 Schranken für den Logarithmus nahe bei Eins.
Für den Logarithmus gilt
1
1 − ≤ ln(x) ≤ x − 1
x
ln(x)
1
1−
1
x
1
-1
Abbildung 2.4: Logarithmusfunktion im
Reellen und Schranken im Intervall ]0, e[.
für x > 0.
2.7 Anwendungsbeispiel. Die Halbwertszeit T einer radioaktiven Substanz ist diejenige Zeit, nach
der die Hälfte der Substanz zerfallen ist. Es gilt also N0 /2 = N0 exp(−βT ), d.h. exp(−βT ) = 1/2. Durch
Logarithmieren erhalten wir −βT = ln(exp(−βT )) = ln(1/2) = ln(1) − ln(2) = − ln(2), d.h. T = ln(2)/β.
53
KAPITEL 2. ELEMENTARE FUNKTIONEN
3
Allgemeine Potenzen und Logarithmen
3.1 Vorbemerkung. Exponentialfunktion und Logarithmus zusammen machen das Rechnen mit Potenzen ungemein einfach. Wir verwenden sie, um endlich ganz allgemein Potenzen zu definieren. Hierzu
dient die Beziehung
xn = exp(n ln(x))
für x ∈ R+ und n ∈ Z,
welche zunächst für n ∈ N0 durch einen Induktionsbeweis folgt und dann mit der Funktionalgleichung
auf n ∈ Z übertragen wird. Die uns bekannten Potenzen mit ganzzahligem Exponenten lassen sich daher
durch die Exponentialfunktion und den Logarithmus ausdrücken. Der Ausdruck exp(n ln(x)) ist aber
nicht nur für n ∈ Z und x ∈ R+ , sondern für beliebige n ∈ C definiert. Darum können wir nun Potenzen
mit beliebigen Exponenten definieren. Dafür muss die Basis jetzt aus R+ stammen.
3.2 Allgemeine Potenz. Für eine reelle Zahl a > 0 und eine reelle oder komplexe Zahl z heißt
az := exp(z ln(a))
die z-te Potenz von a. Die Zahl a wird Basis, die Zahl z Exponent genannt.
Gleichzeitig rechtfertigt dies die Schreibweise
exp(z) = ez
für z ∈ C.
Die allgemeine Exponentialfunktion z 7→ az , z ∈ C, verhält sich im Reellen für a > 1 wie exp, für
0 < a < 1 wie 1/ exp.
8
exp
ã
( 14 )x
1
6
( 23 )x
3x
ln
1
4
ã
2
-4
-2
2
4
Abbildung 2.5: Graphen von Exponentialfunktion und natürlichem Logarithmus, sowie von einigen allgemeinen Exponentialfunktionen x 7→ ax .
Die Funktionalgleichungen für Exponentialfunktion und Logarithmus liefern uns sofort folgende Regeln.
3.3 Rechenregeln für Potenzen. Für beliebige a, b ∈ R+ gilt
(a) az+w = az aw , (az )w = azw und (ab)z = az bz für alle z, w ∈ C.
(b) Aus a < b folgt ax < bx falls x ∈ R+ und ax > bx falls x ∈ R− .
3.4 Potenzschreibweise für Wurzeln. Für a > 0 und n ∈ N setzen wir x = a1/n , d.h. x = eln(a)/n .
Dann gilt x > 0 und mit den Rechenregeln 3.3 folgt
xn = a. Nach 1.§2.2.4 hat diese Gleichung aber nur
√
n
eine nichtnegative Lösung — und die haben wir a genannt. Daher gilt
√
n
a = a1/n
für a ∈ R+ und n ∈ N.
54
§2. EXPONENTIALFUNKTION UND VERWANDTE
3.5 Allgemeine Logarithmen. Die auf R+ existierende Umkehrfunktion der allgemeinen Exponentialfunktion x 7→ ax für ein a ∈ R+ r {1}, heißt Logarithmus zur Basis a und wird mit loga bezeichnet.
Aus ax = exp(x ln(a)) für x ∈ R erhalten wir durch Anwenden der Umkehrfunktion x = loga (exp(x ln(a)))
und durch Ersetzen von x durch ln(y)/ ln(a) dann
loga (y) =
ln(y)
ln(a)
für y ∈ R+ .
Gebräuchliche Schreibweisen sind log10 = lg (dekadischer Logarithmus) und log2 = ld (Logarithmus
dualis). Oftmals wird der natürliche Logarithmus ln auch mit log bezeichnet.
3.6 Anmerkung. Wenn man sich mit allgemeinen Potenzen und Logarithmen nicht sicher fühlt, so
ersetze man az = exp(z ln(a)) bzw. loga (y) = ln(y)/ ln(a) und rechne anschließend mit den Funktionalgleichungen für exp und ln weiter.
3.7 Logarithmische graphische Darstellung. Zur graphischen Darstellung von schnell wachsenden
oder fallenden Funktionen bzw. zur Darstellung großer Definitions- oder Zielbereiche verwendet man
in der Physik gerne statt der linearen eine logarithmische Achseneinteilung, d.h. es werden nicht die
Einheiten k ∈ Z, sondern 10k , k ∈ Z, äquidistant angetragen. Eine logarithmische Achseneinteilung kann
dann nur zur Darstellung positiver Zahlen verwendet werden.
−5
−4
−3
−2
−1
10−5 10−4 10−3 10−2 10−1
0
1
2
3
4
1
101
102
103
104
5
105
Abbildung 2.6: Lineare (oben) und logarithmische Achseneinteilung (unten).
Je nachdem, ob man diese Achseneinteilung für die abhängige, für die unabhängige oder für beide Variablen wählt, spricht man von linear-logarithmischer , logarithmisch-linearer oder logarithmisch-logarithmischer Darstellung.
100
1
100
10
0.5
10
1
10
−x
0
-2
-1
0
1
2
linear-logarithmisch
x2
1
0.1
-0.5
0.1
0.01
lg(x)
-1
0.10.2 0.5 1
2
5 10
logarithmisch-linear
0.01
0.10.2 0.5 1
2
5 10
logarithmisch-logarithmisch
Abbildung 2.7: Die drei verschiedenen logarithmischen graphischen Darstellungen.
4
Hyperbelfunktionen
4.1 Cosinus und Sinus Hyperbolicus. Die Zerlegung der Exponentialfunktion in einen geraden und
einen ungeraden Anteil gemäß §1.3.4 nennen wir Cosinus Hyperbolicus bzw. Sinus Hyperbolicus
cosh : C → C,
cosh(z) :=
ez + e−z
,
2
sinh : C → C,
sinh(z) :=
ez − e−z
.
2
55
KAPITEL 2. ELEMENTARE FUNKTIONEN
cosh
sinh
1
1 x
2e
-1
1
− 21 e−x
-1
1 −x
2e
1
-1
1 x
2e
1
Abbildung 2.8: Graphen von Cosinus und Sinus Hyperbolicus im Reellen.
In der Mechanik tritt der Cosinus Hyperbolicus bei der Beschreibung des Durchhangs von Ketten oder
Seilen unter Einfluss der Schwerkraft auf. Sein Graph wird darum auch Kettenlinie oder Katenoide
genannt.
4.2 Reihendarstellung. Aus der Reihendarstellung für die Exponentialfunktion erhalten wir sofort
cosh(z)
sinh(z)
=
=
∞
X
1
1
z 2k
= 1 + z2 + z4 + · · ·
(2k)!
2
24
k=0
∞
X
k=0
für z ∈ C,
z 2k+1
1
1 5
= z + z3 +
z + ···
(2k + 1)!
6
120
für z ∈ C.
4.3 Additionstheorem. Die Funktionalgleichungen (auch Additionstheorem genannt)
cosh(z + w) = cosh(z) cosh(w) + sinh(z) sinh(w)
sinh(z + w) = sinh(z) cosh(w) + cosh(z) sinh(w)
für z, w ∈ C,
für z, w ∈ C
für den Cosinus Hyperbolicus und den Sinus Hyperbolicus verifizieren wir sofort mit Hilfe der Funktionalgleichung für die Exponentialfunktion. Beispielsweise gilt
cosh(z) cosh(w) + sinh(z) sinh(w)
ez − e−z ew − e−w
ez + e−z ew + e−w
+
=
2
2
2
2
ez+w + ez−w + e−z+w + e−z−w
ez+w − ez−w − e−z+w + e−z−w
=
+
4
4
ez+w + e−(z+w)
=
= cosh(z + w).
2
4.4 Weitere Identitäten. Ebenso einfach können wir die beiden Identitäten
cosh2 (z) − sinh2 (z) = 1,
cosh(z) + sinh(z) = exp(z)
für z ∈ C
und die Verdoppelungsformeln
cosh(2z) = 2 cosh2 (z) − 1,
herleiten.
sinh(2z) = 2 sinh(z) cosh(z)
für z ∈ C
56
§2. EXPONENTIALFUNKTION UND VERWANDTE
4.5 Monotonieverhalten und Umkehrfunktionen im Reellen. Im Reellen ist x 7→ ex und damit
auch x 7→ −e−x streng monoton steigend. Dies gilt dann auch für den sinh. Aus 0 ≤ x < y folgt x2k < y 2k
für beliebige k ∈ N. Aus der Reihendarstellung 4.2 für cosh(x) lesen wir nun ab, dass cosh in R+
0 streng
monoton wächst. Als gerade Funktion muss cosh dann in R−
streng
monoton
fallen.
0
Wir zeigen nun, dass die Gleichung sinh(x) = y für jedes y ∈ R eine Lösung besitzt (wegen der Monotonie
muss selbige dann eindeutig bestimmt sein). Aus
ex − e−x = 2y ⇔ 0 = e2x − 2yex − 1 = (ex − y)2 − y 2 − 1 ⇔ (ex − y)2 = y 2 + 1
p
p
⇔ ex = y + y 2 + 1 oder ex = y − y 2 + 1
p
p
p
erhalten wir y = ln(y + y 2 + 1), der zweite Kandidat fällt wegen y − y 2 + 1 < y − y 2 < 0 < ex
weg. Damit bildet der Sinus Hyperbolicus R streng monoton wachsend und bijektiv auf sich selbst ab.
Die Umkehrfunktion
p
arsinh : R → R,
arsinh(y) := ln y + y 2 + 1
für y ∈ R,
sinh(x) = y
⇔
wird mit Areasinus Hyperbolicus bezeichnet.
Analog zeigt man, dass cosh die nichtnegativen reellen Zahlen streng monoton steigend und bijektiv auf
[1, +∞[ abbildet. Als Umkehrfunktion erhält man den Areacosinus Hpyerbolicus
p
arcosh : [1, +∞[→ R+
arcosh(y) := ln y + y 2 − 1
für y ∈ [1, +∞[.
0,
4.6∗ Tangens und Cotangens Hyperbolicus. Die Gruppe der Hyperbelfunktionen wird vervollständigt
durch den Tangens Hyperbolicus und den Cotangens Hyperbolicus
tanh : C r {z ∈ C | cosh(z) 6= 0} → C,
coth : C r {z ∈ C | sinh(z) 6= 0} → C,
sinh(z)
,
cosh(z)
cosh(z)
coth(z) :=
.
sinh(z)
tanh(z) :=
Wie die beiden Definitionsbereiche genau aussehen, wird sich in Abschnitt 5 klären.
tanh
coth
1
-1
1
1
-1
-1
1
-1
Abbildung 2.9: Graphen von Tangens und Cotangens Hyperbolicus im Reellen.
Man zeige als Übung, dass tanh |R eine streng monoton wachsende Bijektion von R auf ]−1, 1[ ist, während
coth |Rr{0} eine streng monoton fallende Bijektion von R− auf ]−∞, −1[ bzw. von R+ auf ]1, +∞[ ist. Die
Umkehrfunktionen werden Areatangens Hyperbolicus (artanh) bzw. Areacotangens Hyperbolicus (arcoth)
genannt.
57
KAPITEL 2. ELEMENTARE FUNKTIONEN
5
Exponentialfunktion im Komplexen und trigonometrische Funktionen
5.1 Vorbemerkung. Um das Abbildungsverhalten der Exponentialfunktion im Komplexen zu verstehen, verwenden wir die Funktionalgleichung in der Form
exp(x + iϕ) = ex eiϕ
für x, ϕ ∈ R.
Da wir das Abbildungsverhalten von x 7→ ex im Reellen schon kennen, müssen wir uns nur noch um
ϕ 7→ eiϕ kümmern.
Wegen
exp(z) =
∞
X
zk
k=0
k!
=
∞
X
zk
k=0
= exp(z)
k!
für z ∈ C
gilt insbesondere eiϕ = e−iϕ , d.h.
|eiϕ | = 1
für ϕ ∈ R.
5.2 Cosinus und Sinus. Cosinus und Sinus werden definiert durch
cos : C → C,
cos(z) :=
eiz + e−iz
,
2
sin : C → C,
sin(z) :=
eiz − e−iz
.
2i
Daher gilt
cos ϕ = Re(eiϕ ),
sin ϕ = Im(eiϕ )
für ϕ ∈ R
und aus |eiϕ | = 1 folgt
−1 ≤ cos ϕ, sin ϕ ≤ 1
für ϕ ∈ R.
Wir schreiben hierbei cos ϕ statt cos(ϕ) etc., falls keine Missverständnisse zu befürchten sind.
5.3 Eulersche Formel und Kreisgleichung. Aus der Definition von Cosinus und Sinus erhalten wir
unmittelbar die Eulersche Formel
eiz = cos z + i sin z
für z ∈ C
sowie nach kurzer Rechnung die Kreisgleichung
cos2 z + sin2 z = 1
für z ∈ C.
5.4 Zusammenhang mit den Hyperbelfunktionen.
cos(z) = cosh(iz),
sin(z) = −i sinh(iz)
für z ∈ C.
5.5 Additionstheorem. Durch Umrechnung erhalten wir aus dem Additionstheoremen für cosh bzw.
sinh die Analoga für Cosinus und Sinus zu
cos(z + w)
=
cos(z) cos(w) − sin(z) sin(w)
für z, w ∈ C,
sin(z + w)
=
sin(z) cos(w) + cos(z) sin(w)
für z, w ∈ C
und ebenso diverse weitere Identitäten sowie Reihendarstellungen.
5.6 Winkelverdoppelungs- und Halbwinkelformel.
cos(2z) = 2 cos2 (z) − 1,
cos2
z 2
=
1 + cos(z)
,
2
sin(2z) = 2 sin(z) cos(z)
sin2
z 2
=
1 − cos(z)
2
für z ∈ C.
für z ∈ C.
58
§2. EXPONENTIALFUNKTION UND VERWANDTE
5.7 Weitere Identitäten.
cos z − cos w
sin z − sin w
z+w
z−w
= −2 sin
sin
2
2
z+w
z−w
= −2 cos
sin
2
2
für z, w ∈ C,
für z, w ∈ C.
5.8 Reihendarstellung.
cos z
sin z
∞
X
(−1)k
=
k=0
∞
X
=
k=0
1
1
z 2k = 1 − z 2 + z 4 ∓ · · ·
(2k)!
2
24
für z ∈ C,
(−1)k 2k+1
1
1 5
z
= z − z3 +
z ∓ ···
(2k + 1)!
6
120
für z ∈ C.
5.9 Schranken für Cosinus und Sinus im Reellen nahe bei Null. In 1.§4.2.7 haben wir aus dem
Leibniz-Kriterium die Schranken
1−
ϕ2
ϕ2
ϕ4
≤ cos ϕ ≤ 1 −
+
2
2
24
√
√
für − 2 3 < ϕ < 2 3
hergeleitet. Analog zeigt man
ϕ−
ϕ3
≤ sin ϕ ≤ ϕ
6
für 0 ≤ ϕ <
ϕ ≤ sin ϕ ≤ ϕ −
ϕ3
6
für −
√
√
6,
6 < ϕ < 0.
Die genaue Größe der Intervalle in denen diese Abschätzungen geltens ist eigenlich nicht so wichtig. In
der Praxis verwendet man sie sowieso nur nahe bei Null. Dort sind sie gut, wie Abbildung 2.10 suggeriert.
ϕ
1−
cos ϕ
1
-2
-1
1
2
ϕ2
2
+
ϕ4
24
sin ϕ
1
-2
-1
1
-1
-1
1−
2
ϕ−
ϕ3
6
ϕ2
2
Abbildung 2.10: Schranken für Cosinus und Sinus im Reellen nahe bei Null.
5.10 Kreiszahl. Gemäß 5.9 gilt cos(0) = 1, cos(2) < 0 und der Sinus ist in [0, 2] positiv. Mit 5.7 erhalten
wir dann cos ϕ − cos ψ < 0 für 0 ≤ ϕ < ψ ≤ 2. Also ist der Cosinus in [0, 2] streng monoton fallend und
wechselt sein Vorzeichen. Aus dem Zwischenwertsatz 4.§2.4.2 (oder mit Hilfe des Vollständigkeitsaxioms
(A9)) kann man hieraus die Existenz einer Nullstelle des Cosinus in ]0, 2[ folgern.
Die Kreiszahl π ist das Doppelte der kleinsten positiven Nullstelle des Cosinus.
59
KAPITEL 2. ELEMENTARE FUNKTIONEN
Aus der Kreisgleichung 5.3 erhalten wir sin2 (π/2) = 1 und mit sin ϕ > 0 für ϕ ∈]0, 2[ dann sin(π/2) = 1.
Die Eulersche Formel 5.3 liefert uns nun eiπ/2 = i. Mit den Funktionalgleichungen 5.5 erhalten wir
z
π
π
2
i −1
0 −1
1
0
0
exp(iz) 1
cos(z) 1
sin(z) 0
3π
2π
2
−i
1
0
1
−1
0
sowie die folgenden Verschiebungssätze.
5.11 Verschiebungssätze.
exp(z + i π2 )
cos(z + π2 )
sin(z + π2 )
exp(z + iπ) = − exp(z),
cos(z + π) = − cos(z),
sin(z + π) = − sin(z),
= i exp(z),
= − sin(z),
= cos(z),
exp(z + 2iπ) = exp(z),
cos(z + 2π) = cos(z),
sin(z + 2π) = sin(z).
Hieraus leiten sich die folgenden Aussagen über die Periodizität von Cosinus, Sinus und Exponentialfunktion sowie über das Monotonieverhalten von Cosinus und Sinus im Reellen her.
5.12 Perioden von Cosinus und Sinus. Cosinus und Sinus sind periodisch. Jede Periode ist ein
ganzzahliges Vielfaches von 2π.
cos(z + 2kπ) = cos(z),
sin(z + 2kπ) = sin(z)
für k ∈ Z.
5.13 Perioden der Exponentialfunktion. Die Exponentialfunktion ist periodisch. Jede Periode ist
ein ganzzahliges Vielfaches von 2πi.
e2kπi = 1
für k ∈ Z.
5.14 Monotonieverhalten von Cosinus und Sinus im Reellen. Der Cosinus bildet das Intervall
[0, π] streng monoton fallend auf das Intervall [−1, 1] ab. Der Sinus bildet das Intervall [−π/2, π/2] streng
monoton wachsend auf das Intervall [−1, 1] ab.
1
1
cos
-3 Π -2 Π
-Π
Π
-1
sin
2Π
3Π
-3 Π -2 Π
-Π
Π
2Π
3Π
-1
Abbildung 2.11: Cosinus und Sinus im Reellen.
5.15 Umkehrfunktionen von Cosinus und Sinus im Reellen. Die Umkehrfunktion des Cosinus
im Reellen
arccos : [−1, 1] → [0, π],
arccos(y) := (cos |[0,π] )−1
für y ∈ [−1, 1]
heißt Arcuscosinus. Natürlich kann der Cosinus auch auf einem anderen Teilintervall I ⊂ R umgekehrt
werden, auf dem er monoton ist, z.B. auf [π, 2π]. Um die dort definierte Umkehrfunktion (cos |[π,2π] )−1
von der eben definierten zu unterscheiden, nennt man obige auch den Hauptzweig des Arcuscosinus.
60
§2. EXPONENTIALFUNKTION UND VERWANDTE
Π
2
arccos
Π
arcsin
1
sin
Π
-
2
1
-1
1
Π
2
-1
-1
1
Π
Π
-
2
cos
-1
Abbildung 2.12: Hauptzweige des Arcuscosinus und des Arcussinus im Reellen.
Die Umkehrfunktion des Sinus im Reellen
arcsin : [−1, 1] → [−π/2, π/2],
arcsin(y) := (sin |[−π/2,π/2] )−1
für y ∈ [−1, 1]
heißt Arcussinus oder Hauptzweig des Arcussinus. Für die Umkehrbarkeit auf anderen Teilintervallen als
[−π/2, π/2] gilt das zuvor Gesagte.
Auf R selbst oder anderen großen“ Teilmengen von D ⊂ C kann man den Cosinus und den Sinus nicht
”
umkehren — außer man ersetzt die Wertemenge cos(D) bzw. sin(D) durch eine größere, in der man die
zunächst gleichen Werte an verschiedenen Stellen doch unterscheiden kann. Das zugehörige mathematische
Konzept heißt Riemannsche Fläche“. Im Fall der Exponentialfunktion (wo sich ein ähnliches Problem
”
stellt) werden wir in 5.17 kurz darauf eingehen.
5.16 Polarkoordinaten. Zu jeder Zahl z ∈ C mit |z| = 1 gibt es genau ein ϕ ∈ [0, 2π[ mit eiϕ = z.
Beweis. Für z = x+iy ∈ C mit kartesischen Koordinaten (x, y) folgt 1 = |z|2 = x2 +y 2 , d.h. insbesondere
−1 ≤ x, y ≤ 1. Das Monotonieverhalten des Cosinus zeigt, dass die Gleichung cos ϕ = x in [0, π[ bzw.
in [π, 2π[ jeweils genau eine Lösung besitzt. Aus der Kreisgleichung erhalten wir dann y 2 = 1 − x2 =
1 − cos2 ϕ = sin2 ϕ. Von den beiden obigen Lösungen erfüllt wegen der Monotonie des Sinus und wegen
sin([0, π[= [0, 1] bzw. sin(]π, 2π[= [−1, 0[ genau eine y = sin ϕ, die andere dann y = − sin ϕ.
Zu jeder komplexen Zahl z 6= 0 gibt es genau ein r > 0 und ein ϕ ∈ [0, 2π[ mit
z = reiϕ .
Die Darstellung heißt Polarkoordinatendarstellung von z. Wir nennen
r = |z|
und
ϕ := arg(z)
den Radius bzw. das Argument von z.
Beweis. Für z 6= 0 gilt z = |z| · z/|z| und z/|z| hat den Betrag 1, d.h. nach dem vorher Gesagten eine
eindeutige Darstellung der Form z/|z| = eiϕ mit ϕ ∈ [0, 2π[.
Wir stellen uns arg(z) als den Winkel vor, den z mit der positiven reellen Achse einschließt.
Wegen der Periodizität der Exponentialfunktion gilt dann auch
z = reiϕ+2πik
für beliebige k ∈ Z.
61
KAPITEL 2. ELEMENTARE FUNKTIONEN
Man nennt daher auch ϕ = arg(z) den Hauptzweig des Arguments von z.
Die Umrechnung von Polarkoordinaten reiϕ in kartesiche Koordinaten (x, y) = x + iy erfolgt mittels
x = Re(reiϕ ) = r cos ϕ,
y = Im(reiϕ ) = r sin ϕ.
Für die Umrechnung von kartesischen in Polarkoordinaten bildet man
arccos √ 2x 2
p
x +y
2
2
r = |x + iy| = x + y ,
ϕ = arg(x + iy) =
2π − arccos √
für y ≥ 0,
x
x2 +y 2
für y < 0,
5.17 Abbildungsverhalten der Exponentialfunktion im Komplexen. Für eine komplexe Zahl
z = x + iy, x, y ∈ R, gilt exp(z) = ex eiy und x 7→ ex ist eine Bijektion von R auf ]0, +∞[. Damit bildet
die Exponentialfunktion
• jede Parallele {x + iy | x ∈ R} zur reellen Achse bijektiv auf eine Ursprungshalbgerade ab, die mit
der positven reellen Achse den Winkel y einschließt,
• jede zur imaginären Achse parallele Strecke {x + iy | y0 ≤ x < y0 + 2π} der Länge 2π bijektiv auf
einen Kreis um den Ursprung mit Radius ex ab.
Wir können uns dieses Abbildungsverhalten gut vorstellen, indem wir je ein Exemplar der Zahlenebene
für den Definitions- und den Zielbereich nebeneinanderlegen und einzeichnen, wie ein achsenparalleles
Gitter im Definitionsbereich in den Zielbereich abgebildet wird. Offensichtlich wird dabei das Gitter
winkelerhaltend (man sagt konform) abgebildet.
2Π i
10i
Π i
-1
exp
1
-10
10
-Π i
-2Π i
-10i
Abbildung 2.13: Abbildungsverhalten der Exponentialfunktion im Komplexen.
Die Exponentialfunktion bildet den Parallelstreifen {x + iy ∈ C : x ∈ R, y ∈ [0, 2π[} und jeden anderen
zur reellen Achse parallelen Parallelstreifen der Breite 2π bijektiv auf C r {0} ab.
5.18∗ Logarithmus im Komplexen. Auf ganz C gesehen ist also exp nicht bijektiv, sondern nimmt
jeden Wert in C r {0} unendlich oft an. Aus diesem Grund waren wir in §2.2 bescheiden und haben
den Logarithmus zunächst nur im Reellen eingeführt. Da die Exponentialfunktion den Parallelstreifen
P0 := {x + iy ∈ C | 0 ≤ y < 2π} bijektiv auf C r {0} abbildet, können wir den Logarithmus nun in
Komplexe fortsetzen durch
ln : C r {0} → P0 ⊂ C,
ln(z) := ln |z| + i arg(z),
62
§2. EXPONENTIALFUNKTION UND VERWANDTE
hierbei ist ln |z| gerade der aus dem Reellen bekannte Logarithmus von |z| > 0 und arg(z) der Hauptzweig
des Arguments von z. Wir nennen diese Funktion ln darum auch Hauptzweig des Logarithmus.
√
Beispiel. Wir erhalten ln(1 + i) aus der Polarkoordinatendarstellung 1 + i = 2eiπ/2 zu
√
ln 2
π
π
ln(1 + i) = ln 2 + i =
+i .
2
2
2
Als Ausblick wollen wir skizzieren, wie man sich den (nach dem zuvor Gesagten zunächst aussichtslosen)
Wunsch erfüllen kann, die Exponentialfunktion auf ganz C umzukehren.
Wir zerlegen hierzu den Definitionsbereich C der Exponentialfunktion gedanklich in Parallelstreifen
Pk := {x + iy ∈ C | x ∈ R, y ∈ [2kπ, 2(k + 1)π[} und ordnen jedem solchen Parallelstreifen als Bild
ein eigenes Exemplar von C r {0} zu. Wir erhalten eine Funktion Exp mit verändertem Wertebereich, die
dafür bijektiv ist. Der Tatsache, dass die Parallelstreifen Pk aneinandergeheftet ganz C ergeben, tragen
wir dadurch Rechnung, dass wir die jeweiligen Bildexemplare C r {0} in Form einer unendlichen Wendeltreppe aneinanderheften. Das ist — grob gesagt — ein Modell der zur Exponentialfunktion Exp : C → C
gehörigen Riemannschen Fläche C.
2Πi
Exp
-
-1 1
Ln
-2Πi
C
C
Abbildung 2.14: Riemannsche Fläche zu Exponentialfunktion und Logarithmus.
Nun erhalten wir auch eine Umkehrabbildung Ln : C → C, Ln := Exp−1 der Exponentialfunktion im
Komplexen, deren Zuordnungsvorschrift (z, k) 7→ Ln(z, k) = ln |z| + i arg z + 2πik, k ∈ Z, davon abhängt,
auf welchem Blatt der Riemannschen Fläche C wir uns gerade befinden. Dies trägt formal der Tatsache
Rechnung, dass Exp(Ln(z)) = eln |z|+i arg z+2πik = |z|ei arg z e2kπi = z für jedes k ∈ Z.
5.19 Bogenlänge von Kreisbögen, Bogenmaß. Unsere Definition von π in 5.10 als das Doppelte
der kleinsten postiven Nullstelle des Cosinus wirkt unnatürlich. Sie war auf eine effektive Behandlung
des umfangreichen Formelapparats für exp, cos und sin zugeschnitten. Dafür erhalten wir allerdings alle
Formeln für Cosinus und Sinus in einfacher Weise. Nun wollen wir uns die geometrische Bedeutung von π
kurz ansehen.
Für gegebenes r > 0 und α > 0 ist die Länge des Kreisbogens {reiϕ | 0 ≤ ϕ ≤ α} ist gerade rα.
Insbesondere hat die Kreislinie mit Radius r die Länge 2rπ.
Für einen Beleg dieser Aussage müssen wir zunächst erklären, wie wir die Länge eines Kreisbogens
γα := {reiϕ | 0 ≤ ϕ ≤ α} ⊂ C
63
KAPITEL 2. ELEMENTARE FUNKTIONEN
messen wollen. Zunächst können wir nur die Länge einer Strecke problemlos messen. Hat selbige die
Endpunkte z, w ∈ C, so erhalten wir als Länge |z − w|. Wir approximieren nun den Kreisbogen γα , indem
wir auf ihm äquidistant n + 1 Teilpunkte reiαk/n , k = 0, 1, 2, . . . , n, einfügen und deren Längen addieren.
Wir erhalten
lα,n
:=
n
X
|reiαk/n − reiα(k−1)/n | =
k=1
=
n
X
k=1
n
X
k=1
r |eiα(2k−1)/(2n) | |eiα/(2n) − e−iα/(2n) |
|
{z
}
=1
iα/(2n)
α e
− e−iα/(2n) = 2rn sin
2r .
2i
2n
Gemäß der Abschätzungen 1 − ϕ2 /6 < | sinϕ ϕ | ≤ 1 in 5.9 für
den Sinus nahe bei Null gilt
α
α
lαn = 2rn sin
' 2rn
= rα
für n → ∞.
2n
2n
reiα2/n
reiα
reiα/n
α
Also sollten wir dem Kreisbogen γα die Länge rα zuordnen.
r
Wegen dieses Zusammenhangs zwischen Länge eines Bogens
auf dem Einheitskreis und zugehörigen Winkel misst man Winkel auch im Bogenmaß (Radiant). Ein Vollwinkel misst dann
2π, ein rechter Winkel π/2. Die Umrechnung von Gradmaß
(wo ein Vollwinkel 360◦ misst) in Bogenmaß erfolgt mittels
αgrad =
Abbildung 2.15: Approximation an einen
Kreisbogen und Winkel im Bogenmaß.
360◦
αrad .
2π
5.20 Tangens und Cotangens. Tangens und Cotangens werden definiert durch
tan : {z ∈ C|z 6= kπ + π2 , k ∈ Z} → C,
cot : {z ∈ C|z 6= kπ, k ∈ Z} → C,
2i
sin(z)
= 2iz
− i,
cos(z)
e +1
cos(z)
2i
cot(z) :=
= 2iz
+ i.
sin(z)
e −1
tan(z) :=
5.21 Zusammenhang mit Hyperbelfunktionen.
tan(z) = −i tanh(iz),
cot(z) = i coth(iz)
für z ∈ C.
5.22 Additionstheorem.
tan(z + w) =
tan(z) + tan(w)
,
1 − tan(z) tan(w)
cot(z + w) =
cot(z) cot(w) − 1
.
cot(z) + cot(w)
5.23 Perioden von Tangens und Cotangens. Tangens und Cotangens sind periodisch. Jede Periode
ist ein ganzzahliges Vielfaches von π.
tan(z + kπ) = tan(z),
cot(z + kπ) = cot(z)
für k ∈ Z.
5.24 Monotonieverhalten von Tangens und Cotangens im Reellen.
Der Tangens bildet das
Intervall ] − π/2, π/2[ streng monoton wachsend auf R ab. Der Cotangens bildet das Intervall ]0, π[ streng
monoton fallend auf R ab.
64
§3. ALGEBRAISCHE FUNKTIONEN
tan
cot
1
-Π
1
Π
-1
-Π
Π
-1
Abbildung 2.16: Tangens und Cotangens im Reellen.
tan
Π
2
1
Π -1
-
2
-1
Π
-
2
Π
arctan
cot
arccot
1
1 Π
2
-Π
-1
1
Π
-1
-Π
Abbildung 2.17: Hauptzweige des Arcustangens und des Arcuscotangens im Reellen.
5.25 Umkehrfunktionen von Tangens und Cotangens im Reellen. Die Umkehrfunktionen des
Tangens bzw. des Cotangens im Reellen
arctan : R →] − π/2, π/2[, arctan := (tan |]−π/2,π/2[ )−1 ,
arccot : R →]0, π[, arccot := (cot |]0,π[ )−1
heißen (Hauptzweige des) Arcustangens bzw. des Arcuscotangens.
ϕ(6−ϕ2 )
3(2−ϕ2 )
5.26 Schranken für den Tangens im Reellen
nahe bei Null. Aus den Schranken 5.9 für Cosinus
und Sinus erhalten wir
ϕ ≤ tan ϕ ≤
ϕ(6 − ϕ2 )
3(2 − ϕ2 )
für 0 ≤ ϕ <
√
2.
5.27 Schlussbemerkung. Man sollte sich von der
Fülle an Informationen in diesem Paragraphen eher
faszinieren als einschüchtern lassen. Alles fließt im
Wesentlichen aus der Exponentialreihe, der Funktionalgleichung der Exponentialfunktion und dem Umgang mit komplexen Zahlen und Reihen.
§3
1
Π
-
2
-1
ϕ
tan
Π
2
Abbildung 2.18: Schranken für den Tangens im Reellen nahe bei Null.
Algebraische Funktionen
In diesem Paragraphen lernen wir die wichtigsten Techniken für den Umgang mit Polynomen und rationalen Funktionen kennen. Wir werden sie ausführlich behandeln, weil in der Operatortheorie z.B. für
65
KAPITEL 2. ELEMENTARE FUNKTIONEN
Differentialoperatoren vergleichbare Techniken angewendet werden. Wir werden sehen, dass das Rechnen
mit diesen Funktionen stark an das Rechnen mit ganzen Zahlen bzw. rationalen Zahlen erinnert.
1
Polynome
1.1 Reelle und komplexe Polynome. Gegeben seien n + 1 Zahlen a0 , a1 , . . . , an ∈ C. Dann heißt
p(x) := an xn + · · · + a1 x + a0
p : C → C,
ein (komplexes) Polynom mit Koeffizienten a0 , a1 , . . . , an . Sind alle Koeffizienten reelle Zahlen, so nennt
man p ein reelles Polynom.
Gerade bei reellen Polynomen wählt man zunächst instinktiv R als Definitionsbereich. Wir werden aber
sehen, dass auch für reelle Polynome oftmals der Weg ins Komplexe“ — d.h. die Wahl von C als
”
Definitionsbereich vieles einfacher macht.
Einfache Polynome sind die konstanten Funktionen und die identische Abbildung.
1.2 Grad eines Polynoms. Ist p(x) = an xn + · · · + a1 x + a0 ein Polynom mit an 6= 0, so nennen wir
Grad(p) := n den Grad von p und an den Leitkoeffizient.
Das Nullpolynom hat keinen Grad, konstante Polynome haben den Grad 0 und es gilt Grad(id) = 1.
1.3 Zusammensetzen von Polynomen. Alle Polynome entstehen durch Addition und Multiplikation
von Funktionen aus der identischen Abbildung und den konstanten Funktionen. Mit p und q sind also
auch p + q und pq Polynome. Für p, q, p + q 6= 0 gilt
Grad(p + q) ≤ max{Grad(p), Grad(q)},
Grad(pq) = Grad(p) + Grad(q).
Für die Summe mache man sich an einem Beispiel klar, dass p + q u.U. tatsächlich kleineren Grad als p
und q haben kann. Für das Produkt von p(x) = an xn + · · · + a1 x + a0 und q(x) = bm xm + · · · + b1 x + b0
erhält man den Grad aus
p(x) · q(x)
= an bm xn+m + (an bm−1 + an−1 bm )xn+m−1 + · · · + (a1 b0 + a0 b1 )x + a0 b0
!
n+m
k
X
X
=
aµ bν xk .
k=0
µ+ν=0
1.4∗ Horner-Schema. Will man ein Polynom p(x) = an xn + · · · + a1 x + a0 vom Grad n ∈ N an einer
Stelle x auswerten, so können die zunächst n + (n − 1) + · · · + 1 = n(n + 1)/2 anfallenden Multiplikationen
durch das Horner-Schema
p(x) = (· · · ((an x + an−1 )x + an−2 )x + · · · )x + a0
auf n Multiplikationen reduziert werden.
1.5 Polynomdivision mit Rest. Sind p1 und p2 zwei Polynome mit Grad(p2 ) ≥ 1, so existieren
eindeutig bestimmte Polynome q und r mit
p1 = q · p2 + r
und
Grad(r) < Grad(p2 ) oder r = 0.
Die Bestimmung von q und r erfolgt analog zur schriftlichen Division. Statt eines allgemeinen Beweises
erläutern wir den zugehörigen Algorithmus an einem Beispiel.
p1 (x) := x6 + 4x5 − 3x4 − 14x3 + x2 + 1,
p2 (x) := x2 − 3.
66
§3. ALGEBRAISCHE FUNKTIONEN
(x6 + 4x5 − 3x4 − 14x3 + x2
x6
− 3x4
4x5
4x5
− 14x3 + x2
− 12x3
−
−
+ 1) : (x2 − 3) = x4 + 4x3 − 2x + 1
↑
+ 1
↑
2x3 + x2
+ 1
2x3
+ 6x
↑
x2 − 6x + 1
x2
− 3
↑
Rest: − 6x + 4
Damit gilt p1 (x) = (x4 + 4x3 − 2x + 1)p2 (x) − 6x + 4.
Dieser Divisionsalgorithmus führt nach maximal Grad(p1 ) + 1 Schritten immer zum Ziel. Hätte man zwei
verschiedene Ergebnisse p2 q1 + r1 = p1 = p2 q2 + r2 , so wäre p2 (q1 − q2 ) = r2 − r1 mit q1 6= q2 und die linke
Seite hätte mindestens den Grad von p2 , während die rechte einen kleineren Grad als p2 haben müsste.
Also muss q1 = q2 und r1 = r2 gelten.
1.6 Teilbarkeit von Polynomen. Geht die Polynomdivision von p1 durch p2 auf, d.h. bleibt als Rest
das Nullpolynom, so sagen wir, dass p2 ein Teiler von p1 ist und schreiben p2 | p1 .
Wegen x2 − 4 = (x − 2)(x + 2) gilt beispielsweise x − 2 | x2 − 4.
Man verifiziere selbst, das wir Regeln für Teiler erhalten, wie wir sie von den ganzen Zahlen kennen.
(a) Aus p3 | p2 und p2 | p1 folgt p3 | p1 .
(b) Aus p | p1 und p | p2 folgt p | q1 p1 + q2 p2 für beliebige Polynome q1 und q2 .
(c) Aus p2 | p1 und p1 6= 0 folgt Grad(p2 ) ≤ Grad(p1 ).
(d) Gilt p2 | p1 und p1 | p2 , so folgt p1 = cp2 mit einer Zahl c 6= 0.
Wir nennen zwei Polynome p1 , p2 6= 0 teilerfremd , wenn aus p | p1 und p | p2 folgt, dass p konstant ist.
1.7 Nullstellen von Polynomen. Eine (reelle oder komplexe) Zahl λ heißt Nullstelle eines Polynoms p,
falls p(λ) = 0.
Genau dann ist λ eine Nullstelle von p, wenn (x − λ) | p.
Beweis. Aus (x−λ) | p folgt nämlich p(x) = (x−λ)q(x) mit einem Polynom q und dann p(λ) = 0·q(λ) = 0.
Gilt umgekehrt p(λ) = 0, so liefert der Divisionsalgorithmus eine Darstellung p(x) = (x − λ)q(x) + r(x)
wobei r entweder ein Polynom vom Grad 0 oder das Nullpolynom ist, d.h. eine Konstante. Wegen
0 = p(λ) = 0 · q(λ) + r(λ) muss r tatsächlich das Nullpolynom sein. Es gilt also p = (x − λ)q.
Die Polynomdivision von p durch x − λ nennen wir Abspalten einer Nullstelle
1.8 Vielfachheit von Nullstellen. Eine Nullstelle λ eines Polynoms p hat die Vielfachheit k ∈ N,
wenn es ein Polynom q gibt mit
p(x) = (x − λ)k q(x)
und
q(λ) 6= 0.
Ein Polynom vom Grad n ≥ 1 besitzt mit Vielfachheiten gezählt höchstens n Nullstellen.
Beim Abspalten einer Nullstelle erniedrigt sich nämlich der Grad des Polynoms um 1. Also können
wir höchstens n-mal eine Nullstelle abspalten bevor wir bei einem Polynom ohne Nullstelle, d.h. einem
konstanten Polynom, enden.
1.9 Identitätssatz für Polynome. Stimmen zwei Polynome vom Grad höchstens n an n + 1 verschiedenen Stellen überein, so sind sie identisch.
67
KAPITEL 2. ELEMENTARE FUNKTIONEN
Die Differenz zweier solcher Polynome hat dann nämlich höchstens den Grad n aber mindestens n + 1
Nullstellen, muss also das Nullpolynom sein.
1.10 Koeffizientenvergleich. Sind zwei Polynome
p(x) = an xn + · · · + a1 x + a0
q(x) = bm xm + · · · + b1 x + b0
und
mit an , bm 6= 0 als Funktionen gleich, d.h. gilt p(x) = q(x) für alle x (oder gilt dies sogar nur an
max{n + 1, m + 1} verschiedenen Stellen), so folgt n = m und ak = bk für k = 0, 1, . . . , n.
Dies folgt, ebenso wie die nächste Aussage, sofort aus dem Identitätssatz für Polynome.
1.11 Entwickeln eines Polynoms. Zu einem beliebig vorgegebenen Punkt a kann ein Polynom
p(x) = an xn + · · · + a1 x + a0
in der Form
p(x) = bn (x − a)n + · · · + b1 (x − a) + b0 .
geschrieben werden. Diese Darstellung nennen wir Entwicklung von p um den Punkt a.
Beispiel. Die Entwicklung von p(x) = x3 + 6x2 + 10x + 4 um den Punkt −2 erhalten wir, indem wir
p(x − 2) = (x − 2)3 + 6(x − 2)2 + 10(x − 2) + 4 = x3 − 2x berechnen und anschließend x durch x + 2
ersetzen: p(x) = (x + 2)3 − 2(x + 2).
1.12 Polynominterpolation nach Lagrange. Wir haben einen (n + 1)-punktigen Datensatz (etwa Meßdaten) (x0 , y0 ), . . . (xn , yn ) vorliegen. Sind x0 , x1 , . . . , xn paarweise verschieden sind, so existiert
genau ein Polynom p mit
p(xk ) = yk
für k = 0, 1, . . . , n
und
Grad(p) ≤ n oder p = 0.
Dieses Polynom erhalten wir durch
p(x)
=
n
X
yk Lk (x)
k=0
n
Y
mit Lk (x) :=
l=0,l6=k
(x − x0 ) · · · (x − xk−1 )(x − xk+1 ) · · · (x − xn )
x − xl
=
.
xk − xl
(xk − x0 ) · · · (xk − xk−1 )(xk − xk+1 ) · · · (xk − xn )
Die Polynome L0 , L1 , . . . , Ln heißen Lagrange-Polynome zu den Stützstellen x0 , x1 , . . . , xn .
Normalerweise berechnet man p durch Lösen eines linearen Gleichungssystems für die Koeffizienten schneller als durch obige Darstellung.
Beweis. Offensichtlich sind die Lk , k ∈ {0, 1, . . . ,P
n}, Polynome vom Grad n mit Lk (xk ) = 1 und
n
Lk (xl ) = 0 für l ∈ {0, 1, . . . , n}, l 6= k. Damit ist p = k=0 yk Lk ein Polynom vom Grad höchstens n mit
p(xk ) = yk für k ∈ {0, 1, . . . , n}. Die Eindeutigkeit von p folgt aus aus dem Identitätssatz.
1.13∗ Anwendung zum Koeffizientenvergleich. Wir beweisen das Additionstheorem für Binomialkoeffizienten
n X
c
d
c+d
=
für c, d ∈ C und n ∈ N0 .
k
n−k
n
k=0
Wir stellen (1 + x)c+d zunächst für c, d ∈ N0 mit der binomischen Formel auf zwei Arten dar:
c+d
(1 + x)
(1 + x)c (1 + x)d
c+d X
c+d
xn ,
n
n=0
! d ! c+d n !
c X
X d
X X c
c k
d
=
x
xl =
xn .
n
n
−
k
k
k
n=0
=
k=0
l=0
k=0
68
§3. ALGEBRAISCHE FUNKTIONEN
Durch Koeffizientenvergleich erhalten wir das Additionstheorem für c, d ∈ N0 . Jetzt wählen wir d ∈ N0
fest. Dann sind beide Seiten im Additionstheorem Polynome in der Variablen c. Gerade haben wir gezeigt,
dass sie für alle c ∈ N0 übereinstimmen. Nach dem Identitätssatz sind diese beiden Polynome dann gleich,
also gilt das Additionstheorem für d ∈ N0 und c ∈ C. Durch Wiederholung dieses Arguments für festes
c ∈ C erhalten wir das Additionstheorem für beliebige c, d ∈ C.
1.14 Fundamentalsatz der Algebra. Jedes reelle oder komplexe Polynom hat eine komplexe Nullstelle.
Reelle Polynome können durchaus nur komplexe Nullstellen haben. So hat x2 + 1 die Nullstellen ±i da
x2 + 1 = (x − i)(x + 1).
1.15 Historische Anmerkung. Für den Fundamentalsatz der Algebra gibt es viele Beweise, die ersten
vollständigen gehen auf Laplace (1795) und Gauß (1799) zurück. Von Argand (1814) stammt ein einfacher
Beweis, der mit den Mittel aus 4.§2.4 auskommt (siehe z.B. [Kön, Band 1, 7.6]). Neben der aus der Schule
bekannten Formel zur Bestimmung der Nullstellen von Polynomen zweiten Grades gibt es Formeln für
Polynome vom Grad drei und vier. Abel (1802–1829) hat gezeigt, dass für Polynome vom Grad n ≥ 5 keine
allgemein gültige Lösungsformel“ existieret, d.h. keine Formel, mit deren Hilfe man die Nullstellen durch
”
eine endliche Anzahl von Additionen, Subtraktionen, Multiplikationen, Divisionen und Wurzelziehen
aus den Koeffizienten erhält. Auf Galois (1811–1832) geht eine Theorie zurück, die es erlaubt, für ein
vorgegebenes Polynom zu entscheiden, ob und wieviele Nullstellen elementar bestimmt werden können. Im
Allgemeinen müssen wir also zur Nullstellenbestimmung bei Polynomen numerische Methoden verwenden
(siehe 4.§2.7.1 Intervallhalbierung und 4.§3.6.1 Newton-Verfahren).
1.16 Faktorisieren eines Polynoms. Durch sukzessives Anwenden des Fundamentalsatzes können
wir von einem Polynom p(x) = an xn + · · · + a1 x + a0 vom Grad n ≥ 1 genau n Nullstellen abspalten.
Nullstellen der Vielfachheit k werden dabei natürlich genau k-mal abgespaltet. Sind λ1 , . . . , λm ∈ C die
verschiedenen Nullstellen von p mit Vielfachheiten k1 , . . . , km ∈ N, so erhalten wir die Darstellung
p(x) = an
n
Y
(x − λµ )kµ = an (x − λ1 )k1 · · · (x − λm )km
mit k1 + · · · + km = n,
µ=0
welche wir Faktorisierung des Polynoms p nennen.
1.17 Komplexe Nullstellen reeller Polynome. Echt komplexe Nullstellen treten bei reellen Polynomen immer paarweise konjugiert auf.
Hat p nämlich nur reelle Koeffizienten, so ist wegen
p(z) = an z n + · · · + a1 z + a0 = an z n + · · · + a1 z + a0 = p(z)
für an , . . . , a1 , a0 ∈ R
mit λ auch λ eine Nullstelle.
1.18 Quadratische Ergänzung. Für ein Polynom vom Grad zwei heißt die Darstellung
2
b2
b
+c−
p(x) = ax2 + bx + c = a x +
2a
4a
quadratische Ergänzung.
Aus ihr erhalten wir auch für komplexe Koeffizienten leicht die Nullstellen von p ohne uns um Wurzeln
aus komplexen Zahlen kümmern zu müssen.
Beispiel. p(x) = x2 + 2ix − i = (x + i)2 − i − i2 = (x + i)2 − (−1 +√i). Für die Nullstellen gilt also nach
Darstellung
von −1 + i in Polarkoordinaten (x + i)2 = −1 + i = 2e3πi/4 . Also hat p die Nullstellen
√
4
3πi/8
−i ± 2e
.
1.19∗ Formeln von Vieta. Für die Nullstellen λ1 , . . . , λn von p(x) = xn + · · · + a1 x + a0 gilt
an−1 = −
n
X
k=1
λk ,
a0 = (−1)n
n
Y
k=1
λk .
69
KAPITEL 2. ELEMENTARE FUNKTIONEN
Für ein Polynom mit Leitkoeffizient 1 und ganzzahligen Koeffizienten können wir daher ganzzahlige
Nullstellen erraten“, indem wir die Faktoren von a0 ansehen.
”
Die Normierung an = 1 ist für die Nullstellenbestimmung unwesentlich und kann durch Division durch
den Leitkoeffizienten erzwungen werden.
Beispiel. In p(x) = x3 − x2 − x − 15 probieren wir
±1, ±3, ±5, ±15 und erhalten 3 als Nullstelle. Abspalten
liefert p(x) = (x − 3)(x2 + 2x + 5). Durch quadratische
Ergänzung x2 + 2x + 5 = (x + 1)2 + 4 erhalten wir
die verbleibenden zwei Nullstellen −1 ± 2i als komplex
konjugiertes Pärchen.
e2πi/n
2π
n
1
1.20 Einheitswurzeln. Für n ∈ N gilt
zn = 1
⇔
z = e2πik/n ,
k = 0, 1, . . . , n − 1.
Die n Zahlen e2πik/n heißen n-te Einheitswurzeln. Sie
liegen in der Zahlenebene auf der Einheitskreislinie
|z| = 1 und bilden die Ecken eines regelmäßigen n-Ecks.
Abbildung 2.19: Verteilung der Einheitswurzeln in der Zahleneben.
1.21 Wachstum von Polynomen, Lokalisation von Nullstellen. Ist p(z) = z n + · · · + a1 z + a0 ein
Polynom vom Grad n mit Leitkoeffizient 1, so gilt
1 n
3
|z| ≤ |p(z)| ≤ |z|n
2
2
für z ∈ C mit |z| ≥ ρ := max{1, 2|a0 | + · · · + 2|an−1 |}.
Für |z| ≥ ρ gilt 1 ≤ |z|k ≤ |z|n−1 für k = 0, 1, . . . , n − 1 und mit der Dreiecksungleichung folgt
3
ρ
n−1
n
n−1
n
|z|n ≤ |z|n .
≤ 1+
|p(z)| ≤ |z| + |an−1 ||z|
+ · · · + |a0 | ≤ |z| + (|an−1 | + · · · + |a0 |) |z|
|
{z
}
2|z|
2
≤ρ/2
Die untere Schranke erhalten wir analog mittels der unteren Dreiecksungleichung.
Die obigen Abschätzungen besagen, dass sich ein Polynom weit draußen“ (was das genau heißt, hängt
”
von ρ, d.h. von den Koeffizienten des Polynoms ab) ungefähr so wie sein Leitterm verhält.
Aus der untern Abschätzung erhalten wir eine grobe Lokalisationsaussage über die Nullstellen eines
Polynoms mit Leitkoeffizient 1:
Aus p(z) = 0 folgt |z| < 2|a0 | + · · · + 2|an−1 |.
2
Rationale Funktionen
2.1 Rationale Funktionen. Sind p1 und p2 6= 0 zwei Polynome, so heißt R := p1 /p2 eine rationale
Funktion. Wir nennen p1 das Zähler- und p2 das Nennerpolynom von R.
Als natürlichen Definitionsbereich für R wählen wir {x ∈ R | p2 (x) 6= 0} oder {z ∈ C | p2 (z) 6= 0}.
Gilt Grad(p1 ) < Grad(p2 ) oder p1 = 0, so nennen wir R echt rational .
2.2 Kürzen. Haben p1 und p2 einen gemeinsamen Teiler q, d.h. gilt p1 = qq1 und p2 = qq2 , so folgt
R(x) = p1 (x)/p2 (x) = q1 (x)/q2 (x) für alle Punkte x im natürlichen Definitionsbereich von R aber q1 /q2
kann einen größeren natürlichen Definitionsbereich haben.
Beispiel. R(x) = (x4 − 2x3 + 4x − 8)/(x3 − 4x2 + 5x − 2). Wegen x4 − 2x3 + 4x − 8 = (x − 2)(x3 + 4) und
x3 −4x2 +5x−2 = (x+1)(x−1)(x−2) können wir x−2 kürzen und erhalten R(x) = (x3 +4)/(x2 −2x+1).
70
§3. ALGEBRAISCHE FUNKTIONEN
In der ursprünglichen Form mussten wir für R die Zahlen −1, 1, 2 aus dem Definitionsbereich ausschließen.
Nach Kürzen nur noch −1, 1. Da x3 + 4 an den Stellen ±1 nicht verschwindet, können wir nicht weiter
kürzen.
Haben in der Darstellung R = q1 /q2 die Polynome q1 und q2 keinen gemeinsamen Teiler mehr, so nennen
wir die Darstellung gekürzt. Dies tritt genau dann ein, wenn Zähler- und Nennerpolynom keine gemeinsame Nullstelle besitzen.
Achtung. Beim rationalen Funktionen teste man immer zuerst, ob Zähler- oder Nennerpolynom gekürzt
werden können.
2.3 Haupt- und Nebenteil. Ist R = p1 /p2 keine echt rationale Funktion, so können wir nach einer
Polynomdivision p1 = qp2 + r in der Form
R=
p1
r
=q+
p2
p2
schreiben mit Grad(r) < Grad(p2 ) oder r = 0. Wir nennen q den Nebenteil und die echt rationale
Funktion r/p2 den Hauptteil .
Bei einem Polynom verschwindet der Hauptteil, bei einer echt rationale Funktion der Nebenteil.
Beispiel. In R(x) = (2x5 + 12x3 + 2)/(x4 + x2 ) können wir nach einer Polynomdivision 2x5 + 12x3 + 2 =
2x(x4 + x2 ) + (10x3 + 2) den Nebenteil abspalten. Wir erhalten
R(x) =
10x3 + 2
2x5 + 12x3 + 2
= 2x + 4
.
4
2
x +x
x + x2
2.4 Partialbruchzerlegung. Jede rationale Funktion R kann in der Form
R(x) = q(x) +
c1,1
c1,k1
cm,1
cm,km
+ ··· +
+ ··· +
+ ··· +
k
1
x − λ1
(x − λ1 )
x − λ1
(x − λm )km
dargestellt werden. Hierbei ist q ein Polynom, Die Zahlen λ1 , . . . , λm ∈ C und k1 , . . . , km ∈ N sind die
verschiedenen Nullstellen des Nennerpolynoms von R in gekürzter Form. Die Zahlen cl,j sind eindeutig
bestimmt und es gilt c1,k1 , . . . , cm,km 6= 0.
Die Existenz und Eindeutigkeit folgen aus dem Identitätssatz für Polynome. Statt eines Beweises führen
wir das Rezept zur Partialbruchzerlegung vor.
Schritt 1 Faktorisiere das Nennerpolynoms.
Schritt 2 Kürze Zähler- und Nennerpolynom und erhalte eine gekürzte Darstellung R = p1 /p2 mit faktorisiertem Nennerpolynom p2 (x) = (x − λ1 )k1 · · · (x − λm )km . Die λk sind reell oder komplex
und paarweise verschieden.
Schritt 3 Spalte den Nebenteils q durch Polynomdivision ab und erhalte das Zählerpolynom r des Hauptteils.
c
1,1
+···+
Schritt 4 Setze den Hauptteil in der Form x−λ
1
zu bestimmenden Zahlen cl,j an.
c1,k1
(x−λ1 )k1
+···+
cm,1
x−λ1
+···+
cm,km
(x−λm )km
mit noch
Schritt 5 Multipliziere den Ansatz aus und erhalte eine echt rationale Funktion mit Nennerpolynom p2
und einem Zählerpolynom, dessen Koeffizienten aus den cl,j gebildet werden.
Schritt 6 Mache einen Koeffizientenvergleich von r mit diesem Zählerpolynom um die cl,j zu bestimmen.
In 4.§2.3.18 werden wir sehen, wie wir uns die Schritte 5 und 6 sparen und statt dessen die cl,j einzeln
berechnen können.
71
KAPITEL 2. ELEMENTARE FUNKTIONEN
Beispiel. Wir bilden die Partialbruchzerlegung für R aus dem Beispiel in 2.3. Die Schritte 1–3 sind schon
erledigt, das Nennerpolynom x4 + x2 hat eine doppelte Nullstelle bei 0 und zwei einfache Nullstellen bei
±i. Wir erhalten als Ansatz
R(x)
=
=
10x3 + 2
c1,1
c1,2
c2,1
c3,1
2x5 + 12x3 + 2
=
2x
+
= 2x +
+ 2 +
+
x4 + x2
x2 (x + i)(x − i)
x
x
x−i x+i
(c1,1 + c2,1 + c3,1 )x3 + (c1,2 + ic2,1 − ic3,1 )x2 + c1,1 x + c1,2
2x +
x2 (x + i)(x − i)
und bestimmen die cl,j aus dem Gleichungssystem
c1,1 + c2,1 + c3,1 = 10,
c1,2 + ic2,1 − ic3,1 = 0,
c1,1 = 0,
c1,2 = 2
zu c1,1 = 0, c1,2 = 2, c2,1 = 5 + i, c3,1 = 5 − i. Daher lautet die Partialbruchzerlegung
R(x) = 2x +
5+i
5−i
2
+
+
.
2
x
x−i x+i
2.5 Reelle Partialbruchzerlegung. Ist R eine rationale Funktion mit reellen Zähler- und Nennerpolynomen, so fasst man in der Partialbruchzerlegung gerne zueinander konjugierte Summanden zusammen
und erhält die sogenannte reelle Partialbruchzerlegung von R.
Beispiel.
R(x) = 2x +
3
2
5+i
5−i
2
10x − 2
+
+
= 2x + 2 + 2
.
2
x
x−i x+i
x
x +1
Weitere algebraische Funktionen
3.1∗ Algebraische Funktionen. Eine Funktion f : D ⊂ C → C (das schließt den Fall R mit ein) heißt
algebraisch, wenn es Polynome p0 , . . . , pn gibt mit
n
X
pk (x)f (x)k = 0
für x ∈ D.
k=0
Für n = 1 erhält
√ man die einfachsten algebraischen Funktionen: Polynome und rationale Funktionen.
Auch f (x) := 1 + x ist ein Beispiel für eine algebraische Funktion, es gilt f (x)2 − (x + 1) = 0.
3.2∗ Transzendente Funktionen. Ist eine Funktion nicht algebraisch, so heißt sie transzendent. Man
kann zeigen, dass die Exponentialfunktion, der Logarithmus und die aus ihnen abgeleiteten trigonometrischen und Hyperbelfunktionen transzendent sind.
§4
1
Potenzreihen
Grundlegendes über Potenzreihen
1.1 Definition: Potenzreihe. Für eine Zahl z0 ∈ C und eine Folge (ak )k reeller oder komplexer Zahlen
nennen wir
∞
X
ak (z − z0 )k
k=0
eine Potenzreihe mit Koeffizienten ak und Entwicklungspunkt z0 .
1.2 Beispiele. In den vorangegangenen P
Abschnitten haben wir schon diverse Potenzreihen kennenge∞
lernt. Die Exponentialfunktion exp(z) = k=0 z k /k! für z ∈ C wurde in §2.1.1 durch eine Potenzreihe
72
§4. POTENZREIHEN
definiert. Hieraus haben wir in §2.4.2 Potenzreihendarstellungen für den CosinusPund Sinus Hyperbolicus
∞
k
bzw. in §2.5.8 für den Cosinus und
abgeleitet. Die geometrische Reihe k=0 z = 1/(1 − z) für
P∞Sinus
c k
|z| < 1 und die Binomialreihen k=0 k z für |z| < 1 falls c ∈ C r N0 bzw. für z ∈ C für c ∈ N0 in
1.§4.2.5 waren weitere Beispiele. Alle diese Potenzreihen hatten z0 = 0 als Entwicklungspunkt.
Potenzreihen dienen dazu, neue Funktionen zu definieren oder alternative Darstellungen für schon bekannte Funktionen zu erhalten. Wir beschäftigen uns
P∞nun mit dem Konvergenzverhalten von Potenzreihen,
untersuchen also, für welche z ∈ C durch z 7→ k=0 ak (z − z0 )k für eine vorgegebene Koeffizientenfolge
(ak )k und einen Entwicklungspunkt z0 eine Funktion erklärt wird.
P∞
k
1.3 Konvergenzverhalten von Potenzreihen. Konvergiert die Potenzreihe
k=0 ak (z − z0 ) an
einer Stelle z1 6= z0 , so konvergiert sie für alle z ∈ C mit |z − z0 | < |z1 − z0 | und die Konvergenz ist
absolut. Divergiert die Potenzreihe dagegen in einer Stelle 2 6= z0 , so divergiert sie auch für alle z ∈ C
mit |z − z0 | > |z2 − z0 |.
P∞
k
k
Beweis. Konvergiert
k=0 ak (z1 − z0 ) , so bilden die Reihenglieder ak (z1 − z0 ) eine Nullfolge. Da
k
konvergente Folgen beschränkt sind, existiert ein M ≥ 0 mit |ak (z1 − z0 ) | ≤ M für alle k ∈ N0 . Ist nun
ein z ∈ C mit |z − z0 | < |z1 − z0 | gegeben, so setzen wir q := |z − z0 |/|z1 − z0 |. Dann
P∞ gilt 0 ≤ q < 1 und
|ak (z − z0 )k | =P|ak (z1 − z0 )k | · |(z − z0 )/(z1 − z0 )|k P
≤ M q k für k ∈ N0 . Also ist k=0 M q k konvergente
∞
∞
Majorante
für k=0 ak (z −z0 )k . Divergiert dagegen k=0 ak (z2 −z0 )k , so kann nach dem eben Gezeigten
P∞
k
k=0 ak (z − z0 ) für kein z ∈ C mit |z − z0 | > |z2 − z0 | konvergieren.
Konvergiert eine Potenzreihe also an einer Stelle z1 , so
auch im gesamten Kreisinneren
K|z1 −z0 | (z0 ) = {z ∈ C | |z − z0 | < |z1 − z0 |},
divergiert Sie an einer Stelle z2 , so auch im gesamten
Kreisäußeren
Konvergenzkreis
Konvergenzradius
Entwicklungspunkt
B
B
B
?
BBN
z0| {z }
R
∆|z2 −z0 | (z0 ) := {z ∈ C | |z − z0 | > |z2 − z0 |}.
SiehtP
man also von den beiden degenerierten Fällen ab,
∞
dass k=0 ak (z − z0 )k nur in z = z0 oder für alle z ∈ C
konvergiert, so muss es einen Radius R > 0 geben, so
dass die Potenzreihe im Kreisinneren KR (z0 ) konvergiert und im Kreisäußeren ∆R (z0 ) divergiert.
6
6
6̈
Außeres: Divergenz
Rand: ?
Inneres: Konvergenz
Abbildung 2.20: Zum Konvergenzverhalten einer Potenzreihe.
P∞
1.4 Konvergenzradius. Konvergiert eine Potenzreihe k=0 ak (z − z0 )k nicht für alle z ∈ C, so nennen
wir die Zahl
(
)
∞
X
+
k
R := sup r ∈ R0 ak (z − z0 ) konvergiert für ein z ∈ C mit |z − z0 | = r
k=0
den Konvergenzradius dieser Potenzreihe. Konvergiert die Potenzreihe für alle z ∈ C, so setzen wir
R := +∞.
P∞
Hat eine Potenzreihe k=0 ak (z − z0 )k den Konvergenzradius R = 0, so konvergiert sie nur im Entwicklungspunkt z0 , gilt R = +∞, so konvergiert sie für alle z ∈ C, gilt dagegen R ∈ R+ , so konvergiert sie
absolut für alle z ∈ C mit |z − z0 | < R und divergiert für alle z ∈ C mit |z − z0 | > R.
Wegen der absoluten Konvergenz hängt der Konvergenzradius R eigentlich nicht von der Koeffzientenfolgen (ak )k selbst, sondern vielmehr nur von (|ak |)k ab. Für R 6= +∞ erhalten wir
(
)
∞
X
+
k
R = sup r ∈ R0 |ak |r konvergiert .
k=0
P∞
Über das Konvergenzverhalten von k=0 ak (z − z0 )k für ein z ∈ C mit |z − z0 | = R haben wir dabei
bisher noch keine Aussage gewonnen. Dies ist im Allgemeinen auch nicht möglich.
73
KAPITEL 2. ELEMENTARE FUNKTIONEN
P∞
k
1.5 Anmerkung zum Entwicklungspunkt. Ist f (z) =
k=0 ak (z − z0 ) eine Potenzreihe mit
Entwicklungspunkt
P∞ z0 , so können wir durch die Substitution w = z − z0 immer auf die Potenzreihe
f (w + z0 ) = k=0 ak wk mit Entwicklungspunkt 0 übergehen.
Darum formuliert man aus Bequemlichkeit Ergebnisse für Potenzreihen gerne mit Entwicklungspunkt 0.
1.6 Konvergenzverhalten auf dem Rand des Konvergenzkreises. Wir betrachten die Reihen
∞
∞
∞
X
X
X
1 k
1 k
z
,
z
,
zk .
k2
k
k=1
k=1
k=1
P∞
k
Für |z| < 1 ist die geometrische Reihe k=1 |z| für alle drei Reihen konvergente Majorante, für |z| > 1
bilden die Koeffizienten in keinem Fall eine Nullfolge. Also haben alle drei Potenzreihen den Konvergenzradius 1, d.h. den Einheitskreis als Konvergenzkreis.
P∞
P∞
Die erste Potenzreihe k=1 z k /k 2 konvergiert in allen Randpunkten des Konvergenzkreises, da k=1 1/k 2
konvergente Majorante für alle z ∈ C mit |z| ≤ 1 ist.
P∞
Die zweite Potenzreihe k=1 z k /k hat auf dem Rand ihres Konvergenzkreises sowohl Punkte, in denen
sie divergiert (z.B. z = 1, dann liegt die harmonische Reihe vor), als auch Punkte, in denen sie konvergiert
(z.B. z = −1, dann haben wir eine alternierende harmonische Reihe, und man kann zeigen, dass sie für
alle z 6= 1 mit |z| = 1 konvergiert).
P∞
Die dritte Potenzreihe k=1 z k konvergiert als geometrische Reihe nirgendwo auf dem Rand ihres Konvergenzkreises.
∞
X
1 k
z
k2
∞
X
1 k
z
k
∞
X
k=1
k=1
zk
k=1
Abbildung 2.21: Zum Konvergenzverhalten von Potenzreihen auf dem Rand ihres Konvergenzkreises.
Für eine Potenzreihe ist auf dem Rand ihres Konvergenzkreises keine allgemeine Aussage möglich. Es
sind immer Individualbetrachtungen notwendig.
P∞
1.7 Fehlerabschätzung. Hat die Potenzreihe f (z) = k=0 ak z k den Konvergenzradius R > 0, so gibt
es zu jedem positiven r < R eine Konstante M ≥ 0 mit
n
X
k
ak z ≤ M |z|n+1
für |z| ≤ r.
f (z) −
k=0
Beweis. Für |z| ≤ r gilt
∞
∞
∞
n
X
X
X
X
k
k
ak z = ak z ≤
|ak ||z|k ≤ |z|n+1
|ak |rk−n−1 .
f (z) −
k=n+1
k=n+1
k=n+1
k=0
|
{z
}
=:M
Achtung. Die scheinbar umständliche Formulierung so gibt es zu jedem r < R eine Konstante M ≥ 0“
”
ist unumgänglich. Dies erkennt man am Beispiel der geometrischen Reihe. Wegen
n
∞
1
X
z n+1 X
1
k
k
=
−
z
=
z
|z|n+1
= 1 − z
1 − z |1 − z|
k=0
k=n+1
gibt es keine Konstante M ≥ 0, die eine obere Schranke der Form M |z|n+1 für alle z mit |z| < 1 liefert.
74
§4. POTENZREIHEN
P∞
1.8∗ Identitätssatz für Potenzreihen. Ist f (z) = k=0 ak z k eine Potenzreihe mit positivem Konvergenzradius und gibt es eine Folge mit zk → 0, zk 6= 0 und f (zk ) = 0 für alle k, so gilt ak = 0 für alle
k ∈ N0 , d.h. f = 0.
Beweis∗ . Ist n der erste Index mit an 6= 0, so wählen wir irgend einen Radius r > 0 kleiner als den
Konvergenzradius. Mit 1.7 erhalten wir |f (z) − an z n | ≤ M |z|n+1 für |z| ≤ r. Insbesondere folgt für die zk
dann |an zk n | = |f (zk ) − an zk n | ≤ M |zk |n+1 , d.h. |an | ≤ M |zk | → 0 für k → ∞. Also gilt an = 0 und wir
haben einen Widerspruch.
1.9∗ Koeffizientenvergleich. Sind zwei Potenzreihen
f (z) =
∞
X
ak z
k
und
g(z) =
k=0
∞
X
bk z k
k=0
mit positivem Konvergenzradien als Funktionen gleich, d.h. gilt f (z) = g(z) für alle z ∈ C wo beide
Reihen konvergieren (oder gilt dies sogar nur für eine Nullfolge mit unendlich vielen verschiedenen Folgengliedern), so haben beide Reihen denselben Konvergenzradius und es gilt ak = bk für k ∈ N0 .
Man lasse sich den Vergleich mit dem Analogon für Polynome §3.1.10 auf der Zunge zergehen: Ein
Polynom vom Grad n ist dadurch eindeutig festgelegt, dass man seine Werte an n + 1 verschiedenen
Stellen kennt, eine durch eine Potenzreihe definierte Funktion dadurch, dass man ihre Werte auf einer
Nullfolge mit unendlich vielen verschiedenen Gliedern kennt.
P∞
1.10 Symmetrie. Durch Koeffizientenvergleich erhalten wir: Ist f (z) = k=0 ak z k eine Potenzreihe mit
positivem Konvergenzradius und gerade (ungerade) so gilt ak = 0 für alle ungeraden (geraden) Indizes k.
2
Zusammensetzen von Potenzreihen
2.1 Worum geht es? Wir können gemäß §1.3.3 Funktionen durch Addieren, Multiplizieren, Kehrwertbilden und ähnliche Operationen zusammensetzen. Also sollten wir auch für eine Funktion, die sich aus
Potenzreihen zusammensetzt, eine Potenzreihendarstellung erhalten.
Im Alltag ist oft nur wichtig, die ersten Koeffizienten in der Potenzreihendarstellung der zusammengesetzten Funktion zu kennen. Wir geben zunächst drei Beispiele an, in denen wir jeweils eine geschickte
Darstellung der Funktion benutzen, um bekannte Entwicklungen einzusetzen. Anschließend stellen wir
allgemeine Techniken vor. Im Rahmen der Differentialrechnung werden wir in 4.§3 Reihenentwicklungen
durch Bilden höherer Ableitungen bekommen. Dieses Verfahren (genannt Taylor-Entwicklung) ist zwar
schön rezepthaft, aber oftmals deutlich rechenaufwendiger als die hier vorgestellten Methoden.
2.2 Beispiele.
(a) Entwicklung von f (x) = xe−x bei x = 1. Wir stellen f in der Form
i
1h
f (x) = [(x − 1) + 1]e−(x−1)−1 =
(x − 1)e−(x−1) + e−(x−1)
e
dar und erhalten aus der Potenzreihe für die Exponentialfunktion und mit den Rechenregeln für konvergente Reihen
!
∞
∞
X
1 X (−1)k
(−1)k
1
1
1
k+1
k
(x−1)
+
(x−1)
= − (x−1)2 + (x−1)3 + · · · für x ∈ C.
f (x) =
e
k!
k!
e 2e
3e
k=0
k=0
(b) Entwicklung von g(ϕ) := sinϕnϕ , n ∈ N, bei ϕ = 0. Zunächst ist g im Punkt ϕ = 0 gar nicht definiert.
Aus der Reihenentwicklung des Sinus bei 0 erhalten wir trotzdem
∞
sin nϕ X (−1)k n
n3 2
=
(nϕ)2k = n −
ϕ + ···
ϕ
(2k + 1)!
6
für ϕ ∈ C, ϕ 6= 0.
k=0
Die Potenzreihe rechts konvergiert auch für ϕ = 0 und hat dort den Wert n. Wir sollten also g durch
g(0) := n in den Punkt ϕ = 0 fortsetzen.
75
KAPITEL 2. ELEMENTARE FUNKTIONEN
(c) Entwicklung von h(z) =
1
z−a
−1 1
1
=
z−a
a 1−
mit a 6= 0 bei z = 0. Mit der geometrischen Reihe gilt
∞
z
a
=
−1 X z k
1
1
1
= − − 2 z − 3 z3 − · · ·
a
a
a a
a
für |z| < a.
k=0
1
Ähnlich geht man mit (z−a)
m für m ≥ 1 mit Hilfe der Bionomialreihe B−m−1 (z) vor. Damit kann man eine
beliebige rationale Funktion nach einer Partialbruchzerlegung um einen vorgegebenen Punkt entwickeln.
2.3 Summen von Potenzreihen. Sind λ, µ Zahlen und sind f (z) =
zwei Potenzreihen, die beide für |z| < r konvergieren, so gilt
(λf + µg)(z)
=
∞
X
P∞
k=0
ak z k und g(z) =
P∞
k=0 bk z
k
(λak + µbk )z k
k=0
=
(λa0 + µb0 ) + (λa1 + µb1 )z + (λa2 + µb2 )z 2 + · · ·
für |z| < r.
Das folgt sofort aus den Rechenregeln 1.§4.1.8 für konvergente Reihen. Der Konvergenzradius von λf +µg
ist mindestens so groß wie der kleinere der Konvergenzradien von f und g.
2.4 Produkte von Potenzreihen. Sind f (z) =
die beide für |z| < r konvergieren, so gilt
!
n
∞
X
X
(f g)(z) =
ak bn−k z n
n=0
P∞
k=0
ak z k und g(z) =
P∞
k=0 bk z
k
zwei Potenzreihen,
k=0
= a0 b0 + (a1 b0 + a0 b1 )z + (a2 b0 + a1 b1 + a0 b2 )z 2 + · · ·
für |z| < r.
Das folgt dank der absoluten Konvergenz von Potenzreihen durch Bilden des Cauchy-Produkts 1.§4.3.8.
Der Konvergenzradius von f g ist mindestens so groß wie der kleinere der Konvergenzradien von f und g.
P∞
2.5 Reziprokes einer Potenzreihe. Ist f (z) = k=0 ak z k eine Potenzreihe mit positivem Konvergenzradius und gilt f (0) = a0 6= 0, so gibt es einen Radius ρ > 0 mit
1
(z)
f
=
∞
X
bk z k
k=0
=
−a1
a1 2 − a0 a2 2
1
+ 2z+
z + ···
a0
a0
a0 3
für |z| < ρ
und die Koeffizienten b0 , b1 , . . . berechnen sich rekursiv durch
b0 :=
1
,
a0
bn := −
n
1 X
ak bn−k
a0
für n ≥ 1.
k=1
P∞
Beweis∗ . Ist ρ > 0 kleiner als der Konvergenzradius,
so konvergiert k=0 |ak |ρk = |a0 | + |a1 |ρ + · · · .
P∞
k
Durch Verkleinern von ρ können wir
k |ρ < |aP
0 | erreichen. Dann gilt dank der umgekehrten
P∞ k=1 |a
∞
k
Dreiecksungleichung |f (z)| = |a0 + k=1 ak z | ≥ |a0 | − k=1 |ak |ρk > 0, d.h. f (z) 6= 0 für |z| ≤ ρ. Mit
der geometrischen Reihe folgt
!n
∞
∞
1
1
1
1 X X −ak k
1
P∞
P
=
=
·
z
−ak k =
f (z)
a0 1 − ∞
a0 n=0
a0
a0 + k=1 ak z k
k=1 a0 z
k=1
76
§4. POTENZREIHEN
und wir können dank absoluter Konvergenz mit dem großen Umordnungssatz 1.§4.3.7 nach Potenzen
von z ordnen. Also gilt
∞
X
1
(z) =
bk z k
für |z| < ρ
f
k=0
mit gewissen Koeffizienten bk . Wenn wir jetzt für diese Reihe das Cauchy-Produkt mit f (z) bilden, so
erhalten wir für |z| < ρ die Identität
!
n
∞
∞
∞
X
X
X
X
1
k
k
=
ak z
bk z =
ak bn−k z n .
1 = f (z) ·
f (z)
n=0
k=0
k=0
k=0
Pn
Mit einem Koeffizientenvergleich gemäß 1.9 erhalten wir dann 1P= b0 a0 und 0 = k=0 ak bn−k für n ≥ 1.
n
Das liefert wie behauptet die Rekursion b0 = 1/a0 und bn = − k=1 ak bn−k für n ≥ 1.
2.6 Andere Zusammensetzungen von Potenzreihen. Quotienten f /g von Potenzreihen bilden wir
dank f /g = f · 1/g aus Produkten und Reziproken, Potenzen f n durch iterierte Produkte.
P∞
2.7 Entwickeln von Potenzreihen. Ist f (z) = k=0 ak z k eine Potenzreihe mit positivem Konvergenradius R, so kann f in jedem Punkt z0 ∈ C mit |z0 | =: r < R in eine Potenzreihe entwickelt werden
mit
!
∞ ∞
X
X
k
k−n
(z − z0 )n
ak z0
f (z) =
n
n=0
k=n
=
(a0 + a1 z0 + a2 z0 2 + · · · )
+(a1 + 2a2 z0 + 3a3 z0 2 + · · · )(z − z0 )
+(a2 + 3a3 z0 + 6a4 z0 2 + · · · )(z − z0 )2 + · · ·
für |z| < R − r.
Das folgt mit einem Koeffizientenvergleich 1.9 aus dem großen Umordnungsatz 1.§4.3.7. Der Konvergenzradius der um z0 entwickelten Reihe kann auch größer als R − r sein.
2.8∗ Bernoulli-Zahlen. Wir betrachten als Anwendungsbeispiel die durch
( z
für z 6= 0
f (z) := ez − 1
1
für z = 0
auf C r {±2πi, ±4πi, . . .} definierte Funktion f . Nach 2.5 hat f in einer genügend kleinen Kreisscheibe
um 0 eine Reihenentwicklung der Form
f (z) =
(1 + z +
z2
2!
z
=
3
+ z3! + · · · ) − 1
1+
∞
z
2!
X Bk
1
zk .
=:
z2
k!
+ 3! + · · ·
k=0
Die hierbei auftretenden Zahlen Bk (der Normierungsfaktor 1/k! hat Tradition) heißen Bernoulli-Zahlen.
Gemäß 2.5 erfüllen sie die Rekursion
B0 = 1,
B0
B1
B2
Bn−1
+
+
+ ··· +
=0
n!
1!(n − 1)! 2!(n − 2)!
(n − 1)!1!
für n ≥ 2.
Damit sind alle Bk rational. Insbesondere berechnen sich die ersten Bk nacheinander zu
1
B1 = − ,
2
Da
B2 =
1
,
6
B4 = −
1
,
30
B6 =
1
,
42
z
z ez + 1
z
z
−
B
z
=
= coth
1
z
z
e −1
2e −1
2
2
B8 = −
1
.
30
77
KAPITEL 2. ELEMENTARE FUNKTIONEN
eine gerade Funktion ist, gilt Bk = 0 für alle ungeraden k > 1. Außerdem erhalten wir durch Ersetzen
von z durch 2iz eine Potenzreihendarstellung für den Cotangens, sowie mit der Identität tan z = cot z −
2 cot 2z auch eine für den Tangens.
2.9 Reihendarstellungen für Tangens und Cotangens. Es gilt
∞
cot(z)
=
4k
1 X
1 z
z3
2z 5
+
(−1)k
B2k z 2k−1 = − −
−
+ ··· ,
z
(2k)!
z
3 45 945
k=1
tan(z)
=
∞
X
(−1)k−1
k=1
4k (4k − 1)
z3
2z 5
B2k z 2k−1 = z +
+
+ ···
(2k)!
3
15
für alle hinreichend kleinen z ∈ C.
Für Interessierte: Man zeichne einige der ersten Partialsummen dieser Entwicklungen, stelle eine Vermutung auf, wo sie gegen den Tangens bzw. den Cotangens konvergieren und vergleiche mit den Definitionslücken dieser beiden Funktionen.
78
Kapitel 3
Vektorrechnung
§1
1
Grundlegendes zur Vektorrechnung
Skalare und vektorielle Größen
1.1 Skalare Größen. In der Physik werden Größen wie Zeit, Masse, Temperatur oder Widerstand
durch eine Maßzahl und eine physikalische Einheit angegeben: 3.0s, 0.42kg, −38◦ C, 180 Ω. Solche Größen
heißen skalar , die Einheiten lässt man in der mathematischen Physik gerne weg.
1.2 Vektorielle Größen. Andere Größen in der Physik wie Kraft, Geschwindigkeit, Drehimpuls, elektrische Feldstärke sind durch eine Richtung und einen Betrag gegeben. Solche Größen nennen wir vektoriell
oder gerichtet und stellen sie durch einen Pfeil dar, der durch seine Richtung und durch seine Länge
Richtung und Betrag der betreffenden Größe angibt. Für vektorielle Größen sind zwei Operationen von
grundlegender Bedeutung: das Vervielfachen und Addieren. Wir illustrieren dies am Beispiel der Kraft.
Verdoppeln wir die Kraft F~ , so behält der Kraftpfeil seine Richtung, verdoppelt aber seine Länge. Wir
schreiben dafür 2F~ . Greifen zwei Kräfte F~1 und F~2 in einem Punkt P an, so bewirken sie dasselbe wie
eine einzige in P angreifende Gesamtkraft, welche wir mit F~1 + F~2 bezeichnen und durch die skizzierte
Parallelogrammkonstruktion erhalten. Umgekehrt ist es oftmals nützlich, eine in einem Punkt angreifende
Kraft in zwei oder mehrere Teilkräfte zu zerlegen.
F~
2F~
F~1 + F~2
F~1
F~2
Abbildung 3.1: Vervielfachen einer Kraft und Kräfteaddition nach der Parallelogrammregel.
2
Geometrie
2.1 Historische Entwicklung. Die Geometrie ist eine der ältesten Teildisziplinen der Mathematik.
Schon Euklid von Alexandria gab ihr um 300 v. Chr. in seinen Elementen einen systematischen Aufbau.
79
KAPITEL 3. VEKTORRECHNUNG
Er erklärt zunächst ein Punkt ist, was keine Teile hat, eine Linie ist breitenlose Länge“ und versucht
”
anschließend aus fünf Grundpostulaten (Axiomen) über diese grundlegenden Objekte alle Lehrsätze der
Geometrie abzuleiten.
Eines dieser fünf Postulate ist das sogenannte Parallelenaxiom. Es verlangt, dass es zu einer Geraden g
und einem Punkt P ∈
/ g genau eine Parallele h zu g gibt, die durch P geht. Hieraus folgt der Satz
über Wechselwinkel bei einer Doppelkreuzung mit parallelen Geraden und dann auch der Satz über die
Winkelsumme im Dreieck.
g
h
α
β
γ
Q
P
α
β
Abbildung 3.2: Parallelenaxiom und Doppelkreuzung mit parallelen Geraden.
Die Frage, ob das Parellelenaxiom nicht schon in den ersten vier enthalten ist, hat Mathematiker lange
beschäftigt. Im 19. Jahrhundert gaben Gauß, Bolyai und Lobatschewski Beispiele für nichteuklidische
Geometrien an, in denen die ersten vier Axiome gelten, das Parallelenaxiom aber verletzt ist. Derartige
Geometrien sind durchaus von Nutzen, sie beschreiben die Verhältnisse auf der Erdkugel oder werden in
der Relativitätstheorie eingesetzt.
Euklids Elemente können als der erste gereifte Versuch eines deduktiven, axiomatischen Aufbaus einer
Wissenschaft gelten. 1899 fand diese Grundlegung in Hilberts axiomatischer Begründung der Geometrie einen Abschluss. Er führte die Widerspruchsfreiheit des Axiomensystems der Geometrie auf die des
Systems der reellen Zahlen, d.h. auf (A1)–(A9), zurück.
2.2 Vektorrechnung. Wir werden Geometrie hier nicht um ihrer selbst willen betreiben, sondern durch
Einführung eines kartesischen Koordinatensystems geometrische Fragestellungen auf algebraische, d.h. auf
das Rechnen mit Zahlen, zurückführen. Das leistet die Vektorrechung. Selbige erweist sich als ein nützlicher Kalkül in Anwendungen der Physik und wird durch das Wechselspiel von geometrischer Anschauung
und effektiver Rechnung lebendig. Dass auch die Fragestellungen der Geometrie selbst in der Physik
nützlich sind, zeigen die Entwicklungen in der allgemeinen Relativitätstheorie und der Stringtheorie in
denen um eine tiefere Verständnis des Raumes“ an sich gerungen wird.
”
2.3 Vorgehen in diesem Kapitel. In §2 werden wir das Wechselspiel zwischen Geometrie und Vektorrechung am Beispiel der ebenen Geometrie kennenlernen. Außerdem kommt es zu einem ersten Kontakt
mit dem Matrizenkalkül. Ausgehend vom Beispiel in der Ebene entwicklen wir die zentralen Begriffe
Vektorraum“ und euklidischer Vektorraum“ in §3. Dort stellen wir auch die grundlegenden Techniken
”
”
der Vektorrechnung in allgemein nützlicher Form zusammen. Eine Ergänzung mit Spezialitäten im dreidimensionalen Raum in §4 rundet unseren Einstieg in die Vektorrechnung zunächst ab, eine ausführliche
Vertiefung, insbesondere der Matrizenrechnung, erfolgt im Rahmen der linearen Algebra in Kapitel 5.
§2. VEKTORRECHNUNG IM R2
80
§2
1
Vektorrechnung im R2
Die Ebene als Vektorraum
1.1 Kartesische
Koordinatensysteme.
Wir zeichnen in der Ebene einen Punkt O als
Ursprung oder Nullpunkt aus, legen durch ihn
zwei Koordinatenachsen und markieren auf
selbigen Einheitspunkte E1 und E2 . Anschließend können wir jeden Punkt P der Ebene
durch ein Zahlenpaar (x1 , x2 ) charakterisieren
und brauchen für den rechnerischen Gebrauch
nicht mehr zwischen dem Punkt und seinem
Koordinatenpaar unterscheiden: P = (x1 , x2 ).
x2
P
E2
x1
0
E1
Abbildung 3.3: Kartesische Koordinaten in der Ebene.
Wir nennen (x1 , x2 ) die kartesischen Koordinaten von P und schreiben selbige wenn möglich in der Form
x1
x2 . Diese Darstellung ist für eine konsequente Anwendung es Matrizenkalküls geeigneter. Da die erste
Darstellung platzsparender ist, werden wir sie meistens im Fließtext verwenden.
1.2 Koordinatenvektoren. Wir wählen ein Koordinatensystem in der Ebene und halten es für die
weiteren Betrachtungen fest. Ist ~x ein Vektor, so können wir selbigen im Ursprung O angreifen lassen und
~ . Wir können also ~x nach Wahl eines Koordinatensystems
erhalten einen
Punkt P = (x1 , x2 ) mit ~x = OP
durch xx12 beschreiben und nennen xx12 darum Koordinatenvektor oder Ortsvektor . Die Zahlen x1 und x2
heißen Komponenten des Koordinatenvektors xx12 .
Da wir das Koordinatensystem fest gewählt haben, können wir den Vektor ~x mit seinem Koordinatenvektor gleichsetzen:
x1
~
.
~x = OP =
x2
Es sind auch Bezeichnungen der Art x oder x üblich. Später — wenn wir genug Routine haben und
keine Angst für eine Verwechslung von Vektoren und anderen Größen besteht — werden wir einfach x
schreiben.
1.3 Gleichheit von Vektoren. Zwei Vektoren xx12 und yy12 heißen gleich und wir schreiben
x1
x2
=
y1
,
y2
wenn x1 = x2 und y1 = y2 ,
d.h. wenn die beiden Ortsvektoren denselben Punkt bezeichnen.
1.4 Nullvektor, Einheitsvektoren. Der Ursprung hat als Koordinatenvektor den Nullvektor
~ = 0 .
~0 := OO
0
Die beiden zu den Einheitspunkten gehörigen Vektoren
1
0
~
~
~e1 := OE 1 =
,
~e2 := OE 2 =
0
1
nennen wir ersten bzw. zweiten Standardeinheitsvektor oder Einheitsvektoren.
1.5 Rechnen mit Vektoren. Sind zwei Koordinatenvektoren
x1
y1
~x =
und
~y =
x2
y2
81
KAPITEL 3. VEKTORRECHNUNG
gegeben, so erhalten wir dem Strahlensatz den um den Faktor λ ∈ R gestreckten Vektor zu
λx1
λ~x =
λx2
und mit der Parallelogrammkonstruktion den Summenvektor zu
x1 + y1
~x + ~y =
.
x2 + y2
x2 + y2
λx2
y2
λ~x
~x + ~y
~x
x2
x2
~x
~y
x1
λx1
x1
y1 x1 + y1
Abbildung 3.4: Vervielfachen eines Vektors, Addieren zweier Vektoren.
Damit haben wir für Koordinatenvektoren zwei Rechenoperationen eingeführt.
x1
• Die Skalarmultiplikation oder Multiplikation von Skalaren mit Vektoren λ ·
x2
x1 + y1
y1
x1
.
:=
+
• die Vektoraddition oder Addition von Vektoren
x2 + y2
y2
x2
:=
λx1
λx2
und
Üblicherweise unterdrückt man bei der Skalarmultiplikation den Malpunkt.
Achtung. Auch wenn wir (aus Tradition) für die Vektoraddition und die Skalarmultiplikation dieselben
Symbole wie für die Addition und Multiplikation im Körper R (bzw. C) verwenden, so sind diese Operationen doch anderer Natur. Dies erkennt man schon daran, für welche Objekte sie definiert sind (nämlich
für zwei Koordinatenvektoren bzw. für eine reelle Zahl und einen Koordinatenvektor und nicht für zwei
reelle oder komplexe Zahlen) und welche Objekte dabei entstehen (nämlich jeweils ein Koordinatenvektor
und nicht eine reelle oder komplexe Zahl).
1.6 Der R2 als Vektorraum. Die Menge
R2 :=
x1
x2
| x1 , x2 ∈ R
der zweikomponentigen Koordinatenvektoren zusammen mit der Vektoraddition und der Skalarmultiplikation nennen wir den Vektorraum R2 .
1.7 Standardbasis. Die beiden Einheitsvektoren ~e1 und ~e2 bilden die Standardbasis (~e1 , e~2 ) des R2 , da
jeder Vektor im R2 mittels
x1
1
0
= x1
+ x2
,
d.h. ~x = x1~e1 + x2~e2 ,
x2
0
1
in eindeutiger Form dargestellt werden kann.
§2. VEKTORRECHNUNG IM R2
82
1.8 Rechengesetze. Im Vektorraum R2 gelten die folgenden Rechengesetze, die man leicht selbst verifiziert.
x1
y1
y1
x1
(a)
+
=
+
, d.h. ~x + ~y = ~y + ~x,
x2
y2
y2
x2
x1
y1
z1
x1
y1
z1
(b)
+
+
=
+
+
, d.h. (~x + ~y ) + ~z = ~x + (~y + ~z),
x2
y2
z2
x2
y2
z2
x1
0
x1
(c)
+
=
, d.h. ~x + ~0 = ~x,
x2
0
x2
x1
−x1
0
1
(d)
+
=
, d.h. ~x − ~x = ~0, wobei wir mit −~x den Vektor −x
bezeichnen und statt
−x
2
x2
−x2
0
~x + (−~x) einfach ~x − ~x schreiben,
x1
y1
x1
y1
(e) λ
+
=λ
+λ
, d.h. λ(~x + ~y ) = λ~x + λ~y ,
x2
y2
x2
y2
x1
x1
(f) λ µ
= (λµ)
, d.h. λ(µ~x) = (λµ)~x,
x2
x2
x1
x1
, d.h. 1 · ~x = ~x.
=
(g) 1 ·
x2
x2
Z
1.9 Ortsvektoren, Vektoraddition und AnY
tragen von Vektoren. Wenn wir die zu zwei
~ = ~x
Punkten X und Y gehörigen Ortsvektoren OX
~ = ~y addieren, so stellen wir uns den Ortsund OX
~y
vektor ~x + ~y als Punkt Z in der Ebene vor, den
~x + ~y
X
wir durch Antragen des Vektors ~y an den Punkt X
~
erhalten. Dabei haben wir den Ortsvektor ~y = OY
~x
~ identifiziert. Diesen Umstand
mit dem Vektor XZ
O
nehmen wir momentan kommentarlos hin, werden
Abbildung 3.5: Antragen von Vektoren.
das Thema aber in §3 wieder aufgreifen.
2
Geraden und Strecken
2.1 Parametrisierung einer Geraden. Sind A
und B zwei verschiedene Punkte mit Ortsvektoren ~a und ~b, so sind die Punkte der Geraden
g = AB durch A und B durch die Ortsvektoren ~a + λ(~b − ~a) mit λ ∈ R gegeben. Wir nennen
~v := ~b − ~a Richtungsvektor und die Darstellung
g = {~a + λ(~b − ~a) | λ ∈ R}
eine Parameterdarstellung oder Parametrisierung
der Geraden g.
−1
A
0
~a
~v
1
B
2
~b
O
g
Abbildung 3.6: Parametrisierung einer
Geraden.
Offensichtlich besitzt eine Gerade mehrere Parameterdarstellungen — wir hätten ja auf g auch ein anderes
Punktepaar wählen und obiges Vorgehen wiederholen können. Man überlege sich selbst, dass verschiedene
Parametrisierungen einer Geraden auf die folgende Weise identifiziert werden können.
2.2 Verschiedene Parametrisierungen derselben Geraden. Zwei Parametrisierungen λ 7→ ~a + λ~v
~ mit Richtungsvektoren ~v , w
~ 6= ~0 beschreiben genau dann ein und dieselbe Gerade, wenn
und µ 7→ ~b + µw
~
es Zahlen α, β ∈ R, β 6= 0, gibt mit b = ~a + α~v und w
~ = β~v .
83
KAPITEL 3. VEKTORRECHNUNG
2.3 Verbindungsstrecke zweier Punkte. Wenn wir zu der in 2.1 genannten Parametrisierung der
Geraden durch A und B den Parameter λ nur in [0, 1] laufen lassen, so erhalten wir die Verbindungsstrecke
von A und B. Bezeichnen wir selbige mit [AB] so gilt
[AB] = {~a + λ(~b − ~a) | λ ∈ [0, 1]} = {λ~a + (1 − λ)~b | λ ∈ [0, 1]} = {λ~a + µ~b | λ, µ ∈ R+
0 , λ + µ = 1}.
2.4 Mittelpunkt. Den Mittelpunkt der Strecke [AB] erhalten wir zu
1
(~a + ~b).
2
Sind allgemein n Punkte A1 , . . . , An mit Ortsvektoren ~a1 , . . . , ~an gegeben, so nennen wir
1
(~a1 + · · · + ~an )
n
ihren Mittelpunkt.
2.5 Schnitt zweier Geraden. Von unserer geometrischen Anschauung her ist klar, dass zwei Geraden
g = {~a + λ~v | λ ∈ R}
und
h = {~b + µw
~ | µ ∈ R}
dann und nur dann genau einen gemeinsamen Punkt besitzen, wenn der Richtungsvektor ~v von g kein
Vielfaches des Richtungsvektors w
~ von h ist. Ist dagegen ~v ein Vielfaches von w,
~ so nennen wir g und h
parallel und haben zwei Fälle zu unterscheiden, je nachdem ob g und h identisch sind (dann haben sie
alle ihre Punkte gemeinsam) oder nicht (dann haben sie keinen Punkt gemeinsam).
Rechnerisch läuft das auf die Betrachtung des Lösungsverhaltens von
~a + λ~v = ~b + µw
~
in Abhängigkeit von den Parametern λ und µ d.h. auf das Lösungsverhalten des linearen Gleichungssystems
v1 λ − w1 µ = b1 − a1
v2 λ − w2 µ = b2 − a2
hinaus. Dabei sind die Zahlen a1 , a2 , b1 , b2 , v1 , v2 , w1 , w2 gegeben und die Variablen λ und µ werden
gesucht. Solche Gleichungssysteme wollen wir jetzt kurz diskutieren.
2.6 Lineare (2 × 2)-Gleichungssysteme. Für gegebene reelle Zahlen a11 , a12 , a21 , a22 , b1 , b2 hat das
lineare Gleichunggssystem
a11 x1 + a12 x2
= b1
a21 x1 + a22 x2
= b2
genau dann eine eindeutig bestimmte Lösung (x1 , x2 ), wenn
D := a11 a22 − a12 a21 6= 0
in diesem Fall gilt für die Lösung
a22 b1 − a12 b2
,
D
Für D = 0 besitzt das Gleichungssystem
x1 =
x2 =
a11 b2 − a21 b1
.
D
• alle (x1 , x2 ) ∈ R2 als Lösung, falls a11 = a12 = a21 = a22 = b1 = b2 = 0,
12
2
• alle Lösungen auf der Geraden {(− aa11
x2 + ab11
, x2 ) | x2 ∈ R}, falls a11 6= 0 und a21 b1 = a11 b2 , bzw.
analoges Lösungsverhalten in den drei Fällen, die man durch Vertauschen der Gleichungen bzw. der
Variablen erhält,
• andernfalls keine Lösung.
Den recht undramatischen Beweis führt man durch ordentliches Nachrechnen. Die Aussage bleibt übrigens
erhalten, wenn man überall R durch C ersetzt.
§2. VEKTORRECHNUNG IM R2
84
3
Matrizenkalkül für (2 × 2)-Matrizen, Gruppen
3.1 Matrizen, Produkt von Matrix und Vektor. Effizient können wir das Lösungsverhalten
von
a12
linearen (2 × 2)-Gleichungssystemen formulieren, wenn wir die beiden Vektoren aa11
und
zu
einem
a22
21
(2 × 2)-Schema
a11 a12
A :=
,
a21 a22
genannt Matrix (genauer (2 × 2)-Matrix) zusammenfassen, und das Produkt einer Matrix mit einem
Vektor einer Matrix A mit einem Vektor ~x vereinbaren als
x1
a11 x1 + a12 x2
a11 a12
A~x =
:=
.
a21 a22
x2
a21 x1 + a22 x2
Dann können wir das Gleichungssystem knapp in der Form
A~x = ~b
schreiben.
3.2 Determinante, inverse Matrix. Nennen wir
a11 a12 := a11 a22 − a12 a21
det(A) = |A| = a21 a22 die Determinante, so können wir die im Fall det(A) 6= 0 eindeutig bestimmte Lösung von A~x = ~b in der
Form
1
a22 −a12
−1~
−1
,
d.h.
~x = A b,
mit A :=
det(A) −a21 a11
1
b1
x1
a22 −a12
,
=
a11 a22 − a12 a21 −a21 a11
b2
x2
schreiben, wobei die soeben für det(A) 6= 0 definierte Matrix A−1 die zu A inverse Matrix genannt wird.
3.3 Produkt von Matrizen. Erweitern wir unsere Definition des Produkts einer Matrix mit einem
Vektor auf das Produkt zweier Matrizen A und B
b11 b12
a11 a12
A · B = AB =
a21 a22
b21 b22
b11
b12
a11 b11 + a12 b21 a11 b12 + a12 b22
=
=:
A
,A
,
a21 b11 + a22 b21 a21 b12 + a22 b22
b22
b21
indem wir selbiges dadurch definieren, dass wir die beiden Spaltenvektoren bb11
und bb21
der zweiten
21
22
Matrix an die erste Matrix multiplizieren, um die beiden Spalten
b11
a11 b11 + a12 b21
b12
a11 b12 + a12 b22
A
=
und
A
=
b21
a21 b11 + a22 b21
b22
a21 b12 + a22 b22
der Produktmatrix AB zu erhalten. Durch Nachrechnen verifiziert man insbesondere
1 0
−1
−1
AA = A A =
=: E.
0 1
Wir nennen E die Einheitsmatrix (genauer (2 × 2)-Einheitsmatrix).
Achtung. Die Formeln zum Multiplizieren einer Matrix mit einem Vektor und zum Multiplizieren muss
man auswendig lernen, insbesondere den Satz Die Spalten der Produktmatrix AB erhält man, indem
”
man die Spalten von B an die Matrix A multipliziert.“
85
KAPITEL 3. VEKTORRECHNUNG
Das Beispiel
A=
1
2
0
,
3
B=
1
1
1
,
1
AB =
1
5
1
,
5
BA =
3
3
3
3
zeigt, dass es beim Matrizenprodukt auf die Reihenfolge ankommt. Übrigens gilt det(B) = 0, d.h. B ist
nicht invertierbar. Wie steht es mit A, AB und BA? Wie lautet gegebenenfalls die inverse Matrix?
3.4∗ Definition: Gruppe. Für die Menge R2×2 der invertierbaren (2 × 2)-Matrizen mit reellen Komponenten zusammen mit der Matrizenmultiplikation ·“ als Operation gilt
”
(G1) Assoziativgesetz : für alle A, B, C gilt (A · B) · C = A · (B · C),
(G2) neutrales Element: es gibt ein E mit A · E = E · A = A für alle A,
(G3) inverse Elemente: zu jedem A gibt es ein A−1 mit A · A−1 = A−1 · A = E.
Allgemein nennen wir eine Menge M zusammen mit einer Operation ·“, welche zwei Elementen A, B ∈ M
”
ein wohlbestimmtes Element A · B ∈ M zuordnet, eine Gruppe, wenn (G1)–(G3) erfüllt sind. Gilt zusätzlich
(G4) Kommutativgesetz : für alle A, B gilt A · B = B · A,
so heißt die Gruppe M abelsch oder kommutativ .
Ist eine nichtleere Teilmenge N ⊆ M nennen wir Untergruppe von M , wenn N mit der von M geerbten
Operation ·“ selbst eine Gruppe ist. Dies kann man dadurch nachweisen, dass man E ∈ N nachweist
”
und zeigt, dass aus A, B ∈ N auch A · B −1 ∈ N folgt.
3.5∗ Beispiele für Gruppen.
(a) Die invertierbaren (2 × 2)-Matrizen bilden bezüglich der Matrizenmultiplikation eine Gruppe. Diese
Gruppe ist nicht abelsch. Sie wird mit GL(2) bezeichnet. Manchmal unterscheidet man auch, ob die
Matrizen reelle oder komplexe Einträge besitzen dürfen und schreibt dann GL(2, R) bzw. GL(2, C).
(b) Die ganzen Zahlen bilden zusammen mit der Addition +“ eine abelsche Gruppe, ebenso Q, R und
”
C. Damit sind Z ⊂ Q ⊂ R Untergruppen der additiven Gruppe C.
(c) Die positiven rationalen Zahlen bilden zusammen mit der Multiplikation ·“ eine abelsche Gruppe,
”
ebenso R+ , R r {0} und C r {0}. Daher sind Q+ ⊂ R+ ⊂ R r {0} Untergruppen der multiplikativen
Gruppe C r {0}.
(d) Die Vektoren im R2 bilden zusammen mit der Vektoraddition eine abelsche Gruppe.
4
Abstand, Länge, Winkel
4.1 Vorbemerkung. Wir haben schon eine ganze Menge Nutzbringendes über Vektorrechung im R2
gelernt. Einen ganz wichtigen Aspekt haben wir dabei aber noch gar nicht berührt: Die Messung von
Längen und Winkeln.
4.2 Norm und Länge. Für einen Vektor ~x im R2 nennen wir
p
k~xk := x1 2 + x2 2
die Norm oder Länge von ~x. Ein Vektor ~x mit k~xk = 1 heißt normiert.
Wenn wir daran denken, dass wir den R2 schon als Gaußsche Zahlenebene kennen, ist das nichts anderes
als ein neuer Name für den Betrag einer komplexen Zahl mit Realteil x1 und Imaginärteil x2 . Die Norm
eines Vektors gibt also dessen Abstand vom Ursprung an.
§2. VEKTORRECHNUNG IM R2
86
4.3 Abstand und Dreiecksungleichung. Für zwei
Vektoren ~x und ~y im R2 heißt
p
k~x − ~y k = (x1 − y1 )2 + (x2 − y2 )2
C
~x
der Abstand von ~x und ~y .
~y
Wie in der Gaußschen Zahlenebene erhalten wir die
Dreiecksungleichung
~x + ~y
A
k~x + ~y k ≤ k~xk + k~y k
B
und haben als geometrische Interpretation: der Weg von
A nach B wird nicht kürzer, wenn man über C geht.
Abbildung 3.7: Dreiecksungleichung im R2 .
4.4 Orientierter Winkel. Für zwei Vektoren ~x 6= ~0
und ~y 6= ~0 im R2 bilden wir die zugehörigen komplexen
Zahlen z = x1 + ix2 und w = y1 + iy2 . Dann gilt in Polarkoordinaten z = reiϕ , w = ρeiψ mit Radien r, ρ > 0
und Argumenten ϕ, ψ ∈ [0, 2π[. Wir nennen
~y
](~x, ~y ) := ψ − ϕ
ψ
ψ−ϕ
den (orientierten) Winkel zwischen ~x und ~y . Er ist
eindeutig bis auf ein ganzzahliges Vielfaches von 2π.
Eine kurze Rechnung unter Verwendung der Polarkoordinatendarstellungen (x1 , x2 ) = (r cos ϕ, r sin ϕ) und
(y1 , y2 ) = (ρ cos ψ, ρ sin ψ) zeigt
~x
ϕ
0
Abbildung 3.8: Orientierter Winkel zwischen zwei Vektoren im R2 .
x1 y1 + x2 y2 = rρ(cos ϕ cos ψ + sin ϕ sin ψ) = k~xkk~y k cos(ψ − ϕ).
Wir erhalten also den Cosinus des Winkels ](~x, ~y ) = ψ − ϕ zwischen ~x und ~y in der Form
x1 y1 + x2 y2
cos(](~x, ~y )) =
.
k~xk · k~y k
4.5 Skalarprodukt. Für zwei Vektoren ~x und ~y im R2 heißt die reelle Zahl
h~x|~y i := x1 y1 + x2 y2
das Skalarprodukt von ~x und ~y .
Manchmal wird dies auch Innenprodukt genannt. Man mache sich klar, welche Unterschiede zwischen der
Skalarmultiplikation und dem Skalarprodukt bestehen!
Die ersten drei der folgenden Rechenregeln für das Skalarprodukt sind unmittelbar einsichtig.
(a) Linearität: h~x + ~y |~zi = h~x|~zi + h~y |~zi,
(b) Symmetrie: h~x|~y i = h~y |~xi,
(c) (positive Definitheit) h~x|~xi = k~xk2 ≥ 0 mit Gleichheit genau dann, wenn ~x = ~0,
(d) Cauchy-Schwarzsche Ungleichung: |h~x|~y i| ≤ k~xkk~y k.
4.6 Cosinussatz. Zum Beweis der Regel (d) bemerken wir, dass für ~x, ~y 6= ~0 gemäß 4.4 gerade
cos ](~x, ~y ) =
h~x|~y i
k~xkk~y k
der Cosinus des Winkels zwischen ~x und ~y ist, d.h. eine Zahl im Intervall [−1, 1]. Ist ~x oder ~y der
Nullvektor, so gilt die Cauchy-Schwarzsche Ungleichung trivialerweise, da beide Seiten verschwinden.
87
KAPITEL 3. VEKTORRECHNUNG
Mit obiger Darstellung des Winkels zwischen ~x und ~y haben wir auch den Cosinussatz im allgemeinen
Dreieck
k~x − ~y k2 = k~xk2 + k~y k2 − 2k~xkk~y k cos ](~x, ~y )
~y
~x − ~y
bewiesen. Es gilt nämlich
k~x − ~y k2
(c)
=
(a)
=
(b),(c)
=
](~x, ~y )
h~x − ~y , ~x − ~y i
h~x|~xi − h~x|~y i − h~y |~xi + h~y |~y i
~x
k~xk2 − 2h~x|~y i + k~y k2
Abbildung 3.9: Cosinussatz.
und wir können 2h~x|~y i wie zuvor diskutiert durch 2k~xkk~y k cos ](~x, ~y ) ersetzen.
4.7 Der R2 als euklidischer Vektorraum. Der Vektorraum R2 zusammen mit dem Skalarprodukt
wird euklidischer Vektorraum R2 genannt.
Erst das Zusammenspiel von Vektoraddition, Skalarmultiplikation und Skalarprodukt (welches, wie wir
gesehen haben, sowohl Längen- als auch Winkelmessung erlaubt) stellt sicher, dass wir uns im R2 in der
gewohnten Weise geometrisch betätigen können.
5
Orthogonalität
5.1 Orthogonalität. Zwei Vektoren ~x und ~y im R2 mit h~x|~y i = 0 heißen orthogonal oder senkrecht.
Wir schreiben dann ~x ⊥ ~y .
Sind zwei Vektoren orthogonal, so ist entweder einer der beiden Vektoren der Nullvektor oder sie schließen
einen Winkel ±π/2 miteinander ein. Die Tatsache, dass der Nullvektor orthogonal zu jedem Vektor ist,
sollte einfach als nützliche Vereinbarung gesehen werden.
5.2 Normalenvektor. Zu einem Vektor ~x = xx12 6= ~0 nennen wir
1
−x2
1 −x2
=√ 2
~n :=
k~xk x1
x1 + x2 2 x1
den Normalenvektor zu ~x. Es gilt k~nk = 1 und h~x|~ni = 0, d.h. der Normalenvektor zu ~x ist normiert und
steht senkrecht auf ~x. Mit ~n steht auch jeder Vektor λ~n, λ ∈ R auf ~x senkrecht, insbesondere auch −~n.
5.3 Normalenform einer Geraden. Für einen Vektor ~n 6= ~0 und eine Zahl c ∈ R heißt die Darstellung
g
= {~x ∈ R2 | h~x|~ni = c}
x1
2
∈ R | n1 x1 + n2 x2 = c
=
x2
~n
~a
g
eine Normalendarstellung der Geraden g.
Als Beweis dafür, dass so eine Gerade dargestellt werden
kann, geben wir die Umrechnungen von Normalenform
in Parameterdarstellung und umgekehrt an.
~v
Abbildung 3.10: Normalenform und Parameterdarstellung einer Geraden.
Zur Umrechnung von einer Parameterdarstellung λ 7→ ~a + λ~v von g in eine Normalenform bilden wir den
Normalenvektor ~n zum Richtungsvektor ~v und erhalten wegen h~v |~ni = 0 dann
h~a + λ~v |~ni = h~a|~ni + λh~v |~ni = h~a|~ni =: c
unabhängig von λ. Dies liefert uns die Normalenform h~x|~ni = c.
§2. VEKTORRECHNUNG IM R2
88
Liegt umgekehrt für g eine Normalendarstellung h~x|~ni = c vor, so bilden wir den Normalenvektor zu ~n
um einen Richtungsvektor ~v für eine Parameterdarstellung von g zu erhalten und finden einen Punkt ~a
auf g, indem wir beispielsweise (a1 , a2 ) = (c/n1 , 0) für n1 6= 0 bzw. (a1 , a2 ) = (0, −c/n2 ) für n2 6= 0
setzen.
5.4 Orthogonale Projektion. Zu einer Ursprungsgeraden g mit Parametrisierung λ → λ~v mit k~v k = 1 und
einem Punkt ~a ∈
/ g ist der Punkt ~u ∈ g mit kleinstem
Abstand zu ~a gegeben durch λ = h~a|~v i, d.h.
g
~a
~u
~u = h~a|~v i~v ,
0
und ~u − ~a ist orthogonal zu ~v . Wir nennen ~u den Lotfußpunkt oder die orthogonale Projektion von ~a auf g.
~v
Abbildung 3.11: Lotfußpunkt (orthogonale
Projektion).
Beweis. Um den Abstand k~a − λ~v k von Punkten λ~v ∈ g zu ~a zu minimieren, betrachten wir (unter
Verwendung der Rechenregeln für das Skalarprodukt und mit einer quadratischen Ergänzung)
k~a − λ~v k2
= h~a − λ~v |~a − λ~v i = h~a|~ai − λh~v |~ai − λh~a|~v i + λ2 h~v |~v i
= k~xk2 − 2λh~a, ~v i + λ2 = k~xk2 − h~a|~v i2 + (h~a|~v i − λ)2 .
Da k~xk2 − h~a|~v i2 von λ unabhängig ist, wird k~a − λ~v k2 und damit k~a − λ~v k nach obiger Darstellung genau
für h~a|~v i − λ = 0 minimal. Für ~u := h~a|~v i~v folgt mit h~v |~v i = 1 dann
h~u − ~a|~v i = hh~a|~v i~v − ~a|~v i = h~a|~v ih~v |~v i − h~a|~v i = 0.
6
Längen- und winkelerhaltende Abbildungen
6.1 Ebene Drehmatrizen. Für ϕ ∈ R nennen wir
cos ϕ
Uϕ :=
sin ϕ
− sin ϕ
cos ϕ
eine (ebene) Drehmatrix .
Man verifiziere die folgenden Formeln durch Nachrechnen der Matrizenprodukte.
(a) U0 = E,
(b) Uϕ Uψ = Uϕ+ψ = Uψ Uϕ , d.h. insbesondere Uϕ U−ϕ = E = U−ϕ Uϕ und damit Uϕ −1 = U−ϕ .
Die ebenen Drehmatrizen bilden bezüglich der Matrizenmultiplikation eine abelsche Gruppe.
Diese Gruppe nennen wir spezielle orthogonale Gruppe der Ordnung 2 und bezeichnen sie mit SO(2). Die
SO(2) ist eine abelsche Untergruppe der nichtabelschen Gruppe GL(2).
6.2 Drehung. Für ϕ ∈ R nennen wir die Abbildung
x1
cos ϕ
Dϕ : R2 → R2 ,
Dϕ (x1 , x2 ) := Uϕ
=
sin ϕ
x2
− sin ϕ
cos ϕ
x1
x1 cos ϕ − x2 sin ϕ
=
,
x1 sin ϕ + x2 cos ϕ
x2
eine (orientierte) Drehung um den Winkel ϕ.
Schreiben wir ~x = xx12 als komplexe Zahl z = x1 + ix2 , so entpuppen sich die eben angegebenen Koordinaten von Dϕ (x1 , x2 ) als Real- bzw. Imaginärteil von eiϕ z. Die Abbildung Dϕ bewirkt also tatsächlich
eine Drehung mit dem Ursprung als Drehzentrum um den Winkel ϕ im mathematisch positiven Sinn.
Man verifziere die folgende Aussage selbständig:
Die Drehungen in der Ebene bilden bezüglich der Hintereinanderausführung von Abbildungen eine abelsche
Gruppe.
KAPITEL 3. VEKTORRECHNUNG
89
6.3 Verschiebung. Für ~a ∈ R2 nennen wir die Abbildung
x1
a1
x1 + a1
2
2
T~a : R → R ,
T~a (x1 , x2 ) =
+
=
,
x2
a2
x2 + a2
eine Translation oder Verschiebung um den Vektor ~a.
Die folgenden Aussagen über Translationen sind offensichtlich.
(c) Die Translation um den Nullvektor bewegt nichts, wirkt also wie die identische Abbildung: T~0 = idR2 .
(d) Die Hintereinanderausführung zweier Translationen um ~a und ~b wirkt wie eine um ~a +~b: T~b ◦T~a = T~a+~b ,
insbesondere wird eine Translation um ~a durch eine um −~a aufgehoben T~a ◦ T−~a = T~a−~a = idR2 und
damit T~a−1 = T−~a .
Die Translationen bilden bezüglich der Hintereinanderausführung von Abbildungen eine abelsche Gruppe.
6.4 Längen- und winkelerhaltende Abbildungen. Eine Abbildung f : R2 → R2 erhält genau dann
Längen und Winkel, wenn
h~x|~y i = hf (~x)|f (~y )i
für alle ~x, ~y ∈ R2 .
Insbesondere erhalten Drehungen und Verschiebungen Längen und Winkel.
Für die Wahl ~x = ~y folgt dann nämlich k~xk2 = h~x|~xi = hf (~x)|f (~x)i = kf (~x)k2 und f ist längenerhaltend.
Ähnlich zeigt man cos ](~x, ~y ) = cos ](f (~x), f (~y )) mit 4.6, d.h. Winkel bleiben auch erhalten.
Drehungen in der Ebene sind längen- und winkelerhaltend, Translationen sind abstands- und winkelerhaltend.
Längen- und winkelerhaltende Abbildungen werden auf euklidische Bewegungen oder Kongruenzabbildungen genannt. In der Physik beschreiben sie beispielsweise die Bewegung eines starren Körpers. Man
kann zeigen, das jede Kongruenzabbildung der Ebene als Hintereinderausführung von endlich vielen
Drehungen, Verschiebungen und Spiegelungen geschrieben werden kann. Spiegelungen wollen wir hier
nicht behandeln, da sie im Gegensatz zu Verschiebungen und Drehungen die Orientierung von Winkeln
verändern.
Die euklidischen Bewegungen in der Ebene bilden bezüglich der Hintereinanderausführung eine Gruppe
(man überlege sich selbst, warum). Die Drehungen und Translationen sind Untergruppen dieser Gruppe.
6.5 Koordinatenwechsel Bisher haben wir bei unseren Betrachtungen ein kartesisches Koordinatensystem in der Ebene fest fixiert. Diese Festlegung hatte uns die Identifizierung von Punkten in der Ebene
mit Koordinatenvektoren erlaubt.
Nun wollen wir ein zweites Koordinatensystem hinzunehmen und untersuchen, wie sich die Koordinatendarstellung eines Punktes beim Übergang vom ursprünglichen zum neuen Koordinatensystem verändert.
Um in neuen und alten Koordinaten dieselbe Längen- und Winkelmessung zu haben, benutzen wir eine
euklidische Bewegung, um die Koordinatensysteme ineinander überzuführen. Dabei müssen wir die bisher
gemachte Identifizierung von Punkten und Koordinatenvektoren aufheben und jeweils angeben, bezüglich
welches Koordinatensystems wir die Koordinaten eines Punktes angeben.
Wird das Koordinatensystem um ~a verschoben bzw. um ϕ um den Ursprung gedreht, so wirkt sich das
für die Koordinaten eines Punktes P wie eine Verschiebung um −~a bzw. eine Drehung um den Ursprung
um −ϕ aus.
Ist nämlich f eine euklidische Bewegung (z.B. eine Translation oder eine Drehung), die das alte Koordinatensystem in das neue überführt, so können wir zunächst diese Bewegung als eine Bewegung der
kompletten Ebene auffassen, müssen aber anschließend die Punkte wieder mit der zu f inversen Bewegung zurückbewegen, da wir nur das Koordinatensystem, nicht aber die Punkte geändert haben. Die erste
Operation ändert zwar die Vektoren, aber nicht ihre Koordinaten. Die zweite dagegen ändert die Koordinaten, bewegt die Vektoren aber wieder in ihren ursprünglichen Zustand zurück, so dass sich letztlich
nichts ändert.
§3. VEKTORRECHNUNG IM RN
90
x02 = x2 − a2
x2
x2
x01 = cos(ϕ)x1 + sin(ϕ)x2
x01 = x1 − a1
~a
x02 = − sin(ϕ)x1 + cos(ϕ)x2
ϕ
x1
x1
x1 0
x2 0
=
x1 − a1
x2 − a2
=
x1
x2
P
P
−
a1
a2
x1 0
x2 0
=
cos(ϕ)x1 + sin(ϕ)x2
− sin(ϕ)x1 + cos(ϕ)x2
= D−ϕ
x1
x2
Abbildung 3.12: Koordinatenumrechung bei einer Verschiebung des Koordinatensystems um ~a bzw. bei
einer Drehung um ϕ um den Ursprung.
§3
1
Vektorrechnung im Rn
Vektorräume und euklidische Vektorräume
1.1 Vorbemerkung. Im vorangegangenen Paragraphen haben wir in der Ebene ein Koordinatensystem
fixiert und anschließend mit Hilfe von Koordinatenvektoren geometrische Probleme behandelt.
Bei vielen Fragestellungen — gerade in der Physik — möchte man aber das Koordinatensystem wechseln und dem Problem anpassen. Man denke an Schwerpunktkoordinaten in der Mechanik oder Hauptträgheitsachsen beim Kreisel. Dann wird aber die Frage nach dem Transformationsverhalten beim Wechsel
des Koordinatensystems interessant. Diese Problematik haben wir schon in §2.6.5 kennengelernt.
Wir müssen also unterscheiden zwischen den geometrischen und physikalischen Objekten einerseits und
deren verschiedenen Koordinatendarstellungen andererseits. Dies erfordert eine koordinatenfreie Darstellung der Theorie, welche wir jetzt zur Verfügung stellen.
Wir nehmen die grundlegenden Rechenregeln §2.1.8 für Koordinatenvektoren im R2 , um allgemein zu
erklären was ein Vektorraum ist. Auch wenn die Begriffsbildung zunächst recht abstrakt erscheint, sie hat
dennoch die geschilderten konkreten Wurzeln. Ihren Nutzen werden wir sofort einsehen, da sich viele schon
bekannte Strukturen als Vektorräume entpuppen, nicht nur solche, die wir aus der Geometrie kennen.
1.2 Definition: Vektorraum. Eine nichtleere Menge V heißt Vektorraum über R (über C) oder RVektorraum (C-Vektorraum), wenn auf V eine Vektoraddition +“ und eine Skalarmultiplikation ·“
”
”
erklärt sind, so dass folgende Regeln gelten:
(VR1) Abgeschlossenheit: Für ~v , w
~ ∈ V und λ ∈ R (λ ∈ C) gilt ~v + w
~ ∈ V und λ · ~v ∈ V .
(VR2) V bildet bezüglich der Vektoraddition +“ eine abelsche Gruppe, d.h.
”
• Assoziativität: (~u + ~v ) + w
~ = ~u + (~v + w),
~
• Kommutativität: ~v + w
~ =w
~ + ~v ,
• neutrales Element: es gibt einen Vektor ~0 mit ~v + ~0 = ~v für alle ~v ∈ V ,
• inverse Elemente: zu jedem ~v ∈ V existiert genau ein Vektor, genannt −~v , mit ~v + (−~v ) = ~0.
(VR3) Für λ, µ ∈ R (λ, µ ∈ C) und ~v , w
~ ∈ V gilt
•
•
•
•
1. Distributivgesetz : (λ + µ) · ~v = λ · ~v + µ · ~v .
2. Distributivgesetz : λ · (~v + w)
~ = λ · ~v + λ · w.
~
Assoziativgesetz : λ · (µ · ~v ) = (λµ) · ~v .
Normierung: 1 · ~v = ~v .
91
KAPITEL 3. VEKTORRECHNUNG
Die Elemente von V heißen Vektoren, die von R (von C) Skalare. Man nennt R (C) auch den Grundkörper
des Vektorraums. Das neutrale Element der Vektoraddition ~0 nennen wir Nullvektor . Wie üblich schreiben
wir ~v − w
~ für ~v + (−w),
~ unterdrücken den Malpunkt bei der Skalarmultiplikation λ~v und vereinbaren,
dass Punktrechung vor Stichrechnung geht.
Achtung. Die Skalarmultiplikation erfüllt andere Rechenregeln als die Multiplikation in einem Körper
und ist auch von anderer Natur (vgl. §2.1.8).
1.3 Anmerkung zu den Vektorraumaxiomen. Keines dieser Axiome ist überflüssig. Die Normierung
beispielsweise stellt sicher, dass die Vektoraddition mit der Addition im Zahlenraum übereinstimmt:
~v + ~v = 1~v + 1~v = (1 + 1)~v = 2~v und analog für n Summanden ~v + · · · + ~v = n~v .
Ähnlich wie aus den Körperaxiomen (A1)–(A5) kann man aus den Vektorraumaxiomen weitere Rechenregeln ableiten, z.B. 0~v = ~0.
Wir haben eben K-Vektorräume nicht nur für den Grundkörper K = R sondern auch für K = C definiert.
Das stellt jetzt keinen zusätzlichen Aufwand dar, wird sich aber bald als praktisch erweisen. Wir hätten
als Grundkörper K sogar einen beliebigen Körper zulassen können. Wenn wir im Folgenden von einem
K-Vektorraum“ sprechen, so steht K immer für R oder C (und wollen uns nur Schreibarbeit sparen).
”
1.4 Unterraum. Eine nichtleere Teilmenge U eines K-Vektorraums V nennen wir Unterraum, Teilraum
oder Untervektorraum, wenn U mit der Vektoraddition und der Skalarmultiplikation aus V selbst ein
K-Vektorraum ist.
Einen Unterraum entlarvt man nicht durch stumpfsinniges Nachprüfen aller drei Vektorraumaxiome
(VR1)–(VR3). Man mache sich selbst klar, dass lediglich (VR1) nachgeprüft werden muss, während
(VR2) und (VR3) sich dann automatisch vom Raum auf den Unterraum übertragen.
1.5 Nachweis von Unterräumen. Eine nichtleere Teilmenge U eines K-Vektorraums V ist genau
dann ein Unterraum, wenn mit ~v , w
~ ∈ U und λ ∈ K auch ~v + w
~ ∈ U und λ~v ∈ U gilt.
Für einen Unterraum U müssen wir also folgende drei Dinge nachweisen:
• U 6= ∅
• ~v , w
~ ∈ U ⇒ ~v + w
~ ∈U
• ~v ∈ U, λ ∈ K ⇒ λ~v ∈ U
Den ersten Punkt erledigt man gerne durch den Nachweis von ~0 ∈ U , die beiden anderen kann man in
der Form ~v , w
~ ∈ U, λ, µ ∈ K ⇒ λ~v + µw
~ ∈ U auf einmal erledigen. Man sagt dann, dass U bezüglich der
Vektorraddition und der Skalarmultiplikation abgeschlossen ist.
Für jeden Vektorraum V sind {~0} und V selbst Unterräume von V . Der Nullvektor ist in jedem Unterraum
enthalten.
Die einelementige Menge {~0} nennen wir auch Nullraum.
1.6 Der Rn als Vektorraum. Die Menge
x1
Rn := ... x1 , . . . , xn ∈ R
xn
der geordneten n-Tupel reeller Zahlen (auch Spaltenvektoren genannt) zusammen mit der durch
x1
y1
x1 + y1
x1
λx1
.. ..
..
λ ... := ...
. + . :=
,
.
xn
yn
xn + yn
xn
λxn
definierten Vektoraddition bzw. Skalarmultiplikation über dem Grundkörper R nennen wir den Vektorraum Rn .
§3. VEKTORRECHNUNG IM RN
92
Man verifiziere selbst, dass die Vektorraumaxiome (VR1)–(VR3) erfüllt sind.
Um Platz zu sparen, werden wir im Fließtext die Spaltenvektoren auch in der Form (x1 , . . . , xn ) als
Zeilenvektoren schreiben. Für den Matrizenkalkül ist aber die Spaltenschreibweise die richtige.
Die reellen Zahlen können wir als 1-Tupel auffassen. Die Skalarmultiplikation ist dann (ausnahmsweise)
gerade die gewöhnliche Multiplikation reeller Zahlen und die Vektorraumaxiome sind in den Körperaxiomen für R enthalten. Wir fassen also R als Spezialfall des Rn für n = 1 auf.
1.7 Wozu ist der Rn nutze? Dass wir neben dem R2 als Modell der Ebene den R3 als Modell des
dreidimensionalen Anschauungsraums benötigen, liegt auf der Hand. Wozu ist aber der Rn notwendig?
Nun, beispielsweise, um den Zustand eines Systems von k Massenpunkten zu beschreiben. Ist nämlich
der Zustand eines frei beweglichen Massenpunktes durch die drei Ortskoordinaten und drei Geschwindigkeitskoordinaten beschrieben, so benötigen wir den R6k als Konfigurationsraum, um das gesamte System
zu beschreiben. In der speziellen Relativitätstheorie wird sich der R4 als vierdimensionale Raum-Zeit
nützlich erweisen.
1.8 Der Cn als Vektorraum. Die Menge
z1
.. n
C := . z1 , . . . , zn ∈ C
zn
der geordneten n-Tupel komplexer Zahlen zusammen mit der durch
λz1
z1
z1 + w1
w1
z1
.. ..
..
λ ... := ...
,
. + . :=
.
λzn
zn
zn + wn
wn
zn
definierten Vektoraddition bzw. Skalarmultiplikation über dem Grundkörper C nennen wir den Vektorraum Cn .
Für den Cn gilt das zuvor über den Rn Gesagte analog.
Die Menge C der komplexen Zahlen können wir einerseits als Vektorraum C1 auffassen, andererseits als
den R2 . Der Unterschied liegt im jeweils verwendeten Grundkörper: bei C1 ist es C, beim R2 ist es R.
1.9 Folgenräume. Die Menge aller reellen Zahlenfolgen (an )n wird zusammen mit den Operationen
(an )n + (bn )n = (an + bn )n ,
λ(an )n = (λan )n
ein R-Vektorraum, den wir mit RN bezeichnen. Analog macht man die komplexen Zahlenfolgen zu einem
C-Vektorraum CN . Wir nennen diese beiden Vektorräume Folgenräume über R bzw. über C.
Beispiel. Für eine Zahl λ und zwei konvergente Zahlenfolgen (an )n und (bn )n konvergieren auch (λan )n
und (an + bn )n . Also ist die Teilmenge der konvergenten Zahlenfolgen ein Teilraum des Folgenraums.
1.10 Funktionenräume. Ist D eine nichtleere Menge, so wird die Menge
F(D, K) := {f | f : D → K}
aller Funktionen mit Definitionsbereich D und Werten in K zusammen mit der Addition von Funktionen
und der Multiplikation mit Konstanten
f + g : D → K,
x 7→ f (x) + g(x),
zu einem K-Vektorraum, dem Funktionenraum über K.
λf : D → K,
x 7→ λf (x),
93
KAPITEL 3. VEKTORRECHNUNG
Beispiele. Da Summen und Vielfache von Polynomen wieder Polynome sind, bilden die Polynome einen
Unterraum des Funktionenraums (wobei wir als Definitionsbereich R oder C wählen können). Die Polynome vom Grad höchstens n (zusammen mit dem Nullpolynom) bilden für ein vorgegebenes n ∈ N0 ihrerseits
einen Teilraum des Polynomraums. Später werden wir einsehen, dass die stetigen, die differenzierbaren
bzw. die integrierbaren Funktionen f : D → K (für jeweils einen fest vorgegebenen Definitionsbereich D)
ebenfalls Unterräume von F(D, K) sind.
Alle bisher vorgestellten Beispiele für Vektorräume sind Spezialfälle dieses Vektorraumes: ein n-Tupel ist
eine Funktion mit Definitionsbereich {1, 2, . . . , n}, d.h. Rn = F({1, . . . , n}, R), Cn = F({1, . . . , n}, C),
und eine Zahlenfolge eine Funktion mit Definitionsbereich N, d.h. RN = F(N, R), CN = F(N, C).
1.11 Wozu abstrakte Vektorräume? Die letzten Beispiele zeigen, wie sehr es um uns herum von
Vektorräumen wimmelt“. Tatsächlich werden z.B. in der Quantenmechanik oder beim Lösen von Dif”
ferentialgleichungen diverse Funktionenräume benutzt. Auch wenn in diesem Kapitel die konkreten Anwendungen in der Geometrie im Vordergrund stehen, wollen wir schon jetzt anfangen, uns an sie zu
gewöhnen. Das gilt insbesondere für die nachfolgenden Begriffe.
1.12 Linearkombination. Sind ~v1 , . . . , ~vn Vektoren aus einem K-Vektorraum V und sind λ1 . . . , λn
Skalare aus dem Grundkörper K, so nennen wir
λ1~v1 + · · · + λn~vn =
n
X
λk~vk
k=1
eine Linearkombination der Vektoren ~v1 , . . . , ~vn .
Linearkombinationen sind uns in §2 schon mehrfach begegnet: x1~e1 + x2~e2 , ~a + λ(~b − ~a).
1.13 Superpositionsprinzip. Wir sagen, dass eine Teilmenge U eines Vektorraums V einem Superpositionsprinzip gehorcht, wenn jede Linearkombination von Vektoren aus U schon in U enthalten ist.
Offensichtlicher erfüllen Unterräume das Superpositionsprinzip. Gleich werden wir sehen, dass dies sogar charakteristisch für Unterräume ist, d.h. dass als einzige Teilmengen von V die Unterräume dem
Superpositionsprinzip genügen.
1.14 Erzeugnis. Ist V ein K-Vektorraum so nennen wir für eine nichtleere Teilmenge U ⊂ V die Menge
Span(U ) := {λ1~v1 + · · · + λn~vn | λ1 , . . . , λn ∈ K, ~v1 , . . . , ~vn ∈ V }
das Erzeugnis, den Spann oder die lineare Hülle von U . Man schreibt hierfür auch L(U ) oder hU i.
Das Erzeugnis Span(U ) von U ist ein Unterraum von V und zwar der kleinste, der U enthält.
Ist U also kein Unterraum, so gilt U ( Span(U ) und U erfüllt nicht das Superpositionsprinzip.
1.15 Lineare Unabhängigkeit. Vektoren ~v1 , . . . , ~vn eines K-Vektorraums V nennen wir linear unabhängig, wenn
λ1~v1 + · · · + λn~vn = ~0
⇒
λ1 = . . . = λn = 0.
Eine nichtleere Teilmenge U ⊂ V nennen wir linear unabhängig, wenn beliebige ~v1 , . . . , ~vn ∈ U linear
unabhängig sind, d.h. wenn alle endlichen Teilmengen von U linear unabhängig sind. Enthält U dagegen
Vektoren, die nicht linear unabhängig sind, so nennen wir U linear abhängig.
Achtung. Wegen 0~v1 +· · ·+0~vn = ~0 lässt sich der Nullvektor immer als Linearkombination von ~v1 , . . . , ~vn
darstellen. Das nennt man die triviale Linearkombination für den Nullvektor. Linear Unabhängigkeit
bedeutet, dass es außer der trivalen keine weitere Linearkombination für den Nullvektor gibt. Dagegen
bedeutet lineare Abhängigkeit, dass der Nullvektor nicht nur auf die triviale Art als Linearkombination
dargestellt werden kann.
Wegen 1 · ~0 = ~0 ist der Nullvektor (aufgefasst als einelementige Menge) linear abhängig und damit auch
jede Menge, die den Nullvektor enthält. Das klingt vielleicht seltsam, sollte aber als nützliche Vereinbarung
hingenommen werden.
§3. VEKTORRECHNUNG IM RN
94
1.16 Beispiele für lineare Unabhängigkeit bzw. lineare Abhängigkeit.
(a) Die Vektoren 12 , 21 ∈ R2 sind linear unabhängig. Aus λ 12 + µ 21 = 00 folgt nämlich λ + 2µ = 0
und 2λ + µ = 0 und hieraus 0 = 2(λ + 2µ) − (2λ − µ) = 3µ bzw. 0 = (λ + 2µ) − 2(2λ + µ) = −3λ, d.h.
λ = µ = 0.
(b) Allgemein sind zwei Vektoren ac , db ∈ R2 genau dann linear unabhängig, wenn det ac db 6= 0. Genau
dann hat nämlich das lineare Gleichungssystem ax + by = 0,
= 0 als einzige Lösung (x, y) = (0, 0).
cx + dy
Das heißt aber nicht mehr und nicht weniger, als dass x ac + y db = 00 nur für x = y = 0 lösbar ist.
(c) Zwei Vektoren ~v , w
~ eines Vektorraums V sind genau dann linear unabhängig, wenn keiner ein Vielfaches
des anderen ist (insbesondere ist dann keiner der Nullvektor). Gilt nämlich w
~ = λ~v , so ist 1~v − λw
~ = ~0
eine nichttriviale Linearkombination und ~v , w
~ sind linear abhängig. Sind umgekehrt ~v , w
~ linear abhängig,
so gibt es eine Linearkombination λ~v + µw
~ = ~0, bei der λ 6= 0 oder µ 6= 0. Gilt µ 6= 0, so folgt w
~ = −λ
v
µ ~
~
und w
~ ist ein Vielfaches von ~v . Gilt λ 6= 0 so schließe man analog.
1.17 Geraden und Ebenen durch den Ursprung. Ist V ein beliebiger K-Vektorraum, so nennen
wir für ~v ∈ V mit ~v 6= ~0
Span(~v ) = {λ~v | λ ∈ K}
eine Ursprungsgerade.
Sind ~v , w
~ ∈ V linear unabhängige Vektoren, d.h. ist keiner ein Vielfaches des anderen (und damit auch
keiner der Nullvektor), so nennen wir
Span(~v , w)
~ = {λ~v + µw
~ | λ, µ ∈ K}
eine Ursprungsebene, die von ~v und w
~ aufgespannt wird.
1.18 Affine Teilräume, Geraden und Ebenen. Allgemein nennen wir für einen Vektor ~a und einen
Vektor ~v 6= ~0
g := {~a + λ~v | λ ∈ K}
die Gerade durch ~a mit Richtungsvektor ~v , parametrisiert durch λ 7→ ~a + λ~v und für zwei linear un~
abhängige Vektoren ~v , w
E := {~a + λ~v + µw
~ | λ, µ ∈ K}
die Ebene durch ~a, aufgespannt von ~v , w
~ und parametrisiert durch (λ, µ) 7→ ~a + λ~v + µw.
~
Um Geraden und Ebenen bequem darstellen zu können, führen wir für ~a ∈ V und U ⊂ V die Notation
~a + U := {~a + ~u | ~u ∈ U }
ein und nennen für einen Unterraum U diese Menge einen affinen Teilraum zu U durch ~a. Dann gilt
g = ~a + Span(~v ),
E = ~a + Span(~v , w).
~
Achtung. Das gerade definierte +“ zwischen einem Vektor und einer Menge wollen wir lediglich als
”
nützliche Bezeichnung auffassen und nicht versuchen, damit zu rechnen.
Genau dann ist g = ~a + Span(~v ) eine Ursprungsgerade und damit ein Unterraum von V , wenn ~a ∈
Span(~v ). Genau dann ist E = ~a + Span(~v , w)
~ eine Ursprungsebene und damit ein Unterraum von V ,
wenn ~a ∈ Span(~v , w).
~
1.19 Standardbasis im Rn bzw. Cn . Die n Vektoren
1
0
0
1
~e1 := . ,
~e2 := . ,
..
..
0
0
im Rn (im Cn ) bilden die Standardbasis des Rn (des Cn ).
,...
0
0
~en := .
..
1
95
KAPITEL 3. VEKTORRECHNUNG
Jeder Vektor im Rn (im Cn ) lässt sich in eindeutiger Weise mittels
1
0
0
x1
x2
0
1
0
~x = . = x1 . + x2 . + · · · + xn . = x1~e1 + x2~e2 + · · · + xn~en
..
..
..
..
0
1
xn
0
als reelle (komplexe) Linearkombination dieser Vektoren darstellen.
Vornehm ausgedrückt: Die Standardbasisvektoren sind linear unabhängig und erzeugen den Rn (bzw. Cn ).
1.20 Basis. Ist V ein Vektorraum, so nennen wir eine linear unabhängige Teilmenge U ⊂ V mit
Span(U ) = V eine Basis von V .
Basissein bedeutet also:
• Jeder Vektor aus V kann durch eine Linearkombination von Vektoren aus U erzeugt werden.
• Die Vektoren aus U sind linear unabhängig.
Diese beiden Forderungen stellen einerseits sicher, dass U nicht zu klein ist, andererseits erzwingen sie
zugleich, dass U nicht zu groß ist. Es gilt nämlich der folgende Satz.
Ist U eine Basis von V , so lässt sich jeder Vektor in eindeutiger Form als Linearkombination von endlich
vielen Basisvektoren darstellen.
Beweis. Ist ~v ∈ V ein Vektor mit zwei Darstellungen als Linearkombination, so können wir durch
Hinzunahme von Nullskalaren für beide Linearkombinationen dieselben Vektoren aus U annehmen, d.h.
~v = λ1~v1 + · · · + λn~vn = µ1~v1 + · · · + µn~vn . Durch Subtraktion folgt ~0 = (λ1 − µ1 )~v1 + · · · + (λn − µn )~vn .
Mit U sind auch die ~v1 , . . . , ~vn linear unabhängig, d.h. λ1 − µ1 = λn − µn = 0.
1.21 Koordinaten. Ist V ein K-Vektorraum mit einer n-elementigen Basis ~v1 , . . . , ~vn (die Reihenfolge
der Vektoren in dieser Aufzählung sei dabei fest gewählt), so nennen wir für einen Vektor ~v ∈ V die
eindeutig bestimmten Skalare x1 , . . . , xn ∈ K in der Linearkombination
~v = x1~v1 + · · · + xn~vn
die Koordinaten von ~v und das aus diesen Skalaren gebildete n-Tupel
x1
..
.
xn
den Koordinatenvektor von ~v bezüglich der Basis ~v1 , . . . , ~vn .
1.22 Vektoren und Koordinatenvektoren. Jetzt schließt sich der Kreis: Nach Wahl einer n-elementigen Basis können wir einen R-Vektorraum also mit dem Rn , einen C-Vektorraum mit dem Cn identifizieren. Das haben wir in §2 gleich zu Beginn gemacht. Von dieser Festlegung wollten wir uns in diesem
Paragraphen befreien. Das haben wir auch, indem wir in einem allgemeinen Vektorraum weder auf Koordinaten festgelegt sind, noch auf die Standardbasis. Wir können aber jederzeit eine Basis wählen und
dann zu Koordinatenvektoren übergehen.
Das illustrieren wir jetzt an einem Anwendungsbeispiel bei linearen Differentialgleichungen.
1.23 Anwendungsbeispiel: lineare Differentialgleichungen zweiter Ordnung. Wir nehmen etwas
Differentialrechnung voraus. Gegeben seien zwei reelle (oder komplexe) Zahlen a, b. Man sagt, dass eine
Funktion y : R → C (das schließt den Fall y : R → R mit ein) eine lineare homogene Differentialgleichung
zweiter Ordnung mit konstanten Koffizenten a, b erfüllt, wenn
y 00 + ay 0 + by = 0,
d.h. y 00 (x) + ay 0 (x) + by(x) = 0
für alle x ∈ R.
§3. VEKTORRECHNUNG IM RN
96
Für eine Pendel- oder Molekülschwingung mit Reibung (Dämpfung) gilt beispielsweise bei kleinen Auslenkungen mẍ + bẋ + kx = 0, für einen Schwingkreis LI¨ + RI˙ + C1 I = 0. (Ableitungen nach der Zeit
werden gerne mit einem Punkt statt einem Strich bezeichnet.)
Offensichtlich ist die identisch verschwindende Funktion 0 eine Lösung der Differentialgleichung (kurz
DGL). Sind y1 und y2 zwei Lösungen, d.h. gilt y100 + ay10 + by1 = 0 = y200 + ay20 + by2 so folgt aus den
Rechenregeln für Ableitungen für beliebige Zahlen λ, µ
(λy1 + µy2 )00 + a(λy1 + µy2 )0 + (λy1 + µy2 ) = λ(y100 + ay10 + by1 ) + µ(y200 + ay20 + by2 ) = 0,
d.h. die Menge der Lösungsfunktionen ist nichtleer und erfüllt das Superpositionsprinzip. Daher bildet sie
einen Unterraum des Funktionenraums F(R, C). Wir machen uns nun daran, eine Basis zu bestimmen.
Wir nennen p(x) := x2 +ax+b das charakteristische Polynom. Ist λ eine (reelle oder komplexe Nullstelle)
von p, so gilt für die durch y(x) := eλx definierte Funktion
y 00 (x) + ay 0 (x) + by(x) = λ2 eλx + aλeλx + beλx = (λ2 + aλ + b)y(x) = 0
für x ∈ R.
(Wer Skrupel bekommt, wenn λ = ρ + iω komplex ist, der ersetze eλx durch Re(eλx ) = eρx cos(ωx)
und Im(eλx ) = eρx sin(ωx), verifiziere analog zu oben, dass diese beiden Funktionen die DGL erfüllen
und sieht anschließend ein, dass es dann auch y tut, wenn man nur die Ableitung einer komplexwertigen
Funktion dadurch bildet, dass man Realteil und Imaginärteil differenziert.)
Wir definieren zwei Funktionen y1 , y2 : R → C (genannt Basislösungen oder Fundamentallösungen) durch
(1) y1 (x) := eλ1 x , y2 (x) := eλ2 x , falls p zwei verschiedene Nullstellen λ1 , λ2 hat,
(2) y1 (x) := eλx , y2 (x) := xeλx , falls p eine doppelte Nullstelle λ hat (dann gilt p(x) = (x − λ)2 , d.h.
a = −2λ und b = λ2 ).
In beiden Fällen sind y1 und y2 Lösungen der DGL. Zeigen müssen wir das nur noch im Fall (2) für y2 .
Dann gilt tatsächlich
y200 (x) + ay20 (x) + by2 (x) = λ(λx + 2)eλx + a(λx + 1)eλx + bxeλx = [x(λ2 + aλ + b) + (2λ + a)]eλx = 0.
Für x ∈ R berechnen wir nun die Determinante der Wronski-Matrix von y1 und y2
y1 (x) y2 (x)
W (x) :=
.
y10 (x) y20 (x)
Wir erhalten det(W (x)) = −(λ1 − λ2 )e(λ1 +λ2 )x in Fall (1) bzw. det(W (x)) = e2λx in Fall (2), d.h. immer
W (x) 6= 0. Geben wir also ein beliebiges x0 ∈ R und Anfangswerte
y(x0 ) = A,
y 0 (x0 ) = B
vor, so existiert nach dem Lösungssatz 2.6 für lineare (2 × 2)-Gleichungsysteme genau eine Linearkombination
y = c1 y1 + c1 y2 ,
d.h. y(x) = c1 y1 (x) + c2 y2 (x) für alle x ∈ R,
welche die Anfangswerte y(x0 ) = A und y 0 (x0 ) = B erfüllt. Die Koeffizienten c1 und c2 erhalten wir
nämlich als die dann eindeutig bestimmte Lösung des linearen Gleichungssystems
c1
c1 y1 (x0 ) + c2 y2 (x0 )
A
c1
−1 A
W (x0 )
=
=
,
d.h.
=
W
(x
)
.
0
c2
c1 y10 (x0 ) + c2 y20 (x0 )
B
c2
B
Fazit. Für gegebene reelle oder komplexe Konstanten a, b erfüllen die Lösungen der linearen homogenen Differentialgleichung 2. Ordnung y 00 + ay 0 + by = 0 das Superpositionsprinzip. Zu vorgegebenen
Anfangswerten y(x0 ) = A, y 0 (x0 ) = B existiert immer eine eindeutig bestimmte Lösung, welche man als
Linearkombination der Basislösungen in (1) bzw. (2) erhält.
97
KAPITEL 3. VEKTORRECHNUNG
Dieser Lösungssatz funktioniert einheitlich, egal ob die Koeffizienten a, b, die Nullstellen des charakteristischen Polynoms p(x) = x2 + ax + b oder die Anfangswerte A, B reell oder komplex sind.
Den reellen Fall a, b, A, B ∈ R wollen wir uns abschließend genauer ansehen. Dann ersetzt man im
Fall echt komplexer Nullstellen in p die oben angegebenen Basislösungen y1 und y2 gewöhnlich durch
1
1
2 (y1 + y2 ) = Re(y1 ) = Re(y2 ) und 2i (y1 − y2 ) = Im y1 = − Im y2 . Es ist klar, dass man zwischen beiden
Basislösungspaaren hin- und herrechnen kann. Man erhält dann folgende Typen von Basislösungen.
(Typ 1) überkritische Dämpfung (b2 > 4a), zwei verschiedene reelle Nullstellen λ1 6= λ2 für p:
y1 (x) = eλ1 x , y2 (x) = eλ2 x ,
(Typ 2) kritische Dämpfung, aperiodischer Grenzfall (b2 = 4a), eine doppelte reelle Nullstelle λ für p:
y1 (x) = eλx , y2 (x) = xeλx ,
(Typ 3) unterkrit. Dämpfung, Schwingfall (b2 < 4a), zwei konjugiert komplexe Nullstellen ρ ± iω für p:
y1 (x) = eρx cos(ωx), y2 (x) = eρx sin(ωx) (bzw. komplex y1 = e(ρ+iω)x , y1 = e(ρ−iω)x )
0.8
2.5
y1
2
0.6
0.4
1.5
y2
0.5
-0.5
Typ 1
0.5
1
-1
1.5
0.2
y2
0.5
2
(λ1 = 1/2, λ2 = −1)
1
-0.5
-0.2
1
-1
2
y1
1
1.5
2
-1
-0.5
y2
0.5
-1
1
1.5
2
y1
-0.4
Typ 2
(λ = −3/2)
Typ 3
(ρ = −1, ω = 6)
Abbildung 3.13: Graphen der Basislösungen von y 00 + ay + by = 0 für a, b ∈ R.
Ist zusätzlich zu den Konstanten a, b eine Funktion f gegeben, so heißt
y 00 + ay 0 + by = f,
d.h. y 00 (x) + ay 0 (x) + by(x) = f (x)
für alle x ∈ R.
eine lineare inhomogene Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten.
Hat man eine Lösung y0 dieser inhomogenen DGL gefunden, d.h. gilt y000 + ay00 + by0 = f , so ist für jede
Lösung y der homogenen DGL wegen
(y + y0 )00 + a(y + y0 )0 + b(y + y0 ) = (y 00 + ay 0 + by) + (y000 + ay00 + by0 ) = 0 + f = f
auch y + y0 eine Lösung. Hat man umgekehrt zwei Lösungen der inhomogenen DGL gefunden, so zeigt
man analog, dass deren Differenz die homogene DGL löst. Daher bilden die Lösungen der inhomogenen
DGL einen affinen Teilraum durch y0 der zum Lösungsraum der homogenen DGL gehört.
Fazit. Kennt man eine Lösung y0 der linearen inhomogenen Differentialgleichung 2. Ordnung y 00 + ay 0 +
by = f , so erhält man die Gesamtheit ihrer Lösungen, indem man zu y0 die Lösungen der zugehörigen
homogenen Differentialgleichung y 00 + ay 0 + b = 0 addiert.
Wie man eine solche spezielle Lösung y0 findet, verrät unsere Methode nicht. Gewöhnlich macht man
für y0 einen Ansatz in der Funktionenklasse zu der die Inhomogenität f gehört. Ist f beispielsweise ein
Polynom, so setzt man y0 als ein Polynom an und versucht Grad und Koeffizienten so zu wählen, dass
man eine Lösung erhält.
In 4.§3 und 4.§5 werden wir uns mit solchen Differentialgleichungen ausführlicher beschäftigen. Hier stand
die algebraische Struktur der Lösungsgesamtheit im Vordergrund, nicht die analytischen Eigenschaften
einzelner Lösungen.
§3. VEKTORRECHNUNG IM RN
98
2
Euklidische Vektorräume
2.1 Programm. Wir verwenden die grundlegenden Regeln für das Skalarprodukt und die Norm im R2 ,
um in einem beliebigen R-Vektorraum zu erklären, was ein Skalarprodukt und die zugehörige Norm ist.
Dann haben wir eine Längen- und Winkelmessung zur Verfügung.
2.2 Definition: Skalarprodukt. Für einen R-Vektorraum V nennen wir eine Abbildung, die jedem
Paar von Vektoren ~v , w
~ ∈ V einen Skalar h~v |wi
~ ∈ R zuordnet ein Skalarprodukt, wenn Folgendes gilt:
(SP1) Linearität: h~u|λ~v + µwi
~ = λh~u|~v i + µh~u|wi.
~
(SP2) Symmetrie: h~v |wi
~ = hw|~
~ v i.
(SP3) Positive Definitheit: h~v |~v i ≥ 0 und h~v |~v i = 0 genau dann, wenn ~v = ~0.
Achtung. Wir betrachten hier nur Vektorräume über R. An ein Skalarprodukt für einen C-Vektorraum
werden etwas andere Anforderungen gestellt (vgl. 5.§6.1).
2.3 Definition: Norm. Zu einem Skalarprodukt auf einem R-Vektorraum erklären wir die zugehörige
Norm durch
p
für ~v ∈ V.
k~v k := h~v |~v i
2.4 Definition: euklidischer Vektorraum. Ein R-Vektorraum zusammen mit einem Skalarprodukt
heißt euklidischer Vektorraum.
2.5 Der Rn als euklidischer Vektorraum. Auf dem Rn erklären wir das (Standard-)Skalarprodukt
durch
y1
x1
n
x2 y2
X
xk yk = x1 y1 + x2 y2 + · · · + xn yn ,
h . | . i :=
.. ..
k=1
xn
yn
Man verifiziert leicht, dass (SP1)–(SP3) erfüllt sind. Die zugehörige Norm (auch Standardnorm genannt)
lautet dann
√
k~xk = x1 2 + x2 2 + x3 2
x1 x1
!1/2
n
x2 x2
X
p
2
xk
= x1 2 + x2 2 + · · · + xn 2 .
k . k = . =
X
.
.
. .
k=1
xn xn
?
x3
x2
√
x1 2 + x2 2
2.6 Geometrische Deutung der Norm im Rn . Die geome2
trische Deutung der Norm k~xk im R als Abstand des Punktes X
x1
O
~ = ~x überträgt sich in den R3 wie nebenstemit Ortsvektor OX
Abbildung 3.14: Norm als
hend skizziert. Wir sollten darum keine Skrupel haben, und k~xk
Länge im R3 .
allgemein als Länge des Vektors ~x deuten.
2.7 Eigenschaften des Skalarprodukts. Für jedes Skalarprodukt (nicht nur für das eben erklärte
im Rn ) gelten folgende Regeln.
(a) hλ~u + µ~v |wi
~ = λh~u|wi
~ + µh~v |wi.
~
(b) h~v |~0i = 0 = h~0|~v i.
(c) h~v + w|~
~ v + wi
~ = h~v |~v i + 2h~v |wi
~ + hw|
~ wi.
~
99
KAPITEL 3. VEKTORRECHNUNG
Die erste Regel folgt aus (SP1) und (SP2), die zweite mit 0 = h~v |0~v i = h~v |~0i aus (SP1), die dritte aus
h~v + w|~
~ v + wi
~
(SP1)
(SP2)
h~v + w|~
~ v i + h~v + w|
~ wi
~ = h~v |~v + wi
~ + hw|~
~ v + wi
~
=
(SP1)
(SP2)
h~v |~v i + h~v |wi
~ + hw|~
~ v i + hw|
~ wi
~ = h~v |~v i + 2h~v |wi
~ + hw|
~ wi.
~
=
Wir haben noch eine vierte Rechenregel für allgemeine Skalarprodukte, die wir gesondert betrachten.
2.8 Cauchy-Schwarzsche Ungleichung. Für ein Skalarprodukt in einem R-Vektorraum V gilt
|h~v |wi|
~ ≤ k~v k · kwk
~
für alle ~v , w
~ ∈ V.
Beweis. Für w
~ = ~0 verschwinden beide Seiten der Ungleichung wegen h~v |wi
~ = 0 und kwk
~ 2 = hw|
~ wi
~ = 0.
~
Für w
~ 6= 0 folgt zunächst kwk
~ > 0 und mit quadratischen Ergänzung für zunächst beliebiges λ ∈ R dann
(SP3)
0
≤
=
(c), (SP1)
h~v + λw|~
~ v + λwi
~
=
k~v k2 + 2λh~v |wi
~ + λ2 kwk
~ 2
2
2 2
h~v |wi
~
h~v |wi
~
h~v |wi
~
k~v k2 kwk
~ 2 − h~v |wi
~ 2
λkwk
~ +
.
+ k~v k2 −
= λkwk
~ +
+
2
kwk
~
kwk
~
kwk
~
kwk
~
Für λ = −h~v |wi/k
~
wk
~ 2 verschwindet die Klammer und wir erhalten die gewünschte Ungleichung.
Beispiel. Das Standardskalarprodukt im Rn liefert uns die Ungleichung
!1/2 n
!1/2
n
n
X
X
X
2
2
xk yk ≤
xk
yk
.
k=1
k=1
k=1
2.9 Eigenschaften der Norm. Für eine zu einem Skalarprodukt gehörige Norm gelten folgende Rechenregeln.
(d) Positive Definitheit: k~v k ≥ 0 und k~v k = 0 genau für ~v = ~0.
(e) Homogenität: kλ~v k = |λ|k~v k.
(f) Dreiecksungleichung: k~v + wk
~ ≤ k~v k + kwk.
~
Die beiden ersten Regeln folgen schnell aus (SP3) bzw. (SP1). Die Dreiecksungleichung erhalten wir mit
der Cauchy-Schwarzschen Ungleichung durch Wurzelziehen aus
k~v + wk
~ 2 = h~v + w|~
~ v + wi
~ = h~v |~v i + 2h~v |wi
~ + hw|
~ wi
~ ≤ k~v k2 + 2k~v kkwk
~ + kwk
~ 2 = (k~v k + kwk)
~ 2.
Beispiel. Für die zum Standardskalarprodukt im Rn gehörige Norm folgt
!1/2
!1/2
!1/2
n
n
n
X
X
X
(xk + yk )2
≤
xk 2
+
yk 2
.
k=1
k=1
k=1
2.10 Längen- und Winkelmessung. Ist V ein euklidischer Vektorraum, so messen wir die Länge eines
Vektors ~v ∈ V mit der Norm k~v k und den Abstand zweier Vektoren ~v , w
~ ∈ V mittels k~v − wk.
~ Die Regeln
(d)–(f) erfüllen uns dabei unsere grundlegenden Wünsche für solch eine Längenmessung.
Für ~v , w
~ 6= ~0 können wir dank der Cauchy-Schwarzschen Ungleichung 2.8 den Winkel ](~v , w)
~ genauso
wie in §2.4.4 erklären, nämlich durch
cos ](~v , w)
~ :=
h~v |wi
~
.
k~v kkwk
~
Wegen h~v |wi
~ = hw|~
~ v i und cos(ϕ) = cos(−ϕ) ist unser so eingeführter Winkel ](~v , w)
~ jedoch nichtorientiert, d.h. ](~v , w)
~ = ](w,
~ ~v ). Für Winkel im R2 hatten wir in §2.4.4 eine Orientierung eingeführt (im R3
vgl. §4.1.4).
§3. VEKTORRECHNUNG IM RN
100
2.11 Kugeln in euklidischen Vektorräumen. Wir sollten es eher als nützlich, denn als seltsam
auffassen, dass wir die aus der Ebene wohlbekannten Begriffe wie Koordinaten, Länge, Abstand, Winkel
auf abstrakte Vektorräume übertragen haben. In diesem Sinne ist nichts Magisches daran, wenn wir
beispielsweise den durch
p
x1
2
2
2
S1 :=
∈ R | x1 + x2 = 1
x2
beschriebenen Einheitskreis und die durch
x1
p
S2 := x2 ∈ R3 | x1 2 + x2 2 + x3 2 = 1
x3
beschriebene Einheitskugel zur Einheitssphäre oder Einheitskugel im Rn
x1
x2
p
n
2
2
2
Sn−1 := . ∈ R | x1 + x2 + · · · + xn = 1
..
xn
verallgemeinern.
Darum nennen wir allgemein für einen euklidischen Vektorraum V zu gegebenen r > 0 und ~a ∈ V
• Kr (~a) := {~v ∈ V | k~v − ~ak < r} die Kugel (die offene Kugel oder das Kugelinnere),
• ∂Kr (~a) := {~v ∈ V | k~v − ~ak = r} die Sphäre (die Kugeloberfläche oder den Kugelrand ),
• Kr (~a) := {~v ∈ V | k~v − ~ak ≤ r} die abgeschlossene Kugel
mit Mittelpunkt ~a und Radius r. Kugeln im R2 nennen wir auch Kreise, Kugeln im R1 sind Intervalle.
3
Orthonormalsysteme
3.1 Worum geht es? Rechtwinkligkeit — Orthogonalität — ist eine wichtige Eigenschaft für die
Achsen eines Koordinatensystems, d.h. die Basisvektoren. Wir erklären nun allgemein, wie wir solche
Basen erhalten und Koordinaten von Vektoren bezüglich einer solchen Basis ausrechnen können.
3.2 Orthogonalität. Zwei Vektoren ~v , w
~ eines euklidischen Vektorraums V heißen orthogonal oder senkrecht, wenn h~v |wi
~ = 0. Wir schreiben dafür auch ~v ⊥ w.
~
Ein Vektor ~v ∈ V steht orthogonal oder senkrecht auf einer Teilmenge U ⊂ V , wenn ~v ⊥ w
~ für alle w
~ ∈ U.
Wir schreiben dann ~v ⊥ U . Die Menge
U ⊥ := {w
~ ∈ V | hw|~
~ ui = 0, für alle ~u ∈ U }
aller zu U senkrechter Vektoren nennen wir das orthogonale Komplement.
Der Nullvektor ~0 steht auf jedem Vektor senkrecht — das ist wieder eine nützliche Vereinbarung.
Beispiel. Im R3 steht der dritte Standardbasisvektor ~e3 senkrecht auf der von den ersten beiden Standardbasisvektoren ~e1 und ~e2 aufgespannten Ebene Span(~e1 , ~e2 ), das ist gerade die (x1 , x2 )-Ebene.
3.3 Kronecker-Symbol. Die Standardbasisvektoren ~e1 , . . . , ~en im Rn stehen paarweise aufeinander
senkrecht und haben alle die Länge 1. Wir drücken dies effizient mit dem Kronecker-Symbol δk,l aus:
(
1 für k = l,
h~ek |~el i = δk,l :=
0 für k 6= l.
101
KAPITEL 3. VEKTORRECHNUNG
3.4 Orthonormalsystem. Eine nichtleere Teilmenge U = {~vι |ι ∈ I} ⊂ V eines euklidischen Vektorraums V nennen wir ein Orthonormalsystem (kurz ONS ), wenn h~vk |~vl i = δk,l für beliebige k, l ∈ I. Dabei
ist I eine beliebige Indexmenge (z.B. I = {1, 2, . . . , n} oder I = N).
Ein Orthonormalsystem besteht also aus normierten Vektoren, die paarweise aufeinander senkrecht stehen. Es wird nicht verlangt, dass die Vektoren eine Basis von V bilden, d.h. V auch erzeugen. Dagegen
gilt immer:
Ein Orthonormalsystem ist linear unabhängig.
Beweis. Sind ~v1 . . . , ~vn Vektoren eines Orthonormalsystems mit λ1~v1 + · · · + λn~vn = ~0, so erhalten wir
nach Skalarproduktbildung mit ~vk für l = k, . . . , n nacheinander
0 = h~vk |~0i = h~vk |
n
X
λl~vl i =
l=1
n
X
λl h~vk |~vl i =
l=1
n
X
λl δk,l = λk .
l=1
Beispiel. Die Standardbasisvektoren ~e1 , . . . , ~en im Rn bilden ein Orthonormalsystem. Gleiches gilt für
jede nichtleere Teilmenge von ihnen.
3.5 Orthonormalbasis. Ist U ein Orthonormalsystem in einem euklidischen Vektorraum V und gilt
Span(U ) = V , so nennen wir U eine Orthonormalbasis (kurz ONB ).
3.6 Entwickeln nach Orthonormalbasen. Ist ~v1 , . . . , ~vn eine Orthonormalbasis in einem euklidischen
Vektorraum V , so besitzt jeder Vektor ~v ∈ V eine eindeutiger Darstellung als Linearkombination
~v =
n
X
h~vk |~v i~vk = h~v1 |~v i~v1 + · · · + h~vn |~v i~vn .
k=1
Die Koordinaten eines Vektors bezüglich einer ONB sind mit Hilfe des Skalarprodukts leicht berechenbar.
Beweis. Nach §21.20 besitzt jedes ~v ∈ V eine eindeutige Darstellung ~v = λ1~v1 + · · · + λn~vn . Durch
Skalarproduktbildung erhalten wir für k = 1, . . . , n wie behauptet
h~vk |~v i = h~vk |
n
X
λl~vl i =
n
X
l=1
l=1
λl h~vk |~vl i =
n
X
λl δk,l = λk
l=1
Beispiel. Durch Nachrechnen überzeugen wir uns davon, dass
√ √ 1/ 2
−1/ 2
√
√
~v1 :=
,
~v2 :=
1/ 2
1/ 2
eine Orthonormalbasis des R2 ist. Sie entsteht übrigens aus der Standardbasis ~e1 , ~e2 durch Drehen um
π/4 (vgl. §2.6.2): ~v1 = Dπ/4 (~e1 ), ~v2 = Dπ/4 (~e2 ). Hat ~v bezüglich der Standardbasis die Koordinaten 34 ,
d.h. gilt ~v = 3~e1 + 4~e2 , so folgt aus
1
7
1
h~v1 |~v i = √ 3 + √ 4 = √ ,
2
2
2
−1
1
1
h~v2 |~v i = √ 3 + √ 4 = √ ,
2
2
2
√
7/ 2
dass ~v bezüglich der neuen Basis die Koordinaten 1/√2 besitzt, d.h. ~v =
gilt nämlich
√ √ 3
7 1/ 2
1 −1/ 2
√ +√
√
=√
.
4
2 1/ 2
2 1/ 2
√7 ~
v
2 1
+
√1 ~
v .
2 2
Tatsächlich, es
3.7 Orthogonale Projektion. Wir haben in einem euklidischen Vektorraum V einen Unterraum U
sowie ein Orthonormalsystem ~v1 , . . . , ~vm mit U = Span(v~1 , . . . , ~vm ) (z.B. U = Span(~e1 , ~e2 ) im R3 ). Wie
in §2.5.4 suchen wir zu einem gegebenen Vektor ~a ∈ V denjenigen Vektor ~u ∈ U mit kürzestem Abstand.
§3. VEKTORRECHNUNG IM RN
102
Dieselbe Rechnung wie in §2.5.4 zeigt
2
m
m
m
X
X
X
2
λk~vk = k~ak2 −
h~vk |~ai2 +
(λk − h~vk |~ai) .
~a −
k=1
k=1
k=1
Dieser Ausdruck wird genau dann minimal, wenn wir λk = h~vk |~ai für k = 1, . . . , m wählen.
Ist U = Span(~v1 , . . . , . . . vm ) ein von einem Orthonormalsystem ~v1 , . . . , . . . vm aufgespannter Unterrraum
eines euklidischen Vektorraums, so ist der Punkt ~u ∈ U kürzesten Abstands zu ~a ∈ V gegeben durch
~u = P (~a) :=
m
X
h~vk |~aiv~k .
k=1
Für den Abstand gilt dann
~a
k~a − P (~a)k2 = k~ak2 −
m
X
h~vk |~ai2 .
U
~vn
k=1
P (~a)
Wir nennen P (~a) die orthogonale Projektion von ~a auf U .
~v1
Die orthogonale Projektion P (~a) ist charakterisiert durch
P (~a) ∈ U
und
~a − P (~a) ⊥ U.
Beweis. Für einen beliebigen Vektor ~v =
Pm
k=1
Abbildung 3.15: Orthogonale Projektion.
λk~vk ∈ U gilt einerseits
m
X
h~v |~a − P (~a)i = h
λk~vk | ~a −
h~vl |~ai~vl i =
λk h~vk |~ai −
h~vl |~ai h~vk |~vl i = 0,
| {z }
k=1
l=1
k=1
l=1
=δk,l
|
{z
}
m
X
m
X
m
X
=h~
vk |~
ai
d.h. ~a − P (~a) ⊥ U . Andererseits folgt aus ~u =
Pm
l=1
0 = h~vk |~a − ~ui = h~vk |~ai −
λl~vl ∈ U und ~a − ~u ⊥ U
n
X
l=1
d.h. ~u =
Pn
vk |~ai~vk
k=1 h~
λl h~vk |~vl i = h~vk |~ai − λk ,
| {z }
δk,l
= P (~a).
3.8 Orthonormalisieren. Das Orthonormalisierungsverfahren nach Gram-Schmidt bildet zu einem vorgegebenen Satz von linear unabhängigen Vektoren ~v1 , . . . , ~vn in einem euklidischen Vektorraum V ein
Orthonormalsystem ~u1 , . . . , ~un mit Span(~u1 , . . . , ~um ) = Span(~v1 , . . . , ~vm ) für m = 1, . . . , n. Insbesondere
kann man mit diesem Verfahren aus einer beliebigen Basis von V eine Orthonormalbasis erhalten.
Das Orthonormalisierungsverfahren für n Vektoren besteht aus einem Initialisierungschritt und n − 1
rekursiv abzuarbeitenden weiteren Schritten.
• Initialisierung: Normiere ~v1 , um ~u1 zu erhalten: ~u1 :=
1
v1 .
k~
v1 k ~
• Rekursion: Sind orthonormale Vektoren ~u1 , . . . , ~um mit Um := Span(~u1 , . . . , ~um ) = Span(~v1 , . . . , ~vm )
für ein m < n gefunden, so erhalte ~um+1 mittels:
Pm
– Bilden der orthogonaler Projektion P (~vm+1 ) = k=1 h~uk |~vm+1 i~uk von ~vm+1 auf Um ,
– Senkrechtmachen ~u0m+1 := ~vm+1 − P (~vm+1 ),
– Normieren ~um+1 = k~u0 1 k ~u0m+1 .
m+1
Man verifiziere selbst, dass das Verfahren das Gewünschte leistet.
103
KAPITEL 3. VEKTORRECHNUNG
Beispiel. Wir orthonormalisieren
1
1
,
1
0
im R2 . Zunächst mache man sich klar, dass die beiden Vektoren linear unabhängig sind (sie bilden sogar
eine Basis des R2 ). Das Orthonormalisierungsverfahren besteht hier aus den folgenden zwei Schritten:
Schritt 1: Normieren des ersten Vektors:
√ 1/ 2
1
1
√ .
=
~u1 = √
1/ 2
12 + 12 1
Schritt 2: Bilden der orthogonalen Projektion
√ √ 1/ 2
1/ 2
1
1
1/2
√
√
P(
|
i
=
,
)=h
0
0
1/2
1/ 2
1/ 2
Senkrechtmachen
1
1
1
1/2
1/2
− P(
)=
−
=
,
0
0
0
1/2
−1/2
Normieren
~u2 = p
Das zu
1
1
,
1
0
1
(1/2)2 + (−1/2)2
1/2
−1/2
=
√ 1/ 2
√ .
−1/ 2
gehörige Orthonormalsystem lautet also
√ √ 1/ 2
1/ 2
√ ,
√
1/ 2
−1/ 2
und ist eine Orthonormalbasis des R2 .
§4
1
Spezialitäten der Vektorrechnung im R3
Vektorprodukt
1.1 Zielsetzung. Zu zwei gegebenen linear unabhängigen
Vektoren ~u, ~v ∈ R3 wollen wir einen dritten Vektor w
~ ∈ R3
mit folgenden drei Eigenschaften finden.
w
~
~
~v w
~v
(1) w
~ steht senkrecht auf ~u und ~v , d.h. w
~ ⊥ Span(~u, ~v ).
(2) Die Länge von w
~ ist die Fläche des von ~u und ~v aufgespannten Parallelogramms, d.h. kwk
~ = k~ukk~v k sin ϕ
mit ϕ = ](~u, ~v ) ∈]0, π[.
(3) ~u, ~v , w
~ bilden ein positiv orientiertes Dreibein“.
”
~u
~u
Abbildung 3.16: Dreifingerregel und positiv orientiertes Dreibein im R3 .
In der Physik finden sich derartige Aufgabenstellungen beim Drehimpuls, der Bewegung eines starren
Körpers oder bei der Bewegung eines Elektrons im Magnetfeld.
1.2 Definition: Vektorprodukt. Das Vektorprodukt oder Kreuzprodukt zweier Vektoren
u1
v1
~u = u2 , ~v = v2 ∈ R3
u3
v3
§4. SPEZIALITÄTEN DER VEKTORRECHNUNG IM R3
104
ist definiert durch
u1
v1
u2 v3 − u3 v2
~u × ~v = u2 × v2 := u3 v1 − u1 v3 .
u3
v3
u1 v2 − u2 v1
Es wird manchmal auch mit [~u, ~v ], [~u~v ] oder ~u ∧ ~v bezeichnet.
Mit dem Levi-Civita-Tensor
für (k, l, m) = (1, 2, 3), (2, 3, 1), (3, 1, 2),
1
εklm := −1 für (k, l, m) = (1, 3, 2), (3, 2, 1), (2, 1, 3),
0
sonst,
fürk, l, m ∈ {1, 2, 3}
erhält das Vektorprodukt die Darstellung
~u × ~v =
3
X
εklm uk vl~em .
k,l,m=1
1.3 Eigenschaften des Vektorprodukts.
(a) ~u × ~v = ~0 genau dann, wenn ~u und ~v linear abhängig.
(b) Span(~u × ~v ) = Span(~u, ~v )⊥ falls ~u und ~v linear unabhängig, d.h. die zu ~u und ~v senkrechten Vektoren
sind dann gerade die Vielfachen von ~u × ~v .
p
(c) k~u × ~v k = k~uk · k~v k · sin ϕ = k~uk2 k~v k2 − h~u|~v i2 für ~u, ~v 6= ~0, wobei ϕ ∈ [0, π] der Winkel zwischen ~u
und ~v ist.
(d) Antisymmetrie: ~u × ~v = −~v × ~u.
(e) Linearität: (λ~u + µ~v ) × w
~ = λ~u × w
~ + µ~v × w.
~
(f) Graßmannscher Entwicklungssatz : (~u × ~v ) × w
~ = h~u|wi~
~ v − h~v |wi~
~ u.
(g) Jacobi-Identität: (~u × ~v ) × w
~ + (~v × w)
~ × ~u + (w
~ × ~u) × ~v = ~0.
Beweis. Zu (a): Sind ~u und ~v linear abhängig, so ist nach §3.1.16 ~u ein Vielfaches von ~v oder umgekehrt.
Im ersten Fall gilt ~u = λ~v , d.h. uk = λvk für k = 1, 2, 3 und damit ~u × ~v = ~0. Der zweite Fall erledigt
sich analog. Gilt umgekehrt ~u × ~v = ~0, so sind ~u und ~v sicher linear abhängig, wenn ~u = ~0. Andernfalls
ist etwa u1 6= 0 (die anderen beiden Möglichkeiten behandle man analog) und wegen u1 v2 = u2 v1 und
u3 v1 = u1 v3 dann v1 = uv11 u1 , v2 = uv11 u2 , v3 = uv11 u3 , d.h. ~v = uv11 ~u.
Zu (b): Wir berechnen h~u × ~v |~ui = u1 u2 v3 − u1 u3 v2 + u2 u3 v1 − u1 u2 v3 + u1 u3 v2 − u2 u3 v1 = 0 und
analog h~u × ~v |~v i = 0. Dies zeigt ~u, ~v ⊥ ~u × ~v und dann auch Span(~u × ~v ) ⊆ Span(~u, ~v )⊥ . Sind ~u
und ~v linear unabhängig, gilt auch die umgekehrte Inklusion: Dann ist ~u × ~v 6= ~0 gemäß (a), es gilt
also etwa u1 v2 − u2 v1 6= 0 (die anderen beiden Möglichkeiten behandle man analog). Für einen Vektor
~x ∈ Span(~u, ~v )⊥ gilt dann h~u|~xi = 0 = h~v |~xi. Das lässt sich in als Gleichungssystem u1 x1 + u2 x2 = −u3 x3
und v1 x1 + v2 x2 = −v3 x3 schreiben und dieses Gleichungssystem hat die eindeutig bestimmte Lösung
−u3 v2
−u1 v3
−u2 v1
3
x3 , x2 = uu13 vv21 −u
x3 . Zusammen mit x3 = uu11 vv22 −u
x3 folgt ~x = u1 v2x−u
~u × ~v , d.h.
x1 = uu12 vv23 −u
2 v1
2 v1
2 v1
2 v1
~x ∈ Span(~u × ~v ).
Zu (c) erhält man durch Wurzelziehen aus
k~uk2 · k~v k2 · sin2 ϕ
= k~uk2 · k~v k2 · (1 − cos2 ϕ) = k~uk2 · k~v k2 − h~u|~v i2
=
(u1 2 + u2 2 + u3 2 )(u1 2 + u2 2 + u3 2 ) − (u1 v1 + u2 v2 + u3 v3 )2
=
(u2 v3 − u3 v2 )2 + (u3 v1 − u1 v3 )2 + (u1 v2 − u2 v1 )2 = k~u × ~v k2 .
Die Regeln (d)–(g) beweist man ebenfalls durch fleißiges Rechnen.
Dank (b) und (c) erfüllt unser Vektorprodukt die Forderungen (1) und (2). Aber wie steht es mit (3)?
Nun, wir drehen formal den Spieß um und definieren positiv orientiert“ mit Hilfe des Kreuzprodukts.
”
105
KAPITEL 3. VEKTORRECHNUNG
1.4 Orientierung von Orthonormalsystemen im R3 . Bilden drei Vektoren ~v1 , ~v2 , ~v3 ein Orthonormalsystem im R3 so gilt entweder
~v3 = ~v1 × ~v2
oder
~v3 = −~v1 × ~v2 .
Im ersten Fall sprechen wir von einem positiv orientierten Orthonormalsystem oder Rechtssystem, im
zweiten von einem negativ orientierten Orthonormalsystem oder Linkssystem.
1.5 Ebene und Normale. Ist E = Span(~v , w)
~ eine Ursprungsebene im R3 , welche von den beiden
3
Richtungsvektoren ~v , w
~ ∈ R aufgespannt wird, so bilden die zu E senkrechten Vektoren
E ⊥ = {~a ∈ R3 | h~a, ~ui = 0 für alle ~u ∈ E}
die Normale von E. Nach 1.3 (b) gilt
E ⊥ = Span(~n)
mit ~n :=
1
~v × w.
~
k~v × wk
~
Wir nennen ~n den Einheitsnormalenvektor zu E.
Die zu ~n senkrechten Vektoren sind gerade wieder die Vektoren in E, d.h. (E ⊥ )⊥ = E.
Beweis. Die Inkusion E ⊆ (E ⊥ )⊥ folgt sofort aus der Definition des orthogonalen Komplements 3.2.
Wir müssen also noch (E ⊥ )⊥ ⊆ E nachweisen. Sei ~v ∈ (E ⊥ )⊥ . Dann gilt ~v ⊥ ~n. Für die orthogonale
Projektion P auf E gilt ~v − P (~v ) ⊥ E, also ~v − P (~v ) = λ~n mit einem λ ∈ R. Wegen k~v − P (~v )k2 =
h~v −P (~v )|~v −P (~v )i = h~v −P (~v )|λ~ni = λh~v |~ni−λhP (~v )|~ni = 0 folgt ~v −P (~v ) = ~0 und damit ~v = P (~v ) ∈ E.
Zur Übung leite man aus obigen Satz und seinem Beweis die folgende Aussage ab.
Normale
1.6 Hessesche Normalform. Ist E = ~a +Span(~v , w)
~ eine Ebene
im R3 durch ~a aufgespannt von ~v und w,
~ so gilt
E = {~u ∈ R3 | h~n|~ui = h~n|~ai}
mit ~n :=
h~n|~ui = h~n|~ai
1
~v × w.
~
k~v × wk
~
~a
Der Abstand eines Punktes ~x ∈ R3 von E ist gegeben durch
|h~n|~x − ~ai|.
~n
~0
Die obige Darstellung von E nennen wir Hessesche Normalform
von E.
2
h~n|~ui = h~n|~0i = 0
Abbildung 3.17: Parallele
Ebenen und Normale.
Spatprodukt
2.1 Definition: Spatprodukt. Für drei Vektoren
~u, ~v , w
~ ∈ R3 nennen wir
det(~u, ~v , w)
~ := h~u × ~v |wi
~
das Spatprodukt oder die Determinante von ~u, ~v , w.
~
w
~
~v
~u
Abbildung 3.18: Zum Spatprodukt im R3 .
2.2 Eigenschaften.
(a) Antisymmetrie: det(~u, ~v , w)
~ = −det(~v , ~u, w),
~ det(~u, ~v , w)
~ = −det(w,
~ ~v , ~u), det(~u, ~v , w)
~ = −det(~u, w,
~ ~v ),
d.h. das Spatprodukt ändert sein Vorzeichen beim Vertauschen zweier Einträge.
§4. SPEZIALITÄTEN DER VEKTORRECHNUNG IM R3
106
(b) Zyklische Symmetrie: det(~u, ~v , w)
~ = det(~v , w,
~ ~u) = det(w,
~ ~u, ~v ), d.h. das Spatprodukt bleibt gleich,
wenn man die Einträge zyklisch verschiebt.
(c) Linearität: det(λ1 ~u1 + λ2 ~u2 , ~v , w)
~ = λ1 det(~u1 , ~v , w)
~ + λ2 det(~u2 , ~v , w),
~ analog für die zweite oder die
dritte Spalte.
(d) Cramersche Regel : det(~u, ~v , w)
~ = u1 v2 w3 + v1 w2 u3 + w1 u2 v3 − w1 v2 u3 − v1 u2 w3 − u1 w2 v3 .
(e) det(~u, ~v , w)
~ = 0 genau dann, wenn ~u, ~v , w
~ ∈ R3 linear abhängig sind.
(f) | det(~u, ~v , w)|
~ ist das Volumen des von ~u, ~v , w
~ aufgespannten Spatkristalls.
Die Cramersche Regel kann man sich symbolisch in der Form
•◦◦ ◦•◦ ◦◦• ◦◦• ◦•◦ •◦◦
•◦ ◦◦• •◦◦ ◦•◦ •◦◦ ◦◦•
det(~u, ~v , w)
~ = +◦
◦ ◦ • + • ◦ ◦ + ◦ • ◦ − • ◦ ◦ − ◦ ◦ • − ◦ • ◦.
merken. Unter Verwendung des Levi-Civita-Tensors gilt
u1 v1 w1 3
X
det(~u, ~v , w)
~ = u2 v2 w2 =
εklm uk vl wm .
u3 v3 w3 k,l,m=1
Beweis. (a) folgt sofort aus der Antisymmetrie des Kreuzprodukts und der Symmetrie des Skalarprodukts. Anschließend erhält man (b) durch zweimalige Anwendung von (a). Die Definitionen von Vektorund Skalarprodukt bzw. deren Linearität liefern (d) bzw. (c).
Zu (e): Genau dann sind drei Vektoren im R3 linear abhängig, wenn einer von ihnen eine Linearkombination der beiden anderen ist. Wir nennen den einen ~u, die beiden anderen ~v und w.
~ Mit 1.5 und 1.3 (b)
gilt dann
~u ∈ Span(~v , w)
~
⇔
~u ∈ Span(~v × w)
~ ⊥
⇔
~u ⊥ Span(~v × w)
~
⇔
h~u|~v × wi
~ = 0.
Zu (f): Die Grundfläche F des von ~u, ~v , w
~ aufgespannten Spatkristalls ist nach 1.3 (c) gegeben durch
F = k~u ×~v k. Seine Höhe h erhalten wir, indem wir den Abstand von w
~ zu der von ~u und ~v aufgespannten
1
Grundfläche ermitteln. Dank 1.6 folgt h = |h~n|wi|
~ mit ~n = k~u×~
~
u
×
~
v
und wir erhalten für das Volumen
vk
1
V = F h = k~u × ~v k · h
~u × ~v | wi
~ = |h~u × ~v |wi|.
~
k~u × ~v k
3
Drehungen im Raum
3.1 Zylinderkoordinaten. Jeder Vektor ~x im
R3 r Span(~e3 ) besitzt eine eindeutige Darstellung der
Form
x1
ρ cos ϕ
x2 = ρ sin ϕ
mit ρ > 0, ϕ ∈ [0, 2π[.
x3
x3
Diese Darstellung nennen wir Zylinderkoordinaten
von ~x bezüglich der x3 -Achse.
x3
~x
ρ
x2
ϕ
)
x1
Abbildung 3.19: Zylinderkoordinaten.
Existenz und Eindeutigkeit dieser Darstellung erhalten wir sofort aus den Polarkoordinaten in C bzw. R2
(vgl. 2.§2.5.16). Deswegen rechnet man auch mittels
(
p
für x2 ≥ 0,
arccos xρ1
2
2
ρ := x1 + x2 ,
ϕ :=
x1
2π − arccos ρ für x2 < 0,
von kartesischen Koordinaten (x1 , x2 , x3 ) in Zylinderkoordinaten (ρ, ϕ, x3 ) um.
107
KAPITEL 3. VEKTORRECHNUNG
Analog führt man Zylinderkoordinaten bezüglich der x1 - oder x2 -Achse ein. Die Achse muss man jeweils
ausnehmen, wenn man Eindeutigkeit von ρ und ϕ haben will. Für Punkte auf der Achse würde man ρ = 0
setzen und könnte dann ϕ beliebig wählen.
Zylinderkoordinaten sind nützlich, wenn bezüglich der zugehörigen Achse Drehsymmetrie vorliegt, d.h.
eine Konfiguration (z.B. ein Körper) nach Drehung um die Achse in sich selbst übergeht.
3.2 Drehung um eine Koordinatenachse. Eine Drehung
D~e3 ,ϕ mit dem Ursprung als Drehpukt um die x3 -Achse um den
Winkel ϕ wirkt wie eine ebene Drehung um ϕ in der (x1 , x2 )-Ebene
und lässt die x3 -Koordinate fest.
x1
x1 cos ϕ − x2 sin ϕ
x2 7→ x1 sin ϕ + x2 cos ϕ .
D~e3 ,ϕ : R3 → R3 ,
x3
x3
ϕ
Die Basisvektoren ~e1 , ~e2 , ~e3 des alten Koordinatensystems werden
dabei in
~e1 0 = cos ϕ~e1 − sin ϕe~2 ,
~e2 0 = sin ϕ~e1 + cos ϕe~2 ,
~e3 0 = ~e3
Abbildung 3.20: Drehung um
die x3 -Achse.
übergeführt. Analog führen wir Drehungen D~e2 ,ϕ und D~e1 ,ϕ um die x2 - bzw. die x1 -Achse ein.
Diese Drehungen wollen wir nun im Matrizenkalkül beschreiben.
3.3 (3 × 3)-Matrizen. Für (3 × 3)-Matrizen erklären wir analog zum (2 × 2)-Fall §2.3.1 das Produkt einer
Matrix A mit einem Vektor ~x durch
a11 a12 a13
a11 x1 + a12 x2 + a13 x3
x1
A~x = a21 a22 a23 x2 := a21 x1 + a22 x2 + a23 x3 ,
x3
a31 a32 a33
a31 x1 + a32 x2 + a33 x3
und das Produkt zweier (3 × 3)-Matrizen A, B durch
a11 a12 a13
b11 b12 b13
AB = a21 a22 a23 b21 b22 b23
a31 a32 a33
b31 b32 b33
a11 b11 + a12 b21 + a13 b31 a11 b12 + a12 b22 + a13 b32
= a21 b11 + a22 b21 + a23 b31 a21 b12 + a22 b22 + a23 b32
a31 b11 + a32 b21 + a33 b31 a31 b12 + a32 b22 + a33 b32
a11 b13 + a12 b23 + a13 b33
a21 b13 + a22 b23 + a23 b33 .
a31 b13 + a32 b23 + a33 b33
Das merkt man sich am besten wieder in der Form die Spalten der Produktmatrix AB erhält man,
”
indem man die Spaltenvektoren von B an A multipliziert“:
AB = A(~b1 , ~b2 , ~b3 ) = (A~b1 , A~b2 , A~b3 ).
Auch hier kommt es beim Bilden des Matrizenprodukts auf die Reihenfolge an.
3.4 Drehmatrizen im Raum. Nun können wir jede der drei Drehungen D~ek ,ϕ , k = 1, 2, 3, als ein
Matrizen-Vektor-Produkt
D~ek ,ϕ (~x) = Uk,ϕ ~x
schreiben mit
U1,ϕ
1
:= 0
0
0
cos ϕ
sin ϕ
0
cos ϕ
− sin ϕ , U2,ϕ := 0
cos ϕ
sin ϕ
0 − sin ϕ
cos ϕ
1
0 , U3,ϕ := sin ϕ
0 cos ϕ
0
− sin ϕ
cos ϕ
0
0
0 .
1
Die Spalten von Uk,ϕ enthalten dann gerade die Koordinaten der Bilder der Basisvektoren unter der
Drehung D~ek ,ϕ .
§4. SPEZIALITÄTEN DER VEKTORRECHNUNG IM R3
108
Durch Nachrechnen verifiziert man, dass die Spaltenvektoren aller drei Drehmatrizen Uk,ϕ normiert sind
und jeweils paarweise aufeinander senkrecht stehen. Jede Drehung D~ek ,ϕ bildet also eine Orthonormalbasis
des R3 auf eine Orthonormalbasis ab (vgl. 5.§6.3.8).
3.5 Polarkoordinaten im Raum und Kugelkoordinaten. Wir wollen einen Vektor ~x durch eine
Drehung um die x3 -Achse und eine anschließende Drehung um die x2 -Achse in den ersten Standardbasisvektor ~e1 überführen. Hierzu muss ~x offensichtlich normiert sein. Wir gehen hierzu folgendermaßen
vor.
Schritt 1. Falls ~x auf der x3 -Achse liegt, d.h. falls x1 = x2 = 0, so setzen wir ϕ := 0. Andernfalls berechnen
wir den
√ Polarkoordinatenwinkel ϕ ∈ [0, 2π[ von (x1 , x2 ), d.h. x1 = ρ cos ϕ und x2 = ρ sin ϕ mit
ρ = x1 2 + x2 2 > 0, drehen mit D~e3 ,−ϕ und erhalten
x1 cos(−ϕ) − x2 sin(−ϕ)
ρ
ρ cos2 ϕ + ρ sin2 ϕ
D~e3 ,−ϕ (~x) = x1 sin(−ϕ) + x2 cos(−ϕ) = −ρ cos ϕ sin ϕ + ρ sin ϕ cos ϕ = 0 .
x3
x3
x3
In jedem Fall haben wir also ~x durch eine Drehung um −ϕ um die x3 -Achse in
√
x1 2 + x2 2
~y := D~e3 ,−ϕ (~x) =
0
x3
übergeführt.
Schritt 2. Aus k~xk2 = x1 2 + x2 2 + x3 2 = 1 folgt k~y k = y1 2 + y3 2 = 1. Wegen y1 ≥ 0 hat (y1 , y3 ) eine
Polarkoordinatendarstellung der Form y1 = cos θ, y3 = sin θ mit θ ∈ [−π/2, π/2]. Die Drehung
D~e2 ,−θ führt ~y daher in ~e1 über,
y1 cos(−θ) − y3 sin(−θ)
cos2 θ + sin2 θ
=
= ~e1 .
0
D~e2 ,−θ (~y ) =
0
y1 sin(−θ) + y3 cos(−θ)
− cos θ sin θ + sin θ cos θ
~y
~x
ϕ
~y
~x
Abbildung 3.21: Die zwei Teilschritte der Drehung von ~x in ~e1 .
θ
~e1
109
KAPITEL 3. VEKTORRECHNUNG
Umgekehrt wird r~e1 für r > 0 durch die Drehungen D~e2 ,θ und D~e3 ,ϕ in r~x übergeführt,
cos ϕ − sin ϕ 0
cos θ 0 − sin θ
r
1
0 0
D~e3 ,ϕ (D~e2 ,θ (r~e1 )) = U3,ϕ U2,θ ~e1 = sin ϕ cos ϕ 0 0
0
0
1
sin θ 0 cos θ
0
cos ϕ − sin ϕ 0
r cos θ
r cos ϕ cos θ
= sin ϕ cos ϕ 0 0 = r sin ϕ cos θ .
0
0
1
r sin θ
r sin θ
Auf diese Weise können wir jedem Punkt im R3 außer dem Ursprung drei Zahlen r > 0, θ ∈ [−π/2, π/2]
und ϕ ∈ [0, 2π[ zuordnen. Eine genaue Inspektion unseres Vorgehens zeigt, dass diese Zuordnung eindeutig
wird, wenn wir Punkte auf der x3 -Achse ausschließen. Dann gilt sogar θ ∈] − π/2, π/2[.
Fazit. Jeder Vektor ~x im R3 r Span(~e3 ) besitzt eine eindeutige Darstellung der Form
x1
r cos ϕ cos θ
x2 = r sin ϕ cos θ mit r > 0, θ ∈] − π , π [, ϕ ∈ [0, 2π[.
2 2
x3
r sin θ
Diese Darstellung nennen wir Polarkoordinaten im Raum von ~x. Der Winkel ϕ wird geographische Länge,
der Winkel θ geographische Breite genannt.
In der Physik ersetzt man θ gerne durch
π
2
− θ. Dann gilt θ ∈]0, π[ und wir erhalten die Kugelkoordinaten.
3
Jeder Vektor ~x im R r Span(~e3 ) besitzt eine eindeutige Darstellung der Form
x1
r cos ϕ sin θ
x2 = r sin ϕ sin θ mit ρ > 0, θ ∈]0, π[, ϕ ∈ [0, 2π[.
x3
r cos θ
r
θ
ϕ
r θ
ϕ
Abbildung 3.22: Polarkoordinaten im Raum und Kugelkoordinaten.
Um Verwechslungen zu vermeiden, haben wir zuvor von Polarkoordinaten im Raum“ gesprochen obwohl
”
auch hierfür die Bezeichnung Kugelkoordinaten“ üblich ist.
”
3.6 Allgemeine Drehungen. Eine Drehung um eine vorgegebene Achse ~v beschreibt man am besten
dadurch, dass man ~v zu ~n normiert, diesen Vektor als Normalenvektor einer Ebene auffasst und selbige
durch zwei orthonormierte Vektoren ~v und w
~ aufspannt. Dann bildet ~v , w,
~ ~n (ggf. nach Vertauschung
von ~v und w)
~ eine positiv orientierte Orthonomalbasis, bezüglich der die Drehung wie in 3.2 beschrieben
werden kann.
110
Kapitel 4
Analysis, vornehmlich in einer
Variablen
Wir entwickeln nun die Analysis, d.h. vor allem die Differential- und Integralrechnung in einer und
mehreren Variablen.
In diesem Kapitel liegt unser Hauptaugenmerk auf Funktionen einer (reellen) Variablen. Wo es problemlos
möglich ist, behandeln wir zugleich komplex- oder vektorwertige Funktionen, manchmal auch Funktionen
einer komplexer oder mehrerer reeller Variablen. Dies geschieht, um den Bedürfnissen der Physik nach
möglichst schnell möglichst viel“ Analysis gerecht zu werden. Wer sich dabei unsicher führt, der ziehe
”
sich auf den reellen Fall zurück, den wir auch immer in den Vordergrund stellen werden.
Diejenigen Teile der Analysis, in denen sich Funktionen mehrerer Variablen stark von denen einer Variablen unterscheiden, müssen wir auf Kapitel 6 zurückstellen — vor allem deswegen, weil wir dabei
mehr Wissen aus der linearen Algebra (Kapitel 5) benötigen, als es die Vektorrechnung aus Kapitel 3
bereitstellt.
Getreu unserem Motto man spart sich Kummer mit Funktionen, wenn man nicht nur an die Abbildungs”
vorschrift, sondern immer auch an den Definitionsbereich denkt“ beginnen wir mit Grundbegriffen.
§1
1
Grundlegendes über Raum, Zeit und Funktionen
Folgen von Vektoren
1.1 Definition: Grenzwert. Eine Folge (~xk )k von Vektoren im Rn konvergiert gegen einen Vektor
~x ∈ Rn oder hat den Grenzvektor ~x, in Zeichen
lim ~xk = ~x
k→∞
oder
~xk → ~x für k → ∞,
wenn zu jedem ε > 0 ein kε ∈ N existiert mit k~xk − ~xk < ε für alle k ≥ kε .
Wir haben also die Definitionen 1.§2.6.1 und 1.§3.3.1 für reelle bzw. komplexe Zahlenfolgen wörtlich —
bis auf die Ersetzung des Betrags durch die Norm — übertragen.
1.2 Konvergenz und komponentenweise Konvergenz. Eine Folge (~xk )k von Vektoren im Rn konvergiert genau dann, wenn alle n Komponentenfolgen (xk,l )k , l = 1, . . . , n konvergieren. Die Grenzwerte
der Komponentenfolgen sind dann die Komponenten des Grenzvektors:
xk,1
limk→∞ xk,1
..
lim ... =
.
.
k→∞
xk,n
limk→∞ xk,n
111
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Beweis. Wir betrachten die Differenzvektoren ~xk − ~x und müssen zeigen, dass selbige genau dann gegen
den Nullvektor konvergieren, wenn alle Komponentenfolgen Nullfolgen sind. Für die Norm eines Vektors
~v ∈ Rn gilt aber die Abschätzung
|vk | ≤ k~v k =
p
v1 2 + · · · + vn 2 ≤ |v1 | + · · · + |vn |
für k = 1, . . . , n,
mit der wir vom Betrag einer Komponente auf die Norm und umgekehrt schließen können. (Die obere
Schranke für k~v k bedeutet geometrisch, dass eine Kugel in einem achsenparallelen Würfel liegt.)
1.3 Was bleibt erhalten? Dank der Äquivalenz von Konvergenz und komponentenweiser Konvergenz
erhalten wir aus den Rechenregeln für konvergente Zahlenfolgen Rechenregeln für konvergente Folgen von
Vektoren.
Sind (~xk )k und (~yk )k Folgen von Vektoren im Rn mit limk→∞ ~xk = ~x und limk→∞ ~yk = ~y , so gilt.
(a) (~xk )k ist beschränkt (im Sinne der Norm),
(b) jede Teilfolge von (~xk )k konvergiert gegen ~x,
(c) limk→∞ (λ~xk + µ~yk ) = λ~x + µ~y für beliebige Skalare λ, µ ∈ R,
(d) limk→∞ k~xk k = k~xk,
(e) limk→∞ h~xk |~yk i = h~x|~y i,
Wie in 1.§3.3.5 bzw. 1.§3.3.6 erhalten wir ferner:
1.4∗ Satz von Bolzano-Weierstraß im Rn . Jede (bezüglich der Norm) beschränkte Folge von Vektoren
im Rn enthält eine konvergente Teilfolge.
1.5∗ Cauchy-Folgen im Rn . Eine Folge (~xk )k von Vektoren im Rn heißt Cauchy-Folge, wenn es zu
jedem ε > 0 ein kε ∈ N gibt mit |ak − al | < ε für alle k, l ∈ N mit k, l ≥ kε .
Eine Folge von Vektoren im Rn ist genau dann eine Cauchy-Folge, wenn sie konvergiert.
1.6 Zusammenfassung. Konvergenz von Folgen in R, C und Rn wird nach demselben Strickmuster behandelt. Leichte Unterschiede bestehen nur bei den für die Folgeglieder zur Verfügung stehenden
Rechenoperationen: Addition, Subtraktion, Multiplikation und Division in R und C, Vektoraddition,
Skalarmultiplikation und Skalarprodukt im Rn . Der Betrag in R und C bzw. die Norm im Rn stellen
jeweils eine Abstandsmessung zur Verfügung und erlauben damit die Einführung des Grenzwertbegriffs.
2
Kurven, Skalar- und Vektorfelder
2.1 Reell- komplex- oder vektorwertige Funktionen einer oder mehrerer Variablen. Je nachdem, ob der Wertevorrat einer Funktion in R, C oder Rm liegt, nennen wir die Funktion reell-, komplexoder vektorwertig. Ist sie auf einer Teilmenge von R, C bzw. Rn definiert, so sprechen wir von einer
Funktion einer reellen oder einer komplexen Variablen bzw. mehrerer Variablen.
Eine vektorwertige Funktion bezeichnen wir mit f~ statt f . Den Funktionswert an der Stelle x schreiben
wir dann als Koordinatenvektor f~(x) = (f1 (x), . . . , fm (x)) und nennen die so definierten Funktionen
fl : D → R, l = 1, . . . , m, die Komponentenfunktionen von f~. (Ist f~ dabei eine Funktion mehrerer
Variablen, so denke man sich dabei über die Variable x jeweils einen Vektorpfeil.)
112
§1. GRUNDLEGENDES ÜBER RAUM, ZEIT UND FUNKTIONEN
2.2 Beispiele für Kurven. Wenn ϕ in
f~(ϕ) := (r cos ϕ, r sin ϕ)
(im Komplexen ist das reiϕ ) von 0 nach 2π läuft, so bewegt sich f~(ϕ) in der Ebene von (r, 0) beginnend einmal im
Gegenuhrzeigersinn auf der Einheitskreislinie vom Radius r
um den Ursprung. Für
F~ (ϕ) := (r cos ϕ, r sin ϕ, cϕ)
passiert in die (x1 , x2 )-Ebene dasselbe, während sich die
x3 -Koordinate um 2πc erhöht. Wir erhalten eine Schraubenlinie um die x3 -Achse mit Radius r und Ganghöhe 2πc.
Abbildung 4.1: Schraubenlinie
im Raum.
2.3 Parameterdarstellungen und Spur einer Kurve. Eine vektorwertige Funktion f auf einem
Intervall I ⊂ R mit Werten im Rm nennen wir Parametrisierung einer Kurve γ oder Weg im Rm . Die
Wertemenge f (I) ⊂ Rm heißt Spur der Kurve γ. Für m = 2 ist der komplexwertigen Fall eingeschlossen.
Wir interpretieren die Variable am besten als Zeit, den Funktionswert als Ort und bezeichnen sie mit t und
~x(t). Für I = [t0 , t1 ] nennen wir ~x(t0 ) Anfangspunkt und ~x(t1 ) Endpunkt von γ. Die Parametrisierung ~x
gibt den Zeitplan an, gemäß dem wir uns auf der Kurve γ vom Anfangs- zum Endpunkt bewegen.
Beispiel. ~x(t) := (cos t, sin t) (im Komplexen x(t) := eit ). Für I = [0, 2π] oder I = [2π, 4π] wird
die Einheitskreislinie einmal im Gegenuhrzeigersinn durchlaufen mit Anfangs- und Endpunkt (1, 0). Für
I = [−π, π] ist (−1, 0) der Anfangs- und Endpunkt, für I = [0, 4π] beginnen und enden wir wieder in (1, 0),
laufen aber zweimal im Gegenuhrzeigersinn. Ersetzen wir ~x(t) := (cos 2πt, sin 2πt), so genügt I = [0, 1],
um einmal im Gegenuhrzeigersinn um den Kreis zu laufen, für ~x(t) := (− cos 2πt, sin 2πt), laufen wir im
Uhrzeigersinn. Jedes Mal ist die Spur die Einheitskreislinie.
Fazit. Wir müssen unterscheiden zwischen einer Kurve, ihrer Spur und ihren Parametrisierungen.
2.4 Orientierte Kurve, Parameterwechsel. Zwei Wege ~x : I = [t0 , t1 ] → Rm und ~y : J = [τ0 , τ1 ] →
Rm heißen Parametrisierungen derselben Kurve γ im Rm , wenn es eine streng monoton wachsende surjektive Abbildung ϕ : I → J gibt mit ϕ(t0 ) = τ0 , ϕ(t1 ) = τ1 und ~x = ~y ◦ ϕ, d.h. ~x(t) = ~y (ϕ(t)) für alle
t ∈ I. Wir nennen dann ϕ einen Parameterwechsel für γ.
Einen Parameterwechsel stellen wir uns als Durchlaufen derselben Kurve mit anderem Zeitplan vor.
Anfangs- und Endpunkt sowie Durchlaufungsrichtung werden beibehalten. Das wird durch die Bedingungen ϕ(t0 ) = τ0 und ϕ(t1 ) = τ1 sowie die Monotonie von ϕ sichergestellt.
Alle Parametrisierungen einer Kurve γ haben denselben Anfangs- und Endpunkt sowie dieselbe Spur.
Eine Kurve γ im Rm ist also mehr“ als die Wertemenge f~(I) einer ihrer Parametrisierungen f~, aber
”
weniger“ als f~. Wir stellen sie uns als ihre Spur zusammen mit einer Vereinbarung über die Durchlau”
fungsrichtung vor und sprechen von einer (orientierten) Kurve.
~x(t) = ~y (τ )
Beispiele. Durch ~x(t) = (− cos t, sin t), t ∈ [0, π],
wird ein Halbkreisbogen um (0, 0), durchlaufen von
(−1, 0) nach (1, 0), parametrisiert. Der Parameterwechsel ϕ(t) := arccos(−t) von I = [0, π] auf J = [−1, 1]
liefert nach
√ kurzer Rechnung als neue Parametrisierung
t
~y (τ ) = (τ, 1 − τ 2 ), τ ∈ [−1, 1]. Die erste Parametrisieτ
rung gehört zu einer gleichmäßigen Durchlaufung auf dem
Abbildung 4.2: Zwei ParametrisieKreisbogen selbst (in Bogenlänge), die zweite zu einer
rungen eines Halbkreisbogens.
gleichmäßigen Durchlaufung von der x1 -Achse aus gesehen.
Abstrakte Beispiele für Kurven und Wege sind der Konfigurationsraum eines k-Teilchen-Systems (d.h.
die zu einem Vektor im R6k zusammengefassten Orts- und Impulsvektoren der einzelnen Teilchen) oder
der Zustand eines thermodynamischen Systems in Abhängigkeit von der Zeit.
113
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
2.5 Skalarfelder. Eine reellwertige Funktion f : D ⊂ Rn → R mehrerer Variablen nennen wir auch
Skalarfeld . Ist f komplexwertig, so sprechen wir auch von einem komplexen Skalarfeld.
Beispiel. Temperatur oder Druck in Abhängigkeit vom Ort.
2.6 Graphische Darstellung von Skalarfeldern. Für ein Skalarfeld zeichnen wir den Graphen
Gf := {(~x, f (~x)) = (x1 , . . . , xn , f (x1 , . . . , xn )) ∈ Rn+1 | ~x ∈ D}
oder genügend viele Niveaumengen
Nf,c := {~x ∈ D | f (~x) = c} ⊂ Rn ,
c ∈ R.
Für n > 2 entzieht sich der Graph, für n > 3 die Darstellung der Niveaumengen unserer Vorstellung.
Alles Wesentliche kann man aber am Beispiel n = 2 studieren. Dann stellen wir uns den Graphen als eine
Berg- und Tallandschaft“ über dem Definitionsbereich D vor, Niveaumengen als Höhenlinien“ in D.
”
”
2
0.2
-0.2
-2
-2
2
-1
0
1
2
2
1
1
0
0
2
1
-1
0
1
-2
2
0
-1
-1
2-2
-2
-1
-2
-2
-1
0
1
2
-2
2
Abbildung 4.3: Graph und Niveaumengen (pur/eingefärbt) des Skalarfelders f (x, y) = ye−x
−y 2
.
2.7 Vektorfelder. Eine vektorwertige Funktion mehrerer Variablen f~ : D ⊂ Rn → Rn nennen wir auch
Vektorfeld . Definitionsbereich D und Wertevorrat liegen also im selben Raum.
Beispiel. Gravitationskraft, elektrische oder magnetische Feldstärke in Abhängigkeit vom Ort.
2.8 Graphische Darstellung von Vektorfeldern. Wir haben schon einige Vektorfelder und vektorwertige Funktionen durch Zeichnen von Gittern im Definitionsraum und deren Bildgitter graphisch
dargestellt: für Exponentialfunktion im Komplexen (Abbildung 2.13 in Kapitel 2) und für die Riemannsche Fläche zu Exponentialfunktion und Logarithmus (Abbildung 2.14 in Kapitel 2). Hierbei wurde C als
der R2 interpretiert, d.h. exp als ein Vektorfeld R2 → R2 .
Neben dieser Darstellung ist das Zeichnen eines Vektorfeldes (die Darstellung hat denselben Namen wie
die Abbildung) üblich: wir heften den Bildvektor f~(~x) an die Stelle ~x im Definitionsbereich. Das geht gut
für ebene Vektorfelder (n = 2) und zur Not auch im Raum (n = 3).
~x 7→ − k~x1k3 ~x
1
~x 7→ − k~x+~
x + ~a) −
ak3 (~
Abbildung 4.4: Zwei Vektorfelder im Raum.
1
x
k~
x−~
ak3 (~
− ~a)
114
§1. GRUNDLEGENDES ÜBER RAUM, ZEIT UND FUNKTIONEN
1
-1
1
1
-1
-1
1
-1
-1
(x, y) 7→ (x, y)
(x, y) 7→ (x + y, x − y)
1
1
-1
-1
1
1
-1
-1
x
(x, y) 7→ ( x2−y
+y 2 , x2 +y 2 )
y
x
(x, y) 7→ ( x2 +y
2 , x2 +y 2 )
1
-1
(x, y) 7→ (−y, x)
1
-1
1
1
-1
2
x+y
2x−y
(x, y) 7→ ( 1+x
2 +x2 , 1+x2 +y 2 )
Abbildung 4.5: Einige Vektorfelder in der Ebene.
2.9 Vereinbarung. Sind wir in §2 primär an Funktionen einer reellen Variablen interessiert, bezeichnen
wir die Variable mit t stellen sie uns als Zeit vor. Geht es vor allem um Funktionen mehrerer Variablen,
d.h. um Skalar- oder Vektorfelder oder allgemein um Funktionen D ⊂ Rn → Rm , so bezeichnen wir die
Variable mit x oder ~x und interpretieren sie als Ort.
3
Topologisches Vokabular
3.1 Worum geht es? Was der Rand eines Kreises, einer Kugel oder eines Quaders ist, ist jedem klar.
Was ist aber der Rand von {1, 12 , 13 , . . .}?
3.2 Innere Punkte, isolierte Punkte, Häufungspunkte. Für eine Teilmenge D des Rn unterscheiden wir drei Typen von Punkten:
• Ein Punkt ~x ∈ D heißt innerer Punkt, wenn es eine Kugel um ~x mit positivem Radius gibt, die
ganz in D liegt: K~x (r) ⊂ D.
• Ein Punkt ~x ∈ D heißt isolierter Punkt, wenn es eine Kugel um ~x mit positivem Radius gibt, so
dass ~x der einzige Punkt aus D in dieser Kugel ist: K~x (r) ∩ D = {~x}.
• Ein Punkt ~x ∈ Rn heißt Häufungspunkt von D, wenn es eine Folge von Punkten ~xk ∈ D gibt, die
gegen ~x konvergiert: limk→∞ ~xk = ~x.
|{z}
∈D
Achtung. Innere Punkte und isolierte Punkte von D gehören automatisch zu D, für Häufungspunkte
muss dies nicht der Fall sein. Innere Punkte sind immer Häufungspunkte, isolierte Punkte nie.
Folgende Veranschaulichung ist nützlich: Wir stellen uns die Punkte von D schwarz, die restlichen Punkte
des Rn weiß eingefärbt vor. Nun fixieren wir einen Punkt ~x ∈ Rn und zoomen“ uns mit einem Mikroskop
”
in diesen Punkt hinein. Für das, was wir dabei beobachten können, gibt es vier Möglichkeiten:
• Irgendwann wird alles schwarz: wir haben einen inneren Punkt von D fixiert.
115
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
• Irgendwann wird alles weiß: ~x hat nichts mit D zu tun. (Dafür haben wir keine Bezeichnung.)
• Irgendwann ist nur noch der fixierte Punkt schwarz, alles andere weiß: ~x ist isolierter Punkt von D.
• (Alles, was wir bisher noch nicht erfasst haben.) Egal, wie weit wir uns hineinzoomen, wir sehen
außer eventuell ~x selbst immer noch andere schwarze Punkte: dann ist ~x ein Häufungspunkt von D.
Im Fall n = 2, d.h. im R2 oder in C, hat unser Mikroskop ein kreisförmiges Gesichtsfeld (zweidimensionale
Kugeln sind Kreise). Für n = 1 ist das Gesichtsfeld schlitzförmig (eindimensionale Kugeln sind Intervalle).
Für n ≥ 3 appellieren wir an die räumliche Anschauung.
innerer Punkt von D
Häufungspunkt von D, in D
Häufungspunkt von D, nicht in D
Häufungspunkt von D, in D
isolierter Punkt von D
Häufungspunkt von D, nicht in D
Abbildung 4.6: Innere Punkte, isolierte Punkte und Häufungspunkte einer Menge im D im R2 .
Die folgenden Bezeichnungen sind nun einleuchtend.
3.3 Randpunkte einer Menge. Die isolierten Punkte und die Häufungspunkte einer Menge D ⊂ Rn ,
die keine inneren Punkte sind, heißen Randpunkte, ihre Gesamtheit bezeichnen wir mit ∂D.
Beispiele. ∂[0, 1] = ∂]0, 1[= ∂]0, 1] = ∂[0, 1[= {0, 1}, ∂{1, 12 , 13 , . . .} = {0, 1, 12 , 13 , . . .}, der Rand der
offenen und der abgeschlossenen Einheitskugel im Rn ist die Einheitssphäre, ∂∅ = ∂Rn = ∅.
3.4 Offene Mengen. Eine Teilmenge des Rn heißt offen, wenn alle ihre Punkte innere Punkte sind.
Bei einer offenen Menge D ⊂ Rn gehört kein Randpunkt zu D: D ∩ ∂D = ∅.
Beispiele. Offene Intervalle (beschränkt und unbeschränkt), offene Kugeln, ∅, Rn .
3.5 Abgeschlossene Mengen. Eine Teilmenge des Rn , die alle ihre Häufungspunkte enthält, heißt
abgeschlossen.
Eine abgeschlossene Menge D ⊂ Rn enthält ihren gesamten Rand: ∂D ⊂ D.
Beispiele. Abgeschlossene Intervalle (beschränkt und unbeschränkt), abgeschlossene Kugeln, ∅, Rn .
3.6 Offenheit und Abgeschlossenheit. Formal gesehen, sind die leere Menge ∅ und der gesamte Rn
zugleich offen und abgeschlossen. Keine andere Menge hat diese pathologische Eigenschaft. Es gibt aber
Mengen, die weder offen noch abgeschlossen sind, z.B. halboffene Intervalle wie ]0, 1] und [0, 1[.
Enthält D nur einen Teil des Randes ∂D (∅ 6= D ∩ ∂D ( ∂D), so ist D weder offen noch abgeschlossen.
3.7 Kompakte Mengen. Eine Menge D heißt kompakt, wenn jede Folge in D eine Teilfolge besitzt, die
gegen einen Punkt aus D konvergiert.
Wer diese Definition nicht mag (was man gut verstehen kann, obwohl sie sich gut verallgemeinern lässt),
der nehme einfach die folgende Charakterisierung:
Eine Teilmenge des Rn ist genau dann kompakt, wenn sie abgeschlossen und beschränkt ist.
Beispiele. [0, 1] ist kompakt, [0, 1[ und [0, +∞[ sind es nicht.
Beweis∗ . Ist D ⊂ Rn beschränkt, so hat jede Folge in D nach dem Satz von Bolzano-Weierstraß 1.4 eine
konvergente Teilfolge. Deren Grenzwert ~x ist dann ein Häufungspunkt von D. Ist D auch abgeschlossen, so
folgt ~x ∈ D. Ist umgekehrt D nicht beschränkt, so gibt es in D eine unbeschränkte Folge, die nach 1.3 (b)
keine konvergente Teilfolge enthalten kann. Ist D nicht abgeschlossen, so gibt es einen Häufungspunkt ~x,
der nicht in D liegt, und damit eine Folge in D, die gegen ~x konvergiert, also keinen Grenzwert in D hat.
116
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
3.8 Wozu kompakte Mengen? Kompakte Mengen erweisen sich als angenehm, weil sie ihren Rand
enthalten und selbiger sich nicht ins Unendliche ersteckt, wo unklar wäre was da noch zum Rand gehört“.
”
3.9 Umgebung. Ist ~x ein innerer Punkt einer Menge U ⊂ Rn , so heißt U Umgebung von ~x.
Unter Umgebungen von ~x stelle man sich Kugeln um ~x und Obermengen davon vor.
3.10 Polygonzug. Eine Kurve, bestehend aus endlich vielen Strecken, die aneinandergehängt nacheinander durchlaufen werden, heißt Polygonzug.
Formal kann man einen Polygonzug im Rm dadurch parametrisieren, dass man die N Eckpunkte ~x1 , . . . , ~xN
angibt und die Parametrisierung stückweise durch f~(t) := (t − k)~xk + (k + 1 − t)~xk+1 für t ∈ [k, k + 1]
und k = 1, . . . , N − 1 definiert. (Der Zeitparameter läuft dann von 0 bis N und im Zeitintervall [k, k + 1]
läuft man gerade auf der k-ten Teilstrecke von ~xk nach ~xk+1 .)
3.11 Zusammenhängende Mengen. Eine nichtleere Teilmenge D des Rn heißt (wege-)zusammenhängend , wenn je zwei beliebige Punkte in D durch einen Polygonzug (oder allgemein durch eine stetige
Kurve) verbunden werden können, der (bzw. die) ganz in D liegt.
Anmerkung. Stetigkeit erklären wir in 3.2.
Unmittelbar einleuchtend ist: die zusammenhängenden Teilmengen von R sind gerade die Intervalle.
3.12 Beispiele für zusammenhängende Mengen im Rn sind Kugeln, Quader
I1 × · · · × In := {(x1 , . . . , xn ) ∈ Rn | xk ∈ Ik }
mit Intervallen I1 , . . . , In
oder Würfel I n := I ×· · ·×I. Ein Quader [c1 , d1 ]×[c2 , d2 ] im R2 ist ein Rechteck mit den vier Eckpunkten
(ck , dl ), k, l = 1, 2. Ein Würfel [c, d]2 = [c, d] × [c, d] im R2 wird gern Quadrat genannt.
§2
1
Grenzwerte bei Funktionen und Stetigkeit
Grenzwerte bei Funktionen
1.1 Worum geht es? Durch die Einführung des Grenzwertbegriffs in 1.§2.6.1 für eine Zahlenfolge (an )n
haben wir präzisiert, dass sich (an )n im Unendlichen ordentlich“ verhält. Nun präzisisieren wir dies für
”
Funktionen bei Annäherung an eine Stelle. Wir beginnen mit vier Beispielen.
(a) Spaltfunktion der Frauenhoferschen Beugung. Durch
f (x) :=
sin x
x
1
wird für x ∈ R r {0} (sogar für x ∈ C r {0}) eine Funktion
erklärt. Aus der auf Potenzreihe des Sinus erhalten wir die
Darstellung
f (x) =
∞
X
(−1)k 2k
x2
x =1−
± ···
(2k + 1)!
3!
für x 6= 0.
k=0
Die rechte Seite ist auch für x = 0 definiert, hat dort den
Wert 1 und setzt somit f auf ganz R (bzw. C) fort. Auch
wenn wir für f (0) im Prinzip irgend einen Wert hätten
festlegen können, so erscheint dennoch f (0) := 1 als die
natürliche“ Wahl.
”
-4 Π
-2 Π
2Π
4Π
Abbildung 4.7: Sinc-Funktion als Spaltfunktion der Frauenhoferschen Begung.
117
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Die durch
sin x
∞
X
(−1)k 2k
x =
sinc(x) :=
x
1
(2k + 1)!
k=0
sinc : C → C,
für x 6= 0,
für x = 1
definierte Sinc-Funktion ist nicht nur in der Optik sondern auch in der Datenübertragung wichtig.
(b) Kollabierende Oszillation. Die durch
g(t) := sin
1
t
für t > 0
auf R+ definierte Funktion verhält sich bei Annäherung an 0 chaotisch: zu jeder Zahl c ∈ [−1, 1] gibt es
eine Nullfolge (tn )n mit g(tn ) → c. Setzen wir nämlich tn = 1/(ϕ + 2πn) mit ϕ := arcsin c, so gilt sogar
g(tn ) = c für n ∈ N.
(c) Gedämpfte kollabierende Oszillation. Dagegen wird durch
t sin 1 für t =
6 0,
G(t) :=
t
0
für t = 0,
eine Funktion auf R erklärt, die sich wegen |G(t)| ≤ |t| in t = 0 angenehm verhält. Die in 0 kollabierende
Oszillation sin(1/t) wird durch die dort verschwindende Amplitude t unschädlich gemacht.
1
2
1
1
1
3Π 2Π
1
Π
1
-
2
1
-
Π
1
Π
1
2
1
-
2
-1
Abbildung 4.8: Kollabierende und gedämpfte kollabierende Oszillation
(d) Die Heaviside-Funktion
H : R → R,
1
1
H(t) :=
2
0
1
für t > 0,
für t = 0,
für t < 0,
verhält sich bei links- bzw. rechtsseitiger Annäherung an t = 0
angenehm: sie ist dann jeweils konstant mit Wert 0 bzw. 1.
Trotzdem erscheint die Festlegung H(0) = 1/2 nur als ein ge”
rechter Kompromiss für einen an sich unlösbaren Konflikt“.
-1
1
Abbildung 4.9: Heaviside-Funktion.
Wir wollen nun sauber definieren, was es heißen soll, dass eine Funktion sich in der Nähe eines Punktes (in
den obigen vier Beispielen war es der Punkt 0) anständig“ verhält. Unsere Vorstellung ist, dass sich die
”
Ausgabe (der Funktionswert) nur wenig ändern soll, wenn man die Eingabe (die Variable) wenig ändert.
118
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
1.2 Definition: Grenzwert bei Funktionen (Folgenkriterium). Die Funktion f sei definiert in der
Umgebung U eines Punktes a mit eventueller Ausnahme des Punktes a ∈ U selbst. Wir sagen, dass f an
der Stelle a den Grenzwert b besitzt und schreiben
lim f (x) = b,
lim f (x) = b,
x→a
x∈U
U 3x→a
f (x) → b
für x → a, x ∈ U
oder einfach
lim f (x) = b,
x→a
f (x) → b
für x → a
wenn für jede Folge (xn )n in U r {a} mit Grenzwert limn→∞ xn = a auch die Bildfolge (f (xn ))n konvergiert mit limn→∞ f (xn ) = b.
Diese Definition kann für rell-, komplex- und vektorwertige Funktionen einer oder mehrerer Variablen
verwendet werden. Man ergänze ggf. Vektorpfeile. Wenn klar ist, was gemeint ist, schreibt man auch ganz
knapp und verwegen
lim f = b.
Achtung. Für die Existenz des Grenzwerts limU 3x→a f (x) ist der Funktionswert f (a) — sofern f an
der Stelle a überhaupt erklärt ist — nicht relevant.
1.3 Grenzwert und komponentenweiser Grenzwert. Für eine vektorwertige Funktion existiert der
Grenzwert genau dann, wenn alle Komponentengrenzwerte existieren:
lim f1
f1
lim ... = ... .
fm
lim fm
Achtung. Das ist eine gute Nachricht! Wir können eine Grenzwertbetrachtung immer auf eine komponentenweise reduzieren, uns dadurch oftmals Arbeit ersparen und die Dinge übersichtlicher machen.
1.4 Rechenregeln für Grenzwerte. Aus den Rechenregeln für Grenzwerte bei Folgen erhalten wir
sofort Rechenregeln für Grenzwerte bei Funktionen einer oder mehrerer Variablen.
Für reell- oder komplexwertige Funktionen f und g mit lim f = b und lim g = c gilt
(a) lim(βf + γg) = βb + γc für beliebige Zahlen β, γ,
(b) lim |f | = |b|, lim f = b, lim Re(f ) = Re(b), lim Im(f ) = Im(b),
(c) lim f g = bc,
(d) lim
b
f
= falls c 6= 0,
g
c
Für vektorwertige Funktionen f~ und ~g mit lim f~ = ~b und lim ~g = ~c gilt
(e) lim(β f~ + γ~g ) = β~b + γ~c für beliebige Skalare β, γ,
(f) lim kf~k = k~bk,
(g) limhf~|~g i = h~b|~ci,
Achtung. Alle Grenzwerte sind an derselben Stelle zu bilden. Man ergänze jeweils x → a oder ~x → ~a.
1.5 Grenzwert bei Funktionen (ε-δ-Kriterium). Genau dann hat f in a den Grenzwert b, wenn es
zu jedem ε > 0 ein δ > 0 gibt mit |f (x) − b| < ε für alle x ∈ U r {a} mit |x − a| < δ.
In Quantorenschreibweise: (∀ε > 0)(∃δ > 0)(∀x ∈ U r {a})(|x − a| < δ ⇒ |f (x) − b| < ε).
Auch das gilt für reell-, komplex- und vektorwertige Funktionen einer oder mehrerer Variablen. Man
ergänze (auch im nachfolgenden Beweis) ggf. Vektorpfeile und ersetze den Betrag durch die Norm.
119
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Beweis∗ . Existiert limU 3x→a f (x) = b, so gibt es zu vorgegebenem ε > 0 zunächst ein δ > 0 mit
|f (x) − a| < b für alle x ∈ U r{a} mit |x−a| < ε. Ist nun (xn )n eine Folge in U r{a} mit limn→∞ xn = a,
so gibt es ein n0 ∈ N mit |xn − a| < δ für n ≥ n0 . Dann gilt aber |f (xn ) − b| < ε für n ≥ n0 , d.h. (f (xn ))n
konvergiert gegen b. Gilt also das ε-δ-Kriterium so auch das Folgenkriterium.
Ist dagegen das ε-δ-Kriterium verletzt, so gibt es ein ε > 0, so dass für jedes δ = 1/n > 0 ein xn ∈ U r{a}
existiert mit |xn − a| < 1/n und |f (xn ) − b| ≥ ε. D.h. (xn )n konvergiert gegen a während (f (xn ))n sicher
nicht gegen b konvergiert. Mit dem ε-δ-Kriterium ist also auch das Folgenkriterium verletzt.
1.6 Sandwichprinzip für Grenzwerte bei Funktionen. Sind f, g1 , g2 reellwertige Funktionen mit
lim g1 (x) = b =
U 3x→a
lim g2 (x)
und
U 3x→a
g1 (x) ≤ f (x) ≤ g2 (x)
für alle x ∈ U r {a}
so besitzt auch f an der Stelle a einen Grenzwert und es gilt limU 3x→a f (x) = b.
Die folgende Variante des Sandwichprinzips kann für vektorwertige Funktionen verwendet werden (und
damit auch für reell- oder komplexwertige).
Ist f~ eine vektorwertige Funktion und ist g eine reellwertige Funktion mit
lim g(x) = 0
U 3x→a
kf~(x) − ~bk ≤ g(x)
und
für alle x ∈ U r {a}
so besitzt f~ an der Stelle a einen Grenzwert und es gilt limU 3x→a f~(x) = ~b.
Beide Varianten funktionieren im Fall einer oder mehrerer Variablen (dann ersetze man x → a durch
~x → ~a). Sie ergeben sich aus dem Folgenkriterium 1.2 und dem Sandwichprinzip für Zahlenfolgen 1.§2.6.3.
1.7 Beispiele. Grenzwerte weist man in der Praxis gerne mit dem ε-δ-Kriterium 1.5 nach und berechnet
sie mit den Rechenregeln 1.4 und dem Sandwichprinzip 1.6. Das Folgenkriterium 1.2 wird meißt dazu
benutzt zu zeigen, dass ein Grenzwert nicht existiert.
(h) Für die gedämpfte kollabierende Oszillation gilt −t ≤ t sin(1/t) ≤ t für reelles t 6= 0 und damit
t sin
1
→0
t
für t → 0, t ∈ R.
2
(i) Aus den Abschätzungen für den Sinus im Reellen bei Null 2.§2.5.9 folgt 1 − t6 ≤ sint t ≤ 1 für
genügend kleine t 6= 0 und mit dem Sandwichprinzip 1.6 dann limR3t→0 sint t = 1. Hierbei haben wir
sin t
t als Funktion einer reellen Variablen behandelt. Einfacher und sogar im Komplexen erhalten wir das
P∞ (−1)k 2k
2
x = 1 − x3! ± · · · für beliebige x 6= 0 und der
mit Potenzreihentechniken: wegen sinx x = k=0 (2k+1)!
Abschätzung für Potenzreihen 2.§4.1.7 gilt | sinx x −1| ≤ M |x|2 für z.B. 0 < |x| ≤ 1 mit einer Konstanten M .
Die Variante des Sandwichprinzips liefert dann
sin x
= 1.
x→0 x
Für eine beliebige Konstante k zeigt man analog
lim
sin kx
= k.
x→0
x
lim
(j) Aus
1−cos x
x
=
x
2!
−
x3
4!
± · · · für x 6= 0 erhalten wir
lim
x→0
(k) Wegen
ex −1
x
=1+
x
2
1 − cos x
= 0.
x
+ · · · für x 6= 0 gilt
ex − 1
= 1.
x→0
x
lim
Gemäß unserer Beweisführung gelten die Grenzwerte in (i)–(k) auch im Komplexen.
(l)
lim (~a + λ~x) = ~a,
λ→0
lim (~x − ~a) = ~0,
~
x→~
a
lim k~x − ~ak = 0,
~
x→~
a
lim k~xk = k~ak.
~
x→~
a
120
2
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
Spezielle Grenzwerte bei Funktionen, Landau-Symbole
2.1 Ein- und zweiseitige Grenzwerte. Hängt f in der Grenzwertdefinition 1.2 von einer reellen
Variablen ab und ist U keine Umgebung, sondern ein Intervall der Form U = [a, a + r[ mit r > 0, so
nennen wir b den rechtsseitigen Grenzwert von f an der Stelle a und schreiben
f (t) → b
lim f (t) = b
t→a+
für t → a +
oder kurz
f (a+).
Entsprechend erklären wir im Fall U =]a − r, a] den linksseitigen Grenzwert f (a−).
Existieren die beiden einseitigen Grenzwerte limt→a+ f (t) und limt→a− f (t) und sind sie gleich, so bedeutet dies, dass der Grenzwert lim]a−r,a+r[3t→a f (t) selbst existiert. In diesem Zusammenhang sprechen
wir von einem zweiseitigen Grenzwert.
2.2 Beispiele für einseitige Grenzwerte. Für die Heaviside-Funktion gilt limt→0+ H(t) = 1. Für jede
Folge (tn )n mit tn > 0 und limn→∞ tn = 0 gilt nämlich H(tn ) = 1 und daher limn→0+ H(tn ) = 1. Analog
folgt limt→0− H(t) = 0. Da die beiden einseitigen Grenzwerte nicht übereinstimmen, hat H in t = 0
keinen zweiseitigen Grenzwert: limt→0 H(t) existiert nicht.
Für t > 0 gilt e1/t ≥ 1 + 1/t > 1/t und damit 0 < e−1/t < t. Das Sandwichprinzip impliziert nun
lim e−1/t = 0.
t→0+
Dagegen existiert limt→0− e−1/t nicht. Für tn = −1/n wird nämlich e−1/tn = en beliebig groß. Damit
existiert limx→0 e−1/x weder als reeller noch als komplexer Grenzwert.
1
2
20
1
10
1
-1
0
-1
1
1
2
0
0
1 -1
Abbildung 4.10: t 7→ e−1/t im Reellen und x 7→ |e−1/x | im Komplexen bei Null.
Für Funktionen einer komplexen oder mehrerer Variablen haben wir folgenden Ersatz:
2.3∗ Richtungsgrenzwerte. Für einen normierten Vektor ~v ∈ Rn und eine auf einer Umgebung U ⊂ Rn
eines Punkte ~a mit eventueller Ausnahme des Punktes ~a ∈ U selbst definierten Funktion f heißt
lim f (~a + r~v )
r→0+
im Falle der Existenz Richtungsgrenzwert von f in Richtung ~v .
2.4∗ Beispiel für Richtungsgrenzwerte. Die durch
2xy
f (x, y) := 2
für (x, y) 6= (0, 0)
x + y2
definierte Funktion f hat in Polarkoordinaten die Darstellung
f (r cos ϕ, r sin ϕ) =
2r2 cos ϕ sin ϕ
= sin 2ϕ.
(r cos ϕ)2 + (r sin ϕ)2
Also ist f konstant, wenn man aus der Richtung ~v = (cos ϕ, sin ϕ) in den Ursprung läuft und der Richtunggrenzwert limr→0+ f (0 + r cos ϕ, 0 + r sin ϕ) = sin 2ϕ existiert. Da der Wert des Richtungsgrenzwerts
aber von der Richtung abhängt, hat f im Ursprung keinen Grenzwert, d.h. lim(x,y)→(0,0) f (x, y) existiert
nicht.
121
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
1
1
1
0
-1
1
-1
-1
0
0
-1
1 -1
Abbildung 4.11: Graph und Niveaulinien von f (x, y) =
2xy
x2 +y 2 .
2.5 Uneigentliche Grenzwerte erster Art. Die Funktion f einer reellen Variablen sei definiert auf
einem Intervall ]c, +∞[. Wir sagen, dass f in +∞ den uneigentlichen Grenzwert erster Art b besitzt
und schreiben
lim f (t) = b
oder
f (t) → b für t → +∞,
t→+∞
wenn der rechtsseitige Grenzwert limt→0+ f ( 1t ) = b existiert. Bei −∞ erklären wir das analog.
Genau dann existiert limt→+∞ f (t) = b (limt→−∞ f (t) = b), wenn es zu jedem ε > 0 ein r > 0 gibt mit
|f (t) − b| < ε für alle t > r (t < −r).
Anschaulich bedeutet limt→+∞ f (t) = b, dass der Graph von f für große positive t eine waagrechte
Asymptote mit der Gleichung y = b besitzt.
2.6 Beispiele für uneigentliche Grenzwerte erster Art. Aus 2.2 folgt sofort
lim et = 0 = lim e−t .
t→−∞
t→+∞
Wegen | cos t|, | sin t| ≤ 1 gilt dann auch
lim
t→+∞
e−t cos t
e−t sin t
=
0
.
0
Wie sieht die so parametrisierte Kurve aus?
Anmerkung. Bei einer Funktion einer komplexen Variablen, definiert auf dem Äußeren |x| > r einer Kreisscheibe, fungiert lim|x|→∞ f (x) := limy→0 f (1/y) als Ersatz, bei einer Funktion von mehreren
Variablen auf dem Äußeren k~xk > r einer Kugel limkxk→∞ f (~x) := lim~y→0 f ( k~y1k2 ~y ).
2.7 Rechenregeln für einseitige Grenzwerte, Richtungsgrenzwerte bzw. uneigentliche Grenzwerte erster
Art gelten wie in 1.4 für gewöhnliche Grenzwerte angegeben. Man ergänze jeweils x → a±, r → 0+ (und
als Argument ~a + r~v ) bzw. x → ±∞, |x| → ∞, k~xk → ∞ und überlege, warum die Regeln erhalten
bleiben.
2.8 Uneigentliche Grenzwerte zweiter Art. Ist f in der Grenzwertdefinition 1.2 reellwertig mit
1
f (x) > 0 für x ∈ U r {a} und limU 3x→a f (x)
= 0, so sagen wir, dass f an der Stelle a den uneigentlichen
Grenzwert zweiter Art +∞ besitzt und schreiben
lim f (x) = +∞,
x→a
x∈U
lim f (x) = +∞,
U 3x→a
oder
f (x) → +∞
für x → a, x ∈ U.
Für −∞ erklären wir das entsprechend.
Genau dann existiert limU 3x→a f (x) = +∞ (limU 3x→a f (x) = −∞), wenn es zu jedem r > 0 ein δ > 0
gibt mit f (x) > r (f (x) < −r) für alle x ∈ U r {a} mit |x − a| < δ.
Anschaulich bedeutet limx→a f (x) = +∞, dass der Graph von f bei x = a eine positive senkrechte
Asymptote besitzt.
2.9 Rechenregeln für uneigentliche Grenzwerte zweiter Art gibt es nicht! Die Situation ist
vergleichbar delikat wie bei uneigentlichen Grenzwerten von Folgen (siehe 1.§2.9).
122
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
2.10 Beispiel für uneigentliche Grenzwerte zweiter Art. Aus 2.2 erhalten wir die uneigentlichen
Grenzwerte erster und zweiter Art
lim et = +∞ = lim e−t .
t→+∞
t→−∞
2.11 Landau-Notation. In Analogie zur Landau-Notation für Folgen 1.§2.9.5 erklären wir für zwei auf
U mit eventueller Ausnahme der Stelle a ∈ U definierte reell- oder komplexwertige Funktionen f und g
f (x) = O(g(x))
für x → a
falls eine Konstante
M > 0 existiert
f (x) ≤ M für x ∈ U r {a},
mit g(x) f (x) = O(g(x))
für x → a
falls limU 3x→a
f (x)
= 0.
g(x)
Bei einer reellen Variablen sind diese Landau-Symbole auch für x → a± oder x → ±∞ erklärt, bei einer
komplexen Variablen auch für |x| → ∞. Für vektorwertige Funktionen gehe man komponentenweise vor.
Häufig benutze Vergleichsfunktionen für eine Variable sind
• g(x) = xn , n ∈ N, für x → ±∞ (polynomiales Wachstum im Unendlichen),
• g(x) =
1
xn ,
n ∈ N, für x → ±∞ (polynomiales Abfallen im Unendlichen),
• g(x) = (x − a)n , n ∈ N, für x → a (polynomiales Abfallen bei x = a),
• g(x) =
1
(x−a)n ,
n ∈ N, für x → a (polynomiales Wachstum bei x = a),
γx
• g(x) = e , γ > 0, für x → ±∞ (exponentielles Wachstum im Unendlichen),
• g(x) = e−γx , γ > 0, für x → ±∞ (exponentielles Abfallen im Unendlichen),
• g(x) = ln(γx), γ > 0, für x → +∞ (logarithmisches Wachstum im Unendlichen),
γ
, γ > 0, für x → a (logarithmisches Wachstum bei x = a).
• g(x) = ln |x−a|
2.12 Beispiele zur Landau-Notation.
(a) p(x) = O(xn ) für x → ±∞ bei einem Polynom p im Reellen und für |x| → ∞ im Komplexen: ein
”
Polynom p vom Grad höchstens n wächst höchstens wie xn .“
(b) p(x) = O(ex ) für x → +∞, d.h. limx→+∞ p(x)e−x = 0 für jedes Polynom p: die Exponentialfunktion
”
wächst im Reellen für x → +∞ schneller als jedes Polynom.“
P∞ k
xn+1
Beweis. Für p(x) = an xn + · · · + a0 erhalten wir aus ex = k=0 xk! > (n+1)!
nämlich das Sandwich
|p(x)e−x | ≤ |an | (n+1)!
+ · · · + |a0 | (n+1)!
x
xn+1 → 0 für x → +∞. Die folgende Aussage zeigt man analog.
(c) ex = O(x−α ) für x → −∞, d.h. limx→−∞ xα ex = 0 für alle α > 0: die Exponentialfunktion fällt im
”
Reellen für x → −∞ schneller als jede Potenzfunktion.“
(d)
2x2 +3
x2 −1
2
2
1
+3
1
2x +3
= O( x−1
) für x → 1. Es gilt nämlich | 2x
x2 −1 / x−1 | = | x+1 | ≤
2·4+3
0+1
= 11 für x ∈]0, 2[.
2.13 Asymptotische Gleichheit. Zwei reell- oder komplexwertige Funktionen f und g heißen asym(x)
ptotisch gleich für x → a, in Zeichen f (x) ' g(x) für x → a, falls limx→a fg(x)
= 1.
Für Funktionen einer reellen Variablen können wir asymptotische Gleichheit auch für x → a± bzw.
x → ±∞ erklären, für eine komplexe Variable auch für |x| → ∞. Für vektorwertige Funktionen erklären
wir das wieder komponentenweise.
123
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
2.14∗ Asymptotik von Polynomen im Unendlichen. Für ein Polynom p(x) = an xn + · · · + a0 vom
Grad n (d.h. an 6= 0) erhalten wir aus limx→∞ 1/x = 0 mit den Rechenregeln 1.4
n
an xn + an−1 xn−1 + · · · + a0
an−1 1
a0 1
p(x)
→1
für x → ±∞
=
=1+
+··· +
an xn
an xn
an x
an x
| {z
}
| {z }
→0
→0
die asymptotische Darstellung
p(x) ' an xn
für x → ±∞ im Reellen oder |x| → ∞ im Komplexen
und sagen ein Polynom verhält sich weit draußen wie sein Leitterm“ (vgl. 2.§4.1.21).
”
250
50
5000
100
20
2000
50
10
-1
-2 -1
1
1000
1
2
-10
-50
-10
-2
2
10
-1000
Abbildung 4.12: Asymptotik von Polynomen am Beispiel x6 + 8x4 − 25x2 + 12x + 22 ' x6 für x → ±∞.
2.15∗ Asymptotik rationaler Funktionen im Unendlichen. Wir zerlegen eine rationale Funktion
R(x) =
an xn + · · · + a1 x + a0
= q(x) + h(x)
bm xm + · · · + b1 x + b0
mit an , bm 6= 0 gemäß 2.§4.2.3 in Hauptteil h und Nebenteil q. Der Hauptteil h besteht aus endlich
c
c
vielen Summanden der Form (x−λ)
k mit gewissen c, λ ∈ C und k ∈ N. Wegen limx→±∞ (x−λ)k = 0 gilt
limx→±∞ h(x) = 0, d.h.
R(x) ' q(x)
für x → ±∞ im Reellen oder |x| → ∞ im Komplexen.
Das asymptotische Verhalten einer rationalen Funktion im Unendlichen wird also vom Nebenteil regiert,
d.h. von einem Polynom und damit von dessen Leitterm.
1
1
-10
10
-10
10
-1
(x−1)(x+2)
(x−4)(x2 +4)
-1
'0
für x → ±∞.
10
-10
10
-10
2
(x −1)(x+2)
(x−2)(x2 +1)
'1
für x → ±∞.
(x2 −4)(x8 +8)
(x−4)(x2 +1)
für x → ±∞.
Abbildung 4.13: Asymptotik von rationalen Funktionen im Unendlichen.
Auf die Asymptotik in der Nähe einer Nennernullstelle gehen wir in 3.17 ein.
'x
124
3
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
Stetigkeit
3.1 Wozu Stetigkeit? Wir wollen eine grundlegende Eigenschaft vieler (nicht nur physikalischer) Systeme mathematisch beschreiben: der Systemzustand ändert sich nur wenig, wenn die Systemparameter
geringfügig verändert werden. Dies gilt z.B. für die Anziehungskraft in Abhängigkeit von der Entfernung,
für den Luftdruck in Abhängigkeit vom Ort, für die Temperatur in Abhängigkeit von der zugeführten
Wärmeenergie oder für den Strom in einen Stromkreis in Abhängigkeit von der angelegten Spannung.
Auf lange Sicht gesehen führt eine winzige Änderung des Anfangszustands aber manchmal sehr wohl zu
gewaltigen Unterschieden. So ist beispielsweise eine langfristige Wettervorhersage unmöglich, weil wir das
Wetter zu keinem Zeitpunkt exakt messen können. Phänomene dieser Art haben mit Stetigkeit nichts zu
tun — Stetigkeit ist eine lokale“ Eigenschaft.
”
3.2 Definition: Stetigkeit in einem Punkt (ε-δ-Kriterium). Eine Funktion f definiert in der
Umgebung U einer Stelle a ∈ U heißt stetig in a, wenn es zu jedem ε > 0 ein δ > 0 gibt mit
|f (x) − f (a)| < ε
für alle x ∈ U mit |x − a| < δ.
In Quantorenschreibweise: (∀ε > 0)(∃δ > 0)(∀x ∈ U )(|x − a| < δ ⇒ |f (x) − f (a)| < ε).
In dieser Definition darf f eine reell-, komplex oder vektorwertige Funktion einer oder mehrerer Variablen
sein. Man ergänze ggf. Vektorpfeile und ersetze den Betrag durch die Norm.
Hängt f in obiger Definition von einer reellen Variablen ab und ist U keine Umgebung, sondern ein
Intervall der Form U =]a − r, a] mit r > 0, so sprechen wir von linksseitiger , für U = [a, a + r[ von
rechtsseitiger Stetigkeit in a.
Achtung. Um f in a auf Stetigkeit zu untersuchen, muss f in a definiert sein.
3.3 Interpretation. Stetigkeit von f in a bedeutet in Worten, dass der Unterschied der Funktionswerte
f (x) und f (a) beliebig klein wird, wenn man nur den Unterschied zwischen x und a genügend klein macht.
Man kann einen beliebig kleinen Fehler“ ε vorschreiben, und trotzdem weichen die Funktionswerte f (x)
”
höchstens um den Fehler ε von f (a) ab, sobald x genügend nahe bei a liegt.
z
2δ
}|
{
f (a)
2ε
a
Abbildung 4.14: Zum ε-δ-Kriterium von Stetigkeit.
3.4 Grenzwertkriterium für Stetigkeit in einem Punkt. Genau dann ist f in a ∈ U stetig, wenn
lim f (x) = b
U 3x→a
existiert mit b = f (a).
Bei einer Funktion f einer reellen Variablen schreiben wir im Fall der links- bzw. rechtsseitigen Stetigkeit
(d.h. U =]a − r, a] bzw. U = [a, a + r[) auch f (a−) := limx→a− f (x) bzw. f (a+) := limx→a+ f (x).
Das Grenzwertkriterium folgt aus den ε-δ-Kriterien für den Grenzwert 1.5 und für Stetigkeit 3.2. Ebenso
erhalten wir aus dem Folgenkriterium für den Grenzwert 1.2 ein Folgenkriterium für Stetigkeit:
125
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
3.5 Folgenkriterium für Stetigkeit in einem Punkt. Genau dann ist f stetig in a ∈ U , wenn
lim f (xn ) = f (a)
n→∞
für jede Folge (xn )n in U mit lim xn = a.
n→∞
3.6 Stetigkeit. Eine Funktion heißt (punktweise) stetig, wenn sie in jedem Punkt ihres Definitionsbereichs stetig ist.
3.7 Rechenregeln für stetige Funktionen. Mit dem Grenzwertkriterium für Stetigkeit und den Rechenregeln für Grenzwerte 1.4 erhalten wir:
Sind f und g reell- oder komplexwertige Funktionen und an der Stelle a stetig, so auch
(a) αf + βg für beliebige Zahlen α, β,
(b) f , |f |, Re f , Im f ,
(c) f g,
(d) f /g falls g(a) 6= 0.
Sind f~ und ~g vektorwertige Funktionen und an der Stelle a stetig, so auch
(e) αf~ + β~g für beliebige Skalare α, β,
(f) kf~k,
(g) hf~|~g i.
3.8 Beispiele für stetige Funktionen.
(h) Konstante Funktionen und die identische Abbildung x 7→ x sind stetig (wähle δ = 1 bzw. δ = ε in
3.2).
(i) Polynome sind stetig ((h) und 3.7 (a), (c)).
(j) Die Funktion x 7→ 1/x ist für x 6= 0 stetig ((h) und 3.7 (d)).
(k) Rationale Funktionen sind auf ihrem natürlichen Definitionsbereich stetig ((i) und 3.7 (d)).
3.9 Die Funktionenklasse C 0 . Die Menge der stetigen reell-, komplex-, bzw. vektorwertigen Funktionen mit Definitionsbereich D bezeichnen wir mit C 0 (D, R), C 0 (D, C), bzw. C 0 (D, Rm ). Wenn aus dem
Zusammenhang klar ist, was gemeint ist, so schreiben wir einfach C 0 (D) oder C 0 .
Zusammen mit der punktweise erklärten Addition von Funktionen und Multiplikation von Funktionen mit
Zahlen ist C 0 (D, G) ein Unterraum des Funktionenraums F(D, G) und damit ein Vektorraum.
P∞
k
3.10 Stetigkeit von Potenzreihen. Wird f durch eine Potenzreihe f (x) =
k=0 ak (x − x0 ) mit
Konvergenzradius R > 0 dargestellt, so ist f im Inneren der Konvergenzkreisscheibe, d.h. für |x−x0 | < R,
stetig.
Insbesondere sind exp, cos, sin, cosh, sinh und sinc auf C, sowie cot, tan, coth und tanh auf ihrem
jeweiligen maximalen Definitonsbereich stetig.
Beweis. Für eine Potenzreihe gilt |f (x)−f (x0 )| = |f (x)−a0 | = O(|x−x0 |) → 0 für x → x0 dank 2.§4.1.7.
Mit dem Sandwichprinzip 1.6 folgt limx→x0 f (x) = f (x0 ) und f ist nach dem Grenzwertkriterium 3.4
in x0 stetig. Nach 2.§4.2.7 kann eine Potenzreihe in jedem Punkt im Inneren ihres Konvergenzkreises
entwickelt werden. Also überträgt sich die obige Aussage von x0 auf jeden Punkt x mit |x − x0 | < R.
Achtung. Über Stetigkeit von Potenzreihen auf dem Rand des Konvergenzkreises wird hier nichts ausgesagt. Dort sind Individualbetrachtungen notwendig.
126
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
3.11 Stetigkeit der Umkehrfunktion. Sei I ⊂ R ein Intervall und f : I → R streng monoton steigend.
Ist f in a ∈ I stetig, so ist die Umkehrfunktion f −1 in f (a) stetig.
Insbesondere sind Wurzeln und Logarithmen auf R+ sowie die Hauptzweige der Area- bzw. Arcusfunktionen auf ihren jeweiligen Definitionsbereichen stetig.
Der Beweis dieser Regel ist etwas trickreich. Wir verweisen z.B. auf [Kön, Band 1, 7.2, Regel III].
3.12 Stetigkeit der Verkettung. Die Verkettung zweier stetiger Funktionen ist stetig sofern sie gebildet
werden kann.
Insbesondere sind alle allgemeinen Exponential- und Potenzfunktionen stetig.
Beweis. Ist f : U → V in a ∈ U stetig und ist g auf V definiert und in f (a) stetig, so gilt für jede Folge
(xn )n in U mit limn→∞ xn = a zunächst limn→∞ f (xn ) = f (a) dank der Stetigkeit von f , dann wegen
der Stetigkeit von g in f (a) aber auch limn→∞ (g ◦ f )(xn ) = limn→∞ (g(f (xn )) = (g(f (a)) = (g ◦ f )(a).
Nach dem Folgenkriterium ist g ◦ f in a stetig.
3.13 Weitere Grenzwerte bei Funktionen. Das Grenzwertkriterium 3.4 erlaubt die Berechnung
weiterer Grenzwerte, bei denen stetige Funktionen im Spiel sind.
2
(l) lim e−t = 0,
t→±∞
da −t2 → +∞ für t → ±∞ und da die Exponentialfunktion auf R stetig ist.
(m) lim ln(t) = −∞ und lim ln(t) = +∞,
t→+∞
t→0+
da et → 0 für t → −∞ und et → +∞ für t → +∞.
(n) lim f (x) = lim f (x + a) und lim f (t) = lim f (at) falls f in a einen Grenzwert hat.
x→a
t→a
x→0
t→1
Diese Regeln dienen zum Umnormieren“ bei Grenzwertberechnungen. Sie folgen mit 3.8 (a) aus der
”
Stetigkeit von x 7→ x + a und t 7→ at.
(o)
lim
tan(t) = −∞ und
t→−π/2+
lim tan(t) = +∞.
t→π/2−
sin(t)
1
= cos(π/2−t)
Für 0 < t < π/2 gilt tan(π/2−t)
sin(π/2−t) = cos(t) = tan(t). Da der Tangens in t = 0 stetig ist, folgt mit
1
1
Umnormieren limt→π/2− tan
t = limt→0+ tan(π/2−t) = limt→0+ tan(t) = tan(0) = 0 und mit tan(t) > 0 für
t ∈]0, π/2[ wie behauptet limt→π/2− tan(t) = +∞. Nun liefert tan(−t) = − tan(t) den ersten Grenzwert.
(p) lim arctan t = −
t→−∞
π
π
und lim arctan t = .
t→+∞
2
2
Dies folgt mit der Stetigkeit des Arcustangens aus (o).
3.14 Stetige Fortsetzung. Wir erinnern uns an 2.§1.1.7: Eine auf U definierte Funktion, die auf U r{a}
mit einer dort definierten Funktion f übereinstimmt, wird Fortsetzung von f genannt und gerne (etwas
schlampig) wieder mit f bezeichnet.
Existiert nun limU 3x→a f (x) = b, so können wir f durch f (a) := b von U r {a} auf U fortsetzen und die
Fortsetzung ist in a stetig. Diese Prozedur nennen wir stetige Fortsetzung.
Beispiel. f (x) = (sin x)/x wird durch f (0) := 1 von Cr{0} auf C stetig fortgesetzt (Sinc-Funktion). Die
Heaviside-Funktion und die kollabierende Oszillation t 7→ sin(1/t) können in t = 0 nicht stetig fortgesetzt
werden. (Vgl. 1.1 und 1.7, dort finden sich auch weitere Beispiele.)
3.15 Unstetigkeit. Neben sehr vielen Beispielen für stetige Funktionen haben wir bisher nur zwei für unstetige Funktionen kennengelernt: die Heaviside-Funktion und die kollabierende Oszillation. Beide Funktionen sind lediglich in t = 0 unstetig. Bei der Heaviside-Funktion existieren die einseitigen Grenzwerte,
stimmen aber nicht überein. Derartige Unstetigkeitsstellen nennen wir Sprungstellen. Unstetigkeitsstellen
vom Typ der kollabierenden Oszillation heißen Oszillationsstellen.
Dass es noch schlimmere“ Arten von Unstetigkeit gibt, illustieren wir an zwei abschreckenden Beispielen.
”
127
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
(q) Die durch d(t) := 1 für t ∈ Q und d(t) := 0 für t ∈ RrQ definierte erste Dirichlet-Funktion ist in jedem
Punkt ihres Definitionsbereichs R unstetig. (Man versuche selbst einen Beweis mit dem Folgenkriterium.)
(r) Die durch D(t) := 1/q für t = p/q ∈]0, 1] ∩ Q gekürzt und D(t) := 0 für t ∈]0, 1] r Q definierte
zweite Dirichlet-Funktion ist in jedem rationalen Punkt ihres Definitionsbereichs ]0, 1] stetig, in jedem
irrationalen Punkt dagegen unstetig.
3.16 Stetigkeit und Konvergenzerhaltung. Schreiben wir das Folgenkriterium für Stetigkeit 3.5 in
der Form
lim f (xn ) = f ( lim xn )
falls f stetig,
n→∞
n→∞
so erweisen sich die stetigen Funktionen gerade als die konvergenzerhaltenden Funktionen:
Der Grenzwert der Bilder unter einer stetigen Funktion ist das Bild des Grenzwerts.
Damit haben wir eine neue Technik zum Konvergenznachweis.
q
√
4n−1
Beispiel. limn→∞ 4n−1
4 = 2 und der Stetigkeit der Wurzelfunktion.
n+1 = 2 wegen limn→∞ n+1 = 4,
3.17∗ Asymptotik rationaler Funktionen in Polstellen. Ist R eine rationale Funktion und λ eine
Nennernullstelle, die mit mindestens derselben Vielfachheit auch Nullstelle des Zählerpolynoms ist, so
können wir λ kürzen und erhalten eine stetige Fortsetzung von R in den Punkt λ. Solch eine Nennernullstelle wird hebbarer Pol von R genannt.
Andernfalls gehen wir von einer gekürzten Darstellung von R aus, in der λ die Vielfachheit k als Nennernullstelle besitzt, und keine Zählernullstelle mehr ist. Dann heißt λ ein Pol der Ordnung k von R.
Für solch einen Pol hat die Partialbruchzerlegung 2.§4.2.4 die Form
R(x) = q(x) + h(x) +
ck−1
ck
c1
+ ··· +
+
,
k−1
x−λ
(x − λ)
(x − λ)k
wobei q den Nebenteil von R bezeichnet und h diejenigen Partialbrüche des Hauptteils zusammenfasst,
die nicht zum Pol λ gehören.
an der Stelle λ sind dann q und h stetig. Wir erhalten
lim (x − λ)k R(x) = lim (x − λ)k (q(x) + h(x)) + c1 (x − λ)k−1 + · · · + ck−1 (x − λ) +ck = ck .
x→λ
x→λ | {z } |
{z
} |
{z
}
|
{z
}
→0
→q(λ)+h(λ)
→0
→0
ck
ck
Also gilt R(x) ' (x−λ)
k für x → λ und die Asymptotik von R in λ wird vom Leitterm (x−λ)k der
zum Pol λ gehörigen Partialbrüche bestimmt. Das verhält sich ganz analog zur Asymptotik von R im
Unendlichen 2.15, die vom Leitterm des Nebenteils regiert wird.
(x−1)(x+6)
(x−4)(x2 +4)
für x → ±4.
'
−(x+5)(x−3)(x2 +4)
(x+3)2 (x+12)
9 1
10 x−4
für x → ±∞.
4
-3
'
52
1
3 (x+3)2
-2
x2 −3x−10
(x−4)(x+2)(x2 +1)
hebbarer Pol bei x = −2.
Abbildung 4.15: Asymptotik von rationalen Funktionen in Polstellen.
4
128
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
3.18∗ Separate Koeffizientenberechnung in der Partialbruchzerlegung. Wir verwenden die Bezeichnungen aus 3.17. Dort haben wir gezeigt, dass wir in der Partialbruchzerlegung von R den Zählerck
koeffizienten ck des Leitterms (x−λ)
k zum Pol λ der Ordnung k durch den Grenzwert
lim (x − λ)k R(x) = ck
x→λ
ck
berechnen können. Sobald ck bekannt ist, ersetzen wir R(x) durch R(x) − (x−λ)
k , wiederholen das Verfahren für eine Polstelle der Ordnung k − 1, erhalten ck−1 und so fort. So bekommen wir jeden der
Zählerkoeffizienten der Partialbrüche im Hauptteil von R separat.
Beispiel. Wir berechnen die Partialbruchzerlegung von x22+1 . Die Faktorisierung x2 + 1 = (x − i)(x + i)
a
b
2
+ x+i
. Aus (x − i) x22+1 = x+i
→ 1i = −i für x → i erhalten wir a = −i. Da
liefert den Ansatz x22+1 = x−i
2
x2 +1 eine rationale Funktion mit reellen Koeffizienten ist, muss für den zur konjugierten Nennernullstelle
−i
i
+ x+i
.
−i gehörigen Partialbruch b = a = i gelten. Dies ergibt die Partialbruchzerlegung x22+1 = x−i
4
Abbildungsverhalten stetiger Funktionen
4.1 Nullstellen stetiger Funktionen. Eine Funktion f sei auf U definiert und in a ∈ U stetig. Gilt
dann f (a) 6= 0, so existiert ein δ > 0 mit |f (x)| ≥ 12 |f (a)| für alle x ∈ U mit |x− a| < δ, d.h. insbesondere
f (x) 6= 0. Ist umgekehrt (xn )n eine Folge von Nullstellen in U mit limn→∞ xn = a, so ist auch a eine
Nullstelle von f .
Ist f also in a stetig und ist a keine Nullstelle, so hat f auch in einer (genügend kleinen) Umgebung
von a keine Nullstellen. Das gilt — wie der Beweis zeigen wird — für reell-, komplex- oder vektorwertige
Funktionen einer oder mehrerer Variablen (falls nötig, so ergänze man in Gedanken Vektorpfeile).
Beweis. Die erste Behauptung ist die Negation der zweiten, die zweite folgt sofort aus dem Grenzwertkriterium für Stetigkeit 3.4: limn→∞ xn = a und f (xn ) = 0 impliziert f (a) = limn→∞ f (xn ) = 0.
4.2 Zwischenwertsatz. Ist f : [c, d] → R stetig, so nimmt f jeden Wert zwischen f (c) und f (d) an.
Insbesondere hat f in ]c, d[ eine Nullstelle, falls f (c)f (d) < 0.
Für den Beweis können wir f (c) < f (d) annehmen. Für f (c) = f (d) ist nämlich nichts weiter zu zeigen,
für f (c) > f (d) können wir −f statt f betrachten. Wir führen den Beweis konstruktiv auf folgende Weise:
4.3 Lösen von Gleichungen durch Intervallhalbierung. Ist f : [c, d] → R stetig mit f (c) < f (d),
so erhalten wir für b mit f (c) < b < f (d) eine Lösung von f (t) = b, indem wir ζ1 := c, ξ1 := d setzen und
ζn , ξn rekursiv durch
ζn−1 +ξn−1
n−1
ξ
:=
ξ
falls
f
< b,
ζn := ζn−1 +ξ
n
n−1
2
2
n−1
n−1
ζn := ζn
ξn := ζn−1 +ξ
falls f ζn−1 +ξ
> b.
2
2
n−1
erklären. Gilt irgendwann einmal f ζn−1 +ξ
= b, so haben eine Lösung, andernfalls bilden die
2
[ζn , ξn ] ⊂ [c, d] offensichtlich eine Intervallschachtelung, die sich nach 1.§2.7.2 auf eine Zahl t ∈ [c, d]
zusammenzieht: limn→∞ ζn = t = limn→∞ ξn . Aus f (ζn ) < b folgt f (t) ≤ b mit der Monontonie des
Grenzwerts und der Stetigkeit von f . Aus f (ξn ) > b erhalten wir ebenso f (t) ≥ b. Daher gilt f (t) = b.
4.4 Anwendungsbeispiel: Wiensches Verschiebungsgesetz. Bei der Bestimmung des Emissionsmaximums eines strahlenden Körpers (Wiensches Verschiebungsgesetz) muss nach Einführung geeigneter
Variablen die Gleichung (x − 5)ex + 5 = 0 für x > 0 gelöst werden. Die linke Seite f (x) := (x − 5)ex + 5
ist stetig mit f (4) = −e4 + 5 < 0 und f (5) = 5 > 0, hat also nach dem Zwischenwertsatz eine Lösung
x ∈]4, 5[. Durch sechsfache Intervallhalbierung erhalten wir 4, 953125 < x < 4, 968750. Mit einem Monotonieargument kann man sich überlegen, dass die Lösung eindeutig bestimmt ist.
Anmerkung. Intervallhalbierung ist ein schlechtes Verfahren zum näherungsweisen Lösen von f (t) = b.
Für differenzierbare Funktionen funktioniert das Newton-Verfahren 6.1 normalerweise viel besser.
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
129
4.5 Zwischenwertsatz für Skalarfelder. Sei f ein stetiges Skalarfeld mit zusammenhängendem und
kompaktem Definitionsbereich U ⊂ Rn . Für beliebige ~c, d~ ∈ U nimmt dann f jeden Wert zwischen f (~c)
~ an. Insbesondere hat f in U eine Nullstelle, falls f (~c)f (d)
~ < 0.
und f (d)
Beweis. Da U zusammenhängend ist, existiert ein Polygonzug g : [0, 1] → U , der ~c mit d~ verbindet. Dann
~ Nun folgt die
ist f ◦ g : [0, 1] → R stetig mit (f ◦ g)(0) = f (g(0)) = f (~c) und (f ◦ g)(1) = f (g(1)) = f (d).
Behauptung aus dem Zwischenwertsatz 4.2 angewendet auf f ◦ g.
4.6 Anwendungsbeispiel. Auf der Erdoberfläche gibt es zwei Antipodenpunkte mit gleicher Temperatur.
Beweis. Wir modellieren die Erdoberfläche durch die Einheitsphäre S2 ⊂ R3 (vgl. 3.§2.2.11). Dann ist
die Temperatur T und damit auch f (~x) := T (~x) − T (−~x) ein stetiges Skalarfeld auf der kompakten und
zusammenhängenden Menge S2 . Entweder ist der Nordpol ~y := (0, 0, 1) ein Antipodenpunkt, d.h. f (~y ) =
0 = f (−~y ) oder es gilt f (~y ) 6= 0 und damit f (~y )f (−~y ) = −f (~y )2 < 0. Dann liefert der Zwischenwertsatz
aber einen anderen Punkt ~z ∈ S2 mit f (~z) = 0, der zusammen mit −~z ein Andipodenpaar liefert.
4.7 Satz vom Maximum (Satz von Weierstraß). Ist f : [c, d] → R stetig, so hat f ein Maximum
und ein Minimum. Insbesondere ist f beschränkt.
Die Funktion f kann durchaus unbeschränkt sein, falls wir [c, d] durch ein halboffenes, offenes oder unbeschränktes Intervall ersetzen oder keine Stetigkeit verlangen. Jedes Mal liefert die Funktion f (t) := 1/t
für t 6= 0 und f (0) := 0 ein Gegenbeispiel. Als Intervalle nehme man ]0, 1], ]0, 1[, ]0, ∞[ bzw. [0, 1].
Wir beweisen gleich die allgemeine Variante:
4.8 Satz vom Maximum für Skalarfelder. Ein stetiges Skalarfeld auf einer kompakten Menge hat
ein Maximum und ein Minimum, ist also insbesondere beschränkt.
Beweis∗ . Für ein stetiges Skalarfeld f : K → R auf einer kompakten Menge K ⊂ Rn betrachten wir
das Supremum M der Wertemenge f (K). Nach der Definition des Supremums gibt es eine Folge von
Funktionswerten, die gegen M konvergiert, d.h. eine Folge (~xk )k in K mit limk→∞ f (~xk ) = M . Ist
die Wertemenge beschränkt, so ist M eine reelle Zahl und es liegt eigentliche Konvergenz vor. Ist die
Wertemenge unbeschränkt, so gilt M = +∞ und wir haben bestimmte Divergenz gegen +∞. Gemäß
der Definition von Kompaktheit 3.7 besitzt (~xk )k eine konvergente Teilfolge (~xkl )l mit Grenzwert ~x
in K. Da f stetig ist, konvergiert (f (~xkl ))l gegen f (~x). Als Teilfolge von (f (~xk ))k muss (f (~xkl ))l aber
gegen M konvergieren. Also ist M eine reelle Zahl und es gilt M = f (~x). Damit hat f einen maximalen
Funktionswert. Für das Minimum schließe man analog.
4.9 Anmerkung zum Satz vom Maximum. Dieser typisch mathematisch“ und vollständig nutzlos
”
anmutende Satz ist tatsächlich Grundlage jeglicher Optimierung! Er garantiert uns nämlich die Existenz
eines Maximums bzw. Minimums. Ohne dieses Wissen brauchen wir uns gar nicht auf die Suche nach der
Lösung eines Optimierungsproblems zu machen. Damit steht dieser Satz immer im Hintergrund, wenn
wir entdecken, dass in der Natur ein Optimalitätsprinzip befolgt wird. Seine Notwendigkeit wird vom
Perronschen Paradoxon pointiert: n = 1 ist die größte natürliche Zahl, für jedes n > 1 ist nämlich n2
”
eine größere natürliche Zahl als n selbst“.
Brauchbar in der Praxis wird der Satz vom Maximum natürlich erst zusammen mit Techniken zum
Auffinden der Extremalsituation. Selbige werden wir in der Differentialrechnung zur Verfügung stellen.
4.10 Hauptsatz über stetige Funktionen Das Bild einer kompakten Menge unter einer stetigen
Funktion ist kompakt.
Der Hauptsatz beinhaltet beide Versionen 4.7 und 4.8 des Satzes von Maximum.
Beweis∗ . Ist f~ : K → Rm stetig und K ⊂ Rn kompakt, so ist kf~k gemäß 3.7 (f) ein stetiges Skalarfeld
auf K und nach 4.8 beschränkt. Also ist die Bildmenge f~(K) beschränkt. Ist ~y ∈ Rm ein Häufungspunkt,
so gibt es eine Folge von Vektoren ~xk ∈ K mit limk→∞ f~(~xk ) = ~y . Da K kompakt ist, gibt es eine
Teilfolge (~xkl )l , die gegen ein ~x ∈ K konvergiert. Mit der Stetigkeit von f~ folgt liml→∞ f~(xkl ) = f~(~x).
Nun erhalten wir ~y = f (~x), da schon die gesamte Bildfolge (f~(~xk ))k gegen ~y konvergiert. Also liegt ~y in
der Bildmenge und f~(K) ist nicht nur beschränkt, sondern auch abgeschlossen, also nach 3.7 kompakt.
130
§3
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
Differentialrechnung in einer Variablen
Ab jetzt betrachten wir fast ausschließlich Funktionen einer reellen Variablen. Als Wertevorrat lassen wir
weiterhin R, C oder den Rm zu — außer, wir sagen explizit etwas anderes.
1
Differenzierbarkeit
1.1 Zum Begriff der Geschwindigkeit. Wir betrachten einen Massenpunkt im Raum. Seinen Ort
zum Zeitpunkt t können wir nach Einführung kartesischer Koordinaten durch den Koordinatenvektor
x1 (t)
~x(t) = x2 (t)
x3 (t)
beschreiben.
Wirkt auf den Massenpunkt keine Kraft, so behält er nach dem ersten Newtonschen Gesetz seinen Bewegungzustand bei, d.h. er verharrt in Ruhe oder bewegt sich mit konstanter Geschwindigkeit auf einer
Geraden. Damit gilt
~x(t) = ~x(t0 ) + (t − t0 )~v ,
wobei ~x(t0 ) den Ort des Massenpunkts zum Zeitpunkt t = t0 bezeichnet und die Konstante ~v seine
Geschwindigkeit (welche auch ~0 sein darf). Experimentell weist man das durch Messung von von ~x(t) für
verschiedene Zeiten t und Berechnung des Proportionalitätsfaktors
1
(~x(t) − ~x(t0 ))
t − t0
nach, was dann (im Rahmen der Meßgenauigkeit) eine Konstante — nämlich ~v — liefert. Die Geschwindigkeit ist eine vektorielle Größe und der Geschwindigkeitsvektor gibt Richtung und Betrag der Geschwindigkeit des Massenpunktes an.
Bei einer ungleichförmigen Bewegung (unter Einfluss einer Zwangskraft) kann dieser Quotient, gebildet
für einen Zeitpunkt t nahe bei t0 als Näherung für die Geschwindigkeit zum Zeitpunkt t0 benutzt werden.
Das hängt dann aber von der Wahl von t ab und wird die momentane Geschwindigkeit um so besser
beschreiben, je näher t bei t0 liegt. Daher liegt es nahe, die Momentangeschwindigkeit zum Zeitpunkt t0
durch den Grenzwert
1 (t0 )
lim x1 (t)−x
t−t0
t→t
0
1
lim x2 (t)−x2 (t0 )
~v (t0 ) := lim
(~x(t) − ~x(t0 )) = t→t
t−t0
t→t0 t − t0
0 x (t)−x (t )
3
3 0
lim
t−t0
t→t0
zu definieren — falls die drei Komponentengrenzwerte existieren.
Damit haben wir uns ein meßtechnisches Problem eingehandelt. Wegen des unvermeidbaren Meßfehlers wird (xk (t) − xk (t0 ))/(t − t0 ) nicht ermittelt werden können, sobald xk (t) − xk (t0 ) bzw. t − t0 die
Meßgenauigkeit unterschreitet.
Dennoch ist der Geschwindigkeitsbegriff für die Mechanik von unbestreitbar fundamentaler Bedeutung und die
so eingeführte Momentangeschwindigkeit ~v (t0 ) hat auch eine ganz reale Bedeutung: Sie gibt die Richtung derjenigen
Geraden an, auf der sich der Massenpunkt weiterbewegt,
wenn alle Zwangskräfte zur Zeit t0 plötzlich wegfallen. Bei
einem an einer Schnur auf einer Kreisbahn um einen festen
Punkt rotierenden Massenpunkt wäre das die Tangente an
die Kreisbahn, auf der sich der Massenpunkt nach Durchschneiden der Schnur weiterbewegen würde.
Abbildung 4.16: Bewegung eines
Massenpunktes.
131
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
1.2 Das Tangentenproblem. Eng verwandt mit dem Problem der Momentangeschwindigkeit ist das
Tangentenproblem der Analysis: Zu einer auf einem Intervall I erklärten Funktion f gibt der Differenzenquotienten
f (x) − f (a)
m=
x−a
die Steigung der Sekanten durch die beiden Punkte (a, f (a)) und (x, f (x)) des Graphen von f an. Mit
∆y := f (x) − f (a)
∆x := x − a
(Zuwachs des Funktionswerts)
(Zuwachs des Arguments)
gilt
m=
∆y
.
∆x
Falls sich die Sekanten für x → a einer Grenzgeraden annähern, so nennen wir selbige Tangente an den
Graphen im Punkt a und schreiben
f (x) − f (a)
df
(a) = lim
.
x→a
dx
x−a
f (x)
f (a)
|
a
f (x) − f (a)
f (a)
{z }
x−a
x
a
Abbildung 4.17: Tangente als Grenzlage von Sekanten.
1.3∗ Historische Anmerkung. Differential- und Integralrechnung als Kern der Analysis wurden in
der zweiten Hälfte des 17. Jahrhunderts vor allem von Newton und Leibniz entwickelt. Während Newton
von Fragestellung der Mechanik wie in 1.1 ausging, behandelte Leibniz das in 1.2 dargestellte Tangentenproblem. Auf Leibniz geht die für eine gute algorithmische Behandlung vortrefflich geeignete Notation
für den Differential- und Integralkalkül zurück. Newtons Beitrag war noch in der Sprache der klassischen
Geometrie gehalten, zeigte aber große Sensibilität für die Problematik von Grenzübergängen.
1.4 Definition: Differenzierbarkeit. Eine Funktion f definiert in einer Umgebung I ⊂ R einer Stelle
a ∈ I (z.B. in einem Intervall I =]a − r, a + r[) heißt differenzierbar in a, wenn der Grenzwert des
Differenzenquotienten
f (x) − f (a)
f 0 (a) := lim
I3x→a
x−a
existiert. Wir nennen dann f 0 (a) die Ableitung von f an der Stelle a und bezeichnen sie auch mit
df
d
d
(a),
f (a),
f (x)
,
f˙(a).
dx
dx
dx
x=a
Ist I keine Umgebung von a sondern ein Intervall der Form I =]a − r, a] mit r > 0, so sprechen wir
von linksseitiger , für I = [a, a + r[ von rechtsseitiger Differenzierbarkeit und bezeichnen die linksseitige
Ableitung mit f 0 (a−), die rechtsseitige mit f 0 (a+).
132
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
1.5 Differenzierbarkeit und Tangente. Ist f in a differenzierbar, so erhalten wir die Tangente an
den Graphen im Punkt (a, f (a)) offensichtlich durch
x 7→ f (a) + f 0 (a)(x − a)
für x ∈ R
parametrisiert. Die Ableitung gibt dann die Steigung der Tangenten an. Das kann man auch umkehren:
1.6 Differenzierbarkeit und lineare Approximierbarkeit. Genau dann ist f in a differenzierbar,
wenn es eine Zahl m gibt mit
f (x) = f (a) + m(x − a) + O(|x − a|)
für x → a, x ∈ I.
In diesem Fall gilt dann m = f 0 (a).
In Worten bedeutet dies: Genau dann ist f in a differenzierbar, wenn es eine lineare Funktion der Form
”
x 7→ f (a) + m(x − a) gibt, die f bei a besser als linear approximiert. Die Steigung m der Tangente ist
dann gerade die Ableitung von f in a.“
Beweis. Man lese die Definition des Laudau-Symbols O in §1.2.11 nach, um sich zu überzeugen, dass die
obige Behauptung äquivalent zur Definition 1.4 ist.
1.7 Lokale Koordinaten. Die Parametrisierung x 7→ f (a) + m(x − a) der Tangenten ist an den gerade
betrachteten Punkt a angepasst. Man sieht sofort, dass an der Stelle x = a der Wert f (a) angenommen
wird. Man kann den Grenzwert der Ableitung, die Tangente und die obige O-Bedingung für Approximierbarkeit auch in lokalen Koordinaten angeben:
f 0 (a) = lim
h→0
a+h∈I
1
(f (a + h) − f (a))
h
⇔
f (a + h) = f (a) + f 0 (a)h +O(h)
|
{z
}
für h → 0, h + a ∈ I.
Tangente, lin.
Approx. an f in a
1.8 Differenzierbarkeit bei vektorwertigen Funktionen. Unsere Definition für Differenzierbarkeit 1.4 und die Charakterisierung durch lineare Approximierbarkeit 1.6 können wir auch für eine komplexoder vektorwertige Funktion einer reellen Variablen gebrauchen, da wir auch dann gemäß 1.2 den Grenz1
wert des Differenzenquotienten x−a
(f~(x) − f~(a)) bilden können. Das kann dank 1.3 komponentenweise
geschehen.
Wir illustrieren dies in der auf Newton zurückgehenden Notation
1 (t0 )
lim x1 (t)−x
t−t
0
I3t→t0
1
.
˙
.
(~x(t) − ~x(t0 )) =
x
~(t0 ) := lim
.
I3t→t0 t − t0
xm (t)−xm (t0 )
lim
t−t0
für ~x : I → Rm ,
I3t→t0
wobei die unabhängige Variable als Zeit interpretiert und mit t bezeichnet wird, während wir uns die
abhängige als Ort vorstellen und mit ~x(t) bezeichnen. In dieser Interpretation wird der Ableitungsstrich
0
“ gerne durch einen Punkt ˙“ ersetzt.
”
”
Achtung. Auf Funktionen einer komplexen Variablen oder mehrerer reeller Variablen gehen wir hier
nicht ein.
(Im komplexen Fall kann man die Definition 1.4 übernehmen, da wir im Körper C dividieren und somit
den Differenzenquotienten bilden können. In diesem Sinn differenzierbare Funktionen sind Gegenstand
der Funktionentheorie. Differential- und Integralrechnung für Funktionen mehrerer reeller Variablen werden wir in Kapitel 6 behandeln. Hier erweist sich das Konzept der linearen Approximierbarkeit 1.6 als
übertragbar, während der Differenzenquotient nicht gebildet werden kann.)
1.9 Differenzierbarkeit. Ist eine Funktion f in jedem Punkt ihres Definitionsbereichs D differenzierbar,
so nennen wir sie differenzierbar . Die dann auf D definierte Funktion f 0 heißt Ableitung von f .
133
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
2
Umgang mit differenzierbaren Funktionen
2.1 Differenzierbarkeit und Stetigkeit. Ist eine Funktion an einer Stelle differenzierbar, so ist sie
dort auch stetig.
Beweis. Gilt f (x) = f (a) + f 0 (a)(x − a) + O(|x − a|) für x → a, so folgt wegen f 0 (a)(x − a) → 0, d.h.
f 0 (a)(x − a) = O(|x − a|) für x → a auch f (x) = f (a) + O(|x − a|), d.h. f (x) → f (a) für x → a. Nach
dem Grenzwertkriterium 3.4 ist f also in a stetig.
2.2 Rechenregeln für differenzierbare Funktionen. Sind f und g reell- oder komplexwertige Funktionen und an der Stelle a differenzierbar, so sind auch die folgenden Funktionen in a differenzierbar:
(a) Linearität: αf + βg für beliebige Zahlen α, β mit (αf + βg)0 (a) = αf 0 (a) + βg 0 (a).
0
(b) f , Re f , Im f mit f (a) = f 0 (a), (Re f )0 (a) = Re(f 0 (a)), (Im f )0 (a) = Im(f 0 (a)).
(c) Produktregel: f g mit (f g)0 (a) = f 0 (a)g(a) + f (a)g 0 (a).
(d) Quotientenregel: f /g falls g(a) 6= 0 mit ( fg )0 (a) =
g(a)f 0 (a)−f (a)g 0 (a)
g(a)2
(Merkregel: (NAZ-ZAN)/N2 )
Sind f~ und ~g vektorwertige Funktionen und an der Stelle a differenzierbar, so sind auch die folgenden
Funktionen in a differenzierbar:
(e) Linearität: αf~ + β~g für beliebige Zahlen α, β mit (αf~ + β~g )0 (a) = αf~0 (a) + β~g 0 (a).
(f) hf~|~g i mit hf~|~g i0 (a) = hf~|~g 0 i(a) + hf~0 |~g i(a)
Beweis. (b) folgt sofort durch Anwendung der entsprechenden Rechenregel 1.4 (b) für Grenzwerte bei
Funktionen. Die Regeln in (a), (c) und (d) erhalten wir aus den Zerlegungen
(αf + βg)(x) − (αf + βg)(a)
x−a
(f g)(x) − (f g)(a)
x−a
f
g (x)
− fg (a)
x−a
=
=
=
αf (x) + βg(x) − αf (a) − βg(a)
f (x) − f (a)
g(x) − g(a)
=α
+β
,
x−a
x−a
x−a
f (x)g(x) − f (a)g(a)
f (x) − f (a)
g(x) − g(a)
=
g(a) + f (x)
,
x−a
x−a
x−a
f (x)g(a)−f (a)g(x)
g(x)g(a)
(x − a)
=
(a)
− f (a) g(x)−g(a)
g(a) f (x)−f
x−a
x−a
g(x)g(a)
der Differenzenquotienten für αf + βg, f g bzw. f /g durch Grenzübergang x → a. Nun ergibt sich (e)
Pm
komponentenweise aus (a). Durch Anwendung von (a) und (c) auf hf~|~g i(x) = k=1 fk (x)gk (x) erhalten
wir (f).
2.3 Wichtige Ableitungen.
(g) Konstante Funktionen f (x) = c sind differenzierbar mit f 0 (x) = 0 für alle x ∈ R, d.h. f 0 = 0.
(h) Die identische Abbildung id(x) = x ist differenzierbar mit id0 (x) = 1 für alle x ∈ R, d.h. id0 = 1.
(i) Ein Polynom p(x) = an xn + . . . + a1 x + a0 ist differenzierbar mit p0 (x) = nan xn−1 + · · · + a1 für x ∈ R.
(j) Die Funktion f (x) = 1/x ist für x 6= 0 differenzierbar mit f 0 (x) = −1/x2 .
(k) Rationale Funktionen sind auf ihrem natürlichen Definitionsbereich in R differenzierbar. Die Ableitung
erhält man mit der Quotientenregel (d) und (i)
(l) Die Exponentialfunktion ist auf ganz R differenzierbar mit exp0 (x) = exp(x), d.h. exp0 = exp, und
allgemein exp0 (αx) = α exp(αx) für x ∈ R und α ∈ C mit α 6= 0.
Bereits in 1.7 (k) haben wir den Grenzwert limh→0 exp(h)−1
= 1 berechnet. Mit der Funktionalgleichung
h
der Exponentialfunktion folgt für α 6= 0 durch Umnormieren des Grenzwert (siehe 3.13)
eα(x+h) − eαx
eαh − 1
= αeαx lim
= α exp(αx).
h→0
h→0
h
αh
exp0 (αx) = lim
134
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
(m) Die Hyperbelfunktionen sind differenzierbar mit cosh0 (x) = sinh(x), sinh(x) = cosh(x), tanh0 (x) =
1/ cosh2 (x) für x ∈ R bzw. coth0 (x) = −1/ sinh2 (x) für x ∈ R, x =
6 0.
Unter Verwendung von (l) und der Linearität der Ableitung (a) berechnen wir beispielsweise
cosh0 (x) =
d ex + e−x (a) 1 d x 1 d −x (l) 1 x 1 −x
=
e +
e = e − e = sinh(x).
dx
2
2 dx
2 dx
2
2
(n) Die trionometrischen Funktionen sind differenzierbar mit cos0 (x) = − sin(x), sin0 (x) = cos(x) für
x ∈ R, tan0 (x) = 1/ cos2 (x) für x ∈ R, x 6= π2 + kπ, k ∈ Z, cot0 (x) = −1/ sin2 (x) für x ∈ R, x 6= kπ,
k ∈ Z.
Ähnlich wie in (m) erhalten wir z.B.
2ix
2i
+ 1) · 0 − 2i(2ie2ix + 0)
d
(d), (m) (e
0
−
i
=
−0
tan (x) =
dx e2ix + 1
(e2ix + 1)2
2
4e2ix
2
1
=
=
=
.
(e2ix + 1)2
eix + e−ix
cos(x)2
Die Differenzierbarkeit und die Ableitungen von exp, cos, sin, cosh und sinh können wir mit 2.6 auch auf
andere Weise erhalten.
2.4∗ Beispiel: Tangenten an Kurven. Die Tangente an die durch f~(t) := (r cos t, r sin t), t ∈ R,
parametrisierte Kreislinie im Punkt f~(t0 ) erhalten wir durch
−r sin t0
r cos t0
˙
.
t 7→ f~(t0 ) + (t − t0 )f~(t0 ) =
+ (t − t0 )
r cos t0
r sin t0
Für die durch ~g (t) := (r cos t, r sin t, ct) parametrisierte Schraubenlinie ist
−r sin t0
r cos t0
t 7→ ~g (t0 ) + (t − t0 )~g˙ (t0 ) = r sin t0 + (t − t0 ) r cos t0 .
c
ct0
die Tangente im Kurvenpunkt ~g (t0 ).
P∞
2.5 Differentiation von Potenzreihen. Wird f durch eine Potenzreihe f (x) = k=0 ak (x − x0 )k mit
Konvergenzradius R > 0 dargestellt, so ist f für x ∈]x0 − R, x0 + R[ differenzierbar mit
f 0 (x) =
∞
X
kak (x − x0 )k−1
für x ∈]x0 − R, x0 + R[.
k=1
Insbesondere gilt für die Ableitung im Entwicklungspunkt f 0 (x0 ) = a1 .
Beweis. Für eine Potenzreihe gilt |f (x) − a0 − a1 (x − x0 )| = O(|x − x0 |2 ) für x → x0 gemäß 2.§4.1.7,
d.h.
f (x) = a0 + a1 (x + x0 ) + O(|x − x0 |)
für x → x0 ,
da O(|x − x0 |2 ) = O(|x − x0 |) für x → x0 . Nach 1.6 ist f im Entwicklungspunkt x0 differenzierbar mit
f 0 (x0 ) = a1 . Durch Umentwickeln 2.§4.2.7 können wir diese Aussage vom Entwicklungspunkt x0 in einem
beliebigen Punkt x ∈]x0 − R, x0 + R[ übertragen.
Achtung. Über die Differenzierbarkeit einer Potenzreihe f in den beiden Randpunkten x = x0 ± R
wird hier nichts ausgesagt. Selbst wenn f in einem der Randpunkte überhaupt definiert ist, so muss die
Differenzierbarkeit dort individuell nachgeprüft werden.
2.6 Kettenregel. Ist f reellwertig, in a differenzierbar und ist g im Punkt f (a) differenzierbar, so ist
auch die Verkettung g ◦ f in a differenzierbar und es gilt
(g ◦ f )0 (a) = g(f (a))f 0 (a).
135
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Beweis∗ . Differenzierbarkeit an einer Stelle bedeutet, dass der Differenzenquotient dort einen Grenzwert
besitzt, also stetig fortgesetzt werden kann. Sind also f in a und g in f (a) stetig, so existieren Funktionen r
und s, die in a bzw. b := f (a) stetig sind mit
f (x) − f (a)
g(y) − g(b) für y 6= b,
für x 6= a,
y−b
r(x) =
s(y) =
x−a
f 0 (a)
0
für x = a,
g (b)
für y = b.
Es folgt
(g ◦ f )(x) − (g ◦ f )(a) = g(f (x)) − g(b) = (f (x) − b)s(f (x)) = (x − a)(s ◦ f )(x)r(x)
für x 6= a.
Da (s ◦ f ) · r in x = a stetig ist, folgt hieraus die Existenz von
(g ◦ f )0 (a) = lim
x→a
(g ◦ f )(x) − (g ◦ f )(a)
= lim (s ◦ f )(x)r(x) = (s ◦ f )(a)r(a) = g 0 (f (a))f 0 (a).
x→a
x−a
2.7 Ableitung der Umkehrfunktion. Sei g die Umkehrfunktion einer streng monotonen Funktion
f : ]c, d[→ R. Ist f in einem Punkt a ∈]c, d[ differenzierbar mit f 0 (a) 6= 0, so ist g im Punkt b = f (a)
differenzierbar mit
1
1
= 0
.
g 0 (b) = 0
f (a)
f (g(b))
Wenn wir schon wüssten, dass mit f auch die Umkehrfunktion differenzierbar ist, so können wir deren
Ableitung im Punkt f (a) durch differenzieren der Identität g ◦ f = id erhalten:
⇒
x = g(f (x))
1 = g 0 (f (x))f 0 (x)
für x ∈]c, d[.
Ausgewertet in x = a liefert das für f 0 (a) 6= 0 die obige Formel für g 0 (f (a)) = g 0 (b) und so merkt man sich
diese Ableitungsregel auch am besten. Die eigentliche Arbeit liegt aber im Nachweis der Differenzierbarkeit
von g im Punkt f (a).
Beweis∗ . Ist f in a differenzierbar, so wird durch
f (x) − f (a)
r(x) :=
x−a
f 0 (a)
für x 6= a,
für x = a,
eine stetige Funktion r : ]c, d[→ R definiert. Da f streng monoton ist mit f 0 (a) 6= 0 gilt r(x) 6= 0 für
x ∈]c, d[. Mit y = f (x) und b = f (a) folgt
g(y) − g(b) =
1
(y − b).
r(g(y))
Da f in a differenzierbar ist, ist f in a stetig. Damit ist g und dann auch 1/(r ◦ g) in b stetig. Aus obiger
Formel folgt dann die Existenz von
g 0 (b) = lim
y→b
g(y) − g(b)
1
1
1
1
= lim
=
=
= 0 .
y→b r(g(y))
y−b
r(g(b))
r(a)
f (a)
2.8 Leibniz-Kalkül. Die Kettenregel und die Ableitung der Umkehrfunktion lassen sich im LeibnizKalkül gut merken:
df
df dy
dy
1
=
,
= dx .
dx
dy dx
dx
dy
2.9 Weitere wichtige Ableitungen.
(o) Der Logarithmus ist differenzierbar mit ln0 (x) = 1/x für x > 0. Mit exp ist nämlich auch ln = exp−1
differenzierbar, aus ln(et ) = t folgt 1 = ln0 (et )et und mit x = et dann ln0 (x) = 1/x.
(p) Ableitung von Potenzen. Es gilt
d α
d α ln x
d
1
x =
e
= eα ln x (α ln x) = αxα = αxα−1
dx
dx
dx
x
sofern xα definiert ist.
136
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
(q) Die Areafunktionen sind differenzierbar mit
1
arcosh0 (x) = √x12 −1 für x ∈]1, +∞[, arsinh0 (x) = √1+x
für
2
0
0
1
1
x ∈ R, artanh (x) = 1−x2 für x ∈]−1, 1[, arcoth (x) = 1−x2
für x ∈] − ∞, −1[∪]1, +∞[.
(r) Die Hyperbelfunktionen sind differenzierbar mit
−1
für x ∈] − 1, 1[,
arccos0 (x) = − arcsin0 (x) = √1−x
2
1
0
0
arctan (x) = − arccot (x) = 1+x2 für x ∈ R.
1
2.10 Vier Beispiele zum Rechnen mit Ableitungen.
(s) xx für x > 0. Mit der Kettenregel und der Produktregel
erhalten wir
d x
x
dx
d
d x ln x
e
= ex ln x (x ln x)
dx
dx
1
x
= x 1 · ln x + x
x
x
= x (ln x + 1)
für x > 0.
1
=
Aus tet → 0 für t → −∞ folgt durch Substitution et = x
zunächst x ln x → 0 für x → 0+, dann mit der Stetigkeit der Exponentialfunktion limx→0+ xx = e0 = 1 und
d x
limx→0+ dx
x = −∞. Also lässt sich xx in x = 0 stetig
fortsetzen, hat dort aber eine senkrechte rechtsseitige Halbtangente.
-1
Abbildung 4.18: Graph der Funktion
x 7→ xx und ihrer Ableitung für x > 0.
(t) x = yexy . Wir wollen diese Gleichung für vorgegebenes x ∈ R nach y auflösen. Versuche für eine
explizite Angabe der Lösung werden scheitern. Man spricht in diesem Zusammenhang auch von einer
impliziten Funktion.
Für x = 0 muss y = 0 gelten. Für x > 0 bildet y 7→ yexy das Intervall [0, +∞[ streng monoton wachsend
und bijektiv auf sich selbst ab und ist sonst negativ. Also hat x = yexy für jedes x > 0 genau eine Lösung.
Mit (x, y) ist auch das Paar (−x, −y) eine Lösung und umgekehrt. Daher gibt es auch für jedes x < 0
genau eine Lösung.
Wenn wir annehmen, dass die zu x ∈ R eindeutig bestimmte Lösung y = y(x) von x = yexy differenzierbar von x
abhängt (was wir mit dem Satz über implizite Funktionen
6.§1.6.4 nachweisen können), so gilt
x = y(x)exy(x)
1
für x ∈ R
-1
und dann nach Differenzieren dieser Identität auch
1
= y 0 (x)exy(x) + y(x)exy(x) [1 · y(x) + xy 0 (x)]
=
-1
[y(x)2 + xy(x)y 0 (x) + y 0 (x)]exy(x) .
Aus y(0) = 0 folgt nun 1 = y 0 (0). Wir haben die implizite
Funktion y = y(x) zwar nicht bestimmen können, wissen
aber, dass sie existiert, punktsymmetrisch ist und haben
unter der Annahme ihrer Differenzierbarkeit mit x 7→ y(0)+
y 0 (0)(x − 0) = x eine lineare Approximation bei x = 0
erhalten.
(u) sinc in x = 0. Aus der Potenzreihendarstellung sinc(x) =
1
Abbildung 4.19: Graph der durch
x = y(x)exy(x) implizit definierten
Funktion und ihrer linearen Appoximation x 7→ x in x = 0.
P∞
k
k=0 (−1) /(2k
+ 1)!x2k = 1 − x2 /3! ± · · ·
137
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
erhalten wir sofort sinc0 (0) = 0 und allgemein
sinc0 (x) =
∞
X
k=1
(−1)k
x
x3
x2k−1 = −
+
∓ ···
(2k + 1) · (2k − 1)!
3 · 1! 5 · 3!
für x ∈ R.
Die Ableitung im Ursprung hätten wir auch mühsamer aus der abschnittweisen Definition sinc(0) = 1
und sinc(x) = (sin x)/x für x 6= 0 durch Grenzübergang im Differenzenquotienten erhalten können:
sinc(h) − sinc(0)
= lim
h→0
h→0
h
sinc0 (0) = lim
da sin h = h + O(h3 ) und damit
sin h−h
h2
sin h
h
−1
sin h − h
= lim
= 0,
h→0
h
h2
= O(h) für h → 0.
Hätten wir neben der abschnittsweisen Definition nicht auch die Potenzreihendarstellung gehabt, so wäre
nur dieser Weg übrig geblieben.
(v) Sind ~x : I → Rm und ~y : J → Rm zwei Parametrisierungen einer Kurve, die durch einen differenzierbaren Parameterwechsel ϕ : I → J ineinander übergehen, d.h. ~x = ~y ◦ ϕ, so folgt mit der Kettenregel
~x˙ (t) = ~y˙ (ϕ(t))ϕ̇(t)
für t ∈ I.
Der Tangentenvektor im Kurvenpunkt ~x(t) = ~y (ϕ(t)) ändert also bei Umparametrisieren seine Länge um
den Faktor ϕ̇(t), die Richtung bleibt erhalten.
2.11 Zur Stetigkeit der Ableitung. Die Ableitung einer differenzierbaren Funktion muss nicht stetig
sein. Das zeigt die mit x2 gedämpfte kollabierende Ozillation
(
x2 sin x1 für x 6= 0,
f (x) =
0
für x = 0.
In jedem Punkt x 6= 0 ist f differenzierbar und man erhält die Ableitung mit den Rechenregeln zu
1
1
− cos
für x 6= 0.
x
x
In x = 0 liefert uns die Betrachtung des Differenzenquotienten
f 0 (x) = 2x sin
1
f (0 + h) − f (0)
= h sin → 0
h
h
für h → 0.
Also ist f in x = 0 differenzierbar mit f 0 (0) = 0. Dagegen hat f 0 (x) für x → 0 keinen Grenzwert. Für
n ∈ N gilt nämlich f 0 (1/(nπ)) = (−1)n und die Folge dieser Funktionswerte hat für n → ∞ keinen
Grenzwert, obwohl 1/(nπ) → 0.
4
0.5
-1
1
-1
1
-0.5
-4
Abbildung 4.20: Eine differenzierbare Funktion mit unstetiger Ableitung.
Fazit. Selbst wenn limx→a f 0 (x) existiert, liefert der Grenzwert nur dann f 0 (a), wenn man schon weiß,
dass die Ableitung in x = a existiert und stetig ist.
Von Weierstraß gibt es ein Beispiel einer differenzierbaren Funktion, deren Ableitung nirgends stetig ist.
138
3
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
Abbildungsverhalten differenzierbarer Funktionen
3.1 Vorbemerkung. Die folgenden Sätze bilden die Grundlage für die vielfältigen Anwendungen der
Differentialrechnung. Mit Ausnahme des letzten gelten sie nur für reellwertige Funktionen einer reellen
Variablen. Anwendungen und Verallgemeinerungen stellen wir in den Abschnitten 5–7 vor, nachdem wir
in 4 noch höhere Ableitungen eingeführt haben.
3.2 Lokale Maxima und Minima. Eine reellwertige Funktion f hat an einer Stelle a ihres Definitionsbereichs D ein lokales Maximum, wenn f in der Nähe von a keinen größeren Wert annnimmt, d.h. es gibt
eine Umgebung U von a gibt mit f (x) ≤ f (a) für alle x ∈ U ∩ D. Entsprechend erklären wir, was ein
lokales Minimum ist. Tritt einer dieser beiden Fälle ein, so sprechen wir von einem lokalen Extremum.
3.3 Notwendige Bedingungen für lokale Extrema. Hat f an der Stelle a ein lokales Extremum
und ist f dort differenzierbar, so gilt f 0 (a) = 0.
Beweis. Liegt in a ein lokales Maximum vor, so gibt es ein δ > 0 mit f (x) ≤ f (a) für x ∈]a − δ, a + δ[.
Es folgt
(
f (x) − f (a) ≥ 0 für x ∈]a − δ, a[,
x−a
≤ 0 für x ∈]a, a + δ[.
Ist f in a differenzierbar, so existieren die beiden einseitigen Ableitungen und stimmen mit der Ableitung
überein: f 0 (a−) = f 0 (a) = f 0 (a+). Aus den obigen Abschätzungen folgt aber
f 0 (a−) = lim
x→a−
f (x) − f (a)
≥ 0,
x−a
f 0 (a+) = lim
x→a+
f (x) − f (a)
≤ 0,
x−a
und zusammen dann f 0 (a) = 0. Für ein lokales Minimum argumentieren wir analog.
3.4 Satz von Rolle. Ist f : [c, d] → R stetig, auf ]c, d[ differenzierbar und gilt f (c) = f (d), so existiert
ein Punkt a ∈]c, d[ mit f 0 (a) = 0.
Beweis. Nach dem Satz vom Maximum §2.4.7 hat f in [c, d] ein Maximum und ein Minimum. Ist f
konstant, so ist jeder Punkt aus [c, d] ein lokales Extremum, andernfalls ist mindestens eines der beiden
Extrema ein innerer Punkt. Nach 3.3 verschwindet dort f 0 .
3.5 Mittelwertsatz der Differentialrechnung. Ist f : [c, d] → R stetig und auf ]c, d[ differenzierbar,
so existiert ein Punkt a ∈]c, d[ mit
f (d) − f (c)
= f 0 (a).
d−c
Beweis. Man verwende den Satz von Rolle 3.4 für die Hilfsfunktion h(x) = f (x) −
f (d)−f (c)
(x
d−c
f (d)
f (c) = f (d)
f (c)
c
a
d
c
a
Abbildung 4.21: Satz von Rolle und Mittelwertsatz der Differentialrechnung.
d
− c).
139
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
3.6 Verallgemeinerter Mittelwertsatz der Differentialrechnung. Sind f, g : [c, d] → R stetig, auf
]c, d[ differenzierbar und gilt g 0 (x) 6= 0 für alle x ∈]c, d[, so existiert ein Punkt a ∈]c, d[ mit
f 0 (a)
f (d) − f (c)
= 0
.
g(d) − g(c)
g (a)
(d)−f (c)
Beweis. Man verwende den Satz von Rolle 3.4 auf die Hilfsfunktion H(x) = f (x) − fg(d)−g(c)
(g(x) − g(c))
an und beachte, dass dieser Satz auch g(d) − g(c) 6= 0 impliziert.
3.7 Monotoniekriterium für differenzierbare Funktionen.
Eine differenzierbare Funktion
f : ]c, d[→ R ist genau dann monoton wachsend, wenn f 0 (x) ≥ 0 für alle x ∈]c, d[. Gilt sogar f 0 (x) > 0
für alle x ∈]c, d[, so ist f streng monoton wachsend. Entsprechendes gilt für monoton fallende Funktionen
Achtung. Das Gegenbeispiel f (x) = x3 zeigt, dass f streng monoton wachsen kann, ohne dass die
Ableitung immer positiv ist.
Beweis. Für x, y ∈]c, d[ mit x < y kann der Mittelwertsatz 3.5 auf f im Intervall [x, y] angewendet
werden, d.h. f (y) − f (x) = (y − x)f 0 (a) für ein a ∈]x, y[. Für f 0 ≥ 0 folgt, dass f monton wächst, für
(a)
≥ 0 für alle
f 0 > 0 erhalten wir strenge Monotonie. Ist umgekehrt f monoton wachsend, so gilt f (x)−f
x−a
0
x, a ∈]c, d[ mit x 6= a. Nach Grenzübergang x → a folgt im Falle der Differenzierbarkeit f (a) ≥ 0.
3.8 Identitätssatz für differenzierbare Funktionen. Hat eine Funktion auf einem Intervall überall
die Ableitung Null, so ist sie dort konstant. Stimmen auf einem Intervall die Ableitungen zweier Funktionen überein, so unterscheiden sie sich nur um eine Konstante.
Für vektorwertige Funktionen kann man das komponentenweise verwenden.
Beweis. Die zweite Aussage folgt aus der ersten durch Betrachtung der Differenzfunktion. Gilt f 0 (x) = 0
für alle x in einem Intervall I, so muss f nach dem Monotoniekriterium auf I gleichzeitig monoton fallen
und wachsen, also konstant sein.
4
Höhere Ableitungen und Taylor-Entwicklung
4.1 Definition: höhere Ableitungen. Ist f auf dem Intervall I differenzierbar und ist die somit auf I
definierte Ableitung f 0 in einem Punkt a ∈ I differenzierbar, so nennen wir f in a zweimal differenzierbar
und
f 0 (x) − f 0 (a)
f 00 (a) := (f 0 )0 (a) = lim
I3x→a
x−a
die zweite Ableitung von f im Punkt a. Ist f in jedem Punkt des Definitionsbereichs zweimal differenzierbar, so nennen wir f zweimal differenzierbar. Die dann auf I definierte Funktion f 00 heißt zweite Ableitung
von f . Bei vektorwertigen Funktionen werden die Ableitungen natürlich komponentenweise gebildet.
Sukzessiv definieren wir die höheren Ableitungen
f 000 := (f 00 )0 ,
f (4) := (f 000 )0 ,
f (5) := (f (4) )0 ,
...,
f (n+1) := (f (n) )0 ,
...,
falls die entsprechenden Differentiationen ausgeführt werden können. Höhere Ableitungen bezeichnet man
auch in der Form
n
...
dn f
dn
d
,
f,
f,
f¨ := f 00 ,
f := f 000 ,
....
n
n
dx
dx
dx
Aus formalen Gründen ist es nützlich, auch die nullte Ableitung f (0) := f einzuführen.
4.2 Leibniz-Regel. Sind f und g auf einem Intervall definiert, reell- oder komplexwertig und n-fach
differenzierbar, so ist die Produktfunktion f g ebenfalls n-fach differenzierbar und es gilt
n X
n (k) (n−k)
(n)
(f g) =
f g
.
k
k=0
140
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
Das beweist man durch Induktion nach n. Für vektorwertige Funktionen erhält man als Analogon
n X
n ~(k) (n−k)
hf |~g
i.
hf~|~g i(n) =
k
k=0
4.3 Beispiele für mehrfach differenzierbare Funktionen.
(a) Die Exponentialfunktion ist auf ganz R beliebig oft differenzierbar mit
dn x
e = ex .
dxn
(b) Der Logarithmus ist auf R+ beliebig oft differenzierbar mit ln00 (x) = −1/x2 , ln000 (x) = 2/x3 und
allgemein
dn
(−1)n−1 (n − 1)!
ln x =
für x > 0, n ∈ N.
n
dx
xn
(c) Die trigonometrischen Funktionen und die Hyperbelfunktionen sind auf ihrem natürlichen Definitionsbereich im Reellen beliebig oft differenzierbar. Es gilt
cos00 = − cos,
sin00 = − sin,
cosh00 = cosh,
sinh00 = sinh .
(d) Ein Polynom p(x) = an xn + · · · + a1 x + a0 vom Grad n ist beliebig oft differenzierbar mit
p0 (x)
= nan xn−1 + · · · + 3a3 x2 + 2a2 x + a1 ,
p00 (x)
= n(n − 1)an xn−2 + · · · + 3 · 2a3 x + 2a2 ,
..
.
p(n) (x)
p
(k)
(x)
= n!an ,
=
0
für k > n.
(e) Man kann zeigen, dass die durch
(
2
e−1/x für x 6= 0,
f (x) :=
0
für x = 0,
1
definierte Funktion f auf ganz R beliebig oft differenzierbar
ist mit
f (n) (0) = 0
für alle n ∈ N0 .
(f) Die mit x2 gedämpfte kollabierende Oszillation aus 2.11
ist zwar auf ganz R differenzierbar. Da die Ableitung aber
in x = 0 unstetig ist, ist f dort nur einmal differenzierbar.
-1
1
2
Abbildung 4.22: Graph von e−1/x .
P∞
4.4 Höhere Ableitungen von Potenzreihen. Eine Potenzreihe f (x) = k=0 ak (x−x0 )k mit Konvergenzradius R > 0 ist für x ∈]x0 − R, x0 + R[ beliebig oft differenzierbar mit
f (n) (x) =
∞
X
k(k − 1) · · · (k − n + 1)ak (x − x0 )k−n
k=n
Insbesondere gilt für die Ableitungen im Entwicklungspunkt
f (n) (x0 ) = n!an
also f 0 (x0 ) = a1 , f 00 (x0 ) = 2a2 und f 000 (x0 ) = 6a3 , . . . .
Das folgt durch wiederholte Anwendung von 2.5.
für n ∈ N0 ,
für x ∈]x0 − R, x0 + R[.
141
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Beispiel. Wegen sinc(x) =
(−1)k
2k
k=0 (2k+1)! x
P∞
für x ∈ R ist die Sinc-Funktion auf ganz R beliebig oft
differenzierbar. Für die n-te Ableitung im Ursprung gilt sinc(n) (0) =
sinc(n) (0) = 0 falls n ungerade.
(−1)k
2k+1
falls n = 2k gerade und
4.5 Stetige Differenzierbarkeit und die Funktionenklassen C n und C ∞ . Eine Funktion f heißt
stetig differenzierbar auf einem Intervall I oder eine C 1 -Funktion (eine Var.), wenn f auf I differenzierbar
und f 0 auf I stetig ist. Entsprechend heißt f n-fach stetig differenzierbar auf I oder C n -Funktion, wenn
f dort n-fach differenzierbar und f (n) stetig ist. Ist f auf I beliebig oft differenzierbar, so nennen wir f
eine C ∞ -Funktion.
Die Menge der auf I n-fach stetig differenzierbaren reell-, komplex-, bzw. vekorwertigen Funktionen
bezeichnen wir mit C n (I, R), C n (I, C), bzw. C n (I, Rm ). Das beinhaltet den Fall n = ∞. Wenn Definitionsbzw. Zielbereich aus dem Zusammenhang ersichtlich sind, schreiben wir auch C n (I) oder C n .
4.6 Taylor-Polynome. Für eine C n -Funktion f in einer Umgebung I eines Punktes a ∈ I nennen wir
Tn (x) = Tn [f, a](x)
:=
n
X
f (k) (a)
k=0
k!
(x − a)k
f (a) + f 0 (a)(x − a) +
=
f 00 (a)
f (n) (a)
(x − a)2 + · · · +
(x − a)n
2!
n!
das n-te Taylor-Polynom von f mit Entwicklungspunkt a.
Die Bezeichnung Tn (x) ist bequem, Tn [f, a](x) ist nützlich, wenn der Entwicklungspunkt a und die betroffene Funktion f explizit angeben werden sollen.
4.7 Taylor-Reihe.
Potenzreihe
Ist f eine C ∞ -Funktion in einer Umgebung I eines Punkt a ∈ I, so heißt die
T∞ (x) = T∞ [f, a](x)
:=
∞
X
f (k) (a)
k=0
=
k!
(x − a)k
f (a) + f 0 (a)(x − a) +
f 00 (a)
(x − a)2 + · · ·
2!
die Taylor-Reihe von f im Entwicklungspunkt a.
Achtung. Wir können für f in a nur dann eine Taylor-Reihe bilden, wenn f dort beliebig oft differenzierbar ist. Die bloße Existenz einer solchen Taylor-Reihe T∞ sagt nocht nichts über ihre Konvergenz und
was T∞ (x) mit f (x) zu tun hat. Mit dieser Frage werden wir uns jetzt beschäftigen.
Für Potenzreihen erhalten wir sofort aus 4.4 eine positive Antwort, die wir mit dem Identitätssatz für
Potenzreihen 2.§4.1.8 vom Reellen ins Komplexe übertragen können.
P∞
4.8 Von Potenzreihen zu Taylor-Reihen. Ist f (x) = k=0 ak (x − x0 )k eine Potenzreihe mit Konvergenzradius R > 0, so konvergiert die Taylor-Reihe, hat ebenfalls den Konvergenzradius R und stimmt
mit der Potenzreihe überein, d.h.
T∞ (x) = f (x)
für |x − x0 | < R
und
ak =
f (k) (x0 )
k!
für k ∈ N0 .
P∞
1
1
Beispiel. Wegen k=0 xk = 1−x
für |x − 1| < 1 hat f (x) = 1−x
in x = 0 eine Taylor-Reihe. In der
P∞ k
Konvergenzkreisscheibe |x−1| < 1 stimmt f mit der Potenzreihe k=0 x überein und es gilt f (k) (0) = k!
für k ∈ N0 . Dass f sogar für beliebige x 6= 1 definiert ist, stört nicht, zeigt aber, dass Potenzreihen
Funktionen i.A. nur lokal beschreiben.
142
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
4.9 Von Taylor-Reihen zu Potenzreihen. Die Taylor-Reihe einer C ∞ -Funktion muss nichts mit f
zu tun haben.
2
In 4.3 (e) haben wir gesehen, dass durch f (x) := e−1/x für x 6= 0 und f (0) := 0 eine C ∞ -Funktion
definiert wird mit f (k) (0) = 0 für alle k ∈ N0 . Die Taylor-Reihe konvergiert prächtig: T∞ [f, 0](x) = 0 für
alle x ∈ C, hat aber offensichtlich nichts mit f zu tun!
Es gibt auch C ∞ -Funktionen, deren Taylor-Reihe nur im Entwicklungspunkt konvergiert.
4.10 Taylor-Entwicklung, analytische Funktionen. Wenn für eine C ∞ -Funktion f die Taylor-Reihe
T∞ zum Entwicklungspunkt a einen positiven Konvergenzradius R besitzt und im Konvergenzkreis f
darstellt, d.h. falls f (x) = T∞ (x) für |x−a| < R, so sagen wir, dass f in a eine Taylor-Entwicklung besitzt.
Hat f in jedem Punkt ihres Definitionsbereichs eine Taylor-Entwicklung, so nennen wir f analytisch.
Um zu entscheiden, ob f in a Taylor-entwickelbar ist, müssen wir untersuchen, wie sich f (x) − Tn (x) für
n → ∞ in Abhängigkeit von x verhält.
4.11 Restglied. Ist f eine C n -Funktion in einer Umgebung I eines Punktes a ∈ I so nennen wir die
auf I definierte Funktion
Rn (x) := f (x) − Tn (x)
das Restglied für das n-te Taylorpolynom Tn von f in a. Penibel geschrieben lautet das Restglied:
Rn [f, a](x) := f (x) − Tn [f, a](x).
4.12 Darstellungen für das Restglied. Ist f eine reellwertige C n+1 -Funktion auf einem Intervall
I ⊂ R, so hat das n-te Restglied die Gestalt
Rn (x) =
f (n+1) (θ)
(x − a)n+1
(n + 1)!
(Lagrange-Darstellung)
oder
f (n+1) (ξ)
(x − ξ)n (x − a)
(Cauchy-Darstellung)
n!
mit einem von x und a abhängigen θ bzw. ξ zwischen x und a.
Rn (x) =
Beweis∗ . Für eine C (n+1) -Funktion f auf I =]c, d[ und zwei Punkte a, x ∈ I bilden wir das n-te TaylorPolynom Tn von f in a und definieren die Zahl C durch
f (x) − Tn (x) = C(x − a)n+1 .
Wollen wir die Lagrange-Darstellung herleiten, so müssen wir zeigen, dass ein θ zwischen x und a existiert
mit C = f (n+1) (θ)/(n + 1)!. Hierzu betrachten wir die Hilfsfunktion
h(t) :=
n
X
f (k) (t)
k=0
k!
(x − t)k + C(x − t)n+1 .
Dann ist h auf I definiert und stetig mit h(a) = Tn (x) + C(x − a)n+1 = f (x) = h(x). Wir können also
den Satz von Rolle 3.4 anwenden und erhalten ein θ zwischen x und a mit h0 (θ) = 0. Die Ableitung von h
berechnen wir mit der Produktregel und einer Indexverschiebung zu
n (k+1)
X
f
(t)
f (k) (t)
0
0
k
k−1
h (t) = f (t) +
(x − t) −
k(x − t)
− (n + 1)C(x − t)n
k!
k!
k=1
=
f (n+1) (t)
(x − t)n − (n + 1)C(x − t)n .
n!
Aus
f (n+1) (θ)
(x − θ)n − (n + 1)C(x − θ)n .
n!
erhalten wir nun wie behauptet C = f (n+1) (θ)/(n + 1)!. Für die Cauchy-Darstellung kann man ähnlich
argumentieren.
0 = h0 (θ) =
143
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
4.13 Fehlerabschätzung für das Restglied. Ist f eine C n+1 -Funktion auf einem Intervall I und ist
f (n+1) auf I beschränkt, d.h. |f (n+1) (x)| ≤ M für x ∈ I, so gilt für das Restglied die Fehlerabschätzung
|Rn (x)| ≤
M
|x − a|n+1
(n + 1)!
für x ∈ I.
Diese Fehlerabschätzung kann für reell- und komplexwertige Funktionen einer Variablen verwendet werden, bei vektorwertigen Funktionen gehe man komponentenweise vor.
Beweis. Das folgt sofort aus der Lagrange-Darstellung 4.12 des Restglieds.
4.14 Qualitative Restgliedabschätzung. Ist f in einer Umgebung eines Punktes a eine C n -Funktion,
so gilt für das n-te Taylor-Polynom Tn von f in a
f (x) = Tn (x) + O(|x − a|n )
für x → a.
Ist f sogar von der Klasse C n+1 , so gilt
f (x) = Tn (x) + O(|x − a|n+1 )
für x → a.
Beweis∗ . Ist f in einer Umgebung von a von der Klasse C n+1 , so ist f (n+1) insbesondere in einem
kompakten Intervall I stetig, das a als inneren Punkt enthält. Nach dem Satz vom Maximum §2.4.7 ist
f (n+1) auf I beschränkt und die O-Aussage folgt sofort aus 4.13.
Ist f nur von der Klasse C n , so liefert die Lagrange-Darstellung 4.12 des Restglieds Rn−1 zunächst
f (x) − Tn−1 (x)
1
Rn−1 (x)
1
1
f (x) − Tn (x)
=
− f (n) (a) =
− f (n) (a) = (f (n) (θx ) − f (n) (a))
(x − a)n
(x − a)n
n!
(x − a)n
n!
n!
für x nahe bei a mit einem von x abhängigen θx zwischen x und a. Für x → a gilt auch θx → a und die
Stetigkeit von f (n) in a impliziert dann
f (x) − Tn (x)
→0
(x − a)n
für x → a.
Das bedeutet aber gerade f (x) − Tn (x) = O(|x − a|n ) für x → a.
4.15 Schmiegparabeln. Wegen f (x) = Tn (x) + O(|x − a|n ) für x → a nennen wir den Graphen des nten Taylor-Polynoms Tn einer C n -Funktion im Entwicklungspunkt a auch Schmiegparabel n-ter Ordnung
und sagen: Eine C n -Funktion wird durch ihr n-tes Taylor-Polynom lokal mit einem Fehler approximiert,
”
der schneller als von n-ter Ordnung gegen Null geht.“
Wir haben damit die Interpretation von (einmaliger) Differenzierbarkeit als lineare Approximierbarkeit
in 1.6 auf höhere Ableitungen verallgemeinert.
4.16 Beispiele für Taylor-Entwicklungen. Die folgenden sechs Taylor-Entwicklungen erhalten wir
aus bekannten Potenzreihen (vgl. 1.§4.1.4, 1.§4.2.5, 2.§2.5.8 und 2.§4.2.9).
(g) geometrische Reihe
(h) Exponentialreihe
(i) Cosinusreihe
(j) Sinusreihe
1
1−x
=
ex
=
cos x
sin x
=
=
(k) Tangensreihe
tan x
=
(l) Cotangensreihe
cot x
=
∞
X
k=0
∞
X
k=0
∞
X
k=0
∞
X
k=0
∞
X
xk
für x ∈ C mit |x| < 1,
1 k
x
k!
für beliebige x ∈ C,
(−1)k 2k
x
(2k)!
für beliebige x ∈ C,
(−1)k 2k+1
x
(2k + 1)!
für beliebige x ∈ C,
(−1)k−1 4k (4k − 1)
B2k x2k−1
(2k)!
k=1
∞
1 X (−1)k−1 4k
+
B2k x2k−1
x
(2k)!
k=1
für x ∈ C nahe bei 0,
für x ∈ C r {0} nahe bei 0,
144
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
(m) Logarithmusreihe
ln(1 + x) =
∞
X
(−1)k−1
k=1
k
xk für x ∈ C mit |x| < 1 oder x = 1.
Zum Beweis von (m)
wir zunächst, dass die PoPbeachten
∞
k−1 k
tenzreihe f (x) :=
x /k mit der geometrik=1 (−1)
schen Reihe als konvergenter Majorante für |x| < 1 konvergiert und gemäß
∈] − 1, 1[ differenzierbar
P∞ 2.5 fürk−1x k−1
ist mit f 0 (x) =
x
= 1/(1 + x). Wegen
k=1 (−1)
ln0 (1 + x) = 1/(1 + x) für x ∈] − 1, 1[ unterscheiden sich f
und x 7→ ln(1 + x) nach dem Identitätssatz für differenzierbare Funktionen 3.8 auf ] − 1, 1[ nur um eine Konstante, die
dann wegen f (0) = 0 = ln(1) Null sein muss. Damit gilt
f (x) = ln(1 + x) für x ∈] − 1, 1[ und wir können den bisher
nur auf R+ definierten Logarithmus durch
ln(1 + x) :=
∞
X
(−1)k−1
k=1
k
xk
1
-1
1
-1
für |x| < 1
zumindest ein Stück weit ins Komplexe fortsetzen. Durch
folgenden Trick erhalten wir diese Darstellung auch im
Punkt x = 1 auf dem Rand des Konvergenzkreises (wo ja
bei einer Potenzreihe a priori nicht klar ist, was passiert):
Abbildung 4.23: Schmiegparabeln
für x 7→ ln(1 + x) bei x = 0. Die Approximation gelingt nur für |x| < 1.
Die obige Reihe ist für x ∈ [0, 1[ alternierend. Mit dem Leibniz-Kriterium 1.§4.2.6 folgt zunächst
n
X
(−1)k−1 k 1
x ≤
für x ∈ [0, 1[ und n ∈ N
ln(1 + x) −
n
k
k=1
und mit der Stetigkeit des Logarithmus nach Grenzübergang x → 1− dann auch
n
X
1
(−1)k−1 für n ∈ N.
ln(2) −
≤
n
k
k=1
Also konvergiert die alternierende harmonische Reihe wie in 1.§4.2.7 versprochen mit
ln(2) =
∞
X
(−1)k−1
k=1
(n) Arcustangensreihe
arctan x =
∞
X
k=0
k
=1−
1 1 1
+ − ± ··· .
2 3 4
(−1)k 2k+1
x
für x ∈ C mit |x| < 1 oder x = ±1.
2k + 1
Das beweist man analog zu (m). Wegen arctan(1) = π/4 erhalten wir insbesondere
∞
X
(−1)k
4 4 4
π=4
= 4 − + − ± ··· .
2k + 1
3 5 7
k=0
Diese Reihendarstellung für π konvergiert allerdings recht langsam (vgl. 1.§4.2.7).
∞ X
c k
(o) Binomialreihe
(1 + x)c =
x für x ∈ C mit |x| < 1 und c ∈ C.
k
k=0
Dies hatten wir in 1.§4.3.10 für c ∈ Z und c = 1/n mit n ∈ N hergeleitet. Nun erhalten wir das für
c ∈ C ähnlich wie in (m) und (n): Die Potenzreihe ist für |x| < 1 konvergent. Für x ∈] − 1, 1[ liefern die
Produktregel und eine Indexverschiebung
∞ X
d
c k
−c
(1 + x)
x = 0.
dx
k
k=0
145
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
P∞
Also ist (1 + x)−c k=0 kc xk konstant. Durch Betrachtung von x = 0 erhält man als Konstante 1. Dies
liefert die Formel zunächst für x ∈] − 1, 1[, mit dem Identitätssatz für Potenzreihen 2.§4.1.8 dann auch
für |x| < 1 im Komplexen.
5
Bestimmung von Extremwerten
5.1 Kritische Punkte. Für lokale Extrema 3.3 einer differenzierbaren Funktion f kennen wir das
notwendige Kriterium hat f in x einen lokales Extremum, so gilt f 0 (x) = 0“. Solch einen Punkt nennen
”
wir kritischen Punkt.
5.2 Hinreichende Bedingung für lokale Extrema. Ist f : ]c, d[→ R differenzierbar und ist a ∈ I ein
kritischer Punkt, so hat f in a ein
• Maximum, falls f 0 (x) ≥ 0 für alle x ∈]c, a[ und f 0 (x) ≤ 0 für alle x ∈]a, d[.
• Minimum, falls f 0 (x) ≤ 0 für alle x ∈]c, a[ und f 0 (x) ≥ 0 für alle x ∈]a, d[.
Ist f in a außerdem n-mal stetig differenzierbar für ein n ≥ 2 mit f 0 (a) = f 00 (a) = . . . = f (n−1) (a) = 0
und f (n) (a) 6= 0, so hat f in a
• ein lokales Maximum, falls n gerade und f (n) (a) < 0,
• ein lokales Minimum, falls n gerade und f (n) (a) > 0,
• kein lokales Extremum, falls n ungerade.
f 0 (x) ≥ 0
f 0 (x) ≤ 0
c
f 0 (x) ≤ 0
f 0 (x) ≥ 0
a
d
c
a
d
Abbildung 4.24: Hinreichende Bedingungen für lokale Extrema.
Beweis. Gilt f 0 (x) ≥ 0 für x ∈]c, a[ und f 0 (x) ≤ 0 für x ∈]a, d[, so ist f nach dem Monotoniekriterium 3.7
auf ]c, a[ monoton wachsend und auf ]a, d[ monoton fallend. Also hat f auf [c, d] in a ein Maximum.
Ist f in a außerdem n-mal stetig differenzierbar mit f 0 (a) = f 00 (a) = . . . = f (n−1) (a) = 0 und f (n) (a) 6= 0,
so hat das n-te Taylor-Polynom von f in a die Form Tn (x) = f (a) +
Restgliedabschätzung 4.14 liefert
f (x) = f (a) +
f (n) (a)
n! (x
f (n) (a)
(x − a)n + O(|x − a|n )
n!
− a)n und die qualitative
für x → a.
Daher gilt
f (x) − f (a)
f (n) (a)
→
(x − a)n
n!
für x → a
und der obige Bruch muss nach 4.1 für alle x 6= a genügend nahe bei a dasselbe Vorzeichen wie f (n) (a)
haben. Für gerades n und f (n) (a) < 0 bedeutet dies f (x) < f (a) für diese x, d.h. es liegt ein lokales
Maximum vor. In den anderen beiden Fällen schließe man analog.
146
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
a
a
f (x) = f (a) +
f 00 (a)
2! (x
3
a
− a)2
+O(x − a) für x → a
f (x) = f (a) +
f 000 (a)
3! (x
4
− a)3
f (x) = f (a) +
+O(x − a) für x → a
f (4) (a)
4! (x
5
− a)4
+O(x − a) für x → a
Abbildung 4.25: Tangenten und Schmiegparabeln in kritischen Punkten.
5.3 Optimierungsprobleme. Viele Fragestellungen aus verschiedensten Bereichen der Physik lassen
sich mathematisch in der Form eines Optimierungsproblems für eine reellwertige Funktion schreiben.
Dabei unterscheidet man zwei Typen.
• Wenn nicht klar ist, ob eine Extremalsituation existiert:
• Wenn man weiß, dass eine Extremalsituation existiert:
supx∈I f (x) bzw. inf x∈I f (x),
maxx∈I f (x) bzw. minx∈I f (x).
Ist I kompakt und f stetig, so garantiert uns der Satz vom Maximum 4.8 die Lösbarkeit des Maximierungsproblems, bietet aber keine Hilfestellung, die Punkte x ∈ I zu finden, an denen f (x) maximal wird.
Mit der notwendigen Bedingung für lokale Extrema 3.3 kann der Kandidatenkreis aber eingeschränkt
werden: Ist f in a ∈ I differenzierbar mit f 0 (a) 6= 0, so hat f in a nicht einmal ein lokales Extremum.
(Dies geht zunächst nur für Funktionen einer Variablen, in 7.7 werden wir das verallgemeinern.)
5.4 Kandidaten für Extremalstellen, kritische Punkte. Ist f : I → R eine Funktion auf einem
Intervall I, so kommen als Kandidaten für die Lösung eines Optimierungsproblems für f in Frage:
• kritische Punkte, d.h. innere Punkte von I, in denen f differenzierbar ist mit f 0 (x) = 0,
• Punkte aus I, in denen f nicht differenzierbar ist,
• Randpunkte von I, bzw. das Randverhalten (bei Randpunkten, die nicht zu I gehören, bzw. bei
unbeschränktem I).
5.5 Beispiele.
(a) maxx∈[−1,1] x3 . Da f (x) = x3 auf R differenzierbar ist mit f 0 (x) = 3x2 müssen wir nur x = 0 und die
beiden Randpunkte x = ±1 betrachten. Der kritische Punkt x liefert nicht einmal ein lokales Extremum.
Das Maximum wird für x = 1 angenommen mit Wert f (1) = 1.
(b) maxx∈[0,+∞[ xe−x . Wieder ist f (x) = xe−x differenzierbar mit f 0 (x) = (x − 1)e−x . Neben x = 1
mit f (1) = 1/e ist der Randpunkt x = 0 mit f (0) = 0 und das Grenzverhalten von f für x → +∞ zu
betrachten. Wegen limx→+∞ xe−x = 0 liefert x = 1 das Maximum mit Wert f (1) = 1/e.
(c) minx∈[1,+∞[ xe−x . Die obige Überlegung zeigt, dass dieses Minimierungsproblem nicht lösbar ist. Als
Ersatz können wir inf x∈[1,+∞[ xe−x = 0 ansehen.
147
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
1
1
1
ã
maxx∈[0,+∞[ xe−x
kritischer Punkt x = 1 liefert Maximum
1
-1
1
maxx∈[−1,1] x3
Randmaximum bei x = 1
1
minx∈[1,+∞[ xe−x
keine Lösung
1
ã
-1
Abbildung 4.26: Drei Optimierungsprobleme.
(d) Minimiere den Abstand des Punktes ~a von der Ursprungsgeraden mit normiertem Richtungsvektor ~v
(vgl. 3.§3.3.7):
min k~a − λ~v k
λ∈R
Zunächst ist nicht klar, ob die zu minimierende Funktion λ 7→ k~a − λ~v k differenzierbar ist. Wenn wir
stattdessen das Quadrat des zu minimierenden Abstands
f (λ) := k~a − λ~v k2 = h~a − λ~v |~a − λ~v i = h~a|~ai − 2λh~a|~v i + λ2 h~v |~v i = k~ak2 − 2λh~a|~v i + λ2
betrachten, erhalten wir etwas Differenzierbares und das Ganze entpuppt sich als Suche nach dem Scheitel
einer Parabel. Es gilt
f 0 (λ) = 2λ − 2h~a|~v i,
und λ = h~a|~v i ist kritischer Punkt mit f (λ) = k~ak2 − h~a|~v i2 . Wegen limλ→±∞ f (λ) = +∞ muss dort ein
Minimum vorliegen, welches dann auch die Lösung des ursprünglichen
p Minimierungsproblems liefert. Der
Abstand wird also für den Geradenpunkt h~a|~v i~v minimal mit Wert k~ak2 − h~a|~v i2 .
6
Weitere Anwendungen der Differentialrechnung
6.1 Newton-Iteration. Eine Gleichung f (x) = b mit einer nichtlinearen Funktion f kann i.A. nicht exakt gelöst
werden. Wir können uns auf den Fall b = 0 beschränken,
d.h. Nullstellen von f bestimmen. Ist f differenzierbar
und haben wir schon eine Näherung x0 für eine Nullstelle ξ von f gefunden, so können wir f durch die Tangente
t(x) = f (x0 ) + f 0 (x0 )(x − x0 ) approximieren und die Nullstelle x1 von t als neue Näherung verwenden. Selbige berechnet sich aus 0 = t(x1 ) = f (x0 ) + f 0 (x0 )(x1 − x0 ) zu
x1 = x0 − f (x0 )/f 0 (x0 ) falls f 0 (x0 ) 6= 0. Wir erhalten die
sogenannte Newton-Iteration
xk+1 = xk −
f (xk )
f 0 (xk )
für k ∈ N0 .
Man kann beweisen (siehe z.B. [Kön, Band 1, 14.4]), dass
das Newton-Verfahren quadratisch konvergiert, wenn man
den Startwert x0 genügend nahe an ξ wählt und wenn ξ
eine einfache Nullstelle ist (d.h. f (ξ) = 0 aber f 0 (ξ) 6= 0).
f (xk )
f (xk+1 )
f (xk+2 )
ξ xk+2 xk+1
xk
Abbildung 4.27: Newton-Verfahren.
148
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
Auf Details gehen wir nicht ein, sondern illustrieren die Problematik an zwei Bildern.
konvergente Newton-Iteration
divergente Newton-Iteration
x0
x0
x1
x3
x2
x1
Abbildung 4.28: Zur Konvergenzproblematik beim Newton-Verfahren.
6.2∗ Newton-Iteration im Komplexen. Das Newton-Verfahren ist auch im Komplexen (d.h. für
komplex differenzierbare“ Funktionen f : D ⊂ C → C und komplexe
Startwerte) anwendbar. Für
√
”
a
—
d.h.
die Menge der Startwerte,
f (z) = z 2 − a mit a ∈ R+ ist
dann
der
Einzugsbereich“
von
√
”
für die das Verfahren gegen a konvergiert — nicht mehr die positive reelle Achse, sondern die rechte
Halbebene. Ist f ein beliebiges Polynom vom Grad zwei, so fungiert die Mittelsenkrechte zwischen den
beiden Nullstellen als Trennlinie deren Einzugsbereiche. Für Polynome f mit grad(f ) ≥ 3 wird die Bestimmung der Einzugsbereiche kompliziert. Abbildung 4.29 zeigt die Einzugsbereiche
der drei Nullstellen
√
von f (z) = z 3 − 1.√Der Einzugsbereich von 1 ist rot, der von e2πi/3 = 1/2 + i 3/2 ist grün und der von
−e2πi/3 = 1/2 − i 3/2 ist blau gefärbt. Die Trennlinie zwischen den drei Einzugsbereichen hat fraktale
Gestalt. Man kann zeigen, dass jeder Punkt auf dieser Trennlinie ein Drei-Länder-Punkt“ ist, d.h. an
”
einen roten, einen grünen und einen blauen Bereich angrenzt.
Abbildung 4.29: Einzugsbereiche beim Newton-Verfahren für z 3 − 1 im Komplexen.
149
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
6.3 Beispiele zur Newton-Iteration.
(a) f (x) = x2 − a, a > 0 (numerische Berechnung von
√
a). Das zugehörige Newton-Verfahren lautet
a
1
xk − a
=
= xk −
xk +
2xk
2
xk
2
xk+1
und entpuppt sich gerade als das aus 1.§2.8.5 bekannte Babylonische Wurzelziehen.
(b) f (x) = (x − 5)ex + 5 (siehe Wiensches Verschiebungsgesetz 4.4). Wir wählen den Startwert x0 = 5
und erhalten die Rekursion
xk+1 = xk −
(xk − 5)exk + 5
(xk − 4)exk
für k ≥ 0.
Die ersten vier Rekursionsschritte liefern schon elf Nachkommastellen.
k
xk
0
5
1
4, 966310265004
2
4, 965115686301
3
4, 965114231746
4
4, 965114231744
Man vergleiche mit der Intervallhalbierung in 4.4.
6.4 Regeln von Bernoulli und de l’Hospital. Sind f und g in ]a, a + r], r > 0, differenzierbar mit
g 0 (x) 6= 0 für x ∈]a, a + r[ und gilt
lim f (x) = 0 = lim g(x)
x→a+
x→a+
oder
lim f (x) = +∞ = lim g(x)
x→a+
x→a+
so folgt
f (x)
f 0 (x)
,
= lim 0
x→a+ g(x)
x→a+ g (x)
falls der zweite Grenzwert existiert. Entsprechend gilt das für links- oder zweiseitige Grenzwerte sowie
für uneigentliche Grenzwerte erster Art.
lim
Beweis∗ . Im Fall limx→a+ f (x) = 0 = limx→a+ g(x) können wir f und g durch f (a) := 0, g(a) := 0 auf
[a, a + r] stetig fortsetzen und den verallgemeinerten Mittelwertsatz 3.6 anwenden. Zu jedem x ∈]a, a + r[
gibt es daher ein ξ ∈]a, x[ mit
f (x)
f (x) − f (a)
f 0 (ξ)
=
= 0 .
g(x)
g(x) − g(a)
g (ξ)
Existiert nun limx→a+
f 0 (x)
g 0 (x)
=: c, so folgt für x → a+ auch ξ → a+ und damit
f 0 (ξ)
f (x)
= lim 0
= c.
x→a+ g(x)
ξ→a+ g (ξ)
lim
Die verbleibenden Fälle führt man durch die üblichen Substitutionen (d.h. f (x) 7→ 1/f (x) bzw. x 7→ 1/x)
auf den eben behandelten zurück.
Beispiele. f (x) = sin x, g(x) = x, a = 0: Wegen
f 0 (x)
g 0 (x)
= cos x → 0 für x → 0 existiert limx→0
sin x
x
= 1.
Dagegen kommt man bei der Diskussion von limx→0 x sin x1 mit der Wahl f (x) = sin x1 , g(x) = x1 , a = 0
zu keinem Ziel. Man sollte sich also nicht alleine auf die Regeln von Bernoulli und de l’Hospital verlassen.
6.5∗ Stirling-Formel. Für große n ∈ N kann man n! näherungsweise berechnen durch
n n
√
n! ' 2πn
für n → ∞.
e
Hierbei gilt die Fehlerabschätzung
1< √
n!
< e1/(12/n−1))
2πn(n/e)n
für n ≥ 2.
Der Beweis verwendet die Logarithmusreihe 4.16 (m) und das Leibniz-Kriterium 1.§4.2.6. Details siehe
z.B. [FiKau, §10.1.5].
150
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
6.6 Lineare Differentialgleichungen erster Ordnung mit konstanten Koeffzienten haben die
Form ẋ = ax + b mit (reellen oder komplexen) Konstanten a und b. Im Fall b = 0 nennen wir sie homogen,
ansonsten inhomogen. Geben wir zusätzlich noch eine Anfangsbedingung x(t0 ) = x0 vor, so sprechen wir
von einem Anfangswertproblem. Wir haben den folgenden Lösungssatz.
Die allgemeine Lösung im homogenen Fall ẋ = ax lautet x(t) = ceat mit einer freien Konstanten c.
Jedes Anfangswertproblem ẋ = ax, x(t0 ) = x0 , hat genau eine auf ganz R definierte Lösung, nämlich
x(t) = x0 ea(t−t0 ) .
Die allgemeinen Lösung im inhomogenen Fall ẋ = ax+b ist x(t) = ceat −b/a falls a 6= 0 bzw. x(t) = bt+c
falls a = 0 mit einer freien Konstanten c. Jedes Anfangswertproblem ẋ = ax + b, x(t0 ) = x0 ist auf R
eindeutig lösbar mit x(t) = (x0 + b/a)ea(t−t0 ) − b/a für a 6= 0 bzw. x(t) = b(t − t0 ) + x0 für a = 0.
Beweis. Dass die angegebenen Funktionen jeweils Lösungen sind, zeigt man durch Nachrechnen. Wir
müssen also nur noch die Eindeutigkeitsaussagen beweisen.
Ist x eine Lösung von ẋ = ax mit x(t0 ) = x0 , so folgt für h(t) := e−a(t−t0 ) x(t) durch Differenzieren
ḣ(t) = (ẋ(t) − ax(t))e−a(t−t0 ) = 0 für t ∈ R. Nach dem Identitätssatz 3.8 ist h also konstant mit Wert
h(t) = h(t0 ) = x(t0 ) = x0 . Dies zeigt x(t) = x0 ea(t−t0 ) und liefert die Eindeutigkeit der Lösung des
Anfangswertproblems im homogenen Fall. Für die allgemeine Lösung gehe man analog vor.
Die Aussagen im inhomogenen Fall spielen wir nun mit folgender Beobachtung auf die schon bewiesenen
im homogenen Fall zurück: Ist x̃ Lösung von ẋ = ax + b, so löst x = x̃ + b/a für a 6= 0 bzw. x = x̃ − bt
für a = 0 die zugehörige homogene DGL ẋ = ax.
6.7 Anwendungsbeispiel: Ein- und Ausschalten im RL-Kreis. Wir betrachten einen einfachen
Stromkreis mit einer Spannungsquelle, einem Widerstand von R Ohm und einer Spule von L Henry —
einen sogenannten RL-Kreis. Nach der Kirchhoffschen Regel gilt für den Strom I(t) und die Spannung
U (t) zur Zeit t die Beziehung
˙ + RI(t) = U (t).
LI(t)
Wird zur Zeit t = 0 eine Spannung U0 angelegt, so gilt I(0) = 0 und U (t) = U0 für t ≥ 0. Die zugehörige
Lösung der inhomogenen DGL I˙ = −(R/L)I + U0 /L zum Anfangswert I(0) = 0 lautet gemäß 6.6 dann
I(t) =
U0 1 − e−(R/L)t
R
für t ≥ 0.
Wegen der Selbstinduktion stellt sich also nicht sofort nach dem Ohmschen Gesetz der Strom I = U0 /R
ein, sondern erst asymptotisch.
Fließt umgekehrt zur Zeit t = 0 ein Strom I(0) = I0 und wird der RL-Kreis kurzgeschlossen, d.h. gilt
U (t) = 0 für t > 0, so lösen wir das Anfangswertproblem I˙ = −(R/L)I, I(0) = I0 , und erhalten mit 6.6
I(t) = I0 e−(R/L)t
für t ≥ 0.
Dank der Selbstinduktion verschwindet der Strom also nicht sofort, sondern er klingt exponentiell ab.
L
U
I0
I
I0
I(t)
R
U0
U0
U (t)
I(t)
ein
0
U (t)
t
aus
0
Abbildung 4.30: Ein- und Ausschaltvorgang im RL-Kreis: Strom- und Spannungsverlauf.
t
151
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
6.8 Potenzreihenansatz bei Differentialgleichungen. Lösungen von Differentialgleichungen
wie
P∞
in 6.6 fallen nicht vom Himmel. Oft kann man sie durch einer Potenzreihenansatz x(t) = k=0 ak (t−t0 )k
erraten. Mit selbigem geht beispielsweise das Anfangswertproblem ẋ = ax, x(t0 ) = x0 , nach gliedweisem
Differenzieren 2.5 über in
a1 + 2a2 (t − t0 ) + 3a3 (t − t0 )2 + · · · = a a0 + a1 (t − t0 ) + a2 (t − t0 )2 + · · · ,
a0 = x0 .
Ein Koeffizientenvergleich liefert
a0 = x0 ,
a1 = aa0 ,
2a2 = aa1 ,
3a3 = aa2 ,
und allgemein kak = aak−1 . Wir erhalten mit vollständiger Induktion ak =
x(t) =
...,
1 k
k! a x0
für k ∈ N0 , d.h.
∞
∞
X
X
1 k
1
a x0 (t − t0 )k = x0
[a(t − t0 )]k = x0 ea(t−t0 ) .
k!
k!
k=0
k=0
Achtung. Ein Potenzreihenansatz kann schief gehen (z.B. wenn man eine Potenzreihe mit Konvergenzradius R = 0 erhält). Er stellt auch nicht sicher, ob weitere Lösungen existieren.
6.9∗ Wegweiser Differentialgleichungen. Wir geben in diesem Skript keine geschlossene Einführung
in die Theorie von Differentialgleichungen, sondern streuen die Behandlung spezieller Typen an passenden
Stellen ein.
Typ
ẋ = ax + b
ẍ + aẋ + bx = c
x(r) + · · · + a1 ẋ + a0 x = 0
ẋ = c(t)g(x)
ẋ = a(t)x + b(t)
~x˙ = A~x
¨ + K~x = 0
M ~x
Bezeichnung
lineare DGL 1. Ordnung mit konstanten Koeffizienten
lineare DGL 2. Ordnung mit konstanten Koeffizienten
lineare DGL r-ter Ordnung mit konstanten Koeffizienten
DGL mit getrennten Variablen
lineare DGL 1. Ordnung
lineare Systeme 1. Ordnung mit konstanten Koeffizienten
schwingende Systeme
Referenz
4.§3.6.6
3.§3.1.23
5.§5.2.7
4.§5.2
4.§5.3
5.§6.5.1
5.§6.4.19
Auf die allgemeine Theorie gehen wir nur kurz in 4.§5.1 ein. Eine ausführliche Behandlung von (gewöhnlichen und partiellen) erfolgt im dritten Teil der Vorlesung.
7
Partielle Ableitungen bei Funktionen mehrerer Variablen
7.1 Worum geht es? Bisher haben wir in §3 nur Funktionen einer reellen Variablen betrachtet. Davon
wollen wir jetzt abweichen. Die volle Diskussion des Ableitungsbegriffs für eine Funktion f mehrerer
Variablen müssen wir auf Kapitel 6 verschieben. Aber wir können jetzt schon die vorhandenen Methoden
auf die partiellen Funktionen anwenden, die aus f entstehen, wenn wir alle Variable bis auf eine festhalten.
Das wird uns insbesondere ein notwendiges Kriterium für lokale Extrema liefern.
7.2 Definition: partielle Ableitungen. Ist die Funktion f in einer Umgebung U ⊂ Rn eines Punktes
~a = (a1 , . . . , an ) ∈ U definiert und ist die k-te partielle Funktion
t 7→ f (a1 , . . . , ak−1 , t, ak+1 , . . . , an ) = f (~a + t~ek ),
k = 1, . . . , n,
in x = ak differenzierbar, so heißt ihre Ableitung
∂
f (a1 , . . . , ak−1 , t, ak+1 , . . . , an ) − f (~a)
1
f (~a) = lim
= lim (f (~a + h~ek ) − f (~a))
t→ak
h→0 h
∂xk
t − ak
die partielle Ableitung nach der k-ten Variablen von f im Punkt ~a. Weitere übliche Bezeichnungen sind
∂f
(~a),
∂xk f (~a)
oder
fxk (~a).
∂xk
Bei vektorwertigen Funktionen werden partielle Ableitungen komponentenweise gebildet.
Achtung. Bilden von
∂
∂xk f
bedeutet: Halte in f alle Variablen bis auf xk fest und leite nach xk ab.“
”
152
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
Anmerkung. Da U eine Umgebung von ~a ist, so finden wir eine offene Kugel und dann auch einen
offenen Quader I1 × · · · × In ⊂ U , der ~a enthält. Die k-te partielle Funktion ist somit zumindest auf Ik
definiert. Damit kennen wir diese Funktion auf einer Umgebung von ak und können beginnen, sie in ak
auf Differenzierbarkeit zu untersuchen.
7.3 Höhere partielle Ableitungen. Ist f in einer Umgebung U ⊂ Rn eines Punktes ~a ∈ U definiert,
überall dort nach der k-ten Variablen differenzierbar und existiert in ~a für ∂x∂ k f die partielle Ableitung
nach der l-ten Variablen
∂2
∂
∂
f (~a) :=
f (~a),
∂xl ∂xk
∂xl ∂xk
so nennen wir selbige die zweite partielle Ableitung nach der k-ten und l-ten Variablen von f im Punkt ~a.
Man schreibt hierfür auch
∂2f
(~a),
∂xl ∂xk
∂xl ,xk f (~a)
oder
fxl ,xk (~a).
Partielle Ableitungen höherer Ordnung werden entsprechen sukzessive gebildet.
Achtung. Bei höheren partiellen Ableitungen kommt es zunächst auf die Reihenfolge an, wir müssen also
2
2
zwischen ∂x∂l ∂xk f und ∂x∂k ∂xl f unterscheiden. Das erste bedeutet leite zuerst nach der k-ten Variablen
”
ab, dann nach der l-ten“, im zweiten Fall geht es gerade anders herum. Später wird sich zeigen, dass zwei
gemischte partielle Ableitungen übereinstimmen, falls jeweils gleich oft nach jeder Variablen differenziert
wird und beide in einer Umgebung von ~a stetig sind (siehe 6.§1.2.4).
Beispiel. Für f (x) = x3 + xy 2 lauten die beiden ersten partiellen Ableitungen
∂
f (x, y) = 2xy,
∂y
∂
f (x, y) = 3x2 + y 2 ,
∂x
die vier zweiten partiellen Ableitungen sind
∂2
f (x, y) = 6x,
∂x2
∂2
f (x, y) = 2y,
∂y∂x
∂2
f (x, y) = 2y,
∂x∂y
∂2
f (x, y) = 2x.
∂y 2
Wer will, kann die acht partiellen Ableitungen dritter Ordnung ausrechnen.
7.4 Die Funktionenklassen C r und C ∞ . Eine Funktion f mehrerer Variablen heißt von der Klasse C r ,
wenn für f auf dem gesamten Definitionsbereich alle partiellen Ableitungen bis zur r-ten Ordnung existieren und stetig sind. Können alle partiellen Ableitungen beliebiger Ordnung gebildet werden, so nennen
wir f eine C ∞ -Funktion. Wenn nötig, so können bei dieser Bezeichnung auch Definitions- und Zielbereich
angegeben werden, d.h. man schreibt C r (D, R) etc.
7.5 Gradient eines Skalarfeldes. Besitzt ein Skalarfeld f : D ⊂ Rn → R in einem Punkt ~a ∈ D alle
partiellen Ableitungen erster Ordnung, so heißt
∂
a)
∂x1 f (~
..
grad f (~a) :=
.
∂
f
(~
a
)
∂xn
der Gradient von f an der Stelle ~a. Der Gradient wird auch mit
∇f (~a)
∂
bezeichnet, wobei ∇ := ( ∂x
, . . . , ∂x∂n ) Nabla-Operator genannt wird.
1
Achtung. Den Gradienten kann man nur für ein Skalarfeld f bilden, grad f (~a) ist dann ein Spaltenvektor,
der oft auch als Zeilenvektor geschrieben wird. Kann grad f (~a) an jeder Stelle im Definitionsbereich
D ⊂ Rn von f gebildet werden, so ist grad f eine auf D definierte Funktion mit Zeilenvektoren der Länge
n als Werten.
153
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
7.6 Interpretation des Gradienten. Die Komponenten des Gradienten einer Funktion f geben die
Steigungen der partiellen Funktionen an. Sie besagen also, wie sich f längs der Koordinatenachsen verhält.
Abbildung 4.31 illustriert dies am Beispiel eines Skalarfeldes zweier Variablen: Die Graphen der beiden
partiellen Funktionen x 7→ f (x, b) und y 7→ f (a, y) werden in die jeweiligen Schnittebenen y = b bzw.
y = a gezeichnet. Ihre Steigungen in x = a bzw. y = b sind gerade die Komponenten ∂f
∂x (a, b) bzw.
∂f
∂y (a, b) des Gradienten von f an der Stelle (a, b).
f (a, b)
Schnitt parallel zur (x, z)-Ebene, Tangentensteigung in x-Richtung:
∂f
(a, b).
∂x
Schnitt parallel zur (y, z)-Ebene, Tangentensteigung in y-Richtung:
∂f
(a, b).
∂y
b
(a, b)
a
Abbildung 4.31: Die Komponenten des Gradienten geben die Steigung längs der Koordinatenachsen an.
In 6.§1.3.5 werden wir für C 1 -Skalarfelder im Rahmen der Differentialrechnung mehrerer Veränderlicher
eine weitere Interpretation bekommen: dann zeigt der Gradient in die Richtung stärksten Anstiegs.
7.7 Notwendige Bedingung für lokale Extrema. Hat ein Skalarfeld f an der Stelle ~a ein lokales
Extremum und ist f dort partiell nach allen Variablen differenzierbar, so gilt grad f (~a) = (0, . . . , 0). Ein
Punkt ~a ∈ Rn mit grad f (~a) = (0, . . . , 0) heißt kritischer Punkt.
Beweis. Würde eine Komponenten von grad f (~a) nicht verschwinden, so hätte die entsprechende partielle
Funktion gemäß der entsprechenden notwendigen Bedingung für Funktionen einer Variablen 3.3 kein
lokales Extremum und damit auch nicht f .
7.8 Beispiele. Wir betrachten die beiden durch
f (x, y) := x3 − 3x − 4y 2 + 2,
2
2x y
g(x, y) := x2 + y 2
0
für (x, y) 6= (0, 0),
für (x, y) = (0, 0),
definierten Skalarfelder f, g : R2 → R. Wir berechnen
grad f (x, y) = (3x2 − 3, −8y)
für (x, y) ∈ R2
und erhalten grad f (x, y) = (0, 0) genau dann, wenn x2 − 1 = 0 und y = 0, d.h. (x, y) = (±1, 0). Damit
hat f zwei kritische Punkte. Wegen
f (1, h)
f (1 + h, 0)
= −4h2 < 0
= (h + 3)h2 > 0
für h 6= 0,
für h > −3, h 6= 0
154
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
nimmt f in der Nähe von (1, 0) sowohl positive als auch negative Werte an, hat dort also kein lokales
Extremum. In 6.§1.4.7 werden wir ein hinreichendes Kriterium für lokale Extrema kennenlernen, mit dem
wir dies ebenfalls nachweisen können. Dann erkennen wir auch, dass in (−1, 0) ein lokales Maximum
vorliegt.
Bei g können wir den Gradienten an jeder Stelle (x, y) 6= (0, 0) mit den Rechenregeln ausrechnen. Im
Ursprung geht dies wegen der abschnittsweisen Definition nicht. Wegen g(x, 0) = g(0, y) = 0 für x, y ∈ R
sind aber beide partielle Funktionen im Ursprung konstant, d.h. die partiellen Ableitungen verschwinden.
Wir erhalten
2xy 3
2x2 (x2 − y 2 )
,
für (x, y) 6= (0, 0),
(x2 + y 2 )2 2(x2 + y 2 )2
grad g(x, y) =
(0, 0)
für (x, y) = (0, 0)
und erkennen, dass der Ursprung der einzige kritische Punkt von g ist. Wegen g(r, r) = 2r > 0 und
g(r, −r) = −2r < 0 für r > 0 liegt dort aber kein lokales Extremum vor.
1
-1
0
0
1
-1
0
1
-1
0
1
-1
10
10
0
0
-10
-10
2
1
1
-1
0
0
1
0
1
-1
-1
0
0
1
-1
-1
10
10
0
0
-10
-10
-2
-3
-2
-1
1
0
2
3
Abbildung 4.32: Graphen und Niveaulinien zu f (x, y) = x3 − 3x − 4y 2 + 2.
-1
0
1
-1
0
1
-1
0
2
1
1
1
1
1
0
0
0
-1
-1
-1
-1
0
-1
1
0
0
-1
-1
1
Abbildung 4.33: Graphen und Niveaulinien zu g(x, y) =
0
1
2x2 y
x2 +y 2
-2
-2
-1
0
1
für (x, y) 6= (0, 0), g(0, 0) = 0.
2
155
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
§4
1
Integralrechnung in einer Variablen
Integration von Treppenfunktionen und integrierbare Funktionen
1.1 Zur Problematik der Flächenmessung. Die Integralrechnung hat ihre Wurzeln in der Bestimmung von Flächeninhalten. Das einzige Flächenstück, für welches man den Flächeninhalt einfach angeben
kann, ist das Rechteck. Vielen Flächenstücken — wie Dreiecken oder andere Vielecken — kann man dann
durch Zerlegen bzw. Ergänzen zu Rechtecken ebenfalls Flächeninhalte zuordnen, bei einem krummlinig“
”
begrenzten Flächenstück — wie einem Kreis — ist hierbei ein Grenzübergang notwendig. Ansätze hierzu
finden sich bei Archimedes oder Cavalieri. Diesen Weg gehen wir auch bei der Definition des Integrals.
Wir erklären zunächst ein Integral für einfache“ Funktionen (Treppenfunktionen) und erweitern die”
sen elementaren Integralbegriff durch einen Grenzübergang für eine genügend große Funktionenklasse
(Regelfunktionen).
1.2 Treppenfunktionen. Eine Funktion ϕ einer reellen Variablen heißt Treppenfunktion, wenn es
endlich viele Zahlen x0 < x1 < . . . < xn gibt, so dass ϕ im Inneren der Intervalle ]xk−1 , xk [ jeweils
konstant ist und außerhalb von [x0 , xn ] verschwindet. Auf die Werte ϕ(x0 ), . . . , ϕ(xn ) kommt es nicht an.
Gilt ϕ(x) = 0 für x ∈
/ [c, d], so nennen wir ϕ Treppenfunktion auf [c, d] oder sagen ϕ lebt auf [c, d]“.
”
Beispiel. Ist I ⊂ R ein beschränktes Intervall, so ist die charakteristische Funktion
(
1 für x ∈ I,
χI (x) :=
0 für x ∈ R r I,
eine Treppenfunktion auf I. Die charakteristischen Funktionen erweisen sich als die Grundbausteine“
”
der Treppenfunktionen.
1.3 Darstellung von Treppenfunktionen. Ist ϕ eine
Treppenfunktion auf [x0 , xn ] mit
(
yk für x ∈ Ik =]xk−1 , xk [, k = 1, . . . , n,
ϕ(x) =
0 für x ∈ R r [x0 , xn ],
so gilt
ϕ(x) =
n
X
x0
yk χIk (x)
für x ∈ R r {x0 , x1 , . . . , xn }.
k=1
x1
xn
Abbildung 4.34: Eine Treppenfunktion.
Ob diese Darstellung auch für die Randpunkte der Teilintervalle Ik gilt, ist für die Integralrechnung
unwichtig, da diese n + 1 Punkte zum Flächeninhalt keinen Beitrag liefern. Abgesehen davon kann also
jede Treppenfunktion als Linearkombination von charakteristischen Funktionen dargestellt werden.
Achtung. Tatsächlich sind sogar mehrere derartige Darstellungen möglich. Beispielsweise gilt
χ[0,3] = χ]0,1[ + χ[1,3[ = 2χ[0,4] − χ[0,3] − 2χ]3,4] .
Wir sollten es also beim Integrieren mit der Gleichheit zweier Funktionen nicht zu genau“ nehmen.
”
1.4 Gleichheit fast überall. Zwei Funktionen f und g einer reellen Variablen heißen fast überall gleich,
f (x) = g(x)
fast überall,
oder kurz
f =g
wenn f (x) 6= g(x) für höchstens abzählbar unendlich viele x ∈ R gilt.
f.ü.,
156
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Dieser Gleichheitsbegriff ist für die Integralrechnung nützlich. Wir können jetzt beispielsweise sagen eine
”
Treppenfunktion ist fast überall als Linearkombination von charakteristischen Funktionen darstellbar
ϕ=
n
X
yk χIk
f.ü.,
k=1
und brauchen uns nicht mehr um die Intervallrandpunkte xk kümmern.
1.5 Integration von Treppenfunktionen.
Treppenfunktion auf [c, d] mit Darstellung
ϕ=
n
X
yk χIk
Für eine
f.ü.
k=1
für Teilintervalle I1 = [x0 , x1 ], . . . , In = [xn−1 , xn ] von [c, d]
erklären wir das Integral
Z
d
ϕ(x) dx :=
c
n
X
yk ∆xk ,
∆xk := xk − xk−1 .
k=1
x0
x1
xn
Abbildung 4.35: Integral einer Treppenfunktion.
Wir haben also einfach die Flächeninhalte der Rechtecke mit Grundlinien Ik = [xk−1 , xk ] und Höhen yk
unter dem Graphen von ϕ addiert.
Da eine Treppenfunktion auf mehrere Arten als Linearkombination von charakteristischen Funktionen
Rd
dargestellt werden kann, müssen
Pnwir uns noch davon überzeugen, dass die Zahl c ϕ(x) dx nicht von
der Wahl der Darstellung ϕ = k=1 yk χIk f.ü. abhängt. Das läuft aber letztlich darauf hinaus sich klar
zu machen, dass sich der Flächeninhalt eines Rechtecks nicht ändert, wenn wir es in zwei Teilrechtecke
zerlegen und deren Flächeninhalte addieren.
1.6 Programm. Momentan können wir über Treppenfunktionen integrieren, d.h. Flächenstücke, deren
Rand sich aus endlich vielen Strecken zusammensetzt. Jetzt kommt der angekündigte Grenzübergang auf
krummlinig berandete Flächenstücke. Mathematisch gesehen ist das ein spannender Moment und es gibt
mehrere Möglichkeiten. Letztlich hängt es vom Arbeitsaufwand ab, den man an dieser Stelle betreibt,
wie vielen Flächenstücken“ man einen Flächeninhalt“ zuordnen kann. Wir wählen einen Zugang über
”
”
das Regel- oder Cauchy-Integral , welcher alles Wesentliche zeigt, ohne technisch zu aufwendig zu werden.
Es stellt sich heraus, dass man nicht jeder Menge (in der Ebene oder allgemein im Rn ) einen Inhalt zuordnen kann. Diese Tatsache steckt beispielsweise hinter dem Banach-Hausdorff-Tarski-Paradoxon, welches
besagt, dass man die Einheitskugel K1 (~0) im R3 in fünf Teile aufteilen kann, welche nach Verschieben
und Drehen zusammengesetzt zwei Einheitskugeln ergeben.
1.7 Supremumsnorm. Ist die Funktion f auf einer Menge D definiert und beschränkt, so definieren
wir die Supremumsnorm von f durch
kf k∞ = kf k∞,D := sup |f (x)| = sup{|f (x)| | x ∈ D}.
x∈D
Ist f vektorwertig, so hat man dabei den Betrag |f (x)| durch die Norm kf (x)k zu ersetzen. Die Supremumsnorm von f ist also die kleinste obere Schranke für die Funktionswerte von f .
Die Schreibweise kf k∞,D hebt heraus, auf welcher Menge das Supremum von f zu bilden ist. Meistens
ist das aber aus dem Zusammenhang klar und man schreibt einfach kf k∞ .
Achtung.
√ Die Supremumsnorm kf k∞ ist für eine Funktion erklärt. Das ist etwas anderes als die Norm
k~xk = x1 2 + · · · + xn 2 eines Vektors im Rn . Tatsächlich haben aber beide Normen dieselben grundlegenden Eigenschaften, die wir uns für eine Längen- und Abstandsmessung wünschen — das eine Mal für
Vektoren (siehe 3.§3.2.9), jetzt für Funktionen.
157
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
1.8 Eigenschaften der Supremumsnorm. Sind f und g auf D definiert und beschränkt, so gilt
(a) (Positive Definitheit) kf k∞ ≥ 0 und kf k∞ = 0 genau für f = 0,
(b) (Homogenität) kλf k∞ = |λ|kf k∞ für eine beliebige Zahl λ,
(c) (Dreiecksungleichung) kf + gk∞ ≤ kf k∞ + kgk∞ .
Beweis. Die Regeln (a) und (b) sind unmittelbar einsichtig. Für (c) benutzen wir die Dreiecksungleichung
|f (x) + g(x)| ≤ |f (x)| + |g(x)| ≤ kf k∞ + kgk∞ und bilden anschließend das Supremum über alle x ∈ D.
1.9 Gleichmäßiger Abstand von Funktionen. Mit der Supremumsnorm können wir den gleichmäßigen Abstand zweier Funktionen durch kf − gk∞ messen. Es gilt
kf − gk∞ < ε
⇔
|f (x) − g(x)| < ε für alle x ∈ D.
Das kann man sich so vorstellen, dass der Graph von g ganz im ε-Schlauch um den Graphen von f verläuft.
g
f
c
d
c
d
c
d
Abbildung 4.36: Gleichmäßiger Abstand von Funktionen und drei ε-Schläuche.
1.10 Abschätzung für Integrale von Treppenfunktionen. Für zwei Treppenfunktionen ϕ und ψ
auf [c, d] gilt
Z
Z d
d
ϕ dx −
ψ dx ≤ (d − c)kϕ − ψk∞ .
c
c
Beweis. Durch Einfügen von genügend vielen Zwischenpunkten in [c, d] können wir erreichen, dass es
Zahlen x0 , . . . , xn gibt mit c = x0 < x1 < . . . < xn = d, so dass ϕ und ψ auf Ik =]xk−1 , xk [ jeweils
konstant sind mit Wert yk bzw. zk . Dann gilt
Z
Z d
n
n
n
n
X
d
X
X
X
ϕ dx −
ψ dx = yk ∆xk −
zk ∆xk = (yk − zk )∆xk ≤
|yk − zk |∆xk
c
c
k=1
≤
n
X
k=1
k=1
k=1
k=1
∆xk max |yk − zk | = (d − c)kϕ − ψk∞ .
k=1,...,n
1.11 Regelfunktionen. Eine beschränkte Funktion f heißt integrierbar oder Regelfunktion auf einem
Intervall [c, d], wenn sie dort beliebig genau gleichmäßig durch Treppenfunktionen approximierbar ist.
Das bedeutet: zu jedem ε > 0 gibt es eine Treppenfunktion ϕ auf [c, d] mit
kf − ϕk∞ < ε,
oder — was dasselbe ist — es gibt eine Folge von Treppenfunktionen ϕn auf [c, d] gibt mit
kf − ϕn k∞ → 0
für n → ∞.
158
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
c
d
c
d
c
d
Abbildung 4.37: Eine Regelfunktion kann gleichmäßig durch Treppenfunktionen appoximiert werden.
1.12 Integration von Regelfunktionen. Ist f auf [c, d] integrierbar und dort gleichmäßig durch eine
Folge von Treppenfunktionen ϕn approximierbar, so existiert der Grenzwert
Z d
Z d
f (x) dx := lim
ϕn (x) dx
n→∞
c
c
und ist unabhängig von der Wahl der approximierenden Folge (ϕn )n .
Diesen Grenzwert nennen wir das Integral von f über [c, d].
c
d
c
d
c
d
Abbildung 4.38: Integral einer Regelfunktion als Grenzwert der Integrale über Treppenfunktionen.
Beweis. Wir beweisen zuerst die Existenz des Grenzwerts. Zu ε > 0 wählen wir eine Zahl nε ∈ N mit
kf − ϕn | < ε für n ≥ nε . Mit der Dreiecksungleichung 1.8 (c) folgt
kϕn − ϕm k∞ = k(f − ϕm ) − (f − ϕn )k∞ ≤ kf − ϕm k∞ + kf − ϕn k∞ < 2ε
und daher mit 1.10 auch
Z
Z d
d
ϕm (x) dx ≤ (d − c)kϕn − ϕm k∞ < 2(d − c)ε
ϕn (x) dx −
c
c
für n, m ≥ nε
für n, m ≥ nε .
Rd
Also ist die Folge der Zahlen c ϕn (x) dx eine Cauchy-Folge und damit konvergent. Nun zeigen wir, dass
der Grenzwert nicht von der Wahl der approximierenden Folge abhängt. Sind (ϕn )n und (ψn )n zwei
Folgen von Treppenfunktionen, die f gleichmäßig auf [c, d] approximieren, so folgt ähnlich wie zuvor
kϕn − ψn k∞ ≤ kf − ϕn k∞ + kf − ψn k∞ → 0
für n → ∞
und dann mit 1.10 auch
Z
Z d
d
ϕn (x) dx −
ψn (x) dx ≤ (d − c)kϕn − ψn k∞ → 0
c
c
für n → ∞.
Rd
Rd
Also konvergieren die beiden Folgen ( c ϕn (x) dx)n und ( c ψn (x) dx)n gegen dieselbe Zahl.
159
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
1.13 Zur Notation. Übliche Bezeichnungen für das Integral von f über [c, d] sind
Z
d
Z
f (x) dx
oder
c
Z
f (y) dy,
[c,d]
d
Z
dtf (t)
d
oder knapp
c
f.
c
Welches Symbol die Integrationsvariable bezeichnet, ist also belanglos. Die ersten drei Varianten geben
Rd
Rd
aber weniger Anlass zu Missverständnissen: c etx dx ist deutlicher als c etx . Die dritte Variante hat
gegenüber den ersten zwei den Nachteil, dass unklar ist, über welche Funktion integriert wird.
R
Das Integralzeichen
als ein stilisiertes Summen- S“ wurde 1675 von Gottfried Wilhelm Leibniz ein”
geführt. Er stellte sich das Integral als Summe über alle Ordinatenlinien vor. Das entspricht unserer
Rd
Pn
Approximation von c f (x) dx durch Summen der Form
k=1 f (xk )∆xk . Dem ebenfalls von Leibniz
eingeführten Differential“ dx wollen vorerst wir keine eigenständige Bedeutung geben.
”
1.14 Integration von vektorwertigen Funktionen. Unser Integral kann für reell-, komplex- oder
vektorwertige Regelfunktionen verwendet werden. Für eine komplexwertige Regelfunktion f können Realund Imaginärteil getrennt integriert werden
Z d
Z d
Z d
f (x) dx =
Re(f (x)) dx + i
Im(f (x)) dx.
c
c
c
Eine vektorwertige Regelfunktion f~ mit Werten im Rm wird komponentenweise integriert
R
d
(x)
dx
f
1
Z d
c .
.
..
f~(x) dx =
c
Rd
f
(x)
dx
c m
1.15 Wie geht es weiter? Unser Zugang zu integrierbaren Funktionen entsprach dem Wunsch, die
Flächenmessung von Rechtecken sinnvoll durch einen Grenzprozess zu erweitern. Dieser Wunsch ist jetzt
erfüllt, aber leider haben wir momentan weder eine genaue Vorstellung, welche Flächenstücke wir messen,
d.h. welche Funktionen wir integrieren können, noch kennen wir die Rechenregeln. Rechenregeln werden
wir leicht aus Eigenschaften des Integrals für Treppenfunktionen ableiten können. Die spannende Frage,
welche Funktionen wir denn nun integrieren können, hat folgende überraschende Antwort.
1.16 Charakterisierung von Regelfunktionen. Genau dann ist f über [c, d] integrierbar, wenn in
jedem Punkt einseitige Grenzwerte besitzt. Insbesondere ist jede auf [c, d] stetige Funktion integrierbar.
Beweis∗ . Sei zunächst f auf [c, d] integrierbar, d.h. beschränkt und gleichmäßiger Grenzwert von Treppenfunktionen. Wir zeigen zuerst: Zu jedem ε > 0 existiert ein δ > 0, so dass für alle x, x0 ∈ [c, a[ mit
|x − a| < δ und |x0 − a| < δ gilt |f (x) − f (x0 )| < ε. Zu ε > 0 gibt es nämlich eine Treppenfunktion ϕ mit
kf −ϕk∞ < ε, d.h. |f (x)−ϕ(x)| < ε/2 für alle x ∈ [c, d]. Für ein geeignetes δ > 0 ist ϕ auf ]a−δ, a[⊂ [c, d]
konstant. Für alle x, x0 ∈]a − δ, a[ folgt dann ϕ(x) = ϕ(x0 ) und wie behauptet.
|f (x) − f (x0 )| ≤ |f (x) − ϕ(x)| + |ϕ(x0 ) − f (x0 )| < 2
ε
= ε.
2
Ist nun (xn )n eine Folge in [c, a[ mit limn→∞ xn = a, so gibt es ein nε ∈ N mit xn , xm ∈]a − δ, a[ für
n, m ≥ nε und obige Abschätzung zeigt |f (xn ) − f (xm )| < ε. Also ist (f (xn )n ) eine Cauchy-Folge und
damit konvergent gegen eine Zahl b. Der Grenzwert kann dabei nicht von der Folge (xn )n abhängen. Sind
nämlich (xn )n und (x0n )n zwei Folgen mit den zuvor genannten Eigenschaften, so auch die Mischfolge“
”
(x1 , x01 , x2 , x02 , . . .) und alle drei müssen konvergieren. Da die ersten beiden aber Teilfolgen der zweiten
sind, haben alle drei denselben Grenzwert. Also hat f in x = a den linksseitigen Grenzwert b. Für die
Existenz der rechtsseitigen Grenzwerte argumentiere man analog.
Nun habe f in jedem Punkt von [c, d] einseitige Grenzwerte. Wir müssen zeigen, dass zu jedem ε > 0
eine Treppenfunktion ϕ existiert mit kf − ϕk∞ < ε. Wir nennen solch ein ϕ eine ε-Approximation
und zeigen durch einen Widerspruchsbeweis, das ϕ existiert. Wenn solch eine ε-Approximation nicht
160
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
existiert, so zeigen wir durch Induktion zunächst folgende Aussage: Es gibt eine Folge von Intervallen
[cn , dn ] ⊂ [c, d], n ∈ N0 , mit dn − cn = (d − c)/2n , so dass f auf [cn , dn ] keine ε-Approximation besitzt.
Unsere Widerspruchsannahme liefert die Induktionsverankerung mit [c0 , d0 ] = [c, d]. Haben wir für ein
n ∈ N0 ein Intervall [cn , dn ] ⊂ [c, d] mit dn − cn = (d − c)/2n gefunden, so dass f auf [cn , dn ] keine εApproximation besitzt, so setzen wir m := (cn +dn )/2 und betrachten die beiden Teilintervalle [cn , m] und
[m, dn ]. Wenn f auf beiden Teilintervallen eine ε-Approximation besitzen würde, so könnte man aus ihnen
eine ε-Approximation auf [cn , dn ] zusammensetzen. Also besitzt f auf einem dieser beiden Intervalle keine
ε-Approximation. Bezeichnen wir selbiges mit [cn+1 , dn+1 ] so gilt dn+1 −cn+1 = (dn −cn )/2 = (d−c)/2n+1 .
Damit ist der Induktionsschritt vollendet.
Nach Konstruktion bilden die Intervalle [cn , dn ] eine Intervallschachtelung für eine Zahl a ∈ [c, d]. Wir
betrachten zunächst den Fall a ∈]c, d[. Nach Annahme hat f in a einen linksseitigen Grenzwert b− und
einen rechtsseitigen Grenzwert b+ . Daher existiert ein δ > 0 mit [a − δ, a + δ] ⊂ [c, d] und |f (x) − b− | < ε
für x ∈]a − δ, a[ sowie |f (x) − b+ | < ε für x ∈]a, a + δ[. Wegen limn→∞ cn = a = limn→∞ dn gibt es ein
n ∈ N mit [cn , dn ] ⊂]a − δ, a + δ[. Die durch
für x ∈ [cn , a[,
b−
ϕ(x) := f (a) für x = a,
b+
für x ∈]a, dn [
definierte Treppenfunktion ϕ ist dann — im Widerspruch zur zuvor bewiesenen Aussage — eine εApproximation auf [cn , dn ]. Für x = c bzw. x = d schließen wir analog und erhalten auf jeden Fall den
gewünschten Widerspruch.
1.17 Eigenschaften von Regelfunktionen erhalten wir sofort aus der Charakterisierung 1.16 und den
Rechenregeln für Grenzwerte §2.1.4.
Sind f und g reell- oder komplexwertige Regelfunktionen, so auch
(d) λf + µg für beliebige Zahlen λ, µ,
(e) |f |, Re f , Im f , f ,
(f) f g.
Sind f~ und ~g dagegen vektorwertige Regelfunktionen mit Werten im Rm , so auch
(g) λf~ + µ~g für beliebige Skalare λ, µ,
(h) hf~|~g i, kf~k.
1.18 Eigenschaften des Integrals. Sind f und g reell- oder komplexwertige Regelfunktionen, so gilt
Z d
Z d
Z d
(f) (Linearität)
(λf + µg) dx = λ
f dx + µ
g dx für beliebige Zahlen λ, µ,
c
c
c
Z
Z
d
d
(g) (Beschränktheit) f dx ≤
|f | dx ≤ (d − c)kf (x)k∞ .
c
c
Z
d
Z
f dx ≤
(h) (Monotonie)
c
d
g dx falls f und g reellwertig mit f ≤ g.
c
Sind f~ und ~g zwei vektorwertige Treppenfunktionen mit Werten im Rm , so gilt
Z d
Z d
Z d
(i) (Linearität)
(λf~ + µ~g ) dx = λ
f~ dx + µ
~g dx für beliebige Skalare λ, µ,
c
c
c
Z
Z
d
d
(j) (Beschränktheit) f~ dx ≤
kf~k dx ≤ (d − c)kf~(x)k∞ .
c
c
161
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Beweis. Wir machen uns zunächst klar, dass alle diese Regeln für Treppenfunktionen gelten. Mit den
Rechenregeln für Grenzwerte und der Definition des Integrals für Regelfunktionen 1.12 übertragen sie
sich dann auch auf integrierbare Funktionen.
Anmerkung. Die Regeln (g) und (j) werden gerne zur Abschätzung von Integralen verwendet: Länge des
”
Integrationsintervalls mal Maximum des Betrags des Integranden liefert eine Schranke für das Integral.“
1.19 Integration über Teilintervalle. Ist f auf [c, d] integrierbar, so können wir f über ein Teilintervall
[a, b] ⊂ [c, d] integrieren, indem wir
Z b
Z d
f dx :=
f χ[a,b] dx
a
c
setzen. Insbesondere gilt dann
Z
a
f dx = 0.
a
1.20 Additivität des Integrals bezüglich der Integrationsgrenzen. Für c ∈ [b, d] gilt
Z c
Z d
Z d
f dx +
f dx =
f dx.
b
c
c
Mit der Vereinbarung
Z
c
Z
d
f dx := −
d
f dx,
c
so gilt obige Regel sogar für beliebige Punkte b, c, d, wie man durch Fallunterscheidung nachrechnet.
1.21∗ Vollständigkeit der Klasse der Regelfunktionen. Man könnte auf die Idee kommen, den
Schritt, mit dem wir das Integral von Treppenfunktionen durch einen Grenzübergang auf das Integral für
Regelfunktionen erweitert haben, zu wiederholen, um eine noch größere Klasse von Funktionen integrieren
zu können. Das geht leider nicht, wie der folgende Satz zeigt.
Wird eine Funktion f auf [c, d] beliebig genau gleichmäßig durch Regelfunktionen approximiert, d.h. gibt
es eine Folge von Regelfunktionen fn mit kf − fn k∞ → 0 für n → ∞, so ist f selbst eine Regelfunktion
und es gilt
Z d
Z d
f dx = lim
fn dx
c
n→∞
c
Beweis. Zu ε > 0 gibt es ein fn mit kf − fn k < ε/2. Da fn eine Regelfunktion ist, existiert eine
Treppenfunktion ϕn mit kfn − ϕn k∞ < ε/2. Die Dreiecksungleichung liefert kf − ϕn k∞ < ε. Also
kann f beliebig genau gleichmäßig durch Treppenfunktionen approximiert werden und ist daher eine
Regelfunktion. Die Vertauschung von Grenzwertbildung und Integration erhalten wir nun aus
Z
Z
Z d
d
d
fn dx = (f − fn ) dx ≤ (d − c)kf − fn k∞ → 0
für n → ∞.
f dx −
c
c
c
1.22 Zur Stetigkeit von Regelfunktionen. Ist f auf [c, d] integrierbar, so ist f fast überall stetig,
d.h. gibt es höchstens abzählbar unendlich viele Stellen in [c, d], in denen f unstetig ist.
Beweis∗ . Da f eine Regelfunktion ist, gibt es eine Folge von Treppenfunktionen ϕn mit kf − ϕn k∞ → 0
für n → ∞. Jede Treppenfunktion ϕn ist auf [c, d] mit Ausnahme von endlich vielen Sprungstellen
konstant. Die Menge A ⊂ [c, d] aller Sprungstellen aller Treppenfunktionen ist damit höchstens abzählbar
unendlich. Für einen Punkt a ∈ [c, d] r A und ein ε > 0 gibt es ein n ∈ N mit kf − ϕn k∞ < ε, d.h.
|f (x)−ϕn (x)| < ε/2 für alle x ∈ [c, d]. Da a keine Sprungstelle von ϕn ist, gibt es ein Intervall ]a−δ, a+δ[
mit δ > 0 um a, auf dem ϕn konstant ist. Für x ∈ [c, d] mit |x − a| < δ folgt ϕn (x) = ϕn (a) und daher
|f (x) − f (a)| ≤ |f (x) − ϕn (x)| + |ϕn (a) − f (a)| < 2ε/2 = ε. Also ist f in a stetig und damit höchstens
für Punkte aus A unstetig.
162
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
1.23 Wichtige Regelfunktionen. Jede stetige Funktion und jede reellwertige monotone Funktion auf
[c, d] ist integrierbar.
Zusammen mit 1.22 erhalten wir insbesondere, dass eine monotone Funktion f : [c, d] → R an höchstens
abzählbar unendlich vielen Stellen unstetig sein kann.
Beweis∗ . Die Integrierbarkeit von stetigen Funktionen haben wir schon in 1.16 bewiesen. Ist f : [c, d] → R
monoton wachsend, so ist für a ∈]c, d] die Menge f ([c, a[) nichtleer und nach oben beschränkt, besitzt also
ein Supremum y ∈ R. Ist (xn )n eine Folge in [c, a[ mit limn→∞ xn = a, so gilt f (xn ) ≤ f (a) für alle n.
Zu ε > 0 gibt es nach der Definition des Supremums ein x ∈ [c, a[ mit f (x) > y − ε. Die Konvergenz
von (xn )n liefert ein n0 ∈ N mit |xn − a| < a − x für n ≥ n0 . Für all diese n folgt x < xn < a, und die
Monotonie von f liefert |f (xn ) − y| = y − f (xn ) < ε. Damit existiert limx→a− f (x). Analog zeigen wir
die Existenz des rechtsseitigen Grenzwerts. Nach der Charakterisierung 1.16 ist f dann integrierbar.
1.24 Beispiel für eine nichtintegrierbare Funktion. Die Dirichletfunktion
(
1 für x ∈ [0, 1] ∩ Q,
d(x) :=
0 für x ∈ [0, 1] r Q
ist nicht über [0, 1] integrierbar. In jedem nichtleeren Teilintervall ]c0 , d0 [ von [0, 1] liegen nämlich rationale und irrationale Zahlen, so dass sich d nicht beliebig genau gleichmäßig durch Treppenfunktionen
approximieren lässt. Außerdem ist d auch in jedem Punkt unstetig (vgl. §2.3.15):
Rd
1.25 Identitätssatz für integrierbare Funktionen. Ist f auf [c, d] stetig mit c |f | dx = 0, so folgt
f = 0. Für vektorwertige Funktionen gilt das analog.
Beweis. Wäre f (a) 6= 0 für ein a ∈ [c, d], so gibt es nach §2.4.1 ein Intervall [c0 , d0 ] ⊂ [c, d] mit a ∈ [c0 , d0 ]
und d0 − c0 > 0, so dass |f (x)| ≥ |f (a)|/2 > 0 für x ∈ [c0 , d0 ]. Mit der Monotonie des Integrals folgt
Rd
R d0
|f (x)| dx ≥ c0 |f (a)|/2 dx = (d0 − c0 )|f (a)|/2 > 0.
c
1.26 Mittelwertsatz der Integralrechnung. Ist f auf
[c, d] stetig und reellwertig, so gibt es einen Punkt ξ ∈ [c, d]
mit
Z
f (ζ)
d
f (x) dx = (d − c)f (ξ).
c
Achtung. Auf die Stetigkeit von f darf nicht verzichtet
werden.
Für die Heaviside-Funktion gilt beispielsweise
R2
H(x)
dx = 2 aber es gibt kein ξ mit H(ξ) = 2/3.
−1
c
d
Abbildung 4.39: Zum Mittelwertsatz
der Integralrechnung.
Wir beweisen gleich eine allgemeinere Version, welche für
den Fall p = 1 den obigen Satz enthält.
1.27 Verallgemeinerter Mittelwertsatz der Integralrechung. Ist f auf [c, d] stetig und reellwertig
und ist p auf [c, d] integrierbar mit p ≥ 0, so gibt es ein ξ ∈ [c, d] mit
Z d
Z d
f (x)p(x) dx = f (ξ)
p(x) dx.
c
c
Beweis. Nach dem Satz vom Maximum §2.4.7 hat f auf [c, d] ein Minimum m und ein Maximum M .
Dann gilt mp(x) ≤ f (x)p(x) ≤ M p(x) für x ∈ [c, d]. Mit der Monotonie des Integrals 1.18 (h) folgt
Z d
Z d
Z d
m
p(x) dx ≤
f (x)p(x) dx ≤ M
p(x) dx.
c
c
c
Also existiert ein b ∈ [m, M ] mit
Z
d
Z
f (x)p(x) dx = b
c
d
p(x) dx.
c
Da f stetig ist, garantiert der Zwischenwertsatz §2.4.2 die Existens eines ξ ∈ [c, d] mit f (ξ) = b.
163
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
1.28∗ Interpretation der Mittelwertsätze. Für n reelle Zahlen a1 , . . . , an bilden wir den Mittelwert
n
1X
a1 + · · · + an
=
ak .
n
n
k=1
Das Integral
Z d
1
f (x) dx
d−c c
können wir daher als eine Verallgemeinerung der Mittelwertbildung auf den kontinuierlichen“ Fall anse”
hen. Bei einer stetigen Funktion f wird nach dem Mittelwertsatz der Integralrechnung 1.26 der Mittelwert
als ein Funktionswert angenommen
Z d
1
f (x) dx.
f (ζ) =
d−c c
Führen wir im diskreten Fall bei der Mittelwertbildung Gewichte“ m1 , . . . , mn ≥ 0 ein, die bewerten,
”
wie stark jede an der Mittelwertbildung beteiligte Zahl eingehen soll, so berechnen wir das gewichtete
Mittel gemäß
n
m1 a1 + · · · + mn an
1X
=
mk ak
n
n
k=1
und erhalten im kontinuierlichen Fall als Analogon
Z d
1
f (x)p(x) dx
d−c c
mit einer Gewichtsfunktion p, von der wir natürlicher Weise verlangen, dass sie nicht negativ ist.
1.29∗ Anmerkung zum Riemann- und zum Lebesgue-Integral. Wir haben in diesem Abschnitt
das sogenannte Regel- oder Cauchy-Integral eingeführt. Oftmals wird die Integrationstheorie mit dem
Riemann-Integral begonnen. Dabei wird das Integrationsintervall [c, d] in Teilintervalle mit Randpunkten
c = x0 < x1 < . . . < xn = d zerlegt und es werden Riemannsche Unter- bzw. Obersummen
n
X
k=1
inf
xk−1 <x<xk
f (x)∆xk
bzw.
n
X
k=1
sup
f (x)∆xk
xk−1 <x<xk
definiert. Falls das Supremum über alle Untersummen mit dem Infimum über alle Obersummen übereinstimmt, so nennt man den gemeinsamen Wert das Riemann-Integral von f über [c, d]. Das stellt man
sich als ein Ausschöpfen“ der zu integrierenden Fläche von Innen und Außen durch Rechtecke vor. Wir
”
dagegen haben eine etwas freiere Approximation durch Rechtecke zugelassen.
Die Klasse der Riemann-integrierbaren Funktionen erweist zwar etwas größer, der Beweisaufwand nimmt
aber auch deutlich zu. Ausrechnen kann man ein Integral (egal ob Riemann- oder Regelintegral) ohnehin
erst mit dem Hauptsatz, den wir im nächsten Abschnitt vorstellen werden.
Neben dem Ausrechnen von Integralen erweist sich aber für die Anwendungen eine gute Verträglichkeit
mit Grenzübergängen als unabdingbar. Hierbei ist das Regelintegral dem Riemann-Integral überlegen.
Das zeigt sich schon in 1.21
Z d
Z d
lim
fn dx =
lim fn dx
falls lim kf − fn k∞ = 0
n→∞
c
c
n→∞
n→∞
und wir werden dieses für die Anwendungen wichtige Thema in §5 vertiefen.
Sowohl Riemann- als auch Regelintegral werden vom Lebesgue-Integral übertroffen, welches vom Flair
sehr dem Regelintegral ähnelt. Es macht einerseits mehr Funktionen integrierbar und erlaubt gleichzeitig
unbeschränkte Integrationsbereiche, andererseits liefert es gut handhabbare Vertauschungssätze. Darum
wird das Lebesgue-Integral in vielen Bereichen der theoretischen Physik eingesetzt. Wir werden es im
Rahmen der mehrdimensionalen Integrationstheorie in 6 kennenlernen.
164
2
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Hauptsatz der Differential- und Integralrechnung
2.1 Worum geht es? Der Hauptsatz der Differential- und Integralrechnung liefert uns die Möglichkeit,
Integrale auszurechnen, indem er Differentiation und Integration miteinander verbindet.
2.2 Integralfunktion. Ist f auf [c, d] integrierbar, so heißt für festes a ∈ [c, d] die durch
Z x
F (x) :=
f (t) dt,
für x ∈ [c, d]
a
definierte Funktion F eine Integralfunktion von f .
Beispiel. Eine Integralfunktion für die Heaviside-Funktion H (vgl. §2.1.1) berechnen wir zu
(
Z x
0 für x < 0,
H(t) dt =
x für x ≥ 0.
0
f
x
a
x
a
F
a
x
a
x
a
x
a
x
a
x
a
x
Rx
Abbildung 4.40: Die Integralfunktion F (x) = a f (t) dt gibt die Fläche unter dem Graphen von f in
Abhängigkeit von der Basislinie mit den Endpunkten a und x an, für x < a wird die Fläche negativ
gezählt, ebenso für Flächenteile unterhalb der x-Achse.
2.3 Hauptsatz der Differential- und Integralrechnung, Version Integralfunktion. Ist f auf
[c, d] integrierbar, so ist jede Integralfunktion F auf [c, d] stetig, besitzt dort alle möglichen einseitigen
Ableitungen und es gilt
F 0 (x−) = f (x−)
für x ∈]c, d],
F 0 (x+) = f (x+)
für x ∈ [c, d[.
Insbesondere ist F an jeder Stelle x ∈]c, d[, an der f stetig ist, differenzierbar mit F 0 (x) = f (x).
Beweis. Wir führen den Beweis für die rechtsseitige Ableitung an einer Stelle
R x x ∈ [c, d[. Als Regelfunktion
hat f dort einen rechtsseitigen Grenzwert f (x+) = limt→x+ f (t). Wegen ξ dt = x − ξ gilt
F (ξ) − F (x)
− f (a+)
ξ−x
!
Z ξ
Z x
Z ξ
1
1
f (t) dt −
f (t) dt −
f (x+) dt
= ξ − x
ξ−x x
a
a
Z
1
ξ
1
= (f (t) − f (x+)) dt ≤
|ξ − x| max |f (t) − f (x+)|
ξ − x x
|ξ − x|
t∈[x,ξ]
=
max |f (t) − f (x+)| → 0
t∈[x,ξ]
für ξ → x + .
165
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Also existiert der rechtsseitige Grenzwert
F 0 (x+) = lim
ξ→x+
F (ξ) − F (x)
= f (x+).
ξ−x
Ebenso zeigt man das für den linksseitigen Grenzwert. An jeder Stetigkeitsstelle x ∈]c, d[ von f gilt daher
f (x) = F 0 (x−) = F 0 (x+) = F 0 (x).
rechtsseitiger Grenzwert
f (x+) = limξ→x+ f (ξ)
f
F
rechtsseitige Steigung
F 0 (x+)
x
x
f (x−) = limξ→x− f (ξ)
linksseitiger Grenzwert
F 0 (x−)
linksseitige Steigung
Abbildung 4.41: Regelfunktion f und Integralfunktion F an einer Unstetigkeitsstelle von f .
2.4 Stammfunktion, Potential und unbestimmtes Integral. Sind f und F auf [c, d] definiert, so
heißt F eine Stammfunktion oder ein Potential von f , falls F die folgenden beiden Eigenschaften hat:
(SF1) F ist auf [c, d] stetig,
(SF2) F ist für fast alle x ∈ [c, d] differenzierbar mit F 0 (x) = f (x).
Die Gesamtheit aller Stammfunktionen zu f nennen wir das unbestimmte Integral und bezeichnen sie mit
Z
f (x) dx.
Mit dem Identitätssatz für differenzierbare Funktionen §3.3.8 erhalten wir sofort:
Wenn f eine Stammfunktion F besitzt, so sind sämtliche Stammfunktionen von der Form F + C mit
einer Konstanten C.
Beispiel. ln(x) ist eine Stammfunktion für x1 für jedes Intervall [c, d] ⊂ R+ . Gilt dagegen [c, d] ⊂ R− , so
ist ln(−x) eine Stammfunktion für x1 . Das kann man folgendermaßen zusammenfassen: Die Stammfunktionen von x1 für x 6= 0 haben die Form ln |x| + C — oder kurz:
Z
1
dx = ln |x| + C
für x 6= 0.
x
2.5 Hauptsatz der Differential- und Integralrechnung, Version Stammfunktion. Ist f auf [c, d]
integrierbar, so besitzt f eine Stammfunktion. Für jede Stammfunktion F und beliebige a, b ∈ [c, d] gilt
Z b
f (t) dt = F (b) − F (a).
a
Das folgt mit der Definition der Stammfunktion sofort aus der ersten Version des Hauptsatzes 2.3.
166
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Man schreibt auch F (b) − F (a) =: F (x)|ba , d.h.
Z
b
a
b
f (t) dt = F (x)
a
und sagt F in den Grenzen a und b“.
”
2.6 Wichtige Stammfunktionen. Mit dem Hauptsatz erhalten wir zu jeder uns bekannten Ableitungsfunktion ein unbestimmtes Integral. Hier folgen die wichtigsten.
Z
xα dx
=
xα+1
+C
α+1
für x ∈ R, α ∈ C r {−1},
=
ln |x + b| + C
für x ∈ R r {−b}, b ∈ R,
=
für x ∈ R,
=
arctan(x) + C
1 1 + x ln
+C
2 1 − x
√
ln x + x2 + 1 + C
für x ∈ R,
=
√
lnx + x2 − 1 + C
für x ∈] − ∞, −1[∪]1, +∞[,
=
arcsin(x) + C
für x ∈] − 1, 1[,
Z
1
dx
x+b
Z
1
dx
1 + x2
Z
1
dx
1 − x2
Z
1
√
dx
1 + x2
Z
1
√
dx
2−1
x
Z
1
√
dx
2
1−
Z x
=
für x ∈ R r {±1},
ex dx
= ex + C
ax dx
=
ax
+C
ln(a)
für x ∈ R, a ∈ R+ ,
cos(x) dx
=
sin(x) + C
für x ∈ R,
sin(x) dx
= − cos(x) + C
für x ∈ R,
tan(x) dx
= − ln | cos(x)| + C
für x ∈ R r
cot(x) dx
=
ln | sin(x)| + C
für x ∈ R r {kπ : k ∈ Z},
cosh(x) dx
=
sinh(x) + C
für x ∈ R,
sinh(x) dx
=
cosh(x) + C
für x ∈ R,
tanh(x) dx
=
ln(cosh(x)) + C
für x ∈ R,
coth(x) dx
=
ln | sinh(x)| + C
für x ∈ R r {0}.
Z
für x ∈ R,
Z
Z
Z
nπ
2
o
+ kπ : k ∈ Z ,
Z
Z
Z
Z
Z
2.7 Integral der Ableitung. Ist die Stammfunktion F im Hauptsatz 2.5 differenzierbar, so erhalten
wir nach Ersetzen von f = F 0 die folgende Aussage.
Hat f auf einem Intervall I ⊂ R eine integrierbare Ableitung, so gilt
Z x
f (x) = f (a) +
f 0 (t) dt
für beliebige x, a ∈ I.
a
167
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
2.8 Anwendungsbeispiel aus der Mechanik. Wirkt eine von der Zeit t abhängige Kraft F~ (t) auf
einen Körper der Masse m, so lautet das Newtonsche Kraftgesetz
m~a(t) = F~ (t).
¨(t) lässt sich durch eine zweifache Integration die Bewegungsgleichung
Aus der Beschleunigung ~a(t) = ~x
des Körpers gewinnen. Befindet sich der Körper zur Zeit t0 am Ort ~x0 mit Startgeschwindigkeit ~v0 , so
erhalten wir für die Geschwindigkeit ~v (t) = ~x˙ (t) zur Zeit t zunächst
Z
t
1
~v (t) = ~v0 +
~a(τ ) dτ = ~v0 +
m
t0
Z
t
F~ (τ ) dτ,
t0
und für den Ort ~x(t1 ) des Körpers zur Zeit t1 dann
Z
~x(t1 )
t1
= ~x0 +
Z
t1
Z t
~v0 +
~a(τ ) dτ dt
~v (t) dt = ~x0 +
t0
t0
1
= ~x0 + (t1 − t0 )~v0 +
m
Z
t1
t0
t0
Z
t
F~ (τ ) dτ dt.
t0
2.9 Integranden mit trigonometrischen Funktionen. Ist p ein Polynom in zwei Variablen, so kann
ein Integral des Typs
Z
p(cos t, sin t) dt
immer durch Zurückführen auf die Exponentialfunktion mit Integralen der Form
ikd
ikc
ikt d
Z d
e = e − e
für k 6= 0,
ikt
e dt =
ik c
ik
c
1d = d − c
für k = 0
c
gelöst werden.
Beispiel.
Z
3
(cos t + 3 cos t sin 2t) dt
Z
=
=
=
=
=
=
(eit + e−it )
2
3
eit + e−it e2it − e−2it
+3
2
2i
!
dt
Z
1
(1 − 6i)e3it + (3 − 6i)eit + (3 + 6i)e−it + (1 + 6i)e−3it dt
8
Z
1 (1 − 6i)e3it + (1 − 6i)e3it + (3 − 6i)eit + (3 − 6i)eit dt
8
Z
1
Re
(1 − 6i)e3it + (3 − 6i)eit dt
4
1
1 − 6i 3it 3 − 6i it
1
1
3
3
Re
e +
e
= Re − e3it − ie3it − eit − ieit
4
3i
i
2
12
2
4
1
1
3
3
− cos 3t +
sin 3t − cos t + sin t.
2
12
2
4
2.10 Orthogonalitätsrelationen. Als Spezialfall der gerade vorgeführten Technik erhalten wir die sogenannten Orthogonalitätsrelationen für die Exponentialfunktion
(
Z 2π
Z π
1 für k = 0,
1
1
ikt
ikt
e dt =
e dt = δk,0 =
2π 0
2π −π
0 für k ∈ Z r {0},
168
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
aus denen nach Real- und Imaginärteilbildung die
stehen
Z 2π
2
1
cos(mt) cos(nt) dt =
1
π 0
0
Z 2π
1
cos(mt) sin(nt) dt = 0,
π 0
(
Z
1
1 2π
sin(mt) sin(nt) dt =
π 0
0
Orthogonalitätsrelationen für Cosinus und Sinus entfür m = n = 0,
für m = n 6= 0
für m 6= n,
m, n ∈ N0 ,
m ∈ N0 , n ∈ N,
für m = n,
für m =
6 n,
m, n ∈ N.
Ihre Bedeutung lernen wir bei der Betrachtung von Fourier-Reihen als Entwicklung bezüglich eines Orthogonalsystems in einem abstrakten Vektorraum in 5.§7.1 kennen.
3
Integrationstechniken
3.1 Vorbemerkung. Der Hauptsatz liefert uns zu jeder Differentiationsregel eine zugehörige Integrationsregel. Wir behandeln nacheinander die Umkehrung“ der Produkt- und Kettenregel, sowie der
”
gliedweisen Differentiation von Potenzreihen. Dazu gibt es jeweils Anwendungen und Beispiele, meist
Klassen von Funktionen, die sich jeweils nach einem aus diesen Techniken abgeleiteten Verfahren integrieren lassen.
3.2 Partielle Integration. Sind f und g differenzierbare Regelfunktionen auf ]c, d[, so gilt
Z
Z
f (x)g 0 (x) dx = f (x)g(x) − f 0 (x)g(x) dx + C
für x ∈]c, d[,
und insbesondere
Z b
a
b Z
f (x)g 0 (x) dx = f (x)g(x) −
b
f 0 (x)g(x) dx
für beliebige a, b ∈ [c, d].
a
a
Die geschickte Aufspaltung eines vorgegebenen Integranden in ein Produkt der Form f (x)g 0 (x) erfordert
Erfahrung und Übung. Wir illustrieren das gleich an Beispielen. Manchmal hilft auch Trick weiter, mittels
mehrfacher partieller Integration eine Formel der Gestalt
b
Z b
Z b
f (x)g(x) dx = h(x) + A
f (x)g(x) dx
a
a
a
mit einer Konstanten A 6= 1 zu produzieren. Dann erhält man
b
Z b
1
f (x)g(x) dx =
h(x) .
1
−
A
a
a
3.3 Beispiele zur partiellen Integration.
Z
(a) p(x)ex dx mit einem Polynom p.
Derartige Integrale können mittels n-facher partieller Integration berechnet werden. Das Prinzip machen
wir exemplarisch für ein unbestimmtes Integral deutlich.
Z
Z
Z
2
x
2 x
x
2
x
x
e
dx
=
x
e
−
2x
e
dx
=
(x
−
2x)e
+
2ex dx = (x2 − 2x + 2)ex .
|{z} |{z}
|{z} |{z}
↓
↑
↓
↑
169
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Z
(b)
p(x) ln x dx mit einem Polynom p.
Hier führt eine einfache partielle Integration zum Erfolg wie das folgende Beispiel zeigt.
e Z e 2
2
Z e
Z e
1
x
e2
x
x
+ x ln x −
+x
dx =
+e−
+ 1 dx
(x + 1) |{z}
ln x dx =
2
2
x
2
2
1 | {z }
1
1
1
↑
↓
=
Z
(c)
e2
+e−
2
e
x2
e2 − 5
+ x =
.
4
4
1
sin2 x dx.
Eine partielle Integration liefert zusammen mit der Kreisidentität
Z
Z
Z
sin
x
dx
=
sin
x(−
cos
x)
−
cos x(− cos x) dx
sin2 x dx =
sin
x
|{z} |{z}
↓
↑
Z
= − sin x cos x +
(1 − sin2 x) dx = x − sin x cos x −
Z
sin2 x dx.
R
Wir erhalten also eine Gleichung für sin2 x dx, welche uns aufgelöst folgendes Ergebnis liefert
Z
1
sin2 x dx = (x − sin x cos x) .
2
3.4 Substitutionsregel. Ist u : [c, d] → [γ, δ] eine C 1 -Funktion und f ∈ C 0 ([γ, δ]), so gilt
d
Z
f (u(x))u0 (x) dx =
c
Z
u(d)
f (t) dt.
u(c)
Ist u sogar bijektiv, so gilt
Z
δ
Z
u−1 (δ)
f (t) dt =
f (u(x))u0 (x) dx
u−1 (γ)
γ
Die Substitution t = u(x) lautet nach Differentiation imR Leibnizkalkül
Merkregel für die Anwendung der Substitutionsregel auf f (t) dt.
dt
dx
= u0 (x) und liefert folgende
• Ersetze im Integranden t durch u(x),
• ersetze dt = u0 (x)dx“,
”
• ersetze bei bestimmten Integralen die Integrationsgrenzen γ und δ durch u−1 (γ) und u−1 (δ), bzw.
resubstituiere bei unbestimmten Integralen nach Bestimmung der Stammfunktion x durch u−1 (t).
3.5 Zur Anwendung der Substitutionsregel. Gewöhnlich werden die beiden folgenden zwei Varianten angewendet, die den beiden oben angegebenen Formen entsprechen.
Entweder gelingt es, den Integranden für eine Anwendung der Substitutionsregel in die Gestalt
f (u(x))u0 (x) =
d
F (u(x))
dx
zu bringen (das erfordert wieder Geschick und Übung), dann berechnet man
R u(d)
Auswertung von u(c) f (t) dt.
Rd
c
f (u(x))u0 (x) dx durch
Oder man möchte die Integrationsvariable t durch t = u(x) ersetzen. Dann muss u eine bijektive C 1 Rδ
R u−1 (δ)
Funktion sein und man berechnet γ f (t) dt durch Auswerten von u−1 (γ) f (u(x))u0 (x) dx.
170
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
3.6 Beispiele zur Substitutionsregel.
Z
2
(d)
xe−x /2 dx.
Mit der Substitution u(x) = x2 /2, d.h.
Z
d
−x2 /2
xe
Z
Z
d2 /2
2
2
dt = −e = e−c /2 − e−d /2 .
2
d2 /2
−t
dx =
−t e
c2 /2
c
(e)
= u0 (x) = x bzw. x dx = dt“ erhalten wir
”
dt
dx
c /2
u0 (x)
dx mit stetigem nichtverschwindendem u.
u(x)
Gilt u(x) 6= 0 für x ∈ [c, d], so hat u als stetige Funktion in [c, d] keinen Vorzeichenwechsel und es folgt
d
Z
c
u0 (x)
u(d)
dx = ln
.
u(x)
u(c)
Damit erhalten wir beispielsweise
d
Z
Z
d
tan x dx = −
c
c
cos c
cos0 x
dx = − ln
,
cos x
cos d
sofern des Intervall [c, d] keine Nullstelle des Kosinus enthält.
Z
Z
(f)
f (cos x) sin x dx, f (sin x) cos x dx.
Auch diese Integrale der Form können mit der Substitutionsregel behandelt werden. Ist F Stammfunktion
zu f , so gilt
Z
Z
f (cos x) sin x dx = −F (cos x) + C,
Z
1
dx mit a2 < b.
x2 + 2ax + b
(g)
Eine quadratische Ergänzung und die Substitution y =
Z
1
dx
2
x + 2ax + b
Z
=
=
Z
(h)
f (sin x) cos x dx = F (sin x) + C.
√
√x+a
b−a2
liefern mit
1
1
dx =
2
2
(x + a) + b − a
b − a2
1
b − a2
Z
Z
dy
dx
=
1
1+
√x+a
b−a2
√ 1
,
b−a2
dx =
”
√
2 dx
1
1
x+a
1
dy = √
arctan y = √
arctan √
.
2
2
2
1+y
b−a
b−a
b − a2
1
dx mit a2 > b.
x2 + 2ax + b
Hier hat der x2 + 2ax + b zwei reelle Nullstellen λ 6= µ und eine Partialbruchzerlegung ergibt
Z
1
dx
2
x + 2ax + b
Z 1
1
1
1
dx =
−
dx
(x − λ)(x − µ)
λ−µ
x−λ x−µ
1
1
x−λ
(ln |x − λ| − ln |x − µ|) =
ln
.
λ−µ
λ−µ x−µ
Z
=
=
b − a2 dy“
171
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
3.7 Anwendungsbeispiel: Kreisfläche. Wir berechnen
die Fläche Ar eines Kreises mit Radius r > 0, indem
wir den Mittelpunkt in den Ursprung verlegen, √
die obere
Hälfte der Kreislinie durch die Funktion f (t) := r2 − t2 ,
t ∈ [−r, r], parametrisieren und zunächst die zugehörige
Halbkreisfläche
Z r p
1
r2 − t2 dt
Ar =
2
−r
f (t) =
√
r 2 − t2
r
−r
0
t
r
berechnen. Die Substitution u(x) := r cos x wird eine biAbbildung 4.42: Berechnung der Halbjektive Abbildung u : [0, π] → [−r, r] mit u(0) = r und
kreisfläche.
u(π) = −r liefert mit 3.3 (c) für die Kreisfläche wie erwartet
Z r p
Z u−1 (r) p
Z 0 p
2
2
Ar = 2
r − t dt = 2
r2 − u(x)2 u0 (x) dx = 2
r 1 − cos2 x(−r sin x) dx
u−1 (−r)
−r
=
2r2
Z
0
π
π
π
sin2 x dx = r2 (x − sin x cos x) = r2 π.
0
3.8 Integration rationaler Funktionen. Ist R eine rationale Funktion mit reellen Koeffizienten, so
führen wir zunächst eine Partialbruchzerlegung
c1,1
c1,k1
cm,1
cm,km
R(x) = q(x) +
+ ··· +
+ ··· +
+ ··· +
.
k
1
x − λ1
(x − λ1 )
x − λm
(x − λm )km
durch. Hierbei ist q der Nebenteil von R und die Zahlen λµ sind die nach Kürzen von R verbleibenden
Polstellen mit Polordnungen kµ .
Anschließend können die einzelnen Summanden nach folgenden Rezepten integriert werden.
• Die Integration des Nebenteils q geht problemlos, da q ein Polynom ist.
c
• Die Integration von Partialbrüchen der Form (x−λ)
k mit k ≥ 2 geschieht unabhängig davon, ob λ
reell oder komplex ist, mittels
Z
c
c
1
dx =
.
k
(x − λ)
1 − k (x − λ)k−1
c
Da R eine reelle rationale Funktion ist, tritt für eine echt komplexe Polstelle λ mit (x−λ)
k auch der
c
konjugierte Partialbruch (x−λ)k auf. Beide liefern nach Zusammenfassen etwas Reelles
c
• Die Integration von Partialbrüchen der Form x−λ
mit λ ∈ R erfolgt mittels
Z
c
= c ln |x − λ|.
x−λ
c
• Die Integration von Partialbrüchen der Form x−λ
mit λ ∈ C r R geschieht folgendermaßen: Dann
c
tritt auch ein konjugierter Partialbruch x−λ auf. Beide können zusammen mittels 3.6 (e) und (h)
integriert werden
Z Z
c
c
2(Re c)x − 2 Re(cλ)
dx
+
dx =
x−λ x−λ
x2 − 2(Re λ)x + |λ|2
Z
2x − 2 Re λ
= Re c
dx
x2 − 2(Re λ)x + |λ|2
Z
1
+2[(Re c)(Re λ) − Re(cλ)]
dx
x2 − 2(Re λ)x + |λ|2
x − Re λ
= Re c lnx2 − 2(Re λ)x + |λ|2 − 2 Im c arctan
.
Im λ
172
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Fazit. Jede rationale Funktion mit reellen Koeffizienten besitzt auf ihrem natürlichen Definitionsbereich
eine Stammfunktion, die eine Linearkombination aus einer rationalen Funktion sowie Logarithmen und
Arcustangensfunktionen.
Beispiel.
Z
2x4 + x3 + 6x − 36
dx
x(x2 + 4)
!
1+i
1−i
9
2
2
=
2x + 1 − +
+
dx
x x + 2i x − 2i
1 x
= x2 + x − 9 ln |x| + lnx2 + 4 + arctan .
2
2
Z
3.9∗ Integration rationaler Funktionen in Cosinus und Sinus. Solche Integrale lassen sich mit
der Substitution
t = u(x) = 2 arctan x
auf die Integration einer rationalen Funktion zurückführen. Es gilt nämlich
dt
2
= u0 (x) =
dx
1 + x2
und damit
sin t
=
2 sin 2t cos 2t
2 tan 2t
=
1 + tan2
sin2 2t + cos2 2t
=
2x
,
1 + x2
cos t
=
cos2 2t − sin2
sin2 2t + cos2
=
1 − x2
.
1 + x2
t
2
t
2
=
1−
1+
t
2
tan2 2t
tan2 2t
Nach dieser Substitution erhalten wir also eine rationale Funktion als Integranden.
Rd
Beispiel. Um c sin1 t dt zu berechnen, können wir für 0 < c < d < π mit t = 2 arctan x substituieren
und erhalten
tan(d/2)
Z d
Z tan(d/2)
Z tan(d/2)
tan d2
1
1
1
2
.
dx
=
dt =
dx
=
ln
x
=
ln
2x
2
tan 2c
c sin t
tan(c/2) x
tan(c/2) 1+x2 1 + x
tan(c/2)
3.10∗ Anmerkung über geschlossen integrierbare Funktionen. Die Integration rationaler Funktionen zeigt, dass die Stammfunktionen einer Klasse von Funktionen nicht unbedingt selbst wieder zu
dieser Klasse gehören müssen. Der Logarithmus als Stammfunktion der rationalen Funktion x1 ist beispielsweise nicht rational. Die Bildung von Stammfunktionen ist also ein Prozess, der gelegentlich den
Vorrat bereits bekannter Funktionen erweitert. Man kann zeigen, dass Stammfunktionen elementarer“
”
Funktionen (das sind — grob gesprochen — Funktionen, die aus rationalen Funktionen und der Exponentialfunktion durch endlich viele algebraische Prozesse wie Addition, Multiplikation, Division, Verkettung,
Umkehrbildung sowie wiederholte Anwendung derselben entstehen) selbst nicht elementar sein müssen.
Untersuchungen dieser Art gehen auf Liouville (1809–1882) zurück. Beispielsweise sind die drei Funktionen
Z x
2
1
e−t /2 dt
Gaußsches Fehlerintegral ,
Φ(x) := √
2π 0
Z x
1
Li(x) :=
dt
Integrallogarithmus,
ln(t)
0
Z x
sin(t)
Si(x) :=
dt
Integralsinus
t
0
nichtelementar.
Richardson hat 1968 gezeigt, dass es keinen allgemeingültigen Algorithmus geben kann, mit dem für
eine gegebene elementare Funktion entschieden werden kann, ob sie geschlossen integrierbar ist, d.h. eine
elementare Stammfunktion besitzt.
173
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
3.11 Wie findet man eine Stammfunktion? Wir haben in diesem Abschnitt für mehrere Klassen
von Funktionen Integrationsverfahren angegeben. Nach eben zitierten Ergebnis von Richardson können
wir aber aus prinzipiellen Gründen nicht alle Funktionen geschlossen integrieren, geschweige denn dazu
ein allglückseeligmachendes“ Verfahren verwenden. Softwarepakete wie Mathematica oder Maple
”
verfügen allerdings über ausgeklügelte Algorithmen zur Beschaffung von Stammfunktionen — falls solche
überhaupt existieren. Im Zweifelsfalle sollte man also immer auch auf diese Hilfe zurückgreifen.
P∞
3.12 Integration von Potenzreihen. Wird f durch eine Potenzreihe f (x) = k=0 ak (x − x0 )k mit
Konvergenzradius R > 0 dargestellt, so besitzt f auf ]x0 − R, x0 + R[ eine Stammfunktion und es gilt
Z
∞
X
ak
(x − x0 )k+1 + C
für x ∈]x0 − R, x0 + R[,
f (x) dx =
k+1
k=0
und insbesondere
Z
x
f (t) dt =
x0
∞
X
ak
(x − x0 )k+1
k+1
für x ∈]x0 − R, x0 + R[.
k=0
Beispiel. Aus der Potenzreihendarstellung für die Sinc-Funktion erhalten wir für den Integralsinus
Z xX
∞
∞
X
(−1)k
(−1)k 2k
t dt =
x2k+1
für x ∈ R.
Si(x) =
(2k + 1)!
(2k + 1) · (2k + 1)!
0
k=0
k=0
Wenn auch der Integralsinus nicht geschlossen integrierbar ist, so kennen wir nun dennoch eine Potenzreihendarstellung für die Stammfunktion. Die Situation ist also ähnlich wie bei der Exponentialfunktion, deren Werte wir auch nur näherungsweise (z.B. durch Auswerten von Partialsummen und Fehlerabschätzen)
näherungsweise berechnen können.
3.13∗ Numerische Integration. Ein beliebtes Verfahren nur numerischen Integration ist die TrapezRd
regel . Um c f (x) dx näherungsweise zu berechnen, unterteilt man der Integrationsintervall [c, d] äquidistand in n Teilintervalle und addiert die Flächeninhalte der aus diesen Teilpunkten und den zugehörigen
Funktionswerten gebildeten Trapeze zur Trapezsumme
Th (f ) = h
1
1
f (c) + f (c + h) + · · · + f (d − h) + f (d)
2
2
mit der Schrittweite
h :=
d−c
.
n
Ist f eine C 2 -Funktion mit |f 00 (x)| ≤ M für x ∈ [c, d], so
kann man die Fehlerabschätzung
Z
d
d−c
f (x) dx − Th (f ) ≤
M h2
c
12
c
|{z}
h
d
Abbildung 4.43: Trapezregel nur numerischen Integration.
Rd
herleiten (Details siehe [Kön, Band 1, 11.10]). Es gilt also c f (x) dx = Th (f ) + O(h2 ) für h → 0+ wenn
man die Schrittweite h klein macht. Falls f eine C 3 -Funktion oder noch glatter ist, existieren Verfahren
noch höherer Ordnung.
4
Geometrie von Kurven
4.1 Bogenlänge. Wir haben eine Kurve γ im R3 mit einer C 1 -Parametrisierung ~x : [ta , te ] → R3 und
interpretieren selbige wieder als Bewegungsplan, mit dem sich ein Teilchen längs der Spur von γ bewegt.
174
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Bei einer Bewegung mit konstanter Geschwindigkeit ~v = ~x˙ erhalten wir als zurückgelegte Strecke
k~x(te ) − ~x(ta )k = k~v k(te − ta ).
Ist die Bewegung nicht gleichförmig, so zerlegen wir das Zeitintervall [ta , te ] in Teilpunkte ta = t0 < t1 <
. . . < tN −1 < tN = te und verwenden die Gesamtlänge
Lt0 ,...,tN :=
N
X
k~x(tk ) − ~x(tk−1 )k ≈
k=1
N
X
k~x˙ (tk )k∆tk
k=1
des Polygonzugs mit den Eckpunkten ~x(t0 ), . . . , ~x(tN ) als Approximation an die zu ermittelnde Gesamtlänge des Weges. Wenn das Supremum über die Gesamtlängen aller der Bahnkurve einbeschriebenen
Polygonzüge existiert, so nennen wir es die Bogenlänge L(γ) von γ und die Kurve selbst rektifizierbar .
~x(tN )
~x(tk )
|
{z
~x(tk−1 )
}
k~
x(tk )−~
x(tk−1 )k
~x(t0 )
~x(t1 )
Abbildung 4.44: Gesamtlänge eines einbeschriebenen Polygonzugs als Approximation an die Bogenlänge.
Da uns k~x˙ (t)k den Betrag der Geschwindigkeit zur Zeit t angibt, sollte dann
Z td
k~x˙ (t)k dt
te
die insgesamt zurückgelegte Strecke sein. Diese Interpretation behalten wir auch für Kurven im Rm bei.
4.2 Berechnung der Bogenlänge. Ist ~x eine C 1 -Parametrisierung, so gilt mit dem Hauptsatz der
Differential- und Integralrechnung 2.5 und der Standardabschätzung für Integrale 1.18 (j)
Z ta
N Z tk
N
N Z tk
X
X
X
˙
˙
Lt0 ,...,tN =
k~x(tk ) − ~x(tk−1 )k =
~x(t) dt ≤
k~x(t)k dt =
k~x˙ (t)k dt.
tk−1
tk−1
te
k=1
k=1
k=1
R ta
k~x˙ (t)k dt eine obere Schranke für die Gesamtlänge eines jeden der Kurve γ einbeschriebenen
Rt
Polygonzugs und γ ist damit rektifizierbar mit L(γ) ≤ a k~x˙ (t)k dt. Dass hierbei tatsächlich Gleichheit
Also ist
te
te
gilt, kann man mit etwas Beweisaufwand mathematisch sauber beweisen (siehe z.B. [Kön, Band 1, 12.2]),
uns soll das bisher Gesagte als Begründung genügen.
Fazit. Ist γ eine Kurve im Rm mit einer C 1 -Parametrisierung ~x : [c, d] → Rm , so ist γ rektifizierbar und
wir erhalten die Bogenlänge durch
Z d
L(γ) =
k~x˙ (t)k dt.
c
4.3 Beispiel: Bogenlänge der Zykloide. Die Bewegung eines fixierten Punktes auf einer abrollenden
Kreisscheibe mit Radius 1 (z.B. die Bahnkurve des Ventils an einem Fahrradreifen während der Fahrt)
wird durch die Zykloide
t − sin t
~x(t) :=
1 − cos t
175
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
beschrieben. Der Betrag der Geschwindigkeit zur Zeit t ist damit
s
r
2
1 − cos t q
1
−
cos
t
t
t 2
2
˙
= 2 sin .
k~x(t)k = =2
sin
= (1 − cos t) + sin t = 2
2
2
2
sin t
Für die vom Punkt bei einer Umdrehung der Kreisscheibe zurückgelegte Strecke L erhalten wir daher
2π
Z 2π
Z 2π
t t
˙
L=
k~x(t)k dt =
2 sin dt = −4 cos = 8.
2
2 0
0
0
2
1
Π
2Π
Abbildung 4.45: Bogenlänge der Zykloide.
4.4 Invarianz der Bogenlänge unter Parametertransformationen. Die Bogenlänge hängt nicht
von der Parametrisierung der Kurve γ ab.
Das zeigt uns eine Anwendung der Substitutionsregel 3.4: Sind ~x : [c, d] → Rm und ~y : [C, D] → Rm
zwei C 1 -Parametrisierungen von γ, die durch einen C 1 -Parameterwechsel ϕ : [c, d] → [C, D] auseinander
hervorgehen, d.h. gilt ~x(t) = ~y (ϕ(t)) für t ∈ [c, d], ϕ(c) = C, ϕ(d) = D und ist ϕ streng monoton
wachsend, also insbesondere ϕ̇ ≥ 0, so folgt wie behauptet
Z d
Z d
Z d
Z d
Z D
d
˙
˙
˙
k~x(t)k dt =
k~y (ϕ(t))ϕ̇(t)k dt =
k~y (ϕ(t))kϕ̇(t) dt =
k~y˙ (τ )k dτ.
dt ~y (ϕ(t)) dt =
c
c
c
c
C
~y (d)
δ
4.5 Aneinanderhängen von Kurven. Für zwei Kurven
γ und δ im Rm für die der Endpunkt von γ mit dem
Anfangspunkt von δ übereinstimmt, ist anschaulich klar,
was die aneinandergehängte Kurve γ + δ sein soll.
γ
~x(c0 ) = ~y (d0 )
~x(c)
Formal erklären wir γ + δ auf folgende Weise durch Angabe einer Parameterdarstellung: Ist ~x : [c, c0 ] → Rm eine
Parametrisierung von γ und ~y : [d0 , d] → Rm eine von δ, so
können wir durch eine Verschiebung als Parametertransforc
c0 = d0
d
mation c0 = d0 erreichen und γ +δ durch ~z : [c, d] → Rm mit
0
0
~z(t) := ~x(t) für c ≤ t ≤ c und ~z(t) := ~y (t) für d < t ≤ d
Abbildung 4.46: Aneinanderhängen
parametrisieren. Nun ist auch klar, wie wir endlich viele
von Kurven.
Kurven aneinanderhängen.
Entsteht δ aus γ durch Umkehrung der Orientierung, d.h. ist t 7→ ~x(d + c − t), t ∈ [c, d], eine Parametrisierung von δ, so schreiben wir δ = −γ. Bei der Kurve γ − γ (das ist natürlich γ + (−γ)) laufen wir also
einmal vom Anfangspunkt von γ zum Endpunkt und wieder zurück.
4.6 Glatte und stückweise glatte Parametrisierungen. Eine Kurve γ heißt glatt, wenn sie eine
C 1 -Parameterdarstellung ~x : I → Rm besitzt. Falls hierbei ein Randpunkt des Intervalls I zu I gehört, so
bedeutet dies, dass dort die entsprechende einseitige Ableitung existiert. Wenn γ durch Aneinanderhängen
von endlich vielen glatten Kurven entsteht, so heißt γ stückweise glatt.
Bei glatten Kurven werden normalerweise nur Parameterwechsel der Klasse C 1 zugelassen. Mit einer
Parametrisierung sind dann alle von der Klasse C 1 .
176
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Beispiel. Bei einer glatten Kurve können wir die Bogenlänge mit der Formel aus 4.2 berechnen. Bei einer
stückweise glatten Kurve müssen wir formal diese Formel auf die einzelnen glatten Teilkurven anwenden
und anschließend die Längen der Teilkurven addieren.
4.7 Reguläre Parametrisierungen. Eine glatte Kurve heißt regulär , wenn sie eine C 1 -Parametrisierung
~x : I → Rm mit ~x˙ (t) 6= ~0 für alle t ∈ I besitzt. Für eine stückweise glatte Kurve erklären wir analog, was
stückweise regulär bedeutet.
Beispiel. Die Existenz einer regulären Parametrisierung bedeutet, dass in jedem Punkt der Kurve eine
Tangente gebildet werden kann. Die Zykloide mit dem Parameterintervall [0, 4π] ist zwar glatt aber nicht
regulär (was passiert nämlich bei t = 2π?), aber stückweise regulär.
4.8 Parametrisierung in Bogenlänge. Eine glatte Kurve γ der Länge L mit Parametrisierung
~σ : [0, L] → Rm heißt in Bogenlänge parametrisiert, wenn k~σ˙ (s)k = 1. Man bezeichnet dann die Variable üblicherweise mit s.
Bei einer solchen Parametrisierung ~σ wird die Kurve mit einer Geschwindigkeit vom konstanten Betrag 1
durchlaufen. Für die im Zeitintervall [0, S] ⊂ [0, L] zurückgelegte Strecke LS gilt dann wie zu erwarten
Z S
Z S
LS =
k~σ˙ (s)k ds =
1 ds = S.
0
0
Jede stückweise reguläre Kurve kann in Bogenlänge parametrisiert werden.
Ist nämlich ~x : [c, d] → Rm eine reguläre Parametrisierung, so mache man sich klar, dass durch
Z t
ϕ(t) :=
k~x˙ (τ )k dτ
für t ∈ [c, d]
c
eine C 1 -Funktion ϕ : [0, L] → Rm definiert wird mit ϕ(c) = 0, ϕ(d) = L und ϕ̇ > 0. Damit ist ϕ ein
Parameterwechsel. Für die Parametrisierung ~σ := ~x ◦ ϕ−1 gilt dann mit der Formel für die Ableitung der
Umkehrfunktion §3.2.7 für t := ϕ−1 (s)
d
d
1
1
−1
= ~x˙ (ϕ−1 (s)) ϕ−1 (s) = ~x˙ (t)
= ~x˙ (t)
k~σ˙ (s)k = ~
x
◦
ϕ
(s)
= 1.
ds
˙
ds
ϕ̇(t) k~x(t)k Damit erweist sich ~σ als Bogenlängenparametrisierung. Bei einer stückweise glatten Funktion zerlege
man das Parameterintervalle in endlich viele Teilintervalle, auf denen die Parametrisierung regulär ist
und schließe analog.
4.9 Tangenteneinheits- und Hauptnormalenvektor, Krümmung. Ist ~x : I → Rm eine reguläre
Parametrisierung einer Kurve, so gilt ~x˙ (t) 6= ~0 für alle t ∈ I. Der normierte Tangentenvektor
T~ (t) :=
1 ˙
~x(t)
˙
k~x(t)k
heißt Tangenteneinheitsvektor an der PArameterstelle t. Aus 1 = kT~ (t)k2 = hT~ (t)|T~ (t)i für alle t ∈ I
˙
˙
folgt durch Differenzieren mit der Produktregel §3.2.2 (f) sofort hT~ (t)|T~ (t)i = 0. Also steht T~ (t) auf T~ (t)
˙
senkrecht. Gilt T~ (t) 6= ~0, so nennen wir
~ (t) :=
N
1 ~˙
T (t)
˙
~
kT (t)k
den Hauptnormalenvektor an der Stelle t und
κ(t) :=
die Krümmung an der Parameterstelle t.
˙
kT~ (t)k
k~x˙ (t)k
177
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Ebenso wie die Bogenlänge sind diese drei Größen invariant gegenüber Parametertransformationen. In
Bogenlängenparametrisierung ~σ lassen sie sich am bequemsten ausrechnen. Dann gilt
T~ (s) = ~σ˙ (s),
~ (s) =
N
1 ¨
~σ (s),
¨
k~σ (s)k
κ(s) = kσ̈(s)k.
Das Reziproke 1/κ(σ) der Krümmung gibt den Radius des Krümmungskreises an. Das ist derjenige Kreis,
der die Kurve an der Parameterstelle t von zweiter Ordnung approximiert.
Beispiel. Wir illustrieren dies für die Schraubenlinie
cos s
1
sin s
~σ (s) = √
2
s
√
√
um die x3 -Achse mit Radius 1/ 2 und Ganghöhe 2π. Eine kurze
Rechnung zeigt
k~σ˙ (s)k2 =
T~ (s)
~ (s)
N
~σ (s)
1
(− sin s)2 + (cos s)2 + 1 = 1,
2
es liegt also Bogenlängenparametrisierung vor. Damit gilt
− sin s
1
T~ (s) = ~σ˙ (s) = √ cos s ,
2
1
~ (s)
N
=
− cos s
1 ¨
~σ (s) = − sin s .
¨
k~σ (s)k
0
Die Krümmung berechnen wir zu
κ(s)
¨ (s)k
= k~σ
1
1 p
= √
(− cos s)2 + (− sin s)2 + 0 = √ .
2
2
Abbildung 4.47: Tangenteneinheitsund Hauptnormalenvektor sowie
Krümmungskreis an eine Schraubenlinie im Punkt ~σ (s).
Damit hat√der Krümmungskreis an die Schraubenlinie zu jeder Parameterstelle s den konstanten Radius
1/κ(s) = 2.
4.10 Ebene Kurven: begleitendes Zweibein und Frenet-Formeln. Für eine Kurve in der Ebene
mit einer C 2 -Parametrisierung ~x : I → R2 können wir in jeder regulären Parameterstelle t mit nichtverschwindender Krümmung das Paar
~ (t)) =
(T~ (t), N
1
p
ẋ1 (t)2 + ẋ2 (t)2
!
ẋ1 (t)
1
−ẋ2 (t)
,p
ẋ2 (t)
ẋ1 (t)2 + ẋ2 (t)2 ẋ1 (t)
~ (t) haben
bestehend aus Tangenteneinheits- und Hauptnormalenvektor bilden. (Bei der Darstellung von N
~
~
~
wir hierbei kN (t)k = 1 und N (t) ⊥ T (t) verwendet.) Das liefert uns eine an die Kurve angepasste
Orthonormalbasis des R2 mit Koordinatenursprung in ~x(t). Diese so der Kurve mitgeführte“ ONB
”
nennen wir begleitendes Zweibein.
178
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
In Bogenlängenparametrisierung ~σ hat das begleitende
Zweibein die einfache Gestalt
σ̇1 (s)
−σ̇2 (s)
~
~
T (s) =
,
N (s) =
.
σ̇2 (s)
σ̇1 (s)
Ähnlich wie in 4.9 erhalten wir aus hT~ (s)|T~ (s)i = 1 und
~ (s)|N
~ (s)i = 1 durch Differenzieren T~˙ (s) ⊥ T~ (s) und
hN
˙~
~ (s). Wegen N
~ (s) ⊥ T~ (s) muss damit T~˙ (s) ein
N (s) ⊥ N
~ (s) und N
~˙ (s) ein Vielfaches von T~ (s) sein.
Vielfaches von N
Im ersten Fall ist dieses Vielfache definitionsgemäß gerade
die Krümmung κ(s) Im zweiten erhält man aus den obigen
Beziehungen als Vielfaches dann −κ(s). Zusammen ergibt
dies die Frenet-Formeln
˙
~ (s),
T~ (s) = κ(s)N
~˙ (s) = −κ(s)T~ (s).
N
Abbildung 4.48: Begleitendes Zweibein zu einer C 2 -Kurve in der Ebene.
Ist also die Krümmung κ vorgegeben, so kann man durch Lösen dieses Systems von Differentialgleichungen die zugehörige Kurve berechnen. Eine ebene C 2 -Kurve ist daher bis auf Anfangsdaten durch ihre
Krümmung festgelegt.
4.11 Raumkurven: Binormale, begleitendes Dreibein. Analog können wir bei einer Kurve im Raum
mit einer C 2 -Parametrisierung ~x : I → R3 an jeder Parameterstelle mit nichtverschwindender Krümmung
Tangenteneinheits- und Hauptnormalenvektor durch den
Binomalenvektor
~
~ (t)
B(t)
:= T~ (t) × N
zu einem Rechtssystem
~ (t), B(t))
~
(T~ (t), N
~
ergänzen. (Warum ist B(t)
automatisch normiert?) Diese
positiv orientierte ONB mit Ursprung im Kurvenpunkt ~x(t)
heißt begleitendes Dreibein.
Abbildung 4.49: Begleitendes Dreibein
zu einer C 2 -Kurve im Raum.
4.12∗ Raumkurven: Torsion und Frenet-Formeln. Durch Differenzieren der Identität für die Bi~˙
~
normale kann man einsehen, dass B(t)
auf B(t)
und T~ (t) senkrecht steht, also ein skalares Vielfaches von
~
N (t) sein muss.
Im Fall der Bogenlängenparametrisierung ~σ nennen wir dieses durch
~˙
~ (s)
B(s)
= −τ (s)N
definierte skalare Vielfache τ (s) die Torsion der Kurve in ~σ (s). Die Torsion gibt an, wie stark sich die
Kurve aus der durch die Tangente und die Hauptnormale aufgespannten Ebene herauswindet“. Für eine
”
reguläre C 3 -Bogenlängenparametrisierung gilt dann
¨ (s)k
k~σ˙ (s) × ~σ
,
κ(s) =
k~σ˙ (s)k3
...
¨ (s), ~σ (s))
det(~σ˙ (s), ~σ
τ (s) =
.
¨ (s)k
k~σ˙ (s) × ~σ
179
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Das erhält man durch fleißiges Rechnen ebenso wie die Frenet-Formeln
˙
~ (s),
T~ (s) = κ(s)N
~˙ (s) = −κ(s)T~ (s) + τ (s)B(s),
~
N
~˙
~ (s).
B(s)
= −τ (s)N
Mit diesem System von Differentialgleichungen kann man für eine Kurve im Raum aus vorgegebener
Krümmung und Torsion die Kurve selbst berechnen.
4.13 Ausblick. Wir in diesem Abschnitt die grundlegenden Begriffe der Differentialgeometrie für Kurven
vorgestellt. Wer mehr wissen will, kann beispielsweise in [Kön, Band 1, 12], [FiKau, Band 3, §7] oder
[DaCa] nachschlagen.
5
Skalare und vektorielle Kurvenintegrale
5.1 Skalares Kurvenintegral. Für eine glatte Kurve γ im Rn mit Parametrisierung ~x : [c, d] → Rn und
ein Skalarfeld f , das mindestens auf der Spur von γ definiert und dort integrierbar ist, nennen wir
Z d
Z
f (~x) ds :=
f (~x(t))k~x˙ (t)k dt
γ
c
das skalare Kurvenintegral von f längs γ. Andere gebräuchliche Bezeichnungen sind
Z
Z
Z
f ds,
f (~x) dx,
f (~x) kd~xk.
γ
γ
γ
Ist γ stückweise glatt, d.h. ist ~x differenzierbar bis auf endlich viele Ausnahmepunkte t1 < . . . < tm ∈ [c, d],
in denen aber die einseitigen Ableitungen existieren, so erklären wir das skalare Kurvenintegral von f
längs γ durch
Z
Z t1
Z t2
Z d
˙
˙
f (~x) ds :=
f (~x(t))k~x(t)k dt +
f (~x(t))k~x(t)k dt + · · · +
f (~x(t))k~x˙ (t)k dt.
γ
c
t1
tm
Beispiel. Das skalare Kurvenintegral über das konstante Skalarfeld f = 1 längs einer Kurve γ ist gerade
das Integral für die Kurvenlänge von γ.
5.2 Invarianz unter Parametertransformationen. Ebenso wie für die Kurvenlänge beweist man:
Das skalare Kurvenintegral von f längs γ ist unabhängig von der Wahl der Parametrisierung von γ.
5.3 Interpretation des skalaren Kurvenintegrals. Ist γ in Bogenlänge ~σ : [0, L] → Rn parametrisiert, so berechnet sich das skalare Kurvenintegral von f längs γ wegen kσ̇(s)k = 1 einfach zu
Z
Z
f ds =
γ
L
f (γ)
f (~σ (s)) ds.
0
(Daher rührt auch die Bezeichnung
R
γ
f~σ (s))
f ds.)
Stellen wir uns also das Skalarfeld f als eine
Berg- und Tallandschaft über dem Rn vor, und
betrachten wir nur den über der Kurve γ liegenden Teil s 7→ f (~σ (s)) dieser Landschaft —
sozusagen die in das Gebirge“ gelifteteR Kur”
ve), so gibt das skalare Kurvenintegral γ f ds
die Fläche“ zwischen der Kurve γ und ihrer
”
Liftung f (γ) an.
~
σ(0)
γ
~σ (s)
~
σ(L)
Abbildung 4.50: Interpretation des skalaren Kurvenintegrals.
180
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
5.4 Anwendungsbeispiel aus der Physik. Ein Drahtstück im Raum wird durch ~x : [0, L] → R3
modelliert. Hierbei gibt ~x(s) den Punkt auf dem Drahtstück an, der vom Anfangspunkt ~x(0) um s
Längeneinheiten entfernt ist. Der Draht ist also in Bogenlänge parametrisiert. Ist µ(~x) die Massendichte
des Drahts (Masse pro Längeneinheit) an der Stelle ~x, so ist
Z
L
Z
M=
µ ds =
γ
µ(~x(s)) ds
0
die Gesamtmasse des Drahts. Man schreibt für µ ds auch gerne dm. Durch
s1
~s := s2
s3
1
mit sk :=
M
RL
Z
0
xk dm =
γ
xk (s)µ(~x(s)) ds
für k = 1, 2, 3
RL
µ(~x(s)) ds
0
wird dann der Schwerpunkt des Drahts angegeben. Das könnte man auch kurz in der Form
1
M
~s =
Z
~x dm =
γ
1
M
Z
µ(~x(s))~x(s) ds
γ
schreiben.
Das Trägheitsmoment des Drahts bezüglich einer durch g = {λ~v | λ ∈ R} parametrisierten Ursprungsgeraden errechnet sich mittels
Z
dist(~x, g)2 dm =
L
Z
γ
dist(~x(s), g)2 µ(~x(s)) ds,
0
wobei der Abstand dist(~x, g) des Punktes ~x zur Geraden g gemäß 3.§3.3.7 gegeben ist durch
dist(~x, g) = k~x − h~x|~v i~v k =
p
k~xk2 − h~x|~v i2
5.5 Rechenregeln. Sind γ und δ zwei aneinanderhängbare Wege im Rn und sind f und g zwei auf der
Spur von γ + δ integrierbare Skalarfelder, so gilt:
Z
Z
Z
(a) (Linearität bezüglich des Integranden) (λf + µg) ds = λ f ds + µ g ds für beliebige Zahlen λ, µ.
γ
γ
Z
Z
(b) (Linearität bezüglich des Integrationswegs)
f ds =
γ+δ
Z
(c) (Invarianz bei Umorientierung)
Z
f ds.
δ
f ds.
γ
Z
f ds ≤
(d) (Monotonie)
f ds +
γ
Z
f ds =
−γ
γ
Z
γ
g ds, falls f ≤ g auf der Spur von γ.
γ
Z
Z
|f | ds ≤ M L(γ), falls f durch M auf der Spur von γ beschränkt ist.
(e) (Beschränktheit) f ds ≤
γ
γ
Das folgt aus den Rechenregeln für Integrale 1.18 und der Definition 5.1 des skalaren Kurvenintegrals.
5.6 Motivation für das vektorielle Kurvenintegral. Auf einen Massenpunkt, der sich mit konstanter
Geschwindigkeit ~v bewegt, wirke eine konstante Kraft F~ . In der Zeitspanne ∆t hat der Massenpunkt die
Strecke ~x = ~v ∆t zurückgelegt und dabei die Arbeit hF~ |~xi = hF~ |~v i∆t verrichtet.
181
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Ist nun die Kraft nicht konstant und die Bewegung nicht geradlinig, so können wir die Bahnkurve γ durch einen Polygonzug approximieren. Auf den Teilstrecken nehmen wir den
Tangentenvektor an die Bahnkurve in einem geeigneten Zwischenpunkt als Approximation an die Geschwindigkeit sowie
die dort wirkende Kraft als konstante Approximation für die
auf dieser Teilstrecke wirkende Kraft. Die verrichtete Arbeit
wird dann durch
n
X
hF~ (~xk )|~vk i∆tk
γ
~x˙ (t)
F~ (~x(t))
k=1
approximiert. Nach einem Grenzübergang erhalten wir für die
Arbeit das Integral
Z
Abbildung 4.51: Arbeit längs eines
Weges.
d
hF~ (~x(t))|~x˙ (t)i dt.
c
5.7 Vektorielles Kurvenintegral. Für eine glatte Kurve γ im Rn mit Parametrisierung ~x : [c, d] → Rn
und ein Vektorfeld ~v , das mindestens auf der Spur von γ definiert und dort integrierbar ist, nennen wir
Z
Z
~v (~x) d~x :=
γ
d
h~v (~x(t))|~x˙ (t)i dt
c
das vektorielle Kurvenintegral von ~v längs γ. Andere gebräuchliche Bezeichnungen sind
Z
Z
Z
Z
~v (~x) • d~x,
~v • d~σ ,
h~v (~x)|d~xi,
v1 dx1 + · · · + vn dxn .
γ
γ
γ
γ
Falls γ nur stückweise glatt ist, erklären wir das vektorielle Kurvenintegral durch Aneinandersetzen für
die glatten Teilkurven.
Beispiel. Wir integrieren das Vektorfeld ~v (x, y) =
(x2 , xy) längs der beiden skizzierten Kurven, die beide
im Ursprung beginnen und im Punkt (1, 1) enden. Die
erste parametrisieren wir durch ~x1 (t) := (t, t), t ∈ [0, 1],
die zweite in zwei Teilstücken durch ~x21 (t) := (t, 0),
t ∈ [0, 1], und ~x22 (t) := (1, t − 1), t ∈ [1, 2]. Dann gilt
Z
Z
~v (~x) d~x =
x2 dx + xy dy
γ1
(1, 1)
1
γ1
γ2
γ1
1
2 t
1
h
|
i dt
t·t
1
0
1
Z 1
2 3 2
2
=
2t dt = t = ,
3
3
0
0
Z
1
=
Z
γ2
2 Z 2 t
1
12
0
h
|
i dt +
h
|
i dt
t
·
0
0
1
·
(t
−
1)
1
γ1
0
1
1
2
Z 1
Z 2
t2 − 2t 5
t3 = .
=
t2 dt +
(t − 1) dt = +
3 0
2
6
0
1
1
Z
~v (~x) d~x
Abbildung 4.52: Zwei vektorielle Kurvenintegrale.
=
x2 dx + xy dy =
Z
1
5.8 Beispiele aus der Physik. Die folgende Tabelle gibt einige wichtige physikalische Größen an, die
durch vektorielle Kurvenintegrale berechnet werden können.
182
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Vektorfeld
Kraftfeld
Geschwindigkeitsfeld
elektrische Feldstärke
infinitesimale Wärmeänderung
vektorielles Kurvenintegral
Arbeit
Zirkulation
elektrische Spannung
Wärmemenge
5.9 Invarianz unter Parametertransformationen. Das vektorielle Kurvenintegral von ~v längs γ ist
unabhängig von der Wahl der Parametrisierung von γ.
Physikalisch interpretiert bedeutet dies, dass es nicht auf die konkrete Durchlaufung der Kurve ankommt,
sondern nur auf das Kraftfeld und die Kurve selbst.
Beweis. Wir gehen wie beim Beweis für die Invarianz der Bogenlänge 4.4 vor und verwenden auch
dieselben Bezeichnungen.
Z d
Z d
d
h~v (~x(t))|~x˙ (t)i dt =
h~v (~y (ϕ(t)))| ~y (ϕ(t))i dt
dt
c
c
Z d
Z D
=
h~v (~y (ϕ(t)))|~y˙ (ϕ(t))iϕ̇(t) dt =
h~v (~y (τ ))|~y˙ (τ )i dτ.
c
C
5.10 Rechenregeln. Sind γ und δ zwei aneinanderhängbare Wege im Rn und sind ~v und w
~ zwei auf
der Spur von γ + δ integrierbare Vektorfelder, so gilt:
Z
Z
Z
(f) (Linearität bezüglich des Integranden) (λ~v + µw)
~ d~x = λ ~v d~x + µ w
~ d~x für bel. Skalare λ, µ.
γ
γ
Z
Z
(g) (Linearität bezüglich des Integrationswegs)
~v d~x =
~v d~x +
γ+δ
Z
γ
Z
γ
~v d~x.
δ
Z
~v d~x = −
(h) (Vorzeichenwechsel bei Umorientierung)
−γ
~v d~x.
γ
Z
Z
(i) (Beschränktheit) ~v d~x ≤
k~v k ds ≤ M L(γ), falls ~v durch M auf der Spur von γ beschränkt ist.
γ
γ
Das folgt aus den Rechenregeln für Integrale 1.18 und der Definition 5.7 des vektoriellen Kurvenintegrals.
6
Gradientenfelder, Rotation und Divergenz
6.1 Konservative Vektorfelder.
Ein Vektorfeld ~v : D ⊂ Rn → Rn heißt auf D konservativ oder exakt,
R
wenn das Kurvenintegral γ ~v (~x) d~x über beliebige stückweise glatte Kurven γ in D nur vom Anfangsund Endpunkt von γ, nicht aber vom übrigen Verlauf abhängt:
Z
Z
~v (~x) d~x =
~v (~x) d~x,
falls γ1 und γ2 gleichen Anfangs- und Endpunkt haben.
γ1
γ2
Für ein konservatives Vektorfeld dürfen wir das Kurvenintegral für eine Kurve von ~x1 nach ~x2 ohne
Angabe des Integrationswegs einfach mit
Z ~x2
~v (~x) d~x
~
x1
bezeichnen. Die folgende Aussage ist offensichtlich.
Ein Vektorfeld ~v ist genau dann auf D konservativ, wenn das Kurvenintegral längs jeder geschlossenen
stückweise glatten Kurve in D verschwindet.
Ist γ eine geschlossene Kurve, so schreibt man hierfür gerne
I
~v (~x) d~x = 0.
γ
2
Beispiel. Das Vektorfeld ~v (x, y) = (x , xy) aus 5.7 ist nicht konservativ.
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
183
Die Wegunabhängigkeit des vektoriellen Kurvenintegrals bei konservativen Kraftfeldern hat vielfältige
Anwendungen in der Physik (Wegunabhängigkeit der Arbeit bei einem konservativen Kraftfeld, . . . ).
Beispiele für konservative Vektorfelder anzugeben fällt uns mit obiger Definition schwer. Wir müssten ja
für jede geschlossene Kurve in D zeigen, dass das vektorielle Kurvenintegral verschwindet. Wir schaffen
uns jetzt eine Abhilfe, um dieser umständliche Prozedur zu entgehen.
6.2 Potential. Sind u und ~v ein Skalar- und ein Vektorfeld mit demselben Definitionsbereich D ⊂ Rn ,
so heißt u ein Potential zu ~v , falls
für alle ~x ∈ D.
grad u(~x) = ~v (~x)
Hat ~v ein Potential, so nennen wir ~v auch ein Gradienten- oder Potentialfeld .
In der Physik verlangt man für ein Potential oft −∇u = ~v statt ∇u = ~v .
6.3 Charakterisierung von Gradientenfeldern. Für das Weitere ist der folgende Satz wichtig. Er
kann als eine Verallgemeinerung des Hauptsatzes der Differential- und Integralrechnung 2.5 angesehen
werden und liefert nicht nur eine nützliche Charakterisierung für konservative Vektorfelder, sondern gibt
für diese Felder auch eine einfache Möglichkeit, vektorielle Kurvenintegrale zu berechnen.
Ein stetiges Vektorfeld ~v auf einer offenen Menge D ⊂ Rn ist genau dann ein Gradientenfeld, wenn es
konservativ ist. Ist u : D → R ein Potential zu ~v , so gilt
Z
~v (~x) d~x = u(~x2 ) − u(~x1 )
γ
für jede stückweise glatte Kurve γ in D, die von ~x1 nach ~x2 läuft.
Beweis. Wir haben zwei Teilaufgaben zu bewältigen.
Jedes stetige Gradientenfeld ist konservativ. Wir haben also ein C 1 -Potential u : D → R zu ~v und müssen
zeigen, dass zu vorgegebenem Anfangs- bzw. Endpunkt ~x1 bzw. ~x2 das Kurvenintegral längs einer beliebigen Kurve in D, die von ~x1 nach ~x2 läuft, denselben Wert hat — nämlich u(~x2 ) − u(~x1 ).
Ist γ eine glatte Kurve und ist ~x : [c, d] → D eine C 1 -Parametrisierung von γ, so liefert die Kettenregel
(genauer gesagt ein Vorgriff auf 6.§1.3.2 (c))
d
u(~x(t))
dt
=
=
d
∂
d
∂
d
u(x1 (t), . . . , xn (t)) =
u(~x(t)) x1 (t) + · · · +
u(~x(t)) xn (t)
dt
∂x1
dt
∂xn
dt
n
X
∂
u(~x(t))ẋk (t) = h∇u(~x(t))|~x˙ (t)i = h~v (~x(t))|~x˙ (t)i.
∂xk
k=1
Mit dem Hauptsatz der Differential- und Integralrechnung 2.5 folgt nun
Z
Z d
Z d
d
h~v (~x(t))|~x˙ (t)i =
~v (~x) d~x =
u(~x(t)) dt = u(~x(d)) − u(~x(c)) = u(~x2 ) − u(~x1 ).
γ
c
c dt
Falls γ nur stückweise glatt ist, erhalten wir dies zunächst für die glatten Teilkurven und dann durch
Aneinanderhängen für die Kurve selbst.
Jedes konservative stetige Vektorfeld besitzt ein Potential. Wir wählen einen Aufpunkt“ ~x0 ∈ D, definie”
ren durch
Z ~x
u(~x) :=
~v (~y ) d~y
~
x0
ein Skalarfeld u : D → R und behaupten, dass u ein Potential zu ~v ist. Dazu müssen wir für jeden
Punkt ~x ∈ D zeigen, dass u partiell nach jeder der n Variablen differenzierbar ist mit der entsprechenden
Komponente von ~v (~x) als Ableitung. Wir fixieren ~x und ein k ∈ {1, . . . , n}. Da D offen ist, gibt es eine
Kugel und damit auch eine Würfel mit positivem Radius um ~x. Für alle h ∈ R genügend nahe bei 0 liegt
184
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
damit die Strecke zwischen ~x und ~x + h~ek in D. Mit der Konservativität von ~v , den Rechenregeln 5.10
und dem Mittelwertsatz der Integralrechnung 1.26 folgt
Z ~x+h~ek
Z ~x
Z ~x+h~ek
Z h
u(~x + h~ek ) − u(~x) =
~v (~y ) d~y −
~v (~y ) d~y =
~v (~y ) d~y =
h~v (~x + t~ek )|~ek i dt
~
x0
h
~
x0
~
x
0
Z
=
vk (~x + t~ek ) dt = hvk (~x + θh~ek )
0
für ein θh zwischen 0 und h. Mit h → 0 gilt auch θh → 0. Da mit ~v auch die k-te Komponentenfunktion
vk in ~x stetig ist, liefert ein Grenzübergang nun die Existenz von
1
∂
u(~x) = lim (u(~x + h~ek ) − u(~x)) = lim vk (~x + θh~ek ) = vk (~x).
h→0 h
h→0
∂xk
6.4 Zur Eindeutigkeit von Potentialen, Gebiete. Ist f~ ein Gradientenfeld auf einem Gebiet D ⊂
Rn , so unterscheiden sich zwei Potentiale nur um eine Konstante. Unter einem Gebiet versehen wir eine
offene und wegezusammenhängende Menge D ⊂ Rn . Ist D ein Gebiet, so lassen sich je zwei beliebige
Punkte in D durch eine Kurve verbinden, die D nicht verlässt.
Beispielsweise ist ein Kreis oder ein Kreisring wegezusammenhängend, die Vereinigung zweier disjunkter
Kreise dagegen nicht. Sie besteht aus zwei Zusammenhangskomponenten, nämlich den beiden Kreisen.
Abbildung 4.53: Beispiele für Gebiete im R2 bzw. im R3 .
Anmerkung. Das können wir als eine allgemeine Form der Eindeutigkeitssaussage im Hauptsatz der
Differential- und Integralrechnung ansehen: Hat f auf [c, d] eine Stammfunktion, so ist selbige bis auf
eine Konstante eindeutig bestimmt (vgl. 2.4). Das wird falsch, wenn wir [c, d] z.B. durch die Vereinigung
von zwei disjunkten Intervallen ersetzen. Dort können wir zu einer Stammfunktion auf jedem der beiden
Intervalle eine eigene Konstante addieren und erhalten wieder eine Stammfunktion. Ähnlich verhält es
sich in mehreren Variablen, wenn der Definitionsbereich nicht mehr zusammenhängend ist.
Beweis. Nach Differenzbildung genügt es zu zeigen, dass alle Potentiale zum Nullfeld auf einem Gebiet D
konstant sind. Dazu wählen wir einen Punkt ~x0 ∈ D und erhalten mit 6.3 für alle ~x ∈ D und jedes
R ~x
Potential u des Nullfeldes u(~x) − u(~x0 ) = ~x0 ~0 d~y = 0, d.h. u(~x) = u(~x0 ). Also ist u konstant.
6.5 Wichtige Gradientenfelder. Ist k : ]0, +∞[→ R eine stetige Funktion, so besitzt das auf dem
Rn r {~0} definierte Zentralfeld
~v (~x) =
k(k~xk)
~x,
k~xk
~x ∈ Rn r {~0},
ein Potential. (Die obige Darstellung ist so gewählt, dass k den Betrag von ~v (~x) angibt.)
Rr
Wählen wir für k auf ]0, +∞[ eine Stammfunktion K (beispielsweise K(r) := 1 k(ρ) dρ) und setzen wir
u(~x) := 21 K(k~xk) für ~x ∈ Rn , so folgt
1
1
1
∂
∂
∂
2xk
k(k~xk)
u(~x) = K 0 (k~xk)
k~xk = k(k~xk)
(x1 2 + · · · + xn 2 )1/2 = k(k~xk)
=
xk ,
∂xk
2
∂xk
2
∂xk
2
k~xk
k~xk
d.h. grad u(~x) = ~v~x.
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
185
Damit sind insbesondere die für die Physik wichtigen Gravitationsfelder
1
~x
k~xkµ
mit einem µ > 0
oder Linearkombinationen von Verschiebungen hiervon konservativ.
6.6 Wann hat ein Vektorfeld ein Potential? Diese Frage ist zunächst nicht leicht zu beantworten. Die Auffinden eines Potentials erfordert offensichtlich ähnliche Kreativität wie das Bestimmen einer
Stammfunktion.
Man kann jedoch einfacher zu einer Antwort gelangen. Dafür ist folgender Preis zu zahlen: (i) Wir müssen
zwischen hinreichend“ und notwendig“ unterscheiden können. (ii) Wir dürfen bei einer Funktion nie
”
”
den Definitionsbereich vergessen.
Die Antwort hat dann die in den beiden folgenden Nummern vorgestellten zwei Teile.
6.7 Integrabilitätsbedingung für Gradientenfelder. Besitzt C 1 -Vektorfeld ~v ein Potential, so gilt
∂
∂
vk =
vl
∂xl
∂xk
für k, l = 1, . . . , n.
Bedingungen verletzt, so ist ~v
Ist in irgend einem Punkt des Definitionsbereichs von ~v eine dieser n(n−1)
2
schon nicht konservativ. Vektorfelder, die die Integrabilitätsbedingung erfüllen, heißen rotationsfrei . Dies
ist eine notwendige Bedingung für die Existenz eines Potentials.
Beweis. Ist ~v ein C 1 -Gradientenfeld, so ist das Potential u von der Klasse C 2 und es gilt
∂ ∂u
∂2u
∂
vk =
=
∂xl
∂xl ∂xk
∂xl ∂xk
und
∂
∂ ∂u
∂2u
vl =
=
.
∂xk
∂xk ∂xl
∂xk ∂xl
Wie schon in §3.7.3 angedeutet und dann in 6.§1.2.4 bewiesen, stimmen für eine C 2 -Funktion die gemischten partiellen Ableitungen zweiter Ordnung überein, sofern nach denselben Variablen differenziert wird.
Hieraus folgt die Integrabilitätsbedingung.
Beispiel. Das Feld ~v (x, y) = (x2 , xy) aus 5.7 ist nicht rotationsfrei: ∂x v2 (x, y) = y 6= ∂y v1 (x, y) = 0.
1
2
Dagegen erfüllt das Rotationsfeld w(x,
~
y) := x2 +y
2 (−y, x) auf dem R r {(0, 0)} die Integrabilitätsbe2
2
dingung: ∂x w2 (x, y) = yx2−x
~ auf der punktierten Ebene kein Potential
+y 2 = ∂y w1 (x, y). Trotzdem kann w
haben. Eine kurze Rechnung zeigt nämlich, dass das Kurvenintegral von w
~ längs der einmal durchlaufenen
Einheitskreislinie nicht verschwindet. (Man rechne das selbst aus.)
6.8 Poincaré-Lemma (für Sterngebiete). Erfüllt ein C 1 -Vektorfeld die Integrabilitätsbedingung und
ist es auf einem Sterngebiet definiert, so existiert ein Potential. Unter einem Sterngebiet wollen wir
hierbei eine offene Teilmenge D ⊂ Rn verstehen, die einen Sternpunkt“ ~a ∈ D besitzt, so dass für jedes
”
~x ∈ D die Verbindungsstrecke von ~x mit ~a ganz in D liegt.
Sterngebiete
keine
Sterngebiete
Abbildung 4.54: Beispiele für Sterngebiete im R2 bzw. im R3 .
Die Antwort auf die Frage nach der Konservativität eines Vektorfeldes liegt also überraschender Weise im
Definitionsbereich des Feldes verborgen! Die obige Antwort ist nicht die vollständige Wahrheit. Es gibt
186
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
eine noch größere Gebietsklasse (die sogenannten einfach zusammenhängenden Gebiete), für welche die
Integrabilitätsbedingung nicht nur notwendig, sondern auch hinreichend für die Exsistenz eines Potentials
ist. Auf Details wollen wir hier aber nicht eingehen und auch das Poincaré-Lemma nicht beweisen. (Bei
Interesse lese man z.B. [FiKau, Band 1, §24.5] oder [Kön, Band 2, 5.4].)
nicht einfach
zusammenhängend
einfach zusammenhängend
Abbildung 4.55: Einfach und nicht einfach zusammenhängende Gebiete im R2 bzw. im R3 .
Beispiel. Kugeln, Quader und Würfel sind Sterngebiete. Jeder Winkelraum in der Ebene und jeder
Kegel im Raum (auch einer zu einem überstumpfen Winkel) ist ein Sterngebiet. Die punktierte Ebene
R2 r {(0, 0)} dagegen ist keines. Darum ist das Poincaré-Lemma dort auch nicht auf das Rotationsfeld
w
~ aus 6.7 anwendbar. Da aber die längs der negativen x-Achse geschlitzte Ebene R2 r {(x, 0) | x ≤ 0}
ein Sterngebiet ist, hat w
~ dort ein Potential. Durch Nachrechnen verifiziere man das beispielsweise für
u(x, y) = arcsin √ 2y 2 .
x +y
2
5
0
2.5
-2
-5
0
-2.5
-2.5
0
2.5
5
Abbildung 4.56: Das Rotationsfeld w(x,
~
y) =
1
x2 +y 2 (−y, x)
-5
und sein Potential u(x, y) = arcsin √
y
x2 +y 2
auf der geschlitzten Ebene.
6.9 Praktische Bestimmung von Potentialen. Ist ~v (x, y) = (p(x, y), q(x, y)) ein ebenes Vektorfeld,
definiert auf einem achsenparallelen Rechteck D (das kann der ganze R2 sein), und sind die Integrabilitätsbedingungen ∂y p = ∂x q dort erfüllt, so erhalten wir ein Potential u wie folgt:
(i) Wir halten y fest und bestimmen eine Stammfunktion x 7→ P (x, y) für x 7→ p(x, y), d.h. wir finden
ein P mit ∂x P (x, y) = p(x, y). Die allgemeine Lösung u von ∂x u(x, y) = p(x, y) enthält noch eine
Integrationskonstante Q(y), ist also von der Form u(x, y) = P (x, y) + Q(y).
(ii) Damit u auch die Gleichung ∂y u(x, y) = q(x, y) erfüllt, muss für Q gelten Q0 (y) = q(x, y)−∂y P (x, y).
Die rechte Seite hängt hierbei wegen der Integrabilitätsbedingung nicht von x ab, es gilt nämlich
∂x (q − ∂y P ) = ∂x q − ∂x ∂y P = ∂x q − ∂y ∂x P = ∂x q − ∂y p = 0. Sobald wir also eine Stammfunktion
Q für r(y) = q(x, y) − ∂y P (x, y) gefunden haben, so ist durch u(x, y) = P (x, y) + Q(y) ein Potential
u gegeben.
Für räumliche Vektorfelder kann man analog vorgehen.
187
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Beispiel. Potential zu w(x,
~
y) =
1
x2 +y 2 (−y, x)
p(x, y) =
in der rechten Halbebene H = {(x, y) ∈ R2 | x > 0}, d.h.
−y
,
x2 + y 2
q(x, y) =
x
x2 + y 2
(vgl. 6.7 und 6.8). Wie in 6.7 gezeigt ist w
~ rotationsfrei. Durch Integration erhalten wir zunächst
Z
y
−y
dx = arctan + Q(y),
P (x, y) =
x2 + y 2
x
wobei arctan(y/x) auf H tatsächlich definiert ist, da dort x 6= 0 gilt. Die Integrationskonstante Q(y)
müssen wir hierbei so wählen, dass sie eine Stammfunktion von q(x, y) − ∂y P (x, y) ist, d.h.
Z
Z Z
x
x
Q(y) = (q(x, y) − ∂y P (x, y)) dy =
−
dy
=
0 dy.
x2 + y 2
x2 + y 2
Also ist Q(y) konstant und wir können z.B. Q(y) = 0 wählen. Damit ist u(x, y) = arctan(y/x) das (bis
auf eine Konstante) eindeutig bestimmte Potential zu w
~ in der Halbebene H. Schreiben wir das mit Hilfe
der Identität
y
y
arctan = arcsin p
für (x, y) ∈ H
x
x2 + y 2
um, so erhalten wir sogar ein Potential auf der geschlitzten Ebene R2 r {(x, 0) | x ≤ 0} (vgl. 6.8), da
der Term rechts auch dort noch definiert und differenzierbar ist. Auf die punktierte Ebene R2 r {(0, 0)}
können wir das nicht übertragen, da dann die Stetigkeit verloren geht. (Aus 6.7 wissen wir auch, dass
wir dort kein Potential finden werden.)
6.10 Zusammenfassung. Wir fassen unsere bisherigen Beobachtungen für ein Vektorfeld ~v auf D ⊂ Rn
zusammen:
Z
Z
I
Def.
~v konservativ
⇐⇒
~v (~x) d~x =
~v (~x) d~x
⇐⇒
~v (~x) d~x = 0
γ1
γ2
γ
(Wegunabhängigkeit der Arbeit)
(Energieerhaltung)
m (Charakterisierung 6.7)
~v ist ein Gradientenfeld
Def.
⇐⇒
Z
~
x
~v = grad u, u(~x) =
~v (~y ) d~y
~
x0
⇓ immer
⇑ D Sterngebiet oder einfach zusammenhängend (Poincare-Lemma 6.8)
Def.
⇐⇒
~v erfüllt Integrabilitätsbedingungen
∂xk vl = ∂xl vk
Achtung. Die Integrabilitätsbedingung ist i.A. nur notwendig und nicht hinreichend für die Existenz
eines Potentials. Das wird gerne übersehen!
6.11 Rotation, Divergenz und Laplace-Operator. Für ein C 1 -Vektorfeld ~v : D ⊂ Rn → Rn erklären
wir die Divergenz durch
∂v1
∂vn
div ~v :=
+ ··· +
.
∂x1
∂xn
Wir nennen dieses Skalarfeld die Quelldichte von ~v und schreiben hierfür auch ∇ • ~v . So kann man
sich die Divergenz suggestiv als Skalarprodukt“ des Nabla-Operators (∂x1 , . . . , ∂xn ) mit dem Vektorfeld
”
~v = (v1 , . . . , vn ) merken. Gilt div ~v = 0, so heißt ~v divergenzfrei .
Für ein C 2 -Skalarfeld u : D ⊂ Rn → R nennen wir
∆u :=
∂2u
∂2u
+
·
·
·
+
∂x1 2
∂xn 2
den Laplace-Operator von u. Manchmal wird ∇2 u geschrieben oder ∆ durch −∆ ersetzt. Ein Skalarfeld
u, das die Potentialgleichung ∆u = 0 (d.h. ∆u(~x) = 0 für alle ~x ∈ D) erfüllt, heißt harmonisch.
188
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Ist ~v : D ⊂ R3 → R3 ein C 1 -Vektorfeld im Raum, so wird die Rotation definiert durch
∂x2 v3 − ∂x3 v2
rot ~v := ∂x3 v1 − ∂x1 v3 .
∂x1 v2 − ∂x2 v1
Das Vektorfeld rot ~v heißt auch Wirbeldichte von ~v , im Angelsächsischen wird dafür curl ~v geschrieben. Im
Nabla-Kalkül ist die Schreibweise ∇ × ~v gebräuchlich, die sich als Kreuzprodukt“ des Nabla-Operators
”
(∂x1 , ∂x2 , ∂x3 ) mit dem Vektorfeld ~v = (v1 , v2 , v3 ) in der Form
~e1
~e2
~e3 rot ~v = ∂x1 ∂x2 ∂x3 = (∂x2 v3 − ∂x3 v2 )~e1 + (∂x3 v1 − ∂x1 v3 )~e2 + (∂x1 v2 − ∂x2 v1 )~e3
v1
v2
v3 merken lässt. Ein Vektorfeld mit rot ~v = ~0 heißt wirbelfrei .
Diese drei Differentialoperatoren spielen zusammen mit dem Gradienten eine fundamentale Rolle in der
Mathematischen Physik, insbesondere in der Kontinuums- und Strömungsmechanik sowie der Elektodynamik.
6.12 Wichtige Beziehungen zwischen Gradient, Divergenz und Rotation im R3 . Die Integrabilitätsbedingung 6.7 für ein Vektorfeld ~v im Raum können wir jetzt knapp in der Form rot ~v = ~0
schreiben und erhalten für ein Gradientenfeld u die Beziehung
rot grad u = ~0.
Das bedeutet: ein Gradientenfeld ist wirbelfrei.
Diese Formel hätte man natürlich auch durch Rechnen nachprüfen können, ebenso wie die Beziehung
div rot ~v = 0,
die besagt: ein Rotationsfeld ist divergenzfrei.
6.13 Zur Interpretation von Gradient, Divergenz und Rotation. Eine tragfähige Interpretation
des Gradienten als Richtung des stärksten Anstiegs eines Skalarfeldes lernen wir 6.§1.3.5 kennen, sobald
wir erklärt haben, was die Ableitung einer Funktion mehrerer Variablen ist. Divergenz und Rotation eines
Vektorfeldes werden wir erst im Rahmen der Vektoranalysis 6.§3 vollständig verstehen. Vorerst glauben
wir den folgenden Interpretationen.
Stellen wir uns ein Vektorfeld ~v als eine Strömung vor, wobei ~v (~x) den Betrag und die Richtung der
Strömungsgeschwindigkeit an der Stelle ~x angibt, so besagt Wirbelfreiheit, dass ein kleines (Untersee-)Boot
sich nicht um seine Achse drehen wird, wenn es der Strömung folgt. Divergenzfreiheit besagt, dass ein
kleiner Ölfleck vielleicht seine Form, aber nicht seine Größe (Fläche bei einem zweidimensionalen Fluss,
Volumen bei einem dreidimensionalen) ändern wird, wenn er sich mit der Strömung bewegt. Im Allgemeinen gibt rot ~v (~x) Richtung und Winkelgeschwindigkeit der an der Stelle ~x auf das Boot wirkenden
Drehbewegung an, div ~v (~x) die Größenänderung des Ölflecks.
Beispiel. Für die beiden auf dem R3 bzw. dem R3 r Span(~e3 ) (dem R3 außer der z-Achse) definierten
Vektorfelder
y
− x2 +y
−y
2
1
x
~v (x, y, z) = x2 +y
~v (x, y, z) := x ,
w(x,
~
y, z) := 2
2
x + y2
0
0
berechen wir
0
rot ~v (x, y, z) = 2~e3 = 0 ,
2
0
rot w(x,
~
y, z) = ~0 = 0 .
0
Also ist w
~ rotationsfrei, während ~v an jedem Punkt eine Drehbewegung um die z-Achse bewirkt.
189
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
y
x
(− x2 +y
2 , x2 +y 2 , 0)
(−y, x, 0)
Abbildung 4.57: Ein Rotationsfeld und ein rotationsfreies Vektorfeld im R3 (Blick auf die (x, y)-Ebene).
Achtung. Wie das Beispiel zeigt, kann der Begriff rotationsfrei“ zu Verwirrung führen. Ein rotations”
freies Vektorfeld kann sehr wohl geschlossene Flusslinien haben.
Beispiel. Wir berechnen für die beiden auf dem R2 definierten Vektorfelder
x
−y
,
w(x,
~
y) :=
~v (x, y) :=
x+y
x
jeweils die Divergenz und erhalten
div ~v (x, y) = 0,
div w(x,
~
y) = 2.
Also ist ~v divergenzfrei, w
~ dagegen nicht.
~v (x, y) :=
−y
x
~v (x, y) :=
x
x+y
Abbildung 4.58: Ein divergenzfreies Vektorfeld und ein Wirbelfeld im R2 .
6.14 Weitere Identitäten zwischen Gradient, Divergenz, Rotation und Laplace-Operator
Durch fleißiges Nachrechnen verifiziert man die folgenden (unter geeigneten Differenzierbarkeitsvoraussetzungen gültigen) Beziehungen:
(a) div(u~v ) = hgrad u|~v i + u div ~v ,
(b) rot rot ~v = grad div ~v − ∆~v ,
(c) div(~v × w)
~ = hrot ~v |wi
~ − h~v | rot wi,
(d) rot(u~v ) = (grad u) × ~v + u rot ~v ,
(e) rot(~v × w)
~ = (div w)~
~ v − (div ~v )w
~ + (w
~ • ∇)~v − (~v • ∇)w.
~
190
§5
1
§5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN
Elementar lösbare gewöhnliche Differentialgleichungen
Einführung
1.1 Vorrede: statische und dynamische Systeme. In den vorangegangenen Kapiteln haben wir Methoden zum Lösen von Gleichungen kennengelernt. Einfache Gleichungen wie x2 + 5x − 2 = 0 lassen sich
mit rein algebraischen Mitteln aus Kapitel 1 lösen. Im Allgemeinen muss man sich mit Existenz- und Eindeutigkeitsaussagen sowie Näherungsverfahren begnügen. Eine Monotonieüberlegung zeigt beispielsweise,
dass die Gleichung xex = 1 genau eine reelle Lösung besitzt, selbige kann mit dem Newton-Verfahren
§3.6.1 näherungsweise bestimmt werden.
Gleichungen mit Parametern führen auf den Funktionsbegriff, die Abhängigkeit der Lösung vom Parameter auf Begriffe wie Stetigkeit und Differenzierbarkeit. Oft ist man nicht an einer vollständigen
Beschreibung der Lösung interessiert — meist ist das zu aufwendig oder gar nicht möglich — sondern an
ihren charakteristischen Eigenschaften (wie z.B. Existenz, Eindeutigkeit, Monotonie, Extremalstellen).
So führt das Lösen der Gleichung x2 = t auf die Wurzelfunktion (vgl. 1.§2.2.4).
Eine Differentialgleichung (abgekürzt DGL) ist nun — kurz gesagt — eine Gleichung zwischen einer
gesuchten Funktion, einigen ihrer Ableitungen und ihrem Argument.
Fazit. Eine durch eine Gleichung f (t, x) = 0 beschriebene Funktion x ist das mathematische Modell eines
statischen Systems. Der Systemzustand x hängt nur von der Eingabe t ab. Eine durch eine Differentialgleichung f (t, x, ẋ, ẍ, . . . , x(r) ) = 0 beschriebene Funktion x ist das mathematische Modell eines dynamischen
Systems. In einem dynamischen System beeinflussen sich die Eingabe t, der aktueller Systemzustand x,
dessen Änderung ẋ und die höheren Ableitungen ẍ, . . . , x(r) von x gegenseitig.
1.2 Was ist eine DGL? Wir benutzen die Begriffe Differentialgleichung“ und dynamisches Sys”
”
tem“ synonym. Da die unabhängige Variable gerne als Zeit interpretiert wird, verwenden wir für sie das
Symbol t und für die Ableitung nach dieser Variablen den Punkt ˙“. Damit ist x(t) der Zustand des
”
Systems zur Zeit t und ẋ(t) seine Änderung. Wir betrachten hier nur den Fall, dass x eine differenzierbare
Funktion einer reellen Veränderlichen ist. (Wird komplexe Differenzierbarkeit zu Grunde gelegt, so muss
man Methoden der Funktionentheorie verwenden, hängt x von mehreren reellen Veränderlichen ab, so
benötigt man die Theorie partieller Differentialgleichungen.) Oftmals ist der Systemzustand nicht einsondern mehrdimensional, man denke an die Mechanik, wo ~x(t) den Ort eines Teilchens im R3 zur Zeit t
angibt, oder sogar aus dem R6k stammt, um die Orts- und Impulskomponenten eines k-Teilchen-Systems
zu beschreiben.
Gehen in eine DGL Ableitungen bis einschließlich r-ter Ordnung ein, so sprechen wir, von einer DGL
r-ter Ordnung. Ist der Systemzustand x nicht ein- sondern n-dimensional, so sprechen wir von einem
DGL-System der Dimension n.
1.3 Explizite DGL erster Ordnung. Im einfachsten Fall hat ein dynamisches System die Form
ẋ = F (t, x)
bzw.
~x˙ = F~ (t, ~x),
d.h. es geht nur die erste Ableitung ein und die Gleichung f (t, x, ẋ) = 0 kann nach ẋ aufgelöst werden.
Wir sprechen dann von einem expliziten System erster Ordnung.
Jede DGL lässt sich in ein explizites System erster Ordnung umschreiben. Wie das geht, macht das
folgende Beispiel klar: In einer Schwingungsgleichung
LI¨ + RI˙ +
1
I = U̇ (t)
C
für den Stromfluss I in einen RCL-Kreis mit angelegter Wechselspannung U ersetzen wir den von der
physikalischen Beschreibung motivierten eindimensionalen Systemzustand I durch
I(t)
x1 (t)
~x(t) =
:= ˙
x2 (t)
I(t)
191
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
und erhalten
~x˙ =
I˙
=
˙
I¨
−R
LI −
I˙
1
LC I +
und damit als zugehöriges explizites System erster Ordnung
ẋ1
x2
=
1
R
x
−
−
ẋ2
2
LC x1 +
| {z } | L
{z
=~
x˙
~ (t,~
=:F
x)
,
1
L U̇ (t)
.
1
L U (t)
}
Im allgemeinen führt man bei einer k-dimensionalen DGL r-ter Ordnung dann r Hilfsvariable für den
Zustand und seine Ableitungen bis zur (r − 1)-ten ein, löst nach der r-ten Ableitung auf und erhält ein
kr-dimensionales explizites System erster Ordnung.
Vom mathematischen Standpunkt aus genügt daher die Betrachtung solcher Systeme. Man spricht von
der Universalität expliziter Systeme erster Ordnung.
1.4 Was ist eine Lösung einer DGL? Unter einer Lösung der DGL ẋ = F (t, x) verstehen wir eine
auf einem Intervall I ⊂ R definierte differenzierbare Funktion x : I → R mit
ẋ(t) = F (t, x(t))
für alle t ∈ I.
Hierbei muss natürlich die rechte Seite F der Differentialgleichung einen Definitionsbereich besitzen, der
(t, x(t)) für alle t ∈ I enthält, so dass der Einsetzungsprozess F (t, x(t)) Sinn ergibt.
1.5 Richtungsfeld einer DGL. Geometrisch interpretiert liefert die rechte Seite F (t, x(t)) die Steigung
des Graphen der gesuchten Funktion x im Punkt (t, x(t)). Ist also die Lösungskurve im Punkt (t, x(t))
angekommen“, so wird sie dort mit der Steigung F (t, x(t)) weitergeschickt“. Die DGL dirigiert“ sozu”
”
”
sagen die Lösungskurve mittels ständiger Richtungsanweisungen“.
”
Wir können daher die DGL ẋ = F (t, x) graphisch lösen“, indem wir das Richtungsfeld F zeichnen und
”
die zugehörige Lösungskurve so einpassen, dass die Steigung der Tangente der Kurve in jedem Punkt mit
der durch F vorgegebenen Steigung übereinstimmt.
x
x
x0
t0
t
t0
t
x0
F (t, x) = t + x2
F (t, x) = x − t + 1
Abbildung 4.59: Zwei Beispiele für ein Richtungsfeld F : D ⊂ R2 → R und den Graph einer Lösung eines
Anfangswertproblems ẋ = F (t, x), x(t0 ) = x0 .
1.6 Was ist ein Anfangswertproblem? Offensichtlich müssen wir bei dem eben geschilderten Vorgehen einen Startpunkt im Richtungsfeld auswählen. Ein dynamisches System besitzt also also in der Regel
keine eindeutig bestimme Lösung, sondern eine Schar von Lösungen. Wir hoffen aber, dass wir durch
Vorgabe einer Anfangsbedingung“ eine Lösung auswählen können, d.h. dass das Anfangswertproblem
”
(abgekürzt AWP)
ẋ(t) = F (t, x),
x(t0 ) = x0 ,
zu einer vorgegebenen Anfangsbedingung (t0 , x0 ) im Definitionsbereich von F eindeutig lösbar ist.
192
§5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN
1.7 Anmerkung zu Lösungen. Sobald bei der Modellierung eines physikalischen oder technischen
Problems eine DGL ins Spiel kommt, gehen wir im Alltag automatisch davon aus, dass die Lösung
• existiert,
• eindeutig bestimmt ist,
• lebt“ solange das System lebt.
”
Letztlich unterstellen wir dabei, dass sich die Natur deterministisch verhält und glauben an die Ewigkeit.
Tatsächlich verhält es sich anders herum: erst wenn wir Existenz und Eindeutigkeit der Lösung eines
AWPs mathematisch sichergestellt haben, können wir der Natur (oder genauer: unserer Modellbildung)
Determinismus unterstellen. Die Frage nach der maximalen Lebensdauer“ einer Lösung sollte ebenfalls
”
von der Theorie beantwortet werden. Hierzu stellt die Mathematik einige klassische Sätze bereit.
Der Existenzsatz von Peano besagt, dass jedes AWP ẋ = F (t, x) mit einer stetigen rechten Seite F
lösbar ist, der Existenz- und Eindeutigkeitssatz von Picard-Lindelöf liefert auch die Eindeutigkeit, sofern F bezüglich x (bei mehrdimensionalen Systemem bezüglich jeder Komponenten von ~x) stetig partiell
differenzierbar ist. Die Frage nach der Lebensdauer einer Lösung ist kitzlig, der Satz von Picard-Lindelöf
beispielsweise garantiert nur eine Mindestlebensdauer, die sich aus den Startwerten und der rechten Seite
ablesen lässt.
Auf Details der umfangreichen Theorie über Differentialgleichungen werden wir hier nicht eingehen. Für
den Rest dieses Paragraphen interessiert uns die wichtigsten Typen explizit lösbarer Differentialgleichungen. Einer ist uns schon aus §3.6.6 bekannt: die lineare DGL erster Ordnung mit konstanten Koeffizienten.
Diese hat im homogenen Fall die Form ẋ = ax, im inhomogenen ẋ = ax + b mit Koeffizienten a, b. In
§3.6.6 haben wir die Lösungen explizit angegeben und gesehen, dass die auf ganz R leben“.
”
In den folgenden Abschnitten werden wir auch Fälle kennenlernen, in denen die Lösung eines AWPs nicht
eindeutig bestimmt ist oder nur ein endliches Existenzintervall besitzt.
2
Differentialgleichungen mit getrennten Variablen
2.1 Idee der Trennung der Variablen. Eine DGL des Typs
ẋ = c(t)g(x)
mit stetigen Funktionen c und g heißt DGL mit getrennten Variablen. Eine solche DGL kann man folgendermaßen lösen: Ist x : I → R eine Lösung von ẋ = c(t)g(x) mit g(x(t)) 6= 0 für t ∈ I, so gilt
c(τ ) =
ẋ(τ )
g(x(τ ))
für alle τ ∈ I.
Nach Integration erhalten wir zur Anfangsbedingung x(t0 ) = x0 mit der Substitutionsregel für Integrale
Z
t
Z
t
c(τ ) dτ =
t0
t0
ẋ(τ )
dτ =
g(x(τ ))
Z
x(t)
x0
dζ
.
g(ζ)
Sind C bzw. G Stammfunktionen von c bzw. von 1/g mit C(t0 ) = 0 = G(x0 ), so gilt
C(t) = G(x(t))
Wegen G0 (x0 ) = 1/g(x0 ) 6= 0 ist G in einer Umgebung von x0 streng monoton. Dort können wir G
invertieren und erhalten
x(t) = G−1 (C(t))
für t in einem Intervall um t0 .
Durch Einsetzen verifizieren wir, dass wir so wirklich eine Lösung gefunden haben.
193
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
2.2 Worauf muss man aufpassen? Trennung der Verfahren funktioniert nur, wenn g(x0 ) 6= 0. Dann
folgt nämlich für den oben gefundenen Lösungskandidaten wegen Stetigkeit auch g(x(t)) 6= 0 für alle
Zeiten t, die genügend nahe bei der Startzeit t0 liegen und die obige Integration gelingt. Über das Existenzintervall der Lösung des AWP erfährt man erst etwas im Laufe der Rechnung. In der Praxis wendet
man dieses Lösungsverfahren daher gerne formal an und macht anschließend eine Probe. Was im Fall
g(x0 ) = 0 passieren kann, erfahren wir im Beispiel 2.6.
Gelingt eine Trennung der Variablen, so hat man ein dynamisches System in ein statisches übergeführt,
d.h. eine Gleichung für die Lösungsfunktion gefunden. Oftmals kann man diese Gleichung nicht explizit
lösen, sondern muss Näherungstechniken zum Lösen nichtlinearer Gleichungen einsetzen (siehe Satz über
implizite Funktionen 6.§1.6.4).
2.3 Anwendungsbeispiel: logistische DGL. Das Bevölkerungswachstum in einer beschränkten Umgebung wird durch die logistische DGL
ẋ = cx(1 − x)
mit einem Wachstumskoeffizienten c > 0
beschrieben (man vergleiche mit dem diskreten Fall in 1.§2.3.2). Hierbei gibt x den Anteil an der Maximalbevölkerung an und nimmt daher sinnvoller Weise Werte in [0, 1] an. Für x nahe bei 0 gilt ẋ ≈ cx und
das Wachstum ist im Wesentlichen proportional zu x, für x nahe bei 1 gilt ẋ ≈ 0 und es tritt praktisch
kein Wachstum ein. Dieses Modell wird nicht nur in der Biologie angewendet, es beschreibt auch die
Verbreitung von Gerüchten oder autokatalytische chemische Reaktionen.
Zur Lösung des Anfangswertproblems
ẋ = cx(1 − x),
x(0) = x0 ,
mit einem Startwert x0 ∈]0, 1[ machen wir für x ∈]0, 1[ eine Trennung der Variablen
c=
ẋ(t)
x(t)(1 − x(t))
und erhalten nach Integration
Z
t
Z
c dτ =
ct =
0
0
t
ẋ(τ )
dτ =
x(τ )(1 − x(τ ))
Z
x(t)
x0
x0
dζ
x(t)
− ln
.
dζ = ln
ζ(1 − ζ)
1 − x(t)
1 − x0
Diese Gleichung für die Lösungsfunktion x(t) liefert nach kurzer Rechnung
x(t) = 1
x0
1
.
− 1 e−ct − 1
Offensichtlich ist x(t) für alle t ∈ R definiert und Lösung der Differentialgleichung.
1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
c = 0.3
5
10
15
20
c = 0.6
5
10
15
Abbildung 4.60: Lösungen der logistischen Differentialgleichung ẋ = cx(1 − x).
20
194
§5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN
Für die Startwerte x0 = 0, 1 können wir keine Trennung der Variablen machen (warum?). Dann gilt aber
ẋ = 0 und wir erhalten die konstanten Lösungen x(t) = 0 bzw. x(t) = 1 für t ∈ R.
Wegen limt→+∞ x(t) = 1 für x0 ∈]0, 1] nähert sich die Populationsdichte in diesem Modell asymptotisch
dem Maximalwert an. Ihr charakteristischer S-förmiger Verlauf kann in der Natur häufig beobachtet
werden, wenn eine Art einen neuen Lebensraum erobert.
2.4 Anwendungsbeispiel: chemische Reaktion zweier Stoffe. Sind x1 und x2 die Konzentrationen
zweier Stoffe, die miteinander chemisch reagieren, wobei der zweite Stoff unter Anwesenheit des ersten
zu selbigem umgewandelt wird, so gilt
x1 + x2 = 1,
ẋ1 = cx1 x2 ,
ẋ2 = −cx1 x2 ,
mit einer Konstanten c > 0. Denn die Wahrscheinlichkeit, dass ein Molekül des einen Stoffes auf ein
Molekül des anderen trifft, ist proportional zu x1 x2 .
Setzen wir ~x = (x1 , x2 ) und F (t, ~x) = (cx1 x2 , −cx1 x2 ), so haben wir das System in Form einer DGL
~x˙ = F (t, ~x) für eine vektorwertige Funktion ~x (mit einer von t unabhängigen) rechten Seite F vorliegen.
Durch Auflösen der Erhaltungsbedingung x2 = 1 − x1 und Elimination von x2 aus ẋ1 = ax1 x2 bekommen
wir für x1 eine logistische DGL ẋ1 = cx1 (1 − x1 ). Selbige können wir wie im vorangegangenen Beispiel
2.3 lösen und erhalten anschließend auch den Verlauf von x2 .
1
x1
0.8
0.6
0.4
c = 0.4, x0 = 0.2
0.2
x2
5
10
15
20
Abbildung 4.61: Konzentrationsverläufe bei der chemischen Reaktion.
2.5 Eine DGL, bei der die Lebensdauer einer Lösung vom Startwert abhängt. Das Richtungsfeld der DGL
ẋ = ex sin(t)
ist symmetrisch zur x-Achse und 2π-periodisch bezüglich t. Mit x sind daher auch t 7→ x(−t) und
t 7→ x(t + 2kπ), k ∈ Z, Lösungen. Durch Trennung der Variablen erhalten wir
−e−x =
Z
e−x dx =
Z
ẋ(τ )
dτ =
ex(τ )
Z
sin(t) dt = − cos(t) − C
und somit x(t) = − ln(cos(t) + C) für t ∈ R mit C + cos(t) > 0. Die Lösung des Anfangswertproblems
ẋ = ex sin(t),
x(0) = − ln(a), a > 0,
lautet x(t) = − ln(cos(t) + a − 1). Für a > 2 ist sie auf R definiert, für a = 2 nur im Intervall ] − π, π[.
Fazit. Der Definitionsbereich einer Lösung eines Anfangswertproblems kann vom Anfangswert abhängen
und steht in keinem einfachen Zusammenhang zum Definitionsbereich der rechten Seite.
195
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
a=1
a=2
a=5
a = 10
Abbildung 4.62: Lösungen des Anfangswertproblems ẋ = ex sin(t), x(0) = − ln(a) für a = 1, 2, 5, 10.
2.6 Anwendungsbeispiel: auslaufender Behälter. Wir betrachten einen zylindrischen Becher mit
Durchmesser 2R an dessen Boden sich ein kreisförmiges Ausflussrohr mit Durchmesser 2r befindet. Wir
wollen den Flüssigkeitsstand h(t) zur Zeit t bestimmen, wenn der Flüssigkeitsstand h0 zum Zeitpunkt
t0 = 0 bekannt ist. Ferner interessiert uns die Zeit T zu der der Behälter sich geleert hat.
Beim Auslaufen des Volumens ∆V nimmt die potentielle Energie um g∆V h(t) ab, die kinetische Energie
wächst um 21 v(t)2 ∆V , wobei v(t) die Ausflussgeschwindigkeit zur Zeit t ist. Ohne Berücksichtigung der
p
Zähigkeit liefert der Energieerhaltungssatz das
Das Vorhandensein von
p Torricelli-Gesetz v(t) = 2gh(t).
√
Zähigkeit können wir in der Form v(t) = α gh(t) mit einer Konstanten α < 2 modellieren. Offenbar
gilt −ḣ(t)/v(t) = r2 /R2 . Damit haben wir das AWP
√
r2 α g √
ḣ = −
h,
h(0) = h0 > 0
2
{z }
| R
=:2c
vorliegen. Für die Lösung h gilt, solange sie positiv ist,
ḣ(t)
−2c = p
,
h(t)
d.h. nach Integration
Z
−2ct =
t
Z
(−2c) dτ =
0
0
t
ḣ(τ )
p
dτ =
h(τ )
Durch Lösen dieser Gleichung für h(t) erhalten wir
p
2
h(t) =
h0 − ct
Die Auslaufzeit ist also T =
√
Z
h(t)
ζ −1/2 dζ = 2
p
h(t) −
p
h0 .
h0
√
für t <
h0
.
c
h0 /c. Für t > T wird die physikalische Wirklichkeit durch
( √
2
h0 − ct
für 0 ≤ t < T
h(t) =
0
für t ≥ T
beschrieben. Das ist eine C 1 -Lösung unseres AWPs. Der Zustand zu irgendeinem Zeitpunkt t ≥ 0 ist
eindeutig festgelegt. Bei leerem Becher, d.h. für Zeiten t ≥ T , lässt sich aber die Vergangenheit nicht
mehr rekonstruieren. Das Anfangswertproblem
√
ḣ = −2c h,
h(t0 ) = 0
ist also nicht eindeutig lösbar!
Fazit. Ein Anfangswertproblem muss nicht eindeutig lösbar sein.
196
§5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN
√
F (t, h) = −2c h
2R
∆V
h(t)
h0
T
2r
t0
Abbildung 4.63: Auslaufender Becher als ein Beispiel für ein nicht eindeutig lösbares Anfangswertproblem.
3
Lineare Differentialgleichungen erster Ordnung
3.1 Lineare DGL erster Ordnung. Eine DGL des Typs
ẋ = a(t)x + b(t)
mit stetigen reell- oder komplexwertigen Funktionen a, b auf einem offenen Intervall I ⊂ R heißt lineare
DGL erster Ordnung. Wieder unterscheiden wir zwischen dem homogenen Fall mit b(t) = 0 für alle t ∈ I
und dem inhomogenen Fall, in dem b nicht konstant verschwindet. Das verallgemeinert den Fall konstanter
Koeffizienten aus §3.6.6.
Gerade für Anwendungen in der Elektrotechnik stellt es sich als günstig heraus, sowohl für die Koeffizientenfunktionen a, b als auch für die Lösung komplexe Werte zuzulassen. Rechentechnisch macht das
keine zusätzliche Arbeit.
3.2 Homogener Fall: Trennung der Variablen. Im homogenen Fall
ẋ = a(t)x
liegt eine DGL mit getrennten Variablen vor, die wir mit einer Trennung der Variablen 2.1 lösen können.
Hierbei stellt sich heraus, dass die Lösung immer auf ganz I definiert ist.
Die Lösungen der DGL ẋ = a(t)x mit einer auf einem Intervall I stetigen Funktion a sind auf ganz I
definiert und haben die Form x(t) = ceA(t) mit c ∈ C und einer Stammfunktion A : I → C von a. Zu
gegebenen t0 ∈ I und x0 ∈ C hat das Anfangswertproblem
ẋ = a(t)x,
x(t0 ) = x0 ,
genau eine Lösung. Selbige ist auf ganz I definiert und lautet
Z t
x(t) = x0 exp
a(τ ) dτ .
t0
3.3 Inhomogener Fall: Struktur der Lösungsmenge. Der schon aus 3.§3.1.23 und §3.6.6 bekannte
Zusammenhang zwischen Lösungen einer inhomogenen linearen DGL und der zugehörigen homogenen
bleibt auch für nicht-konstante Koeffizienten erhalten — wir können den Beweis wörtlich übertragen.
Wir erhalten die Lösungsgesamtheit der inhomogenen linearen DGL ẋ = a(t)x + b(t) indem wir zu einer
speziellen Lösung dieser DGL die Gesamtheit der Lösungen der zugehörigen homogenen DGL ẋ = a(t)x
addieren.
Alles läuft also darauf hinaus, eine spezielle Lösung der inhomogenen DGL zu finden. Dies geschieht mit
der folgenden auf Lagrange zurückgehenden Methode.
197
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
3.4 Finden einer speziellen Lösung: Variation der Konstanten. Wir gehen mit dem Ansatz
Z t
x(t) = c(t) exp
a(τ ) dτ
t0
in die DGL ẋ = a(t)x + b(t) ein, verwenden also die Lösungsfunktionen des homogenen Falls und ersetzen
den Scharparameter c durch eine Funktion c(t). Für diese Funktion gilt
Z t
Z t
ẋ(t) = [ċ(t) + c(t)a(t)] exp
a(τ ) dτ ,
a(t)x(t) + b(t) = c(t)a(t) exp
a(τ ) dτ + b(t),
t0
t0
und wir erhalten durch Vergleich für c die DGL
Z t
ċ(t) = b(t) exp −
a(τ ) dτ ,
t0
welche wir dank des Hauptsatzes der Differential- und Integralrechnung §4.2.5 immer durch eine Integration lösen können. Damit haben wir eine Lösung von ẋ = a(t)x + b(t) gefunden.
Eine spezielle Lösung x̃ der DGL ẋ = a(t)x + b(t) mit auf einem Intervall
R I stetigen
Funktionen a, b
t
erhält man, indem man eine Stammfunktion C : I → C von t 7→ b(t) exp − t0 a(τ ) dτ bildet und
Z t
x̃(t) := C(t) exp
a(τ ) dτ
t0
setzt. Diese spezielle Lösung und damit alle Lösungen von ẋ = a(t)x + b(t) sind auf ganz I definiert.
Beispiel. Lösungsgesamtheit von ẋ = x + t. Die zugehörige homogene DGL ẋ = x hat konstante
Koeffizienten und
LösungR x(t) = cet mit c ∈ C. Eine Variation der Konstanten
R als allgemeine
R liefert
−t
ċ(t) = t exp(− 1 dt) = te , d.h. c(t) = te−t dt = −(t+1)e−t . Damit ist x̃(t) = −(t+1)e−t exp( 1 dt) =
−(t + 1) eine spezielle Lösung und x(t) = cet − (t + 1) die allgemeine.
3.5 Anwendungsbeispiel: RL-Kreis mit Fremderregung. Wir betrachten den RL-Kreis aus Beispiel §3.6.7. Diesmal legen wir für t ≥ 0 eine Wechselspannung U (t) = U0 sin(ωt) der Frequenz ω/(2π)
an. Der Stromverlauf wird dann durch
˙ = − R I(t) + U0 sin(ωt),
I(t)
L
L
I(0) = 0,
beschrieben. Die allgemeine Lösung der zugehörigen homogenen Gleichung lautet I(t) = be−(R/L)t , eine
Variation der Konstanten liefert zunächst
ḃ(t) =
U0
sin(ωt)e(R/L)t
L
und nach Integration dann
b(t) =
U0
[R sin(ωt) − ωL cos(ωt)]e(R/L)t + C.
R2 + ω 2 L2
Die Klammer können wir einfacher schreiben, indem wir zu dem bis auf ein ganzzahliges Vielfaches von
2π eindeutig bestimmten Phasenwinkel ϕ ∈ R mit
cos(ϕ) = √
R
,
R2 + ω 2 L2
sin(ϕ) = √
ωL
,
R2 + ω 2 L2
übergehen und b in der Form
b(t) = √
R2
U0
sin(ωt − ϕ)e(R/L)t + C
+ ω 2 L2
198
§5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN
erhalten. Damit gehorcht der Stromverlauf in diesem RL-Kreis für t ≥ 0 der Gleichung
U0
sin(ωt − ϕ) + Ce−(R/L)t .
+ ω 2 L2
Nach Bestimmung von C aus den Anfangswerten bekommen wir als Lösung
i
h
U0
I(t) = √
sin(ωt − ϕ) + sin(ϕ)e−(R/L)t .
R2 + ω 2 L2
Die Stromstärke wird also asymptotisch eine reine Sinus-Schwingung, allerdingt mit einer Phasenverschiebung ϕ gegenüber dem Spannungsverlauf U (t).
I(t) = √
L
U
R2
I
R
0
t
U (t)
I(t)
Abbildung 4.64: Ein RL-Kreis mit angelegter Wechselspannung.
4
Einfache Substitutionstechniken
4.1 Worum geht es? Wir haben einige Typen von explizit lösbaren DGL kennengelernt. Man hüte sich
aber davor zu glauben, dass es für jede DGL eine Lösungsmethode gibt: explizit lösbare DGL sind die
Ausnahme und die Hauptarbeit in der Theorie der Differentialgleichungen besteht darin, Methoden zur
Verfügung zu stellen, etwas über die Lösung einer DGL aussagen zu können, ohne sie zu kennen. Um sich
diese Arbeit zu ersparen, versucht man in den Anwendungen oft, bei der Modellierung Vereinfachungen
zu machen, die zu einer explizit lösbaren DGL führen. Bisweilen kommt man durch eine geschickte
Substitution zum selben Ergebnis. Wir führen einige Beispiele vor und verweisen auf die umfangreiche
Literatur zu diesem Thema (z.B. [Ka]).
4.2 Bernoullische DGL. Diese DGL hat die Form
ẋ = et xα − x
mit α ∈ R.
Man diskutiert i.A. nur positive Lösungen. Für α = 0, 1 liegt eine lineare DGL vor und wir können direkt
die schon bekannten Methoden anwenden. Für α 6= 0, 1 benutzen wir die Substitution u(t) := x(t)1−α
und erhalten für u die DGL
1
1
1
1
et
u̇ =
x−α ẋ =
x−α (et xα − x) =
(et − x1−α ) =
u+
.
1−α
1−α
1−α
α−1
1−α
Damit genügt u einer linearen inhomogenen DGL, die wir wieder explizit lösen können. Resubstituieren
x(t) = u(t)1/(1−α) löst uns anschließend die ursprüngliche DGL.
Achtung. Man achte bei dieser Substitution für eine Bernoullische DGL auf das Vorzeichen von x.
4.3 Eulersche DGL. Diese DGL hat die Gestalt
tẋ + cx + 1 + t2 = 0
und wird i.A. nur t > 0 betrachtet. Zunächst ist man versucht, die Methode für eine lineare inhomogene
DGL mit nichtkonstanten Koeffizienten anzuwenden. Durch die Substitution u(s) := x(es ) erhalten wir
aber u̇ = ẋes = −cu − 1 − e2s und damit eine lineare DGL deren homogener Teil u̇ = −cu konstante
Koeffizienten hat, also einfacher zu lösen ist.
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
199
4.4 DGL mit rationalem Richtungsfeld. Jede DGL des Typs
ax + bt + c
ẋ = F
dx + et + f
lässt sich durch eine Substitution auf eine DGL mit getrennten Variablen zurückführen. Wir illustrieren
dies an zwei Spezialfällen.
(a) Bei der DGL
ẋ = F (ax + bt + c)
mit a 6= 0
erfüllt für jede Lösung x die durch
u(t) := ax(t) + bt + c
definierte Funktion u die DGL
u̇ = aẋ + b = aF (ax + bt + c) + b = aF (u) + b.
Das ist aber eine DGL mit getrennten Variablen der Form u̇ = g(u). Löst umgekehrt eine Funktion u
diese DGL, so erfüllt x(t) := a1 (u(t) − bt − c) die ursprüngliche DGL.
(b) Für die DGL
ẋ = F
x
t
machen wir bei einer für t > 0 definierten Lösung x die Substitution
u(t) :=
x(t)
t
und erhalten
1
(F (u) − u) ,
t
also wieder eine DGL mit getrennten Variablen. Haben wir selbige gelöst, so liefert x(t) := tu(t) eine
Lösung für die ursprüngliche DGL. Für t < 0 gehe man analog vor.
u̇ =
§6
1
Vertauschung von Grenzübergängen, uneigentliche Integrale
Punktweise und gleichmäßige Konvergenz
1.1 Fragestellung. Gegeben ist eine Funktion f : [0, L] → R mit f (0) = f (L) = 0. Wir stellen uns f
als die Gestalt einer an den Enden eingespannten Saite vor. Lässt sich f dann in eine Sinusreihe
f (x) =
∞
X
k=1
bk sin
kπ
x
L
entwickeln?
Fourier (1768–1830) selbst war der Ansicht, dass dies für jede Funktion möglich sei. Das erweist sich aber
mit einem Abzählargument als unmöglich: Ist über f nichts weiter vorausgesetzt, so ist f erst nach Angabe
der Funktionswerte f (x) an jeder der überabzählbar unendlich vielen Stellen x ∈ [0, L] festgelegt. Die
Fourier-Reihe trägt aber in ihren Koeffizienten bk nur abzählbar unendlich viele Informationen. Dirichlet
und Riemann vermuteten, dass solch eine Darstellung für jede stetige Funktion möglich sei, schließlich
sind die an der Summenbildung beteiligten Funktionen alle stetig.
Inzwischen ist bekannt, dass selbst nicht alle stetigen Funktionen in eine Fourier-Reihe entwickelt werden
können, während es umgekehrt unstetige Funktionen gibt, die sich vollständig durch eine Fourier-Reihe
darstellen lassen. Die Untersuchung dieser Fragestellung war im 19. Jahrhundert maßgeblich für die
Entwicklung der Analysis verantwortlich.
200
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
1.2 Punktweise Konvergenz, Funktionenfolgen. Gegeben ist eine Folge von Funktionen fn mit
gemeinsamen Definitionsbereich D, für die der Grenzwert
f (x) := lim fn (x)
n→∞
für jedes x ∈ D
existiert und damit eine Grenzfunktion f auf D definiert. Wir sagen, die Funktionenfolge (fn )n konvergiert
punktweise gegen f und schreiben
fn → f
punktweise auf D für n → ∞.
1.3 Präzisierung der Fragestellung. Wir behandeln im Zusammenhang mit unserer Fragestellung die
folgenden drei Probleme.
• Unter welchen Voraussetzungen folgt aus der Differenzierbarkeit der Funktionen fn die Differenzierbarkeit der Grenzfunktion f und f 0 (x) = limn→∞ fn0 (x)?
Z
Z
f (x) dx = lim
fn (x) dx?
• Wann impliziert die Integrierbarkeit der fn die von f mit
n→∞
D
D
• Wann überträgt sich die Stetigkeit der fn auf die von f ?
Flapsig können wir diese drei Probleme in der Form
Z
Z
d
d
?
?
lim fn = lim
fn ,
lim fn dx = lim
fn dx,
n→∞ dx
n→∞
n→∞
dx n→∞
?
lim lim fn (x) = lim lim fn (x).
x→x0 n→∞
n→∞ x→x0
schreiben. Sätze, die uns Antwort auf die eben gestellten Fragen geben, nennen wir Vertauschungssätze.
1
1.4 Beispiele.
(a) Die Grenzfunktion einer Folge von C ∞ Funktionen muss nicht einmal stetig sein. Wir setzen
fn (x) := xn
für x ∈ [0, 1].
Dann sind die fn alle C ∞ -Funktionen auf [0, 1] und
es gilt
(
0 für x ∈ [0, 1[
fn (x) → f (x) =
für n → ∞.
1 für x = 1
Die Grenzfunktion f ist also in x = 1 unstetig.
(b) Integration und Grenzübergang sind im allgemeinen nicht vertauschbar. Wir definieren stetige
Funktionen fn : [0, 1] → R wie skizziert. Dann gilt
limn→∞ fn (x) = 0 für alle x ∈ [0, 1]. Für x = 0
ist das offensichtlich, für x > 0 gilt fn (x) = 0 sobald x > 1/n, d.h. n > 1/x. Konstruktionsgemäß
R1
gilt 0 fn (x) dx = 1, während die Grenzfunktion f
identisch verschwindet, somit haben wir
Z 1
Z 1
fn (x) dx.
lim fn (x) dx = 0 6= 1 = lim
0 n→∞
n→∞
0
f1
f2 . . .
0
1
Abbildung 4.65: Die Grenzfunktion einer Folge von C ∞ -Funktionen muss nicht stetig sein.
2n
fn
0
1/n
1
Abbildung 4.66: Integration und Grenzübergang dürfen nicht immer vertauscht werden.
Fazit. Eigenschaften einer punktweise konvergenten Funktionenfolge müssen sich nicht automatisch auf
die Grenzfunktion übertragen. Wir brauchen also einen für unsere Zwecke geeigneten Konvergenzbegriff.
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
201
1.5 Gleichmäßige Konvergenz. Wir erinnern uns an die Supremumsnorm und den gleichmäßigen
Abstand von Funktionen (siehe §4.1.7 und §4.1.9). Der folgende Konvergenzbegriff ist für das Weitere
von grundlegender Bedeutung.
Eine Folge von Funktionen fn mit gemeinsamen Definitionsbereich D nennen wir gleichmäßig konvergent
gegen eine Funktion f auf D, falls
kfn − f k∞,D → 0
für n → ∞.
Hierbei ist kfn − f k∞,D = supx∈D |fn (x) − f (x)| der gleichmäßige Abstand von fn zu f . Wir schreiben
dann
fn → f
gleichmäßig auf D für n → ∞.
Der gleichmäßige Abstand von f und fn geht also gegen Null. Zu jedem ε > 0 existiert ein nε ∈ N mit
|fn (x) − f (x)| < ε
für alle n ≥ nε und alle x ∈ D.
Bildlich gesprochen heißt dies, dass für jeden noch so kleinen Fehler ε > 0 die Graphen aller Funktionen
fn im ε-Schlauch um den Graphen von f verlaufen, mit vielleicht endlich vielen Ausnahmen.
1.6 Zum Verhältnis von gleichmäßiger zu punktweiser Konvergenz. Aus der gleichmäßigen
Konvergenz fn → f auf D folgt die punktweise.
Das ergibt sich sofort aus |fn (x) − f (x)| ≤ kfn − f k∞,D für x ∈ D.
Achtung. Die Umkehrung gilt i.A. nicht.
Beispiel. Gemäß Beispiel 1.4 (a) gilt xn → 0 für jedes x ∈ [0, 1[. Für fn (x) := xn und f (x) := 0 haben
wir also fn → f punktweise auf [0, 1[. Es gilt aber kfn − f k∞,[0,1[ = supx∈[0,1[ xn = 1. Also konvergieren
die fn auf [0, 1[ nicht gleichmäßig gegen f . Dagegen ist die Konvergenz auf jedem Intervall [0, r] mit r < 1
gleichmäßig. Dann gilt nämlich kfn − f (x)k∞,[0,r] = supx∈[0,r] xn = rn → 0 für n → ∞.
Anmerkung. Punktweise Konvergenz auf D bedeutet: Zu jedem x ∈ D gibt es zu vorgegebenem γ > 0
ein — i.A. von x abhängiges — nε = nε,x mit |fn (x) − f (x)| < ε für n ≥ nε,x . (In obigem Beispiel war
ln ε
n > ln
x zu wählen.) Bei gleichmäßiger Konvergenz kann nε unabhängig von x gewählt werden.
1.7 Rechnen mit gleichmäßig konvergenten Funktionenfolgen. Sind (fn )n und (gn )n gleichmäßig
konvergente Funktionenfolgen auf D, so gilt:
(c) Die Funktionenfolge (fn )n ist auf D beschränkt. Es gibt also eine Schranke M > 0 mit kf k∞,D ≤ M
für alle n ∈ N, d.h. |fn (x)| ≤ M für alle x ∈ D und n ∈ N.
(d) Aus fn → f und gn → g gleichmäßig auf D folgt λfn + µgn → λf + µg für beliebige Zahlen λ, µ, sowie
für reell- oder komplexwertige Funktionen fn gn → f g und |fn | → f , für vektorwertige hf~n |~gn i → hf~|~g i
und kf~n k → kf~k gleichmäßig auf D.
P∞
1.8 Funktionenreihen. Wie bei
PnZahlenfolgen erklären wir eine Funktionenreihe k=0 fk als die Funktionenfolge der Partialsummen k=1 fk . Natürlich müssen die fk denselben Definitionsbereich haben.
P∞
Beispiele. Eine Potenzreihe k=0 ak xk ist eine Funktionenreihe mit Vielfachen der Polynome xk als
Glieder. Eine (reelle) Fourier-Reihe hat die Form
a0 +
∞
X
(ak cos kt + bk sin kt)
k=1
mit Fourier-Koeffizienten ak , bk . Gilt bk = 0 für alle k ∈ N, so spricht man von einer Cosinus-Reihe, bei
ak = 0 für alle k ∈ N0 von einer Sinus-Reihe. Für das Rechnen mit Fourierreihen ist die komplexe Form
∞
X
k=−∞
ck eikt
202
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
P∞
Pn
oft angenehmer. Dabei bedeutet k=−∞ = limn→∞ k=−n . Zwischen den Koeffizienten in der reellen
und in der komplexen Darstellung kann man via
a0
=
2c0 ,
ak
= ck + c−k ,
bk
c0
=
a0
2
ck
=
ak − ibk
,
2
c−k
= i(ck − c−k ),
für k ∈ N.
ak + ibk
,
2
=
umrechnen.
Für die gleichmäßige Konvergenz einer Funktionenreihe wird gerne das folgende Kriterium verwendet.
1.9 Majorantenkriterium für gleichmäßige Konvergenz von Funktionenreihen.
P∞ Ist (fk )k eine
Funktionenfolge auf
D
mit
|f
(x)|
≤
b
für
x
∈
D
und
konvergiert
die
Zahlenreihe
k
k
k=0 bk , so ist die
P∞
Funktionenreihe k=0 fk auf D gleichmäßig konvergent.
P∞
∗
Beweis
P∞ . Nach dem Majorantenkriterium 1.§4.2.4 konvergiert k=0 fk (x) für jedes xP∈∞D absolut. Damit
ist k=0 fk auf D punktweise
P∞ konvergent gegen eine Funktion f . Sei ε > 0. Da k=0 bk konvergiert,
existiert ein nε ∈ N mit k=nε +1 bk < ε. Für alle x ∈ D und n ≥ nε folgt mit 1.§4.1.8 (f)
∞
∞
∞
n
X
X
X
X
bk < ε.
fk (x) − f (x) = fk (x) ≤
|fk (x)| ≤
k=n+1
k=0
Also ist
k=n+1
k=nε +1
P∞
fk auf D gleichmäßig konvergent.
P∞
P∞
Anmerkung. Beliebte Majoranten sind k=0 q k mit q ∈ [0, 1[ und k=0
k=0
∞
X
km qk
∞
X
1
kα
mit q ∈ [0, 1[ und m ∈ N0 ,
k=0
1
k2
oder allgemeiner
mit α > 1.
k=0
Beispiel.
P∞ Die Fourier-Reihe
und k=1 k12 konvergiert.
P∞
1
k=1 k2
sin kt konvergiert für alle t ∈ R. Es gilt nämlich | k12 sin kt| ≤
1
k2
P∞
1.10 Gleichmäßige Konvergenz von Potenzreihen. Eine Potenzreihe k=0 ak (x − x0 )k mit Konvergenzradius R > 0 ist für jedes r ∈ [0, R[ in der Kreisscheibe |x − x0 | ≤ r gleichmäßig konvergent.
P∞
∗
k
Beweis
P∞ . Die Reihek k=0 |ak |r konvergiert gemäß 2.§4.1.4 und ist dann eine gleichmäßige Majorante
für k=0 ak (x − x0 ) für |x − x0 | ≤ r.
Achtung. Das kann man nicht einfacher formulieren! In der vollen Kreisscheibe |x − x0 | < R liegt i.A.
keine gleichmäßige Konvergenz vor (vgl. hierfür und für den nachfolgenden Beweis auch 2.§4.1.7).
Beispiel. Wir illustrieren das für die geometrische Reihe. Mit
f (x) :=
∞
X
k=0
xk =
1
,
1−x
fn (x) :=
n
X
xk =
k=0
1 − xn+1
1−x
gilt für |x| < 1
n+1 n+1
x
≤ |x|
|f (x) − fn (x)| = 1−x
1 − |x|
mit Gleichheit für x ∈ [0, 1[. Für jedes feste r ∈ [0, 1[ haben wir damit
kf − fn k∞,|x|≤r = sup |f (x) − fn (x)| =
|x|≤r
rn+1
.
1−r
Also konvergieren die Partialsummen der geometrischen Reihe für |x| ≤ r gleichmäßig. Für r → 1−
wird die Konvergenz aber immer schlechter. Auf der offenen Kreisscheibe |x| < 1 ist |f (x) − fn (x)| sogar
unbeschränkt.
203
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
2
Vertauschungssätze
2.1 Fazit vorab. Kurz gesagt: gleichmäßige Konvergenz ist der Schlüssel zu den Antworten auf unsere
Fragen in 1.3. Stetigkeit und Integrierbarkeit der Grenzfunktion f übertragen sich bei gleichmäßiger
Konvergenz von (fn )n , Differenzierbarkeit bei gleichmäßiger Konvergenz von (fn0 )n .
2.2 Stetigkeit der Grenzfunktion. Eine gleichmäßig konvergente Folge oder Reihe stetiger Funktionen
konvergiert gegen eine stetige Grenzfunktion.
Beweis∗ . Ist (fn )n auf D gleichmäßig konvergent gegen f , so gibt es zu ε > 0 eine Zahl n ∈ N mit
|fn (x) − f (x)| < ε/3 für alle x ∈ D. Ist fn im Punkt a ∈ D stetig, so gibt es zu ε/3 ein δ > 0 mit
|fn (x) − fn (a)| < ε/3 für alle x ∈ D mit |x − a| < δ. Für diese x folgt mit der Dreiecksungleichung
|f (x) − f (a)| ≤ |f (x) − fn (x)| + |fn (x) − fn (a)| + |fn (a) − f (a)| <
ε ε ε
+ + = ε.
3 3 3
Damit ist f im Punkt a stetig. Bei einer Funktionenreihe schließe man analog mit den Partialsummen.
P∞
Beispiel. Da die Fourier-Reihe k=1 k12 sin kt auf R gleichmäßig konvergiert, ist die Grenzfunktion auf
R stetig.
2.3 Vertauschung von Integration und Grenzübergang. Ist (fn )n eine auf [c, d] gleichmäßig
konvergenze Folge integrierbarer Funktionen, so ist auch die Grenzfunktion f integrierbar und es gilt
Z d
Z d
f (x) dx = lim
fn (x) dx.
n→∞
c
c
P∞
Ist k=0 gk eine auf [c, d] P
gleichmäßig konvergente Funktionenreihe und sind die gk integrierbar, so ist
∞
auch die die durch g(x) := k=0 gk (x) definierte Grenzfunktion integrierbar mit
Z
d
g(x) dx =
c
∞ Z
X
k=0
d
gk (x) dx.
c
Für eine Funktionenfolge hatten wir das schon in §4.1.21 bewiesen. Für eine Funktionenreihe folgt das
dann durch Betrachtung der Partialsummen.
2.4 Vertauschung von Differentiation und Grenzübergang. Ist (fn )n eine Folge von C 1 -Funktionen
auf ]c, d[, konvergiert (fn (a))n für ein a ∈]c, d[ und konvergiert (fn0 )n gleichmäßig auf ]c, d[, so ist (fn )n
selbst auch konvergent und die Grenzfunktion f ist auf ]c, d[ differenzierbar mit
f 0 (x) = lim fn0 (x)
n→∞
für x ∈]c, d[.
P∞
P∞
Ist k=0Pgk eine Reihe von C 1 -Funktionen aufP
]c, d[, konvergiert k=0 gk (a) für ein a ∈]c, d[ und kon∞
∞
vergiert k=0 gk0 gleichmäßig auf ]c, d[, so ist k=0 gk selbst auch konvergent und die Grenzfunktion g
ist auf ]c, d[ differenzierbar mit
g 0 (x) =
∞
X
gk0 (x)
für x ∈]c, d[.
k=0
Beweis∗ . Wir setzen b := limn→∞ fn (a) und betrachten ein x ∈]c, d[. Konvergiert (fn0 )n auf ]c, d[
gleichmäßig gegen eine Funktion g, so ist die Konvergenz auch gleichmäßig auf dem Intervall mit Randpunkten a und x. Gliedweise Integration gemäß 2.5 und der Hauptsatz der Differential- und Integralrechnung §4.2.5 liefern daher
Z x
Z x
g(t) dt = lim
fn0 (t) dt = lim (fn (x) − fn (a)) = lim fn (x) − b.
a
n→∞
a
n→∞
n→∞
204
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
Somit konvergiert (fn (x))n auf ]c, d[ punktweise gegen eine Funktion f und es gilt
Z x
f (x) := lim fn (x) =
g(t) dt + b
für x ∈]c, d[.
n→∞
a
Der Hauptsatz liefert nun die Differenzierbarkeit von f mit f 0 (x) = g(x) = limn→∞ fn0 (x) für x ∈]c, d[.
Für eine Funktionenreihe schließe man analog.
2.5 Gliedweise Integration und Differentiation von Potenzreihen. Eine Potenzreihe f (x) =
P
∞
k
k=0 ak (x − x0 ) mit Konvergenzradius R > 0 ist für x ∈]x0 − R, x0 + R[ beliebig oft gliedweise differenzierbar und integrierbar und es gilt
f 0 (x)
Z
=
x
f (t) dt
x0
=
∞
X
k=1
∞
X
k=0
f 00 (x) =
kak (x − x0 )k−1 ,
∞
X
k(k − 1)ak (x − x0 )k−2 ,
...,
k=2
1
ak (x − x0 )k+1 ,
k+1
....
Das folgt sofort aus 1.10 und 2.4 bzw. 2.5. Wir hatten das aber auch schon in §3.2.5 bzw. §4.3.12 bewiesen.
P∞
1
= k=0 xk ist auf ] − 1, 1[ gliedweise differenzierbar mit
Beispiel. Die geometrische Reihe 1−x
1
(1 − x)2
1
(1 − x)3
∞
=
k=1
∞
X
2
=
∞
X d
X
d 1
=
xk =
kxk−1 ,
dx 1 − x
dx
d
1
=
2
dx 1 − x
k=2
2
k=1
∞
X
d k
x =
dx2
k(k − 1)xk−2 ,
k=2
..
.
Durch Bilden geeigneter Linearkombinationen erhalten wir hieraus die Summenformeln für die verallgemeinerten geometrischen Reihen (vgl. 1.§4.3.8 (f))
∞
X
k=0
kxk =
x
,
(1 − x)2
∞
X
k 2 xk =
k=0
x(x + 1)
,
(1 − x)3
...
für |x| < 1.
Gliedweises Integrieren der geometrischen Reihe liefert uns die Logarithmusreihe (vgl. §3.4.16 (m))
Z x
Z xX
∞
∞ Z x
∞
∞
X
X
X
1
1
1 k
dζ =
ζ k dζ =
ζ k dζ =
xk+1 =
x
für x ∈] − 1, 1[.
ln(1 − x) =
k+1
k
0 1−ζ
0
0
k=0
3
k=0
k=0
k=1
Uneigentliche Integrale
3.1 Worum geht es? Bisher können wir Funktionen nur über kompakte Intervalle [c, d] integrieren. Wir
wollen dies nun auf halboffene Intervalle bzw. einseitig unbeschränkte Intervalle erweitern, anschließend
auch auf offene und unbeschränkte. Insbesondere können wir dann geeignete Funktionen über die ganze
reelle Achse integrieren. Es stellt sich heraus, dass die hierbei auftretenden Phänomene von ähnlicher
Natur sind wie beim Übergang von endlichen Summen zu Reihen: wir müssen insbesondere zwischen
bedingter und absoluter Konvergenz unterscheiden.
3.2 Erstes Beispiel. Für α 6= 1 und ξ > 0 gilt
ξ
Z ξ
1
1
1
1
1
1−α dx =
x
= α − 1 1 − ξ α−1 → α − 1
α
x
1
−
α
1
1
1
Z 1
1
1
1
1
1
1−α dx
=
x
=
1
−
→
α
α−1
1−α
1−α
ξ
1−α
ξ x
ξ
für ξ → +∞ falls α > 1,
für ξ → 0+ falls 0 < α < 1.
205
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Für α > 1 können wir also der Fläche unter dem Graphen von 1/xα für x ∈ [1, +∞[ die Maßzahl 1/(α−1)
zuweisen, obwohl sich der Bereich ins Unendliche erstreckt. Gleiches gilt für 0 < α < 1 für die Fläche
unter dem Graphen von 1/xα für x ∈]0, 1], der wir die Maßzahl 1/(1 − α) zuordnen können, obwohl sie
sich längs der positiven y-Achse ins Unendliche erstreckt. Wir schreiben dann
Z +∞
Z 1
1
1
1
1
dx
=
für
α
>
1,
dx =
für 0 < α < 1.
α
α
x
α−1
1−α
1
0 x
1
1
1
1
Abbildung 4.67: Zur Integration von 1/xα .
3.3 Zweites Beispiel. Für r > π gilt mit einer partiellen Integration
Z r
Z r
cos r
cos x
sin x
dx.
dx = −1 −
−
x
r
x2
π
π
Rr
Rr 1
x
Wegen | cosr r | ≤ 1r → 0 und | 1 cos
x2 dx| ≤ π x2 dx ≤ 1/π für r → +∞ existiert
Z r
Z ∞
sin x
sin x
dx := lim
dx.
r→+∞
x
x
π
π
Dagegen gilt
Z
r
lim
r→+∞
π
sin x x dx = +∞.
Schätzen wir nämlich wie in nachfolgender Abbildung skizziert das Integral über das Intervall [π, nπ]
sin(k+ 21 )π
2
durch die Summe der Flächen von Dreiecken mit Grundlinienlänge π und Höhe | (k+ 1 )π
| = (2k+1)π
2
durch
Z nπ n
X
sin x 1
dx ≥
x 2k
+1
π
k=1
R +∞ sin x
ab, so folgt die Divergenz von π | x | dx aus der Divergenz der harmonischen Reihe.
1
1
Z
+∞
π
Π
2Π
Z
sin x
dx konvergiert
x
3Π
4Π
5Π
π
6Π
Abbildung 4.68: Zur Integration von
Π
sin x
x
2Π
sin x x dx divergiert
3Π
4Π
5Π
6Π
und | sinx x |.
R∞
dx und Divergenz von π | sinx x | dx stehen in vollständiger Analogie zur Konverk
P∞
P∞
genz der alternierenden harmonischen Reihe k=1 (−1)
und Divergenz der harmonischen Reihe k=1 k1 .
k
Konvergenz von
R∞
+∞
π
sin x
x
206
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
3.4 Absolute und bedingte uneigentliche Integrierbarkeit. Ist I =]c, d[ mit −∞ ≤ c < d ≤ +∞
und ist f auf I definiert und über jedes kompakte Teilintervall von I im Sinne von §4.1.12 integrierbar,
so nennen wir f auf I uneigentlich integrierbar , falls für ein ζ ∈ I die beiden Grenzwerte
Z ζ
Z ζ
Z δ
Z δ
f (x) dx := lim
f (x) dx
und
f (x) dx := lim
f (x) dx
γ→c+
c
existieren. Wir setzen dann
Z
γ
δ→d−
ζ
d
Z
f (x) dx :=
c
ζ
Z
f (x) dx +
c
ζ
δ
f (x) dx.
ζ
Rd
Existiert auch das uneigentliche Integral c |f (x)| dx, so heißt f auf I absolut uneigentlich integrierbar ,
andernfalls bedingt uneigentlich integrierbar .
Wenn die beiden oben genannten Integrale für einen Teilpunkt ζ ∈ I konvergieren, so existieren sie beide
für jeden Teilpunkt ζ ∈ I und ihre Summe ist jedesmal dieselbe. Man überlege selbst, warum das so ist.
Anmerkung. Die obige Definition kann sowohl für halboffene oder offene wie auch für ein- oder zweiseitig
unbeschränkte Integrationsintervalle verwendet werden. Grundlegend für uneigentliche Integrale ist aber
die Integration über halboffene bzw. einseitig unbeschränkte Intervalle.
Achtung. Bedingt uneigentlich integrierbare Funktionen muss man ähnlich vorsichtig behandeln wie
bedingt konvergente Reihen.
Beispiele. Der Arcustangens ist über R absolut uneigentlich integrierbar mit
Z +∞
1
dx = π,
1
+
x2
−∞
Rδ
R0
da 0 1/(1+x2 ) dx = arctan δ → π/2 für δ → +∞ und γ 1/(1+x2 ) dx = − arctan γ → π/2 für γ → −∞.
Dagegen ist x/(1 + x2 ) über R oder [1, +∞[ weder absolut noch bedingt uneigentlich integrierbar, da
Z δ
Z δ
Z δ
x
x
1
1
dx
≥
dx
=
dx = ln δ → +∞
für δ → +∞.
2
2
2
2
1 1+x
1 x +x
1 2x
3.5 Integration über Singularitäten. Ist f auf [c, d] mit Ausnahme eines Punktes s ∈]c, d[ definiert
Rd
Rs
und existieren die uneigentlichen Integrale c f (x) dx und s f (x) dx, so setzen wir
Z
d
Z
f (x) dx :=
c
s
Z
f (x) dx +
c
d
Z
f (x) dx = lim
ε1 →0+
s
s−ε1
Z
d
f (x) dx + lim
ε2 →0+
c
f (x) dx
s+ε2
R1
R1
R0
R1
Beispiel. −1 |x|−1/2 dx = 4, da 0 x−1/2 dx = 2 = −1 (−x)−1/2 nach 3.2. Dagegen existiert −1 1/x dx
R1
nicht, da γ 1/x dx = − ln γ → +∞ für γ → 0+.
Rc
Achtung. Man hüte sich also davor, bei einer punktsymmetrischen Funktion f einfach −c f (x) dx = 0
zu folgern, wenn f nicht über ganz [−c, c] integrierbar ist oder wenn über R integriert wird.
3.6 Cauchy-Hauptwert. Manchmal kann es vorkommen, dass zwar nicht über eine Singularität s
hinwegintegriert werden kann, dass aber der symmetrische Grenzwert
!
Z
Z
Z
d
CH−
s−ε
f (x) dx := lim
c
ε→0+
d
f (x) dx +
c
f (x) dx
s+ε
Rd
existiert. Dann wird diese Zahl der Cauchy-Hauptwert des uneigentlichen Integrals c f (x) dx genannt.
R1
R1
Beispiel. −1 1/x dx existiert nicht, wohl aber der Cauchy-Hauptwert CH− −1 1/x dx = 0, das folgt
sofort aus der Punktsymmetrie des Integranden.
207
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
3.7 Majorantenkriterium für uneigentliche Integrierbarkeit. Genau dann ist f über I absolut
uneigentlich integrierbar, wenn es eine über I integrierbare positive Funktion g gibt mit |f (x)| ≤ g(x) für
alle x ∈ I.
Dieses Kriterium ist ähnlich wichtig wie das Majorantenkriterium für absolut konvergente Reihen 1.§4.2.4.
Den Beweis führe man selbst als Übung.
3.8 Wichtige Majoranten für die Praxis sind
Z ∞
Z +∞
1 −λa
1
1
−λx
e
dx =
e
für λ > 0,
dx =
für α > 1,
α
λ
x
α
−
1
a
1
Z +∞
Z 1
1
1
1
dx
=
π,
dx =
für 0 < α < 1.
2
α
1
+
x
x
1
−
α
−∞
0
R +∞
2
Beispiel. Das Integral −∞ e−x /2 dx konvergiert absolut. Eine Majorante wird abschnittsweise definiert
durch g(x) := 1 für |x| ≤ 1 bzw. g(x) := e−|x|/2 für |x| > 1. Den Wert
Z +∞
√
2
e−x /2 dx = 2π
−∞
können wir erst in 6.§2.3.5 durch einen Trick mit mehrdimensionaler Integration ausrechnen.
3.9 Grenzverhalten uneigentlich integrierbarer Funktionen. Ist f über [0, +∞[ uneigentlich integrierbar, so gilt
Z +∞
lim
f (x) dx = 0.
c→+∞
c
0
1
Ist f eine C -Funktion und ist f ebenfalls über [0, +∞[ uneigentlich integrierbar, so gilt auch
lim f (x) = 0.
x→+∞
Analoge Aussagen gelten für die Integration über ] − ∞, 0].
Rc
R +∞
Beweis. Aus 0 f (x) dx = limc→+∞ 0 f (x) dx folgt
Z +∞
Z +∞
Z c
f (x) dx =
f (x) dx −
f (x) dx → 0
c
0
für c → +∞.
0
Ist f eine C 1 -Funktion so folgt mit dem Hauptsatz die Existenz von
Z x
Z
0
lim f (x) = lim
f (0) +
f (t) dt = f (0) +
x→+∞
x→+∞
Wäre dieser Grenzwert nicht 0, so würde
0
R∞
0
+∞
f 0 (t) dt.
0
f (x) dx nicht konvergieren.
Anmerkung. Um limx→+∞ f (x) = 0
zu erhalten genügt es nicht, dass f eine
über [0, +∞[ uneigentlich integrierbare C 1 Funktion ist. Man betrachte dazu die skizzierte Wolkenkratzerfunktion“, die wegen
”
Z ∞
Z n+1
Z n
1
1
<
f (x) dx =
2
2
k=1 k
0
k=1 k
über [0, +∞[ integrierbar ist obwohl
limx→+∞ f (x) nicht existiert. Durch Abrunden der Ecken lässt sich f in eine
C 1 -Funktion mit demselben Grenzverhalten
überführen.
2n
1
2n3
Abbildung 4.69: Eine uneigentlich über [0, +∞[
integrierbare Funktion, für die limx→+∞ f (x)
nicht existiert.
208
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
3.10 Substitutionsregel für uneigentliche Integrale. Stellvertretend für die anderen Fälle führen
wir die Substitionsregel mit dem Integrationsintervall [c, +∞[ vor.
Ist f stetig, auf [γ, +∞[ absolut uneigentlich integrierbar und ist u eine C 1 -Funktion, die [c, +∞[ bijektiv
und streng monoton steigend auf [γ, +∞[ abbildet (d.h. u(c) = γ, u0 > 0 und limx→+∞ u(x) = +∞), so
gilt
Z
Z
+∞
+∞
f (u(x))u0 (x) dx.
f (t) dt =
γ
c
Beweis. Die gewöhnliche Substitutionsregel §4.3.4 liefert für d > c zunächst
Z u(d)
Z d
|f (t)| dt =
|f (u(x))|u0 (x) dx.
γ
c
Die
R +∞linke Seite ist wegen der absoluten uneigentlichen Integrierbarkeit von f für beliebige d > c durch
|f (t)| dt nach oben beschränkt. Dies ist dann auch eine Schranke für die rechte Seite. Damit ist
γ
(f ◦ u)u0 über [c, +∞[ absolut uneigentlich integrierbar. Mit limd→+∞ u(d) = +∞ folgt nun
Z +∞
Z +∞
Z u(d)
Z d
0
f (t) dt = lim
f (t) dt = lim
f (u(x))u (x) dx =
f (u(x))u0 (x) dx.
d→+∞
γ
d→+∞
γ
c
c
3.11 Partielle Integration bei uneigentlichen Integralen. Sind f und g zwei C 1 -Funktionen auf R
und sind die drei Produktfunktionen f g, f g 0 und f 0 g über R uneigentlich integrierbar, so gilt
Z +∞
Z +∞
f (x)g 0 (x) dx = −
f 0 (x)g(x) dx.
−∞
−∞
Für entsprechende Funktionen auf [0, +∞[ gilt analog
Z
Z +∞
f (x)g 0 (x) dx = −f (0)g(0) −
0
+∞
f 0 (x)g(x) dx.
0
Beweis. Gewöhnliche partielle Integration liefert zunächst
Z d
Z
f (x)g 0 (x) dx = f (d)g(d) − f (c)g(c) −
c
0
0
d
f 0 (x)g(x) dx.
c
0
Da (f g) = f g + f g über R integrierbar ist, impliziert 3.9 bei Integration über [0, +∞[ den Grenzwert
limd→+∞ f (d)g(d) = 0, bei Integration über ] − ∞, +∞[ analog auch limc→−∞ f (c)g(c) = 0.
3.12 Integralvergleichskriterium für Reihen. Ist f : [1, +∞[→ R nichtnegativ und monoton fallend,
so existiert der Grenzwert
!
Z n+1
n
X
lim
f (k) −
f (x) dx
n→∞
k=1
1
und ist eine Zahl im Intervall [0, f (1)]. Insbesondere ist die unendliche Reihe
R +∞
konvergent, wenn das uneigentliche Integral 1 f (x) dx existiert.
P∞
k=1
f (k) genau dann
Beweis. Als monotone Funktion ist f integrierbar. Wegen f (k) ≥ f (x) ≥ f (k + 1) für x ∈ [k, k + 1]
liefert die Monotonie des Integrals
Z k+1
f (k) ≥
f (x) dx ≥ f (k + 1)
für k ∈ N.
k
Daher ist die Folge der Zahlen
an :=
n
X
k=1
Z
f (k) −
n+1
f (x) dx =
1
n
X
k=1
Z
f (k) −
!
k+1
f (x) dx
k
monoton wachsend, wegen 0 ≤ an ≤ f (1) − f (n + 1) ≤ f (1) beschränkt und damit nach dem Monotoniekriterium für Folgen 1.§2.8.3 konvergent.
209
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
f (k)
f (k + 1)
1
2
k
k+1
Abbildung 4.70: Zum Beweis des Integralvergleichskriteriums.
3.13 Beispiele zum Integralvergleichskriterium.
(a) Die verallgemeinerte harmonische Reihe
ζ(s) :=
∞
X
1
ks
konvergiert für jedes s ∈]1, +∞[.
k=1
R +∞
Das folgt aus dem Integralvergleichkriterium mit 1 x−s dx (für s ∈ N vgl. 1.§4.2.5 (b)). Die so definierte
Funktion ζ : ]1, +∞[→ R wird Riemannsche Zeta-Funktion genannt. Aus der Euler-Produkt-Darstellung
ζ(s) =
Y
p prim
1
1 − p−s
für s > 1,
die man durch Ausmultiplizieren der Faktoren 1−p1 −s = 1 + p1s + p12s + · · · und Umordnung aus der
Primfaktorzerlegung der natürlichen Zahlen erhält, kann man die Bedeutung der Zeta-Funktion für die
Zahlentheorie erahnen. Dort wird die Zeta-Funktion zu einer Funktion ζ : C → C ∪ {∞} fortgesetzt.
Die berühmte Riemannsche Vermutung besagt, dass alle nichttrivialen“ Nullstellen der Zeta-Funktion
”
Realteil 1/2 haben. Hieraus kann man Informationen über die Verteilung von Primzahlen ableiten.
1/|ζ| im Komplexen
5
4
ζ im Reellen
10
8
6
4
2
0
3
2
1
-6 -5 -4 -3 -2 -1
1
2
3
4
5
400
300
200
0
6
1
-1
100
2
-2
3
4
0
Abbildung 4.71: Riemannsche Zeta-Funktion.
R∞
P∞
(b) Auch wenn weder die harmonische Reihe k=1 1/k noch das Integral 1 1/x dx konvergieren, so
existiert nach dem Integralvergleichskriterium dennoch
!
n
X
1
lim
− ln n =: γ.
n→∞
k
k=1
Die so definierte Zahl γ = 0.577216 . . . wird Euler-Konstante genannt. Eine berühmte offene Vermutung
besagt, dass γ keine rationale Zahl ist.
Pn
Die Existenz des obigen Grenzwerts besagt k=1 k1 ' ln(n) für n → ∞. Die harmonsiche Reihe divergiert
so langsam wie der Logarithmus.
210
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
3.14 Die Gamma-Funktion wird definiert durch das uneigentliche Integral
Z ∞
Γ(x) :=
tx−1 e−t dt
für x > 0.
0
Die Konvergenz dieses beidseitig uneigentlichen Integrals muss natürlich nachgewiesen werden. Wir
wählen zu x > 0 ein Intervall [c, d] mit x ∈]c, d[ und c > 0 und setzen
(
tc−1
für t ∈]0, 1],
g(t) := d −t
t e
für t ∈ [1, +∞[.
R1
Nach 3.2 existiert 0 g(t) dt. Wegen tk = O(et ) für t → +∞ für jedes k > 0 gibt es ein C > 0 mit
R +∞
|td e−t | = |t−2 td+2 e−t | ≤ C/t2 für t → +∞, was auch die Konvergenz von 1 g(t) dt liefert. Mit dem
Majorantenkriterium 3.7 erhalten wir nun die Konvergenz des Integrals für die Gamma-Funktion.
3.15 Eigenschaften der Gamma-Funktion.
(c) Γ(1) = 1, Γ(x + 1) = xΓ(x) für x > 0, insbesondere Γ(n + 1) = n! für n ∈ N.
√
(d) Γ(1/2) = π.
Beweis. Zu (c): Γ(1) = 1 ist klar. Für x > 0 erhalten wir durch partielle Integration gemäß 3.11
+∞
Z
Γ(x + 1) =
0
tx |{z}
e−t dt = tx e−t t=0 −
|{z}
↓
Z
↑
+∞
xtx−1 (−e−t ) dt = x
0
Z
+∞
tx−1 e−t dt = xΓ(x).
0
Durch Induktion nach n folgt nun Γ(n + 1) = n! für n ∈ N.
Die Formel in (d) erhalten wir mit der Substitutionsregel 3.10 für t = x2 /2,
Z
Γ(1/2) =
∞
t−1/2 e−t dt =
0
√ Z
2
∞
2
e−x
0
/2
1
dx = √
2
Z
+∞
dt
dx
2
e−x
/2
= x, gemäß 3.8 aus
dx =
√
π.
−∞
8
Anmerkung. Für die Gamma-Funktion sind viele
weitere Formeln bekannt. Ohne Beweis geben wir als
Beispiel die Grenzwertdarstellung
7
6
5
n!nx
n→∞ x(x + 1) · · · (x + n)
Γ(x) = lim
4
3
an, welche die Gamma-Funktion nicht nur für x > 0
liefert, sondern auch auf x ∈ Rr{0, −1, −2, . . .} fortsetzt (vgl. [Kön, Band 1, 16]). Für x = 1/2 liefert
dieser Grenzwert das Wallis-Produkt
2
√
2n+1 n! n
π = Γ(1/2)2 = lim
n→∞ 1 · 3 · · · (2n + 1)
2n · 2n
2·24·4
···
.
= 2 lim
n→∞ 1 · 3 3 · 5
(2n − 1) · (2n + 1)
2
1
-6 -5 -4 -3 -2 -1
1
2
3
4
5
-1
-2
-3
-4
-5
Abbildung 4.72: Graph der Gamma-Funktion.
211
Kapitel 5
Lineare Algebra
§1
1
Lineare Abbildungen, Vektorräume, Dimension
Wovon handelt die lineare Algebra?
1.1 Lineare Gleichungen. Die lineare Algebra beschäftigt sich mit linearen Gleichungen
L(v) = w
verschiedenster Art. Bevor wir die Problemstellung allgemein formulieren, stellen wir einige Beispiele vor.
(a) Lineare Gleichungssysteme, beispielsweise
4x1 + 2x2 − x3 = y1
,
−x1 + x2 + 3x3 = y2
kurz
L(~v ) = w
~
x1
mit ~v := x2 ,
x3
w
~ :=
y1
,
y2
L(~v ) :=
4x1 + 2x2 − x3
.
−x1 + x2 + 3x3
Man bestimme für vorgegebene reelle (bzw. komplexe) Zahlen y1 , y2 alle reellen (bzw. komplexen) Lösungen x1 , x2 , x3 .
(b) Schwingungsgleichung (vgl. 3.§3.1.23). Gesucht sind alle reellwertigen (bzw. komplexwertigen) C 2 Funktionen y mit
y 00 + ay 0 + by = A cos(ωx).
Auch diese Gleichung können wir mittels L(y) := y 00 + ay 0 + by und c(x) := A cos(ωx) in die Kurzform
L(y) = c bringen.
(c) Potentialgleichung. Für eine stetige Funktion f im Einheitskreis K1 = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}
bestimme man alle reellwertigen C 2 -Funktionen in zwei Variablen mit
∂2
∂2
u(x, y) + 2 u(x, y) = f (x, y)
2
∂x
∂y
für (x, y) ∈ K1
kurz
∆u = f.
(d) Lineare Rekursionsgleichungen. Gesucht sind alle reellen Zahlenfolgen (an )n mit
an+2 − an+1 − an = 0
für n ∈ N0 ,
kurz
L((an )n ) = (0)n
mit L((an )n ) := (an+2 − an+1 − an )n .
(e) Gegeben ist eine Ursprungsebene E im R3 und ein Punkt ~y ∈ E. Für welche ~x ∈ R3 liefert die
orthogonale Projektion PE (~x) von ~x auf E gerade ~y , d.h. wann gilt PE (~x) = ~y ?
(f) Gegeben ist eine Zahl c ∈ R. Bestimme alle reellen Polynome vom Grad höchstens drei mit p(1) = c.
Hier erklären wir L durch L(p) := a3 + a2 + a1 + a0 für p(x) = a3 x3 + a2 x2 + a1 x + a0 und suchen die
Lösungen von L(p) = c.
212
§1. LINEARE ABBILDUNGEN, VEKTORRÄUME, DIMENSION
1.2 Was haben diese Probleme gemeinsam? In allen Beispielen der Nummer 1.1 hatte die Abbildung L, ~v 7→ L(~v ), die Eigenschaft
L(λ1~v1 + λ2~v2 ) = λ1 L(~v1 ) + λ2 L(~v2 ).
Wenn wir das präzisieren wollen, so müssen wir uns an die Vektorraum-Definition, d.h. an die Begriffe
Vektor“, Skalar“, Addition von Vektoren“ und Skalarmultiplikation“, aus 3.§3.1.2 erinnern.
”
”
”
”
1.3 Lineare Abbildung. Eine Abbildung L : V → W zwischen zwei Vektorräumen V und W über
demselben Grundkörper K (für uns R oder C) heißt linear , falls
L(λ1 v1 + λ2 v2 ) = λ1 L(v1 ) + λ2 L(v2 )
für alle v1 , v2 ∈ V und λ1 , λ2 ∈ K.
Oft schreibt man bei linearen Abbildungen auch Lv statt L(v).
Beispiele. Wir listen die Beispiele aus Nummer 1.1 auf. Man mache sich klar, welche Vektorräume als
Definitions- bzw. Zielraum auftreten und was jeweils der gemeinsam Grundkörper ist.
(a)
lineare Abbildung
4x1 +2x2 −x3
L(x1 , x2 ) = −x
1 +x2 +3x3
(b)
L(y) = y 00 + ay 0 + by
(c)
(d)
(e)
(f)
L(u) = ∂x u + ∂y u
L((an )n ) = (an+2 − an+1 − an )n
L(~x) = PE (~x) (Projektion auf E)
L(p) = p(1)
Definitionsraum V → Zielraum W
R3 →R2
C3 →C2
C 2 (R, R)→C 0 (R, R) (Funktionenräume)
C 2 (R, C)→C 0 (R, C) (Funktionenräume)
C 2 (K1 , R)→C 0 (K1 , R) (Funktionenräume)
RN →RN (Folgenraum)
R3 →R3
P3 (R)→R (reelle Polynome vom Grad ≤ 3)
K
R
C
R
C
R
R
R
R
Es empfielt sich, nochmal die Beispiele für Vektorräume aus 3.§3.1 nachzuschlagen — insbesondere für
die Funktionen- und Folgenräume.
1.4 Vereinbarung. Wir lassen in diesem Kapitel bei Vektoren die Vektorpfeile weg, schreiben also v
statt ~v . Für Vektoren verwenden wir meist lateinische Kleinbuchstaben wie u, v, w, für Skalare griechische
Kleinbuchstaben wie λ, µ. Meist kann man leicht aus dem Zusammenhang erschließen, ob gerade ein
Skalar oder ein Vektor gemeint ist. Man übe das zu Beginn, insbesondere bei der Null. (Ist es die Null im
Grundkörper K = R oder K = C? Oder geht es um den Nullvektor? Wenn ja, in welchem Vektorraum?).
Das Weglassen der Vektorpfeile spart Schreibarbeit und vermeidet gerade bei abstrakten Vektorräumen
seltsam anmutende Darstellungen. Wer möchte eine Zahlenfolge mit (a~n )n statt (an )n bezeichnen, nur
~
weil man die Zahlenfolgen gerade als Folgenraum auffasst oder eine vektorwertige Funktion f~ mit f~, nur
weil sie gerade als Vektor im Funktionenraum behandelt?
1.5 Einfache Eigenschaften linearer Abbildungen. Für jede lineare Abbildung L : V → W gilt:
(g) L(0) = 0,
(h) L(v1 + v2 ) = L(v1 ) + L(v2 ) für beliebige Vektoren v1 , v2 ∈ V ,
(i) L(λv) = λL(v) für beliebige Vektoren v ∈ V und Skalare λ ∈ K,
Pn
Pn
(j) L( k=1 λk vk ) = k=1 λk L(vk ) für beliebige Vektoren v1 , . . . , vn ∈ V und Skalare λ1 , . . . , λn ∈ K.
In (g) bezeichnet die erste Null den Nullvektor in V , die zweite den Nullvektor in W . Ausführlich geschrieben lautet die Gleichung also L(0V ) = 0W . Sie ergibt sich aus L(0V ) = L(0 · 0V ) = 0 · L(0V ) = 0W .
Als Spezialfälle der Linearität von L erhält man (h) und (i), während (j) durch Induktion folgt.
Die Gleichungen (h) und (i) besagen, dass sich eine lineare Abbildung mit der Vektoraddition und der
Skalarmultiplikation in V und W verträgt: Das Bild der Summe von Vektoren ist die Summe der Bild”
vektoren, das Bild des Vielfachen eines Vektors ist das entsprechende Vielfache des Bildvektors.“
213
KAPITEL 5. LINEARE ALGEBRA
1.6 Beispiele für lineare Abbildungen. Die einfachsten linearen Abbildungen sind der Nulloperator
0 : V → W , v 7→ 0, und die Identität id = idV : V → V , v 7→ v.
Für D ⊂ R und V = C 1 (D), W = C 0 (D) ist der Ableitungsoperator
d
: f 7→ f 0
dx
eine lineare Abbildung von V nach W .
Der Differentialoperator der Schwingungsgleichung
y 7→ L(y) = y 00 + ay 0 + by,
C 2 (R) → C 0 (R)
ist für vorgegebenen Konstanten a, b ebenfalls eine lineare Abbildung. Analog können weitere Differentialoperatoren gebildet werden.
Für ein vorgegebenes Intervall I ist das Integral
Z
f 7→ f (x) dx,
R(I) → R
I
eine lineare Abbildung vom Raum R(I) aller über I integrierbaren reellwertigen Funktionen in Vektorraum R (aufgefasst als Vektorraum über sich selbst).
1.7 Lineare Operatoren und Funktionale sind Bezeichnungen für spezielle lineare Abbildungen.
Von einem linearen Operator spricht man gerne, wenn bei einer linearen Abbildung Definitions- und
Zielraum abstrakte Vektorräume wie beispielsweise die Funktionenräume C k sind. Ein lineare Funktional
oder eine Linearform ist eine lineare Abbildung eines Vektorraums in seinen Grundkörper (aufgefasst als
Vektorraum über sich selbst).
Man vergleiche mit den Beispielen aus der vorangegangenen Nummer.
1.8 Problemstellungen. Für Probleme der Form L(v) = w mit einer linearen Abbildung L sind gemeinhin folgende Fragestellungen relevant:
• Hat die Gleichung L(v) = w für vorgegebene rechte Seite w eine Lösung?
• Wenn ja, ist diese eindeutig bestimmt?
• Wenn nein, was lässt sich über die Lösungsgesamtheit aussagen?
1.9 Lineare Gleichungen: grundlegende Struktur der Lösungsmenge. Ist L : V → W eine lineare
Abbildung zwischen zwei K-Vektorräumen V und W , so betrachten wir für vorgegebenes w ∈ W die
• inhomogene Gleichung L(v) = w
und die zugehörige
• homogene Gleichung L(v) = 0.
Ohne die Frage nach Lösbarkeit näher zu untersuchen, können wir über die Struktur des Lösungsraums
{v ∈ V | L(v) = w} ganz allgemein folgendes aussagen:
(k) Die homogene Gleichung L(v) = 0 besitzt immer die Lösung v = 0. Wir nennen sie die triviale Lösung.
(l) Die Lösungen der homogenen Gleichung erfüllen das Superpositionsprinzip: sind v1 , v2 ∈ V Lösungen
von L(v) = 0, so auch jede Linearkombination λ1 v1 + λ2 v2 .
(m) Ist v0 eine spezielle Lösung der inhomogenen Gleichung L(v) = w, so erhalten wir sämtliche Lösungen
in der Form v + v0 , wobei v die Lösungen der homogenen Gleichung durchläuft.
214
§1. LINEARE ABBILDUNGEN, VEKTORRÄUME, DIMENSION
1.10 Kern und Bild einer linearen Abbildung erklären wir durch
Kern(L)
Bild(L)
:= {v ∈ V | L(v) = 0},
:= L(V ) = {w ∈ W | es gibt ein v ∈ V mit L(v) = w}.
Dann gilt offensichtlich:
(n) Kern(L) ist gerade die Lösungsmenge der homogenen Gleichung L(v) = 0.
(o) Die inhomogene Gleichung L(v) = w ist genau dann lösbar, wenn w ∈ Bild(L).
Mit Kern und Bild erhalten wir folgende grundlegende Aussagen über das Lösungsverhalten linearer
Gleichungen. Man schlage zuvor ggf. die Begriffe Unterraum“ und Linearkombination“ in 3.§3.1 nach.
”
”
1.11 Eigenschaften von Kern und Bild.
(p) Bild(L) ist ein Unterraum von W , während Kern(L) ein Unterraum von V ist.
(q) Genau dann ist L injektiv, (d.h. L(v) = w hat immer höchstens eine Lösung), wenn Kern(L) = {0}.
(r) Genau dann ist L surjektiv, (d.h. L(v) = w hat immer mindestens eine Lösung), wenn Bild(L) = W .
Für den Beweis von (p) verwenden wir das Unterraumkriterium 3.§3.1.4 (eine Teilmenge eines Vektorraums ist ein Unterraum, wenn sie nichtleer ist und wenn sie mit zwei Vektoren auch jede Linearkombination enthält). Wegen L(0) = 0 ist weder Bild(L) noch Kern(L) leer. Gilt v1 , v2 ∈ Kern(L), d.h.
L(v1 ) = 0 = L(v2 ), so folgt mit der Linearität L(λ1 v1 + λ2 v2 ) = λ1 L(v1 ) + λ2 (v2 ) = 0 + 0 = 0, d.h.
λ1 v1 + λ2 v2 ∈ Kern(L). Gilt w1 , w2 ∈ Bild(L), d.h. gibt es v1 , v2 ∈ V mit L(v1 ) = w1 und L(v2 ) = w2 , so
folgt mit der Linearität λ1 w1 + λ2 w2 = L(λ1 v1 + λ2 v2 ) ∈ Bild(L).
Während (r) sofort aus der Definition von Surjektivität folgt, ist (q) eine bemerkenswerte Eigenart linearer
Abbildungen: Wenn die homogene Gleichung L(v) = 0 nur die triviale Lösung v = 0 besitzt, so ist die
Lösung einer jeden zugehörigen inhomogenen Gleichung L(v) = w eindeutig, falls sie überhaupt lösbar
ist. Sind nämlich v1 , v2 ∈ V zwei Lösungen, d.h. gilt L(v1 ) = y = L(v2 ), so folgt mit der Linearität
L(v1 − v2 ) = L(v1 ) − L(v2 ) = w − w = 0. Hat die homogene Gleichung nur die triviale Lösung, so
impliziert dies v1 = v2 .
1.12 Wie geht es weiter? Für die Behandlung linearer Gleichungen sind also Informationen über Kern
und Bild der zugehörigen linearen Abbildung essentiell. Um diese Informationen in §3 zum Lösen linearer
Gleichungssysteme einzusetzen, entwicklen wir in §2 u.a. den Matrizenkalkül. Um die in den Beispielen
1.1 auftretenden abstrakten Vektorräume mitbehandeln zu können, müssen wir aber zuvor noch unsere
Kenntnisse über Vektorräume erweitern.
Die restlichen Paragraphen dieses Kapitels sind dann fortgeschrittenen Betrachtungen (v.a. der Eigenwerttheorie und deren Anwendungen) gewidmet.
2
Basis und Dimension
2.1 Erinnerung: lineare Unabhängigkeit, Erzeugnis, Basis, Koordinaten (siehe 3.§3.1). Gegeben
sind Vektoren v1 , . . . , vn aus einem K-Vektorraum V .
(a) Die Vektoren v1 , . . . , vn heißen linear unabhängig, wenn der Nullvektor nur auf triviale Weise als
Linearkombination dargestellt werden kann, d.h. aus λ1 v1 +· · ·+λn vn = 0 folgt immer λ1 = . . . = λn = 0.
(b) Die Vektoren v1 , . . . , vn erzeugen V , wenn jeder Vektor v ∈ V als Linearkombination dargestellt
werden kann, d.h. es gibt Skalare λ1 , . . . , λn ∈ K mit λ1 v1 + · · · + λn vn = v (kurz Span(v1 , . . . , vn ) = V ).
(c) Die Vektoren v1 , . . . , vn bilden eine Basis von V , wenn sie V erzeugen und linear unabhängig sind.
Dann kann jeder Vektor v ∈ V in eindeutiger Weise als Linearkombination v = λ1 v1 +· · ·+λn vn dargestellt
werden und wir nennen das n-Tupel vB = (λ1 , . . . , λn ) ∈ Kn den Koordinatenvektor von v bezüglich der
Basis B = (v1 , . . . , vn ) von V (und hätten selbigen streng genommen nicht als Zeilenvektor sondern als
Spaltenvektor schreiben müssen).
215
KAPITEL 5. LINEARE ALGEBRA
Beispiele. Wir zeigen, dass die drei Vektoren
0
1
v1 = 1 ,
v 2 = 0 ,
1
1
1
v 3 = 1
0
Eine Basis des R3 bilden.
Die Vektoren sind linear unabhängig. Aus
λ2 + λ3
0
λ1 v1 + λ2 v2 + λ3 v3 = λ1 + λ3 = 0
λ1 + λ2
0
folgt nämlich durch Addieren aller drei Spalten λ1 + λ2 + λ3 = 0, anschließend durch Subtrahieren der
drei Spalten λ1 = λ2 = λ3 = 0.
Die drei Vektoren erzeugen auch den R3 . Setzen wir zu vorgegebenem
y1
v = y 2 ∈ R 3
y3
nämlich
y1 − y2 + y3
y1 + y2 − y3
−y1 + y2 + y3
,
λ2 :=
,
λ3 :=
,
2
2
2
so erhalten wir nach kurzem Nachrechnen tatsächlich λ1 v1 +λ2 v2 +λ3 v3 = v. Insbesondere hat v = (4, 1, 1)
bezüglich der Basis B = (v1 , v2 , v3 ) die Koordinaten vB = (−1, 2, 2).
λ1 :=
Man überlege sich selbst, dass diese drei Vektoren auch eine Basis des C3 bilden.
Nun betrachten wir die drei Polynome
p1 (x) := x2 + x,
p2 (x) := x2 + 1,
p3 (x) := x + 1.
Wir wollen zeigen, dass diese drei Polynome eine Basis des Vektorraums P2 (R) der Polynome vom Grad
höchstens zwei mit reellen Koeffizienten bilden. Die Vektoraddition in diesem Vektorraum ist die Addition
von Funktionen, die Skalarmultiplikation die Multiplikation mit einer reellen Zahl. (Letztlich liegt ein
Unterraum des Funktionenraums F(R, R) vor.) Die drei Polynome
e0 (x) := 1,
e1 (x) := x,
e2 (x) := x2
bilden offensichtlich eine Basis B = (e0 , e1 , e2 ) von P2 (R). Jedes Polynom p(x) = a2 x2 + a1 x + a0 lässt
sich eindeutig als Linearkombination
p = a0 e0 + a1 e1 + a2 e2 ,
d.h. p(x) = a0 + a1 x + a2 x2
für x ∈ R
darstellen, hat also bezüglich B die Koordinaten pB = (a0 , a1 , a2 ). (Die Existenz der Darstellung ist klar,
die Eindeutigkeit wird letztlich durch den Identitätssatz für Polynome 2.§3.1.9 begründet.)
Bezüglich der Basis B = (e0 , e1 , e2 ) des P2 (R) haben die Polynome p1 , p2 , p3 gerade die Vektoren v1 , v2 , v3
als Koordinatenvektoren. Wenn wir also zeigen wollen, dass auch B 0 = (p1 , p2 , p3 ) eine Basis des P2 (R)
ist, so haben wir letztlich dieselbe Rechenarbeit wie zuvor.
Verständnisfrage: Welche Koordinaten hat das Polynom p(x) := x2 +x+4 bezüglich B bzw. bezüglich B 0 ?
2.2 Vektorraum der Polynome vom Grad höchstens n. Die Polynome vom Grad höchstens n
mit reellen Koeffizienten bilden mit der punktweisen Addition und der Multiplikation mit reellen Zahlen
einen R-Vektorraum Pn (R). Lassen wir komplexe Koeffizienten zu, so erhalten wir den C-Vektorraum
Pn (C). Die Monome
e0 (x) := 1,
e1 (x) := x,
e2 (x) := x2 ,
...,
en (x) := xn
bilden eine Basis B = (e0 , e1 , . . . , en ) dieser beiden Vektorräume. Das besagt der Identitätssatz für
Polynome 2.§3.1.9: jedes Polynom p(x) = an xn + · · · + a1 x + a0 hat die eindeutige Darstellung p =
a0 e0 + a1 e1 + · · · + an en mit den Koordinaten pB = (a0 , a1 , . . . , an ).
216
§1. LINEARE ABBILDUNGEN, VEKTORRÄUME, DIMENSION
2.3 Vektorraum aller Polynome. Die eben eingeführten Monome e0 , e1 , . . . bilden eine Basis des
R-Vektorraums P(R) aller Polynome mit reellen Koeffizienten (bzw. des C-Vektorraums P(C) aller Polynome mit komplexen Koeffizienten). Jedes Polynom lässt sich als Linearkombination aus endlich vielen
dieser Monome darstellen. Um alle Polynome von beliebigen Grad darzustellen, benötigen wir allerdings
auch alle Monome. Einem Polynom p(x) = an xn + · · · + a1 x + a0 entspricht bezüglich dieser Basis
B = (e0 , e1 , . . .) eine Koordinatenfolge pB = (a0 , a1 , . . . , an , 0, 0, . . .).
2.4 Dimension eines Vektorraums. Der Dimensionsbegriff beruht auf dem folgenden Satz.
Besitzt ein Vektorraum V eine Basis aus n Vektoren, so besteht auch jede andere Basis aus n Vektoren.
Die somit von der gewählten Basis unabhängige Anzahl der Basisvektoren n ist eine Kennzahl (pompöser
gesagt: eine Invariante) des Vektorraums V . Wir nennen sie die Dimension von V und schreiben
dim V = n.
Für den Nullraum V = {0} setzen wir dim V = 0.
Hat ein Vektorraum keine endliche Basis, so sprechen wir von einem unendlichdimensionalen Vektorraum.
Mit Hilfe eines grundlegenden Werkzeugs der Mengenlehre (dem Zornschen Lemma) kann man zeigen,
dass jeder Vektorraum eine Basis besitzt. Wir beschäftigen uns hier aber vornehmlich mit endlichdimensionalen Vektorräumen. Dann ergibt sich der obige Satz unmittelbar aus der folgenden Aussage.
Ist v1 , . . . , vn ein Erzeugendensystem von V und sind u1 , . . . , um ∈ V linear unabhängig, so gilt m ≤ n.
Beweis∗ . Wir zeigen äquivalente Aussage: Gilt Span(v1 , . . . , vn ) = V , so sind u1 , . . . , um ∈ V linear
abhängig falls m > n.
Den Fall u1 = . . . = um = 0 können wir sofort erledigen: 1u1 + · · · + 1um = 0 ist dann eine nichttriviale
Linearkombination. Für das Weitere können wir also zusätzlich annehmen, dass mindestens einer der
Vektoren u1 , . . . , um , etwa u1 , nicht der Nullvektor ist, und zeigen durch Induktion nach n, dass für
m > n immer eine nichttriviale Linearkombination existiert.
Induktionsverankerung bei n = 1: Ist V = Span(v1 ) und sind u1 , . . . , um ∈ V , m > 1, so gibt es Skalare
λ1 , . . . , λm mit uk = λk vk , k = 1, . . . , m. Ist u1 6= 0, so gilt auch λ1 6= 0 und damit λ2 u1 − λ1 u2 =
λ2 λ1 v1 − λ1 λ2 v1 = 0v1 = 0. Wir haben also eine nichttriviale Linearkombination gefunden.
Induktionsschritt n → n + 1: In V = Span(v1 , . . . , vn , vn+1 ) seien u1 , . . . , um+1 ∈ V , m + 1 > n + 1,
gegeben. Dann gibt es Skalare λk,l mit uk = λk,1 v1 + · · · + λk,n+1 vn+1 für k = 1, . . . , m + 1. Durch
Umnummerieren können wir λ1,1 6= 0 erreichen. Die m Vektoren
wl := ul −
n+1
X λ1,1 λk,l − λk,1 λ1,l
λl,1
u1 =
vk ,
λ1,1
λ1,1
l = 2, . . . , m + 1,
k=1
liegen in Span(v2 , . . . , vn+1 ), da der Koeffizient bei v1 verschwindet und es gilt m > n. Nach Induktionsvoraussetzung sind w2 , . . . , wm+1 linear abhängig, d.h. es gibt Skalare µ2 , . . . , µm+1 , nicht sämtliche Null,
mit
m+1
m+1
m+1
m+1
X X
X
λl,1
1 X
µl wl =
µl ul −
0=
u1 =
µl ul
mit µ1 := −
µl λl,1 .
λ1,1
λ1,1
l=2
l=2
l=1
l=2
Also sind auch u1 , . . . , um+1 linear abhängig.
2.5 Dimensionen wichtiger Vektorräume. Wir erhalten sofort
dim Rn = dim Cn = n,
dim Pn (R) = dim Pn (C) = n + 1,
Dagegen sind die Folgenräume RN und RN ebenso wie die Polynomräume P(R) und P(C) sowie alle
Funktionenräume C k (D) unendlichdimensional. (Bei den Funktionenräumen muss allerdings der Definitionsbereich D unendlich viele Elemente enthalten. Warum?)
217
KAPITEL 5. LINEARE ALGEBRA
2.6 Basisergänzungssatz. Ist v1 , . . . , vn ein Erzeugendensystem von V und sind u1 , . . . , um linear unabhängige Vektoren in V , die keine Basis von V bilden, so lassen sich die u1 , . . . , un durch Hinzunahme
geeigneter vk zu einer Basis von V ergänzen.
Diesen Satz beweisen wir zusammen mit dem folgenden. Beide Sätze sind zusammen mit der Invarianz
der Dimension grundlegend für alle weiteren Schlüsse der endlichdimensionalen linearen Algebra.
2.7 Basisaustauschsatz. Besitzt der Vektorraum V 6= {0} ein endliches Erzeugendensysteem v1 , . . . , vn ,
so lässt sich aus diesem eine Basis für V auswählen.
Beweis. Für 2.6 sei U = {u1 , . . . , um } und M = {u1 , . . . , um , v1 , . . . , vn }. Wir betrachten alle Mengen S
mit
U ⊆S⊆M
und
V = Span S.
Dann ist M selbst solch eine Menge und unter all diesen Mengen gibt es (dank des Wohlordnungsprinzips
1.§1.5.6) eine Menge S0 mit kleinster Elementanzahl. Wir zeigen nun, dass die Vektoren von S0 linear
unabhängig sind: Wäre ein vk ∈ S0 Linearkombination der restlichen Vektoren aus S0 , so wäre S0 nicht
minimal. Wäre ein ul ∈ S0 Linearkombination der übrigen Vektoren aus S0 , so müsste dabei irgend ein
vk einen nichtverschwindenden Koeffizienten haben, da u1 , . . . , um linear unabhängig sind. Dieses vk wäre
dann Linearkombination der restlichen Vektoren von S0 , was wir aber zuvor schon ausgeschlossen haben.
Damit ist S0 ein linear unabhängiges Erzeugendensystem, d.h. eine Basis.
Für 2.7 wiederholen wir dieses Argument mit U = ∅ und M = {v1 , . . . , vn }.
2.8 Folgerungen.
(d) In einem n-dimensionalen Vektorraum bilden je n linear unabhängige Vektoren eine Basis.
(e) In einem n-dimensionalen Vektorraum bildet jedes Erzeugendensystem aus n Vektoren eine Basis.
(f) Ist U ein Unterraum eines n-dimensionalen Vektorraums V mit dim U = n, so gilt U = V .
Die Aussagen (d) und (e) ergeben sich unmittelbar aus dem Basisergänzungssatz 2.6 und dem Basisaustauschsatz 2.7. Mit ihnen lässt sich die Arbeit beim Basisnachweis in endlichdimensionalen Vektorräumen
halbieren: statt des Nachweises von linearer Unabhängigkeit und Erzeugen genügt nur die Verifikation
einer dieser beiden Eigenschaften zusammen mit einem Zählargument.
Ist in (f) nun C = (w1 , . . . , wn ) eine Basis für W und B = (v1 , . . . , vn ) eine Basis von V , so wäre im Fall
eines echten Unterraums C keine Basis für V , ließe sich also durch Hinzunahme geeigneter vk zu einer
Basis von V ergänzen. Dann wäre aber dim V > n.
2.9 Dimensionsformel für lineare Abbildungen. Ist L : V → W eine lineare Abbildung auf einem
endlichdimensionalen Vektorraum V mit dim V = n, so gilt
dim Bild(L) + dim Kern(L) = n.
Die Dimensionen des Bildraums bzw. des Kerns werden auch Rang bzw. Defekt genannt und mit
rg(L)
bzw.
def(L)
bezeichnet. Die Dimensionsformel lautet dann rg(L) + def(L) = n. Der Defekt gibt an, wie sehr L von
der Injektivität abweicht, der Rang misst, wie groß“ der Wertebereich von L ist (vgl. 1.11).
”
Die Dimensionsformel ist fundamental für die Theorie linearer Gleichungssysteme.
Beweis. Im Fall L = 0 ist Kern(L) = V und rg(L) = dim{0} = 0. Damit stimmt die Dimensionsformel.
Für das Weitere können wir L 6= 0 annehmen und setzen m := def(L). Wegen L 6= 0 gilt m < n.
Im Fall m > 0 wählen wir eine Basis (v1 , . . . , vm ) für Kern(L) und ergänzen sie mit 2.6 zu einer Basis
(v1 , . . . , vm , vm+1 , . . . , vn ) von V . Im Fall m = 0 wählen wir irgend eine Basis (v1 , . . . , vn ) von V .
Wir zeigen nun, dass (L(vm+1 ), . . . , L(vn )) eine Basis für Bild(L) ist. Da diese aus n−m Vektoren besteht,
ist dann die Dimensionsformel bewiesen.
218
§2. LINEARE ABBILDUNGEN UND MATRIZEN
Es gilt Bild(L) = Span(L(vm+1 ), . . . , L(vn )): Die Inklusion ⊇“ ist klar. Für die Inklusion “⊆“ betrachten
”
wir ein w ∈ Bild(L), d.h. w = L(v) mit einem v = λ1 v1 +. . .+λn vn ∈ V . Wegen L(vk ) = 0 für k = 1, . . . , m
gilt dann
w
= L(v) = L(λ1 v1 + · · · + λn vn ) = λ1 L(v1 ) + · · · + λm L(vm ) +λm+1 L(vm+1 ) + · · · + λn L(vn )
{z
}
|
=0
= L(λm+1 vm+1 + · · · + λn vn ) ∈ Span(L(vm+1 ), . . . , L(vn )).
Die L(vm+1 ), . . . , L(vn ) sind linear unabhängig: Gilt λm+1 L(vm+1 ) + · · · + λn L(vn ) = 0, so setzen wir
v := λm+1 vm+1 + · · · + λn vn und erhalten aus der Linearität von L dann L(v) = 0, d.h. v ∈ Kern(L). Im
Fall m = 0 folgt v = 0, d.h. λm+1 vm+1 + · · · + λn vn = 0 und dann mit der linearen Unabhängigkeit der
vk auch λm+1 = . . . = λn = 0. Im Fall m > 0 gibt es Skalare λ1 , . . . , λm mit v = λ1 v1 + · · · + λm vm , d.h.
0 = v − v = λ1 v1 + · · · + λm vm − λm+1 vm+1 − · · · − λn vn , was wieder λ1 = . . . = λn = 0 impliziert.
2.10 Bijektive lineare Abbildungen. Für eine lineare Abbildung L ∈ L(V, W ) zwischen zwei endlichdimensionalen Vektorräumen V und W mit dim V = n und dim W = m impliziert die Dimensionsformel
2.9 zusammen mit 1.11
L injektiv ⇔
def(L) = 0
⇔
rg(L) = n,
L surjektiv ⇔
rg(L) = m
⇔
def(L) = n − m.
Damit L bijektiv ist, muss also m = n gelten. Dann impliziert aber die Injektivität bemerkenswerterweise
schon die Sujektivität und umgekehrt.
(g) Eine lineare Abbildung L ∈ L(V, W ) kann nur dann umkehrbar sein, wenn dim V = dim W .
(h) Sind V und W endlichdimensional mit dim V = dim W , so gilt für eine lineare Abbildung L ∈ L(V, W ):
L ist bijektiv
⇔
L ist injektiv
⇔
L ist surjektiv.
Anmerkung. Für unendlichdimensionale Vektorräume ist (k) nicht mehr richtig. Beispielsweise ist der
Differentiationsoperator auf P(R) zwar surjektiv (jedes Polynom kann als Ableitung eines Polynoms
dargestellt werden) aber nicht injektiv (alle Polynome mit demselben konstanten Koeffizienten haben
dieselbe Ableitung).
§2
1
Lineare Abbildungen und Matrizen
Umgang mit linearen Abbildungen
1.1 Rechnen mit linearen Abbildungen. Sind V und W zwei K-Vektorräume und L1 , L2 : V → W
zwei lineare Abbildungen so ist für λ1 , λ2 ∈ K auch
λ1 L1 + λ2 L2 : V → W,
v 7→ λ1 L1 (v) + λ2 L2 (v)
eine lineare Abbildung. (Warum?) Damit bilden die linearen Abbildungen V → W ihrerseits einen KVektorraum. Diesen Vektorraum nennt man auch Raum der Homomorphismen von V nach W und bezeichnet ihn mit
Hom(V, W )
oder
L(V, W ).
Gilt V = W , stimmen also Bild- und Zielraum überein, so schreiben wir
End(V )
oder
L(V )
statt Hom(V, V ). Derartige lineare Abbildungen werden auch Endomorphismen genannt.
Ist U ein weiterer K-Vektorraum, so können wir für K ∈ L(U, V ) und L ∈ L(V, W ) die Verkettung L ◦ K
bilden und erhalten eine lineare Abbildung aus L(U, W ). Statt L ◦ K schreibt man auch LK.
219
KAPITEL 5. LINEARE ALGEBRA
2
d
d
00
0
Beispiel. Der Differentialoperator L = dx
2 + a dx + b id, L(y) = y + ay + by, der Schwingungsgleichung
2
d
d
entsteht durch Linearkombination der drei Differentialoperatoren dx
2 , dx , id (zweimaliges, einmaliges
Differenzieren, bzw. die Funktion unverändert lassen). Die rekursive Definition höherer Ableitungen, z.B.
d
d2
d d
dx2 = dx dx können wir als Verkettung des Ableitungsoperators dx mit sich selbst auffassen.
1.2 Was geschieht? Wir führen nun den Matrizenkalkül ein, der es uns erlaubt, lineare Abbildungen
und das Rechnen mit ihnen effizient und elegant zu beschreiben, sofern wir in den zu Grunde liegenden
Vektorräumen Basen gewählt haben.
Achtung. Die Tatsache, dass ein Vektorraum mehrere Basen besitzt, wird dabei zunächst etwas gewöhnungsbedürftige Konsequenzen haben, die sich aber gerade im Hinblick auf die Anwendungen im Alltag
als nützliches Mittel bei der Suche nach einer eleganten Beschreibung von Anwendungsproblemen herausstellen.
2
Darstellung linearer Abbildungen durch Matrizen
2.1 Beschreibung einer linearen Abbildung nach Wahl von Basen. Die folgende Beobachtung
ist grundlegend für den Matrizenkalkül.
(a) Ist (v1 , . . . , vn ) eine Basis von V , so ist eine lineare Abbildung L ∈ L(V, W ) durch die Kenntnis der
Bildvektoren L(v1 ), . . . , L(vn ) eindeutig festgelegt.
(b) Zu vorgegebenen Vektoren w1 , . . . , wn ∈ W gibt es genau eine lineare Abbildung L ∈ L(V, W ) mit
L(v1 ) = w1 , . . . , L(vn ) = wn .
Beweis. Zu (a): Hat v ∈ V die Basisdarstellung v = λ1 v1 + · · · + λn vn mit Skalaren λ1 , . . . , λn ∈ K, so
gilt wegen der Linearität L(v) = λ1 L(v1 ) + · · · + λn L(vn ).
Zu (b): Für v ∈ V mit Basisdarstellung v = λ1 v1 + . . . + λn vn erklären wir L(v) := λ1 w1 + · · · + λn wn .
Dann gilt insbesondere L(vk ) = wk . Man rechnet leicht nach, dass L dann linear ist.
Anmerkung. Nach (a) sind lineare Abbildungen eigentlich langweilig. Normalerweise ist eine Abbildung
L : V → W erst dann eindeutig festgelegt, wenn wir für jedes v ∈ V das Bild L(v) angegeben haben. Ist
L aber linear (und dim V = n endlich), so genügt die Kenntnis der Bilder von n Basisvektoren.
2.2 Darstellungsmatrix einer linearen Abbildung nach Wahl von Basen. Gilt
dim V = n,
dim W = m,
so wählen wir Basen B = (v1 , . . . , vn ) für V und C = (w1 , . . . , wm ) für W . Zur Beschreibung einer
linearen Abbildung L : V → W genügt gemäß 2.1 die Angabe von L(v1 ), . . . , L(vn ). Diese Vektoren
besitzen bezüglich der Basis C von W Basisdarstellungen
L(vk ) =
m
X
aj,k wj ,
k = 1, . . . , n.
j=1
Die somit eindeutig bestimmten Koeffizienten aj,k ∈ K, j = 1, . . . , m, k = 1, . . . , n, ordnen wir zu einem
rechteckigen Schema
a1,1 · · · a1,n
..
..
.
aj,k
.
am,1 · · · am,n
an, nennen dieses Schema (Darstellungs-)Matrix von L bezüglich der Basen B und C und bezeichnen es
mit
MBC (L).
220
§2. LINEARE ABBILDUNGEN UND MATRIZEN
Bei fest gewählten Basen B und C von V bzw. W lassen wir deren Angabe weg und schreiben einfach
a1,1 · · · a1,n
.. = (a )k=1,...,n
A = ...
oder kurz
(aj,k ).
j,k j=1,...,m
a
.
j,k
am,1
···
am,n
Im letzten Fall muss man sich die Abmessungen der Matrix selbst zurecht legen.
Wir nennen A eine (m×n)-Matrix mit m Zeilen und n Spalten, j den Zeilenindex und k den Spaltenindex .
Gewöhnlich wird in A = (aj,k ) immer zuerst der Zeilenindex angegeben ( Zeile zuerst, Spalte später“).
”
Die aj,k heißen Koeffizienten, Komponenten oder Einträge der Matrix A.
Die k-te Spalte von A = MBC (L) enthält die Koordinaten des Bildes L(vk ) des k-ten Basisvektors vk
unter L
a1,1 · · · a1,n
.. = (L(v ) , . . . , L(v ) ),
MBC (L) = ...
1 C
n C
.
L(vl )C
am,1 · · ·
a1,k
= ... ,
am,n
L(vk ) = a1,k w1 + · · · + an,k wm .
am,k
Die Menge der (m × n)-Matrizen mit reellen (bzw. komplexen) Koeffzienten bezeichnen wir mit Rm×n
(bzw. Cm×n ).
Beispiel. Die Nullabbildung 0 ∈ L(V, W ), v 7→ 0, besitzt als Darstellungsmatrix MBC (0) bezüglich eines
jeden Basispaars B von V und C von W die Nullmatrix
0 ··· 0
0m,n := ... . . . ... = (0)k=1,...,n
j=1,...,m .
0
···
0
Oft schreiben wir einfach 0 statt 0m,n und haben damit schon wieder eine neue 0 eingeführt.
2.3 Quadratische Matrizen. Im Fall V = W können wir — müssen aber nicht — in Definitions- und
Zielraum dieselbe Basis B wählen. Haben wir das getan, so schreiben wir MB (L) statt MBB (L).
Beispiele. Zur identischen Abbildung id ∈ L(V ), x 7→ x, gehört die bezüglich jeder Basis B von V die
Einheitsmatrix
1 0 ··· 0
0 1 · · · 0
= (δj,k )k=1,...,n
En := . . .
j=1,...,n .
. . ...
.. ..
0 0 ··· 1
Meist schreiben wir einfach E statt En .
Weitere Beispiele für quadratische Matrizen sind Drehmatrizen in der Ebene 3.§2.6.1 und im Raum
3.§4.3.4.
Achtung. Wählen wir für id : R2 → R2 im Definitionsraum R2 die Standardbasis B = (e1 , e2 ), aber im
Bildraum R2 die Basis C = (e2 , e1 ) (das ist eine andere Basis, da sie sich von B in der Reihenfolge der
Basisvektoren unterscheidet), so erhalten wir als Darstellungsmatrix MBC (id) = 01 10 6= E2 .
Einfache lineare Abbildungen können also bei ungeschickter“ Basiswahl komplizierte Darstellungen be”
kommen. Umkehrt werden wir bald lernen, dass komplizierte lineare Abbildungen bei geeigneter Basiswahl
einfache Darstellungen bekommen. Das ist u.a. der Trick bei der Hauptachsentransformation §6.4.
221
KAPITEL 5. LINEARE ALGEBRA
2.4 Darstellungsmatrizen von Linearformen. Für eine Linearform L ∈ L(V, K) wählen wir eine
Basis B = (v1 , . . . , vn ) von V und die Zahl 1 als Basis K des eindimensionalen Vektorraums K. Dann
hat L die (1 × n)-Matrix (Zeilenmatrix )
MBK (L) = (a1,1 , . . . , a1,n ) = (L(v1 ), . . . , L(vn )) ∈ R1×n
als Darstellunsmatrix. Ist V ein R-Vektorraum und hat v die Basisdarstellung v = x1 v1 + · · · + xn vn , so
können wir das mit dem Koordiantenvektor x := vB von v bezüglich B auch als Skalarprodukt schreiben:
L(v) = L(x1 v1 + · · · + xn vn ) = x1 L(v1 ) + · · · + xn L(vn ) = a1,1 x1 + · · · + a1,n xn = hx|ai = hvB |ai.
Umgekehrt ist jede Abbildung v 7→ hvB |ai, v ∈ V , eine Linearform auf V . Die Linearformen eines ndimensionalen R-Vektorraums können nach Wahl einer Basis durch Vektoren mit n reellen Einträgen
dargestellt werden.
Das stimmt mit analoger Begrüdung auch für Linearformen eines C-Vektorraums, sobald wir in §6.2.1
auch dort ein Skalarprodukt erklärt haben.
2.5 Berechnen des Bildvektors. Für eine lineare Abbildung L ∈ L(V, W ) mit Darstellungsmatrix
MBC (L) = A = (aj,k ) ∈ Km×n bezeichnen wir die Koordinaten eines Vektors v ∈ V und seines Bildvektors
w = L(v) ∈ W mit
y1
x1
L(w)C =: y = ... .
vB =: x = ... ,
ym
xn
In Koordinatenschreibweise liest sich L(v) = w wegen
L(v) = L(x1 v1 + x2 v2 + · · · + xn vn )
= x1 L(v1 ) + x2 L(v2 ) · · · + xn L(vn )
=
x1 a1,1 w1 + x1 a2,1 w2 + · · · + x1 am,1 wm
+x2 a1,2 w1 + x2 a2,2 w2 + · · · + x2 am,2 wm
..
.
+xn a1,n w1 + xn a2,n w2 + · · · + xn am,n wm
=
(a1,1 x1 + a1,2 x2 + · · · + a1,n xn )w1
+(a2,1 x1 + a2,2 x2 + · · · + a2,n xn )w2
..
.
+(am,1 x1 + am,2 x2 + · · · + am,n xn )wm
= y1 w1 + y2 w2 + · · · + ym wm
komponentenweise als
n
X
aj,k xk = yj ,
j = 1, . . . , m.
k=1
oder knapp in Einsteinscher Summenkonvention als
aj,k xk = yj .
Wir fassen diese Gleichungen in Kurzform zusammen zu
Ax = y
und haben damit allgemein eine Matrix-Vektor-Multiplikation erklärt. Selbige ergibt sich damit nach dem
222
§2. LINEARE ABBILDUNGEN UND MATRIZEN
Schema
a1,1
..
.
am,1
|
···
a1,k
..
.
···
···
am,k
{z
···
=A∈Km×n
x1
.
a1,1 x1 + · · · + a1,n xn
y1
a1,n ..
.
.
..
..
= .. .
. xk =
.
am,1 x1 + · · · + am,n xn
ym
am,n ..
| {z }
}
xn
=y∈Km
| {z }
=x∈Kn
Zur Berechnung von y = Ax denke man sich also den Koordinatenvektor x über die Zeilen von A gelegt
und bilde die Summen der Produkte übereinanderstehender Koeffizienten um die Komponenten von y zu
berechnen.
Schreiben wir eine Matrix A ∈ Km×n als Ansammlung ihrer Spaltenvektoren a1 , . . . , an ∈ Km , so lässt sich
das Matrizen-Vektor-Produkt Ax auch als Linearkombination der Spalten von A mit den Koeffizienten
von x als Skalaren interpretieren:
a1,1
a1,n
Ax = (a1 , . . . , an )x = x1 a1 + · · · + xn an = x1 ... + · · · + xn ... .
am,1
am,n
Achtung. Ax kann nur gebildet werden, wenn der Vektor x genau so viele Komponenten hat wie die
Matrix A Spalten. Der Ergebnisvektor erbt dann von A die Zeilenzahl.
Beispiel.
4
2 −3 0 3
2
−3
0
3
2·4−3·0+0·3−3·1
5
0
1 0 5 1 = 4 1 +0 0 +3 5 −1 1 = 1 · 4 + 0 · 0 + 5 · 3 − 1 · 1 = 18 .
3
2 0 0 3
2
0
0
3
2·4+0·0+0·3−3·1
5
−1
3
Grundlegender Matrizenkalkül
3.1 Zielsetzung. Wir wollen das Rechnen mit linearen Abbildungen nach Wahl von Basen in das
Rechnen mit Matrizen übersetzen. Grundlegende Rechenoperationen für lineare Abbildungen sind:
• für L, M ∈ L(V, W ): das Bilden der Summe L + M : V → W , v 7→ L(v) + M (v),
• für L ∈ L(V, W ) und λ ∈ K: das Bilden des Vielfachen λL : V → W , v 7→ λL(v),
• für M ∈ L(U, V ) und L ∈ L(V, W ): das Bilden der Verkettung L ◦ M : U → W , v 7→ L(M (v)).
• für bijektives L ∈ L(V, W ): das Bilden der Umkehrabbildung L−1 : W → V .
Man verifiziert, dass die Abbildungen L + M , λL und L ◦ M und L−1 selbst linear sind (sofern sie gebildet
werden können). Also sollten sich die Darstellungsmatrizen dieser Abbildungen aus denen von L und M
berechnen lassen. Das tun wir in für die ersten drei Fälle in 3.2–3.4, für die Umkehrabbildung in 3.9.
3.2 Summe zweier Matrizen. Sind in zwei K-Vektorräumen V und W mit dim V = n und dim W = m
Basen B bzw. C fest gewählt und sind L, M ∈ L(V, W ) zwei lineare Abbildungen mit Darstellungsmatrizen
MBC (L) = A = (aj,k ) ∈ Km×n ,
MBC (M ) = B = (bj,k ) ∈ Km×n ,
so ist die Darstellungsmatrix von L + M ∈ L(V, W ) gegeben durch
MBC (L + M ) = A + B := (aj,k + bj,k ) ∈ Km×n .
Die Darstellungsmatrizen werden koeffizientenweise addiert. Offensichtlich geht das nur, wenn beide Matrizen A, B gleiche Abmessung haben. Die Summenmatrix A + B hat dann dieselbe Abmessung.
223
KAPITEL 5. LINEARE ALGEBRA
3.3 Vielfaches einer einer Matrix. Sind in zwei K-Vektorräumen V und W mit dim V = n und
dim W = m Basen B bzw. C fest gewählt, ist λ ∈ K ein Skalar und ist L ∈ L(V, W ) eine lineare
Abbildungen mit Darstellungsmatrix
MBC (L) = A = (aj,k ) ∈ Km×n ,
so ist die Darstellungsmatrix von λL ∈ L(V, W ) gegeben durch
MBC (λL) = λA := (λaj,k ) ∈ Km×n .
Jeder Eintrag der Darstellungsmatriz A wird also mit λ multipliziert. Die so entstehende Matrix λA hat
dann dieselbe Abmessung wie A.
3.4 Produkt zweier Matrizen. Sind in drei K-Vektorräumen U , V und W mit dim U = p, dim V = n
und dim W = m Basen A, B bzw. C fest gewählt und sind L ∈ L(V, W ) und M ∈ L(U, V ) zwei lineare
Abbildungen mit Darstellungsmatrizen
B
MA
(M ) = B = (bk,l ) ∈ Kn×p ,
MBC (L) = A = (aj,k ) ∈ Km×n ,
so ist die Darstellungsmatrix von L ◦ M ∈ L(U, W ) gegeben durch
C
MA
(L
m×p
◦ M ) = A · B := (cj,l ) ∈ K
mit cj,l :=
n
X
aj,k bk,l ,
k=1
d.h. ausführlich
a1,1
..
.
aj,1
.
..
am,1
···
···
···
a1,n
..
b1,1
.
.
aj,n ..
..
bn,1
.
am,n
···
···
b1,l
..
.
···
bn,l
···
c1,1
b1,p
.. = ..
. .
bn,p
cm,1
···
cj,l
···
c1,p
..
. .
c,p
Für das Matrizenprodukt A · B schreiben wir auch kurz AB. Es kann nur gebildet werden, wenn die
Zeilenzahl der zweiten mit der Spaltenzahl der ersten Matrix übereinstimmt (dem entspricht, dass der
Definitionsraum der nachgeschalteten Abbildung mit dem Zielraum der vorgeschalteten übereinstimmt,
d.h. insbesondere dieselbe Dimension hat). Dann hat die Produktmatrix AB ebenso viele Zeilen wie A
und Spalten wie B.
Für die Berechnung des Produkts gilt dann die Merkregel: Man erhält die Spalten der Produktmatrix
”
AB, indem man die Spalten von B an die Matrix A multipliziert“, d.h.
AB = A( b1 , . . . , bn ) = (Ab1 , . . . , Abn ).
| {z }
Spalten von B
3.5 Potenz einer quadratischen Matrix, nilpotente Matrizen. Für A ∈ Kn×n erklären wir An
rekursiv durch
A0 := En ,
An := A · An−1 für n ≥ 1.
Das Bilden von An entspricht (nach Wahl einer Basis von V ) der n-fachen Verkettung einer linearen
Abbildung L ∈ L(V ) mit sich selbst.
Gilt dann An = 0 für ein n ∈ N, so nennen wir die Matrix A nilpotent
Beispiel. Für
0
A := 0
0
1
0
0
0
1
0
gilt
1
A 0 = E = 0
0
0
1
0
0
0
0 , A 1 = A = 0
1
0
1
0
0
0
0
1 , A 2 = 0
0
0
0
0
0
1
0
0 , A 3 = 0
0
0
0
0
0
0
0 = A4 = . . . .
0
224
§2. LINEARE ABBILDUNGEN UND MATRIZEN
3.6∗ Beweis der Darstellungen für Summe, Vielfaches und Produkt. Seien A = (u1 , . . . , up ),
B = (v1 , . . . , vn ) und C = (w1 , . . . , wm ). Dann folgt mit der Linearität von L und M
(L+M )(vk ) = L(vk ) + M (vk ) =
m
X
aj,k wj +
j=1
(λL)(vk ) = λL(vk ) = λ
m
X
(L◦M )(uµ ) = L(M (ul )) = L
bj,k wj =
j=1
aj,k wj =
j=1
m
X
m
X
m
X
(aj,k + bj,k )wj ,
j=1
(λaj,k )wj ,
j=1
n
X
!
bk,l vk
k=1
=
n
X
bk,l L(vk ) =
k=1
n
X
k=1
bk,l
m
X
aj,k wj =
j=1
m
n
X
X
j=1
!
aj,k bk,l
wj ,
k=1
woraus wir mit 2.1 (b) ablesen, dass die Darstellungsmatrizen von L + M , λL bzw. L ◦ M tatsächlich die
in 3.2, 3.3 bzw. 3.4 angegebene Form haben.
3.7 Rechenregeln für Addition, Vielfaches und Produkt von Matrizen.
(a) Bei fest gewählten Basen B von V und C von W existiert zu jeder Matrix A ∈ Km×n genau eine
lineare Abbildung L : V → W mit A = MBC (L).
(b) Die Matrizen aus Km×n bilden zusammen mit der Addition von Matrizen 3.2 und der Skalarmultiplikation 3.3 einen K-Vektorraum der Dimension mn.
(c) Die Matrizenmultiplikation erfüllt das Assoziativgesetz
A(BC) = (AB)C.
(d) Matrizenaddition und -multiplikation erfüllen das Distributivgesetz
A(B + C) = AB + AC.
(e) Für die Matrizenaddition und das Bilden von Vielfachen gilt
(λA)(µB) = (λµ)(AB).
In den Regeln (c)–(e) müssen die beteiligten Matrizen natürlich die richtigen Abmessungen haben.
Dank (c) können wir bei der Produktbildung die Klammern weglassen.
Beweis. (a) folgt sofort aus 2.1. Für (b) prüft man die Vektorraumaxiome durch sumpfsinniges Nachrechnen. Für die Dimensionsaussage betrachtet man die Basis gebildet aus den mn Matrizen mit genau
einem Eintrag 1 und sonst 0. Die Regeln (c)–(e) ergeben sich aus den entsprechenden Gesetzen für das
Verketten und Addieren von Abbildungen.
Beispiel. Für
A=
1
2
0
,
3
−2
4
3
B = 1
0
−1
−1 ,
2
C=
2
0
1
.
1
berechnen wir
1
2
3
B(C + C 2 ) = 1
0
3
= 1
0
ABC
=
3 −1 2
−2 0
1 −1
4 3
0
0 2
−1 2 1
2
−1
+
0
0 1
2
−1 18
6 4
−1
=6
0 2
0
2
6 2
1
1 −2 0
4 2
1 0 =
,
=
2 4 3
16 10
1
0 2
3 −1 1
2 1
2 1
4 3
+
= 1 −1
1
0 1
0 1
0 1
0 2
10
2 .
4
Es gilt AB ∈ R2×2 aber BA ∈ R3×3 — beim Matrizenprodukt können wir also keine Kommutativität
erwarten, ja es oftmals gar nicht in beiden Reihenfolgen bilden. Die Terme A + C oder CB können aus
Abmessungsgründen nicht gebildet werden.
225
KAPITEL 5. LINEARE ALGEBRA
Achtung. Beim Rechnen mit Matrizen immer zuerst die Abmessungen prüfen.
3.8 Rechenregeln für quadratische Matrizen. Gemäß 3.7 bilden die quadratischen (n × n)-Matrizen
einen Vektorraum der Dimension n2 . Zusätzlich zu den zuvor genannten Regeln gelten hier weitere. Wir
notieren alle zusammen.
(f) Die Matrizenmultiplikation ist assoziativ (A(BC) = (AB)C) und distributiv (A(B + C) = AC + BC),
und es gilt (λA)(µB) = (λµ)(AB).
(g) Die Einheitsmatrix E = En ist neutrales Element der Multiplikation: AE = EA = A.
(h) Die Multiplikation ist für n ≥ 2 nicht kommutativ, i.A. gilt AB 6= BA.
(i) Die Multiplikation ist für n ≥ 2 nicht nullteilerfrei, d.h. es gibt (n×n)-Matrizen A, B 6= 0 mit AB = 0.
Beweis. Spannend ist nur der Nachweis von (h) und (i). Das Beispiel
0 1
0 0
A=
,
B=
0 0
1 0
zeigt, dass Kommutativität und Nullteilerfreiheit in K2×2 verletzt sind. Es gilt nämlich
1 0
0 0
0 1
0 1
0 0
2
AB =
6=
= BA,
A = AA =
=
.
0 0
0 1
0 0
0 0
0 0
Für n ≥ 2 schließe man analog mit entsprechend vergrößerten Matrizen.
Anmerkung. Zusätzlich zur Vektorraumstruktur in Kn×n , d.h. einer Addition und einer Skalarmultiplikation samt den zugehörigen Regeln, haben wir hier noch eine Multiplikation, welche die Regeln
(f)–(i) erfüllt. In der Mathematik nennt man eine derartige Struktur eine nichtkommutative Algebra mit
Einselement.
3.9 Invertierbare Matrizen. Nach 2.10 müssen bei einer bijektiven linearen Abbildung zwischen zwei
endlichdimensionalen Vektorräumen Definitions- und Zielraum dieselbe Dimension haben. Für bijektives
L ∈ L(V ) mit dim V = n überträgt sich dann die Beziehung L ◦ L−1 = L−1 ◦ L = idV nach Wahl
einer Basis B von V in die Beziehung AB = BA = E für die Darstellungsmatrizen A = MB (L) und
B = MB (L−1 ).
Eine quadratische Matrix A ∈ Kn×n nennen wir daher invertierbar , falls es eine quadratische Matrix
B ∈ Kn×n gibt mit
AB = BA = E.
Die Matrix B ist dann die Darstellungsmatrix der Umkehrabbildung. Sie ist somit eindeutig bestimmt
und wir bezeichnen sie mit
A−1 .
Ist V endlichdimensional, so ist L ∈ L(V ) genau dann bijektiv, wenn nach Wahl einer Basis B die
Darstellungsmatrix A = MB (L) invertierbar ist. Dann gilt A−1 = MB (L−1 ).
3.10 Invertierbare Matrizen und Basen. Eine Matrix A ∈ Kn×n ist genau dann invertierbar, wenn
die Spalten von A eine Basis des Kn bilden.
Beweis. Genau dann bildet (a1 , . . . , an ) eine Basis des Kn , wenn y = x1 a1 + · · · + xn an = Ax für jedes
y ∈ Kn eindeutig lösbar ist, d.h. wenn die zu A gehörige lineaere Abbildung bijektiv ist.
Beispiel. Eine (2 × 2)-Matrix
A=
a b
c d
ist genau dann invertierbar, wenn keine der beiden Spalten ein Vielfaches der anderen ist, d.h. ad−bc 6= 0.
Dann gilt
1
d −b
−1
A =
.
ad − bc −c a
226
§2. LINEARE ABBILDUNGEN UND MATRIZEN
Anmerkung. In §4.2.4 zeigen wir, dass eine Matrix genau dann invertierbar ist, wenn ihre Determinante
nicht verschwindet. In §3.2.6 führen wir vor, wie man die inverse Matrix mit einer simultanen GaußElimination berechnet.
3.11 Rechenregeln für die inverse Matrix. Für quadratische Matrizen A, B ∈ Kn×n gilt:
(j) Ist AB = E, so sind beide Matrizen invertierbar mit B = A−1 .
(k) Sind A und B invertierbar, so auch AB mit
(AB)−1 = B −1 A−1 .
Beweis. In (j) gilt für die zugehörigen linearen Abbildungen L, M ∈ L(V ) dann L ◦ M = idV . Damit
ist L surjektiv und M ist injektiv. Nach 2.10 sind beide Abbildungen bijektiv mit M = L−1 . Nun folgt (k)
aus
(AB)(B −1 A−1 ) = A(BB −1 )A−1 = AEA−1 = AA−1 = E.
Beispiel. Beim Rechnen mit inversen Matrizen tauchen oft Operationen der folgenden Art auf:
(S −1 AS)k
=
(S −1 AS)(S −1 AS) · · · (S −1 AS) = S −1 A(SS −1 )A(S · · · S −1 )AS
= S −1 AEA · · · AS = S −1 Ak S.
Man beachte, wie bei obiger Rechnung durch Umklammern vom Assoziativgesetz gezehrt wurde, ohne
das nicht zur Verfügung stehende Kommutativgesetz zu verwenden.
3.12 Dreiecksmatrizen. Eine quadratische Matrix A = (aj,k ) ∈ Kn×n heißt obere (untere) Dreiecksmatrix , falls aj,k = 0 für j > k (j < k). Die Einträge a1,1 , . . . , an,n heißen Diagonaleinträge.
Eine Dreiecksmatrix ist genau dann invertierbar, wenn kein Diagonaleintrag verschwindet. Die inverse
Matrix ist dann wieder eine Dreiecksmatrix.
Beweis. Wir betrachten für eine obere
dabei spaltenweise, d.h.
a1,1 a1,2 · · ·
0
a2,2
BA = (b1 , . . . , bn ) .
..
..
.
0
0
···
0
Dreiecksmatrix A das Matrizenprodukt BA und schreiben B
a1,n
a2,n
.. = (a1,1 b1 , a1,2 b1 + a2,2 b2 , . . . , a1,n b1 + · · · + an,n bn ).
|
{z
}
{z
}
| {z } |
.
1.
an,n
2.
n-te Spalte von BA
Die Einheitsmatrix entsteht hierbei genau dann, wenn für die Spalten b1 , . . . , bn von B die Bedingungen
a1,1 b1
a1,2 b1
+a2,2 b2
a1,n b1
+a2,n b2
= e1 ,
= e2 ,
..
.
+···
+an,n bn
= en
erfüllt sind. Dazu dürfen die Diagonaleinträge von A nicht verschwinden. Dann berechnen sich die Spalten
von A−1 = B rekursiv zu
1
1
1
b1 =
e1 ,
b2 =
(e2 − a1,2 b1 ),
...,
bn =
(en − a1,n b1 − · · · − an−1,n bn−1 ).
a1,1
a2,2
an,n
Die inverse Matrix ist damit selbst eine obere Dreiecksmatrix. Für untere Dreicksmatrizen schließe man
analog.
Beispiel. Es gilt
1
0
0
2
1
0
−1
3
1
2 = 0
1
0
da nach obigem Schema
1
1
b1 = e1 = e1 ,
b2 = (e2 − 2b1 ) = −2e1 + e2 ,
1
1
−2
1
0
1
−2 ,
1
b3 =
1
(e3 − 3b1 − 2b2 ) = e1 − 2e2 + e3 .
1
227
KAPITEL 5. LINEARE ALGEBRA
3.13 Transponieren und Konjugieren einer Matrix. Wir beenden diesen Abschnitt mit zwei Operationen für Matrizen, die zunächst keine abbildungstheoretische Interpretation zu haben scheinen, sich
aber als recht nützlich im Matrizenkalkül erweisen.
Vertauschen wir die Zeilen und Spalten einer (m×n)-Matrix, so wird die dabei entstehende (n×m)-Matrix
transponierte Matrix genannt und mit AT bezeichnet:
a1,1 · · · am,1
..
a1,1 · · · a1,k · · · a1,n
..
.
.
..
.. .
· · · am,k
AT :=
für A = ...
.
.
a1,k
,
.
.
.
.
am,1 · · · am,k · · · am,n
.
.
a1,n · · · am,n
Hat A komplexe Einträge, so erklären wir die konjugierte Matrix durch elementweises Konjugieren
a1,1 · · · a1,n
.. .
A := ...
.
am,1 · · · am,n
Für Matrizen aus Cm×n werden Transponieren und Konjugieren zusammengefasst zu
a1,1 · · · am,1
..
a1,1 · · · a1,k · · ·
..
.
.
T
..
..
∗
T
A := A = A = a1,k · · · am,k ,
für A = .
.
..
..
am,1 · · · am,k · · ·
.
.
a1,n · · · am,n
a1,n
.. .
.
am,n
Statt AT schreibt man auch At , statt A∗ auch A† .
3.14 Rechenregeln für Transponieren und Konjugieren.
(l) (AT )T = A, A = A, (A∗ )∗ = A.
(m) (A + B)T = AT + B T , A + B = A + B, (A + B)∗ = A∗ + B ∗ .
(n) (λA)T = λAT , λA = λ A, (λA)∗ = λA∗ .
(o) (AB)T = B T AT , AB = A B, (AB)∗ = B ∗ A∗ .
Beweis. Die Regeln (l) und (m) sind offensichtlich, (n) ergibt sich durch ordentliches Nachrechnen.
3.15 Symmetrische und hermitesche Matrizen. Eine reelle (n × n)-Matrix A heißt symmetrisch
bzw. antisymmetrisch, wenn
AT = A
bzw.
AT = −A.
Für eine symmetrische Matrix gilt aj,k = ak,j , sie wird also durch die n(n+1)/2 Einträge auf und oberhalb
der Diagonalen festgelegt. Für eine antisymmetrische Matrix gilt aj,k = −aj,k , d.h. insbesondere aj,j = 0.
Eine komplexe (n × n)-Matrix A heißt hermitesch bzw. antihermitesch, wenn
A∗ = A
bzw.
A∗ = −A.
Jede reelle quadratische Matrix A kann via
A=
1
1
(A + AT ) +
(A − AT )
|
{z
}
| {z }
2
2
symmetrisch
antisymmetrisch
als Summe einer symmetrischen und einer antisymmetrischen Matrix dargestellt werden. Für komplexe
quadratische Matrizen besteht eine analoge Zerlegung
A=
1
1
(A + A∗ ) +
(A − A∗ ) .
| {z }
2 | {z } 2
hermitesch
antihermitesch
228
§2. LINEARE ABBILDUNGEN UND MATRIZEN
3.16 Standardnorm und -skalarprodukt im Rn (vgl. 3.§3.2). Aus einem Spaltenvektor
x1
x = ... ∈ Rn
xn
entsteht durch Transponieren ein Zeilenvektor
xT = (x1 , . . . , xn ).
Die Norm kxk können wir nun als Matrizenprodukt darstellen:
kxk2 = x1 2 + · · · + xn 2 = xT x
für x ∈ Rn .
Für das Standardskalarprodukt im Rn folgt analog
hy|xi = y1 x1 + · · · + yn xn = y T x
für x, y ∈ Rn .
Achtung. y T x = xT y ist eine reelle Zahl. (Welche Abmessungen hat dagegen xy T ?)
3.17 Nochmals Matrizenprodukte. Aus der Definition 3.4 ergeben sich drei nützliche Lesarten für
das Matrizenprodukt AB von A ∈ Km×n und B ∈ Kn×p . Wir haben diese Lesarten teilweise schon in
vorangegangenen Argumenten verwendet und stellen sie jetzt als Schatzkästchen“ zusammen.
”
(p) Man erhält die Spalten von AB indem man die Spalten von B von rechts an A multipliziert:
b1,l
..
AB = A(b1 , . . . , bp ) = (Ab1 , . . . , Abp )
mit bl = .
bn,l
(q) Man erhält die Zeilen von AB, indem man die Zeilen von A von links an B multipliziert:
T
T
a1
a1 B
AB = ... B = ...
mit aj T = (aj,1 , . . . , aj,n ).
am T
am T B
(r) Man erhält die Einträge von AB, indem man die Zeilen von A mit den Spalten von B multipliziert:
T
T
a1
a1 b1
···
a1 T bp
.. .
AB = ... (b1 , . . . , bp ) = ...
aj T bl
.
T
T
am
am b1
···
am T bp
3.18 Orthogonale und unitäre Matrizen. Bilden die Vektoren u1 , . . . , un ∈ Rn ein ONS, so gilt
huj |uk i = uj T uk = δj,k . Für die aus diesen Vektoren gebildete Matrix U := (u1 , . . . , un ) ∈ Rn×n erhalten
wir damit
T
u1
..
T
U U = . (u1 , . . . , un ) = (uj T uk ) = (δj,k ) = E.
un T
Erfüllt umgekehrt eine Matrix U ∈ Rn×n die Bedingung
U T U = U U T = E,
so sind nach obiger Lesart die Spalten (und auch die Zeilen) von U normiert und stehen paarweise
aufeinander senkrecht. Derartige Matrizen heißen orthogonal .
Eine Matrix U ∈ Rn×n ist genau dann orthogonal, wenn ihre Spalten (und dann auch die Zeilen) ein
ONS bezüglich des Standardskalarprodukts im Rn bilden. Dann ist U invertierbar mit U −1 = U T .
Das komplexe Analogon hierzu sind die unitären Matrizen. Das sind diejenigen U ∈ Cn×n mit
U ∗ U = U U ∗ = E.
229
KAPITEL 5. LINEARE ALGEBRA
Eine unitäre Matrix ist damit ebenfalls invertierbar mit U −1 = U ∗ . Sobald wir in §6.2 für C-Vektorräume
ein Skalarprodukt eingeführt haben, werden wir die Analogie zu orthogonalen Matrizen in R-Vektorräumen vervollständigen.
4
Basiswechsel, Koordinatentransformation und Darstellungsmatrizen
4.1 Worum geht es? Ein und dieselbe lineare Abbildung L hat bezüglich verschiedener Basen in Definitions- und Zielraum verschiedene Darstellungsmatrizen. Wir studieren nun, wie sich ein Basiswechsel auf
die Darstellungsmatrix auswirkt. Das liefert uns die Grundlage, später geschickte“ Basen wählen zu
”
können, um das Abbildungsverhalten einer linearen Abbildung zu verstehen. Dabei beschränken wir uns
auf den einfachsten Fall L ∈ L(V ), der auch für die Anwendungen der wichtigste ist.
4.2 Basiswechsel. Wir wählen in einem endlichdimensionalen Vektorraum V zwei Basen B = (v1 , . . . , vn )
und B 0 = (v10 , . . . , vn0 ). Ein Vektor v ∈ V besitzt bezüglich dieser beiden Basis die Basisdarstellungen
v=
n
X
xk vk ,
v=
k=1
n
X
x0k vk0 ,
k=1
d.h. die Koordinatenvektoren
x1
vB =: x = ... ,
x01
=: x0 = ... .
vB 0
x0n
xn
Mit dem folgenden Trick können wir nun diese beiden Koordinatendarstellungen ineinander umrechnen.
Wir betrachten die identische Abbildung idV , v 7→ v, und wählen im Definitionsraum V die Basis B 0 , im
Zielraum V dagegen die Basis B.
koordinatenfrei:
nach Wahl von Basen:
v7→idV (v)=v
−→
V
x0 7→x
0
(V, B )
−→
V
(V, B)
Gemäß 3.9 ist die zugehörige Darstellungsmatrix
S := MBB0 (idV )
dann regulär. Die Umkehrabbildung (das ist wieder idV , jetzt aber mit den Basen B im Definitions- und
B 0 im Zielraum) hat damit gemäß 3.9 die Darstellungsmatrix
0
S −1 := MBB (idV ).
Die k-te Spalte von S enthält die Koordinaten von vk0 bezüglich B, die l-te Spalte von S −1 die Koordinaten
von vl bezüglich B 0 .
Beispiel. Wir betrachten den R3 mit den beiden Basen
1
0
0
0
1
1
B 0 = (v10 , v20 , v30 ) = 1 , 1 , 0 .
B = (v1 , v2 , v3 ) = 1 , 0 , 1 ,
1
0
1
1
1
1
Offensichtlich gilt
v10
v1
und damit
1
(v1 + v2 + v3 ),
20
= v2 ,
=
1/2 1
S = 1/2 0
1/2 0
v20
v2
= v1 ,
=
1/2
1/2 .
−1/2
v10
−
v20
+
v30 ,
S −1
0
= 1
0
v30
=
v3
=
1
−1
1
1
0 ,
−1
1
2 (v1
v10 −
+ v2 − v3 ),
v30
230
§2. LINEARE ABBILDUNGEN UND MATRIZEN
Betrachten wir den Polynomraum P2 (R) mit den beiden Basen
B 0 = (x2 + x + 1, x2 + x, x2 ),
B = (x2 + x, x2 + 1, x + 1),
So haben die Basisvektoren bezüglich der Standardbasis (1, x, x2 ) des P2 (R) die Koordinatenvektoren
(0, 1, 1)T , (1, 0, 1)T , (1, 1, 0)T , bzw. (1, 1, 1)T , (0, 1, 1)T , (0, 0, 1)T und wir erhalten dieselben Darstellungsmatrizen für die beiden Basiswechsel.
4.3 Koordinatenwechsel. Ein Vektor v ∈ V wird durch idV auf sich selbst abgebildet. Die Darstellungsmatrix S des Basiswechsels B 0 → B und ihre Inverse S −1 dienen dann zur Umrechnung der Koordinaten
x0 = vB0 und x = vB :
x = Sx0 ,
koordinatenfrei:
−→
x0 7→x=Sx0
0
(V, B )
nach Wahl von Basen:
Beispiel. Für den Vektor
gilt v = 2v2 − v3 und damit
0
vB = 2 ,
−1
v7→idV (v)=v
V
−→
x0 = S −1 x.
V
(V, B)
v7→idV (v)=v
−→
x7→x0 =S −1 x
−→
V
(V, B 0 )
1
v := −1 ∈ R3
2
vB 0
0
= S −1 vB = 1
0
1
−1
1
1
0
1
0 2 = −2 ,
−1
−1
3
d.h. v = v10 − 2v20 + 3v30 . Tatsächlich gilt
1
1
0
0
−1 = 1 1 − 2 1 + 3 0 .
2
1
1
1
Für das Polynom 2x2 − x + 1, welches bezüglich der Standardbasis des P2 (R) die Koordinaten (1, −1, 2)T
besitzt, erhalten wir damit die Darstellungen
2x2 − x + 1 = 0 · (x2 + x) + 2(x2 + 1) − 1(x + 1) = 1(x2 + x + 1) − 2(x2 + x) + 3(x2 ).
4.4 Ähnliche Matrizen. Hat eine lineare Abbildung L ∈ L(V ) die Darstellungsmatrizen
A := MB (L),
B := MB0 (L)
bezüglich der simultanen Basenwahl B bzw. B 0 in V und ist S die Darstellungsmatrix des Basiswechsels
von B 0 auf B, so gilt
B = S −1 AS.
Gilt diese Beziehung für zwei Matrizen A, B ∈ Kn×n so nennen wir A und B ähnlich.
Achtung. Ähnliche Matrizen gehören also zu ein und derselben linearen Abbildung L ∈ L(V ). Sie
entstehen dadurch, dass man für die Darstellung von L unterschiedliche Basen in V wählt.
Beweis. Wir schreiben L = idV ◦L ◦ idV und fassen die erste Identität als lineare Abbildung von V versehen mit der Basis B 0 nach V versehen mit der Basis B auf, betrachten anschließend die Darstellungsmatrix
von L bezüglich der Basis B in Definitions- und Zielraum und schalten anschließend die Identität als lineare Abbildung von V versehen mit der Basis B nach V versehen mit der Basis B 0 auf. Nach Wahl
231
KAPITEL 5. LINEARE ALGEBRA
0
von Basen hat L dann einerseits die Darstellungsmatrix B = MBB0 (L), andererseits das Matrizenprodukt
0
S −1 AS = MBB (idV )MBB (L)MBB0 (idV ). Damit gilt B = S −1 AS.
(V, B 0 )
y 0 =Bx0 =S −1 ASx0
−→
x = Sx0 ↓
(V, B 0 )
↑ y 0 = S −1 y
y=Ax
(V, B)
−→
(V, B)
2
Beispiel.
betrachten eine lineare Abbildung L des R in sich, welche bezüglich der Standardbasis
0Wir
1
B = ( 0 , 1 ) die Darstellungsmatrix
2 −1
A=
−1 2
besitzt, und wollen L bezüglich der Basis
B 0 = (v10 , v20 ) =
2
1
,
−2
1
darstellen. Die Darstellungsmatrizen der Basiswechsel von B 0 auf B und zurück lauten wegen
1 2
1
0
1
1 2
1
1 1
0
1 1
0
1
2
=
,
+1
=1
=−
,
+
,
+
,
−2
=2
0
1
0
1
1
1
0
4 −2
2 1
4 −2
2 1
−2
dann
S=
2
−2
1
,
1
S
−1
Also hat L bezüglich B 0 die Darstellungsmatrix
1/4 −1/4
2 −1
2
−1
B = S AS =
1/2 1/2
−1 2
−2
=
1/4
1/2
−1/4
.
1/2
1
1/4
=
1
1/2
−1/4
6
1/2
−6
1
3
=
1
0
0
.
1
Damit gilt L(v10 ) = 3v10 und L(v20 ) = v20 . Bezüglich der neuen Basis B 0 = (v10 , v20 ) ist das Abbildungsverhalten von L also einfach: Längs der v10 -Achse wirkt L wie eine Streckung um den Faktor 3, längs der
v20 -Achse wie die Identität.
§3
1
Lineare Gleichungssysteme
Lösbarkeit, Struktur des Lösungsraums
1.1 Lineare Gleichungssysteme im Matrizenkalkül. Ein lineares Gleichungssystem mit m Gleichungen für n Unbekannte (kurz ein (m × n)-LGS) hat die Gestalt
a1,1 x1 +a1,2 x2 + · · ·
a2,1 x1 +a2,2 x2 + · · ·
+a1,n xn = b1 ,
+a2,n xn = b2 ,
..
.
am,1 x1 +am,2 x2 + · · · +am,n xn = bm ,
wobei die Koeffizienten aj,k ∈ K und die Zahlen bk ∈ K der rechten Seite“ gegeben sind, und alle
”
Lösungstupel (x1 , . . . , xn )T ∈ Kn gesucht werden. Mit
a1,1 a1,2 · · · a1,n
x1
b1
a2,1 a2,2 · · · a2,n
x2
b2
m×n
,
x := . ∈ Kn ,
b := . ∈ Km ,
A := .
..
.. ∈ K
.
..
..
.
.
.
am,1 am,2 · · · am,n
xn
bm
232
§3. LINEARE GLEICHUNGSSYSTEME
erhält das Gleichungssystem die prägnante Form
Ax = b.
Die Lösungsmenge dieses LGS bezeichnen wir mit
LA,b := {x ∈ Kn | Ax = b}
für A ∈ Km×n , b ∈ Km .
Meistens ist klar, welche Matrix A gemeint ist. Dann schreiben wir einfach Lb statt LA,b . Insbesondere
ist L0 die Lösungsmenge des homogenen LGS Ax = 0.
1.2 Beispiele.
Schnitt zweier Ebenen: Gemäß 3.§4.1.6 wird eine Ebene im R3 in Normalenform durch eine Gleichung
a1 x1 + a2 x2 + a3 x3 = b beschrieben. Das ist eine Gleichung für drei Unbekannte. Der Schnitt zweier
Ebenen führt dann auf ein (2 × 3)-LGS.
Basisdarstellung: Ist (a1 , . . . , an ) eine Basis des Kn , so ist die Koordinatenberechnung für einen Vektor
y ∈ Kn , d.h. das Auffinden von x1 , . . . , xn ∈ K mit
x1 a1 + · · · + xn an = y
nichts anderes als das Lösen eines inhomogenen (n × n)-Gleichungssystems Ax = y. Die Spalten der quadratischen Matrix A werden hierbei von den Vektoren a1 , . . . , an gebildet, die rechte Seite vom Vektor y.
Lineare Unabhängigkeit: Die Frage nach der linearen Unabhängigkeit von n Vektoren a1 , . . . , an ∈ Km
führt auf ein homogenes (m×n)-LGS Ax = 0 mit einer (m×n)-Matrix A gebildet aus den Spaltenvektoren
a1 , . . . , an .
1.3 Struktur der Lösungsmenge. Wir übertragen unsere Ergebnisse aus Abschnitt 1 und erhalten:
(a) Die Lösungsmenge L0 des homogenen LGS Ax = 0 ist ein Unterraum von Kn .
(b) Ist x̃ eine spezielle Lösung des inhomogenen LGS Ax = b, so ist die gesamte Lösungsmenge Lb
gegeben durch den affinen Teilraum Lb = x̃ + L0 = {x̃ + x ∈ Kn | x ∈ L0 }.
(Für die Bedeutung von x̃ + L0“ und den Begriff affiner Teilraum schlage man ggf. 3.§4.1.18 nach.)
”
Bezeichnen wir die Spaltenvektoren von A mit a1 , . . . , an ∈ Km , so lässt sich das Matrizen-Vektor-Produkt
Ax in der Form
Ax = (a1 , . . . , an )x = x1 a1 + · · · + xn an
schreiben. Dies führt zu einer für das Lösen von linearen Gleichungssystemen fundamentalen Beobachtung.
Der Vektor Ax ist eine Linearkombination der Spalten von A.
1.4 Existenz und Eindeutigkeit von Lösungen. Die obige Beobachtung hat folgende Konsequenzen:
(c) Die Lösungen von Ax = b sind die Koeffiziententupel all derjenigen Linearkombinationen der Spalten
von A, die b darstellen.
(d) Das LGS Ax = b ist genau dann lösbar, wenn b im Erzeugnis der Spalten von A liegt. Sind die Spalten
von A linear unabhängig, so hat Ax = b höchstens eine Lösung.
(e) Erzeugen die Spalten von A den Km , so ist Ax = b für jede rechte Seite b lösbar.
(f) Sind die Spalten von A linear unabhängig, so hat Ax = 0 nur die triviale Lösung.
1.5 Bild und Kern, Rang und Defekt einer Matrix. Analog zu 1.10 setzen wir für A ∈ Km×n
Bild(A) := {Ax ∈ Km | x ∈ Kn },
Kern(A) := {x ∈ Kn | Ax = 0},
sowie
rg(A) := dim Bild(A),
def(A) := dim Kern(A),
und erhalten aus der Dimensionsformel 2.9
rg(A) + def(A) = n.
Damit können wir wir die obigen Lösbarkeitsaussagen umformulieren.
233
KAPITEL 5. LINEARE ALGEBRA
1.6 Rang- und Defektbedingung für Lösbarkeit.
(g) Für def(A) = 0 hat Ax = 0 nur die triviale und damit Ax = b für jede rechte Seite b höchstens eine
Lösung. In diesem Fall muss m ≥ n gelten.
(h) Für rg(A) = m hat Ax = b für jede rechte Seite b mindestens eine Lösung. Dann muss m ≤ n gelten.
(i) Genau dann hat Ax = b für jede rechte Seite b genau eine Lösung, wenn Ax = 0 nur die triviale
Lösung hat und wenn m = n gilt, d.h. A eine quadratische Matrix ist.
(j) Gilt allgemein rg(A) = k ≤ n, so hat Ax = 0 einen (n − k)-dimensionalen Lösungsraum. Nur dann
ist Ax = b lösbar, wenn b ∈ Bild(A). Dann ist die Lösungsmenge LA,b ein (n − k)-dimensionaler affiner
Teilraum.
Das Lösbarkeitskriterium b ∈ Bild(A) in (j) schreibt man gerne in der Form
rg(A) = rg(A|b),
wobei A|b die um die Spalte b erweiterte Matrix A bezeichnet. Der Rang kann dabei nur dann erhalten
bleiben, wenn b eine Linearkombination der Spalten von A ist, d.h. wenn Ax = b lösbar ist.
1.7 Fazit. Bisher haben wir viel über die Lösbarkeit von linearen Gleichungssystemen und die Struktur
der Lösungsmenge kennengelernt, aber noch kein effizientes Verfahren zur Bestimmung von rg(A), def(A)
und der Lösungsmenge Lb von Ax = b. Das geschieht im folgenden Abschnitt.
2
Gauß-Elimination
2.1 Die Idee der Gauß-Elimination besteht darin, ein vorgegebenes LGS Ax = b in ein einfach
lösbares LGS Dx = c umzuformen, ohne im Verlauf der Umformungen die Lösungsmenge zu ändern, d.h.
es gilt LA,b = LD,c . Bei den Umformungen wechseln sich drei elementare“ Umformungstypen ab, die
”
nacheinander abgearbeitet werden und nach endlich vielen Schritten sicher zum Ziel führen. Wir erläutern
das Verfahren an Hand eines Beispiels.
2.2 Gauß-Elimination an Hand eines Beispiels. Wir wollen alle Lösungen des LGS
−3x1
4x1
kurz Ax = b mit
0
−3
A=
0
4
4x2
−3x2
2x2
−x2
4
−3
2
−1
+4x3
+3x3
+2x3
−9x3
4
3
2
−9
3
1
3
−2
+3x4
+x4
+3x4
−2x4
−2x5
−2x5
−4x5
−x5
−2
−2
,
−4
−1
= 16
= −2
= 14
= −5
16
−2
b=
14 ,
−5
bestimmen. Es erweist sich als praktisch, das LGS schematisch in folgender Form darzustellen:
0
−3
0
4
4
4
3
−3
3
1
2
2
3
−1 −9 −2
−2
−2
−4
−1
16
−2
14
−5
Schritt 1.1: Vertauschen. Die Reihenfolge der Gleichungen ist für die Lösungsmenge unerheblich. Wir
wollen eine erste Zeile ( Kopfzeile“) in der eine Variable mit niedrigstem Index (hier x1 ) vorkommt, und
”
vertauschen darum die erste und die zweite Zeile.
−3
0
0
4
−3
3
1
4
4
3
2
2
3
−1 −9 −2
−2
−2
−4
−1
−2
16
14
−5
234
§3. LINEARE GLEICHUNGSSYSTEME
Schritt 1.2: Normieren. Multiplikation einer Zeile mit einer nichtverschwindenten Konstanten ändert die
Lösungsmenge nicht. Wir wollen die Kopfzeile so normieren, dass bei x1 der Koeffizient 1 steht, und
erweitern diese Zeile darum mit −1/3.
1
0
0
4
1 −1 −1/3
4
4
3
2
2
3
−1 −9
−2
2/3
−2
−4
−1
2/3
16
14
−5
Schritt 1.3: Eliminieren. Wir addieren geeignete Vielfache der Kopfzeile zu allen anderen Zeilen, um dort
die Anteile bei x1 zu eliminieren. (Dass sich hierbei die Lösungsmenge nicht ändert, überlegen wir uns
später in 2.4.) In unserem Fall muss nur das (−4)-fache der Kopfzeile zur vierten addiert werden.
1
0
0
0
1 −1 −1/3
4
4
3
2
2
3
−5 −5 −2/3
2/3
−2
−4
−11/3
2/3
16
14
−23/3
Nach diesen drei Teilschritten lassen wir die erste Zeile und die Variable x1 unberührt. In den Zeilen ab
der zweiten suchen wir eine mit einer Variablen niedrigstem Index (jetzt x2 ) und verfahren analog.
Schritt 2.1: Vertauschen ist diesmal nicht nötig: die zweite Zeile hat schon bei x2 einen nichtverschwindenden Koeffizienten.
Schritt 2.2: Normieren. Wir erweitern die zweite Zeile mit 1/4.
1
0
0
0
1 −1 −1/3
1
1
3/4
2
2
3
−5 −5 −2/3
2/3
−1/2
−4
−11/3
2/3
4
14
−23/3
Schritt 2.3: Eliminieren. Wir addieren das (−2)- bzw. 5-fache der zweiten Zeile zur dritten bzw. vierten
1 1
0 1
0 0
0 0
−1
−1/3
2/3 2/3
4
1
3/4
−1/2
6
0
3/2
−3
0 −37/12 −37/6 37/3
Im dritten Schritt wenden wir uns der dritten Zeile und der Variablen x4 zu (das ist jetzt die Variable
mit niedrigstem Index).
Schritt 3.1: Vertauschen ist wieder nicht notwendig.
Schritt 3.2: Normieren. Wir erweitern die dritte Zeile mit 2/3.
1 1
0 1
0 0
0 0
−1 −1/3
2/3
1
3/4
−1/2
0
1
−2
0 37/12 −37/6
2/3
4
4
37/3
Schritt 3.3: Eliminieren. Wir addieren das (−12/37)-fache der dritten Zeile zur vierten:
1 1
0 1
0 0
0 0
−1 −1/3
2/3
1
3/4 −1/2
0
1
−2
0
0
0
2/3
4
4
0
An dieser Stelle ist die Gauß-Elimination beendet und wir haben ein LGS Dx = c in Zeilenstufenform
vorliegen, wobei wir die letzte Gleichung unterschlagen können. (Hätte die letzte Zeile rechts einen von
235
KAPITEL 5. LINEARE ALGEBRA
Null verschiedenen Eintrag gehabt, so wäre das LGS nicht lösbar gewesen.)
x1
+x2
−x3
− 13 x4
+ 32 x5
=
2
3
x2
+x3
+ 34 x4
− 21 x5
=
4
x4
−2x5
=
4
Dieses LGS lösen wir folgendermaßen.
Freie Parameter identifizieren. Wir wählen die Unbekannten, die nicht zu Beginn einer Zeile auftreten
(in unserem Fall x3 und x5 ), als freie Parameter, d.h. wir setzen
x3 = λ1 ,
x5 = λ2 .
Dreiecksform erzeugen. Diese Unbekannten schaffen wir auf die rechte Seite und erhalten für die restlichen
Unbekannten (hier x1 , x2 , x4 ) ein LGS in oberer Dreiecksform
x1
+x2
− 13 x4
=
2
3
+ λ1 − 23 λ2
x2
+ 34 x4
=
4 − λ1 + 12 λ2
x4
=
4 + 2λ2
Aufrollen. Dieses LGS können wir durch Aufrollen“ von unten herauf lösen (vgl. Invertieren von Drei”
ecksmatrizen §2.3.12). Wir lösen dazu die letzte Gleichung nach x4 auf, setzen in die darüberstehenden
ein und verfahren so fort, bis wir alle restlichen Unbekannten erhalten haben.
x4 = 4 + 2λ2 ,
x2 = 1 − λ1 − λ2 ,
x1 = 1 + 2λ1 + λ2 .
Lösungsmenge angeben. Wir erhalten als Lösungsmenge den zweidimensionalen affinen Unterraum
1
2
1
−1
−1
1
LA,b = 0 + λ1 1 + λ2 0 | λ1 , λ2 ∈ R .
0
2
4
0
0
1
2.3 Mögliche Endergebnisse. Man mache sich klar, dass die Gauß-Elimination in der eben geschilderten Form ein (m × n)-LGS auf jeden Fall nach m − 1 Schritten in Zeilenstufenform bringt. Dabei
können die folgenden Ergebnisse auftreten.
(i) Es gibt eine Zeile, in der links lauter Nullen, aber rechts ein von Null verschiedener Eintrag steht.
Dann ist das LGS nicht lösbar.
(ii) Es gibt Zeilen, in der nur Nullen vorkommen. Selbige können weggelassen werden, ohne die Lösungsmenge zu verändern.
(iii) Von einer Zeile zur nächsten tritt eine Einrückung um mehr als eine Variable auf. Dann kann jede
der verloren gegangenen“ Unbekannten als freier Parameter gewählt werden.
”
Falls (i) nicht eintritt, so kann das LGS nach Bereinigung gemäß (ii) und Parametervergabe gemäß (iii)
wie eben in 2.2 geschildert aufgerollt werden.
Insbesondere sind dabei die folgenden Fälle erwähnenswert:
• Tritt (i) ein, so ist das LGS nicht lösbar.
• Liegt ein (n × n)-LGS vor und treten nach der Gauß-Elimination keine Einrückungen auf, so ist
das LGS eindeutig lösbar.
• Tritt (ii) nicht ein, so liefert jede Einrückung einen freien Parameter. Treten insgesamt Einrückungen
um r Stufen auf, so ist LA,b ein r-dimensionaler affiner Teilraum.
236
§3. LINEARE GLEICHUNGSSYSTEME
2.4∗ Gauß-Elimination im Matrizenkalkül. Die drei elementaren Zeilenoperationen Vertauschen,
Normieren und Eliminieren, mit denen wir ein gegebenes (m × n)-LGS Ax = b mit in ein LGS Dx = c in
Zeilenstufenform umformen können, lassen sich als Matrizenoperationen schreiben. Hierzu erklären wir
die folgenden drei (m × m)-Matrizen.
Das Vertauschen ( Zj ↔ Zk“) beschreiben wir durch die (m × m)-Matrix
”
Pj,k
:=
(e1 , . . . ,
ek , . . . ,
|{z}
j-te Spalte
, . . . , em )
k-te Spalte
1
0
=
ej
|{z}
1
..
,
.
1
0
1 ≤ j < k ≤ m.
1
Sie unterscheidet sich von der Einheitsmatrix Em lediglich dadurch, dass die j-te und die k-te Spalte
vertauscht sind. Linksmultiplikation mit Pj,k vertauscht die j-te mit der k-te Zeile:
a1,1
..
.
aj,1
Pj,k ...
ak,1
.
..
am,1
···
···
···
···
···
a1,n
a1,1
.. ..
.
.
aj,n
ak,1
.. = ..
.
.
ak,n
aj,1
.. ..
. .
am,n
a1,n
..
.
ak,n
.. ,
.
aj,n
..
.
am,n
···
···
···
am,1
b1
b1
.. ..
. .
bj bk
Pj,k ... = ... .
bk bj
. .
.. ..
bm
bm
Das Normieren ( Zk → cZk“) beschreiben wir durch die (m × m)-Matrix
”
Nk,c
:=
(e1 , . . . ,
cek
|{z}
, . . . , em )
k-te Spalte
=
1
..
,
.
c
..
.
k ∈ {1, . . . , m}, c 6= 0.
1
Sie unterscheidet sich von der Einheitsmatrix Em nur dadurch, dass der k-te Diagonaleintrag nicht 1
sondern c ist. Linksmultiplikation mit Nk,c erweitert die k-te Zeile mit dem Faktor c:
a1,1
..
.
Nk,c A = Nk,c
ak,1
.
..
am,1
···
···
···
a1,n
a1,1
.. ..
.
.
ak,n
=
cak,1
.. ..
. .
am,n
am,1
···
···
···
a1,n
..
.
cak,n
,
..
.
am,n
b1
b1
.. ..
. .
Nk,c
bk = cbk .
. .
.. ..
bm
bm
237
KAPITEL 5. LINEARE ALGEBRA
Das Eliminieren ( Zk → Zk + cZj“) beschreiben wir durch die (m × m)-Matrix
”
Ej,c,k
:=
(e1 , . . . , ej + cek , . . . ,
| {z }
j-te Spalte
=
ek
|{z}
, . . . , em )
k-te Spalte
..
.
,
1
..
.
c
1
..
1 ≤ j, k ≤ n.
.
Sie unterscheidet sich von der Einheitsmatrix Em nur dadurch, dass in der j-ten Spalte in der k-ten Zeile
ein c eingetragen ist. Linksmultiplikation mit Ej,c,k addiert das c-fache der j-ten Zeile zur k-ten:
a1,1
..
.
aj,1
Ej,c,k ...
ak,1
.
..
···
am,1
···
···
···
a1,n
a1,1
..
..
.
.
aj,n
a
j,1
.. =
..
.
.
ak,1 + caj,1
ak,n
..
..
.
.
···
am,n
···
am,1
···
···
a1,n
..
.
aj,n
..
,
.
ak,n + caj,n
..
.
am,n
b1
b1
..
..
.
.
bj bj
..
Ej,c,k ... =
.
.
bk bk + cbj
.
..
..
.
bm
bm
Alle diese Matrizen sind invertierbar und es gilt
−1
Pj,k
= Pj,k ,
−1
Nk,c
= Nk,1/c
−1
Ej,c,k
= Ej,−c,k ,
wie man sich leicht selbst überlegen kann. Ist also S eine dieser drei Matrizen, so gilt
⇔
Ax = b
SAx = SB.
Man gelangt nämlich von einer Gleichung zur anderen, indem man von links mit S bzw. S −1 multipliziert.
Dies zeigt
LA,b = LSA,Sb ,
Die beiden Gleichungen Ax = b und SAx = Sb haben also dieselbe Lösungsmenge. Die drei elementaren
Zeilenumformungen der Gauß-Elimination ändern zwar das LGS, aber alle dabei entstehenden LGS haben
dieselbe Lösungsmenge.
So gesehen besagt die Gauß-Elimination: Jede (m×n)-Matrix A kann durch Linksmultiplikation mit einer
invertierbaren Matrix S in eine (m × n)-Matrix D in Zeilenstufenform umgeformt werden: SA = D.
Beweis. Man wähle für S einfach ein Produkt aus den oben beschriebenen Matrizen, welches der GaußElimination entspricht.
Beispiel. Für die Matrix
0
−3
A=
0
4
4
−3
2
−1
4
3
2
−9
3
1
3
−2
−2
−2
,
−4
−1
aus 2.2 liefern die dort beschriebenen elementaren Zeilenumformungen der Gauß-Elimination nacheinan-
238
§3. LINEARE GLEICHUNGSSYSTEME
der die Matrizen
1 −2C
4
4
3 −2C B−3 −3 3
0 1 0 0CB 0
C
B
C
CB
B
C
B
C
B 0
C
CB−3
4
4
3
−2C
−3
3
1
−2
1 0 0 0C
C
B
C
CB
C,
C=B
CB
C
B
C
B
C
B 0
C
CB 0
2
2
3
−4
2
2
3
−4
0 0 1 0C
C
B
C
CB
A
@
A
A@
4 −1 −9 −2 −1
0 0 0 1 4 −1 −9 −2 −1
1
0
1
10
0
1 −2C B1 1 −1 −1/3 2/3C
0 0 0CB−3 −3 3
B−1/3
C
B
C
CB
B
B
C
CB
B
C
B0
B
B
4
4
3
−2 C
4
4
3 −2C
0
1 0 0C
C
B
C
CB 0
B
C,
C=B
CB
B
C
B
C
CB
B
C
B0
C
CB 0
B
2
2
3
−4
2
2
3
−4
0
0
1
0
C
B
C
CB
B
A
@
A
A@
@
4 −1 −9
−2
−1
0
0 0 1 4 −1 −9 −2 −1
1
0
1
10
0
2/3 C
0 0 0CB1 1 −1 −1/3 2/3C B1 1 −1 −1/3
B 1
C
B
C
CB
B
B
B
B
C
B0
C
CB0
B 0
4
4
3
−2 C
4
4
3
−2 C
1 0 0C
C
B
C
CB
B
C,
C=B
CB
B
C
B
C
CB
B
C
B0
C
CB0
B 0
2
2
3
−4
2
2
3
−4
0
1
0
C
B
C
CB
B
A
@
A
A@
@
0 −5 −5 −2/3 −11/3
−2
−1
−4 0 0 1 4 −1 −9
1
0
1
10
0
2/3 C
2/3 C B1 1 −1 −1/3
0
0 0CB1 1 −1 −1/3
B1
C
B
C
CB
B
B
B
B
C
B0
C
CB0
B0
1
1
3/4
−1/2 C
4
4
3
−2 C
1/4 0 0C
C
B
C
CB
B
C,
C=B
CB
B
B
B
B
C
B0
C
CB0
B0
2
2
3
−4 C
2
2
3
−4 C
0
1 0C
C
B
C
CB
B
A
@
A
A@
@
0 −5 −5 −2/3 −11/3
0
0
0 1 0 −5 −5 −2/3 −11/3
10
1
0
1
0
0 0 0CB1 1 −1 −1/3
2/3 C B1 1 −1 −1/3
2/3 C
B1
B
CB
C
B
C
B
CB
C
B
C
B0
CB0
C
B0
C
1
0
0
1
1
3/4
−1/2
1
1
3/4
−1/2
CB
C
B
C
B
B
CB
C=B
C,
B
CB
C
B
C
B0
CB0
C
B0
C
−2
1
0
2
2
3
−4
0
0
3/2
−3
B
CB
C
B
C
@
A@
A
@
A
0 0 0 1 0 −5 −5 −2/3 −11/3
0 −5 −5 −2/3 −11/3
10
1
0
1
0
0 0 0CB1 1 −1 −1/3
2/3 C B1 1 −1 −1/3
2/3 C
B1
B
CB
C
B
C
B
CB
C
B
B0
B
B0
C
1 0 0C
1
1
3/4
−1/2 C
1 1
3/4
−1/2 C
CB0
C
B
C
B
B
CB
C=B
C,
B
CB
C
B
C
B0
CB0
C
B0
C
0
1
0
0
0
3/2
−3
0
0
3/2
−3
B
CB
C
B
C
@
A@
A
@
A
0 5 0 1 0 −5 −5 −2/3 −11/3
0 0 0 37/12 −37/6
10
1
0
1
0
0
0
0CB1 1 −1 −1/3
2/3 C B1 1 −1 −1/3
2/3 C
B1
B
CB
C
B
C
B
B
B
B0
CB0
C
B0
C
1
0
0C
1 1
3/4
−1/2 C
1 1
3/4
−1/2 C
CB
C
B
C
B
B
CB
C=B
C,
B
CB
C
B
C
B0
CB0
C
B0
C
0
2/3
0
0
0
3/2
−3
0
0
1
−2
B
CB
C
B
C
@
A@
A
@
A
0 0
0
1 0 0 0 37/12 −37/6
0 0 0 37/12 −37/6
10
1
0
1
0
0
0
0CB1 1 −1 −1/3
2/3 C B1 1 −1 −1/3 2/3 C
B1
B
CB
C
B
C
B
B
B
B0
CB0
C
B0
C
1
0
0C
1 1
3/4
−1/2 C
1 1
3/4 −1/2C
CB
C
B
C
B
B
CB
C=B
C.
B
B
B
B0
CB0
C
B0
C
0
1
0C
0 0
1
−2 C
0 0
1
−2 C
B
CB
C
B
C
@
A@
A
@
A
0 0 −37/12 1 0 0 0 37/12 −37/6
0 0 0
0
0
A1 = P1,2 A =
A2 = N1,−1/3 A1 =
A3 = E1,−4,4 A2 =
A4 = N2,1/4 A3 =
A5 = E2,−2,3 A4 =
A6 = E2,−5,4 A5 =
A7 = N3,2/3 A6 =
A8 = E3,−37/12,4 A7 =
1
10
0
1
0
B
B
B
B
B
B
B
B
B
@
Tatsächlich gilt für
S = E3,−37/12,4 N3,2/3 E2,5,4 E2,−2,3 N2,1/4 E1,−4,4 N1,−1/3 P1,2
0
1/4
=
−1/3
41/18
−1/3
0
0
0
0
2/3
4/3 −37/18
0
0
0
1
dann
0
1/4
SA =
−1/3
41/18
−1/3
0
0
4/3
0
0
2/3
−37/18
0
0
0
−3
0 0
1
4
4
−3
2
−1
4
3
2
−9
3
1
3
−2
−2
1 1
−2
= 0 1
−4 0 0
−1
0 0
−1
1
0
0
−1/3
3/4
1
0
2/3
−1/2
.
−2
0
2.5 Simultane Gauß-Elimination. Ist das LGS Ax = bµ für mehrere rechte Seiten b1 , . . . , bp ∈ Km zu
lösen, so können wir dies durch eine simultane Gauß-Elimination bewerkstelligen. Dabei ist es zweckmäßig,
aus b1 , . . . , bp eine Matrix B := (b1 , . . . , bp ) ∈ Km×p zu bilden und die Gauß-Eliminatin auf das Schema
A|B
anzuwenden. Das kann man auch als Lösen der Matrizengleichung AX = B interpretieren, die k-te Spalte
der (n × p)-Matrix X enthält gerade die Lösung von Ax = bk . Ist eine dieser Gleichungen nicht lösbar,
so ist AX = Bunlösbar. Hat eine dieser Gleichungen mehrere Lösungen, so auch AX = B.
239
KAPITEL 5. LINEARE ALGEBRA
2.6 Berechnung der inversen Matrix. Das Invertieren einer (n × n)-Matrix A interpretieren wir
als simultanes Lösen von Ax1 = e1 , . . . , Axn = en . Nachdem wir die Lösungsvektoren x1 , . . . , xn durch
simultane Gauß-Elimination bestimmet haben, erhalten wir A−1 , indem wir die Lösungen als Spalten
eintragen. Falls bei der Gauß-Elimination eine Einrückung (und damit eine Nullzeile) auftritt, ist A nicht
invertierbar.
Beispiel.
0
A = 1
2
1
3
−1
−1
2 .
12
Ausgangsschema
P1,2 (Z1 ↔ Z2)
E1,−2,3 (Z3 → Z3 − 2Z1)
E2,7,3 (Z3 → Z3 + 7Z2)
E3,1,2 , E3,−2,1 (Z2 → Z2 + Z3, Z1 → Z1 − 2Z3)
E2,−3,1 (Z1 → Z1 − 3Z2)
0
1
2
1 −1 1
3
2 0
−1 12 0
0
1
0
0
0
1
1
0
2
3
2 0
1 −1 1
−1 12 0
1
0
0
0
0
1
1
0
0
3
2 0
1 −1 1
−7
8 0
1 0
0 0
−2 1
1 3
0 1
0 0
2 0
−1 1
1 7
1 0
0 0
−2 1
1 3 0
0 1 0
0 0 1
−14
8
7
5 −2
−2
1
−2
1
1 0 0
0 1 0
0 0 1
−38
8
7
11 −5
−2
1
−2
1
Nach Erzeugen der Zeilenstufenform haben wir das Aufrollen derart gestaltet, dass wir auch oberhalb
der Diagonalen Nullen erzeugt haben. Wir erhalten
−38 11 −5
−2 1
A−1 = 8
7
−2 1
Anmerkung. Um ein quadratisches LGS Ax = b mit einer invertierbaren Matrix A zu lösen, ist die
Berechnung der inversen Matrix A−1 zur Bestimmung der Lösung x = A−1 b i.A. zu aufwendig — eine
Gauß-Elimination geht schneller. Das kann sich ändern, falls das LGS für mehrere rechte Seiten gelöst
werden muss.
2.7 Gauß-Elimination und Rang-Bestimmung. Wir machen uns klar, dass keine der elementaren
Zeilenumformungen die Anzahl der linear unabhängigen Spalten, bzw. Zeilen von A ändert. Wir können
also die Gauß-Elimination auch zur Rangbestimmung heranziehen.
Beispiel. Wir bestimmen den Rang einer Matrix durch Gauß-Elimination
0 2 1 0
1 −2 3 1
1 −2 3 1
1
rg 1 −2 3 1 = rg 0 2 1 0 = rg 0 2 1 0 = rg 0
2 −2 7 2
2 −2 7 2
0 2 1 0
0
−2
2
0
3 1
1 0 = 2.
0 0
Das LGS Ax = b wird also nicht für jede rechte Seite b lösbar sein. Wenn es lösbar ist, so wird die
Lösungsmenge 4 − rg(A) = 2 freie Parameter haben.
240
§4. DETERMINANTEN
2.8 Eigenschaften des Rangs. In 1.5 hatten wir den Rang von A als die Dimension von Bild(A), d.h.
der Anzahl der linear unabhängigen Spalten von A eingeführt. Die Gauß-Elimination besagt nun, dass
der Rang auch die Anzahl der linear unabhängigen Zeilen von A liefert.
Der Rang einer Matrix A ∈ Km×n gibt gleichzeitig an
• die Maximalzahl der linear unabhängigen Spalten von A,
• die Maximalzahl der linear unabhängigen Zeilen von A,
• die Dimension des von den Spalten von A aufgespannten Teilraums von Km ,
• die Dimension des von den Zeilen von A aufgespannten Teilraums von Kn .
Es gilt
rg(A) = rg(AT ) ≤ min{m, n}.
2.9 Zusammenfassung. Durch gezielte Anwendung von elementaren Zeilenumformungen können wir
lineare Gleichungssysteme lösen. Das LGS ändert sich im Laufe der Umformungen, die Lösungsmenge
bleibt erhalten. Analog können wir durch gezielte Anwendung von Zeilen- und Spaltenumformungen den
Rang einer Matrix bestimmen. Alle im Laufe der Umformungen auftretenden Matrizen haben denselben
Rang. In 2.8 werden wir sehen, dass wir die elementaren Zeilen- und Spaltenumformungen auch zur
Berechnung von Determinaten einsetzen können.
§4
1
Determinanten
Beispiele und Definition
1.1 Wiederholung. Wir hatten in 3.§2.3 und 3.§4.2 Determinanten für (2 × 2)- und (3 × 3)-Matrizen
eingeführt durch
a
a1,2
det 1,1
= a1,1 a2,2 − a1,2 a2,1 ,
a2,1 a2,2
a1,1 a1,2 a1,3
det a2,1 a2,2 a2,3 = ha1 × a2 |a3 i = ha2 × a3 |a1 i = ha3 × a1 |a2 i =
a3,1 a3,2 a3,3
=
a1,1 a2,2 a3,3 + a1,2 a2,3 a3,1 + a1,3 a2,1 a3,2
−a1,3 a2,2 a3,1 − a1,2 a2,1 a3,3 − a1,1 a2,3 a3,2 .
Beide Definitionen haben folgende Gemeinsamkeiten:
• zwei Vektoren im R2 bzw. drei Vektoren im R3 — anders aufgefasst: einer (2×2)- bzw. (3×3)-Matrix
— wird eine reelle Zahl zugeordnet.
• det(E2 ) = 1, det(E3 ) = 1,
• wenn man zwei Spalten vertauscht, so ändert die Determinante ihr Vorzeichen,
• die Determinante ist linear in jeder Spalte
und u.a. folgende Nutzanwendungen:
• Basistest: die Determinante verschwindet genau dann nicht, wenn die Spaltenvektoren eine Basis
bilden,
• Volumen: der Betrag der Determinante gibt die Fläche bzw. das Volumen des von den Spaltenvektoren aufgespannten Parallelogramms bzw. Spats an,
• Orientierung: die Determinante ist genau dann positiv, wenn die Spaltenvektoren eine Basis bilden,
die dieselben Orientierung wie die Standardbasis hat.
241
KAPITEL 5. LINEARE ALGEBRA
Wenn wir nun allgemein die Determinante von n Vektoren im Kn bzw. einer aus diesen Vektoren gebildeten (n × n)-Matrix erklären wollen, so sollten wir dies nicht durch Angabe einer (höchstwahrscheinlich
recht komplizierten) Formel tun, sondern unter Verwendung der grundlegenden Eigenschaften.
1.2 Determinantenformen. Eine Abbildung f : Kn × · · · × Kn → K, die für n ≥ 2 jeweils n Vektoren
im Kn eine Zahl aus dem Grundkörper K zuordnet, heißt eine Determinantenform auf dem Kn , wenn sie
eine normierte alternierende Multilinearform ist. Das bedeutet:
(DF1) Normiertheit: f (e1 , . . . , en ) = 1 für die kanonische Basis e1 , . . . , en des Kn .
(DF2) Alternieren: f (. . . , aj , . . . , ak . . .) = −f (. . . , ak , . . . , aj . . .), beim Vertauschen zweier Spalten ändert
sich das Vorzeichen.
(DF3) Multilinearität: f (. . . , λ1 a1 + λ2 a2 , . . .) = λ1 f (. . . , a1 , . . .) + λ2 f (. . . , a2 , . . .), in jedem der n Argumente ist f linear bei festgehaltenen restlichen Spalten.
Zunächst ist weder klar, ob für ein n ≥ 2 überhaupt eine Determinantenform existiert, noch ob selbige
im Existenzfall eindeutig bestimmt ist. Bevor wir diese Fragen klären, geben wir Rechenregeln an, die
unmittelbar aus den definierenden Eigenschaften folgen.
1.3 Alternierende Multilinearformen und lineare Unabhängigkeit. Ist f eine alternierende Multilinearform auf dem Kn , so gilt f (a1 , . . . , an ) = 0 falls a1 , . . . , an ∈ Kn linear abhängig sind. Insbesondere
gilt f (a1 , . . . , an ) = 0, falls zwei der Einträge gleich sind, d.h. aj = ak für j 6= k.
Beweis. Wir beweisen zuerst die zweite Aussage. Ist f alternierend, so ergibt sich bei zwei gleichen
Einträgen durch Vertauschen
f (. . . , a, . . . , a, . . .) = −f (. . . , a, . . . , a, . . .),
d.h. f (. . . , a, . . . , a, . . .) = 0.
Sind nun a1 , . . . , an linear abhängig,
so lässt sich einer dieser Vektoren, etwa a1 , als Linearkombination
Pn
der anderen darstellen: a1 = k=2 λk ak . Mit der Linearität von f und dem zuvor Bewiesenen folgt nun
f (a1 , a2 , . . . , an ) =
n
X
k=2
λk
f (ak , a2 , . . . , an )
{z
}
|
= 0.
=0 da zwei gleiche Einträge
1.4 Existenz und Eindeutigkeit der Determinantenform. Für jedes n ≥ 2 existiert eine Determinantenform auf dem Kn . Selbige ist eindeutig bestimmt und wird mit det bezeichnet.
Für eine quadratische Matrix A ∈ Kn×n mit Spalten a1 , . . . , an erklären wir die Determinante durch
det(A) := det(a1 , . . . , an )
und schreiben dafür auch
|A|,
|(aj,k )|,
a1,1
..
.
an,1
···
aj,k
···
a1,n .. .
. an,n Beweis∗ . Wir beweisen zunächst die Eindeutigkeit und zeigen hierzu: Stimmen zwei alternierende Multilinearformen f und g auf der kanonischen Basis des Kn überein, so sind sie gleich. Wenn dies bewiesen
ist, so liefert die Normiertheit (DF1) die Eindeutigkeit.
Sind f und g zwei alternierende Multilinearformen mit f (e1 , . . . , en ) = g(e1 , . . . , en ), so gilt für h := f − g
dann h(e1 , . . . , en ) = 0. Durch sukzessives Vertauschen von zwei Einträgen erhalten wir h(ek1 , . . . , ekn ) = 0
für jede beliebige Verteilung der n Basisvektoren auf die n Einträge von h. Die Linearität von h in jeder
Komponente liefert dann h(a1 , . . . , an ) = 0 für jeden Satz von Vektoren a1 , . . . , an ∈ Kn . Also verschwindet h identisch und es folgt f = g.
Die Existenz einer Determinantenform beweisen wir konstruktiv durch vollständige Induktion, d.h. wir
geben eine Determinantenform D2 auf dem K2 an und zeigen, wie wir aus einer Determinantenform Dn−1
auf dem Kn−1 eine Determinantenform Dn auf dem Kn erhalten.
242
§4. DETERMINANTEN
Induktionsverankerung: Für n = 2 verwenden wir natürlich die schon bekannte Determinantenform
D2 (A) := a1,1 a2,2 − a1,2 a2,1 .
Induktionsschritt: Wir nehmen an, dass wir für ein n ≥ 3 schon eine Determinantenform Dn−1 auf dem
Kn−1 konstruiert haben. Für A ∈ Kn×n und j, k ∈ {1, . . . , n} bezeichnen wir die ((n−1)×(n−1))-Matrix,
die aus A durch Streichen der j-ten Zeile und der k-ten Spalte entsteht, mit Aj,k und setzen
Dn (A) :=
n
X
(−1)j+k aj,k Dn−1 (Aj,k )
j=1
für ein k ∈ {1, . . . , n}. Wir müssen zeigen, dass Dn eine Determinantenform auf dem Kn ist.
Normiertheit: Für A = En gilt aj,j = 1 und Aj,j = En−1 bzw. aj,k = 0 für j 6= k. Da Dn−1 eine
Determinantenform ist, folgt zunächst aj,j Dn−1 (Aj,j ) = 1 und aj,k Dn−1 (Aj,k ) = 0 für j 6= k, anschließend
dann Dn (En ) = 1.
Alternieren: Man macht sich zunächst klar, dass es genügt zu zeigen, dass Dn (A) = 0 verschwindet, falls
in A zwei benachbarte Spalten gleich sind. Gilt nun ak0 = ak0 +1 , so hat Aj,k für k 6= k0 , k0 + 1 zwei
gleiche Spalten und es folgt Dn−1 (Aj,k ) = 0 nach Induktionsvoraussetzung. Damit gilt
Dn (A) = (−1)j+k0 aj,k0 Dn−1 (Aj,k0 ) + (−1)j+k0 +1 aj,k0 +1 Dn−1 (Aj,k0 +1 ).
Wegen ak0 = ak0 +1 gilt aber aj,k0 = aj,k0 +1 und Aj,k0 = Aj,k0 +1 . Damit haben wir Dn (A) = 0.
Multilinearität: Wir zeigen, dass jeder Summand aj,k Dn−1 (Aj,k ) multilinear ist. Da Aj,k bezüglich aj
konstant ist, ist aj 7→ aj,k Dn−1 (Aj,k ) linear. Für i 6= j hängt aj,k nicht von ai ab, und ai 7→ aj,k Aj,k ist
nach Induktionsvoraussetzung linear in ai . Damit ist der Induktionsschritt abgeschlossen und der Beweis
beendet.
2
Eigenschaften der Determinante
2.1 Laplacescher Entwicklungssatz. Die Determinante einer n × n-Matrix A = (aj,k ) lässt sich auf
2n Arten durch ((n − 1) × (n − 1))-Determinanten berechnen:
|A| =
=
n
X
(−1)j+k aj,k |Aj,k |
j=1
n
X
(−1)j+k aj,k |Aj,k |
für k = 1, . . . , n (Entwicklung nach der k-ten Spalte),
für j = 1, . . . , n (Entwicklung nach der j-ten Zeile).
k=1
Dabei bezeichnet Aj,k diejenige ((n − 1) × (n − 1))-Matrix, die aus A durch Streichen der j-ten Zeile und
der k-ten Spalte entsteht.
Symbolisch merkt man sich das in der (hier für die Entwicklung nach der dritten Spalte angegebenen)
Form
+
−
+
..
.
±
+ · · · ±
×
− · · · ∓
+ · · · ∓ = • ×
..
..
.. .
.
. ×
∓ ± ··· +
−
+
−
..
.
•
×
×
..
.
×
×
· · · ×
· · · × − • ×
..
.. .
. ×
··· ×
×
· · · ×
×
•
×
· · · × + • ..
..
.. .
.
. ×
×
··· ×
×
×
· · · ×
×
· · · ×
•
− · · · ± • ×
..
..
.. .
.
. ×
··· ×
×
×
×
×
×
..
.
· · · ×
· · · ×
· · · × .
.. . •
243
KAPITEL 5. LINEARE ALGEBRA
Beweis. Die Entwicklung nach einer Zeile ist gerade die im Induktionsbeweis in 1.4 für die Existenz der
Determinante verwendete Formel. Die Eindeutigkeit der Determinantenform liefert daher die Gültigkeit
der Formel für die Entwicklung nach einer Zeile. Die Entwicklung nach einer Spalte erhalten wir dann
sofort durch Übergang zur transponierten Matrix, sobald wir den folgenden Satz bewiesen haben.
Beispiel. Man wendet den Entwicklungssatz zweckmäßig auf eine Zeile oder Spalte an, die möglichst
viele Nullen enthält.
2 1 2 1
1 1 3
2 2 1
1 0 1 3
1+2
· 1 · 4 2 0 + (−1)4+2 · 2 · 1 1 3
4 0 2 0 = (−1)
5 0 2
4 2 0
5 2 0 2
4 0
− (−1)2+2 · 2 · 1 3
= −(−1)1+2 · 1 · 5 2
5 2
1 1
+ 2(−1)2+3 · 3 · 2 2
+2(−1)1+3 · 1 · 4 2
4 2
=
(4 · 2 − 5 · 0) − 2(1 · 2 − 3 · 5) + 2(1 · 2 − 1 · 4) − 6(2 · 4 − 2 · 2) = 54.
2.2 Determinante der Transponierten. Für jede quadratische Matrix A gilt det(AT ) = det(A).
Beweisidee∗ . (Details siehe z.B. [FiKau, Band 1, §17.3].) Sind z1 , . . . , zn die Spalten von AT , d.h. die
Zeilen von A, so betrachtet man f (z1 , . . . , zn ) := |A| und zeigt, dass dies eine Determinantenform ist.
Aus der Eindeutigkeit der Determinante folgt dann f (z1 , . . . , zn ) = |AT |, d.h. |A| = |AT |.
2.3 Multiplikationssatz. Für A, B ∈ Kn×n gilt
|AB| = |A||B|.
Beweisidee∗ . Für A, B ∈ Kn×n bezeichnen wir die Spalten von B mit b1 , . . . , bn und betrachten
f (b1 , . . . , bn ) := det(Ab1 , . . . , Abn ) = |AB|,
g(b1 , . . . , bn ) := |A| det(b1 , . . . , bn ) = |A||B|.
Man mache sich klar, dass f und g beide alternierende Multilinearformen sind. Aus
f (e1 , . . . , en ) = det(a1 , . . . , an ) = |A|,
g(e1 , . . . , en ) = |A| det(e1 , . . . , en ) = |A|
erhalten wir nach Normieren mit der Eindeutigkeit der Determinantenform f = g, d.h. |AB| = |A||B|.
2.4 Determinante einer invertierbaren Matrix. Eine quadratische Matrix A ist genau dann invertierbar, wenn |A| =
6 0. Dann gilt
1
.
|A−1 | =
|A|
Das folgt aus dem Multiplikationssatz für AA−1 = E.
2.5 Determinante einer linearen Abbildung. Ähnliche Matrizen haben dieselbe Determinante:
|S −1 AS| = |A|.
Beweis. |S −1 AS| = |S −1 ||A||S| =
1
|S| |A||S|
= |A|.
Damit können wir einer linearen Abbildung L ∈ L(V ) eine Determinante zuordnen.
Ist V ein n-dimensionaler Vektorraum, so hängt für eine lineare Abbildung L : V → V die Zahl |MB (L)|
nicht von der Wahl der Basis B von V ab. Wir bezeichnen diese Zahl mit det(L) und nennen sie Determinante von L.
244
§4. DETERMINANTEN
2.6 Determinante einer Dreiecksmatrix. Für Dreiecksmatrizen erhalten wir sofort durch sukzessives
Anwenden des Entwicklungssatzes
a1,1
0
···
0 a1,1 a1,2 · · · a1,n .. 0
a2,2
a2,n a2,1 a2,2
. = a1,1 a2,2 · · · an,n = .
..
.
.
.
..
.. ..
.
..
.
0 0
···
0 an,n an,1 an,2 · · · an,n Eine Dreiecksmatrix ist genau dann invertierbar, wenn kein Diagonaleintrag verschwindet.
2.7∗ Vandermondesche Determinante. Für λ1 , . . . , λn ∈ K gilt
1 λ1 λ1 2 · · · λ1 n−1 1 λ2 λ2 2 · · · λ2 n−1 Y
(λk − λj ).
.
=
.
.
.
.
.
.
.
.
.
.
. 1≤j<k≤n
1 λ
λ 2 · · · λ n−1 n
n
n
Beweis. Wir beweisen die Formel durch Induktion nach n. Die Induktionsverankerung ist klar. Für den
Induktionsschritt n − 1 → n ziehen wir das λ1 -fache der vorletzten Spalte von der letzten, anschließend
das λ1 -fache der drittletzten von der vorletzten ab und so fort bis wir zum Schluss das λ1 -fache der ersten
Spalte von der zweiten abgezogen haben. Durch Entwicklen nach der ersten Zeile und mit Ausklammern
folgt dann mit der Induktionsvoraussetzung
1
1 λ1 λ1 2 · · · λ1 n−1 0
0
···
0
1 λ2 − λ1 λ2 2 − λ1 λ2 · · · λ2 n−1 − λ1 λ2 n−2 1 λ2 λ2 2 · · · λ2 n−1 .
..
..
..
..
..
.. = ..
..
.
.
.
.
.
. .
n−2 n−1
2
n−1 2
1 λ
− λ1 λn
1 λn − λ1 λn − λ1 λn · · · λn
λn · · · λn
n
λ2 − λ1 λ2 2 − λ1 λ2 · · · λ2 n−1 − λ1 λ2 n−2 ..
..
..
= .
.
.
λn − λ1 λn 2 − λ1 λn · · · λn n−1 − λ1 λn n−2 1 λ2 λ2 2 · · · λ2 n−2 ..
..
.. = (λ2 − λ1 ) · · · (λn − λ1 ) ...
.
.
. 1 λn λn 2 · · · λn n−2 n
Y
Y
Y
=
(λk − λj ) =
(λk − λj ).
(λk − λ1 )
k=2
2≤j<k≤n
1≤j<k≤n
Damit ist der Induktionsbeweis beendet.
2.8 Berechnung der Determinante durch Gauß-Elimination. Die Idee der Gauß-Elimination lässt
sich auch für die Berechnung von Determinanten einsetzen, indem man selbige in Stufenform bringt. Wir
notieren die Wirkung der elementaren Zeilenumformungen, die bei Determinanten auch zusammen mit
analog wirkenden Spaltenumformungen benutzt werden können.
(a) Die Determinante von A wechselt ihr Vorzeichen, wenn man zwei Spalten oder zwei Zeilen von A
vertauscht.
(b) Die Determinante von A ändert sich um den Faktor c, wenn man die Einträge einer Spalte oder einer
Zeile mit c multipliziert.
(c) Die Determinanten von A ändert sich nicht, wenn man ein beliebiges Vielfaches einer Spalte bzw.
Zeile zu einer anderen Spalte bzw. Zeile addiert.
Beweis. Für die Spalten folgt das aus der Linearität der Determinante, für die Spalten dann aus 2.2.
245
KAPITEL 5. LINEARE ALGEBRA
Beispiel.
2 1 2
1 0 1
4 0 2
5 2 0
1
3
0
2
1
0
S1↔S2
= − 0
2
1 2 2 1
1
3 Z4→Z4−2Z1 0 1 1 3
=
−
0
0 4 2 0
0 1 −4 0
2
1
1 2 2
1 Z4→Z4+5Z3 0
0 1 1
Z3→−1/2Z3
3
=
2 =
−(−2) 6 0
0 0 1
0 0 −5 −3
0
2
1
4
5
2
1
2
0
1 2
Z3→Z3−4Z1
0 1
Z4→Z4−Z2
=
− 0 0
0 0
2 2 1 1 1 3 = 54.
0 1 6 0 0 27
2
1
−2
−5
1 3 −12
−3 Für große Matrizen ist die Determinantenberechnung mittels Gauß-Elimination mit O(n3 ) Rechenoperationen i.A. viel effektiver als die Anwendung des Entwicklungssatzes mit O(n!) Rechenoperationen.
3
Anwendungen
3.1 Überblick. In diesem Abschnitt geben wir zwei Anwendungen der Determinante: wir gehen auf die
Grundlagen des n-dimensionalen Volumenbegriffs ein und erklären für Vektorraumbasen eine Orientierung.
3.2 Parallelotope. Unter einem n-dimensionalen Parallelotop verstehen wir eine Menge der Form
(
)
n
X
a0 + P (a1 , . . . , an ) := a0 +
λk ak | λ1 , . . . λn ∈ [0, 1] .
k=1
Ist der Aufhängpunkt“ a0 des Parallelotops der Nullvektor, so schreiben wir einfach P (a1 , . . . , an ).
”
Beispiele. Ein eindimensionales Parallelotop a0 + P (a1 ) ist eine Strecke mit den Endpunkten a0 und
a0 + a1 , ein zweidimensionales Parallelotop a0 + P (a1 , a2 ) ist ein von den Vektoren a1 , a2 aufgespanntes
Parallelogramm mit einer Ecke in a0 , ein dreidimensionales Parallelotop ist ein Spat.
P (e1 , . . . , en ) = {x ∈ Rn | 0 ≤ x1 , . . . , xn ≤ 1}
ist der n-dimensionale Einheitswürfel .
R1
R2
R3
a0 + a3
a0 + a2
r
a0
r
a0 + a1
a0 + a2
a0 + a1
a0
a0 + a1
a0
Abbildung 5.1: n-dimensionale Parallelotope für n = 1, 2, 3.
3.3 Grundeigenschaften des n-dimensionalen Volumens. Wir wollen hier noch keinen allgemeinen
Volumenbegriff für n-dimensionale Figuren einführen. Dass dies ein ambitioniertes Unterfangen ist, haben
wir schon für n = 2 in unserem Einstieg in die Integrationstheorie 4.§4.1.1 erkannt.
Die folgenden plausiblen Grundannahmen für einen allgemeinen Volumenbegriff können wir aber schon
jetzt an Parallelotopen studieren. Das Volumen eines Parallelotops a0 + P (a1 , . . . , an ) soll nur von den
aufspannenden Vektoren a1 , . . . , an abhängen. Wir bezeichnen es mit V (a1 , . . . , an ). Ferner fordern wir
246
§4. DETERMINANTEN
(Vol1) positive Homogenität in jede Richtung:
V (. . . , λak , . . .) = |λ|V (. . . , ak , . . .)
für k = 1, . . . , n und λ ∈ R.
(Vol2) Cavalierisches Prinzip:
V (. . . , aj + λak , . . . , ak , . . .) = V (. . . , aj , . . . , ak , . . .)
für j, k = 1, . . . , n, j 6= k und λ ∈ R.
(Vol3) Normierung Der Einheitswürfel hat das Volumen 1:
V (e1 , . . . , en ) = 1.
Gemäß (Vol1) wächst das Volumen um den Faktor |λ|, wenn ein Parallelotop in eine Richtung um den
Faktor λ gestreckt bzw. gestaucht wird. Das Cavalierische Prinzip besagt, dass zwei Körper volumengleich
sind, wenn sie in jeder zur Grundebene parallelen Ebene flächengleiche Figuren ausschneiden. Das wurde
schon von Archimedes, Kepler und Galileo verwendet. Man stelle sich einen Spat als einen Stapel dünner
Blätter vor, dessen Volumen sich beim Verrutschen nicht ändert.
Abbildung 5.2: Cavalierisches Prinzip.
3.4 Volumen und Determinante. Es gibt nur ein Volumen V : Rn × · · · × Rn → R, das die drei
Forderungen (1)–(3) erfüllt:
V (a1 , . . . , an ) = | det(a1 , . . . , an )|.
Beweisidee∗ . Man macht sich leicht klar, dass | det(a1 , . . . , an )| die drei geforderten Eigenschaften hat.
Zum Nachweis der Eindeutigkeit betrachtet man
(
V (a1 ,...,an )
det(a1 , . . . , an ) falls a1 , . . . , an linear unabhängig,
f (a1 , . . . , an ) := | det(a1 ,...,an )|
0
sonst
und zeigt, dass f eine Determinantenform ist (Details siehe z.B. [FiKau, Band 1, §17.4]).
3.5 Affine Abbildungen. Eine Abbildung
T : Rn → Rn ,
x 7→ Ax + b
mit vorgegebenen A ∈ Rn×n und b ∈ Rn nennen wir eine affine Abbildung des Rn .
In den Anwendungen ist man oft schlampig und sagt statt affin“ auch linear“, obwohl das nur den Fall
”
”
b = 0 trifft.
Beispiele. Eine Verschiebung x 7→ x+b um den Vektor b ist eine affine Abbildung. Ist A eine Drehmatrix
in der Ebene oder im Raum, so ist x 7→ Dx + b eine affine Abbildung, die im Fall b = 0 den Ursprung
fest lässt.
247
KAPITEL 5. LINEARE ALGEBRA
3.6 Volumenänderung bei affinen Abbildungen. Eine affine Abbildung T (x) = Ax + b bildet das
Parallelotop P := a0 + P (a1 , . . . , an ) auf das Parallelotop
T (P ) := Aa0 + b + P (Aa1 , . . . , Aan )
ab. Das Volumen ändert sich dabei gemäß
V (T (P )) = | det(A)|V (P ).
Eine affine Abbildung x 7→ Ax + b ändert das Volumen eines Parallelotops um den Faktor | det(A)|.
Beweis. Mit der Translationsinvarianz und dem Multiplikationssatz für Determinanten 2.3 folgt
V (T (P )) = | det(Aa1 , . . . , Aan )| = | det(A) det(a1 , . . . , an )| = | det(A)|V (P ).
3.7 Orientierung und Determinante. Zwei Basen B und C eines R-Vektorraums V heißen gleichorientiert, wenn die Transformationsmatrix S = MBC (idV ) positive Determinante hat. Ist det(S) < 0, so
heißen die beiden Basen entgegengesetzt orientiert. Für C-Vektorräume erklärt man keine Orientierung
Die Gesamtheit der Basen eines R-Vektorraums zerfällt so in zwei disjunkte Klassen. Im Rn ist diejenige
Klasse vor der anderen ausgezeichnet, welche die Standardbasis (e1 , . . . , en ) enthält. Wir nennen die
Standardbasis im Rn und alle gleichorientierten Basen positiv orientiert, die anderen negativ orientiert.
Achtung. Orientierung überträgt sich nicht vom Vektorraum auf Teilräume. Auf eine Ebene E im R3
beispielsweise haben wir keine natürlich ausgezeichnete Orientierung — wir können die Ebene von zwei
Seiten betrachten. Wir müssen also erst innerhalb von E eine Basis auszeichnen.
3.8 Orientierungstreue lineare Abbildungen. Eine bijektive lineare Abbildung L : V → V eines
R-Vektorraums V auf sich nennen wir orientierungstreu, wenn L jede Basis von V in eine gleichorientierte
Basis überführt.
Eine lineare Abbildung L ∈ L(V ) ist genau dann orientierungstreu, wenn det(L) > 0.
Beweis. Gemäß 3.10 und 2.5 ist L genau dann bijektiv, wenn det(L) 6= 0. Ist B = (v1 , . . . , vn ) dann
eine Basis von V , so ist die Transformationsmatrix von B auf die Basis C := (L(v1 ), . . . , L(v2 )) gerade
die Darstellungsmatrix von L bezüglich B, d.h. MBC (idV ) = MB (L). Durch Determinantenbildung folgt
hieraus die Behauptung.
Beispiel. Eine Drehung in der Ebene (vgl. 3.§2.6.1) mit der Drehmatrix
Uϕ =
cos ϕ
sin ϕ
− sin ϕ
cos ϕ
ist orientierungstreu, da det(Uϕ ) = cos2 ϕ+sin2 ϕ = 1. Eine Spiegelung in der Ebene wird nach geeigneter
Koordinatenwahl durch die Matrix
1 0
S=
0 −1
beschrieben und ist wegen det(S) = −1 nicht orientierungstreu.
248
§5
1
§5. EIGENWERTTHEORIE
Eigenwerttheorie
Das Eigenwertproblem bei Matrizen
1.1 Gekoppelte Pendel. Wir betrachten zwei Pendel der Masse m (konzentriert im Schwerpunkt), die
durch eine Feder der Federhärte k gekoppelt sind. Bei
kleinen Auslenkungen aus der Ruhelage ϕ1 = 0 = ϕ2
lauten die Newtonschen Bewegungsgleichungen
l
mlϕ̈1
= −mgϕ1 + k(ϕ2 − ϕ1 ),
mlϕ̈2
= −mgϕ2 + k(ϕ1 − ϕ2 ),
ϕ1
= −αx1 + β(x2 − x1 ),
ẍ2
= −αx2 + β(x1 − x2 ),
d.h.
m
m
Abbildung 5.3: Gekoppelte Pendel.
ẍ(t) = Ax(t)
ϕ2
k
oder kurz in den Variablen x1 := mlϕ1 , x2 := mlϕ2
und mit positiven Konstanten α := g/l, β := k/(ml)
ẍ1
l
mit A :=
−α − β
β
β
,
−α − β
x(t) :=
x1 (t)
.
x2 (t)
Beim Versuche, dieses System von Differentialgleichungen zu lösen, geraten wir in ein Dilemma: beide
DGL sind miteinander gekoppelt, keine kann für sich alleine gelöst werden.
Gehen wir zu den neuen Variablen y1 := x1 − x2 und y2 := x1 + x2 über, d.h. transformieren wir gemäß
1 1 1
1 −1
−1
−1
x = Sy,
y=S x
mit S =
, S =
,
1 1
2 −1 1
so erhalten wir das DGL-System
ÿ(t) =
d2 −1
−1
S x(t) = S −1 ẍ(t) = S −1 Ax(t) = S
| {zAS} y(t)
dt2
:=B
mit einer Systemmatrix
B = S −1 AS =
d.h. mit ω1 :=
√
α, ω2 :=
1
1
−1
1
−α − β
β
β
−α − β
1/2
−1/2
1/2
−α
=
1/2
0
0
,
−α − 2β
√
α + 2β,
ÿ1 (t)
−ω1 2
=
0
ÿ2 (t)
0
−ω2 2
y1 (t)
−ω1 2 y1 (t)
=
.
y2 (t)
−ω2 2 y2 (t)
Dieses entkoppelte“ System können wir komponentenweise lösen und erhalten
”
y1 (t) = a1 cos ω1 t + b1 sin ω1 t,
y2 (t) = a2 cos ω2 t + b2 sin ω2 t,
Rücktransformation mit x = Sy liefert uns dann auch eine Lösung für das ursprünglich gegebene DGLSystem.
Was ist da passiert? Wir haben eine geschickte Variablensubstitution vorgenommen, die zwar etwas vom
Himmel fällt (allerdings auch eine sinnvolle physikalische Interpretation besitzt), dafür aber das DGLSystem in eine einfache Form bringt. Ist so etwas immer möglich? Wie findet man solch eine Substitution?
Damit wollen wir uns jetzt systematisch beschäftigen.
249
KAPITEL 5. LINEARE ALGEBRA
1.2 Diagonalisierbare Matrizen. Eine (n × n)-Matrix A heißt diagonalisierbar oder diagonalähnlich,
wenn es eine invertierbare (n × n)-Matrix S gibt, so dass
λ1
..
S −1 AS =
=: diag(λ1 , . . . , λn ) = D
.
λn
eine Diagonalmatrix ist.
Wir erinnern uns an §2.4. Wir suchen für die zu A gehörige lineare Abbildung L eine Basis, bezüglich
der L durch eine Diagonalmatrix D dargestellt wird. Gehen wir vom Kn mit der Standardbasis aus, so
wird diese Basis gerade aus den Spalten v1 , . . . , vn des Basiswechsels S gebildet und es gilt dann
Avk = λk vk
für k = 1, . . . , n,
d.h.
AS = SD.
Die Abbildung L wirkt also in Richtung des k-ten Basisvektors vk wie eine Streckung um λk .
Damit sind wir bei dem folgenden Problem angelangt.
1.3 Das Eigenwertproblem. Gegeben ist eine Matrix A ∈ Kn×n . Gesucht sind alle λ ∈ K, so dass
Av = λv
n
nichttrivale Lösungen v ∈ K besitzt. Jede solche Zahl λ heißt Eigenwert, jede Lösung v 6= 0 Eigenvektor
zum Eigenwert λ.
Mit diesen Begriffen können die Frage nach Diagonalähnlichkeit umformulieren.
1.4 Diagonalisierbarkeit. Eine (n × n)-Matrix A ist genau dann diagonalisierbar, wenn es eines Basis
des Kn aus Eigenvektoren von A gibt. Die zugehörige Diagonalmatrix hat dann als Diagonaleinträge die
Eigenwerte von A.
Dieses Kriterium ist nutzlos, solange wir nicht wissen, ob und wie wir uns eine Basis aus Eigenvektoren
beschaffen können. Darum müssen wir uns jetzt genauer mit Eigenwerten und Eigenvektoren beschäftigen.
In 1.11 erhalten wir ein praktikables Kriterium für Diagonalisierbarkeit, in §5.4 diskutieren wir zwei
wichtige Klassen diagonalisierbarer Matrizen, die symmetrischen und die hermiteschen.
1.5 Charakteristisches Polynom. Wie finden wir nun heraus, für welche λ die Gleichung Av = λv
nichttriviale Lösungen besitzt? Wir schreiben die Gleichung hierzu in der Form
0 = λv − Av = λEn v − Av = (λEn − A)v.
Dieses homogene LGS muss also nichttriviale Lösungen besitzen, damit λ
tritt genau dann ein, wenn die Matrix λEn − A nicht invertierbar ist, d.h.
λ − a1,1
−a1,2
···
−a1,n
−a2,1
λ
−
a
−a2,n
2,2
det(λEn − A) =
..
..
.
..
.
.
−an,1
−an,2
···
ein Eigenwert von A ist. Das
genau dann, wenn
= 0.
λ − an,n
Durch Anwendung des Laplaceschen Entwicklungssatzes 2.2.1 machen wir uns klar, dass
χA : K → K,
χA (t) := det(tEn − A)
für t ∈ K,
ein normierts Polynom in der Variablen t vom Grad n ist. Dieses Polynom heißt charakteristisches Polynom der Matrix A. Den Koeffizienten bei tn−1 können wir bei der Laplace-Entwicklung noch gut ablesen,
der konstanten Koeffizienten entpuppt sich nach Einsetzen von t = 0 als eine vorzeichenbehaftete Determinante. Damit gilt
χA (t) = tn − (a1,1 + a2,2 + · · · + an,n )tn−1 ± · · · + (−1)n det(A).
Die Summe der Diagonaleinträge
Spur(A) := a1,1 + a2,2 + · · · + an,n
heißt Spur der Matrix A.
250
§5. EIGENWERTTHEORIE
Anmerkung. Manchmal wird das charakteristische Polynom auch durch det(A − tEn ) definiert. Wegen
det(A − tEn ) = (−1)n det(tEn − A) = (−1)n χA (t)
ist das aber kein großer Unterschied. Die Spur wird im angelsächsischen mit tr(A) ( trace“) bezeichnet.
”
Die Eigenwerte von A ∈ Kn×n sind gerade die Nullstellen des charakteristischen Polynoms χA . Die zum
Eigenwert λ gehörigen Eigenvektoren sind gerade die nichttrivialen Lösungen von (λEn − A)v = 0.
1.6 Eigenräume. Ist λ ein Eigenwert von A ∈ Kn×n , so nennen wir die aus dem Nullvektor und allen
zu λ gehörigen Eigenvektoren Menge den Eigenraum des Eigenwerts λ und schreiben dafür
NA,λ = Kern(λEn − A) = {v ∈ Kn | (λEn − A)v = 0}.
Falls klar ist, um welche Matrix es gerade geht, schreiben wir auch Nλ statt NA,λ .
Beispiel. Die (n×n)-Einheitsmatrix hat nur den Eigenwert 1, die (n×n)-Nullmatrix nur den Eigenwert 0.
Je nachdem, ob man diese Matrizen in Rn×n oder Cn×n betrachtet, sind die Eigenräume Rn bzw. Cn .
Die Projektion im R2 auf die erste Koordinate hat (bezüglich der Standardbasis) die Darstellungsmatrix
1 0
A=
.
0 0
Diese Matrix hat die Eigenwerte 0 und 1. Offensichtlich gilt
1
0 0
),
= Span(
N1 = Kern(E2 − A) = Kern
0 1
0
0
−1 0
N0 = Kern(−A) = Kern
).
= Span(
0 0
1
1.7 Geometrische und algebraische Vielfachheit. Die Dimension des Eigenraums NA,λ berechnet
sich nach der Dimensionsformel zu
nA,λ := dim NA,λ = def(λEn − A) = n − rg(λEn − A) ≥ 1.
Sie wird geometrische Vielfachheit genannt. Auch hier schreiben wir bisweilen einfach nλ statt nA,λ .
Die Vielfachheit k, mit der λ als Nullstelle im charakteristischen Polynom χA vorkommt, heißt algebraische
Vielfachheit. Wir sprechen dann auch von einem k-fachen Eigenwert. Es gilt dann χA (t) = (t − λ)k q(t)
mit einem Polynom q vom Grad n − k mit q(λ) 6= 0.
In §6.5.9 werden wir zeigen, dass zwischen diesen beiden Vielfachheiten folgende Beziehung besteht.
Die geometrische Vielfachheit eines Eigenwerts ist höchstens so groß wie seine algebraische. Mit Vielfachheiten gezählt hat eine (n × n)-Matrix also höchstens n Eigenwerte.
1.8 Nicht jede Matrix ist diagonalisierbar. Die (n × n)-Matrix
λ 1
λ 1
.. ..
J = Jn,λ :=
(leere Einträge sind 0)
.
.
λ 1
λ
wird Jordan-Block der Größe n zum Eigenwert λ genannt. Wir werden ihr später noch begegnen. Mit J
ist auch tEn − J eine obere Dreiecksmatrix. Da auf der Diagonalen nur die Einträge t − λ stehen, erhalten
wir χJ (t) = det(tEn − J) = (t − λ)n . Daher ist λ ein n-facher und damit der einzige Eigenwert von J.
Wegen
1
0 −1
.
.
..
..
0
NJ,λ = Kern
= Span( .. )
.
0 −1
0
0
hat λ nur einen eindimensionalen Eigenraum. Damit ist J für n ≥ 2 nicht diagonalisierbar.
251
KAPITEL 5. LINEARE ALGEBRA
1.9 Achtung: Grundkörper beachten. Nach dem Fundamentalsatz der Algebra 2.§3.1.14 hat ein
Polynom vom Grad n (mit Vielfachheiten gezählt) genau n komplexe Nullstellen. Damit hat eine Matrix
A ∈ Cn×n (auch wenn sie reelle Koeffizienten hat) immer genau n Eigenwerte, falls man jeden Eigenwert
so oft (d.h. algebraisch) zählt, wie er als Nullstelle in χA vorkommt. Eine Matrix aus Rn×n dagegen muss
gar keine Eigenwerte besitzen — schließlich gibt es reelle Polynome, die keine reellen Nullstellen haben.
Reelle Matrizen betrachtet man darum zunächst gerne über C. Anschließend muss man überlegen, was
sich ins Reelle hinüberretten“ lässt (vgl. das Beispiel in 1.12).
”
Beispiel. Die zu einer Drehung im R2 um den Ursprung um π/2 gehörige Drehmatrix
0 −1
Uπ/2 =
1 0
hat das charakteristische Polynom
t
χUπ/2 (t) = −1
1
= t2 + 1.
t
Wenn man also Uπ/2 als eine reelle (2 × 2)-Matrix auffasst, so hat diese Matrix keinen Eigenwert. Das ist
auch gut so, schließlich führt eine Vierteldrehung (außer dem Nullvektor, den wir als Eigenvektor explizit
ausgeschlossen haben) keinen Vektor des R2 in ein Vielfaches seiner selbst über.
Dagegen hat Uπ/2 als Matrix in C2×2 die zwei Eigenwerte ±i = e±iπ/2 . Eigenvektoren zu i und −i
erhalten wir durch Bestimmung der Eigenräume
i
i 1
Ni = Kern(iE2 − Uπ/2 ) = Kern
= Span(
),
−1 i
1
1
−i 1
= Span(
).
N−i = Kern(−iE2 − Uπ/2 ) = Kern
−1 −i
i
Offensichtlich sind alle Eigenvektoren komplex. Wir wählen zu jedem Eigenwert einen Eigenvektor und
bauen hieraus die Transformationsmatrix
i 1
S :=
.
1 i
Offensichtlich ist S invertierbar und es gilt
1 −i 1
0
−1
S AS =
1
2 1 −i
−1
0
i
1
1
i
=
i
0
0
.
−i
Damit haben wir A durch eine Matrix mit einer Basis aus Eigenvektoren über C diagonalisiert.
1.10 Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig. Sind λ1 , . . . , λr
paarweise verschiedene Eigenwerte einer Matrix A und sind v1 , . . . , vr zugehörige Eigenvektoren, so sind
diese linear unabhängig.
Das beweisen wir in 2.6 in allgemeinerer Form, notieren aber jetzt schon eine Folgerung.
Sind λ1 , . . . , λr paarweise verschiedene Eigenwerte einer Matrix A und sind B1 , . . . , Br Basen der zugehörigen Eigenräume Nλ1 , . . . , Nλr , so bilden diese zusammen eine linear unabhängige Menge.
Nun können wir unser erstes Kriterium für Diagonalisierbarkeit 1.4 umschreiben: Um für den Kn eine
Basis aus Eigenvektoren erhalten, muss die eben genannte linear unabhängige Menge aus n Vektoren
bestehen. Die Summe der geometrischen Vielfachheiten aller Eigenwerte (das ist gerade die Summe der
Dimensionen der zugehörigen Eigenräume) muss also die Raumdimension n ergeben. Da die geometrische
Vielfachheit eines Eigenwerts nicht größer als die algebraische sein kann, muss dazu auch die Summe
aller algebraischen Vielfachheiten n sein. Das bedeutet aber, dass das charakteristische Polynom mit
Vielfachheiten gezählt genau n Nullstellen haben muss. Das fassen wir jetzt zusammen.
252
§5. EIGENWERTTHEORIE
1.11 Kriterium für Diagonalisierbarkeit. Eine Matrix A ∈ Kn×n ist genau dann diagonalisierbar,
wenn das charakteristische Polynom χA mit Vielfachheiten gezählt genau n Nullstellen in K besitzt und
für jede Nullstelle die algebraische Vielfachheit mit der geometrischen übereinstimmt.
Insbesondere ist eine (n × n)-Matrix diagonalisierbar, wenn das charakteristisch Polynom n verschiedene
Nullstellen besitzt.
1.12 Spur- und Determinantenbedingung für Eigenwerte. Hat A ∈ Cn×n die verschiedenen
Eigenwerte λ1 , . . . , λr mit algebraischen Vielfachheiten k1 , . . . , kr ∈ N, so gilt
det(A) = λ1 k1 · · · λr kr .
Spur(A) = k1 λ1 + · · · + kr λr ,
Beispiel. Die (n × n)-Matrix
1+c
1
···
1
1
+
c
A := .
..
..
.
1
1
···
1
1
..
.
···
1 1
1 1
= ..
.
1
1+c
|
..
1
.
···
{z
=:B
1
1
.. +cEn = B + cEn
.
1
}
hat den Eigenwert c und dieser hat die geometrische Vielfachheit nc = n − 1. Es gilt nämlich
rg(c · En − A) = rg(−B) = 1.
Zu c existieren damit n − 1 linear unabhängige Eigenvektoren. Aus der Spurbedingung erhalten wir für
den verbleibenden Eigenwert λ die Gleichung
n(1 + c) = Spur(A) = (n − 1)c + λ,
d.h. λ = n+c 6= c. (Die Determinantenbedingung liefert dann det(A) = cn−1 (n+c). Nett, dass man so eine
Determinante berechnen kann.) Außerdem muss zum Eigenwert n + c ein mindestens eindimensionaler
Eigenraum gehören. Da für den Eigenwert c schon ein (n−1)-dimensionaler Eigenraum existiert, hat n+c
einen eindimensionalen Eigenraum. Damit hat A eine Basis aus Eigenvektoren und ist diagonalisierbar.
Ohne explizite Rechnung wissen wir nun, dass es eine invertierbare Matrix S ∈ Rn×n geben muss mit
S −1 AS = diag( c, . . . , c , n + c)
| {z }
n − 1 mal
Damit haben wir A durch einen Ausflug ins Komplexe auch über R diagonalisiert.
1.13 Eigenwerte und Eigenvektoren ähnlicher Matrizen. Ähnliche Matrizen haben dasselbe charakteristische Polynom und dieselben Eigenwerte mit denselben algebraischen und geometrischen Vielfachheiten.
Wie der folgende Beweis zeigen wird, stimmen die zu einem Eigenwert gehörigen Eigenvektoren und
Eigenräume i.A. nicht überein.
Beweis. Seien A, B ∈ Kn×n ähnlich, d.h. B = S −1 AS mit invertierbarem S ∈ Kn×n . Dann zeigt eine
kurze Rechnung mit Determinanten χB (t) = det(tEn − B) = det(tEn − A) = χA (t). Also haben A und B
dieselben charakteristischen Polynome und dann auch dieselben Eigenwerte mit denselben algebraischen
Vielfachheiten. Weiter gilt
Av = λv
⇔
S −1 ASS −1 v = λS −1 v
⇔
B(S −1 v) = λ(S −1 v).
Ist also v ein Eigenvektor von A zum Eigenwert λ, so ist S −1 v ein Eigenvektor von B zum selben
Eigenwert. Der zugehörige Eigenraum NA,λ wird durch S −1 in den Eigenraum NB,λ übergeführt:
v ∈ NA,λ
⇔
S −1 v ∈ NB,λ .
Die zum Eigenwert λ gehörigen Eigenräume sind damit nicht identisch, haben aber dieselbe Dimension.
253
KAPITEL 5. LINEARE ALGEBRA
2
Eigenwerttheorie bei linearen Operatoren
2.1 Worum geht es. Wir entwickeln Grundlagen der Eigenwerttheorie bei linearen Operatoren. Dabei
lassen wir auch unendlichdimensionale Vektorräume zu, um Anwendungen bei Differentialgleichungen, in
der Mechanik und Quantenmechanik zu diskutieren. Einiges wird uns von Matrizen bekannt vorkommen,
an manchen Stellen werden aber unendlichdimensionale Effekte“ hervorspitzeln.
”
2.2 Eigenwerte, Eigenvektoren und Eigenräume eines linearen Operators. Ist V ein K-Vektorraum und ist L ∈ L(V ) ein linearer Operator, so heißt λ ∈ K ein Eigenwert, wenn es einen Eigenvektor
v ∈ V , v 6= 0, gibt mit L(v) = λv. Den Teilraum
NL,λ := Kern(λ id −L) = {v ∈ V | L(v) = λv}
nennen wir den Eigenraum zum Eigenwert λ. Ist klar, welcher lineare Operator gemeint ist, so schreiben
wir einfach Nλ .
Beispiel. Wir betrachten den Differentialoperator
u 7→ −u00 .
Wir legen zunächst den R-Vektorraum C ∞ (R) zu Grunde. Ein λ ∈ R ist genau dann Eigenwert, wenn die
Differentialgleichung −u00 = λu eine Lösung besitzt. Damit ist jedes λ ∈ R ein Eigenwert, die zugehörigen
Eigenräume sind zweidimensional und es gilt
√
√
für λ > 0,
{a cos λt + b sin λt | a, b ∈ R}
Nλ = {a + bt | a, b ∈ R}
für λ = 0,
√
√
{a cosh −λt + b sinh −λt | a, b ∈ R} für λ < 0.
Betrachten wir diesen Differentialoperator dagegen auf dem R-Vektorraum
V := {u ∈ C ∞ ([0, 1]) | u(0) = 0 = u(1)},
was der Diskussion einer schwingenden Saite entspricht, die an den Punkten 0 und 1 eingespannt ist, so
treten nur die Eigenwerte λn := n2 π 2 , n ∈ N0 , auf und die zugehörigen Eigenräume sind eindimensional.
(Man überlege sich selbst, warum dem so ist und wie die Eigenvektoren aussehen.)
2.3 Anmerkung zum endlichdimensionalen Fall. Ist V ein endlichdimensionaler Vektorraum, so
können wir eine lineare Abbildung L ∈ L(V ) nach Wahl einer Basis von V durch eine Matrix darstellen.
Wir wissen aus §2.4, dass alle Darstellungsmatrizen für L zueinander ähnlich sind. Nach 1.13 haben all
diese Matrizen dieselben Eigenwerte. Wir können also irgendeine Darstellungsmatrix zur Bestimmung
der Eigenwerte von L heranziehen und dabei den Matrizenkalkül verwenden.
2.4 Polynome in linearen Operatoren. Ist L ∈ L(V ), so können wir L mehrmals hintereinander
ausführen. Für die n-malige Hintereinanderausführung schreiben wir Ln , d.h. wir erklären rekursiv
L0 := idV ,
Ln := L ◦ Ln−1
für n ∈ N.
Beispielsweise ist L2 = L ◦ L die zweimalige Verkettung von L mit sich selbst. Da wir lineare Operatoren
addieren und vervielfachen können, ist damit zu vorgegebenen Zahlen am . . . , a2 , a1 , a0 ∈ K der Operator
p(L) : V 7→ V,
p(L) := am Lm + · · · + a2 L2 + a1 L + a0 id
erklärt und selbst linear. Formal entsteht der lineare Operator p(L) durch das Einsetzen von L in das
Polynom p(t) = am tm + · · · + a2 t2 + a1 t + a0 .
Beispiele.
(a) In der Definition des Eigenraums NL,λ wird L in das Polynom pλ (t) := λ − t eingesetzt:
NL,λ = Kern(λ id −L) = Kern pλ (L).
Die Eigenwerte von L sind also die Zahlen λ, für welche der lineare Operator pλ (L) nicht injektiv ist.
254
§5. EIGENWERTTHEORIE
(b) Die Ableitung f 0 einer Funktion f ist das Bild von f unter dem Differentialoperator D :=
dn
n
(n)
Einsetzen von D in das Polynom tn liefert Dn = dx
.
n , d.h. die n-te Ableitung D f = f
d
dx .
(c) Ein linearer Differentialoperator L vom Grad r hat die Form
L(y) = y (r) + ar−1 y (r−1) + · · · + a2 y 00 + a1 y 0 + a0 y.
Er entsteht durch das Einsetzen des Differentialoperators D =
d
dx
in das Polynom
p(t) = tr + ar−1 tr−1 + · · · + a2 t2 + a1 t + a0 ,
welches auch charakteristisches Polynom des Differentialoperators genannt wird, d.h.
L = p(D).
Die Lösungsmenge der homogenen linearen Differentialgleichung r-ter Ordnung
y (r) + ar−1 y (r−1) + · · · + a2 y 00 + a1 y 0 + a0 y = 0
ist gerade Kern L = Kern p(D).
2.5 Zerlegungssatz. Ist p = p1 · · · pr ein Produkt aus r paarweise teilerfremden Polynomen und ist
L ∈ L(V ), so gilt
v ∈ Kern p(L)
⇔
es gibt eindeutig bestimmte v1 ∈ Kern p1 (L), . . . , vr ∈ Kern pr (L)
mit v = v1 + · · · + vr .
Wir erinnern uns (vgl. 2.§3.1): zwei Polynome p1 und p2 heißen teilerfremd, wenn aus p1 = qq1 und
p2 = qq2 mit Polynomen q, q1 , q2 folgt, dass q konstant ist. Eine Polynomdivision mit Rest zeigt, dass
dies gleichbedeutend ist mit der Existenz einer Darstellung 1 = h1 p1 + h2 p2 mit Polynomen h1 und h2 .
Beweis∗ . Wir beweisen nur den Fall m = 2, aus dem durch Induktion alles weitere folgt.
Zu ⇐“: Sind v1 , v2 ∈ V mit p1 (L)v1 = 0 und p2 (L)v2 = 0, so folgt für v = v1 + v2 dann
”
p(L)v = p(L)v1 + p(L)v2 = (p2 p1 )(L)v1 + (p1 p2 )(L)v2
= p2 (L)p1 (L)v1 + p1 (L)p2 (L)v2 = p2 (L)0 + p1 (L)0 = 0.
Zu ⇒“: Für v ∈ V mit p(L)v = 0 setzen wir v1 := (h2 p2 )(L)v und v2 := (h1 p1 )(L)v. Wegen
”
h1 p1 + h2 p2 = 1 gilt dann
v = (h1 p1 + h2 p2 )(L)v = (h2 p2 )(L)v + (h1 p1 )(L)v = v1 + v2 .
Ist ṽ1 + ṽ2 = v eine andere Zerlegung mit ṽ1 ∈ Kern p1 (L) und ṽ2 ∈ Kern p2 (L), so folgt aus v1 + v2 =
v = ṽ1 + ṽ2 dann Kern p1 (L) 3 v1 − ṽ1 = ṽ2 − v2 ∈ Kern p2 (L), da beide Mengen Unterräume sind. Ist
aber u ∈ Kern p1 (L) ∩ Kern p2 (L), so gilt
u = (h1 p1 + h2 p2 )(L)u = h1 (L)p1 (L)u + h2 (L)p2 (L)u = h1 (L)0 + h2 (L)0 = 0.
Dies zeigt ṽ1 = v1 und ṽ2 = v2 . Die Zerlegung von v ist also eindeutig.
2.6 Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig. Sind λ1 , . . . , λr paarweise verschiedene Eigenwerte eines linearen Operators L ∈ L(V ), und sind v1 , . . . , vr zugehörige Eigenvektoren, so sind diese linear unabhängig.
Beweis∗ . Für k = 1, . . . , r setzen wir pk (t) := λk − t. Dann ist vk ∈ Nλk = Kern pk (L) und p := p1 · · · pr
ist ein Produkt paarweise teilerfremder Polynome. Ist nun 0 = µ1 v1 + · · · + µr vr eine Linearkombination
für den Nullvektor, so sagt der Zerlegungssatz 2.5 angewendet auf p und v = 0, dass µ1 v1 = . . . = µr vr = 0
gelten muss. Wegen v1 , . . . , vr 6= 0 folgt nun µ1 = . . . = µr = 0. Also sind v1 , . . . , vr linear unabhängig.
Beispiel. Wir betrachten im Vektorraum C ∞ (R) den linearen Operator y 7→ y 0 . Dann ist t 7→ eλt ein
d λt
e = λeλt . Also sind die Funktionen t 7→ eλt für verschiedene λ
Eigenvektor zum Eigenwert λ. Es gilt ja dt
linear unabhängig.
255
KAPITEL 5. LINEARE ALGEBRA
2.7 Lösungen der homogenen linearen Differentialgleichung r-ter Ordnung. Um alle Lösungen
von
y (r) + ar−1 y (r−1) + · · · + a1 y 0 + a0 y = 0
d
auf dem C-Vektorraum C ∞ (R) und setzen
zu bestimmen, betrachten wir den Differentialoperator D := dx
r
r−1
selbigen in das charakteristische Polynom p(t) := t + ar−1 t
+ · · · + a1 t + a0 der DGL ein. Wir müssen
dann Kern p(D) bestimmen (siehe 2.4).
Sind λ1 , . . . , λm ∈ C die verschiedenen Nullstellen von p mit Vielfachheiten k1 , . . . , km ∈ N, d.h.
p(t) = (t − λ1 )k1 · · · (t − λm )km ,
so sagt der Zerlegungssatz, dass sich jede Lösung der DGL eindeutig als Linearkombination von Vektoren
aus Kern(D − λ1 id)k1 , . . . , Kern(D − λm id)km darstellen lässt.
Wir müssen also noch Kern(D − λ id)k für λ ∈ C und k ∈ N bestimmen, d.h. die DGL
(D − λ)k y = 0
lösen. Die Transformation y 7→ eλt y führt die Lösungen dieser DGL wegen
(D − λ)(eλt y) = λeλt y + eλt y 0 − λeλt y = eλt y 0 = eλt Dy
in die Lösungen der DGL
Dk y = y (k) = 0
über. Diese DGL hat offensichtlich genau die komplexen Polynome vom Grad höchstens k−1 als Lösungen.
Damit gilt
Kern(D − λ id)k = {(ck−1 tk−1 + · · · + c1 t + c0 )eλt | ck−1 , . . . , c1 , c0 ∈ C} = Span(eλt , teλt , . . . , tk−1 eλt ).
Wir fassen zusammen:
Die Lösungen von y (r) + ar−1 y (r−1) + · · · + a1 y 0 + a0 = 0 sind gerade die Linearkombinationen der
Funktionen tk eλt , wobei λ ∈ C die Nullstellen des charakteristischen Polynoms tr +ar−1 tr−1 +· · ·+a1 t+a0
durchläuft und k ∈ N0 kleiner ist als die Vielfachheit der Nullstelle λ.
Beispiel. y (4) − 2y 000 + 2y 00 − 2y 0 + y = 0.
Das charakteristische Polynom lautet t4 − 2t3 + 2t2 − 2t + 1 = (t − 1)2 (t − i)(t + i). Die allgemeine Lösung
hat also die Form
y(x) = c1 ex + c2 xex + c3 eix + c4 e−ix
mit c1 , . . . , c4 ∈ C.
Wenn man sich nur für reelle Lösungen interessiert, bildet man den Realteil und erhält
y(x) = C1 ex + C2 xex + C3 cos x + C4 sin x
§6
mit C1 , . . . , C4 ∈ R.
Vektorräume mit Skalarprodukt
In diesem und dem nächsten Paragraphen werden wir viele ganz unterschiedlich anmutende Fragestellungen mit einer einheitlichen Methode behandeln lernen. Hierzu gehören:
• Lösungsverfahren für lineare Differentialgleichungssysteme, insbesondere für schwingende Systeme,
• Finden des richtigen“ Koordinatensystems für ein mechanisches System (z.B. Kreisel, Festkörper),
”
• Umgang mit Polynomen zweiten Grades in mehreren Veränderlichen (wie sie später in der Analysis
zur Taylor-Approximation und bei der Extremwertberechnung verwendet werden),
• Kegelschnitte,
256
§6. VEKTORRÄUME MIT SKALARPRODUKT
• orthogonale Funktionenfolgen,
• Fourier-Analyse und Fourier-Synthese,
• mathematische Grundlagen der Quantenmechanik.
Damit wir all diese Fragestellungen auf eine gemeinsame Wurzel zurückführen und einheitlich bearbeiten
können, müssen wir zunächst eine passende Begrifflichkeit entwickeln. Dies tun wir in diesem Paragraphen
mit einem Fokus auf endlichdimensionale Vektorräumen. In §7 stehen dann Anwendungen in unendlichdimensionalen Vektorräumen im Vordergrund.
1
Bilinear- und Sesquilinearformen, quadratische Formen
1.1 Worum geht es? Wir beginnen mit der angekündigten Entwicklung der Begrifflichkeit. Das tun
wir parallel für R- und C-Vektorräume. Es wird nur kleine Unterschiede geben.
1.2 Symmetrische Bilinearformen. Eine symmetrische Bilinearform q auf einem R-Vektorraum V
ist eine Abbildung
q : V × V → R,
die jedem Paar von Vektoren aus V eine reelle Zahl zuordnet mit den beiden Eigenschaften
(BL1) (Linearität in der zweiten Komponente) q(v, λ1 w1 + λ2 w2 ) = λ1 q(v, w1 ) + λ2 q(v, w2 ),
(BL2) (Symmetrie) q(v, w) = q(w, v).
Dann ist q automatisch bilinar“, d.h. nicht nur in der ersten, sondern auch in der zweiten Komponente
”
linear: q(λ1 v1 + λ2 v2 , w) = λ1 q(v1 , w) + λ2 q(v2 , w).
Das kann man auch so sagen: die beiden Abbildungen v 7→ q(v, w) bzw. w 7→ q(v, w) sind bei festem w
bzw. v Linearformen V → R.
1.3 Hermitesche Sesquilinearformen. Für einen C-Vektorraum erklären wir analog: eine hermitesche
Sesquilinearform q auf einem C-Vektorraum V ist eine Abbildung
q : V × V → C,
die jedem Paar von Vektoren aus V eine komplexe Zahl zuordnet mit den beiden Eigenschaften
(SL1) (Linearität in der zweiten Komponente) q(v, λ1 w1 + λ2 w2 ) = λ1 q(v, w1 ) + λ2 q(v, w2 ),
(SL2) (Hermitizität) q(v, w) = q(w, v).
Dann ist q automatisch in der ersten Komponenten antilinear : q(λ1 v1 +λ2 v2 , w) = λ1 q(v1 , w)+λ2 q(v2 , w).
Daher kommt auch der Name: Sesqui“ bedeutet eineinhalb“ — q ist nur eineinhalb-mal“ linear.
”
”
”
Für v = w erhalten wir aus (SL2) sofort q(v, v) = q(v, v). Damit ist q(v, v) immer reell.
1.4 Quadratische Formen. Ist q eine symmetrische Bilinearform oder eine hermitesche Sesquilinearform, so nennen wir die Abbildung
Q : V → R,
v 7→ Q(v) := q(v, v)
die zu q gehörige quadratische Form. Sie ordnet jedem Vektor eine reelle Zahl zu.
1.5 Fundamentalmatrix. Ist dim V = n endlich und ist (v1 , . . . , vn ) eine Basis von V , so heißt die
(n × n)-Matrix
q(v1 , v1 ) · · · q(v1 , vn )
..
..
A = (aj,k ) := (q(vj , vk )) =
.
.
q(vn , v1 ) · · ·
q(vn , vn )
die Fundamentalmatrix von q für dieses Basis. Wegen (BL2) ist A symmetrisch.
257
KAPITEL 5. LINEARE ALGEBRA
Durch q ist A bestimmt. Umgekehrt wird im rellen Fall zu jeder symmetrischen Matrix A ∈ Rn×n mittels
n
n
n
X
X
X
q(v, w) = q
xj vj ,
yk vk =
xj yk aj,k = xT Ay
für x = vB , y = vB .
j=1
k=1
j,k=1
eine symmetrische Bilinearform erklärt, im komplexen für hermitesches A ∈ Cn×n mittels
n
n
n
X
X
X
q(v, w) = q
xj vj ,
yk vk =
xj yk aj,k = x∗ Ay
für x = vB , y = vB .
j=1
k=1
j,k=1
eine hermitesche Sesquilinearform. Nach Wahl einer Basis können wir also die Bilinearformen auf einem ndimensionalen R-Vektorraum mit den reellen symmetrischen (n×n)-Matrizen, die Sesquilinearformen auf
einem n-dimensionalen C-Vektorraum mit den komplexen hermiteschen (n × n)-Matrizen identifizieren.
Zu jeder symmetrischen Bilinearform gehört nach Wahl einer Basis genau eine symmetrische Fundamentalmatrix und umgekehrt. Zu jeder hermiteschen Sesquilinearform gehört nach Wahl einer Basis genau
eine hermitesche Fundamentalmatrix und umgekehrt.
Im Kn mit der kanonischen Basis ist das besonders einfach. Im Rn hat jede symmtrische Bilinearformen
die Gestalt
q(x, y) = xT Ay
mit A = AT ∈ Rn×n ,
im Cn hat jede hermitesche Sesquilinearform die Darstellung
q(x, y) = x∗ Ay
mit A = A∗ ∈ Cn×n .
1.6 Lorentz-Form und Minkowski-Metrik. Die Lorentz-Form
x1
y1
x2
y 2
4
q(x, y) := x1 y1 + x2 y2 + x3 y3 − tτ
für x =
x3 , y = y3 ∈ R
t
τ
ist eine symmetrische Bilinearform auf dem R4 . Sie ist in der speziellen Relativitätstheorie gebräuchlich
und separiert dort Raum und Zeit. Die zugehörige quadratische Form
x1
x2
4
2
2
2
2
Q(x) = q(x, x) = x1 + x2 + x3 − t
für x =
x3 ∈ R
t
heißt Minkowski-Metrik .
Die Fundamentalmatrix der Lorentz-Form bezüglich der Standardbasis des R4 lautet
T
1 0 0 0
x1
1 0 0 0
y1
0 1 0 0
x2 0 1 0 0 y2
d.h.
0 0 1 0 ,
x3 0 0 1 0 y3 = x1 y1 + x2 y2 + x3 y3 − tτ.
0 0 0 −1
0 0 0 −1
t
τ
1.7 Fundamentalmatrizen und Basiswechsel. Bei einem Basiswechsel x = Sx0 transformiert sich
eine Bi- bzw. Sesquilinearform gemäß
xT Ay = (Sx0 )T A(Sy 0 ) = x0T (S T AS)y 0 ,
bzw.
x∗ Ay = (Sx0 )∗ A(Sy 0 ) = x0∗ (S ∗ AS)y 0 ,
Die Fundamentalmatrix bezüglich der neuen Basis ist also im reellen Fall durch S T AS, im komplexen
durch S ∗ AS gegeben.
258
§6. VEKTORRÄUME MIT SKALARPRODUKT
Achtung. Fundamentalmatrizen transformieren sich anders als Darstellungsmatrizen von linearen Abbildungen (da lautetet die Transformationsregel S −1 AS). Lediglich bei einem Basiswechsel mit einer
orthogonalen bzw. unitären Matrix S besteht kein Unterschied. Dann gilt ja S T = S −1 bzw. S ∗ = S −1
und damit S T AS = S −1 AS bzw. S ∗ AS = S −1 AS.
1.8∗ Polarisationsgleichung. Quadratische Formen haben wir aus Bi- bzw. Sesqulinearformen durch
Gleichsetzen der beiden Einträge gebildet. So wurde aus einer Funktion in zwei (vektoriellen) Variablen
eine in nur einer Variablen. Man denkt, dass dabei Information verloren geht. Dass dies stimmt nicht,
sagt die Polarisationsgleichung mit der man aus der quadratischen Form die Bi- bzw. Sesqulinearform
zurückgewinnen kann.
Für jede quadratische Form in einem R-Vektorraum gilt
1
[Q(v + w) − Q(v − w)].
4
Für jede quadratische Form in einem C-Vektorraum gilt
q(v, w) =
q(v, w) =
1
[Q(v + w) − Q(v − w) + iQ(v − iw) − iQ(v + iw)].
4
Beweis. Man ersetze Q(v + w) = q(v + w, v + w) usw. und rechne sich fleißig von rechts nach links durch.
Beispiel. Eine quadratische Form im Rn hat die Gestalt
xT Ax =
n
X
aj,k xj xk
= a1,1 x1 2 + a1,2 x1 x2 + · · · + a1,n x1 xn
+a2,1 x2 x1 + a2,2 x2 2 + · · · + a2,n x2 xn
j,k=1
+···
+an,1 xn x1 + an,2 x2 xn + · · · + an,n xn 2 .
Wenn wir umgekehrt aus solch einer Linearkombination von Monomen zweiten Grades xj xk die zugehörige quadratische Form mit der Polarisationsgleichung rekonstruieren wollen, so läuft das darauf hinaus,
den Vorfaktor bei xk 2 an die k-te Diagonalstelle von A zu setzen und den Vorfaktor bei xj xk = xk xj
gleichmäßig“ auf die Koeffizienten aj,k und ak,j zu verteilen, d.h. aj,k = ak,j zu verlangen. Konkret geht
”
das so:
T
T 0 1 0
x1
x1
x
x
2
3
1
1
, 2x1 x2 − x3 2 = x2 1 0 0 x2 .
2x1 2 + 6x1 x2 + x2 2 =
3 1
x2
x2
x3
0 0 1
x3
Im Cn agiere man analog mit x∗ Ax und einer hermiteschen Matrix A.
1.9 Definite quadratische Formen.
positiv definit
positiv semidefinit
Eine quadratische Form Q : V → R heißt
negativ semidefinit
negativ definit
>0
≥0
für v ∈ V r {0}.
, falls Q(v)
≤0
<0
Semidefinitheit ist schwächer als Definitheit: jede positiv (negativ) definite Form ist auch positiv (negativ) semidefinit. Umgekehrt muss dass nicht gelten. Falls eine quadratische Form ν in keine dieser vier
Kategorien gehört, so nennen wir sie indefinit. Dann gibt es v+ , v− ∈ V mit ν(v+ ) > 0 und ν(v− ) < 0.
positiv definit
λ, µ > 0
positiv semidefinit
λ ≥ 0, µ = 0 oder λ = 0, µ ≥ 0
indefinit
λ > 0, µ < 0 oder λ < 0, µ > 0 .
Beispiel. λx2 + µy 2 ist
für
negativ semidefinit
λ ≤ 0, µ = 0 oder λ = 0, µ ≤ 0
negativ definit
λ, µ < 0
Die Definitheit einer quadratischen Form kann man aus den Eigenwerten ihrer Fundamentalmatrix ansehen (siehe 4.11) — das folgt wieder aus der Hauptachsentransformation.
259
KAPITEL 5. LINEARE ALGEBRA
2
Skalarprodukte, euklidische und unitäre Vektorräume
2.1 Skalarprodukte, euklidische und unitäre Vektorräume. Schlagen wir die Definition in 3.§3.2
nach, so erkennen wir, dass ein Skalarprodukt in unserer neuen Terminologie nichts anderes als eine
symmetrische Bilinearform, für welche die zugehörige quadratische Form positiv ist. Ein euklidischer
Vektorraum ist also ein R-Vektorraum mit einer positiv definiten symmetrischen Bilinearform. Statt
q(v, w) schreiben wir dann wieder hv|wi.
Im komplexen Fall erklären wir das jetzt analog: ein unitärer Vektorraum ist ein C-Vektorraum mit einer
positiv definiten hermiteschen Sesquilinearform q. Wir nennen dann q ebenfalls ein Skalarprodukt und
schreiben hv|wi statt q(v, w). Das bedeutet also:
(SP1) Linearität: hu|λv + µwi = λhu|vi + µhu|wi.
(SP2) Hermitezität: hv|wi = hw|vi.
(SP3) Positive Definitheit: hv|vi ≥ 0 und hv|vi = 0 genau dann, wenn v = 0.
2.2 Wichtige Skalarprodukte. Für die nachfolgend genannten Standardskalarprodukte“ kann man
”
die Eigenschaften (SP1)–(SP3) durch einfaches Nachrechnen verifizieren.
(a) Standardskalarprodukt auf dem Rn :
x1
y1
.. ..
h . | . i := x1 y1 + · · · + xn yn
xn
y1
x1
.. ..
für . , . ∈ Rn .
yn
xn
(b) Standardskalarprodukt auf dem Cn :
x1
y1
.. ..
h . | . i := x1 y1 + · · · + xn yn
xn
yn
y1
x1
.. ..
für . , . ∈ Cn .
yn
xn
yn
(c) Standardskalarprodukt auf dem reellen Hilbertschen Folgenraum
)
(
∞
X
2
2
N
ak < ∞ ,
` (R) := (ak )k ∈ R |
k=1
dem Teilraum derjenigen rellen Zahlenfolgen (ak )k , für die
h(ak )k |(bk )k i :=
∞
X
P∞
k=1
ak 2 konvergiert:
für (ak )k , (bk )k ∈ `2 (R).
ak bk
k=1
P∞
P∞
2
2
2
2
Hierzu muss
P∞ man bemerken, dass wegen 2|ak bk | ≤ |ak | +|bk | die Konvergenz von k=1 ak und k=1 bk
die von k=1 ak bk nach sich zieht. Analog argumentiert man für den nachfolgend eingeführten komple”
xen Bruder“.
(d) Standardskalarprodukt auf dem komplexen Hilbertschen Folgenraum
(
)
∞
X
2
2
N
` (C) := (ak )k ∈ C |
|ak | < ∞ ,
k=1
denjenigen komplexen Zahlenfolgen (ak )k , für die
h(ak )k |(bk )k i :=
∞
X
P∞
ak bk
k=1
|ak |2 konvergiert:
für (ak )k , (bk )k ∈ `2 (C).
k=1
Wenn klar ist, ob wir reelle oder komplexe Folgen betrachten wollen, so schreiben wir einfach `2 statt
`2 (K). Wir können uns den `2 als die Verallgemeinerung des euklidischen bzw. unitären Kn für Koordinatenvektoren mit abzählbar unendlich vielen Koordinaten vorstellen.
260
§6. VEKTORRÄUME MIT SKALARPRODUKT
2.3 Norm. Ist V ein euklidischer oder unitärer Vektorraum mit Skalarprodukt h·|·i, so nennen wir
p
kvk := hv|vi
die zugehörige Norm. Wir erhalten wieder
(e) Positive Definitheit: kvk ≥ 0 und kvk = 0 genau für v = 0.
(f) Homogenität: kλvk = |λ|kvk.
(g) Dreiecksungleichung: kv + wk ≤ kvk + kwk.
Die ersten beiden Regeln folgen sofort aus (SP3) und (SP1), die dritte aus der nachfolgend genannten
Cauchy-Schwarzschen Ungleichung.
2.4 Cauchy-Schwarzsche Ungleichung. Ist V ein euklidischer oder unitärer Vektorraum mit Skalarprodukt h·|·i so gilt
|hv|wi| ≤ kvk · kwk
für v, w ∈ V.
In einem euklidischen Vektorraum kann dank dieser Ungleichung der Winkel zwischen v und w definiert werden (vgl. 3.§2.4.6). In diesem Fall haben wir sie schon in 3.§3.2.8 bewiesen. Bei einem unitären
Vektorraum geht die Rechnung ziemlich analog, man muss nur ein wenig konjugieren“.
”
Beispiele. Für zwei `2 -Folgen (ak )k und (bk )k gilt
∞
X
ak bk ≤
k=1
∞
X
!1/2
2
|ak |
k=1
∞
X
!1/2
2
|bk |
.
k=1
Im Reellen dann dabei jeweils auf das Konjugieren verzichtet werden.
2.5 Same procedure. . . Nach diesen Vorbereitungen können wir wie im euklidischen Fall in 3.§3.3
nun auch für unitäre Vektorräume über Orthonormalsysteme sprechen. Man führe sich also die nächsten
Nummern genussvoll zur Vertiefung zu Gemüte und schlage die Beweise am zuvor angegebenen Ort nach.
In §7.1 werden wir auf dieser Grundlage Fourier-Analysis betreiben.
2.6 Orthogonalität und Normiertheit. Ist V ein euklidischer oder unitärer Vektorraum mit Skalarprodukt h·|·i, so nennen wir v ∈ V normiert, wenn kvk = 1. Wir sagen, dass v, w ∈ V orthogonal sind
oder aufeinander senkrecht stehen und schreiben dafür auch v ⊥ w, wenn hv|wi = 0.
Der Nullvektor ist definitionsgemäß zu jedem Vektor orthogonal.
Ist U ⊂ V und v ∈ V , so nennen wir v orthogonal zu U und schreiben v ⊥ U , wenn v ⊥ u für alle u ∈ U .
Die Menge
U ⊥ := {v ∈ V | v ⊥ U } = {v ∈ V | hv|ui = 0 für alle u ∈ U }
aller zu U senkrechten Vektoren ist dann ein Unterraum von V , genannt das orthogonale Komplement
von U .
2.7 Orthonormalsysteme und -basen. Eine Menge U von Vektoren in V nennen wir orthogonal
oder Orthogonalsystem, wenn je zwei verschiedene Vektoren aus U zueinander orthogonal sind: v ⊥ w
für alle v, w ∈ U mit v 6= w. Sind zusätzlich alle Vektoren aus U normiert, so sprechen wir von einer
orthonormalen Menge oder einem Orthonormalsystem (kurz ONS ). Bilden die Vektoren von U eine Basis
von V , so nennen wir U eine Orthogonalbasis bzw. im normierten Fall eine Orthonormalbasis von V (kurz
ONB ).
Beispiel. Die Folgen
ek := (0, . . . , 0,
1
, 0, . . .)
|{z}
k-te Stelle
2
bilden ein ONS im Hilbertschen Folgenraum ` — man verifiziere die Orthogonalitätsrelationen.
261
KAPITEL 5. LINEARE ALGEBRA
Endliche Linearkombinationen a1 e1 + · · · + an en = (a1 , . . . , an , 0, . . .), d.h. Vektoren in Span(e1 , e2 , . . .),
sind Folgen mit nur endlich vielen von Null verschiedenen Gliedern. Für den Raum dieser Folgen ist
(e1 , e2 , . . .) eine ONB.
Dagegen ist (e1 , e2 , . . .) keine ONB für den `2 selbst. Es gibt nämlich `2 -Folgen mit unendlich vielen nicht
verschwindenen Folgenglieder, beispielsweise (1/k)k .
2.8 Entwickeln nach Orthonormalsystemen. Jedes Orthonormalsystem U in einem euklidischen
oder unitären Vektorraum ist linear unabhängig. Jedes v ∈ Span(U ) besitzt eine eindeutige Darstellung
als Linearkombination
n
X
v=
huk |viuk = hu1 |viu1 + · · · + hun |viun
k=1
mit gewissen u1 , . . . , un ∈ U .
2.9 Orthogonale Projektion und Bestapproximation im Quadratmittel. Ist U = (u1 , . . . , un )
ein endliches Orthonormalsystem in einem euklidischen oder unitären Vektorraum V , so gibt es zu jedem
v ∈ V genau einen Punkt u ∈ Span(U ) kürzesten Abstands zu v. Dieser Punkt ist gegeben durch
u = P (v) :=
n
X
huk |viuk
k=1
und für den minimalen Abstand von v zu U gilt
kv − P (v)k2 = kvk2 −
m
X
|huk |vi|2 .
k=1
Wir nennen P (v) die orthogonale Projektion von v auf Span(U ) oder die Bestapproximation im Quadratmittel für v in Span(U ).
Die orthogonale Projektion ist P (v) ist charakterisiert durch P (v) ∈ Span(U ) und v − P (v) ⊥ Span(U ).
2.10 Orthonormalisieren nach Gram-Schmidt. Zu jedem vorgegebenen Satz v1 , v2 , . . . von linear
unabhängigen Vektoren in einem euklidischen oder unitären Vektorraum V gibt es ein Orthonormalsystem
u1 , u2 , . . . in V mit Span(u1 , . . . , um ) = Span(v1 , . . . , vm ) für m = 1, 2, . . ..
Im endlichdimensionalen Fall erhält man so aus einer Basis (v1 , . . . , vn ) von V eine ONB von V . Jeder endlichdimensionale euklidische oder unitäre Vektorraum hat eine ONB. Im unendlichdimensionalen
Fall kann das Gram-Schmidt-Verfahren auch auf einen Satz von abzählbar unendlich vielen Vektoren
angewendet werden (Beispiele siehe §7.2.2.8) und liefert dann ein ONS.
Das Gram-Schmidt-Verfahren läuft auch im unitären Fall wie aus 3.§3.3.8 bekannt ab:
• Initialisierung: u1 =
1
kv1 k v1
• Rekursion: Sind u1 , . . . , um schon berechnet, so erhalte um+1 mittels
Pm
– Projezieren: P (vm+1 ) = k=1 huk |vm+1 iuk ,
– Senkrechtmachen: u0m+1 := vm+1 − P (vm+1 ),
– Normieren: um+1 : ku0 1 k u0m+1 .
m+1
2.11 Positiv definite Matrizen. Eine Matrix A ∈ Rn×n ist genau dann positiv definit, wenn es eine
reguläre Matrix P ∈ Rn×n gibt mit A = P T P . Eine Matrix A ∈ Cn×n ist genau positiv definit, wenn es
eine reguläre Matrix P ∈ Cn×n gibt mit A = P ∗ P .
Beweis. Wir führen nur den reellen Fall vor, der komplexe geht analog.
⇐“ Ist P invertierbar und ist A := P T P , so folgt xT Ax = xT (P T P )x = (P x)T (P x) = y T y ≥ 0 mit
”
Gleichheit genau dann, wenn y = P x = 0, d.h. x = 0. Also ist A positiv definit.
⇒“ Diese Beweisrichtung ist nichts anderes als eine Interpretation des Gram-Schmidt-Verfahrens.
”
262
§6. VEKTORRÄUME MIT SKALARPRODUKT
Ist V ein euklidischer Raum mit Basis (v1 , . . . , vn ) und wird das Skalarprodukt durch eine positiv definite
symmetrische (n×n)-Fundamentalmatrix A dargestellt, d.h. hx1 v1 +· · ·+xn vn , y1 w1 +· · ·+yn wn i = xT Ay,
so wird das Gram-Schmidt-Verfahren
u1 =
1
v1 ,
kv1 k
u2 =
1
v2 + · · · ,
ku02 k
...,
un =
1
vn + · · ·
ku0n k
durch eine obere Dreiecksmatrix R mit positiven Diagonaleinträgen beschrieben. Die Orthogonalitätsrelationen für die neues Basis (u1 , . . . , un ) lassen sich gemäß 1.7 nach dem Basiswechsel mit R in der
Form
δj,k = huj |uk i = ej T (RT AR)ek
für j, k = 1, . . . , n
schreiben, d.h. RT AR = En . Da P := R−1 wieder eine obere Dreiecksmatrix mit positiven Diagonaleinträgen ist, gilt P T P = P T En P = P T (RT AR)P ) = (RP )T A(RP ) = A.
3
Orthogonale und unitäre Abbildungen
3.1 Worum geht es? Wir stellen die mathematische Grundlage für starre Bewegungen“ (z.B. eines
”
Körpers oder eines kartesischen Koordinatensystems) zur Verfügung — sowohl in der Operator-Sprache
als auch im Matrizenkalkül.
3.2 Isometrien. Ein linearer Operator L ∈ L(V ) eines euklidischen oder unitären Vektorraums V heißt
Isometrie, wenn
kL(v)k = kvk
für alle v ∈ V.
Insbesondere gilt L(v) = 0 nur für v = 0, d.h. Kern L = {0}, und L ist injektiv. Mit der Polarisationsgleichung 1.8 folgt ferner
hL(v)|L(w)i = hv|wi
für alle v, w ∈ V.
Wir fassen zusammen:
Eine Isometrie ist eine norm- und winkeltreue injektive lineare Abbildung.
Beispiel. Im `2 ist der Rechts-Shift (a1 , a2 , . . .) 7→ (0, a1 , a2 , . . .) eine Isometrie aber nicht surjektiv.
3.3 Orthogonale und unitäre Operatoren. Ist eine Isometrie zusätzlich surjektiv, so wird sie orthogonal bzw. unitär genannt, je nachdem, ob V euklidisch oder unitär ist.
Da in einem endlichdimensionalen Vektorraum jede injektive lineare Abbildung automatisch surjektiv ist
(§1.2.10), ist dort jede Isometrie othogonal bzw. unitär.
3.4 Darstellungsmatrizen von orthogonalen bzw. unitären Operatoren. Ein orthogonaler (unitärer ) Operator eines endlichdimensionalen euklidischen (unitären) Vektorraums V hat bezüglich einer
ONB von V eine orthogonale (unitäre) Darstellungsmatrix.
Beweis∗ . Wir führen den unitären Fall vor, der euklidische geht analog. Ist L unitär und B = (u1 , . . . , un )
eine ONB von V , so gilt hL(uj )|L(uk )i = huj |uk i = δj,k und C = (L(u1 ), . . . , L(un )) ist wieder eine ONB
von V . Entwicklen 2.8 nach der ONB B liefert
L(uj ) =
n
X
huk |L(uj )iuk .
k=1
Für die Darstellungsmatrix A = MB (L) folgt ak,j = huk |L(uj )i. Da auch C eine ONB ist, gilt
δj,l = hL(uj )|L(ul )i =
n
X
k=1
d.h. A∗ A = E. Also ist A eine unitäre Matrix.
huk |L(uj )ihuk |L(ul )i =
n
X
k=1
ak,j ak,l ,
263
KAPITEL 5. LINEARE ALGEBRA
3.5 Basiswechsel zwischen Orthonormalbasen. Die Transformationsmatrix S des Basiswechsels
zwischen zwei Orthonormalbasen eines euklidischen (unitären) Vektorraums ist orthogonal (unitär ). Eine
orthogonale (unitäre) Koordinatentransformationen einer ONB des Rn (des Cn ) mit dem natürlichen
Skalarprodukt liefert wieder eine ONB.
3.6 Eigenschaften orthogonaler bzw. unitärer Matrizen. Ist U eine orthogonale oder unitäre
(n × n)-Matrix, so gilt:
(a) | det(U )| = 1,
(b) |λ| = 1 für jeden Eigenwert λ von U ,
(c) die Spalten bzw. Zeilen von U bilden eine ONB des Kn bezüglich des Standardskalarprodukts.
Achtung. Orthogonale bzw. unitäre Matrizen haben i.A. komplexe Eigenwerte.
Beweis. Wir führen wieder nur den unitären Fall vor: aus U ∗ U = E folgt 1 = det(E) = det(U ∗ ) det(U ) =
det(U ) det(U ) = | det(U )|2 , d.h. | det(U )| = 1. Gilt ferner U x = λx für ein x 6= 0, so folgt |λ|2 x∗ x =
(λx∗ )(λx) = (λx)∗ (λx) = (U x)∗ (U x) = x∗ U ∗ U x = x∗ x, d.h. |λ|2 = 1.
3.7 Isometrien der Ebene. Jede orientierungserhaltende Isometrie der Ebene ist eine Drehung. Jede
nicht orientierungserhaltende Isometrie der Ebene ist eine Achsenspiegelung.
Genauer: Ist L eine Isometrie eines zweidimensionalen euklidischen Vektorraums V (z.B. der Ebene), so
ergeben sich für die Darstellungsmatrix U ∈ R2×2 von L bezüglich einer ONB von V zwei Möglichkeiten:
• Es gilt det(U ) = 1 und U =
cos ϕ
sin ϕ
− sin ϕ
. Dann ist L orientierungserhaltend und eine Drehung
cos ϕ
um den Winkel ϕ,
cos ϕ
sin ϕ
• Es gilt det(U ) = −1 und U =
. Dann ist L nicht orientierungserhaltend, hat die
sin ϕ − cos ϕ
Eigenwerte ±1 und ist eine Spiegelung an der von den Eigenvektoren zu −1 aufgespannten Geraden.
Beweis. Gemäß 3.4 können wir mit der orthogonalen Darstellungsmatrix U ∈ R2×2 argumentieren, um L
zu beschreiben. Nach 3.6 gilt | det(U )| = 1, d.h. det(U ) = ±1, da U reelle Einträge hat. Ferner müssen
ϕ
die Spalten von U normiert und orthogonal sein. Damit können wir die erste Spalte in der Form cos
sin ϕ
mit ϕ ∈ R schreiben und die zweite Spalte muss dann die jeweils angegebene Form haben. Dass im ersten
ψ
Fall dann eine Drehung vorliegt, wissen wir aus 3.§2.6.1. Im zweiten Fall setzen wir v(ψ) := cos
sin ψ und
zeigen durch eine kurze Rechnung U v(ϕ/2) = v(ϕ/2) bzw. U v(ϕ/2 + π/2) = −v(ϕ/2 + π/2) (wir haben
die Eigenwerte und Eigenvektoren zu U bestimmt). Also wirkt U längs Span(v(ϕ/2)) wie die Identität
und senkrecht dazu längs Span(v(ϕ/2 + π/2)) wie eine Spiegelung.
3.8 Isometrien des Raums. Jede orientierungserhaltende Isometrie des Raums ist eine Drehung um
eine feste Drehachse. Jede nicht orientierungserhaltende Isometrie der Ebene unterscheidet sich von einer
orientierungserhaltenden nur um eine Spiegelung an der zur Drehachse senkrechten Ebene.
Ist die Drehachse durch einen normierten Vektor u vorgegeben und ist ϕ ∈ R der Drehwinkel, so verschaffen wir uns einen zu u senkrecht stehenden normierten Vektor v und ergänzen durch u × v zu einer
positiv orientierten ONB. Im R3 baut man sich aus diesen Spalten dann die zugehörige Drehmatrix.
Im Beweis werden wir sehen, wie man umgekehrt zu einer vorgegebenen Drehung die Drehachse findet.
Beweis. Gemäß 3.6 gilt det(L) = ±1. Im orientierungserhaltenden Fall gilt det(L) = 1. Das charakteristische Polynom von L muss als reelles Polynom dritten Grades eine reelle Nullstelle besitzen. Nach
3.6 müssen alle (komplexen) Nullstellen den Betrag 1 haben und ihr Produkt muss det(L) = 1 ergeben. Damit hat L den Eigenwert 1. Wir wählen einen zugehörigen normierten Eigenvektor u und
erhalten die Drehachse: wegen L(u) = u wirkt L längs Span(u) wie die Identität. Die zu u senkrechte Ursprungsebene E wird von L in sich selbst übergeführt, aus hv|ui = 0 folgt wegen L(u) = u nämlich
264
§6. VEKTORRÄUME MIT SKALARPRODUKT
hL(v)|ui = hL(v)|L(u)i = hv|ui = 0. In E wirkt L dann wie eine orientierungserhaltendene ebene
Isometrie. Wir spannen E durch einen zu u senkrecht stehenden normierten Vektor v und u × v auf:
E = Span(v, u × v). Die Darstellungsmatrix bezüglich der ONB B = (u, v, u × v) hat damit die Form
1
0
0
MB (L) = 0 cos ϕ − sin ϕ
0 sin ϕ cos ϕ
und L ist eine Drehung. Ist L nicht orientierungserhaltend, so gilt det(L) = −1 und mit ähnlicher
Argumentation wie zuvor erhält man einen Eigenwert −1. Ist u ein zugehöriger normierter Eigenvektor,
so wirkt L längs Span(u) wie eine Spiegelung. Senkrecht zu u kann man wie zuvor argumentieren und
erhält bezüglich der ONB B = (u, v, u × v) die Darstellungsmatrix
−1
0
0
MB (L) = 0 cos ϕ − sin ϕ .
0 sin ϕ cos ϕ
3.9 Isometrien des C2 . Ist U ∈ C2×2 unitär det(U ) = 1, so gilt
a −b
mit a, b ∈ C, |a|2 + |b|2 = 1.
U=
b a
Beweis. Gemäß 3.6 müssen die beiden Spalten von U normiert und orthogonal sein. Das liefert zusammen
mit det(U ) = 1 die angegebene Darstellung.
3.10∗ Matrixgruppen. Wir erinnern uns an den Begriff einer Gruppe (siehe 3.§2.3.4).
Eine Teilmenge G von Kn×n bildet eine Matrizengruppe, wenn
(MG1) E ∈ G,
(MG2) alle A, B ∈ G sind invertierbar mit AB −1 ∈ G.
Wichtige Beispiele für Matrizengruppen sind:
GL(n, K)
O(n)
SO(n)
U(n)
SU(n)
:= {S ∈ Kn×n | S ist invertierbar}
:= {U ∈ R
n×n
T
| U U = E}
:= {U ∈ O(n) | det(U ) = 1}
:= {U ∈ C
n×n
∗
| U U = E}
:= {U ∈ U(n) | det(U ) = 1}
( general linear group“),
”
orthogonale Gruppe der Ordnung n,
spezielle orthogonale Gruppe der Ordnung n,
unitäre Gruppe der Ordnung n,
spezielle unitäre Gruppe der Ordnung n.
Die O(2) repräsentiert gemäß 3.7 die Drehungen und Achsenspiegelungen der Ebene, SO(2) die Untergruppe der Drehungen. Analog repäsentiert O(3) gemäß 3.8 die Drehungen und Drehspiegelungen im
Raum, SO(3) die Untergruppe der Drehungen.
Die Gruppe SU(2) heißt auch Quaternionengruppe oder Spin(3). Sie stellt den Schiefkörper der Quaternionen dar (dort gelten alle Körperaxiome mit Ausnahme des Kommutativgesetzes für die Multiplikation).
3.11 Längentreue Abbildungen. Eine Abbildung f : V → V eines euklidischen Vektorraums V heißt
längentreu, wenn
kf (v) − f (w)k = kv − wk
für alle v, w ∈ V.
Jede längentreue Abbildung hat die Form f (u) = f (0) + L(u) mit einer Isometrie L.
Beweisidee∗ . Man zeigt in mehreren Teilschritten, dass u 7→ f (u) − f (0) isometrisch und linear ist.
Dabei verwendet man mehrfach die Polarisationsgleichung 1.8.
265
KAPITEL 5. LINEARE ALGEBRA
3.12 Bewegungungen. Eine Abbildung der Form
x 7→ a + U x
mit a ∈ Rn , U ∈ SO(n),
heißt Bewegung des Rn .
Die Bewegung eines starren Körpers im R3 . wird dann durch eine Schar von Bewegungen
x 7→ ft (x) := a(t) + U (t)x
beschrieben. Hierbei hängen die Koeffizienten a(t) ∈ R3 und U (t) ∈ SO(3) differenzierbar von der Zeit t
ab und zur Startzeit t = 0 gilt a(0) = 0 und U (0) = E3 . Die Bahn eines Massenpunktes im Raum ist
dann durch
t 7→ ft (x0 ) = x(t)
gegeben, wobei x(0) = x0 der Ortsvektor des Massenpunktes zur Startzeit t = 0 ist.
3.13∗ Momentaner Drehvektor einer Bewegung. Wir diskutieren jetzt die Bewegung eines starren
Körpers, bei dem ein Punkt festgehalten wird (eine sogenannte Kreiselbewegung“). In den fixierten
”
Punkt legen wir den Ursprung einer ONB des R3 . Die Bahn eines Massenpunktes mit Ortsvektor x0 zur
Startzeit t = 0 wir dann durch
x(t) = U (t)x0
beschrieben mit einer differenzierbaren Funktion t 7→ U (t), R → SO(3). Durch (gliedweises) Differenzieren
erhalten wir
ẋ(t) = U̇ (t)x0 = U̇ (t)U (t)−1 x(t) = U̇ (t)U (t)T x(t),
da U (t) orthogonal ist. Wegen
d
0 = E˙3 = (U (t)U (t)T ) = U̇ (t)U (t)T + U (t)U̇ (t)T = U̇ (t)U (t)T + (U̇ (t)U (t)T )T
dt
ist U̇ (t)U (t)T zu jeder Zeit t antisymmetrisch, d.h.
0
−ω3 (t) ω2 (t)
0
−ω1 (t)
U̇ (t)U (t)T = ω3 (t)
−ω2 (t) ω1 (t)
0
mit geeigneten Funktionen ω1 , ω2 , ω3 : R → R. Fassen wir diese drei Funktionen als Komponenten einer
vektorwertigen Funktion ω auf, so gilt
0
−ω3 (t) ω2 (t)
x1 (t)
ω2 (t)x3 (t) − ω3 (t)x2 (t)
0
−ω1 (t) x2 (t) = ω3 (t)x1 (t) − ω1 (t)x3 (t) = ω(t) × x(t).
U̇ (t)U (t)T x(t) = ω3 (t)
−ω2 (t) ω1 (t)
0
x3 (t)
ω1 (t)x2 (t) − ω2 (t)x1 (t)
Die Bewegung des Massenpunktes gehorcht also der DGL
ẋ(t) = ω(t) × x(t).
Der Vektor ω(t) heißt momentaner Drehvektor der Bewegung, seine Länge kω(t)k ist als momentane
Winkelgeschwindigkeit aufzufassen.
4
Symmetrische und hermitesche Abbildungen, Hauptachsentransformation
4.1 Worum geht es? Wir kommen zum Hauptwerkzeug dieses Paragraphen, der Hauptachsentransformation, einem nicht zu unterschätzenden Werkzeug mit vielfältigen Einsatzbereichen. Nach einigen
Vorbereitungen stellen wir eine Operator- und zwei Matrizenvarianten ( Spektralsatz“ bzw. Hauptach”
”
sentransformation“ und simultane Hauptachsentransformation“) vor. Danach kommen diverse Anwen”
dungen.
266
§6. VEKTORRÄUME MIT SKALARPRODUKT
4.2 Symmetrische und hermitesche Operatoren. Ein linearer Operator L ∈ L(V ) eines euklidischen (unitären) Vektorraums V heißt symmetrisch (hermitesch), falls
hv|L(w)i = hL(v)|wi
für alle v, w ∈ V.
Symmetrische oder hermitesche Operatoren werden auch selbstadjungiert genannt.
Ist L hermitesch, so gilt hv|L(v)i = hL(v)|vi = hv|L(v)i, d.h. hv|L(v)i = hL(v)|vi ist reell.
Beispiele. Jede symmetrische Matrix A ∈ Rn×n liefert wegen xT Ay = xT AT y = (Ax)T y = y T Ax einen
symmetrischen Operator x 7→ Ax des Rn bezüglich des Standardskalarprodukts y T x. im Cn geht das
analog mit einer hermiteschen Matrix A.
4.3 Darstellungsmatrizen von symmetrischen bzw. hermiteschen Operatoren. Ein symmetrischer (hermitescher ) Operator eines endlichdimensionalen euklidischen (unitären) Vektorraums V hat
bezüglich einer ONB von V eine symmetrische (unitäre) Darstellungsmatrix.
Beweis∗ . Ist L hermitesch und B = (u1 , . . . , un ) eine ONB von V , so erhalten wir durch Entwicklen 2.8
L(uk ) =
n
X
huj |L(uk )iuj .
j=1
Hieraus können wir die Darstellungsmatrix A = (aj,k ) = MB (L) ablesen: es gilt aj,k = huj |L(uk )i. Mit
der Hermitezität des Skalarprodukts folgt nun
aj,k = huj |L(uk )i = hL(uj )|uk i = huk |L(uj )i = ak,j ,
d.h. A = A∗ . Damit ist A eine hermitesche Matrix. Für symmetrische Operatoren gehe man analog vor.
4.4 Rechenregeln für symmetrische bzw. hermitesche Operatoren. Sind L, L1 , L2 symmetrische
(hermitesch) Operatoren, so gilt:
(a) λ1 L1 + λ2 L2 ist symmetrisch (hermitesch),
(b) ist L bijektiv, so ist auch L−1 symmetrisch (hermitesch),
(c) alle Eigenwerte von L sind reell,
(d) Eigenvektoren von L zu verschiedenen Eigenwerten stehen aufeinander senkrecht,
(e) ist U ⊆ V ein Unterraum mit L(U ) ⊆ U , so gilt L(U ⊥ ) ⊆ U ⊥ .
Beweis. (a) und (b) erhält man durch unspektakuläres Nachrechnen.
Zu (c): Gilt L(v) = λv für ein v ∈ V , v 6= 0, so erhalten wir λkvk2 = hv|λvi = hv|L(v)i = hL(v)|vi =
hλv|vi = λkvk2 und mit kvk2 > 0 dann λ = λ. Also ist λ reell.
Zu (d): Ist L(w) = µw für ein w ∈ V , w 6= 0, so folgt µhv|wi = hv|µwi = hv|L(w)i = hL(v)|wi = hλv|wi =
λhv|wi = λhv|wi, d.h. (λ − µ)hv|wi = 0. Gilt also λ 6= µ, so folgt hv|wi = 0, d.h. v ⊥ w.
Zu (e): Für u ∈ U und v ∈ U ⊥ gilt hu|L(v)i = hL(u)|vi = 0, da L(u) ∈ L(U ) ⊆ U . Es folgt L(v) ⊥ u für
alle u ∈ U , d.h. L(v) ∈ U ⊥ und dann auch L(U ⊥ ) ⊆ U ⊥ .
4.5 Eigenschaften symmetrischer bzw. hermitescher Matrizen. Jede der Eigenschaften 4.4
(a)–(e) kann sofort in eine entsprechende Eigenschaft für symmetrische bzw. hermitesche Matrizen übersetzt werden. Wir notieren die beiden Wichtigsten.
Ist A eine symmetrische oder hermitesche (n × n)-Matrix, so gilt:
(f) alle Eigenwerte von A sind reell,
(g) Eigenvektoren zu verschiedenen Eigenwerten von A sind orthogonal bezüglich des Standardskalarprodukts.
267
KAPITEL 5. LINEARE ALGEBRA
4.6 Hermitesche Operatoren in der Quantenmechanik In der Quantenmechanik werden die möglichen Zustände eines Systems als die Vektoren eines unitären Vektorraums modelliert, wobei alle Vektoren
λψ mit λ ∈ C r {0} denselben Zustand darstellen. Die messbaren Größen wie Ort, Impuls, etc. (genannt
Observable“) werden durch lineare Operatoren beschrieben. Ist L solch ein linearer Operator, so bedeutet
”
hψ|L(ψ)i
,
ψ 6= 0,
hψ|ψi
den Erwartungswert der Observablen L im Zustand ψ, d.h. den Mittelwert der Messwerte für die Eigenschaft L, wenn sich das System im Zustand ψ befindet. Da Messwerte reell sind, d.h. hψ|L(ψ)i ∈ R,
werden als Observable nur hermitesche Operatoren zugelassen. Die Eigenvektoren von L stellen die einzigen Zustände des Systems dar, für die die Eigenschaft L einen scharfen Messwert hat. Gilt L(ψ) = λψ,
so ist
hψ|L(ψ)i
hψ|λψi
=
=λ
hψ|ψi
hψ|ψi
nach 4.4 (c) reell. Der zum Eigenvektor ψ gehörige Eigenwert λ ist also der Erwartungswert der Observablen L im Eigenzustand ψ.
4.7 Spektralsatz für symmetrische bzw. hermitesche Operatoren. Ein symmetrischer (hermitescher ) Operator eines endlichdimensionalen euklidischen (unitären) Vektorraums besitzt eine Orthonormalbasis aus Eigenvektoren.
Beweis. Wir betrachten zunächst einen hermiteschen Operator L auf einem unitären Vektorraum V und
führen einen Induktionsbeweis nach dim V = n.
Induktionsverankerung (n = 1): Wähle u ∈ V normiert, dann gilt V = Span(u) und (u) ist eine einelementige ONB von V . Wegen L(V ) ⊆ V muss L(u) = λu mit einem Skalar λ gelten. Dann ist λ ein
Eigenwert von L und u ein Eigenvektor.
Induktionsschritt (n → n + 1): Das charakteristische Polynom von L zerfällt über C in Linearfaktoren.
Also hat L einen Eigenwert λ und dazu einen normierten Eigenvektor u ∈ V . Ergänze u zu einer (n + 1)elementigen ONB (u, v1 , . . . , vn ) von V . Für U = Span(u) gilt dann U ⊥ = Span(v1 , . . . , vn ). Nach 4.4
(e) ist L(U ⊥ ) ⊆ U ⊥ und wir können die Einschränkung von L auf den n-dimensionalen Unterraum U ⊥
betrachten. Selbige ist wieder hermitesch und hat nach Induktionsannahme eine ONB aus Eigenvektoren
u1 , . . . , un . Damit ist (u, u1 , . . . , un ) eine ONB von V aus Eigenvektoren von L.
Den euklidischen Fall können wir genauso beweisen, sobald wir die Existenz eines reellen Eigenwerts
sichergestellt haben. Ist V ein euklidischer Vektorraum und ist L ∈ L(V ) symmetrisch, so wähle eine
ONB B von V und setze A := MB (L). Nach 4.3 ist A ∈ Rn×n symmetrisch. Fasse x 7→ Ax als lineare
Abbildung Cn → Cn auf. Diese Abbildung ist dann hermitesch, es gilt ja AT = A∗ . Nach dem bisher
Gezeigten hat A und damit L einen reellen Eigenwert.
4.8 Hauptachsentransformation. Jede symmetrische Matrix kann durch eine orthogonale Matrix
diagonalisiert werden: zu jedem A ∈ Rn×n mit A = AT existiert ein S ∈ Rn×n mit S T S = E, so dass
S −1 AS = S T AS = diag(λ1 , . . . , λn )
mit λ1 , . . . , λn ∈ R.
Jede hermitesche Matrix kann durch eine unitäre Matrix diagonalisiert werden: zu jedem A ∈ Cn×n mit
A = A∗ existiert ein S ∈ Cn×n mit S ∗ S = E, so dass
S −1 AS = S ∗ AS = diag(λ1 , . . . , λn )
mit λ1 , . . . , λn ∈ R.
Die k-te Spalte von S ist in beiden Fällen ein normierter Eigenvektor von A zum Eigenwert λk .
Beweis. Das ist die Matrizenversion des Spektralsatzes 4.7.
4.9 Durchführung der Hauptachsentransformation. Bei einer Hauptachsentransformation will
man entweder nur wissen, welche Einträge in der Diagonalmatrix herauskommen — dann genügt die Berechnung der Eigenwerte, oder man benötigt auch die transformierende Matrix (z.B. um den Basiswechsel
explizit auszuführen). Dann geht man nach folgendem Rezept vor:
268
§6. VEKTORRÄUME MIT SKALARPRODUKT
Schritt 1: Bestimme alle Eigenwerte von A.
Schritt 2: Finde zu jedem Eigenwert eine Basis des zugehörigen Eigenraums.
Schritt 3: Orthonormiere jeder der Eigenraumbasen.
Schritt 4: Setze alles zu einer ONB zusammen.
Der Spektralsatz 4.7 stellt dabei sicher, dass wir genügend viele linear unabhängige Eigenvektoren finden. Eigenvektoren zu verschiedenen Eigenwerten sind gemäß 4.4 (d) automatisch orthogonal. Zu einem
k-fachen Eigenwert existieren immer k linear unabhängige Eigenvektoren, die allerdings ggf. noch orthonormiert werden müssen.
Beispiel. Wir zeigen wie man die symmetrische Matrix
51 4 −3
A := 4 36 12 ,
−3 12 43
durch eine orthogonale Matrix S diagonalisiert. Für hermitesche Matrizen geht das dann genauso.
Schritt 1: Berechnung des charakteristischen Polynoms
χA (t) = det(tE3 − A) = t3 − 130t2 + 5408t − 70304 = (t − 26)(t − 52)2
liefert einfachen Eigenwert 26 und zweifachen Eigenwert 52.
Schritt 2: Gauß-Elimination liefert eine Basis für die beiden Eigenräume N26 (eindimensional) und N52
(zweidimensional):
1
−3
4
N26 = Kern(26E3 − A) = Span(−4),
N52 = Kern(52E3 − A) = Span( 0 , 1).
3
1
0
Schritt 3: Orthonormalisieren der einzelnen Eigenraumbasen. Für N26 müssen wir nur Normieren, für
N52 ist nach Normieren des ersten Eigenvektors noch ein Gram-Schmidt-Schritt auszuführen.
1
−3
2
1 1
1
−4 ),
0 ,√
5 ).
N52 = Kern(52E3 − A) = Span( √
N26 = Span( √
26
10
65 6
3
1
Schritt 4: Zusammensetzen der ONB für die einzelnen Eigenräume liefert eine ONB für den gesamten R3
und diagonalisierenden Basiswechsel
√
√
√
1/ √26 −3/ 10 2/√65
S = −4/√ 26
0
5/√65 .
√
1/ 10 6/ 65
3/ 26
Wir erhalten
S −1 AS = S T AS = diag(26, 52, 52).
Das rechnet man nicht aus, sondern man weiß aus der vorangegangenen Rechnung, welche Diagonalmatrix
entstehen muss. Die Reihenfolge der Eigenwerte in der Diagonalen wird dadurch bestimmt, in welcher
Reihenfolge man die Eigenvektoren in S anordnet.
4.10 Simultane Hauptachsentransformation. Eine positiv definite und eine symmetrische Matrix
können simultan diagonalisiert werden: zu jedem A ∈ Rn×n mit A = AT und xT Ax > 0 für alle x 6= 0
und jedem B ∈ Rn×n mit B = B T existiert ein invertierbares S ∈ Rn×n , so dass
S T AS = En ,
S T BS = diag(λ1 , . . . , λn )
Analog gilt das für eine hermitesche Matrix.
Achtung. Diesmal ist S nicht notwendigerweise orthogonal.
mit λ1 , . . . , λn ∈ R.
269
KAPITEL 5. LINEARE ALGEBRA
Beweis. Ist A positiv definit, so existiert nach 2.11 eine invertierbare Matrix P ∈ Rn×n mit A = P T P .
T
Mit B ist auch C = P −1 BP −1 symmetrisch und kann durch eine orthogonale Matrix U ∈ Rn×n
diagonalisiert werden: U T CU = D = diag(λ1 , . . . , λn ). Dann ist S := P −1 U als Produkt invertierbarer
Matrizen invertierbar und es gilt
S T AS
T
T
(P −1 U )T A(P −1 U ) = U T (P −1 AP −1 )U = U T (P −1 P T P P −1 )U
=
= U T (En En )U = U T U = En ,
S T BS
T
(P −1 U )T B(P −1 U ) = U T (P −1 BP −1 )U = U T CU = D.
=
4.11 Klassifikation quadratischer Formen. Als erste Anwendung der Hauptachsentransformation
klassifizieren wir die fünf Typen von quadratischen Formen.
Gegeben sei eine relle quadratische Form Q(x) = xT Ax mit symmetrischen A ∈ Rn×n oder eine komplexe
quadratische Form Q(x) = x∗ Ax mit hermiteschem A ∈ Cn×n . Dann gilt:
• Sind alle Eigenwerte von A positiv, so ist Q positiv definit.
• Sind alle Eigenwerte von A nichtnegativ, so ist Q positiv semidefinit.
• Hat A sowohl positive als auch negative Eigenwerte, so ist Q indefinit.
• Sind alle Eigenwerte von A nichtpositiv, so ist Q negativ semidefinit.
• Sind alle Eigenwerte von A negativ, so ist Q negativ definit.
Die Klassifikation merkt man sich am besten an den typischen reell-quadratischen Formen in zwei Variablen.
positiv definit
positiv semidefinit
indefinit
λ = 0, µ > 0
λ > 0, µ < 0
λ, µ > 0
0
0
0
0
0
0
negativ semidefinit
λ = 0, µ < 0
0
0
0
negativ definit
λ, µ < 0
0
0
0
0
0
0
0
0
0
0
0
Abbildung 5.4: Q(x, y) = λx2 + µy 2 für verschiedene Wahlen der Vorzeichen von λ, µ ∈ R.
Beweis. Gilt A = AT und sind λ1 , . . . , λn ∈ R die Eigenwerte von A, so führt eine Hauptachsentransformation S T AS = D = diag(λ1 , . . . , λn ) mit orthogonalem S und mit x0 = S T x zu
Q(x)
= xT Ax = xT EAEx = xT (SS T )A(SS T )x = (S T x)T (S T AS)(S T x)
2
2
= x0T Dx0 = λ1 x01 + · · · + λn x0n .
Hieraus liest man alle Behauptungen ab. Im komplexen Fall schließe man analog.
270
§6. VEKTORRÄUME MIT SKALARPRODUKT
Beispiel. Wir betrachten reell-quadratische Form
T
x
34 −12
Q(x, y, z) = 34x2 − 24xy + 41y 2 + 2z 2 = y −12 41
z
0
0
|
{z
=:A
x
0
0 y
z
2
}
und berechnen χA (t) = (t − 2)(t − 25)(t − 50). Also hat A die drei positiven Eigenwerte 2, 25, 50. Damit
ist Q positiv definit, d.h.
34x2 − 24xy + 41y 2 + 2z 2 > 0
für alle x, y, z ∈ R mit (x, y, z) 6= (0, 0, 0).
Hauptachsentransformation für A liefert
25 0 0
S T AS = 0 50 0
0
0 2
Setzen wir also
4/5
mit S = 3/5
0
0
x
4/5 3/5
y 0 = −3/5 4/5
z0
0
0
{z
|
−3/5
4/5
0
0
0 .
1
4
3
x
0
5x + 5y
0 y = − 35 x + 45 y ,
z
1
z
}
=S T
so gilt wie im Beweis vorgeführt
Q(x, y, z) = 25x02 + 50y 02 + 2z 02 = 25
4
3
x+ y
5
5
2
2
3
4
+ 50 − x + y + 2z 2 .
5
5
4.12∗ Rayleigh-Prinzip. Ist Q(x) = xT Ax eine reelle quadratische Form mit einer symmetrischen
Fundamentalmatrix A ∈ Rn×n und ist λmax der größte, λmin der kleinste Eigenwert von A, so gilt
λmax
=
λmin
=
xT Ax
=
max
xT Ax,
x∈Rn , kxk=1
r{0} xT x
max
n
x∈R
xT Ax
=
min
xT Ax,
r{0} xT x
x∈Rn , kxk=1
min
n
x∈R
Für eine komplex quadratische Form gilt das analog, wenn man xT durch x∗ und Rn durch Cn ersetzt.
Beweis. Dass das erste Maximum bzw. Minimum gleich dem zweiten ist, erkennt man dadurch, dass
T
1
man xxTAx
durch kxk2 > 0 kürzt, d.h. zum normierten Vektor kxk
x übergeht.
x
Für A = diag(λmin , . . . , λmax ) mit der Größe nach geordneten Diagonaleinträgen folgt die Behauptung
aus
λmin (x1 2 + · · · + xn 2 ) ≤ λmin x1 2 + · · · + λmax xn 2 ≤ λmax (x1 2 + · · · + xn 2 ),
{z
}
|
{z
}
|
{z
}
|
=xT x
=xT Ax
=xT x
T
weil Gleichheit in der ersten Ungleichung für x = (1, 0, . . . , 0) , in der zweiten für x = (0, . . . , 0, 1)T
angenommen wird. Ist A keine Diagonalmatrix, so gelangt man nach einer Hauptachsentransformation
x := Sy, xT Ax = y T S T ASy = y T Dy, xT x = xT S T Sx = y T y auf die eben diskutierte Situation.
4.13 Polynome zweiten Grades in mehreren Variablen haben im Reellen die Gestalt
xT Ax + bT x + c
mit A ∈ Rn×n symmetrisch, b ∈ Rn , c ∈ R,
bzw. analog im Komplexen
x∗ Ax + b∗ x + c
mit A ∈ Cn×n hermitesch, b ∈ Cn , c ∈ C.
Neben den Gliedern xj xk zweiten Grades treten auch Glieder xk ersten Grades und nullten Grades auf.
271
KAPITEL 5. LINEARE ALGEBRA
Beispiel. Darstellung eines reellen Polynom zweiten Grades in zwei Variablen im Matrizenkalkül:
T T x
x
−2
x
1 −2
x2 − 4xy + y 2 − 2x + 4 =
+
+ 4.
−2
1
y
y
0
y
4.14∗ Quadratische Ergänzung. Falls das LGS −2AT u = b lösbar ist (d.h. falls b ∈ Bild(A)) erhält
man wegen uT Ax = uT AT x = (Au)T x = xT Au
(x − u)T A(x − u) = xT Ax − 2uT Ax + uT Au = xT Ax + bT x + uT Au,
d.h.
xT Ax + bT x + c = (x − u)T A(x − u) + d
mit d := c − uT Au ∈ R.
Das nennt man eine quadratische Ergänzung.
Beispiel.
T x
1
x + 2xy + y − 6x − 6y + 5 =
1
y
2
1
1
2
x
−6 x
+
+ 5.
y
−6 y
Wir lösen
T −6
u1
1 1
=
−2
1 1
−6
u2
beispielsweise durch uu12 = 21 und erhalten
x2 + 2xy + y 2 − 6x − 6y + 5
=
⇔
T x−2
y−1
1
1
1
1
1
1
1
1
T u1
u2
3
=
3
T 2
x−2
1
+5−
1
1
y−1
{z
|
=−4
=
1
1
2
1
}
(x − 2)2 + 2(x − 2)(y − 1) + (y − 1)2 − 4.
4.15 Quadriken. Eine Quadrik ist das Nullstellengebilde eines Polynoms zweiten Grades in mehreren
Veränderlichen, d.h. eine Menge der Gestalt
{x ∈ Rn | xT Ax + bT x + c = 0}
bzw.
{x ∈ Cn | x∗ Ax + b∗ x + c = 0}.
Im Fall R2 spricht man auch von einem Kegelschnitt, im Fall R3 von einer Fläche zweiter Ordnung.
Eine Quadrik versteht man am besten, wenn man sie bezüglich eines an die Quadrik angepassten ONS
betracht. Man führt also eine Bewegung 3.12 durch und erhält eine der folgenden Normalformen“.
”
n
n
4.16 Normalformen von Quadriken. Durch eine Bewegung des R bzw. des C lässt sich jede Quadrik
in eine der drei Formen
m
X
k=1
λk xk 2 = 0,
m
X
λk xk 2 = 1,
k=1
m
X
λk xk 2 = 2xm+1
k=1
mit 0 ≤ m ≤ n und reellen λ1 , . . . , λm 6= 0 transformieren.
Beweisidee. Die Bewegung x 7→ Sx+d bestehend aus einer orthogonalen bzw. unitären (n×n)-Matrix S
und einem Verschiebungsvektor d können wir nach dem Satz über die Hauptachsentransformation so
wählen, dass S T AS = diag(λ1 , . . . , λm , 0, . . . , 0) eine Diagonalmatrix wird mit reellen λ1 , . . . , λm 6= 0 (für
m = 0 hat A nur den Eigenwert 0, für m = n keinen Eigenwert 0). Durch geschickte Wahl von d kann
man schließend die meisten linearen Terme eliminieren.
4.17 Kegelschnitte. Ein Kegelschnitt wird von den Punkten x ∈ R2 mit
ax2 + bxy + cy 2 + dx + ey + f = 0
gebildet. Die Zahlen a, b, c, d, e, f ∈ R sind vorgegeben. Nach einer Bewegung des R2 gemäß 4.16, welche
die Quadrik in Normalform bringt, erhalten wir die folgende Klassifikation der Kegelschnitte.
272
§6. VEKTORRÄUME MIT SKALARPRODUKT
Degenerierte Fälle. 0 = 1 oder −y 2 = 1, die leere Menge; x2 + y 2 = 0, der Punkt; y = 0 oder x2 = 0, die
Gerade; 0 = 0, die Ebene.
√
Geradenpaare. Die Gleichung λx2 = 1, λ > 0 definiert zwei parallele Geraden
x = ±1/ λ, die Gleichung
p
λx2 − µy 2 = 0, λ, µ > 0, definiert zwei sich schneidende Geraden y = ± λ/µx.
y
y
x
x
Abbildung 5.5: Geradenpaare.
2
2
Hyperbel.
Hyperbel
mit den beiden
Asymptoten
p Die Gleichung λx − µy = 1, λ, µ > 0, definiert eine
√
√
√
√
y = ± λ/µx. Das erkennt man am besten mit der Substition x0 = λx − µy, y 0 = λx + µy. Dann
gilt nämlich x0 y 0 = 1.
y
x
Abbildung 5.6: Hyperbel.
Ellipse und Kreis. Die Gleichung λx2 + µy 2 = 1, λ, µ > 0, definiert eine Ellipse. Üblich ist die Darstellung
y2
x2
+
=1
a2
b2
√
√
mit den Hauptachsenradien a := 1/ λ und b := 1/ µ. In dieser Darstellung sind die Koordinatenachsen
die Hauptachsen. Für a = b erhält man einen Kreis mit Radius a.
y
|
y
b
{z
a
} x
Abbildung 5.7: Ellipse und Kreis.
x
273
KAPITEL 5. LINEARE ALGEBRA
Parabel. Die Gleichung λx2 = 2y, λ > 0, beschreibt eine Parabel .
y
x
Abbildung 5.8: Parabel.
4.18 Flächen zweiter Ordnung. Analog zu den Quadriken im R2 , den Kegelschnitten, kann man
die Quadriken im R3 durch eine Bewegung des Raumes in Normalform bringen und damit klassifizieren. Neben allerlei entarteten Fällen (leere Menge, Punkt, Gerade, Ebene, Raum) gibt es die folgenden
wichtigen“ Flächen zweiter Ordnung.
”
Zylinder über einem Kegelschnitt. Das sind die Gleichungen λx2 = 1, λx2 − µy 2 = 0, λx2 − µy 2 = 1,
λx2 + µy 2 = 1, λx2 = 2y mit λ, µ > 0, in denen die dritte Koordinaten z nicht vorkommt.
Abbildung 5.9: Zylinder über Kegelschnitten.
Kegel. λx2 + µy 2 − νz 2 = 0 mit λ, µ, ν > 0.
Abbildung 5.10: Kegel.
274
§6. VEKTORRÄUME MIT SKALARPRODUKT
Einschaliges bzw. zweischaliges Hyperboloid. Das sind die beiden Gleichungen λx2 + µy 2 − νz 2 = 1 bzw.
λx2 − µy 2 − νz 2 = 1 mit λ, µ, ν > 0.
Abbildung 5.11: Einschaliges und zweischaliges Hyperboloid.
Ellipsoid. λx2 + µy 2 + νz 2 = 1 mit λ, µ, ν > 0. Die zweite übliche Darstellung lautet
x2
y2
z2
+
+
= 1.
a2
b2
c2
Die Zahlen a, b, c > 0 heißen Hauptachsenradien.
Abbildung 5.12: Ellipsoid.
Paraboliod. λx2 + µy 2 = z mit λ, µ > 0. Die Höhenlinien z = c, d.h. λx2 + µy 2 = c bilden ein System
konzentrischer Ellipsen.
1
0.5
0
-0.5
-1
-1
-0.5
0
Abbildung 5.13: Paraboloid.
0.5
1
275
KAPITEL 5. LINEARE ALGEBRA
Sattelfläche. λx2 − µy 2 = z mit λ, µ > 0. Die Höhenlinien der Sattelfläche sind Hyperbeln.
1
0.5
0
-0.5
-1
-1
-0.5
0
0.5
1
Abbildung 5.14: Sattelfläche.
4.19 Entkopplung von schwingenden Systemen. In der Mechanik und anderen Bereichen der Physik
treten DGL-Systeme der Form
mit M ∈ Rn×n positiv definit und K ∈ Rn×n symmetrisch
M ẍ + Kx = 0
auf. Oft sind dies schwingende Systeme. Dann geben die Koordinaten von x die Auslenkungen der einzelnen Teilchen aus der Ruhelage an, die Matrix M trägt Informationen über deren Masse und die Einträge
von K geben die Federkonstanten an, mit der die verschiedenen Teilchen miteinander gekoppelt sind.
Wir können derartige Systeme jetzt mit einer simultanen Hauptachsentransformation entkoppeln. Ist
S T M S = En und S T KS = D = diag(λ1 , . . . , λn ) wie in 4.10, so gehen wir zu den Koordinaten y := S −1 x
über und erhalten
M ẍ + Kx = 0
S T M SS −1 ẍ + S T KSS −1 x = 0
⇔
⇔
ÿ + Dy = 0,
d.h. ein entkoppeltes System ÿk + λk yk = 0, k = 1, . . . , n, in dem wir jede DGL einzeln lösen können.
Für die Berechnung von S bei vorgegebenen M und K gehe man wie im Beweis von 4.10 vor.
5
Matrizenexponentialfunktion
5.1 Lineare Differentialgleichungssysteme erster Ordnung haben im homogenen Fall die Form
ẋ = Ax,
mit A ∈ Rn×n .
Für ein Anfangswertproblem gibt man noch eine Startzeit t0 und einen Startvektor x0 = x(t0 ) vor.
Ohne uns vorerst um Konvergenzfragen zu kümmern erklären wir für eine (n × n)-Matrix A die Matri”
zenexponentialfunktion“
eA :=
∞
X
1 k
1
1
A = E n + A + A2 + A3 + · · · .
k!
2!
3!
k=0
Mit A ist auch eA eine (n × n)-Matrix.
Durch das Matrixen-Vektor-Produkt
x(t) := eA(t−t0 ) x0
für t ∈ R
wird eine vektorwertige Funktion x definiert mit x(t0 ) = e0 x0 = En x0 = x0 .
276
§6. VEKTORRÄUME MIT SKALARPRODUKT
Durch mutiges gliedweises Differenzieren erhalten wir
d
(t − t0 )2 2 (t − t0 )3 3
d A(t−t0 )
e
x0 =
En + A(t − t0 ) +
A +
A + · · · x0
ẋ(t) =
dt
dt
2!
3!
2
(t
−
t
)
(t − t0 )2 2
0
=
A + (t − t0 )A2 +
A3 + · · · x0 = A En + (t − t0 )A +
A + · · · x0
2!
2!
= AeA(t−t0 ) x0 = Ax(t).
Also ist x eine Lösung des AWP ẋ = Ax, x(t0 ) = x0 . Für eine weitere Lösung y betrachten wir
d −At
e
y(t) = −Ae−At y(t) + e−At ẏ(t) = −Ae−At y(t) + e−At Ay(t) = −Ae−At y(t) + Ae−At y(t) = 0.
dt
Also ist t 7→ e−At y(t) ein konstanter Vektor c, d.h. y(t) = eAt c. Für t = t0 folgt x0 = y(t) = c und die
oben gefundene Lösung des AWP ist eindeutig bestimmt. Wir fassen zusammen.
Ist A eine (n × n)-Matrix, so ist die homogene lineare DGL ẋ = Ax für jeden Startwert x(t0 ) = x0
eindeutig lösbar und die Lösung lautet x(t) = eA(t−t0 ) x0 für t ∈ R.
5.2 Was fehlt? Der obige Ansatz ist ohne eine Begründung für die Existenz der Matrizenexponentialfunktion und ohne Methoden zur Berechnung von eA für gegebenes A wertlos. Hierzu brauchen wir die
Matrizennorm“ und die Jordansche Normalform“.
”
”
5.3 Matrizennorm. Für eine Matrix A ∈ Kn×n nennen wir die Zahl
kAk :=
max
x∈Kn r{0}
kAxk
=
max
kAxk
kxk
x∈Kn , kxk=1
die Matrizennorm von A.
Dass beide Maxima denselben Wert liefern, erkennt man aus
kAxk
1
x)k
= kA( kxk
kxk
für x 6= 0.
Wegen
kAxk
kxk
2
=
(Ax)∗ (Ax)
x∗ (A∗ A)x
=
x∗ x
x∗ x
sagt das Rayleigh-Prinzip 4.12, dass kAk2 gerade der Betrag des größten Eigenwerts von A∗ A ist (im
reellen Fall können wir natürlich auf das Konjugieren verzichten).
5.4 Eigenschaften der Matrizennorm. Für A, B ∈ Kn×n und λ, µ ∈ K gilt
(a) kλA + µBk ≤ |λ|kAk + |µ|kBk,
(b) kABk ≤ kAkkBk,
(c) kAn k ≤ kAkn für n ∈ N,
(d) |aj,k | ≤ kAk für alle j, k = 1, . . . , n.
Den Beweis führe man selbständig.
5.5 Matrizenexponentialfunktion. Für jede (n × n)-Matrix A konvergiert die Matrizenreihe
eA :=
∞
X
1 k
1
1
A = E n + A + A2 + A3 + · · ·
k!
2!
3!
k=0
gliedweise absolut und wird Matrizenexponentialfunktion von A genannt.
277
KAPITEL 5. LINEARE ALGEBRA
Mit 5.4 gilt nämlich
∞
n
n
X
X
1
1 k
X 1
A ≤
kAkn ≤
kAkn ≤ ekAk .
k! k!
k!
k=0
k=0
k=0
Pn 1 k
Die Matrizenfolge der Partialsummen von k=0 k! A konvergiert also elementweise absolut. Damit existiert die Grenzmatrix eA .
5.6 Rechenregeln für die Matrizenexponentialfunktion.
(e) eA+B = eA eB falls A und B vertauschen, d.h. AB = BA,
(f) eA e−A = En , insbesondere ist eA immer invertierbar,
(g) eS
−1
AS
= S −1 eA S für invertierbares S.
2
2
2
2
2
Beweis. Zu (e): Im Fall AB = BA beweist
k n−k(A+B) = A +AB+BA+B = A +2AB+B
Pnman nzunächst
n
für n ∈ N. Wegen absoluter Konvergenz kann
und dann durch Induktion (A + B) = k=0 k A B
dann eA eB gliedweise als Cauchy-Produkt ausgewertet werden und ergibt wie in 1.§4.3.9 dann eA+B .
Nun folgt (f) für die Wahl B = −A. Aus (S −1 AS)k = S −1 Ak S (vgl. §2.3.11) erhalten wir (g).
5.7 Matrizenexponentialfunktion einer diagonalisierbaren Matrix. Ist A diagonalisierbar, d.h.
gilt
S −1 AS = D = diag(λ1 , . . . , λn ),
mit einer invertierbaren Matrix S, so erhalten wir
S −1 Ak S = (S −1 AS)k = Dk = diag(λ1 n , . . . , λn k )
und anschließend
S −1 eA S = eS
−1
AS
= eD = diag(eλ1 , . . . , eλn ).
Nach Linksmultiplikation mit S und Rechtsmultiplikation mit S −1 folgt
eA = S diag(eλ1 , . . . , eλn )S −1
und wir können eA berechneen. Insbesondere ist diese Methode für symmetrische oder hermitesche Matrizen verwendbar. Dann nimmt man für S eine orthogonale bzw. unitäre Matrix, die A auf Hauptachsen
transformiert.
Beispiel. Berechnung von
eA
Eine Hauptachsentransformation liefert
8
−1
S AS =
0
für A :=
0
3
4
1
1
.
−1
1
mit S := √
5
1
2
−2
.
1
Für die Matrizenexponentialfunktion folgt mit S −1 = S T dann
8
1 1 −2
1 e8 + 4e3
e
0
1 2
A
8 3
−1
e = S diag(e , e )S =
=
0 e3
−2 1
5 2 1
5 2e8 − 2e3
2e8 − 2e3
.
4e8 + e3
5.8∗ Matrizenexponentialfunktion eines Jordan-Blocks. Wir zeigen nun in einem einfachen Fall,
wie eA für eine nichtdiagonalisierbare Matrix A berechnet wird. Hierzu betrachten wir den aus §5.1.8
bekannten Jordan-Block
λ 1
0 1
λ 1
0 1
.. ..
.. ..
J = Jn,λ :=
mit N :=
= λEn + N
.
.
.
.
λ 1
0 1
λ
0
zum Eigenwert λ ∈ C.
278
§6. VEKTORRÄUME MIT SKALARPRODUKT
Die Matrix N ist nilpotent mit
1
1
0
N = En =
..
,
.
1
0
N =N =
1
0
1
..
.
1
..
,
1
0
.
0
1
N =
2
0
0
0
1
0
..
.
1
..
.
0
,
0
0
...,
N
n−1
0
=
···
0
0
0
..
.
0
1
0
.. ,
.
0
0
N n = N n+1 = . . . = 0.
Die Einserreihe“ steht also bei N k in der k-ten Nebendiagonale. Daher hat die Matrizenreihe für eN nur
”
endlich viele nichtverschwindende Glieder und es gilt
eN =
n−1
X
k=0
1
1 k
N =
k!
1
1!
···
1
(n−2)!
1
(n−1)!
1
(n−2)!
1
1!
1
..
.
..
..
.
.
1
1!
1
1
1!
1
.
1
Da N mit λEn vertauscht, folgt nun
eJ = eλEn +N = eλEn eN = eλ eN
=
eλ
eλ
1!
λ
e
···
eλ
(n−2)!
eλ
1!
..
.
..
..
.
.
eλ
eλ
(n−1)!
eλ
(n−2)!
eλ
1!
λ
e
eλ
1!
λ
.
e
Ist A ∈ Cn×n nicht diagonalisierbar, so muss der Satz über die Jordansche Normalform verwendet werden.
5.9 Jordansche Normalform. Satz über die Jordansche NormalformZu jedem A ∈ Cn×n existiert eine
invertierbare Matrix S ∈ Cn× mit
Jk1 ,λ1
Jk2 ,λ2
S −1 AS =
.
.
..
Jkr ,λr
Man kann also S auf Blockdiagonalgestalt“ transformieren. Die λ1 , . . . , λr sind die Eigenwerte von A
”
und die Darstellung ist bis auf die Reihenfolge der Jordan-Blöcke eindeutig bestimmt. U.U. gehören zu
einem Eigenwert mehrere Jordan-Blöcke, d.h. die λ1 , . . . , λr müssen nicht paarweise verschieden sein.
Aus der Jordanschen Normalform kann man die geometrische Vielfachheit eines Eigenwerts (Anzahl
der zugehörigen Jordan-Blöcke) sowie die algebraische (Summe ihrer Größen) ablesen. Sobald also für
einen Eigenwert ein echter“ Jordan-Block auftritt (d.h. nicht nur (1 × 1)-Blöcke), ist A nicht mehr
”
diagonalisierbar zugehörige Eigenwert hat eine kleinere geometrische als algebraische Vielfachheit.
Für einen Beweis des Satzes über die Jordansche Normalform und für die Konstruktion von S schlage
man in der Literatur nach (z.B. [Brö, Kapitel V]).
279
KAPITEL 5. LINEARE ALGEBRA
5.10∗ Matrizenexponentialfunktion im allgemeinen Fall. Wird A durch S auf Jordansche Normalform transformiert, so erhalten wir eA in der Form
J
e k1 λ 1
eJk2 ,λ2
−1
eA = S
S ,
.
..
Jk r λ r
e
wobei man die Matrizenexponentialfunktion der Jordan-Blöcke wie zuvor geschildert berechnet.
§7
Fourier-Analysis und Hilbert-Räume
In Abschnitt §6.2 haben wir zwar allgemein erklärt, was ein euklidischer bzw. unitärer Vektorraum ist,
die Theorie aber hauptsächlich im endlichdimensionalen Fall angewendet. Nun führen wir Skalarprodukte
auf den wichtigsten Funktionenräumen ein und betrachten damit unendlichdimensionale euklidische bzw.
unitäre Vektorräume. Insbesondere erhalten wir dabei der Theorie der Fourier-Reihen.
1
Fourier-Reihen
1.1 Fourier-Koeffizienten und Fourier-Polynome. Existieren für eine 2π-periodische Funktion die
Integrale
Z π
1
b
f (t)e−ikt dt,
k ∈ Z,
f (k) = ck :=
2π −π
so nennen wir f Fourier-transformierbar und die (i.A. komplexen) Zahlen fb(k) die (komplexen) FourierKoeffizienten von f .
Statt der ck werden auch die reellen Fourier-Koeffizienten
Z
Z
1 π
1 π
ak :=
f (t) cos kt dt, k ∈ N0 ,
bk :=
f (t) sin kt dt,
π −π
π −π
k ∈ N,
benutzt.
Für n ∈ N0 nennen wir
Sn [f ](t) :=
n
X
n
fb(k)eikt
bzw.
Sn [f ](t) :=
a0 X
+
(ak cos kt + bk sin kt)
2
k=1
k=−n
das n-te Fourier-Polynom von f .
Wie in 4.§6.1.8 geschildert können wir die reellen Fourier-Koeffizienten und -Polynome in die komplexen
umrechnen und umgekehrt: ak = ck + c−k , bk = i(ck − c−k ).
Fourier-Polynome sind Beispiele für trigonometrische Polynome. Während normale“ Polynome endliche
”
Linearkombinationen der Monome xk mit k ∈ N0 , sind, werden bei trigonometrischen Polynomen die
Funktionen eikt mit k ∈ Z (komplexe Darstellung), bzw. 1, cos kt und sin kt mit k ∈ N (reelle Darstellung)
linearkombiniert.
1.2 Fourier-Reihen und Fourier-Entwicklung. Die aus der Folge der Fourier-Polynome zu f gebildete unendliche Reihe
S∞ [f ](t) :=
∞
X
∞
fb(k)eikt
bzw.
S∞ [f ](t) :=
k=1
k=−∞
nennen wir Fourier-Reihe von f . Hierbei bezeichnet
a0 X
+
(ak cos kt + bk sin kt)
2
P∞
k=−∞
den Grenzwert limn→∞
Pn
k=−n .
280
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
1.3 Fourier-Analyse und Fourier-Synthese. Beim Bilden der Fourier-Koeffizienten (fb(k))k∈Z wird
eine Funktion f in ihr Frequenzspektrum“ zerlegt: fb(k) gibt an, mit welcher komplexen Amplitude die
”
Eigenschwingung eikt in f vorkommt. Die Bestimmung der Fourier-Koeffizienten wird Fourier-Analyse
oder Fourier-Transformation genannt. Die aus den Fourier-Koeffizienten gebildete Zahlenfolge (fb(k))k∈Z
heißt Fourier-Transformierte von f .
Den Versuch, mit Hilfe der aus den Fourier-Koeffizienten gebildeten Fourier-Reihe S∞ [f ] die Funktion f
zu rekonstruieren, nennt man Fourier-Synthese oder Fourier-Rücktransformation.
Achtung. Da eine 2π-periodische Funktion erst durch ihre überabzählbar vielen Funktionswerte f (t),
t ∈] − π, π], festgelegt ist, dürfen wir nicht erwarten, dass die abzählbar vielen Fourier-Koeffizienten fb(k),
k ∈ Z, alle Informationen über f beinhalten. Ohne weitere Annahmen an f dürfen wir also keine Hoffnung
hegen, dass die Fourier-Synthese immer gelingt, d.h. dass S∞ [f ] = f gilt.
1.4 Wichtige Fourier-Reihen. Die folgenden vier Beispiele sollte man sich merken. Nicht nur, weil sich
aus ihnen durch Verschieben und Linearkombinieren viele weitere Fourier-Reihen bilden lassen, sondern
auch weil sie den typischen Zusammenhang zwischen Glattheit der Funktion und Abfallen der FourierKoeffizienten illustrieren (Näheres siehe 1.8).
(a) Rechteck r : R → R, 2π-periodisch mit r(t) = sgn(t) für t ∈] − π, π]. Da r ungerade ist, gilt ak = 0 für
alle k ≥ 0 sowie
Z
4 für k = 1, 3, 5, . . . ,
2 π
sin(kt) dt = kπ
bk =
0
π 0
für k = 2, 4, 6, . . . .
Das n-te Fourier-Polynom zur Rechteckschwingung r lautet für ungerades n also
1
1
1
4
sin t + sin 3t + sin 5t + · · · + sin nt .
Sn [r](t) =
π
3
5
n
Es ist nicht klar, für welche t ∈ R die zugehörige Fourier-Reihe
1
4
1
sin t + sin 3t + sin 5t + · · · .
S∞ [r](t) =
π
3
5
konvergiert.
-Π
Π
-1
1
1
1
-Π
Π
-Π
-1
Π
-1
Abbildung 5.15: Die Rechteckschwingung und einige ihrer Fourier-Polynome (n = 1, 3, 5).
(b) Sägezahn f : R → R, 2π-periodisch mit f (t) = π − t für t ∈ [0, 2π[. Da f ungerade ist, gilt ak = 0 für
alle k ≥ 0 sowie nach einer partiellen Integration
Z
2
2 π
(π − t) sin(kt) dt =
für k = 1, 2, 3, . . .
bk =
π 0
k
Die Fourier-Reihe der Sägezahnschwingung f lautet damit
1
1
S∞ [s](t) = 2 sin t + sin 2t + sin 3t + · · · .
2
3
281
KAPITEL 5. LINEARE ALGEBRA
1
-Π
1
Π
-1
-Π
1
Π
-1
-Π
Π
-1
Abbildung 5.16: Die Sägezahnschwingung und einige ihrer Fourier-Polynome (n = 2, 6, 10).
Auch für diese Reihe ist nicht klar, ob und wo sie konvergiert.
(c) Dreieck d : R → R, 2π-periodisch mit d(t) = |t| für t ∈] − π, π]. Da d gerade ist, gilt bk = 0 für alle
k ≥ 1. Eine partielle Integration liefert unter Ausnutzung der Symmetrie
Z
Z
1 π
2 π
2 1 − (−1)k
ak =
für k ∈ N
|t| cos(kt) dt =
t cos kt dt = −
π −π
π 0
π
k2
sowie a0 = π. Die Fourier-Reihe zur Dreieckschwingung d lautet damit
π
1
4
1
S∞ [d](t) = −
cos t + 2 cos 3t + 2 cos 5t + · · · .
2
π
3
5
P∞
Das n-te Fourier-Polynom ist gerade die n-te Partialsumme dieser Reihe. Da k=1 1/k 2 eine gleichmäßige
Majorante ist, konvergiert diese Fourier-Reihe auf ganz R und die Grenzfunktion ist stetig. Wie die
Grenzfunktion aussieht, ist aber zunächst nicht klar.
Π
-Π
Π
Π
-Π
Π
Π
-Π
Π
Abbildung 5.17: Die Dreieckschwingung und einige ihrer Fourier-Polynome (n = 1, 3, 5).
P∞
Die Majorante k=1 1/k 2 führt offensichtlich zu einer schnelleren
Konvergenz als in (a) und (b), wo sich
P∞
ein Vergleich mit der alternierenden harmonischen Reihe k=1 (−1)k /k nahe liegt.
(d) Parabel p : R → R, 2π-periodisch und ungerade mit p(t) = t(π − t) für t ∈ [0, π[. Dank der Symmetrie
gilt ak = 0 für k ≥ 0 sowie (nach zweimaliger partieller Integration)
Z
8
2 π
für k = 1, 3, 5, . . . ,
bk =
t(π − t) sin(kt) dt = πk 3
0
π 0
für k = 2, 4, 6, . . . .
Damit hat die Parabelschwingung p die Fourier-Entwicklung
8
1
1
S∞ [p](t) =
sin t + 3 sin 3t + 3 sin 5t + · · · .
π
3
5
P∞
Hier ist die gleichmäßige Konvergenz durch die Majorante k=1 1/k 3 sichergestellt, ja sogar die gliedweise
Differenzierbarkeit.
282
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
-Π
Π
-Π
Π
-Π
Π
Abbildung 5.18: Die Parabelschwingung und einige ihrer Fourier-Polynome (n = 1, 3, 5).
P∞
Da die Majorante k=1 1/k 3 schneller als die Majorante in (c) konvergiert, schmiegen sich die FourierPolynome auch schneller an die Grenzfunktion an.
1.5 Beobachtungen in den Beispielen. Die vier Beispiele der vorherigen Nummer legen folgende
Vermutungen nahe:
1. Überall dort, wo f stetig ist, konvergieren die Fourier-Polynome gegen den Funktionswert. (Falsch,
es gibt Gegenbeispiele!)
2. An einer Sprungstelle von f konvergieren die Fourier-Polynome gegen den Mittelwert aus links- und
rechtsseitigem Grenzwert. (Stimmt fast, aber nur unter einer Zusatzannahme, siehe 1.7.)
3. Je glatter die Funktion ist, desto schneller konvergieren die Fourier-Polynome (Stimmt, siehe 1.8.)
1.6 Integraldarstellung für arithmetischen Mittel von Fourier-Polynome. Wir wollen uns kurz
mit der punktweisen Konvergenz von Fourier-Reihen beschäftigen. Dies ist ein steiniges Feld. Historisch
gesehen hat die Beschäftigung mit diesem Problem viel zur Klärung des Stetigkeitsbegriffs beigetragen.
Joseph Fourier (1768–1830) selbst war der Meinung, das jede periodische Funktion durch ihre FourierReihe dargestellt wird. Von Du Bois-Reymond stammt aus dem Jahre 1876 ein Beispiel einer stetigen
Funktion, deren Fourier-Reihe in einem Punkt divergiert.
Es stellt sich heraus, dass für punktweise Konvergenzbetrachtungen nicht so sehr die Folge der FourierPolynome Sn [f ], sondern die ihrer arithmetischen Mittel
σn [f ](t) :=
n
n
n
k=0
k=0
k=1
X n+1−k
1 X
a0 X n + 1 − k
Sk [f ](t) =
fb(k)eikt =
+
(ak cos(kt) + bk sin(kt))
n+1
n+1
2
n
b
geeignet ist. Durch Einsetzen der Definition
wir mit der Periodizität von f und den aus
Pn für kf (k) erhalten
Pn
1.§4.2.5 bekannten Summenformeln für k=0 q bzw. k=0 kq k
σn [f ](t)
Z π
Z π
n
n
X
n+1−k 1
1 X n+1−k
f (τ )e−iτ dτ eikt =
f (τ )ei(t−τ ) dτ
n + 1 2π −π
2π
n+1
−π
k=0
k=0
Z π
n
X
1
n + 1 − k iτ
=
f (t + τ )
e dτ
2π
n+1
−π
k=0
Z π
(n + 1)e−iτ − (n + 2) + ei(n+1)τ
f (t + τ )
dτ
=
2π(n + 1)(eiτ − e−iτ )2
−π
!2
Z π
sin( (n+1)τ
)
1
2
=
f (t + τ )Fn (τ ) dτ
mit Fn (τ ) :=
.
2π(n + 1)
sin( τ2 )
−π
=
Die Funktion Fn wird n-ter Fejér-Kern genannt.
283
KAPITEL 5. LINEARE ALGEBRA
4
F25
3
2
F10
1
F2
-Π
Π
Abbildung 5.19: Graphen einiger Fejer-Kerne.
Die Fejér-Kerne haben die folgenden charakteristischen Eigenschaften
(FK1) Fn (τ ) ≥ 0,
Z π
(FK2)
Fn (τ ) dτ = 1,
−π
Z
Fn (τ ) dτ = 0 für jedes δ > 0.
(FK3) lim
n→∞
[−π,π]r]−δ,δ[
Im Integral
Z
π
σn [f ](t) =
f (t + τ )Fn (τ ) dτ
−π
liefert der Integrand wegen (FK3) und (FK1) nur für τ nahe bei 0 einen Beitrag. Dank (FK2) ist das
Integral σn [f ](t) dann eine Näherung an f (t). Zum Zwecke der Approximation selbst kommt es also gar
nicht so sehr auf die genaue Gestalt der Kerne Fn an, sondern auf die drei oben genannten Eigenschaften.
Genügt eine Funktionenfolge (Fn )n diesen drei Bedingungen, so wird sie eine Dirac-Folge genannt. Damit
die Approximanden allerdings dann trigonometrische Polynome werden, müssen die Kerne Fn geeignete
Form haben.
Über die genauen Approximationseigenschaften der trigonometrischen Polynome σn [f ] gibt der folgende
Satz von Fejér Auskunft. Für den Beweis verweisen wir auf [Kön, Band 2, §10.1]. Wir erinnern uns
daran, dass für eine Regelfunktion f definitionsgemäß an jeder Stelle t im Definitionsbereich die beiden
einseitigen Grenzwerte
f (t−) := lim f (τ )
τ →t−
und
f (t+) := lim f (τ )
τ →t+
existieren (vgl. 4.§4.1.16).
Satz von Fejér. Ist f Fourier-transformierbar, so konvergiert die Folge der arithmetischen Mittel σn [f ]
an jeder Stelle gegen den Mittelwert der beiden einseitigen Grenzwerte von f , d.h.
lim σn [f ](t) =
n→∞
f (t−) + f (t+)
.
2
Ist f insbesondere in einem Punkt t stetig, so gilt limn→∞ σn [f ](t) = f (t). Ist f auf R stetig, so konvergiert
(σn )n auf R gleichmäßig gegen f .
284
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
In Sachen punktweiser Konvergenz verhält sich also die Folge (σn [f ])n angenehm und gerecht — wo f
nicht stetig ist, konvergiert sie gegen den Mittelwert aus links- und rechtseitigem Grenzwert von f . Wie
das Beispiel von Du Bois-Reymond zeigt, kann ein entsprechender Satz für die Folge der Fourier-Polynome
selbst nicht stimmen. Dafür gilt folgender Satz von Dirichlet (siehe z.B. [Kön, Band 1, §17.4]).
1.7 An welchen Stellen konvergiert eine Fourier-Reihe? Satz von Dirichlet. Hat eine Fouriertransformierbare Funktion f an der Stelle t eine links- und eine rechtsseitige Ableitung, so konvergiert
die Fourier-Reihe dort gegen den Mittelwert der beiden einseitigen Grenzwerte, d.h.
S∞ [f ](t) = lim Sn [f ](t) =
n→∞
f (t−) + f (t+)
2
falls f 0 (t+) und f 0 (t−) existieren.
Ist insbesondere f in t stetig differenzierbar, so gilt S∞ [f ](t) = f (t).
Beispiele.
(e) Die Rechteckschwingung r in 1.4 (a) hat an jeder Stelle t ∈ R sowohl eine links- als auch die rechtsseitige Ableitung und es gilt r0 (t−) = 0 = r0 (t+). Also konvergiert die Fourier-Reihe S∞ [r] an jeder Stelle t
gegen den Mittelwert von r(t−) und r(t+), d.h. S∞ [r] = r.
(f) Für die Sägezahnschwingung s aus 1.4 (b) hat auch überall links- und rechtsseitige Ableitungen. Da
aber an den Sprungstellen t = ±π, ±3π, . . . der Funktionswert nicht der Mittelwert zwischen den beiden
einseitigen Grenzwerten ist, konvergiert dort die Fourierreihe gegen 0 = (s(t−) + s(t+))/2 und nicht
gegen den Funktionswert d(t).
(g) Die Dreieckschwingung d und die Parabelschwingung p aus 1.4 (c) und (d) sind stetig und haben
überall einseitige Grenzwerte, also gilt S∞ [d] = d und S∞ [p] = p.
(h) Die Parabelgirlande welche durch Aneinanderhängen“ von q(t) := t(t−π) für t ∈ [0, π[ entsteht, liefert
”
ebenfalls eine stetige Funktion, die überall einseitige Grenzwerte besitzt. Nach dem Satz von Dirichlet
gilt also S∞ [q] = q. Man berechnet a0 = −π 2 /3, ak = 4/k 2 für k = 2, 4, . . ., ak = 0 für k = 1, 3, . . .,
bk = 0 für k ∈ N und erhält die Fourier-Reihe
2π 2
1
1
S∞ [q](t) = −
+ 4 cos 2t + 2 cos 4t + 2 cos 6t + · · · · · · .
3
2
3
Für t = 0 erhalten wir insbesondere
∞
0 = q(0) = −
X 1
2π 2
+4
,
3
k2
k=1
d.h.
∞
X
1
π2
=
.
2
k
6
k=1
1.8 Glattheit der Funktion und Fallen der Fourier-Koeffizienten. Die beiden folgenden Beobachtungen sind grundlegend für die Anwendung der Fourier-Transformation zur Datenkompression.
(h) Ist f eine C m -Funktion und zusammen mit ihren Ableitungen f, f 0 , . . . , f (m) Fourier-transformierbar,
so gilt fb(k) = O(|k|−m ) für |k| → ∞.
(i) Ist f Fourier-transformierbar und gibt es ein ε > 0 mit fb(k) = O(|k|−m−1−ε ) für |k| → ∞, so ist f
eine C m -Funktion.
Kurz gesagt: je glatter f , desto schneller fallen die Fourier-Koeffizienten und umgekehrt.“
”
Diese Beobachtung fußt auf der Formel
fb0 (k) = −ik fb(k)
für k ∈ Z,
285
KAPITEL 5. LINEARE ALGEBRA
falls f und f 0 Fourier-transformierbar. Eine partielle Integration liefert nämlich
1
fb0 (k) =
2π
π
Z π
1
1
ikt e
dt =
f (t)ike −
f (t) |{z}
f (t)ikeikt dt = −ik fb(k).
2π
2π −π
−π | {z }
−π
Z
π
0
ikt
↑
↓
Beweis. Zu (e): Existiert f (m) und ist dies eine stetige Funktion, so ist sie auf [−π, π] durch eine Zahl M
(m) (k)| ≤ M .
beschränkt und die Standardabschätzung für Integrale liefert |k m fb(k)| = | − (ik)m fb(k)| = |fd
P∞
Zu (f): Im Fall ck = O(|k|−m−1−ε ) fürP|k| → ∞ konvergiert f (t) := k=−∞ ck eikt zusammen mit den
∞
ersten m gliedweisen Ableitungen, da k=1 |k|−1−ε jeweils eine gleichmäßige Majorante ist.
1.9 Datenkompression und Fourier-Analyse funktioniert folgendermaßen: Werden Daten durch eine
glatte Funktion f modelliert (z.B. Bilddaten mit weichen Übergängen oder vernünftige“ Musik), so bildet
”
man die Fourier-Transformierte fb, überträgt von dieser schnell fallenden Nullfolge nur die ersten Glieder
und rekonstruiert aus selbigen eine Näherung an f . Damit lässt sich überraschend viel anstellen.
Wo Datenkompression durch Fourier-Transformation mangels Glattheit von f an ihre Grenzen stößt, hilft
eine Wavelet-Transformation, welche die Grundidee der Fourier-Transformation verfeinert.
1.10 Wie geht es weiter? Dieser Abschnitt war einer bodenständigen“ Einführung in die Fourier”
Analysis gewidmet: der Definition von Fourier-Koeffizienten, Fourier-Polynomen, Fourier-Entwicklung
sowie den grundlegenden Fragen zum Konvergenzverhalten von Fourier-Reihen.
Im folgenden Abschnitt ordnen wir die gesamte Fourier-Analysis in die lineare Algebra, genauer gesagt
in die Theorie der Orthonormalsysteme, ein.
2
Hilbert-Räume
2.1 Hilbertsche Funktionenräume. Ist I ein Intervalle und ist ρ : I → R+ eine stetige Gewichtsfunktion, so nennen wir
Z
L2ρ (I) := f : I → C | |f (x)|2 ρ(x) dx < ∞ ,
I
R
einen Hilbertschen Funktionenraum. Er besteht aus den Funktionen, für die I |f (x)|2 ρ(x) dx konvergiert
(für Details siehe §2.1.15). Diese Funktionen nennt man bezüglich des Gewichts ρ quadratintegrabel .
Wir stiften auf dem L2ρ (I) das Standardskalarprodukt
Z
hf |gi :=
f (x) g(x) ρ(x)dx
für f, g ∈ L2ρ (I).
I
Ähnlich wie im kleinen“ `2 (siehe §6.2.2) zeigt man, dass für f, g ∈ L2ρ (I) das Produkt f gρ über I
”
integrierbar ist.
In der oben genannten Form sind komplexwertige Funktionen zugelassen und es liegt ein unitärer Vektorraum vor. Will man nur reellwertige Funktionen betrachten, so kann man sich das Konjugieren sparen
und arbeitet in einem euklidischen Vektorraum.
Im einfachsten Fall ist die Gewichtsfunktion ρ = 1 oder eine positive Konstante. Für das Integrationsintervall [0, 2π] und reellwertige Funktionen ist beispielsweise
1
hf |gi :=
π
Z
2π
f (t) g(t) dt
0
286
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
üblich, d.h. ρ = 1/π. Die Orthogonalitätsrelationen für Cosinus und Sinus aus 4.§4.2.10 erhalten dann
die Form
Z 2π
2 für m = n = 0,
1
hcos(mt)| cos(nt)i =
m, n ∈ N0 ,
cos(mt) cos(nt) dt =
1 für m = n 6= 0
π 0
0 für m 6= n,
Z 2π
1
hcos(mt)| sin(nt)i =
cos(mt) sin(nt) dt = 0,
m ∈ N0 , n ∈ N,
π 0
(
Z
1 für m = n,
1 2π
hsin(mt)| sin(nt)i =
sin(mt) sin(nt) dt =
m, n ∈ N.
π 0
0 für m 6= n,
Für das Integrationsintervall [−π, π] und komplexwertige Funktionen nimmt man gerne
Z π
1
f (x)g(x) dx,
hf |gi :=
2π −π
d.h. ρ = 1/(2π). Dann bekommen die Orthogonalitätsrelationen für die Exponentialfunktion 4.§4.2.10
die Form
(
Z π
Z π
1 für k = l,
1
1
−ilt ikt
i(k−l)t
ilt ikt
e
e dt =
e
dt =
k, l ∈ Z.
he |e i =
2π −π
2π −π
0 für k =
6 l,
2.2 Anmerkung
R zur Null im Hilbertschen Funktionenraum. Streng genommen ist die quadratische Form f 7→ I |f (t)|2 ρ(t) dt auf dem L2ρ (I) gar nicht positiv definit Rsondern nur positiv semidefinit.
Für eine über I integrierbare Funktion g = |f |2 ρ ≥ 0 gilt nämlich schon I g(t) dt = 0 wenn g fast überall
verschwindet (vgl. später §2.1 oder früher 4.§4.1.22 und 4.§4.1.4).
Dieses Problem kann man auf zwei Arten umgehen: Entweder betrachtet man nur den Unterraum C 0 (I)
der stetigen Funktionen (die sind im Fall I = [c, d] automatisch
R integrierbar, aus g(t0 ) > 0 folgt dann
aber auch g(t) > 0 in einer ganzen Umgebung von t0 , so dass I g(t) dt dann nicht mehr verschwinden
kann). Oder man ist etwas lax und identifiziert“ in L2ρ (I) zwei Funktionen, die fast überall gleich sind.
”
2.3 Fourier-Analysis. Wir betrachten den Hilbert-Raum L21/(2π) ([−π, π]). Die Funktionen
. . . , e−2it , e−it , 1, eit , e2it , . . .
erfüllen die Orthogonalitätsrelationen bezüglich des Skalarprodukts
Z 2π
1
hf |gi =
f (t) g(t) dt
2π 0
und bilden damit ein ONS für den L21/(2π) ([−π, π]). Die konstante Gewichtsfunktion ρ = 1/(2π) beim
Skalarprodukt hat wie gesagt normierende Wirkung, andernfalls läge nur ein Orthogonalsystem vor.
Wir können die Fourier-Koeffizienten einer Funktion f als das Skalarprodukt
Z π
1
b
f (k) =
f (t)e−ikt dt = heikt |f i.
2π −π
von f mit eikt schreiben. Das n-te Fourier-Polynom erhält daher die Darstellung
Sn [f ](t) =
n
X
heikt |f ieikt
k=−n
und entpuppt sich gemäß §6.2.8 als Projektion von f in den von e−int , . . . , eint aufgespannten Unterraum.
Das formulieren wir jetzt abstrakt.
287
KAPITEL 5. LINEARE ALGEBRA
2.4 Fourier-Entwicklung, Fourier-Koeffizienten und Besselsche Ungleichung. Haben wir in
einem unendlichdimensionalen euklidischen oder unitären Vektorraum V ein Orthonormalsystem mit
abzählbar unendlich vielen Vektoren u1 , u2 , . . ., so können wir zu einem vorgegebenen Vektor v ∈ V für
jedes n ∈ N die orthogonale Projektion
vn := Pn (v) =
n
X
huk |viuk
k=1
von v in den von u1 , . . . , un aufgespannten Teilraum Un = Span(u1 , . . . , un ) bilden. Das nennen wir die
Fourier-Entwicklung und die Zahlen huk |vi die Fourier-Koeffizienten von v bezüglich des ONS u1 , u2 , . . ..
Die Vektoren v1 , v2 , . . . der Fourier-Entwicklung (die Fourier-Polynome“) sind gemäß 2.2.9 bestapproxi”
mierend (der n-te vn bezüglich des Unterraums Un ) mit
2
2
kv − vn k = kvk −
n
X
|huk |vi|2 .
k=1
Wegen U1 ⊂ U2 ⊂ . . . ist die Folge der Abstände kv − vn k monoton fallend. Damit konvergiert die Reihe
∞
X
|huk |vi|2 ≤ kvk2 .
k=1
Das ist die Besselsche Ungleichung.
Achtung. Bisher wird noch nichts darüber gesagt, dass die Fourier-Reihe
P∞
k=1 huk |viuk
konvergiert.
2.5 Vollständige Orthonormalsysteme. Ein Orthonormalsystem u1 , u2 , . . . eines euklidischen oder
unitären Vektorraums V heißt vollständig (kurz vONS ), wenn
lim kv − vn k = 0
n→∞
für alle v ∈ V wobei vn =
n
X
huk |viuk .
k=1
Für jedes v ∈ V konvergiert also die Fourier-Entwicklung im Sinne der Norm gegen v.
Ist u1 , u2 , . . . ein vollständiges Orthonormalsystem von V , so gilt
kvk2 =
∞
X
|huk |vi|2 ,
hv|wi =
k=1
∞
X
huk |vihuk |wi
k=1
für alle v, w ∈ V .
Beide Beziehungen werden Parsevalsche Gleichung genannt.
Beweis. Die erste Form
Pn der Parsevalschen Gleichung folgt sofort durch Grenzübergang in der Gleichung
kv − vn k2 = kvk2 − k=1 |huk |vi|2 für den minimalen Abstand bei Bestapproximation. Die zweite Form
der Parsevalschen Gleichung beschafft man sich über die Polarisationsgleichung 1.8.
2.6 Hilbert-Räume. Einen euklidischen oder unitären Vektorraum mit einem vollständigen Orthonormalsystem nennen wir einen (separablen) Hilbert-Raum.
Anmerkung. Das Adjektiv separabel“ rührt daher, dass wir nur endliche oder abzählbar unendliche
”
Orthonormalsysteme betrachten. Ein vollständiges Orthonormalsystem aus abzählbar unendlich vielen
Vektoren kann quasi als ein abzählbar unendlicher Ersatz für eine Basis aus endlich vielen Vektoren
gesehen
werden. Eine Basis im strengen Sinn ist das nicht, da jeder Vektor v nur durch eine Reihe
P∞
n=1 λn un aus Linearkombinationen der ONS-Vektoren u1 , u2 , . . . dargestellt wird, nicht durch eine
endliche Summe. Die für die Linearkombination“ benötigten Skalare λn erhält man — wie bei einem
”
ONS üblich — bequem mittels λn = hun |vi.
288
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
2.7 L2 -Theorie für Fourier-Reihen. Wir wenden die Ergebnisse der letzten Nummern auf FourierReihen an und erhalten:
Ist f Fourier-transformierbar, so gilt
kf − fn k2 ≥ kf k2 −
n
X
|fb(k)|2
k=−n
Pn
für jedes trigonometrische Polynom fn (t) = k=−n γk eikt und Gleichheit tritt genau dann ein, wenn
P∞
fn = Sn [f ] das n-te Fourier-Polynom ist. Insbesondere konvergiert k=−∞ |fb(k)|2 .
Durch
kf − fn k =
1
2π
π
Z
2
1/2
|f (t) − fn (t)| dt
−π
wird der Fehler im quadratischen Mittel zwischen f und fn gemessen. Das n-te Fourier-Polynom ist also
unter allen trigonometrischen Polynomen vom Grad n dasjenige mit dem kleinsten Fehler im quadratischen Mittel.
Insbesondere gilt kf − Sn [f ]k ≤ kf − σn [f ]k2 für das arithmetischen Mittel σn [f ] der ersten n FourierPolynome. Da σn [f ] für stetiges f gleichmäßig gegen f konvergiert, folgt kf − Sn [f ]k → 0 für n → ∞.
Damit bilden die reinen Schwingungen
. . . , e−2it , e−it , 1, eit , e2it , . . .
ein vONS für die 2π-periodischen stetigen Funktionen. Mit etwas mehr Aufwand beweist man:
Die reinen Schwingungen bilden ein vollständiges Orthonormalsystem für den L21/(2π) ([−π, π]), d.h. jede
2π-periodische Fourier-transformierbare Funktion wird im quadratischen Mittel durch ihre Fourier-Reihe
approximiert.
Wer will, kann das Ganze auch pompös ausdrücken.
Der L21/(2π) ([−π, π]) ist ein separabler Hilbert-Raum.
2.8∗ Weitere wichtige Orthonormalsysteme. Wir geben einige wichtige Orthonormalsysteme in
Hilbertschen Funktionenräumen an, die durch Gram-Schmidt-Orthonormalisierung erhalten werden. Solche ONS findet man in jeder guten Formelsammlung (z.B. [AbSteg, RyGrad]). Es gibt eine umfangreiche Theorie, welche für solche Funktionenfolgen Differentialgleichungen, Rekursionsformeln, erzeugende
Funktionen und vieles mehr zur Verfügung stellt.
(a) Gram-Schmidt-Orthonormalisierung für {1, x, x2 , . . .} in L2 ([−1, 1]) mit dem Standardskalarprodukt
Z
1
hf |gi :=
f (x) g(x) dx
−1
liefert die Legendre-Polynome oder Kugelfunktionen 1. Art
Pn (x) =
P0 (x) = 1,
P1 (x) = x,
1
2n n!
dn 2
(t − 1)n ,
dtn
P2 (x) =
1
(3x2 − 1),
2
n ∈ N0 ;
P3 (x) =
Die Legendre-Polynome sind nicht normiert, vielmehr gilt
kPn k2 =
Z
1
−1
Pn (x)2 dx =
2
.
2n + 1
1
(5x3 − 3x),
2
....
289
KAPITEL 5. LINEARE ALGEBRA
1
-1
1
1
1
1
-1
1
-1
-1
-1
1
1
-1
-1
Abbildung 5.20: Graphen der ersten Legendre-Polynome Ln (n = 0, 1, 2, 3).
(b) Gram-Schmidt-Orthonormalisierung für {1, x, x2 , . . .} in L21/√1−x2 ([−1, 1]) mit dem Skalarprodukt
1
Z
f (x) g(x) √
hf |gi :=
−1
1
dx
1 − x2
liefert die Chebyshev-Polynome 1. Art
T0 (x) = 1,
1
-1
1
Tn (x) =
2n−1
1
1
1
-1
-1
n ∈ N;
cos(n arccos x),
1
1
-1
-1
1
-1
-1
1
-1
Abbildung 5.21: Graphen der ersten Chebyshev-Polynome Tn (n = 0, 1, 2, 3).
T0 (x) = 1,
T1 (x) = x,
T2 (x) = 2x2 − 1,
2
(c) Gram-Schmidt-Orthonormalisierung für {1, x, x , . . .} in
Z
hf |gi :=
T3 (x) = 4x3 − 3x,
L2e−x ([0, +∞[)
....
mit dem Skalarprodukt
+∞
f (x) g(x)e−x dx
0
liefert die Laguerre-Polynome
Ln (x) = ex
L0 (x) = 1,
L1 (x) = −x + 1,
L2 (x) =
dn n −x
(x e ),
dxn
1 2
(x − 4x + 2),
2
n ∈ N0 ;
L3 (x) =
1
(−x3 + 92 − 18x + 6),
6
Ohne die Gewichtsfunktion ρ(x) = e−x würde dieser Hilbert-Raum keine Polynme enthalten.
....
290
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
1
1
1
1
1
-1
1
1
-1
1
-1
-1
Abbildung 5.22: Graphen von e−x/2 Ln (x) für die ersten Laguerre-Polynome Ln (n = 0, 1, 2, 3).
(d) Gram-Schmidt-Orthonormalisierung für {1, x, x2 , . . .} in L2e−x2 (] − ∞, +∞[) mit dem Skalarprodukt
Z
+∞
2
f (x) g(x)e−x dx
hf |gi :=
−∞
liefert die Hermite-Polynome
2
Hn (x) = (−1)n ex
1
-1
dn −x2
(e
),
dxn
1
1
-1
-1
H0 (x) = 1,
1
1
-1
-1
Abbildung 5.23: Graphen von √
1
1
-1
-1
1
√ Hn (x)
2n n! π
H1 (x) = 2x,
n ∈ N0 ;
1
-1
für die ersten Hermite-Polynome Hn (n = 0, 1, 2, 3).
H2 (x) = 4x2 − 2,
H3 (x) = 8x3 − 12x,
....
291
Kapitel 6
Analysis in mehreren Variablen
In diesem Kapitel führen wir die Analysis fort. Im Gegensatz zu Kapitel 4 stehen jetzt Funktionen
mehrerer Variabler im Vordergrund. Wir verwenden wieder Vektorpfeile, insbesondere um zwischen reellund vektorwertigen Funktionen zu unterscheiden, und lassen aus Platzgründen bei Spaltenvektoren auch
Zeilenschreibweise zu. Zur Vorbereitung empfiehlt sich die Lektüre von 4.§1–4.§3, insbesondere 4.§3.7.
§1
1
Differentialrechnung in mehreren Variablen
Differenzierbarkeit
1.1 Erinnerung: Differenzierbarkeit und lineare Approximierbarkeit bei Funktionen einer
Variablen. Wir erinnern uns an die O-Charakterisierung für Differenzierbarkeit einer Funktion in einer
Variablen aus 4.§3.1.6: Genau dann ist f : ]c, d[→ R in a ∈]c, d[ differenzierbar, wenn es eine Zahl m gibt
(die dann Ableitung von f in a genannt und mit f 0 (a) bezeichnet wird) mit
f (x) = f (a) + m(x − a) + O(|x − a|)
für x → a, x ∈]c, d[.
Geometrisch interpretiert bedeutet das: Genau dann ist f in a differenzierbar, es eine affine Abbildung
”
x 7→ f (a) + m(x − a) gibt, die f für x → a besser als linear approximiert.“ Die Steigung m der Tangente
ist dann gerade der Wert der Ableitung von f in a.
Diese Charakterisierung von Differenzierbarkeit übertragen wir jetzt auf Funktionen mehrerer Variabler.
1.2 Totale Differenzierbarkeit, Ableitung und Differential. Sei f~ : D ⊂ Rn → Rm eine Funktion
in n Variablen. Um zu erklären, was es bedeutet, dass f~ in einem Punkt ~a ∈ D differenzierbar ist, müssen
wir im Definitionsbereich um diesen Punkt herum Platz haben“. Wir verlangen daher, dass ~a ein innerer
”
Punkt von D ist, d.h. dass es eine Kugel um ~a gibt, die in D liegt: Kr (~a) ⊂ D für ein r > 0.
~ : Rn → Rm gibt mit
Wir nennen f~ im Punkt ~a (total ) differenzierbar , wenn es eine lineare Abbildung L
~ x − ~a) + O(k~x − ~ak)
f~(~x) = f~(~a) + L(~
für ~x → ~a.
~ heißt dann die Ableitung von f in a. Übliche Bezeichnungen sind
Die lineare Abbildung L
df~(~a),
f~0 (~a),
Df~(~a).
Ist D offen und ist f~ in jedem Punkt von D differenzierbar, so heißt f~ (total ) differenzierbar .
Im Fall m = 1, d.h. für eine reellwertige Funktion f , ist die Ableitung df (~a) eine Linearform Rn → R.
Man nennt sie auch Differential .
292
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
1.3 Tangentialabbildung und Tangentialraum. Totale Differenzierbarkeit von f~ im Punkt ~a mit
Ableitung df~(~a) bedeutet, dass f~ in einer Umgebung von ~a durch die affine Abbildung T~1 : Rn → Rm ,
T~1 (~x) := f~(~a) + df~(~a)(~x − ~a),
so gut approximiert werden kann, dass der Fehler
~ x − ~a) := f~(~x) − T~1 (~x) = f~(~x) − f~(~a) − df~(~a)(~x − ~a)
R(~
für ~x → ~a schneller als von erster Ordnung gegen Null geht:
~ x − ~a)k
kR(~
= 0.
~
x→~
a
k~x − ~ak
lim
Dabei bedeutet f~(~a) + df~(~a)(~x − ~a)“: werte die lineare Abbildung df~(~a) an der Stelle ~x − ~a aus und
”
verschiebe das Ergebnis um den Bildvektor f~(~a).
Die affine Abbildung T~1 nennen wir die Tangentialabbildung von f~ im Punkt ~a. Sie parametrisiert den
Tangentialraum an den Graphen von f~ im Punkt ~a. Wenn wir die Abhängigkeit von f~ und ~a deutlich
machen wollen, so schreiben wir auch T~1 [f~, ~a] statt T~1 .
Achtung. Im Sinn unserer Definition 1.2 ist die Ableitung einer Funktion f~ an einer Stelle ~a selbst
eine Funktion und zwar eine lineare Abbildung. Die Schreibweise df~(~a) macht deutlich, dass diese lineare Abbildung vom Punkt ~a abhängt. Aus der Ableitung df~(~a) wird dann die Tangentialabbildung
~x 7→ T~1 (~x) := f~(~a) + df~(~a)(~x − ~a). Dabei wird im Argument und im Bild so verschoben, dass die T~1 im
Punkt ~a den richtigen Wert hat: T~1 (~a) = f~(~a).
1.4 Lokale Koordinaten. Nach Übergang zur Variablen ~h := ~x − ~a können wir Differenzierbarkeit
auch in lokalen Koordinaten schreiben:
f~(~a + ~h) = f~(~a) + df~(~a)(~h) + O(k~hk)
für ~h → ~0.
~ x) + ~b, gebildet aus einer linearen
1.5 Erstes Beispiel. Jede affine Abbildung f~ : Rn → Rm , f~(~x) := L(~
n
m
m
~ ∈ L(R , R ) und einem Vektor ~b ∈ R , ist überall differenzierbar mit df~(~a) = L.
~ Dank
Abbildung L
~
~
~
~
~
der Linearität von L gilt nämlich f (~x) = f (~a) + L(~x − ~a), d.h. das Restglied R verschwindet.
Insbesondere ist die Abbildung x 7→ xk , Rn → R, auf die k-te Koordinate differenzierbar und stimmt
überall mit Ihrer Ableitung dxk überein. (Das ist eine korrekte Interpretation des Differentials dxk .)
1.6 Zusammenhang mit der Ableitung einer Funktion einer Variablen. Ist f eine reellwertige
differenzierbare Funktion einer Variablen, so ist die Ableitung von f im Sinn unserer Definition 1.2 selbst
eine reellwertige Funktion einer Variablen und zwar die lineare Abbildung
h 7→ f 0 (a) · h.
Selbige haben wir bisher stillschweigend mit der Zahl f 0 (a) identifiziert.
1.7 Differenzierbarkeit impliziert Stetigkeit. Ist f~ im Punkt ~a differenzierbar, so ist f~ dort auch
auch stetig.
Beweis. Lineare Abbildungen sind stetig. Aus der Darstellung f~(~x) = f~(~a) + df~(~a)(~x − ~a) + O(k~x − ~ak)
für ~x → ~a folgt insbesondere wegen df~(~a)(~x − ~a) → df~(~a)(~0) = ~0 für ~x → ~a auch f~(~x) → f~(~a) für ~x → ~a.
1.8 Komponentenweise Differenzierbarkeit. Genau dann ist f~ im Punkt ~a differenzierbar, wenn
dort alle Komponentenfunktionen f1 , . . . , fm differenzierbar sind.
Beweis. Unsere Definition von Differenzierbarkeit ist eine Grenzwertaussage und die Existenz eines
Grenzwerts kann komponentenweise nachgewiesen werden (vgl. 4.§2.1.3).
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
293
1.9 Wie bestimmen wir die Ableitung? Ist f~ im Punkt ~a total differenzierbar, so gilt definitionsgemäß
1 ~
f (~a + ~h) − f~(~a) − df~(~a)(~h) → ~0
für ~h → ~0
khk
und für ~h ist hierbei eine beliebige Annäherung an ~0 zugelassen. Insbesondere dürfen wir ~h auf den
Koordinatenachsen gegen Null schicken, d.h. wir setzen ~h = tek , k = 1, . . . , n, und betrachten t → 0.
Damit existieren auch für k = 1, . . . , n die Grenzwerte
~0
1 ~
f (~a + te~k ) − f~(~a) − df~(~a)(te~k )
t→0 t
1 ~
f (~a + te~k ) − f~(~a) − df~(~a)(e~k ) = ∂xk f~(~a) − df~(~a)(e~k ).
= lim
t→0 t
=
lim
(zur Definition der partiellen Ableitung ∂xk f~ siehe 4.§3.7.2). Totale Differenzierbarkeit von f~ im Punkt
~a impliziert dort also die Existenz aller partiellen Ableitungen. Und die partielle Ableitung ∂xk f~(~a) nach
der k-ten Variablen liefert gerade das Bild des k-ten Standardbasisvektors ~ek unter der Ableitung df~(~a).
f (a1 , a2 )
Schnitt parallel zur (x1 , y)-Ebene,
Tangentensteigung in x1 -Richtung: ∂x1 f (a1 , a2 ).
a2
(a1 , a2 )
a1
Schnitt parallel zur (x2 , y)-Ebene,
Tangentensteigung in y-Richtung: ∂x2 f (a1 , a2 ).
Abbildung 6.1: Zur Bestimmung der Ableitung df (~a) (hier für n = 2, m = 1).
Damit haben wir die Darstellungsmatrix der Ableitung df~(~a) bezüglich der Standardbasis bestimmt und
ein notwendiges Kriterium für totale Differenzierbarkeit erhalten. Das notieren wir in den nächsten beiden
Nummern.
294
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
1.10 Jacobi-Matrix. Existieren für f~ : D ⊂ Rn → Rm im Punkt ~a ∈ D alle n partiellen Ableitungen,
so nennen wir die aus diesen Vektoren als Spaltenvektoren gebildete (m × n)-Matrix
!
∂x1 f1 (~a) · · · ∂xn f1 (~a)
~
~
∂f
∂f
..
..
m×n
(~a), . . . ,
(~a) =
Jf~(~a) :=
∈R
.
.
∂x1
∂xn
∂x1 fm (~a) · · · ∂xn fm (~a)
die Jacobi-Matrix oder Funktionalmatrix von f~ in ~a. Weitere übliche Bezeichnungen sind
∂~x f~(~a),
∂ f~
(~a)
∂~x
∂(f1 , . . . , fm )
(~a).
∂(x1 , . . . , xn )
oder
Im Fall m = 1, d.h. für eine reellwertige Funktion f , ist die Jacobi-Matrix ein Zeilenvektor.
1.11 Notwendige Bedingung für Differenzierbarkeit. Ist f~ im Punkt ~a total differenzierbar, so
existieren dort alle partiellen Ableitungen ∂x1 f~(~a), . . . , ∂xn f~(~a). Die totale Ableitung df~(~a) ist eindeutig
bestimmt und besitzt als Darstellungsmatrix (bzgl. der Standardbasen) die Jacobi-Matrix von f~ in ~a, d.h.
∂x1 f1 (~a) · · · ∂xn f1 (~a)
x1
.
.
.
..
..
df~(~a)(~x) = Jf~(~a)~x =
.. .
∂x1 fm (~a) · · ·
∂xn fm (~a)
xn
Die Jacobi-Matrix ist also die Darstellungsmatrix der Ableitung bezüglich der Standardbasen im Raum
bzw. Bildraum. Daher ist Jf~(~a)~x das Matrix-Vektor-Produkt aus der Jacobi-Matrix Jf~(~a) und dem
Vektor ~x.
1.12 Vereinbarung. Da wir in der Analysis durchweg mit den Standardbasen arbeiten, können wir die
Ableitung mit der Jacobi-Matrix identifizieren.
1.13 Bemerkung nur Notation in der Physik. Durch Auswerten des obigen Matrix-Vektor-Produkts
erhalten wir für eine reellwertige Funktion f (bzw. für eine vektorwertige komponentenweise)
df (~a)(~x) =
∂f
∂f
(~a)x1 + · · · +
(~a)xn
∂x1
∂xn
für alle ~x ∈ Rn .
In der Physik schreibt man hierfür (nach klassischem Vorbild und unter Weglassung aller Argumente)
df =
∂f
∂f
dx1 + · · · +
dxn .
∂x1
∂xn
Die Differentiale df , dx1 , . . . , dxn sollte man dabei nicht als unendlich kleine Größen“ deuten. Eine
”
korrekte Interpretation ist die in 1.5 genannte: Das Differential dxk ist diejenige Linearform Rn → R, die
jedem Vektor ~x = (x1 , . . . , xn ) seine k-te Komponente xk zuordnet. Die Linearform df wird also mittels
df = ∂x1 f dx1 +· · ·+∂xn f dxn als Linearkombination der Standardlinearformen“ dxk dargestellt und man
”
müsste eigentlich df (~a) = ∂x1 f (~a)dx1 + · · · + ∂xn f (~a)dxn schreiben, da die Ableitung von f und damit
auch die Koeffizienten ∂x1 f (~a), . . . , ∂xn f (~a) der Linearkombination ja i.A. von der Stelle ~a abhängen, an
der die gebildet werden.
1.14 Beispiele.
2
2
(a) Die durch f (x, y) := ye2−x −y definierte reellwertige Funktion f : R2 → R besitzt in jedem Punkt
(a, b) ∈ R2 partielle Ableitungen bezüglich beider Variablen. Es gilt
∂x f (a, b)
∂y f (a, b)
2
= −2xye2−x
=
2
−y 2 2
(x,y)=(a,b)
2−x2 −y 2 (1 − 2y )e
= −2abe2−a
−b2
2
(x,y)=(a,b)
,
2−a2 −b2
= (1 − 2b )e
.
295
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Die Ableitung von f in (a, b) lautet also
2
2
2
2
df (a, b) = −2abe2−a −b , (1 − 2b2 )e2−a −b .
Wenn f in (a, b) differenzierbar ist, so wird die Tangentialebene an den Graphen von f in (a, b) parametrisiert durch die Tangentialabbildung
x−a
T1 (x, y) = T1 [f, (a, b)](x, y) = f (a, b) + df (a, b)
y−b
2
2
x−a
−a −b
−a2 −b2
2 2−a2 −b2
= be
+ −2abe
, (1 − 2b )e
y−b
=
2
[−2abx + (1 − 2b2 )y + 2b(a2 + b2 )]e2−a
−b2
4
2
0
1
-2
-4
0
-1
0
-1
1
2
Abbildung 6.2: Graphen von f (x, y) = ye2−x
−y 2
und Tangentialabbildung im Punkt (a, b) = (−1/2, 3/4).
Wir wissen noch nicht, ob f in (a, b) wirklich differenzierbar ist, haben aber mit der Jacobi-Matrix die
Darstellungsmatrix der einzigen in Frage kommenden linearen Abbildung bestimmt. In 1.15 werden wir
tatsächlich belegen können, dass f differenzierbar ist und dass T1 [f, (a, b)] diejenige affine Abbildung ist,
die f im Punkt (a, b) im Sinn der Definition 1.2 O-approximiert.
(b) Nun betrachten wir die vektorwertige Abbildung f~ : R2 → R2 mit der Zuordnungsvorschrift
f~(x, y) := (ex cos y, ex sin y) .
Hier lautet die Ableitung
df~(x, y) =
!
∂x f1 (x, y) ∂y f1 (x, y)
∂x f2 (x, y) ∂y f2 (x, y)
=
ex cos y
−ex sin y
ex sin y
ex cos y
!
.
Damit erhalten wir die Tangentialabbildung zu f~ im Punkt (1, π/6) zu
x−1
T~1 (x, y) = T~1 [f~, (1, π/6)](x, y) = f~(1, π/6) + df~(1, π/6)
y − π/6
√
!
√
3e/2 −e/2
3e/2
x−1
+
=
√
e/2
y − π/6
e/2
3e/2
√
!
6 3x − 6y + π
e
=
.
√
√
12 6x + 6 3y − 3π
296
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
f~
1
1
1
-1
1
-1
-1
PP
q
P
f~, T~1
1
-1
1
-1
1
-1
Abbildung 6.3: Lokales Abbildungsverhalten der Funktion f~(x, y) = (ex cos y, ex sin y) und der zugehörigen Tangentialabbildung im Punkt (1, π/6).
(c) Dieses Beispiel beleuchtet das Verhältnis zwischen partieller und totaler Differenzierbarkeit. Wir
betrachten die aus 4.§2.2.4 bekannte Funktion g mit
2xy
für (x, y) 6= (0, 0),
g(x, y) := x2 + y 2
0
für (x, y) = (0, 0).
Die Existenz der beiden partiellen Ableitungen im Ursprung zeigen wir unter Verwendung der Definition:
g(h, 0) − g(0, 0)
0−0
= lim
= 0,
h→0
h
h
g(0, h) − g(0, 0)
0−0
= lim
= lim
= 0.
h→0
h→0
h
h
∂g
(0, 0)
∂x
∂g
(0, 0)
∂y
=
lim
h→0
Wie in 4.§2.2.4 gezeigt ist g aber im Ursprung nicht einmal stetig.
-1
0
1
-1
0
1
-1
0
2
1
1
1
1
1
0
0
0
-1
-1
-1
-1
0
-1
1
0
0
-1
-1
1
0
1
-2
-2
-1
0
1
2
Abbildung 6.4: Eine in (0, 0) unstetige und damit auch nicht differenzierbare Funktion, die dort alle
partiellen Ableitungen besitzt.
Die Existenz der partiellen Ableitungen ist also keine Gewähr für totale Differenzierbarkeit, ja nicht
einmal für Stetigkeit. Das ist eigentlich auch klar: Zur Bestimmung der partiellen Ableitungen von f~ in ~a
muss man die Werte von f~ nur auf den zu den Achsen parallelen Geraden durch ~a kennen. Außerhalb
kann sich f~ beliebig unanständig“ verhalten. Genau das haben wir in obigem Beispiel ausgenutzt.
”
297
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
1.15 Hauptkriterium für Differenzierbarkeit. Existieren für f~ im Punkt ~a alle partiellen Ableitungen und sind selbige in ~a stetig, so ist f~ in ~a total differenzierbar. Insbesondere ist eine C 1 -Funktion in
jedem Punkt ihres Definitionsbereichs differenzierbar.
Beweis∗ . Differenzierbarkeit wird gemäß 1.8 komponentenweise nachgeprüft. Wir müssen also nur reellwertige Funktionen (d.h. den Fall m = 1) betrachten. Wir führen den Beweis für n = 2, für n ≥ 2 verläuft
er analog. Sei also f : D ⊂ R2 → R im Punkt (a, b) ∈ D stetig partiell differenzierbar. In der Zerlegung
f (a + h1 , b + h2 ) − f (a, b) = [f (a + h1 , b + h2 ) − f (a, b + h2 )] + [f (a, b + h2 ) − f (a, b)]
wenden wir auf beide Summanden den eindimensionalen Mittelwertsatz an, d.h. es gibt Zahlen ah zwischen a und a + h1 bzw. bh zwischen b und b + h2 mit
∂f
∂f
∂f
∂f
(ah , b + h2 ) −
(a, b) ,
f (a + h1 , b + h2 ) − f (a, b + h2 ) = h1 (ah , b + h2 ) = h1 (a, b) + h1
∂x
∂x
∂x
∂x
∂f
∂f
∂f
∂f
f (a, b + h2 ) − f (a, b) = h2 (a, bh ) = h2 (a, b) + h2
(a, bh ) −
(a, b) .
∂y
∂y
∂y
∂y
Für h = (h1 , h2 ) → (0, 0) gilt auch h1 , h2 → 0 und damit ah , bh → 0. Mit der Stetigkeit der beiden
partiellen Ableitungen in (a, b) folgt nun
f (a + h1 , b + h2 ) − f (a, b)
2
∂f
∂f
(a, b) + h2 (a, b) + h1 O(1) + h2 O(1)
∂x
∂y
= df (a, b)h + O(khk)
für h = (h1 , h2 ) → (0, 0).
= h1
Umgang mit differenzierbaren Funktionen
2.1 Rechenregeln für Ableitungen.
(a) (Linearität) Sind f~, ~g : D ⊂ Rn → Rm im Punkt ~a ∈ D differenzierbar, so ist für λ, µ ∈ R auch die
Funktion λf~ + µ~g : D → Rm in ~a differenzierbar mit
d(λf~ + µ~g )(~a) = λdf~(~a) + µd~g (~a),
(b) (Produktregel ) Sind f, g : D ⊂ Rn → R reellwertig und im Punkt ~a ∈ D differenzierbar, so ist auch
die Funktion f g : D → R in ~a differenzierbar mit
d(f g)(~a) = f (~a)dg(~a) + g(~a)df (~a).
(c) (Kettenregel ) Ist f~ : D ⊂ Rn → Rm im Punkt ~a ∈ D differenzierbar, ist G ⊂ Rm eine Umgebung von
f~(~a) und ist ~g : G → Rp in f~(~a) differenzierbar, so ist auch ~g ◦ f~ : D → Rp in ~a differenzierbar mit
d(~g ◦ f~)(~a) = d~g (f~(~a)) ◦ df~(~a),
Linearität und Produktregel kann man unter Weglassung der Argumente kurz in der Form
d(λf~ + µ~g ) = λdf~ + µd~g ,
bzw.
d(f g) = f dg + gdf
notieren. Für die Kettenregel ist das nicht empfehlenswert, da es dort ja darauf ankommt, welche Ableitung an welcher Stelle ausgewertet wird.
Achtung. Die Produktregel kann nur für reellwertige Funktionen angewendet werden. (Warum?)
Beweis∗ . (a) ergibt sich aus der Linearität des Grenzwerts und den Rechenregeln für lineare Abbildungen.
Zu (b): Wir setzen A := df~(~a), ~b := f~(~a) und B := d~g (~b). Sind f~ in ~a und ~g in ~b differenzierbar, so gilt
1 ~ ~
R(h) = ~0,
~
h→~
0 k~
hk
f~(~a + ~h)
~ ~h)
= f~(~a) + A~h + R(
mit lim
~g (~b + ~k)
~ ~k)
= ~g (~b) + B~k + S(
mit lim
1 ~ ~
S(k) = ~0.
~
k→~
0 k~
kk
298
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Wir erhalten
(~g ◦ f~)(~a + ~h)
~ ~h))
= ~g (f~(~a + ~h)) = ~g (f~(~a) + A~h + R(
~ ~h)) + S(A~h + R(
~ ~h))
= ~g (f~(~a)) + B(A~h + R(
=
(~g ◦ f~)(~a) + BA~h + T~ (~h)
~ ~h) + S(A
~ ~h + R(
~ ~h))
mit T(~h) := B R(
und müssen zeigen, dass
lim
~
h→~
0
1 ~ ~
T (h) = ~0.
~
khk
Um dies nachzuweisen benützen wir die Darstellung
1
1 ~ ~
~ ~h) +
T (h) =
B R(
k~hk
k~hk
| {z }
0
→~
~ ~h)k
kA~h + R(
k~hk
|
{z
}
beschränkt für ~
h →~
0
1
~ ~h + R(
~ ~h))
S(A
~ ~h)k
kA~h + R(
|
{z
}
für ~h → ~0
0
→~
und zeigen, dass die drei Teilterme sich wie angegeben verhalten.
Für den ersten Teilterm folgt dies wegen
1
~ ~h) = B 1 R(
~ ~h) → ~0
B R(
~
khk
k~hk
| {z }
für ~h → ~0
0
→~
~ da die lineare Abbildung ~x 7→ B~x in ~x = ~0 stetig ist mit B~0 = ~0.
aus der Voraussetzung über R,
Mit ähnlicher Argumentation gilt auch
~ ~h) → ~0
A~h + R(
für ~h → ~0
~
und wir erhalten das Grenzverhalten des dritten Teilterms aus der Voraussetzung über S.
Die Beschränktheit des zweiten Teilterms schließlich ergibt sich mit der Definition der Matrizennorm
5.§6.5.3 und der Stetigkeit der Norm aus
1
~ ~h)k
~ ~h)k
kA~h + R(
kAkk~hk + kR(
~
~
R(h) → ~0
für ~h → ~0.
≤
= kAk + k~hk
k~hk
k~hk
Zu (c): Durch Anwenden der Kettenregel (b) auf G(u, v) := uv und F~ (~x) := (f (~x), g(~x)) erhalten wir
~ ◦ F~ )(~a) = (f (~a), g(~a))dF~ (~a) = f (~a)df (~a) + g(~a)dg(~a).
d(f g)(~a) = d(G
2.2 Beispiele zur Kettenregel.
(d) Die Ableitung eines Vektorfeldes ~v längs einer Bahnkurve t 7→ ~x(t) lautet
n
X ∂
d
~v (~x(t)) = d~v (~x(t))ẋ(t) =
~v (~x(t))ẋk (t).
dt
∂xk
k=1
Man beachte, dass d~v (~x(t)) eine (n × n)-Matrix ist und ~x˙ (t) ein Vektor.
(e) Eine wichtige Anwendung der Kettenregel betrifft den Fall, dass g eine reellwertige Funktion in m
Variablen ist. Komponentenweise lautet sie dann
m
X
∂(g ◦ f~)
∂g ~
∂fl
(~x) =
(f (~x))
(~x)
∂xk
∂yl
∂xk
für k = 1, . . . , n.
l=1
Es wird also wie bei der eindimensionalen Kettenregel nachdifferenziert, jetzt aber nach allen Komponenten und mit Aufsummieren.
299
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Genügen daher zwei differenzierbare Funktionen f : D ⊂ R → R und g : D×f (D) ⊂ R2 → R der Identität
für x ∈ D,
g(x, f (x)) = 0
so folgt durch Differenzieren mit der Kettenregel auch
0=
∂g
∂g
(x, f (x)) +
(x, f (x))f 0 (x)
∂x
∂y
für x ∈ D,
2.3∗ Wiederholung: höhere partielle Ableitungen. Wir rufen uns an zwei Beispielen in Erinnerung,
wie man höhere partielle Ableitungen berechnet (vgl. 4.§3.7.3).
(f) Für die durch
2
f (x, y) := ye2−x
−y 2
definierte C ∞ -Funktion f : R2 → R lauten die sämtlichen partiellen Ableitungen bis zur Ordnung zwei
2
2
∂f
(x, y) = (1 − 2y 2 )e2−x −y
∂y
2
2
∂f
(x, y) = −2xye2−x −y ,
∂x
2
2
∂f 2
(x, y) = 2(2x2 − 1)ye2−x −y ,
∂2x
2
2
∂f 2
(x, y) = 2(2y 2 − 3)ye2−x −y ,
∂2y
2
2
∂f 2
∂f 2
(x, y) = 2(2x2 − 1)xe2−x −y =
(x, y).
∂y∂x
∂x∂y
In diesem Beispiel stimmen die beiden gemischten partiellen Ableitungen ∂y,x f und ∂x,y f überein und
sind auf dem ganzen Definitionsbereich stetig.
(g) Jetzt präsentieren wir eine Funktion, bei der die gemischten partiellen Ableitungen zweiter Ordnung
nicht übereinstimmen. Wir setzen
2
2
4xy(x − y ) für (x, y) 6= (0, 0),
f (x, y) :=
x2 + y 2
0
für (x, y) = (0, 0),
und definieren so eine Funktion f : R2 → R, die in Polarkoordinaten die Darstellung
f (r cos(ϕ), r sin(ϕ)) = r2 sin(4ϕ)
besitzt. In jedem Punkt (x, y) 6= (0, 0) besitzt f stetige partielle Ableitungen beliebiger Ordnung. Unter
Beachtung der Symmetrie f (x, y) = −f (y, x) berechnen wir dann
∂f
4y(x4 + 4x2 y 2 − y 4 )
∂f
(x, y) =
= − (x, y),
∂x
(x2 + y 2 )2
∂y
∂2f
4(x6 + 9x4 y 2 − 9x2 y 4 − y 6 )
∂2f
(x, y) =
=
(y, x).
2
2
3
∂x∂y
(x + y )
∂y∂x
Weil f auf den Koordinatenachsen verschwindet, gilt
∂f
∂f
(0, 0) = 0 =
(0, 0).
∂x
∂y
Für partiellen Ableitungen zweiter Ordnung erhalten wir somit
∂2f
(0, 0)
∂y∂x
=
∂2f
(0, 0)
∂x∂y
=
lim
∂f
∂x (0, h)
h→0
lim
h→0
∂f
∂y (h, 0)
−
h
∂f
∂x (0, 0)
−
∂f
∂y (0, 0)
h
= lim
−4h5
h4
h
h→0
= lim
h→0
−0
= −4,
4h5
h4
−0
= 4.
h
Im Ursprung führt also eine unterschiedliche Differentiationsreihenfolge zu unterschiedlichen Ergebnissen.
Man kann zeigen, das die beiden gemischten partiellen Ableitungen ∂y,x f und ∂x,y f in (0, 0) unstetig sind.
Zum Glück passiert das nur bei unanständigen“ Funktionen.
”
300
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
2.4 Vertauschbarkeit gemischter partieller Ableitungen. (Satz von Schwarz) Für jede C 2 -Funktion
f~ gilt
∂ 2 f~
∂ 2 f~
=
für k, l = 1, . . . , n.
∂xk ∂xl
∂xl ∂xk
Beweis∗ . Da im Satz f~ nur als eine Funktion von zwei Veränderlichen betrachtet wird, genügt es, den Fall
n = 2 zu betrachten. Nach einer Verschiebung brauchen wir die angegebene Beziehung nur im Ursprung
zu beweisen. Da der Beweis für jede Komponentenfunktionen einzeln geführt werden kann, können wir f
außerdem als reellwertig voraussetzen. Wir werden zeigen, dass der Ausdruck
f (h, h) − f (h, 0) − f (0, h) + f (0, 0)
h2
für h → 0 sowohl gegen ∂x,y f (0, 0) als auch gegen ∂y,x f (0, 0) konvergiert. Setzen wir
D(h) :=
ϕ(x) :=
f (x, h) − f (x, 0)
,
h
ψ(y) :=
f (h, y) − f (0, y)
,
h
so erhalten wir
ϕ(h) − ϕ(0)
ψ(h) − ψ(0)
=
.
h
h
Wenden wir den Mittelwertsatz 4.§3.3.5 für Funktionen einer Variablen an, so gilt D(h) = ϕ0 (x1 ) = ψ 0 (y2 )
mit gewissen x1 , y2 zwischen 0 und h. Unter Beachtung der Definition von ϕ und ψ folgt
D(h) =
∂x f (x1 , h) − ∂x f (x1 , 0)
∂y f (h, y2 ) − ∂y f (0, y2 )
=
.
h
h
Auf die erste Differenz wenden wir nun den Mittelwertsatz 4.§3.3.5 in der zweiten Variablen, auf die
zweite Differenz in der ersten Variablen an. Wir erhalten D(h) = ∂y,x f (x1 , y1 ) = ∂x,y f (x2 , y2 ) mit
gewissen x2 , y1 zwischen 0 und h. Für h → 0 gilt (x1 , y1 ) → (0, 0) und (x2 , y2 ) → (0, 0). Die Stetigkeit
der beiden gemischten partiellen Ableitungen impliziert dann wie behauptet ∂y,x f (0, 0) = ∂x,y f (0, 0).
D(h) =
3
Reellwertige Funktionen: Gradient und Richtungsableitungen
3.1 Der Gradient. Ist eine reellwertige Funktion f : D ⊂ Rn → R in einem Punkt ~a ∈ D total
differenzierbar, lautet die Tangentialabbildung in lokalen Koordinaten
~h 7→ f (~a) + df (~a)(~h).
Da wir in der Analysis den Rn immer mit der Standardbasis versehen, können wir den Wert der Linearform
df (~a) an der Stelle ~h als das Produkt des Zeilenvektors (∂x1 f (~a), . . . , ∂xn f (~a)) mit dem Spaltenvektor ~h
berechnen. Nun kann jede Linearform Rn → R als ein Skalarprodukt ~h 7→ h~c|~hi mit einem festen Vektor
~c ∈ Rn darstellen werden. In unserem Fall ist dies gerade der Vektor
∂x1 f (~a)
..
∇f (~a) = grad f (~a) :=
,
.
∂xn f (~a)
genannt Gradient von f an der Stelle ~a. Es gilt also
df (~a)(~h) = h∇f (~a)|~hi
und für die Tangentialabbildung zu f im Punkt ~a erhalten wir
T1 (~x) = T1 [f, ~a](~x) = f (~a) + h∇f (~a)|~x − ~ai.
3.2 Rechenregeln für den Gradienten erhalten wir sofort aus 2.1.
(a) (Linearität) ∇(λf + µg) = λ∇f + µ∇g,
(b) (Produktregel ) ∇(f g) = f ∇g + g∇f ,
(c) (Kettenregel )
d
x(t))
dt u(~
= h∇u(~x(t)|~x˙ (t)i für ein C 1 -Skalarfeld u und einen Weg ~x.
301
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
3.3 Richtungsableitungen. Jeder Vektor ~v ∈ Rn mit k~v k = 1 heißt eine Richtung im Rn . Existiert
für eine Funktion f : D ⊂ Rn → R und einen inneren Punkt ~a ∈ D der Grenzwert
d
1
∂f ~
f (~a) := f (~a + t~v )
= lim (f (~a + t~v ) − f (~a)),
t→0
∂~v
dt
t
t=0
so nennen wir f~ in ~a in der Richtung ~v differenzierbar und den obigen Grenzwert Richtungsableitung
von f~ in Richtung ~v . Weitere gebräuchliche Bezeichnungen sind
f~~v (~a)
∂~v f~(~a).
oder
Die Richtungsableitung in Richtung ~v = ~ek für einen der Standardbasisvektoren ist gerade die partielle
Ableitung nach der k-ten Variablen
∂f
∂f
=
∂~ek
∂xk
für k = 1, . . . , n.
Eine geometrische Interpretation der Richtungsableitung erhalten wir folgendermaßen: Sie gibt die Steigung des Graphen von t 7→ f (~a + t~v ) in t = 0 an.
Beispiel. Die Richtungen ~v ∈ R2 haben die Form ~v = (cos(ϕ), sin(ϕ)) mit ϕ ∈ [0, 2π[. Für die Funktion
2
2x y
für (x, y) 6= (0, 0),
g(x, y) := x2 + y 2
0
für (x, y) = (0, 0),
berechnen wir die Richtungsableitung in Richtung ~v mit Hilfe der Definition zu
1
2t3 cos(ϕ)2 sin(ϕ)
g(t cos(ϕ), t sin(ϕ)) − g(0, 0)
= cos(ϕ) sin(2ϕ).
= lim
t→0 t (t cos(ϕ))2 + (t sin(ϕ))2
t→0
t
∂~v g(0, 0) = lim
Insbesondere gilt ∂~v g(0, 0) = 0 genau dann, wenn ~v eine der beiden Koordinatenrichtungen ~e1 oder ~e2 ist.
Damit ist g in (0, 0) nicht total differenzierbar, andernfalls würde die in der nächsten Nummer beweisene
Formel zeigen, dass auch alle anderen Richtungsableitungen verschwinden müssen.
-1
0
1
-1
0
1
-1
0
2
1
1
1
1
1
0
0
0
-1
-1
-1
-1
0
-1
1
0
0
-1
-1
1
0
-2
-2
1
-1
0
1
2
Abbildung 6.5: Eine Funktion, die in (0, 0) alle Richtungsableitungen besitzt, aber nicht total differenzierbar ist.
3.4 Berechnung von Richtungsableitungen. Ist f im Punkt ~a total differenzierbar, so existieren die
Richtungsableitungen für alle Richtungen ~v ∈ Rn , k~v k = 1, und es gilt
∂~v f (~a) = h∇f (~a)|~v i.
Beweis. Man wende die Kettenregel 3.2 (c) auf u = f und ~x(t) = ~a + t~v an.
3.5 Geometrische Bedeutung des Gradienten. Ist f im Punkt ~a total differenzierbar, so nimmt
∂~v f (~a) für n ≥ 2 alle Werte im Intervall [−k∇f (~a)k, k∇f (~a)k] an. Ist ∇f (~a) 6= ~0, so wird die Richtungsableitung maximal bzw. minimal in Richtung
~vmax =
1
∇f (~a),
k∇f (~a)k
~vmin = −~vmax =
Für jede Richtung ~v ⊥ ~vmax dagegen gilt ∂~v f (~a) = 0.
−1
∇f (~a).
k∇f (~a)k
302
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Kurz gesagt: Der Gradient gibt die Richtung stärksten Anstiegs (lat. gradiens: fortschreitend) an, sein
”
Betrag die maximale Steigung. Die gegengesetzte Richtung ist diejenige stärkstens Abfalls, senkrecht zu
diesen Richtungen bewegt man sich in erster Nährung auf gleicher Höhe.“
Beweis. Aus der geometrischen Interpretation der Cauchy-Schwarzschen Ungleichung folgt, dass das
Skalarprodukt h∇f (~a)|~v i alle Werte zwischen −k∇f (~a)k und k∇f (~a)k durchläuft, wenn wir den normierten Vektor ~v ∈ Rn so bewegen können, dass grad f (~a) und ~v alle Winkel zwischen 0 und π miteinander
einschließen. Dies ist für Raumdimensionen n ≥ 2 möglich. Der maximale (minimale) Wert wird hierbei
für ~v = ~vmax (~vmin = −vmax ) angenommen.
Beispiel. Abbildung 6.6 zeigt den Graphen und Niveaumengen einer Funktion zusammen mit den Gradienten in ausgewählten Punkten. In Bereichen mit eng aneinander liegenden Niveaulinien ist große
Steigung zu erwarten, d.h. ein betragsmäßig großer Gradient.
Abbildung 6.6: Gradienten für vier Punkte, davon einer mit verschwindendem Gradienten.
3.6 Hauptsatz der Differential- und Integralrechung für Skalarfelder. Ist f : D ⊂ Rn → R eine
C 1 -Funktion und ist ~x : [c, d] → D ein C 1 -Weg in D mit Anfangspunkt ~x1 = ~x(c) und Endpunkt ~x2 = ~x(d),
so gilt
Z d
f (~x2 ) − f (~x1 ) =
h∇f (~x(t)|~x˙ (t)i dt.
c
Beweis. Das ergibt sich aus dem Hauptsatz 4.§4.2.5 und der Kettenregel 3.2 (c) mittels
d
Z
f (~x2 ) − f (~x1 ) = f (~x(d)) − f (~x(c)) =
c
d
f (~x(t)) dt =
dt
Z
d
h∇f (~x(t)|~x˙ (t)i dt.
c
3.7 Schrankensätze. Ist f : D ⊂ Rn → R ein C 1 -Skalarfeld und liegt für zwei Punkte ~x1 , ~x2 ∈ D auch
die Verbindungsstrecke S ganz in D, so gilt
|f (~x2 ) − f (~x1 )| ≤ M k~x2 − ~x1 k
mit M := max{k∇f (~x)k | ~x ∈ S}.
Ist ~v : D ⊂ Rn → Rm eine vektorwertige C 1 -Funktion und liegt für zwei Punkte ~x1 , ~x2 ∈ D auch die
Verbindungsstrecke S ganz in D, so gilt
k~v (~x2 ) − ~v (~x1 )| ≤ Lk~x2 − ~x1 k
mit L := max{kd~v (~x)k | ~x ∈ S}.
Beweis. Für ein Skalarfeld folgt die Behauptung aus dem Hauptsatz für Skalarfelder 3.6 und der Standardabschätzung für Integrale 4.§4.1.18. Für ein Vektorfeld gehe man komponentenweise vor und verwende
die Cauchy-Schwarzsche Ungleichung.
303
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
3.8 Identitätssatz für Skalarfelder. Verschwindet der Gradient einer C 1 -Funktion f auf einem Gebiet,
so ist f dort konstant.
Beweis. Da f auf einem Gebiet definiert ist, können wir zwei beliebige Punkte durch einen Polygonzug
verbinden. Längs der einzelnen Teilstrecken ist dann f nach dem Schrankensatz 3.7 konstant. Also hat f
auch in den beiden betrachteten Punkten denselben Wert.
4
Taylor-Entwicklung und lokale Extrema
4.1 Unser Wunsch. Wir wollen eine Funktion f : D ⊂ Rn → R in n Variablen lokal in einem Punkt ~a
durch Polynome in n Variablen approximieren mit einem Fehler der schneller als von n-ter Ordnung
gegen Null geht. Liegt für ein ~h ∈ Rn die Verbindungsstrecke von ~a mit ~a + ~h in D, so können wir für die
Funktion
g(t) := f (~a + t~h),
t ∈ [0, 1],
eine Taylor-Entwicklung in einer Variablen bei t = 0 machen und selbige in t = 1 auswerten. Falls f eine
C 1 -Funktion ist, so erhalten wir mit der Kettenregel
g 0 (t) = h∇f (~a + t~h)|~hi =
n
X
∂
f (~a + t~h)hk ,
∂xk
k=1
das ist ein Polynom ersten Grades in den n Variablen h1 , . . . , hn . Falls f sogar eine C 2 -Funktion ist, liefert
eine nochmalige Anwendung der Kettenregel
g 00 (t) =
n
X
hk
k=1
n
n
X
X
∂ ∂f
∂2f
(~a + t~h)hl =
(~a + t~h)hk hl ,
∂xl ∂xk
∂xk xl
l=1
k,l=1
also ein Polynom zweiten Grades in n Variablen. Wenn f stetige partielle Ableitungen dritter und höherer
Ordnung besitzt, können wir entsprechend fortfahren. Die Funktionen
g(0)
g(0) + tg 0 (0)
= f (~a),
= f (~a) +
n
X
∂f
(~a)hν1 ,
∂x
ν1
ν =1
1
g(0) + tg 0 (0) +
2
t 00
g (0)
2
n
n
X
∂f
1 X
∂2f
= f (~a) +
(~a)hν1 +
(~a)hν1 hν2 ,
∂xν1
2 ν ,ν =1 ∂xν1 xν2
ν =1
1
1
2
..
.
bieten sich uns daher als Taylor-Polynome an.
4.2 Taylor-Polynome in mehreren Variablen. Ist f in einer Umgebung von ~a von der Klasse C r ,
r ∈ N0 , so nennen wir
Tr (~x)
:=
r
X
1 (k)
d f (~a)(~x − ~a),
k!
k=0
wobei d(k) f (~a)(~h) :=
n
X
νk =1
···
n X
n
X
ν2 =1 ν1
∂kf
(~a) · hνk · · · hν2 hν1
∂xνk · · · ∂xν2 ∂xν1
=1
!
für h ∈ Rn ,
das r-te Taylor-Polynom (oder den r-Jet) von f im Punkt ~a. Will man die Abhängigkeit von f und ~a
deutlich machen, so schreibt man statt Tr auch Tr [f ] oder Tr [f, ~a]. Die Abbildung df (k) (~a) heißt k-te
Ableitung von f im Punkt ~a.
304
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Beispiel. Für zwei Variable (d.h. n = 2) und dem Ursprung als Entwicklungspunkt lautet das r-te
Taylor-Polynom
Tr (x, y)
= f (0, 0)
1 ∂f
1 ∂f
(0, 0)x +
(0, 0)y
+
0 ∂x
1 ∂y
2
2
2
2 ∂ f
2 ∂ f
2 ∂ f
2
+
(0, 0)x +
(0, 0)xy +
(0, 0)y 2
2
0 ∂x
1 ∂x∂y
2 ∂y 2
3
3
3
3
3 ∂ f
3 ∂ f
3 ∂ f
3 ∂ f
3
2
2
(0,
0)x
+
(0,
0)x
y
+
(0,
0)xy
+
(0, 0)y 3
+
3
2
2
1 ∂x ∂y
2 ∂x∂y
3 ∂y 3
0 ∂x
+···
r
r
r ∂ f
r
∂rf
r ∂ f
r
r−1
+
(0, 0)x +
(0, 0)x y + · · · +
(0, 0)y r .
r
r−1
0 ∂x
1 ∂x ∂y
r ∂y r
Hierbei haben wir wieder den Satz von Schwarz 2.4 über gemischte partielle Ableitungen berücksichtigt.
4.3 Erstes und zweites Taylor-Polynom im Matrizenkalkül, Hesse-Matrix. Das erste TaylorPolynom können wir mit Hilfe des Gradienten in der Form
T1 (~x) = f (~a) + ∇f (~a)T (~x − ~a)
schreiben. Beim zweiten Taylor-Polynom kommt offensichtlich eine quadratische Form hinzu. Wir schreiben
1
T2 (~x) = f (~a) + ∇f (~a)T (~x − ~a) + (~x − ~a)T Hf (~a)(~x − ~a),
2
mit der sogenannten Hesse-Matrix
∂x1 ,x1 f (~a) · · · ∂x1 ,xn f (~a)
2
∂ f
..
..
n×n
.
Hf (~a) :=
(~a) =
∈R
.
.
∂xj , xk
∂xn ,x1 f (~a) · · · ∂xn ,xn f (~a)
Nach dem Satz von Schwarz 2.4 ist die Hesse-Matrix einer C 2 -Funktion symmetrisch.
2
Beispiel. In 2.3 (f) haben wir für f (x, y) = ye2−x
bestimmt. Wir erhalten insbesondere
∂f
(1, 1) = −2,
∂x
∂f
(1, 1) = −1,
∂y
∂f
∂f
−1
−1
(0, √
)=
(0, √
) = 0,
2
2
∂x
∂y
−y 2
die partiellen Ableitungen bis zur Ordnung zwei
∂2f
(1, 1) = 2,
∂2x
√
∂2f
−1
(0, √
) = 2e3/2 ,
2
2
∂ x
∂2f
(1, 1) = 2,
∂x∂y
∂2f
−1
(0, √
) = 0,
2
∂x∂y
∂2f
(1, 1) = −2,
∂2y
√
∂2f
−1
(0, √
) = 2 2e3/2 ,
2
2
∂ y
und damit
T2 [f, (1, 1)](x, y)
=
1+
T −2
−1
x−1
1 x−1
2
+
2
y−1
2 y−1
2
−2
x−1
y−2
= x2 + 2xy − y 2 − 6x − y + 6,
−1
T2 [f, (0, √
)](x, y)
2
T √ 3/2
e3/2
0
x
1
x
2e
√ +
+
−1
−1
√
0
0
y− √
2
y
−
2
2
2
!
2
e3/2
1
= −√
−1 + x2 + 2 y + √
.
2
2
=
√0
2 2e3/2
x
−1
y− √
2
305
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
4
2
0
1
-2
-4
0
-1
0
-1
1
2
Abbildung 6.7: √
Graphen der Funktion f (x, y) = ye2−x
(a, b) = (0, −1/ 2).
−y 2
und ihres zweiten Taylor-Polynoms im Punkt
4.4 Taylor-Entwicklung mit Restglied. Ist f : D → Rn → R eine reellwertige C r+1 -Funktion und
liegt für einen Punkt ~a ∈ D und ein ~h ∈ Rn die Verbindungsstrecke von ~a mit ~a + ~h ganz in D, so gibt
es ein (von ~h abhängiges) θ ∈]0, 1[ mit
f (~a + ~h) = Tr [f, ~a](~a + ~h) +
1
df (r+1) (~a + θ~h)(~h).
(r + 1)!
Beweis. Man wende auf die in 4.1 betrachtete Hilfsfunktion g die Lagrange-Darstellung für das Restglied
4.§3.4.12 an.
Für eine quantitative Fehlerabschätzung muss man also das Fehlerglied, d.h. df (r+1) abschätzen können.
Ähnlich wie in 4.§3.4.14 erhält man dann eine qualitative Fehlerabschätzungen.
4.5 Qualitative Restgliedabschätzung. Ist f in einer Umgebung von ~a eine C r -Funktion, so gilt für
das r-te Taylor-Polynom Tr von f in ~a
f (~x) = Tr (~x) + O(k~x − ~akr )
für ~x → ~a.
Ist f sogar von der Klasse C r+1 , so gilt
f (~x) = Tr (~x) + O(k~x − ~akr+1 )
für ~x → ~a.
4.6 Mittelwertsatz für Skalarfelder. Ist f : D ⊂ Rn → R eine C 1 -Funktion und liegt die Verbindungsstrecke S von ~x und ~y ganz in D, so gibt es einen Punkt ζ~ ∈ S mit
~ y − ~xi.
f (~y ) − f (~x) = h∇f (ζ)|~
Beweis. Das ist die Taylor-Entwicklung 4.4 mit Restglied für r = 0.
4.7 Lokale Extrema. Ist f : D ⊂ Rn → R eine C 2 -Funktion und ist ~a ∈ D ein innerer Punkt so gilt:
• Hat f in ~a ein lokales Maximum (Minimum), so gilt ∇f (~a) = ~0 und Hf (~a) ist negativ (positiv )
semidefinit.
• Ist ~a ein kritischer Punkt, d.h. gilt ∇f (~a) = ~0, so hat f in ~a ein lokales Maximum (Minimum),
falls Hf (~a) negativ (positiv ) definit ist. Ist dagegen Hf (~a) indefinit, so liegt in ~a sicher kein lokales
Extremum vor.
Achtung. Gilt ∇f (~a) = ~0 und ist Hf (~a) nur semidefinit, so kann mit diesen beiden Informationen allein
nicht entschieden werden, ob f in ~a ein lokales Extremum hat.
306
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Beweisidee. Die notwendige Bedingung ∇f (~a) = ~0 für ein lokales Extremum ist uns schon bekannt
(4.§3.7.7). Das zweite Taylor-Polynom von f lautet also f (~a + ~h) + 21 ~hT Hf (~a)~h und man kann aus der
Definitheit der quadratischen Form Q(~h) = 12 ~hT Hf (~a)~h alles über das lokale Verhalten von f ablesen,
was nicht durch ein O(k~hk2 ) verfälscht wird (was passieren kann, wenn Q semidefinit ist).
Beweis∗ . Zum ersten Teil (notwendige Bedingungen): Wir müssen nur noch die zweiten Behauptung
beweisen und tun dies im Fall eines lokalen Maximums. Dann existiert eine Kugel Kr (~a) ⊂ D, r > 0, mit
f (~x) ≤ f (~a) für alle ~x ∈ Kr (~a). Zu ~v ∈ Rn r{0} betrachten wir t 7→ f (~a +t~v ) mit t ∈ I :=]−r/k~v k, r/k~v k[.
Wegen ∇f (~a) = ~0 lautet die qualitative Taylor-Formel für f somit
f (~a + t~v ) = f (~a) + Q(t~v ) + O(kt~v k2 ) = f (~a) + t2 Q(~v ) + O(t2 )
für t → 0.
Das bedeutet
f (~a + t~v ) − f (~a)
= Q(~v ).
t2
Wegen f (~a + t~v ) ≤ f (a) für t ∈ I folgt Q(~v ) ≤ 0. Also ist Hf (~a) negativ semidefinit. Für ein lokales
Minimum schließe man analog.
lim
t→0
f (~a)
a2
~a
a1
Abbildung 6.8: Zur notwendigen Bedingung ∇f (~a) = ~0 für eine Extremalstelle einer C 2 -Funktion, hier in
zwei Veränderlichen.
Zum zweiten Teil (hinreichende Bedingungen): Die quadratische Form Q nimmt als stetige Funktion auf
der kompakten Menge {~v ∈ Rn | k~v k = 1} nach dem Hauptsatz über stetige Funktionen 4.§2.4.10 ein
Maximum M und ein Minimum m an. Ist Q positiv definit, so gilt m > 0. Wir betrachten wieder die
qualitative Taylor-Formel
f (~a + ~h) = f (~a) + Q(~h) + O(k~hk2 )
für ~h → 0.
Es gibt also ein ε > 0 mit Kε (~a) ⊂ D und
m
für k~hk < ε.
f (~a + ~h) − f (~a) − Q(~h) < k~hk2
4
Für ~h ∈ Rn mit 0 < k~hk < ε setzen wir ~v := ~h/k~hk. Dann gilt k~v k = 1 und es folgt
m ~ 2
k~hk2
m
m
khk = f (~a) +
Q(~v ) − k~hk2 ≥ f (~a) + k~hk2 > f (~a).
4
2
4
4
Damit hat f in ~a ein lokales Minimum. Ist Hf (~a) und damit Q positiv definit, so schließe man analog.
f (~a + ~h) ≥ f (~a) + Q(~h) −
Ist Hf (~a) und damit Q indefinit, so existieren ~v , w
~ ∈ Rn mit M := Q(~v ) > 0 bzw. m := −Q(w)
~ > 0. Die
qualitative Taylor-Formel liefert ähnlich wie zuvor
f (~a + t~v )
f (~a + tw)
~
M 2
t + O(t2 )
2
m
= f (~a) + t2 Q(w)
~ + O(t2 ) = f (~a) − t2 + O(t2 )
2
= f (~a) + t2 Q(~v ) + O(t2 ) = f (~a) +
für t → 0,
für t → 0,
307
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
T2 [f, ~a]
f
a2
~a
a1
Abbildung 6.9: Zur hinreichenden Bedingung für eine lokale Extremalstelle einer C 2 -Funktion, hier in
zwei Veränderlichen.
Daher existiert ein ε > 0 mit
f (~a + t~v ) ≥ f (~a) +
M 2
t ,
4
f (~a + tw)
~ ≤ f (~a) −
m 2
t
4
für t ∈] − ε, ε[.
Also nimmt f in jeder Umgebung von ~a sowohl Werte an, die größer als f (~a) sind, also auch Werte, die
kleiner sind. Daher kann f in a nicht extremal sein.
4.8 Beispiel für eine Extremwertaufgabe. Wir beweisen die Ungleichung
x2 + y 2 ≤ 4ex+y−2
für x, y ≥ 0,
indem wir die durch
f (x, y) := (x2 + y 2 )e−x−y
definierte C ∞ -Funktion f : R2 → R auf dem ersten Quadranten D := {(x, y) ∈ R2 | x, y ≥ 0} diskutieren.
Zunächst berechnen wir Gradient und Hesse-Matrix und erhalten
2
2
−x−y x + y − 2x
,
∇f (x, y) = −e
x2 + y 2 − 2y
2
x + y 2 − 4x + 2 x2 + y 2 − 2x − 2y
−x−y
Hf (x, y) = e
.
x2 + y 2 − 2x − 2y x2 + y 2 − 4y + 2
Die kritischen Punkte von f bestimmen wir nun durch Lösen des nichtlinearen Gleichungssystems ∇f (x, y) =
(0, 0). Durch Subtrahieren der beiden Gleichungen x2 + y 2 − 2x = 0 und x2 + y 2 − 2y = 0 erhalten wir
x = y, durch Einsetzen anschließend die beiden Lösungen (0, 0) und (1, 1). Nachdem nur (1, 1) ein innerer
Punkt von D ist, benötigen wir nur die Hesse-Matrix
0
−2e−2
Hf (1, 1) =
.
−2e−2
0
Selbige ist indefinit, wie man durch Berechnen der Eigenwerte oder durch Betrachten von ~v T Hf (1, 1)~v
für ~v = (−1, 1) bzw. ~v = (1, 1) erkennen kann.
Also hat f im Inneren von D keine lokalen Extrema und wir können mit der Randbetrachtung fortfahren.
Auf der x-Achse gilt f (x, 0) = x2 e−x . Eine Diskussion der Hilfsfunktion g(x) := x2 e−x für x ≥ 0 zeigt,
dass g für x ∈ [0, 2] streng monoton steigt und für x ∈ [2, +∞[ streng monoton fällt. Also liegt für f in
(2, 0) ein Randmaximum vor mit Wert f (2, 0) = 4e−2 . Aus Symmetriegründen hat f in (0, 2) ein weiteres
Randmaximum mit demselben Wert.
308
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Für x, y ≥ 2 besteht die Abschätzung f (x, y) ≤ (x2 + 2xy + y 2 )e−x−y = g(x + y) ≤ g(4) = 4e−4 .
Damit kann f auf D außerhalb des Kompaktums D0 := {(x, y) ∈ R2 | 0 ≤ x, y ≤ 2} keinen größeren
Wert als 4e−4 annehmen. Im Kompaktum D0 muss f als stetige Funktion ein globales Maximum haben.
Nach unseren bisherigen Überlegungen hat selbiges den Wert 4e−2 und wird den Randpunkten (2, 0)
und (0, 2) angenommen. Damit muss dies auch das globale Maximum von f auf ganz D sein. Also
gilt f (x, y) ≤ 4e−2 für x, y ≥ 0. Wir haben die behauptete Ungleichung bewiesen und dabei auch die
Extremalsituation entlarvt: Gleichheit tritt genau für (x, y) = (2, 0) oder (x, y) = (0, 2) ein.
4
3
0.4
4
0.2
2
3
0
0
2
1
1
1
2
3
4 0
1
2
3
4
Abbildung 6.10: Graph und Niveaulinien von f (x, y) := (x2 + y 2 )e−x−y .
4.9 Quadratischer Fit. Für einen Satz von Messdaten (t1 , y1 ), . . . , (tm , ym ) (beispielsweise die Menge yk einer radioaktiven Substanz zur Zeit tk ) vermuten wir einen Zusammenhang der Gestalt
y(t) = c1 e−t + c2 te−t + c3 t2 e−t
(Statt e−t , te−t , t2 e−t sind je nach Problemstellung auch Linearkombinationen aus anderen Funktionen
möglich, z.B. 1, t, t2 , t3 oder cos ωt, sin ωt). Das lässt sich als ein LGS
−t
e 1
t1 e−t1
t1 2 e−t1 c1
y1
..
..
..
..
c
=
.
.
2
.
.
c3
e−tm tm e−tm tm 2 e−tm | {z
m
} | y{z
{z
}
}
|
=:A
=:~
x
=:~b
m×n
schreiben, in dem die Eingabedaten in der Matrix A ∈ R
und die zugehörigen Messergebnisse im
Vektor ~b ∈ Rm abgelegt sind. Die Spaltenzahl n von A hängt hängt davon ab, wie viele Grundfunktio”
nen“ zur Modellbildung verwendet werden (hier sind es n = 3). Gesucht sind die Koeffizienten für die
Linearkombination dieser Grundfunktionen, d.h. Lösungen ~x von A~x = ~b.
Im Allgemeinen wird dieses LGS nicht lösbar sein: Es liegen zu viele Messungen vor (n > m) und es gibt
Messfehler. Darum geben wir uns ersatzweise mit einem Vektor ~x zufrieden, der kA~x − ~bk minimiert. Das
nennt man einen quadratischen Fit oder Gaußsche Methode der kleinsten Quadrate. Dabei dürfen wir die
Grundfunktionen linear unabhängig wählen, d.h. rg A = n.
Für A ∈ Rm×n mit rg A = n ≤ m und ~b ∈ Rm wird kA~x − ~bk genau für ~x = (AT A)−1 AT ~b minimal.
Beweis. Wegen der Monotonie der Wurzelfunktion genügt es, das Minimum der Funktion f : Rn → R,
f (~x) := kA~x − ~bk2 = (A~x − ~b)T (A~x − ~b) = ~xT AT A~x − 2~bT A~x + ~bT ~b
zu bestimmen. Wir berechnen Gradient und Hesse-Matrix zu
∇f (~x) = 2AT A~x − 2AT ~b,
Hf (~x) = AT A.
Da rg A = m maximal ist, ist Hf positiv definit: Aus 0 = ~xT AT A~x = (AT ~x)(A~x) = kA~xk2 folgt A~x = ~0
und dann ~x = ~0. Das zeigt auch, dass AT A invertierbar ist. Damit hat f genau einen kritischen Punkt,
nämlich die eindeutig bestimmte Lösung der Gaußsche Normalengleichungen AT A~x = AT ~b. Dieser liefert
ein lokales Minimum von f . Wegen f (~x) → +∞ für k~xk → ∞ muss dieses Minimum global sein.
309
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
5
Lokale Umkehrbarkeit und Koordinatentransformationen
5.1 Worum geht es? In diesem und dem nächsten Abschnitt beschäftigen wir uns mit Gleichungssystemen. Liegen m Gleichungen für n Unbekannte vor, so schreiben wir das System in der Form
f~(~x) = ~b
mit einer Funktion f~ : D ⊂ Rn → Rm
und können so Mittel der Analysis einsetzen, indem wir das Abbildungsverhalten von f~ diskutieren. Im
Fall f~(~x) = A~x liegt ein lineares Gleichungssystem vor. Wir sind hier primär nichtlinearen Gleichungssystemen interessiert. Es wird sich aber zeigen, dass man vieles aus der Theorie linearer Gleichungssysteme
übertragen kann — allerdings in einer lokalisierten“ Form.
”
Wie in der linearen Algebra werden wir zwei grundlegende Fälle unterscheiden:
• A~x = ~b mit invertierbarem A ∈ Rn×n , d.h. det(A) 6= 0 ( genauso viele Gleichungen wie Unbe”
kannte“). Dann ist das LGS für jede rechte Seite ~b eindeutig lösbar und wir erhalten die Lösung in
Abhängigkeit von ~b durch Invertieren: ~x = A−1~b.
• A~x = ~b mit A ∈ Rm×n und rg(A) = m < n ( weniger Gleichungen als Unbekannte“). Auch dann
”
ist das LGS für jede rechte Seite ~b lösbar. Jetzt können aber in jedem Lösungsvektor m (geeignete)
Variable frei gewählt werden, die restlichen n − m Variablen hängen dann von den freien ab und
sind nach deren Wahl festgelegt.
In diesem Abschnitt beschäftigen wir uns mit der ersten Situation und behandeln dabei auch krumm”
linige Koordinatentransformationen“. Im Abschnitt 6 geht es dann um Gleichungssysteme mit freien“
”
und abhängigen“ Variablen und um implizite Funktionen“, mit denen Abhängigkeit der abhängigen
”
”
Variablen von den freien beschrieben wird.
5.2 Koordinatentransformationen, Diffeomorphismen. Gegeben sind zwei Gebiete D ⊂ Rn und
G ⊂ Rm . Eine Abbildung f~ : D → G heißt eine C r -Koordinatentransformation oder ein C r -Diffeomorphismus, wenn f~ eine bijektive Abbildung von D auf G ist und wenn sowohl f~ als auch die Umkehrabbildung
f~−1 eine C r -Funktion ist.
Beispiel. Die Darstellung in Polarkoordinaten
r cos ϕ
x(r, ϕ)
r
~
:=
7→
f:
r sin ϕ
y(r, ϕ)
ϕ
ϕ/2
ist ein C ∞ -Diffeomorphismus von D :=]0, +∞[×] − π, π[ auf
G := R2 r {(x, 0) ∈ R2 | x ≤ 0}, die längs der negativen
x-Achse geschlitzte Ebene. Die auf G definierte Umkehrabbildung f~−1 erhalten wir gemäß nebenstehender Skizze zu
p
x
r(x, y)
x2 + y 2
−1
~
f :
7→
=
.
y
ϕ(x, y)
2 arctan √y 2 2
x+
x +y
r
ϕ/2
r
y
ϕ
x
Abbildung 6.11: Umrechung in Polarkoordinaten.
5.3 Wann ist eine Abbildung eine Koordinatentransformation? Das ist eine wichtige Frage, die
sich nicht leicht beantworten lässt. Die explizite Berechnung der Umkehrfunktion ist meist mühsam oder
gar unmöglich. Die folgende Beobachtung liefert uns zumindest ein notwendiges Kriterium: Ist f~ : D → G
ein C r -Diffeomeorphismus mit r ≥ 1 und Umkehrabbildung ~g = f~−1 : G → D, so folgt aus
(~g (f~(~x)) = ~x
und
(f~(~g (~y )) = ~y
für ~x ∈ D ⊂ Rn und ~y = f~(~x) ∈ G ⊂ Rm durch Differenzieren mit der Kettenregel
d~g (~y ) · df~(~x) = En
sowie
df~(~x) · d~g (~y ) = Em .
Die beiden Jacobi-Matrizen A = df~(~x) und B = d~g (~y ) genügen also den Gleichungen AB = Em ,
BA = En . Damit müssen beide Matrizen quadratisch und invertierbar sein: m = n und B = A−1 .
310
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
5.4 Notwendige Bedingung für Diffeomorphie. Ist f~ : D ⊂ Rn → G ⊂ Rm eine C r -Koordinatentransformation mit r ≥ 1, so gilt n = m und an jeder Stelle ~x ∈ D ist die Jacobi-Matrix df~(~x) invertierbar.
Die Umkehrabbildung ~g := f~−1 : G → D erhalten wir dann zu
d~g (~y ) = (df~(~x))−1
für ~x ∈ D, ~y = f~(~x) ∈ G.
Anmerkung. Das ist eine Verallgemeinerung der Regel 4.§3.2.7 für die Ableitung der Umkehrfunktion.
Beispiel. Für die Polarkoordinatentransformation
r
r cos ϕ
cos ϕ
f~ :
7→
mit df~(r, ϕ) =
sin ϕ
ϕ
r sin ϕ
−r sin ϕ
r cos ϕ
erhalten wir det(df~(r, ϕ)) = r > 0 für (r, ϕ) ∈]0, +∞[×] − π, π[ und berechnen
1 r cos ϕ r sin ϕ
−1
~
(df (r, ϕ)) =
.
r − sin ϕ cos ϕ
Mit x = r cos ϕ und y = r sin ϕ folgt damit für die Umkehrabbildung ~g = f~−1
!
p
p
x/ x2 + y 2 y/ x2 + y 2
d~g (x, y) =
.
−y/(x2 + y 2 ) x/(x2 + y 2 )
Die notwendige Bedingung df~(~x) ist für jedes ~x ∈ D invertierbar“ für Diffeomorphie ist (zumindest
”
für n ≥ 2) leider nicht hinreichend. Die Problematik können wir schon bei der Polarkoordinatentransformation studieren. Es gilt zwar det(df~(r, ϕ)) = r 6= 0 sobald r 6= 0, aber f~ ist beispielsweise auf dem
Gebiet D =]0, +∞[×R nicht invertierbar, da f~(r, ϕ) = f~(r, ϕ+2π). Erst, wenn wir den Definitionsbereich
genügend klein“ wählen (z.B. D =]0, +∞[×] − π, π[, vgl. 5.2), erhalten wir auch Invertierbarkeit.
”
Der folgende Satz besagt nun, dass die notwendige Bedingung 5.4 lokal“ immer hinreichend ist.
”
n
n
5.5 Satz über lokale Umkehrbarkeit. Ist f~ : D ⊂ R → R eine C r -Abbildung mit r ≥ 1 und ist
für ein ~a ∈ D die Jacobi-Matrix df~(~a) invertierbar (d.h. gilt det(df~(~a)) 6= 0), so ist f~ lokal eine C r Koordinatentransformation. Das bedeutet: gibt es offene Umgebungen U ⊂ D von ~a und V ⊂ Rn von
f~(~a), so dass f~|U eine Koordinatentransformation von U auf V ist.
f (D)
D
f~
-
a2
f2 (a)
a1
f1 (a)
Abbildung 6.12: Zum Satz über lokale Umkehrbarkeit: Eine C 1 -Funktion f~ : D ⊂ R2 → R2 mit
det(df~(~a)) 6= 0 für ein ~a ∈ D. Auf D selbst (graues Gitter) ist f~ nicht injektiv, die Umgebung U
von ~a (schwarzes Gitter) wird aber von f~ bijektiv auf V = f~(U ) abgebildet.
Der Beweis dieses Satzes gehört zu den harten Brocken einer jeden Vorlesung in Analysis. Wir verweisen
auf [HeuA, Band 2, 171], [Köh, §26] oder [Kön, Band 2 §3.3]. Zusammen mit der notwendigen Bedingung 5.4 erhalten wir aus dem Satz über lokale Umkehrbarkeit das folgende Kriterium.
311
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
5.6 Hinreichende Bedingung für Diffeomorphie. Ist D ⊂ Rn ein Gebiet, ist f~ : D → Rn eine
injektive C r -Abbildung mit r ≥ 1 und ist df~(~a) in jedem Punkt ~a ∈ D invertierbar, so ist G = f~(D) ein
Gebiet und f~ eine C r -Koordinatentransformation zwischen D und G.
Beweis∗ . Nach dem Satz über lokale Umkehrbarkeit gibt es zu jedem Punkt ~b = f~(~a) ∈ G := f~(D) eine
Umgebung V ⊂ G, die Bild einer Umgebung U ⊂ D von ~a unter dem C r -Diffeomorphismus f~|U ist. Damit
ist G offen und f~−1 stimmt auf V mit der C r -Umkehrabbildung von f~|U überein, ist also selbst von der
Klasse C r . Da stetige Bilder von wegezusammenhängenden Mengen selbst wegezusammenhängend sind,
ist G ein Gebiet.
5.7 Generalisierte Koordinaten. In allgemeinen Aussagen wird meist mit kartesischen Koordinaten
~x = (x1 , . . . , xn ) ∈ Rn gearbeitet. In den Anwendungen gibt man aber gerne denjenigen Koordinaten
den Vorzug, die dem Problem auf Grund dessen Geometrie am besten angepasst sind. Der Übergang von
diesen krummlinigen oder generalisierten Koordinaten (q1 , . . . , qn ) = ~q zu den kartesischen
~x = ~x(q1 , . . . , qn ) = ~x(~q)
ist nichts anderes als eine spezielle bijektive Abbildung.
Um die Methoden der Analysis anwendbar zu machen, verlangen wir, dass diese bijektive Abbildung
geeignet oft differenzierbar ist. Dann haben wir es mit einem C r -Diffeomorphismus mit r ≥ 1 zu tun. Wir
studieren nun solch eine C r -Koordinatentransformation
~x : D ⊂ Rn → G := f~(D) ⊂ Rn ,
~q 7→ ~x(~q),
von generalisierten in kartesische Koordinaten. Für einen Punkt ~x = ~x(~q) mit generalisiertem Koordinatentupel ~q ∈ D liefert die partielle Funktion t 7→ ~x(~q + t~ek ), bei der nur die k-te generalisierte Koordinate
variiert, die (i.A. gekrümmte) k-te Koordinatenlinie durch ~x. Der zugehörige Tangenteneinheitsvektor
dort ist
∂~x
1
~gk (~q)
mit ~gk (~q) :=
(~q).
~eqk (~q) :=
k~gk (~q)k
∂qk
Wir erhalten also den k-ten generalisierten Koordinateneinheitsvektor ~eqk durch Normieren der k-ten
Spalte der Jacobi-Matrix d~x(~q). Im Gegensatz zur Standardbasis (~e1 , . . . , ~en ) bildet (~eq1 (~q), . . . , ~eqn (~q))
kein raumfestes n-Bein. Wir stellen es uns an den Punkt ~x = ~x(~q) angeheftet vor. Wir erhalten (unter
Weglassung des Arguments)
n
n X
X
∂~x ∂~x
d~x =
dqk =
∂qk ~eqk dqk .
∂qk
k=1
k=1
5.8 Generalisierte orthogonale Koordinaten und Maßtensor. Das n-Bein (~eq1 (~q), . . . , ~eqn (~q)) an
der Stelle ~x(~q) ist orthonormal, falls d~x(~q) orthogonal ist, d.h. falls
d~x(~q)T d~x(~q) = En .
Gilt dagegen nur
d~x(~q)T d~x(~q) = diag(λ1 , . . . , λn )
mit λ1 , . . . , λn > 0,
so ist (~eq1 (~q), . . . , ~eqn (~q)) zwar ein orthogonales n-Bein, aber i.A. nicht mehr normiert. Wir sprechen dann
von generalisierten orthogonalen Koordinaten.
Die Matrix
h∂q1 ~x(~q)|∂q1 ~x(~q)i
..
T
d~x(~q) d~x(~q) =
.
···
h∂q1 ~x(~q)|∂qn ~x(~q)i
..
.
h∂qn ~x(~q)|∂q1 ~x(~q)i
···
h∂qn ~x(~q)|∂qn ~x(~q)i
trägt also offensichtlich wichtige Informationen über die generalisierten Koordinaten. Sie wird Maßtensor ,
metrischer Tensor oder Gramsche Matrix von ~x genannt, mit G(~q) bezeichnet und ist die Fundamentalmatrix der durch den Koordinatenwechsel induzierten quadratischen Form
Q(~q) := h~x(~q)|~x(~q)i
312
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
5.9 Gradient in generalisierten orthogonalen Koordinaten. Wir betrachten ein C 1 -Skalarfeld
f : D ⊂ Rn → R. Wird selbiges lokal in generalisierten C 1 -Koordinaten ~x = ~x(~q) dargestellt, so erhalten
wir eine neue C 1 -Funktion
F (~q) := f (~x(~q))
in diesen Koordinaten. Wir wollen jetzt den Gradienten ∇f (~x) von f an der Stelle ~x = ~x(~q) in den
Gradienten der lokalen Darstellung F an der Stelle ~q umrechnen. Mit der Kettenregel folgt zunächst
dF (~q) = df (~x(~q))d~x(~q)
und damit für den Gradienten
∇F (~q) = d~x(~q)T ∇f (~x(~q)).
Liegen generalisierte orthogonale Koordinaten vor, so gilt
d~x(~q)T d~x(~q) = diag k∂q1 ~x(~q)k2 , . . . , k∂qn ~x(~q)k2
und damit (da Diagonalmatrizen mit allen Matrizen vertauschen)
1
1
,...,
d~x(~q)∇F (~q).
∇f (~x(~q)) = diag
k∂q1 ~x(~q)k2
k∂qn ~x(~q)k2
Unter Verwendung der Basisvektoren ~eqk (~q) =
∇f (~x(~q)) = diag
1
x(~q)
x(~
q )k ∂qk ~
k∂qk ~
an der Stelle ~q erhalten wir nun
n
X
1
1
∂F
1
~eq1 (~q), . . . ,
~eqn (~q) ∇F (~q) =
(~q)~eqk (~q).
k∂q1 ~x(~q)k
k∂qn ~x(~q)k
k∂qk ~x(~q)k ∂qk
k=1
Das nennt man die Darstellung des Gradienten in generalisierten orthogonalen Koordinaten. In der Physik
lässt man die Argumente gerne weg und schreibt einfach
∇f (~x) =
n
X
k=1
1
∂F
~eq .
k∂qk ~xk ∂qk k
5.10 Ein Beispiel für generalisierte orthogonale Koordinaten sind Kugelkoordinaten im R3
r sin θ cos ϕ
~x(r, θ, ϕ) := r sin θ sin ϕ ,
r > 0, θ ∈]0, π[, ϕ ∈]0, 2π[,
r cos θ
die jeden Punkt in G := R3 r Span(~e3 ) durch ein Tripel ~q = (r, θ, ϕ) aus Radius, Breiten- und Längenwinkel im offenen Quader D :=]0, +∞[×]0, π[×]0, 2π[ beschreiben (vgl. 3.§4.3.5, die x3 -Achse muss ausgeschlossen werden, um Injektivität zu erhalten).
Wir berechnen die Jacobi-Matrix
sin θ cos ϕ
∂~x
∂~x
∂~x
d~x(r, θ, ϕ) =
(r, θ, ϕ),
(r, θ, ϕ),
(r, θ, ϕ) = sin θ sin ϕ
∂r
∂θ
∂ϕ
cos θ
r cos θ cos ϕ
r cos θ sin ϕ
−r sin θ
−r sin θ sin ϕ
r sin θ cos ϕ .
0
Das Dreibein an der Koordinatenstelle (r, θ, ϕ) lautet damit (unter Weglassung der Argumente)
sin θ cos ϕ
sin θ cos ϕ
1
sin θ sin ϕ = sin θ sin ϕ ,
~er = p
(sin θ cos ϕ)2 + (sin θ sin ϕ)2 + (cos θ)2
cos θ
cos θ
r cos θ cos ϕ
cos θ cos ϕ
1
r cos θ sin ϕ = cos θ sin ϕ ,
~eθ = p
(r cos θ cos ϕ)2 + (r cos θ sin ϕ)2 + (−r sin θ)2
−r sin θ
− sin θ
−r sin θ sin ϕ
− sin ϕ
1
r sin θ cos ϕ = cos ϕ .
~eϕ = p
(−r sin θ sin ϕ)2 + (r sin θ cos ϕ)2 + 02
0
0
313
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Der Maßtensor an der Koordinatenstelle (r, θ, ϕ) hat die Form
1
G(r, θ, ϕ) = d~x(r, θ, ϕ)T d~x(r, θ, ϕ) = 0
0
0
r2
0
0
0 .
2
r sin2 θ
Ferner gilt (wieder unter Weglassung der Argumente)
d~x =
∂~x
∂~x
∂~x
dr +
dθ +
dϕ = ~er dr + r~eθ dθ + r sin θ~eϕ dϕ.
∂r
∂θ
∂ϕ
Kugelkoordinaten liefern also keine orthonormalen generalisierten Koordinaten, sondern nur orthogonale,
in Richtung ~er wird um den Faktor 1, in Richtung ~eθ um den Faktor r und in Richtung ~eϕ um den Faktor
r sin θ gestreckt. Die Streckungsfaktoren hängen vom Punkt ~x = ~x(r, θ, ϕ) ab.
Der Gradient eines Skalarfeldes f (~x(r, θ, ϕ)) = F (r, θ, ϕ) in Kugelkoordinaten lautet dann (nochmals
unter Weglassung der Argumente)
∇f =
∂F
1 ∂F
1 ∂F
~er +
~eθ +
~eϕ .
∂r
r ∂θ
r sin θ ∂ϕ
~er
1
~x = ~x(r, θ, ϕ) ~eϕ
r θ
~eθ
ϕ
Abbildung 6.13: Lokales Dreibein in Kugelkoordinaten.
6
Implizite Funktionen und Lösungsmannigfaltigkeiten
6.1 Problematik beim Lösen nichtlinearer Gleichungen. Eine einzelne nichtlineare Gleichung
für n Unbekannte können wir mit Hilfe einer C 1 -Funktion f : D ⊂ Rn → R in der Form
f (x1 , . . . , xn−1 , xn ) = 0
schreiben. Dass rechts die Null steht, ist keine Spezialisierung: Wir können ja, z.B. durch Subtraktion,
immer alles“ auf die linke Seite bringen. Unter der Auflösung dieser Gleichung nach einer Variablen,
”
etwa nach xn , verstehen wir eine C 1 -Funktion g mit der Eigenschaft
f (x1 , . . . , xn−1 , xn ) = 0
⇔
xn = g(x1 , . . . , xn−1 ).
Damit solch eine Funktion g überhaupt existiert, muss die Gleichung Lösungen haben, d.h. es muss
mindestens einen Lösungspunkt ~c = (c1 , . . . , cn ) ∈ D geben mit f (~c) = 0.
314
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Im Allgemeinen dürfen wir nicht erhoffen, die Lösungsfunktion explizit darstellen zu können. Daher suchen
wir zuerst nach einer Bedingung, die uns zumindest theoretisch die Auflösbarkeit einer nichtlinearen
Gleichung sicherstellt. Wenn eine Auflösung existiert, so wird sie in der Regel nur in einer Umgebung des
Lösungspunkts ~c existieren. Wir illustrieren diese Problematik an einem überschaubaren Beispiel.
Die Kreisgleichung x2 + y 2 − 1 = 0 ist für |y|√> 1 nicht nach y auflösbar (kein ~c = (x, y) mit |y| > 1 ist
Lösungspunkt).
Für 0 < y ≤ 1 liefert g(x) = 1 − x2 eine Auflösung nach y, für −1 ≤ y < 0 müssen wir
√
g(x) = − 1 − x2 wählen. In Umgebungen der beiden Lösungspunkte (±1, 0) können wir die Gleichung
x2 + y 2 − 1 = 0 zwar nicht nach y, dafür aber nach x auflösen. Man mache sich das geometrisch klar!
Wissen wir nun, dass die Gleichung f (x, y) = 0 mit zwei Unbekannten in einer Umgebung eines Lösungspunktes (a, b) durch eine C 1 -Funktion g nach y auflösbar ist, d.h. gilt
f (x, g(x)) = 0
für alle x nahe bei a wobei f (a, b) = 0 und g(a) = b,
so können wir diese Identität mit der Kettenregel differenzieren und erhalten
0=
d
∂f
∂f
f (x, g(x)) =
(x, g(x)) +
(x, g(x))g 0 (x).
dx
∂x
∂y
Insbesondere gilt also an der Stelle x = a
∂f
∂f
(a, b) +
(a, b)g 0 (a) = 0
∂x
∂y
und wir können g 0 (a) berechnen, falls ∂y f (a, b) 6= 0. Damit kennen wir g(a) = b und g 0 (a), d.h. das erste
Taylor-Polynom zu g im Entwicklungspunkt a, ohne die implizite Funktion g selbst zu kennen.
Darum werden wir uns im Weiteren nicht nur damit beschäftigen, unter welchen Bedingungen eine Gleichung lokal nach einer Variablen auflösbar ist, sondern auch damit, welche Glattheitseigenschaften die
implizite Funktion hat.
6.2 Zur Notation bei nichtlinearen Gleichungssystemen. Beim Lösen eines nichtlinearen Gleichungssystems mit m Gleichungen für n Unbekannte wollen wir die Variablen offensichtlich in zwei Gruppen aufteilen: die abhängigen“, nach denen aufgelöst wird, und die unabhängigen“, welche die Lösung
”
”
parametrisieren. Zu diesem Zweck schreiben wir das Gleichungssystem in der Form
f1 (x1 , . . . , xp , y1 , . . . , ym )
fm (x1 , . . . , xp , y1 , . . . , ym )
=
..
.
0
=
0
oder knapp f~(~x, ~y ) = ~0
mit ~x ∈ Rp , ~y ∈ Rm und m + p = n.
Dabei stellen wir uns die Variablen so nummeriert vor, dass y1 , . . . , ym die abhängigen Variablen sind,
nach denen aufgelöst werden soll, und x1 , . . . , xp die unabhängigen, mit denen die Lösungen parametrisiert
werden.
Unter welchen Bedingungen solch eine Auflösung möglich ist und wie man die abhängigen Variablen
identifiziert, werden wir in der übernächsten Nummer erfahren. Als Einstimmung betrachten wir zuvor
die lineare Variante.
6.3 Wiederholung: Auflösen von linearen Gleichungssystemen. Das LGS Aζ~ = ~b mit A ∈ Rm×n
und ~b ∈ Rm ist genau dann für jedes ~b ∈ Rm lösbar, wenn A regulär ist, d.h. wenn A genau m linear
unabhängige Spalten besitzt. Genau dann ist auch die Anzahl der Freiheitsgrade der Lösung minimal
(genauer: der Lösungsraum des homogenen Systems Aζ~ = ~0 ist von der Dimension p = n − m). Indem
wir die Variablen geeignet umbenennen, können wir dann erzwingen, dass die letzten m Spalten von A
linear unabhängig sind. In unserer Notation schreiben wir daher das LGS
Aζ~ = ~b
mit A = (~a1 , . . . , ~ap , ~ap+1 , . . . , ~an ) ∈ Rm×n , ~b ∈ Rm , ζ~ ∈ Rm ,
315
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
in der Form
B~x + C~y = ~b
mit B := (~a1 , . . . , ~ap ) ∈ Rm×p , C := (~ap+1 , . . . , ~an ) ∈ Rm×m , ~x ∈ Rp , ~y ∈ Rm .
Hierbei wird die Matrix B aus den ersten p Spalten von A gebildet, die Matrix C besteht aus den letzen
m Spalten von A und ist nach unserer Annahme regulär, d.h. es gilt det(C) 6= 0. Die n = p + m Variablen
des Gleichungssystems sind gerade die Komponenten von ~x bzw. ~y . In dieser Schreibweise manifestieren
sich unsere Freiheitsgrade beim Lösen des Systems gerade darin, dass wir ~x ∈ Rp frei wählen können
und ~y anschließend durch Lösen von C~y = ~b − B~x erhalten. Unter der Auflösebedingung“ det(C) 6= 0
”
können wir das System nach ~y auflösen und erhalten ~y = C −1 (~b − B~x).
Der folgende Satz sagt nun, dass dies bei nichtlinearen Gleichungen lokal“ genauso geht.
”
6.4 Der Satz über implizite Funktionen. Seien D ⊂ Rp und G ⊂ Rm zwei offene Mengen. Ist
f~ : D × G → Rm eine C r -Funktion mit r ≥ 1 und gilt an einer Stelle (~a, ~b) mit ~a ∈ D, ~b ∈ G
∂(f1 , . . . , fm ) ~
~
~
~
(~a, b) 6= 0,
f (~a, b) = 0
sowie
det
∂(y1 , . . . , ym )
so ist das Gleichungssystem f~(~x, ~y ) = 0 lokal bei (~a, ~b) eindeutig durch eine C r -Funktion nach ~y auflösbar:
Es gibt offene Umgebungen U ⊂ D von ~a und V ⊂ G von ~b sowie eine C r -Funktion ~g : U → V mit
f~(~x, ~g (~x)) = ~0
für alle ~x ∈ U
und aus f~(~x, ~y ) = ~0 mit (~x, ~y ) ∈ U × V folgt stets ~y = ~g (~x).
Durch die Gleichung f~(~x, ~y ) = ~0 ist ~g also implizit bestimmt. Eine explizite (d.h. formelmäßige) Angabe
von ~g ist in der Regel nicht möglich. Die Bedingung
∂(f1 , . . . , fm )
(~c) 6= 0,
~c = (~a, ~b),
det
∂(y1 , . . . , ym )
nennen wir Auflösebedingung. Zur Anwendung des Satzes über implizite Funktionen muss man in der
Jacobi-Matrix df~(~c) ∈ Rm×n nach m linear unabhängigen Spalten suchen (und hat sie gefunden, sobald die aus diesen Spalten gebildete (m × m)-Teilmatrix nichtverschwindende Determinante hat). Dann
nummeriert man die Variablen so um, dass diese Spalten die letzten m werden.
Beweis∗ . Mit f~ ist auch die Funktion
F~ : D × G ⊂ Rn → Rn ,
F~ (~x, ~y ) := (~x, f~(~x, ~y ))
von der Klasse C r . Die Jacobi-Matrix von f~ in (~a, ~b) berechnen wir zu
1
···
0
0
···
0
..
..
..
..
..
.
.
.
.
.
0
·
·
·
0
0
·
·
·
1
En
dF~ (~a, ~b) =
=
∂f1 (~a, ~b) · · · ∂f1 (~a, ~b) ∂f1 (~a, ~b) · · · ∂f1 (~a, ~b)
∗
∂x1
∂xn
∂y1
∂ym
.
.
.
.
..
..
..
..
∂fm
~b) · · · ∂fm (~a, ~b) ∂fm (~a, ~b) · · · ∂fm (~a, ~b)
(~
a
,
∂x1
∂xn
∂y1
∂ym
0
∂(f1 ,...,fm )
a, ~b)
∂(y1 ,...,ym ) (~
.
∂(f1 ,...,fm )
Aus der Auflösebedingung det( ∂(y
(~a, ~b)) 6= 0 folgt det(dF~ (~a, ~b)) 6= 0. Also ist F~ in einer Umgebung
1 ,...,ym )
von (~a, ~b) lokal umkehrbar. Wegen F~ (~a, ~b) = (~a, 0) ist damit die Gleichung f~(~x, ~y ) = ~0 wie behauptet
lokal bei (~a, ~b) durch eine C r -Funktion nach ~y auflösbar.
Anmerkung. Wir haben den Satz über implizite Funktionen aus dem Satz über lokale Umkehrbarkeit
abgeleitet. Das geht auch umgekehrt (vgl. z.B. [HeuA, Band 2, 171]. Beide Sätze sind also äquivalent.
316
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
6.5 Wozu ist der Satz über implizite Funktionen nützlich? Zunächst kann man aus dem Satz über
implizite Funktionen nicht ablesen, wie die Auflösung einer nichtlinearen Gleichung bewerkstelligt wird.
Damit erscheint der Satz ähnlich unnütz“ wie der Satz vom Maximum 4.§2.4.7. Beide Sätze sind aber
”
von grundlegender Bedeutung, weil sie die Voraussetzung schaffen, konstruktive Methoden anzuwenden.
Für den Satz über implizite Funktionen illustrieren wir das an zwei Beispielen.
6.6 Zustandsgleichungen in der Thermodynamik. Zwischen dem Druck p, dem Molvolumen v und
der Temperatur T eines Gases besteht die Zustandsgleichung
F (p, v, T ) = 0
mit einer C ∞ -Funktion F . Für ein van der Waals Gas gilt beispielsweise
a
p + 2 (v − b) − RT = 0.
v
Ist nun im Zustand (p0 , v0 , T0 ) die Auflösebedingung
∂F
(p0 , v0 , T0 ) 6= 0
∂v
erfüllt, so können wir die Zustandsgleichung in der Nähe dieses Zustands durch eine Funktion ϕ nach v
auflösen. Aus der Identität
F (p, ϕ(p, T ), T ) = 0
erhalten wir durch partielles Differenzieren
∂F
∂ϕ
∂F
(p, v, T ) +
(p, v, T ) (p, T ) = 0,
∂p
∂v
∂p
∂F
∂F
∂ϕ
(p, v, T ) +
(p, v, T )
(p, T ) = 0.
∂T
∂v
∂T
Man nennt
κ := −
1 ∂ϕ
(p, T )
v ∂p
bzw.
α :=
1 ∂ϕ
(p, T )
v ∂T
die Kompressibiliät bzw. den thermischen Ausdehnungskoeffizient des Gases und schreibt häufig
∂v
∂ϕ
∂v
∂ϕ
statt
,
bzw.
statt
.
∂p T
∂p
∂T p
∂T
Ist also das Molvolumen v0 zum Druck p0 und zur Temperatur T0 bekannt, so erhalten wir durch Auflösen
der beiden obigen Gleichungen Kompressibilität und Ausdehnungskoeffizient in diesem Zustand zu
κ0 =
1
v0
∂F
∂p
∂F
∂v
(p0 , v0 , T0 )
(p0 , v0 , T0 )
,
α0 = −
1
v0
∂F
∂T
∂F
∂v
(p0 , v0 , T0 )
(p0 , v0 , T0 )
.
Die Veränderung des Molvolumen wird in erster Näherung beschrieben durch
(p, T ) 7→ ϕ(p0 , T0 ) +
∂ϕ
∂ϕ
(p0 , T0 )(p − p0 ) +
(p0 , T0 )(T − T0 ) = v0 (1 − κ0 (p − p0 ) + α0 (T − T0 )) .
∂p
∂T
6.7 Taylor-Approximation einer impliziten Funktion. Wir wollen die Gleichung
x = yexy
nach y auflösen. Ein einfaches Argument zeigt, dass dies für jedes x ∈ R eindeutig möglich ist: Für x = 0
muss y = 0 gelten. Für x > 0 ist y 7→ yexy eine streng monoton wachsende Abbildung von R auf sich,
d.h. die Gleichung x = yexy hat genau eine Lösung. Aus Symmetriegründen gilt gleiches für x < 0.
317
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Also existiert genau eine Funktion g : R → R mit x = g(x)exg(x) für x ∈ R. Momentan wissen wir nur,
dass g punktsymmetrisch ist. Mit dem Satz über implizite Funktionen erhalten wir weitere Informationen.
Hierzu betrachten wir die C ∞ -Funktion
f : R2 → R,
f (x, y) := x − yexy .
Die partielle Ableitung ∂y f (x, y) = −(1 + xy)exy verschwindet nur für xy = −1. Für solche Punkte gilt
aber sicher x 6= 0 und dann f (x, −1/x) = x+1/(ex) = (ex2 +1)/(ex) 6= 0. Also ist der Satz über implizite
Funktionen anwendbar. Er zeigt uns, dass g eine C ∞ -Funktion ist.
Mit dieser Information können wir g beispielsweise in x = 0 approximieren. Hierzu differenzieren wir die
Identität x = g(x)exg(x) und erhalten
1 = [g(x)2 + xg(x)g 0 (x) + g 0 (x)]exg(x)
für x ∈ R.
Durch Auswerten in x = 0 folgt aus g(0) = 0 dann g 0 (0) = 1. Da g punktsymmetrisch ist, muss g 00 (0) = 0
gelten. Durch weiteres Differenzieren der obigen Identität und Auswerten in x = 0 kann man sukzessive
höhere Ableitungen von g bestimmen. Man erhält g 000 (0) = −6, g (4) (0) = 0 und g (5) (0) = 180. Die ersten
sechs Taylor-Polynome von g in 0 lauten also
T1 (x) = T2 (x) = x,
T3 (x) = T4 (x) = x − x3 ,
3
T5 (x) = T6 (x) = x − x3 + x5 .
2
T1 = T2
T5 = T6
g
0.6
0.4
T3 = T4
0.2
-0.6
-0.4
-0.2
0.2
0.4
0.6
-0.2
-0.4
-0.6
Abbildung 6.14: Die implizite Funktion g mit x = g(x)exg(x) und ihre ersten sechs Taylor-Polynome in 0.
6.8 Parametrisierung von Lösungsmannigfaltigkeiten. Wir betrachten wieder eine C r -Abbildung
f~ : D ⊂ Rn → Rm mit n > m. Das Nullstellengebilde
Nf~ := {~x ∈ D | f~(~x) = ~0}
nennen wir Lösungsmannigfaltigkeit von f~, falls Nf~ 6= ∅ und falls df~(~x) in jedem Punkt ~x ∈ D die
Regularitätsbedingung rg df~(~x) = m erfüllt, d.h. die Gradienten der Komponentenfunktionen sind
∇f1 (~x), . . . , ∇fm (~x)
in jedem Punkt ~x ∈ D linear unabhängig.
318
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
z
z
(x1 , y1 , z1 )
Nf
Nf
y
(x2 , y2 , z2 )
)
1
g2
g1
6
y
x
x
Abbildung 6.15: Eine zweidimensionale Lösungsmannigfaltigkeit Nf im R3 . An der Stelle (x1 , y1 , z1 ) ist
Nf lokal in der Form f (x, y, g1 (x, y)) = 0 nach z aufgelöst, an der Stelle (x2 , y2 , z2 ) lokal in der Form
f (x, g2 (x, z), z) nach y.
Die Regularitätsbedingung stellt sicher, dass der Satz über implizite Funktionen anwendbar ist. An jeder
Stelle kann Nf~ daher lokal durch p = n − m Parameter beschrieben werden. Wir sagen, dass Nf~ die
Dimension p oder p Freiheitsgrade hat. Die Lösungsmannigfaltigkeit stellen wir uns als ein gekrümmtes
p-dimensionales Objekt im Rn vor.
6.9 Tangentialräume an Lösungsmannigfaltigkeiten. Ist ~a ∈ Nf~ ein Punkt auf der Lösungsmannigfaltigkeit und ist ~x : ] − ε, ε[→ D ein C 1 -Weg mit ~x(0) = ~a, der in der Lösungsmannigfaltigkeit verläuft,
so erhalten wir aus f~(~x(t)) = 0 mit der Kettenregel
~0 = d f~(~x(t))
= df~(~a)~x˙ (0).
dt
t=0
Komponentenweise gelesen bedeutet dies
h∇f1 (~a)|~x˙ (0)i = . . . h∇fm (~a)|~x˙ (0)i = 0.
Für jeden Weg durch ~a in der Lösungsmannigfaltigkeit steht also der Tangentenvektor senkrecht auf
den Gradienten der Komponentenfunktionen von f~ an dieser Stelle. Den von diesen Tangentenvektoren
aufgespannte Raum nennen wir Tangentialraum der Lösungsmannigfaltigkeit im Punkt ~a und bezeichnen
ihn mit Tf~(~a). Es gilt dann
Tf~(~a)
= ~a + Span(∇f1 (~a), . . . , ∇fm (~a))⊥
= {~x ∈ Rn | h∇f1 (~a)|~x − ~ai = . . . = h∇fm (~a)|~x − ~ai = 0}.
Beispiel. Ein achsenparalleles Ellipsoid mit den Hauptachsenradien a, b, c > 0, d.h. die Menge der Punkte
(x, y, z) ∈ R3 mit
x 2 y 2 z 2
+
+
= 1,
a
b
c
ist eine zweidimensionale Lösungsmannigfaltigkeit im R3 . Das Ellipsoid lässt sich nämlich als Nullstellengebilde der Funktion
x 2 y 2 z 2
f (x, y, z) :=
+
+
−1
a
b
c
319
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
schreiben und der Gradient
2x/a2
∇f (x, y, z) = 2y/b2
2z/c2
verschwindet nur für (x, y, z) = (0, 0, 0), d.h. für keinen Punkt auf dem Ellipsoid. Den Tangentialraum
an den Nordpol“ (a, 0, 0) des Ellipsoids erhalten wir wegen ∇f (a, 0, 0) = (2/a, 0, 0)T zu
”
Tf (a, 0, 0) = {(x, y, z) ∈ R3 | 2/a(x − a) = 0} = {(a, y, z) ∈ R3 | x, y ∈ R}.
Das ist wie erwartet die Parallele zur (x, y)-Ebene durch den Nordpol.
Abbildung 6.16: Ein Ellipsoid als zweidimensionale Lösungsmannigfaltigkeit im R3 zusammen mit einem
Tangentialraum.
6.10 Niveaumengen und Gradientenlinien. Ist f : D ⊂ Rn → R eine C 1 -Funktion, so heißt für
c ∈ R die Menge
Nf,c := {~x ∈ D | f (~x) = c}
die Niveaumenge von f zum Niveau c.
Ist Nf,c nichtleer und gilt ∇f (~x) 6= ~0 für alle ~x ∈ Nf,c , so ist Nf,c eine (n − 1)-dimensionale Lösungsmannigfaltigkeit im Rn (nämlich das Nullstellengebilde von f − c) und wird auch eine (reguläre) Hyperfläche
genannt. Der Tangentialraum an einen Punkt ~a ∈ Nf,c ist dann ebenfalls (n − 1)-dimensional und in
Normalenform gegeben durch
Tf,c (~a) = {~x ∈ Rn | h∇f (~a)|~x − ~ai = 0}.
Eine Gradientenlinie von f ist ein C 1 -Weg ~x : ]c, d[→ D, dessen Tangentenvektor nirgends verschwindet
und an jeder Stelle in Richtung des Gradienten von f zeigt, d.h.
~x˙ (t) = λ(t)∇f (~x(t)) 6= ~0
mit λ(t) > 0.
Hieraus folgt unmittelbar: Jede Gradientenlinie ist orthogonal zu den Niveauflächen.
Im Fall n = 2 sind die Niveaumengen einer Funktion f : D ⊂ R2 → R mit (∂x f (x, y), ∂y f (x, y)) =
6 (0, 0)
entweder leer, einpunktig oder eindimensional. Fassen wir den Graphen (x, y) 7→ (x, y, f (x, y)) als eine
Gebirgslandschaft auf, so sind die Niveaulinien gerade die Höhenlinien. Ein Weg
t 7→ (x(t), y(t), f (x(t), y(t))
in diesem Graphengebirge“ ist genau dann ein Weg steilsten Anstiegs, wenn t 7→ (x(t), y(t)) eine Gra”
dientenlinie ist.
320
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Abbildung 6.17: Niveau- und Gradientenlinien sowie Graph einer Funktion in zwei Variablen.
7
Lokale Extrema mit Nebenbedingungen
7.1 Problemstellung und Lösungsskizze. In den Anwendungen (z.B. in der theoretischen Mechanik)
hat man oft eine (reellwertige) Zielfunktion unter Nebenbedingungen zu maximieren oder zu minimieren.
Wir nehmen für das Weitere an, dass die Zielfunktion f : D ⊂ Rn → R eine C 1 -Funktion und der
Definitionsbereich D eine offene Menge ist. Die Nebenbedingungen, sagen wir m Stück, sollen mittels
einer C 1 -Funktion ~g : D → Rm in der Form ~g (~x) = 0 formulierbar sein. Unter der weiteren Annahme,
dass d~g überall auf D maximalen Rang hat, können wir unser Problem nun folgendermaßen formulieren:
Suche die lokalen Maxima von f auf der Lösungsmannigfaltigkeit N~g , d.h. diejenigen Punkte ~a ∈ N~g mit
f (~x) ≤ f (~a)
für alle ~x ∈ N~g ∩ Br (~a)
für ein geeignetes r > 0, bzw. entsprechend für lokale Minima.
Bildlich gesprochen: Ein Wanderer will bei einer Gebirgswanderung (in der Gebirgslandschaft des Graphen von f ) die Hoch- und Tiefpunkte auf seinem Weg (modelliert durch die Nebenbedingungsgleichungen
~g = ~0) bestimmen. Die Gipfel und Senken des Gebirges (d.h. die lokalen Extrema von f ) sind für ihn
damit unwichtig. Es zählen nur die lokalen Extrema auf seinem Weg. Als Kandidaten hierfür kommen
nur diejenigen Punkte in Frage, in denen seine Bewegungsrichtung senkrecht zum Gradienten der Gebirgslandschaft läuft. Innerhalb der Gebirgslandschaft können das ganz unspektakuläre Punkte sein, für
den Wanderer sind sie aber extremal.
Etwas formaler: ein Punkt ~a ∈ D kann nur dann eine Extremalstelle sein, wenn für jede durch die
Nebenbedingung zugelassene Richtung ~v die Richtungsableitung ∂~v f (~a) = h∇f (~a)|~v i verschwindet, d.h.
~v ⊥ ∇f (~a). Die zulässigen Richtungen ihrerseits liegen im Tangentialraum T~g (~a) und stehen damit
senkrecht auf ∇g1 (~a), . . . , ∇gm (~a) (vgl. 6.9). Also muss ∇f (~a) in Span(∇g1 (~a), . . . , ∇gm (~a)) liegen. Dieses
Argument ist allerdings nur zulässig, wenn wir überhaupt Differentialrechnung ins Spiel bringen können
(über C 1 -Funktionen sprechen) und der Tangentialraum T~g (~a) existiert, d.h. d~g (~a) maximalen Rang hat.
Das erklärt die zuvor gemachten technischen“ Annahmen.
”
Damit haben wir den Beweis der folgenden Multiplikatorenregel von Lagrange skizziert (vgl. z.B. [FiKau,
Band 1, §22.6], [HeuA, Band 2, 174] oder [Kön, Band 2, §3.6]).
7.2 Notwendige Bedingung für Extrema mit Nebenbedingungen. Gegeben sind eine offene Menge D ⊂ Rn sowie C 1 -Funktionen f : D → R und ~g : D → Rm . Besitzt f an der Stelle ~a ∈ D unter den
Nebenbedingungen ~g (~a) = ~0 ein lokales Extremum und ist die Regularitätsbedingung rg d~g (~a) = m erfüllt,
so gibt es eindeutig bestimmte Zahlen λ1 , . . . , λm ∈ R mit
∇f (~a) +
m
X
λk ∇gk (~a) = ~0.
k=1
Die Zahlen λ1 , . . . , λm werden Lagrange-Multiplikatoren genannt.
321
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Anmerkung. Um die kritischen Punkte (d.h. die Kandidaten für lokale Extrema) von f ohne Nebenbedingungen zu bestimmen, hat man die n nichtlinearen Gleichungen
∇f (~x) = ~0
für die n Unbekannten x1 , . . . , xn zu lösen. Um die kritischen Punkte von f unter den m Nebenbedingungen g1 (~x) = 0, . . . , gm (~x) = 0 zu finden, muss man die n + m nichtlinearen Gleichungen
∇f (~x) +
m
X
λk ∇gk (~x) = ~0,
g1 (~x) = 0,
...,
g1 (~x) = 0,
k=1
für die n + m Unbekannten x1 , . . . , xn und λ1 , . . . , λm lösen. Das ist gleichbedeutend damit, die kritischen
Punkte (ohne Nebenbedingungen) des durch
F (~x, ~λ) := f (~x) +
n
X
λk gk (~x) = f (~x) + ~λT ~g (~x)
k=1
definierten Lagrange-Funktionals F : D × R
m
→ R zu bestimmen.
Achtung. Die Multiplikatorenregel von Lagrange liefert nur Kandidaten für lokale Extrema unter Nebenbedingungen (ähnlich wie die notwendige Bedingung ∇f (~x) = ~0 für lokale Extrema ohne Nebenbedingungen). Anschließend muss man die Kandidaten näher betrachten (vgl. 4.§3.5.3 und 4.§3.5.4 sowie
7.4).
7.3 Beispiel. Wir bestimmen
min x(x2 − 3) − 4y 2 + 28 | x2 + y 2 = 1 .
Das Minimum existiert, da eine stetige Funktion (nämlich (x, y) 7→ x(x2 − 3) − 4y 2 + 28) auf einer
kompakten Menge (hier der durch x2 + y 2 = 1 beschriebenen Einheitskreislinie) betrachtet wird.
30
1.5
20
1
0.5
10
0
1
0
-2
0
-1
0
-1
1
2
-0.5
-1
-1.5
-2
-1
0
1
2
Abbildung 6.18: Graph und Niveaulinien der Funktion f (x, y) = x(x2 − 3) − 4y 2 + 28 zusammen mit der
durch die Nebenbedingung x2 + y 2 = 1 gegebene Lösungsmannigfaltigkeit (hier eine Kreislinie).
Wir führen die C ∞ -Funktionen f, g : R2 → R mit
f (x, y) := x(x2 − 3) − 4y 2 + 28,
g(x, y) := x2 + y 2 − 1
322
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
ein und minimieren f unter der Nebenbedingung g = 0. Es gilt
2
3(x − 1)
2x
∇f (x, y) =
,
∇g(x, y) =
.
−8y
2y
Da g nur in (0, 0) nicht regulär ist, dort aber g(0, 0) 6= 0 gilt, können wir beide Funktionen auf der
punktieren Ebene R2 r {(0, 0)} betrachten und die Multiplikatorenregel von Lagrange anwenden. Wir
müssen dann das Gleichungssystem
∇f (x, y) + λ∇g(x, y) = 0,
g(x, y) = 0
d.h. die drei nichtlinearen Gleichungen
3(x2 − 1) + 2λx = 0,
−8y + 2λy = 0,
x2 + y 2 − 1 = 0
lösen. Die zweite Gleichung ist nur für y = 0 oder λ = 4 erfüllt. Gilt y = 0, so folgt aus der dritten
Gleichung x = ±1 und aus der ersten λ = 0. Gilt λ = 4, so liefert die erste Gleichung
x = −3 oder
√
x = 1/3. Für x = −3 ist die dritte Gleichung√nicht lösbar, für x = 1/3 folgt y = ±2 2/3. Damit haben
wir die vier Kandidaten (±1, 0) und (1/3, ±2 2/3) für diejenigen Stellen ausgesondert, an denen f unter
der Nebenbedingung
g minimal wird. Durch Einsetzen erhalten wir f (1, 0) = 26, f (−1, 0) = 30 bzw.
√
f (1/3, ±2 2/3) = 634/27 < 26. Also gilt
√
7
min x(x2 − 3) − 4y 2 + 28 | x2 + y 2 = 1 = f ( 31 , ± 2 3 2 ) = 23 .
27
7.4∗ Hinreichende Bedingung für lokale Extrema unter Nebenbedingungen. Gegeben sind eine
offene Menge D ⊂ Rn sowie C 2 -Funktionen f : D → R und ~g : D → Rm . Wenn f an der Stelle ~a ∈ N~g
auf der Lösungsmannigfaltigkeit ein lokales Extremum besitzt, so erfüllt das Lagrange-Funktional
F (~x, ~λ) = ∇f (~x) + ~λT ~g (~x)
die zwei Bedingungen
∇F (~a, ~λ) = ~0,
und
~v T HF (~a, ~λ)~v > 0
für alle ~v ∈ Rn+m r {~0} mit d~g (~a)~v = ~0.
Eine Beweisidee findet man in [FiKau, Band 1, §22.6]. Die erste Bedingung ist gerade die notwendige
Bedingung aus der Multiplikatorenregel von Lagrange 7.2.
§2
Integralrechnung in mehreren Variablen
Der Umfang der mathematischen Vorbereitungen für eine Integrationstheorie hängt im Wesentlichen
davon ab, wieviele Funktionen man über welche Mengen integrieren möchte und wie einfach das Integral
rechentechnisch handzuhaben sein soll. Das klassische Riemann-Integral ist zwar leicht zu motivieren, für
viele Anwendungen in der theoretischen Physik (z.B. in der Quantenmechanik) aber nicht leistungsfähig
genug. Das für derartige Zwecke standardgemäß verwendete Lebesgue-Integral erfordert für eine saubere
Behandlung umfangreiche beweistechnische Vorbereitungen, die wir uns im Rahmen dieser Vorlesung
nicht leisten können (wer es genau wissen will, lese [Köh, Kapitel VI], [Kön, Band 2, 7] oder [HeuA,
Band 2, XVI und XXVI]. Wir wählen also einen Mittelweg, skizzieren in Abschnitt 1 die Grundidee des
Lebesgue-Integrals (die der des Regelintegrals aus 4.§4 ähnelt), geben die wichtigsten Rechenregeln ohne
Beweis an und legen den Schwerpunkt auf die Anwendungen.
1
Das Lebesgue-Integral
R
1.1 Überblick. Wie beim Regelintegral benötigen wir zunächst ein Elementarintegral“ P f (~x) dvn (~x),
”
mit dem wir einfachen Mengen (den Quadergebäuden“ P ⊂ Rn ) ein n-dimensionales Volumen vn (P )
”
323
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
zuordnen und einfache Funktionen (Treppenfunktionen f : Rn → R) integrieren können. Nachdem wir
dieses Elementarintegral eingeführt haben, setzen wir dieses durch einen Grenzübergang fort. Dabei
erhalten wir alle für den Umgang mit Integralen wichtigen Rechenregeln sowie einen genügend allgemeinen
Volumenbegriff. Im Abschnitt 2 wird die Berechnung von konkreten Integralen bzw. Volumina durch
sukzessive Integration auf den eindimensionalen Fall zurückgeführt. Im Abschnitt 3 erklären wir die
Transformationsformel für Integrale als zusätzliches Mittel zur Berechnung.
1.2 Quader und ihr Volumen. Was ein (achsenparalleler ) Quader
Q = I1 × · · · × In := {(x1 , . . . , xn ) ∈ Rn | xk ∈ Ik }
mit beschränkten Intervallen I1 , . . . , In
im Rn ist, haben wir schon in 4.§1.3.12 erklärt. Für unsere weiteren Zwecke ist es unerheblich, ob die
Intervalle Ik offen, halboffen oder abgeschlossen sind. Sie dürfen auch leer sein, aber nicht unbeschränkt.
Sind ck = inf Ik , dk = sup Ik ∈ R, die Randpunkte von Ik , so setzen wir |Ik | := dk − ck . Dann ist |Ik |
gerade die Länge des Intervalls Ik . Das n-dimensionale Volumen erklären wir durch
vn (Q) :=
n
Y
|Ik | = (d1 − c1 ) · · · (dn − cn ).
k=1
Gilt Ik = ∅ oder ist Ik einpunktig (ck = dk ) für ein k, so folgt vn (Q) = 0.
Der Rand ∂Q eines Quaders Q ist eine Vereinigung aus 2(n + 1) Seitenhyperflächen
∂Q = {c1 } × I2 × · · · × In ∪ {d1 } × I2 × · · · × In ∪ . . . ∪ I1 × · · · × In−1 × {cn } ∪ I1 × · · · × In−1 × {dn }.
Beispiel. Ein eindimensionaler Quader ist ein Intervall. Sein Rand besteht aus den beiden Intervallendpunkten.
Für n = 2 ist Q = I1 × I2 ein achsenparalleles Rechteck mit den vier Ecken (c1 , c2 ) (d1 , c2 ), (d1 , d2 ) und
(c1 , d2 ) und v2 (Q) = (d1 − c1 )(d2 − c2 ) gibt dessen Fläche ( zweidimensionales Volumen“) an. Der Rand
”
∂Q besteht aus den vier Seitenlinien {c1 } × [c2 , d2 ], {d1 } × [c2 , d2 ], [c1 , d1 ] × {c2 } und [c1 , d1 ] × {d2 }.
Für n = 3 ist Q = I1 × I2 × I3 ein achsenparalleler Quader, der durch die beiden raumdiagonal gegenüberliegenden Ecken (c1 , c2 , c3 ) und (d1 , d2 , d3 ) festgelegt ist. Sein Rand setzt sich aus sechs Seitenflächen
zusammen.
Abbildung 6.19: Quader und ihr Ränder für n = 1, 2, 3.
1.3 Quadergebäude und ihr Volumen. Ein Quadergebäude oder eine parkettierbare Menge im Rn
P = Q1 ∪ Q2 ∪ · · · ∪ Qr ,
Qj1 ∩ Qj2 = ∅ für j1 6= j2
ist eine diskjunkte Vereinigung von endlich vielen Quadern. Die Familie (Qj )j=1,...,r heißt Parkettierung
von P .
324
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
Jeder Quader ist parkettierbar. Eine parkettierbare Menge P besitzt viele verschiedene Parkettierungen.
Man kann aber zeigen, dass unabhängig von der Wahl der Parkettierung einem Quadergebäude durch
vn (P ) :=
r
X
vn (Qj )
j=1
ein n-dimensionales Volumen vn (P ) zugeordnet werden kann.
Abbildung 6.20: Ein Quadergebäude im R2 mit drei verschiedenen Parkettierungen.
1.4 Charakteristische Funktionen und Treppenfunktionen. Für eine Teilmenge D ⊂ Rn nennen
wir
(
1 für ~x ∈ D,
n
χD : R → R,
χD (~x) :=
0 für ~x ∈ Rn r D
die charakteristische Funktion von D.
Sind Q1 , . . . , Qr ⊂ Rn paarweise disjunkte achsenparallele Quader und sind Zahlen c1 , . . . , cr ∈ R vorgegeben, so nennen wir
r
X
t : Rn → R,
t(~x) =
cj χQj (~x)
j=1
eine (reelle) Treppenfunktion.
Eine Treppenfunktionen ist eine endliche Linearkombinationen von charakteristischen Funktionen achsenparalleler Quader. Sie ist auf ganz Rn definiert, nimmt aber nur auf dem Quadergebäude P = Q1 ∪· · ·∪Qr
von Null verschiedene Werte an und ist auf jedem der Quader Qj konstant mit Wert cj .
1.5 Elementarintegral für Treppenfunktionen. Für eine Treppenfunktion t =
wir durch
Z
r
X
t(~x) dvn (~x) :=
cj vn (Qj )
Rn
Pr
j=1 cj χQj
erklären
j=1
das (Elementar -)Integral von t.
Anmerkung.
Da t außerhalb des Quadergebäudes P = Q1 ∪ · · · ∪ Qr verschwindet, hätten wir auch
R
t(~
x
)
dv
(~
x
)
schreiben
können.
n
P
Das Elementarintegral einer Treppenfunktion kann man sich (zumindest für n = 1, 2) als die Summe der
Volumina der (n + 1)-dimensionalen Quader über den Quadern Qj mit Höhen cj vorstellen. Für cj < 0
wird das Volumen negativ gezählt.
325
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Abbildung 6.21: Zum Elementarintegral einer reellen Treppenfunktion im R2 .
1.6 Nullmengen. Eine Teilmenge N ⊂ Rn heißt Nullmenge, falls es zu jedem ε > 0 eine Folge (Qj )j
von achsenparallelen Quadern Qj ∈ Rn gibt mit
N⊆
∞
[
Qj
∞
X
und
j=1
vn (Qj ) < ε.
j=1
Abbildung 6.22: Nullmengen (hier im R2 bzw. R3 ) werden von Quaderfolgen überdeckt, deren Gesamtvolumen beliebig klein gemacht werden kann.
Beispiel. Jede endliche oder abzählbar unendliche Punktmenge ist eine Nullmenge, ebenso wie jeder entartete Quader (bei dem ein Intervall leer oder einpunktig ist) oder jede Hyperebene. Jede Teilmenge einer
Nullmenge ist selbst Nullmenge, ebenso endliche und abzählbar unendliche Vereinigungen. Insbesondere
ist der Rand eines Quaders oder eines Quadergebäudes eine Nullmenge.
1.7 Fast überall“. Da die Ränder von Quadern Nullmengen sind, ist es beim Volumen eines Quaders,
”
eines Quadergebäudes oder dem Elementarintegral einer Treppenfunktion egal, ob die Intervalle der
beteiligten Quader offen, halboffen oder abgeschlossen sind. Insbesondere kann eine Treppenfunktion auf
einer Nullmenge abgeändert werden, ohne ihr Integral zu verändern.
Für derartige, im Rahmen der Integrationstheorie belanglose Abänderungen von Funktionen oder Mengen
benutzen wir folgende Sprechweise.
Wir nennen zwei reell- oder komplexwertige Funktionen f und g mit gemeinsamen Definitionsbereich
D ⊆ Rn fast überall gleich, wenn
f (~x) = g(~x)
für alle ~x ∈ D r N
mit einer Nullmenge N ⊂ Rn und schreiben dafür
f =g
f.ü.
oder
f.ü.
f = g.
326
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
Das verallgemeinert unsere Notation in 4.§4.1.4. Analog erklären wir
f.ü.
f ≤ g,
f.ü.
f.ü.
f.ü.
f < g,
f ≥ g.
f > g,
Für eine Folge von reell- oder komplexwertigen Funktionen fk auf D erklären wir schließlich
lim fk = f
k→∞
f.ü.
oder
f.ü.
lim fk = f
k→∞
durch
für fast alle ~x ∈ D.
lim fk (~x) = f (~x)
k→∞
Die Funktionenfolge (fk )k konvergiert also auf D mit eventueller Ausnahme einer Nullmenge punktweise
gegen f .
Beispiel. Für die aus 4.§2.3.15 bekannte erste Dirichlet-Funktion d := χQ gilt d = 0 f.ü., da Q abzählbar
und damit eine Nullmenge in R ist.
1.8 Lebesgue-integrierbare Funktionen und Lebesgue-Integral. Nach diesen elementaren“ Vor”
bereitungen erklären wir nun, was eine Lebesgue-integrierbare Funktion und deren Integral sind. Das
Motiv ist einfach: das Elementarintegral für Treppenfunktionen soll erhalten bleiben und möglichst viele
Funktionen sollen integrierbar werden. Dieser Wunsch wird durch den folgenden Existenzsatz erfüllt.
Für jede Dimension n ∈ N existiert ein eindeutig bestimmter R-Vektorraum V von Funktionen f : Rn → R
und eine eindeutig bestimmte Linearform
Z
f 7→
f (~x) dvn (~x)
Rn
mit den folgenden drei Eigenschaften:
(L1) Für f, g ∈ V gilt
Z
Z
f (~x) dvn (~x) ≤
Rn
g(~x) dvn (~x)
falls f ≤ g f.ü..
Rn
(L2) Für jede Treppenfunktion t = c1 χQ1 + · · · + cr χQr : Rn → R gilt
Z
t∈V
und
t(~x) dvn (~x) = c1 vn (Q1 ) + · · · + cr vn (Qr ).
Rn
(L3) RIst (fk )k eine fast überall monoton wachsende Folge von Funktionen fk ∈ V , ist die Folge der Zahlen
f (~x) dvn (~x) beschränkt und ist f : Rn → R eine Funktion mit f = limk→∞ fk f.ü., so gilt
Rn k
Z
Z
f ∈V
und
f (~x) dvn (~x) = lim
fk (~x) dvn (~x).
k→∞
Rn
Rn
Wir nennen V den Raum der Lebesgue-integrierbaren Funktionen in n Variablen und bezeichnen ihn mit
L(Rn , R)
oder
L(Rn ).
R
Für das (Lebesgue-)Integral Rn f (~x) dvn (~x) sind unter anderem die folgenden Bezeichnungen gebräuchlich
Z
Z
Z
Z
Z
f (~x) dvn (~x),
f dvn ,
dn ~x f,
f (x1 , . . . , xn ) dn (x1 , . . . , xn ),
f dx1 · · · dxn .
Rn
Rn
Rn
Die ersten beiden Varianten tragen u.a. der Tatsache Rechnung, dass formal immer über den gesamten
Rn integriert wird und dürfen nicht als unbestimmte Integrale (siehe 4.§4.2.4) interpretiert werden.
327
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Eine Funktion f : D ⊂ Rn → R nennen wir auf D Lebesgue-integrierbar, wenn die durch f (~x) := 0 für
~x ∈ Rn r D auf den ganzen Rn fortgesetzte Funktion integrierbar ist. Ihr Integral bezeichnen wir dann
mit
Z
f (~x) dvn (~x)
D
und den R-Vektorraum dieser Funktionen mit L(D, R) oder L(D). Bei einem Integrationsbereich D ⊆ R2
in der Ebene schreibt man auch
Z
Z
ZZ
ZZ
f (x, y) dF,
f dA,
f (x, y) d2 (x, y),
f (x, y) dx dy
D
D
D
D
und bei einer Integration über eine Teilmenge D ⊆ R3 im Raum
ZZZ
Z
Z
3
f (~x) dV,
f (x, y, z) d (x, y, z),
dx dy dz f (x, y, z)
D
D
D
oder Ähnliches.
1.9 Volumen einer Menge. Ist D eine Teilmenge des Rn deren charakteristische Funktion χD Lebesgueintegrierbar ist, so erklären wir das n-dimensionale Volumen von D durch
Z
vn (D) :=
χD (~x) dvn (~x).
D
Anmerkung. Man kann zeigen, dass insbesondere offene und beschränkte sowie kompakte Teilmengen
des Rn ein Volumen besitzen. Es gibt aber auch Teilmengen des Rn , deren charakteristische Funktionen
nicht Lebesgue-integrierbar sind. Das Spiel mit solchen Mengen führt zum Banach-Hausdorff-TarskiParadoxon, das in seiner allgemeinen Form folgendes besagt: Ist n ≥ 3 und sind A, B ⊂ Rn beliebige
Mengen mit inneren Punkten, dann gibt es eine Zahl m ∈ N und diskjunkte Zerlegungen A = A1 ∪· · ·∪Am
bzw. B = B1 ∪ · · · ∪ Bm mit fj (Aj ) = Bj , wobei f1 , . . . , fm Bewegungungen des Rn sind. Insbesondere
kann eine Kugel (das ist A) im R3 in m = 5 Teile zerlegt werden, die, geeignet bewegt, zusammen zwei
Kugeln (die bilden B) ergeben. Die Paradoxie der scheinbaren Volumenverdoppelung löst sich dadurch
auf, dass den Aj kein Volumen zugeordnet werden kann.
1.10 Anmerkungen.
R
• Die Forderungen f 7→ Rn f (~x) dvn (~x) ist eine Linearform“ und (L1) liefern grundlegende Rechen”
regeln für ein Integral: Linearität und Monotonie.
• Durch (L2) wird sichergestellt, dass Treppenfunktionen integriert werden können und Quadergebäude ein Volumen erhalten, welches unserer Anschauung entspricht.
• (L3) kann als eine Verallgemeinerung des Monotoniekriteriums für Zahlenfolgen 1.§2.8.3 angesehen
werden und garantiert ähnlich wie die Supremumseigenschaft (A9), dass genügend viele Funktionen
Lebesgue-integrierbar sind. Im Gegensatz zu unserem Vorgehen in 4.§4.1 bei der Einführung des
Regelintegrals wird aber über die Grenzfunktion weniger verlangt (punktweise Konvergenz der
Funktionenfolge fast überall und Beschränktheit der Integrale statt gleichmäßiger Konvergenz der
Funktionenfolge). Folgen mit den in (L3) genannten Eigenschaften heißen Levi-Folgen.
• Lebesgue-integrierbare Funktionen dürfen auf Nullmengen modifiziert werden, ohne die Integrierbarkeit zu verlieren und den Wert des Integrals zu verändern.
• Das Lebesgue-Integral unterscheidet nicht zwischen eigentlichen und uneigentlichen Integralen. Jede
Funktion wird (nach Fortsetzung auf Rn wie zuvor geschildert) über den ganzen Rn integriert.
• Die Volumenberechnung wird auf die Integration von charakteristischen Funktionen zurückgeführt
(man hätte es auch umgekehrt machen können).
328
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
1.11 Rechenregeln für Integrale. Sind f, g : D ⊂ Rn → R integrierbar und sind λ, µ ∈ R, so gilt
(a) λf + µg, max{f, g}, min{f, g}, f + := sup{f, 0}, f − := inf{f, 0} sowie |f | sind integrierbar,
R
R
R
(b) (Linearität) D (λf + µg) dvn = λ D f dvn + µ D g dvn ,
R
R
(c) (Monotonie im Integranden) D f dvn ≤ D g dvn falls f ≤ g f.ü.,
R
(d) (Definitheit) D |f | dvn ≥ 0 mit Gleichheit genau dann, wenn f = 0 f.ü.,
R
(e) (Beschränktheit) | D f dvn | ≤ kf k∞,D vn (D).
Ist f auf D1 ⊂ Rn und D2 ⊂ Rn integrierbar, so gilt
R
R
R
(f) (Additivität im Integrationsbereich) D1 f dvn + D2 f dvn = D1 ∪D2 f dvn falls D1 ∩ D2 Nullmenge ist,
R
R
(g) (Monotonie im Integrationsbereich) D1 f dvn ≤ D2 f dvn falls D1 ⊆ D2 und f ≥ 0 f.ü.
1.12 Rechenregeln für Volumina. Sind A, B ⊂ Rn zwei Teilmengen mit Volumen, so gilt
(h) A ∪ B, A ∩ B und A r B haben Volumen,
(i) vn (A r B) = vn (A) − vn (A ∩ B),
(j) vn (A ∪ B) = vn (A) + vn (B) − vn (A ∩ B).
1.13 Integrale von komplex- oder vektorwertigen Funktionen erklären wir durch Real- und Imaginärteilbildung bzw. komponentenweise:
Z
Z
Z
f dvn :=
Re(f ) dvn + i
Im(f ) dvn ,
D
D
D
falls f komplexwertig und Re f, Im f Lebesgue-integrierbar, bzw.
R
f dvn
Z
D 1
..
f~ dvn :=
,
.
R
D
f dvn
D m
falls f~ vektorwertig mit Werten im Rm und Lebesgue-integrierbaren Komponentenfunktionen f1 , . . . , fm .
1.14 Vertauschungssätze. Die beiden folgenden Vertauschungssätze machen den Umgang mit dem
Lebesgue-Integral angenehm. Den ersten kennen wir schon aus (L3).
(Satz von Levi über monotone Konvergenz) Ist (fk )k eine
fast überall monoton wachsende Folge von
R
Funktionen fk ∈ L(Rn ) und ist die Folge der Zahlen Rn fk dvn beschränkt, so gibt es eine Funktion
f ∈ L(Rn ) mit
Z
Z
f.ü.
f = lim fk
und
k→∞
f dvn = lim
k→∞
Rn
fk dvn .
Rn
(Satz von Lebesgue über beschränkte Konvergenz) Ist (fk )k eine Folge von Funktionen fk ∈ L(Rn ), die
fast überall punktweise gegen eine Funktion f : Rn → R konvergiert, und existiert eine Funktion g ∈ L(Rn )
mit
f.ü.
|fk | ≤ g
für alle k,
n
so gilt f ∈ L(R ) und
Z
Z
f dvn = lim
Rn
k→∞
fk dvn .
Rn
1.15∗ Hilbertsche Funktionenräume. Für D ⊂ Rn und stetiges ρ : D → R+ nennt
man eine auf D
R
definierte Funktion f bezüglich des Gewichts ρ über D quadratintegrierbar , falls D |f (~x)|2 ρ(~x) dvn (~x)
existiert. Die Klasse dieser Funktionen wird ein Hilbertscher Funktionenraum genannt und mit L2 (D)
bezeichnet. Auf solch einem (reellen bzw. komplexen) Funktionenraum kann man ein Skalarprodukt
erklären und die Theorie von Vektorräumen mit Skalarprodukten einsetzen (vgl. 5.§7.2).
329
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
1.16 Regelintegral und Lebesgue-Integral. Für Funktionen einer Variablen haben wir in 4.§4.1
und 4.§6.3 Integrale erklärt. Zunächst konnten wir gewisse Funktionen (Regelfunktionen) über kompakte
Intervalle integrieren, anschließend haben wir den Integralbegriff auf (absolut bzw. bedingt) uneigentliche
Integrale über halboffene, offene oder unbeschränkte Intervalle erweitert. Zwischen diesen Integralen und
dem Lebesgue-Integral im R1 besteht folgender Zusammenhang.
Jede über ein kompaktes Intervall integrierbare Regelfunktion und jede uneigentlich absolut integrierbare
Funktion in einer Variablen ist Lebesgue-integrierbar und die Werte der Integrale stimmen überein.
Integrale für Funktionen in einer Variablen können wir also wie bisher ausrechnen. Die Integration von
Funktionen mehrerer Variablen wird im folgenden Abschnitt auf die sukzessive Integration von Funktionen
einer Variablen zurückgespielt.
2
Berechnung von Integralen durch sukzessive Integration
R
2.1 Wie geht es weiter? Ein Lebesgue-Integral D f dvn können wir bisher nur im Fall n = 1 und
D = [c, d] ausrechnen und auch nur dann, wenn f eine Regelfunktion ist, also überall einseitige Grenzwerte
besitzt. Für n ≥ 2 wird die Integration scheibchenweise“ ausgeführt. Diesen Zugang motivieren wir
”
zunächst historisch und geben anschließend eine saubere Formulierung.
2.2 Cavalierisches Prinzip. Wenn zwei Körper von jeder Ebene einer Schar paralleler Ebenen in
Flächen mit gleichem Inhalt geschnitten werden, dann haben die beiden Körper gleiches Volumen.
Dieses Cavalieri (1598–1647), einem Schüler von Galilei, zugeschriebene Prinzip legt nahe, das n-dimensionale Volumen eines Körpers K ⊂ Rn rekursiv durch Zerlegung desselben in Schnittkörper
Kt := {(x1 , . . . , xn−1 ) ∈ Rn−1 | (x1 , . . . , xn−1 , t) ∈ K}
und Berechnung von
d
Z
vn (K) =
vn−1 (Kt ) dt
c
auszuführen. Die Volumenberechnung wird also auf Flächenberechnungen zurückgeführt.
Auf diese Weise hat schon Archimedes im 3. Jahrhundert v. Chr. — also lange vor Cavalieri — das
Volumen von Zylindern, Kegeln und Kugeln im R3 bestimmt.
Für einen Zylinder Z der Höhe h und mit Grundkreisradius r ist beispielsweise jeder Schnittkörper Zt
mit der Ebene z = t eine Kreisscheibe der Fläche πr2 und wir erhalten
Z h
v3 (Z) =
πr2 dt = πr2 h.
0
2.3 Kegelvolumen nach Cavalieri. Ein gerader Kreiskegel im R3 mit Höhe h und Grundkreisradius r
ist eine Menge der Gestalt
z 2 2
r .
A = (x, y, z) ∈ R3 | 0 ≤ z ≤ h, x2 + y 2 ≤ 1 −
h
Der Schnitt von A mit der Ebene z = t ist für 0 ≤ t ≤ h ein Kreis mit Radius (1−t/h)r und Flächeninhalt
π(1 − t/h)2 r2 . Nach Cavalieri hat der Kegel also das Volumen
Z
vn (A) =
0
h
t
π 1−
h
2
2
r dt = πr
2
Z
0
1
ht2 dt =
π 2
r h.
3
Diese Volumenformel bleibt nach Cavalieri auch für schiefe Kreiskegel gültig.
330
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
h
t
0
Abbildung 6.23: Gerader und schiefer Kreiskegel im R3 .
2.4 Kugelvolumen nach Cavalieri. Eine Kugel
K = {(x, y, z) ∈ R3 | x2 + y 2 + z 2 ≤ r2 }
mit Radius r schneidet mit der Ebene z = t für −r ≤ t ≤ r eine Kreisscheibe Kt vom Radius
aus. Selbige ist flächengleich zu einem Kreisring At mit Innenradius t und Außenradius r:
v2 (Bt ) = π(r2 − t2 ),
√
r 2 − t2
v2 (At ) = πr2 − πt2 .
Die Kreisringe At ihrerseits schneiden aus einem Zylinder Z der Höhe 2r einen doppelten Kreiskegel mit
Grundkreisradius r und Höhe r aus. Daher gilt für das Kugelvolumen
4π 3
π
r .
v3 (K) = v3 (Z) − 2v3 (K) = πr2 · 2r − 2 r2 · r =
3
3
r
t
0
−r
Abbildung 6.24: Kugelvolumen im R3 nach Cavalieri.
2.5 Sukzessive Integration. Dem Cavalierischen Prinzip fehlt eine Rechtfertigung dafür, dass für
einen Körper K ⊂ Rn mit n-dimensionalem Volumen auch jeder Schnittkörper Kt ⊂ Rn−1 ein (n − 1)dimensionales Volumen besitzt und dass man das Volumen scheibchenweise“ berechnen kann. Dies wollen
”
wir auch für Integrale über Funktionen tun. Im Fall n = 2 wäre das für ein Flächenstück K mit Schnittlinien Ky , c ≤ y ≤ d, parallel zur x-Achse die Beziehung
!
Z d Z
ZZ
2
f (x, y) dx dy,
f (x, y) d (x, y) =
K
c
Ky
wobei die Integrierbarkeit
von f über K die von x 7→ f (x, y) über Ky für jedes y ∈ [c, d] und dann auch
R
die von y 7→ Ky f (x, y) dx implizieren sollte.
Dass alles gut geht, besagt der folgende Satz in einer recht allgemeinen Form.
331
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
(Satz von Fubini) Ist f über den Rn Lebesgue-integrierbar und ist k = 1, 2, . . . , n − 1 so gilt Folgendes.
• Die Funktion (x1 , . . . , xk ) 7→ f (x1 , . . . , xn ) ist für fast alle (xk+1 , . . . , xn ) über den Rk Lebesgueintegrierbar und
Z
(xk+1 , . . . , xn ) 7→
f (x1 , . . . , xn ) dx1 · · · dxk
Rk
ist dann über den R
n−k
Lebesgue-integrierbar.
• Die Funktion (xk+1 , . . . , xn ) 7→ f (x1 , . . . , xn ) ist für fast alle (x1 , . . . , xk ) über den Rn−k Lebesgueintegrierbar und
Z
(x1 , . . . , xk ) 7→
f (x1 , . . . , xn ) dxk+1 · · · dxn
Rn−k
ist dann über den Rk Lebesgue-integrierbar.
• Es gilt
Z
Z
Z
f (x1 , . . . , xn ) dx1 · · · dxn
f (x1 , . . . , xn ) dx1 · · · dxk
=
Rn
Rn−k
Rk
Z
Z
=
Rk
dxk+1 · · · dxn
f (x1 , . . . , xn ) dxk+1 · · · dxn dx1 · · · dxk .
Rn−k
Eine wiederholte Anwendung des Satzes von Fubini liefert
Z
Z
Z Z
f (x1 , . . . , xn ) dx1 . . . dxn =
···
f (x1 , . . . , xn ) dx1 · · · dxn−1 dxn .
Rn
R
R
R
Kurz gesagt: ein n-dimensionales Lebesgue-Integral kann sukzessive ausgerechnet werden und es kommt
dabei nicht auf die Reihenfolge an. Darum werden wir im Weiteren auch die Klammern weglassen.
Falls f auf einem Quader Q = [c1 , d1 ] × · · · [cn , dn ] definiert ist, erhalten wir insbesondere
!
!
Z
Z
Z
Z
dn
dn−1
Q
d1
···
f (x1 , . . . , xn ) dx1 . . . dxn =
cn
cn−1
f (x1 , . . . , xn ) dx1
· · · dxn−1
dxn .
c1
Anmerkung. Umgekehrt sagt ein Satz von Tonelli, dass aus der absoluten Integrierbarkeit der partiellen
Funktionen auch die der Funktion selbst folgt.
2.6 Integration über achsenparallele Quader. Wollen wir eine Funktion über einen achsenparallelen
Quader integrieren, so erhalten wir nach Fubini beispielsweise
π
Z π/2 Z π
Z π/2
ZZ
2
cos(x + y) d (x, y) =
cos(x + y) dx dy =
sin(x + y) dy
0
[0,π]×[0,π/2]
Z
0
0
π/2
0
(−2 sin y) dy
0
π/2
= 2(0 − 1) = −2,
= 2 cos y 0
Z 1Z 1Z 1
Z 1
Z
xyz dx dy dz =
x dx
xyz d3 (x, y, z) =
ZZZ
[0,1]3
0
2
2xe−x
−|y|
d2 (x, y)
0
0
0
1
z dz
0
0
3
1
t dt
0
=
1
Z
y dy
3
1
1
= ,
2
8
0
∞ Z
Z ∞
Z +∞
−x2
−|y|
−x2 2xe
dx
e
dy = e
=
·2
Z
=
R+ ×R
π/2
(sin(π + y) − sin(y)) dy =
=
ZZ
0
Z
1 · 2 · 1 = 2.
=
−∞
0
0
∞
e−y dy
332
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
2.7 Integration nach Darstellung des Integrationsbereichs durch Randfunktionen. Kann der
Integrationsbereich durch Randfunktionen beschrieben werden, so ist ebenfalls eine sukzessive Integration
möglich.
Die Kreisfläche K = {(x, y) ∈ R2 | x2 +√y 2 ≤ 1} kann beispielsweise als das Flächenstück zwischen den
Graphen der beiden Funktionen x 7→ ± 1 − x2 , x ∈ [−1, 1], interpretiert werden. Damit gilt
ZZ
v2 (K) =
2
d (x, y)
=
(1 − x2 − y 2 ) d2 (x, y)
Z
√
1−x2
√
− 1−x2
√
1 Z
1−x2
Z
Z
=
−1
K
1
dy dx =
−1
−1
K
ZZ
1
Z
(1
√
− 1−x2
1
p
p
2
2
2 1 − x dx = x 1 − x + arcsin x = π,
−1
− x2 − y 2 ) dy dx =
Z
1
−1
π
4
(1 − x2 )3/2 dx = .
3
2
Das zweite Integral kann man als Integration der Funktion (x, y) 7→ 1 − x2 − y 2 über die Kreisscheibe
K
√
auffassen oder als das Volumen des Zuckerhuts“ Z := {(x, y, z) ∈ R3 | 0 ≤ z ≤ 1, x2 + y 2 ≤ 1 − z}.
”
√
1
1
0.5
1 − x2
0.5
0
0
-0.5
-0.5
-1
1
1-1
0.8
0.75
0.6
0.5
0.4
0.25
√
− 1 − x2
0.2
0
-1
0
-1
-0.5
-0.5
0
0
0.5
0.5
1
1
Abbildung 6.25: Sukzessive Integration zur Berechnung der Kreisfläche bzw. des Zuckerhutvolumens.
3
Transformationsformel für Integrale
3.1 Transformationsformel. Wir notieren die Substitutionsregel 4.§4.3.4 in einer leicht modifizierten
Form: Ist ϕ : [c, d] → R eine injektive C 1 -Funktion mit ϕ0 (x) 6= 0 für alle x ∈ [c, d], so gilt
Z
ϕ(d)
Z
f (y) dy =
ϕ(c)
d
f (ϕ(x))|ϕ0 (x)| dx.
c
Dem entspricht im Rn die folgende Transformationsformel .
Ist D ⊆ Rn eine offene Menge und ist ϕ
~ : D → Rn eine injektive C 1 -Funktion mit d~
ϕ(~x) 6= 0 für alle
~x ∈ D (d.h. ist ϕ
~ ein C 1 -Diffeomorphismus von D auf ϕ
~ (D)), so ist für jede über ϕ
~ (D) integrierbare
Funktion f die Funktion (f ◦ ϕ
~ ) · | det d~
ϕ| über D integrierbar mit
Z
Z
f (~y ) dvn (~y ) =
f (~
ϕ(~x)) · | det(d~
ϕ(~x))| dvn (~x).
ϕ
~ (D)
D
Der Beweis der Transformationsformel ist ziemlich kompliziert und erfordert umfassende Vorbereitungen.
Das liegt daran, dass anders als im Fall einer Variablen kein Hauptsatz der Differential- und Integralrechnung zur Verfügung steht. Ja umgekehrt: die Integralsätze in §3, welche man als höherdimensionale
Analoga des Hauptsatzes auffassen kann, werden aus der Transformationsformel abgeleitet.
Statt eines Beweises begnügen wir uns daher mit der nachfolgenden heuristischen Betrachtung und gehen
anschließend auf Anwendungen der Transformationsformel ein.
333
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
3.2 Heuristik zur Transformationsformel.
Ist ϕ
~ : D → Rn stetig
und injektiv, so
R
Pdifferenzierbar
r
approximieren wir das Volumen vn (D) = D dvn durch die Summe j=1 vn (Qj ) der Volumina eines
Systems von disjunkten achsenparallelen Quadern Qj , deren Vereinigung ungefähr mit D übereinstimmt.
Wenn die Qj klein sind, so kann ϕ
~ auf Qj näherungsweise durch eine lineare Abbildung d~
ϕ(~aj ) mit
einem Punkt ~aj ∈ Qj ersetzt werden. Das Bild d~
ϕ(~aj )(Qj ) ist ein Parallelotop, welches das etwas verzerrte Parallelotop ϕ
~ (Qj ) in erster Ordngung approximiert, also ungefähr dasselbe Volumen besitzt. Das
Bildparallelotop d~
ϕ(~aj )(Qj ) hat gemäß 5.§4.3.6 das Volumen
vn (d~
ϕ(~aj )(Qj )) = | det(~
ϕ(~aj )| · vn (Qj ).
Wir erhalten also näherungsweise
vn (~
ϕ(D)) ≈
r
X
vn (~
ϕ(Qj )) ≈
j=1
r
X
| det(~
ϕ(~aj )| · vn (Qj )
j=1
und nach einem geeignet ausgeführten Grenzübergang vermutlich
Z
Z
vn (~
ϕ(D)) =
dvn (~y ) =
| det(d~
ϕ(~x))| dvn (~x).
ϕ
~ (D)
D
Ist nun f eine stetige Funktion auf ϕ
~ (D), so ändert sich an dieser Überlegung nicht viel, da f sich lokal
(z.B. auf einem verzerrten Parallelotop ϕ
~ (Qj )) nur wenig ändert. Dies motiviert die Transformationsformel
Z
Z
f (~y ) dvn (~y ) =
f (~
ϕ(~x)) · | det(d~
ϕ(~x))| dvn (~x).
ϕ
~ (D)
D
ϕ
~ (D)
ϕ
~
*
D
ϕ
~ (D)
HH
j
H
Abbildung 6.26: Heuristik zur Transformationsformel
3.3 Bewegungsinvarianz des Volumens. Ist
ϕ
~ (~x) := U~x + ~b
mit U ∈ O(n), ~b ∈ Rn
eine Bewegung des Rn mit einer orthognalen Matrix U , so gilt | det(d~
ϕ(~a))| = | det(U )| = 1 und damit
Z
Z
Z
dvn =
| det(d~
ϕ)(~x)| dvn (~x) =
dvn = vn (K)
vn (~
ϕ(K)) =
ϕ
~ (K)
K
n
für jede Teilmenge K ⊂ R , die ein Volumen besitzt.
Das n-dimensionale Volumen ist invariant unter Bewegungen des Rn .
K
334
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
3.4 Volumenänderung bei affinen Abbildungen. Analog verifizieren wir für eine affine Abbildung
ϕ
~ (~x) := Ax + ~b
mit A ∈ GL(n), ~b ∈ Rn
die Beziehung
vn (~
ϕ(K)) = | det A|vn (K).
Das n-dimensionale Volumen ändert sich bei einer affinen Abbildung ~x 7→ A~x + ~b um den Faktor | det A|.
3.5 Transformation auf Polarkoordinaten. Ist
K = K(R1 , R2 ) := {(x, y) ∈ R2 | R1 2 ≤ x2 + y 2 ≤ R2 2 }
der Kreisring um den Ursprung mit Radien R1 und R2 , 0 ≤ R1 < R2 ≤ +∞, und ist f über K
integrierbar, so gilt
ZZ
Z 2π Z R2
2
f (x, y) d (x, y) =
f (r cos ϕ, r sin ϕ) rdr dϕ.
K
0
R1
Ist f insbesondere rotationssymmetrisch, d.h. gilt f (x, y) = F (r) für alle (x, y) ∈ K mit r =
so folgt
ZZ
Z R2
f (x, y) d2 (x, y) = 2π
F (r) rdr.
K
p
x2 + y 2 ,
R1
~ ϕ) = (r cos ϕ, r sin ϕ) von
Beweis. Transformationsformel für die Polarkoordinatentransformation Φ(r,
]R1 , R2 [×]0, 2π[ auf den offenen geschlitzen Kreisring
{(x, y) ∈ R2 | R1 2 < x2 + y 2 < R2 2 , y = 0 ⇒ x ≤ 0}.
~ ϕ)) = r. Die beiden angegebenen Integrationsbereiche werden von Φ
~ C ∞ -diffeomorph
Es gilt det(dΦ(r,
aufeinander abgebildet. Sie unterscheiden sich vom Quader [R1 , R2 ]×[0, 2π] bzw. dem Kreisring K(R1 , R2 )
nur um eine Nullmenge, erlauben aber die Anwendung der Transformationsformel.
R +∞
√
2
Beispiel. −∞ e−x dx = π.
Wir berechnen dieses Integral mit folgendem Trick, der mittels Fubini zu einer Funktion in zwei Variablen
übergeht.
Z
+∞
−x2
e
2
Z
−x2
=
dx
−∞
e
Z
dx
e
R
Z
−y 2
ZZ
dy =
Z
=
+∞
−r 2
e
0
e
e
ZZ
dx dy =
R2
R
2π
−x2 −y 2
2
e−(x
+y 2 )
d2 (x, y)
K(0,∞)
+∞
Z
rdr dϕ = 2π
−r 2
re
0
0
2 R
−e−r dr = 2π lim
= π.
R→+∞
2 0
3.6 Transformation auf Zylinderkoordinaten. Ist
Z = Z(R1 , R2 , z1 , z2 ) := {(x, y, z) ∈ R3 | R1 2 ≤ x2 + y 2 ≤ R2 2 , z1 ≤ z ≤ z2 }
der Zylinderring um den Ursprung mit Radien R1 und R2 , 0 ≤ R1 < R2 ≤ +∞ und Anfangshöhe z1 bzw.
Endhöhe z2 , und ist f über Z integrierbar, so gilt
Z 2π Z R2 Z z2
ZZZ
3
f (x, y) d (x, y, z) =
f (r cos ϕ, r sin ϕ, z) dz rdr dϕ.
Z
0
R1
z1
Ist f insbesondere
rotationssymmetrisch zur z-Achse, d.h. gilt f (x, y, z) = F (r, Z) für alle (x, y, z) ∈ Z
p
mit r = x2 + y 2 , so folgt
ZZZ
Z
f (x, y) d3 (x, y, z) = 2π
Z
z2
Z
R2
F (r, z) rdr dz.
z1
R1
335
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Beweis. Transformationsformel für die Zylinderkoordinatentransformation
r cos ϕ
~ ϕ, z) = r sin ϕ
Φ(r,
z
~ ϕ, z)) = r. Man muss die Halbebene {(x, 0, z) ∈ R3 | x > 0, z ∈ R} also eine Nullmenge,
mit det(dΦ(r,
ausschließen.
3.7 Transformation auf Kugelkoordinaten. Ist
K = K(R1 , R2 ) := {(x, y, z) ∈ R3 | R1 2 ≤ x2 + y 2 + z 2 ≤ R2 2 }
die Kugelschale um den Ursprung mit Radien R1 und R2 , 0 ≤ R1 < R2 ≤ +∞, und ist f über K
integrierbar, so gilt
Z 2π Z π Z R2
ZZZ
f (x, y, z) d3 (x, y, z) =
f (r sin θ cos ϕ, r sin θ sin ϕ, r cos θ) r2 dr sin θdθ dϕ.
K
0
0
R1
Ist f radialsymmetrisch, d.h. gilt f (x, y, z) = F (r) für alle (x, y, z) ∈ K mit r =
ZZZ
3
Z
R2
f (x, y, z) d (x, y, z) = 4π
Z
p
x2 + y 2 + z 2 , so folgt
F (r) r2 dr.
R1
Beweis. Transformationsformel für die Kugelkoordinatentransformation
r sin θ cos ϕ
~ θ, ϕ) = r sin θ sin ϕ
Φ(r,
r cos θ
~ θ, ϕ)) = r2 sin θ unter Ausschluss einer geeigneten Nullmenge (der Halbebene durch den
mit det(dΦ(r,
Nullmeridian).
Beispiel. Wir betrachten das rotationssymmetrische Potential ~x 7→ k~xk−α und erhalten
Z
0<k~
xk<R
Z
1≤k~
xk<R
Insbesondere folgt
divergiert.
1
d3 (~x)
k~xkα
1
d3 (~x)
k~xkα
R
k~
xk≥1
Z
=
R
4π
0
Z
=
4π
1
R
1 2
4π
r dr =
R3−α
für α < 3,
rα
3−α
4π (1 − R3−α ) für α > 0, α 6= 3,
1 2
α−3
r
dr
=
4π ln R
rα
für α = 3.
k~xk−α d3 (~x) = 4π/(α − 3) für α > 3. Das Integral
R
1
xk
0<k~
xk<R k~
d3 (~x) dagegen
3.8 Allgemeines Kugelvolumen. Das Volumen einer n-dimensionalen Kugel
p
Kn (R) := {~x ∈ Rn | k~xk = x1 2 + · · · + xn 2 ≤ R}
vom Radius R > 0 bestimmen wir entweder durch sukzessive Integration oder für n ≥ 3 mit ndimensionalen Kugelkoordinaten
r sin θn−2 · · · sin θ1 cos ϕ
r sin θn−2 · · · sin θ1 sin ϕ
r sin θn−2 · · · cos θ1
~ θ1 , . . . , θn−2 , ϕ) :=
r > 0, θn−2 , . . . , θ1 ∈]0, π[, ϕ ∈]0, 2π[.
Φ(r,
,
..
.
r sin θn−2 · · · cos θn−3
r cos θn−2
336
§3. INTEGRALSÄTZE
Man mache sich selbst klar, dass dies eine geeignete Verallgemeinerung von Polar- und Kugelkoordinaten
ist. Wegen
~ θ1 , . . . , θn−2 , ϕ) = sin θ1 · · · (sin θn−2 )n−2 rn−1
det dΦ(r,
liefert die Transformationsformel (nach Ausschluss einer geeigneten Nullmenge)
Z
vn (Kn (R))
π
Z
0
2π
Z
0
Z
=
π
Z
R
rn−1 dr dϕ sin(θn−2 )n−2 dθn−2 · · · sin(θ1 )dθ1
···
=
2π
0
R
rn−1 dr
0
0
n−2
YZ π
k=1
sink θ dθ.
0
Durch einen Induktionsbeweis erhält man unter Verwendung der Gamma-Funktion (siehe 4.§6.3.14)
Z
π
sink θ dθ =
0
und damit die Volumenformel
√ Γ( k+1
2 )
π k+2
Γ( 2 )
2π n/2
Rn .
nΓ(n/2)
vn (Kn (R)) =
Insbesondere gilt für das Volumen der Einheitskugel im Rn
n
1
Vn (Kn (1)) 2
2
π
3
4π
3
4
2
π
2
5
6
2
8π
15
3
π
6
Man kann zeigen, dass
Vn (Kn (1)) → 0
§3
Integralsätze
Dieser Abschnitt ist noch nicht ausgearbeitert;(
für n → ∞.
7
8
3
16π
105
π4
24
337
Literaturverzeichnis
[AbSteg]
M. Abramovitz, I. A. Stegun, Handbook of Mathematical Functions.
Dover Publications Inc., 1965.
[BeWei]
G. Behrendt, E. Weimar, Mathematik für Physiker.
Band 1: Analysis und Lineare Algebra,
Band 2: Funktionentheorie, gewöhnliche und partielle Differentialgleichungen.
VCH Verlagsgesellschaft, Weinheim, 2. Auflage 1990 (Band 1), 2. Auflage 1990 (Band 2).
[BöRee]
M. Böhm, G. Reents, Mathematik für Ingenieure I und II,
Manuskript zu einer zweisemestrigen Vorlesung.
Band 1: Differential- und Integralrechnung,
Band 2: Vektorräume, Lineare Algebra, Analysis mehrerer Variablen, Vektoranalysis.
Würzburg, Version Oktober 2004 (Band 1), Version April 2005 (Band 2).
[Brö]
Th. Bröcker, Lineare Algebra und Analytische Geometrie,
Ein Lehrbuch für Physiker und Mathematiker.
Vektorräume, Matrizenrechnung, Determinante, Bilinearformen, Jordansche Normalform,
Geometrie, Tensorrechnung, Lineare Gruppen und Liealgebren, Quaternionen und orthogonale Gruppen, Ringe und Moduln.
Birkhäuser, Basel/Boston/Berlin, 1. Auflage 2003.
[DaCa]
M. P. DoCarmo, Differentialgeometrie von Kurven und Flächen,
Vieweg, Braunschweig, 3. Auflage 1993.
[FiKau]
H. Fischer, H. Kaul, Mathematik für Physiker.
Band 1: Grundlagen, Vektorrechnung im Rn , Analysis einer Veränderlichen, Lineare Algebra,
Analysis mehrerer Variablen, Vektoranalysis, Einführung in die Funktionentheorie,
Band 2: Gewöhnliche und partielle Differentialgleichungen, mathematische Grundlagen der
Quantenmechanik,
Band 3: Variationsrechnung, Differentialgeometrie, mathematische Grundlagen der allgemeinen Relativitätstheorie.
Teubner, Stuttgart, 5. Auflage 2005 (Band 1), 2. Auflage 2004 (Band 2), 2. Auflage 2006
(Band 3).
[Fo]
O. Forster, Analysis.
Band 1: ...,
Band 2: ...,
Band 3: Integralrechnung im Rn mit Anwendungen.
Vieweg, Braunschweig/Wiesbaden, ??. Auflage ???? (Band 1), ??. Auflage ???? (Band 2),
3. Auflage 1984 (Band 3).
[HeuA]
H. Heuser, Lehrbuch der Analysis.
Band 1: Mengen und Zahlen, Folgen und Reihen, Differential- und Integralrechnung in einer
Variablen,
Band 2: Differential- und Integralrechung in mehreren Variablen, Integralsätze, Banachräume,
338
LITERATURVERZEICHNIS
Fourierreihen, Fixpunktsätze.
Teubner, Stuttgart, 15. Auflage 2003 (Band 1), 13. Auflage 2004 (Band 2).
[HeuD]
H. Heuser, Gewöhnliche Differentialgleichungen.
Allgemeine Theorie, spezielle Typen, Stabilitätstheorie und viele Beispiele.
Teubner, Stuttgart, 5. Auflage 2006.
[Ka]
E. Kamke, Differentialgleichungen: Lösungsmethoden und Lösungen.
Band 1: gewöhnliche Differentialgleichungen,
Band 2: partielle Differentialgleichungen.
Teubner, Leipzig, 1959.
[Köh]
G. Köhler, Analysis.
Heldermann Verlag, Lemgo, 1. Auflage 2006.
[Kön]
K. Königsberger, Analysis.
Band 1: Grundlagen, Differential- und Integralrechung in einer Variablen, Differentialgleichungen, Fourierreihen,
Band 2: Differential- und Integralrechung in mehreren Variablen, Kurvenintegrale, LebesgueIntegral.
Springer, Berlin, 6. Auflage 2004 (Band 1), 5. Auflage 2004 (Band 2).
[MaTro]
J. E. Marsden, A. J. Tromba, Vector Calculus.
The Geometry of Euclidean Space; Differentiation; Vector-Valued Functions; Higher-Order
Derivatives: Maxima and Minima; Double Integrals; The Triple Integral, The Change of Variables Formula, And Applications; Integrals Over Paths and Sucfaces; The Integral Theorems
of Vector Analysis.
W. H. Freeman and Company, 3. Auflage 1988.
[RyGrad] I. S. Gradstein, I. M. Ryshik, Summen-, Produkt- und Integraltafeln / Tables of Series, Products and Integrals.
zwei Bände deutsch/englisch.
Verlag Harri Deutsch, dt. Übersetzung der 5. russ. Auflage, 1981.
339
Index
· in Körpern, 3
+ in Körpern, 3
−γ (bei Kurven), 175
< in geordneten Körpern, 5
A−1 , 225
H, 117
K(~a), 100
Kr (a) in C, 31
L(γ), 174
L(γ) (Bogenlänge), 174
MB (L), 220
MBC (L), 220
P (~a), 102
S1 , 100
S2 , 100
Sn−1 , 100
T∞ [f, a], 141
Tn [f, a], 141
[·], 16
[c, d[, 12
[c, d], 12
Bild(A), 232
Bild(L), 214
def(A), 232
def(L), 217
∆, 187
End(V ), 218
GL(2), 85
GL(n, K, 264
Γ, 210
Hom(V, W ), 218
Im, 30
Kern(A), 232
Kern(L), 214
O für Folgen, 29
O für Funktionen, 122
O für Folgen, 29
O für Funktionen, 122
⇔, 1
O(n), 264
Re, 30
rg(A), 232
rg(L), 217
⇒, 1
SO(2), 88
SO(n), 264
SU(n), 264
Span, 94
Spin(3), 264
Spur(A), 249
U(n), 264
≈, 25
c
k , 9
∩, 2
χA (t), 249
χD , 324
∪, 2
f¨(a), 139
δk,l , 100
diag(λ1 , . . . , λn ), 249
dim, 216
div, 187
f˙(a), 131
ẋ(t0 ), 132
`2 (C), 259
`2 (R), 259
ε-δ-Kriterium für Grenzwert, 118
ε-δ-Kriterium für Stetigkeit, 124
ε-Schlauch um eine Funktion, 157
εklm , 104
exp, 49
d2
dxn2 , 139
d
dxn , 139
d
dx , 131
γ + δ (bei Kurven), 175
inf,
R 15
~v (~x) d~x, 181
Rγ
f (~x) ds, 179
γ
R ~x2
~v (~x) d~x, 182
~
x1
h·|·i bei R-VR98,
h·|·i bei C-VR254,
ld, 54
lg, 54
limn→∞ , 19, 21
limx→a+ , 120
limx→a− , 120
limx→a , 118
ln, 52
loga , 54
340
~ 178
B,
C, 30
CN , 92
Cn , 92
Cm×n , 220
N, 7
Q, 11
R, 15
R+ , 12
R+
0 , 12
R− , 12
R−
0 , 12
R2 , 81
RN , 92
Rn , 91
Rm×n , 220
Z, 7
C 0 , 125
C 0 -Funktion (eine Var.), 125
C 1 , 141, 152
C 1 -Funktion, 141
C 1 -Funktion (mehrere Var.), 152
C ∞ , 141, 152
C ∞ -Funktion (eine Var.), 141
C ∞ -Funktion (mehrere Var.), 152
C n , 141, 152
C n -Funktion (eine Var.), 141
C n -Funktion (mehrere Var.), 152
F(D, K), 92
L2 , 285
max, 13
min, 13
∇, 152
¬,
H 1
~v (~x) d~x, 182
γ
z, 32
K(~a), 100
∂D für D ⊂ Rn , 115
∂K
Q (~a), 100
,8
· in Körpern, 3
det, 241
rot, 188
r, 2
sgn, 6
' für Folgen, 29
' für Funktionen, 122
sinc,
117
√
n
·,
16
√
·, 16
⊂, 2
⊆, 2
(,
P2
,8
INDEX
sup, 15
τ (Torsion), 179
~ , 176
N
~
T , 176
~σ (Bogenlängenparametrisierung), 176
e~k , 94
∨, 1
∧, 1
]c, d[, 12
]c, d], 12
cn , n ∈ Z, 9
f 00 (a), 139
f 0 (a), 131
f 0 (a+), 131
f 0 (a−), 131
f (a+), 124
f (a−), 124
f (x) → b für x → a, 118
f (n) (a), 139
n!, 9
nA,λ , 250
vn (P ), 324
vn (Q), 323
0
, 131
00
, 139
Abbildung, 45
Abel, Niels Hendrik, 68
abelsche Gruppe, 85
Abfall, exponentieller, 29
Abfall, polynomialer, 29
abgeschlossen bzgl. + und ·, 4
abgeschlossen bzgl. Vektorraumoperationen, 91
abgeschlossene Menge, 115
abgeschlossenes Intervall, 12
Ableitung, 132
Ableitung der Umkehrfunktion (eine Var.), 135
Ableitung in einem Punkt, 131
Ableitung in einem Punkt, 291
Ableitungsoperator, 213
abschnittsweise erklärte Zuordnungsvorschrift, 46
absolut uneigentlich integrierbar, 206
absolut konvergente Reihe, 42
Abspalten einer Nullstelle (bei Polynomen), 66
Abzählbarkeit von Q, 11
achsensymmetrische Funktion, 49
Additionstheorem für Binomialkoeff., 9, 67
Additionstheorem für trig. Funktionen, 57
Additionstheoreme der Hyperbelfunktionen, 55
Additivität des Integrals, 161
affiner Teilraum, 94
algebarische Funktion, 71
Algebra, 225
algebraische Vielfachheit eines Eigenwerts, 250
341
INDEX
allgemeine Exponentialfunktion, 53
allgemeiner Logarithmus, 54
Alternieren (bei Determinanten), 241
alternierende Reihe, 40
alternierende harmonische Reihe, 40
ähnliche Matrizen, 230
analytische Funktion, 142
Aneinanderhängen von Kurven, 175
Anfangsbedingung (Beispiel), 150
Anfangspunkt einer Kurve, 112
Anfangswerte (lin. hom. DGL 2. Ordung), 96
Anfangswertproblem, 191
antilinear, 256
Antisymmetrie (Kreuzprodukt), 104
Antisymmetrie (Spatprodukt), 105
antisymmetrische Matrix, 227
Äquivalenz von Aussagen, 1
Archimedische Anordnung von Q, 11
Archimedische Anordnung von R, 15
Archimedisches Prinzip, 15
Arcuscosinus, 59
Arcuscotangens, 64
Arcussinus, 60
Arcustangens, 64
Arcustangensreihe, 144
Areacosinus Hyperbolicus, 56
Areasinus Hyperbolicus, 56
Areatangens Hyperbolicus, 56
Argument einer komplexen Zahl, 60
arithmetisches Mittel, 6
Assoziativgesetz, 3
Asymptoten einer Hyperbel, 272
asymptotische Gleichheit von Folgen, 29
asymptotische Gleichheit von Funktionen, 122
Auflösebedingung, 315
Aussage, 1
AWP, 191
Babylonisches Wurzelziehen, 27
Banach-Hausdorff-Tarski-Paradoxon, 156, 327
Basis, 95
Basis einer Potenz, 9
Basis einer Potenz, 53
Basisaustauschsatz, 217
Basisergänzungssatz, 217
Basislösung (lin. DGL 2. Ordnung), 96
Basiswechsel, 229
bedingt konvergente Reihe, 41
bedingt uneigentlich integrierbar, 206
begleitendes Dreibein, 178
begleitendes Zweibein, 177
Bernnoullische DGL, 198
Bernoulli-Zahlen, 76
Bernoullische Ungleichung, 10
beschränkte Funktion, 48
beschränkte Teilmenge von R, 13
beschränktes Intervall, 12
Beschränktheit des Integrals für Treppenfkt., 160
Besselsche Ungleichung, 287
Bestapproximation im Quadratmittel, 261
bestimmte Divergenz, 28
Betrag einer reellen Zahl, 6
Bewegung des Rn , 265
bijektiv, 47
Bild einer linearen Abbildung, 214
Bild einer Matrix, 232
Bild unter einer Abbildung, 45
Bilinearform, 256
Binomialkoeffizient, 9
Binomialreihe, 40
binomische Formel, 10
Binormalenvektor, 178
Bogenlänge, 174
Bogenlängenparametrisierung, 176
Bogenmaß eines Winkels, 63
Cantorsches Diagonalverfahren, 11
Cauchy-Folge im Rn , 111
Cauchy-Folge in C, 35
Cauchy-Folge in R, 28
Cauchy-Hauptwert, 206
Cauchy-Integral, 156
Cauchy-Kriterium, 28
Cauchy-Produkt zweier Reihen, 43
Cauchy-Schwarzsche Ungleichung, 99
Cavalierisches Prinzip, 246
charakteristische Funktion, 155, 324
charakteristisches Polynom einer Matrix, 249
charakteristisches Polynom einer quad. Gl., 96
charakteristisches Polynom eines Diff.Op., 254
Chebyshev-Polynome 1. Art, 289
Cosinus, 57
Cosinus Hyperbolicus, 54
Cosinus-Reihe, 201
Cosinussatz, 87
Cotangens, 63
Cotangens Hyperbolicus, 56
Cramersche Regel, 106
Defekt einer Matrix, 232
Defekt einer lin.Abb., 217
Definitionsbereich, 45
dekadischer Logarithmus, 54
Determinante (n × n), 241
Determinante (3 × 3), 105
Determinante (2 × 2), 84
Determinante (lineare Abbildung), 243
Determinantenform, 241
Dezimalbruchentwicklung, 24
342
Dezimalkomma, 24
Dezimalpunkt, 24
DGL, 190
DGL mit getrennten Variablen, 192
DGL mit rationalem Richtungsfeld, 199
diagonalähnliche Matrix, 249
Diagonaleintrag (Matrix), 226
diagonalisierbare Matrix, 249
Diagonalmatrix, 249
Dichtheit von Q, 11
Diffeomorphismus, 309
Differential, 291
Differentialgleichung, 190
Differenzenquotient, 131
differenzierbar, 132, 291
differenzierbar in einem Punkt, 131, 291
Differenzierbarkeit (eine Variable), 131
Differenzierbarkeit (mehrere Variable), 291
Dimension einer DGL, 190
Dimension einer Lösungsmannigfaltigkeit, 318
Dimension eines Vektorraums, 216
Dimensionsformel für lin.Abb., 217
Dirac-Folge, 283
direkter Beweis, 14
Dirichlet, 199
Dirichlet-Funktion, 127
Distributivgesetz, 3
divergente Folge, 28
divergente Reihe, 36
Divergenz, 187
divergenzfrei, 187
Division, 3
Doppelkreuzung mit parallelen Geraden, 79
Doppelreihe, 42
Drehmatrix (2 × 2), 88
Drehstreckung (in der Zahlenebene), 34
Dreieckschwingung, 281
Dreiecksmatrix, 226
Dreiecksungleichung in C, 32
Dreiecksungleichung (Norm), 99
Dreiecksungleichung (Supremumsnorm), 157
Dreiecksungleichung in R, 6
Durchschnitt, 2
Ebene, 94
echt rationale Funktion, 69
Eigenraum bei lin. Abb., 250, 253
eigentliche Konvergenz, 28
Eigenvektor bei lin. Abb., 253
Eigenvektor bei Matrizen, 249
Eigenwert bei lin. Abb., 253
Eigenwert bei Matrizen, 249
eineindeutig, 47
Einheitskreis im R2 , 100
INDEX
Einheitskugel im R3 , 100
Einheitskugel im Rn , 100
Einheitsmatrix (2 × 2), 84
Einheitsmatrix (n×), 220
Einheitsnormalenvektor, 105
Einheitspunkte, 80
Einheitsvektor, 80
Einheitswürfel, 245
Einheitswurzel, 69
einschaliges Hyperboloid, 274
Einschränkung einer Funktion, 47
einseitiger Grenzwert, 120
Einsfunktion, 49
Einsteinsche Summenkonvention, 8
1-1-Abbildung, 47
Element, 1
Ellipse, 272
Ellipsoid, 274
Emissionsmaxium eines strahlenden Körpers, 128
Endomorphismen, 218
Endpunkt einer Kurve, 112
entgegengesetzt orientiert, 247
Entwickeln eines Polynoms, 67
Entwicklungspunkt einer Potenzreihe, 71
Entwicklungssatz (Determinante), 242
Erzeugnis, 93
euklidische Bewegung, 89
euklidischer Vektorraum, 98
Euler-Konstante, 209
Euler-Produkt (Zeta-Funktion), 209
Eulersche DGL, 198
Eulersche Formel, 57
Eulersche Zahl, 51
exaktes Vektorfeld, 182
explizite DGL erster Ordnung, 190
explizite Funktion, 315
explizite Zuordnungsvorschrift, 46
Exponent einer Potenz, 9, 53
Exponentialfunktion, 49
Exponentialreihe, 39
Faktorisierung eines Polynoms, 68
Fakultät, 9
fast überall gleich, 155, 325
Fejér-Kern, 282
Fibonacci-Zahlen, 17
Flächen zweiter Ordnung, 271
Folgenglied, 17
Folgenkriterium für Grenzwert, 118
Folgenkriterium für Stetigkeit, 125
Fortsetzung einer Funktion, 47
Fourier, 199
Fourier-Entwicklung (allg.), 287
Fourier-Koeffizienten, 201
343
INDEX
Fourier-Koeffizienten (allg.), 287
Fourier-Koeffizienten (komplex), 279
Fourier-Koeffizienten (reell), 279
Fourier-Polynom, 279
Fourier-Rücktransformation, 280
Fourier-Reihe, 279
Fourier-Reihe (komplexe), 201
Fourier-Reihe (reelle), 201
Fourier-Synthese, 280
Fourier-Transformation, 280
Fourier-transformierbar, 279
Freiheitsgrade einer Lösungsmannigfaltigkeit, 318
Frenet-Formeln, 179
Fundamentallösung (lin. DGL 2. Ordnung), 96
Fundamentalmatrix (Bi-, Sesquilinearform), 256
Funktion, 45
Funktion einer komplexen Variablen, 111
Funktion einer reellen Variablen, 111
Funktion mehrerer Variablen, 111
Funktional, 46
Funktionalgleichung der Exponentialfunktion, 50
Funktionalgleichung der trig. Funktionen, 57
Funktionalgleichungen der Hyperbelfunkt., 55
Funktionenfolge, 200
Funktionenreihe, 201
Galois, Evariste, 68
Gamma-Funktion, 210
ganze Zahlen, 7
Gauß, Carl Friedrich, 68
Gauß-Klammer, 16
Gauß-Methode kleinster Quadrate, 308
Gaußsche Normalengleichungen, 308
Gaußsche Zahlenebene, 31
Gaußsches Fehlerintegral, 172
Gebiet, 184
gedämpfte kollabierende Oszillation, 117
gekoppelte Pendel, 248
gemischte partielle Ableitungen, 152
generalisierte Koordinaten, 311
geographische Breite, 109
geographische Länge, 109
geometrische Summenformel, 10
geometrische Reihe, 36
geometrische Vielfachheit eines Eigenwerts, 250
geordneter Körper, 5
Gerade, 94
gerade Funktion, 49
gerade Zahl, 4
gerichtete Größe, 78
Gewichtsfunktion (Mittelwertsatz der Int.), 163
glatte Kurve, 175
Gleichheit von Funktionen, 46
Gleichheit von Vektoren, 80
gleichmäßiger Abstand zweier Funktionen, 157
gleichorientiert, 247
Glieder einer Reihe, 36
Graßmannscher Entwicklungssatz, 104
Grad eines Polynoms, 65
Gradient, 152, 300
Gradient in generalisierten Koordinaten, 312
Gradientenfeld, 183
Gradientenlinie, 319
Gradmaß eines Winkels, 63
Gramsche Matrix, 311
Graph einer Funktion, 47, 113
Grenzfunktion, 200
Grenzvektor einer Folge, 110
Grenzwert einer Folge, 21
Grenzwert einer Funktion, 118
Grenzwert einer Reihe, 36
Grenzwertkriterium für Stetigkeit, 124
Grundkörper eines Vektorraums, 91
Gruppe, 85
gültige Stellen, 25
halboffenes Intervall, 12
harmonisch, 187
harmonische Reihe, 36
Häufungspunkt, 114
Hauptachsen einer Ellipse, 272
Hauptachsenradien eines Ellipsoids, 274
Hauptachsenradien einer Ellipse, 272
Hauptachsentransformation, 267
Hauptnormalenvektor, 176
Hauptsatz über stetige Funktionen, 129
Hauptsatz der Diff.- und Int. (Integralfkt.), 164
Hauptsatz der Diff.- und Int. (Skalarfeld), 302
Hauptsatz der Diff.- und Int. (Stammfkt.), 165
Hauptteil einer rationalen Funktion, 70
Hauptzweig des Logarithmus, 62
Hauptzweig des Arcuscosinus, 59
Hauptzweig des Arcussinus, 60
Hauptzweig des Arguments, 61
Heaviside-Funktion, 117
hebbarer Pol, 127
Hermite-Polynome, 290
hermitesche Abbildung, 266
hermitesche Matrix, 227
hermitesche Sesqilinearform, 256
Hermitezität (Skalarprodukt für C-VR), 259
Hesse-Matrix, 304
Hessesche Normalform, 105
Hilbert-Raum, 287
Hilbertscher Folgenraum (komplex), 259
Hilbertscher Folgenraum (reell), 259
Hilbertscher Funktionenraum, 285, 328
hinreichende Bed. für lokale Extrema, 145
344
hinreichende Bedingung, 14
Hintereinanderausführung von Funktionen, 47
höhere Ableitung, 139
höhere partielle Ableitung, 152
homogene Gleichung, 213
Homogenität (Norm), 99
Homogenität (Supremumsnorm), 157
Homomorphismus, 218
Horner-Schema, 65
Hyperbel, 272
Hyperboloid, 274
Hyperfläche, 319
identisch verschwindende Funktion, 49
identische Abbildung, 46
Identität, 46, 213
Identitätssatz für Skalarfelder, 303
Identitätssatz für das Integral, 162
Identitätssatz für diff. bare Fkt., 139
Identitätssatz für Polynome, 66
Identitätssatz für Potenzreihen, 74
imaginäre Einheit, 30
Imaginärteil, 30
Implikation, 1, 13
implizite, 46
implizite Funktion, 315
implizite Funktion (Beispiel), 136
indefinite quad. Form, 258
Index (bei Folgen), 17
Indexverschiebung, 8
indirekter Beweis, 14
Induktionsschluss, 7
Induktionsschritt, 7
Induktionsverankerung, 7
induktive Menge, 6
Infimum, 15
inhomogene Gleichung, 213
injektiv, 47
Innenprodukt im R2 , 86
innerer Punkt, 114
Integrabilitätsbedingung, 185
Integral einer Regelfunktion, 158
Integral einer Treppenfunktion, 156, 324
Integralfunktion, 164
Integrallogarithmus, 172
Integralsinus, 172
integrierbare Funktion, 326
integrierbare Funktion, 157
Intervall, 12
Intervallgrenze, 12
Intervallschachtelung, 24
inverse Matrix (2 × 2), 84
inverses Element, 3
inverses Element in einer Gruppe, 85
INDEX
Inversion in der Zahlenebene, 34
invertierbare Matrix, 225
isolierter Punkt, 114
Isometrie, 262
Jacobi-Identität, 104
Jet, 303
Jordan-Block, 250
Jordansche Normalform, 278
kartesische Koordinaten, 80
kartesische Koordinaten, 31
Katenoide, 55
Kegel, 273
Kegelschnitt, 271
Kern einer Matrix, 232
Kern einer linearen Abbildung, 214
Kettenlinie, 55
Kettenregel für Ableitungen (eine Variable), 134
Koeffizienten einer Matrix, 220
Koeffizientenvergleich bei Polynomen, 67
kollabierende Oszillation, 117
kommutative Gruppe, 85
Kommutativgesetz, 3
kompakte Menge, 115
kompaktes Intervall, 12
Komplement, 2
komplexe Zahlen, 30
komplexes Polynom, 65
komplexwertige Funktion, 111
Komponenten eines Koordinatenvektors, 80
Komponentenfunktion, 111
Komposition von Funktionen, 47
konforme Abbildung, 61
Kongruenzabbildung, 89
konjugierte Matrix, 227
konjugierte Zahl, 32
konservatives Vektorfeld, 182
konstante Funktion, 46
konvergente Doppelreihe, 43
konvergente Folge komplexer Zahlen, 35
konvergente Folge reeller Zahlen, 21
konvergente Folge von Vektoren, 110
konvergente Majorante, 39
konvergente Reihe, 36
Konvergenzradius, 72
Koordinatenachsen, 80
Koordinatentransformation, 309
Koordinatenvektor, 80
Koordinatenwechsel, 230
Körper, 4
Körperaxiome, 3
Krümmung einer Kurve, 176
Krümmungskreis, 177
Kreiselbewegung, 265
345
INDEX
Kreisgleichung, 57
Kreisinneres in C, 31
Kreislinie in C, 31
Kreisscheibe in C, 31
Kreuzprodukt, 103
kritischer Punkt (Fkt. einer Variablen), 145
kritischer Punkt (Fkt. mehrerer Variablen, 153
Kronecker-Symbol, 100
krummlinige Koordinaten, 311
Kugel, 100
Kugelfunktionen 1. Art, 288
Kugelkoordinaten, 109
Kugelkoordinaten (n-dimensional), 335
Kugeloberfläche, 100
Kugelvolumen, 335
Kurve, 112
Lagrange-Funktional, 321
Lagrange-Multiplikatoren, 320
Lagrange-Polynome, 67
Laguerre-Polynome, 289
Landau-O für Folgen, 29
Landau-O für Folgen, 29
Landau-O für Funktionen, 122
Landau-O für Funktionen, 122
Landau-Notation für Folgen, 29
Landau-Notation für Funktionen, 122
Länge eines Kreisbogens, 63
Länge im R2 , 85
längenerhaltende Abbildung, 89
längentreu, 264
Laplace-Operator, 187
Laplacescher Entwicklungssatz, 242
Lebesgue-Integral, 326
Lebesgue-integrierbare Funktion, 326
leere Menge, 2
Legendre-Polynome 1. Art, 288
Leibniz, Gottfried Wilhelm, 131
Leibniz-Kalkül, 135
Leibniz-Kriterium für Reihen, 40
Leibniz-Regel, 139
Leibniz-Reihe, 40
Leitkoeffizient eines Polynoms, 65
Levi-Civita-Tensor, 104
Levi-Folge, 327
LGS, 231
linear abhängig, 93
linear-logarithmische Darstellung, 54
lineare Abbildung, 212
lineare DGL 1. Ord mit konst. Koeff., 150
lineare DGL erster Ordnung, 196
lineare Hülle, 93
lineare homogene DGL r-ter Ordnung, 254
lineare homogene DGL 2. Ordnung, 95
lineare inhomogene DGL 2. Ordnung, 97
linearer Differentialoperator, 254
linearer Operator, 213
lineares Funktional, 213
lineares Gleichungssystem, 231
Linearform, 213
Linearität (Kreuzprodukt), 104
Linearität (Skalarprodukt für C-VR), 259
Linearität (Skalarprodukt in R-VR), 98
Linearität (Spatprodukt), 106
Linearität der Ableitung (eine Variable), 133
Linearität des Integrals für Treppenfkt., 160
Linearkombination, 93
linksseitig differenzierbar, 131
linksseitig stetig, 124
linksseitige Ableitung, 131
linksseitiger Grenzwert, 120
Linkssystem, 105
logarithmisch-lineare Darstellung, 54
logarithmisch-logarithmische Darstellung, 54
Logarithmus dualis, 54
Logarithmusfunktion, 52
Logarithmusreihe, 144
logisches oder, 1
logisches und, 1
logistische DGL, 193
lokale Koordinaten, 132, 292
lokales Extremum, 138
lokales Maximum, 138
lokales Minimum, 138
Lorentz-Form, 257
Lösung einer DGL, 191
Lösungsmannigfaltigkeit, 317
Lotfußpunkt, 88
Majorantenkriterium für Funktionenreihen, 202
Majorantenkriterium für Reihen, 39
Maßtensor, 311
Matrix (3 × 3), 107
Matrix (m × n), 220
Matrix (2 × 2), 84
Matrizenexponentialfunktion, 276
Matrizengruppe, 264
Matrizennorm, 276
Maximum einer Menge, 13
mehrfach stetig differenzierbar, 141
mehrfacher Eigenwert, 250
Menge, 1
metrischer Tensor, 311
Minimum einer Menge, 13
Minkowski-Metrix, 257
Mittelpunkt, 83
Mittelpunkt einer Kugel, 100
Mittelwertsatz der Int., 162
346
Mittelwertsatz für Skalarfelder, 305
momentaner Drehvektor, 265
Monom, 215
monoton wachsende Funktion, 48
monoton fallende Funktion, 48
monoton fallende Folge, 26
monoton wachsende Folge, 26
Monotonie des Grenzwerts, 22
Monotonie des Integrals für Treppenfkt., 160
Monotoniekriterium für Reihen, 38
Monotoniekriterium für Folgen, 26
Monotoniekriterium für differenzierbare Fkt., 139
Multilinearität (bei Det.), 241
Multiplikatorenregel von Lagrange, 320
Nabla-Operator, 152
nach oben beschränkte Menge, 12
nach unten beschränkte Menge, 12
natürliche Zahlen, 7
natürlicher Definitionsbereich, 46
natürlicher Logarithmus, 52
Nebenteil einer rationalen Funktion, 70
negativ definite quad. Form, 258
negativ orientiert, 247
negativ orientiertes ONS, 105
negativ semidefinite quad. Form, 258
negative Zahl, 5
Nennerpolynom einer rationalen Funktion, 69
neutrales Element, 3
neutrales Element einer Gruppe, 85
Newton, Isaac, 131
Newton-Iteration, 147
nichtorientierter Winkel, 99
nilpotente Matrix, 223
Niveaumenge, 319
Niveaumenge einer Funktion, 113
Norm (zu einem Skalarprodukt), 98
Norm im R2 , 85
Norm im Rn , 98
Norm zu einem Skalarprodukt, 260
Normale im R3 , 105
Normalendarstellung einer Geraden, 87
Normalenvektor im R2 , 87
Normalform einer Quadrik, 271
normierter Vektor, 260
normierter Vektor im R2 , 85
Normiertheit (bei Det.), 241
notwendige Bedingung, 14
notwendige Bedingung für lokale Extrema, 138
notwendiges Konvergenzkriterium für Reihen, 37
Nullfolge, 19
Nullfunktion, 49
Nullmatrix, 220
Nullmenge, 325
INDEX
Nulloperator, 213
Nullpunkt, 80
Nullraum, 91
Nullstelle eines Polynoms, 66
Nullstellen stetiger Funktionen, 128
nullte Ableitung, 139
Nullvektor, 80, 91
obere Schranke, 12
offene Menge, 115
offenes Intervall, 12
ONB, 101, 260
ONS, 101, 260
Operator, 46
Optimierungsproblem, 146
Ordnung einer DGL, 190
Ordnungsaxiome, 5
orientierte Kurve, 112
orientierungstreu, 247
orthogonal, 100
orthogonal zu einer Menge, 260
Orthogonalbasis, 260
orthogonale Projektion, 261
orthogonale Abbildung, 262
orthogonale Gruppe, 264
orthogonale Matrix, 228
orthogonale Menge, 260
orthogonale Projektion, 88, 102
orthogonale Vektoren, 260
orthogonale Vektoren im R2 , 87
orthogonales Komplement, 100, 260
Orthogonalitätsrelationen (cos, sin), 168
Orthogonalitätsrelationen (exp), 167
Orthogonalsystem, 260
Orthonormalbasis, 101, 260
orthonormale Menge, 260
Orthonormalisieren, 102
Orthonormalisierungsverfahren, 102
Orthonormalsystem, 260
Ortsvektor, 80
Oszillationsstelle, 126
Parabel, 273
Parabelschwingung, 281
Paraboloid, 274
Parallelenaxiom, 79
Parallelotop, 245
Parameterwechsel, 112
Parametrisierung einer Ebene, 94
Parametrisierung einer Geraden, 82, 94
Parametrisierung einer Kurve, 112
parkettierbare Menge, 323
Parkettierung, 323
Parsevalsche Gleichung, 287
Partialsumme, 36
347
INDEX
partielle Ableitung, 151
partielle Funktion, 151
Pascalsches Dreieck, 9
periodische Funktion, 49
Perronsches Paradoxon, 129
Poincaré-Lemma, 185
Pol, 127
Polarisationsgleichung, 258
Polarkoordinaten im Raum, 109
Polarkoordinaten in C, 60
Polordnung, 127
Polynom, 65
Polynom 2. Grades in n Variablen, 270
Polynomdivision, 65
positiv definite quad. Form, 258
positiv orientiert, 247
positiv orientiertes ONS, 105
positiv semidefinite quad. Form, 258
positive Definitheit (Skalarprodukt C-VR), 259
positive Definitheit (Skalarprodukt R-VR), 98
positive Definitheit (Norm), 99
positive Definitheit (Supremumsnorm), 157
positive Zahl, 5
Potential, 183
Potential (eine Variable), 165
Potentialfeld, 183
Potentialgleichung, 187
Potenz, beliebige, 53
Potenz, ganzzahlige, 9
Potenzreihe, 71
Potenzreihenansatz bei DGL, 151
Potenzschreibweise, 25
Produkt von Matrix mit Vektor (2 × 2), 84
Produkt von Matrix mit Vektor (3 × 3), 107
Produkt zweier Matrizen (3 × 3), 107
Produkt zweier Matrizen, 223
Produkt zweier Matrizen (2 × 2), 84
Produktregel für Ableitungen (eine Variable), 133
Produktzeichen, 8
punktsymmetrische Funktion, 49
punktweise stetig, 125
Quader, 116, 323
Quadergebäude, 323
Quadrat, 116
quadratintegrable Funktion, 285
quadratintegrierbar, 328
quadratische Ergänung, 68
quadratische Ergänzung, 271
quadratische Form, 256
quadratischer Fit, 308
Quadrik, 271
Quaternionen, 264
Quaternionengruppe, 264
Quelldichte, 187
Quotientenregel für Ableitungen (eine Var.), 133
Radiant, 63
radioaktiver Zerfall, 27
Radius einer komplexen Zahl, 60
Radius einer Kugel, 100
Randpunkt einer Menge, 115
Rang einer linearen Abbildung, 217
Rang einer Matrix, 232
rationale Funktion, 69
rationale Zahlen, 11
Rayleigh-Prinzip, 270
Realteil, 30
Rechteck, 116
Rechteckschwingung, 280
rechtsseitig differenzierbar, 131
rechtsseitig stetig, 124
rechtsseitige Ableitung, 131
rechtsseitiger Grenzwert, 120
Rechtssystem, 105
reelle Zahlen, 15
reellwertige Funktion, 111
Regelfunktion, 157
Regelintegral, 156
reguläre Parametrisierung einer Kurve, 176
Regularitätsbedingung, 317
Reihenrest, 38
rein imaginäre Zahl, 31
reine Schwingung, 288
rektifizierbare Kurve, 174
Rekursionsprinzip, 17
Restglied bei Taylor-Entw., Cauchy-Darst., 142
Restglied bei Taylor-Entw., Fehler, 143
Restglied bei Taylor-Entw., Lagrange-Darst., 142
Restglied bei Taylor-Entwicklung, 142
Richtungsableitung, 301
Richtungsvektor einer Geraden, 82
Riemann, 199
Riemann-Integral, 163
Riemannsche Fläche der Exponentialfunktion, 62
Riemannsche Obersumme, 163
Riemannsche Untersumme, 163
Riemannsche Vermutung, 209
Rotation, 188
rotationsfreies Vektorfeld, 185
Russellsche Antinomie, 1
Sägezahnschwingung, 280
Sandwichprinzip bei Folgen, 22
Sandwichprinzip bei Funktionen, 119
Sattelfläche, 275
Satz über implizite Funktionen, 315
Satz über lokale Umkehrbarkeit, 310
Satz des Eudoxos, 16
348
Satz des Pythagoras, 31
Satz vom Maximum, 129
Satz vom Maximum für Skalarfelder, 129
Satz von Bolzano-Weierstraß, 27
Satz von Dirichlet, 284
Satz von Fejér, 283
Satz von Fubini, 331
Satz von Lebesgue, 328
Satz von Levi, 328
Satz von Peano für DGL, 192
Satz von Picard-Lindelöf für DGL, 192
Satz von Schwarz, 300
Satz von Tonelli, 331
Satz von Weierstraß, 129
Satz von Weierstraß für Skalarfelder, 129
Schmiegparabel, 143
Schranke, 13
Schrankensatz, 302
Schraubenlinie, 112
Schwerpunkt einer Kurve, 180
selbstadjungierte Abbildung, 266
senkrecht, 100
senkrechte Vektoren im R2 , 87
Sesquilinearform, 256
simultane Hauptachsentransformation, 268
Sinc-Funktion, 117
Sinus, 57
Sinus Hyperbolicus, 54
Sinus-Reihe, 201
Skalar, 91
skalare Größe, 78
skalares Kurvenintegral, 179
Skalarfeld, 113
Skalarmultiplikation, 90
Skalarmultiplikation im R2 , 81
Skalarprodukt, 98
Skalarprodukt bei C-VR, 259
Skalarprodukt im R2 , 86
Skalarprodukt im Rn , 98
Spalten einer Matrix, 220
Spaltenindex einer Matrix, 220
Spaltenvektor, 91
Spaltfunktion der Frauenhofer-Beugung, 116
Spann, 93
Spatprodukt, 105
Spektralsatz, 267
spezielle orthogonale Gruppe, 88, 264
spezielle unitäre Gruppe, 264
Sphäre, 100
Spiegelung an einem Kreis, 34
Sprungstelle, 126
Spur einer Kurve, 112
Spur einer Matrix, 249
stückweise glatte Kurve, 175
INDEX
stückweise reguläre Param. einer Kurve, 176
Stammfunktion, 165
Standardbasis, 81
Sterngebiet, 185
stetig, 125
stetig differenzierbar, 141
stetig in einem Punkt, 124
stetige Fortsetzung, 126
Stirling-Formel, 149
Streckung (in der Zahlenebene), 33
streng monoton fallende Funktion, 48
streng monoton fallende Folge, 26
streng monoton wachsende Folge, 26
streng monoton wachsende Funktion, 48
Subtraktion, 3
Summe zweier Matrizen, 222
Summenzeichen, 8
Superpositionsprinzip, 93
Supremum, 15
Supremumsaxiom, 15
Supremumsnorm, 156
Symmetrie (Skalarprodukt in R-VR), 98
symmetrische Abbildung, 266
symmetrische Bilinearform, 256
symmetrische Matrix, 227
System, dynamisches, 190
System, statisches, 190
Tangens, 63
Tangens Hyperbolicus, 56
Tangenteneinheitsvektor, 176
Tangentenproblem, 131
Tangentialraum, 292
Tangentialraum an eine Lösungsmannigf., 318
Taylor-Entwicklung, 142
Taylor-Polynom (eine Variable), 141
Taylor-Polynom (mehrere Variable), 303
Taylor-Reihe (eine Variable), 141
Teiler, 4
Teiler eines Polynoms, 66
teilerfremde Polynome, 66
Teilfolge, 18
Teilmenge, 2
Teilraum, 91
Teleskopreihe, 37
Toricelli-Gesetz, 195
Torsion einer Kurve, 178
total differenzierbar, 291
Trägheitsmoment einer Kurve, 180
Transformationsformel für Integrale, 332
Translation, 89
transzendente Funktion, 71
Trapezregel, 173
Treppenfunktion, 155, 324
349
INDEX
trigonometrisches Polynom, 279
triviale Linearkombination, 93
triviale Lösung, 213
Umgebung eines Punktes, 116
umgekehrte Dreiecksungleichung in C, 32
umgekehrte Dreiecksungleichung in R, 6
Umkehrabbildung, 47
umkehrbare Abbildung, 47
Umordnung einer Reihe, 41
Umordnungssatz, 42
Umordnungssatz, großer, 43
unbeschränktes Intervall, 12
unbestimmtes Integral, 165
uneigentlich integrierbar, 206
uneigentliche Konvergenz, 28
uneigentlicher Grenzwert 1. Art bei Fkt., 121
uneigentlicher Grenzwert 2. Art bei Fkt., 121
unendlichdimensionaler Vektorraum, 216
unendliche Reihe, 36
unendliches Produkt, 36
ungerade Funktion, 49
ungerade Zahl, 4
Ungleichungskette, 5
unitäre Matrix, 228
unitäre Abbildung, 262
unitäre Gruppe, 264
unitärer Vektorraum, 259
Universalität expl. DGL erster Ordnung, 191
untere Schranke, 12
Untergruppe, 85
Unterraum, 91
Untervektorraum, 91
Unvollständigkeit von Q, 11
Ursprung, 80
Ursprungsebene, 94
Ursprungsgerade, 94
Variation der Konstanten, 197
Vektor, 91
Vektoraddition, 90
Vektoraddition im R2 , 81
Vektorfeld, 113
vektorielle Größe, 78
vektorielles Kurvenintegral, 181
Vektorprodukt, 103
Vektorraum, 90
Vektorraum Cn , 92
Vektorraum R2 , 81
Vektorraum Rn , 91
Vektorrechnung, 79
vektorwertige Funktion, 111
verallg. Mittelwertsatz der Differentialr., 139
verallg. Mittelwertsatz der Int., 162
verallgemeinerte geometrische Reihe, 39
verallgemeinerte harmonische Reihe, 39
Verbindungsstrecke zweier Punkte, 83
Verdoppelungsformel für Hyperbelfunktionen, 55
Vereinigung, 2
Vergleichskriterium für Folgen, 19
Verhulst-Gleichung, 18
Verkettung von Funktionen, 47
Verneinung einer Aussage, 1
Verschiebung, 89
Verschiebung (in der Zahlenebene), 33
Verschiebungsätze für cos, sin und exp, 59
Vertauschungssatz, 200
Vielfaches einer Matrix, 223
Vielfachheit einer Nullstelle (bei Polynomen), 66
vollständige Induktion, 7
Vollständigkeit der Regelfunktionen, 161
Vollständigkeit von R, 28
Volumen, 327
Volumen eines Quadergebäudes, 324
Volumen eines Quaders, 323
vONS, 287
Vorzeichen einer reellen Zahl, 6
Wachstum, exponentielles, 29
Wachstum, polynomiales, 29
Wahrheitstafel, 1
Wallis-Produkt, 210
Wavelet-Transformation, 285
Weg, 112
wegezusammenhängend, 116
Wert einer Funktion, 45
Wertemenge, 45
Wertevorrat, 45
Widerspruchsbeweis, 14
Wiensches Gesetz, 128
Winkel, 99
winkelerhaltende Abbildung in R2 , 89
winkelerhaltende Abbildung in C, 61
Wirbeldichte, 188
wirbelfrei, 188
Wohlordnung der natürlichen Zahlen, 8
Wronski-Matrix, 96
Würfel, 116
Wurzel aus einer Zahl in R+
0 , 16
Zahlenebene, 31
Zahlenfolge, 46
Zahlengerade, 3
Zählerpolynom einer rationalen Funktion, 69
Zeilen einer Matrix, 220
Zeilenindex einer Matrix, 220
Zeilenmatrix, 221
Zeilenvektor, 92
Zentralfeld, 184
Zerlegungssatz, 254
350
Zeta-Funktion, 209
Zielbereich, 45
Ziffer, 24
Zuordnungsvorschrift, 45
zusammenhängend, 116
zweimal differenzierbar, 139
zweischaliges Hyperboloid, 274
zweiseitiger Grenzwert, 120
zweite Ableitung, 139
zweite partielle Ableitung, 152
Zwischenwertsatz, 128
Zwischenwertsatz für Skalarfelder, 129
zyklische Symmetrie (Spatprodukt), 106
Zykloide, 174
Zylinder über Kegelschnitt, 273
INDEX