Sie sind auf Seite 1von 6

Carl-Engler-Schule Karlsruhe Lineare Regression 1 (6)

1. Lineare Regression (Ausgleichsgerade)


1.1 Was ist eine Ausgleichsgerade?
Die Ausgleichsgerade ist ein Ausgleichs-Verfahren zur Kurvenanpassung (Approximation). Durch ein Feld
von Datenpunkten in einem Diagramm wird eine Gerade gelegt, die den Trend (steigend, fallend) anzeigt.
Diese Gerade wird Ausgleichsgerade oder auch Regressionsgerade oder Lineare Regression genannt. Die
Gerade lässt sich mathematisch durch die Funktionsgleichung y = b*x + a beschreiben. b ist die Steigung, a
der y-Abschnitt.
Der Begriff "Regression" bedeutet "Rückschritt" und ist das Überbleibsel einer Untersuchung
der Körpergrößen von Vätern und Söhnen, die von F. Galton durchgeführt wurde. Große
Väter haben zwar auch große Söhne, aber bei sehr großen Vätern sind die Söhne eher etwas
kleiner als der Vater. Bei kleinen Vätern verhält es sich entsprechend. Es gibt also einen
Rückschritt zum Mittelwert hin.

Achtung: In der Schule wird meist m für die Steigung und b für den y-Achsenabschnitt verwendet. In
technischen Dokumenten und Normen findet man meist die oben angegebenen Bezeichnungen b
für die Steigung und a für den y-Achsenabschnitt.
Die Ausgleichsgerade wird so durch ein Punktefeld gelegt, dass sie allen Punkten "möglichst nahe" kommt.
Zur Bestimmung der Lage einer Ausgleichsgeraden könnte man einen mechanischen Analogrechner bauen:
Auf eine Holzplatte wird das Koordinatensystem gezeichnet und an die Stellen der Datenpunkte Nägel
eingeschlagen. Ein starrer Stab wird mit Gummiringen mit den Nägeln verbunden. Der Stab stellt sich
so ein, dass die Spann-Energie der Gummiringe minimal wird. Die Spann-Energie ist proportional zum
Quadrat des Abstandes. Der Stab zeigt dann die Ausgleichsgerade an.

Ausgleichsgerade

8
y = -0,7317x + 5,122
7 2
R = 0,8315
6

5
y-Werte

0
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9
-1

-2

x-Werte

1.2 Wann lässt sich die Ausgleichsgerade anwenden?


Die folgenden Bedingungen sollten alle erfüllt sein, wenn die Ausgleichsgerade angewendet wird:
 Eine steigende oder fallende Tendenz der Datenpunkte ist erkennbar.
 Ein linearer Funktionszusammenhang wird zumindest vermutet.
 Die Abweichungen können durch zufällige Schwankungen oder Fehler erklärt werden.

Bei systematischer Abweichung der Datenpunkte von der Geraden sollte ein anderer Funktionstyp zum
Ausgleich verwendet werden (z.B. eine Parabel oder e-Funktion). Bei geringer Messunsicherheit ist oft
eine Interpolation sinnvoll. Bei der linearen Interpolation wird für jeden Abschnitt zwischen zwei
Datenpunkten eine eigene Gerade (Verbindungsgerade, Interpolationsgerade) bestimmt.

auszug_ausgleichsgerade.odt Okt 2011 www.ces.karlsruhe.de/culm/ Seite 1 von 6


Carl-Engler-Schule Karlsruhe Lineare Regression 2 (6)

2. Berechnungen zur Linearen Regression


2.1 Welche Idee liegt der Berechnung zu Grunde?
Der Grundgedanke des Ausgleichs besteht also darin, daß man einen exakten Funktions-Zusammenhang
(hier eine Lineare Funktion, Gerade) zwischen den x- und y-Werten annimmt und für die Abweichungen
zufällige Schwankungen verantwortlich macht. Ziel ist es, diesem exakten Zusammenhang möglichst nahe
zu kommen. Dies ist umso besser möglich, je kleiner die Streuung, je größer der Bereich ist, aus dem die
x-Werte stammen und je mehr Wertepaare zur Verfügung stehen.

Da die Gerade im Normalfall nicht alle Stützpunkte enthalten kann, wird man fordern, daß die Gerade
möglicht nahe bei den Stützpunkten vorbeiführen soll. Wegen des geringeren Rechenaufwandes betrachtet
man nur die Abstände der Punkte von der Geraden in y-Richtung und fordert, daß die Summe der
quadrierten Abstände möglichst klein (minimal) sein soll. Das Quadrieren erspart die Unterscheidung
positiver und negativer Abstände und gewichtet große Abstände stärker.
Der Schnittpunkt der Geraden mit der x-Achse läßt sich aus x0 = -a/b berechnen. Die Mittelwerte der x-
Daten xs bzw. der y-Daten ys ergeben die Koordinaten des Schwerpunkts (xs/ys), der auf der
Ausgleichsgeraden liegt.
In manchen Fällen wird eine Anpassungsgerade gesucht, die auf jeden Fall durch den Nullpunkt des
Koordinatensystems geht. Das Rechenverfahren muß dann also nur die Steigung bestimmen.
Achtung: Vertauscht man die x- und y-Werte und berechnet davon die Ausgleichsgerade, erhält man
eine andere Gerade als wenn man die erste Geradengleichung nach x auflöst und dann x und y
vertauscht.
Man unterscheidet also die "Regression von y auf x" und "Regression von x auf y". Der Unterschied der
dabei berechneten Geraden wird durch die Lineare Korrelation ausgedrückt.

2.2 Wie wird sie berechnet?


Für die Lösung des Problems wurden Formeln entwickelt, nach denen aus den x- und y-Werten der
Datenpunkte direkt die Steigung b (slope) und der y-Abschnitt (intercept) a der Ausgleichsgeraden
berechnet werden kann (siehe 6.). Die Berechnung kann schriftlich mit den einzelnen Koordinatenwerten
durchgeführt werden. Einfacher geht es jedoch mit den dafür vorbereiteten Funktionen auf dem
Taschenrechner, in der Tabellenkalkulation oder in speziellen Auswerte-Programmen.
In der Tabellenkalkulation (z.B.) EXCEL mit den x-Werten in den Zellen A6 bis A12 und den y-Werten in
den Zellen B6 bis B12, sehen die zugehörigen Funktionen so aus:

auszug_ausgleichsgerade.odt Okt 2011 www.ces.karlsruhe.de/culm/ Seite 2 von 6


Carl-Engler-Schule Karlsruhe Lineare Regression 3 (6)

=STEIGUNG(B6:B12;A6:A12)
=ACHSENABSCHNITT(B6:B12;A6:A12)
Zu beachten ist, dass zuerst die y-Werte genannt sind und dass das im Computer eingestellte Trennzeichen
(hier ; sonst auch ,) verwendet wird.

2.3 Was lässt sich damit anfangen?


Interpretation von Messdaten
Legt man durch ein Punktefeld von Messdaten eine Ausgleichsgerade, drückt man damit aus, dass eine
Abhängigkeit der y-Werte von den x-Werte als Lineare Funktion (Gerade) erwartet wird und alle
Abweichungen davon zufällig sind. Der erwartete lineare Zusammenhang kann durch die Geradengleichung
umso sicherer angegeben werden, je geringer die einzelnen Punkte von der Geraden abweichen, je grösser
die Anzahl der Punkte ist und je weiter die Mess-Stellen über den x-Bereich verteilt sind.
Berechnung von Funktionswerten an beliebiger Stelle
Mit der Geradengleichung lässt sich für jede beliebige Stelle auf der x-Achse der zugehörige y-Wert der
Geraden berechnen. Die zufälligen Streuungen der Messwerte sind ausgeglichen. Ausserhalb des Bereichs
der gemessenen x-Werte werden die berechneten y-Werte immer unsicherer (Extrapolation).
Berechnungen mit der Umkehrfunktion
Verwendet man die Ausgleichsgerade als Kalibriergerade, dann muss in der Regel zu einem gegebenen y-
Wert der zugehörige x-Wert berechnet werden. Man benötigt die Umkehrfunktion der Geraden. Man erhält
sie durch Umstellung der Funktionsgleichung nach x.

2.4 Was gibt es sonst noch dazu?


Die verbleibenden Abweichungen der Datenpunkte von der Ausgleichsgeraden nennt man die Residuen. Als
Maß für die Stärke der Abweichung dient das Bestimmtheitsmaß R2 oder die Lineare Korrelation R.
Wird die Regression mit den x-Abständen statt mit den y-Abständen berechnet, ergibt sich in der Regel
eine etwas andere Gerade, aus deren Unterschied die Korrelation berechnet werden kann. Sind sowohl die
x- als auch die y-Werte Zufallsgrössen, sollte der orthogonale (senkrechte) Abstand der Punkte von der
Geraden in die Rechnung eingehen (Schätzung der Parameter durch Hauptkomponenten-Analyse).
Um zu prüfen, ob ein linearer Ausgleich geeignet ist, oder besser eine andere Ausgleichsfunktion
verwendet werden sollte, kann ein Statistik-Test (z.B. Linearitätstest nach Mandel) durchgeführt werden.
Verwendet man die Ausgleichsgerade als Kalibrierfunktion eines Meßsystems, müssen die auftretenden
Unsicherheitsgrenzen abgeschätzt und die Verfahrenskenndaten bestimmt werden. Hierfür gibt es eine
Normvorschrift (DIN 38402), die in der Regel mit speziellen Programmen durchgeführt wird.

2.5 Berechnungsformeln
Das Problem der Minimierung der Summe der y-Abstandsquadrate lässt sich mit Hilfe der
Differentialrechnung lösen und führt auf geschlossene (direkt berechenbare) Formeln für Steigung b und
Abschnitt a.

n ∑ xy−∑ x ∑ y
b= 2 mit X: Mittelwert aller x-Werte und Y: Mittelwert aller y-Werte
n ∑ x 2− ∑ x 
Berechnung des Achsenabschnitts a a=Y −bX
(mit der bereits berechneten Steigung b und den Mittelwerten der x- bzw. y-Koordinaten)

auszug_ausgleichsgerade.odt Okt 2011 www.ces.karlsruhe.de/culm/ Seite 3 von 6


Carl-Engler-Schule Karlsruhe Lineare Regression 4 (6)

3. Lineare Korrelation
3.1 Was sagen Korrelationskoeffizient und Bestimmtheitsmaß aus?
Um eine Ausgleichsgerade können sich die ursprünglichen Daten eng gruppieren oder auch weit streuen.
Der Geradengleichung lässt sich nicht ansehen, wie eng Daten und Gerade miteinander zusammenhängen
(korrelieren).
Die Eigenschaft, dass sich beim Vertauschen der x- und y-Werte verschiedene Geraden ergeben, kann man
benutzen, um eine Grösse zu berechnen, die den Zusammenhang, die Korrelation, misst. Beide Geraden
gehen durch den Schwerpunkt und bilden eine Schere, die umso mehr geschlossen ist, je enger sich die
Datenpunkte um jede einzelne Gerade gruppieren. Liegen alle Punkte schon auf einer Geraden, dann
fallen beide Geraden zusammen, die Schere ist geschlossen.
Der berechnete Wert, der (Pearsonsche) Korrelationskoeffizient R, liegt immer zwischen -1 und +1. Bei R =
1 liegen alle Punkte auf der Geraden und die Steigung ist positiv. Bei R = - 1 liegen alle Punkte auf einer
Geraden mit negativer Steigung. Bei R=0 ist entweder die Steigung b=0 (in EXCEL #NV: not valid) oder die
Punkte streuen so in der x-y-Ebene, dass keine Vorzugsrichtung erkennbar ist. Zwischen diesen Fällen sind
alle Zwischenwerte möglich.
Das Bestimmtheitsmaß (oder Determinationskoeffizient) R 2 ist das Quadrat des Korrelationskoeffizienten
R. Es liegt immer zwischen 0 und 1 und enthält nicht mehr die Information über das Vorzeichen der
Steigung.

n ∑ XY − ∑ X  ∑ Y 
−1R1 2
0R 1 R=
 [n ∑ X − ∑ X  ][n ∑ Y −∑ Y  ]
2 2 2 2

Erstaunlich ist, dass im vierten Beispiel kein Ergebnis angegeben werden kann. Mathematisch ist dieser
Fall definiert mit R=R²=0, aber im Programmcode von EXCEL nicht umgesetzt. R=R²=0 besagt, dass von
keiner Abhängigkeit der y-Werte von den x-Werten ausgegangen werden kann.
Die Abweichungen von der Geraden werden als zufällige (normalverteilte) Schwankungen interpretiert.
Damit unterliegen auch die Steigung b und der Abschnitt a gewissen Unsicherheiten. Die Statistik erlaubt

auszug_ausgleichsgerade.odt Okt 2011 www.ces.karlsruhe.de/culm/ Seite 4 von 6


Carl-Engler-Schule Karlsruhe Lineare Regression 5 (6)

dann die Berechnung der Standardunsicherheiten Δb für b und Δa für a. In EXCEL erhält man die Werte
z.B. mit der Statistik-Funktion RGB .
=RGP(ywerte;xwerte;WAHR,WAHR)

Für Spezialisten: se(y) ist die Reststandardabweichung, also die Standardabweichung aus der Streuung der
Punkte um die Ausgleichsgerade. Die Grössen se(b) und se(a) sind abhängig von der Anzahl der
Datenpunkte und werden mit Hilfe der t-Verteilung berechnet.

Für andere Fragestellungen gibt es weiter Korrelationsmaße (z.B. Spearman, Kendall).

auszug_ausgleichsgerade.odt Okt 2011 www.ces.karlsruhe.de/culm/ Seite 5 von 6


Carl-Engler-Schule Karlsruhe Lineare Regression 6 (6)

4. Übung: Ausgleichsgerade

4.1 Lineare Kalibrierfunktion Nr. ß in mg/L E in 1


1 40 0,17
Beim Kalibrieren wird der Zusammenhang zwischen einer messbaren 2 60 0,20
Signalgröße (z.B. Extinktion) und der gesuchten Merkmalsgröße einer 3 80 0,31
Probe (z.B. Massenkonzentration) festgestellt und mathematisch
4 100 0,37
beschrieben.
5 120 0,45
Im vorliegenden Beispiel sind 10 Datenpunkte einer Kalibrierung 6 140 0,49
gegeben. Für 10 Lösungen bekannter Massenkonzentration (Standards) 7 160 0,56
wurden mit einem Photometer die zugehörigen Werte der Extinktion 8 180 0,61
gemessen.
9 200 0,66
Aufg. a) Bestimmen Sie die Gleichung der Linearen Ausgleichsfunktion 10 220 0,69
(Ausgleichsgerade). Geben Sie die Parameter mit vier
signifikanten Stellen an.
4.2 Auswertung mit der Linearen Kalibrierfunktion
Mit der Gleichung der Ausgleichsgeraden lassen sich Werte schätzen, die nicht gemessen wurden. Dies ist
in zwei Richtungen möglich:
Die Kalibrierfunktion beschreibt in unserem Beispiel die Abhängigkeit der Extinktion von der
Massenkonzentration. Die Schreibweise E=E(β) besagt, dass E eine Funktion von β ist.
Aufg. b) Welche Extinktion ist für eine Massenkonzentration von β=125mg/L zu erwarten? Erstellen Sie im
Tabellenblatt einen Bereich, in dem nach Eingabe der Massenkonzentration automatisch die
zugehörige Extinktion berechnet wird (auch wenn die Kalibrierdaten geändert werden).
Die Analysenfunktion dreht die Problemstellung um beschreibt in unserem Beispiel die Abhängigkeit der
Massenkonzentration von der Extinktion. Die Schreibweise β=β(E) besagt, dass β eine Funktion von E ist.
Aufg. c) Geben Sie Gleichung der Analysenfunktion als Geradengleichung an. Welche Massenkonzentration
ist für eine Extinktion von E=1,22 zu erwarten? Erstellen Sie im Tabellenblatt einen Bereich, in
dem nach Eingabe der Extinktion automatisch die zugehörige Massenkonzentration berechnet
wird (auch wenn die Kalibrierdaten geändert werden).
4.3 Bestimmung der Residuen
In den meisten Fällen weichen die gemessenen Datenpunkte von der Ausgleichskurve ab. Ein Maß für die
Stärke der Abweichung ist das Bestimmtheitsmaß R² oder die Korrelation R. Mehr Information steckt in der
Darstellung der einzelnen Abweichungen (in y-Richtung). Diese Restabweichungen nennt man auch
Residuen (Singular: Residuum).
Aufg. d) Berechnen Sie die Residuen und stellen Sie diese in einem Säulendiagramm dar. Berechnen Sie
auch probeweise die Summe der Residuen. Eine wichtige Größe in der Statistik ist die Summe der
quadrierten Residuen.
4.4 Vergleich mit quadratischem Ausgleich
Die grafische Darstellung der Residuen zeigt manchmal eine Systematik. Dann sind die Abweichungen wohl
nicht ganz zufällig. Statt einer Linearen Anpassung führt dann eine andere mathematische Funktion zu
kleineren Abweichungen.
Aufg. e) Kopieren Sie Ihr Diagramm mit der Linearen Ausgleichsfunktion und setzen Sie dort eine
quadratische Ausgleichsfunktion (Parabel) ein. Vergleichen Sie die beiden Werte für das
Bestimmtheitsmaß.
Aufg. f) Wie lässt sich bei den Residuen erkennen, dass eine Parabel besser geeignet ist?
4.5 Auswertung mit quadratischer Kalibrierfunktion
Aufg. g) Führen Sie wie in b) eine automatische Berechnung mit der Kalibrierfunktion durch.
Aufg. h) Welche Probleme treten bei der Analysenfunktion auf? Wie lassen sich diese lösen?

auszug_ausgleichsgerade.odt Okt 2011 www.ces.karlsruhe.de/culm/ Seite 6 von 6

Das könnte Ihnen auch gefallen