Sie sind auf Seite 1von 6

Methoden 1b

9. Sitzung

Michael Mutz

Lineare Regressionsanalyse
Die lineare Regression geht ber die reine Beschreibung der Daten hinaus. Sie kann als Erklrungs- und auch als Prognosemodell eingesetzt werden. Bei der Regression soll die abhngige Variable mit Hilfe der unabhngigen Variablen vorausgesagt werden. Dazu wird als erstes eine Regressionsgerade gesucht, welche den Trend im Streudiagramm am besten wiedergibt.
110

100

90

80

70

60

50 160 170 180 190 200

Als Anpassungskriterium fr diese Regressionsgerade gilt, dass die Summe der quadrierten Abweichungen aller y-Werte minimal sein soll. Anpassungskriterium = Kleinste Quadrate Kriterium:

( y y)
i

min

Die Regressionsgerade verluft durch den Schnittpunkt ( x, y ) und wird durch zwei Parameter bestimmt: 1) durch einen Faktor b, der die Steigung der Gerade bestimmt und 2) durch eine Konstante a, die den Schnittpunkt mit der y-Achse markiert. Jede lineare Gerade lsst sich mit einer Funktion vom Typ y = bx + a abbilden.

Methoden 1b

9. Sitzung

Michael Mutz

Wenn sich der x-Wert um eine Einheit erhht, dann verndert sich der y-Wert um den Faktor b. Dieser Faktor wird als Regressionskoeffizient oder Effektkoeffizient bezeichnet. Ist x = 0, dann muss fr y die Konstante a prognostiziert werden. Fr das o.g. Beispiel Krpergre/Gewicht liefert SPSS folgenden Output:
Koeffizienten(a) Standardisi erte Koeffizient en Beta -8,730 ,975 12,352 ,000 ,000

Modell

(Konsta nte) GROES 1,424 ,115 SE a Abhngige Variable: GEWICHT

Nicht standardisierte Koeffizienten Standar B dfehler 20,652 180,284

Signifikanz

Die gelb markierten Angaben sind fr die Regressionsgleichung relevant. Demnach lautet die Gleichung: y = 1,4 x 180,3 . Mit Hilfe dieser Gleichung kann fr jeden x-Wert ein entsprechender y-Wert geschtzt werden. Fr der y = 1,424 *175 180,3 = 68,9 . eine Person mit Krpergre 175 cm gilt:

Fr eine Person mit der Krpergre 176 cm gilt: y = 1,424 *176 180,3 = 70,3 . Die Differenz entspricht genau dem Regressionskoeffizienten b. Nicht alle y-Schtzwerte sind inhaltlich sinnvolle Werte. Gem der Regressionsgleichung msste fr eine Person mit der Krpergre von Null ein negatives Gewicht von 180,3 kg und fr eine Person mit der Gre von 1,26 m ein Gewicht von Null prognostiziert werden. Man kann also nicht beliebig weit extrapolieren. Wenn x- und y-Werte in z-transformierter Form vorliegen, erhlt man einen standardisierten Regressionskoeffizienten Beta. So lassen sich z.B. unterschiedliche Regressionskoeffizienten vergleichen. Es gilt: Beta = Korrelationskoeffizienten r.

Methoden 1b

9. Sitzung

Michael Mutz

Bei der standardisierten Regressionsgleichung wird b durch ersetzt. Die Konstante a entfllt, weil die standardisierte Verteilung ihren Schnittpunkt ( x , y ) genau im Nullpunkt des Koordinatensystems hat. Die Gleichung lautet demnach: y z = * x z .

Lineare Regression als PRE-Konzept


Soll das Gewicht (y) einer Person i geschtzt werden, ohne dass Informationen ber die Krpergre (x) vorliegen, ist der beste Schtzwert fr diese Person y .
10 9 8 7 6 5 4

VAR_2

3 2 1 2 3 4 5 6 7

VAR_1

Dabei tritt fr jeden Wert ein Schtzfehler auf. Dieser Schtzfehler entspricht der Abweichung zwischen dem empirischen Messwert yi und dem prognostizierten Mittelwert y (siehe Pfeil). Um den Schtzfehler der gesamten Verteilung zu ermitteln, werden die einzelnen Abweichungen quadriert. (Anderenfalls wrden sich positive und negative Abweichungen nivellieren.) Es ergibt sich damit als Gesamtabweichung bzw. als kumulierter Schtzfehler:

E1 = ( yi y ) 2
i =1

Methoden 1b

9. Sitzung

Michael Mutz

Soll das Gewicht von Person i geschtzt werden unter Bercksichtigung der Krpergre, so muss zur Optimierung der Schtzgenauigkeit auf die Regressionsgleichung bzw. gerade zurckgegriffen werden. Da diese ja den besten linearen Trend der Verteilung darstellt, ist der beste Schtzwert fr Person i der zur Krpergre passende Regressionswert yi .
10

y
9 8 7 6 5 4

VAR_2

3 2 1 2 3 4 5 6 7

VAR_1

Auch hier stimmt die Prognose nicht genau. Der Schtzfehler entspricht hier der Abweichung zwischen dem empirischen Messwert yi und dem prognostizierten Regressionswert yi (siehe Pfeil). Um den Schtzfehler der gesamten Verteilung zu erhalten, mssen die einzelnen Abweichungen wieder quadriert und summiert werden. Es ergibt sich damit:

E1 = ( yi yi ) 2
i =1

Die proportionale Fehlerreduktion (Um wie viel Prozent verringert sich mein Vorhersagefehler?) lsst sich nun leicht berechnen:

proportionale Fehlerreduktion =

E1 E2 E1

Methoden 1b

9. Sitzung

Michael Mutz

Die Varianz der abhngigen Variable kann auf diese Weise in zwei Teile zerlegt werden: 1) einen Teil der sich durch die unabhngige Variable erklren lsst und 2) einen Teil der sich nicht durch die unabhngige Variable erklren lsst.

Varianzzerlegung

1 n 1 n 1 n 2 2 ( yi y ) = ( yi yi ) + ( yi y ) 2 n i =1 n i =1 n i =1
Gesamtvarianz von y = Anteil nicht erklrter Varianz + Anteil erklrter Varianz

Der Anteil erklrter Varianz wird als Determinationskoeffizient bezeichnet. Dieser Wert entspricht dem Quadrat des Korrelationskoeffizienten! Mit diesem Wissen lsst sich der Korrelationskoeffizient r noch anschaulicher interpretieren, z.B.: r = 0.90 81 % der Varianz von y lassen sich durch x erklren, r = 0.50 25 % der Varianz von y lassen sich durch x erklren, r = 0.30 9 % der Varianz von y lassen sich durch x erklren.

Anwendungsbeispiel
60 GRL 50 DK BEL AUT CZ HUN RUS FRA GER USA CAN SUI SWE NOR FIN 10

40

30

20

POL

0 0,0 ,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0

Gibt es einen Zusammenhang zwischen dem durchschnittlichen Bierpreis eines Landes und dem Anteil der 15jhrigen, die regelmig (mindestens wchentlich) Alkohol konsumieren?

Alkoholkonsumenten % (15 Jahre)

mittl. Preis pro Liter Bier ()

Methoden 1b
Modellzusammenfassung

9. Sitzung

Michael Mutz

Modell 1

R R-Quadrat ,531a ,281

Korrigiertes R-Quadrat ,230

Standardf ehler des Schtzers 9,89

a. Einfluvariablen : (Konstante), AVE_BEER

In der Modellzusammenfassung ist der Korrelationskoeffizient (.531) und der Determinationskoeffizient bzw. r (.281) angegeben.
ANOVAb Modell 1 Quadrats umme 536,750 1370,250 1907,000 df 1 14 15 Mittel der Quadrate 536,750 97,875 F 5,484 Signifikanz ,034a

Regression Residuen Gesamt

a. Einfluvariablen : (Konstante), AVE_BEER b. Abhngige Variable: ALC_USE

Die ANOVA-Tabelle (Analysis of Variance) zeigt die gesamte Varianz von y an (1907,00), den durch die x-Variable erklrten Anteil (536,75) und den nicht durch x erklrbaren Anteil, die sog. Residuen (1370,25). Der Schtzfehler ohne Vorkenntnisse entspricht dem Wert Gesamt, der Schtzfehler mit Vorkenntnissen entspricht den Residuen.
a Koeffizienten

Modell 1

(Konstante) AVE_BEER

Nicht standardisierte Koeffizienten Standardf ehler B 37,679 4,725 -5,771 2,464

Standardi sierte Koeffizien ten Beta -,531 T 7,974 -2,342 Signifikanz ,000 ,034

a. Abhngige Variable: ALC_USE

Die Koeffizienten-Tabelle wird bentigt um die Regressionsgleichung aufzustellen bzw. damit Vorhersagen zu treffen. Die Konstante ist hier 37,679 und der Regressionskoeffizient fr die x-Variable ist 5,771.