Sie sind auf Seite 1von 8

Statistik fr Psychologen

3
Einfache Regressionsanalyse

Hans-Rdiger Pfister, Gerd Meier

Vorhersage

Der Korrelationskoeffizient r beschreibt den Grad des linearen Zusammenhangs


zwischen zwei kontinuierlichen Variablen symmetrisch

Sehr oft ist man daran interessiert, die Werte einer Variable Y (abhngige Variable,
Response, Kriterium) anhand der Werte einer anderen Variable X (unabhngige
Variable, Prdiktor) vorher zu sagen. Der Zusammenhang ist nun asymmetrisch: Y
wird vorhergesagt durch X. Angenommen, es existiert ein Zusammenhang:

gegeben der Wert von X = xi, was ist der plausibelste Wert fr Y?
wie sieht die lineare Funktion f(X) aus, um Werte von Y zu berechnen?
wie genau ist die Vorhersage?
wie zuverlssig ist die Vorhersage?

Das Modell der linearen Regressionsanalyse lautet:

E (Y | X ) = f ( x )

Hans-Rdiger Pfister, Gerd Meier

yi = + xi + i
yi = a + b xi + ei
2

Streudiagramm (Scatterplot)

y = a + bx

b
Y
1

a
X
Wertepaare von X und Y werden als Punkte in einem kartesischen
Koordinatensystem abgebildet. a= Ordinatenabschnitt, b= Steigung.
Hans-Rdiger Pfister, Gerd Meier

Vorhersage und Residuen


Y
Vorhersage
(predicted / fitted
scores):

beobachtete Werte
(observed scores):

Residuen
(residuals / error):

Die Regressionsgerade reprsentiert die lineare Funktion y = bx + a, die auf


optimale Weise die Vorhersage von X nach Y erlaubt.
Hans-Rdiger Pfister, Gerd Meier

Vorhersage und Residuen

Die best mgliche Regressionsgerade wird berechnet nach der Methode


der kleinsten Quadrate.
Hans-Rdiger Pfister, Gerd Meier

Methode der kleinsten Quadrate (Least-Squares)


Ziel: Finde jene
Koeffizienten a und b, die
die Summe SSres der
quadrierten Residuen
minimieren!

Minimiere die Funktion SSres hinsichtlich a und b (partielles Differenzieren):

Legendre
(1752-1833)

Gauss
(1777-1855)
Hans-Rdiger Pfister, Gerd Meier

Die Regressionsgerade

Die Koeffizienten a und b knnen unterschiedlich dargestellt werden.


Jede Regressionsgerade geht durch die Mittelwertspunkte von X und Y.
Fr jedes Sample von (X,Y)-Werten kann eine eindeutige Regressionsgerade geschtzt
werden, sofern die Varianz von X und Y > 0 und die Anzahl der Beobachtungen > 2 ist.

Hans-Rdiger Pfister, Gerd Meier

Der Standardschtzfehler und r2

Der Standardschtzfehler (standard error of estimate, residual standard error) beschreibt die
Streuung der y-Werte um die Regressionslinie, und ist damit ein Ma fr die Genauigkeit der
Schtzung (Varianz meist als MSres: Mean Square Residuals bezeichnet).

Der Standardschtzfehler entspricht der Standardabweichung der Residuen (mit df=N-2).

Die Summe der Abweichungsquadrate SSres kann als Funktion von r2 geschrieben werden:

Ohne Regression (d.h., ohne Information durch einen Prdiktor X) wre die beste Schtzung fr
Y der Mittelwert von Y; der Standardschtzfehler entsprche dann der Standardabweichung sy
von Y.
Die quadrierte Korrelation r2 ist das Verhltnis aus der Streuung der Schtzungen und der
gesamten Streuung von Y, und damit ein Ma fr die proportionale Reduktion des
Vorhersagefehlers ohne X (PRE: proportional reduction of error); r2 ist ebenfalls der Anteil der
Varianz von Y, der durch X vorhergesagt werden kann, und ist damit ein Ma fr die
Vorhersagbarkeit von Y durch X.

Hans-Rdiger Pfister, Gerd Meier

120

SYMPTOMS

80

Regressionskoeffizient b

100

Regressionskoeffizient a

140

160

180

Beispiel (Howell, S. 255 ff.)

60

> summary(stress.lm)
Call:
lm(formula = SYMPTOMS ~ STRESS, data = stress)
Residuals:
Min
1Q Median
3Q
Max
-38.347 -13.197 -1.070
6.755 82.352
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 73.8896
3.2714 22.587 < 2e-16 ***
STRESS
0.7831
0.1303
6.012 2.69e-08 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 17.56 on 105 degrees of freedom
Multiple R-Squared: 0.2561,
Adjusted R-squared: 0.249
F-statistic: 36.14 on 1 and 105 DF, p-value: 2.692e-08

20

40

60

STRESS

Standardschtzfehler sy|x
R2

Hans-Rdiger Pfister, Gerd Meier

Eigenschaften der Regressionsfunktion

Der Mittelwert der Schtzung ist gleich dem Mittelwert des Kriteriums

Der Mittelwert der Residuen ist Null

Die Varianz der Schtzung betrgt r2s2Y

Die Korrelation zwischen Prdiktor und Residuen ist Null

Die Korrelation zwischen Schtzung und Residuen ist Null

Die Varianz des Kriteriums ist die Summe der Schtzvarianz und der
Residualvarianz

Der Anteil vorhergesagter (erklrter) Varianz betrgt

Hans-Rdiger Pfister, Gerd Meier

10

Eigenschaften der Regressionsfunktion


Aufteilung der Varianz (Varianzzerlegung):
SSGesamt = SSVorhersage + SSFehler
Gesamtvarianz = Varianz auf der

+ Varianz um die
Regressionsgerade

Regressionsgerade

Gesamtvarianz = aufgeklrte Varianz + unaufgeklrte Varianz


Beziehung zwischen Korrelation und Steigung der
Regressionsgeraden:
r = b * (sx / sy)
r2 = by/x * bx/y
Hans-Rdiger Pfister, Gerd Meier

11

Inferenzstatistik

Regressionsgerade in
der Population

geschtzte
Regressionsgerade in
der Stichprobe

beobachtete Werte in
der Stichprobe

Hans-Rdiger Pfister, Gerd Meier

12

Signifikanztest fr r
H0: Die Korrelation in der Population ist 0
H1: 0
r als Schtzer fr :

H0: Zwei Korrelationen r1 und r2 sind gleich


H1: r1 r2
Fisher's z-Transformation

Hans-Rdiger Pfister, Gerd Meier

13

Signifikanztest fr b
Standardfehler von b:

Berechnung des
empirischen t-Werts:

Konfidenzintervall fr b:
> summary(stress.lm)
Call:
lm(formula = SYMPTOMS ~ STRESS, data = stress)
Residuals:
Min
1Q Median
3Q
Max
-38.347 -13.197 -1.070
6.755 82.352
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 73.8896
3.2714 22.587 < 2e-16 ***
STRESS
0.7831
0.1303
6.012 2.69e-08 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 17.56 on 105 degrees of freedom
Multiple R-Squared: 0.2561,
Adjusted R-squared: 0.249
F-statistic: 36.14 on 1 and 105 DF, p-value: 2.692e-08

Hans-Rdiger Pfister, Gerd Meier

> confint(stress.lm)
2.5 %

97.5 %

(Intercept) 67.4030865 80.376090


STRESS

0.5248374

1.041392

t value
14

Konfidenzintervalle
Erwartungswert E(Y|X):
Schtzung des Mittelwerts von Y
unter der Bedingung, dass X = xk
ist:

Erwartungswert E(Y|X):
Schtzung des Werts auf Y bei
einer neuen Beobachtung bei der
X = xk ist:

Standardfehler:

Konfidenzintervall:

Hans-Rdiger Pfister, Gerd Meier

15

Konfidenzbnder
5,0

Konfidenzintervalle werden fr
extremere X-Werte grer

4,5

overall quality of course

4,0

CI fr die Vorhersage
des Mittelwerts Y|X

CI fr die Vorhersage eines


individuellen neues Scores
yi|xi

3,5

3,0

2,5

R2 = 0.65

2,0
2,0

2,5

3,0

3,5

4,0

4,5

5,0

teaching skill of instructor

Hans-Rdiger Pfister, Gerd Meier

16