Sie sind auf Seite 1von 10

Statistik für Psychologen

4

Multiple Regressionsanalyse

© Hans-Rüdiger Pfister, Gerd Meier

Mehr als ein Prädiktor

Meistens steht zur Vorhersage eines Kriteriums Y mehr als nur ein Prädiktor X zu Verfügung:

Leistung im Beruf <- Abschlussnote, Alter, Berufserfahrung

Allgemeine Intelligenz <- sprachliche F., numerische F., visuelle F. Arbeitszufriedenheit <- Einkommen, Führungsstil, Alter

führen i.d.R. zu einer besseren Vorhersage.

Mehrere Prädiktoren X 1 , X 2 ,

Je mehr Prädiktoren, um so weniger sparsam und um so stichprobenspezifischer ist aber das Regressionsmodell.

Oft sind die Prädiktoren selbst untereinander korreliert; die Information, die die Prädiktoren enthalten, ist daher teilweise redundant.

Ziele der multiplen Regression:

Mache eine möglichst gute Vorhersage (R 2 ).

Verwende dazu möglichst wenige Prädiktoren (Sparsamkeitsprinzip). Die Beziehung zwischen Prädiktoren und Kriterium ist theoretisch begründbar.

© Hans-Rüdiger Pfister, Gerd Meier

Modell der multiplen Regression y ˆ = a + b x + .... + b x
Modell der multiplen Regression
y ˆ
=
a
+
b x
+
....
+
b
x
i
k
ik
K
iK
2
!
y
y
ˆ
=
y
=
e
e
Minimum
i
i
res
i
i
i
Methode der kleinsten Quadrate: Finde die Koeffizienten a und b k , die die Summe der
quadrierten Residuen minimieren.
Y
X
Y
X
b k
b k
Z
Z
Z
Z
Falsch: Mehrere einfache Regressionen
berücksichtigen die Redundanz unter den
Prädiktoren nicht.
Optimale b k -Koeffizienten berücksichtigen die
Redundanz: sie liefern den spezifischen Beitrag
eines Prädiktors zur Vorhersage von Y, wenn
alle anderen Prädiktoren im Modell kontrolliert
(auspartialisiert, konstant gehalten) werden.
© Hans-Rüdiger Pfister, Gerd Meier

Illustration

y y b 2 b 1 yˆ Prädiktoren sind k-dimensionale Räume nicht mehr anschaulich darstellbar. Statt
y
y
b 2
b 1
Prädiktoren sind k-dimensionale Räume nicht mehr anschaulich
darstellbar.
Statt einer Regressionsgeraden erhalten wir bei 2 Prädiktoren eine
“Regressionsebene” im 3-dimensionalen Raum. Bei mehr als 2
y
x
2
res{

© Hans-Rüdiger Pfister, Gerd Meier

  • x 1

Die Partialkorrelation

Y Y X X Z
Y
Y
X
X
Z

Die einfache Korrelation r XY bezeichnet die

symmetrische lineare Beziehung zwischen zwei Variablen X und Y.

Die Partialkorrelation r XY.Z bezeichnet die

lineare Beziehung zwischen X und Y, nachdem

der Einfluss einer dritten Variable Z kontrolliert

(“auspartialisiert”) wurde.

r

XY .Z

= r

x

res

(z), y

res

(z)

Statistisch: Die Partialkorrelation ist die Korrelation zwischen den Residuen von X und Y, wenn X und Y jeweils durch Z vorhergesagt werden.

r

xy z

.

=

yz 2 2 xz xz r r r yz xy ) (1 )(1 r r
yz
2
2
xz
xz
r
r
r
yz
xy
)
(1
)(1
r
r

© Hans-Rüdiger Pfister, Gerd Meier

Semipartielle Korrelation (part correlation)

Y Z X
Y
Z
X

r

y x z

,

.

=

yx 1 yz r r r r xz xz 2
yx
1
yz
r
r
r
r
xz
xz
2

Der Einfluss einer dritten Variable Z wird nur aus einer der beiden Variablen X oder Y auspartialisiert (hier X).

© Hans-Rüdiger Pfister, Gerd Meier

Modellschätzung

Die Schätzung eines multiplen Regressionsmodells mit mehreren Prädiktoren ist nicht mehr durch elementare algebraische Formeln möglich.

Eine Schätzung ist durch Anwendung der Matrixalgebra möglich:

X: Matrix der Prädiktoren (1. Spalte konst=1, intercept) y: Vektor des Kriteriums – b: Schätzer der Regressionskoeffizient β

b = (X T X) 1 X T y yˆ = Xb

y res = y

yˆ

© Hans-Rüdiger Pfister, Gerd Meier

Interpretation von b

Der Regressionskoeffizient b k gibt an, um wie viele Einheiten sich das Kriterium Y verändert, wenn sich der Prädiktor X k um eine Einheit verändert und alle anderen Prädiktoren konstant gehalten werden. Er bezeichnet den spezifischen Einfluss von X k im Kontext aller berücksichtigten Prädiktoren.

Der standardisierte Regressionskoeffizient k ist der b-Koeffizient, den man bei Verwendung z-standardisierter Variablen erhält.

Durch die Gleichheit der Standardabweichung sd =1 aller Prädiktoren werden die Prädiktoren dadurch in einem gewissen Sinn vergleichbar (da b und lineare Funktionen voneinander sind, hat dies keinerlei Einfluss auf Signifikanztests usw.!)

= b

s

x

s

y

ACHTUNG: Der standardisierte Regressionskoeffizient darf nicht mit dem Populationsparameter verwechselt werden!

© Hans-Rüdiger Pfister, Gerd Meier

Interpretation von R Der multiple Korrelationskoeffizient R bezeichnet die Korrelation zwischen beobachteten und vorhergesagten Werten. Die
Interpretation von R
Der multiple Korrelationskoeffizient R bezeichnet die Korrelation zwischen
beobachteten und vorhergesagten Werten.
Die quadrierte multiple Korrelation R 2 (auch: Determinationskoeffizient)
bezeichnet den Anteil an der Kriteriumsvarianz, der durch die Prädiktoren insgesamt
vorhergesagt (“erklärt”) werden kann.
R 2 kann in eine Summe quadrierter semi-partieller Korrelationen zerlegt werden:
R
=
r
y
.1..
K
yy
ˆ(1...
K )
SS
2
y ˆ
2
2
2
2
2
R
=
r
=
=
r
=
r
+
r
+
r
...
+
r
y
.1..
K
k
yk
y k
,
.(1..
K
1)
y
1
y
,2.1
y
,3.12
y K
,
.(1..
K
1)
SS
y
Jeder (signifikante) Prädiktor liefert einen spezifischen Anteil zusätzlicher erklärter
Varianz (zu den bereits im Modell vorhandenen Prädiktoren), der von den anderen
Prädiktoren unabhängig ist.
© Hans-Rüdiger Pfister, Gerd Meier
Signifikanztests Voraussetzungen: • Normalverteilung der Residuen • Varianzhomogenität der Residuen MS 2 R ( N K
Signifikanztests
Voraussetzungen:
• Normalverteilung der Residuen
• Varianzhomogenität der Residuen
MS
2
R
(
N
K
1)
F-Test der H0: R 2 = 0 in der Population
y ˆ
F
=
=
K
;
N
K
1
2
MS
(1
R
)
K
res
K = Anzahl der Prädiktoren
b
b
k
k
t
=
=
t-Test (mit N-K-1 df) der H0:
N
K
1
s ˆ
2
1
R
b
k
y
.1...
K
k = 0 in der Population
2
(1
R
)(
N
K
1)
k G
.
© Hans-Rüdiger Pfister, Gerd Meier
Voraussetzungen E(Y | X ) = + ◊x i Varianzhomogenität Normalverteilung Residuals vs Fitted Normal Q-Q
Voraussetzungen
E(Y | X ) =
+
◊x
i
Varianzhomogenität
Normalverteilung
Residuals vs Fitted
Normal Q-Q
19
19
24
24
69
88
80
90
100
110
120
130
-2
-1
0
1
2
Fitted values
lm(SYMPTOMS ~ STRESS)
Theoretical Quantiles
lm(SYMPTOMS ~ STRESS)
© Hans-Rüdiger Pfister, Gerd Meier
Residuals
-40
-20
0
20
40
60
80
Standardized residuals
-2
0
2
4

Anmerkungen

Ein Regressionsmodell impliziert keine kausale Beziehung.

Ein aus einer Stichprobe geschätztes Regressionsmodell ist nur für den Wertebereich der Prädiktorvariablen gültig, der in der Stichprobe vorhanden war.

Regressionskoeffizienten hängen simultan von allen im Modell befindlichen Prädiktoren ab; sie ändern sich, wenn Prädiktoren aufgenommen oder herausgenommen werden.

Mit einem Regressionsmodell können wir

die Beziehung zwischen Kriterium und Prädiktoren beschreiben,

neue Fälle mit bestimmter Reliabilität vorhersagen,

unter Annahme(!) einer kausalen Beziehung die Response erklären.

© Hans-Rüdiger Pfister, Gerd Meier

Ausreißer

Ausreißer © Hans-Rüdiger Pfister, Gerd Meier

© Hans-Rüdiger Pfister, Gerd Meier

Diagnostische Kennwerte

Hinsichtlich X: Leverage h i (hat value) einer Beobachtung i bezeichnet die Distanz von i vom Mittelpunkt aller Prädiktoren. Beobachtungen mit großem leverage beeinflussen die Regression besonders stark.

Hinsichtlich Y: Studentized Residuals sind am Standarschätzfehler und h standardisierte Residuen; Studentized Residuals > 2 sollten überprüft werden (z.B. fehlerhafte Messung der AV)

Gesamteinfluss einer Beobachtung i: Cook’s D i misst die Veränderung des Regressionskoeffizienten b j , wenn die i-te Beobachtung weggelassen wird. D i , die deutlich größer als die restlichen sind, sollten überprüft werden.

© Hans-Rüdiger Pfister, Gerd Meier

1 i ) ( 2 2 n j ) ( x x x x + ∑
1
i
)
(
2
2
n
j
)
(
x
x
x
x
+
h
=
i
n
0
h
i
1
;
h
i
=
K
i
(
1)
K
h
=
+
;
h
i
>
2
n
~
studr =
i
y
i
err(
(1
h
s
i)
)
i
2
D
=
E
i
h
i
i
k + 1
1
h
i
~
E
i
2
=
y
i
1
s
h
err
i

+

1

K

+ 1

n

outlier!

Outlier Detection 16 12 14 12 10 resid studres Cook’s D leverage 8 1 -2.23 -0.87
Outlier Detection
16
12
14
12
10
resid
studres Cook’s D
leverage
8
1
-2.23 -0.87
0.10
0.20
6
2
-1.23 -0.47
0.03
0.20
3
-1.71 -0.62
0.03
0.11
4
4
0.29
0.10
0.00
0.11
11
2
5
2.29
0.85
0.05
0.11
0
6
0.55
0.19
0.00
0.09
0
2
4
6
8
10
12
14
7
1.81
0.65
0.02
0.08
X
#
X Y
predicted
8
3.81
1.49
0.09
0.08
1
1
1
3,23
9
-1.93 -0.69
0.02
0.09
2
1
2
3,23
10
2.33
0.86
0.05
0.11
3
3
3
4,71
4
3
5
4,71
11
-5.89 -3.54
1.01
0.26
5
3
7
4,71
12
1.89
0.98
0.55
0.53
6
4
6
5,45
7
5
8
6,19
8
5 10
6,19
9
6 5
6,93
10
7 10
7,67
11
10 4
9,89
12
13 14
12,11
© Hans-Rüdiger Pfister, Gerd Meier
Schrittweise Regression (stepwise regression)
Ziel: Auswahl einer „optimalen“ Menge von Prädiktoren aus einer Menge von J
potentiellen Prädiktoren
2
2
2
2
2
R
=
r
+
r
+
r
...
+
r
y
.
X
y
1
y
,2.1
y
,3.12
y K
,
.(1..
K
1)
Stepwise-Algorithmus (G: Menge der Prädiktoren im Modell):
nimm X mit größtem r yx -> X 1
berechne r y,j.G für alle anderen Prädiktoren X und nimm das X j mit der größten
semipartiellen Korrelation: -> X 2
Teste X 2 auf Signifikanz, falls nicht signifikant, entferne X 2
zurück nach 2., solange bis keine Prädiktoren mehr da sind und man ein Modell mit nur
signifikanten Prädiktoren hat.
Toleranz: Varianz eines Prädiktors X j , die nicht durch die anderen Prädiktoren G
vorhergesagt werden kann
2
Tolerance
=
1
R
j
j G
.
geringe Toleranz führt zu instabilen Regressionslösungen, im Extrem bei Null-
Toleranz kann die Regression nicht berechnet werden (d.h. r jk ~1.0:
Multikollinearität)
© Hans-Rüdiger Pfister, Gerd Meier
Y

Kreuzvalidierung

Durch eine Kreuzvalidierung wird ein Regressionsmodell, das an einer Stichprobe A gewonnen wurde, an einer zweiten unabhängigen Stichprobe B getestet:

Berechne Regressionskoeffizienten a und b für Stichprobe A und R 2 :

yˆ = bx + a

nimm die Koeffizienten a und b und berechne für Stichprobe B geschätzte Werte:

y ˆ

  • cv bx

=

B

+

a

berechne R 2 cv zwischen den tatsächlichen und den so geschätzten Werten in Stichprobe B;

ist R 2 cv deutlich kleiner als R 2 , dann ist das Regressionsmodell sehr spezifisch für Stichprobe A und nicht verallgemeinerbar;

eine Kreuzvalidierung kann bei hinreichend großer Stichprobe durchgeführt werden, indem man die gesamte Stichprobe zufällig in zwei Teilstichproben aufteilt und wechselseitig kreuzvalidiert.

© Hans-Rüdiger Pfister, Gerd Meier

Z Y X b 1 b 2 b 3
Z
Y
X
b 1
b 2
b 3

Mediatoren

Ein Mediator Z vermittelt den Einfluss zwischen einer unabhängigen Variable X und einer

abhängigen Variable Y: der Effekt von X auf Y ist

also indirekt.

Statistisch nennt man Z genau dann eine Mediatorvariable, wenn:

b Z 1 3 2 = = = Y Y Z b X • b 1
b Z
1
3
2
=
=
=
Y
Y
Z
b X
• b 1 signifikant ist
• b 2 signifikant ist
b X
• b 3 signifikant ist
• b 3* signifikant ist
3*
• die Vorhersage von Y durch X und Z den
Einfluss von X signifikant reduziert: b 1* < b 1
=
1*
+
b
b
Y
Z
X
Zeitdruck
emails schreiben
Magengeschwür

© Hans-Rüdiger Pfister, Gerd Meier

Z X Y X*Z
Z
X
Y
X*Z

Moderatoren

Ein Moderator verändert den Effekt (Richtung und/oder Stärke) von X auf Y, d.h. Z wirkt zusammen mit X auf Y.

Statistisch nennt man Z eine Moderatorvariabale,

wenn die Interaktion zwischen X und Z signifikant

ist.

Der Interaktionsterm im Regressionsmodell wird als Produkt von X und Z abgebildet.

3 Y = b X + b Z + b Rauchen * fettes Essen X ◊Z
3
Y = b X + b Z + b
Rauchen * fettes Essen
X ◊Z
Bluthochdruck
fettes Essen
Rauchen
(
2
1

)

© Hans-Rüdiger Pfister, Gerd Meier

Suppressorvariablen

.70 .00 X Y Z
.70
.00
X
Y
Z

.60

Manchmal kommt es vor, dass ein Prädiktor Z, der mit dem Kriterium nicht korreliert ist, einen hohen signifikanten und meist negativen

Regressionskoeffizienten b Z erhält, sofern er

zusammen in einem Modell mit einem weiteren Prädiktor X benutzt wird.

Einen solchen Prädiktor Z nennt man eine Suppressorvariable.

Ein Suppressor Z unterdrückt Varianzanteile in anderen Prädiktoren X, die nicht mit dem Kriterium Y korreliert sind. Obwohl er also selbst nicht mit dem Kriterium korreliert, erhöht ein Suppressor die

Berufserfolg Prüfungs- angst .00 .70 Diplomnote .60
Berufserfolg
Prüfungs-
angst
.00
.70
Diplomnote
.60

Vorhersagekraft des gesamten Regressionsmodells Y = X + Z.

b y.x = 1.18

b y.z = -0.82

© Hans-Rüdiger Pfister, Gerd Meier