You are on page 1of 8

Statistik fr Psychologen

9
Allgemeines lineares Modell

Hans-Rdiger Pfister, Gerd Meier

ANOVA und Regressionsanalyse

Der traditionelle Ansatz

Die Varianzanalyse (ANOVA) wird eingesetzt, um Unterschiede zwischen Mittelwerten


experimenteller Bedingungen zu prfen

Die Mittelwerte einer metrischen abhngigen Variable werden als Funktion einer oder
mehrerer kategorialer unabhngiger Variablen analysiert

Die Regressionsanalyse wird eingesetzt, um optimale Vorhersagen hinsichtlich einer


Kriteriumsvariablen auf Basis der Werte mehrerer Prdiktoren zu machen

Eine metrische abhngige Variable wird als Funktion einer oder mehrerer metrischer
unabhngiger Variablen analysiert

Der allgemeine Ansatz

Sowohl in der ANOVA als auch in der Regressionsanalyse geht es um die Modellierung
einer abhngigen Variable als Funktion einer oder mehrerer unabhngiger Variablen

Der Erwartungswert der abhngigen Variable (Kriterium) wird als lineare Funktion der
Ausprgungen der unabhngigen Variablen (Prdiktoren) modelliert

Unterschiede in den Mittelwerten unterschiedlicher Gruppen (von Personen) sind das


Gleiche wie die Vorhersage der Mittelwerte auf Basis der Gruppenzugehrigkeit

Eine kategoriale Variable mit J Kategorien kann als Menge von J-1 metrischen binren
Variablen (Indikatoren) aufgefasst werden

Hans-Rdiger Pfister, Gerd Meier

Mathematische quivalenzen
ANOVA

Regressionsanalyse

yi = 0 x0i + 1 x1i + ... + i

yij = + j + ij
J

SS treat = n ( y j y )
j
2
MStreat = streat
=

MS err =

SS reg

SS y

SS treat

SS res = ( yi y i ) 2 ; (1 R 2 ) =
i

df treat ( = J 1)

SS res
SS y

SS reg

SS err

Fp ; N p 1 =

df err ( = N J )

FJ 1; N J =

SS reg = ( y i y ) 2 ; R 2 =

MStreat SStreat ( N J )
=
MS error
SS err ( J 1)

SS reg ( N p 1)
p
=
SS res
SS res p
N p 1

R 2 ( N p 1)
(1 R 2 ) p

n: Beobachtungen pro Bedingung; N: Gre der Gesamtstichprobe; J: Anzahl Bedingungen; p: Anzahl Prdiktoren
Hans-Rdiger Pfister, Gerd Meier

Die Designmatrix
Codierung kategorialer Variablen als binre Indikatoren:
Eine Beobachtung (Person) kann hinsichtlich einer Kategorie j einer kategorialen Variable (eines
Faktors) codiert werden als:
1 = gehrt zu dieser Kategorie, oder
0 = gehrt nicht zu dieser Kategorie
Der Ordinatenabschnitt (Intercept, Grand Mean ) wird fr alle Beobachtungen mit 1 codiert.
Kriterium

Intercept

B1

B2

5
6
.
.
7
8
.
.

1
1
1
1
1
1
1

1
1
1
1
1
1
0

1
1
0
0
0
0
1

0
0
1
1
0
0
0

Eine kategoriale Variable mit J Kategorien kann durch J-1 Indikatorvariablen kodiert werden; dadurch
wird eindeutig die Gruppenzugehrigkeit angegeben (eine Kategorie ist immer redundant, vgl.
Freiheitsgrade).
Die Matrix der so codierten Indikatorvariablen nennt man Designmatrix.

Hans-Rdiger Pfister, Gerd Meier

Kodierungsarten fr Indikatorvariablen

Dummy-Coding (J-1 Dummy-Variablen)


1 = ist in Kategorie j
0 = ist nicht in Kategorie j
Beobachtungen, die in allen Dummy-Variablen 0 haben = gehrt in keine
der J-1 Katorien (also implizit in Kategorie J, Festlegung beliebig)

Effect-Coding (J-1 Effekt-Variablen)


1 = ist in Kategorie j
-1 = ist in Kategorie J (d.h. in der redundanten Kategorie, Festlegung
beliebig)
0 = ist weder in Kategorie j noch in Kategorie J
Die Summe der codierten Werte einer Effekt-Variable ist genau 0

Hans-Rdiger Pfister, Gerd Meier

Beispiel 1: Howell (p. 608)


(a) ANOVA:
> summary(aov(y ~ x1))
Analysis of Variance Table
y x1

Response: y

8 1

Df Sum Sq Mean Sq F value

9 1

x1

3 45.667

15.222

7 1

Residuals

8 27.333

3.417

5 2
7 2
3 2
3 3
4 3
1 3
6 4
4 4
9 4

> model.tables(aov(y ~ x1), type="means")


Tables of means
5.5
x1
1

8.000 5.000 2.667 6.333


> model.tables(aov(y ~ x1))
Tables of effects
x1
1

Hans-Rdiger Pfister, Gerd Meier

Pr(>F)

4.4553 0.04045 *

2.5000 -0.5000 -2.8333

0.8333

Beispiel 1 ...
(b) Regression (Effekt(Effekt-Codierung):

> summary(lm(y ~ x1, contrasts=list(x1="contr.sum")))

Coefficients:
Estimate Std. Error t value
(Intercept)

Pr(>|t|)

10.307 0.00000677 ***

Intc. x11 x12 x13


1

10

-1

-1

-1

5.5000

0.5336

x11

2.5000

0.9242

2.705

0.0269 *

11

-1

-1

-1

x12

-0.5000

0.9242

-0.541

0.6032

12

-1

-1

-1

x13

-2.8333

0.9242

-3.066

0.0154 *

--Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.848 on 8 degrees of freedom


Multiple R-Squared: 0.6256,

Adjusted R-squared: 0.4852

F-statistic: 4.455 on 3 and 8 DF,

p-value: 0.04045

Hans-Rdiger Pfister, Gerd Meier

Beispiel 1 ...
(b) Regression (Dummy(Dummy-Codierung):
> summary(lm(y ~ x1))

Coefficients:
Estimate Std. Error t value
(Intercept)
x12

8.000
-3.000

1.067

Pr(>|t|)

7.496 0.0000695 ***

1.509

-1.988

0.08206 .

x13

-5.333

1.509

-3.534

0.00769 **

x14

-1.667

1.509

-1.104

0.30156

Intc. x12 x13 x14


1

10

11

12

--Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.848 on 8 degrees of freedom


Multiple R-Squared: 0.6256,

Adjusted R-squared: 0.4852

F-statistic: 4.455 on 3 and 8 DF,

Hans-Rdiger Pfister, Gerd Meier

p-value: 0.04045

Beispiel 2 Howell (p.612 ff.)


Deskriptive Statistiken

B(4)

A(2)

5
7
9
8

2
5
7
3

8
11
12
14

11
15
16
10

7
9
10
9

3
8
9
11

9
12
14
8

11
14
10
12

Abhngige Variable: y

15

Gesamt

BLEVELS

1,

1,
2,
3,
4,

2,

1,00

7,2500

1,70783

2,00

4,2500

2,21736

3,00

11,2500

2,50000

4,00

13,0000

2,94392

Gesamt

8,9375

4,12260

16

1,00

8,7500

1,25831

2,00

7,7500

3,40343

3,00

10,7500

2,75379

4,00

11,7500

1,70783

Gesamt

9,7500

2,72029

16

1,00

8,0000

1,60357

2,00

6,0000

3,25137

3,00

11,0000

2,44949

4,00

12,3750

2,32609

9,3438

3,46046

32

1,00

2,00

Standardab
weichung

blevels

20

10

Mittelwert

alevels

Gesamt

ALEVELS
Hans-Rdiger Pfister, Gerd Meier

Tests der Zwischensubjekteffekte

Beispiel 2 ...

Abhngige Variable: y
Quelle

Quadratsum
me vom Typ III

Korrigiertes Modell

231,969

Mittel der
Quadrate

df

Signifikanz

Partielles
Eta-Quadrat

33,138

5,711

,001

,625

2793,781

2793,781

481,513

,000

,953

alevels

5,281

5,281

,910

,350

,037

blevels

199,344

66,448

11,452

,000

,589

27,344

9,115

1,571

,222

,164

139,250

24

5,802

3165,000

32

371,219

31

Mittelwert

Haupteffekte

Konstanter Term

alevels * blevels
Fehler
Gesamt
Korrigierte
Gesamtvariation

a. R-Quadrat = ,625 (korrigiertes R-Quadrat = ,515)

Mittelwert
Haupteffekte

5
7
9
8
7,25
7
9
10
9
8,75
8
-1,34375

2
5
7
3
4,25
3
8
9
11
7,75
6
-3,34375

8
11
12
14
11,25
9
12
14
8
10,75
11
1,65625

11
15
16
10
13
11
14
10
12
11,75
12,375
3,03125

Interaktion

-0,34375

-1,34375

0,65625

1,03125

Hans-Rdiger Pfister, Gerd Meier

8,9375

-0,40625

9,75
9,34375

0,40625

Beispiel 2 ...
5
7
9
8
2
5
7
3
8
11
12
14
11
15
16
10
7
9
10
9
3
8
9
11
9
12
14
8
11
14
10
12

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1

1
1
1
1
0
0
0
0
0
0
0
0
-1
-1
-1
-1
1
1
1
1
0
0
0
0
0
0
0
0
-1
-1
-1
-1

0
0
0
0
1
1
1
1
0
0
0
0
-1
-1
-1
-1
0
0
0
0
1
1
1
1
0
0
0
0
-1
-1
-1
-1

0
0
0
0
0
0
0
0
1
1
1
1
-1
-1
-1
-1
0
0
0
0
0
0
0
0
1
1
1
1
-1
-1
-1
-1

1
1
1
1
0
0
0
0
0
0
0
0
-1
-1
-1
-1
-1
-1
-1
-1
0
0
0
0
0
0
0
0
1
1
1
1

0
0
0
0
1
1
1
1
0
0
0
0
-1
-1
-1
-1
0
0
0
0
-1
-1
-1
-1
0
0
0
0
1
1
1
1

Y = Xb

0
0
0
0
0
0
0
0
1
1
1
1
-1
-1
-1
-1
0
0
0
0
0
0
0
0
-1
-1
-1
-1
1
1
1
1

A1
B1
B2
B3
AB11
AB12
AB13

Hans-Rdiger Pfister, Gerd Meier

Beispiel 2 ...
Modellzusammenfassung

Modell

R-Quadrat

,790a

Standardf
ehler des
Schtzers

Korrigiertes
R-Quadrat

,625

,515

2,40875

a. Einfluvariablen : (Konstante), AB13, B3, A1, AB12,


B2, AB11, B1

ANOVAb
Quadrat
summe

Modell
1

Mittel der
Quadrate

df

Regression

231,969

33,138

Residuen

139,250

24

5,802

Gesamt

371,219

31

Signifikanz

5,711

a. Einfluvariablen : (Konstante), AB13, B3, A1, AB12, B2, AB11, B1


b. Abhngige Variable: Y

Hans-Rdiger Pfister, Gerd Meier

,001a

Beispiel 2 ...
Koeffizientena
Nicht
standardisierte
Koeffizienten
Modell
1

Standardisie
rte
Koeffizienten

Standar
dfehler

B
(Konstante)

9,344

,426

A1

-,406

,426

B1

-1,344

B2

Beta

Signifikanz

21,943

,000

-,119

-,954

,350

,738

-,279

-1,822

,081

-3,344

,738

-,694

-4,534

,000

B3

1,656

,738

,344

2,246

,034

AB11

-,344

,738

-,071

-,466

,645

AB12

-1,344

,738

-,279

-1,822

,081

AB13

,656

,738

,136

,890

,382

a. Abhngige Variable: Y

Hans-Rdiger Pfister, Gerd Meier

Allgemeiner F-Test fr Modellvergleiche

Ein Model mit f Prdiktoren heit volles Modell (full model)

Ein Model mit r Prdiktoren (r < f), die eine echte Teilmenge des vollen Modells bilden,
heit reduziertes Modell (reduced model)

Mit Hilfe eines allgemeinen F-Tests wird berprft, ob die Aufnahme zustzlicher
Prdiktoren (full model: f-r zustzliche Prdiktoren) R2 signifikant erhhrt (R2):

F f r ; N f 1 =

2
( N f 1)( R 2full Rreduced
)

( f r )(1 R

Hans-Rdiger Pfister, Gerd Meier

2
full

( Errorreduced Error full )( N f 1)


Error full ( f r )

Sukzessive Aufnahme von Faktoren:


A1
Faktor A mit 1 df
+ (B1,B2,B3)
+ (AB11, AB12, AB13)

=
= Faktor B mit 3 df
= Interaktion mit 1*3 = 3 df

Faktor A n.s.
Modellzusammenfassung

nderungsstatistiken

Modell

R-Quadrat

Korrigiertes
R-Quadrat

Standardf
ehler des
Schtzers

nderung in
R-Quadrat

nderung in F

df1

df2

nderung in
Signifikanz
von F

,119a

,014

-,019

3,49255

,014

,433

30

,516

,742b

,551

,485

2,48398

,537

10,769

27

,000

,790c

,625

,515

2,40875

,074

1,571

24

,222

a. Einfluvariablen : (Konstante), A1
b. Einfluvariablen : (Konstante), A1, B3, B2, B1

Faktor B sig.

c. Einfluvariablen : (Konstante), A1, B3, B2, B1, AB13, AB12, AB11

Interaktion n.s.
Hans-Rdiger Pfister, Gerd Meier

Das Allgemeine Lineare Model (ALM, GLM)

liefert einen einheitlichen Ansatz zur Analyse linearer statistischer Modelle


behandelt metrische und kategoriale unabhngige Variablen auf weitgehend
quivalente Weise

Kovarianzanalyse: Kontrolle einer metrischen Variable (Kontrollvariable)


hinsichtlich ihres Einflusses auf die abhngige Variable in einem Experiment
(Auspartialisieren der Kontrollvariable bzw. der Kovariate)

Hans-Rdiger Pfister, Gerd Meier