You are on page 1of 7

Statistik fr Psychologen

10
Effektgren und Power

Hans-Rdiger Pfister, Gerd Meier

Signifikanz und Typ I Fehler

Der klassische Signifikanztest prft die Wahrscheinlichkeit der Daten


unter der Annahme, dass die H0 wahr ist (NHST). Der Fokus liegt hier
auf der Kontrolle von Typ I Fehlern (-Fehler), d. h. dem Risiko, die H0
flschlicherweise abzulehnen: P(H1 | H0)

Ob ein empirisches Ergebnis als signifikant deklariert wird, hngt ab


von

dem Signifikanzniveau
der Stichprobengre N
der Stichprobenvarianz s2
der Strke des Effekts (ES: effect size)
der Power des statistischen Tests (Teststrke)

Hans-Rdiger Pfister, Gerd Meier

Power und Effektstrke

Die Wahrscheinlichkeit, die H0 zu akzeptieren, falls tatschlich die H1 wahr ist, bezeichnet
man mit = P(H0|H1): Typ II Fehler bzw. -Fehler.

Unter der Annahme einer erwarteten Effektstrke ES soll die Wahrscheinlichkeit, diesen Effekt
auch als signifikant zu identifizieren, mglichst hoch sein, d.h. die Wahrscheinlichkeit, eine
falsche H0 zurck zu weisen, soll hoch sein.

Diese Wahrscheinlichkeit P(H1 | H1) nennt man Power oder Teststrke eines statistischen
Tests, sie betrgt 1 (Komplement von P(H0|H1).

Eine Untersuchung mit grerer Power ist eine Untersuchung, in der die Wahrscheinlichkeit,
eine falsche H0 zurck zu weisen, grer ist als in einem Experiment mit geringerer Power.

ES

1-

Hans-Rdiger Pfister, Gerd Meier

Effektgre fr die Differenz zwischen zwei Mittelwerten

Distanz zwischen zwei Mittelwerten in Standardeinheiten der Population (Cohens d):

1 2

x x
d = 1 2
s pooled

d=

Beispiel:
Eine Differenz von 5 IQ-Punkten zwischen zwei Population mit einer
Standardabweichung von 10 Punkten ergibt eine Effektgre von
5/10 = d = 0.5

Hans-Rdiger Pfister, Gerd Meier

Effektgren in der ANOVA


Effektgre als erklrte Varianz:

n 2j

SS treat
=
= R2
SS tot
2

2 =

Da SStreat ein Schtzer ist (mit Stichprobenfehler) liefert 2


eine berschtzung des wahren R2 in der Population. Ein
besserer korrigierter Schtzer fr R2 ist 2.

2 =

x2
SStreat (k 1 )MSerr
SStot + MSerr

Effektgre als verallgemeinerte Mittelwertsdifferenz:

f= =
e

)2
d=

k
e2

max min

Hans-Rdiger Pfister, Gerd Meier

Power: P(H1|H1)
H1-sampling
distribution

H0- sampling
distribution

Effekt ES

1-

1.
2.
3.
4.

Power nimmt mit zunehmendem zu


Power nimmt mit grerem Effekt ES zu
Power nimmt mit der Stichprobengre N zu
Power nimmt mit abnehmender Varianz s2
(abnehmender Standardfehler) zu

Hans-Rdiger Pfister, Gerd Meier

Beispiel 1, n=15

true difference
in means

se = 0.516
z* = 0.849
power = 0.104
n = 15
sd = 2
diff = 0.2
alpha = 0.05
Teststatistik : z

Null Distribution
0.8

Standardabweichung : = 2.0
Stichprobenumfang : N = 15

--> rejection region

0.4

Alphaniveau : = 0.05
Wahrer Effekt : d = 0.2
2
= 0.516
15

0.0

Standardfehler : se =

kritischer Wert fr z : z * = F 1 (0.95, = 0, = 0.516) = 0.849

-2

-1

0.8493988
1

Power : Pwr = 1 F (0.849, = 0.2, = 0.516) = 0.104

0.8

Alternative Distribution
--> rejection region

0.0

0.4

Power

-2

-1

0.8493988
1

vgl. R-package TeachingDemos


vgl. G*Power (http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/)
Hans-Rdiger Pfister, Gerd Meier

Beispiel 2, n=100
> power.t.test(n=100, d=0.2, sd=2,
sig.level=0.05, type="one.sample",
alternative="one.sided")

true difference
in means

se = 0.2
z* = 0.329
power = 0.26
n = 100
sd = 2
diff = 0.2
alpha = 0.05

One-sample t test power


calculation

Null Distribution

n = 100
delta = 0.2

--> rejection region

2.0

sd = 2

power = 0.2573029

1.0

sig.level = 0.05

0.0

alternative = one.sided

-2

-1

0.3289707
0

x
> power.t.test( d=0.2, sd=2, sig.level=0.05,
power=0.8, type="one.sample",
alternative="one.sided")

Alternative Distribution

One-sample t test power calculation

--> rejection region

2.0

n = 619.6107

Power

sd = 2

1.0

delta = 0.2

power = 0.8
alternative = one.sided

0.0

sig.level = 0.05

-2

-1

0.3289707
0

1
x

Hans-Rdiger Pfister, Gerd Meier

true difference
in means

Beispiel 3, d=0.9

se = 0.365
z* = 0.601
power = 0.794
n = 30
sd = 2
diff = 0.9
alpha = 0.05

1.2

Null Distribution

0.8

--> rejection region

0.4

Teststatistik : z

0.0

Standardabweichung : = 2.0
Stichprobenumfang : N = 30
Alphaniveau : = 0.05

-2

-1

0.6006156
1

Wahrer Effekt : d = 0.9


Standardfehler : se =

2
= 0.365
30

Alternative Distribution
--> rejection region

Power

0.0

0.4

0.8

Power : Pwr = 1 F (0.601, = 0.9, = 0.365) = 0.794

1.2

kritischer Wert fr z : z * = F 1 (0.95, = 0, = 0.365) = 0.601

-2

-1

0.6006156
1

Hans-Rdiger Pfister, Gerd Meier

Beispiel 4, alpha=0.20

true difference
in means

se = 0.365
z* = 0.307
power = 0.701
n = 30
sd = 2
diff = 0.5
alpha = 0.2

1.2

Null Distribution

Teststatistik : z
Standardabweichung : = 2.0
Stichprobenumfang : N = 30

0.0

0.4

0.8

--> rejection region

-2

Alphaniveau : = 0.20

-1

0.3073166
0

Wahrer Effekt : d = 0.5


Standardfehler : se =

2
= 0.365
30

Alternative Distribution
--> rejection region

Power

0.0

0.4

0.8

Power : Pwr = 1 F (0.307, = 0.5, = 0.365) = 0.701

1.2

kritischer Wert fr z : z * = F 1 (0.80, = 0, = 0.365) = 0.307

-2

Hans-Rdiger Pfister, Gerd Meier

-1

0.3073166
0

1
x

Problemstellungen
1. Welches N bentige ich, um einen Effekt von vermuteter Strke = ES mit einer Power
= Pwr als signifikant nachzuweisen?
> power.anova.test(groups=4, between.var=var(c(3,4,5,6)), within.var=10, sig.level=0.05, power=0.80)
Balanced one-way analysis of variance power calculation
groups = 4
n = 22.80600
between.var = 1.666667
within.var = 10
sig.level = 0.05
power = 0.8
NOTE: n is number in each group

2. Welche Power hatte ein Test bei Daten mit gegebenem N, um einen Effekt von
vermuteter Strke ES als signifikant nachzuweisen?
> power.anova.test(groups=4, between.var=2, within.var=10, sig.level=0.05, n=15)
Balanced one-way analysis of variance power calculation
groups = 4
n = 15

f = sqrt(2/(2+10)) =
0.408

between.var = 2
within.var = 10
sig.level = 0.05
power = 0.6774923
NOTE: n is number in each group

Hans-Rdiger Pfister, Gerd Meier

Power als Funktion von n und d


Power for t-test for 2 independent groups

0.8
d = 0.9

power

0.6

d = 0.5
0.4

0.2

d = 0.2

20

Hans-Rdiger Pfister, Gerd Meier

40

60
n per group

80

100

Spezifikation des vermuteten Effekts

Vor Durchfhrung eines Experiments sollte man versuchen, eine


begrndete Vermutung fr die erwartete Effektgre anzugeben.
Eine solche a priori Spezifikation der ES kann auf folgenden
berlegungen basieren:
1. theoretische Plausibilitt, bzw. przisen theoretischen
Erwartungen
2. bekannten Ergebnissen aus hnlichen, bereits publizierten
Studien
3. einer Kosten-Nutzen Analyse, insbesondere bei angewandter
Forschung

Hans-Rdiger Pfister, Gerd Meier

Cohens Konventionen (vgl. Cohen, 1988, 1992)


Problem

Test

Differenz
zweier
Mittelwerte

t-test (df=2n2)

Korrelation

t-test (df=n-2)

ANOVA
3 Gruppen

F-test (k-1;
k(n-1))

effect size
index

f=

bentigtes n bei
power = .8 und alpha = .05
um einen Effekt der Gre ... zu erhalten:
klein
r = .10
f = .10
d = .20
393

medium
r = .30
f = .25
d = .50
64

gro
r = .50
f = .40
d = .80
26

783

85

28

322

52

Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.


Hans-Rdiger Pfister, Gerd Meier

21