Sie sind auf Seite 1von 38

Varianzanalyse

= ANOVA
= Analysis of Variance

Univ.-Prof.DI.Dr.Karl P. Pfeiffer
Dept.f. Med. Statistik, Informatik und
Gesundheitsökonomie (MSIG)
Medizinische Universität Innsbruck
E-mail: karl-peter.pfeiffer@i-med.ac.at
www.i-med.ac.at/msig/
v.20070310

15.01.2008 Varianzanalyse/Pfeiffer 1
ANOVA:Literatur
„ Kleinbaum et. Al: Applied regression and other
multivariable methods. Duxbury Press. Albany, 1998
„ Büning, Trenkler: Nichtparametrische statistische
Methoden. De Gruyter Verlag, Berlin, 1978
„ Fisher L.D., van Belle G.: Biostatistics. John Wiley,
New York, 1993
„ Hartung J., Elpelt B.: Multivariate Statistik.
R.Oldenburg Verlag, München, 1992

15.01.2008 Varianzanalyse/Pfeiffer 2
ANOVA - Problemstellung
„ ANOVA – Analysis of Variance -
Streuungszerlegung
„ Einfache Varianzanalyse
„ Ein Einflussfaktor mit k>2 Ausprägungen
„ Bspl.: 4 verschiedene Therapieformen
„ Vergleicht die Mittelwerte durch
Zerlegung der Varianz in:
„ Streuung zwischen (between) den Gruppen
„ Innerhalb (within) der Gruppen (=Residuen)

15.01.2008 Varianzanalyse/Pfeiffer 3
ANOVA - Beispiele
„ Vergleich des Einkommens in 5
verschiedenen Regionen
„ Vergleich der Verkaufszahlen in 10 gleich
grossen Filialen eines Unternehmens
„ Vergleich der Wirksamkeit der Kombination
von zwei Medikamenten mit 3 bzw. 4
verschiedenen Dosierungen
„ Vergleich der Zufriedenheit von Studierenden
aus verschiedenen Studienrichtungen

15.01.2008 Varianzanalyse/Pfeiffer 4
ANOVA: Studiendesign
„ Ein oder mehrere Einflussfaktoren
„ mit k≥2 Ausprägungen

„ Unterscheide ANOVA mit


Messwiederholungen
„ Repeated Measurements
„ Aufeinanderfolgende Beobachtungen sind
abhängig
„ Wird hier nicht behandelt

15.01.2008 Varianzanalyse/Pfeiffer 5
ANOVA - Überblick
„ Einfache Varianzanalyse (ANOVA)
„ Ein Einflussfaktor mit k≥2 Ausprägungen
„ Mehrweg-ANOVA
„ Mehrere (≥ 2) Einflussfaktoren mit jeweils ≥ 2
Ausprägungen
„ Kovarianzanalyse
„ Stetige und diskrete Einflussfaktoren
„ MANOVA
„ Mehrere abhängige Variable

15.01.2008 Varianzanalyse/Pfeiffer 6
Einweg-ANOVA: Daten
Gruppen / Faktor Gesamt
1 2 ... k
y11 y21 ... yk1
y12 y22 yk2
Beobachtungen

.. . ..
.. .. ..
.. .. ..
y1N1 y2N2 ... ykNk

Stichproben-
umfang N1 N2 ... Nk N

Mittelwert
y1 y2 ...
y
Standard-
abweichung s1 s2 ... sk s
Summe pro
Gruppe T1 T2 ... Tk G

15.01.2008 Varianzanalyse/Pfeiffer 7
Feste oder zufällige Effekte
„ Feste Effekte
„ In der Studienplanung vorgegeben

„ Zufällige Effekte
„ Durch die Auswahl einer Zufallsstichprobe
entstanden

„ Unterschiedliche Hypothesenformulierung und


Interpretation beachten

15.01.2008 Varianzanalyse/Pfeiffer 8
Zufällige Effekte

Yij = μ + Ai + Eij
Ai ≈ N (0, σ A2 ), i = 1,2,....
H 0 : σ A2 = 0
Hypothesentest ist analog dem Modell für feste Effekte.

15.01.2008 Varianzanalyse/Pfeiffer 9
ANOVA: Hypothesen
H 0 : μ1 = μ 2 = ... = μ k
d.h. alle k Mittelwerte sind gleich
H 1 : μi ≠ μ j , für mindestens ein Paar (i, j)
„ Feste Effekte
„ Keine Aussage darüber, welche der einzelnen
Gruppen unterschiedliche Mittelwerte haben
„ Globaler Test

15.01.2008 Varianzanalyse/Pfeiffer 10
ANOVA-Modell
„ Das ANOVA-Modell (zufällige Effekte):
yij = μ + α i + ε ij
„ Die Nullhypothese:
„ H0:α1 = α2 = ... = αk = 0
„ Die Alternativhypothese:
„ Mindestens ein αi ist ungleich 0
Annahme :
α i ≈ N (0, σ α2 )

15.01.2008 Varianzanalyse/Pfeiffer 11
ANOVA - Streuungszerlegung
„ SST = SSB + SSE 2 2

SST = ∑∑ ( yij − y ) = ∑∑ ( yij − yi + yi − y )


k ni k ni

i =1 j =1 i =1 j =1

= SSB + SSE
k
SSB = ∑ ni ( yi − y ) 2
i =1
2

SSE = ∑∑ ( yij − yi )
k ni

i =1 j =1
k ni k
1 1
y=
N
∑∑
i =1 j =1
yij =
N
∑n y
i =1
i i

ni
1
yi =
ni
∑y
j =1
ij

„ SST...Sum Squared Total


„ SSB...Sum Squared Between groups
„ SSE...Sum Squared Error (Within)
15.01.2008 Varianzanalyse/Pfeiffer 12
Streuungszerlegung - Beweis
2 2

SST = ∑∑ ( yij − y ) = ∑∑ ( yij − yi + yi − y )


k ni k ni

i =1 j =1 i =1 j =1

Zeige : SST = SSB + SSE


k k k k
SSB = ∑ ni ( yi − y ) 2 = ∑ ni ( yi2 − 2 yi y + y 2 ) = ∑ ni yi2 − 2 y ∑ ni yi + ny 2
i =1 i =1 i =1 i =1
k k
da : ∑ ni yi = ny gilt : SSB = ∑ ni yi2 −ny 2
i =1 i =1
2

SSE = ∑∑ ( yij − yi ) = ∑∑ y − 2 yij yi + y = ∑∑ y − ∑ ni yi2 ( )


k ni k ni k ni k
2 2 2
ij i ij
i =1 j =1 i =1 j =1 i =1 j =1 i =1
k ni k
1 1
y=
N
∑∑ yij =
i =1 j =1 N
∑n y
i =1
i i

ni
1
yi =
ni
∑y
j =1
ij

15.01.2008 Varianzanalyse/Pfeiffer 13
ANOVA: Teststatistik
„ Varianz zwischen den Gruppen:
k

SSB ∑ (T i
2
/ ni ) − G 2 / n
MSB = = i =1
k −1 k −1
„ Varianz innerhalb der Gruppen:
k ni k

SSE
∑ ∑ ∑ i / ni )
y − (T 2

i =1 j =1
2
ij
i =1
MSE =
n−k n−k
„ F=MSB/MSE...F-verteilt mit (k-1),(n-k)
Freiheitsgrade

15.01.2008 Varianzanalyse/Pfeiffer 14
ANOVA Tabelle
„ Einfache Varianzanalyse
„ Zerlegung der Gesamtsstreuung SST in
SSB + SSE

Freiheits- Quadrat- Mittlere Quadrat-


Ursache grade summe summe Testgrösse
Zwischen den k-1 SSB MSB=SSB/(k-1) F=MSB/MSE
Residuen n-k SSE MSE=SSE/(n-k)
Gesamt n-1

15.01.2008 Varianzanalyse/Pfeiffer 15
ANOVA: Voraussetzungen
„ Unabhängige Beobachtungen
„ Normalverteilung
„ Gleiche Varianzen in allen Gruppen

„ Alternative bei nicht-Normalverteilung:


„ Kruskal-Wallis-H-Test
„ Rangsummentest

15.01.2008 Varianzanalyse/Pfeiffer 16
Multiples Testen
„ Gesamtniveau α bei allen Tests auf die gleichen
Daten einhalten
„ Korrektur des α-Wertes
„ Bonferroni Korrektur der Irrtumswahrscheinlichkeit
bei c Tests
„ α* = α/c

„ Weniger konservative Verfahren


„ Bonferroni-Holm

„ Hochberg-Bonferroni
„ Hochberg-Benjamini

15.01.2008 Varianzanalyse/Pfeiffer 17
Multiple Tests
„ Tukey Test
„ LSD – Least significant difference
„ Scheffe Test
„ Lineare Kontraste
„ Dunnett
„ Sidak
„ Gabriel
„ ...
„ Bei Gleichheit der Varianzen

15.01.2008 Varianzanalyse/Pfeiffer 18
LSD-Approach
„ LSD...Least Significant Difference
„ Nutze die globale Signifikanz α aus
„ Bilde die Differenzen: Yi − Y j
„ Sortiere diese absteigend
„ Berechne die paarweisen Konfidenzintervalle
⎛1 1⎞
(Yi − Y j ) ± t n − k ,1−α / 2 MSE ⎜ + ⎟
⎜n n ⎟
⎝ i j ⎠

„ Wenn 0 nicht im Konfidenzintervall enthalten, dann besteht ein


signifikanter Unterschied

15.01.2008 Varianzanalyse/Pfeiffer 19
Tukey´s Verfahren

„ Für gleiche Stichprobenumfänge

(Yi − Y j ) ± T MSE
1
T= qk ,n − k ,1−α
*
n
„ qk,n-k,1-α...studentisierte Spannweite
„ Modifikation für ungleiche n(i)
(Yi − Y j ) ± T ( MSE / 2) * (1 / ni + 1 / n j

15.01.2008 Varianzanalyse/Pfeiffer 20
Studentisierte Spannweite
R = {max i ( yi ) − min i ( yi )}
yi ...normalverteilt mit μ und σ 2
s ist ein Schätzwert von σ mit N - k Freiheitsgraden
bei k Gruppen
R/s...studentisierte Spannweitenverteilung mit N - k, k Freiheitsgraden

15.01.2008 Varianzanalyse/Pfeiffer 21
Student-Newman-Keuls
„ Ersetze k durch k* im Tukey-Test
„ k*...Anzahl der Mittelwerte in der
Spannweite der Mittelwerte, die getestet
werden
„ Z.B.: k*=3 beim Vergleich des zweitgrössten
mit dem kleinsten MW bei vier Gruppen

15.01.2008 Varianzanalyse/Pfeiffer 22
Scheffe-Test
„ Lineare Kontraste:
„ Beispiel: k=4 Gruppen
μ1 + μ 2 μ3 + μ 4
L= −
2 2
„ Allgemein:
k
L = ∑ ci μ i
i =1
k

∑c
i =1
i =0

15.01.2008 Varianzanalyse/Pfeiffer 23
Scheffe´s Verfahren
„ Scheffe-Konfidenzintervalle

⎛ c k 2

∑i ciYi ± S MSE⎜⎜ ∑ i
⎟⎟
⎝ i =1 ni ⎠
„ Mit S2=(k-1)F(k-1),(n-k),1-α

15.01.2008 Varianzanalyse/Pfeiffer 24
Kruskal-Wallis-H-Test
„ Alternative zur Einweg-ANOVA
„ Wenn die Daten nicht normalverteilt sind
„ Basiert auf der Rangstatistik
„ Ähnlich dem Wilcoxon-Man-Whitney U-Test
„ Globaler Test
„ Voraussetzung:
„ Gleiche Verteilungsform F(z) in den
Gruppen

15.01.2008 Varianzanalyse/Pfeiffer 25
Kruskal-Wallis-H-Test:
Teststatistik
Ordne den N Elementen die Ränge 1 bis N zu
Ri ...Rangsumme der Gruppe i
ni ( N + 1)
E [Ri ] =
2
k
12 1
H= ∑ ( Ri − E [Ri ]) 2
N ( N + 1) i =1 ni
ni ( N + 1)( N − ni )
VAR[Ri ] =
12
R − E [Ri ]
Zi = i
VAR[Ri ]
k

∑Z
i =1
i
2
≅ χ k2−1

15.01.2008 Varianzanalyse/Pfeiffer 26
H-Test:
Korrektur bei Bindungen
r
H * = H /(1 − ∑ (b 3j − b j ) /( N 3 − N ))
j =1

b j ...Anzahl der Bindungen

„ H,H*: für k>3, ni>5 ... Approximation an


Chi**2-Verteilung mit k-1 Freiheitsgraden

15.01.2008 Varianzanalyse/Pfeiffer 27
Zwei- und Mehrweg ANOVA
„ Grundprinzip: Kombination von zwei oder
mehreren Faktoren
„ Randomisiertes Block-Design
„ Stratifizierung nach einem Faktor (=Block)
„ Randomisierung nach einem zweiten Faktor
„ Zwei-Weg-ANOVA
„ Zwei Einflussfaktoren mit k≥2 Ausprägungen
„ N(i,j)=1: keine Interaktionsprüfung möglich
„ N(i,j)=const ≥2 ... Interaktionsprüfung möglich, einfache
Streuungszerlegung
„ N(i,j) ≥2 ... Lösung über Regressionsmodell
15.01.2008 Varianzanalyse/Pfeiffer 28
Zweiweg ANOVA
Studiendesigns

15.01.2008 Varianzanalyse/Pfeiffer 29
Randomisierte Blöcke /1
„ Allgemein: Zwei Einflussfaktoren A und B
„ Bspl: Kombination von 2 Medikamenten A und B
„ Einfachster Fall
„ N(i,j)=1 oder N(i,j)=const.

Zeilen-
BLOCK: Faktor A mittelwert
A1 A2 ... Ac
B1 Y(1,1) Y(1,2) ... Y(1,c) Y(1,.)
B2 Y(2,1) Y(2,2) ... Y(2,c) Y(2,.)
... ... ... ... ...
Faktor B Br Y(r,1) ... ... Y(r,c) Y(c,.)
Spalten-
mittelwert Y(.,1) Y(.,2) Y(.,c) Y(.,.)

15.01.2008 Varianzanalyse/Pfeiffer 30
Randomisierte Blöcke /2
„ Spezielles Studiendesign mit 2
Einflussfaktoren A und B
„ Z.B.: Faktor A ergibt sich aus einer
Stratifzierung in Blöcke,
„ Faktor B wird zufällig zugeordnet

15.01.2008 Varianzanalyse/Pfeiffer 31
Randomisierte Blöcke /3
„ Tests auf Behandlungsunterschiede
Nullhypothese H0 :
H 0 : μ1 = μ 2 = ... = μ k
Alternativhypothese H1 :
Es gibt mindestens ein Paar mit : μi ≠ μ j

„ ANOVA-Tabelle

15.01.2008 Varianzanalyse/Pfeiffer 32
Randomisierte Blöcke -
Streuungszerlegung
Behandlungseffekt bei k Behandlungen :
k
SST = b∑ (Yi + − Y+ + ) 2
i =1

Blockeffekt bei b Blöcken :


b
SSB = k ∑ (Y+ j - Y+ + ) 2
j=1

Rest :
k b
SSE = ∑∑ (Yij - Yi + - Y+ j + Y + + ) 2
i =1 j=1

15.01.2008 Varianzanalyse/Pfeiffer 33
Zweiweg-ANOVA (balanciert)
2-Weg-ANOVA, nij=4
Faktor A
A1 A2 A3 A4
B1 YYYY YYYY YYYY YYYY n1+=16
Faktor B2 YYYY YYYY YYYY YYYY n2+=16
B B3 YYYY YYYY YYYY YYYY n3+=16
n+1=12 n+2=12 n+3=12 n+4=12 n++=n=48

„ Hypothesen
„ Faktor A
„ Faktor B
„ Interaktionen AB

15.01.2008 Varianzanalyse/Pfeiffer 34
Balancierte Zweiweg ANOVA:
Modell
„ 2 Faktoren A,B und eine Wechselwirkung:
yijk = μ + α i + β j + γ ij + ε ijk

Zwei-Weg ANOVA Tabelle (balanciert)


Freiheits-
Quelle grade SS MS F (feste Effekte)
Zeilen r-1 SSR MSR=SSR/(r-1) MSR/MSE
Spalten c-1 SSC MSC=SSC/(c-1) MSC/MSE
Interaktionen (r-1)*(c-1) SSRC MSRC=SSRC/((r-1)*(c-1)) MSRC/MSE
Fehler r*c*(n-1) SSE MSE=SSE/(r*c*(n-1))
Gesamt *r*c*n-1 TSS

15.01.2008 Varianzanalyse/Pfeiffer 35
Balancierte Zweiweg ANOVA:
Streuungszerlegung
r c n
TSS = ∑∑∑ (Yijk − Y+ + + ) 2 =
i =1 j =1 k =1

= SSR + SSC + SSRC + SSE

15.01.2008 Varianzanalyse/Pfeiffer 36
Zwei- und Mehrweg ANOVA:
unballanziert
„ Keine Streuungszerlegung möglich
„ Lösung über lineare Regression
r −1 c −1 r −1 c −1
Y = μ + ∑ α i X i + ∑ β j Z j + ∑∑ γ ij X i Z j + E
i =1 j =1 i =1 j =1

„ Dummy Variables
„ Kodierung von k-Ausprägungen durch k-1
Dummy Variables Dummy Kodierung, 2 Beispiele
α1 α2 α3 α1 α2 α3
A1 0 0 0 0 0 0
A2 1 0 0 1 0 0
A3 0 1 0 1 1 0
A4 0 1 1 1 1 1

15.01.2008 Varianzanalyse/Pfeiffer 37
Quadratsummen
„ Typ I
„ Hierarchische Zerlegung der QS
„ Haupteffekt vor Wechselwirkungen 1.,2.,... Ordnung
„ Typ II
„ Effekte werden aneinander angepasst
„ Bei ausgeglichenen Modellen
„ Bei Modellen nur mit Haupteffekten
„ Typ III – Standard
„ Bei ausgeglichenen und unausgeglichenen Modellen ohne
leere Zellen
„ Invariant bezüglich Zellhäufigkeit
„ Typ IV
„ Auch bei Modellen mit leeren Zellen
15.01.2008 Varianzanalyse/Pfeiffer 38