Beruflich Dokumente
Kultur Dokumente
ANOVA
Einfache ANOVA
●
●
●
●
2000
●
●
●
●
Ausgaben
1500
1000
500
Beruf
In der Gästebefragung Österreich wurden insgesamt 14,571 Touristen befragt, die ihren
Sommerurlaub in Österreich verbracht haben. Zusätzlich zu bestimmten
soziodemografischen Daten wie Alter, Geschlecht, Beruf usw. wurden die Touristen
insbesonders nach bevorzugten Aktivitäten gefragt (Wandern, Theater, uva.) sowie nach
ihren Motiven für die Reise (Entspannung, Sport, Kultur, uva.).
Hier untersuchen wir die 387 befragten deutschen Touristen, die ihren Sommerurlaub in
Kärnten verbracht haben.
Frage: Von welchen Faktoren hängen die Ausgaben (pro Woche in EUR) im Urlaub ab? Ist
der Beruf relevant oder etwa das Geschlecht?
Deskriptive Methoden
Formal heißt dies, dass es eine abhängige metrische Variable Y und eine erklärende
kategoriale Variable X gibt, die die Gesamtstichprobe in mehrere Teilstichproben teilt.
Als deskriptive Methoden zur numerischen und grafischen Beschreibung können einfach die
entsprechenden 1-Stichprobenmethoden wiederbenutzt werden.
2500
●
●
●
●
2000
●
●
●
●
Ausgaben
1500
1000
500
Beruf
Das Testproblem
Nullhypothese: µA = µB (= µ)
Alternative: µA 6 = µB
kann man auch auffassen als ein Entscheidungsproblem zwischen zwei Modellen
M0 : Y =
( µ + (unabhängig von X )
µA + falls X = A
M1 : Y =
µB + falls X = B
wobei X die kategoriale Variable ist, nach der die Einteilung in Stichprobe A und B erfolgt.
Stammen die Daten aus Modell M0 , so ist der Mittelwert von Y nur eine Konstante
(symbolisch: Y ∼ 1). Die Schätzung des Mittelwerts erfolgt durch ȳ , die zugehörige
Fehlerquadratsumme ist:
n
X
RSS 0 = (yi − ȳ )2 = (n − 1) · sn2−1 .
i =1
Stammen die Daten aus Modell M1 , so hängt der Mittelwert von Y von der Variablen X ab
(symbolisch: Y ∼ X ). Die Schätzung erfolgt durch die Stichprobenmittelwerte ȳA bzw. ȳB ,
die zugehörige Fehlerquadratsumme ist:
nA
X nB
X
RSS 1 = (yA,i − ȳA )2 + (yB,i − ȳB )2
i =1 i =1
Das einfachere Modell M0 ist dabei ein Spezialfall des komplexeren Modells M1 , nämlich
genau für den Fall, dass µA = µB (Nullhypothese).
Weil M0 ein Spezialfall von M1 ist, kann die Fehlerquadratsumme von M1 nur kleiner sein,
d.h. RSS 1 ≤ RSS 0 .
Die Bewertung, ob der Unterschied zwischen RSS 0 und RSS 1 so stark ist, dass dafür die
Nullhypothese verworfen werden muss, erfolgt über einen sog. F -Test.
Den Wert der Teststatistik F wird berechnet durch
(RSS 0 − RSS 1 )/(df0 − df1 )
F = ,
RSS 1 /df1
wobei df (“degrees of freedom”) für Gesamtstichprobengröße minus der Anzahl der
geschätzten Parameter steht. Man müsste nun F mit einem Quantil einer passenden
F -Verteilung vergleichen, wir beschränken uns aber auf die Bewertung über den p-Wert.
Im 2-Stichprobenproblem ist der F -Test äquivalent zum zweiseitigen T -Test. Es gilt:
F = T 2.
Daher kann man in diesem Fall für F die kritische Größe aus den kritischen Größen der
T -Statistik herleiten:
1.962 = 3.84 bzw. (−1.96)2 = 3.84
bei einem Signifikanzniveau von 5%.
Institute for Statistics and Mathematics – WU Wien
c 2008–2015 PI Statistik – 6 – ANOVA – 14 / 97
ANOVA: Bestimmtheitsmaß
Eine Kennzahl, die den Unterschied zwischen RSS 0 und RSS 1 bewertet, ist das
Bestimmtheitsmaß:
Das Bestimmtheitsmaß gibt den Anteil der erklärten Varianz an, also den Anteil an RSS 0 ,
der durch den Übergang von einem gemeinsamen Mittelwert auf separate
Gruppenmittelwerte reduziert werden konnte.
● ●
3
2
1
0
−1
−2
Model 1: y ~ 1
Model 2: y ~ x
Res.Df RSS Df Sum of Sq F Pr(>F)
1 39 47.413
2 38 47.299 1 0.11476 0.0922 0.7631
Es gibt also keinen signifikanten Unterschied der Erwartungswerte (p ≈ 0.763). Das
Bestimmtheitsmaß (d.h. der Anteil der erklärten Varianz) ist:
RSS 1 47.299
B = 1− = 1− = 0.002.
RSS 0 47.413
8
6
4 Stichprobe A Stichprobe B Gesamtstichprobe
● ●
2
0
−2
8
6 Stichprobe A Stichprobe B Gesamtstichprobe
● ●
4
2
0
−2
●
6
4
2
0
−2
●
8
6
4
2
0
−2
Model 1: y ~ 1
Model 2: y ~ x
Res.Df RSS Df Sum of Sq F Pr(>F)
1 39 420.27
2 38 47.30 1 372.97 299.65 < 2.2e-16
Es gibt also einen signifikanten Unterschied in den Erwartungswerten (p ≈ 0). Das
Bestimmtheitsmaß (d.h. der Anteil der erklärten Varianz) ist:
RSS 1 47.299
B = 1− = 1− = 0.887.
RSS 0 420.269
Model 1: Ausgaben ~ 1
Model 2: Ausgaben ~ Gender
Res.Df RSS Df Sum of Sq F Pr(>F)
1 386 57018390
2 385 56898179 1 120211 0.8134 0.3677
2500
●
●
●
●
2000
●
● ●
Ausgaben
1500
1000
500
male female
Geschlecht
Das ANOVA-Prinzip kann – im Unterschied zum T-Test – auf mehr als 2 Stichproben
verallgemeinert werden.
RSS 0 wird auf Basis eines gemeinsamen Mittelwerts für die Gesamtstichprobe berechnet,
auf separaten Gruppenmittelwerten basiert RSS 1 .
Die Bewertung des Unterschieds zwischen RSS 0 und RSS 1 erfolgt via ANOVA-Tabelle und
F -Test.
Model 1: Ausgaben ~ 1
Model 2: Ausgaben ~ Beruf
Res.Df RSS Df Sum of Sq F Pr(>F)
1 386 57018390
2 383 52485169 3 4533221 11.027 5.851e-07
Zweifache ANOVA
●
2000
Ausgaben
●
500 1000
Beruf
Hier untersuchen wir die 240 befragten deutschen und holländischen Touristen, die ihren
Sommerurlaub in Kärnten verbracht haben.
Fragen: Von welchen Faktoren hängen die Ausgaben (pro Woche in EUR) im Urlaub ab?
Ist der Beruf relevant?
Ist das Herkunftsland relevant?
Sind Beruf und Herkunftsland relevant?
Formal heißt dies, dass es eine abhängige metrische und zwei erklärende kategoriale
Variablen (= unabhängige Variablen) gibt, die die Gesamtstichprobe in mehrere
Teilstichproben teilen.
Als deskriptive Methoden zur numerischen und grafischen Beschreibung können einfach die
entsprechenden 1-Stichprobenmethoden verwendet werden, allerdings entsprechend
gruppiert.
2500
2500
● ●
2000
2000
●
●
Ausgaben
Ausgaben
1500
1500
●
●
1000
1000
500
500
Angestellt Selbstaendig Deutschland Niederlande
Beruf Herkunftsland
Deutschland Niederlande
●
2000
Ausgaben
●
500 1000
Beruf
Gruppierte Verteilungsmaßzahlen:
Deutschland Niederlande
Angestellte ȳ 724.27 528.97
n 158 31
sy 301.80 285.40
Es gibt eine abhängige metrische Variable Y und zwei erklärende kategoriale Variablen (=
unabhängige Variablen) A und B.
Wir behandeln den Spezialfall, in dem die beiden kategorialen (qualitativen) Variablen
(Faktoren) jeweils nur zwei mögliche Ausprägungen (Kategorien, Faktorstufen) A1 , A2 bzw.
B1 , B2 annehmen können. Das ergibt 4 mögliche Kombinationen der Faktorausprägungen,
die die Daten y1 , . . . , yn in 4 Gruppen teilen.
Wie hängt Y = Bewertung von den Stufen der Faktoren A = Geschlecht und B =
Studium ab?
A (Geschlecht)
B (Studium) A1 A2
B1 60 60
B2 60 60
Alle vier Faktorkombinationen führen zur gleichen mittleren Bewertung, hier z.B. 60.
Die erwartete Bewertung hängt weder vom Faktor A (Geschlecht) noch vom Faktor B
(Studium) ab.
Ein passendes Modell ist daher eines in dem weder A noch B eine Rolle spielen
(Null-Modell). Symbolisch: Y ∼ 1.
Eine grafische Darstellung der Mittelwerttabelle sind Interaktionsplots. In ihnen werden
entweder für die Werte in den Zeilen oder für die Werte in den Spalten Linien in einem
Diagramm gebildet.
70
A
A2
Gruppenmittelwerte
65
A1
60
55
50
B1 B2
A (Geschlecht)
B (Studium) A1 A2
B1 55 65
B2 55 65
Der mittlere Bewertung hängt nur vom Faktor A (Geschlecht) ab: Studenten (männlich,
Stufe A2) bewerten durchschnittlich um 10 Punkte besser als Studentinnen (A1)
unabhängig von der Ausprägung von B.
Faktor B (Studium) hat keinen Effekt: Die erwartete Bewertung ist gleich für alle Stufen des
Faktors B (gegeben die Ausprägung von A).
A B
64
64
A2 B2
A1 B1
Gruppenmittelwerte
Gruppenmittelwerte
62
62
60
60
58
58
56
56
B1 B2 A1 A2
B A
A (Geschlecht)
B (Studium) A1 A2
B1 50 50
B2 60 60
Der mittlere Bewertung hängt nur vom Faktor B (Studium) ab: BW-Studierende (Stufe B2)
bewerten im Vergleich zu Jus-Studierenden (B1) um 10 Punkte besser (unabhängig von der
Ausprägung von A).
Faktor A (Geschlecht) hat keinen Effekt: Die erwartete Bewertung ist gleich für alle Stufen
des Faktors A (gegeben die Ausprägung von B).
60
60
A B
A1 B2
58
58
A2 B1
Gruppenmittelwerte
Gruppenmittelwerte
56
56
54
54
52
52
50
50
B1 B2 A1 A2
B A
A (Geschlecht)
B (Studium) A1 A2
B1 50 60
B2 65 75
Die mittlere Bewertung hängt von Faktor A (Geschlecht) und Faktor B (Studium) ab (jeder
Faktor wirkt getrennt).
75
75
A B
A2 B2
70
70
A1 B1
Gruppenmittelwerte
Gruppenmittelwerte
65
65
60
60
55
55
50
50
B1 B2 A1 A2
B A
A (Geschlecht)
B (Studium) A1 A2
B1 50 70
B2 65 55
Die mittlere Bewertung hängt von Faktor A (Geschlecht) und Faktor B (Studium) ab, beide
Faktoren wirken jedoch kombiniert anders als jeder Faktor für sich allein (Wechselwirkung
zwischen A und B).
Jus (Stufe B1) wird von Studentinnen (Stufe A1) schlechter bewertet als von Studenten
(Stufe A2), der Unterschied beträgt durchschnittlich 20 Punkte.
Bei BW (Stufe B2) ist es gerade umgekehrt, Studentinnen bewerten durchschnittlich besser
als Studenten.
Ein passendes Modell enthält daher die beiden Faktoren und deren Wechselwirkung
Interaktionsmodell. Symbolisch: Y ∼ A ∗ B.
Institute for Statistics and Mathematics – WU Wien
c 2008–2015 PI Statistik – 6 – ANOVA – 55 / 97
5. Fall: Interaktion A und B
70
70
A B
A1 B1
A2 B2
65
65
Gruppenmittelwerte
Gruppenmittelwerte
60
60
55
55
50
50
B1 B2 A1 A2
B A
B1 B2
A1 32 32
A2 37 49
Eine der zwei gegebenen Grafiken ist der zugehörige Interaktionsplot:
Plot 1 Plot 2
50
50
B B
B2 B2
B1 B1
45
45
Mittelwerte
Mittelwerte
40
40
35
35
30
30
A1 A2 A1 A2
A A
Modellselektion
Modellwahl: Welches der im vorigen Abschnitt vorgestellten Modelle passt am besten zur
gegebenen Stichprobe?
Es stehen 5 Modelle mit zunehmenden Komplexitätsgrad zur Auswahl:
Modellname Modellformel
M0 Y ∼1
MA Y ∼A
MB Y ∼B
MA+B Y ∼A+B
MA∗B Y ∼A∗B
Als Kriterium für die Güte der Anpassung eines Modells wird die Fehlerquadratsummme
RSS verwendet.
Zu jedem Modell kann eine passende Fehlerquadratsumme berechnet werden. Sie gibt an,
wie stark die Daten vom jeweiligen Modell abweichen.
Es gilt die Ungleichungskette (in konkreten Beispielen gilt fast immer < statt ≤):
Es wäre falsch, prinzipiell das Modell MA∗B auszuwählen, nur weil die Fehlerquadratsumme
für dieses Modell am kleinsten ist.
Es wird nur dann gewählt, wenn die Unterschiede in der Fehlerquadratsumme zu den
anderen Modellen wesentlich kleiner sind. Die Beurteilung, was eine wesentlich kleinere
Fehlerquadratsumme ist, erfolgt über einen F -Test im Rahmen der ANOVA.
Zwei Modelle können wieder mit Hilfe ihrer Fehlerquadratsummen RSS in einer
Varianzanalyse (ANOVA) verglichen werden.
Die allgemeine Vorgangsweise ist:
Das Modell der Nullhypothese ist im Modell der Alternativhypothese als Sonderfall
enthalten, z.B. H0 : Y ∼ A, HA : Y ∼ A + B.
Das einfachere Modell hat die Fehlerquadratsumme RSS 0 , das komplexere Modell hat die
Fehlerquadratsumme RSS 1 .
Mit Hilfe der F -Größe aus der ANOVA wird der Unterschied in den Fehlerquadratsummen
überprüft. Anhand des zugehörigen p-Wertes kann entschieden werden, ob der
Unterschied signifikant ist. Falls ja, wird das Modell der Alternativhypothese gewählt. Falls
nicht, wird das Modell der Nullhypothese beibehalten.
Die 5 Modelle können übersichtlich in einem Baum angeordnet werden, in dem die
Modellkomplexität von oben nach unten abnimmt und darüberliegende Modelle immer die
darunterliegenden umfassen.
Y~A*B
Y~A+B
Y~A Y~B
Y~1
Vorgangsweise: Man startet mit dem komplexesten Modell und vereinfacht dieses solange,
bis der Verlust an Erklärungswert zu groß wird. Dazu geht man im Baum von oben nach
unten (Rückwärtsselektion, backward selection).
Eine Untersuchung mit einer abhängigen metrischen Variablen Y und zwei Faktoren A und
B mit je 2 Faktorstufen lieferte folgende Mittelwertstabelle und folgenden Interaktionsplot:
B1 B2
A1 39.82 39.47
A2 39.36 40.35
50
B
B2
B1
45
Gruppenmittelwerte
40
35
30
A1 A2
Y~A*B
RSS: 585.278
Y~A+B
RSS: 594.174
Y~A Y~B
RSS: 596.190 RSS: 595.060
Y~1
RSS: 597.076
Y~A*B
RSS: 585.278
0.28586
Y~A+B
RSS: 594.174
Y~A Y~B
RSS: 596.190 RSS: 595.060
Y~1
RSS: 597.076
Model 1: Y ~ A + B
Model 2: Y ~ A * B
Res.Df RSS Df Sum of Sq F Pr(>F)
1 77 594.17
2 76 585.28 1 8.8962 1.1552 0.2859
Y~A*B
RSS: 585.278
Y~A+B
RSS: 594.174
0.61074
Y~A Y~B
RSS: 596.190 RSS: 595.060
Y~1
RSS: 597.076
Model 1: Y ~ A
Model 2: Y ~ A + B
Res.Df RSS Df Sum of Sq F Pr(>F)
1 78 596.19
2 77 594.17 1 2.0158 0.2612 0.6107
Der p-Wert ist größer als 0.05 (= α) und daher nicht signifikant.
Daher ist die Reduktion vom Modell mit beiden Haupteffekten (HA : Modell 2) auf das
Modell nur mit Haupteffekt A (H0 : Modell 1) zulässig.
Y~A*B
RSS: 585.278
Y~A+B
RSS: 594.174
0.73557
Y~A Y~B
RSS: 596.190 RSS: 595.060
Y~1
RSS: 597.076
Model 1: Y ~ B
Model 2: Y ~ A + B
Res.Df RSS Df Sum of Sq F Pr(>F)
1 78 595.06
2 77 594.17 1 0.8865 0.1149 0.7356
Der p-Wert ist größer als 0.05 (= α) und daher nicht signifikant.
Daher ist die Reduktion vom Modell mit beiden Haupteffekten (HA : Modell 2) auf das
Modell nur mit Haupteffekt B (H0 : Modell 1) zulässig.
Y~A*B
RSS: 585.278
Y~A+B
RSS: 594.174
Y~A Y~B
RSS: 596.190 RSS: 595.060
0.73435
Y~1
RSS: 597.076
Model 1: Y ~ 1
Model 2: Y ~ A
Res.Df RSS Df Sum of Sq F Pr(>F)
1 79 597.08
2 78 596.19 1 0.8865 0.116 0.7343
Der p-Wert ist größer als 0.05 (= α) und daher nicht signifikant.
Daher ist die Reduktion vom Modell mit Haupteffekt A (HA : Modell 2) auf das
Null-Modell (H0 : Modell 1) zulässig.
Y~A*B
RSS: 585.278
Y~A+B
RSS: 594.174
Y~A Y~B
RSS: 596.190 RSS: 595.060
0.60868
Y~1
RSS: 597.076
Model 1: Y ~ 1
Model 2: Y ~ B
Res.Df RSS Df Sum of Sq F Pr(>F)
1 79 597.08
2 78 595.06 1 2.0158 0.2642 0.6087
Der p-Wert ist größer als 0.05 (= α) und daher nicht signifikant.
Daher ist die Reduktion vom Modell mit Haupteffekt B (HA : Modell 2) auf das
Null-Modell (H0 : Modell 1) zulässig.
Y~A*B
RSS: 585.278
0.28586
Y~A+B
RSS: 594.174
0.61074 0.73557
Y~A Y~B
RSS: 596.190 RSS: 595.060
0.73435 0.60868
Y~1
RSS: 597.076
Abhängige Variable: invest Investitionen der Betriebe in den letzten zwei Jahren (in 1000
Euro).
500
400
300
ja nein ja nein
Mittelwertstabelle
Nord Sued
ja 560 548
nein 489 466
560
region
540 Nord
Sued
Mittlere Investionen
520
500
480
ja nein
wellness
0.82654
0.4939296 0.0050248
0.0037796 0.3556620
invest ~ 1
RSS: 656512.60
Die Interaktion ist nicht signifikant (p = 0.8265), d.h. das Modell kann vereinfacht werden.
Es ist zulässig, vom Modell invest ∼ wellness ∗ region auf das einfachere Modell
invest ∼ wellness + region überzugehen.
Auch der Haupteffekt region ist nicht signifikant (p = 0.4939) und könnte weggelassen
werden.
Der Haupteffekt wellness ist signifikant (p = 0.005) und kann nicht weggelassen werden.
Folgerung aus 2a und 2b: Das Modell invest ∼ wellness + region kann zu Modell
invest ∼ wellness vereinfacht werden.
Model 1: invest ~ 1
Model 2: invest ~ wellness
Res.Df RSS Df Sum of Sq F Pr(>F)
1 59 656513
2 58 567424 1 89089 9.1064 0.00378
Der Haupteffekt wellness ist signifikant (p = 0.0038) und kann nicht weggelassen werden.
Stop: Keine weitere Vereinfachung ist möglich, es wird das Modell invest ∼ wellness
gewählt. Aus der Mittelwertstabelle, dem Box- oder Interaktionsplot kann geschlossen
werden, dass Wellnessinvestionen durchschnittlich höher sind.
B2
60
B1
Gruppenmittelwerte
50
40
30
20
A1 A2
Y~A*B
RSS: 40.00
0.17646
Y~A+B
RSS: 45.00
Y~A Y~B
RSS: 4850.00 RSS: 2250.00
1.0390e−02 7.5018e−06
Y~1
RSS: 7055.00
Touristen: Modellselektion
Von welchen Faktoren hängen die Ausgaben (pro Woche in EUR) im Urlaub ab?
Ist keiner der beiden Faktoren Beruf bzw. Herkunftsland relevant für die Ausgaben?
Ist nur der Beruf relevant für die Ausgaben?
Ist nur das Herkunftsland relevant für die Ausgaben?
Sind Beruf und Herkunftsland relevant für die Ausgaben?
Sind Beruf und Herkunftsland relevant und gibt es auch eine Wechselwirkung zwischen
den beiden?
Land
1000
Durchschnittliche Ausgaben
Deutschland
Niederlande
900
800
700
600
500
Angestellt Selbstaendig
Beruf
Der Interaktionsplot legt die Vermutung nahe, dass ein Interaktionsmodell zutreffen könnte.
Die Interaktion ist signifikant (p = 0.002 < 0.05), daher kann keine Reduktion vom
komplexeren Modell Ausgaben ∼ Land ∗ Beruf zum einfacheren Modell Ausgaben ∼
Land + Beruf vorgenommen werden.
Interpretation: Die Differenz zwischen den mittleren Ausgaben der Angestellten und der
Selbständigen ist bei den deutschen und den niederländischen Touristen unterschiedlich.
Mittelwertstabelle
Angestellt Selbstaendig
Deutschland 724.3 1074.1
Niederlande 529.0 483.5