Folien 06

Kapitel 6
ANOVA
Institute for Statistics and Mathematics – WU Wien

c 2008–2015 PI Statistik – 6 – ANOVA – 0 / 97
ANOVA
ANOVA steht für “Analysis of Variance” (Varianzanalyse, Streuungszerlegung).
Sie wird in diesem Kapitel eingesetzt, um Mittelwerte in mehreren Gruppen zu vergleichen.

Werden die Gruppen über eine kategoriale Variable definiert:
Einfache Varianzanalyse
Beispiel: Ausgaben von Touristen in Abhängigkeit von Beruf oder von Geschlecht
Werden die Gruppen über zwei kategoriale Variablen definiert:
Zweifache Varianzanalyse
Beispiel: Ausgaben von Touristen in Abhängigkeit von Beruf und Herkunftsland

[ ANOVA ]
Einfache ANOVA

[ ANOVA ]
Einleitung: Touristen in Kärnten

Touristen in Kärnten
Von welchen Faktoren hängen die Urlaubsausgaben ab?
2500
●
●
●
●
2000
●
●
●
●
Ausgaben
1500
1000
500
Angestellt Leit.Angest. Pensionist Selbstaendig
Beruf

Daten
In der Gästebefragung Österreich wurden insgesamt 14,571 Touristen befragt, die ihren
Sommerurlaub in Österreich verbracht haben. Zusätzlich zu bestimmten
soziodemografischen Daten wie Alter, Geschlecht, Beruf usw. wurden die Touristen
insbesonders nach bevorzugten Aktivitäten gefragt (Wandern, Theater, uva.) sowie nach
ihren Motiven für die Reise (Entspannung, Sport, Kultur, uva.).
Hier untersuchen wir die 387 befragten deutschen Touristen, die ihren Sommerurlaub in
Kärnten verbracht haben.
Frage: Von welchen Faktoren hängen die Ausgaben (pro Woche in EUR) im Urlaub ab? Ist
der Beruf relevant oder etwa das Geschlecht?
Quelle: Gästebefragung Österreich, http://www.tourmis.info/.

[ ANOVA ]
Deskriptive Methoden

Datenstruktur
Formal heißt dies, dass es eine abhängige metrische Variable Y und eine erklärende
kategoriale Variable X gibt, die die Gesamtstichprobe in mehrere Teilstichproben teilt.
Ausgaben Beruf Gender

1 925 Pensionist male
3 1550 Leit.Angest. female
5 568 Angestellt male
Als deskriptive Methoden zur numerischen und grafischen Beschreibung können einfach die
entsprechenden 1-Stichprobenmethoden wiederbenutzt werden.
Parallele Boxplots sind meist übersichtlicher als multiple Histogramme.

Numerische Beschreibung
durch gruppierte Verteilungsmaßzahlen:
Angest. L. Angest. Pens. Selbst. Gesamt

n 158 82 107 40 387
ȳ 724.27 897.34 809.49 1074.12 820.66
Q0.5 660 801 729 1062 748
sn−1 301.80 443.21 378.18 427.10 384.34
QD 418.25 577.00 422.00 473.50 513.00
Min 221 308 137 370 137
Max 1422 2445 2235 2606 2606

Grafische Beschreibung: Parallele Boxplots
2500
●
●
●
●
2000
●
●
●
●
Ausgaben
1500
1000
500
Angestellt Leit.Angest. Pensionist Selbstaendig
Beruf

[ ANOVA ]
ANOVA für das 2-Stichprobenproblem

ANOVA: Hypothesen – Modelle
Das Testproblem
Nullhypothese: µA = µB (= µ)
Alternative: µA 6 = µB
kann man auch auffassen als ein Entscheidungsproblem zwischen zwei Modellen
M0 : Y =
( µ + (unabhängig von X )
µA + falls X = A
M1 : Y =
µB + falls X = B
wobei X die kategoriale Variable ist, nach der die Einteilung in Stichprobe A und B erfolgt.

ANOVA: Fehlerquadratsummen
Stammen die Daten aus Modell M0 , so ist der Mittelwert von Y nur eine Konstante
(symbolisch: Y ∼ 1). Die Schätzung des Mittelwerts erfolgt durch ȳ , die zugehörige
Fehlerquadratsumme ist:
n
X
RSS 0 = (yi − ȳ )2 = (n − 1) · sn2−1 .
i =1
Stammen die Daten aus Modell M1 , so hängt der Mittelwert von Y von der Variablen X ab
(symbolisch: Y ∼ X ). Die Schätzung erfolgt durch die Stichprobenmittelwerte ȳA bzw. ȳB ,
die zugehörige Fehlerquadratsumme ist:
nA
X nB
X
RSS 1 = (yA,i − ȳA )2 + (yB,i − ȳB )2
i =1 i =1
= (nA − 1) · sA2 ,n−1 + (nB − 1) · sB2 ,n−1 .

ANOVA: Fehlerquadratsummen
Das einfachere Modell M0 ist dabei ein Spezialfall des komplexeren Modells M1 , nämlich
genau für den Fall, dass µA = µB (Nullhypothese).
Weil M0 ein Spezialfall von M1 ist, kann die Fehlerquadratsumme von M1 nur kleiner sein,
d.h. RSS 1 ≤ RSS 0 .
Frage: Ist RSS 1 deutlich kleiner als RSS 0 oder nicht?

Ist die Reststreuung RSS 1 viel kleiner als die Gesamtstreuung RSS 0 , haben die
Stichproben unterschiedliche Mittel → verwerfe Nullhypothese und verwende M1 .
Ist die Summe der Reststreuungen RSS 1 nicht viel kleiner als die Gesamtstreuung
RSS 0 , reicht ein Mittel für beide Stichproben aus → behalte Nullhypothese bei und
verwende M0 .

ANOVA: F -Test
Die Bewertung, ob der Unterschied zwischen RSS 0 und RSS 1 so stark ist, dass dafür die
Nullhypothese verworfen werden muss, erfolgt über einen sog. F -Test.
Den Wert der Teststatistik F wird berechnet durch
(RSS 0 − RSS 1 )/(df0 − df1 )
F = ,
RSS 1 /df1
wobei df (“degrees of freedom”) für Gesamtstichprobengröße minus der Anzahl der
geschätzten Parameter steht. Man müsste nun F mit einem Quantil einer passenden
F -Verteilung vergleichen, wir beschränken uns aber auf die Bewertung über den p-Wert.
Im 2-Stichprobenproblem ist der F -Test äquivalent zum zweiseitigen T -Test. Es gilt:
F = T 2.
Daher kann man in diesem Fall für F die kritische Größe aus den kritischen Größen der
T -Statistik herleiten:
1.962 = 3.84 bzw. (−1.96)2 = 3.84
bei einem Signifikanzniveau von 5%.
ANOVA: Bestimmtheitsmaß
Eine Kennzahl, die den Unterschied zwischen RSS 0 und RSS 1 bewertet, ist das
Bestimmtheitsmaß:
RSS 1 RSS 0 − RSS 1

B = 1− =
RSS 0 RSS 0
Das Bestimmtheitsmaß gibt den Anteil der erklärten Varianz an, also den Anteil an RSS 0 ,
der durch den Übergang von einem gemeinsamen Mittelwert auf separate
Gruppenmittelwerte reduziert werden konnte.

ANOVA: Beispiel mit geringen Unterschieden zwischen A und B
Stichprobe A Stichprobe B Gesamtstichprobe
● ●
3
2
1
0
−1
−2
RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 47.413

Um zu überprüfen, ob die Fehlerquadratsumme bei Schätzung von zwei Mittelwerten

signifikant kleiner ist, kann man eine ANOVA-Tabelle benutzen:
Res.Df RSS Df Sum of Sq F Pr(>F)

1 n−1 RSS 0
2 n−2 RSS 1 1 RSS 0 − RSS 1 F p-Wert

Um zu überprüfen, ob die Fehlerquadratsumme bei Schätzung von zwei Mittelwerten

signifikant kleiner ist, kann man eine ANOVA-Tabelle benutzen:
Analysis of Variance Table
Model 1: y ~ 1
Model 2: y ~ x
1 39 47.413
2 38 47.299 1 0.11476 0.0922 0.7631
Es gibt also keinen signifikanten Unterschied der Erwartungswerte (p ≈ 0.763). Das
Bestimmtheitsmaß (d.h. der Anteil der erklärten Varianz) ist:
RSS 1 47.299
B = 1− = 1− = 0.002.
RSS 0 47.413

8
6
4 Stichprobe A Stichprobe B Gesamtstichprobe
● ●
2
0
−2
RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 47.413

ANOVA: Beispiel mit stärkeren Unterschieden zwischen A und B
8
● ●
4
2
0
−2
RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 91.699

ANOVA: Beispiel mit noch stärkeren Unterschieden zwischen A und B
●
6
4
2
0
−2
RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 215.984

ANOVA: Beispiel mit sehr starken Unterschieden zwischen A und B
Stichprobe A Stichprobe B Gesamtstichprobe
●
8
6
4
2
0
−2
RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 420.269

ANOVA: Beispiel mit sehr starken Unterschieden zwischen A und B
Ein Blick auf die ANOVA-Tabelle:

Model 1: y ~ 1
Model 2: y ~ x
1 39 420.27
2 38 47.30 1 372.97 299.65 < 2.2e-16
Es gibt also einen signifikanten Unterschied in den Erwartungswerten (p ≈ 0). Das
Bestimmtheitsmaß (d.h. der Anteil der erklärten Varianz) ist:
RSS 1 47.299
B = 1− = 1− = 0.887.
RSS 0 420.269

Beispiel: Touristen in Kärnten
Model 1: Ausgaben ~ 1
Model 2: Ausgaben ~ Gender
1 386 57018390
2 385 56898179 1 120211 0.8134 0.3677

Die Teststatistik ist kleiner als 6. richtig

Es wurde eine einseitige Alternative getestet. falsch
Das Bestimmtheitsmaß ist größer als 20%. falsch
Es kann nachgewiesen werden, dass sich die Ausgaben zwischen den
Geschlechtergruppen unterscheiden. falsch
Das Bestimmtheitsmaß ist kleiner als 10%. richtig

Die Teststatistik ist kleiner als 6. richtig

Es wurde eine einseitige Alternative getestet. falsch
Es kann nachgewiesen werden, dass sich die Ausgaben zwischen den
Geschlechtergruppen unterscheiden. falsch
Das Bestimmtheitsmaß ist kleiner als 10%. richtig (B = 0.002)

2500
●
●
●
●
2000
●
● ●
Ausgaben
1500
1000
500
male female
Geschlecht

[ ANOVA ]
ANOVA für das k - Stichprobenproblem

ANOVA bei k -Stichproben
Das ANOVA-Prinzip kann – im Unterschied zum T-Test – auf mehr als 2 Stichproben
verallgemeinert werden.
Nullhypothese: alle Stichprobenerwartungswerte sind gleich

µA = µB = µC = . . .
Alternative: mindestens ein Stichprobenerwartungswert
unterscheidet sich von den übrigen
RSS 0 wird auf Basis eines gemeinsamen Mittelwerts für die Gesamtstichprobe berechnet,
auf separaten Gruppenmittelwerten basiert RSS 1 .
Die Bewertung des Unterschieds zwischen RSS 0 und RSS 1 erfolgt via ANOVA-Tabelle und
F -Test.

Beispiel: k -Stichproben ANOVA
Unterschiede der mittleren Urlaubsausgaben zwischen Angestellten, leit. Angestellten,

Pensionisten und Selbständigen:
Angest. L. Angest. Pens. Selbst. Gesamt

n 158 82 107 40 387
ȳ 724.27 897.34 809.49 1074.12 820.66
sn−1 301.80 443.21 378.18 427.10 384.34
Welcher Anteil der Gesamtstreuung kann auf Mittelwertunterschiede zwischen den

Berufsgruppen zurückgeführt werden?

RSS 0 = (387 − 1) · 384.342 = 57018852.9
RSS 1 = (158 − 1) · 301.802 + (82 − 1) · 443.212 +

(107 − 1) · 378.182 + (40 − 1) · 427.102
= 52485606
RSS 1 52485606
1− = 1− = 0.08
RSS 0 57018852.9
8% der Gesamtstreuung kann durch Mittelwertunterschiede zwischen den Berufsgruppen

erklärt werden.

Model 1: Ausgaben ~ 1
Model 2: Ausgaben ~ Beruf
1 386 57018390
2 383 52485169 3 4533221 11.027 5.851e-07

Die Teststatistik ist kleiner als 8. falsch

Es wurde eine zweiseitige Alternative getestet. richtig
Es kann nachgewiesen werden, dass sich die Ausgaben zwischen den Berufsgruppen
unterscheiden. richtig
Das Bestimmtheitsmaß ist kleiner als 50%. richtig

Die Teststatistik ist kleiner als 8. falsch

Es wurde eine zweiseitige Alternative getestet. richtig
Es kann nachgewiesen werden, dass sich die Ausgaben zwischen den Berufsgruppen
unterscheiden. richtig
Das Bestimmtheitsmaß ist kleiner als 50%. richtig (B = 0.08)

R.A. Fisher und F -Verteilung
Die Varianzanalyse geht zurück auf den bedeutenden

Genetiker und Statistiker Ronald Aylmer Fisher (1890
- 1962), einen der einflussreichsten Forscherpersön-
lichkeiten der ersten Hälfte des 20. Jahrhunderts, mit
Beiträgen u.A. zur Schätztheorie, Versuchsplanung und
Diskriminanzanalyse.
Ihm zu Ehren wurde die in der ANOVA immer wieder
eingesetzte Verteilungsfamilie als F -Verteilung (Fisher-
Verteilung) benannt.

[ ANOVA ]
Zweifache ANOVA

Von welchen Faktoren (bspw. Beruf, Herkunftsland) hängen die Urlaubsausgaben ab?
Deutschland Niederlande
●
2000
Ausgaben
●
500 1000
Angestellt Selbstaendig Angestellt Selbstaendig
Beruf

Daten
Wir verwenden wieder den Touristen-Datensatz, jedoch einen spezielleren Teildatensatz.

In der Gästebefragung Österreich wurden insgesamt 14,571 Touristen befragt.
Hier untersuchen wir die 240 befragten deutschen und holländischen Touristen, die ihren
Sommerurlaub in Kärnten verbracht haben.
Fragen: Von welchen Faktoren hängen die Ausgaben (pro Woche in EUR) im Urlaub ab?
Ist der Beruf relevant?
Ist das Herkunftsland relevant?
Sind Beruf und Herkunftsland relevant?
Quelle: Gästebefragung Österreich, http://www.tourmis.info/.

Datenstruktur
Formal heißt dies, dass es eine abhängige metrische und zwei erklärende kategoriale
Variablen (= unabhängige Variablen) gibt, die die Gesamtstichprobe in mehrere
Teilstichproben teilen.
Ausgaben Beruf Land

9491 486 Angestellt Niederlande
9509 322 Angestellt Deutschland
9517 355 Selbstaendig Niederlande
9518 762 Angestellt Niederlande
Als deskriptive Methoden zur numerischen und grafischen Beschreibung können einfach die
entsprechenden 1-Stichprobenmethoden verwendet werden, allerdings entsprechend
gruppiert.

Ausgaben erklärt durch Beruf oder Herkunftsland
2500
2500
● ●
2000
2000
●
●
Ausgaben
Ausgaben
1500
1500
●
●
1000
1000
500
500
Angestellt Selbstaendig Deutschland Niederlande
Beruf Herkunftsland

Ausgaben erklärt durch Beruf und Herkunftsland
●
2000
Ausgaben
●
500 1000
Angestellt Selbstaendig Angestellt Selbstaendig
Beruf

Numerische Beschreibung
Gruppierte Verteilungsmaßzahlen:
Angestellte ȳ 724.27 528.97
n 158 31
sy 301.80 285.40
Selbständige ȳ 1074.12 483.55

n 40 11
sy 427.10 236.99

[ ANOVA ]
Gruppenmittelwerte, Interaktionsplots und

Modelle

Gruppenmittelwerte in Abhängigkeit von 2 Faktoren
Es gibt eine abhängige metrische Variable Y und zwei erklärende kategoriale Variablen (=
unabhängige Variablen) A und B.
Wir behandeln den Spezialfall, in dem die beiden kategorialen (qualitativen) Variablen
(Faktoren) jeweils nur zwei mögliche Ausprägungen (Kategorien, Faktorstufen) A1 , A2 bzw.
B1 , B2 annehmen können. Das ergibt 4 mögliche Kombinationen der Faktorausprägungen,
die die Daten y1 , . . . , yn in 4 Gruppen teilen.
Im Folgenden verwenden wir ein hypothetisches Beispiel, um mögliche Problemstellungen

zu erläutern:
Es wird angenommen, dass die Gruppenmittelwerte von Y für alle Gruppen
(Faktorkombinationen) bekannt sind.
Um das Verständnis zu erleichtern, werden für A und B konkrete Faktoren und für die
Gruppenmittel konkrete Werte gewählt.

Hypothetisches Beispiel: Uni-Bewertung
Studierende bewerten ihre Uni.

Auf Basis mehrerer Teilkriterien kann eine maximale Punktezahl von 100 erreicht
werden.
Es wird zwischen A = Geschlecht und B = Studium unterschieden:
Faktor Stufe 1 Stufe 2
A = Geschlecht A1 = Frau A2 = Mann
B = Studium B1 = Jus B2 = BW
Wie hängt Y = Bewertung von den Stufen der Faktoren A = Geschlecht und B =
Studium ab?

Hypothetisches Beispiel: Uni-Bewertung
Von welchen Faktoren hängt die Uni-Bewertung ab?

Ist weder das Geschlecht noch das Studium relevant?
Ist zwar das Geschlecht relevant, aber nicht das Studium?
Oder umgekehrt, ist zwar das Studium relevant, aber nicht das Geschlecht?
Es sind sowohl Geschlecht als auch Studium bedeutsam?
Und zwar in dem Sinn, dass beide Faktoren, also Geschlecht und Studium, (jeder für sich)
wirksam sind,
oder Geschlecht und Studium kombiniert andere Auswirkungen zeigen als die Summe der
Einzeleffekte.

1. Fall: kein Effekt von A oder B
A (Geschlecht)
B (Studium) A1 A2
B1 60 60
B2 60 60
Alle vier Faktorkombinationen führen zur gleichen mittleren Bewertung, hier z.B. 60.
Die erwartete Bewertung hängt weder vom Faktor A (Geschlecht) noch vom Faktor B
(Studium) ab.
Ein passendes Modell ist daher eines in dem weder A noch B eine Rolle spielen
(Null-Modell). Symbolisch: Y ∼ 1.
Eine grafische Darstellung der Mittelwerttabelle sind Interaktionsplots. In ihnen werden
entweder für die Werte in den Zeilen oder für die Werte in den Spalten Linien in einem
Diagramm gebildet.

1. Fall: kein Effekt von A oder B
70
A
A2
Gruppenmittelwerte
65
A1
60
55
50
B1 B2

2. Fall: Haupteffekt A
A (Geschlecht)
B (Studium) A1 A2
B1 55 65
B2 55 65
Der mittlere Bewertung hängt nur vom Faktor A (Geschlecht) ab: Studenten (männlich,
Stufe A2) bewerten durchschnittlich um 10 Punkte besser als Studentinnen (A1)
unabhängig von der Ausprägung von B.
Faktor B (Studium) hat keinen Effekt: Die erwartete Bewertung ist gleich für alle Stufen des
Faktors B (gegeben die Ausprägung von A).
Ein passendes Modell enthält daher nur den Haupteffekt A. Symbolisch: Y ∼ A.

2. Fall: Haupteffekt A
A B
64
64
A2 B2
A1 B1
Gruppenmittelwerte
Gruppenmittelwerte
62
62
60
60
58
58
56
56
B1 B2 A1 A2
B A

3. Fall: Haupteffekt B
A (Geschlecht)
B (Studium) A1 A2
B1 50 50
B2 60 60
Der mittlere Bewertung hängt nur vom Faktor B (Studium) ab: BW-Studierende (Stufe B2)
bewerten im Vergleich zu Jus-Studierenden (B1) um 10 Punkte besser (unabhängig von der
Ausprägung von A).
Faktor A (Geschlecht) hat keinen Effekt: Die erwartete Bewertung ist gleich für alle Stufen
des Faktors A (gegeben die Ausprägung von B).
Ein passendes Modell enthält daher nur den Haupteffekt B. Symbolisch: Y ∼ B.

3. Fall: Haupteffekt B
60
60
A B
A1 B2
58
58
A2 B1
Gruppenmittelwerte
Gruppenmittelwerte
56
56
54
54
52
52
50
50
B1 B2 A1 A2
B A

4. Fall: beide Haupteffekte A + B
A (Geschlecht)
B (Studium) A1 A2
B1 50 60
B2 65 75
Die mittlere Bewertung hängt von Faktor A (Geschlecht) und Faktor B (Studium) ab (jeder
Faktor wirkt getrennt).
Die Bewertungen von Studentinnen (Stufe A1) sind durchschnittlich um 10 Punkte

schlechter als die ihrer männlichen Kollegen (unabhängig von der Ausprägung von B).
Studierende der BW (Stufe B2) bewerten durchschnittlich um 15 Punkte besser als
Jus-Studierende (unabhängig von der Ausprägung von A).
Ein passendes Modell enthält daher beide Haupteffekte A und B. Symbolisch: Y ∼ A + B.

4. Fall: beide Haupteffekte A + B
75
75
A B
A2 B2
70
70
A1 B1
Gruppenmittelwerte
Gruppenmittelwerte
65
65
60
60
55
55
50
50
B1 B2 A1 A2
B A

5. Fall: Interaktion A und B
A (Geschlecht)
B (Studium) A1 A2
B1 50 70
B2 65 55
Die mittlere Bewertung hängt von Faktor A (Geschlecht) und Faktor B (Studium) ab, beide
Faktoren wirken jedoch kombiniert anders als jeder Faktor für sich allein (Wechselwirkung
zwischen A und B).
Jus (Stufe B1) wird von Studentinnen (Stufe A1) schlechter bewertet als von Studenten
(Stufe A2), der Unterschied beträgt durchschnittlich 20 Punkte.
Bei BW (Stufe B2) ist es gerade umgekehrt, Studentinnen bewerten durchschnittlich besser
als Studenten.
Ein passendes Modell enthält daher die beiden Faktoren und deren Wechselwirkung
Interaktionsmodell. Symbolisch: Y ∼ A ∗ B.
5. Fall: Interaktion A und B
70
70
A B
A1 B1
A2 B2
65
65
Gruppenmittelwerte
Gruppenmittelwerte
60
60
55
55
50
50
B1 B2 A1 A2
B A
Gibt es eine Wechselwirkung zwischen A und B, verlaufen die Strecken im Interaktionsplot

nicht parallel.
Beispiel: Zuordnung Tabelle, Plots und Modell
B1 B2
A1 32 32
A2 37 49
Eine der zwei gegebenen Grafiken ist der zugehörige Interaktionsplot:
Plot 1 Plot 2
50
50
B B
B2 B2
B1 B1
45
45
Mittelwerte
Mittelwerte
40
40
35
35
30
30
A1 A2 A1 A2
A A

Die Mittelwertstabelle passt zu Plot 1. falsch falsch

Die Mittelwertstabelle passt zum Modell Y ∼ A ∗ B. richtig richtig
Von Stufe A1 zu Stufe A2 von Faktor A gibt es einen starken Anstieg in den
Mittelwerten. Bei Faktor B ist das auch der Fall. falsch falsch
Die Mittelwertstabelle passt zum Modell Y ∼ B. falsch falsch
Die Mittelwertstabelle passt zu Plot 2. richtig richtig

Die Mittelwertstabelle passt zu Plot 1. falsch

Die Mittelwertstabelle passt zum Modell Y ∼ A ∗ B. richtig
Von Stufe A1 zu Stufe A2 von Faktor A gibt es einen starken Anstieg in den
Mittelwerten. Bei Faktor B ist das auch der Fall. falsch
Die Mittelwertstabelle passt zum Modell Y ∼ B. falsch
Die Mittelwertstabelle passt zu Plot 2. richtig

[ ANOVA ]
Modellselektion

Modellselektion
Gegeben sei eine Stichprobe vom Umfang n.

Das bedeutet, dass wir neben den Werten y1 , . . . , yn der metrischen Variablen Y über die
die Beobachtungen der beiden kategorialen Variablen (=Faktoren) A und B auch wissen,
welcher Gruppe (A1 B1 , A1 B2 , A2 B1 oder A2 B2 diese Werte zuzuordnen sind.
Modellwahl: Welches der im vorigen Abschnitt vorgestellten Modelle passt am besten zur
gegebenen Stichprobe?
Es stehen 5 Modelle mit zunehmenden Komplexitätsgrad zur Auswahl:
Modellname Modellformel
M0 Y ∼1
MA Y ∼A
MB Y ∼B
MA+B Y ∼A+B
MA∗B Y ∼A∗B

Modellselektion
Als Kriterium für die Güte der Anpassung eines Modells wird die Fehlerquadratsummme
RSS verwendet.
Zu jedem Modell kann eine passende Fehlerquadratsumme berechnet werden. Sie gibt an,
wie stark die Daten vom jeweiligen Modell abweichen.
Im einfachsten Modell (Y ∼ 1) werden die quadrierten Abstände zum Gesamtmittelwert, im

komplexesten Modell (Y ∼ A ∗ B) werden die quadrierten Abstände zum jeweiligen
Gruppenmittelwert aufsummiert.
Für die Modelle dazwischen (Y ∼ A, Y ∼ B, Y ∼ A + B) kommen andere, dem jeweiligen
Modell entsprechende Mittelwerte zur Anwendung.
Es gilt die Ungleichungskette (in konkreten Beispielen gilt fast immer < statt ≤):
RSS MA∗B ≤ RSS MA+B ≤ (RSS MA , RSS MB ) ≤ RSS M0

Modellselektion
Es wäre falsch, prinzipiell das Modell MA∗B auszuwählen, nur weil die Fehlerquadratsumme
für dieses Modell am kleinsten ist.
Es wird nur dann gewählt, wenn die Unterschiede in der Fehlerquadratsumme zu den
anderen Modellen wesentlich kleiner sind. Die Beurteilung, was eine wesentlich kleinere
Fehlerquadratsumme ist, erfolgt über einen F -Test im Rahmen der ANOVA.

Modellselektion via ANOVA
Zwei Modelle können wieder mit Hilfe ihrer Fehlerquadratsummen RSS in einer
Varianzanalyse (ANOVA) verglichen werden.
Die allgemeine Vorgangsweise ist:
H0 : einfacheres (restriktiveres) Modell

HA : komplexeres (umfassenderes) Modell
Das Modell der Nullhypothese ist im Modell der Alternativhypothese als Sonderfall
enthalten, z.B. H0 : Y ∼ A, HA : Y ∼ A + B.
Das einfachere Modell hat die Fehlerquadratsumme RSS 0 , das komplexere Modell hat die
Fehlerquadratsumme RSS 1 .
Mit Hilfe der F -Größe aus der ANOVA wird der Unterschied in den Fehlerquadratsummen
überprüft. Anhand des zugehörigen p-Wertes kann entschieden werden, ob der
Unterschied signifikant ist. Falls ja, wird das Modell der Alternativhypothese gewählt. Falls
nicht, wird das Modell der Nullhypothese beibehalten.

Modellselektion
Die 5 Modelle können übersichtlich in einem Baum angeordnet werden, in dem die
Modellkomplexität von oben nach unten abnimmt und darüberliegende Modelle immer die
darunterliegenden umfassen.
Y~A*B
Y~A+B
Y~A Y~B
Y~1

Modellselektion
Welches Modell soll ausgewählt werden?
Ziel: Ein möglichst einfaches Modell bei gleichzeitig gutem Erklärungswert

So einfach wie möglich – so komplex wie notwendig.
Nicht zu viel Erklärungswert sollte verloren gehen.
Vorgangsweise: Man startet mit dem komplexesten Modell und vereinfacht dieses solange,
bis der Verlust an Erklärungswert zu groß wird. Dazu geht man im Baum von oben nach
unten (Rückwärtsselektion, backward selection).

Beispiel 1: Modellselektion
Eine Untersuchung mit einer abhängigen metrischen Variablen Y und zwei Faktoren A und
B mit je 2 Faktorstufen lieferte folgende Mittelwertstabelle und folgenden Interaktionsplot:
B1 B2
A1 39.82 39.47
A2 39.36 40.35
50
B
B2
B1
45
Gruppenmittelwerte
40
35
30
A1 A2

Beispiel 1: Modellselektion
Y~A*B
RSS: 585.278
Y~A+B
RSS: 594.174
Y~A Y~B
RSS: 596.190 RSS: 595.060
Y~1
RSS: 597.076
Komplexität (n − df ) der Modelle nimmt von oben nach unten ab.

Fehlerquadratsumme (RSS) nimmt von oben nach unten zu.

Beispiel 1: Modellselektion, Schritt 1
Y~A*B
RSS: 585.278
0.28586
Y~A+B
RSS: 594.174
Y~A Y~B
RSS: 596.190 RSS: 595.060
Y~1
RSS: 597.076
Komplexität der Modelle nimmt von oben nach unten ab.

Fehlerquadratsumme (RSS) nimmt von oben nach unten zu.

Beispiel 1: Modellselektion, Schritt 1
Model 1: Y ~ A + B
Model 2: Y ~ A * B
1 77 594.17
2 76 585.28 1 8.8962 1.1552 0.2859
Der p-Wert ist größer als 0.05 (= α) und nicht signifikant.

Daher ist die Reduktion vom Interaktionsmodell (HA : Modell 2)
auf das Modell mit beiden Haupteffekten (H0 : Modell 1) zulässig. Es geht nicht viel
Erklärungswert verloren.
Wir versuchen eine weitere Vereinfachung (Schritte 2a, 2b).

Beispiel 1: Modellselektion, Schritt 2a
Y~A*B
RSS: 585.278
Y~A+B
RSS: 594.174
0.61074
Y~A Y~B
RSS: 596.190 RSS: 595.060
Y~1
RSS: 597.076

Model 1: Y ~ A
Model 2: Y ~ A + B
1 78 596.19
2 77 594.17 1 2.0158 0.2612 0.6107
Der p-Wert ist größer als 0.05 (= α) und daher nicht signifikant.
Daher ist die Reduktion vom Modell mit beiden Haupteffekten (HA : Modell 2) auf das
Modell nur mit Haupteffekt A (H0 : Modell 1) zulässig.

Beispiel 1: Modellselektion, Schritt 2b
Y~A*B
RSS: 585.278
Y~A+B
RSS: 594.174
0.73557
Y~A Y~B
RSS: 596.190 RSS: 595.060
Y~1
RSS: 597.076

Model 1: Y ~ B
Model 2: Y ~ A + B
1 78 595.06
2 77 594.17 1 0.8865 0.1149 0.7356
Daher ist die Reduktion vom Modell mit beiden Haupteffekten (HA : Modell 2) auf das
Modell nur mit Haupteffekt B (H0 : Modell 1) zulässig.

Y~A*B
RSS: 585.278
Y~A+B
RSS: 594.174
Y~A Y~B
RSS: 596.190 RSS: 595.060
0.73435
Y~1
RSS: 597.076

Model 1: Y ~ 1
Model 2: Y ~ A
1 79 597.08
2 78 596.19 1 0.8865 0.116 0.7343
Daher ist die Reduktion vom Modell mit Haupteffekt A (HA : Modell 2) auf das
Null-Modell (H0 : Modell 1) zulässig.

Y~A*B
RSS: 585.278
Y~A+B
RSS: 594.174
Y~A Y~B
RSS: 596.190 RSS: 595.060
0.60868
Y~1
RSS: 597.076

Model 1: Y ~ 1
Model 2: Y ~ B
1 79 597.08
2 78 595.06 1 2.0158 0.2642 0.6087
Daher ist die Reduktion vom Modell mit Haupteffekt B (HA : Modell 2) auf das
Null-Modell (H0 : Modell 1) zulässig.

Beispiel 1: Modellselektion, Zusammenfassung
Y~A*B
RSS: 585.278
0.28586
Y~A+B
RSS: 594.174
0.61074 0.73557
Y~A Y~B
RSS: 596.190 RSS: 595.060
0.73435 0.60868
Y~1
RSS: 597.076

Beispiel 1: Modellselektion, Zusammenfassung
Am Ende der Analyse sind wir beim Null-Modell angelangt.

Das Ergebnis unserer Untersuchung lässt daher die Schlussfolgerung zu, dass weder
Faktor A noch Faktor B allein, gemeinsam oder in Kombination, einen Einfluss auf Y
haben.
Die Stichprobe kann durch einen einzigen Mittelwert charakterisiert werden. Anders
ausgedrückt, die Mittelwerte in den 4 Gruppen unterscheiden sich nicht (signifikant).
Dies ist das Charakteristikum des Null-Modells: Y ∼ 1

Beispiel 2: Investitionen in den Wellnessbereich
Wellnessurlaube erfreuen sich zunehmender Beliebtheit. Hier liegen die

Investitionssummen von Tourismusbetrieben innerhalb von 2 Jahren vor. Dabei wurde
unterschieden, in welcher Region (Nord oder Süd) der Betrieb liegt, und ob Investionen
auch in Wellnessangebote erfolgt sind.
Abhängige Variable: invest Investitionen der Betriebe in den letzten zwei Jahren (in 1000
Euro).
Erklärende Variablen (= Faktoren):

wellness: Gab es Investitionen für Wellnessangebote? (ja oder nein)
region: Region des Betriebes (Nord oder Süd).

Beispiel: Investitionen in den Wellnessbereich
invest wellness region
1 620 ja Nord
2 535 ja Nord
3 296 nein Nord
4 654 nein Sued
5 575 ja Sued
...
700
600 region = Nord region = Sued
Investionen
500
400
300
ja nein ja nein

Beispiel 2: Investitionen in den Wellnessbereich
Mittelwertstabelle
Nord Sued
ja 560 548
nein 489 466
560
region
540 Nord
Sued
Mittlere Investionen
520
500
480
ja nein
wellness

Beispiel 2: Baum zur Modellwahl
invest ~ wellness * region

RSS: 562256.83
0.82654
invest ~ wellness + region

RSS: 562743.53
0.4939296 0.0050248
invest ~ wellness invest ~ region

RSS: 567423.53 RSS: 646844.01
0.0037796 0.3556620
invest ~ 1
RSS: 656512.60

Beispiel 2: Modellselektion: Schritt 1
Model 1: invest ~ wellness + region

Model 2: invest ~ wellness * region
1 57 562744
2 56 562257 1 486.7 0.0485 0.8265
Die Interaktion ist nicht signifikant (p = 0.8265), d.h. das Modell kann vereinfacht werden.
Es ist zulässig, vom Modell invest ∼ wellness ∗ region auf das einfachere Modell
invest ∼ wellness + region überzugehen.

Beispiel 2: Modellselektion: Schritt 2a
Model 1: invest ~ wellness

1 58 567424
2 57 562744 1 4680 0.474 0.4939
Auch der Haupteffekt region ist nicht signifikant (p = 0.4939) und könnte weggelassen
werden.

Beispiel 2: Modellselektion: Schritt 2b
Model 1: invest ~ region

1 58 646844
2 57 562744 1 84100 8.5185 0.005025
Der Haupteffekt wellness ist signifikant (p = 0.005) und kann nicht weggelassen werden.
Folgerung aus 2a und 2b: Das Modell invest ∼ wellness + region kann zu Modell
invest ∼ wellness vereinfacht werden.

Beispiel 2: Modellselektion: Schritt 3a
Model 1: invest ~ 1
Model 2: invest ~ wellness
1 59 656513
2 58 567424 1 89089 9.1064 0.00378
Der Haupteffekt wellness ist signifikant (p = 0.0038) und kann nicht weggelassen werden.
Stop: Keine weitere Vereinfachung ist möglich, es wird das Modell invest ∼ wellness
gewählt. Aus der Mittelwertstabelle, dem Box- oder Interaktionsplot kann geschlossen
werden, dass Wellnessinvestionen durchschnittlich höher sind.

Beispiel: Modellselektion
Eine Untersuchung mit einer abhängigen metrischen Variablen Y und zwei Faktoren A und
B mit jeweils zwei Faktorstufen lieferte folgende Mittelwertstabelle und Interaktionsplot:
B1 B2
A1 20 50
A2 40 72
70 B
B2
60
B1
Gruppenmittelwerte
50
40
30
20
A1 A2

Y~A*B
RSS: 40.00
0.17646
Y~A+B
RSS: 45.00
< 2.22e−16 6.9664e−16
Y~A Y~B
RSS: 4850.00 RSS: 2250.00
1.0390e−02 7.5018e−06
Y~1
RSS: 7055.00

Das Modell Y ∼ A ∗ B passt am besten zu den Daten. falsch

Die Fehlerquadratsumme des Modells Y ∼ A ist kleiner als die des Modells Y ∼ B.
falsch
Sowohl A als auch B haben entscheidenden Einfluss auf Y . richtig
Das Modell Y ∼ A + B passt am besten zu den Daten. richtig
Nur A hat entscheidenden Einfluss auf Y . falsch

Das Modell Y ∼ A ∗ B passt am besten zu den Daten. falsch

Die Fehlerquadratsumme des Modells Y ∼ A ist kleiner als die des Modells Y ∼ B.
falsch
Sowohl A als auch B haben entscheidenden Einfluss auf Y . richtig
Das Modell Y ∼ A + B passt am besten zu den Daten. richtig
Nur A hat entscheidenden Einfluss auf Y . falsch

[ ANOVA ]
Touristen: Modellselektion

Auswertung der Daten: Touristen in Kärnten
Von welchen Faktoren hängen die Ausgaben (pro Woche in EUR) im Urlaub ab?
Ist keiner der beiden Faktoren Beruf bzw. Herkunftsland relevant für die Ausgaben?
Ist nur der Beruf relevant für die Ausgaben?
Ist nur das Herkunftsland relevant für die Ausgaben?
Sind Beruf und Herkunftsland relevant für die Ausgaben?
Sind Beruf und Herkunftsland relevant und gibt es auch eine Wechselwirkung zwischen
den beiden?

Land
1000
Durchschnittliche Ausgaben
Deutschland
Niederlande
900
800
700
600
500
Angestellt Selbstaendig
Beruf
Der Interaktionsplot legt die Vermutung nahe, dass ein Interaktionsmodell zutreffen könnte.

Modellselektion: Schritt 1
Überprüfung des Interaktionsmodells im Vergleich zum Haupteffektsmodell

Model 1: Ausgaben ~ Land + Beruf

Model 2: Ausgaben ~ Land * Beruf
1 237 25431018
2 236 24419715 1 1011302 9.7736 0.001993
Die Interaktion ist signifikant (p = 0.002 < 0.05), daher kann keine Reduktion vom
komplexeren Modell Ausgaben ∼ Land ∗ Beruf zum einfacheren Modell Ausgaben ∼
Land + Beruf vorgenommen werden.
Stop: Das Interaktionsmodell wird beibehalten.

Interpretation: Die Differenz zwischen den mittleren Ausgaben der Angestellten und der
Selbständigen ist bei den deutschen und den niederländischen Touristen unterschiedlich.
Anhand der Mittelwertstabelle oder des Interaktionsplots ist abzulesen:

Bei den deutschen Touristen geben die Selbständigen im Durchschnitt wesentlich mehr
aus als die Angestellten.
Bei den niederländischen Touristen geben die Selbständigen im Durchschnitt etwas
weniger aus als die Angestellten.
Mittelwertstabelle
Angestellt Selbstaendig
Deutschland 724.3 1074.1
Niederlande 529.0 483.5


Folien 06

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Folien 06

Hochgeladen von

Copyright:

Verfügbare Formate

Kapitel 6

Institute for Statistics and Mathematics – WU Wien

ANOVA steht für “Analysis of Variance” (Varianzanalyse, Streuungszerlegung).

Sie wird in diesem Kapitel eingesetzt, um Mittelwerte in mehreren Gruppen zu vergleichen.

Institute for Statistics and Mathematics – WU Wien

Institute for Statistics and Mathematics – WU Wien

Einleitung: Touristen in Kärnten

Institute for Statistics and Mathematics – WU Wien

Angestellt Leit.Angest. Pensionist Selbstaendig

Institute for Statistics and Mathematics – WU Wien

Quelle: Gästebefragung Österreich, http://www.tourmis.info/.

Institute for Statistics and Mathematics – WU Wien

Institute for Statistics and Mathematics – WU Wien

Ausgaben Beruf Gender

Parallele Boxplots sind meist übersichtlicher als multiple Histogramme.

Institute for Statistics and Mathematics – WU Wien

durch gruppierte Verteilungsmaßzahlen:

Angest. L. Angest. Pens. Selbst. Gesamt

Institute for Statistics and Mathematics – WU Wien

Angestellt Leit.Angest. Pensionist Selbstaendig

Institute for Statistics and Mathematics – WU Wien

ANOVA für das 2-Stichprobenproblem

Institute for Statistics and Mathematics – WU Wien

Institute for Statistics and Mathematics – WU Wien

= (nA − 1) · sA2 ,n−1 + (nB − 1) · sB2 ,n−1 .

Institute for Statistics and Mathematics – WU Wien

Frage: Ist RSS 1 deutlich kleiner als RSS 0 oder nicht?

Institute for Statistics and Mathematics – WU Wien

RSS 1 RSS 0 − RSS 1

Institute for Statistics and Mathematics – WU Wien

Stichprobe A Stichprobe B Gesamtstichprobe

RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 47.413

Institute for Statistics and Mathematics – WU Wien

Um zu überprüfen, ob die Fehlerquadratsumme bei Schätzung von zwei Mittelwerten

Res.Df RSS Df Sum of Sq F Pr(>F)

Institute for Statistics and Mathematics – WU Wien

Um zu überprüfen, ob die Fehlerquadratsumme bei Schätzung von zwei Mittelwerten

Institute for Statistics and Mathematics – WU Wien

RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 47.413

Institute for Statistics and Mathematics – WU Wien

RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 91.699

Institute for Statistics and Mathematics – WU Wien

8 Stichprobe A Stichprobe B Gesamtstichprobe

RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 215.984

Institute for Statistics and Mathematics – WU Wien

Stichprobe A Stichprobe B Gesamtstichprobe

RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 420.269

Institute for Statistics and Mathematics – WU Wien

Ein Blick auf die ANOVA-Tabelle:

Institute for Statistics and Mathematics – WU Wien

Analysis of Variance Table

Institute for Statistics and Mathematics – WU Wien

Die Teststatistik ist kleiner als 6. richtig

Institute for Statistics and Mathematics – WU Wien

Die Teststatistik ist kleiner als 6. richtig

Institute for Statistics and Mathematics – WU Wien

Institute for Statistics and Mathematics – WU Wien

ANOVA für das k - Stichprobenproblem

Institute for Statistics and Mathematics – WU Wien

Nullhypothese: alle Stichprobenerwartungswerte sind gleich

Institute for Statistics and Mathematics – WU Wien

Unterschiede der mittleren Urlaubsausgaben zwischen Angestellten, leit. Angestellten,

Angest. L. Angest. Pens. Selbst. Gesamt