Sie sind auf Seite 1von 98

Kapitel 6

ANOVA

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 0 / 97
ANOVA

ANOVA steht für “Analysis of Variance” (Varianzanalyse, Streuungszerlegung).

Sie wird in diesem Kapitel eingesetzt, um Mittelwerte in mehreren Gruppen zu vergleichen.


Werden die Gruppen über eine kategoriale Variable definiert:
Einfache Varianzanalyse
Beispiel: Ausgaben von Touristen in Abhängigkeit von Beruf oder von Geschlecht
Werden die Gruppen über zwei kategoriale Variablen definiert:
Zweifache Varianzanalyse
Beispiel: Ausgaben von Touristen in Abhängigkeit von Beruf und Herkunftsland

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 1 / 97
[ ANOVA ]

Einfache ANOVA

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 2 / 97
[ ANOVA ]

Einleitung: Touristen in Kärnten

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 3 / 97
Touristen in Kärnten
Von welchen Faktoren hängen die Urlaubsausgaben ab?
2500




2000





Ausgaben

1500
1000
500

Angestellt Leit.Angest. Pensionist Selbstaendig

Beruf

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 4 / 97
Daten

In der Gästebefragung Österreich wurden insgesamt 14,571 Touristen befragt, die ihren
Sommerurlaub in Österreich verbracht haben. Zusätzlich zu bestimmten
soziodemografischen Daten wie Alter, Geschlecht, Beruf usw. wurden die Touristen
insbesonders nach bevorzugten Aktivitäten gefragt (Wandern, Theater, uva.) sowie nach
ihren Motiven für die Reise (Entspannung, Sport, Kultur, uva.).

Hier untersuchen wir die 387 befragten deutschen Touristen, die ihren Sommerurlaub in
Kärnten verbracht haben.

Frage: Von welchen Faktoren hängen die Ausgaben (pro Woche in EUR) im Urlaub ab? Ist
der Beruf relevant oder etwa das Geschlecht?

Quelle: Gästebefragung Österreich, http://www.tourmis.info/.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 5 / 97
[ ANOVA ]

Deskriptive Methoden

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 6 / 97
Datenstruktur

Formal heißt dies, dass es eine abhängige metrische Variable Y und eine erklärende
kategoriale Variable X gibt, die die Gesamtstichprobe in mehrere Teilstichproben teilt.

Ausgaben Beruf Gender


1 925 Pensionist male
2 955 Pensionist male
3 1550 Leit.Angest. female
4 980 Pensionist male
5 568 Angestellt male
6 778 Pensionist male

Als deskriptive Methoden zur numerischen und grafischen Beschreibung können einfach die
entsprechenden 1-Stichprobenmethoden wiederbenutzt werden.

Parallele Boxplots sind meist übersichtlicher als multiple Histogramme.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 7 / 97
Numerische Beschreibung

durch gruppierte Verteilungsmaßzahlen:

Angest. L. Angest. Pens. Selbst. Gesamt


n 158 82 107 40 387
ȳ 724.27 897.34 809.49 1074.12 820.66
Q0.5 660 801 729 1062 748
sn−1 301.80 443.21 378.18 427.10 384.34
QD 418.25 577.00 422.00 473.50 513.00
Min 221 308 137 370 137
Max 1422 2445 2235 2606 2606

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 8 / 97
Grafische Beschreibung: Parallele Boxplots

2500



2000





Ausgaben

1500
1000
500

Angestellt Leit.Angest. Pensionist Selbstaendig

Beruf

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 9 / 97
[ ANOVA ]

ANOVA für das 2-Stichprobenproblem

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 10 / 97
ANOVA: Hypothesen – Modelle

Das Testproblem
Nullhypothese: µA = µB (= µ)
Alternative: µA 6 = µB
kann man auch auffassen als ein Entscheidungsproblem zwischen zwei Modellen

M0 : Y =
( µ +  (unabhängig von X )
µA +  falls X = A
M1 : Y =
µB +  falls X = B

wobei X die kategoriale Variable ist, nach der die Einteilung in Stichprobe A und B erfolgt.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 11 / 97
ANOVA: Fehlerquadratsummen

Stammen die Daten aus Modell M0 , so ist der Mittelwert von Y nur eine Konstante
(symbolisch: Y ∼ 1). Die Schätzung des Mittelwerts erfolgt durch ȳ , die zugehörige
Fehlerquadratsumme ist:
n
X
RSS 0 = (yi − ȳ )2 = (n − 1) · sn2−1 .
i =1

Stammen die Daten aus Modell M1 , so hängt der Mittelwert von Y von der Variablen X ab
(symbolisch: Y ∼ X ). Die Schätzung erfolgt durch die Stichprobenmittelwerte ȳA bzw. ȳB ,
die zugehörige Fehlerquadratsumme ist:
nA
X nB
X
RSS 1 = (yA,i − ȳA )2 + (yB,i − ȳB )2
i =1 i =1

= (nA − 1) · sA2 ,n−1 + (nB − 1) · sB2 ,n−1 .

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 12 / 97
ANOVA: Fehlerquadratsummen

Das einfachere Modell M0 ist dabei ein Spezialfall des komplexeren Modells M1 , nämlich
genau für den Fall, dass µA = µB (Nullhypothese).

Weil M0 ein Spezialfall von M1 ist, kann die Fehlerquadratsumme von M1 nur kleiner sein,
d.h. RSS 1 ≤ RSS 0 .

Frage: Ist RSS 1 deutlich kleiner als RSS 0 oder nicht?


Ist die Reststreuung RSS 1 viel kleiner als die Gesamtstreuung RSS 0 , haben die
Stichproben unterschiedliche Mittel → verwerfe Nullhypothese und verwende M1 .
Ist die Summe der Reststreuungen RSS 1 nicht viel kleiner als die Gesamtstreuung
RSS 0 , reicht ein Mittel für beide Stichproben aus → behalte Nullhypothese bei und
verwende M0 .

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 13 / 97
ANOVA: F -Test

Die Bewertung, ob der Unterschied zwischen RSS 0 und RSS 1 so stark ist, dass dafür die
Nullhypothese verworfen werden muss, erfolgt über einen sog. F -Test.
Den Wert der Teststatistik F wird berechnet durch
(RSS 0 − RSS 1 )/(df0 − df1 )
F = ,
RSS 1 /df1
wobei df (“degrees of freedom”) für Gesamtstichprobengröße minus der Anzahl der
geschätzten Parameter steht. Man müsste nun F mit einem Quantil einer passenden
F -Verteilung vergleichen, wir beschränken uns aber auf die Bewertung über den p-Wert.
Im 2-Stichprobenproblem ist der F -Test äquivalent zum zweiseitigen T -Test. Es gilt:

F = T 2.

Daher kann man in diesem Fall für F die kritische Größe aus den kritischen Größen der
T -Statistik herleiten:
1.962 = 3.84 bzw. (−1.96)2 = 3.84
bei einem Signifikanzniveau von 5%.
Institute for Statistics and Mathematics – WU Wien
c 2008–2015 PI Statistik – 6 – ANOVA – 14 / 97
ANOVA: Bestimmtheitsmaß

Eine Kennzahl, die den Unterschied zwischen RSS 0 und RSS 1 bewertet, ist das
Bestimmtheitsmaß:

RSS 1 RSS 0 − RSS 1


B = 1− =
RSS 0 RSS 0

Das Bestimmtheitsmaß gibt den Anteil der erklärten Varianz an, also den Anteil an RSS 0 ,
der durch den Übergang von einem gemeinsamen Mittelwert auf separate
Gruppenmittelwerte reduziert werden konnte.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 15 / 97
ANOVA: Beispiel mit geringen Unterschieden zwischen A und B

Stichprobe A Stichprobe B Gesamtstichprobe

● ●
3
2
1
0
−1
−2

RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 47.413

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 16 / 97
ANOVA: Beispiel mit geringen Unterschieden zwischen A und B

Um zu überprüfen, ob die Fehlerquadratsumme bei Schätzung von zwei Mittelwerten


signifikant kleiner ist, kann man eine ANOVA-Tabelle benutzen:

Res.Df RSS Df Sum of Sq F Pr(>F)


1 n−1 RSS 0
2 n−2 RSS 1 1 RSS 0 − RSS 1 F p-Wert

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 17 / 97
ANOVA: Beispiel mit geringen Unterschieden zwischen A und B

Um zu überprüfen, ob die Fehlerquadratsumme bei Schätzung von zwei Mittelwerten


signifikant kleiner ist, kann man eine ANOVA-Tabelle benutzen:
Analysis of Variance Table

Model 1: y ~ 1
Model 2: y ~ x
Res.Df RSS Df Sum of Sq F Pr(>F)
1 39 47.413
2 38 47.299 1 0.11476 0.0922 0.7631
Es gibt also keinen signifikanten Unterschied der Erwartungswerte (p ≈ 0.763). Das
Bestimmtheitsmaß (d.h. der Anteil der erklärten Varianz) ist:

RSS 1 47.299
B = 1− = 1− = 0.002.
RSS 0 47.413

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 18 / 97
ANOVA: Beispiel mit geringen Unterschieden zwischen A und B

8
6
4 Stichprobe A Stichprobe B Gesamtstichprobe

● ●
2
0
−2

RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 47.413

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 19 / 97
ANOVA: Beispiel mit stärkeren Unterschieden zwischen A und B

8
6 Stichprobe A Stichprobe B Gesamtstichprobe

● ●
4
2
0
−2

RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 91.699

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 20 / 97
ANOVA: Beispiel mit noch stärkeren Unterschieden zwischen A und B

8 Stichprobe A Stichprobe B Gesamtstichprobe


6
4
2
0
−2

RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 215.984

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 21 / 97
ANOVA: Beispiel mit sehr starken Unterschieden zwischen A und B

Stichprobe A Stichprobe B Gesamtstichprobe


8
6
4
2
0
−2

RSS1 = 24.839 + 22.460 = 47.299 RSS0 = 420.269

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 22 / 97
ANOVA: Beispiel mit sehr starken Unterschieden zwischen A und B

Ein Blick auf die ANOVA-Tabelle:


Analysis of Variance Table

Model 1: y ~ 1
Model 2: y ~ x
Res.Df RSS Df Sum of Sq F Pr(>F)
1 39 420.27
2 38 47.30 1 372.97 299.65 < 2.2e-16
Es gibt also einen signifikanten Unterschied in den Erwartungswerten (p ≈ 0). Das
Bestimmtheitsmaß (d.h. der Anteil der erklärten Varianz) ist:

RSS 1 47.299
B = 1− = 1− = 0.887.
RSS 0 420.269

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 23 / 97
Beispiel: Touristen in Kärnten

Analysis of Variance Table

Model 1: Ausgaben ~ 1
Model 2: Ausgaben ~ Gender
Res.Df RSS Df Sum of Sq F Pr(>F)
1 386 57018390
2 385 56898179 1 120211 0.8134 0.3677

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 24 / 97
Beispiel: Touristen in Kärnten

Die Teststatistik ist kleiner als 6. richtig


Es wurde eine einseitige Alternative getestet. falsch
Das Bestimmtheitsmaß ist größer als 20%. falsch
Es kann nachgewiesen werden, dass sich die Ausgaben zwischen den
Geschlechtergruppen unterscheiden. falsch
Das Bestimmtheitsmaß ist kleiner als 10%. richtig

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 25 / 97
Beispiel: Touristen in Kärnten

Die Teststatistik ist kleiner als 6. richtig


Es wurde eine einseitige Alternative getestet. falsch
Das Bestimmtheitsmaß ist größer als 20%. falsch
Es kann nachgewiesen werden, dass sich die Ausgaben zwischen den
Geschlechtergruppen unterscheiden. falsch
Das Bestimmtheitsmaß ist kleiner als 10%. richtig (B = 0.002)

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 26 / 97
Touristen in Kärnten

2500



2000


● ●
Ausgaben

1500
1000
500

male female

Geschlecht

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 27 / 97
[ ANOVA ]

ANOVA für das k - Stichprobenproblem

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 28 / 97
ANOVA bei k -Stichproben

Das ANOVA-Prinzip kann – im Unterschied zum T-Test – auf mehr als 2 Stichproben
verallgemeinert werden.

Nullhypothese: alle Stichprobenerwartungswerte sind gleich


µA = µB = µC = . . .
Alternative: mindestens ein Stichprobenerwartungswert
unterscheidet sich von den übrigen

RSS 0 wird auf Basis eines gemeinsamen Mittelwerts für die Gesamtstichprobe berechnet,
auf separaten Gruppenmittelwerten basiert RSS 1 .

Die Bewertung des Unterschieds zwischen RSS 0 und RSS 1 erfolgt via ANOVA-Tabelle und
F -Test.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 29 / 97
Beispiel: k -Stichproben ANOVA

Unterschiede der mittleren Urlaubsausgaben zwischen Angestellten, leit. Angestellten,


Pensionisten und Selbständigen:

Angest. L. Angest. Pens. Selbst. Gesamt


n 158 82 107 40 387
ȳ 724.27 897.34 809.49 1074.12 820.66
sn−1 301.80 443.21 378.18 427.10 384.34

Welcher Anteil der Gesamtstreuung kann auf Mittelwertunterschiede zwischen den


Berufsgruppen zurückgeführt werden?

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 30 / 97
Beispiel: k -Stichproben ANOVA

RSS 0 = (387 − 1) · 384.342 = 57018852.9

RSS 1 = (158 − 1) · 301.802 + (82 − 1) · 443.212 +


(107 − 1) · 378.182 + (40 − 1) · 427.102
= 52485606
RSS 1 52485606
1− = 1− = 0.08
RSS 0 57018852.9

8% der Gesamtstreuung kann durch Mittelwertunterschiede zwischen den Berufsgruppen


erklärt werden.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 31 / 97
Beispiel: k -Stichproben ANOVA

Analysis of Variance Table

Model 1: Ausgaben ~ 1
Model 2: Ausgaben ~ Beruf
Res.Df RSS Df Sum of Sq F Pr(>F)
1 386 57018390
2 383 52485169 3 4533221 11.027 5.851e-07

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 32 / 97
Beispiel: k -Stichproben ANOVA

Die Teststatistik ist kleiner als 8. falsch


Es wurde eine zweiseitige Alternative getestet. richtig
Das Bestimmtheitsmaß ist größer als 30%. falsch
Es kann nachgewiesen werden, dass sich die Ausgaben zwischen den Berufsgruppen
unterscheiden. richtig
Das Bestimmtheitsmaß ist kleiner als 50%. richtig

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 33 / 97
Beispiel: k -Stichproben ANOVA

Die Teststatistik ist kleiner als 8. falsch


Es wurde eine zweiseitige Alternative getestet. richtig
Das Bestimmtheitsmaß ist größer als 30%. falsch
Es kann nachgewiesen werden, dass sich die Ausgaben zwischen den Berufsgruppen
unterscheiden. richtig
Das Bestimmtheitsmaß ist kleiner als 50%. richtig (B = 0.08)

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 34 / 97
R.A. Fisher und F -Verteilung

Die Varianzanalyse geht zurück auf den bedeutenden


Genetiker und Statistiker Ronald Aylmer Fisher (1890
- 1962), einen der einflussreichsten Forscherpersön-
lichkeiten der ersten Hälfte des 20. Jahrhunderts, mit
Beiträgen u.A. zur Schätztheorie, Versuchsplanung und
Diskriminanzanalyse.
Ihm zu Ehren wurde die in der ANOVA immer wieder
eingesetzte Verteilungsfamilie als F -Verteilung (Fisher-
Verteilung) benannt.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 35 / 97
[ ANOVA ]

Zweifache ANOVA

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 36 / 97
Touristen in Kärnten
Von welchen Faktoren (bspw. Beruf, Herkunftsland) hängen die Urlaubsausgaben ab?
Deutschland Niederlande


2000
Ausgaben


500 1000

Angestellt Selbstaendig Angestellt Selbstaendig

Beruf

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 37 / 97
Daten

Wir verwenden wieder den Touristen-Datensatz, jedoch einen spezielleren Teildatensatz.


In der Gästebefragung Österreich wurden insgesamt 14,571 Touristen befragt.

Hier untersuchen wir die 240 befragten deutschen und holländischen Touristen, die ihren
Sommerurlaub in Kärnten verbracht haben.

Fragen: Von welchen Faktoren hängen die Ausgaben (pro Woche in EUR) im Urlaub ab?
Ist der Beruf relevant?
Ist das Herkunftsland relevant?
Sind Beruf und Herkunftsland relevant?

Quelle: Gästebefragung Österreich, http://www.tourmis.info/.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 38 / 97
Datenstruktur

Formal heißt dies, dass es eine abhängige metrische und zwei erklärende kategoriale
Variablen (= unabhängige Variablen) gibt, die die Gesamtstichprobe in mehrere
Teilstichproben teilen.

Ausgaben Beruf Land


9491 486 Angestellt Niederlande
9509 322 Angestellt Deutschland
9514 1302 Angestellt Deutschland
9517 355 Selbstaendig Niederlande
9518 762 Angestellt Niederlande
9520 644 Angestellt Deutschland

Als deskriptive Methoden zur numerischen und grafischen Beschreibung können einfach die
entsprechenden 1-Stichprobenmethoden verwendet werden, allerdings entsprechend
gruppiert.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 39 / 97
Ausgaben erklärt durch Beruf oder Herkunftsland

2500

2500
● ●
2000

2000


Ausgaben

Ausgaben
1500

1500


1000

1000
500

500
Angestellt Selbstaendig Deutschland Niederlande

Beruf Herkunftsland

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 40 / 97
Ausgaben erklärt durch Beruf und Herkunftsland

Deutschland Niederlande


2000
Ausgaben


500 1000

Angestellt Selbstaendig Angestellt Selbstaendig

Beruf

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 41 / 97
Numerische Beschreibung

Gruppierte Verteilungsmaßzahlen:

Deutschland Niederlande
Angestellte ȳ 724.27 528.97
n 158 31
sy 301.80 285.40

Selbständige ȳ 1074.12 483.55


n 40 11
sy 427.10 236.99

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 42 / 97
[ ANOVA ]

Gruppenmittelwerte, Interaktionsplots und


Modelle

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 43 / 97
Gruppenmittelwerte in Abhängigkeit von 2 Faktoren

Es gibt eine abhängige metrische Variable Y und zwei erklärende kategoriale Variablen (=
unabhängige Variablen) A und B.
Wir behandeln den Spezialfall, in dem die beiden kategorialen (qualitativen) Variablen
(Faktoren) jeweils nur zwei mögliche Ausprägungen (Kategorien, Faktorstufen) A1 , A2 bzw.
B1 , B2 annehmen können. Das ergibt 4 mögliche Kombinationen der Faktorausprägungen,
die die Daten y1 , . . . , yn in 4 Gruppen teilen.

Im Folgenden verwenden wir ein hypothetisches Beispiel, um mögliche Problemstellungen


zu erläutern:
Es wird angenommen, dass die Gruppenmittelwerte von Y für alle Gruppen
(Faktorkombinationen) bekannt sind.
Um das Verständnis zu erleichtern, werden für A und B konkrete Faktoren und für die
Gruppenmittel konkrete Werte gewählt.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 44 / 97
Hypothetisches Beispiel: Uni-Bewertung

Studierende bewerten ihre Uni.


Auf Basis mehrerer Teilkriterien kann eine maximale Punktezahl von 100 erreicht
werden.
Es wird zwischen A = Geschlecht und B = Studium unterschieden:
Faktor Stufe 1 Stufe 2
A = Geschlecht A1 = Frau A2 = Mann
B = Studium B1 = Jus B2 = BW

Wie hängt Y = Bewertung von den Stufen der Faktoren A = Geschlecht und B =
Studium ab?

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 45 / 97
Hypothetisches Beispiel: Uni-Bewertung

Von welchen Faktoren hängt die Uni-Bewertung ab?


Ist weder das Geschlecht noch das Studium relevant?
Ist zwar das Geschlecht relevant, aber nicht das Studium?
Oder umgekehrt, ist zwar das Studium relevant, aber nicht das Geschlecht?
Es sind sowohl Geschlecht als auch Studium bedeutsam?
Und zwar in dem Sinn, dass beide Faktoren, also Geschlecht und Studium, (jeder für sich)
wirksam sind,
oder Geschlecht und Studium kombiniert andere Auswirkungen zeigen als die Summe der
Einzeleffekte.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 46 / 97
1. Fall: kein Effekt von A oder B

A (Geschlecht)
B (Studium) A1 A2
B1 60 60
B2 60 60

Alle vier Faktorkombinationen führen zur gleichen mittleren Bewertung, hier z.B. 60.
Die erwartete Bewertung hängt weder vom Faktor A (Geschlecht) noch vom Faktor B
(Studium) ab.
Ein passendes Modell ist daher eines in dem weder A noch B eine Rolle spielen
(Null-Modell). Symbolisch: Y ∼ 1.
Eine grafische Darstellung der Mittelwerttabelle sind Interaktionsplots. In ihnen werden
entweder für die Werte in den Zeilen oder für die Werte in den Spalten Linien in einem
Diagramm gebildet.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 47 / 97
1. Fall: kein Effekt von A oder B

70
A
A2
Gruppenmittelwerte

65
A1
60
55
50

B1 B2

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 48 / 97
2. Fall: Haupteffekt A

A (Geschlecht)
B (Studium) A1 A2
B1 55 65
B2 55 65

Der mittlere Bewertung hängt nur vom Faktor A (Geschlecht) ab: Studenten (männlich,
Stufe A2) bewerten durchschnittlich um 10 Punkte besser als Studentinnen (A1)
unabhängig von der Ausprägung von B.

Faktor B (Studium) hat keinen Effekt: Die erwartete Bewertung ist gleich für alle Stufen des
Faktors B (gegeben die Ausprägung von A).

Ein passendes Modell enthält daher nur den Haupteffekt A. Symbolisch: Y ∼ A.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 49 / 97
2. Fall: Haupteffekt A

A B
64

64
A2 B2
A1 B1
Gruppenmittelwerte

Gruppenmittelwerte
62

62
60

60
58

58
56

56
B1 B2 A1 A2

B A

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 50 / 97
3. Fall: Haupteffekt B

A (Geschlecht)
B (Studium) A1 A2
B1 50 50
B2 60 60

Der mittlere Bewertung hängt nur vom Faktor B (Studium) ab: BW-Studierende (Stufe B2)
bewerten im Vergleich zu Jus-Studierenden (B1) um 10 Punkte besser (unabhängig von der
Ausprägung von A).

Faktor A (Geschlecht) hat keinen Effekt: Die erwartete Bewertung ist gleich für alle Stufen
des Faktors A (gegeben die Ausprägung von B).

Ein passendes Modell enthält daher nur den Haupteffekt B. Symbolisch: Y ∼ B.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 51 / 97
3. Fall: Haupteffekt B

60
60

A B

A1 B2

58
58

A2 B1
Gruppenmittelwerte

Gruppenmittelwerte

56
56

54
54

52
52
50

50
B1 B2 A1 A2

B A

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 52 / 97
4. Fall: beide Haupteffekte A + B

A (Geschlecht)
B (Studium) A1 A2
B1 50 60
B2 65 75

Die mittlere Bewertung hängt von Faktor A (Geschlecht) und Faktor B (Studium) ab (jeder
Faktor wirkt getrennt).

Die Bewertungen von Studentinnen (Stufe A1) sind durchschnittlich um 10 Punkte


schlechter als die ihrer männlichen Kollegen (unabhängig von der Ausprägung von B).
Studierende der BW (Stufe B2) bewerten durchschnittlich um 15 Punkte besser als
Jus-Studierende (unabhängig von der Ausprägung von A).

Ein passendes Modell enthält daher beide Haupteffekte A und B. Symbolisch: Y ∼ A + B.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 53 / 97
4. Fall: beide Haupteffekte A + B

75

75
A B

A2 B2
70

70
A1 B1
Gruppenmittelwerte

Gruppenmittelwerte
65

65
60

60
55

55
50

50
B1 B2 A1 A2

B A

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 54 / 97
5. Fall: Interaktion A und B

A (Geschlecht)
B (Studium) A1 A2
B1 50 70
B2 65 55

Die mittlere Bewertung hängt von Faktor A (Geschlecht) und Faktor B (Studium) ab, beide
Faktoren wirken jedoch kombiniert anders als jeder Faktor für sich allein (Wechselwirkung
zwischen A und B).

Jus (Stufe B1) wird von Studentinnen (Stufe A1) schlechter bewertet als von Studenten
(Stufe A2), der Unterschied beträgt durchschnittlich 20 Punkte.
Bei BW (Stufe B2) ist es gerade umgekehrt, Studentinnen bewerten durchschnittlich besser
als Studenten.

Ein passendes Modell enthält daher die beiden Faktoren und deren Wechselwirkung
Interaktionsmodell. Symbolisch: Y ∼ A ∗ B.
Institute for Statistics and Mathematics – WU Wien
c 2008–2015 PI Statistik – 6 – ANOVA – 55 / 97
5. Fall: Interaktion A und B

70

70
A B

A1 B1
A2 B2
65

65
Gruppenmittelwerte

Gruppenmittelwerte
60

60
55

55
50

50
B1 B2 A1 A2

B A

Gibt es eine Wechselwirkung zwischen A und B, verlaufen die Strecken im Interaktionsplot


nicht parallel.
Institute for Statistics and Mathematics – WU Wien
c 2008–2015 PI Statistik – 6 – ANOVA – 56 / 97
Beispiel: Zuordnung Tabelle, Plots und Modell

B1 B2
A1 32 32
A2 37 49
Eine der zwei gegebenen Grafiken ist der zugehörige Interaktionsplot:
Plot 1 Plot 2
50

50
B B

B2 B2
B1 B1
45

45
Mittelwerte

Mittelwerte
40

40
35

35
30

30
A1 A2 A1 A2

A A

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 57 / 97
Beispiel: Zuordnung Tabelle, Plots und Modell

Die Mittelwertstabelle passt zu Plot 1. falsch falsch


Die Mittelwertstabelle passt zum Modell Y ∼ A ∗ B. richtig richtig
Von Stufe A1 zu Stufe A2 von Faktor A gibt es einen starken Anstieg in den
Mittelwerten. Bei Faktor B ist das auch der Fall. falsch falsch
Die Mittelwertstabelle passt zum Modell Y ∼ B. falsch falsch
Die Mittelwertstabelle passt zu Plot 2. richtig richtig

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 58 / 97
Beispiel: Zuordnung Tabelle, Plots und Modell

Die Mittelwertstabelle passt zu Plot 1. falsch


Die Mittelwertstabelle passt zum Modell Y ∼ A ∗ B. richtig
Von Stufe A1 zu Stufe A2 von Faktor A gibt es einen starken Anstieg in den
Mittelwerten. Bei Faktor B ist das auch der Fall. falsch
Die Mittelwertstabelle passt zum Modell Y ∼ B. falsch
Die Mittelwertstabelle passt zu Plot 2. richtig

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 59 / 97
[ ANOVA ]

Modellselektion

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 60 / 97
Modellselektion

Gegeben sei eine Stichprobe vom Umfang n.


Das bedeutet, dass wir neben den Werten y1 , . . . , yn der metrischen Variablen Y über die
die Beobachtungen der beiden kategorialen Variablen (=Faktoren) A und B auch wissen,
welcher Gruppe (A1 B1 , A1 B2 , A2 B1 oder A2 B2 diese Werte zuzuordnen sind.

Modellwahl: Welches der im vorigen Abschnitt vorgestellten Modelle passt am besten zur
gegebenen Stichprobe?
Es stehen 5 Modelle mit zunehmenden Komplexitätsgrad zur Auswahl:

Modellname Modellformel
M0 Y ∼1
MA Y ∼A
MB Y ∼B
MA+B Y ∼A+B
MA∗B Y ∼A∗B

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 61 / 97
Modellselektion

Als Kriterium für die Güte der Anpassung eines Modells wird die Fehlerquadratsummme
RSS verwendet.

Zu jedem Modell kann eine passende Fehlerquadratsumme berechnet werden. Sie gibt an,
wie stark die Daten vom jeweiligen Modell abweichen.

Im einfachsten Modell (Y ∼ 1) werden die quadrierten Abstände zum Gesamtmittelwert, im


komplexesten Modell (Y ∼ A ∗ B) werden die quadrierten Abstände zum jeweiligen
Gruppenmittelwert aufsummiert.
Für die Modelle dazwischen (Y ∼ A, Y ∼ B, Y ∼ A + B) kommen andere, dem jeweiligen
Modell entsprechende Mittelwerte zur Anwendung.

Es gilt die Ungleichungskette (in konkreten Beispielen gilt fast immer < statt ≤):

RSS MA∗B ≤ RSS MA+B ≤ (RSS MA , RSS MB ) ≤ RSS M0

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 62 / 97
Modellselektion

Es wäre falsch, prinzipiell das Modell MA∗B auszuwählen, nur weil die Fehlerquadratsumme
für dieses Modell am kleinsten ist.
Es wird nur dann gewählt, wenn die Unterschiede in der Fehlerquadratsumme zu den
anderen Modellen wesentlich kleiner sind. Die Beurteilung, was eine wesentlich kleinere
Fehlerquadratsumme ist, erfolgt über einen F -Test im Rahmen der ANOVA.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 63 / 97
Modellselektion via ANOVA

Zwei Modelle können wieder mit Hilfe ihrer Fehlerquadratsummen RSS in einer
Varianzanalyse (ANOVA) verglichen werden.
Die allgemeine Vorgangsweise ist:

H0 : einfacheres (restriktiveres) Modell


HA : komplexeres (umfassenderes) Modell

Das Modell der Nullhypothese ist im Modell der Alternativhypothese als Sonderfall
enthalten, z.B. H0 : Y ∼ A, HA : Y ∼ A + B.
Das einfachere Modell hat die Fehlerquadratsumme RSS 0 , das komplexere Modell hat die
Fehlerquadratsumme RSS 1 .
Mit Hilfe der F -Größe aus der ANOVA wird der Unterschied in den Fehlerquadratsummen
überprüft. Anhand des zugehörigen p-Wertes kann entschieden werden, ob der
Unterschied signifikant ist. Falls ja, wird das Modell der Alternativhypothese gewählt. Falls
nicht, wird das Modell der Nullhypothese beibehalten.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 64 / 97
Modellselektion

Die 5 Modelle können übersichtlich in einem Baum angeordnet werden, in dem die
Modellkomplexität von oben nach unten abnimmt und darüberliegende Modelle immer die
darunterliegenden umfassen.

Y~A*B

Y~A+B

Y~A Y~B

Y~1

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 65 / 97
Modellselektion

Welches Modell soll ausgewählt werden?

Ziel: Ein möglichst einfaches Modell bei gleichzeitig gutem Erklärungswert


So einfach wie möglich – so komplex wie notwendig.
Nicht zu viel Erklärungswert sollte verloren gehen.

Vorgangsweise: Man startet mit dem komplexesten Modell und vereinfacht dieses solange,
bis der Verlust an Erklärungswert zu groß wird. Dazu geht man im Baum von oben nach
unten (Rückwärtsselektion, backward selection).

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 66 / 97
Beispiel 1: Modellselektion

Eine Untersuchung mit einer abhängigen metrischen Variablen Y und zwei Faktoren A und
B mit je 2 Faktorstufen lieferte folgende Mittelwertstabelle und folgenden Interaktionsplot:
B1 B2
A1 39.82 39.47
A2 39.36 40.35

50
B

B2
B1
45
Gruppenmittelwerte

40
35
30

A1 A2

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 67 / 97
Beispiel 1: Modellselektion

Y~A*B
RSS: 585.278

Y~A+B
RSS: 594.174

Y~A Y~B
RSS: 596.190 RSS: 595.060

Y~1
RSS: 597.076

Komplexität (n − df ) der Modelle nimmt von oben nach unten ab.


Fehlerquadratsumme (RSS) nimmt von oben nach unten zu.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 68 / 97
Beispiel 1: Modellselektion, Schritt 1

Y~A*B
RSS: 585.278

0.28586

Y~A+B
RSS: 594.174

Y~A Y~B
RSS: 596.190 RSS: 595.060

Y~1
RSS: 597.076

Komplexität der Modelle nimmt von oben nach unten ab.


Fehlerquadratsumme (RSS) nimmt von oben nach unten zu.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 69 / 97
Beispiel 1: Modellselektion, Schritt 1

Analysis of Variance Table

Model 1: Y ~ A + B
Model 2: Y ~ A * B
Res.Df RSS Df Sum of Sq F Pr(>F)
1 77 594.17
2 76 585.28 1 8.8962 1.1552 0.2859

Der p-Wert ist größer als 0.05 (= α) und nicht signifikant.


Daher ist die Reduktion vom Interaktionsmodell (HA : Modell 2)
auf das Modell mit beiden Haupteffekten (H0 : Modell 1) zulässig. Es geht nicht viel
Erklärungswert verloren.
Wir versuchen eine weitere Vereinfachung (Schritte 2a, 2b).

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 70 / 97
Beispiel 1: Modellselektion, Schritt 2a

Y~A*B
RSS: 585.278

Y~A+B
RSS: 594.174

0.61074

Y~A Y~B
RSS: 596.190 RSS: 595.060

Y~1
RSS: 597.076

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 71 / 97
Beispiel 1: Modellselektion, Schritt 2a

Analysis of Variance Table

Model 1: Y ~ A
Model 2: Y ~ A + B
Res.Df RSS Df Sum of Sq F Pr(>F)
1 78 596.19
2 77 594.17 1 2.0158 0.2612 0.6107

Der p-Wert ist größer als 0.05 (= α) und daher nicht signifikant.
Daher ist die Reduktion vom Modell mit beiden Haupteffekten (HA : Modell 2) auf das
Modell nur mit Haupteffekt A (H0 : Modell 1) zulässig.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 72 / 97
Beispiel 1: Modellselektion, Schritt 2b

Y~A*B
RSS: 585.278

Y~A+B
RSS: 594.174

0.73557

Y~A Y~B
RSS: 596.190 RSS: 595.060

Y~1
RSS: 597.076

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 73 / 97
Beispiel 1: Modellselektion, Schritt 2b

Analysis of Variance Table

Model 1: Y ~ B
Model 2: Y ~ A + B
Res.Df RSS Df Sum of Sq F Pr(>F)
1 78 595.06
2 77 594.17 1 0.8865 0.1149 0.7356

Der p-Wert ist größer als 0.05 (= α) und daher nicht signifikant.
Daher ist die Reduktion vom Modell mit beiden Haupteffekten (HA : Modell 2) auf das
Modell nur mit Haupteffekt B (H0 : Modell 1) zulässig.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 74 / 97
Beispiel 1: Modellselektion, Schritt 3a

Y~A*B
RSS: 585.278

Y~A+B
RSS: 594.174

Y~A Y~B
RSS: 596.190 RSS: 595.060

0.73435

Y~1
RSS: 597.076

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 75 / 97
Beispiel 1: Modellselektion, Schritt 3a

Analysis of Variance Table

Model 1: Y ~ 1
Model 2: Y ~ A
Res.Df RSS Df Sum of Sq F Pr(>F)
1 79 597.08
2 78 596.19 1 0.8865 0.116 0.7343

Der p-Wert ist größer als 0.05 (= α) und daher nicht signifikant.
Daher ist die Reduktion vom Modell mit Haupteffekt A (HA : Modell 2) auf das
Null-Modell (H0 : Modell 1) zulässig.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 76 / 97
Beispiel 1: Modellselektion, Schritt 3b

Y~A*B
RSS: 585.278

Y~A+B
RSS: 594.174

Y~A Y~B
RSS: 596.190 RSS: 595.060

0.60868

Y~1
RSS: 597.076

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 77 / 97
Beispiel 1: Modellselektion, Schritt 3b

Analysis of Variance Table

Model 1: Y ~ 1
Model 2: Y ~ B
Res.Df RSS Df Sum of Sq F Pr(>F)
1 79 597.08
2 78 595.06 1 2.0158 0.2642 0.6087

Der p-Wert ist größer als 0.05 (= α) und daher nicht signifikant.
Daher ist die Reduktion vom Modell mit Haupteffekt B (HA : Modell 2) auf das
Null-Modell (H0 : Modell 1) zulässig.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 78 / 97
Beispiel 1: Modellselektion, Zusammenfassung

Y~A*B
RSS: 585.278

0.28586

Y~A+B
RSS: 594.174

0.61074 0.73557

Y~A Y~B
RSS: 596.190 RSS: 595.060

0.73435 0.60868

Y~1
RSS: 597.076

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 79 / 97
Beispiel 1: Modellselektion, Zusammenfassung

Am Ende der Analyse sind wir beim Null-Modell angelangt.


Das Ergebnis unserer Untersuchung lässt daher die Schlussfolgerung zu, dass weder
Faktor A noch Faktor B allein, gemeinsam oder in Kombination, einen Einfluss auf Y
haben.
Die Stichprobe kann durch einen einzigen Mittelwert charakterisiert werden. Anders
ausgedrückt, die Mittelwerte in den 4 Gruppen unterscheiden sich nicht (signifikant).
Dies ist das Charakteristikum des Null-Modells: Y ∼ 1

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 80 / 97
Beispiel 2: Investitionen in den Wellnessbereich

Wellnessurlaube erfreuen sich zunehmender Beliebtheit. Hier liegen die


Investitionssummen von Tourismusbetrieben innerhalb von 2 Jahren vor. Dabei wurde
unterschieden, in welcher Region (Nord oder Süd) der Betrieb liegt, und ob Investionen
auch in Wellnessangebote erfolgt sind.

Abhängige Variable: invest Investitionen der Betriebe in den letzten zwei Jahren (in 1000
Euro).

Erklärende Variablen (= Faktoren):


wellness: Gab es Investitionen für Wellnessangebote? (ja oder nein)
region: Region des Betriebes (Nord oder Süd).

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 81 / 97
Beispiel: Investitionen in den Wellnessbereich
invest wellness region
1 620 ja Nord
2 535 ja Nord
3 296 nein Nord
4 654 nein Sued
5 575 ja Sued
...
700
600 region = Nord region = Sued
Investionen

500
400
300

ja nein ja nein

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 82 / 97
Beispiel 2: Investitionen in den Wellnessbereich

Mittelwertstabelle
Nord Sued
ja 560 548
nein 489 466

560
region

540 Nord
Sued
Mittlere Investionen

520
500
480

ja nein

wellness

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 83 / 97
Beispiel 2: Baum zur Modellwahl

invest ~ wellness * region


RSS: 562256.83

0.82654

invest ~ wellness + region


RSS: 562743.53

0.4939296 0.0050248

invest ~ wellness invest ~ region


RSS: 567423.53 RSS: 646844.01

0.0037796 0.3556620

invest ~ 1
RSS: 656512.60

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 84 / 97
Beispiel 2: Modellselektion: Schritt 1

Analysis of Variance Table

Model 1: invest ~ wellness + region


Model 2: invest ~ wellness * region
Res.Df RSS Df Sum of Sq F Pr(>F)
1 57 562744
2 56 562257 1 486.7 0.0485 0.8265

Die Interaktion ist nicht signifikant (p = 0.8265), d.h. das Modell kann vereinfacht werden.

Es ist zulässig, vom Modell invest ∼ wellness ∗ region auf das einfachere Modell
invest ∼ wellness + region überzugehen.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 85 / 97
Beispiel 2: Modellselektion: Schritt 2a

Analysis of Variance Table

Model 1: invest ~ wellness


Model 2: invest ~ wellness + region
Res.Df RSS Df Sum of Sq F Pr(>F)
1 58 567424
2 57 562744 1 4680 0.474 0.4939

Auch der Haupteffekt region ist nicht signifikant (p = 0.4939) und könnte weggelassen
werden.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 86 / 97
Beispiel 2: Modellselektion: Schritt 2b

Analysis of Variance Table

Model 1: invest ~ region


Model 2: invest ~ wellness + region
Res.Df RSS Df Sum of Sq F Pr(>F)
1 58 646844
2 57 562744 1 84100 8.5185 0.005025

Der Haupteffekt wellness ist signifikant (p = 0.005) und kann nicht weggelassen werden.

Folgerung aus 2a und 2b: Das Modell invest ∼ wellness + region kann zu Modell
invest ∼ wellness vereinfacht werden.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 87 / 97
Beispiel 2: Modellselektion: Schritt 3a

Analysis of Variance Table

Model 1: invest ~ 1
Model 2: invest ~ wellness
Res.Df RSS Df Sum of Sq F Pr(>F)
1 59 656513
2 58 567424 1 89089 9.1064 0.00378

Der Haupteffekt wellness ist signifikant (p = 0.0038) und kann nicht weggelassen werden.

Stop: Keine weitere Vereinfachung ist möglich, es wird das Modell invest ∼ wellness
gewählt. Aus der Mittelwertstabelle, dem Box- oder Interaktionsplot kann geschlossen
werden, dass Wellnessinvestionen durchschnittlich höher sind.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 88 / 97
Beispiel: Modellselektion
Eine Untersuchung mit einer abhängigen metrischen Variablen Y und zwei Faktoren A und
B mit jeweils zwei Faktorstufen lieferte folgende Mittelwertstabelle und Interaktionsplot:
B1 B2
A1 20 50
A2 40 72
70 B

B2
60

B1
Gruppenmittelwerte

50
40
30
20

A1 A2

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 89 / 97
Beispiel: Modellselektion

Y~A*B
RSS: 40.00

0.17646

Y~A+B
RSS: 45.00

< 2.22e−16 6.9664e−16

Y~A Y~B
RSS: 4850.00 RSS: 2250.00

1.0390e−02 7.5018e−06

Y~1
RSS: 7055.00

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 90 / 97
Beispiel: Modellselektion

Das Modell Y ∼ A ∗ B passt am besten zu den Daten. falsch


Die Fehlerquadratsumme des Modells Y ∼ A ist kleiner als die des Modells Y ∼ B.
falsch
Sowohl A als auch B haben entscheidenden Einfluss auf Y . richtig
Das Modell Y ∼ A + B passt am besten zu den Daten. richtig
Nur A hat entscheidenden Einfluss auf Y . falsch

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 91 / 97
Beispiel: Modellselektion

Das Modell Y ∼ A ∗ B passt am besten zu den Daten. falsch


Die Fehlerquadratsumme des Modells Y ∼ A ist kleiner als die des Modells Y ∼ B.
falsch
Sowohl A als auch B haben entscheidenden Einfluss auf Y . richtig
Das Modell Y ∼ A + B passt am besten zu den Daten. richtig
Nur A hat entscheidenden Einfluss auf Y . falsch

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 92 / 97
[ ANOVA ]

Touristen: Modellselektion

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 93 / 97
Auswertung der Daten: Touristen in Kärnten

Von welchen Faktoren hängen die Ausgaben (pro Woche in EUR) im Urlaub ab?

Ist keiner der beiden Faktoren Beruf bzw. Herkunftsland relevant für die Ausgaben?
Ist nur der Beruf relevant für die Ausgaben?
Ist nur das Herkunftsland relevant für die Ausgaben?
Sind Beruf und Herkunftsland relevant für die Ausgaben?
Sind Beruf und Herkunftsland relevant und gibt es auch eine Wechselwirkung zwischen
den beiden?

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 94 / 97
Beispiel: Touristen in Kärnten

Land

1000
Durchschnittliche Ausgaben
Deutschland
Niederlande

900
800
700
600
500

Angestellt Selbstaendig

Beruf

Der Interaktionsplot legt die Vermutung nahe, dass ein Interaktionsmodell zutreffen könnte.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 95 / 97
Modellselektion: Schritt 1

Überprüfung des Interaktionsmodells im Vergleich zum Haupteffektsmodell


Analysis of Variance Table

Model 1: Ausgaben ~ Land + Beruf


Model 2: Ausgaben ~ Land * Beruf
Res.Df RSS Df Sum of Sq F Pr(>F)
1 237 25431018
2 236 24419715 1 1011302 9.7736 0.001993

Die Interaktion ist signifikant (p = 0.002 < 0.05), daher kann keine Reduktion vom
komplexeren Modell Ausgaben ∼ Land ∗ Beruf zum einfacheren Modell Ausgaben ∼
Land + Beruf vorgenommen werden.

Stop: Das Interaktionsmodell wird beibehalten.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 96 / 97
Beispiel: Touristen in Kärnten

Interpretation: Die Differenz zwischen den mittleren Ausgaben der Angestellten und der
Selbständigen ist bei den deutschen und den niederländischen Touristen unterschiedlich.

Anhand der Mittelwertstabelle oder des Interaktionsplots ist abzulesen:


Bei den deutschen Touristen geben die Selbständigen im Durchschnitt wesentlich mehr
aus als die Angestellten.
Bei den niederländischen Touristen geben die Selbständigen im Durchschnitt etwas
weniger aus als die Angestellten.

Mittelwertstabelle
Angestellt Selbstaendig
Deutschland 724.3 1074.1
Niederlande 529.0 483.5

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 6 – ANOVA – 97 / 97

Das könnte Ihnen auch gefallen