Beruflich Dokumente
Kultur Dokumente
Varianzanalyse
3.9. klausur
-> schriftlich "ANOVA ist eine verkrüppelte regression"
Einführung "fast niemand verwendet das heute mehr"
[außer life sciences etc. natürlich]
Regressionsanalyse
Logistische Regression
Varianzanalyse
- Motivation
- Einfaktorielle Modellbildung Modellierung der var.analyse
- Zweifaktorielle Modellbildung
- Praktische Aspekte
Hauptkomponentenanalyse
Faktorenanalyse
Clusteranalyse
Varianzanalyse
Motivation
Friseur-Beispiel:
sprich nominale
variable erklärungskraft Männer -> Gruppe 1 metrische AV
Geschlecht: wie wirkt sich Geschlecht auf die Ausgaben
auf metrische AV?
Frauen -> Gruppe 2 beim Friseurbesuch aus?
Demnach wird der Effekt einer qualitativen Variable auf eine oder
av sollte eigentlisch metrisch ABER
mehrere quantitative Variablen betrachtet quasi-metrisch funktioniert auch
Die qualitative Variable wird dabei als Faktor bezeichnet und deren
Ausprägungen als Faktorstufen, Gruppen bzw. Levels z.b. geschlecht ist faktor
m und f sind faktorstufen
Beispiel (PISA-Studie)
- Für die verschiedenen Länder wurden u.a. die Mathematische wir nehmen an, dass zeitaufwand
Grundausbildung (Mittlere erreichte Punkte des Landes) und der effekt auf mathemat. grundausbildung
493
- Ist die Verteilung der Mathematischen Grundausbildung in den drei
gebildeten Gruppen identisch bzw. hat der Zeitaufwand einen Effekt
auf die Mathematische Grundausbildung?
Beispiel (PISA-Studie)
- Graphische Darstellung der Verteilung eines Merkmals in
verschiedenen Gruppen erfolgt über den Boxplot:
550
529
●
wir sehen schiefe verteilungen
wir sehen varianz
450 ●
446
387
400
●
350 334
●
Varianzanalyse
Einfaktorielle Modellbildung – Grundlagen
Yij ∼ N (µi , σ 2 )
sprich die einzelnen beobachtungen für i's und
einer festgelegten bzw. homogenen varianz
& sind normalverteilt
Varianzanalyse
Einfaktorielle Modellbildung – Unbalanciertes Design <- ZUERST dieses design hier!
F > FI−1,n−I;1−α f verteilung sieht ca. so aus -> kann nie negativ werden!
I
X
SSB = ni (ȳi − ȳ)2
i=1 y(i) ist mittelwert der i-ten faktorstufe
ni
I X
X
SSW = (yij − ȳi )2
i=1 j=1 einzelner wert - mittelwert dieser gruppe
wenn streuung zwischen gruppen deutlich größer als die innerhalb der gruppen, => quadratische qbweichung
dann scheinen diese gruppen wichtig zu sein => gruppenfaktor hat viel erklärungskraft
viel streuung innerhalb der gruppen => faktor hat wenig erklärungskraft
=> was nicht drinnen streut streut dazwischen und vice versa (sie formel ganz oben)
LS Statistik und Ökonometrie SoSe 2020 59
Varianzanalyse Einfaktorielle Modellbildung – Balanciertes Design
Varianzanalyse
Einfaktorielle Modellbildung – Balanciertes Design
SSB /(I − 1)
F = ∼ F(I−1,I(J−1))
SSW /(I(J − 1))
F > FI−1,I(J−1);1−α
Basis ist auch hier die Streuungszerlegung in SST = SSW + SSB der
Form:
Gesamte Streuung:
I X
X J
SST = (yij − ȳ)2
i=1 j=1
Varianzanalyse
Einfaktorielle Modellbildung – ANOVA-Tabelle
Varianzanalyse
Einfaktorielle Modellbildung – ANOVA-Tabelle in R
Beispiel (PISA-Studie)
> PISA=data.frame(read.table("..."))
> PISA[1:3,]
V1 V2
1 Gering 536 V1 ist gruppenvariable
V2 ist messwert (matheleistung oder so)
2 Gering 557 jede zeile ist eine beobachtung
3 Gering 514
> anova(lm(PISA[,2]~PISA[,1]))
Response: PISA[, 2]
Df Sum Sq Mean Sq F value Pr(>F)
PISA[, 1] 2 9066 4533 2.2377 0.1254
Residuals 28 56720 2026
Bei einer Irrtumswahrscheinlichkeit α = 5% hat der Zeitaufwand keinen signifikanten Einfluss auf
die Mathematische Grundausbildung
Varianzanalyse
Einfaktorielle Modellbildung – Verletzung der Normalverteilungsannahme
27
−2 −1 0 1 2
Theoretical Quantiles
lm(PISA[, 2] ~ PISA[, 1])
Varianzanalyse
Einfaktorielle Modellbildung – Nichtparametrischer Test
gibt praktisch 2 varianten: einmal mit bindungen und einmal ohne
ni
X
Ri = Rij
j=1
n(n + 1) ni
i=1 anzahl der
beobachtungen ("gruppenbesetzungen pro faktorstufe")
also wenn ränge
Modifikation der Teststatistik bei Vorliegen von Bindungen: mehr als einmal
vorkommen würden
das hier ist teststatistik für
formal hergeleitete sache mit den n^3
H
H∗ =
-> anzahl der beobachtunge hier den fall dass bindungen vorkommen
reingemacht z.b. wenn 1 3er bindung und 2 2erbindung
1 P r 3
1− n3 −n k=1 k (b − b ) -> dann aufsummieren zu dreierbindung,
k dann erste zweierbind, dann zweite zweier
-> hier wird differenz zu b^3 gebildet
mit r der Anzahl der Gruppen mit identischen Bindungen und bk der
Anzahl an Beobachtungen in der k-ten Bindungsgruppe
Testentscheidung:
- Für einen kleinen Stichprobenumfang n ist die Verteilung von H
tabelliert (z.B. in Büning, Templer (1994)) => nicht so klar, welches n genau
Beispiel (PISA-Studie)
durch farbliche hervorhebungen sehen wir die bindungen:
514 kommt dreimal vor -> eine 3-er bindung
533: 2er bindung ränge gebildet über alle werte hinweg!! NICHT pro gruppe!
529: 2er bindung => sprich insgesamt 2 2erbindungen Rangbildung
=> in welcher gruppe diese sind ist egal!!
Daten Gruppe 1 Gruppe 2 Gruppe 3
Gruppe 1 Gruppe 2 Gruppe 3 28 26.5 4
31 23 24.5
536 533 447 ist der kleinste wert 19 1 16
557 520 529 3 19 6
514 334 503 21 12 7
446 514 457 17 22 2
515 490 463 24.5 19 8
510 517 387 14 26.5 10
529 514 470 bei 3er bindung (19er vergeben): 30 9
498 533 478 wurde nicht vergeben rang 18 und 20
29 11
547 476 15
bei 2er bindung rot:
537 488 24 und 25 nicht vergeben, sonder zweimal 5
499 24.5 13
454 ni 8 13 10
493 Ri 157.5 241 97.5
E(Ri ) 128 208 160
Beispiel (PISA-Studie)
H ist immer ohne bindungen
- Teststatistik:
(157.5 − 128)2 (241 − 208)2 (97.5 − 160)2
12
H = + +
31 · 32
n-ges. = 31
8 13 10
= 7.054542
7.054542 ist wert ohne bindungen jeweilige gruppen-
größe
7.054542
H∗ =
testwerte unterscheiden sich 1 − 3131−31 [(33 − 3) + (23 − 2) + (23 − 2)]
wenig! -> wenig unterschied ob
bindungen berücksichtig oder nicht
= 7.0631
WENN n ausreichend groß, dann...
Varianzanalyse
Einfaktorielle Modellbildung – ANOVA-Tabelle in R
Beispiel (PISA-Studie)
> PISA=data.frame(read.table("..."))
> PISA[1:3,]
V1 V2
1 Gering 536
2 Gering 557
3 Gering 514
> kruskal.test(PISA[,2],PISA[,1])
Varianzanalyse
Einfaktorielle Modellbildung – Kodierung
Bis dato wurde nur der Gesamteffekt der qualitativen Variable auf Yij
betrachtet => können nicht f-test verwenden, da dieser NV annimmt
Die Formulierung der Varianzanalyse als ein lineares
Regressionsmodell erlaubt zusätzlich die Schätzung der Effekte der
verschiedenen Faktorstufen => erlaubt die schätzung der effekte auf einzelnen faktorstufen!
Modelliert wird dabei die quantitative Variable Yij in Abhängigkeit
der Faktoren
Die allgemeine Darstellung als Regressionsmodell erfolgt nur für das
balancierte Design, unterschieden wird in die Mittelwert- und die
Effektkodierung gibt verschiedene darstellungsweisen für dieses regressionsmodell
auch interaktionseffekte machen nur für effektkodierung sinn
Varianzanalyse
das heir ist mittelwertkodierung als beispiel:
Einfaktorielle Modellbildung – Mittelwertkodierung
µ̂ = (A0 A)−1 A0 y
von infoniveau her eingeschränkte matrix A,
selber schätzer aber wie bei regression
In der Mittelwertdarstellung ergibt sich der Schätzer als das
Stichprobenmittel der quantitativen Variable über die i-te Faktorstufe
mit:
J
1X
µi = Yij = Ȳi
J
j=1
H0 : µ1 = µ2 = . . . = µI , H1 : µi 6= µj
H1 sagt es gibt einen unterschied zw. einer
der faktorstufen
für mindestens ein Paar (i,j), i 6= j bzw. zwischen einem paar an
teilgruppen
Teststatistik:
SSB /(I − 1)
F = ∼ F(I−1,I(J−1))
SSW /(I(J − 1))
Beispiel (Unterrichtsmethoden)
Geprüft werden soll der Effekt von vier unterschiedlichen
Lehrmethoden auf den Lernerfolg, welcher durch die erzielten Punkte
im Abschlusstest ermittelt wurde (Fahrmeir, Hamerle, Tutz, 1996,
S.172)
Gruppe 1 Gruppe 2 Gruppe 3 Gruppe 4
16 20 16 18 2 11 5 1
AV: Lernerfolg
UV: Lernmethode -> 4 Gruppen 18 15 12 15 10 9 8 9
n = 32
20 23 10 12 9 10 8 5
15 19 14 13 10 9 11 9
Jede Gruppe umfasst 8 Schüler, somit gab es insgesamt 32 Teilnehmer
mittelwerte: 18,25; .....
mü wird durch
mittelwert geschätzt
einfach mittelwerte berechnen pro gruppe
Beispiel (Lehrmethoden)
> LEHRE=data.frame(read.table(".../Daten_Lehrmethoden.txt"))
> lm(LEHRE[,2]~as.factor(LEHRE[,1])-1)
lineares modell mit faktorstufen, -1 beduetet dass ohne achsenabschnitt geschätzt
das hier eig noch keine anova
gruppen: dach auf mü, da es eine stichprobe gibt:
Coefficients:
hier würde ich
as.factor(LEHRE[, 1])1 18.250 jeweils testen
as.factor(LEHRE[, 1])2 13.750 ob ein wert sign.
von 0 verschieden
as.factor(LEHRE[, 1])3 8.750 ist
as.factor(LEHRE[, 1])4 7.000
erst jetzt anova:
> anova(lm(LEHRE[,2]~as.factor(LEHRE[,1]))) WICHTIG: das hier ist schätzung OHNE achsenabschnitt
d.h. gruppe 1 führt zu durchscnitt von 18.250 direkt!
Analysis of Variance Table heir schätze ich signifikanz der stufen direkt
⇒ Die Lehrmethode hat einen Einfluss auf den Lernerfolg, bspw. wurden
mit der Lehrmethode 1 im Mittel 18.25 Punkte erzielt
LS Statistik und Ökonometrie SoSe 2020 75
Varianzanalyse Einfaktorielle Modellbildung – Mittelwertkodierung
Varianzanalyse allgemeins problem mit den ganzen t-testungen pro modell hier:
werden, desto größer die Wahrscheinlichkeit, dass mindestens ein Test -> 1- 0.95 ^4= 0.1855
=> eigentlisch schätzen wir mit
fälschlicherweise abgelehnt wird risiko über alle 4 paare hinweg mit
alpha = 18.55
Verwende stattdessen Verfahren, die unabhängig von der Zahl der
Vergleiche die Fehlerrate konstant halten
Bei der Beschränkung auf Paarvergleiche eignet sich die Methode
hat student-verteilung
von Tukey, die Konfidenzintervalle bestimmt => müssen nur wissen, dass es sie gibt
Beispiel (Lehrmethoden)
> TukeyHSD(aov(LEHRE[,2]~as.factor(LEHRE[,1])))
hier tukey-korrektur für tests berechnet
Durch eine Reparametrisierung des Modells erhält man die reparametrisierung bedeutet:
Effektdarstellung
Aus den Mittelwerten der i-ten Faktorstufen µi ergibt sich der
Gesamtmittelwert:
I
1X
µ= µi
I
i=1
Der Effekt der Faktorstufe i ist die Abweichungen der Mittelwerte der
i-ten Faktorstufe zum Gesamtmittelwert:
a i = µi − µ
In Matrixschreibweise ergibt sich: jetzt hier nicht mehr mü, sondern theta!
theta steht für vektor mit verschiedenen paramtern!
in theta ist mü und a1 bis a i-1 drin
Y = Aθ +
1en ist ohne faktorstufen jetzt das
globale mü
mit
0, 1, -1 für die a's (a's - 1)
Y11
.. 1 1 0 ··· 0
. .. .. .. ..
Y1J
. . . ··· .
1 1 0 ··· 0 µ
Y21
1 0 1 · · · −1 a1
..
.
.. .. ..
.. , θ = a2
Y= ,A =
Y2J
. . . ··· .
..
1 0 1 · · · −1 .
..
.
1 −1 −1 · · · −1 aI−1
YI1
.. .. ..
..
a i-1 heißt
.. . . . ··· .
nicht alle faktorstufen
. sondern stufen minus
1 -1−1
ist jetzt
−1 · · · −1 1 heir modelliert
YIJ referenzkategorie
Designmatrix
bzw.
âi = Ȳi· − Ȳ
Die Formulierung der allgemeinen Hypothese lautet:
H0 hier dass alle faktorstufen gleich sind
H0 : a1 = a2 = . . . = aI−1 = 0, H1 : ai 6= 0
für sign.-test schätzen wir alle faktorstufen bis auf eine! vs. mindestens einer ist ungleich 0
h0: alle faktorstufen sind gleich, nämlich 0
für mindestens ein i
und entspricht dem F-Test auf gemeinsame Signifikanz aller
Regressoren => zeigt also an, ob modell einen signifikanten effekt beinhaltet
Varianzanalyse
Zweifaktorielle Modellbildung – Grundlagen
i = 1, . . . , I j = 1, . . . , Jk = 1, . . . ,K
mit ijk ∼ N (0, σ 2 )
Der globale Parameter wird mit µ bezeichnet, ai bzw. bj
repräsentieren die Haupteffekte der beiden Merkmale A bzw. B
Wirken die i-te Faktorstufe des Merkmals A und die j-te Faktorstufe
des Merkmals B zusammen, entsteht der Interaktionseffekt abij
Einzeln lassen sich die Effekte darstellen durch:
I J
1 XX
µ = µij
mittelwert über
alle faktorstufen von IJ
a und von b
i=1 j=1
ai = µi· − µ abweichung mittel faktor a von global
Y = Aθ +
I
X J
X I
X J
X
ai = 0, bj = 0, abij = abij = 0
i=1 j=1 i=1 j=1
θ̂ = (A0 A)−1 A0 y
Varianzanalyse
Zweifaktorielle Modellbildung – ANOVA-Tabelle
PJ SSB /(J−1)
SSB IK j=1 (ȳ·j· − ȳ)2 J −1 SSR /(IJ(K−1))
PI PJ SSAB /((I−1)(J−1))
SSAB K i=1 j=1 (ȳij· − ȳi·· − ȳ·j· + ȳ)2 (I − 1)(J − 1) SSR /(IJ(K−1))
PI PJ PK
SSR i=1 j=1 k=1 (yijk − ȳij· )2 IJ(K − 1)
PI PJ PK
SST i=1 j=1 k=1 (yijk − ȳ)2
Varianzanalyse
Zweifaktorielle Modellbildung – Orthogonalität
balanciertes design wenn in allen gruppen selbes n
Für die Effektkodierung bei balanciertem Design besitzt die
Designmatrix A die Orthogonalitätseigenschaft, was bedeutet, dass A
in Teilmatrizen zerlegt werden kann, die zueinander orthogonal sind
orthogonalitätseigenschaft: unabhängig zueinander! matrix ist zerlegbar
x0ai xbi = 0
Varianzanalyse
Praktische Aspekte – Abschließendes Beispiel
Beispiel (Margarine)
Betrachtet wird der Margarineabsatz an 10 zufälligen Tagen für
unterschiedliche Kombinationen von Preis- und
Kommunikationsstrategie (Fahrmeir, Hamerle, Tutz, 1996, S.182)
Postwurf Anzeige
Niedrig 68 64 59 51
1. faktor: preisstrategie mit 3 faktorstufen
Niedrig 65 66 57 52
1
Niedrig 63 59 54 55
2. faktor: kommunikationsstrategie mit 2 faktorstufen
Niedrig 59 64 56 54
Niedrig 67 63 53 52
Normal 59 49 51 50
insgesamt 6 gruppen à 10 beobachtungen
2 Normal 50 50 45 47
Normal 51 52 46 46
51,5 => für jede der gruppen durchschnittswert berechenbar
Normal 48 53 48 45
Normal 53 50 49 47
Hoch 40 35 47 49
3
Hoch 39 34 39 44
Hoch 35 38 40 48
Hoch 36 39 46 47
Hoch 37 36 45 44
Untersucht wird der Effekt der Marketinginstrumente auf den
Abverkauf eines Produktes
Beispiel (Margarine)
> Marg=data.frame(read.table(".../Daten_Margarine.txt"))
> names(Marg)=c("Kommunikation","Preis","Abverkauf")
> par(mfrow=c(1,2))
> boxplot(Abverkauf~Preis, data=Marg)
> boxplot(Abverkauf~Kommunikation, data=Marg)
1. faktor preisstrategie 2. faktor kommunikationsstrategie
2. faktor mit 2 leveln (anderer faktor ignoriert)
hier 1. faktor mit 3 leveln (faktor 2 ignoriert bzw.
darüber gemittelt)
65
65
●
55
55
45
45
35
35
Beispiel (Margarine)
> attach(Marg)
> par(mfrow=c(1,2))
> interaction.plot(Preis,Kommunikation,Abverkauf,lwd=4)
> interaction.plot(Kommunikation,Preis,Abverkauf,lwd=4)
er sagt: kreuzung der geraden weißt auf signifikanten interaktionseffekt hin!
Kommunikation Preis
60
60
Postwurf Niedrig
mean of Abverkauf
mean of Abverkauf
Anzeige Normal
55
55
Hoch
50
50
45
45
40
40
Hoch Niedrig Normal Anzeige Postwurf
Preis 3-er faktor auf x, 2er faktor Kommunikation 2-er faktor auf x,
abgetragen 3er faktor abgetragen
Beispiel (Margarine)
> anova(lm(Abverkauf~Preis*Kommunikation, data=Marg))
Analysis of Variance Table