Sie sind auf Seite 1von 40

Varianzanalyse

Varianzanalyse
3.9. klausur
-> schriftlich "ANOVA ist eine verkrüppelte regression"
Einführung "fast niemand verwendet das heute mehr"
[außer life sciences etc. natürlich]
Regressionsanalyse
Logistische Regression
Varianzanalyse
- Motivation
- Einfaktorielle Modellbildung Modellierung der var.analyse
- Zweifaktorielle Modellbildung
- Praktische Aspekte
Hauptkomponentenanalyse
Faktorenanalyse
Clusteranalyse

LS Statistik und Ökonometrie SoSe 2020 52


Varianzanalyse Motivation

Varianzanalyse
Motivation

Die Varianzanalyse spielt eine bedeutende Rolle im Bereich von


Experimenten in experimenteller forschung!!: z.b. medizin auch: medikamentenstudien, placebokontrolle etc.
Bei der einfachen Varianzanalyse wird die Grundgesamtheit bezüglich
eines Merkmals in unterschiedlichen Grundgesamtheiten (Gruppen)
zerlegt
Untersucht wird, ob die Verteilung eines bzw. mehrerer Merkmale in
den Gruppen identisch ist (univariaten bzw. multivariaten
Varianzanalyse) => unterscheiden sich die gruppen in ihrer verteilung?

Friseur-Beispiel:
sprich nominale
variable erklärungskraft Männer -> Gruppe 1 metrische AV
Geschlecht: wie wirkt sich Geschlecht auf die Ausgaben
auf metrische AV?
Frauen -> Gruppe 2 beim Friseurbesuch aus?

=> frauen seltener aber teurer im vgl. zu männern

LS Statistik und Ökonometrie SoSe 2020 53


Varianzanalyse Motivation
weniger wichtig, ob tatsächlich nominal
skaliert; können auch ordinale nehmen
-> wichtig:
dass variable gruppen definieren kann

Demnach wird der Effekt einer qualitativen Variable auf eine oder
av sollte eigentlisch metrisch ABER
mehrere quantitative Variablen betrachtet quasi-metrisch funktioniert auch

Die qualitative Variable wird dabei als Faktor bezeichnet und deren
Ausprägungen als Faktorstufen, Gruppen bzw. Levels z.b. geschlecht ist faktor
m und f sind faktorstufen

Die Aufteilung der Grundgesamtheit kann mittels eines oder mehrerer


Faktoren erfolgen (einfaktorielles bzw. mehrfaktorielles Design)
⇒ Das Hauptziel der Varianzanalyse besteht darin, zu testen, ob die
Faktoren einzeln bzw. in Kombination einen Einfluss auf die
abhängige Variablen besitzen.
zuerst ob kombination -> f-test

dann ob einzelne -> t-tests

LS Statistik und Ökonometrie SoSe 2020 54


Varianzanalyse Motivation

Beispiel (PISA-Studie)
- Für die verschiedenen Länder wurden u.a. die Mathematische wir nehmen an, dass zeitaufwand
Grundausbildung (Mittlere erreichte Punkte des Landes) und der effekt auf mathemat. grundausbildung

Zeitaufwand der Schüler für Hausaufgaben erhoben (Handl, 2002)


- Anhand des Zeitaufwandes (gering, mittel, groß) können die Länder in
drei Gruppen aufgeteilt werden:
Faktor: Zeitaufwand
gering – Gruppe 1 mittel – Gruppe 2 groß – Gruppe 3
Zeit ist eigentlich metrisches merkmal,
536 533 447 wir haben allerdings auf ordinalem niveau
aber für uns nicht relevant -
557 520 529 brauchen nur definierte gruppen
bereitgestellt
514 334 503
Faktorstufen:
446 514 457 - gering
515 490 463 - mittel
- groß
510 517 387
529 514 470
498 533 478
n1 = 8
n2 = 13 547 476
n3 = 10 Summe: n = 31
537 488
499
454 einzelne werte sind gemittelte länderwerte

493
- Ist die Verteilung der Mathematischen Grundausbildung in den drei
gebildeten Gruppen identisch bzw. hat der Zeitaufwand einen Effekt
auf die Mathematische Grundausbildung?

LS Statistik und Ökonometrie SoSe 2020 55


Varianzanalyse Motivation

Beispiel (PISA-Studie)
- Graphische Darstellung der Verteilung eines Merkmals in
verschiedenen Gruppen erfolgt über den Boxplot:
550
529

wir sehen schiefe verteilungen
wir sehen varianz

Mittlere erreichte Punkte


500
wahrscheinlich ist der median abgetragen
bei boxplot (uns geht um mittelwert)

450 ●

446
387
400

350 334

Gering (Gr 1) Mittel (Gr 2) Groß (Gr 3)


Gruppierter Zeitaufwand (der Ländergruppen)

LS Statistik und Ökonometrie SoSe 2020 56


Varianzanalyse Einfaktorielle Modellbildung – Grundlagen

Varianzanalyse
Einfaktorielle Modellbildung – Grundlagen

Ist die Verteilung der Zufallsvariablen Y in den Gruppen identisch?


Zufallsvariable ist Y, Realisationen ist y
Ausgangspunkt sind die Realisationen yij der unabhängigen
AV
Zufallsvariablen Yij mit:
das hier wären unsere
- Den Gruppenausprägungen bzw. Faktorstufen i = 1, . . . ,I 3 faktorstufen

- Den Beobachtungen pro Gruppe j = 1, . . . , ni n's sind: 8, 13, 10


- Der Gesamtzahl der Beobachtungen n
Allgemein wird unterschieden in:
- Ein balanciertes Design mit n1 = n2 = . . . = nI
- Ein unbalanciertes Design, bei dem ni unterschiedlich
in realität häufiger
groß sein kann
Für Yij wird eine Normalverteilung unterstellt mit dem
Erwartungswert µi und der Varianz σ 2 (Varianzhomogenität)

Yij ∼ N (µi , σ 2 )
sprich die einzelnen beobachtungen für i's und
einer festgelegten bzw. homogenen varianz
& sind normalverteilt

LS Statistik und Ökonometrie SoSe 2020 57


Varianzanalyse Einfaktorielle Modellbildung – Unbalanciertes Design

Varianzanalyse
Einfaktorielle Modellbildung – Unbalanciertes Design <- ZUERST dieses design hier!

Geprüft wird nun, ob sich die Erwartungswerte zwischen den Gruppen


bzw. Faktorstufen unterscheiden: ähnliches vorgehen wie bei OLS regression:

H0 : µ1 = µ2 = . . . = µI , H1 : µi 6= µj => sprich mindestens eine gruppe unterscheidet sich


von einer anderen

für mindestens ein Paar (i,j) i 6= j


Die Nullhypothese postuliert, dass sich die einzelnen Faktorstufen
hinsichtlich ihres Einflusses auf die quantitative Variable nicht
unterscheiden
Teststatistik für das unbalancierte Design:
SSB ist streuung zwischen gruppen und SSW within (innerhalb)
diese beiden werden ins verhältnis gesetzt &
SSB /(I − 1) die zähler und nenner freiheitsgrade auch
F = ∼ F(I−1,n−I)
SSW /(n − I) I ist anzahl der Gruppen
n ist anzahl der gesamtbeobachtungen => F (2, 28) in unserem
Beispiel
Testentscheidung: H0 wird bei einer Irrtumswahrscheinlichkeit α
abgelehnt, wenn der Wert der Teststatistik größer ist als das
(1 − α)-Quantil der F-Verteilung mit (I − 1) Zähler-Freiheitsgraden
und (n − I) Nenner-Freiheitsgraden

F > FI−1,n−I;1−α f verteilung sieht ca. so aus -> kann nie negativ werden!

schauen ob testwert extremer als H0 F-wert der spez. verteilung


LS Statistik und Ökonometrie SoSe 2020 mit ebstimmter anzahl an df 58
Varianzanalyse Einfaktorielle Modellbildung – Unbalanciertes Design

Basis ist die Streuungszerlegung in SST = SSW + SSB


Gesamte Streuung:
ni
I X
X
SST = (yij − ȳ)2
einzelner - globaler mittelwert
i=1 j=1 wert (unabhängig von eigentlicher gruppe in welcher
wert ist)

Streuung zwischen den Gruppen: => quadratische abweichung

I
X
SSB = ni (ȳi − ȳ)2
i=1 y(i) ist mittelwert der i-ten faktorstufe

y-strich ist weiterhin globaler mittelwert


=> erneut quadratische abweichung ABER
Streuung innerhalb der Gruppen: in unbalanciertem design wird mit jeweiligem n der faktor-
stufe gewichtet!! -> sprich jweiliger gruppengröße

ni
I X
X
SSW = (yij − ȳi )2
i=1 j=1 einzelner wert - mittelwert dieser gruppe
wenn streuung zwischen gruppen deutlich größer als die innerhalb der gruppen, => quadratische qbweichung
dann scheinen diese gruppen wichtig zu sein => gruppenfaktor hat viel erklärungskraft

viel streuung innerhalb der gruppen => faktor hat wenig erklärungskraft
=> was nicht drinnen streut streut dazwischen und vice versa (sie formel ganz oben)
LS Statistik und Ökonometrie SoSe 2020 59
Varianzanalyse Einfaktorielle Modellbildung – Balanciertes Design

Varianzanalyse
Einfaktorielle Modellbildung – Balanciertes Design

Im balancierten Design ist die Zahl der Beobachtungen pro Gruppe


bzw. Faktorstufe gleich, so dass ni = J
Bei identischer Nullhypothese:

H0 : µ1 = µ2 = . . . = µI , H1 : µi 6= µj hier gleich wie bisher auch


nur vereinfacht

für mindestens ein Paar (i,j) i 6= j


Teststatistik für das balancierte Design:

SSB /(I − 1)
F = ∼ F(I−1,I(J−1))
SSW /(I(J − 1))

Testentscheidung: H0 wird bei einer Irrtumswahrscheinlichkeit α


abgelehnt, wenn der Wert der Teststatistik größer ist als das
(1 − α)-Quantil der F-Verteilung mit (I − 1) Zähler-Freiheitsgraden
und I(J − 1) Nenner-Freiheitsgraden

F > FI−1,I(J−1);1−α

LS Statistik und Ökonometrie SoSe 2020 60


Varianzanalyse Einfaktorielle Modellbildung – Balanciertes Design

Basis ist auch hier die Streuungszerlegung in SST = SSW + SSB der
Form:
Gesamte Streuung:
I X
X J
SST = (yij − ȳ)2
i=1 j=1

Streuung zwischen den Gruppen:


I
X
SSB = J (ȳi − ȳ)2
i=1 hier mit J multipliziert statt mit jeweiliger
gruppengröße

Streuung innerhalb der Gruppen:


I X
X J
SSW = (yij − ȳi )2
i=1 j=1

LS Statistik und Ökonometrie SoSe 2020 61


Varianzanalyse Einfaktorielle Modellbildung – ANOVA-Tabelle

Varianzanalyse
Einfaktorielle Modellbildung – ANOVA-Tabelle

Die Darstellung der Streuungszerlegung erfolgt mit Hilfe der


ANOVA-Tabelle:
Quadrat- Freiheits- Mittlere
F
summen grade Quadratsummen
Zwischen SSB I −1 M SSB M SSB
Innerhalb SSW n−I M SSW M SSW

Total SST n−1


Am Beispiel der PISA-Studie ergeben sich folgende Werte:
Quadrat- Freiheits- Mittlere
F
summen grade Quadratsummen
wir sehen dass
zwischen gruppen Zwischen 9066.03 3−1=2 4533.02
wenig und inner- 2.2377 testwert ->
halb der gruppen Innerhalb 56720.17 31 − 3 = 28 2025.72 kann nicht abgelehnt
viel streuung werden, da unter
Total 65786.19 31 − 1 = 30 3.3404

Bei einem α = 5% und F2,28;0.95 = 3.3404 kann die Nullhypothese


theoretischer wert
nicht abgelehnt werden
LS Statistik und Ökonometrie SoSe 2020 62
Varianzanalyse Einfaktorielle Modellbildung – ANOVA-Tabelle in R

Varianzanalyse
Einfaktorielle Modellbildung – ANOVA-Tabelle in R

Beispiel (PISA-Studie)
> PISA=data.frame(read.table("..."))
> PISA[1:3,]
V1 V2
1 Gering 536 V1 ist gruppenvariable
V2 ist messwert (matheleistung oder so)
2 Gering 557 jede zeile ist eine beobachtung
3 Gering 514
> anova(lm(PISA[,2]~PISA[,1]))

Response: PISA[, 2]
Df Sum Sq Mean Sq F value Pr(>F)
PISA[, 1] 2 9066 4533 2.2377 0.1254
Residuals 28 56720 2026

Bei einer Irrtumswahrscheinlichkeit α = 5% hat der Zeitaufwand keinen signifikanten Einfluss auf
die Mathematische Grundausbildung

LS Statistik und Ökonometrie SoSe 2020 63


Varianzanalyse Einfaktorielle Modellbildung – Verletzung der NV-Annahme

Varianzanalyse
Einfaktorielle Modellbildung – Verletzung der Normalverteilungsannahme

Der F-Test beruht auf der Annahme der Normalverteilung


Beispiel (PISA-Studie)
nicht signifikant ABER

Normal Q−Q => F-Test beruht auf NV-annahme


das hier würden wir anahnd von residuen
anschauen QQ-plot testet NV
-> diese bekommen wir aber erst durch
Standardized residuals
1
regressionsmodellerstellung (t-tests)
-> so lange wir nur f-test machen, bekommen
0

wir diese nicht!


−1

=> wir schauen erst, ob varianz zwischen


ordentliche abweichung von NV
gruppen größer als innerhalb 4 aber wäre noch ok
−2

27

aber zusammen mit diesem hier


−3

zieht es werte zu weit weg! -> f-test nicht geeignet


11
−4

−2 −1 0 1 2
Theoretical Quantiles
lm(PISA[, 2] ~ PISA[, 1])

Falls die Annahme der Normalverteilung nicht gerechtfertigt ist,


sollten nichtparametrische Tests durchgeführt werden
LS Statistik und Ökonometrie SoSe 2020 64
Varianzanalyse Einfaktorielle Modellbildung – Nichtparametrischer Test

Varianzanalyse
Einfaktorielle Modellbildung – Nichtparametrischer Test
gibt praktisch 2 varianten: einmal mit bindungen und einmal ohne

Der Kruskal-Wallis-Test beruht auf der Annahme, dass die


unabhängigen Zufallsvariablen Yij aus einer stetigen muss nicht NV sondern lediglich
stetige verteilung sein
Verteilungsfunktion stammen
Es wird getestet:
H0: Die Verteilungen sind in allen Gruppen identisch,
H1: Mindestens zwei Gruppen unterscheiden sich hinsichtlich der Lage
Vorgehen:
- Bilde über alle Beobachtungen die Ränge, falls Beobachtungen
identisch sind, werden Durchschnittsränge vergeben jetzt messen wir nicht mehr mittlere quadratische
abweichung SONDERN beobachtungen werden
- Bestimme die Rangsummen für jede Gruppe i in ränge überführt!

ni
X
Ri = Rij
j=1

- Bestimme den erwarteten Rang E(Ri ) der Gruppe i


das hier wären  
die erwarteten werte: ni ni wir setzen ins verhältnis: gruppengröße pro
X X ni (n + 1) gesamtzahl -> das gibt erwartungswert
E(Ri ) = E  Rij  = E(Rij ) = für ränge!!
j=1 j=1
2

LS Statistik und Ökonometrie SoSe 2020 65


Varianzanalyse Einfaktorielle Modellbildung – Nichtparametrischer Test
analoge varianz: welche abweichung haben wir für die hypothetische
diesen teil einfach
rangstufe -> diff zwischen individuell beobachteten rängen und
Teststatistik: so hinnehmen (glaube
meinte dieser ist typisch
erwarteten rängen für die einzelnen faktorstufen
für nichtparametr. tests) das heir ist eigentliche
I
12 X 1 teststatistik wenn

H= (Ri − E(Ri ))2 keine bindungen vorkommen

n(n + 1) ni
i=1 anzahl der
beobachtungen ("gruppenbesetzungen pro faktorstufe")
also wenn ränge
Modifikation der Teststatistik bei Vorliegen von Bindungen: mehr als einmal
vorkommen würden
das hier ist teststatistik für
formal hergeleitete sache mit den n^3
H
H∗ =
-> anzahl der beobachtunge hier den fall dass bindungen vorkommen
reingemacht z.b. wenn 1 3er bindung und 2 2erbindung
1 P r 3
1− n3 −n k=1 k (b − b ) -> dann aufsummieren zu dreierbindung,
k dann erste zweierbind, dann zweite zweier
-> hier wird differenz zu b^3 gebildet
mit r der Anzahl der Gruppen mit identischen Bindungen und bk der
Anzahl an Beobachtungen in der k-ten Bindungsgruppe
Testentscheidung:
- Für einen kleinen Stichprobenumfang n ist die Verteilung von H
tabelliert (z.B. in Büning, Templer (1994)) => nicht so klar, welches n genau

n = 30 wäre wohl zwischen klein und groß


H ≥ h1−α
- Für einen großen Stichprobenumfang n ist H approximativ χ2 -verteilt
chi2
mit (I − 1) Freiheitsgraden
H ≥ χ2I−1;1−α
LS Statistik und Ökonometrie SoSe 2020 66
Varianzanalyse Einfaktorielle Modellbildung – Nichtparametrischer Test

Beispiel (PISA-Studie)
durch farbliche hervorhebungen sehen wir die bindungen:
514 kommt dreimal vor -> eine 3-er bindung
533: 2er bindung ränge gebildet über alle werte hinweg!! NICHT pro gruppe!
529: 2er bindung => sprich insgesamt 2 2erbindungen Rangbildung
=> in welcher gruppe diese sind ist egal!!
Daten Gruppe 1 Gruppe 2 Gruppe 3
Gruppe 1 Gruppe 2 Gruppe 3 28 26.5 4
31 23 24.5
536 533 447 ist der kleinste wert 19 1 16
557 520 529 3 19 6
514 334 503 21 12 7
446 514 457 17 22 2
515 490 463 24.5 19 8
510 517 387 14 26.5 10
529 514 470 bei 3er bindung (19er vergeben): 30 9
498 533 478 wurde nicht vergeben rang 18 und 20
29 11
547 476 15
bei 2er bindung rot:
537 488 24 und 25 nicht vergeben, sonder zweimal 5
499 24.5 13
454 ni 8 13 10
493 Ri 157.5 241 97.5
E(Ri ) 128 208 160

⇒ Es sind eine Bindung mit 3 Beobachtungen und zwei Bindungen mit


R(i) ist rangsumme pro gruppe (ränge pro gruppe aufsummiert)
jeweils 2 Beobachtungen vorhanden E(R-i) relativiert auf die gruppengröße und anzahl
der beobachtungen erwarteter wert!
=> rangbildung beeinflusst teststatistik nicht so mega
wie man denken würde bzw. die bindungs-berechnung eher ähnlcih
zu normalen rangwerten!

diese unterschiede zwischen erwartet


und tatsächlcih ist itneressant!

LS Statistik und Ökonometrie SoSe 2020 67


Varianzanalyse Einfaktorielle Modellbildung – Nichtparametrischer Test

Beispiel (PISA-Studie)
H ist immer ohne bindungen
- Teststatistik:
(157.5 − 128)2 (241 − 208)2 (97.5 − 160)2
 
12
H = + +
31 · 32
n-ges. = 31
8 13 10
= 7.054542
7.054542 ist wert ohne bindungen jeweilige gruppen-
größe

- Modifiziert: modifikation auf basis der bindungen

7.054542
H∗ =
testwerte unterscheiden sich 1 − 3131−31 [(33 − 3) + (23 − 2) + (23 − 2)]
wenig! -> wenig unterschied ob
bindungen berücksichtig oder nicht
= 7.0631
WENN n ausreichend groß, dann...

- Bei einem α = 5% und χ22;0.95 = 5.99 kann die Nullhypothese


abgelehnt werden, der Zeitaufwand besitzt einen Effekt auf die
Mathematische Grundausbildung
WENN n nicht ausreichend groß, dann in tabelle nachschlagen:
tabelle bei 5, 84 [ist kleiner als wert der chi2-verteilung, ist aber auch der exakte wert und chi2 approximativ!]

LS Statistik und Ökonometrie SoSe 2020 68


Varianzanalyse Einfaktorielle Modellbildung – Nichtparametrischer Test

Varianzanalyse
Einfaktorielle Modellbildung – ANOVA-Tabelle in R

Beispiel (PISA-Studie)
> PISA=data.frame(read.table("..."))
> PISA[1:3,]
V1 V2
1 Gering 536
2 Gering 557
3 Gering 514
> kruskal.test(PISA[,2],PISA[,1])

Kruskal-Wallis rank sum test

data: PISA[, 2] and PISA[, 1]

Kruskal-Wallis chi-squared =7.0631, df = 2, p-value = 0.02926

LS Statistik und Ökonometrie SoSe 2020 69


Varianzanalyse Einfaktorielle Modellbildung – Kodierung

Varianzanalyse
Einfaktorielle Modellbildung – Kodierung

Bis dato wurde nur der Gesamteffekt der qualitativen Variable auf Yij
betrachtet => können nicht f-test verwenden, da dieser NV annimmt
Die Formulierung der Varianzanalyse als ein lineares
Regressionsmodell erlaubt zusätzlich die Schätzung der Effekte der
verschiedenen Faktorstufen => erlaubt die schätzung der effekte auf einzelnen faktorstufen!
Modelliert wird dabei die quantitative Variable Yij in Abhängigkeit
der Faktoren
Die allgemeine Darstellung als Regressionsmodell erfolgt nur für das
balancierte Design, unterschieden wird in die Mittelwert- und die
Effektkodierung gibt verschiedene darstellungsweisen für dieses regressionsmodell
auch interaktionseffekte machen nur für effektkodierung sinn

effektkodierung ist die bessere darstellungsmöglichkeit

LS Statistik und Ökonometrie SoSe 2020 70


Varianzanalyse Einfaktorielle Modellbildung – Mittelwertkodierung

Varianzanalyse
das heir ist mittelwertkodierung als beispiel:
Einfaktorielle Modellbildung – Mittelwertkodierung

Betrachtet werden I Faktorstufen mit jeweils J Beobachtungen

Yij = µi + ij mit i = 1, . . . , I j = 1, . . . ,J


metrische var. = mittelwerte der faktorstufen + störgröße über beobachtunge der einzelnen faktorstufen hinweg
mit µi als den Effekt der i-ten Faktorstufe abweichungen von der ols-regression:
In Matrixschreibweise ergibt sich: störterm über alle
faktorstufen und für designmatrix hat nur noch rudimentäre informationen für
jede beobachtung die effektschätzung!
Y = Aµ + 
"mittelwertskodierung"
ist in gruppe oder nicht
mit sprich gibt nur 0 oder 1
 
1 0 0 ···
.. .. .. 
 
Y11 
 . ··· . 
.
 ..  
µ1
  
 .   1 0 ··· 0 
  
··· ··· ··· ··· 
 ..  vektor mit i faktorstufen
 Y1J
Y= ,A = 
,µ = 

.  durch 0-1-kodierung in A schätzen
 ..
 
 .



 0 ··· 0 1  
µi wir praktisch die mittelwerte
.. . ..  in den einzelnen stufen
. · · · ..

YIJ  . 
Y ist beobachtungen über 0 ··· 0 1
faktorstufen und ... hinweg

A wird als Designmatrix bezeichnet


LS Statistik und Ökonometrie SoSe 2020 71
Varianzanalyse Einfaktorielle Modellbildung – Mittelwertkodierung

Es gelten die Annahmen des linearen Regressionsmodell:


störterm e unterliegt gauß markow annahmen: normalverteilt und varianzhomogenität!

ij ∼ N (0, σ 2 ) bzw. Yij ∼ N (µi , σ 2 )


Y hat ebenfalls homogene varianzverteilung

Allgemein ist der KQ-Schätzer:

µ̂ = (A0 A)−1 A0 y
von infoniveau her eingeschränkte matrix A,
selber schätzer aber wie bei regression
In der Mittelwertdarstellung ergibt sich der Schätzer als das
Stichprobenmittel der quantitativen Variable über die i-te Faktorstufe
mit:
J
1X
µi = Yij = Ȳi
J
j=1

Der Schätzer ist unverzerrt und konsistent (BLUE-Eigenschaft)

LS Statistik und Ökonometrie SoSe 2020 72


Varianzanalyse Einfaktorielle Modellbildung – Mittelwertkodierung

Anhand der allgemeinen Hypothese wird getestet, ob der gesamte


Faktor einen Einfluss besitzt:
H0 sagt über alle gruppen hinweg keinen sign. unterschied
in mittelwert -> wenn kein unterschied in teilmittelwerten dann kein
effekt auf AV -> gibt keinen mehrwert durch zunahme des faktors samt dessen stufen

H0 : µ1 = µ2 = . . . = µI , H1 : µi 6= µj
H1 sagt es gibt einen unterschied zw. einer
der faktorstufen
für mindestens ein Paar (i,j), i 6= j bzw. zwischen einem paar an
teilgruppen

Teststatistik:
SSB /(I − 1)
F = ∼ F(I−1,I(J−1))
SSW /(I(J − 1))

Es ergibt sich wieder die Anova-Tabelle

folgende beispiele sind balanciert, damit schätzung und stufenkodierung einfacher!:

LS Statistik und Ökonometrie SoSe 2020 73


Varianzanalyse Einfaktorielle Modellbildung – Mittelwertkodierung

Beispiel (Unterrichtsmethoden)
Geprüft werden soll der Effekt von vier unterschiedlichen
Lehrmethoden auf den Lernerfolg, welcher durch die erzielten Punkte
im Abschlusstest ermittelt wurde (Fahrmeir, Hamerle, Tutz, 1996,
S.172)
Gruppe 1 Gruppe 2 Gruppe 3 Gruppe 4
16 20 16 18 2 11 5 1
AV: Lernerfolg
UV: Lernmethode -> 4 Gruppen 18 15 12 15 10 9 8 9
n = 32
20 23 10 12 9 10 8 5
15 19 14 13 10 9 11 9
Jede Gruppe umfasst 8 Schüler, somit gab es insgesamt 32 Teilnehmer
mittelwerte: 18,25; .....

mü wird durch
mittelwert geschätzt
einfach mittelwerte berechnen pro gruppe

-> diese sind dann mü

LS Statistik und Ökonometrie SoSe 2020 74


Varianzanalyse Einfaktorielle Modellbildung – Mittelwertkodierung

Beispiel (Lehrmethoden)
> LEHRE=data.frame(read.table(".../Daten_Lehrmethoden.txt"))
> lm(LEHRE[,2]~as.factor(LEHRE[,1])-1)
lineares modell mit faktorstufen, -1 beduetet dass ohne achsenabschnitt geschätzt
das hier eig noch keine anova
gruppen: dach auf mü, da es eine stichprobe gibt:
Coefficients:
hier würde ich
as.factor(LEHRE[, 1])1 18.250 jeweils testen
as.factor(LEHRE[, 1])2 13.750 ob ein wert sign.
von 0 verschieden
as.factor(LEHRE[, 1])3 8.750 ist
as.factor(LEHRE[, 1])4 7.000
erst jetzt anova:
> anova(lm(LEHRE[,2]~as.factor(LEHRE[,1]))) WICHTIG: das hier ist schätzung OHNE achsenabschnitt
d.h. gruppe 1 führt zu durchscnitt von 18.250 direkt!
Analysis of Variance Table heir schätze ich signifikanz der stufen direkt

Df Sum Sq Mean Sq F value Pr(>F)


as.factor(LEHRE[, 1]) 3 621.37 207.12 25.605 3.539e-08
Residuals 28 226.50 8.09 gesamtes modell ist hochsignifikant

⇒ Die Lehrmethode hat einen Einfluss auf den Lernerfolg, bspw. wurden
mit der Lehrmethode 1 im Mittel 18.25 Punkte erzielt
LS Statistik und Ökonometrie SoSe 2020 75
Varianzanalyse Einfaktorielle Modellbildung – Mittelwertkodierung

Beispiel (Lehrmethoden) jetzt testung mit achsenabschnitt!!:

Die Quadratsummen bzw. der F-Test müssen nicht explizit berechnet


werden, da diese bei dem Regressionsmodell mit Achsenabschnitt
automatisch anfallen
-1 fehlt, daher schätzung mit achsenabschnitt
> summary(lm(LEHRE[,2]~as.factor(LEHRE[,1])))
ANDERE INTERPRETATION:
= lernerfolg hier schätzen wir
Coefficients: im bezug zur
referenz (inter-
Estimate Std. Error t value Pr(>|t|) cept mü1)!!
intercept ist referenz - ist
hier teste ich ob
(Intercept) ursprüngliches mü1 18.250 1.006 18.149 < 2e-16 *** unterschied der
as.factor(LEHRE[, 1])2 -4.500 1.422 -3.164 0.00373 ** stufe zur referenz
sign. unterschied-
as.factor(LEHRE[, 1])3 -9.500 1.422 -6.680 3.00e-07 *** lich ist

as.factor(LEHRE[, 1])4 -11.250 1.422 -7.911 1.29e-08 ***


sprich zeilen 2-4 sind die unterschiede
--- zu referenzniveau
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 2.844 on 28 degrees of freedom


Multiple R-squared: 0.7329,Adjusted R-squared: 0.7042
das hier sind werte
F-statistic: 25.6 on 3 and 28 DF, p-value: 3.539e-08 von vorhin!!

Beachte: Interpretation der Schätzer hat sich verändert, Vorsicht bei


t-Tests
LS Statistik und Ökonometrie SoSe 2020 76
Varianzanalyse Einfaktorielle Modellbildung – Multiple Vergleiche

Varianzanalyse allgemeins problem mit den ganzen t-testungen pro modell hier:

Einfaktorielle Modellbildung – Multiple Vergleiche

Die allgemeine Hypothese erlaubt nur Aussagen darüber, ob alle


Mittelwerte gleich sind bzw. sich mindestens zwei Mittelwerte
unterscheiden, durch multiple Vergleiche wird untersucht, wie viele
und welche der Faktorstufen sich untereinander unterscheiden
Falls keine Hypothesen explizit formuliert wurden, ist es sinnvoll,
-> wenn keine direkte hypothese
paarweise die Mittelwertdifferenzen auf statistische Signifikanz zu
prüfen false positives:
Problem: Je mehr Paarvergleiche an den selben Daten getestet wenn 4 t-tests und alpha von 0.05

werden, desto größer die Wahrscheinlichkeit, dass mindestens ein Test -> 1- 0.95 ^4= 0.1855
=> eigentlisch schätzen wir mit
fälschlicherweise abgelehnt wird risiko über alle 4 paare hinweg mit
alpha = 18.55
Verwende stattdessen Verfahren, die unabhängig von der Zahl der
Vergleiche die Fehlerrate konstant halten
Bei der Beschränkung auf Paarvergleiche eignet sich die Methode
hat student-verteilung
von Tukey, die Konfidenzintervalle bestimmt => müssen nur wissen, dass es sie gibt

s bzw. bonferroni / bonferroni-holm!


SSW
(ȳk· − ȳl· ) ± q(I, I(J − 1); 1 − α)
IJ(J − 1)

mit q(I, I(J − 1)) dem (1 − α)-Quantil der ”Studentized range”


LS Statistik und Ökonometrie SoSe 2020 77
Varianzanalyse Einfaktorielle Modellbildung – Multiple Vergleiche

Beispiel (Lehrmethoden)
> TukeyHSD(aov(LEHRE[,2]~as.factor(LEHRE[,1])))
hier tukey-korrektur für tests berechnet

$`as.factor(LEHRE[,lower1]) ` hier werden alle paarvergleiche durchgegangen!:


and upper CI -> liegt 0 im CI?
absolute
diff differenz lwr upr p adj -> p-wert
2-1 -4.50 -8.382731 -0.617269 0.0184175
3-1 -9.50 -13.382731 -5.617269 0.0000017
4-1 -11.25 -15.132731 -7.367269 0.0000001
3-2 -5.00 -8.882731 -1.117269 0.0077757
4-2 -6.75 -10.632731 -2.867269 0.0003077
4-3 -1.75 -5.632731 2.132731 0.6131796
paardifferenz immer negativ!

da größerer mittelwert von kleinerem mittelwert abgezogen!!


-> das ist in vorgehen so festgelegt

-> siehe vorige formel: yk minus yl

LS Statistik und Ökonometrie SoSe 2020 78


Varianzanalyse Einfaktorielle Modellbildung – Effektkodierung

Varianzanalyse bisheriges war mittelwertkodierung,

jetzt kommt effektkodierung


Einfaktorielle Modellbildung – Effektkodierung

Durch eine Reparametrisierung des Modells erhält man die reparametrisierung bedeutet:
Effektdarstellung
Aus den Mittelwerten der i-ten Faktorstufen µi ergibt sich der
Gesamtmittelwert:
I
1X
µ= µi
I
i=1

Der Effekt der Faktorstufe i ist die Abweichungen der Mittelwerte der
i-ten Faktorstufe zum Gesamtmittelwert:

a i = µi − µ

Die äquivalente Modellformulierung lautet:


mü (globales mittel) + faktor a mit faktorstufen i + störterm über alle faktorstufen & beobachtungen

Yij = µ + ai + ij mit i = 1, . . . ,I j = 1, . . . ,J


i sind faktorstufen

mit ij ∼ N (0, σ 2 ) mit normalverteilung und homogener varianz


Zu beachten ist die Nebenbedingung: -> wir teilen erklärungskraft auffaktor auf:
wie viel erklärungskraft hat stufe 1, 2, etc.
summe aller stufen I I−1
des faktors a soll
X X z.b. schätze ich nur erste zwei stufen
ai = 0 bzw. aI = − ai wenn ich insgeamt 3 faktorstufen habe
= 0 sein
i=1 i=1
wenn wir alle faktorstufen zusammenzählen, haben wir wirkung von 0
-> wir müssen nicht alle stufen schätzen sondern anzahl minus 1 !!
LS Statistik und Ökonometrie SoSe 2020 79
Varianzanalyse Einfaktorielle Modellbildung – Effektkodierung

In Matrixschreibweise ergibt sich: jetzt hier nicht mehr mü, sondern theta!
theta steht für vektor mit verschiedenen paramtern!
in theta ist mü und a1 bis a i-1 drin

Y = Aθ + 
1en ist ohne faktorstufen jetzt das
globale mü
mit
0, 1, -1 für die a's (a's - 1)

Y11  
 ..  1 1 0 ··· 0
 .   .. .. .. .. 
 
 Y1J  
 . . . ··· .    
1 1 0 ··· 0  µ
 
 Y21  
 
1 0 1 · · · −1   a1 
 
 ..  
 .  
.. .. ..
 
.. , θ =  a2 

Y= ,A =  
 Y2J  
 . . . ··· .  
 .. 

1 0 1 · · · −1  . 
 
 ..    
 .  
   1 −1 −1 · · · −1  aI−1
 YI1  
.. .. ..

.. 
 a i-1 heißt
 ..  . . . ··· . 
   nicht alle faktorstufen
 .  sondern stufen minus
1 -1−1
ist jetzt
−1 · · · −1 1 heir modelliert
YIJ referenzkategorie

Designmatrix

LS Statistik und Ökonometrie SoSe 2020 80


Varianzanalyse Einfaktorielle Modellbildung – Effektkodierung

Allgemein ist der KQ-Schätzer:


erneut kq-schätzer
θ̂ = (A0 A)−1 A0 y erneut KQ schätzer mit gauß-markov annahmen,
und blue eigenschaften!

Dieser ist unverzerrt und konsistent (BLUE-Eigenschaft)


In der Effektdarstellung ergeben sich folgende Vereinfachungen:
I J
1 XX
µ= yij = Ȳ
n
i=1 j=1

bzw.
âi = Ȳi· − Ȳ
Die Formulierung der allgemeinen Hypothese lautet:
H0 hier dass alle faktorstufen gleich sind

H0 : a1 = a2 = . . . = aI−1 = 0, H1 : ai 6= 0
für sign.-test schätzen wir alle faktorstufen bis auf eine! vs. mindestens einer ist ungleich 0
h0: alle faktorstufen sind gleich, nämlich 0
für mindestens ein i
und entspricht dem F-Test auf gemeinsame Signifikanz aller
Regressoren => zeigt also an, ob modell einen signifikanten effekt beinhaltet

LS Statistik und Ökonometrie SoSe 2020 81


Varianzanalyse Zweifaktorielle Modellbildung – Grundlagen

Varianzanalyse
Zweifaktorielle Modellbildung – Grundlagen

Das zweifaktorielle Design untersucht den Einfluss von zwei


qualitativen Merkmalen auf eine quantitative Variable
faktor a hat i stufen, faktor b j stufen
Der Faktor A besitzt I Faktorstufen und für den Faktor B sind J
Faktorstufen gegeben, für alle Kombinationen der Faktorstufen der
beiden Merkmale liegt die selbe Anzahl an Beobachtungen K vor
In der Mittelwertdarstellung ergibt sich folgendes Modell:

Yijk = µij + ijk i = 1, . . . ,I j = 1, . . . ,J k = 1, . . . ,K


das hier ist mittelwertdarstellung, aber effektdarstellung (unten) geschickter, da letztere zeigt welche faktorstufe welchen effekt hat
-> UND wenn mehr als ein faktor, ist interaktion dann möglich

mit ijk ∼ N (0, σ 2 )


Primär sind die Einwirkungen der einzelnen Merkmale bzw. deren
Faktorstufen von Interesse, so dass über die Reparametrisierung auf
die Effektdarstellung zurückgegriffen wird

LS Statistik und Ökonometrie SoSe 2020 82


Varianzanalyse Zweifaktorielle Modellbildung – Grundlagen

Die äquivalente Modellformulierung lautet:


a und b sind haupteffekte: ab ist interaktionseffekt

Yijk = µ + ai + bj + abij + ijk störterm


globales mittel + faktorstufen faktor a + faktorstufen faktor b

i = 1, . . . , I j = 1, . . . , Jk = 1, . . . ,K
mit ijk ∼ N (0, σ 2 )
Der globale Parameter wird mit µ bezeichnet, ai bzw. bj
repräsentieren die Haupteffekte der beiden Merkmale A bzw. B
Wirken die i-te Faktorstufe des Merkmals A und die j-te Faktorstufe
des Merkmals B zusammen, entsteht der Interaktionseffekt abij
Einzeln lassen sich die Effekte darstellen durch:
I J
1 XX
µ = µij
mittelwert über
alle faktorstufen von IJ
a und von b
i=1 j=1
ai = µi· − µ abweichung mittel faktor a von global

bj = µ·j − µ abweichung mittel faktor b von global

interaktion: abij = µij − µi· − µ·j + µ


was hier noch übrig globales faktor a faktor b globales mittel
bleibt in fomel rechts mittel mittel
mittel
LS Statistik und Ökonometrie ist die interaktion SoSe 2020
angeblich 83
Varianzanalyse Zweifaktorielle Modellbildung – Grundlagen

In Matrixschreibweise ergibt sich:


hier wieder theta statt mü da matrixschreibweise

Y = Aθ + 

Zu beachten sind die Nebenbedingungen:


selbe bedingung für interaktion:

I
X J
X I
X J
X
ai = 0, bj = 0, abij = abij = 0
i=1 j=1 i=1 j=1

Der zu schätzende Parametervektor θ besteht aus:

θ = (µ, a1 , . . . , aI−1 , b1 , . . . , bJ−1 , ab11 , . . . , abI−1,J−1 )0


alle faktor stufen von a, " von b, " von interaktion
JEWEILS MINUS EINS

mit dem KQ-Schätzer

θ̂ = (A0 A)−1 A0 y

LS Statistik und Ökonometrie SoSe 2020 84


Varianzanalyse Zweifaktorielle Modellbildung – Grundlagen

Liegen keine Interaktionseffekte vor, dann sind die Differenzen der


Mittelwerte der abhängigen Variable zwischen den Faktorstufen des
Merkmals B für die Stufen des Merkmals A gleich (und umgekehrt)
Zuerst wird stets anhand der allgemeinen Hypothese auf Vorliegen
von Interaktionseffekten getestet:

H0 : abij = 0 für alle ij,


H1 : abij 6= 0 für mindestens eine Kombination ij
WICHTIG: effekt in einer kombination der stufen in beiden faktoren reicht schon

Falls keine Wechselwirkungen vorliegen, können die Haupteffekte


additiv verknüpft werden
Anschließend folgt die Prüfung der Haupteffekte mit

H0 : a1 = a2 = . . . = aI−1 = 0, H1 : ai 6= 0 für mindestens ein i


hat eine der faktorstufen effekt ungleich 0?
bzw. jeweils pro faktor getestet

H0 : b1 = b2 = . . . = bJ−1 = 0, H1 : bj 6= 0 für mindestens ein j

Die Teststatistiken beruhen auf der Varianzzerlegung und werden über


die ANOVA-Tabelle beschrieben
LS Statistik und Ökonometrie SoSe 2020 85
Varianzanalyse Zweifaktorielle Modellbildung – ANOVA-Tabelle

Varianzanalyse
Zweifaktorielle Modellbildung – ANOVA-Tabelle

Die ANOVA-Tabelle lautet:


wichtig ist grundprinzip: Quadrat- Freiheits-
effekt faktor a, faktor b,
interaktion, rest und total-streuung
F
summen grade
PI SSA /(I−1)
SSA JK i=1 (ȳi·· − ȳ)2 I−1 SSR /(IJ(K−1))

PJ SSB /(J−1)
SSB IK j=1 (ȳ·j· − ȳ)2 J −1 SSR /(IJ(K−1))

PI PJ SSAB /((I−1)(J−1))
SSAB K i=1 j=1 (ȳij· − ȳi·· − ȳ·j· + ȳ)2 (I − 1)(J − 1) SSR /(IJ(K−1))

PI PJ PK
SSR i=1 j=1 k=1 (yijk − ȳij· )2 IJ(K − 1)

PI PJ PK
SST i=1 j=1 k=1 (yijk − ȳ)2

Die Teststatistiken folgen einer F-Verteilung

LS Statistik und Ökonometrie SoSe 2020 86


Varianzanalyse Zweifaktorielle Modellbildung – Orthogonalität

Varianzanalyse
Zweifaktorielle Modellbildung – Orthogonalität
balanciertes design wenn in allen gruppen selbes n
Für die Effektkodierung bei balanciertem Design besitzt die
Designmatrix A die Orthogonalitätseigenschaft, was bedeutet, dass A
in Teilmatrizen zerlegt werden kann, die zueinander orthogonal sind
orthogonalitätseigenschaft: unabhängig zueinander! matrix ist zerlegbar

x0ai xbi = 0

Bei der zweifaktoriellen Modellbildung ist dies in die Matrizen Aµ ,


Aai , Abj und Aabij möglich => diese effekte daher separat schätzbar
Daraus folgt, dass die Effekte separat geschätzt und getestet werden
können
Bei einem unbalancierten Design geht diese Eigenschaft verloren
=> hierfür brauchen wir partielle inversionen (geht kaum per hand!!)

in übung etc. nur balanciertes design!

LS Statistik und Ökonometrie SoSe 2020 87


Varianzanalyse Praktische Aspekte – Abschließendes Beispiel

Varianzanalyse
Praktische Aspekte – Abschließendes Beispiel

Beispiel (Margarine)
Betrachtet wird der Margarineabsatz an 10 zufälligen Tagen für
unterschiedliche Kombinationen von Preis- und
Kommunikationsstrategie (Fahrmeir, Hamerle, Tutz, 1996, S.182)
Postwurf Anzeige
Niedrig 68 64 59 51
1. faktor: preisstrategie mit 3 faktorstufen
Niedrig 65 66 57 52
1
Niedrig 63 59 54 55
2. faktor: kommunikationsstrategie mit 2 faktorstufen
Niedrig 59 64 56 54
Niedrig 67 63 53 52
Normal 59 49 51 50
insgesamt 6 gruppen à 10 beobachtungen
2 Normal 50 50 45 47
Normal 51 52 46 46
51,5 => für jede der gruppen durchschnittswert berechenbar
Normal 48 53 48 45
Normal 53 50 49 47
Hoch 40 35 47 49
3
Hoch 39 34 39 44
Hoch 35 38 40 48
Hoch 36 39 46 47
Hoch 37 36 45 44
Untersucht wird der Effekt der Marketinginstrumente auf den
Abverkauf eines Produktes

LS Statistik und Ökonometrie SoSe 2020 88


Varianzanalyse Praktische Aspekte – Abschließendes Beispiel

Beispiel (Margarine)
> Marg=data.frame(read.table(".../Daten_Margarine.txt"))
> names(Marg)=c("Kommunikation","Preis","Abverkauf")
> par(mfrow=c(1,2))
> boxplot(Abverkauf~Preis, data=Marg)
> boxplot(Abverkauf~Kommunikation, data=Marg)
1. faktor preisstrategie 2. faktor kommunikationsstrategie
2. faktor mit 2 leveln (anderer faktor ignoriert)
hier 1. faktor mit 3 leveln (faktor 2 ignoriert bzw.
darüber gemittelt)
65

65

55

55
45

45
35

35

Hoch Niedrig Normal Anzeige Postwurf

LS Statistik und Ökonometrie SoSe 2020 89


Varianzanalyse Praktische Aspekte – Abschließendes Beispiel

Beispiel (Margarine)
> attach(Marg)
> par(mfrow=c(1,2))
> interaction.plot(Preis,Kommunikation,Abverkauf,lwd=4)
> interaction.plot(Kommunikation,Preis,Abverkauf,lwd=4)
er sagt: kreuzung der geraden weißt auf signifikanten interaktionseffekt hin!

Kommunikation Preis
60

60
Postwurf Niedrig
mean of Abverkauf

mean of Abverkauf
Anzeige Normal
55

55
Hoch
50

50
45

45
40

40
Hoch Niedrig Normal Anzeige Postwurf
Preis 3-er faktor auf x, 2er faktor Kommunikation 2-er faktor auf x,
abgetragen 3er faktor abgetragen

hilfreich: er lädt noch


theorieblatt hoch, auf dem interpretation
typischer interaktionsplots drauf

LS Statistik und Ökonometrie SoSe 2020 90


Varianzanalyse Praktische Aspekte – Abschließendes Beispiel

Beispiel (Margarine)
> anova(lm(Abverkauf~Preis*Kommunikation, data=Marg))
Analysis of Variance Table

hier sehen wir NICHT die schätzungen der einzelnen faktorenstufen!!


Response: Abverkauf nur faktor, faktor, interaktion

Df Sum Sq Mean Sq F value Pr(>F)


Preis 2 3297.9 1648.95 224.6299 < 2.2e-
16 ***
Kommunikation 1 52.3 52.27 7.1201 0.01004 *
Preis:Kommunikation 2 803.0 401.52 54.6970 1.041e-
13 ***
ist runtergerutscht!!
Residuals 54 396.4 7.34
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
> detach(Marg) fragen:
- wir gehen bei var.analyse von spezifischer konstellation aus: 1 faktor mit gruppendefinitionen, welche als dummyvariablen
in kq-schätzung einfließen => vorteil: konkrete experimentelle RQs - hier design sozusagen abgebildet?; formal-mathematisch
> quit() aber kein unterschied

LS Statistik und Ökonometrie SoSe 2020 91

Das könnte Ihnen auch gefallen