Sie sind auf Seite 1von 74

hange E hange E

XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

von Studenten für Studenten

Statistik Übersicht

erstellt von Rafael Wespi

Dieses Dokument ist zum Teilen gedacht!


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
Einleitung

Dieses Dokument wurde im HS15 im Umfang der Prüfungsvorbereitungen erstrellt. Nun soll es mit all denen geteilt
werden, die einen Nutzen daraus ziehen können.

Dazu noch einige Anmerkungen:

1. Der Aufbau dieser Übersicht ist an den Foliensatz von Frau Strobl vom HS14 angeleht.
2. Verweise auf Folien können bei anderen Foliensätzen nicht übereinstimmen.
3. Das Arbeiten/Lernen mit dieser Übersicht ersetzt nicht den Besuch der Vorlesung, vor allem da der
wichtigste Teil dieser Statistikvorlesung aus dem Lösen der Übungen besteht.
 kleiner Tipp: druckt euch möglichst bald die Formelsammlung aus und arbeitet von Anfang an damit.
Daswird euch das Leben um einiges erleichtern.
4. Diese Übersicht wurde nach bestem Wissen und Gewissen erstellt, wobei keine Haftung für Fehler
übernommen wird.
5. Solltet ihr einen Fehler entdecken, bitte ich euch diesen zu melden, damit er bereinigt werden kann.
6. Gerne könnt ihr Verbesserungsvorschläge und konstruktive Kritik anbringen, um dieses Dokument zu
verbessern.

Sieht diese Aktion als Anregung dafür, eure eigenen Unterlagen zu Teilen, um andere Studierende bei ihrem Studium
zu unterstützen.

R.Wespi Seite 2 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Skalenniveau: geben an, welche „Qualität“, also


Informationsgehalt, die vorliegenden Daten haben. Je nach
„Qualität“ der Daten ergeben sich andere
Interpretationsmöglichkeiten und „Verarbeitungsschritte“ für
diese.
Je nach Skalenniveau sind nur bestimmte
Übersicht der Skalenniveaus
Auswertungsmethoden sinnvoll.

• Nominalskala: - niedrigstes Skalenniveau, Aufteilung der Daten in Gruppen, können sinnvoll


als Prozentzahlen angegeben werden ( Kuchendiagramm), Modalwert macht ebenfalls
Sinn.
Grundlegende Operation ist die Feststellung der Gleichheit oder Ungleichheit
Geschlecht, Konfession, Augenfarbe, Beruf

• Ordinalskala: Daten können rangiert/ in Reihenfolge gebracht werden, Abstände zwischen Gruppen ist
unklar, Grundoperationen sind <, =, >
 Bildungsstand: Matura < Bachelor < Master < Doktor

• Intervallskala: erste metrische Skala = Abstände zwischen den Daten verlaufen


gleich, Nullpunkt ist nicht fix, Verhältnis zwischen zwei Werten lässt sich
nicht sinnvoll bestimmen, dafür ist der Mittelwert sinnvoll
y = mx + q, wenn q ≠ 0
 Temperaturen in °C/°F geben dasselbe an mit unterschiedlichen Nullpunkten

• Verhältnisskala: = Ratioskala, Abstände zwischen den Daten verlaufen gleich,


Nullpunkt ist fix wodurch sich Werte zueinander ins Verhältnis setzen lassen,
der Mittelwert ist sinnvoll, Werte lassen sich variabel transformieren (m zu cm)
 Kontostände, Längen, Gewichte, 4.- sind doppelt so viel wie 2.- y = mx +q, wenn q = 0

• Absolutskala: enthält die meisten Informationen, diese Werte dürfen nicht transformiert werden da ein
sinnloses Ergebnis dabei herauskommen würde, der Mittelwert ist sinnvoll
 Anzahlen und Wahrscheinlichkeiten, Anzahl Kinder, gekaufte Produkte,
Regenwahrscheinlichkeit

Masse der zentralen Tendenz

• Mittelwert:
o alle Werte aufsummiert, geteilt durch Anzahl Werte
o Summe aller Differenzen von x- x̅ = 0
o Mittelwert ist mathematisch sehr genau
o Mittelwert ist jedoch sensitiv gegenüber extrem hohen Werten

 xi; (2, 6, 8, 0) hat Mittelwert von 4, x i (2, 6, 8, 100) hat Mittelwert von 29

R.Wespi Seite 3 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a Median: k e r- s o ft w a

o Wert der bei sortierten (!) Daten in der Mitte steht


o bei ungerader Anzahl an Werten gilt:
o bei gerader Anzahl an Werten gilt:
o der Median gibt die „Lage“ des mittleren Wertes an
o der Median ist nicht sensitiv gegenüber extremen Werten
o Der Median halbiert die Häufigkeitsverteilung
o Mindestens 50% aller Werte sind grösser und kleiner als der Median
o Der Median ist das 50%-Quantil
o Der Median setzt mindestens ein ordinales Skalenniveau voraus

 xi (2, 6, 8, 0) = Median 4, xi (0, 1, 2, 6, 8) = Median 2

Modalwert/Modus:

o ist der am meisten genannte/vorkommende Wert


o interessant bei geringer Anzahl (verschiedener) Werte
o das Maximum der Häufigkeitsverteilung

 Anzahl Zähneputzen/Tag, xi (1, 5, 2, 2, 3, 1, 2, 2) = Modus 2

Masse der Variablilität (Streuungsmasse)

Varianz von Werteverteilungen:


o = die Summe, aller quadrierten Differenzen von (xi) und ihrem
Mittelwert (x-quer), geteilt durch ihre Freiheitsgrade (n-1)
o eine kleine Varianz bedeutet eine kleinere Variationsbreite der Werte, also die Differenz zwischen
dem kleinsten und grössten Wert ist gering
o eine grosse Varianz bedeutet eine grosse Streuung
o die Wurzel der Varianz (s2) wird als Standartabweichung (s) bezeichnet
o Die Standardabweichung ist leichter zu interpretieren, da sie die gleichen Einheiten wie die
Rohwerte besitzt

R.Wespi Seite 4 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Variationsbreite:
o = die Differenz zwischen dem kleinsten und dem grössten erhobenen Wert
o wird auch Range genannt
o ist sensitiv gegenüber Ausreissern
o gut um unplausible Werte zu entdecken
o kein sehr nützliches Mass zur Charakterisierung der Variabilität

 Mass ist zwar nicht sehr nützlich, jedoch kann es dabei helfen unplausible Werte zu entdecken

• Interquartilsbereich (IQR):
o = Bereich der mittleren 50% aller Werte
o dabei werden sowohl die oberen, als auch die unteren 25% der Werte abgeschnitten
o der IQR drückt die Länge des Bereichs aus über den die mittleren 50% der Rohwerte verteilt sind,
womit er direkt mit der Varianz (s2) zusammenhängt

 der IQR ist immer kleiner als die Varianz!

• Quantile und Quartile:


o Quantile sind Kennwerte, die die relative Position eines Messwertes (xi) der Stichprobe zum
Ausdruck bringt (wenn x15 das 75% Quartil (x75) bildet, heisst es, dass 5 Werte grösser sind als x15)
o der Median bildet stets das 50% Quantil (x50), respektive das 2. Quartil (Q2)
o Quartile sind Viertelabschnitte, also 25% = x25 = Q1, 50% = x50 = Q2 und 75% = x75 = Q3
o Quantile können zwischen 0 und 100 jeden Wert abdecken, wobei zehner Schritte praktikabel sind
o Ein Quantil bezieht sich immer auf einen vorgegebenen Prozentsatz
o Dezile = x10, x20 ….
o Ausser für den Median ist die Bestimmung der Quantile per Hand nicht praktikabel

 die Quantils-Bestimmung von Hand ist nicht praktikabel

• lineare Transformation:
o Umrechnen von einer Einheit in eine andere, was es ermöglicht, unterschiedliche Werte miteinander
zu Vergleichen
o dabei verändert sich die Grundwerte wie folgt:

• z-Transformation:
o z-Wert gibt an, wie viele Standardabweichungen ein Wert vom Mittelwert entfernt ist
o deshalb muss man die Differenz zwischen Messwert und Durchschnittswert durch ihre
Standartabweichung Teilen.
o der z-Wert ist ein optimales „Werkzeug“ um Werte aus verschiedenen
Messmethoden miteinander zu vergleichen, da die Werte Massstabsfrei
sind
o z-Werte sind dimensionale Zahlen-> direkt vergleichbar

 Vergleich zwischen Einkommen in Japan und der Schweiz, ohne Währungsumrechnung

R.Wespi Seite 5 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Diagramme

• Kreisdiagramm:
o gut geeignet für nominalskalierte Eigenschaften (Geschlecht, Augenfarbe, politische Parteien, ect.)
o sehr übersichtlich
o Feinheiten sind jedoch kaum erkennbar, weshalb Prozentzahlen die Interpretation erheblich
erleichtert

• Balkendiagramm:
o selben Punkte, wie beim Kreisdiagramm, nur das Balkendiagramm viel angenehmer zu lesen ist

• Boxplot:
o ist nur für metrische Skalen geeignet
o optimales Diagramm zur Darstellung von Lage und Streuung der Messwerte
o dabei werden die mittleren 50% der Verteilung (IQR) in einer „Box“ dargestellt, in der der Median
eingezeichnet ist
o Werte ausserhalb des IQR werden durch „Whiskers“ (Schnurrhaare) dargestellt, die 1.5x die Länge
des IQR haben und auf der letzten gemessenen Wert enden (zB Q3 + 1.5 x IQR)
o Werte, die weder im IQR noch im Bereich der Whiskers liegen, werden ausserhalb durch
Punkte dargestellt

• Histogramm:
o Ist nur für metrische Skalen geeignet
o repräsentiert Werte in einer flächentreuen Darstellung
o dazu werden die Werte in (möglichst) gleich breite
Intervalle eingeteilt die nicht zu breit/schmal sein
sollten
o Anzahl und breite der Kategorien werden so gewählt,
dass Form der Verteilung gut erkennbar ist

 Hitsogramme mit unterschiedlich breiten Kategorien sind extrem schwer zu interpretieren

Verteilungsformen:

 müssen einfach bekannt sein


R.Wespi Seite 6 von 32
hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Wahrscheinlichkeitstheorie

• Wahrscheinlichkeiten:
o das Verhältnis zwischen günstigen Ereignissen: möglichen Ereignissen
o wird meist als P(A) dargestellt (oder anderen Variablen in der Klammer)
o ergibt eine Zahl im Rahmen 0 ≤ P(A) ≤ 1 oder eine Prozentzahl zwischen 0 und 100
o Veranschaulichungen von Ereignissen durch Venn-Diagramm

• disjunkt/nicht disjunkt:
o disjunkt = beide Teilmengen haben keine Schnittmenge und sind immer abhängig voneinander
 es kann klare Voraussage gemacht werden, wenn nicht A, dann B
o nicht disjunkt = beide Teilmengen haben eine Schnittmenge und können voneinander abhängig sein
(was jedoch nicht zwingend sein muss)

• Zusammen ∪/Gemeinsam ∩:
o ∪ = Zusammen, also werden alle Elemente von beiden Gruppen zusammengenommen
 Würfelgruppe A (2, 4, 5, 6), Würfelgruppe B (1, 3, 4, 5), Gruppe A ∪ B (1, 2, 3 , 4, 5, 6)
 Eselsbrücke: ∪ für Topf wo man alles hineinwerfen kann, ∪ wie unit = Verband oder Einheit
o ∩ = Gemeinsam, also nur die Elemente die gemeinsam in beiden Gruppen vorkommen
 Würfelgruppe A (2, 4, 5, 6), Würfelgruppe B (1, 3, 4, 5), Gruppe A ∩ B (4, 5)
 Eselsbrücke: ∩ leben gemeinsam unter demselben Dach

Komplement: Alle Elemente welche nicht vorkommt, Würfelgruppe A (1,3)

Leere Menge: Elemente welche nicht in beiden Gruppen vorkommen,


Würfelgruppe A(2,4,5,6), Würfelgruppe B(1,3,4,5) = A n B(/)

R.Wespi Seite 7 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr e
ar
.

.
ac ac
k e r- s o ft w a
• -s o ker ft w
Additionstheorem:
o = die Wahrscheinlichkeit, das A oder B, oder beide gemeinsam eintreten ergibt sich aus der
Wahrscheinlichkeit von A und B, abzüglich der Wahrscheinlichkeit, dass beide Ereignisse gemeinsam
eintreten (Schnittmenge)

 Schnittmenge muss abgezogen werden, da ansonsten ein Teil doppelt gezählt wird
o sind die Ereignisse disjunkt, entfällt das Abziehen der Schnittmenge, da es diese nicht gibt
disjunkte Ereignisse: P(A u B) = P(A) + P(B)
➔ da sich die Ereignisse gegenseitig ausschliessen wenn sie disjunkt sind, können sie ja
nicht gemeinsam auftreten

• komplementäre Wahrscheinlichkeit:
o ist die Wahrscheinlichkeit, dass ein Ereignis nicht eintritt
o entspricht dem Wert von 1 – P(A)

 Wahrscheinlichkeit eine 1 oder 2 zu Würfeln = 0.33,


 Wahrscheinlichkeit nicht eine 1 oder 2 zu Würfeln = 1 – P(A) = 1 – 0.33 = 0.66

• Multiplikationstheorem für unabhängige Ereignisse


o sind die Ereignisse unabhängig voneinander, können ihre Wahrscheinlichkeiten multipliziert werden:
 unabhängige Ereignisse: Münzwurf, Würfelwurf, Roulette

o Wahrscheinlichkeit entspricht der „Chance“, dass das gezogene Ereignis zur Schnittmenge gehört

• allgemeines Multiplikationstheorem oder Multiplikationstheorem für abhängige Ereignisse:


o sind die Ereignisse abhängig voneinander, muss die Wahrscheinlichkeit von P(A) mit P(A|B)
multipliziert werden
 wie hoch ist Wahrscheinlichkeit, dass Person blaue Augen hat, wenn sie blondes Haar hat?

wenn A bereits aufgetreten ist

o Wahrscheinlichkeit entspricht der „Chance“, dass das gezogene Ereignis zur Schnittmenge gehört
o Die Wahrscheinlichkeit des gemeinsamen Auftretens von A und B ist gleich der
Wahrscheinlichkeit für das Auftreten von A, multipliziert mit der Wahrscheinlichkeit von B,
wenn A schon eingetreten ist

• bedingte Wahrscheinlichkeit:
o = Wahrscheinlichkeit, dass B auftritt, wenn A bereits aufgetreten ist
o ergibt sich aus der gemeinsamen Wahrscheinlichkeit von A und B, geteilt durch die
Wahrscheinlichkeit von A

 für Beispiel: siehe Folie 95 des Foliensatzes

R.Wespi Seite 8 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a Disjunktheit vs. Unabhängigkeit: k e r- s o ft w a

o disjunkt = abhängig
o nicht disjunkt ≠ unabhängig, was heisst, das nicht disjunkte Ereignisse trotzdem abhängig
voneinander sein können
o das ist der Fall wenn:

o Ereignisse sind unabhängig, wenn das Eintreten des einen Ereignisses die Wahrscheinlichkeit des
Eintretens des anderen Ereignisses nicht beeinflusst.

o Zwei Ereignisse sind unabhängig, falls das Eintreten des einen Ereignisses keinerlei
Effekt auf die Wahrscheinlichkeit für das Eintreten des anderen Ereignisses hat.

R.Wespi Seite 9 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
• Satz von Bayes:
o Mithilfe des Satzes von Bayes, lassen sich bedingte Wahrscheinlichkeiten errechnen
o in unserem Fall hauptsächlich für die Frage benutzt, wie wahrscheinlich eine Person bei einem
positiven Testergebnis auch Krank ist P(K|T)
o folgende Werte spielen eine Rolle:
= Wahrscheinlichkeit, dass Person krank ist
= Wahrscheinlichkeit, dass Test bei Erkrankung positiv ist
= Wahrscheinlichkeit, dass Test negativ bei nicht Erkranken

o daraus kann errechnet werden:

Wahrscheinlichkeitsverteilungen

• Zufallsvariablen
o Eine Zufallsvariable ist eine Funktion, die Ereignissen reelle Zahlen zuordnet
o Zufallsvariablen können diskret oder stetig sein
➔ Diskret: Ereignisse fallen in Kategorien -Binomialverteilung
➔ Stetig: Werte können beliebig genau sein -Normalverteilung
Wahrschinlichkeitsfunktion
• diskrete Zufallsverteilung: (diskret)
o es können nur bestimmte Werte Aufteilen wie Alter,
Würfelzahlen oder Einkommenskategorien
o für jeden Wert besteht eine gewisse Wahrscheinlichkeit
o alle Wahrscheinlichkeiten aufsummiert ergeben 1

 weisst eine gewisse Ähnlichkeit zum Histogramm auf

• Erwartungswert, Varianz, Verteilungsfunktion


o Erwartungswert (μ) = mittlere Erwartung von Punkten, Gewinnen, Noten, etc.
-> entspricht der Summe aller Möglichkeiten, multipliziert mit ihren jeweiligen
Wahrscheinlichkeiten
hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

o Varianz von Wahrscheinlichkeitsverteilungen (σ2) = Mass zur Interpretation von Streuung der
Werteverteilung
-> entspricht der quadrierten Differenz der Möglichkeiten und des Erwartungswertes, Multipliziert
mit ihrer entsprechenden Wahrscheinlichkeit

o Verteilungsfunktion = Angabe, wie viel (in Prozent) vom ganzen, bis zu einem bestimmten Wert
bereits abgedeckt ist
-> entspricht der Summe aller Wahrscheinlichkeiten bis zum erhobenen Wert

= diskrete Verteilungsfunktion, = stetige Verteilungsfunktion,


also Anzahl Werte ist begrenzt also Anzahl Werte ist unbegrenzt
 Würfelwurf, Alter, ect.  Körpergrösse in cm, ect.

R.Wespi Seite 8 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
• Binomialverteilung:
o betrachtet eine Zufallsverteilung die nur zwei Werte annehmen kann (Gewinn oder Verlust)
 diese Variablen bezeichnet man als binäre oder dichotome Variablen
o Kurzbeschreibung der Binomialverteilung: B (n; π)
o n = Anzahl der Versuche
o x = Anzahl der Erfolge
o π = Erfolgswahrscheinlichkeit

o entspricht der Rechnereingabe: n (Zahl)  nCr (Taste)  x (Zahl)

o Praktisches: sollte nach der Wahrscheinlichkeit von maximal 3 Erfolgen gefragt werden, ist es nötig,
die Summe von drei Binomialverteilungen mit x = 1, 2, 3 zu errechnen.
Ist nach weniger als 48 Erfolgen (von 50 Versuchen) gefragt, wird ähnlich vorgegangen, nur dass man
in diesem Fall von der Gegenwahrscheinlichkeit ausgeht, also 1-P(50)-P(49)-P(48)

• stetige Zufallsvariablen:
o haben die Charakteristik, dass es eine unbegrenzte Anzahl an Werten geben
kann
o einzelnen Werten kann man keine Wahrscheinlichkeit zuordnen, weshalb ihre
Wahrscheinlichkeiten nur in Intervallen berechnet werden können = Dichte
o da stetige Variablen überabzählbar viele Werte annehmen können, kann
einzelnen Werte keine positive Wahrscheinlichkeit zugeordnet werden
o -> Wahrscheinlichkeit eines einzelnen reellen Wertes geht gegen Null
o Darum kann man stetigen Zufallsvariablen nur Intervalle mithilfe der
Dichtefunktion zugeordnet werden
 man rechnet wie Wahrscheinlich es ist, das der Wert zu den höheren
95 % gehört

R.Wespi Seite 9 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Normalverteilung:
o ist eine unimodale, symmetrische Kurve
o zeigt die Wahrscheinlichkeitsverteilung einer bestimmten
Grösse anzeigt ( Mittelwerte, ect.)
o diese Wahrscheinlichkeiten müssen mithilfe eines Integrals
über ein Intervall berechnet werden
 in unserem Fall können wir alle Werte aus einer z-Wert
Tabelle ablesen (nur bei Standardnormalverteilungen)
o Notation: N(μ, σ2), wobei μ für den Mittelwert und σ2 für die
Standartabweichung steht
o Die Verteilungsfunktion der Normalverteilung kann
nicht als einfache Formel ausgedrückt werden.
o Deshalb werden die Flächenanteile der
Standardnormalverteilung tabelliert.
o Flächenanteile unter Normalverteilungen mit beliebigen
Werten für µ und σ 2 können mit Hilfe der z-
Transformation auf die tabellierten Flächenanteile der
Standardnormalverteilung zurückgeführt werden ⇒ nur
eine Tabelle nötig.

• Standardnormalverteilung:
o wenn eine Normalverteilung z-Transformiert wird, ergibt sie die Standardnormalverteilung
o z-Transformation: -> Verteilung

-> Daten
o Standardnormalverteilungen haben die Eigenschaft das μ = 0 und σ2 = 1 ( rote Kurve, Grafik oben)
o daraus resultiert die Notation: N(0, 1)
o z-Werte haben den Mittelwert 0 und die Standardabweichung 1
o Wenn die Rohwerte normalverteilt sind, folgen die z-Werte einer Standardnormalverteilung.

o Praktisches: für uns ergeben sich folgende Fragestellungen:


▪ Flächenbestimmung unter der Normalverteilung bis zu einem bestimmten Wert (Frage 1)
▪ Wahrscheinlichkeit bis zu einem bestimmten Wert zB Welcher Prozentsatz hat einen IQ
Wert über 110 (Frage 1b)
▪ Wahrscheinlichkeit bis zu einem bestimmten Wert (Welcher Prozentsatz hat einen
IQ-Wert zwischen x=100 und X=110 (Frage 1c)
▪ Bestimmen des Wertes auf der Kurve, der eine bestimmte Fläche abschneidet (Frage 2)
▪ Anteil der zwischen zwei Werten auf der Standardnormalverteilung liegt (Frage 3)

R.Wespi Seite 9 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
Stichproben und Grundgesamtheit

• Grundgesamtheit:
o umfasst alle potenziell untersuchbaren Einheiten, die ein
gemeinsames Merkmal aufweisen ( alle Lehrer aus Zürich)
o eine Stichprobe Umfasst eine Teilmenge der Grundgesamtheit

• einfache Zufallsstichprobe:
o alle Mitglieder der Grundgesamtheit haben dieselbe Chance
gezogen zu werden
o es ist deshalb notwendig, dass alle Mitglieder der
Grundgesamtheit bekannt sind
o die Auswahl muss zufällig sein  Lose aus Urne, computergenerierte Zufallszahlen, ect.

• Stichprobenverteilung:
o eine theoretische Verteilung, die eine mögliche Ausprägung eines
statistischen Kennwertes (Mittelwert, Anzahl Erfolge, Median,
Varianz, IQR, ect.) und deren Auftretenswahrscheinlichkeit beim
Ziehen von vielen Zufallsstichproben beschreibt.
o Jeder dieser Kennwerte besitzt seine eigene
Stichprobenverteilung zB Verteilung aller Mittelwerte von
allen Stichproben
o hilft z.B. dabei, einen „wahren“ Mittelwert zu finden, da
Mittelwerte aus Stichproben immer eine gewisse Ungenauigkeit
bergen, da die Möglichkeit besteht, dass man es gerade mit einer
alten/jungen Stichprobe zu tun hat

• Stichprobenverteilung des Mittelwerts


o „Mittelwert der Mittelwerte“ = Erwartungswert μ x̅
o Standardfehler über verschiedene Mittelwerte = Standardfehler des Mittels σ x
o da diese Werte meist nicht bekannt sind werden sie geschätzt:
-ermöglicht Konstruktionen von Konfidenzintervallen und Tests
o daraus lässt sich ableiten, dass σ x̅ durch eine höhere Anzahl an
Stichproben (ACHTUNG: n sind in diesem Fall nicht Anzahl Personen sondern Anzahl Stichproben!!!)
kleiner wird
-für beliebig gosses n (n>30) aprproximativ, näherungsweise normalverteilt, auch wenn
Orginalwerte nicht normalverteilt sind (=zentraler Grenzwertsatz
• Stichprobenverteilung bei normalverteilter Population
o ist die Verteilung in der Population normalverteilt, so ist auch die Stichprobenverteilung des
Mittelwerts Normalverteilt (da Stichprobenverteilung quasi ein Abbild ist)
o diese Aussage gilt für ein beliebig kleines n
o Da Normalverteilungen durch ihren Erwartungswert sowie ihre Varianz eindeutig
festgelegt sind, ist damit die Stichprobenverteilung des Mittelwerts vollständig
bekannt.
o da bei Normalverteilungen gilt das N(μ, σ2), ist die Stichprobenverteilung des Mittelwertes
vollständig bekannt
o daraus folgt:

R.Wespi Seite 10 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Stichprobenverteilung bei nicht normalverteilter Population


o bei grossem Stichprobenumfang (viele verschiedene Stichproben) sind wir bei nicht normalverteilten
Populationen in der Lage, Aussagen über die Form der Stichprobenverteilung zu machen
o dafür wird der zentrale Grenzwertsatz verwendet der besagt:
Für grosses n ist die Stichprobenverteilung des Mittelwerts wieder eine Normalverteilung, auch
wenn einzelne Werte nicht aus einer Normalverteilung stammen
o n gilt als gross, wenn es grösser ist als 30
 also führt ein n von 31 bereits zu einer normalverteilten Kurve

Zentraler Grenzwertsatz
Zentraler Grenzwertsatz: Die Verteilung einer Summe (und damit auch eines Mittelwertes) von n
unabhängig und identisch verteilten Zufallsvariablen geht mit wachsendem Stichprobenumfang n in eine
Normalverteilung über.
Aufgrund des zentralen Grenzwertsatzes sind wir in der Lage, auch dann Aussagen über die Form der
Stichprobenverteilung des Mittelwerts zu machen, wenn wir keine normalverteilte Population
vorauszusetzen können – in diesem Fall aber nur, wenn der Stichprobenumfang groß ist.

• Schätzung von Erwartungswert und Varianz:


o x̅ und s2 werden aus einer Stichprobe erhoben
o μ und σ2 stehen im Eigentlichen für dieselben Werte, jedoch repräsentieren sie die Grundgesamtheit
-> die jedoch zu gross ist um sie komplett zu „messen“
o somit ist es nötig, dass man μ und σ2 aus den wirklich erhobenen Werten schätzen kann
o daraus resultiert, dass x̅ (Mittelwert) ein guter Schätzer für μ (Erwartungswert) und s2 (Varianz aus
Stichprobe) ein guter Schätzer für σ2 (wahre Varianz) ist

• Schätzung des Standartfehlers:


o ist die wahre Varianz bekannt, kann der Standartfehler direkt ausgerechnet werden (Wurzel ziehen)
o ist das (wie in der Realität meistens) nicht der Fall, muss man s2 über den „Plug-in Schätzer“
berechnen
o dabei ergibt sich der geschätzte Standartfehler aus dem Standartfehler,
geteilt durch die Wurzel der Stichprobengrösse

R.Wespi Seite 11 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re

.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
Konfidenzintervall (KI):
o wird immer nach einem bestimmten Sicherheitsgrad
errechnet ( 95%, 99%, 99.9%)
o ein Konfidenzintervall (KI) von 95% beinhaltet/bedeckt mir
der Wahrscheinlichkeit von 95% den wahren Mittelwert
-> daraus ergibt sich, dass das KI bei einem höheren
Sicherheitsgrad grösser wird
• Man unterscheidet zwischen Punkt- und
Intervallschätzung. Beispiele für
Punktschätzer sind x¯ für µ und s 2 für σ 2 .
Zu jedem Punktschätzer kann man ein
Konfidenzintervall kostruieren, um einen
Eindruck von der Unsicherheit der Schätzung
zu erhalten.

R.Wespi Seite 12 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Konfidenzintervall für den Mittelwert beim z-Test:


o α bezeichnet die „Fehlerwahrscheinlichkeit“, also entspricht 1 - α dem Sicherheitsniveau
o der z1-α/2 – Wert muss aus der z-Wert-Tabelle abgelesen werden
-> α wird durch 2 geteilt, da die Fehlerwahrscheinlichkeit beidseitig abgezogen werden soll
o gerechnet wird anschliessend wie folgt:

o Praktisches:
▪ je kleiner σ2, umso „enger“ fällt das Konfidenzintervall aus
▪ je grösser n, umso „enger“ fällt das Konfidenzintervall aus, da n relevant für die Schätzung
von s x̅ ist
▪ je kleiner α, umso „breiter“ fällt das Konfidenzintervall aus, da eine erhöhte Sicherheit
gegeben werden muss, dass der wirkliche Mittelwert sich im KI befindet
• Das Konfidenzintervall gibt durch seine Lage und Breite einen Eindruck über den Wert und die
Unsicherheit der Schätzung.

• Arten von Hypothesen:


o Alternativhypothese H1 = es tritt ein Unterschied/Veränderung aufNeue Lernmethode verbessert Leitun
o Nullhypothese H0 = es tritt keine Veränderung auf Leistung bleibt gleich
o gerichtete Hypothese = Intervention bewirkt Verbesserung/Verschlechterung (1. Wahl da präziser)
o ungerichtete Hypothese = Intervention bewirkt eine Veränderung (2. Wahl)
o bei der Hypothesenüberprüfung werden üblicherweise Mittelwerte miteinander verglichen μ, μ0

Therapie bewirkt Senkung der Suizidneigung -> Richtung festgelegt

Bei neuer Lernmethode ist Verbesserung oder


Verschlechterung der Leistung möglich
->Richtung nicht fstgelegt

R.Wespi Seite 13 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
Tests und Konfidenzintervalle

• Null- und Alternativhypothese:


o es muss stets eine Null- und mindestens eine Alternativhypothese aufgestellt werden
-> gerichtete Alternativhypothese = Treatment verbessert die Leistung der Probanden = H 1: μ > μ0
-> ungerichtete Alternativhypothese = Treatment verändert die Leistung der Probanden = H1: μ ≠ μ0
-> Nullhypothese = Treatment verändert die Leistung der Probanden nicht = H 0: μ = μ0
• Mittelwert
µ0 ist zB die durchschnittliche Leistung von Schülern, die nach der Standardmethode unterrichtet
werden (wir nehmen an dies sei bekannt)

Die durchschnittliche Leistung von Schülern, die nach der neuen Lehrmethode unterrichtet werden,
wird als µ bezeichnet.

• Fehler der 1. und 2. Art:


o Fehler die im Umgang mit der Nullhypothese gemacht werden. Dabei handelt es sich um das
Annehmen oder Ablehnen der Nullhypothese, obwohl das Gegenteil richtig wäre
o Fehler 1. Art (α-Fehler) = H0 ablehnen, obwohl es zutreffen würde. Dadurch wird die getestete
Intervention fälschlicherweise für wirkungsvoll gehalten
 Eselsbrücke: α-Fehler kann mit Ablehnung assoziiert werden
o Fehler 2. Art (β- Fehler) = H0 beibehalten, obwohl es falsch ist. Dadurch die getestete Intervention
fälschlicherweise für wirkungslos gehalten.
 Eselsbrücke: β- Fehler kann mit Beibehaltung assoziiert werden

1 - β = power

• Signifikanzniveau:
o α bezeichnet die festgelegte Obergrenze für die Wahrscheinlichkeit für einen Fehler 1. Art
-> üblicherweise liegt α bei 5%, wobei auch 1% verwendet werden kann (abhängig vom Test)
o der Fehler 2. Art kann jedoch nicht direkt mathematisch kontrolliert werden

• Prüfgrösse:
um zu entscheiden ob H0 angenommen oder abgelehnt werden darf, wir aus den Daten der
Stichprobe eine Prüfgrösse berechnet, die den interessierenden Unterschied wiederspiegelt
-> die Verteilung der Prüfgrösse muss bekannt sein, weshalb es sich anbietet, eine
standardnormalverteilte Grösse zu verwenden
Die Prüfgröße spiegelt den interessierenden Unterschied wieder (z.B. Verbesserung der
durchschnittlichen Leistung durch neue Lehrmethode).
Die Verteilung der Prüfgröße unter der Nullhypothese muß zur Berechnung des Tests
bekannt sein (aus theoretischen Annahmen oder Simulationen am Computer).
Wir verwenden oft z-Werte als Prüfgrösse

R.Wespi Seite 14 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re

.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
Ablehnungsbereich:
o wenn sich unsere Prüfgrösse im Ablehnungsbereich befindet, darf H0 abgelehnt werden, was
bedeutet, dass H1 angenommen wird
o die Form des Ablehnungsbereiches hängt davon ab, ob die Alternativhypothese gerichtet (ein
kritischer Wert) oder ungerichtet (zwei kritische Werte) ist.
o Beim Computer haben wir den p-Wert und wir lehnen H0 ab, wenn der p-Wert kleiner
ist als α
o Der zweiseitige Test hat aber weniger Power zum Nachweis einer Verbesserung:
-> Beispiele ab Folie 183

R.Wespi Seite 15 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
• Signifikanz und praktische Relevanz:
o ein signifikantes Testergebnis bedeutet: es ist unwahrscheinlich, dass ein Unterschied dieser Grösse
nur durch Zufall zustande gekommen ist
o Jeder noch so kleine Unterschied kann z.B. mit extrem grossen Stichproben als signifikant
nachgewiesen werden
o Statistische Signifikanz darf nicht mit praktischer Relevanz verwechselt werden!
o Zur Größe des Unterschieds ⇒ Effektstärke

• p-Wert:
o entspricht der Wahrscheinlichkeit, diesen oder einen (in Richtung der Alternativhypothese)
extremeren Wert für die Prüfgrösse unter der Nullhypothese zu beobachten
-> eigentlich gibt der p-Wert an, wie hoch das „Signifikanzniveau“ der erreichten Prüfgrösse
ist
o zur Testentscheidung kann der p-Wert mit α verglichen werden, wobei man H0 ablehnen kann wenn
p-Wert < α

Power und Effektstärke

• Power (Teststärke)
o gibt an, mit welcher Wahrscheinlichkeit ein tatsächlicher Unterschied auch entdeckt wird
o Power ist die Wahrscheinlichkeit, dass man H0 ablehnt, wenn H1 zutrifft. Deshalb kann man sagen
das Power = 1 – β
o α bezeichnet die Wahrscheinlichkeit eines Fehlers 1. Art (man lehnt H0 ab, obwohl sie
eigentlich zutrifft).
o β bezeichnet die Wahrscheinlichkeit eines Fehlers 2. Art (man behält H0 bei, obwohl
eigentlich H1 zutrifft).
o 1 − β bezeichnet die Power (man leht H0 zu Recht ab, wenn H1 zutrifft).
o Die Power gibt also an, mit welcher Wahrscheinlichkeit ein tatsächlicher Unterschied
auch entdeckt werden kann.

o Praktisches:
▪ Power steigt bei grösserem Stichprobenumfang
▪ Power steigt bei grösserer Effektstärke
▪ Power sinkt bei tieferem Signifikanzniveau
▪ der einseitige Test hat eine höhere Power als der zweiseitige
▪ Die Power steigt bei größerem Unterschied |µ − µ0|. Große Effekte sind leichter
nachzuweisen.
▪ Wie bereits besprochen, hängt die Power eines statistischen Tests nicht nur von der
Effektstärke (z.B. Größe des Unterschieds, Stärke des Zusammenhangs) ab,
sondern vor allem auch von der Stichprobengröße.
▪ Größere Stichproben erlauben bessere Schätzung ⇒ Tests haben höhere Power.

R.Wespi Seite 16 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Grösse des Unterschieds:


o um die Power berechnen zu können, muss die Effektgrösse/Effektstärke bekannt sein
o dafür muss die Differenz von μ0 (= Mittelwert der herkömmlichen Methode)
und μ (=Mittelwert der neuen Methode) berechnet werden und durch die
Standardabweichung geteilt werden
o Wahre Grösse des Unterschieds: µ − µ0
o Da die durchschnittliche Leistung mit der neuen Lehrmethode in der
Population µ jedoch unbekannt ist, ist die wahre Größe des
Unterschiedes µ − µ0 ebenfalls unbekannt (und damit auch die
Power).

• Standardisierte Effektstärke
• Für weitere Berechnungen wird aus dem inhaltlich interessierenden
Unterschied (z.B. Verbesserung um 3 Punkte) die standardisierte
Effektstärke (= interessierender Unterschied in
Standardabweichungen) berechnet:

• Bestimmung des β-Fehlers und Power


o z1- α, zβ n und δ stehen wie folgt zueinander:
o sind drei dieser Grössen bekannt, kann die vierte errechnet werden
o meistens interessiert nicht β sondern die Power, also 1-β
o wenn diese Formel umgeformt wird, kann damit auch der
Stichprobenumfang errechnet werden kann, der nötig ist um einen Effekt
der Grösse δ und einer Power von 1- β nachzuweisen

Die Gleichung läßt sich auch so umformen, dass man den


Stichprobenumfang bestimmen kann, der notwendig ist, um einen
Effekt der Größe δ mit einer Power von 1 − β nachzuweisen:

R.Wespi Seite 17 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Tests und Konfidenzintervalle für Mittelwerte

• ein-Stichproben t-Test:
o ist vergleichbar mit dem z-Test, nur dass beim z-Test die
Populationsstreuung bekannt sein muss, was in der
Regel nicht der Fall ist
o beide Tests überprüfen die Hypothese H0: μ = μ0
o t-Verteilung wird über Freiheitsgrade genauer festgelegt
-> Freiheitsgrad = degree of freedom = df
o für grosse Stichprobenumfang (n > 30) ist die t-
Verteilung der Standardnormalverteilung sehr ähnlich

R.Wespi Seite 18 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr e
ar
.

.
ac ac
k e r- s o ft w a
• -s o ker ft w
Konfidenzintervall (KI) des t-Tests:
o ist dem KI des z-Tests sehr ähnlich, abgesehen davon, dass der Standardfehler des Mittels σ x̅ durch sx
ersetzt wird und nun der t-Wert aus einer (anderen) Tabelle abgelesen wird (vorher z-Wert)
o daraus ergibt sich:
-> Beispiel auf Folie 222

• Dualität von Test- und Konfidenzintervall:


o mithilfe des KI lässt sich ein Test auf das Signifikanzniveaus durchführen
o liegt der Wert μ0 innerhalb des (1- α)-Konfidenzintervall für μ, so führt der zweiseitige Test zum
Signifikanzniveau α zur Beibehaltung der Nullhypothese
o liegt der Wert μ0 ausserhalb des (1- α)-Konfidenzintervall für μ, so führt der zweiseitige Test zum
Signifikanzniveau α zur Ablehnung der Nullhypothese
o Man kann das Konfidenzintervall auch verwenden, um den zweiseitigen Test für die
ungerichtete Alternativhypothese

t-Test für zwei unabhängige Stichproben

• t-Test für zwei unabhängige Stichproben:


o man vergleicht zwei Gruppen von Personen bezüglich einer Zielgrösse
o die wahren Mittelwerte und Standartabweichungen in beiden Gruppen werden mit μ1, μ2, σ1 und σ2
bezeichnet
o zwei unabhängige Stichproben können sein:
▪ Männer und Frauen
▪ Patient mit Treatment und Patient ohne Treatment
▪ Grundschüler und Gymnasiasten

o Hypothesen:
-> es gibt kein μ0 mehr, da die Mittelwerte hier
stets miteinander verglichen werden

o Prüfgrösse:
▪ die Prüfgrösse t ergibt sich aus der Differenz der Mittelwerte x1 und x2
geteilt durch die Standartabweichung der Mittelwertdifferenz

▪ die Standartabweichung der Mittelwertdifferenz ist eine komplexe


Grösse, die wie folgt berechnet wird:

▪ Beispiel auf Folie 238


▪ Die beiden Populationsvarianzen sind gleich, d.h.
▪ Die Rohwerte in beiden Populationen, aus denen die Stichproben gezogen
werden, sind normalverteilt.

R.Wespi Seite 19 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
• t-Test für verbundene Stichproben (Beobachtungspaare):
o es werden Beobachtungspaare untersucht, wobei eine Beobachtung in die erste und die andere in
die zweite Gruppe gehört
o Beobachtungspaare können sein:
▪ Ehepaare oder Geschwister
▪ Testergebnisse für linkes/rechtes Auge derselben Person
▪ Messwiederholungen, also Messung vor und nach einer Behandlung
o Es wird davon ausgegangen, dass Beobachtungen eines Paares sich ähnlicher sind also voneinander
unabhängige Beobachtungen

o Hypothesen:
-> es gibt kein μ0 mehr, da die Mittelwerte
hier stets miteinander verglichen werden
-> Hypothesen sind gleich wie bei
unabhängigen Stichproben

o Differenzen:
▪ da uns der Unterschied zwischen zwei verschiedenen Messungen interessiert, sind die
Differenzen (di) von xi1 und xi2 interessant für weitere Berechnungen
▪ die Nullhypothese gleicher
Mittelwerte entspricht dann den
Differenzen mit Mittelwert 0

o Prüfgrösse:
▪ die Prüfgrösse (t) ergibt sich aus dem Quotient vom
Mittelwert der Differenzen und der Standartabweichung
der Differenzen, multipliziert mit der Wurzel der
Stichprobengrösse
▪ die Standartabweichung der Differenzen ähnelt (vom
mathematischen Weg) stark der Varianz
▪ Beispiel ab Folie 244

• Grosse Stichproben:
o alle besprochenen t-Tests lassen sich auch bei kleinem Stichprobenumfang anwenden, wobei die
Annahme der Normalverteilung der Werte innerhalb der Gruppe erfüllt sein muss
o die Normalverteilung der Gruppenwerte ist ab einer Stichprobengrösse von n < 30 keine Bedingung
mehr, da es sich von alleine ergibt
o Wenn der Stichprobenumfang ausreichend groß ist, halten die t-Tests das festgelegte
Signifikanzniveau aber auch dann ein, wenn die Werte in den Gruppen nicht normalverteilt
sind.

R.Wespi Seite 20 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Parametrische und nicht-parametrische Tests

• Nicht parametrische Tests


Ein-Stichproben Tests
Tests für zwei unabhängige Stichproben
Tests für zwei verbundene Stichproben
Die Hypothesen, die mit diesen Tests überprüft werden können, beziehen sich wie bei den t-Tests auf die
Mittelwerte.
Zu Beispiel: Verlangsamt ein Medikament die Reaktionszeiten der Versuchspersonen?
Nicht-parametrische Tests werden auch als „verteilungsfrei” bezeichnet, weil sie in der Regel keine
Annahmen über die Verteilung der Werte machen.
Nicht-parametrische Tests sollten eingesetzt werden, wenn die Verteilungsannahmen des parametrischen
Tests verletzt sind. (Sie haben aber oft eine geringere Power.)

• Parametrische Tests
Parametrische Tests machen bestimmte Verteilungsannahmen.
Beispielsweise gehen t-Tests von normalverteilten Werten in den Gruppen aus.

• Rang-Tests
Idee von Rang-Tests: Anstatt die Werte der Personen direkt zu vergleichen wird nur die Reihenfolge der
Werte berücksichtigt.
Beispiel: Haben die Personen, die das Medikament bekommen haben, längere Reaktionszeiten? Dann
haben ihre Reaktionszeiten die höheren Ränge.
Der Rang ist die Platzierung eines Wertes, wenn man alle Werte (aus beiden Gruppen) in aufsteigender
Reihenfolge sortiert.
Aus den Rang-Summen T1 und T2 kann die Prüfgröße W berechnet werden.
Aus deren exakter Verteilung oder mithilfe einer Normalverteilungs-Approximation
(bereits ab n1 oder n2 > 10) lassen sich p-Werte bestimmen.

R.Wespi Seite 21 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
χ 2 -Unabhängigkeitstest

• χ² Unabhängigkeitstest:
o χ² wird „chi-quadrat“ ausgesprochen
o es wird getestet ob die Variablen voneinander unabhängig H0 sind oder nicht H1
o die Variablen werden mit A und B bezeichnet und in Kategorien Ai und Bj eingeteilt
-> i bezeichnet die Zeile, während j für die Spalte steht
o die erwartete Häufigkeit mij ergibt sich aus dem Produkt von ni. und n.j geteilt durch n

Formel für erwartete Häufigkeit

Werte wie sie erhoben wurden Werte der erwarteten Häufigkeit


o
o Prüfgrösse χ²:
▪ χ² ergibt sich aus der Summe von Quotienten von jedem Feld

▪ bei den Quotienten handelt es sich um die quadrierte Differenz des wirklichen Wertes und
dem erwarteten Wert, geteilt durch die erwartete Wert

▪ entsprechend wird der Ablehnungsbereich der Nullhypothese überprüft:

und l der Anzahl Spalten

o Vereinfachte Prüfgrösse für 2 x 2 Tafeln:


▪ in 2 x 2 Tafeln lässt sich die Prüfgrösse auch mit einer einfachen Formel berechnen:

o Die Beobachtungen stammen aus einer einfachen Zufallsstichprobe.


o Alle erwarteten Häufigkeiten mij sind größer als 5.
o Wenn letzteres nicht erfüllt ist, ist die asymptotische χ 2 -Verteilung der Prüfgröße nicht mehr
gewährleistet. In diesem Fall sollte Fishers exakter Test angewendet werden, der auf einer
Permutation der Zellenhäufigkeiten bei gegebenen Randhäufigkeiten basiert.

R.Wespi Seite 22 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Kovarianz und Korrelation

• Kovarianz (sxy):
o die Stichprobenvarianzx beschreibt die Streuung der Werte in Richtung einer Variablen x
o die Stichprobenkovarianz sxy beschreibt die Streuung der Werte in Richtung zweier Variablen
x und y
-> zeigt den linearen Zusammenhang zwischen zwei Variablen
o die Kovarianz wird wie folgt berechnet:

o Eigenschaften:
▪ kann Werte von +∞ bis - ∞ einnehmen
▪ ist kaum für Vergleiche geeignet, da Wert stark von Messeinheit abhängt
▪ Die Kovarianz ist symmetrisch, d. h.: sxy = syx
▪ Die Kovarianz ist von den Messeinheiten beider Variablen abhängig.
▪ Sie ist deshalb zur Beschreibung des Zusammenhangs unterschiedlicher Merkmale
wenig geeignet.

• Korrelation (nach Bravais-Pearson):


o der Korrelationskoeffizient (r) entspricht der standardisierten Kovarianz
-> falls Kovarianz aus z-transformierten Werten berechnet wurden, ergibt sich der
Korrelationskoeffizient (r)
o kann für Vergleiche benutzt werden
o wird durch den Quotienten der Kovarianz und dem Produkt der
Standartabweichung von x (sx) und y (sy) gebildet
o der Korrelationskoeffizient liegt stets zwischen -1 und +1
-> +1 entspricht einer perfekten positiven Korrelation
-> -1 entspricht einer perfekten negativen Korrelation
o sind zwei Werte voneinander unabhängig, so ist ihre Korrelation gleich null
o zwei Werte mit einer Korrelation von null sind nicht zwingend unabhängig voneinander, da die
Korrelation lediglich lineare zusammenhänge betrachtet und dabei quadratische ausser Acht lässt
o Die Korrelation kann auch mit Hilfe von z-Werten dargestellt werden:
o Die Korrelation zweier Variablen entspricht der Kovarianz der z-standardisierten
Variablen (denn deren Standardabweichung ist 1).
o Vom Vorliegen einer Korrelation in einer Beobachtungsstudie kann man nicht auf einen
kausalen Zusammenhang schließen! Aus zwei Gründen:
➔ Die Richtung des Zusammenhangs lässt sich nicht ablesen
➔ Drittvariablen könnten den Zusammenhang verursachen

R.Wespi Seite 23 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Kovarianz vs. Korrelation:

o Kovarianz verändert sich durch Änderungen in der Skalierung


o Korrelation bleibt stets konstant, da Standardisiert

• Berechnung der Korrelation über Summen:


o Formel:

-> die grosse Formel auf der rechten Seite entspricht der kleinen auf der linken, mit dem
Unterschied, dass die rechte ausgeschrieben ist
o die einfachste Art über diesen Weg zu rechnen, besteht daraus eine Wertetabelle zu erstellen, in der
alle gesuchten Werte abzulesen sind, damit man sie nur noch in die Formel einsetzen kann

r ist robust gegen Ausreisser, also ist r nur


1, wenn alle Punkte auf einer Gerade
liegen.
Rs hingegen ist 1, sobald ein stark
monotoner Zusammenhang besteht (Linie
kann auch im Bogen nach oben gehen,
solange sie aber nie runtergeht.

R.Wespi Seite 24 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr e
ar
.

.
ac ac
k e r- s o ft w a
• -s o ker ft w
Korrelation und Kausalität
o aufgrund einer Korrelation kann nicht auf einen kausalen Zusammenhang geschlossen werden
-> da die Richtung nicht bekannt ist
-> da man nicht weiss, ob eine Drittvariable den Zusammenhang verursachen

• ein Stichprobentest für H0: ϱ = 0


o Nullhypothese besagt, dass kein Zusammenhang zwischen zwei Variablen in der Population
vorliegt
o Prüfgrösse:

• Unterscheidung deskriptive und induktive Statistik


➔ deskriptive (beschreibende) Statistik Ziel: Daten aus einer Stichprobe beschreiben
➔ induktive (schließende) Statistik Ziel: von einer Stichprobe auf (andere Stichproben aus
der) Grundgesamtheit schließen

Rangkorrelation

• Rangkorrelation nach Spearman (rs):


o eignet sich für ordinalskalierte Daten
o bei monotonem aber nicht linearem Zusammenhang zwischen x und y (oder Verdacht auf
Ausreisser)
o Formel:

ODER

Formel des Rangkorrelationskoeffizienten in


Formel des Rangkorrelationkoeffizienten für den Fall das Bindungen (der dem keine Bindungen vorliegen
Fall, dass ein Rang doppelt vergeben wurd) vorliegen

o Bindungen sind Werte die mehrfach auftreten. Falls Bindungen auftreten, muss die komplexe
Formel zur Berechnung des Rangkorrelationskoeffizienten benutzt werden
-> Für den Fall, das zwei Werte den Rang 2 haben (was bedeutet, dass Rang 3 übersprungen wird
und der nächste Rang 4 wäre), berechnen wir den „Durchschnittsrang“ der Ränge, die eigentlich
hätten vergeben werden sollen. Anschliessend gibt man beiden Werten diesen Rang, also 2.5.
Dasselbe wird bei mehreren Werten mit demselben Rang durchgeführt

R.Wespi Seite 25 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

R.Wespi Seite 26 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

lineare Einfachregression:
o will den Zusammenhang zwischen den Ergebnissen von zwei Tests durch eine Gerade beschreiben
o Gleichung einer Regressionsgerade:

Werte aus Population Werte aus einer Stichprobe


-> kein Dach über den β -> β sind mit Dach gekennzeichnet

o die
Gerade ist eine vereinfachte Darstellung des Zusammenhangs von x und y
o tatsächliche Werte der einzelnen Personen können zufällig nach oben oder unten abweichen (ε)

R.Wespi Seite 27 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
Einfachregression

• Man hat Werte von zwei Tests von zB 5 Vpn und will ihren Zusammenhang grafisch darstellen durch
eine Gerade
• Achsenabschnitt ist β0
• Steigung ist β1
➔ Achsenabschnitt und Steigung werden auch als Regressionsparameter oder
Regressionskoeffizient bezeichnet:

• Die Gerade ist eine vereinfachte Darstellung des Zusammenhangs zwischen x und y (lineare
Approximation)
• Man kann unendlich viele Geraden, die man durch die „Punktewolke“ legen könnte
• Ziel der Einfachregression ist es, diejenige Gerade zu finden, die die Daten im Sinne des sog.
"Kleinstquadratschätzers" optimal darstellt
• Um eine Gerade zu finden, benötigt man ein Kriterium. Für die Einfachregression heisst dieses
Kleinst-Quadrate-(KQ)-Kriterium.
Es erfüllt folgende zwei wichtige Aspekte
➔ Die Abweichungen der Daten und der Gerade mitteln sich zu null.
➔ Die quadratischen Abweichungen zwischen Daten und Gerade sind minimal
Eine mit dem KQ-Kriterium ermittelte Gerade ist eine "lineare Bestapproximation".

• kleinste-Quadrate-Schätzung (QK-Schätzer):
o damit gerade gefunden werden kann, die am nächsten an allen Punkten (grafisch betrachtet)/Daten
liegen, wird die Summe der kleinsten quadratischen Abweichung vom Wert yi zu dem
vorhergesagten yi-Dach gesucht
o die einfachste Art diese Formel verwenden, besteht darin, eine Wertetabelle zu erstellen in der alle
gesuchten Werte abzulesen sind, damit man sie nur noch in die Formel einsetzen kann

o Sobald man „β1-Dach“ berechnet hat, kann „β0-Dach“ ausgerechnet werden:


-> es ist jedoch auch möglich über „β0-Dach“ und den Mittelwerten von x
und y auf „β1-Dach“ zu schliessen

• alternative Berechnung von „β1-Dach“ über die Korrelation:


o der Steigungskoeffizient „β1-Dach“ lässt sich errechnen, indem man die
Kovarianz (sxy) durch die Varianz von xx (s 2) teilt
o wenn man die Beziehung zwischen Kovarianz und Korrelation verwendet,
ergibt sich für die Steigung:

R.Wespi Seite 28 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Vorhersagegeleichung:

• Nicht extrapolieren!

Eine Extrapolation ist die Prognose für Personen, deren Werte ausserhalb des untersuchten
Wertebereichs liegt

• Interpretation der Regressionskoeffizienten:


o Achsenabschnitt „β0-Dach“ besagt, dass Personen mit einem Wert 0 für x, im
Mittel einen y-Wert von „β0-Dach“ erzielen
-> macht nicht in jedem Modell sinn
o Steigung „β1-Dach“ besagt, dass wenn x um eine Einheit steigt, y im Mittel
um „β1-Dach“-Einheiten steigt

• standardisierte Beta-Koeffizienten des einfachen linearen Regressionsmodell:


o um das Regressionsmodell unabhängig von Messeinheiten zu gestalten, können x und y z-
standardisiert werden
o danach wird der Regressionsgleichung eine „Schlange“ über jede
Variable gezeichnet, was für die Standardisierung steht:
o aus der Standardisierung ergibt sich von alleine, dass „β0-Dach-Schlange“ 0 ergibt und „β1-Dach-
Schlange“ zwischen -1 und +1 liegen muss
-> „β1-Dach-Schlange“ ist in der einfachen linearen Regression gleich dem Korrelationskoeffizient (r)
-> siehe Seite 15
o ACHTUNG: diese zwei Koeffizienten dürfen nicht miteinander verwechselt werden, da sie für
jeweils etwas anderes zu verwenden sind!
„β0-Dach“ dient zur Vorhersage von einer Variablen auf eine andere, während „β0-Dach-Schlange“
dazu dient, Stärken von Zusammenhängen einzuschätzen und zu vergleichen

o Original Steigungskoeffizienten verwenden wir für:


Vorhersage (siehe oben) und Interpretation der Regressionsgleichung bezüglich der
Original-Variablen
o Standardisierte Steigungskoeffizienten verwenden für: Einschätzung und Vergleich der
Stärke des Zusammenhangs

R.Wespi Seite 29 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
• Residuen (εi):
o geben die Differenz zwischen den wirklich gemessenen/erhobenen Werten und den durch die
Regression berechneten Werte an
o εi kann somit auch als „Varianz die mit Regressionsmodell nicht erklärt werden kann“ bezeichnet
werden
o dadurch entsteht für die tatsächlich beobachteten Werte folgende Formel:
o Praktisches:
▪ die Summe aller Residuen muss null ergeben
▪ je kleiner die Summe der quadrierten Residuen geteilt durch ihre
Freiheitsgrade (= Standardschätzfehler) umso genauer ist das
Regressionsmodell

o
• Standardschätzfehler (sε-Dach):
o gibt an, wie weit im Mittel die beobachteten/gemessenen y-Werte von der Regressionsgeraden
abweichen
o die Formel des Standardschätzfehlers ähnelt stark der Formel für die Standardabweichung:

• Streuungszerlegung:
o teilt die Abweichung von den einzelnen y-Werte (yi) zum Mittelwert (y-quer) in zwei Teile auf:
▪ die Differenz zwischen dem errechneten y-Wert aus dem Regressionsmodell (yi-quer) und
dem Mittelwert der gemessenen y-Werte (y-quer)
▪ die Differenz zwischen dem gemessenen y-Wert (y-quer) und dem aus dem
Regressionsmodell errechneten y-Wert (yi-quer).

o aus diesen drei Differenzen lassen sich Quersummen bilden, die für die Weiterverarbeitung der
Daten relevant sein werden
o die drei Quersummen lauten:

gesamt

erklärt

nicht erklärt
R.Wespi Seite 30 von 32
hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
• Bestimmtheitsmass (R2): Determinationskoeffizient
o gibt den Anteil der durch das Regressionsmodell erklärten Streuung verglichen an der gesamten
Streuung an (wird als Prozent-/Dezimalzahl angegeben)

o Praktisches:
▪ je kleiner die nicht durch Regressionsmodell erklärte Rest-Streuung (Quadratsumme von εi),
umso grösser fällt die durch das Regressionsmodell erklärte Streuung aus, wodurch das
Bestimmtheitsmass (R2) ebenfalls grösser wird
▪ in der einfachen linearen Regression entspricht das Bestimmtheitsmass (R2) der quadrierten
Korrelation zwischen x und yxy(r 2)
▪ dasselbe trifft für die Korrelation zwischen beobachtetem und vorhergesagtem Wert y und
y-Dach (ryy-Dach) zu, was für uns bisher jedoch nicht wichtig war
▪ Das R2 ist das Standardmass zur Beurteilung der Güte einer
Regressionsgleichung.
▪ In der Einfachregression ist die identisch mit der Beurteilung der Güte der x-
Variable zur Vorhersage der y-Variable.
▪ Multipliziert man das R2 mit 100%, so kann man die Aussage treffen, wieviel
Varianz die x-Variable an der y-Variable erklärt.
▪ In der Praxis sucht man oft Prädiktoren die eine hohe Erklär- oder Prognosekraft
haben (z.B. wenn es einfach/kostengünstig ist den Prädiktor zu erheben, aber nicht
die Kriteriumsvariable).

• zentrale Annahme des Regressionsmodells:


o es bestehen vier Grundannahmen, die gegeben sein müssen, damit mit einem Regressionsmodell
gearbeitet werden kann:
▪ E (εi) = 0, was bedeutet, dass die Summe aller Residuen null ergeben muss
▪ Var (εi) = σ2, was bedeutet, dass die Varianz der Fehler konstant ist, also nicht an einem
Bereich im Modell viele Abweichungen auftreten und an einer anderen keine (auch
Varianzhomogenität oder Homoskedastizität)
▪ εi ≈ N (0, σ2), was bedeutet, dass die Werte von y an jeder Stelle normal verteilt sein müssen,
also sich kein besonderes Muster abzeichnet
▪ cov (εi, εk) = 0, was bedeutet, dass die Fehler kein Muster aufweisen dürfen, also
voneinander unabhängig sind

R.Wespi Seite 31 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• grafische Überprüfung der Modellannahmen:


o die oben aufgezeigten Annahmen lassen sich mithilfe eines Streudiagramms der Residuen gegen die
vorhergesagten Werte als Kombination der Einflussgrössen überprüfen, wobei die Residuen
gleichmässig breit um den Wert 0 streuen sollten
o zusätzlich lassen sich die Annahmen mithilfe eines Histogramms oder eines Quantil-Quantil-Plots (Q-
Q-Plot) der Residuen überprüfen. Dabei wird die Form des Histogramms mit der Normalverteilung
verglichen, oder kontrolliert ob die Quantile im Q-Q-Plot auf der Diagonalen liegen.

R.Wespi Seite 32 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
Tests und Konfidenzintervalle

• In der Einfachregression betrifft die wichtigste Frage, ob der Prädiktor (x) das Kriterium (y)
vorhersagen kann. Dies kann in dreierlei Form getestet werden.
o Man kann anhand des Standardfehlers des Steigungskoe-zienten testen, ob der
Steigungskoe-zient signifikant von null verschieden ist.
o Man kann testen, ob das Konfidenzintervall des Steigungskoe-zienten die null enthält.
o Man kann testen, ob der Determinationskoeffzient signifikant von null verschieden ist.
In der Einfachregression ergeben alle drei Tests immer dasselbe Ergebnis.
Ergibt die Testung ein signifikantes Ergebnis, so kann man schliessen, dass der Prädiktor einen
linearen Zusammenhang mit dem Kriterium hat, der verschieden von null ist.

• Signifikanztest für H0: β1 = 0


o bedeutet, dass es keinen linearen Zusammenhang zwischen x und y besteht
o die Prüfgrösse entsteht aus dem Quotient des Regressionssteigungskoeffizienten
(β1- Dach) und dem Standardfehler von β1-Dach (sβ1-Dach)
o der Standardfehler von β1-Dach (sβ1-Dach) wird wie folgt berechnet:
o

o lasst euch nicht von den komplizierten/komplexen Formeln verwirren. In der Prüfung
werden die meisten Werte bereits gegeben sein, wonach die Berechnung der Prüfgrösse ein
Kinderspiel ist.
o Beispiel auf Folie

• Beispiel Berechnung
Es soll auf dem 5%-Niveau getestet werden, ob die Steigung signifikant von 0 abweicht.

R.Wespi Seite 33 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Konfidenzintervall für β1
Analog z.B. zum Einstichprobentest (s. Folie 229 in Teil 1 der Statistik 1) kann man ein
Konfidenzintervall für den Steigungskoeffzienten anhand des geschätzten Parameters und seines
Standardfehlers bestimmen.

Mit einer Irrtumswahrscheinlichkeit von 1 − α enthält das Intervall den


Populationssteigungsparameter.

• Dualität von Test und Konfidenzintervall von β1:


o mithilfe des Konfidenzintervalls für β1 lässt sich die Frage, ob der Regressionskoeffizient
signifikant von null abweicht, ebenfalls beantworten
o der Signifikanztest H0 : β1 = 0 führt bei zweiseitiger Testung und Signifikanzniveau α genau
dann zu einem nicht signifikanten Ergebnis, wenn das 1 - α Konfidenzintervall den Wert 0
enthält
-> da ist dadurch zu erklären, dass das Konfidenzintervall zu 1 - α Prozent (in diesem Fall 95%)
den Steigungskoeffizienten β1 enthält. Wenn nun 0 in diesem Intervall liegt heisst das, dass es
keine signifikante Abweichung von Null geben kann.

• F-Test für den Determinationskoeffizienten

• Drei zentrale Annahmen des Regressionsmodells

Normalverteilung: Die zufälligen Abweichungen folgen einer Normalverteilung:


Aus der Normalverteilung der Fehler ergibt sich auch, dass die Werte von y an jeder Stelle von x
normal verteilt sein müssen. Es ist hingegen völlig egal, wie die Werte von y oder x insgesamt verteilt
sind.

Linearität: Die Daten lassen sich durch ein lineares Modell beschreiben.

Homoskedastizität: Die Varianz der zufälligen Abweichungen ist überall gleich gross (aka
Varianzhomogenität)

• Testung der zentralen Annahmen


Nachdem man ein Regressionsmodell geschätzt hat, müssen immer die zentralen Annahmen
überprüft werden.
Sind die Annahmen verletzt, kann es passieren, dass die Schlüsse, die man aus dem Modell zieht,
falsch sind.
Jede der drei zentralen Annahmen kann man grafisch testen.
QQ-Plot oder Histogramm: Test der Normaliverteilung
Residuen-Plot: Test der Linearität und der Homoskedastizität

R.Wespi Seite 34 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Normalverteilung der Residuen


Normalverteilung kann verletzt sein:
Verteilung ist nicht-normal (d.h. z.B. schief oder kurtotisch)
Ausreisser (aber ohne diese Ausreisser ist Verteilung normal)
Test 1: Histogramm (häufig nicht sehr informativ)
Test 2: QQ-Plot:
x-Achse: Theoretische Verteilung der Residuen (Quantile einer Normalverteilung)
y-Achse: Empirische Verteilung der Residuen
Die beiden Verteilungen werden der Grösse nach geordnet und dann gegeneinander abgebildet.
→ Wenn alle Punkte auf der Geraden liegen, sind die Residuen normalverteilt.

• Test der Linearität


Linearität kann verletzt sein: Anderer funktionaler Zusammenhang, z.B. quadratischer beschreibt
Daten besser (z.B. Anzahl Tassen Kaffee zur Vorhersage der Leistungsfähigkeit).
Test 1: Residuenplot
Streudiagramm von yˆ gegen εˆ
Hilfreich: Einfügen einer Hilfs-Regressionsgeraden (εˆ wird durch yˆ vorhergesagt) und einer sog.
Loess-Approximation.
Die Loess-Approximation zeigt einen ungefähren Verlauf des funktionalen Zusammenhangs.
Ist die Loess-Approximation der Hilfs-Regressionsgerade sehr ähnlich, gilt die Linearität

• Test der Homoskedastizität


Homoskedastizität kann verletzt sein: Varianz verändert sich je nach Ausprägung des Prädiktors
(z.B. Vorhersage der Ausgaben für Nahrungsmittel durch Monatseinkommen)

Test 1: Residuenplot Streudiagramm von yˆ gegen εˆ Grafische Beurteilung der Breite der Streuung
(von links nach rechts): Ist sie konstant, gilt die Homoskedastizität.

Partialkorrelation

• Drittvariablen:
o sind verantwortlich für Scheinkorrelationen
-> je mehr Polizisten, umso höher ist die Kriminalität, wobei die Stadtgrösse (Störvariable) nicht
beachtet wird
o Scheinkorrelationen können aufgedeckt werden, indem ihre Störvariable im Versuch durch
den Versuchsaufbau ausgeklammert wird, oder mathematisch aus den Daten
herauspartialisiert wird
o Z.B. kann man als Versuchsleiterin dafür sorgen, dass in allen Bedingungen
dieselbe Raumtemperatur herrscht.
o Drittvariablen können auch durch Randomisierung kontrolliert werden, indem sie
gleichmässig auf die verschiedenen Versuchsgruppen verteilt werden.
o Scheinkorrelationen können sich ergeben, wenn der Zusammenhang zweier
Variablen x0 und x1 durch eine weitere Variable x2 verursacht wird.
o Also ohne Experiment weiterhin keine Kausalaussagen möglich.

R.Wespi Seite 35 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Partialkorrelation
Die Partialkorrelation bietet eine Möglichkeit, den Zusammenhang zwischen der Abstraktionsfähigkeit
x0 und der sensomotorischen Koordinationsfähigkeit x1 um den Einfluss des Alters x2 zu bereinigen.
➔ Man sagt auch x2 wird herauspartialisiert
➔ Formal schreibt man dann:

Die partielle Korrelation rx0x1·x2 lässt sich mithilfe der bivariaten Korrelationen zwischen den
beteiligten Variablen errechnen:

Die Partialkorrelation kann man darstellen anhand des Pfaddiagramms oder des
Venn-Diagramms

R.Wespi Seite 36 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Semipartialkorrelation
Neben der Partialkorrelation spielt in der multiplen Regression, die wir als nächstes behandeln werden,
die Semipartialkorrelation eine wichtige Rolle. Konzeptionell sind beide Korrelationen sehr ähnlich.Der
Unterschied besteht darin, dass die Drittvariable nur aus einer Variablen herauspartialisiert wird und
nicht aus beiden. Für die Semipartialkorrelation macht es oft Sinn (ist aber nicht zwingend notwendig),
zwischen abhängigen und unabhängigen Variablen zu unterscheiden.
Beispiel:

R.Wespi Seite 37 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re

.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
Partielle Korrelation (Variante 1):
o bei dieser Variante werden die Residuen aus der Regression von x0 und x2 sowie die Residuen aus
der Regression von x1 und x2 berechnet
o anschliessend wird die Korrelation dieser Residuen nach Bravais-Pearson berechnet, woraus die
partielle Korrelation von x0 und x1 entsteht (rx x .x ).
0 1 2

• Partielle Korrelation (Variante 2):


o lässt sich jedoch einfacher berechnen, indem man die einfachen Korrelationen der verschiedenen
Variablen zum Rechnen in folgender Formel benutzt:

Multiple Regression

• einfache vs. multiple lineare Regression:


o bei der einfachen linearen Regression wird eine y-Variable (AV) mit einer x-Variabel
(Einflussgrösse/UV) in Verbindung gesetzt. Um diese Beziehung aufzuzeigen wird in der
Regressionsgleichung ein β1 verwendet, welches der Korrelation von x und y entspricht (rxy)

R.Wespi Seite 38 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

o bei der multiplen linearen Regression wird eine y-Variable (AV) mit mehreren x-Variablen
(Einflussgrössen/UV) in Verbindung gesetzt. Dabei hat jedes „x“ seinen eigenen Einfluss auf „y“,
welcher mit dem entsprechenden „β“ dargestellt wird. In diesem Fall gilt nichtmehr, dass die
Korrelation zwischen x und y dem entsprechenden Steigungskoeffizienten entspricht.

-> durch die multiple Regression können Drittvariablen direkt im Modell kontrolliert werden, indem
man ihren Einfluss zu einer eigenen Variabel macht.

Ziel ist die Vorhersage einer abhängigen Variablen durch einen Satz von relevanten
Prädiktoren. Dabei wird die Korrelation zwischen den Prädiktoren berücksichtigt, d.h. es
wird vermieden, dass redundante Informationen verwendet werden. Dies erlaubt einen
besseren Vergleich der Bedeutsamkeit einzelner Prädiktoren zur Vorhersage.

In der multiplen Regression beinhalten die Steigungskoeffzienten weitere Informationen, ähnlich dem
Prinzip der Partialkorrelation: Sie geben den Einfluss der jeweiligen Prädiktoren auf das Kriterium (y)
an, wenn für die verbliebenen Prädiktoren kontrolliert wird.

• zwei Einflussgrössen:
o bei der multiplen Regression lassen sich unendlich viele verschiedene Variablen einbringen, wobei in
unserem Fall stets zwei verwendet werden.
o die Modellgleichung dazu:
-> es fällt auf, dass die Gleichung lediglich mit einem β2 und einem xi2 ergänzt wurde
o dadurch, dass mehr Faktoren in das Regressionsmodell kommen, werden die Formeln für
die entsprechenden Grössen etwas komplexer:

o da im multiplen linearen Regressionsmodell mehr als


2 Variablen vorhanden sind, ist es nötig diese grafisch
in einem drei Dimensionalen Raster darzustellen.

R.Wespi Seite 39 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Interpretation:

• standardisierte Beta-Koeffizienten im multiplen linearen Regressionsmodell:


o die Steigungskoeffizienten lassen sich wie folgt standardisieren:

-> durch die Standardisierung ergibt sich, dass β0 = 0


o die standardisierte Grösse ist lediglich zum Vergleich des Effektes mit anderen Grössen geeignet
o zur Interpretation des Regressionsgleichung und für eine Vorhersage verwenden wir
die Original Steigungskoeffizienten

• Mehr als zwei Einflussgrössen


Bisher wurden bei der Darstellung der multiplen Regression nur zwei Einflussgrössen berücksichtigt.
Das Regressionsmodell lässt sich aber einfach auf p Einflussgrössen erweitern:

• Berechnung und Interpretation der EInflussgrössen


Die Formeln für die Koeffizienten erfordern Matrixalgebra und die Berechnung von Hand ist sehr
mühsam. Die Koeffizienten können aber mit allen gängigen Statistik-Programmen am Computer
berechnet werden.

R.Wespi Seite 40 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re

.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
Standardschätzfehler für die multiple Regression:
o ergibt sich aus der Summe der quadrierten Residuen geteilt durch die
Anzahl Probanden minus die Anzahl der Probanden minus 1
Wie in der einfachen linearen Regression kennzeichnet der
Standardschätzfehler die mittlere Abweichung der
vorhergesagten Werte yˆi von den tatsächlich beobachteten
Werten yi .
Individuelle Abweichungen werden weiterhin als Residuen
bezeichnet:

• Bestimmtheitsmass (R2) und korrigiertes Bestimmtheitsmass (R2korr ) in der multiplen linearen Regression:
o das normale Bestimmtheitsmass (R2) lässt sich gleich berechnen wie bei der einfachen linearen
Regression (siehe Seite 34)
o da R2 für jede Einflussgrösse im Regressionsmodell grösser wird, muss das Bestimmtheitsmass
korrigiert werden um seine Aussagekraft nicht zu verlieren. Dabei wird die Stichprobengrösse (n)
und die Anzahl der Einflussgrössen (p) mitberücksichtigt:
o Der Wert von R2 steigt immer weiter an, wenn zusätzliche Einflussgrössen ins Modell
aufgenommen werden. Bei der Beurteilung der Güte des Modells sollte aber auch
dessen Komplexität berücksichtigt werden, da ein zu komplexes Modell zwar die Daten
aus der Stichprobe gut beschreibt, aber nicht auf die Grundgesamtheit übertragbar ist.
Der korrigierte Determinationskoe-zient R2 korr berücksichtigt deshalb auch den
Stichprobenumfang n und die Anzahl der Einflussgrössen p:

• Annahmen der multiplen Regression

1 Normalverteilung der Residuen → Histogramm/Q-Q-Plot


2 Linearität → Partialplot
3 Homoskedastizität → Residuenplot

Neu ist hier nur der Partialplot.

• F-Test: Omnibustest
o gilt als allgemeiner Signifikanztest, der überprüft, ob ein oder mehrere Unterschiede/Grösse im
getesteten Regressionsmodell signifikant ausfallen
o Können die Voraussetzungen des Regressionsmodells als erfüllt gelten, kann man die
globale Nullhypothese
Oder äquivalent R2 = 0
o dabei wird das Bestimmtheitsmass mit dem Stichprobengrösse (n) und der Anzahl Einflussgrössen
(p) verrechnet

o dieser Test gibt lediglich an, ob sich im gesamten Modell eine signifikante Grösse befindet, wobei
daraus nicht ersichtlich ist, wo dieser liegt.

R.Wespi Seite 41 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Inkrement und Dekrement


Eine der wichtigsten Fragen in der multiplen Regression ist: Kann man durch Hinzunahme eines
einzelnen Prädiktors oder eines Sets von Prädiktoren die erklärte Varianz erhöhen (Inkrement)?
Analog gefragt: Wenn ich einen oder mehrere Prädiktoren weglasse, verringert sich dann die
erklärte Varianz (Dekrement)?. Häufig ist es nämlich der Fall, dass Prädiktoren korrelieren und dann
redundante Informationen in der Regression beitragen würden. Man möchte nur die Prädiktoren
behalten, die auch wirklich wichtig sind. Hier konzentrieren wir uns auf das Dekrement. Es gibt an,
um wie viel der Determinationskoe-zient schrumpft, wenn man einen oder mehrere Prädiktoren
weglässt.

Einfachster Fall 1+1 Prädiktoren

R.Wespi Seite 42 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• t-Test für einzelne Steigungen:


o Frage: Leistet eine bestimmte Einussgrösse (unter Berücksichtigung der
übrigen) einen signifikanten Beitrag zur Vorhersage der Zielgrösse?
o Für jede Einflussgrösse xj kann man die Nullhypothese H0 : βj = 0 mit einem
t-Test überprüfen
o einzelne Steigungen lassen sich per t-Test überprüfen, wobei die Prüfgrösse aus dem
Quotient von Regression-/Steigungskoeffizienten (βj) und dem Standardfehler des
partiellen Regressions-/Steigungskoeffizienten (sβ1) besteht (Signifikanztest für H0:
β1 = 0).
o die Freiheitsgrade entsprechen in diesem Fall: df (n-p-1)

R.Wespi Seite 43 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
Multiple Regression: Spezifische Themen

• Multikollinearität
Eines der grössten Probleme in der praktischen Anwendung der multiplen Regressionsanalyse tritt
auf, wenn Prädiktorvariablen hoch miteinander korrelieren. In diesem Fall beinhalten sie zum grossen
Teil redundante Informationen zur Vorhersage der Kriteriumsvariable. Dieses Problem wird
Multikollinearität genannt.
Typische Konsequenzen von Multikollinearität: Instabile, kleine Steigungskoe-zienten βˆ j
Grosse Standardfehler der Steigungskoeffizienten (s βˆ j )
Mögliche Lösungsmöglichkeiten: Kombination von Prädiktorvariablen (z.B. mehrere Intelligenztests
aufsummieren):
Redundante Prädiktoren eliminieren Alternative Schätzverfahren verwenden (kommt in der letzten
Vorlesungsstunde: „Lasso“)

• Testen von Multikollinearität


Multikollinearität kann anhand des Variationsinflationsfaktor V IF für jeden Prädiktor j = 1 . . . p
folgendermassen getestet werden: Man berechnet für jeden Prädiktor eine Hilfsregression, bei der er
von allen verbliebenen Prädiktoren im Modell vorhergesagt wird (ganz genauso wie bei der Erstellung
des Partialplots, s. Im Foliensatz Multiple Regression, Folie 42)
Dann verwendet man den Determinationskoe-zienten dieser Hilfsregression R2 j um den VIF für den
jeweiligen Prädiktor (der der vorhergesagt wurde) zu berechnen:

Der V IF liegt zwischen 0 und +∞. Als Daumenregel weist ein V IF > 10 auf ein Multikollinearitäts-
problem für den jeweiligen Prädiktor hin.

• Auswahl von Prädiktoren


Wenn ein Datensatz viele Prädiktorvariablen enthält, gibt es verschiedene Möglichkeiten, das Problem
der Multikollinearität anzugehen, indem man die relevanten Prädiktorvariablen auswählt:
1 Aufgrund inhaltlicher Überlegungen (Welche Variablen sind für die Hypothesentestung wirklich
wichtig?)
2 Hypothesengeleitetes Testen von Sets von Prädiktoren anhand des Dekrements (häufig
Hierarchische Regression genannt)
3 Automatisierte Auswahlverfahren
4 Sogenannte Penaliserungsverfahren wie das Lasso

Es gibt insbesondere drei klassische Typen von automatisierten Verfahren:


Vorwärtsselektion (iteratives Verfahren zur Hinzunahme von Prädiktoren)
Rückwärtsselektion (iteratives Verfahren zum Entfernen von Prädiktoren)
Schrittweise Selektion (Kombination von Vorwärts- und Rückwärtsselektion; iterative Hinzunahme von
Prädiktoren; in jedem Schritt wird aber noch getestet, ob einer der Prädiktoren doch aus dem Modell
entfernt werden kann)

Vorwärtsselektion:
R.Wespi Seite 44 von 32
hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac
k e r- s o ft w a Ziel: Auswahl von einem relevant Set von q Prädiktoren aus einem grossen Pool von insgesamt pa c k e r - s o ft w a
Prädiktoren.

Als letzte verbliebene Variable würde nun x2 in das Modell aufgenommen werden. Ob x1 und x2 in
das Modell tatsächlich aufgenommen würden, liegt an dem vorher festgelegten Kriterium, wie z.B.
dem F-Test. Hier sollte nur das Vorgehen der Vorwärtsselektion demonstriert werden, wir berechnen
an dieser Stelle nicht diese Tests. Wichtige Anmerkung: Obwohl x2 eine grössere Korrelation zu y hatte
als x1, wurde trotzdem x1 in das Modell gewählt. Dies liegt daran, dass die Korrelation der Prädiktoren
untereinander berücksichtigt wurde (hier: zu x3). Es wurde also der Prädiktor ausgewählt der die
meiste, nicht redundante Information zum Modell hinzufügt.
➔ Wenn man zu viele Prädiktoren erhält: Overfitting
➔ Wenn man zu wenige Prädiktoren erhält: Underfitting

• Schwächen automatisierter Auswahlverfahren


Alle diese Verfahren sollten als exploratives Werkzeug verstanden werden. Die Auswahl kann sehr
stichprobenspezifisch sein. Man sollte auf jeden Fall kreuzvalidieren, d.h. die Selektion mit einem
zweiten Datensatz noch einmal durchführen. Nicht sämtliche multivariate Informationen werden
simultan beachtet (im Beispiel: die Korrelation zwischen x1 und x2 wurde nicht für den 2ten Schritt
betrachtet).
Das kann bei vielen Prädiktoren (z.B. mehr als 10) zu Problemen führen und das finale Set kann
suboptimal sein. Eine andere Kombination wäre tatsächlich besser gewesen
(das weiss man aber nicht). Der F-Test für das Inkrement in diesen Vorgehen ist nicht mehr F-verteilt,
weil in jedem Schritt viele
Tests gemacht werden (für jeden verbliebenen Prädiktor) und der grösste F-Wert ausgewählt wird. Als
Konsequenz hat man ein progressives Verfahren, das zu häufig signifikante Tests ausgibt.

R.Wespi Seite 45 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Regression mit kategorialen Einflussgrössen:


o wenn im Regressionsmodell kategoriale Einflussgrössen
aufgenommen werden (wie Geschlecht, Augenfarbe, Nationalität,
ect.), so müssen diese Dummy-kodiert werden
o um k (Anzahl) Einflussgrössen zu kodieren, braucht es k-1 Dummy-
Variablen
o beim Vergleich der Kategorien wird stets ein Einfluss gewertet, wobei alle anderen Variablen null-
gesetzt werden
o die geschätzten Effekte werden immer mit der Referenzkategorie verglichen
o Beispiel:

grösser wird.

Interpretation: Im Vergleich zu Männern ist bei Frauen die beliebtheit des Produktes (in diesem
Beispiel) im Mittel um β2 Einheiten höher, wenn die Qualität des Produktes gleich bleibt
-> es unterscheidet sich im Endeffekt lediglich der Achsenabschnitt (jedoch nur solange keine
Intearaktion vorliegt!)

R.Wespi Seite 46 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr e
ar
.

.
ac ac
k e r- s o ft w a
• -s o ker ft w
Interaktion mit kategorialen Einflussgrössen:
o Interaktion bedeutet, dass nicht nur zwei verschiedene Haupteffekte (β1 /β2) vorliegen, sondern sich
diese Effekte auch gegenseitig beeinflussen. Deshalb wird bei Regressionsmodellen mit Interaktion
ein dritter Regressionskoeffizient (β3) hinzugefügt, der sowohl mit x1 als auch mit x2 multipliziert
wird. Daraus ergibt sich nicht nur ein anderes β0, es wird auch die Steigung β1 verändert, da β3 dazu
addiert-wird:

keine Interaktion geben würde.

einen β2 dazugerechnet, wodurch β0 grösser wird.

o Interpretation: wenn eine Regression mit Interaktion vorliegt, dürfen die Haupteffekte nicht mehr
separat interpretiert werden, da dabei relevante Informationen verloren gehen
-> Regressionsmodelle mit Interaktionen werden auch als „moderierte Regression“ bezeichnet, da
eine Einflussgrösse eine andere „moderiert“

• Interpretation: Welches Modell ist besser


Die letzte wichtige Frage besteht darin, ob man das Modell mit oder ohne Interaktionseffekt verwenden
sollte. Hierfür muss ein Dekrement berechnet werden, dass testet, ob die Entfernung des
Interaktionseffekts (H0 : β3 = 0) zu einer wesentlichen Verkleinerung des Determinationskoeffizienten
führt. Wir vergleichen zwei Modelle:
Unrestringiertes Modell: Modell mit Interaktionseffekt
Restringiertes Modell: Modell ohne Interaktionseffekt

R.Wespi Seite 47 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Interaktionen mit metrischen Einflussgrössen


Ganz analog zu den Interaktionen mit einer kategorialen Einflussgrösse kann man Interaktionen
zwischen metrischen (kontinuierlichen) Einflussgrössen modellieren Die Regressionsgleichung für
zwei Prädiktoren ist dann (wieder)

β3 ist weiterhin der Interaktionseffekt.

Formuliert man die Gleichung um, sieht man, wie x2 den Zusammenhang mit x1 moderiert:

Regressionsebene ohne Interaktion Regressionsebene mit Ineraktion

Der Zusammenhang zwischen x1 und y Der Zusammenhang zwischen x1 und y


bleibt für verschiedene Werte von x2 gleich verändert sich für verschiedene Werte von
(und umgekehrt). x2 (und umgekehrt)

R.Wespi Seite 48 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Suppressor-Variablen:
o Variable, die den Vorhersagebeitrag einer anderer Variablen erhöht, indem sie irrelevante Varianzen
in der anderen Variablen unterdrückt
o sind selbst nicht oder nur schwach mit der Zielgrösse korreliert, jedoch meist stark mit einer oder
mehreren Einflussgrössen
o Suppressor-Variablen unterdrücken den nicht-interessierenden Teil der Varianz anderer
Einflussgrössen.
o Wenn sie in das Regressionsmodell aufgenommen werden, zeigen die übrigen
Einflussgrössen einen (stärkeren) Effekt und die Vorhersage der Zielgrösse verbessert
sich.
o Suppressor-Variablen sind selbst nicht oder nur schwach mit der Zielgrösse korreliert,
aber dafür mit einer oder mehreren der anderen Einflussgrössen.

• Suppressor- vs. Störvariablen:


o Suppressorvariablen erhöhen den Effekt einer Einflussgrösse auf die Zielgrösse, während die
Störvariable genau das Gegenteil bewirkt
o Suppressorvariablen korrelieren korrelieren nicht oder sehr schwach mit der Zielgrösse, während die
Störvariable stark mit der Zielgrösse korreliert.
o Suppressor-Variablen sind selbst nicht oder nur schwach mit der Zielgrösse korreliert, aber
dafür mit einer oder mehreren der anderen Einflussgrössen.
→ Werden Sie ins Modell aufgenommen, wird der Effekt einer anderen Variable
betragsmässig grösser.
o Stör-Variablen (Drittvariablen, konfundierte Variablen) sind sowohl mit der Zielgrösse als
auch mit einer oder mehreren der anderen Einflussgrössen korreliert.
→ Werden Sie ins Modell aufgenommen, wird der Effekt einer anderen Variable
betragsmässig kleiner.

Einfaktorielle Varianzanalyse

• Begriffe zur Varianzanalyse:


o abhängige Variable (AV), auch Zielgrösse, ist der Output eines Versuches
o unabhängige Variable (UV), auch Einflussgrösse, sind die Grössen die in einem Versuch variiert
werden können, um die AV zu verändern. Sie werden auch als Faktoren oder Treatments bezeichnet
und haben jeweils zwei oder mehrere Kategorien
o Unabhängige Variablen werden in der Varianzanalyse auch als Faktoren oder Treatments
bezeichnet.
o Eine einfaktorielle Varianzanalyse verwendet nur einen Faktor.
o Jeder Faktor hat zwei oder mehr Kategorien.
o Man spricht von den Stufen oder Ausprägungen eines Faktors oder Treatments, bzw. den
Treatment-Bedingungen.
➔ Üblicherweise werden mit der Varianzanalyse Daten aus Experimenten - aber auch aus
Quasi-Experimenten - ausgewertet, in denen die Faktorstufen von den Versuchsleitern
manipuliert wurden.
➔ Ohne zufällige Zuordnung dürfen Effekte weiterhin nicht kausal interpretiert werden.

R.Wespi Seite 49 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr e
ar
.

.
ac ac
k e r- s o ft w a
• -s o ker ft w
Bezug zu Tests für Vergleiche von 2 Mittelwerten
Z.B. t-Test: Vergleich der Mittelwerte von 2 Gruppen Varianzanalyse:
Vergleich der Mittelwerte von mehr als 2 Gruppen (ein Faktor mit > 2 Stufen oder mehrere Faktoren)
Fragestellung: Bestehen überhaupt Unterschiede zwischen den Gruppen? Danach Posthoc-Analysen:
welche Gruppen unterscheiden sich?
o
• Notation:
o i = 1 bezeichnet die Faktorstufe p
o m bezeichnet die Personen innerhalb der Faktorstufe i
o wenn allen Faktorstufen gleich viele Personen zugeteilt werden spricht man von einem balancierten
Versuchsplan
o bei balancierten Versuchsplänen benötigt n keinen Index i zur Kennzeichnung der Faktorstufe, also
gilt: ni = n
o um individuelle Werte zu bezeichnen, werden zwei Indices benötigt, i für die Faktorstufe und m für
die Person:

• Hypothesen:
H0 : µ1 = µ2 = µ3 = µ4
➔ Wenn zB Schüler unterrichtet werden, unterscheiden sich die Ergebnisse nicht der
Lernmethoden
H1 : µj 6= µk für mind. 1 j 6= k

R.Wespi Seite 50 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Quadratsummenzerlegung
Die Berechnung der einfaktoriellen Varianzanalyse geht von der Zerlegung der Gesamtstreuung der
abhängigen Variablen aus.
Welcher Anteil der Gesamtstreuung kann durch die verschiedenen Lehrmethoden erklärt werden?
Ist dieser Anteil gross, wird die H0 verworfen, d.h. die vier Lehrmethoden führen zu signifikant
unterschiedlichen Lernerfolgen.
Quadratsummen sind Kennwerte der Streuung und werden mit QS abgekürzt .

• Quadratsumme für die Gesamtstreuung:


o Quadratsummen sind Kennwerte der Streuung und werden mit QS abgekürzt
o sie ergibt sich aus der Summe der quadrierten Abweichungen aller Messwerte vom
Gesamtmittelwert:
-> im balancierten Design steht über dem zweiten
Summenzeichen lediglich ein n und nicht ein ni (da die Gruppe alle
gleich gross sind)

• Treatmentquadratsumme:
o es interessiert in diesem Fall nur der Teil der Streuung, der auf die vier verschiedenen
Methoden/Treatments zurückzuführen ist
o dazu wird die Summe der quadrierten Abweichungen der Gruppenmittelwerte vom
Gesamtmittelwert (für jede einzelne Person berechnet):

Im unbalancierten Design wird die quadrierte


Abweichung jeder Gruppe mit der Anzahl ihrer

aller Gruppen (Summe) mit der Anzahl an

R.Wespi Seite 51 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
• Fehlerquadratsumme:
o in diesem Fall interessiert nur der Teil der Streuung, der auf die individuellen Unterschiede der
verschiedenen Probanden zurückzuführen ist
o dabei berechnet man die Summe der quadrierten
Abweichung von individuellen Messwerten und
Gruppenmittelwert
o in diesem Fall gibt es keine Unterscheidung des Rechenweges zwischen balancierten und
unbalancierten Designs

• Freiheitsgrade:
o gibt an, wie viele Werte in einer Wertegruppe frei wählbar sind, damit ein zum Beispiel ein
Mittelwert erreicht werden kann
o Konkret: es soll ein Mittelwert aus drei Zahlen gebildet werden, der angenommen 5 sein soll. Um
diesen Mittelwert zu erreichen, dürfen zwei Werte frei sein (z.B. 0, 0) wobei der dritte die
„Differenz“ zum Mittelwert ausmachen muss (in diesem Fall also 15). In diesem Beispiel haben wir
einen Freiheitsgrad von n-1, also 2, weshalb die dritte Zahl „nicht frei“ ist
o für QStot ergeben sich die Freiheitsgrade n * p – 1 = N - 1, also die Gesamtzahl an Probanden minus 1
o für QSA ergeben sich die Freiheitsgrade p - 1, was der Anzahl an Faktorstufen minus 1 entspricht
o für QSe ergeben sich die Freiheitsgrade N - p, was der Anzahl von allen Probanden minus der Anzahl
an Faktorstufen entspricht

• Grundgleichungen:
o Grundsätzlich gilt:
▪ QStot = QSA + QSe
-> Achtung: das gilt nicht für die mittleren Quadratsummen!
▪ Dftot = dfa + dfe
o diese Erkenntnis lässt sich in der Varianztabelle gut anwenden, da sie so aufgebaut ist, dass die
Werte rechts in der Tabelle aus den links stehenden zu errechnen sind

• Mittlere Quadratsumme:
o entsprechen dem Quotient aus den Quadratsummen und ihren jeweiligen Freiheitsgraden:

MQtot =

o dasselbe gilt für QSA und QSe

R.Wespi Seite 52 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Signifikanztest
Die H0 prüfen wir über den F-Test
Prüfgrösse:
mit dfA und dfe Freiheitsgraden.
Wenn tatsächlich Unterschiede zwischen den Gruppen bestehen, wird die mittlere Quadratsumme
des Treatments grösser als die mittlere Quadratsumme des Fehlers, d.h. grosse Werte von F
sprechen gegen die Nullhypothese.

• Varianztabelle:
o in der Varianztabelle werden alle Werte eingetragen die relevant sind für eine Varianzanalyse.
Ausserdem ist sie ein nützliches Hilfsmittel beim Errechnen der relevanten Grössen:

o Varianztabelle Allgemein:

Die Summe von QSA und QSe ergibt QStot der Quotient von MQA und MQe ergibt die Prüfgrösse F
-> es lässt sich von oben nach unten -> das lässt sich auch bei Interaktionen anwenden, wobei
rechnen, auch bei den Freiheitsgraden man in diesem Fall MQAB durch MQe teilt

der Quotient von QSA und dfA ergibt MQA


-> es lässt sich von links nach rechts
rechnen, auch bei QSe oder QSAB

R.Wespi Seite 53 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Für die Gültigkeit des F-Tests müssen folgende Annahmen erfüllt sein
Die abhängige Variable ist normalverteilt auf jeder Stufe des Faktors (äquivalent zu Normalität der
Residuen in der Regressionsanalyse)
Die Varianz der abhängigen Variable ist gleich gross über alle Stufen des Faktors hinweg
(äquivalent zu Homoskedastizität der Residuen in der Regressionsanalyse).
Die Ergebnisse einer Varianzanalyse sind
in vielen Fällen robust gegenüber Verletzungen dieser Annahmen. (D.h. der F-Test liefert nicht
komplett falsche Ergebnisse, wenn die Normalität oder Homoskedastizität etwas verletzt ist).

Posthoc Analysen

Führt eine Varianzanalyse zu einem signifikanten F-Wert, spricht dies dafür, dass es Unterschiede
zwischen den Faktorstufen gibt. Durch sog. Posthoc-Analysen im Anschluss an die Varianzanalyse
kann man herausfinden, zwischen welchen Faktorstufen bzw. durch welche Kombinationen von
Faktorstufen tatsächlich signifikante Unterschiede bestehen. Es gibt verschiedene Aspekte für die
Posthoc-Analysen, die berücksichtigt werden sollten:
1 Sind nur einfache Vergleiche zwischen je zwei Faktorstufen relevant?
2 Sollen komplexere Vergleiche stattfinden? Z.B. sind beide Behandlungsgruppen im Durchschnitt
besser als die Kontrollgruppe?
3 Sind die Tests geplant (a) oder datengetrieben (b)? Z.B. (a) Behandlung 1 vs. Behandlung 2 ist
von ihnhaltlichem Interesse. Oder für (b): Vergleich zweier Gruppen, die den grössten
Mittelwertsunterschied zeigen.

• Posthoc Tests:
o nachdem eine Varianzanalyse zu einem signifikanten Ergebnis kam, müssen sich mindestens zwei
Mittelwerte (also ein Effekt) signifikant unterscheiden
o durch die Post-hoc Tests wird ermittelt welche Mittelwerte sich unterscheiden
o dabei gibt es verschiedene Arten wie Mittelwerte miteinander verglichen
werden können, entweder alle Mittelwerte untereinander (Tukey-Kontraste)
oder alle nur mit einem (Dunnett-Kontrast)
o diese Vergleiche werden üblicherweise in einer Kontrastmatrix dargestellt:

• Einfache Posthoc-Vergleiche
➔ Beziehen sich auf Mittelwertsunterschiede zwischen zwei Gruppen bzw. Faktorstufen,
nachdem man herausfand, dass der F-Test signifikant war
o zB Unterscheiden sich Kontroll und Behandlungsgruppen?
➔ Es werden immer nur 2 Mittelwerte unterschieden, während die verbliebenen nicht
berücksichtigt werden
➔ Posthoc-Tests dind nicht robust
➔ Für die Freiheitsgrade des F-Tests wurde die Gesamtstichprobe (N = n1 + n2 + . . . + np)
verwendet und nicht nur die Anzahl der Personen in den beiden Gruppen (nj + nk).
→ Dies erhöht die Power des Tests im Vergleich zum einfachen t-Test.

R.Wespi Seite 54 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Lineare Kontraste:
➔ Damit kann man einfache und komplexe Vergleiche zwischen Gruppenunterschieden zu
Testen
➔ Einfache Vergleiche beziehen sich auf zwei Mittelwerte
➔ Komplexe Vergleiche beziehen sich auf mehr als zwei Mittelwerte

• Kontraste:
o D entspricht der Summe von Gruppenmittelwerten multipliziert mit ihrem Kontrastfaktor (ci)
o die Summe aller Kontrastfaktoren (ci) muss dabei immer null ergeben (sonst wäre der Kontrast
einseitig)
o dabei sagt die Nullhypothese, dass D = 0 ist.
o Mithilfe eines F-Test für Kontraste lässt sich herausfinden ob ein Unterschied (D) signifikant ist

Die Testung erfolgt für Kontraste immer nach demselben Schema:


1 Formuliere alle Posthoc-Hypothesen, die getestet werden sollen.
2 Bestimme alle Kontraste, die zur Testung notwendig sind und füge sie in eine Kontrastmatrix
3 Berechne die Teststatistik für jeden Kontrast
4 (später: berücksichtige das multiple Testen bei mehr als einem Kontrast)

• Einfache Kontraste: Kontraste herleiten

R.Wespi Seite 55 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

R.Wespi Seite 56 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Berechnung der linearen Kontraste


Zur empirischen Überprüfung der Hypothesen verwendet man die Schätzungen für µ1, . . . , µp, also
Gruppenmittelwerte A¯ 1, . . . , A¯ p. Jeder j-te Vergleich der Gruppenmittelwerte stellt eine
Linearkombination aus den sog. Kontrastgewichten cj1, . . . , cjp (d.h. den Einträgen aus der
Kontrastmatrix) dar, die im folgenden als linearer Kontrast Dj bezeichnet wird:

Unter der jeweiligen Nullhypothese ist jedes Dj = 0. Mithilfe eines statistischen Tests kann man
entscheiden, ob ein Kontrast Dj signifikant von 0 abweicht. Die Nullhypothese, die mit einem Kontrast
überprüft wird, lautet allgemein formuliert:

R.Wespi Seite 57 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Komplexe Kontraste
Der Vorteil der Formulierung der Vergleiche über Kontraste ist, dass man damit auch komplexere
Hypothesen testen kann.
Mithilfe eines Kontrasts kann z.B. auch überprüft werden, ob der Mittelwert über die drei
Einzelbehandlungen im Durchschnitt signifikant von dem in der Kombinationsbehandlung abweicht.
Man spricht hierbei vom Poolen der drei Treatmentstufen a1, a2 und a3.
Dies ist z.B. hier interessant, weil die drei Treatmentstufen a1, a2 und a3 etwas gemeinsam haben,
was sie von der Kombinationsbehandlung a4 unterscheidet.

• F-Test für einen Kontrast:


o die Prüfgrösse aus dem F-Test für einen Kontrast kommt zustande, indem QSD
durch MQe geteilt wird
o dabei entspricht QSD der Anzahl Probanden multipliziert mit der quadrierten Differenz der zu
vergleichenden Mittelwerte (D2) geteilt durch die quadrierten Faktoren der Kontrastmatrix (c2)
quadrierte Differenz der zu
vergleichenden Mittelwerte
Quadratsumme der Differenz aus Kontrastmatrix =
Quadrierte Faktoren
der Kontrastmatrix
o dieser Wert hat die Freiheitsgrade df1 = 1 und df2 = dfe
o Beispiel ab Folie 462

➔ Eine wichtige Frage für Posthoc-Vergleich ist, wie viele Kontraste oder sonstige
Gruppenvergleiche man anstellen sollte. Theoretisch kann man unendlich viele Kontraste
testen. Das macht aber praktisch keinen Sinn.

R.Wespi Seite 58 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Inflation des Fehlers 1. Art:


o wenn an einem Datensatz mehrere Tests mit dem Signifikanzniveau α durchgeführt werden sollen,
ergibt sich durch die Mehrfachtestung ein sehr viel höheres Alpha-Niveau, weshalb auch von einer
Alpha-Fehler Inflation gesprochen wird (wird auch familywise error rate genannt)
o dieser „Inflation“ ist dadurch zu erklären, dass α angibt, wie hoch die Wahrscheinlichkeit für eine
„zufällige Signifikanz“ (Test gibt einen Effekt an, obwohl keiner besteht, auch α-Fehler, siehe
bei einem Test ist. Werden die Daten mehrfach getestet steigt dadurch die Wahrscheinlichkeit für
zufällig signifikante Ergebnisse
o diesem Fehler kann dadurch entgegengewirkt werden, indem α reduziert wird, wofür es zwei
gebräuchliche Vorgehensweisen gibt:
o

Korrektur nach Sidak:


das ist die mathematisch
korrekte/genaue Variante
Approximation nach Bonferroni:
das ist die mathematisch ungenauere Variante,
wodurch das Sicherheitsniveau ansteigt

m entspricht der Anzahl Tests die durchgeführt werden

• Berechnung des experimentwise errors für m unabhängige Tests


Man kann formal die Gesamtwahrscheinlichkeit für mindestens einen signifikanten Test berechnen

(α gesamt), wenn insgesamt m voneinander unabhängige Tests mit Irrtumswahrscheinlichkeit α


durchgeführt werden.

-> α gesamt bezeichnet die experimentwise error rate, d.h. den


Fehler 1. Art für das gesamte Experiment

α bezeichnet hier die testwise error rate, d.h. den Fehler 1. Art für einen einzelnen Vergleich.

R.Wespi Seite 59 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Experimentwise error rate nach Sidak

Experimentwise error rate nach Bonferroni

• orthogonale/unabhängige Kontraste:
o wenn das Produkt aller Kontrastmatrix-Faktoren (c) von jeder Gruppe (also jeweils für sich alleine) 0
ergeben, spricht man von unabhängigen oder orthogonalen Kontrasten
o ist das nicht der Fall spricht man von abhängigen Kontrasten

R.Wespi Seite 60 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
Mehrfaktorielle Varianzanalyse

• Feste und zufällige Effekte:


o Modell 1 entspricht einer Festlegung von Stufen der UV im Vorhinein, wobei man von festen
Effekten spricht
-> der Erkenntnisgewinn dieses Vorgehens ist ungemein höher als wenn die Stufen später ins Modell
eingefügt wurden
o Modell zwei entspricht einer späteren Festlegung von Stufen der UV, wobei es sich um
„Störvariablen“ handelt. Hier spricht man von zufälligen Effekten, wobei das Modell auch für feste
Effekte geeignet ist. Zum Beispiel können verschiedene Versuchsleiter einen unterschiedlichen Effekt
auf die Probanden in der Datenerhebung haben. Dieser Faktor sollte in der Datenauswertung
mitberücksichtigt werden.

Effekt-Darstellung

R.Wespi Seite 61 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

• Modell für zufällige Effekte


Mit der einfaktoriellen Varianzanalyse über einen zufälligen Faktor kann überprüft werden, ob die
Varianz zwischen den Stufen des zufälligen Faktors (z.B. zwischen unterschiedlichen
Therapeutinnen) null ist.

Ein signifikantes Ergebnis der Varianzanalyse besagt in diesem Fall, dass die Therapeutin den
Behandlungserfolg beeinflusst.

• Modell 1:
o das Modell lässt sich einfach dadurch erklären, dass der Messwert sich eines
Probanden einer bestimmten Treatmentstufe sich aus dem Populations-
Mittelwert der jeweiligen Stufe sowie der zufälligen Abweichung dieser Person ergibt
o dabei müssen hinsichtlich der Abweichungen (Residuen) folgende Annahmen erfüllt sein damit der
Test angewendet werden darf:
▪ die Fehlervarianz ist über alle Stufen homogen
▪ die Fehler sind in der Stufe normalverteilt
▪ die Fehler sind zwischen den Personen unabhängig

• Modell 2:
o man spricht vom Modell zwei der Varianzanalyse wenn die
Treatmentstufen durch einen Zufallsprozess ausgewählt wurden (wie
Lehrerin, Therapeutin, etc.)
o der Therapeuteneffekt ist definiert als Differenz zwischen dem durchschnittlichen Behandlungserfolg
(αi, Achtung, Verwechslungsgefahr!) und dem Gesamtmittelwert des Behandlungserfolges über alle
Therapeuten
-> haben die verschiedenen Therapeuten einen Einfluss auf die Therapie so haben sie auch
unterschiedliche αi. Daraus wird die Varianz der αi errechnetA(σ2 )
o über die zufälligen Grössen wird angenommen:
▪ die Treatmenteffekte sind normalverteilt, also αi ~ N (0,Aσ2 )
▪ die Fehlereffekte sind normalverteilt, also εim ~ N (0,eσ2 )
▪ Treatment- und Fehlereffekte sind voneinander unabhängig

• Intraklassenkorrelation:
o bezeichnet den durch den zufälligen Faktor erklärten Anteil der Streuung:

o dabei gilt:

o somit fällt die Intraklassenkorrelation umso höher aus, je kleiner die mittlere Quadratsumme der
Fehler ist (MQe)
o Beispiel siehe Folie 498

R.Wespi Seite 62 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a
• mehrfaktorielle Varianzanalyse:

in einer Varianzanalyse werden die Daten nach verschiedenen Gesichtspunkten interpretiert. Einer davon ist
es, ob Haupteffekte oder und Interaktionen vorliegen. Um das festzustellen müssen die Effekte für sich
betrachtete werden, wofür die jeweiligen Mittelwerte berücksichtigt werde müssen:

Die mittleren Abweichungen vom Gesamtmittelwert sind für alle Stufen des Faktors A gleich null.
H0 : αi = 0 für alle i
Die mittleren Abweichungen vom Gesamtmittelwert sind für alle Stufen des Faktors B gleich null.
H0 : βj = 0 für alle j
Die Abweichungen vom Gesamtmittelwert sind für alle Gruppen gleich null (Wechselwirkung).
H0 : (αβ)ij = 0 für alle i, j

Berechnung der Zellmittelwerte:

R.Wespi Seite 63 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Berechnung der Quadratsummen


Die Quadratsummen der Faktoren ergeben sich über die quadrierten Abweichungen der Zeilen-
bzw. Spaltenmittelwerte vom Gesamtmittelwert, also

Berechnung der Freiheitsgrade

Rechnung auf Folie 32/33


Df (total) = N-1

Varianztabelle allgemein

➔ Bei mehrfaktoriellen Analysen wird typischerweise die Kontrolle des Fehlers der 1. Art
nicht experimentwise durchgeführt, sondern familywise. Dies bedeutet, dass z.B. eine
Bonferroni-Korrektur pro Faktor separat erfolgt.

R.Wespi Seite 64 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Faktor A = frustrierende Situation


Faktor B = Hitze (in Umgebung)
In diesem Fall liegen keine
(Haupt-) Effekte vor

In diesem Fall In diesem Fall liegt ein


liegt ein Haupteffekt A, jedoch kein
Haupteffekt B, Haupteffekt B vor.
jedoch kein
Haupteffekt A
vor.

Haupteffekt B ist daran zu erkennen, ob es Haupteffekt A ist daran zu erkennen, ob die


zwei verschiedene Mittelwerts-Linien in der Linie (verschiedene Mittelwerte) parallel
Grafik gibt oder nicht. zur x-Achse verläuft oder nicht.
Wenn ja, liegt ein Haupteffekt vor Wenn nicht, liegt ein Haupteffekt vor

In diesem Fall liegt sowohl In diesem Fall liegt eine


ein Haupteffekt A als Interaktion von Variable A
auch ein Haupteffekt B und Variable B vor
vor

Beide Haupteffekte auf einmal sind daran Eine Interaktion ist an den gekreuzten (oder Interaktionen sind unabhängig
zu erkennen, dass sowohl zwei zueinander auch aufeinander zulaufenden) Linien zu von Haupteffekten. Somit
parallel verlaufende Linien zu sehen sind erkennen. Durch eine Interaktion sind können Interaktionen und
und diese nicht parallel zu x-Achse jedoch die Haupteffekte (grafisch) kaum Haupteffekte in beliebigen
verkaufen. mehr zuverlässig zu erkenne. Kombinationen auftreten.

Aufgepasst!
Ob ein signifikanter Haupteffekt oder eine signifikante Interaktion vorliegt kann anhand einer Grafik nur spekulativ beantwortet werden, da für eine klare
Aussage ein F-Test durchgeführt werden muss (oder zumindest die Skalierung der Grafik mit einbezogen werden sollte).
In diesem Beispiel könnte es sich zum Beispiel um kleine Intervalle handeln die in der Grafik dargestellt werden, was dazu führen würde, dass die
Darstellungen und damit die Effekte überbewertet werden und in Wirklichkeit keinen signifikanten Effekt hervorbringen

R.Wespi Seite 65 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Unbalanciertes Design (Zellgrösse nicht identisch in allen Zellen)

3 Modelle um die Quadratsumme zu berechnen.


Beim Interaktionseffekt kommt es nicht darauf an, welches Modell ich verwende
Typ 1 wird üblich nicht verwendet
Typischerweise fahre ich am bestem mit Modell 3, ausser ich kann vollkommen ausschliessen, dass
Eine Interaktion in den Daten vorliegt

Modell I: nur feste Effekten (s.o.)


Modell II: nur zufällige Effekte
Modell III: feste und zufällige Effekte

➔ Die Prüfgrösse hängt davon ab, was für ein Modell auf meine Daten zutrifft
➔ Ich muss also wissen, was für Effekte vorhanden sind

Hypothesen für Modell II

Für einen zufälligen Faktor sind die Mittelwertunterschiede zwischen den zufälligen Faktorstufen
nicht von primärem Interesse. Stattdessen wird für jeden zufälligen Faktor die Varianz betrachtet.
Auch die Interaktion zwischen zufälligen Faktoren wird als zufällig betrachtet.

R.Wespi Seite 66 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Hypothesen für Modell III

Varianzanalyse mit Messwiederholungen

Für zwei Mittelwerte:


t-Tests für unabhängige Stichproben: z.B. zwei Treatmentgruppen (Kontroll- vs.
Behandlungsgruppe)
t-Tests für verbundene Stichproben: z.B. zwei Messung an denselben Person (Prä- und
Postmessung)

Für mehr als 2 Mittelwerte: Varianzanalyse ohne Messwiederholungen:


z.B. mehrere Treatmentgruppen (Kontroll- vs. Behandlungsgruppe 1 vs. Behandlungsgruppe 2)
Varianzanalyse mit Messwiederholungen: z.B. mehrere Messung an denselben Person
(Messzeitpunkt 1, 2, 3, 4, dies kann auch in Kombination mit Treatmentgruppen auftreten)

R.Wespi Seite 67 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Bei den Treatmenteffekten αi (für die drei Tageszeiten) handelt es sich um feste Effekte
(weil es wirklich um die gewählte Tageszeit geht). Sie modellieren die Streuung
innerhalb der Personen. Dies wird within subjects-Faktor genannt.
Die Unterschiede zwischen den Personen werden durch die zufälligen Effekte Sm ∼ N(0, σ2 S )
modelliert. Sie modellieren die Streuung zwischen den Personen.
Dies wird between subjects-Faktor genannt. Auch die Fehler εim ∼ N(0, σ2 e ) sind
zufällig und enhalten alle weiteren, nicht durch das Modell erklärten Unterschiede (u.a. auch
Interaktionseffekte zwischen Treatment und Personen, die hier nicht gesondert modelliert werden
können).

➔ Die einfaktorielle Varianzanalyse mit Wiederholung (Längsschnitt überprüft


Folgende Nullhypothese: (für den Zeiffaktor)

Alle Abweichungen vom Gesamtmittelwert = 0 also keine Veränderung über die


Zeit

➔ Die einfaktorielle Varianzanalyse mit Wiederholung (Längsschnitt überprüft


Folgende Nullhypothese: (für den Personenfaktor)

Die Alternativhypothese würde bedeuten, dass scih Personen in ihrem Level unterscheiden.
Da es ein Zufallsfaktor ist, interessiert nicht konkret, welche zwei (oder mehr) Personen sich
konkret unterscheiden

Intraklassenkorrelation

➔ Zur Quantifizierung der interindividuellen Unterschiede


➔ Der ICC liegt wieder zwischen 0 und 1. Je grösser der Wert ist desto stärker erklären
interindividuelle Unterschiede die Unterschiede, die in der abhängigen Variable beobachtet
werden.
➔ Ein Wert von z.B. ICC = 0.10 bedeutet, dass 10% der Varianz der beobachteten Variable auf
Unterschiede in den Personen zurückzuführen ist.

R.Wespi Seite 68 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

Eigenschaften und Besonderheiten bei Messwiederholungen

Eine einfaktorielle Varianzanalyse mit Messwiederholungen lässt sich auch als zweifaktorielle
Varianzanalyse (Modell III, gemischte Effekte) betrachten, wenn man die Personen als Stufen eines
Zufallsfaktors betrachtet, d.h.:
Faktor A = fest (Tageszeiten)
Faktor S = zufällig (Personen)
Allerdings enthält jede Zelle dieses zweifaktoriellen Versuchsplans nur eine Beobachtung.
→ Deshalb können die Interaktionseffekte nicht getrennt von den Fehlern geschätzt werden.

Annahmen:

Die Fehler sind normalverteilt, d.h. εim ∼ N(0, σ2 e ).


Die zufälligen Personen-Effekte sind normalverteilt, d.h. Sm ∼ N(0, σ2 S ).
Alle Zufallsvariablen sind voneinander unabhängig. D.h. u.a., dass die Fehler von unterschiedlichen
Personen nicht miteinander korreliert sein dürfen.
Diese Annahme kann z.B. verletzt sein, wenn verschachtelte Daten vorliegen,
z.B. von Schülerinnen aus mehreren Schulklassen, die wiederholt gemessen werden.
Zusätzlich muss die sog. Sphärizität gelten.

Sphärizität

➔ Gilt wenn zwei Messwertpaare stets dieselbe Korrelation haben


➔ Gilt wenn die Varianz über die Zeit hinweg homogen ist

Die Sphärizität ist häufig unplausibel für echte Längsschnittdaten Messzeitpunkte,


die näher beeinander sind, sind häufig höher miteinander korreliert (z.B. Matheleistung in Klassen
1, 2 und 3) Die Varianz wird häufig grösser über Zeiten, z.B. weil Personen unterschiedlicher werden
(z.B. soziale Fähigkeiten bei autistischen Kindern zwischen 2 und 13 Jahren)

→ Die Annahme ist hingegen häufig plausibel für Experimentaldaten, weil die Bedingungen
(Messzeitpunkte) permutiert/randomisiert für jede Person sind.

R.Wespi Seite 69 von 32


hange E hange E
XC di XC di
F- t F- t
PD

PD
or

or
!

!
W

W
O

O
N

N
Y

Y
U

U
Statistik-Übersicht – von Studenten für Studenten 20.09.2015
B

B
to

to
ww

ww
om

om
k

k
lic

lic
C

C
.c

.c
w

w
tr re tr re
.

.
ac ac
k e r- s o ft w a k e r- s o ft w a

-wenn man testen will, ob die Sphärizität verletzt ist oder wenn man eine Korrektur der
Signifikanztestung vornehmen will, dann mit dem Greenhouse Geiser „epsilon“

Greenhouse Geiser's „epsilon“ liegt zwischen

Je kleiner es ist, desto stärker ist die Sphärizität verletzt.


Ist „epsilon“ = 1, ist die Sphärizität nicht verletzt.

R.Wespi Seite 70 von 32