Statistik 1 (Teil 1)
Marina Haller
HS 2020
Organisatorisches 2
I Ruhe!
I zugelassene Hilfsmittel
I Formelsammlung (wie im OLAT, wird ausgegeben)
I Taschenrechner (nur die zugelassenen Modelle!)
http://www.psychologie.uzh.ch/de/studium/bscmsc/
studium/pruefungen/rundum.html
1. Deskriptive Statistik
2. Wahrscheinlichkeitstheorie
Erkundungsphase
Theoretische Phase
Vorlesung Forschungsmethoden
Planungsphase
Untersuchungsphase
Auswertungsphase
Vorlesung Statistik
Entscheidungsphase
Absolutskala
Identität
Dierenzenskala Verhältnisskala
a+x b·x metrische Skalen
Intervallskala
a+b·x
Ordinalskala
streng monotone Transformationen
Nominalskala
eineindeutige Transformationen
Nominalskala 16
I Niedrigstes Skalenniveau.
I Erste metrische Skala, d.h. die Skala besteht aus gleich groÿen
Intervallen, den Einheiten.
I Beispiele: Temperatur, psychologische Messungen wie z.B.
IQ-Werte.
I Zulässige Transformationen für Intervallskalen sind
Quelle: http://www.mathsisfun.com
Beispiel 20
I 50◦ F ist nicht doppelt so hoch wie 41◦ F . Die Aussage ist auf
Intervallskalenniveau nicht sinnvoll.
cm = 100 · m
1. Deskriptive Statistik
1.1 Maÿe der zentralen Tendenz (Lagemaÿe)
1.2 Maÿe der Variabilität (Streuungsmaÿe)
1.3 Lineare Transformationen
1.4 Diagramme
2. Wahrscheinlichkeitstheorie
I Median (50%-Quantil)
ab Ordinalskala
I Modalwert (Modus)
ab Nominalskala
n
1 X
x̄ = xi
n
i= 1
I Numerisches Beispiel: Fünf Werte: 3, 5, 6, 8, 14
I Man errechnet
n
1 X 1
x̄ = xi = (3 + 5 + 6 + 8 + 14)
n
i= 1 5
= 36/5 = 7,2.
n
X
(xi − x̄ ) = 0.
i= 1
I Der Mittelwert ist sensitiv gegenüber Ausreiÿern.
I Was passiert?
x( 2n ) + x( 2n +1)
Median =
2
I Ungerader Stichprobenumfang, n = 5:
I Unsortierte Werte: 5, 2, 3, 7, 8
I Sortierte Werte: 2, 3, 5, 7, 8
I Median = x( n+21 ) = x( 5+2 1 ) = x(3) = 5.
I Gerader Stichprobenumfang, n = 6:
I Unsortierte Werte: 2, 8, 6, 4, 12, 10
I Sortierte Werte: 2, 4, 6, 8, 10, 12
x( n ) + x( 2n +1) x( 6 ) + x( 62 +1) x(3) + x(4)
I Median = 2 = 2 = =
2 2 2
6+8
=7
2
I Beispiel: 2, 1, 3, 5, 2, 4, 3, 2
Der Wert 2 kommt am häugsten vor und ist daher Modalwert.
I Varianz
I Standardabweichung
I Variationsbreite (Range)
I Interquartilbereich
ab metrischem Skalenniveau
n
s2 = (xi − x̄ )2
1 X
n−1
i= 1
(durchschnittliche quadrierte Abweichung vom Mittelwert).
xi xi − x̄ (xi − x̄ )2
3,3 0,8 0,64 Mittelwert
1,7 −0,8 0,64
2,0 −0,5 0,25 x̄ = 2,5.
4,0 1,5 2,25
1,3 −1,2 1,44 Varianz:
(xi − x̄ )2
2,0 −0,5 0,25 Pn
3,0 0,5 0,25
2
s = i=1 =
7,92
= 0,720
n−1 11
2,7 0,2 0,04
3,7 1,2 1,44 Standardabweichung:
2,3 −0,2 0,04 p
1,7 −0,8 0,64 s = 0,72 = 0,849
2,3 −0,2 0,04
7,92
I Interquartilbereich IQR = Q3 − Q1
I Der IQR drückt die Länge des Bereichs aus, über den die
mittleren 50% einer Rohwerteverteilung streuen.
I x50 : Median
I Auÿer für den Median ist die Bestimmung von Quantilen per
Hand nicht praktikabel.
CHF EUR
0 0
1 0,96
2 1,92
3 2,88
4 3,84
.. ..
. .
10 9,60
I Erhobene Werte: x
I Transformierte Werte: y
I Transformation: y =a+b·x
I Fünf x -Werte:
2, 3, 4, 5, 6.
I Mittelwert: ȳ = a + b · x̄
I 2 2 2
Varianz: sy = b · sx
Standardabweichung: sy = |b| · sx
I Beispiel: Für die lineare Transformation y =2+3·x ergeben
sich:
8, 11, 14, 17, 20
I ȳ = 14 und sy = 4,743
I ergibt sich auch durch: ȳ = 2 + 3 · 4 und sy = |3| · 1,581
x − x̄
z =
s
= a + b · x
= − s + 1s · x
x̄
20 − 10
zB = =2
5
C
D
250
200
150
100
50
0
A B C D E
Quelle: http://www.phdcomics.com
Zur Unterhaltung 53
Quelle: Katja Berlin & Peter Grünlich: Was wir tun, wenn der
Aufzug nicht kommt.
Zur Unterhaltung 54
Quelle: Katja Berlin & Peter Grünlich: Was wir tun, wenn der
Aufzug nicht kommt.
Boxplot 55
I Insofern kann man an der Box den Abstand der drei Quartile
zueinander erkennen.
Q1 = x(3) = 65
Median = (x(5) + x(6) )/2 = 68
Q3 = x(8) = 75
IQR = Q3 − Q1 = 10
IQR
Median
56 65 68 75 89 92
I Wir betrachten z.B. den Whisker für den oberen Rand der
Verteilung:
I Zunächst wird der IQR bestimmt und dann das 1,5-fache des
IQR zu dem oberen Angelpunkt Q3 addiert: Q3 + 1,5 · IQR
I Dieser Wert ist die Obergrenze für die Länge des Whiskers.
IQR
56 65 68 75 89 92
An der Form des Boxplots sieht man die Verteilung der Werte:
●● ●
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
● ●● ● ●●● ●●● ● ● ● ● ● ● ●
● ●●● ●● ● ● ●●● ●
● ● ●● ● ● ●
●● ●● ●●
● ●
●● ● ● ● ●●● ● ●
●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●
● ● ●● ● ● ● ● ●● ●● ●
● ●● ● ●
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
Histogramm 63
0.015
0.010
Density
0.005
0.000
0.012
0.025
0.010
0.020
0.008
0.015
Density
Density
0.006
0.010
0.004
0.005
0.002
0.000
0.000
40 60 80 100 120 140 160 40 60 80 100 120 140 160
0.015
0.010
0.010
Density
Density
0.005
0.005
0.000
0.000
1. Deskriptive Statistik
2. Wahrscheinlichkeitstheorie
2.1 Begrie und Rechenregeln
2.2 Wahrscheinlichkeitsverteilungen
2.3 Stichprobenverteilung des Mittelwerts
(Ω)
(D)
2 3 7 9 10
6
(A) (B) (C)
1 4 5 8
(E)
Quelle: Katja Berlin & Peter Grünlich: Was wir tun, wenn der
Aufzug nicht kommt.
Zur Unterhaltung: Schnittmenge 84
I In diesem Fall:
Quelle: Katja Berlin & Peter Grünlich: Was wir tun, wenn der
Aufzug nicht kommt.
Mehr als zwei disjunkte Ereignisse 88
I Als Formel:
P(A ∩ B ∩ C ∩ . . . ∩ Z) =
P(A) · P(B|A) · P(C |AB) · . . . · P(Z |AB . . . )
I Häug tritt die Situation auf, dass wir uns für die
Wahrscheinlichkeit des Ereignisses B interessieren, wobei wir
aber bereits wissen, dass ein anderes Ereignis A eingetreten ist.
Stellen Sie sich vor, aus einem Hörsaal mit 100 Studierenden ziehe
ich zufällig eine Person (mit verbundenen Augen).
Zum Rechnen brauchen wir einige Wahrscheinlichkeiten, die sich aus der
Verteilung in der Grundgesamtheit ergeben:
Frau P(Frau) = 50/100 = 0.5
ja nein P(lang) = 45/100 = 0.45
lang
ja 40 5 45 P(Frau ∩ lang) = 40/100 = 0.4
nein 10 45 55 P(lang|Frau) = 40/50 = 0.8
50 50 100 P(lang|Frau) = 5/50 = 0.1
Haargel
ja nein
lang
ja 0 45 45 P(Gel) = 15/100 = 0.15
nein 15 40 55
15 85 100
Frau
ja nein P(Shirt|Frau) = 10/50 = 0.2
Shirt
ja 10 10 20 P(Shirt|Frau) = 10/50 = 0.2
nein 40 40 80 P(Shirt) = 20/100 = 0.2
50 50 100
Bedingte Wahrscheinlichkeit 97
40/100 0.4
= = 0.8
50/100 0.5
von allen 100 Personen sind 40 Frauen und haben lange Haare
von allen 100 Personen sind 50 Frauen
Wie hoch ist die Wahrscheinlichkeit, dass die Person, die ich ziehe,
eine Frau ist oder lange Haare hat (oder beides)?
Frau
ja nein
ja 40 5 45
lang
nein 10 45 55
50 50 100
Additionstheorem für disjunkte Ereignisse 100
Wie hoch ist die Wahrscheinlichkeit, dass die Person, die ich ziehe,
lange Haare hat oder Haargel im Wet-Look trägt (oder beides)?
Es gibt keine Personen, die sowohl lange Haare als auch Haargel im
Wet-Look tragen, d.h. lang ∩ Gel = ∅ und P(lang ∩ Gel) = 0.
P(lang ∪ Gel) = P(lang) + P(Gel) − P(lang ∩ Gel)
= 0.45 + 0.15 − 0
= 0.60
Haargel
ja nein
ja 0 45 45
lang
nein 15 40 55
15 85 100
Multiplikationstheorem für unabhängige Ereignisse 101
Wie hoch ist die Wahrscheinlichkeit, dass die Person, die ich ziehe,
eine Frau ist und ein schwarzes T-Shirt trägt?
Frau
ja nein
ja 10 10 20
Shirt
nein 40 40 80
50 50 100
Multiplikationstheorem allgemein 102
Wie hoch ist die Wahrscheinlichkeit, dass die Person, die ich ziehe,
eine Frau ist und lange Haare hat?
Frau
ja nein
ja 40 5 45
lang
nein 10 45 55
50 50 100
Disjunktheit vs. Unabhängigkeit 103
Disjunktheit
Ist die Schnittmenge aus Frau und lang leer?
nein ⇒ nicht disjunkt
Unabhängigkeit
Ist P(lang|Frau) gleich P(lang|Frau)?
nein ⇒ nicht unabhängig
Frau
ja nein
ja 40 5 45
lang
nein 10 45 55
50 50 100
Multiplikationstheorem aus psychologischer Sicht 104
I . . . dass die Person, die ich ziehe, eine Frau ist und
lange Haare hat.
Wir haben gesehen: Frauen mit langen Haaren sind nur eine
Teilmenge aller Frauen ⇒ Wahrscheinlichkeit für verbundenes
Ereignis ist kleiner (Multiplizieren zweier Wahrscheinlichkeiten
ergibt geringere Wahrscheinlichkeit).
Multiplikationstheorem aus psychologischer Sicht 105
P(B|A) · P(A)
P(A|B) =
P(B)
I Der Nenner ist (Satz von der totalen Wahrscheinlichkeit):
P(B|A) · P(A)
P(A|B) =
P(B|A) · P(A) + P(B|A) · P(A)
I Notation:
I K Krankheit vorhanden
I T Test positiv
I Terminologie:
I P(K ) Prävalenz
I P(T |K ) Sensitivität des Tests
I P(T |K ) Spezität des Tests
P(T |K ) · P(K )
P(K |T ) =
P(T |K ) · P(K ) + P(T |K ) · P(K )
I Aus der Prävalenz folgt: P(K ) = 1 − P(K )
I Aus der Spezität folgt: P(T |K ) = 1 − P(T |K )
0,001 · 0,98
P(K |T ) = = 0,164
0,001 · 0,98 + 0,005 · 0,999
1. Deskriptive Statistik
2. Wahrscheinlichkeitstheorie
2.1 Begrie und Rechenregeln
2.2 Wahrscheinlichkeitsverteilungen
2.3 Stichprobenverteilung des Mittelwerts
9
36
6
36
P (x)
3
36
1
36
2 4 6 8 10 12
x
I Erwartungswert
N
xi · P(xi )
X
µ=
i= 1
I Varianz
N
σ2 = (xi − µ)2 · P(xi )
X
i=1
I Wahrscheinlichkeitsfunktion
P(xi )
I Verteilungsfunktion
P(xj )
X
F (xi ) =
j≤i
I n=1
I π = 0,5
I Kopf zählt als Erfolg
P(x) = n
π x (1 − π)n−x
I Binomialverteilung:
x
I Binomial-Koezient (sprich: x aus n)
n n!
=
x x!(n − x)!
I x! wird als x Fakultät bezeichnet.
x! = 1 · 2 · · · (x − 1) · x
I Man berechnet
1 3
4 1 5
P(1) =
1 6 6
= 0,3858
I Die Klausur gilt als bestanden, falls neun oder mehr der
Antworten richtig sind.
I Erwartungswert:
µ=n·π
I Varianz:
σ 2 = n · π(1 − π)
I n = 10 und π = 0,5
I Erwartungswert: µ = 10 · 0,5 = 5 Erfolge
I 2
Varianz: σ = 10 · 0,5 · 0,5 = 2,5
Z b
P(a < x ≤ b) = f (x) dx.
a
I Dabei gilt
Z +∞
f (x) dx = 1.
−∞
I Erwartungswert
Z ∞
µ= x f (x) dx.
−∞
I Varianz
−∞
I Dichtefunktion f (x).
I Verteilungsfunktion F (xp ) gibt an, wie viel Prozent der
Verteilung kleiner oder gleich einem bestimmten Wert xp sind:
F (xp ) = P(x ≤ xp ).
2
1 e− 12 ( x−µ
σ )
f (x) =
2πσ
√
2
µ − 2σ µ−σ µ µ+σ µ + 2σ
I z -Transformation (Daten)
x − x̄
z=
s
I z -Transformation (Verteilung)
x −µ
z=
σ
I Bestimme z -Wert.
I z = (110 − 100)/15 ≈ 0,67.
I Verwende die vereinfachte N(0, 1)-Tabelle aus der
Formelsammlung:
zp F (zp )
0 0.50
0.68 0.75
1.28 0.90
1.65 0.95
1.96 0.975
2.33 0.99
2.58 0.995
zp F (zp )
0 0.50
0.68 0.75
1.28 0.90
1.65 0.95
1.96 0.975
2.33 0.99
2.58 0.995
x − 100
2,33 =
15
I Also x = 100 + 2,33 · 15 = 134,95.
I 99% der Gesamtbevölkerung haben einen IQ-Wert bis ca. 135.
Umgekehrte Frage 147
Fragetyp 1b:
I Bestimme z -Wert.
I z = (110 − 100)/15 ≈ 0,67.
I Verwende die vereinfachte N(0, 1)-Tabelle aus der
Formelsammlung:
zp F (zp )
0 0.50
0.68 0.75
1.28 0.90
1.65 0.95
1.96 0.975
2.33 0.99
2.58 0.995
Fragetyp 1c:
I z = (100 − 100)/15 = 0.
I Der Flächenanteil von links kommend bis zum Wert 100
beträgt 0,5.
x̄ ∼ N(µ, σx2̄ )
in der Grundgesamtheit n =2
μ = 75
σ = 16 2
50 60 70 80 90 100
Population n=4
μ = 75 μ = 75
σ = 16 σ = 16 4
50 60 70 80 90 100
50 60 70 80 90 100
n=9
n =2 μ = 75
μ = 75 σ = 16 9
σ = 16 2
50 60 70 80 90 100
c 2010,80Springer-Verlag
Berlin Heidelberg. Aus J. Bortz & C. Schuster (2010).
Statistik
50 60 für70
Human- und90Sozialwissenschaftler.
100 Springer: Heidelberg. www.lehrbuch-psychologie.de
Nicht-normalverteilte Populationen 159
Gleichverteilung
Population n=2
Gleichverteilung Gleichverteilung
Population n=2
Population n=2
n=4 nn
==4 10 n
n=4 n = 10
n=4 n = 10
Population n=2
Schiefe Verteilung
Schiefe Verteilung
Population n=2
Population n=2
n=4 n
n=4 n = 10
n=4 n = 10
n=4 n = 10
I Wenn die wahre Varianz bekannt ist (z.B. aus einer früheren
Erhebung für die gesamte Population) kann man den
Standardfehler des Mittelwerts direkt ausrechnen.
σ2
r
σ
σx̄ = =√
n n
s2
r
s
sx̄ = =√
n n
I Kondenzintervall:
18, 17, 19, 21, 23, 25, 27, 29, 31, 33 und 32
Und jetzt?
Tests und Kondenzintervalle
Wo sind wir? 171
1. Deskriptive Statistik
2. Wahrscheinlichkeitstheorie
Beispiele:
H0 : µ = µ0 und H1 : µ > µ0
H0 : µ = µ0 und H1 : µ < µ0
H0 : µ = µ0 und H1 : µ 6= µ0
Testentscheidung
tatsächlich gilt anhand einer Stichprobe
in der Population H0 beibehalten H0 ablehnen
H0 gilt
(kein Unterschied) richtig Fehler 1. Art
H0 gilt nicht
(Unterschied) Fehler 2. Art richtig
Fehler der 1. und 2. Art 177
5%
0 z 95%
2,5% 2,5%
z 2,5% 0 z 97,5%
I Mit der einseitigen Hypothese legt man sich vorab auf die
vermutete Richtung der Veränderung fest.
I Signifkanzniveau festlegen
I Hypothese festlegen
p -Wert < α
Im obigen Beispiel:
Testentscheidung
tatsächlich gilt anhand einer Stichprobe
in der Population H0 beibehalten H0 ablehnen
Fehler 1. Art
H0 gilt 1 −α α
µ − µ0
I Man kann sich aber überlegen, wie groÿ der Unterschied sein
müÿte, um praktisch relevant zu sein, und dafür die Power
berechnen.
Beispiel 199
µ − µ0 = 43 − 40 = 3
µ − µ0
δ=
σ
I Im Beispiel sind wir von einer bekannten Standardabweichung
σ=4 der Leistungswerte ausgegangen.
I Eine Verbessserung um 3 Punkte entspricht also der
standardisierten Eektstärke:
43 − 40
δ= = 0,75
4
(d.h. einer Verbesserung um 0,75 Standardabweichungen).
I Die Festlegung eines interessierenden Unterschiedes ist
notwendig zur Berechnung von β -Fehler und Power sowie des
benötigten Stichprobenumfangs.
c 2010, Springer-Verlag Berlin Heidelberg. Aus J. Bortz & C. Schuster (2010).
Statistik für Human- und Sozialwissenschaftler. Springer: Heidelberg. www.lehrbuch-psychologie.de
Bestimmung von β -Fehler und Power 201
N(0, 1)
√ √ 0
N( n·δ, 1) = N( n· µ−µ
σ , 1)
Bestimmung von β -Fehler und Power 202
I Die folgende Gleichung ist für die Berechnung der Power des
z -Tests von zentraler Bedeutung, da sie die vier Gröÿen, α, β ,
n und δ miteinander in Beziehung setzt:
√
zβ = z1−α − n · δ
I Kennt man drei der vier Gröÿen, kann man die vierte Gröÿe
bestimmen:
I Wie groÿ muss die Stichprobe von Schülern, die nach der
neuen Lehrmethode unterrichtet werden, mindestens sein, um
diese Power zu gewährleisten?
2
−1,65 − 1,65
n= = 19,36
0,75
I Der einseitige Test hat eine höhere Power als der zweiseitige
Test (d.h. wenn man eine inhaltliche Hypothese über die
Richtung des Unterschiedes hat, sollte man sie verwenden).
Stichprobenverteilung des Mittelwerts unter H0 und H1 209
in Abhängigkeit von der Größe des Stichprobenumfangs n
n = 12
0.4
0.2
4 4
N(µ0,σx) = N(40, 12
) N(µ,σx) = N(43, 12
)
0.0
40 43
n = 20
0.4
0.2
4 4
N(µ0,σx) = N(40, 20
) N(µ,σx) = N(43, 20
)
0.0
40 43
Power in Abhängigkeit von der Stichprobengröße n
210
n = 12
0.4
0.3
0.2
1 −β
0.1
β α
0.0
−2 0 2 4 6
n = 20
0.4
0.3
0.2
1 −β
0.1
β α
0.0
−2 0 2 4 6
Stichprobenverteilung des Mittelwerts unter H0 und H1 211
in Abhängigkeit von der Größe des Unterschiedes | µ − µ0 |
µ−µ0 = 3
0.4
0.3
0.2
4 4
N(µ0,σx) = N(40, 12
) N(µ,σx) = N(43, 12
)
0.1
0.0
40 43
µ−µ0 = 4
0.4
0.3
0.2
4 4
N(µ0,σx) = N(40, 12
) N(µ,σx) = N(44, 12
)
0.1
0.0
40 44
Power in Abhängigkeit von der Größe des Unterschiedes |µ−µ0| 212
|µ−µ0| = 3
0.4
0.3
0.2
1 −β
0.1
β α
0.0
−2 0 2 4 6
|µ−µ0| = 4
0.4
0.3
0.2
1 −β
0.1
β α
0.0
−2 0 2 4 6
Power in Abhängigkeit vom Signifikanzniveau α 213
α = 5%
0.4
0.3
0.2
1 −β
0.1
β α
0.0
−2 0 2 4 6
α = 1%
0.4
0.3
0.2
1 −β
0.1
β α
0.0
−2 0 2 4 6
Power für einseitige und zweiseitige Tests 214
0.4
0.3
0.2
1 −β
0.1
β α
0.0
−2 0 2 4 6
1 −β
0.1
α 2 β α 2
0.0
−2 0 2 4 6
Tests und Kondenzintervalle für Mittelwerte
Drei Arten von Fragestellungen 216
Vergleich . . .
I Der t -Test verwendet die t -Verteilung und lässt sich auch für
unbekannte Populationsstreuung durchführen.
H 0 : µ = µ0
x̄ − µ0 x̄ − µ0 √ x̄ − µ0
z= = = n ∼ N(0, 1)
σx̄ √σ σ
n
x̄ − µ0 x̄ − µ0 √ x̄ − µ0
t= = = n ∼ t(n − 1)
sx̄ √s s
n
0,4
normal
df=2
df=5
0,3
0,2
0,1
0,0
−3 −2 −1 0 1 2 3
H0 : µ = 1440
H1 : µ 6= 1440
√
1458,143 − 1440
t= 7 = 2,638
18,197
√
untere Grenze = 1458,143 − 2,447 · 18,197/ 7 = 1441,313
√
obere Grenze = 1458,143 + 2,447 · 18,197/ 7 = 1474,973
H1 : µ 6= µ0
durchzuführen.
1. Deskriptive Statistik
2. Wahrscheinlichkeitstheorie
H0 : µ1 = µ2 , H1 : µ1 > µ2 (einseitig)
H0 : µ1 = µ2 , H1 : µ1 < µ2 (einseitig)
H0 : µ1 = µ2 , H1 : µ1 6= µ2 (zweiseitig)
x̄ 1 − x̄ 2
t=
sx̄ 1 −x̄ 2
I Dabei bezeichnet sx̄ −x̄ die Standardabweichung der
1 2
Mittelwertdierenzen.
s12 + s22
sp2 =
2
I Rohdaten:
Früh Spät
86 97
91 87
96 113
103 93
121 115
86 108
121 123
105 124
112 93
s
1 1
sx̄ 1 −x̄ 2 = 189,181 · + = 6,484
9 9
x̄ 1 − x̄ 2 102,333 − 105,889
t= = = −0,548
sx̄ 1 −x̄ 2 6,484
I Unabhängige Stichproben.
1. Deskriptive Statistik
2. Wahrscheinlichkeitstheorie
H0 : µ1 = µ2 , H1 : µ1 > µ2 (einseitig)
H0 : µ1 = µ2 , H1 : µ1 < µ2 (einseitig)
H0 : µ1 = µ2 , H1 : µ1 6= µ2 (zweiseitig)
di = xi 1 − xi 2
H0 : µ d = 0 , H 1 : µ d > 0 (einseitig)
H0 : µ d = 0 , H 1 : µ d < 0 (einseitig)
H0 : µd = 0, H1 : µd 6= 0 (zweiseitig)
√
d̄ d̄ d̄
t= = sd = n
sd̄ √
n
sd
1 (di − d̄ )2
s
Pn
i=
sd =
n−1
Vpn xi 1 xi 2 di
1 40 48 -8
2 60 55 5
3 30 44 -14
4 55 59 -4
5 55 70 -15
6 35 36 -1
7 30 44 -14
8 35 28 7
9 40 39 1
10 35 50 -15
11 50 64 -14
12 25 22 3
13 10 19 -9
14 40 53 -13
15 55 60 -5
I Der Rang ist die Platzierung eines Wertes, wenn man alle
Werte (aus beiden Gruppen) in aufsteigender Reihenfolge
sortiert.
Beispiel 259
85 3 96 8
106 13 108 15
118 18 86 4
138 20 84 2
90 6 99 10
112 17 101 11
119 19 78 1
107 14 97 9
95 7 87 5
103 12 109 16
0.5
0.4
0.3
0.2
0.1
0.0
−4 −2 0 2 4
y
χ2 -Unabhängigkeitstest
Wo sind wir? 263
1. Deskriptive Statistik
2. Wahrscheinlichkeitstheorie
Fuÿballfan
njan nein
Frau 25 25 50
Geschlecht
Mann 35 15 50
60 40 100
Punktnotation 267
ni· · n·j
mij =
n
Fuÿballfan
ja nein
Frau 50 · 60/100 50 · 40/100 50
Geschlecht
Mann 50 · 60/100 50 · 40/100 50
60 40 100
ergibt:
Fuÿballfan
njan nein
Frau 30 20 50
Geschlecht
Mann 30 20 50
60 40 100
Prüfgröÿe 270
(nij − mij )2
k X
l
χ2 =
X
i= 1 j=1
mij
k = Anzahl Zeilen
wobei:
l = Anzahl Spalten
Beispiel 271
n · (ad − bc)2
χ2 =
(a + b) · (c + d) · (a + c) · (b + d)
a b a+b
c d c+d
a+c b+d n
Vereinfachte Prüfgröÿe für 2 × 2-Tafeln 274
· (25 · 15 − 25 · 35)2
χ2 =
100
= 4,167
50 · 50 · 60 · 40
ad − bc
φ= p
(a + b) · (c + d) · (a + c) · (b + d)
Fuÿballfan
njan nein
Frau 25 25 50
Geschlecht
Mann 35 15 50
60 40 100
χ2 = 4,167
zeigt Zusammenhang zwischen Geschlecht und Fuÿballfan-Sein.
25· 15 − 25 · 35
φ= √ = −0.204
50 · 50 · 60 · 40
1. Deskriptive Statistik
2. Wahrscheinlichkeitstheorie
2
I Die Stichproben-Varianz sx beschreibt die Streuung der Werte
in Richtung einer Variablen X.
I Die Stichproben-Kovarianz sxy beschreibt die Streuung der
Werte in Richtung zweier Variablen X und Y.
I Sie charakterisiert den linearen Zusammenhang zwischen zwei
metrischen Variablen.
Pn
sxy = i= 1 (xi − x̄ ) · (yi − ȳ )
n−1
I Die Kovarianz ist symmetrisch, d. h.: sxy = syx
Positive Kovarianz 280
–x
a positive Kovarianz
6
4 –y
y
0
0 1 2 3 4 5 6 7
x
–x
inhaltliches Beispiel: X = Lernzeit, Y = Punktezahl in Klausur
b negative Kovarianz
6
c 2010, Springer-Verlag Berlin Heidelberg. Aus J. Bortz & C. Schuster (2010).
Statistik für Human- und Sozialwissenschaftler. Springer: Heidelberg. www.lehrbuch-psychologie.de
Negative Kovarianz 281
c Kovarianz = 0
6
5
–y
4
y
0
0 1 2 3 4 5 6 7
x
inhaltliches Beispiel: X = Schuhgröÿe, Y = Punktezahl in Klausur
Kovarianz: 0.92 , Korrelation: 0.55 Kovarianz: 92.24 , Korrelation: 0.55 Kovarianz: 92243.39 , Korrelation: 0.55
90
90
● ● ●
● ● ●
● ● ● ● ● ●
●● ●● ●●
80000
● ● ●
80
80
● ● ● ● ● ● ● ● ●
● ● ●
Gewicht in kg
Gewicht in kg
● ● ● ●
Gewicht in g
● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
70
70
● ● ● ● ● ● ● ● ●
● ● ●
● ●● ● ●● ● ● ● ●●● ● ●● ● ●● ● ● ● ●●● ● ●● ● ●● ● ● ● ●●●
● ● ● ●
● ●● ● ● ●
● ●● ● ● ●
● ●● ● ●
60000
● ● ● ● ● ●
● ● ● ● ● ●
●● ●● ●●
● ● ● ●● ● ● ● ●● ● ● ● ●●
60
60
● ● ●
●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●● ● ● ●● ● ● ●●
● ● ●
● ● ●●● ● ● ● ●●● ● ● ● ●●● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ●
50
50
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ●
● ● ●
40000
● ● ●
● ● ● ● ● ●
40
40
1.2 1.4 1.6 1.8 120 140 160 180 120 140 160 180
Grösse in m Grösse in cm Grösse in cm
Zur Unterhaltung 288
Korrelation: 0,08
I Aus einer Kovarianz bzw. Korrelation von null kann man aber
umgekehrt nicht einfach die Unabhängigkeit der Variablen
folgern, weil der Korrelationskoezient nur lineare
Zusammenhänge aufdecken kann. Bei einer Korrelation von
null kann deshalb immernoch ein nicht-linearer Zusammenhang
vorliegen.
Berechnung über Summen 290
x y x2 y2 x ·y
2 1 4 1 2
1 2 1 4 2
9 6 81 36 54
5 4 25 16 20
3 2 9 4 6
Summen: 20 15 120 61 84
I Nun können wir die Summen bzw. ihre Quadrate in die Formel
für die Korrelation einsetzen.
I Man erhält:
5 · 84 − 20 · 15
r=p = 0,949
(5 · 120 − 400) · (5 · 61 − 225)
Korrelation: 0.992082
√
r · n−2
t= √
1 − r2
mit df = n − 2
I Hypothesen:
H1 : % > 0
H1 : % < 0
H1 : % =
6 0
I signikant = überzufällig
Dabei ist rg (xi ) der Rang von xi und rg (yi ) der Rang von yi
(die Ränge werden für die x -Werte und die y -Werte getrennt
vergeben).
Rang-Korrelation nach Spearman 305
n
(rg (xi ) − rg (yi ))2
X
6 ·
i= 1
n · (n2 − 1)
rs = 1 −
Beispiel 306
Messwerte xi 33 15 17 11 40 22
Rangplätze rg (xi ) 5 2 3 1 6 4
Messwerte yi 47 32 29 28 56 38
Rangplätze rg (yi ) 5 3 2 1 6 4
6 · [02 + (−1)2 + 12 + 02 + 02 + 02 ]
rs = 1 − = 0.943
6 · (36 − 1)
I Beispiel: