Sie sind auf Seite 1von 14

Statistik fr Psychologen

1
Zufall und Zufallsvariablen
Population und Stichprobe

Hans-Rdiger Pfister, Gerd Meier


1

Zufall oder Notwendigkeit


Je intelligenter, um so
erfolgreicher im Beruf
(r = 0.70).
6000
5000

EK

4000
3000
2000
1000
0
60

80

100

120

140

IQ
Hans-Rdiger Pfister, Gerd Meier
2

Mnner sind in Mathe schlechter als Frauen


Mittelwert(Mnner) = 3.2,
Mittelwert(Frauen) = 3.9 (Range = 1..7)
7

Matheleistung

6
5
4
3

2
1

1
m

Mathe
Geschlecht
Hans-Rdiger Pfister, Gerd Meier
3

Daten = determinierter Anteil + zuflliger Anteil

Yi = f ( X i) + i
Yi = i
Yi = f ( X i)
Hans-Rdiger Pfister, Gerd Meier
4

Statistik Daten - Modelle


Die Statistik stellt rationale Verfahren zur Verfgung, um auf
Grundlage von empirischen Daten systematischgesetzmige Regelhaftigkeiten und unsystematischzufllige Faktoren unterscheiden zu knnen.
Daten erhlt man durch Messungen von Eigenschaften /
Merkmalen von Objekten (z.B. Personen).
Mit Hilfe statistischer Modelle setzt man Daten miteinander in
Beziehung (z.B. IQ und Einkommen).
Statistische Verfahren prfen die Plausibilitt statistischer
Modelle und liefern Evidenz fr Entscheidungen.

Hans-Rdiger Pfister, Gerd Meier


5

Daten
qualitativ /
kategorial /
nominalskaliert /
Faktoren

ungeordnet

Welche statistischen Verfahren


im Einzelfall angemessen sind,
hngt wesentlich von der Art der
zur Verfgung stehenden Daten
ab.

quantitativ /
numerisch /
intervallskaliert

geordnet

metrisch

diskret

kontinuierlich

Hans-Rdiger Pfister, Gerd Meier


6

Messung
Klassifikation: Zuordnung in Klassen (Geschlecht, Beruf, ...)
physikalische Messung: Zeit, Hufigkeiten, Performanz (von
Verhaltensweisen)
physiologische Messung: Pulsfrequenz, Hautleitwiderstand, ...
psychophysische Skalierung: Grenschtzung, Vergleich, ...
Ratingskalen (Intensitten, Attituden, Hufigkeiten, ...)
psychologische Tests (Leistung, Persnlichkeit, ...)

Hans-Rdiger Pfister, Gerd Meier


7

Zufallsvariablen
(Daten = Ausprgungen von Zufallsvariablen)
Zufallsexperiment
Ein Prozess, der bei identischer Wiederholung Ausgnge (Ergebnisse)
generiert, die im Einzelfall nicht mit Sicherheit vorhersagbar sind. Die
Menge der mglichen Ausgnge heit Stichprobenraum (sample Space,
S).
Werfen eines Wrfels und Ablesen der Punktzahl, S = {1,2,3,4,5,6}
zuflliges Auswhlen einer Person und Messung des IQ durch einen
Intelligenztest, S = {X|60 < X < 140}.

Zufallsvariable
Eine Zufallsvariable ist eine vom Zufall abhngige Gre, die verschiedene
Werte (Realisierungen) annehmen kann.
Eine Zufallsvariable wird als Funktion verstanden:
x = X()
Eine reellwertige Funktion X mit Definitionsbereich S und Wertebereich R
(reelle Zahlen)
Anzahl Kopf bei zwei Mnzwrfen, {K,K} = 2, {K,Z} = 1, ...
IQ einer zuflligen Person, IQ(Anne) = 110, IQ(Herbert) = 85, ...
Hans-Rdiger Pfister, Gerd Meier
8

Verteilungen

P(X)

0.0

0.1

0 P( xi ) 1

0.2

P( x ) = 1

0.3

0.4

0.5

Eine Wahrscheinlichkeitsverteilung P(X)


ordnet den Werten einer Zufallsvariable
Wahrscheinlichkeiten zu: P(X=x) = p

Die Verteilungsfunktion F(X) ist die


kumulierte Wahrscheinlichkeitsverteilung
von X

1.0
0.8
0.6

F(X)

0.4

0.2

p( x )

i: xi xk

0.0

F ( X = xk ) = P ( X x k ) =

2
W erte

W e rte

Hans-Rdiger Pfister, Gerd Meier


9

Theoretische Verteilungen
Es gibt in der Statistik Wahrscheinlichkeitsverteilungen, die von besonderer
Bedeutung sind, sogenannte theoretische Verteilungen. Deren Eigenschaften
sind in der Regel gut bekannt. Viele Phnomene in der Statistik lassen sich
durch theoretische Verteilungen modellieren.
Deren Wahrscheinlichkeitsverteilung bzw. Verteilungsfunktion lsst sich
theoretisch bestimmen.
Diskrete Zufallsgre:
Menge der Realisierungen ist endlich: x1, ..., xn
Realisierungen und Wahrscheinlichkeiten bilden die
Verteilung von X, z. B. Gleichverteilung beim Wrfeln
Weiteres Beispiel: die Binomialverteilung

Hans-Rdiger Pfister, Gerd Meier


10

Binomialverteilung
Bernoulli-Prozess: Zufallsexperiment mit genau zwei Ausgngen (Erfolg, Misserfolg);
Erfolgswahrscheinlichkeit = p; Nicht-Erfolg = 1-p = q
Beispiele: - ein Mnzwurf, - eine Testaufgabe richtig lsen, - ein Mdchen/Junge zeugen
Problem: Wie hoch ist die Wahrscheinlichkeit, bei n identischen und unabhngigen
Wiederholungen des Bernoulli-Prozesses k Erfolge zu haben?
Zufallsvariable X: Anzahl (k) Erfolge bei n Wiederholungen
Beispiele: - bei 5 Mnzwrfen 3 mal Zahl zu werfen, - bei 20 multiple choice Fragen mit 4
Antwortmglichkeiten durch Raten 10 Richtige zu haben, - bei 3 Kindern 2 Mdchen zu haben.
p
p

0,4
p(k)

p
p

0,2
0
0

q = 1-p

Hans-Rdiger Pfister, Gerd Meier


11

Binomialverteilung
Wahrscheinlichkeit fr eine beliebige Sequenz mit k Erfolgen (-> n-k Misserfolge) mit
p(Erfolg) = p ist gem Multiplikationstheorem bei unabhngigen Ereignissen:

pkq(n-k)
n
n!
=
k ! ( n k )!
k

Mglichkeiten fr k Erfolge bei n Versuchen


(Binomialkoeffizient):
gem Additionstheorem fr einander
ausschlieende Ereignisse ist die
Wahrscheinlichkeit p(k;n,p), genau k Erfolge
zu haben bei n Versuchen:

n
p(k ; n, p ) = p k q ( n k )
k
Wahrscheinlichkeitsverteilung

Verteilungsfunktion

F ( x) =

k p q

0 k x

( n k )

Hans-Rdiger Pfister, Gerd Meier


12

Binomialverteilungen

0.00

0.15
0.00

0.05

0.10

dbinom(x, 15, 0.2)

0.10
0.05

dbinom(x, 15, 0.5)

0.15

0.20

0.20

0.25

Wahrscheinlichkeitsverteilungen p(x; n, p)

10

15

10

15

Hans-Rdiger Pfister, Gerd Meier


13

Binomialverteilungen

0.8
0.6
0.0

0.0

0.2

0.4

pbinom(x, 100, 0.4)

0.6
0.4
0.2

pbinom(x, 15, 0.5)

0.8

1.0

1.0

Verteilungsfunktionen

10

15

20

40

60

80

100

Hans-Rdiger Pfister, Gerd Meier


14

Die Multinomialverteilung
N!
p ([n1 , n2 ,... nk ], N , [ p1 , p2 ,... pk ]) =
pini

n
!
i
=
1
..
k
i
Verallgemeinerung der Binomialverteilung:
i =1..k

Wahrscheinlichkeit, dass bei N Durchfhrungen eines Zufallsexperiments


und k Kategorien (fr die Ausgnge) ni mal die i-te Kategorie eintritt, wenn
die Wahrscheinlichkeit fr die i-te Kategorie pi ist (fr alle i).
Beispiel: Die Wahrscheinlichkeit, dass bei der zuflligen Zuordnung von
N=10 Personen in k=5 Rume, wobei jeder Raum gleich wahrscheinlich
ist, n Personen in die 5 Rume fallen. n := Vektor der Gre k (Summe =
N).
pi

Hans-Rdiger Pfister, Gerd Meier


15

Theoretische Verteilungen
Stetige Zufallsgre:
Menge der Realisierungen ist unendlich: x1, ...
Stetige Zufallsgren knnen jeden Wert in einem bestimmten Intervall annehmen.
Daher ist die Wahrscheinlichkeit (Wkt.) fr einen bestimmten Wert quasi Null.
Man kann nur Wahrscheinlichkeiten fr bestimmte Intervalle angeben:
z. B. P(a <= X <= b)
Die Wkt. entspricht der Flche in diesem Intervall (unter der sogenannten Dichtefunktion).
Der Flcheninhalt entspricht dem relativen Anteil der Messwerte, die in das Intervall
0
fallen.

Realisierungen und Wahrscheinlichkeiten bilden die


Verteilung von X, z. B. Gleichverteilung
beim Glcksrad
Dichtefunktion f(X) ~ p(X):

f ( X ) = F ( X )

f ( x)dx = 1.0

Hans-Rdiger Pfister, Gerd Meier

16

Normalverteilung
0.4

d(x)

0.3

0.2

0.1

Dichtefunktion:

N ( , ) : f ( x) =

1
e
2

1 ( x )2

2 2

0.0
-3

-2

-1

x
1.0
0.9
0.8
0.7

1
F ( x) = P ( X x ) =
2

1 (u )2

2 2

F(x)

0.6

Verteilungsfunktion:

du

0.5
0.4
0.3
0.2
0.1
0.0
-3.0

-2.5

-2.0

-1.5

-1.0

-0.5

0.0 0.4 0.8 1.2 1.6 2.0 2.4 2.8

Hans-Rdiger Pfister, Gerd Meier


17

Normalverteilung
Eigenschaften der Normalverteilung:

charakterisiert durch zwei Parameter: Mittelwert und Standardabweichung


kontinuierliche Verteilung von - bis +
symmetrisch um = Md = Mo
monoton fallend fr x und fr x ; Wendepunkte bei
Spezialfall (durch z-Transformation): Standardnormalverteilung N(0,1)
ca. 68 % aller Werte liegen im Bereich

Empirische Verteilung von Phnomenen, die durch das


Zusammenwirken vieler unabhngiger und jeweils zuflliger Faktoren
zustande kommen

natrliche Gren: Krpergre, Intelligenz


unsystematische Messfehler

Hans-Rdiger Pfister, Gerd Meier


18

Die Standardnormalverteilung
z ( x) =

x( z ) = z +

xx
130 100
z=
= 2.0
s
15
P( z 2.0) = 0.9772 P( z > 2.0) = 1 0.9772 = 0.0228
z=

Hans-Rdiger Pfister, Gerd Meier


19

Weitere stetige Verteilungen


2-Verteilung:

erhlt man durch Summe von Quadraten von z-Werten (normalverteilte Werte)
die Form ist abhngig von der Zahl der Freiheitsgrade d.f. (Zahl der frei
whlbaren Glieder in der Summe) der z-Werte (Anzahl der Summanden)
kontinuierliche Verteilung von 0 bis +
bei wenigen d.f. asymmetrisch, bei vielen d.f. annhernd symmetrisch

t-Verteilung:
z

erhlt man durch Division einer normalverteilten durch eine 2-verteilte


Zufallsvariable
die Form ist abhngig von der Zahl der Freiheitsgrade der 2-verteilten
Zufallsvariable
kontinuierliche Verteilung von - bis +
symmetrisch mit Mittelwert = 0

F-Verteilung:

erhlt man durch Division zweier 2-verteilten Zufallsvariablen


die Form ist abhngig von den beiden Freiheitsgraden der 2-verteilten
Zufallsvariable
kontinuierliche Verteilung von 0 bis +

Hans-Rdiger Pfister, Gerd Meier


20

10

Inferenzstatistik
Die Inferenzstatistik beschftigt sich damit, aus den Merkmalen von
Stichproben Rckschlsse auf die Merkmale von Populationen zu
ziehen
insbesondere: aus der Verteilung von Stichprobenkennwerten
Rckschlsse auf die Populationsparameter zu machen

Mittelwert, Standardabweichung usw. berechnet man bei empirischen Untersuchungen als


Kennwerte fr Stichproben.

ABER: was interessiert, sind meistens nicht die Verhltnisse in der Stichprobe, sondern die
Verhltnisse in der Grundgesamtheit (Population).

Diese Verhltnisse sind aber in der Regel unbekannt;

knnen aber auf Grund der Stichprobe geschtzt werden, zwar nicht mit Sicherheit, aber
bestmglich.

Hans-Rdiger Pfister, Gerd Meier


21

Population (Grundgesamtheit)
Menge der interessierenden Elemente, ber die eine Aussage gemacht werden
soll, meistens nicht vollstndig bekannt; Universum (der Werte) aller mglichen
Beobachtungen:

endlich: alle im Moment lebenden Einwohner Deutschlands (ca. 80 Mio.);


unendlich: alle Frauen / alle Mnner (lebend, schon gestorben, noch ungeboren).
mglichst genaue Beschreibung: rumlich, zeitlich, sachlich

Fr die Population kann oft eine plausible theoretische Verteilung postuliert


werden, z.B. eine Normalverteilung. Die Verteilungseigenschaften der Population
werden beschrieben durch Parameter / Populationskennwerte (z.B. p, , ).

Normalverteilung: Intelligenz mit =100 und =15


Gleichverteilung: Lottozahlen 1..49, mit p=1/49

Hans-Rdiger Pfister, Gerd Meier


22

11

Stichprobe (Sample)
Teilmenge der Population
Wichtigster Sonderfall: Zufallsstichprobe (Zufallsexperiment: zufllige Ziehung):
jedes Element von P hat eine bekannte (meist gleiche) Chance, in die Stichprobe
zu gelangen, unabhngig davon, wer schon in der Stichprobe ist (ohne
systematische Bevorzugung!); bei gleicher Chance: jede Kombination von n
Elementen aus P ist gleichwahrscheinlich.
Die Verteilungen von Stichproben werden charakterisiert durch sogenannte
Statistiken / Stichprobenkennwerte (M, s2, f) (allgemein: eine Funktion der
Zufallsvariable X in der Stichprobe).
Stichprobenkennwerte variieren zufllig (aber systematisch) mit jeder neuen,
unabhngigen Ziehung einer Stichprobe; sie erzeugen eine
Stichprobenkennwerteverteilung (sampling distribution).

Hans-Rdiger Pfister, Gerd Meier


23

Population und Stichprobe


Zentrales Problem der Inferenzstatistik: Gegeben sei eine
Stichprobe S, was sind die plausiblen Parameter der
entsprechenden Population P?
Stichprobe von 100 Mnnern mit M = 180 cm. Was ist der
plausible Mittelwert fr Mnner insgesamt?

Die Inferenzstatistik stellt Verfahren zur Verfgung, um auf


Basis von S mglichst gute Inferenzen hinsichtlich P zu
ziehen.
M = 180 cm in der Stichprobe ist die bestmgliche Schtzung
von (Populationsparameter).
Die Inferenzstatistik liefert nur Schtzungen, nie Sicherheit!
Aber Unsicherheit kann berechnet werden (indirekter
Schluss)
Hans-Rdiger Pfister, Gerd Meier
24

12

Stichprobenkennwerteverteilung
(Sampling Distribution)

Zufallsexperiment: Ziehung einer Stichprobe S des Umfangs n aus P und Messung


von X.

Berechnung eines Stichprobenkennwerts M als Funktion von X (M ist eine


Zufallsvariable).

Gedankenexperiment: sehr sehr oft wiederholte Ziehungen von Stichproben aus der
selben Population erzeugen eine Wahrscheinlichkeitsverteilung der Zufallsvariable
Stichprobenkennwert M: die sogenannte Stichprobenkennwerteverteilung (sampling
distribution).

Beispiel: eine Zufallsstichprobe von 50 Studenten (von allen Lneburger Studenten) liefert einen
Mittelwert IQ1 = 110, eine zweite Stichprobe liefert IQ2 = 95, und eine dritte liefert IQ3 = 105. Die
Zufallsvariable Mittelwert IQ liefert erwartungsgem unterschiedliche Ausprgungen pro
Ziehung. Wrde man diesen Prozess sehr oft wiederholen, erhielte man eine Verteilung von IQMittelwerten von Zufallstichproben des Umfangs n=50.

Jede Stichprobenkennwerteverteilung kann durch entsprechende Parameter


charakterisiert werden, z.B. durch ihren Erwartungswert und ihre Varianz 2 .

(direkter Schluss)

Hans-Rdiger Pfister, Gerd Meier


25

Fr jede Stichprobe wird der


Stichprobenkennwert p = Anteil
depressiver Frauen berechnet.

15

Es werden m Zufallsstichproben
von je n=20 Frauen gezogen.

10

Population: 30 % aller Frauen


ber 70 in Deutschland sind
depressiv.

Hufigkeit

20

Beispiel nach Sedlmeier S. 312

Sample

Die Verteilung aller m


Stichprobenkennwerte p stellt die
Stichprobenkennwerteverteilung
dar.

Hufigkeit

200

150
100
50
0
0

Hans-Rdiger Pfister, Gerd Meier

0.1

0.2

0.3

0.4

0.5

0.6

Stichprobenkennwert p
26

13

Zentrales Grenzwerttheorem
Die Stichprobenkennwerteverteilung des Mittelwerts einer Zufallsvariable X bei Stichproben des
Umfangs n nhert sich mit wachsendem n einer Normalverteilung an, unabhngig von der
Verteilungsform des Merkmals X in der Population. Diese Normalverteilung der
Stichprobenmittelwerte hat selbst den Erwartungswert und die Varianz 2/n.

sample size = 1

sam ple size = 5


Gamma

N ormal

Ga mma

Density

0.10
0.00

0.2

0.0

0.00

0.0

-2

10

15

20

25

30

-1

Uniform

Beta

U nifo rm

B e ta

12

0.0

0.2

0.4

0.6

0.8

1.0

x
Hans-Rdiger Pfister,
Gerd Meier

0.0

0.2

0.4

0.6
x

0.8

1.0

1.5
1.0
0.5
0.0

0.0

0.0

1.0

Density

Density

2.0

5
3

Density

1.0

10

2.0

3.0

1.5

0.5

Density

0.20

0.8
0.6
0.4

Density

0.20
Density

0.10

0.3
0.2
0.1

Density

0.30

0.4

Normal

0.2

0.4

0.6

0.8

0.0

0.2

0.4

0.6

0.8

1.0

27

14