5Inferenzstatistik_eC

BMM: Basismodul Methoden
Inferenzstatistik I: Logik des Schließens
Marc Hannappel
Universität Bonn
Institut für Politische Wissenschaft und Soziologie
mhannappel@uni-bonn.de
2. April 2024
Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 1 / 91

Seminargliederung: Wo sind wir gerade?
Sitzung Datum Inhalt
1 08.04. Einführung I: Statistical Literacy

2 15.04. Einführung II: Statistik, ein kleiner Orientierungsrahmen
3 22.04 Univariate Statistik I: Tabelleninterpretation & Visualisierungen

4 29.04 Univariate Statistik II: Maßzahlen der zentralen Tendenz & Streuungsmaße
5 06.05 Inferenzstatistik I: Logik des Schließens

6 13.05 Inferenzstatistik II: Hypothesentest
7 27.05 Inferenzstatistik III: Hypothesentest für zwei Stichprobenkennwerte
8 03.06 Bivariate Statistik
9 10.06 Korrelation I: Beziehung zwischen nominalen Variablen

10 17.06 Korrelation II: Beziehung zwischen ordinalen Variablen
11 24.06 Regression I: Regressionstheorie

12 01.07 Regression II: Anwendung
13 08.07 Puffer
14 15.07 Klausur

Abbildung: Statistik
Deskriptive Statistik Inferenzstatistik
Beschreibung von Untersuchung von Wahrscheinlichkeitsrechnung,

Häufigkeitsverteilungen Zusammenhängen Kombinatorik
Masszahlen
grafische Tabellen- Konkordanz- Korrelation Schätzen von
für Vertrauensbereiche Signifikantestes
Darstellungen analysen maße Regression Parametern
Verteilungen
zentrale Konzen-
Dispersion
Tendenz tration

Abbildung: Univariate Statistik

Masszahlen
Verteilungen
zentrale Konzen-
Dispersion
Tendenz tration

Inhaltsverzeichnis: Was machen wir heute?
1 Inferenzstatistik: Wofür?
2 Begriffe der Wahrscheinlichkeitstheorie

Stichprobe
Ereignis
Eintrittswahrscheinlichkeiten
Statistische Unabhängigkeit
3 Wahrscheinlichkeitsverteilungen
Gesetz der großen Zahlen
Normalverteilung
Standardnormalverteilung
4 Logik des Schließens

Standardfehler
Standardfehler
Konfidenzintervall

Lernziele: Worauf sollten Sie heute besonders achten?
Sie kennen den Unterschied zwischen Grundgesamtheit und Stichprobe

Sie kennen den Unterschied zwischen Deskriptiver und Inferenzstatistik
Sie können (sinngemäß) wiedergeben, was das ,Gesetz der großen Zahlen besagt’
Sie kennen die Eigenschaften einer Normalverteilung
Sie kennen den unterschied zwischen einer Normal- und einer Standardnormalverteilung
Sie wissen, wie eine z-Transformation funktioniert
Sie wissen, was ein Konfidenzintervall ist

Inferenzstatistik: Wofür?

Quelle: https://www.br.de/radio/bayern1/welche-autofahrer-sind-am-
intelligentesten-100.html


100
98
96
94
92
90
88
86
84
82
er )
t
W
s
a
lvo
Pe i
at
Re i
t
da
a
i
r
Kia
ns a
ën
n
ult
rd
n
ini
da
k
eo
d
el
Fia
de
od
ve
nd
ge
t
sa
zu
Se
BM
Au
be oyo
Fo
az
Op
ro
M
na
Vo
un
ug
ce
Ro
Nis
Sk
Ho
wa
Su
Cit
Hy
T
nd
lks
M
iu
La
Vo
ll (
ha
ux
Va

100
98
96
94
92
90
88
86
84
82
H y da
BM i
M r
nd Kia
wa )
ën
n
n ta
Ci W
Ho d
t
Pe an
da
lvo
Ni i
Sk t
be To ki
i
Re ot
er a
d
in
da
ul
ve
lks el
Fia
de
ge
M az d
r
Au
zu
i u yo
Fo
Se
e
tro
M
n
ss
o
na
Vo s Op
Vo
Ro
un
ug
ce
Su
La
ll (
ha
ux
Va

100
98
96
94
92
90
88
86
84
82
H y da
BM i
M r
nd Kia
wa )
ën
n
n ta
Ci W
Ho d
t
Pe an
da
lvo
Ni i
Sk t
be To ki
i
Re ot
er a
d
in
da
ul
ve
lks el
Fia
de
ge
M az d
r
Au
zu
i u yo
Fo
Se
e
tro
M
n
ss
o
na
Vo s Op
Vo
Ro
un
ug
ce
Su
La
ll (
ha
ux
Va
Quelle: https://www.cidsnet.de/bildung/unterschied-eq-iq/


Abbildung: Auswahl treffen aus GG

Abbildung: Aussage treffen über GG

Abbildung: Weinprobe ⇒ Schluss auf den ganzen Wein Abbildung: Aussage treffen über GG

Abbildung: Hörprobe ⇒ Schluss auf den ganzen Song Abbildung: Aussage treffen über GG

Ziel der Inferenzstatistik

Auf Basis empirischer Auswertungen, die durch eine zufällig gezogenen Stichprobe ermittelt wurden, kann auf die tatsächliche
Verteilung der Merkmale in der Grundgesamtheit (GG) geschlossen werden (Schließende Statistik = Inferenzstatistik).


Grundgesamtheit:
Menge von Einheiten/ Fällen (Personen/ Haushalte/
Organisationen etc.) über die eine Aussage getroffen
werden möchte
In Sozialwissenschaften beziehen sich die Aussagen häufig
auf eine Population


Grundgesamtheit:
werden möchte
auf eine Population
Stichprobe:
per Zufall getroffene Auswahl an Einheiten
(Zufallsstichprobe)
alle Einheiten haben die gleiche Chance in die Stichprobe
aufgenommen zu werden


Grundgesamtheit:
werden möchte
auf eine Population
Stichprobe:
per Zufall getroffene Auswahl an Einheiten
(Zufallsstichprobe)
alle Einheiten haben die gleiche Chance in die Stichprobe
Zentrale Frage in der Inferenzstatistik:

- Wie bzw. warum können wir auf Basis von Stichprobendaten auf die wirkliche Verteilung der betrachteten Merkmale in der
Grundgesamtheit schließen bzw. welchen Fehler machen wir dabei?

Beispiel:
Politisches Interesse von 20 bis unter 30 jährigen Personen in Deutschland (in Prozent)
0.4
0.3
Anzahl
0.2
0.1
0.0
K
IG
T
TE
H
AR
AR
EN
IC
IT
ST
ST
N
W
M
PT
R
H
AU
SE
H
ER
Quelle: ALLBUS 2021; eigene Berechnung
EB
U
Bildungsstufen
Wie wahrscheinlich ist es, dass dieser Prozentsatz auf die Grundgesamtheit übertragbar ist?
Wie wahrscheinlich ist es, dass diese Ausprägungen zufällig sind?
+ Hauptziel der Inferenzstatistik: Empirische Ergebnisse gegen den Zufall abzugrenzen

Beispiel:
Politisches Interesse von 20 bis unter 30 jährigen Personen in Deutschland (in Prozent)
0.4
0.3
Anzahl
0.2
0.1
0.0
K
IG
T
TE
H
AR
AR
EN
IC
IT
ST
ST
N
W
M
PT
R
H
AU
SE
H
ER
Quelle: ALLBUS 2021; eigene Berechnung
EB
U
Bildungsstufen
Wie wahrscheinlich ist es, dass dieser Prozentsatz auf die Grundgesamtheit übertragbar ist?
Wie wahrscheinlich ist es, dass diese Ausprägungen zufällig sind?
+ Hauptziel der Inferenzstatistik: Empirische Ergebnisse gegen den Zufall abzugrenzen
Was muss ich dafür wissen?

Begriffe der Wahrscheinlichkeitstheorie
1 Was ist eine Stichprobe?

2 Welche Regeln müssen bei der Ziehung einer Stichprobe befolgt werden?
3 Wie verteilen sich Kennwerte in einer Stichprobe (Wahrscheinlichkeitsverteilung)?
4 Wie kann ich auf Basis der Kennwerte aus der Stichprobe auf die wahren Werte in der Grundgesamtheit schließen?

Begriffe der Wahrscheinlichkeitstheorie: Stichprobe
Stichprobe:
Per Zufall getroffene Auswahl an Einheiten
(Zufallsstichprobe)
Alle Einheiten haben die gleiche Chance in die Stichprobe
Eine Stichprobe ist das Resultat eines Zufallsexperimentes
Eine Stichprobe ist grundsätzlich ein Ereignis mit
unsicherem Ausgang
I D.h.: Die Zusammensetzung der Stichprobe ist vor
Abschluss des Ziehungsprozesses nicht bekannt
I Bsp. Lottozahlen, Bevölkerungsumfragen

Stichprobe:
Per Zufall getroffene Auswahl an Einheiten
(Zufallsstichprobe)
Alle Einheiten haben die gleiche Chance in die Stichprobe
Eine Stichprobe ist das Resultat eines Zufallsexperimentes
Eine Stichprobe ist grundsätzlich ein Ereignis mit
unsicherem Ausgang
I Bsp. Lottozahlen, Bevölkerungsumfragen
Was ist ein Zufallsexperiment?
Was ist ein Ereignis?

Zufallsexperiment:
Ist (theoretisch) unter gleichen Bedingungen beliebig oft
wiederholbar
Resultat ist genau eines von mehreren möglichen
Ereignissen einer Ereignismenge (Ereignisraum)
Resultat ist vor dem Auftreten (Realisation) des
Ereignisses unbekannt
I Bsp. Münzwurf, Würfelwurf, ,Auswahl einer

Stichprobe aus GG
Quelle: https://www.mz.de/panorama/ziehung-der-lottozahlen-ein-letztes-
mal-live-in-der-ard-2150888

Zufallsexperiment:
wiederholbar

Stichprobe aus GG

Zufallsexperiment:
wiederholbar

Stichprobe aus GG
Was ist ein Ereignis?

Begriffe der Wahrscheinlichkeitstheorie: Ereignis
Definition
Jedes Resultat eines Zufallsexperimentes wird als Ereignis bezeichnet. Ein Ereignis wird als zufällig bezeichnet, wenn sein Eintreten
unter den gegebenen Bedingungen nicht mit Sicherheit vorhergesagt werden kann
Ereignis:
= Resultat eines Zufallsexperimentes
Ereignisse sind die Fälle/Personen/Gegenstände, für die man sich interessiert mit ihren Merkmalen (Anzahl der Kinder,
Schulbesuch, usw.)
Ein Ereignis wird als zufällig angesehen, wenn sein Eintreten nicht mit Sicherheit vorhergesagt werden kann
Ein Ereignis wird als wahrscheinlich bezeichnet, wenn man von dessen Eintreten ausgehen kann
+ Zur objektiven Bezeichnung von Wahrscheinlichkeiten werden diese in Zahlen zwischen 0 (0%) und 1 (100%) ausgedrückt
+ Je höher die Wahrscheinlichkeit, desto näher liegt der Wert bei 1

Begriffe der Wahrscheinlichkeitstheorie: Ereignis
Die Wahrscheinlichkeit eines Ereignisses A wird durch das Symbol P(A) ausgedrückt (P = Probability)
Wahrscheinlichkeit wird immer für alle Ereignisse eines Ereignisraumes Ω angegeben.

I D.h. wenn P(A) = .9 dann folgt P(-A) = .1
Unterschied zur deskriptiven Statistik:

I der Kennwert bezieht sich nicht auf Daten, die schon vorliegen, sondern auf Ereignisse, die noch nicht geschehen sind
= + a priori Wahrscheinlichkeiten
- Allgemeine Regel: Die Wahrscheinlichkeit für das Auftreten eines Ereignis:
Anzahl der guenstigen Ereignisse

P (A) = (1)
Anzahl der moeglichen Ereignisse
Pierre-Simon Laplace (1749-1829)

Begriffe der Wahrscheinlichkeitstheorie: Eintrittswahrscheinlichkeit
- Allgemeine Regel: Die Wahrscheinlichkeit für das Auftreten Abbildung: Gewinnchancen im Lotto
eines Ereignis:
Anzahl der guenstigen Ereignisse

P (A) =
Anzahl der moeglichen Ereignisse
Pierre-Simon Laplace (1749-1829)

Begriffe der Wahrscheinlichkeitstheorie: Die Statistische Unabhängigkeit

Begriffe der Wahrscheinlichkeitstheorie: Die Statistische Unabhängigkeit
Definition
+ Zwei Ereignisse A und B sind genau dann statistisch unabhängig voneinander, wenn die bedingte Wahrscheinlichkeit von A
gegeben B gleich der unbedingten Wahrscheinlichkeit von A ist. Dann ist auch die bedingte Wahrscheinlichkeit von B gegeben A
gleich der unbedingten Wahrscheinlichkeit von B:
P (B|A) = P (B) bzw. P (A|B) = P (A) (2)
Anders formuliert: Die Kenntnis über das Vorkommen eines Ereignisses hat keine Bedeutung für die Wahrscheinlichkeit des
Auftretens eines anderen Ereignisses
D.h. Das Ergebnis, eine 6 im zweiten Wurf erzielt zu

haben, muss unabhängig von dem Ergebnis, eine 1 im
ersten Wurf erzielt zu haben, sein
Sind Ereignisse A und B unabhängig voneinander folgt:
P (A ∩ B) =P (B|A) · P (A) = P (A|B) · P (B)

=P (A) · P (B)

Begriffe der Wahrscheinlichkeitstheorie: Zusammenfassung
Zusammenfassung
1 Eine Stichprobe ist das Resultat eines Zufallsexperimentes
2 Alle Einheiten haben die gleiche Chance in die Stichprobe aufgenommen zu werden
⇒ Das Ereignis (Auswahl einer Person aus der GG) ist unabhängig vom vorigen Ereignis (Auswahl einer
anderen Person aus der GG) = statistische Unabhängigkeit
3 Eintrittswahrscheinlichkeiten lassen sich bereits vor der Durchführung eines

Zufallsexperimentes bestimmen = Laplace-Wahrscheinlichkeit
4 probabilistische Zusammensetzung einer Stichprobe lässt sich berechnen = axiomatische

Wahrscheinlichkeitstheorie

Wahrscheinlichkeitsverteilungen





Stichprobe Grundgesamtheit
(n) (N)
Kennwerte Parameter
Mittelwert x̄ Mittelwert µ
Standardabweichung s Standardabweichung σ
Varianz s2 Varianz σ 2



Stichprobe Wahrscheinlichkeits- Grundgesamtheit

(n) verteilung (N)
Kennwerte Parameter Parameter

Mittelwert x̄ Erwartungswert µ Mittelwert µ
Standardabweichung s Standardabweichung σ Standardabweichung σ
Varianz s2 Varianz σ 2 Varianz σ 2


Stichprobe Wahrscheinlichkeits- Grundgesamtheit

(n) verteilung (N)
Kennwerte Parameter Parameter

Mittelwert x̄ Erwartungswert µ Mittelwert µ
Standardabweichung s Standardabweichung σ Standardabweichung σ
Varianz s2 Varianz σ 2 Varianz σ 2

Von den Kennwerten der Stichprobe wird mit Hilfe von Wahrscheinlichkeitsverteilungen auf die entsprechenden Parameter in der
Population verallgemeinert
Kennwerte sind: Häufigkeiten, Anteile, Mittelwerte und Varianzen ... (alle deskriptiven Werte)
Problem:

Masszahlen
Verteilungen
zentrale Konzen-
Dispersion
Tendenz tration

Von den Kennwerten der Stichprobe wird mit Hilfe von Wahrscheinlichkeitsverteilungen auf die entsprechenden Parameter in der
Population verallgemeinert
Kennwerte sind: Häufigkeiten, Anteile, Mittelwerte und Varianzen ... (alle deskriptiven Werte)
Problem:
Eine Stichprobenziehung ist ein Zufallsexperiment
⇒ Die Kennwerte können sich von Stichprobe zu Stichprobe unterscheiden
⇒ Verallgemeinerungen auf die Population sind grundsätzlich unsicher
Tabelle: Sonntagsfrage Landtagswahl NRW 2010
Institut Emnid Forsa

Veröffentl. 10.11.2010 10.11.2010
CDU/CSU 31% 32%
SPD 27% 23%
Grüne 21% 23%
FDP 6% 5%
Die Linke 10% 10%
Sonstige 5% 7%

Experiment I: 10 Stichproben mit n = 100 aus der GG N = 2034 (ursprünglich selbst eine Stichprobe)
Mittelwert (Durchschnittsalter) in GG = 48,9
Versuch Mittelwert der Stichprobe Abweichung vom Mittelwert

der GG (48,9)
1 51,1 2,2
2 49,6 0,7
3 46,3 -2,6
4 49,4 0,5
5 50,0 1,1
6 45,3 -3,6
7 47,6 -1,3
8 49,8 0,9
9 45,9 -3,0
10 48,7 -0,2
Quelle: (Kuckartz (et.al) 2010, S. 131): korrigierte Werte

Experiment II: 10 Stichproben mit n = 300 aus der GG N = 2034 (ursprünglich selbst eine Stichprobe)
Mittelwert (Durchschnittsalter) in GG = 48,9
Versuch Mittelwert der Stichprobe Abweichung vom Mittelwert

der GG (48,9)
1 48,2 -0,7
2 49,0 0,1
3 48,6 -0,3
4 48,9 0
5 50,1 1,2
6 49,5 0,6
7 48,6 -0,3
8 50,3 1,4
9 48,9 -0
10 48,2 -0,7
Quelle: (Kuckartz (et.al) 2010, S. 132): korrigierte Werte

Wahrscheinlichkeitsverteilungen: Gesetz der großen Zahlen
Definition: Gesetz der großen Zahlen

+ Wenn die Zahl der Wiederholungen eines Zufallsexperimentes über alle Grenzen steigt, nähert sich die Wahrscheinlichkeit, das
der Abstand der relativen Häufigkeit eines Ereignisses A p(A) von der Wahrscheinlichkeit des Ereignisses A im einfachen
Zufallsexperiment P(A) kleiner oder gleich einer beliebig kleinen positiven Zahl ε ist, dem Wert 1 an
limn→∞ P (|p(A) − P (A)| ≤ ε) = 1 (3)
wobei limn→∞ = Grenzwert der relativen Häufigkeit, wenn die Anzahl der Wiederholungen des Zufallsexperimentes gegen
unendlich geht
p(A) = empirisch relative Häufigkeit des Ereignisses
P(A) = Wahrscheinlichkeit des Ereignisses A
ε = eine beliebig kleine Zahl
Auf deutsch: Je größer die Stichprobe, desto eher repräsentiert sie die wahren Werte in der GG = Gesetz der großen Zahlen

Tabelle: 1000 Samples (n=100); Daten: Zufallsvariable Alter von 18 - 80; Mittelwert: 48.73
nr x̄
1 49,36
2 50,86
3 49,83
4 46,93
5 45,02
6 49,78
7 49,42
8 49,05
9 47,26
10 49,74

nr x̄ nr x̄ nr x̄ nr x̄ nr x̄
1 49,36 11 45,38 21 49,43 31 48,07 991 48,25
2 50,86 12 50,77 22 46,21 32 47,9 992 50,5
3 49,83 13 49,69 23 47,08 33 49,08 993 46,76
4 46,93 14 46,67 24 47,23 34 45,1 994 48,72
5 45,02 15 47,5 25 47,99 35 48,37 995 49,37
6 49,78 16 46,41 26 47,88 36 48,09 996 46,92
7 49,42 17 46,85 27 44,51 37 49,85 997 48,56
8 49,05 18 47,68 28 49,19 38 47,37 998 47,5
9 47,26 19 51,41 29 48,59 39 45,67 999 50,91
10 49,74 20 47,6 30 50,4 (...) (...) 1000 50,22
Histogramm der Mittelwerte der Variablen ,age' von 1000 Zufallsstichproben

0.30
0.25
0.20
Häufigkeit
0.15
0.10
0.05
0.00
45 50 55
Mittelwerte

1 49,36 11 45,38 21 49,43 31 48,07 991 48,25
2 50,86 12 50,77 22 46,21 32 47,9 992 50,5
3 49,83 13 49,69 23 47,08 33 49,08 993 46,76
4 46,93 14 46,67 24 47,23 34 45,1 994 48,72
5 45,02 15 47,5 25 47,99 35 48,37 995 49,37
6 49,78 16 46,41 26 47,88 36 48,09 996 46,92
7 49,42 17 46,85 27 44,51 37 49,85 997 48,56
8 49,05 18 47,68 28 49,19 38 47,37 998 47,5
9 47,26 19 51,41 29 48,59 39 45,67 999 50,91
10 49,74 20 47,6 30 50,4 (...) (...) 1000 50,22
Histogramm der Mittelwerte der Variablen ,age' von 1k Zufallsstichproben & Normalverteilung
0.30
0.25
0.20
Dichte
0.15
0.10
0.05
0.00
45 50 55
Mittelwerte

Schlussfolgerung:
Je größer die Stichprobe, desto eher repräsentiert sie die wahren Werte in der GG = Gesetz der großen Zahlen
Die Mittelwerte (unendlich) vieler Stichproben (n > 30) bilden eine Normalverteilung um den wahren Mittelwert =
Zentraler Grenzwertsatz
Was ist eine Normalverteilung?

Wahrscheinlichkeitsverteilungen: Normalverteilung
Normalverteilung für Intelligenzquotient (IQ)

0.025
0.020
0.015
Dichte
0.010
0.005
0.000
60 80 100 120 140
IQ
Normalverteilung und Histogramm für Intelligenzquotient (IQ)

0.000 0.005 0.010 0.015 0.020 0.025 0.030
Dichte
60 80 100 120 140
IQ
Normalverteilung und Histogramm für Körpergröße (Frau) (Mittelwert: 166cm)

0.04
0.03
Dichte
0.02
0.01
0.00
140 150 160 170 180 190 200
Körpergröße

0.025
0.020
0.015
Dichte
0.010
0.005
0.000
60 80 100 120 140
IQ
1) Es handelt sich hierbei um eine symmetrische, unimodale, glockenförmige Verteilung, deren Ausprägungen entlang der
horizontalen Achse von −∞ bis ∞ reichen
Normalverteilung für Intelligenzquotient (IQ) 2) Modus, Median und arithmetisches Mittel sind gleich
3) Die Kurvenenden nähern sich asymptotisch der Abzisse
0.025
4) Die beiden steilsten Punkte der Kurve (Wendepunkte)

0.020
liegen bei dem Mittelwert (µ) plus 1 Standardabweichung

(µ + σ, µ − σ)
0.015
Dichte
0.010
0.005
0.000
60 80 100 120 140
IQ
5) Kennzeichen der Normalverteilung ist, dass die Realisierungswahrscheinlichkeit in einem Intervall ±k Standardabweichungen
σX um den Erwartungswert µx eine feste Größe ist

Die Realisierungswahrscheinlichkeit im Intervall:

0.025
0.020
0.015
Dichte
±1 Standardabweichung beträgt 0.6826

0.010
0.005
0.000

60 80 100 120 140
IQ
0.025
0.020
0.015
Dichte

0.010
0.005
0.000

60 80 100 120 140
IQ
0.025
0.020

0.015
Dichte
0.010
0.005
0.000
60 80 100 120 140
IQ
Normalverteilungen können verschiede Höhen und Breiten haben

Stets gilt: Die Fläche unterhalb ± X-Standardabweichungen bleibt konstant
Verschiedene Normalverteilungen
0.05
N(100, 20)
N(80, 30)
N(110, 8)
±1 Standardabweichung beträgt
0.6826
0.04
0.9544
0.03
0.9972
Dichte
0.02
0.01
0.00
0 50 100 150 200
IQ


Weiterer Vorteil: Normalverteilungen können standardisiert werden: Z-Transformation
Alter Z-Transformation:
xi − x̄
300
zi = (4)
sx
200
count
100
25 50 75 100
age


Z-Transformation:
Alter z-Wert
1 35
2 27 xi − x̄
3 63 zi =
4 61 sx
5 58 35 − 47.4
6 34 z1 =
7 51 12.47
8 56 z1 = − 0, 99
9 46
10 43
Mittelwert: 47.4
Standardabweichung: 12.47


Z-Transformation:
Alter z-Wert Standardnormalverteilung
1 35 -0,99
0.4
2 27 -1,64
3 63 1,25
4 61 1,09
0.3
5 58 0,85
6 34 -1,07
Dichte
0.2
7 51 0,29
8 56 0,69
9 46 -0,11
0.1
10 43 -0,35
0.0
Mittelwert: 47.4
Standardabweichung: 12.47 −4 −2 0 2 4



Wahrscheinlichkeitsverteilungen: Standardnormalverteilung
Verschiedene Normalverteilungen können in eine Standardnormalverteilung N(0;1) transformiert werden

Eigenschaften:
µZ = 0 und σZ = 1
Standardisierte Variablen haben einen Mittelwert bzw. Erwartungswert von null und eine Varianz von eins
Ein z-Wert von 1 = eine Standardabweichung oberhalb von 0 (Mittelwert)
Ein z-Wert von -1 = eine Standardabweichung unterhalb von 0 (Mittelwert)
Verschiedene Normalverteilungen
0.05
N(100, 20)
N(80, 30)
N(110, 8)
0.4
0.04
0.3
0.03
Z-Transformation
Dichte
Dichte
0.2
0.02
0.1
0.01
0.0
0.00
−4 −2 0 2 4
0 50 100 150 200
x
IQ


Eigenschaften:
µZ = 0 und σZ = 1
Zwischen ±1 Standardabweichung liegt 68,26% der
0.4
Fläche
0.3
Dichte
+/− 1 Standardabwichung
0.2
Area
0.1
0.0
−4 −2 0 2 4
Z−Standardabweichungen


Eigenschaften:
µZ = 0 und σZ = 1
0.4
Fläche
Zwischen ± 2 Standardabweichung liegt 95,44% der
Fläche
0.3
Dichte
0.2
Area
0.1
0.0
−4 −2 0 2 4


Eigenschaften:
µZ = 0 und σZ = 1
0.4 Fläche
Fläche
0.3
Fläche
Dichte
0.2
Area
0.1
0.0
−4 −2 0 2 4

Tabelle 1
Z_Wert Wahrscheinlichkeit Z_Wert Wahrscheinlichkeit Z_Wert Wahrscheinlichkeit Z_Wert Wahrscheinlichkeit Z_Wert Wahrscheinlichkeit Z_Wert Wahrscheinlichkeit
0 0,5 0,5 0,6915 1 0,8413 1,5 0,9332 2 0,9772 2,5 0,9938
0,01 0,5040 0,51 0,6950 1,01 0,8438 1,51 0,9345 2,01 0,9778 2,51 0,9940
0,02 0,5080 0,52 0,6985 1,02 0,8461 1,52 0,9357 2,02 0,9783 2,52 0,9941
0,03 0,5120 0,53 0,7019 1,03 0,8485 1,53 0,9370 2,03 0,9788 2,53 0,9943
0,04 0,5160 0,54 0,7054 1,04 0,8508 1,54 0,9382 2,04 0,9793 2,54 0,9945
0,05 0,5199 0,55 0,7088 1,05 0,8531 1,55 0,9394 2,05 0,9798 2,55 0,9946
0,06 0,5239 0,56 0,7123 1,06 0,8554 1,56 0,9406 2,06 0,9803 2,56 0,9948
0,07 0,5279 0,57 0,7157 1,07 0,8577 1,57 0,9418 2,07 0,9808 2,57 0,9949
0,08 0,5319 0,58 0,7190 1,08 0,8599 1,58 0,9429 2,08 0,9812 2,58 0,9951
0,09 0,5359 0,59 0,7224 1,09 0,8621 1,59 0,9441 2,09 0,9817 2,59 0,9952
0,1 0,5398 0,6 0,7257 1,1 0,8643 1,6 0,9452 2,1 0,9821 2,6 0,9953
0,11 0,5438 0,61 0,7291 1,11 0,8665 1,61 0,9463 2,11 0,9826 2,61 0,9955
0,12 0,5478 0,62 0,7324 1,12 0,8686 1,62 0,9474 2,12 0,9830 2,62 0,9956
0,13 0,5517 0,63 0,7357 1,13 0,8708 1,63 0,9484 2,13 0,9834 2,63 0,9957
0,14 0,5557 0,64 0,7389 1,14 0,8729 1,64 0,9495 2,14 0,9838 2,64 0,9959
0,15 0,5596 0,65 0,7422 1,15 0,8749 1,65 0,9505 2,15 0,9842 2,65 0,9960
0,16 0,5636 0,66 0,7454 1,16 0,8770 1,66 0,9515 2,16 0,9846 2,66 0,9961
0,17 0,5675 0,67 0,7486 1,17 0,8790 1,67 0,9525 2,17 0,9850 2,67 0,9962
0,18 0,5714 0,68 0,7517 1,18 0,8810 1,68 0,9535 2,18 0,9854 2,68 0,9963
0,19 0,5753 0,69 0,7549 1,19 0,8830 1,69 0,9545 2,19 0,9857 2,69 0,9964
0,2 0,5793 0,7 0,7580 1,2 0,8849 1,7 0,9554 2,2 0,9861 2,7 0,9965
0,21 0,5832 0,71 0,7611 1,21 0,8869 1,71 0,9564 2,21 0,9864 2,71 0,9966
0,22 0,5871 0,72 0,7642 1,22 0,8888 1,72 0,9573 2,22 0,9868 2,72 0,9967
0,23 0,5910 0,73 0,7673 1,23 0,8907 1,73 0,9582 2,23 0,9871 2,73 0,9968
0,24 0,5948 0,74 0,7704 1,24 0,8925 1,74 0,9591 2,24 0,9875 2,74 0,9969
0,25 0,5987 0,75 0,7734 1,25 0,8944 1,75 0,9599 2,25 0,9878 2,75 0,9970
0,26 0,6026 0,76 0,7764 1,26 0,8962 1,76 0,9608 2,26 0,9881 2,76 0,9971
0,27 0,6064 0,77 0,7794 1,27 0,8980 1,77 0,9616 2,27 0,9884 2,77 0,9972
0,28 0,6103 0,78 0,7823 1,28 0,8997 1,78 0,9625 2,28 0,9887 2,78 0,9973
0,29 0,6141 0,79 0,7852 1,29 0,9015 1,79 0,9633 2,29 0,9890 2,79 0,9974
0,3 0,6179 0,8 0,7881 1,3 0,9032 1,8 0,9641 2,3 0,9893 2,8 0,9974
0,31 0,6217 0,81 0,7910 1,31 0,9049 1,81 0,9649 2,31 0,9896 2,81 0,9975
0,32 0,6255 0,82 0,7939 1,32 0,9066 1,82 0,9656 2,32 0,9898 2,82 0,9976
0,33 0,6293 0,83 0,7967 1,33 0,9082 1,83 0,9664 2,33 0,9901 2,83 0,9977
0,34 0,6331 0,84 0,7995 1,34 0,9099 1,84 0,9671 2,34 0,9904 2,84 0,9977
0,35 0,6368 0,85 0,8023 1,35 0,9115 1,85 0,9678 2,35 0,9906 2,85 0,9978
0,36 0,6406 0,86 0,8051 1,36 0,9131 1,86 0,9686 2,36 0,9909 2,86 0,9979
0,37 0,6443 0,87 0,8078 1,37 0,9147 1,87 0,9693 2,37 0,9911 2,87 0,9979
0,38 0,6480 0,88 0,8106 1,38 0,9162 1,88 0,9699 2,38 0,9913 2,88 0,9980
0,39 0,6517 0,89 0,8133 1,39 0,9177 1,89 0,9706 2,39 0,9916 2,89 0,9981
0,4 0,6554 0,9 0,8159 1,4 0,9192 1,9 0,9713 2,4 0,9918 2,9 0,9981
0,41 0,6591 0,91 0,8186 1,41 0,9207 1,91 0,9719 2,41 0,9920 2,91 0,9982
0,42 0,6628 0,92 0,8212 1,42 0,9222 1,92 0,9726 2,42 0,9922 2,92 0,9982
0,43 0,6664 0,93 0,8238 1,43 0,9236 1,93 0,9732 2,43 0,9925 2,93 0,9983
0,44 0,6700 0,94 0,8264 1,44 0,9251 1,94 0,9738 2,44 0,9927 2,94 0,9984
0,45 0,6736 0,95 0,8289 1,45 0,9265 1,95 0,9744 2,45 0,9929 2,95 0,9984
0,46 0,6772 0,96 0,8315 1,46 0,9279 1,96 0,9750 2,46 0,9931 2,96 0,9985
0,47 0,6808 0,97 0,8340 1,47 0,9292 1,97 0,9756 2,47 0,9932 2,97 0,9985
0,48 0,6844 0,98 0,8365 1,48 0,9306 1,98 0,9761 2,48 0,9934 2,98 0,9986
0,49 0,6879 0,99 0,8389 1,49 0,9319 1,99 0,9767 2,49 0,9936 2,99 0,9986

0.4
Tabelle 1
Wahrschein- Wahrschein- Wahrschein-
Z_Wert Z_Wert Z_Wert
lichkeit lichkeit lichkeit
0 0,5 1 0,8413 2 0,9772
0.3
0,05 0,5199 1,05 0,8531 2,05 0,9798
0,1 0,5398 1,1 0,8643 2,1 0,9821
0,15 0,5596 1,15 0,8749 2,15 0,9842
0,2 0,5793 1,2 0,8849 2,2 0,9861
0,25 0,5987 1,25 0,8944 2,25 0,9878
Dichte
0,3 0,6179 1,3 0,9032 2,3 0,9893
0.2
0,35 0,6368 1,35 0,9115 2,35 0,9906
0,4 0,6554 1,4 0,9192 2,4 0,9918
0,45 0,6736 1,45 0,9265 2,45 0,9929
0,5 0,6915 1,5 0,9332 2,5 0,9938
0,55 0,7088 1,55 0,9394 2,55 0,9946
0,6 0,7257 1,6449 0,9500 2,6 0,9953
0.1
0,65 0,7422 1,65 0,9505 2,65 0,9960
0,7 0,7580 1,7 0,9554 2,7 0,9965
0,75 0,7734 1,75 0,9599 2,75 0,9970
0,8 0,7881 1,8 0,9641 2,8 0,9974
0,85 0,8023 1,85 0,9678 2,85 0,9978
0,9 0,8159 1,9 0,9713 2,9 0,9981
0.0
0,95 0,8289 1,9600 0,9750 2,95 0,9984
-
8
−4 −2 0 2 4

0.4
Tabelle 1
0 0,5 1 0,8413 2 0,9772
0.3
0,05 0,5199 1,05 0,8531 2,05 0,9798
0,1 0,5398 1,1 0,8643 2,1 0,9821
0,15 0,5596 1,15 0,8749 2,15 0,9842
0,2 0,5793 1,2 0,8849 2,2 0,9861
0,25 0,5987 1,25 0,8944 2,25 0,9878
Dichte
0,3 0,6179 1,3 0,9032 2,3 0,9893
0.2
0,35 0,6368 1,35 0,9115 2,35 0,9906
0,4 0,6554 1,4 0,9192 2,4 0,9918
0,45 0,6736 1,45 0,9265 2,45 0,9929
0,5 0,6915 1,5 0,9332 2,5 0,9938
0,55 0,7088 1,55 0,9394 2,55 0,9946
0,6 0,7257 1,6449 0,9500 2,6 0,9953
0.1
0,65 0,7422 1,65 0,9505 2,65 0,9960
0,7 0,7580 1,7 0,9554 2,7 0,9965
0,75 0,7734 1,75 0,9599 2,75 0,9970
0,8 0,7881 1,8 0,9641 2,8 0,9974
0,85 0,8023 1,85 0,9678 2,85 0,9978
50 %
0,9 0,8159 1,9 0,9713 2,9 0,9981
0.0
0,95 0,8289 1,9600 0,9750 2,95 0,9984
-
8
−4 −2 0 2 4

0.4
Tabelle 1
0 0,5 1 0,8413 2 0,9772
0.3
0,05 0,5199 1,05 0,8531 2,05 0,9798
0,1 0,5398 1,1 0,8643 2,1 0,9821
0,15 0,5596 1,15 0,8749 2,15 0,9842
0,2 0,5793 1,2 0,8849 2,2 0,9861
0,25 0,5987 1,25 0,8944 2,25 0,9878
Dichte
0,3 0,6179 1,3 0,9032 2,3 0,9893
0.2
0,35 0,6368 1,35 0,9115 2,35 0,9906
0,4 0,6554 1,4 0,9192 2,4 0,9918
0,45 0,6736 1,45 0,9265 2,45 0,9929
0,5 0,6915 1,5 0,9332 2,5 0,9938
0,55 0,7088 1,55 0,9394 2,55 0,9946
0,6 0,7257 1,6449 0,9500 2,6 0,9953
0.1
0,65 0,7422 1,65 0,9505 2,65 0,9960
0,7 0,7580 1,7 0,9554 2,7 0,9965
0,75 0,7734 1,75 0,9599 2,75 0,9970
0,8 0,7881 1,8 0,9641 2,8 0,9974 84,13 %
0,85 0,8023 1,85 0,9678 2,85 0,9978
0,9 0,8159 1,9 0,9713 2,9 0,9981 0.0
0,95 0,8289 1,9600 0,9750 2,95 0,9984
-
8
−4 −2 0 2 4

0.4
Tabelle 1
0 0,5 1 0,8413 2 0,9772
0.3
0,05 0,5199 1,05 0,8531 2,05 0,9798
0,1 0,5398 1,1 0,8643 2,1 0,9821
0,15 0,5596 1,15 0,8749 2,15 0,9842
0,2 0,5793 1,2 0,8849 2,2 0,9861
0,25 0,5987 1,25 0,8944 2,25 0,9878
Dichte
0,3 0,6179 1,3 0,9032 2,3 0,9893
0.2
0,35 0,6368 1,35 0,9115 2,35 0,9906
0,4 0,6554 1,4 0,9192 2,4 0,9918
0,45 0,6736 1,45 0,9265 2,45 0,9929
0,5 0,6915 1,5 0,9332 2,5 0,9938
0,55 0,7088 1,55 0,9394 2,55 0,9946
0,6 0,7257 1,6449 0,9500 2,6 0,9953
0.1
0,65 0,7422 1,65 0,9505 2,65 0,9960
0,7 0,7580 1,7 0,9554 2,7 0,9965
0,75 0,7734 1,75 0,9599 2,75 0,9970
0,8 0,7881 1,8 0,9641 2,8 0,9974
0,85 0,8023 1,85 0,9678 2,85 0,9978
97,72 %
0,9 0,8159 1,9 0,9713 2,9 0,9981
0.0
0,95 0,8289 1,9600 0,9750 2,95 0,9984
-
8
−4 −2 0 2 4

2 Möglichkeiten des Umgangs mit der Tabelle
Tabelle 1 1 Z-Werte sind die Ausgangspunkte

Z_Wert Z_Wert Z_Wert a) Wie viel % der Fälle liegen zwischen
0 0,5 1 0,8413 2 0,9772 -∞ & 1,6449?
0,05 0,5199 1,05 0,8531 2,05 0,9798
0,1 0,5398 1,1 0,8643 2,1 0,9821 b) Wie viel % der Fälle liegen zwischen -1,6449 & 1,6449?
0,15 0,5596 1,15 0,8749 2,15 0,9842
0,2 0,5793 1,2 0,8849 2,2 0,9861
0,25 0,5987 1,25 0,8944 2,25 0,9878
0,3 0,6179 1,3 0,9032 2,3 0,9893
0,35 0,6368 1,35 0,9115 2,35 0,9906
2 alpha-Werte sind die Ausgangspunkte
0,4 0,6554 1,4 0,9192 2,4 0,9918
0,45 0,6736 1,45 0,9265 2,45 0,9929
a) bis zu welchem z-Wert liegen 97,5% der Fälle (von -∞)?
0,5 0,6915 1,5 0,9332 2,5 0,9938
0,55 0,7088 1,55 0,9394 2,55 0,9946 b) zwischen welchen z Werten liegen 95% der Fälle
0,6 0,7257 1,6449 0,9500 2,6 0,9953 symmetrisch um 0 verteilt?
0,65 0,7422 1,65 0,9505 2,65 0,9960
0,7 0,7580 1,7 0,9554 2,7 0,9965
0,75 0,7734 1,75 0,9599 2,75 0,9970
0,8 0,7881 1,8 0,9641 2,8 0,9974
0,85 0,8023 1,85 0,9678 2,85 0,9978
0,9 0,8159 1,9 0,9713 2,9 0,9981
0,95 0,8289 1,9600 0,9750 2,95 0,9984

1 Z-Werte sind die Ausgangspunkte

a) Wie viel % der Fälle liegen zwischen
0.4 -∞ & 1,6449?
b) Wie viel % der Fälle liegen zwischen -1,6449 & 1,6449?
0.3
b) zwischen welchen z Werten liegen 95% der Fälle
Dichte
0.2
Area
symmetrisch um 0 verteilt?
0.1
95,0 %
0.0
- 1,64 2
8
−4 −2 0 4
8


0.4 -∞ & 1,6449?
0.3
+/− b) zwischen welchen

1 Standardabwichung z Werten liegen 95% der Fälle
Dichte
0.2
Area
0.1
95,0 % 5%
0.0
- 1,64 2
8
−4 −2 0 4
8


0.4 -∞ & 1,6449?
0.3
+/− 1b) zwischen welchen

Standardabwichung z Werten liegen 95% der Fälle
Dichte
0.2
Area
0.1
5% 90 % 5%
0.0
- −4 -1,64
−2 0 1,64 2 4
8

Tabelle 1 1 Z-Werte sind die Ausgangspunkte

Z_Wert Z_Wert Z_Wert a) Wie viel % der Fälle liegen zwischen
0 0,5 1 0,8413 2 0,9772 -∞ & 1,6449?
0,05 0,5199 1,05 0,8531 2,05 0,9798
0,1 0,5398 1,1 0,8643 2,1 0,9821 b) Wie viel % der Fälle liegen zwischen -1,6449 & 1,6449?
0,15 0,5596 1,15 0,8749 2,15 0,9842
0,2 0,5793 1,2 0,8849 2,2 0,9861
0,25 0,5987 1,25 0,8944 2,25 0,9878
0,3 0,6179 1,3 0,9032 2,3 0,9893
0,35 0,6368 1,35 0,9115 2,35 0,9906
0,4 0,6554 1,4 0,9192 2,4 0,9918
0,45 0,6736 1,45 0,9265 2,45 0,9929
0,5 0,6915 1,5 0,9332 2,5 0,9938
0,55 0,7088 1,55 0,9394 2,55 0,9946 b) zwischen welchen z Werten liegen 95% der Fälle
0,6 0,7257 1,6449 0,9500 2,6 0,9953 symmetrisch um 0 verteilt?
0,65 0,7422 1,65 0,9505 2,65 0,9960
0,7 0,7580 1,7 0,9554 2,7 0,9965
0,75 0,7734 1,75 0,9599 2,75 0,9970
0,8 0,7881 1,8 0,9641 2,8 0,9974
0,85 0,8023 1,85 0,9678 2,85 0,9978
0,9 0,8159 1,9 0,9713 2,9 0,9981
0,95 0,8289 1,9600 0,9750 2,95 0,9984


Standardnormalverteilung a) Wie viel % der Fälle liegen zwischen
0.4 -∞ & 1,6449?
0.3 2 alpha-Werte sind die Ausgangspunkte

b) zwischen welchen z Werten liegen 95% der Fälle
Dichte
0.2 symmetrisch um 0 verteilt?

Area
0.1
2,5 % 95 % 2,5 %
0.0
-−4 -1,96
−2 0 1,96
2 4
8

Wahrscheinlichkeitsverteilungen:

Logik des Schließens

Beispiel:
Zufallsauswahl von n = 1000 Personen aus einer beliebigen GG. Für diese Auswahl gilt ein durchschnittliches Alter von
48,73 Jahren mit einer Standardabweichung von 18,07
Was wissen wir bereits?

1 Je größer das Sample, desto eher spiegelt die Verteilung im Sample die Verteilung in der GG wieder

Beispiel:

2 Eine Normalverteilung kann in eine Standardnormalverteilung transformiert werden

Beispiel:

3 Die Transformation macht Sinn, da es die Arbeit mit Tabellen erleichtert

Beispiel:

4 Aus der Standardnormalverteilung kann man ablesen, wie viel Prozent zwischen bestimmten Punkten liegt und umgekehrt

Beispiel:

Was wissen wir noch nicht?

Beispiel:

Was wissen wir noch nicht?

Zentrale Frage: Wie kann man auf Basis einer Stichprobe auf die wahren Werte in der GG schließen?

Beispiel:
Frage: Wie lassen sich die aus einem Sample errechneten Beobachtungsdaten verallgemeinern?
Annahme: Normalverteilung des Merkmals
Verteilung des Merkmals Alter in der GG Die Merkmale der einzelnen Individuen verteilen sich in der GG um
den uns unbekannten Mittelwert µ
0.000 0.005 0.010 0.015 0.020 0.025 0.030
N(48, 18)
Dichte
0 20 40 60 80 100
Alter

Beispiel:
0.000 0.005 0.010 0.015 0.020 0.025 0.030
N(48, 18)
68,26% Personen in der GG haben ein Alter, das innerhalb des

Bereichs µ ± 1σ (18,07) liegt
Dichte
0 20 40 60 80 100
Alter

Beispiel:
0.000 0.005 0.010 0.015 0.020 0.025 0.030
N(48, 18)

D.h. 68,26% der Menschen haben eine Alter zwischen µ ± 18,07
Dichte
(30,66 und 66,8)
0 20 40 60 80 100
Alter

Beispiel:
0.000 0.005 0.010 0.015 0.020 0.025 0.030
N(48, 18)

Dichte
(30,66 und 66,8)

Individuen, die eine Größe größer oder kleiner µ besitzen, kommen
relativ seltener vor
0 20 40 60 80 100
Alter

Beispiel:
0.000 0.005 0.010 0.015 0.020 0.025 0.030
N(48, 18)

Dichte
(30,66 und 66,8)

Innerhalb des Bereichs µ ± 1, 96σ liegen sogar 95% aller Individuen
0 20 40 60 80 100
Alter

Beispiel:
0.000 0.005 0.010 0.015 0.020 0.025 0.030
N(48, 18)

Dichte
(30,66 und 66,8)

Innerhalb des Bereichs µ ± 1, 96σ liegen sogar 95% aller Individuen
0 20 40 60 80 100
Alter Folglich haben 5% der Individuen ein Alter, das außerhalb der
Grenzen von µ ± 1, 96σ liegt

Beispiel:
Verteilung des Merkmals Alter in der GG Der für das spezielle Sample berechnete Mittelwert wird nur in den
seltensten Fällen mit dem Mittelwert in der GG übereinstimmen
0.000 0.005 0.010 0.015 0.020 0.025 0.030
N(48, 18)
Dichte
0 20 40 60 80 100
Alter

Beispiel:
0.000 0.005 0.010 0.015 0.020 0.025 0.030
N(48, 18)
Die Wahrscheinlichkeit, dass er in der Nähe des Durchschnitts µ der

GG liegt, ist groß
Dichte
0 20 40 60 80 100
Alter

Beispiel:
0.000 0.005 0.010 0.015 0.020 0.025 0.030
N(48, 18)

GG liegt, ist groß
Geht man davon aus, dass eine Zufallsauswahl getroffen wurde,
Dichte
dann gehen Individuen i.d.R. gemäß dem Anteil, der auf eine
bestimmte Ausprägung eines Merkmals entfällt, in das Sample ein
und vice versa
0 20 40 60 80 100
Alter

Beispiel:
0.000 0.005 0.010 0.015 0.020 0.025 0.030
N(48, 18)

GG liegt, ist groß
Geht man davon aus, dass eine Zufallsauswahl getroffen wurde,
Dichte
dann gehen Individuen i.d.R. gemäß dem Anteil, der auf eine
bestimmte Ausprägung eines Merkmals entfällt, in das Sample ein
und vice versa
Tatsächlich wird es selten vorkommen, dass unser Sample ein
0 20 40 60 80 100
Spiegelbild der GG darstellt
Alter
Wird ein zweites, drittes ... n-tes Sample gezogen, würde man
jeweils einen anderen Mittelwert errechnen

Beispiel:
Bei wiederholter Auswahl von Teilmassen/ Samples kann man eine Variation der Samplemittelwerte beobachten
1 49,36 11 45,38 21 49,43 31 48,07 991 48,25
2 50,86 12 50,77 22 46,21 32 47,9 992 50,5
3 49,83 13 49,69 23 47,08 33 49,08 993 46,76
4 46,93 14 46,67 24 47,23 34 45,1 994 48,72
5 45,02 15 47,5 25 47,99 35 48,37 995 49,37
6 49,78 16 46,41 26 47,88 36 48,09 996 46,92
7 49,42 17 46,85 27 44,51 37 49,85 997 48,56
8 49,05 18 47,68 28 49,19 38 47,37 998 47,5
9 47,26 19 51,41 29 48,59 39 45,67 999 50,91
10 49,74 20 47,6 30 50,4 (...) (...) 1000 50,22

Beispiel:
Zieht man bei einem normalverteilten Merkmal nach dem Histogramm der Mittelwerte (,age') von 1k Zufallsstichproben & Normalverteilung
Zufallsprinzip (theoretisch) unendlich viele Samples
0.30
(bspw. n = 1000) und errechnet für jedes Sample den
0.25
Mittelwert:
⇒ Die Mittelwerte der unendlich vielen Samples
0.20
bilden selbst wieder eine Normalverteilung,
Dichte
0.15
⇒ Der Mittelwert aller Mittelwerte E(x̄) entspricht
dann dem Mittelwert der GG (µ)
0.10
⇒ 95% aller Samples fallen bspw. in den Bereich µ±
1,96 Standardabweichung
0.05
0.00
45 50 55
Mittelwerte

Beispiel:
⇒ Es ist sehr wahrscheinlich, dass man ein Sample
0.4
gezogen hat, dessen Mittelwert in den Bereich von
µ ± 1,96 Standardabweichungen fällt, denn 95% der
Sampledurchschnitte fallen in diesen Bereich
0.3
+/− 1 Standardabwichun
Dichte 0.2
Area
0.1
2,5 % 95 % 2,5 %
0.0
-−4 -1,96
−2 0 1,96
2 4
8
8

Beispiel:
Im ungünstigsten Fall liegt unser Samplemittelwert (x̄) + 1,96

Standardabweichungen (σ) vom wahre Mittelwert (µ) entfernt
0.4
0.3
Dichte
0.2
Area
0.1
47,5%
0.0
-
8
−4 −2 0 2 4
0.4

0.4
Beispiel:
Zufallsauswahl von n = 1000 Personen aus einer beliebigen GG. Für diese Auswahl gilt ein durchschnittliches Alter von 0.3

Dichte
0.2
Area
0.1
47,5%
Im ungünstigsten Fall liegt unser Samplemittelwert (x̄) + 1,96 Im ungünstigsten Fall liegt unser Samplemittelwert (x̄) - 1,96
0.0
-
Standardabweichungen (σ) Z−Standardabweichungen
vom wahre Mittelwert (µ) entfernt
8
−4 −2 0 2 4
Standardabweichungen (σ) vom wahre Mittelwert (µ) entfernt
0.4
0.4
0.3
0.3
Dichte
Dichte
0.2
0.2 Area
Area
0.1
0.1 47,5%
47,5%
0.0
0.0
-−4 −2 0 2 4
8
8
- Z−Standardabweichungen
8
−4 −2 0 2 4
0.4

Beispiel:
Wir können die Logik umdrehen:
der wahre Mittelwert (µ) liegt ± 1,96 Standardabweichungen µ = x̄ ± 1, 96 σx̄
(σx̄ ) von unserem Samplemittelwert (x̄) entfernt

Allgemeine Formel
0.4
µ = x̄ ± zσx̄ (5)
0.3
Für z = 1,64
µ = x̄ ± 1, 64 σx̄
Dichte
0.2
Area
0.1
5% 90 % 5%
0.0
- −4 -1,64
−2 0 1,64 2 4
8

Beispiel:
Wir können die Logik umdrehen:
der wahre Mittelwert (µ) liegt ± 1,96 Standardabweichungen µ = x̄ ± 1, 96 σx̄
(σx̄ ) von unserem Samplemittelwert (x̄) entfernt

Allgemeine Formel
µ = x̄ ± zσx̄
0.4
0.3 Für z = 1,96

µ = x̄ ± 1, 96 σx̄
Dichte
0.2
Area
0.1
2,5 % 95 % 2,5 %
0.0
-−4 -1,96
−2 0 1,96
2 4
8

Beispiel:
+ Mit dem z-Wert wird die Breite des Intervalls festgelegt Allgemeine Formel
(später Konfidenzintervall)
µ = x̄ ± zσx̄
+ Je größer der gewählte z-Wert, desto sicherer ist die
Schätzung aber desto ungenauer wird die Schätzung.
+ Je kleiner der gewählte z-Wert, desto präziser ist die
Schätzung, aber desto unsicherer wir sie.
+ Z ist also ein „Platzhalter” für den Vertrauensbereich, der
uns interessiert
+ 1- Vertrauensbereich = Irrtumswahrscheinlichkeit =
Signifikanzniveau

Beispiel:
µ = gesuchter Mittelwert in der Grundgesamtheit

x̄ = 49
z = 1,96 (95%) -47,5 & +47,5 Allgemeine Formel
µ = x̄ ± zσx̄
σ = Standardabweichung unendlich vieler Samplemittelwerte
→ der fehlt noch!!!!!!

Beispiel:
µ = gesuchter Mittelwert in der Grundgesamtheit

x̄ = 49
z = 1,96 (95%) -47,5 & +47,5 Allgemeine Formel
µ = x̄ ± zσx̄
σ = Standardabweichung unendlich vieler Samplemittelwerte
→ der fehlt noch!!!!!!

Logik des Schließens: Standardfehler
Wäre die Streuung aller (unendlich vieler) Sampledurchschnitte bekannt, könnte man die Vertrauensgrenze (95%) angeben,
innerhalb derer der wahre Mittelwert der GG zu vermuten wäre
Problem: Streuung ist nicht bekannt
⇒ Wir müssen die Streuung der unendlich vielen Mittelwerte schätzen

Wäre die Streuung aller (unendlich vieler) Sampledurchschnitte bekannt, könnte man die Vertrauensgrenze (95%) angeben,
innerhalb derer der wahre Mittelwert der GG zu vermuten wäre
Problem: Streuung ist nicht bekannt
⇒ Wir müssen die Streuung der unendlich vielen Mittelwerte schätzen
Schätzung der Streuung

I Berechnung der Standardabweichung der Verteilung aller Samplemittelwerte (σx̄ ) :
σx
σx̄ = √ (6)
n
I σx ist die Standardabweichung in der GG und n ist der Sampleumfang

I Die Streuung in der GG ist aber unbekannt
⇒ Sie kann nicht berechnet werden
I Ist n ≥ 30, dann entspricht die Standardabweichung in einem Sample ungefähr der der GG
σx ∼ s x

⇒ man betrachtet die Standardabweichung des Samples als guten Schätzwert für den Parameter der GG (σx )
σx sx
σx̄ = √ ∼ √
n n
also
s n
P
(xi −x̄)2
i=1
n
σ̂x̄ = √ (7)
n
! In diesem Zusammenhang spricht man von der Schätzung der Standardabweichung σx̄ , die auch als
Standardfehler (S.E.)!!!! eines Durchschnitts x̄ bezeichnet wird
σx̄ ist die tatsächliche Standardabweichung der Sampleverteilung und σ̂x̄ ist die Schätzung dieser Abweichung



Logik des Schließens: Konfidenzintervall
Beispiel:
Bei der Schätzung des Parameters der GG lassen wir ein

Fehlerrisiko von 5% zu Standardnormalverteilung
0.4
Rest 2,5% am linken Ende der Kurve und 2,5% am
rechten Ende
Der Vertrauensbereich – der Bereich in dem der
0.3
Parameter vermutet wird – lässt sich wie folgt berechnen:
sx 18
µ = x̄ ± z σ̂x̄ = x̄ ± 1, 96 · √ = 48 ± 2 √
+/− 1 Standa
Dichte
n 1000 0.2
Area
= 48 ± 1, 96 · 0, 57 = 48 ± 1, 1
Ergebnis: In 95% aller Fälle, in denen eine Stichprobe 0.1

dieser Größe (n=1000) gezogen wird, liegt der Mittelwert
zwischen 46,9 und 49,1
2,5 % 95 % 2,5 %
Schluss: Wir schätzen, dass das durchschnittliche Alter in 0.0
der GG zwischen 46,9 und 49,1 liegt -1,96
-−4 −2 0 1,96
2 4
8
8

Beispiel:
Bei der Schätzung des Parameters der GG lassen wir ein

Fehlerrisiko von 5% zu Konfidenzintervalle
Rest 2,5% am linken Ende der Kurve und 2,5% am - Konfidenzintervalle bezeichnen einen Bereich, innerhalb
rechten Ende dessen ein bestimmter Prozentsatz aller möglichen
Der Vertrauensbereich – der Bereich in dem der Populationsparameter liegt. Am häufigsten wird das 95%
Parameter vermutet wird – lässt sich wie folgt berechnen: Konfidenzintervall berechnet, gelegentlich auch das 99%
Intervall. Das Pendant zum Konfidenzintervall ist das
sx 18 Signifikanzniveau (Irrtumswahrscheinlichkeit). Liegt die
µ = x̄ ± z σ̂x̄ = x̄ ± 1, 96 · √ = 48 ± 2 √
n 1000 Irrtumswahrscheinlichkeit bei 5% beträgt der Vertrauensbereich
(Konfidenzintervall) 95%
= 48 ± 1, 96 · 0, 57 = 48 ± 1, 1
x̄ − z σ̂x̄ < µ < x̄ + z σ̂x̄
Ergebnis: In 95% aller Fälle, in denen eine Stichprobe
dieser Größe (n=1000) gezogen wird, liegt der Mittelwert
zwischen 46,9 und 49,1
Schluss: Wir schätzen, dass das durchschnittliche Alter in
der GG zwischen 46,9 und 49,1 liegt

Beispiel:

Beispiel:
Was ist, wenn das Merkmal nicht normal verteilt ist?

wachsendem Stichprobenumfang n
2. Man könnte den Eindruck gewinnen, dass sich mit wachsendem Umfang aus kann man sogar die Verteilung t
Logik des symmetrische
eine bestimmte Schließens: Zentraler
und möglicherweise Grenzwertsatz
genau beschreibbare
Verteilung der Mittelwerte einstellt: Dieser Eindruck ist richtig und Teil Die Verteilung der Stichpro
eines generellen Phänomens. Es ist unter dem Namen ,,zentraler Grenz- große n in eine Normalvertei
wertsatz" bekannt. Stichprobenumfang klein wir
• Dabei istStichproben
Stammen verschiedene es unerheblich, wie
vom Umfang n aus der
teilt ist.
gleichen Population
I
Abbildung 29 veranschaulicht diese
ist, bei großen Stichproben sind
tungswert ist der gesuchte "wahre
Vort<Hu"" v.J · i · x
teverteilung wird mit zunehmenden
Zufällige Unterschiede zwischen den Mittelwerten werden
I
x
!l Der zentrale Grenzwertsatz
bei wachsendem ist eine
Stichprobenumfang n grundsätzlich
A
kleiner tistik. Verlässliche Aussagen über (
probe sind möglich, weil man die'
gebender
Verteilung kann.Stichprobenmittelwerte eines Merkmals X
Verteilung von x
Xmit n=2:
geht fürIstgroße n in eine Normalverteilung
f.l. der Populationsmittelwert und über
x x on (mit ansonsten beliebiger Vettei
I/\
J.1 !l Die Varianz
fang n >nimmt proportional zum Stichprobenumfang
30 die Mittelwerte
ab beschreibbar.
n=5: I, LÄ
f\
,<,<",
!l
x x
Egal wie
Dass es sich bei der Verteilung vor
ein Merkmal
malverteilung
sind dieeinstellt,
Mittelwerte
verteilt
handelt,
normalverteilt
wenn sehr
ist, bei großen Stichproben
liegt daran,
viele kleine ur
(vgl. 1.8.8). Genau dies geschieht
Verlässliche Aussagen über den wahren Mittelwert
Stichproben.
ILx
aufgrund einer Stichprobe sind möglich, weil man die
n=30:
,\I Verteilung von Stichprobenmittelwerten
II.A.l.l.3 Verteilungen anderer) angeben kann.
1 j
/\ \
Nicht nur fiir das arithmetische Mi
!lx ner Stichprobe kann deren Verteilu
!l !l
dardabweichung, Median). Allerdir
Abbildung 29 zeigt, wie sich die Mittelwerteverteilung unabhängig von der Vertei-
verteilt.
Zentralerte:lungGrenzwertsatz
des Merkmals (obere Reihe rechts: eine schiefe Verteilung, Mit-
Gleichverteilung, links: eine zweigipflige Verteilung) mit wach- /I.A.i.2 Standard/ehler
sendem Stichprobenumfang einer Normalverteilung annähert.
Die Mittelwerte von hinreichend großen Strichproben (n≥ 30) verteilen sich normal um µ
II.A.l.2.1 den Mittelwert
Standardfehler des Mi der Grundgesamt. Diese
Verteilung ist unabhängig von der Verteilung der Werte in der Grundgesamtheit, d. h. die müssen nicht normalverteilt sein.
Wir kennen nun die Verteilung VOI
(Kuckartz et al. 2010, S: 132) sie um den wahren Mittelwert !! )
mit einem Mittelwert den wahren
108

Literatur
Zum Vor- und Nachbereiten der Sitzung

Kuckartz, Udo. et al. [2010]: Statistik. Eine verständliche Einführung. Wiesbaden: VS Verlag S: 103-135
Benninghaus, Hans [2007]: Deskriptive Statistik. Eine Einführung für die Sozialwissenschaftler. Wiesbaden: VS Verlag für
Sozialwissenschaften. S. 36 - 58
Sahner, Heinz [2008]: Schließende Statistik. Eine Einführung für Sozialwissenschaftler. Wiesbaden: VS Verlag für
Sozialwissenschaften. S. 31 - 45

5Inferenzstatistik_eC

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

5Inferenzstatistik_eC

Hochgeladen von

Copyright:

Verfügbare Formate

BMM: Basismodul Methoden

Inferenzstatistik I: Logik des Schließens

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 1 / 91

Sitzung Datum Inhalt

1 08.04. Einführung I: Statistical Literacy

3 22.04 Univariate Statistik I: Tabelleninterpretation & Visualisierungen

5 06.05 Inferenzstatistik I: Logik des Schließens

8 03.06 Bivariate Statistik

9 10.06 Korrelation I: Beziehung zwischen nominalen Variablen

11 24.06 Regression I: Regressionstheorie

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 2 / 91

Deskriptive Statistik Inferenzstatistik

Beschreibung von Untersuchung von Wahrscheinlichkeitsrechnung,

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 3 / 91

Abbildung: Univariate Statistik

Deskriptive Statistik Inferenzstatistik

Beschreibung von Untersuchung von Wahrscheinlichkeitsrechnung,

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 4 / 91

2 Begriffe der Wahrscheinlichkeitstheorie

4 Logik des Schließens

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 5 / 91

Sie kennen den Unterschied zwischen Grundgesamtheit und Stichprobe

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 6 / 91

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 7 / 91

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 8 / 91

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 9 / 91

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 10 / 91

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 11 / 91

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 12 / 91

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 13 / 91

Abbildung: Auswahl treffen aus GG

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 13 / 91

Abbildung: Aussage treffen über GG

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 14 / 91

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 15 / 91

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 16 / 91

Ziel der Inferenzstatistik

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 17 / 91

Ziel der Inferenzstatistik

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 17 / 91

Ziel der Inferenzstatistik

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 17 / 91

Ziel der Inferenzstatistik

Zentrale Frage in der Inferenzstatistik:

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 17 / 91

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 18 / 91

Was muss ich dafür wissen?

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 18 / 91

1 Was ist eine Stichprobe?

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 19 / 91

I Bsp. Lottozahlen, Bevölkerungsumfragen

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 20 / 91

I Bsp. Lottozahlen, Bevölkerungsumfragen

Was ist ein Zufallsexperiment?

Was ist ein Ereignis?

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 20 / 91

I Bsp. Münzwurf, Würfelwurf, ,Auswahl einer

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 21 / 91

I Bsp. Münzwurf, Würfelwurf, ,Auswahl einer

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 22 / 91

I Bsp. Münzwurf, Würfelwurf, ,Auswahl einer

Was ist ein Ereignis?

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 22 / 91

Inferenzstatistik I BMM: Basismodul Methoden 2. April 2024 23 / 91