Entdecken Sie eBooks
Kategorien
Entdecken Sie Hörbücher
Kategorien
Entdecken Sie Zeitschriften
Kategorien
Entdecken Sie Dokumente
Kategorien
Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung
#1
1 / 425
Statistik ist sexy
I I keep saying the sexy job in the next ten years will be
”
statistician.“(Hal Varian, Chefökonom bei google)
I The alternative to good statistics is not no statistics, it’s bad
”
statistics.“(Bill James, Baseballstatistiker)
2 / 425
Wofür brauchen wir Statistik?
3 / 425
Um die Welt zu verbessern?!
4 / 425
Die Welt verbessern?!
Quelle: Pinker, S. (2018). Enlightenment Now: The Case for Reason, Science, Humanism, and Progress. Penguin.
5 / 425
Die Welt verbessern?!
6 / 425
Die Welt verbessern?!
Quelle: https://dspace.library.uu.nl/bitstream/handle/1874/802/image2.gif
7 / 425
Geld verdienen
8 / 425
Um wissenschaftliche Neugier
zu stillen
9 / 425
Was kann Statistik?
10 / 425
Deskriptive und Inferenzstatistik
11 / 425
Statistik im Forschungsprozess
12 / 425
Statistik im Forschungsprozess
13 / 425
Vorlesungsinhalt
1. Einführung
2. Grundlagen der Statistik
3. Deskriptive Statistik
3.1 Univariate Deskription
3.2 Bivariate Deskription/ Zusammenhangsmaße
4. Schließende Statistik/ Inferenzstatistik
4.1 Grundlagen
4.2 Schätzen
4.3 Testen
5. Lineare Regressionsanalysen
14 / 425
Ablauf
15 / 425
Terminplan
Tabelle 1: Vorlesungsablauf
Nr. Datum Themenblock Inhalt
1 21.10. Einführung Einführung, Organisatorisches
2 28.10. Grundlagen Grundbegriffe, Skalenniveaus
3 04.11. Deskriptive Statistik Häufigkeitsverteilungen
4 11.11. Lagemaße
5 18.11 Lage- und Streuungsmaße
6 25.11 Konzentrationsmaße
7 02.12. Kreuztabellen
8 09.12. Kovarianz und Korrelation
9 16.12. Inferenzstatistik Grundlagen, Zufallsvariablen
10 13.01. Schätzen
11 20.01. Testen
12 27.01. Lineare Regression Grundlagen
13 03.02. Interaktionseffekte
14 10.02. Abschlusssitzung Wiederholung, offene Fragen
15 17.02. Klausur Klausur
16 / 425
Zeiten und Räume
17 / 425
Veranstaltungsbegleitende Tutorien
18 / 425
Tutorien - wann, wo und mit wem?
19 / 425
Klausur - wann, wo und wie?
21 / 425
Nachschreibeklausur
22 / 425
Bewertungsschema der Klausur
23 / 425
Klausur - Beispiele
24 / 425
Materialien
I Alle Materialien finden Sie in OLAT (hier oder über die Navigation
FB03>Ihr Studiengang>Statistik/Forschungskompetenzen 1)
I Foliensatz (Vorlesung)
I Übungsblätter und -lösungen
I Formelsammlung
I Zip-Ordner mit Stata-Beispielen.
I Videoaufzeichnungen der Vorlesung und Übung, sowie der Tutorien
I Achtung! Die Materialien werden regelmäßig aktualisiert.
I Lösungen zu Übungsblättern der Vorlesung und Tutorien
I Post-lecture-Versionen vergangener Vorlesungen (mit Lösungen der
Kurzübungen)
I OLAT-Link ausgeschrieben: https://olat-ce.server.uni-
frankfurt.de/olat/auth/RepositoryEntry/13310787588
25 / 425
Literatur
26 / 425
Einführung in die sozialwissenschaftliche Statistik
Grundbegriffe und Skalenniveaus
Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung
#2
27 / 425
Untersuchungseinheiten und
Grundgesamtheit
28 / 425
Stichprobe
I Stichprobe (oder Auswahl/ Sample): Teilmenge der Grundgesamtheit,
über die Daten gesammelt wird.
I Die Verwendung von Stichproben (Teilerhebungen) ist in den
Sozialwissenschaften üblich; typischerweise aus pragmatischen
Gründen.
Beispiel: Wahlprognose auf Basis einer Stichprobe von 1.000 Wählern.
I In anderen Fällen ist die Teilerhebung zwingend erforderlich.
Beispiel: Crashtests bei PKWs.
29 / 425
Stichprobe
30 / 425
Variablen/ Merkmale
31 / 425
Merkmalsausprägungen und
empirische Werte
33 / 425
Die Datenmatrix: Ein Beispiel
34 / 425
Die Datenmatrix: Nummerische
Kodierung
36 / 425
Die Datenmatrix - Anmerkung
zur Darstellung
ID = 1 ID = 2 ID = 3
1. Welches Geschlecht 1. Welches Geschlecht 1. Welches Geschlecht
haben Sie? haben Sie? haben Sie?
O männlich X männlich X männlich
X weiblich O weiblich O weiblich
2. Welche Partei haben 2. Welche Partei haben 2. Welche Partei haben
Sie gewählt? Sie gewählt? Sie gewählt?
O CDU X CDU O CDU
O SPD O SPD X SPD
O Linke O Linke O Linke
X Grüne O Grüne O Grüne
O FDP O FDP O FDP
3. Wie alt sind Sie? 3. Wie alt sind Sie? 3. Wie alt sind Sie?
24 Jahre. 48 Jahre. 31 Jahre.
39 / 425
Die Datenmatrix in der Praxis
40 / 425
Diskrete und stetige Variablen
41 / 425
Quantitative und qualitative Variablen
42 / 425
Dichotome und polytome Variablen
43 / 425
Manifeste und latente Variablen
44 / 425
Messen
45 / 425
Skalenniveaus
46 / 425
Die Nominalskala
CDU 1 6 0
SPD 2 5 2
Linke 3 4 20
Grüne 4 3 6
FDP 5 2 8
AfD 6 1 -0.0001
47 / 425
Die Nominalskala
I Andere Beispiele:
I Individuen: Beruf(sbezeichnung), Geburtsland, Ethnie, Lieblingsband,
Geschlecht, Arbeitsmarktstatus, Beteiligung bei der letzten Wahl
(ja/nein)
I Nationen: Staatsform, UN-Mitglied (ja/nein), aktuelle
Regierungskoalition
I Zulässige Interpretation: Miriam und Friedrich haben die gleiche
”
Partei gewählt, die Grünen; Sascha hat eine andere Partei gewählt,
die AfD.“
48 / 425
Ordinalskala
Hauptschule 1 0 -8
Realschule 2 5 -7
Fachabitur 3 20 -6
Abitur 4 80 -5
BA 5 81 -4
MA 6 9999 -3
49 / 425
Die Ordinalskala
I Andere Beispiele:
I Individuen: Schulnoten, militärischer Dienstrang, Selbsteinstufung des
Einkommens (niedrig/mittel/hoch)
I Nationen: Platzierung beim Biathlon der Frauen in PyeongChang 2018
I Zulässige Interpretation: Maria ist besser als Peter, denn sie hat eine
”
Eins, Peter hat nur eine Zwei.“
50 / 425
Intervallskala
51 / 425
Ratioskala/Verhältnisskala
52 / 425
Absolutskala
53 / 425
Kurzübung 2
54 / 425
Skalenniveaus: Informationsgehalt und
sinnvolle Berechnungen
55 / 425
Skalenniveaus: zulässige
Transformationen und Interpretationen
57 / 425
Topologische und metrische Skalen
58 / 425
Literatur
I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Kapitel 2.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 1.3.
Bortz & Schuster (2010): Statistik für Human- und
Sozialwissenschaftler. 7. Auflage. Berlin/ Heidelberg: Springer,
Abschnitt 1.2 und 1.3.
59 / 425
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Häufigkeitsverteilungen
Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung
#3
60 / 425
Kurze Erinnerung
61 / 425
Univariate Deskription
62 / 425
Häufigkeitsverteilungen
63 / 425
Häufigkeitsverteilung in Stata
. tabulate party_voted_DE
party_voted_DE | Freq. Percent Cum.
-----------------------+-----------------------------------
CDU/CSU | 693 37.30 37.30
SPD | 507 27.29 64.59
Die Linke | 193 10.39 74.97
Bündnis 90/ Die Grünen | 242 13.02 88.00
FDP | 110 5.92 93.92
AfD | 58 3.12 97.04
Piratenpartei | 20 1.08 98.12
NPD | 10 0.54 98.65
Andere Partei | 25 1.35 100.00
-----------------------+-----------------------------------
Total | 1,858 100.00
Relative Kumulative
Absolute
Quelle: ESS 8, Edition 1.0 Häufigkeiten relative
Häufigkeiten
(in %) Häufigkeiten
64 / 425
Häufigkeitsverteilungen -
formale Definition
65 / 425
Häufigkeitsverteilungen - formale
Definition
66 / 425
Die Häufigkeitstabelle - Abstrakte
Darstellung
Pj
I Alternative Schreibweise für Hj : Hj = i=1 hi
Pj
I Alternative Schreibweise für Fj : Fj = 1
n i=1 hi
I (siehe Exkurs Summenzeichen)
67 / 425
Kumulierte Häufigkeiten
68 / 425
Die Häufigkeitstabelle: Ein Beispiel
69 / 425
Exkurs: Das Summenzeichen
n
xi = x1 + x2 + · · · + xn
X
i=1
I i = Laufparameter (mit Startwert=1)
I n = Endwert des Laufparameters
I xi = Summand
70 / 425
Das Summenzeichen: Ein Beispiel
71 / 425
Das Summenzeichen: Ein Beispiel
i xi
1 78
2 77
3 74
4 80
4
xi = x1 + x2 + x3 + x4
X
i=1
4
xi = 78 + 77 + 74 + 80 = 309
X
i=1
72 / 425
Das Summenzeichen - formale Definition
i=1
73 / 425
Kurzübung 3
74 / 425
Grafische Darstellungen von Häufigkeiten
75 / 425
Grafische Darstellungen -
ein paar Beispiele
Sinnvoll!
6.30%
11.06%
39.71%
13.87%
29.05%
CDU/CSU SPD
Bündnis 90/ Die Grünen Die Linke
FDP
47.12%
52.88%
Male Female
77 / 425
Grafische Darstellungen -
ein paar Beispiele
Nicht sinnvoll!
0.07%
0.04%
0.81%
0.11%
0.07%
0.18%
0.21%
0.25%
0.39%
0.18%
0.49%
0.42%
0.88%
0.95% 1.54%
2.07%
1.02%
1.12% 1.19%
1.47%
1.47%
1.23% 1.19%
1.12% 1.19%
1.26%
0.81%
1.16% 1.40%
0.91% 1.30%
1.33% 1.12%
1.23% 1.02%
1.16% 1.23%
1.44% 1.05%
1.68% 1.47%
1.19%
1.65% 1.90%
2.00% 1.12%
1.65% 1.51%
1.83% 1.33%
1.61%
1.79%
1.68%
1.68% 1.33%
1.79% 1.51%
1.79% 1.51%
1.83% 1.26%
1.23%
1.68% 1.30%
2.42% 1.40%
1.23%
1.16%
2.18% 1.72%
2.07% 1.44%
2.18%
2.25% 2.11%
2.18%
2.07%
78 / 425
Grafische Darstellungen -
ein paar Beispiele
29.05
Prozent
20
13.87
10
11.06
6.30
0
SU
P
ne
nk
FD
SP
/C
Li
rü
U
ie
D
D
ie
C
/D
90
s
ni
nd
Bü
79 / 425
Grafische Darstellungen -
ein paar Beispiele
CDU/CSU 39.71
SPD 29.05
FDP 6.30
0 10 20 30 40
Prozent
Bedingt sinnvoll!
0.04
0.24
.8
0.49
.6
Anteil
.4
.2
0.22
0
81 / 425
Grafische Darstellungen -
ein paar Beispiele
Streifendiagramme werden in der Regel zum Vergleich von Verteilungen
über mehrere Gruppen (Kategorien) verwendet.
0.04 0.05
0.23 0.25
.8
0.50
0.48
.6
Anteil
.4
.2
0.22 0.22
0
Männer Frauen
83 / 425
Darstellung kumulierter Verteilungen
Darstellung der empirischen Verteilungsfunktion/ kumulierten relativen
Häufigkeitsverteilung als Treppenfunktion:
Pj
F (x ) = f (a1 ) + · · · + f (aj ) = i=1 fi , mit aj ≤ x < aj+1
Abitur
Fachabitur
.8
Realschule
.4 .6
Hauptschule
.2
Förderschule
Grundschule
kein Abschluss
0
1 2 3 4 5 6 7
Höchster Schulabschluss
I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.1.1, Abschnitt 3.1.2 und Anhang A.6.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.1.
I Zum Summenzeichen:
Bortz & Schuster (2010): Statistik für Human- und
Sozialwissenschaftler. 7. Auflage. Berlin/ Heidelberg: Springer, Exkurs
2.1 (S. 27).
85 / 425
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Lagemaße
Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung
#4
86 / 425
Kurze Erinnerung
87 / 425
Lage- und Streuungsmaße
88 / 425
Arten von Maßzahlen
89 / 425
Ein Beispiel: Die Normalverteilung
1 (x − µ)2
!
f (x |µ, σ 2 ) = √ · exp −
2πσ 2 2σ 2
90 / 425
Ein Beispiel: Die Normalverteilung
σ=2 σ=1
µ=5
0
0 2 4 6 8 10
x
91 / 425
Ein Beispiel: Generalisiertes Vertrauen
.4
µ=0
.3
Dichte
σ = 1,28
.2.1
0
−4 −2 0 2 4
Generalisiertes Vertrauen
92 / 425
Ein Beispiel: Generalisiertes Vertrauen
.4
Männer Frauen
.4
µ = 0,01 µ = −0,01
.3
.3
Dichte
Dichte
σ = 1,27 σ = 1,30
.2
.2
.1
.1
0
−4 −2 0 2 4 −4 −2 0 2 4
Generalisiertes Vertrauen Generalisiertes Vertrauen
94 / 425
Lagemaße: Modus/ Modalwert
95 / 425
Lagemaße: Modus/ Modalwert
I Bei metrisch skalierten Variablen und multiplen Modi kann auch der
Mittelwert berechnet werden, wenn die Modi nebeneinander liegen.
Tabelle 17: Modus bei metrisch skalierten Variablen mit zwei Modi
Anzahl Kinder hj fj
0 1200 0, 24
1 1400 0, 28
2 1400 0, 28
3 600 0, 12
4 300 0, 06
5 und mehr 100 0, 02
5.000 1, 0000
P
96 / 425
Lagemaße: Modus/ Modalwert
I Bei metrisch skalierten und gruppierten Variablen kann die Klasse mit
der höchsten Häufigkeit oder die Klassenmitte angegeben werden.
98 / 425
Zusammenfassung: Modus/ Modalwert
99 / 425
Lagemaße: Median
2 (x 2 + x 2 +1 ) bei geraden n
1 n n
100 / 425
Lagemaße: Median
101 / 425
Lagemaße: Median
1, 1, 1, 2, 2, 2, 3, 4, 4, 4, 5, 5
| {z } | {z }
x̃ = 2, 5
I Da n = 12, gilt
1 1 1 2+3
x̃ = (x n2 + x n2 +1 ) = (x 12 + x 12 +1 ) = (x6 + x7 ) = = 2, 5
2 2 2 2 2 2
102 / 425
Grafische Bestimmung des Medians
Der Median lässt sich grafisch mit Hilfe der empirischen
Verteilungsfunktion bestimmen. Er entspricht der Ausprägung aj , für die
F (x ) = 0, 5 gilt.
Abitur
Fachabitur
.8
Realschule
.4 .6
Hauptschule
.2
Förderschule
Grundschule
kein Abschluss
0
1 2 3 4 5 6 7
Höchster Schulabschluss
104 / 425
Lagemaße: Arithmetisches Mittel
I Das arithmetische Mittel ist die Summe aller Messwerte geteilt durch
ihre Anzahl.
I Das arithmetische Mittel wird auch oft als Durchschnitt oder
Mittelwert bezeichnet.
I Achtung: Es gibt auch das sog. geometrische und harmonische Mittel!
I Eine sinnvolle Interpretation setzt mindestens intervall-skalierte
Variablen voraus.
I Formel:
n
1X 1
x̄ = xi = (x1 + x2 + · · · + xn )
n i=1 n
105 / 425
Lagemaße: Arithmetisches Mittel
Beispiel:
I Urliste (n = 12):
2, 4, 3, 1, 1, 5, 4, 2, 2, 4, 1, 5
I Berechnung des arithmetischen Mittels:
12
1 X 1 34
x̄ = xi = (2+4+3+1+1+5+4+2+2+4+1+5) = = 2, 83
12 i=1 12 12
106 / 425
Das arithmetische Mittel (nochmal)
107 / 425
Das arithmetische Mittel (nochmal)
aj hj Aus Häufigkeitstabelle:
1 1
2 3 1·1+3·2+1·3
=2
3 1 5
5
P
108 / 425
Arithmetisches Mittel aus
Häufigkeitsdaten
k k
1X
x̄ = aj hj =
X
aj f j
n j=1 j=1
109 / 425
Arithmetisches Mittel aus gruppierten
Häufigkeitsdaten
I Berechnung des arithmetischen Mittels aus Häufigkeitsdaten
gruppierter metrischer Variablen:
k k
1X cj−1 + cj
x̄ = mj hj = , mit mj =
X
mj fj
n j=1 j=1
2
110 / 425
Arithmetisches Mittel aus
Gruppenmittelwerten
111 / 425
Zusammenfassung Arithmetisches Mittel
i=1
i=1 i=1
112 / 425
Kurzübung 4
Kurzübung zu
Lagemaßen symmetrische Verteilung
.4
(Think-Talk-Share)
.3
Schauen Sie sich die
.2
beiden Verteilungen
.1
an und versuchen Sie
0
Modus, Median und −4 −2 0 2 4 6
sondern insbesondere
.1
−4 −2 0 2 4 6
der Werte auf der
x-Achse an.
113 / 425
Grafishe Darstellung von
(quasi-)stetigen Variablen
114 / 425
Konstruktion eines Histogramms
115 / 425
Finales Stata-Example
116 / 425
Median und Mittelwert in Stata
. sum agea, de
20 40 60 80 100
Alter in Jahren
118 / 425
Literatur
I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.2.1 und Abschnitt 3.1.3.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.2.1.
119 / 425
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Lage- und Streuungsmaße
Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung
#5
120 / 425
Kurze Erinnerung
121 / 425
Quantile
h(X ≤ xp ) h(X ≥ xp )
≥ p und ≥1−p
n n
bzw.
f (X ≤ xp ) ≥ p und f (X ≥ xp ) ≥ 1 − p
mit p ∈ [0, 1]
122 / 425
Häufig verwendete Quantile:
Median
I Median: p = 0, 50
x0,5
123 / 425
Häufig verwendete Quantile:
Quartile
124 / 425
Häufig verwendete Quantile:
Quintile
125 / 425
Berechnung von Quantilen
x(np) + x(np+1)
xp =
2
I (Bessere) Alternative: Berechnung per linearer Interpolation. Siehe
dazu Jann (2005), S. 35f.
126 / 425
Berechnung von Quantilen - Beispiele
127 / 425
Grafische Darstellung von Quartilen -
der Box-Plot
I Box-Plots (auch Box-Whisker-Plots) stellen die Verteilung der
Quartile grafisch dar.
6 8 10 12 14
128 / 425
Der Box-Whisker-Plot im Detail
129 / 425
Box-Plots und Verteilungsformen
6 8 10 12 14
norm 8 10 12 14 16
130 / 425
Zusammenfassung: Der Box-Plot
131 / 425
Box-Whisker-Plots in Stata
Männer Frauen
Quelle: ESS 8, Edition 1.0. Anmerkungen: Grundgesamtheit ist die erwerbstätige Bevölkerung.
132 / 425
Warum Streuungsmaße?
I Lagemaße können nicht alle Unterschiede von Verteilungen erfassen.
I Streuungsmaße beschreiben die Streuung der Daten um das Zentrum.
Männer
Frauen
.01
0 20 40 60 80 100
Arbeitsstunden/Woche
dQ = x0,75 − x0,25 = Q3 − Q1
Die Streuung ist bei Frauen größer als bei Männern (dQM < dQF ).
134 / 425
Streuungsmaße:
Quantilsabstände
dD = x0,9 − x0,1 = D9 − D1
135 / 425
Streuungsmaße: Die Spannweite
R = xmax − xmin
I Die Spannweite ist . . .
I relativ informationsarm,
I anfällig gegenüber Ausreißern,
I nur für metrische Variablen zulässig,
I häufig nicht für Gruppenvergleiche geeignet, insb. wenn ein
befragungsbedingt eingeschränkter Merkmalsraum vorliegt.
Beispiel: Die Spannweite R im vorherigen Beispiel
(Arbeitsstunden/Woche) beträgt für Männer wie Frauen 100 Stunden.
136 / 425
Streuungsmaße: Abweichungen von
einem Referenzwert
137 / 425
Streuungsmaße: Abweichungen von
einem Referenzwert
138 / 425
Streuungsmaße: Abweichungen von
einem Referenzwert
i=1
I Folglich ist die durchschnittliche Abweichung vom Mittelwert
ebenfalls 0.
139 / 425
Streuungsmaße: Mittlere absolute
Abweichung und Varianz
k k
1X
AD = hj |aj − x̄ | =
X
fj |aj − x̄ |
n j=1 j=1
I Die mittlere absolute Abweichung lässt sich auch in Bezug auf andere
Maße der zentralen Tendenz berechnen (z.B. dem Median x̃ ).
141 / 425
Streuungsmaße:
Varianz und Standardabweichung
142 / 425
Kurzübung 5
Kurzübung zu Streuungsmaßen
Schauen Sie sich die folgende Tabelle an und berechnen Sie Varianz und
Standardabweichung der Einkommen.
i Einkommen in e
1 2.487
2 1.967
3 2.956
4 1.123
143 / 425
Streuungsmaße: Alternative
Formeln für Varianz
I Die Varianz lässt sich auch mit einer alternativen Formel berechnen,
die häufig rechengünstiger ist (zur Herleitung vgl. Jann (2005), S.
45):
n
1
!
s2 =
X
x 2 − x̄ 2
n i=1 i
I Aus Häufigkeitsdaten kann die Varianz ebenfalls berechnet werden:
k k
1X
s2 = hj (aj − x̄ )2 = fj (aj − x̄ )2
X
n j=1 j=1
144 / 425
Streuungsmaße:
Stichprobenvarianz
145 / 425
Zusammenfassung: Varianz und
Standardabweichung
146 / 425
Warum sind Mittelwert und
Varianz so zentral?
I Die Kombination aus Mittelwert und Varianz beschreibt eine
(unimodale, symmetrische) Verteilung relativ gut.
Beispiel: Verteilung der wöchentlichen Arbeitsstunden von Männern
und Frauen unter Annahme einer Normalverteilung mit den
empirischen Mittelwerten und Varianzen.
.04
.03
.02
Frauen Männer
Dichte
f(x)
.02
Männer
Frauen
.01
.01
0 20 40 60 80 100 0 20 40 60 80 100
x Arbeitsstunden/Woche
147 / 425
Literatur
I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.2.2.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.2.2. und 2.2.3.
148 / 425
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Konzentrationsmaße
Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung
#6
149 / 425
Kurze Erinnerung
150 / 425
Streuungsmaße bei Variablen mit
topologischem Skalenniveau
k 2 k
hj
HF = 1 − =1−
X X
fj 2
j=1
n j=1
151 / 425
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele
152 / 425
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele
153 / 425
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele
154 / 425
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele
155 / 425
Streuungsmaße:
Herfindahl-Streuungsmaß
k
RHF = · HF , RHF ∈ [0, 1]
k −1
156 / 425
Praxishinweis
157 / 425
Konzentrationsmaße
158 / 425
Entwicklung der Einkommensungleichheit
in Deutschland
I Entwicklung der Einkommensungleichheit in Deutschland, gemessen
über den Gini-Koeffizienten (auch Gini-Index).
Quelle: SOEP v30; Corneo (2015): Kreuz und Quer durch die deutsche Einkommensverteilung. Perspektiven der
Wirtschaftspolitik, 16(2).
159 / 425
Entwicklung der Vermögensungleichheit
in Deutschland
Quelle: SOEP; Frick & Grabka (2009): Gestiegene Vermögensungleichheit in Deutschland. DIW Wochenbericht, 76(4).
160 / 425
Konzentrationsmaße:
Dezilverhältnis
D9 x0,9
DR = =
D1 x0,1
I Entsprechende Berechnungen lassen sich für beliebige p-Quantile
durchführen:
xp
QR = 1 , mit xp1 > xp2
xp2
I Stata Example 6 (inequality.do)
161 / 425
Einkommensungleichheit in Deutschland
Ergebnisse von Stata
I x0,9/x0,1 = 5400/1400 = 3, 86
I x0,99/x0,01 = 11000/495 = 22, 22
x0,10 x0,90
x0,01 x0,99
0
0 5000 10000
Bruttoeinkommen / Monat
0 10 20 30 40 50 60 70 80 90 100
Bevölkerungsanteil (Dezile)
I Die Lorenzkurve . . .
I trägt auf der Y-Achse den (kumulierten) Anteil an der Gesamtsumme
Pj
xi
ςj = Pni=1
x
i=1 i
und . . .
I auf der X-Achse den Anteil der Merkmalsträger
j
Fj =
n
. . . ab.
I Die Lorenzkurve ergibt sich dann als Streckenzug durch die Punkte
(0, 0), (F1 , ς1 ), (F2 , ς2 ), . . . , (Fn , ςn ) = (1, 1) und lässt sich für
mindestens ratio-skalierte Variablen berechnen.
164 / 425
Konzentrationsmaße: Lorenzkurve
165 / 425
Konzentrationsmaße:
Gini-Koeffizient
166 / 425
Lorenzkurve und Gini-Koeffizient -
Beispiele
I Vier (fiktive) Beispiele: Lorenzkurve und Gini-Koeffizienten.
1
.8
.8
.6
.6
.4
.4
.2
.2
0
0
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Anteil Merkmalsträger Anteil Merkmalsträger
Kummulierter Anteil an Gesamtsumme
1
.8
.8
.6
.6
.4
.4
.2
.2
0
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Anteil Merkmalsträger Anteil Merkmalsträger
167 / 425
Lorenzkurve und Gini-Koeffizient -
Beispielberechnung
168 / 425
Lorenzkurve und Gini-Koeffizient -
Beispielberechnung
I Abtragen der Lorenzkurve entsprechend des berechneten
Streckenzugs.
0 10 20 30 40 50 60 70 80 90 100
Anteil Merkmalsträger
169 / 425
Lorenzkurve und Gini-Koeffizient -
Beispielberechnung
170 / 425
Kurzübung 6
Kurzübung zu Lorenzkurven
1. Schauen Sie sich die beiden Lorenzkurven an und interpretieren Sie
diese.
2. Wie sehen wohl die Gini-Koeffizienten der beiden Lorenzkurven aus?
1
Kummulierter Anteil am Gesamteinkommen
.8
.6
.6
.4
.4
.2
.2
0
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Anteil Bevölkerung Anteil Bevölkerung
171 / 425
Konzentrationsmaße:
Normierter Gini-Koeffizient
G n
G∗ = = · G , mit G ∗ ∈ [0, 1]
Gmax n−1
172 / 425
Literatur
I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.2.4.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.3.
173 / 425
Einführung in die sozialwissenschaftliche Statistik
Bivariate Deskription: Kreuztabellen und Zusammenhangsmaße
Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung
#7
174 / 425
Kurze Erinnerung
175 / 425
Kurze Erinnerung
176 / 425
Bivariate Datenanalyse
177 / 425
Bivariate Datenanalyse
178 / 425
Kreuztabellen
179 / 425
Kreuztabellen in Stata
| Gender
party_voted_DE | Male Female | Total
----------------------+----------------------+----------
CDU/CSU | 19.58 18.86 | 38.44
SPD | 15.31 12.81 | 28.12
Die Linke | 6.88 3.83 | 10.70
Bündnis 90/ Die Grüne | 6.77 6.66 | 13.42
FDP | 3.55 2.55 | 6.10
AfD | 2.11 1.11 | 3.22
----------------------+----------------------+----------
Total | 54.19 45.81 | 100.00
180 / 425
Die Kreuztabelle -
ein Beispiel
I Das Beispiel zeigt eine Kreuztabelle mit relativen Häufigkeiten.
I Im Beispiel ist die Parteipräferenz die Zeilenvariable und das
Geschlecht die Spaltenvariable.
Tabelle 33: Kreuztabelle - Parteipräferenz und Geschlecht
Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,1958 0,1886 0,3844
SPD 0,1531 0,1281 0,2812
Linke 0,0688 0,0383 0,1070
Grüne 0,0677 0,0666 0,1342
FDP 0,0355 0,0255 0,0610
AfD 0,0211 0,0111 0,0322
Gesamt 0,5419 0,4581 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
181 / 425
Die Kreuztabelle -
ein Beispiel
I Interpretation: Ein Anteil von 0,1958 (bzw. 19,58%) der Befragten ist
männlich und hat die CDU gewählt.
I Randhäufigkeiten: Ein Anteil von 0,5419 der Befragten ist männlich.
Tabelle 34: Kreuztabelle - Parteipräferenz und Geschlecht
Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,1958 0,1886 0,3844
SPD 0,1531 0,1281 0,2812
Linke 0,0688 0,0383 0,1070
Grüne 0,0677 0,0666 0,1342
FDP 0,0355 0,0255 0,0610
AfD 0,0211 0,0111 0,0322
Gesamt 0,5419 0,4581 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
182 / 425
Die Kreuztabelle -
relative Häufigkeiten
185 / 425
Die Kreuztabelle - abstrakte Darstellung
absoluter Häufigkeiten
I Abstrakte Darstellung einer Kreuztabelle mit absoluten Häufigkeiten.
I hij gibt die absoluten Häufigkeiten der Kombination (ai , bj ) an
I hi. = m hij gibt die Randhäufigkeiten (Zeilensumme) von ai an
P
Pj=1
I h.j = ki=1 hij gibt die Randhäufigkeiten (Spaltensumme) von bj an
Tabelle 37: Kreuztabelle mit absoluten Häufigkeiten - abstrakte Darstellung
X Pm
Y j=1
b1 ··· bj ··· bm
a1 h11 ··· h1j ··· h1m h1.
.. .. .. .. . .. ..
. . . . .. . .
ai hi1 ··· hij ··· him hi.
.. .. . .. .. .. ..
. . .. . . . .
ak hk1 ··· hkj ··· hkm hk.
Pk
i=1 h.1 ··· h.j ··· h.m n
186 / 425
Die Kreuztabelle - abstrakte Darstellung
relativer Häufigkeiten
I Abstrakte Darstellung einer Kreuztabelle mit relativen Häufigkeiten.
I fij = hij/n
I fi. = m fij = hi./n
P
Pj=1
I f.j = ki=1 fij = h.j/n
Tabelle 38: Kreuztabelle mit relativen Häufigkeiten - abstrakte Darstellung
X Pm
Y j=1
b1 ··· bj ··· bm
a1 f11 ··· f1j ··· f1m f1.
.. .. .. .. . .. ..
. . . . .. . .
ai fi1 ··· fij ··· fim fi.
.. .. . .. .. .. ..
. . .. . . . .
ak fk1 ··· fkj ··· fkm fk.
1
Pk
i=1 f.1 ··· f.j ··· f.m
187 / 425
Die Kreuztabelle - abstrakte Darstellung
bedingter relativer Häufigkeiten
I Kreuztabelle mit bedingten relativen Häufigkeiten (Spaltenanteile).
I fY (ai |bj ) = fi|j = hij/h.j (bedingte relative Zellhäufigkeiten)
I fi. = m j=1 fij = /n (relative Randhäufigkeiten)
P
hi.
189 / 425
Kurzübung 7
191 / 425
Das Konzept der
statistischen (Un-)Abhängigkeit
192 / 425
Zusammenhangsmaße ab
nominalem Skalenniveau
193 / 425
Zusammenhangsmaße für 2x2-Tabellen:
Die Prozentsatzdifferenz
I Die Prozentsatzdifferenz:
h11 h12
d% = − · 100 = (fY (a1 |b1 ) − fY (a1 |b2 )) · 100
h.1 h.2
I Im Beispiel: d% = (0, 270 − 0, 181) · 100 = 8, 9
I Interpretation: Der Unterschied zwischen Männern und Frauen
beträgt 8,9 Prozentpunkte!
194 / 425
Zusammenhangsmaße für 2x2-Tabellen:
Die Prozentsatzdifferenz
195 / 425
Odds: Was ist das?
I Beispiel: Sie wetten auf Kopf bei einem Münzwurf. Wie ist die
Wahrscheinlichkeit (p) zu gewinnen? Offensichtlich gilt p = 0, 5.
Welchen Odds entspricht das?
p 0, 5 1
Odds = = =1 , als Bruch:
(1 − p) 1 − 0, 5 1
Odds 1
p= = = 0, 5
Odds + 1 1+1
197 / 425
Odds: Noch ein einfaches Beispiel
Odds 1 1
1·5 1
p= = 5
= 5
= = ≈ 0, 167
Odds + 1 1
5 +1 6
5
5·6 6
198 / 425
Odds: Ein praktisches Beispiel
I Beispiel: Schauen Sie die Tabelle an. Wie ist die Wahrscheinlichkeit,
dass eine zufällig ausgewählte Person die AfD wählt?
224
p= = 0, 224
1000
Wir können auch sagen, die Odds AfD zu wählen sind 224 zu 776 “:
”
Odds 224 224
224 · 776 224
p= = 224776 = 1000
776
= = = 0, 224
Odds + 1 776 + 1 776
776 · 1000 1000
OR = 50·50/50·50 = 1 OR = 60·60/40·40 = 2, 25
OR = 80·80/20·20 = 16 OR = 100·100/0·0 → ∞
201 / 425
Das Odds-Ratio:
Beispiele mit OR≤ 1
203 / 425
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient
204 / 425
Erwartete Häufigkeiten bei
Unabhängigkeit
205 / 425
Erwartete Häufigkeiten bei
Unabhängigkeit - abstrakte Darstellung
207 / 425
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient
(354 − 1000 )
485·776 2
(93 − 1000 )
515·224 2
(422 − 515·776
1000 )
2
+ 485·776 + 515·224 + 515·776
1000 1000 1000
=11, 516
Tabelle 49: Berechnung des Chi2 -Koeffizienten
Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93 224
Nein 354 422 776
Gesamt 485 515 1.000
209 / 425
Zusammenfassung:
Der Chi2 -Koeffizient
210 / 425
Zusammenhangsmaße für Kreuztabellen:
Normierungen des Chi2 -Koeffizienten
211 / 425
Zusammenfassung: Zusammenhangsmaße
für nominal-skalierte Variablen
212 / 425
Zusammenhangsmaße
für ordinal-skalierte Variablen
213 / 425
Literatur
I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.1, 4.2.1, 4.2.2, 4.2.3.
I Für Interessierte:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.2.4 und 4.3.
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 3.1, 3.2.
214 / 425
Einführung in die sozialwissenschaftliche Statistik
Bivariate Deskription: Zusammenhangsmaße für metrische
Variablen
Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung
#8
215 / 425
Kurze Erinnerung
216 / 425
Zusammenhangsmaße für
metrisch-skalierte Variablen
I Zusammenhänge zwischen metrischen Variablen lassen sich in
Scatterplots darstellen.
−3 −2 −1 0 1 2
Generalisiertes Vertrauen
Quelle: ESS 8, Edition 1.0. Anmerkungen: Beide Variablen wurden mit Hilfe sog. konfirmatorischer Messmodelle gebildet und
basieren jeweils auf drei Items. Die Graphik zeigt den Zusammenhang beider Variablen für eine Zufallsstichprobe aus dem
kompletten Datensatz (n = 50).
217 / 425
Zusammenhänge metrischer Variablen:
Die Kovarianz
218 / 425
Zusammenhangsmaße:
Die Kovarianz
I Was ergibt der Term (xi − x̄ )(yi − ȳ ) in den Quadranten der Grafik
unten?
II I
Quadrant II: Quadrant I:
(yi − ȳ ) > 0, (yi − ȳ ) > 0,
Migrationskritische Einstellung
2
Mittelwert y
−3 −2 −1 0 1 2
Generalisiertes Vertrauen
219 / 425
Zusammenhangsmaße:
Die Kovarianz
I Was ergibt der Term (xi − x̄ )(yi − ȳ ) in den Quadranten der Grafik
unten?
II I
Mittelwert y
Produkt:> 0 −3 −2 −1 0
Generalisiertes Vertrauen
1 2
Produkt:< 0
220 / 425
Zusammenhangsmaße:
Die Kovarianz
II I
Migrationskritische Einstellung
0 2
Mittelwert y
−2
III Mittelwert x IV
−4
−3 −2 −1 0 1 2
Generalisiertes Vertrauen
221 / 425
Die Kovarianz ist abhängig
von der Skalierung
I Die Grafiken zeigen Scatterplots des gesamten Samples für identische
Variablen mit unterschiedlicher Skalierung.
I Die Kovarianz links beträgt −0, 76; rechts beträgt sie −134, 2.
100
4 3
80
Migrationskritische Einstellung
Migrationskritische Einstellung
2
60
0 1
40
−1
20
−2
−3
−4 −3 −2 −1 0 1 2 3 0 20 40 60 80 100
Generalisiertes Vertrauen Generalisiertes Vertrauen
, mit r ∈ [−1, 1]
223 / 425
Zusammenhangsmaße:
Korrelationskoeffizient nach Bravais-Pearson
224 / 425
Zusammenhangsmaße:
Korrelationskoeffizient - Rechenbeispiel
x̄ = 230/4 =
57, 5 32550 32550
ȳ = 17500/4 = sxy = = 8137, 5 r=√ = 0, 9898
4 203 · 5327500
4375
225 / 425
Zusammenhangsmaße:
Korrelationskoeffizient - Rechenbeispiel
50 55 60 65 70
Größe in cm
226 / 425
Korrelationskoeffizient: Eigenschaften
I Bei Unabhängigkeit von X und Y ist r = 0.
I Wenn |r | = 1 ist, liegen alle Wertepaare auf einer Geraden.
I Die Steigung der Geraden lässt sich nicht aus r ablesen.
2
1
1
Y
Y
0
0
−1
−1
r=0 r=1
−2
−2
−2 −1 0 1 2 −2 −1 0 1 2
X X
227 / 425
Korrelationskoeffizient: Eigenschaften
I Der Korrelationskoeffizient misst lineare Zusammenhänge.
I Nicht-lineare Zusammenhänge können von ihm nicht erfasst werden.
r = −0,15
0
−2 −1 0 1 2
X
228 / 425
Korrelationskoeffizient: Eigenschaften
I Der Korrelationskoeffizient ist anfällig gegenüber Ausreißern.
4
2
2
Y
Y
0
r=0 r = 0,45
−2
−2
−2 0 2 4 −2 0 2 4
X X
229 / 425
Zusammenfassung:
Der Korrelationskoeffizient
I Der Korrelationskoeffizient (r ) ist die normierte Kovarianz.
I r ist symmetrisch und invariant gegenüber positiv linearen
Transformationen.
I Es gilt r ∈ [−1, 1]. Je näher der Korrelationskoeffizient an 1 (bzw. -1)
liegt, desto eher beschreiben die Wertepaare (xi , yi ) eine Linie mit
positiver (bzw. negativer) Steigung.
I Der Wert von r sagt jedoch nichts über die Steigung der Geraden aus.
I Der Korrelationskoeffizient wird aber verwendet, um über die
Stärke“eines Zusammenhangs zu entscheiden:
” I |r | < 0, 3: Kein Effekt“bis schwacher Effekt“
” ”
I |r | ≥ 0, 3 und |r | < 0, 5: Mäßiger Effekt“
”
I |r | ≥ 0, 5 und |r | < 0, 8: Starker Effekt“
”
I |r | ≥ 0, 8: Sehr starker Effekt “
”
I Derartige Daumenregeln bieten nur eine Orientierung. Was als starker
oder schwacher Zusammenhang gilt, hängt von der Disziplin bzw. dem
Untersuchungsgegenstand ab.
230 / 425
Zusammenhangsmaße:
Der Rangkorrelationskoeffizient
n+1
, mit rg
¯ x = rg
¯y = und ρ ∈ [−1, 1]
2
I Da sich Rangordnungen ab ordinalem Skalenniveau berechnen lassen,
kann der Rangkorrelationskoeffizient ebenfalls ab ordinalem
Skalenniveau berechnet werden.
231 / 425
Zusammenhangsmaße:
Der Rangkorrelationskoeffizient
Tabelle 51: Bestimmung von Rängen zur Berechnung von Spearman’s Rho
xi (geordnete Urliste) nummeriert Berechnung mittlerer Rang Rang
1 1 1 1
2 2 2+3/2 = 2,5
2 3
3 4 4 4
4 5
4 6 5+6+7+8/4 = 6,5
4 7
4 8
5 9 9+10/2 = 9,5
5 10
232 / 425
Zusammenfassung:
Der Rangkorrelationskoeffizient
233 / 425
Der Korrelationskoeffizient:
Spezialfälle
I Wenn zwei dichotome Variablen vorliegen, lässt sich der
Korrelationskoeffizient ebenfalls verwenden.
I Die beiden Variablen müssen dafür 0/1-kodiert sein
(Dummy-Kodierung)
I Wir sprechen hier vom Punkt-Korrelationskoeffizienten
I Es gilt |r | = φ
I Im Beispiel: s s
χ2 11, 516
φ= = = 0, 107
n 1000
r = 0, 107
235 / 425
Der Korrelationskoeffizient:
Spezialfälle
238 / 425
Analyse von Zusammenhängen
unterschiedlich skalierter Variablen
239 / 425
Exkurs: Korrelation und Kausalität
I Ein Beispiel: Zahl der Störche und Fertilitätsrate in den 294 Kreisen
in Deutschland.
I Handelt es sich hier um einen kausalen Zusammenhang?
r = 0,80
1
0
0 10 20 30 40 50
Zahl der Störche
240 / 425
Exkurs: Korrelation und Kausalität
- weitere Beispiele
241 / 425
Exkurs: Korrelation und Kausalität
- Scheinkorrelationen
I Die Korrelation zwischen . . .
I der Körpergröße und dem Wortschatz von Kindern erklärt sich durch
das Alter der Kinder
I dem Einkommen und der Dichte der Kopfbehaarung bei Männern
erklärt sich durch das Alter
242 / 425
Exkurs: Korrelation und Kausalität
- Scheinkorrelationen
243 / 425
Exkurs: Korrelation und Kausalität
- Selektion/ Kausalrichtung
245 / 425
Exkurs: Korrelation und Kausalität
- das Experiment
I Die ideale Methode zur Identifikation eines kausalen Zusammenhangs
ist das Experiment (Beispiel: Studien zur Wirksamkeit von
homöopathischen Mitteln).
I Treatmentgruppe (erhält Stimulus) und Kontrollgruppe (erhält
Stimulus nicht)
I Randomisierte Zuweisung der Probanden auf Treatment- und
Kontrollgruppe
I Kontrollierte Setzung des Stimulus durch den Forscher
I Unterschiede zwischen Kontroll- und Treatmentgruppe lassen sich bei
einem sauber durchgeführten Experiment auf das Treatment/ den
Stimulus zurückführen (kausaler Effekt)
I Mit Beobachtungsdaten ist dies deutlich schwieriger:
I Unbeobachtete Variablen?
I Selektionseffekte in das Treatment? Umgekehrte Kausalität?
I Viele sozialwissenschaftliche Fragestellungen lassen sich nicht
experimentell beantworten! (Beispiel: Der soziale Hintergrund oder das
Geschlecht lassen sich nicht randomisiert zuweisen)
246 / 425
Exkurs: Korrelation und Kausalität
- kausale Effekte aus Beobachtungsdaten
247 / 425
Literatur
I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.4 und 4.5.
I Für Interessierte:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.2.4 und 4.3.
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 3.4 und 3.5.
248 / 425
Einführung in die sozialwissenschaftliche Statistik
Inferenzstatistik: Zufallsvariablen
Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung
#9
249 / 425
Kurze Erinnerung
250 / 425
Deskriptive und Inferenzstatistik
251 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein Beispiel
I Beispiel: Parteipräferenzen im deutschen Samples des ESS.
I Wie ist die Wahrscheinlichkeit, dass der Stimmenanteil der Linken in
der Grundgesamtheit 10,704382% beträgt?
38.435940
30
28.119800
Prozent
20
13.422074
10.704382
10
6.100943
3.216861
0
SU
ne
D
nk
FD
SP
Af
rü
/C
Li
G
U
D
C
Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 1803. Nur Parteien über der 5%-Hürde + AfD.
252 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein Beispiel
I Verteilung der Parteipräferenzen in zwei (Sub-)Samples aus dem ESS.
I Wie ist der Stimmenanteil der FDP in der Grundgesamtheit?
41.5
36.0
30
27.5
Stimmenanteil
24.5
20
14.5 14.5
13.0
10
10.5
6.0
4.5 4.5
3.0
0
SU
ne
SU
ne
D
nk
nk
FD
FD
SP
Af
SP
Af
rü
rü
/C
/C
Li
Li
G
G
U
U
D
D
C
Quelle: ESS 8, Edition 1.0. Anmerkungen: Beide (Sub-)Stichroben wurden aus dem deutschen ESS Sample gezogen. Nur
Parteien über der 5%-Hürde + AfD.
253 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein Beispiel
I Verteilung der Parteipräferenzen mit 95%-Konfidenzintervallen.
I Der Punktschätzer des Stimmanteils der FDP ist 0,061 (6,1%). Der
wahre Wert liegt mit einer Wahrscheinlichkeit von 95% im Intervall
[0,0504, 0,0731].
Abbildung 52: Verteilung der Parteipräferenzen mit Konfidenzintervallen
.4
.3
Stimmanteil
.2
.1
0
SU
ne
D
nk
FD
SP
Af
rü
/C
Li
G
U
D
C
Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 1803; 95%-Konfidenzintervall. Nur Parteien über der 5%-Hürde + AfD.
254 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein weiteres Beispiel
257 / 425
Terminologie/ Notation:
Zufallsvariablen
I Wir unterscheiden zwischen . . .
I den (deskriptiven) Maßzahlen der Stichprobe (Beispiele: x̄ , sxy ), die
häufig als Samplestatistiken oder Samplemaßzahlen bezeichnet und mit
lateinischen Buchstaben gekennzeichnet werden.
I den Maßzahlen der Grundgesamtheit, den wahren“Werten in der
”
Population, die als Parameter bezeichnet und mit griechischen
Buchstaben gekennzeichnet werden (unbekannte wahre Parametern vs.
Schätzwerte der Parameter):
261 / 425
Diskrete Zufallsvariablen
- ein konkretes Beispiel
.2
für x = 1
1/6
für x = 2
1/6
.15
1/6 für x = 3
f (x ) = für x = 4
f(x)
.1
1/6
für x = 5
1/6 .05
für x = 6
1/6
0 sonst.
0
1 2 3 4 5 6
Augenzahl beim Würfeln
262 / 425
Diskrete Zufallsvariablen:
Die Verteilungsfunktion
F (x ) = P(X ≤ x ) = f (xi ) =
X X
Pi
xi ≤x xi ≤x
263 / 425
Diskrete Zufallsvariablen
- zurück zum Beispiel
1
für ≤1
.9
1/6 x
.8
für ≤2
2/6 x
.7
für ≤3
3/6 x
.6
F(x)
F (x ) =
.5
4/6 für x ≤4
.4
für ≤5
5/6 x
.3
für ≤6
6 .2
/6 x
.1
1 2 3 4 5 6
Augenzahl beim Würfeln
264 / 425
Diskrete Zufallsvariablen
- ein komplexeres Beispiel
I Beispiel: Summe der Augenzahlen zweier Würfel.
Tabelle 58: Augensumme zweier Würfel
xi 2 3 4 5 6 7 8 9 10 11 12
f (x ) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
F (x ) 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 36/36
1
.9
.8
.15
.7
.6
F(x)
f(x)
.1
.5.4
.3
.05
.2
.1
0
2 4 6 8 10 12 2 3 4 5 6 7 8 9 10 11 12
Summe Augenzahl zweier Würfel Summe Augenzahl zweier Würfel
265 / 425
Diskrete Zufallsvariablen:
Median und p-Quantile
I Aus der Verteilungsfunktion können der Median oder andere
p-Quantile bestimmt werden.
266 / 425
Diskrete Zufallsvariablen:
Erwartungswert
E (X ) = µ = x1 p1 + x2 p2 + · · · = xi pi = xi f (xi )
X X
i i
267 / 425
Diskrete Zufallsvariablen:
Varianz und Standardabweichung
i i
268 / 425
Erwartungswert und Varianz
- ein Rechenbeispiel
269 / 425
Zusammenfassung:
Diskrete Zufallsvariablen
270 / 425
Zusammenfassung:
Zufallsvariablen
271 / 425
Stetige Zufallsvariablen
272 / 425
Stetige Zufallsvariablen:
Die Dichtefunktion
I Zur Bestimmung der Wahrscheinlichkeit wird die Dichtefunktion
(auch Wahrscheinlichkeitsdichte) verwendet.
I Die Wahrscheinlichkeit, mit der sich ein Wert innerhalb des Intervalls
[a, b] befindet, entspricht der Fläche, die für dieses Intervall unterhalb
der Dichtekurve liegt.
P(a x b)
≤
≤
a b
x
273 / 425
Stetige Zufallsvariablen:
Berechnung von Wahrscheinlichkeiten
I Die Wahrscheinlichkeit, mit der sich ein Wert innerhalb des Intervalls
[a, b] befindet, entspricht:
Z b
P(a ≤ x ≤ b) = f (x )dx
a
P(a x b)
≤
≤
a b
x
274 / 425
Stetige Zufallsvariablen:
Normierungseigenschaft der Dichtefunktion
I Die gesamte Fläche unter einer Dichtekurve beträgt immer 1.
I Dies wird als Normierungseigenschaft bezeichnet:
Z +∞
P(−∞ ≤ x ≤ +∞) = f (x )dx = 1
−∞
275 / 425
Stetige Zufallsvariablen:
Die Verteilungsfunktion
276 / 425
Stetige Zufallsvariablen:
Dichte- und Verteilungsfunktion
F(x)
f(x)
−4 −2 0 2 4 −4 −2 0 2 4
x x
277 / 425
Stetige Zufallsvariablen:
Dichte- und Verteilungsfunktion
f(a)
F(x)
f(x)
F(a)
−4 −2 0 2 4 −4 −2 a 0 2 4
a x x
278 / 425
Stetige Zufallsvariablen:
Dichte- und Verteilungsfunktion
I Die Fläche unter der Dichtekurve bis zum Punkt a entspricht F (a).
f(a)
F(x)
f(x)
F(a)
F(a)
−4 −2 0 2 4 −4 −2 a 0 2 4
a x x
279 / 425
Bestimmung von Flächen
eines Intervalls einer stetigen ZV
Abbildung 61: Bestimmung von Flächen eines Intervalls bei stetigen ZVs
f(a)
F(b)
F(x)
f(x)
F(a)
f(b)
−4 −2 0 2 4 −4 −2 a0 b 2 4
ax b x
280 / 425
Stetige Zufallsvariablen:
Lage und Streuungsparameter
281 / 425
Stetige Zufallsvariablen:
p-Quantile
I Das p-Quantil (xp ) ist der Wert, der die Fläche unter der Dichtekurve
(f (x )) in zwei Teile teilt, wobei die Fläche links von xp dem Wert p
und die Fläche rechts von xp dem Wert (1 − p) entspricht.
I Die Verteilungsfunktion ordnet einem gegebenen Wert x einen Wert
F (x ) zu, der angibt, welcher Anteil der Fläche der Dichtefunktion
≤ x ist.
I Aus der Verteilungsfunktion lässt sich daher bestimmen, . . .
I welchem p-Quantil ein gegebener Wert x entspricht
I welcher Wert x einem gegebenen Wert p entspricht (inverse
Verteilungsfunktion)
282 / 425
Stetige Zufallsvariablen:
p-Quantile
f(x)
p
p (1−p)
−4 −2 xp 0 2 4 −4 −2 0 2 4
x xp x
283 / 425
Kurzübung 8
.14
1
.9
.12
.8
.1
.7
.6
.08
F(x)
f(x)
.5
.06
.4
.3
.04
.2
.02
.1
0
0 5 10 15 20 0 5 10 15 20
x x
284 / 425
Die Normalverteilung
285 / 425
Die Normalverteilung:
Dichte- und Verteilungsfunktion
1 (x − µ)2
!
f (x |µ, σ) = √ · exp −
σ 2π 2σ 2
1 (t − µ)2
Z x !
F (x |µ, σ) = P(X ≤ x ) = √ · exp − dt
−∞ σ 2π 2σ 2
.4
.3
.3
f(x)
f(x)
.2
.2
.1
.1
0
0 5 10 15 20 0 5 10 15 20
x x
287 / 425
Die Standardnormalverteilung
1
!
x2
ϕ(x ) = √ · exp −
2π 2
1
!
t2
Z x
Φ(x ) = P(X ≤ x ) = √ · exp − dt
−∞ 2π 2
288 / 425
Die Standardnormalverteilung:
Wofür brauchen wir das?
X −µ
Z=
σ
289 / 425
Die Standardnormalverteilung:
Wofür brauchen wir das?
(X − 21, 4)
Z= ∼ N(0, 1)
8, 3
I Die Verteilungsfunktion einer beliebigen normalverteilten ZV kann
daher durch die Verteilungsfunktion der Standardnormalverteilung
ausgedrückt werden.
Einfacher gesagt: Wir brauchen nur eine Tabelle, um p-Quantile zu
bestimmen:
x −µ
F (x ) = Φ = Φ(z)
σ
I Das p-Quantil einer N ∼ (µ, σ) verteilten ZV ist xp = µ + σ · zp
(ergibt sich aus Umformung von zp = (xp −µ)/σ)
290 / 425
Die Symmetrieeigenschaft der
Standardnormalverteilung
phi(z)
p=0,05 1−p=0,95
−4 −2 −zp=−1,65 0 2 4 −4 −2 0 2 4
z −zp=−1,65 z
291 / 425
Die Symmetrieeigenschaft der
Standardnormalverteilung
p
Phi(z)
phi(z)
p=0,95 1−p=0,05
−4 −2 0 zp=1,65 2 4 −4 −2 0 2 4
z z zp=1,65
292 / 425
Die Symmetrieeigenschaft
- Warum ist das wichtig?
293 / 425
Bestimmung von p-Quantilen:
Ein Beispiel
I Welchen Wert (zp ) hat das 0,95-Quantil?
Abbildung 67: Verteilungsfunktion der Standardnormalverteilung
Quelle: Bortz und Schuster (2010), S. 587. Anmerkung: Dargestellt ist nur ein Ausschnitt der kompletten Tabelle.
294 / 425
Bestimmung von p-Quantilen:
Ein Beispiel
295 / 425
Wie geht es weiter?
296 / 425
Literatur
I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 5.1 und 5.3.
I Für Interessierte:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 5.2, 5.3.3.
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 5 und 6.
297 / 425
Einführung in die sozialwissenschaftliche Statistik
Inferenzstatistik: Schätzen
Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung
#10
298 / 425
Kurze Erinnerung
299 / 425
Unabhängige und identische
Wiederholung eines Zufallsvorgangs
300 / 425
Das Gesetz der großen Zahlen
I Das Gesetz der großen Zahlen besagt nun, dass die ZV X¯n mit
steigendem Stichprobenumfang eine steigende Wahrscheinlichkeit
aufweist, nahe an µ zu liegen.
I Es gilt also
P(|X¯n − µ| ≤ ε) → 1 , für n → ∞
, wobei ε eine beliebig kleine positive Zahl ist.
I X¯n konvergiert daher gegen µ, wenn n → ∞ geht.
I Die Varianz von X¯n ergibt sich als Var (X¯n ) = σ 2 = σ2
n .
X¯n
I Die Wurzel hieraus ¯
qnennen wir den Standardfehler von Xn :
SE (X¯n ) = σ ¯ = σ = √
Xn
2
X¯n
σ
n
I Je größer also n, desto kleiner die Variation von X¯n um µ.
301 / 425
Der zentrale Grenzwertsatz
302 / 425
Zusammenfassung:
Grenzwertsätze
303 / 425
Schätzen
θˆn = g(X1 , . . . , Xn )
ϑˆn = g(x1 , . . . , xn )
I Dabei steht θ (bzw. ϑ) für einen beliebigen Parameter und g für eine
entsprechende Schätzfunktion.
304 / 425
Schätzfunktionen
für Mittelwert und Varianz
Achtung: Hier wird nun durch n − 1 geteilt (anders als bei der
empirischen Varianz).
q
I Es gilt Sn = Sn2 .
305 / 425
Intervallschätzungen
I Wir wissen, dass eine Schätzung aus einer Stichprobe vom wahren
Wert in der Grundgesamtheit abweicht!
I Daher bietet es sich an, den Schätzwert (die sog. Punktschätzung)
um ein Intervall zu erweitern, das den wahren Wert mit großer
Wahrscheinlichkeit enthält.
I Dieses Intervall wird Konfidenzintervall genannt.
I Was brauchen wir dazu?
I Einen Punktschätzer (θˆn ), sprich: eine Statistik auf Basis der
Stichprobe (z.B. x̄ )
I Ein Verständnis der Verteilung dieses Schätzers (der sog.
Stichprobenverteilung), wenn man ihn als eine Realisation einer ZV
begreift
I Wir wissen: Die Stichprobenverteilung ist normalverteilt mit E (θˆn ) = θ;
ihre Varianz ist abhängig von n.
306 / 425
Die Stichprobenverteilung
I Stata Example 10 (sampling.do)
I Je größer n, desto kleiner die Varianz der Stichprobenverteilung.
n=100 n=500
.015
.03
.01
.02
Density
Density
.005
.01
0
1300 1400 1500 1600 1700 1300 1400 1500 1600 1700
Geschätzter Mittelwert in 10000 Samples