Sie sind auf Seite 1von 425

Einführung in die sozialwissenschaftliche Statistik

Einführung: Warum Statistik?

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#1

1 / 425
Statistik ist sexy

I I keep saying the sexy job in the next ten years will be

statistician.“(Hal Varian, Chefökonom bei google)
I The alternative to good statistics is not no statistics, it’s bad

statistics.“(Bill James, Baseballstatistiker)

2 / 425
Wofür brauchen wir Statistik?

I Wozu brauchen wir Statistik?


I Um die Welt zu verbessern!
I Um Geld zu verdienen!
I Um Spaß zu haben!
I Um die wissenschaftliche Neugier zu stillen!

3 / 425
Um die Welt zu verbessern?!

I Statistik ist in nahezu allen Feldern, die das Wohlergehen der


Menschen betreffen, essentiell. Beispiele:
I Entwicklung von Medikamenten und Diagnoseverfahren
I Klimawandel verstehen, Strategien entwickeln
I Hunger- und Armutsbekämpfung
I Migrationsbewegungen verstehen und Herausforderungen meistern
I (Unfallfreies) autonomes Fahren
I Aber: Statistische Verfahren können auch für fragwürdige Ziele
eingesetzt werden. Beispiele:
I Cambridge Analytica verwendet die Nutzerdaten von Millionen
Facebook-Nutzern um daraus detaillierte Persönlichkeitsprofile zu
erstellen
I Auf Basis dieser Daten werden Nutzer mit individualisierten Strategien
manipuliert (Youtube Video)

4 / 425
Die Welt verbessern?!

I Der weltweite Wohlstand ist in den letzten 200 Jahren extrem


gewachsen.

Abbildung 1: Weltweite Einkommensverteilung, 1800-2015

Quelle: Pinker, S. (2018). Enlightenment Now: The Case for Reason, Science, Humanism, and Progress. Penguin.

5 / 425
Die Welt verbessern?!

I Gleichzeitig wächst die Einkommensungleichheit innerhalb von


Ländern enorm.

Abbildung 2: Einkommensungleichheit in Deutschland, 1991-2013

6 / 425
Die Welt verbessern?!

I Warum wächst Ungleichheit innerhalb von Ländern?


I Welche Stellschrauben stehen uns zur Verfügung?

Abbildung 3: Blau und Duncan’s Status Attainment Model, 1967

Quelle: https://dspace.library.uu.nl/bitstream/handle/1874/802/image2.gif
7 / 425
Geld verdienen

I Die Nachfrage nach Statistiker*innen und Datenanalysekenntnissen


steigt enorm.
I Die Gehälter ebenfalls.

8 / 425
Um wissenschaftliche Neugier
zu stillen

I Statistik ist die universelle Sprache der (empirischen) Wissenschaften.


I Wer Statistik (und Methodik im Allgemeinen) beherrscht, kann sicher
durch das breite Feld der Wissenschaften navigieren.
I Statistische und methodische Kenntnisse sind wichtige Werkzeuge des
kritischen Denkens.
I Welche empirische Evidenz für Aussage A ist überzeugend?
I Was können alternative Erklärungen für A sein?
I Welche empirische Evidenz würde meine Meinung zu B ändern?

9 / 425
Was kann Statistik?

I Daten beschreiben: Welche Eigenschaften haben die vorliegenden


Daten?
I Statistik erlaubt die Beschreibung der Eigenschaften von Daten
I Dabei werden die Informationen in den Daten reduziert und somit
verdichtet
I Schlüsse aus Daten ziehen: Was kann aus den vorliegenden Daten
geschlussfolgert werden?
I Generalisierung von Eigenschaften auf Population; Zukunftsprognosen
I Testen von theoretisch hergeleiteten Hypothesen
I Statistische Theorie beeinflusst den Datenerhebungsprozess: Wie
müssen Daten erhoben werden, um daraus Schlussfolgerungen ziehen
zu können?
I Stichprobentheorie definiert, wie Daten erhoben werden müssen, um
generalisieren zu können
I Zusammenspiel aus Theorie und Statistik beeinflusst die Wahl des
Forschungsdesigns

10 / 425
Deskriptive und Inferenzstatistik

I Die Beschreibung einer gegebenen Menge von Daten mit Hilfe


statistischer Verfahren wird auch als deskriptive Statistik bezeichnet.
I Die schließende Statistik wird auch als Inferenzstatistik bezeichnet.
I Inferenzstatistik, die Sie alle kennen:
Wenn am nächsten Sonntag Bundestagswahl wäre, welche Partei
”würden Sie wählen?“
I Ein Umfrageinstitut befragt 1.000 Personen. Das Berichten der
Ergebnisse ist dabei grundsätzlich deskriptiver Natur. Das statistische
Verfahren ist in diesem Fall eine (relative) Häufigkeitsauszählung.
I Das Erstellen einer Wahlprognose für die tatsächliche Bundestagswahl
(d.h. die Schlussfolgerung über das Wahlverhalten von ca. 62 Millionen
Wahlberechtigten auf Basis der Stichprobe von 1.000 Wähler*innen)
ist dagegen Inferenzstatistik.
I Wir probieren das mal aus! Gehen Sie nochmals zu menti.com und
verwenden Sie den Code XX XX XX.

11 / 425
Statistik im Forschungsprozess

Abbildung 4: Der Forschungsprozess im Überblick

Quelle: Nach Jann (2005), S. 2.

12 / 425
Statistik im Forschungsprozess

Abbildung 5: Statistik im Forschungsprozess

Quelle: Nach Jann (2005), S. 2.

13 / 425
Vorlesungsinhalt

1. Einführung
2. Grundlagen der Statistik
3. Deskriptive Statistik
3.1 Univariate Deskription
3.2 Bivariate Deskription/ Zusammenhangsmaße
4. Schließende Statistik/ Inferenzstatistik
4.1 Grundlagen
4.2 Schätzen
4.3 Testen
5. Lineare Regressionsanalysen

14 / 425
Ablauf

I Zwei Sitzungen pro Woche


I Erste Sitzung hat Vorlesungscharakter
I Formale statistische Theorie
I Anwendungsbeispiele
I Kurzübungen
I Stata-Beispiele
I Zweite Sitzung hat Übungscharakter
I Wiederholung des Vorlesungsstoffes anhand von praktischen Beispielen
I Raum für Nachfragen und Diskussionen
I Übungsaufgaben
I Ggf. werden Teile der Übungen auch für Vorlesungen verwendet.

15 / 425
Terminplan

Tabelle 1: Vorlesungsablauf
Nr. Datum Themenblock Inhalt
1 21.10. Einführung Einführung, Organisatorisches
2 28.10. Grundlagen Grundbegriffe, Skalenniveaus
3 04.11. Deskriptive Statistik Häufigkeitsverteilungen
4 11.11. Lagemaße
5 18.11 Lage- und Streuungsmaße
6 25.11 Konzentrationsmaße
7 02.12. Kreuztabellen
8 09.12. Kovarianz und Korrelation
9 16.12. Inferenzstatistik Grundlagen, Zufallsvariablen
10 13.01. Schätzen
11 20.01. Testen
12 27.01. Lineare Regression Grundlagen
13 03.02. Interaktionseffekte
14 10.02. Abschlusssitzung Wiederholung, offene Fragen
15 17.02. Klausur Klausur

16 / 425
Zeiten und Räume

I Wann und Wo?


I Raum: HZ 5
I Vorlesung: 14-16 Uhr
I Übung: 16-18 Uhr

17 / 425
Veranstaltungsbegleitende Tutorien

I Insgesamt gibt es 8 veranstaltungsbegleitende Tutorien.


I Beginn ab der dritten Vorlesungswoche (ab 01.11.). Besprochen
werden jeweils die Inhalte der vorherigen Woche.
I Übungsaufgaben in offener Form
I Übungsaufgaben im Klausurformat (Multiple Choice)
I Raum für Nachfragen und Diskussionen
I Wiederholung der Vorlesungsinhalte
I Die aktive Teilnahme an einem Tutorium wird dringend empfohlen.
I Die Einreichung von mindestens 6 Übungsblättern ist verpflichtend
und eine Voraussetzung für die Klausurteilnahme. Einreichung der
Blätter spätestens in der Woche nach Veröffentlichung der Vorlesung.
I Melden Sie sich zu einem der Tutorien über OLAT an.
I Hierzu finden Sie in OLAT Gruppen“für alle Tutorien (Modul

Einschreibung Tutorien“)

18 / 425
Tutorien - wann, wo und mit wem?

Tabelle 2: Veranstaltungsbegleitende Tutorien


Wochentag Uhrzeit Raum TutorIn
Dienstag 10-12 Uhr PEG 1G.192 Walter Schröder
Dienstag 12-14 Uhr SH 4.105 Anne Schäfer
Dienstag 14-16 Uhr HZ 15 Ulrich Stößel
Dienstag 18-20 Uhr SH 3.104 Pia Bernstein
Mittwoch 10-12 Uhr PEG 1G.107 Anne Schäfer
Mittwoch 14-16 Uhr SH 3.101 Ulrich Stößel
Donnerstag 12-14 Uhr PEG 1G.165 Walter Schröder
Freitag 14-16 Uhr SH 3.104 Pia Bernstein

19 / 425
Klausur - wann, wo und wie?

I Die Klausur wird als e-Klausur geschrieben und dauert 90 Minuten.


Online zu Hause oder im PC-Pool. Nähere Infos später.
I Sie findet in der letzten Vorlesungswoche am 17.02., um 14 oder 16
Uhr statt.
I Neben der Anmeldung über QIS ist es zwingend notwendig sich über
OLAT zu registrieren (mehr dazu im Januar).
I Zulassungsvoraussetzung: Teilnahme an einer Probeklausur (in
OLAT) und Einreichung von 6 Übungsblättern in den Tutorien.
I Erlaubte Hilfsmittel:
I Taschenrechner (Handy ist in der Klausur nicht erlaubt!)
I Formelsammlung zur Vorlesung
I Die Klausur wird im Multiple-Choice Format geschrieben.
I Vier Antwortalternativen, von denen immer eine richtig ist.
I Für jede richtige Antwort gibt es einen Punkt.
I Insgesamt 45 Fragen, d.h. durchschnittlich 2 Minuten pro Frage.
I Die Klausur ist ab 23 Punkten bestanden (siehe Bewertungsschema).
20 / 425
Probeklausur

I Die Probeklausur wird online in OLAT geschrieben.


I Die Probeklausur ist ab dem 24.01. verfügbar und muss bis zum
06.02. geschrieben werden.
I Die Probeklausur hat die gleiche Schwierigkeit wie die
Abschlussklausur. Wenn Sie die Probeklausur ernst nehmen, haben
Sie einen guten Indikator für ihren Leistungsstand.
I Die Teilnahme an der Probeklausur ist Voraussetzung für die
Teilnahme an der Abschlussklausur.

21 / 425
Nachschreibeklausur

I Die Nachschreibeklausur findet am 10.03. um 14 Uhr statt.


I Der Raum wird kurzfristig bekannt gegeben.
I Mitschreiben können Sie, wenn Sie entweder durch die eigentliche
Klausur durchgefallen sind–in diesem Fall werden Sie innerhalb von
drei Tagen nach der eigentlichen Klausur persönlich per Mail
benachrichtigt–oder,
I wenn Sie an der eigentlichen Klausur begründet nicht mitschreiben
konnten–in diesem Fall ist ein Attest notwendig.

22 / 425
Bewertungsschema der Klausur

Tabelle 3: Bewertungsschema der Klausur


Punkte Bewertung Note
≤22 5,0 nicht ausreichend
23-24 4,0 ausreichend
25-26 3,7 ausreichend
27-28 3,3 befriedigend
29-30 3,0 befriedigend
31-32 2,7 befriedigend
33-34 2,3 gut
35-37 2,0 gut
38-40 1,7 gut
41-43 1,3 sehr gut
44-45 1,0 sehr gut

23 / 425
Klausur - Beispiele

1. Der Modus einer Verteilung entspricht. . .


O dem Wert mit den kleinsten absoluten Abständen zu allen Daten.
O dem Wert mit den kleinsten Abstandsquadraten zu allen Daten.
O dem Wert mit der größten Häufigkeit.
O dem Wert, der sich durch eine Teilung der Daten in der Mitte ergibt.
2. Bestimmen Sie den Modus der folgenden geordneten Urliste: 1, 1, 2,
2, 2, 3, 3, 3, 3, 4, 4, 5, 6.
O 3
O 2
O 2,8
O 4

24 / 425
Materialien

I Alle Materialien finden Sie in OLAT (hier oder über die Navigation
FB03>Ihr Studiengang>Statistik/Forschungskompetenzen 1)
I Foliensatz (Vorlesung)
I Übungsblätter und -lösungen
I Formelsammlung
I Zip-Ordner mit Stata-Beispielen.
I Videoaufzeichnungen der Vorlesung und Übung, sowie der Tutorien
I Achtung! Die Materialien werden regelmäßig aktualisiert.
I Lösungen zu Übungsblättern der Vorlesung und Tutorien
I Post-lecture-Versionen vergangener Vorlesungen (mit Lösungen der
Kurzübungen)
I OLAT-Link ausgeschrieben: https://olat-ce.server.uni-
frankfurt.de/olat/auth/RepositoryEntry/13310787588

25 / 425
Literatur

I Vorlesungsbegleitendes Buch (verpflichtend):


I Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg.
I Verfügbar als eBook in der Bibliothek (hier)
I Daneben Verweise auf freiwillige Zusatzliteratur:
I Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer.
I Bortz & Schuster (2010): Statistik für Human- und
Sozialwissenschaftler. 7. Auflage. Berlin/ Heidelberg: Springer.
I Beide als eBook in der Bibliothek verfügbar (hier und hier)

26 / 425
Einführung in die sozialwissenschaftliche Statistik
Grundbegriffe und Skalenniveaus

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#2

27 / 425
Untersuchungseinheiten und
Grundgesamtheit

I Untersuchungseinheiten: Objekte, über die Daten erhoben werden.


Beispiel: Individuen, Nationen, Organisationen, Firmen, Städte, etc.
I Grundgesamtheit: Menge aller Untersuchungseinheiten, über die
Aussagen getroffen werden sollen. Die Grundgesamtheit (GG) ist vor
einer Untersuchung festzulegen.
Beispiel: Student*innen an der Goethe Universität; alle Personen mit
deutscher Staatsbürgerschaft; alle europäischen Länder; alle
erwachsenen Personen, die in Deutschland in einem Privathaushalt
wohnen.
I Teilgesamtheit/ Teilpopulation: Teilmenge der Grundgesamtheit.

28 / 425
Stichprobe
I Stichprobe (oder Auswahl/ Sample): Teilmenge der Grundgesamtheit,
über die Daten gesammelt wird.
I Die Verwendung von Stichproben (Teilerhebungen) ist in den
Sozialwissenschaften üblich; typischerweise aus pragmatischen
Gründen.
Beispiel: Wahlprognose auf Basis einer Stichprobe von 1.000 Wählern.
I In anderen Fällen ist die Teilerhebung zwingend erforderlich.
Beispiel: Crashtests bei PKWs.

Abbildung 6: Grundgesamtheit und Stichprobe

29 / 425
Stichprobe

I Stichproben sollen möglichst getreue Abbildungen der


Grundgesamtheit darstellen.
I Eine getreue Abbildung der GG nennt man unverzerrte oder
repräsentative Stichprobe.
I Sind bestimmte Merkmale in der Stichprobe über- oder
unterproportional vertreten, spricht man von einer verzerrten
Stichprobe.
I Eine unverzerrte Stichprobe erreicht man am besten durch eine
Zufallsstichprobe aus der GG.
I Mehr dazu im Themenkomplex Inferenzstatistik.

30 / 425
Variablen/ Merkmale

I Untersuchungseinheiten weisen Eigenschaften bzw. Merkmale auf.


Beispiele:
I Individuen: Geschlecht, Körpergröße, Einkommen, höchster
Bildungsabschluss, Arbeitsmarktstatus
I Nationen: BIP, Sozialausgaben, Staatsform
I Eine statistische Variable ist die nummerische Repräsentation eines
Merkmals.
I Symbole: X , Y , Z , oder ...
I ...bei sehr vielen Variablen Xj = X1 , X2 , X3 , . . . , Xm ,
wobei m die Zahl der (vorliegenden/ verwendeten) Variablen ist.

31 / 425
Merkmalsausprägungen und
empirische Werte

I Variablen können mehrere Werte oder Ausprägungen annehmen.


I Die Summe aller möglichen Ausprägungen stellt den sogenannten
Merkmalsraum einer Variablen dar.
I Symbole: aj , bj , mit j = 1, .., k
I k: Zahl der Ausprägungen
I Von den möglichen Merkmalsausprägungen werden die tatsächlich
gemessenen Werte unterschieden.
Beispiel: Die Variable Temperatur in ◦ C kann theoretisch Werte
zwischen −273, 15◦ C und ∞◦ C annehmen. In einer
Temperaturmessung in drei Städten Deutschlands wurden die Werte
21, 4◦ C, 22, 5◦ C und 22, 8◦ C gemessen.
I Symbole: xi , yi , zi , oder ...
I x1i , x2i , . . . , xmi , mit i = 1, . . . , n
I n: Zahl der beobachteten Untersuchungseinheiten
I m: Zahl der beobachteten/ verwendeten Variablen
32 / 425
Die Datenmatrix

I Untersuchungseinheiten sind in Zeilen angeordnet (eine Zeile pro


Untersuchungseinheit).
I Variablen sind in Spalten angeordnet (typischerweise eine Spalte pro
Variable).
I Zellen enthalten die beobachteten Werte.

Tabelle 4: Struktur einer Datenmatrix


Variable 1 Variable 2 ... Variable m
Untersuchungseinheit 1
Untersuchungseinheit 2
..
.
Untersuchungseinheit n

33 / 425
Die Datenmatrix: Ein Beispiel

I Untersuchungseinheiten sind in Zeilen angeordnet (eine Zeile pro


Untersuchungseinheit).
I Variablen sind in Spalten angeordnet (typischerweise eine Spalte pro
Variable).
I Zellen enthalten die beobachteten Werte.

Tabelle 5: Struktur einer Datenmatrix - Ein Beispiel


Name Age Instrument ... Sex
Mick 78 vocals male
Keith 77 guitar male
Charlie 80 drums male
Ron 74 guitar male

34 / 425
Die Datenmatrix: Nummerische
Kodierung

I Computer und (erfahrene) Anwender mögen Zahlen lieber als Wörter.


I Qualitative/ kategoriale Variablen werden daher nummerisch kodiert.
I Ein sogenanntes Codebook gibt die Zuordnung von Merkmalen und
nummerischen Werten an.
Beispiel:
I Instrument: 1=vocals, 2=guitar, 3=drums
I Gender: 1=female, 2=male

Tabelle 6: Nummerische Kodierung von qualitativen Variablen


ID Age Instrument ... Sex
1 78 1 2
2 77 2 2
3 80 3 2
4 74 2 2
35 / 425
Die Datenmatrix - Abstrakte
Darstellung

I Untersuchungseinheiten i = 1, . . . , n sind in Zeilen angeordnet (eine


Zeile pro Untersuchungseinheit).
I Variablen sind in m Spalten angeordnet (typischerweise eine Spalte
pro Variable).
I Zellen enthalten die beobachteten Werte.

Tabelle 7: Struktur einer Datenmatrix


i x1i x2i ... xmi
1 x11 x21 ... xm1
2 x12 x22 ... xm2
.. .. .. ..
. . . ... .
n x1n x2n ... xmn

36 / 425
Die Datenmatrix - Anmerkung
zur Darstellung

I Die Darstellung dieser Datenmatrix weicht von der Darstellung im


Lehrbuch (Jann, 2005: S. 11) ab.
I Jann folgt der allgemeinen Konvention, dass in Tabellen zuerst die
Zeile und dann die Spalte indiziert wird.
I Entsprechend dieser Konvention, werden wir später auch die Zellen
einer Kreuztabelle benennen.

Tabelle 8: Struktur einer Datenmatrix bei Jann (2005: S. 11)

i x1i x2i ... xmi


1 x11 x12 ... x1m
2 x21 x22 ... x2m
.. .. .. ..
. . . ... .
n xn1 xn2 ... xnm
37 / 425
Die Datenmatrix - Anmerkung
zur Darstellung

I Wir folgen in der Darstellung der Datenmatrix einer anderen


(sinnvolleren) Konvention.
I Variablen können als x , y und z bezeichnet werden. Mit Index für die
Beobachtungen ergibt sich dann: xi , yi und zi , der Index i wird also
an die Bezeichnung der Variable angehängt.
I Werden Variablen nicht als x , y und z, sondern als x1 , x2 und x3
bezeichnet, so wird dieser Index Bestandteil der eigentlichen
Variablenbezeichnung und der Index i entsprechend hinten
angehängt: x1i , x2i und x3i .
I Anmerkung für Klausur:
I Für die Klausur ist dieser Unterschied in der Notation nicht relevant.
Wir werden im Folgenden lediglich mit den Variablenbezeichnungen x ,
y und z arbeiten.
I Es wird keine Fragen geben, die sich auf die Indizierung der Zellen
einer Datenmatrix beziehen.
38 / 425
Kurzübung 1

Kurzübung zur Datenmatrix


Unten sehen Sie drei ausgefüllte Fragebögen, übertragen sie die Informationen in eine
Datenmatrix!

ID = 1 ID = 2 ID = 3
1. Welches Geschlecht 1. Welches Geschlecht 1. Welches Geschlecht
haben Sie? haben Sie? haben Sie?
O männlich X männlich X männlich
X weiblich O weiblich O weiblich
2. Welche Partei haben 2. Welche Partei haben 2. Welche Partei haben
Sie gewählt? Sie gewählt? Sie gewählt?
O CDU X CDU O CDU
O SPD O SPD X SPD
O Linke O Linke O Linke
X Grüne O Grüne O Grüne
O FDP O FDP O FDP
3. Wie alt sind Sie? 3. Wie alt sind Sie? 3. Wie alt sind Sie?
24 Jahre. 48 Jahre. 31 Jahre.

39 / 425
Die Datenmatrix in der Praxis

I Außer bei der expliziten Analyse von Texten, werden fast


ausschließlich nummerische Kodierungen verwendet.
I Statistiksoftware erlaubt die Vergabe von sogenannten Labels.
I Labels sind Zeichenfolgen (Wörter), die nummerischen Kodierungen
zugeordnet sind.
I Stata Example 1 (datamatrix.do)

40 / 425
Diskrete und stetige Variablen

I Diskrete Variablen können nur eine abzählbare Zahl von


Ausprägungen annehmen (abzählbar unendlich oder endlich viele)
Beispiele:
I Individuen: Schulnoten, Wohnort, Zahl der Kinder, Parteipräferenz
I Nationen: Zahl der Handelsverträge, Staatsform, Einwohnerzahl
I Stetige Variablen können unendlich viele Werte innerhalb eines
Intervalls annehmen; d.h. es gibt unendlich viele feine Abstufungen.
Beispiele:
I Individuen: Körpergröße, Körpertemperatur, Gewicht, Blutmenge
I Nationen: Fläche, Durchschnittstemperatur
I Quasi-stetige Variablen sind von Natur aus stetig, aber nur diskret
gemessen.
Beispiele:
I Individuen: Alter wird oft in Jahren abgefragt, allenfalls in Tagen.
I Nationen: Fläche wird in Quadratkilometern angegeben, mit zwei oder
drei, aber nicht mehr Nachkommastellen.

41 / 425
Quantitative und qualitative Variablen

I Quantitative Variablen erfassen Quantitäten (Ausmaße/ Intensitäten).


Quantitative Variablen lassen sich immer der Größe nach ordnen.
Beispiele:
I Individuen: Einkommen, Zahl der Kinder, Schulnoten
I Nationen: Bruttoinlandsprodukt (BIP), Sozialausgaben in % des BIP,
Zahl der Olympiamedaillen
I Qualitative Variablen erfassen Qualitäten und keine Ausmaße.
Qualitative Variablen haben keine inhärente Ordnung.
Beispiele:
I Individuen: Parteipräferenz, Augenfarbe, Lieblingsband
I Nationen: Nachbarländer, Staatsform, Name des Staatsoberhauptes

42 / 425
Dichotome und polytome Variablen

I Dichotome Variablen haben zwei Ausprägungen.


Beispiele:
I Individuen: biologisches Geschlecht, arbeitslos (ja/nein), Beteiligung
bei der letzten Wahl (ja/nein)
I Nationen: Krieg oder Frieden, Demokratie (ja/nein), UN-Mitglied
(ja/nein)
I Polytome Variablen können mehr als zwei Ausprägungen annehmen.
Beispiele:
I Individuen: Parteipräferenz, Bildungsabschluss, Einkommen
I Nationen: Staatsform, BIP, Zahl der Kriege seit 1945

43 / 425
Manifeste und latente Variablen

I Manifeste Variablen können direkt gemessen/ beobachtet werden.


Beispiele:
I Individuen: Körpergröße, Körpertemperatur, Zahl der Kinder,
Einkommen, Arbeitsmarktstatus
I Nationen: Einwohnerzahl, BIP, Zahl der Kriege seit 1945, Zahl der
Parteien im Parlament
I Latente Variablen lassen sich nicht direkt beobachten. Sie müssen
über Indikatoren gemessen werden.
Beispiele:
I Individuen: Ausländerfeindlichkeit, Lebenszufriedenheit, Intelligenz
I Nationen: Pressefreiheit, Nationalismus, sozialstaatliche Generösität,
Aggression gegen andere Staaten

44 / 425
Messen

I Messen ist die Zuordnung von Zahlen zu Objekten gemäß



festgelegten Regeln“(Stevens 1946, zitiert nach Jann 2005: 13).
I Bei quantitativen Variablen weisen die Messwerte Relationen
zueinander auf, die den beobachteten Relationen entsprechen (sollen),
d.h. die empirische Relation wird in eine nummerische Relation
übertragen.
Beispiele:
I Einfach: Messung von Einkommen, Körpergröße, Körpertemperatur
oder Zahl der Kinder
I Schwieriger: Intelligenz, Ausländerfeindlichkeit, Parteiidentifikation

45 / 425
Skalenniveaus

I Abhängig von der zu messenden Eigenschaft und dem verwendeten


Messinstrument, werden die Messwerte auf unterschiedlichen Skalen
gemessen. Man spricht auch von Skalenniveaus oder -typen.
I Das Skalenniveau entscheidet über den Informationsgehalt der
gemessenen Daten.
I Skalenniveaus:
I Nominalskala
I Ordinalskala
I Intervallskala
I Ratioskala
I Absolutskala

46 / 425
Die Nominalskala

I Die Nominalskala besitzt den geringsten Informationsgehalt.


I Den beobachteten Ausprägungen können beliebige (aber eindeutige)
nummerische Werte zugeordnet werden.
I Beispiel: Parteipräferenz

CDU 1 6 0
SPD 2 5 2
Linke 3 4 20
Grüne 4 3 6
FDP 5 2 8
AfD 6 1 -0.0001

47 / 425
Die Nominalskala

I Andere Beispiele:
I Individuen: Beruf(sbezeichnung), Geburtsland, Ethnie, Lieblingsband,
Geschlecht, Arbeitsmarktstatus, Beteiligung bei der letzten Wahl
(ja/nein)
I Nationen: Staatsform, UN-Mitglied (ja/nein), aktuelle
Regierungskoalition
I Zulässige Interpretation: Miriam und Friedrich haben die gleiche

Partei gewählt, die Grünen; Sascha hat eine andere Partei gewählt,
die AfD.“

48 / 425
Ordinalskala

I Variablen werden auf einer Ordinalskala gemessen, wenn den


Ausprägungen der Variablen eine Rangordnung inhärent ist, wobei nur
der Rang, nicht aber der Abstand zwischen den Rängen festgelegt ist.
I Beispiel: Höchster Bildungsabschluss

Hauptschule 1 0 -8
Realschule 2 5 -7
Fachabitur 3 20 -6
Abitur 4 80 -5
BA 5 81 -4
MA 6 9999 -3

49 / 425
Die Ordinalskala

I Andere Beispiele:
I Individuen: Schulnoten, militärischer Dienstrang, Selbsteinstufung des
Einkommens (niedrig/mittel/hoch)
I Nationen: Platzierung beim Biathlon der Frauen in PyeongChang 2018
I Zulässige Interpretation: Maria ist besser als Peter, denn sie hat eine

Eins, Peter hat nur eine Zwei.“

50 / 425
Intervallskala

I Intervallskalen implizieren eine Rangordnung, erlauben aber zusätzlich


den Vergleich der Abstände zwischen den Ausprägungen. Die
Intervallgröße (Einheit) und der Nullpunkt sind allerdings beliebig.
I Beispiele:
I Eindeutige Intervallskala: Temperatur in ◦ C, Temperatur in ◦ F,
Geburtsjahr
I Ja, aber manchmal strittig: IQ-Test und andere Messinstrumente für
latente Variablen
I Zulässige Interpretation: Vorgestern waren es 15 ◦ C, gestern waren

es 20 ◦ C und heute sind es 25 ◦ C. Der Temperaturanstieg von
vorgestern auf gestern und von gestern auf heute war gleich.“

51 / 425
Ratioskala/Verhältnisskala

I Ratioskalen besitzen zusätzlich zu den Eigenschaften der Intervallskala


einen natürlichen Nullpunkt. Lediglich die Einheiten sind frei wählbar.
I Beispiele:
I Individuen: Lebensalter in Jahren, Lebensalter in Stunden, Einkommen
in $, Einkommen in e
I Nationen: Alter der Demokratie, Fläche in Quadratkilometern, BIP in
1, 000 e, Höhe der Sozialausgaben in Mio. $
I Zulässige Interpretation: Torsten verdient 2,46 mal mehr als

Horst.“ Brasilien ist 24,8 mal so groß wie Deutschland.“

52 / 425
Absolutskala

I Die Absolutskala hat das höchste Skalenniveau.


I Absolutskalen besitzen einen natürlichen Nullpunkt und natürliche
Einheiten.
I Absolute Häufigkeiten werden auf einer Absolutskala gemessen.
Beispiele:
I Individuen: Zahl der Kinder, Zahl der bisherigen Vollzeitstellen
I Nationen: Zahl der Kriege seit 1945, Zahl der Parteien im Parlament
I Wahrscheinlichkeiten werden ebenfalls auf Absolutskalen gemessen.
Beispiel: Wahrscheinlichkeit, im Lotto zu gewinnen
I Zulässige Interpretation wie bei der Ratioskala.

53 / 425
Kurzübung 2

THINK - TALK - SHARE


Think-Talk-Share“-Kurzübungen werden nicht individuell auf Papier

gelöst sondern in der Gruppe diskutiert: 1. Denken Sie kurz nach! 2.
Diskutieren Sie mit ihrem/r Nachbarn/in! 3. Wir diskutieren gemeinsam!

Kurzübung zu Skalenniveaus (Think-Talk-Share)


Welche Skalenniveaus lassen sich den folgenden Merkmalen zuordnen?
I Semesterbeitrag
I Selbsteinstufung Links-Rechtsskala (1-10)
I Zahl der tödlichen Pkw-Unfälle
I Datum der Einschulung
I Studiengang

54 / 425
Skalenniveaus: Informationsgehalt und
sinnvolle Berechnungen

I Je höher das Skalenniveau, desto


I ...größer der Informationsgehalt
I ...mehr Rechenoperationen sind zulässig
I ...eingeschränkter ist die Zahl der zulässigen Transformationen.
Transformationen sind dann zulässig, wenn sie die enthaltenen
Informationen nicht verändern.

Tabelle 9: Sinnvolle Berechnungen nach Skalenniveau


Nominal Ordinal Intervall Ratio/Absolut
Auszählen ja ja ja ja
Ordnen nein ja ja ja
Differenzen bilden nein nein ja ja
Quotienten bilden nein nein nein ja

55 / 425
Skalenniveaus: zulässige
Transformationen und Interpretationen

Tabelle 10: Eigenschaften der Skalenniveaus


Skalenniveau Zulässige Transformation Interpretation
Nominal umkehrbar eindeutige (bi- gleich oder verschie-
jektive) den
Ordinal rangfolgebewahrende y = größer, kleiner oder
f (x ) mit xi > xj → yi > yj gleich
Intervall positiv lineare: y = ax + b Vergleichbarkeit von
mit a > 0 Differenzen
Ratio positiv proportionale: y = Aussagen über
ax mit a > 0 Verhältnisse, prozen-
tuale Vergleiche
Absolut keine bzw. nur iden- wie Ratioskala
titätsbewahrende: y = x
56 / 425
Transformationen: Beispiele

I Intervallskala: Umrechnung von Temperatur


x ◦ C → y ◦ F : 32 + 1, 8 · x ◦ C = y ◦ F
1
x ◦ F → y ◦ C : −32 + · x ◦F = y ◦C
1, 8

I Ratioskala: Umrechnung von Währungen


x e → y $ : 1, 22 · x e = y $
1
x$ → ye : · x$ = ye
1, 22

Währungskurs vom 11.02.2018, 13:39 Uhr.

57 / 425
Topologische und metrische Skalen

I Häufig wird zwischen topologischen und metrischen Skalenniveaus


unterschieden.
I Topologische Skalen: Nominal- und Ordinalskala
I Metrische (oder auch kardinale) Skalen: Intervall-, Ratio- und
Absolutskala
I Diese Unterscheidung ist relevant, da viele statistische Verfahren erst
ab der Intervallskala möglich sind.
Beispiele:
I Mittelwerte lassen sich nur sinnvoll für Variablen berechnen, die
mindestens intervallskaliert sind.
I Relative Häufigkeiten machen auch bei nominalskalierten Variablen
Sinn.
I Mehr dazu in den nächsten zwei Wochen. Dann beschäftigen wir uns
mit der (univariaten) Beschreibung von Variablen.

58 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Kapitel 2.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 1.3.
Bortz & Schuster (2010): Statistik für Human- und
Sozialwissenschaftler. 7. Auflage. Berlin/ Heidelberg: Springer,
Abschnitt 1.2 und 1.3.

59 / 425
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Häufigkeitsverteilungen

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#3

60 / 425
Kurze Erinnerung

I Letzte Woche haben wir über Grundbegriffe der Statistik gesprochen.


I Außerdem haben wir uns mit Skalenniveaus beschäftigt:
I Nominalskala
I Ordinalskala
I Intervallskala
I Ratio- und Absolutskala
I Heute beschäftigen wir uns mit Häufigkeitsverteilungen und
grafischen Darstellungen derartiger Verteilungen.

61 / 425
Univariate Deskription

I Univariate Deskription: Statistische Beschreibung einer einzelnen


Variablen.
I Vor jeder statistischen Analyse sollten die univariaten Verteilungen aller
Variablen angesehen werden.
I Hierdurch können ggf. Fehler in den Daten identifiziert und korrigiert
werden.
I Die Verteilungen haben ggf. Konsequenzen für die weitere statistische
Analyse.
Beispiel: Zusammenhang von Arbeitslosigkeit und Parteipräferenz lässt
sich nur analysieren wenn Sample Arbeitslose enthält.
I Univariate Verteilungen sind ggf. auch an sich von Interesse.
Beispiele:
I Parteipräferenzen (Prognose der Wahlergebnisse)
I Zahl der Kinder (Vorhersage demografischer Trends)
I Verteilung der Erwerbseinkommen (z.B. zur Analyse von
Einkommensungleichheit)

62 / 425
Häufigkeitsverteilungen

I Häufigkeit: Wie oft kommt eine bestimmte Ausprägung in einem


Datensatz vor?
Beispiel: Wie viele FDP-Wähler*innen sind in dem Datensatz
vorhanden? (Abzählen)
I Häufigkeitsverteilung: Beschreibung der Häufigkeiten der
(beobachteten) Merkmalsausprägungen einer Variablen.
Beispiel: Häufigkeiten der unterschiedlichen Parteipräferenzen.
I Häufigkeitsauszählungen sind für Variablen aller Skalenniveaus
möglich (ab Nominalskala). Aber nicht immer sinnvoll!
Beispiele:
I Häufigkeitsverteilung von Einkommen? Nur nach Kategorisierung
sinnvoll.
I Häufigkeitsverteilung der Parteipräferenzen? Häufig begrenzt auf
Parteien über 5%-Hürde, Rest in Sonstige Parteien“zusammengefasst.

I Stata Example 2 (frequency tables.do)

63 / 425
Häufigkeitsverteilung in Stata

. tabulate party_voted_DE
party_voted_DE | Freq. Percent Cum.
-----------------------+-----------------------------------
CDU/CSU | 693 37.30 37.30
SPD | 507 27.29 64.59
Die Linke | 193 10.39 74.97
Bündnis 90/ Die Grünen | 242 13.02 88.00
FDP | 110 5.92 93.92
AfD | 58 3.12 97.04
Piratenpartei | 20 1.08 98.12
NPD | 10 0.54 98.65
Andere Partei | 25 1.35 100.00
-----------------------+-----------------------------------
Total | 1,858 100.00
Relative Kumulative
Absolute
Quelle: ESS 8, Edition 1.0 Häufigkeiten relative
Häufigkeiten
(in %) Häufigkeiten
64 / 425
Häufigkeitsverteilungen -
formale Definition

I Die Auflistung der Werte xi , i = 1, . . . , n wird als Urliste bezeichnet


(Roh- oder Primärdaten): Urliste = x1 , . . . , xi , . . . , xn .
I Sind die Beobachtungen der Größe nach geordnet, sprechen wir von
einer geordneten Urliste: x1 ≤, . . . , ≤ xi ≤, . . . , ≤ xn .
I Durch die Auszählung der Häufigkeiten der einzelnen Ausprägungen
aj , j = 1, . . . , k, kann die Urliste zu den sog. Häufigkeitsdaten
zusammengefasst werden.
I Die Häufigkeitsdaten werden in Häufigkeitstabellen dargestellt.

65 / 425
Häufigkeitsverteilungen - formale
Definition

I Eine Häufigkeitstabelle kann für die Ausprägungen aj , j = 1, . . . , k


folgende Angaben enthalten:
h(aj ) = hj absolute Häufigkeit der Ausprägung aj
h
f (aj ) = fj = nj relative Häufigkeit der Ausprägung aj
H(aj ) = Hj absolute kumulierte Häufigkeit bis (und inkl.) aj
Hj
F (aj ) = Fj = n relative kumulierte Häufigkeit bis (und inkl.) aj
I Dabei gilt:
h1 + h2 + · · · + hk = n
f1 + f2 + · · · + fk = 1
I Relative Häufigkeiten haben Werte zwischen 0 und 1 und können in
Prozent ausgedrückt werden (×100).

66 / 425
Die Häufigkeitstabelle - Abstrakte
Darstellung

Tabelle 11: Aufbau einer Häufigkeitstabelle


aj hj fj Hj Fj
a1 h1 f1 = h1/n H1 = h1 F1 = H1/n
a2 h2 f2 = h2/n H2 = h1 + h2 F2 = H2/n
.. .. .. .. ..
. . . . .
ak hk fk = hk/n Hk = h1 + h2 + · · · + hk Fk = Hk/n
n 1
P

Pj
I Alternative Schreibweise für Hj : Hj = i=1 hi
Pj
I Alternative Schreibweise für Fj : Fj = 1
n i=1 hi
I (siehe Exkurs Summenzeichen)

67 / 425
Kumulierte Häufigkeiten

I Kumulierte Häufigkeiten sind typischerweise nur bei mindestens


ordinalskalierten Variablen informativ.
Beispiele:
I Likert-Skala: 24% der Befragten stimmen der Aussage A voll und

ganz oder teilweise zu.“Sinnvoll!
I Alter kategorisiert: 68% der Bevölkerung sind 64 Jahre oder

jünger.“Sinnvoll!
I Parteipräferenz: Kumulierte Wahrscheinlichkeiten sind hier nicht
sinnvoll, da die Reihenfolge der Kategorien beliebig ist.

68 / 425
Die Häufigkeitstabelle: Ein Beispiel

I Analyse des Items To what extent do you think people of a different



race or ethnic group from most German people should be allowed to
come and live here?“(Quelle: ESS 8, Edition 1.0, Deutschland).

Tabelle 12: Häufigkeitstabelle für Variable imdfetn


aj hj fj Hj Fj
1 (Allow many) 623 0, 2212 623 0, 2212
2 (Allow some) 1.383 0, 4911 2.006 0, 7124
3 (Allow few) 686 0, 2436 2.692 0, 9560
4 (Allow none) 124 0, 0440 2.816 1, 0000
2.816 1, 0000
P

Quelle: ESS 8, Edition 1.0.

69 / 425
Exkurs: Das Summenzeichen

n
xi = x1 + x2 + · · · + xn
X

i=1
I i = Laufparameter (mit Startwert=1)
I n = Endwert des Laufparameters
I xi = Summand

70 / 425
Das Summenzeichen: Ein Beispiel

I Beispiel: Datenmatrix mit n = 4 Fällen und einer Variable (Alter)

Tabelle 13: Alter von n=4 Befragten


ID Alter
1 78
2 77
3 74
4 80

71 / 425
Das Summenzeichen: Ein Beispiel

i xi
1 78
2 77
3 74
4 80

4
xi = x1 + x2 + x3 + x4
X

i=1
4
xi = 78 + 77 + 74 + 80 = 309
X

i=1

72 / 425
Das Summenzeichen - formale Definition

Definition des Summenzeichens


n
xi = x1 + x2 + · · · + xn
X

i=1

73 / 425
Kurzübung 3

Kurzübung zur Häufigkeitstabelle


Füllen Sie die fehlenden Zellen der folgenden Häufigkeitstabelle!

Tabelle 14: Kurzübung: Häufigkeitstabelle Parteipräferenz


aj hj fj Hj Fj
1 CDU 358
2 SPD 255
3 Grüne 144
4 Linke 90
5 FDP
1.000
P

74 / 425
Grafische Darstellungen von Häufigkeiten

I Darstellungen von Häufigkeiten in tabellarischer Form sind oft


unübersichtlich.
I Wichtige Eigenschaften von Verteilungen sind aus Tabellen oft nur
schwer herauszulesen.
I Grafische Darstellungen können helfen, wichtige Eigenschaften von
Verteilungen darzustellen.
I Unterschiedliche Variablen (und Zusammenhänge) bedürfen
unterschiedlicher grafischer Darstellungen.
I Die Wahl der richtigen“Grafik sollte gut überlegt sein.

I Grafiken sind nicht per se empfehlenswert, sondern müssen sinnvoll
eingesetzt werden.

75 / 425
Grafische Darstellungen -
ein paar Beispiele

Sinnvoll!

Abbildung 7: Kreisdiagramm der Parteipräferenz

6.30%
11.06%

39.71%
13.87%

29.05%

CDU/CSU SPD
Bündnis 90/ Die Grünen Die Linke
FDP

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Nur Parteien über 5%.
76 / 425
Grafische Darstellungen -
ein paar Beispiele

Sinnvoll! Aber nicht unbedingt notwendig!

Abbildung 8: Kreisdiagramm der Geschlechterverteilung

47.12%
52.88%

Male Female

Quelle: ESS 8, Edition 1.0.

77 / 425
Grafische Darstellungen -
ein paar Beispiele

Nicht sinnvoll!

Abbildung 9: Kreisdiagramm Alter

0.07%
0.04%
0.81%
0.11%
0.07%
0.18%
0.21%
0.25%
0.39%
0.18%
0.49%
0.42%
0.88%
0.95% 1.54%
2.07%
1.02%
1.12% 1.19%
1.47%
1.47%
1.23% 1.19%
1.12% 1.19%
1.26%
0.81%
1.16% 1.40%
0.91% 1.30%
1.33% 1.12%
1.23% 1.02%
1.16% 1.23%
1.44% 1.05%
1.68% 1.47%
1.19%
1.65% 1.90%
2.00% 1.12%
1.65% 1.51%
1.83% 1.33%
1.61%
1.79%
1.68%
1.68% 1.33%
1.79% 1.51%
1.79% 1.51%
1.83% 1.26%
1.23%
1.68% 1.30%
2.42% 1.40%
1.23%
1.16%
2.18% 1.72%
2.07% 1.44%
2.18%
2.25% 2.11%
2.18%
2.07%

Quelle: ESS 8, Edition 1.0.

78 / 425
Grafische Darstellungen -
ein paar Beispiele

Abbildung 10: Säulendiagramm der Parteipräferenz


40
39.71
30

29.05
Prozent
20

13.87
10

11.06

6.30
0

SU

P
ne

nk

FD
SP
/C

Li

U

ie
D

D
ie
C

/D
90
s
ni
nd

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Nur Parteien über 5%.

79 / 425
Grafische Darstellungen -
ein paar Beispiele

Balken- und Säulendiagramme sind identisch (um 90◦ rotiert)

Abbildung 11: Balkendiagramm der Parteipräferenz

CDU/CSU 39.71

SPD 29.05

Bündnis 90/ Die Grünen 13.87

Die Linke 11.06

FDP 6.30

0 10 20 30 40
Prozent

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Nur Parteien über 5%.
80 / 425
Grafische Darstellungen -
ein paar Beispiele

Bedingt sinnvoll!

Abbildung 12: Streifendiagramm der Einwanderungspräferenzen


1

0.04
0.24
.8

0.49
.6
Anteil
.4
.2

0.22
0

Allow many Allow some


Allow few Allow none

Quelle: ESS 8, Edition 1.0.

81 / 425
Grafische Darstellungen -
ein paar Beispiele
Streifendiagramme werden in der Regel zum Vergleich von Verteilungen
über mehrere Gruppen (Kategorien) verwendet.

Abbildung 13: Streifendiagramm der Einwanderungspräferenzen nach Geschlecht


1

0.04 0.05
0.23 0.25
.8

0.50
0.48
.6
Anteil
.4
.2

0.22 0.22
0

Männer Frauen

Allow many Allow some


Allow few Allow none

Quelle: ESS 8, Edition 1.0.


82 / 425
Darstellung von Variablen mit
wenigen Ausprägungen

I Variablen mit wenigen Ausprägungen lassen sich besonders gut mit


Balken-, Säulen-, Kreis- und Streifendiagrammen darstellen.
I Diese Diagramme zeigen die (absoluten oder relativen) Häufigkeiten
einzelner Ausprägungen/ Kategorien (aj ).
I Insbesondere nominal und ordinal skalierte Variablen müssen als
Häufigkeitsauszählungen dargestellt werden.
I Intervall-, ratio- und absolutskalierte Variablen können als
Häufigkeiten dargestellt werden.
I Bei wenigen Ausprägungen (Beispiel: Schulnoten) einfach.
I Bei vielen Ausprägungen (Beispiel: Einkommen, Alter) nur nach
Kategorisierung. Stata Example 3 (frequency tables.do)
I Alternativ können Variablen mit vielen Ausprägungen durch andere
Diagramme dargestellt werden (siehe nächste Woche).

83 / 425
Darstellung kumulierter Verteilungen
Darstellung der empirischen Verteilungsfunktion/ kumulierten relativen
Häufigkeitsverteilung als Treppenfunktion:
Pj
F (x ) = f (a1 ) + · · · + f (aj ) = i=1 fi , mit aj ≤ x < aj+1

Abbildung 14: Empirische Verteilungsfunktion der allgemeinbildenden Abschlüsse 1


Empirische kumulierte (relative) Verteilungsfunktion

Abitur
Fachabitur
.8

Realschule
.4 .6

Hauptschule
.2

Förderschule
Grundschule
kein Abschluss
0

1 2 3 4 5 6 7
Höchster Schulabschluss

Quelle: ESS 8, Edition 1.0.


84 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.1.1, Abschnitt 3.1.2 und Anhang A.6.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.1.
I Zum Summenzeichen:
Bortz & Schuster (2010): Statistik für Human- und
Sozialwissenschaftler. 7. Auflage. Berlin/ Heidelberg: Springer, Exkurs
2.1 (S. 27).

85 / 425
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Lagemaße

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#4

86 / 425
Kurze Erinnerung

I Letzte Woche haben wir über Häufigkeiten und ihre unterschiedlichen


Darstellungsformen in Häufigkeitstabellen gesprochen:
I Absolute Häufigkeiten
I Relative Häufigkeiten
I Kummulierte Häufigkeiten
I Heute beschäftigen wir uns mit Lagemaßen, die sich zur Beschreibung
von topologischen und metrischen Variablen eignen.

87 / 425
Lage- und Streuungsmaße

I Lage- und Streuungsmaße sind Maßzahlen zur Beschreibung von


Eigenschaften einer Verteilung.
I Dadurch wird die Information aus den Rohdaten verdichtet, was einen
(quantitativen) Vergleich zwischen Verteilungen ermöglicht.
Beispiel: Wie unterscheidet sich das durchschnittliche Einkommen von
Männern und Frauen?
I Welche Maßzahlen zulässig sind, hängt vom Skalenniveau der
Variable ab!

88 / 425
Arten von Maßzahlen

I Lagemaße beschreiben das Zentrum der Daten (auch Maße der


zentralen Tendenz genannt).
I Streuungsmaße beschreiben die Streuung/ Variation der Daten um
das Zentrum (auch Dispersionsmaße genannt).
I Maße der Schiefe und Wölbung beschreiben die Form von
Verteilungen (z.B. Symmetrie).
I Konzentrationsmaße beschreiben die Verteilung der Datensumme auf
die Merkmalsträger (Beispiel: Konzentration von Vermögen).

89 / 425
Ein Beispiel: Die Normalverteilung

I Die Normalverteilung lässt sich durch zwei Maßzahlen beschreiben


(mehr zu theoretischen Verteilungen im Abschnitt Inferenzstatistik).
I Dichtefunktion der Normalverteilung (definiert Form):

1 (x − µ)2
!
f (x |µ, σ 2 ) = √ · exp −
2πσ 2 2σ 2

I µ und σ 2 definieren die Lage und Form der Verteilung.


I µ ist der Mittelwert
I σ ist die Standardabweichung bzw. σ 2 die Varianz

90 / 425
Ein Beispiel: Die Normalverteilung

Abbildung 15: Zwei Normalverteilungen mit identischem Mittelwert und


unterschiedlichen Varianzen
.4
.3
f(x)
.2
.1

σ=2 σ=1
µ=5
0

0 2 4 6 8 10
x

91 / 425
Ein Beispiel: Generalisiertes Vertrauen

Abbildung 16: Histogramm der Variable generalisiertes Vertrauen

.4
µ=0
.3
Dichte

σ = 1,28
.2.1
0

−4 −2 0 2 4
Generalisiertes Vertrauen

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Die Abbildung zeigt die Verteilung der Variable generalisiertes Vertrauen, die hier mit Hilfe von sog.
konfirmatorischen Messmodellen auf Basis von drei einzelnen Items/ Fragen gebildet wurde.

92 / 425
Ein Beispiel: Generalisiertes Vertrauen

Abbildung 17: Histogramme der Variable generalisiertes Vertrauen nach


Geschlecht

.4
Männer Frauen

.4
µ = 0,01 µ = −0,01
.3

.3
Dichte

Dichte
σ = 1,27 σ = 1,30
.2

.2
.1

.1
0

−4 −2 0 2 4 −4 −2 0 2 4
Generalisiertes Vertrauen Generalisiertes Vertrauen

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Die Abbildung zeigt die Verteilung der Variable generalisiertes Vertrauen, die hier mit Hilfe von sog.
konfirmatorischen Messmodellen auf Basis von drei einzelnen Items/ Fragen gebildet wurde.
93 / 425
Lagemaße: Modus/ Modalwert

I Der Modus xM einer Verteilung ist der häufigste Wert.

Tabelle 15: Häufigkeitstabelle und Modus der Variable imdfetn


aj hj fj Hj Fj
1 (Allow many) 623 0, 2212 623 0, 2212
2 (Allow some) 1.383 0, 4911 2.006 0, 7124
xM =2
3 (Allow few) 686 0, 2436 2.692 0, 9560
4 (Allow none) 124 0, 0440 2.816 1, 0000
2.816 1, 0000
P

Quelle: ESS 8, Edition 1.0.

94 / 425
Lagemaße: Modus/ Modalwert

I Formel für nicht-gruppierte Daten:


xM = {xj |hj = max hk bzw. fj = max f (xk )}
I Wenn hj = max hk nicht eindeutig, können zwei Modi angegeben
werden (xM1 und xM2 ).

Tabelle 16: Fiktive Häufigkeitstabelle mit zwei Modi


aj hj fj
1 (Allow many) 200 0, 1
2 (Allow some) 800 0, 4
xM1 = 2, xM2 =3
3 (Allow few) 800 0, 4
4 (Allow none) 200 0, 1
2.000 1, 0000
P

95 / 425
Lagemaße: Modus/ Modalwert

I Bei metrisch skalierten Variablen und multiplen Modi kann auch der
Mittelwert berechnet werden, wenn die Modi nebeneinander liegen.

Tabelle 17: Modus bei metrisch skalierten Variablen mit zwei Modi
Anzahl Kinder hj fj
0 1200 0, 24
1 1400 0, 28
2 1400 0, 28
3 600 0, 12
4 300 0, 06
5 und mehr 100 0, 02
5.000 1, 0000
P

I xM1 = 1, xM2 = 2 ⇒ xM = 1+2


2 = 1, 5

96 / 425
Lagemaße: Modus/ Modalwert

I Bei metrisch skalierten und gruppierten Variablen kann die Klasse mit
der höchsten Häufigkeit oder die Klassenmitte angegeben werden.

Tabelle 18: Modus bei gruppierten metrisch skalierten Variablen


Einkommen [cj−1 , cj ) hj fj
bis 2000 e 800 0, 20
2000 - 4000 e 1000 0, 25
xM = 2000+4000
2 = 3000 4000 - 6000 e 800 0, 20
6000 - 8000 e 800 0, 20
8000 und mehr e 600 0, 15
4.000 1, 0000
P

I Der Ausdruck [cj−1 , cj ) bezeichnet ein Intervall, das die Klassengrenze


cj−1 mit einschließt und die Klassengrenze cj ausschließt (eckige
Klammer = eingeschlossen, runde Klammer = ausgeschlossen).
97 / 425
Lagemaße: Modus/ Modalwert

I Häufigkeitstabelle des Bruttoerwerbseinkommens (Ausschnitt)


I xM = 6600. Sinnvoll?

6520 | 1 0.00 98.20


6550 | 1 0.00 98.20
6557 | 1 0.00 98.21
6600 | 5 0.02 98.23
6666 | 1 0.00 98.23
6670 | 1 0.00 98.24
6676 | 1 0.00 98.24
6700 | 4 0.02 98.26
6715 | 1 0.00 98.27
6730 | 1 0.00 98.27
6787 | 1 0.00 98.28
6800 | 4 0.02 98.30

Quelle: SOEP 2009.

98 / 425
Zusammenfassung: Modus/ Modalwert

I Der Modus lässt sich ab dem nominalen Skalenniveau bestimmten.


I Typischerweise nur bei diskreten Variablen sinnvoll.
I (Quasi-)stetige Variablen nur nach Klassifizierung/ Gruppierung.
I Probleme:
I Nur bei Verteilungen mit eindeutigem Zentrum sinnvoll (nicht bei bi-
oder multimodalen Verteilungen)
I Bei kleinem n durch Zufallsschwankungen beeinflusst.
I Bei (quasi-)stetigen und diskreten Variablen mit sehr vielen (dünn
besetzten) Ausprägungen.

99 / 425
Lagemaße: Median

I Der Median x̃ ist die mittlere Beobachtung der geordneten Urliste.


I Der Median teilt die Daten in zwei gleich große Hälften.
I Eine sinnvolle Interpretation des Medians setzt mindestens ordinal
skalierte Variablen voraus.
I Formel:
bei ungeraden n
(
x n+1
x̃ = 2

2 (x 2 + x 2 +1 ) bei geraden n
1 n n

100 / 425
Lagemaße: Median

Beispiel (mit ungeradem n):


I Urliste (n = 11):
2, 4, 3, 1, 1, 5, 4, 3, 2, 4, 1
I Geordnete Urliste:
1, 1, 1, 2, 2, 3, 3, 4, 4, 4, 5
| {z } | {z }
x̃ = 3
I Da n = 11 gilt
x̃ = x n+1 = x 11+1 = x6 = 3
2 2

101 / 425
Lagemaße: Median

Beispiel (mit geradem n):


I Urliste (n = 12):
2, 4, 3, 1, 1, 5, 4, 2, 2, 4, 1, 5
I Geordnete Urliste:

1, 1, 1, 2, 2, 2, 3, 4, 4, 4, 5, 5
| {z } | {z }

x̃ = 2, 5
I Da n = 12, gilt

1 1 1 2+3
x̃ = (x n2 + x n2 +1 ) = (x 12 + x 12 +1 ) = (x6 + x7 ) = = 2, 5
2 2 2 2 2 2

102 / 425
Grafische Bestimmung des Medians
Der Median lässt sich grafisch mit Hilfe der empirischen
Verteilungsfunktion bestimmen. Er entspricht der Ausprägung aj , für die
F (x ) = 0, 5 gilt.

Abbildung 18: Grafische Bestimmung des Medians 1


Empirische kumulierte (relative) Verteilungsfunktion

Abitur
Fachabitur
.8

Realschule
.4 .6

Hauptschule
.2

Förderschule
Grundschule
kein Abschluss
0

1 2 3 4 5 6 7
Höchster Schulabschluss

Quelle: ESS 8, Edition 1.0.


103 / 425
Zusammenfassung: Median

I Der Median lässt sich ab dem ordinalen Skalenniveau bestimmen.


I Der Median ist robust gegenüber extremen Werten (Ausreißer).
Beispiel: Alter der Teilnehmer*innen in einer Statistikklausur

19, 19, 19, 20, 20, 21, 21, 21, 67

I Der Median in diesem Beispiel ist x̃ = 20


I Der Mittelwert wäre x̄ = 227/9 = 25, 2
I Qualitätseigenschaft: Kleinster absoluter Gesamtabstand zu allen
anderen Werten, d.h.
n n
|xi − z| , für alle z
X X
|xi − x̃ | ≤
i=1 i=1

104 / 425
Lagemaße: Arithmetisches Mittel

I Das arithmetische Mittel ist die Summe aller Messwerte geteilt durch
ihre Anzahl.
I Das arithmetische Mittel wird auch oft als Durchschnitt oder
Mittelwert bezeichnet.
I Achtung: Es gibt auch das sog. geometrische und harmonische Mittel!
I Eine sinnvolle Interpretation setzt mindestens intervall-skalierte
Variablen voraus.
I Formel:
n
1X 1
x̄ = xi = (x1 + x2 + · · · + xn )
n i=1 n

105 / 425
Lagemaße: Arithmetisches Mittel

Beispiel:
I Urliste (n = 12):
2, 4, 3, 1, 1, 5, 4, 2, 2, 4, 1, 5
I Berechnung des arithmetischen Mittels:
12
1 X 1 34
x̄ = xi = (2+4+3+1+1+5+4+2+2+4+1+5) = = 2, 83
12 i=1 12 12

106 / 425
Das arithmetische Mittel (nochmal)

Tabelle 19: Roh- und


Häufigkeitsdaten eines fiktiven
Datensatzes
i xi Arithmetisches Mittel aus Rohdaten:
1 1 n
1X 1+2+2+2+3
2 2 x̄ = xi = =2
n i=1 5
3 2
4 2
5 3

aj hj Können wir das arithemtische Mittel auch


1 1 aus der Häufigkeitstabelle berechnen?
2 3
3 1
5
P

107 / 425
Das arithmetische Mittel (nochmal)

Tabelle 19: Roh- und


Häufigkeitsdaten eines fiktiven
Datensatzes
i xi Arithmetisches Mittel aus Rohdaten:
1 1 n
1X 1+2+2+2+3
2 2 x̄ = xi = =2
3 2 n i=1 5
4 2
5 3

aj hj Aus Häufigkeitstabelle:
1 1
2 3 1·1+3·2+1·3
=2
3 1 5
5
P

108 / 425
Arithmetisches Mittel aus
Häufigkeitsdaten

I Berechnung des arithmetischen Mittels aus Häufigkeitsdaten:

k k
1X
x̄ = aj hj =
X
aj f j
n j=1 j=1

Tabelle 20: Arithmetisches Mittel aus Häufigkeiten


aj hj fj aj · f j
1 1 0, 2 0, 2
2 3 0, 6 1, 2
3 1 0, 2 0, 6
5 1, 0 2, 0
P

109 / 425
Arithmetisches Mittel aus gruppierten
Häufigkeitsdaten
I Berechnung des arithmetischen Mittels aus Häufigkeitsdaten
gruppierter metrischer Variablen:
k k
1X cj−1 + cj
x̄ = mj hj = , mit mj =
X
mj fj
n j=1 j=1
2

Tabelle 21: Gruppierte Häufigkeitsdaten des Alters


Alter hj fj mj fj · m j
[cj−1 − cj )
20 − 30 24 0, 24 25 6
30 − 40 57 0, 57 35 19, 95
40 − 50 12 0, 12 45 5, 4
50 − 60 7 0, 07 55 3, 85
100 1, 0 35, 2
P

110 / 425
Arithmetisches Mittel aus
Gruppenmittelwerten

I Berechnung des arithmetischen Mittels aus r gruppenbezogenen


Mittelwerten:
r
1X
x̄ = nj x̄j
n j=1

Tabelle 22: Gruppenspezifische Mittelwerte - ein Beispiel


Wohnort (aj ) nj Einkommen (x̄j )
Ost 200 2000
West 600 3000
800
P

(200 · 2000) + (600 · 3000)


x̄ = = 2750
800

111 / 425
Zusammenfassung Arithmetisches Mittel

I Das arithmetische Mittel lässt sich sinnvoll für metrische Daten


analysieren.
I Das arithmetische Mittel ist sensibel gegenüber Ausreißern. Der
Grund liegt in seiner Qualitätseigenschaft.
I Schwerpunkteigenschaft:
n
(xi − x̄ ) = 0
X

i=1

I Qualitätseigenschaft: Minimierung der Abstandsquadrate, d.h.


n n
(xi − x̄ )2 ≤ (xi − z)2 , für alle z
X X

i=1 i=1

112 / 425
Kurzübung 4

Kurzübung zu
Lagemaßen symmetrische Verteilung

.4
(Think-Talk-Share)

.3
Schauen Sie sich die

.2
beiden Verteilungen

.1
an und versuchen Sie

0
Modus, Median und −4 −2 0 2 4 6

arithmetisches Mittel asymmetrische Verteilung


einzuzeichnen. Dabei
kommt es nicht auf .4
.3

die exakten Werte,


.2

sondern insbesondere
.1

auf die Reihenfolge


0

−4 −2 0 2 4 6
der Werte auf der
x-Achse an.
113 / 425
Grafishe Darstellung von
(quasi-)stetigen Variablen

I Variablen mit vielen Ausprägungen, die mindestens intervall-skaliert


sind, können in sogenannten Histogrammen dargestellt werden.
I Erinnere: Eine Möglichkeit zur Darstellung solcher Variablen ist die
Kategorisierung.
I Histogramme nehmen im Prinzip eine derartige Kategorisierung vor,
diese folgt aber einer fest definierten Methode.
I Die beobachteten Daten werden hierzu in k benachbarte Intervalle
zerlegt [c0 , c1 ) , [c1 , c2 ) , . . . , [ck−1 , ck )
I Über diese Intervalle werden dann Rechtecke der Breite dj = cj − cj−1
gebildet
I Die Fläche der Rechtecke ist proportional zur Häufigkeit hj (bzw. fj ).
Folglich ist die Höhe der Rechtecke hj/dj bzw. fj/dj
I Ist dj für alle j identisch, spiegelt die Höhe der Rechtecke die
Verhältnisse der Häufigkeiten wieder (default in vielen Programmen)

114 / 425
Konstruktion eines Histogramms

Abbildung 19: Konstruktion eines Histogramms

Quelle: In Anlehnung an Jann (2005), S. 24.

115 / 425
Finales Stata-Example

I Modus, Median und arithmetisches Mittel


I Histogramme
I Stata Example 4 (histogram.do)

116 / 425
Median und Mittelwert in Stata

. sum agea, de

Age of respondent, calculated


-------------------------------------------------------------
Percentiles Smallest
1% 16 15
5% 18 15
10% 22 15 Obs 2,849
25% 33 15 Sum of Wgt. 2,849

50% 50 Mean 48.55774


Largest Std. Dev. 18.49769
75% 63 93
90% 74 93 Variance 342.1646
95% 78 94 Skewness -.0319286
99% 85 94 Kurtosis 2.071834

Quelle: ESS 8, Edition 1.0.


117 / 425
Histogramme in Stata

histogram agea, xtitle(Alter in Jahren) ytitle(Dichte)


>bin(20)

Abbildung 20: Histogramm der Variable agea


.02
.015
Dichte
.01 .005
0

20 40 60 80 100
Alter in Jahren

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Statas default sind 30 Rechtecke. Hier wurde manuell auf 20 reduziert.

118 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.2.1 und Abschnitt 3.1.3.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.2.1.

119 / 425
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Lage- und Streuungsmaße

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#5

120 / 425
Kurze Erinnerung

I Letzte Woche haben wir über Häufigkeiten und ihre unterschiedlichen


Darstellungsformen in Häufigkeitstabellen gesprochen:
I Absolute Häufigkeiten
I Relative Häufigkeiten
I Kummulierte Häufigkeiten
I Außerdem haben wir uns mit einigen zentralen Lagemaßen
beschäftigt:
I Modus: Der häufigste Wert, zulässig ab Nominalskala
I Median: Der mittlere Wert einer geordneten Urliste, zulässig ab
Ordinalskala.
I Arithmetisches Mittel: Der durchschnittliche Wert (x̄ = 1/n ni=1 xi ),
P
zulässig ab Intervallskala.
I Heute beschäftigen wir uns weiter mit Lagemaßen, insbesondere aber
mit Streuungsmaßen.

121 / 425
Quantile

I Wir haben bereits den Median x̃ kennengelernt.


I Der Median teilt die Daten in der Mitte, d.h. es sind mindestens 50%
der Daten ≤ x̃ und mindestens 50% der Daten ≥ x̃
I Der Median wird daher auch als 50%-Quantil bezeichnet.
I Allgemein: Das p-Quantil xp (auch Perzentil) teilt die Daten so, dass
der Anteil p der Daten ≤ xp und der Anteil (1 − p) ≥ xp ist:

h(X ≤ xp ) h(X ≥ xp )
≥ p und ≥1−p
n n
bzw.
f (X ≤ xp ) ≥ p und f (X ≥ xp ) ≥ 1 − p
mit p ∈ [0, 1]

122 / 425
Häufig verwendete Quantile:
Median

I Median: p = 0, 50

Abbildung 21: Normalverteilung und 50%-Quantil


.4
.3
Dichte
.2
.1
0

x0,5

123 / 425
Häufig verwendete Quantile:
Quartile

I Quartile: p = 0, 25, p = 0, 50, p = 0, 75

Abbildung 22: Normalverteilung und Quartile


.4
.3
Dichte
.2
.1
0

x0,25 x0,50 x0,75

124 / 425
Häufig verwendete Quantile:
Quintile

I Quintile: p = 0, 20, p = 0, 40, p = 0, 60, p = 0, 80

Abbildung 23: Normalverteilung und Quintile


.4
.3
Dichte
.2
.1
0

x0,2 x0,4 x0,6 x0,8

125 / 425
Berechnung von Quantilen

I Aus der geordneten Urliste x1 ≤ x2 ≤ · · · ≤ xn wird das p-Quantil


bestimmt als
xp = x([np]G +1) , wenn np nicht ganzzahlig
xp ∈ [x(np) , x(np+1) ] = 21 (x(np) + x(np+1) ) , wenn np ganzzahlig

wobei [np]G die zu np nächste kleinere ganze Zahl ist.


I Wenn np ganzzahlig ist, liegt xp zwischen x(np) und x(np+1) :
I Hier (und in der Klausur), Berechnung wie beim Median:

x(np) + x(np+1)
xp =
2
I (Bessere) Alternative: Berechnung per linearer Interpolation. Siehe
dazu Jann (2005), S. 35f.

126 / 425
Berechnung von Quantilen - Beispiele

I Gegeben ist die Urliste 1, 2, 2, 4, 5, 5, 6, 8, 9, 11, 11, 13 (n = 12).


Gesucht sei das 25%-Quantil.
I np = 12 · 0, 25 = 3. Da np ganzzahlig,
I x0,25 ∈ [x3 , x4 ]. x3 = 2 und x4 = 4
I x0,25 = (2+4)/2 = 3
I Gegeben ist die Urliste 1, 2, 2, 4, 5, 5, 6, 8, 10, 11, 11 (n = 11). Gesucht
sei das 75%-Quantil.
I np = 11 · 0, 75 = 8, 25. Da np nicht ganzzahlig, gilt [np]G = 8 (aus
8, 25 wird 8)
I x0,75 = x(8+1) = x9 = 10

127 / 425
Grafische Darstellung von Quartilen -
der Box-Plot
I Box-Plots (auch Box-Whisker-Plots) stellen die Verteilung der
Quartile grafisch dar.

Abbildung 24: Der Box-Plot

x0,25 x0,50 x0,75

6 8 10 12 14

128 / 425
Der Box-Whisker-Plot im Detail

Abbildung 25: Elemente eines


1. Ausreißer: Beobachtungen
Box-Whisker-Plots
außerhalb des Intervalls
[x0,75 + 1, 5dQ , x0,25 − 1, 5dQ ]
mit dQ = x0,75 − x0,25 .
2. Whisker: Größter/ kleinster
Wert innerhalb des Intervalls
[x0,75 + 1, 5dQ , x0,25 − 1, 5dQ ].
x0,25 x0,50 x0,75

3. Oberes/ drittes Quartil: x0,75 .


4. Median/ zweites Quartil: x0,5 .
5. Unteres/ erstes Quartil: x0,25
6 8 10 12 14
norm

129 / 425
Box-Plots und Verteilungsformen

I Box-Plots geben Aufschluss über die Form einer Verteilung

Abbildung 26: Box-Plots bei symmetrischer und asymmetrischer Verteilung

x0,25 x0,50 x0,75 x0,25 x0,50 x0,75

6 8 10 12 14
norm 8 10 12 14 16

130 / 425
Zusammenfassung: Der Box-Plot

I Box-Plots geben Auskunft über die Verteilung der Quartile.


I Diese enthalten Informationen über die Form der Verteilung.
I Box-Plots eignen sich besonders gut zum Vergleich von Verteilungen
über die Kategorien anderer Variablen.
I Stata Example 5 (boxplots.do)

131 / 425
Box-Whisker-Plots in Stata

graph box wkhtot, over(gndr, relabel(1"Männer" 2"Frauen"))


>noout note("") ytitle(Arbeitsstunden/Woche)

Abbildung 27: Arbeitsstunden/Woche nach Geschlecht.


60
Arbeitsstunden/Woche
20 0 40

Männer Frauen

Quelle: ESS 8, Edition 1.0. Anmerkungen: Grundgesamtheit ist die erwerbstätige Bevölkerung.
132 / 425
Warum Streuungsmaße?
I Lagemaße können nicht alle Unterschiede von Verteilungen erfassen.
I Streuungsmaße beschreiben die Streuung der Daten um das Zentrum.

Abbildung 28: Dichtefunktion: Arbeitsstunden/Woche nach Geschlecht


.04
.03
Dichte
.02

Männer
Frauen
.01

Median Frauen Median Männer


0

0 20 40 60 80 100
Arbeitsstunden/Woche

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Grundgesamtheit ist die erwerbstätige Bevölkerung.
133 / 425
Streuungsmaße:
Der Interquartilsabstand

I Der Interquartilsabstand gibt den Abstand zwischen dem 25%-Quantil


und dem 75%-Quantil an (die Breite der Box im Box-Plot).

dQ = x0,75 − x0,25 = Q3 − Q1

I Beispiel: Arbeitsstunden/Woche bei Männern und Frauen (vgl.


vorherige Folien):

dQM = x0,75 − x0,25 = 50 − 40 = 10


dQF = x0,75 − x0,25 = 42 − 25 = 17

Die Streuung ist bei Frauen größer als bei Männern (dQM < dQF ).

134 / 425
Streuungsmaße:
Quantilsabstände

I Abstände zwischen Quantilen lassen sich für mindestens ordinal


skalierte Variablen bestimmen.
I Da Differenzen aber erst ab Intervallskalenniveau sinnvoll interpretiert
werden können, sollten Quantilsabstände streng genommen erst ab
einem metrischen Messniveau berechnet werden.
I Neben dem Interquartilsabstand (dQ ) wird häufig auch der
Dezilsabstand (dD ) bestimmt:

dD = x0,9 − x0,1 = D9 − D1

135 / 425
Streuungsmaße: Die Spannweite

I Das einfachste Streuungsmaß ist die Spannweite:

R = xmax − xmin
I Die Spannweite ist . . .
I relativ informationsarm,
I anfällig gegenüber Ausreißern,
I nur für metrische Variablen zulässig,
I häufig nicht für Gruppenvergleiche geeignet, insb. wenn ein
befragungsbedingt eingeschränkter Merkmalsraum vorliegt.
Beispiel: Die Spannweite R im vorherigen Beispiel
(Arbeitsstunden/Woche) beträgt für Männer wie Frauen 100 Stunden.

136 / 425
Streuungsmaße: Abweichungen von
einem Referenzwert

I Eine naheliegende Art der Quantifizierung von Dispersion ist die


Berechnung der durchschnittlichen Abweichung von einem Maß der
zentralen Tendenz.
I Wie kann das gehen? So. . . ?

Tabelle 23: Abweichungen vom Mittelwert als Maß der Streuung I


i xi x̄ xi − x̄
1 1 3 −2
2 3 3 0
3 5 3 2
9 0
P

137 / 425
Streuungsmaße: Abweichungen von
einem Referenzwert

I Eine naheliegende Art der Quantifizierung von Dispersion ist die


Berechnung der durchschnittlichen Abweichung von einem Maß der
zentralen Tendenz.
I Wie kann das gehen? So. . . ?

Tabelle 24: Abweichungen vom Mittelwert als Maß der Streuung II


i xi x̄ xi − x̄
1 0, 44 0, 847 −0, 407
2 1, 21 0, 847 0, 363
3 0, 89 0, 847 0, 043
2, 54 ≈0
P

138 / 425
Streuungsmaße: Abweichungen von
einem Referenzwert

I Eine naheliegende Art der Quantifizierung von Dispersion ist die


Berechnung der durchschnittlichen Abweichung von einem Maß der
zentralen Tendenz.
I Die Summe aller Abweichungen vom Mittelwert ist immer 0.
I Der Grund liegt in der Schwerpunkteigenschaft des arithmetischen
Mittels:
n
(xi − x̄ ) = 0
X

i=1
I Folglich ist die durchschnittliche Abweichung vom Mittelwert
ebenfalls 0.

139 / 425
Streuungsmaße: Mittlere absolute
Abweichung und Varianz

I Gesucht ist eine Statistik, die Abweichungen vom Mittelwert


quantifiziert und deren Summe nicht 0 ist.
I Wie kann das gehen? So:

Tabelle 25: Absolute und quadrierte Abweichungen vom Mittelwert


i xi x̄ |xi − x̄ | (xi − x̄ )2
1 1 3 2 4
2 3 3 0 0
3 5 3 2 4
9 4 8
P

I Der Mittelwert der absoluten Abweichungen ist 4/3 ≈ 1, 332, der


Mittelwert der quadrierten Abweichungen ist 8/3 ≈ 2, 667.
140 / 425
Streuungsmaße:
Mittlere absolute Abweichung

I Die mittlere absolute Abweichung (Average Deviation) gibt die


durchschnittliche Abweichung vom arithmetischen Mittel an:
n
1X
AD = |xi − x̄ |
n i=1

I Sie kann auch aus Häufigkeitsdaten berechnet werden:

k k
1X
AD = hj |aj − x̄ | =
X
fj |aj − x̄ |
n j=1 j=1

I Die mittlere absolute Abweichung lässt sich auch in Bezug auf andere
Maße der zentralen Tendenz berechnen (z.B. dem Median x̃ ).

141 / 425
Streuungsmaße:
Varianz und Standardabweichung

I Die Varianz gibt die durchschnittliche quadrierte Abweichung vom


arithmetischen Mittel an:
n
1X
s2 = (xi − x̄ )2
n i=1

I Die Standardabweichung ist als Quadratwurzel der Varianz definiert:


v
√ n
u1 X
u
s= s =t
2 (xi − x̄ )2
n i=1

142 / 425
Kurzübung 5

Kurzübung zu Streuungsmaßen
Schauen Sie sich die folgende Tabelle an und berechnen Sie Varianz und
Standardabweichung der Einkommen.

Tabelle 26: Netto-Erwerbseinkommen von 4 (fiktiven) Individuen

i Einkommen in e
1 2.487
2 1.967
3 2.956
4 1.123

143 / 425
Streuungsmaße: Alternative
Formeln für Varianz

I Die Varianz lässt sich auch mit einer alternativen Formel berechnen,
die häufig rechengünstiger ist (zur Herleitung vgl. Jann (2005), S.
45):
n
1
!
s2 =
X
x 2 − x̄ 2
n i=1 i
I Aus Häufigkeitsdaten kann die Varianz ebenfalls berechnet werden:

k k
1X
s2 = hj (aj − x̄ )2 = fj (aj − x̄ )2
X
n j=1 j=1

144 / 425
Streuungsmaße:
Stichprobenvarianz

I Die bisher betrachtete Varianz wird auch empirische Varianz genannt.


I Daneben gibt es die Stichprobenvarianz:
n
1 X
s2 = (xi − x̄ )2
n − 1 i=1

I Diese ist insbesondere in der Inferenzstatistik von Bedeutung.


I Die meisten Programme (inkl. Stata) berechnen standardmäßig die
Stichprobenvarianz.
I Bei großen n ist der Unterschied gering, bei kleinen n kann er groß
sein.

145 / 425
Zusammenfassung: Varianz und
Standardabweichung

I Varianz und Standardabweichung sind ab dem Intervall-Skalenniveau


sinnvoll zu interpretieren.
I Die Varianz (bzw. Standardabweichung) ist das am häufigsten
verwendete Streuungsmaß.
I Varianz und Standardabweichung reagieren sensibel auf Ausreißer.
Ursache ist die Quadrierung, durch die extreme Werte mit höherem
Gewicht in die Maßzahl eingehen.
I Die Einheiten der Varianz unterscheiden sich von den Einheiten der
analysierten Variable. Beispiel: Die Variable Einkommen ist in e
gemessen (oder in $). Dann ist die Varianz in e2 (bzw. $2 ) gemessen.

I Die Standardabweichung (s = s 2 ) normiert wieder auf die

ursprünglichen Einheiten ( e2 = e).

146 / 425
Warum sind Mittelwert und
Varianz so zentral?
I Die Kombination aus Mittelwert und Varianz beschreibt eine
(unimodale, symmetrische) Verteilung relativ gut.
Beispiel: Verteilung der wöchentlichen Arbeitsstunden von Männern
und Frauen unter Annahme einer Normalverteilung mit den
empirischen Mittelwerten und Varianzen.

Abbildung 29: Arbeitszeiten von Männern und Frauen


.03

.04
.03
.02

Frauen Männer
Dichte
f(x)

.02

Männer
Frauen
.01

.01

Median Frauen Median Männer


0

0 20 40 60 80 100 0 20 40 60 80 100
x Arbeitsstunden/Woche
147 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.2.2.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.2.2. und 2.2.3.

148 / 425
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Konzentrationsmaße

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#6

149 / 425
Kurze Erinnerung

I Letzte Woche haben wir uns mit Streuungsmaßen beschäftigt:


I Quantilsabstände: Abstand ausgewählter Quantile, zulässig ab
Intervallskala
I Mittlere Absolute Abweichung: Basiert auf Summe der absoluten
Abweichungen vom Mittelwert, ab Intervallskala.
I Varianz und Standardabweichung: Basiert auf Summe der quadrierten
Abweichungen, zulässig ab Intervallskala.
I Heute beschäftigen wir uns mit Konzentrationsmaßen.

150 / 425
Streuungsmaße bei Variablen mit
topologischem Skalenniveau

I Für Variablen mit topologischem Skalenniveau lässt sich im Prinzip


nur angeben, ob die Häufigkeiten der verschiedenen Kategorien eher
gleich oder eher ungleich verteilt sind.
I Ein Maß hierfür ist das Herfindahl-Streuungsmaß:

k  2 k
hj
HF = 1 − =1−
X X
fj 2
j=1
n j=1

151 / 425
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele

I Im Beispiel unten konzentrieren sich fast alle Beobachtungen auf eine


Kategorie (a2 = 2). Die Summe der quadrierten relativen
Häufigkeiten ist 0, 66, entsprechend ist HF = 1 − 0, 66 = 0, 34.

Tabelle 27: Berechnung des Herfindahl-Streuungsmaß - Beispiel I


aj hj fj fj 2
1 1 0, 1 0, 01
2 8 0, 8 0, 64
3 1 0, 1 0, 01
10 1, 0 0, 66
P

152 / 425
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele

I In diesem Beispiel konzentrieren sich alle Beobachtungen auf eine


Kategorie (aj = 2). Die Summe der quadrierten relativen Häufigkeiten
ist daher 1, entsprechend ist HF = 1 − 1 = 0.

Tabelle 28: Berechnung des Herfindahl-Streuungsmaß - Beispiel II


aj hj fj fj 2
1 0 0, 0 0, 0
2 10 1, 0 1, 0
3 0 0, 0 0, 0
10 1, 0 1, 0
P

153 / 425
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele

I In diesem Beispiel verteilen sich die Beobachtungen relativ


gleichmäßig auf die Kategorien j. Die Summe der quadrierten
relativen Häufigkeiten ist 0, 34, entsprechend ist
HF = 1 − 0, 34 = 0, 66.

Tabelle 29: Berechnung des Herfindahl-Streuungsmaß - Beispiel III


aj hj fj fj 2
1 3 0, 3 0, 09
2 4 0, 4 0, 16
3 3 0, 3 0, 09
10 1, 0 0, 34
P

154 / 425
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele

I In beiden Tabellen besteht eine perfekte Gleichverteilung bzw.


maximale Streuung, d.h. es entfällt jeweils eine Beobachtung auf eine
Kategorie.
I Bei k = 3 Kategorien ergibt sich HF = 1 − 0, 33 = 0, 67
I Bei k = 4 Kategorien ergibt sich dagegen HF = 1 − 0, 25 = 0, 75

Tabelle 30: Berechnung des Herfindahl-Streuungsmaß - Beispiel IV


aj hj fj fj 2
aj hj fj fj 2
1 1 0, 25 0, 0625
1 1 0, 332 0, 11
2 1 0, 25 0, 0625
2 1 0, 332 0, 11
3 1 0, 25 0, 0625
3 1 0, 332 0, 11
4 1 0, 25 0, 0625
3 ≈ 1, 0 0, 33
P
4 1, 0 0, 25
P

155 / 425
Streuungsmaße:
Herfindahl-Streuungsmaß

I Wenn alle Beobachtungen auf eine Kategorie entfallen, gilt immer


HF = 0.
I Folglich kann HF minimal den Wert 0 annehmen. Dies entspricht der
geringsten Streuung bzw. der höchsten Konzentration.
I Das Maximum von HF ist dagegen nicht klar definiert. Es ist
abhängig von der Zahl der Kategorien k: HFmax = k−1/k .
I Eine Lösung ist die Normierung des Merkmalsraums:

k
RHF = · HF , RHF ∈ [0, 1]
k −1

156 / 425
Praxishinweis

I Mittelwerte, Varianz und Standardabweichung sind aus Sicht der


formalen statistischen Theorie erst ab metrischem Skalenniveau
sinnvoll interpretierbar!
I In der Praxis werden diese Maßzahlen allerdings häufig auch für
ordinalskalierte Variablen berechnet.
I Klausurhinweis: Hier gilt die formale statistische Theorie!

157 / 425
Konzentrationsmaße

I Konzentrationsmaße beschreiben die Verteilung der Datensumme auf


die Merkmalsträger.
I Was heißt das? Konzentrationsmaße beschreiben die
(Verteilungs-)Ungleichheit zwischen den Untersuchungseinheiten.
Beispiele:
I Ungleichheit der Einkommen
I Ungleichheit der Vermögen
I Aber auch: Ungleichheit der Marktanteile von Unternehmen

158 / 425
Entwicklung der Einkommensungleichheit
in Deutschland
I Entwicklung der Einkommensungleichheit in Deutschland, gemessen
über den Gini-Koeffizienten (auch Gini-Index).

Abbildung 30: Gini-Index in Deutschland, 1983-2012

Quelle: SOEP v30; Corneo (2015): Kreuz und Quer durch die deutsche Einkommensverteilung. Perspektiven der
Wirtschaftspolitik, 16(2).
159 / 425
Entwicklung der Vermögensungleichheit
in Deutschland

Abbildung 31: Ungleichheit der Vermögen in Deutschland, 2002 und 2007

Quelle: SOEP; Frick & Grabka (2009): Gestiegene Vermögensungleichheit in Deutschland. DIW Wochenbericht, 76(4).
160 / 425
Konzentrationsmaße:
Dezilverhältnis

I Das einfachste Konzentrationsmaß ist das Dezilverhältnis (auch


Dezil-Ratio), das sich ab dem Niveau einer Ratioskala sinnvoll
berechnen lässt.
I Typischerweise wird das Verhältnis zwischen dem ersten und neunten
Dezil (D1 , D9 ) betrachtet:

D9 x0,9
DR = =
D1 x0,1
I Entsprechende Berechnungen lassen sich für beliebige p-Quantile
durchführen:
xp
QR = 1 , mit xp1 > xp2
xp2
I Stata Example 6 (inequality.do)

161 / 425
Einkommensungleichheit in Deutschland
Ergebnisse von Stata
I x0,9/x0,1 = 5400/1400 = 3, 86
I x0,99/x0,01 = 11000/495 = 22, 22

Abbildung 32: Bruttoeinkommensverteilung mit p-Quantilen


.0004
.0003
Dichte
.0002
.0001

x0,10 x0,90
x0,01 x0,99
0

0 5000 10000
Bruttoeinkommen / Monat

Quelle: SOEP 2009. Anmerkung: Nur Vollzeiterwerbstätige.


162 / 425
Lorenzkurve

I Quantilverhältnisse drücken Ungleichheit durch den Vergleich von


zwei Punkten in der Verteilung aus.
I Die Lorenzkurve beschreibt Ungleichheit über die gesamte Verteilung.

Abbildung 33: Lorenzkurve der Bruttoerwerbseinkommen


Gini = 0.31
1
Kummulierter Anteil am Gesamteinkommen
.2 .4 0 .6 .8

0 10 20 30 40 50 60 70 80 90 100
Bevölkerungsanteil (Dezile)

Quelle: SOEP 2009. Anmerkung: Nur Vollzeiterwerbstätige.


163 / 425
Konzentrationsmaße:
Lorenzkurve

I Die Lorenzkurve . . .
I trägt auf der Y-Achse den (kumulierten) Anteil an der Gesamtsumme
Pj
xi
ςj = Pni=1
x
i=1 i

und . . .
I auf der X-Achse den Anteil der Merkmalsträger

j
Fj =
n
. . . ab.
I Die Lorenzkurve ergibt sich dann als Streckenzug durch die Punkte
(0, 0), (F1 , ς1 ), (F2 , ς2 ), . . . , (Fn , ςn ) = (1, 1) und lässt sich für
mindestens ratio-skalierte Variablen berechnen.

164 / 425
Konzentrationsmaße: Lorenzkurve

I Einfacher: Welcher Anteil j der Bevölkerung (X-Achse) hat welchen


Anteil am Gesamteinkommen (Y-Achse)?
I Bei einer perfekten Gleichverteilung entspricht die Lorenzkurve der
Diagonalen durch die Punkte (0, 0) und (1, 1).
I Je ausgeprägter die Ungleichheit, desto größer wird die Abweichung
von der Diagonalen.
I Dabei weist die Lorenzkurve folgende Eigenschaften auf:
I Konvexität (nach unten gewölbt)
I Monotonie (Werte auf beiden Achsen bleiben gleich oder steigen,
können aber nicht kleiner werden.)
I In der Praxis wird die Lorenzkurve häufig nicht über die einzelnen
Beobachtungen (j = 1, . . . , n), sondern über Dezile, Quintile oder
Ähnliches gezeichnet.

165 / 425
Konzentrationsmaße:
Gini-Koeffizient

I Der Gini-Koeffizient beschreibt die Lorenzkurve nummerisch und lässt


sich ab dem Niveau einer Ratioskala sinnvoll interpretieren.
I Er entspricht dem Anteil der Fläche zwischen Diagonale und X-Achse,
der durch die Lorenzkurve eingenommen wird (auch: der doppelten
Fläche zwischen Diagonalen und Lorenzkurve).
I Der Gini-Koeffizient lässt sich aus der geordneten Urliste
x(1) ≤ · · · ≤ x(n) berechnen:

2 ni=1 ixi n+1


P
G= Pn −
n i=1 xi n

Dabei gilt Gmin = 0 und Gmax = n−1/n.

166 / 425
Lorenzkurve und Gini-Koeffizient -
Beispiele
I Vier (fiktive) Beispiele: Lorenzkurve und Gini-Koeffizienten.

Abbildung 34: Lorenzkurven und Gini-Koeffizienten - (fiktive) Beispiele


Kummulierter Anteil an Gesamtsumme

Kummulierter Anteil an Gesamtsumme


Gini = 0.34 Gini = 0.28
1

1
.8

.8
.6

.6
.4

.4
.2

.2
0

0
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Anteil Merkmalsträger Anteil Merkmalsträger
Kummulierter Anteil an Gesamtsumme

Gini = 0.40 Kummulierter Anteil an Gesamtsumme Gini = 0.90


1

1
.8

.8
.6

.6
.4

.4
.2

.2
0

0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Anteil Merkmalsträger Anteil Merkmalsträger

167 / 425
Lorenzkurve und Gini-Koeffizient -
Beispielberechnung

I Berechnen des Streckenzugs der Lorenzkurve

Tabelle 31: Streckenzug der Lorenzkurve berechnen


i xi Fj ςj
1 60 ( nj = 5)
1
= 0, 2 ( 500
60
) = 0, 12
2 80 ( nj = 5)
2
= 0, 4 ( 500 )
140
= 0, 28
3 100 ( nj = 5)
3
= 0, 6 ( 240
500 ) = 0, 48
4 120 ( nj = 5)
4
= 0, 8 ( 360
500 ) = 0, 72
5 140 ( nj = 5)
5
= 1, 0 ( 500 )
500
= 1, 00
500
P

168 / 425
Lorenzkurve und Gini-Koeffizient -
Beispielberechnung
I Abtragen der Lorenzkurve entsprechend des berechneten
Streckenzugs.

Abbildung 35: Lorenzkurve aus Rechenbeispiel


1
Kummulierter Anteil an Gesamtsumme
.2 .4 0 .6 .8

0 10 20 30 40 50 60 70 80 90 100
Anteil Merkmalsträger

169 / 425
Lorenzkurve und Gini-Koeffizient -
Beispielberechnung

I Berechnung des Gini-Koeffizienten:

Tabelle 32: Berechnung des Gini-Koeffizienten


i xi i · xi
1 60 60
2 80 160
3 100 300
4 120 480
5 140 700
500 1700
P

2 n ixi n+1 2 · 1700 5 + 1 3400 6


P
G = Pi=1 − = − = − = 0, 16
n
n i=1 xi n 5 · 500 5 2500 5

170 / 425
Kurzübung 6

Kurzübung zu Lorenzkurven
1. Schauen Sie sich die beiden Lorenzkurven an und interpretieren Sie
diese.
2. Wie sehen wohl die Gini-Koeffizienten der beiden Lorenzkurven aus?

Abbildung 36: Lorenzkurve aus Rechenbeispiel


1

1
Kummulierter Anteil am Gesamteinkommen

Kummulierter Anteil am Gesamteinkommen


.8

.8
.6

.6
.4

.4
.2

.2
0

0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Anteil Bevölkerung Anteil Bevölkerung

171 / 425
Konzentrationsmaße:
Normierter Gini-Koeffizient

I Das Minimum des Gini-Koeffizienten ist Gmin = 0.


I Das Maximum des Gini-Koeffizienten beträgt Gmax = n−1/n.
I Normierung des Gini-Koeffizienten:

G n
G∗ = = · G , mit G ∗ ∈ [0, 1]
Gmax n−1

172 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.2.4.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.3.

173 / 425
Einführung in die sozialwissenschaftliche Statistik
Bivariate Deskription: Kreuztabellen und Zusammenhangsmaße

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#7

174 / 425
Kurze Erinnerung

I Letzte Woche haben wir über Konzentrationsmaße gesprochen und


damit den Bereich der univariaten Deskription abgeschlossen.
I Konzentrationsmaße:
I Dezilverhältnisse: Verhältnis ausgewählter Dezile zueinander, zulässig
ab Ratioskala.
I Gini-Koeffizient: Beschreibt Konzentration der Daten über gesamten
Merkmalsraum, zulässig ab Ratioskala.
I Insgesamt kennen wir nun die zentralen Lagemaße:
I Modus: Der häufigste Wert, zulässig ab Nominalskala.
I Median: Der mittlere Wert einer geordneten Urliste, zulässig ab
Ordinalskala.
I Arithmetisches Mittel: Der durchschnittliche Wert (x̄ = 1/n ni=1 xi ),
P
zulässig ab Intervallskala.

175 / 425
Kurze Erinnerung

I Außerdem kennen wir die wichtigsten Streuungsmaße:


I Quantilsabstände: Abstände zwischen ausgewählten p-Quantilen,
zulässig ab metrischem Skalenniveau.
I Varianz: Beschreibt die durchschnittliche quadrierte Abweichung vom
Mittelwert, zulässig ab metrischem Skalenniveau.
I Standardabweichung: Entspricht der Wurzel der Varianz.
I Herfindahl-Streuungsmaß: Beschreibt die Streuung/ Konzentration bei
topologischen Skalen.
I Heute beginnen wir mit der bivariaten Deskription, also mit der
Beschreibung von Zusammenhängen zwischen zwei Variablen X und
Y . Zunächst betrachten wir Kreuztabellen.

176 / 425
Bivariate Datenanalyse

I Bivariate Analysen betrachten zwei Variablen X und Y gleichzeitig.


Beispiel: Einkommen (Y ) und Geschlecht (X ).
I Dabei wird gefragt, ob zwischen X und Y ein Zusammenhang
besteht.
I Wir unterscheiden hier zwischen . . .
I der (einfachen) Analyse von Zusammenhängen, und . . .
I der Kausalanalyse, in der wir davon ausgehen, dass ein Merkmal X (die
unabhängige Variable) eine Ursache für das Auftreten des anderen
Merkmals Y (der abhängigen Variablen) ist.
I Kausalanalysen sind mit Beobachtungsdaten sehr schwierig, mit
experimentellen Studien leichter.
I In der Einführung beschäftigen wir uns daher vornehmlich mit
einfachen Zusammenhängen.
I Einfache und kausale Zusammenhänge lassen sich in Maßzahlen des
Zusammenhangs ausdrücken.

177 / 425
Bivariate Datenanalyse

I Fragestellungen in der bivariaten Analyse:


I Besteht ein Zusammenhang und wie stark ist dieser?
I Welche Richtung weist ein Zusammenhang auf? Hierfür sind
mindestens ordinal-skalierte Variablen nötig.
I Ist der Zusammenhang kausal?
I Ist der Zusammenhang signifikant, d.h. gilt er auch in der
Grundgesamtheit oder kann er durch Stichprobenfehler erklärt werden?
Dazu mehr im Themenblock Inferenzstatistik.
I Die Auswahl des richtigen Zusammenhangsmaßes hängt ab von . . .
I dem Skalenniveau der beteiligten Variablen, und . . .
I bei mindestens ordinal-skalierten Variablen von der Art des
Zusammenhangs (linear oder nicht-linear).

178 / 425
Kreuztabellen

I Kreuztabellen (auch Kontingenztabellen) sind zwei-dimensionale


Häufigkeitstabellen.
I Sie eignen sich insbesondere für nominal- und ordinal-skalierte
Variablen mit wenigen Ausprägungen.
I Wie bei der Häufigkeitstabelle lassen sich auch metrische Variablen in
Kreuztabellen darstellen, diese müssen dann aber in der Regel
gruppiert werden. Beispiel: Zusammenhang von Alter und
Einkommen.
I Typischerweise wird die unabhängige Variable (X ) in den Spalten und
die abhängige Variable (Y ) in den Zeilen der Tabelle angeordnet. Wir
sprechen hier von der Zeilen- und der Spaltenvariable.
I Stata Example 7 (crosstable.do)

179 / 425
Kreuztabellen in Stata

. tabulate party_voted_DE gndr if party_voted_DE <7, cell nofre

| Gender
party_voted_DE | Male Female | Total
----------------------+----------------------+----------
CDU/CSU | 19.58 18.86 | 38.44
SPD | 15.31 12.81 | 28.12
Die Linke | 6.88 3.83 | 10.70
Bündnis 90/ Die Grüne | 6.77 6.66 | 13.42
FDP | 3.55 2.55 | 6.10
AfD | 2.11 1.11 | 3.22
----------------------+----------------------+----------
Total | 54.19 45.81 | 100.00

Quelle: ESS 8, Edition 1.0.

180 / 425
Die Kreuztabelle -
ein Beispiel
I Das Beispiel zeigt eine Kreuztabelle mit relativen Häufigkeiten.
I Im Beispiel ist die Parteipräferenz die Zeilenvariable und das
Geschlecht die Spaltenvariable.
Tabelle 33: Kreuztabelle - Parteipräferenz und Geschlecht
Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,1958 0,1886 0,3844
SPD 0,1531 0,1281 0,2812
Linke 0,0688 0,0383 0,1070
Grüne 0,0677 0,0666 0,1342
FDP 0,0355 0,0255 0,0610
AfD 0,0211 0,0111 0,0322
Gesamt 0,5419 0,4581 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
181 / 425
Die Kreuztabelle -
ein Beispiel
I Interpretation: Ein Anteil von 0,1958 (bzw. 19,58%) der Befragten ist
männlich und hat die CDU gewählt.
I Randhäufigkeiten: Ein Anteil von 0,5419 der Befragten ist männlich.
Tabelle 34: Kreuztabelle - Parteipräferenz und Geschlecht
Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,1958 0,1886 0,3844
SPD 0,1531 0,1281 0,2812
Linke 0,0688 0,0383 0,1070
Grüne 0,0677 0,0666 0,1342
FDP 0,0355 0,0255 0,0610
AfD 0,0211 0,0111 0,0322
Gesamt 0,5419 0,4581 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
182 / 425
Die Kreuztabelle -
relative Häufigkeiten

I Lässt sich aus dieser Tabelle der Zusammenhang zwischen


Parteipräferenz und Geschlecht ablesen?

Tabelle 35: Kreuztabelle - Parteipräferenz und Geschlecht


Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,1958 0,1886 0,3844
SPD 0,1531 0,1281 0,2812
Grüne 0,0688 0,0383 0,1070
Linke 0,0677 0,0666 0,1342
FDP 0,0355 0,0255 0,0610
AfD 0,0211 0,0111 0,0322
Gesamt 0,5419 0,4581 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
183 / 425
Die Kreuztabelle -
bedingte relative Häufigkeiten
I Nein! Dafür sind bedingte relative Häufigkeiten notwendig.
I Diese berechnen Anteile nicht über alle Zellen, sondern innerhalb
einzelner Zeilen/ Spalten; hier Spaltenanteile/-prozente.
Tabelle 36: Kreuztabelle - Parteipräferenz und Geschlecht
Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,3613 0,4116 0,3844
SPD 0,2825 0,2797 0,2812
Linke 0,1269 0,0835 0,1070
Grüne 0,1249 0,1453 0,1342
FDP 0,0655 0,0557 0,0610
AfD 0,0389 0,0242 0,0322
Gesamt 1,0000 1,0000 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
184 / 425
Die Kreuztabelle - bedingte und
unbedingte relative Häufigkeiten

I In einer Kreuztabelle können relative Häufigkeiten auf drei Arten


berechnet werden:
I Unbedingte Häufigkeiten (bzw. Prozente): Die einzelnen
Zellhäufigkeiten werden durch n geteilt.
I Bedingte relative Häufigkeiten (bzw. Prozente): Die einzelnen
Zellhäufigkeiten werden durch Randhäufigkeiten geteilt.
I Spaltenanteile/ -prozente: Die Häufigkeiten innerhalb einer Spalte
werden durch die Randhäufigkeit dieser Spalte geteilt.
I Zeilenanteile/ -prozente: Die Häufigkeiten innerhalb einer Zeile werden
durch die Randhäufigkeit dieser Zeile geteilt.
I Randhäufigkeiten entsprechen der Summe aller absoluten Häufigkeiten
in einer Zeile oder Spalte.
I Typischerweise werden Kreuztabellen mit Spaltenanteilen bzw.
-prozenten dargestellt. Dies folgt aus der Logik der abhängigen und
unabhängigen Variable: Wie bedingt (lese: beeinflusst) die unabhängige
Variable (Spalten) die Verteilung der abhängigen Variablen (Zeilen)?

185 / 425
Die Kreuztabelle - abstrakte Darstellung
absoluter Häufigkeiten
I Abstrakte Darstellung einer Kreuztabelle mit absoluten Häufigkeiten.
I hij gibt die absoluten Häufigkeiten der Kombination (ai , bj ) an
I hi. = m hij gibt die Randhäufigkeiten (Zeilensumme) von ai an
P
Pj=1
I h.j = ki=1 hij gibt die Randhäufigkeiten (Spaltensumme) von bj an
Tabelle 37: Kreuztabelle mit absoluten Häufigkeiten - abstrakte Darstellung
X Pm
Y j=1
b1 ··· bj ··· bm
a1 h11 ··· h1j ··· h1m h1.
.. .. .. .. . .. ..
. . . . .. . .
ai hi1 ··· hij ··· him hi.
.. .. . .. .. .. ..
. . .. . . . .
ak hk1 ··· hkj ··· hkm hk.
Pk
i=1 h.1 ··· h.j ··· h.m n
186 / 425
Die Kreuztabelle - abstrakte Darstellung
relativer Häufigkeiten
I Abstrakte Darstellung einer Kreuztabelle mit relativen Häufigkeiten.
I fij = hij/n
I fi. = m fij = hi./n
P
Pj=1
I f.j = ki=1 fij = h.j/n
Tabelle 38: Kreuztabelle mit relativen Häufigkeiten - abstrakte Darstellung
X Pm
Y j=1
b1 ··· bj ··· bm
a1 f11 ··· f1j ··· f1m f1.
.. .. .. .. . .. ..
. . . . .. . .
ai fi1 ··· fij ··· fim fi.
.. .. . .. .. .. ..
. . .. . . . .
ak fk1 ··· fkj ··· fkm fk.
1
Pk
i=1 f.1 ··· f.j ··· f.m
187 / 425
Die Kreuztabelle - abstrakte Darstellung
bedingter relativer Häufigkeiten
I Kreuztabelle mit bedingten relativen Häufigkeiten (Spaltenanteile).
I fY (ai |bj ) = fi|j = hij/h.j (bedingte relative Zellhäufigkeiten)
I fi. = m j=1 fij = /n (relative Randhäufigkeiten)
P
hi.

Tabelle 39: Kreuztabelle mit bedingten relativen Häufigkeiten


X
Y fi.
b1 ··· bj ··· bm
a1 fY (a1 |b1 ) ··· fY (a1 |bj ) ··· fY (a1 |bm ) f1.
.. .. .. .. . .. ..
. . . . .. . .
ai fY (ai |b1 ) ··· fY (ai |bj ) ··· fY (ai |bm ) fi.
.. .. . .. .. .. ..
. . .. . . . .
ak fY (ak |b1 ) ··· fY (ak |bj ) ··· fY (ak |bm ) fk.
1 1 1 1
Pk
i=1 ··· ···
188 / 425
Interpretation bedingter
relativer Häufigkeiten

I Ein etwaiger Zusammenhang zwischen X und Y lässt sich aus dem


Vergleich der bedingten relativen Häufigkeiten ablesen.
I Typischerweise werden hierfür Spaltenanteile/ -prozente verwendet.
I Frage: Ist die Verteilung der Kategorien der Variable Y
(a1 , a2 , . . . , ak ) abhängig von dem Wert der Variable X
(b1 , b2 , . . . , bk )?
I Wenn sich die Spaltenanteile unterscheiden, besteht ein
Zusammenhang
I Wenn sich die Spaltenanteile nicht unterscheiden, besteht kein
Zusammenhang

189 / 425
Kurzübung 7

Kurzübung zur Kreuztabelle


Schauen Sie sich die folgende Tabelle an, die absolute Häufigkeiten angibt,
und transformieren Sie diese Tabelle in . . .
1. eine Kreuztabelle mit relativen Häufigkeiten
2. eine Kreuztabelle mit bedingten relativen Häufigkeiten
(Spaltenanteile)

Tabelle 40: Kurzübung: Kreuztabelle - Geschlecht und AfD-Wahl


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93
Nein 354 422
Gesamt
Anmerkung: Zahlen basieren auf einem FAZ-Artikel über eine Infratest dimap-Umfrage. Die absoluten Häufigkeiten sind fiktiv,
spiegeln aber die relativen Häufigkeiten wider.
190 / 425
Das Konzept der
statistischen (Un-)Abhängigkeit

I Vier Kreuztabellen mit absoluten Häufigkeiten.

Unabhängigkeit Schwacher Zusammenhang


X X
Y Y
P P
b1 b2 b1 b2
a1 50 50 100 a1 60 40 100
a2 50 50 100 a2 40 60 100
100 100 200 100 100 200
P P

Starker Zusammenhang Perfekter Zusammenhang


X X
Y Y
P P
b1 b2 b1 b2
a1 80 20 100 a1 100 0 100
a2 20 80 100 a2 0 100 100
100 100 200 100 100 200
P P

191 / 425
Das Konzept der
statistischen (Un-)Abhängigkeit

I Zwei Variablen X und Y sind voneinander unabhängig wenn die


Ausprägungen der unabhängigen Variablen X (b1 , b2 , . . . , bm ) keinen
Einfluss auf die Verteilung der bedingten relativen Häufigkeiten der
Ausprägungen von Y (a1 , a2 . . . , aK ) haben.
I Folglich entspricht die Verteilung Y |X = ai für alle i der
Randverteilung von Y.
I Da Kreuztabellen symmetrisch sind (die Zeilen- und Spaltenvariablen
können auch getauscht werden) gilt ebenfalls, dass X |Y = bj für alle
j der Randverteilung von X entspricht.

192 / 425
Zusammenhangsmaße ab
nominalem Skalenniveau

I Wie lassen sich die Zusammenhänge in einer Kreuztabelle in


Maßzahlen ausdrücken?
I In 2x2-Kreuztabellen können berechnet werden:
I Die Prozentsatzdifferenz
I Die Odds-Ratio
I Der Chi2 -Koeffizient (χ2 )
I Das Chi2 -basierte Phi (φ)
I In kxm-Tabellen, die bei der Analyse von nicht-dichotomen Variablen
vorkommen, müssen andere Maßzahlen berechnet werden:
I Chi2 -Koeffizient (χ2 )
I Das Chi2 -basierte Cramer’s V
I Viele weitere Maßzahlen, die wir hier nicht behandeln

193 / 425
Zusammenhangsmaße für 2x2-Tabellen:
Die Prozentsatzdifferenz

I Die Prozentsatzdifferenz:
h11 h12
 
d% = − · 100 = (fY (a1 |b1 ) − fY (a1 |b2 )) · 100
h.1 h.2
I Im Beispiel: d% = (0, 270 − 0, 181) · 100 = 8, 9
I Interpretation: Der Unterschied zwischen Männern und Frauen
beträgt 8,9 Prozentpunkte!

Tabelle 41: Prozentsatzdifferenz in 2x2-Tabellen


Geschlecht X
AfD Gesamt Y fi.
M W b1 b2
Ja 0,270 0,181 0,224 a1 fY (a1 |b1 ) fY (a1 |b2 ) f1.
Nein 0,730 0,819 0,776 a2 fY (a2 |b1 ) fY (a2 |b2 ) f2.
Gesamt 1 1 1 1 1 1
P2
i=1

194 / 425
Zusammenhangsmaße für 2x2-Tabellen:
Die Prozentsatzdifferenz

I Die Prozentsatzdifferenz nimmt Werte zwischen −100 und +100 an.


I Bei nominal-skalierten Variablen ist die Richtung allerdings nicht
informativ, da die Reihenfolge der Kategorien beliebig ist.
I Werte von ±100 ergeben sich bei einem perfekten Zusammenhang.
I Werte von 0 ergeben sich bei Unabhängigkeit.
I Probleme:
I Nur in 2x2-Tabellen anwendbar
I Kann aus Spalten- und Zeilensichtweise unterschiedliche Werte
einnehmen. Daher muss vor der Analyse theoretisch geklärt werden,
welche die abhängige und welche die unabhängige Variable ist

195 / 425
Odds: Was ist das?

I Odds sind eine Möglichkeit, Wahrscheinlichkeiten anzugeben. Sie


geben das Verhältnis von einer Wahrscheinlichkeit p zu ihrer
Gegenwahrscheinlichkeit (1 − p) an.
p
Odds =
(1 − p)
Odds
⇔ p=
Odds + 1
I Im Deutschen können wir von Chancen oder Risiken sprechen (je
nach Variable).
I Beispiele:
I Die Chance, auf 6 Richtige beim Lotto ist 1 zu

139.838.160“(1/139.838.160).
I Die Chance, bei einer Münzwurfwette zu gewinnen, wenn man auf
Kopf setzt, ist 1 zu 1“(1/1).

I Die Chance, beim Würfeln eine 1 zu bekommen, ist 1 zu 5“(1/5).

196 / 425
Odds: Ein einfaches Beispiel

I Beispiel: Sie wetten auf Kopf bei einem Münzwurf. Wie ist die
Wahrscheinlichkeit (p) zu gewinnen? Offensichtlich gilt p = 0, 5.
Welchen Odds entspricht das?
p 0, 5 1
Odds = = =1 , als Bruch:
(1 − p) 1 − 0, 5 1

Wie kommt man von den Odds zu einer Wahrscheinlichkeit (p)?

Odds 1
p= = = 0, 5
Odds + 1 1+1

197 / 425
Odds: Noch ein einfaches Beispiel

I Beispiel: Wie ist die Wahrscheinlichkeit (p) beim Würfeln eine 6 zu


bekommen? Offensichtlich gilt p = 1/6 ≈ 0, 167. Welchen Odds
entspricht das? Antwort: 1 zu 5“.

p 0, 167 0, 167 1
Odds = = = = 0, 2 , als Bruch:
(1 − p) 1 − 0, 167 0, 833 5

Wie kommt man von den Odds zu einer Wahrscheinlichkeit (p)?

Odds 1 1
1·5 1
p= = 5
= 5
= = ≈ 0, 167
Odds + 1 1
5 +1 6
5
5·6 6

198 / 425
Odds: Ein praktisches Beispiel
I Beispiel: Schauen Sie die Tabelle an. Wie ist die Wahrscheinlichkeit,
dass eine zufällig ausgewählte Person die AfD wählt?
224
p= = 0, 224
1000
Wir können auch sagen, die Odds AfD zu wählen sind 224 zu 776 “:

Odds 224 224
224 · 776 224
p= = 224776 = 1000
776
= = = 0, 224
Odds + 1 776 + 1 776
776 · 1000 1000

Tabelle 42: Wahrscheinlichkeit der AfD-Wahl


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93 224
Nein 354 422 776
Gesamt 485 515 1.000
199 / 425
Zusammenhangsmaße für 2x2-Tabellen:
Das Odds-Ratio
I Das Odds-Ratio/ Chancenverhältnis (auch Kreuzproduktverhältnis):
h11
h21 h11 h22
OR = h12
=
h22
h21 h12
I Im Beispiel: (131/354)/(93/422) = (131·422)/(354·93) = 1, 679
I Interpretation: Die Odds (die AfD zu wählen) sind für Männer 1,679
mal größer als für Frauen!

Tabelle 43: Odds Ratios in 2x2-Tabellen


Geschlecht X
AfD Gesamt Y
P2
M W b1 b2 j=1

Ja 131 93 224 a1 h11 h12 h1.


Nein 354 422 776 a2 h21 h22 h2.
Gesamt 485 515 1.000
P2
i=1 h.1 h.2 n
200 / 425
Das Odds-Ratio:
Beispiele mit OR≥ 1

Unabhängigkeit Schwacher Zusammenhang


X X
Y Y
P P
b1 b2 b1 b2
a1 50 50 100 a1 60 40 100
a2 50 50 100 a2 40 60 100
100 100 200 100 100 200
P P

OR = 50·50/50·50 = 1 OR = 60·60/40·40 = 2, 25

Starker Zusammenhang Perfekter Zusammenhang


X X
Y Y
P P
b1 b2 b1 b2
a1 80 20 100 a1 100 0 100
a2 20 80 100 a2 0 100 100
100 100 200 100 100 200
P P

OR = 80·80/20·20 = 16 OR = 100·100/0·0 → ∞
201 / 425
Das Odds-Ratio:
Beispiele mit OR≤ 1

Unabhängigkeit Schwacher Zusammenhang


X X
Y Y
P P
b1 b2 b1 b2
a1 50 50 100 a1 40 60 100
a2 50 50 100 a2 60 40 100
100 100 200 100 100 200
P P

OR = 50·50/50·50 = 1 OR = 40·40/60·60 = 0, 443

Starker Zusammenhang Perfekter Zusammenhang


X X
Y Y
P P
b1 b2 b1 b2
a1 20 80 100 a1 0 100 100
a2 80 20 100 a2 100 0 100
100 100 200 100 100 200
P P

OR = 20·20/80·80 = 0, 0625 OR = 0·0/100·100 = 0


202 / 425
Zusammenfassung: Odds-Ratio

I Odds-Ratios drücken das Verhältnis zweier bedingter Chancen (Odds)


aus.
I Es gilt OR ∈ [0, ∞], und
I OR = 1, wenn kein Zusammenhang besteht.
I Je nachdem, ob OR ≤ 1 oder OR ≥ 1, sind die Chancen in der einen
oder der anderen Bedingung (b1 , b2 ) höher.
I Die Stärke eines Zusammenhangs drückt sich entsprechend
folgendermaßen aus:
I OR ≤ 1: Je stärker der Zusammenhang, desto kleiner wird das
Odds-Ratio (OR → 0)
I OR ≥ 1: Je stärker der Zusammenhang, desto größer wird das
Odds-Ratio (OR → ∞)

203 / 425
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient

I Frage: Welche Häufigkeiten ergäben sich bei statistischer


Unabhängigkeit?

Tabelle 44: AfD-Wahl und Geschlecht - zurück zum Beispiel


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93 224
Nein 354 422 776
Gesamt 485 515 1.000

204 / 425
Erwartete Häufigkeiten bei
Unabhängigkeit

I Frage: Welche Häufigkeiten ergäben sich bei statistischer


Unabhängigkeit?

Tabelle 45: Erwartete Häufigkeiten bei Unabhängigkeit


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja (485·224)/1000 = 108, 64 (515·224)/1000 = 115, 36 224
Nein (485·776)/1000 = 376, 36 (515·776)/1000 = 399, 64 776
Gesamt 485 515 1.000

205 / 425
Erwartete Häufigkeiten bei
Unabhängigkeit - abstrakte Darstellung

I Die erwarteten (Zell-)Häufigkeiten bei Unabhängigkeit ergeben sich


aus dem Produkt der Randhäufigkeiten geteilt durch n:
hi. h.j hi. h.j
h˜ij = · h.j = fi. h.j = hi. · = hi. f.j =
n n n
I Die daraus berechneten bedingten relativen Häufigkeiten entsprechen
den beobachten relativen Randhäufigkeiten.

Tabelle 46: Erwartete Häufigkeiten bei Unabhängigkeit - formale Darstellung


X
Y fi.
b1 b2
a1 h̃11 = (h1. h.1 )/n h̃12 = (h1. h.2 )/n h1.
a2 h̃21 = (h2. h1. )/n h̃22 = (h2. h2. )/n h2.
P2
i=1 h.1 h.2 n
206 / 425
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient

I Der Chi2 -Koeffizient basiert auf den Abweichungen zwischen


beobachteten und erwarteten Häufigkeiten.
I Die Summe aller Abweichungen von den erwarteten Häufigkeiten ist
aber zwingend null.

Tabelle 47: Berechnung des Chi2 -Koeffizienten


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131−108,64=22,36 93−115,36=−22,36 224
Nein 354−376,36=−22,36 422−399,64=22,36 776
Gesamt 485 515 1.000

207 / 425
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient

I Der Chi2 -Koeffizient entspricht der Summe der quadrierten


Abweichungen zwischen beobachteten und erwarteten Häufigkeiten,
jeweils geteilt durch die erwarteten Häufigkeiten:
k X
m
(hij − h̃ij )2 hi. h.j
χ2 = , mit χ2 ≥ 0 und h̃ij =
X

i=1 j=1 h̃ij n

Tabelle 48: Berechnung des Chi2 -Koeffizienten


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 22,362/108,64 −22,362/115,36 224
Nein −22,362/376,36 22,362/399,64 776
Gesamt 485 515 1.000
208 / 425
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient
I Der Chi2 -Koeffizient im Beispiel:
k X
m
(hij − h̃ij )2 (131 − 1000 )
485·224 2
χ2 = =
X
485·224
i=1 j=1 h̃ij 1000

(354 − 1000 )
485·776 2
(93 − 1000 )
515·224 2
(422 − 515·776
1000 )
2
+ 485·776 + 515·224 + 515·776
1000 1000 1000
=11, 516
Tabelle 49: Berechnung des Chi2 -Koeffizienten
Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93 224
Nein 354 422 776
Gesamt 485 515 1.000
209 / 425
Zusammenfassung:
Der Chi2 -Koeffizient

I Der Chi2 -Koeffizient ist symmetrisch, d.h. unabhängig davon, welche


Variable abhängig oder unabhängig ist.
I Invariant gegenüber dem Vertauschen von Zeilen oder Spalten.
I Bei statistischer Unabhängigkeit gilt χ2 = 0.
I Bei 2x2-Tabellen gilt χ2max = n (bei perfektem Zusammenhang).
I Probleme: Der Wertebereich von χ2 ist abhängig von . . .
I den Dimensionen der Tabelle (k und m)
I der Fallzahl n
I φ und Cramer’s V nehmen sich dieses Problems an

210 / 425
Zusammenhangsmaße für Kreuztabellen:
Normierungen des Chi2 -Koeffizienten

I Phi lässt sich in 2x2-Tabellen berechnen. Es normiert den


Wertebereich von χ2 :
s
χ2 |h11 h22 − h21 h12 |
φ= = √
n h.1 h.2 h1. h2.
I Cramer’s V ist eine Verallgemeinerung von φ:
s
χ2
V =
n · min(k − 1, m − 1)

I Es gilt φ ∈ [0, 1] und V ∈ [0, 1].

211 / 425
Zusammenfassung: Zusammenhangsmaße
für nominal-skalierte Variablen

I Bei nominal-skalierten Variablen werden Zusammenhangsmaße


verwendet, die unabhängig von der Richtung des Zusammenhangs
sind.
I Diese Maßzahlen basieren · · ·
I entweder auf einem Vergleich der bedingten relativen Häufigkeiten
(Prozentsatzdifferenz) oder
I auf einem Vergleich der erwarteten Häufigkeiten unter der Annahme
statistischer Unabhängigkeit mit den beobachteten Häufigkeiten (Chi2 ,
Phi, Cramer’s V).
I Stata Example 8 (crosstable.do)

212 / 425
Zusammenhangsmaße
für ordinal-skalierte Variablen

I Ab ordinalem Skalenniveau wird die Richtung eines Zusammenhangs


relevant.
I Problem: Wir können keine Differenzen und/ oder Verhältnisse bilden.
I Es gibt daher verschiedene Zusammenhangsmaße, die auf einem
Vergleich von Wertepaaren basieren. Hierfür ist nur die Information
über die Rangordnung nötig.
I Kendall’s Taub
I Goodman und Kruskal’s Gamma
I Siehe dazu Jann (2005), S. 80ff.
I Wir behandeln diese Maße hier nicht! (und auch nicht in der Klausur)

213 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.1, 4.2.1, 4.2.2, 4.2.3.
I Für Interessierte:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.2.4 und 4.3.
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 3.1, 3.2.

214 / 425
Einführung in die sozialwissenschaftliche Statistik
Bivariate Deskription: Zusammenhangsmaße für metrische
Variablen

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#8

215 / 425
Kurze Erinnerung

I Letzte Sitzung haben wir über bivariate Häufigkeitstabellen


(Kreuztabellen) gesprochen.
I Wir haben die wichtigsten Statistiken zur Beschreibung bivariater
Zusammenhänge in Kreuztabellen kennengelernt (ab nominalem
Skalenniveau):
I Die Prozentsatzdifferenz, basierend auf Spaltenprozenten
I Odds und Odds Ratios, basierend auf absoluten Häufigkeiten
I Der Chi2 Koeffizient, basierend auf erwarteten und beobachteten
Häufigkeiten
I Phi und Cramer’s V: Normierungen von Chi2
I Heute beschäftigen wir uns mit bivariaten Zusammenhangsmaßen für
metrisch-skalierte Variablen.

216 / 425
Zusammenhangsmaße für
metrisch-skalierte Variablen
I Zusammenhänge zwischen metrischen Variablen lassen sich in
Scatterplots darstellen.

Abbildung 37: Generalisiertes Vertrauen und migrationskritische Einstellungen


4
Migrationskritische Einstellung
−2 0
−4 2

−3 −2 −1 0 1 2
Generalisiertes Vertrauen

Quelle: ESS 8, Edition 1.0. Anmerkungen: Beide Variablen wurden mit Hilfe sog. konfirmatorischer Messmodelle gebildet und
basieren jeweils auf drei Items. Die Graphik zeigt den Zusammenhang beider Variablen für eine Zufallsstichprobe aus dem
kompletten Datensatz (n = 50).
217 / 425
Zusammenhänge metrischer Variablen:
Die Kovarianz

I Die Kovarianz ist eine Maßzahl zur Beschreibung bivariater


Zusammenhänge:
n
1X
sXY = (xi − x̄ )(yi − ȳ )
n i=1

I Sie beschreibt das Ausmaß des Miteinander Variierens“.



I Erinnere: Die Varianz beschreibt die Abweichungen vom Mittelwert.
Die Kovarianz beschreibt ebenfalls Abweichungen von Mittelwerten,
misst aber, wie sich die Abweichungen zweier Variablen zueinander
Verhalten.

218 / 425
Zusammenhangsmaße:
Die Kovarianz

I Was ergibt der Term (xi − x̄ )(yi − ȳ ) in den Quadranten der Grafik
unten?

Abbildung 38: Generalisiertes Vertrauen und migrationskritische Einstellungen


4

II I
Quadrant II: Quadrant I:
(yi − ȳ ) > 0, (yi − ȳ ) > 0,
Migrationskritische Einstellung
2

(xi − x̄ ) < 0 (xi − x̄ ) > 0


0

Mittelwert y

Quadrant III: Quadrant IV:


−2

(yi − ȳ ) < 0, (yi − ȳ ) < 0,


(xi − x̄ ) < 0 III Mittelwert x IV
(xi − x̄ ) > 0
−4

−3 −2 −1 0 1 2
Generalisiertes Vertrauen

219 / 425
Zusammenhangsmaße:
Die Kovarianz

I Was ergibt der Term (xi − x̄ )(yi − ȳ ) in den Quadranten der Grafik
unten?

Abbildung 39: Generalisiertes Vertrauen und migrationskritische Einstellungen

Quadrant II: Quadrant I:


4

II I

(yi − ȳ ) > 0, (yi − ȳ ) > 0,


Migrationskritische Einstellung
2

(xi − x̄ ) < 0 (xi − x̄ ) > 0


Produkt:< 0 Produkt:> 0
0

Mittelwert y

Quadrant III: Quadrant IV:


(yi − ȳ ) < 0, (yi − ȳ ) < 0,
−2

(xi − x̄ ) < 0 III Mittelwert x IV (xi − x̄ ) > 0


−4

Produkt:> 0 −3 −2 −1 0
Generalisiertes Vertrauen
1 2
Produkt:< 0

220 / 425
Zusammenhangsmaße:
Die Kovarianz

I Die meisten Beobachtungen liegen im Quadranten II und IV, nur


wenige Beobachtungen liegen in den Quadranten I und III.
I Das Produkt (xi − x̄ )(yi − ȳ ) wird daher im Durchschnitt negativ.

Abbildung 40: Generalisiertes Vertrauen und migrationskritische Einstellungen


4

II I
Migrationskritische Einstellung
0 2

Mittelwert y
−2

III Mittelwert x IV
−4

−3 −2 −1 0 1 2
Generalisiertes Vertrauen

221 / 425
Die Kovarianz ist abhängig
von der Skalierung
I Die Grafiken zeigen Scatterplots des gesamten Samples für identische
Variablen mit unterschiedlicher Skalierung.
I Die Kovarianz links beträgt −0, 76; rechts beträgt sie −134, 2.

Abbildung 41: Scatterplots mit zwei Skalierungen

100
4 3

80
Migrationskritische Einstellung

Migrationskritische Einstellung
2

60
0 1

40
−1

20
−2
−3

−4 −3 −2 −1 0 1 2 3 0 20 40 60 80 100
Generalisiertes Vertrauen Generalisiertes Vertrauen

Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 2.783.


222 / 425
Zusammenhangsmaße: Kovarianz und
Korrelationskoeffizient

I Die Kovarianz ist abhängig von der Skalierung der Variablen.


I Insofern ist nur das Vorzeichen der Kovarianz informativ, nicht aber
ihr Wert.
I Der Korrelationskoeffizient (nach Bravais-Pearson) normiert die
Kovarianz:
n
(xi − x̄ )(yi − ȳ )
P
sXY
r = rXY = = qP i=1
sX sY
i=1 (xi − x̄ ) i=1 (yi − ȳ )
n 2
Pn 2

, mit r ∈ [−1, 1]

I Bei r = 0 besteht kein Zusammenhang, bei r = −1 (r = 1) liegen alle


Punkte auf einer Linie mit negativer (positiver) Steigung (perfekter
Zusammenhang).

223 / 425
Zusammenhangsmaße:
Korrelationskoeffizient nach Bravais-Pearson

I Rechengünstigere Formel für den Korrelationskoeffizienten:

( i=1 (xi yi )) − (nx̄ ȳ )


Pn
r = q P
n
− (nx̄ 2 ) · i=1 yi − (nȳ )
2
   Pn 2
 
2
i=1 xi

224 / 425
Zusammenhangsmaße:
Korrelationskoeffizient - Rechenbeispiel

I Ein Rechenbeispiel zur Kovarianz und Korrelation:

Tabelle 50: Körpergröße in cm (x) und Gewicht in g (y) bei Säuglingen

i xi yi (xi − x̄ ) (xi − x̄ )2 (yi − ȳ ) (yi − ȳ )2 (xi − x̄ )(yi − ȳ )


1 52 3600 -5,5 30,25 -775 600625 4262.5
2 60 4500 2,5 6,25 125 15625 312.5
3 68 6200 10,5 110,25 1825 3330625 19162.5
4P 50 3200 -7,5 56,25 -1175 1380625 8812.5
230 17500 203 5327500 32550

x̄ = 230/4 =
57, 5 32550 32550
ȳ = 17500/4 = sxy = = 8137, 5 r=√ = 0, 9898
4 203 · 5327500
4375
225 / 425
Zusammenhangsmaße:
Korrelationskoeffizient - Rechenbeispiel

I Grafische Darstellung des Zusammenhangs aus dem Rechenbeispiel


(r=0,9898):

Abbildung 42: Scatterplot zum Rechenbeispiel


6000
5000
Gewicht in g
4000
3000

50 55 60 65 70
Größe in cm

226 / 425
Korrelationskoeffizient: Eigenschaften
I Bei Unabhängigkeit von X und Y ist r = 0.
I Wenn |r | = 1 ist, liegen alle Wertepaare auf einer Geraden.
I Die Steigung der Geraden lässt sich nicht aus r ablesen.

Abbildung 43: Unabhängigkeit und perfekter Zusammenhang


2

2
1

1
Y

Y
0

0
−1

−1

r=0 r=1
−2

−2

−2 −1 0 1 2 −2 −1 0 1 2
X X

227 / 425
Korrelationskoeffizient: Eigenschaften
I Der Korrelationskoeffizient misst lineare Zusammenhänge.
I Nicht-lineare Zusammenhänge können von ihm nicht erfasst werden.

Abbildung 44: Nicht-linearer Zusammenhang


2.5
2
1.5
Y
1
.5

r = −0,15
0

−2 −1 0 1 2
X

228 / 425
Korrelationskoeffizient: Eigenschaften
I Der Korrelationskoeffizient ist anfällig gegenüber Ausreißern.

Abbildung 45: Korrelationskoeffizient und Ausreißer


4

4
2

2
Y

Y
0

r=0 r = 0,45
−2

−2

−2 0 2 4 −2 0 2 4
X X

229 / 425
Zusammenfassung:
Der Korrelationskoeffizient
I Der Korrelationskoeffizient (r ) ist die normierte Kovarianz.
I r ist symmetrisch und invariant gegenüber positiv linearen
Transformationen.
I Es gilt r ∈ [−1, 1]. Je näher der Korrelationskoeffizient an 1 (bzw. -1)
liegt, desto eher beschreiben die Wertepaare (xi , yi ) eine Linie mit
positiver (bzw. negativer) Steigung.
I Der Wert von r sagt jedoch nichts über die Steigung der Geraden aus.
I Der Korrelationskoeffizient wird aber verwendet, um über die
Stärke“eines Zusammenhangs zu entscheiden:
” I |r | < 0, 3: Kein Effekt“bis schwacher Effekt“
” ”
I |r | ≥ 0, 3 und |r | < 0, 5: Mäßiger Effekt“

I |r | ≥ 0, 5 und |r | < 0, 8: Starker Effekt“

I |r | ≥ 0, 8: Sehr starker Effekt “

I Derartige Daumenregeln bieten nur eine Orientierung. Was als starker
oder schwacher Zusammenhang gilt, hängt von der Disziplin bzw. dem
Untersuchungsgegenstand ab.
230 / 425
Zusammenhangsmaße:
Der Rangkorrelationskoeffizient

I Der Rangkorrelationskoeffizient (Spearman’s Rho) wird analog zum


Korrelationskoeffizienten berechnet, basiert aber nicht auf den
Wertepaaren der Rohdaten (xi , yi ), sondern auf deren Rängen
(rg(xi ), rg(yi )):

i=1 (rg(xi ) ¯ x )(rg(yi ) − rg


¯ y)
Pn
− rg
ρ = qP
i=1 (rg(xi ) − rg¯x )2 i=1 (rg(yi ) − rg¯y )2
n Pn

n+1
, mit rg
¯ x = rg
¯y = und ρ ∈ [−1, 1]
2
I Da sich Rangordnungen ab ordinalem Skalenniveau berechnen lassen,
kann der Rangkorrelationskoeffizient ebenfalls ab ordinalem
Skalenniveau berechnet werden.

231 / 425
Zusammenhangsmaße:
Der Rangkorrelationskoeffizient

I Bei der Berechnung werden identische Werte dem durchschnittlichen


Rang zugewiesen:

Tabelle 51: Bestimmung von Rängen zur Berechnung von Spearman’s Rho
xi (geordnete Urliste) nummeriert Berechnung mittlerer Rang Rang
1 1 1 1
2 2 2+3/2 = 2,5
2 3
3 4 4 4
4 5
4 6 5+6+7+8/4 = 6,5
4 7
4 8
5 9 9+10/2 = 9,5
5 10
232 / 425
Zusammenfassung:
Der Rangkorrelationskoeffizient

I Der Rangkorrelationskoeffizient nach Spearman (ρ) ist ab ordinalem


Skalenniveau berechenbar.
I Es gilt ρ ∈ [−1, 1].
I ρ ist invariant gegenüber monotonen Transformationen.
I ρ ist symmetrisch.
I ρ ist weniger anfällig gegenüber Ausreißern, da es die Ränge, nicht die
Werte aus den Rohdaten verwendet.

233 / 425
Der Korrelationskoeffizient:
Spezialfälle
I Wenn zwei dichotome Variablen vorliegen, lässt sich der
Korrelationskoeffizient ebenfalls verwenden.
I Die beiden Variablen müssen dafür 0/1-kodiert sein
(Dummy-Kodierung)
I Wir sprechen hier vom Punkt-Korrelationskoeffizienten
I Es gilt |r | = φ

Tabelle 52: AfD-Wahl und Geschlecht - Der Punkt-Korrelationskoeffizient


Geschlecht
AfD-Wähler Gesamt
Weiblich (0) Männlich (1)
Nein (0) 422 354 776
Ja (1) 93 131 224
Gesamt 515 485 1.000
Anmerkung: Zahlen basieren auf einem FAZ-Artikel über eine Infratest dimap-Umfrage. Die absoluten Häufigkeiten sind fiktiv,
spiegeln aber die relativen Häufigkeiten wider.
234 / 425
Der Korrelationskoeffizient:
Spezialfälle

I Im Beispiel: s s
χ2 11, 516
φ= = = 0, 107
n 1000
r = 0, 107

Tabelle 53: AfD-Wahl und Geschlecht - Der Punkt-Korrelationskoeffizient


Geschlecht
AfD-Wähler Gesamt
Weiblich (0) Männlich (1)
Nein (0) 422 354 776
Ja (1) 93 131 224
Gesamt 515 485 1.000
Anmerkung: Zahlen basieren auf einem FAZ-Artikel über eine Infratest dimap-Umfrage. Die absoluten Häufigkeiten sind fiktiv,
spiegeln aber die relativen Häufigkeiten wider.

235 / 425
Der Korrelationskoeffizient:
Spezialfälle

I Der Punkt-biseriale Korrelationskoeffizient beschreibt den


Zusammenhang zwischen einer dichotomen und einer metrischen
Variablen und lässt sich wie folgt berechnen:
ȳ1 − ȳ0
r
n1 n0
rpb = ·
sy n2
, mit . . .
ȳ1 : Mittellwert von y für x=1
ȳ0 : Mittellwert von y für x=0
n1 : Häufigkeit der Ausprägung x=1
n0 : Häufigkeit der Ausprägung x=0
n: Stichprobenumfang(n1 + n0 = n)

I Die dichotome Variable muss 0/1-kodiert sein.


236 / 425
Der Korrelationskoeffizient:
Spezialfälle

I Der Punkt-biseriale Korrelationskoeffizient - ein Rechenbeispiel:


s
ȳ1 − ȳ0 −0, 0396 − 0, 0446 1311 · 1477
r
n1 n0
rpb = · = · = −0, 0266
sy n 2 1, 5813 27882
r = −0, 0266

Tabelle 54: Geschlecht und migrationskritische Einstellungen


Migrationskritische Einstellungen (Y)
Geschlecht (X)
ȳ sy n
Weiblich (0) 0,0446 1,5830 1311
Männlich (1) -0,0396 1,5793 1477
Gesamt 0,0000 1,5813 2788
Quelle: ESS 8, Edition 1.0. Die Operationalisierung von migrationskritischen Einstellungen basiert auf konfirmatorischen
Messmodellen mit drei Items.
237 / 425
Analyse von Zusammenhängen
unterschiedlich skalierter Variablen

I Bei der Analyse von Zusammenhängen zwischen Variablen


unterschiedlicher Skalenniveaus gilt grundsätzlich, dass die Variable
mit dem niedrigeren Skalenniveau die zulässige Analyse vorgibt.
Beispiel: Bei der Analyse des Zusammenhangs zwischen einer
nominal- und einer intervall-skalierten Variablen müssen Verfahren
verwendet werden, die für nominal-skalierte Variablen zulässig sind.
I Problem: Die Informationen der höher-skalierten Variable gehen
teilweise verloren.

238 / 425
Analyse von Zusammenhängen
unterschiedlich skalierter Variablen

I Es gibt einige Spezialfälle, bei denen eine Anwendung des


Korrelationskoeffizienten dennoch zulässig ist:
I Der Punkt-Korrelationskoeffizient eignet sich zur Analyse von
Zusammenhängen zwischen zwei dichotomen Variablen, die beide
0/1-kodiert sind. Er funktioniert ab nominalem Skalenniveau.
I Der Punkt-biseriale Korrelationskoeffizient eignet sich zur Analyse von
Zusammenhängen zwischen einer dichotomen (0/1-kodierten) und
einer metrischen Variablen (ab nominalem Skalenniveau).
I Es gibt auch den sog. Punkt-biserialen Rangkorrelationskoeffizienten
zur Analyse eines Zusammenhangs zwischen einer dichotomen und
einer ordinal-skalierten Variablen (siehe dazu Bortz & Schuster 2010,
S. 177f.; nicht klausurrelevant).

239 / 425
Exkurs: Korrelation und Kausalität

I Ein Beispiel: Zahl der Störche und Fertilitätsrate in den 294 Kreisen
in Deutschland.
I Handelt es sich hier um einen kausalen Zusammenhang?

Abbildung 46: Zahl der Störche und Fertilitätsraten in 294 Kreisen


4
3
Fertitlitätsrate
2

r = 0,80
1
0

0 10 20 30 40 50
Zahl der Störche

Anmerkung: Simulierte Daten.

240 / 425
Exkurs: Korrelation und Kausalität
- weitere Beispiele

I Wir beobachten Korrelationen zwischen . . .


I der Zahl der verkauften Eiskugeln und der Zahl der Morde
I der Körpergröße und dem Wortschatz von Kindern
I dem Einkommen und der Dichte der Kopfbehaarung bei Männern
(negative Korrelation)
I dem Gesundheitszustand und dem Einnehmen von Vitaminpillen
I dem Lesen linksextremer Onlineforen und linksextremen politischen
Einstellungen
I Arbeitslosigkeit und fremdenfeindlichen Einstellungen
I Handelt es sich hierbei um kausale Effekte?

241 / 425
Exkurs: Korrelation und Kausalität
- Scheinkorrelationen
I Die Korrelation zwischen . . .
I der Körpergröße und dem Wortschatz von Kindern erklärt sich durch
das Alter der Kinder
I dem Einkommen und der Dichte der Kopfbehaarung bei Männern
erklärt sich durch das Alter

Abbildung 47: Scheinkorrelation zwischen X und Y

242 / 425
Exkurs: Korrelation und Kausalität
- Scheinkorrelationen

I Scheinkorrelationen: Der Zusammenhang von X und Y ist nicht


kausal, beide hängen (kausal) von einer dritten Variable (Z ) ab.
I Achtung: Die Korrelation ist echt“, aber nicht kausal!

I Lösung: Statistische Kontrolle der Drittvariablen (soweit bekannt).
Abbildung 48: Scheinkorrelation zwischen X und Y

243 / 425
Exkurs: Korrelation und Kausalität
- Selektion/ Kausalrichtung

I Die Korrelation zwischen . . .


I dem Gesundheitszustand und dem Einnehmen von Vitaminpillen ist
möglicherweise auf einen Selektionseffekt zurückzuführen: Menschen,
die Vitaminpillen nehmen, zeigen ggf. auch viele andere gesunde
Verhaltensweisen (z.B. Sport, nicht Rauchen, gesunde Ernährung, etc.)
I dem Lesen linksextremer Onlineforen und linksextremen politischen
Einstellungen spiegelt vielleicht nicht den Effekt des Medienkonsums
auf politische Einstellungen wider. Möglicherweise ist es umgekehrt:
Menschen mit extremen Einstellungen lesen entsprechende Seiten.
I Lösungen:
I Selektionseffekte können ebenfalls über die statistische Kontrolle der
Drittvariablen (soweit bekannt) adressiert werden. Es stehen auch
andere Verfahren zur Verfügung.
I Fragen der Kausalrichtung sind häufig kompliziert. Die Beobachtung
von Untersuchungseinheiten über die Zeit (sog. Paneldaten) oder
theoretische Überlegungen können hier helfen.
244 / 425
Exkurs: Korrelation und Kausalität
- Konfundierung
I Der kausale Effekt von . . .
I Arbeitslosigkeit auf fremdenfeindlichen Einstellungen ist ggf.
überschätzt: Personen mit geringerer Bildung sind häufiger
fremdenfeindlich und gleichzeitig häufiger arbeitslos.
I Lösung: Statistische Kontrolle der konfundierenden Variable Z (soweit
bekannt).
Abbildung 49: Konfundierung des Zusammenhangs zwischen X und Y

245 / 425
Exkurs: Korrelation und Kausalität
- das Experiment
I Die ideale Methode zur Identifikation eines kausalen Zusammenhangs
ist das Experiment (Beispiel: Studien zur Wirksamkeit von
homöopathischen Mitteln).
I Treatmentgruppe (erhält Stimulus) und Kontrollgruppe (erhält
Stimulus nicht)
I Randomisierte Zuweisung der Probanden auf Treatment- und
Kontrollgruppe
I Kontrollierte Setzung des Stimulus durch den Forscher
I Unterschiede zwischen Kontroll- und Treatmentgruppe lassen sich bei
einem sauber durchgeführten Experiment auf das Treatment/ den
Stimulus zurückführen (kausaler Effekt)
I Mit Beobachtungsdaten ist dies deutlich schwieriger:
I Unbeobachtete Variablen?
I Selektionseffekte in das Treatment? Umgekehrte Kausalität?
I Viele sozialwissenschaftliche Fragestellungen lassen sich nicht
experimentell beantworten! (Beispiel: Der soziale Hintergrund oder das
Geschlecht lassen sich nicht randomisiert zuweisen)
246 / 425
Exkurs: Korrelation und Kausalität
- kausale Effekte aus Beobachtungsdaten

I Voraussetzungen für kausale Schlussfolgerungen auf Basis von


Beobachtungsdaten/ Umfragedaten:
I Zwischen X und Y besteht ein Zusammenhang
I X geht Y zeitlich voraus: Messungen über die Zeit oder theoretische
Überlegungen
I Der Zusammenhang von X und Y bleibt bestehen, wenn alternative
Erklärungen statistisch kontrolliert werden (Drittvariablenkontrolle).
Mehr im Themenblock lineare Regression!

247 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.4 und 4.5.
I Für Interessierte:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.2.4 und 4.3.
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 3.4 und 3.5.

248 / 425
Einführung in die sozialwissenschaftliche Statistik
Inferenzstatistik: Zufallsvariablen

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#9

249 / 425
Kurze Erinnerung

I Letzte Sitzung haben wir über bivariate Zusammenhangsmaße für


metrisch-skalierte Variablen gesprochen:
I Kovarianz
I Korrelationskoeffizient nach Bravais-Pearson
I Außerdem haben wir uns mit einigen Spezialfällen des
Korrelationskoeffizienten und Fragen der Kausalität beschäftigt.
I Der Themenblock der deskriptiven Statistik ist damit abgeschlossen.
I Heute beschäftigen wir uns mit dem Themenkomplex
Inferenzstatistik; insbesondere mit Zufallsvariablen.

250 / 425
Deskriptive und Inferenzstatistik

I Deskriptive Statistik beschreibt Daten mit Hilfe von Maßzahlen.


I Inferenzstatistik (auch induktive oder schließende Statistik)
verallgemeinert über die konkret vorliegenden Daten hinaus.
I Dazu werden die Daten als eine Stichprobe aus einer Grundgesamtheit
begriffen
I Inferenzstatistik erlaubt es, Schlussfolgerungen über die
Populationsparameter zu ziehen.
Beispiel: Aus Daten über 1000 Frauen wird die Fertilitätsrate für die
gesamte Bevölkerung geschätzt.
I Außerdem erlaubt Inferenzstatistik das Testen von Hypothesen.
Beispiel: Gibt es einen signifikanten Zusammenhang zwischen
Arbeitslosigkeit und fremdenfeindlichen Einstellungen?
I Für Inferenzstatistik benötigen wir Kenntnisse über Wahrscheinlichkeit-
bzw. Dichtefunktionen

251 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein Beispiel
I Beispiel: Parteipräferenzen im deutschen Samples des ESS.
I Wie ist die Wahrscheinlichkeit, dass der Stimmenanteil der Linken in
der Grundgesamtheit 10,704382% beträgt?

Abbildung 50: Verteilung der Parteipräferenzen im ESS Sample


40

38.435940
30

28.119800
Prozent
20

13.422074
10.704382
10

6.100943
3.216861
0

SU

ne

D
nk

FD
SP

Af

/C

Li

G
U
D
C

Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 1803. Nur Parteien über der 5%-Hürde + AfD.
252 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein Beispiel
I Verteilung der Parteipräferenzen in zwei (Sub-)Samples aus dem ESS.
I Wie ist der Stimmenanteil der FDP in der Grundgesamtheit?

Abbildung 51: Verteilung der Parteipräferenzen in zwei Stichproben


Sample 1 (n=200) Sample 2 (n=200)
40

41.5

36.0
30

27.5
Stimmenanteil

24.5
20

14.5 14.5
13.0
10

10.5

6.0
4.5 4.5
3.0
0

SU

ne

SU

ne

D
nk

nk
FD

FD
SP

Af

SP

Af


/C

/C
Li

Li
G

G
U

U
D

D
C

Quelle: ESS 8, Edition 1.0. Anmerkungen: Beide (Sub-)Stichroben wurden aus dem deutschen ESS Sample gezogen. Nur
Parteien über der 5%-Hürde + AfD.
253 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein Beispiel
I Verteilung der Parteipräferenzen mit 95%-Konfidenzintervallen.
I Der Punktschätzer des Stimmanteils der FDP ist 0,061 (6,1%). Der
wahre Wert liegt mit einer Wahrscheinlichkeit von 95% im Intervall
[0,0504, 0,0731].
Abbildung 52: Verteilung der Parteipräferenzen mit Konfidenzintervallen
.4
.3
Stimmanteil
.2
.1
0

SU

ne

D
nk

FD
SP

Af

/C

Li

G
U
D
C

Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 1803; 95%-Konfidenzintervall. Nur Parteien über der 5%-Hürde + AfD.
254 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein weiteres Beispiel

I Beispiel: Hypothese: Personen, die arbeitslos sind, haben häufiger


migrationskritische Einstellungen als Personen, die nicht arbeitslos
sind.
I Ein (einfaches) Regressionsmodell:
I Abhängige Variable (Y ): Migrationskritische Einstellungen
I Unabhängige Variable (X ): Arbeitslosigkeit
I Kontrollvariable (Z ): Bildung (in Jahren)

Tabelle 55: Regression: Migrationskritische Einstellungen und Arbeitslosigkeit


M1 M2
Arbeitslos 0.465 ** 0.313
Bildung -0.100 ***
Konstante -0.069 * 1.396 ***
Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 2137, *p ≤ 0, 05, **p ≤ 0, 01, ***p ≤ 0, 001. Die abhängige Variable wurde
mit Hilfe konfirmatorischer Faktorenanalysen gebildet und basiert auf drei Items.
255 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein weiteres Beispiel

I Ein Effekt“mit Sternchen (*) ist statistisch signifikant, d.h. es ist



unwahrscheinlich, dass der Zusammenhang nur in der Stichprobe,
nicht aber in der Grundgesamtheit besteht.
I Hier hat Arbeitslosigkeit keinen signifikanten Effekt, wenn für Bildung
kontrolliert wird. Die Hypothese wird abgelehnt!
I Ein detaillierte Behandlung von Regressionsmodellen folgt später.

Tabelle 56: Regression: Migrationskritische Einstellungen und Arbeitslosigkeit


M1 M2
Arbeitslos 0.465 ** 0.313
Bildung -0.100 ***
Konstante -0.069 * 1.396 ***
Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 2137, *p ≤ 0, 05, **p ≤ 0, 01, ***p ≤ 0, 001. Die abhängige Variable wurde
mit Hilfe konfirmatorischer Faktorenanalysen gebildet und basiert auf drei Items.
256 / 425
Grundlagen:
Grundgesamtheit und Stichprobe

I Grundgesamtheit (GG): Menge aller Untersuchungseinheiten, über die


Aussagen getroffen werden sollen.
I Stichprobe: Teilmenge aus der Grundgesamtheit.
I Inferenzstatistik setzt repräsentative Stichproben voraus. Diese lassen
sich am besten durch eine Zufallsauswahl erreichen.
I Eigenschaften von Zufallsstichproben:
I Chancengleichheit: Alle Untersuchungseinheiten haben die gleiche
Chance, in die Stichprobe zu gelangen (sog. einfache
Wahrscheinlichkeitsauswahl). Hat die GG einen Umfang von N und die
Stichprobe einen Umfang von n, ist die Wahrscheinlichkeit n/N .
I Unabhängigkeit: Die Ziehung einer Einheit hat keinen Einfluss auf die
Wahrscheinlichkeit der anderen Einheiten, ebenfalls gezogen zu werden.
Dies entspricht dem Urnenmodell mit Zurücklegen.

257 / 425
Terminologie/ Notation:
Zufallsvariablen
I Wir unterscheiden zwischen . . .
I den (deskriptiven) Maßzahlen der Stichprobe (Beispiele: x̄ , sxy ), die
häufig als Samplestatistiken oder Samplemaßzahlen bezeichnet und mit
lateinischen Buchstaben gekennzeichnet werden.
I den Maßzahlen der Grundgesamtheit, den wahren“Werten in der

Population, die als Parameter bezeichnet und mit griechischen
Buchstaben gekennzeichnet werden (unbekannte wahre Parametern vs.
Schätzwerte der Parameter):

Tabelle 57: Notationen: Deskriptive und induktive Statistik


Statistik Populations- Schätzer der
Maßzahl
in Stichprobe parameter Parameter
Mittelwert x̄ µ µ̂
Standardabweichung s σ σ̂
Varianz s2 σ2 σ̂ 2
258 / 425
Was ist eine
Zufallsvariable?
I Wenn die Werte xi , die ein Merkmal X annimmt, Ergebnisse eines
Zufallsvorgangs sind, wird X als eine Zufallsvariable bezeichnet.
I Die Werte xi sind die Realisierungen der Zufallsvariablen X .
I Klassische Zufallsvariablen sind solche, deren Werte Zufallszahlen sind
(Beispiel: Augenzahl beim Würfeln).
I Darüber hinaus können Merkmale, deren Werte keine Zufallszahlen
sind, ebenfalls als Zufallsvariablen begriffen werden, wenn die Daten
aus einer Zufallsstichprobe stammen.
Beispiele: Stellen Sie sich vor, wir ziehen eine Stichprobe von 10
Studierenden in diesem Hörsaal.
I Der Anteil von Frauen in dieser Stichprobe ist das Ergebnis eines
Zufallsvorgangs
I Ebenso ist die durchschnittliche Semesterzahl in der Stichprobe das
Ergebnis eines Zufallsvorgangs
I Die Maßzahlen zur Beschreibung einer Stichprobe lassen sich also als
Zufallszahlen begreifen!
259 / 425
Diskrete und stetige Zufallsvariablen

I Analog zu Variablen können auch Zufallsvariablen (ZVs) diskret oder


stetig sein.
I Diskrete ZVs können eine endliche oder abzählbar unendliche Anzahl
an Werten annehmen.
I Stetige ZVs können innerhalb eines beliebigen Intervalls unendlich
viele Werte annehmen.
I Beispiele:
I Diskrete ZVs: Augenzahl beim Würfeln, Summe der Augenzahlen bei
zweimaligem Würfeln, Links-Rechts-Selbsteinstufung einer zufällig
ausgewählten Person.
I Stetige ZVs: Alter einer zufällig ausgewählten Person,
durchschnittliches Einkommen in einer Stichprobe, Varianz der Variable
migrationskritische Einstellungen in einer Stichprobe.
I Für die Inferenzstatistik sind insbesondere stetige ZVs wichtig.
Diskrete ZVs sind jedoch besser geeignet, um das Konzept zu
verstehen.
260 / 425
Diskrete Zufallsvariablen:
Die Wahrscheinlichkeitsfunktion

I Die Wahrscheinlichkeitsfunktion einer diskreten ZV ist gegeben als:


(
P(X = xi ) = Pi für x ∈ T = {x1 , x2 , . . . }
f (x ) =
0 sonst.

mit Pi ∈ [0, 1] und = 1.


P
i=1 Pi
I Die Wertemenge von X wird auch als Träger bezeichnet
(T = {x1 , x2 , . . . }).
I Merke: Eine ZV ist keine konkrete Variable, sondern eine Funktion,
die angibt, mit welcher Wahrscheinlichkeit bei einem
Zufallsexperiment eine bestimmte Realisierung der Zufallszahl eintritt.

261 / 425
Diskrete Zufallsvariablen
- ein konkretes Beispiel

I Beispiel: Augenzahl beim Würfeln.


I Die Wahrscheinlichkeitsfunktion der Augenzahl beim Würfeln ist
gegeben als:

.2
für x = 1

 1/6

für x = 2

 1/6

.15



1/6 für x = 3




f (x ) = für x = 4
f(x)
.1
1/6
für x = 5



 1/6 .05

für x = 6



 1/6

0 sonst.


0

1 2 3 4 5 6
Augenzahl beim Würfeln

262 / 425
Diskrete Zufallsvariablen:
Die Verteilungsfunktion

I Wird die Wahrscheinlichkeitsfunktion kumuliert, erhält man die


Verteilungsfunktion:

F (x ) = P(X ≤ x ) = f (xi ) =
X X
Pi
xi ≤x xi ≤x

I Die Verteilungsfunktion setzt mindestens ein ordinales Skalenniveau


voraus.
I Sie gibt für jeden Wert x der Verteilung an, welcher Anteil der Fälle
≤ x ist.

263 / 425
Diskrete Zufallsvariablen
- zurück zum Beispiel

I Die Verteilungsfunktion der Augenzahl beim Würfeln ist gegeben als:

1
für ≤1

.9

1/6 x

.8

für ≤2

2/6 x

.7


für ≤3

3/6 x

.6

F(x)
F (x ) =

.5
 4/6 für x ≤4
.4

für ≤5

 5/6 x
.3


für ≤6

 6 .2
/6 x
.1

1 2 3 4 5 6
Augenzahl beim Würfeln

264 / 425
Diskrete Zufallsvariablen
- ein komplexeres Beispiel
I Beispiel: Summe der Augenzahlen zweier Würfel.
Tabelle 58: Augensumme zweier Würfel

xi 2 3 4 5 6 7 8 9 10 11 12
f (x ) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

F (x ) 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 36/36

Abbildung 53: Augensumme zweier Würfel


.2

1
.9
.8
.15

.7
.6
F(x)
f(x)
.1

.5.4
.3
.05

.2
.1
0

2 4 6 8 10 12 2 3 4 5 6 7 8 9 10 11 12
Summe Augenzahl zweier Würfel Summe Augenzahl zweier Würfel

265 / 425
Diskrete Zufallsvariablen:
Median und p-Quantile
I Aus der Verteilungsfunktion können der Median oder andere
p-Quantile bestimmt werden.

Abbildung 54: Augensumme zweier Würfel: Verteilungsfunktion


1
.9
.8
.7
.5 .6
F(x)
.4
.3
.2
.1

x.25 x.50 x.75


2 3 4 5 6 7 8 9 10 11 12
Summe Augenzahl zweier Würfel

266 / 425
Diskrete Zufallsvariablen:
Erwartungswert

I Analog zum Mittelwert kann der Erwartungswert (µ) berechnet


werden:

E (X ) = µ = x1 p1 + x2 p2 + · · · = xi pi = xi f (xi )
X X

i i

I Zum Vergleich die Formel zur Berechnung des Mittelwertes aus


Häufigkeitsdaten:
k k
1X
x̄ = aj hj =
X
aj f j
n j=1 j=1

267 / 425
Diskrete Zufallsvariablen:
Varianz und Standardabweichung

I Analog zur Varianz einer Stichprobe (s 2 ) kann die Varianz einer


diskreten Zufallsvariable (σ 2 ) berechnet werden:

Var (X ) = σ 2 = (x − µ)2 · pi = (x − µ)2 · f (xi )


X X

i i

I Zum Vergleich die Formel zur Berechnung der empirischen Varianz


(s 2 ) aus Häufigkeitsdaten:
k k
1X
s2 = hj (aj − x̄ )2 = fj (aj − x̄ )2
X
n j=1 j=1

I Weiterhin gilt, dass die Standardabweichung


√ (σ) der Wurzel der
Varianz entspricht: σ = σ 2

268 / 425
Erwartungswert und Varianz
- ein Rechenbeispiel

Tabelle 59: Augensumme zweier Würfel: Erwartungswert und Varianz


xi f(x) xi · f (x ) (xi − µ) (xi − µ)2 (xi − µ)2 · f (x )
2 1/36 2/36 -5 25 25/36

3 2/36 6/36 -4 16 32/36

4 3/36 12/36 -3 9 27/36

5 4/36 20/36 -2 4 16/36

6 5/36 30/36 -1 1 5/36

7 6/36 42/36 0 0 0/36

8 5/36 40/36 1 1 5/36

9 4/36 36/36 2 4 16/36

10 3/36 30/36 3 9 27/36

11 2/36 22/36 4 16 32/36

12 1/36 12/36 5 25 25/36

µ = 252/36 = 7 σ 2 = 210/36 = 5, 832


P

269 / 425
Zusammenfassung:
Diskrete Zufallsvariablen

I ZVs sind Funktionen, die angeben, mit welcher Wahrscheinlichkeit


eine bestimmte Realisierung der ZV eintritt bzw. wie die
Beobachtungen in einem unendlich oft wiederholten
Zufallsexperiment verteilt sind.
I Die Wahrscheinlichkeiten (pi bzw. f (xi )) der Elementarereignisse
können analog zu den relativen Häufigkeiten beobachteter Variablen
(hi ) verstanden werden.
I Somit lassen sich Maßzahlen (z.B. µ, σ 2 ) analog zu den Formeln für
relative Häufigkeitstabellen berechnen.
I Die Elementarereignisse einer ZV (T = {x1 , x2 , . . . }) nehmen dann den
Platz der beobachteten Ausprägungen (a1 , a2 , · · · , ak ) ein.
I Die Wahrscheinlichkeiten der Elementarereignisse (pi bzw. f (xi ))
nehmen den Platz der relativen Häufigkeiten (hi ) ein.

270 / 425
Zusammenfassung:
Zufallsvariablen

I Das Wichtigste: Maßzahlen zur Beschreibung einer Stichprobe (z.B.


x̄ , sXY ) können als ZVs verstanden werden.
I Ist die Wahrscheinlichkeits- bzw. Dichtefunktion (bei stetigen ZVs)
bekannt, können wir zum Beispiel Aussagen darüber machen, . . .
I in welchem Intervall der wahre Wert in der Grundgesamtheit (z.B. µ)
mit einer bestimmten Wahrscheinlichkeit liegt (Konfidenzintervall, zur
genauen Interpretation siehe nächste Sitzung).
I wie wahrscheinlich es ist, dass ein Zusammenhang in der Stichprobe
tatsächlich auch in der Grundgesamtheit existiert.
I Kurz: Wir benötigen ZVs, um Inferenzstatistik betreiben zu können.

271 / 425
Stetige Zufallsvariablen

I ZVs sind stetig, wenn zwischen zwei beliebigen Werten a und b


unendlich viele Werte liegen.
I Stetige ZVs haben daher unendlich viele Elementarereignisse.
I Daher können einzelne Elementarereignisse nicht sinnvoll betrachtet
werden; ihre Wahrscheinlichkeit geht gegen null.
I Stattdessen betrachten wir die Wahrscheinlichkeit für das Auftreten
von Ereignissen, die in einem bestimmten Intervall [a, b] liegen.

272 / 425
Stetige Zufallsvariablen:
Die Dichtefunktion
I Zur Bestimmung der Wahrscheinlichkeit wird die Dichtefunktion
(auch Wahrscheinlichkeitsdichte) verwendet.
I Die Wahrscheinlichkeit, mit der sich ein Wert innerhalb des Intervalls
[a, b] befindet, entspricht der Fläche, die für dieses Intervall unterhalb
der Dichtekurve liegt.

Abbildung 55: Dichtefunktion einer Zufallsvariablen


f(x)

P(a x b)

a b
x
273 / 425
Stetige Zufallsvariablen:
Berechnung von Wahrscheinlichkeiten
I Die Wahrscheinlichkeit, mit der sich ein Wert innerhalb des Intervalls
[a, b] befindet, entspricht:
Z b
P(a ≤ x ≤ b) = f (x )dx
a

Abbildung 56: Dichtefunktion einer Zufallsvariablen


f(x)

P(a x b)

a b
x
274 / 425
Stetige Zufallsvariablen:
Normierungseigenschaft der Dichtefunktion
I Die gesamte Fläche unter einer Dichtekurve beträgt immer 1.
I Dies wird als Normierungseigenschaft bezeichnet:
Z +∞
P(−∞ ≤ x ≤ +∞) = f (x )dx = 1
−∞

Abbildung 57: Normierungseigenschaft der Dichtefunktion

275 / 425
Stetige Zufallsvariablen:
Die Verteilungsfunktion

I Die Verteilungsfunktion einer stetigen ZV ist:


Z x
F (x ) = P(X ≤ x ) = f (t)dt
−∞

I F (x ) entspricht der aufsummierten Fläche der Dichtefunktion bis zum


Wert x .
I Die Dichte entspricht der Ableitung der Verteilungsfunktion:
F 0 (x ) = f (x ).

276 / 425
Stetige Zufallsvariablen:
Dichte- und Verteilungsfunktion

I Wie verhalten sich Dichte- und Verteilungsfunktion zueinander?

Abbildung 58: Dichte- und Verteilungsfunktion stetiger ZVs I

F(x)
f(x)

−4 −2 0 2 4 −4 −2 0 2 4
x x

277 / 425
Stetige Zufallsvariablen:
Dichte- und Verteilungsfunktion

I Funktionen ordnen einem x-Wert einen y-Wert zu.

Abbildung 59: Dichte- und Verteilungsfunktion stetiger ZVs II

f(a)

F(x)
f(x)

F(a)

−4 −2 0 2 4 −4 −2 a 0 2 4
a x x

278 / 425
Stetige Zufallsvariablen:
Dichte- und Verteilungsfunktion

I Die Fläche unter der Dichtekurve bis zum Punkt a entspricht F (a).

Abbildung 60: Dichte- und Verteilungsfunktion stetiger ZVs III

f(a)

F(x)
f(x)

F(a)
F(a)

−4 −2 0 2 4 −4 −2 a 0 2 4
a x x

279 / 425
Bestimmung von Flächen
eines Intervalls einer stetigen ZV

I Die Fläche im Intervall [a, b] entspricht F (b) − F (a).

Abbildung 61: Bestimmung von Flächen eines Intervalls bei stetigen ZVs

f(a)
F(b)

F(x)
f(x)

F(a)

f(b)

−4 −2 0 2 4 −4 −2 a0 b 2 4
ax b x

280 / 425
Stetige Zufallsvariablen:
Lage und Streuungsparameter

I Der Erwartungswert einer stetigen ZV ist:


Z +∞
E (X ) = µ = xf (x )dx
−∞

I Die Varianz einer stetigen ZV ist:


Z +∞
Var (X ) = σ =
2
(x − µ)2 f (x )dx
−∞

I Die Standardabweichung ist weiterhin σ = σ2

281 / 425
Stetige Zufallsvariablen:
p-Quantile

I Das p-Quantil (xp ) ist der Wert, der die Fläche unter der Dichtekurve
(f (x )) in zwei Teile teilt, wobei die Fläche links von xp dem Wert p
und die Fläche rechts von xp dem Wert (1 − p) entspricht.
I Die Verteilungsfunktion ordnet einem gegebenen Wert x einen Wert
F (x ) zu, der angibt, welcher Anteil der Fläche der Dichtefunktion
≤ x ist.
I Aus der Verteilungsfunktion lässt sich daher bestimmen, . . .
I welchem p-Quantil ein gegebener Wert x entspricht
I welcher Wert x einem gegebenen Wert p entspricht (inverse
Verteilungsfunktion)

282 / 425
Stetige Zufallsvariablen:
p-Quantile

I Bestimmung von p-Quantilen aus der Verteilungsfunktion.

Abbildung 62: Bestimmung von p-Quantilen bei stetigen ZVs


F(x)

f(x)

p
p (1−p)

−4 −2 xp 0 2 4 −4 −2 0 2 4
x xp x

283 / 425
Kurzübung 8

Kurzübung zu p-Quantilen bei stetigen ZVs


Bestimmen Sie mit Hilfe der Verteilungsfunktion folgende Quantile in der
Dichtefunktion: x0,5 , x0,1 , x0,9

Abbildung 63: Kurzübung: Verteilungs- und Dichtefunktion

.14
1
.9

.12
.8

.1
.7
.6

.08
F(x)

f(x)
.5

.06
.4
.3

.04
.2

.02
.1
0

0 5 10 15 20 0 5 10 15 20
x x

284 / 425
Die Normalverteilung

I Die prominenteste stetige Zufallsverteilung ist die Gaußsche


Normalverteilung.
I Die Normalverteilung ist . . .
I symmetrisch
I unimodal
I glockenförmig
I strebt gegen null, wenn x gegen −∞ oder +∞ strebt
I Warum ist die Normalverteilung so zentral?
I Verschiedene (insb. biologische) Eigenschaften sind normalverteilt
I Andere wichtige Verteilungen (z.B. χ2 -, t- oder F-Verteilungen) lassen
sich aus der Normalverteilung herleiten
I Das Wichtigste: Die meisten Stichprobenkennwerte sind normalverteilt
I Die statistische Fehlertheorie (dazu mehr im Themenkomplex lineare
Regressionsanalysen) geht von normalverteilten Fehlern aus

285 / 425
Die Normalverteilung:
Dichte- und Verteilungsfunktion

I Die Dichtefunktion der Normalverteilung ist definiert als:

1 (x − µ)2
!
f (x |µ, σ) = √ · exp −
σ 2π 2σ 2

, wobei µ und σ 2 dem Erwartungswert und der Varianz entsprechen.


I Die Verteilungsfunktion der Normalverteilung ist:

1 (t − µ)2
Z x !
F (x |µ, σ) = P(X ≤ x ) = √ · exp − dt
−∞ σ 2π 2σ 2

I Ist eine ZV X normalverteilt, schreiben wir auch X ∼ N(µ, σ).


p X ∼ N(10, 2) ist eine ZV mit µ = E (X ) = 10 und
Beispiel:
σ = Var (X ) = 2.
286 / 425
Die Normalverteilung:
Beispiele zu Parameterkombinationen
I Beispiele:
I Links: µ identisch, σ variiert: X1 ∼ N(10, 1), X2 ∼ N(10, 2),
X3 ∼ N(10, 4)
I Rechts: σ und µ variieren: X1 ∼ N(5, 1), X2 ∼ N(10, 2), X3 ∼ N(13, 3)

Abbildung 64: Normalverteilungen mit unterschiedlichen Parametern


.4

.4
.3

.3
f(x)

f(x)
.2

.2
.1

.1
0

0 5 10 15 20 0 5 10 15 20
x x

287 / 425
Die Standardnormalverteilung

I Eine Normalverteilung mit µ = 0 und σ = 1 (N ∼ (0, 1)) wird


Standardnormalverteilung genannt.
I Die Dichtefunktion vereinfacht sich dann zu:

1
!
x2
ϕ(x ) = √ · exp −
2π 2

I Die Verteilungsfunktion wird entsprechend:

1
!
t2
Z x
Φ(x ) = P(X ≤ x ) = √ · exp − dt
−∞ 2π 2

288 / 425
Die Standardnormalverteilung:
Wofür brauchen wir das?

I Die Werte der Verteilungsfunktion einer normalverteilten ZV lassen


sich nicht analytisch berechnen, sondern nur nummerisch
approximieren. Diese Werte müssen daher in Tabellen nachgeschaut
werden (dazu gleich mehr).
I Jede normalverteilte ZV (X ∼ N(µ, σ)) kann in eine
standardnormalverteilte Variable transformiert werden!
I Hierzu wird die sog. z-Transformation verwendet:

X −µ
Z=
σ

289 / 425
Die Standardnormalverteilung:
Wofür brauchen wir das?

I Beispiel: Wenn X ∼ N(21,4, 8,3), dann ist

(X − 21, 4)
Z= ∼ N(0, 1)
8, 3
I Die Verteilungsfunktion einer beliebigen normalverteilten ZV kann
daher durch die Verteilungsfunktion der Standardnormalverteilung
ausgedrückt werden.
Einfacher gesagt: Wir brauchen nur eine Tabelle, um p-Quantile zu
bestimmen:
x −µ
 
F (x ) = Φ = Φ(z)
σ
I Das p-Quantil einer N ∼ (µ, σ) verteilten ZV ist xp = µ + σ · zp
(ergibt sich aus Umformung von zp = (xp −µ)/σ)

290 / 425
Die Symmetrieeigenschaft der
Standardnormalverteilung

I Die p-Quantile der Standardnormalverteilung sind Φ(zp ) = p


I Da normalverteile ZVs symmetrisch sind, gilt Φ(−zp ) = 1 − Φ(zp )

Abbildung 65: p-Quantile symmetrischer ZVs I


Phi(z)

phi(z)

p=0,05 1−p=0,95

−4 −2 −zp=−1,65 0 2 4 −4 −2 0 2 4
z −zp=−1,65 z

291 / 425
Die Symmetrieeigenschaft der
Standardnormalverteilung

I Die p-Quantile der Standardnormalverteilung sind Φ(zp ) = p


I Da normalverteile ZVs symmetrisch sind, gilt Φ(−zp ) = 1 − Φ(zp )

Abbildung 66: p-Quantile symmetrischer ZVs II

p
Phi(z)

phi(z)

p=0,95 1−p=0,05

−4 −2 0 zp=1,65 2 4 −4 −2 0 2 4
z z zp=1,65

292 / 425
Die Symmetrieeigenschaft
- Warum ist das wichtig?

I Zur Bestimmung von p-Quantilen brauchen wir Tabellen, die einem


gegebenen p-Wert einen Wert zp zuordnen.
I Durch die Symmetrieeigenschaft ist es ausreichend, in diesen Tabellen
nur den Wertebereich zp ≥ 0 aufzuführen.
I Zusammenfassung:
I Für die Inferenzstatistik müssen wir p-Quantile von normalverteilten
ZVs bestimmen!
I Dies geht nur über entsprechende Tabellen, da sich die Werte nicht
analytisch bestimmen lassen!
I Zum Glück lassen sich die p-Quantile einer beliebig normalverteilten ZV
über die Verteilungsfunktion der Standardnormalverteilung bestimmen.
I Zum Glück reicht es - aufgrund der Symmetrieeigenschaft - außerdem
aus, nur den Wertebereich zp ≥ 0 aufzuführen.

293 / 425
Bestimmung von p-Quantilen:
Ein Beispiel
I Welchen Wert (zp ) hat das 0,95-Quantil?
Abbildung 67: Verteilungsfunktion der Standardnormalverteilung

Quelle: Bortz und Schuster (2010), S. 587. Anmerkung: Dargestellt ist nur ein Ausschnitt der kompletten Tabelle.
294 / 425
Bestimmung von p-Quantilen:
Ein Beispiel

I Welchen Wert (zp ) hat das 0,95-Quantil?


I Vorgehen:
I Suchen des Wertes p in der Tabelle. Die p-Werte befinden sich in den
einzelnen Zellen der Tabelle und sind aufsteigend sortiert.
I Nach links zum z-Wert schauen. Die erste Spalte gibt lediglich eine
Nachkommastelle an (1,60).
I Nach oben schauen, um die zweite Nachkommastelle zu identifizieren
(0,05).
I Addieren der beiden z-Werte (1,60+0,05=1,65): z0,95 = 1, 65.
I Welchen Wert (zp ) hat das 0,05-Quantil?

295 / 425
Wie geht es weiter?

I Wir haben nun fast alle Elemente zusammen, um die Inferenzstatistik


zu verstehen.
I Es fehlen noch die Grenzwertsätze:
I Unabhängige Wiederholung eines Zufallsvorgangs
I Gesetz der großen Zahlen
I Der zentrale Grenzwertsatz
I Diese Elemente schauen wir uns nächste Woche an.

296 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 5.1 und 5.3.
I Für Interessierte:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 5.2, 5.3.3.
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 5 und 6.

297 / 425
Einführung in die sozialwissenschaftliche Statistik
Inferenzstatistik: Schätzen

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#10

298 / 425
Kurze Erinnerung

I Letzte Sitzung haben wir uns über die Grundlagen der


Inferenzstatistik unterhalten.
I Dazu haben wir uns mit diskreten und stetigen Zufallsvariablen
beschäftigt.
I Spezielle Verteilungen:
I Normalverteilung
I Standardnormalverteilung
I Heute betrachten wir die Grenzwertsätze, die uns das Schätzen von
Parametern bzw. die Bestimmung von Konfidenzintervallen erlauben.

299 / 425
Unabhängige und identische
Wiederholung eines Zufallsvorgangs

I X sei eine ZV mit einer Verteilungsfunktion F und Erwartungswert µ


und Varianz σ 2 .
I Wird der Zufallsvorgang n mal unabhängig und identisch wiederholt,
ergeben sich n Realisierungen der ZV X (Xi mit i = 1, . . . , n).
I Dann ist X¯n = 1/n ni=1 Xi eine neue ZV, die den durchschnittlichen
P

Wert von X bei n Wiederholungen angibt.


I Die Ziehung einer Stichprobe vom Umfang n kann als die
Wiederholung von n unabhängigen (und identischen)
Zufallsvorgängen verstanden werden.
I Der Zufallsvorgang ist die Auswahl einer einzelnen
Untersuchungseinheit aus der Grundgesamtheit.

300 / 425
Das Gesetz der großen Zahlen

I Das Gesetz der großen Zahlen besagt nun, dass die ZV X¯n mit
steigendem Stichprobenumfang eine steigende Wahrscheinlichkeit
aufweist, nahe an µ zu liegen.
I Es gilt also
P(|X¯n − µ| ≤ ε) → 1 , für n → ∞
, wobei ε eine beliebig kleine positive Zahl ist.
I X¯n konvergiert daher gegen µ, wenn n → ∞ geht.
I Die Varianz von X¯n ergibt sich als Var (X¯n ) = σ 2 = σ2
n .
X¯n
I Die Wurzel hieraus ¯
qnennen wir den Standardfehler von Xn :
SE (X¯n ) = σ ¯ = σ = √
Xn
2
X¯n
σ
n
I Je größer also n, desto kleiner die Variation von X¯n um µ.

301 / 425
Der zentrale Grenzwertsatz

I Der zentrale Grenzwertsatz besagt, dass die Verteilung der Summe


von n unabhängig identisch verteilten ZVs (X1 , . . . , Xn ) mit
steigendem n gegen eine Normalverteilung konvergiert.
a √
X1 + X2 + · · · + Xn ∼ N(nµ, nσ)

I Unabhängig von der Verteilung einer Variable X konvergiert die


Summe von X1 + X2 + · · · + Xn gegen eine Normalverteilung (für
n → ∞).
I Entsprechend sind alle Kennzahlen, die auf dieser Summer beruhen
(z.B. x̄ , sx ), ebenfalls normalverteilt.
I Daumenregel: Ab n > 30 ist die Approximation meist akzeptabel.

302 / 425
Zusammenfassung:
Grenzwertsätze

I Durch die Ziehung einer Stichprobe vom Umfang n entstehen ZVs.


Beispiel: Mittelwert des Einkommens in einer Stichprobe. Der
konkrete Wert (X¯n ) ist die Realisierung einer ZV.
I Gesetz der großen Zahlen: Je größer die Stichprobe n, desto sicherer
können wir sein, dass die Realisierung der ZV nahe am wahren Wert
(µ) liegt: Varianz von X¯n nimmt mit n ab.
I Zentraler Grenzwertsatz: Die Verteilung von Stichprobenstatistiken
konvergiert bei genügend großem n gegen eine Normalverteilung.
I Alles in einem Satz: Statistiken können als Realisierungen von ZVs
verstanden werden, die bei großem n normalverteilt um den wahren
Parameter in der Grundgesamtheit sind.
I Stata Example 9 (sampling.do)

303 / 425
Schätzen

I Der interessierende Parameter (= wahrer Wert) in der GG (z.B. µ,


σ 2 ) ist unbekannt.
I Das Ziel ist, diesen Parameter zu schätzen.
I Stichprobenkennwerte (z.B. x̄ , sx2 ) dienen als Schätzer des wahren
Wertes.
I Die Schätzfunktion ist definiert als:

θˆn = g(X1 , . . . , Xn )

und realisiert sich durch die beobachteten Werte in der Stichprobe:

ϑˆn = g(x1 , . . . , xn )

I Dabei steht θ (bzw. ϑ) für einen beliebigen Parameter und g für eine
entsprechende Schätzfunktion.

304 / 425
Schätzfunktionen
für Mittelwert und Varianz

I Die Schätzfunktion des Parameters θ = µ (Erwartungswert/


Mittelwert) ist:
n
ˆ ¯ 1X
θ n = Xn = Xi
n i=1
I Für θ = Var (X ) = σ 2 (die Stichprobenvarianz) gilt:
n
1 X
θˆn = Sn2 = (Xi − X̄ )2
n − 1 i=1

Achtung: Hier wird nun durch n − 1 geteilt (anders als bei der
empirischen Varianz).
q
I Es gilt Sn = Sn2 .

305 / 425
Intervallschätzungen

I Wir wissen, dass eine Schätzung aus einer Stichprobe vom wahren
Wert in der Grundgesamtheit abweicht!
I Daher bietet es sich an, den Schätzwert (die sog. Punktschätzung)
um ein Intervall zu erweitern, das den wahren Wert mit großer
Wahrscheinlichkeit enthält.
I Dieses Intervall wird Konfidenzintervall genannt.
I Was brauchen wir dazu?
I Einen Punktschätzer (θˆn ), sprich: eine Statistik auf Basis der
Stichprobe (z.B. x̄ )
I Ein Verständnis der Verteilung dieses Schätzers (der sog.
Stichprobenverteilung), wenn man ihn als eine Realisation einer ZV
begreift
I Wir wissen: Die Stichprobenverteilung ist normalverteilt mit E (θˆn ) = θ;
ihre Varianz ist abhängig von n.

306 / 425
Die Stichprobenverteilung
I Stata Example 10 (sampling.do)
I Je größer n, desto kleiner die Varianz der Stichprobenverteilung.

Abbildung 68: Empirische Stichprobenverteilungen bei variierendem n

n=100 n=500
.015

.03
.01

.02
Density

Density
.005

.01
0

1300 1400 1500 1600 1700 1300 1400 1500 1600 1700
Geschätzter Mittelwert in 10000 Samples