Sie sind auf Seite 1von 425

Einführung in die sozialwissenschaftliche Statistik

Einführung: Warum Statistik?

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#1

1 / 425
Statistik ist sexy

I I keep saying the sexy job in the next ten years will be

statistician.“(Hal Varian, Chefökonom bei google)
I The alternative to good statistics is not no statistics, it’s bad

statistics.“(Bill James, Baseballstatistiker)

2 / 425
Wofür brauchen wir Statistik?

I Wozu brauchen wir Statistik?


I Um die Welt zu verbessern!
I Um Geld zu verdienen!
I Um Spaß zu haben!
I Um die wissenschaftliche Neugier zu stillen!

3 / 425
Um die Welt zu verbessern?!

I Statistik ist in nahezu allen Feldern, die das Wohlergehen der


Menschen betreffen, essentiell. Beispiele:
I Entwicklung von Medikamenten und Diagnoseverfahren
I Klimawandel verstehen, Strategien entwickeln
I Hunger- und Armutsbekämpfung
I Migrationsbewegungen verstehen und Herausforderungen meistern
I (Unfallfreies) autonomes Fahren
I Aber: Statistische Verfahren können auch für fragwürdige Ziele
eingesetzt werden. Beispiele:
I Cambridge Analytica verwendet die Nutzerdaten von Millionen
Facebook-Nutzern um daraus detaillierte Persönlichkeitsprofile zu
erstellen
I Auf Basis dieser Daten werden Nutzer mit individualisierten Strategien
manipuliert (Youtube Video)

4 / 425
Die Welt verbessern?!

I Der weltweite Wohlstand ist in den letzten 200 Jahren extrem


gewachsen.

Abbildung 1: Weltweite Einkommensverteilung, 1800-2015

Quelle: Pinker, S. (2018). Enlightenment Now: The Case for Reason, Science, Humanism, and Progress. Penguin.

5 / 425
Die Welt verbessern?!

I Gleichzeitig wächst die Einkommensungleichheit innerhalb von


Ländern enorm.

Abbildung 2: Einkommensungleichheit in Deutschland, 1991-2013

6 / 425
Die Welt verbessern?!

I Warum wächst Ungleichheit innerhalb von Ländern?


I Welche Stellschrauben stehen uns zur Verfügung?

Abbildung 3: Blau und Duncan’s Status Attainment Model, 1967

Quelle: https://dspace.library.uu.nl/bitstream/handle/1874/802/image2.gif
7 / 425
Geld verdienen

I Die Nachfrage nach Statistiker*innen und Datenanalysekenntnissen


steigt enorm.
I Die Gehälter ebenfalls.

8 / 425
Um wissenschaftliche Neugier
zu stillen

I Statistik ist die universelle Sprache der (empirischen) Wissenschaften.


I Wer Statistik (und Methodik im Allgemeinen) beherrscht, kann sicher
durch das breite Feld der Wissenschaften navigieren.
I Statistische und methodische Kenntnisse sind wichtige Werkzeuge des
kritischen Denkens.
I Welche empirische Evidenz für Aussage A ist überzeugend?
I Was können alternative Erklärungen für A sein?
I Welche empirische Evidenz würde meine Meinung zu B ändern?

9 / 425
Was kann Statistik?

I Daten beschreiben: Welche Eigenschaften haben die vorliegenden


Daten?
I Statistik erlaubt die Beschreibung der Eigenschaften von Daten
I Dabei werden die Informationen in den Daten reduziert und somit
verdichtet
I Schlüsse aus Daten ziehen: Was kann aus den vorliegenden Daten
geschlussfolgert werden?
I Generalisierung von Eigenschaften auf Population; Zukunftsprognosen
I Testen von theoretisch hergeleiteten Hypothesen
I Statistische Theorie beeinflusst den Datenerhebungsprozess: Wie
müssen Daten erhoben werden, um daraus Schlussfolgerungen ziehen
zu können?
I Stichprobentheorie definiert, wie Daten erhoben werden müssen, um
generalisieren zu können
I Zusammenspiel aus Theorie und Statistik beeinflusst die Wahl des
Forschungsdesigns

10 / 425
Deskriptive und Inferenzstatistik

I Die Beschreibung einer gegebenen Menge von Daten mit Hilfe


statistischer Verfahren wird auch als deskriptive Statistik bezeichnet.
I Die schließende Statistik wird auch als Inferenzstatistik bezeichnet.
I Inferenzstatistik, die Sie alle kennen:
Wenn am nächsten Sonntag Bundestagswahl wäre, welche Partei
”würden Sie wählen?“
I Ein Umfrageinstitut befragt 1.000 Personen. Das Berichten der
Ergebnisse ist dabei grundsätzlich deskriptiver Natur. Das statistische
Verfahren ist in diesem Fall eine (relative) Häufigkeitsauszählung.
I Das Erstellen einer Wahlprognose für die tatsächliche Bundestagswahl
(d.h. die Schlussfolgerung über das Wahlverhalten von ca. 62 Millionen
Wahlberechtigten auf Basis der Stichprobe von 1.000 Wähler*innen)
ist dagegen Inferenzstatistik.
I Wir probieren das mal aus! Gehen Sie nochmals zu menti.com und
verwenden Sie den Code XX XX XX.

11 / 425
Statistik im Forschungsprozess

Abbildung 4: Der Forschungsprozess im Überblick

Quelle: Nach Jann (2005), S. 2.

12 / 425
Statistik im Forschungsprozess

Abbildung 5: Statistik im Forschungsprozess

Quelle: Nach Jann (2005), S. 2.

13 / 425
Vorlesungsinhalt

1. Einführung
2. Grundlagen der Statistik
3. Deskriptive Statistik
3.1 Univariate Deskription
3.2 Bivariate Deskription/ Zusammenhangsmaße
4. Schließende Statistik/ Inferenzstatistik
4.1 Grundlagen
4.2 Schätzen
4.3 Testen
5. Lineare Regressionsanalysen

14 / 425
Ablauf

I Zwei Sitzungen pro Woche


I Erste Sitzung hat Vorlesungscharakter
I Formale statistische Theorie
I Anwendungsbeispiele
I Kurzübungen
I Stata-Beispiele
I Zweite Sitzung hat Übungscharakter
I Wiederholung des Vorlesungsstoffes anhand von praktischen Beispielen
I Raum für Nachfragen und Diskussionen
I Übungsaufgaben
I Ggf. werden Teile der Übungen auch für Vorlesungen verwendet.

15 / 425
Terminplan

Tabelle 1: Vorlesungsablauf
Nr. Datum Themenblock Inhalt
1 21.10. Einführung Einführung, Organisatorisches
2 28.10. Grundlagen Grundbegriffe, Skalenniveaus
3 04.11. Deskriptive Statistik Häufigkeitsverteilungen
4 11.11. Lagemaße
5 18.11 Lage- und Streuungsmaße
6 25.11 Konzentrationsmaße
7 02.12. Kreuztabellen
8 09.12. Kovarianz und Korrelation
9 16.12. Inferenzstatistik Grundlagen, Zufallsvariablen
10 13.01. Schätzen
11 20.01. Testen
12 27.01. Lineare Regression Grundlagen
13 03.02. Interaktionseffekte
14 10.02. Abschlusssitzung Wiederholung, offene Fragen
15 17.02. Klausur Klausur

16 / 425
Zeiten und Räume

I Wann und Wo?


I Raum: HZ 5
I Vorlesung: 14-16 Uhr
I Übung: 16-18 Uhr

17 / 425
Veranstaltungsbegleitende Tutorien

I Insgesamt gibt es 8 veranstaltungsbegleitende Tutorien.


I Beginn ab der dritten Vorlesungswoche (ab 01.11.). Besprochen
werden jeweils die Inhalte der vorherigen Woche.
I Übungsaufgaben in offener Form
I Übungsaufgaben im Klausurformat (Multiple Choice)
I Raum für Nachfragen und Diskussionen
I Wiederholung der Vorlesungsinhalte
I Die aktive Teilnahme an einem Tutorium wird dringend empfohlen.
I Die Einreichung von mindestens 6 Übungsblättern ist verpflichtend
und eine Voraussetzung für die Klausurteilnahme. Einreichung der
Blätter spätestens in der Woche nach Veröffentlichung der Vorlesung.
I Melden Sie sich zu einem der Tutorien über OLAT an.
I Hierzu finden Sie in OLAT Gruppen“für alle Tutorien (Modul

Einschreibung Tutorien“)

18 / 425
Tutorien - wann, wo und mit wem?

Tabelle 2: Veranstaltungsbegleitende Tutorien


Wochentag Uhrzeit Raum TutorIn
Dienstag 10-12 Uhr PEG 1G.192 Walter Schröder
Dienstag 12-14 Uhr SH 4.105 Anne Schäfer
Dienstag 14-16 Uhr HZ 15 Ulrich Stößel
Dienstag 18-20 Uhr SH 3.104 Pia Bernstein
Mittwoch 10-12 Uhr PEG 1G.107 Anne Schäfer
Mittwoch 14-16 Uhr SH 3.101 Ulrich Stößel
Donnerstag 12-14 Uhr PEG 1G.165 Walter Schröder
Freitag 14-16 Uhr SH 3.104 Pia Bernstein

19 / 425
Klausur - wann, wo und wie?

I Die Klausur wird als e-Klausur geschrieben und dauert 90 Minuten.


Online zu Hause oder im PC-Pool. Nähere Infos später.
I Sie findet in der letzten Vorlesungswoche am 17.02., um 14 oder 16
Uhr statt.
I Neben der Anmeldung über QIS ist es zwingend notwendig sich über
OLAT zu registrieren (mehr dazu im Januar).
I Zulassungsvoraussetzung: Teilnahme an einer Probeklausur (in
OLAT) und Einreichung von 6 Übungsblättern in den Tutorien.
I Erlaubte Hilfsmittel:
I Taschenrechner (Handy ist in der Klausur nicht erlaubt!)
I Formelsammlung zur Vorlesung
I Die Klausur wird im Multiple-Choice Format geschrieben.
I Vier Antwortalternativen, von denen immer eine richtig ist.
I Für jede richtige Antwort gibt es einen Punkt.
I Insgesamt 45 Fragen, d.h. durchschnittlich 2 Minuten pro Frage.
I Die Klausur ist ab 23 Punkten bestanden (siehe Bewertungsschema).
20 / 425
Probeklausur

I Die Probeklausur wird online in OLAT geschrieben.


I Die Probeklausur ist ab dem 24.01. verfügbar und muss bis zum
06.02. geschrieben werden.
I Die Probeklausur hat die gleiche Schwierigkeit wie die
Abschlussklausur. Wenn Sie die Probeklausur ernst nehmen, haben
Sie einen guten Indikator für ihren Leistungsstand.
I Die Teilnahme an der Probeklausur ist Voraussetzung für die
Teilnahme an der Abschlussklausur.

21 / 425
Nachschreibeklausur

I Die Nachschreibeklausur findet am 10.03. um 14 Uhr statt.


I Der Raum wird kurzfristig bekannt gegeben.
I Mitschreiben können Sie, wenn Sie entweder durch die eigentliche
Klausur durchgefallen sind–in diesem Fall werden Sie innerhalb von
drei Tagen nach der eigentlichen Klausur persönlich per Mail
benachrichtigt–oder,
I wenn Sie an der eigentlichen Klausur begründet nicht mitschreiben
konnten–in diesem Fall ist ein Attest notwendig.

22 / 425
Bewertungsschema der Klausur

Tabelle 3: Bewertungsschema der Klausur


Punkte Bewertung Note
≤22 5,0 nicht ausreichend
23-24 4,0 ausreichend
25-26 3,7 ausreichend
27-28 3,3 befriedigend
29-30 3,0 befriedigend
31-32 2,7 befriedigend
33-34 2,3 gut
35-37 2,0 gut
38-40 1,7 gut
41-43 1,3 sehr gut
44-45 1,0 sehr gut

23 / 425
Klausur - Beispiele

1. Der Modus einer Verteilung entspricht. . .


O dem Wert mit den kleinsten absoluten Abständen zu allen Daten.
O dem Wert mit den kleinsten Abstandsquadraten zu allen Daten.
O dem Wert mit der größten Häufigkeit.
O dem Wert, der sich durch eine Teilung der Daten in der Mitte ergibt.
2. Bestimmen Sie den Modus der folgenden geordneten Urliste: 1, 1, 2,
2, 2, 3, 3, 3, 3, 4, 4, 5, 6.
O 3
O 2
O 2,8
O 4

24 / 425
Materialien

I Alle Materialien finden Sie in OLAT (hier oder über die Navigation
FB03>Ihr Studiengang>Statistik/Forschungskompetenzen 1)
I Foliensatz (Vorlesung)
I Übungsblätter und -lösungen
I Formelsammlung
I Zip-Ordner mit Stata-Beispielen.
I Videoaufzeichnungen der Vorlesung und Übung, sowie der Tutorien
I Achtung! Die Materialien werden regelmäßig aktualisiert.
I Lösungen zu Übungsblättern der Vorlesung und Tutorien
I Post-lecture-Versionen vergangener Vorlesungen (mit Lösungen der
Kurzübungen)
I OLAT-Link ausgeschrieben: https://olat-ce.server.uni-
frankfurt.de/olat/auth/RepositoryEntry/13310787588

25 / 425
Literatur

I Vorlesungsbegleitendes Buch (verpflichtend):


I Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg.
I Verfügbar als eBook in der Bibliothek (hier)
I Daneben Verweise auf freiwillige Zusatzliteratur:
I Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer.
I Bortz & Schuster (2010): Statistik für Human- und
Sozialwissenschaftler. 7. Auflage. Berlin/ Heidelberg: Springer.
I Beide als eBook in der Bibliothek verfügbar (hier und hier)

26 / 425
Einführung in die sozialwissenschaftliche Statistik
Grundbegriffe und Skalenniveaus

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#2

27 / 425
Untersuchungseinheiten und
Grundgesamtheit

I Untersuchungseinheiten: Objekte, über die Daten erhoben werden.


Beispiel: Individuen, Nationen, Organisationen, Firmen, Städte, etc.
I Grundgesamtheit: Menge aller Untersuchungseinheiten, über die
Aussagen getroffen werden sollen. Die Grundgesamtheit (GG) ist vor
einer Untersuchung festzulegen.
Beispiel: Student*innen an der Goethe Universität; alle Personen mit
deutscher Staatsbürgerschaft; alle europäischen Länder; alle
erwachsenen Personen, die in Deutschland in einem Privathaushalt
wohnen.
I Teilgesamtheit/ Teilpopulation: Teilmenge der Grundgesamtheit.

28 / 425
Stichprobe
I Stichprobe (oder Auswahl/ Sample): Teilmenge der Grundgesamtheit,
über die Daten gesammelt wird.
I Die Verwendung von Stichproben (Teilerhebungen) ist in den
Sozialwissenschaften üblich; typischerweise aus pragmatischen
Gründen.
Beispiel: Wahlprognose auf Basis einer Stichprobe von 1.000 Wählern.
I In anderen Fällen ist die Teilerhebung zwingend erforderlich.
Beispiel: Crashtests bei PKWs.

Abbildung 6: Grundgesamtheit und Stichprobe

29 / 425
Stichprobe

I Stichproben sollen möglichst getreue Abbildungen der


Grundgesamtheit darstellen.
I Eine getreue Abbildung der GG nennt man unverzerrte oder
repräsentative Stichprobe.
I Sind bestimmte Merkmale in der Stichprobe über- oder
unterproportional vertreten, spricht man von einer verzerrten
Stichprobe.
I Eine unverzerrte Stichprobe erreicht man am besten durch eine
Zufallsstichprobe aus der GG.
I Mehr dazu im Themenkomplex Inferenzstatistik.

30 / 425
Variablen/ Merkmale

I Untersuchungseinheiten weisen Eigenschaften bzw. Merkmale auf.


Beispiele:
I Individuen: Geschlecht, Körpergröße, Einkommen, höchster
Bildungsabschluss, Arbeitsmarktstatus
I Nationen: BIP, Sozialausgaben, Staatsform
I Eine statistische Variable ist die nummerische Repräsentation eines
Merkmals.
I Symbole: X , Y , Z , oder ...
I ...bei sehr vielen Variablen Xj = X1 , X2 , X3 , . . . , Xm ,
wobei m die Zahl der (vorliegenden/ verwendeten) Variablen ist.

31 / 425
Merkmalsausprägungen und
empirische Werte

I Variablen können mehrere Werte oder Ausprägungen annehmen.


I Die Summe aller möglichen Ausprägungen stellt den sogenannten
Merkmalsraum einer Variablen dar.
I Symbole: aj , bj , mit j = 1, .., k
I k: Zahl der Ausprägungen
I Von den möglichen Merkmalsausprägungen werden die tatsächlich
gemessenen Werte unterschieden.
Beispiel: Die Variable Temperatur in ◦ C kann theoretisch Werte
zwischen −273, 15◦ C und ∞◦ C annehmen. In einer
Temperaturmessung in drei Städten Deutschlands wurden die Werte
21, 4◦ C, 22, 5◦ C und 22, 8◦ C gemessen.
I Symbole: xi , yi , zi , oder ...
I x1i , x2i , . . . , xmi , mit i = 1, . . . , n
I n: Zahl der beobachteten Untersuchungseinheiten
I m: Zahl der beobachteten/ verwendeten Variablen
32 / 425
Die Datenmatrix

I Untersuchungseinheiten sind in Zeilen angeordnet (eine Zeile pro


Untersuchungseinheit).
I Variablen sind in Spalten angeordnet (typischerweise eine Spalte pro
Variable).
I Zellen enthalten die beobachteten Werte.

Tabelle 4: Struktur einer Datenmatrix


Variable 1 Variable 2 ... Variable m
Untersuchungseinheit 1
Untersuchungseinheit 2
..
.
Untersuchungseinheit n

33 / 425
Die Datenmatrix: Ein Beispiel

I Untersuchungseinheiten sind in Zeilen angeordnet (eine Zeile pro


Untersuchungseinheit).
I Variablen sind in Spalten angeordnet (typischerweise eine Spalte pro
Variable).
I Zellen enthalten die beobachteten Werte.

Tabelle 5: Struktur einer Datenmatrix - Ein Beispiel


Name Age Instrument ... Sex
Mick 78 vocals male
Keith 77 guitar male
Charlie 80 drums male
Ron 74 guitar male

34 / 425
Die Datenmatrix: Nummerische
Kodierung

I Computer und (erfahrene) Anwender mögen Zahlen lieber als Wörter.


I Qualitative/ kategoriale Variablen werden daher nummerisch kodiert.
I Ein sogenanntes Codebook gibt die Zuordnung von Merkmalen und
nummerischen Werten an.
Beispiel:
I Instrument: 1=vocals, 2=guitar, 3=drums
I Gender: 1=female, 2=male

Tabelle 6: Nummerische Kodierung von qualitativen Variablen


ID Age Instrument ... Sex
1 78 1 2
2 77 2 2
3 80 3 2
4 74 2 2
35 / 425
Die Datenmatrix - Abstrakte
Darstellung

I Untersuchungseinheiten i = 1, . . . , n sind in Zeilen angeordnet (eine


Zeile pro Untersuchungseinheit).
I Variablen sind in m Spalten angeordnet (typischerweise eine Spalte
pro Variable).
I Zellen enthalten die beobachteten Werte.

Tabelle 7: Struktur einer Datenmatrix


i x1i x2i ... xmi
1 x11 x21 ... xm1
2 x12 x22 ... xm2
.. .. .. ..
. . . ... .
n x1n x2n ... xmn

36 / 425
Die Datenmatrix - Anmerkung
zur Darstellung

I Die Darstellung dieser Datenmatrix weicht von der Darstellung im


Lehrbuch (Jann, 2005: S. 11) ab.
I Jann folgt der allgemeinen Konvention, dass in Tabellen zuerst die
Zeile und dann die Spalte indiziert wird.
I Entsprechend dieser Konvention, werden wir später auch die Zellen
einer Kreuztabelle benennen.

Tabelle 8: Struktur einer Datenmatrix bei Jann (2005: S. 11)

i x1i x2i ... xmi


1 x11 x12 ... x1m
2 x21 x22 ... x2m
.. .. .. ..
. . . ... .
n xn1 xn2 ... xnm
37 / 425
Die Datenmatrix - Anmerkung
zur Darstellung

I Wir folgen in der Darstellung der Datenmatrix einer anderen


(sinnvolleren) Konvention.
I Variablen können als x , y und z bezeichnet werden. Mit Index für die
Beobachtungen ergibt sich dann: xi , yi und zi , der Index i wird also
an die Bezeichnung der Variable angehängt.
I Werden Variablen nicht als x , y und z, sondern als x1 , x2 und x3
bezeichnet, so wird dieser Index Bestandteil der eigentlichen
Variablenbezeichnung und der Index i entsprechend hinten
angehängt: x1i , x2i und x3i .
I Anmerkung für Klausur:
I Für die Klausur ist dieser Unterschied in der Notation nicht relevant.
Wir werden im Folgenden lediglich mit den Variablenbezeichnungen x ,
y und z arbeiten.
I Es wird keine Fragen geben, die sich auf die Indizierung der Zellen
einer Datenmatrix beziehen.
38 / 425
Kurzübung 1

Kurzübung zur Datenmatrix


Unten sehen Sie drei ausgefüllte Fragebögen, übertragen sie die Informationen in eine
Datenmatrix!

ID = 1 ID = 2 ID = 3
1. Welches Geschlecht 1. Welches Geschlecht 1. Welches Geschlecht
haben Sie? haben Sie? haben Sie?
O männlich X männlich X männlich
X weiblich O weiblich O weiblich
2. Welche Partei haben 2. Welche Partei haben 2. Welche Partei haben
Sie gewählt? Sie gewählt? Sie gewählt?
O CDU X CDU O CDU
O SPD O SPD X SPD
O Linke O Linke O Linke
X Grüne O Grüne O Grüne
O FDP O FDP O FDP
3. Wie alt sind Sie? 3. Wie alt sind Sie? 3. Wie alt sind Sie?
24 Jahre. 48 Jahre. 31 Jahre.

39 / 425
Die Datenmatrix in der Praxis

I Außer bei der expliziten Analyse von Texten, werden fast


ausschließlich nummerische Kodierungen verwendet.
I Statistiksoftware erlaubt die Vergabe von sogenannten Labels.
I Labels sind Zeichenfolgen (Wörter), die nummerischen Kodierungen
zugeordnet sind.
I Stata Example 1 (datamatrix.do)

40 / 425
Diskrete und stetige Variablen

I Diskrete Variablen können nur eine abzählbare Zahl von


Ausprägungen annehmen (abzählbar unendlich oder endlich viele)
Beispiele:
I Individuen: Schulnoten, Wohnort, Zahl der Kinder, Parteipräferenz
I Nationen: Zahl der Handelsverträge, Staatsform, Einwohnerzahl
I Stetige Variablen können unendlich viele Werte innerhalb eines
Intervalls annehmen; d.h. es gibt unendlich viele feine Abstufungen.
Beispiele:
I Individuen: Körpergröße, Körpertemperatur, Gewicht, Blutmenge
I Nationen: Fläche, Durchschnittstemperatur
I Quasi-stetige Variablen sind von Natur aus stetig, aber nur diskret
gemessen.
Beispiele:
I Individuen: Alter wird oft in Jahren abgefragt, allenfalls in Tagen.
I Nationen: Fläche wird in Quadratkilometern angegeben, mit zwei oder
drei, aber nicht mehr Nachkommastellen.

41 / 425
Quantitative und qualitative Variablen

I Quantitative Variablen erfassen Quantitäten (Ausmaße/ Intensitäten).


Quantitative Variablen lassen sich immer der Größe nach ordnen.
Beispiele:
I Individuen: Einkommen, Zahl der Kinder, Schulnoten
I Nationen: Bruttoinlandsprodukt (BIP), Sozialausgaben in % des BIP,
Zahl der Olympiamedaillen
I Qualitative Variablen erfassen Qualitäten und keine Ausmaße.
Qualitative Variablen haben keine inhärente Ordnung.
Beispiele:
I Individuen: Parteipräferenz, Augenfarbe, Lieblingsband
I Nationen: Nachbarländer, Staatsform, Name des Staatsoberhauptes

42 / 425
Dichotome und polytome Variablen

I Dichotome Variablen haben zwei Ausprägungen.


Beispiele:
I Individuen: biologisches Geschlecht, arbeitslos (ja/nein), Beteiligung
bei der letzten Wahl (ja/nein)
I Nationen: Krieg oder Frieden, Demokratie (ja/nein), UN-Mitglied
(ja/nein)
I Polytome Variablen können mehr als zwei Ausprägungen annehmen.
Beispiele:
I Individuen: Parteipräferenz, Bildungsabschluss, Einkommen
I Nationen: Staatsform, BIP, Zahl der Kriege seit 1945

43 / 425
Manifeste und latente Variablen

I Manifeste Variablen können direkt gemessen/ beobachtet werden.


Beispiele:
I Individuen: Körpergröße, Körpertemperatur, Zahl der Kinder,
Einkommen, Arbeitsmarktstatus
I Nationen: Einwohnerzahl, BIP, Zahl der Kriege seit 1945, Zahl der
Parteien im Parlament
I Latente Variablen lassen sich nicht direkt beobachten. Sie müssen
über Indikatoren gemessen werden.
Beispiele:
I Individuen: Ausländerfeindlichkeit, Lebenszufriedenheit, Intelligenz
I Nationen: Pressefreiheit, Nationalismus, sozialstaatliche Generösität,
Aggression gegen andere Staaten

44 / 425
Messen

I Messen ist die Zuordnung von Zahlen zu Objekten gemäß



festgelegten Regeln“(Stevens 1946, zitiert nach Jann 2005: 13).
I Bei quantitativen Variablen weisen die Messwerte Relationen
zueinander auf, die den beobachteten Relationen entsprechen (sollen),
d.h. die empirische Relation wird in eine nummerische Relation
übertragen.
Beispiele:
I Einfach: Messung von Einkommen, Körpergröße, Körpertemperatur
oder Zahl der Kinder
I Schwieriger: Intelligenz, Ausländerfeindlichkeit, Parteiidentifikation

45 / 425
Skalenniveaus

I Abhängig von der zu messenden Eigenschaft und dem verwendeten


Messinstrument, werden die Messwerte auf unterschiedlichen Skalen
gemessen. Man spricht auch von Skalenniveaus oder -typen.
I Das Skalenniveau entscheidet über den Informationsgehalt der
gemessenen Daten.
I Skalenniveaus:
I Nominalskala
I Ordinalskala
I Intervallskala
I Ratioskala
I Absolutskala

46 / 425
Die Nominalskala

I Die Nominalskala besitzt den geringsten Informationsgehalt.


I Den beobachteten Ausprägungen können beliebige (aber eindeutige)
nummerische Werte zugeordnet werden.
I Beispiel: Parteipräferenz

CDU 1 6 0
SPD 2 5 2
Linke 3 4 20
Grüne 4 3 6
FDP 5 2 8
AfD 6 1 -0.0001

47 / 425
Die Nominalskala

I Andere Beispiele:
I Individuen: Beruf(sbezeichnung), Geburtsland, Ethnie, Lieblingsband,
Geschlecht, Arbeitsmarktstatus, Beteiligung bei der letzten Wahl
(ja/nein)
I Nationen: Staatsform, UN-Mitglied (ja/nein), aktuelle
Regierungskoalition
I Zulässige Interpretation: Miriam und Friedrich haben die gleiche

Partei gewählt, die Grünen; Sascha hat eine andere Partei gewählt,
die AfD.“

48 / 425
Ordinalskala

I Variablen werden auf einer Ordinalskala gemessen, wenn den


Ausprägungen der Variablen eine Rangordnung inhärent ist, wobei nur
der Rang, nicht aber der Abstand zwischen den Rängen festgelegt ist.
I Beispiel: Höchster Bildungsabschluss

Hauptschule 1 0 -8
Realschule 2 5 -7
Fachabitur 3 20 -6
Abitur 4 80 -5
BA 5 81 -4
MA 6 9999 -3

49 / 425
Die Ordinalskala

I Andere Beispiele:
I Individuen: Schulnoten, militärischer Dienstrang, Selbsteinstufung des
Einkommens (niedrig/mittel/hoch)
I Nationen: Platzierung beim Biathlon der Frauen in PyeongChang 2018
I Zulässige Interpretation: Maria ist besser als Peter, denn sie hat eine

Eins, Peter hat nur eine Zwei.“

50 / 425
Intervallskala

I Intervallskalen implizieren eine Rangordnung, erlauben aber zusätzlich


den Vergleich der Abstände zwischen den Ausprägungen. Die
Intervallgröße (Einheit) und der Nullpunkt sind allerdings beliebig.
I Beispiele:
I Eindeutige Intervallskala: Temperatur in ◦ C, Temperatur in ◦ F,
Geburtsjahr
I Ja, aber manchmal strittig: IQ-Test und andere Messinstrumente für
latente Variablen
I Zulässige Interpretation: Vorgestern waren es 15 ◦ C, gestern waren

es 20 ◦ C und heute sind es 25 ◦ C. Der Temperaturanstieg von
vorgestern auf gestern und von gestern auf heute war gleich.“

51 / 425
Ratioskala/Verhältnisskala

I Ratioskalen besitzen zusätzlich zu den Eigenschaften der Intervallskala


einen natürlichen Nullpunkt. Lediglich die Einheiten sind frei wählbar.
I Beispiele:
I Individuen: Lebensalter in Jahren, Lebensalter in Stunden, Einkommen
in $, Einkommen in e
I Nationen: Alter der Demokratie, Fläche in Quadratkilometern, BIP in
1, 000 e, Höhe der Sozialausgaben in Mio. $
I Zulässige Interpretation: Torsten verdient 2,46 mal mehr als

Horst.“ Brasilien ist 24,8 mal so groß wie Deutschland.“

52 / 425
Absolutskala

I Die Absolutskala hat das höchste Skalenniveau.


I Absolutskalen besitzen einen natürlichen Nullpunkt und natürliche
Einheiten.
I Absolute Häufigkeiten werden auf einer Absolutskala gemessen.
Beispiele:
I Individuen: Zahl der Kinder, Zahl der bisherigen Vollzeitstellen
I Nationen: Zahl der Kriege seit 1945, Zahl der Parteien im Parlament
I Wahrscheinlichkeiten werden ebenfalls auf Absolutskalen gemessen.
Beispiel: Wahrscheinlichkeit, im Lotto zu gewinnen
I Zulässige Interpretation wie bei der Ratioskala.

53 / 425
Kurzübung 2

THINK - TALK - SHARE


Think-Talk-Share“-Kurzübungen werden nicht individuell auf Papier

gelöst sondern in der Gruppe diskutiert: 1. Denken Sie kurz nach! 2.
Diskutieren Sie mit ihrem/r Nachbarn/in! 3. Wir diskutieren gemeinsam!

Kurzübung zu Skalenniveaus (Think-Talk-Share)


Welche Skalenniveaus lassen sich den folgenden Merkmalen zuordnen?
I Semesterbeitrag
I Selbsteinstufung Links-Rechtsskala (1-10)
I Zahl der tödlichen Pkw-Unfälle
I Datum der Einschulung
I Studiengang

54 / 425
Skalenniveaus: Informationsgehalt und
sinnvolle Berechnungen

I Je höher das Skalenniveau, desto


I ...größer der Informationsgehalt
I ...mehr Rechenoperationen sind zulässig
I ...eingeschränkter ist die Zahl der zulässigen Transformationen.
Transformationen sind dann zulässig, wenn sie die enthaltenen
Informationen nicht verändern.

Tabelle 9: Sinnvolle Berechnungen nach Skalenniveau


Nominal Ordinal Intervall Ratio/Absolut
Auszählen ja ja ja ja
Ordnen nein ja ja ja
Differenzen bilden nein nein ja ja
Quotienten bilden nein nein nein ja

55 / 425
Skalenniveaus: zulässige
Transformationen und Interpretationen

Tabelle 10: Eigenschaften der Skalenniveaus


Skalenniveau Zulässige Transformation Interpretation
Nominal umkehrbar eindeutige (bi- gleich oder verschie-
jektive) den
Ordinal rangfolgebewahrende y = größer, kleiner oder
f (x ) mit xi > xj → yi > yj gleich
Intervall positiv lineare: y = ax + b Vergleichbarkeit von
mit a > 0 Differenzen
Ratio positiv proportionale: y = Aussagen über
ax mit a > 0 Verhältnisse, prozen-
tuale Vergleiche
Absolut keine bzw. nur iden- wie Ratioskala
titätsbewahrende: y = x
56 / 425
Transformationen: Beispiele

I Intervallskala: Umrechnung von Temperatur


x ◦ C → y ◦ F : 32 + 1, 8 · x ◦ C = y ◦ F
1
x ◦ F → y ◦ C : −32 + · x ◦F = y ◦C
1, 8

I Ratioskala: Umrechnung von Währungen


x e → y $ : 1, 22 · x e = y $
1
x$ → ye : · x$ = ye
1, 22

Währungskurs vom 11.02.2018, 13:39 Uhr.

57 / 425
Topologische und metrische Skalen

I Häufig wird zwischen topologischen und metrischen Skalenniveaus


unterschieden.
I Topologische Skalen: Nominal- und Ordinalskala
I Metrische (oder auch kardinale) Skalen: Intervall-, Ratio- und
Absolutskala
I Diese Unterscheidung ist relevant, da viele statistische Verfahren erst
ab der Intervallskala möglich sind.
Beispiele:
I Mittelwerte lassen sich nur sinnvoll für Variablen berechnen, die
mindestens intervallskaliert sind.
I Relative Häufigkeiten machen auch bei nominalskalierten Variablen
Sinn.
I Mehr dazu in den nächsten zwei Wochen. Dann beschäftigen wir uns
mit der (univariaten) Beschreibung von Variablen.

58 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Kapitel 2.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 1.3.
Bortz & Schuster (2010): Statistik für Human- und
Sozialwissenschaftler. 7. Auflage. Berlin/ Heidelberg: Springer,
Abschnitt 1.2 und 1.3.

59 / 425
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Häufigkeitsverteilungen

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#3

60 / 425
Kurze Erinnerung

I Letzte Woche haben wir über Grundbegriffe der Statistik gesprochen.


I Außerdem haben wir uns mit Skalenniveaus beschäftigt:
I Nominalskala
I Ordinalskala
I Intervallskala
I Ratio- und Absolutskala
I Heute beschäftigen wir uns mit Häufigkeitsverteilungen und
grafischen Darstellungen derartiger Verteilungen.

61 / 425
Univariate Deskription

I Univariate Deskription: Statistische Beschreibung einer einzelnen


Variablen.
I Vor jeder statistischen Analyse sollten die univariaten Verteilungen aller
Variablen angesehen werden.
I Hierdurch können ggf. Fehler in den Daten identifiziert und korrigiert
werden.
I Die Verteilungen haben ggf. Konsequenzen für die weitere statistische
Analyse.
Beispiel: Zusammenhang von Arbeitslosigkeit und Parteipräferenz lässt
sich nur analysieren wenn Sample Arbeitslose enthält.
I Univariate Verteilungen sind ggf. auch an sich von Interesse.
Beispiele:
I Parteipräferenzen (Prognose der Wahlergebnisse)
I Zahl der Kinder (Vorhersage demografischer Trends)
I Verteilung der Erwerbseinkommen (z.B. zur Analyse von
Einkommensungleichheit)

62 / 425
Häufigkeitsverteilungen

I Häufigkeit: Wie oft kommt eine bestimmte Ausprägung in einem


Datensatz vor?
Beispiel: Wie viele FDP-Wähler*innen sind in dem Datensatz
vorhanden? (Abzählen)
I Häufigkeitsverteilung: Beschreibung der Häufigkeiten der
(beobachteten) Merkmalsausprägungen einer Variablen.
Beispiel: Häufigkeiten der unterschiedlichen Parteipräferenzen.
I Häufigkeitsauszählungen sind für Variablen aller Skalenniveaus
möglich (ab Nominalskala). Aber nicht immer sinnvoll!
Beispiele:
I Häufigkeitsverteilung von Einkommen? Nur nach Kategorisierung
sinnvoll.
I Häufigkeitsverteilung der Parteipräferenzen? Häufig begrenzt auf
Parteien über 5%-Hürde, Rest in Sonstige Parteien“zusammengefasst.

I Stata Example 2 (frequency tables.do)

63 / 425
Häufigkeitsverteilung in Stata

. tabulate party_voted_DE
party_voted_DE | Freq. Percent Cum.
-----------------------+-----------------------------------
CDU/CSU | 693 37.30 37.30
SPD | 507 27.29 64.59
Die Linke | 193 10.39 74.97
Bündnis 90/ Die Grünen | 242 13.02 88.00
FDP | 110 5.92 93.92
AfD | 58 3.12 97.04
Piratenpartei | 20 1.08 98.12
NPD | 10 0.54 98.65
Andere Partei | 25 1.35 100.00
-----------------------+-----------------------------------
Total | 1,858 100.00
Relative Kumulative
Absolute
Quelle: ESS 8, Edition 1.0 Häufigkeiten relative
Häufigkeiten
(in %) Häufigkeiten
64 / 425
Häufigkeitsverteilungen -
formale Definition

I Die Auflistung der Werte xi , i = 1, . . . , n wird als Urliste bezeichnet


(Roh- oder Primärdaten): Urliste = x1 , . . . , xi , . . . , xn .
I Sind die Beobachtungen der Größe nach geordnet, sprechen wir von
einer geordneten Urliste: x1 ≤, . . . , ≤ xi ≤, . . . , ≤ xn .
I Durch die Auszählung der Häufigkeiten der einzelnen Ausprägungen
aj , j = 1, . . . , k, kann die Urliste zu den sog. Häufigkeitsdaten
zusammengefasst werden.
I Die Häufigkeitsdaten werden in Häufigkeitstabellen dargestellt.

65 / 425
Häufigkeitsverteilungen - formale
Definition

I Eine Häufigkeitstabelle kann für die Ausprägungen aj , j = 1, . . . , k


folgende Angaben enthalten:
h(aj ) = hj absolute Häufigkeit der Ausprägung aj
h
f (aj ) = fj = nj relative Häufigkeit der Ausprägung aj
H(aj ) = Hj absolute kumulierte Häufigkeit bis (und inkl.) aj
Hj
F (aj ) = Fj = n relative kumulierte Häufigkeit bis (und inkl.) aj
I Dabei gilt:
h1 + h2 + · · · + hk = n
f1 + f2 + · · · + fk = 1
I Relative Häufigkeiten haben Werte zwischen 0 und 1 und können in
Prozent ausgedrückt werden (×100).

66 / 425
Die Häufigkeitstabelle - Abstrakte
Darstellung

Tabelle 11: Aufbau einer Häufigkeitstabelle


aj hj fj Hj Fj
a1 h1 f1 = h1/n H1 = h1 F1 = H1/n
a2 h2 f2 = h2/n H2 = h1 + h2 F2 = H2/n
.. .. .. .. ..
. . . . .
ak hk fk = hk/n Hk = h1 + h2 + · · · + hk Fk = Hk/n
n 1
P

Pj
I Alternative Schreibweise für Hj : Hj = i=1 hi
Pj
I Alternative Schreibweise für Fj : Fj = 1
n i=1 hi
I (siehe Exkurs Summenzeichen)

67 / 425
Kumulierte Häufigkeiten

I Kumulierte Häufigkeiten sind typischerweise nur bei mindestens


ordinalskalierten Variablen informativ.
Beispiele:
I Likert-Skala: 24% der Befragten stimmen der Aussage A voll und

ganz oder teilweise zu.“Sinnvoll!
I Alter kategorisiert: 68% der Bevölkerung sind 64 Jahre oder

jünger.“Sinnvoll!
I Parteipräferenz: Kumulierte Wahrscheinlichkeiten sind hier nicht
sinnvoll, da die Reihenfolge der Kategorien beliebig ist.

68 / 425
Die Häufigkeitstabelle: Ein Beispiel

I Analyse des Items To what extent do you think people of a different



race or ethnic group from most German people should be allowed to
come and live here?“(Quelle: ESS 8, Edition 1.0, Deutschland).

Tabelle 12: Häufigkeitstabelle für Variable imdfetn


aj hj fj Hj Fj
1 (Allow many) 623 0, 2212 623 0, 2212
2 (Allow some) 1.383 0, 4911 2.006 0, 7124
3 (Allow few) 686 0, 2436 2.692 0, 9560
4 (Allow none) 124 0, 0440 2.816 1, 0000
2.816 1, 0000
P

Quelle: ESS 8, Edition 1.0.

69 / 425
Exkurs: Das Summenzeichen

n
xi = x1 + x2 + · · · + xn
X

i=1
I i = Laufparameter (mit Startwert=1)
I n = Endwert des Laufparameters
I xi = Summand

70 / 425
Das Summenzeichen: Ein Beispiel

I Beispiel: Datenmatrix mit n = 4 Fällen und einer Variable (Alter)

Tabelle 13: Alter von n=4 Befragten


ID Alter
1 78
2 77
3 74
4 80

71 / 425
Das Summenzeichen: Ein Beispiel

i xi
1 78
2 77
3 74
4 80

4
xi = x1 + x2 + x3 + x4
X

i=1
4
xi = 78 + 77 + 74 + 80 = 309
X

i=1

72 / 425
Das Summenzeichen - formale Definition

Definition des Summenzeichens


n
xi = x1 + x2 + · · · + xn
X

i=1

73 / 425
Kurzübung 3

Kurzübung zur Häufigkeitstabelle


Füllen Sie die fehlenden Zellen der folgenden Häufigkeitstabelle!

Tabelle 14: Kurzübung: Häufigkeitstabelle Parteipräferenz


aj hj fj Hj Fj
1 CDU 358
2 SPD 255
3 Grüne 144
4 Linke 90
5 FDP
1.000
P

74 / 425
Grafische Darstellungen von Häufigkeiten

I Darstellungen von Häufigkeiten in tabellarischer Form sind oft


unübersichtlich.
I Wichtige Eigenschaften von Verteilungen sind aus Tabellen oft nur
schwer herauszulesen.
I Grafische Darstellungen können helfen, wichtige Eigenschaften von
Verteilungen darzustellen.
I Unterschiedliche Variablen (und Zusammenhänge) bedürfen
unterschiedlicher grafischer Darstellungen.
I Die Wahl der richtigen“Grafik sollte gut überlegt sein.

I Grafiken sind nicht per se empfehlenswert, sondern müssen sinnvoll
eingesetzt werden.

75 / 425
Grafische Darstellungen -
ein paar Beispiele

Sinnvoll!

Abbildung 7: Kreisdiagramm der Parteipräferenz

6.30%
11.06%

39.71%
13.87%

29.05%

CDU/CSU SPD
Bündnis 90/ Die Grünen Die Linke
FDP

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Nur Parteien über 5%.
76 / 425
Grafische Darstellungen -
ein paar Beispiele

Sinnvoll! Aber nicht unbedingt notwendig!

Abbildung 8: Kreisdiagramm der Geschlechterverteilung

47.12%
52.88%

Male Female

Quelle: ESS 8, Edition 1.0.

77 / 425
Grafische Darstellungen -
ein paar Beispiele

Nicht sinnvoll!

Abbildung 9: Kreisdiagramm Alter

0.07%
0.04%
0.81%
0.11%
0.07%
0.18%
0.21%
0.25%
0.39%
0.18%
0.49%
0.42%
0.88%
0.95% 1.54%
2.07%
1.02%
1.12% 1.19%
1.47%
1.47%
1.23% 1.19%
1.12% 1.19%
1.26%
0.81%
1.16% 1.40%
0.91% 1.30%
1.33% 1.12%
1.23% 1.02%
1.16% 1.23%
1.44% 1.05%
1.68% 1.47%
1.19%
1.65% 1.90%
2.00% 1.12%
1.65% 1.51%
1.83% 1.33%
1.61%
1.79%
1.68%
1.68% 1.33%
1.79% 1.51%
1.79% 1.51%
1.83% 1.26%
1.23%
1.68% 1.30%
2.42% 1.40%
1.23%
1.16%
2.18% 1.72%
2.07% 1.44%
2.18%
2.25% 2.11%
2.18%
2.07%

Quelle: ESS 8, Edition 1.0.

78 / 425
Grafische Darstellungen -
ein paar Beispiele

Abbildung 10: Säulendiagramm der Parteipräferenz


40
39.71
30

29.05
Prozent
20

13.87
10

11.06

6.30
0

SU

P
ne

nk

FD
SP
/C

Li

U

ie
D

D
ie
C

/D
90
s
ni
nd

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Nur Parteien über 5%.

79 / 425
Grafische Darstellungen -
ein paar Beispiele

Balken- und Säulendiagramme sind identisch (um 90◦ rotiert)

Abbildung 11: Balkendiagramm der Parteipräferenz

CDU/CSU 39.71

SPD 29.05

Bündnis 90/ Die Grünen 13.87

Die Linke 11.06

FDP 6.30

0 10 20 30 40
Prozent

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Nur Parteien über 5%.
80 / 425
Grafische Darstellungen -
ein paar Beispiele

Bedingt sinnvoll!

Abbildung 12: Streifendiagramm der Einwanderungspräferenzen


1

0.04
0.24
.8

0.49
.6
Anteil
.4
.2

0.22
0

Allow many Allow some


Allow few Allow none

Quelle: ESS 8, Edition 1.0.

81 / 425
Grafische Darstellungen -
ein paar Beispiele
Streifendiagramme werden in der Regel zum Vergleich von Verteilungen
über mehrere Gruppen (Kategorien) verwendet.

Abbildung 13: Streifendiagramm der Einwanderungspräferenzen nach Geschlecht


1

0.04 0.05
0.23 0.25
.8

0.50
0.48
.6
Anteil
.4
.2

0.22 0.22
0

Männer Frauen

Allow many Allow some


Allow few Allow none

Quelle: ESS 8, Edition 1.0.


82 / 425
Darstellung von Variablen mit
wenigen Ausprägungen

I Variablen mit wenigen Ausprägungen lassen sich besonders gut mit


Balken-, Säulen-, Kreis- und Streifendiagrammen darstellen.
I Diese Diagramme zeigen die (absoluten oder relativen) Häufigkeiten
einzelner Ausprägungen/ Kategorien (aj ).
I Insbesondere nominal und ordinal skalierte Variablen müssen als
Häufigkeitsauszählungen dargestellt werden.
I Intervall-, ratio- und absolutskalierte Variablen können als
Häufigkeiten dargestellt werden.
I Bei wenigen Ausprägungen (Beispiel: Schulnoten) einfach.
I Bei vielen Ausprägungen (Beispiel: Einkommen, Alter) nur nach
Kategorisierung. Stata Example 3 (frequency tables.do)
I Alternativ können Variablen mit vielen Ausprägungen durch andere
Diagramme dargestellt werden (siehe nächste Woche).

83 / 425
Darstellung kumulierter Verteilungen
Darstellung der empirischen Verteilungsfunktion/ kumulierten relativen
Häufigkeitsverteilung als Treppenfunktion:
Pj
F (x ) = f (a1 ) + · · · + f (aj ) = i=1 fi , mit aj ≤ x < aj+1

Abbildung 14: Empirische Verteilungsfunktion der allgemeinbildenden Abschlüsse 1


Empirische kumulierte (relative) Verteilungsfunktion

Abitur
Fachabitur
.8

Realschule
.4 .6

Hauptschule
.2

Förderschule
Grundschule
kein Abschluss
0

1 2 3 4 5 6 7
Höchster Schulabschluss

Quelle: ESS 8, Edition 1.0.


84 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.1.1, Abschnitt 3.1.2 und Anhang A.6.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.1.
I Zum Summenzeichen:
Bortz & Schuster (2010): Statistik für Human- und
Sozialwissenschaftler. 7. Auflage. Berlin/ Heidelberg: Springer, Exkurs
2.1 (S. 27).

85 / 425
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Lagemaße

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#4

86 / 425
Kurze Erinnerung

I Letzte Woche haben wir über Häufigkeiten und ihre unterschiedlichen


Darstellungsformen in Häufigkeitstabellen gesprochen:
I Absolute Häufigkeiten
I Relative Häufigkeiten
I Kummulierte Häufigkeiten
I Heute beschäftigen wir uns mit Lagemaßen, die sich zur Beschreibung
von topologischen und metrischen Variablen eignen.

87 / 425
Lage- und Streuungsmaße

I Lage- und Streuungsmaße sind Maßzahlen zur Beschreibung von


Eigenschaften einer Verteilung.
I Dadurch wird die Information aus den Rohdaten verdichtet, was einen
(quantitativen) Vergleich zwischen Verteilungen ermöglicht.
Beispiel: Wie unterscheidet sich das durchschnittliche Einkommen von
Männern und Frauen?
I Welche Maßzahlen zulässig sind, hängt vom Skalenniveau der
Variable ab!

88 / 425
Arten von Maßzahlen

I Lagemaße beschreiben das Zentrum der Daten (auch Maße der


zentralen Tendenz genannt).
I Streuungsmaße beschreiben die Streuung/ Variation der Daten um
das Zentrum (auch Dispersionsmaße genannt).
I Maße der Schiefe und Wölbung beschreiben die Form von
Verteilungen (z.B. Symmetrie).
I Konzentrationsmaße beschreiben die Verteilung der Datensumme auf
die Merkmalsträger (Beispiel: Konzentration von Vermögen).

89 / 425
Ein Beispiel: Die Normalverteilung

I Die Normalverteilung lässt sich durch zwei Maßzahlen beschreiben


(mehr zu theoretischen Verteilungen im Abschnitt Inferenzstatistik).
I Dichtefunktion der Normalverteilung (definiert Form):

1 (x − µ)2
!
f (x |µ, σ 2 ) = √ · exp −
2πσ 2 2σ 2

I µ und σ 2 definieren die Lage und Form der Verteilung.


I µ ist der Mittelwert
I σ ist die Standardabweichung bzw. σ 2 die Varianz

90 / 425
Ein Beispiel: Die Normalverteilung

Abbildung 15: Zwei Normalverteilungen mit identischem Mittelwert und


unterschiedlichen Varianzen
.4
.3
f(x)
.2
.1

σ=2 σ=1
µ=5
0

0 2 4 6 8 10
x

91 / 425
Ein Beispiel: Generalisiertes Vertrauen

Abbildung 16: Histogramm der Variable generalisiertes Vertrauen

.4
µ=0
.3
Dichte

σ = 1,28
.2.1
0

−4 −2 0 2 4
Generalisiertes Vertrauen

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Die Abbildung zeigt die Verteilung der Variable generalisiertes Vertrauen, die hier mit Hilfe von sog.
konfirmatorischen Messmodellen auf Basis von drei einzelnen Items/ Fragen gebildet wurde.

92 / 425
Ein Beispiel: Generalisiertes Vertrauen

Abbildung 17: Histogramme der Variable generalisiertes Vertrauen nach


Geschlecht

.4
Männer Frauen

.4
µ = 0,01 µ = −0,01
.3

.3
Dichte

Dichte
σ = 1,27 σ = 1,30
.2

.2
.1

.1
0

−4 −2 0 2 4 −4 −2 0 2 4
Generalisiertes Vertrauen Generalisiertes Vertrauen

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Die Abbildung zeigt die Verteilung der Variable generalisiertes Vertrauen, die hier mit Hilfe von sog.
konfirmatorischen Messmodellen auf Basis von drei einzelnen Items/ Fragen gebildet wurde.
93 / 425
Lagemaße: Modus/ Modalwert

I Der Modus xM einer Verteilung ist der häufigste Wert.

Tabelle 15: Häufigkeitstabelle und Modus der Variable imdfetn


aj hj fj Hj Fj
1 (Allow many) 623 0, 2212 623 0, 2212
2 (Allow some) 1.383 0, 4911 2.006 0, 7124
xM =2
3 (Allow few) 686 0, 2436 2.692 0, 9560
4 (Allow none) 124 0, 0440 2.816 1, 0000
2.816 1, 0000
P

Quelle: ESS 8, Edition 1.0.

94 / 425
Lagemaße: Modus/ Modalwert

I Formel für nicht-gruppierte Daten:


xM = {xj |hj = max hk bzw. fj = max f (xk )}
I Wenn hj = max hk nicht eindeutig, können zwei Modi angegeben
werden (xM1 und xM2 ).

Tabelle 16: Fiktive Häufigkeitstabelle mit zwei Modi


aj hj fj
1 (Allow many) 200 0, 1
2 (Allow some) 800 0, 4
xM1 = 2, xM2 =3
3 (Allow few) 800 0, 4
4 (Allow none) 200 0, 1
2.000 1, 0000
P

95 / 425
Lagemaße: Modus/ Modalwert

I Bei metrisch skalierten Variablen und multiplen Modi kann auch der
Mittelwert berechnet werden, wenn die Modi nebeneinander liegen.

Tabelle 17: Modus bei metrisch skalierten Variablen mit zwei Modi
Anzahl Kinder hj fj
0 1200 0, 24
1 1400 0, 28
2 1400 0, 28
3 600 0, 12
4 300 0, 06
5 und mehr 100 0, 02
5.000 1, 0000
P

I xM1 = 1, xM2 = 2 ⇒ xM = 1+2


2 = 1, 5

96 / 425
Lagemaße: Modus/ Modalwert

I Bei metrisch skalierten und gruppierten Variablen kann die Klasse mit
der höchsten Häufigkeit oder die Klassenmitte angegeben werden.

Tabelle 18: Modus bei gruppierten metrisch skalierten Variablen


Einkommen [cj−1 , cj ) hj fj
bis 2000 e 800 0, 20
2000 - 4000 e 1000 0, 25
xM = 2000+4000
2 = 3000 4000 - 6000 e 800 0, 20
6000 - 8000 e 800 0, 20
8000 und mehr e 600 0, 15
4.000 1, 0000
P

I Der Ausdruck [cj−1 , cj ) bezeichnet ein Intervall, das die Klassengrenze


cj−1 mit einschließt und die Klassengrenze cj ausschließt (eckige
Klammer = eingeschlossen, runde Klammer = ausgeschlossen).
97 / 425
Lagemaße: Modus/ Modalwert

I Häufigkeitstabelle des Bruttoerwerbseinkommens (Ausschnitt)


I xM = 6600. Sinnvoll?

6520 | 1 0.00 98.20


6550 | 1 0.00 98.20
6557 | 1 0.00 98.21
6600 | 5 0.02 98.23
6666 | 1 0.00 98.23
6670 | 1 0.00 98.24
6676 | 1 0.00 98.24
6700 | 4 0.02 98.26
6715 | 1 0.00 98.27
6730 | 1 0.00 98.27
6787 | 1 0.00 98.28
6800 | 4 0.02 98.30

Quelle: SOEP 2009.

98 / 425
Zusammenfassung: Modus/ Modalwert

I Der Modus lässt sich ab dem nominalen Skalenniveau bestimmten.


I Typischerweise nur bei diskreten Variablen sinnvoll.
I (Quasi-)stetige Variablen nur nach Klassifizierung/ Gruppierung.
I Probleme:
I Nur bei Verteilungen mit eindeutigem Zentrum sinnvoll (nicht bei bi-
oder multimodalen Verteilungen)
I Bei kleinem n durch Zufallsschwankungen beeinflusst.
I Bei (quasi-)stetigen und diskreten Variablen mit sehr vielen (dünn
besetzten) Ausprägungen.

99 / 425
Lagemaße: Median

I Der Median x̃ ist die mittlere Beobachtung der geordneten Urliste.


I Der Median teilt die Daten in zwei gleich große Hälften.
I Eine sinnvolle Interpretation des Medians setzt mindestens ordinal
skalierte Variablen voraus.
I Formel:
bei ungeraden n
(
x n+1
x̃ = 2

2 (x 2 + x 2 +1 ) bei geraden n
1 n n

100 / 425
Lagemaße: Median

Beispiel (mit ungeradem n):


I Urliste (n = 11):
2, 4, 3, 1, 1, 5, 4, 3, 2, 4, 1
I Geordnete Urliste:
1, 1, 1, 2, 2, 3, 3, 4, 4, 4, 5
| {z } | {z }
x̃ = 3
I Da n = 11 gilt
x̃ = x n+1 = x 11+1 = x6 = 3
2 2

101 / 425
Lagemaße: Median

Beispiel (mit geradem n):


I Urliste (n = 12):
2, 4, 3, 1, 1, 5, 4, 2, 2, 4, 1, 5
I Geordnete Urliste:

1, 1, 1, 2, 2, 2, 3, 4, 4, 4, 5, 5
| {z } | {z }

x̃ = 2, 5
I Da n = 12, gilt

1 1 1 2+3
x̃ = (x n2 + x n2 +1 ) = (x 12 + x 12 +1 ) = (x6 + x7 ) = = 2, 5
2 2 2 2 2 2

102 / 425
Grafische Bestimmung des Medians
Der Median lässt sich grafisch mit Hilfe der empirischen
Verteilungsfunktion bestimmen. Er entspricht der Ausprägung aj , für die
F (x ) = 0, 5 gilt.

Abbildung 18: Grafische Bestimmung des Medians 1


Empirische kumulierte (relative) Verteilungsfunktion

Abitur
Fachabitur
.8

Realschule
.4 .6

Hauptschule
.2

Förderschule
Grundschule
kein Abschluss
0

1 2 3 4 5 6 7
Höchster Schulabschluss

Quelle: ESS 8, Edition 1.0.


103 / 425
Zusammenfassung: Median

I Der Median lässt sich ab dem ordinalen Skalenniveau bestimmen.


I Der Median ist robust gegenüber extremen Werten (Ausreißer).
Beispiel: Alter der Teilnehmer*innen in einer Statistikklausur

19, 19, 19, 20, 20, 21, 21, 21, 67

I Der Median in diesem Beispiel ist x̃ = 20


I Der Mittelwert wäre x̄ = 227/9 = 25, 2
I Qualitätseigenschaft: Kleinster absoluter Gesamtabstand zu allen
anderen Werten, d.h.
n n
|xi − z| , für alle z
X X
|xi − x̃ | ≤
i=1 i=1

104 / 425
Lagemaße: Arithmetisches Mittel

I Das arithmetische Mittel ist die Summe aller Messwerte geteilt durch
ihre Anzahl.
I Das arithmetische Mittel wird auch oft als Durchschnitt oder
Mittelwert bezeichnet.
I Achtung: Es gibt auch das sog. geometrische und harmonische Mittel!
I Eine sinnvolle Interpretation setzt mindestens intervall-skalierte
Variablen voraus.
I Formel:
n
1X 1
x̄ = xi = (x1 + x2 + · · · + xn )
n i=1 n

105 / 425
Lagemaße: Arithmetisches Mittel

Beispiel:
I Urliste (n = 12):
2, 4, 3, 1, 1, 5, 4, 2, 2, 4, 1, 5
I Berechnung des arithmetischen Mittels:
12
1 X 1 34
x̄ = xi = (2+4+3+1+1+5+4+2+2+4+1+5) = = 2, 83
12 i=1 12 12

106 / 425
Das arithmetische Mittel (nochmal)

Tabelle 19: Roh- und


Häufigkeitsdaten eines fiktiven
Datensatzes
i xi Arithmetisches Mittel aus Rohdaten:
1 1 n
1X 1+2+2+2+3
2 2 x̄ = xi = =2
n i=1 5
3 2
4 2
5 3

aj hj Können wir das arithemtische Mittel auch


1 1 aus der Häufigkeitstabelle berechnen?
2 3
3 1
5
P

107 / 425
Das arithmetische Mittel (nochmal)

Tabelle 19: Roh- und


Häufigkeitsdaten eines fiktiven
Datensatzes
i xi Arithmetisches Mittel aus Rohdaten:
1 1 n
1X 1+2+2+2+3
2 2 x̄ = xi = =2
3 2 n i=1 5
4 2
5 3

aj hj Aus Häufigkeitstabelle:
1 1
2 3 1·1+3·2+1·3
=2
3 1 5
5
P

108 / 425
Arithmetisches Mittel aus
Häufigkeitsdaten

I Berechnung des arithmetischen Mittels aus Häufigkeitsdaten:

k k
1X
x̄ = aj hj =
X
aj f j
n j=1 j=1

Tabelle 20: Arithmetisches Mittel aus Häufigkeiten


aj hj fj aj · f j
1 1 0, 2 0, 2
2 3 0, 6 1, 2
3 1 0, 2 0, 6
5 1, 0 2, 0
P

109 / 425
Arithmetisches Mittel aus gruppierten
Häufigkeitsdaten
I Berechnung des arithmetischen Mittels aus Häufigkeitsdaten
gruppierter metrischer Variablen:
k k
1X cj−1 + cj
x̄ = mj hj = , mit mj =
X
mj fj
n j=1 j=1
2

Tabelle 21: Gruppierte Häufigkeitsdaten des Alters


Alter hj fj mj fj · m j
[cj−1 − cj )
20 − 30 24 0, 24 25 6
30 − 40 57 0, 57 35 19, 95
40 − 50 12 0, 12 45 5, 4
50 − 60 7 0, 07 55 3, 85
100 1, 0 35, 2
P

110 / 425
Arithmetisches Mittel aus
Gruppenmittelwerten

I Berechnung des arithmetischen Mittels aus r gruppenbezogenen


Mittelwerten:
r
1X
x̄ = nj x̄j
n j=1

Tabelle 22: Gruppenspezifische Mittelwerte - ein Beispiel


Wohnort (aj ) nj Einkommen (x̄j )
Ost 200 2000
West 600 3000
800
P

(200 · 2000) + (600 · 3000)


x̄ = = 2750
800

111 / 425
Zusammenfassung Arithmetisches Mittel

I Das arithmetische Mittel lässt sich sinnvoll für metrische Daten


analysieren.
I Das arithmetische Mittel ist sensibel gegenüber Ausreißern. Der
Grund liegt in seiner Qualitätseigenschaft.
I Schwerpunkteigenschaft:
n
(xi − x̄ ) = 0
X

i=1

I Qualitätseigenschaft: Minimierung der Abstandsquadrate, d.h.


n n
(xi − x̄ )2 ≤ (xi − z)2 , für alle z
X X

i=1 i=1

112 / 425
Kurzübung 4

Kurzübung zu
Lagemaßen symmetrische Verteilung

.4
(Think-Talk-Share)

.3
Schauen Sie sich die

.2
beiden Verteilungen

.1
an und versuchen Sie

0
Modus, Median und −4 −2 0 2 4 6

arithmetisches Mittel asymmetrische Verteilung


einzuzeichnen. Dabei
kommt es nicht auf .4
.3

die exakten Werte,


.2

sondern insbesondere
.1

auf die Reihenfolge


0

−4 −2 0 2 4 6
der Werte auf der
x-Achse an.
113 / 425
Grafishe Darstellung von
(quasi-)stetigen Variablen

I Variablen mit vielen Ausprägungen, die mindestens intervall-skaliert


sind, können in sogenannten Histogrammen dargestellt werden.
I Erinnere: Eine Möglichkeit zur Darstellung solcher Variablen ist die
Kategorisierung.
I Histogramme nehmen im Prinzip eine derartige Kategorisierung vor,
diese folgt aber einer fest definierten Methode.
I Die beobachteten Daten werden hierzu in k benachbarte Intervalle
zerlegt [c0 , c1 ) , [c1 , c2 ) , . . . , [ck−1 , ck )
I Über diese Intervalle werden dann Rechtecke der Breite dj = cj − cj−1
gebildet
I Die Fläche der Rechtecke ist proportional zur Häufigkeit hj (bzw. fj ).
Folglich ist die Höhe der Rechtecke hj/dj bzw. fj/dj
I Ist dj für alle j identisch, spiegelt die Höhe der Rechtecke die
Verhältnisse der Häufigkeiten wieder (default in vielen Programmen)

114 / 425
Konstruktion eines Histogramms

Abbildung 19: Konstruktion eines Histogramms

Quelle: In Anlehnung an Jann (2005), S. 24.

115 / 425
Finales Stata-Example

I Modus, Median und arithmetisches Mittel


I Histogramme
I Stata Example 4 (histogram.do)

116 / 425
Median und Mittelwert in Stata

. sum agea, de

Age of respondent, calculated


-------------------------------------------------------------
Percentiles Smallest
1% 16 15
5% 18 15
10% 22 15 Obs 2,849
25% 33 15 Sum of Wgt. 2,849

50% 50 Mean 48.55774


Largest Std. Dev. 18.49769
75% 63 93
90% 74 93 Variance 342.1646
95% 78 94 Skewness -.0319286
99% 85 94 Kurtosis 2.071834

Quelle: ESS 8, Edition 1.0.


117 / 425
Histogramme in Stata

histogram agea, xtitle(Alter in Jahren) ytitle(Dichte)


>bin(20)

Abbildung 20: Histogramm der Variable agea


.02
.015
Dichte
.01 .005
0

20 40 60 80 100
Alter in Jahren

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Statas default sind 30 Rechtecke. Hier wurde manuell auf 20 reduziert.

118 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.2.1 und Abschnitt 3.1.3.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.2.1.

119 / 425
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Lage- und Streuungsmaße

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#5

120 / 425
Kurze Erinnerung

I Letzte Woche haben wir über Häufigkeiten und ihre unterschiedlichen


Darstellungsformen in Häufigkeitstabellen gesprochen:
I Absolute Häufigkeiten
I Relative Häufigkeiten
I Kummulierte Häufigkeiten
I Außerdem haben wir uns mit einigen zentralen Lagemaßen
beschäftigt:
I Modus: Der häufigste Wert, zulässig ab Nominalskala
I Median: Der mittlere Wert einer geordneten Urliste, zulässig ab
Ordinalskala.
I Arithmetisches Mittel: Der durchschnittliche Wert (x̄ = 1/n ni=1 xi ),
P
zulässig ab Intervallskala.
I Heute beschäftigen wir uns weiter mit Lagemaßen, insbesondere aber
mit Streuungsmaßen.

121 / 425
Quantile

I Wir haben bereits den Median x̃ kennengelernt.


I Der Median teilt die Daten in der Mitte, d.h. es sind mindestens 50%
der Daten ≤ x̃ und mindestens 50% der Daten ≥ x̃
I Der Median wird daher auch als 50%-Quantil bezeichnet.
I Allgemein: Das p-Quantil xp (auch Perzentil) teilt die Daten so, dass
der Anteil p der Daten ≤ xp und der Anteil (1 − p) ≥ xp ist:

h(X ≤ xp ) h(X ≥ xp )
≥ p und ≥1−p
n n
bzw.
f (X ≤ xp ) ≥ p und f (X ≥ xp ) ≥ 1 − p
mit p ∈ [0, 1]

122 / 425
Häufig verwendete Quantile:
Median

I Median: p = 0, 50

Abbildung 21: Normalverteilung und 50%-Quantil


.4
.3
Dichte
.2
.1
0

x0,5

123 / 425
Häufig verwendete Quantile:
Quartile

I Quartile: p = 0, 25, p = 0, 50, p = 0, 75

Abbildung 22: Normalverteilung und Quartile


.4
.3
Dichte
.2
.1
0

x0,25 x0,50 x0,75

124 / 425
Häufig verwendete Quantile:
Quintile

I Quintile: p = 0, 20, p = 0, 40, p = 0, 60, p = 0, 80

Abbildung 23: Normalverteilung und Quintile


.4
.3
Dichte
.2
.1
0

x0,2 x0,4 x0,6 x0,8

125 / 425
Berechnung von Quantilen

I Aus der geordneten Urliste x1 ≤ x2 ≤ · · · ≤ xn wird das p-Quantil


bestimmt als
xp = x([np]G +1) , wenn np nicht ganzzahlig
xp ∈ [x(np) , x(np+1) ] = 21 (x(np) + x(np+1) ) , wenn np ganzzahlig

wobei [np]G die zu np nächste kleinere ganze Zahl ist.


I Wenn np ganzzahlig ist, liegt xp zwischen x(np) und x(np+1) :
I Hier (und in der Klausur), Berechnung wie beim Median:

x(np) + x(np+1)
xp =
2
I (Bessere) Alternative: Berechnung per linearer Interpolation. Siehe
dazu Jann (2005), S. 35f.

126 / 425
Berechnung von Quantilen - Beispiele

I Gegeben ist die Urliste 1, 2, 2, 4, 5, 5, 6, 8, 9, 11, 11, 13 (n = 12).


Gesucht sei das 25%-Quantil.
I np = 12 · 0, 25 = 3. Da np ganzzahlig,
I x0,25 ∈ [x3 , x4 ]. x3 = 2 und x4 = 4
I x0,25 = (2+4)/2 = 3
I Gegeben ist die Urliste 1, 2, 2, 4, 5, 5, 6, 8, 10, 11, 11 (n = 11). Gesucht
sei das 75%-Quantil.
I np = 11 · 0, 75 = 8, 25. Da np nicht ganzzahlig, gilt [np]G = 8 (aus
8, 25 wird 8)
I x0,75 = x(8+1) = x9 = 10

127 / 425
Grafische Darstellung von Quartilen -
der Box-Plot
I Box-Plots (auch Box-Whisker-Plots) stellen die Verteilung der
Quartile grafisch dar.

Abbildung 24: Der Box-Plot

x0,25 x0,50 x0,75

6 8 10 12 14

128 / 425
Der Box-Whisker-Plot im Detail

Abbildung 25: Elemente eines


1. Ausreißer: Beobachtungen
Box-Whisker-Plots
außerhalb des Intervalls
[x0,75 + 1, 5dQ , x0,25 − 1, 5dQ ]
mit dQ = x0,75 − x0,25 .
2. Whisker: Größter/ kleinster
Wert innerhalb des Intervalls
[x0,75 + 1, 5dQ , x0,25 − 1, 5dQ ].
x0,25 x0,50 x0,75

3. Oberes/ drittes Quartil: x0,75 .


4. Median/ zweites Quartil: x0,5 .
5. Unteres/ erstes Quartil: x0,25
6 8 10 12 14
norm

129 / 425
Box-Plots und Verteilungsformen

I Box-Plots geben Aufschluss über die Form einer Verteilung

Abbildung 26: Box-Plots bei symmetrischer und asymmetrischer Verteilung

x0,25 x0,50 x0,75 x0,25 x0,50 x0,75

6 8 10 12 14
norm 8 10 12 14 16

130 / 425
Zusammenfassung: Der Box-Plot

I Box-Plots geben Auskunft über die Verteilung der Quartile.


I Diese enthalten Informationen über die Form der Verteilung.
I Box-Plots eignen sich besonders gut zum Vergleich von Verteilungen
über die Kategorien anderer Variablen.
I Stata Example 5 (boxplots.do)

131 / 425
Box-Whisker-Plots in Stata

graph box wkhtot, over(gndr, relabel(1"Männer" 2"Frauen"))


>noout note("") ytitle(Arbeitsstunden/Woche)

Abbildung 27: Arbeitsstunden/Woche nach Geschlecht.


60
Arbeitsstunden/Woche
20 0 40

Männer Frauen

Quelle: ESS 8, Edition 1.0. Anmerkungen: Grundgesamtheit ist die erwerbstätige Bevölkerung.
132 / 425
Warum Streuungsmaße?
I Lagemaße können nicht alle Unterschiede von Verteilungen erfassen.
I Streuungsmaße beschreiben die Streuung der Daten um das Zentrum.

Abbildung 28: Dichtefunktion: Arbeitsstunden/Woche nach Geschlecht


.04
.03
Dichte
.02

Männer
Frauen
.01

Median Frauen Median Männer


0

0 20 40 60 80 100
Arbeitsstunden/Woche

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Grundgesamtheit ist die erwerbstätige Bevölkerung.
133 / 425
Streuungsmaße:
Der Interquartilsabstand

I Der Interquartilsabstand gibt den Abstand zwischen dem 25%-Quantil


und dem 75%-Quantil an (die Breite der Box im Box-Plot).

dQ = x0,75 − x0,25 = Q3 − Q1

I Beispiel: Arbeitsstunden/Woche bei Männern und Frauen (vgl.


vorherige Folien):

dQM = x0,75 − x0,25 = 50 − 40 = 10


dQF = x0,75 − x0,25 = 42 − 25 = 17

Die Streuung ist bei Frauen größer als bei Männern (dQM < dQF ).

134 / 425
Streuungsmaße:
Quantilsabstände

I Abstände zwischen Quantilen lassen sich für mindestens ordinal


skalierte Variablen bestimmen.
I Da Differenzen aber erst ab Intervallskalenniveau sinnvoll interpretiert
werden können, sollten Quantilsabstände streng genommen erst ab
einem metrischen Messniveau berechnet werden.
I Neben dem Interquartilsabstand (dQ ) wird häufig auch der
Dezilsabstand (dD ) bestimmt:

dD = x0,9 − x0,1 = D9 − D1

135 / 425
Streuungsmaße: Die Spannweite

I Das einfachste Streuungsmaß ist die Spannweite:

R = xmax − xmin
I Die Spannweite ist . . .
I relativ informationsarm,
I anfällig gegenüber Ausreißern,
I nur für metrische Variablen zulässig,
I häufig nicht für Gruppenvergleiche geeignet, insb. wenn ein
befragungsbedingt eingeschränkter Merkmalsraum vorliegt.
Beispiel: Die Spannweite R im vorherigen Beispiel
(Arbeitsstunden/Woche) beträgt für Männer wie Frauen 100 Stunden.

136 / 425
Streuungsmaße: Abweichungen von
einem Referenzwert

I Eine naheliegende Art der Quantifizierung von Dispersion ist die


Berechnung der durchschnittlichen Abweichung von einem Maß der
zentralen Tendenz.
I Wie kann das gehen? So. . . ?

Tabelle 23: Abweichungen vom Mittelwert als Maß der Streuung I


i xi x̄ xi − x̄
1 1 3 −2
2 3 3 0
3 5 3 2
9 0
P

137 / 425
Streuungsmaße: Abweichungen von
einem Referenzwert

I Eine naheliegende Art der Quantifizierung von Dispersion ist die


Berechnung der durchschnittlichen Abweichung von einem Maß der
zentralen Tendenz.
I Wie kann das gehen? So. . . ?

Tabelle 24: Abweichungen vom Mittelwert als Maß der Streuung II


i xi x̄ xi − x̄
1 0, 44 0, 847 −0, 407
2 1, 21 0, 847 0, 363
3 0, 89 0, 847 0, 043
2, 54 ≈0
P

138 / 425
Streuungsmaße: Abweichungen von
einem Referenzwert

I Eine naheliegende Art der Quantifizierung von Dispersion ist die


Berechnung der durchschnittlichen Abweichung von einem Maß der
zentralen Tendenz.
I Die Summe aller Abweichungen vom Mittelwert ist immer 0.
I Der Grund liegt in der Schwerpunkteigenschaft des arithmetischen
Mittels:
n
(xi − x̄ ) = 0
X

i=1
I Folglich ist die durchschnittliche Abweichung vom Mittelwert
ebenfalls 0.

139 / 425
Streuungsmaße: Mittlere absolute
Abweichung und Varianz

I Gesucht ist eine Statistik, die Abweichungen vom Mittelwert


quantifiziert und deren Summe nicht 0 ist.
I Wie kann das gehen? So:

Tabelle 25: Absolute und quadrierte Abweichungen vom Mittelwert


i xi x̄ |xi − x̄ | (xi − x̄ )2
1 1 3 2 4
2 3 3 0 0
3 5 3 2 4
9 4 8
P

I Der Mittelwert der absoluten Abweichungen ist 4/3 ≈ 1, 332, der


Mittelwert der quadrierten Abweichungen ist 8/3 ≈ 2, 667.
140 / 425
Streuungsmaße:
Mittlere absolute Abweichung

I Die mittlere absolute Abweichung (Average Deviation) gibt die


durchschnittliche Abweichung vom arithmetischen Mittel an:
n
1X
AD = |xi − x̄ |
n i=1

I Sie kann auch aus Häufigkeitsdaten berechnet werden:

k k
1X
AD = hj |aj − x̄ | =
X
fj |aj − x̄ |
n j=1 j=1

I Die mittlere absolute Abweichung lässt sich auch in Bezug auf andere
Maße der zentralen Tendenz berechnen (z.B. dem Median x̃ ).

141 / 425
Streuungsmaße:
Varianz und Standardabweichung

I Die Varianz gibt die durchschnittliche quadrierte Abweichung vom


arithmetischen Mittel an:
n
1X
s2 = (xi − x̄ )2
n i=1

I Die Standardabweichung ist als Quadratwurzel der Varianz definiert:


v
√ n
u1 X
u
s= s =t
2 (xi − x̄ )2
n i=1

142 / 425
Kurzübung 5

Kurzübung zu Streuungsmaßen
Schauen Sie sich die folgende Tabelle an und berechnen Sie Varianz und
Standardabweichung der Einkommen.

Tabelle 26: Netto-Erwerbseinkommen von 4 (fiktiven) Individuen

i Einkommen in e
1 2.487
2 1.967
3 2.956
4 1.123

143 / 425
Streuungsmaße: Alternative
Formeln für Varianz

I Die Varianz lässt sich auch mit einer alternativen Formel berechnen,
die häufig rechengünstiger ist (zur Herleitung vgl. Jann (2005), S.
45):
n
1
!
s2 =
X
x 2 − x̄ 2
n i=1 i
I Aus Häufigkeitsdaten kann die Varianz ebenfalls berechnet werden:

k k
1X
s2 = hj (aj − x̄ )2 = fj (aj − x̄ )2
X
n j=1 j=1

144 / 425
Streuungsmaße:
Stichprobenvarianz

I Die bisher betrachtete Varianz wird auch empirische Varianz genannt.


I Daneben gibt es die Stichprobenvarianz:
n
1 X
s2 = (xi − x̄ )2
n − 1 i=1

I Diese ist insbesondere in der Inferenzstatistik von Bedeutung.


I Die meisten Programme (inkl. Stata) berechnen standardmäßig die
Stichprobenvarianz.
I Bei großen n ist der Unterschied gering, bei kleinen n kann er groß
sein.

145 / 425
Zusammenfassung: Varianz und
Standardabweichung

I Varianz und Standardabweichung sind ab dem Intervall-Skalenniveau


sinnvoll zu interpretieren.
I Die Varianz (bzw. Standardabweichung) ist das am häufigsten
verwendete Streuungsmaß.
I Varianz und Standardabweichung reagieren sensibel auf Ausreißer.
Ursache ist die Quadrierung, durch die extreme Werte mit höherem
Gewicht in die Maßzahl eingehen.
I Die Einheiten der Varianz unterscheiden sich von den Einheiten der
analysierten Variable. Beispiel: Die Variable Einkommen ist in e
gemessen (oder in $). Dann ist die Varianz in e2 (bzw. $2 ) gemessen.

I Die Standardabweichung (s = s 2 ) normiert wieder auf die

ursprünglichen Einheiten ( e2 = e).

146 / 425
Warum sind Mittelwert und
Varianz so zentral?
I Die Kombination aus Mittelwert und Varianz beschreibt eine
(unimodale, symmetrische) Verteilung relativ gut.
Beispiel: Verteilung der wöchentlichen Arbeitsstunden von Männern
und Frauen unter Annahme einer Normalverteilung mit den
empirischen Mittelwerten und Varianzen.

Abbildung 29: Arbeitszeiten von Männern und Frauen


.03

.04
.03
.02

Frauen Männer
Dichte
f(x)

.02

Männer
Frauen
.01

.01

Median Frauen Median Männer


0

0 20 40 60 80 100 0 20 40 60 80 100
x Arbeitsstunden/Woche
147 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.2.2.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.2.2. und 2.2.3.

148 / 425
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Konzentrationsmaße

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#6

149 / 425
Kurze Erinnerung

I Letzte Woche haben wir uns mit Streuungsmaßen beschäftigt:


I Quantilsabstände: Abstand ausgewählter Quantile, zulässig ab
Intervallskala
I Mittlere Absolute Abweichung: Basiert auf Summe der absoluten
Abweichungen vom Mittelwert, ab Intervallskala.
I Varianz und Standardabweichung: Basiert auf Summe der quadrierten
Abweichungen, zulässig ab Intervallskala.
I Heute beschäftigen wir uns mit Konzentrationsmaßen.

150 / 425
Streuungsmaße bei Variablen mit
topologischem Skalenniveau

I Für Variablen mit topologischem Skalenniveau lässt sich im Prinzip


nur angeben, ob die Häufigkeiten der verschiedenen Kategorien eher
gleich oder eher ungleich verteilt sind.
I Ein Maß hierfür ist das Herfindahl-Streuungsmaß:

k  2 k
hj
HF = 1 − =1−
X X
fj 2
j=1
n j=1

151 / 425
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele

I Im Beispiel unten konzentrieren sich fast alle Beobachtungen auf eine


Kategorie (a2 = 2). Die Summe der quadrierten relativen
Häufigkeiten ist 0, 66, entsprechend ist HF = 1 − 0, 66 = 0, 34.

Tabelle 27: Berechnung des Herfindahl-Streuungsmaß - Beispiel I


aj hj fj fj 2
1 1 0, 1 0, 01
2 8 0, 8 0, 64
3 1 0, 1 0, 01
10 1, 0 0, 66
P

152 / 425
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele

I In diesem Beispiel konzentrieren sich alle Beobachtungen auf eine


Kategorie (aj = 2). Die Summe der quadrierten relativen Häufigkeiten
ist daher 1, entsprechend ist HF = 1 − 1 = 0.

Tabelle 28: Berechnung des Herfindahl-Streuungsmaß - Beispiel II


aj hj fj fj 2
1 0 0, 0 0, 0
2 10 1, 0 1, 0
3 0 0, 0 0, 0
10 1, 0 1, 0
P

153 / 425
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele

I In diesem Beispiel verteilen sich die Beobachtungen relativ


gleichmäßig auf die Kategorien j. Die Summe der quadrierten
relativen Häufigkeiten ist 0, 34, entsprechend ist
HF = 1 − 0, 34 = 0, 66.

Tabelle 29: Berechnung des Herfindahl-Streuungsmaß - Beispiel III


aj hj fj fj 2
1 3 0, 3 0, 09
2 4 0, 4 0, 16
3 3 0, 3 0, 09
10 1, 0 0, 34
P

154 / 425
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele

I In beiden Tabellen besteht eine perfekte Gleichverteilung bzw.


maximale Streuung, d.h. es entfällt jeweils eine Beobachtung auf eine
Kategorie.
I Bei k = 3 Kategorien ergibt sich HF = 1 − 0, 33 = 0, 67
I Bei k = 4 Kategorien ergibt sich dagegen HF = 1 − 0, 25 = 0, 75

Tabelle 30: Berechnung des Herfindahl-Streuungsmaß - Beispiel IV


aj hj fj fj 2
aj hj fj fj 2
1 1 0, 25 0, 0625
1 1 0, 332 0, 11
2 1 0, 25 0, 0625
2 1 0, 332 0, 11
3 1 0, 25 0, 0625
3 1 0, 332 0, 11
4 1 0, 25 0, 0625
3 ≈ 1, 0 0, 33
P
4 1, 0 0, 25
P

155 / 425
Streuungsmaße:
Herfindahl-Streuungsmaß

I Wenn alle Beobachtungen auf eine Kategorie entfallen, gilt immer


HF = 0.
I Folglich kann HF minimal den Wert 0 annehmen. Dies entspricht der
geringsten Streuung bzw. der höchsten Konzentration.
I Das Maximum von HF ist dagegen nicht klar definiert. Es ist
abhängig von der Zahl der Kategorien k: HFmax = k−1/k .
I Eine Lösung ist die Normierung des Merkmalsraums:

k
RHF = · HF , RHF ∈ [0, 1]
k −1

156 / 425
Praxishinweis

I Mittelwerte, Varianz und Standardabweichung sind aus Sicht der


formalen statistischen Theorie erst ab metrischem Skalenniveau
sinnvoll interpretierbar!
I In der Praxis werden diese Maßzahlen allerdings häufig auch für
ordinalskalierte Variablen berechnet.
I Klausurhinweis: Hier gilt die formale statistische Theorie!

157 / 425
Konzentrationsmaße

I Konzentrationsmaße beschreiben die Verteilung der Datensumme auf


die Merkmalsträger.
I Was heißt das? Konzentrationsmaße beschreiben die
(Verteilungs-)Ungleichheit zwischen den Untersuchungseinheiten.
Beispiele:
I Ungleichheit der Einkommen
I Ungleichheit der Vermögen
I Aber auch: Ungleichheit der Marktanteile von Unternehmen

158 / 425
Entwicklung der Einkommensungleichheit
in Deutschland
I Entwicklung der Einkommensungleichheit in Deutschland, gemessen
über den Gini-Koeffizienten (auch Gini-Index).

Abbildung 30: Gini-Index in Deutschland, 1983-2012

Quelle: SOEP v30; Corneo (2015): Kreuz und Quer durch die deutsche Einkommensverteilung. Perspektiven der
Wirtschaftspolitik, 16(2).
159 / 425
Entwicklung der Vermögensungleichheit
in Deutschland

Abbildung 31: Ungleichheit der Vermögen in Deutschland, 2002 und 2007

Quelle: SOEP; Frick & Grabka (2009): Gestiegene Vermögensungleichheit in Deutschland. DIW Wochenbericht, 76(4).
160 / 425
Konzentrationsmaße:
Dezilverhältnis

I Das einfachste Konzentrationsmaß ist das Dezilverhältnis (auch


Dezil-Ratio), das sich ab dem Niveau einer Ratioskala sinnvoll
berechnen lässt.
I Typischerweise wird das Verhältnis zwischen dem ersten und neunten
Dezil (D1 , D9 ) betrachtet:

D9 x0,9
DR = =
D1 x0,1
I Entsprechende Berechnungen lassen sich für beliebige p-Quantile
durchführen:
xp
QR = 1 , mit xp1 > xp2
xp2
I Stata Example 6 (inequality.do)

161 / 425
Einkommensungleichheit in Deutschland
Ergebnisse von Stata
I x0,9/x0,1 = 5400/1400 = 3, 86
I x0,99/x0,01 = 11000/495 = 22, 22

Abbildung 32: Bruttoeinkommensverteilung mit p-Quantilen


.0004
.0003
Dichte
.0002
.0001

x0,10 x0,90
x0,01 x0,99
0

0 5000 10000
Bruttoeinkommen / Monat

Quelle: SOEP 2009. Anmerkung: Nur Vollzeiterwerbstätige.


162 / 425
Lorenzkurve

I Quantilverhältnisse drücken Ungleichheit durch den Vergleich von


zwei Punkten in der Verteilung aus.
I Die Lorenzkurve beschreibt Ungleichheit über die gesamte Verteilung.

Abbildung 33: Lorenzkurve der Bruttoerwerbseinkommen


Gini = 0.31
1
Kummulierter Anteil am Gesamteinkommen
.2 .4 0 .6 .8

0 10 20 30 40 50 60 70 80 90 100
Bevölkerungsanteil (Dezile)

Quelle: SOEP 2009. Anmerkung: Nur Vollzeiterwerbstätige.


163 / 425
Konzentrationsmaße:
Lorenzkurve

I Die Lorenzkurve . . .
I trägt auf der Y-Achse den (kumulierten) Anteil an der Gesamtsumme
Pj
xi
ςj = Pni=1
x
i=1 i

und . . .
I auf der X-Achse den Anteil der Merkmalsträger

j
Fj =
n
. . . ab.
I Die Lorenzkurve ergibt sich dann als Streckenzug durch die Punkte
(0, 0), (F1 , ς1 ), (F2 , ς2 ), . . . , (Fn , ςn ) = (1, 1) und lässt sich für
mindestens ratio-skalierte Variablen berechnen.

164 / 425
Konzentrationsmaße: Lorenzkurve

I Einfacher: Welcher Anteil j der Bevölkerung (X-Achse) hat welchen


Anteil am Gesamteinkommen (Y-Achse)?
I Bei einer perfekten Gleichverteilung entspricht die Lorenzkurve der
Diagonalen durch die Punkte (0, 0) und (1, 1).
I Je ausgeprägter die Ungleichheit, desto größer wird die Abweichung
von der Diagonalen.
I Dabei weist die Lorenzkurve folgende Eigenschaften auf:
I Konvexität (nach unten gewölbt)
I Monotonie (Werte auf beiden Achsen bleiben gleich oder steigen,
können aber nicht kleiner werden.)
I In der Praxis wird die Lorenzkurve häufig nicht über die einzelnen
Beobachtungen (j = 1, . . . , n), sondern über Dezile, Quintile oder
Ähnliches gezeichnet.

165 / 425
Konzentrationsmaße:
Gini-Koeffizient

I Der Gini-Koeffizient beschreibt die Lorenzkurve nummerisch und lässt


sich ab dem Niveau einer Ratioskala sinnvoll interpretieren.
I Er entspricht dem Anteil der Fläche zwischen Diagonale und X-Achse,
der durch die Lorenzkurve eingenommen wird (auch: der doppelten
Fläche zwischen Diagonalen und Lorenzkurve).
I Der Gini-Koeffizient lässt sich aus der geordneten Urliste
x(1) ≤ · · · ≤ x(n) berechnen:

2 ni=1 ixi n+1


P
G= Pn −
n i=1 xi n

Dabei gilt Gmin = 0 und Gmax = n−1/n.

166 / 425
Lorenzkurve und Gini-Koeffizient -
Beispiele
I Vier (fiktive) Beispiele: Lorenzkurve und Gini-Koeffizienten.

Abbildung 34: Lorenzkurven und Gini-Koeffizienten - (fiktive) Beispiele


Kummulierter Anteil an Gesamtsumme

Kummulierter Anteil an Gesamtsumme


Gini = 0.34 Gini = 0.28
1

1
.8

.8
.6

.6
.4

.4
.2

.2
0

0
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Anteil Merkmalsträger Anteil Merkmalsträger
Kummulierter Anteil an Gesamtsumme

Gini = 0.40 Kummulierter Anteil an Gesamtsumme Gini = 0.90


1

1
.8

.8
.6

.6
.4

.4
.2

.2
0

0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Anteil Merkmalsträger Anteil Merkmalsträger

167 / 425
Lorenzkurve und Gini-Koeffizient -
Beispielberechnung

I Berechnen des Streckenzugs der Lorenzkurve

Tabelle 31: Streckenzug der Lorenzkurve berechnen


i xi Fj ςj
1 60 ( nj = 5)
1
= 0, 2 ( 500
60
) = 0, 12
2 80 ( nj = 5)
2
= 0, 4 ( 500 )
140
= 0, 28
3 100 ( nj = 5)
3
= 0, 6 ( 240
500 ) = 0, 48
4 120 ( nj = 5)
4
= 0, 8 ( 360
500 ) = 0, 72
5 140 ( nj = 5)
5
= 1, 0 ( 500 )
500
= 1, 00
500
P

168 / 425
Lorenzkurve und Gini-Koeffizient -
Beispielberechnung
I Abtragen der Lorenzkurve entsprechend des berechneten
Streckenzugs.

Abbildung 35: Lorenzkurve aus Rechenbeispiel


1
Kummulierter Anteil an Gesamtsumme
.2 .4 0 .6 .8

0 10 20 30 40 50 60 70 80 90 100
Anteil Merkmalsträger

169 / 425
Lorenzkurve und Gini-Koeffizient -
Beispielberechnung

I Berechnung des Gini-Koeffizienten:

Tabelle 32: Berechnung des Gini-Koeffizienten


i xi i · xi
1 60 60
2 80 160
3 100 300
4 120 480
5 140 700
500 1700
P

2 n ixi n+1 2 · 1700 5 + 1 3400 6


P
G = Pi=1 − = − = − = 0, 16
n
n i=1 xi n 5 · 500 5 2500 5

170 / 425
Kurzübung 6

Kurzübung zu Lorenzkurven
1. Schauen Sie sich die beiden Lorenzkurven an und interpretieren Sie
diese.
2. Wie sehen wohl die Gini-Koeffizienten der beiden Lorenzkurven aus?

Abbildung 36: Lorenzkurve aus Rechenbeispiel


1

1
Kummulierter Anteil am Gesamteinkommen

Kummulierter Anteil am Gesamteinkommen


.8

.8
.6

.6
.4

.4
.2

.2
0

0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Anteil Bevölkerung Anteil Bevölkerung

171 / 425
Konzentrationsmaße:
Normierter Gini-Koeffizient

I Das Minimum des Gini-Koeffizienten ist Gmin = 0.


I Das Maximum des Gini-Koeffizienten beträgt Gmax = n−1/n.
I Normierung des Gini-Koeffizienten:

G n
G∗ = = · G , mit G ∗ ∈ [0, 1]
Gmax n−1

172 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.2.4.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.3.

173 / 425
Einführung in die sozialwissenschaftliche Statistik
Bivariate Deskription: Kreuztabellen und Zusammenhangsmaße

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#7

174 / 425
Kurze Erinnerung

I Letzte Woche haben wir über Konzentrationsmaße gesprochen und


damit den Bereich der univariaten Deskription abgeschlossen.
I Konzentrationsmaße:
I Dezilverhältnisse: Verhältnis ausgewählter Dezile zueinander, zulässig
ab Ratioskala.
I Gini-Koeffizient: Beschreibt Konzentration der Daten über gesamten
Merkmalsraum, zulässig ab Ratioskala.
I Insgesamt kennen wir nun die zentralen Lagemaße:
I Modus: Der häufigste Wert, zulässig ab Nominalskala.
I Median: Der mittlere Wert einer geordneten Urliste, zulässig ab
Ordinalskala.
I Arithmetisches Mittel: Der durchschnittliche Wert (x̄ = 1/n ni=1 xi ),
P
zulässig ab Intervallskala.

175 / 425
Kurze Erinnerung

I Außerdem kennen wir die wichtigsten Streuungsmaße:


I Quantilsabstände: Abstände zwischen ausgewählten p-Quantilen,
zulässig ab metrischem Skalenniveau.
I Varianz: Beschreibt die durchschnittliche quadrierte Abweichung vom
Mittelwert, zulässig ab metrischem Skalenniveau.
I Standardabweichung: Entspricht der Wurzel der Varianz.
I Herfindahl-Streuungsmaß: Beschreibt die Streuung/ Konzentration bei
topologischen Skalen.
I Heute beginnen wir mit der bivariaten Deskription, also mit der
Beschreibung von Zusammenhängen zwischen zwei Variablen X und
Y . Zunächst betrachten wir Kreuztabellen.

176 / 425
Bivariate Datenanalyse

I Bivariate Analysen betrachten zwei Variablen X und Y gleichzeitig.


Beispiel: Einkommen (Y ) und Geschlecht (X ).
I Dabei wird gefragt, ob zwischen X und Y ein Zusammenhang
besteht.
I Wir unterscheiden hier zwischen . . .
I der (einfachen) Analyse von Zusammenhängen, und . . .
I der Kausalanalyse, in der wir davon ausgehen, dass ein Merkmal X (die
unabhängige Variable) eine Ursache für das Auftreten des anderen
Merkmals Y (der abhängigen Variablen) ist.
I Kausalanalysen sind mit Beobachtungsdaten sehr schwierig, mit
experimentellen Studien leichter.
I In der Einführung beschäftigen wir uns daher vornehmlich mit
einfachen Zusammenhängen.
I Einfache und kausale Zusammenhänge lassen sich in Maßzahlen des
Zusammenhangs ausdrücken.

177 / 425
Bivariate Datenanalyse

I Fragestellungen in der bivariaten Analyse:


I Besteht ein Zusammenhang und wie stark ist dieser?
I Welche Richtung weist ein Zusammenhang auf? Hierfür sind
mindestens ordinal-skalierte Variablen nötig.
I Ist der Zusammenhang kausal?
I Ist der Zusammenhang signifikant, d.h. gilt er auch in der
Grundgesamtheit oder kann er durch Stichprobenfehler erklärt werden?
Dazu mehr im Themenblock Inferenzstatistik.
I Die Auswahl des richtigen Zusammenhangsmaßes hängt ab von . . .
I dem Skalenniveau der beteiligten Variablen, und . . .
I bei mindestens ordinal-skalierten Variablen von der Art des
Zusammenhangs (linear oder nicht-linear).

178 / 425
Kreuztabellen

I Kreuztabellen (auch Kontingenztabellen) sind zwei-dimensionale


Häufigkeitstabellen.
I Sie eignen sich insbesondere für nominal- und ordinal-skalierte
Variablen mit wenigen Ausprägungen.
I Wie bei der Häufigkeitstabelle lassen sich auch metrische Variablen in
Kreuztabellen darstellen, diese müssen dann aber in der Regel
gruppiert werden. Beispiel: Zusammenhang von Alter und
Einkommen.
I Typischerweise wird die unabhängige Variable (X ) in den Spalten und
die abhängige Variable (Y ) in den Zeilen der Tabelle angeordnet. Wir
sprechen hier von der Zeilen- und der Spaltenvariable.
I Stata Example 7 (crosstable.do)

179 / 425
Kreuztabellen in Stata

. tabulate party_voted_DE gndr if party_voted_DE <7, cell nofre

| Gender
party_voted_DE | Male Female | Total
----------------------+----------------------+----------
CDU/CSU | 19.58 18.86 | 38.44
SPD | 15.31 12.81 | 28.12
Die Linke | 6.88 3.83 | 10.70
Bündnis 90/ Die Grüne | 6.77 6.66 | 13.42
FDP | 3.55 2.55 | 6.10
AfD | 2.11 1.11 | 3.22
----------------------+----------------------+----------
Total | 54.19 45.81 | 100.00

Quelle: ESS 8, Edition 1.0.

180 / 425
Die Kreuztabelle -
ein Beispiel
I Das Beispiel zeigt eine Kreuztabelle mit relativen Häufigkeiten.
I Im Beispiel ist die Parteipräferenz die Zeilenvariable und das
Geschlecht die Spaltenvariable.
Tabelle 33: Kreuztabelle - Parteipräferenz und Geschlecht
Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,1958 0,1886 0,3844
SPD 0,1531 0,1281 0,2812
Linke 0,0688 0,0383 0,1070
Grüne 0,0677 0,0666 0,1342
FDP 0,0355 0,0255 0,0610
AfD 0,0211 0,0111 0,0322
Gesamt 0,5419 0,4581 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
181 / 425
Die Kreuztabelle -
ein Beispiel
I Interpretation: Ein Anteil von 0,1958 (bzw. 19,58%) der Befragten ist
männlich und hat die CDU gewählt.
I Randhäufigkeiten: Ein Anteil von 0,5419 der Befragten ist männlich.
Tabelle 34: Kreuztabelle - Parteipräferenz und Geschlecht
Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,1958 0,1886 0,3844
SPD 0,1531 0,1281 0,2812
Linke 0,0688 0,0383 0,1070
Grüne 0,0677 0,0666 0,1342
FDP 0,0355 0,0255 0,0610
AfD 0,0211 0,0111 0,0322
Gesamt 0,5419 0,4581 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
182 / 425
Die Kreuztabelle -
relative Häufigkeiten

I Lässt sich aus dieser Tabelle der Zusammenhang zwischen


Parteipräferenz und Geschlecht ablesen?

Tabelle 35: Kreuztabelle - Parteipräferenz und Geschlecht


Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,1958 0,1886 0,3844
SPD 0,1531 0,1281 0,2812
Grüne 0,0688 0,0383 0,1070
Linke 0,0677 0,0666 0,1342
FDP 0,0355 0,0255 0,0610
AfD 0,0211 0,0111 0,0322
Gesamt 0,5419 0,4581 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
183 / 425
Die Kreuztabelle -
bedingte relative Häufigkeiten
I Nein! Dafür sind bedingte relative Häufigkeiten notwendig.
I Diese berechnen Anteile nicht über alle Zellen, sondern innerhalb
einzelner Zeilen/ Spalten; hier Spaltenanteile/-prozente.
Tabelle 36: Kreuztabelle - Parteipräferenz und Geschlecht
Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,3613 0,4116 0,3844
SPD 0,2825 0,2797 0,2812
Linke 0,1269 0,0835 0,1070
Grüne 0,1249 0,1453 0,1342
FDP 0,0655 0,0557 0,0610
AfD 0,0389 0,0242 0,0322
Gesamt 1,0000 1,0000 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
184 / 425
Die Kreuztabelle - bedingte und
unbedingte relative Häufigkeiten

I In einer Kreuztabelle können relative Häufigkeiten auf drei Arten


berechnet werden:
I Unbedingte Häufigkeiten (bzw. Prozente): Die einzelnen
Zellhäufigkeiten werden durch n geteilt.
I Bedingte relative Häufigkeiten (bzw. Prozente): Die einzelnen
Zellhäufigkeiten werden durch Randhäufigkeiten geteilt.
I Spaltenanteile/ -prozente: Die Häufigkeiten innerhalb einer Spalte
werden durch die Randhäufigkeit dieser Spalte geteilt.
I Zeilenanteile/ -prozente: Die Häufigkeiten innerhalb einer Zeile werden
durch die Randhäufigkeit dieser Zeile geteilt.
I Randhäufigkeiten entsprechen der Summe aller absoluten Häufigkeiten
in einer Zeile oder Spalte.
I Typischerweise werden Kreuztabellen mit Spaltenanteilen bzw.
-prozenten dargestellt. Dies folgt aus der Logik der abhängigen und
unabhängigen Variable: Wie bedingt (lese: beeinflusst) die unabhängige
Variable (Spalten) die Verteilung der abhängigen Variablen (Zeilen)?

185 / 425
Die Kreuztabelle - abstrakte Darstellung
absoluter Häufigkeiten
I Abstrakte Darstellung einer Kreuztabelle mit absoluten Häufigkeiten.
I hij gibt die absoluten Häufigkeiten der Kombination (ai , bj ) an
I hi. = m hij gibt die Randhäufigkeiten (Zeilensumme) von ai an
P
Pj=1
I h.j = ki=1 hij gibt die Randhäufigkeiten (Spaltensumme) von bj an
Tabelle 37: Kreuztabelle mit absoluten Häufigkeiten - abstrakte Darstellung
X Pm
Y j=1
b1 ··· bj ··· bm
a1 h11 ··· h1j ··· h1m h1.
.. .. .. .. . .. ..
. . . . .. . .
ai hi1 ··· hij ··· him hi.
.. .. . .. .. .. ..
. . .. . . . .
ak hk1 ··· hkj ··· hkm hk.
Pk
i=1 h.1 ··· h.j ··· h.m n
186 / 425
Die Kreuztabelle - abstrakte Darstellung
relativer Häufigkeiten
I Abstrakte Darstellung einer Kreuztabelle mit relativen Häufigkeiten.
I fij = hij/n
I fi. = m fij = hi./n
P
Pj=1
I f.j = ki=1 fij = h.j/n
Tabelle 38: Kreuztabelle mit relativen Häufigkeiten - abstrakte Darstellung
X Pm
Y j=1
b1 ··· bj ··· bm
a1 f11 ··· f1j ··· f1m f1.
.. .. .. .. . .. ..
. . . . .. . .
ai fi1 ··· fij ··· fim fi.
.. .. . .. .. .. ..
. . .. . . . .
ak fk1 ··· fkj ··· fkm fk.
1
Pk
i=1 f.1 ··· f.j ··· f.m
187 / 425
Die Kreuztabelle - abstrakte Darstellung
bedingter relativer Häufigkeiten
I Kreuztabelle mit bedingten relativen Häufigkeiten (Spaltenanteile).
I fY (ai |bj ) = fi|j = hij/h.j (bedingte relative Zellhäufigkeiten)
I fi. = m j=1 fij = /n (relative Randhäufigkeiten)
P
hi.

Tabelle 39: Kreuztabelle mit bedingten relativen Häufigkeiten


X
Y fi.
b1 ··· bj ··· bm
a1 fY (a1 |b1 ) ··· fY (a1 |bj ) ··· fY (a1 |bm ) f1.
.. .. .. .. . .. ..
. . . . .. . .
ai fY (ai |b1 ) ··· fY (ai |bj ) ··· fY (ai |bm ) fi.
.. .. . .. .. .. ..
. . .. . . . .
ak fY (ak |b1 ) ··· fY (ak |bj ) ··· fY (ak |bm ) fk.
1 1 1 1
Pk
i=1 ··· ···
188 / 425
Interpretation bedingter
relativer Häufigkeiten

I Ein etwaiger Zusammenhang zwischen X und Y lässt sich aus dem


Vergleich der bedingten relativen Häufigkeiten ablesen.
I Typischerweise werden hierfür Spaltenanteile/ -prozente verwendet.
I Frage: Ist die Verteilung der Kategorien der Variable Y
(a1 , a2 , . . . , ak ) abhängig von dem Wert der Variable X
(b1 , b2 , . . . , bk )?
I Wenn sich die Spaltenanteile unterscheiden, besteht ein
Zusammenhang
I Wenn sich die Spaltenanteile nicht unterscheiden, besteht kein
Zusammenhang

189 / 425
Kurzübung 7

Kurzübung zur Kreuztabelle


Schauen Sie sich die folgende Tabelle an, die absolute Häufigkeiten angibt,
und transformieren Sie diese Tabelle in . . .
1. eine Kreuztabelle mit relativen Häufigkeiten
2. eine Kreuztabelle mit bedingten relativen Häufigkeiten
(Spaltenanteile)

Tabelle 40: Kurzübung: Kreuztabelle - Geschlecht und AfD-Wahl


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93
Nein 354 422
Gesamt
Anmerkung: Zahlen basieren auf einem FAZ-Artikel über eine Infratest dimap-Umfrage. Die absoluten Häufigkeiten sind fiktiv,
spiegeln aber die relativen Häufigkeiten wider.
190 / 425
Das Konzept der
statistischen (Un-)Abhängigkeit

I Vier Kreuztabellen mit absoluten Häufigkeiten.

Unabhängigkeit Schwacher Zusammenhang


X X
Y Y
P P
b1 b2 b1 b2
a1 50 50 100 a1 60 40 100
a2 50 50 100 a2 40 60 100
100 100 200 100 100 200
P P

Starker Zusammenhang Perfekter Zusammenhang


X X
Y Y
P P
b1 b2 b1 b2
a1 80 20 100 a1 100 0 100
a2 20 80 100 a2 0 100 100
100 100 200 100 100 200
P P

191 / 425
Das Konzept der
statistischen (Un-)Abhängigkeit

I Zwei Variablen X und Y sind voneinander unabhängig wenn die


Ausprägungen der unabhängigen Variablen X (b1 , b2 , . . . , bm ) keinen
Einfluss auf die Verteilung der bedingten relativen Häufigkeiten der
Ausprägungen von Y (a1 , a2 . . . , aK ) haben.
I Folglich entspricht die Verteilung Y |X = ai für alle i der
Randverteilung von Y.
I Da Kreuztabellen symmetrisch sind (die Zeilen- und Spaltenvariablen
können auch getauscht werden) gilt ebenfalls, dass X |Y = bj für alle
j der Randverteilung von X entspricht.

192 / 425
Zusammenhangsmaße ab
nominalem Skalenniveau

I Wie lassen sich die Zusammenhänge in einer Kreuztabelle in


Maßzahlen ausdrücken?
I In 2x2-Kreuztabellen können berechnet werden:
I Die Prozentsatzdifferenz
I Die Odds-Ratio
I Der Chi2 -Koeffizient (χ2 )
I Das Chi2 -basierte Phi (φ)
I In kxm-Tabellen, die bei der Analyse von nicht-dichotomen Variablen
vorkommen, müssen andere Maßzahlen berechnet werden:
I Chi2 -Koeffizient (χ2 )
I Das Chi2 -basierte Cramer’s V
I Viele weitere Maßzahlen, die wir hier nicht behandeln

193 / 425
Zusammenhangsmaße für 2x2-Tabellen:
Die Prozentsatzdifferenz

I Die Prozentsatzdifferenz:
h11 h12
 
d% = − · 100 = (fY (a1 |b1 ) − fY (a1 |b2 )) · 100
h.1 h.2
I Im Beispiel: d% = (0, 270 − 0, 181) · 100 = 8, 9
I Interpretation: Der Unterschied zwischen Männern und Frauen
beträgt 8,9 Prozentpunkte!

Tabelle 41: Prozentsatzdifferenz in 2x2-Tabellen


Geschlecht X
AfD Gesamt Y fi.
M W b1 b2
Ja 0,270 0,181 0,224 a1 fY (a1 |b1 ) fY (a1 |b2 ) f1.
Nein 0,730 0,819 0,776 a2 fY (a2 |b1 ) fY (a2 |b2 ) f2.
Gesamt 1 1 1 1 1 1
P2
i=1

194 / 425
Zusammenhangsmaße für 2x2-Tabellen:
Die Prozentsatzdifferenz

I Die Prozentsatzdifferenz nimmt Werte zwischen −100 und +100 an.


I Bei nominal-skalierten Variablen ist die Richtung allerdings nicht
informativ, da die Reihenfolge der Kategorien beliebig ist.
I Werte von ±100 ergeben sich bei einem perfekten Zusammenhang.
I Werte von 0 ergeben sich bei Unabhängigkeit.
I Probleme:
I Nur in 2x2-Tabellen anwendbar
I Kann aus Spalten- und Zeilensichtweise unterschiedliche Werte
einnehmen. Daher muss vor der Analyse theoretisch geklärt werden,
welche die abhängige und welche die unabhängige Variable ist

195 / 425
Odds: Was ist das?

I Odds sind eine Möglichkeit, Wahrscheinlichkeiten anzugeben. Sie


geben das Verhältnis von einer Wahrscheinlichkeit p zu ihrer
Gegenwahrscheinlichkeit (1 − p) an.
p
Odds =
(1 − p)
Odds
⇔ p=
Odds + 1
I Im Deutschen können wir von Chancen oder Risiken sprechen (je
nach Variable).
I Beispiele:
I Die Chance, auf 6 Richtige beim Lotto ist 1 zu

139.838.160“(1/139.838.160).
I Die Chance, bei einer Münzwurfwette zu gewinnen, wenn man auf
Kopf setzt, ist 1 zu 1“(1/1).

I Die Chance, beim Würfeln eine 1 zu bekommen, ist 1 zu 5“(1/5).

196 / 425
Odds: Ein einfaches Beispiel

I Beispiel: Sie wetten auf Kopf bei einem Münzwurf. Wie ist die
Wahrscheinlichkeit (p) zu gewinnen? Offensichtlich gilt p = 0, 5.
Welchen Odds entspricht das?
p 0, 5 1
Odds = = =1 , als Bruch:
(1 − p) 1 − 0, 5 1

Wie kommt man von den Odds zu einer Wahrscheinlichkeit (p)?

Odds 1
p= = = 0, 5
Odds + 1 1+1

197 / 425
Odds: Noch ein einfaches Beispiel

I Beispiel: Wie ist die Wahrscheinlichkeit (p) beim Würfeln eine 6 zu


bekommen? Offensichtlich gilt p = 1/6 ≈ 0, 167. Welchen Odds
entspricht das? Antwort: 1 zu 5“.

p 0, 167 0, 167 1
Odds = = = = 0, 2 , als Bruch:
(1 − p) 1 − 0, 167 0, 833 5

Wie kommt man von den Odds zu einer Wahrscheinlichkeit (p)?

Odds 1 1
1·5 1
p= = 5
= 5
= = ≈ 0, 167
Odds + 1 1
5 +1 6
5
5·6 6

198 / 425
Odds: Ein praktisches Beispiel
I Beispiel: Schauen Sie die Tabelle an. Wie ist die Wahrscheinlichkeit,
dass eine zufällig ausgewählte Person die AfD wählt?
224
p= = 0, 224
1000
Wir können auch sagen, die Odds AfD zu wählen sind 224 zu 776 “:

Odds 224 224
224 · 776 224
p= = 224776 = 1000
776
= = = 0, 224
Odds + 1 776 + 1 776
776 · 1000 1000

Tabelle 42: Wahrscheinlichkeit der AfD-Wahl


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93 224
Nein 354 422 776
Gesamt 485 515 1.000
199 / 425
Zusammenhangsmaße für 2x2-Tabellen:
Das Odds-Ratio
I Das Odds-Ratio/ Chancenverhältnis (auch Kreuzproduktverhältnis):
h11
h21 h11 h22
OR = h12
=
h22
h21 h12
I Im Beispiel: (131/354)/(93/422) = (131·422)/(354·93) = 1, 679
I Interpretation: Die Odds (die AfD zu wählen) sind für Männer 1,679
mal größer als für Frauen!

Tabelle 43: Odds Ratios in 2x2-Tabellen


Geschlecht X
AfD Gesamt Y
P2
M W b1 b2 j=1

Ja 131 93 224 a1 h11 h12 h1.


Nein 354 422 776 a2 h21 h22 h2.
Gesamt 485 515 1.000
P2
i=1 h.1 h.2 n
200 / 425
Das Odds-Ratio:
Beispiele mit OR≥ 1

Unabhängigkeit Schwacher Zusammenhang


X X
Y Y
P P
b1 b2 b1 b2
a1 50 50 100 a1 60 40 100
a2 50 50 100 a2 40 60 100
100 100 200 100 100 200
P P

OR = 50·50/50·50 = 1 OR = 60·60/40·40 = 2, 25

Starker Zusammenhang Perfekter Zusammenhang


X X
Y Y
P P
b1 b2 b1 b2
a1 80 20 100 a1 100 0 100
a2 20 80 100 a2 0 100 100
100 100 200 100 100 200
P P

OR = 80·80/20·20 = 16 OR = 100·100/0·0 → ∞
201 / 425
Das Odds-Ratio:
Beispiele mit OR≤ 1

Unabhängigkeit Schwacher Zusammenhang


X X
Y Y
P P
b1 b2 b1 b2
a1 50 50 100 a1 40 60 100
a2 50 50 100 a2 60 40 100
100 100 200 100 100 200
P P

OR = 50·50/50·50 = 1 OR = 40·40/60·60 = 0, 443

Starker Zusammenhang Perfekter Zusammenhang


X X
Y Y
P P
b1 b2 b1 b2
a1 20 80 100 a1 0 100 100
a2 80 20 100 a2 100 0 100
100 100 200 100 100 200
P P

OR = 20·20/80·80 = 0, 0625 OR = 0·0/100·100 = 0


202 / 425
Zusammenfassung: Odds-Ratio

I Odds-Ratios drücken das Verhältnis zweier bedingter Chancen (Odds)


aus.
I Es gilt OR ∈ [0, ∞], und
I OR = 1, wenn kein Zusammenhang besteht.
I Je nachdem, ob OR ≤ 1 oder OR ≥ 1, sind die Chancen in der einen
oder der anderen Bedingung (b1 , b2 ) höher.
I Die Stärke eines Zusammenhangs drückt sich entsprechend
folgendermaßen aus:
I OR ≤ 1: Je stärker der Zusammenhang, desto kleiner wird das
Odds-Ratio (OR → 0)
I OR ≥ 1: Je stärker der Zusammenhang, desto größer wird das
Odds-Ratio (OR → ∞)

203 / 425
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient

I Frage: Welche Häufigkeiten ergäben sich bei statistischer


Unabhängigkeit?

Tabelle 44: AfD-Wahl und Geschlecht - zurück zum Beispiel


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93 224
Nein 354 422 776
Gesamt 485 515 1.000

204 / 425
Erwartete Häufigkeiten bei
Unabhängigkeit

I Frage: Welche Häufigkeiten ergäben sich bei statistischer


Unabhängigkeit?

Tabelle 45: Erwartete Häufigkeiten bei Unabhängigkeit


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja (485·224)/1000 = 108, 64 (515·224)/1000 = 115, 36 224
Nein (485·776)/1000 = 376, 36 (515·776)/1000 = 399, 64 776
Gesamt 485 515 1.000

205 / 425
Erwartete Häufigkeiten bei
Unabhängigkeit - abstrakte Darstellung

I Die erwarteten (Zell-)Häufigkeiten bei Unabhängigkeit ergeben sich


aus dem Produkt der Randhäufigkeiten geteilt durch n:
hi. h.j hi. h.j
h˜ij = · h.j = fi. h.j = hi. · = hi. f.j =
n n n
I Die daraus berechneten bedingten relativen Häufigkeiten entsprechen
den beobachten relativen Randhäufigkeiten.

Tabelle 46: Erwartete Häufigkeiten bei Unabhängigkeit - formale Darstellung


X
Y fi.
b1 b2
a1 h̃11 = (h1. h.1 )/n h̃12 = (h1. h.2 )/n h1.
a2 h̃21 = (h2. h1. )/n h̃22 = (h2. h2. )/n h2.
P2
i=1 h.1 h.2 n
206 / 425
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient

I Der Chi2 -Koeffizient basiert auf den Abweichungen zwischen


beobachteten und erwarteten Häufigkeiten.
I Die Summe aller Abweichungen von den erwarteten Häufigkeiten ist
aber zwingend null.

Tabelle 47: Berechnung des Chi2 -Koeffizienten


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131−108,64=22,36 93−115,36=−22,36 224
Nein 354−376,36=−22,36 422−399,64=22,36 776
Gesamt 485 515 1.000

207 / 425
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient

I Der Chi2 -Koeffizient entspricht der Summe der quadrierten


Abweichungen zwischen beobachteten und erwarteten Häufigkeiten,
jeweils geteilt durch die erwarteten Häufigkeiten:
k X
m
(hij − h̃ij )2 hi. h.j
χ2 = , mit χ2 ≥ 0 und h̃ij =
X

i=1 j=1 h̃ij n

Tabelle 48: Berechnung des Chi2 -Koeffizienten


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 22,362/108,64 −22,362/115,36 224
Nein −22,362/376,36 22,362/399,64 776
Gesamt 485 515 1.000
208 / 425
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient
I Der Chi2 -Koeffizient im Beispiel:
k X
m
(hij − h̃ij )2 (131 − 1000 )
485·224 2
χ2 = =
X
485·224
i=1 j=1 h̃ij 1000

(354 − 1000 )
485·776 2
(93 − 1000 )
515·224 2
(422 − 515·776
1000 )
2
+ 485·776 + 515·224 + 515·776
1000 1000 1000
=11, 516
Tabelle 49: Berechnung des Chi2 -Koeffizienten
Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93 224
Nein 354 422 776
Gesamt 485 515 1.000
209 / 425
Zusammenfassung:
Der Chi2 -Koeffizient

I Der Chi2 -Koeffizient ist symmetrisch, d.h. unabhängig davon, welche


Variable abhängig oder unabhängig ist.
I Invariant gegenüber dem Vertauschen von Zeilen oder Spalten.
I Bei statistischer Unabhängigkeit gilt χ2 = 0.
I Bei 2x2-Tabellen gilt χ2max = n (bei perfektem Zusammenhang).
I Probleme: Der Wertebereich von χ2 ist abhängig von . . .
I den Dimensionen der Tabelle (k und m)
I der Fallzahl n
I φ und Cramer’s V nehmen sich dieses Problems an

210 / 425
Zusammenhangsmaße für Kreuztabellen:
Normierungen des Chi2 -Koeffizienten

I Phi lässt sich in 2x2-Tabellen berechnen. Es normiert den


Wertebereich von χ2 :
s
χ2 |h11 h22 − h21 h12 |
φ= = √
n h.1 h.2 h1. h2.
I Cramer’s V ist eine Verallgemeinerung von φ:
s
χ2
V =
n · min(k − 1, m − 1)

I Es gilt φ ∈ [0, 1] und V ∈ [0, 1].

211 / 425
Zusammenfassung: Zusammenhangsmaße
für nominal-skalierte Variablen

I Bei nominal-skalierten Variablen werden Zusammenhangsmaße


verwendet, die unabhängig von der Richtung des Zusammenhangs
sind.
I Diese Maßzahlen basieren · · ·
I entweder auf einem Vergleich der bedingten relativen Häufigkeiten
(Prozentsatzdifferenz) oder
I auf einem Vergleich der erwarteten Häufigkeiten unter der Annahme
statistischer Unabhängigkeit mit den beobachteten Häufigkeiten (Chi2 ,
Phi, Cramer’s V).
I Stata Example 8 (crosstable.do)

212 / 425
Zusammenhangsmaße
für ordinal-skalierte Variablen

I Ab ordinalem Skalenniveau wird die Richtung eines Zusammenhangs


relevant.
I Problem: Wir können keine Differenzen und/ oder Verhältnisse bilden.
I Es gibt daher verschiedene Zusammenhangsmaße, die auf einem
Vergleich von Wertepaaren basieren. Hierfür ist nur die Information
über die Rangordnung nötig.
I Kendall’s Taub
I Goodman und Kruskal’s Gamma
I Siehe dazu Jann (2005), S. 80ff.
I Wir behandeln diese Maße hier nicht! (und auch nicht in der Klausur)

213 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.1, 4.2.1, 4.2.2, 4.2.3.
I Für Interessierte:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.2.4 und 4.3.
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 3.1, 3.2.

214 / 425
Einführung in die sozialwissenschaftliche Statistik
Bivariate Deskription: Zusammenhangsmaße für metrische
Variablen

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#8

215 / 425
Kurze Erinnerung

I Letzte Sitzung haben wir über bivariate Häufigkeitstabellen


(Kreuztabellen) gesprochen.
I Wir haben die wichtigsten Statistiken zur Beschreibung bivariater
Zusammenhänge in Kreuztabellen kennengelernt (ab nominalem
Skalenniveau):
I Die Prozentsatzdifferenz, basierend auf Spaltenprozenten
I Odds und Odds Ratios, basierend auf absoluten Häufigkeiten
I Der Chi2 Koeffizient, basierend auf erwarteten und beobachteten
Häufigkeiten
I Phi und Cramer’s V: Normierungen von Chi2
I Heute beschäftigen wir uns mit bivariaten Zusammenhangsmaßen für
metrisch-skalierte Variablen.

216 / 425
Zusammenhangsmaße für
metrisch-skalierte Variablen
I Zusammenhänge zwischen metrischen Variablen lassen sich in
Scatterplots darstellen.

Abbildung 37: Generalisiertes Vertrauen und migrationskritische Einstellungen


4
Migrationskritische Einstellung
−2 0
−4 2

−3 −2 −1 0 1 2
Generalisiertes Vertrauen

Quelle: ESS 8, Edition 1.0. Anmerkungen: Beide Variablen wurden mit Hilfe sog. konfirmatorischer Messmodelle gebildet und
basieren jeweils auf drei Items. Die Graphik zeigt den Zusammenhang beider Variablen für eine Zufallsstichprobe aus dem
kompletten Datensatz (n = 50).
217 / 425
Zusammenhänge metrischer Variablen:
Die Kovarianz

I Die Kovarianz ist eine Maßzahl zur Beschreibung bivariater


Zusammenhänge:
n
1X
sXY = (xi − x̄ )(yi − ȳ )
n i=1

I Sie beschreibt das Ausmaß des Miteinander Variierens“.



I Erinnere: Die Varianz beschreibt die Abweichungen vom Mittelwert.
Die Kovarianz beschreibt ebenfalls Abweichungen von Mittelwerten,
misst aber, wie sich die Abweichungen zweier Variablen zueinander
Verhalten.

218 / 425
Zusammenhangsmaße:
Die Kovarianz

I Was ergibt der Term (xi − x̄ )(yi − ȳ ) in den Quadranten der Grafik
unten?

Abbildung 38: Generalisiertes Vertrauen und migrationskritische Einstellungen


4

II I
Quadrant II: Quadrant I:
(yi − ȳ ) > 0, (yi − ȳ ) > 0,
Migrationskritische Einstellung
2

(xi − x̄ ) < 0 (xi − x̄ ) > 0


0

Mittelwert y

Quadrant III: Quadrant IV:


−2

(yi − ȳ ) < 0, (yi − ȳ ) < 0,


(xi − x̄ ) < 0 III Mittelwert x IV
(xi − x̄ ) > 0
−4

−3 −2 −1 0 1 2
Generalisiertes Vertrauen

219 / 425
Zusammenhangsmaße:
Die Kovarianz

I Was ergibt der Term (xi − x̄ )(yi − ȳ ) in den Quadranten der Grafik
unten?

Abbildung 39: Generalisiertes Vertrauen und migrationskritische Einstellungen

Quadrant II: Quadrant I:


4

II I

(yi − ȳ ) > 0, (yi − ȳ ) > 0,


Migrationskritische Einstellung
2

(xi − x̄ ) < 0 (xi − x̄ ) > 0


Produkt:< 0 Produkt:> 0
0

Mittelwert y

Quadrant III: Quadrant IV:


(yi − ȳ ) < 0, (yi − ȳ ) < 0,
−2

(xi − x̄ ) < 0 III Mittelwert x IV (xi − x̄ ) > 0


−4

Produkt:> 0 −3 −2 −1 0
Generalisiertes Vertrauen
1 2
Produkt:< 0

220 / 425
Zusammenhangsmaße:
Die Kovarianz

I Die meisten Beobachtungen liegen im Quadranten II und IV, nur


wenige Beobachtungen liegen in den Quadranten I und III.
I Das Produkt (xi − x̄ )(yi − ȳ ) wird daher im Durchschnitt negativ.

Abbildung 40: Generalisiertes Vertrauen und migrationskritische Einstellungen


4

II I
Migrationskritische Einstellung
0 2

Mittelwert y
−2

III Mittelwert x IV
−4

−3 −2 −1 0 1 2
Generalisiertes Vertrauen

221 / 425
Die Kovarianz ist abhängig
von der Skalierung
I Die Grafiken zeigen Scatterplots des gesamten Samples für identische
Variablen mit unterschiedlicher Skalierung.
I Die Kovarianz links beträgt −0, 76; rechts beträgt sie −134, 2.

Abbildung 41: Scatterplots mit zwei Skalierungen

100
4 3

80
Migrationskritische Einstellung

Migrationskritische Einstellung
2

60
0 1

40
−1

20
−2
−3

−4 −3 −2 −1 0 1 2 3 0 20 40 60 80 100
Generalisiertes Vertrauen Generalisiertes Vertrauen

Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 2.783.


222 / 425
Zusammenhangsmaße: Kovarianz und
Korrelationskoeffizient

I Die Kovarianz ist abhängig von der Skalierung der Variablen.


I Insofern ist nur das Vorzeichen der Kovarianz informativ, nicht aber
ihr Wert.
I Der Korrelationskoeffizient (nach Bravais-Pearson) normiert die
Kovarianz:
n
(xi − x̄ )(yi − ȳ )
P
sXY
r = rXY = = qP i=1
sX sY
i=1 (xi − x̄ ) i=1 (yi − ȳ )
n 2
Pn 2

, mit r ∈ [−1, 1]

I Bei r = 0 besteht kein Zusammenhang, bei r = −1 (r = 1) liegen alle


Punkte auf einer Linie mit negativer (positiver) Steigung (perfekter
Zusammenhang).

223 / 425
Zusammenhangsmaße:
Korrelationskoeffizient nach Bravais-Pearson

I Rechengünstigere Formel für den Korrelationskoeffizienten:

( i=1 (xi yi )) − (nx̄ ȳ )


Pn
r = q P
n
− (nx̄ 2 ) · i=1 yi − (nȳ )
2
   Pn 2
 
2
i=1 xi

224 / 425
Zusammenhangsmaße:
Korrelationskoeffizient - Rechenbeispiel

I Ein Rechenbeispiel zur Kovarianz und Korrelation:

Tabelle 50: Körpergröße in cm (x) und Gewicht in g (y) bei Säuglingen

i xi yi (xi − x̄ ) (xi − x̄ )2 (yi − ȳ ) (yi − ȳ )2 (xi − x̄ )(yi − ȳ )


1 52 3600 -5,5 30,25 -775 600625 4262.5
2 60 4500 2,5 6,25 125 15625 312.5
3 68 6200 10,5 110,25 1825 3330625 19162.5
4P 50 3200 -7,5 56,25 -1175 1380625 8812.5
230 17500 203 5327500 32550

x̄ = 230/4 =
57, 5 32550 32550
ȳ = 17500/4 = sxy = = 8137, 5 r=√ = 0, 9898
4 203 · 5327500
4375
225 / 425
Zusammenhangsmaße:
Korrelationskoeffizient - Rechenbeispiel

I Grafische Darstellung des Zusammenhangs aus dem Rechenbeispiel


(r=0,9898):

Abbildung 42: Scatterplot zum Rechenbeispiel


6000
5000
Gewicht in g
4000
3000

50 55 60 65 70
Größe in cm

226 / 425
Korrelationskoeffizient: Eigenschaften
I Bei Unabhängigkeit von X und Y ist r = 0.
I Wenn |r | = 1 ist, liegen alle Wertepaare auf einer Geraden.
I Die Steigung der Geraden lässt sich nicht aus r ablesen.

Abbildung 43: Unabhängigkeit und perfekter Zusammenhang


2

2
1

1
Y

Y
0

0
−1

−1

r=0 r=1
−2

−2

−2 −1 0 1 2 −2 −1 0 1 2
X X

227 / 425
Korrelationskoeffizient: Eigenschaften
I Der Korrelationskoeffizient misst lineare Zusammenhänge.
I Nicht-lineare Zusammenhänge können von ihm nicht erfasst werden.

Abbildung 44: Nicht-linearer Zusammenhang


2.5
2
1.5
Y
1
.5

r = −0,15
0

−2 −1 0 1 2
X

228 / 425
Korrelationskoeffizient: Eigenschaften
I Der Korrelationskoeffizient ist anfällig gegenüber Ausreißern.

Abbildung 45: Korrelationskoeffizient und Ausreißer


4

4
2

2
Y

Y
0

r=0 r = 0,45
−2

−2

−2 0 2 4 −2 0 2 4
X X

229 / 425
Zusammenfassung:
Der Korrelationskoeffizient
I Der Korrelationskoeffizient (r ) ist die normierte Kovarianz.
I r ist symmetrisch und invariant gegenüber positiv linearen
Transformationen.
I Es gilt r ∈ [−1, 1]. Je näher der Korrelationskoeffizient an 1 (bzw. -1)
liegt, desto eher beschreiben die Wertepaare (xi , yi ) eine Linie mit
positiver (bzw. negativer) Steigung.
I Der Wert von r sagt jedoch nichts über die Steigung der Geraden aus.
I Der Korrelationskoeffizient wird aber verwendet, um über die
Stärke“eines Zusammenhangs zu entscheiden:
” I |r | < 0, 3: Kein Effekt“bis schwacher Effekt“
” ”
I |r | ≥ 0, 3 und |r | < 0, 5: Mäßiger Effekt“

I |r | ≥ 0, 5 und |r | < 0, 8: Starker Effekt“

I |r | ≥ 0, 8: Sehr starker Effekt “

I Derartige Daumenregeln bieten nur eine Orientierung. Was als starker
oder schwacher Zusammenhang gilt, hängt von der Disziplin bzw. dem
Untersuchungsgegenstand ab.
230 / 425
Zusammenhangsmaße:
Der Rangkorrelationskoeffizient

I Der Rangkorrelationskoeffizient (Spearman’s Rho) wird analog zum


Korrelationskoeffizienten berechnet, basiert aber nicht auf den
Wertepaaren der Rohdaten (xi , yi ), sondern auf deren Rängen
(rg(xi ), rg(yi )):

i=1 (rg(xi ) ¯ x )(rg(yi ) − rg


¯ y)
Pn
− rg
ρ = qP
i=1 (rg(xi ) − rg¯x )2 i=1 (rg(yi ) − rg¯y )2
n Pn

n+1
, mit rg
¯ x = rg
¯y = und ρ ∈ [−1, 1]
2
I Da sich Rangordnungen ab ordinalem Skalenniveau berechnen lassen,
kann der Rangkorrelationskoeffizient ebenfalls ab ordinalem
Skalenniveau berechnet werden.

231 / 425
Zusammenhangsmaße:
Der Rangkorrelationskoeffizient

I Bei der Berechnung werden identische Werte dem durchschnittlichen


Rang zugewiesen:

Tabelle 51: Bestimmung von Rängen zur Berechnung von Spearman’s Rho
xi (geordnete Urliste) nummeriert Berechnung mittlerer Rang Rang
1 1 1 1
2 2 2+3/2 = 2,5
2 3
3 4 4 4
4 5
4 6 5+6+7+8/4 = 6,5
4 7
4 8
5 9 9+10/2 = 9,5
5 10
232 / 425
Zusammenfassung:
Der Rangkorrelationskoeffizient

I Der Rangkorrelationskoeffizient nach Spearman (ρ) ist ab ordinalem


Skalenniveau berechenbar.
I Es gilt ρ ∈ [−1, 1].
I ρ ist invariant gegenüber monotonen Transformationen.
I ρ ist symmetrisch.
I ρ ist weniger anfällig gegenüber Ausreißern, da es die Ränge, nicht die
Werte aus den Rohdaten verwendet.

233 / 425
Der Korrelationskoeffizient:
Spezialfälle
I Wenn zwei dichotome Variablen vorliegen, lässt sich der
Korrelationskoeffizient ebenfalls verwenden.
I Die beiden Variablen müssen dafür 0/1-kodiert sein
(Dummy-Kodierung)
I Wir sprechen hier vom Punkt-Korrelationskoeffizienten
I Es gilt |r | = φ

Tabelle 52: AfD-Wahl und Geschlecht - Der Punkt-Korrelationskoeffizient


Geschlecht
AfD-Wähler Gesamt
Weiblich (0) Männlich (1)
Nein (0) 422 354 776
Ja (1) 93 131 224
Gesamt 515 485 1.000
Anmerkung: Zahlen basieren auf einem FAZ-Artikel über eine Infratest dimap-Umfrage. Die absoluten Häufigkeiten sind fiktiv,
spiegeln aber die relativen Häufigkeiten wider.
234 / 425
Der Korrelationskoeffizient:
Spezialfälle

I Im Beispiel: s s
χ2 11, 516
φ= = = 0, 107
n 1000
r = 0, 107

Tabelle 53: AfD-Wahl und Geschlecht - Der Punkt-Korrelationskoeffizient


Geschlecht
AfD-Wähler Gesamt
Weiblich (0) Männlich (1)
Nein (0) 422 354 776
Ja (1) 93 131 224
Gesamt 515 485 1.000
Anmerkung: Zahlen basieren auf einem FAZ-Artikel über eine Infratest dimap-Umfrage. Die absoluten Häufigkeiten sind fiktiv,
spiegeln aber die relativen Häufigkeiten wider.

235 / 425
Der Korrelationskoeffizient:
Spezialfälle

I Der Punkt-biseriale Korrelationskoeffizient beschreibt den


Zusammenhang zwischen einer dichotomen und einer metrischen
Variablen und lässt sich wie folgt berechnen:
ȳ1 − ȳ0
r
n1 n0
rpb = ·
sy n2
, mit . . .
ȳ1 : Mittellwert von y für x=1
ȳ0 : Mittellwert von y für x=0
n1 : Häufigkeit der Ausprägung x=1
n0 : Häufigkeit der Ausprägung x=0
n: Stichprobenumfang(n1 + n0 = n)

I Die dichotome Variable muss 0/1-kodiert sein.


236 / 425
Der Korrelationskoeffizient:
Spezialfälle

I Der Punkt-biseriale Korrelationskoeffizient - ein Rechenbeispiel:


s
ȳ1 − ȳ0 −0, 0396 − 0, 0446 1311 · 1477
r
n1 n0
rpb = · = · = −0, 0266
sy n 2 1, 5813 27882
r = −0, 0266

Tabelle 54: Geschlecht und migrationskritische Einstellungen


Migrationskritische Einstellungen (Y)
Geschlecht (X)
ȳ sy n
Weiblich (0) 0,0446 1,5830 1311
Männlich (1) -0,0396 1,5793 1477
Gesamt 0,0000 1,5813 2788
Quelle: ESS 8, Edition 1.0. Die Operationalisierung von migrationskritischen Einstellungen basiert auf konfirmatorischen
Messmodellen mit drei Items.
237 / 425
Analyse von Zusammenhängen
unterschiedlich skalierter Variablen

I Bei der Analyse von Zusammenhängen zwischen Variablen


unterschiedlicher Skalenniveaus gilt grundsätzlich, dass die Variable
mit dem niedrigeren Skalenniveau die zulässige Analyse vorgibt.
Beispiel: Bei der Analyse des Zusammenhangs zwischen einer
nominal- und einer intervall-skalierten Variablen müssen Verfahren
verwendet werden, die für nominal-skalierte Variablen zulässig sind.
I Problem: Die Informationen der höher-skalierten Variable gehen
teilweise verloren.

238 / 425
Analyse von Zusammenhängen
unterschiedlich skalierter Variablen

I Es gibt einige Spezialfälle, bei denen eine Anwendung des


Korrelationskoeffizienten dennoch zulässig ist:
I Der Punkt-Korrelationskoeffizient eignet sich zur Analyse von
Zusammenhängen zwischen zwei dichotomen Variablen, die beide
0/1-kodiert sind. Er funktioniert ab nominalem Skalenniveau.
I Der Punkt-biseriale Korrelationskoeffizient eignet sich zur Analyse von
Zusammenhängen zwischen einer dichotomen (0/1-kodierten) und
einer metrischen Variablen (ab nominalem Skalenniveau).
I Es gibt auch den sog. Punkt-biserialen Rangkorrelationskoeffizienten
zur Analyse eines Zusammenhangs zwischen einer dichotomen und
einer ordinal-skalierten Variablen (siehe dazu Bortz & Schuster 2010,
S. 177f.; nicht klausurrelevant).

239 / 425
Exkurs: Korrelation und Kausalität

I Ein Beispiel: Zahl der Störche und Fertilitätsrate in den 294 Kreisen
in Deutschland.
I Handelt es sich hier um einen kausalen Zusammenhang?

Abbildung 46: Zahl der Störche und Fertilitätsraten in 294 Kreisen


4
3
Fertitlitätsrate
2

r = 0,80
1
0

0 10 20 30 40 50
Zahl der Störche

Anmerkung: Simulierte Daten.

240 / 425
Exkurs: Korrelation und Kausalität
- weitere Beispiele

I Wir beobachten Korrelationen zwischen . . .


I der Zahl der verkauften Eiskugeln und der Zahl der Morde
I der Körpergröße und dem Wortschatz von Kindern
I dem Einkommen und der Dichte der Kopfbehaarung bei Männern
(negative Korrelation)
I dem Gesundheitszustand und dem Einnehmen von Vitaminpillen
I dem Lesen linksextremer Onlineforen und linksextremen politischen
Einstellungen
I Arbeitslosigkeit und fremdenfeindlichen Einstellungen
I Handelt es sich hierbei um kausale Effekte?

241 / 425
Exkurs: Korrelation und Kausalität
- Scheinkorrelationen
I Die Korrelation zwischen . . .
I der Körpergröße und dem Wortschatz von Kindern erklärt sich durch
das Alter der Kinder
I dem Einkommen und der Dichte der Kopfbehaarung bei Männern
erklärt sich durch das Alter

Abbildung 47: Scheinkorrelation zwischen X und Y

242 / 425
Exkurs: Korrelation und Kausalität
- Scheinkorrelationen

I Scheinkorrelationen: Der Zusammenhang von X und Y ist nicht


kausal, beide hängen (kausal) von einer dritten Variable (Z ) ab.
I Achtung: Die Korrelation ist echt“, aber nicht kausal!

I Lösung: Statistische Kontrolle der Drittvariablen (soweit bekannt).
Abbildung 48: Scheinkorrelation zwischen X und Y

243 / 425
Exkurs: Korrelation und Kausalität
- Selektion/ Kausalrichtung

I Die Korrelation zwischen . . .


I dem Gesundheitszustand und dem Einnehmen von Vitaminpillen ist
möglicherweise auf einen Selektionseffekt zurückzuführen: Menschen,
die Vitaminpillen nehmen, zeigen ggf. auch viele andere gesunde
Verhaltensweisen (z.B. Sport, nicht Rauchen, gesunde Ernährung, etc.)
I dem Lesen linksextremer Onlineforen und linksextremen politischen
Einstellungen spiegelt vielleicht nicht den Effekt des Medienkonsums
auf politische Einstellungen wider. Möglicherweise ist es umgekehrt:
Menschen mit extremen Einstellungen lesen entsprechende Seiten.
I Lösungen:
I Selektionseffekte können ebenfalls über die statistische Kontrolle der
Drittvariablen (soweit bekannt) adressiert werden. Es stehen auch
andere Verfahren zur Verfügung.
I Fragen der Kausalrichtung sind häufig kompliziert. Die Beobachtung
von Untersuchungseinheiten über die Zeit (sog. Paneldaten) oder
theoretische Überlegungen können hier helfen.
244 / 425
Exkurs: Korrelation und Kausalität
- Konfundierung
I Der kausale Effekt von . . .
I Arbeitslosigkeit auf fremdenfeindlichen Einstellungen ist ggf.
überschätzt: Personen mit geringerer Bildung sind häufiger
fremdenfeindlich und gleichzeitig häufiger arbeitslos.
I Lösung: Statistische Kontrolle der konfundierenden Variable Z (soweit
bekannt).
Abbildung 49: Konfundierung des Zusammenhangs zwischen X und Y

245 / 425
Exkurs: Korrelation und Kausalität
- das Experiment
I Die ideale Methode zur Identifikation eines kausalen Zusammenhangs
ist das Experiment (Beispiel: Studien zur Wirksamkeit von
homöopathischen Mitteln).
I Treatmentgruppe (erhält Stimulus) und Kontrollgruppe (erhält
Stimulus nicht)
I Randomisierte Zuweisung der Probanden auf Treatment- und
Kontrollgruppe
I Kontrollierte Setzung des Stimulus durch den Forscher
I Unterschiede zwischen Kontroll- und Treatmentgruppe lassen sich bei
einem sauber durchgeführten Experiment auf das Treatment/ den
Stimulus zurückführen (kausaler Effekt)
I Mit Beobachtungsdaten ist dies deutlich schwieriger:
I Unbeobachtete Variablen?
I Selektionseffekte in das Treatment? Umgekehrte Kausalität?
I Viele sozialwissenschaftliche Fragestellungen lassen sich nicht
experimentell beantworten! (Beispiel: Der soziale Hintergrund oder das
Geschlecht lassen sich nicht randomisiert zuweisen)
246 / 425
Exkurs: Korrelation und Kausalität
- kausale Effekte aus Beobachtungsdaten

I Voraussetzungen für kausale Schlussfolgerungen auf Basis von


Beobachtungsdaten/ Umfragedaten:
I Zwischen X und Y besteht ein Zusammenhang
I X geht Y zeitlich voraus: Messungen über die Zeit oder theoretische
Überlegungen
I Der Zusammenhang von X und Y bleibt bestehen, wenn alternative
Erklärungen statistisch kontrolliert werden (Drittvariablenkontrolle).
Mehr im Themenblock lineare Regression!

247 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.4 und 4.5.
I Für Interessierte:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.2.4 und 4.3.
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 3.4 und 3.5.

248 / 425
Einführung in die sozialwissenschaftliche Statistik
Inferenzstatistik: Zufallsvariablen

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#9

249 / 425
Kurze Erinnerung

I Letzte Sitzung haben wir über bivariate Zusammenhangsmaße für


metrisch-skalierte Variablen gesprochen:
I Kovarianz
I Korrelationskoeffizient nach Bravais-Pearson
I Außerdem haben wir uns mit einigen Spezialfällen des
Korrelationskoeffizienten und Fragen der Kausalität beschäftigt.
I Der Themenblock der deskriptiven Statistik ist damit abgeschlossen.
I Heute beschäftigen wir uns mit dem Themenkomplex
Inferenzstatistik; insbesondere mit Zufallsvariablen.

250 / 425
Deskriptive und Inferenzstatistik

I Deskriptive Statistik beschreibt Daten mit Hilfe von Maßzahlen.


I Inferenzstatistik (auch induktive oder schließende Statistik)
verallgemeinert über die konkret vorliegenden Daten hinaus.
I Dazu werden die Daten als eine Stichprobe aus einer Grundgesamtheit
begriffen
I Inferenzstatistik erlaubt es, Schlussfolgerungen über die
Populationsparameter zu ziehen.
Beispiel: Aus Daten über 1000 Frauen wird die Fertilitätsrate für die
gesamte Bevölkerung geschätzt.
I Außerdem erlaubt Inferenzstatistik das Testen von Hypothesen.
Beispiel: Gibt es einen signifikanten Zusammenhang zwischen
Arbeitslosigkeit und fremdenfeindlichen Einstellungen?
I Für Inferenzstatistik benötigen wir Kenntnisse über Wahrscheinlichkeit-
bzw. Dichtefunktionen

251 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein Beispiel
I Beispiel: Parteipräferenzen im deutschen Samples des ESS.
I Wie ist die Wahrscheinlichkeit, dass der Stimmenanteil der Linken in
der Grundgesamtheit 10,704382% beträgt?

Abbildung 50: Verteilung der Parteipräferenzen im ESS Sample


40

38.435940
30

28.119800
Prozent
20

13.422074
10.704382
10

6.100943
3.216861
0

SU

ne

D
nk

FD
SP

Af

/C

Li

G
U
D
C

Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 1803. Nur Parteien über der 5%-Hürde + AfD.
252 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein Beispiel
I Verteilung der Parteipräferenzen in zwei (Sub-)Samples aus dem ESS.
I Wie ist der Stimmenanteil der FDP in der Grundgesamtheit?

Abbildung 51: Verteilung der Parteipräferenzen in zwei Stichproben


Sample 1 (n=200) Sample 2 (n=200)
40

41.5

36.0
30

27.5
Stimmenanteil

24.5
20

14.5 14.5
13.0
10

10.5

6.0
4.5 4.5
3.0
0

SU

ne

SU

ne

D
nk

nk
FD

FD
SP

Af

SP

Af


/C

/C
Li

Li
G

G
U

U
D

D
C

Quelle: ESS 8, Edition 1.0. Anmerkungen: Beide (Sub-)Stichroben wurden aus dem deutschen ESS Sample gezogen. Nur
Parteien über der 5%-Hürde + AfD.
253 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein Beispiel
I Verteilung der Parteipräferenzen mit 95%-Konfidenzintervallen.
I Der Punktschätzer des Stimmanteils der FDP ist 0,061 (6,1%). Der
wahre Wert liegt mit einer Wahrscheinlichkeit von 95% im Intervall
[0,0504, 0,0731].
Abbildung 52: Verteilung der Parteipräferenzen mit Konfidenzintervallen
.4
.3
Stimmanteil
.2
.1
0

SU

ne

D
nk

FD
SP

Af

/C

Li

G
U
D
C

Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 1803; 95%-Konfidenzintervall. Nur Parteien über der 5%-Hürde + AfD.
254 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein weiteres Beispiel

I Beispiel: Hypothese: Personen, die arbeitslos sind, haben häufiger


migrationskritische Einstellungen als Personen, die nicht arbeitslos
sind.
I Ein (einfaches) Regressionsmodell:
I Abhängige Variable (Y ): Migrationskritische Einstellungen
I Unabhängige Variable (X ): Arbeitslosigkeit
I Kontrollvariable (Z ): Bildung (in Jahren)

Tabelle 55: Regression: Migrationskritische Einstellungen und Arbeitslosigkeit


M1 M2
Arbeitslos 0.465 ** 0.313
Bildung -0.100 ***
Konstante -0.069 * 1.396 ***
Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 2137, *p ≤ 0, 05, **p ≤ 0, 01, ***p ≤ 0, 001. Die abhängige Variable wurde
mit Hilfe konfirmatorischer Faktorenanalysen gebildet und basiert auf drei Items.
255 / 425
Inferenzstatistik: Wo wollen wir hin?
Ein weiteres Beispiel

I Ein Effekt“mit Sternchen (*) ist statistisch signifikant, d.h. es ist



unwahrscheinlich, dass der Zusammenhang nur in der Stichprobe,
nicht aber in der Grundgesamtheit besteht.
I Hier hat Arbeitslosigkeit keinen signifikanten Effekt, wenn für Bildung
kontrolliert wird. Die Hypothese wird abgelehnt!
I Ein detaillierte Behandlung von Regressionsmodellen folgt später.

Tabelle 56: Regression: Migrationskritische Einstellungen und Arbeitslosigkeit


M1 M2
Arbeitslos 0.465 ** 0.313
Bildung -0.100 ***
Konstante -0.069 * 1.396 ***
Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 2137, *p ≤ 0, 05, **p ≤ 0, 01, ***p ≤ 0, 001. Die abhängige Variable wurde
mit Hilfe konfirmatorischer Faktorenanalysen gebildet und basiert auf drei Items.
256 / 425
Grundlagen:
Grundgesamtheit und Stichprobe

I Grundgesamtheit (GG): Menge aller Untersuchungseinheiten, über die


Aussagen getroffen werden sollen.
I Stichprobe: Teilmenge aus der Grundgesamtheit.
I Inferenzstatistik setzt repräsentative Stichproben voraus. Diese lassen
sich am besten durch eine Zufallsauswahl erreichen.
I Eigenschaften von Zufallsstichproben:
I Chancengleichheit: Alle Untersuchungseinheiten haben die gleiche
Chance, in die Stichprobe zu gelangen (sog. einfache
Wahrscheinlichkeitsauswahl). Hat die GG einen Umfang von N und die
Stichprobe einen Umfang von n, ist die Wahrscheinlichkeit n/N .
I Unabhängigkeit: Die Ziehung einer Einheit hat keinen Einfluss auf die
Wahrscheinlichkeit der anderen Einheiten, ebenfalls gezogen zu werden.
Dies entspricht dem Urnenmodell mit Zurücklegen.

257 / 425
Terminologie/ Notation:
Zufallsvariablen
I Wir unterscheiden zwischen . . .
I den (deskriptiven) Maßzahlen der Stichprobe (Beispiele: x̄ , sxy ), die
häufig als Samplestatistiken oder Samplemaßzahlen bezeichnet und mit
lateinischen Buchstaben gekennzeichnet werden.
I den Maßzahlen der Grundgesamtheit, den wahren“Werten in der

Population, die als Parameter bezeichnet und mit griechischen
Buchstaben gekennzeichnet werden (unbekannte wahre Parametern vs.
Schätzwerte der Parameter):

Tabelle 57: Notationen: Deskriptive und induktive Statistik


Statistik Populations- Schätzer der
Maßzahl
in Stichprobe parameter Parameter
Mittelwert x̄ µ µ̂
Standardabweichung s σ σ̂
Varianz s2 σ2 σ̂ 2
258 / 425
Was ist eine
Zufallsvariable?
I Wenn die Werte xi , die ein Merkmal X annimmt, Ergebnisse eines
Zufallsvorgangs sind, wird X als eine Zufallsvariable bezeichnet.
I Die Werte xi sind die Realisierungen der Zufallsvariablen X .
I Klassische Zufallsvariablen sind solche, deren Werte Zufallszahlen sind
(Beispiel: Augenzahl beim Würfeln).
I Darüber hinaus können Merkmale, deren Werte keine Zufallszahlen
sind, ebenfalls als Zufallsvariablen begriffen werden, wenn die Daten
aus einer Zufallsstichprobe stammen.
Beispiele: Stellen Sie sich vor, wir ziehen eine Stichprobe von 10
Studierenden in diesem Hörsaal.
I Der Anteil von Frauen in dieser Stichprobe ist das Ergebnis eines
Zufallsvorgangs
I Ebenso ist die durchschnittliche Semesterzahl in der Stichprobe das
Ergebnis eines Zufallsvorgangs
I Die Maßzahlen zur Beschreibung einer Stichprobe lassen sich also als
Zufallszahlen begreifen!
259 / 425
Diskrete und stetige Zufallsvariablen

I Analog zu Variablen können auch Zufallsvariablen (ZVs) diskret oder


stetig sein.
I Diskrete ZVs können eine endliche oder abzählbar unendliche Anzahl
an Werten annehmen.
I Stetige ZVs können innerhalb eines beliebigen Intervalls unendlich
viele Werte annehmen.
I Beispiele:
I Diskrete ZVs: Augenzahl beim Würfeln, Summe der Augenzahlen bei
zweimaligem Würfeln, Links-Rechts-Selbsteinstufung einer zufällig
ausgewählten Person.
I Stetige ZVs: Alter einer zufällig ausgewählten Person,
durchschnittliches Einkommen in einer Stichprobe, Varianz der Variable
migrationskritische Einstellungen in einer Stichprobe.
I Für die Inferenzstatistik sind insbesondere stetige ZVs wichtig.
Diskrete ZVs sind jedoch besser geeignet, um das Konzept zu
verstehen.
260 / 425
Diskrete Zufallsvariablen:
Die Wahrscheinlichkeitsfunktion

I Die Wahrscheinlichkeitsfunktion einer diskreten ZV ist gegeben als:


(
P(X = xi ) = Pi für x ∈ T = {x1 , x2 , . . . }
f (x ) =
0 sonst.

mit Pi ∈ [0, 1] und = 1.


P
i=1 Pi
I Die Wertemenge von X wird auch als Träger bezeichnet
(T = {x1 , x2 , . . . }).
I Merke: Eine ZV ist keine konkrete Variable, sondern eine Funktion,
die angibt, mit welcher Wahrscheinlichkeit bei einem
Zufallsexperiment eine bestimmte Realisierung der Zufallszahl eintritt.

261 / 425
Diskrete Zufallsvariablen
- ein konkretes Beispiel

I Beispiel: Augenzahl beim Würfeln.


I Die Wahrscheinlichkeitsfunktion der Augenzahl beim Würfeln ist
gegeben als:

.2
für x = 1

 1/6

für x = 2

 1/6

.15



1/6 für x = 3




f (x ) = für x = 4
f(x)
.1
1/6
für x = 5



 1/6 .05

für x = 6



 1/6

0 sonst.


0

1 2 3 4 5 6
Augenzahl beim Würfeln

262 / 425
Diskrete Zufallsvariablen:
Die Verteilungsfunktion

I Wird die Wahrscheinlichkeitsfunktion kumuliert, erhält man die


Verteilungsfunktion:

F (x ) = P(X ≤ x ) = f (xi ) =
X X
Pi
xi ≤x xi ≤x

I Die Verteilungsfunktion setzt mindestens ein ordinales Skalenniveau


voraus.
I Sie gibt für jeden Wert x der Verteilung an, welcher Anteil der Fälle
≤ x ist.

263 / 425
Diskrete Zufallsvariablen
- zurück zum Beispiel

I Die Verteilungsfunktion der Augenzahl beim Würfeln ist gegeben als:

1
für ≤1

.9

1/6 x

.8

für ≤2

2/6 x

.7


für ≤3

3/6 x

.6

F(x)
F (x ) =

.5
 4/6 für x ≤4
.4

für ≤5

 5/6 x
.3


für ≤6

 6 .2
/6 x
.1

1 2 3 4 5 6
Augenzahl beim Würfeln

264 / 425
Diskrete Zufallsvariablen
- ein komplexeres Beispiel
I Beispiel: Summe der Augenzahlen zweier Würfel.
Tabelle 58: Augensumme zweier Würfel

xi 2 3 4 5 6 7 8 9 10 11 12
f (x ) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

F (x ) 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 36/36

Abbildung 53: Augensumme zweier Würfel


.2

1
.9
.8
.15

.7
.6
F(x)
f(x)
.1

.5.4
.3
.05

.2
.1
0

2 4 6 8 10 12 2 3 4 5 6 7 8 9 10 11 12
Summe Augenzahl zweier Würfel Summe Augenzahl zweier Würfel

265 / 425
Diskrete Zufallsvariablen:
Median und p-Quantile
I Aus der Verteilungsfunktion können der Median oder andere
p-Quantile bestimmt werden.

Abbildung 54: Augensumme zweier Würfel: Verteilungsfunktion


1
.9
.8
.7
.5 .6
F(x)
.4
.3
.2
.1

x.25 x.50 x.75


2 3 4 5 6 7 8 9 10 11 12
Summe Augenzahl zweier Würfel

266 / 425
Diskrete Zufallsvariablen:
Erwartungswert

I Analog zum Mittelwert kann der Erwartungswert (µ) berechnet


werden:

E (X ) = µ = x1 p1 + x2 p2 + · · · = xi pi = xi f (xi )
X X

i i

I Zum Vergleich die Formel zur Berechnung des Mittelwertes aus


Häufigkeitsdaten:
k k
1X
x̄ = aj hj =
X
aj f j
n j=1 j=1

267 / 425
Diskrete Zufallsvariablen:
Varianz und Standardabweichung

I Analog zur Varianz einer Stichprobe (s 2 ) kann die Varianz einer


diskreten Zufallsvariable (σ 2 ) berechnet werden:

Var (X ) = σ 2 = (x − µ)2 · pi = (x − µ)2 · f (xi )


X X

i i

I Zum Vergleich die Formel zur Berechnung der empirischen Varianz


(s 2 ) aus Häufigkeitsdaten:
k k
1X
s2 = hj (aj − x̄ )2 = fj (aj − x̄ )2
X
n j=1 j=1

I Weiterhin gilt, dass die Standardabweichung


√ (σ) der Wurzel der
Varianz entspricht: σ = σ 2

268 / 425
Erwartungswert und Varianz
- ein Rechenbeispiel

Tabelle 59: Augensumme zweier Würfel: Erwartungswert und Varianz


xi f(x) xi · f (x ) (xi − µ) (xi − µ)2 (xi − µ)2 · f (x )
2 1/36 2/36 -5 25 25/36

3 2/36 6/36 -4 16 32/36

4 3/36 12/36 -3 9 27/36

5 4/36 20/36 -2 4 16/36

6 5/36 30/36 -1 1 5/36

7 6/36 42/36 0 0 0/36

8 5/36 40/36 1 1 5/36

9 4/36 36/36 2 4 16/36

10 3/36 30/36 3 9 27/36

11 2/36 22/36 4 16 32/36

12 1/36 12/36 5 25 25/36

µ = 252/36 = 7 σ 2 = 210/36 = 5, 832


P

269 / 425
Zusammenfassung:
Diskrete Zufallsvariablen

I ZVs sind Funktionen, die angeben, mit welcher Wahrscheinlichkeit


eine bestimmte Realisierung der ZV eintritt bzw. wie die
Beobachtungen in einem unendlich oft wiederholten
Zufallsexperiment verteilt sind.
I Die Wahrscheinlichkeiten (pi bzw. f (xi )) der Elementarereignisse
können analog zu den relativen Häufigkeiten beobachteter Variablen
(hi ) verstanden werden.
I Somit lassen sich Maßzahlen (z.B. µ, σ 2 ) analog zu den Formeln für
relative Häufigkeitstabellen berechnen.
I Die Elementarereignisse einer ZV (T = {x1 , x2 , . . . }) nehmen dann den
Platz der beobachteten Ausprägungen (a1 , a2 , · · · , ak ) ein.
I Die Wahrscheinlichkeiten der Elementarereignisse (pi bzw. f (xi ))
nehmen den Platz der relativen Häufigkeiten (hi ) ein.

270 / 425
Zusammenfassung:
Zufallsvariablen

I Das Wichtigste: Maßzahlen zur Beschreibung einer Stichprobe (z.B.


x̄ , sXY ) können als ZVs verstanden werden.
I Ist die Wahrscheinlichkeits- bzw. Dichtefunktion (bei stetigen ZVs)
bekannt, können wir zum Beispiel Aussagen darüber machen, . . .
I in welchem Intervall der wahre Wert in der Grundgesamtheit (z.B. µ)
mit einer bestimmten Wahrscheinlichkeit liegt (Konfidenzintervall, zur
genauen Interpretation siehe nächste Sitzung).
I wie wahrscheinlich es ist, dass ein Zusammenhang in der Stichprobe
tatsächlich auch in der Grundgesamtheit existiert.
I Kurz: Wir benötigen ZVs, um Inferenzstatistik betreiben zu können.

271 / 425
Stetige Zufallsvariablen

I ZVs sind stetig, wenn zwischen zwei beliebigen Werten a und b


unendlich viele Werte liegen.
I Stetige ZVs haben daher unendlich viele Elementarereignisse.
I Daher können einzelne Elementarereignisse nicht sinnvoll betrachtet
werden; ihre Wahrscheinlichkeit geht gegen null.
I Stattdessen betrachten wir die Wahrscheinlichkeit für das Auftreten
von Ereignissen, die in einem bestimmten Intervall [a, b] liegen.

272 / 425
Stetige Zufallsvariablen:
Die Dichtefunktion
I Zur Bestimmung der Wahrscheinlichkeit wird die Dichtefunktion
(auch Wahrscheinlichkeitsdichte) verwendet.
I Die Wahrscheinlichkeit, mit der sich ein Wert innerhalb des Intervalls
[a, b] befindet, entspricht der Fläche, die für dieses Intervall unterhalb
der Dichtekurve liegt.

Abbildung 55: Dichtefunktion einer Zufallsvariablen


f(x)

P(a x b)

a b
x
273 / 425
Stetige Zufallsvariablen:
Berechnung von Wahrscheinlichkeiten
I Die Wahrscheinlichkeit, mit der sich ein Wert innerhalb des Intervalls
[a, b] befindet, entspricht:
Z b
P(a ≤ x ≤ b) = f (x )dx
a

Abbildung 56: Dichtefunktion einer Zufallsvariablen


f(x)

P(a x b)

a b
x
274 / 425
Stetige Zufallsvariablen:
Normierungseigenschaft der Dichtefunktion
I Die gesamte Fläche unter einer Dichtekurve beträgt immer 1.
I Dies wird als Normierungseigenschaft bezeichnet:
Z +∞
P(−∞ ≤ x ≤ +∞) = f (x )dx = 1
−∞

Abbildung 57: Normierungseigenschaft der Dichtefunktion

275 / 425
Stetige Zufallsvariablen:
Die Verteilungsfunktion

I Die Verteilungsfunktion einer stetigen ZV ist:


Z x
F (x ) = P(X ≤ x ) = f (t)dt
−∞

I F (x ) entspricht der aufsummierten Fläche der Dichtefunktion bis zum


Wert x .
I Die Dichte entspricht der Ableitung der Verteilungsfunktion:
F 0 (x ) = f (x ).

276 / 425
Stetige Zufallsvariablen:
Dichte- und Verteilungsfunktion

I Wie verhalten sich Dichte- und Verteilungsfunktion zueinander?

Abbildung 58: Dichte- und Verteilungsfunktion stetiger ZVs I

F(x)
f(x)

−4 −2 0 2 4 −4 −2 0 2 4
x x

277 / 425
Stetige Zufallsvariablen:
Dichte- und Verteilungsfunktion

I Funktionen ordnen einem x-Wert einen y-Wert zu.

Abbildung 59: Dichte- und Verteilungsfunktion stetiger ZVs II

f(a)

F(x)
f(x)

F(a)

−4 −2 0 2 4 −4 −2 a 0 2 4
a x x

278 / 425
Stetige Zufallsvariablen:
Dichte- und Verteilungsfunktion

I Die Fläche unter der Dichtekurve bis zum Punkt a entspricht F (a).

Abbildung 60: Dichte- und Verteilungsfunktion stetiger ZVs III

f(a)

F(x)
f(x)

F(a)
F(a)

−4 −2 0 2 4 −4 −2 a 0 2 4
a x x

279 / 425
Bestimmung von Flächen
eines Intervalls einer stetigen ZV

I Die Fläche im Intervall [a, b] entspricht F (b) − F (a).

Abbildung 61: Bestimmung von Flächen eines Intervalls bei stetigen ZVs

f(a)
F(b)

F(x)
f(x)

F(a)

f(b)

−4 −2 0 2 4 −4 −2 a0 b 2 4
ax b x

280 / 425
Stetige Zufallsvariablen:
Lage und Streuungsparameter

I Der Erwartungswert einer stetigen ZV ist:


Z +∞
E (X ) = µ = xf (x )dx
−∞

I Die Varianz einer stetigen ZV ist:


Z +∞
Var (X ) = σ =
2
(x − µ)2 f (x )dx
−∞

I Die Standardabweichung ist weiterhin σ = σ2

281 / 425
Stetige Zufallsvariablen:
p-Quantile

I Das p-Quantil (xp ) ist der Wert, der die Fläche unter der Dichtekurve
(f (x )) in zwei Teile teilt, wobei die Fläche links von xp dem Wert p
und die Fläche rechts von xp dem Wert (1 − p) entspricht.
I Die Verteilungsfunktion ordnet einem gegebenen Wert x einen Wert
F (x ) zu, der angibt, welcher Anteil der Fläche der Dichtefunktion
≤ x ist.
I Aus der Verteilungsfunktion lässt sich daher bestimmen, . . .
I welchem p-Quantil ein gegebener Wert x entspricht
I welcher Wert x einem gegebenen Wert p entspricht (inverse
Verteilungsfunktion)

282 / 425
Stetige Zufallsvariablen:
p-Quantile

I Bestimmung von p-Quantilen aus der Verteilungsfunktion.

Abbildung 62: Bestimmung von p-Quantilen bei stetigen ZVs


F(x)

f(x)

p
p (1−p)

−4 −2 xp 0 2 4 −4 −2 0 2 4
x xp x

283 / 425
Kurzübung 8

Kurzübung zu p-Quantilen bei stetigen ZVs


Bestimmen Sie mit Hilfe der Verteilungsfunktion folgende Quantile in der
Dichtefunktion: x0,5 , x0,1 , x0,9

Abbildung 63: Kurzübung: Verteilungs- und Dichtefunktion

.14
1
.9

.12
.8

.1
.7
.6

.08
F(x)

f(x)
.5

.06
.4
.3

.04
.2

.02
.1
0

0 5 10 15 20 0 5 10 15 20
x x

284 / 425
Die Normalverteilung

I Die prominenteste stetige Zufallsverteilung ist die Gaußsche


Normalverteilung.
I Die Normalverteilung ist . . .
I symmetrisch
I unimodal
I glockenförmig
I strebt gegen null, wenn x gegen −∞ oder +∞ strebt
I Warum ist die Normalverteilung so zentral?
I Verschiedene (insb. biologische) Eigenschaften sind normalverteilt
I Andere wichtige Verteilungen (z.B. χ2 -, t- oder F-Verteilungen) lassen
sich aus der Normalverteilung herleiten
I Das Wichtigste: Die meisten Stichprobenkennwerte sind normalverteilt
I Die statistische Fehlertheorie (dazu mehr im Themenkomplex lineare
Regressionsanalysen) geht von normalverteilten Fehlern aus

285 / 425
Die Normalverteilung:
Dichte- und Verteilungsfunktion

I Die Dichtefunktion der Normalverteilung ist definiert als:

1 (x − µ)2
!
f (x |µ, σ) = √ · exp −
σ 2π 2σ 2

, wobei µ und σ 2 dem Erwartungswert und der Varianz entsprechen.


I Die Verteilungsfunktion der Normalverteilung ist:

1 (t − µ)2
Z x !
F (x |µ, σ) = P(X ≤ x ) = √ · exp − dt
−∞ σ 2π 2σ 2

I Ist eine ZV X normalverteilt, schreiben wir auch X ∼ N(µ, σ).


p X ∼ N(10, 2) ist eine ZV mit µ = E (X ) = 10 und
Beispiel:
σ = Var (X ) = 2.
286 / 425
Die Normalverteilung:
Beispiele zu Parameterkombinationen
I Beispiele:
I Links: µ identisch, σ variiert: X1 ∼ N(10, 1), X2 ∼ N(10, 2),
X3 ∼ N(10, 4)
I Rechts: σ und µ variieren: X1 ∼ N(5, 1), X2 ∼ N(10, 2), X3 ∼ N(13, 3)

Abbildung 64: Normalverteilungen mit unterschiedlichen Parametern


.4

.4
.3

.3
f(x)

f(x)
.2

.2
.1

.1
0

0 5 10 15 20 0 5 10 15 20
x x

287 / 425
Die Standardnormalverteilung

I Eine Normalverteilung mit µ = 0 und σ = 1 (N ∼ (0, 1)) wird


Standardnormalverteilung genannt.
I Die Dichtefunktion vereinfacht sich dann zu:

1
!
x2
ϕ(x ) = √ · exp −
2π 2

I Die Verteilungsfunktion wird entsprechend:

1
!
t2
Z x
Φ(x ) = P(X ≤ x ) = √ · exp − dt
−∞ 2π 2

288 / 425
Die Standardnormalverteilung:
Wofür brauchen wir das?

I Die Werte der Verteilungsfunktion einer normalverteilten ZV lassen


sich nicht analytisch berechnen, sondern nur nummerisch
approximieren. Diese Werte müssen daher in Tabellen nachgeschaut
werden (dazu gleich mehr).
I Jede normalverteilte ZV (X ∼ N(µ, σ)) kann in eine
standardnormalverteilte Variable transformiert werden!
I Hierzu wird die sog. z-Transformation verwendet:

X −µ
Z=
σ

289 / 425
Die Standardnormalverteilung:
Wofür brauchen wir das?

I Beispiel: Wenn X ∼ N(21,4, 8,3), dann ist

(X − 21, 4)
Z= ∼ N(0, 1)
8, 3
I Die Verteilungsfunktion einer beliebigen normalverteilten ZV kann
daher durch die Verteilungsfunktion der Standardnormalverteilung
ausgedrückt werden.
Einfacher gesagt: Wir brauchen nur eine Tabelle, um p-Quantile zu
bestimmen:
x −µ
 
F (x ) = Φ = Φ(z)
σ
I Das p-Quantil einer N ∼ (µ, σ) verteilten ZV ist xp = µ + σ · zp
(ergibt sich aus Umformung von zp = (xp −µ)/σ)

290 / 425
Die Symmetrieeigenschaft der
Standardnormalverteilung

I Die p-Quantile der Standardnormalverteilung sind Φ(zp ) = p


I Da normalverteile ZVs symmetrisch sind, gilt Φ(−zp ) = 1 − Φ(zp )

Abbildung 65: p-Quantile symmetrischer ZVs I


Phi(z)

phi(z)

p=0,05 1−p=0,95

−4 −2 −zp=−1,65 0 2 4 −4 −2 0 2 4
z −zp=−1,65 z

291 / 425
Die Symmetrieeigenschaft der
Standardnormalverteilung

I Die p-Quantile der Standardnormalverteilung sind Φ(zp ) = p


I Da normalverteile ZVs symmetrisch sind, gilt Φ(−zp ) = 1 − Φ(zp )

Abbildung 66: p-Quantile symmetrischer ZVs II

p
Phi(z)

phi(z)

p=0,95 1−p=0,05

−4 −2 0 zp=1,65 2 4 −4 −2 0 2 4
z z zp=1,65

292 / 425
Die Symmetrieeigenschaft
- Warum ist das wichtig?

I Zur Bestimmung von p-Quantilen brauchen wir Tabellen, die einem


gegebenen p-Wert einen Wert zp zuordnen.
I Durch die Symmetrieeigenschaft ist es ausreichend, in diesen Tabellen
nur den Wertebereich zp ≥ 0 aufzuführen.
I Zusammenfassung:
I Für die Inferenzstatistik müssen wir p-Quantile von normalverteilten
ZVs bestimmen!
I Dies geht nur über entsprechende Tabellen, da sich die Werte nicht
analytisch bestimmen lassen!
I Zum Glück lassen sich die p-Quantile einer beliebig normalverteilten ZV
über die Verteilungsfunktion der Standardnormalverteilung bestimmen.
I Zum Glück reicht es - aufgrund der Symmetrieeigenschaft - außerdem
aus, nur den Wertebereich zp ≥ 0 aufzuführen.

293 / 425
Bestimmung von p-Quantilen:
Ein Beispiel
I Welchen Wert (zp ) hat das 0,95-Quantil?
Abbildung 67: Verteilungsfunktion der Standardnormalverteilung

Quelle: Bortz und Schuster (2010), S. 587. Anmerkung: Dargestellt ist nur ein Ausschnitt der kompletten Tabelle.
294 / 425
Bestimmung von p-Quantilen:
Ein Beispiel

I Welchen Wert (zp ) hat das 0,95-Quantil?


I Vorgehen:
I Suchen des Wertes p in der Tabelle. Die p-Werte befinden sich in den
einzelnen Zellen der Tabelle und sind aufsteigend sortiert.
I Nach links zum z-Wert schauen. Die erste Spalte gibt lediglich eine
Nachkommastelle an (1,60).
I Nach oben schauen, um die zweite Nachkommastelle zu identifizieren
(0,05).
I Addieren der beiden z-Werte (1,60+0,05=1,65): z0,95 = 1, 65.
I Welchen Wert (zp ) hat das 0,05-Quantil?

295 / 425
Wie geht es weiter?

I Wir haben nun fast alle Elemente zusammen, um die Inferenzstatistik


zu verstehen.
I Es fehlen noch die Grenzwertsätze:
I Unabhängige Wiederholung eines Zufallsvorgangs
I Gesetz der großen Zahlen
I Der zentrale Grenzwertsatz
I Diese Elemente schauen wir uns nächste Woche an.

296 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 5.1 und 5.3.
I Für Interessierte:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 5.2, 5.3.3.
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 5 und 6.

297 / 425
Einführung in die sozialwissenschaftliche Statistik
Inferenzstatistik: Schätzen

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#10

298 / 425
Kurze Erinnerung

I Letzte Sitzung haben wir uns über die Grundlagen der


Inferenzstatistik unterhalten.
I Dazu haben wir uns mit diskreten und stetigen Zufallsvariablen
beschäftigt.
I Spezielle Verteilungen:
I Normalverteilung
I Standardnormalverteilung
I Heute betrachten wir die Grenzwertsätze, die uns das Schätzen von
Parametern bzw. die Bestimmung von Konfidenzintervallen erlauben.

299 / 425
Unabhängige und identische
Wiederholung eines Zufallsvorgangs

I X sei eine ZV mit einer Verteilungsfunktion F und Erwartungswert µ


und Varianz σ 2 .
I Wird der Zufallsvorgang n mal unabhängig und identisch wiederholt,
ergeben sich n Realisierungen der ZV X (Xi mit i = 1, . . . , n).
I Dann ist X¯n = 1/n ni=1 Xi eine neue ZV, die den durchschnittlichen
P

Wert von X bei n Wiederholungen angibt.


I Die Ziehung einer Stichprobe vom Umfang n kann als die
Wiederholung von n unabhängigen (und identischen)
Zufallsvorgängen verstanden werden.
I Der Zufallsvorgang ist die Auswahl einer einzelnen
Untersuchungseinheit aus der Grundgesamtheit.

300 / 425
Das Gesetz der großen Zahlen

I Das Gesetz der großen Zahlen besagt nun, dass die ZV X¯n mit
steigendem Stichprobenumfang eine steigende Wahrscheinlichkeit
aufweist, nahe an µ zu liegen.
I Es gilt also
P(|X¯n − µ| ≤ ε) → 1 , für n → ∞
, wobei ε eine beliebig kleine positive Zahl ist.
I X¯n konvergiert daher gegen µ, wenn n → ∞ geht.
I Die Varianz von X¯n ergibt sich als Var (X¯n ) = σ 2 = σ2
n .
X¯n
I Die Wurzel hieraus ¯
qnennen wir den Standardfehler von Xn :
SE (X¯n ) = σ ¯ = σ = √
Xn
2
X¯n
σ
n
I Je größer also n, desto kleiner die Variation von X¯n um µ.

301 / 425
Der zentrale Grenzwertsatz

I Der zentrale Grenzwertsatz besagt, dass die Verteilung der Summe


von n unabhängig identisch verteilten ZVs (X1 , . . . , Xn ) mit
steigendem n gegen eine Normalverteilung konvergiert.
a √
X1 + X2 + · · · + Xn ∼ N(nµ, nσ)

I Unabhängig von der Verteilung einer Variable X konvergiert die


Summe von X1 + X2 + · · · + Xn gegen eine Normalverteilung (für
n → ∞).
I Entsprechend sind alle Kennzahlen, die auf dieser Summer beruhen
(z.B. x̄ , sx ), ebenfalls normalverteilt.
I Daumenregel: Ab n > 30 ist die Approximation meist akzeptabel.

302 / 425
Zusammenfassung:
Grenzwertsätze

I Durch die Ziehung einer Stichprobe vom Umfang n entstehen ZVs.


Beispiel: Mittelwert des Einkommens in einer Stichprobe. Der
konkrete Wert (X¯n ) ist die Realisierung einer ZV.
I Gesetz der großen Zahlen: Je größer die Stichprobe n, desto sicherer
können wir sein, dass die Realisierung der ZV nahe am wahren Wert
(µ) liegt: Varianz von X¯n nimmt mit n ab.
I Zentraler Grenzwertsatz: Die Verteilung von Stichprobenstatistiken
konvergiert bei genügend großem n gegen eine Normalverteilung.
I Alles in einem Satz: Statistiken können als Realisierungen von ZVs
verstanden werden, die bei großem n normalverteilt um den wahren
Parameter in der Grundgesamtheit sind.
I Stata Example 9 (sampling.do)

303 / 425
Schätzen

I Der interessierende Parameter (= wahrer Wert) in der GG (z.B. µ,


σ 2 ) ist unbekannt.
I Das Ziel ist, diesen Parameter zu schätzen.
I Stichprobenkennwerte (z.B. x̄ , sx2 ) dienen als Schätzer des wahren
Wertes.
I Die Schätzfunktion ist definiert als:

θˆn = g(X1 , . . . , Xn )

und realisiert sich durch die beobachteten Werte in der Stichprobe:

ϑˆn = g(x1 , . . . , xn )

I Dabei steht θ (bzw. ϑ) für einen beliebigen Parameter und g für eine
entsprechende Schätzfunktion.

304 / 425
Schätzfunktionen
für Mittelwert und Varianz

I Die Schätzfunktion des Parameters θ = µ (Erwartungswert/


Mittelwert) ist:
n
ˆ ¯ 1X
θ n = Xn = Xi
n i=1
I Für θ = Var (X ) = σ 2 (die Stichprobenvarianz) gilt:
n
1 X
θˆn = Sn2 = (Xi − X̄ )2
n − 1 i=1

Achtung: Hier wird nun durch n − 1 geteilt (anders als bei der
empirischen Varianz).
q
I Es gilt Sn = Sn2 .

305 / 425
Intervallschätzungen

I Wir wissen, dass eine Schätzung aus einer Stichprobe vom wahren
Wert in der Grundgesamtheit abweicht!
I Daher bietet es sich an, den Schätzwert (die sog. Punktschätzung)
um ein Intervall zu erweitern, das den wahren Wert mit großer
Wahrscheinlichkeit enthält.
I Dieses Intervall wird Konfidenzintervall genannt.
I Was brauchen wir dazu?
I Einen Punktschätzer (θˆn ), sprich: eine Statistik auf Basis der
Stichprobe (z.B. x̄ )
I Ein Verständnis der Verteilung dieses Schätzers (der sog.
Stichprobenverteilung), wenn man ihn als eine Realisation einer ZV
begreift
I Wir wissen: Die Stichprobenverteilung ist normalverteilt mit E (θˆn ) = θ;
ihre Varianz ist abhängig von n.

306 / 425
Die Stichprobenverteilung
I Stata Example 10 (sampling.do)
I Je größer n, desto kleiner die Varianz der Stichprobenverteilung.

Abbildung 68: Empirische Stichprobenverteilungen bei variierendem n

n=100 n=500
.015

.03
.01

.02
Density

Density
.005

.01
0

1300 1400 1500 1600 1700 1300 1400 1500 1600 1700
Geschätzter Mittelwert in 10000 Samples Geschätzter Mittelwert in 10000 Samples

Anmerkung: Geschätzt wurde der Mittelwert des Einkommens (simulierte Daten). Der wahre Wert in der Population liegt bei
1500 e.
307 / 425
Zurück zur Standardnormalverteilung
I Wir wissen, in welchem Intervall der z-Wert einer
Standardnormalverteilung mit einer bestimmten Wahrscheinlichkeit
liegt (Beispiel: P(−1, 96 ≤ z ≤ 1, 96) = 0, 95)

Abbildung 69: Mittlere 95% der Standardnormalverteilung


phi(z)

0,025 0,95 0,025

−4 −2 0 2 4
z0,025=−1,96 z z0,975=1,96

308 / 425
Übertragung auf eine
normalverteilte ZV
I In welchem Intervall liegt der Schätzer des Einkommens in unserem
Beispiel mit 95% Wahrscheinlichkeit?

Abbildung 70: Empirische Stichprobenverteilung aus Simulation

n=100
.015
.01
Density
.005
0

1400 1500 1600 1700


Geschätzter Mittelwert in 10000 Samples

309 / 425
Übertragung auf eine
normalverteilte ZV
I In welchem Intervall liegt der Schätzer des Einkommens (X¯n ) in
unserem Beispiel mit 95% Wahrscheinlichkeit?
I Es gilt µ = 1500 und σ = 34, 64 (in der GG).
Abbildung 71: Theoretische Stichprobenverteilungen aus Simulation I
.015
.01
f(x)
.005
0

1300 1400 1500 1600 1700


x

310 / 425
Übertragung auf eine
normalverteilte ZV
I Es gilt µ = 1500 und σ = 34, 64, d.h. X¯n ∼N(1500, 34,64). Dann ist
I x0,025 = µ + σ · z0,025 = 1500 + 34, 64 · −1, 96 = 1432, 11 und
I x0,975 = µ + σ · z0,975 = 1500 + 34, 64 · 1, 96 = 1567, 89
Abbildung 72: Theoretische Stichprobenverteilungen aus Simulation II
.015
.01
f(x)
.005

0,025 0,95 0,025


0

1300 1400 1500 1600 1700


x0,025 z x0,975

311 / 425
Das Konfidenzintervall

Abbildung 73: Konfidenzintervalle bei


I Mit einer Wahrscheinlichkeit wiederholten Stichproben
von 0,95 liegt der Schätzer
(X¯n ) im Intervall [1432,11,
1567,89]=[µ-67,89,
µ+67,89].
I Alternativ: Das Intervall
[X¯n -67,89, X¯n +67,89]
enthält mit einer
Wahrscheinlichkeit von 0,95
den wahren Wert µ.
I Dies ist ein
Konfidenzintervall!

312 / 425
Konfidenzintervalle für Erwartungswert µ
- formale Definition

I Schritt 1: Definition der Irrtumswahrscheinlichkeit α (z.B. α=0,05


oder α=0,01).
I Daraus ergibt sich die Überdeckungswahrscheinlichkeit des
Konfidenzintervalls als 1 − α (z.B. für α=0,05: 1-0,05=0,95).
I Schritt 2: Bestimmen der Quantile zα/2 und z1−α/2 (setzt
Normalverteilung voraus, Erinnerung: z1−α/2 = −zα/2 ). Dann gilt

X̄ − µ
P(zα/2 ≤ ≤ z1−α/2 ) = 1 − α
σX̄
I Schritt 3: Bestimmen des Konfidenzintervalls für X¯n . Umformung
führt zu

P(X¯n − z1−α/2 · σX¯n ≤ µ ≤ X¯n + z1−α/2 · σX¯n ) = 1 − α

313 / 425
Konfidenzintervalle für Erwartungswert µ
- formale Definition

I Damit haben wir das Konfidenzintervall für den Erwartungswert (µ)


bestimmt als:
σ σ
 
X¯n − z1− α2 · √ , X¯n + z1− α2 · √
n n

, der Ausdruck σX¯n wurde hier durch σ/ n ersetzt.
I Diese Formel funktioniert, wenn die Varianz der Stichprobenverteilung
(σX¯n ) bzw. die Varianz von X in der Grundgesamtheit (σ) bekannt ist.
I Bei unbekannter Varianz (normalerweise der Fall) muss diese
geschätzt werden:
Sn Sn
 
X¯n − z1− α2 · √ , X¯n + z1− α2 · √
n n

314 / 425
Zusammenfassung:
Konfidenzintervalle

Sn Sn
 
X¯n − z1− α2 · √ , X¯n + z1− α2 · √
n n

I Konfidenzintervalle nehmen ab, . . .


I je höher n (verringert den Standardfehler)
I je kleiner die Standardabweichung (verringert Standardfehler)
I je höher die Irrtumswahrscheinlichkeit α
I Interpretation: Ein 95%-Konfidenzintervall enthält den wahren Wert
in der GG mit einer Wahrscheinlichkeit von 0,95.
I Alternative Interpretation: In 95% der möglichen Stichproben enthält
das Konfidenzintervall den wahren Wert.

315 / 425
Veranschaulichung anhand der
Simulation
I Stata Example 11 (sampling.do)

Abbildung 74: 95% Konfidenzintervalle in der Simulation


100
80 60
Stichprobe
40 20
0

1300 1400 1500 1600 1700


95%−Konfidenzintervalle

Anmerkung: Gezeigt werden die Konfidenzintervalle auf Basis der ersten 100 Stichproben.
316 / 425
Schlussbemerkungen

I Konfidenzintervalle lassen sich für viele Maßzahlen berechnen. Wir


haben nur den Mittelwert behandelt.
I Das Grundprinzip ist immer gleich, die Formeln variieren aber.
I Klausurrelevant ist nur das Konfidenzintervall für den Mittelwert.
I In der Klausur bekommen Sie keine vollständige Tabelle mit
z-Werten, sondern lediglich eine Auswahl:

Tabelle 60: Wichtige p-Quantile der Standardnormalverteilung


p 0,50 0,75 0,90 0,95 0,975 0,99 0,995
zp 0,00 0,67 1,28 1,64 1,96 2,33 2,58

317 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 5.4 und 5.5.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 9.1, 9.2 und 9.4.

318 / 425
Einführung in die sozialwissenschaftliche Statistik
Inferenzstatistik: Testen

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#11

319 / 425
Kurze Erinnerung

I Letzte Sitzung haben wir Konfidenzintervalle betrachtet.


I Konfidenzintervalle geben einen Wertebereich an, in dem ein Parameter
der Grundgesamtheit mit einer bestimmten Wahrscheinlichkeit liegt
I Zu ihrer Bestimmung braucht man die Standardnormalverteilung
I Heute beschäftigen wir uns mit dem Testen von Hypothesen:
I Grundlagen statistischer Tests
I Dem Verhältnis zwischen Konfidenzintervallen und statistischen Tests
I Speziellen Testverfahren (Testen von Erwartungs- und Anteilswerten,
T-Test für Gruppenvergleiche, Chi2 -Test)

320 / 425
Statistisches Testen:
Warum?

I In der Wissenschaft wollen wir Theorien überprüfen.


I Eine Theorie macht Aussagen über den Zusammenhang zwischen
unterschiedlichen Phänomenen.
I Aus einer (guten) Theorie lassen sich (deduktiv) empirisch
überprüfbare Hypothesen herleiten (positivistische Sichtweise).
I Diese Hypothesen können wir mit inferenzstatistischen Methoden
testen.
I Bestätigen sich die Hypothesen, haben wir eine empirische Evidenz
für die Gültigkeit einer Theorie.
I In der Praxis ist das nicht so einfach:
I Wissenschaftstheoretisch (positivistisch, kritisch-rationalistisch)
gesehen lassen sich Theorien niemals endgültig bestätigen.
I Wir können lediglich wiederholt darin scheitern, eine Theorie zu
widerlegen.
321 / 425
Statistisches Testen:
Beispiele

I Was lässt sich statistisch testen?


I Beispiele:
I Führt eine neue Lernmethode, die auf einer kognitionspsychologischen
Theorie basiert, zu besseren Lernergebnissen?
I Besteht ein Zusammenhang zwischen dem Bildungsniveau der Eltern
und dem Schulerfolg von Kindern? Ein solcher Zusammenhang könnte
aus der Sozialkapitaltheorie von Bourdieu hergeleitet werden.
I Gibt es Lohndiskriminierung von Frauen? Argumente, die den
Lohnunterschied zwischen Männern und Frauen durch andere Faktoren
erklären könnten, können aus der Humankapitaltheorie hergeleitet
werden. (Anmerkung: Typischerweise finden wir, dass die bestehenden
Lohnunterschiede nicht vollständig über andere Faktoren erklärt werden
können und schließen somit auf die Existenz von Lohndiskriminierung).
I Hat die Attraktivität eines/r Interviewers/in einen Einfluss auf das
Ausmaß sozial erwünschten Antwortverhaltens? Hier könnten
evolutionspsychologische Theorien verwendet werden.
322 / 425
Statistisches Testen:
Grundidee

I Ausgehend von theoretischen Überlegungen wird eine Hypothese


formuliert. Beispiele:
X hat einen positiven Effekt auf Y .“

Y ist in Gruppe XA größer als in Gruppe XB .“

I Auf Basis einer Stichprobe wird dann gefragt, ob die postulierte
Hypothese mit den Daten vereinbar ist.
I Ergebnis der statistischen Analyse ist dann die Ablehnung oder
Akzeptanz der Hypothese.
I Der statistische Test ist dabei eine Regel, die angibt, ob eine
Hypothese angenommen oder abgelehnt wird.

323 / 425
Statistisches Testen:
Null- und Alternativhypothese

I Die zu testende Hypothese wird als Alternativhypothese (H1 )


bezeichnet (auch Forschungshypothese).
I Ausgehend von dieser Alternativhypothese wird die Nullhypothese
definiert.
I Die Nullhypothese besagt das Gegenteil der Alternativhypothese.
I Beispiel:
I Alternativhypothese: Es gibt einen Lohnunterschied zwischen Männern
und Frauen (H1 : µM 6= µF ).
I Nullhypothese: Es gibt keinen Lohnunterschied zwischen Männern und
Frauen (H0 : µM = µF ).
. . . oder . . .
I Alternativhypothese: Männer verdienen mehr als Frauen
(H1 : µM > µF ).
I Nullhypothese: Männer verdienen gleich viel oder weniger als Frauen
(H0 : µM ≤ µF ).
324 / 425
Statistisches Testen:
Null- und Alternativhypothese

I Dabei geht der statistische Test grundsätzlich von der Richtigkeit der
Nullhypothese (H0 ) aus.
I Nur wenn die Daten deutlich gegen die Nullhypothese (H0 ) sprechen,
wird diese verworfen.
I In diesem Fall spricht das Ergebnis für die Forschungshypothese (H1 ).
I Um entscheiden zu können, ob eine Nullhypothese verworfen werden
kann, muss die Irrtumswahrscheinlichkeit α festgelegt werden (auch
Signifikanzniveau).
I α legt fest, mit welcher Wahrscheinlichkeit wir riskieren, die
Nullhypothese (H0 ) fälschlicherweise zu verwerfen bzw. unsere
Forschungshypothese (H1 ) fälschlicherweise zu bestätigen
I In den Sozialwissenschaften wird häufig α = 0, 05 (oder auch
α = 0, 01) gewählt

325 / 425
Statistisches Testen:
α- und β-Fehler
I Wird eine Nullhypothese (H0 ) irrtümlicherweise verworfen, sprechen
wir von einem α-Fehler oder einem Fehler 1. Art.
I D.h. die Forschungshypothese wird fälschlicherweise bestätigt. Das
wollen wir vermeiden!
I Da wir α festlegen, haben wir diesen Fehler unter Kontrolle
I Daneben gibt es den β-Fehler oder Fehler 2. Art.
I Dieser gibt die Wahrscheinlichkeit an, die Nullhypothese
fälschlicherweise nicht zu verwerfen
I D.h. Obwohl die Forschungshypothese richtig ist, wird sie nicht
bestätigt
I Der konkrete Wert von β hängt von verschiedenen Faktoren ab, unter
anderem von α: Je kleiner α, desto größer ist β
I Durch die Festlegung einer kleinen Irrtumswahrscheinlichkeit α
erhöhen wir also das Risiko, unsere Forschungshypothese nicht zu
bestätigen, obwohl sie richtig ist. Einfach gesagt: Bei der Bestätigung
unserer Forschungshypothesen sind wir lieber vorsichtig (konservativ).
326 / 425
Statistisches Testen:
Ein- und zweiseitige Tests

I Forschungshypothesen können gerichtet und ungerichtet sein.


I Eine gerichtete Hypothese macht eine Aussage über die Richtung eines
Zusammenhangs und resultiert in einem einseitigen Test. Beispiele:
Männer verdienen mehr als Frauen.“

Der Bildungserfolg einer Person hängt positiv mit dem Bildungsniveau

der Eltern zusammen.“
I Eine ungerichtete Hypothese macht lediglich eine Aussage über das
Bestehen eines Unterschieds bzw. eines Zusammenhangs und resultiert
in einem zweiseitigen Test. Beispiele:
Es gibt einen Lohnunterschied zwischen Männern und Frauen.“

Der Bildungserfolg einer Person hängt vom Bildungsniveau der Eltern

ab.“

327 / 425
Statistisches Testen:
Ein- und zweiseitige Tests
I Ablehnungsbereiche bei ein- und zweiseitigen z-Tests (z-Tests
basieren auf der Standardnormalverteilung).

Abbildung 75: Ablehnungsbereiche in zwei- und einseitigen Tests


phi(z)

phi(z)

0,025 0,95 0,025 0,95 0,05

−4 −2 0 2 4 −4 −2 0 2 4
z z
z0,025=−1,96 z0,975=1,96 z0,95=1,64

328 / 425
Statistisches Testen:
Einseitige Tests
I Bei einseitigen Tests liegt der Ablehnungsbereich entweder links oder
rechts des Nullpunktes (sog. links- und rechtsseitige Tests).
I Welcher Test verwendet wird, hängt von H0 ab:
I H0 : µ ≥ µ0 → linksseitig
I H0 : µ ≤ µ0 → rechtsseitig
Abbildung 76: Ablehnungsbereiche in links- und rechtsseitigen Tests
phi(z)

phi(z)

0,05 0,95 0,95 0,05

−4 −2 0 2 4 −4 −2 0 2 4
z z
z0,05=−1,64 z0,95=1,64
329 / 425
Statistisches Testen:
Ablauf

1. Festlegung der Null- und Alternativhypothese (gerichtet vs.


ungerichtet).
2. Festlegen der Irrtumswahrscheinlichkeit α.
3. Berechnung einer Teststatistik (auch Prüfgröße) auf Basis der
Stichprobe.
4. Aus α und der Art der Hypothese (gerichtet vs. ungerichtet) ergibt
sich der kritische Wert bzw. Ablehnungsbereich (nachschauen in
Tabelle).
5. Entscheidung: Vergleich der Teststatistik und des kritischen Wertes.
I Ist die Teststatistik größer (in absoluten Zahlen) als der kritische Wert,
wird H0 verworfen
I Ist die Teststatistik kleiner (in absoluten Zahlen) als der kritische Wert,
wird H0 nicht verworfen

330 / 425
Statistisches Testen: Ein Beispiel -
Gauß-Test für Erwartungswert
I Forschungshypothese: Die neue Lernmethode führt zu besseren
Ergebnissen als die bisher verwendete Lernmethode.
I Es sei bekannt, dass das durchschnittliche Testergebnis unter
Verwendung der alten Methode normalverteilt mit µ0 = 40 und einer
Standardabweichung von σ = 4 ist.
I H1 : µ > µ0 bzw. µ > 40
I H0 : µ ≤ µ0 bzw. µ ≤ 40
I Wenn H0 richtig ist, gilt: X¯n ∼ N(µ0 , σ/√n) bzw. X¯n ∼ N(40, 4/√n)
I Warum das denn?
I Erinnerung: σ/√n ist der Standardfehler des geschätzten Mittelwerts X¯n
I Er gibt die durchschnittlich zu erwartende Abweichung vom wahren
Wert an, wenn ein Sample der Größe n gezogen wird
I Einfach gesagt: Abweichungen der durchschnittlichen Testergebnisse
zwischen beiden Methoden können nicht nur durch echte
Unterschiede im Lernerfolg zustande kommen, sondern auch durch
den Prozess der Stichprobenziehung erklärt werden.
331 / 425
Statistisches Testen: Ein Beispiel -
Gauß-Test für Erwartungswert

I Die Irrtumswahrscheinlichkeit legen wir auf α = 0, 05 fest.


I Wir riskieren also mit einer Wahrscheinlichkeit von 5%, dass wir
unsere Forschungshypothese fälschlicherweise bestätigen.
I Die Teststatistik eines Erwartungswertes bei bekannter Varianz (σ)
ist:
X¯n − µ0
Z= σ√
n
I Was passiert hier?
I Der geschätzte Mittelwert des Testergebnisses unter der neuen
Methode (X¯n ) wird z-tranformiert, unter der Annahme, dass H0 gültig
ist
I Es gilt daher Z ∼ N(0, 1)
I Wir können also die Verteilungsfunktion der Standardnormalverteilung
verwenden (sog. z-Test)
332 / 425
Statistisches Testen: Ein Beispiel -
Gauß-Test für Erwartungswert

I Eine Stichprobe vom Umfang n = 36 unter Schülerinnen und


Schülern, die mit der neuen Lernmethode unterrichtet wurden, ergibt
ein durchschnittliches Testergebnis von X¯n = 41.
I Die Frage ist nun, ob diese Abweichung zwischen X¯n und µ0 durch
Zufall erklärt werden kann oder ob die neue Methode tatsächlich zu
mehr Lernerfolg führt.
I Für die Teststatistik ergibt sich:

X¯n − µ0
Z=
√σ
n

41 − 40 1
Z= = = 1, 5
√4 4
36 6

333 / 425
Statistisches Testen: Ein Beispiel -
Gauß-Test für Erwartungswert

I Der kritische Wert in einem einseitigen z-Test mit α = 0, 05 ergibt


sich als zα = z0,05 = −1, 64 oder z1−α = z0,95 = 1, 64, je nachdem,
ob ein links- oder rechtsseitiger Test durchgeführt werden soll.
I Entscheidend ist dabei die Nullhypothese:
I In unserem Beispiel ist H0 : µ ≤ 40. Sie behauptet also, dass µ kleiner
oder gleich 40 ist.
I Übertragen auf die z-transformierte Teststatistik: H0 behauptet, dass
Z ≤ 0 ist.
I Diese Hypothese verwerfen wir, wenn die Teststatistik eindeutig (mit
einer Irrtumswahrscheinlichkeit < 5%) größer als 0 ist.
I Wir wollen also einen rechtsseitigen Test durchführen, d.h. der kritische
Wert liegt im positiven Bereich: z1−α = z0,95 = 1, 64.
I Anmerkung: In einem zweiseitigen Test sind die Ablehnungsbereiche
zα/2 = z0,025 = −1, 96 und z1−α/2 = z0,975 = 1, 96, für α = 0, 05.

334 / 425
Statistisches Testen: Ein Beispiel -
Gauß-Test für Erwartungswert

I Letzter Schritt: Vergleich der Teststatistik mit dem kritischen Wert.


I Unsere Teststatistik ist Z =1,5
I Der kritische Wert ist z0,95 = 1, 64
I Es gilt Z < z0,95 (1, 5 < 1, 64)
I Entscheidung/ Interpretation: H0 kann mit einer
Irrtumswahrscheinlichkeit von 0,05 nicht verworfen werden.
I Das Ergebnis spricht daher gegen die Forschungshypothese H1 .
I Einfach gesagt:
I Die beobachtete Abweichung zwischen den beiden Lernmethoden von
durchschnittlich einem Punkt ist nicht groß genug“, um

auszuschließen, dass die beiden Methoden in Wahrheit identische
Lernerfolge erzielen.
I Die Abweichung könnte auch zufällig zustande gekommen sein.

335 / 425
Statistisches Testen: Ein Beispiel -
Gauß-Test für Erwartungswert
I Was wäre, wenn die Stichprobengröße n = 100 (anstelle von n = 36)
wäre?
I In diesem Szenario bleibt alles gleich, außer der Teststatistik:
X¯n − µ0
Z=
√σ
n

41 − 40 1
Z= = = 2, 5
√4 4
100 10
I Nun gilt Z > z0,95 (2, 5 > 1, 64). Daher kann H0 mit einer
Irrtumswahrscheinlichkeit von 0,05 verworfen werden. Das Ergebnis
spricht für H1 : Die neue Lernmethode führt zu besseren Lernerfolgen.
I Einfach gesagt: Mit einer Stichprobengröße von n = 100 lässt sich
nun ausschließen, dass der Unterschied zwischen den beiden
Lernmethoden zufällig zustande gekommen ist (α = 0, 05).
336 / 425
Statistisches Testen: Ein Beispiel -
Gauß-Test für Erwartungswert

I Was wäre, wenn die Hypothesen ungerichtet sind, d.h. ein


zweiseitiger Test durchgeführt wird?
I Dann ergibt sich als kritischer Wert zα/2 = z0,025 = −1, 96 und
z1−α/2 = z0,975 = 1, 96.
I H0 kann verworfen werden, wenn die Teststatistik Z kleiner als z0,025
oder größer als z0,975 ist bzw. wenn gilt |Z | > 1, 96.
I Im Beispiel n = 36: Z = 1, 5, H0 kann nicht verworfen werden, da
|Z | < 1, 96 (1, 5 < 1, 96).
I Im Beispiel n = 100: Z = 2, 5, H0 kann verworfen werden, da
|Z | > 1, 96 (2, 5 > 1, 96).

337 / 425
Konfidenzintervalle und Tests

I Wie verhalten sich Konfidenzintervalle und statistische Tests


zueinander?
I Berechnung der 95%-Konfidenzintervalle für die beiden Beispiele:
I X¯n = 41, σ = 4, n = 36:

4 4
 
41 − 1, 96 · , 41 + 1, 96 · = [39, 693, 42, 307]
6 6

I X¯n = 41, σ = 4, n = 100:

4 4
 
41 − 1, 96 · , 41 + 1, 96 · = [40, 216, 41, 784]
10 10

I Umschließt das 95%-Konfidenzintervall den Erwartungswert, auf den


wir testen (hier: µ0 = 40), kann die H0 in einem zweiseitigen Test
dieses Erwartungswertes mit α = 0, 05 nicht verworfen werden.

338 / 425
Konfidenzintervalle und Tests

Abbildung 77: Konfidenzintervalle und


I Konfidenzintervalle und zweiseitige z-Tests
(zweiseitige) z-Tests stehen
in einem direkten Verhältnis.
I Legt man ein
Konfidenzintervall um die
Teststatistik Z , so lässt sich
aus dem Intervall das
Testergebnis ablesen:
I Umschließt das Intervall
den Wert 0, führt der Test
zur Akzeptanz der H0
I Umschließt das Intervall
nicht den Wert 0, führt
der Test zu einer
Ablehnung von H0
339 / 425
Das empirische Signifikanzniveau

I Bisheriges Vorgehen:
I Festlegen der Irrtumswahrscheinlichkeit/ des Signifikanzniveaus α
I Vergleich der Teststatistik mit entsprechendem kritischen Wert
I Akzeptanz oder Ablehnung von H0 mit gegebenem Signifikanzniveau
I Alternatives Vorgehen:
I Berechnung der Teststatistik
I Identifikation des p-Wertes, der zu diesem Z-Wert gehört
I Dieser p-Wert entspricht dem α, bei dem die H0 gerade noch
abgelehnt wird
I Einfach gesagt: Wir suchen die kleinstmögliche
Irrtumswahrscheinlichkeit α, unter der H0 noch abgelehnt wird.

340 / 425
Das empirische Signifikanzniveau
I In unseren Beispielen:
I n = 36
I Ein Z-Wert ≥ 1,5 wird mit einer Wahrscheinlichkeit von p = 0, 0668
beobachtet (aus vollständiger Tabelle der Verteilungsfunktion)
I Schlussfolgerung: Mit einer Irrtumswahrscheinlichkeit von 6,7% kann
davon ausgegangen werden, dass die neue Lernmethode bessere
Ergebnisse erzielt als die alte Lernmethode.
I Anmerkung: Wenn p > 0, 05, sprechen wir i.d.R. einfach von einem
nicht signifikanten Ergebnis.
I n = 100
I Ein Z-Wert ≥ 2,5 wird mit einer Wahrscheinlichkeit von p = 0, 0062
beobachtet
I Schlussfolgerung: Die neue Methode erzielt bessere Lernergebnisse als
die alte Methode. Diese Aussage kann mit einer
Irrtumswahrscheinlichkeit bzw. einem Signifikanzniveau von 0,6%
getroffen werden.
I Das empirische Signifikanzniveau muss in der Klausur nicht bestimmt
werden, wird aber in der Praxis häufiger verwendet.
341 / 425
Zusammenfassung:
Statistisches Testen

I Statistische Tests prüfen, ob sich die erhobenen Daten mit einer


Hypothese über die Grundgesamtheit vereinbaren lassen.
I Dabei behauptet H0 das Gegenteil der eigentlichen
Forschungshypothese (H1 )
I Wir testen, ob sich H0 verwerfen/ ablehnen lässt
I Dabei können wir keine absolute Sicherheit erreichen, sondern
lediglich probabilistische Aussagen machen.
I Signifikanz ist nicht gleichbedeutend mit Relevanz:
I Teststatistiken ergeben sich durch Division mit dem Standardfehler.
Dieser verringert sich mit steigendem n, d.h. die Teststatistik wird
größer.
I Folglich können auch sehr kleine Unterschiede signifikant werden, wenn
n hoch genug ist.
I Der Frage nach der Signifikanz sollte daher auch die Frage nach der
substantiellen Relevanz folgen.
342 / 425
Und jetzt?

I Am Beispiel des Gauß-Test für Erwartungswerte (bei bekannter


Varianz) haben wir uns den Prozess des statistischen Testens
erschlossen.
I In der Praxis ist dieser Test weniger relevant; er ist lediglich einfach
und bietet sich daher zur Einführung an.
I Im Folgenden beschäftigen wir uns mit spezifischen (praxisrelevanten)
Tests:
I Testen von Erwartungs- und Anteilswerten bei unbekannter Varianz
I T-Test für Gruppenvergleiche
I Chi2 -Test für Kreuztabellen

343 / 425
t-Test für Erwartungswert
(bei unbekannter Varianz)

I Die wahren Parameter µ und insb. σ in der GG sind normalerweise


nicht bekannt. Trotzdem wollen wir ggf. testen, ob der
Erwartungswert µ einem bestimmten Wert hat.
I Hier hilft der t-Test für den Erwartungswert (µ) einer normalverteilten
ZV X¯n bei unbekannter Varianz:
I Teststatistik
X¯n − µ0
T = Sn

n

I T folgt einer t-Verteilung mit (n − 1) Freiheitsgeraden (T ∼ t(n − 1))


I Ab n ≥ 30 kann . . .
I approximativ auch die Standardnormalverteilung verwendet werden,
d.h. anstelle der t-Quantile werden z-Quantile verwendet (so gehen wir
auch in der Klausur vor)
I der Test auf beliebig verteilte ZVs angewendet werden
344 / 425
Kurzübung 9

Kurzübung zum t-Test für Erwartungswerte


Wir wollen die Hypothese testen, dass Studierende der
Sozialwissenschaften im Durchschnitt sehr gute“Mathekenntnisse

mitbringen, d.h., dass die Mathenote im Abitur besser als 2,0 ist.
Auf Basis einer Stichprobe von n = 49 Studierenden wurde X¯n = 1, 9 und
Sn = 0, 8 geschätzt.
I Schreiben Sie H0 und H1 für einen einseitigen Test auf
I Berechnen Sie die Teststatistik T
I Bestimmen Sie den kritischen Wert für α = 0, 05. Verwenden Sie dazu
die Standardnormalverteilung als Approximation (siehe Tabelle unten)
I Entscheiden Sie über das Ergebnis des Tests

Tabelle 61: Wichtige p-Quantile der Standardnormalverteilung


p 0,50 0,75 0,90 0,95 0,975 0,99 0,995
zp 0,00 0,67 1,28 1,64 1,96 2,33 2,58
345 / 425
Approximativer Binomialtest
für Anteilswerte

I Für Hypothesen über Anteilswerte π kann für Stichproben mit n ≥ 30


approximativ die Normalverteilung verwendet werden (zentraler
Grenzwertsatz).
I Wir sprechen vom approximativen Binomialtest für Anteilswerte.
I Die Teststatistik ergibt sich als:

πˆn − π0
Z=q
π0 (1−π0 )
n

a
I dabei gilt Z ∼ N(0, 1) wenn n ≥ 30
I Die kritischen Werte können also approximativ aus der
Verteilungsfunktion der Standardnormalverteilung abgelesen werden.

346 / 425
Approximativer Binomialtest
für Anteilswerte - ein Beispiel

I Stata Example 12 (binomial test.do)


I Beispiel:
I In der Umfrage des ESS 8 (2016) kommt die FDP auf einen
Stimmenanteil von 5,92% (π̂FDP = 0, 0592)
I Der Stichprobenumfang beträgt n = 1858
I Forschungshypothese: Die FDP wird in den Bundestag einziehen, d.h.
mehr als 5% der Stimmen erreichen
I H0 : πFDP ≤ π0 bzw. πFDP ≤ 0, 05
I H1 : πFDP > π0 bzw. πFDP > 0, 05
I Die Irrtumswahrscheinlichkeit soll 1% betragen: α = 0, 01

347 / 425
Approximativer Binomialtest
für Anteilswerte - ein Beispiel

I Die Teststatistik ergibt sich als:

ˆ − π0
πFDP 0, 0592 − 0, 05
Z= q = q = 1, 82
π0 (1−π0 ) 0,05(1−0,05)
n 1858

I Wir testen, ob der Stimmanteil πFDP größer 0,05 ist. Der kritische
Wert liegt daher im positiven Bereich und ergibt sich als
z1−α = z0,99 = 2, 33
I Entscheidung: Es gilt Z < z0,99 (1, 82 < 2, 33), die Teststatistik liegt
also nicht im Ablehnungsbereich.
I Wir können mit einer Irrtumswahrscheinlichkeit von 1% nicht davon
ausgehen, dass die FDP in den Bundestag einzieht.

348 / 425
Approximativer Binomialtest
für Anteilswerte - ein Beispiel

I Wie sieht es aus, wenn wir α = 0, 05 wählen?


I In diesem Fall ergibt sich für den kritischen Wert z1−α = z0,95 = 1, 64
I Entscheidung: Es gilt Z > z0,95 (1, 82 > 1, 64), die Teststatistik liegt
also nun im Ablehnungsbereich.
I Wir können mit einer Irrtumswahrscheinlichkeit von 5% davon
ausgehen, dass die FDP in den Bundestag einzieht.
I Als empirisches Signifikanzniveau ergibt sich hier p = 0, 0344. D.h.
wir können mit einer Irrtumswahrscheinlichkeit von 3,44% davon
ausgehen, dass die FDP in den Bundestag einzieht.

349 / 425
Statistische Tests
für Gruppenvergleiche

I Als Sozialwissenschaftler*innen sind wir häufig an Gruppenvergleichen


interessiert.
I Beispiele:
I Unterscheidet sich das durchschnittliche Einkommen von Männern und
Frauen?
I Unterscheidet sich das Niveau generalisierten Vertrauens zwischen
Deutschland und Schweden?
I Gibt es einen Unterschied im Ausmaß der Fremdenfeindlichkeit
zwischen Erwerbstätigen und Arbeitslosen?
I Unterscheidet sich das durchschnittliche Einkommen von Personen aus
bildungsnahen und bildungsfernen Elternhäusern?

350 / 425
Statistische Tests für
unabhängige Stichproben (t-Test)

I Zum Vergleich von Mittelwerten zwischen zwei Gruppen kann der


t-Test zum Vergleich von Mittelwerten aus unabhängigen Stichproben
verwendet werden.
I Dieser Test geht davon aus, dass die zu vergleichenden Mittelwerte
auf Basis unabhängiger Stichproben geschätzt wurden.
I Dies ist eindeutig der Fall, wenn die Mittelwerte einer Variable X (X¯n )
zwischen z.B. Deutschland (X̄DE ) und Schweden (X̄SE ) verglichen
werden
I Darüber hinaus können auch Teilstichproben einer Gesamtstichprobe
als unabhängig betrachtet werden, solange bei der Zufallsstichprobe
das Kriterium der Unabhängigkeit gilt.
Beispiele:
I Vergleich der Einkommen von Männern und Frauen auf Basis des
ALLBUS
I Vergleich der Fremdenfeindlichkeit von Erwerbstätigen und
Arbeitslosen auf Basis der deutschen ESS-Stichprobe
351 / 425
Statistische Tests für
unabhängige Stichproben (t-Test)

I Es gibt unterschiedliche Varianten dieses Tests; wir betrachten nur die


Variante für große Fallzahlen (n1 , n2 ≥ 30).
I In diesem Fall ergibt sich die Teststatistik als:

X¯1 − X¯2
T =r
S12 S22
n1 + n2

, mit T ∼ t(k), wobei sich die Freiheitsgerade k aus einer weiteren


Formel ergeben (siehe dazu Jann (2005), S. 150).
Ab n1 , n2 ≥ 30 kann die Standardnormalverteilung als Approximation
verwendet werden (T ∼ N(0, 1)) (so auch in der Klausur).

352 / 425
Kurzübung 10

Kurzübung zum t-Test für unabhängige Stichproben


Auf Basis des ALLBUS (Allgemeine Bevölkerungsumfrage der
Sozialwissenschaften) wurden die Erwerbseinkommen von ganztägig
erwerbstätigen Männern und Frauen analysiert. Unsere
Forschungshypothese ist, dass Männer mehr verdienen als Frauen. Für
Männer wurde ein durchschnittliches Einkommen von X¯M = 2342, 8 mit
einer Standardabweichung von SM = 2269, 8 geschätzt (nM = 960). Für
Frauen ergab sich X¯F = 1735, 6 und SF = 1166, 1 (nF = 500).
I Schreiben Sie H0 und H1 auf
I Berechnen Sie die Teststatistik T
I Bestimmen Sie den kritischen Wert für α = 0, 05.
I Entscheiden Sie über das Ergebnis des Tests

p 0,50 0,75 0,90 0,95 0,975 0,99 0,995


zp 0,00 0,67 1,28 1,64 1,96 2,33 2,58
353 / 425
Tests für Zusammenhänge

I Hypothesen, die aus Theorien abgeleitet werden, machen


typischerweise Aussagen über Zusammenhänge zwischen zwei
Variablen X und Y .
I Statistische Tests für Zusammenhänge sind daher zentral für das
Testen von Theorien.
I In der Forschungspraxis werden Zusammenhänge häufig multivariat,
d.h. mit Hilfe von Regressionsmodellen, getestet (dazu mehr in der
nächsten Sitzung).
I Wir schauen uns im Folgenden zwei statistische Tests für bivariate
Zusammenhänge an.
I Den Chi2 -Unabhängigkeits-Test für Kreuztabellen
I Den Test einer linearen Korrelation

354 / 425
Der Chi2 -Unabhängikeitstest
für Kreuztabellen

I Zur Erinnerung: Den Chi2 -Koeffizienten (χ2 ) haben wir als ein Maß
zur Beschreibung des Zusammenhangs in Kreuztabellen
kennengelernt:
k X
m
(hij − h̃ij )2 hi. h.j
χ2 = , mit χ2 ≥ 0 und h̃ij =
X

i=1 j=1 h̃ij n

I Dieser Wert ist gleichzeitig eine Teststatistik, die einer


Chi2 -Verteilung folgt:

χ2n ∼ χ2 ((k − 1) · (m − 1))

wobei ((k − 1) · (m − 1)) die Freiheitsgerade der Chi2 -Verteilung sind.


I Getestet wird hier die Nullhypothese H0 : X und Y sind unabhängig.
Entsprechend ist H1 : X und Y sind abhängig.
355 / 425
Der Chi2 -Unabhängikeitstest
für Kreuztabellen

I Eine Approximation der p-Quantile der Chi2 -Verteilung über die


Standardnormalverteilung ist nicht möglich.
I Der kritische Wert kann also nur aus der Verteilungsfunktion der
Chi2 -Verteilung abgelesen werden.
I Da die Werte F (x ) nicht nur von x , sondern auch von den
Freiheitsgeraden df abhängen, ist diese Tabelle sehr umfangreich.
I In der Klausur werden Sie daher keine Hypothesentests mit der
Chi2 -Verteiung durchführen müssen; lediglich die Interpretation ist
klausurrelevant.
I Stata Example 13 (association test.do)

356 / 425
Stata Output:
Chi2 -Unabhängigkeitstest

. tabulate party_voted_DE gndr if party_voted_DE < 7, chi

| Gender
party_voted_DE | Male Female | Total
----------------------+----------------------+----------
CDU/CSU | 353 340 | 693
SPD | 276 231 | 507
Die Linke | 124 69 | 193
Bündnis 90/ Die Grüne | 122 120 | 242
FDP | 64 46 | 110
AfD | 38 20 | 58
----------------------+----------------------+----------
Total | 977 826 | 1,803

Pearson chi2(5) = 15.9253 Pr = 0.007

357 / 425
Der Chi2 -Unabhängikeitstest
für Kreuztabelle in Stata

I Der Chi2 -Wert für die Kreuztabelle ist 15,9253. Dies ist die
Teststatistik.
I Stata vergleicht den Wert nicht mit einem kritischen Wert, sondern
berechnet das empirische Signifikanzniveau p.
I D.h. wie wahrscheinlich wird ein Wert von 15,9235 in einer
Chi2-Verteilung mit 5 Freiheitsgeraden beobachtet?
I Antwort: p = 0, 007, d.h. H0 kann mit einer Irrtumswahrscheinlichkeit
von α = 0, 01 abgelehnt werden.
I Interpretation: Es besteht ein Zusammenhang zwischen Geschlecht
und Parteipräferenz.
I Klausurhinweis: Einen solchen Output könnten Sie in der Klausur zur
Interpretation vorgelegt bekommen.

358 / 425
Test für lineare Korrelation

I Wir haben den Korrelationskoeffizienten als ein Maß des


Zusammenhangs zwischen zwei metrischen Variablen kennengelernt:

i=1 (xi − x̄ )(yi − ȳ )


Pn
r = qP
i=1 (xi − x̄ )2 i=1 (yi − ȳ )2
n Pn

I Die Teststatistik ist:


rn √
T =q · n−2
1 − rn2

, wobei gilt T ∼ t(n − 2).


I Ab n ≥ 30 kann die Standardnormalverteilung als Approximation
verwendet werden.
I Dieser Test ist nicht klausurrelevant.

359 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 5.6.1, 5.6.2, 5.6.3 und 5.6.5.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 10.1, 10.2 und 10.3.

360 / 425
Einführung in die sozialwissenschaftliche Statistik
Lineare Regression: Die OLS-Regression

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#12

361 / 425
Kurze Erinnerung und Ausblick

I Letzte Sitzung haben wir uns mit der Methode des


inferenzstatistischen Testens beschäftigt.
I Dabei haben wir folgende Tests behandelt:
I Gauß-Test für Erwartungswert bei bekannter Varianz
I t-Test für Erwartungswert bei unbekannter Varianz
I Approximativer Binomialtest für Anteilswerte
I t-Test zum Vergleich von Mittelwerten unabhängiger Stichproben
I Heute beschäftigen wir uns mit multivariater Statistik
I Kontrolle von Drittvariablen
I Grundlagen der OLS-Regression

362 / 425
Erinnerung: Korrelation und Kausalität
I Erinnerung: Ein/e Korrelation/ Zusammenhang impliziert keine
Kausalität
I Beispiel: Die Korrelationen zwischen der Körpergröße und dem
Wortschatz von Kindern erklärt sich durch das Alter der Kinder

Abbildung 78: Scheinkorrelation zwischen X und Y

363 / 425
Erinnerung: Korrelation und Kausalität
I Erinnerung: Ein/e Korrelation/ Zusammenhang impliziert keine
Kausalität
I Beispiel: Der Zusammenhang zwischen Arbeitslosigkeit und
fremdenfeindlichen Einstellungen wird ggf. überschätzt, wenn das
Bildungsniveau nicht berücksichtigt wird

Abbildung 79: Konfundierung des Effektes von X auf Y durch Z

364 / 425
Lösung: Drittvariablenkontrolle

I Einfache bivariate Zusammenhänge sind häufig irreführend.


I Die Kontrolle von Drittvariablen ist essentiell zur Identifikation
kausaler Effekte.
I Hierzu werden multivariate Methoden verwendet.
I Was heißt das?
I Statistisch: Statistische Kontrolle der Einflüsse von Drittvariablen:
Wie ist der Effekt von X auf Y , wenn alle anderen Einflüsse

(Z1 , Z2 , . . . , Zm ) konstant gehalten werden?“
I Theoretisch: Ein überzeugender Test von Hypothese A (bzw. Theorie
A) schließt alternative Erklärungen (Theorien B, C, . . . ) aus. Beispiel:
Empirische Evidenz für die Existenz von Lohndiskriminierung bleibt

auch bei Kontrolle humankapitaltheoretischer Erklärungsfaktoren
bestehen.“

365 / 425
Kontrolle von Drittvariablen -
ein Beispiel

I Beispiel: Hat die Körpergröße einen Effekt auf den Wortschatz von
Kindern?
I In der Tabelle ergibt sich rXY = 0, 9961!

Tabelle 62: Körpergröße (in cm) und Wortschatz bei Kindern

i Größe (xi ) Wörter (yi )


1 107 540
2 109 540
3 108 530
4 136 680
5 134 680
6 135 690
Anmerkung: fiktives Beispiel

366 / 425
Kontrolle von Drittvariablen -
ein Beispiel

I Beispiel: Hat die Körpergröße einen Effekt auf den Wortschatz von
Kindern?
I Kann der Zusammenhang durch das Alter erklärt werden?

Tabelle 63: Körpergröße (in cm), Alter (in Jahren) und Wortschatz bei Kindern

i Größe (xi ) Wörter (yi ) Alter (zi )


1 107 540 5
2 109 540 5
3 108 530 5
4 136 680 8
5 134 680 8
6 135 690 8
Anmerkung: fiktives Beispiel

367 / 425
Kontrolle von Drittvariablen -
ein Beispiel

I Beispiel: Hat die Körpergröße einen Effekt auf den Wortschatz von
Kindern?
I Partielle Korrelation: Korrelation zwischen X und Y unter Kontrolle
von Z (siehe dazu Jann (2005): S. 91f.)

Tabelle 64: Partielle Korrelation zwischen Körpergröße und Wortschatz


i Größe (xi ) Wörter (yi ) Alter (zi )
1 107 540 5
2 109 540 5 rXY .Z5 = 0
3 108 530 5
4 136 680 8
5 134 680 8 rXY .Z8 = 0
6 135 690 8
Anmerkung: fiktives Beispiel
368 / 425
Erinnerung: Unsere erste Regression -
Kontrolle von Bildung

I Beispiel: Haben Arbeitslose häufiger migrationskritische


Einstellungen?
I Ein (einfaches) Regressionsmodell:
I Abhängige Variable (Y ): Migrationskritische Einstellungen
I Unabhängige Variable (X ): Arbeitslosigkeit
I Kontrollvariable (Z ): Bildung (in Jahren)

Tabelle 65: Regression: Migrationskritische Einstellungen und Arbeitslosigkeit


M1 M2
Arbeitslos 0.465 ** 0.313
Bildung -0.100 ***
Konstante -0.069 * 1.396 ***
Quelle: ESS 8, Edition 1.0. Anmerkungen: n = 2137, *p ≤ 0, 05, **p ≤ 0, 01, ***p ≤ 0, 001. Die abhängige Variable wurde
mit Hilfe konfirmatorischer Faktorenanalysen gebildet und basiert auf drei Items.
369 / 425
Regressionsanalysen

I Regressionsanalysen (Regressionsmodelle) sind die prominentesten


Verfahren in der quantitativen Analyse von Beobachtungsdaten.
I Regressionsanalysen ergeben eine Gleichung, die den Zusammenhang
zwischen einer abhängigen Variable Y und einer oder mehreren
unabhängigen Variablen X1 , X2 , . . . , Xm beschreibt.
I Regressionsanalysen . . .
I implizieren daher einen gerichteten Zusammenhang (X → Y )
I spiegeln im Idealfall das theoretisch zu testende Modell wider
I beschreiben multivariate Zusammenhänge, können aber auch zur
Prognose/ Vorhersage verwendet werden
I sind sehr vielseitig; sie können auf beliebig skalierte Variablen und
diverse Datenstrukturen angewendet werden. Sie erlauben flexible
Modellierungen.
I Wir beschäftigen uns mit der OLS-Regression, einem Verfahren für
metrisch skalierte abhängige Variablen in einfachen
Querschnittsdatensätzen.
370 / 425
Die OLS-Regression

I Zur Einführung betrachten wir bivariate Regressionen.


I Beispiel: Wie hängt das Körpergewicht in kg (Y ) von der Größe in
cm (X ) ab?
I Wie lässt sich dieser Zusammenhang in einer Gleichung beschreiben?

y =a+b·x

weight = a + b · height

I a ist der Y-Achsenabschnitt


I b ist die Steigung

371 / 425
Die OLS-Regression
I Beispiel: Wie hängt das Körpergewicht in kg (Y ) von der Größe in
cm (X ) ab?
I Wie lässt sich dieser Zusammenhang in einer Gleichung beschreiben?

Abbildung 80: Eine einfache Funktion zur Beschreibung linearer Zusammenhänge

372 / 425
Die OLS-Regression
I Die OLS-Regression schätzt die Parameter einer solchen Funktion
(α, β) auf Basis der beobachteten Daten (x , y ):
yi = α + β1 xi + ei

Abbildung 81: Regressionsgerade und Residuen

373 / 425
Die OLS-Regression

I Die OLS-Regression schätzt die Parameter einer solchen Funktion


(α, β) auf Basis der beobachteten Daten (x , y ):
yi = α + β1 xi + ei

I yi = α + β1 xi beschreibt die geschätzte Gerade/ Funktion; aus ihr


ergeben sich die vorhergesagten Werte des Modells: yˆi = α + β1 xi .
I ei entspricht der Differenz zwischen der Geraden und den einzelnen
Beobachtungen (xi , yi ). ei wird das Residum oder auch der Fehler
genannt.
I OLS = Ordinary Least Squares, deutsch: Methode der kleinsten
Quadrate.
I Die Parameter α und β werden so festgelegt“, dass die quadrierten

Abweichungen zwischen Vorhersage und beobachteten Daten minimiert
werden.
I Einfach gesagt: Wir suchen die Parameter, die die beste Vorhersage
von y liefern.
374 / 425
Die OLS-Regression
I Stata Example 14 (OLS regression.do)
I Im Beispiel:
yˆi = α + β1 xi
yˆi = −80, 08 + 0, 919xi

Abbildung 82: Regression: Gewicht und Körpergröße

375 / 425
Die OLS-Regression:
Stata-Output

I Stata-Output - der Koeffizientenblock:


---------------------------------------------------------------------------
weight | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
height | .9190748 .1740348 5.28 0.000 .5691543 1.268995
_cons | -80.07549 29.34342 -2.73 0.009 -139.0744 -21.07659
---------------------------------------------------------------------------
I Zeilen:
I weight = abhängige Variable (y )
I height = unabhängige Variable (x )
I cons = Konstante/ Y-Achsenabschnitt (α)
I Spalten:
I Coef. = Regressionskoeffizienten (α, β)
I Std. Err. = Standardfehler
I t und P>|t| = Teststatistik und empirisches Signifikanzniveau
I [95% Conf. Interval] = 95%-Konfidenzintervall
376 / 425
Die OLS-Regression:
Interpretation

I Interpretation:
yˆi = α + β1 xi
Wenn x um eine Einheit steigt, steigt y um β1 Einheiten.
I Im Beispiel:
yˆi = −80, 08 + 0, 919xi
Wenn die Körpergröße um einen cm steigt, steigt das Gewicht um
0,919 kg.
I Merke: Bei der Interpretation von Regressionen ist die
Berücksichtigung der Einheiten wichtig!

377 / 425
Die OLS-Regression:
Prognosen

I Prognose/ Vorhersage: Eine Prognose von y -Werten ergibt sich durch


einfaches Einsetzen in die geschätzte Funktion:
yˆi = −80, 08 + 0, 919xi
I Beispiele:
I Beispiel I: Wie schwer (in kg) ist eine Person, die 199 cm groß ist?

yˆi = −80, 08 + 0, 919 · 199 = 102, 8


I Beispiel II: Wie schwer (in kg) ist eine Person, die 53 cm groß ist?

yˆi = −80, 08 + 0, 919 · 53 = −31, 4


I Regressionsmodelle können genutzt werden, um Prognosen über nicht
beobachtete Fälle zu erzeugen.
I Dabei gibt es Grenzen der sinnvollen“Extrapolation (siehe Beispiel

II).
378 / 425
OLS-Regression: Wie funktioniert das?

I Die Residuen für Einheit i sind definiert als Differenz zwischen der
Regressionsgeraden (yˆi ) und den tatsächlich beobachteten Werten
dieser Person (yi ):
ei = yi − yˆi
I Das OLS-Verfahren minimiert die Summe der quadrierten Residuen:
n n
RSS = = (yi − yˆi )2
X X
ei2
i=1 i=1

[RSS = Residual Sum of Squares]


I Da gilt, yˆi = α + β1 xi , können wir auch schreiben:
n
RSS = (yi − α + βxi )2
X

i=1

379 / 425
OLS-Regression: Wie funktioniert das?

I Wie findet man das Minimum einer Funktion?


I Ableiten der Funktion
I Ableitung gleich Null setzen
I Auflösen
I Hier werden aus der Funktion
n
RSS = (yi − α + βxi )2
X

i=1

die partiellen Ableitungen nach α und β1 gebildet und das


Gleichungssystem gelöst.
I Siehe dazu Bortz und Schuster (2010): S. 187

380 / 425
Die OLS-Regression:
Stata-Output

I ANOVA: Analysis of Variance, deutsch: Varianzanalyse, d.h.


Zerlegung der Gesamtvarianz in erklärten und unerklärten (An-)Teil
I Stata-Output (ANOVA-Block):
Source | SS df MS
-------------+----------------------------------
Model | 4502.80177 1 4502.80177
Residual | 7749.87657 48 161.455762
-------------+----------------------------------
Total | 12252.6783 49 250.05466
Pn
I SS = Sum of Squares, deutsch: Quadratsummen“( i=1
(a − b)2 )

I df = degrees of freedom, deutsch: Freiheitsgerade
I MS = mean squares, deutsch: mittlere Abweichung (SS/df )

381 / 425
Die OLS-Regression:
Stata-Output

I Stata-Output (ANOVA-Block):
Source | SS df MS
-------------+----------------------------------
Model | 4502.80177 1 4502.80177
Residual | 7749.87657 48 161.455762
-------------+----------------------------------
Total | 12252.6783 49 250.05466
I Total = Die Total sum of squares (12252.7) geben die Gesamtvarianz an:
Pn
(y − ȳ )2
i=1 i
I Model = Die Model Sum of Squares (4502.8) geben die durch das Model erklärte
Pn
Varianz an: (ŷ − ȳ )2
i=1 i
I Residual = Die Residual Sum of Squares (7749.9) geben die durch das Model
Pn Pn
nicht erklärte Varianz an: (y − yˆi )2 = i=1 ei2
i=1 i

382 / 425
Erklärte Varianz
I Die Gesamtvarianz (TSS) lässt sich in einen erklärten (MSS) und
einen unerklärten (RSS) Anteil teilen.
I Der Anteil erklärter Varianz ergibt sich als:
R 2 = MSS/TSS = 1 − RSS/TSS (im Beispiel: 0,3675)
Abbildung 83: Varianzzerlegung (erklärte Varianz)

383 / 425
Die OLS-Regression:
Stata-Output

I Stata-Output (Modelfit-Block):
Number of obs = 50
F(1, 48) = 27.89
Prob > F = 0.0000
R-squared = 0.3675
Adj R-squared = 0.3543
Root MSE = 12.707
I Number of obs = Zahl der Beobachtungen n.
I F(1, 48) und Prob > F = Teststatistik und empirisches Signifikanzniveau des
F-Tests: Hat die Summe aller unabhängigen Variablen einen signifikanten Effekt
auf y ?
I R-squared = Anteil erklärter Varianz (R 2 = MSS/TSS = 1 − RSS/TSS )
I Adj R-squared = Adjustiertes R 2 (berücksichtigt Komplexität)
I Root
p MSE = Wurzel des Mean Squared Error: Standardfehler des Modells
( RSS/(n−k) , mit k = Zahl der Koeffizienten)

384 / 425
Multivariate OLS-Regression

I Die multivariate OLS-Regression schätzt eine Gleichung mit


mindestens zwei unabhängigen Variablen:

yi = α + β1 x1i + β2 x2i + ... + βm xmi + ei

I Der Effekt/ Koeffizient (β) einer unabhängigen Variable (z.B. x1 )


wird dabei unter Kontrolle“aller anderen unabhängigen Variablen

geschätzt.
I Was heißt das? Mögliche Interpretationen:
I Wie verändert sich y , wenn x1 um eine Einheit steigt und alle anderen
Variablen konstant gehalten werden?
I Welchen Effekt hat x auf y , unabhängig von den anderen Variablen?
I Der Koeffizient β1 isoliert den Effekt von x1 von den Effekten der
anderen Variablen.

385 / 425
Kurzübung 11

Kurzübung zur Regressionsanalyse Stata Example 15


Schauen Sie sich den folgenden Regressionsoutput an. Die abhängige
Variable ist der Bruttostundenlohn in e. Erklärende Variablen sind
Bildung, Berufserfahrung und Betriebszugehörigkeit, jeweils in Jahren.
Source | SS df MS Number of obs = 10,516
-------------+---------------------------------- F(3, 10512) = 743.74
Model | 277785.646 3 92595.2154 Prob > F = 0.0000
Residual | 1308739.05 10,512 124.499529 R-squared = 0.1751
-------------+---------------------------------- Adj R-squared = 0.1749
Total | 1586524.7 10,515 150.882044 Root MSE = 11.158
------------------------------------------------------------------------------
StdLohn | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
Bildung | 1.458373 .0396762 36.76 0.000 1.3806 1.536146
Erfahrung | .1914365 .0109037 17.56 0.000 .1700632 .2128099
Betriebszug | .1325129 .0126429 10.48 0.000 .1077304 .1572953
_cons | -7.937986 .5444936 -14.58 0.000 -9.005296 -6.870675
------------------------------------------------------------------------------
Quelle: SOEP 2009.
386 / 425
Kurzübung 11

Fragen
I Interpretieren Sie die Koeffizienten der drei erklärenden Variablen!
I Sind die Effekte signifikant?
I Wie viele Beobachtungen wurden für die Schätzung verwendet?
I Schreiben Sie die geschätzte Regressiongleichung auf!
I Welcher Anteil der Varianz kann durch die drei unabhängigen
Variablen erklärt werden?
I Prognosen: Schätzen Sie den Stundenlohn einer Person, . . .
I die 10 Jahre zur Schule gegangen ist, keine Berufserfahrung hat und
gerade erst im Betrieb angefangen hat (Betriebszugehörigkeit=0)
I die 18 Jahre zur Schule und Universität gegangen ist, 15 Jahre
Berufserfahrung hat und seit 10 Jahren in ihrem Betrieb arbeitet

387 / 425
Kategoriale unabhängige Variablen

I OLS-Regression setzt metrisch skalierte Variablen voraus.


I Problem: Viele Variablen sind kategorial (z.B. Geschlecht, soziale
Klasse, Parteipräferenz, Bildungsabschlüsse, etc.). Wie lassen diese
Variablen sich in das OLS-Verfahren integrieren?
I Durch die Verwendung von Dummy-Variablen, d.h. 0/1-kodierten
Indikatoren für das Vorliegen einer Eigenschaft/ eines Wertes.

Tabelle 66: Minimalbeispiel Dummy-Kodierung (dichotome Ursprungsvariable)

i Gechlecht (original) Dummy Frau


1 Männlich [2] 0
2 Weiblich [1] 1
3 Weiblich [1] 1
4 Männlich [2] 0

388 / 425
Kategoriale unabhängige Variablen

I Dummy-Kodierungen können für topologisch skalierte unabhängige


Variablen verwendet werden.
I Dies funktioniert auch mit polytomen Variablen:

Tabelle 67: Dummy-Kodierung bei polytomen Variablen


i Schulabschluss Haupt Real Abi
1 Abitur [3] 0 0 1
2 Realschule [2] 0 1 0
3 Abitur [3] 0 0 1
4 Hauptschule [1] 1 0 0

389 / 425
Kategoriale unabhängige Variablen

I Wenn eine unabhängige Variable k Ausprägungen hat, werden k − 1


Dummies in die Regressionsfunktion aufgenommen. Warum?
I Beispiel: Drei Schulabschlüsse (siehe Tabelle 69)
I Funktion mit drei Dummies:

yˆi = α + β1 Haupt + β2 Real + β3 Abi

α gibt den Wert für yˆi an, wenn alle unabhängigen Variablen gleich
null sind. Bei Verwendung von allen drei Dummies ist α nicht mehr
identifiziert, da es den Fall Haupt=Real=Abi=0 logisch nicht geben
kann.
I Funktion mit zwei Dummies:

yˆi = α + β1 Real + β2 Abi

α gibt nun den Wert für die weggelassene Ausprägung an


(Referenzkategorie). β1 und β2 geben die Differenz zur
Referenzkategorie an. Stata Example 16 (OLS regression.do)
390 / 425
Annahmen und Voraussetzungen
der OLS-Regression

1. Die Daten sind eine Zufallsstichprobe aus der GG (generell für


Inferenz nötig).
2. Es besteht ein linear-additiver Zusammenhang zwischen den
X -Variablen und Y .
3. Die X -Variablen sind weder Konstanten noch lineare Kombinationen
voneinander (Identifikation des Models).
4. Der Fehlerterm ist unabhängig von den Variablen im Modell
(E (ei |x1i , x2i , . . . , xmi ) = 0)
5. Der Fehlerterm hat eine konstante Varianz
(Var (ei |x1i , x2i , . . . , xmi ) = σ 2 ), Homoskedastizität
6. Die Fehlerterme sind unkorreliert miteinander.
7. Der Fehlerterm ist normalverteilt (ei ∼ N(0, σ))

391 / 425
Annahmen und Voraussetzungen
der OLS-Regression

I Annahme 4 (die Exogenitätsannahme) ist zentral. Sie stellt sicher,


dass die Parameter (α, β) unverzerrt geschätzt werden.
I Der Fehlterm ist exogen, wenn alle unbeobachteten Effekte auf Y und
die Messfehler unkorreliert mit den X -Variablen sind.
I Einfach gesagt: Wir müssen annehmen, dass wir alle
relevanten“Einflüsse kontrolliert haben. Alle nicht berücksichtigten

Einflüsse sind Teil des Fehlerterms und können somit zu einer
Verletzung der Annahme führen.
I Die Annahmen 5 und 6 sind für die Effizienz des Schätzers relevant.
I Annahme 7 ist nur in kleinen Samples notwendig (zentraler
Grenzwertsatz).

392 / 425
Zusammenfassung:
OLS-Regression

I Die OLS-Regression schätzt den multivariaten Zusammenhang


zwischen einer abhängigen und (mehreren) unabhängigen Variablen.
I Hierzu werden die Parameter bestimmt, die die Summe der
quadrierten Residuen minimieren (Methode der kleinesten Quadrate).
I Die geschätzten Effekte sind isolierte“Einflüsse unter Kontrolle der

anderen unabhängigen Variablen.
I Sie setzt metrisches Skalenniveau voraus. Kategoriale Variablen
können mit Hilfe von Dummies als unabhängige Variablen verwendet
werden.
I Die erklärte Varianz (R 2 ) ist ein zentrales Maß der Modellgüte.

393 / 425
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 6.1 und 6.2
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 12.1 und 12.2.

394 / 425
Einführung in die sozialwissenschaftliche Statistik
Lineare Regression: Interaktionseffekte

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#13

395 / 425
Kurze Erinnerung und Ausblick

I Letzte Sitzung haben wir uns mit den Grundlagen der


OLS-Regression beschäftigt
I Das OLS-Verfahren identifiziert eine Funktion, die den multivariaten
Zusammenhang zwischen Y und mehreren X-Variablen beschreibt
I Dabei werden die Parameter (α, β1 , . . . , βm ) gesucht, die die
quadrierten Residuen minimieren
I Die Effekte einer Variable X, werden dabei jeweils unter Kontrolle aller
anderen X-Variablen geschätzt.
I Die OLS-Regression erlaubt das Testen von Hypothesen und das
Erstellen von Prognosen
I Heute beschäftigen wir uns vertieft mit der OLS-Regression
I Dummy-Variablen
I Statistische Annahmen
I Komplexere (nicht-lineare oder multiplikative) Funktionen

396 / 425
Zur Erinnerung:
Multivariate OLS-Regression

I Allgemeine OLS-Regression mit m unabhängigen Variablen:

yi = α + β1 x1i + β2 x2i + ... + βm xmi + ei


I Interpretation:
I Wenn x1 um eine Einheit steigt, steigt y um β1 Einheiten. Analog für
x2 bis xm .
I Die βs werden als Effekte bezeichnet. Es handelt sich um partielle
Effekte, d.h. sie werden jeweils unter Kontrolle aller anderen
unabhängigen Variablen geschätzt.
I ei sind die Residuen oder Fehler. Sie enthalten die individuellen
Abweichungen von der geschätzten Funktion. Für die Interpretation
sind sie nicht relevant.

397 / 425
Die Regression als inferenzstatistisches
Schätzverfahren

I In der Grundgesamtheit (GG) gelte der Zusammenhang

yi = α + β1 x1 + β2 x2 + i

, mit rX1 X2 > 0, rX1 i = 0 und rX2 i = 0


I Einfach gesagt:
I Y hängt kausal von X1 und X2 ab; X1 und X2 korrelieren miteinander
I Die Residuen i korrelieren weder mit X1 noch mit X2 . Sie enthalten
zufällige Einflüsse, zum Beispiel Messfehler.

398 / 425
Die Regression als inferenzstatistisches
Schätzverfahren

I Auf Basis einer Stichprobe werden die Parameter der GG geschätzt:

yi = α̂ + βˆ1 x1 + βˆ2 x2 + êi


I Zwischen den wahren Parametern in der Grundgesamtheit (α, β1 , β2 )
und ihren Schätzungen (α̂, βˆ1 , βˆ2 ) kann es Abweichungen geben.
Grundsätzlich gelten hier die Grenzwertsätze:
I Die Stichprobenstatistiken der Parameter sind normalverteilt, wenn n
groß genug ist.
I Die Varianz der Stichprobenstatistiken nimmt mit steigendem n ab.
I Einfach gesagt: Es kann zwar stichprobenbedingte Abweichungen
zwischen den wahren und geschätzten Parametern geben, aber im
Durchschnitt liegen wir mit unserer Schätzung richtig. Je größer die
Stichprobe, desto sicherer können wir sein, nahe an den wahren
Parametern zu liegen.

399 / 425
Wann funktioniert das?
Annahmen der OLS-Regression

1. Die Daten sind eine Zufallsstichprobe aus der GG


2. Es besteht ein linear-additiver Zusammenhang zwischen den
X -Variablen und Y
3. Die X -Variablen sind weder Konstanten noch lineare Kombinationen
voneinander (Identifikation des Models).
4. Der Fehlerterm ist unabhängig von den Variablen im Modell
(E (ei |x1i , x2i , . . . , xmi ) = 0)
5. Der Fehlerterm hat eine konstante Varianz
(Var (ei |x1i , x2i , . . . , xmi ) = σ 2 ), Homoskedastizität
6. Die Fehlerterme sind unkorreliert miteinander.
7. Der Fehlerterm ist normalverteilt (ei ∼ N(0, σ))

400 / 425
Annahmen der OLS-Regression:
Annahmen 1 und 5 bis 7

I Die Annahmen 1 und 5 bis 7 sind für die Inferenzstatistik relevant.


I Annahme 7, der normalverteilte Fehlerterm, ist nur in kleinen
Stichproben nötig, da ansonsten der zentrale Grenzwertsatz greift.
I Die Annahmen 1 und 5 bis 7 sind nicht klausurrelevant.

401 / 425
Annahmen der OLS-Regression:
2. Annahme

I Geschätzt wird eine linear-additive Funktion:

yi = α + β1 x1i + β2 x2i + ... + βm xmi + ei

I Linear meint, dass der Effekt der X-Variablen linear ist. So ist der
Effekt von x1 immer β1 , unabhängig davon, welchen Wert x1 hat.
I Additiv meint, dass der Effekt einer X-Variable unabhängig ist von den
Effekten der anderen X-Variablen. So ist der Effekt von x1 unabhängig
davon welchen Wert die Variablen x2 bis xm haben.
I Wie sich nicht-lineare und multiplikative Effekte trotzdem schätzen
lassen, sehen wir gleich.

402 / 425
Annahmen der OLS-Regression:
3. Annahme

I Wenn eine Variable X in der gegebenen Stichprobe eine Konstante


ist, kann ihr Effekt nicht geschätzt werden.
I Zur Identifikation eines Zusammenhangs wird Varianz benötigt.
I Beispiel: In einem Datensatz in dem nur Universitätsabsolvent*innen
sind, kann der Einfluss des Bildungsabschlusses nicht geschätzt werden.
I Wenn X-Variablen in einem direkten (perfekten) Zusammenhang
stehen, können ihre Effekte nicht voneinander separiert werden.
I X-Variablen dürfen keine linearen Kombinationen von anderen
X-Variablen sein.
I Beispiel: Das Alter und das Geburtsjahr sind linear voneinander
abhängig, daher können die Einflüsse von Geburtskohorte und Alter
nicht gleichzeitig geschätzt werden.
I Stata Example 17 (OLS regression II.do)

403 / 425
Annahmen der OLS-Regression:
4. Annahme

I Annahme 4 wird als die Exogenitätsannahme bezeichnet. Sie stellt


sicher, dass die Parameter (α, β1 , . . . , βm ) unverzerrt geschätzt
werden.
I Eine Verzerrung meint hier, dass die Parameter systematisch falsch
geschätzt werden, d.h. der Erwartungswert der Stichprobenverteilung
ist nicht mehr identisch mit dem wahren Wert.
I Die Exogenitätsannahme besagt, dass der Fehlerterm ei unabhängig (=
unkorreliert) von den X -Variablen ist.
I Klausurrelevant!

404 / 425
Die Exogenitätsannahme
I Wann wird die Exogenitätsannahme verletzt?
I In der GG gelte der Zusammenhang (1)

y i = α + β1 x 1 + β2 x 2 + i

, mit rX1 X2 > 0, rX1 i = 0 und rX2 i = 0 (i unkorreliert mit x1 und x2 )
I Geschätzt wird das Modell (2)

yi = α̂ + βˆ1 x1 + êi
I Wie sieht der Fehlerterm (êi ) des geschätzten Modells (2) aus?
êi = i + β2 x2 (der Fehler êi enthält den ignorierten Effekt)
I Da in der GG (1) eine Korrelation zwischen x1 und x2 besteht
(rX1 X2 > 0), muss der Fehler im geschätzten Modell (êi ) mit x1
korrelieren.
I Werden relevante Variablen, die mit den X-Variablen im Modell
korrelieren, ignoriert, ist die Exogenitätsannahme verletzt. Es kommt
zu einer Verzerrung der geschätzten Effekte.
405 / 425
Wiederholung:
Kategoriale unabhängige Variablen

I OLS-Regression setzt metrisch skalierte Variablen voraus.


I Problem: Viele Variablen sind kategorial (z.B. Geschlecht, soziale
Klasse, Parteipräferenz, Bildungsabschlüsse, etc.). Wie lassen diese
Variablen sich in das OLS-Verfahren integrieren?
I Durch die Verwendung von Dummy-Variablen, d.h. 0/1-kodierten
Indikatoren für das Vorliegen einer Eigenschaft/ eines Wertes.

Tabelle 68: Minimalbeispiel Dummy-Kodierung (dichotome Ursprungsvariable)

i Gechlecht (original) Dummy Frau


1 Männlich [2] 0
2 Weiblich [1] 1
3 Weiblich [1] 1
4 Männlich [2] 0
406 / 425
Wiederholung:
Kategoriale unabhängige Variablen

I Dummy-Kodierungen können für topologisch skalierte unabhängige


Variablen verwendet werden.
I Dies funktioniert auch mit polytomen Variablen:

Tabelle 69: Dummy-Kodierung bei polytomen Variablen


i Schulabschluss Haupt Real Abi
1 Abitur [3] 0 0 1
2 Realschule [2] 0 1 0
3 Abitur [3] 0 0 1
4 Hauptschule [1] 1 0 0

407 / 425
Wiederholung:
Kategoriale unabhängige Variablen

I Wenn eine unabhängige Variable k Ausprägungen hat, werden k − 1


Dummies in die Regressionsfunktion aufgenommen. Warum?
I Beispiel: Drei Schulabschlüsse (siehe Tabelle 69)
I Funktion mit drei Dummies:

yˆi = α + β1 Haupt + β2 Real + β3 Abi

I Die drei Dummies Haupt, Real und Abi sind linear voneinander
abhängig (Haupt = 1 − Real − Abi)
I Das Modell ist daher nicht identifiziert (siehe Annahme 3)

408 / 425
Wiederholung:
Kategoriale unabhängige Variablen

I Wenn eine unabhängige Variable k Ausprägungen hat, werden k − 1


Dummies in die Regressionsfunktion aufgenommen. Warum?
I Beispiel: Drei Schulabschlüsse (siehe Tabelle 69)
I Funktion mit zwei Dummies:

ŷi = α + β1 Real + β2 Abi

I Dieses Modell ist identifiziert


I α gibt nun den (Mittel-)Wert für die weggelassene Ausprägung an
(diese wird auch als Referenzkategorie).
I β1 und β2 geben die Differenz zur Referenzkategorie an.
I Stata Example 18 (OLS regression II.do)

409 / 425
Lineare und nicht-lineare Effekte
I Beispiel: Wie hängt der Bruttostundenlohn (y ) von der
Berufserfahrung (x1 ) ab?
ŷi = α + β1 x1i

Abbildung 84: Linearer Effekt von x1 auf y


60 40
Bruttostundenlohn
20 0

0 10 20 30 40 50
Berufserfahrung

410 / 425
Lineare und nicht-lineare Effekte
I Ist der Zusammenhang linear?
I Steigt das Einkommen mit zunehmender Erfahrung immer weiter um
den gleichen Betrag?

Abbildung 85: Nicht-linearer Effekt von x1 auf y ?


60 40
Bruttostundenlohn
20 0

0 10 20 30 40 50
Berufserfahrung
411 / 425
Lineare und nicht-lineare Effekte
I Wie sieht eine nicht-lineare Funktion aus?
ŷi = α + β1 x1i + β2 x1i2

Abbildung 86: Nicht-linearer Effekt von x1 auf y ?


60 40
Bruttostundenlohn
20 0

0 10 20 30 40 50
Berufserfahrung

412 / 425
Nicht-linearer Effekte

I Quadratische Zusammenhänge können durch folgende


Regressionsfunktion geschätzt werden:

ŷi = α + β1 x1i + β2 x1i2

I Stata Example 19 (graphics lecture12.do)


I Beispiel: Zusammenhang zwischen Berufserfahrung und Stundenlohn
------------------------------------------------------------
hwage | Coef. Std. Err. t P>|t|
----------------+-------------------------------------------
exper | .5760063 .1476627 3.90 0.000
c.exper#c.exper | -.0091468 .0036946 -2.48 0.014
_cons | 9.372831 1.210257 7.74 0.000
------------------------------------------------------------

ˆ i = 9, 373 + 0, 576 · exper − 0, 009 · exper 2


hwage

413 / 425
Modellierung eines quadratischen
Zusammenhangs

I Modellierung eines quadratischen Effektes von X auf Y :

ŷi = α + β1 x1i + β2 x1i2

I Die (partielle) Ableitung einer Funktion gibt die Steigung der


Funktion:
δy
= β1 + 2β2 x1
δx1
I Im Minimum /Maximum ist die Steigung gleich null:

!
β1 + 2β2 x1 = 0
⇔ 2β2 x1 = −β1
−β1
⇔ x1 =
2β2
414 / 425
Modellierung eines quadratischen
Zusammenhangs

I Im Beispiel (Effekt der Erfahrung auf den Stundenlohn):


I Geschätzte Funktion:

ˆ i = 9, 373 + 0, 576 · exper − 0, 009 · exper 2


hwage

I Ableitung:
δhwage
= 0, 576 − 2 · 0, 009exper
δexper
I Wenn β2 negativ ist, hat die Funktion ein Maximum:

−0, 576
x1 = = 32
−2 · 0, 009
I Anmerkung: Wenn β2 positiv ist, hat die Funktion ein Minimum

415 / 425
Kurzübung 12

Kurzübung zu quadratischen Efekten Stata Example 20


Die abhängige Variable der Regression ist Lebenszufriedenheit (11er
Skala). Geschätzt wird ein quadratischer Effekt des Alters. Bestimmen Sie
den Extremwert der Funktion (alle Nochkommastellen nutzen)?
. reg stflife c.age##c.age
Source | SS df MS Number of obs = 2,844
-------------+---------------------------------- F(2, 2841) = 13.85
Model | 110.892878 2 55.446439 Prob > F = 0.0000
Residual | 11372.7116 2,841 4.00306637 R-squared = 0.0097
-------------+---------------------------------- Adj R-squared = 0.0090
Total | 11483.6044 2,843 4.03925587 Root MSE = 2.0008
------------------------------------------------------------------------------
stflife | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | -.0540056 .0104271 -5.18 0.000 -.0744511 -.0335602
c.age#c.age | .0005207 .0001063 4.90 0.000 .0003123 .0007292
_cons | 8.738258 .2345421 37.26 0.000 8.278368 9.198149
------------------------------------------------------------------------------
Quelle: ESS 8, Edition 1.0.
416 / 425
Multiplikative Effekte: Ein Beispiel
I Beispiel: Wie hängt das Körpergewicht in kg (Y ) von der Größe in
cm (X ) ab?

120
100 Abbildung 87: Körpergröße und Gewicht
Gewicht in kg
80 60
40

140 160 180 200


Größe in cm

417 / 425
Multiplikative Effekte: Ein Beispiel

I Ist der Zusammenhang für Männer und Frauen gleich?

Abbildung 88: Körpergröße und Gewicht bei Männern und Frauen


120
100
Gewicht in kg
80 60
40

140 160 180 200


Größe in cm

Männer Frauen

418 / 425
Multiplikative Effekte: Ein Beispiel

I Funktion mit multiplikativen Effekten (sog. Interaktionseffekt):

ŷi = α + β1 x1i + β2 x2i + β3 x1i x2i

I Stata Example 21 (graphics lecture12.do)


I Beispiel: Zusammenhang zwischen Gewicht und Körpergröße
----------------------------------------------------------
weight | Coef. Std. Err. t P>|t|
-----------------+----------------------------------------
female | 98.51427 40.42893 2.44 0.016
height | 1.08353 .1597487 6.78 0.000
female#c.height | -.6058846 .2395528 -2.53 0.012
_cons | -110.9056 28.15229 -3.94 0.000
----------------------------------------------------------

ˆ i = −110, 91+98, 51·female+1, 08·height −0, 61·female·height


weight

419 / 425
Ableitung bei Interaktionseffekten

I Die partielle Ableitung nach x1 oder x2 gibt den Effekt der jeweiligen
Variablen:
I Im Beispiel (Gewicht und Körpergröße):
I Geschätzte Funktion:
ˆ i = −110, 91+98, 51·female +1, 08·height −0, 61·female ·height
weight
I Ableitung nach height:
δweight
= 1, 08 − 0, 61 · female
δheight
I Effekt von height für Männer:
δweight
= 1, 08 − 0, 61 · 0 = 1, 08
δheight
I Effekt von height für Frauen:
δweight
= 1, 08 − 0, 61 · 1 = 0, 47
δheight
420 / 425
Ableitung bei Interaktionseffekten

I Die partielle Ableitung nach x1 oder x2 gibt den Effekt der jeweiligen
Variablen:
I Im Beispiel (Gewicht und Körpergröße):
I Geschätzte Funktion:

ˆ i = −110, 91+98, 51·female +1, 08·height −0, 61·female ·height


weight

I Ableitung nach female:

δweight
= 98, 51 − 0, 61 · height
δfemale

421 / 425
Interaktionseffekte - formale Darstellung

I Durch die Verwendung von multiplikativen Termen, wird der Effekt


der beteiligten Variablen abhängig von der jeweils anderen Variablen:

ŷi = α + β1 x1i + β2 x2i + β3 x1i x2i

I Ableitungen:
δy
= β1 + β3 x2i
δx1
δy
= β2 + β3 x1i
δx2
I Dabei können x1 und /oder x2 Dummy-Variablen oder
metrisch-skaliert sein

422 / 425
Kurzübung 13

Kurzübung zu Interaktionseffekten Stata Example 22


Die abhängige Variable der Regression ist der Bruttostundenlohn.
Modelliert wird eine Interaktion zwischen Geschlecht und Erfahrung. Wie
ist der Effekt der Erfahrung für Frauen und Männer?
reg hwage c.expft09##i.female

* ANOVA und Model-Fit-Block werden nicht gezeigt *

--------------------------------------------------------------------------------
hwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------------+----------------------------------------------------------------
exper | .2715233 .0130078 20.87 0.000 .2460256 .2970209
female | -.5680567 .3962926 -1.43 0.152 -1.344862 .2087485
female#c.exper | -.0935167 .0202621 -4.62 0.000 -.1332341 -.0537993
_cons | 11.62012 .3061133 37.96 0.000 11.02008 12.22016
--------------------------------------------------------------------------------
Quelle: SOEP 2009.

423 / 425
Zusammenfassung: Regressionsanalysen

I Die Schätzung unverzerrter Effekte setzt voraus, dass das Modell


richtig spezifiziert wurde (Exogenitätsannahme).
I Nicht-lineare Effekte können durch die Verwendung von
quadratischen Termen geschätzt werden.
I Interaktionseffekte können durch die Verwendung von multiplikativen
Termen geschätzt werden.
I Zur Interpretation von quadratischen und multiplikativen Effekten
werden partielle Ableitungen benötigt.
I Nicht-lineare und quadratische Effekte sind nicht klausurrelevant.

424 / 425
Literatur

I Keine weitere Literatur.

425 / 425

Das könnte Ihnen auch gefallen