Sie sind auf Seite 1von 229

Einführung in die sozialwissenschaftliche Statistik

Einführung: Warum Statistik?

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#1
(17.10.2018)

1 / 207
Statistik ist sexy

I I keep saying the sexy job in the next ten years will be

statistician.“(Hal Varian, Chefökonom bei google)
I The alternative to good statistics is not no statistics, it’s bad

statistics.“(Bill James, Baseballstatistiker)

2 / 207
Wofür brauchen wir Statistik?

I Wozu brauchen wir Statistik?


I Um die Welt zu verbessern!
I Um Geld zu verdienen!
I Um Spaß zu haben!
I Um die wissenschaftliche Neugier zu stillen!

3 / 207
Um die Welt zu verbessern?!

I Statistik ist in nahezu allen Feldern, die das Wohlergehen der


Menschen betreffen, essentiell. Beispiele:
I Entwicklung von Medikamenten und Diagnoseverfahren
I Klimawandel verstehen, Strategien entwickeln
I Hunger- und Armutsbekämpfung
I Migrationsbewegungen verstehen und Herausforderungen meistern
I (Unfallfreies) autonomes Fahren
I Aber: Statistische Verfahren können auch für fragwürdige Ziele
eingesetzt werden. Beispiele:
I Cambridge Analytica verwendet die Nutzerdaten von Millionen
Facebook-Nutzern um daraus detaillierte Persönlichkeitsprofile zu
erstellen
I Auf Basis dieser Daten werden Nutzer mit individualisierten Strategien
manipuliert (Youtube Video)

4 / 207
Die Welt verbessern?!

I Der weltweite Wohlstand ist in den letzten 200 Jahren extrem


gewachsen.

Abbildung 1: Weltweite Einkommensverteilung, 1800-2015

Quelle: Pinker, S. (2018). Enlightenment Now: The Case for Reason, Science, Humanism, and Progress. Penguin.
5 / 207
Die Welt verbessern?!

I Gleichzeitig wächst die Einkommensungleichheit innerhalb von


Ländern enorm.

Abbildung 2: Einkommensungleichheit in Deutschland, 1991-2013

6 / 207
Die Welt verbessern?!

I Warum wächst Ungleichheit innerhalb von Ländern?


I Welche Stellschrauben stehen uns zur Verfügung?

Abbildung 3: Blau und Duncan’s Status Attainment Model, 1967

Quelle: https://dspace.library.uu.nl/bitstream/handle/1874/802/image2.gif
7 / 207
Geld verdienen

I Die Nachfrage nach Statistiker*innen und Datenanalysekenntnissen


steigt enorm.
I Die Gehälter ebenfalls.

8 / 207
Um wissenschaftliche Neugier
zu stillen

I Statistik ist die universelle Sprache der (empirischen) Wissenschaften.


I Wer Statistik (und Methodik im Allgemeinen) beherrscht, kann sicher
durch das breite Feld der Wissenschaften navigieren.
I Statistische und methodische Kenntnisse sind wichtige Werkzeuge des
kritischen Denkens.
I Welche empirische Evidenz für Aussage A ist überzeugend?
I Was können alternative Erklärungen für A sein?
I Welche empirische Evidenz würde meine Meinung zu B ändern?

9 / 207
Was kann Statistik?

I Daten beschreiben: Welche Eigenschaften haben die vorliegenden


Daten?
I Statistik erlaubt die Beschreibung der Eigenschaften von Daten
I Dabei werden die Informationen in den Daten reduziert und somit
verdichtet
I Schlüsse aus Daten ziehen: Was kann aus den vorliegenden Daten
geschlussfolgert werden?
I Generalisierung von Eigenschaften auf Population; Zukunftsprognosen
I Testen von theoretisch hergeleiteten Hypothesen
I Statistische Theorie beeinflusst den Datenerhebungsprozess: Wie
müssen Daten erhoben werden, um daraus Schlussfolgerungen ziehen
zu können?
I Stichprobentheorie definiert, wie Daten erhoben werden müssen, um
generalisieren zu können
I Zusammenspiel aus Theorie und Statistik beeinflusst die Wahl des
Forschungsdesigns

10 / 207
Deskriptive und Inferenzstatistik

I Die Beschreibung einer gegebenen Menge von Daten mit Hilfe


statistischer Verfahren wird auch als deskriptive Statistik bezeichnet.
I Die schließende Statistik wird auch als Inferenzstatistik bezeichnet.
I Inferenzstatistik, die Sie alle kennen:
Wenn am nächsten Sonntag Landtagswahl in Hessen wäre, welche

Partei würden Sie wählen?“
I Ein Umfrageinstitut befragt 1.000 Personen. Das Berichten der
Ergebnisse ist dabei grundsätzlich deskriptiver Natur. Das statistische
Verfahren ist in diesem Fall eine (relative) Häufigkeitsauszählung.
I Das Erstellen einer Wahlprognose für die tatsächliche Landtagswahl
(d.h. die Schlussfolgerung über das Wahlverhalten von ca. 4,4
Millionen Wahlberechtigten auf Basis der Stichprobe von 1.000
Wähler*innen) ist dagegen Inferenzstatistik.
I Wir probieren das mal aus! Gehen Sie nochmals zu menti.com und
verwenden Sie den Code 16 05 63.

11 / 207
Statistik im Forschungsprozess

Abbildung 4: Der Forschungsprozess im Überblick

Quelle: Nach Jann (2005), S. 2.

12 / 207
Statistik im Forschungsprozess

Abbildung 5: Statistik im Forschungsprozess

Quelle: Nach Jann (2005), S. 2.

13 / 207
Vorlesungsinhalt

1. Einführung
2. Grundlagen der Statistik
3. Deskriptive Statistik
3.1 Univariate Deskription
3.2 Bivariate Deskription/ Zusammenhangsmaße
4. Schließende Statistik/ Inferenzstatistik
4.1 Grundlagen
4.2 Schätzen
4.3 Testen
5. Lineare Regressionsanalysen

14 / 207
Ablauf

I Zwei Sitzungen pro Woche


I Erste Sitzung hat Vorlesungscharakter
I Formale statistische Theorie
I Anwendungsbeispiele
I Kurzübungen
I Stata-Beispiele
I Zweite Sitzung hat Übungscharakter
I Wiederholung des Vorlesungsstoffes anhand von praktischen Beispielen
I Raum für Nachfragen und Diskussionen
I Übungsaufgaben
I Ggf. werden Teile der Übungen auch für Vorlesungen verwendet.

15 / 207
Terminplan

Tabelle 1: Vorlesungstermine für Statistik I und Statistik II


Nr. Datum Themenblock Inhalt
1 17.10. Einführung Einführung, Organisatorisches
2 24.10. Grundlagen Grundbegriffe, Messskalen
3 31.10. Deskriptive Statistik Häufigkeitsverteilungen
4 07.11. Lagemaße
5 14.11. Lage- und Streuungsmaße
6 21.11. Konzentrationsmaße
7 28.11. Kreuztabellen
8 05.12. Kovarianz und Korrelation
9 12.12. Inferenzstatistik Grundlagen, Zufallsvariablen
10 19.12. Schätzen
11 16.01. Testen
12 23.01. Lineare Regression Grundlagen
13 30.01. Interaktionseffekte
14 06.02. Abschluss Wiederholung/ offene Fragen
15 13.02. Klausur
16 / 207
Zeiten und Räume

I Einführung in die Statistik I


I Vorlesung: Mittwoch, 14-16 Uhr. Raum: HZ 6
I Übung: Mittwoch, 16-18 Uhr. Raum: HZ 6
I Einführung in die Statistik II
I Vorlesung: Mittwoch, 12-14 Uhr. Raum: HZ 3
I Übung: Mittwoch (!), 18-20 Uhr. Raum: HZ 3
I Die Vorlesungsinhalte sind identisch. In Ausnahmefällen können Sie
zwischen den Vorlesungen wechseln.

17 / 207
Veranstaltungsbegleitende Tutorien

I Insgesamt gibt es 8 veranstaltungsbegleitende Tutorien.


I Beginn ab Montag der dritten Vorlesungswoche (ab 29.10.).
Besprochen werden jeweils die Übungsaufgaben der vorherigen Woche.
I Wiederholung der Vorlesungsinhalte
I Raum für Nachfragen und Diskussionen
I Übungsaufgaben in offener Form
I Übungsaufgaben im Klausurformat (Multiple Choice)
I Der Besuch eines Tutoriums wird dringend empfohlen.
I Bitte melden Sie sich zu einem der Tutorien über OLAT an.
I Hierzu finden Sie in OLAT Gruppen“für alle Tutorien

I Zulassungvoraussetzung für die Klausur ist die Teilnahme an zwei
Probeklausuren (e-Klausuren, genaueres später).

18 / 207
Tutorien - wann, wo und mit wem?

Tabelle 2: Veranstaltungsbegleitende Tutorien


Wochentag Uhrzeit Raum Max. Pers. TutorIn
Montag 12-14 Uhr SH 1.105 50 Herr Taylor
Montag 16-18 Uhr SH 4.105 50 Herr Taylor
Dienstag 10-12 Uhr SP 1.01 60 Herr Sevenich
Dienstag 16-18 Uhr NM 120 40 Herr Goldschmidt
Mittwoch 10-12 Uhr SH 3.107 55 Herr Sevenich
Donnerstag 14-16 Uhr SH 1.101 75 Herr Cho
Donnerstag 16-18 Uhr SH 3.109 65 Herr Cho
Freitag 10-12 Uhr NM 112 40 Herr Goldschmidt

19 / 207
Klausur - wann, wo und wie?

I Die Klausur findet in der letzten Vorlesungswoche statt und wird als
e-Klausur geschrieben.
I Der genaue Termin und Raum wird noch bekanntgegeben.
I Die Klausur dauert 90 Minuten.
I Zulassungsvoraussetzung: Teilnahme an zwei Probeklausuren.
I Erlaubte Hilfsmittel:
I Taschenrechner (Handy ist in der Klausur nicht erlaubt!)
I Formelsammlung zur Vorlesung
I Die Klausur wird im Multiple-Choice Format geschrieben.
I Vier Antwortalternativen, von denen immer eine richtig ist.
I Für jede richtige Antwort gibt es einen Punkt.
I Insgesamt 45 Fragen, d.h. durchschnittlich 2 Minuten pro Frage.
I Die Klausur ist ab 23 Punkten bestanden (siehe Bewertungsschema auf
nächster Seite).

20 / 207
Bewertungsschema der Klausur

Tabelle 3: Bewertungsschema der Klausur


Punkte Bewertung Note
≤22 5,0 nicht ausreichend
23-24 4,0 ausreichend
25-26 3,7 ausreichend
27-28 3,3 befriedigend
29-30 3,0 befriedigend
31-32 2,7 befriedigend
33-34 2,3 gut
35-37 2,0 gut
38-40 1,7 gut
41-43 1,3 sehr gut
44-45 1,0 sehr gut

21 / 207
Klausur - Beispiele

1. Der Modus einer Verteilung entspricht. . .


O dem Wert mit den kleinsten absoluten Abständen zu allen Daten.
O dem Wert mit den kleinsten Abstandsquadraten zu allen Daten.
O dem Wert mit der größten Häufigkeit.
O dem Wert, der sich durch eine Teilung der Daten in der Mitte ergibt.
2. Bestimmen Sie den Modus der folgenden geordneten Urliste: 1, 1, 2,
2, 2, 3, 3, 3, 3, 4, 4, 5, 6.
O 3
O 2
O 2,8
O 4

22 / 207
Klausur - Beispiele mit Lösung

1. Der Modus einer Verteilung entspricht. . .


O dem Wert mit den kleinsten absoluten Abständen zu allen Daten.
O dem Wert mit den kleinsten Abstandsquadraten zu allen Daten.
X dem Wert mit der größten Häufigkeit.
O dem Wert, der sich durch eine Teilung der Daten in der Mitte ergibt.
2. Bestimmen Sie den Modus der folgenden geordneten Urliste: 1, 1, 2,
2, 2, 3, 3, 3, 3, 4, 4, 5, 6.
X 3
O 2
O 2,8
O 4

22 / 207
Materialien

I Alle Materialien finden Sie in OLAT (hier oder über die Navigation
FB03>Ihr Studiengang>Statistik/Forschungskompetenzen 1)
I Foliensatz (Vorlesung)
I Übungsblätter und -lösungen
I Formelsammlung
I Zip-Ordner mit Stata-Beispielen.
I Achtung! Die Materialien werden regelmäßig aktualisiert.
I Post-lecture-Versionen vergangener Vorlesungen (mit Lösungen der
Kurzübungen)
I Fehlende Folien
I Bitte vor dem Drucken nachdenken!
I OLAT-Link ausgeschrieben: https://olat-ce.server.uni-
frankfurt.de/olat/auth/RepositoryEntry/6437044234

23 / 207
Literatur

I Vorlesungsbegleitendes Buch (verpflichtend):


I Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg.
I Verfügbar als eBook in der Bibliothek (hier)
I Daneben Verweise auf freiwillige Zusatzliteratur:
I Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer.
I Bortz & Schuster (2010): Statistik für Human- und
Sozialwissenschaftler. 7. Auflage. Berlin/ Heidelberg: Springer.
I Beide als eBook in der Bibliothek verfügbar (hier und hier)

24 / 207
Einführung in die sozialwissenschaftliche Statistik
Grundbegriffe und Skalenniveaus

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#2
(24.10.2018)

25 / 207
Tutorien - wann, wo und mit wem?

Tabelle 4: Veranstaltungsbegleitende Tutorien - Raumwechsel

Wochentag Uhrzeit Raum Max. Pers. TutorIn


Montag 12-14 Uhr SH 1.105 50 Herr Taylor
Montag 16-18 Uhr SH 4.105 50 Herr Taylor
Dienstag 10-12 Uhr PEG 1G.191 60 Herr Sevenich
Dienstag 16-18 Uhr NM 120 40 Herr Goldschmidt
Mittwoch 10-12 Uhr SH 3.107 55 Herr Sevenich
Donnerstag 14-16 Uhr SH 1.101 75 Herr Cho
Donnerstag 16-18 Uhr SH 3.109 65 Herr Cho
Freitag 10-12 Uhr NM 112 40 Herr Goldschmidt

25 / 207
Untersuchungseinheiten und
Grundgesamtheit

I Untersuchungseinheiten: Objekte, über die Daten erhoben werden.


Beispiel: Individuen, Nationen, Organisationen, Firmen, Städte, etc.
I Grundgesamtheit: Menge aller Untersuchungseinheiten, über die
Aussagen getroffen werden sollen. Die Grundgesamtheit (GG) ist vor
einer Untersuchung festzulegen.
Beispiel: Student*innen an der Goethe Universität; alle Personen mit
deutscher Staatsbürgerschaft; alle europäischen Länder; alle
erwachsenen Personen, die in Deutschland in einem Privathaushalt
wohnen.
I Teilgesamtheit/ Teilpopulation: Teilmenge der Grundgesamtheit.

26 / 207
Stichprobe
I Stichprobe (oder Auswahl/ Sample): Teilmenge der Grundgesamtheit,
über die Daten gesammelt wird.
I Die Verwendung von Stichproben (Teilerhebungen) ist in den
Sozialwissenschaften üblich; typischerweise aus pragmatischen
Gründen.
Beispiel: Wahlprognose auf Basis einer Stichprobe von 1.000 Wählern.
I In anderen Fällen ist die Teilerhebung zwingend erforderlich.
Beispiel: Crashtests bei PKWs.

Abbildung 6: Grundgesamtheit und Stichprobe

27 / 207
Stichprobe

I Stichproben sollen möglichst getreue Abbildungen der


Grundgesamtheit darstellen.
I Eine getreue Abbildung der GG nennt man unverzerrte oder
repräsentative Stichprobe.
I Sind bestimmte Merkmale in der Stichprobe über- oder
unterproportional vertreten, spricht man von einer verzerrten
Stichprobe.
I Eine unverzerrte Stichprobe erreicht man am besten durch eine
Zufallsstichprobe aus der GG.
I Mehr dazu im Themenkomplex Inferenzstatistik.

28 / 207
Variablen/ Merkmale

I Untersuchungseinheiten weisen Eigenschaften bzw. Merkmale auf.


Beispiele:
I Individuen: Geschlecht, Körpergröße, Einkommen, höchster
Bildungsabschluss, Arbeitsmarktstatus
I Nationen: BIP, Sozialausgaben, Staatsform
I Eine statistische Variable ist die nummerische Repräsentation eines
Merkmals.
I Symbole: X , Y , Z , oder ...
I ...bei sehr vielen Variablen Xj = X1 , X2 , X3 , . . . , Xm ,
wobei m die Zahl der (vorliegenden/ verwendeten) Variablen ist.

29 / 207
Merkmalsausprägungen und
empirische Werte

I Variablen können mehrere Werte oder Ausprägungen annehmen.


I Die Summe aller möglichen Ausprägungen stellt den sogenannten
Merkmalsraum einer Variablen dar.
I Symbole: aj , bj , mit j = 1, .., k
I k: Zahl der Ausprägungen
I Von den möglichen Merkmalsausprägungen werden die tatsächlich
gemessenen Werte unterschieden.
Beispiel: Die Variable Temperatur in ◦ C kann theoretisch Werte
zwischen −273, 15◦ C und ∞◦ C annehmen. In einer
Temperaturmessung in drei Städten Deutschlands wurden die Werte
21, 4◦ C, 22, 5◦ C und 22, 8◦ C gemessen.
I Symbole: xi , yi , zi , oder ...
I x1i , x2i , . . . , xmi , mit i = 1, . . . , n
I n: Zahl der beobachteten Untersuchungseinheiten
I m: Zahl der beobachteten/ verwendeten Variablen
30 / 207
Die Datenmatrix

I Untersuchungseinheiten sind in Zeilen angeordnet (eine Zeile pro


Untersuchungseinheit).
I Variablen sind in Spalten angeordnet (typischerweise eine Spalte pro
Variable).
I Zellen enthalten die beobachteten Werte.

Tabelle 5: Struktur einer Datenmatrix


Variable 1 Variable 2 ... Variable m
Untersuchungseinheit 1
Untersuchungseinheit 2
..
.
Untersuchungseinheit n

31 / 207
Die Datenmatrix: Ein Beispiel

I Untersuchungseinheiten sind in Zeilen angeordnet (eine Zeile pro


Untersuchungseinheit).
I Variablen sind in Spalten angeordnet (typischerweise eine Spalte pro
Variable).
I Zellen enthalten die beobachteten Werte.

Tabelle 6: Struktur einer Datenmatrix - Ein Beispiel


Name Age Instrument ... Gender
Mick 75 vocals male
Keith 74 guitar male
Charlie 77 drums male
Ron 71 guitar male

32 / 207
Die Datenmatrix: Nummerische
Kodierung

I Computer und (erfahrene) Anwender mögen Zahlen lieber als Wörter.


I Qualitative/ kategoriale Variablen werden daher nummerisch kodiert.
I Ein sogenanntes Codebook gibt die Zuordnung von Merkmalen und
nummerischen Werten an.
Beispiel:
I Instrument: 1=vocals, 2=guitar, 3=drums
I Gender: 1=female, 2=male

Tabelle 7: Nummerische Kodierung von qualitativen Variablen


ID Age Instrument ... Gender
1 75 1 2
2 74 2 2
3 77 3 2
4 71 2 2
33 / 207
Die Datenmatrix - Abstrakte
Darstellung

I Untersuchungseinheiten i = 1, . . . , n sind in Zeilen angeordnet (eine


Zeile pro Untersuchungseinheit).
I Variablen sind in m Spalten angeordnet (typischerweise eine Spalte
pro Variable).
I Zellen enthalten die beobachteten Werte.

Tabelle 8: Struktur einer Datenmatrix


i x1i x2i ... xmi
1 x11 x21 ... xm1
2 x12 x22 ... xm2
.. .. .. ..
. . . ... .
n x1n x2n ... xmn

34 / 207
Die Datenmatrix - Nachträgliche
Anmerkung

I Die Darstellung dieser Datenmatrix weicht von der Darstellung im


Lehrbuch (Jann, 2005: S. 11) ab.
I Jann folgt der allgemeinen Konvention, dass in Tabellen zuerst die
Zeile und dann die Spalte indiziert wird.
I Entsprechend dieser Konvention, werden wir später auch die Zellen
einer Kreuztabelle benennen.

Tabelle 9: Struktur einer Datenmatrix bei Jann (2005: S. 11)

i x1i x2i ... xmi


1 x11 x12 ... x1m
2 x21 x22 ... x2m
.. .. .. ..
. . . ... .
n xn1 xn2 ... xnm
34 / 207
Die Datenmatrix - Nachträgliche
Anmerkung

I Wir folgen in der Darstellung der Datenmatrix einer anderen


(sinnvolleren) Konvention.
I Variablen können als x , y und z bezeichnet werden. Mit Index für die
Beobachtungen ergibt sich dann: xi , yi und zi , der Index i wird also
an die Bezeichnung der Variable angehängt.
I Werden Variablen nicht als x , y und z, sondern als x1 , x2 und x3
bezeichnet, so wird dieser Index Bestandteil der eigentlichen
Variablenbezeichnung und der Index i entsprechend hinten
angehängt: x1i , x2i und x3i .
I Anmerkung für Klausur:
I Für die Klausur ist dieser Unterschied in der Notation nicht relevant.
Wir werden im Folgenden lediglich mit den Variablenbezeichnungen x ,
y und z arbeiten.
I Es wird keine Fragen geben, die sich auf die Indizierung der Zellen
einer Datenmatrix beziehen.
34 / 207
Kurzübung 1

Kurzübung zur Datenmatrix


Unten sehen Sie drei ausgefüllte Fragebögen, übertragen sie die Informationen in eine
Datenmatrix!

ID = 1 ID = 2 ID = 3
1. Welches Geschlecht 1. Welches Geschlecht 1. Welches Geschlecht
haben Sie? haben Sie? haben Sie?
O männlich X männlich X männlich
X weiblich O weiblich O weiblich
2. Welche Partei haben 2. Welche Partei haben 2. Welche Partei haben
Sie gewählt? Sie gewählt? Sie gewählt?
O CDU X CDU O CDU
O SPD O SPD X SPD
O Linke O Linke O Linke
X Grüne O Grüne O Grüne
O FDP O FDP O FDP
3. Wie alt sind Sie? 3. Wie alt sind Sie? 3. Wie alt sind Sie?
24 Jahre. 48 Jahre. 31 Jahre.

35 / 207
Kurzübung 1 - Lösung

Tabelle 10: Datenmatrix mit Strings für qualitative Variablen


ID Geschlecht Partei Alter
1 weiblich Grüne 24
2 männlich CDU 48
3 männlich SPD 31

35 / 207
Kurzübung 1 - Lösung

Tabelle 11: Datenmatrix mit nummerischer Kodierung


ID Geschlecht Partei Alter
1 2 4 24
2 1 1 48
3 1 2 31

Codebook:
I Geschlecht: 1=männlich, 2=weiblich
I Partei: 1=CDU, 2=SPD, 3=Linke, 4=Grüne, 5=FDP

35 / 207
Die Datenmatrix in der Praxis

I Außer bei der expliziten Analyse von Texten, werden fast


ausschließlich nummerische Kodierungen verwendet.
I Statistiksoftware erlaubt die Vergabe von sogenannten Labels.
I Labels sind Zeichenfolgen (Wörter), die nummerischen Kodierungen
zugeordnet sind.
I Stata Example 1 (datamatrix.do)

36 / 207
Diskrete und stetige Variablen

I Diskrete Variablen können nur eine abzählbare Zahl von


Ausprägungen annehmen (abzählbar unendlich oder endlich viele)
Beispiele:
I Individuen: Schulnoten, Wohnort, Zahl der Kinder, Parteipräferenz
I Nationen: Zahl der Handelsverträge, Staatsform, Einwohnerzahl
I Stetige Variablen können unendlich viele Werte innerhalb eines
Intervalls annehmen; d.h. es gibt unendlich viele feine Abstufungen.
Beispiele:
I Individuen: Körpergröße, Körpertemperatur, Gewicht, Blutmenge
I Nationen: Fläche, Durchschnittstemperatur
I Quasi-stetige Variablen sind von Natur aus stetig, aber nur diskret
gemessen.
Beispiele:
I Individuen: Alter wird oft in Jahren abgefragt, allenfalls in Tagen.
I Nationen: Fläche wird in Quadratkilometern angegeben, mit zwei oder
drei, aber nicht mehr Nachkommastellen.

37 / 207
Quantitative und qualitative Variablen

I Quantitative Variablen erfassen Quantitäten (Ausmaße/ Intensitäten).


Quantitative Variablen lassen sich immer der Größe nach ordnen.
Beispiele:
I Individuen: Einkommen, Zahl der Kinder, Schulnoten
I Nationen: Bruttoinlandsprodukt (BIP), Sozialausgaben in % des BIP,
Zahl der Olympiamedaillen
I Qualitative Variablen erfassen Qualitäten und keine Ausmaße.
Qualitative Variablen haben keine inhärente Ordnung.
Beispiele:
I Individuen: Parteipräferenz, Augenfarbe, Lieblingsband
I Nationen: Nachbarländer, Staatsform, Name des Staatsoberhauptes

38 / 207
Dichotome und polytome Variablen

I Dichotome Variablen haben zwei Ausprägungen.


Beispiele:
I Individuen: biologisches Geschlecht, arbeitslos (ja/nein), Beteiligung
bei der letzten Wahl (ja/nein)
I Nationen: Krieg oder Frieden, Demokratie (ja/nein), UN-Mitglied
(ja/nein)
I Polytome Variablen können mehr als zwei Ausprägungen annehmen.
Beispiele:
I Individuen: Parteipräferenz, Bildungsabschluss, Einkommen
I Nationen: Staatsform, BIP, Zahl der Kriege seit 1945

39 / 207
Manifeste und latente Variablen

I Manifeste Variablen können direkt gemessen/ beobachtet werden.


Beispiele:
I Individuen: Körpergröße, Körpertemperatur, Zahl der Kinder,
Einkommen, Arbeitsmarktstatus
I Nationen: Einwohnerzahl, BIP, Zahl der Kriege seit 1945, Zahl der
Parteien im Parlament
I Latente Variablen lassen sich nicht direkt beobachten. Sie müssen
über Indikatoren gemessen werden.
Beispiele:
I Individuen: Ausländerfeindlichkeit, Lebenszufriedenheit, Intelligenz
I Nationen: Pressefreiheit, Nationalismus, sozialstaatliche Generösität,
Aggression gegen andere Staaten

40 / 207
Messen

I Messen ist die Zuordnung von Zahlen zu Objekten gemäß



festgelegten Regeln“(Stevens 1946, zitiert nach Jann 2005: 13).
I Bei quantitativen Variablen weisen die Messwerte Relationen
zueinander auf, die den beobachteten Relationen entsprechen (sollen),
d.h. die empirische Relation wird in eine nummerische Relation
übertragen.
Beispiele:
I Einfach: Messung von Einkommen, Körpergröße, Körpertemperatur
oder Zahl der Kinder
I Schwieriger: Intelligenz, Ausländerfeindlichkeit, Parteiidentifikation

41 / 207
Skalenniveaus

I Abhängig von der zu messenden Eigenschaft und dem verwendeten


Messinstrument, werden die Messwerte auf unterschiedlichen Skalen
gemessen. Man spricht auch von Skalenniveaus oder -typen.
I Das Skalenniveau entscheidet über den Informationsgehalt der
gemessenen Daten.
I Skalenniveaus:
I Nominalskala
I Ordinalskala
I Intervallskala
I Ratioskala
I Absolutskala

42 / 207
Die Nominalskala

I Die Nominalskala besitzt den geringsten Informationsgehalt.


I Den beobachteten Ausprägungen können beliebige (aber eindeutige)
nummerische Werte zugeordnet werden.
I Beispiel: Parteipräferenz

CDU 1 6 0
SPD 2 5 2
Linke 3 4 20
Grüne 4 3 6
FDP 5 2 8
AfD 6 1 -0.0001

43 / 207
Die Nominalskala

I Andere Beispiele:
I Individuen: Beruf(sbezeichnung), Geburtsland, Ethnie, Lieblingsband,
Geschlecht, Arbeitsmarktstatus, Beteiligung bei der letzten Wahl
(ja/nein)
I Nationen: Staatsform, UN-Mitglied (ja/nein), aktuelle
Regierungskoalition
I Zulässige Interpretation: Miriam und Friedrich haben die gleiche

Partei gewählt, die Grünen; Sascha hat eine andere Partei gewählt,
die AfD.“

44 / 207
Ordinalskala

I Variablen werden auf einer Ordinalskala gemessen, wenn den


Ausprägungen der Variablen eine Rangordnung inhärent ist, wobei nur
der Rang, nicht aber der Abstand zwischen den Rängen festgelegt ist.
I Beispiel: Höchster Bildungsabschluss

Hauptschule 1 0 -8
Realschule 2 5 -7
Fachabitur 3 20 -6
Abitur 4 80 -5
BA 5 81 -4
MA 6 9999 -3

45 / 207
Die Ordinalskala

I Andere Beispiele:
I Individuen: Schulnoten, militärischer Dienstrang, Selbsteinstufung des
Einkommens (niedrig/mittel/hoch)
I Nationen: Platzierung beim Biathlon der Frauen in PyeongChang 2018
I Zulässige Interpretation: Maria ist besser als Peter, denn sie hat eine

Eins, Peter hat nur eine Zwei.“

46 / 207
Intervallskala

I Intervallskalen implizieren eine Rangordnung, erlauben aber zusätzlich


den Vergleich der Abstände zwischen den Ausprägungen. Die
Intervallgröße (Einheit) und der Nullpunkt sind allerdings beliebig.
I Beispiele:
I Eindeutige Intervallskala: Temperatur in ◦ C, Temperatur in ◦ F,
Geburtsjahr
I Ja, aber manchmal strittig: IQ-Test und andere Messinstrumente für
latente Variablen
I Zulässige Interpretation: Vorgestern waren es 15 ◦ C, gestern waren

es 20 ◦ C und heute sind es 25 ◦ C. Der Temperaturanstieg von
vorgestern auf gestern und von gestern auf heute war gleich.“

47 / 207
Ratioskala/Verhältnisskala

I Ratioskalen besitzen zusätzlich zu den Eigenschaften der Intervallskala


einen natürlichen Nullpunkt. Lediglich die Einheiten sind frei wählbar.
I Beispiele:
I Individuen: Lebensalter in Jahren, Lebensalter in Stunden, Einkommen
in $, Einkommen in e
I Nationen: Alter der Demokratie, Fläche in Quadratkilometern, BIP in
1, 000 e, Höhe der Sozialausgaben in Mio. $
I Zulässige Interpretation: Torsten verdient 2,46 mal mehr als

Horst.“ Brasilien ist 24,8 mal so groß wie Deutschland.“

48 / 207
Absolutskala

I Die Absolutskala hat das höchste Skalenniveau.


I Absolutskalen besitzen einen natürlichen Nullpunkt und natürliche
Einheiten.
I Absolute Häufigkeiten werden auf einer Absolutskala gemessen.
Beispiele:
I Individuen: Zahl der Kinder, Zahl der bisherigen Vollzeitstellen
I Nationen: Zahl der Kriege seit 1945, Zahl der Parteien im Parlament
I Wahrscheinlichkeiten werden ebenfalls auf Absolutskalen gemessen.
Beispiel: Wahrscheinlichkeit, im Lotto zu gewinnen
I Zulässige Interpretation wie bei der Ratioskala.

49 / 207
Kurzübung 2

THINK - TALK - SHARE


Think-Talk-Share“-Kurzübungen werden nicht individuell auf Papier

gelöst sondern in der Gruppe diskutiert: 1. Denken Sie kurz nach! 2.
Diskutieren Sie mit ihrem/r Nachbarn/in! 3. Wir diskutieren gemeinsam!

Kurzübung zu Skalenniveaus (Think-Talk-Share)


Welche Skalenniveaus lassen sich den folgenden Merkmalen zuordnen?
I Semesterbeitrag
I Selbsteinstufung Links-Rechtsskala (1-10)
I Zahl der tödlichen Pkw-Unfälle
I Datum der Einschulung
I Studiengang

50 / 207
Kurzübung 2 - Lösung

I Semesterbeitrag: Ratio-/Verhältnisskala
I Selbsteinstufung Links-Rechtsskala (1-10): Ordinalskala
I Zahl der tödlichen Pkw-Unfälle: Absolutskala
I Datum der Einschulung: Intervallskala
I Studiengang: Nominalskala

50 / 207
Skalenniveaus: Informationsgehalt und
sinnvolle Berechnungen

I Je höher das Skalenniveau, desto


I ...größer der Informationsgehalt
I ...mehr Rechenoperationen sind zulässig
I ...eingeschränkter ist die Zahl der zulässigen Transformationen.
Transformationen sind dann zulässig, wenn sie die enthaltenen
Informationen nicht verändern.

Tabelle 12: Sinnvolle Berechnungen nach Skalenniveau


Nominal Ordinal Intervall Ratio/Absolut
Auszählen ja ja ja ja
Ordnen nein ja ja ja
Differenzen bilden nein nein ja ja
Quotienten bilden nein nein nein ja

51 / 207
Skalenniveaus: zulässige
Transformationen und Interpretationen

Tabelle 13: Eigenschaften der Skalenniveaus


Skalenniveau Zulässige Transformation Interpretation
Nominal umkehrbar eindeutige (bi- gleich oder verschie-
jektive) den
Ordinal rangfolgebewahrende y = größer, kleiner oder
f (x ) mit xi > xj → yi > yj gleich
Intervall positiv lineare: y = ax + b Vergleichbarkeit von
mit a > 0 Differenzen
Ratio positiv proportionale: y = Aussagen über
ax mit a > 0 Verhältnisse, prozen-
tuale Vergleiche
Absolut keine bzw. nur iden- wie Ratioskala
titätsbewahrende: y = x
52 / 207
Transformationen: Beispiele

I Intervallskala: Umrechnung von Temperatur


x ◦ C → y ◦ F : 32 + 1, 8 · x ◦ C = y ◦ F
1
x ◦ F → y ◦ C : −32 + · x ◦F = y ◦C
1, 8

I Ratioskala: Umrechnung von Währungen


x e → y $ : 1, 22 · x e = y $
1
x$ → ye : · x$ = ye
1, 22

Währungskurs vom 11.02.2018, 13:39 Uhr.

53 / 207
Topologische und metrische Skalen

I Häufig wird zwischen topologischen und metrischen Skalenniveaus


unterschieden.
I Topologische Skalen: Nominal- und Ordinalskala
I Metrische (oder auch kardinale) Skalen: Intervall-, Ratio- und
Absolutskala
I Diese Unterscheidung ist relevant, da viele statistische Verfahren erst
ab der Intervallskala möglich sind.
Beispiele:
I Mittelwerte lassen sich nur sinnvoll für Variablen berechnen, die
mindestens intervallskaliert sind.
I Relative Häufigkeiten machen auch bei nominalskalierten Variablen
Sinn.
I Mehr dazu in den nächsten zwei Wochen. Dann beschäftigen wir uns
mit der (univariaten) Beschreibung von Variablen.

54 / 207
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Kapitel 2.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 1.3.
Bortz & Schuster (2010): Statistik für Human- und
Sozialwissenschaftler. 7. Auflage. Berlin/ Heidelberg: Springer,
Abschnitt 1.2 und 1.3.

55 / 207
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Häufigkeitsverteilungen

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#3
(31.10.2018)

56 / 207
Kurze Erinnerung

I Letzte Woche haben wir über Grundbegriffe der Statistik gesprochen.


I Außerdem haben wir uns mit Skalenniveaus beschäftigt:
I Nominalskala
I Ordinalskala
I Intervallskala
I Ratio- und Absolutskala
I Heute beschäftigen wir uns mit Häufigkeitsverteilungen und
grafischen Darstellungen derartiger Verteilungen.

57 / 207
Univariate Deskription

I Univariate Deskription: Statistische Beschreibung einer einzelnen


Variablen.
I Vor jeder statistischen Analyse sollten die univariaten Verteilungen aller
Variablen angesehen werden.
I Hierdurch können ggf. Fehler in den Daten identifiziert und korrigiert
werden.
I Die Verteilungen haben ggf. Konsequenzen für die weitere statistische
Analyse.
Beispiel: Zusammenhang von Arbeitslosigkeit und Parteipräferenz lässt
sich nur analysieren wenn Sample Arbeitslose enthält.
I Univariate Verteilungen sind ggf. auch an sich von Interesse.
Beispiele:
I Parteipräferenzen (Prognose der Wahlergebnisse)
I Zahl der Kinder (Vorhersage demografischer Trends)
I Verteilung der Erwerbseinkommen (z.B. zur Analyse von
Einkommensungleichheit)

58 / 207
Häufigkeitsverteilungen

I Häufigkeit: Wie oft kommt eine bestimmte Ausprägung in einem


Datensatz vor?
Beispiel: Wie viele FDP-Wähler sind in dem Datensatz vorhanden?
(Abzählen)
I Häufigkeitsverteilung: Beschreibung der Häufigkeiten der
(beobachteten) Merkmalsausprägungen einer Variablen.
Beispiel: Häufigkeiten der unterschiedlichen Parteipräferenzen.
I Häufigkeitsauszählungen sind für Variablen aller Skalenniveaus
möglich (ab Nominalskala). Aber nicht immer sinnvoll!
Beispiele:
I Häufigkeitsverteilung von Einkommen? Nur nach Kategorisierung
sinnvoll.
I Häufigkeitsverteilung der Parteipräferenzen? Häufig begrenzt auf
Parteien über 5%-Hürde, Rest in Sonstige Parteien“zusammengefasst.
I Stata Example 2 (graphics.do) ”

59 / 207
Häufigkeitsverteilung in Stata

. tabulate party_voted_DE
party_voted_DE | Freq. Percent Cum.
-----------------------+-----------------------------------
CDU/CSU | 693 37.30 37.30
SPD | 507 27.29 64.59
Die Linke | 193 10.39 74.97
Bündnis 90/ Die Grünen | 242 13.02 88.00
FDP | 110 5.92 93.92
AfD | 58 3.12 97.04
Piratenpartei | 20 1.08 98.12
NPD | 10 0.54 98.65
Andere Partei | 25 1.35 100.00
-----------------------+-----------------------------------
Total | 1,858 100.00
Relative Kumulative
Absolute
Quelle: ESS 8, Edition 1.0 Häufigkeiten relative
Häufigkeiten
(in %) Häufigkeiten
60 / 207
Häufigkeitsverteilungen -
formale Definition

I Die Auflistung der Werte xi , i = 1, . . . , n wird als Urliste bezeichnet


(Roh- oder Primärdaten): Urliste = x1 , . . . , xi , . . . , xn .
I Sind die Beobachtungen der Größe nach geordnet, sprechen wir von
einer geordneten Urliste: x1 ≤, . . . , ≤ xi ≤, . . . , ≤ xn .
I Durch die Auszählung der Häufigkeiten der einzelnen Ausprägungen
aj , j = 1, . . . , k, kann die Urliste zu den sog. Häufigkeitsdaten
zusammengefasst werden.
I Die Häufigkeitsdaten werden in Häufigkeitstabellen dargestellt.

61 / 207
Häufigkeitsverteilungen - formale
Definition

I Eine Häufigkeitstabelle kann für die Ausprägungen aj , j = 1, . . . , k


folgende Angaben enthalten:
h(aj ) = hj absolute Häufigkeit der Ausprägung aj
hj
f (aj ) = fj = n relative Häufigkeit der Ausprägung aj
H(aj ) = Hj absolute kumulierte Häufigkeit bis (und inkl.) aj
H
F (aj ) = Fj = nj relative kumulierte Häufigkeit bis (und inkl.) aj
I Dabei gilt:
h1 + h2 + · · · + hk = n
f1 + f2 + · · · + fk = 1
I Relative Häufigkeiten haben Werte zwischen 0 und 1 und können in
Prozent ausgedrückt werden (×100).

62 / 207
Die Häufigkeitstabelle - Abstrakte
Darstellung

Tabelle 14: Aufbau einer Häufigkeitstabelle


aj hj fj Hj Fj
a1 h1 f1 = h1/n H1 = h1 F1 = H1/n
a2 h2 f2 = h2/n H2 = h1 + h2 F2 = H2/n
.. .. .. .. ..
. . . . .
ak hk fk = hk/n Hk = h1 + h2 + · · · + hk Fk = Hk/n
P
n 1

Pj
I Alternative Schreibweise für Hj : Hj = i=1 hi
1 Pj
I Alternative Schreibweise für Fj : Fj = n i=1 hi
I (siehe Exkurs Summenzeichen)
63 / 207
Kumulierte Häufigkeiten

I Kumulierte Häufigkeiten sind typischerweise nur bei mindestens


ordinalskalierten Variablen informativ.
Beispiele:
I Likert-Skala: 24% der Befragten stimmen der Aussage A voll und

ganz oder teilweise zu.“Sinnvoll!
I Alter kategorisiert: 55% der Bevölkerung sind 52 Jahre oder

jünger.“Sinnvoll!
I Parteipräferenz: Kumulierte Wahrscheinlichkeiten sind hier nicht
sinnvoll, da die Reihenfolge der Kategorien beliebig ist.

64 / 207
Die Häufigkeitstabelle: Ein Beispiel

I Analyse des Items To what extent do you think people of a different



race or ethnic group from most German people should be allowed to
come and live here?“(Quelle: ESS 8, Edition 1.0, Deutschland).

Tabelle 15: Häufigkeitstabelle für Variable imdfetn


aj hj fj Hj Fj
1 (Allow many) 623 0, 2212 623 0, 2212
2 (Allow some) 1.383 0, 4911 2.006 0, 7124
3 (Allow few) 686 0, 2436 2.692 0, 9560
4 (Allow none) 124 0, 0440 2.816 1, 0000
P
2.816 1, 0000
Quelle: ESS 8, Edition 1.0.

65 / 207
Exkurs: Das Summenzeichen

n
xi = x1 + x2 + · · · + xn
X

i=1

I i = Laufparameter (mit Startwert=1)


I n = Endwert des Laufparameters
I xi = Summand

66 / 207
Das Summenzeichen: Ein Beispiel

I Beispiel: Datenmatrix mit n = 4 Fällen und einer Variable (Alter)

Tabelle 16: Alter von n=4 Befragten


ID Alter
1 75
2 74
3 71
4 77

67 / 207
Das Summenzeichen: Ein Beispiel

i xi
1 75
2 74
3 71
4 77

4
X
xi = x1 + x2 + x3 + x4
i=1
X4
xi = 75 + 74 + 71 + 77 = 297
i=1

68 / 207
Das Summenzeichen - formale Definition

Definition des Summenzeichens


n
X
xi = x1 + x2 + · · · + xn
i=1

69 / 207
Das Summenzeichen - Rechenregeln

n n
!2
X X
xi2 = x12 + x22 + ··· + xn2 , xi = (x1 + x2 + · · · + xn )2
i=1 i=1
n
X
yi xi = y1 x1 + y2 x2 + · · · + yn xn
i=1
Xn n
X n
X n
X n
X
kxi = k xi , yj xi = yj xi , k = nk
i=1 i=1 i=1 i=1 i=1
n
X n
X n
X n
X n
X
(xi − yi )2 = (xi2 − 2xi yi + yi2 ) = xi2 − 2 xi yi + yi2
i=1 i=1 i=1 i=1 i=1
n
X n
X n
X n
X n
X
(xi + yi )2 = (xi2 + 2xi yi + yi2 ) = xi2 + 2 xi yi + yi2
i=1 i=1 i=1 i=1 i=1
Xn n
X n
X
(xi + yi ) = xi + yi
i=1 i=1 i=1
70 / 207
Kurzübung 3

Kurzübung zur Häufigkeitstabelle


Füllen Sie die fehlenden Zellen der folgenden Häufigkeitstabelle!

Tabelle 17: Kurzübung: Häufigkeitstabelle Parteipräferenz


aj hj fj Hj Fj
1 CDU 358
2 SPD 255
3 Grüne 144
4 Linke 90
5 FDP
P
1.000

71 / 207
Kurzübung 3 - Lösung

Tabelle 18: Lösung: Häufigkeitstabelle Parteipräferenz


aj hj fj Hj Fj
1 CDU 358 0, 358 358 0, 358
2 SPD 255 0, 255 613 0, 613
3 Grüne 144 0, 144 757 0, 757
4 Linke 90 0, 090 847 0, 847
5 FDP 153 0, 153 1.000 1, 000
P
1.000 1, 0000

5
X
1.000 = hj = h1 + h2 + h3 + h4 + h5
j=1

⇔1.000 = 358 + 255 + 144 + 90 + h5


⇔1.000 = 847 + h5 ⇔ 1.000 − 847 = h5 = 153

71 / 207
Kurzübung 3 - Lösung

I (Alternative) Formel für kumulierte absolute Häufigkeiten

j
X
Hj = hi
i=1

I (Alternative) Formel für kumulierte relative Häufigkeiten

j j
1X X
Fj = hi = fi
n i=1 i=1

71 / 207
Grafische Darstellungen von Häufigkeiten

I Darstellungen von Häufigkeiten in tabellarischer Form sind oft


unübersichtlich.
I Wichtige Eigenschaften von Verteilungen sind aus Tabellen oft nur
schwer herauszulesen.
I Grafische Darstellungen können helfen, wichtige Eigenschaften von
Verteilungen darzustellen.
I Unterschiedliche Variablen (und Zusammenhänge) bedürfen
unterschiedlicher grafischer Darstellungen.
I Die Wahl der richtigen“Grafik sollte gut überlegt sein.

I Grafiken sind nicht per se empfehlenswert, sondern müssen sinnvoll
eingesetzt werden.

72 / 207
Grafische Darstellungen -
ein paar Beispiele
Sinnvoll!

Abbildung 7: Kreisdiagramm der Parteipräferenz

6.30%
11.06%

39.71%
13.87%

29.05%

CDU/CSU SPD
Bündnis 90/ Die Grünen Die Linke
FDP

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Nur Parteien über 5%.
73 / 207
Grafische Darstellungen -
ein paar Beispiele

Sinnvoll! Aber nicht unbedingt notwendig!

Abbildung 8: Kreisdiagramm der Geschlechterverteilung

47.12%
52.88%

Male Female

Quelle: ESS 8, Edition 1.0.


74 / 207
Grafische Darstellungen -
ein paar Beispiele

Nicht sinnvoll!

Abbildung 9: Kreisdiagramm Alter

0.07%
0.04%
0.81%
0.11%
0.07%
0.18%
0.21%
0.25%
0.39%
0.18%
0.49%
0.42%
0.88%
0.95% 1.54%
2.07%
1.02%
1.12% 1.19%
1.47%
1.47%
1.23% 1.19%
1.12% 1.19%
1.26%
0.81%
1.16% 1.40%
0.91% 1.30%
1.33% 1.12%
1.23% 1.02%
1.16% 1.23%
1.44% 1.05%
1.68% 1.47%
1.19%
1.65% 1.90%
2.00% 1.12%
1.65% 1.51%
1.83% 1.33%
1.61%
1.79%
1.68%
1.68% 1.33%
1.79% 1.51%
1.79% 1.51%
1.83% 1.26%
1.23%
1.68% 1.30%
2.42% 1.40%
1.23%
1.16%
2.18% 1.72%
2.07% 1.44%
2.18%
2.25% 2.11%
2.18%
2.07%

Quelle: ESS 8, Edition 1.0.


75 / 207
Grafische Darstellungen -
ein paar Beispiele

Abbildung 10: Säulendiagramm der Parteipräferenz


40
39.71
30

29.05
Prozent
20

13.87
10

11.06

6.30
0

SU

P
ne

nk

FD
SP
/C

Li

U

ie
D

D
ie
C

/D
90
s
ni
nd

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Nur Parteien über 5%.

76 / 207
Grafische Darstellungen -
ein paar Beispiele
Balken- und Säulendiagramme sind identisch (um 90◦ rotiert)

Abbildung 11: Balkendiagramm der Parteipräferenz

CDU/CSU 39.71

SPD 29.05

Bündnis 90/ Die Grünen 13.87

Die Linke 11.06

FDP 6.30

0 10 20 30 40
Prozent

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Nur Parteien über 5%.
77 / 207
Grafische Darstellungen -
ein paar Beispiele

Bedingt sinnvoll!

Abbildung 12: Streifendiagramm der Einwanderungspräferenzen


1

0.04
0.24
.8

0.49
.6
Anteil
.4
.2

0.22
0

Allow many Allow some


Allow few Allow none

Quelle: ESS 8, Edition 1.0.


78 / 207
Grafische Darstellungen -
ein paar Beispiele
Streifendiagramme werden in der Regel zum Vergleich von Verteilungen
über mehrere Gruppen (Kategorien) verwendet.

Abbildung 13: Streifendiagramm der Einwanderungspräferenzen nach Geschlecht


1

0.04 0.05
0.23 0.25
.8

0.50
0.48
.6
Anteil
.4
.2

0.22 0.22
0

Männer Frauen

Allow many Allow some


Allow few Allow none

Quelle: ESS 8, Edition 1.0.


79 / 207
Darstellung von Variablen mit
wenigen Ausprägungen

I Variablen mit wenigen Ausprägungen lassen sich besonders gut mit


Balken-, Säulen-, Kreis- und Streifendiagrammen darstellen.
I Diese Diagramme zeigen die (absoluten oder relativen) Häufigkeiten
einzelner Ausprägungen/ Kategorien (aj ).
I Insbesondere nominal und ordinal skalierte Variablen müssen als
Häufigkeitsauszählungen dargestellt werden.
I Intervall-, ratio- und absolutskalierte Variablen können als
Häufigkeiten dargestellt werden.
I Bei wenigen Ausprägungen (Beispiel: Schulnoten) einfach.
I Bei vielen Ausprägungen (Beispiel: Einkommen, Alter) nur nach
Kategorisierung. Stata Example 3 (graphics.do)
I Alternativ können Variablen mit vielen Ausprägungen durch andere
Diagramme dargestellt werden (siehe nächste Woche).

80 / 207
Darstellung kumulierter Verteilungen
Darstellung der empirischen Verteilungsfunktion/ kumulierten relativen
Häufigkeitsverteilung als Treppenfunktion:
Pj
F (x ) = f (a1 ) + · · · + f (aj ) = i=1 fi , mit aj ≤ x < aj+1

Abbildung 14: Empirische Verteilungsfunktion der allgemeinbildenden Abschlüsse 1


Empirische kumulierte (relative) Verteilungsfunktion

Abitur
Fachabitur
.8

Realschule
.4 .6

Hauptschule
.2

Förderschule
Grundschule
kein Abschluss
0

1 2 3 4 5 6 7
Höchster Schulabschluss

Quelle: ESS 8, Edition 1.0.


81 / 207
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.1.1, Abschnitt 3.1.2 und Anhang A.6.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.1.
I Zum Summenzeichen:
Bortz & Schuster (2010): Statistik für Human- und
Sozialwissenschaftler. 7. Auflage. Berlin/ Heidelberg: Springer, Exkurs
2.1 (S. 27).

82 / 207
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Lagemaße

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#4
(07.11.2018)

83 / 207
Kurze Erinnerung

I Letzte Woche haben wir über Häufigkeiten und ihre unterschiedlichen


Darstellungsformen in Häufigkeitstabellen gesprochen:
I Absolute Häufigkeiten
I Relative Häufigkeiten
I Kummulierte Häufigkeiten
I Heute beschäftigen wir uns mit Lagemaßen, die sich zur Beschreibung
von metrischen Variablen eignen.

84 / 207
Lage- und Streuungsmaße

I Lage- und Streuungsmaße sind Maßzahlen zur Beschreibung von


Eigenschaften einer Verteilung.
I Dadurch wird die Information aus den Rohdaten verdichtet, was einen
(quantitativen) Vergleich zwischen Verteilungen ermöglicht.
Beispiel: Wie unterscheidet sich das durchschnittliche Einkommen von
Männern und Frauen?
I Welche Maßzahlen zulässig sind, hängt vom Skalenniveau der
Variable ab!

85 / 207
Arten von Maßzahlen

I Lagemaße beschreiben das Zentrum der Daten (auch Maße der


zentralen Tendenz genannt).
I Streuungsmaße beschreiben die Streuung/ Variation der Daten um
das Zentrum (auch Dispersionsmaße genannt).
I Maße der Schiefe und Wölbung beschreiben die Form von
Verteilungen (z.B. Symmetrie).
I Konzentrationsmaße beschreiben die Verteilung der Datensumme auf
die Merkmalsträger (Beispiel: Konzentration von Vermögen).

86 / 207
Ein Beispiel: Die Normalverteilung

I Die Normalverteilung lässt sich durch zwei Maßzahlen beschreiben


(mehr zu theoretischen Verteilungen im Abschnitt Inferenzstatistik).
I Dichtefunktion der Normalverteilung (definiert Form):
!
2 1 (x − µ)2
f (x |µ, σ ) = √ · exp −
2πσ 2 2σ 2

I µ und σ 2 definieren die Lage und Form der Verteilung.


I µ ist der Mittelwert
I σ ist die Standardabweichung bzw. σ 2 die Varianz

87 / 207
Ein Beispiel: Die Normalverteilung

Abbildung 15: Zwei Normalverteilungen mit identischem Mittelwert und


unterschiedlichen Varianzen
.4
.3
f(x)
.2
.1

σ=2 σ=1
µ=5
0

0 2 4 6 8 10
x

88 / 207
Ein Beispiel: Generalisiertes Vertrauen

Abbildung 16: Histogramm der Variable generalisiertes Vertrauen

.4
µ=0
.3
Dichte

σ = 1,28
.2.1
0

−4 −2 0 2 4
Generalisiertes Vertrauen

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Die Abbildung zeigt die Verteilung der Variable generalisiertes Vertrauen, die hier mit Hilfe von sog.
konfirmatorischen Messmodellen auf Basis von drei einzelnen Items/ Fragen gebildet wurde.

89 / 207
Ein Beispiel: Generalisiertes Vertrauen

Abbildung 17: Histogramme der Variable generalisiertes Vertrauen nach


Geschlecht

.4 Männer Frauen

.4
µ = 0,01 µ = −0,01
.3

.3
Dichte

Dichte
σ = 1,27 σ = 1,30
.2

.2
.1

.1
0

−4 −2 0 2 4 −4 −2 0 2 4
Generalisiertes Vertrauen Generalisiertes Vertrauen

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Die Abbildung zeigt die Verteilung der Variable generalisiertes Vertrauen, die hier mit Hilfe von sog.
konfirmatorischen Messmodellen auf Basis von drei einzelnen Items/ Fragen gebildet wurde.
90 / 207
Lagemaße: Modus/ Modalwert

I Der Modus xM einer Verteilung ist der häufigste Wert.

Tabelle 19: Häufigkeitstabelle und Modus der Variable imdfetn


aj hj fj Hj Fj
1 (Allow many) 623 0, 2212 623 0, 2212
2 (Allow some) 1.383 0, 4911 2.006 0, 7124
xM =2
3 (Allow few) 686 0, 2436 2.692 0, 9560
4 (Allow none) 124 0, 0440 2.816 1, 0000
P
2.816 1, 0000
Quelle: ESS 8, Edition 1.0.

91 / 207
Lagemaße: Modus/ Modalwert

I Formel für nicht-gruppierte Daten:


xM = {xj |hj = max hk bzw. fj = max f (xk )}
I Wenn hj = max hk nicht eindeutig, können zwei Modi angegeben
werden (xM1 und xM2 )

Tabelle 20: Fiktive Häufigkeitstabelle mit zwei Modi


aj hj fj
1 (Allow many) 200 0, 1
2 (Allow some) 800 0, 4
xM1 = 2, xM2 =3
3 (Allow few) 800 0, 4
4 (Allow none) 200 0, 1
P
2.000 1, 0000

92 / 207
Lagemaße: Modus/ Modalwert

I Bei metrisch skalierten Variablen und multiplen Modi kann auch der
Mittelwert berechnet werden, wenn die Modi nebeneinander liegen.

Tabelle 21: Modus bei metrisch skalierten Variablen mit zwei Modi
Anzahl Kinder hj fj
0 1200 0, 24
1 1400 0, 28
2 1400 0, 28
3 600 0, 12
4 300 0, 06
5 und mehr 100 0, 02
P
5.000 1, 0000

I xM1 = 1, xM2 = 2 1+2


⇒ xM = 2 = 1, 5
93 / 207
Lagemaße: Modus/ Modalwert

I Bei metrisch skalierten und gruppierten Variablen kann die Klasse mit
der höchsten Häufigkeit oder die Klassenmitte angegeben werden.

Tabelle 22: Modus bei gruppierten metrisch skalierten Variablen


Einkommen [cj−1 , cj ) hj fj
bis 2000 e 800 0, 20
2000 - 4000 e 1000 0, 25
xM = 2000+4000
2 = 3000 4000 - 6000 e 800 0, 20
6000 - 8000 e 800 0, 20
8000 und mehr e 600 0, 15
P
4.000 1, 0000

I Der Ausdruck [cj−1 , cj ) bezeichnet ein Intervall, das die Klassengrenze


cj−1 mit einschließt und die Klassengrenze cj ausschließt (eckige
Klammer = eingeschlossen, runde Klammer = ausgeschlossen).
94 / 207
Lagemaße: Modus/ Modalwert

I Häufigkeitstabelle des Bruttoerwerbseinkommens (Ausschnitt)


I xM = 6600. Sinnvoll?

6520 | 1 0.00 98.20


6550 | 1 0.00 98.20
6557 | 1 0.00 98.21
6600 | 5 0.02 98.23
6666 | 1 0.00 98.23
6670 | 1 0.00 98.24
6676 | 1 0.00 98.24
6700 | 4 0.02 98.26
6715 | 1 0.00 98.27
6730 | 1 0.00 98.27
6787 | 1 0.00 98.28
6800 | 4 0.02 98.30

Quelle: SOEP 2009.

95 / 207
Zusammenfassung: Modus/ Modalwert

I Der Modus lässt sich ab dem nominalen Skalenniveau bestimmten.


I Typischerweise nur bei diskreten Variablen sinnvoll.
I (Quasi-)stetige Variablen nur nach Klassifizierung/ Gruppierung.
I Probleme:
I Nur bei Verteilungen mit eindeutigem Zentrum sinnvoll (nicht bei bi-
oder multimodalen Verteilungen)
I Bei kleinem n durch Zufallsschwankungen beeinflusst.
I Bei (quasi-)stetigen und diskreten Variablen mit sehr vielen (dünn
besetzten) Ausprägungen.

96 / 207
Lagemaße: Median

I Der Median x̃ ist die mittlere Beobachtung der geordneten Urliste.


I Der Median teilt die Daten in zwei gleich große Hälften.
I Eine sinnvolle Interpretation des Medians setzt mindestens ordinal
skalierte Variablen voraus.
I Formel: (
x n+1 bei ungeraden n
x̃ = 1 n
2

2 (x 2 + x 2 +1 ) bei geraden n
n

97 / 207
Lagemaße: Median

Beispiel (mit ungeradem n):


I Urliste (n = 11):
2, 4, 3, 1, 1, 5, 4, 3, 2, 4, 1
I Geordnete Urliste:
1, 1, 1, 2, 2, 3, 3, 4, 4, 4, 5
| {z } | {z }
x̃ = 3
I Da n = 11 gilt
x̃ = x n+1 = x 11+1 = x6 = 3
2 2

98 / 207
Lagemaße: Median

Beispiel (mit geradem n):


I Urliste (n = 12):
2, 4, 3, 1, 1, 5, 4, 2, 2, 4, 1, 5
I Geordnete Urliste:

1, 1, 1, 2, 2, 2, 3, 4, 4, 4, 5, 5
| {z } | {z }

x̃ = 2, 5
I Da n = 12, gilt

1 1 1 2+3
x̃ = (x n2 + x n2 +1 ) = (x 12 + x 12 +1 ) = (x6 + x7 ) = = 2, 5
2 2 2 2 2 2

99 / 207
Grafische Bestimmung des Medians
Der Median lässt sich grafisch mit Hilfe der empirischen
Verteilungsfunktion bestimmen. Er entspricht der Ausprägung aj , für die
F (x ) = 0, 5 gilt.

Abbildung 18: Grafische Bestimmung des Medians 1


Empirische kumulierte (relative) Verteilungsfunktion

Abitur
Fachabitur
.8

Realschule
.4 .6

Hauptschule
.2

Förderschule
Grundschule
kein Abschluss
0

1 2 3 4 5 6 7
Höchster Schulabschluss

Quelle: ESS 8, Edition 1.0. 100 / 207


Zusammenfassung: Median

I Der Median lässt sich ab dem ordinalen Skalenniveau bestimmen.


I Der Median ist robust gegenüber extremen Werten (Ausreißer).
Beispiel: Alter der Teilnehmer*innen in einer Statistikklausur

19, 19, 19, 20, 20, 21, 21, 21, 67

I Der Median in diesem Beispiel ist x̃ = 20


I Der Mittelwert wäre x̄ = 227/9 = 25, 2
I Qualitätseigenschaft: Kleinster absoluter Gesamtabstand zu allen
anderen Werten, d.h.
n
X n
X
|xi − x̃ | ≤ |xi − z| , für alle z
i=1 i=1

101 / 207
Lagemaße: Arithmetisches Mittel

I Das arithmetische Mittel ist die Summe aller Messwerte geteilt durch
ihre Anzahl.
I Das arithmetische Mittel wird auch oft als Durchschnitt oder
Mittelwert bezeichnet.
I Achtung: Es gibt auch das sog. geometrische und harmonische Mittel!
I Eine sinnvolle Interpretation setzt mindestens intervall-skalierte
Variablen voraus.
I Formel:
n
1X 1
x̄ = xi = (x1 + x2 + · · · + xn )
n i=1 n

102 / 207
Lagemaße: Arithmetisches Mittel

Beispiel:
I Urliste (n = 12):
2, 4, 3, 1, 1, 5, 4, 2, 2, 4, 1, 5
I Berechnung des arithmetischen Mittels:
12
1 X 1 34
x̄ = xi = (2+4+3+1+1+5+4+2+2+4+1+5) = = 2, 83
12 i=1 12 12

103 / 207
Das arithmetische Mittel (nochmal)

Tabelle 23: Roh- und


Häufigkeitsdaten eines fiktiven
Datensatzes
i xi Arithmetisches Mittel aus Rohdaten:
1 1 1X n
1+2+2+2+3
2 2 x̄ = xi = =2
n i=1 5
3 2
4 2
5 3

aj hj Können wir das arithemtische Mittel auch


1 1 aus der Häufigkeitstabelle berechnen?
2 3
3 1
P
5
104 / 207
Das arithmetische Mittel (nochmal)

Tabelle 23: Roh- und


Häufigkeitsdaten eines fiktiven
Datensatzes
i xi Arithmetisches Mittel aus Rohdaten:
1 1 1X n
1+2+2+2+3
2 2 x̄ = xi = =2
n i=1 5
3 2
4 2
5 3

aj hj Aus Häufigkeitstabelle:
1 1 1·1+3·2+1·3
2 3 =2
5
3 1
P
5
105 / 207
Arithmetisches Mittel aus
Häufigkeitsdaten

I Berechnung des arithmetischen Mittels aus Häufigkeitsdaten:

k k
1X X
x̄ = aj hj = aj f j
n j=1 j=1

Tabelle 24: Arithmetisches Mittel aus Häufigkeiten


aj hj fj aj · f j
1 1 0, 2 0, 2
2 3 0, 6 1, 2
3 1 0, 2 0, 6
P
5 1, 0 2, 0

106 / 207
Arithmetisches Mittel aus gruppierten
Häufigkeitsdaten

I Berechnung des arithmetischen Mittels aus Häufigkeitsdaten


gruppierter metrischer Variablen:
k k
1X X cj−1 + cj
x̄ = mj hj = mj fj , mit mj =
n j=1 j=1
2

Tabelle 25: Gruppierte Häufigkeitsdaten des Alters


Alter hj fj mj fj · m j
[cj−1 − cj )
20 − 30 24 0, 24 25 6
30 − 40 57 0, 57 35 19, 95
40 − 50 12 0, 12 45 5, 4
50 − 60 7 0, 07 55 3, 85
P
100 1, 0 35, 2
107 / 207
Arithmetisches Mittel aus
Gruppenmittelwerten

I Berechnung des arithmetischen Mittels aus r gruppenbezogenen


Mittelwerten:
r
1X
x̄ = nj x̄j
n j=1

Tabelle 26: Gruppenspezifische Mittelwerte - ein Beispiel


Wohnort (aj ) nj Einkommen (x̄j )
Ost 200 2000
West 600 3000
P
800
(200 · 2000) + (600 · 3000)
x̄ = = 2750
800

108 / 207
Zusammenfassung Arithmetisches Mittel

I Das arithmetische Mittel lässt sich sinnvoll für metrische Daten


analysieren.
I Das arithmetische Mittel ist sensibel gegenüber Ausreißern. Der
Grund liegt in seiner Qualitätseigenschaft.
I Schwerpunkteigenschaft:
n
X
(xi − x̄ ) = 0
i=1

I Qualitätseigenschaft: Minimierung der Abstandsquadrate, d.h.


n
X n
X
(xi − x̄ )2 ≤ (xi − z)2 , für alle z
i=1 i=1

109 / 207
Kurzübung 4

Kurzübung zu
Lagemaßen symmetrische Verteilung

.4
(Think-Talk-Share)

.3
Schauen Sie sich die

.2
beiden Verteilungen

.1
an und versuchen Sie

0
Modus, Median und −4 −2 0 2 4 6

arithmetisches Mittel asymmetrische Verteilung


einzuzeichnen. Dabei
kommt es nicht auf .4
.3

die exakten Werte,


.2

sondern insbesondere
.1

auf die Reihenfolge


0

−4 −2 0 2 4 6
der Werte auf der
x-Achse an.
110 / 207
Kurzübung 4 - Lösung

symmetrische Verteilung

.4
Modus = Median = Mittel

.3
.2
.1
0

−4 −2 0 2 4 6

asymmetrische Verteilung
.4

Modus < Median < Mittel


.3
.2
.1
0

−4 −2 0 2 4 6

110 / 207
Kurzübung 4 - Lösung

I Bei einer symmetrischen unimodalen Verteilung sind Modus, Median


und Mittel identisch.
I Bei schiefen (asymmetrischen) Verteilungen unterscheiden sich die
drei Lagemaße.
I Die hier abgebildete Verteilung ist rechtsschief/ linkssteil.
I Der Modus liegt auf dem Gipfel.
I Der Median teilt die Daten in der Mitte. Da das rechte Ende der
Verteilung ausufernder“ist, liegt die Mitte rechts vom Gipfel.

I Der Mittelwert wird stärker als der Median von den extremen Werten
am rechten Ende der Verteilung beeinflusst.
I Zu unterschiedlichen Verteilungsformen siehe Jann (2005), Seite 28.

110 / 207
Grafishe Darstellung von
(quasi-)stetigen Variablen

I Variablen mit vielen Ausprägungen, die mindestens intervall-skaliert


sind, können in sogenannten Histogrammen dargestellt werden.
I Erinnere: Eine Möglichkeit zur Darstellung solcher Variablen ist die
Kategorisierung.
I Histogramme nehmen im Prinzip eine derartige Kategorisierung vor,
diese folgt aber einer fest definierten Methode.
I Die beobachteten Daten werden hierzu in k benachbarte Intervalle
zerlegt [c0 , c1 ) , [c1 , c2 ) , . . . , [ck−1 , ck )
I Über diese Intervalle werden dann Rechtecke der Breite dj = cj − cj−1
gebildet
I Die Fläche der Rechtecke ist proportional zur Häufigkeit hj (bzw. fj ).
Folglich ist die Höhe der Rechtecke hj/dj bzw. fj/dj
I Ist dj für alle j identisch, spiegelt die Höhe der Rechtecke die
Verhältnisse der Häufigkeiten wieder (default in vielen Programmen)

111 / 207
Konstruktion eines Histogramms

Abbildung 19: Konstruktion eines Histogramms

Quelle: In Anlehnung an Jann (2005), S. 24.

112 / 207
Finales Stata-Example

I Modus, Median und arithmetisches Mittel


I Histogramme
I Stata Example 4 (histogram.do)

113 / 207
Median und Mittelwert in Stata

. sum agea, de

Age of respondent, calculated


-------------------------------------------------------------
Percentiles Smallest
1% 16 15
5% 18 15
10% 22 15 Obs 2,849
25% 33 15 Sum of Wgt. 2,849

50% 50 Mean 48.55774


Largest Std. Dev. 18.49769
75% 63 93
90% 74 93 Variance 342.1646
95% 78 94 Skewness -.0319286
99% 85 94 Kurtosis 2.071834

Quelle: ESS 8, Edition 1.0.


114 / 207
Histogramme in Stata
histogram agea, xtitle(Alter in Jahren) ytitle(Dichte)
>bin(20)

Abbildung 20: Histogramm der Variable agea


.02
.015
Dichte
.01 .005
0

20 40 60 80 100
Alter in Jahren

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Statas default sind 30 Rechtecke. Hier wurde manuell auf 20 reduziert.
115 / 207
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.2.1 und Abschnitt 3.1.3.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.2.1.

116 / 207
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Lage- und Streuungsmaße

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#5
(14.11.2018)

117 / 207
Kurze Erinnerung

I Letzte Woche haben wir uns mit einigen zentralen Lagemaßen


beschäftigt:
I Modus: Der häufigste Wert, zulässig ab Nominalskala
I Median: Der mittlere Wert einer geordneten Urliste, zulässig ab
Ordinalskala.
I Arithmetisches Mittel: Der durchschnittliche Wert (x̄ = 1/n ni=1 xi ),
P
zulässig ab Intervallskala.
I Heute beschäftigen wir uns weiter mit Lagemaßen, insbesondere aber
mit Streuungsmaßen.

118 / 207
Quantile

I Wir haben bereits den Median x̃ kennengelernt.


I Der Median teilt die Daten in der Mitte, d.h. es sind mindestens 50%
der Daten ≤ x̃ und mindestens 50% der Daten ≥ x̃
I Der Median wird daher auch als 50%-Quantil bezeichnet.
I Allgemein: Das p-Quantil xp (auch Perzentil) teilt die Daten so, dass
der Anteil p der Daten ≤ xp und der Anteil (1 − p) ≥ xp ist:

h(X ≤ xp ) h(X ≥ xp )
≥ p und ≥1−p
n n
bzw.
f (X ≤ xp ) ≥ p und f (X ≥ xp ) ≥ 1 − p
mit p ∈ [0, 1]

119 / 207
Häufig verwendete Quantile:
Median

I Median: p = 0, 50

Abbildung 21: Normalverteilung und 50%-Quantil


.4
.3
Dichte
.2
.1
0

x0,5

120 / 207
Häufig verwendete Quantile:
Quartile

I Quartile: p = 0, 25, p = 0, 50, p = 0, 75

Abbildung 22: Normalverteilung und Quartile


.4
.3
Dichte
.2
.1
0

x0,25 x0,50 x0,75

121 / 207
Häufig verwendete Quantile:
Quintile

I Quintile: p = 0, 20, p = 0, 40, p = 0, 60, p = 0, 80

Abbildung 23: Normalverteilung und Quintile


.4
.3
Dichte
.2
.1
0

x0,2 x0,4 x0,6 x0,8

122 / 207
Berechnung von Quantilen

I Aus der geordneten Urliste x1 ≤ x2 ≤ · · · ≤ xn wird das p-Quantil


bestimmt als
xp = x([np]G +1) , wenn np nicht ganzzahlig
xp ∈ [x(np) , x(np+1) ] = 21 (x(np) + x(np+1) ) , wenn np ganzzahlig

wobei [np]G die zu np nächste kleinere ganze Zahl ist.


I Wenn np ganzzahlig ist, liegt xp zwischen x(np) und x(np+1) :
I Hier (und in der Klausur), Berechnung wie beim Median:

x(np) + x(np+1)
xp =
2
I (Bessere) Alternative: Berechnung per linearer Interpolation. Siehe
dazu Jann (2005), S. 35f.

123 / 207
Berechnung von Quantilen - Beispiele

I Gegeben ist die Urliste 1, 2, 2, 4, 5, 5, 6, 8, 9, 11, 11, 13 (n = 12).


Gesucht sei das 25%-Quantil.
I np = 12 · 0, 25 = 3. Da np ganzzahlig,
I x0,25 ∈ [x3 , x4 ]. x3 = 2 und x4 = 4
I x0,25 = (2+4)/2 = 3
I Gegeben ist die Urliste 1, 2, 2, 4, 5, 5, 6, 8, 10, 11, 11 (n = 11). Gesucht
sei das 75%-Quantil.
I np = 11 · 0, 75 = 8, 25. Da np nicht ganzzahlig, gilt [np]G = 8 (aus
8, 25 wird 8)
I x0,75 = x(8+1) = x9 = 10

124 / 207
Grafische Darstellung von Quartilen -
der Box-Plot

I Box-Plots (auch Box-Whisker-Plots) stellen die Verteilung der


Quartile grafisch dar.

Abbildung 24: Der Box-Plot

x0,25 x0,50 x0,75

6 8 10 12 14

125 / 207
Der Box-Whisker-Plot im Detail

1. Ausreißer: Beobachtungen Abbildung 25: Elemente eines


Box-Whisker-Plots
außerhalb des Intervalls
[x0,75 + 1, 5dQ , x0,25 − 1, 5dQ ]
mit dQ = x0,75 − x0,25 .
2. Whisker: Größter/ kleinster
Wert innerhalb des Intervalls
[x0,75 + 1, 5dQ , x0,25 − 1, 5dQ ].
x0,25 x0,50 x0,75

3. Oberes/ drittes Quartil: x0,75 .


4. Median/ zweites Quartil: x0,5 .
5. Unteres/ erstes Quartil: x0,25
6 8 10 12 14
norm

126 / 207
Box-Plots und Verteilungsformen

I Box-Plots geben Aufschluss über die Form einer Verteilung

Abbildung 26: Box-Plots bei symmetrischer und asymmetrischer Verteilung

x0,25 x0,50 x0,75 x0,25 x0,50 x0,75

6 8 10 12 14
norm 8 10 12 14 16

127 / 207
Zusammenfassung: Der Box-Plot

I Box-Plots geben Auskunft über die Verteilung der Quartile.


I Diese enthalten Informationen über die Form der Verteilung.
I Box-Plots eignen sich besonders gut zum Vergleich von Verteilungen
über die Kategorien anderer Variablen.
I Stata Example 5 (boxplots.do)

128 / 207
Box-Whisker-Plots in Stata

graph box wkhtot, over(gndr, relabel(1"Männer" 2"Frauen"))


>noout note("") ytitle(Arbeitsstunden/Woche)

Abbildung 27: Arbeitsstunden/Woche nach Geschlecht.


60
Arbeitsstunden/Woche
20 0 40

Männer Frauen

Quelle: ESS 8, Edition 1.0. Anmerkungen: Grundgesamtheit ist die erwerbstätige Bevölkerung.
129 / 207
Warum Streuungsmaße?

I Lagemaße können nicht alle Unterschiede von Verteilungen erfassen.


I Streuungsmaße beschreiben die Streuung der Daten um das Zentrum.

Abbildung 28: Dichtefunktion: Arbeitsstunden/Woche nach Geschlecht


.04
.03
Dichte
.02

Männer
Frauen
.01

Median Frauen Median Männer


0

0 20 40 60 80 100
Arbeitsstunden/Woche

Quelle: ESS 8, Edition 1.0.


Anmerkungen: Grundgesamtheit ist die erwerbstätige Bevölkerung. 130 / 207
Streuungsmaße:
Der Interquartilsabstand

I Der Interquartilsabstand gibt den Abstand zwischen dem 25%-Quantil


und dem 75%-Quantil an (die Breite der Box im Box-Plot).

dQ = x0,75 − x0,25 = Q3 − Q1

I Beispiel: Arbeitsstunden/Woche bei Männern und Frauen (vgl.


vorherige Folien):

dQM = x0,75 − x0,25 = 50 − 40 = 10


dQF = x0,75 − x0,25 = 42 − 25 = 17

Die Streuung ist bei Frauen größer als bei Männern (dQM < dQF ).

131 / 207
Streuungsmaße:
Quantilsabstände

I Abstände zwischen Quantilen lassen sich für mindestens ordinal


skalierte Variablen bestimmen.
I Da Differenzen aber erst ab Intervallskalenniveau sinnvoll interpretiert
werden können, sollten Quantilsabstände streng genommen erst ab
einem metrischen Messniveau berechnet werden.
I Neben dem Interquartilsabstand (dQ ) wird häufig auch der
Dezilsabstand (dD ) bestimmt:

dD = x0,9 − x0,1 = D9 − D1

132 / 207
Streuungsmaße: Die Spannweite

I Das einfachste Streuungsmaß ist die Spannweite:

R = xmax − xmin
I Die Spannweite ist . . .
I relativ informationsarm,
I anfällig gegenüber Ausreißern,
I nur für metrische Variablen zulässig,
I häufig nicht für Gruppenvergleiche geeignet, insb. wenn ein
befragungsbedingt eingeschränkter Merkmalsraum vorliegt.
Beispiel: Die Spannweite R im vorherigen Beispiel
(Arbeitsstunden/Woche) beträgt für Männer wie Frauen 100 Stunden.

133 / 207
Streuungsmaße: Abweichungen von
einem Referenzwert

I Eine naheliegende Art der Quantifizierung von Dispersion ist die


Berechnung der durchschnittlichen Abweichung von einem Maß der
zentralen Tendenz.
I Wie kann das gehen? So. . . ?

Tabelle 27: Abweichungen vom Mittelwert als Maß der Streuung I


i xi x̄ xi − x̄
1 1 3 −2
2 3 3 0
3 5 3 2
P
9 0

134 / 207
Streuungsmaße: Abweichungen von
einem Referenzwert

I Eine naheliegende Art der Quantifizierung von Dispersion ist die


Berechnung der durchschnittlichen Abweichung von einem Maß der
zentralen Tendenz.
I Wie kann das gehen? So. . . ?

Tabelle 28: Abweichungen vom Mittelwert als Maß der Streuung II


i xi x̄ xi − x̄
1 0, 44 0, 847 −0, 407
2 1, 21 0, 847 0, 363
3 0, 89 0, 847 0, 043
≈0
P
2, 54

135 / 207
Streuungsmaße: Abweichungen von
einem Referenzwert

I Eine naheliegende Art der Quantifizierung von Dispersion ist die


Berechnung der durchschnittlichen Abweichung von einem Maß der
zentralen Tendenz.
I Die Summe aller Abweichungen vom Mittelwert ist immer 0.
I Der Grund liegt in der Schwerpunkteigenschaft des arithmetischen
Mittels:
n
X
(xi − x̄ ) = 0
i=1
I Folglich ist die durchschnittliche Abweichung vom Mittelwert
ebenfalls 0.

136 / 207
Streuungsmaße: Mittlere absolute
Abweichung und Varianz

I Gesucht ist eine Statistik, die Abweichungen vom Mittelwert


quantifiziert und deren Summe nicht 0 ist.
I Wie kann das gehen? So:

Tabelle 29: Absolute und quadrierte Abweichungen vom Mittelwert


i xi x̄ |xi − x̄ | (xi − x̄ )2
1 1 3 2 4
2 3 3 0 0
3 5 3 2 4
P
9 4 8

I Der Mittelwert der absoluten Abweichungen ist 4/3 ≈ 1, 332, der


Mittelwert der quadrierten Abweichungen ist 8/3 ≈ 2, 667.
137 / 207
Streuungsmaße:
Mittlere absolute Abweichung

I Die mittlere absolute Abweichung (Average Deviation) gibt die


durchschnittliche Abweichung vom arithmetischen Mittel an:
n
1X
AD = |xi − x̄ |
n i=1

I Sie kann auch aus Häufigkeitsdaten berechnet werden:

k k
1X X
AD = hj |aj − x̄ | = fj |aj − x̄ |
n j=1 j=1

I Die mittlere absolute Abweichung lässt sich auch in Bezug auf andere
Maße der zentralen Tendenz berechnen (z.B. dem Median x̃ ).

138 / 207
Streuungsmaße:
Varianz und Standardabweichung

I Die Varianz gibt die durchschnittliche quadrierte Abweichung vom


arithmetischen Mittel an:
n
2 1X
s = (xi − x̄ )2
n i=1

I Die Standardabweichung ist als Quadratwurzel der Varianz definiert:


v
√ u n
u1 X
s= 2
s = t (xi − x̄ )2
n i=1

139 / 207
Kurzübung 5

Kurzübung zu Streuungsmaßen
Schauen Sie sich die folgende Tabelle an und berechnen Sie Varianz und
Standardabweichung der Einkommen.

Tabelle 30: Netto-Erwerbseinkommen von 4 (fiktiven) Individuen

i Einkommen in e
1 2.487
2 1.967
3 2.956
4 1.123

140 / 207
Kurzübung 5 - Lösung

I Zur Berechnung der Varianz ist das arithmetische Mittel notwendig:


4
1X 2487 + 1967 + 2956 + 1123 8533
x̄ = xi = = = 2133, 25
4 i=1 4 4

Tabelle 30: Netto-Erwerbseinkommen von 4 (fiktiven) Individuen

i xi (xi − x̄ ) (xi − x̄ )2
1 2.487 353, 75 125.139, 06
2 1.967 −166, 25 27.639, 06
3 2.956 822, 75 676.917, 56
4 1.123 −1.010, 25 1.020.605, 06
P
8.533 1.850.300, 74

140 / 207
Kurzübung 5 - Lösung

I Die Varianz entspricht der durchschnittlichen quadrierten


Abweichungen:
4
1X 1.850.300, 74
s2 = (xi − x̄ )2 = = 462.575, 19
4 i=1 4

I Die Standardabweichung entspricht der Quadratwurzel der Varianz:


√ p
s = s 2 = 462.575, 19 = 680, 13

140 / 207
Kurzübung 5 - Lösung

I Alternativ lässt sich die Varianz auch folgendermaßen berechnen (der


Unterschied hinter dem Komma erklärt sich durch Rundungen):
n
!
2 1X 20.053.324
s = xi2 − x̄ 2 = − 2133, 252 = 462.575, 44
n i=1 4

Tabelle 30: Netto-Erwerbseinkommen von 4 (fiktiven) Individuen

i xi xi2
1 2.487 6.185.169
2 1.967 3.869.089
3 2.956 8.737.936
4 1.123 1.261.129
P
8.533 20.053.324

140 / 207
Streuungsmaße: Alternative
Formeln für Varianz

I Die Varianz lässt sich auch mit einer alternativen Formel berechnen,
die häufig rechengünstiger ist (zur Herleitung vgl. Jann (2005), S.
45):
n
!
2 1X
s = x − x̄ 2
2
n i=1 i
I Aus Häufigkeitsdaten kann die Varianz ebenfalls berechnet werden:

k k
1X X
s2 = hj (aj − x̄ )2 = fj (aj − x̄ )2
n j=1 j=1

141 / 207
Streuungsmaße:
Stichprobenvarianz

I Die bisher betrachtete Varianz wird auch empirische Varianz genannt.


I Daneben gibt es die Stichprobenvarianz:
n
1 X
s2 = (xi − x̄ )2
n − 1 i=1

I Diese ist insbesondere in der Inferenzstatistik von Bedeutung.


I Die meisten Programme (inkl. Stata) berechnen standardmäßig die
Stichprobenvarianz.
I Bei großen n ist der Unterschied gering, bei kleinen n kann er groß
sein.

142 / 207
Zusammenfassung: Varianz und
Standardabweichung

I Varianz und Standardabweichung sind ab dem Intervall-Skalenniveau


sinnvoll zu interpretieren.
I Die Varianz (bzw. Standardabweichung) ist das am häufigsten
verwendete Streuungsmaß.
I Varianz und Standardabweichung reagieren sensibel auf Ausreißer.
Ursache ist die Quadrierung, durch die extreme Werte mit höherem
Gewicht in die Maßzahl eingehen.
I Die Einheiten der Varianz unterscheiden sich von den Einheiten der
analysierten Variable. Beispiel: Die Variable Einkommen ist in e
gemessen (oder in $). Dann ist die Varianz in e2 (bzw. $2 ) gemessen.

I Die Standardabweichung (s = s 2 ) normiert wieder auf die

ursprünglichen Einheiten ( e2 = e).

143 / 207
Warum sind Mittelwert und
Varianz so zentral?

I Die Kombination aus Mittelwert und Varianz beschreibt eine


(unimodale, symmetrische) Verteilung relativ gut.
Beispiel: Verteilung der wöchentlichen Arbeitsstunden von Männern
und Frauen unter Annahme einer Normalverteilung mit den
empirischen Mittelwerten und Varianzen.

Abbildung 29: Arbeitszeiten von Männern und Frauen


.03

.04
.03
.02

Frauen Männer
Dichte
f(x)

.02

Männer
Frauen
.01

.01

Median Frauen Median Männer


0

0 20 40 60 80 100 0 20 40 60 80 100
x Arbeitsstunden/Woche 144 / 207
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.2.2.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.2.2. und 2.2.3.

145 / 207
Einführung in die sozialwissenschaftliche Statistik
Univariate Deskription: Konzentrationsmaße

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#6
(21.11.2018)

146 / 207
Kurze Erinnerung

I Letzte Woche haben wir uns mit Streuungsmaßen beschäftigt:


I Quantilsabstände: Abstand ausgewählter Quantile, zulässig ab
Intervallskala
I Mittlere Absolute Abweichung: Basiert auf Summe der absoluten
Abweichungen vom Mittelwert, ab Intervallskala.
I Varianz und Standardabweichung: Basiert auf Summe der quadrierten
Abweichungen, zulässig ab Intervallskala.
I Heute beschäftigen wir uns mit Konzentrationsmaßen.

147 / 207
Streuungsmaße bei Variablen mit
topologischem Skalenniveau

I Für Variablen mit topologischem Skalenniveau lässt sich im Prinzip


nur angeben, ob die Häufigkeiten der verschiedenen Kategorien eher
gleich oder eher ungleich verteilt sind.
I Ein Maß hierfür ist das Herfindahl-Streuungsmaß:

k  2 k
X hj X
HF = 1 − =1− fj 2
j=1
n j=1

148 / 207
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele

I Im Beispiel unten konzentrieren sich fast alle Beobachtungen auf eine


Kategorie (a2 = 2). Die Summe der quadrierten relativen
Häufigkeiten ist 0, 66, entsprechend ist HF = 1 − 0, 66 = 0, 34.

Tabelle 31: Berechnung des Herfindahl-Streuungsmaß - Beispiel I


aj hj fj fj 2
1 1 0, 1 0, 01
2 8 0, 8 0, 64
3 1 0, 1 0, 01
P
10 1, 0 0, 66

149 / 207
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele

I In diesem Beispiel konzentrieren sich alle Beobachtungen auf eine


Kategorie (aj = 2). Die Summe der quadrierten relativen Häufigkeiten
ist daher 1, entsprechend ist HF = 1 − 1 = 0.

Tabelle 32: Berechnung des Herfindahl-Streuungsmaß - Beispiel II


aj hj fj fj 2
1 0 0, 0 0, 0
2 10 1, 0 1, 0
3 0 0, 0 0, 0
P
10 1, 0 1, 0

150 / 207
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele

I In diesem Beispiel verteilen sich die Beobachtungen relativ


gleichmäßig auf die Kategorien j. Die Summe der quadrierten
relativen Häufigkeiten ist 0, 34, entsprechend ist
HF = 1 − 0, 34 = 0, 66.

Tabelle 33: Berechnung des Herfindahl-Streuungsmaß - Beispiel III


aj hj fj fj 2
1 3 0, 3 0, 09
2 4 0, 4 0, 16
3 3 0, 3 0, 09
P
10 1, 0 0, 34

151 / 207
Streuungsmaße: Herfindahl-Streuungsmaß
Rechenbeispiele

I In beiden Tabellen besteht eine perfekte Gleichverteilung bzw.


maximale Streuung, d.h. es entfällt jeweils eine Beobachtung auf eine
Kategorie.
I Bei k = 3 Kategorien ergibt sich HF = 1 − 0, 33 = 0, 67
I Bei k = 4 Kategorien ergibt sich dagegen HF = 1 − 0, 25 = 0, 75

Tabelle 34: Berechnung des Herfindahl-Streuungsmaß - Beispiel IV


aj hj fj fj 2
aj hj fj fj 2
1 1 0, 25 0, 0625
1 1 0, 332 0, 11
2 1 0, 25 0, 0625
2 1 0, 332 0, 11
3 1 0, 25 0, 0625
3 1 0, 332 0, 11
4 1 0, 25 0, 0625
≈ 1, 0
P
3 0, 33 P
4 1, 0 0, 25

152 / 207
Streuungsmaße:
Herfindahl-Streuungsmaß

I Wenn alle Beobachtungen auf eine Kategorie entfallen, gilt immer


HF = 0.
I Folglich kann HF minimal den Wert 0 annehmen. Dies entspricht der
geringsten Streuung bzw. der höchsten Konzentration.
I Das Maximum von HF ist dagegen nicht klar definiert. Es ist
abhängig von der Zahl der Kategorien k: HFmax = k−1/k .
I Eine Lösung ist die Normierung des Merkmalsraums:

k
RHF = · HF , RHF ∈ [0, 1]
k −1

153 / 207
Praxishinweis

I Mittelwerte, Varianz und Standardabweichung sind aus Sicht der


formalen statistischen Theorie erst ab metrischem Skalenniveau
sinnvoll interpretierbar!
I In der Praxis werden diese Maßzahlen allerdings häufig auch für
ordinalskalierte Variablen berechnet.
I Klausurhinweis: Hier gilt die formale statistische Theorie!

154 / 207
Konzentrationsmaße

I Konzentrationsmaße beschreiben die Verteilung der Datensumme auf


die Merkmalsträger.
I Was heißt das? Konzentrationsmaße beschreiben die
(Verteilungs-)Ungleichheit zwischen den Untersuchungseinheiten.
Beispiele:
I Ungleichheit der Einkommen
I Ungleichheit der Vermögen
I Aber auch: Ungleichheit der Marktanteile von Unternehmen

155 / 207
Entwicklung der Einkommensungleichheit
in Deutschland

I Entwicklung der Einkommensungleichheit in Deutschland, gemessen


über den Gini-Koeffizienten (auch Gini-Index).

Abbildung 30: Gini-Index in Deutschland, 1983-2012

Quelle: SOEP v30; Corneo (2015): Kreuz und Quer durch die deutsche Einkommensverteilung. Perspektiven der
Wirtschaftspolitik, 16(2). 156 / 207
Entwicklung der Vermögensungleichheit
in Deutschland

Abbildung 31: Ungleichheit der Vermögen in Deutschland, 2002 und 2007

Quelle: SOEP; Frick & Grabka (2009): Gestiegene Vermögensungleichheit in Deutschland. DIW Wochenbericht, 76(4).
157 / 207
Konzentrationsmaße:
Dezilverhältnis

I Das einfachste Konzentrationsmaß ist das Dezilverhältnis (auch


Dezil-Ratio), das sich ab dem metrischen Skalenniveau sinnvoll
berechnen lässt.
I Typischerweise wird das Verhältnis zwischen dem ersten und neunten
Dezil (D1 , D9 ) betrachtet:

D9 x0,9
DR = =
D1 x0,1
I Entsprechende Berechnungen lassen sich für beliebige p-Quantile
durchführen:
xp
QR = 1 , mit xp1 > xp2
xp2
I Stata Example 6 (inequality.do)

158 / 207
Einkommensungleichheit in Deutschland
Ergebnisse von Stata

I x0,9/x0,1 = 5400/1400 = 3, 86
I x0,99/x0,01 = 11000/495 = 22, 22

Abbildung 32: Bruttoeinkommensverteilung mit p-Quantilen


.0004
.0003
Dichte
.0002
.0001

x0,10 x0,90
x0,01 x0,99
0

0 5000 10000
Bruttoeinkommen / Monat

Quelle: SOEP 2009. Anmerkung: Nur Vollzeiterwerbstätige.


159 / 207
Lorenzkurve

I Quantilverhältnisse drücken Ungleichheit durch den Vergleich von


zwei Punkten in der Verteilung aus.
I Die Lorenzkurve beschreibt Ungleichheit über die gesamte Verteilung.

Abbildung 33: Lorenzkurve der Bruttoerwerbseinkommen


Gini = 0.31
1
Kummulierter Anteil am Gesamteinkommen
.2 .4 0 .6 .8

0 10 20 30 40 50 60 70 80 90 100
Bevölkerungsanteil (Dezile)

Quelle: SOEP 2009. Anmerkung: Nur Vollzeiterwerbstätige.


160 / 207
Konzentrationsmaße:
Lorenzkurve

I Die Lorenzkurve . . .
I trägt auf der Y-Achse den (kumulierten) Anteil an der Gesamtsumme
Pj
xi
ςj = Pni=1
x
i=1 i

und . . .
I auf der X-Achse den Anteil der Merkmalsträger

j
Fj =
n
. . . ab.
I Die Lorenzkurve ergibt sich dann als Streckenzug durch die Punkte
(0, 0), (F1 , ς1 ), (F2 , ς2 ), . . . , (Fn , ςn ) = (1, 1) und lässt sich ab dem
metrischen Skalenniveau berechnen.

161 / 207
Konzentrationsmaße: Lorenzkurve
und Gini-Koeffizient

I Einfacher: Welcher Anteil j der Bevölkerung (X-Achse) hat welchen


Anteil am Gesamteinkommen (Y-Achse)?
I Bei einer perfekten Gleichverteilung entspricht die Lorenzkurve der
Diagonalen durch die Punkte (0, 0) und (1, 1).
I Je ausgeprägter die Ungleichheit, desto größer wird die Abweichung
von der Diagonalen.
I Dabei weist die Lorenzkurve folgende Eigenschaften auf:
I Konvexität (nach unten gewölbt)
I Monotonie (Werte auf beiden Achsen bleiben gleich oder steigen,
können aber nicht kleiner werden.)
I In der Praxis wird die Lorenzkurve häufig nicht über die einzelnen
Beobachtungen (j = 1, . . . , n), sondern über Dezile, Quintile oder
Ähnliches gezeichnet.
162 / 207
Konzentrationsmaße:
Gini-Koeffizient

I Der Gini-Koeffizient beschreibt die Lorenzkurve nummerisch und lässt


sich ab metrischem Skalenniveau sinnvoll interpretieren.
I Er entspricht dem Anteil der Fläche zwischen Diagonale und X-Achse,
der durch die Lorenzkurve eingenommen wird, bzw. der doppelten
Fläche zwischen Diagonalen und Lorenzkurve.
I Der Gini-Koeffizient lässt sich aus der geordneten Urliste
x(1) ≤ · · · ≤ x(n) berechnen:

2 ni=1 ixi
P
n+1
G= −
n ni=1 xi
P
n

Dabei gilt Gmin = 0 und Gmax = n−1/n.

163 / 207
Lorenzkurve und Gini-Koeffizient -
Beispiele

I Vier (fiktive) Beispiele: Lorenzkurve und Gini-Koeffizienten.

Abbildung 34: Lorenzkurven und Gini-Koeffizienten - (fiktive) Beispiele


Kummulierter Anteil an Gesamtsumme

Kummulierter Anteil an Gesamtsumme


Gini = 0.34 Gini = 0.28
1

1
.8

.8
.6

.6
.4

.4
.2

.2
0

0
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Anteil Merkmalsträger Anteil Merkmalsträger
Kummulierter Anteil an Gesamtsumme

Kummulierter Anteil an Gesamtsumme


Gini = 0.40 Gini = 0.90
1

1
.8

.8
.6

.6
.4

.4
.2

.2
0

0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Anteil Merkmalsträger Anteil Merkmalsträger

164 / 207
Lorenzkurve und Gini-Koeffizient -
Beispielberechnung

Tabelle 35: Streckenzug der Lorenzkurve berechnen


i Fj xi ςj
1 0, 2 60 0, 12
2 0, 4 80 0, 28
3 0, 6 100 0, 48
4 0, 8 120 0, 72
5 1, 0 140 1, 00
P
500
I Berechnung des Gini-Koeffizienten:
2(1 · 60 + 2 · 80 + 3 · 100 + 4 · 120 + 5 · 140) 5 + 1
G= −
5 · 500 5
2 · 1700 6
= − = 0, 16
2500 5
165 / 207
Lorenzkurve und Gini-Koeffizient -
Beispielberechnung

I Abtragen der Lorenzkurve entsprechend des berechneten


Streckenzugs.

Abbildung 35: Lorenzkurve aus Rechenbeispiel


1
Kummulierter Anteil an Gesamtsumme
.2 .4 0 .6 .8

0 10 20 30 40 50 60 70 80 90 100
Anteil Merkmalsträger

166 / 207
Kurzübung 6

Kurzübung zu Lorenzkurven
1. Schauen Sie sich die beiden Lorenzkurven an und interpretieren Sie
diese.
2. Wie sehen wohl die Gini-Koeffizienten der beiden Lorenzkurven aus?

Abbildung 36: Lorenzkurve aus Rechenbeispiel


1

1
Kummulierter Anteil am Gesamteinkommen

Kummulierter Anteil am Gesamteinkommen


.8

.8
.6

.6
.4

.4
.2

.2
0

0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Anteil Bevölkerung Anteil Bevölkerung

167 / 207
Kurzübung 6 - Lösung

I Linke Abbildung: Die unteren 40% der Bevölkerung verdienen 25%


des Gesamteinkommens.
I Rechte Abbildung: Die unteren 80% der Bevölkerung verdienen 65%
des Einkommens.
I Der Gini-Koeffizient beider Lorenzkurven ist identisch (G = 0, 15).
I Lorenzkurven mit unterschiedlichen Formen können identische
Gini-Koeffizienten aufweisen
I Grundsätzlich sollten Lorenzkurven nur verglichen werden, wenn sie
sich nicht überschneiden.
Beispiel: Wo ist die Ungleichheit größer, in den USA oder in
Deutschland? (siehe dazu Jann (2005), S. 57)

167 / 207
Konzentrationsmaße:
Normierter Gini-Koeffizient

I Das Minimum des Gini-Koeffizienten ist Gmin = 0.


I Das Maximum des Gini-Koeffizienten beträgt Gmax = n−1/n.
I Normierung des Gini-Koeffizienten:

G n
G∗ = = · G , mit G ∗ ∈ [0, 1]
Gmax n−1

168 / 207
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 3.2.4.
I Für Interessierte:
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 2.3.

169 / 207
Einführung in die sozialwissenschaftliche Statistik
Bivariate Deskription: Kreuztabellen und Zusammenhangsmaße

Prof. Dr. Alexander Schmidt-Catran

Professur für Soziologie mit dem Schwerpunkt Methoden der quantitativen empirischen
Sozialforschung

#7
(28.11.2018)

170 / 207
Externe Bekanntmachungen

I Vorstellung Methodenzentrum
I Umfrage Methodenzentrum
I Interviewer*innen gesucht

170 / 207
Interne Bekanntmachungen:
Klausur und Probeklausur

I Abschlussklausur
I 14.02.2019 zwischen 12:00 und 18:00 Uhr. Sie können aus drei
möglichen Slots wählen: 12-14, 14-16 oder 16-18 Uhr.
I Anmeldung unter https://anmeldung.lplus.rz.uni-frankfurt.de. Eine
Anmeldung ist zwingend erforderlich! Anmeldung möglich ab
01.12.2018.
I Räume: PEG 1.G078, PEG 1.G083, RuW 1.302. Der konkrete Raum
wird bei der Anmeldung zugewiesen.

170 / 207
Interne Bekanntmachungen:
Klausur und Probeklausur

I Probeklausur
I Änderungen: Sie müssen nur eine Probeklausur schreiben.
I Sie können dort Punkte für die Abschlussklausur sammeln:
Sehr gut = 3 Punkte, gut = 2 Punkte, befriedigend = 1 Punkt.
I Die Teilnahme an der Probeklausur ist Voraussetzung für die
Teilnahme an der Abschlussklausur.
I 31.01.2019 zwischen 10:00 und 14:00 Uhr oder 01.02.2019 zwischen
10:00 und 18:00 Uhr. Sie müssen aus sechs möglichen Slots einen
auswählen.
I Anmeldung unter https://anmeldung.lplus.rz.uni-frankfurt.de. Eine
Anmeldung ist zwingend erforderlich! Anmeldung ab sofort möglich.
I Räume: PEG 1.G078, PEG 1.G083, RuW 1.302. Der konkrete Raum
wird bei der Anmeldung zugewiesen.

170 / 207
Kurze Erinnerung

I Letzte Woche haben wir über Konzentrationsmaße gesprochen und


damit den Bereich der univariaten Deskription abgeschlossen.
I Konzentrationsmaße:
I Dezilverhältnisse: Verhältnis ausgewählter Dezile zueinander, zulässig
ab metrischem Skalenniveau.
I Gini-Koeffizient: Beschreibt Konzentration der Daten über gesamten
Merkmalsraum, zulässig ab metrischem Skalenniveau.
I Insgesamt kennen wir nun die zentralen Lagemaße:
I Modus: Der häufigste Wert, zulässig ab Nominalskala.
I Median: Der mittlere Wert einer geordneten Urliste, zulässig ab
Ordinalskala.
I Arithmetisches Mittel: Der durchschnittliche Wert (x̄ = 1/n ni=1 xi ),
P
zulässig ab Intervallskala.

171 / 207
Kurze Erinnerung

I Außerdem kennen wir die wichtigsten Streuungsmaße:


I Quantilsabstände: Abstände zwischen ausgewählten p-Quantilen,
zulässig ab metrischem Skalenniveau.
I Varianz: Beschreibt die durchschnittliche quadrierte Abweichung vom
Mittelwert, zulässig ab metrischem Skalenniveau.
I Standardabweichung: Entspricht der Wurzel der Varianz.
I Herfindahl-Streuungsmaß: Beschreibt die Streuung/ Konzentration bei
topologischen Skalen.
I Heute beginnen wir mit der bivariaten Deskription, also mit der
Beschreibung von Zusammenhängen zwischen zwei Variablen X und
Y . Zunächst betrachten wir Kreuztabellen.

172 / 207
Bivariate Datenanalyse

I Bivariate Analysen betrachten zwei Variablen X und Y gleichzeitig.


Beispiel: Einkommen (Y ) und Geschlecht (X ).
I Dabei wird gefragt, ob zwischen X und Y ein Zusammenhang
besteht.
I Wir unterscheiden hier zwischen . . .
I der (einfachen) Analyse von Zusammenhängen, und . . .
I der Kausalanalyse, in der wir davon ausgehen, dass ein Merkmal X (die
unabhängige Variable) eine Ursache für das Auftreten des anderen
Merkmals Y (der abhängigen Variablen) ist.
I Kausalanalysen sind mit Beobachtungsdaten sehr schwierig, mit
experimentellen Studien leichter.
I In der Einführung beschäftigen wir uns daher vornehmlich mit
einfachen Zusammenhängen.
I Einfache und kausale Zusammenhänge lassen sich in Maßzahlen des
Zusammenhangs ausdrücken.

173 / 207
Bivariate Datenanalyse

I Fragestellungen in der bivariaten Analyse:


I Besteht ein Zusammenhang und wie stark ist dieser?
I Welche Richtung weist ein Zusammenhang auf? Hierfür sind
mindestens ordinal-skalierte Variablen nötig.
I Ist der Zusammenhang kausal?
I Ist der Zusammenhang signifikant, d.h. gilt er auch in der
Grundgesamtheit oder kann er durch Stichprobenfehler erklärt werden?
Dazu mehr im Themenblock Inferenzstatistik.
I Die Auswahl des richtigen Zusammenhangsmaßes hängt ab von . . .
I dem Skalenniveau der beteiligten Variablen, und . . .
I bei mindestens ordinal-skalierten Variablen von der Art des
Zusammenhangs (linear oder nicht-linear).

174 / 207
Kreuztabellen

I Kreuztabellen (auch Kontingenztabellen) sind zwei-dimensionale


Häufigkeitstabellen.
I Sie eignen sich insbesondere für nominal- und ordinal-skalierte
Variablen mit wenigen Ausprägungen.
I Wie bei der Häufigkeitstabelle lassen sich auch metrische Variablen in
Kreuztabellen darstellen, diese müssen dann aber in der Regel
gruppiert werden. Beispiel: Zusammenhang von Alter und
Einkommen.
I Typischerweise wird die unabhängige Variable (X ) in den Spalten und
die abhängige Variable (Y ) in den Zeilen der Tabelle angeordnet. Wir
sprechen hier von der Zeilen- und der Spaltenvariable.
I Stata Example 7 (crosstable.do)

175 / 207
Kreuztabellen in Stata

. tabulate party_voted_DE gndr if party_voted_DE <7, cell nofre

| Gender
party_voted_DE | Male Female | Total
----------------------+----------------------+----------
CDU/CSU | 19.58 18.86 | 38.44
SPD | 15.31 12.81 | 28.12
Die Linke | 6.88 3.83 | 10.70
Bündnis 90/ Die Grüne | 6.77 6.66 | 13.42
FDP | 3.55 2.55 | 6.10
AfD | 2.11 1.11 | 3.22
----------------------+----------------------+----------
Total | 54.19 45.81 | 100.00

Quelle: ESS 8, Edition 1.0.

176 / 207
Die Kreuztabelle -
ein Beispiel

I Das Beispiel zeigt eine Kreuztabelle mit relativen Häufigkeiten.


I Im Beispiel ist die Parteipräferenz die Zeilenvariable und das
Geschlecht die Spaltenvariable.

Tabelle 36: Kreuztabelle - Parteipräferenz und Geschlecht


Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,1958 0,1886 0,3844
SPD 0,1531 0,1281 0,2812
Linke 0,0688 0,0383 0,1070
Grüne 0,0677 0,0666 0,1342
FDP 0,0355 0,0255 0,0610
AfD 0,0211 0,0111 0,0322
Gesamt 0,5419 0,4581 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
177 / 207
Die Kreuztabelle -
ein Beispiel

I Interpretation: Ein Anteil von 0,1985 (bzw. 19,85%) der Befragten ist
männlich und hat die CDU gewählt.
I Randhäufigkeiten: Ein Anteil von 0,5419 der Befragten ist männlich.

Tabelle 37: Kreuztabelle - Parteipräferenz und Geschlecht


Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,1958 0,1886 0,3844
SPD 0,1531 0,1281 0,2812
Linke 0,0688 0,0383 0,1070
Grüne 0,0677 0,0666 0,1342
FDP 0,0355 0,0255 0,0610
AfD 0,0211 0,0111 0,0322
Gesamt 0,5419 0,4581 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
178 / 207
Die Kreuztabelle -
relative Häufigkeiten

I Lässt sich aus dieser Tabelle der Zusammenhang zwischen


Parteipräferenz und Geschlecht ablesen?

Tabelle 38: Kreuztabelle - Parteipräferenz und Geschlecht


Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,1958 0,1886 0,3844
SPD 0,1531 0,1281 0,2812
Grüne 0,0688 0,0383 0,1070
Linke 0,0677 0,0666 0,1342
FDP 0,0355 0,0255 0,0610
AfD 0,0211 0,0111 0,0322
Gesamt 0,5419 0,4581 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
179 / 207
Die Kreuztabelle -
bedingte relative Häufigkeiten

I Nein! Dafür sind bedingte relative Häufigkeiten notwendig.


I Diese berechnen Anteile nicht über alle Zellen, sondern innerhalb
einzelner Zeilen/ Spalten; hier Spaltenanteile/-prozente.

Tabelle 39: Kreuztabelle - Parteipräferenz und Geschlecht


Geschlecht
Parteipräferenz Gesamt
Männlich Weiblich
CDU/CSU 0,3613 0,4116 0,3844
SPD 0,2825 0,2797 0,2812
Linke 0,1269 0,0835 0,1070
Grüne 0,1249 0,1453 0,1342
FDP 0,0655 0,0557 0,0610
AfD 0,0389 0,0242 0,0322
Gesamt 1,0000 1,0000 1,0000
Quelle: ESS 8, Edition 1.0. Anmerkungen n = 1.803.
180 / 207
Die Kreuztabelle - bedingte und
unbedingte relative Häufigkeiten

I In einer Kreuztabelle können relative Häufigkeiten auf drei Arten


berechnet werden:
I Unbedingte Häufigkeiten (bzw. Prozente): Die einzelnen
Zellhäufigkeiten werden durch n geteilt.
I Bedingte relative Häufigkeiten (bzw. Prozente): Die einzelnen
Zellhäufigkeiten werden durch Randhäufigkeiten geteilt.
I Spaltenanteile/ -prozente: Die Häufigkeiten innerhalb einer Spalte
werden durch die Randhäufigkeit dieser Spalte geteilt.
I Zeilenanteile/ -prozente: Die Häufigkeiten innerhalb einer Zeile werden
durch die Randhäufigkeit dieser Zeile geteilt.
I Randhäufigkeiten entsprechen der Summe aller absoluten Häufigkeiten
in einer Zeile oder Spalte.
I Typischerweise werden Kreuztabellen mit Spaltenanteilen bzw.
-prozenten dargestellt. Dies folgt aus der Logik der abhängigen und
unabhängigen Variable: Wie bedingt (lese: beeinflusst) die unabhängige
Variable (Spalten) die Verteilung der abhängigen Variablen (Zeilen)?

181 / 207
Die Kreuztabelle - abstrakte Darstellung
absoluter Häufigkeiten
I Abstrakte Darstellung einer Kreuztabelle mit absoluten Häufigkeiten.
I hij gibt die absoluten Häufigkeiten der Kombination (ai , bj ) an
I hi. = m
P
hij gibt die Randhäufigkeiten (Zeilensumme) von ai an
Pj=1
I h.j = ki=1 hij gibt die Randhäufigkeiten (Spaltensumme) von bj an

Tabelle 40: Kreuztabelle mit absoluten Häufigkeiten - abstrakte Darstellung


X Pm
Y j=1
b1 ··· bj ··· bm
a1 h11 ··· h1j ··· h1m h1.
.. .. .. .. . .. ..
. . . . .. . .
ai hi1 ··· hij ··· him hi.
.. .. . .. .. .. ..
. . .. . . . .
ak hk1 ··· hkj ··· hkm hk.
Pk
i=1 h.1 ··· h.j ··· h.m n
182 / 207
Die Kreuztabelle - abstrakte Darstellung
relativer Häufigkeiten
I Abstrakte Darstellung einer Kreuztabelle mit relativen Häufigkeiten.
I fij = hij/n
I fi. = m
P
fij = hi./n
Pj=1k
I f.j = i=1 fij = h.j/n

Tabelle 41: Kreuztabelle mit relativen Häufigkeiten - abstrakte Darstellung


X Pm
Y j=1
b1 ··· bj ··· bm
a1 f11 ··· f1j ··· f1m f1.
.. .. .. .. . .. ..
. . . . .. . .
ai fi1 ··· fij ··· fim fi.
.. .. . .. .. .. ..
. . .. . . . .
ak fk1 ··· fkj ··· fkm fk.
Pk
i=1 f.1 ··· f.j ··· f.m 1
183 / 207
Die Kreuztabelle - abstrakte Darstellung
bedingter relativer Häufigkeiten

I Kreuztabelle mit bedingten relativen Häufigkeiten (Spaltenanteile).


I fY (ai |bj ) = fi|j = hij/h.j (bedingte relative Zellhäufigkeiten)
I fi. = m
P
j=1 fij = /n (relative Randhäufigkeiten)
hi.

Tabelle 42: Kreuztabelle mit bedingten relativen Häufigkeiten


X
Y fi.
b1 ··· bj ··· bm
a1 fY (a1 |b1 ) ··· fY (a1 |bj ) ··· fY (a1 |bm ) f1.
.. .. .. .. . .. ..
. . . . .. . .
ai fY (ai |b1 ) ··· fY (ai |bj ) ··· fY (ai |bm ) fi.
.. .. . .. .. .. ..
. . .. . . . .
ak fY (ak |b1 ) ··· fY (ak |bj ) ··· fY (ak |bm ) fk.
Pk
i=1 1 ··· 1 ··· 1 1
184 / 207
Interpretation bedingter
relativer Häufigkeiten

I Ein etwaiger Zusammenhang zwischen X und Y lässt sich aus dem


Vergleich der bedingten relativen Häufigkeiten ablesen.
I Typischerweise werden hierfür Spaltenanteile/ -prozente verwendet.
I Frage: Ist die Verteilung der Kategorien der Variable Y
(a1 , a2 , . . . , ak ) abhängig von dem Wert der Variable X
(b1 , b2 , . . . , bk )?
I Wenn sich die Spaltenanteile unterscheiden, besteht ein
Zusammenhang
I Wenn sich die Spaltenanteile nicht unterscheiden, besteht kein
Zusammenhang

185 / 207
Kurzübung 7

Kurzübung zur Kreuztabelle


Schauen Sie sich die folgende Tabelle an, die absolute Häufigkeiten angibt,
und transformieren Sie diese Tabelle in . . .
1. eine Kreuztabelle mit relativen Häufigkeiten
2. eine Kreuztabelle mit bedingten relativen Häufigkeiten
(Spaltenanteile)

Tabelle 43: Kurzübung: Kreuztabelle - Geschlecht und AfD-Wahl


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93
Nein 354 422
Gesamt
Anmerkung: Zahlen basieren auf einem FAZ-Artikel über eine Infratest dimap-Umfrage. Die absoluten Häufigkeiten sind fiktiv,
spiegeln aber die relativen Häufigkeiten wider.
186 / 207
Kurzübung 7 - Lösung

I Randhäufigkeiten der Zeilenvariable:


I AfD-Wähler Ja: 224 = 131 + 93
I AfD-Wähler Nein: 776 = 354 + 422
I Randhäufigkeiten der Spaltenvariable:
I Männer: 485 = 131 + 354
I Frauen: 515 = 93 + 422
I Gesamtsumme: 1.000 = 485 + 515 = 224 + 776 = n.

Tabelle 44: Kurzübung: Geschlecht und AfD-Wahl


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93 224
Nein 354 422 776
Gesamt 485 515 1.000
Anmerkung: Zahlen basieren auf einem FAZ-Artikel über eine Infratest dimap-Umfrage. Die absoluten Häufigkeiten sind fiktiv,
spiegeln aber die relativen Häufigkeiten wider.
186 / 207
Kurzübung 7 - Lösung

I Berechnung der relativen Häufigkeiten: Absolute Häufigkeiten hij


geteilt durch Gesamtzahl aller Beobachtungen n.

Tabelle 45: Kurzübung: Geschlecht und AfD-Wahl - relative Häufigkeiten


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131/1000 = 0, 131 93/1000 = 0, 093 224/1000= 0, 224
Nein 354/1000 = 0, 354 422/1000 = 0, 422 776/1000= 0, 776
Gesamt 485/1000 = 0, 485 515/1000 = 0, 515 1000/1000 = 1, 000

Anmerkung: Zahlen basieren auf einem FAZ-Artikel über eine Infratest dimap-Umfrage. Die absoluten Häufigkeiten sind fiktiv,
spiegeln aber die relativen Häufigkeiten wider.

186 / 207
Kurzübung 7 - Lösung

I Berechnung der bedingten relativen Häufigkeiten: Absolute


Häufigkeiten hij geteilt durch absolute Randhäufigkeiten der Spalte j
(fi|j = hij/h.j ).

Tabelle 46: Kurzübung: Geschlecht und AfD-Wahl - bedingte relative


Häufigkeiten
Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131/485 = 0, 270 93/515 = 0, 181 224/1000 = 0, 224
Nein 354/485 = 0, 730 422/515 = 0, 819 776/1000 = 0, 776
Gesamt 1 1 1
Anmerkung: Zahlen basieren auf einem FAZ-Artikel über eine Infratest dimap-Umfrage. Die absoluten Häufigkeiten sind fiktiv,
spiegeln aber die relativen Häufigkeiten wider.

186 / 207
Kurzübung 7 - Lösung

I Interpretation: 27% der Männer wählen die AfD, während 18,1% der
Frauen die AfD wählen. Es scheint also einen Zusammenhang
zwischen Geschlecht und der Wahl der AfD zu geben. Männer haben
eine höhere Neigung, die AfD zu wählen.
I Der Zusammenhang ergibt sich aus dem Vergleich der bedingten
relativen Häufigkeit.

Tabelle 47: Kurzübung: Geschlecht und AfD-Wahl - bedingte relative


Häufigkeiten
Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 0,270 0,181 0,224
Nein 0,730 0,819 0,776
Gesamt 1 1 1
Anmerkung: Zahlen basieren auf einem FAZ-Artikel über eine Infratest dimap-Umfrage. Die absoluten Häufigkeiten sind fiktiv,
spiegeln aber die relativen Häufigkeiten wider.
186 / 207
Das Konzept der
statistischen (Un-)Abhängigkeit

I Vier Kreuztabellen mit absoluten Häufigkeiten.

Unabhängigkeit Schwacher Zusammenhang


X P X P
Y Y
b1 b2 b1 b2
a1 50 50 100 a1 60 40 100
a2 50 50 100 a2 40 60 100
P P
100 100 200 100 100 200

Starker Zusammenhang Perfekter Zusammenhang


X P X P
Y Y
b1 b2 b1 b2
a1 80 20 100 a1 100 0 100
a2 20 80 100 a2 0 100 100
P P
100 100 200 100 100 200
187 / 207
Das Konzept der
statistischen (Un-)Abhängigkeit

I Zwei Variablen X und Y sind voneinander unabhängig wenn die


Ausprägungen der unabhängigen Variablen X (b1 , b2 , . . . , bm ) keinen
Einfluss auf die Verteilung der bedingten relativen Häufigkeiten der
Ausprägungen von Y (a1 , a2 . . . , aK ) haben.
I Folglich entspricht die Verteilung Y |X = ai für alle i der
Randverteilung von Y.
I Da Kreuztabellen symmetrisch sind (die Zeilen- und Spaltenvariablen
können auch getauscht werden) gilt ebenfalls, dass X |Y = bj für alle
j der Randverteilung von X entspricht.

188 / 207
Zusammenhangsmaße ab
nominalem Skalenniveau

I Wie lassen sich die Zusammenhänge in einer Kreuztabelle in


Maßzahlen ausdrücken?
I In 2x2-Kreuztabellen können berechnet werden:
I Die Prozentsatzdifferenz
I Die Odds-Ratio
I Der Chi2 -Koeffizient (χ2 )
I Das Chi2 -basierte Phi (φ)
I In kxm-Tabellen, die bei der Analyse von nicht-dichotomen Variablen
vorkommen, müssen andere Maßzahlen berechnet werden:
I Chi2 -Koeffizient (χ2 )
I Das Chi2 -basierte Cramer’s V
I Viele weitere Maßzahlen, die wir hier nicht behandeln

189 / 207
Zusammenhangsmaße für 2x2-Tabellen:
Die Prozentsatzdifferenz

I Die Prozentsatzdifferenz:
h11 h12
 
d% = − · 100 = (fY (a1 |b1 ) − fY (a1 |b2 )) · 100
h.1 h.2
I Im Beispiel: d% = (0, 270 − 0, 181) · 100 = 8, 9
I Interpretation: Der Unterschied zwischen Männern und Frauen
beträgt 8,9 Prozentpunkte!

Tabelle 48: Prozentsatzdifferenz in 2x2-Tabellen


Geschlecht X
AfD Gesamt Y fi.
M W b1 b2
Ja 0,270 0,181 0,224 a1 fY (a1 |b1 ) fY (a1 |b2 ) f1.
Nein 0,730 0,819 0,776 a2 fY (a2 |b1 ) fY (a2 |b2 ) f2.
P2
Gesamt 1 1 1 i=1 1 1 1
190 / 207
Zusammenhangsmaße für 2x2-Tabellen:
Die Prozentsatzdifferenz

I Die Prozentsatzdifferenz nimmt Werte zwischen −100 und +100 an.


I Bei nominal-skalierten Variablen ist die Richtung allerdings nicht
informativ, da die Reihenfolge der Kategorien beliebig ist.
I Werte von ±100 ergeben sich bei einem perfekten Zusammenhang.
I Werte von 0 ergeben sich bei Unabhängigkeit.
I Probleme:
I Nur in 2x2-Tabellen anwendbar
I Kann aus Spalten- und Zeilensichtweise unterschiedliche Werte
einnehmen. Daher muss vor der Analyse theoretisch geklärt werden,
welche die abhängige und welche die unabhängige Variable ist

191 / 207
Odds: Was ist das?

I Odds sind eine Möglichkeit, Wahrscheinlichkeiten wiederzugeben. Sie


geben das Verhältnis von einer Wahrscheinlichkeit p zu ihrer
Gegenwahrscheinlichkeit (1 − p) an.
I Im Deutschen können wir von Chancen oder Risiken sprechen (je
nach Variable).
I Beispiele:
I Die Wahrscheinlichkeit, beim Roulette zu gewinnen, wenn man auf
Schwarz setzt, ist p=0,5. Dies entspricht einer Chance (Odds) von 1/1.
I Die Wahrscheinlichkeit, beim Würfeln eine 1 zu bekommen, ist
p = 0, 1667. Dies entspricht einer Chance von 1/5
(0,1667/(1−0,1667) ≈ 0, 2)
I Umgekehrt gedacht: Ein Odds von 3 bedeutet, dass eine
Wahrscheinlichkeit (p) dreimal so groß ist wie ihre
Gegenwahrscheinlichkeit (1 − p), d.h. p = 0, 75 (0,75/3 = 0, 25)

192 / 207
Zusammenhangsmaße für 2x2-Tabellen:
Das Odds-Ratio

I Das Odds-Ratio/ Chancenverhältnis (auch Kreuzproduktverhältnis):


h11
h21 h11 h22
OR = h12
=
h22
h21 h12
I Im Beispiel: (131/354)/(93/422) = (131·422)/(354·93) = 1, 679
I Interpretation: Die Odds (die AfD zu wählen) sind für Männer 1,679
mal größer als für Frauen!

Tabelle 49: Odds Ratios in 2x2-Tabellen


Geschlecht X P2
AfD Gesamt Y j=1
M W b1 b2
Ja 131 93 224 a1 h11 h12 h1.
Nein 354 422 776 a2 h21 h22 h2.
P2
Gesamt 485 515 1.000 i=1 h.1 h.2 n
193 / 207
Das Odds-Ratio:
Beispiele mit OR≥ 1

Unabhängigkeit Schwacher Zusammenhang


X P X P
Y Y
b1 b2 b1 b2
a1 50 50 100 a1 60 40 100
a2 50 50 100 a2 40 60 100
P P
100 100 200 100 100 200
OR = 50·50/50·50 = 1 OR = 60·60/40·40 = 2, 25

Starker Zusammenhang Perfekter Zusammenhang


X P X P
Y Y
b1 b2 b1 b2
a1 80 20 100 a1 100 0 100
a2 20 80 100 a2 0 100 100
P P
100 100 200 100 100 200
OR = 80·80/20·20 = 16 OR = 100·100/0·0 → ∞
194 / 207
Das Odds-Ratio:
Beispiele mit OR≤ 1

Unabhängigkeit Schwacher Zusammenhang


X P X P
Y Y
b1 b2 b1 b2
a1 50 50 100 a1 40 60 100
a2 50 50 100 a2 60 40 100
P P
100 100 200 100 100 200
OR = 50·50/50·50 = 1 OR = 40·40/60·60 = 0, 443

Starker Zusammenhang Perfekter Zusammenhang


X P X P
Y Y
b1 b2 b1 b2
a1 20 80 100 a1 0 100 100
a2 80 20 100 a2 100 0 100
P P
100 100 200 100 100 200
OR = 20·20/80·80 = 0, 0625 OR = 0·0/100·100 = 0
195 / 207
Zusammenfassung: Odds-Ratio

I Odds-Ratios drücken das Verhältnis zweier bedingter Chancen (Odds)


aus.
I Es gilt OR ∈ [0, ∞], und
I OR = 1, wenn kein Zusammenhang besteht.
I Je nachdem, ob OR ≤ 1 oder OR ≥ 1, sind die Chancen in der einen
oder der anderen Bedingung (b1 , b2 ) höher.
I Die Stärke eines Zusammenhangs drückt sich entsprechend
folgendermaßen aus:
I OR ≤ 1: Je stärker der Zusammenhang, desto kleiner wird das
Odds-Ratio (OR → 0)
I OR ≥ 1: Je stärker der Zusammenhang, desto größer wird das
Odds-Ratio (OR → ∞)

196 / 207
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient

I Frage: Welche Häufigkeiten ergäben sich bei statistischer


Unabhängigkeit?

Tabelle 50: AfD-Wahl und Geschlecht - zurück zum Beispiel


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93 224
Nein 354 422 776
Gesamt 485 515 1.000

197 / 207
Erwartete Häufigkeiten bei
Unabhängigkeit

I Frage: Welche Häufigkeiten ergäben sich bei statistischer


Unabhängigkeit?

Tabelle 51: Erwartete Häufigkeiten bei Unabhängigkeit


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja (485·224)/1000 = 108, 64 (515·224)/1000 = 115, 36 224
Nein (485·776)/1000 = 376, 36 (515·776)/1000 = 399, 64 776
Gesamt 485 515 1.000

198 / 207
Erwartete Häufigkeiten bei
Unabhängigkeit - abstrakte Darstellung

I Die erwarteten (Zell-)Häufigkeiten bei Unabhängigkeit ergeben sich


aus dem Produkt der Randhäufigkeiten geteilt durch n:
hi. h.j hi. h.j
h˜ij = · h.j = fi. h.j = hi. · = hi. f.j =
n n n
I Die daraus berechneten bedingten relativen Häufigkeiten entsprechen
den beobachten relativen Randhäufigkeiten.

Tabelle 52: Erwartete Häufigkeiten bei Unabhängigkeit - formale Darstellung


X
Y fi.
b1 b2
a1 h̃11 = (h1. h.1 )/n h̃12 = (h1. h.2 )/n h1.
a2 h̃21 = (h2. h1. )/n h̃22 = (h2. h2. )/n h2.
P2
i=1 h.1 h.2 n
199 / 207
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient

I Der Chi2 -Koeffizient basiert auf den Abweichungen zwischen


beobachteten und erwarteten Häufigkeiten.
I Die Summe aller Abweichungen von den erwarteten Häufigkeiten ist
aber zwingend null.

Tabelle 53: Berechnung des Chi2 -Koeffizienten


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131−108,64=22,36 93−115,36=−22,36 224
Nein 354−376,36=−22,36 422−399,64=22,36 776
Gesamt 485 515 1.000

200 / 207
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient

I Der Chi2 -Koeffizient entspricht der Summe der quadrierten


Abweichungen zwischen beobachteten und erwarteten Häufigkeiten,
jeweils geteilt durch die erwarteten Häufigkeiten:
k X
m
X (hij − h̃ij )2 hi. h.j
χ2 = , mit χ2 ≥ 0 und h̃ij =
i=1 j=1 h̃ij n

Tabelle 54: Berechnung des Chi2 -Koeffizienten


Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 22,362/108,64 −22,362/115,36 224
Nein −22,362/376,36 22,362/399,64 776
Gesamt 485 515 1.000
201 / 207
Zusammenhangsmaße für kxm-Tabellen:
Der Chi2 -Koeffizient

I Der Chi2 -Koeffizient im Beispiel:


k X
m 485·224 2
X (hij − h̃ij )2 (131 − 1000 )
χ2 = = 485·224
i=1 j=1 h̃ij 1000
485·776 2 515·224 2
(354 − 1000 ) (93 − 1000 ) (422 − 515·776
1000 )
2
+ 485·776 + 515·224 + 515·776
1000 1000 1000
=11, 516
Tabelle 55: Berechnung des Chi2 -Koeffizienten
Geschlecht
AfD-Wähler Gesamt
Männlich Weiblich
Ja 131 93 224
Nein 354 422 776
Gesamt 485 515 1.000
202 / 207
Zusammenfassung:
Der Chi2 -Koeffizient

I Der Chi2 -Koeffizient ist symmetrisch, d.h. unabhängig davon, welche


Variable abhängig oder unabhängig ist.
I Invariant gegenüber dem Vertauschen von Zeilen oder Spalten.
I Bei statistischer Unabhängigkeit gilt χ2 = 0.
I Bei 2x2-Tabellen gilt χ2max = n (bei perfektem Zusammenhang).
I Probleme: Der Wertebereich von χ2 ist abhängig von . . .
I den Dimensionen der Tabelle (k und m)
I der Fallzahl n
I φ und Cramer’s V nehmen sich dieses Problems an

203 / 207
Zusammenhangsmaße für Kreuztabellen:
Normierungen des Chi2 -Koeffizienten

I Phi lässt sich in 2x2-Tabellen berechnen. Es normiert den


Wertebereich von χ2 :
s
χ2 |h11 h22 − h21 h12 |
φ= = √
n h.1 h.2 h1. h2.
I Cramer’s V ist eine Verallgemeinerung von φ:
s
χ2
V =
n · min(k − 1, m − 1)

I Es gilt φ ∈ [0, 1] und V ∈ [0, 1].

204 / 207
Zusammenfassung: Zusammenhangsmaße
für nominal-skalierte Variablen

I Bei nominal-skalierten Variablen werden Zusammenhangsmaße


verwendet, die unabhängig von der Richtung des Zusammenhangs
sind.
I Diese Maßzahlen basieren · · ·
I entweder auf einem Vergleich der bedingten relativen Häufigkeiten
(Prozentsatzdifferenz) oder
I auf einem Vergleich der erwarteten Häufigkeiten unter der Annahme
statistischer Unabhängigkeit mit den beobachteten Häufigkeiten (Chi2 ,
Phi, Cramer’s V).
I Stata Example 8 (crosstable.do)

205 / 207
Zusammenhangsmaße
für ordinal-skalierte Variablen

I Ab ordinalem Skalenniveau wird die Richtung eines Zusammenhangs


relevant.
I Problem: Wir können keine Differenzen und/ oder Verhältnisse bilden.
I Es gibt daher verschiedene Zusammenhangsmaße, die auf einem
Vergleich von Wertepaaren basieren. Hierfür ist nur die Information
über die Rangordnung nötig.
I Kendall’s Taub
I Goodman und Kruskal’s Gamma
I Siehe dazu Jann (2005), S. 80ff.
I Wir behandeln diese Maße hier nicht! (und auch nicht in der Klausur)

206 / 207
Literatur

I Pflichtlektüre:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.1, 4.2.1, 4.2.2, 4.2.3.
I Für Interessierte:
Jann (2005): Einführung in die Statistik. 2. Auflage. München:
Oldenburg, Abschnitt 4.2.4 und 4.3.
Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse. 8.
Auflage. Berlin/ Heidelberg: Springer, Abschnitt 3.1, 3.2.

207 / 207