Beruflich Dokumente
Kultur Dokumente
4Univariate_StatistikII_eC-1
4Univariate_StatistikII_eC-1
Marc Hannappel
Universität Bonn
Institut für Politische Wissenschaft und Soziologie
mhannappel@uni-bonn.de
3. April 2024
13 08.07 Puffer
14 15.07 Klausur
Sie sollen die verschiedenen Maßzahlen der zentralen Tendenz erkennen und interpretieren können
Sie sollen die verschiedenen Maßzahlen der zentralen Tendenz berechnen können
Sie sollen die Streuungswerte erkennen und interpretieren
Sie sollen die Streuungsmaße für metrische Variablen berechnen können
Sie sollen die Maßzahlen zur Schiefe und Wölbung interpretieren können
Sie sollen die Maßzahlen zur Konzentration interpretieren können
Univariate Statistik
Graphische Numerische
Beschreibung von Beschreibung von
Verteilungen Verteilungen
Univariate Statistik
Graphische Numerische
Beschreibung von Beschreibung von
Verteilungen Verteilungen
Masszahlen
für
Verteilungen
zentrale Konzen-
Dispersion
Tendenz tration
1) Lagemaße, Maße der zentralen Tendenz: Wo liegt das Zentrum der Daten?
2) Streuungsmaße, Maße der Dispersion: Wie stark streuen die Daten um das Zentrum?
2) Maße der Schiefe und Wölbung: Symmetrie, Asymmetrie, Konzentration der Daten um das Zentrum?
3) Konzentrationsmaße: Konzentration der Datensumme auf die Merkmalsträger?
Definition
Der Modus ist der am häufigsten auftretende Wert. Er wird durch die Lage der einzelnen Merkmalswerte bestimmt.
Definition
Der Modus ist der am häufigsten auftretende Wert. Er wird durch die Lage der einzelnen Merkmalswerte bestimmt.
Definition
Der Modus ist der am häufigsten auftretende Wert. Er wird durch die Lage der einzelnen Merkmalswerte bestimmt.
Aufgabe:
Bestimmen Sie den Modalwert/Modus der Variablen „Deutsche Staatsangehörigkeit“und „Allgemeiner Schulabschluss“.
Bestimmen Sie das Skalenniveau beider Variablen und begründen Sie dies.
Definition
Der Median (x̃) ist der Mittelwert, der eine der Größe nach geordnete Reihe von Merkmalswerten halbiert. Er ist daher wie der
Modus ein lagetypischer Mittelwert.
20 35 28 62 22 44 51 46 32 25 27 25 20
1 2 3 4 5 5 7 8 9 10 11 12 13
20 20 22 25 25 27 28 32 35 44 46 51 62
1 13 5 12 10 11 3 9 2 5 8 7 4
Definition 20 35 28 62 22 44 51 46 32 25 27 25 20
Der Median (x̃) ist der Mittelwert, der eine der Größe nach geordnete Reihe von Merkmalswerten halbiert. Er ist daher wie der
Modus ein lagetypischer Mittelwert.
1 2 3 4 5 5 7 8 9 10 11 12 13
20 20 22 25 25 27 28 32 35 44 46 51 62
1 13 5 12 10 11 3 9 2 5 8 7 4
Definition 20 35 28 62 22 44 51 46 32 25 27 25 20
Der Median (x̃) ist der Mittelwert, der eine der Größe nach geordnete Reihe von Merkmalswerten halbiert. Er ist daher wie der
Modus ein lagetypischer Mittelwert.
1 2 3 4 5 5 7 8 9 10 11 12 13
20 20 22 25 25 27 28 32 35 44 46 51 62
1 13 5 12 10 11 3 9 2 5 8 7 4
(n + 1)
x̃ =
2
Definition
20 35 28 62 22 44 51 46 32 25 27 25 20
Der Median (x̃) ist der Mittelwert, der eine der Größe nach geordnete Reihe von Merkmalswerten halbiert. Er ist daher wie der
Modus ein lagetypischer Mittelwert.
1 2 3 4 5 5 7 8 9 10 11 12 13
20 20 22 25 25 27 28 32 35 44 46 51 62
1 13 5 12 10 11 3 9 2 5 8 7 4
(n + 1) (13 + 1)
x̃ = = = 7 → 28
2 2
Definition 20 20 22 25 25 27 28 32 35 44 46 51 62
Der Median (x̃) ist der Mittelwert, der eine der Größe nach geordnete Reihe von Merkmalswerten halbiert. Er ist daher wie der
Modus ein lagetypischer Mittelwert.
1 13 5 12 10 11 3 9 2 5 8 7 4
20 20 22 25 25 27 28 32 35 44 46 51 62 100
1 13 5 12 10 11 3 9 2 5 8 7 4 14
Definition
Der Median (x̃) ist der Mittelwert, der eine der Größe nach geordnete Reihe von Merkmalswerten halbiert. Er ist daher wie der
Modus ein lagetypischer Mittelwert.
Eigenschaften:
Ein lagetypischer Mittelwert
Kein rechnerischer Mittelwert
Möglich ab ordinalem Skalenniveau
+ geeignet für ordinal und metrisch skalierte Variablen
Definition
Der Median (x̃) ist der Mittelwert, der eine der Größe nach geordnete Reihe von Merkmalswerten halbiert. Er ist daher wie der
Modus ein lagetypischer Mittelwert.
Eigenschaften:
Ein lagetypischer Mittelwert
Kein rechnerischer Mittelwert
Möglich ab ordinalem Skalenniveau
+ geeignet für ordinal und metrisch skalierte Variablen
Definition
Der Median (x̃) ist der Mittelwert, der eine der Größe nach geordnete Reihe von Merkmalswerten halbiert. Er ist daher wie der
Modus ein lagetypischer Mittelwert.
Eigenschaften:
Ein lagetypischer Mittelwert
Kein rechnerischer Mittelwert
Möglich ab ordinalem Skalenniveau
+ geeignet für ordinal und metrisch skalierte Variablen
3
Definition
Der Median (x̃) ist der Mittelwert, der eine der Größe nach geordnete Reihe von Merkmalswerten halbiert. Er ist daher wie der
Modus ein lagetypischer Mittelwert.
Eigenschaften:
Ein lagetypischer Mittelwert
Kein rechnerischer Mittelwert
Möglich ab ordinalem Skalenniveau
+ geeignet für ordinal und metrisch skalierte Variablen
Median
Modus
Aufgabe:
Bestimmen Sie den Median der Variablen „Einkommensdifferenz erhoeht Motivation“ und „Deutsche Staatsangehörigkeit“.
Bestimmen Sie das Skalenniveu beider Variablen und begründen Sie dies.
Definition
Das arithmetische Mittel (x̄) ist die Summe aller Merkmalswerte geteilt durch die Anzahl der Merkmalsträger.
n
P
xi
x1 + x2 + x3 + ... + xn i=1
x̄ = = (1)
n n
Definition
Das arithmetische Mittel (x̄) ist die Summe aller Merkmalswerte geteilt durch die Anzahl der Merkmalsträger.
20 35 28 62 22 44 51 46 32 25 27 25 20
n
P
xi
1 2 3 4
x1 + x52 + x53 + ...7+ xn8 9
i=1
10 11 12 13
x̄ = = (1)
n n
20 20 22 25 25 27 28 32 35 44 46 51 62
1 13 5 12 10 11 3 9 2 5 8 7 4
Definition
Das arithmetische Mittel (x̄) ist die Summe aller Merkmalswerte geteilt durch die Anzahl der Merkmalsträger.
20 35 28 62 22 44 51 46 32 25 27 25 20
n
P
xi
1 2 3 4
x1 + x52 + x53 + ...7+ xn8 9
i=1
10 11 12 13
x̄ = = (1)
n n
20 20 22 25 25 27 28 32 35 44 46 51 62
1 13 5 12 10 11 3 9 2 5 8 7 4
20 + 20 + 22 + 25 + 25 + 27 + 28 + 32 + 35 + 44 + 46 + 51 + 62
x̄ = = 33, 6 (2)
13
Definition
Das arithmetische Mittel (x̄) ist die Summe aller Merkmalswerte geteilt durch die Anzahl der Merkmalswerte.
n
P
fi xi
f1 x1 + f2 x2 + f3 x3 + ... + fn xn i=1
x̄ = = (3)
n n
[…]
1 · 20 + 1 · 95 + 2 · 100 + ... + 1 · 15000
x̄ = = 2460
n
1 Schwerpunkteigenschaft: Die Summe der Abweichungen aller 1 Qualitätseigenschaft: Die Summe der
Messwerte von ihrem arithmetischen Mittel ist 0 Abweichungsquadrate (SAQ) ist für das
arithmetische Mittel ein Minimum
n n
X X
2
(xi − x̄) = 0 (4) (xi − x̄) = min (5)
i=1 i=1
Abbildung: Abweichungen
quadrierte
Nettoeinkommen Abweichugnen
Abweichungen
Xi Xi - 𝑋" (Xi − 𝑋")! < 𝑋" > 𝑋"
1 100 -1100 1210000 1207801 1212201
2 1600 400 160000 160801 159201
3 1000 -200 40000 39601 40401
4 0 -1200 1440000 1437601 1442401
5 1500 300 90000 90601 89401
6 2000 800 640000 641601 638401
7 1400 200 40000 40401 39601
8 2500 1300 1690000 1692601 1687401
9 1500 300 90000 90601 89401
10 800 -400 160000 159201 160801
11 1550 350 122500 123201 121801
12 450 -750 562500 561001 564001
Summe 14400 0 6245000 6245012 6245012
Mittelwert 1200
< 𝑋" 1199
> 𝑋" 1201
+ Das arithmetische Mittel hat noch eine weitere wichtige Eigenschaften: Empfindlichkeit gegenüber Ausreißern
2000 3500 1200 5850 700 1800 3500 2800 1500 4050 2900 2200 6000
1 2 3 4 5 6 7 8 9 10 11 12 13
4
2000 3500 1200 5850 700 1800 3500 2800 1500 4050 2900 2200 917000
2000 + 3500 + 1200 + 5850 + 700 + 1800 + 3500 + 2800 + 1500 + 4050 + 2900 + 2200 + 6000
x̄ = = 2923
13
1 2 3 4 5 6 7 8 9 10 11 12 4
13
+ Das arithmetische Mittel hat noch eine weitere wichtige Eigenschaften: Empfindlichkeit gegenüber Ausreißern
2000 3500 1200 5850 700 1800 3500 2800 1500 4050 2900 2200 917000
1 2 3 4 5 6 7 8 9 10 11 12 4
13
2000 + 3500 + 1200 + 5850 + 700 + 1800 + 3500 + 2800 + 1500 + 4050 + 2900 + 2200 + 917000
x̄ = = 73000
13
+ Das arithmetische Mittel hat noch eine weitere wichtige Eigenschaften: Empfindlichkeit gegenüber Ausreißern
20 20 22 25 25 27 28 32 35 44 46 51 62
2000 3500 1200 5850 700 1800 3500 2800 1500 4050 2900 2200 917000
1 13 5 12 10 11 3 9 2 5 8 7 4
1 2 3 4 5 6 7 8 9 10 11 12 4
13
2000 3500 1200 5850 700 1800 3500 2800 1500 4050 2900 2200 6000
2000 + 3500 + 1200 + 5850 + 700 + 1800 + 3500 + 2800 + 1500 + 4050 + 2900 + 2200 + 917000
x̄ = = 73000
1 2 3 4 5 6 13 7 8 9 10 11 12 13
4
700 1200 1500 1800 2000 2200 2800 2900 3500 3500 4050 5850 917000
5 3 9 6 1 12 8 11 2 7 10 4 4
13
Definition
Das arithmetische Mittel (x̄) ist die Summe aller Merkmalswerte geteilt durch die Anzahl der Merkmalswerte.
Eigenschaften:
Ist ein rechnerischer Mittelwert
Möglich ab metrischem Skalenniveau
Zeigt die Zentralität einer Verteilung
Ist empfindlich gegenüber Ausreißern
Median
Modus
Aufgabe:
Berechne das arithmetische Mittel der Variable „Alter“
quadrierte
Nr Alter Abweichugnen Abweichunge
n
Xi Xi - 𝑋ത ത2
(Xi − 𝑋)
1 27
2 41
3 45
4 45
5 46
6 46
7 47
8 64
9 71
10 74
Summe
Mittelwert
Varianz
Standard-
abweichung
Aufgabe:
Berechne das arithmetische Mittel der Variable „Alter“
quadrierte
Nr Alter Abweichugnen Abweichunge
n
Xi Xi - 𝑋ത ത2
(Xi − 𝑋)
1 27
2 41
3 45
4 45 27 + 41 + 45 + 45 + 46 + 46 + 47 + 64 + 71 + 74
x̄ = = 50, 6
5 46 10
6 46
7 47
8 64
9 71
10 74
Summe
Mittelwert
Varianz
Standard-
abweichung
(n+1)
ordinal (...), Median x̃ = 2
n
P
xi
i=1
metrisch (...),(...), arithmetisches Mittel x̄ = n
n
P
fi ·xi
i=1
mit mehreren gleichen Werten x̄ = n
x̄ = x̃ = M symmetrische Verteilungen
Median Median
Mittelwert Mittelwert
Modus Modus
0.10
0.4
0.08
0.3
0.06
Density
Density
0.2
0.04
0.1
0.02
0.00
0.0
−2 −1 0 1 2 5 10 15 20
Werte Werte
Modus = Median = arithmetisches Mittel arithmetisches Mittel < Median < Modus
Definition
Streuungswerte geben an, wie weit die einzelnen Werte um die Mitte der Verteilung streuen. Sie ergänzen die Mittelwerte somit
um eine weitere Information über die Verteilung
Beispiel:
Durchschnittseinkommen in Deutschland = 1 600 e
= 2 Personen haben 1 600 e
= 1 Person hat 3 200 e und 1 Personen hat 0 e
Streuungswerte geben Auskunft über die Homogenität oder Heterogenität der Variablenwerte
Aufgabe ist es, die Variation der Messwerte in einer einzigen Zahl auszudrücken (wie bei der zentralen Tendenz)
Definition
Der Range (Spannweite) wird berechnet durch die Differenz zwischen dem größten und kleinsten Merkmalswert.
Definition
Quartile bilden Schnittpunkte zwischen den Vierteln einer Verteilung. Sie trennen die unteren 25% der Fälle von den mittleren
50% und oberen 75%. Quartile sind auch ein einfaches Streuungsmaß, aber stabiler als der Range, da sie nicht von Extremwerten
beeinflusst werden.
Einkommen
1 Quartilsabstand
200
= Q3 − Q1 (7)
2 mittlerer Quartilsabstand
150
Q3 − Q1
QA = (8)
2
count
100
Q1 = 25% = 1500
Q2 = 50% = 2200 50
Q3 = 75% = 3000
Quartilabstand = 1500 0
Anmerkungen:
Um Struktureffekte der Haushaltszusammensetzung beim Vergleich von Einkommen auszuschließen, wird bei Analysen zur Einkommensungleichheit zumeist
das so genannte Nettoäquivalenzeinkommen herangezogen. Das Nettoäquivalenzeinkommen ist ein je nach Zahl und Alter der Haushaltsmitglieder
gewichtetes Nettoeinkommen. Nach der in der Regel verwendeten neuen Skala der Organisation für wirtschaftliche Zusammenarbeit und Entwicklung
(OECD) erhält der Haupteinkommensbezieher des Haushalts den Gewichtungsfaktor 1,0, alle übrigen Haushaltsmitglieder von 14 Jahren und älter den
Faktor 0,5 und Personen unter 14 Jahren den Faktor 0,3. Ein Ehepaar mit 2 Kindern unter 14 hätte daher bei einem verfügbaren Einkommen von 4.500
Euro monatlich ein Äquivalenzeinkommen von 2.142,86 Euro (4.500/(1,0+0,5+2*0,3)=2.142,86). Die wirtschaftliche Leistungsfähigkeit einer alleinlebenden
Person mit einem Einkommen von 2.142,86 Euro würde diesem Haushalt als gleichwertig angesehen werden.
Quelle: https://www.armuts-und-reichtumsbericht.de/SharedDocs/Glossareintraege/N/Nettoaequivalenzeinkommen.html
Definition
Die Standardabweichung (s) ist das gebräuchlichste Streuungsmaß. Sie ist Definiert als die Quadratwurzel aus der Varianz (s2 ).
Die Varianz ist die durch n geteilte Summe der quadrierten Abweichungen aller Messwerte von ihrem arithmetischen Mittel.
Varianz:
n
1
X
2 2
s = (xi − x̄) (9)
n
i=1
Standardabweichung:
s n
1
X p
s= (xi − x̄)2 oder auch s= s2 (10)
n
i=1
Varianz: quadrierte
Nettoeinkommen Abweichugnen
n Abweichungen
1
X Xi Xi - 𝑋ത ത2
(Xi − 𝑋)
2 2
s = (xi − x̄) (11)
n 1 100 -1100 1210000
i=1 2 1600 400 160000
3 1000 -200 40000
4 0 -1200 1440000
5 1500 300 90000
Standardabweichung: 6 2000 800 640000
s 7 1400 200 40000
n
8 2500 1300 1690000
1
X
s= (xi − x̄)2 (12) 9 1500 300 90000
n 10 800 -400 160000
i=1 11 1550 350 122500
12 450 -750 562500
bzw.: Summe 14400 0 6245000
p
s= s2 (13) Mittelwert 1200
Varianz 520416,7
Standardabweichung 721,4
xi −x̄
z= sx
Aufgabe:
Berechne das arithmetische Mittel der Variable „Alter“, die Varianz und die Standardabweichung
quadrierte
Nr Alter Abweichungen
Abweichungen
Xi Xi - 𝑋ത ത2
(Xi − 𝑋)
1 27
2 41
3 45
4 45
5 46
6 46
7 47
8 64
9 71
10 74
Summe
Mittelwert
Varianz
Standard-
abweichung
Herfindahl-Streumass
Gibt an, ob die Häufigkeiten über die Kategorien eher gleich verteilt sind oder ob es große Unterschiede gibt
Wenn sich alle Daten auf eine Kategorie konzentrieren, nimmt HF sein Minimum von null an.
Bei Gleichverteilung der Häufigkeiten nimmt HF sein Maximum an: (HFmax = k−1
k
)
k
hj 2
X
HF = 1 − (14)
n
j=1
k
RHF = · HF, RHF ∈ [0, 1] (15)
k−1
Beispiel
in Prozent
ISCO-Berufshauptgruppen Frauen Männer Insgesamt
HFF ¡ HFM : Frauen haben eine kleinere Streuung über die Berufsgruppen als Männer ⇒ Frauen konzentrieren sich
stärker auf einzelne Berufsgruppen
Schiefe (Skewness)
m3
γ1 = (16)
s3
wobei:
n
1
X
3
m3 = (xi − x̄)
n
i=1
Wölbung (Kurtosis)
m4
γ2 = (17)
s4
wobei:
n
1
X
4
m4 = −3 (xi − x̄)
n
i=1
γ2 = 0 bei Normalverteilung
γ2 > 0 bei spitzen Verteilungen
γ2 < 0 bei flachen Verteilungen
Dezilverhältnis
Berechnet das Verhältnis zwischen dem ersten und neunten Dezil einer Verteilung
D9 x0.9
DR = = (18)
D1 x0.1
Gini-Koeffizient
siehe Jann 2005: 57
2
Pn−1 Pn
n(n−1)
|xi − xj |
i=1 j=i+1
G= (19)
2x̄
Abbildung: Gini-Koeffient
Benninghaus, Hans [2007]: Deskriptive Statistik. Eine Einführung für die Sozialwissenschaftler. Wiesbaden: VS Verlag für
Sozialwissenschaften. S. 36 - 58