Sie sind auf Seite 1von 133

Kapitel 2

Deskriptive Statistik

Statistik I
SoSe 2023
Fabian Krüger
Karlsruher Institut für Technologie

Foliensatz erstellt durch M. Schienle.


Konsekutive Ergänzungen: O. Grothe, M. Schienle und F. Krüger.
Grundbegri↵e 2
Inhalt

Grundbegri↵e
Statistische Variablen
Skalierung
Klassierung
Univariate Statistik
Verteilung
Lageparameter
Streuungsparameter
Bivariate Statistik
Gemeinsame Verteilung
Randverteilung
Bedingte Verteilung
Zusammenhangsparameter
Anhang

Kapitel 2
Grundbegri↵e | Statistische Variablen 3
Definitionen I
Statistische Einheit (Merkmalsträger)
I Gegenstand oder Vorgang
I eindeutig definiert durch Identifikationskriterien
I Träger der Informationen für die statistische Untersuchung: natürliche
Einheiten (Personen, Tiere, Pflanzen), sozio-ökonomische Einheiten
(Familien, Haushalte, Unternehmen).

Variable (Merkmal)
I Eigenschaft einer statistischen Einheit, die statistisch untersucht werden
soll

Variablenausprägungen (Merkmalsausprägung)
I Werte, die die Variable bei einer statistischen Einheit annehmen kann
Variable Variablenausprägungen
Notation: X x1 ,x2 ,x3 . . .,xk
Y y1 ,y2 ,y3 . . .,yk

Kapitel 2
Grundbegri↵e | Statistische Variablen 4
Definitionen II
Grundgesamtheit
I Menge der statistischen Einheiten mit übereinstimmenden
Identifikationskriterien

Stichprobe
I eine endliche Teilmenge der Elemente der Grundgesamtheit
I ausgewählt und erfasst für die statistische Untersuchung

Beispiel 1
I Grundgesamtheit: Einwohner der Stadt Karlsruhe im Jahr 2018
I Merkmalsträger: ein Einwohner
I Stichprobe: Gruppe der erfassten Einwohner
I Merkmal: Familienstand
I Merkmalsausprägung: ledig, verheiratet

Kapitel 2
Grundbegri↵e | Statistische Variablen 5
Ausreißer
Ausreißer
I ein Messwert, der weit weg von allen anderen Messwerten liegt oder der
unerwartet auftritt oder fehlt

Beispiel 2 (ALLBUS 2010, Extremwerte)


Fallnummer Wert
BEFR.: NETTOEINKOMMEN, Größte Werte 1 136 10000
OFFENE ABFRAGE 2 780 10000
3 569 9500
4 2249 9000
5 2692 9000
Kleinste Werte 1 1120 22
2 1964 30
3 1292 65
4 1061 80
5 1560 90

Kapitel 2
Grundbegri↵e | Skalierung 6
Skalierung von Variablen

Skalierung
relationstreue Abbildung einer Variablen durch eine Zeichenmenge (Skala)

Skalen
I Nominalskala (qualitativ)
I Ordinalskala (qualitativ geordnet)
I metrische Skala/ Kardinalskala (quantitativ)
. Intervallskala
. Verhältnisskala
. Absolutskala

Das Skalenniveau entscheidet über die Anwendbarkeit von statistischen


Methoden

Kapitel 2
Grundbegri↵e | Skalierung 7
Nominalskala

Nominalskala
Bei einer Nominalskala bringen Variablenausprägungen oder zugeordnete
Zahlen lediglich die Verschiedenartigkeit zum Ausdruck

Nominalskalierte Variablen
I zulässige Relationen: “gleich“ oder “ungleich“
I unterscheide:
. binär (dichotom)
. häufbar

Achtung: Zugeordnete Zahlen (Nominalzahlen, Schlüsselzahlen) haben reine


Bezeichnungsfunktion, es wird keine Reihenfolge gebildet

Beispiel 3
Familienstand, Nationalität, Postleitzahl

Kapitel 2
Grundbegri↵e | Skalierung 8
Dichotome oder binäre Variable
Eine binäre Variable weißt nur zwei sich gegenseitig ausschließende (disjunkte)
Ausprägungen auf

Beispiel 4
I Eine bestimmte Behandlung führt zum Erfolg oder nicht
I Ein Haushalt besitzt einen privaten PKW oder nicht
I Eine Bank stuft einen Kunden als kreditwürdig oder nicht kreditwürdig ein

Häufbare Variable
Bei einer häufbaren Variablen können für dieselbe statistische Einheit mehrere
Ausprägungen beobachtet werden.

Beispiel 5
häufbare Variable: nicht häufbare Variable:
I Vorname I Familienstand
I erlernter Beruf I Postleitzahl
I abonnierte Zeitungen I Hauptwohnsitz

Kapitel 2
Grundbegri↵e | Skalierung 9
Ordinalskala

Ordinalskala
Eine Ordinalskala liegt vor, wenn Variablenausprägungen bzw. zugeordnete
Zahlen eine Verschiedenartigkeit und eine natürliche Rangfolge zum Ausdruck
bringen.

Ordinalskalierte Variablen
I zulässige Relationen: “größer als” und “kleiner als”
I Abstände sind nicht quantifizierbar

Beispiel 6

I Zensuren I Aggressivität
I Erdbebenstärken I Dienstgrade
I Güteklassen für Produkte
(z.B. Nutri-Score)

Kapitel 2
Grundbegri↵e | Skalierung 10
Metrische Skala (Kardinalskala)

Metrische Skala
Eine metrische Skala (Kardinalskala) liegt vor, wenn Variablenausprägungen
durch zugeordnete Zahlen Verschiedenartigkeit, Rangfolge und mess- und
quantifizierbare Unterschiede zum Ausdruck bringen.

Metrisch skalierte Variable


I synonym: kardinalskaliert, quantitativ
I Variablenwerte sind im allgemeinen Ergebnis eines Zähl- oder
Messvorgangs
I unterscheide
. intervallskaliert
. verhältnisskaliert
. absolutskaliert

Kapitel 2
Grundbegri↵e | Skalierung 11

Intervallskala
I Abstände (Di↵erenzen) zwischen Variablenwerten messbar und plausibel
interpretierbar,
I Quotienten dürfen nicht gebildet werden,
I kein natürlicher Nullpunkt und keine natürliche Maßeinheit (beides nur
Festlegungen).

Beispiel 7
I Temperatur in C
I Kalenderzeitrechnung
I Breiten- und Längengrade der Erde

Kapitel 2
Grundbegri↵e | Skalierung 12

Verhältnisskala
I Di↵erenzen zwischen Variablenwerten berechenbar und plausibel
interpretierbar
I Quotienten von Variablenwerten berechenbar und plausibel interpretierbar
I es gibt einen natürlichen Nullpunkt aber keine natürliche Maßeinheit
Beispiel 8
I Wertvolumen eines Warenkorbes
I Längenmaße, Gewichtsmaßse
I Alter, Einkommen

Absolutskala
I Verhältnisskala mit einer natürlichen, maßstabsunabhängigen Maßeinheit
Beispiel 9
I Stückzahl
I Anzahl immatrikulierter Studenten an einer Universität

Kapitel 2
Grundbegri↵e | Skalierung 13
Diskrete und stetige Variablen I

Metrische Variablen werden noch weiter in stetig und diskret unterteilt.

Diskrete Variable
Eine Variable, die nur endlich oder abzählbar unendlich viele Werte annehmen
kann
I zwischen zwei benachbarten Merkmalsausprägungen gibt es keine weitere
Merkmalsausprägung

Beispiel 10
I monatliche Produktion von PKW
I Anzahl der täglichen Anrufe bei einem Service-Point
I Anzahl Geschwister

Kapitel 2
Grundbegri↵e | Skalierung 14
Diskrete und stetige Variablen II

Stetige Variable
Eine Variable, die in jedem beliebig kleinen Intervall überabzählbar unendlich
viele Werte annehmen kann
I zwischen zwei Merkmalsausprägungen gibt es immer eine weitere
Merkmalsausprägung

Beispiel 11
I verkaufte Menge von Normalbenzin an einer Tankstelle pro Tag

In der Praxis oft: Quasi-stetige Merkmale


Beispiel 12
I Preise
I Temperatur

Kapitel 2
Grundbegri↵e | Skalierung 15
Zusammenfassung

I Jeder Variablen wird genau ein Skalenniveau zugeordnet.


I Das Skalenniveau hängt von den möglichen Ausprägungen ab.
I Es gibt 3 wichtige Skalenniveaus mit steigendem Informationsgehalt der
Variablen (nominal, ordinal, metrisch).
I Metrische Variablen werden noch in stetig und diskret unterteilt.
I Metrische diskrete Variablen mit vielen Ausprägungen werden auch als
quasi-stetig bezeichnet.
Beachte:
I Das Skalenniveau einer Variablen entscheidet, welche statistischen
Maßzahlen und Größen sinnvoll angewandt werden können, und welche
graphischen Darstellungen möglich sind.
I Nicht alles, was durch Formeln formal berechnet werden kann, ist auch
sinnvoll interpretierbar.

Kapitel 2
Grundbegri↵e | Skalierung 16
Übersicht
Variable
H
HH
H
Qualitativ Quantitativ
@
@
@
Nominal Ordinal Metrisch
-dichotom -diskret
-häufbar -stetig
-nicht häufbar -quasi-stetig
HH
H
HH
H
Intervall- Verhältnis- Absolut-
skala skala skala
-
Informationsgrad

Kapitel 2
Grundbegri↵e | Klassierung 17
Klassierung von Variablen I
Beispiel 13 (Einkommensverteilung, BRD-West 2000)
statistische Einheit: Steuerpflichtiger
statistische Variable: steuerpflichtiges Einkommen

P
Gesamtbetrag Einkünfte Steuerpflichtige Einkommen
von ... bis unter ... Euro (1000) (Mrd. Euro)

1 – 4 000 1445.2 2611.3


4 000 – 8 000 1455.5 8889.2
8 000 – 12 000 1240.5 12310.9
12 000 – 16 000 1110.7 15492.7
16 000 – 25 000 2762.9 57218.5
25 000 – 30 000 1915.1 52755.4
30 000 – 50 000 6923.7 270182.7
50 000 – 75 000 3876.9 234493.1
75 000 – 100 000 1239.7 105452.9
100 000 – 250 000 791.6 108065.7
250 000 – 500 000 93.7 31433.8
500 000 – 1 Mill. 26.6 17893.3
1 Mill. – 2 Mill. 8.6 11769.9
2 Mill. – 5 Mill. 3.7 10950.8
5 Mill. und mehr 1.4 16791.6

Kapitel 2
Grundbegri↵e | Klassierung 18
Klassierung von Variablen II

Klassierung (Gruppierung)
I die Zerlegung des Wertebereiches einer metrisch skalierten Variablen in
mehrere Teilintervalle (Klassen oder Gruppen)
) bessere Übersichtlichkeit bei großer Datenmenge

Klassenintervalle
I nicht überlappende (disjunkte) und aneinandergrenzende Intervalle von
Variablenwerten
I n Anzahl der Beobachtungen
I k Anzahl der Klassen

Kapitel 2
Grundbegri↵e | Klassierung 19
Klassierung von Variablen III
Klassengrenzen
Der Wert einer metrisch skalierten Variablen, der eine Klasse nach unten bzw.
oben begrenzt
I untere Klassengrenze xju j = 1, . . . , k
I obere Klassengrenze xjo j = 1, . . . , k
Eigenschaften
I xjo = xj+1
u
, j = 1, . . . , k 1
I xju  x < xjo (oder xju < x  xjo ), j = 1, . . . , k
Klassenbreite
4xj = xjo xju
Klassenmitte
1 u
xj = (xj + xjo ), j = 1, . . . , k
2

Kapitel 2
Univariate Statistik | 20
Inhalt

Grundbegri↵e
Statistische Variablen
Skalierung
Klassierung
Univariate Statistik
Verteilung
Lageparameter
Streuungsparameter
Bivariate Statistik
Gemeinsame Verteilung
Randverteilung
Bedingte Verteilung
Zusammenhangsparameter
Anhang

Kapitel 2
Univariate Statistik | Verteilung 21
Notation

I Variable: X (nominal, ordinal oder metrisch diskret)


I Gesamtzahl der Beobachtungen: n
I Beobachtungswerte: xi (i = 1, ..., n)
I sich unterscheidende mögliche Variablenausprägungen (-werte): xj (j = 1,
..., k)

Beispiel 14 (10maliges Werfen einer “idealen” Münze)


Variable: “Sichtbare Seite der Münze”
Gesamtzahl der Beobachtungen: 10
Mögliche Variablenausprägungen (-werte): “Kopf (K)”, “Zahl (Z)”
Beobachtungswerte: Z , Z , K , Z , Z , K , Z , K , K , Z

Statistische Häufigkeit
Die Häufigkeit ist die absolute oder relative Zahl einer Ausprägung oder einer
Klasse von Ausprägungen einer Variablen in einer Stichprobe.

Kapitel 2
Univariate Statistik | Verteilung 22
Häufigkeit statistischer Variablen I

Absolute Häufigkeit
I Anzahl statistischer Einheiten mit einer bestimmten Variablenausprägung
xj (j = 1, . . . , k)
h(X = xj ) = h(xj ) = hj
Pk
I Eigenschaften: 0  h(xj )  n, j=1 h(xj ) = n

Relative Häufigkeit
I Anteil statistischer Einheiten mit einer bestimmten Variablenausprägung
xj (j = 1, . . . , k)
h(xj )
f (X = xj ) = f (xj ) =
n
Pk
I Eigenschaften: 0  f (xj )  1, j=1 f (xj ) = 1

Kapitel 2
Univariate Statistik | Verteilung 23
Häufigkeit statistischer Variablen II
Empirische Häufigkeitsverteilung
Die Häufigkeitsverteilung einer Variablen ergibt sich durch
I die geordneten Variablenausprägungen (x1 < . . . < xj < . . . < xk )
I die Angabe der dazugehörigen absoluten bzw. relativen Häufigkeiten
Die Häufigkeitsverteilung gibt an, wie sich die statistischen Einheiten auf die
beobachteten Variablenausprägungen verteilen

Allgemeine Häufigkeitstabelle
Variablenausprägung abs. Häufigkeit rel. Häufigkeit
xj h(xj ) f (xj )
x1 h(x1 ) f (x1 )
.. .. ..
. . .
xk h(xk ) f (xk )

Summe n 1

Kapitel 2
Univariate Statistik | Verteilung 24
Grafische Darstellung der Häufigkeit I
Darstellung i.d.R. als
I Säulendiagramm
I Stabdiagramm

Abszisse: Variablenausprägungen xj
Ordinate: absolute oder relative Häufigkeit

Beispiel 15 (Note einer Statistik-I-Klausur)


Note abs. Häufigkeit rel. Häufigkeit
1 3 0,01
1 – sehr gut
2 – gut 2 29 0,11
3 – mangelhaft
4 – ausreichend 3 92 0,33
5 – nicht ausreichend 4 93 0,34
5 57 0,21

Kapitel 2
Univariate Statistik | Verteilung 25
Grafische Darstellung der Häufigkeit II

Säulendiagramm Stabdiagramm
höhenproportionale Darstellung

0.3 0.3

0.2 0.2
f(x)

f(x)
0.1 0.1

0.0 0.0
1 2 3 4 5 1 2 3 4 5
Note Note

Kapitel 2
Univariate Statistik | Verteilung 26
Summenhäufigkeit

Summenhäufigkeit
Die einer Variablenausprägung oder einer oberen Klassengrenze zugeordnete
Summe der absoluten bzw. relativen Häufigkeiten aller Beobachtungswerte, die
diese Variablenausprägung oder obere Klassengrenze nicht überschreiten
I absolute Summenhäufigkeit

j
X
H(xj ) = h(xl ) = h(X  xj ), j = 1, ..., k
l=1

I relative Summenhäufigkeit

j
H(xj ) X
F (xj ) = = f (xl ) = f (X  xj ), j = 1, ..., k
n
l=1

Kapitel 2
Univariate Statistik | Verteilung 27
Empirische Verteilungsfunktion

Empirische Verteilungsfunktion
Setzt ordinal- oder metrisch skalierte Variablen voraus
8
>
> 0 für x < x1
>
>
>
< P j
F (x) = f (xl ) für xj  x < xj+1
>
> l=1
>
>
>
:
1 für xk  x

Eigenschaften
I 0  F  1 ist monoton steigende Treppenfunktion
I F (x) = f (X  x) in der Stichprobe vom Umfang n
I F ist rechtsstetig (an der Sprungstelle ist der Funktionswert oben)

Kapitel 2
Univariate Statistik | Verteilung 28

Berechnungen mit der Verteilungsfunktion


I f (xj ) = F (xj ) F (xj 1) für j = 1, ..., k mit F (x0 ) = 0
I

f (X > xl ) = 1 f (X  xl ) = 1 F (xl )

f (xl < X  xm ) = f (X  xm ) f (X  xl )
= F (xm ) F (xl )

f (xl < X < xm ) = f (xl < X  xm 1 )


= f (X  xm 1 ) f (X  xl )
= F (xm 1 ) F (xl )

Kapitel 2
Univariate Statistik | Verteilung 29

Grafische Darstellung der Verteilungsfunktion


Beispiel 16 (Verteilungsfunktion der Haushaltsgröße, BRD 2021)
1.00

0.75
HH-größe xj f (x) F (x)
1 0,417 0,417

F(x)
0.50
2 0,335 0,752
3 0,118 0,870
4 0,095 0,965 0.25

5 und mehr 0,035 1,000


0.00
1 2 3 4 5
Haushaltsgröße 2021

f (2 < x  4) = F (4) F (2) = 0, 965 0, 752 = 0, 213

Kapitel 2
Univariate Statistik | Verteilung 30
Verteilung klassierter Variablen
Beobachtungswerte x1 , x2 , . . . , xn einer metrischen Variablen X klassiert in k
Klassen
I möglich für X diskret (z.B. bei sehr vielen Variablenausprägungen)
I nötig für X stetig (überabzählbar viele Variablenausprägungen)

Häufigkeitstabelle für klassierte Daten


Klassen absolute Klassenhäufigkeit relative Klassenhäufigkeit
xju < X  xjo hj = h(xju < X  xjo ) fj = f (xju < X  xjo )

x1u x1o h1 f1
.. .. ..
. . .
xku xko hk fk
Summe n 1

Kapitel 2
Univariate Statistik | Verteilung 31
Grafische Darstellung von Häufigkeiten bei
klassierten Daten
Histogramm
I flächenproportionale Darstellung
. Abszisse: Klassengrenzen xju , xjo
bj = hj fj
. Ordinate: Häufigkeitsdichte h xjo xju
oder fbj = xjo xju

I Klassenhäufigkeit = Fläche des Rechtecks über der jeweiligen Klasse.


I Gesamtfläche unter dem Histogramm = 1 bzw. n

k
X k
X
fbj (xjo xju ) = fj = 1
j=1 j=1
k
X k
X
bj (xjo
h xju ) = hj = n
j=1 j=1

Kapitel 2
Univariate Statistik | Verteilung 32

Beispiel 17 (Klausur)
Klassierung anhand der Punkte aus der Statistik-I-Klausur (Beispiel 15) - Punkte
behandelt als stetiges Merkmal

xju  X < xjo hj fj fbj


0 – 20 57 0,208 0,010
20 – 30 93 0,339 0,034
30 – 37 92 0,336 0,048
37 – 46 29 0,106 0,012
46 – 51 3 0,011 0,002
Summe 274 1,000

Kapitel 2
Univariate Statistik | Verteilung 33
Empirische Verteilungsfunktion klassierter
Variablen
Beispiel 18 (Lampen)
Untersuchung der Lebensdauer (in Stunden) von 100 Glühlampen
statistische Einheit: Glühlampe
Variable: Lebensdauer (metrisch, stetig)
Pj Pj
xju <X  xjo hj fj fbj Hj = l=1 hl Fj = l=1 fl

0 – 100 1 0,01 0,0001 1 0,01


100 – 500 24 0,24 0,0006 25 0,25
500 – 1000 45 0,45 0,0009 70 0,70
1000 – 2000 30 0,30 0,0003 100 1,00
Summe 100 1,0
Annahme: gleichmäßige Verteilung der Beobachtungen innerhalb einer Klasse
I geradlinige Verbindung von F (xjo ) = f (X  xjo ) = Fj = F (xj+1
u ) und
o ) = f (X  x o ) = F
F (xj+1 j+1 j+1 in der grafischen Darstellung

Kapitel 2
Univariate Statistik | Verteilung 34

Beispiel 18 (Fortsetzung)
1.0

8e−04
0.8

6e−04
Häufigkeitsdichte
0.6
F

4e−04
0.4
0.2

2e−04
0.0

0 500 1000 1500 2000 0 500 1000 1500 2000


Lebensdauer Lebensdauer

Kapitel 2
Univariate Statistik | Verteilung 35
Empirische Verteilungsfunktion klassierter
Variablen
Empirische Verteilungsfunktion
I Annahme: gleichmäßige Verteilung der Beobachtungen innerhalb einer
Klasse
8 u
> 0 f ür x  x 1
>
>
>
>
>
< jP1 x xju
F (x) = fl + x o x u fj für xju < x  xjo
>
> l=1 j j
>
>
>
>
:
1 für xko < x
P0
[mit Konvention: l=1 =0]

I Grafische Darstellung: stückweise lineare Kurve (Interpolation)

Falls Annahme nicht erfüllbar (z.B. bei X diskret), verwende Treppenfunktion


ohne Interpolation als empirische Verteilungsfunktion.

Kapitel 2
Univariate Statistik | Verteilung 36
Interpolation von F (x)
Der Wert der Verteilungsfunktion F (x) kann für jedes x im beobachteten
Bereich des Merkmals X mithilfe einer Interpolation von F (x) approximativ
bestimmt werden:
u x xju
F (x) = F (xj ) + o u
· fj
xj xj
Grafische Veranschaulichung der Interpolation:
F(x)

F(xoj )

fj

F(x)

F(x)-F(xuj)

F(xju)

x
xuj x xoj

x - x uj

xoj - x ju

Kapitel 2
Univariate Statistik | Lageparameter 37
Kennzahlen von Variablen I
I Maßzahlen, die wichtige Charakteristika einer Häufigkeitsverteilung
beinhalten
Kennzahlen von Variablen
HH
H
HH
Lageparameter Streuungsparameter

Arithmetisches Mittel Spannweite


Modus Quartilsabstand
Median Mittlere absolute Abweichung
Quantile Varianz und Standardabweichung
Harmonisches Mittel

Kapitel 2
Univariate Statistik | Lageparameter 38
Kennzahlen von Variablen II

Kennzahlen
I Lageparameter geben an, wo das Zentrum der Verteilung der Variablen
liegt
I Streuungsparameter machen eine Aussage über die Variabilität der
Daten um das Zentrum
I Weitere Parameter:
. Schiefe
. Wölbung

Robustheit
I Eine Kennzahl heißt robust, wenn sie relativ unempfindlich gegenüber
Ausreißern ist

Kapitel 2
Univariate Statistik | Lageparameter 39
Lageparameter
Mittelwerte charakterisieren das Zentrum der Häufigkeitsverteilung auf der
Variablenachse
Beispiel 19
I Variable X: Monatliches persönliche Nettoeinkommen in EUR
I Datensatz 1 enthält nur Beobachtungen für 10 Männer:
1000, 1200, 1750, 2200, 2400, 2800, 2950, 3300, 3800, 4150 ( )
Durchschnittseinkommen: x mann = 2555 EUR (•)
I Datensatz 2 enthält nur Beobachtungen für 10 Frauen:
600, 800, 1350, 1800, 2000, 2400, 2550, 2900, 3400, 3750 (⇧)
Durchschnittseinkommen: x frau = 2155 EUR (•)

⇧⇧ ⇧ ⇧ ⇧• ⇧⇧ ⇧ ⇧ ⇧

Kapitel 2
Univariate Statistik | Lageparameter 40
Arithmetisches Mittel I
Arithmetisches Mittel x einer empirischen Häufigkeitsverteilung
I Voraussetzung: metrisch skalierte Variable
I Teilt die Summe aller beobachteten Variablenwerte gleichmäßig auf alle
statistischen Einheiten auf:
n k k
1X 1X X
x= xi = xj h(xj ) = xj f (xj )
n i=1 n j=1 j=1

Klassierte Daten
I Für jede Klasse liegt vor
. xj Klassenmitte (als Approximation für den Klassenmittelwert (s.u.))
Pk
. nj = hj Anzahl der Beobachtungen in Klasse j mit j=1 nj = n
k k
1X X
x= xj nj = x j fj
n j=1 j=1

Kapitel 2
Univariate Statistik | Lageparameter 41
Arithmetisches Mittel II

Beispiel 20 (MHNE)
X: monatliches Haushaltsnettoeinkommen (MHNE) (bis unter 25 000 Euro)

MHNE von. . . Klassenmitte Anteil der HH


bis unter . . . Euro xj fj Fj
1 – 800 400 0,044 0,044
800 – 1 400 1100 0,166 0,210
1 400 – 3 000 2200 0,471 0,681
3 000 – 5 000 4000 0,243 0,924
5 000 – 25 000 15000 0,076 1,000

x = 400 · 0, 044 + 1100 · 0, 166 + 2200 · 0, 471 +


4000 · 0, 243 + 15000 · 0, 076
= 17, 6 + 182, 6 + 1036, 2 + 972 + 1140 = 3348, 4 Euro

Kapitel 2
Univariate Statistik | Lageparameter 42
Arithmetisches Mittel II

Gepoolter Datensatz - Additionseigenschaft


I Datensatz zerfällt in r disjunkte Teildatensätze D = D1 [ . . . [ Dr
I Für jeden der Teildatensatz liegt vor
. np die Anzahl der Beobachtungen in dem Teildatensatz
. x p der Mittelwert in jedem Teildatensatz
I Arithmetisches Mittel des Gesamtdatensatzes kann ohne Kenntnis der
Beobachtungswerte in den Teildatensätzen berechnet werden
r r
1X X
x= x p np , n = np
n p=1 p=1

Kapitel 2
Univariate Statistik | Lageparameter 43
Arithmetisches Mittel III

Null- oder Schwerpunkteigenschaft

n
X
(xi x) = 0
i=1
k
X
bzw. (xj x)h(xj ) = 0
j=1

Kapitel 2
Univariate Statistik | Lageparameter 44
Modus I

Modus xD (Modalwert, Dichtemittel, häufigster Wert)


I Voraussetzung: nominale, ordinale, metrisch diskrete oder klassierte Daten
) nicht metrisch stetige Daten!
I Diejenige Variablenausprägung, die am häufigsten beobachtet wurde,
I ist möglicherweise nicht eindeutig.

Modus diskreter (nicht klassierter) Variablen



xD = xj | h(xj ) = max h(xk ) bzw. f (xj ) = max f (xk )
xk xk

Kapitel 2
Univariate Statistik | Lageparameter 45
Modus II

Modus bei klassierten Variablen


I Die Modalklasse ist die Klasse j mit der größten Häufigkeitsdichte fbj
(nicht der größten Häufigkeit fj )
I Grobapproximation des Modus durch Klassenmitte xj der Modalklasse j.
I Feinberechnung/approximation: Der Modus innerhalb der Modalklasse ist
entsprechend der Häufigkeitsdichten der beiden Nachbarklassen zur
derjenigen mit dem größeren Wert hin verschoben (nur bei Gleichheit xj )
u fbj fbj 1
xD = xj + · (xjo xju )
2fbj fbj 1 fbj+1

xju , xjo untere/obere Grenze der Modalklasse


fbj Häufigkeitsdichte der Modalklasse
fbj 1 , fbj+1 Häufigkeitsdichte der Klasse vor/nach der Modalklasse

Kapitel 2
Univariate Statistik | Lageparameter 46
Modus III
Beispiel 21 (Lampen)

xju < X  xjo hj fj fbj


0 – 100 1 0,01 0,0001
100 – 500 24 0,24 0,0006
500 – 1000 45 0,45 0,0009
1000 – 2000 30 0,30 0,0003
Summe 100 1,00

I Modalklasse: 500 – 1000 Stunden


I (grober) Modus: 750 Stunden
I Feinberechnung:

0, 0009 0, 0006
xD = 500 + · 500 = 666, 67
2 · 0, 0009 0, 0006 0, 0003

I zum Vergleich: x = 50 · 0, 01 + 300 · 0, 24 + 750 · 0, 45 + 1500 · 0, 3 = 860


Kapitel 2
Univariate Statistik | Lageparameter 47
Modus IV
Beispiel 22 (Klausur)
Klassierung anhand der Punkte aus der Statistik-I-Klausur aus Beispiel 15.

xju < X  xjo hj fj fbj


0– 20 57 0,208 0,010
20 – 30 93 0,339 0,034
30 – 37 92 0,336 0,048
37 – 46 29 0,106 0,012
46 – 51 3 0,011 0,020
Summe 274 1,000

Modalklasse: 30 – 37 Punkte, da dort die größte Häufigkeitsdichte ist.

0, 048 0, 034
xD = 30 + · (37 30) = 31, 96
2 · 0, 048 0, 034 0, 012

Kapitel 2
Univariate Statistik | Lageparameter 48
Median I

I Median x0,5 wird auch als 50% Quantil oder Zentralwert bezeichnet
I Links und rechts vom Median liegen jeweils 50% der Beobachtungswerte
I robuster Lageparameter
I Voraussetzung: mindestens ordinalskalierte Variablen

Median von nicht klassierten Variablen


I Falls n ungerade ist:
x0,5 = x( n+1 )
2

I Falls n gerade ist:


1n o
x0,5 = x( n2 ) + x( n2 +1)
2
wobei x(l) der l-te Wert der geordneten Folge an Beobachtungen
x1  . . . xi . . .  xn ist.

Kapitel 2
Univariate Statistik | Lageparameter 49
Median II
Median von klassierten Variablen
I Klasse j enthält den Median, wenn F (xju )  0.5  F (xjo )
I innerhalb der Klasse:
u 0, 5 F (xju )
F (x0,5 ) = 0, 5 () x0,5 = xj + · (xjo xju )
fj
Beispiel 23 (Lampen s. Bsp. 21)
Berechne: x0.5 = 777.78 (xD = 666, 67 und x = 860)
1.0

8e−04
0.8

6e−04
Häufigkeitsdichte
0.6
F

4e−04
0.4
0.2

2e−04
0.0

0 500 1000 1500 2000 0 500 1000 1500 2000


Lebensdauer Lebensdauer

Kapitel 2
Univariate Statistik | Lageparameter 50
Quantile I
I Das Quantil xp beschreibt den Punkt auf der Variablenachse, der eine der
Größe nach in aufsteigender Folge geordnete Reihe von n Beobachtungen
x1 , . . . , xn der Anzahl nach ungefähr oder genau im Verhältnis p zu
(1 p) teilt (0  p  1).
I links vom Quantil xp liegen also p% der Daten und rechts vom Quantil xp
liegen (1 p)% der Daten

Quantile von nicht klassierten Variablen


I Ist n · p keine ganze Zahl und m die auf n · p folgende ganze Zahl, so ist
das Quantil
xp = x(m)
I Ist n · p eine ganze Zahl und m = n · p, so könnte jeder Wert zwischen
x(m) und x(m+1) als Quantil definiert werden. Wir legen fest:

1
xp = x(m) + x(m+1) .
2

Kapitel 2
Univariate Statistik | Lageparameter 51
Quantile II

Quantile von klassierten Variablen


I Klasse j enthält das p-Quantil, wenn F (xju )  p  F (xjo )
I innerhalb der Klasse:
u p F (xju )
F (xp ) = p () xp = xj + · (xjo xju )
fj

Spezielle Quantile
Dezile p = s/10, s = 1, . . . , 9 Quartile p = q/4, q = 1, 2, 3
Quintile p = r /5, r = 1, . . . , 4

Kapitel 2
Univariate Statistik | Lageparameter 52
Quantile III

Beispiel 24 (Lampen s. Bsp. 21)


Quartile: Lese ab x0.25 = 500, x0.5 = 777.78 ist bekannt, berechne x0.75 = 1166, 67.
1.0

8e−04
0.8

6e−04
Häufigkeitsdichte
0.6
F

4e−04
0.4
0.2

2e−04
0.0

0 500 1000 1500 2000 0 500 1000 1500 2000


Lebensdauer Lebensdauer

Kapitel 2
Univariate Statistik | Lageparameter 53
Quantile IV
Beispiel 25 (MHNE)
F(x)
1.0

0.75

0.5

0.25


1536 2385 3568 5000

(0,25 0,21)
x0,25 = 1400 + 1600 · 0,471
= 1535, 88 Euro

(0,5 0,21)
x0,50 = 1400 + 1600 · 0,471
= 2385, 14 Euro

(0,75 0,681)
x0,75 = 3000 + 2000 · 0,243
= 3567, 90 Euro

Kapitel 2
Univariate Statistik | Lageparameter 54
Harmonisches Mittel

I Voraussetzung: Das harmonische Mittel kann für verhältnisskalierte


Variablen X berechnet werden, bei denen keine Beobachtung x1 , . . . , xn
den Wert 0 annimmt.
I Definition:
n
xH = n
P 1
xi
i=1

I Gebrauch zumeist als gewichtetes harmonisches Mittel, falls xi Quotient


aus gi über hi ist und sich die Gewichte auf gi beziehen.

Kapitel 2
Univariate Statistik | Lageparameter 55
Gewichtete Mittel
Anstatt alle Beobachtungen xi gleich mit 1/n im Mittel zuPgewichten, verwende
P
i-abhängige Gewichte wi bzw. w ei  1 und ni=1 wi = 1 = ni=1 w
ei mit 0  wi , w ei .
n
X 1
xw = xi wi x Hw = Pn 1
i=1 i=1 xi ei
w

Beispiel 26 (Preisindizes für Warenkorb aus n Gütern)


q0 (i), qt (i) Menge von Gut i zum Zeitpunkt 0,t,
p0 (i), pt (i) Preis von Gut i zum Zeitpunkt 0,t.
n
P
pt (i)q0 (i)
Pn pt (i) p0 (i)q0 (i)
I IL = i=1 p0 (i) · n
P = i=1
Pn (Preisindex nach Laspeyres)
p0 (j)q0 (j) p0 (i)q0 (i)
j=1 i=1
n
P
pt (i)qt (i)
I IPa = n
P
1
= i=1
Pn . (Preisindex nach Paasche)
1 pt (i)qt (i)
pt (i)
· P
n p0 (i)qt (i)
i=1 p (i) pt (j)qt (j) i=1
0 j=1

IL ist ein gewichtetes arithmetisches Mittel, IP ist ein gewichtetes harmonisches Mittel
p (i) p0 (i)q0 (i) pt (i)qt (i)
von xi = pt (i) mit Gewichten wi = P n ei = P
bzw w n .
0
p0 (j)q0 (j) pt (j)qt (j)
j=1 j=1
Kapitel 2
Univariate Statistik | Lageparameter 56

Beispiel 27 (Durchschnittsgeschwindigkeit aus Teilstrecken)


Geschwindigkeit X ist Verhältnis von Streckenlänge G (in km) zur Zeit H (in Stunden). Wir beobachten
g
xi = hi , i = 1, . . . , n.
i
Durchschnittsgeschwindigkeit: Gesamtstrecke dividiert durch die benötigte Gesamtzeit:

Pn
i=1 gi
x Hg = Pn
i=1
hi
Pn
i=1 gi 1 gi
= Pn gi = P ei = P
mit w
n ei
w n g
i=1 xi i=1 xi i=1 i

ist mit Weganteilen gewichtetes harmonisches Mittel aus den Teilgeschwindigkeiten.


Pn
Beachte: ein gewichtetes arithmetische Mittel ei xi hat keine sinnvolle Interpretation, da eine
i=1 w
Durchschnittsgeschwindigkeit ja für alle Teilstrecken konstant sein soll

Teilstrecke i 1 2 3 4

Länge gi in km 2 4 3 8
Geschwindigkeit xi in km/h 40 50 80 100

Pn Pn gi Pn
Gesamtzeit: i=1 hi = i=1 xi = 0, 2475 h , Gesamtstrecke: i=1 gi = 17 km

Durchschnittsgeschwindigkeit: 17/0, 2475 = 68, 687 km/h.

Kapitel 2
Univariate Statistik | Lageparameter 57
Verhältniszahlen: Wahl des geeigneten
Mittelwerts
gi
Gegeben sind Verhältniszahlen xi = hi
, i = 1 . . . n. Weiter:

Es sind Informationen zum Zähler des Verhältnisses gegeben


I ein Durchschnitt aus Verhältniszahlen ist zu berechnen
I es sind Zusatzinformationen (Häufigkeiten, Gewichte) gegeben, die sich
inhaltlich auf den Zähler der Verhältniszahlen beziehen
) das harmonische Mittel muss benutzt werden

Es sind Informationen zum Nenner des Verhältnisses gegeben


I ein Durchschnitt aus Verhältniszahlen ist zu berechnen
I es sind Zusatzinformationen (Häufigkeiten, Gewichte) gegeben, die sich
inhaltlich auf den Nenner der Verhältniszahlen beziehen
) das arithmetische Mittel muss benutzt werden

Kapitel 2
Univariate Statistik | Streuungsparameter 58
Streuungsparameter

I Streuung (Dispersion) ist die Variabilität in den beobachteten Werten


einer metrisch skalierten Variablen um das Zentrum der Daten.

Beispiel 28 (Schematische Illustration)


Monatliche Aufwendungen für Freizeitgüter und Urlaub in EUR
I Datensatz 1 mit 10 Zweipersonenhaushalten:
105, 135, 170, 180, 200, 215, 220, 225, 245, 325 ( )
I Datensatz 2 mit 10 Vierpersonenhaushalte:
170, 175, 180, 190, 195, 205, 210, 220, 230, 245 (⇧)
I x = 202 EUR (•) in beiden Stichproben

⇧⇧⇧ ⇧⇧•⇧⇧ ⇧ ⇧ ⇧

Kapitel 2
Univariate Statistik | Streuungsparameter 59
Spannweite
I auch Range, Schwankungsbereich, Variationsbreite

Spannweite von nicht klassierten Variablen


R = xmax xmin = x(n) x(1)
wobei x(1) , . . . , x(n) geordnete Beobachtungen sind
Beispiel 29 (Weiterführung Monatliche Aufwendungen für Freizeitgüter und
Urlaub)
Spannweite für Zweipersonenhaushalte: R = 315 105 = 210

Spannweite von klassierten Variablen


approximative Spannweite
R = xko x1u
wobei xko die obere Klassengrenze der letzten Klasse und x1u die untere
Klassengrenze der ersten Klasse ist

Kapitel 2
Univariate Statistik | Streuungsparameter 60
Interquartilsabstand

Interquartilsabstand
I ist die Di↵erenz zwischen dem dritten Quartil x0,75 und dem ersten
Quartil x0,25 :
QA = x0,75 x0,25
I ist ein robuster Parameter für die Streuung der Daten (im Gegensatz zur
Spannweite).
I zugehöriges relatives Streuungsmaß: Der Quartilsdispersionskoeffizient ist
das Verhältnis von Quartilsabstand zu Median (robust).

QAr = QA/x0,5

Kapitel 2
Univariate Statistik | Streuungsparameter 61
Mittlere quadratische Abweichung

Mittlere quadratische Abweichung


I ist das arithmetische Mittel aus den quadrierten Abweichungen der
Variablenwerte von einem Bezugspunkt c auf der Variablenachse:
n
1X
MQ(c) = (xi c)2
n i=1

k k
1X 2
X
MQ(c) = (xj c) h(xj ) = (xj c)2 f (xj )
n j=1 j=1

I Konvention: Die Formel für klassierte Daten folgt direkt durch Ersetzen
von f (xj ) durch fj und h(xj ) durch hj . Dies gilt im Folgenden auch für alle
weiteren Formeln dieser Art ohne explizite Erwähnung.

Kapitel 2
Univariate Statistik | Streuungsparameter 62
Varianz

Varianz
I Die Varianz ist die mittlere quadratische Abweichung vom arithmetischen
Mittel x

n n
1X 1 X
s2 = (xi x)2 = xi2 x2
n i=1 n i=1

= x2 x2

k k
1X X
bzw. s 2 = (xj x)2 h(xj ) = (xj x)2 f (xj )
n j=1 j=1

Kapitel 2
Univariate Statistik | Streuungsparameter 63
Standardabweichung
Standardabweichung
I Die Standardabweichung ist die positive Quadratwurzel aus der Varianz:
v
u n
p u1 X
s = s2 = t (xi x)2
n i=1
v
u k
u1 X
bzw. s = t (xj x)2 h(xj )
n j=1

v
u k
uX
= t (xj x)2 f (xj )
j=1

I Die Standardabweichung wird in der gleichen Einheit gemessen, wie die


Daten (im Gegensatz zur Varianz)
Kapitel 2
Univariate Statistik | Streuungsparameter 64
Mittlere absolute Abweichung

Mittlere absolute Abweichung


I auch lineares Streuungsmaß, Mean Absolute Deviation, MAD
I Die mittlere absolute Abweichung ist das arithmetische Mittel aus den
absoluten Abweichungen der Variablenwerte von einem Bezugspunkt c
auf der Variablenachse:
n
1X
d = |xi c|
n i=1

k k
1X X
d = |xj c|h(xj ) = |xj c|f (xj )
n j=1 j=1

Im Allgemeinen wählt man c = x0.5 oder c = x

Kapitel 2
Univariate Statistik | Streuungsparameter 65
Relative Streuungsmaße
I einheitslose Koeffizienten
I messen Dispersion (relative Konzentration) in den Daten
Variationskoeffizienten
I Variationskoeffizient (für x > 0)

v = s/x

I Normierter Variationskoeffizient (für xi 0)

⇤ v
v = p 1
n 1

I Variationskoeffizienten klein ) x ist guter Repräsentant der Daten


I Robuster Quartilsdispersionskoeffizient (für x0,5 > 0)

vr = QA/x0,5

Kapitel 2
Univariate Statistik | Streuungsparameter 66
Gini-Koeffizient G
I Der Gini-Koeffizient ist ein Maß für relative Konzentration
I 0G1 1/n normiert, G steigt mit mehr Disparität (Ungleichheit)
I Er ist der Quotient aus Gini’s mittlerer Di↵erenz (einem Streuungsmaß) und
dem doppelten Mittelwert (Lagemaß) und lässt sich auch berechnen durch:
✓ ◆
1
G =2 B ,
2

wobei B die Fläche unter der sog. “Lorenzkurve” L ist.


I Den Graph der Lorenzkurve erhält man für geordnete Daten x(1) , . . . , x(n) durch
lineare Interpolation der Punkte
✓ ✓ ◆◆ ✓ ✓ ◆◆ ✓ ✓ ◆◆
1 1 2 2 n 1 n 1
(0, 0), ,L , ,L ,..., ,L , (1, 1)
n n n n n n

⇣ ⌘ Pi
i l=1 x(l)
mit L n
= nx
Merkmalsanteil der i kleinsten Merkmalsträger
(Disparitätsrate) für i = 0, . . . , n.

Kapitel 2
Univariate Statistik | Streuungsparameter 67
Beispiel 30 (Lorenzkurve und Berechnung Gini)
i
L ordnet dem Anteil der i kleinsten Merkmalsträger den zugehörigen Merkmalsanteil
⇣ ⌘ n
L ni zu:

L( ni )
6
ppr
ppp p pppp
pp pp ppp
1 ........................................................................................................................................................

p
..

ppp p p pp
..
...

pp p
..

pp p pp
..
..

pp p p pp p
..
..

p
..

pp p
..

p p
..

p p pr
..

pp p p p pp p p p
..
..

pp
..

pp
7

p
..
L( 8 )
p p prpp
..

pp p pp
..

p p
..

ppp p p pp
..

p
ppr
..

p p
L( 68 )
p p p p p
..

pppp p p
pp pp
..

p p p p p
r
..

p prppp p p p p p
..

prpp ppppppppppp prppppp pppppp prppppp pppppp


..
..
..
..
..
- ..
. i
n
1 2 3 4 5 6 7
0 8 8 8 8 8 8 8
1
Kapitel 2
Univariate Statistik | Streuungsparameter 68

Eigenschaften der Lorenzkurve:


I Sie beginnt in (0,0) und endet in (1,1).
I Sie ist stückweise linear.
I Sie ist monoton wachsend.
x
I Die Steigung zwischen i n 1 und ni ist n L( ni ) L( i n 1 ) = x(i) .
I Ihr Verlauf ist konvex, d.h. die Steigungen nehmen mit wachsendem i zu.
I Ihr Graph verläuft unterhalb der Diagonalen von (0,0) nach (1,1).

Kapitel 2
Univariate Statistik | Streuungsparameter 69

Beispiel 31 (Extremfälle)
L( ni ) L( ni )

ppp ppppr pp p p p
pr
6 6

pp p p ppp pp p p p
p
1 ............................................................................................................
1
p
............................................................................................................
.. ..

ppp p p pp p
... ...

pp p p p
.. ..

pp p
.. ..

pp p pp pp p p p
p
.. ..
.. ..

ppp p p pp p
.. ..

p
pp p p p
.. ..
.. ..

pp pp pp p
.. ..

p p
pp p p p
.. ..

ppp p p
.. ..

p
.. ..

p p
pp p p p
.. ..

pp p pp pp p
.. ..
.. ..

p
pp p p
.. ..

ppp pp
.. ..
.. ..
.. ..
.. ..
- ..
. i - ..
. i
n n
0 n 1
1 0 1
n
Maximale Disparität Minimale Disparität
x(n) = 1, x(1) = x(2) = . . . = x(n 1) =0 x1 = x2 = . . . = xn
G = 1 n1 G =0

Kapitel 2
Univariate Statistik | Streuungsparameter 70
Gepoolter Datensatz

D = D1 [ . . . [ Dr disjunkt mit
x 1 , . . . , x r Mittelwerte der Teilstichproben
s12 , . . . , sr2 Varianzen der Teilstichproben
n1 , . . . , nr Stichprobenumfänge der Teilstichproben mit n = n1 + . . . + nr
Dann ist
r
1X
x= x p np
n p=1
r
X r
2 n` 2 X n`
s = s` + (x ` x)2
n n
`=1 `=1

Streuungszerlegung der Varianz


gesamte Varianz = Varianz innerhalb der Teilmassen
+ Varianz zwischen den Teilmassen

Kapitel 2
Univariate Statistik | Streuungsparameter 71
Lineare Transformation der Daten

yi = a + b · xi (b 6= 0) für alle i = 1, . . . , n
a b
= Verschiebung der Daten
0<b<1 = Stauchung der Daten
b>1 = Streckung der Daten
b<0 = Spiegelung am Ursprung mit Stauchung
oder Streckung

Standardisierung

zi = a + bxi mit a= x/sx , b = 1/sx


xi x
zi = ) z = 0, sz2 = 1
sx

Kapitel 2
Univariate Statistik | Streuungsparameter 72

Verhalten von Lage- und Streuungsparametern


Lineare Transformation der Daten

yi = a + b · xi (b 6= 0)

für alle i = 1, . . . , n führt zu Transformation

I des arithmetischen Mittels y = a + bx


I des Medians y0,5 = a + bx0,5
I der Varianz sy2 = b 2 sx2 sy = |b| sx
I der mittleren absoluten Abweichung dy = |b| · dx
I der Spannweite RY = |b|RX
I des Quartilsabstandes QAY = |b| QAX

Kapitel 2
Univariate Statistik | Streuungsparameter 73
Zusammenhang zwischen Lage- und
Streuungsparametern
für beliebiges, reelles c gilt:
quadratische Minimumeigenschaft: Mittelwert und Varianz
n
X n
X
2
(xi x)  (xi c)2
i=1 i=1
k
X k
X
bzw. (xj x)2 h(xj )  (xj c)2 h(xj )
j=1 j=1

lineare Minimumeigenschaft: Median und MAD


n
X n
X
|xi x0,5 |  |xi c|
i=1 i=1
k
X k
X
bzw. |xj x0,5 | · f (xj )  |xj c| · f (xj )
j=1 j=1

Kapitel 2
Univariate Statistik | Streuungsparameter 74
Fünf-Zahlen-Zusammenfassung
I Fasst fünf Kennzahlen einer Verteilung zusammen
. Minimum
. Unteres Quartil (25% Quantil)
. Median (50% Quantil)
. Oberes Quartil (75% Quantil)
. Maximum
Median
Unteres Quartil Oberes Quartil
Minimum Maximum
I Vorläufer des Boxplots
Beispiel 32 (SCE, Februar 2022, Subjektive Inflationserwartung USA)

5,81
3,16 9,07 QA=9,07-3,16=5,91
-12 26,39 R=26,39-(-12)=38,39

Kapitel 2
Univariate Statistik | Streuungsparameter 75
Boxplot I

I auch Box-Whisker-Plot oder Schachtelzeichnung


I grafische Darstellung wesentlicher Kenngrössen einer Beobachtungsreihe
bzw. einer Häufigkeitsverteilung einer metrisch skalierten Variablen X
I Werte, die ausserhalb des Intervals (x0.25 1.5QA, x0.75 + 1.5QA) liegen,
werden (meist willkürlich) als Ausreißer bezeichnet

x0,75 + 1, 5QA (upper fence)


x0,75
x0,5 QA
x0,25

x0,25 1, 5QA (lower fence)

Kapitel 2
Univariate Statistik | Streuungsparameter 76
Boxplot II
Beispiel 33 (Survey of Consumer Expectations, SCE)
I Statistische Einheit: befragte Person
I Statistische Variable: Erwartete Inflationsrate im nächsten Jahr (USA)

Datum Alter x x0,25 x0,5 x0,75 s n


202002  40 2.71 1.01 2.16 3.17 3.90 375
202002 > 40 3.33 1.29 2.57 3.96 4.66 928
202008  40 3.33 1.00 2.46 4.17 4.97 312
202008 > 40 4.07 1.21 3.00 5.95 5.83 853
202102  40 3.94 1.55 2.70 4.90 5.27 382
202102 > 40 4.52 1.65 3.03 6.00 5.87 844
202108  40 5.53 2.02 3.73 6.19 6.08 414
202108 > 40 6.00 2.88 4.91 7.89 6.09 834
202202  40 5.57 2.97 4.89 7.06 5.21 367
202202 > 40 7.11 3.28 6.00 9.65 6.07 827

Kapitel 2
Univariate Statistik | Streuungsparameter 77
Boxplot III

20
Inflationserwartung

Alter
<= 40
0 > 40

−20

202002 202008 202102 202108 202202


Datum

Kapitel 2
Univariate Statistik | Streuungsparameter 78
Zusammenfassung
Skalenniveau
Parameterverwendung Metrisch/Kardinal
meistens problemlos

Robust
Nominal

Ordinal

unklassiert
problembehaftet

klassiert
Diskret

Stetig

Stetig
auf keinen Fall

Modus –
Lage

Mittelwert N
Parameter

Median J
Varianz1 N
Streuung

Spannnweite N
QA J
MAD J
1
oder Standardabweichung

Kapitel 2
Bivariate Statistik | 79
Inhalt

Grundbegri↵e
Statistische Variablen
Skalierung
Klassierung
Univariate Statistik
Verteilung
Lageparameter
Streuungsparameter
Bivariate Statistik
Gemeinsame Verteilung
Randverteilung
Bedingte Verteilung
Zusammenhangsparameter
Anhang

Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 80
Diskrete Variablen I
I X mit Variablenausprägungen xi , i = 1, . . . , m
I Y mit Variablenausprägungen yj , j = 1, . . . , r
I m · r Paare von möglichen Variablenausprägungen
(xi , yj ) = {(X = xi ) ⇥ (Y = yj )}

Zweidimensionale Häufigkeitstabelle
auch Kontingenztabelle oder Kreuztabelle

Variable X Variable Y Randverteilung X


y1 ... yj ... yr
x1 h11 ... h1j ... h1r h1•
.. .. .. .. ..
. . ... . ... . .
xi hi1 ... hij ... hir hi•
.. .. .. .. ..
. . ... . ... . .
xm hm1 ... hmj ... hmr hm•
Randverteilung Y h•1 ... h•j ... h•r h•• = n

Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 81
Diskrete Variablen II

Gesamtheit aller gemeinsamen Variablenausprägungen (xi , yj ) und der


dazugehörigen absoluten bzw. relativen Häufigkeiten.
I Absolute Häufigkeit: h(xi , yj ) = hij
h(xi ,yj )
I Relative Häufigkeit: f (xi , yj ) = fij = n

Eigenschaften:
P
m P
r
I h(xi , yj ) = n
i=1 j=1
P
m P
r
I f (xi , yj ) = 1
i=1 j=1

I 0  h(xi , yj )  n
I 0  f (xi , yj )  1

Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 82
Diskrete Variablen III

Beispiel 34 (Sport)
I X – Berufsgruppe (nominal) mit 5 Merkmalsausprägungen
I Y – sportliche Betätigung (nominal) mit 3 Merkmalsausprägungen
I Kontingenztabelle der Dimension 5 ⇥ 3
I n = 1000 berufstätige Personen

sportliche Betätigung (Y ) Randver-


Berufsgruppe (X ) kaum gelegentlich regelmäßig teilung X
Arbeiter 240 120 70 430
Angestellter 160 90 90 340
Beamter 30 30 30 90
Landwirt 37 7 6 50
sonst. freier Beruf 40 32 18 90
Randverteilung Y 507 279 214 1000

Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 83
Diskrete Variablen IV

250

Absolute Häufigkeit
200

150

100

50
kaum
0 gelegentlich
Arbeiter

Angestellter

regelmäßig
Beamter

Landwirt

sonst. fr. Beruf


Sportliche
Betätgung

Berufsgruppen

Beachte: Die Interpretation des Balkendiagramm wird schwer, wenn viele


Gruppen/Kategorien vorhanden sind.

Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 84
Diskrete Variablen V

Beispiel 35 (Infektion)
I X Test auf Infektion (positiv, negativ), Y – Infektion (vorhanden, nicht
vorhanden)
I X , Y nominalskaliert, n = 100.000 Personen
I 2 ⇥ 2 Kontingenztabelle

Infektion (Y )
nicht
Test (X ) vorhanden (y1 ) vorhanden (y2 ) Randverteilung X
positiv (x1 ) 199 499 698 (h1• )
negativ (x2 ) 1 99301 99302 (h2• )
Randverteilung Y 200 99800 100000
(h•1 ) (h•2 ) (n)

Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 85
Stetige Variablen I

Tabellarische Darstellung Streudiagramm


(auch Korrelationstabelle)
Beispiel 36
Monaco

l Variable X Variable Y 84

Lebenserwartung
1 x1 y1
.. .. .. 80

. . .
n xn yn 76

Belarus

40 60 80 100
Anteil Stadtbevölkerung in %
Wenn sehr viele
(unterschiedliche) Datenpunkte Lebenserwartung vs. Anteil
vorhanden sind – Interpretation Stadtbevölkerung in 34 europ. Ländern
anhand dieser und auch einer
Kontingenztabelle schwierig.

Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 86
Stetige Variablen II
Streudiagramme für Multivariate Daten
Beispiel 37 (Europa Daten)
Variablen: Kindersterblichkeit (1000 Geburten), Lebenserwartung und Anteil
Stadtbevölkerung in 34 europäischen Ländern. Quelle: Our World in Data.
74 76 78 80 82 84 86

1.0
0.8
0.6
child_mortality

0.4
0.2
86
84
82

life_expectancy
80
78
76
74

100
90
80
urban_share

70
60
50
40
0.2 0.4 0.6 0.8 1.0 40 50 60 70 80 90 100

Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 87
Gemeinsame Verteilung und Randverteilung
Variable X Variable Y Randverteilung
y1 ... yj ... yr X

x1 h11 ... h1j ... h1r h1•


. . . . .
. . . . .
. . ... . ... . .
xi hi1 ... hij ... hir hi•
. . . . .
. . . . .
. . ... . ... . .
xm hm1 ... hmj ... hmr hm•

Randverteilung Y h•1 ... h•j ... h•r h•• = n

Beispiel 38
Unterschiedliche gemeinsame Verteilungen, aber gleiche Randverteilungen
y1 y2 y3 y4 y1 y2 y3 y4
x1 3 4 2 1 10 x1 4 3 1 2 10
x2 4 3 1 2 10 x2 3 4 2 1 10
x3 1 2 4 3 10 x3 1 2 3 4 10
x4 2 1 3 4 10 x4 2 1 4 3 10
10 10 10 10 40 10 10 10 10 40

Kapitel 2
Bivariate Statistik | Randverteilung 88
Randverteilung I
I für eine empirische zweidimensionale Häufigkeitsverteilung
I auch “marginale Verteilung”
r
X r
X
hi• = hij fi• = fij i = 1, . . . , m
j=1 j=1
m
X m
X
h•j = hij f•j = fij j = 1, . . . , r
i=1 i=1

Eigenschaften:
m
X r
X
hi• = h•j = n
i=1 j=1

m
X r
X
fi• = f•j = 1
i=1 j=1

Kapitel 2
Bivariate Statistik | Randverteilung 89
Mittelwert empirischer Randverteilungen I

m r r m
1 XX 1 XX
x = xi · h(xi , yj ) y = yj · h(xi , yj )
n i=1 j=1 n j=1 i=1
m X
X r r X
X m
= xi · f (xi , yj ) = yj · f (xi , yj )
i=1 j=1 j=1 i=1
m
X r
X
= xi · f (xi ) = yj · f (yj )
i=1 j=1

Kapitel 2
Bivariate Statistik | Randverteilung 90
Mittelwert empirischer Randverteilungen II
Beispiel 39 (Sport)
Angenommen der zeitliche Aufwand für die Variable Y (Sportliche Betätigung) setzt
sich wie folgt zusammen:

Sportliche Betätigung (Y ) kaum gelegentlich regelmäßig


yj y1 y2 y3
Aufwand in Stunden 0 2 2 4 4 6
h•j 507 279 214
f (yj ) 0, 507 0, 279 0, 214

Mittelwertberechnung der empirischen Randverteilung von Y:

r
X
y = yj · f (yj )
j=1

= (1 · 0, 507 + 3 · 0, 279 + 5 · 0, 214)


= 2, 414
Kapitel 2
Bivariate Statistik | Randverteilung 91
Varianz empirischer Randverteilungen

m r m X
r
1 XX X
sx2 = (xi x)2 h(xi , yj ) = (xi x)2 f (xi , yj )
n i=1 j=1 i=1 j=1
m
X
= (xi x)2 f (xi )
i=1

r m r X
m
1 XX X
sy2 = (yj y )2 h(xi , yj ) = (yj y )2 f (xi , yj )
n j=1 i=1 j=1 i=1
r
X
= (yj y )2 f (yj )
j=1

Kapitel 2
Bivariate Statistik | Bedingte Verteilung 92
Bedingte empirische Verteilungen I

Bedingte Verteilung (relativer Häufigkeiten)


I von X für gegebenes Y = yj

fij hij
f (xi |Y = yj ) = f (xi |yj ) = =
f•j h•j

I von Y für gegebenes X = xi

fij hij
f (yj |X = xi ) = f (yj |xi ) = =
fi• hi•

Kapitel 2
Bivariate Statistik | Bedingte Verteilung 93
Bedingte empirische Verteilungen II
Beispiel 40 (Sport)
Bedingte Verteilung der Variablen Y (sportliche Betätigung) für gegebene xi
(Berufsgruppe) bei 1000 berufstätigen Personen

sportliche Betätigung (Y )
Berufsgruppe (X ) kaum gelegentlich regelmäßig

240 120 70
Arbeiter 0,56= 430
0,28= 430
0,16= 430
1,00
160 90 90
Angestellter 0,47= 340
0,26= 340
0,26= 340
1,00
30 30 30
Beamter 0,33= 90
0,33= 90
0,33= 90
1,00
37 7 6
Landwirt 0,74= 50
0,14= 50
0,12= 50
1,00
40 32 18
sonst. freier Beruf 0,44= 90
0,36= 90
0,20= 90
1,00

Kapitel 2
Bivariate Statistik | Bedingte Verteilung 94
Bedingte empirische Verteilungen III
Beispiel 41 (Sport)
Bedingte Verteilung der Variablen X (Berufsgruppe) für gegebene yj (sportliche
Betätigung) bei 1000 berufstätigen Personen

sportliche Betätigung (Y )
Berufsgruppe (X ) kaum gelegentlich regelmäßig

240 120 70
Arbeiter 0,47= 507
0,43= 279
0,33= 214
160 90 90
Angestellter 0,32= 507
0,32= 279
0,42= 214
30 30 30
Beamter 0,06= 507
0,11= 279
0,14= 214
37 7 6
Landwirt 0,07= 507
0,03= 279
0,03= 214
40 32 18
sonst. freier Beruf 0,08= 507
0,11= 279
0,08= 214
1,00 1,00 1,00

Kapitel 2
Bivariate Statistik | Bedingte Verteilung 95
Bedingte empirische Verteilungen IV

Beispiel 42 (Infektion)
Bedingte Verteilung
I der Variablen X für gegebene yj bei 100000 Personen.
Infektion (Y )
Test (X ) vorhanden (y1 ) nicht vorhanden (y2 )
positiv (x1 ) 0, 995 0, 005
negativ (x2 ) 0, 005 0, 995
1, 000 1, 000

I der Variablen Y für gegebene xi bei 100000 Personen.


Infektion (Y )
Test (X ) vorhanden (y1 ) nicht vorhanden (y2 )
positiv (x1 ) 0,289 0,711 1,000
negativ (x2 ) 0,001 0,999 1,000

Kapitel 2
Bivariate Statistik | Bedingte Verteilung 96
Mittelwert und Varianz empirischer bedingter
Verteilungen I

m
X
x|yj = xi · f (xi |yj )
i=1

r
X
y |xi = yj · f (yj |xi )
j=1

m
X
2
sx|y j
= (xi x|yj )2 f (xi |yj )
i=1

r
X
sy2|xi = (yj y |xi )2 f (yj |xi )
j=1

Kapitel 2
Bivariate Statistik | Bedingte Verteilung 97
Mittelwert empirischer bedingter Verteilung
Beispiel 43 (Sport)
Zeitlicher Aufwand für die Variable Y (Sportliche Betätigung):

Sportliche Betätigung (Y ) kaum gelegentlich regelmäßig


yj y1 y2 y3
Aufwand in Stunden 0–2 2–4 4–6
Beamter f (yj |x3 ) 0,33 0,33 0,33
Landwirt f (yj |x4 ) 0,74 0,14 0,12

Wir möchten berechnen, wie viele Stunden Beamte (x3 ) bzw. Landwirte (x4 ) im
Durchschnitt dem Sport widmen:
Xr
y |x3 = yj · f (yj |x3 ) = 1 · 0, 33 + 3 · 0, 33 + 5 · 0, 33 = 2, 97
j=1
r
X
y |x4 = yj · f (yj |x4 ) = 1 · 0, 74 + 3 · 0, 14 + 5 · 0, 12 = 1, 76
j=1
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 98
Empirische Unabhängigkeit I

Zwei Variablen X und Y heissen empirisch unabhängig, wenn man für eine
Beobachtung
I aus der Kenntnis der Merkmalsausprägung xk keinen Rückschluß auf die
Merkmalsausprägung yk ziehen kann
I und umgekehrt!

Beispiel 44 (Infektion)
Frage: Können die beiden Variablen X : “Testergebnis” und Y : “Infektion”
unabhängig sein?
Antwort: Wenn es ein sinnvoller Test ist nicht. Wünschenswert wäre:
. Infektion vorhanden ) Test positiv
. Infektion nicht vorhanden ) Test negativ
. Test positiv ) Infektion vorhanden
. Test negativ ) keine Infektion vorhanden

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 99
Empirische Unabhängigkeit II
I Bedingte Verteilung von X gegeben yi

Infektion (Y ) Randvert.
Test (X ) vorhanden (y1 ) nicht vorhanden (y2 ) von X

positiv (x1 ) 0, 995 0, 005 0, 007


negativ (x2 ) 0, 005 0, 995 0, 993

1, 000 1, 000 1, 000

. Infektion vorhanden ) Test meist positiv


. Infektion nicht vorhanden ) Test meist negativ
I Bedingte Verteilung von Y gegeben xj

Infektion (Y )
Test (X ) vorhanden (y1 ) nicht vorhanden (y2 )

positiv (x1 ) 0, 289 0, 711 1, 000


negativ (x2 ) 0, 001 0, 999 1, 000

Randvert. von Y 0, 002 0, 998 1, 000

. Test positiv ) in 28,9% der Fälle eine Infektion


. Test negativ ) in nur 0,1% der Fälle eine Infektion

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 100
Empirische Unabhängigkeit III
I Die Variablen X und Y sind unabhängig, wenn gilt:

f (xi |yj ) = f (xi |yl ) = f (xi ) und f (yj |xi ) = f (yj |xh ) = f (yj )

für alle j, l = 1, . . . , r und für alle i = 1, . . . , m bzw. für alle


i, h = 1, . . . , m und für alle j = 1, . . . , r .
I Die bedingten Verteilungen von Y , gegeben X , stimmen untereinander
und mit der Randverteilung von Y überein (analog für X gegeben Y ).
I weiter gilt:
unabh. f (xi ,yj )
f (xi |yj ) = f (xi ) = f (yj )
) f (xi , yj ) = f (xi )f (yj )

unabh. f (xi ,yj )


f (yj |xi ) = f (yj ) = f (xi )
) f (xi , yj ) = f (xi )f (yj )
I analog für absolute Häufigkeiten:

h(xi )h(yj )
h(xi , yj ) =
n

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 101
Empirische Unabhängigkeit IV
Prüfung der Unabhängigkeit – Vergleich der beobachteten relativen
Häufigkeiten f (xi , yj ) mit theoretischen (im Unabhängigkeitsfall erwarteten)
Häufigkeiten ei,j = f (xi ) · f (yj )

Variable X Variable Y Randver-


y1 ... yj ... teilung X
? ?
x1 f (x1 , y1 ) = e1,1 ... f (x1 , yj ) = e1,j ... f (x1 )
.. .. .. ..
. . ... . ... .
? ?
xi f (xi , y1 ) = ei,1 ... f (xi , yj ) = ei,j ... f (xi )
.. .. .. ..
. . ... . ... .
Randver-
teilung Y f (y1 ) ... f (yj ) ... 1

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 102
Empirische Unabhängigkeit V

Beispiel 45 (Infektion)
Infektion (Y ) Randver-
Testergebnis (X ) vorhanden (y1 ) nicht vorhanden(y2 ) teilung X
positiv (x1 ) 0, 001990 0, 004990 0, 006980
ei,j 0, 000014 0, 006966
negativ (x2 ) 0, 000010 0, 993010 0, 993020
ei,j 0, 001986 0, 991034
Randverteilung Y 0, 002000 0, 998000 1

I e1,1 = f (x1 ) · f (y1 ) = 0, 006980 · 0, 00200 ⇡ 0, 000014


I Die beiden Variablen Testergebnis und Infektion sind nicht unabhängig.

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 103
Zusammenhang nominalskalierter Variablen I
Kontingenz
Beobachtete Häufigkeit: Erwartete Häufigkeit
bei Unabhängigkeit:
h h
hij = h(xi , yj ) eij = i•n •j = nfi• f•j
fij = f (xi , yj ) = h(xi , yj )/n eij /n = fi• f•j

Quadratische Kontingenz:
⇣ ⌘2
hi• h•j
m X
X r hij n
m X
X r
(fij fi• f•j )2
2
K = hi• h•j
=n
i=1 j=1 i=1 j=1
fi• f•j
n

Eigenschaften:
I K2 0
!
I K 2 = 0, wenn hij = eij für alle i und j.
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 104
Zusammenhang nominalskalierter Variablen II

Kontingenzkoeffizient
r
K2
C =
n + K2
r
C⇤ 1
0C  < 1, C ⇤ = min{m, r }
C⇤

Korrigierter Kontingenzkoeffizient
r
C⇤
Ckorr = C ·
C⇤ 1
0  Ckorr  1

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 105
Zusammenhang nominalskalierter Variablen III
Beispiel 46 (Infektion)

Infektion (Y ) Randver-
Testergebnis (X ) vorhanden (y1 ) nicht vorhanden(y2 ) teilung X
positiv (x1 ) 0, 00199 0, 00499 0, 00698
negativ (x2 ) 0, 00001 0, 99301 0, 99302
Randverteilung Y 0, 00200 0, 99800 1

2
K = 100000
"
(0, 00199 0, 00200 · 0, 00698)2 (0, 00499 0, 99800 · 0, 00698)2
· +
0, 00200 · 0, 00698 0, 99800 · 0, 00698
#
(0, 00001 0, 00200 · 0, 99302)2 (0, 99301 0, 99800 · 0, 99302)2
+ +
0, 00200 · 0, 99302 0, 99800 · 0, 99302
= 28223, 93
s s
28223, 93 2
C = = 0, 47; Ckorr = 0, 47 · = 0, 66
100000 + 28223, 93 2 1
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 106
Zusammenhang nominalskalierter Variablen IV
Beispiel 47 (Wirtschaft)
X 1 – Wie beurteilen Sie die heutige wirtschaftliche Lage in Deutschland?
Y – Erhebungsgebiet ! nominalskaliert
Ausprägungen: alte Bundesländer (West), neue Bundesländer (Ost)

Besteht ein Zusammenhang zwischen der Einschätzung der Wirtschaftslage für die
Bundesrepublik und dem Erhebungsgebiet? ! Kontingenz
Kontingenztabelle, n = 1000

1991 1996

Einschätzung Erhebungsgebiet Y Erhebungsgebiet Y


X1 West Ost RV X 1 West Ost RV X 1

sehr gut 72 56 128 6 2 8


gut 256 205 461 82 36 118
teils teils 152 226 378 314 175 489
schlecht 12 14 26 215 104 319
sehr schlecht 2 5 7 44 22 66

RV Y 494 506 1000 661 339 1000

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 107
Zusammenhang nominalskalierter Variablen V

Bedingte Verteilung:

f (x1i |yj ) 1991 f (x1i |yj ) 1996


Einschätzung Erhebungsgebiet Y Erhebungsgebiet Y
X1 West Ost RV X 1 West Ost RV X 1
sehr gut 0,145 0,111 0,128 0,010 0,006 0,008
gut 0,519 0,404 0,461 0,124 0,107 0,118
teils teils 0,307 0,447 0,378 0,475 0,515 0,489
schlecht 0,025 0,027 0,026 0,325 0,305 0,319
sehr schlecht 0,004 0,011 0,007 0,066 0,067 0,066
1,000 1,000 1,000 1,000 1,000 1,000

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 108
Zusammenhang nominalskalierter Variablen VI

Bedingte Verteilung: Bedingte Verteilung:


f (x1i |yj ) 1991 f (x1i |yj ) 1996

0,6 0,6

0,5 0,5

bedingte relative Häufigkeit


bedingte relative Häufigkeit

0,4 0,4

0,3 0,3

0,2 0,2

0,1 0,1
West West
Ost Ost
0,0 0,0
sehr gut gut teils/teils schlecht sehr sehr gut gut teils/teils schlecht sehr
schlecht schlecht
Wirtschaftslage in Dtl. 1991 Wirtschaftslage in Dtl. 1996

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 109
Zusammenhang nominalskalierter Variablen
VII
X 2 – Wie beurteilen Sie Ihre eigene gegenwärtige wirtschaftliche Lage?
Y – Erhebungsgebiet
1991: Kontingenztabelle, n = 1000

Erhebungsgebiet Y
Einschätzung X 2 West Ost RV X 2

sehr gut 30 6 36
gut 306 173 479
teils teils 119 227 346
schlecht 29 81 110
sehr schlecht 7 22 29

RV Y 491 509 1000

(30 491·36 )2 (306 491·479 )2 (119 491·346 )2 (29 491·110 )2


2 1000 1000 1000 1000
K = 491·36
+ 491·479
+ 491·346
+ 491·110
1000 1000 1000 1000
(7 491·29 )2 (6 509·36 )2 (173 509·479 )2 (227 509·346 )2
1000 1000 10000 1000
+ 491·29
+ 509·36
+ 509·479
+ 509·346
1000 1000 10000 1000
(81 509·110 )2 (22 509·29 )2
1000 1000
+ 509·110
+ 509·29
= 118, 83
1000 1000
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 110
Zusammenhang nominalskalierter Variablen
VIII

s
118, 83
C = = 0, 3259
1000 + 118, 83
s
2
Ckorr = 0, 3259 = 0, 4609 1991 1996
2 1
X1 C = 0, 154 C = 0, 044
X2 C = 0, 325 C = 0, 116
Y – Erhebungsgebiet X3 C = 0, 293 C = 0, 071
X 1 – gegenwärtige Wirtschaftslage in der X4 C = 0, 300 C = 0, 061
Bundesrepublik
I deutlich geringere Assoziation 1996
X 2 – eigene gegenwärtige Wirtschaftslage
gegenüber 1991
X 3 – zukünftige Wirtschaftslage in der
Bundesrepublik I Angleichung der Au↵assungen
X 4 – eigene zukünftige Wirtschaftslage zwischen West und Ost

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 111
Empirische Kovarianz

Die Kovarianz ist ein Parameter für die gemeinsame Streuung zweier metrisch
skalierter Variablen.
y
xi − x − xi − x +
yi − y + yi − y +
n
X
1 ( xi − x )( yi − y ) − ( xi − x )( yi − y ) +
sxy = (xi x)(yi y)
n i=1 y
xi − x − xi − x +
yi − y − yi − y −
( xi − x )( yi − y ) + ( xi − x )( yi − y ) −

n x x
1X
sxy = xi yi xy Vorzeichenwechsel der Kovarianz in
n i=1
Anhängigkeit der Vorzeichen von
(xi x) und (yi y ).

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 112
Empirischer Korrelationskoeffizient I
Zentrierung
X X
xi⇤ = xi x, yi⇤ = yi y, xi⇤ yi⇤ = (xi x)(yi y)

I ungeeignetes Maß für den Zusammenhang, da abhängig von den


Maßeinheiten der Variablen.

Standardisierung
(xi x) (yi y)
ui = mit u = 0, su2 = 1; vi = mit v = 0, sv2 = 1
sx sy
n
X n
X
(xi x) (yi y)
= ui · vi
i=1
sx sy i=1

I Durch die Standardisierung werden die Daten skalen (d.h.,


Maßeinheiten-)unabhängig.
I Skalenunabhängige Größen sind besser zu interpretieren.

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 113
Empirischer Korrelationskoeffizient II
Bravais–Pearson–Korrelationskoeffizient

1
P
n
n
(xi x)(yi y)
i=1 sxy
rxy = ryx = =
sx · sy sx · sy
P
n
(xi x)(yi y)
i=1
= s
P
n P
n
(xi x)2 (yi y )2
i=1 i=1

Eigenschaften:
I ryx = rxy
I 1  ryx  +1

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 114
Empirischer Korrelationskoeffizient III
Beispiel 48 (Jahresmiete und Jahresgewinn)
60

I Variable X – Jahresmiete
50
für EDV-Anlage in 1000
Euro 40

Jahresgewinn
I Variable Y – Jahresgewinn
30
in Mio. Euro
X15
20
x = 200, (xi x)2 = 457 000
i=1 10

15
X 0
2 0 100 200 300 400 500 600 700
y = 30, (yi y ) = 2 250
Jahresmiete für EDV-Anlage
i=1
I r = 0, 8763 - starke positive
15
X Korrelation
(xi x)(yi y ) = 28 100
i=1
I Größere Werte von X werden
zusammen mit größeren Werten von
28 100 Y beobachtet und umgekehrt.
r = p = 0, 8763
457 000 · 2 250

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 115
Empirischer Korrelationskoeffizient IV
Zusammenhang von Korrelation und Punktewolke im
Streudiagramm
perfekte positive Korrelation perfekte negative Korrelation
r = +1 r= 1

sehr schwache positive Korrelation starke negative Korrelation


r = 0, 05 r = 0, 8

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 116
Empirischer Korrelationskoeffizient V

Quelle: Wikimedia Commons

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 117
Zusammenhang ordinalskalierte Variablen I

Zwei ordinalskalierten Variablen X und Y


I Bei ordinalskalierten Variablen: Bildung von arithmetischen Mittel nicht
legitim.
I Man kann jedoch Beobachtungswerten eine Rangordnung bzw. eine
Rangzahl zuweisen.
I Korrelation bei ordinalskalierten Variablen bzw. Rangkorrelation wird
anhand der Rangzahlen berechnet.
I Rangzahlen: R(xi ), R(yi ), i = 1, . . . , n
. Dem kleinsten Beobachtungswert von X wird die Rangzahl 1 zugeordnet,
der zweitkleinsten die Rangzahl 2 usw.
. Entsprechend verfährt man auch bei der Zuordnung der Rangzahlen der
Beobachtungswerte von Y

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 118
Zusammenhang ordinalskalierte Variablen II

Spearmanscher Rangkorrelationskoeffizient
= Bravais-Pearson-Korrelationskoeffizient der Rangzahlen R(xi ), R(yi )

1
P
n
n+1 n+1
n
R(xi ) 2
R(yi ) 2
R i=1
rXY = s s .
1
P
n
n+1 2 1
P
n
n+1 2
n
(R(xi ) 2
) n
(R(yi ) 2
)
i=1 i=1

I Es gilt: 1  rs  1
I rs ein Maß des monotonen Zusammenhangs.
I Obige Formel kann immer angewendet werden, insbesondere auch wenn
mehrere xi oder mehrere yi den gleichen Wert besitzen. In diesem Fall
spricht man von Bindungen. Liegen Bindungen vor, müssen zunächst
Durchschnittsränge gebildet werden.

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 119

Beispiel 49 (Zahlenbeispiel Rangkorrelationskoeffizient mit Bindungen)


Sei x1 = 3, 7 x2 = 3, 9 x3 = 3, 1 x4 = 3, 7.

O↵ensichtlich ist R (x3 ) = 1 und R (x2 ) = 4.

Auf x1 = x4 = 3, 7 entfallen die Ränge 2 und 3. Man vergibt als Durchschnittsrang

R (x1 ) = 2, 5 und R (x4 ) = 2, 5 .

Analog vergibt man Durchschnittsränge für die yi .

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 120
Rangkorrelationskoeffizient: einfache Formel

Sind die Werte aller xi bzw. aller yi verschieden (es liegen also keine
Bindungen vor), kann folgende vereinfachte Formal angewendet werden:
P
n
6 (RX (xi ) RY (yi ))2
R i=1
rXY =1 .
n(n2 1)

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 121
Zusammenhang ordinalskalierte Variablen III

Beispiel 50
n = 6 Sportler
X – Platzierung des Sportlers in der Abfahrt
Y – Platzierung des Sportlers im Slalom

Sportler (i) 1 2 3 4 5 6
Abfahrt (X ) 2 1 3 4 5 6
Slalom (Y ) 2 3 1 5 4 6
di2 0 4 4 1 1 0

Besteht ein Zusammenhang zwischen den Platzierungen in beiden Disziplinen?

6 · 10
rs = 1 = 0, 7143
6 (36 1)

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 122
Zusammenhang ordinalskalierte Variablen IV
Beispiel 51 (Wirtschaftslage)
X – Wie beurteilen Sie die gegenwärtige wirtschaftliche Lage in der Bundesrepublik?

Y – Wie beurteilen Sie Ihre gegenwärtige eigene wirtschaftliche Lage?


Einschätzungskala:
sehr gut gut teils gut/teils schlecht schlecht sehr schlecht
1 2 3 4 5

) X , Y ordinalskaliert
Besteht ein Zusammenhang zwischen der Einschätzung der Wirtschaftslage für die
Bundesrepublik und der eigenen Wirtschaftslage?

Jahr n rs
1991 2958 0,195
1996 3268 0,306

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 123
Zusammenhang ordinalskalierte Variablen V

Kendallscher Rangkorrelationskoeffizient ⌧
I Vergleich der Ordnungsrelation für alle möglichen Paare von
beobachteten Werten zweier Merkmale
I Sortierung der Rangpaare R(xi ), R(yi ) nach R(xi )
I P - konkordante Merkmalspaare: weisen eine gleiche Ordnungsrelation
auf, d.h. wenn xi < xj , dann gilt yi < yj
I Q - diskordante Merkmalspaare: weisen eine entgegengesetzte
Ordnungsrelation auf, d.h. wenn xi < xj , dann gilt yi > yj
I pi - Anzahl der Paare mit R(xi ) < R(xj ) und R(yi ) < R(yj )
I qi - Anzahl der Paare mit R(xi ) < R(xj ) und R(yi ) > R(yj )

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 124
Zusammenhang ordinalskalierte Variablen VI
Definition I
n
X n
X
P Q
⌧ = mit Q= qi , P = pi
P +Q i=1 i=1

Definition II
4Q 4P
⌧ =1 = 1
n(n 1) n(n 1)

Defintionen sind äquivalent, da gilt


n(n 1)
P +Q =
2

Eigenschaft:
1⌧ 1

Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 125
Zusammenhang ordinalskalierte Variablen VII
Beispiel 52 (Angestellte)
X – organisatorische Fähigkeiten, Y – Arbeitssorgfalt, n = 10 Angestellte
Sortierung nach Rang:

Angestellter i 5 9 2 7 6 8 1 10 3 4
R(X ) 1 2 3 4 5 6 7 8 9 10
R(Y ) 7 2 9 5 1 4 3 6 10 8

Berechnung von pi ,qi bzw. P,Q und Einsetzen in die Formel von ⌧ :
P
Angestellter i 5 9 2 7 6 8 1 10 3 4
R(X ) 1 2 3 4 5 6 7 8 9 10
R(Y ) 7 2 9 5 1 4 3 6 10 8
qi (kleiner) 6 1 6 3 0 1 0 0 1 0 18
pi (größer) 3 7 1 3 5 3 3 2 0 0 27

n(n 1) 10·9 27 18 9
Q = 18, P = 27, Q + P = 2
= 2
= 45, ⌧ = 27+18
= 45
= 0, 2
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 126
Zusammenfassung

Parameterverwendung Skalenniveau
problemlos

Y metrisch

Y metrisch

Y metrisch
X metrisch
Y nominal
X nominal

X nominal

X nominal
problembehaftet

Y ordinal

Y ordinal
X ordinal

X ordinal
auf keinen Fall

K2
Ckorr
Kendall’s ⌧
Spearman
Kovarianz
Bravais-Pearson

Generell: Falls die Skalenniveaus der Variablen unterschiedlich sind, dann


versucht man einen Koeffizienten eines niedrigeren Skalenniveaus zu benutzen.
Kapitel 2
Anhang | 127
Inhalt

Grundbegri↵e
Statistische Variablen
Skalierung
Klassierung
Univariate Statistik
Verteilung
Lageparameter
Streuungsparameter
Bivariate Statistik
Gemeinsame Verteilung
Randverteilung
Bedingte Verteilung
Zusammenhangsparameter
Anhang

Kapitel 2
Anhang | 128
Kovarianz unter Unabhängigkeit
Variablen X und Y unabhängig ) sxy = 0
Beweis:
m X
X r
sxy = (xi x)(yj y ) fij
i=1 j=1
m X
X r
wegen Unabh.
= (xi x)(yj y ) fi• f•j
i=1 j=1
( m
)( r
)
X X
= (xi x) fi• (yj y ) f•j
i=1 j=1
( m m
)( r r
)
X X X X
= xi fi• x fi• yj f•j y f•j
i=1 i=1 j=1 j=1

= (x x)(y y) = 0

Kapitel 2
Anhang | 129
Bravais–Pearson–Korrelationskoeffizient
Möglichkeiten zur Berechnung:

P
n
(xi x)(yi y)
i=1 sxy
rxy = =
n · sx · sy sx · sy
P
n
(xi x)(yi y)
i=1
rxy = s
P
n P
n
(xi x)2 (yi y )2
i=1 i=1

P
n P
n P
n
n xi yi xi yi
i=1 i=1 i=1
rxy = v(
u ✓ ◆2 ) ( ✓ ◆2 )
u
t n P x2 P P P
n n n n
i xi n yi2 yi
i=1 i=1 i=1 i=1
Kapitel 2
Anhang | 130
Herleitung vom Spearmanschen
Rangkorrelationskoeffizient
Spearmansche Rangkorrelationskoeffizient =
Bravais-Pearson-Korrelationskoeffizient der Rangzahlen R(xi ), R(yi )
P
n P
n P
n
n R(xi )R(yi ) R(xi ) R(yi )
i=1 i=1 i=1
rs = v( )(
u ✓ ◆ 2 ✓ ◆2 )
u
t n P R(xi )2 P P P
n n n n
R(xi ) n R(yi )2 R(yi )
i=1 i=1 i=1 i=1

P
n
6 {R(xi ) R(yi )}2
i=1
= 1
n(n2 1)

n
X n
X
n(n + 1) n(n + 1)(2n + 1)
R(xi ) = R(xi )2 = für R(yi ) analog
i=1
2 i=1
6

Kapitel 2
Anhang | 131
Wichtige Stichworte I

3D-Balkendiagramm, 83 Häufigkeitstabelle, 80
Absolute Häufigkeit, 22 Häufigkeitsverteilung, 23
Absolute Häufigkeit, 81 Harmonisches Mittel, 54
Absolutskala, 12 Histogramm, 31
Arithmetisches Mittel, 40 Interpolation, 35
Bedingte Verteilung, 92 Interquartilsabstand, 60
Boxplot, 75 Intervallskala, 11
Bravais–Pearson–Korrelation, 113 Kardinalskala, 10
Dichotome Variable, 8 Kendallsche Rangkorrelation, 123
Diskrete Variable, 13, 80 Klassengrenze, 19
Fünf-Zahlen-Zusammenfassung, 74 Klassierung, 18
Gemeinsame Verteilung, 87 Kontingenzkoeffizient, 104
Gepoolter Datensatz, 70 Kontingenztabelle, 80
Gini-Koeffizient, 66 Korr. Kontingenzkoeffizient, 104
Grundgesamtheit, 4 Korrelation, 112

Kapitel 2
Anhang | 132
Wichtige Stichworte II

Kovarianz, 111 Quadratische Kontingenz, 103


Kreuztabelle, 80 Quantil, 50
Lorenzkurve, 66 Quartilsdispersionskoeffizient, 65
Marginale Verteilung, 88 Randverteilung, 87
Median, 48 Rang, 117
Merkmal, 3 Relative Häufigkeit, 22
Merkmalsausprägung, 3 Relative Häufigkeit, 81
Merkmalsträger, 3 Robustheit, 38
Mitt. absolute Abweichung, 64 Säulendiagramm, 25
Mitt. quadratische Abweichung, 61 Skalenniveau, 6
Mittelwert, 89, 96 Spannweite, 59
Modus, 44 Spearmansche Rangkorr., 118
Nominalskala, 7 Stabdiagramm, 25
Normierter Variationskoeffizient, 65 Standardabweichung, 63
Ordinalskala, 9 Standardisierung, 112

Kapitel 2
Anhang | 133

Wichtige Stichworte III

Statistische Einheit, 3
Stetige Variable, 14, 85
Stichprobe, 4
Streudiagramm, 85
Summenhäufigkeit, 26
Unabhängigkeit, 98
Variable, 3
Varianz, 62, 91, 96
Variationskoeffizient, 65
Verhältnisskala, 12
Verteilungsfunktion, 27
Zentralwert, 48

Kapitel 2

Das könnte Ihnen auch gefallen