Beruflich Dokumente
Kultur Dokumente
Deskriptive Statistik
Statistik I
SoSe 2023
Fabian Krüger
Karlsruher Institut für Technologie
Grundbegri↵e
Statistische Variablen
Skalierung
Klassierung
Univariate Statistik
Verteilung
Lageparameter
Streuungsparameter
Bivariate Statistik
Gemeinsame Verteilung
Randverteilung
Bedingte Verteilung
Zusammenhangsparameter
Anhang
Kapitel 2
Grundbegri↵e | Statistische Variablen 3
Definitionen I
Statistische Einheit (Merkmalsträger)
I Gegenstand oder Vorgang
I eindeutig definiert durch Identifikationskriterien
I Träger der Informationen für die statistische Untersuchung: natürliche
Einheiten (Personen, Tiere, Pflanzen), sozio-ökonomische Einheiten
(Familien, Haushalte, Unternehmen).
Variable (Merkmal)
I Eigenschaft einer statistischen Einheit, die statistisch untersucht werden
soll
Variablenausprägungen (Merkmalsausprägung)
I Werte, die die Variable bei einer statistischen Einheit annehmen kann
Variable Variablenausprägungen
Notation: X x1 ,x2 ,x3 . . .,xk
Y y1 ,y2 ,y3 . . .,yk
Kapitel 2
Grundbegri↵e | Statistische Variablen 4
Definitionen II
Grundgesamtheit
I Menge der statistischen Einheiten mit übereinstimmenden
Identifikationskriterien
Stichprobe
I eine endliche Teilmenge der Elemente der Grundgesamtheit
I ausgewählt und erfasst für die statistische Untersuchung
Beispiel 1
I Grundgesamtheit: Einwohner der Stadt Karlsruhe im Jahr 2018
I Merkmalsträger: ein Einwohner
I Stichprobe: Gruppe der erfassten Einwohner
I Merkmal: Familienstand
I Merkmalsausprägung: ledig, verheiratet
Kapitel 2
Grundbegri↵e | Statistische Variablen 5
Ausreißer
Ausreißer
I ein Messwert, der weit weg von allen anderen Messwerten liegt oder der
unerwartet auftritt oder fehlt
Kapitel 2
Grundbegri↵e | Skalierung 6
Skalierung von Variablen
Skalierung
relationstreue Abbildung einer Variablen durch eine Zeichenmenge (Skala)
Skalen
I Nominalskala (qualitativ)
I Ordinalskala (qualitativ geordnet)
I metrische Skala/ Kardinalskala (quantitativ)
. Intervallskala
. Verhältnisskala
. Absolutskala
Kapitel 2
Grundbegri↵e | Skalierung 7
Nominalskala
Nominalskala
Bei einer Nominalskala bringen Variablenausprägungen oder zugeordnete
Zahlen lediglich die Verschiedenartigkeit zum Ausdruck
Nominalskalierte Variablen
I zulässige Relationen: “gleich“ oder “ungleich“
I unterscheide:
. binär (dichotom)
. häufbar
Beispiel 3
Familienstand, Nationalität, Postleitzahl
Kapitel 2
Grundbegri↵e | Skalierung 8
Dichotome oder binäre Variable
Eine binäre Variable weißt nur zwei sich gegenseitig ausschließende (disjunkte)
Ausprägungen auf
Beispiel 4
I Eine bestimmte Behandlung führt zum Erfolg oder nicht
I Ein Haushalt besitzt einen privaten PKW oder nicht
I Eine Bank stuft einen Kunden als kreditwürdig oder nicht kreditwürdig ein
Häufbare Variable
Bei einer häufbaren Variablen können für dieselbe statistische Einheit mehrere
Ausprägungen beobachtet werden.
Beispiel 5
häufbare Variable: nicht häufbare Variable:
I Vorname I Familienstand
I erlernter Beruf I Postleitzahl
I abonnierte Zeitungen I Hauptwohnsitz
Kapitel 2
Grundbegri↵e | Skalierung 9
Ordinalskala
Ordinalskala
Eine Ordinalskala liegt vor, wenn Variablenausprägungen bzw. zugeordnete
Zahlen eine Verschiedenartigkeit und eine natürliche Rangfolge zum Ausdruck
bringen.
Ordinalskalierte Variablen
I zulässige Relationen: “größer als” und “kleiner als”
I Abstände sind nicht quantifizierbar
Beispiel 6
I Zensuren I Aggressivität
I Erdbebenstärken I Dienstgrade
I Güteklassen für Produkte
(z.B. Nutri-Score)
Kapitel 2
Grundbegri↵e | Skalierung 10
Metrische Skala (Kardinalskala)
Metrische Skala
Eine metrische Skala (Kardinalskala) liegt vor, wenn Variablenausprägungen
durch zugeordnete Zahlen Verschiedenartigkeit, Rangfolge und mess- und
quantifizierbare Unterschiede zum Ausdruck bringen.
Kapitel 2
Grundbegri↵e | Skalierung 11
Intervallskala
I Abstände (Di↵erenzen) zwischen Variablenwerten messbar und plausibel
interpretierbar,
I Quotienten dürfen nicht gebildet werden,
I kein natürlicher Nullpunkt und keine natürliche Maßeinheit (beides nur
Festlegungen).
Beispiel 7
I Temperatur in C
I Kalenderzeitrechnung
I Breiten- und Längengrade der Erde
Kapitel 2
Grundbegri↵e | Skalierung 12
Verhältnisskala
I Di↵erenzen zwischen Variablenwerten berechenbar und plausibel
interpretierbar
I Quotienten von Variablenwerten berechenbar und plausibel interpretierbar
I es gibt einen natürlichen Nullpunkt aber keine natürliche Maßeinheit
Beispiel 8
I Wertvolumen eines Warenkorbes
I Längenmaße, Gewichtsmaßse
I Alter, Einkommen
Absolutskala
I Verhältnisskala mit einer natürlichen, maßstabsunabhängigen Maßeinheit
Beispiel 9
I Stückzahl
I Anzahl immatrikulierter Studenten an einer Universität
Kapitel 2
Grundbegri↵e | Skalierung 13
Diskrete und stetige Variablen I
Diskrete Variable
Eine Variable, die nur endlich oder abzählbar unendlich viele Werte annehmen
kann
I zwischen zwei benachbarten Merkmalsausprägungen gibt es keine weitere
Merkmalsausprägung
Beispiel 10
I monatliche Produktion von PKW
I Anzahl der täglichen Anrufe bei einem Service-Point
I Anzahl Geschwister
Kapitel 2
Grundbegri↵e | Skalierung 14
Diskrete und stetige Variablen II
Stetige Variable
Eine Variable, die in jedem beliebig kleinen Intervall überabzählbar unendlich
viele Werte annehmen kann
I zwischen zwei Merkmalsausprägungen gibt es immer eine weitere
Merkmalsausprägung
Beispiel 11
I verkaufte Menge von Normalbenzin an einer Tankstelle pro Tag
Kapitel 2
Grundbegri↵e | Skalierung 15
Zusammenfassung
Kapitel 2
Grundbegri↵e | Skalierung 16
Übersicht
Variable
H
HH
H
Qualitativ Quantitativ
@
@
@
Nominal Ordinal Metrisch
-dichotom -diskret
-häufbar -stetig
-nicht häufbar -quasi-stetig
HH
H
HH
H
Intervall- Verhältnis- Absolut-
skala skala skala
-
Informationsgrad
Kapitel 2
Grundbegri↵e | Klassierung 17
Klassierung von Variablen I
Beispiel 13 (Einkommensverteilung, BRD-West 2000)
statistische Einheit: Steuerpflichtiger
statistische Variable: steuerpflichtiges Einkommen
P
Gesamtbetrag Einkünfte Steuerpflichtige Einkommen
von ... bis unter ... Euro (1000) (Mrd. Euro)
Kapitel 2
Grundbegri↵e | Klassierung 18
Klassierung von Variablen II
Klassierung (Gruppierung)
I die Zerlegung des Wertebereiches einer metrisch skalierten Variablen in
mehrere Teilintervalle (Klassen oder Gruppen)
) bessere Übersichtlichkeit bei großer Datenmenge
Klassenintervalle
I nicht überlappende (disjunkte) und aneinandergrenzende Intervalle von
Variablenwerten
I n Anzahl der Beobachtungen
I k Anzahl der Klassen
Kapitel 2
Grundbegri↵e | Klassierung 19
Klassierung von Variablen III
Klassengrenzen
Der Wert einer metrisch skalierten Variablen, der eine Klasse nach unten bzw.
oben begrenzt
I untere Klassengrenze xju j = 1, . . . , k
I obere Klassengrenze xjo j = 1, . . . , k
Eigenschaften
I xjo = xj+1
u
, j = 1, . . . , k 1
I xju x < xjo (oder xju < x xjo ), j = 1, . . . , k
Klassenbreite
4xj = xjo xju
Klassenmitte
1 u
xj = (xj + xjo ), j = 1, . . . , k
2
Kapitel 2
Univariate Statistik | 20
Inhalt
Grundbegri↵e
Statistische Variablen
Skalierung
Klassierung
Univariate Statistik
Verteilung
Lageparameter
Streuungsparameter
Bivariate Statistik
Gemeinsame Verteilung
Randverteilung
Bedingte Verteilung
Zusammenhangsparameter
Anhang
Kapitel 2
Univariate Statistik | Verteilung 21
Notation
Statistische Häufigkeit
Die Häufigkeit ist die absolute oder relative Zahl einer Ausprägung oder einer
Klasse von Ausprägungen einer Variablen in einer Stichprobe.
Kapitel 2
Univariate Statistik | Verteilung 22
Häufigkeit statistischer Variablen I
Absolute Häufigkeit
I Anzahl statistischer Einheiten mit einer bestimmten Variablenausprägung
xj (j = 1, . . . , k)
h(X = xj ) = h(xj ) = hj
Pk
I Eigenschaften: 0 h(xj ) n, j=1 h(xj ) = n
Relative Häufigkeit
I Anteil statistischer Einheiten mit einer bestimmten Variablenausprägung
xj (j = 1, . . . , k)
h(xj )
f (X = xj ) = f (xj ) =
n
Pk
I Eigenschaften: 0 f (xj ) 1, j=1 f (xj ) = 1
Kapitel 2
Univariate Statistik | Verteilung 23
Häufigkeit statistischer Variablen II
Empirische Häufigkeitsverteilung
Die Häufigkeitsverteilung einer Variablen ergibt sich durch
I die geordneten Variablenausprägungen (x1 < . . . < xj < . . . < xk )
I die Angabe der dazugehörigen absoluten bzw. relativen Häufigkeiten
Die Häufigkeitsverteilung gibt an, wie sich die statistischen Einheiten auf die
beobachteten Variablenausprägungen verteilen
Allgemeine Häufigkeitstabelle
Variablenausprägung abs. Häufigkeit rel. Häufigkeit
xj h(xj ) f (xj )
x1 h(x1 ) f (x1 )
.. .. ..
. . .
xk h(xk ) f (xk )
Summe n 1
Kapitel 2
Univariate Statistik | Verteilung 24
Grafische Darstellung der Häufigkeit I
Darstellung i.d.R. als
I Säulendiagramm
I Stabdiagramm
Abszisse: Variablenausprägungen xj
Ordinate: absolute oder relative Häufigkeit
Kapitel 2
Univariate Statistik | Verteilung 25
Grafische Darstellung der Häufigkeit II
Säulendiagramm Stabdiagramm
höhenproportionale Darstellung
0.3 0.3
0.2 0.2
f(x)
f(x)
0.1 0.1
0.0 0.0
1 2 3 4 5 1 2 3 4 5
Note Note
Kapitel 2
Univariate Statistik | Verteilung 26
Summenhäufigkeit
Summenhäufigkeit
Die einer Variablenausprägung oder einer oberen Klassengrenze zugeordnete
Summe der absoluten bzw. relativen Häufigkeiten aller Beobachtungswerte, die
diese Variablenausprägung oder obere Klassengrenze nicht überschreiten
I absolute Summenhäufigkeit
j
X
H(xj ) = h(xl ) = h(X xj ), j = 1, ..., k
l=1
I relative Summenhäufigkeit
j
H(xj ) X
F (xj ) = = f (xl ) = f (X xj ), j = 1, ..., k
n
l=1
Kapitel 2
Univariate Statistik | Verteilung 27
Empirische Verteilungsfunktion
Empirische Verteilungsfunktion
Setzt ordinal- oder metrisch skalierte Variablen voraus
8
>
> 0 für x < x1
>
>
>
< P j
F (x) = f (xl ) für xj x < xj+1
>
> l=1
>
>
>
:
1 für xk x
Eigenschaften
I 0 F 1 ist monoton steigende Treppenfunktion
I F (x) = f (X x) in der Stichprobe vom Umfang n
I F ist rechtsstetig (an der Sprungstelle ist der Funktionswert oben)
Kapitel 2
Univariate Statistik | Verteilung 28
f (X > xl ) = 1 f (X xl ) = 1 F (xl )
f (xl < X xm ) = f (X xm ) f (X xl )
= F (xm ) F (xl )
Kapitel 2
Univariate Statistik | Verteilung 29
0.75
HH-größe xj f (x) F (x)
1 0,417 0,417
F(x)
0.50
2 0,335 0,752
3 0,118 0,870
4 0,095 0,965 0.25
Kapitel 2
Univariate Statistik | Verteilung 30
Verteilung klassierter Variablen
Beobachtungswerte x1 , x2 , . . . , xn einer metrischen Variablen X klassiert in k
Klassen
I möglich für X diskret (z.B. bei sehr vielen Variablenausprägungen)
I nötig für X stetig (überabzählbar viele Variablenausprägungen)
x1u x1o h1 f1
.. .. ..
. . .
xku xko hk fk
Summe n 1
Kapitel 2
Univariate Statistik | Verteilung 31
Grafische Darstellung von Häufigkeiten bei
klassierten Daten
Histogramm
I flächenproportionale Darstellung
. Abszisse: Klassengrenzen xju , xjo
bj = hj fj
. Ordinate: Häufigkeitsdichte h xjo xju
oder fbj = xjo xju
k
X k
X
fbj (xjo xju ) = fj = 1
j=1 j=1
k
X k
X
bj (xjo
h xju ) = hj = n
j=1 j=1
Kapitel 2
Univariate Statistik | Verteilung 32
Beispiel 17 (Klausur)
Klassierung anhand der Punkte aus der Statistik-I-Klausur (Beispiel 15) - Punkte
behandelt als stetiges Merkmal
Kapitel 2
Univariate Statistik | Verteilung 33
Empirische Verteilungsfunktion klassierter
Variablen
Beispiel 18 (Lampen)
Untersuchung der Lebensdauer (in Stunden) von 100 Glühlampen
statistische Einheit: Glühlampe
Variable: Lebensdauer (metrisch, stetig)
Pj Pj
xju <X xjo hj fj fbj Hj = l=1 hl Fj = l=1 fl
Kapitel 2
Univariate Statistik | Verteilung 34
Beispiel 18 (Fortsetzung)
1.0
8e−04
0.8
6e−04
Häufigkeitsdichte
0.6
F
4e−04
0.4
0.2
2e−04
0.0
Kapitel 2
Univariate Statistik | Verteilung 35
Empirische Verteilungsfunktion klassierter
Variablen
Empirische Verteilungsfunktion
I Annahme: gleichmäßige Verteilung der Beobachtungen innerhalb einer
Klasse
8 u
> 0 f ür x x 1
>
>
>
>
>
< jP1 x xju
F (x) = fl + x o x u fj für xju < x xjo
>
> l=1 j j
>
>
>
>
:
1 für xko < x
P0
[mit Konvention: l=1 =0]
Kapitel 2
Univariate Statistik | Verteilung 36
Interpolation von F (x)
Der Wert der Verteilungsfunktion F (x) kann für jedes x im beobachteten
Bereich des Merkmals X mithilfe einer Interpolation von F (x) approximativ
bestimmt werden:
u x xju
F (x) = F (xj ) + o u
· fj
xj xj
Grafische Veranschaulichung der Interpolation:
F(x)
F(xoj )
fj
F(x)
F(x)-F(xuj)
F(xju)
x
xuj x xoj
x - x uj
xoj - x ju
Kapitel 2
Univariate Statistik | Lageparameter 37
Kennzahlen von Variablen I
I Maßzahlen, die wichtige Charakteristika einer Häufigkeitsverteilung
beinhalten
Kennzahlen von Variablen
HH
H
HH
Lageparameter Streuungsparameter
Kapitel 2
Univariate Statistik | Lageparameter 38
Kennzahlen von Variablen II
Kennzahlen
I Lageparameter geben an, wo das Zentrum der Verteilung der Variablen
liegt
I Streuungsparameter machen eine Aussage über die Variabilität der
Daten um das Zentrum
I Weitere Parameter:
. Schiefe
. Wölbung
Robustheit
I Eine Kennzahl heißt robust, wenn sie relativ unempfindlich gegenüber
Ausreißern ist
Kapitel 2
Univariate Statistik | Lageparameter 39
Lageparameter
Mittelwerte charakterisieren das Zentrum der Häufigkeitsverteilung auf der
Variablenachse
Beispiel 19
I Variable X: Monatliches persönliche Nettoeinkommen in EUR
I Datensatz 1 enthält nur Beobachtungen für 10 Männer:
1000, 1200, 1750, 2200, 2400, 2800, 2950, 3300, 3800, 4150 ( )
Durchschnittseinkommen: x mann = 2555 EUR (•)
I Datensatz 2 enthält nur Beobachtungen für 10 Frauen:
600, 800, 1350, 1800, 2000, 2400, 2550, 2900, 3400, 3750 (⇧)
Durchschnittseinkommen: x frau = 2155 EUR (•)
⇧⇧ ⇧ ⇧ ⇧• ⇧⇧ ⇧ ⇧ ⇧
Kapitel 2
Univariate Statistik | Lageparameter 40
Arithmetisches Mittel I
Arithmetisches Mittel x einer empirischen Häufigkeitsverteilung
I Voraussetzung: metrisch skalierte Variable
I Teilt die Summe aller beobachteten Variablenwerte gleichmäßig auf alle
statistischen Einheiten auf:
n k k
1X 1X X
x= xi = xj h(xj ) = xj f (xj )
n i=1 n j=1 j=1
Klassierte Daten
I Für jede Klasse liegt vor
. xj Klassenmitte (als Approximation für den Klassenmittelwert (s.u.))
Pk
. nj = hj Anzahl der Beobachtungen in Klasse j mit j=1 nj = n
k k
1X X
x= xj nj = x j fj
n j=1 j=1
Kapitel 2
Univariate Statistik | Lageparameter 41
Arithmetisches Mittel II
Beispiel 20 (MHNE)
X: monatliches Haushaltsnettoeinkommen (MHNE) (bis unter 25 000 Euro)
Kapitel 2
Univariate Statistik | Lageparameter 42
Arithmetisches Mittel II
Kapitel 2
Univariate Statistik | Lageparameter 43
Arithmetisches Mittel III
n
X
(xi x) = 0
i=1
k
X
bzw. (xj x)h(xj ) = 0
j=1
Kapitel 2
Univariate Statistik | Lageparameter 44
Modus I
Kapitel 2
Univariate Statistik | Lageparameter 45
Modus II
Kapitel 2
Univariate Statistik | Lageparameter 46
Modus III
Beispiel 21 (Lampen)
0, 0009 0, 0006
xD = 500 + · 500 = 666, 67
2 · 0, 0009 0, 0006 0, 0003
0, 048 0, 034
xD = 30 + · (37 30) = 31, 96
2 · 0, 048 0, 034 0, 012
Kapitel 2
Univariate Statistik | Lageparameter 48
Median I
I Median x0,5 wird auch als 50% Quantil oder Zentralwert bezeichnet
I Links und rechts vom Median liegen jeweils 50% der Beobachtungswerte
I robuster Lageparameter
I Voraussetzung: mindestens ordinalskalierte Variablen
Kapitel 2
Univariate Statistik | Lageparameter 49
Median II
Median von klassierten Variablen
I Klasse j enthält den Median, wenn F (xju ) 0.5 F (xjo )
I innerhalb der Klasse:
u 0, 5 F (xju )
F (x0,5 ) = 0, 5 () x0,5 = xj + · (xjo xju )
fj
Beispiel 23 (Lampen s. Bsp. 21)
Berechne: x0.5 = 777.78 (xD = 666, 67 und x = 860)
1.0
8e−04
0.8
6e−04
Häufigkeitsdichte
0.6
F
4e−04
0.4
0.2
2e−04
0.0
Kapitel 2
Univariate Statistik | Lageparameter 50
Quantile I
I Das Quantil xp beschreibt den Punkt auf der Variablenachse, der eine der
Größe nach in aufsteigender Folge geordnete Reihe von n Beobachtungen
x1 , . . . , xn der Anzahl nach ungefähr oder genau im Verhältnis p zu
(1 p) teilt (0 p 1).
I links vom Quantil xp liegen also p% der Daten und rechts vom Quantil xp
liegen (1 p)% der Daten
1
xp = x(m) + x(m+1) .
2
Kapitel 2
Univariate Statistik | Lageparameter 51
Quantile II
Spezielle Quantile
Dezile p = s/10, s = 1, . . . , 9 Quartile p = q/4, q = 1, 2, 3
Quintile p = r /5, r = 1, . . . , 4
Kapitel 2
Univariate Statistik | Lageparameter 52
Quantile III
8e−04
0.8
6e−04
Häufigkeitsdichte
0.6
F
4e−04
0.4
0.2
2e−04
0.0
Kapitel 2
Univariate Statistik | Lageparameter 53
Quantile IV
Beispiel 25 (MHNE)
F(x)
1.0
0.75
0.5
0.25
€
1536 2385 3568 5000
(0,25 0,21)
x0,25 = 1400 + 1600 · 0,471
= 1535, 88 Euro
(0,5 0,21)
x0,50 = 1400 + 1600 · 0,471
= 2385, 14 Euro
(0,75 0,681)
x0,75 = 3000 + 2000 · 0,243
= 3567, 90 Euro
Kapitel 2
Univariate Statistik | Lageparameter 54
Harmonisches Mittel
Kapitel 2
Univariate Statistik | Lageparameter 55
Gewichtete Mittel
Anstatt alle Beobachtungen xi gleich mit 1/n im Mittel zuPgewichten, verwende
P
i-abhängige Gewichte wi bzw. w ei 1 und ni=1 wi = 1 = ni=1 w
ei mit 0 wi , w ei .
n
X 1
xw = xi wi x Hw = Pn 1
i=1 i=1 xi ei
w
IL ist ein gewichtetes arithmetisches Mittel, IP ist ein gewichtetes harmonisches Mittel
p (i) p0 (i)q0 (i) pt (i)qt (i)
von xi = pt (i) mit Gewichten wi = P n ei = P
bzw w n .
0
p0 (j)q0 (j) pt (j)qt (j)
j=1 j=1
Kapitel 2
Univariate Statistik | Lageparameter 56
Pn
i=1 gi
x Hg = Pn
i=1
hi
Pn
i=1 gi 1 gi
= Pn gi = P ei = P
mit w
n ei
w n g
i=1 xi i=1 xi i=1 i
Teilstrecke i 1 2 3 4
Länge gi in km 2 4 3 8
Geschwindigkeit xi in km/h 40 50 80 100
Pn Pn gi Pn
Gesamtzeit: i=1 hi = i=1 xi = 0, 2475 h , Gesamtstrecke: i=1 gi = 17 km
Kapitel 2
Univariate Statistik | Lageparameter 57
Verhältniszahlen: Wahl des geeigneten
Mittelwerts
gi
Gegeben sind Verhältniszahlen xi = hi
, i = 1 . . . n. Weiter:
Kapitel 2
Univariate Statistik | Streuungsparameter 58
Streuungsparameter
⇧⇧⇧ ⇧⇧•⇧⇧ ⇧ ⇧ ⇧
Kapitel 2
Univariate Statistik | Streuungsparameter 59
Spannweite
I auch Range, Schwankungsbereich, Variationsbreite
Kapitel 2
Univariate Statistik | Streuungsparameter 60
Interquartilsabstand
Interquartilsabstand
I ist die Di↵erenz zwischen dem dritten Quartil x0,75 und dem ersten
Quartil x0,25 :
QA = x0,75 x0,25
I ist ein robuster Parameter für die Streuung der Daten (im Gegensatz zur
Spannweite).
I zugehöriges relatives Streuungsmaß: Der Quartilsdispersionskoeffizient ist
das Verhältnis von Quartilsabstand zu Median (robust).
QAr = QA/x0,5
Kapitel 2
Univariate Statistik | Streuungsparameter 61
Mittlere quadratische Abweichung
k k
1X 2
X
MQ(c) = (xj c) h(xj ) = (xj c)2 f (xj )
n j=1 j=1
I Konvention: Die Formel für klassierte Daten folgt direkt durch Ersetzen
von f (xj ) durch fj und h(xj ) durch hj . Dies gilt im Folgenden auch für alle
weiteren Formeln dieser Art ohne explizite Erwähnung.
Kapitel 2
Univariate Statistik | Streuungsparameter 62
Varianz
Varianz
I Die Varianz ist die mittlere quadratische Abweichung vom arithmetischen
Mittel x
n n
1X 1 X
s2 = (xi x)2 = xi2 x2
n i=1 n i=1
= x2 x2
k k
1X X
bzw. s 2 = (xj x)2 h(xj ) = (xj x)2 f (xj )
n j=1 j=1
Kapitel 2
Univariate Statistik | Streuungsparameter 63
Standardabweichung
Standardabweichung
I Die Standardabweichung ist die positive Quadratwurzel aus der Varianz:
v
u n
p u1 X
s = s2 = t (xi x)2
n i=1
v
u k
u1 X
bzw. s = t (xj x)2 h(xj )
n j=1
v
u k
uX
= t (xj x)2 f (xj )
j=1
k k
1X X
d = |xj c|h(xj ) = |xj c|f (xj )
n j=1 j=1
Kapitel 2
Univariate Statistik | Streuungsparameter 65
Relative Streuungsmaße
I einheitslose Koeffizienten
I messen Dispersion (relative Konzentration) in den Daten
Variationskoeffizienten
I Variationskoeffizient (für x > 0)
v = s/x
⇤ v
v = p 1
n 1
vr = QA/x0,5
Kapitel 2
Univariate Statistik | Streuungsparameter 66
Gini-Koeffizient G
I Der Gini-Koeffizient ist ein Maß für relative Konzentration
I 0G1 1/n normiert, G steigt mit mehr Disparität (Ungleichheit)
I Er ist der Quotient aus Gini’s mittlerer Di↵erenz (einem Streuungsmaß) und
dem doppelten Mittelwert (Lagemaß) und lässt sich auch berechnen durch:
✓ ◆
1
G =2 B ,
2
⇣ ⌘ Pi
i l=1 x(l)
mit L n
= nx
Merkmalsanteil der i kleinsten Merkmalsträger
(Disparitätsrate) für i = 0, . . . , n.
Kapitel 2
Univariate Statistik | Streuungsparameter 67
Beispiel 30 (Lorenzkurve und Berechnung Gini)
i
L ordnet dem Anteil der i kleinsten Merkmalsträger den zugehörigen Merkmalsanteil
⇣ ⌘ n
L ni zu:
L( ni )
6
ppr
ppp p pppp
pp pp ppp
1 ........................................................................................................................................................
p
..
ppp p p pp
..
...
pp p
..
pp p pp
..
..
pp p p pp p
..
..
p
..
pp p
..
p p
..
p p pr
..
pp p p p pp p p p
..
..
pp
..
pp
7
p
..
L( 8 )
p p prpp
..
pp p pp
..
p p
..
ppp p p pp
..
p
ppr
..
p p
L( 68 )
p p p p p
..
pppp p p
pp pp
..
p p p p p
r
..
p prppp p p p p p
..
Kapitel 2
Univariate Statistik | Streuungsparameter 69
Beispiel 31 (Extremfälle)
L( ni ) L( ni )
ppp ppppr pp p p p
pr
6 6
pp p p ppp pp p p p
p
1 ............................................................................................................
1
p
............................................................................................................
.. ..
ppp p p pp p
... ...
pp p p p
.. ..
pp p
.. ..
pp p pp pp p p p
p
.. ..
.. ..
ppp p p pp p
.. ..
p
pp p p p
.. ..
.. ..
pp pp pp p
.. ..
p p
pp p p p
.. ..
ppp p p
.. ..
p
.. ..
p p
pp p p p
.. ..
pp p pp pp p
.. ..
.. ..
p
pp p p
.. ..
ppp pp
.. ..
.. ..
.. ..
.. ..
- ..
. i - ..
. i
n n
0 n 1
1 0 1
n
Maximale Disparität Minimale Disparität
x(n) = 1, x(1) = x(2) = . . . = x(n 1) =0 x1 = x2 = . . . = xn
G = 1 n1 G =0
Kapitel 2
Univariate Statistik | Streuungsparameter 70
Gepoolter Datensatz
D = D1 [ . . . [ Dr disjunkt mit
x 1 , . . . , x r Mittelwerte der Teilstichproben
s12 , . . . , sr2 Varianzen der Teilstichproben
n1 , . . . , nr Stichprobenumfänge der Teilstichproben mit n = n1 + . . . + nr
Dann ist
r
1X
x= x p np
n p=1
r
X r
2 n` 2 X n`
s = s` + (x ` x)2
n n
`=1 `=1
Kapitel 2
Univariate Statistik | Streuungsparameter 71
Lineare Transformation der Daten
yi = a + b · xi (b 6= 0) für alle i = 1, . . . , n
a b
= Verschiebung der Daten
0<b<1 = Stauchung der Daten
b>1 = Streckung der Daten
b<0 = Spiegelung am Ursprung mit Stauchung
oder Streckung
Standardisierung
Kapitel 2
Univariate Statistik | Streuungsparameter 72
yi = a + b · xi (b 6= 0)
Kapitel 2
Univariate Statistik | Streuungsparameter 73
Zusammenhang zwischen Lage- und
Streuungsparametern
für beliebiges, reelles c gilt:
quadratische Minimumeigenschaft: Mittelwert und Varianz
n
X n
X
2
(xi x) (xi c)2
i=1 i=1
k
X k
X
bzw. (xj x)2 h(xj ) (xj c)2 h(xj )
j=1 j=1
Kapitel 2
Univariate Statistik | Streuungsparameter 74
Fünf-Zahlen-Zusammenfassung
I Fasst fünf Kennzahlen einer Verteilung zusammen
. Minimum
. Unteres Quartil (25% Quantil)
. Median (50% Quantil)
. Oberes Quartil (75% Quantil)
. Maximum
Median
Unteres Quartil Oberes Quartil
Minimum Maximum
I Vorläufer des Boxplots
Beispiel 32 (SCE, Februar 2022, Subjektive Inflationserwartung USA)
5,81
3,16 9,07 QA=9,07-3,16=5,91
-12 26,39 R=26,39-(-12)=38,39
Kapitel 2
Univariate Statistik | Streuungsparameter 75
Boxplot I
Kapitel 2
Univariate Statistik | Streuungsparameter 76
Boxplot II
Beispiel 33 (Survey of Consumer Expectations, SCE)
I Statistische Einheit: befragte Person
I Statistische Variable: Erwartete Inflationsrate im nächsten Jahr (USA)
Kapitel 2
Univariate Statistik | Streuungsparameter 77
Boxplot III
20
Inflationserwartung
Alter
<= 40
0 > 40
−20
Kapitel 2
Univariate Statistik | Streuungsparameter 78
Zusammenfassung
Skalenniveau
Parameterverwendung Metrisch/Kardinal
meistens problemlos
Robust
Nominal
Ordinal
unklassiert
problembehaftet
klassiert
Diskret
Stetig
Stetig
auf keinen Fall
Modus –
Lage
Mittelwert N
Parameter
Median J
Varianz1 N
Streuung
Spannnweite N
QA J
MAD J
1
oder Standardabweichung
Kapitel 2
Bivariate Statistik | 79
Inhalt
Grundbegri↵e
Statistische Variablen
Skalierung
Klassierung
Univariate Statistik
Verteilung
Lageparameter
Streuungsparameter
Bivariate Statistik
Gemeinsame Verteilung
Randverteilung
Bedingte Verteilung
Zusammenhangsparameter
Anhang
Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 80
Diskrete Variablen I
I X mit Variablenausprägungen xi , i = 1, . . . , m
I Y mit Variablenausprägungen yj , j = 1, . . . , r
I m · r Paare von möglichen Variablenausprägungen
(xi , yj ) = {(X = xi ) ⇥ (Y = yj )}
Zweidimensionale Häufigkeitstabelle
auch Kontingenztabelle oder Kreuztabelle
Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 81
Diskrete Variablen II
Eigenschaften:
P
m P
r
I h(xi , yj ) = n
i=1 j=1
P
m P
r
I f (xi , yj ) = 1
i=1 j=1
I 0 h(xi , yj ) n
I 0 f (xi , yj ) 1
Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 82
Diskrete Variablen III
Beispiel 34 (Sport)
I X – Berufsgruppe (nominal) mit 5 Merkmalsausprägungen
I Y – sportliche Betätigung (nominal) mit 3 Merkmalsausprägungen
I Kontingenztabelle der Dimension 5 ⇥ 3
I n = 1000 berufstätige Personen
Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 83
Diskrete Variablen IV
250
Absolute Häufigkeit
200
150
100
50
kaum
0 gelegentlich
Arbeiter
Angestellter
regelmäßig
Beamter
Landwirt
Berufsgruppen
Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 84
Diskrete Variablen V
Beispiel 35 (Infektion)
I X Test auf Infektion (positiv, negativ), Y – Infektion (vorhanden, nicht
vorhanden)
I X , Y nominalskaliert, n = 100.000 Personen
I 2 ⇥ 2 Kontingenztabelle
Infektion (Y )
nicht
Test (X ) vorhanden (y1 ) vorhanden (y2 ) Randverteilung X
positiv (x1 ) 199 499 698 (h1• )
negativ (x2 ) 1 99301 99302 (h2• )
Randverteilung Y 200 99800 100000
(h•1 ) (h•2 ) (n)
Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 85
Stetige Variablen I
l Variable X Variable Y 84
Lebenserwartung
1 x1 y1
.. .. .. 80
. . .
n xn yn 76
Belarus
40 60 80 100
Anteil Stadtbevölkerung in %
Wenn sehr viele
(unterschiedliche) Datenpunkte Lebenserwartung vs. Anteil
vorhanden sind – Interpretation Stadtbevölkerung in 34 europ. Ländern
anhand dieser und auch einer
Kontingenztabelle schwierig.
Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 86
Stetige Variablen II
Streudiagramme für Multivariate Daten
Beispiel 37 (Europa Daten)
Variablen: Kindersterblichkeit (1000 Geburten), Lebenserwartung und Anteil
Stadtbevölkerung in 34 europäischen Ländern. Quelle: Our World in Data.
74 76 78 80 82 84 86
1.0
0.8
0.6
child_mortality
0.4
0.2
86
84
82
life_expectancy
80
78
76
74
100
90
80
urban_share
70
60
50
40
0.2 0.4 0.6 0.8 1.0 40 50 60 70 80 90 100
Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 87
Gemeinsame Verteilung und Randverteilung
Variable X Variable Y Randverteilung
y1 ... yj ... yr X
Beispiel 38
Unterschiedliche gemeinsame Verteilungen, aber gleiche Randverteilungen
y1 y2 y3 y4 y1 y2 y3 y4
x1 3 4 2 1 10 x1 4 3 1 2 10
x2 4 3 1 2 10 x2 3 4 2 1 10
x3 1 2 4 3 10 x3 1 2 3 4 10
x4 2 1 3 4 10 x4 2 1 4 3 10
10 10 10 10 40 10 10 10 10 40
Kapitel 2
Bivariate Statistik | Randverteilung 88
Randverteilung I
I für eine empirische zweidimensionale Häufigkeitsverteilung
I auch “marginale Verteilung”
r
X r
X
hi• = hij fi• = fij i = 1, . . . , m
j=1 j=1
m
X m
X
h•j = hij f•j = fij j = 1, . . . , r
i=1 i=1
Eigenschaften:
m
X r
X
hi• = h•j = n
i=1 j=1
m
X r
X
fi• = f•j = 1
i=1 j=1
Kapitel 2
Bivariate Statistik | Randverteilung 89
Mittelwert empirischer Randverteilungen I
m r r m
1 XX 1 XX
x = xi · h(xi , yj ) y = yj · h(xi , yj )
n i=1 j=1 n j=1 i=1
m X
X r r X
X m
= xi · f (xi , yj ) = yj · f (xi , yj )
i=1 j=1 j=1 i=1
m
X r
X
= xi · f (xi ) = yj · f (yj )
i=1 j=1
Kapitel 2
Bivariate Statistik | Randverteilung 90
Mittelwert empirischer Randverteilungen II
Beispiel 39 (Sport)
Angenommen der zeitliche Aufwand für die Variable Y (Sportliche Betätigung) setzt
sich wie folgt zusammen:
r
X
y = yj · f (yj )
j=1
m r m X
r
1 XX X
sx2 = (xi x)2 h(xi , yj ) = (xi x)2 f (xi , yj )
n i=1 j=1 i=1 j=1
m
X
= (xi x)2 f (xi )
i=1
r m r X
m
1 XX X
sy2 = (yj y )2 h(xi , yj ) = (yj y )2 f (xi , yj )
n j=1 i=1 j=1 i=1
r
X
= (yj y )2 f (yj )
j=1
Kapitel 2
Bivariate Statistik | Bedingte Verteilung 92
Bedingte empirische Verteilungen I
fij hij
f (xi |Y = yj ) = f (xi |yj ) = =
f•j h•j
fij hij
f (yj |X = xi ) = f (yj |xi ) = =
fi• hi•
Kapitel 2
Bivariate Statistik | Bedingte Verteilung 93
Bedingte empirische Verteilungen II
Beispiel 40 (Sport)
Bedingte Verteilung der Variablen Y (sportliche Betätigung) für gegebene xi
(Berufsgruppe) bei 1000 berufstätigen Personen
sportliche Betätigung (Y )
Berufsgruppe (X ) kaum gelegentlich regelmäßig
240 120 70
Arbeiter 0,56= 430
0,28= 430
0,16= 430
1,00
160 90 90
Angestellter 0,47= 340
0,26= 340
0,26= 340
1,00
30 30 30
Beamter 0,33= 90
0,33= 90
0,33= 90
1,00
37 7 6
Landwirt 0,74= 50
0,14= 50
0,12= 50
1,00
40 32 18
sonst. freier Beruf 0,44= 90
0,36= 90
0,20= 90
1,00
Kapitel 2
Bivariate Statistik | Bedingte Verteilung 94
Bedingte empirische Verteilungen III
Beispiel 41 (Sport)
Bedingte Verteilung der Variablen X (Berufsgruppe) für gegebene yj (sportliche
Betätigung) bei 1000 berufstätigen Personen
sportliche Betätigung (Y )
Berufsgruppe (X ) kaum gelegentlich regelmäßig
240 120 70
Arbeiter 0,47= 507
0,43= 279
0,33= 214
160 90 90
Angestellter 0,32= 507
0,32= 279
0,42= 214
30 30 30
Beamter 0,06= 507
0,11= 279
0,14= 214
37 7 6
Landwirt 0,07= 507
0,03= 279
0,03= 214
40 32 18
sonst. freier Beruf 0,08= 507
0,11= 279
0,08= 214
1,00 1,00 1,00
Kapitel 2
Bivariate Statistik | Bedingte Verteilung 95
Bedingte empirische Verteilungen IV
Beispiel 42 (Infektion)
Bedingte Verteilung
I der Variablen X für gegebene yj bei 100000 Personen.
Infektion (Y )
Test (X ) vorhanden (y1 ) nicht vorhanden (y2 )
positiv (x1 ) 0, 995 0, 005
negativ (x2 ) 0, 005 0, 995
1, 000 1, 000
Kapitel 2
Bivariate Statistik | Bedingte Verteilung 96
Mittelwert und Varianz empirischer bedingter
Verteilungen I
m
X
x|yj = xi · f (xi |yj )
i=1
r
X
y |xi = yj · f (yj |xi )
j=1
m
X
2
sx|y j
= (xi x|yj )2 f (xi |yj )
i=1
r
X
sy2|xi = (yj y |xi )2 f (yj |xi )
j=1
Kapitel 2
Bivariate Statistik | Bedingte Verteilung 97
Mittelwert empirischer bedingter Verteilung
Beispiel 43 (Sport)
Zeitlicher Aufwand für die Variable Y (Sportliche Betätigung):
Wir möchten berechnen, wie viele Stunden Beamte (x3 ) bzw. Landwirte (x4 ) im
Durchschnitt dem Sport widmen:
Xr
y |x3 = yj · f (yj |x3 ) = 1 · 0, 33 + 3 · 0, 33 + 5 · 0, 33 = 2, 97
j=1
r
X
y |x4 = yj · f (yj |x4 ) = 1 · 0, 74 + 3 · 0, 14 + 5 · 0, 12 = 1, 76
j=1
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 98
Empirische Unabhängigkeit I
Zwei Variablen X und Y heissen empirisch unabhängig, wenn man für eine
Beobachtung
I aus der Kenntnis der Merkmalsausprägung xk keinen Rückschluß auf die
Merkmalsausprägung yk ziehen kann
I und umgekehrt!
Beispiel 44 (Infektion)
Frage: Können die beiden Variablen X : “Testergebnis” und Y : “Infektion”
unabhängig sein?
Antwort: Wenn es ein sinnvoller Test ist nicht. Wünschenswert wäre:
. Infektion vorhanden ) Test positiv
. Infektion nicht vorhanden ) Test negativ
. Test positiv ) Infektion vorhanden
. Test negativ ) keine Infektion vorhanden
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 99
Empirische Unabhängigkeit II
I Bedingte Verteilung von X gegeben yi
Infektion (Y ) Randvert.
Test (X ) vorhanden (y1 ) nicht vorhanden (y2 ) von X
Infektion (Y )
Test (X ) vorhanden (y1 ) nicht vorhanden (y2 )
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 100
Empirische Unabhängigkeit III
I Die Variablen X und Y sind unabhängig, wenn gilt:
f (xi |yj ) = f (xi |yl ) = f (xi ) und f (yj |xi ) = f (yj |xh ) = f (yj )
h(xi )h(yj )
h(xi , yj ) =
n
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 101
Empirische Unabhängigkeit IV
Prüfung der Unabhängigkeit – Vergleich der beobachteten relativen
Häufigkeiten f (xi , yj ) mit theoretischen (im Unabhängigkeitsfall erwarteten)
Häufigkeiten ei,j = f (xi ) · f (yj )
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 102
Empirische Unabhängigkeit V
Beispiel 45 (Infektion)
Infektion (Y ) Randver-
Testergebnis (X ) vorhanden (y1 ) nicht vorhanden(y2 ) teilung X
positiv (x1 ) 0, 001990 0, 004990 0, 006980
ei,j 0, 000014 0, 006966
negativ (x2 ) 0, 000010 0, 993010 0, 993020
ei,j 0, 001986 0, 991034
Randverteilung Y 0, 002000 0, 998000 1
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 103
Zusammenhang nominalskalierter Variablen I
Kontingenz
Beobachtete Häufigkeit: Erwartete Häufigkeit
bei Unabhängigkeit:
h h
hij = h(xi , yj ) eij = i•n •j = nfi• f•j
fij = f (xi , yj ) = h(xi , yj )/n eij /n = fi• f•j
Quadratische Kontingenz:
⇣ ⌘2
hi• h•j
m X
X r hij n
m X
X r
(fij fi• f•j )2
2
K = hi• h•j
=n
i=1 j=1 i=1 j=1
fi• f•j
n
Eigenschaften:
I K2 0
!
I K 2 = 0, wenn hij = eij für alle i und j.
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 104
Zusammenhang nominalskalierter Variablen II
Kontingenzkoeffizient
r
K2
C =
n + K2
r
C⇤ 1
0C < 1, C ⇤ = min{m, r }
C⇤
Korrigierter Kontingenzkoeffizient
r
C⇤
Ckorr = C ·
C⇤ 1
0 Ckorr 1
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 105
Zusammenhang nominalskalierter Variablen III
Beispiel 46 (Infektion)
Infektion (Y ) Randver-
Testergebnis (X ) vorhanden (y1 ) nicht vorhanden(y2 ) teilung X
positiv (x1 ) 0, 00199 0, 00499 0, 00698
negativ (x2 ) 0, 00001 0, 99301 0, 99302
Randverteilung Y 0, 00200 0, 99800 1
2
K = 100000
"
(0, 00199 0, 00200 · 0, 00698)2 (0, 00499 0, 99800 · 0, 00698)2
· +
0, 00200 · 0, 00698 0, 99800 · 0, 00698
#
(0, 00001 0, 00200 · 0, 99302)2 (0, 99301 0, 99800 · 0, 99302)2
+ +
0, 00200 · 0, 99302 0, 99800 · 0, 99302
= 28223, 93
s s
28223, 93 2
C = = 0, 47; Ckorr = 0, 47 · = 0, 66
100000 + 28223, 93 2 1
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 106
Zusammenhang nominalskalierter Variablen IV
Beispiel 47 (Wirtschaft)
X 1 – Wie beurteilen Sie die heutige wirtschaftliche Lage in Deutschland?
Y – Erhebungsgebiet ! nominalskaliert
Ausprägungen: alte Bundesländer (West), neue Bundesländer (Ost)
Besteht ein Zusammenhang zwischen der Einschätzung der Wirtschaftslage für die
Bundesrepublik und dem Erhebungsgebiet? ! Kontingenz
Kontingenztabelle, n = 1000
1991 1996
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 107
Zusammenhang nominalskalierter Variablen V
Bedingte Verteilung:
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 108
Zusammenhang nominalskalierter Variablen VI
0,6 0,6
0,5 0,5
0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
West West
Ost Ost
0,0 0,0
sehr gut gut teils/teils schlecht sehr sehr gut gut teils/teils schlecht sehr
schlecht schlecht
Wirtschaftslage in Dtl. 1991 Wirtschaftslage in Dtl. 1996
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 109
Zusammenhang nominalskalierter Variablen
VII
X 2 – Wie beurteilen Sie Ihre eigene gegenwärtige wirtschaftliche Lage?
Y – Erhebungsgebiet
1991: Kontingenztabelle, n = 1000
Erhebungsgebiet Y
Einschätzung X 2 West Ost RV X 2
sehr gut 30 6 36
gut 306 173 479
teils teils 119 227 346
schlecht 29 81 110
sehr schlecht 7 22 29
s
118, 83
C = = 0, 3259
1000 + 118, 83
s
2
Ckorr = 0, 3259 = 0, 4609 1991 1996
2 1
X1 C = 0, 154 C = 0, 044
X2 C = 0, 325 C = 0, 116
Y – Erhebungsgebiet X3 C = 0, 293 C = 0, 071
X 1 – gegenwärtige Wirtschaftslage in der X4 C = 0, 300 C = 0, 061
Bundesrepublik
I deutlich geringere Assoziation 1996
X 2 – eigene gegenwärtige Wirtschaftslage
gegenüber 1991
X 3 – zukünftige Wirtschaftslage in der
Bundesrepublik I Angleichung der Au↵assungen
X 4 – eigene zukünftige Wirtschaftslage zwischen West und Ost
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 111
Empirische Kovarianz
Die Kovarianz ist ein Parameter für die gemeinsame Streuung zweier metrisch
skalierter Variablen.
y
xi − x − xi − x +
yi − y + yi − y +
n
X
1 ( xi − x )( yi − y ) − ( xi − x )( yi − y ) +
sxy = (xi x)(yi y)
n i=1 y
xi − x − xi − x +
yi − y − yi − y −
( xi − x )( yi − y ) + ( xi − x )( yi − y ) −
n x x
1X
sxy = xi yi xy Vorzeichenwechsel der Kovarianz in
n i=1
Anhängigkeit der Vorzeichen von
(xi x) und (yi y ).
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 112
Empirischer Korrelationskoeffizient I
Zentrierung
X X
xi⇤ = xi x, yi⇤ = yi y, xi⇤ yi⇤ = (xi x)(yi y)
Standardisierung
(xi x) (yi y)
ui = mit u = 0, su2 = 1; vi = mit v = 0, sv2 = 1
sx sy
n
X n
X
(xi x) (yi y)
= ui · vi
i=1
sx sy i=1
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 113
Empirischer Korrelationskoeffizient II
Bravais–Pearson–Korrelationskoeffizient
1
P
n
n
(xi x)(yi y)
i=1 sxy
rxy = ryx = =
sx · sy sx · sy
P
n
(xi x)(yi y)
i=1
= s
P
n P
n
(xi x)2 (yi y )2
i=1 i=1
Eigenschaften:
I ryx = rxy
I 1 ryx +1
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 114
Empirischer Korrelationskoeffizient III
Beispiel 48 (Jahresmiete und Jahresgewinn)
60
I Variable X – Jahresmiete
50
für EDV-Anlage in 1000
Euro 40
Jahresgewinn
I Variable Y – Jahresgewinn
30
in Mio. Euro
X15
20
x = 200, (xi x)2 = 457 000
i=1 10
15
X 0
2 0 100 200 300 400 500 600 700
y = 30, (yi y ) = 2 250
Jahresmiete für EDV-Anlage
i=1
I r = 0, 8763 - starke positive
15
X Korrelation
(xi x)(yi y ) = 28 100
i=1
I Größere Werte von X werden
zusammen mit größeren Werten von
28 100 Y beobachtet und umgekehrt.
r = p = 0, 8763
457 000 · 2 250
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 115
Empirischer Korrelationskoeffizient IV
Zusammenhang von Korrelation und Punktewolke im
Streudiagramm
perfekte positive Korrelation perfekte negative Korrelation
r = +1 r= 1
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 116
Empirischer Korrelationskoeffizient V
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 117
Zusammenhang ordinalskalierte Variablen I
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 118
Zusammenhang ordinalskalierte Variablen II
Spearmanscher Rangkorrelationskoeffizient
= Bravais-Pearson-Korrelationskoeffizient der Rangzahlen R(xi ), R(yi )
1
P
n
n+1 n+1
n
R(xi ) 2
R(yi ) 2
R i=1
rXY = s s .
1
P
n
n+1 2 1
P
n
n+1 2
n
(R(xi ) 2
) n
(R(yi ) 2
)
i=1 i=1
I Es gilt: 1 rs 1
I rs ein Maß des monotonen Zusammenhangs.
I Obige Formel kann immer angewendet werden, insbesondere auch wenn
mehrere xi oder mehrere yi den gleichen Wert besitzen. In diesem Fall
spricht man von Bindungen. Liegen Bindungen vor, müssen zunächst
Durchschnittsränge gebildet werden.
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 119
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 120
Rangkorrelationskoeffizient: einfache Formel
Sind die Werte aller xi bzw. aller yi verschieden (es liegen also keine
Bindungen vor), kann folgende vereinfachte Formal angewendet werden:
P
n
6 (RX (xi ) RY (yi ))2
R i=1
rXY =1 .
n(n2 1)
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 121
Zusammenhang ordinalskalierte Variablen III
Beispiel 50
n = 6 Sportler
X – Platzierung des Sportlers in der Abfahrt
Y – Platzierung des Sportlers im Slalom
Sportler (i) 1 2 3 4 5 6
Abfahrt (X ) 2 1 3 4 5 6
Slalom (Y ) 2 3 1 5 4 6
di2 0 4 4 1 1 0
6 · 10
rs = 1 = 0, 7143
6 (36 1)
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 122
Zusammenhang ordinalskalierte Variablen IV
Beispiel 51 (Wirtschaftslage)
X – Wie beurteilen Sie die gegenwärtige wirtschaftliche Lage in der Bundesrepublik?
) X , Y ordinalskaliert
Besteht ein Zusammenhang zwischen der Einschätzung der Wirtschaftslage für die
Bundesrepublik und der eigenen Wirtschaftslage?
Jahr n rs
1991 2958 0,195
1996 3268 0,306
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 123
Zusammenhang ordinalskalierte Variablen V
Kendallscher Rangkorrelationskoeffizient ⌧
I Vergleich der Ordnungsrelation für alle möglichen Paare von
beobachteten Werten zweier Merkmale
I Sortierung der Rangpaare R(xi ), R(yi ) nach R(xi )
I P - konkordante Merkmalspaare: weisen eine gleiche Ordnungsrelation
auf, d.h. wenn xi < xj , dann gilt yi < yj
I Q - diskordante Merkmalspaare: weisen eine entgegengesetzte
Ordnungsrelation auf, d.h. wenn xi < xj , dann gilt yi > yj
I pi - Anzahl der Paare mit R(xi ) < R(xj ) und R(yi ) < R(yj )
I qi - Anzahl der Paare mit R(xi ) < R(xj ) und R(yi ) > R(yj )
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 124
Zusammenhang ordinalskalierte Variablen VI
Definition I
n
X n
X
P Q
⌧ = mit Q= qi , P = pi
P +Q i=1 i=1
Definition II
4Q 4P
⌧ =1 = 1
n(n 1) n(n 1)
Eigenschaft:
1⌧ 1
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 125
Zusammenhang ordinalskalierte Variablen VII
Beispiel 52 (Angestellte)
X – organisatorische Fähigkeiten, Y – Arbeitssorgfalt, n = 10 Angestellte
Sortierung nach Rang:
Angestellter i 5 9 2 7 6 8 1 10 3 4
R(X ) 1 2 3 4 5 6 7 8 9 10
R(Y ) 7 2 9 5 1 4 3 6 10 8
Berechnung von pi ,qi bzw. P,Q und Einsetzen in die Formel von ⌧ :
P
Angestellter i 5 9 2 7 6 8 1 10 3 4
R(X ) 1 2 3 4 5 6 7 8 9 10
R(Y ) 7 2 9 5 1 4 3 6 10 8
qi (kleiner) 6 1 6 3 0 1 0 0 1 0 18
pi (größer) 3 7 1 3 5 3 3 2 0 0 27
n(n 1) 10·9 27 18 9
Q = 18, P = 27, Q + P = 2
= 2
= 45, ⌧ = 27+18
= 45
= 0, 2
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 126
Zusammenfassung
Parameterverwendung Skalenniveau
problemlos
Y metrisch
Y metrisch
Y metrisch
X metrisch
Y nominal
X nominal
X nominal
X nominal
problembehaftet
Y ordinal
Y ordinal
X ordinal
X ordinal
auf keinen Fall
K2
Ckorr
Kendall’s ⌧
Spearman
Kovarianz
Bravais-Pearson
Grundbegri↵e
Statistische Variablen
Skalierung
Klassierung
Univariate Statistik
Verteilung
Lageparameter
Streuungsparameter
Bivariate Statistik
Gemeinsame Verteilung
Randverteilung
Bedingte Verteilung
Zusammenhangsparameter
Anhang
Kapitel 2
Anhang | 128
Kovarianz unter Unabhängigkeit
Variablen X und Y unabhängig ) sxy = 0
Beweis:
m X
X r
sxy = (xi x)(yj y ) fij
i=1 j=1
m X
X r
wegen Unabh.
= (xi x)(yj y ) fi• f•j
i=1 j=1
( m
)( r
)
X X
= (xi x) fi• (yj y ) f•j
i=1 j=1
( m m
)( r r
)
X X X X
= xi fi• x fi• yj f•j y f•j
i=1 i=1 j=1 j=1
= (x x)(y y) = 0
Kapitel 2
Anhang | 129
Bravais–Pearson–Korrelationskoeffizient
Möglichkeiten zur Berechnung:
P
n
(xi x)(yi y)
i=1 sxy
rxy = =
n · sx · sy sx · sy
P
n
(xi x)(yi y)
i=1
rxy = s
P
n P
n
(xi x)2 (yi y )2
i=1 i=1
P
n P
n P
n
n xi yi xi yi
i=1 i=1 i=1
rxy = v(
u ✓ ◆2 ) ( ✓ ◆2 )
u
t n P x2 P P P
n n n n
i xi n yi2 yi
i=1 i=1 i=1 i=1
Kapitel 2
Anhang | 130
Herleitung vom Spearmanschen
Rangkorrelationskoeffizient
Spearmansche Rangkorrelationskoeffizient =
Bravais-Pearson-Korrelationskoeffizient der Rangzahlen R(xi ), R(yi )
P
n P
n P
n
n R(xi )R(yi ) R(xi ) R(yi )
i=1 i=1 i=1
rs = v( )(
u ✓ ◆ 2 ✓ ◆2 )
u
t n P R(xi )2 P P P
n n n n
R(xi ) n R(yi )2 R(yi )
i=1 i=1 i=1 i=1
P
n
6 {R(xi ) R(yi )}2
i=1
= 1
n(n2 1)
n
X n
X
n(n + 1) n(n + 1)(2n + 1)
R(xi ) = R(xi )2 = für R(yi ) analog
i=1
2 i=1
6
Kapitel 2
Anhang | 131
Wichtige Stichworte I
3D-Balkendiagramm, 83 Häufigkeitstabelle, 80
Absolute Häufigkeit, 22 Häufigkeitsverteilung, 23
Absolute Häufigkeit, 81 Harmonisches Mittel, 54
Absolutskala, 12 Histogramm, 31
Arithmetisches Mittel, 40 Interpolation, 35
Bedingte Verteilung, 92 Interquartilsabstand, 60
Boxplot, 75 Intervallskala, 11
Bravais–Pearson–Korrelation, 113 Kardinalskala, 10
Dichotome Variable, 8 Kendallsche Rangkorrelation, 123
Diskrete Variable, 13, 80 Klassengrenze, 19
Fünf-Zahlen-Zusammenfassung, 74 Klassierung, 18
Gemeinsame Verteilung, 87 Kontingenzkoeffizient, 104
Gepoolter Datensatz, 70 Kontingenztabelle, 80
Gini-Koeffizient, 66 Korr. Kontingenzkoeffizient, 104
Grundgesamtheit, 4 Korrelation, 112
Kapitel 2
Anhang | 132
Wichtige Stichworte II
Kapitel 2
Anhang | 133
Statistische Einheit, 3
Stetige Variable, 14, 85
Stichprobe, 4
Streudiagramm, 85
Summenhäufigkeit, 26
Unabhängigkeit, 98
Variable, 3
Varianz, 62, 91, 96
Variationskoeffizient, 65
Verhältnisskala, 12
Verteilungsfunktion, 27
Zentralwert, 48
Kapitel 2