Deskriptive Statistik

Kapitel 2
Deskriptive Statistik
Statistik I
SoSe 2023
Fabian Krüger
Karlsruher Institut für Technologie
Foliensatz erstellt durch M. Schienle.

Konsekutive Ergänzungen: O. Grothe, M. Schienle und F. Krüger.
Grundbegri↵e 2
Inhalt
Grundbegri↵e
Statistische Variablen
Skalierung
Klassierung
Univariate Statistik
Verteilung
Lageparameter
Streuungsparameter
Bivariate Statistik
Gemeinsame Verteilung
Randverteilung
Bedingte Verteilung
Zusammenhangsparameter
Anhang
Kapitel 2
Grundbegri↵e | Statistische Variablen 3
Definitionen I
Statistische Einheit (Merkmalsträger)
I Gegenstand oder Vorgang
I eindeutig definiert durch Identifikationskriterien
I Träger der Informationen für die statistische Untersuchung: natürliche
Einheiten (Personen, Tiere, Pflanzen), sozio-ökonomische Einheiten
(Familien, Haushalte, Unternehmen).
Variable (Merkmal)
I Eigenschaft einer statistischen Einheit, die statistisch untersucht werden
soll
Variablenausprägungen (Merkmalsausprägung)
I Werte, die die Variable bei einer statistischen Einheit annehmen kann
Variable Variablenausprägungen
Notation: X x1 ,x2 ,x3 . . .,xk
Y y1 ,y2 ,y3 . . .,yk
Kapitel 2
Definitionen II
Grundgesamtheit
I Menge der statistischen Einheiten mit übereinstimmenden
Identifikationskriterien
Stichprobe
I eine endliche Teilmenge der Elemente der Grundgesamtheit
I ausgewählt und erfasst für die statistische Untersuchung
Beispiel 1
I Grundgesamtheit: Einwohner der Stadt Karlsruhe im Jahr 2018
I Merkmalsträger: ein Einwohner
I Stichprobe: Gruppe der erfassten Einwohner
I Merkmal: Familienstand
I Merkmalsausprägung: ledig, verheiratet
Kapitel 2
Ausreißer
Ausreißer
I ein Messwert, der weit weg von allen anderen Messwerten liegt oder der
unerwartet auftritt oder fehlt
Beispiel 2 (ALLBUS 2010, Extremwerte)

Fallnummer Wert
BEFR.: NETTOEINKOMMEN, Größte Werte 1 136 10000
OFFENE ABFRAGE 2 780 10000
3 569 9500
4 2249 9000
5 2692 9000
Kleinste Werte 1 1120 22
2 1964 30
3 1292 65
4 1061 80
5 1560 90
Kapitel 2
Grundbegri↵e | Skalierung 6
Skalierung von Variablen
Skalierung
relationstreue Abbildung einer Variablen durch eine Zeichenmenge (Skala)
Skalen
I Nominalskala (qualitativ)
I Ordinalskala (qualitativ geordnet)
I metrische Skala/ Kardinalskala (quantitativ)
. Intervallskala
. Verhältnisskala
. Absolutskala
Das Skalenniveau entscheidet über die Anwendbarkeit von statistischen

Methoden
Kapitel 2
Nominalskala
Nominalskala
Bei einer Nominalskala bringen Variablenausprägungen oder zugeordnete
Zahlen lediglich die Verschiedenartigkeit zum Ausdruck
Nominalskalierte Variablen
I zulässige Relationen: “gleich“ oder “ungleich“
I unterscheide:
. binär (dichotom)
. häufbar
Achtung: Zugeordnete Zahlen (Nominalzahlen, Schlüsselzahlen) haben reine

Bezeichnungsfunktion, es wird keine Reihenfolge gebildet
Beispiel 3
Familienstand, Nationalität, Postleitzahl
Kapitel 2
Dichotome oder binäre Variable
Eine binäre Variable weißt nur zwei sich gegenseitig ausschließende (disjunkte)
Ausprägungen auf
Beispiel 4
I Eine bestimmte Behandlung führt zum Erfolg oder nicht
I Ein Haushalt besitzt einen privaten PKW oder nicht
I Eine Bank stuft einen Kunden als kreditwürdig oder nicht kreditwürdig ein
Häufbare Variable
Bei einer häufbaren Variablen können für dieselbe statistische Einheit mehrere
Ausprägungen beobachtet werden.
Beispiel 5
häufbare Variable: nicht häufbare Variable:
I Vorname I Familienstand
I erlernter Beruf I Postleitzahl
I abonnierte Zeitungen I Hauptwohnsitz
Kapitel 2
Ordinalskala
Ordinalskala
Eine Ordinalskala liegt vor, wenn Variablenausprägungen bzw. zugeordnete
Zahlen eine Verschiedenartigkeit und eine natürliche Rangfolge zum Ausdruck
bringen.
Ordinalskalierte Variablen
I zulässige Relationen: “größer als” und “kleiner als”
I Abstände sind nicht quantifizierbar
Beispiel 6
I Zensuren I Aggressivität
I Erdbebenstärken I Dienstgrade
I Güteklassen für Produkte
(z.B. Nutri-Score)
Kapitel 2
Metrische Skala (Kardinalskala)
Metrische Skala
Eine metrische Skala (Kardinalskala) liegt vor, wenn Variablenausprägungen
durch zugeordnete Zahlen Verschiedenartigkeit, Rangfolge und mess- und
quantifizierbare Unterschiede zum Ausdruck bringen.
Metrisch skalierte Variable

I synonym: kardinalskaliert, quantitativ
I Variablenwerte sind im allgemeinen Ergebnis eines Zähl- oder
Messvorgangs
I unterscheide
. intervallskaliert
. verhältnisskaliert
. absolutskaliert
Kapitel 2
Intervallskala
I Abstände (Di↵erenzen) zwischen Variablenwerten messbar und plausibel
interpretierbar,
I Quotienten dürfen nicht gebildet werden,
I kein natürlicher Nullpunkt und keine natürliche Maßeinheit (beides nur
Festlegungen).
Beispiel 7
I Temperatur in C
I Kalenderzeitrechnung
I Breiten- und Längengrade der Erde
Kapitel 2
Verhältnisskala
I Di↵erenzen zwischen Variablenwerten berechenbar und plausibel
interpretierbar
I Quotienten von Variablenwerten berechenbar und plausibel interpretierbar
I es gibt einen natürlichen Nullpunkt aber keine natürliche Maßeinheit
Beispiel 8
I Wertvolumen eines Warenkorbes
I Längenmaße, Gewichtsmaßse
I Alter, Einkommen
Absolutskala
I Verhältnisskala mit einer natürlichen, maßstabsunabhängigen Maßeinheit
Beispiel 9
I Stückzahl
I Anzahl immatrikulierter Studenten an einer Universität
Kapitel 2
Diskrete und stetige Variablen I
Metrische Variablen werden noch weiter in stetig und diskret unterteilt.
Diskrete Variable
Eine Variable, die nur endlich oder abzählbar unendlich viele Werte annehmen
kann
I zwischen zwei benachbarten Merkmalsausprägungen gibt es keine weitere
Merkmalsausprägung
Beispiel 10
I monatliche Produktion von PKW
I Anzahl der täglichen Anrufe bei einem Service-Point
I Anzahl Geschwister
Kapitel 2
Diskrete und stetige Variablen II
Stetige Variable
Eine Variable, die in jedem beliebig kleinen Intervall überabzählbar unendlich
viele Werte annehmen kann
I zwischen zwei Merkmalsausprägungen gibt es immer eine weitere
Merkmalsausprägung
Beispiel 11
I verkaufte Menge von Normalbenzin an einer Tankstelle pro Tag
In der Praxis oft: Quasi-stetige Merkmale

Beispiel 12
I Preise
I Temperatur
Kapitel 2
Zusammenfassung
I Jeder Variablen wird genau ein Skalenniveau zugeordnet.

I Das Skalenniveau hängt von den möglichen Ausprägungen ab.
I Es gibt 3 wichtige Skalenniveaus mit steigendem Informationsgehalt der
Variablen (nominal, ordinal, metrisch).
I Metrische Variablen werden noch in stetig und diskret unterteilt.
I Metrische diskrete Variablen mit vielen Ausprägungen werden auch als
quasi-stetig bezeichnet.
Beachte:
I Das Skalenniveau einer Variablen entscheidet, welche statistischen
Maßzahlen und Größen sinnvoll angewandt werden können, und welche
graphischen Darstellungen möglich sind.
I Nicht alles, was durch Formeln formal berechnet werden kann, ist auch
sinnvoll interpretierbar.
Kapitel 2
Übersicht
Variable
H
HH
H
Qualitativ Quantitativ
@
@
@
Nominal Ordinal Metrisch
-dichotom -diskret
-häufbar -stetig
-nicht häufbar -quasi-stetig
HH
H
HH
H
Intervall- Verhältnis- Absolut-
skala skala skala
-
Informationsgrad
Kapitel 2
Grundbegri↵e | Klassierung 17
Klassierung von Variablen I
Beispiel 13 (Einkommensverteilung, BRD-West 2000)
statistische Einheit: Steuerpflichtiger
statistische Variable: steuerpflichtiges Einkommen
P
Gesamtbetrag Einkünfte Steuerpflichtige Einkommen
von ... bis unter ... Euro (1000) (Mrd. Euro)
1 – 4 000 1445.2 2611.3

4 000 – 8 000 1455.5 8889.2
8 000 – 12 000 1240.5 12310.9
12 000 – 16 000 1110.7 15492.7
16 000 – 25 000 2762.9 57218.5
25 000 – 30 000 1915.1 52755.4
30 000 – 50 000 6923.7 270182.7
50 000 – 75 000 3876.9 234493.1
75 000 – 100 000 1239.7 105452.9
100 000 – 250 000 791.6 108065.7
250 000 – 500 000 93.7 31433.8
500 000 – 1 Mill. 26.6 17893.3
1 Mill. – 2 Mill. 8.6 11769.9
2 Mill. – 5 Mill. 3.7 10950.8
5 Mill. und mehr 1.4 16791.6
Kapitel 2
Klassierung von Variablen II
Klassierung (Gruppierung)
I die Zerlegung des Wertebereiches einer metrisch skalierten Variablen in
mehrere Teilintervalle (Klassen oder Gruppen)
) bessere Übersichtlichkeit bei großer Datenmenge
Klassenintervalle
I nicht überlappende (disjunkte) und aneinandergrenzende Intervalle von
Variablenwerten
I n Anzahl der Beobachtungen
I k Anzahl der Klassen
Kapitel 2
Klassierung von Variablen III
Klassengrenzen
Der Wert einer metrisch skalierten Variablen, der eine Klasse nach unten bzw.
oben begrenzt
I untere Klassengrenze xju j = 1, . . . , k
I obere Klassengrenze xjo j = 1, . . . , k
Eigenschaften
I xjo = xj+1
u
, j = 1, . . . , k 1
I xju  x < xjo (oder xju < x  xjo ), j = 1, . . . , k
Klassenbreite
4xj = xjo xju
Klassenmitte
1 u
xj = (xj + xjo ), j = 1, . . . , k
2
Kapitel 2
Univariate Statistik | 20
Inhalt
Grundbegri↵e
Skalierung
Klassierung
Verteilung
Lageparameter
Streuungsparameter
Bivariate Statistik
Randverteilung
Bedingte Verteilung
Anhang
Kapitel 2
Univariate Statistik | Verteilung 21
Notation
I Variable: X (nominal, ordinal oder metrisch diskret)

I Gesamtzahl der Beobachtungen: n
I Beobachtungswerte: xi (i = 1, ..., n)
I sich unterscheidende mögliche Variablenausprägungen (-werte): xj (j = 1,
..., k)
Beispiel 14 (10maliges Werfen einer “idealen” Münze)

Variable: “Sichtbare Seite der Münze”
Gesamtzahl der Beobachtungen: 10
Mögliche Variablenausprägungen (-werte): “Kopf (K)”, “Zahl (Z)”
Beobachtungswerte: Z , Z , K , Z , Z , K , Z , K , K , Z
Statistische Häufigkeit
Die Häufigkeit ist die absolute oder relative Zahl einer Ausprägung oder einer
Klasse von Ausprägungen einer Variablen in einer Stichprobe.
Kapitel 2
Häufigkeit statistischer Variablen I
Absolute Häufigkeit
I Anzahl statistischer Einheiten mit einer bestimmten Variablenausprägung
xj (j = 1, . . . , k)
h(X = xj ) = h(xj ) = hj
Pk
I Eigenschaften: 0  h(xj )  n, j=1 h(xj ) = n
Relative Häufigkeit
I Anteil statistischer Einheiten mit einer bestimmten Variablenausprägung
xj (j = 1, . . . , k)
h(xj )
f (X = xj ) = f (xj ) =
n
Pk
I Eigenschaften: 0  f (xj )  1, j=1 f (xj ) = 1
Kapitel 2
Häufigkeit statistischer Variablen II
Empirische Häufigkeitsverteilung
Die Häufigkeitsverteilung einer Variablen ergibt sich durch
I die geordneten Variablenausprägungen (x1 < . . . < xj < . . . < xk )
I die Angabe der dazugehörigen absoluten bzw. relativen Häufigkeiten
Die Häufigkeitsverteilung gibt an, wie sich die statistischen Einheiten auf die
beobachteten Variablenausprägungen verteilen
Allgemeine Häufigkeitstabelle
Variablenausprägung abs. Häufigkeit rel. Häufigkeit
xj h(xj ) f (xj )
x1 h(x1 ) f (x1 )
.. .. ..
. . .
xk h(xk ) f (xk )
Summe n 1
Kapitel 2
Grafische Darstellung der Häufigkeit I
Darstellung i.d.R. als
I Säulendiagramm
I Stabdiagramm
Abszisse: Variablenausprägungen xj
Ordinate: absolute oder relative Häufigkeit
Beispiel 15 (Note einer Statistik-I-Klausur)

Note abs. Häufigkeit rel. Häufigkeit
1 3 0,01
1 – sehr gut
2 – gut 2 29 0,11
3 – mangelhaft
4 – ausreichend 3 92 0,33
5 – nicht ausreichend 4 93 0,34
5 57 0,21
Kapitel 2
Grafische Darstellung der Häufigkeit II
Säulendiagramm Stabdiagramm
höhenproportionale Darstellung
0.3 0.3
0.2 0.2
f(x)
f(x)
0.1 0.1
0.0 0.0
1 2 3 4 5 1 2 3 4 5
Note Note
Kapitel 2
Summenhäufigkeit
Summenhäufigkeit
Die einer Variablenausprägung oder einer oberen Klassengrenze zugeordnete
Summe der absoluten bzw. relativen Häufigkeiten aller Beobachtungswerte, die
diese Variablenausprägung oder obere Klassengrenze nicht überschreiten
I absolute Summenhäufigkeit
j
X
H(xj ) = h(xl ) = h(X  xj ), j = 1, ..., k
l=1
I relative Summenhäufigkeit
j
H(xj ) X
F (xj ) = = f (xl ) = f (X  xj ), j = 1, ..., k
n
l=1
Kapitel 2
Empirische Verteilungsfunktion
Setzt ordinal- oder metrisch skalierte Variablen voraus
8
>
> 0 für x < x1
>
>
>
< P j
F (x) = f (xl ) für xj  x < xj+1
>
> l=1
>
>
>
:
1 für xk  x
Eigenschaften
I 0  F  1 ist monoton steigende Treppenfunktion
I F (x) = f (X  x) in der Stichprobe vom Umfang n
I F ist rechtsstetig (an der Sprungstelle ist der Funktionswert oben)
Kapitel 2
Berechnungen mit der Verteilungsfunktion

I f (xj ) = F (xj ) F (xj 1) für j = 1, ..., k mit F (x0 ) = 0
I
f (X > xl ) = 1 f (X  xl ) = 1 F (xl )
f (xl < X  xm ) = f (X  xm ) f (X  xl )
= F (xm ) F (xl )
f (xl < X < xm ) = f (xl < X  xm 1 )

= f (X  xm 1 ) f (X  xl )
= F (xm 1 ) F (xl )
Kapitel 2
Grafische Darstellung der Verteilungsfunktion

Beispiel 16 (Verteilungsfunktion der Haushaltsgröße, BRD 2021)
1.00
0.75
HH-größe xj f (x) F (x)
1 0,417 0,417
F(x)
0.50
2 0,335 0,752
3 0,118 0,870
4 0,095 0,965 0.25
5 und mehr 0,035 1,000

0.00
1 2 3 4 5
Haushaltsgröße 2021
f (2 < x  4) = F (4) F (2) = 0, 965 0, 752 = 0, 213
Kapitel 2
Verteilung klassierter Variablen
Beobachtungswerte x1 , x2 , . . . , xn einer metrischen Variablen X klassiert in k
Klassen
I möglich für X diskret (z.B. bei sehr vielen Variablenausprägungen)
I nötig für X stetig (überabzählbar viele Variablenausprägungen)
Häufigkeitstabelle für klassierte Daten

Klassen absolute Klassenhäufigkeit relative Klassenhäufigkeit
xju < X  xjo hj = h(xju < X  xjo ) fj = f (xju < X  xjo )
x1u x1o h1 f1
.. .. ..
. . .
xku xko hk fk
Summe n 1
Kapitel 2
Grafische Darstellung von Häufigkeiten bei
klassierten Daten
Histogramm
I flächenproportionale Darstellung
. Abszisse: Klassengrenzen xju , xjo
bj = hj fj
. Ordinate: Häufigkeitsdichte h xjo xju
oder fbj = xjo xju
I Klassenhäufigkeit = Fläche des Rechtecks über der jeweiligen Klasse.

I Gesamtfläche unter dem Histogramm = 1 bzw. n
k
X k
X
fbj (xjo xju ) = fj = 1
j=1 j=1
k
X k
X
bj (xjo
h xju ) = hj = n
j=1 j=1
Kapitel 2
Beispiel 17 (Klausur)
Klassierung anhand der Punkte aus der Statistik-I-Klausur (Beispiel 15) - Punkte
behandelt als stetiges Merkmal
xju  X < xjo hj fj fbj

0 – 20 57 0,208 0,010
20 – 30 93 0,339 0,034
30 – 37 92 0,336 0,048
37 – 46 29 0,106 0,012
46 – 51 3 0,011 0,002
Summe 274 1,000
Kapitel 2
Empirische Verteilungsfunktion klassierter
Variablen
Beispiel 18 (Lampen)
Untersuchung der Lebensdauer (in Stunden) von 100 Glühlampen
statistische Einheit: Glühlampe
Variable: Lebensdauer (metrisch, stetig)
Pj Pj
xju <X  xjo hj fj fbj Hj = l=1 hl Fj = l=1 fl
0 – 100 1 0,01 0,0001 1 0,01

100 – 500 24 0,24 0,0006 25 0,25
500 – 1000 45 0,45 0,0009 70 0,70
1000 – 2000 30 0,30 0,0003 100 1,00
Summe 100 1,0
Annahme: gleichmäßige Verteilung der Beobachtungen innerhalb einer Klasse
I geradlinige Verbindung von F (xjo ) = f (X  xjo ) = Fj = F (xj+1
u ) und
o ) = f (X  x o ) = F
F (xj+1 j+1 j+1 in der grafischen Darstellung
Kapitel 2
Beispiel 18 (Fortsetzung)
1.0
8e−04
0.8
6e−04
Häufigkeitsdichte
0.6
F
4e−04
0.4
0.2
2e−04
0.0
0 500 1000 1500 2000 0 500 1000 1500 2000

Lebensdauer Lebensdauer
Kapitel 2
Empirische Verteilungsfunktion klassierter
Variablen
I Annahme: gleichmäßige Verteilung der Beobachtungen innerhalb einer
Klasse
8 u
> 0 f ür x  x 1
>
>
>
>
>
< jP1 x xju
F (x) = fl + x o x u fj für xju < x  xjo
>
> l=1 j j
>
>
>
>
:
1 für xko < x
P0
[mit Konvention: l=1 =0]
I Grafische Darstellung: stückweise lineare Kurve (Interpolation)
Falls Annahme nicht erfüllbar (z.B. bei X diskret), verwende Treppenfunktion

ohne Interpolation als empirische Verteilungsfunktion.
Kapitel 2
Interpolation von F (x)
Der Wert der Verteilungsfunktion F (x) kann für jedes x im beobachteten
Bereich des Merkmals X mithilfe einer Interpolation von F (x) approximativ
bestimmt werden:
u x xju
F (x) = F (xj ) + o u
· fj
xj xj
Grafische Veranschaulichung der Interpolation:
F(x)
F(xoj )
fj
F(x)
F(x)-F(xuj)
F(xju)
x
xuj x xoj
x - x uj
xoj - x ju
Kapitel 2
Univariate Statistik | Lageparameter 37
Kennzahlen von Variablen I
I Maßzahlen, die wichtige Charakteristika einer Häufigkeitsverteilung
beinhalten
Kennzahlen von Variablen
HH
H
HH
Lageparameter Streuungsparameter
Arithmetisches Mittel Spannweite

Modus Quartilsabstand
Median Mittlere absolute Abweichung
Quantile Varianz und Standardabweichung
Harmonisches Mittel
Kapitel 2
Kennzahlen von Variablen II
Kennzahlen
I Lageparameter geben an, wo das Zentrum der Verteilung der Variablen
liegt
I Streuungsparameter machen eine Aussage über die Variabilität der
Daten um das Zentrum
I Weitere Parameter:
. Schiefe
. Wölbung
Robustheit
I Eine Kennzahl heißt robust, wenn sie relativ unempfindlich gegenüber
Ausreißern ist
Kapitel 2
Lageparameter
Mittelwerte charakterisieren das Zentrum der Häufigkeitsverteilung auf der
Variablenachse
Beispiel 19
I Variable X: Monatliches persönliche Nettoeinkommen in EUR
I Datensatz 1 enthält nur Beobachtungen für 10 Männer:
1000, 1200, 1750, 2200, 2400, 2800, 2950, 3300, 3800, 4150 ( )
Durchschnittseinkommen: x mann = 2555 EUR (•)
I Datensatz 2 enthält nur Beobachtungen für 10 Frauen:
600, 800, 1350, 1800, 2000, 2400, 2550, 2900, 3400, 3750 (⇧)
Durchschnittseinkommen: x frau = 2155 EUR (•)
⇧⇧ ⇧ ⇧ ⇧• ⇧⇧ ⇧ ⇧ ⇧
Kapitel 2
Arithmetisches Mittel I
Arithmetisches Mittel x einer empirischen Häufigkeitsverteilung
I Voraussetzung: metrisch skalierte Variable
I Teilt die Summe aller beobachteten Variablenwerte gleichmäßig auf alle
statistischen Einheiten auf:
n k k
1X 1X X
x= xi = xj h(xj ) = xj f (xj )
n i=1 n j=1 j=1
Klassierte Daten
I Für jede Klasse liegt vor
. xj Klassenmitte (als Approximation für den Klassenmittelwert (s.u.))
Pk
. nj = hj Anzahl der Beobachtungen in Klasse j mit j=1 nj = n
k k
1X X
x= xj nj = x j fj
n j=1 j=1
Kapitel 2
Arithmetisches Mittel II
Beispiel 20 (MHNE)
X: monatliches Haushaltsnettoeinkommen (MHNE) (bis unter 25 000 Euro)
MHNE von. . . Klassenmitte Anteil der HH

bis unter . . . Euro xj fj Fj
1 – 800 400 0,044 0,044
800 – 1 400 1100 0,166 0,210
1 400 – 3 000 2200 0,471 0,681
3 000 – 5 000 4000 0,243 0,924
5 000 – 25 000 15000 0,076 1,000
x = 400 · 0, 044 + 1100 · 0, 166 + 2200 · 0, 471 +

4000 · 0, 243 + 15000 · 0, 076
= 17, 6 + 182, 6 + 1036, 2 + 972 + 1140 = 3348, 4 Euro
Kapitel 2
Arithmetisches Mittel II
Gepoolter Datensatz - Additionseigenschaft

I Datensatz zerfällt in r disjunkte Teildatensätze D = D1 [ . . . [ Dr
I Für jeden der Teildatensatz liegt vor
. np die Anzahl der Beobachtungen in dem Teildatensatz
. x p der Mittelwert in jedem Teildatensatz
I Arithmetisches Mittel des Gesamtdatensatzes kann ohne Kenntnis der
Beobachtungswerte in den Teildatensätzen berechnet werden
r r
1X X
x= x p np , n = np
n p=1 p=1
Kapitel 2
Arithmetisches Mittel III
Null- oder Schwerpunkteigenschaft
n
X
(xi x) = 0
i=1
k
X
bzw. (xj x)h(xj ) = 0
j=1
Kapitel 2
Modus I
Modus xD (Modalwert, Dichtemittel, häufigster Wert)

I Voraussetzung: nominale, ordinale, metrisch diskrete oder klassierte Daten
) nicht metrisch stetige Daten!
I Diejenige Variablenausprägung, die am häufigsten beobachtet wurde,
I ist möglicherweise nicht eindeutig.
Modus diskreter (nicht klassierter) Variablen

⇢
xD = xj | h(xj ) = max h(xk ) bzw. f (xj ) = max f (xk )
xk xk
Kapitel 2
Modus II
Modus bei klassierten Variablen

I Die Modalklasse ist die Klasse j mit der größten Häufigkeitsdichte fbj
(nicht der größten Häufigkeit fj )
I Grobapproximation des Modus durch Klassenmitte xj der Modalklasse j.
I Feinberechnung/approximation: Der Modus innerhalb der Modalklasse ist
entsprechend der Häufigkeitsdichten der beiden Nachbarklassen zur
derjenigen mit dem größeren Wert hin verschoben (nur bei Gleichheit xj )
u fbj fbj 1
xD = xj + · (xjo xju )
2fbj fbj 1 fbj+1
xju , xjo untere/obere Grenze der Modalklasse

fbj Häufigkeitsdichte der Modalklasse
fbj 1 , fbj+1 Häufigkeitsdichte der Klasse vor/nach der Modalklasse
Kapitel 2
Modus III
Beispiel 21 (Lampen)
xju < X  xjo hj fj fbj

0 – 100 1 0,01 0,0001
100 – 500 24 0,24 0,0006
500 – 1000 45 0,45 0,0009
1000 – 2000 30 0,30 0,0003
Summe 100 1,00
I Modalklasse: 500 – 1000 Stunden

I (grober) Modus: 750 Stunden
I Feinberechnung:
0, 0009 0, 0006
xD = 500 + · 500 = 666, 67
2 · 0, 0009 0, 0006 0, 0003
I zum Vergleich: x = 50 · 0, 01 + 300 · 0, 24 + 750 · 0, 45 + 1500 · 0, 3 = 860

Kapitel 2
Modus IV
Beispiel 22 (Klausur)
Klassierung anhand der Punkte aus der Statistik-I-Klausur aus Beispiel 15.
xju < X  xjo hj fj fbj

0– 20 57 0,208 0,010
20 – 30 93 0,339 0,034
30 – 37 92 0,336 0,048
37 – 46 29 0,106 0,012
46 – 51 3 0,011 0,020
Summe 274 1,000
Modalklasse: 30 – 37 Punkte, da dort die größte Häufigkeitsdichte ist.
0, 048 0, 034
xD = 30 + · (37 30) = 31, 96
2 · 0, 048 0, 034 0, 012
Kapitel 2
Median I
I Median x0,5 wird auch als 50% Quantil oder Zentralwert bezeichnet
I Links und rechts vom Median liegen jeweils 50% der Beobachtungswerte
I robuster Lageparameter
I Voraussetzung: mindestens ordinalskalierte Variablen
Median von nicht klassierten Variablen

I Falls n ungerade ist:
x0,5 = x( n+1 )
2
I Falls n gerade ist:

1n o
x0,5 = x( n2 ) + x( n2 +1)
2
wobei x(l) der l-te Wert der geordneten Folge an Beobachtungen
x1  . . . xi . . .  xn ist.
Kapitel 2
Median II
Median von klassierten Variablen
I Klasse j enthält den Median, wenn F (xju )  0.5  F (xjo )
I innerhalb der Klasse:
u 0, 5 F (xju )
F (x0,5 ) = 0, 5 () x0,5 = xj + · (xjo xju )
fj
Beispiel 23 (Lampen s. Bsp. 21)
Berechne: x0.5 = 777.78 (xD = 666, 67 und x = 860)
1.0
8e−04
0.8
6e−04
Häufigkeitsdichte
0.6
F
4e−04
0.4
0.2
2e−04
0.0
0 500 1000 1500 2000 0 500 1000 1500 2000

Kapitel 2
Quantile I
I Das Quantil xp beschreibt den Punkt auf der Variablenachse, der eine der
Größe nach in aufsteigender Folge geordnete Reihe von n Beobachtungen
x1 , . . . , xn der Anzahl nach ungefähr oder genau im Verhältnis p zu
(1 p) teilt (0  p  1).
I links vom Quantil xp liegen also p% der Daten und rechts vom Quantil xp
liegen (1 p)% der Daten
Quantile von nicht klassierten Variablen

I Ist n · p keine ganze Zahl und m die auf n · p folgende ganze Zahl, so ist
das Quantil
xp = x(m)
I Ist n · p eine ganze Zahl und m = n · p, so könnte jeder Wert zwischen
x(m) und x(m+1) als Quantil definiert werden. Wir legen fest:
1
xp = x(m) + x(m+1) .
2
Kapitel 2
Quantile II
Quantile von klassierten Variablen

I Klasse j enthält das p-Quantil, wenn F (xju )  p  F (xjo )
I innerhalb der Klasse:
u p F (xju )
F (xp ) = p () xp = xj + · (xjo xju )
fj
Spezielle Quantile
Dezile p = s/10, s = 1, . . . , 9 Quartile p = q/4, q = 1, 2, 3
Quintile p = r /5, r = 1, . . . , 4
Kapitel 2
Quantile III
Beispiel 24 (Lampen s. Bsp. 21)

Quartile: Lese ab x0.25 = 500, x0.5 = 777.78 ist bekannt, berechne x0.75 = 1166, 67.
1.0
8e−04
0.8
6e−04
Häufigkeitsdichte
0.6
F
4e−04
0.4
0.2
2e−04
0.0
0 500 1000 1500 2000 0 500 1000 1500 2000

Kapitel 2
Quantile IV
Beispiel 25 (MHNE)
F(x)
1.0
0.75
0.5
0.25
€
1536 2385 3568 5000
(0,25 0,21)
x0,25 = 1400 + 1600 · 0,471
= 1535, 88 Euro
(0,5 0,21)
x0,50 = 1400 + 1600 · 0,471
= 2385, 14 Euro
(0,75 0,681)
x0,75 = 3000 + 2000 · 0,243
= 3567, 90 Euro
Kapitel 2
Harmonisches Mittel
I Voraussetzung: Das harmonische Mittel kann für verhältnisskalierte

Variablen X berechnet werden, bei denen keine Beobachtung x1 , . . . , xn
den Wert 0 annimmt.
I Definition:
n
xH = n
P 1
xi
i=1
I Gebrauch zumeist als gewichtetes harmonisches Mittel, falls xi Quotient

aus gi über hi ist und sich die Gewichte auf gi beziehen.
Kapitel 2
Gewichtete Mittel
Anstatt alle Beobachtungen xi gleich mit 1/n im Mittel zuPgewichten, verwende
P
i-abhängige Gewichte wi bzw. w ei  1 und ni=1 wi = 1 = ni=1 w
ei mit 0  wi , w ei .
n
X 1
xw = xi wi x Hw = Pn 1
i=1 i=1 xi ei
w
Beispiel 26 (Preisindizes für Warenkorb aus n Gütern)

q0 (i), qt (i) Menge von Gut i zum Zeitpunkt 0,t,
p0 (i), pt (i) Preis von Gut i zum Zeitpunkt 0,t.
n
P
pt (i)q0 (i)
Pn pt (i) p0 (i)q0 (i)
I IL = i=1 p0 (i) · n
P = i=1
Pn (Preisindex nach Laspeyres)
p0 (j)q0 (j) p0 (i)q0 (i)
j=1 i=1
n
P
pt (i)qt (i)
I IPa = n
P
1
= i=1
Pn . (Preisindex nach Paasche)
1 pt (i)qt (i)
pt (i)
· P
n p0 (i)qt (i)
i=1 p (i) pt (j)qt (j) i=1
0 j=1
IL ist ein gewichtetes arithmetisches Mittel, IP ist ein gewichtetes harmonisches Mittel
p (i) p0 (i)q0 (i) pt (i)qt (i)
von xi = pt (i) mit Gewichten wi = P n ei = P
bzw w n .
0
p0 (j)q0 (j) pt (j)qt (j)
j=1 j=1
Kapitel 2
Beispiel 27 (Durchschnittsgeschwindigkeit aus Teilstrecken)

Geschwindigkeit X ist Verhältnis von Streckenlänge G (in km) zur Zeit H (in Stunden). Wir beobachten
g
xi = hi , i = 1, . . . , n.
i
Durchschnittsgeschwindigkeit: Gesamtstrecke dividiert durch die benötigte Gesamtzeit:
Pn
i=1 gi
x Hg = Pn
i=1
hi
Pn
i=1 gi 1 gi
= Pn gi = P ei = P
mit w
n ei
w n g
i=1 xi i=1 xi i=1 i
ist mit Weganteilen gewichtetes harmonisches Mittel aus den Teilgeschwindigkeiten.

Pn
Beachte: ein gewichtetes arithmetische Mittel ei xi hat keine sinnvolle Interpretation, da eine
i=1 w
Durchschnittsgeschwindigkeit ja für alle Teilstrecken konstant sein soll
Teilstrecke i 1 2 3 4
Länge gi in km 2 4 3 8
Geschwindigkeit xi in km/h 40 50 80 100
Pn Pn gi Pn
Gesamtzeit: i=1 hi = i=1 xi = 0, 2475 h , Gesamtstrecke: i=1 gi = 17 km
Durchschnittsgeschwindigkeit: 17/0, 2475 = 68, 687 km/h.
Kapitel 2
Verhältniszahlen: Wahl des geeigneten
Mittelwerts
gi
Gegeben sind Verhältniszahlen xi = hi
, i = 1 . . . n. Weiter:
Es sind Informationen zum Zähler des Verhältnisses gegeben

I ein Durchschnitt aus Verhältniszahlen ist zu berechnen
I es sind Zusatzinformationen (Häufigkeiten, Gewichte) gegeben, die sich
inhaltlich auf den Zähler der Verhältniszahlen beziehen
) das harmonische Mittel muss benutzt werden
Es sind Informationen zum Nenner des Verhältnisses gegeben

I ein Durchschnitt aus Verhältniszahlen ist zu berechnen
I es sind Zusatzinformationen (Häufigkeiten, Gewichte) gegeben, die sich
inhaltlich auf den Nenner der Verhältniszahlen beziehen
) das arithmetische Mittel muss benutzt werden
Kapitel 2
Univariate Statistik | Streuungsparameter 58
Streuungsparameter
I Streuung (Dispersion) ist die Variabilität in den beobachteten Werten

einer metrisch skalierten Variablen um das Zentrum der Daten.
Beispiel 28 (Schematische Illustration)

Monatliche Aufwendungen für Freizeitgüter und Urlaub in EUR
I Datensatz 1 mit 10 Zweipersonenhaushalten:
105, 135, 170, 180, 200, 215, 220, 225, 245, 325 ( )
I Datensatz 2 mit 10 Vierpersonenhaushalte:
170, 175, 180, 190, 195, 205, 210, 220, 230, 245 (⇧)
I x = 202 EUR (•) in beiden Stichproben
⇧⇧⇧ ⇧⇧•⇧⇧ ⇧ ⇧ ⇧
Kapitel 2
Spannweite
I auch Range, Schwankungsbereich, Variationsbreite
Spannweite von nicht klassierten Variablen

R = xmax xmin = x(n) x(1)
wobei x(1) , . . . , x(n) geordnete Beobachtungen sind
Beispiel 29 (Weiterführung Monatliche Aufwendungen für Freizeitgüter und
Urlaub)
Spannweite für Zweipersonenhaushalte: R = 315 105 = 210
Spannweite von klassierten Variablen

approximative Spannweite
R = xko x1u
wobei xko die obere Klassengrenze der letzten Klasse und x1u die untere
Klassengrenze der ersten Klasse ist
Kapitel 2
Interquartilsabstand
Interquartilsabstand
I ist die Di↵erenz zwischen dem dritten Quartil x0,75 und dem ersten
Quartil x0,25 :
QA = x0,75 x0,25
I ist ein robuster Parameter für die Streuung der Daten (im Gegensatz zur
Spannweite).
I zugehöriges relatives Streuungsmaß: Der Quartilsdispersionskoeffizient ist
das Verhältnis von Quartilsabstand zu Median (robust).
QAr = QA/x0,5
Kapitel 2
Mittlere quadratische Abweichung
Mittlere quadratische Abweichung

I ist das arithmetische Mittel aus den quadrierten Abweichungen der
Variablenwerte von einem Bezugspunkt c auf der Variablenachse:
n
1X
MQ(c) = (xi c)2
n i=1
k k
1X 2
X
MQ(c) = (xj c) h(xj ) = (xj c)2 f (xj )
n j=1 j=1
I Konvention: Die Formel für klassierte Daten folgt direkt durch Ersetzen
von f (xj ) durch fj und h(xj ) durch hj . Dies gilt im Folgenden auch für alle
weiteren Formeln dieser Art ohne explizite Erwähnung.
Kapitel 2
Varianz
Varianz
I Die Varianz ist die mittlere quadratische Abweichung vom arithmetischen
Mittel x
n n
1X 1 X
s2 = (xi x)2 = xi2 x2
n i=1 n i=1
= x2 x2
k k
1X X
bzw. s 2 = (xj x)2 h(xj ) = (xj x)2 f (xj )
n j=1 j=1
Kapitel 2
Standardabweichung
Standardabweichung
I Die Standardabweichung ist die positive Quadratwurzel aus der Varianz:
v
u n
p u1 X
s = s2 = t (xi x)2
n i=1
v
u k
u1 X
bzw. s = t (xj x)2 h(xj )
n j=1
v
u k
uX
= t (xj x)2 f (xj )
j=1
I Die Standardabweichung wird in der gleichen Einheit gemessen, wie die

Daten (im Gegensatz zur Varianz)
Kapitel 2
Mittlere absolute Abweichung
Mittlere absolute Abweichung

I auch lineares Streuungsmaß, Mean Absolute Deviation, MAD
I Die mittlere absolute Abweichung ist das arithmetische Mittel aus den
absoluten Abweichungen der Variablenwerte von einem Bezugspunkt c
auf der Variablenachse:
n
1X
d = |xi c|
n i=1
k k
1X X
d = |xj c|h(xj ) = |xj c|f (xj )
n j=1 j=1
Im Allgemeinen wählt man c = x0.5 oder c = x
Kapitel 2
Relative Streuungsmaße
I einheitslose Koeffizienten
I messen Dispersion (relative Konzentration) in den Daten
Variationskoeffizienten
I Variationskoeffizient (für x > 0)
v = s/x
I Normierter Variationskoeffizient (für xi 0)
⇤ v
v = p 1
n 1
I Variationskoeffizienten klein ) x ist guter Repräsentant der Daten

I Robuster Quartilsdispersionskoeffizient (für x0,5 > 0)
vr = QA/x0,5
Kapitel 2
Gini-Koeffizient G
I Der Gini-Koeffizient ist ein Maß für relative Konzentration
I 0G1 1/n normiert, G steigt mit mehr Disparität (Ungleichheit)
I Er ist der Quotient aus Gini’s mittlerer Di↵erenz (einem Streuungsmaß) und
dem doppelten Mittelwert (Lagemaß) und lässt sich auch berechnen durch:
✓ ◆
1
G =2 B ,
2
wobei B die Fläche unter der sog. “Lorenzkurve” L ist.

I Den Graph der Lorenzkurve erhält man für geordnete Daten x(1) , . . . , x(n) durch
lineare Interpolation der Punkte
✓ ✓ ◆◆ ✓ ✓ ◆◆ ✓ ✓ ◆◆
1 1 2 2 n 1 n 1
(0, 0), ,L , ,L ,..., ,L , (1, 1)
n n n n n n
⇣ ⌘ Pi
i l=1 x(l)
mit L n
= nx
Merkmalsanteil der i kleinsten Merkmalsträger
(Disparitätsrate) für i = 0, . . . , n.
Kapitel 2
Beispiel 30 (Lorenzkurve und Berechnung Gini)
i
L ordnet dem Anteil der i kleinsten Merkmalsträger den zugehörigen Merkmalsanteil
⇣ ⌘ n
L ni zu:
L( ni )
6
ppr
ppp p pppp
pp pp ppp
1 ........................................................................................................................................................
p
..
ppp p p pp
..
...
pp p
..
pp p pp
..
..
pp p p pp p
..
..
p
..
pp p
..
p p
..
p p pr
..
pp p p p pp p p p
..
..
pp
..
pp
7
p
..
L( 8 )
p p prpp
..
pp p pp
..
p p
..
ppp p p pp
..
p
ppr
..
p p
L( 68 )
p p p p p
..
pppp p p
pp pp
..
p p p p p
r
..
p prppp p p p p p
..
prpp ppppppppppp prppppp pppppp prppppp pppppp

..
..
..
..
..
- ..
. i
n
1 2 3 4 5 6 7
0 8 8 8 8 8 8 8
1
Kapitel 2
Eigenschaften der Lorenzkurve:

I Sie beginnt in (0,0) und endet in (1,1).
I Sie ist stückweise linear.
I Sie ist monoton wachsend.
x
I Die Steigung zwischen i n 1 und ni ist n L( ni ) L( i n 1 ) = x(i) .
I Ihr Verlauf ist konvex, d.h. die Steigungen nehmen mit wachsendem i zu.
I Ihr Graph verläuft unterhalb der Diagonalen von (0,0) nach (1,1).
Kapitel 2
Beispiel 31 (Extremfälle)
L( ni ) L( ni )
ppp ppppr pp p p p
pr
6 6
pp p p ppp pp p p p
p
1 ............................................................................................................
1
p
............................................................................................................
.. ..
ppp p p pp p
... ...
pp p p p
.. ..
pp p
.. ..
pp p pp pp p p p
p
.. ..
.. ..
ppp p p pp p
.. ..
p
pp p p p
.. ..
.. ..
pp pp pp p
.. ..
p p
pp p p p
.. ..
ppp p p
.. ..
p
.. ..
p p
pp p p p
.. ..
pp p pp pp p
.. ..
.. ..
p
pp p p
.. ..
ppp pp
.. ..
.. ..
.. ..
.. ..
- ..
. i - ..
. i
n n
0 n 1
1 0 1
n
Maximale Disparität Minimale Disparität
x(n) = 1, x(1) = x(2) = . . . = x(n 1) =0 x1 = x2 = . . . = xn
G = 1 n1 G =0
Kapitel 2
Gepoolter Datensatz
D = D1 [ . . . [ Dr disjunkt mit
x 1 , . . . , x r Mittelwerte der Teilstichproben
s12 , . . . , sr2 Varianzen der Teilstichproben
n1 , . . . , nr Stichprobenumfänge der Teilstichproben mit n = n1 + . . . + nr
Dann ist
r
1X
x= x p np
n p=1
r
X r
2 n` 2 X n`
s = s` + (x ` x)2
n n
`=1 `=1
Streuungszerlegung der Varianz

gesamte Varianz = Varianz innerhalb der Teilmassen
+ Varianz zwischen den Teilmassen
Kapitel 2
Lineare Transformation der Daten
yi = a + b · xi (b 6= 0) für alle i = 1, . . . , n
a b
= Verschiebung der Daten
0<b<1 = Stauchung der Daten
b>1 = Streckung der Daten
b<0 = Spiegelung am Ursprung mit Stauchung
oder Streckung
Standardisierung
zi = a + bxi mit a= x/sx , b = 1/sx

xi x
zi = ) z = 0, sz2 = 1
sx
Kapitel 2
Verhalten von Lage- und Streuungsparametern

Lineare Transformation der Daten
yi = a + b · xi (b 6= 0)
für alle i = 1, . . . , n führt zu Transformation
I des arithmetischen Mittels y = a + bx

I des Medians y0,5 = a + bx0,5
I der Varianz sy2 = b 2 sx2 sy = |b| sx
I der mittleren absoluten Abweichung dy = |b| · dx
I der Spannweite RY = |b|RX
I des Quartilsabstandes QAY = |b| QAX
Kapitel 2
Zusammenhang zwischen Lage- und
Streuungsparametern
für beliebiges, reelles c gilt:
quadratische Minimumeigenschaft: Mittelwert und Varianz
n
X n
X
2
(xi x)  (xi c)2
i=1 i=1
k
X k
X
bzw. (xj x)2 h(xj )  (xj c)2 h(xj )
j=1 j=1
lineare Minimumeigenschaft: Median und MAD

n
X n
X
|xi x0,5 |  |xi c|
i=1 i=1
k
X k
X
bzw. |xj x0,5 | · f (xj )  |xj c| · f (xj )
j=1 j=1
Kapitel 2
Fünf-Zahlen-Zusammenfassung
I Fasst fünf Kennzahlen einer Verteilung zusammen
. Minimum
. Unteres Quartil (25% Quantil)
. Median (50% Quantil)
. Oberes Quartil (75% Quantil)
. Maximum
Median
Unteres Quartil Oberes Quartil
Minimum Maximum
I Vorläufer des Boxplots
Beispiel 32 (SCE, Februar 2022, Subjektive Inflationserwartung USA)
5,81
3,16 9,07 QA=9,07-3,16=5,91
-12 26,39 R=26,39-(-12)=38,39
Kapitel 2
Boxplot I
I auch Box-Whisker-Plot oder Schachtelzeichnung

I grafische Darstellung wesentlicher Kenngrössen einer Beobachtungsreihe
bzw. einer Häufigkeitsverteilung einer metrisch skalierten Variablen X
I Werte, die ausserhalb des Intervals (x0.25 1.5QA, x0.75 + 1.5QA) liegen,
werden (meist willkürlich) als Ausreißer bezeichnet
x0,75 + 1, 5QA (upper fence)

x0,75
x0,5 QA
x0,25
x0,25 1, 5QA (lower fence)
Kapitel 2
Boxplot II
Beispiel 33 (Survey of Consumer Expectations, SCE)
I Statistische Einheit: befragte Person
I Statistische Variable: Erwartete Inflationsrate im nächsten Jahr (USA)
Datum Alter x x0,25 x0,5 x0,75 s n

202002  40 2.71 1.01 2.16 3.17 3.90 375
202002 > 40 3.33 1.29 2.57 3.96 4.66 928
202008  40 3.33 1.00 2.46 4.17 4.97 312
202008 > 40 4.07 1.21 3.00 5.95 5.83 853
202102  40 3.94 1.55 2.70 4.90 5.27 382
202102 > 40 4.52 1.65 3.03 6.00 5.87 844
202108  40 5.53 2.02 3.73 6.19 6.08 414
202108 > 40 6.00 2.88 4.91 7.89 6.09 834
202202  40 5.57 2.97 4.89 7.06 5.21 367
202202 > 40 7.11 3.28 6.00 9.65 6.07 827
Kapitel 2
Boxplot III
20
Inflationserwartung
Alter
<= 40
0 > 40
−20
202002 202008 202102 202108 202202

Datum
Kapitel 2
Zusammenfassung
Skalenniveau
Parameterverwendung Metrisch/Kardinal
meistens problemlos
Robust
Nominal
Ordinal
unklassiert
problembehaftet
klassiert
Diskret
Stetig
Stetig
auf keinen Fall
Modus –
Lage
Mittelwert N
Parameter
Median J
Varianz1 N
Streuung
Spannnweite N
QA J
MAD J
1
oder Standardabweichung
Kapitel 2
Bivariate Statistik | 79
Inhalt
Grundbegri↵e
Skalierung
Klassierung
Verteilung
Lageparameter
Streuungsparameter
Bivariate Statistik
Randverteilung
Bedingte Verteilung
Anhang
Kapitel 2
Bivariate Statistik | Gemeinsame Verteilung 80
Diskrete Variablen I
I X mit Variablenausprägungen xi , i = 1, . . . , m
I Y mit Variablenausprägungen yj , j = 1, . . . , r
I m · r Paare von möglichen Variablenausprägungen
(xi , yj ) = {(X = xi ) ⇥ (Y = yj )}
Zweidimensionale Häufigkeitstabelle
auch Kontingenztabelle oder Kreuztabelle
Variable X Variable Y Randverteilung X

y1 ... yj ... yr
x1 h11 ... h1j ... h1r h1•
.. .. .. .. ..
. . ... . ... . .
xi hi1 ... hij ... hir hi•
.. .. .. .. ..
. . ... . ... . .
xm hm1 ... hmj ... hmr hm•
Randverteilung Y h•1 ... h•j ... h•r h•• = n
Kapitel 2
Diskrete Variablen II
Gesamtheit aller gemeinsamen Variablenausprägungen (xi , yj ) und der

dazugehörigen absoluten bzw. relativen Häufigkeiten.
I Absolute Häufigkeit: h(xi , yj ) = hij
h(xi ,yj )
I Relative Häufigkeit: f (xi , yj ) = fij = n
Eigenschaften:
P
m P
r
I h(xi , yj ) = n
i=1 j=1
P
m P
r
I f (xi , yj ) = 1
i=1 j=1
I 0  h(xi , yj )  n
I 0  f (xi , yj )  1
Kapitel 2
Diskrete Variablen III
Beispiel 34 (Sport)
I X – Berufsgruppe (nominal) mit 5 Merkmalsausprägungen
I Y – sportliche Betätigung (nominal) mit 3 Merkmalsausprägungen
I Kontingenztabelle der Dimension 5 ⇥ 3
I n = 1000 berufstätige Personen
sportliche Betätigung (Y ) Randver-

Berufsgruppe (X ) kaum gelegentlich regelmäßig teilung X
Arbeiter 240 120 70 430
Angestellter 160 90 90 340
Beamter 30 30 30 90
Landwirt 37 7 6 50
sonst. freier Beruf 40 32 18 90
Randverteilung Y 507 279 214 1000
Kapitel 2
Diskrete Variablen IV
250
Absolute Häufigkeit
200
150
100
50
kaum
0 gelegentlich
Arbeiter
Angestellter
regelmäßig
Beamter
Landwirt
sonst. fr. Beruf

Sportliche
Betätgung
Berufsgruppen
Beachte: Die Interpretation des Balkendiagramm wird schwer, wenn viele

Gruppen/Kategorien vorhanden sind.
Kapitel 2
Diskrete Variablen V
Beispiel 35 (Infektion)
I X Test auf Infektion (positiv, negativ), Y – Infektion (vorhanden, nicht
vorhanden)
I X , Y nominalskaliert, n = 100.000 Personen
I 2 ⇥ 2 Kontingenztabelle
Infektion (Y )
nicht
Test (X ) vorhanden (y1 ) vorhanden (y2 ) Randverteilung X
positiv (x1 ) 199 499 698 (h1• )
negativ (x2 ) 1 99301 99302 (h2• )
Randverteilung Y 200 99800 100000
(h•1 ) (h•2 ) (n)
Kapitel 2
Stetige Variablen I
Tabellarische Darstellung Streudiagramm

(auch Korrelationstabelle)
Beispiel 36
Monaco
l Variable X Variable Y 84
Lebenserwartung
1 x1 y1
.. .. .. 80
. . .
n xn yn 76
Belarus
40 60 80 100
Anteil Stadtbevölkerung in %
Wenn sehr viele
(unterschiedliche) Datenpunkte Lebenserwartung vs. Anteil
vorhanden sind – Interpretation Stadtbevölkerung in 34 europ. Ländern
anhand dieser und auch einer
Kontingenztabelle schwierig.
Kapitel 2
Stetige Variablen II
Streudiagramme für Multivariate Daten
Beispiel 37 (Europa Daten)
Variablen: Kindersterblichkeit (1000 Geburten), Lebenserwartung und Anteil
Stadtbevölkerung in 34 europäischen Ländern. Quelle: Our World in Data.
74 76 78 80 82 84 86
1.0
0.8
0.6
child_mortality
0.4
0.2
86
84
82
life_expectancy
80
78
76
74
100
90
80
urban_share
70
60
50
40
0.2 0.4 0.6 0.8 1.0 40 50 60 70 80 90 100
Kapitel 2
Gemeinsame Verteilung und Randverteilung
Variable X Variable Y Randverteilung
y1 ... yj ... yr X
x1 h11 ... h1j ... h1r h1•

. . . . .
. . . . .
. . ... . ... . .
xi hi1 ... hij ... hir hi•
. . . . .
. . . . .
. . ... . ... . .
xm hm1 ... hmj ... hmr hm•
Randverteilung Y h•1 ... h•j ... h•r h•• = n
Beispiel 38
Unterschiedliche gemeinsame Verteilungen, aber gleiche Randverteilungen
y1 y2 y3 y4 y1 y2 y3 y4
x1 3 4 2 1 10 x1 4 3 1 2 10
x2 4 3 1 2 10 x2 3 4 2 1 10
x3 1 2 4 3 10 x3 1 2 3 4 10
x4 2 1 3 4 10 x4 2 1 4 3 10
10 10 10 10 40 10 10 10 10 40
Kapitel 2
Bivariate Statistik | Randverteilung 88
Randverteilung I
I für eine empirische zweidimensionale Häufigkeitsverteilung
I auch “marginale Verteilung”
r
X r
X
hi• = hij fi• = fij i = 1, . . . , m
j=1 j=1
m
X m
X
h•j = hij f•j = fij j = 1, . . . , r
i=1 i=1
Eigenschaften:
m
X r
X
hi• = h•j = n
i=1 j=1
m
X r
X
fi• = f•j = 1
i=1 j=1
Kapitel 2
Mittelwert empirischer Randverteilungen I
m r r m
1 XX 1 XX
x = xi · h(xi , yj ) y = yj · h(xi , yj )
n i=1 j=1 n j=1 i=1
m X
X r r X
X m
= xi · f (xi , yj ) = yj · f (xi , yj )
i=1 j=1 j=1 i=1
m
X r
X
= xi · f (xi ) = yj · f (yj )
i=1 j=1
Kapitel 2
Mittelwert empirischer Randverteilungen II
Beispiel 39 (Sport)
Angenommen der zeitliche Aufwand für die Variable Y (Sportliche Betätigung) setzt
sich wie folgt zusammen:
Sportliche Betätigung (Y ) kaum gelegentlich regelmäßig

yj y1 y2 y3
Aufwand in Stunden 0 2 2 4 4 6
h•j 507 279 214
f (yj ) 0, 507 0, 279 0, 214
Mittelwertberechnung der empirischen Randverteilung von Y:
r
X
y = yj · f (yj )
j=1
= (1 · 0, 507 + 3 · 0, 279 + 5 · 0, 214)

= 2, 414
Kapitel 2
Varianz empirischer Randverteilungen
m r m X
r
1 XX X
sx2 = (xi x)2 h(xi , yj ) = (xi x)2 f (xi , yj )
n i=1 j=1 i=1 j=1
m
X
= (xi x)2 f (xi )
i=1
r m r X
m
1 XX X
sy2 = (yj y )2 h(xi , yj ) = (yj y )2 f (xi , yj )
n j=1 i=1 j=1 i=1
r
X
= (yj y )2 f (yj )
j=1
Kapitel 2
Bivariate Statistik | Bedingte Verteilung 92
Bedingte empirische Verteilungen I
Bedingte Verteilung (relativer Häufigkeiten)

I von X für gegebenes Y = yj
fij hij
f (xi |Y = yj ) = f (xi |yj ) = =
f•j h•j
I von Y für gegebenes X = xi
fij hij
f (yj |X = xi ) = f (yj |xi ) = =
fi• hi•
Kapitel 2
Bedingte empirische Verteilungen II
Beispiel 40 (Sport)
Bedingte Verteilung der Variablen Y (sportliche Betätigung) für gegebene xi
(Berufsgruppe) bei 1000 berufstätigen Personen
sportliche Betätigung (Y )
Berufsgruppe (X ) kaum gelegentlich regelmäßig
240 120 70
Arbeiter 0,56= 430
0,28= 430
0,16= 430
1,00
160 90 90
Angestellter 0,47= 340
0,26= 340
0,26= 340
1,00
30 30 30
Beamter 0,33= 90
0,33= 90
0,33= 90
1,00
37 7 6
Landwirt 0,74= 50
0,14= 50
0,12= 50
1,00
40 32 18
sonst. freier Beruf 0,44= 90
0,36= 90
0,20= 90
1,00
Kapitel 2
Bedingte empirische Verteilungen III
Beispiel 41 (Sport)
Bedingte Verteilung der Variablen X (Berufsgruppe) für gegebene yj (sportliche
Betätigung) bei 1000 berufstätigen Personen
sportliche Betätigung (Y )
Berufsgruppe (X ) kaum gelegentlich regelmäßig
240 120 70
Arbeiter 0,47= 507
0,43= 279
0,33= 214
160 90 90
Angestellter 0,32= 507
0,32= 279
0,42= 214
30 30 30
Beamter 0,06= 507
0,11= 279
0,14= 214
37 7 6
Landwirt 0,07= 507
0,03= 279
0,03= 214
40 32 18
sonst. freier Beruf 0,08= 507
0,11= 279
0,08= 214
1,00 1,00 1,00
Kapitel 2
Bedingte empirische Verteilungen IV
Bedingte Verteilung
I der Variablen X für gegebene yj bei 100000 Personen.
Infektion (Y )
Test (X ) vorhanden (y1 ) nicht vorhanden (y2 )
positiv (x1 ) 0, 995 0, 005
negativ (x2 ) 0, 005 0, 995
1, 000 1, 000
I der Variablen Y für gegebene xi bei 100000 Personen.

Infektion (Y )
positiv (x1 ) 0,289 0,711 1,000
negativ (x2 ) 0,001 0,999 1,000
Kapitel 2
Mittelwert und Varianz empirischer bedingter
Verteilungen I
m
X
x|yj = xi · f (xi |yj )
i=1
r
X
y |xi = yj · f (yj |xi )
j=1
m
X
2
sx|y j
= (xi x|yj )2 f (xi |yj )
i=1
r
X
sy2|xi = (yj y |xi )2 f (yj |xi )
j=1
Kapitel 2
Mittelwert empirischer bedingter Verteilung
Beispiel 43 (Sport)
Zeitlicher Aufwand für die Variable Y (Sportliche Betätigung):
Sportliche Betätigung (Y ) kaum gelegentlich regelmäßig

yj y1 y2 y3
Aufwand in Stunden 0–2 2–4 4–6
Beamter f (yj |x3 ) 0,33 0,33 0,33
Landwirt f (yj |x4 ) 0,74 0,14 0,12
Wir möchten berechnen, wie viele Stunden Beamte (x3 ) bzw. Landwirte (x4 ) im
Durchschnitt dem Sport widmen:
Xr
y |x3 = yj · f (yj |x3 ) = 1 · 0, 33 + 3 · 0, 33 + 5 · 0, 33 = 2, 97
j=1
r
X
y |x4 = yj · f (yj |x4 ) = 1 · 0, 74 + 3 · 0, 14 + 5 · 0, 12 = 1, 76
j=1
Kapitel 2
Bivariate Statistik | Zusammenhangsparameter 98
Empirische Unabhängigkeit I
Zwei Variablen X und Y heissen empirisch unabhängig, wenn man für eine
Beobachtung
I aus der Kenntnis der Merkmalsausprägung xk keinen Rückschluß auf die
Merkmalsausprägung yk ziehen kann
I und umgekehrt!
Frage: Können die beiden Variablen X : “Testergebnis” und Y : “Infektion”
unabhängig sein?
Antwort: Wenn es ein sinnvoller Test ist nicht. Wünschenswert wäre:
. Infektion vorhanden ) Test positiv
. Infektion nicht vorhanden ) Test negativ
. Test positiv ) Infektion vorhanden
. Test negativ ) keine Infektion vorhanden
Kapitel 2
Empirische Unabhängigkeit II
I Bedingte Verteilung von X gegeben yi
Infektion (Y ) Randvert.
Test (X ) vorhanden (y1 ) nicht vorhanden (y2 ) von X
positiv (x1 ) 0, 995 0, 005 0, 007

negativ (x2 ) 0, 005 0, 995 0, 993
1, 000 1, 000 1, 000
. Infektion vorhanden ) Test meist positiv

. Infektion nicht vorhanden ) Test meist negativ
I Bedingte Verteilung von Y gegeben xj
Infektion (Y )
positiv (x1 ) 0, 289 0, 711 1, 000

negativ (x2 ) 0, 001 0, 999 1, 000
Randvert. von Y 0, 002 0, 998 1, 000
. Test positiv ) in 28,9% der Fälle eine Infektion

. Test negativ ) in nur 0,1% der Fälle eine Infektion
Kapitel 2
Empirische Unabhängigkeit III
I Die Variablen X und Y sind unabhängig, wenn gilt:
f (xi |yj ) = f (xi |yl ) = f (xi ) und f (yj |xi ) = f (yj |xh ) = f (yj )
für alle j, l = 1, . . . , r und für alle i = 1, . . . , m bzw. für alle

i, h = 1, . . . , m und für alle j = 1, . . . , r .
I Die bedingten Verteilungen von Y , gegeben X , stimmen untereinander
und mit der Randverteilung von Y überein (analog für X gegeben Y ).
I weiter gilt:
unabh. f (xi ,yj )
f (xi |yj ) = f (xi ) = f (yj )
) f (xi , yj ) = f (xi )f (yj )
unabh. f (xi ,yj )

f (yj |xi ) = f (yj ) = f (xi )
) f (xi , yj ) = f (xi )f (yj )
I analog für absolute Häufigkeiten:
h(xi )h(yj )
h(xi , yj ) =
n
Kapitel 2
Empirische Unabhängigkeit IV
Prüfung der Unabhängigkeit – Vergleich der beobachteten relativen
Häufigkeiten f (xi , yj ) mit theoretischen (im Unabhängigkeitsfall erwarteten)
Häufigkeiten ei,j = f (xi ) · f (yj )
Variable X Variable Y Randver-

y1 ... yj ... teilung X
? ?
x1 f (x1 , y1 ) = e1,1 ... f (x1 , yj ) = e1,j ... f (x1 )
.. .. .. ..
. . ... . ... .
? ?
xi f (xi , y1 ) = ei,1 ... f (xi , yj ) = ei,j ... f (xi )
.. .. .. ..
. . ... . ... .
Randver-
teilung Y f (y1 ) ... f (yj ) ... 1
Kapitel 2
Empirische Unabhängigkeit V
Infektion (Y ) Randver-
Testergebnis (X ) vorhanden (y1 ) nicht vorhanden(y2 ) teilung X
positiv (x1 ) 0, 001990 0, 004990 0, 006980
ei,j 0, 000014 0, 006966
negativ (x2 ) 0, 000010 0, 993010 0, 993020
ei,j 0, 001986 0, 991034
Randverteilung Y 0, 002000 0, 998000 1
I e1,1 = f (x1 ) · f (y1 ) = 0, 006980 · 0, 00200 ⇡ 0, 000014

I Die beiden Variablen Testergebnis und Infektion sind nicht unabhängig.
Kapitel 2
Zusammenhang nominalskalierter Variablen I
Kontingenz
Beobachtete Häufigkeit: Erwartete Häufigkeit
bei Unabhängigkeit:
h h
hij = h(xi , yj ) eij = i•n •j = nfi• f•j
fij = f (xi , yj ) = h(xi , yj )/n eij /n = fi• f•j
Quadratische Kontingenz:
⇣ ⌘2
hi• h•j
m X
X r hij n
m X
X r
(fij fi• f•j )2
2
K = hi• h•j
=n
i=1 j=1 i=1 j=1
fi• f•j
n
Eigenschaften:
I K2 0
!
I K 2 = 0, wenn hij = eij für alle i und j.
Kapitel 2
Zusammenhang nominalskalierter Variablen II
Kontingenzkoeffizient
r
K2
C =
n + K2
r
C⇤ 1
0C  < 1, C ⇤ = min{m, r }
C⇤
Korrigierter Kontingenzkoeffizient
r
C⇤
Ckorr = C ·
C⇤ 1
0  Ckorr  1
Kapitel 2
Zusammenhang nominalskalierter Variablen III
Infektion (Y ) Randver-
Testergebnis (X ) vorhanden (y1 ) nicht vorhanden(y2 ) teilung X
positiv (x1 ) 0, 00199 0, 00499 0, 00698
negativ (x2 ) 0, 00001 0, 99301 0, 99302
Randverteilung Y 0, 00200 0, 99800 1
2
K = 100000
"
(0, 00199 0, 00200 · 0, 00698)2 (0, 00499 0, 99800 · 0, 00698)2
· +
0, 00200 · 0, 00698 0, 99800 · 0, 00698
#
(0, 00001 0, 00200 · 0, 99302)2 (0, 99301 0, 99800 · 0, 99302)2
+ +
0, 00200 · 0, 99302 0, 99800 · 0, 99302
= 28223, 93
s s
28223, 93 2
C = = 0, 47; Ckorr = 0, 47 · = 0, 66
100000 + 28223, 93 2 1
Kapitel 2
Zusammenhang nominalskalierter Variablen IV
Beispiel 47 (Wirtschaft)
X 1 – Wie beurteilen Sie die heutige wirtschaftliche Lage in Deutschland?
Y – Erhebungsgebiet ! nominalskaliert
Ausprägungen: alte Bundesländer (West), neue Bundesländer (Ost)
Besteht ein Zusammenhang zwischen der Einschätzung der Wirtschaftslage für die
Bundesrepublik und dem Erhebungsgebiet? ! Kontingenz
Kontingenztabelle, n = 1000
1991 1996
Einschätzung Erhebungsgebiet Y Erhebungsgebiet Y

X1 West Ost RV X 1 West Ost RV X 1
sehr gut 72 56 128 6 2 8

gut 256 205 461 82 36 118
teils teils 152 226 378 314 175 489
schlecht 12 14 26 215 104 319
sehr schlecht 2 5 7 44 22 66
RV Y 494 506 1000 661 339 1000
Kapitel 2
Zusammenhang nominalskalierter Variablen V
Bedingte Verteilung:
f (x1i |yj ) 1991 f (x1i |yj ) 1996

Einschätzung Erhebungsgebiet Y Erhebungsgebiet Y
X1 West Ost RV X 1 West Ost RV X 1
sehr gut 0,145 0,111 0,128 0,010 0,006 0,008
gut 0,519 0,404 0,461 0,124 0,107 0,118
teils teils 0,307 0,447 0,378 0,475 0,515 0,489
schlecht 0,025 0,027 0,026 0,325 0,305 0,319
sehr schlecht 0,004 0,011 0,007 0,066 0,067 0,066
1,000 1,000 1,000 1,000 1,000 1,000
Kapitel 2
Zusammenhang nominalskalierter Variablen VI
Bedingte Verteilung: Bedingte Verteilung:

f (x1i |yj ) 1991 f (x1i |yj ) 1996
0,6 0,6
0,5 0,5
bedingte relative Häufigkeit

bedingte relative Häufigkeit
0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
West West
Ost Ost
0,0 0,0
sehr gut gut teils/teils schlecht sehr sehr gut gut teils/teils schlecht sehr
schlecht schlecht
Wirtschaftslage in Dtl. 1991 Wirtschaftslage in Dtl. 1996
Kapitel 2
Zusammenhang nominalskalierter Variablen
VII
X 2 – Wie beurteilen Sie Ihre eigene gegenwärtige wirtschaftliche Lage?
Y – Erhebungsgebiet
1991: Kontingenztabelle, n = 1000
Erhebungsgebiet Y
Einschätzung X 2 West Ost RV X 2
sehr gut 30 6 36
gut 306 173 479
teils teils 119 227 346
schlecht 29 81 110
sehr schlecht 7 22 29
RV Y 491 509 1000
(30 491·36 )2 (306 491·479 )2 (119 491·346 )2 (29 491·110 )2

2 1000 1000 1000 1000
K = 491·36
+ 491·479
+ 491·346
+ 491·110
1000 1000 1000 1000
(7 491·29 )2 (6 509·36 )2 (173 509·479 )2 (227 509·346 )2
1000 1000 10000 1000
+ 491·29
+ 509·36
+ 509·479
+ 509·346
1000 1000 10000 1000
(81 509·110 )2 (22 509·29 )2
1000 1000
+ 509·110
+ 509·29
= 118, 83
1000 1000
Kapitel 2
Zusammenhang nominalskalierter Variablen
VIII
s
118, 83
C = = 0, 3259
1000 + 118, 83
s
2
Ckorr = 0, 3259 = 0, 4609 1991 1996
2 1
X1 C = 0, 154 C = 0, 044
X2 C = 0, 325 C = 0, 116
Y – Erhebungsgebiet X3 C = 0, 293 C = 0, 071
X 1 – gegenwärtige Wirtschaftslage in der X4 C = 0, 300 C = 0, 061
Bundesrepublik
I deutlich geringere Assoziation 1996
X 2 – eigene gegenwärtige Wirtschaftslage
gegenüber 1991
X 3 – zukünftige Wirtschaftslage in der
Bundesrepublik I Angleichung der Au↵assungen
X 4 – eigene zukünftige Wirtschaftslage zwischen West und Ost
Kapitel 2
Empirische Kovarianz
Die Kovarianz ist ein Parameter für die gemeinsame Streuung zweier metrisch
skalierter Variablen.
y
xi − x − xi − x +
yi − y + yi − y +
n
X
1 ( xi − x )( yi − y ) − ( xi − x )( yi − y ) +
sxy = (xi x)(yi y)
n i=1 y
xi − x − xi − x +
yi − y − yi − y −
( xi − x )( yi − y ) + ( xi − x )( yi − y ) −
n x x
1X
sxy = xi yi xy Vorzeichenwechsel der Kovarianz in
n i=1
Anhängigkeit der Vorzeichen von
(xi x) und (yi y ).
Kapitel 2
Empirischer Korrelationskoeffizient I
Zentrierung
X X
xi⇤ = xi x, yi⇤ = yi y, xi⇤ yi⇤ = (xi x)(yi y)
I ungeeignetes Maß für den Zusammenhang, da abhängig von den

Maßeinheiten der Variablen.
Standardisierung
(xi x) (yi y)
ui = mit u = 0, su2 = 1; vi = mit v = 0, sv2 = 1
sx sy
n
X n
X
(xi x) (yi y)
= ui · vi
i=1
sx sy i=1
I Durch die Standardisierung werden die Daten skalen (d.h.,

Maßeinheiten-)unabhängig.
I Skalenunabhängige Größen sind besser zu interpretieren.
Kapitel 2
Empirischer Korrelationskoeffizient II
Bravais–Pearson–Korrelationskoeffizient
1
P
n
n
(xi x)(yi y)
i=1 sxy
rxy = ryx = =
sx · sy sx · sy
P
n
(xi x)(yi y)
i=1
= s
P
n P
n
(xi x)2 (yi y )2
i=1 i=1
Eigenschaften:
I ryx = rxy
I 1  ryx  +1
Kapitel 2
Empirischer Korrelationskoeffizient III
Beispiel 48 (Jahresmiete und Jahresgewinn)
60
I Variable X – Jahresmiete
50
für EDV-Anlage in 1000
Euro 40
Jahresgewinn
I Variable Y – Jahresgewinn
30
in Mio. Euro
X15
20
x = 200, (xi x)2 = 457 000
i=1 10
15
X 0
2 0 100 200 300 400 500 600 700
y = 30, (yi y ) = 2 250
Jahresmiete für EDV-Anlage
i=1
I r = 0, 8763 - starke positive
15
X Korrelation
(xi x)(yi y ) = 28 100
i=1
I Größere Werte von X werden
zusammen mit größeren Werten von
28 100 Y beobachtet und umgekehrt.
r = p = 0, 8763
457 000 · 2 250
Kapitel 2
Empirischer Korrelationskoeffizient IV
Zusammenhang von Korrelation und Punktewolke im
Streudiagramm
perfekte positive Korrelation perfekte negative Korrelation
r = +1 r= 1
sehr schwache positive Korrelation starke negative Korrelation

r = 0, 05 r = 0, 8
Kapitel 2
Empirischer Korrelationskoeffizient V
Quelle: Wikimedia Commons
Kapitel 2
Zusammenhang ordinalskalierte Variablen I
Zwei ordinalskalierten Variablen X und Y

I Bei ordinalskalierten Variablen: Bildung von arithmetischen Mittel nicht
legitim.
I Man kann jedoch Beobachtungswerten eine Rangordnung bzw. eine
Rangzahl zuweisen.
I Korrelation bei ordinalskalierten Variablen bzw. Rangkorrelation wird
anhand der Rangzahlen berechnet.
I Rangzahlen: R(xi ), R(yi ), i = 1, . . . , n
. Dem kleinsten Beobachtungswert von X wird die Rangzahl 1 zugeordnet,
der zweitkleinsten die Rangzahl 2 usw.
. Entsprechend verfährt man auch bei der Zuordnung der Rangzahlen der
Beobachtungswerte von Y
Kapitel 2
Zusammenhang ordinalskalierte Variablen II
Spearmanscher Rangkorrelationskoeffizient
= Bravais-Pearson-Korrelationskoeffizient der Rangzahlen R(xi ), R(yi )
1
P
n
n+1 n+1
n
R(xi ) 2
R(yi ) 2
R i=1
rXY = s s .
1
P
n
n+1 2 1
P
n
n+1 2
n
(R(xi ) 2
) n
(R(yi ) 2
)
i=1 i=1
I Es gilt: 1  rs  1
I rs ein Maß des monotonen Zusammenhangs.
I Obige Formel kann immer angewendet werden, insbesondere auch wenn
mehrere xi oder mehrere yi den gleichen Wert besitzen. In diesem Fall
spricht man von Bindungen. Liegen Bindungen vor, müssen zunächst
Durchschnittsränge gebildet werden.
Kapitel 2
Beispiel 49 (Zahlenbeispiel Rangkorrelationskoeffizient mit Bindungen)

Sei x1 = 3, 7 x2 = 3, 9 x3 = 3, 1 x4 = 3, 7.
O↵ensichtlich ist R (x3 ) = 1 und R (x2 ) = 4.
Auf x1 = x4 = 3, 7 entfallen die Ränge 2 und 3. Man vergibt als Durchschnittsrang
R (x1 ) = 2, 5 und R (x4 ) = 2, 5 .
Analog vergibt man Durchschnittsränge für die yi .
Kapitel 2
Rangkorrelationskoeffizient: einfache Formel
Sind die Werte aller xi bzw. aller yi verschieden (es liegen also keine
Bindungen vor), kann folgende vereinfachte Formal angewendet werden:
P
n
6 (RX (xi ) RY (yi ))2
R i=1
rXY =1 .
n(n2 1)
Kapitel 2
Zusammenhang ordinalskalierte Variablen III
Beispiel 50
n = 6 Sportler
X – Platzierung des Sportlers in der Abfahrt
Y – Platzierung des Sportlers im Slalom
Sportler (i) 1 2 3 4 5 6
Abfahrt (X ) 2 1 3 4 5 6
Slalom (Y ) 2 3 1 5 4 6
di2 0 4 4 1 1 0
Besteht ein Zusammenhang zwischen den Platzierungen in beiden Disziplinen?
6 · 10
rs = 1 = 0, 7143
6 (36 1)
Kapitel 2
Zusammenhang ordinalskalierte Variablen IV
Beispiel 51 (Wirtschaftslage)
X – Wie beurteilen Sie die gegenwärtige wirtschaftliche Lage in der Bundesrepublik?
Y – Wie beurteilen Sie Ihre gegenwärtige eigene wirtschaftliche Lage?

Einschätzungskala:
sehr gut gut teils gut/teils schlecht schlecht sehr schlecht
1 2 3 4 5
) X , Y ordinalskaliert
Besteht ein Zusammenhang zwischen der Einschätzung der Wirtschaftslage für die
Bundesrepublik und der eigenen Wirtschaftslage?
Jahr n rs
1991 2958 0,195
1996 3268 0,306
Kapitel 2
Zusammenhang ordinalskalierte Variablen V
Kendallscher Rangkorrelationskoeffizient ⌧
I Vergleich der Ordnungsrelation für alle möglichen Paare von
beobachteten Werten zweier Merkmale
I Sortierung der Rangpaare R(xi ), R(yi ) nach R(xi )
I P - konkordante Merkmalspaare: weisen eine gleiche Ordnungsrelation
auf, d.h. wenn xi < xj , dann gilt yi < yj
I Q - diskordante Merkmalspaare: weisen eine entgegengesetzte
Ordnungsrelation auf, d.h. wenn xi < xj , dann gilt yi > yj
I pi - Anzahl der Paare mit R(xi ) < R(xj ) und R(yi ) < R(yj )
I qi - Anzahl der Paare mit R(xi ) < R(xj ) und R(yi ) > R(yj )
Kapitel 2
Zusammenhang ordinalskalierte Variablen VI
Definition I
n
X n
X
P Q
⌧ = mit Q= qi , P = pi
P +Q i=1 i=1
Definition II
4Q 4P
⌧ =1 = 1
n(n 1) n(n 1)
Defintionen sind äquivalent, da gilt

n(n 1)
P +Q =
2
Eigenschaft:
1⌧ 1
Kapitel 2
Zusammenhang ordinalskalierte Variablen VII
Beispiel 52 (Angestellte)
X – organisatorische Fähigkeiten, Y – Arbeitssorgfalt, n = 10 Angestellte
Sortierung nach Rang:
Angestellter i 5 9 2 7 6 8 1 10 3 4
R(X ) 1 2 3 4 5 6 7 8 9 10
R(Y ) 7 2 9 5 1 4 3 6 10 8
Berechnung von pi ,qi bzw. P,Q und Einsetzen in die Formel von ⌧ :
P
Angestellter i 5 9 2 7 6 8 1 10 3 4
R(X ) 1 2 3 4 5 6 7 8 9 10
R(Y ) 7 2 9 5 1 4 3 6 10 8
qi (kleiner) 6 1 6 3 0 1 0 0 1 0 18
pi (größer) 3 7 1 3 5 3 3 2 0 0 27
n(n 1) 10·9 27 18 9
Q = 18, P = 27, Q + P = 2
= 2
= 45, ⌧ = 27+18
= 45
= 0, 2
Kapitel 2
Zusammenfassung
Parameterverwendung Skalenniveau
problemlos
Y metrisch
Y metrisch
Y metrisch
X metrisch
Y nominal
X nominal
X nominal
X nominal
problembehaftet
Y ordinal
Y ordinal
X ordinal
X ordinal
auf keinen Fall
K2
Ckorr
Kendall’s ⌧
Spearman
Kovarianz
Bravais-Pearson
Generell: Falls die Skalenniveaus der Variablen unterschiedlich sind, dann

versucht man einen Koeffizienten eines niedrigeren Skalenniveaus zu benutzen.
Kapitel 2
Anhang | 127
Inhalt
Grundbegri↵e
Skalierung
Klassierung
Verteilung
Lageparameter
Streuungsparameter
Bivariate Statistik
Randverteilung
Bedingte Verteilung
Anhang
Kapitel 2
Anhang | 128
Kovarianz unter Unabhängigkeit
Variablen X und Y unabhängig ) sxy = 0
Beweis:
m X
X r
sxy = (xi x)(yj y ) fij
i=1 j=1
m X
X r
wegen Unabh.
= (xi x)(yj y ) fi• f•j
i=1 j=1
( m
)( r
)
X X
= (xi x) fi• (yj y ) f•j
i=1 j=1
( m m
)( r r
)
X X X X
= xi fi• x fi• yj f•j y f•j
i=1 i=1 j=1 j=1
= (x x)(y y) = 0
Kapitel 2
Anhang | 129
Bravais–Pearson–Korrelationskoeffizient
Möglichkeiten zur Berechnung:
P
n
(xi x)(yi y)
i=1 sxy
rxy = =
n · sx · sy sx · sy
P
n
(xi x)(yi y)
i=1
rxy = s
P
n P
n
(xi x)2 (yi y )2
i=1 i=1
P
n P
n P
n
n xi yi xi yi
i=1 i=1 i=1
rxy = v(
u ✓ ◆2 ) ( ✓ ◆2 )
u
t n P x2 P P P
n n n n
i xi n yi2 yi
i=1 i=1 i=1 i=1
Kapitel 2
Anhang | 130
Herleitung vom Spearmanschen
Rangkorrelationskoeffizient
Spearmansche Rangkorrelationskoeffizient =
Bravais-Pearson-Korrelationskoeffizient der Rangzahlen R(xi ), R(yi )
P
n P
n P
n
n R(xi )R(yi ) R(xi ) R(yi )
i=1 i=1 i=1
rs = v( )(
u ✓ ◆ 2 ✓ ◆2 )
u
t n P R(xi )2 P P P
n n n n
R(xi ) n R(yi )2 R(yi )
i=1 i=1 i=1 i=1
P
n
6 {R(xi ) R(yi )}2
i=1
= 1
n(n2 1)
n
X n
X
n(n + 1) n(n + 1)(2n + 1)
R(xi ) = R(xi )2 = für R(yi ) analog
i=1
2 i=1
6
Kapitel 2
Anhang | 131
Wichtige Stichworte I
3D-Balkendiagramm, 83 Häufigkeitstabelle, 80
Absolute Häufigkeit, 22 Häufigkeitsverteilung, 23
Absolute Häufigkeit, 81 Harmonisches Mittel, 54
Absolutskala, 12 Histogramm, 31
Arithmetisches Mittel, 40 Interpolation, 35
Bedingte Verteilung, 92 Interquartilsabstand, 60
Boxplot, 75 Intervallskala, 11
Bravais–Pearson–Korrelation, 113 Kardinalskala, 10
Dichotome Variable, 8 Kendallsche Rangkorrelation, 123
Diskrete Variable, 13, 80 Klassengrenze, 19
Fünf-Zahlen-Zusammenfassung, 74 Klassierung, 18
Gemeinsame Verteilung, 87 Kontingenzkoeffizient, 104
Gepoolter Datensatz, 70 Kontingenztabelle, 80
Gini-Koeffizient, 66 Korr. Kontingenzkoeffizient, 104
Grundgesamtheit, 4 Korrelation, 112
Kapitel 2
Anhang | 132
Wichtige Stichworte II
Kovarianz, 111 Quadratische Kontingenz, 103

Kreuztabelle, 80 Quantil, 50
Lorenzkurve, 66 Quartilsdispersionskoeffizient, 65
Marginale Verteilung, 88 Randverteilung, 87
Median, 48 Rang, 117
Merkmal, 3 Relative Häufigkeit, 22
Merkmalsausprägung, 3 Relative Häufigkeit, 81
Merkmalsträger, 3 Robustheit, 38
Mitt. absolute Abweichung, 64 Säulendiagramm, 25
Mitt. quadratische Abweichung, 61 Skalenniveau, 6
Mittelwert, 89, 96 Spannweite, 59
Modus, 44 Spearmansche Rangkorr., 118
Nominalskala, 7 Stabdiagramm, 25
Normierter Variationskoeffizient, 65 Standardabweichung, 63
Ordinalskala, 9 Standardisierung, 112
Kapitel 2
Anhang | 133
Wichtige Stichworte III
Statistische Einheit, 3
Stetige Variable, 14, 85
Stichprobe, 4
Streudiagramm, 85
Summenhäufigkeit, 26
Unabhängigkeit, 98
Variable, 3
Varianz, 62, 91, 96
Variationskoeffizient, 65
Verhältnisskala, 12
Verteilungsfunktion, 27
Zentralwert, 48
Kapitel 2

Deskriptive Statistik

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Deskriptive Statistik

Hochgeladen von

Copyright:

Verfügbare Formate

Kapitel 2

Foliensatz erstellt durch M. Schienle.

Beispiel 2 (ALLBUS 2010, Extremwerte)

Das Skalenniveau entscheidet über die Anwendbarkeit von statistischen

Achtung: Zugeordnete Zahlen (Nominalzahlen, Schlüsselzahlen) haben reine

Metrisch skalierte Variable

Metrische Variablen werden noch weiter in stetig und diskret unterteilt.

In der Praxis oft: Quasi-stetige Merkmale

I Jeder Variablen wird genau ein Skalenniveau zugeordnet.

1 – 4 000 1445.2 2611.3

I Variable: X (nominal, ordinal oder metrisch diskret)

Beispiel 14 (10maliges Werfen einer “idealen” Münze)

Beispiel 15 (Note einer Statistik-I-Klausur)

Berechnungen mit der Verteilungsfunktion

f (xl < X < xm ) = f (xl < X  xm 1 )

Grafische Darstellung der Verteilungsfunktion

5 und mehr 0,035 1,000

f (2 < x  4) = F (4) F (2) = 0, 965 0, 752 = 0, 213

Häufigkeitstabelle für klassierte Daten

I Klassenhäufigkeit = Fläche des Rechtecks über der jeweiligen Klasse.

xju  X < xjo hj fj fbj

0 – 100 1 0,01 0,0001 1 0,01

0 500 1000 1500 2000 0 500 1000 1500 2000

I Grafische Darstellung: stückweise lineare Kurve (Interpolation)

Falls Annahme nicht erfüllbar (z.B. bei X diskret), verwende Treppenfunktion

Arithmetisches Mittel Spannweite

MHNE von. . . Klassenmitte Anteil der HH

x = 400 · 0, 044 + 1100 · 0, 166 + 2200 · 0, 471 +

Gepoolter Datensatz - Additionseigenschaft

Null- oder Schwerpunkteigenschaft

Modus xD (Modalwert, Dichtemittel, häufigster Wert)

Modus diskreter (nicht klassierter) Variablen

Modus bei klassierten Variablen

xju , xjo untere/obere Grenze der Modalklasse

xju < X  xjo hj fj fbj

I Modalklasse: 500 – 1000 Stunden

I zum Vergleich: x = 50 · 0, 01 + 300 · 0, 24 + 750 · 0, 45 + 1500 · 0, 3 = 860

xju < X  xjo hj fj fbj

Modalklasse: 30 – 37 Punkte, da dort die größte Häufigkeitsdichte ist.

Median von nicht klassierten Variablen

I Falls n gerade ist:

0 500 1000 1500 2000 0 500 1000 1500 2000

Quantile von nicht klassierten Variablen

Quantile von klassierten Variablen

Beispiel 24 (Lampen s. Bsp. 21)

0 500 1000 1500 2000 0 500 1000 1500 2000

I Voraussetzung: Das harmonische Mittel kann für verhältnisskalierte

I Gebrauch zumeist als gewichtetes harmonisches Mittel, falls xi Quotient

Beispiel 26 (Preisindizes für Warenkorb aus n Gütern)

Beispiel 27 (Durchschnittsgeschwindigkeit aus Teilstrecken)

ist mit Weganteilen gewichtetes harmonisches Mittel aus den Teilgeschwindigkeiten.

Durchschnittsgeschwindigkeit: 17/0, 2475 = 68, 687 km/h.

Es sind Informationen zum Zähler des Verhältnisses gegeben

Es sind Informationen zum Nenner des Verhältnisses gegeben

I Streuung (Dispersion) ist die Variabilität in den beobachteten Werten

Beispiel 28 (Schematische Illustration)

Spannweite von nicht klassierten Variablen

Spannweite von klassierten Variablen

Mittlere quadratische Abweichung

I Die Standardabweichung wird in der gleichen Einheit gemessen, wie die

Mittlere absolute Abweichung

Im Allgemeinen wählt man c = x0.5 oder c = x

I Normierter Variationskoeffizient (für xi 0)