Sie sind auf Seite 1von 54

Deskriptive Statistik fr Statistiker, WS 2000/01

Leo Knsel, Universitt Mnchen


I n h a l t s v e r z e i c h n i s
1. Einfhrung und Grundbegriffe............................................................................................ 1
1.1 Zum Begriff Statistik.................................................................................................. 1
1.2 Deskriptive und induktive Statistik............................................................................ 1
1.3 Grundbegriffe............................................................................................................. 1
1.4 Klassifikation von Merkmalen................................................................................... 2
1.5 Weitere Begriffe......................................................................................................... 2
2. Darstellung eindimensionaler (univariater) Verteilungen ................................................... 4
2.1 Tabellendarstellung von Verteilungen....................................................................... 4
2.2 Grafische Darstellung von Verteilungen.................................................................... 6
3. Verteilungsmazahlen: Lageparameter (Mittelwertsmae) ................................................ 7
3.1 Arithmetisches Mittel ................................................................................................ 7
3.2 Zentralwert (Median) ............................................................................................... 10
3.3 Modalwert (Modus) ................................................................................................. 12
3.4 Vergleich zwischen arithmetischem Mittel, Zentralwert und Modalwert;
gestutztes arithmetisches Mittel............................................................................... 13
3.5 Geometrisches Mittel ............................................................................................... 14
3.6 Harmonisches Mittel................................................................................................ 15
3.7 Potenzmittel ............................................................................................................. 16
3.8 Quantile.................................................................................................................... 17
3.9 Schachtel-Diagramm (Box-Plot) ............................................................................. 18
4. Verteilungsmazahlen: Streuungsmae ............................................................................ 19
4.1 Spannweite (range) .................................................................................................. 19
4.2 Quartilsabstand ........................................................................................................ 19
4.3 Giniabstand .............................................................................................................. 19
4.4 Durchschnittlicher Abstand von einem Mittelwert.................................................. 20
4.5 Varianz, Standardabweichung und Variationskoeffizient ....................................... 22
4.6 Ungleichung von Tschebyscheff; Interpretation der Standardabweichung.............. 23
4.7. Verschiebungssatz; Minimumseigenschaft des arithmetischen Mittels................... 24
4.8. Varianzzerlegung bei Schichtbildung...................................................................... 25
4.9. Lineare Transformationen........................................................................................ 26
4.10 Berechnung der Varianz bei Hufigkeitstabellen .................................................... 27
4.11 Weitere Mazahlen.................................................................................................. 27
5. Konzentrationsmessung..................................................................................................... 28
5.1 Lorenzkurve ............................................................................................................. 28
5.2 Konzentrationsma von Lorenz (-Mnzner)............................................................ 29
5.3 Zusammenhang zwischen Konzentrationsma und Gini-Abstand.......................... 29
6. Kontingenztabellen............................................................................................................ 30
6.1 Kontingenztabellen .................................................................................................. 30
6.2 Zusammenhangsmae (Assoziationsmae) ............................................................. 30
7. Regression und Korrelation............................................................................................... 34
7.1 Einfhrung ............................................................................................................... 34
7.2 Regressionsgeraden, Methode der kleinsten Quadrate ............................................ 34
7.3 Weiter Eigenschaften der Regressionsgeraden und des Korrelationskoeffizienten. 35
7.4 Lineartransformationen und Linearkombinationen.................................................. 37
7.5 Varianzzerlegung und Bestimmtheitsma ............................................................... 37
7.6 Zerlegung der Kovarianz bei Schichtbildung .......................................................... 39
7.7 Multiple lineare Regression mit linearer Algebra.................................................... 40
7.8 Partielle Korrelation................................................................................................. 42
7.9 Nichtlineare Regression........................................................................................... 43
8. Regression und Korrelation mit Hufigkeitstabellen ........................................................ 44
8.1 Berechnung der klassischen Mazahlen .................................................................. 44
8.2 Unabhngigkeit und Unkorreliertheit ...................................................................... 45
8.3 Allgemeine Regressionskurven (natrliche Regression) ......................................... 45
8.4 Allgemeine Regressionskurven und Methode der kleinsten Quadrate .................... 46
8.5 Allgemeine Regressionskurven und Varianzzerlegung ........................................... 47
9. Rangkorrelation................................................................................................................. 49
9.1 Rangkorrelation nach Spearman (ohne Bindungen) ................................................ 49
9.2 Rangkorrelation nach Spearman bei Bindungen...................................................... 50
9.3 Rangkorrelation nach Kendall ................................................................................. 51
Deskriptive Statistik
fr Statistiker, WS 2000/01
Leo Knsel, Universitt Mnchen
Literatur:
Ferschl, Franz (1980). Deskriptive Statistik. Physica-Verlag, Wrzburg.
Fahrmeir-Knstler-Pigeot-Tutz (1997). Statistik. Springer-Verlag, Berlin.
1. Einfhrung und Grundbegriffe
1.1 Zum Begriff Statistik
17. Jh.: Statistik = Lehre von den Staatsmerkwrdigkeiten
(Anzahl der Einwohner, der Soldaten; Steueraufkommen, etc.)
heute: Statistik
a) als Datensammlung (z.B. Meldestatistik, Unfallstatistik)
b) als mathematische Funktion (Schtzstatistik, Teststatistik)
c) als Wissenschaft (Statistische Methodenlehre)
Statistische Methoden sind in allen empirischen Wissenschaften notwendig zur Beschreibung
und Beurteilung der erhobenen oder gemessenen Daten.
1.2 Deskriptive und induktive Statistik
Bei einer statistischen Untersuchung (z.B. bei einer Volkszhlung) kann man drei Schritte
unterscheiden:
1) Daten sammeln, erheben und berprfen (validieren).
Dies ist die Aufgabe der Praktischen Statistik.
2) Daten aufbereiten, straffen und bersichtlich darstellen.
Dies ist die Aufgabe der Deskriptiven (beschreibenden) Statistik.
Dazu gehrt auch die Suche nach einfachen Modellen zur Beschreibung der Daten, z.B.
die Frage ob eine lineare oder eine quadratische Regression die Daten besser beschreibt
(explorative Datenanalyse).
3) Daten analysieren, Schlsse ziehen aus den Daten.
Dies ist die Aufgabe der Induktiven (schlieenden) Statistik.
1.3 Grundbegriffe
Bei einer statistischen Untersuchung sind die folgenden Begriffe zu klren:
1) Grundgesamtheit und Untersuchungseinheiten
Die Grundgesamtheit ist die Gesamtheit aller Elemente, die untersucht werden sollen; die
Elemente der Grundgesamtheit heien Untersuchungseinheiten.
Formal: { }
1 2
G , , ,
n
e e e = = Gesamtheit aller Untersuchungseinheiten
1 2
, , e e
2
Die Praktische Statistik hat die Aufgabe, bei einer Erhebung die Grundgesamtheit (z.B.
die Einwohner von Bayern) klar abzugrenzen
a) in rumlicher Hinsicht (wo?)
b) in zeitlicher Hinsicht (wann?)
c) in sachlicher Hinsicht (wer ist Einwohner?)
2) Untersuchungsmerkmal und Merkmalsausprgung
Ein Untersuchungsmerkmal (UM) ordnet jeder Untersuchungseinheit (UE) einer statisti-
schem Gesamtheit G eine Merkmalsausprgung (MA) zu.
Beispiel: Altersverteilung der Wohnbevlkerung von Bayern am 31.12.2000:
UE: Einwohner von Bayern am 31.12.2000
UM: Alter (in vollendeten Jahren)
MA: 0, 1, 2,
Eine Statistische Verteilung beschreibt nun, wie die MA eines UM auf die UE einer statisti-
schen Gesamtheit G verteilt sind.
1.4 Klassifikation von Merkmalen
1) Klassifikation aufgrund der Skalierung
a) Qualitative UM: Nominalskala
b) Rangmerkmale UM: Ordinalskala (topologische Skala)
c) Quantitative UM: Metrische Skala
2) Quantitative UM werden unterschieden in
diskrete UM (MA sind aufzhlbar)
stetige UM (MA sind messbar).
3) Bei stetigen UM unterscheidet man
UM mit einer Intervallskala (kein natrlicher Nullpunkt)
UM mit einer Verhltnisskala (mit natrlichem Nullpunkt)
1.5 Weitere Begriffe
1) Eindimensionale und mehrdimensionale UM
Eindimensionale (univariate) UM: bei jeder UE wird ein UM untersucht
(z.B. Krpergre von Rekruten).
Mehrdimensionale (multivariate) UM: bei jeder UE werden mehrere UM untersucht
(z.B. mehrere Abiturnoten, sowie Geschlecht und Alter von Abiturienten).
2) Urliste
Wir betrachten eine statistische Gesamtheit { }
1
, ,
n
G e e = mit
einem z.B. zweidimensionalen UM ( ) , X Y . Dann gibt die Urliste
zur jeder UE
i
e die zugehrigen MA
i
x und
i
y an ( 1, 2, , i n = ).
3) Extensive und intensive UM
Extensive UM: Gesamtsumme der MA ist eine sinnvolle Gre
(z.B. Umsatz, Vermgen, landwirtsch. Grundbe-
sitz)
Intensive UM: Gesamtsumme der MA ist keine sinnvolle Gre
(z.B. Krpergre, Preise, Mittagstemperatur)
Urliste zu ( ) , X Y :
i
e
i
x
i
y
1
e
1
x
1
y
2
e
2
x
2
y

n
e
n
x
n
y
3
4) Primr- und Sekundrstatistik
Primrstatistische Daten wurden fr die vorliegende Studie eigens erhoben
(und die Abgrenzungen entsprechen somit den Zielen der vorliegenden Studie).
Sekundrstatistische Daten stammen aus fremden statistischen Erhebungen (und die Ab-
genzungen entsprechen somit nicht immer den Zielen der vorliegenden Studie).
5) Erhebungsarten
a) Vollerhebung (z.B. Volkszhlung)
b) Teilerhebung, Stichproben ( z.B. Mikrozensus)
c) Experimente, klinische Studien:
Querschnittsstudie (Haushaltseinkommen aller Hh. in Bayern im Jahre 2000)
Lngsschnittstudie, Panelstudie (1000 Haushalte werden ber 10 Jahre beobachtet)
6) Bestands und Bewegungsgren
Bestandsgren:
Einwohnerzahl
Lagerbestand am 1.1.2000
Vermgen
'
1
1
1
!
1
1
1+
(Zeitpunkt)
Bewegungsgren:
Anzahl der Geburten im Jahre 2000 (Zeitdauer)
Umsatz im Monat Juli des Jahres 2000 (Zeitdauer)
Bewegungsgren ndern die zugehrigen Bestandsgren.
7) Zeitreihen
Entwicklung einer Bestands- oder Bewe-
gungsgre im Laufe der Zeit. Hier be-
steht die statistische Gesamtheit aus einer
Folge von Zeitpunkten bzw. Zeitperioden.
Zeitpunkte Einwohnerzahl
1.1.1995 10 500
1.1.1996 11 800
1.1.1997 11 300

4
2. Darstellung eindimensionaler (univariater) Verteilungen
2.1 Tabellendarstellung von Verteilungen
1) Hufigkeitstabellen (ohne Intervallbildung)
{ }
1 2
, , ,
n
G e e e =
X = Untersuchungsmerkmal
mgliche MA von X:
1 2
, , ,
k
a a a
n = Anzahl der UE
k = Anzahl der verschiedenen MA von X.
Die absoluten Hufigkeiten
1 2
, , ,
k
h h h sind definiert als
1
h = Anzahl der UE mit MA
1
a (= absolute Hufigkeit der Klasse 1)

k
h = Anzahl der UE mit MA
k
a (= absolute Hufigkeit der Klasse k).
Es gilt
1 2
1
k
j k
j
h h h h n
=
= + + + =

.
Die kumulierten absoluten Hufigkeiten sind definiert als
1
fr 1, ,
j j
H h h j k = + + = . Dann ist
k
H n = .
Die relativen Hufigkeiten
1 2
, , ,
k
f f f sind definiert als
fr 1, ,
j j
f h n j k = = .
Es gilt
1 1
1
1
k k
j j
j j
f h
n
= =
= =

.
Die kumulierten relativen Hufigkeiten sind definiert als
1
fr 1, ,
j j
F f f j k = + + = . Dann ist 1
k
F = .
Die Hufigkeitstabelle des UM X ist gegeben durch
j
j
a
j
h
j
f
1
1
a
1
h
1
f
2
2
a
2
h
2
f


k k
a
k
h
k
f
n 1
Hufigkeitstabellen (ohne Intervallbildung) sind sinnvoll
a) bei qualitiativen UM
b) bei diskreten UM, falls die Anzahl k der verschieden MA nicht allzu gro ist.
5
2) Hufigkeitstabellen mit Intervallbildung
{ }
1 2
, , ,
n
G e e e =
X = quantitatives Untersuchungsmerkmal
Der Wertebereich des Merkmals X wird durch die Werte
0 1 k
c c c < < < in k Intervalle
zerlegt:
[ ]
( ]
( ]
1 0 1
2 1 2
1
,
,
,
k k k
I c c
I c c
I c c

=
=
=

Die Abgrenzung der Intervalle kann auch anders gewhlt werden; sie sollte jedoch konse-
quent regeln, zu welcher Klasse etwa die Grenze
2
c gehrt (Klasse 2 oder Klasse 3).
Beachte:
n = Anzahl der UE
k = Anzahl der verschiedenen Intervalle.
Die absoluten Hufigkeiten
1 2
, , ,
k
h h h werden definiert als
1
h = Anzahl der UE, welche ihre MA in
1
I haben (= absolute Hufigkeit der Klasse 1)

k
h = Anzahl der UE, welche ihre MA in
k
I haben (= absolute Hufigkeit der Klasse k).
Es gilt
1 2
1
k
j k
j
h h h h n
=
= + + + =

.
Die relativen Hufigkeiten
1 2
, , ,
k
f f f sind definiert als
fr 1, ,
j j
f h n j k = = .
Es gilt
1 1
1
1
k k
j j
j j
f h
n
= =
= =

.
Die kumulierten absoluten und relativen Hufigkeiten werden definiert wie oben.
Die Hufigkeitstabelle des UM X ist gegeben durch
j
j
I
j
h
j
f
1 [ ]
0 1
, c c
1
h
1
f
2 ( ]
1 2
, c c
2
h
2
f

k ( ]
1
,
k k
c c

k
h
k
f
n 1
Bemerkungen
a) Hufigkeitstabellen mit Intervallbildung sind sinnvoll bei quantitativen UM mit vielen
verschiedenen MA.
b) Die Randintervalle (erstes und letztes Intervall) besitzen oft keine natrliche Unter- bzw.
Obergrenze (z.B. Altersverteilung, Einkommensverteilung). Man spricht dann von offe-
nen Randklassen.
6
2.2 Grafische Darstellung von Verteilungen
1) Stab- Sulen- Balkendiagramm:
wird verwendet als grafische Darstellung zu Hufigkeitstabellen ohne Intervallbildung;
typisch: Stablnge proportional zur Hufigkeit (absolut oder relativ).
Varianten zum Stabdiagramm: Kreis- Kuchen-, Stapeldiagramm.
2) Histogramm:
wird verwendet als grafische Darstellung zu Hufigkeitstabellen mit Intervallbildung;
typisch: Rechtecksflche proportional zur Hufigkeit (absolut oder relativ); die Histo-
grammhhe ist dann die Hufigkeitsdichte.
Variante zum Histogramm: Hufigkeitspolygon
Bei einem Histogrammen mit konstanter Intervallbreite d und mit den Rechteckshhen
1 2
, , ,
k
ist das Hufigkeitspolygon der der Streckenzug durch die Punkte
0 1 1
, , ,
k
P P P
+
, wobei
( )
( )
( )
1
0 0
2
1
2
1
1
2
, 0
, fr 1, ,
, 0 .
j j j
k k
P c d
P c d j k
P c d
+
=
= =
= +

Whrend das Histogramm eine Treppenfunktion ist, ist das Hufigkeitspolygon eine ste-
tige Funktion. Da die Intervallbreite konstant ist, so ist die Gesamtflche unter dem Hu-
figkeitspolygon identisch zur gesamten Histogrammflche.
3) Summenkurve:
wird verwendet als grafische Darstellung zu
Hufigkeitstabellen mit Intervallbildung (vgl.
nebenstehende Tabelle). Die Summenkurve ist
der Streckenzug durch die Punkte

( )
( )
( )
0 0 0
1 1 1
,
,
,
k k k
P c F
P c F
P c F
=
=
=

Dabei wird
0
0 F = gesetzt. Die Summenkurve ist ntzlich zur Bestimmung der Quantile
der Verteilung (Zentralwert, Quartile, etc.; siehe unten).
4) Stamm-Blatt-Diagramm (stem and leaf plot):
Beispiel: Bei 20 n = Personen wird der Puls X ge-
messen. Es ergaben sich die nebenstehenden 20 MA
(geordnete Urliste).
Das Stamm-Blatt-Diagramm zu diesen Daten ist die
nebenstehende Darstellung. Das Stamm-Blatt-
Diagramm entspricht also einem Histogramm mit
konstanter Intervallbreite und mit zustzlicher Infor-
mation ber die Verteilung der MA innerhalb eines
Intervalls.
j
j
I
j
f
j
F
1
[ ]
0 1
, c c
1
f
1
F
2
( ]
1 2
, c c
2
f
2
F

k ( ]
1
,
k k
c c

k
f
( ) 1
k
F =
1
58
62 62 62 64 64 66 68 68 68
70 72 74 76 76
80 84 84
90 92
5 8
6 222446888
7 02466
8 044
9
Stamm

02
Bltter

7
3. Verteilungsmazahlen: Lageparameter (Mittelwertsmae)
Verteilungsmazahlen sollen typische Eigenschaften einer Verteilung messen:
Mittelwert, Lage
Streuung, Dispersion
Symmetrie, Schiefe
etc.
In diesem Abschnitt werden Lageparameter (Lagemae, Mittelwertsmae behandelt).
3.1 Arithmetisches Mittel
a) Daten als Urliste:
{ }
1 2
, , , statistische Gesamtheit
n
G e e e = =
X = Untersuchungsmerkmal (quantitativ oder ordinal, MA sind reelle Zahlen)
Urliste:
i
e
i
x
1
e
1
x

n
e
n
x
S
S = Summe aller MA
( )
1
1
1 1
arithmetisches Mittel von
n
n i
i
S
x x x x X
n n n
=
= = + + = =

.
b) Daten als Hufigkeitstabelle (ohne Intervallbildung):
{ }
1 2
, , , statistische Gesamtheit
n
G e e e = =
X = Untersuchungsmerkmal (quantitativ oder ordinal, MA sind reelle Zahlen)
1
, ,
k
a a die verschiedenen MA von X
j
h = absolute Hufigkeit der Klasse j, 1, , j k =
Hufigkeitstabelle des UM X:
j
j
a
j
h
j
f
j
S
1
1
a
1
h
1
f
1
S


k k
a
k
h
k
f
k
S
n 1 S
Summe aller MA in Klasse , 1, ,
j j j
S h a j j k = = =
1
Summe aller MA
k
S S S = + + =
arithmetisches Mittel von (wie oben)
S
x X
n
= =
Es gilt:
1 1 1
1 1
k k k
j j j j j
j j j
S
x S h a f a
n n n
= = =
= = = =

.
8
c) Daten als Hufigkeitstabelle mit Intervallbildung:
{ }
1 2
, , , statistische Gesamtheit
n
G e e e = =
X = quantitatives Untersuchungsmerkmal
Der Wertebereich des Merkmals X werde durch die Werte
0 1 k
c c c < < < in k Inter-
valle
1
, ,
k
I I zerlegt. Zugehrige Hufigkeitstabelle:
j
j
I
j
h
j
f
1 [ ]
0 1
, c c
1
h
1
f
2 ( ]
1 2
, c c
2
h
2
f

k ( ]
1
,
k k
c c

k
h
k
f
n 1
Die Intervallbildung fhrt zu einem Informationsverlust, und daher kann das arithmeti-
sche Mittel nicht mehr exakt bestimmt werden. Falls keine offenen Randklassen vorlie-
gen, so kann man eine untere (lower) und eine obere (upper) Schranke fr x bestimmen:
u
x x x

wobei
1 1
1
1
(alle MA in ersetzen durch die untere Grenze )
k
j j j j
j
x h c I c
n

=
=

1
1
(alle MA in ersetzen durch die obere Grenze )
k
u j j j j
j
x h c I c
n
=
=

.
Wenn alle MA im Intervall
j
I ersetzt werden durch die Intervallmitte
( )
1
1
2
j j j
m c c

= + , so erhlt man den Nherungswert


1
1
k
m j j
j
x x h m
n
=
=

. Es gilt: ( )
1
2
m u
x x x = +

.
d) Gewogenes arithmetisches Mittel:
1
1
1
, , beliebige reelle Zahlen;
, , zugehrige Gewichte, alle 0;
Gesamtgewicht.
n
n i
n
x x
g g g
g g g

= + +

Dann ist das gewogene arithmetische Mittel von


1
, ,
n
x x mit den Gewichten
1
, ,
n
g g
definiert als
1
1
n
i i
i
x g x
g
=
=

.
Falls 1
i
g g = = , so heien die Gewichte normiert, und das gewogene arithmetische
Mittel kann geschrieben werden als
i i
x g x = . Allgemeine Gewichte
1
, ,
n
g g mit dem
Gesamtgewicht g knnen durch die Transformation
i i
g g g = fr 1, , i n = stets in
normierte Gewichte
1
, ,
n
g g bergefhrt werden.
Es sei ( )
1
min , ,
n
m x x = , ( )
1
max , ,
n
M x x = und x sei ein beliebiges gewogenes
arithmetisches Mittel von
1
, ,
n
x x . Dann gilt m x M .
9
Spezialflle des gewogenen arithmetischen Mittels:
i)
1
1
n
g g = = =
Dann ist
i
g g n = = , und das gewogene arithmetische Mittel
1 1
i i i
x g x x
g n
= =

ist das gewhnliche arithmetische Mittel von
1
, ,
n
x x .
ii) { }
1 2
, , ,
n
G e e e = eine statistische Gesamtheit;
X ein Untersuchungsmerkmal (quantitativ oder ordinal, MA sind reelle Zahlen);
1
, ,
k
a a die verschiedenen MA von X;
j
h = absolute Hufigkeit der Klasse j, 1, , j k = ;
j
f = relative Hufigkeit der Klasse j, 1, , j k = .
Fr das arithmetische Mittel von X gilt
1 1
1
k k
j j j j
j j
S
x h a f a
n n
= =
= = =

,
d.h. das arithmetische Mittel von X kann geschrieben werden
1. als ungewogenes arithmetisches Mittel aller MA;
2. als gewogenes arithmetisches Mittel von
1
, ,
k
a a mit den absoluten Hufig-
keiten
1
, ,
k
h h als allgemeinen Gewichten und mit dem Gesamtgewicht n;
3. als gewogenes arithmetisches Mittel von
1
, ,
k
a a mit den relativen Hufigkei-
ten
1
, ,
k
f f als normierten Gewichten.
e) Arithmetisches Mittel bei Schichtbildung
Eine statistische Gesamtheit { }
1 2
, , ,
n
G e e e = sei zerlegt in k (disjunkte) Teilgesamt-
heiten
1
,
k
G G mit den Umfngen
1
, ,
k
n n (
1 k
n n n + + = ). X sei ein (quantitatives)
UM und es sei
1
Summe aller MA in ;
Summe aller MA in ;
arithmetisches Mittel von in der Teilgesamtheit ;
arithmetisches Mittel von in der Gesamtheit .
j j
k
j
j j
j
S G
S S S G
S
x X G
n
S
x X G
n
=
= + + =
= =
= =

Dann gilt
1 1
1 1
k k
j j j
j j
S
x S n x
n n n
= =
= = =

,
d.h. x ist das gewogene arithmetische Mittel von
1
, ,
k
x x mit den Gewichten
1
, ,
k
n n .
j j
G
j
n
j
x
j j j
S n x =
1 1
G
1
n
1
x
1 1 1
S n x =

k k
G
k
n
k
x
k k k
S n x =
n S
10
3.2 Zentralwert (Median)
a) Daten als Urliste:
{ }
1 2
, , , statistische Gesamtheit
n
G e e e = = ;
X = Untersuchungsmerkmal (quantitativ oder ordinal, MA sind reelle Zahlen);
Urliste:
i
e
i
x
1
e
1
x

n
e
n
x
Wir setzen hier voraus, da die Urliste bereits geordnet ist:
1 2 n
x x x .
Wir definieren den Zentralwert Ze wie folgt:
falls n ungerade:
1
, wobei mittlere Platznummer
2
MA auf dem mittleren Platz.
m
n
Ze x m
+
= = =
=
Beispiel:
3
5 1
5, 3 mittlere Platznummer
2
n m Ze x
+
= = = = = .
falls n gerade (zwei benachbarte mittlere Pltze):
( )
1
1
2
, wobei
2
arithmetisches Mittel der MA auf den beiden mittleren Pltzen.
m m
n
Ze x x m
+
= + =
=
Beispiel: ( )
1
3 4
2
6
6, mittlere Pltze: 3 und 1 4
2
n m m Ze x x = = = + = = + .
b) Daten als Hufigkeitstabelle (ohne Intervallbildung):
{ }
1 2
, , , statistische Gesamtheit
n
G e e e = = ;
X = Untersuchungsmerkmal (quantitativ oder ordinal, MA sind reelle Zahlen);
1
, ,
k
a a die verschiedenen MA von X;
j
h = absolute Hufigkeit der Klasse j, 1, , j k = ;
j
H = kumulierte absolute Hufigkeit der Klasse j, 1, , j k = ;
Hufigkeitstabelle des UM X:
j
j
a
j
h
j
H
1
1
a
1
h
1
H

k
k
a
k
h
k
H n =
n
Wir setzen voraus, da
1 2 k
a a a < < < (Normalfall).
11
Bestimmung des Zentralwerts:
1. kumulierte absolute Hufigkeiten berechnen;
2. mittlere Platznummern bestimmen;
3. Einfallsklasse des Zentralwerts aufgrund der kumulierten absoluten Hufigkeiten aus
der Hufigkeitstabelle ablesen.
c) Daten als Hufigkeitstabelle mit Intervallbildung:
{ }
1 2
, , , statistische Gesamtheit
n
G e e e = = ;
X = quantitatives Untersuchungsmerkmal.
Der Wertebereich des Merkmals X werde durch die Werte
0 1 k
c c c < < < in k Inter-
valle
1
, ,
k
I I zerlegt. Zugehrige Hufigkeitstabelle:
j
j
I
j
h
j
f
j
F
1 [ ]
0 1
, c c
1
h
1
f
1
F
2 ( ]
1 2
, c c
2
h
2
f
2
F

k ( ]
1
,
k k
c c

k
h
k
f 1
k
F =
n 1
Die Intervallbildung fhrt zu einem Informationsverlust, und daher kann der Zentralwert
nicht mehr exakt bestimmt werden. Aufgrund der kumulierten absoluten oder relativen
Hufigkeiten kann man das Intervall
(
1
,
j j j
I c c

l
=
l
l
bestimmen, in dem der Zentralwert
liegen mu (Einfallsintervall des Zentralwerts), und damit erhlt man eine untere und ei-
ne obere Schranke fr den Zentralwert:

1 j j
c Ze c

.
Unter der zustzlichen Annahme, da das Intervall
(
1
,
j j j
I c c

l
=
l
l
gleichmssig und dicht
besetzt ist, erhlt man mit Hilfe der Summenkurve und des Strahlensatzes (Hufigkeit
proportional zur Lnge des Teilintervalls) die Formel
( )
1
1 1
1
0.5
j
j j j
j j
F
Ze c c c
F F

= +

.
Eine analoge Formel ergibt sich fr ein beliebiges p-Quantile
p
Q (siehe unten):
( )
1
1 1
1
j
p j j j
j j
p F
Q c c c
F F

= +

,
wobei das Intervall
(
1
,
j j j
I c c

l
=
l
l
das Einfallsintervall von
p
Q ist.
Bemerkungen:
1) Der Zentralwert ist auch berechenbar bei offenen Randklassen.
2) Der Zentralwert ist ein sinnvolles Lagema auch
bei ordinalen Untersuchungsmerkmalen;
bei intensiven Untersuchungsmerkmalen (Merkmalssumme keine sinnvolle Gre,
daher ist auch das arithmetische Mittel eigentlich keine sinnvolle Gre).
12
3.3 Modalwert (Modus)
Modalwert = hufigster Wert
a) Daten als Hufigkeitstabelle (ohne Intervallbildung):
{ }
1 2
, , , statistische Gesamtheit
n
G e e e = = ;
X = Untersuchungsmerkmal (quantitativ, ordinal oder nominal);
1
, ,
k
a a die verschiedenen MA von X;
j
h = absolute Hufigkeit der Klasse j, 1, , j k = ;
Hufigkeitstabelle des UM X:
j
j
a
j
h
1
1
a
1
h

k
k
a
k
h
n
Der Modalwert von X ist jene MA
j
a , fr welche die zugehrige absolute Hufigkeit
j
h
am grten ist.
b) Daten als Hufigkeitstabelle mit Intervallbildung:
{ }
1 2
, , , statistische Gesamtheit
n
G e e e = = ;
X = quantitatives Untersuchungsmerkmal.
Der Wertebereich des Merkmals X werde durch die Werte
0 1 k
c c c < < < in k Intervalle
1
, ,
k
I I zerlegt. Zugehrige
Hufigkeitstabelle:
Da ber das Zusammenfallen von Merkmalsausprgungen auf-
grund der Hufigkeitstabelle nichts gesagt werden kann, kann
die hufigste MA (Modalwert) nicht bestimmt werden; sie kann in jedem Teilintervall
j
I
liegen, das mindestens zwei MA enthlt. Stattdessen spricht man hier vom modalen In-
tervall (modale Klasse). Dies ist jenes Teilintervall
j
I , fr welches die Histogrammhhe
(= Dichte) maximal ist.
Bemerkungen:
1) Eine statistische Verteilung kann mehrere Modalwerte haben.
2) Analog zum hufigsten Wert (Modalwert) kann man
den zweithufigsten Wert
den dritthufigsten Wert
etc.
definieren
3) Der Modalwert ist eine sinnvolle Mazahl auch bei qualitativen Untersuchungsmerkma-
len; allerdings kann man ihn dann nicht als Mittelwertsma oder Lagema bezeichnen, da
ja die MA nicht geordnet sind.
4) Der Modalwert ist eine wichtige Mazahl z.B. in der Konfektionsindustrie (gngigste
Schuh- oder Kleidergre).
j
j
I
j
h
1 [ ]
0 1
, c c
1
h
2 ( ]
1 2
, c c
2
h

k ( ]
1
,
k k
c c

k
h
n
13
3.4 Vergleich zwischen arithmetischem Mittel, Zentralwert und Modalwert;
gestutztes arithmetisches Mittel
{ }
1 2
, , , statistische Gesamtheit
n
G e e e = = ;
X = Untersuchungsmerkmal (quantitativ);
arithmetisches Mittel x = ;
Ze Zentralwert = ;
Mo Modalwert = .
Lageregel:
Bei linkssteilen Verteilungen (z.B. Einkommensverteilung) gilt i.a.
Mo Ze x < < .
Bei rechtssteilen Verteilungen gilt i.a.
x Ze Mo < < .
Bemerkung:
Das arithmetische Mittel reagiert empfindlich auf Ausreier, whrend der Zentralwert
umempfindlich ist gegenber Ausreiern. Daher nennt man den Zentralwert eine robuste
Mazahl, whrend das arithmetische Mittel keine robuste Mazahl ist. Das arithmetische
Mittel kann robuster gemacht werden, indem man die extremen Werte (mglicherweise
Ausreier) wegstutzt. Dies fhrt zum gestutzten arithmetischen Mittel.
Gestutztes arithmetisches Mittel (trimmed mean)
Urliste:
i
e
i
x
1
e
1
x

n
e
n
x
Wir setzen hier voraus, da die Urliste bereits geordnet ist:
1 2 n
x x x .
Es sei z.B. 100 n = , und wir lassen nun die grten und kleinsten 10 Werte (mglicherweise
Ausreier) weg, wir stutzen also oben und unten je 10% der Werte weg. Von den brigen 80
Werten berechnen wir das gewhnliche arithmetische Mittel
90
0.1
11
1
80
i
i
x x
=
=

.
Dann heit
0.1
x das um 10 % gestutzte arithmetische Mittel. Werden von den 100 n = Werten
oben und unten je 49 Werte (je 49 %) weggestutzt, so erhalten wir ( )
1
0.49 50 51
2
x x x Ze = + = .
Wenn der gesamte Anteil der gestutzten Werte also gegen 100% konvergiert, so konvergiert
das gestutzte Mittel gegen den Zentralwert. Das gestutzte Mittel ist also ein Kompromiss zwi-
schen arithmetischem Mittel und Zentralwert.
14
3.5 Geometrisches Mittel
1
, , seien reelle Zahlen, alle 0
n
x x n .
Dann ist das geometrische Mittel x von
1
, ,
n
x x definiert als
1 2
n
n
x x x x = .
Es gilt:
1
1
ln ln
n
i
i
x x
n
=
=

,
d.h. der Logarithmus des geometrischen Mittels ist das arithmetische Mittel der Logarithmen
von
1
, ,
n
x x .
Vergleich zwischen arithmetischem und geometrischem Mittel
1
1 2
1
arithmetisches Mittel
geometrisches Mittel
.
n
i
i
n
n
x x
n
x x x x
x x
=
= =
= =

Typische Anwendung des geometrischen Mittels:


0 1
, , ,
n
U U U Zeitreihe eines UM mit positiven MA (Bestands- oder Bewegungsgren),
z.B. Umsatz in Periode , 0, 1, ,
i
U i i n = = ;
1
1
nderungsfaktor im Vergleich zur Vorperiode; dann gilt:
i
i i i i
i
U
x U x U
U

= = = ;
( )
1
100 1 100
i i
i i
i
U U
r x
U

= = = nderungsrate in Prozent.
Es gilt: ( ) 1 100; 1 .
100
i
i i i
r
r x x = = +
Durchschnittlicher Wachtumsfaktor x:
0 1 2
n n
n n
x U U x x x = = = geometrisches Mittel von
1
, ,
n
x x .
Durchschnittliche Wachtumsrate in Prozent: ( ) 1 100 r x = .
Beispiel:
Periode i
i
U
i
x
i
r
0 (1995) 200
1 (1996) 300 1.5 +50 %
2 (1997) 162 0.54 46 %
Redeweise: Von 1995 auf 1996 erfolgte eine Zunahme um 50 %, d.h. eine Zunahme auf das
1.5-fache (des Umsatzes von 1995).
Durchschnittlicher Wachstumsfaktor (nderungsfaktor):
( )
1 2
2 0
1.5 0.54 0.81 0.9;
oder: 162 200 0.81 0.9;
1 100 10.
x x x
x U U
r x
= = = =
= = = =
= =
Der Umsatz ist also in den zwei Jahren 1996 und 1997 durchschnittlich um 10 % gesun-
ken im Vergleich zum Basisjahr (Ausgangsjahr) 1995.
15
Arithmetisches Mittel der Wachstumsraten:
( ) ( )
( ) ( )
1 1
1 2
2 2
1 1
1 2
2 2
1.5 0.54 1.02
50 46 2
x x x
r r r
= + = + =
= + = =
Das arithmetische Mittel liefert eine durchschnittliche Zunahme um 2 Prozent! Dies ist
offensichtlich nicht korrekt, da ja der Umsatz im Jahr 1997 geringer ist als im Basisjahr
1995!
3.6 Harmonisches Mittel
1
, , seien reelle Zahlen, alle >0
n
x x n .
Dann ist das harmonische Mittel x von
1
, ,
n
x x so definiert, da
1
1
1 1 1 1 1 1
n
n i
i
x n x x n x
=
1

= + + =


( )

.
Der reziproke Wert des harmonischen Mittels x ist das arithmetische Mittel der reziproken
Werte von
1
, ,
n
x x .
Typische Anwendungen des harmonischen Mittels:
a) Eine Rundstrecke der Lnge s wird n mal mit je-
weils konstanter Geschwindigkeit durchfahren, und
zwar die erste Runde mit der Geschwindigkeit
1
v ,
die zweite Runde mit der Geschwindigkeit
2
v etc.
Dann ist die Durchschnittsgeschwindigkeit definiert
als

Gesamtstrecke
,
Gesamtzeit
ns
v
t
= =
wobei
1 n
t t t = + + , und es gilt
1
1 1 1
n
i
i
v n v
=
=

,
d.h. die Durchschnittsgeschwindigkeit ist das harmonische Mittel von
1
, ,
n
v v .
b) Ein Konsument kauft beim Weinhndler n verschiedene
Weine in unterschiedlichen Mengen. Die Preise betra-
gen
1
, ,
n
p p (Euro je Liter), und die Mengen
1
, ,
n
q q
werden so gewhlt, da die Ausgaben fr jede Wein-
sorte gleich hoch sind:
i i
p q c = fr 1, , i n = . Dann
betrgt der Durchschnittspreis p

Gesamtkosten
Gesamtmenge
nc
p
q
= = ,
wobei
1 n
q q q = + + , und es gilt
1
1 1 1
n
i
i
p n p
=
=

d.h. der Durchschnittspreis ist das harmonische Mittel von
1
, ,
n
p p .
Runde Geschw. Zeit
1
1
v
1 1
t s v =
2
2
v
2 2
t s v =


n
n
v
n n
t s v =
Sorte Preis Menge
1
1
p
1 1
q c p =
2
2
p
1 2
q c p =


n
n
p
1 n
q c p =
16
3.7 Potenzmittel
1
, , seien reelle Zahlen, alle >0
n
x x n .
Dann ist das Potenzmittel der Ordnung r ( r < <+) von
1
, ,
n
x x definiert als
( )
1
1
1
r
r r
r n
M x x
n
l
l = + +
l
l
.
Es gilt:
( )
( )
( )
1
2 2
1
1
1
1
fr : max , , ;
1
fr 2: quadratisches Mittel;
1
fr 1: arithmetisches Mittel;
fr 0: geometrisches Mittel;
1 1 1 1
fr 1: , d.h. i
r n
r n
r n
n
r n
r
r n
r M x x
r M x x
n
r M x x
n
r M x x
r M
M n x x
+
= = + + =
= = + + =
=
1

= = + +


( )

( )
1
st das harmonische Mittel;
fr : min , , .
r n
r M x x
Falls alle
i
x gleich sind, d.h. falls
1 2 n
x x x x = = = = , so gilt
r
M x = fr beliebiges r.
Monotonie des Potenzmittels:
Fr r r < gilt
r r
M M <

, falls nicht alle
i
x gleich sind.
Insbesondere gilt also:
harmonisches Mittel < geometrisches Mittel < arithmetisches Mittel,
falls nicht alle
i
x gleich sind.
bungsaufgabe:
berprfen Sie die obigen Behauptungen anhand eines einfachen Datensatzes
1
, ,
n
x x mit
Hilfe von Maple (Computerprogramm fr Analysis, Algebra, Zahlentheorie, etc.).
17
3.8 Quantile
Quantile schneiden ein vorgegebenes Quantum einer Verteilung ab.
a) Stetiger Fall:
Wir nehmen hier an, da n gro ist, da eine feine Intervallbildung vorliegt, soda das
Histogramm wie eine stetige Funktion (Dichtefunktion) aussieht mit Gesamtflche 1.
Dann gilt:
1) Ze =50%-Quantil (halbiert das Histogramm);
2) Quartile zerlegen die Verteilung in Viertel:
1
1. Quartil Q = = 25%-Quantil (schneidet unteres Viertel der Verteilung ab);
2
2. Quartil Q = = 50%-Quantil (zerlegt die Verteilung in zwei Hlften,
2
Q Ze = );
3
3. Quartil Q = = 75%-Quantil (schneidet oberes Viertel der Verteilung ab).
3) Terzile
1 2
, T T zerlegen die Verteilung in Drittel.
4) Quintile zerlegen die Verteilung in Fnftel.
5) Perzentile (Prozentpunkte): schneiden einen bestimmten Prozentsatz der Verteilung
ab (z.B. 1%, 5%, 99%).
b) Definition der Quantile bei kleinem n:
Es gibt verschiedene Definitionen. Wir beschreiben hier die Definition nach Minitab.
Wir nehmen an, da die Urliste bereits geordnet vorliegt:
1 2
.
n
x x x
1) ( )
1
2
MA auf Platz 1 Ze n = + .
Beispiel: 4 n = , ( )
5 1
2 2
1 2.5 n+ = = , d.h. ( ) ( )
1 1
2 3 2 2 3
2 2
Ze x x x x x = + = + .
2) ( )
1
1
4
MA auf Platz 1 Q n = + .
Beispiel: 4 n = , ( )
5 1
4 4
1 1.25 n+ = = , d.h. ( ) ( )
1 1
1 1 2 1 1 2
4 4
3 Q x x x x x = + = + .
3) ( )
3
3
4
MA auf Platz 1 Q n = + .
Beispiel: 4 n = , ( )
3 15
4 4
1 3.75 n+ = = , d.h. ( ) ( )
3 1
3 3 4 3 1 4
4 4
Q x x x x x = + = + .
18
3.9 Schachtel-Diagramm (Box-Plot)
Beispiel:
X = Krpergre von 92 n = Studenten;
1
, ,
n
x x MA von X (geordnet nach Gre);
( )
( )
1
3
1 1
1
1
175
168
183
min , , 155
max , , 206
191.
n
n n
n
Ze
Q
Q
x x x
x x x
x

=
=
=
= =
= =
=

Dann hat das Schachtel-Diagramm die folgende Form:


Beachte:
1. Die zentrale Schachtel erstreckt sich von
1
Q bis
3
Q ; der Zentralwert ist markiert durch
einen senkrechten Strich.
2. Der normale Streubereich erstreckt sich von

1 3 3 1
1.5 bis 1.5 , wobei Q d Q d d Q Q + = .
In unserem Beispiel ist
3 1
15 d Q Q = = und somit
1
1.5 168 22.5 145.5 Q d = = und
3
1.5 183 22.5 205.5 Q d + = + = . Somit liegt der grte Wert 206
n
x = nicht mehr im
normalen Streubereich, und er wird daher als mglicher Ausreier einzeln markiert. Alle
brigen Werte liegen im normalen Streubereich, und dies wird im Schachteldiagramm
dargestellt durch die beiden Linien von
1
155 x = bis
1
Q sowie von
3
Q bis
2
191
n
x

= .
Bemerkungen:
1) Das Schachteldiagramm wird auch als Fnf-Punkte-Diagramm bezeichnet, weil die fol-
genden fnf wichtigen Mazahlen abgelesen werden knnen:
( )
1
min , ,
n
x x ,
1
Q , Ze,
3
Q , ( )
1
max , ,
n
x x .
Das Schachteldiagramm informiert also nicht blo ber die Lage der Verteilung (Ze,
1
Q ,
3
Q ), sondern auch ber die Streuung:
Quartilsabstand
3 1
Q Q = ;
Spannweite ( ) ( )
1 1
min , , max , ,
n n
x x x x = .
2) Die Wahl des Faktors 1.5 fr die Festlegung des normalen Streubereichs ist nicht zwin-
gend vorgeschrieben. Im Falle einer Normalverteilung (vgl. Wahrscheinlichkeitsrechung)
hat der normale Streubereich bei Wahl dieses Faktors eine Wahrscheinlichkeit von 0.007.
210 200 190 180 170 160 150
19
4. Verteilungsmazahlen: Streuungsmae
Streuung: Liegen die MA eng beieinander (kleine Streuung) oder weit auseinander (groe
Steuung)?
4.1 Spannweite (range)
1
, ,
n
x x MA von X;
( )
1
min , ,
n
m x x = ;
( )
1
max , ,
n
M x x = .
Dann ist die Spannweite (range) von X definiert als R M m = .
Bemerkung:
Die Spannweite R ist einfach zu verstehen und zu berechnen, sie bercksichtigt jedoch nur die
beiden Extremwerte M und m und reagiert somit empfindlich auf Ausreier, d.h. sie ist keine
robuste Mazahl.
4.2 Quartilsabstand
1
3
unteres Quartil;
oberes Quartil.
Q
Q
=
=
Dann heit
3 1
d Q Q = der Quartilsabstand.
Bemerkungen:
1) Innerhalb des Intervalls [ ]
1 3
, Q Q befinden sich 50 % aller MA.
2) Der Quartilsabstand ist ein einfach zu verstehendes Steuungsma, und er ist weniger aus-
reisserempfindlich als die Spannweite, d.h. er ist ein robusteres Streuungsma.
4.3 Giniabstand
Der Giniabstand ist der durchschnittliche paarweise Abstand zwischen den MA.
1
, ,
n
x x MA von X;
ij i j
d x x = = Abstand zwischen den MA
i
x und
j
x ;
Anzahl der Paare ( ) , i j mit i j < :
( ) 1
2
n n
.
Dann ist der Giniabstand
G
definiert als
( )
alle Paare
1 2
Anz.Paare 1
G ij ij
i j
d d
n n
<
= =


.
20
Beispiel:
5; 1, 4, 4, 7, 9
i
n x = =
Abstandstabelle:
j
i
x
x
1 4 4 7 9
1 * 3 3 6 8 20
4 * * 0 3 5 8
4 * * * 3 5 8
7 * * * * 2 2
9 * * * * * 0
38
Bemerkungen:
1) Der Giniabstand ist wie die Spannweite ein einfaches und natrliches Streuungsma. Im
Gegensatz zur Spannweite gehen smtliche MA in die Berechnung ein. Wie die Spann-
weite ist aber auch der Giniabstand kein robustes Streuungsma.
2) Es besteht ein funktionaler Zusammenhang zwischen dem Giniabstand und dem Kon-
zentrationsma von Lorenz (-Mnzner). Siehe unten.
4.4 Durchschnittlicher Abstand von einem Mittelwert
1
, ,
n
x x MA von X;
x = arithmetisches Mittel von X;
Ze = Zentralwert von X.
Mgliche Streuungsmae:
( )
1
1
n
i
i
DA x x x
n
=
= =

durchschnittlicher Abstand von x ;


( )
1
1
n
i
i
DA Ze x Ze
n
=
= =

durchschnittlicher Abstand vom Ze;


( )
1
1
n
i
i
DA a x a
n
=
= =

durchschnittlicher Abstand von ( ) a a .


Minimumseigenschaft des Zentralwerts:
( ) ( ) fr jedes DA Ze DA a a .
Bemerkungen:
a) Falls n ungerade, so ist die Minimalstelle eindeutig: Minimalstelle mittlere MA =Ze = .
b) Falls n gerade, so ist die Minimalstelle nicht eindeutig.
Beispiel: 6 n = ; mittlere MA:
3 4
und x x ; jedes a mit
3 4
x a x liefert das Minimum.
Zentralwert der Abstnde vom Zentralwert:
1
, ,
n
x x MA von X;
1 3
, , Q Ze Q Quartile von X.
Wir setzen voraus, da ( )
1
1 3
2
Ze Q Q = + und es sei ( )
1
3 1
2
D Q Q = .
Dann gilt: Der Zentralwert der Abstnde vom Zentralwert ist D.
An den Positionen mit * ist i j . Die An-
zahl der Paare ( ) , i j mit i j < betrgt hier
( ) 1
5 4
10
2 2
n n

= = , und es ist 38
ij
i j
d
<
=

;
somit betrgt der Giniabstand
38
3.8
10
G
= = .
21
Begrndung:
i i
y x Ze = = Abstand der MA
i
x vom Zentralwert;
fr 50 % der UE gilt:
1 3
, d.h.
i i
Q x Q y D < < < ;
fr die brigen 50 % der UE gilt:
1 3
oder , d.h.
i i i
x Q x Q y D < > > .
Somit ist der Zentralwert der MA
1
, ,
n
y y gleich D.
(Wir nehmen bei dieser Begrndung an, da 4 n eine ganze Zahl ist und da die Quartile
1
Q
und
3
Q nicht mit einer der Merkmalsausprgungen
1
, ,
n
x x zusammen fallen.)
Allgemeine Definition der Quantile durch eine Minimumseigenschaft:
1
, ,
n
x x seien die MA von X (geordnet nach Gre), und weiter sei 0 1 p < < . Wir wollen
das Quantil
p
Q definieren durch eine Minimumseigenschaft (analog zur Minimumseigen-
schaft des Zentralwerts). Es sei
( ) ( ) ( ) ( ) 1
i i
i i
x a x a
S a p a x p x a
< >
= + =

gewogene Summe der Abstnde von a.
Nun soll
min
a a = so gewlt werden, da ( )
min
min S a = . Dann definieren wir
min p
Q a = .
Die neue Definition von
p
Q stimmt im Falle von
1
2
p = (Zentralwert) und
1
4
p = (1. Quartil)
mit unseren bisherigen Definitionen nur in den folgenden Fllen berein:
beim Zentralwert, falls n ungerade ist;
beim 1. Quartil
1
Q , falls 4 1, 1, 2, n k k = =
bungsaufgabe:
berprfen Sie die Minimumseigenschaft von
1
Q anhand eines einfachen Datensatzes
1
, ,
n
x x mit Hilfe von Maple.
Fr
1
2
p = (Zentralwert) erhalten wir:
n
min
a
1 min 1
a x =
2 [ ]
min 1 2
, a x x
3 min 2
a x =
4 [ ]
min 2 3
, a x x
5 min 3
a x =

Fr
1
4
p = (1. Quartil
1
Q ) erhalten wir:
n
min
a
1,2,3
min 1
a x =
4
[ ]
min 1 2
, a x x
5,6,7
min 2
a x =
8
[ ]
min 2 3
, a x x
9,10,11
min 3
a x =

22
4.5 Varianz, Standardabweichung und Variationskoeffizient
1
, ,
n
x x MA von X;
x = arithmetisches Mittel von X;
i
x x = absolute Abweichung von x ;
( )
2
i
x x = quadratische Abweichung von x ;
x = arithmetisches Mittel von X.
Varianz von X:
( )
2
2
1
1
durchschnittliche quadratische Abweichung von
n
i
i
s x x x
n
=
= =

.
Standardabweichung von X:
( )
2
1
1
Wurzel aus der Varianz (positive Wurzel)
n
i
i
s x x
n
=
= =

.
Variationskoeffizient von X
Voraussetzung: alle 0
i
x > (dann ist auch 0 x > )
s
x
= Variationskoeffizient von X
Zur Dimension unserer bisherigen Mazahlen:
X = Krpergre in cm bzw. Einkommen in DM
Mazahl K.gre Einko.
i
x cm DM
, , , x Ze Mo cm DM
Spannweite cm DM
( ) DA a cm DM
2
s
2
cm (!)
2
DM (!)
s cm DM
s x
dim.los (!) dim.los (!)
Bemerkungen:
a) Die Varianz (= durchschnittliche quadratische Abweichung) besitzt eine mathematisch
einfache Definition, aber eine unnatrliche Dimension; sie ist daher als Streuungsma
nicht einfach zu interpretieren.
b) Die Standardabweichung (= Wurzel aus der Varianz) besitzt die gleiche Dimension wie
die ursprnglichen MA
1
, ,
n
x x . Die Definition allein ermglicht jedoch noch keine ein-
fache Interpretation der Standardabweichung als Streuungsma.
c) Der Variationskoeffizient ist eine dimensionslose Gre. Er ermglicht dimensionsunab-
hngige Streuungsvergleiche (siehe unten).
23
4.6 Ungleichung von Tschebyscheff; Interpretation der Standardabweichung
Die Ungleichung von Tschebyscheff (1821-1994) ermglicht eine einfache Interpretation der
Standardabweichung als Streuungsma.
1
, ,
n
x x MA von X;
x = arithmetisches Mittel von X;
2
s = Varianz von X;
s = Standardabweichung von X;
( )
1
Anzahl der UE, welche ihre MA im Intervall , haben, wobei 1 n x cs x cs c = + > .
Dann gilt die Ungleichung von Tschebyscheff:
1
2
1
1
n
n
c
.
Beachte:
c
2
1 1 c
1 < 0 <
1 0
2 0.75
3 0.89
Beweis der Ungleichung von Tschebyscheff:
Gegeben:
2
, 0, 1 x s c > > .
Es sei
1 1 1
2 2 2
Teilgesamtheit aller UE mit ; Anzahl der UE in ;
Teilgesamtheit aller UE mit ; Anzahl der UE in .
i
i
G x x cs n G
G x x cs n G
= < =
= =
Dann gilt
( ) ( ) ( )
( )
1 2
2 2 2
2
1
2
1 1
0 2
n
i i i
i i G i G
s x x x x x x
n n
n cs
=
l
l
= = +
l
l
l



,
und daraus folgt
2 2 2 2 2
2
1
d.h.
n n
s c s
n n
c

und da
1 2
n n n + = , so ist
2 1
1 n n n n = und wir erhalten
1
2
1
1
n
n
c
.
Bemerkung:
In der Wahrscheinlichkeitsrechnung werden wir die Ungleichung von Tschebyscheff wieder-
um antreffen bei der Interpretation der Standardabweichung einer Zufallsgre.
Fr 1 c wird
2
1 1 0 c , und die Ungleichung
von Tschebyscheff ist dann trivial.
24
4.7. Verschiebungssatz; Minimumseigenschaft des arithmetischen Mittels
1
, ,
n
x x MA von X; x = arithmetisches Mittel von X; a .
Dann gilt (Verschiebungssatz von Steiner):
( ) ( ) ( )
2 2 2
1 1
n n
i i
i i
x a x x n x a
= =
= +

(a wird nach x verschoben, daher: Verschiebungssatz).
Beweis:
Es gilt
( ) ( ) ( )
( )
2 2
2 2
1 1 1
2
n n n
i i
i i i
x a x x x a c cd d
c d
= = =
l
= + = + +
l


.
Nun ist
( ) ( )
( )( ) ( ) ( )
2 2
2 2
1 1 1
1 1 1
, ,
2 2 2 0,
0
n n n
i
i i i
n n n
i i
i i i
c x x d n x a
cd x x x a x a x x
= = =
= = =
= =
= = =
=

und damit ist der Verschiebungssatz bewiesen.


Beachte:
Fr das arithmetische Mittel x gilt
( )
1 1
0
n n
i i
i i
x x x nx
= =
= =

,
d.h. die Summe der Abweichungen vom arithmetischen Mittel ist stets null.
Folgerungen aus dem Verschiebungssatz:
1) Minimumseigenschaft des arithmetischen Mittels
1
, ,
n
x x MA von X;
x = arithmetisches Mittel von X;
2
s = Varianz von X;
a ;
( ) ( )
2
1
1
n
i
i
DQA a x a
n
=
= =

durchschnittliche quadratische Abweichung von a.


Dann gilt:
( ) ( ) fr DQA a DQA x a x > .
Die durchschnittliche quadratische Abweichung wird also minimal fr a x = , und dann
ist ( ) ( )
2
DQA a DQA x s = = (Minimumseigenschaft des arithmetischen Mittels). Die
Minimalstelle ist stets eindeutig.
Beachte:
( ) DQA a wird minimal falls ( ) 0
i
x a =

, d.h. falls a x = . Eine analoge Eigenschaft


werden wir antreffen bei der Methode der kleinsten Quadrate in der Regressionsrechung
(siehe unten).
25
Beweis der Minimumseigenschaft:
Aus dem Verschiebungssatz folgt:
( ) ( ) ( )
2
0 fr
fr beliebiges
a x
DQA a DQA x x a a
>
= +

,
und damit ist die Minimumseigenschaft bewiesen.
2) Andere Formel fr die Varianz:
Aus dem Verschiebungssatz folgt:
( ) ( ) ( )
2 2 2
1 1
2
1 1
fr beliebiges
n n
i i
i i
x a x x x a a
n n
s
= =
= +
=

.
Wir whlen 0 a = und erhalten die Formel
2 2 2
1
1
n
i
i
s x x
n
=
=

.
Es gilt also
( )
2 2 2 2
1 1
1 1
n n
i i
i i
s x x x x
n n
= =
= =

.
Bemerkung:
a) Die zweite Formel (Lehrbuchformel) ermglicht eine einfache
Form zur Berechnung der Varianz, wie sie auch beim Taschen-
rechner verwendet wird (nur zwei saldierende Speicher):
2 2
1 1
und
n n
x S s Q x = = (vgl. nebenstehende Tabelle).
b) Die zweite Formel kann numerisch instabil werden, wenn die
MA
1
, ,
n
x x gro sind (numerische Auslschung).
4.8. Varianzzerlegung bei Schichtbildung
Eine statistische Gesamtheit { }
1 2
, , ,
n
G e e e = sei zerlegt in k (disjunkte) Teilgesamt-
heiten
1
,
k
G G mit den Umfngen
1
, ,
k
n n (
1 k
n n n + + = ). X sei ein (quantitatives)
UM und es sei
( )
2
2
arithmetisches Mittel in ;
Varianz in ;
arithmetisches Mittel in ;
Varianz in 1, , .
j j
j j
x G
s G
x G
s G j k
=
=
=
= =
Dann gilt
1
2
1
(vgl. oben),
,
k
j j
j
x n x
n
s A B
=
=
= +

wobei
( )
2
1
1
1
(Varianzkomponente der Teilgesamtheiten)
1
(Varianzkomponente den Teilgesamtheiten).
k
j j
j
k
j j
j
A n s innerhalb
n
B n x x zwischen
n
=
=
=
=

i
i
x
2
i
x
1
1
x
2
1
x

n
n
x
2
n
x
S Q
j j
G
j
n
j
x
2
j
s
1
1
G
1
n
1
x
2
1
s

k
k
G
k
n
k
x
2
k
s
n
26
4.9. Lineare Transformationen
1
, ,
n
x x MA von X;
2
und arithmetisches Mittel und Varianz von
X
x s X .
Neues UM Y definiert als
( )
2
, d.h. , 1, , , , ;
und arithmetisches Mittel und Varianz von .
i i
Y
Y a bX y a bx i n a b
y s Y
= + = + =
.
Dann gilt
2 2 2
,
,
.
Y X
Y X
y a bx
s b s
s b s
= +
=
=
Anwendungen:
1) Hilfspunktmethode:
Durch eine lineare Transformation knnen numerisch ungnstige MA so transformiert
werden, da numerische Probleme reduziert werden (z.B. numerische Auslschung).
2) Variationskoeffizient ist skalenunabhngig:
( )
2
, alle MA von positiv 0 ;
und arithmetisches Mittel und Varianz von ;
, wobei 0 (Skalennderung mit Umrechnugsfaktor 0).
X
X UM X x
x s X
Y bX b b
= >
= > >
Dann gilt
Var.koeff. von Var.koeff. von
Y X X
y bx x
Y X
s bs s
= = = = ,
d.h. der Variationskoeffizient ist unabhngig vom Umrechnungsfaktor b. Der Variations-
koeffizient ist ein dimensionsunabhngiges Streuungsma.
3) Standardisierung eines UM:
2
, und arithmetisches Mittel und Varianz von ;
(Lineartransformation von ).
X
X
X UM x s X
X x
Z X
s
=

=
Dann gilt
2
0 und 1
Z
z s = = .
Jedes UM X kann also durch eine Lineartransformation in ein standardisiertes UM ber-
gefhrt werden, d.h. in ein neues UM Z, fr welches das arithmetische Mittel 0 z = und
die Varianz
2
1
Z
s = ist.
Bemerkungen zur Standardisierung:
a) Bei der Standardisierung tritt kein Informationsverlust auf; man kann das neue UM Z
zum ursprnglichen UM X zurcktransformieren: mit ,
X
X a bZ a x b s = + = = .
b) Die MA
i
z des standardisierten UM Z sind dimensionslose Gren (wie der Variati-
onskoeffizient). Sie ermglichen dimensionslose Vergleiche.
Beispiel:
z-Wert (z-score) beim Weitsprung: 1.3
z-Wert (z-score) beim Hochsprung: 2.7.
Dann ist die Leistung im Hochsprung besser als im Weitsprung.
27
4.10 Berechnung der Varianz bei Hufigkeitstabellen
Daten als Urliste:
i
e
i
x
1
e
1
x

n
e
n
x
( )
1
2 2 2 2
1 1
1
1 1
n
i
i
n n
i i
i i
x x
n
s x x x x
n n
=
= =
=
= =


Daten als Hufigkeitstabelle (ohne Intervallbildung):
j
j
a
j
h
1
1
a
1
h

k
k
a
k
h
n
( )
1
2
2 2 2
1 1
1
1 1
k
j j
j
k k
j j j j
j j
x h a
n
s h a x h a x
n n
=
= =
=
= =


Bemerkung:
a) Bei Hufigkeitstabellen ohne Intervallbildung tritt kein Informationsverlust, d.h. die Urli-
ste ist aufgrund der Hufigkeitstabelle rekonstuierbar (bis auf die Reihenfolge).
b) Bei Hufigkeitstabellen mit Intervallbildung tritt jedoch ein Informationsverlust auf, und
unsere Mazahlen x und
2
X
s knnen nicht mehr exakt berechnet werden. Fr das arith-
metische Mittel haben wir oben eine Nherungsformel und exakte Schranken angegeben.
Fr die Varianz ist es umstndlicher, exakte Schranken anzugeben (Varianzzerlegung bei
Schichtbildung).
4.11 Weitere Mazahlen
Bisher:
Lagemae, Mittelwertsmae ( , , , x Ze Mo )
Streuungsmae, Dispersionsmae (
2
, , ,
G
R s )
Weitere Mazahlen:
Schiefemae (symmetrisch oder schief?)
Wlbungsmae (breiter oder spitzer Buckel?)
zentrale Momente:
( )
( )
( )
1
1
1
2
2
1
1
, 1, 2,
1
0
1
Varianz von .
n
k
k i
i
n
i
i
n
i
i
M x x k
n
M x x
n
M x x X
n
=
=
=
= =
= =
= =

28
5. Konzentrationsmessung
5.1 Lorenzkurve
{ }
1
, , statistische Gesamtheit;
extensives UM.
=
=

n
G e e
X
Frage: Ist die gesamte Merkmalssumme gleichmssig auf alle UE verteilt (keine Konzentra-
tion) oder ist sie auf wenige UE konzentrierrt (hohe Konzentration).
Lorenzkurve:
Daten als Hufigkeitstabelle (ohne Intervallbildung):
j
j
a
j
h
j
f
j
u
j
S
j
S S
j
v
1
1
a
1
h
1
f
1
u
1
S
1
S S
1
v

k
k
a
k
h
k
f
k
u
k
S
k
S S
k
v
n 1 S 1
Wir nehmen an, da
1 2
< < <
k
a a a (MA nach Gre geordnet).
Berechne:
( ) ( )
( )
( )
1
1
1
1
kumulierte relative Hufigkeit in Klasse 1, , ;
Merkmalssumme in Klasse 1, , ;
gesamte Merkmalssumme;
1
kumulierte relative Merkmalssumme in Klasse 1
= + + = =
= = =
= + + =
= + + = =

j j
j j j
k
j j
u h h j j k
n
S h a j j k
S S S
v S S j j
S
( ) , , . k
Dann ist die Lorenzkurve der Streckenzug durch die Punkte
( ) ( )
( )
( ) ( )
0 0 0
1 1 1
, 0, 0
,
, 1,1 .
= =
=
= =

k k k
P u v
P u v
P u v
Eigenschaften der Lorenzkurve:
a) Die Lorenzkurve ist stets konvex.
b) Falls alle UE die gleiche MA besitzen (keine Konzentration), so ist die Lorenzkurve eine
Gerade von ( )
0
0, 0 = P nach ( )
1
1,1 = P (Gleichverteilungsgerade).
c) Falls eine UE die gesamte Merkmalssumme S besitzt und alle brigen UE die MA 0 ha-
ben (maximale Konzentration), so verluft die Lorenzkurve durch die drei Punkte
( )
0
0, 0 = P ,
1
1
, 0
1

=


( )
n
P
n
und ( )
2
1,1 = P (Kurve zu maximaler Konzentration).
29
5.2 Konzentrationsma von Lorenz (-Mnzner)
Es sei
Flche zwischen der Lorenzkurve und der Gleichverteilungsgeraden = F ;
max
Flche zwischen der Lorenzkurve und der Kurve zu maximaler Konzentration. F =
Dann ist das Konzentrationsma von Lorenz (-Mnzner) definiert als
max
=
F
K
F
.
Es gilt:
0 1;
0 : keine Konzentration (alle UE haben die gleiche MA);
1: maximale Konzentration (einer hat alles, alle brigen haben nichts).

=
=
K
K
K
5.3 Zusammenhang zwischen Konzentrationsma und Gini-Abstand
= X extensives UM (alle MA 0 , 0 > x );
1
, ,
n
x x MA von X;
G
= Giniabstand (durchschnittlicher paarweiser Abstand;
= K Konzentrationsma nach Lorenz.
Dann gilt:
G
2

= K
x
.
Bemerkung:
Das Konzentrationsma K ist also ein relatives Streuungsma (wie der Variationskoeffi-
zient). Man nennt K daher auch den Gini-Koeffizienten.
Beweisskizze:
o
1 Berechnung von K aus Daten der Urliste:
Wir setzen voraus, da
1 2

n
x x x ; weiter sei
1
Summe aller MA
n
S x x = + + = ;
( )
1
1
= + + =
i i
v x x
S
kumulierte relative Merkmalssumme ( 1, , = i n );
1
= + +
n
V v v .
Dann gilt:
( )
1
1 2
1
= +

K n V
n
.
o
2 Der Gini-Abstand kann geschrieben werden als
( )
( )
G
2
1 2
1
S
n V
n n
= +

:
o
3 Da x S n = , so erhalten aus
o
1 und
o
2
( )
G
1
1 2
2 1
n V K
x n

= + =

,
was zu beweisen war.
30
6. Kontingenztabellen
6.1 Kontingenztabellen
{ }
( )
( )
1
1
1
, , statistische Gesamtheit;
, zweidimensionales UM ( , beide qualitativ);
, , die verschiedenen MA von ;
, , die verschiedenen MA von ;
Klasse , Gesamtheit aller UE mit Merkmals
n
k
G e e
X Y X Y
a a X
b b Y
i j
=
=
/

( )
( )
( )
( )
kombination ,
1, , ; 1, , ;
absolute Hufigkeit der Klasse , ;
relative Hufigkeit der Klasse , ;
i j
ij
ij
a b
i k j
h i j
f i j
= =
=
=
/
Kontingenztabelle (mit absoluten Hufigkeiten):
Y
X
1
b
j
b b
/
1
a
11
h
1 j
h
1
h
/ 1
h
-
. . . . .
i
a
1 i
h
ij
h
i
h
/ i
h
-
. . . . .
k
a
1 k
h
kj
h
k
h
/ k
h
-
1
h
- j
h
-
h
-/
n
Marginalverteilung (Randverteilung) von X:
eindimensionale Verteilung von X (rechte Randspalte);
Marginalverteilung (Randverteilung) von Y
eindimensionale Verteilung von Y (untere Randzeile);
Bedingte Verteilung von X gegeben
j
Y b = :
Verteilung von Y in der Teilgesamtheit der UE mit
j
Y b = (Spalte j);
Bedingte Verteilung von Y gegeben
i
X a = :
Verteilung von X in der Teilgesamtheit der UE mit
i
X a = (Zeile i).
6.2 Zusammenhangsmae (Assoziationsmae)
6.2.1 Unabhngigkeit
X unabhngig von Y:
alle bedingten Verteilungen von X gegeben
j
Y b = sind gleich ( 1, , j = / );
Y unabhngig von X:
alle bedingten Verteilungen von Y gegeben
i
X a = sind gleich ( 1, , i k = ).
Dabei heien zwei Verteilungen gleich, wenn die entsprechenden relativen Hufigkeiten
gleich sind.
31
Satz:
Wenn X unabhngig ist von Y, dann ist auch Y unabhngig von X (und umgekehrt),
und es gilt das Unabhngigkeitskriterium
(UK) fr 1, , und 1, ,
i j
ij
h h
h i k j
n
= = =
- -
/ .
Die Unabhngigkeit ist also eine symmetrische Beziehung, und es gilt:
, unabhngig alle bedingten Verteilungen von gegeben sind gleich;
alle bedingten Verteilungen von gegeben sind gleich;
das Unabhngigkeitskriterium (UK) ist erfllt.
X Y X Y
Y X

6.2.2 Vollstndige Abhngigkeit


1) Quadratische Tabellen: k = /
Y
X
1
b
2
b
3
b
1
a 0 0
2
a 0 0
3
a 0 0
n
2) Rechteckige Tabellen mit k < /
Y
X
1
b
2
b
3
b
1
a 0 0
2
a 0
n
3) Rechteckige Tabellen mit k > /
Y
X
1
b
2
b
1
a 0
2
a 0
3
a 0
n
6.2.3 Quadratische Kontingenz
X, Y unabhngig: fr alle , , wobei
i j
ij ij ij
h h
h e i j e
n
= =
- -
;
die sogenannten Unabhngigkeitszahlen
ij
e sind nicht notwendigerweise ganzzahlig;
X, Y abhngig: ( ) fr mindestens eine Kombination ,
ij ij
h e i j .
Quadratische Kontingenz (Chi-Quadrat-Assoziationsma):
( )
2
2
,
, wobei
i j ij ij
ij
ij
i j
h h h e
e
e n


= =

- -
.
Es gilt:
2
0 , , unabhngig
ij ij
h e i j X Y = = .
X, Y vollstndig abhngig, falls in jeder Zeile
und Spalte nur ein Feld besetzt ist, d.h. falls zu
jeder MA von X nur eine MA von Y gehrt und
umgekehrt.
X vollstndig abhngig von Y, falls in jeder
Spalte nur ein Feld besetzt ist, d.h. falls zu jeder
MA von Y nur eine MA von X gehrt.
Y vollstndig abhngig von X, falls in jeder
Zeile nur ein Feld besetzt ist, d.h. falls zu jeder
MA von X nur eine MA von Y gehrt.
32
Maximaler Wert von
2
? Es gilt:
( )
( )
2
2
min 1, 1 ;
min 1, 1 vollstndig abhngig von (oder umgekehrt)
n k
n k X Y
/
/


=
Beweis (vgl. Cramr, 1945, Mathematical Methods of Statistics, S. 282):
o
1 Die Gre
2
kann auch geschrieben werden als
2 2
2
, ,
( 1) mit
ij ij
ij i j
i j i j
h h
n n Q Q
e h h
- -
= = =

o
2 Es gilt:
( )
2
2
, ,
2
, 1 ,
,
1 .
ij
ij i
i
ij ij
i j j
ij ij
i j j
i j i j
h
h h i j i j
h
h h
i j
h h h
h h
Q
h h h
n
-
-
- - -
- - -
/

/
/


= =
=


Analog folgt aus der Ungleichung
ij j
h h
-
die Ungleichung ( )
2
1 n k , und somit
gilt: ( )
2
min 1, 1 n k / .
o
3 Es sei k / und Y vollstndig abhngig von X, d.h. in jeder Zeile der Kontingenztabelle
sei nur ein Feld besetzt. Dann gilt entweder 0
ij
h = oder
ij i
h h =
-
und somit

2
,
ij ij
i j j
h h
i j
h h h
=
- - -
;
damit folgt wie unter
o
2 die Beziehung ( )
2
1 n = / . Im Fall k / ist alles analog.
o
4 Es sei k / und ( )
2
1 n = / . Dann folgt wie unter
o
2 die Beziehung

2
,
ij ij
i j j
h h
i j
h h h
=
- - -
,
und daraus folgt entweder 0
ij
h = oder
ij i
h h =
-
, d.h. in jeder Zeile ist nur ein Feld be-
setzt, und somit ist Y vollstndig abhngig von X. Im Fall k / ist alles analog.
Kontingenzma nach Cramr:
( )
2 2 2
max max
, wobei min 1, 1 . V n k l = =
Es gilt:
2
2 2
max
0 1;
0 0 , unabhngig;
1 , vollstndig abhngig.
V
V X Y
V X Y



= =
= =
33
6.2.4 Zur Normierung von
2
:
1) Mittlere quadratische Kontingenz:
2
n ;
Phi-Koeffizient:
2
n = .
Fr Tabellen vom Format 2 2 , 2/ und 2 k ist die Normierung des Wertebereichs
auf das Intervall [ ] 0,1 korrekt, da dann ( ) min 1, 1 1 k = / . Es gilt dann V = .
2) Kontingenzma nach Tschuprov:
( )( )
2
1 1
T
n k

=
/
.
Die Normierung ist korrekt fr quadratische Tabellen mit k = / , da dann
( )( ) ( ) 1 1 min 1, 1 1 k k k = = / / . Es gilt dann T V = .
3) Kontingenzma nach Pearson:
2
2
K
n

=
+
.
Es gilt: 0 1 K < und ( )
2
max
max
2
max
1
, wobei min ,
M
K M k
M
n

= = =
+
/ .
Somit ist dann
*
max
K
K
K
= ein normiertes Kontingenzma.
*
K ist jedoch nicht quiva-
lent zu V, wie das folgende Beispiel zeigt:
2 2 -Tabelle:
1 2 3
2 1 3
3 3 6
Die Definition von V ist einfacher und natrlicher als die Definition von
*
K , und daher
sollte man auf das umstndliche Kontingenzma
*
K verzichten zu Gunsten von V.
6.2.5 Vierfelder-Tafeln ( 2 k = = / )
Allgemeine Notation:
1
b
2
b
1
a
11
h
12
h
1
h
-
2
a
21
h
22
h
2
h
-
1
h
- 2
h
-
n
Es gilt:
( )
2
2
ad bc
n
e f g h


=
- - -
,
2
0 n .
Weitere Kontingenzmae bei Vierfelder-Tafeln:
Yule-Koeffizient:

ad bc
Q
ad bc

=
+
; 1 1 Q + ; 0 , unabhngig Q X Y = .
Kreuzprodukt-Verhltnis (Odds Ratio):

ad
bc
= ; 0 ; 1 , unabhngig X Y = .
Hier gilt:
2 2
3
= und somit
2 1 1
9 3
V n = = = ;
und weiter
2
1
10 2
K
n

= =
+
,
1
max
2
1 M
K
M

= = ,
und somit ist
( )
* 1 1
5 3
max
0.447 0.333 .
K
K V
K
= = = = = .
Einfachere Notation:
a b e
c d f
g h n
34
7. Regression und Korrelation
7.1 Einfhrung
{ }
( )
1
, , statistische Gesamtheit;
, zweidimensionales UM; , beide quantitativ;
n
G e e
X Y X Y
=
Urliste:
i
e
i
x
i
y
1
e
1
x
1
y

n
e
n
x
n
y
Frage: Besteht ein Zusammenhang zwischen X und Y?
Streuungsdiagramm (scatter plot):
Darstellung der n Punkte ( ) , , 1, ,
i i
x y i n = , im kartesischen Koordinatensystem.
Mit Minitab: c1; c2; plot c1 c2
i i
x y .
7.2 Regressionsgeraden, Methode der kleinsten Quadrate
Ziel: Gerade so ins Streuungsdiagramm legen, da sie mglichst gut passt.
y a bx = + Geradengleichung;

i i
y a bx = + , d.h. ( ) ,
i i
x y liegt auf der Geraden (
i
y = "Idealwert" bei gegebenem
i
x );

i i i
e y y = = Abweichung von der Geraden;
Methode der kleinsten Quadrate, KQ-Methode (least squares):
Gerade so legen, d.h. a, b so whlen, da
2
1
min
n
i
i
e
=
=

.
Andere Mglichkeiten:
min
i
e =

(Methode der kleinsten Betrge,


1
-Norm L );
Abstnde orthogonal zur Geraden messen (Orthogonale Regression, Hauptkomponenten-
methode).
Vorteile der klassischen KQ-Methode:
1) mathematisch einfach;
2) quivariant bei Lineartransformationen der UM.
Optimale Gerade zur Regression von Y bezglich X (nach der klassichen KQ-Methode):
y a bx = + , wobei
2
,
XY
X
s
b a y bx
s
= = .
Dabei ist
XY
s die Kovarianz zwischen X und Y, definiert als
( )( )
1 1
1 1
n n
XY i i i i
i i
s x x y y x y x y
n n
= =
= =

.
35
Optimale Gerade zur Regression von X bezglich Y:
x a b y

= + Geradengleichung;

i i
x a by = + , d.h. ( ) ,
i i
x y liegt auf der Geraden (
i
x = "Idealwert" bei gegebenem
i
y );

i i i
e x x

= = Abweichung von der Geraden;


KQ-Methode: Gerade so legen, d.h. , a b

so whlen, da ( )
2
1
min
n
i
i
e
=

.
Lsung:
2
,
XY
Y
s
b a x b y
s

= = .
Bemerkung:
Falls
2
0
X
s = , so gilt
1 n
x x = = und damit auch 0
XY
s = . Die Frage nach der Ab-
hngigkeit des Merkmals Y von X ist dann nicht sinnvoll, da ja alle MA von X gleich
sind! Das Analoge gilt, falls
2
0
Y
s = . Wir werden daher in diesem Kapitel stets voraus-
setzen, da
2
0
X
s > und
2
0
Y
s > .
Minimale Quadratsumme:
Fr die optimale Gerade zur Regression von Y bzgl. X gilt:
( )
2 2 2
1
1
1
n
i Y
i
e s r
n
=
=

.
Fr die optimale Gerade zur Regression von X bzgl. Y gilt:
( ) ( )
2
2 2
1
1
1
n
i X
i
e s r
n
=

.
Dabei ist r der Korrelationskoeffizient (nach Bravais-Pearson) zwischen X und Y, defi-
niert als

( )
2 2
Vor: 0, 0
XY
XY X Y
X Y
s
r r s s
s s
= = > > .
Folgerungen:
1)
2
1 r , d.h. 1 1 r + , denn
2
0
i
e

.
2) ( )
2
2 2
1 0 alle Punkte liegen auf einer Geraden
i i
r e e

= = =

.
7.3 Weiter Eigenschaften der Regressionsgeraden und des Korrelationskoeffizienten
Allgemeine Voraussetzung:
2
0
X
s > und
2
0
Y
s > .
1) Standardisierte Form der Regressionsgeraden:
Falls X, Y standardisiert, d.h. 0 x y = = und
2 2
1
X Y
s s = = , so gilt:
a)
XY
XY XY
X Y
s
r r s
s s
= = =
b) Gerade zur Regression von Y bzgl. X:
y a bx = + , wobei
2
XY
XY
X
s
b s r
s
= = = und 0 a y bx = = ,
d.h. die Regressionsgerade hat die Gleichung: y r x = .
36
c) Gerade zur Regression von X bzgl. Y:
x a b y

= + , wobei
2
XY
XY
Y
s
b s r
s

= = = und 0 a x by

= = ,
d.h. die Regressionsgerade hat die Gleichung: x r y = .
Die beiden Geraden sind gleich, falls 1 r = + oder 1 r =
2) Schnittpunkt der beiden Regressionsgeraden:
Beide Regressionsgeraden verlaufen durch den Punkt ( ) , x y . Wenn die beiden Geraden
verschieden sind, so ist ( ) , x y der Schnittpunkt.
3) Spezialfall: X,Y unkorreliert:
Falls 0
XY
s = , d.h. 0 r = , so heien die beiden Merkmale X,Y unkorreliert. Dann gilt:
Gerade zur Regression von Y bzgl. X:
y a bx = + , wobei
2
0
XY
X
s
b
s
= = und a y bx y = = ,
d.h. die Regressionsgerade hat die Gleichung: ( ) y y const = = .
Gerade zur Regression von X bzgl. Y:
x a b y

= + , wobei
2
0
XY
Y
s
b
s

= = und a x by x

= = ,
d.h. die Regressionsgerade hat die Gleichung: ( ) x x const = = .
Die beiden Regressionsgeraden sind also achsenparallel und schneiden sich orthogonal.
4) Steigung der beiden Geraden, falls 0
XY
s :
Falls 0
XY
s > , d.h. 0 r > (positive Korrelation), so haben beide Geraden positive Stei-
gung, und die Gerade zur Regression von Y bzgl. X verluft flacher.
Falls 0
XY
s < , d.h. 0 r < (negative Korrelation), so haben beide Geraden negative Stei-
gung, und die Gerade zur Regression von Y bzgl. X verluft wiederum flacher.
Bemerkungen:
a) Der Korrelationskoeffizient r (von Bravais-Pearson) ist eine Mazahl fr den linearen
Zusammenhang. Es kann 0
XY
r r = = sein, obwohl zwischen X und Y z.B. ein strikt
quadratischer Zusammenhang besteht:
2
Y X = .
b) Scheinkorrelation:
Korrelation bedeutet nicht kausalen Zusammenhang; eine Korrelation zwischen zwei
Merkmalen X, Y kann z.B. durch ein drittes Merkmal Z verursacht werden, welches mit
beiden Merkmalen zusammenhngt.
Beispiel: Die Zahl Y der Geburten und die Zahl X der Strche nehmen bei fortschreiten-
der Industrialisierung ab, und dies fhrt dann zu einer positiven Korrelation zwischen den
Zeitreihen fr X und Y (Scheinkorrelation). Die Methoden der partiellen Korrelation (sie-
he unten) erlauben es, den Einflu einer dritten Variablen Z auf X und Y zu eliminieren.
37
7.4 Lineartransformationen und Linearkombinationen
{ }
( )
1
, , statistische Gesamtheit;
, zweidimensionales UM; , beide quantitativ;
n
G e e
X Y X Y
=
Urliste:
i
e
i
x
i
y
1
e
1
x
1
y

n
e
n
x
n
y
1) Lineartransformationen
Neues Untersuchungsmerkmal ( ) , U V :
, d.h. , 1, , ;
, d.h. , 1, , .
i i
i i
U a bX u a bx i n
V c dY v c dy i n
= + = + =
= + = + =

U ist eine Lineartransformation von X, und V ist eine Lineartransformation von Y.


Dann gilt:
2 2 2
2 2 2
siehe oben!
falls 0 (d.h. und haben gleiches Vorzeichen)
falls 0 (d.h. und haben verschiedenes Vorzeichen)
U X
V Y
UV XY
XY
UV
XY
u a bx
v c dy
s b s
s d s
s bd s
r bd b d
r
r bd b d
= +

= +

=

=
>

<

2) Linearkombinationen
Neues Untersuchungsmerkmal Z:
, d.h. , 1, ,
i i i
Z aX bY c z ax by c i n = + + = + + = .
Z ist eine Linearkombination von X und Y. Dann gilt:
2 2 2 2 2
und 2
Z X Y XY
z ax by c s a s b s ab s = + + = + + .
Folgerung:
Es sei Z X Y = + . Dann gilt die Formel
2 2 2
Z X Y
s s s = + nur, falls X, Y unkorreliert
sind, d.h. falls 0
XY
s = .
7.5 Varianzzerlegung und Bestimmtheitsma
Gesucht: Ma fr Gte der linearen Regression
2
1: alle Punkte liegen auf einer Geraden;
0 : kein linearer Zusammenhang;
0.5 : quantitative Interpretation?
r
r
r
=
=
=
Wir betrachten die Gerade zur Regression von Y bzgl. X:
y a bx = + , wobei
2
,
XY
X
s
b a y bx
s
= = .
1)

, d.h. ( ist eine Lineartransformation von )
i i
y a bx Y a bX Y X = + = + ;
, d.h.
i i
y y y y = =

.
38
2)

, d.h. ( ist eine Linearkombination von und )
i i i
e y y E Y Y E Y Y = =
0 e y y = = .
Die Methode der kleinsten Quadrate fhrt also stets zu einer Geraden, fr welche
0
i
e =

ist. Bei der Behandlung der Minimumseigenschaft des arithmetischen Mittels


(siehe oben) haben wir eine analoge Eigenschaft angetroffen.
3) Es gilt 0
XE
s = , d.h. X und E sind unkorreliert. Die erklrende Variable X kann im Rah-
men des linearen Modells die Restvariable E nicht erklren. E ist also der nicht erkrbare
Rest. Da

Y a bX = + (

Y ist eine Lineartransformation von X), so gilt

0
XE
YE
s b s = = .
4) Nun ist bei der Regression von Y bzgl. X
Y die abhngige Variable (zu erklrende Variable),
X die unabhngige Variable (erklrende Variable),
und es gilt

, 1, , d.h.
i i i
y y e i n Y Y E = + = = + .
Dabei ist

Y eine Lineartransformation von X und somit im Rahmen des linearen Modells


vollstndig durch X erklrbar, whrend die Restvariable E durch X nicht erklrbar ist. Da

0
YE
s = , so knnen wir die Varianz von Y zerlegen in
2 2 2

Y E
Y
s s s = + (Varianzzerlegung),
und daraus folgt
2 2 2 2

1
Y E Y
Y
s s s s
U
B
= +
=
=

.
Es ist
2

2
2
(Anteil der Varianz , der durch erklrt wird)
Y
Y
Y
s
B Bestimmtheitsma s X
s
= = ,
2
2
2
(Anteil der Varianz , der durch nicht erklrt wird)
E
Y
Y
s
U Unbestimmtheitsma s X
s
= = ,
und es gilt
0 1, 0 1 und 1 B U B U + = .
5) Zusammenhang mit dem Korrelationskoeffizienten:
Es gilt:
( )
2 2 2
2
1
1 (vgl. oben, minimale Quadratsumme)
i Y
E
e s r
n
s
=
=

,
und daraus folgt
2
2 2
2
1 und 1
E
Y
s
U r B U r
s
= = = = .
39
Wir haben also das Ergebnis:
2

2 2
2
2
2 2
2
erklrter Anteil der Gesamtvarianz
1 unerklrter Anteil der Gesamtvarianz
Y
Y
Y
E
Y
Y
s
B r s
s
s
U r s
s
= = =
= = =
Interpreation:
i)
2 2
1 1, 0, 0,
alle Punkte auf einer Geraden, durch vollstndig erklrbar;
E
r B U s
Y X
= = = =
ii) 0 0, 1, 0, Regressionsgerade parallel zur x-Achse,
durch nicht erklrbar im Rahmen des linearen Modells;
XY
r B U s
Y X
= = = =
iii)
2 2
2
2
0.7 0.49, 1 0.51,
49% der Varianz (im Rahmen des linearen Modells) durch erklrt,
51% der Varianz durch nicht erklrbar.
Y
Y
r B r U r
s X
s X
= = = = =
Bemerkungen:
a) Bei der Regression von X bzgl. Y ist alles analog. Wegen des Zusammenhangs mit
dem Korrelationskoeffizienten r haben das Bestimmtheits- und Unbestimmtheitsma
die gleichen Werte wie bei der Regression von Y bzgl. X.
b) Computerprogramme (z.B. Minitab) berechnen anstelle der Varianzzerlegung
2 2 2

Y E
Y
s s s = + die Zerlegung der Quadratsumme:
SST SSR SSE = + ,
wobei
( )
( )
2 2
1
2
2

1
2 2
1
Total Sum of Squares
Regression Sum of Squares ( !)
Error Sum of Squares
n
Y i
i
n
i
Y
i
n
E i
i
SST ns y y
SSR n s y y y y
SSE n s e
=
=
=
= = =
= = = =
= = =

7.6 Zerlegung der Kovarianz bei Schichtbildung


{ }
1 2
, , ,
n
G e e e = statistische Gesamtheit;
G sei zerlegt in k (disjunkte) Teilgesamtheiten
1
,
k
G G mit den Umfngen
1
, ,
k
n n ;
( ) , X Y zweidimensionales Untersuchungsmerkmal;
j
j
G
j
n
j
x
j
y
2
, X j
s
2
, Y j
s
, XY j
s
1
1
G
1
n
1
x
1
y
2
,1 X
s
2
,1 Y
s
,1 XY
s

k
k
G
k
n
k
x
k
y
2
, X k
s
2
, Y k
s
, XY k
s
n
40
Dann gilt:
XY
s A B = + ,
wobei
( )( )
,
1
1
1
(Komponente der Teilgesamtheiten)
1
(Komponente den Teilgesamtheiten)
k
j XY j
j
k
j j j
j
A n s innerhalb
n
B n x x y y zwischen
n
=
=
=
=

Bemerkung:
Dieser Zerlegungssatz ist ganz analog zum entsprechenden Zerlegungssatz fr die Varianz
(siehe oben). Der Beweis erfolgt wie dort mit Hilfe eines Verschiebungssatzes, der analog
ist zum Verschiebungssatz von Steiner.
Verschiebungssatz von Steiner:
( ) ( ) ( )
2 2 2
fr beliebiges
i i
x a x x n x a a = +

.
Analog gilt:
( )( ) ( )( ) ( )( ) fr beliebige ,
i i i i
x a y b x x y y n x a y b a b = +

.
7.7 Multiple lineare Regression mit linearer Algebra
Bisher: Y abhngige (zu erklrende) Variable;
X unabhngige (erklrende) Variable.
Jetzt: Y abhngige (zu erklrende) Variable;
1
, ,
k
X X unabhngige (erklrende) Variablen.
Ansatz (Regressionsebene):
0 1 1 k k
y b b x b x = + + + = b x
T
,
wobei
0
1
k
b
b
b



=




b
M
,
1
1
k
x
x



=




x
M
.
Daten (Urliste):
1 11 1
1
1
,
1
k
n n kn
y x x
y x x


= =




y X
L
M M M O M
L
Es sei
0 1 1 2 2
, d.h. , 1, ,
i i i k ki
y b b x b x b x i n = = + + + + = y Xb ;
= e y y .
Die letzten beiden Beziehungen knnten auch geschrieben werden als
0 1 1

.
k k
Y b b X b X
E Y Y
= + + +
=

41
Methode der kleinsten Quadrate:
Koeffizienten
0 1
, , ,
k
b b b so whlen da ( )
2
0 1
1
, , , min
n
i k
i
e Q b b b
=
= = =

e e
T
.
Notwendige Bedingung:
0 fr 0, 1, ,
j
Q
j k
b

= =

.
Daraus ergeben sich die sogenannten Normalgleichungen
( 1 lineare Gleichungen mit 1 Unbekannten) k k = + + X Xb X y
T T
,
und wir erhalten den Lsungsvektor
( )
1
.

= b X X X y
T T
Nun gilt:
( ) = = = = = y Xb X y X Xb X y X y y X e 0
T T T T T
,
und dies bedeutet:
1) 0 (1. Gleichung von )
i
e = =

X e 0
T
;
2)
1
1
, , unkorreliert mit , denn 0, 1, ,
n
k ji i
i
X X E x e j k
=
= =

;
3) ( )

unkorreliert mit , denn 0


i i
Y E y e = = = =
=

y e Xb e b X e
0
T
T T T
.
Nun gilt:

oder fr die entsprechenden UM: Y Y E = + = + y y e ,


und da

Y und E unkorreliert sind, erhalten wir wie bei der einfachen linearen Regression die
Varianzzerlegung
2 2 2

Y E
Y
s s s = + .
Daraus ergibt sich das multiple Bestimmtheits- und Unbestimmtheitsma:
2
2

2 2
und
E Y
Y Y
s
s
B U
s s
= = .
Den multiplen Korrelationskoeffizienten kann man nun definieren als r B = ; er ist stets
positiv. Jede zustzliche Variable (auch unsinnige) erhht das Bestimmtheitsma und somit
den multiplen Korrelationskoeffizienten. Das korrigierte Bestimmtheitsma (korrigiertes
2
r ,
bei Minitab: adjusted R-squared) bestraft die Einfhrung zustzlicher erklrender Variablen,
und es ist daher besser geeignet zur Beurteilung der Gte der Regression:
2
korr
2
2
korr korr
korr
1
1
1 1
E
Y
n s
U U
n k
s
B r U U B

= >

= = < =
(Begrndung fr diese Korrektur: Lineare Modelle).
42
7.8 Partielle Korrelation
X, Y, Z Untersuchungsmerkmale;
Ziel:
Einflu von Z auf Korrelation zwischen X und Y eliminieren.
Man spricht dann von partieller Korrelation zwischen X und Y bei konstantem Z.
Vorgehen:
1. Regression von X bzgl. Z:
x a bz = + ,

X X E = + ;

X vollstndig durch Z erklrt;


Z
E X = Komponente von X, welche durch Z nicht erklrbar ist, bei der also der Einflu
von Z eliminiert ist; daher die Notation:
Z
E X = (Komponente von X bei konstantem Z)
2. Regression von Y bzgl. Z:
y c dz = + ,

Y Y F = + ;

Y vollstndig durch Z erklrt;


Z
F Y = Komponente von Y, welche durch Z nicht erklrbar ist, bei der also der Einflu
von Z eliminiert ist; daher die Notation:
Z
F Y = (Komponente von Y bei konstantem Z)
3. Definition des partiellen Korrelationskoeffizienten bei konstantem Z:
, wobei und
XY Z EF Z Z
r r E X F Y = = = .
Es gilt:
( )( )
2 2
1 1
XY XZ YZ
XY Z
XZ YZ
r r r
r
r r

=

.
Diese Formel ist eher von akademischer Bedeutung, da die Berechnung gem der Definition
XY Z EF
r r = einfacher ist (z.B. mit Minitab).
Verallgemeinerung:
X, Y, U, V Untersuchungsmerkmale;
Ziel:
Einflu von U und V auf Korrelation zwischen X und Y eliminieren.
Man spricht dann von partieller Korrelation zwischen X und Y bei konstantem U und V.
Vorgehen:
1. Regression von X bzgl. U,V:
UV
E X = ;
2. Regression von Y bzgl. U,V:
UV
F Y = ;
3.
XY UV EF
r r = partielle Korrelation zwischen X und Y bei konstantem U und V.
43
7.9 Nichtlineare Regression
Nichtlineare Regression kann oft auf multiple lineare Regression zurckgefhrt werden.
1. Y abhngige Variable;
X unabhngige Variable;
Ansatz:
2
0 1 2
k
k
y b b x b x b x = + + + + (Polynom vom Grad k).
Vorgehen:
1
2
2
;
;
.
k
k
U X
U X
U X
=
=
=

Jetzt gilt:
0 1 1 2 2 k k
y b b u b u b u = + + + + ;
multiple lineare Regression mit k Variablen.
2. Y abhngige Variable;
1 2
, X X unabhngige Variablen;
Ansatz:
2 2
0 1 1 2 2 3 4 5 1 2
1 2
y b b x b x b x b x b x x = + + + + + ;
quadratischer Ansatz in zwei unabhngigen Variablen.
Vorgehen:
1 1
2 2
2
3
1
2
4
2
5 1 2
;
;
;
;
.
U X
U X
U X
U X
U X X
=
=
=
=
=
Jetzt gilt:
0 1 1 2 2 3 3 4 4 5 5
y b b u b u b u b u b u = + + + + + ;
multiple lineare Regression mit 5 k = Variablen.
44
8. Regression und Korrelation mit Hufigkeitstabellen
Im Kapitel 7:
{ }
( )
1
, , statistische Gesamtheit;
, zweidimensionales UM;
n
G e e
X Y
=
Urliste:
i
e
i
x
i
y
1
e
1
x
1
y

n
e
n
x
n
y
Die Daten liegen in Form der Urliste vor. Man spricht hier auch von Reihenkorrelation.
Jetzt:
{ }
( )
1
1
1
, , statistische Gesamtheit;
, zweidimensionales UM;
, , die verschiedenen Mermkmalsausprgungen von ;
, , die verschiedenen Mermkmalsausprgungen von ;
n
k
G e e
X Y
a a X
b b Y
=

Hufigkeitstabelle (Korrelationstabelle):
Y
X
1
b
j
b b

1
a
11
h
1 j
h
1
h
1
h


i
a
1 i
h
ij
h
i
h
i
h


k
a
1 k
h
kj
h
k
h
k
h

1
h
j
h

n
Die Daten liegen in Form einer Hufigkeitstabelle vor. Man spricht hier auch von Tabel-
lenkorrelation. Es treten einige neue Gesichtspunkte auf (Unabhngigkeit, allgemeine
Regressionskurve).
8.1 Berechnung der klassischen Mazahlen
( )
( )
( )( )
1
1
2
2 2 2
1 1
2
2 2 2
1 1
, ,
1
1
1 1
1 1
1 1
k
i i
i
j j
j
k k
X i i i i
i i
Y j j j j
j j
XY ij i j ij i j
i j i j
x h a
n
y h b
n
s h a x h a x
n n
s h b y h b y
n n
s h a x b y h a b x y
n n
=
=
= =
= =
=
=
= =
= =
= =




45
8.2 Unabhngigkeit und Unkorreliertheit
, unkorreliert 0 (d.h. Kovarianz = 0)
XY
X Y s = ;
, unabhngig , (wie bei Kontingenztabellen)
i j
ij
h h
X Y h i j
n
=

.
Frage: Ist Unabhngigkeit dasselbe wie Unkorreliertheit?
Antwort: Nein!
Es gilt:
, unabhngig , unkorreliert X Y X Y
(aber nicht umgekehrt!)
Gegenbeispiel:
Y
X
1 0 1
1 1 0 1 2
1 1 1 1 3
2 1 2 5
Bei Vierfeldertabellen ( 2 k = = ) gilt:
( )
2
2
XY
XY
X Y
ad bc
n
e f g h
s ad bc
r
s s
e f gh

= =
und daher gilt
2
0 0
XY
r = = , d.h. bei Vierfeldertabellen ist Unkorreliertheit quivalent
zur Unabhngigkeit.
8.3 Allgemeine Regressionskurven (natrliche Regression)
Bisher: Willkrliche analytische Anstze bei der Regression (linear, quadratisch, etc.).
Jetzt: Allgemeine Regressionskurven, natrliche Regression; der Zusammenhang wird nur
durch die vorliegenden Daten bestimmt (empirische Regression).
{ }
( )
1
1
1
, , statistische Gesamtheit;
, zweidimensionales UM;
, , die verschiedenen Mermkmalsausprgungen von ;
, , die verschiedenen Mermkmalsausprgungen von .
n
k
G e e
X Y
a a X
b b Y
=

Wir nehmen an, da Y die abhngige und X die unabhngige Variable sei (Regression von Y
bzgl. X). Wir betrachten die bedingte Verteilung von Y gegeben
i
X a = , und es sei
1
1
arithm. Mittel von in der bedingten Verteilung gegeben
i ij j i
i
j
y h b Y X a
h
=
= = =

.
Definition:
Die allgemeine Regressionskurve (natrliche Regressionskurve) zur Regression von Y
bzgl. X verluft durch die Punkte ( ) , , 1, ,
i i
a y i k = .
Hier ist
0 y = und
,
1
0
XY ij i j
i j
s h a b
n
= =

,
d.h. X und Y sind unkorreliert, jedoch nicht unabhngig!
46
Bemerkungen:
a) Die allgemeine Regressionskurve ist durch die gegebenen Daten nur in den Punkten
1
, ,
k
a a definiert und nicht fr jedes x , wie beispielsweise bei der linearen Regres-
sion.
b) Zur Interpretation: Es sei X die Krpergre und Y das Krpergewicht von Rekruten. Es
sei nun 180 cm
i
a = und 76 kg
i
y = , dann haben die Rekruten mit Gre
180
i
X a = = cm ein Durchschnittsgewicht ("Idealgewicht") von 76 kg
i
y = .
c) Die Konstruktion der allgemeinen Regressionskurve ist nicht sinnvoll, wenn die Hufig-
keiten
i
h

zu klein sind. Wenn z.B. 1


i
h =

fr 1, , i k = , dann verbindet die allgemeine


Regressionskurve alle Punkte des Streuungsdiagramms durch eine Zickzack-Kurve!
8.4 Allgemeine Regressionskurven und Methode der kleinsten Quadrate
Ziel: Beliebige Kurve ( ) g x so ins Streuungsdiagramm legen, da sie mglichst gut pat
im Sinne der Methode der kleinsten Quadrate.
( )
( ) ( )
( )
2
1
,
, 1, , ;
Abstand des Punktes , von der Kurve ;
, , Summe aller quadratischen Abweichungen.
i i
ij j i i j
ij ij k
i j
g g a i k
e b g a b g x
h e Q g g
= =
= =
= =

Methode der kleinsten Quadrate:


( )
1 1
, , so whlen, da , , min
k k
g g Q g g = .
Lsung:
i i
g y = = arithm. Mittel in bedingter Verteilung von Y gegeben
i
X a = , 1, , i k = .
Beweis:
Es ist
( )
2 2
1
, 1 1
, ,
k
k ij ij ij ij
i j i j
Q g g h e h e
= =

= =

.
Nun gilt fr 1, , i k = aufgrund der Minimumseigenschaft des arithmetischen Mittels:
( )
2
2
1 1
min fr
ij ij ij j i i i
j j
h e h b g g y
= =
= = =


,
und wenn jeder Summand in der Summe ( )
1
k
i=

den kleinstmglichen Wert annimmt, dann


wird auch die Gesamtsumme minimal.
Folgerung:
Die allgemeine Regressionskurve ist die optimale Kurve (im Sinne der KQ-Methode) unter
allen Kurven, whrend die klassische Regressionsgerade die optimale "Kurve" unter allen
Geraden ist. Falls nun die allgemeine Regressionskurve eine Gerade ist, so ist dies die opti-
male Gerade zur linearen Regression. Falls die allgemeine Regressionskurve eine quadrati-
sche Funktion ist, so ist dies die optimale Funktion zur quadratischen Regression. Man sollte
also die Anstze bei der klassischen Regression so whlen, da sie die allgemeine Regressi-
onskurve umfassen.
47
8.5 Allgemeine Regressionskurven und Varianzzerlegung
Wir zerlegen die Gesamtheit G aller UE in die Teilgesamtheiten
1
, ,
k
G G :
Teilgesamtheit aller UE mit
i i
G X a = = , 1, , i k = .
Es sei
arithm. Mittel von in bedingter Verteilung von gegeben
arithm. Mittel von in ;
i i
i
y Y Y X a
Y G
= =
=
2
Varianz von in
i i
s Y G = .
Dann gilt aufgrund der Varianzzerlegung bei Schichtbildung:
2
Y
s = +
wobei
( )
2
1
2
1
1
(Komponente der Teilgesamtheiten)
1
(Komponente den Teilgesamtheiten)
k
i i
i
k
i i
i
h s innerhalb
n
h y y zwischen
n

=
=
=
=

Nun ist
( )
, 1 1
2
2 2
1 1
2
2 2
,
1 1
0
0
1 1
1
.
k
ij ij ij ij
i j i j
i ij j i ij ij
i i
j j
ij
ij ij E
i j
e h e h e
n n
s h b y h e
h h
e
h e s
n

= =
= =

= = =




=
= =
=
= =

Da der Punkt ( ) ,
i i
a y definitionsgem auf der allgemeinen Regressionskurve liegt, so kn-
nen wir auch schreiben
i i
y y = und damit
2

Y
s = . Somit haben wir auch fr die allgemeine
Regressionskurve die Varianzzerlegung
2 2 2

Y E
Y
s s s = +
wie bei der klassischen Regression. Analog wie dort knnen wir die folgenden Begriffe defi-
nieren:
2

allg
2
2
allg
2
allg
allgemeines Bestimmtheitsma;
allgemeines Unbestimmtheitsma;
allgemeiner Korrelationskoeffizient.
Y
Y
E
Y
s
B
s
s
U
s
r B
= =
= =
= =
Wenn nun U, B und r die entsprechenden Mazahlen bei einer klassischen Regression be-
zeichnen (linear, quadratisch oder beliebig nichtlinear), dann gilt:
allg allg allg
, , U U B B r r .
Die allgemeine Regressionskurve liefert also Schranken fr B, U und r bei der klassischen
Regression.
48
Bemerkungen:
a)
2
1, 0 0, d.h. alle 0,
d.h. zu jedem existiert nur ein mit 0,
d.h. in jeder Zeile der Korrelationstabelle ist nur ein Feld besetzt,
d.h. ist vollstndig abhngig von .
E ij
i j ij
B U s e
a b h
Y X
= = = =
>
b) ( )
2
1

0, 1 0, d.h. alle ,
d.h. die allgemeine Regressionskurve ist eine horizontale Gerade,
d.h. die lineare Regressionsgerade verluft horizontal,
d.h. und sind unkorreliert
(jedoch ni
k
Y
B U s y y y
X Y
= = = = = = L
cht notwendigerweise unabhngig).
c) Falls alle bedingten Varianzen gleich sind, d.h. falls
2 2 2
1
bedingte Varianz von gegeben
k Y X
s s s Y X = = = = ,
so gilt
2 2 2
1
1
n
E i
Y X
i
s s s
n

=
= = =

und damit erhalten wir


2
2
allg
2 2
bedingte Varianz von
(unbedingte) Varianz von
Y X
E
Y Y
s
s Y
U
Y
s s
= = = .
Wenn z.B.
1
allg
2
U = , dann ist die bedingte Varianz von Y nur halb so gro wie die (un-
bedingte) Varianz von Y.
d) Bei der allgemeinen Regression von X bzgl. Y erhlt man nicht notwendigerweise die
gleichen Werte fr
allg allg
, U B und
allg
r wie bei der allgemeinen Regression von Y bzgl. X.
e) Der Wert von
allg
B ist nur abhngig von
1
, , b b

(Werte von Y), nicht jedoch von


1
, ,
k
a a (Werte von X). Daher kann man diese Mazahl auch berechnen, falls X ein
qualitatives Untersuchungsmerkmal ist und nur Y quantitativ. Der allgemeine Korrelati-
onskoeffizient
allg allg
r B = wird dann auch als Pearson'scher Eta-Koeffizient bezeich-
net.
f) Moderne Varianten zur allgemeinen Regressionskurve sind die Verfahren der lokalen
Regression (bei Minitab z.B. die LOWESS-Methode: locally weighted scatter plot
smoother).
g) Die allgemeine Regressionskurve und die zugehrige Varianzzerlegung sind verwandt
mit den Stzen ber den bedingten Erwartungswert und die bedingte Varianz in der
Wahrscheinlichkeitsrechnung (conditional mean and variance theorems).
49
9. Rangkorrelation
{ }
( )
1
, , statistische Gesamtheit;
, zweidimensionales UM.
n
G e e
X Y
=
In diesem Kapitel seien X und Y Rangmerkmale (mit einer Ordinalskala), und wir suchen
Mazahlen fr den Zusammenhang, welche nur auf der Ranginformation beruhen.
Beispiel:
5 n = Schler
X = Note in Mathematik
Y = Note in Englisch
i
e
1
e
2
e
3
e
4
e
5
e
i
x
4.0 2.7 1.3 4.3 5.0
i
y
3.0 4.3 4.7 2.0 2.3
9.1 Rangkorrelation nach Spearman (ohne Bindungen)
Definition der Rangzahlen:
( ) Rang von Platznummer der UE
i i i
rg x x e = = (geordnet nach Gre der MA von X)
( ) Rang von Platznummer der UE
i i i
rg y y e = = (geordnet nach Gre der MA von Y).
Im obigen Beispiel erhalten wir:
i
e
1
e
2
e
3
e
4
e
5
e
( )
i i
u rg x =
3 2 1 4 5
( )
i i
v rg y =
3 4 5 1 2
Definition:
Der Rangkorrelationskoeffizienten nach Spearman zwischen X und Y ist definiert als
gewhnlicher Korrelationskoeffizient zwischen und
S
UV
XY
r r U V = = ,
wobei U, V die Rangmerkmale zu X und Y bezeichnen, d.h. ( )
i i
u rg x = und ( )
i i
v rg y = fr
1, , i n = .
Eigenschaften von
S
XY
r :
1) 1 1 (da 1 1);
S
UV
XY
r r + +
2)
( )
1 gleiche Rangfolge bei beiden Merkmalen und
(alle Punkte , liegen auf einer Geraden mit positiver Steigung);
S
XY
i i
r X Y
u v
= +
: 1, 2, , (Rangzahlen zu );
: 1, 2, , (Rangzahlen zu ).
i
i
u n X
v n Y

3)
( )
1 entgegengesetzte Rangfolgen bei den beiden Merkmalen und
(alle Punkte , liegen auf einer Geraden mit negativer Steigung).
S
XY
i i
r X Y
u v
=
Satz (Kurzformel):
Falls keine Bindungen vorliegen, so gilt:
( ) ( )
2
1
6
1
1 1
n
i
S i
XY
d
r
n n n
=
=
+

, wobei ( ) ( )
i i i
d rg x rg y = .
Die gesicherte ("objektive") Informa-
tion ist nur die Ranginformation
(nicht die MA
i
x ,
i
y ):
bei X:
3 2 1 4 5
e e e e e
bei Y:
4 5 1 2 3
e e e e e
Dabei bedeutet : besser als
50
9.2 Rangkorrelation nach Spearman bei Bindungen
Beispiel (Schulnoten X,Y wie oben):
i
e
1
e
2
e
3
e
4
e
5
e
i
x
4 3 1 4 5
i
y
2 4 5 2 2
Ranginformation bei X:
3 2 1 4 5
, e e e e e (
1
e und
4
e haben die gleiche Note!)
Ranginformation bei Y:
1 4 5 2 3
, , e e e e e ((
1
e ,
4
e und
5
e haben die gleiche Note!)
Falls mehrere x- bzw. y-Werte gleich sind, so spricht man von einer Bindung (engl.: tie =
Gleichstand, Band, Krawatte).
Zuordnung von Rangzahlen bei Bindungen:
Jede Untersuchungseinheit einer Bindung bekommt die gleiche Rangzahl, und zwar das
arithmetische Mittel der Rangzahlen, die auf die Bindung fallen.
Beispiel von oben:
Auf die 2-er-Bindung bei X entfallen die Platznummern 3 und 4, somit erhlt jede der
beiden UE
1 4
, e e die Platznummer ( )
1
2
3 4 3.5 + = ;
auf die 3-er-Bindung bei Y entfallen die Platznummern 1, 2 und 3, somit erhlt jede der
drei UE
1 4 5
, , e e e die Platznummer ( )
1
3
1 2 3 2 + + = .
Somit erhalten wir die folgende Tabelle:
i
e
1
e
2
e
3
e
4
e
5
e
( )
i i
u rg x =
3.5 2 1 3.5 5
( )
i i
v rg y =
2 4 5 2 2
Nun wird der Rangkorrelationskoeffizient von Spearman definiert wie oben:
S
UV
XY
r r = ,
wobei U, V die Rangmerkmale zu X und Y bezeichnen.
Beachte:
Die obige Kurzformel ist nicht sinnvoll bei Bindungen, wie das folgende Beispiel zeigt:
i
i
u
i
v
i
d
2
i
d
1 1 4 3 9
2 2 3 1 1
3 3.5 1.5 2 4
4 3.5 1.5 2 4
18
Rezept zur Berechnung von
S
XY
r mit Minitab:
c1
c2
rank c1 c3 (d.h. c3)
rank c2 c4 (d.h. c4)
corr c3 c4 (liefert )
i
i
i
i
S
UV
XY
x
y
u
v
r r

=
Nach der Kurzformel wre
6 18
1 0.8
3 4 5
S
XY
r

= =

;
da alle Punkte ( ) ,
i i
u v auf einer Geraden lie-
gen, so ist jedoch 1
S
UV
XY
r r = = .
51
9.3 Rangkorrelation nach Kendall
Urliste:
i
e
i
x
i
y
1
e
1
x
1
y

n
e
n
x
n
y
Wir betrachten alle Paare ( ) ,
i j
e e mit i j < ; die Anzahl dieser Paare betrgt ( )
1
2
1 n n .
Das Paar ( ) ,
i j
e e heit konkordant, falls
entweder und
i j i j
x x y y < <
oder und
i j i j
x x y y > > .
Das Paar ( ) ,
i j
e e heit diskonkordant, falls
entweder und
i j i j
x x y y < >
oder und
i j i j
x x y y > < .
Es sei nun
Anzahl der konkordanten Paare;
Anzahl der diskordanten Paare.
Q
Q
+

=
=
Dann ist der Rangkorrelationskoeffizient nach Kendall definiert als
K
XY
Q Q
r
Q Q
+
+

=
+
.
Bemerkungen:
a) Paare ( ) ,
i j
e e , bei denen Bindungen auftreten (entweder
i j
x x = oder
i j
y y = ) bleiben
unbercksichtigt.
b) Es gilt offensichtlich: 1 1
K
XY
r + .
Rezept zur Berechnung von
K
XY
r :
1. Bestimme die Matrix ( )
1 falls
mit 0 falls
1 falls
i j
ij ij i j
i j
x x
a a x x
x x

+ <

= = =

>

A
2. Bestimme die Matrix ( )
1 falls
mit 0 falls
1 falls
i j
ij ij i j
i j
y y
b b y y
y y

+ <

= = =

>

B
3. Berechne die Matrix ( ), wobei
ij ij ij ij
c c a b = = C .
Bei einem konkordanten Paar ( ) ,
i j
e e ist 1
ij
c = + und bei einem diskordanten Paar
1
ij
c = . Somit ist
ij
i j
c Q Q
+
<
=

und
ij
i j
c Q Q
+
<
= +

, und daraus findet man


Q
+
und Q

(vgl. Minitab-Makro KENDALL.MAC).