Beruflich Dokumente
Kultur Dokumente
zweier Merkmale
51
Interessierende Fragestellungen sind:
52
Die beiden Merkmale seien metrisch messbar.
Beispiel
X . . . Cholesterinwert in mg/100ml
Y . . . systolischer Blutdruckwert in mmHg
Patient 1 2 3 4 5 6 7
xi 168.5 212.5 149.0 176.5 174.0 220.0 133.5
yi 119.1 155.3 106.7 131.6 113.7 147.4 110.9
Patient 8 9 10 11 12 13
xi 208.0 155.0 196.5 193.5 166.0 179.0
yi 135.9 119.2 122.8 127.3 114.5 121.6
53
Streudiagramm im Beispiel
160,0
systolischer Blutdruck in mmHg
140,0
120,0
100,0
Cholesterinspiegel in mg/100ml
54
Es sollen im Folgenden nur mögliche lineare Zusam-
menhänge betrachtet werden, d. h. die Punktwolke
der Stichprobenpaare umgibt in einem gewissen Sin-
ne eine Gerade (Regressionsgerade) mehr oder we-
niger eng.
Korrelationsanalyse
Eine Maßzahl für Stärke und Richtung des linea-
ren Zusammenhangs zwischen den Realisierungen
(x1, y1), (x2, y2), . . . , (xn, yn) ist der empirische
Korrelationskoeffizient nach Pearson
n
(xi − x)(yi − y)
P
i=1
r=s s
n n
(xi − x)2 (yi − y)2
P P
i=1 i=1
n
xiyi − nx y
P
i=1
=v !v !
n n
u u
x2 2 t yi2 − ny 2
u P u P
i − nx
t
i=1 i=1
55
Eigenschaften und Interpretation des empirischen
Korrelationskoeffizienten
• r ist dimensionslos und nimmt immer Werte
zwischen −1 und 1 an, −1 ≤ r ≤ 1.
• Falls die Punkte (xi, yi) (exakt) auf einer Gera-
den liegen, d. h. yi = b1xi + b0 , i = 1, 2, . . . , n,
dann nimmt r den Wert 1 an, falls b1 > 0 gilt, die
Gerade also wächst. r nimmt den Wert −1 an,
falls b1 < 0 gilt, die Gerade also fällt.
• Für r > 0 häufen sich die Punkte um eine
steigende Gerade.
• Für r < 0 häufen sich die Punkte um eine
fallende Gerade.
• Für r = 0 besteht zwischen den beobachteten
Werten beider Merkmale kein linearer Zusam-
menhang.
• Je stärker der lineare Zusammenhang zwischen
den beobachteten Werten beider Merkmale ist,
desto mehr passt sich die Punktwolke einer Ge-
raden an und desto näher liegt r bei +1 bzw. −1.
56
Eigenschaften und Interpretation des empirischen
Korrelationskoeffizienten
r = −0.11 r = −0.41
r = −0.91 r = −0.99
57
Vorsicht
Der empirische Korrelationskoeffizient misst die
Stärke eines linearen Zusammenhangs. Er kann ins-
besondere Null sein, obwohl ein starker nichtlinearer
Zusammenhang vorliegt.
r=0
58
Vorsicht
Der empirische Korrelationskoeffizient liefert keine
Aussage darüber, ob ein kausaler Zusammenhang
besteht, hierzu bedarf es einer inhaltlichen Klärung.
Zudem können die beiden betrachteten Merkmale
durch ein drittes Merkmal beeinflusst werden (Schein-
korrelation).
Quellen:
Ornitologische Monatsberichte, 1936 und Statistisches Jahrbuch
Deutscher Gemeinden, 1932-1938 (nach Box, Hunter, Hunter)
59
Lineare Regressionsanalyse
Modell 2:
Die Einflussgrößen sind zufällig, es wird die Ab-
hängigkeit von vorliegenden Realisierungen dieser
Einflussgrößen betrachtet.
60
Lineare Regressionsanalyse
Beispiel
Dem Jahresgutachten zur gesamtwirtschaftlichen
Entwicklung eines Landes ist nachfolgende Tabelle
entnommen. Diese gibt Aufschluss über die Erspar-
nisse von privaten Haushalten sowie deren verfügba-
re Einkünfte in 10 aufeinander folgenden Jahren (in
Geldeinheiten).
X . . . verfügbares Einkommen
Y . . . Ersparnisse
Jahr xi yi
1 34.2 2.8
2 40.8 4.1
3 42.5 4.5
4 47.3 4.3
5 50.1 4.9
6 52.6 5.8
7 56.9 7.0
8 61.4 7.7
9 73.5 8.1
10 76.7 8.8
61
Streudiagramm und empirischer Korrelationskoeffizient
Ersparnisse
8,0
6,0
4,0
2,0
verfuegbares Einkommen
r = 0.97
62
Wir passen daher eine Gerade
y = b0 + b1 x
der Punktwolke bestmöglich an, und zwar so, dass
die Summe der vertikalen Abstandsquadrate zwi-
schen Beobachtungspunkten und Gerade minimiert
wird (Methode der kleinsten Quadrate). Dieses Ver-
fahren wurde von C. F. Gauß entwickelt.
8,0
Ersparnisse
6,0
4,0
2,0
verfuegbares Einkommen
63
Mathematisch bedeutet das die Lösung des Optimie-
rungsproblems
n
X 2
yi − (b̂0 + b̂1xi) → min
i=1
bezüglich der Koeffizienten b̂0 und b̂1.
b1 = i=1
n und b0 = y − b1 x
x2 − 2
P
i nx
i=1
Die so berechnete Gerade y = b0 + b1x heißt
Stichproben-Regressionsgerade.
Offenbar kennzeichnen b0 und b1 Nulldurchgang und
Anstieg dieser Gerade
Beispiel
In einem Betrieb der Textilbranche wurden sechs
Garnwickelmaschinen während eines Arbeitstages
mit sechs verschiedenen Geschwindigkeiten (gemes-
sen in m/s) betrieben und jeweils die Zahl der Ausfälle
der Maschine gemessen. Für das Datenmaterial wur-
de die lineare Regressionsfunktion
y = −69.9 + 4.486 · x
ermittelt. Das heißt: Steigt die Geschwindigkeit um
1m/s, so erhöht sich die Zahl der Ausfälle um durch-
schnittlich 4,486 pro Tag.
65
Die Größe
n n
2
(yi − y) − (yi − (b0 + b1xi))2
P P
B = i=1 n
i=1
(yi − y)2
P
i=1
ist derjenige Anteil an der Gesamtvarianz der
y1, . . . , yn, der durch die Regressionsgerade erklärt
wird. B heißt empirisches Bestimmtheitsmaß.
Es gilt stets 0 ≤ B ≤ 1.
67
Der Spearmansche Rangkorrelationskoeffizient ist
ein parameterfreies Maß für Korrelationen, das heißt,
er misst, wie gut eine beliebige monotone Funktion
den Zusammenhang zwischen den Merkmalen be-
schreiben kann, ohne irgendwelche Annahmen über
die Wahrscheinlichkeitsverteilung der Variablen zu
machen oder deren metrische Messbarkeit zu benöti-
gen.
68
Es gilt stets −1 ≤ rS ≤ 1.
rS = 1 rS = −0.97
6 · 104
=1− = 0.37
10 · (100 − 1)
71
Die Merkmale seien (mindestens) nominal
messbar
Wir betrachten hier nur den Fall, dass die beiden
betrachteten Merkmale jeweils nur zwei mögli-
che Ausprägungen haben (oder entsprechend
transformiert wurden).
Der Merkmalsraum
n Ω besteht dann aus 4o Merkma-
len, Ω = (A, B), (A, B), (A, B), (A, B) . Die ab-
soluten Häufigkeiten des Auftretens dieser Merkmale
in einer Stichprobe können in einer Vier-Felder-Tafel
dargestellt werden.
72
Beispiel:
Es soll die Stärke des Zusammenhangs zwischen
dem Auftreten von Windpocken und Röteln bei n =
124 Patienten mit einer Autoimmunerkrankung unter-
sucht werden. Auf Grund der Krankenakten ist ersicht-
lich, dass in 83 Fällen Röteln auftraten. Von diesen
Patienten erkrankten 48 auch an Windpocken. 23 Pa-
tienten hatten weder Röteln noch Windpocken. Das
ergibt die folgende Vier-Felder-Tafel.
B B
A a = 48 b = 18 66
A c = 35 d = 23 58
83 41 n = 124
73
Im Allgemeinen hat die Vier-Felder Tafel das folgende
Aussehen:
B B
A a b a+b
A c d c+d
74
Im Beispiel ergibt sich
48 · 23 − 18 · 35
Φ=√ = 0.13 .
66 · 58 · 83 · 41
Eigenschaften von Φ:
• −1 ≤ Φ ≤ 1
75