Sie sind auf Seite 1von 25

Statistische Beschreibung des Zusammenhangs

zweier Merkmale

Wir betrachten jetzt pro Beobachtungseinheit gleich-


zeitig zwei Merkmale.

Wir erhalten eine konkrete zweidimensionale Stich-


probe vom Umfang n

(x1, y1), (x2, y2), . . . , (xn, yn)


deren Komponenten Paare von Stichprobenwerten
der einzelnen Merkmale sind.

51
Interessierende Fragestellungen sind:

• Besteht zwischen den Merkmalen ein Zusam-


menhang, das heißt treten bestimmte (z. B.
große) Realisierungen des einen Merkmals ten-
denziell zusammen mit bestimmten (z. B. kleinen)
Realisierungen des anderen Merkmals auf (sym-
metrische Fragestellung)?

• Lässt sich aus xi eine Voraussage (im Mittel) auf


yi machen (gerichtete Fragestellung)?

• Wie groß ist das Maß an Übereinstimmung zwi-


schen xi und yi beim Vergleich zweier Un-
tersuchungsmethoden, Untersuchungsbedingun-
gen oder zweier Untersucher derselben Beob-
achtungsgröße?

52
Die beiden Merkmale seien metrisch messbar.

Beispiel
X . . . Cholesterinwert in mg/100ml
Y . . . systolischer Blutdruckwert in mmHg

Patient 1 2 3 4 5 6 7
xi 168.5 212.5 149.0 176.5 174.0 220.0 133.5
yi 119.1 155.3 106.7 131.6 113.7 147.4 110.9
Patient 8 9 10 11 12 13
xi 208.0 155.0 196.5 193.5 166.0 179.0
yi 135.9 119.2 122.8 127.3 114.5 121.6

Vor der Untersuchung eines eventuellen Zusammen-


hangs sollte stets die Verteilung der Stichprobenwer-
te (x1, y1), (x2, y2), . . . , (xn, yn) durch ein Streudia-
gramm (Punktediagramm, scatterplot) graphisch ver-
anschaulicht werden.

53
Streudiagramm im Beispiel
160,0
systolischer Blutdruck in mmHg
140,0
120,0
100,0

120,0 140,0 160,0 180,0 200,0 220,0

Cholesterinspiegel in mg/100ml

Das Streudiagramm liefert eine Anschauung von der


Art und Stärke des möglichen Zusammenhangs.

linearer Zus. quadratischer Zus. exponentieller Zus.

54
Es sollen im Folgenden nur mögliche lineare Zusam-
menhänge betrachtet werden, d. h. die Punktwolke
der Stichprobenpaare umgibt in einem gewissen Sin-
ne eine Gerade (Regressionsgerade) mehr oder we-
niger eng.

Korrelationsanalyse
Eine Maßzahl für Stärke und Richtung des linea-
ren Zusammenhangs zwischen den Realisierungen
(x1, y1), (x2, y2), . . . , (xn, yn) ist der empirische
Korrelationskoeffizient nach Pearson
n
(xi − x)(yi − y)
P
i=1
r=s s
n n
(xi − x)2 (yi − y)2
P P
i=1 i=1
n
xiyi − nx y
P
i=1
=v !v !
n n
u u
x2 2 t yi2 − ny 2
u P u P
i − nx
t
i=1 i=1

55
Eigenschaften und Interpretation des empirischen
Korrelationskoeffizienten
• r ist dimensionslos und nimmt immer Werte
zwischen −1 und 1 an, −1 ≤ r ≤ 1.
• Falls die Punkte (xi, yi) (exakt) auf einer Gera-
den liegen, d. h. yi = b1xi + b0 , i = 1, 2, . . . , n,
dann nimmt r den Wert 1 an, falls b1 > 0 gilt, die
Gerade also wächst. r nimmt den Wert −1 an,
falls b1 < 0 gilt, die Gerade also fällt.
• Für r > 0 häufen sich die Punkte um eine
steigende Gerade.
• Für r < 0 häufen sich die Punkte um eine
fallende Gerade.
• Für r = 0 besteht zwischen den beobachteten
Werten beider Merkmale kein linearer Zusam-
menhang.
• Je stärker der lineare Zusammenhang zwischen
den beobachteten Werten beider Merkmale ist,
desto mehr passt sich die Punktwolke einer Ge-
raden an und desto näher liegt r bei +1 bzw. −1.

56
Eigenschaften und Interpretation des empirischen
Korrelationskoeffizienten

r = −0.11 r = −0.41

r = −0.91 r = −0.99

57
Vorsicht
Der empirische Korrelationskoeffizient misst die
Stärke eines linearen Zusammenhangs. Er kann ins-
besondere Null sein, obwohl ein starker nichtlinearer
Zusammenhang vorliegt.

r=0

58
Vorsicht
Der empirische Korrelationskoeffizient liefert keine
Aussage darüber, ob ein kausaler Zusammenhang
besteht, hierzu bedarf es einer inhaltlichen Klärung.
Zudem können die beiden betrachteten Merkmale
durch ein drittes Merkmal beeinflusst werden (Schein-
korrelation).

Quellen:
Ornitologische Monatsberichte, 1936 und Statistisches Jahrbuch
Deutscher Gemeinden, 1932-1938 (nach Box, Hunter, Hunter)
59
Lineare Regressionsanalyse

Die lineare Regressionsanalyse ist ein statistisches


Verfahren zur Untersuchung der Art des Zusammen-
hangs einer quantitativen Zielgröße Y von p quantita-
tiven Einflussgrößen.
Es werden 2 Modelle unterschieden:
Modell 1:
Die Einflussgrößen sind nicht zufällig, nur die Ziel-
größe Y ist zufällig (Ausgleichsmodell).

Modell 2:
Die Einflussgrößen sind zufällig, es wird die Ab-
hängigkeit von vorliegenden Realisierungen dieser
Einflussgrößen betrachtet.

Ist p ≥ 2 (Anzahl der Einflußgrößen) spricht man von


multipler linearer Regression. Wir betrachten hier nur
den Fall p = 1, die sogenannte einfache lineare Re-
gression.

60
Lineare Regressionsanalyse

Beispiel
Dem Jahresgutachten zur gesamtwirtschaftlichen
Entwicklung eines Landes ist nachfolgende Tabelle
entnommen. Diese gibt Aufschluss über die Erspar-
nisse von privaten Haushalten sowie deren verfügba-
re Einkünfte in 10 aufeinander folgenden Jahren (in
Geldeinheiten).

X . . . verfügbares Einkommen
Y . . . Ersparnisse

Jahr xi yi
1 34.2 2.8
2 40.8 4.1
3 42.5 4.5
4 47.3 4.3
5 50.1 4.9
6 52.6 5.8
7 56.9 7.0
8 61.4 7.7
9 73.5 8.1
10 76.7 8.8
61
Streudiagramm und empirischer Korrelationskoeffizient
Ersparnisse
8,0
6,0
4,0
2,0

30,0 40,0 50,0 60,0 70,0 80,0

verfuegbares Einkommen

r = 0.97

Damit spricht nichts gegen die Annahme eines linea-


ren Zusammenhangs zwischen X und Y .

62
Wir passen daher eine Gerade
y = b0 + b1 x
der Punktwolke bestmöglich an, und zwar so, dass
die Summe der vertikalen Abstandsquadrate zwi-
schen Beobachtungspunkten und Gerade minimiert
wird (Methode der kleinsten Quadrate). Dieses Ver-
fahren wurde von C. F. Gauß entwickelt.
8,0
Ersparnisse
6,0
4,0
2,0

30,0 40,0 50,0 60,0 70,0 80,0

verfuegbares Einkommen

63
Mathematisch bedeutet das die Lösung des Optimie-
rungsproblems
n 
X 2
yi − (b̂0 + b̂1xi) → min
i=1
bezüglich der Koeffizienten b̂0 und b̂1.

Die optimalen Werte dieser Koeffizienten werden mit


b0 und b1 bezeichnet.

Durch Nullsetzen der entsprechenden partiellen Ab-


leitungen ergibt sich
n
xiyi − nx y
P

b1 = i=1
n und b0 = y − b1 x
x2 − 2
P
i nx
i=1
Die so berechnete Gerade y = b0 + b1x heißt
Stichproben-Regressionsgerade.
Offenbar kennzeichnen b0 und b1 Nulldurchgang und
Anstieg dieser Gerade

Im Beispiel ergibt sich y = −1.7153 + 0.1402 · x .


64
Bemerkungen
Setzt man in die Regressionsgerade einen Wert x ein
(der nicht unbedingt Teil der Stichprobe zum Merkmal
X sein muss), dann erhält man einen entsprechenden
Vorhersagewert y.

Der Regressionskoeffizient b1 ist die mittlere Ände-


rung der y-Werte in der Stichprobe, wenn x um eine
Einheit zunimmt.

Beispiel
In einem Betrieb der Textilbranche wurden sechs
Garnwickelmaschinen während eines Arbeitstages
mit sechs verschiedenen Geschwindigkeiten (gemes-
sen in m/s) betrieben und jeweils die Zahl der Ausfälle
der Maschine gemessen. Für das Datenmaterial wur-
de die lineare Regressionsfunktion
y = −69.9 + 4.486 · x
ermittelt. Das heißt: Steigt die Geschwindigkeit um
1m/s, so erhöht sich die Zahl der Ausfälle um durch-
schnittlich 4,486 pro Tag.

65
Die Größe
n n
2
(yi − y) − (yi − (b0 + b1xi))2
P P

B = i=1 n
i=1
(yi − y)2
P
i=1
ist derjenige Anteil an der Gesamtvarianz der
y1, . . . , yn, der durch die Regressionsgerade erklärt
wird. B heißt empirisches Bestimmtheitsmaß.

Es gilt stets 0 ≤ B ≤ 1.

Je näher B an 1 liegt, desto besser ist die Anpas-


sungsgüte der Regression, das heißt, desto besser
passt“ der Regressionsansatz zu den Daten. Man

kann zeigen, dass im Falle der linearen Regression
(und i. allg. nur da) das Bestimmtheitsmaß gerade das
Quadrat des Korrelationskoeffizienten ist,
B = r2 .

Im obigen Beispiel (gesamtwirtschaftliche Entwick-


lung) ergibt sich B = r2 = 0.972 = 0.94 und man
kann von einer hohen Regressionsgüte sprechen.
66
Die beiden Merkmale seien (mindestens) ordinal
messbar.

Gegeben seien wieder n Beobachtungspaare


(x1, y1), (x2, y2), . . . , (xn, yn) zweier Merkmale
X und Y , die im Unterschied zu oben nur ordinal
messbar sein müssen.

Völlig analog zum empirischen Korrelationskoeffizien-


ten nach Pearson wird der empirische Rangkorrela-
tionskoeffizienten nach Spearman berechnet. Aller-
dings werden statt der Messwerte die Ränge dieser
Messwerte verwendet.
n
P
R(xi )R(yi ) − nR(x) R(y)
i=1
rS = s  s 
n 2 n 2
R(xi )2 − nR(x) R(yi )2 − nR(y)
P P
i=1 i=1

Dabei sind R(x) und R(y) die arithmetischen Mittel


der Rangzahlen.

67
Der Spearmansche Rangkorrelationskoeffizient ist
ein parameterfreies Maß für Korrelationen, das heißt,
er misst, wie gut eine beliebige monotone Funktion
den Zusammenhang zwischen den Merkmalen be-
schreiben kann, ohne irgendwelche Annahmen über
die Wahrscheinlichkeitsverteilung der Variablen zu
machen oder deren metrische Messbarkeit zu benöti-
gen.

Das Konzept der nichtparametrischen Korrelation be-


steht darin, den Wert xi bzw. yi einer jeden Messung
durch den Rang relativ zu allen anderen xj bzw. yj in
der Messung zu ersetzen. Falls die xi bzw. yi alle un-
terschiedlich sind, kommt jede Zahl dabei jeweils ge-
nau einmal vor. Falls identische Werte auftreten, wird
ihnen der Mittelwert der Ränge zugewiesen, die sie
erhalten hätten, wenn sie leicht unterschiedlich gewe-
sen wären. In diesem Fall wird von Bindungen oder
Ties gesprochen.

68
Es gilt stets −1 ≤ rS ≤ 1.

rS ist ein Maß für die Stärke eines monoto-


nen (gleichläufigen oder gegenläufigen) Zusammen-
hangs, d. h. X wächst oder fällt bei wachsendem Y .
rS = 1 gilt dann, wenn mit xi < xj auch immer
yi < yj ist, ein linearer Zusammenhang muss nicht
bestehen.

rS = 1 rS = −0.97

Falls keine Bindungen bestehen, lässt sich rS wesent-


lich einfacher berechnen:
n
d2
P
6 i
i=1
rS = 1− mit di = R(xi)−R(yi) .
n(n2 − 1)
69
Beispiel
Während des Semesters wurden Übungsaufgaben
von 10 Studenten bepunktet und am Ende des Seme-
sters mit den in der Klausur erreichten Punkten dieser
Studenten verglichen. Dabei wurde festgestellt, dass
die beste Klausur vom Studenten mit den meisten
Übungsaufgabenpunkten und die schlechteste Klau-
sur vom Studenten mit den wenigsten Übungsaufga-
benpunkten geschrieben wurde. Deshalb wird ein Zu-
sammenhang zwischen den Punkten in der Klausur
X und den Punkten in den Übungsaufgaben Y ver-
mutet.

Punkte Punkte Rang Rang Differenz Quadrat


Klausur Übungen Klausur Übungen Differenz
xi yi R(xi ) R(yi ) di d2i
76 122 1 1 0 0
44 67 6 8 -2 4
32 68 7 7 0 0
53 101 5 3 2 4
25 42 10 10 0 0
58 59 4 9 -5 25
26 118 9 2 7 49
59 79 3 6 -3 9
29 83 8 5 3 9
65 89 2 4 -2 4
70
Es bestehen keine Bindungen und damit gilt
n
d2
P
6 i
i=1
rS = 1 −
n(n2 − 1)

6 · 104
=1− = 0.37
10 · (100 − 1)

Dies weist auf einen (allerdings nicht sehr starken)


gleichläufigen Zusammenhang hin.

71
Die Merkmale seien (mindestens) nominal
messbar
Wir betrachten hier nur den Fall, dass die beiden
betrachteten Merkmale jeweils nur zwei mögli-
che Ausprägungen haben (oder entsprechend
transformiert wurden).

Liegen dagegen mehr als vier mögliche Ausprägun-


gen der Merkmalskombinationen (xi, yi) vor und
wurden die zugehörigen absoluten Häufigkeiten be-
stimmt, existieren allgemeinere Methoden und auch
Tests im Sinne der schließenden Statistik (Stichworte:
Kreuztabelle, χ2-Statistik). Hierzu sei auf die Literatur
verwiesen.

X habe die Ausprägungen A und A,


Y habe die Ausprägungen B und B.

Der Merkmalsraum
n Ω besteht dann aus 4o Merkma-
len, Ω = (A, B), (A, B), (A, B), (A, B) . Die ab-
soluten Häufigkeiten des Auftretens dieser Merkmale
in einer Stichprobe können in einer Vier-Felder-Tafel
dargestellt werden.
72
Beispiel:
Es soll die Stärke des Zusammenhangs zwischen
dem Auftreten von Windpocken und Röteln bei n =
124 Patienten mit einer Autoimmunerkrankung unter-
sucht werden. Auf Grund der Krankenakten ist ersicht-
lich, dass in 83 Fällen Röteln auftraten. Von diesen
Patienten erkrankten 48 auch an Windpocken. 23 Pa-
tienten hatten weder Röteln noch Windpocken. Das
ergibt die folgende Vier-Felder-Tafel.

B B

A a = 48 b = 18 66

A c = 35 d = 23 58

83 41 n = 124

73
Im Allgemeinen hat die Vier-Felder Tafel das folgende
Aussehen:

B B

A a b a+b

A c d c+d

a+c b+d n=a+b+c+d

Eine Maßzahl für Stärke und Richtung des Zusam-


menhangs zwischen dem Eintreten von A und B in
der Stichprobe (x1, y1), (x2, y2), . . . , (xn, yn) ist der
Phi-Koeffizient, der wie folgt definiert ist.
a·d−b·c
Φ=q .
(a + b) · (c + d) · (a + c) · (b + d)

74
Im Beispiel ergibt sich
48 · 23 − 18 · 35
Φ=√ = 0.13 .
66 · 58 · 83 · 41
Eigenschaften von Φ:
• −1 ≤ Φ ≤ 1

• Der Wertebereich von Φ ist oftmals einge-


schränkt, |φ| < 1. Es gibt dann kein gutes
Kriterium mehr um bei der Interpretation festzu-
legen ob ein Zusammenhang stark oder weniger
stark ist.

• Trotzdem gilt: Bei Φ = 0 besteht kein Zusam-


menhang zwischen dem Eintreten von A und B.
Bei Φ > 0 tritt A tendenziell häufig gemeinsam
mit B ein (das ist im konkreten Beispiel der Fall,
allerdings ist der Zusammenhang eher schwach).
Bei Φ < 0 tritt A tendenziell selten gemeinsam
mit B ein.

75

Das könnte Ihnen auch gefallen