Statistische Beschreibung Des Zusammenhangs Zweier Merkmale

Statistische Beschreibung des Zusammenhangs
zweier Merkmale
Wir betrachten jetzt pro Beobachtungseinheit gleich-

zeitig zwei Merkmale.
Wir erhalten eine konkrete zweidimensionale Stich-

probe vom Umfang n
(x1, y1), (x2, y2), . . . , (xn, yn)

deren Komponenten Paare von Stichprobenwerten
der einzelnen Merkmale sind.
51
Interessierende Fragestellungen sind:
• Besteht zwischen den Merkmalen ein Zusam-

menhang, das heißt treten bestimmte (z. B.
große) Realisierungen des einen Merkmals ten-
denziell zusammen mit bestimmten (z. B. kleinen)
Realisierungen des anderen Merkmals auf (sym-
metrische Fragestellung)?
• Lässt sich aus xi eine Voraussage (im Mittel) auf

yi machen (gerichtete Fragestellung)?
• Wie groß ist das Maß an Übereinstimmung zwi-

schen xi und yi beim Vergleich zweier Un-
tersuchungsmethoden, Untersuchungsbedingun-
gen oder zweier Untersucher derselben Beob-
achtungsgröße?
52
Die beiden Merkmale seien metrisch messbar.
Beispiel
X . . . Cholesterinwert in mg/100ml
Y . . . systolischer Blutdruckwert in mmHg
Patient 1 2 3 4 5 6 7
xi 168.5 212.5 149.0 176.5 174.0 220.0 133.5
yi 119.1 155.3 106.7 131.6 113.7 147.4 110.9
Patient 8 9 10 11 12 13
xi 208.0 155.0 196.5 193.5 166.0 179.0
yi 135.9 119.2 122.8 127.3 114.5 121.6
Vor der Untersuchung eines eventuellen Zusammen-

hangs sollte stets die Verteilung der Stichprobenwer-
te (x1, y1), (x2, y2), . . . , (xn, yn) durch ein Streudia-
gramm (Punktediagramm, scatterplot) graphisch ver-
anschaulicht werden.
53
Streudiagramm im Beispiel
160,0
systolischer Blutdruck in mmHg
140,0
120,0
100,0
120,0 140,0 160,0 180,0 200,0 220,0
Cholesterinspiegel in mg/100ml
Das Streudiagramm liefert eine Anschauung von der

Art und Stärke des möglichen Zusammenhangs.
linearer Zus. quadratischer Zus. exponentieller Zus.
54
Es sollen im Folgenden nur mögliche lineare Zusam-
menhänge betrachtet werden, d. h. die Punktwolke
der Stichprobenpaare umgibt in einem gewissen Sin-
ne eine Gerade (Regressionsgerade) mehr oder we-
niger eng.
Korrelationsanalyse
Eine Maßzahl für Stärke und Richtung des linea-
ren Zusammenhangs zwischen den Realisierungen
(x1, y1), (x2, y2), . . . , (xn, yn) ist der empirische
Korrelationskoeffizient nach Pearson
n
(xi − x)(yi − y)
P
i=1
r=s s
n n
(xi − x)2 (yi − y)2
P P
i=1 i=1
n
xiyi − nx y
P
i=1
=v !v !
n n
u u
x2 2 t yi2 − ny 2
u P u P
i − nx
t
i=1 i=1
55
Eigenschaften und Interpretation des empirischen
Korrelationskoeffizienten
• r ist dimensionslos und nimmt immer Werte
zwischen −1 und 1 an, −1 ≤ r ≤ 1.
• Falls die Punkte (xi, yi) (exakt) auf einer Gera-
den liegen, d. h. yi = b1xi + b0 , i = 1, 2, . . . , n,
dann nimmt r den Wert 1 an, falls b1 > 0 gilt, die
Gerade also wächst. r nimmt den Wert −1 an,
falls b1 < 0 gilt, die Gerade also fällt.
• Für r > 0 häufen sich die Punkte um eine
steigende Gerade.
• Für r < 0 häufen sich die Punkte um eine
fallende Gerade.
• Für r = 0 besteht zwischen den beobachteten
Werten beider Merkmale kein linearer Zusam-
menhang.
• Je stärker der lineare Zusammenhang zwischen
den beobachteten Werten beider Merkmale ist,
desto mehr passt sich die Punktwolke einer Ge-
raden an und desto näher liegt r bei +1 bzw. −1.
56
Eigenschaften und Interpretation des empirischen
Korrelationskoeffizienten
r = −0.11 r = −0.41
r = −0.91 r = −0.99
57
Vorsicht
Der empirische Korrelationskoeffizient misst die
Stärke eines linearen Zusammenhangs. Er kann ins-
besondere Null sein, obwohl ein starker nichtlinearer
Zusammenhang vorliegt.
r=0
58
Vorsicht
Der empirische Korrelationskoeffizient liefert keine
Aussage darüber, ob ein kausaler Zusammenhang
besteht, hierzu bedarf es einer inhaltlichen Klärung.
Zudem können die beiden betrachteten Merkmale
durch ein drittes Merkmal beeinflusst werden (Schein-
korrelation).
Quellen:
Ornitologische Monatsberichte, 1936 und Statistisches Jahrbuch
Deutscher Gemeinden, 1932-1938 (nach Box, Hunter, Hunter)
59
Lineare Regressionsanalyse
Die lineare Regressionsanalyse ist ein statistisches

Verfahren zur Untersuchung der Art des Zusammen-
hangs einer quantitativen Zielgröße Y von p quantita-
tiven Einflussgrößen.
Es werden 2 Modelle unterschieden:
Modell 1:
Die Einflussgrößen sind nicht zufällig, nur die Ziel-
größe Y ist zufällig (Ausgleichsmodell).
Modell 2:
Die Einflussgrößen sind zufällig, es wird die Ab-
hängigkeit von vorliegenden Realisierungen dieser
Einflussgrößen betrachtet.
Ist p ≥ 2 (Anzahl der Einflußgrößen) spricht man von

multipler linearer Regression. Wir betrachten hier nur
den Fall p = 1, die sogenannte einfache lineare Re-
gression.
60
Lineare Regressionsanalyse
Beispiel
Dem Jahresgutachten zur gesamtwirtschaftlichen
Entwicklung eines Landes ist nachfolgende Tabelle
entnommen. Diese gibt Aufschluss über die Erspar-
nisse von privaten Haushalten sowie deren verfügba-
re Einkünfte in 10 aufeinander folgenden Jahren (in
Geldeinheiten).
X . . . verfügbares Einkommen
Y . . . Ersparnisse
Jahr xi yi
1 34.2 2.8
2 40.8 4.1
3 42.5 4.5
4 47.3 4.3
5 50.1 4.9
6 52.6 5.8
7 56.9 7.0
8 61.4 7.7
9 73.5 8.1
10 76.7 8.8
61
Streudiagramm und empirischer Korrelationskoeffizient
Ersparnisse
8,0
6,0
4,0
2,0
30,0 40,0 50,0 60,0 70,0 80,0
verfuegbares Einkommen
r = 0.97
Damit spricht nichts gegen die Annahme eines linea-

ren Zusammenhangs zwischen X und Y .
62
Wir passen daher eine Gerade
y = b0 + b1 x
der Punktwolke bestmöglich an, und zwar so, dass
die Summe der vertikalen Abstandsquadrate zwi-
schen Beobachtungspunkten und Gerade minimiert
wird (Methode der kleinsten Quadrate). Dieses Ver-
fahren wurde von C. F. Gauß entwickelt.
8,0
Ersparnisse
6,0
4,0
2,0
30,0 40,0 50,0 60,0 70,0 80,0
verfuegbares Einkommen
63
Mathematisch bedeutet das die Lösung des Optimie-
rungsproblems
n
X 2
yi − (b̂0 + b̂1xi) → min
i=1
bezüglich der Koeffizienten b̂0 und b̂1.
Die optimalen Werte dieser Koeffizienten werden mit

b0 und b1 bezeichnet.
Durch Nullsetzen der entsprechenden partiellen Ab-

leitungen ergibt sich
n
xiyi − nx y
P
b1 = i=1
n und b0 = y − b1 x
x2 − 2
P
i nx
i=1
Die so berechnete Gerade y = b0 + b1x heißt
Stichproben-Regressionsgerade.
Offenbar kennzeichnen b0 und b1 Nulldurchgang und
Anstieg dieser Gerade
Im Beispiel ergibt sich y = −1.7153 + 0.1402 · x .

64
Bemerkungen
Setzt man in die Regressionsgerade einen Wert x ein
(der nicht unbedingt Teil der Stichprobe zum Merkmal
X sein muss), dann erhält man einen entsprechenden
Vorhersagewert y.
Der Regressionskoeffizient b1 ist die mittlere Ände-

rung der y-Werte in der Stichprobe, wenn x um eine
Einheit zunimmt.
Beispiel
In einem Betrieb der Textilbranche wurden sechs
Garnwickelmaschinen während eines Arbeitstages
mit sechs verschiedenen Geschwindigkeiten (gemes-
sen in m/s) betrieben und jeweils die Zahl der Ausfälle
der Maschine gemessen. Für das Datenmaterial wur-
de die lineare Regressionsfunktion
y = −69.9 + 4.486 · x
ermittelt. Das heißt: Steigt die Geschwindigkeit um
1m/s, so erhöht sich die Zahl der Ausfälle um durch-
schnittlich 4,486 pro Tag.
65
Die Größe
n n
2
(yi − y) − (yi − (b0 + b1xi))2
P P
B = i=1 n
i=1
(yi − y)2
P
i=1
ist derjenige Anteil an der Gesamtvarianz der
y1, . . . , yn, der durch die Regressionsgerade erklärt
wird. B heißt empirisches Bestimmtheitsmaß.
Es gilt stets 0 ≤ B ≤ 1.
Je näher B an 1 liegt, desto besser ist die Anpas-

sungsgüte der Regression, das heißt, desto besser
passt“ der Regressionsansatz zu den Daten. Man
”
kann zeigen, dass im Falle der linearen Regression
(und i. allg. nur da) das Bestimmtheitsmaß gerade das
Quadrat des Korrelationskoeffizienten ist,
B = r2 .
Im obigen Beispiel (gesamtwirtschaftliche Entwick-

lung) ergibt sich B = r2 = 0.972 = 0.94 und man
kann von einer hohen Regressionsgüte sprechen.
66
Die beiden Merkmale seien (mindestens) ordinal
messbar.
Gegeben seien wieder n Beobachtungspaare

(x1, y1), (x2, y2), . . . , (xn, yn) zweier Merkmale
X und Y , die im Unterschied zu oben nur ordinal
messbar sein müssen.
Völlig analog zum empirischen Korrelationskoeffizien-

ten nach Pearson wird der empirische Rangkorrela-
tionskoeffizienten nach Spearman berechnet. Aller-
dings werden statt der Messwerte die Ränge dieser
Messwerte verwendet.
n
P
R(xi )R(yi ) − nR(x) R(y)
i=1
rS = s s
n 2 n 2
R(xi )2 − nR(x) R(yi )2 − nR(y)
P P
i=1 i=1
Dabei sind R(x) und R(y) die arithmetischen Mittel

der Rangzahlen.
67
Der Spearmansche Rangkorrelationskoeffizient ist
ein parameterfreies Maß für Korrelationen, das heißt,
er misst, wie gut eine beliebige monotone Funktion
den Zusammenhang zwischen den Merkmalen be-
schreiben kann, ohne irgendwelche Annahmen über
die Wahrscheinlichkeitsverteilung der Variablen zu
machen oder deren metrische Messbarkeit zu benöti-
gen.
Das Konzept der nichtparametrischen Korrelation be-

steht darin, den Wert xi bzw. yi einer jeden Messung
durch den Rang relativ zu allen anderen xj bzw. yj in
der Messung zu ersetzen. Falls die xi bzw. yi alle un-
terschiedlich sind, kommt jede Zahl dabei jeweils ge-
nau einmal vor. Falls identische Werte auftreten, wird
ihnen der Mittelwert der Ränge zugewiesen, die sie
erhalten hätten, wenn sie leicht unterschiedlich gewe-
sen wären. In diesem Fall wird von Bindungen oder
Ties gesprochen.
68
Es gilt stets −1 ≤ rS ≤ 1.
rS ist ein Maß für die Stärke eines monoto-

nen (gleichläufigen oder gegenläufigen) Zusammen-
hangs, d. h. X wächst oder fällt bei wachsendem Y .
rS = 1 gilt dann, wenn mit xi < xj auch immer
yi < yj ist, ein linearer Zusammenhang muss nicht
bestehen.
rS = 1 rS = −0.97
Falls keine Bindungen bestehen, lässt sich rS wesent-

lich einfacher berechnen:
n
d2
P
6 i
i=1
rS = 1− mit di = R(xi)−R(yi) .
n(n2 − 1)
69
Beispiel
Während des Semesters wurden Übungsaufgaben
von 10 Studenten bepunktet und am Ende des Seme-
sters mit den in der Klausur erreichten Punkten dieser
Studenten verglichen. Dabei wurde festgestellt, dass
die beste Klausur vom Studenten mit den meisten
Übungsaufgabenpunkten und die schlechteste Klau-
sur vom Studenten mit den wenigsten Übungsaufga-
benpunkten geschrieben wurde. Deshalb wird ein Zu-
sammenhang zwischen den Punkten in der Klausur
X und den Punkten in den Übungsaufgaben Y ver-
mutet.
Punkte Punkte Rang Rang Differenz Quadrat

Klausur Übungen Klausur Übungen Differenz
xi yi R(xi ) R(yi ) di d2i
76 122 1 1 0 0
44 67 6 8 -2 4
32 68 7 7 0 0
53 101 5 3 2 4
25 42 10 10 0 0
58 59 4 9 -5 25
26 118 9 2 7 49
59 79 3 6 -3 9
29 83 8 5 3 9
65 89 2 4 -2 4
70
Es bestehen keine Bindungen und damit gilt
n
d2
P
6 i
i=1
rS = 1 −
n(n2 − 1)
6 · 104
=1− = 0.37
10 · (100 − 1)
Dies weist auf einen (allerdings nicht sehr starken)

gleichläufigen Zusammenhang hin.
71
Die Merkmale seien (mindestens) nominal
messbar
Wir betrachten hier nur den Fall, dass die beiden
betrachteten Merkmale jeweils nur zwei mögli-
che Ausprägungen haben (oder entsprechend
transformiert wurden).
Liegen dagegen mehr als vier mögliche Ausprägun-

gen der Merkmalskombinationen (xi, yi) vor und
wurden die zugehörigen absoluten Häufigkeiten be-
stimmt, existieren allgemeinere Methoden und auch
Tests im Sinne der schließenden Statistik (Stichworte:
Kreuztabelle, χ2-Statistik). Hierzu sei auf die Literatur
verwiesen.
X habe die Ausprägungen A und A,

Y habe die Ausprägungen B und B.
Der Merkmalsraum
n Ω besteht dann aus 4o Merkma-
len, Ω = (A, B), (A, B), (A, B), (A, B) . Die ab-
soluten Häufigkeiten des Auftretens dieser Merkmale
in einer Stichprobe können in einer Vier-Felder-Tafel
dargestellt werden.
72
Beispiel:
Es soll die Stärke des Zusammenhangs zwischen
dem Auftreten von Windpocken und Röteln bei n =
124 Patienten mit einer Autoimmunerkrankung unter-
sucht werden. Auf Grund der Krankenakten ist ersicht-
lich, dass in 83 Fällen Röteln auftraten. Von diesen
Patienten erkrankten 48 auch an Windpocken. 23 Pa-
tienten hatten weder Röteln noch Windpocken. Das
ergibt die folgende Vier-Felder-Tafel.
B B
A a = 48 b = 18 66
A c = 35 d = 23 58
83 41 n = 124
73
Im Allgemeinen hat die Vier-Felder Tafel das folgende
Aussehen:
B B
A a b a+b
A c d c+d
a+c b+d n=a+b+c+d
Eine Maßzahl für Stärke und Richtung des Zusam-

menhangs zwischen dem Eintreten von A und B in
der Stichprobe (x1, y1), (x2, y2), . . . , (xn, yn) ist der
Phi-Koeffizient, der wie folgt definiert ist.
a·d−b·c
Φ=q .
(a + b) · (c + d) · (a + c) · (b + d)
74
Im Beispiel ergibt sich
48 · 23 − 18 · 35
Φ=√ = 0.13 .
66 · 58 · 83 · 41
Eigenschaften von Φ:
• −1 ≤ Φ ≤ 1
• Der Wertebereich von Φ ist oftmals einge-

schränkt, |φ| < 1. Es gibt dann kein gutes
Kriterium mehr um bei der Interpretation festzu-
legen ob ein Zusammenhang stark oder weniger
stark ist.
• Trotzdem gilt: Bei Φ = 0 besteht kein Zusam-

menhang zwischen dem Eintreten von A und B.
Bei Φ > 0 tritt A tendenziell häufig gemeinsam
mit B ein (das ist im konkreten Beispiel der Fall,
allerdings ist der Zusammenhang eher schwach).
Bei Φ < 0 tritt A tendenziell selten gemeinsam
mit B ein.
75

Statistische Beschreibung Des Zusammenhangs Zweier Merkmale

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Statistische Beschreibung Des Zusammenhangs Zweier Merkmale

Hochgeladen von

Copyright:

Verfügbare Formate

Statistische Beschreibung des Zusammenhangs

Wir betrachten jetzt pro Beobachtungseinheit gleich-

Wir erhalten eine konkrete zweidimensionale Stich-

(x1, y1), (x2, y2), . . . , (xn, yn)

• Besteht zwischen den Merkmalen ein Zusam-

• Lässt sich aus xi eine Voraussage (im Mittel) auf

• Wie groß ist das Maß an Übereinstimmung zwi-

Vor der Untersuchung eines eventuellen Zusammen-

120,0 140,0 160,0 180,0 200,0 220,0

Das Streudiagramm liefert eine Anschauung von der

linearer Zus. quadratischer Zus. exponentieller Zus.

Die lineare Regressionsanalyse ist ein statistisches

Ist p ≥ 2 (Anzahl der Einflußgrößen) spricht man von

30,0 40,0 50,0 60,0 70,0 80,0

Damit spricht nichts gegen die Annahme eines linea-

30,0 40,0 50,0 60,0 70,0 80,0

Die optimalen Werte dieser Koeffizienten werden mit

Durch Nullsetzen der entsprechenden partiellen Ab-

Im Beispiel ergibt sich y = −1.7153 + 0.1402 · x .

Der Regressionskoeffizient b1 ist die mittlere Ände-

Je näher B an 1 liegt, desto besser ist die Anpas-

Im obigen Beispiel (gesamtwirtschaftliche Entwick-

Gegeben seien wieder n Beobachtungspaare

Völlig analog zum empirischen Korrelationskoeffizien-

Dabei sind R(x) und R(y) die arithmetischen Mittel

Das Konzept der nichtparametrischen Korrelation be-

rS ist ein Maß für die Stärke eines monoto-

Falls keine Bindungen bestehen, lässt sich rS wesent-

Punkte Punkte Rang Rang Differenz Quadrat

Dies weist auf einen (allerdings nicht sehr starken)

Liegen dagegen mehr als vier mögliche Ausprägun-

X habe die Ausprägungen A und A,

a+c b+d n=a+b+c+d

Eine Maßzahl für Stärke und Richtung des Zusam-

• Der Wertebereich von Φ ist oftmals einge-

• Trotzdem gilt: Bei Φ = 0 besteht kein Zusam-

Das könnte Ihnen auch gefallen