Sie sind auf Seite 1von 37

Die Beschreibung der Beziehung zwischen metrischen Variablen

Sozialwissenschaftler sind haufig mit Fragen wie den folgenden kon- frontiert: In welchem MaBe steigt das Einkommen aus beruflicher Tatigkeit mit der Anzahl der Schul- bzw. Ausbildungsjahre? Wie sehr steigen die Ausgaben filr Wohnzwecke mit dem verfiigbaren Einkom- men der Privathaushalte? Steigt die Anzahl bestimmter Wirtschafts- delikte (etwa verbotener Absprachen) mit der Zunahme der wirtschaft- lichen Konzentration, d. h. mit der Anzahl der Untemehmenszusam- menschliisse? Wie stark nimmt die Interaktionsfrequenz mit zunehmen- dem Alter der Interaktionspartner ab? Variiert die Selbstmordrate mit der GrOBe der Wohngemeinde? Nimmt die Tagungsfrequenz freiwilliger Organisationen mit der GroBe der Organisationen (nach der Zahl ihrer Mitglieder) ab?

Diesen Fragen ist gemeinsam, daB sie die Analyse der Beziehung zwi- schen metrischen Variablen verlangen. Der Koeffizient, der ublicher- weise zur Beschreibung der Beziehung zwischen derartigen Variablen verwendet wird, ist der PEARSONsche Produkt-Moment-Korrelations- Koeffizient r, haufig kurz der Korrelationskoeffizient genannt. Der Koeffizient r beschreibt den Grad und die Richtung einer linearen Beziehung zwischen zwei (mindestens) intervallskalierten Variablen; er kann Zahlenwerte von -1 bis +1 annehmen.

Wir sahen in den vorangegangenen Kapiteln, daB die sogenannten PRE- MaBe eine einfache und klare Interpretation haben: sie geben AufschluB daruber, in welchem MaBe eine Fehlerreduktion bei der Vorhersage der abhangigen Variablen auf der Basis der unabhangigen Variablen erzielt wird. Dieses auf den Koeffizienten Lambda (fiir nominale Variablen) und Gamma (fur ordinale Variablen) anwendbare Interpretationsmodell

186 7 Die Beschreibung der Beziehung zwischen metrischen Variablen

laBt sich auch auf den PEARSONschen Koeffizienten r bzw. genauer:

auf r^ (fur metrische Variablen) anwenden. Wie die Zahlenwerte von Lambda und Gamma, so nimmt auch der Zahlenwert des Koeffizienten r mit der Vorhersagefehlerreduktion zu; je hoher der absolute Zahlenwert des Koeffizienten r, desto groBer ist die Fehlerreduktion und desto starker die Beziehung zwischen den Variablen. Obwohl der Koeffizient r auf verschiedene Weise dargestellt und interpretiert werden kann (siehe etwa die Erlauterung altemativer Interpretationsweisen bei McNEMAR, 1969, S. 129-153), betonen wir nachfolgend diese Perspektive, nach der die Beziehung zwischen X und Y die proportionale Fehlerreduktion reprasentiert, die X zugerechnet werden kann.

Wie bei der Erlauterung der PRE-MaBe Lambda und Gamma gezeigt, betreffen die Vorhersagen bei nominalen Variablen die kategoriale Zu- gehorigkeit und bei ordinalen Variablen die Rangordnung der Unter- suchungseinheiten. Dagegen werden bei metrischen Variablen spezifi- sche Werte der abhangigen Variablen auf der Basis gegebener Werte der unabhangigen Variablen vorhergesagt; hier ist die Assoziation bzw. Korrelation eine Frage der Vorhersage von Grofien. Infolgedessen sind die Vorhersagen nicht einfach richtig oder falsch; sie sind vielmehr in geringerem oder hoherem MaBe zutreflfend, weshalb auch die Vorher- sagefehler im Einzelfall groBer oder kleiner sind. Wenngleich aus diesem Grund die Defmitionen der Vorhersagefehler E^ und E2 etwas kompli- zierter sind als bei Lambda und Gamma, andert das nichts an der Anwendbarkeit der generellen Formel {E^ - £"2) / £'1.

7.1 Das Streudiagramm

Ahnlich wie sich univariate Verteilungen metrischer Variablen in Form eines Histogramms darstellen lassen, konnen bivariate Verteilungen metrischer Variablen in Form eines Streudiagramms (engl. scattergram) veranschaulicht werden. Das Streudiagramm hat den Zweck, einen visuellen Eindruck von der Beziehung zwischen den Variablen zu ver-

7.1

Das Streudiagramm

187

mitteln, bevor wir sie mit einem Korrelationskoeffizienten beschreiben; es ist ein unverzichtbares Hilfsmittel der bivariaten Analyse metrischer Daten.

Im Streudiagramm dient die horizontale (X-)Achse zur Reprasentierung der unabhangigen Variablen und die vertikale (Y-)Achse zur Reprasen- tierung der abhangigen Variablen. Die Deklarierung einer Variablen als unabhangig oder abhangig ist selbstverstandlich kein statistisches, son- dem ein theoretisches Problem. Wenn, wie in manchen Fallen, keine eindeutige kausale Beziehung zwischen Variablen angenommen werden kann, wird sie nicht etwa durch die Wahl der Bezeichnung und Anord- nung der Variablen konstituiert. Nichtsdestoweniger konnen wir auch die Beziehung zwischen willkurlich als unabhangig und abhangig be- zeichneten Variablen untersuchen, d. h. ihre bivariate Verteilung in einer Graphik darstellen und ihre Beziehung zueinander durch einen Korrela- tionskoeffizienten ausdrucken. Das Streudiagramm benutzt zwei Dimen- sionen zur Abbildung der Verteilung zweier Variablen, obwohl wir eigentlich drei Dimensionen verwenden mtlBten. Wollten wir bivariate Verteilungen wie univariate Verteilungen darstellen, benotigten wir zur Darstellung der Haufigkeit eine dritte Dimension. Da diese Dimension auf einem Blatt Papier fehlt, wird die Verteilung in Punkten abgebildet. Die Punkte werden so plaziert, daB jede Untersuchungseinheit gemaB ihres Abstandes x (Abszisse) und y (Ordinate) von den Koordina- tenachsen lokalisiert ist. Da jede Untersuchungseinheit durch einen Punkt (oder, wie von manchen Computerprogrammen ermoglicht, durch eine Zahl) reprasentiert wird, sind groBe Haufigkeiten durch viele und kleine Haufigkeiten durch wenige Punkte - durch dichte oder weniger dichte Punkteschwarme - gekennzeichnet.

Nehmen wir als fiktives Beispiel die Daten der Tabelle 7-1 iiber das monathche Nettoeinkommen (X) und die monatlichen Ausgaben fur Wohnzwecke (Y) von acht Privathaushalten. Tabelle 7-1 liefert uns zwei Informationen uber jede der acht Untersuchungseinheiten, einmal die monatlichen Einkilnfte und einmal die monatlichen Ausgaben fiir Wohn-

188 7 Die Beschreibung der Beziehung zwischen metrischen Variablen

Tabelle 7-1:

Monatliches Nettoeinkommen (X) und Monatliche Ausgaben fur Wohnzwecke (Y)

Privathaushalt

A

B

C

D

E

F

G

H

Monatliches Netto- einkommen (in 100 Euro)

Monatliche Ausgaben fiir Wohnzwecke (in 100 Euro)

Xi

Vi

42

7

44

6

46

10

48

8

52

14

54

16

56

12

58

15

40

Abbildung 7-1:

44

48

52

1

\

56

\

Streudiagramm zu den Daten der Tabelle 7-1

h

60

X

zwecke betreffend. Die zu untersuchende Frage sei, wie sehr die Aus-

7.1

Das Streudiagramm

189

gaben fur Wohnzwecke von der Hohe des Einkommens abhangen. Wir betrachten folglich das Einkommen als unabhdngige und die Ausgaben ftir Wohnzwecke als abhdngige Variable. Damit ist iiber die Anordnung der Variablen im Streudiagramm entschieden. Die Wertebereiche der beiden Variablen brauchen nicht bei Null zu beginnen (siehe Abbildung 7-1), da das Augenmerk auf das Muster der Punkte gerichtet ist; dieses Muster ist unabhangig von der relativen Lage des Punkteschwarms zum Ursprung des Koordinatensystems.

Das Muster der Punkte erlaubt uns, verschiedene Aspekte der Bezie- hung zu studieren. So konnen wir aus Abbildung 7-1 die Tendenz ab- lesen, daB die Ausgaben fiir Wohnzwecke mit steigendem Einkommen steigen. Im vorliegenden Fall besteht offensichtlich eine lineare Bezie- hung zwischen den Variablen. Die Punkte streuen nur wenig um eine Gerade, die wir durch den Punkteschwarm hindurchziehen konnen. Eine solche Gerade kann freihandig eingezeichnet oder rechnerisch bestimmt werden; sie heiBt Regressionsgerade.

Der Ausdruck Regression geht auf Sir Francis GALTON (1822-1911) zunick, der sich Ende des 19. Jahrhunderts mit den Implikationen der Theorien seines Vetters Charles DARWIN (1809-1882) beschaftigte und u. a. die Beziehung zwischen der KorpergroBe von Eltem und deren Kindem untersuchte. Bei diesen Vererbungsanalysen bediente er sich, wahrscheinlich erstmalig in der Geschichte der Statistik, des Streu- diagramms. GALTON stellte 1885 fest, daB groBe (kleine) Eltem zwar haufig groBe (kleine) Nachkommen hatten, daB sich aber zugleich eine Tendenz zur Regression (engl. law of filial regression) beobachten lieB, d. h. eine Tendenz der groBen (kleinen) Nachkommen, auf die Durch- schnittsgroBe aller Eltem zuruckzugehen bzw. zu „regredieren". Wenn die Eltem groBer (kleiner) waren als der Durchschnitt, tendierten ihre Kinder dahin, kleiner (groBer) zu sein als sie. Nach Auffassung GAL- TONs konnte diese Tendenz am besten durch eine Gerade ausgedruckt werden, die seitdem den merkwurdigen Namen Regressionsgerade hat. (Dem Regressionsproblem GALTONs verdankt im ubrigen der um 1895

190 7 Die Beschreibung der Beziehung zwischen metrischen Variablen

von Karl PEARSON (1857-1936) entwickelte Korrelationskoeffizient das Symbol r.)

Bei der in Abbildung 7-1 dargestellten Beziehung spricht man von einer direkten oder positiven linearen Beziehung oder Korrelation, weil die Ausgaben fur Wohnzwecke mit zunehmendem Einkommen tendenziell zunehmen; der Trend verlauft gleichmaBig von links unten nach rechts oben. Beziehungen, bei denen der Trend gleichmafiig von links oben nach rechts unten verlauft, heiBen inverse oder negative lineare Bezie- hungen oder Korrelationen. Beispiel: Mit steigendem Prokopfeinkom- men sinken die Ausgabenanteile fiir Ernahrung.

Nicht alle Beziehungen sind linear. Von den vielen moglichen Formen der Beziehung zwischen Variablen, denen sich die empirische Sozial- forschung gegenilbersehen kann, seien hier nur zwei kurvilineare er- wahnt: die u-fOrmige und die j-formige. Eine u-formige Beziehung wird haufig zwischen der Einstellung zu einem bestimmten Objekt (X-Varia- ble) und der Intensitat der Einstellung (Y-Variable) festgestellt, d. h., es wird beobachtet, da6 extreme Pro- und Contrapositionen heftiger vertre- ten werden als weniger extreme oder neutrale. Eine j-formige Beziehung ware denkbar zwischen der GroBe bestimmter freiwilliger Organi- sationen (X) und der Haufigkeit der Kontakte ihrer obersten Reprasen- tanten (Y).

Bei den in Abbildung 7-2 dargestellten Beziehungen ist das jeweilige Muster so klar zu erkennen, daB in jedes der Streudiagramme eine Regressionsgerarfe (a und b) oder eine Regressions^wrv^ (c und d) ein- gezeichnet werden kann. Das ist nicht immer moglich, z. B. dann nicht, wenn nur wenige MeBwerte vorliegen und keine endgilltige Entschei- dung dariiber getroffen werden kann, ob es sich um eine in alien Werte- bereichen der beiden Variablen lineare Beziehung handelt. Wie leicht auszumachen ist, bedecken die Punkteschwarme in Abbildung 7-2a und 7-2b die Flachen zweier unterschiedlich flacher Ellipsen, was besagt, daB die Punkte unterschiedlich weit um die Regressionsgerade streuen.

7.1

Das Streudiagramm

191

Y

 

20

 

• (

10

(a) positive Beziehung

X

10

X

(b) negative Beziehung

Lineare Beziehungen

(c)

X

u-formige Beziehung

X

(d) j-formige Beziehung

Kurvilineare Beziehungen

Abbildung 7-2:

Beispiele linearer und kurvilinearer Beziehungen

Wollten wir beispielsweise fur (a) und (b) den jeweiligen Y-Wert auf der Basis eines X-Wertes von, sagen wir, 10 schatzen bzw. vorhersagen, so stutzten wir unsere Schatzung bzw. Vorhersage am besten auf die Regressionsgerade, die fur (a) wie fiir (b) den Wert 20 angibt. In beiden Fallen ware unsere Vorhersage nicht fehlerfrei, weil tatsachlich keiner der Punkte genau auf der Regressionsgeraden liegt. Unsere Vorhersage ware allerdings im Fall (a) weniger unsicher als im Fall (b), weil die Punkte weniger weit von der Regressionsgeraden entfemt liegen; sie ware perfekt, wenn alle Punkte auf der Regressionsgeraden lagen. Offen-

192 7 Die Beschreibung der Beziehung zwischen metrischen Variablen

sichtlich variiert die Treffsicherheit der Vorhersage mit dem Grad der Streuung der Punkte um die Regressionsgerade, falls man die Vorher- sage auf die Regressionsgerade stutzt. Anders gesagt: Die Vorhersage- genauigkeit und die Korrelation sind um so hoher, je geringer die Punkte um die Regressionsgerade streuen; sie waren gleich Null, wenn die Punkte voUig unsystematisch streuten und z. B. die Flache eines Kreises bedeckten.

Wir kOnnen festhalten, da6 das Streudiagramm daruber informiert, ob eine Beziehung linear oder kurvilinear, ob sie positiv oder negativ und ob sie stark oder schwach ist. Es sollte klar sein, daB dieser Einsichten wegen schwerlich darauf verzichtet werden kann, vor der Berechnung eines Korrelationskoeffizienten das Streudiagramm zu studieren.

7.2 Lineare Regression und Korrelation

So wichtig die aus der Beschaftigung mit dem Streudiagramm gezogenen SchluBfolgerungen uber Art, Richtung und mutmaBliche Starke der Beziehung zwischen den Variablen auch sind, so sehr leiden sie unter dem Nachteil, auf einer subjektiven, nicht standardisierten Betrachtung zu gninden und ohne Wiedergabe des Streudiagramms nur schwer be- schreibbar zu sein. Das ist unprazise und unpraktisch zugleich. Zwar besteht im Prinzip kein Unterschied zwischen den durch bloBe Inspektion und den durch mathematische Operationen gewonnenen Feststellungen bezuglich der Beziehung zwischen den Variablen; letztere sind jedoch praziser, leichter mitteilbar und besser vergleichbar. Was wir also an- stelle eines subjektiven AugenmaBes brauchen, ist ein objektives MaB der Beziehung zwischen den Variablen.

Wenn wir uns nicht mit einer freihandig eingezeichneten Linie begnii- gen woUen, die den Punkten des Streudiagramms mehr oder weniger gut entspricht und als Regel fiir die Vorhersage von Y auf der Basis von X dienen kann, dann besteht unser erstes Problem darin, diese Linie auf

7.2 Lineare Regression und Korrelation

193

eine objektive Weise zu bestimmen. Nun sahen wir, da6 Beziehungen linear und kurvilinear sein konnen. Die Linie, die den Punkten eines Streudiagramms am besten entspricht, kann daher eine Gerade oder eine Kurve sein. Wir werden uns in diesem Kapitel nur mit Beziehungen befassen, die linear sind, d. h. durch eine Gerade reprasentiert werden konnen. Demnach besteht unser erstes Problem darin, diejenige Gerade zu fmden, die den empirischen Werten am besten entspricht. Wie wir sehen werden, kann dieses Problem mit der Methode der kleinsten Quadrate gelOst werden. Danach ist die Gerade so lokalisiert, daB die Summe der vertikalen Abweichungen der empirischen Werte von der Geraden gleich Null und die Summe der quadrierten Abweichungen ein Minimum ist.

7.2.1 Die Bestimmung der Regressionsgeraden

Wir wollen uns zunachst fragen, wie bei metrischen Daten Schatzungen bzw. Vorhersagen getroffen und Vorhersagefehler bestimmt werden. Das sei an einer univariaten Verteilung illustriert. Gegeben seien N = 9 Tennisspieler, von denen wir annehmen wollen, da6 sie im Laufe einer Spielsaison 54 Tumiersiege erzielten. Die Tumiersiege, hier Y-Variable genannt, seien wie folgt auf die einzelnen Spieler verteilt:

Spieler

Tumiersiege (Y)

A

4

B

0

C

6

D

10

E

2

F

4

G

12

H

6

I

10

Summe

54

194 7 Die Beschreibung der Beziehung zwischen metrischen Variablen

Gesucht sei der Wert, der diese Verteilung am besten reprasentiert, oder anders gesagt, der Wert, bei dem wir den „geringsten Fehler" begehen, wenn wir ihn fur jeden der neun Spieler als Schatz- bzw. Vorhersage- wert verwenden. Das verlangt eine Klarung der Frage, was unter dem „geringsten Fehler" zu verstehen ist. In Abschnitt 3.3.2.4 wurde die Va- rianz defmiert als die durch A^ geteilte Summe der quadrierten Abwei- chungen aller MeBwerte einer Verteilung von ihrem arithmetischen Mittel:

N

N

Da die Summe der quadrierten Abweichungen der MeBwerte von ihrem arithmetischen Mittel kleiner ist als die Summe der quadrierten Abwei- chungen der MeBwerte von jedem beliebigen anderen Wert, begehen wir den geringsten Fehler, wenn wir fiir jede Untersuchungseinheit das arith- metische Mittel als Vorhersagewert nehmen. Der zahlenmaBige Fehler, den wir bei der Vorhersage des arithmetischen Mittels begehen, ist die Summe der quadrierten Abweichungen der MeBwerte vom arithmeti- schen Mittel, die Variation, oder aber - wenn wir diese Quantitat durch N teilen - die Varianz (siehe Tabelle 7-2).

Unser bester Vorhersagewert, die durchschnittliche Anzahl der erziel- ten Tumiersiege, ist folglich y = 6, und unser Vorhersagefehler ist

E^ = S(y. -yf = 128 (Variation) bzw. I(y , -yf /N= 14.22 (Varianz).

Die zentrale Frage der Korrelation ist nun, ob und in welchem MaBe dieser Fehler, den wir begehen, wenn wir die Vorhersage auf die eigene Verteilung der Y-Variablen stiitzen, reduziert werden kann, wenn wir die Vorhersage auf eine andere Variable stutzen. Im vorliegenden Beispiel sei diese andere Variable die Anzahl der SUinden, die jeder einzelne Spieler pro Woche trainierte, hier X-Variable genannt. Wenn, was zu erwarten ist, die Variablen „Anzahl der Trainingssttmden pro Woche (X)" und „Anzahl der Tumiersiege pro Saison (Y)" miteinander korrelie-

7.2.1 Die Bestimmung der Regressionsgeraden

195

Tabelle 7-2: Berechnung des Vorhersagefehlers Ei = I,(yi -y)^

SIEGE

yt

yi-y

(y.- -7) '

4

-2

4

0

-

6

36

6

0

0

10

4

16

2

-

4

16

4

-

2

4

12

6

36

6

0

0

10

4

16

54

0

128

 

^/'

54

,2

TT\2

Z0;-7)

^128

 

isi—= —= 6

 

^ M

= 14.22

iV

9

^

N

9

Spieler

Trainingsstunden (X)

 

Tumiersiege (Y)

 

A

1

4

B

2

0

1

C

3

6

D

4

10

E

5

2

F

6

4

G

7

12

H

8

6

I

9

10

 

Summe

45

54

ren, sollte unsere zweite Vorhersage besser sein als die erste, d. h. den Vorhersagefehler reduzieren. Das Problem besteht folglich darin, die Werte der einen Variablen auf der Basis der Werte der anderen Variablen vorherzusagen. Das kann bei metrischen Variablen mit Hilfe mathe- matischer Funktionen geschehen, die im einfachsten Fall lineare Funktio-

196 7 Die Beschreibung der Beziehung zwischen metrischen Variablen

nen sind. Die denkbar einfachste Beziehung zwischen zwei metrischen Variablen ist die perfekt lineare, so daB eine bestimmte Veranderung der Werte der Y-Variablen mit einer bestimmten Veranderung der Werte der X-Variablen einhergeht.

Wie die folgenden Beispiele zeigen, kann eine perfekt lineare Beziehung geometrisch als Gerade und algebraisch als lineare Gleichung dargestellt werden:

0

X;

yt

1

2

3

4

X

 

0

1 2

3

0

1 2

3

4

0

2

4

6

4

3

2

1 0

Diese Beispiele sind spezielle Falle der generellen Gleichung einer Geraden

y = a + bx

bei der b die Steigung der Geraden (engl. slope) und a ihren Schnitt- punkt mit der Y-Achse (engl. intercept) bezeichnet, jenen Wert also, den wir bei x = 0 erhalten. Ob die Beziehung positiv oder negativ ist, wird durch das Vorzeichen des Steigungskoeffizienten b ausgedriickt.

7.2.1 Die Bestimmung der Regressionsgeraden

197

Trainingsstunden und Turniersiege

9 cases plotted. Correlation (r) = .54772 Intercept (a) = 2.00000

Trainingsstunden

Squared (r^) =

R

Slope (b) =

.30000

.80000

Abbildung 7-3:

Streudiagramm: Anzahl der Trainingsstunden pro Woche (X) und Anzahl der Turniersiege pro Saison (Y)

Die in ein Streudiagramm ubertragenen Daten unseres Beispiels von den Trainingsstunden und den Tumiersiegen lassen ein ellipsenformiges Muster der Punkte bzw. eine Tendenz der 7-Werte erkennen, mit zu- nehmenden X-Werten zuzunehmen, was eine positive lineare Beziehung zwischen den Variablen anzeigt (siehe Abbildung 7-3).

198 7 Die Beschreibung der Beziehung zwischen metrischen Variablen

Von den vielen moglichen Geraden, die wir in das Punktemuster der Abbildung 7-3 legen konnen, gilt es jene Gerade zu finden, die wir als „beste Vorhersage" von 7-Werten auf der Basis von X-Werten verwen- den konnen, so daB der Vorhersagefehler bei der Verwendung irgend- einer anderen Geraden nur noch groBer wird. Wenn wir den Vorher- sagewert mit y\ (lies „y Strich i") bezeichnen, lautet die Gleichung der Regressionsgeraden ^

Diese Gleichung besagt, daB ein auf der Basis eines gegebenen X-Wertes vorhergesagter (geschatzter, erwarteter, theoretischer) 7-Wert, namlich y\, gleich a^ + Z?^ (x^) ist. Ein solcher Vorhersagewert von Y fiir einen

gegebenen Wert von X kann bestimmt werden, wenn die Konstanten a^

und by^ ermittelt sind.

Da wir die gesuchte Gerade fiir Vorhersagezwecke verwenden woUen, und da wir oben den Vorhersagefehler als die Summe der quadrierten Abweichungen defmierten, soil sie - ahnlich wie im Falle des arith- metischen Mittels - folgende Eigenschaften haben: Die Summe der vertikalen Abweichungen der 7-Werte von der Geraden soil gleich Null und die Summe der quadrierten Abweichungen ein Minimum sein. Mit anderen Worten: Die gesuchte Gerade soil eine Gerade sein, um die die Punkte des Streudiagramms minimal streuen, verglichen mit der Streu- ung um jede andere Gerade. Dieser Eigenschaften wegen wird die ge- suchte Gerade die Linie der kleinsten Quadrate (engl. least squares line)

Aus der Verwendung der Subskripte, von denen wie tiblich das erste die abhangige Variable und das zweite die unabhangige Variable bezeichnet, geht per Implikation hervor, daB es eine zweite Regressionsgerade gibt, die man als „beste Vorhersage" von X-Werten auf der Basis von F-Werten benutzen kann. Die Gleichung dieser zweiten Regressionsgeraden lautet

x\

=

a^^b^{yi)

7.2.1 Die Bestimmung der Regressionsgeraden

199

und das Verfahren, das zu ihrer Berechnung angewandt wird, die Methode der kleinsten Quadrate (engl. method of least squares) ge- nannt. Man kann zeigen, da6 die Gerade dann die geforderten Bedin- gungen fiir eine gegebene bivariate Verteilung erfiillt, wenn die sog. Regressionskoeffizienten Oy^ und b^^ mit diesen Formeln berechnet werden:

byx =

N

1=1

/=1

^\2

Eine Gerade yi = ay^+by^(xi), deren Konstanten a^ und Z?^ in der

angegebenen Weise mit den Werten x^ und y^ zusammenhangen, ist die

zu den Werten gehorige Regressionsgerade.

Fiir die Daten unseres Beispiels (Trainingsstunden (X) und Tumiersiege (Y), siehe S.195 und Abbildung 7-3) erhalten wir folgende Mittelwerte und Regressionskoeffizienten (siehe Tabelle 7-3):

-

X

=

45

9

=

.

5

*« = —=0.8 •^

60

-

V =

•^

54

9

=

,

6

0^ = 6-0.8(5)= 2

Mit der Berechnung von Z?^ und a^ ist die zu den MeBwerten gehorige

Regressionsgerade bestimmt; sie lautet

200 7 Die Beschreibung der Beziehung zwischen metrischen Variablen

Tabelle 7-3:

TRAIN

^i

Berechnung der Regressionskoeffizienten a ^ und by^

SIEGE

yt

Xi

-X

(^,.-j) ^

yi-y

(Xi-x){yi-y)

1

2

4

0

- 4

3

- 9

16

- 8

- 18

2

6

3

6

2

- 4

0

0

4

10

1

- 1

4

-

4

5

2

0

0

- 4

0

6

4

1

1

2

- -

2

7

12

2

4

6

12

8

6

3

9

0

0

9

10

4

16

4

16

45

54

0

60

0

48

Der Steigungskoeffizient b gibt an, um wieviel die Y-Variable zunimmt, wenn die X-Variable um eine Einheit zunimmt (oder abnimmt, wenn die X-Variable um eine Einheit zunimmt). Der errechnete Wert von Z?^ = 0.8

besagt demnach, da6 mit der Zunahme des wochentlichen Trainings um eine Stunde die Tumiersiege um 0.8 zunehmen, oder anders gesagt, da6 die Erhohung der wochentlichen Trainingszeit um eineinviertel Stunden einen weiteren Tumiersieg eintragt (die beliebige Teilbarkeit der Trainingsstunden einmal unterstellt). Der Wert a^ = 2 scheint anzudeu-

ten, da6 sich zwei Tumiersiege ohne jedes Training (x = 0) erzielen

lassen. Diese Interpretation ist nicht zulassig, wie wir auch nicht sagen konnen, daB bei einem wochentlichen Trainingsaufwand von, sagen wir,

20 Stunden 2 + 0.8(20)= 18 Tumiersiege zu erwarten sind. Da wir nicht

wissen, ob die Regressionsgerade jenseits der Beobachtungsdaten, aus denen sie errechnet wurde, dieselbe Steigung hat, kann sie keine Aussagen begninden, die uber den Bereich der Beobachtungsdaten hinausgehen.

Ist die Regressionsgerade bestimmt, kann der Vorhersagewert (Schatz- wert, Erwartungswert, theoretische Wert) von Y fur jeden beobachteten

7.2.1

Die Bestimmung der Regressionsgeraden

201

Tabelle 7-4:

Berechnung des Vorhersagefehlers E2 = 2(yy -y\

)

TRAIN

SIEGE

^i

yi

/ /

yt-yt

(yi-yif

1

4

2.80

1.20

1.44

2

0

3.60

-3.60

12.96

3

6

4.40

1.60

2.56

4

10

5.20

4.80

23.04

5

2

6.00

-4.00

16.00

6

4

6.80

-2.80

7.84

7

12

7.60

4.40

19.36

8

6

8.40

-2.40

5.76

9

10

9.20

0.80

0.64

45

54

54.00

0.00

89.60

X-Wert berechnetwerden:

y^ = a

+b (x^)

= 2 + 0.8(jc^.)

Beispielsweise erhalten wir fur den Wert x = l den Schatzwert

Tabelle 7-4). Die 7'-

y = 2 + 0.8(1)= 2.80 (siehe alle neun 7'-Werte in

Werte, auch Vorhersage- oder Regressionswerte genannt, liegen not- wendig auf der in Abbildung 7-3 dargestellten Regressionsgeraden, weil sie mit der Gleichung dieser Geraden errechnet warden. Wie Abbildung 7-3 zeigt, passiert die Regressionsgerade den Schwerpunkt (x,y) des Punkteschwarms. Das geht aus der Gleichung a^ =y-by^(x) hervor, die in der Schreibweise y - Qy^^hy^i^) erkennen laBt, daB die Koordinaten des Punktes (x ,y), in unserem Beispiel des Punktes (5, 6), die Gleichung erfiillen (siehe auch Abbildung 7-1).

Die Abweichungen der (beobachteten) 7-Werte von den (vorhergesag- ten) 7'-Werten sind in Arbeitstabelle 7-4 errechnet. Wie man sieht, ist die Summe der Abweichungen der 7-Werte von den auf der Regres-

20 2

7 Die Beschreibung der Beziehung zwischen metrischen Variablen

sionsgeraden liegenden 7'-Weiten tatsachlich gleich Null Um nun zu Kennwerten zu gelangen, die iiber den Fehler informieren, den wir bei

unserer zweiten Vorhersage begehen, wird -

rechnung der Variation und der Varianz in Tabelle 7-2 - jede Abwei- chung quadriert.

ahnlich wie bei der Be-

£"2 =20'^-^/V )^ =89.60, die

(Variation), kann ebensogut als MaB des Fehlers bei der Vorhersage von

Y auf der Basis von X verwendet werden wie die durch A^ geteilte

Summe der quadrierten Abweichungen (Varianz). In Analogic zur Vari- anz wird der Fehler der Vorhersage von Y auf der Basis von X auch als sog. Fehlervarianz oder als nicht erklarte Varianz bezeichnet:

Abweichungen

Summe der quadrierten

A^

Diese KenngroBe unterscheidet sich dadurch von der Variation, daB die Summe der quadrierten Abweichungen der beobachteten Werte (y^) von den vorhergesagten Werten {y\) durch A^ dividiert wird; sie kann ebensogut wie die Variation mit der ihr entsprechenden KenngroBe der univariaten Verteilung der Y-Variablen verglichen werden. Die Ver- gleichsmoglichkeit dieser Kennwerte beruht auf der Ahnlichkeit des Ausdrucks (y^ - y\), der Abweichung der beobachteten Werte von der Regressionsgeraden, und des Ausdrucks {y^ - y), der Abweichung der beobachteten Werte vom arithmetischen Mittel. In beiden Fallen ist die Summe der Abweichungen gleich Null und die Summe der quadrierten Abweichungen ein Minimum.

In unserem Beispiel ergibt die Berechnung der Fehlervarianz den Zah-

lenwert s^y = %9.^^l9 = 99(i. Der Vergleich dieses Wertes mit dem

Wert, den wir bei der Vorhersage von y auf der Basis der Verteilung der

Y-Variablen allein errechneten, namlich s^y = 14.22, fiihrt zu der Fest-

7.2.2

Die proportionale Reduktion des Vorhersagefehlers

20 3

stellung, daB der Vorhersagefehler deutlich reduziert wird, wenn die Information tlber die X-Variable vermittels der linearen Regressions- gleichung ausgewertet wird, auf unser Beispiel bezogen, wenn zur Vor- hersage der Tumiersiege die wCchentlichen Trainingsstunden herange- zogen werden, Wir gelangen zu derselben SchluBfolgerung, wenn wir die Variation der ersten Vorhersage (128) mit der Variation der zweiten Vorhersage (89.60) vergleichen.

Die vorhergesagten Werte von Y (auf der Regressionsgeraden liegend) und die Abweichungen der beobachteten Werte von den vorhergesagten Werten sind in Abbildung 7-5 graphisch dargestellt. Jede Abweichung ist durch eine vertikale Gerade, die die beobachteten Werte (y^) mit den vorhergesagten Werten {y\) verbindet, reprasentiert. Die Summe der (positiven) Abweichungen oberhalb der Regressionsgeraden ist gleich der Summe der (negativen) Abweichungen unterhalb der Regressions- geraden. Die Summe der quadrierten Abweichungen ist die Variation der Y-Variablen, die nicht aufgrund der X-Variablen vorhergesagt werden kann; sie wird deshalb nicht erkldrte Variation (engl. unexplained variation, error variation) genannt.

7.2.2 Die proportionale Reduktion des Vorhersage- fehlers: r^

Wenn wir, wie zunachst gezeigt, nicht die bivariate Verteilung, sondem lediglich die Verteilung der Y-Variablen betrachten und einen repra- sentativen Wert dieser univariaten Verteilung vorhersagen, so ist die Antwort auf die Frage nach der besten Vorhersage: Das arithmetische Mittel {y).

(1) r^: Die KegelfUr die Vorhersage der abhdngigen Variablen auf der Basis ihrer eigenen Verteilung lautet deshalb wie folgt: „Sage ftir jede Untersuchungseinheit das arithmetische Mittel vorher."

204 7 Die Beschreibung der Beziehung zwischen metrischen Variablen

Trainingsstunden und Turniersiege

12-

0

Abbildung 7-4:

2

4

6

8

10

Trainings s tunden

Abweichungen der beobachteten Werte (y^) vom arithmeti- schen Mittel (y). Gesamtvariation ="Z{y.-y)^

In Tabelle 7-2 haben wir bereits die Abweichungen der beobachteten Werte {y^) vom arithmetischen Mittel {y) - die in Abbildung 7-4 gra- phisch dargestellt sind - und die Summe der quadrierten Abweichungen berechnet. Da diese Summe einzig auf der Verteilung der Y-Variablen beruht, kann sie als BezugsgroBe bei der Berechnung der proportionalen Reduktion des Vorhersagefehlers dienen, die bei Heranziehung der X-

7.2.2

Die proportionale Reduktion des Vorhersagefehlers

205

Trainingsstunden und Turniersiege

Abbildung 7-5:

Abweichungen der beobachteten Werte (y^) von den Re- gressionswerten (>^'/). Nicht erkl Variation = I^(y^ -y\

)^

Variablen erzielt wird. Die Summe dieser quadrierten Abweichungen wird Gesamtvariation (engl. total variation) genannt. Wenn wir, wie alsdann gezeigt, zur Vorhersage der abhangigen Variablen unter der Annahme einer linearen Beziehung zwischen X und Y die Information tiber die unabhangige Variable auswerten, ist die Antwort auf die Frage nach der besten Vorhersage: Der Regressionswert {y\).

7.2.2

Die proportionale Reduktion des Vorhersagefehlers

207

Trainingsstunden und Turniersiege

Abbildung 7-6:

4

6

Trainings s tunden

Abweichungen der Regressionswerte (y\) vom arithmeti- schen Mittel (y). Erkldrte Variation = Ij(y\-y)^

Die Variationszerlegung. Eine wichtige Eigenschaft der Summe der quadrierten Abweichungen der Beobachtungswerte vom arithmetischen Mittel (Gesamtvariation, engl. total variation) ist, daB sie zerlegt werden kann erstens in die Summe der quadrierten Abweichungen der Beob- achtungswerte von den Regressionswerten (nicht erkldrte Variation, engl. unexplained variation) und zweitens in die Summe der quadrier-

208 7 Die Beschreibung der Beziehung zwischen metrischen Variablen

Tabelle 7-5:

7T\2

Berechnung der erklarten Variation X(y\ -y)

TRAIN

SffiGE

^i

yi

y\

1

4

2.80

2

0

3.60

3

6

4.40

4

10

5.20

5

2

6.00

6

4

6.80

7

12

7.60

8

6

8.40

9

10

9.20

45

54

54.00

y

y\-y

(y^-yf

6

-3.20

10.24

6

-2.40

5.76

6

-1.60

2.56

6

-0.80

0.64

6

0

0

6

0.80

0.64

6

1.60

2.56

6

2.40

5.76

6

3.20

10.24

54

0.00

38.40

ten Abweichungen der Regressionswerte vom arithmetischen Mittel (erkldrte Variation, engl. explained variation). Die Abweichungen der Regressionswerte vom arithmetischen Mittel und die Summe der Quadrate sind in Arbeitstabelle 7-5 errechnet; in Abbildung 7-6 sind die Abweichungen graphisch dargestellt (als soUde Linien). Die Beziehung zwischen den Quantitaten wird durch die folgende Grundgleichung ausgedriickt:

I(y,-J7)2

Gesamtvariation

128

=

^(y'-y)

TT\2

Erkldrte Variation

38.40

20,- -y\

?

Nicht erkldrte Variation

89.60

Wenn wir beide Seiten dieser Gleichung durch I.{y^-y)^ dividieren, erhalten wir rechts zwei Ymditionsanteile, den erklarten und den nicht erkldrten Variationsa?7^^z7. Der erste Ausdruck auf der rechten Seite der Gleichung, der Anteil der Variation, der erkldrt ist, ist das Quadrat des r- Koeffizienten:

7.2.2

Die proportionale Reduktion des Vorhersagefehlers

209

^iyi-y?

Gesamtvariation

Gesamtvariation

^(Ji

-y?

Erkldrte Variation

+

Gesamtvariation

^iyi-yf

Nicht erkldrte Variation

Gesamtvariation

Variations-

Variations-

anteil, der

anteil, der

erkldrt ist

nicht erkldrt ist

\-r'

In unserem Beispiel ist die erklarte Variation gleich 38.40 (siehe Tabelle 7-5), folglich ist

r^ = ^OVZ) ; =

^{yi-yf

38 ^

128

.

0.300

Dieser Zahlenwert ist mit dem zuvor errechneten identisch.

Abbildung 7-7 soil unser Problem noch einmal verdeutlichen, das zu- nachst darin bestand, die Turniersiege (Y) ohne Berilcksichtigung der Trainingsstunden (X) vorherzusagen. Unsere beste Vorhersage war das arithmetische Mittel (y). Nach Auswertung der Information uber die X- Variable, d. h., nach Bestimmung der Regressionsgeraden sagten wir nicht mehr das arithmetische Mittel, sondem den Regressionswert {y\) vorher. Das reduzierte die Gesamtabweichung {y^ -y) \xm jenen Teil, der aufgrund der linearen Beziehung zwischen X und Y „erklart" ist (engl. deviation explained by regression), namlich {yi-y). Ubrig blieb ein Teil der Abweichung, namlich {y^ -yW der „nicht erklart" ist (engl. deviation not explained by regression).

7.2.2

Die proportionale Reduktion des Vorhersagefehlers

21 1

wird, wenn wir beide Seiten quadrieren und anschlieBend tiber alle / summieren. Nach dem Schema {a + hf = {a + b){a + b)= a^ +2ab + b'^ erhalten wir

= Z{y\-yf

+2I(y',~J7)Cy, -y\

)-YZ{y, -y\

f

Da aber der mittlere Ausdruck auf der rechten Seite dieser Gleichung, der Ausdruck 2i:{y\-y){y^-y\), den Zahlenwert Null hat, also ver- schwindet (siehe etwa NEURATH, 1974, Kap. IX, oder BORTZ, 1977, S.253-256), lautet die Grundgleichung

^(yi-yf

=

Wi-yf

+

^0^/-//)'

Wie die folgende Schreibweise der Grundgleichung vielleicht deutlicher erkennen laBt, druckt r^ die proportionale Reduktion des Vorhersage- fehlers aus, die sich als Differenz zwischen 1 und dem Verhaltnis des zweiten Vorhersagefehlers (£'2) zum ersten Vorhersagefehler (Ei) dar- stellt:

r^ = i_E2.=i

'^^yi'y'i^

Nicht erkldrte Variation

=

1

-

Gesamtvariation

= 1_1?:^ = 1_ 0.700 =0.300

128

21 2

7 Die Beschreibung der Beziehung zwischen metrischen

Variablen

Liegen samtliche Punkte auf der Regressionsgeraden, so ist der Vorher- sagefehler E2 und damit das Verhaltnis E2 zu E^ gleich Null; r^ ist dann gleich 1. Liegen die Punkte mehr oder weniger weit von der Regressionsgeraden entfemt, so ist das Verhaltnis E2 zu E^ groBer als

Null; r^ ist dann kleiner als 1. Liegen die Punkte derart weit von der Regressionsgeraden entfemt, dafi der Vorhersagefehler E^ durch Aus- wertung der Information iiber die X-Variable nur geringfiigig reduziert wird, so ist E2 ungefahr gleich E^ und damit das Verhaltnis E2 zu Ei nahe 1; r^ ist dann nahe Null

Da r^ jenen Anteil der Gesamtvariation der (abhangigen) Y-Variablen

reprasentiert, der durch die (unabhangige) X-Variable linear „erklart" bzw. „determiniert" wird (genauer: der der X-Variablen zugerechnet

werden kann, aber nicht mu6), wird der Koeffizient

tionskoeffizient (engl. coefficient of determination, proportion of ex-

plained variation) oder als Bestimmtheitsmafi bezeichnet.

r^ als Determina-

Der filr unser Beispiel errechnete Wert von r^ = 0,300 besagt, dafi - unter der Annahme einer linearen Beziehung zwischen den Variablen Trainingsstunden (X) und Tumiersiege (Y) - 30 Prozent der Variation der Y-Variablen der X-Variablen zugerechnet werden kann, oder anders ausgedriickt, dalJ die Variable X 30 Prozent der Variation der Variablen Y linear „erklart" bzw. „determiniert". Der Gebrauch der Wendungen „erklart" und „determiniert" impliziert selbstverstandlich nicht ohne weiteres eine kausale Erklarung, sondem lediglich eine statistische Beziehung zwischen den Variablen.

Wenn r^ jenen Anteil der Variation der Y-Variablen reprasentiert, der auf der Basis der X-Variablen linear vorhergesagt werden kann, dann stellt die Quantitat 1 - r^ jenen Anteil der Variation der Y-Variablen dar, der nicht aufgrund der linearen Beziehung zwischen X und Y vor- hergesagt werden kann:

7.2.2

Die proportionale Reduktion des Vorhersagefehlers

21 3

Erkldrte Variation

r^ =

Gesamtvariation

Erkldrte Variation

l-r^

= 1-

Gesamtvariation

Der Ausdruck 1-r^ ist folglich das Komplement zum Determinations- koeffizienten; er heiBt Koeffizient der Nichtdetermination (engl. coeffi- cient of nondetermination). Fiir unser Beispiel erhalten wir einen Zahlen- wert von

l-r^ = 1-0.300= 0.700

Dieser Wert besagt, daB 70 Prozent der Variation der abhangigen Varia- blen nicht mit der unabhangigen Variablen linear erklart werden kann. Konkreter: Die Tumiererfolge sind zwar zu einem gewissen Teil durch den TrainingsfleiB, jedoch zu einem erheblich groBeren Teil durch andere Faktoren „determiniert". Der Koeffizient der Nichtdetermination kann folglich als ein MaB der Starke des Einflusses nicht identifizierter Faktoren verwendet werden.

Es hat vielleicht den Anschein, als seien wir bisher ausschlieBlich mit der Vorhersage von 7-Werten auf der Basis von X-Werten beschaftigt ge- wesen. Das ist in Wahrheit nicht der Fall, obwohl wir uns faktisch nicht mit der Regression von X auf Y befaBt haben. Wir kennen bereits einige symmetrische Koeffizienten, d. h. Koeffizienten, die sich auf Vorher- sagen beziehen, die in die eine wie in die andere Richtung gehen. Da auch r^ symmetrisch ist {r'^yx = r^xy), ist es entbehrlich, zweimal zu

rechnen. Das heiBt, wir konnen r^ interpretieren entweder als Anteil der Variation der Y-Variablen, der mit der X-Variablen linear erklart werden kann, oder aber als Anteil der Variation der X-Variablen, der der Y- Variablen linear zugerechnet werden kann. Deshalb kann auch auf Sub- skripte verzichtet werden (r^ = r^yx = r'^xy).

21 4

7 Die Beschreibung der Beziehung zwischen metrischen Variablen

Die prinzipielle Reversibilitat von r^ sollte Grund genug sein, die Rede- weise zu reflektieren, die man bei der Interpretation aktueller Zahlen- werte antrifft oder wahlt. Wenn die auf den Koeffizienten r^ gestutzten Aussagen, rein statistisch betrachtet, prinzipiell umkehrbar sind, mu6 man sich fragen, ob die Bezeichnungen „Determinationskoeffizient", „Bestimmtheitsma6" und „erklarter Variationsanteil" tiberhaupt ange- messene Ausdrucke sind. Man sollte von „Determination" und „Erkla- rung" nur dann sprechen, wenn die Kausalitat einer Beziehung logisch und theoretisch begnindet ist. Andemfalls sind zunickhaltendere Wen- dungen eher angebracht wie etwa „soundsoviel Prozent der Variation der Y-Variablen kann (mu6 aber nicht) mit der X-Variablen erklart werden"

Oder „

, kann (mu6 aber nicht) zuruckgefiihrt werden auf

".

7.2.3 Der PEARSONsche Korrelationskoeffizient r

Dem Leser wird nicht entgangen sein, daU sich unsere bisherige Dis- kussion der linearen Beziehung nicht auf den (um 1895 von Karl PEARSON auf Anregung von Sir Francis GALTON entwickelten) Produkt-Moment-Korrelations-Koeffizienten r, sondem auf die Mafi- zahl r^ bezog, auf eine MaBzahl, die zwischen 0 und 1 variiert und den Vorzug einer klaren PRE-Interpretation hat. Tatsachlich wird aber nor- malerweise nicht r^, sondem r zur Beschreibung linearer Beziehungen benutzt. Warum das so ist, wird deutlich werden, wenn wir das Regressionsproblem noch einmal aufgreifen und dabei anstelle der oben zugrundegelegten OriginalmeBwerte Standardwerte verwenden, im tibri- gen aber genauso vorgehen wie oben, d. h. ein Streudiagramm anfertigen und die Regressionsgerade bestimmen.

Die Standardwerte oder z-Werte sind wie folgt defmiert (siehe Abschnitt

3.3.3):

^xi=-

^x

und

^yr^-^

^y

7.2.3

Der PEARSONsche Korrelationskoeffizient r

215

Tabelle 7-6:

TRAIN

Berechnung der Standardwerte

SIEGE

Xi

-X

^^/-.y

1

4

-

4

-

2

2

0

-

3

-

6

3

6

-

2

0

4

10

-

1

4

5

2

0

-

4

6

4

1

-

2

7

12

2

6

8

6

3

0

9

10

4

4

45

54

0

0

x = 5

y = 6

iZi^i-xf

s^ = 25820

TRAINZ

SIEGEZ

X^-

-X

 

^^

s

-1.5492

-0.5303

-1.1619

-L5910

-0.7746

0

-0.3873

1.0607

0

-1.0607

0.3873

-0.5303

0.7746

1.5910

1.1619

0

1.5492

1.0607

0.0000

0.0000

Sy = 3.7712

wobei

s^ = 1 -^^ iV

(Standardabweichung der X-Werte)

und

(Standardabweichung der7-Werte)

In Abbildung 7-8 ist die bivariate Verteilung der in Arbeitstabelle 7-6 errechneten Standardwerte unseres Rechenbeispiels graphisch darge- stellt. Wie ein Vergleich dieses Streudiagramms der Standardwerte (Abbildung 7-8) mit dem - hier wiederholten - Streudiagramm der OriginalmeBwerte (Abbildung 7-9) zeigt, bleibt die Konfiguration der Punkte von der Transformation der OriginalmeBwerte in Standardwerte vollig unberuhrt; der einzige Unterschied besteht in der veranderten Unterteilung der Koordinatenachsen.

7.2.3 Der PEARSONsche Korrelationskoeffizient r

217

Train!ngss-tunden und Turnlersiege

9 cases plotted. Correlation (r) = .54772 Intercept (a) = 2.00000

Trainingsstunden

Squared (r^) =

R

Slope (b) =

.30000

.80000

Abbildung 7-9:

Trainingsstunden und Turniersiege, Originalvariablen (TRAIN, SIEGE)

Diese Gleichung reduziert sich auf z y = Z)(z^.), weil jede Regres-

sionsgerade der z-Werte die Achsen bei z^=Zy = 0 schneidet; a ist also

in jedem Fall gleich Null.

7.2.3

Der PEARSONsche Korrelationskoeffizient r

219

Tabelle 7-7: Berechnung der Kreuzprodukte der Standardwerte

TRAINZ

SIEGEZ

(xi-x\

 

^-i^yi

I

s^ )

-1.5492

-0.5303

0.8215

2.4000

-1.1619

-1.5910

1.8486

1.3500

- 0.7746

0

0

0.6000

 

-0.3873

1.0607

-0.4108

0.1500

0

-1.0607

0

0

0.3873

-0.5303

- 0.2054

0.1500

 

0.7746

1.5910

1.2324

0.6000

L1619

0

0

1.3500

1.5492

1.0607

1.6432

2.4000

 

0.0000

0.0000

4.9295

9.0000

Fiir unser Rechenbeispiel erhalten wir die in Tabelle 7-7 ausgewiesenen Werte, aus denen r berechnet werden kann:

Yu^xi^yt _ 4.9295

r =

N

0.54772

Wenn wir den ermittelten Zahlenwert von r quadrieren, ist das Ergebnis:

{rf

= (0.54772)^ = 0.30000

Ein Vergleich dieser beiden Zahlenwerte mit den Korrelations- und Regressionskoeffizienten, wie sie mit SPSS einmal auf der Basis der OriginalmeBwerte (siehe Abbildung 7-9) und einmal auf der Basis der z-transformierten Werte (siehe Abbildung 7-8) errechnet wurden, zeigt, dafi die Ergebnisse vollstandig ubereinstimmen. Man beachte ins- besondere die Ubereinstimmung des Korrelationskoeffizienten und des Steigungskoeffizienten im Falle der z-transformierten Variablen (r = Z? = 0.54772).

22 0

7 Die Beschreibung der

Beziehung zwischen metrischen Variablen

Mit der Berechnung von r ist die Regressionsgerade der bivariaten Standardwerteverteilung determiniert. Im vorliegenden Beispiel lautet die Gleichung der Geraden:

zV. = 0.54772(z,.)

Mit dieser Gleichung konnen wir in direkter Analogic zur Rechnung mit den OriginalmeBwerten filr jeden X-Wert einen Vorhersagewert von Y (in Standardform) errechnen. Beispielsweise erhalten wir fiir den klein- sten z^-Wert den Vorhersagewert z'3, = 0.54772(-1.5492) =-0.8485, fiir

den groBten z^-Wert den Vorhersagewert z'^ = 0.54772(1.5492) = 0.8485.

Diese z'^-Werte sind die zu den jeweiligen z^-Werten gehorigen vor-

hergesagten 7-Werte, d. h. die auf der Regressionsgeraden liegenden z-Werte der Y-Variablen. Als solche konnen sie zur Lokalisation der Regressionsgeraden benutzt werden. Dazu benotigen wir zwei Punkte. Wenn die zugrundeliegenden Daten z-Werte sind, wahlt man haufig als einen dieser Punkte den Ursprung des Koordinatensystems, d. h. den Punkt (0, 0): Bei z^ = 0 ist z'^ = 0, weil z\ = r(0) = 0. Der zweite Punkt

ist schnell ermittelt, wenn z^ = 1 gewahlt wird. Da in unserem Beispiel

r = 0.54772, ist bei z^ = 1 der Wert z'^ = 0.54772(1) = 0.54772. Damit ist

die Regressionsgerade lokalisiert (siehe Abbildung 7-8).

Zwischen den Variablen unseres Beispiels „Anzahl der Trainings- stunden pro Woche (X)" und „Anzahl der Tumiersiege pro Saison (Y)" hatte cine perfekte positive lineare Beziehung bestanden, wenn bei jedem Spieler der z^-Wert gleich dem z^-Wert gewesen ware, beispielsweise

wenn der Spieler mit dem z^-Wert von -1.5492 auch einen z^-Wert von

-1.5492 gehabt hatte und die z-Werte aller iibrigen Spieler in derselben

und

Weise

usw.). Die Steigung der

1 gewesen (siehe auch

Regressionsgeraden ware dann genau gleich Abbildung 7-10).

perfekt

gepaart

gewesen

und

waren

(also

z^ = -1.5492

z^ =-1.5492;

z^=-1.1619

z^ =-1.1619

7.2.3

Der PEARSONsche Korrelationskoeffizient r

221

Abbildung 7-10:

•{

\

\

^y

^— ^

-2

/

1

}•

/

/ ^ r

= +l

^x

r = -0.5

Die Beziehung des Koeffizienten r zur Steigung der Regressionsgeraden, wenn die X- und 7-Werte Stan- dardwerte sind

Da der Koeffizient r symmetrisch ist {ry^ = r^ = r), hatten wir ebenso-

gut umgekehrt verfahren konnen und auf der Basis der z^-Werte die

korrespondierenden Vorhersagewerte der X-Variablen, d. h. die auf einer zweiten Regressionsgeraden liegenden z'^-Werte mit der Gleichung z\. = Q5A112{Zy,) vorhersagen konnen.

Vergleichen wir die beiden MaBzahlen r^ und r, so mag ihr Unter- schied auf den ersten Blick ais trivial erscheinen, da die eine MaBzahl aus der anderen berechnet werden kann: die eine ist das Quadrat bzw. die Quadratwurzel der anderen. Doch laBt eine mechanische Quadrierung von r, das „Quadrat der Steigung", kaum erkennen, da6 r^ jenen Teil der Variation der einen Variablen reprasentiert, der als durch die andere

7.2.4

Die Berechnung des Koeffizienten r

223

Tabelle 7-8:

Die Beziehung zwischen r, r

r

r^

oTo

0.01

0.20

0.04

0.30

0.09

0.40

0.16

0.50

0.25

0.60

0.36

0.70

0.49

0.80

0.64

0.90

0.81

und

\-r

\-r^

0.99

0.96

0.91

0.84

0.75

0.64

0.51

0.36

0.19

7,2.4

Die Berechnung des Koeffizienten r

Die oben diskutierten Konzepte und Operationen sollten eher dem Ver- standnis der Logik und der angemessenen Interpretation der MaBzahlen r^ und r dienen als mit gunstigen Verfahren zur Berechnung dieser Koeffizienten bekanntmachen. Die Zahlenwerte von r und r^ konnen sehr viel leichter bestimmt werden, wenn man sich gewisser Rechen- formeln bedient.

Die oben zitierte Definitionsformel (Standardwerteformel) des PEAR- SONschen Produkt-Moment-Korrelations-Koeffizienten, die Formel

Z-^--^^

xryi

N

r = -

ist wegen des erforderlichen hohen Rechenaufwandes zur Bestimmung des Zahlenwertes von r hochst unpraktisch, vor allem wenn die Anzahl der Falle groB ist. Die Verwendung dieser Formel verlangt zunachst die Berechnungje zweier Mittelwerte (x und y) und Standardabweichungen

22 4

7 Die Beschreibung der Beziehung zwischen metrischen Variablen

(s^ und Sy). Danach mussen dieX- und T-Werte in Standardwerte umge-

wandelt werden (z^. und z^.). Erst nach diesen umstandlichen Opera-

tionen konnen die Kreuzprodukte z^.Zy, gebildet werden, deren Summe

in die Defmitionsformel eingeht.

Die Rechenoperationen sind trotz gewisser Zwischenschritte weniger umfanglich, wenn man die folgende (erste) Rechenformel benutzt:

^ ^

^i^j-^Xyj-y)

Diese auf Abweichungen und Abweichungsquadraten basierende For- mel laBt sich wie folgt aus der Defmitionsformel entwickeln:

N

N^

'y.-y'

\

^y

y

Xix^-xXy^-y)

N

^

N

Hx^-x)(yi-y)

^Uxi-xf^liy.-yf

^(Xi-x)(y^-y)

^lix^-xfKy^-y)'

Obwohl diese Formel seltener als die nachfolgende zur Berechnung des Korrelationskoeffizienten verwendet wird, mag es instruktiv sein, sie auf die Daten unseres Beispiels anzuwenden, zumal wir bereits samtliche

7.2.4

Die Berechnung des Koeffizienten r

225

Tabelle 7-9: Berechnung des Korrelationskoeffizienten r

TRAIN

1

x^

1

2

3

4

5

6

7

8

9

45

SIEGE

yt

X,'

3^.-^

^/>'i

4

1

16

4

0

4

0

0

6

9

36

18

10

16

100

40

2

25

4

10

4

36

16

24

12

49

144

84

6

64

36

48

10

81

100

90

54

285

452

318

Elemente ermittelt haben (siehe die Tabellen 7-2 und 7-3). Durch Ein- setzen der entsprechenden Summen erhalten wir den schon bekannten Wert von

48

V(60)(128)

48

V7680

48

87.6356

: 0.54772

Da auch die vorangehende Formel die Berechnung von Mittelwerten voraussetzt, bereitet sie lastige Rechenarbeit, wenn die Mittelwerte Zahlen mit mehreren Dezimalstellen sind. Deshalb empfiehlt sich die Verwendung einer anderen Rechenformel, mit der der Koeffizient direkt aus den Originaldaten errechnet werden kann. Diese (zweite) Rechen- formel, die nur funf Summen und eine entsprechende Arbeitstabelle mit ftinf Spalten (siehe Tabelle 7-9) erfordert, ist:

r =

Nl^Xjyj

-IXjlly^

^(7^X,^-(IX,.)')(M:;;,2-(SJ.,)')

7.2.4

Die Berechnung des Koeffizienten r

227

Schulbildungsstatus und Berufsstatus

204-

15 cases plotted. Correlation (r) =

Intercept (a) = -25.32677

.96299

Schulbildungsstatus

R Squared (rM =

Slope (b) =

.92734

5.98188

Abbildung 7-11:

Beispiel einer sehr engen linearen Beziehung zwischen den Variablen „Schulbildungsstatus" und ,JBemfsstatus"