Sie sind auf Seite 1von 38

Die Beschreibung der Beziehung zwischen nominalen Variablen

Da es eine Vielzahl von MaBzahlen gibt, die zur Beschreibung der Beziehung zwischen nominalen Variablen geeignet sind (siehe etwa BISHOP et al, 1975, Kap. 11), kOnnen wir hier nur eine Auswahl be- sprechen. Diese Auswahl orientiert sich an zwei Kriterien: erstens daran, wie haufig die MaBzahlen in der sozialwissenschaftlichen Forschung ver- wendet werden, zweitens daran, ob sie mit Datenanalysesystemen, die in den Sozialwissenschaften bevorzugt werden (SPSS, BMDP, SAS und SYSTAT), berechenbar sind.

Einige der zu behandelnden MaBzahlen, namlich jene, die eine Funktion von Chi'Quadrat sind, erfahren oft berechtigte Kritik, weil deren Zah- lenwerte nur schwer interpretierbar sind. Dennoch werden wir auch auf diese Koeffizienten, denen man nicht nur in der alteren Forschungs- literatur begegnet, eingehen. Wir werden aber auch ein AssoziationsmaB fur nominale Variablen kennenlemen, das den „traditionellen" MaBen in dieser Hinsicht uberlegen ist, namlich das von GOODMAN und KRUSKAL (1954) vorgeschlagene MaB Lambda.

Die in diesem Kapitel behandelten MaBzahlen sind samtlich geeignet, die Beziehung zwischen Variablen zu beschreiben, die das Niveau einer Nominalskala haben, wie z. B. die Variablen Geschlechtszugehorigkeit, Familienstand, Konfessionszugehorigkeit, Beschaftigtenstatus, Partei- praferenz oder Nationalitat. Die ftir nominale Variablen konzipierten AssoziationsmaBe kdnnen lediglich voraussetzen, daB eine Klassifi- kation der Untersuchungseinheiten in rangmaBig nicht geordnete Kate- gorien vorgenommen wurde. Da die Kategorien nominaler Variablen beliebig angeordnet, d. h. jederzeit vertauscht werden konnen, ist un- mittelbar einsichtig, daB wir nicht von einer positiven oder negativen

5.1

Die Prozentsatzdifferenz

99

Beziehung sprechen konnen, wenn auch nur eine der beiden kreuz- tabulierten Variablen nominales MeBniveau hat. Die MaBzahlen zur Charakterisierung der Beziehung zwischen nominalen Variablen brau- chen deshalb nicht tlber die Richtung der Beziehung zu informieren; sie konnen vorzeichenlos sein, weil Vorzeichen bei nominalen Variablen inhaltlich nicht interpretierbar sind. In der Tat sind etliche fur nomi- nale Variablen geeignete MaBe vorzeichenlose Kennwerte, z. B. alle chi- quadrat-basierten MaBzahlen. Zwei auf nominale Variablen anwend- bare und im folgenden behandelte AssoziationsmaBe produzieren jedoch Vorzeichen; es sind dies die Prozentsatzdifferenz (d%) und der Phi- Koeffizient (falls letzterer direkt aus den Originaldaten einer 2x2 - Tabelle berechnet wird). Deren iiber den Richtungssinn einer Beziehung informierende Vorzeichen konnen von besonderem Interesse sein, wenn - was prinzipiell moglich ist - d% oder Phi fiir dichotomisierte Varia- blen hoheren MeBniveaus berechnet werden. Bei nominalen Variablen beschrankt sich die Interpretation der Vorzeichen dieser MaBe auf die Feststellung, daB bei positivem Vorzeichen eine (ad)-Dominanz und bei negativem Vorzeichen eine (bc)-Dominanz in der 2 x 2-Tabelle vorliegt (vgl Abschnitt 4.2.2).

5.1 Die Prozentsatzdifferenz

Welch niitzliche Funktion das vielleicht einfachste aller Assoziations- maBe, die Prozentsatzdifferenz (d%), hat, sei an einem Beispiel veran- schaulicht, das einer von HYMAN und WRIGHT (1971) durchgeftihr- ten Replikationsuntersuchung entnommen ist, in der die Mitgliedschaft Erwachsener in freiwilligen Organisationen erforscht wurde. Die Daten entstammen einer Befragung von US-Biirgem aus dem Jahre 1960; sie zeigen, daB Schwarze - in der damaligen Zeit und zur Zeit der Ver- offentlichung der Forschungsergebnisse noch nicht „Blacks" oder „Afro- Americans", sondem allgemein „Negroes" genannt - seltener als WeiBe Mitglieder freiwilliger Organisationen (ohne Gewerkschaften) waren (siehe Tabelle 5-1). Da HYMAN und WRIGHT die Basis der Frozen-

100

5 Die Beschreibung der Beziehung zwischen nominalen Variablen

Tabelle 5-1:

Percent of Respondents Belonging to Voluntary Associations (Excluding Unions) by Race, 1960

Race

0

1

2+

N

Negro

59%

19%

22%

96

White

48%

22%

30%

834

Tabelle 5-2:

Rassenzugehorigkeit und Mitgliedschaft in freiwilligen Organisationen

Rassenzugehorigkeit

 

schwarz

weiB

Mitgl.

freiwilliger

nein

57

400

Organisationen

Ja

39

434

 

96

834

%

%

 

nem

59

48

Mitgl. freiwilliger

Organisationen

 

ja

 

100

(834)

Abbildung 5-1:

Graphische Darstellung zu Tabelle 5-2

457

473

930

%

49

leicht in einer

Weise rekonstruiert warden, daB sich eine 2 x 2-Tabelle ergibt (siehe

tuierung mitteilen, konnen die Daten der Tabelle 5-1

5.1

Die Prozentsatzdifferenz

101

Diese Form der Daten legt es nahe, die Differenz zwischen den Pro- zentsatzen zur Beschreibung der Beziehung zwischen den Variablen „Rassenzugehorigkeit" und „Mitgliedschaft in freiwilligen Organisatio- nen" zu verwenden.

Abbildung 5-1 ist zu entnehmen, daB 49 Prozent aller Befragten nicht Mitglied freiwilliger Organisationen sind. Die Darstellung druckt jedoch nicht nur die Marginalverteilung, sondem auch die konditionalen Ver- teilungen in Prozentsatzen aus. Wir konnen infolgedessen prufen, in welchem MaBe die Mitgliedschaft in freiwilligen Organisationen mit der Rassenzugehorigkeit assoziiert ist. Wie leicht auszumachen ist, betragt die Differenz zwischen den beiden Subgruppen 59 - 48 = 11 Prozent- punkte. Diese Differenz zwischen den Prozentsatzen ist ein MaB der Beziehung zwischen den Variablen.

Mit Bezug zur Nomenklatur der 2 x 2-Tabelle (siehe Abschnitt 4.2.2) ist die Prozentsatzdifferenz (d%) wie folgt defmiert:

oder

^ %

= 100|

^

M-\-c

b + d.

d% =

lQO{ad-bc) [a + c){b + d)

Setzen wir die Daten der Tabelle 5-2 in diese Formeln ein, so erhalten wir:

d% = lOof— - — I = 100(0.59-0.48) = 11 ^

V96

8347

^

oder

_ 1Q0[(57)(434)-(40Q)(39)] _ 100(24738-15600) _ ~

(96)(834)

80064

Die Prozentsatzdifferenz betragt bei voUstandiger Unabhangigkeit (In- differenz) 0, bei voUstandiger Abhangigkeit bzw. Assoziation ±100.

102 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

Dieser Variationsbereich konnte unter Verzicht auf die Multiplikation mit 100 in den Bereich zwischen - 1 und +1 umgewandelt und auf diese Weise die Prozentsatzdifferenz den Koeffizienten, die konventionell zwischen - 1 und +1 variieren, angeglichen werden, namlich als Propor- tionsdifferenz. Das ist jedoch nicht iiblich. Insofem nimmt die Prozent- satzdifferenz unter den AssoziationsmaBen eine Sonderstellung ein.

Die Prozentsatzdifferenz vermittelt als einfaches, leicht errechnetes MaB einen plastischen Eindruck von der Beziehung zwischen den Variablen. Die Richtung wird durch das Vorzeichen ausgedruckt. Ein positives Vorzeichen gibt zu erkennen, daB die Beziehung entlang der (ad)-Dia- gonalen verlauft, wahrend ein negatives Vorzeichen das Ubergewicht entlang der (bc)-Diagonalen anzeigt.

Es gibt keinen Grund, die Prozentsatzdifferenz als ein primitives Asso- ziationsmaB zu betrachten, das eines qualifizierten Forschers unwurdig ist, weil es keinen Grund gibt, ein Konzept seiner klaren Bedeutung wegen abzulehnen. Prozentwerte sind die einzigen Kennwerte, die nicht- professionellen Lesem gelaufig sind. Man kann sicher sein, daB jedes andere AssoziationsmaB bei Laien auf groBere Verstandnisschwierig- keiten stoBt. Da aber viele sozialwissenschaftliche Aussagen und For- schungsberichte an ein nicht einschlagig vorgebildetes Publikum gerich- tet sind, sollte man die erhellende Funktion eines leicht verstandlichen AssoziationsmaBes nicht unterschatzen. Die Prozentsatzdifferenz ist durchaus geeignet, ein intuitives, wenn nicht fundamentals Verstandnis ftir das Konzept der Assoziation zu vermitteln. Infolgedessen ist die Verwendung der Prozentsatzdifferenz als MaB der Beziehung stets zu er- wagen, wenn die kreuztabulierten Variablen zwei Kategorien haben, d. h. Dichotomien sind.

Was fur 2 x 2-Tabellen gilt, gilt nicht fiir beliebig groBe Tabellen. GroBere als Vierfeldertabellen weisen mehr als eine Prozentsatzdif- ferenz auf Nehmen wir beispielsweise an, eine aus der Kreuztabula- tion der dichotomisierten Variablen „Autoritarismus" (niedrig / hoch)

5.1

Die Prozentsatzdifferenz

103

und der trichotomisierten Variablen „Schichtzugehorigkeit" (Unter- schicht / Mittelschicht / Oberschicht) resultierende 2 x 3-Tabelle hatte folgende Prozentwerte in der Kategorie „niedrig": Unterschicht 70 Pro- zent, Mittelschicht 60 Prozent und Oberschicht 40 Prozent. Hier ware die Differenz zwischen der Unter- und Mittelschicht 10 Prozent, zwischen der Unter- und Oberschicht 30 Prozent und zwischen der Mittel und Oberschicht 20 Prozent. Lage (iberdies die Variable „Autoritarismus" nicht dichotomisiert, sondem trichotomisiert vor (niedrig / mittel / hoch), so ware das Bild noch komplizierter, well dann in jeder Schicht drei statt zwei Prozentwerte auftraten. Es liegt auf der Hand, daB bei groBeren als Vierfeldertabellen der Rekurs auf Prozentsatzdifferenzen eher Verwir- rung stiften wurde als ein MaB der Beziehung, das unabhangig von der TabellengroBe die Assoziation zwischen den Variablen mit einer ein- zigen Zahl beschreibt.

Prinzipiell besteht naturlich immer die Moglichkeit, eine groBere als

2 X 2-Tabelle durch Zusammenfassung der Kategorien auf eine 2x2 -

Tabelle zu reduzieren. Von dieser Moglichkeit haben wir in unserem oben zitierten Beispiel aus der Untersuchung von HYMAN und WRIGHT (1971) Gebrauch gemacht. Man sollte sich jedoch hixten, dieses Vorgehen als eine geschickte Datenanalysepolitik anzusehen und gewissermaBen blind anzuwenden, weil dadurch leicht Informationen verschenkt und falsche Eindrucke erzeugt werden konnen. So haben wir in unserem Beispiel lediglich die Information ausgewertet, die sich auf die Dichotomic „Mitgliedschaft" versus „Nicht-Mitgliedschaft" bezieht; wir haben darauf verzichtet, die gegebene Information zu berucksich- tigen, daB nur 19 Prozent der befragten Schwarzen, aber 22 Prozent der befragten WeiBen Mitglied einer freiwilligen Organisation sind, und daB nur 22 Prozent der befragten Schwarzen, aber 30 Prozent der befragten WeiBen Mitglied zweier oder mehrerer freiwilliger Organisationen sind. Es sollte klar sein, daB wenig dafur spricht, diese Information zu unter- schlagen, sondern viel dafur, sie in der Datenanalyse auszuwerten. Dazu benotigen wir AssoziationsmaBe, die auch fur groBere als 2 x 2-Tabellen geeignet sind.

104 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

5.2 AssoziationsmaBe auf der Basis von Chi-Quadrat

Statt, wie bei der Prozentsatzdifferenz, die konditionalen Verteilungen einer Vierfeldertabelle miteinander zu vergleichen, kann man die vorge- fundene Besetzung der Zellen (auch groBerer als 2 x 2-Tabellen) mit einer Besetzung vergleichen, die man erwarten wurde, wenn keine Beziehung zwischen den Variablen besttlnde, Auf einem solchen Ver- gleich der Haufigkeiten der sog. Kontingenztabelle (fb) mit den Haufig- keiten der sog. Indifferenztabelle (fe) beruhen die traditionellen chi- quadrat-basierten MaBzahlen, die sich filr Daten aller MeBniveaus, also auch filr nominalskalierte Daten, berechnen lassen. Dabei wird die MaB- zahl Chi-Quadrat {x^) nach der folgenden Formel berechnet:

,2 _-sr{fb - fe)

=r-

fe

Wie wir sehen werden, kann Chi-Quadrat fiir 2 x 2-Tabellen auch unter Verzicht auf die Ermittlung der erwarteten Haufigkeiten nach der fol- genden Formel berechnet werden:

2

N[ad-bc) (a + b)[c + d)[a + c)[b + d)

In alien anderen Fallen besteht der erste Schritt zur Berechnung eines chi-quadrat-basierten AssoziationsmaBes darin, die erwarteten Haufig- keiten der Indifferenztabelle zu ermitteln. Die Indifferenztabelle ist insofem eine imaginare Tabelle, als sie die gemeinsamen Haufigkeiten bei gegebenen Randverteilungen in einer Weise darstellt, wie wir sie antrafen bzw. zu erwarten hatten, wenn keine Beziehung zwischen den Variablen bestunde, d. h., wenn die Variablen voneinander unabhangig waren. Der zweite Schritt besteht darin, die beobachteten gemeinsamen Haufigkeiten der Kontingenztabelle (fb) mit den erwarteten, den, wie man auch sagt, „theoretischen" gemeinsamen Haufigkeiten der Indifferenz- tabelle (fe) zu vergleichen. Je groBer die Differenz zwischen den Haufig-

5.2 Assoziationsmafie auf der Basis von Chi-Quadrat

105

keiten der beiden Tabellen ist, desto groBer ist die Abweichung von der statistischen Unabhdngigkeit und der Grad der Assoziation zwischen den Variablen. Der dritte und letzte Schritt besteht darin, die Differenzen zwischen beiden Tabellen zur Berechnung des AssoziationsmaBes heran- zuziehen.

Zur Erlauterung der Rechenschritte sollen uns die in Tabelle 5-3 und Abbildung 5-2 zitierten Teilergebnisse einer Untersuchung aus den USA dienen. McDILL und COLEMAN (1963) fanden bei der Analyse von Befragungsdaten folgende Beziehung zwischen dem sozialen Status - innerhalb der Schiilerschaft von High-School-Besuchem, die zunachst als „Freshmen" (1957) und spater als „Seniors" (1961) befragt worden waren - und der Absicht, nach dem Besuch der High-School ein College zu besuchen:

Tabelle 5-3:

Die Beziehung zwischen dem Status in einem Sozialsystem und der Absicht, ein College zu besuchen

 

(a) Freshmen

 

(b) Seniors

 

Social Status

Social Status

High

Low

High

Low

College

Yes

85

206

291

Yes

112

155

267

Plans

No

59

252

311

No

57

278

335

 

144

458

602

169

433

602

^ = 0.12

^ = 028

Aus Tabelle 5-3 und Abbildung 5-2 geht hervor, daB (a) die Korrelation zwischen den Variablen „Sozialer Status" und „Collegeplane" zu beiden Befragungszeitpunkten positiv ist (obwohl die Kategorien der Variablen nicht entsprechend der Konvention angeordnet vmrden - wobei man daniber streiten kann, ob auch die Variable „College Plans" eine ordinale Oder nicht lediglich eine nominale Variable ist - , ist das Vorzeichen des

106 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

(a) Freshmen

(b) Seniors

Social Status

Social Status

 

High

Low

Total

High

Low

Total

%

%

%

%

%

%

Yes

48

44

College

Plans

No

Hi

100

100

100

100

100

100

(144)

(458)

(602)

(169)

(433)

(602)

Abbildung 5-2:

Die Beziehung zwischen dem Status in einem Sozialsystem und der Absicht, ein College zu besuchen. Graphische Dar- stellung zu Tabelle 5-3

P/zz-Koeffizienten korrekt, da die Kategorien beider Variablen vertauscht wurden, was unschadlich ist) und da6 (b) die Korrelation im Laufe der vier Schuljahre, die zwischen den Befragungen liegen, zunimmt. Dariiber geben nicht nur die in Tabelle 5-3 ausgewiesenen Zahlenwerte des von McDILL und COLEMAN berechneten (und gleich zu erlautemden) Phi- Koeffizienten AufschluB (^ = 0.12 und ^ = 0.28), sondem auch die schnell berechneten Prozentsatzdifferenzen: Fiir die „Freshmen" erhal- ten wir einen Wert von d% = 59 - 45 = 14 und fiir die „Seniors" einen Wert vonrf% = 66 - 36 = 30.

Uns soil zunachst die Frage beschaftigen, wie man, dargestellt am Beispiel der „Freshmen", die gemeinsamen Haufigkeiten der Indiffe- renztabelle berechnet. Dazu greifen wir auf die marginalen Haufigkeiten

5.2 Assoziationsmafie auf der Basis von Chi-Quadrat

107

der Tabelle 5-3a zunick, jener Tabelle, die in diesem Zusammenhang Kontingenztabelle genannt wird. Auf der Basis der marginalen Haufig- keiten der Kontingenztabelle berechnen wir fur jede Zelle der Indiffe- renztabelle die sog. theoretische oder erwartete Haufigkeit. Aus dieser Berechnung gehen konditionale Verteilungen hervor, die, ausgednickt in Prozentwerten, unterschiedslos oder „indifferent" sind.

Nach der in Abschnitt 4.2.1 beschriebenen Notation hat die Zelleij der Indifferenztabelle die erwartete Haufigkeit

f^ij

=

N

Beziehen wir uns auf Tabelle 5-3a, so erhalten wir z. B. ftir Zellen die erwartete Haufigkeit

-^

N

602

Das Ergebnis der gesamten Rechnung ist die in Tabelle 5-4 mit der Kontingenztabelle kontrastierte Indifferenztabelle.

Tabelle 5-4:

Kontrastierung der Kontingenztabelle mit der Indifferenztabelle

Kontingenztabelle (fh)

Indifferenztabelle (/^)

Freshmen

Freshmen

Social Status

Social Status

 

High

Low

High

Low

College

Yes

85

206

291

Yes

69.6

221.4

291.0

Plans

No

59

252

311

No

74.4

236.6

311.0

 

144

458

602

144.0

458.0

602.0

108 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

Man beachte und kontrolliere, daB sich die Haufigkeiten der Indiffe- renztabelle zu den Randhaufigkeiten der Tabelle addieren. (Da die mar- ginalen Haufigkeiten der Indifferenztabelle fixiert sind, ist eine 2x2 - Tabelle mit der Bestimmung von nur einer erwarteten Haufigkeit deter- miniert; die erwarteten Haufigkeiten der ubrigen drei Zellen sind die jeweilige Differenz zwischen der errechneten Haufigkeit und der ent- sprechenden Randhaufigkeit. Zwecks Vermeidung von Folgefehlern em- pfiehlt sich jedoch die Berechnung aller erwarteten Haufigkeiten durch MultipUkation der marginalen Zeilen- und Spaltenhaufigkeit, geteilt durch die Gesamthaufigkeit.)

Ob die ermittelten theoretischen Haufigkeiten der Indifferenztabelle in der Tat eine Tabelle ergeben, in der die Variablen voneinander unab- hangig sind, laBt sich durch die Berechnung der relativen Haufigkeiten der konditionalen Verteilungen leicht iiberprufen. Falls keine Beziehung zwischen den Variablen besteht, mussen per definitionem die konditio- nalen Verteilungen, in Proportionen oder Prozentwerten ausgedruckt, identisch sein; nur dann liegt eine Indifferenztabelle vor. Da in unserem Beispiel die abhangige Variable lediglich zwei Kategorien hat, geniigt es, die Prozentwerte von nur einer Kategorie jeder konditionalen Verteilung zu berechnen. Es zeigt sich, daB die konditionalen Verteilungen tatsach- lich unterschiedslos sind und mit der Marginalverteilung der Variablen „College Plans" (ibereinstimmen (siehe Abbildung 5-3):

^(100 ) = 48.3 ^

144^

^?i:^(lOO) = 48.3 ^

458 ^

—(lOO) = 48.3 ^

602^

Infolge von Rundungen ergeben sich hierbei gelegentlich kleine Diffe- renzen.

Mit der Bestimmung der erwarteten Haufigkeiten ist der erste Schritt zur Berechnung chi-quadrat-basierter AssoziationsmaBe getan. Der zweite Schritt besteht darin, die Differenzen zwischen den beobachteten Haufigkeiten der Kontingenztabelle und den erwarteten Haufigkeiten

5.2 Assoziationsmalie auf der Basis von Chi-Quadrat

(a) Freshmen

Social Status

 

High

Low

Total

%

%

%

Yes

College

Plans

No

 

100

100

100

(144)

(458)

(602)

109

Abbildung 5-3:

Veranschaulichung der Indifferenztabelle (siehe Tabelle 5-4)

der Indifferenztabelle festzustellen. Faktisch bedeutet dies, die MaBzahl Chi-Quadrat zu berechnen. Dazu bedient man sich einer nutzlichen Arbeitstabelle und einer vereinfachten Notation. Die vereinfachte Nota- tion benutzt anstelle der Symbole Jbij und feij fiir die beobachteten und die erwarteten Haufigkeiten die Symbole j ^ und^.

Die aktuelle Berechnung der MaBzahl Chi-Quadrat mit Hilfe der

Arbeitstabelle (siehe Tabelle 5-5) ist ilberaus einfach. Dabei wird erstens

der beobachteten Haufigkeit (fb) und

der erwarteten Haufigkeit {fe) einer jeden Zelle berechnet: {ft-fe)^ zweitens jede ermittelte Differenz quadriert: (ft-fe)^, drittens jede quadrierte Differenz durch die erwartete Haufigkeit dividiert:

{fh~ fef ^ fe^ und schlieBlich viertens iiber alle Zellen summiert:

die Differenz zwischen

Y,{fb-feflfe=Z^-

no

Tabelle 5-5:

Zeile

Spalte

J

1

2

2

2

Summe

2

i

1

1

1

5 Die Beschreibung der Beziehung zwischen nominalen Variablen

Arbeitstabelle zur Berechnung von Chi-Quadrat

h

85

206

59

252

602

/ .

69.6

221.4

74.4

236.6

602.0

ifb-fe)

15.4

-15.4

-15.4

15.4

0.0

{fb-fef

237.2

237.2

237.2

237.2

ifb'fe?

fe

3.408

1.071

3.188

1.003

8.670

Obwohl der in Tabelle 5-5 errechnete Wert von x'^ = 8.670 das AusmaB der Abv^eichung der Kontingenztabelle von der Indifferenztabelle und damit den Grad der Abweichung der bivariaten Verteilung von der statistischen Unabhangigkeit reflektiert, kann er in dieser Form nicht als sinnvoller Kennwert der Beziehung zw^ischen den Variablen fungieren. Denn wie die in Tabelle 5-6 dargestellten Haufigkeitsverteilungen zei- gen, fuhrt eine Verdoppelung der Zellenhaufigkeiten bei identischen kon- ditionalen Verteilungen bzw. bei denselben Proportionen der Tabellen zur Verdoppelung des Chi-Quadrat-WQitQs:

Tabelle 5-6:

Tabellen mit identischen Proportionen, aber unterschiedlichen Chi-Quadrat-Werten

(a)

(b)

(c)

24

16

40

48

32

80

96

64

160

16

24

40

32

48

80

64

96

160

40

40

80

80

80

160

160

160

320

Z'

= 3.2

Z'

= 6.4

Z'

= 12.8

Chi-Quadrat variiert also direkt mit A^. Da wir aber nicht an einer MaBzahl interessiert sind, die bei identischen Graden der Beziehung in

5.2 Assoziationsmafie auf der Basis von Chi-Quadrat

111

Abhangigkeit von der Anzahl der Falle unterschiedliche Werte an- nimmt, mu6 ein auf Chi-Quadrat basierendes AssoziationsmaB die Anzahl der Falle {N) berucksichtigen. Ein solches Ma6 ist der Phi- Koeffizient, defmiert als

^^= ^

bzw.

^ =

j

N ^ N

Fur die Beispiele der Tabelle 5-6 erhalten wir einen Zahlenwert von

,

11 ^

= 0.20

fl60

V320

Der letzte Schritt zur Berechnung eines chi-quadrat-basierten Assozia- tionsmaBes besteht - wie gezeigt - darin, den Chi-Quadrat-Wort in die Formel des Koeffizienten einzusetzen. Ftir unser obiges Rechenbeispiel erhalten wir bei z^ = 8-67 und N= 602 einen Zahlenwert von

bzw.

^^= ^ = —

A^

602

= 0.0144

^ = V0.0144 = 0.12

Wie oben erwahnt, batten wir den Chi-Quadrat-Wort filr unsere Vier- feldertabelle auch ohne Ermittlung der erwarteten Haufigkeiten nach die- ser Formel berechnen konnen:

2_

N[ad-bcf

^ " {a + b)[c-^d]{a + c)[b + d)

Das Ergebnis der folgenden Rechnung zeigt, daB der mit dieser Formel ermittelte Chi-Quadrat-^Qxi bis auf eine geringftigige, auf Rundungen zunickgehende Differenz mit dem obigen Wert iibereinstimmt:

112 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

^

2

602[(85)(252)-(2Q6)(59)]^

(291)(311)(144)(458)

^^^

von Phi algebraisch iiberein-

stimmende, auf das Vierfelderschema bezogene Formel zur direkten Berechnung des Phi-Koeffizienten ist

Eine mit der obigen Defmitionsformel

ad - be

(j) = ^{a + b){c + d)[a + c){b + d)

Auf unser Rechenbeispiel angewandt, erhalten wir mit dieser Formel einen Wert von

(85)(252)-(206)(59)

V(291)(311)(144)(458)

_^^^

Dieser Zahlenwert ist mit dem oben errechneten identisch. Ein beach- tens werter Unterschied liegt darin, daB ein nach der Formel ^^ = j ^ / A^ berechneter Wert vorzeichenlos ist, ein nach der zuletzt verwendeten Formel berechneter Wert jedoch zwischen -1 und +1 variieren kann. Da es stets von Interesse ist, die Richtung der Beziehung zu kennen (Uber- gewicht entlang der (ad)-Diagonalen oder der (bc)-Diagonalen), ist die auf die Vierfeldertabelle zugeschnittene Formel zu bevorzugen, falls man den Koeffizienten Phi „von Hand" berechnet. Bei ordinalen und metri- schen Daten kommt hinzu, daB das Vorzeichen nicht nur formal, sondem auch inhaltlich interpretiert werden kann.

Ftir 2 X 2-Tabellen ist Phi ein sensibles AssoziationsmaB. Es nimmt den Wert 0 an, wenn die beobachteten Haufigkeiten mit den unter der Bedin- gung der statistischen Unabhangigkeit erwarteten Haufigkeiten uberein- stimmen. Phi erreicht den Wert 1, wenn Chi-Quadrat seinen maximalen Wert, namlich A^, erreicht. Das ist der Fall, wenn zwei Diagonalzellen der 2 X 2-Tabelle unbesetzt sind.

5.2

Assoziationsmafte auf der Basis von Chi-Quadrat

113

Filr groBere als 2 x 2-Tabellen kann ^^ > 1 werden - eine bei Assozia- tionsmaBen unerwunschte Eigenschaft, die sie als VergleichsgroBen untauglich werden laBt. Deshalb sind fiir r x c-Tabellen andere Koeffi- zienten vorgeschlagen worden, die ebenfalls eine Funktion von Chi- Quadrat sind, aber den Wert 1 als Obergrenze haben. Eines dieser MaBe ist der nach TSCHUPROW benannte Koeffizient T definiert als

r^ = —,

^

N^{r-l){c-\)

bzw.

'

r = '

^

^\N^{r-\)[c-\)

wobei r die Anzahl der Zeilen und c die Anzahl der Spalten symbo- lisiert. Bei 2 x 2-Tabellen ist T^ mit ^^ identisch, weil dann der Wur- zelausdruck im Nenner gleich 1 ist. T kann allerdings die Obergrenze 1 nur dann erreichen, wenn die Anzahl der Zeilen und Spalten der Tabelle gleich ist. In einer 2x3 - oder 3 x 4-Tabelle ist T stets kleiner als 1. Dieser Schwache wegen spielt der Koeffizient T in der empirischen Sozialforschung praktisch keine Rolle.

Eine Variante,

CRAMER vorgeschlagene Koeffizient F, definiert als

die statt dessen verwendet

wird,

ist der

1946 von

V^ =

7^

T

A^min(r- l,c-1)

bzw.

V = J

^

y A^min(r- l,c-1)

wobei r die Anzahl der Zeilen und c die Anzahl der Spalten bezeichnet. Der Ausdruck „min" steht fur Minimum und besagt, daB zunachst zu prufen ist, ob die Anzahl der Zeilen oder die Anzahl der Spalten kleiner ist; der kleinere Wert geht in die Berechnung des Koeffizienten ein. Auch V^ ist bei 2 x 2-Tabellen mit ^^ identisch, weil dann der Klam- merausdruck im Nenner (2 - 1) = 1 ist. V ist T uberlegen, weil der Koeffizient auch dann den Wert 1 annehmen kann, wenn r und c un- gleich sind.

114 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

Als Anwendungsbeispiele des Koeffizienten V sind in den Tabellen 5-7 und 5-8 Teilergebnisse einer Forschungsarbeit wiedergegeben, die von der Hypothese ausging, da6 die Integration des manuellen Arbeiters in die betriebliche Organisation vom Typ des sozio-technischen Systems beeinfluBt wird. Ihr Autor, FULLAN (1970), unterschied drei Typen industrieller Technologie: den Typ des kontinuierlichen Produktions- prozesses (Mineralolindustrie), den Typ der handwerklichen Fertigung (Druckindustrie) und den Typ der Massengiiterproduktion (Automobil- industrie). Das zugrundeliegende Untersuchungsmaterial sind schrift- liche Befragungsdaten von 1491 kanadischen Arbeitem, die in den ge- nannten Industrien beschaftigt waren.

Die beiden abhangigen Variablen der Tabellen 5-7 und 5-8 verlangen eine kurze Erlauterung. Die Arbeiter waren u.a. gefragt worden, ob ihr Vorarbeiter normalerweise eine Anv^eisung erteile („tells"), ob er eine Bitte ausspreche („asks") oder ob er eine Erklarung gebe („explains"), wenn das, was getan werden solle, einige Informationen erfordere. Die so operationalisierte Variable „Kommunikationsstil des Vorarbeiters" ist in Tabelle 5-7 mit der Variablen „Industrietyp" kreuztabuliert.

Die Variable „Firmenbewertung" (Tabelle 5-8) basiert auf funf Fragen, aus denen ein - hier nicht naher zu diskutierender - Index konstruiert wurde. Die Antworten der Arbeiter auf die funf Fragen informierten daruber, (1) ob die Firma, verglichen mit anderen Firmen, als besser oder schlechter beurteilt wurde, (2) ob die Firma nach Ansicht des Befragten eher an Kostensenkung als an ihre Beschaftigten denke, (3) ob die Beschaftigten fur das, was sie von der Firma erhielten, kampfen muBten, (4) ob der Befragte die Firmenleitung positiv beurteilte, und (5) ob der Befragte sich als uber Firmenangelegenheiten gut informiert betrachtete. Der aus diesen Fragen gebildete Index „Firmenbewertung" ist in Tabelle 5-8 mit der Variablen „Industrietyp" kreuztabuliert. FULLAN ermittelte folgende Beziehung zwischen dem Industrietyp und dem Kommu- nikationsstil des Vorarbeiters bzw. zwischen dem Industrietyp und der Firmenbewertung:

5.2 AssoziationsmaBe

auf der Basis von Chi-Quadrat

 

115

Tabelle 5-7:

Type of Communication from Foreman by Industry

 
 

Industry

 
 

Oil

Printing

Automobile

Communi-

Tells

3 6 % (166)

46

% (274)

5

0 % (210)

44

% (650)

cation

from

Asks

29

(135)

36

(213)

32 (131)

33

(479)

Foreman Explains

35

(164)

18

(104)

18

( 77) 23 (345)

100 (465) 100 (591) 100 (418) 100 (1474)

X^ = 56.80

F = 0.139

Tabelle 5-8:

Index of Company Evaluation by Industry

 
 

Industry

 
 

Oil

Printing

Automobile

 

Index of

High

70 % (329)

65

% (390)

3

2 % (136)

57

% (855)

Evaluation

Low

30

(144)

35

(207)

6S

(282)

43

(633)

 

100

(473) 100 (597) 100 (418) 100 (1488)

Z^ = 149.66

F = 0.317

Wir erhalten die von FULLAN ausgewiesenen F-Werte der Tabellen 5-7 und 5-8 durch Einsetzen der entsprechenden GroBen in die Formel

V' = A^min(r-l,c-l)

Fiir Tabelle 5-7 mit 3 Zeilen und 3 Spalten, einem Chi-Quadrat-WQri von 56.80 und A^= 1474 Befragten erhalten w^ir:

V^ = -^^^

1474(2)

= 0.0193

bzw.

V = Va0193 = 0.139

5.2 Assoziationsmafie auf der Basis von Chi-Quadrat

117

spiel veranschaulicht, ist der Maximalwert des Kontingenzkoeffizienten C fur die Vierfeldertabelle gleich 0.707:

50

50

 

50

50

50

50

100

x"

= 100

C = J-M 100+100 _

= 0.707

Der Hochstwert von C betragt in der 3 x 3-Tabelle 0.816, in der 4x4 - Tabelle 0.866 und in der 5 x 5-Tabelle 0.894. Generell ist der Maxi- malwert des Kontingenzkoeffizienten (vgl. PAWLIK, 1959):

C

k-\

wobei ^ = min(r,c). Hieraus folgt, daB sich C-Werte nur vergleichen lassen, wenn sie fiir Tabellen gleicher GroBe berechnet warden. Solien C-Werte unterschiedlich groBer Tabellen miteinander verglichen wer- den, sind sie nach der folgenden Formel, deren Anwendung stets zu einer Erhohung des C-Wertes ftihrt, zu korrigieren:

c

c

a

Die Berechnung des Koeffizienten C soil an einem Ergebnis aus der empirischen Sozialforschung demonstriert werden. HOLLINGSHEAD (1949) fand bei seiner beruhmten Untersuchung der Konsequenzen sozialer Schichtung in einer US-Kleinstadt, daB die Gemeindebiirger sich selbst als zu ftlnf sozialen Klassen zugehorig empfanden. Eine seiner Hypothesen war, daB die Jugendlichen der verschiedenen Klassen verschiedene Curricula der Elmtown-High-School (College preparatory, General und Commercial) gewahlt haben wurden. HOLLINGSHEAD liberprufte diese Hypothese, indem er die Variable „Schichtzugehorig-

118

5 Die Beschreibung der Beziehung zwischen nominalen Variablen

Tabelle 5-9:

Frequency of Enrollment of Elmtown YouthsfromFive Social Classes in Three Alternative High School Curriculums

 

Class

 

laadll

III

IV

V

College

23

40

16

2

81

Curriculum

General

11

75

107

14

207

Commercial

1

31

60

10

102

35

146

183

26

390

College

Curriculum

53

 

100

100

100

100

(35)

(146)

(183)

(26)

Abbildung 5-4:

Graphische Darstellung zu Tabelle 5-9

keit" der 390 Schiller mit der Variablen „Curriculum" kreuztabulierte. Da er die Klassen I und II der geringen Besetzung wegen zusammen- faBte, ergab sich die oben wiedergegebene 3 x 4-Tabelle.

Wenn wir die in Abbildung 5-4 veranschaulichte Beziehung zwischen den Variablen „Class" und „Curriculum" mit dem Koeffizienten C be- schreiben wollen, miissen wir zunachst die erwarteten Haufigkeiten der Indifferenztabelle und dann die KenngroBe Chi-Quadrat berechnen. Dazu bedienen wir uns der schon bekannten Arbeitstabelle, deren er- wartete Haufigkeiten (fe) nach dem in Tabelle 5-4 beschriebenen Ver-

5.2

Assoziationsmalie auf der Basis von Chi-Quadrat

119

Tabelle 5-10:

Arbeitstabelle zur Berechnung von Chi-Quadrat

Zeile

Spalte

i

J

A

/ .

{fb-fe)

1

1

23

7.3

15.7

1

2

40

30.3

9.7

1

3

16

38.0

-22.0

1

4

2

5.4

-3.4

2

1

11

18.6

-7.6

2

2

75

77.5

-2.5

2

3

107

97.1

9.9

2

4

14

13.8

0.2

3

1

1

9.1

-8.1

3

2

31

38.2

-7.2

3

3

60

47.9

12.1

3

4

10

6.8

3.2

Summe

390

390.0

0.0

ifb-fef

ifb-fef

fe

246.49

?>?>ni

94.09

3.11

484.00

12.74

11.56

2.14

57.76

3.11

6.25

0.08

98.01

1.01

0.04

0.00

65.61

7.21

51.84

1.36

146.41

3.06

10.24

1.51

69.10

fahren ermittelt werden. Durch Einsetzen der entsprechenden GroBen in die Formel fiir C erhalten wir:

C =

^^+]^

69.1

V 69.1+390

69.1 = V0.1506 = 0.388 V 459.1

Die Korrelation zwischen der sozialen Schichtzugehorigkeit und der Wahl eines High-School-Curriculums in Elmtown ist folglich C = 0.388. Da wir den errechneten C-Wert nicht mit anderen C-Werten vergleichen wollen, ist es entbehrlich, einen korrigierten C-Wert zu berechnen. Ware ein solcher Vergleich erwiinscht gewesen, hatten wir - da wir es in unserem Beispiel mit einer 3 x 4-Tabelle mit ^ = min(r,c) = 3 zu tun haben - folgende Rechnung durchgefuhrt:

C k-\

3-1 = 0.816

120 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

und

Ckorr =

=

= 0.475

Wie aus seiner Formel hervorgeht, kann der Kontingenzkoeffizient - ein vorzeichenloser Kennwert - nicht iiber die Richtung der Beziehung in- formieren. Nun geht aber aus Tabelle 5-9 und Abbildung 5-4 hervor, da6 die von links oben nach rechts unten verlaufende Diagonale (soweit man bei einer nicht-quadratischen Tabelle von einer Diagonalen reden kann) die starkste Besetzung aufweist. Hatte auch die abhangige Variable „Curriculum" wie die unabhangige Variable „Class" das Niveau einer Ordinalskala, konnte man bei einem solchen Muster der Beziehung, eine sinnfallige Anordnung der Kategorien beider Variablen vorausgesetzt, von einer positiven Beziehung sprechen. Fur den Fall ware es durchaus wiinschenswert, wenn die Richtung der Beziehung durch das Vorzeichen des Koeffizienten ausgedriickt wurde.

Diesen Dienst kann C, ebensowenig wie die iibrigen auf Chi-Quadrat basierenden Mafie, nicht leisten, weil sich bei einer anderen Anordnung der Kategorien ein identischer Chi-Quadrat-Wort ergibt. Die Inter- pretation einer mit C ausgedruckten Beziehung zwischen mindestens ordinalen Variablen als positiv oder negativ muIJ sich infolgedessen auf die Inspektion der Tabelle stiltzen, d. h. auf die Inspektion der relativen Haufigkeiten der konditionalen Verteilungen. 1st das identifizierte Muster eindeutig, dann ist es vollig legitim, die Assoziation als positiv oder negativ zu bezeichnen. Prinzipiell sind jedoch ftir ordinalskalierte Daten andere als chi-quadrat-basierte MaBzahlen der Beziehung zu bevorzugen.

Zusammenfassend laBt sich von den auf Chi-Quadrat beruhenden Assoziationskoeffizienten sagen, da6 sie im Falle der statistischen Unab- hangigkeit den Wert 0 haben und daB sie als vor allem ftir nominale Variablen berechenbare MaBzahlen vorzeichenlose Kennwerte sind. Der Maximalwert des Koeffizienten C hangt von der Anzahl der Zeilen und Spalten der Tabelle ab. Fur Tgilt dasselbe bei nicht-quadratischen Tabel-

5.3

Ein Maft der pradiktiven Assoziation: Lambda

121

len. Im ilbrigen variieren die Zahlenwerte zwischen 0 und 1. Beim Phi- Koeffizienten ist zu beachten, da6 er nur fiir 2 x 2-Tabellen berechnet werden dar£ Fiir grofiere als 2 x 2-Tabellen ist der Koeffizient V zu bevorzugen, falls man die Assoziation mit einem Koeffizienten beschrei- ben will, der die Abweichung von der statistischen Unabhangigkeit aus- dnickt.

Die groBte Schwache der chi-quadrat-basierten Mafizahlen ist, daB ihre Zahlenwerte mangels einer „operationalen Interpretation" (GOODMAN und KRUSKAL) kaum miteinander verglichen werden konnen. Da Chi- Quadrat'WQTtQ haufig zur Uberprufung der Signiflkanz der Abweichung von der statistischen Unabhangigkeit berechnet werden (ein Verfahren der schlieBenden Statistik, das hier nicht erlautert werden kann), mogen manche dazu neigen, auch die Starke der Beziehung mit Hilfe einer MaBzahl auszudnicken, die eine Funktion von Chi-Quadrat ist. Jedoch,

wie GOODMAN und KRUSKAL (1954, S.740) bemerken: „The fact that an excellent test of independence may be based on x'^ does not at all mean that /^ , or some simple function of it, is an appropriate measure of

One difficulty with the use of the traditional

measures, or of any measures that are not given operational inter- pretation, is that it is difficult to compare meaningfully their values for two cross-classifications." BLALOCK (1979, S.306) stellt zu Recht fest, „that all measures based on chi square are somewhat arbitrary in nature, and their interpretations leave a lot to be desired." Im nachsten Abschnitt werden wir ein AssoziationsmaB kennenlemen, namlich das von GOODMAN und KRUSKAL vorgeschlagene MaB Lambda, das in dieser Hinsicht nichts zu wunschen iibrig laBt.

degree of association

5.3 Ein MaB der pradiktiven Assoziation: Lambda

Eine Betrachtungsweise, bei der nicht die Abweichung von der statisti- schen Unabhangigkeit, sondem die Vorhersagbarkeit der einen Varia-

122 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

blen auf der Basis der anderen Variablen das Kriterium der Assoziation ist, ist die im Englischen mit „predictive association" bezeichnete Per- spektive. Die dieser Konzeption entsprechenden PRE-Ma6e (engl. pro- portional reduction in error measures) reflektieren den Grad, in dem uns die Kenntnis der einen Variablen die andere Variable vorherzusagen hilft. Ein solches MaB der pradiktiven Assoziation ist das von GOOD- MAN und KRUSKAL (1954) vorgeschlagene AssoziationsmaB Lambda (A). Da Lambda JQiiQi Konzeption entspricht, die schon Louis GUTT- MAN (1941) formuliert hatte, wird es von einigen Autoren, die mitunter anstelle des kleinen griechischen Lambda (A) das Symbol g benutzen, auch „Guttman's coefficient of (relative) predictability" genannt.

Lambda ist ein fiir nominale Variablen konzipiertes MaB, das keine Restriktionen der TabellengroBe kennt, zwischen 0 und 1 (einschlieB- lich) variiert und als PRE-MaB eine klare Interpretation hat. Bei der Diskussion der Tabellen 4-13 und 4-14 haben wir bereits eine ganze Reihe von Lambda-WQVtQn berechnet, ohne dies erwahnt zu haben. Nachfolgend woUen wir die Logik dieses Koeffizienten, seine Anwen- dungsweise und seine Interpretation erortem.

Lambda ist ein asymmetrisches MaB, d. h., man kann fiir jede Kreuz- tabulation zwei Lambda-WQrtQ berechnen, indem man einmal die Zeilenvariable (engl. row variable) und einmal die Spaltenvariable (engl. column variable) vorhersagt. Wenn, wie iiblich, die Zeilenvariable abhdngige Variable (engl. dependent variable) ist, hat Lambda das Symbol A^ (lies „Lambda-sub-r" oder kurz „Lambda-r"), weil dann die R-Variable vorhergesagt wird. Wenn umgekehrt die Spaltenvariable abhangige Variable ist, hat Lambda das Symbol A^, weil dann die C- Variable vorhergesagt wird. Aus der Kombination beider Lambdas geht eine dritte Version hervor, die A^ genannt wird (s fiir „symmetric"). Das symmetrische Lambda kann zur Beschreibung einer symmetrischen Beziehung verwendet werden, bei der keine der beiden Variablen als von der anderen abhangig betrachtet wird.

5.3 Ein Mafi der pradiktiven Assoziation: Lambda

123

In einer anderen Schreibweise versieht man X mit zw^ei Subskripten. Dabei gibt das erste Subskript an, welche Variable die (vorherzusa- gende) abhangige Variable ist (ilblicherweise Y), wahrend das zweite Subskript angibt, welche Variable die unabhdngige Variable ist (in der Kegel X). Bei konventioneller Anordnung der Variablen X (Spalten- variable) und Y (Zeilenvariable) in der bivariaten Tabelle ist dann A^ = Xyy. und Xc = Xxy (siehe das folgende Schema).

X

X

 

C-Variable

C-Variable

ist

ist

unabhdngige

abhangige

Variable

Variable

Y

Y

R-Variable

R-Variable

ist

^r bzw. Ay^

ist

^c bzw. X^

abhangige

unabhdngige

Variable

Variable

Weder die R- noch die C-Variable ist abhangige Variable: 1^

Lambda setzt - wie alle PRE-MaBe - die Spezifizierung der in Ab- schnitt 4.3.3 aufgezahlten vier Elemente voraus, namlich die Spezifi- zierung (1) einer Regel fiir die Vorhersage der abhangigen Variablen auf der Basis ihrer eigenen Verteilung, (2) einer Regel fiir die Vorhersage der abhangigen Variablen auf der Basis der unabhangigen Variablen, (3) der Fehler und (4) der generellen Formel zur Berechnung der proportio- nalen Fehlerreduktion. Das sei an einem Beispiel aus der amerikani- schen Sozialisationsforschung erlautert.

In einer interkulturell vergleichenden Untersuchung zur sexuellen Sozia- lisation unterschied HEISE (1967) drei fiir verschiedene Altersgruppen (Kleinkinder, Kinder, Jugendliche und Erwachsene) geltende Sexual- normen, namlich restriktive, semi-restriktive und groBziigige. Diese

124 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

Restriktiv-Permissiv-Klassifikation basiert auf Bewertungen dessen, was in Bezug auf bestimmte Altersgruppen als gesellschaftlich eriaubt gilt, was bestraft wird, wozu ermuntert wird usw. und entspricht nicht not- wendig aktuellen Verhaltensweisen in den untersuchten Gesellschaften. Eine der von HEISE mitgeteilten Tabellen kreuztabuliert die Variable X „Sexualnormen fur Kinder" (in den Jahren zwischen der Vorschulzeit und der Pubertal) mit der Variablen Y „Sexualnormen ftir Jugendliche" (in den Jahren zwischen der Pubertat und dem Heiratsalter). Die Daten betreffen 64 Gesellschaften.

Tabelle 5-11:

Sexualnormen ftir Kinder und Sexualnormen fur Jugendliche

Sexualnormen ftir Kinder (X)

restriktiv

semi-restr.

groBziigig

Sexualnormen restriktiv

9

1

2

12

fiir Jugend-

semi-restr.

6

19

6

31

liche (Y)

groBziigig

6

5

10

21

 

21

25

18

64

A,

= 0.21

A,

= 0.33

Angenommen, wir sollten auf der Basis der Verteilung „Sexualnomien fur Jugendliche" schatzen, welcher der drei Kategorien eine beliebig herausgegriffene Untersuchungseinheit zugehorig sei. Die beste Vorher- sage auf der Basis der Verteilung der Y-Variablen allein ware die Kate- gorie „semi-restriktiv", weil diese Kategorie eine groBere Haufigkeit hat als die beiden anderen Kategorien. Auf alle 64 Gesellschaften ange- wandt, ware die Vorhersage dieser Modalkategorie in 31 Fallen richtig und in 12 + 21 = 33 Fallen falsch. Oder anders gesagt: Bei der Vorher- sage der marginalen Modalkategorie ware die Anzahl der Vorhersage-

fehler64-31=33.

Die Frage ist, ob die Anzahl dieser Fehler vermindert und damit die Vorhersage verbessert werden kann, wenn wir die Vorhersage auf eine

5.3

Ein Mafi der pradiktiven Assoziation: Lambda

125

zusatzliche Information stutzen. Tabelle 5-11 gibt nicht nur tlber die Randverteilung, sondem auch uber die konditionalen Verteilungen der Y-Variablen in den drei Kategorien der X-Variablen AufschluB. Wie man sieht, sind die Sexualnormen fiir Jugendliche in diesen drei Kate- gorien unterschiedlich verteilt, und zwar in Abhangigkeit davon, ob die Sexualnormen fiir Kinder restriktiv, semi-restriktiv oder groBzugig sind.

Was ist diese zusatzliche Information wert? Hilft sie, unsere Vorhersage der abhangigen Variablen „Sexualnormen fur Jugendliche" in dem Sinne zu verbessem, da6 wir weniger Vorhersagefehler begehen, wenn wir die Sexualnormen fur Kinder kennen, bevor wir die modale Kategorie der abhangigen Variablen vorhersagen? Die Antwort hierauf lautet: Ja, die zusatzliche Information hilft. Denn fur die 21 Gesellschaften, in denen die Sexualnormen ftir Kinder restriktiv sind, sagen wir jetzt restriktive Sexualnormen fiir Jugendliche vorher; diese Vorhersage ist in 9 von 21 Fallen richtig und in 6 + 6 = 12 Fallen falsch. Ftir die 25 Gesellschaften, in denen die Sexualnormen ftir Kinder semi-restriktiv sind, sagen wir jetzt semi-restriktive Sexualnormen ftir Jugendliche vorher; diese Vorhersage ist in 19 von 25 Fallen richtig und in 1 + 5 = 6 Fallen falsch. Und fiir die 18 Gesellschaften, in denen die Sexualnormen fiir Kin- der groBzugig sind, sagen wir jetzt groBziigige Sexualnormen fiir Jugendliche vorher; diese Vorhersage ist in 10 von 18 Fallen richtig und in 2 + 6 = 8 Fallen falsch.

Vergleichen wir die Anzahl der 12 + 21 = 33 Fehler unserer ersten Vorhersage (d. h. der Vorhersage der modalen Kategorie der Y-Variablen ohne Berucksichtigung der X-Variablen) mit der Anzahl der 12 + 6 + 8 = 26 Fehler unserer zweiten Vorhersage (d. h. der Vorhersage der modalen Kategorie der Y-Variablen mit Berucksichtigung der X-Variablen), so stellen wir eine Verminderung der Vorhersagefehler fest: Die proportionale Fehlerreduktion betragt genau (33 - 26)/33 = 0.21. Dies ist der Zahlenwert des AssoziationsmaBes Lambda, und zwar fiir den Fall, daB die Y-Variable „Sexualnormen fur Jugendliche" auf der Basis der X-Variablen „Sexualnormen fur Kinder" vorhergesagt wird, also

126 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

A,^ =^^ = 0.21. Der Zahlenwert 0.21 besagt, daB man die Vorhersage

der Variablen „Sexualnormen fiir Jugendliche" um 21 Prozent verbessem kann, wenn man sie, statt sie auf die eigene Verteilung zu stutzen, auf die Verteilung der Variablen „Sexualnormen fiir Kinder" stiitzt, d. h., wenn man anstelle der marginalen Modalkategorie die konditionalen Modal- kategorien vorhersagt.

Im AnschluB an diese Betrachtung ist es ein leichtes, die oben erwahn- ten vier PRE-Elemente zu spezifizieren und anzuwenden:

(1) Lambda: Die Kegelfur die Vorhersage der abhdngigen Variablen auf der Basis ihrer eigenen Verteilung. Durch Inspektion der marginalen Haufigkeiten der Tabelle wird die Modalkategorie identifiziert und als beste Vorhersage fiir alle Untersuchungseinheiten (Falle) genommen. Zur Berechnung von X^ ist die Modalkategorie der Zeilenvariablen (der R-Variablen) zu identifizieren. Das ist in Tabelle 5-11 die mit 31 Fallen besetzte Kategorie „semi-restriktiv". Die beste Vorhersage der Variablen „Sexualnormen fiir Jugendliche" ohne Beriicksichtigung der zweiten Variablen ist folglich „semi-restriktiv". Bei der Berechnung von A^ ist die Modalkategorie der Spaltenvariablen (der C-Variablen) zu identi- fizieren und vorherzusagen. Das ist in Tabelle 5-11 die mit 25 Fallen besetzte Kategorie „semi-restriktiv" der Variablen „Sexualnormen fiir Kinder". Generell lautet die erste Vorhersageregel: „Sage fur alle Unter- suchungseinheiten die marginale Modalkategorie der abhangigen Varia- blen vorher."

(2) Lambda: Die KegelfUr die Vorhersage der abhangigen Variablen auf der Basis der unabhangigen Variablen. Fiir jede Kategorie der unab- hangigen Variablen gibt es eine (konditionale) Verteilung der Falle iiber die Kategorien der abhangigen Variablen. Zur Berechnung von X^ sind die Verteilungen der Spalten im Hinblick auf die spaltenspezifischen Modalkategorien zu betrachten. Das sind in Tabelle 5-11 die mit den Haufigkeiten 9, 19 und 10 besetzten Kategorien. Bei der Berechnung von

5.3

Ein MaB der pradiktiven Assoziation: Lambda

12 7

Lambda werden diese Kategorien der abhangigen Variablen vorher- gesagt, weil die spaltenspezifische Modalkategorie die beste Vorhersage fiir die Falle der jeweiligen Spalte ist. Bei der Berechnung von X^ wer- den die zeilenspezifischen Modalkategorien identifiziert und vorher- gesagt. Das sind in Tabelle 5-11 die mit den Haufigkeiten 9, 19 und 10 besetzten Kategorien. Generell lautet die zweite Vorhersageregel: „Sage fiir die Untersuchungseinheiten einer jeden Kategorie der unabhangigen Variablen die jeweilige konditionale Modalkategorie der abhangigen Variablen vorher."

(3) Lambda: Die Fehlerdeflnition. Jeder von einer Vorhersageregel ab- weichende Fall ist ein Fehler (engl. error). Die Anzahl der Fehler der Vorhersage der abhangigen Variablen auf der Basis ihrer eigenen Ver- teilung (Ey) ist die Differenz zwischen der Gesamthaufigkeit (N) und der Haufigkeit der (vorhergesagten) marginalen Modalkategorie. Bei der Berechnung von A^ fiir Tabelle 5-11 ist das die Differenz 64-3 1 =33 , bei der Berechnung von A^ die Differenz 64 - 25 = 39.

Je nachdem, ob man Ji^ oder A^ berechnet, ist die generelle Definition dieser ersten Fehler

bei

Af.:

Ei = N- max^^

bei

>^^:

Ei = N-

maxrij

wobei

El = Anzahl der Fehler bei der Vorhersage der Modalkategorie der abhangigen Variablen auf der Basis ihrer eigenen Verteilung,

A^ = Gesamthaufigkeit,

max^/ = modale Haufigkeit (Haufigkeit der Modalkategorie) der Zeilenvariablen und

max/iy = modale Haufigkeit (Haufigkeit der Modalkategorie) der Spaltenvariablen.

128 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

Fur Tabelle 5-11 erhalten wir folgende Zahlenwerte:

bei

A/.

^-j ^ 64-31= 33

bei

A^:

£"1 = 64-25=3 9

Die Fehler, die man bei der Vorhersage der abhangigen Variablen auf der Basis der unabhangigen Variablen begeht (E2X werden auf ganz ahn- liche Weise berechnet, d. h. fur jede Kategorie der unabhangigen Varia- blen ermittelt und dann summiert.

Bei der Berechnung von A^ fur Tabelle 5-11 erhalten wir fur die erste Spalte 6 + 6 = 12 Fehler; das ist die Differenz zwischen der (Rand-) Haufigkeit und der Haufigkeit der vorhergesagten Modalkategorie der ersten Spalte: 21 - 9 = 12. Fiir die zweite Spalte ist das Ergebnis 25 - 19 = 6 und fiir die dritte Spalte 18 - 10 = 8. Die Gesamtzahl dieser Fehler ist die Summe 12 + 6 + 8 = 26.

Je nachdem, ob man A^ oder A^ berechnet, ist die generelle Definition dieser zweiten Fehler

bei

bei

A^\

A^:

c

£2 = ^i^j

r

E2 =^{ni

1=1

- maxwy j

-maxn^)

wobei

E2 =

Anzahl der Fehler bei der Vorhersage der Modalkategorie der abhangigen Variablen auf der Basis der Kategorien der unab- hangigen Variablen,

Hj =

(Rand-)Haufigkeit der j-ten Spalte,

maxrij =

modale Haufigkeit der j-ten Spalte,

n^ = (Rand-)Haufigkeit der i-ten Zeile,

5.3 Ein MaB der pradiktiven Assoziation: Lambda

12 9

maxrij = modale Haufigkeit der i-ten Zeile,

2 ]

= Instruktion, den spezifizierten Ausdruck tiber alle Spalten

i=i

zu summieren, und

2 ] = Instruktion, den spezifizierten

1=1

zu summieren.

Ausdruck iiber alle Zeilen

Flir Tabelle 5-11 erhalten wir bei der Berechnung von A^:

E2 = (21 - 9) + (25 -

19) + (18 -

10) = 12 + 6 + 8 = 26

Fur Tabelle 5-11 erhalten wir bei der Berechnung von A^:

E2 = (12 - 9) + (31 -

19) + (21 -

10) = 3 + 12 + 11 = 26

(4) Lambda: Die generelle Formel zur Berechnung der proportionalen Fehlerreduktion lautet

El

Filr Tabelle 5-11 erhalten wir folgende Lambda-Werte:

'

El

33

33

£,-^^39-26^13^^3 3

39

E^

39

Die symmetrische Version Lambdas ist eine einfache Kombination der Vorhersagefehler Ei und E2 der asymmetrischen Lambdas, die in unse- rem Beispiel der Tabelle 5-11 folgenden Zahlenwert ergibt:

130 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

£•1 = 33 + 39=72

E, =26+26 = 52

E^

72

72

Man beachte, da6 dieser Wert nicht das arithmetische Mittel des Lambda-r-WtriQS (0.21) und des Lambda-c-WQrtQS (0.33) ist:

(0.21 + 0.33)7 2 = 0.27 7^0.28

Die hier gewahlte Darstellungsweise sollte die Logik des Assoziations- maBes Lambda erlautem, dessen Zahlenwerte ebensogut mit den folgen- den Rechenformeln ermittelt werden konnen:

K

=

^maxwy -max/7y

y=i

N- -maxw^

r

max/iy -max«y

K

=

/=1

A^--max;7y

^ max rij + ^

x, = tl

tl

max n^ - max rii - max n j

\

_

2N - max/7y - maxwy

wobei

A^ = Gesamthaufigkeit,

max^y =

modale Haufigkeit der j-ten Spalte,

max^; = modale Haufigkeit der i-ten Zeile,

5.3

Ein Mafi der pradiktiven Assoziation: Lambda

131

maxrij = modale Haufigkeit (Haufigkeit der Modalkategorie) der Spaltenvariablen,

max^y = modale Haufigkeit (Haufigkeit der Modalkategorie) der Zeilenvariablen,

c

^

= Instruktion, den spezifizierten Ausdruck tiber alle Spalten

y=i

zu summieren, und

2

= Instruktion, den spezifizierten Ausdruck tiber alle Zeilen

/=i

zu summieren.

Filr Tabelle 5-11 erhalten wir diese bereits bekannten Zahlenwerte:

'

64-31

33

33

^ _(9 + 19 + 10)-25^38-25^13^P^^

64-25

39

39

{9 + 19 + 10) + (9 + 19 + 10)-31-2 5

/I

=

2(64)-31-25

=

38+38-5 6

=

128-56

.^ ^

(J.ZO

Gewisse Besonderheiten weisen die folgenden drei Rechenbeispiele auf In Tabelle 5-12 haben zwei Kategorien der Zeilenvariablen R und alle vier Kategorien der Spaltenvariablen C identische „maximale" Rand- haufigkeiten. In derartigen Fallen ist eine beliebige Kategorie mit der „starksten" Besetzung, hier 40 und 25, filr die Berechnung des jeweiligen Lambda-WQTtQS auszuwahlen. In Tabelle 5-13 weisen die Spalten Ci und C2 je zwei Kategorien mit identischen „maximalen" Besetzungen auf In derartigen Fallen ist eine beliebige Kategorie mit der „starksten" Besetzung, hier 11 und 15, fur die Berechnung des jeweiligen Lambda- Wertes auszuwahlen. Gleiches gilt fiir gleich stark besetzte „maximale"

132

5 Die Beschreibung der Beziehung zwischen nominalen Variablen

Tabelle 5-12:

Beispiel einer Tabelle mit gleich stark besetzten „maximalen" Marginalkategorien

Zeilen-

Variable

R rs

ri

r2

^ (l5+16+17 + 19)-40

A ,

=

-^^

100-40

-n

7—^

Spaltenvariable C

Cl

C2

C3

C4

10

5

5

20

15

16

8

1

40

4

17

19

40

25

25

25

25

100

=

67-40

60

=

27

-7 - =

60

^, ,

0.45

^ ^(lQ+16 + 19)-25^45-25^20^Q, ,

100-25

75

75

(l5+16+1 7 + 19) + (l0+16+19)-40-2 5

Ae =

^

2(100)-40-25

_ ^

7-——

112-6 5

= ——

200-6 5

:— =

47

135

= 0,35

Tabelle 5-13:

Beispiel einer Tabelle mit gleich stark besetzten „maximalen" Kategorien der Spaltenvariablen C

Zeilen-

ri

Variable

R

r3

Spaltenvariable C

Cl

C2

C3

11

10

14

35

11

15

26

8

15

16

39

30

40

30

100

5.3

Ein Ma6 der pradiktiven Assoziation: Lambda

133

^ (ll+15+16)-39^

42-39 ^

3 ^^^^

100-39

61

61

A.= (l4+15+16)-40^

100-40

45-40^

5

^ ^

~

60

~60 ~

'

(ll+15+16) + (l4 + 15+16)-39-40

A s,

=

2(100)-39-40

;

;:

 

87-79

8

=

200-7 9

=

121

= 0.07

Kategorien der Zeilenvariablen R. Tabelle 5-14 illustriert eine Situation,

den Wert 0 annimmt, obwohl eine von der statistischen

in der Lambda-r

Unabhangigkeit abweichende Beziehung vorliegt.

Tabelle 5-14:

Beispiel einer Tabelle mit Lambda-r = 0 trotz Abweichung von der statistischen Unabhangigkeit

Spaltenvariable C

 

Ci

C2

C3

Zeilen-

ri

7

6

4

17

variable R

r2

7

8

11

26

 

14

14

15

43

^(7 + 8+ll)-26_26-26_ 0 _^

43-26

17

17

(7.1l)-15^18-15^A.0.n

43-15

28

28

^ _(7 + 8 + ll) + (7 + ll)-26-15^44-41_ 3 ^^^^

2(43)-26-15

86-41

45

134 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

Im Fall der Tabelle 5-14 nimmt Lambda-r den Zahlenwert 0 an, weil die vorherzusagenden konditionalen Modalkategorien mit der marginalen Modalkategorie der abhangigen Variablen R ubereinstimmen; da alle modalen Haufigkeiten in derselben Zeile liegen, ist die Anzahl der Fehler der zweiten Vorhersage (£"2 = 7 + 6 + 4 = 17) gleich der Anzahl der Fehler der ersten Vorhersage {Ei = 17). Das aber bedeutet, daB mit der zweiten Vorhersage der Zeilenvariablen R keine Fehlerreduktion (£•1-£"2 =17-17 = 0) und damit keine Vorhersageverbesserung mog- lich ist. Hier zeigt sich eine Besonderheit Lambdas: Ist die Modal- kategorie der abhangigen Variablen in alien Kategorien der unabhan- gigen Variablen dieselbe, so ist Lambda, ungeachtet anderer Eigen- schaften der gemeinsamen Verteilung, gleich Null. Und in Tabellen mit einem starken Ubergewicht der Falle in einer der Kategorien der ab- hangigen Variablen nimmt Lambda haufig sehr kleine Werte an - was vor allem jenen als Nachteil erscheinen mag, die auf eine Demonstration starker Beziehungen aus sind.

GOODMAN und KRUSKAL - die die Variablen mit A und B und den Koeffizienten mit >l^ bezeichnen, wenn B die abhangige Variable ist - kommentieren die Tatsache, daB Lambda den Wert Null annehmen kann, ohne daB eine statistische Unabhangigkeit gegeben ist, so (1954, S.742):

„That A^ may be zero without statistical independence holding may be considered by some as a disadvantage of this measure. We feel, however, that this is not the case, for /l ^ is constructed specifically to measure association in a restricted but definite sense, namely the predictive interpretation given. If there is no association in that sense, even though there is association in other senses, one would want A^ to be zero. Moreover, all the measures of association of which we know are subject to this kind of criticism in one form or another, and indeed it seems inevitable. To obtain a measure of association one must sharpen the definition of association, and this means that of the many vague intuitive notions of the concept some must be dropped."

In diesem restriktiven, aber definitiven Sinn erlaubt Lambda die Beant- wortung der Frage, in welchem MaBe uns die Kenntnis der einen Varia-

5.3

Ein Mali der pradiktiven Assoziation: Lambda

135

blen die andere vorherzusagen hilft, je nachdem, welche der beiden Variablen als von der anderen abhangig betrachtet wird. Wie es mit der Assoziation in einem anderen Sinn bestellt ist, spielt dabei keine Rolle. Entscheidend ist, ob eine als Fehlerreduktion definierte Vorhersage- verbesserung moglich ist oder nicht. Dariiber gibt der Zahlenwert Lambdas AufschluB: „A^ gives the proportion of errors that can be eliminated by taking account of knowledge of the A classifications of individuals" (GOODMAN und KRUSKAL, 1954, S.741). Lambda- Werte informieren folglich uber die proportionale bzw. (mit 100 multi- pliziert) relative Eliminierung oder Reduktion der Fehler, die bei der Anwendung zweier Vorhersageregeln auf die Daten einer bivariaten Tabelle erzielt wird. Oder anders gesagt: Lambda-WQrtQ reprasentieren die proportionale Fehlerreduktion, die erzielt wird, wenn eine auf der bivariaten Verteilung basierende Vorhersage (der konditionalen Modal- kategorien) mit einer auf der Randverteilung der abhangigen Variablen basierenden Vorhersage (der marginalen Modalkategorie) verglichen wird. So sagt ein Lambda-Won von 0.25 aus, da6 man bei der Vorher- sage der abhangigen Variablen 25 Prozent weniger Fehler begeht, wenn man die Information tlber die unabhangige Variable ausnutzt, gegeniiber einer Vorhersage, die sich lediglich auf die Verteilung der abhangigen Variablen stutzt.

Tragt die Kenntnis der Variablen C iiberhaupt nichts dazu bei, die Vor- hersage der Variablen R zu verbessem, so ist Lambda gleich Null; es liegt dann keine pradiktive Assoziation vor. Erlaubt hingegen die Kennt- nis der Variablen C, die Variable R fehlerfrei vorherzusagen, dann ist Lambda gleich 1; dann ist der Fall einer perfekten pradiktiven Assozia- tion gegeben.

Die Interpretation der beiden Lambda-WortQ unseres ersten Rechen- beispiels der Tabelle 5-11 lautet infolgedessen fur den Fall (a), bei dem die Variable „Sexualnormen fiir Jugendliche" als abhangige Variable betrachtet wird: Der Wert X^ = 0.21 besagt, daB bei der Vorhersage der Variablen „Sexualnormen fiir Jugendliche" gegenuber der allein auf die-

136 5 Die Beschreibung der Beziehung zwischen nominalen Variablen

ser abhangigen Variablen basierenden Vorhersage eine Fehlerreduktion von 21 Prozent erzielt wird, wenn die Information ilber die unabhangige Variable ausgenutzt und die abhangige Variable auf der Basis der Varia- blen „Sexualnomien fur Kinder" vorhergesagt wird. Die Interpretation lautet im Fall (b), bei dem die Variable „Sexualnormen fur Kinder" als abhangige Variable betrachtet wird: Der Wert A^ = 0.33 besagt, da6 bei der Vorhersage der Variablen „Sexualnomien ftlr Kinder" gegentiber der allein auf dieser abhangigen Variablen basierenden Vorhersage eine Fehlerreduktion von 33 Prozent erzielt wird, wenn die Information iiber die unabhangige Variable ausgenutzt und die abhangige Variable auf der Basis der Variablen „Sexualnormen ftir Jugendliche" vorhergesagt wird. Beide Lambda-Werte besagen, daB in den untersuchten Gesellschaften eine maBig starke pradiktive Assoziation zwischen den Sexualnormen besteht, die ftir verschiedene Altersgruppen gelten.

Wie gezeigt, ist Lambda ein asymmetrisches AssoziationsmaB, das ins- besondere ftir nominale Variablen geeignet ist. Normalerweise sind Beziehungen zwischen Variablen von vornherein - aufgrund voran- gehender theoretischer Uberlegungen - als asymmetrische oder „one- way associations" spezifiziert, so daB eine der beiden Variablen als unab- hangig (als der anderen Variablen zeitlich vorangehend und sie beein- flussend) betrachtet wird. Ist das nicht der Fall, kann das symmetrische MaB Lambdas berechnet werden.