Beruflich Dokumente
Kultur Dokumente
nominalen Variablen
Beziehung sprechen konnen, wenn auch nur eine der beiden kreuz-
tabulierten Variablen nominales MeBniveau hat. Die MaBzahlen zur
Charakterisierung der Beziehung zwischen nominalen Variablen brau-
chen deshalb nicht tlber die Richtung der Beziehung zu informieren; sie
konnen vorzeichenlos sein, weil Vorzeichen bei nominalen Variablen
inhaltlich nicht interpretierbar sind. In der Tat sind etliche fur nomi-
nale Variablen geeignete MaBe vorzeichenlose Kennwerte, z. B. alle chi-
quadrat-basierten MaBzahlen. Zwei auf nominale Variablen anwend-
bare und im folgenden behandelte AssoziationsmaBe produzieren jedoch
Vorzeichen; es sind dies die Prozentsatzdifferenz (d%) und der Phi-
Koeffizient (falls letzterer direkt aus den Originaldaten einer 2 x 2 -
Tabelle berechnet wird). Deren iiber den Richtungssinn einer Beziehung
informierende Vorzeichen konnen von besonderem Interesse sein, wenn
- was prinzipiell moglich ist - d% oder Phi fiir dichotomisierte Varia-
blen hoheren MeBniveaus berechnet werden. Bei nominalen Variablen
beschrankt sich die Interpretation der Vorzeichen dieser MaBe auf die
Feststellung, daB bei positivem Vorzeichen eine (ad)-Dominanz und bei
negativem Vorzeichen eine (bc)-Dominanz in der 2 x 2-Tabelle vorliegt
(vgl Abschnitt 4.2.2).
Race 0 1 2+ N
Rassenzugehorigkeit
schwarz weiB
Mitgl. freiwilliger nein 57 400 457
Organisationen Ja 39 434 473
96 834 930
% % %
nem 48 49
59
Mitgl. freiwilliger
Organisationen
ja
100
(834)
tuierung mitteilen, konnen die Daten der Tabelle 5-1 leicht in einer
Weise rekonstruiert warden, daB sich eine 2 x 2-Tabelle ergibt (siehe
Tabelle 5-2).
5.1 Die Prozentsatzdifferenz 101
Diese Form der Daten legt es nahe, die Differenz zwischen den Pro-
zentsatzen zur Beschreibung der Beziehung zwischen den Variablen
„Rassenzugehorigkeit" und „Mitgliedschaft in freiwilligen Organisatio-
nen" zu verwenden.
Mit Bezug zur Nomenklatur der 2 x 2-Tabelle (siehe Abschnitt 4.2.2) ist
die Prozentsatzdifferenz (d%) wie folgt defmiert:
^ % = 100| ^
M-\-c b + d.
lQO{ad-bc)
oder d% =
[a + c){b + d)
Setzen wir die Daten der Tabelle 5-2 in diese Formeln ein, so erhalten
wir:
d% = lOof — - — I = 100(0.59-0.48) = 11
V96 8347 ^ ^
_ 1Q0[(57)(434)-(40Q)(39)] _ 100(24738-15600) _
oder
(96)(834) ~ 80064
Was fur 2 x 2-Tabellen gilt, gilt nicht fiir beliebig groBe Tabellen.
GroBere als Vierfeldertabellen weisen mehr als eine Prozentsatzdif-
ferenz auf Nehmen wir beispielsweise an, eine aus der Kreuztabula-
tion der dichotomisierten Variablen „Autoritarismus" (niedrig / hoch)
5.1 Die Prozentsatzdifferenz 103
=r-
,2 _-sr{fb - fe)
fe
Wie wir sehen werden, kann Chi-Quadrat fiir 2 x 2-Tabellen auch unter
Verzicht auf die Ermittlung der erwarteten Haufigkeiten nach der fol-
genden Formel berechnet werden:
2 N[ad-bc)
(a + b)[c + d)[a + c)[b + d)
In alien anderen Fallen besteht der erste Schritt zur Berechnung eines
chi-quadrat-basierten AssoziationsmaBes darin, die erwarteten Haufig-
keiten der Indifferenztabelle zu ermitteln. Die Indifferenztabelle ist
insofem eine imaginare Tabelle, als sie die gemeinsamen Haufigkeiten
bei gegebenen Randverteilungen in einer Weise darstellt, wie wir sie
antrafen bzw. zu erwarten hatten, wenn keine Beziehung zwischen den
Variablen bestunde, d. h., wenn die Variablen voneinander unabhangig
waren. Der zweite Schritt besteht darin, die beobachteten gemeinsamen
Haufigkeiten der Kontingenztabelle (fb) mit den erwarteten, den, wie man
auch sagt, „theoretischen" gemeinsamen Haufigkeiten der Indifferenz-
tabelle (fe) zu vergleichen. Je groBer die Differenz zwischen den Haufig-
5.2 Assoziationsmafie auf der Basis von Chi-Quadrat 105
keiten der beiden Tabellen ist, desto groBer ist die Abweichung von der
statistischen Unabhdngigkeit und der Grad der Assoziation zwischen den
Variablen. Der dritte und letzte Schritt besteht darin, die Differenzen
zwischen beiden Tabellen zur Berechnung des AssoziationsmaBes heran-
zuziehen.
Zur Erlauterung der Rechenschritte sollen uns die in Tabelle 5-3 und
Abbildung 5-2 zitierten Teilergebnisse einer Untersuchung aus den USA
dienen. McDILL und COLEMAN (1963) fanden bei der Analyse von
Befragungsdaten folgende Beziehung zwischen dem sozialen Status -
innerhalb der Schiilerschaft von High-School-Besuchem, die zunachst
als „Freshmen" (1957) und spater als „Seniors" (1961) befragt worden
waren - und der Absicht, nach dem Besuch der High-School ein College
zu besuchen:
^ = 0.12 ^ = 028
Aus Tabelle 5-3 und Abbildung 5-2 geht hervor, daB (a) die Korrelation
zwischen den Variablen „Sozialer Status" und „Collegeplane" zu beiden
Befragungszeitpunkten positiv ist (obwohl die Kategorien der Variablen
nicht entsprechend der Konvention angeordnet vmrden - wobei man
daniber streiten kann, ob auch die Variable „College Plans" eine ordinale
Oder nicht lediglich eine nominale Variable ist - , ist das Vorzeichen des
106 5 Die Beschreibung der Beziehung zwischen nominalen Variablen
Yes 48
44
College
Plans
No Hi
Nach der in Abschnitt 4.2.1 beschriebenen Notation hat die Zelleij der
Indifferenztabelle die erwartete Haufigkeit
f^ij =
N
Beziehen wir uns auf Tabelle 5-3a, so erhalten wir z. B. ftir Zellen die
erwartete Haufigkeit
-^ N 602
Das Ergebnis der gesamten Rechnung ist die in Tabelle 5-4 mit der
Kontingenztabelle kontrastierte Indifferenztabelle.
Freshmen Freshmen
Man beachte und kontrolliere, daB sich die Haufigkeiten der Indiffe-
renztabelle zu den Randhaufigkeiten der Tabelle addieren. (Da die mar-
ginalen Haufigkeiten der Indifferenztabelle fixiert sind, ist eine 2 x 2 -
Tabelle mit der Bestimmung von nur einer erwarteten Haufigkeit deter-
miniert; die erwarteten Haufigkeiten der ubrigen drei Zellen sind die
jeweilige Differenz zwischen der errechneten Haufigkeit und der ent-
sprechenden Randhaufigkeit. Zwecks Vermeidung von Folgefehlern em-
pfiehlt sich jedoch die Berechnung aller erwarteten Haufigkeiten durch
MultipUkation der marginalen Zeilen- und Spaltenhaufigkeit, geteilt
durch die Gesamthaufigkeit.)
Mit der Bestimmung der erwarteten Haufigkeiten ist der erste Schritt zur
Berechnung chi-quadrat-basierter AssoziationsmaBe getan. Der zweite
Schritt besteht darin, die Differenzen zwischen den beobachteten
Haufigkeiten der Kontingenztabelle und den erwarteten Haufigkeiten
5.2 Assoziationsmalie auf der Basis von Chi-Quadrat 109
(a) Freshmen
Social Status
Yes
College
Plans
No
Obwohl der in Tabelle 5-5 errechnete Wert von x'^ = 8.670 das AusmaB
der Abv^eichung der Kontingenztabelle von der Indifferenztabelle und
damit den Grad der Abweichung der bivariaten Verteilung von der
statistischen Unabhangigkeit reflektiert, kann er in dieser Form nicht als
sinnvoller Kennwert der Beziehung zw^ischen den Variablen fungieren.
Denn wie die in Tabelle 5-6 dargestellten Haufigkeitsverteilungen zei-
gen, fuhrt eine Verdoppelung der Zellenhaufigkeiten bei identischen kon-
ditionalen Verteilungen bzw. bei denselben Proportionen der Tabellen
zur Verdoppelung des Chi-Quadrat-WQitQs:
24 16 40 48 32 80 96 64 160
16 24 40 32 48 80 64 96 160
40 40 80 80 80 160 160 160 320
Chi-Quadrat variiert also direkt mit A^. Da wir aber nicht an einer
MaBzahl interessiert sind, die bei identischen Graden der Beziehung in
5.2 Assoziationsmafie auf der Basis von Chi-Quadrat 111
^^=^ bzw. ^= j —
N ^N
Fur die Beispiele der Tabelle 5-6 erhalten wir einen Zahlenwert von
, 1 1 ^ = 0.20
fl60 V320
^ ^ = ^ = — = 0.0144
A^ 602
Wie oben erwahnt, batten wir den Chi-Quadrat-Wort filr unsere Vier-
feldertabelle auch ohne Ermittlung der erwarteten Haufigkeiten nach die-
ser Formel berechnen konnen:
2_ N[ad-bcf
^ " {a + b)[c-^d]{a + c)[b + d)
Das Ergebnis der folgenden Rechnung zeigt, daB der mit dieser Formel
ermittelte Chi-Quadrat-^Qxi bis auf eine geringftigige, auf Rundungen
zunickgehende Differenz mit dem obigen Wert iibereinstimmt:
112 5 Die Beschreibung der Beziehung zwischen nominalen Variablen
2 602[(85)(252)-(2Q6)(59)]^ ^^^
^ (291)(311)(144)(458)
ad - be
(j) =
^{a + b){c + d)[a + c){b + d)
(85)(252)-(206)(59) _^^^
V(291)(311)(144)(458)
Dieser Zahlenwert ist mit dem oben errechneten identisch. Ein beach-
tens werter Unterschied liegt darin, daB ein nach der Formel ^^ = j ^ / A^
berechneter Wert vorzeichenlos ist, ein nach der zuletzt verwendeten
Formel berechneter Wert jedoch zwischen -1 und +1 variieren kann. Da
es stets von Interesse ist, die Richtung der Beziehung zu kennen (Uber-
gewicht entlang der (ad)-Diagonalen oder der (bc)-Diagonalen), ist die
auf die Vierfeldertabelle zugeschnittene Formel zu bevorzugen, falls man
den Koeffizienten Phi „von Hand" berechnet. Bei ordinalen und metri-
schen Daten kommt hinzu, daB das Vorzeichen nicht nur formal, sondem
auch inhaltlich interpretiert werden kann.
Filr groBere als 2 x 2-Tabellen kann ^^ > 1 werden - eine bei Assozia-
tionsmaBen unerwunschte Eigenschaft, die sie als VergleichsgroBen
untauglich werden laBt. Deshalb sind fiir r x c-Tabellen andere Koeffi-
zienten vorgeschlagen worden, die ebenfalls eine Funktion von Chi-
Quadrat sind, aber den Wert 1 als Obergrenze haben. Eines dieser MaBe
ist der nach TSCHUPROW benannte Koeffizient T definiert als
r^ = —, ^ bzw. r= ' ^
N^{r-l){c-\) ' ^\N^{r-\)[c-\)
wobei r die Anzahl der Zeilen und c die Anzahl der Spalten symbo-
lisiert. Bei 2 x 2-Tabellen ist T^ mit ^^ identisch, weil dann der Wur-
zelausdruck im Nenner gleich 1 ist. T kann allerdings die Obergrenze 1
nur dann erreichen, wenn die Anzahl der Zeilen und Spalten der Tabelle
gleich ist. In einer 2 x 3 - oder 3 x 4-Tabelle ist T stets kleiner als 1.
Dieser Schwache wegen spielt der Koeffizient T in der empirischen
Sozialforschung praktisch keine Rolle.
Eine Variante, die statt dessen verwendet wird, ist der 1946 von
CRAMER vorgeschlagene Koeffizient F, definiert als
V^ = 7^ T bzw. V=J ^
A^min(r- l,c-1) y A^min(r- l,c-1)
wobei r die Anzahl der Zeilen und c die Anzahl der Spalten bezeichnet.
Der Ausdruck „min" steht fur Minimum und besagt, daB zunachst zu
prufen ist, ob die Anzahl der Zeilen oder die Anzahl der Spalten kleiner
ist; der kleinere Wert geht in die Berechnung des Koeffizienten ein.
Auch V^ ist bei 2 x 2-Tabellen mit ^^ identisch, weil dann der Klam-
merausdruck im Nenner (2 - 1) = 1 ist. V ist T uberlegen, weil der
Koeffizient auch dann den Wert 1 annehmen kann, wenn r und c un-
gleich sind.
114 5 Die Beschreibung der Beziehung zwischen nominalen Variablen
Die beiden abhangigen Variablen der Tabellen 5-7 und 5-8 verlangen
eine kurze Erlauterung. Die Arbeiter waren u.a. gefragt worden, ob ihr
Vorarbeiter normalerweise eine Anv^eisung erteile („tells"), ob er eine
Bitte ausspreche („asks") oder ob er eine Erklarung gebe („explains"),
wenn das, was getan werden solle, einige Informationen erfordere. Die so
operationalisierte Variable „Kommunikationsstil des Vorarbeiters" ist in
Tabelle 5-7 mit der Variablen „Industrietyp" kreuztabuliert.
Industry
X^ = 56.80 F = 0.139
Industry
Z^ = 149.66 F = 0.317
Wir erhalten die von FULLAN ausgewiesenen F-Werte der Tabellen 5-7
und 5-8 durch Einsetzen der entsprechenden GroBen in die Formel
V' =
A^min(r-l,c-l)
50 50 x" = 100
50 50 C = J - M _ = 0.707
50 50 100 100+100
C
k-\
c — c
a
Die Berechnung des Koeffizienten C soil an einem Ergebnis aus der
empirischen Sozialforschung demonstriert werden. HOLLINGSHEAD
(1949) fand bei seiner beruhmten Untersuchung der Konsequenzen
sozialer Schichtung in einer US-Kleinstadt, daB die Gemeindebiirger sich
selbst als zu ftlnf sozialen Klassen zugehorig empfanden. Eine seiner
Hypothesen war, daB die Jugendlichen der verschiedenen Klassen
verschiedene Curricula der Elmtown-High-School (College preparatory,
General und Commercial) gewahlt haben wurden. HOLLINGSHEAD
liberprufte diese Hypothese, indem er die Variable „Schichtzugehorig-
118 5 Die Beschreibung der Beziehung zwischen nominalen Variablen
Class
laadll III IV V
College 23 40 16 2 81
Curriculum General 11 75 107 14 207
Commercial 1 31 60 10 102
35 146 183 26 390
College
Curriculum 53
C
k-\ 3-1
= 0.816
120 5 Die Beschreibung der Beziehung zwischen nominalen Variablen
Eine Betrachtungsweise, bei der nicht die Abweichung von der statisti-
schen Unabhangigkeit, sondem die Vorhersagbarkeit der einen Varia-
122 5 Die Beschreibung der Beziehung zwischen nominalen Variablen
blen auf der Basis der anderen Variablen das Kriterium der Assoziation
ist, ist die im Englischen mit „predictive association" bezeichnete Per-
spektive. Die dieser Konzeption entsprechenden PRE-Ma6e (engl. pro-
portional reduction in error measures) reflektieren den Grad, in dem uns
die Kenntnis der einen Variablen die andere Variable vorherzusagen
hilft. Ein solches MaB der pradiktiven Assoziation ist das von GOOD-
MAN und KRUSKAL (1954) vorgeschlagene AssoziationsmaB Lambda
(A). Da Lambda JQiiQi Konzeption entspricht, die schon Louis GUTT-
MAN (1941) formuliert hatte, wird es von einigen Autoren, die mitunter
anstelle des kleinen griechischen Lambda (A) das Symbol g benutzen,
auch „Guttman's coefficient of (relative) predictability" genannt.
Lambda ist ein fiir nominale Variablen konzipiertes MaB, das keine
Restriktionen der TabellengroBe kennt, zwischen 0 und 1 (einschlieB-
lich) variiert und als PRE-MaB eine klare Interpretation hat. Bei der
Diskussion der Tabellen 4-13 und 4-14 haben wir bereits eine ganze
Reihe von Lambda-WQVtQn berechnet, ohne dies erwahnt zu haben.
Nachfolgend woUen wir die Logik dieses Koeffizienten, seine Anwen-
dungsweise und seine Interpretation erortem.
Lambda ist ein asymmetrisches MaB, d. h., man kann fiir jede Kreuz-
tabulation zwei Lambda-WQrtQ berechnen, indem man einmal die
Zeilenvariable (engl. row variable) und einmal die Spaltenvariable (engl.
column variable) vorhersagt. Wenn, wie iiblich, die Zeilenvariable
abhdngige Variable (engl. dependent variable) ist, hat Lambda das
Symbol A^ (lies „Lambda-sub-r" oder kurz „Lambda-r"), weil dann die
R-Variable vorhergesagt wird. Wenn umgekehrt die Spaltenvariable
abhangige Variable ist, hat Lambda das Symbol A^, weil dann die C-
Variable vorhergesagt wird. Aus der Kombination beider Lambdas geht
eine dritte Version hervor, die A^ genannt wird (s fiir „symmetric"). Das
symmetrische Lambda kann zur Beschreibung einer symmetrischen
Beziehung verwendet werden, bei der keine der beiden Variablen als von
der anderen abhangig betrachtet wird.
5.3 Ein Mafi der pradiktiven Assoziation: Lambda 123
X X
C-Variable C-Variable
ist ist
unabhdngige abhangige
Variable Variable
Y Y
R-Variable R-Variable
ist ^r bzw. Ay^ ist ^c bzw. X^
abhangige unabhdngige
Variable Variable
A, = 0.21 A, = 0.33
Die Frage ist, ob die Anzahl dieser Fehler vermindert und damit die
Vorhersage verbessert werden kann, wenn wir die Vorhersage auf eine
5.3 Ein Mafi der pradiktiven Assoziation: Lambda 125
zusatzliche Information stutzen. Tabelle 5-11 gibt nicht nur tlber die
Randverteilung, sondem auch uber die konditionalen Verteilungen der
Y-Variablen in den drei Kategorien der X-Variablen AufschluB. Wie
man sieht, sind die Sexualnormen fiir Jugendliche in diesen drei Kate-
gorien unterschiedlich verteilt, und zwar in Abhangigkeit davon, ob die
Sexualnormen fiir Kinder restriktiv, semi-restriktiv oder groBzugig sind.
Was ist diese zusatzliche Information wert? Hilft sie, unsere Vorhersage
der abhangigen Variablen „Sexualnormen fur Jugendliche" in dem Sinne
zu verbessem, da6 wir weniger Vorhersagefehler begehen, wenn wir die
Sexualnormen fur Kinder kennen, bevor wir die modale Kategorie der
abhangigen Variablen vorhersagen? Die Antwort hierauf lautet: Ja, die
zusatzliche Information hilft. Denn fur die 21 Gesellschaften, in denen
die Sexualnormen ftir Kinder restriktiv sind, sagen wir jetzt restriktive
Sexualnormen fiir Jugendliche vorher; diese Vorhersage ist in 9 von 21
Fallen richtig und in 6 + 6 = 12 Fallen falsch. Ftir die 25 Gesellschaften,
in denen die Sexualnormen ftir Kinder semi-restriktiv sind, sagen wir
jetzt semi-restriktive Sexualnormen ftir Jugendliche vorher; diese
Vorhersage ist in 19 von 25 Fallen richtig und in 1 + 5 = 6 Fallen falsch.
Und fiir die 18 Gesellschaften, in denen die Sexualnormen fiir Kin-
der groBzugig sind, sagen wir jetzt groBziigige Sexualnormen fiir
Jugendliche vorher; diese Vorhersage ist in 10 von 18 Fallen richtig und
in 2 + 6 = 8 Fallen falsch.
A,^ =^^ = 0.21. Der Zahlenwert 0.21 besagt, daB man die Vorhersage
der Variablen „Sexualnormen fiir Jugendliche" um 21 Prozent verbessem
kann, wenn man sie, statt sie auf die eigene Verteilung zu stutzen, auf die
Verteilung der Variablen „Sexualnormen fiir Kinder" stiitzt, d. h., wenn
man anstelle der marginalen Modalkategorie die konditionalen Modal-
kategorien vorhersagt.
(1) Lambda: Die Kegel fur die Vorhersage der abhdngigen Variablen auf
der Basis ihrer eigenen Verteilung. Durch Inspektion der marginalen
Haufigkeiten der Tabelle wird die Modalkategorie identifiziert und als
beste Vorhersage fiir alle Untersuchungseinheiten (Falle) genommen.
Zur Berechnung von X^ ist die Modalkategorie der Zeilenvariablen (der
R-Variablen) zu identifizieren. Das ist in Tabelle 5-11 die mit 31 Fallen
besetzte Kategorie „semi-restriktiv". Die beste Vorhersage der Variablen
„Sexualnormen fiir Jugendliche" ohne Beriicksichtigung der zweiten
Variablen ist folglich „semi-restriktiv". Bei der Berechnung von A^ ist
die Modalkategorie der Spaltenvariablen (der C-Variablen) zu identi-
fizieren und vorherzusagen. Das ist in Tabelle 5-11 die mit 25 Fallen
besetzte Kategorie „semi-restriktiv" der Variablen „Sexualnormen fiir
Kinder". Generell lautet die erste Vorhersageregel: „Sage fur alle Unter-
suchungseinheiten die marginale Modalkategorie der abhangigen Varia-
blen vorher."
(2) Lambda: Die Kegel fUr die Vorhersage der abhangigen Variablen auf
der Basis der unabhangigen Variablen. Fiir jede Kategorie der unab-
hangigen Variablen gibt es eine (konditionale) Verteilung der Falle iiber
die Kategorien der abhangigen Variablen. Zur Berechnung von X^ sind
die Verteilungen der Spalten im Hinblick auf die spaltenspezifischen
Modalkategorien zu betrachten. Das sind in Tabelle 5-11 die mit den
Haufigkeiten 9, 19 und 10 besetzten Kategorien. Bei der Berechnung von
5.3 Ein MaB der pradiktiven Assoziation: Lambda 127
wobei El = Anzahl der Fehler bei der Vorhersage der Modalkategorie der
abhangigen Variablen auf der Basis ihrer eigenen Verteilung,
A^ = Gesamthaufigkeit,
Die Fehler, die man bei der Vorhersage der abhangigen Variablen auf der
Basis der unabhangigen Variablen begeht (E2X werden auf ganz ahn-
liche Weise berechnet, d. h. fur jede Kategorie der unabhangigen Varia-
blen ermittelt und dann summiert.
Bei der Berechnung von A^ fur Tabelle 5-11 erhalten wir fur die erste
Spalte 6 + 6 = 12 Fehler; das ist die Differenz zwischen der (Rand-)
Haufigkeit und der Haufigkeit der vorhergesagten Modalkategorie der
ersten Spalte: 21 - 9 = 12. Fiir die zweite Spalte ist das Ergebnis
25 - 19 = 6 und fiir die dritte Spalte 18 - 10 = 8. Die Gesamtzahl dieser
Fehler ist die Summe 12 + 6 + 8 = 26.
r
bei A^: E2 =^{ni -maxn^)
1=1
wobei E2 = Anzahl der Fehler bei der Vorhersage der Modalkategorie der
abhangigen Variablen auf der Basis der Kategorien der unab-
hangigen Variablen,
Flir Tabelle 5-11 erhalten wir bei der Berechnung von A^:
Fur Tabelle 5-11 erhalten wir bei der Berechnung von A^:
El
El 33 33
£,-^^39-26^13^^33
' E^ 39 39
£•1 = 33 + 39=72
E, =26+26 = 52
E^ 72 72
Man beachte, da6 dieser Wert nicht das arithmetische Mittel des
Lambda-r-WtriQS (0.21) und des Lambda-c-WQrtQS (0.33) ist:
^maxwy -max/7y
y=i
K =
N- -maxw^
r
max/iy -max«y
/=1
K= A^--max;7y
wobei A^ = Gesamthaufigkeit,
' 64-31 33 33
^ _(9 + 19 + 1 0 ) - 2 5 ^ 3 8 - 2 5 ^ 1 3 ^ P ^ ^
64-25 39 39
Tabelle 5-12: Beispiel einer Tabelle mit gleich stark besetzten „maximalen"
Marginalkategorien
Spaltenvariable C
Cl C2 C3 C4
Zeilen- ri 10 5 5 20
Variable r2 15 16 8 1 40
R rs 4 17 19 40
25 25 25 25 100
^ ^(lQ+16 + 1 9 ) - 2 5 ^ 4 5 - 2 5 ^ 2 0 ^ Q , ,
100-25 75 75
Tabelle 5-13: Beispiel einer Tabelle mit gleich stark besetzten „maximalen"
Kategorien der Spaltenvariablen C
Spaltenvariable C
Cl C2 C3
Zeilen- ri 11 10 14 35
Variable 11 15 26
R r3 8 15 16 39
30 40 30 100
5.3 Ein Ma6 der pradiktiven Assoziation: Lambda 133
^ (ll+15+16)-39^ 4 2 - 3 9 ^ 3 ^^^^
100-39 61 61
(l4+15+16)-40^ 45-40^ 5 ^ ^
A.=
100-40 ~ 60 ~ 6 0 ~ '
Spaltenvariable C
Ci C2 C3
Zeilen- ri 7 6 4 17
variable R r2 7 8 11 26
14 14 15 43
^(7 + 8+ll)-26_26-26_ 0 _^
43-26 17 17
(7.1l)-15^18-15^A.0.n
43-15 28 28
Im Fall der Tabelle 5-14 nimmt Lambda-r den Zahlenwert 0 an, weil die
vorherzusagenden konditionalen Modalkategorien mit der marginalen
Modalkategorie der abhangigen Variablen R ubereinstimmen; da alle
modalen Haufigkeiten in derselben Zeile liegen, ist die Anzahl der Fehler
der zweiten Vorhersage (£"2 = 7 + 6 + 4 = 17) gleich der Anzahl der
Fehler der ersten Vorhersage {Ei = 17). Das aber bedeutet, daB mit der
zweiten Vorhersage der Zeilenvariablen R keine Fehlerreduktion
(£•1-£"2 =17-17 = 0) und damit keine Vorhersageverbesserung mog-
lich ist. Hier zeigt sich eine Besonderheit Lambdas: Ist die Modal-
kategorie der abhangigen Variablen in alien Kategorien der unabhan-
gigen Variablen dieselbe, so ist Lambda, ungeachtet anderer Eigen-
schaften der gemeinsamen Verteilung, gleich Null. Und in Tabellen mit
einem starken Ubergewicht der Falle in einer der Kategorien der ab-
hangigen Variablen nimmt Lambda haufig sehr kleine Werte an - was
vor allem jenen als Nachteil erscheinen mag, die auf eine Demonstration
starker Beziehungen aus sind.
GOODMAN und KRUSKAL - die die Variablen mit A und B und den
Koeffizienten mit >l^ bezeichnen, wenn B die abhangige Variable ist -
kommentieren die Tatsache, daB Lambda den Wert Null annehmen kann,
ohne daB eine statistische Unabhangigkeit gegeben ist, so (1954, S.742):
Tragt die Kenntnis der Variablen C iiberhaupt nichts dazu bei, die Vor-
hersage der Variablen R zu verbessem, so ist Lambda gleich Null; es
liegt dann keine pradiktive Assoziation vor. Erlaubt hingegen die Kennt-
nis der Variablen C, die Variable R fehlerfrei vorherzusagen, dann ist
Lambda gleich 1; dann ist der Fall einer perfekten pradiktiven Assozia-
tion gegeben.