Beruflich Dokumente
Kultur Dokumente
Wichtiger als die Benennung der Koeffizienten ist die Beachtung ihrer
68 4 Bivariate Verteilungen
Variable X Variable Y
Student(in) Herkunft Studium
Herkunft (X)
Nicht-
Europa Europa
Med. 46 82 128
Jur. 38 20 58
Studium (Y) WiSo 179 197 376
Phil. 238 189 427
Math.-Nat. 97 154 251
598 642 1240
Die bivariate Tabelle besteht zunachst aus einer bestimmten Anzahl von
Zeilen, Spalten und Zellen. Zur Identifizierung der Zellen verwendet man
die Subskripte i und j , wobei das erste Subskript i die Zeile und das
zweite Subskript j die Spalte bezeichnet, in der die Zelle lokalisiert ist.
ZellCij ist folglich die Zelle der i-ten Zeile und der j-ten Spalte. Die
Haufigkeit der Zelleij wird mit/y oder riij bezeichnet; sie informiert iiber
die Anzahl der Untersuchungseinheiten, die die Auspragungskombi-
nation yi, Xj aufweisen. Die vollstandige bivariate Tabelle hat auBerdem
zwei Randhdufigkeiten (das sind die univariaten Verteilungen der bei-
72 4 Bivariate Verteilungen
Tabelle 4-3: Die Bezeichnungen der Zeilen, Spalten und Zellen der
bivariaten Tabelle
Variable X
_j =l j=2 j=3
i=l
Variable i= 2
Y i= 3 Zelle32
i=4
Variable X
xi X2 X3
4-3 und 4-4 von einer 4 x 3-Tabelle. Welche Einsichten cine bivariate
Tabelle vermittelt, soli ein Beispiel aus der Forschung verdeutlichen. Ihre
Autoren, ARMER und YOUTZ (1971), gingen von der zentralen
Hypothese aus, daB eine formale vs^estliche Ausbildung die Perspektiven
in traditionalen, nicht-industrialisierten Gesellschaften „modemisiert". In
Tabelle 4-5 ist die unabhangige Variable „Ausbildungsniveau (X)" mit
der in der Nahe des Medians dichotomisierten Variablen „individuelle
Modemitat (Y)" kreuztabuliert. (Die Daten entstammen strukturierten
Interviews mit 591 Jugendlichen aus Kano in Nigeria. Der Koeffizient
Gamma (r) beschreibt die Richtung und die Starke der Beziehung
zv^ischen den Variablen. Dieses MaB der ordinalen Assoziation wird in
Abschnitt 6.2 vorgestellt.)
Wir konnen die drei Spalten der Tabelle 4-5 als drei konditionale
Verteilungen betrachten, wobei die Spaltenuberschriften die Bedingun-
gen spezifizieren. So beschreibt die erste Spalte die individuelle Moder-
nitat der 312 Jugendlichen, die keine formale Ausbildung haben: Von
den 312 Jugendlichen ohne formale Ausbildung zeichnen sich 194 durch
„niedrige" und 118 durch „hohe" individuelle Modemitat aus; die
Bedingung dafiir ist „keine formale Ausbildung". Die zweite Spalte
beschreibt die konditionale Verteilung der Variablen „individuelle
Modemitat" unter der Bedingung einer „primaren Ausbildung", die dritte
Spalte unter der Bedingung einer „sekundaren Ausbildung".
4.2.1 Die generelle Struktur der bivariaten Tabelle 75
Fall (a) und Fall (b) sind Beispiele fur die Annahme asymmetrischer
Beziehungen. Es gibt auBerdem den Fall (c), namlich die Annahme
symmetrischer Beziehungen. Eine symmetrische Beziehung liegt vor,
wenn keine der beiden Variablen als unabhangige oder abhangige
Variable angesehen werden kann oder wenn jede der beiden Variablen
als von der anderen abhangig aufgefaBt werden kann. Wie wir sehen
werden, gibt es sowohl asymmetrische als auch symmetrische Koeffi-
zienten, die zur Beschreibung entsprechender Beziehungen benutzt
werden konnen.
Diese Prozentwerte sind wie folgt zu berechnen: Wir fmden in der ersten
Spalte der Tabelle 4-5 die Kategorie „hoch" der Variablen „individuelle
Modemitat" mit 118 besetzt; das sind (118/312)100 = 37.8 Prozent der
Jugendlichen ohne formale Ausbildung. Der entsprechende Prozentsatz
der zweiten Spalte ist (117/211)100 = 55.5 und der der dritten Spalte
gleich (57/68)100 = 83.8. Als bivariate Prozentwertverteilung sieht
Tabelle 4-5 dann wie Tabelle 4-6 und Abbildung 4-1 aus.
Ausbildungsniveau (X)
keine primare sekundare insgesamt
Ausbildung Ausbildung Ausbildung
Modemi- niedrig 62.2 % 44.5 % 16.2 % 50.6 %
tat(Y) hoch 37.8 55.5 83.8 49.4
100.0 100.0 100.0 100.0
(N) (312) (211) (68) (591)
Ausbildungsniveau (X)
keine primare sekundare insgesamt
Ausbildung Ausbildung Ausbildung
51
niedrig
Modemi-
tat (Y)
hoch
100
gig betrachtete Variable, also die Variable, deren Effekt untersucht wer-
den soil, als Basis der Prozentuierung. Das heiBt bei konventioneller
Anordnung der X-Variablen im Tabellenkopf: Prozentuiere spalten-
weise und vergleiche zeilenweise, (Eine hervorragende Darstellung der
Tabellenanalyse durch Anwendung dieser und weiterer Prozentuie-
rungsregeln fmdet der Leser in ZEISEL, 1970.)
Hier filhrt der Vergleich der Prozentzahlen zu der Feststellung, daB nur
38 Prozent der Jugendlichen ohne formale Ausbildung in die mit „hoch"
bezeichnete Kategorie der abhangigen Variablen „individuelle Modemi-
tat" fallen, wahrend der entsprechende Anteil bei den Jugendlichen
mit Primarausbildung bereits 56 Prozent und bei den Jugendlichen mit
Sekundarausbildung 84 Prozent betragt. Offensichtlich sind die Daten
geeignet, die Hypothese der Autoren ARMER und YOUTZ zu unter-
stutzen, nach der die formale westliche Ausbildung einen modemi-
sierenden EinfluB auf die Jugend in einer traditionalen, nichtwest-
lichen Gesellschaft hat. Wie wir sehen werden, kann ein solches Ergeb-
nis der Tabellenanalyse mit einer einzigen Zahl zum Ausdruck gebracht
werden.
Ein wichtiger Spezialfall der bivariaten Tabelle ist die bereits erwahnte
Vierfelder- oder 2 x 2-Tahelle (lies „zwei-mal-zwei-Tabelle"), auf die
einige AssoziationsmaBe zugeschnitten sind. Ihre besondere Bedeutung
liegt darin, daB prinzipiell jede nicht-dichotome Variable durch
Zusammenfassung ihrer Auspragungen auf eine Dichotomic reduziert
und mit einer anderen Dichotomic kreuztabuliert werden kann. Fur die
2 X 2-Tabelle gibt es eine parallel zur oben erlauterten generellen
Nomenklatur verwendete Bezeichnung ihrer Haufigkeiten, bei der die
Buchstaben a, 6, c, und d die absoluten Haufigkeiten der Zellen und die
Ausdrucke {a + b\ {c + rf), (a + c) und (b + d) die marginalen
Haufigkeiten symbolisieren (siehe Tabelle 4-7).
78 4 Bivariate Verteilungen
Variable X
Xi X2
Variable yi a b a+b
Y y2 c d c+d
a+c b+d N= a^b^c-^d
Variable X
Xl X2 X3 X4
yi 25 25
Variable y2 25 25
Y y3 25 25
y4 25 25
25 25 25 25 100
Variable X
Xl X2
riable yi 50 50
Y 50 50
50 50 100
Variable X
Xl X2
Variable yi 25 25
Y 25 50 75
25 75 100
Auf unser Beispiel der Tabelle 4-5 angewandt heiBt das: Man soUte nicht
von einer Beziehung zwischen dem Ausbildungsniveau und der indi-
viduellen Modemitat sprechen, ohne die Kategorien der kreuztabulierten
Variabeln genau definiert zu haben. In der Tat erfiillen ARMER und
YOUTZ diese Forderung, indem sie die Kategorien der X-Variablen
„Ausbildungsniveau" wie folgt spezifizieren: Mit Primarausbildung ist
ein ein- bis siebenjahriger Besuch einer Primarschule, mit Sekun-
darausbildung ein mindestens einjahriger Schulbesuch jenseits der
Primarschule bezeichnet. GleichermaBen geben die Autoren genau an,
wie die Y-Variable „individuelle Modemitat" gemessen wurde, namlich
mit Hilfe einer bestimmten Skala, und wie die Kategorien gebildet
wurden, namlich durch Dichotomisierung der Verteilung der
Skalenwerte in der Nahe des Medians (deshalb die fast gleich starke
Besetzung der Kategorien „niedrig" und „hoch" mit 299 und 292
Jugendlichen).
4.3 Das Konzept der statistischen Beziehung oder Assoziation 81
Universitatstyp
Staatliche Private
Universitat Universitat
Grad der Beto- niedrig 20 3 23
nung der akade- mittel 13 9 22
mischen Freiheit hoch 9 14 23
42 26 68
r = 0.627
Als zweites Beispiel sei eine Tabelle zitiert, die ebenfalls einer Unter-
suchung aus den USA entstammt. John WALTON (1966) fand bei der
Durchsicht einschlagiger Forschungsarbeiten von 33 Autoren und
Autorengruppen, die 55 Lokalgemeinden auf deren Machtstruktur hin
untersucht hatten, die in Tabelle 4-12 wiedergegebene Beziehung
zwischen der Disziplin der Forscher und der von den Forschem ange-
wandten Technik zur Identifizierung von Gemeindemachtstrukturen. Aus
Tabelle 4-12 geht hervor, daB sich die Soziologen weit haufiger als die
4.3 Das Konzept der statistischen Beziehung oder Assoziation 83
Soziologie Politische
Wissenschaft
Angewandte Reputationstechnik 23 4 27
Technik Andere Technik 5 23 28
28 27 55
Q = 0.93
% %
(a) Keine
Beziehung Beschaftigtenstatus
Arbeiter Angest.
Lohnzufrie- gering 25 25 50
denheit hoch 25 25 50
50 50 100
100 100
% %
(b) Schwache
Beziehung Beschaftigtenstatus
44
56
Arbeiter Angest.
Lohnzufrie- gering 28 22 50
denheit hoch 22 28 50
50 50 100
100 100
(c) Starke
Beziehung Beschaftigtenstatus
Arbeiter Angest.
Lohnzufrie- gering 40 10 50
denheit hoch 10 40 50
50 50 100
4.3 Das Konzept der statistischen Beziehung oder Assoziation 85
(d) Perfekte
Beziehung Beschaftigtenstatus
Arbeiter Angest.
Lohnzufrie- gering 50 50
denheit hoch 50 50
50 50 100
100 100
(a) Keine
Beziehung Lohneinkommen 33 33 33^
100 100
4.3 Das Konzept der statistischen Beziehung oder Assoziation 87
2. Man priift zunachst, wie die Tabelle aussahe, wenn X und Y nicht asso-
ziiert waren.
3. Alsdann vergleicht man die Daten der aktuellen Tabelle, in diesem Zusam-
menhang haufig Kontingenztabelle genannt, mit den Daten der Tabelle der
Nichtbeziehung zwischen X und Y, in diesem Zusammenhang haufig
Indifferenztabelle genannt.
4.3.1 AssoziationsmaBe
Wie gezeigt, kann man sich auf verschiedene Weise AufschluB dariiber
verschaffen, ob eine Beziehung zwischen zwei Variablen vorliegt, etwa
durch sorgfaltige Inspektion der bivariaten Tabelle, durch die Berech-
nung relativer Haufigkeiten und deren Vergleich, durch die Uberpnifung
der Frage, ob die Daten der Kontingenztabelle von den Daten der
Indifferenztabelle abweichen, oder durch die Beantwortung der Frage, ob
die Anwendung zweier Vorhersageregeln zu einer Vorhersagefehler-
reduktion und damit zu einer Verbesserung der Vorhersage fiihrt. Mit
diesen elementaren Aktivitaten der Tabellenanalyse ist jedoch noch kein
summarisches MaB gewonnen, das uns in die Lage versetzt, den wesent-
lichen Inhalt der Tabelle mit einer einzigen Zahl zu beschreiben, die sich
leicht mit anderen Zahlen vergleichen laBt (leichter als Tabellen mit
Tabellen) und die sich leicht mitteilen laBt (z. B. in wissenschaftlichen
Publikationen). Genau das ermoglichen die schon mehrfach erwahnten
90 4 Bivariate Verteilungen
Greifen wir zur Illustration der PRE-Logik auf die Tabellen 4-13 und
4-14 zuriick. Tabelle 4-13d und 4-14d sind Beispiele perfekter Bezie-
hungen. Im Fall der Tabelle 4-13d ermoglicht die Kenntnis des Beschaf-
tigtenstatus die Vorhersage der Lohnzufriedenheit, ohne einen Vorher-
sagefehler zu begehen; denn wenn wir wissen, daB eine Person Arbeiter
ist, dann wissen wir auch, daB sich diese Person durch eine geringe
Lohnzufriedenheit auszeichnet; und wenn wir wissen, daB jemand Ange-
94 4 Bivariate Verteilungen
stellter ist, dann wissen wir auch, daB er sich durch eine hohe Lohn-
zufriedenheit auszeichnet.
Betrachten wir schlieBlich die in den Tabellen 4-13b und 4-14b dar-
gestellten schwachen Beziehungen. Im ersten Beispiel ist die Vorher-
sage der Lohnzufriedenheit bei Berucksichtigung des Beschaftigten-
status in 28 + 28 = 56 von 100 Fallen richtig und in 44 Fallen falsch. Auf
der Basis der (Rand-)Verteilung der Variablen „Lohnzufriedenheit"
allein begehen wir 50 Vorhersagefehler. Die Fehlerreduktion ist in
diesem Beispiel sehr gering; sie betragt nur (50 - 44)/50 =0.12 oder 12
Prozent. Bei Tabelle 4-14b fiihrt die Auswertung der Information iiber
das Lohneinkommen z u l 4 + 13H-14 = 41 fehlerfreien Vorhersagen der
Lohnzufriedenheit; in diesem Beispiel sind folglich 9 9 - 4 1 = 5 8 Vor-
4.3.3 Das Modell der proportionalen Fehlerreduktion (PRE-Modell) 97
2. Eine Regel fur die Vorhersage der abhangigen Variablen auf der Basis der
unabhdngigen Variablen. Im ersten der obigen Rechenbeispiele lautete die
auf die unabhangige Variable gestiitzte Vorhersageregel: „Wenn Arbeiter,
dann geringe Lohnzufriedenheit,...", im zweiten Beispiel: „Wenn geringes
Lohneinkommen, dann geringe Lohnzufriedenheit, ...". Auf andere Daten
und PRE-MaBe sind, wie wir sehen werden, andere Regeln fiir die Vorher-
sage der abhangigen Variablen auf der Basis der unabhangigen Variablen
zugeschnitten.
E^-E^
El