Sie sind auf Seite 1von 32

Prof. Dr.

Oliver Arránz-Becker
E-Mail: oliver.arranz-becker@soziologie.uni-halle.de
Raum: Emil-Abderhalden-Str. 26-27, EG, Raum E.54.0
Sprechstunde: Di 13-14 Uhr (nur nach vorheriger
Eintragung in Stud.IP)

Vorlesung
Methoden der deskriptiven Datenanalyse

6. Sitzung: Assoziationsmaße auf Basis von


Kreuztabellen II (Unabhängigkeits- und
PRE-Maße)

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


1
(WiSe 2019/20)
Themen der heutigen Sitzung

Assoziationsmaße auf Basis von


Kreuztabellen:
 Logik von Unabhängigkeitsmaßen: Chi² (χ²)
 Chi²-basierte Assoziationsmaße: Phi, Cramérs V
 Logik von PRE-Maßen: prädiktive Assoziation
 PRE-Maß: Lambda

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


2
(WiSe 2019/20)
Zwei Grundkonzepte statistischer Assoziation

• Unterscheidung zweier Sichtweisen


statistischer Assoziation (vgl. Benninghaus
2007: 87ff):
1. als Abweichung von der statistischen
Unabhängigkeit (d.h. „Nichtbeziehung“),
z.B. Chi-Quadrat (χ²)
2. als Vorhersagbarkeit der einen auf Basis
der anderen Variablen („prädiktive
Assoziation“), z.B. Lambda (λ)
18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik
3
(WiSe 2019/20)
Ia) (Un-)Abhängigkeitsmaße für
nominalskalierte Variablen

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


4
(WiSe 2019/20)
Chi-Quadrat (χ²)

(und daraus abgeleitete


Assoziationsmaße)

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


5
(WiSe 2019/20)
Assoziation als Abweichung von statistischer
Unabhängigkeit (z.B. χ²)
• Sichtweise: zwei Merkmale hängen zusammen, wenn
sie nicht voneinander unabhängig sind
• Was bedeutet (statistische) Unabhängigkeit?
1. Konstruktion einer (hypothetischen) Häufigkeitstabelle,
in der beide Merkmale vollständig unabhängig
voneinander sind („Indifferenztabelle“)
 zur Erinnerung: Unabhängigkeit (Indifferenz) bedeutet
allgemein, dass die bedingten Verteilungen identisch sind
2. Vergleich (= Differenzen) zwischen empirisch
beobachteten und (bei Unabhängigkeit) theoretisch
erwarteten Häufigkeiten für jede einzelne Tabellenzelle
3. Summe der Differenzen (über alle Zellen hinweg)
quantifiziert das Maß an Abhängigkeit bzw. Assoziation

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


6
(WiSe 2019/20)
Beispiel: Berechnung der Indifferenztabelle
Großstadt (X) nein ja Zeilensumme
(1) Tabelle mit beobach- Religionsgemeinschaft (Y) (x=0) (x=1) ni,+ (pi,+%)
teten Häufigkeiten: nein (y=0) a=1062 b=254 1316 (38,1%
→ Zeilensummen: relative
Häufigkeiten (mit Spalten- ja (y=1) c=1834 d=306 2140 (61,9%)
prozentuierung) Spaltensumme n+,j 2896 560 n=3456
→ Spaltensummen: Rechenbeispiel: Wenn die n+,1=2896 Landbewohner sich so auf die
Absoluthäufigkeiten
Konfessionzugehörigkeit verteilen würden wie nach den Spaltensummen
(Gesamtstichprobe) zu erwarten, d.h. p+,1=0,381 vs. p+,2=0,619, dann gäbe
es ca. 1103 Konfessionslose auf dem Land und 1793 in der Stadt (=
(2) „Indifferenztabelle“ mit hypothetische, „erwartete“ Häufigkeit)
erwarteten Häufig- Großstadt (X) nein ja Zeilen-
keiten (Annahme der summe
Unabhängigkeit von X Religionsgemeinschaft (Y) Spalte j=1 j=2 ni,+ (p+,j %)
und Y): Zeile i=1 2896∙0,381= 560∙0,381= 1316
→ allgemeine Berechnungs- nein 1103,4 213,4 (38,1%
vorschrift:
i=2 2896∙0,619 = 560∙0,619= 2140
ei,j = n+,j∙pi,+ = n+,j∙ni,+/n ja (61,9%)
1792,6 346,6
exakte Berechnung von p
(ohne Rundungsfehler) Spaltensumme: n+,j a+c=2896 b+d=560 n=3456

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


7
(WiSe 2019/20)
Abweichungen zwischen beobachteten und
erwarteten Häufigkeiten
• Für die Berechnung von χ² werden die Abweichungen zwischen
beobachteten und erwarteten Häufigkeiten für jede Zelle
berechnet und über alle Zellen aufsummiert
→ Damit sich positive und negative
Großstadt (X) nein ja
Abweichungen dabei nicht Spalte
gegenseitig aufheben können, Religionsgemeinschaft (Y) j=1 j=2
werden diese quadriert
→ Dann teilen wir durch die Zeile i=1 a=1062 b=254
nein (1102,8) (213,2)
erwartete Zellenhäufigkeit, um
die Maßeinheit (²) zu korrigieren i=2 c=1834 d=306
ja (1793,2) (346,8)
• Formel:
𝐼𝐼 𝐽𝐽 2
2
𝑛𝑛𝑖𝑖,𝑗𝑗 − 𝑒𝑒𝑖𝑖,𝑗𝑗
𝜒𝜒 = � �
𝑒𝑒𝑖𝑖,𝑗𝑗
𝑖𝑖=1 𝑗𝑗=1
Summe über Spalten
…und über Zeilen!

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


8
(WiSe 2019/20)
Beispiel: Religionsgemeinschaft und Stadt vs. Land

• Kreuztabelle rechts: Großstadt (X) nein ja Zeilen-


Spalte summe
→ erste Zeile: beobachtete Religionsgemeinschaft (Y) j=1 j=2 ni,+
Häufigkeiten ni,j
→ zweite Zeile: erwartete Zeile i=1 a=1062 b=254 1316
nein (1102,8) (213,2)
Häufigkeiten ei,j
i=2 c=1834 d=306 2140
• Berechnung von χ²: ja (1793,2) (346,8)
𝐼𝐼 𝐽𝐽 2
𝑛𝑛𝑖𝑖,𝑗𝑗 − 𝑒𝑒𝑖𝑖,𝑗𝑗 Spaltensumme: n+,j a+c=2896 b+d=560 n=3456
𝜒𝜒 2 = � �
𝑒𝑒𝑖𝑖,𝑗𝑗
𝑖𝑖=1 𝑗𝑗=1
erwartete Häufigkeiten
1316⋅2896 2 1316⋅560 2 2140⋅2896 2 2140⋅560 2
1062− 254− 1834− 306−
3456 3456 3456 3456
= 1316⋅2896 + 1316⋅560 + 2140⋅2896 + 2140⋅560
3456 3456 3456 3456

Zelle 1,1 Zelle 1,2 Zelle 2,1 Zelle 2,2


1062−1102,8 2 254−213,2 2 1834−1793,2 2 306−346,8 2
= + + + = 15,01
1102,8 213,2 1793,2 346,8

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


9
(WiSe 2019/20)
Berechnung von χ² in der Vierfeldertabelle:
alternative Formel
Großstadt (X) nein ja Zeilen-
Religionsgemeinschaft (Y) Spalte j=1 j=2 summe ni,+
Zeile i=1
a=1062 b=254 1316
nein
i=2
c=1834 d=306 2140
ja
Spaltensumme: n+,j a+c=2896 b+d=560 n=3456

• wesentlich sparsamere Formel ohne Berechnung erwarteter


Häufigkeiten (nur für Vierfeldertabellen!):
𝑛𝑛 ⋅ 𝑎𝑎 ⋅ 𝑑𝑑 − 𝑏𝑏 ⋅ 𝑐𝑐 2 (vgl. Prinzip der beiden Diagonalen in der
2
𝜒𝜒 = Alternativformel für d%!)
𝑎𝑎 + 𝑏𝑏 ⋅ 𝑐𝑐 + 𝑑𝑑 ⋅ (𝑎𝑎 + 𝑐𝑐) ⋅ (𝑏𝑏 + 𝑑𝑑)
3456 ⋅ 1062 ⋅ 306 − 254 ⋅ 1834 2
=
1062 + 254 ⋅ 1834 + 306 ⋅ (1062 + 1834) ⋅ (254 + 306)
= 15,01
18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik
10
(WiSe 2019/20)
Beispiel: χ² für Mehrfeldertabellen
(Es werden dieselben Daten wie auf der
vorigen Folie analysiert, allerdings mit
einer nicht zusammengefassten Variante
der Religionszugehörigkeit.)

• Berechnung von χ²:


𝐼𝐼 𝐽𝐽 2
𝑛𝑛𝑖𝑖,𝑗𝑗 − 𝑒𝑒𝑖𝑖,𝑗𝑗
𝜒𝜒 2 = ��
𝑒𝑒𝑖𝑖,𝑗𝑗
𝑖𝑖=1 𝑗𝑗=1

1316⋅2896 2 1316⋅560 2 1089⋅2896 2 1089⋅560 2


1062− 254− 944− 145−
3456 3456 3456 3456
= 1316⋅2896 + 1316⋅560 + 1089⋅2896 + 1089⋅560
3456 3456 3456 3456
2 2 2 2
862 ⋅ 2896 862 ⋅ 560 189 ⋅ 2896 189 ⋅ 560
754 − 108 − 136 − 53 −
3456 3456 3456 3456
+ + + + = 44,07
862 ⋅ 2896 862 ⋅ 560 189 ⋅ 2896 189 ⋅ 560
3456 3456 3456 3456
 Durch die feinere Differenzierung der Religionszugehörigkeit und die daraus
resultierende größere Zellenanzahl der Tabelle vergrößert sich hier χ² von
15,01 auf 44,07!

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


11
(WiSe 2019/20)
Eigenschaften von χ²
(n − ei. j )
2
I J
• Aus der ersten Formel χ =∑∑ 2 i, j

ist leicht ersichtlich: =i 1 =j 1 ei. j


→ χ² ist immer größer oder gleich 0, da der Zähler
quadriert wird
→ χ² lässt sich für Mehrfeldertabellen berechnen
→ χ² wächst (linear) mit der Fallzahl bzw. mit der
Anzahl der Zellen (= Summanden)
→ d.h. χ² ist nicht standardisiert, seine Höhe lässt sich
nicht direkt interpretieren
 Aber: Es existieren standardisierte Assoziations-
maße, die aus χ² berechnet werden

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


12
(WiSe 2019/20)
χ²-basierte Assoziationsmaße

• Es gibt diverse Maße, von den wir zwei


behandeln:
1. Phi-Koeffizient (ϕ)
2. Cramérs V

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


13
(WiSe 2019/20)
1. Phi-Koeffizient (ϕ)
• Phi greift das Problem der Fallzahlabhängigkeit von
χ² auf, indem dieses einfach an der Fallzahl relativiert
wird:
2 𝜒𝜒2
→ Zunächst ergibt sich Phi² als 𝜑𝜑 = 𝑛𝑛
→ Üblicherweise wird ϕ als Quadratwurzel aus ϕ²
𝜒𝜒2
berichtet: 𝜑𝜑 = 𝜑𝜑 2 = 𝑛𝑛
→ Nachteil dieser Berechnungsweise: Da χ² stets größer
oder gleich 0 ist, kann ϕ nicht negativ werden!
 Daher gibt es für Vierfeldertabellen – wie bei χ² – noch
eine Alternativformel, welche die Richtung des
Zusammenhangs über das Vorzeichen abbildet.

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


14
(WiSe 2019/20)
Phi-Koeffizient (ϕ): alternative Formel für
Vierfeldertabellen
Formel: „positive“ Diagonale () minus „negative“ Diagonale (), vgl. d%

𝑎𝑎 ⋅ 𝑑𝑑 − 𝑏𝑏 ⋅ 𝑐𝑐
𝜑𝜑 =
𝑎𝑎 + 𝑏𝑏 ⋅ 𝑐𝑐 + 𝑑𝑑 ⋅ (𝑎𝑎 + 𝑐𝑐) ⋅ (𝑏𝑏 + 𝑑𝑑)
Produkt aller Zeilen- und Spaltensummen
1062 ⋅ 306 − 254 ⋅ 1834
=
1062 + 254 ⋅ 1834 + 306 ⋅ (1062 + 1834) ⋅ (254 + 306)
Großstadt (X) nein ja Zeilen-
Spalte summe
= -0,066
Religionsgemeinschaft (Y) j=1 j=2 ni,+ im Beispiel: schwacher negativer
Zusammenhang zwischen Großstadt
Zeile i=1
a=1062 b=254
a+b= und Religionszugehörigkeit
nein 1316
Berechnung über χ²:
i=2 c+d=
c=1834 d=306 𝜒𝜒2 15,01
ja 2140
𝜑𝜑 = = = 0,066
𝑛𝑛 3456
Spaltensumme: n+,j a+c=2896 b+d=560 n=3456

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


15
(WiSe 2019/20)
Interpretationshilfe für die Höhe von Phi

Höhe des Koeffizienten ϕ Stärke des Zusammenhangs


0 kein Zusammenhang
0 < |ϕ| < 0,05 praktisch kein Zusammenhang
0,05 ≤ |ϕ| < 0,25 schwacher Zusammenhang
0,25 ≤ |ϕ| < 0,5 mittelstarker Zusammenhang
0,5 ≤ |ϕ| < 1 starker Zusammenhang
1 perfekter Zusammenhang
Quelle: Kühnel & Krebs (2014: 322)

|ϕ| bedeutet Absolutwert von ϕ (ohne Vorzeichen)

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


16
(WiSe 2019/20)
Phi (ϕ): Vor- und Nachteile

• Vorteile:
→ bei Berechnung über Häufigkeiten in
Vierfeldertabelle zeigt ϕ die Richtung des
Zusammenhangs an
• Nachteile:
→ kann für größere als 2x2-Tabellen größer als 1
werden (daher dafür nicht sinnvoll!)
→ Dieser Nachteil wird von Cramérs V korrigiert (s.
nächste Folie)
18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik
17
(WiSe 2019/20)
2. Cramérs V
𝜒𝜒2
• Berechnung als V = 𝑛𝑛⋅min(𝑟𝑟−1,𝑐𝑐−1)
= χ²max
→ r: Zeilen, c: Spalten; min steht für Minimum, d.h. der kleinere Wert
(Zeilen- oder Spaltenzahl) wird hier genommen und 1 abgezogen
 Bei einer Mehrfeldertabelle mit 2 Zeilen oder 2 Spalten wird im
Nenner mit 1 multipliziert, d.h. ϕ und V sind dann identisch!
• Datenbeispiel mit identischem ϕ und V:
• 4x2-Tabelle Religionsgemein-
schaft*Großstadt (links):
χ² = 44,07
𝜒𝜒2 44,07
V/φ = = = 0,11
𝑛𝑛 ⋅ min(𝑟𝑟 − 1, 𝑐𝑐 − 1) 3456 ⋅ 1

• Gegenüber der Vierfeldertabelle


(ϕ=0,066) verändern sich ϕ bzw. V
in der Mehrfeldertabelle!
18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik
18
(WiSe 2019/20)
Cramérs V: Vor- und Nachteile

• Vorteile:
→ im Unterschied zu ϕ auch für größere
Mehrfeldertabellen sinnvoll berechenbar
• Nachteile:
→ keine Beschreibung der Richtung von
Zusammenhängen (vorzeichenlos), daher nicht
optimal für ordinale Variablen
→ keine eindeutige inhaltliche Interpretation wie
z.B. bei PRE-Maßen (s. folgende Folien)
18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik
19
(WiSe 2019/20)
Ib) PRE-Assoziationsmaße für
nominalskalierte Variablen
Lambda (λ)

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


20
(WiSe 2019/20)
Das Modell der proportionalen Fehlerreduktion

• Verringerung des Fehlers bei der Vorhersage von Y (prädiktive


Assoziation) bei Berücksichtigung von X bzw. der gemeinsamen
(bivariaten) Verteilung von X und Y
→ engl. „Proportional Reduction of Error“ (PRE)
→ Grad, in dem eine Variable X hilft, Variable Y vorherzusagen
• PRE-Maß: „measure whose absolute value increases with the
decreases in amount of errors of prediction of Y from knowledge
of the bivariate distribution of Y and X and knowledge of the X
values of the individuals“ (Guttman 1941, zitiert nach
Benninghaus 2007: 92)
 PRE= prozentuale Verbesserung (Fehlerrreduktion)
der Vorhersage von Y durch X, relativ zu einer
Vorhersage ohne Berücksichtigung von X

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


21
(WiSe 2019/20)
Beispiel: Lohnzufriedenheit und
Beschäftigtenstatus

• Bei einer perfekten Assoziation – die in der


Praxis nahezu nie vorkommt – lässt sich Y (hier:
Lohnzufriedenheit) ohne Fehler durch X
(Beschäftigtenstatus) vorhersagen
• Vorhersageregel für Y (Basis: Modalwerte in den Spalten):
„Arbeiter haben geringe Ausprägung der Lohnzufriedenheit,
Angestellte eine hohe.“
18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik
22
(WiSe 2019/20)
Beispiel: Lohnzufriedenheit und
Beschäftigtenstatus

Abbildung: Benninghaus (2007: 84)

• Hier wäre die Vorhersage mit der genannten Regel in 80%


der Fälle korrekt, in 20% nicht.
 80% wäre dennoch kein sinnvolles PRE-Maß, da es die Vorhersage von
Y ohne Kenntnis von X nicht berücksichtigt!

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


23
(WiSe 2019/20)
Beispiel: Lohnzufriedenheit und
Beschäftigtenstatus

Abbildung: Benninghaus (2007: 84)

 Die Vorhersage von Y ohne Kenntnis von X wäre in 50%


der Fälle falsch (vgl. Randsummen).
 mit Kenntnis von X: nur 20% falsche Vorhersagen von Y
 Verbesserung der Vorhersage gemäß allgemeiner PRE-Formel:
𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉ℎ𝑙𝑙𝑙𝑙𝑙𝑙 𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝑋𝑋 − (𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑚𝑚𝑚𝑚𝑚𝑚 𝑋𝑋)
𝑃𝑃𝑃𝑃𝑃𝑃 =
(𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝑋𝑋)
50−20
= = 0,6 = 60%
50
18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik
24
(WiSe 2019/20)
Übertragung auf Mehrfeldertabellen

Abbildung: Benninghaus (2007: 85)


 Die Vorhersage von Y ohne Kenntnis von X wäre in 33
Fällen korrekt (vgl. Zeilensummen), d.h. 66 Fehler
 Anteile korrekter Vorhersagen bei Kenntnis von X: korrekte Vorhersagen sind
die Modi in der Diagonale (14+13+14=41), d.h. 99-41=58 Vorhersagefehler
𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉ℎ𝑙𝑙𝑙𝑙𝑙𝑙 𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝑋𝑋 − (𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑚𝑚𝑚𝑚𝑚𝑚 𝑋𝑋)
𝑃𝑃𝑃𝑃𝑃𝑃 =
(𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝑋𝑋)
66−58
= = 0,12 = 12%
66
18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik
25
(WiSe 2019/20)
Zusammenfassung: Allgemeine PRE-Logik

• drei Schritte:
1. Fehler E0 bei der Vorhersage der Y-Variable auf Basis ihrer
Verteilung (z.B. Modalwert) bestimmen, ohne Kenntnis
von X
2. Fehler E1 bei der Vorhersage der Y-Variable auf Basis der
X-Variable bzw. der gemeinsamen (bivariaten) Verteilung
von X und Y bestimmen
3. Proportionale Fehlerreduktion bestimmen:
𝐸𝐸0 −𝐸𝐸1 𝐸𝐸1
𝑃𝑃𝑃𝑃𝑃𝑃 − 𝑀𝑀𝑀𝑀𝑀 = 𝐸𝐸 = 1 − 𝐸𝐸
0 0
Im Unterschied zu χ²-basierten Maßen haben PRE-Maße
eine klare inhaltliche Interpretation!
18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik
26
(WiSe 2019/20)
Lambda (λ)
• Maß für Asoziation zwischen nominalen Variablen mit 2
oder mehr Kategorien (d.h. auch für Mehrfeldertabellen)
→ variiert zwischen [0;1]
• Es gibt symmetrische und asymmetrische Varianten
(konventionell X: Spalten, Y: Zeilen):
1. λr (row, Zeile; auch λYX) sagt Zeilenvariable Y auf Basis der
Spaltenvariable X vorher
2. λc (column, Zeile; auch λXY) sagt Spaltenvariable X auf Basis
der Zeilenvariable Y vorher
3. λs (symmetrisch), d.h. keine eindeutige Festlegung von
Spalten- vs. Zeilenvariable
 Bei dieser Variante ergibt sich nur ein Wert, egal, welche Variable in
den Zeilen und welche in den Spalten steht

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


27
(WiSe 2019/20)
1. Spaltenweises Lambda (λYX): Beispiel

(X)
(Y)
1. „best guess“ bei Unkenntnis
von X: globaler Modalwert von Y
⇒ d.h. Fehler E0=n-max(ni,+)
=1554-617=937
Vorhersagefehler!

Beispiel: Kühnel & Krebs (2014: 346)


2. „best guess“ bei Kenntnis von X: nach X bedingte konditionale (Spalten-)Modalwerte von Y

(
∑ n +, j − max ( n i, j ) = )
n − ∑ max ( n i, j )( )
J J
⇒ d.h. Fehler E1 =
i i
=j 1 =j 1
= 1554 − 227 + 342 + 83 = 902 Vorhersagefehler!

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


28
(WiSe 2019/20)
1. Spaltenweises Lambda (λYX): Berechnung
(X)
(Y)

Beispiel: Kühnel & Krebs (2014: 346)


3. Berechnung von λYX aus E0 und E1:
E0 = n - max(ni,+) = 1554 – 617 = 937
∑(n − max ( n ) ) = n − ∑ ( max=
( n ))
J J

+, j =E1
i, j i, j 1554 − (227 + 342=
+ 83) 902
i i
=j 1 =j 1

(
n − ∑ max ( n i, j ) )
J

E − E1 E j=1
i 1554 − (227 + 342 + 83) 902
λ YX = 0 =1 − 1 =1 − = =1 − =0, 037
E0 E0 n − max ( n i ,+ ) 1554 − 617 937
i

Interpretation von λYX = 0,037: Die Vorhersage der Wahlabsicht (Y) verbessert
sich auf Basis der Kenntnis der Konfession (X) um 3,7%.
18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik
29
(WiSe 2019/20)
Zusammenfassung: Eigenschaften der (nominalen)
Assoziationsmaße
Maßzahl d% or/Q ϕ V λ
Eigenschaft
Wertebereich () −/   
Höhe: inhaltliche  () − − 
Interpretierbarkeit
Grad der Beziehung     
Richtung der Beziehung   () − −
(positiv/negativ) (nur 2x2)
Invarianz gegenüber     
absoluten Häufigkeiten
Invarianz gegenüber − − − − 
Kategorienanzahl (nur 2x2) (nur 2x2)
18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik
30
(WiSe 2019/20)
Zusammenfassung und Ausblick

• Themen in dieser Sitzung:


Assoziationsmaße auf Basis von
Kreuztabellen:
 Logik von Unabhängigkeitsmaßen: Chi² (χ²)
 Chi²-basierte Assoziationsmaße: Phi, Cramérs V
 Logik von PRE-Maßen: prädiktive Assoziation
 PRE-Maß: LambdaYX (asymmetrisch)
• nächste Sitzung:
 ordinale Assoziationsmaße
18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik
31
(WiSe 2019/20)
Wo steht‘s? Der Stoff der heutigen Sitzung ist
nachzulesen in…
• Völkl & Korb (2018), Kap. 4.5
• Benninghaus (2007), Kap. 5.2 und 5.3
• Gehring & Weins (2009), Kap. 7.1, 7.3
• Kühnel & Krebs (2012), Kap. 9.2-9.3, 10.1-10.1.1,
10.2-10.2.1, 10.3 (jeweils in Teilen)
Bitte lesen Sie für die kommende Woche
folgende vorbereitende Lektüre:
• Völkl & Korb (2018), Kap. 4.6

18.11.2019 Prof. Dr. O. Arránz-Becker: Vorlesung Einführung in die deskriptive Statistik


32
(WiSe 2019/20)