Beruflich Dokumente
Kultur Dokumente
B. Baltes-Gtz
Logistische
Regressionsanalyse
mit SPSS
Logistische Regressionsanalyse mit SPSS
Inhaltsbersicht
VORWORT 5
1 EINLEITUNG 6
2.2 Anwendungsbeispiel 15
2.8 Interaktionen 51
2.8.1 Interaktionen zwischen nominalskalierten Regressoren 52
2.8.1.1 Bedeutung der Regressionsgewichte bei Indikatorkodierung 52
2.8.1.2 Bedeutung der Regressionsgewichte bei Abweichungskodierung 54
2.8.2 Haupteffekte in Modellen mit Wechselwirkung 56
2
Logistische Regressionsanalyse mit SPSS
3.2 Stichprobenmodell 63
3.3 Anwendungsbeispiel 64
3.4 Parameterschtzung 66
3.5 Modellgltigkeit 67
4.2 Anwendungsbeispiel 75
4.3 Parameterschtzung 76
4.4 Modellgltigkeit 78
4.4.1 Parallelitt 78
4.4.2 Globale Modellgltigkeit 78
4.4.3 Lokale Modellanalyse 79
5 NUMERISCHE SCHTZPROBLEME 89
5.1 Multikollinearitt 89
3
Logistische Regressionsanalyse mit SPSS
6 ANHANG 94
6.1 Symbolverzeichnis 94
LITERATUR 97
STICHWORTVERZEICHNIS 99
4
Logistische Regressionsanalyse mit SPSS
Vorwort
In diesem Manuskript wird die logistische Regressionsanalyse fr Kriteriumsvariablen mit folgender
Struktur behandelt:
nominalskaliert mit zwei oder mehr Kategorien
ordinalskaliert
Als Software kommt SPSS Statistics 20.0 fr Windows zum Einsatz, jedoch knnen praktisch alle vorge-
stellten Verfahren auch mit anderen SPSS-Versionen unter Linux, MacOS oder Windows realisiert wer-
den.
Die aktuelle Version des Manuskripts ist als PDF-Dokument zusammen mit allen im Kurs benutzen Da-
ten und SPSS-Programmen auf dem Webserver der Universitt Trier von der Startseite (http://www.uni-
trier.de/) ausgehend folgendermaen zu finden:
Rechenzentrum > Studierende > EDV-Dokumentationen >
Statistik > Logistische Regressionsanalyse mit SPSS
Leider sind in diesem Manuskript einige Teile mit heier Nadel gestrickt, so dass Unzulnglichkeiten zu
befrchten und entsprechende Hinweise der Leser(innen) zu erhoffen sind (z.B. an die Mail-Adresse
baltes@uni-trier.de).
5
Logistische Regressionsanalyse mit SPSS
1 Einleitung
In der statistischen Forschungspraxis sind oft nominal- oder ordinalskalierte Kriterien zu untersuchen, z.B.:
Kaufentscheidung fr ein Produkt (nominales Kriterium mit zwei Kategorien):
o ja
o nein
Wahl eines Verkehrsmittels fr den Weg zur Uni (nominales Kriterium mit drei Kategorien):
o per Pedes oder Pedal (Fahrrad)
o PNV
o PKW
Durchblutungsstrung (ordinales Kriterium):
o keine
o periphere
o koronare
Stellungnahme (ordinales Kriterium):
o entschieden dagegen
o eher dagegen
o neutral
o eher dafr
o entschieden dafr
Auf der Suche nach einem Modell zur Erklrung und oder Vorhersage solcher Kriterien sollen in der Regel
mehrere Regressoren mit metrischer oder nominaler Skalenqualitt einbezogen werden, wobei eventuell
auch Interaktionen zwischen zwei oder mehreren Regressoren unterstellt werden sollen.
In dieser Situation kann die vertraute lineare Regressionsanalyse nicht eingesetzt werden:
Ihre Voraussetzung normalverteilter und varianzhomogener Residuen ist offensichtlich verletzt.
Ihre prognostizierten Werte knnen auerhalb des plausiblen Bereichs liegen.
Z.B. sind bei einer dichotomen Kriteriumsvariablen nur Prognosewerte von 0 bis 1 sinnvoll, damit
diese als Wahrscheinlichkeiten der Zugehrigkeit zur ersten Gruppe interpretiert werden knnen.
Die lineare Diskriminanzanalyse bietet zwar eine Prognose der Gruppenzugehrigkeit, ist aber vielfach
wegen ihrer Voraussetzungen bzgl. der Prdiktoren nicht anwendbar:
Intervallskalenqualitt
multivariate Normalverteilung innerhalb der Populationen zu den Kriteriumsausprgungen
Homogenitt der Kovarianzmatrizen
Keine Wechselwirkungen zwischen den Prdiktoren in Bezug auf das Kriterium
Sofern nur ein einzelner Prdiktor in Frage kommt, der zudem nominales Messniveau besitzt, kann zur
Analyse eines nominalen Kriteriums die Kreuztabellenanalyse verwendet werden (siehe z.B. Baltes-Gtz
2012, Kap. 11).
Die Beschrnkung auf einen Prdiktor entfllt bei den zur Analyse von multivariaten Kontingenztabellen
oft vorgeschlagenen log-lineare Modellen (siehe z.B. Bhl 2012, Kap. 22). Zwar werden hier zunchst
nur Assoziationen modelliert (ohne Unterscheidung zwischen abhngigen und unabhngigen Variablen),
doch lassen sich auch asymmetrische Modelle fr die Erklrung kategorialer Kriteriumsvariablen aus
kategorialen Prdiktorvariablen formulieren, die oft als logit-lineare Modelle bezeichnet werden. In SPSS
ermglicht die Prozedur GENLOG sowohl symmetrische als auch asymmetrische Modelle. Als Probleme
bei der Anwendung log- bzw. logit-linearer Modelle sind zu nennen:
6
Logistische Regressionsanalyse mit SPSS
Metrische Prdiktoren knnen nur durch eine durch knstliche (und willkrliche) Kategorisierung
einbezogen werden. Dabei verliert man sowohl Information (durch Vergrberung) als auch statisti-
sche Effizienz (durch eine erhhte Anzahl von Parametern).
Viele Forschungspraktiker(innen) mit einem regressionsanalytischen Denkansatz empfinden die pri-
mr assoziativen log-linearen Modelle, die oft verwirrend viele Parameter besitzen, und deren asym-
metrische Reformulierung als relativ unhandlich.
Trotz einer deutlichen Verwandtschaft1 mit dem log-linearen Ansatz ist die logistische Regressionsanalyse
zur Untersuchung von kategorialen oder ordinalen Kriterien oft besser geeignet. Bei dieser multivariaten
Methode werden die Wahrscheinlichkeiten der Zugehrigkeit zu den Kriteriumsgruppen aufgrund von inter-
vall- oder nominalskalierten Prdiktoren modelliert, wobei ein verallgemeinertes lineares Modell zum Ein-
satz kommt (vgl. McCullagh & Nelder 1989). Viele Schtzer und Tests im Rahmen der logistischen Regres-
sionsanalyse haben direkte Entsprechungen bei der linearen Regressionsanalyse, z.B.:
der Test zur globalen Nullhypothese, dass alle Parameter auer dem konstanten Term gleich 0 sind
die Tests zu den Nullhypothesen zu den einzelnen Parametern
Bestimmtheitsmae zur Beurteilung der Modellrelevanz
Es sind Modellgltigkeitstests verfgbar, die auch bei Individualdaten (also lediglich einfach besetzten Pr-
diktorwertekombinationen) anwendbar sind.
Weil die logistische Regression Wahrscheinlichkeiten fr die Zugehrigkeit zu Kriteriumsgruppen zu
modellieren hat, besitzt ihre Modellgleichung einige Besonderheiten im Vergleich zur linearen Regressi-
on, die aber nach der Lektre dieses Manuskripts keine Schwierigkeiten mehr machen sollten. Lohn fr
diese Bemhungen ist ein fr nahezu beliebige abhngige Variablen (ohne Bauchschmerzen) anwendba-
res Analyseverfahren. Auf der unabhngigen Seite bestehen dieselben Mglichkeiten und Einschrnkun-
gen wie bei einer linearen Regressionsanalyse. Man kann metrische und kategoriale Regressoren verwen-
den, muss ordinale Variablen also entweder als kategorial oder als metrisch behandeln.
In SPSS stehen fr die logistische Regressionsanalyse u.a. die drei folgenden Prozeduren bereit:2
LOGISTIC REGRESSION
Diese ber den Menbefehl
Analysieren > Regression > Binr Logistisch
ansprechbare Prozedur analysiert dichotome Kriterien unter Verwendung von Individualdaten und
ist damit besonders geeignet fr Modelle, die neben kategorialen auch metrische, in zahlreichen
Ausprgungen realisierte Regressoren enthalten. LOGISTIC REGRESSION bietet u.a. den fr
Modelle mit berwiegend einfach besetzten Prdiktorwertekombinationen (Zellen) geeigneten
Hosmer-Lemeshow-Modellgltigkeitstest, kann zahlreiche diagnostische Informationen zum ge-
1
Zu jedem logistischem Regressionsmodell mit ausschlielich kategorialen Regressoren existiert ein quivalentes log-
lineares Modell.
2
Die drei aufgelisteten und im Manuskript behandelten Prozeduren sind schon in der SPSS-Version 10 vorhanden. Aktuelle
SPSS-Versionen bieten weitere Optionen:
Analysieren > Verallgemeinerte Lineare Modelle > Verallgemeinerte Schtzgleichungen
Fr Daten mit Abhngigkeitsstrukturen (durch Clusterbildung oder Messwiederholung) sind Modelle mit dicho-
tomen Kriterien mglich, wobei die Abhngigkeiten durch die GEE-Methodologie nach Liang & Zeger (1986)
neutralisiert werden.
Analysieren > Gemische Modelle > Verallgemeinert Linear
Fr Daten mit Abhngigkeitsstrukturen (durch Clusterbildung oder Messwiederholung) sind Mehrebenenmodelle
fr kategoriale Kriterien (mit zwei oder mehr Ausprgungen) mglich.
Analysieren > Komplexe Stichproben
Fr komplexe Stichproben, die nicht durch einfache Zufallsauswahl zustande gekommen sind, knnen logistische
Regressionen mit einem kategorialen oder ordinalen Kriterium gerechnet werden.
7
Logistische Regressionsanalyse mit SPSS
schtzten Modell (z.B. Residuen, Cook-Distanzen) als neue Variablen abspeichern und erlaubt bei
nominalskalierten Prdiktoren eine flexible Wahl der Kontrastkodierung.
NOMREG
Diese ber den Menbefehl
Analysieren > Regression > Multinomial Logistisch
erreichbare Prozedur untersttzt auch nominalskalierte Kriterien mit mehr als zwei Kategorien.
Obwohl NOMREG auch fr den binren Spezialfall verwendbar ist, wird LOGISTIC REGRES-
SION nicht komplett ersetzt, weil beide Prozeduren mit teilweise unterschiedlichen Algorithmen
arbeiten. Whrend die rein binre Variante mit Individualdaten rechnet, fasst NOMREG alle Flle
mit einer gemeinsamen Prdiktorwertekombinationen zu einer Gruppe zusammen. Bei zentralen
Ergebnissen einer binren logistischen Regressionsanalyse (z.B. bei der Parameterschtzung) wir-
ken sich die Algorithmus-Unterschiede nicht aus, so dass die Entscheidung zwischen den beiden
SPSS-Prozeduren irrelevant ist. Speziell zur Beschreibung und Testung der Anpassungsgte eines
Modells sind jedoch Statistiken vorgeschlagen worden, die eher fr aggregierte Daten oder eher
fr Individualdaten geeignet sind. Dementsprechend werden sie nur von NOMREG (z.B. Modell-
gltigkeitstest ber Pearsons Goodness of Fit Statistik) oder nur von LOGISTIC REGRESSION
(z.B. Hosmer-Lemeshow - Modellgltigkeitstest) berechnet.
PLUM
Diese ber den Menbefehl
Analysieren > Regression > Ordinal
erreichbare Prozedur verwendet die PLUM-Technologie (PoLytomous Universal Model) zur Ana-
lyse von ordinalen Kriterien. Neben der logistischen Linkfunktion (siehe unten) werden auch etli-
che Alternativen untersttzt. Wie NOMREG arbeitet auch PLUM intern mit aggregierten Daten.
Je nach SPSS-Version sind die drei Prozeduren unterschiedlich auf die Module Base, Regression und
Advanced verteilt. In den meisten SPSS-Installationen drften jedoch alle genannten Module und damit
auch alle im Manuskript behandelten Optionen zur logistischen Regressionsanalyse enthalten sein.
Wir werden in diesem Manuskript die wichtigsten statistischen Grundlagen der logistischen Regression in
einiger Ausfhrlichkeit besprechen und natrlich auch die Verwendung der SPSS-Prozeduren behandeln.
Im Abschnitt 2 wird der besonders wichtige und angenehm einfache Spezialfall der binren logistischen
Regression (mit einer dichotomen Kriteriumsvariablen) vorgestellt. Im Abschnitt 3 folgt mit der multino-
mialen logistischen Regression die Generalisierung auf nominalskalierte Kriterien mit mehr als zwei Ka-
tegorien, und im Abschnitt 4 werden ordinale Kriteriumsvariablen behandelt. Schlielich kommen im
Abschnitt 4.8 noch kritische Datenverhltnisse zur Sprache, die zu irregulren Ergebnissen fhren kn-
nen.
8
Logistische Regressionsanalyse mit SPSS
2.1 Modell
2.1.1 Populationsmodell
Fr eine (0,1) - kodierte Kriteriumsvariable Y und die Prdiktorvariablen X1 bis XM (intervallskaliert oder
durch Kodierung von kategorialen Variablen entstanden) erklrt das logistische Regressionsmodell die
Wahrscheinlichkeit fr das Ereignis {Y = 1} folgendermaen:
1
X
1
eX 1
P(Y 1) , mit : [ 0 , 1 , 2 ,.., M ] und X : X 2 (1)
1 e X
1 e X .
.
X M
Anmerkungen:
Zur Vereinfachung der Formeln werden im Manuskript gelegentlich elementare Vektorausdrcke
verwendet. Zum Verstndnis ist aber lediglich die folgende Multiplikationsregel erforderlich (am
Beispiel X):
1
X
1
X [ 0 , 1 , 2 ,.., M ] X 2 0 m X m
M
. m 1
.
X M
Mit e ist die Eulersche Zahl gemeint, also die Basis zum natrlichen Logarithmus.
In der Modellgleichung ist hinter die lineare Funktion X der Prdiktoren die logistische Verteilungs-
funktion geschaltet. Sie sorgt dafr, dass alle Modellprognosen im Intervall von 0 bis 1 liegen und daher
als Wahrscheinlichkeiten interpretiert werden knnen. Wie die folgende Abbildung zeigt, liefert die logis-
tische Verteilungsfunktion fr beliebige Argumente (von - bis ) einen Funktionswert im Intervall
(0,1):
1
0.8
0.6
0.4
0.2
-6 -4 -2 2 4 6
9
Logistische Regressionsanalyse mit SPSS
2.1.2 Stichprobenmodell
Whrend sich das eben vorgestellte Populationsmodell auf theoretischer Ebene bewegt, beschreibt das Stich-
probenmodell, wie die Daten einer empirischen Studie zustande gekommen sind. Beobachtet man bei N
Fllen mit den Prdiktorwertekombinationen xi (i = 1, .., N) jeweils die Kriteriumskategorie, kommt fol-
gendes BLR-Stichprobenmodell zum Einsatz:
Es sind N unabhngige (0, 1) - wertige Zufallsvariablen Yi vorhanden.
Fr die Wahrscheinlichkeit zum Einserereignis gilt bei der i-ten Beobachtung:
exi
P(Yi 1) , mit x i 0 1 xi1 2 xi 2 ... M xiM
1 exi
Sofern die Unabhngigkeit (z.B. durch eine geeignete Fallrekrutierung) sichergestellt ist, kann bei einer lo-
gistischen Regressionsanalyse also nur die zweite Annahme verletzt sein (z.B. durch einen Spezifikationsfeh-
ler im linearen Teil des Modells).
Um przise Schtzungen und zuverlssige Signifikanztests zu erhalten, ist auf eine ausreichende Stich-
probengre zu achten. In der Literatur finden sich u.a. folgende Empfehlungen:
Urban (1993, S. 13) nennt 50 Flle als minimale Stichprobengre, rechnet aber erst ab 100 Fllen
mit einer zufrieden stellenden Przision.
Nach Backhaus et al. (2008, S. 288) sollte jede Kategorie der abhngigen Variablen mindestens 25
Fllen enthalten, bei einer greren Anzahl von unabhngigen Variablen jedoch mehr.
Bei Hosmer & Lemeshow (2000, S. 346) und Noruis (2005, S. 319) wird das Zehnfache der Anzahl
zu schtzender Parameter als minimale Hufigkeit der schwcher besetzten Kriteriumskategorie ge-
nannt. Bei einem dichotomen Kriterium und 4 metrischen Prdiktoren in einem Modell mit Ordina-
tenabschnitt (also insgesamt 5 Parametern) sollten also beide Kriteriumskategorien minimal 50 Flle
enthalten.
Fr Modellgltigkeitstests auf der Basis von Pearson- oder Devianz-Residuen mssen alle K Prdiktor-
wertekombinationen mehrfach besetzt sein. Hufig wird gefordert, dass die erwarteten Hufigkeiten unter
dem zu prfenden Modell bei allen (2 K) Zellen grer als 1 und bei mindestens 80% aller Zellen grer als
5 sein sollen. Der bei berwiegend einfach besetzten Prdiktorwertekombinationen anwendbare Hosmer-
Lemeshow-Modellgltigkeitstest bentigt ber die obigen Empfehlungen hinaus keine Voraussetzungen
bei den Zellhufigkeiten aus.
Insbesondere bei der Analyse von seltenen Attributen ist eine spezielle Liberalitt der binren logistischen
Regressionsanalyse hinsichtlich der Stichprobenziehung von Vorteil: Man kann aus den Teilpopulationen
mit bzw. ohne das zu untersuchende Attribut (z.B. eine seltene Krankheit) Stichproben mit unterschiedli-
chen Quoten ziehen (z.B. 10 % aus der Patientenpopulation und 1 % aus der Kontrollpopulation), um
stabilere Ergebnisse (z.B. kleinere Standardfehler) im Vergleich zu einer einfachen Zufallsstichprobe aus
der Gesamtpopulation zu erhalten. Die essentiellen Ergebnisse (z.B. die Regressionskoeffizienten mit
Ausnahme des konstanten Terms) sind gegenber einer solchen kriteriumsgesteuerten Quotierung invari-
ant (Allison 1999, S. 78ff; Noruis 2008, S. 63). Bei der linearen Regressionsanalyse sind analoge Strate-
gien der Stichprobenziehung mit Problemen verbunden.
10
Logistische Regressionsanalyse mit SPSS
P(Y 1)
ln X 0 1 X 1 2 X 2 ... M X M (2)
P(Y 0)
P(Y 1)
Fr den Wahrscheinlichkeitsquotienten schlgt Urban (1993, S. 25) die Bezeichnung Gewinn-
P(Y 0)
chance vor; in der angelschsischen Literatur spricht man von den odds. Der logarithmierte Wahrscheinlich-
keitsquotient wird generell als Logit bezeichnet.
In der folgenden Tabelle sind zur Illustration der Beziehungen zwischen den beteiligten Begriffen fr
einige Einserwahrscheinlichkeiten die zugehrigen Odds- und Logit-Werte angegeben:
P(Y 1) P(Y 1)
P(Y = 1) ln
P(Y 0) P(Y 0)
0,90 9 2,20
0,75 3 1,10
0,5 1 0
0,25 0, 3 -1,10
0,10 0,1 -2,20
Obwohl auf der rechten Seite von Gleichung (2) ein lineares Modell steht, ist das in der Einleitung ange-
sprochene Wertebereichsproblem bei der linearen Modellierung von Wahrscheinlichkeiten durch die Lo-
git-Definition berwunden:
Der Wahrscheinlichkeitsquotient nimmt Werte von 0 bis + (positiv unendlich) an.
Durch das Logarithmieren ergibt sich ein Wertebereich von - bis +.
ber die Logit-Formulierung des Modells lassen sich seine Koeffizienten analog zur gewhnlichen linea-
ren Regressionsgleichung interpretieren: Bei der binren logistischen Regression gibt der Koeffizient m
an, wie sich das Logit verndert, wenn der Prdiktor Xm um eine Einheit erhht wird, und alle anderen
Prdiktoren unverndert bleiben. Diese Betrachtungsweise setzt (wie bei der linearen Regression) voraus,
dass Xm bei keiner Interaktion beteiligt ist.
Durch Anwendung der Exponentialfunktion auf Gleichung (2) erhalten wir:
P(Y 1)
eX e 0 1 X 1 2 X 2 ... M X M e 0 e1 X 1 e M X M (3)
P(Y 0)
Die Gleichung zur Erklrung der Wahrscheinlichkeitsquotienten (engl. odds) bietet eine alternative Interpre-
tationsmglichkeit fr die Regressionskoeffizienten. Der Ausdruck e m gibt den Faktor an, um den sich das
Wahrscheinlichkeitsverhltnis ndert, wenn der Prdiktor Xm um eine Einheit erhht wird, und alle anderen
unverndert bleiben:
e 0 e1 X 1 e m ( X m 1) e M X M e 0 e1 X 1 e m X m e M X M e m
Weil e m gerade dem Quotienten aus den Odds fr (X1, X2, ..., Xm + 1, ..., XM) und (X1, X2, ..., Xm, ..., XM)
m e 0 e1 X 1 e m ( X m 1) e M X M
e 0 1 X 1
e e e m X m e M X M
entspricht, wird der Ausdruck (nicht nur) in der angelschsischen Literatur meist als odds ratio bezeichnet.
Urban (1993, S. 40f) spricht von der Effektgre.
Aus dem Verhalten der Exponentialfunktion folgt unmittelbar:
11
Logistische Regressionsanalyse mit SPSS
Ist m positiv (also e m > 1), dann steigt das Wahrscheinlichkeitsverhltnis (P(Y = 1) wird grer).
Ist m negativ (also e m < 1), dann sinkt das Wahrscheinlichkeitsverhltnis (P(Y = 1) wird kleiner).
Wird ein metrischer Prdiktor vor der binren logistischen Regressionsanalyse (BLR) standardisiert, lie-
fert e m den Effekt bei einer Erhhung des Wertes um eine Standardabweichung.
Oft wird das BLR-Modell ber die Logit-Gleichung (2) eingefhrt bzw. definiert. Man berzeugt sich
leicht davon, dass aus dieser Modellformulierung sofort die Gleichung (1) folgt.
0.3 0.3
0.2 0.2
0.1 0.1
-4 -2 2 4 -4 -2 2 4
2
Dichte der logistischen Verteilung (Varianz ) Dichte der Standardnormalverteilung (Varianz 1)
3
Damit die Varianz der Residualvariablen einen beliebigen Wert annehmen kann, enthlt die Gleichung (4)
noch den freien Parameter als Vorfaktor zu .
Vermutlich kommt Ihnen das Integral der logistischen Dichte, also die zugehrige Verteilungsfunktion,
vertraut vor:
ew
F( w)
1 ew
12
Logistische Regressionsanalyse mit SPSS
0 1 X 1 2 X 2 ... M X M 0 1 X 1 2 X 2 ... M X M
folgt:
1 X 1 2 X 2 ... M X M
P( ) P 0
Mit den Definitionen:
0
0 :
(5)
m
m : , m 1, ..., M
erhalten wir:
P( ) P( X )
Die Wahrscheinlichkeit dafr, dass die Zufallsvariable einen Wert kleiner oder gleich X annimmt, ist
identisch mit dem Wert ihrer Verteilungsfunktion an dieser Stelle:
e X
P( X)
1 e X
Insgesamt erhalten wir die Modellgleichung (1):
eX
P(Y 1)
1 eX
1
Aus dem fr viele Leser wohl wenig vertrauten Begriff der Stetigkeit folgt, dass von den berabzhlbar unendlich vielen
Ausprgungen einer Variablen mit stetiger Verteilung jede einzelne Ausprgung die Wahrscheinlichkeit Null besitzt:
P( ) 0 P( ) P( )
13
Logistische Regressionsanalyse mit SPSS
Die Koeffizienten des logistischen Modells fr die manifeste (dichotome) Kriteriumsvariable sind also im
1
Vergleich zu den Koeffizienten des Modells fr die korrespondierende latente Variable um den Faktor
gemindert. Mit Ausnahme des konstanten Terms hngen sie nicht davon ab, bei welchem Schwellenwert
die latente Variable dichotomisiert wurde.
Weil in realen Studien unbekannt ist, lassen sich die Koeffizienten m (m = 1, , M) in Gleichung (4)
nicht aus den Koeffizienten m (m = 1, , M) in Gleichung (1) berechnen, doch wegen
m m , m 1, ..., M
ist ein Signifikanztest zur Hypothese
H 0 : m 0
quivalent zu einem Test der Hypothese
H0 : m 0
Um Missverstndnisse zu vermeiden, soll noch einmal betont werden, dass die in diesem Abschnitt pr-
sentierte Herleitung der Modellgleichung (1) keinesfalls eine Voraussetzung fr die Verwendung der bi-
nren logistischen Regression ist. Sie hilft jedoch beim Verstndnis und bei der Einordnung des Verfah-
rens.
Daraus erhlt man sofort die meist verwendete Darstellungsform des Probit-Modells:
1 (P(Y 1)) X
Wegen der starken Verwandtschaft ihrer Modellgleichungen werden die BLR- und die Probit-Analyse in
der Regel weitgehend quivalente Ergebnisse produzieren (siehe z.B. Menard 1995, S. 59).
SPSS untersttzt die Probit-Analyse in den Prozeduren PROBIT (verfgbar ber Analysieren > Re-
gression > Probit) und PLUM (verfgbar ber Analysieren > Regression > Ordinal, siehe Ab-
schnitt 4).
14
Logistische Regressionsanalyse mit SPSS
2.2 Anwendungsbeispiel
Zur Erluterung der logistischen Regression fr dichotome abhngige Variablen wird ein knstlicher Bei-
spieldatensatz verwendet. Wir stellen uns vor, dass bei einer medizinischen Untersuchung zu den Ursa-
chen von Durchblutungsstrungen an einer Stichprobe der Gre N = 200 folgende Variablen erhoben
worden sind:
Kriteriumsvariable:
DBS Vorliegen einer Durchblutungsstrung (1 = ja, 0 = nein)
Regressoren:
o ABWIG Abweichung vom Idealgewicht (gemessen in kg)
o BEWEG Krperliche Bettigung (Skala von 1 bis 6)
o DRUCK Diastolischer Blutdruck (gemessen in mm/Hg)
o STRESS Stress (Skala von 1 bis 6)
o ERBE Erbliche Vorbelastung (1 = ja, 0 = nein)
o RAUCHER (1 =aktiver Raucher, 2 = ehemaliger Raucher, 3 = Nichtraucher)
In der zu untersuchenden knstlichen Population gilt fr eine latente Variable im Sinn von Abschnitt
2.1.4:
4 0,06 ABWIG 0,75 BEWEG 0,033 DRUCK 1,1 STRESS 1,55 ERBE
4 RAUCHER1 1 RAUCHER2 1,5
1, falls RAUCHEN 1
RAUCHER1
0, sonst
1, falls RAUCHEN 2
RAUCHER2
0, sonst
hat fr jede beliebige Prdiktorwertekombination eine logistische Verteilung mit der Verteilungsfunkti-
on:
ew
F( w)
1 ew
Als Schwellenwert fr den bergang von der latenten Variablen zur manifesten abhngigen Variablen
DBS wird 1 verwendet:
0, falls 1
DBS
1, falls 1
Nach den berlegungen von Abschnitt 2.1.4 gilt in der knstlichen Population also ein BLR-Modell ge-
m Gleichung (1).
Sie finden die simulierten Daten in der Datei DBS.SAV an der im Vorwort vereinbarten Stelle.1
Mit Hilfe der Datei DBS.SAV knnen wir in SPSS nach dem Menbefehl
Analyse > Regression > Binr logistisch
in folgender Dialogbox eine binre logistische Regression anfordern:
1
Medizinisch gebildete Leser mgen eventuelle erfahrungswidrige oder gar medizinisch ausgeschlossene Wertekonstellatio-
nen in der knstlichen Stichprobe nachsehen.
15
Logistische Regressionsanalyse mit SPSS
Aus didaktischen Grnden wird der Prdiktor RAUCHER bis zum Abschnitt 2.7 ignoriert.
In unserer Demostudie treten kaum mehrfach besetzte Wertekombinationen auf, weil auch przise erfass-
te metrische Regressoren mit zahlreichen Ausprgungen (z.B. ABWIG, DRUCK) zum Einsatz kommen.
Daher werden wir primr mit der fr Individualdaten konzipierten Prozedur LOGISTIC REGRESSION
arbeiten. Fr einige im Beispiel sinnvolle und zulssige Ergebnisse bentigen wir jedoch die fr aggre-
gierte Daten konzipierte und per Menbefehl
Analyse > Regression > Multinomial logistisch
erreichbare Prozedur NOMREG:
Um eine inhaltlich unbedeutende, bei der Interpretation jedoch leicht strende Invertierung der Vorzei-
chen bei den geschtzten Regressionskoeffizienten (im Vergleich zu den Ergebnissen von LOGISTIC
REGRESSION) zu verhindern, wird im NOMREG-Aufruf bei der abhngigen Variablen die Refer-
enzkategorie ber den gleichnamigen Schalter gendert:
16
Logistische Regressionsanalyse mit SPSS
Warum auch der kategoriale Prdiktor ERBE bedenkenlos als Kovariate angemeldet werden darf, wird
in Abschnitt 3.3 erlutert.
Zur Demonstration einiger methodischer Details (z.B. Modellgltigkeitstest ber Pearsons Goodness of
Fit Statistik) betrachten wir ein reduziertes Modell mit mehrfach besetzten Prdiktorwertekombinatio-
nen, wobei dieselbe Variable DBS als Kriterium verwendet wird, im Design aber lediglich die Variable
BEWEG verbleibt:
Weil der metrische Regressor BEWEG relativ grob gemessen ist (in 6 Stufen), resultiert ein Modell mit
aggregierbaren Daten.
17
Logistische Regressionsanalyse mit SPSS
Einsatz.1 Hier werden Parameterschtzungen bestimmt, welche die Wahrscheinlichkeit der beobachteten
Daten unter dem parametrisch spezifizierten Modell maximieren.
Die gem Modellgleichung (1) von den als fest gegeben anzunehmenden Regressorwerten des i-ten Fal-
les (gesammelt im Vektor xi) und vom Parametervektor abhngige wahre Wahrscheinlichkeit P(Yi = 1)
werde mit i bezeichnet:
exi
i : P(Yi 1) , mit x i 0 1 xi1 2 xi 2 ... M xiM
1 exi
Fr eine konkrete Stichprobenrealisation ( y1 , y 2 , ..., y N mit yi {0,1}, i 1,.., N ) der Zufallsvariablen Yi zu
den N (unabhngigen!) Beobachtungen ergibt sich dann folgende Wahrscheinlichkeit:
N
P(Y1 y1 , Y2 y2 , ..., YN y N ) i i (1 i )1 yi
y
i 1
Beobachtungen mit realisierter 1 gehen mit i in das Produkt ein, die Beobachtungen mit realisierter 0 hinge-
gen mit (1 - i).
Wir ersetzten die unbekannten Parameter in durch die frei schtzbaren Werte bm (m = 0, 1, ..., M) im
Vektor b und bezeichnen mit Li(b) die Likelihood fr (Yi = 1) unter der Annahme = b:
ebxi
L i (b) : , mit bx i b0 b1 xi1 b2 xi 2 ... bM xiM
1 ebxi
Fr die gesamte Stichprobe ergibt sich dann die folgende Likelihood-Funktion:
N
Lb : (L i (b)) yi (1 L i (b))1 yi (6)
i 1
Das unmittelbar plausible Prinzip der Maximum-Likelihood-Schtzung besteht darin, denjenigen Vektor b
zu bestimmen, welcher die Likelihood-Funktion maximiert.
Um die Suche nach dem Maximum zu erleichtern, geht man zum Logarithmus ber, was aufgrund der
Monotonie dieser Funktion zulssig ist:
N
LL(b) : ln(L(b)) yi ln( L i (b)) (1 yi ) ln(1 L i (b)) (7)
i 1
Aus dem Produkt in Gleichung (6) ist eine Summe geworden, was die Extremwertbestimmung erleichtert,
die mit einem iterativen numerischen Verfahren (z.B. Newton-Raphson) vorgenommen wird.
Als Ergebnis erhlt man den Vektor ( 0 , 1 , 2 ,..., m ) mit dem ML-Schtzungen der Parameter. Dar-
aus ergeben sich sofort die ML-Schtzungen i der Wahrscheinlichkeiten P(Yi = 1):
exi
i :
1 exi
Mit dieser Vereinbarung knnen wir die Likelihood an der Stelle so schreiben:
N
L() i i (1 i )1 yi
y
i 1
1
Es zeigt sich brigens, dass die Kleinst-Quadrat-Schtzer in der linearen Regressionsanalyse unter der blichen Annahme
normalverteilter Residuen auch Maximum-Likelihood-Schtzer sind.
18
Logistische Regressionsanalyse mit SPSS
Nach lediglich 6 Iterationen stellt sich eine Konvergenz aller Parameterschtzungen auf stabile Werte ein,
und das Verfahren stoppt.
Erfreulicherweise bietet die allgemeine Maximum-Likelihood-Theorie (siehe z.B. Rao 1973) einige fr
uns auerordentlich ntzliche Ergebnisse:
ber die Matrix der zweiten partiellen Ableitungen der Log-Likelihood-Funktion an der Stelle
gewinnt man eine Schtzung der Varianz-Kovarianzmatrix der Parameterschtzer, so dass sich Kon-
fidenzintervalle und Tests konstruieren lassen (siehe z.B. Agresti 1990, S. 112ff; Hosmer & Lemes-
how 2000, S. 34ff).
Die mit 2 vormultiplizierte Log-Likelihood an der Stelle , im folgenden mit 2 LL( ) bezeich-
net, spielt bei vielen Signifikanztests und Goodness-of-Fit - Indizes eine wichtige Rolle (siehe un-
ten).
Allerdings gelten die Verteilungsaussagen der Maximum-Likelihood-Theorie generell nur approximativ, d.h.
fr N . In Abschnitt 2.1.2 finden sich Empfehlungen zur minimal erforderlichen Stichprobengre.
In Abschnitt 4.8 beschftigen wir uns mit numerischen Schtzproblemen, die durch spezielle Muster in
den Daten verursacht werden (z.B. Multikollinearitt, leere Zellen bei kategorialen Prdiktoren).
19
Logistische Regressionsanalyse mit SPSS
2.4.1.1 Pearson-2-Statistik
ber die folgende Pearson-2-Statistik kann bei aggregierten Daten mit K mehrfach besetzten Prdik-
torwertekombinationen ein Modellgltigkeitstest konstruiert werden (siehe z.B. Hosmer & Lemeshow
2000, S. 145):
K
(~
y hk k ) 2
2P : k (8)
k 1 hk
k (1 k )
Fr eine mit Hufigkeit hk realisierte Prdiktorwertekombination (engl.: covariate pattern) wird die er-
wartete Hufigkeit hk k ermittelt, wobei k die vom geschtzten Modell fr die k-te Wertekombination
prognostizierte Wahrscheinlichkeit zum Einserereignis ist. Mit ~yk soll bei aggregierten Daten die beo-
bachtete Anzahl von Einsen in der k-ten Wertekombination ausgedrckt werden. Im Zhler eines 2P -
Summanden steht also die quadrierte Abweichung der beobachteten Hufigkeit ~yk von ihrer Erwartung
20
Logistische Regressionsanalyse mit SPSS
hk k unter dem Modell. Im Nenner steht die geschtzte Varianz der B( k , hk) - binomialverteilten Vari-
ablen ~ y . Bei der Wurzel aus einem 2 -Summanden handelt es sich offenbar um ein standardisiertes
k P
Residuum nach klassischer Bauart, das anschlieend als Pearson-Residuum bezeichnet und mit rpk no-
tiert werden soll. Insgesamt enthlt 2P die Summe der quadrierten Pearson-Residuen zu den K Prdik-
torwertekombinationen:
K ~
y k hk k
2P rpk2 mit rpk :
k 1 hk k (1 k )
Alternativ kann man die 2P - Statistik auch als Diskrepanzma nach dem Muster:
(beobachtete Hufigkeit erwartete Hufigkeit) 2
erwartete Hufigkeit
interpretieren, wobei ber (2K) Zellen (fr beide Kategorien des Kriteriums) zu summieren ist:
K
( ~yk hk k ) 2 K ((hk ~
yk ) hk (1 k )) 2 K ( ~ yk hk k ) 2 (1 k ) (hk k ~
yk ) 2 k
k 1 hk k
k 1 hk (1 k )
k 1 hk k (1 k )
K ~
( y hk k )
2
k
k 1 hk k (1 k )
P 2
Pearsons-2-Statistik ist bei Gltigkeit des Modells 2-verteilt, wenn alle erwarteten Hufigkeiten gro
genug sind (vgl. Abschnitt 2.1.2). Die Anzahl der Freiheitsgrade betrgt K (M + 1), wobei K fr die
Anzahl der Prdiktorwertekombinationen steht und M fr die Anzahl der Designvariablen.1
Ist die Verteilungsasymptotik akzeptabel, kann ein Modelgltigkeitstest auf Basis der Pearson-2-Statistik
vorgenommen werden, der zwischen folgenden Hypothesen entscheidet:
H0: Das logistische Modell gem Gleichung (1) ist gltig. Die Wahrscheinlichkeiten P(Yi = 1)
gengen seinen Restriktionen.
H1: Das logistische Modell ist ungltig.
Sinnvollerweise steht der Pearson-2-Statistik in der SPSS-Prozedur zur binren logischen Regression,
die mit Individualdaten arbeitet, nicht zur Verfgung. Bei der multinomialen Variante kann er in der Sta-
tistiken-Subdialogbox ber das Kontrollkstchen Anpassungsgte angefordert werden:
1
Ein nominalskalierter Regressor mit s Ausprgungen wird im Design durch (s 1) Kodiervariablen reprsentiert (vgl. Ab-
schnitt 2.7). Ein Modellgltigkeitstest ist nur dann mglich, wenn weniger als K - 1 Designvariablen vorhanden sind.
21
Logistische Regressionsanalyse mit SPSS
Mit dem in Abschnitt 2.2 beschriebenen Modell zur Erklrung von Durchblutungsstrungen kann kein
Modellgltigkeitstest auf Basis der Pearson-Statistik durchgefhrt werden, weil praktisch alle Regressor-
Wertekombinationen nur einfach besetzt sind. Daher betrachten wir das reduzierte Modell mit BEWEG
als einzigem (metrischem!) Regressor (vgl. Abschnitt 2.2). Trotzdem erhalten wir von NOMREG eine
Warnung im Hinblick auf den angeforderten Modellgltigkeitstest:
Bei einer (BEWEG DBS) - Kombination liegt die beobachtete Hufigkeit 0 vor. Fr die Anwendbarkeit
des Modellgltigkeitstest via Pearsons-2-Statistik sind allerdings die erwarteten Hufigkeiten der (BE-
WEG DBS) - Kombinationen relevant (siehe unten). Folglich drfen wir die Warnung ignorieren.
Wir erhalten eine Pearson-Statistik von 2,507, die bei 4 Freiheitsgraden eine berschreitungswahrschein-
lichkeit von 0,643 besitzt, und knnen das lineare Modell daher akzeptieren:
22
Logistische Regressionsanalyse mit SPSS
Wer die Berechnung der Pearson-2-Statistik nachvollziehen und die erwarteten Hufigkeiten kontrollie-
ren mchte, kann in der NOMREG-Subdialogbox Statistik ber das Kontrollkstchen Zellwahr-
scheinlichkeiten die folgende Tabelle mit den beobachteten und prognostizierten Hufigkeit sowie den
Pearson-Residuen anfordern:
Die Summe der quadrierten Pearson-Residuen zu den 6 Prdiktorwertekombinationen ergibt den Index-
wert:
1,2662 +0,1262 +0,0402 + 0,4302 + 0,2752 + 0,7912 2,51
Nach Formel (8) haben wir die K quadrierten Pearson-Residuen zu den Einserkategorien zu addieren.
Dass die Pearson-Residuen zu den Null-Kategorien gerade den negativen Wert -rpk annehmen, ergibt sich
sofort:
(hk ~
yk ) hk (1 k ) ~yk hk k
rpk
hk k (1 k ) hk k (1 k )
In zwei Zellen (BEWEG = 1, DBS = 0 bzw. BEWEG = 6, DBS = 1) ist die erwartete Hufigkeit sehr
klein (0,314 bzw. 0,575), so dass die Interpretierbarkeit des Modellgltigkeitstests nach der Empfehlung
aus Abschnitt 2.1.2 etwas fraglich ist.
2.4.1.2 Devianz-Statistik
Fr aggregierte Daten kann auch die Devianz-Statistik als GFI-Index (Goodness of Fit) und Basis fr
einen Modelgltigkeitstest verwendet werden. Hier vergleicht man die maximale Likelihood der Daten
unter dem betrachteten Model mit der Likelihood LS des saturierten Modells, das fr jede Prdiktorwer-
tekombination eine eigene Einserwahrscheinlichkeit erlaubt, welche ber die relative Hufigkeit geschtzt
wird. Mit den Bezeichnungen wie in den Abschnitten 2.3.1 und 2.4.1.1 gilt fr die Likelihood des para-
metrisch spezifizierten Modells:
N K ~
L() i i (1 i )1 yi k k (1 k ) hk yk
y y ~
i 1 k 1
23
Logistische Regressionsanalyse mit SPSS
~y hk ~yk
~ hk ~
K k
y yk
L S : k
k 1 hk hk
Die folgendermaen definierte Devianz D:
L( )
D : 2 ln
L
S
ist bei Gltigkeit des Modells approximativ 2-verteilt mit K (M + 1) Freiheitsgraden. Dies folgt aus
generellen Theoremen ber Likelihood-Quotienten, die wir noch mehrfach ausnutzen werden (vgl. Ab-
schnitt 2.5.1).
Wie die in Abschnitt 2.4.1.1 enthaltene SPSS-Tabelle Gte der Anpassung zeigt, erreicht das DBS-
Partialmodell mit dem einzigen Regressor BEWEG eine Devianz (deutsch: Abweichung) von 2,531, so
dass bei 4 Freiheitsgraden eine berschreitungswahrscheinlichkeit von 0,639 resultiert. Folglich kann die
Nullhypothese (also das Modell) beibehalten werden.
Auch der Modellgltigkeitstest per Devianz-Statistik ist nur bei aggregierten Daten mit mehrfach besetz-
ten Regressor-Wertekombinationen anwendbar, hat also dieselben Voraussetzungen wie der im letzten
Abschnitt beschriebene Pearson-Anpassungstest. Nach den Ergebnissen von Stelzl (2000) ist die Pearson-
Variante in der Regel aufgrund der besseren Verteilungsapproximation zu bevorzugen.
Beide GFI-Statistiken bzw. Modellgltigkeitstests knnen in der Statistiken-Subdialogbox der SPSS-
Prozedur NOMREG ber das Kontrollkstchen Anpassungsgte angefordert werden (siehe Abschnitt
2.4.1.1).
Analog zu Formel (8) steht h fr die Anzahl der Flle in Gruppe l und ~
l y fr die hier beobachtete Anzahl
l
von Einsen, wobei jedoch die Gruppen diesmal nicht ber Prdiktorwertekombinationen festgelegt sind,
sondern ber Intervalle bzgl. der prognostizierten Wahrscheinlichkeiten.
Analog zu der in Abschnitt 2.4.1.1 vorgefhrten Umstellung kann man auch 2HL so notieren, dass Dis-
krepanzbeitrge aus 2 L Zellen zu addieren sind:
L
(~
yl hl l ) 2 L
(~
yl hl l ) 2 L
((hl ~
yl ) hl (1 l )) 2
l 1 hl l (1 l )
l 1 hl l
l 1 hl (1 l )
Bei unserem Durchblutungsbeispiel mit dem in Abschnitt 2.2 beschriebenen Prdiktorensatz (jedoch noch
ohne RAUCHER) werden die 200 Flle nach der prognostizierten Einserwahrscheinlichkeit in 10 exakt
gleich stark besetzte Gruppen aufgeteilt, alle hl sind also gleich 20.
24
Logistische Regressionsanalyse mit SPSS
Durch Kreuzen dieser Aufteilungsvariablen mit dem dichotomen Kriterium entstehen 10 2 Zellen mit fol-
genden erwarteten Hufigkeiten:
hl l fr die Ja-Varianten
hl (1 l ) fr die Nein-Varianten
In jeder Zelle wird die Differenz Beobachtung Erwartung quadriert und durch die Erwartung dividiert.
ber alle 20 Zellen summiert ergibt sich die Hosmer-Lemeshow Goodness-of-Fit Statistik.
Mit Hilfe von Simulationen haben Hosmer & Lemeshow ermittelt, dass 2HL bei korrektem Model einer 2
Verteilung mit L 2 Freiheitsgraden folgt, sofern alle Prdiktorwertekombinationen nur einfach besetzt
sind. Die Autoren vermuten, dass die Approximation auch dann noch verlsslich ist, wenn nur wenige
Kombinationen mehrfach auftreten.
SPSS bietet den Hosmer-Lemeshow Modelgltigkeitstest in der Prozedur zur binren logistischen Reg-
ression, anzufordern in der Optionen-Subdialogbox:
25
Logistische Regressionsanalyse mit SPSS
Im DBS-Beispiel liefert der Test zur 2HL -Statistik keinen Anlass, die Modellgltigkeit zu bezweifeln:
2.4.2.1 Residuendiagnostik
Anhand von Residuen kann man lokale Anpassungsschwchen eines Modells aufspren. Leider ist die
Residuendiagnostik bei der logistischen Regression mit einigen Schwierigkeiten belastet (z.B. im Ver-
gleich zur linearen Regressionsanalyse). Insbesondere gelten die Individualresiduen als problematisch, so
dass meist empfohlen wird, die Residuen fr Prdiktorwertekombinationen (covariate patterns) zu be-
trachten (siehe z.B. Hosmer & Lemeshow 2000, S. 170; Ryan 1997, S. 284). Zudem sollten die einzelnen
Wertekombinationen mit adquater Hufigkeit in der Stichprobe vertreten sein, was in Abhngigkeit von der
Stichprobengre, Anzahl der Regressoren und Messgenauigkeit eventuell kaum zu realisieren ist. In unserer
Stichprobe (N = 200) treten durch die relativ genau gemessenen Regressoren ABWIG (in kg) und DRUCK
(in mm/Hg) kaum mehrfach besetzte Wertekombinationen auf.
Ein technisches Problem besteht zudem darin, dass SPSS nur Individualresiduen produziert, so dass man
die Residuen zu Prdiktorwertekombinationen etwas aufwndig (z.B. per Aggregation, siehe unten) er-
mitteln muss. Fallbezogen kann SPSS etliche Residualvarianten erzeugen, wobei die BLR-Prozedur in
der Speichern-Subdialogbox entsprechende Wnsche entgegen nimmt:
In diesem Manuskript werden nur die Pearson- und die Devianz-Residuen bercksichtigt, die in enger
Beziehung zu bereits diskutierten Goodness-of-Fit Statistiken stehen (siehe Abschnitt 2.4.1) und in obi-
ger SPSS-Dialogbox unter den Bezeichnungen Standardisiert bzw. Abweichung zu finden sind.
2.4.2.1.1 Devianz-Residuen
Die in Abschnitt 2.4.1.2 vorgestellte Devianz-Statistik lsst sich als Summe von Beitrgen der K Prdik-
torwertekombinationen schreiben, sofern alle Einserhufigkeiten ~ yk grer 0 und kleiner als hk sind:
26
Logistische Regressionsanalyse mit SPSS
L( ) L
D 2 ln 2 ln S
L( )
LS
~ ~
K ~
yk
hk ~ yk
hk yk
2 ln k
y
k 1 k hk k
h (1
)
k
K
~ y h ~ y k
2 ~ yk ln k 2 (hk ~
yk ) ln k falls 0 ~
yk hk
k 1 k hk hk (1 k )
Wie in Abschnitt 2.4.1.1 bedeuten (jeweils fr die k-te Prdiktorwertekombination):
hk Gruppenstrke
k vom Modell prognostizierte Einserwahrscheinlichkeit
~
y beobachtete Anzahl von Einsen
k
Die Wurzel des k-ten Summanden, versehen mit dem Vorzeichen von ( ~ yk hk k ), bezeichnet man als
Devianzresiduum rdk zur k-ten Prdiktorwertekombination (siehe z.B. Hosmer & Lemeshow 2000, S.
146). Es gilt trivialerweise:
K
D rd k
2
k 1
Bei der Definition des Devianzresiduums rdi fr einen Einzelfall muss man die Gruppenformel modifizie-
ren, um das ungltige Logarithmus-Argument 0 zu vermeiden:
2 ln(1 i ) fr yi 0
rd i :
2 ln( i ) fr yi 1
Mit dieser Definition arbeitet die BLR-Prozedur in SPSS, wenn Abweichungs-Residuen angefordert
werden.
Die Summe der quadrierten Devianz-Individualresiduen ergibt brigens gerade 2 LL() (vgl. Abschnitt
2.3.1):
N
rd
i 1
i
2
2 LL( )
Aus diesem Grund wird die Gre 2 LL() aus der logistischen Regression oft mit der Fehlerquadrat-
summe aus der linearen Regression verglichen (siehe Abschnitt 2.5.1).
Bei Individualdaten korrelieren die Devianzresiduen hoch mit den Pearson-Residuen (z.B. 0,91 im kom-
pletten DBS-Modell) und zeigen daher im Wesentlichen dasselbe Verhalten. Daher knnen wir uns an-
schlieend auf eine Diskussion der Pearson-Residuen beschrnken.
27
Logistische Regressionsanalyse mit SPSS
2.4.2.1.2 Pearson-Residuen
Das Pearson-Residuum fr die k-te Prdiktorwertekombination ist definiert durch:
~
y k hk k
rpk : (9)
hk k (1 k )
Folglich ist die in Abschnitt 2.4.1.1 vorgestellte Pearson-2-Statistik gerade die Summe der quadrierten
Pearson-Residuen zu allen Prdiktorwertekombinationen.
Das Pearson-Residuum fr einen Einzelfall ergibt sich aus Formel 9 als Spezialfall mit Hufigkeit 1:
yi i
rpi :
i (1 i )
Es wird in SPSS als standardisiertes Residuum bezeichnet und enthlt
im Zhler die B( i , 1) binomialverteilte Zufallsvariable yi, die durch Subtrahieren ihrer model-
gemen Erwartung i zentriert wird
im Nenner die geschtzte Standardabweichung von yi
Eine analoge Standardisierung ist auch in der Gruppenformel enthalten, so dass alle Pearson-Residuen bei
gltigem Modell approximativ den Erwartungswert 0 und die Varianz 1 haben.
hk k k
rpk hk
hk k (1 k ) 1 k
Wenn z.B. bei einer prognostizierten Wahrscheinlichkeit von 0,5 alle 9 Flle einer Prdiktorwertekombin-
ation zur Nullkategorie des Kriteriums gehren, kann man von einem lokalen Anpassungsproblem des
Modells ausgehen. Whrend dieses Problem im Gruppenresiduum von -3 deutlich zum Ausdruck kommt
(3 Standardabweichungen vom Mittelwert entfernt), zeigen alle 9 Individual-Residuen den unaufflligen
Wert -1.
Fr die von LOGISTIC REGRESSION aufgrund der obigen Speichern-Subdialogbox (siehe Anschnitt
2.4.2.1) in der Arbeitsdatei erzeugten Variablen PRE_1 und ZRE_1 mit den Modellprognosen bzw. Pear-
son-Individualresiduen zum DBS-Modell (ohne den Prdiktor RAUCHER) kann man z.B. ber den fol-
genden Menbefehl
Diagramme > Veraltete Dialogfelder > Streu-/Punkt-Diagramm > Einfach
1
Das Pearson-Gruppenresiduum ist generell identisch mit dem hk - fachen des mittleren Individualresiduums.
28
Logistische Regressionsanalyse mit SPSS
ein Streudiagramm anfordern. Es unterscheidet sich stark von analogen Diagrammen aus einer linearen
Regressionsanalyse:
Das prgnante Muster entsteht, weil fr alle Flle mit einer bestimmten prognostizierten Wahrscheinlich-
keit nur zwei Beobachtungswerte (0 oder 1) und infolgedessen auch nur zwei Residualwerte auftreten
knnen.
Trotz dieser Besonderheiten mssen auch die individuellen Pearson-Residuen aus der binren logistischen
Regression bei gltigem Modell fr jede Modellprognose einen Mittelwert von Null besitzen, d.h. die
Funktion der bedingten Erwartungen muss annhernd konstant in der Hhe Null verlaufen (Fox & Weis-
berg 2011, S. 320). Um diese Forderung graphisch beurteilen zu knnen, wurde eine Anpassungslinie
eingezeichnet und durch Zuweisung der Anpassungsmethode Loess (locally estimated scatterplot
smoothing) stckweise optimal an die Daten angepasst. Diese Anpassungslinie zeigt keine nennenswerten
Abweichungen von der erwarteten Geraden.
Auch in den Streudiagrammen der Pearson-Individualresiduen mit jeweils einem einzelnen metrischen
Prdiktor sollte die Loess-Anpassungsline nicht wesentlich vom waagerechten Verlauf in der Hhe Null
abweichen. Wir erhalten die folgenden Diagramme:
29
Logistische Regressionsanalyse mit SPSS
Beim kategorialen Prdiktor ERBE ist ein Boxplot geeignet, um das Verhalten der Pearson-Residuen zu
beschreiben:
Wer bei den metrischen Prdiktoren einen Signifikanztest zur Beurteilung auf Anpassungsschwchen des
BLR-Modells bevorzugt, kann ber den Menbefehl
Analysieren > Regression > Kurvenanpassung
fr die Regression der Pearson-Residuen auf den fraglichen Prdiktor ein lineares, quadratisches und ku-
bisches Modell erproben, z.B.:
30
Logistische Regressionsanalyse mit SPSS
Mit etwas Handarbeit lsst sich im Beispiel auch ein Streudiagramm mit den Pearson-Residuen und den
mittleren Prognosewerten der BEWEG-Gruppen erstellen:1
Man lsst die geschtzten Zugehrigkeitswahrscheinlichkeiten zu den Kriteriumskategorien in
neue Variablen der Arbeitsdatei sichern, z.B. ber das Kontrollkstchen Geschtzte Wahr-
scheinlichkeiten fr abhngige Variable in der NOMREG-Subdialogbox Speichern.
1
Die vorgeschlagene Schrittfolge lsst sich mit der folgenden SPSS-Syntax automatisieren:
NOMREG
dbsWITHbeweg/SAVEESTPROB.
AGGREGATE
/OUTFILE=*/BREAK=beweg
/pred=MEAN(est2_1)/y=SUM(dbs)/h=N.
COMPUTEresid=(ypred*h)/sqrt(h*pred*(1pred)).
GRAPH
/SCATTERPLOT(BIVAR)=predWITHresid.
Beachten Sie bitte, dass die von NOMREG erstellten Variablen mit den Zellwahrscheinlichkeiten (im Programm bentigt:
EST2_1) bei jedem Aufruf innerhalb einer Sitzung neue Namen erhalten.
31
Logistische Regressionsanalyse mit SPSS
In unserem DBS-Beispiel (mit allen Prdiktoren auer RAUCHER) resultiert die folgende Tabelle:
32
Logistische Regressionsanalyse mit SPSS
Die Anzahl der extremen Werte bewegt sich im normalen Rahmen: Von 200 Fllen erreichen nur 7 ein
standardisiertes Residuum im zweiseitigen 5%-Ablehungsbereich der Standardnormalverteilung (Betrag
> 1,96). Folglich besteht kein Anlass, einzelne Flle als Ausreier auszuschlieen. Hier handelt es sich
zugegebenermaen um eine unsaubere Argumentation, weil nach obigen berlegungen die Normalvertei-
lungstheorie zur Beurteilung der standardisierten Individualresiduen kaum genutzt werden kann.
Beim Fall Nr. 8 mit dem extremen Pearson-Residuum von 5,614 zeigt sich die Ungerechtigkeit des
Pseudozufallszahlengenerators. Der Fall ist von Durchblutungsstrungen betroffen, obwohl seine Prdik-
torwerte fr ein sehr geringes Risiko von 0,03 sprechen: 21 kg Untergewicht, berdurchschnittliche Be-
wegung (Wert 4 von 6), sehr niedriger Blutdruck von 60 mm/Hg, durchschnittlicher Stress (3 von 6), kei-
ne erbliche Belastung. Es zeigt sich, dass auch bei einem gltigen Modell durch puren Zufall ein extremes
Residuum auftreten kann.
33
Logistische Regressionsanalyse mit SPSS
Mit den (z.B. bei der ersten Modellierung innerhalb einer Sitzung als PRE_1 bzw. RES_1 bezeichneten) Va-
riablen erstellt man ein Streudiagramm, z.B. ber:
Diagramme > Veraltete Dialogfelder > Streu-/Punkt-Diagramm > Einfach
Beim folgenden Exemplar wurde ber das Optionen-Men des Diagramm-Editors eine Bezugslinie fr
die x-Achse ergnzt:
Links oben (Residuum > 0,5; Prognose falsch negativ) sowie rechts unten (Residuum < -0,5; Prognose falsch
positiv) befinden sich die vom Modell ber den Trennwert 0,5 falsch klassifizierten Flle.
34
Logistische Regressionsanalyse mit SPSS
In folgendem Diagramm sind Cooks Distanzen aus dem DBS-Beispiel (mit allen Prdiktoren auer
RAUCHER) in Abhngigkeit von der Modellprognose zu sehen:
SPSS speichert diese Informationen aufgrund der abgebildeten Dialogbox in der neuen Variablen
COO_1.
Alle Flle halten einen groen Abstand zum kritischen Wert 1, den Hosmer & Lemeshow (2000, S. 180)
nennen.
35
Logistische Regressionsanalyse mit SPSS
36
Logistische Regressionsanalyse mit SPSS
Nullhypothese klar scheitert. Das Ergebnis erscheint in der folgenden Tabelle aus der BLR-Ausgabe
gleich dreimal, weil alle Regressoren simultan in das Modell aufgenommen wurden:
Den 2LL Wert des vollstndigen Modells erfahren wir in folgender Tabelle:
Den 2LL Wert des Basismodells (= 276,939) liefert die BLR-Prozedur ber das Iterationsprotokoll
(Anforderung via Optionen-Subdialogbox) zum Anfangsblock:
Manche Autoren sehen folgende Entsprechungen zwischen den 2LL Werten der logistischen Regres-
sion und den Quadratsummen der linearen Regression:
Logistische Regression Lineare Regression
-2LL(Basismodell) Totale Quadratsumme (SST)
-2LL(Vollstndiges Modell) Fehlerquadratsumme (SSE)
(siehe Abschnitt 2.4.2.1.1)
-2LL(Basismodell) (-2LL(Vollstndiges Modell)) Aufgeklrte Quadratsumme (SSR)
2.5.2 Pseudo-R2-Statistiken
In der oben wiedergegebenen Tabelle Modellzusammenfassung prsentiert die SPSS-Prozedur zur
binren logistischen Regression auch zwei Mazahlen, die in Analogie zum Determinationskoeffizienten
(R2) der linearen Regression den Anteil der vom BLR-Modell erklrten Kriteriumsvarianz schtzen sol-
len:
37
Logistische Regressionsanalyse mit SPSS
Da L( ) als Produkt von Wahrscheinlichkeiten nach oben durch den Wert 1 beschrnkt ist, kann R cs2
maximal den Wert
2
R cs2 max : 1 L(0) N
erreichen. Im Nullhypothesenmodell ist fr jeden Fall die Modellprognose gerade mit dem Stichproben-
anteil der Einsen identisch, der mit bezeichnet werden soll. Damit gilt:
2
R cs2 max 1 N (1 - ) N - N N
1 2 (1 - ) 2-2
Bei = 0,5 resultiert z.B. ein maximales R cs2 von 0,75.
38
Logistische Regressionsanalyse mit SPSS
SSE
1
SST
Fr unser DBS-Modell (mit allen Prdiktoren bis auf RAUCHER) liefert die NOMREG-Prozedur nach
einem Aufruf mit der in Abschnitt 2.2 beschriebenen Dialogbox:
Die Pseudo-R2-Mae knnen sowohl aus Individualdaten als auch (mit identischem Ergebnis) aus aggre-
gierten Daten berechnet werden. In der Ausgabe der Prozedur LOGIST REGRESSION, die schon in Ab-
schnitt 2.5.1 zu sehen war, fehlt der Index von McFadden.
Bei vergleichbaren Modellen fallen die Pseudo-R2-Mae meist geringer aus als der Determinationskoeffi-
zient der linearen Regressionsanalyse (Noruis 2005, S. 328), so dass z.B. beim R 2M von McFadden Werte
zwischen 0,2 und 0,4 als sehr erfolgreich gelten (Tabachnik & Fidell 2007, S. 460).
Bei den Pseudo-R2-Maen der logistischen Regression fehlt eine Korrektur analog zum adjustierten R2
der linearen Regression. Sie wachsen also grundstzlich mit der Anzahl der Prdiktoren.
39
Logistische Regressionsanalyse mit SPSS
Die Flle aus Gruppe 0 (keine Durchblutungsstrungen diagnostiziert) werden zu 79,2% richtig klassifi-
ziert, die Flle aus Gruppe 1 zu 83,7%. Insgesamt werden 81,5% aller Flle von unserem Modell richtig
eingeordnet. Diese Trefferrate ist zu vergleichen mit der Leistung des Basismodells (ohne Prdiktoren),
das jeden Fall unbesehen in die strker besetzte Gruppe 0 einordnet, was bei unseren Daten zu einer Tref-
ferrate von 52,0 % fhren wrde.
Bei der Arbeit mit solchen Klassifikationstabellen, die auch bei Diskriminanzanalysen gern verwendet
werden, ist generell zu bedenken, dass die Trefferraten in der Stichprobe, aus der das Modell stammt,
berschtzt werden. Einen realistischen Eindruck vermittelt nur die Kreuzvalidierung des Modells an-
hand einer unabhngigen Stichprobe. SPSS ermglicht die Auswahl einer Teilstichprobe zur Modellge-
winnung, so dass die ausgeschlossenen Flle fr eine echte Kreuzvalidierung zur Verfgung stehen:
Bei den folgenden Kreuzvalidierungsergebnissen wurde die Zugehrigkeit zur Schtzstichprobe (Anteil
ca. 72%) bzw. zur Kreuzvalidierungsstichprobe (Anteil ca. 28%) ber die Variable AUSWAHL gesteuert:
Die in der Kreuzvalidierungsstichprobe nur geringfgig reduzierte Trefferrate spricht fr die diagnosti-
sche Tauglichkeit des Modells.
2.5.3.2 Klassifikationsdiagramm
Im folgenden Klassifikationsdiagramm werden die beobachteten Gruppenzugehrigkeiten yi in Ab-
hngigkeit von der geschtzten Wahrscheinlichkeit i dargestellt. Daraus lsst sich z.B. ablesen, ob die
falsch negativen Klassifikationen (eine vorhandene Durchblutungsstrung wird nicht prognostiziert)
40
Logistische Regressionsanalyse mit SPSS
berwiegend bei knappen Entscheidungen ( i nahe 0,5) aufgetreten sind. Wie wir bereits aus Abschnitt
2.4.2.1.5 wissen, hat es in unserer Stichprobe allerdings einen Fall (Nr. 8) erwischt, dem das Modell ein
sehr kleines Risiko (0,031) zugeordnet hatte.
ObservedGroupsandPredictedProbabilities
16
F
R12
E
Q
UJJ
E8JJ
NNJJ
CNJJ
YNNNJJJ
4NNNJNJNJJJJJJJJJ
NNNNNNNJNNJNJNJJNJJJJJJJJJJJJ
NNNNNJNNNNNNNNNNJNNNNJJNNJJJJJNJJJJJJJJJJJJJJJJJJJJJJJJ
NNNNNNNNNNNNNNNJNNNNNNNNNNNNNJNNNNNJJJJNNNNNNJJNJJJNNNNJNJJJJJNNNJJJNNJJNJNJJJJJJJJJ
Predicted
Prob:0,1,2,3,4,5,6,7,8,91
Group:NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ
PredictedProbabilityisofMembershipforJa
TheCutValueis,50
Symbols:NNein
JJa
EachSymbolRepresents1Case.
Aufgrund eines solchen Plots knnte man die Standardklassifikationsregel in Formel (11) so abndern,
dass vor allem die mit hheren Kosten verbundene Fehldiagnose vermieden wird. Fr denselben Zweck
kann man auch den Plot der einfachen (nicht standardisierten) Residuen gegen die prognostizierten Wahr-
scheinlichkeiten verwenden (siehe Abschnitt 2.4.2.1).
In der SPSS-Prozedur zur binren logistischen Regression wird das Klassifikationsdiagramm in der
Optionen-Subdialogbox angefordert:
41
Logistische Regressionsanalyse mit SPSS
Wir erfahren z.B. ber den Regressor ABWIG, dass bei einer Erhhung um eine Einheit (1 kg) das loga-
rithmierte Wahrscheinlichkeitsverhltnis (siehe Gleichung (2)) um 0,063 ansteigt.
Rechts neben den geschtzten Koeffizienten stehen die zugehrigen Standardfehler.
Bei der Interpretation eines Regressionskoeffizienten ist seine Skalierung bzw. Maeinheit zu bercksich-
tigen. In der obigen Tabelle vermisst man eine zum standardisierten Regressionskoeffizienten (Beta-
Gewicht) der linearen Regression analoge Statistik. Menard (1995, S. 46) berichtet ber entsprechende De-
finitionsvorschlge und beschreibt auch, wie man diese standardisierten Koeffizienten in SPSS (mit einigem
Aufwand) zu berechnen sind. Wenn es nur darum geht, die Beitrge der metrischen Regressoren vergleich-
bar zu machen, kann man diese Regressoren vor der Analyse standardisieren, was z.B. Tabachnik und Fi-
dell (2007, S. 469) vorschlagen. Weil beim Kriterium keine Standardisierung stattfindet, erhlt man aller-
dings keine Koeffizienten im Variationsbereich von Beta-Gewichten. Auerdem wird z.B. beim Standardi-
sieren der Variablen DRUCK die Maeinheit mm/Hg ersetzt durch DRUCK-Standardabweichung in der
betrachteten Stichprobe. Folglich hngt der Regressionskoeffizient nicht nur vom Einfluss des Blutdrucks
auf das Kriterium ab, sondern auch von der Varianz des Blutdrucks in der untersuchten Stichprobe. Sptes-
tens beim Vergleich von verschiedenen Stichproben bzw. Populationen sind die Ergebnisse zu standardisier-
ten Variablen weniger geeignet.
Urban (1993, S. 38f) empfiehlt, die Beitrge der Regressoren ber die Wald-Statistik (siehe Abschnitt
2.6.2) zu vergleichen, und begrndet diese Empfehlung mit dem Hinweis, dass die Wald-Statistik bei
metrischen Regressoren invariant gegenber nderungen der Skala (Varianz) ist.
In der letzten Spalte der obigen Tabelle befindet sich fr jeden Regressor der von Urban (1993, S. 40f) als
Effektgre, von anderen Autoren als odds ratio bezeichnete Ausdruck e m . Er gibt an, um welchen Fak-
tor sich das Wahrscheinlichkeitsverhltnis
P(Y 1)
P(Y 0)
ndert, wenn der Prdiktor Xm um eine Einheit steigt und alle anderen konstant bleiben (vgl. Abschnitt 2.1.3).
In der Demostudie fhrt z.B. die Steigerung des STRESS-Indikators um eine Einheit zu einem nahezu ver-
doppelten Wahrscheinlichkeitsverhltnis.
Die Konfidenzintervalle zu den Effektgren mssen bei der SPSS- Prozedur zur binren logistischen Re-
gression in der Optionen-Subdialogbox angefordert werden.
ber die Reduktion der Pseudo-R2-Statistiken beim Entfernen eines Regressors aus dem Modell kann
man seinen eigenstndigen Erklrungsbeitrag beurteilen.
42
Logistische Regressionsanalyse mit SPSS
2.6.2 Signifikanz
Zum Testen der Nullhypothese, dass ein Regressor irrelevant ist, kann die Wald-Statistik verwendet
werden, die bei hinreichend groer Stichprobe (siehe Abschnitt 2.1.2) annhernd 2-verteilt ist. Bei metri-
schen und dichotomen Regressoren, die jeweils einen Freiheitsgrad besitzen, ist die Wald-Statistik gerade
identisch mit dem quadrierten Quotienten aus dem geschtzten Regressionskoeffizienten und seinem
Standardfehler. Bei einem Faktor (nominalskalierten Regressor) mit (k > 2) Kategorien folgt die Wald-
Statistik unter der Nullhypothese einer 2-Verteilung mit (k - 1) Freiheitsgraden (siehe Abschnitt 2.7). In
der Sig-Spalte sind die empirischen berschreitungswahrscheinlichkeiten der Wald-Tests zu den Regres-
soren angegeben.
Bei Regressoren mit betragsmig groen Werten ist die Wald-Statistik nach unten verflscht, so dass die
Signifikanztests mit einem erhhten Fehlerrisiko zweiter Art belastet sind (Noruis 2005, S. 329).
Generell sollten auch zur Beurteilung der einzelnen Regressoren Likelihood-Quotienten-Tests durchge-
fhrt werden, die genauer arbeiten als alle konkurrierenden Methoden (Menard 1995, S. 38). Bei ihrer
Konstruktion nach dem in Abschnitt 2.5.1 beschriebenen Prinzip sind im eingeschrnkten Modell genau
die Parameter der zu testenden Regressoren gestrichen.
Um die Prozedur LOGISTIC REGRESSION mit einem bei Noruis (2005, S. 329) beschriebenen Trick
zur Berechnung der Likelihood-Quotienten-Tests zu berreden, whlt man die zur automatischen Modell-
suche (siehe Abschnitt 2.9.2) gedachte Methode Rckwrts: LR
43
Logistische Regressionsanalyse mit SPSS
Im Ergebnis startet SPSS bei der Modellsuche mit allen Prdiktoren, verwendet Likelihood-Quotienten-
Tests (ab jetzt kurz bezeichnet als: LQ-Tests) zur Beurteilung der Prdiktoren und stoppt sofort, weil kein
Prdiktor mit seinem P-Level im LQ-Test das Ausschlusskriterium berbietet.
Wir erhalten die Tabelle
44
Logistische Regressionsanalyse mit SPSS
In unserem Beispiel resultiert die folgende Tabelle mit lngst bekannten Testentscheidungen:
Ein analoges Problem ist auch fr das oben gelegentlich betrachtete Modell mit BEWEG als einzigem
Prdiktor anzunehmen.
Um die Beeintrchtigung der Schtz- und Testergebnisse durch irrelevante Prdiktoren beobachten zu
knnen, nehmen wir vorbergehend drei solche Prdiktoren in das Modell auf, von denen zwei (IRRE1
und IRRE2) recht hoch mit relevanten Prdiktoren korrelieren:1
1
Sie finden die simulierten Daten in der Datei DBS MIT IRRELEVANTEN PRDIKTOREN.SAV an der im Vorwort
vereinbarten Stelle.
45
Logistische Regressionsanalyse mit SPSS
Auerdem reduzieren wir die Stichprobengre auf 150, was sich auf die Ergebnisse zum korrekten Mo-
dell kaum auswirkt:
Durch die Aufnahme der irrelevanten Variablen wird die Interpretation der Ergebnisse erschwert:
Whrend der relevante Prdiktor ABWIG die Signifikanzgrenze verpasst, wird ein irrelevanter Prdiktor
als signifikant beurteilt. Auerdem werden die Standardfehler zu den relevanten Prdiktoren grer.
46
Logistische Regressionsanalyse mit SPSS
Zwar sind in unserem konkreten Beispiel die Kategorien geordnet, aber es ist trotzdem nicht sinnvoll, RAU-
CHER durch einen einzelnen Regressor (z.B. mit den Werten 1, 2, 3) zu reprsentieren, da ber die Abstnde
zwischen den 3 Kategorien nichts bekannt ist. Wir mssen also wie im Fall einer nominalskalierten Variab-
len mit S (> 2) Stufen vorgehen. Um die Information einer solchen Variablen vollstndig in das Design ein-
zubringen, mssen S - 1 neue Variablen, so genannte Kodiervariablen, geeignet definiert und als Regressoren
verwendet werden. In unserem konkreten Beispiel RAUCHER ist also das Modell um 2 Kodiervariablen mit
zugehrigen Regressionsgewichten 6 und 7 zu erweitern. In der Logit-Formulierung lautet das erweiterte
Modell:
P(Y 1)
ln = 0 +1X1 + ... + 5X5 + 6X6 + 7X7
P(Y 0)
Nach der Erweiterung kann unser Modell fr jede Raucherkategorie einen eigenen Logit-Effekt schtzen, der
bei allen Wertekombination der anderen Prdiktoren zu den sonstigen Effekten addiert wird.
In Signifikanztests zum Prdiktor RAUCHER wird die folgende Nullhypothese geprft:
H0: 6 = 7 = 0
Damit SPSS die Variable RAUCHER bei der binren logistischen Regression als kategorial behandelt
und durch 2 automatisch gebildete Kodiervariablen in das Design einbindet, muss man in der zugehrigen
Dialogbox mit dem Schalter Kategorial die folgende Subdialogbox anfordern und RAUCHER in die
Liste der kategorialen Variablen befrdern:
47
Logistische Regressionsanalyse mit SPSS
Bzgl. der genauen Definition der Kodiervariablen zu einem nominalskalierten Prdiktor mit mehr als zwei
Kategorien bietet SPSS mehrere Alternativen, von denen die Bedeutung der Regressionskoeffizienten zu den
Kodiervariablen abhngt. In der Dialogbox Kategoriale Variable definieren whlt man einen Kon-
trast aus der versteckten Liste sowie eine Referenzkategorie und quittiert ber den Schalter ndern. Ist
nur ein kategorialer Prdiktor vorhanden, bersieht man leicht den Schalter ndern, so dass die gesamte
Dialogbox ohne Effekt bleibt.
Im Beispiel sollen fr den Prdiktor RAUCHER Abweichungskontraste mit der letzten Kategorie als Re-
ferenz verwendet werden. Welche Kodiervariablen SPSS daraufhin bildet, wird in der Ausgabe protokol-
liert:
Anschlieend wird die Bedeutung der Regressionskoeffizienten 6 und 7 zu den so definierten RAUCHER-
Kodierungsvariablen X6 und X7 erlutert. Wir betrachten eine beliebige, aber fest gewhlte, Wertkombination
x1, ..., x5 fr die Regressoren X1 bis X5 und erhalten mit der Abkrzung
:= 0 + 1x1 + ... + 5x5
fr die Raucherkategorien folgende Modellaussagen:
Raucherkategorie X6 X7 Logit
Raucher 1 0 L1 := + 6
Ehem. Raucher 0 1 L2 := + 7
Nichtraucher -1 -1 L3 := - 6 - 7
Als ungewichtetes Mittel der Modellprognosen fr die drei Raucherkategorien erhalten wir:
48
Logistische Regressionsanalyse mit SPSS
( 6 ) ( 7 ) ( 6 7 )
3
Nun wird klar:
6 ist die Abweichung des Logits zur Kategorie Raucher vom (ungewichteten) Mittel der drei Logits
7 ist die Abweichung des Logits zur Kategorie Ehem. Raucher vom (ungew.) Mittel der drei Logits
die Abweichung des Logits zur Kategorie Nichtraucher vom (ungewichteten) Mittel betrgt (- 6 -
7)
In diesem Zusammenhang soll noch vor der Verwechslung zwischen den eben behandelten Kodiervariab-
len und den zugehrigen Kontrastvektoren gewarnt werden. Die Nullhypothese
H 0 : 6 0
kann nach obigen berlegungen quivalent auch folgendermaen formuliert werden:
L1 13 ( L1 L2 L3 ) 0
L1
( 3 3 3 ) L2 0
2 1 1
L
3
Genau der Kontrastvektor ( 23 13 13 ) ist z.B. im SPSS-Regressions-Handbuch (SPSS 2011, S. 41) zur
Abweichungskodierung angegeben. Er gibt Aufschluss darber, welche Linearkombination der Katego-
rien-Logits durch die Nullhypothese zu einem Kodiervariablen-Regressionsgewicht gleich 0 setzt wird. In
der SPSS-Ausgabe zur binren logistischen Regression erscheinen jedoch nicht die Kontrastvektoren,
sondern die Kodiervariablen, also die korrespondierenden Spalten der Designmatrix (vgl. Nichols 1993).
In unserem Beispiel erhalten wir fr das erweiterte Modell folgende Schtzergebnisse:
Wie die Ergebniszeile zu RAUCHER zeigt, lehnt der Wald-Test die Nullhypothese (6 = 7 = 0) deutlich ab.
RAUCHER ist also insgesamt ein signifikanter Risikofaktor. Von den beiden Kodiervariablen hat nur RAU-
CHER(1) ein signifikantes Gewicht (b6 = 1,787, p = 0,001). Das logarithmierte Wahrscheinlichkeitsverhlt-
P(Y 1)
nis ln liegt also bei Rauchern signifikant ber dem (ungewichteten) Mittel.
P(Y 0)
49
Logistische Regressionsanalyse mit SPSS
P(Y 1)
Bei diesen Personen ist der Wahrscheinlichkeitsquotient gegenber dem geometrischen Mittel der
P(Y 0)
3 Wahrscheinlichkeitsquotienten um den Faktor e b6 (= 5,974, siehe Spalte Exp(B)) erhht, denn:
L1 13 ( L1 L2 L3 ) 6
1 1
( L1 L2 L3 ) 6 ( L1 L2 L3 )
e L1 e 3 e 6 e 3 e6 3 e L1 e L2 e L3
P(Y 1)
erhht. Ferner rechnet man leicht nach, dass bei Rauchern der Wahrscheinlichkeitsquotient im
P(Y 0)
Vergleich zu Nichtrauchern um den Faktor
e b6
b6 b7
e 2b6 b7 e b6 e b6 e b7 19,96
e
erhht ist.
Demgegenber scheinen Ex-Raucher mit einem mittleren Risiko belastet zu sein (kein signifikanter Lo-
git-Kontrast zum ungewichteten Mittel). Im Vergleich zu Nichtrauchern ist ihr Wahrscheinlichkeitsquo-
tient immerhin noch um den Faktor
e b7
b6 b7
e b6 2b7 e b6 e b7 e b7 1,87
e
erhht.
Fr die Nichtraucher kann man ausrechnen, dass Ihr Logit im Vergleich zum (ungewichteten) Mittel um
b6 + b7 = 1,787 - 0,581 = 1,206
P(Y 1)
erniedrigt ist. Ihr Wahrscheinlichkeitsquotient ist im Vergleich zum geometrischen Mittel der 3
P(Y 0)
Wahrscheinlichkeitsquotienten um den Faktor e b6 b 7 (= 0,3) reduziert.
Fr das erweiterte Modell ermittelt SPSS einen akzeptablen Gltigkeitstest
Als Alternative zur oben beschriebenen Abweichungskodierung kommt vor allem die so genannte Indi-
kator- oder Dummy-Kodierung in Frage, die SPSS im Ausgabefenster folgendermaen protokolliert:
Hier steht 6 bzw. 7 fr die Logit-Differenz zwischen der ersten bzw. zweiten RAUCHER-Kategorie und
der Referenzkategorie, wobei die Prozedur LOGISTIC REGRESSION per Voreinstellung die letzte Katego-
rie (mit dem hchsten Wert, im Beispiel: Nichtraucher) als Referenz verwendet. Fr diese Rolle ist z.B. die
in vielen Studien vorhandene Kontrollgruppe prdestiniert.
In der folgender Tabelle knnen die oben mhsam berechneten odds-Faktoren fr Raucher und Ex-
Raucher im Vergleich zu den Nichtrauchern direkt abgelesen werden:
2.8 Interaktionen
Die aus der Varianz- oder Regressionsanalyse wohlbekannte Interaktion, wobei der Effekt eines Regressors
auf das Kriterium durch einen anderen Regressor (oder auch durch mehrere) moderiert wird, lsst sich auch
in ein logistisches Modell integrieren. Man kann Interaktionen zwischen beliebigen metrischen oder katego-
rialen Regressoren spezifizieren, wobei SPSS Produktvariablen als zustzliche Regressoren in das Design
aufnimmt. Wir beschrnken uns anschlieend auf die Zweifachwechselwirkung zwischen zwei kategorialen
Regressoren. Jaccard (2001) widmet den Interaktionseffekten in der logistischen Regression ein komplettes
51
Logistische Regressionsanalyse mit SPSS
Buch und beschreibt weitere Spezialflle, z.B. Dreifachwechselwirkung, Beteiligung von metrischen Regres-
soren.
Merkmalskombination Kodiervariablen
Erbliche
Raucher X5 X6 X7 X8 = X5 X6 X9 = X5 X7
Veranlag.
Nein Ja 0 1 0 0 0
Nein Ex 0 0 1 0 0
Nein Nein 0 0 0 0 0
Ja Ja 1 1 0 1 0
Ja Ex 1 0 1 0 1
Ja Nein 1 0 0 0 0
Beim Signifikanztest fr den Interaktionseffekt wird die Nullhypothese geprft, dass die zu X8 bzw. X9 geh-
rigen Regressionsgewichte 8 bzw. 9 beide gleich Null sind.
Die Bedeutung der Regressionskoeffizienten in Modellen mit Interaktionseffekten hngt von den verwen-
deten Kodierungsmethoden ab. Um die Bedeutung fr die Situation in obiger Tabelle zu erlutern, wollen
wir fr die Variablen X1 bis X4 die beliebige, aber fest gewhlte Wertkombination x1, ..., x4 betrachten.
Ferner soll mit Lij das unter diesen Randbedingungen vom Modell fr die Veranlagungs-Raucher-
Kombination (i, j) prognostizierte Logit bezeichnet werden. Mit der Abkrzung
:= 0 + 1x1 + ... + 4x4
schtzt unser Modell fr die sechs (ERBE RAUCHER) Merkmalskombinationen (siehe obige Tabelle)
folgende Logits:
L01 = + 6
L02 = + 7
L03 =
L11 = + 5 + 6 + 8
L12 = + 5 + 7 + 9
L13 = + 5
Nach diesen Vorbereitungen kann die Bedeutung der Regressionskoeffizienten 5 bis 9 przise angegeben
werden:
52
Logistische Regressionsanalyse mit SPSS
5 steht fr den Unterschied zwischen den ERBE-Logits bei Personen aus der RAUCHER - Refe-
renzkategorie 3 (Nein):
5 L13 L03
5 steht also nicht fr den Haupteffekt von ERBE, sondern fr den bedingten Effekt von ERBE ge-
geben eine bestimmte RAUCHER-Kategorie.
6 steht fr den Logit-Unterschied zwischen den RAUCHER-Gruppen 1 und 3 gegeben die ERBE-
Kategorie 0 (Nein):
6 = L01 - L03
6 steht also nicht fr den Kontrast zwischen den RAUCHER-Kategorien 1 und 3, sondern fr den
bedingten Kontrast gegeben eine bestimmte ERBE-Kategorie.
7 steht fr den Logit-Unterschied zwischen den RAUCHER-Gruppen 2 und 3 gegeben die ERBE-
Kategorie 0 (Nein):
7 = L02 - L03
8 beschreibt, wie sich der Logit-Unterschied zwischen den erblich belasteten Rauchern und den erb-
lich belasteten Nichtrauchern unterscheidet vom Logit-Unterschied zwischen den erblich unbelaste-
ten Rauchern und den erblich unbelasteten Nichtrauchern:
8 = (L11 - L13) - (L01 - L03) = (6 + 8) - 6
9 beschreibt, wie sich der Logit-Unterschied zwischen den erblich belasteten Ex-Raucher und den
erblich belasteten Nichtrauchern unterscheidet vom Logit-Unterschied zwischen den erblich unbelas-
teten Ex-Rauchern und den erblich unbelasteten Nichtrauchern:
9 = (L12 - L13) - (L02 - L03) = (7 + 9) - 7
Um bei der SPSS-Prozedur zur binren logistischen Regression eine Wechselwirkung zu spezifizieren,
markiert man in der Variablenliste beide Interaktionspartner, was bei festgehaltener Strg-Taste gelingt.
Dann nimmt man ber den Schalter >a*b> den Wechselwirkungsterm ins Design auf:
Im konkreten Beispiel muss der Prdiktor RAUCHER als kategorial definiert werden. Wenn die Regres-
sionsgewichte die oben diskutierte Bedeutungen haben sollen, mssen die RAUCHER-Kodiervariablen
nach der Abweichungsmethode gebildet werden. Beide Einstellungen nimmt man nach einem Mausklick
53
Logistische Regressionsanalyse mit SPSS
auf den Schalter Kategorial in der Subdialogbox Kategoriale Variablen definieren vor (vgl. Ab-
schnitt 2.7).
Der Wald-Test zur ERBE RAUCHER Wechselwirkung, d.h. zur kombinierten Nullhypothese
8 = 9 = 0
verfehlt mit einer berschreitungswahrscheinlichkeit von 0,227 deutlich die Signifikanzgrenze:
Damit ist wohl das Haupteffektsmodell aus Abschnitt 2.7 die bessere Lsung.
54
Logistische Regressionsanalyse mit SPSS
Merkmalskombination Kodiervariablen
Erbliche
Raucher X5 X6 X7 X8 = X5 X6 X9 = X5 X7
Veranlag.
Nein Ja 0 1 0 0 0
Nein Ex 0 0 1 0 0
Nein Nein 0 -1 -1 0 0
Ja Ja 1 1 0 1 0
Ja Ex 1 0 1 0 1
Ja Nein 1 -1 -1 -1 -1
Beim Signifikanztest fr den Interaktionseffekt wird die Nullhypothese geprft, dass die zu X8 bzw. X9 geh-
rigen Regressionsgewichte 8 bzw. 9 beide gleich Null sind.
Um die Bedeutung der Regressionskoeffizienten zu erlutern, wollen wir fr die Variablen X1 bis X4 die
beliebige, aber fest gewhlte Wertkombination x1, ..., x4 betrachten. Ferner soll mit Lij das unter diesen
Randbedingungen vom Modell fr die Veranlagungs-Raucher-Kombination (i, j) prognostizierte Logit
bezeichnet werden. Mit der Abkrzung
:= 0 + 1x1 + ... + 4x4
schtzt unser Modell fr die sechs (ERBE RAUCHER) Merkmalskombinationen (siehe obige Tabelle)
folgende Logits:
L01 = + 6
L02 = + 7
L03 = - 6 - 7
L11 = + 5 + 6 + 8
L12 = + 5 + 7 + 9
L13 = + 5 - 6 -7 - 8 - 9
Mit L0. bzw. L1. soll das das ungewichtete Mittel der Logits aus den drei erblich unbelasteten bzw. belaste-
ten Zellen bezeichnet werden, also:
1
L0. : L01 L02 L03
3
1
L1. : L11 L12 L13
3
Aus obigen Gleichungen folgt:
L0. =
L1. = 5
Nach diesen etwas mhsamen Vorbereitungen kann die Bedeutung der Regressionskoeffizienten 5 bis 9
przise angegeben werden:
55
Logistische Regressionsanalyse mit SPSS
5 ist die Differenz zwischen dem mittleren Logit aus den drei erblich belasteten und dem mittleren
Logit aus den drei unbelasteten Zellen:
5 L1. L0.
6 beschreibt, wie sich die erblich unbelasteten Raucher vom Mittel aller erblich unbelasteten Perso-
nen unterscheiden:
6 = L01 - L0.
7 beschreibt, wie sich die erblich unbelasteten Ex-Raucher vom Mittel aller erblich unbelasteten Per-
sonen unterscheiden:
7 L02 L0.
8 beschreibt, wie sich die Abweichung der erblich belasteten Raucher vom Gesamtmittel aller be-
lasteten Personen unterscheidet von der Abweichung der erblich unbelasteten Raucher vom Mittel al-
ler erblich unbelasteten Personen:
8 = ( L11 - L1. ) ( L01 - L0. )
9 beschreibt, wie sich die Abweichung der erblich belasteten Ex-Raucher vom Gesamtmittel aller
erblich belasteten Personen unterscheidet von der Abweichung der erblich unbelasteten Ex-Raucher
vom Mittel aller erblich unbelasteten Personen:
9 = ( L12 - L1. ) ( L02 - L0. )
Auf den Signifikanztest zum Wechselwirkungseffekt wirkt sich die nderung der Kodierungstechnik
nicht aus:
56
Logistische Regressionsanalyse mit SPSS
Fr den Haupteffekt RAUCHER erhalten wir im Beispiel unabhngig von der RAUCHER-Kodierung
die identische berschreitungswahrscheinlichkeit 0,004. ndert man jedoch die ERBE-Kodierung durch
eine schlichte Vertauschung der Werte 0 und 1, dann resultiert fr RAUCHER der sehr verschiedene
Wert 0,528:
Wir haben aufwendig die Bedeutung der Regressionskoeffizienten in Abhngigkeit von den gewhlten
Kodierungsmethoden geklrt. Mit dieser Vorarbeit lassen sich auch die dubiosen Haupteffektbeurteilun-
gen zu RAUCHER verstehen. Die mitgeteilte berschreitungswahrscheinlichkeit gehrt zum Wald-Test
zur kombinierten Nullhypothese, dass die zu den RAUCHER-Kodiervariablen X6 und X7 gehrigen Regres-
sionsgewichte 6 bzw. 7 beide gleich Null seien. Diese Hypothese bezieht sich auf zwei bedingte Kontraste
(vgl. Abschnitte 2.8.1.1 und 2.8.1.2) und ist in ihrem Gehalt stark von der ERBE-Kodierung abhngig (wel-
che Kategorie hat den Wert 0).
ber das Subkommando TEST der Prozedur NOMREG (vgl. Abschnitt 3.7) lsst sich diese kombinierte
Nullhypothese explizit formulieren:
NOMREGdbs(BASE=LASTORDER=ASCENDING)BYerberaucherWITHabwigbewegdruckstress
/FULLFACTORIAL
/INTERCEPT=INCLUDE
/TEST(0,0)=ALL0000000100000000;
ALL0000000010000000.
Es resultiert das erwartete Testergebnis:
Damit sollte klar geworden sein, dass man bei einem logistischen Regressionsmodell mit Wechselwir-
kung nicht ber die Haupteffekte der Interaktionspartner reden sollte. Stattdessen sind bedingte Effekte
von Interesse, deren genaue Bedeutung bei kategorialen Regressoren von den verwendeten Kodierungs-
techniken abhngt. Unter bestimmten Voraussetzungen (Zentrierung bei metrischen Regressoren, Ver-
wendung der gewichteten Effektkodierung bei nominalskalierten Regressoren) lsst sich fr einen Inter-
aktionspartner sein mittlerer bedingter Effekt schtzen, den man als Ersatz fr den nicht definierten
Haupteffekt verwenden kann (Baltes-Gtz 2009).
57
Logistische Regressionsanalyse mit SPSS
In der Ausgabe zieht SPSS nach jedem Block Zwischenbilanz und liefert in der Tabelle mit Omnibus-
Tests der Modellkoeffizienten neben der Bezeichnung Block den Likelihood-Quotiententest zum
Paket mit den neu aufgenommenen Regressoren. Fr den zweiten Block erfahren wir:
Da wir in den frheren Analysen vom Basismodell (mit dem Ordinatenabschnitt als einzigem Parameter)
direkt zum vollstndigen Modell bergegangen sind, stimmten die Block- und die Modell-Testergebnis-
se stets berein.
58
Logistische Regressionsanalyse mit SPSS
Vorwrts
Ausgehend vom Modell ohne den fraglichen Block wird in jedem Schritt darber entschieden, ob
ein (weiterer) Regressor aus dem Block aufgenommen werden sollte. Dazu wird fr jeden noch
verfgbaren Regressor die Nullhypothese geprft, dass er nach Aufnahme in das aktuelle Modell
den Regressionskoeffizienten 0 besitzt. Unterschreitet das kleinste dabei ermittelte p-Level das
Aufnahmekriterium (Voreinstellung: 0,05), wird der zugehrige Prdiktor ins Modell integriert.
Nach jeder Aufnahme wird durch analoge Nullhypothesenprfungen darber entschieden, ob vor-
handene Prdiktoren berflssig geworden sind. berschreitet das grte ermittelte p-Level das
Ausschlusskriterium (Voreinstellung: 0,10), wird der zugehrige Prdiktor entfernt. Anschlieend
wird das Modell neu geschtzt und nach weiteren Entlassungskandidaten gesucht. Nach einer Ent-
lassungswelle beginnt die nchste Suche nach einem Aufnahmekandidaten. Das Verfahren endet,
...
o wenn keine weitere Variable das Aufnahme- oder Entlassungskriterium erfllt,
o oder wenn das Verfahren auf ein bereits zuvor betrachtetes Modell stt, also zu zirkulie-
ren droht.
Rckwrts
Zunchst wird der gesamte Block aufgenommen. Dann wird Schritt fr Schritt geprft, ob ein Re-
gressor entfernt werden sollte. Nach jeder Elimination wird geprft, ob ein frher ausgeschlosse-
ner Prdiktor wieder aufgenommen werden sollte. Bei einer relativ kleinen Stichprobe ist ein
Komplettmodell mit vielen Prdiktoren wegen seiner problematischen Przision eventuell ein
schlechter Ausgangspunkt fr die Modellsuche (Noruis 2005, S. 342).
Bei den Signifikanztests zur Aufnahme eines Prdiktors verwendet LOGISTIC REGRESSION grundstz-
lich die mit geringem Rechenaufwand zu ermittelnde Score-Statistik. Bei den Signifikanztests zur Ent-
fernung eines Prdiktors besteht eine Wahlmglichkeit: Neben dem klar zu bevorzugenden Likelihood-
Quotienten-Test bietet SPSS auch den Wald-Test und den so genannten bedingten Test an, wobei es sich
um eine Likelihood-Quotienten - Variante mit reduziertem Rechenaufwand handelt.
Die Auswahlstrategie und das Testverfahren fr die Entfernung von Prdiktoren whlt man ber die Me-
thoden-Liste:
Die kritischen berschreitungswahrscheinlichkeiten fr die Aufnahme bzw. fr den Ausschluss von Pr-
diktoren werden in der Optionen-Subdialogbox eingestellt:
59
Logistische Regressionsanalyse mit SPSS
Um der automatischen Modellsuche eine knifflige Aufgabe zu stellen, erweitern wir die obige Liste der
Prdiktoren (alle auer RAUCHER) um drei irrelevante Variablen, von denen zwei (IRRE1 und IRRE2)
recht hoch mit relevanten Prdiktoren korrelieren, und reduzieren die Stichprobe auf die ersten 150 Flle
(siehe Abschnitt 2.6.3). Wie die folgende Tabelle mit dem Verlauf der VORWRTS-Modellsuche zeigt,
nimmt LOGISTIC REGRESSION eine irrelevante Variable ins Modell auf (IRRE2) und lsst einen rele-
vanten Prdiktor weg (ABWIG):
In der Spalte Wert sind die Prfgren des Score-Tests angegeben, den LOGISTIC REGRESSION als
Aufnahmeprfung verwendet.
60
Logistische Regressionsanalyse mit SPSS
61
Logistische Regressionsanalyse mit SPSS
3.1 Populationsmodell
Im Fall eines nominalskalierten Kriteriums mit J Kategorien ist fr J - 1 Gruppen die Wahrscheinlichkeit
in Abhngigkeit von den Prdiktoren X1 bis XM (intervallskaliert oder durch Kodierung von kategorialen
Variablen entstanden) zu modellieren. Damit liegt auch die Wahrscheinlichkeit fr die letzte Gruppe fest
Statt (wie im binren Fall) direkt Modellgleichungen fr die Wahrscheinlichkeiten P(Y = j) anzusetzen,
starten wir mit einer quivalenten Modellformulierung ber die folgenden J 1 Logit-Gleichungen, wo-
bei im Nenner der Wahrscheinlichkeitsquotienten jeweils die Referenzkategorie J auftritt (vgl. Abschnitt
2.1.3):
1
X1
P(Y j ) X2
ln
P( )
j X, mit j : j 0 , j1 , j 2 , .., jM
, j 1, .., J 1, und X : . (12)
Y J
.
X M
Dies ist eine nahe liegende Generalisierung des binren logistischen Modells, das als Spezialfall (mit J =
2) enthalten ist.
Durch Anwendung der Exponentialfunktion erhalten wir quivalente Gleichungen ber J 1 Wahrschein-
lichkeitsquotienten (odds):
P(Y j ) X X X ... jM X M X X
e j e j 0 j1 1 j 2 2 e j 0 e j1 1 e jM M , j 1, .., J 1
P(Y J )
jm
Zu einem Prdiktor Xm sagt der Exponentialfunktionswert e des Parameters jm aus, um welchen
Faktor sich der j-te Wahrscheinlichkeitsquotient ndert, wenn sich Xm um eine Einheit erhht, und alle
anderen Prdiktoren unverndert bleiben.
jm ( X m 1) jm X m jm jm X m jm
e e e e
Im binren Fall haben wir von der Effektgre e m eines Prdiktors gesprochen; im multinomialen Fall sind
J 1 Effektgren e jm vorhanden (vgl. Abschnitt 2.6).
1
P(Y j ) J 1
P(Y j ) J 1
1
1 1 e j
j 1 X
P(Y J ) J 1
P(Y J ) P(Y J ) j 1 P(Y J )
1 e
j 1 jX
j 1
62
Logistische Regressionsanalyse mit SPSS
jX
jX e
P(Y j ) e P(Y J ) J 1
, j 1, .., J 1 (13)
1 e
jX
j 1
Diese Darstellungen der Wahrscheinlichkeiten liefern sofort wiederum das Logit-Modell (12):
e
jX
J 1
X
1 e j
P(Y j )
ln ln j 1
1
ln e j X j X, j 1, .., J 1
P(Y J )
J 1
X
1 e j
j 1
3.2 Stichprobenmodell
Beobachtet man bei N Fllen mit den Prdiktorwertekombinationen xi jeweils die Kriteriumskategorie,
kommt folgendes MLR-Stichprobenmodell zum Einsatz:
Es sind N unabhngige Zufallsvariablen Yi mit Werten aus der Menge {1, 2, .., J} vorhanden.
Fr die Wahrscheinlichkeiten der J Kriteriumskategorien gilt bei Yi:
e j xi
J 1 fr j 1, .., J 1
1 e j xi
P(Yi j ) j 1
mit j x i j 0 j1 xi1 j 2 xi 2 ... jM xiM
1
J 1
fr j J
1 e
j xi
j 1
Bei K mehrfach besetzten Prdiktorwertekombination kann man die Verhltnisse in der Stichprobe auch
so beschreiben: Wenn fr die Prdiktorwertekombination xk mit hk die Gruppenstrke, mit ~ ykj die beo-
~
bachtete Hufigkeit der j-ten Kriteriumskategorie und mit Ykj die zugehrige Zufallsvariable bezeichnet
wird, dann sind bei unabhngigen Beobachtungen die J-dimensionalen Zufallsvariablen
~ ~ ~ ~
Yk : Yk1 , Yk 2 ,..., YkJ , k 1, ..., K
M(hk ; k 1 , k 2 ,..., kJ ) - multinomialverteilt, und fr die Wahrscheinlichkeiten kj behauptet das Modell
der multinomialen logistischen Regression:
j xk
e 1
kj J 1
, j 1, .., J 1, und kJ J 1
1 e 1 e
j xk j xk
j 1 j 1
Bei zentralen Ergebnissen einer logistischen Regressionsanalyse (z.B. bei der Parameterschtzung) beste-
hen zwischen Algorithmen fr individuelle oder gruppierte Daten jedoch nur rechentechnische Unter-
schiede. Im Manuskript wird speziell darauf hingewiesen, wenn mehrfach besetzte Prdiktorwertekombi-
nationen erforderlich oder schdlich sind.
Wie schon in Abschnitt 2.1.2 erlutert, ist die logistische Regressionsanalyse auch dann anwendbar, wenn
keine Zufallsstichprobe aus der Gesamtpopulation vorliegt, sondern aus den J Teilpopulationen zu den
63
Logistische Regressionsanalyse mit SPSS
Kriteriumsausprgungen jeweils eine Stichprobe mit individueller Quote gezogen wurde. Dieses Vorge-
hen kommt z.B. dann in Frage, wenn sich die Teilpopulationen in der Gre erheblich unterscheiden.
Zur erforderlichen Stichprobengre knnen die Angaben aus Abschnitt 2.1.2 bernommen werden.
Ist die Unabhngigkeit sichergestellt und die Stichprobengre ausreichend, kann bei einem MLR-Modell
also nur die Linearitt in den Logit-Gleichungen (12) verletzt sein.
Wir werden im weiteren Verlauf von Abschnitt 3 ohne Beschrnkung der Allgemeinheit aus Grnden der
terminologischen Vereinfachung meist den Fall J = 3 betrachten, so dass zwei Vektoren 1 und 2 mit
zusammen 2(M + 1) Regressionskoeffizienten beteiligt sind.
3.3 Anwendungsbeispiel
Wie schon im binren Fall wird auch zur Demonstration der multinomialen logistischen Regression ein
knstlicher Datensatz verwendet. Zwar kommt hier weniger Spannung auf als bei echten Daten, doch
beim Erzeugen der Daten beschftigt man sich grndlich mit den vom Modell behaupteten empirischen
Gesetzmigkeiten und gewinnt einen guten Eindruck von den potentiellen Einsatzmglichkeiten des
Verfahrens.
Wir stellen uns vor, dass in einer Studie Bewohner einer Kleinstadt nach ihrer Vorliebe fr eine von drei
Kneipen befragt werden. Die so entstehende nominalskalierte Kriteriumsvariable mit drei Kategorien soll
den Namen KNEIPE erhalten. Auerdem verwenden wir
als kategorialen Prdiktor eine fingierte Geschlechtsvariable (GESCHL) mit folgender Kodierung:
o 1: Frau
o 0: Mann
als metrischen Prdiktor eine fingierte Altersvariable (ALTER)
Im Vergleich zur Referenzkneipe Nummer 3 spricht die erste Kneipe eher Publikum reiferen Alters an, so
dass der logarithmierte Wahrscheinlichkeitsquotient
P( KNEIPE 1)
ln
P( KNEIPE 3)
mit dem Alter wchst. In der zweiten Kneipe fhlen sich vor allem junge Leute wohl, so dass deren Prfe-
renz gegenber der dritten Kneipe
P( KNEIPE 2)
ln
P( KNEIPE 3)
mit dem Alter sinkt Auerdem soll die zweite Kneipe noch eine spezielle Attraktion fr Frauen besitzen,
z.B. durch einen Preisnachlass auf alle Getrnke.
Wir legen in unserer knstlichen Population ber zwei Logit-Gleichungen das folgende wahre Modell
fest:
P( KNEIPE 1)
ln 3,5 0,07 ALTER
P( KNEIPE 3)
P( KNEIPE 2)
ln 1,5 0,05 ALTER 1,3 GESCHL
P( KNEIPE 3)
Gem Abschnitt 3.1 gilt z.B. fr den Effekt (das odds ratio) von Geschlecht in der zweiten Gleichung:
64
Logistische Regressionsanalyse mit SPSS
ber den Schalter Statistiken aktivieren wir noch die folgenden optionalen Ausgaben:
Klassifikationsmatrix
Anpassungsgte
Statt die (dichotome!) GESCHL-Variable (wie schon den Prdiktor ERBE im DBS-Beispiel) als Kovari-
ate zu behandeln, kann sie auch als Faktor einbezogen werden. Dabei kommt es zu sachlich irrelevanten
nderungen der Schtzergebnisse: Die GESCHL-Regressionskoeffizienten in den beiden Logit-Glei-
chungen wechseln das Vorzeichen, und bei den Konstanten kommt es zu kompensierenden nderungen.
Mit der folgenden GESCHL-Kodierung
1: Frau
2: Mann
lassen sich die oberflchlich Abweichungen der Schtzergebnisse verhindern. NOMREG verwendet nm-
lich bei nominalskalierten Prdiktoren die Indikator- (alias Dummy-) Kodierung (vgl. Abschnitt 2.7), wo-
bei die Kategorie mit dem hchsten Wert als Referenz fungiert, also den Wert 0 bei allen Kodiervariablen
erhlt. Bei der eben vorgeschlagenen GESCHL-Rekodierung resultiert letztlich eine Indikatorvariable mit
den erwnschten Werten:
1: Frau
0: Mann
65
Logistische Regressionsanalyse mit SPSS
Weil die Behandlung als Faktor bei dichotomen Regressoren keinen Vorteil bringt, kann man sich den
Aufwand sparen.
3.4 Parameterschtzung
Im Unterschied zu Abschnitt 2.3.1 betrachten wir anschlieend keine Individualdaten, sondern Prdiktor-
wertekombinationen, weil die SPSS-Prozedur NOMREG grundstzlich mit aggregierten Daten rechnet.
Daher gelangen wir zu einer Likelihood-Funktion, die sich leicht (um eine Konstante) vom Gegenstck
fr Individualdaten unterscheidet, sofern tatschlich mehrfach besetzte Prdiktorwertekombinationen vor-
handen sind.
Fr die Prdiktorwertekombination xk werde mit hk die Gruppenstrke und mit ~ ykj die beobachtete Hu-
~
figkeit der j-ten Kriteriumskategorie bezeichnet, die als Realisation einer Zufallsvariable Ykj aufgefasst
werden kann. Fr eine konkrete Stichprobenrealisation ( ~ y12 , ~
y11 , ~ y13 , ~
y21 ,..., ~ yK 2 , ~
y K1 , ~ y K 3 ) der Zufallsvari-
~
ablen Ykj zu K Prdiktorwertekombinationen und 3 Kriteriumskategorien ergibt sich aus dem Modell der
multinomialen logistischen Regression folgende Wahrscheinlichkeit:
~
yk 1 ~
yk 2 ~
yk 3
K
hk ! e 1xk e 2x k 1
~ ~ ~
k 1 y k 1! y k 2 ! y k 3 ! 1 e
2xk
e
2xk 1 e 1xk e 2xk
1 e e
1x k 1x k
Auch in Abschnitt 2.3.1 zum binren Modell htte man analog die Wahrscheinlichkeit
~ ~
P(Y ~ y , ..., Y ~
y ) 1 1 K K
an Stelle von
P(Y1 y1 , Y2 y2 , ..., YN y N ), yi {0,1}
betrachten knnen. Dort wurden nicht zuletzt mit Rcksicht auf die SPSS-Prozedur LOGISTIC REG-
RESSION Individualdaten bevorzugt. Beide Anstze unterscheiden sich nur um eine triviale Konstante,
doch sorgen die unterschiedlichen Likelihood-Berechnungen fr einige Verwirrung, so dass wir das The-
ma in Abschnitt 3.8 noch einmal aufgreifen.
Mit den frei schtzbaren Vektoren b1 und b2 an Stelle von 1 und 2 erhalten wir fr das multinomiale
Modell die folgende Likelihood-Funktion:
~y ~
yk 2 ~
yk 3
e b1xk e b 2x k
k1
K
h! 1
L(b1 , b 2 ) : ~ ~ k ~ b2xk b 2x k 1 e b1x k e b 2 x k
k 1 y k 1! y k 2 ! y k 3 ! 1 e e 1 e e
b1x k b1x k
Gesucht sind Parametervektoren 1 10 , 11 , ..., 1M und 2 20 , 21 , ..., 2 M , welche die Likelihood-
Funktion maximieren. Um die Extremwertbestimmung zu erleichtern, die mit einem iterativen Verfahren
(z.B. Newton-Raphson) erfolgt, geht man zum Logarithmus ber:
LLb1 , b 2 : lnLb1 , b 2
K h! K e b1x k ~ e b 2x k ~ 1
ln ~ ~ k ~ ~ y k1 ln b 2x k
y k2 ln y k 3 ln
k 1 y k1! y k 2 ! y k 3 ! k 1 1 e e 1 e e 1 e e 2 k
b1x k b1x k b 2x k b1x k b x
K K
!
h!
ln ~ ~ k ~ ~
! !
y k 1 b1 x k ~
y k 2 b 2 x k hk ln 1 e b1x k e b 2xk
k 1 k1 k 2 k 3 k 1
y y y
Als Ergebnis erhlt man die ML-Schtzungen der Parameter, aus denen sich sofort die ML-Schtzungen der
Wahrscheinlichkeiten P(Y = j) zu den Prdiktorwertekombination xk ergeben.
66
Logistische Regressionsanalyse mit SPSS
Fr unser Kneipenbeispiel mit den bekannten Populationsverhltnissen liefert die Zufallsstichprobe fol-
gende Schtzer:
Trotz der nicht allzu groen Stichprobe liegen alle Schtzer relativ nahe bei den wahren Populationspa-
rametern.
Weil unser Modell garantiert stimmt, drfen wir uns schon vor einer Modellgltigkeitsprfung mit der
Parameterinterpretation beschftigen. ber die erste Logit-Gleichung erfahren wir aus den Schtzergeb-
nissen, dass bei einem Alterszuwachs von 10 Jahren das Wahrscheinlichkeitsverhltnis
P( KNEIPE 1)
P( KNEIPE 3)
um den Faktor e10 0,067 1,95 wchst.
Zum Einfluss des Prdiktors GESCHL knnen wir aus den Schtzergebnissen fr die zweite Logit-
Gleichung direkt ablesen, dass bei Frauen das Wahrscheinlichkeitsverhltnis
P( KNEIPE 2)
P( KNEIPE 3)
ungefhr um den Faktor 2,96 hher liegt als bei Mnnern.
3.5 Modellgltigkeit
Wie Sie bereits wissen, sind Modellgltigkeitstests ber die Pearson- bzw. Devianz-Statistik nur bei Da-
ten mit mehrfach besetzten Prdiktorwertekombinationen mglich. Damit ist bei unseren Daten nicht zu
rechnen, weil mit ALTER ein relativ przise gemessener metrischer Regressor beteiligt ist. SPSS kriti-
siert, dass bei zahlreichen Prdiktorwertekombinationen leere Kriteriumszellen auftreten:
Kritisch fr die Aussagekraft der Modellgltigkeitstests ber die Pearson- bzw. Devianz-Statistik sind
zwar nicht geringe beobachtete Hufigkeiten, sondern geringe erwartete Hufigkeiten, doch sprechen
leere Kriteriumszellen bei zahlreichen Prdiktorwertekombinationen gegen ausreichende erwartete Hu-
figkeiten unter dem zu prfenden Modell. Die eigentlich unzulssigen Tests kommen aber trotzdem zum
korrekten Ergebnis:
67
Logistische Regressionsanalyse mit SPSS
Durch dieses Beispiel sollen Sie aber keinesfalls dazu ermuntert werden, die beiden Tests unverdrossen
auf Individualdaten (mit berwiegend nur einfach besetzten Prdiktorwertekombinationen) anzuwenden.
Die bessere Alternative besteht darin, fr jede Logit-Gleichung ein binres Partialmodell mit einer geeig-
net eingeschrnkten Stichprobe schtzen zu lassen, um den hier verfgbaren Hosmer-Lemeshow-Test
nutzen zu knnen (vgl. Hosmer & Lemeshow 2000, S. 281). Dieses Verfahren ist kaum bedenklich, weil
aus binren Partialmodellen konsistente1 Schtzer resultieren, die in vielen Situationen sogar relativ effi-
zient2 sind (Hosmer & Lemeshow 2000, S. 278). In unserem Fall resultiert fr die erste Logit-Gleichung:
Weil die globale Nullhypothese in zwei Logit-Gleichungen jeweils zwei Parameter (zu ALTER und
GESCHL) negiert, resultiert eine approximativ 2- verteilte Prfgre mit 4 Freiheitsgraden.
Die Pseudo-R2-Statistiken basieren auf den Likelihood-Werten verschiedener Modelle und sind im multi-
nomialen Fall analog zum binren einsetzbar (vgl. Abschnitt 2.5.2). Wir erhalten:
1
Konsistente Schtzer kommen den wahren Werten mit wachsender Stichprobengre beliebig nahe.
2
Effiziente Schtzer besitzen im Vergleich zu potentiellen Alternativen eine relativ kleine Varianz.
68
Logistische Regressionsanalyse mit SPSS
Das Publikum der Kneipe 3 kann offenbar mit den verfgbaren Prdiktoren schlecht klassifiziert werden.
ber das NOMREG-Subkommando TEST, dessen Leistungen nur per Syntax verfgbar sind, lassen sich
Hypothesen ber beliebige Linearkombinationen von Parametern prfen. Z.B. kann man:
zwei (oder mehr) Parameter auf Identitt testen,
einen Parameter gegen ein speziellen Wert testen (statt gegen 0),
mehrere Hypothesen simultan testen.
Mit folgender Syntax
NOMREG
kneipeWITHaltergeschl
/MODEL/INTERCEPT=INCLUDE/PRINT=FITPARAMETERSUMMARYLRT
/TEST(2)=ALL001.
wird fr das Kneipenbeispiel die Hypothese
H0: 2G = 2
getestet, die einen bestimmten Geschlechtseffekt in Logit-Gleichung 2 behauptet. NOMREG protokolliert
zunchst seine Interpretation der Syntax:
In der folgenden Tabelle interessieren nur die Ergebnisse fr die zweite Logit-Gleichung:
69
Logistische Regressionsanalyse mit SPSS
Der Wald-Test scheitert knapp an der Signifikanzgrenze, so dass die (tatschlich falsche) Nullhypothese
nicht abgelehnt werden kann.
Neben den separaten Wald-Tests fr die einzelnen Logit-Gleichungen liefert NOMREG auch einen si-
multanen Wald-Test ber alle Gleichungen, der aber im Beispiel nicht interessiert:
Nhere Informationen zum NOMREG-Subkommando TEST findet man in der SPSS-Hilfe ber
Hilfe > Befehlssyntax-Referenz > NOMREG
~
yk 1 ~y ~
y
e b1x k e b2xk
k2
h! 1
K K k3
~ ~k ~
k 1 y k 1! y k 2 ! y k 3 ! k 1 1 e
b1x k
e b 2xk e b1x k e b 2x k 1 e b1x k e b 2xk
1
Konstante Kern
Weil der linke Faktor offenbar nicht von den Parametern abhngt und daher sowohl bei der ML-
Schtzung wie auch bei Modellvergleichen irrelevant ist, lassen manche Programme bzw. Autoren diese
multinomiale Konstante unter den Tisch fallen und beschrnken sich auf den (oft als Kern bezeichneten)
rechten Faktor. Ist keine einzige Prdiktorwertekombination mehrfach besetzt (K = N), dann ist die multi-
nomiale Konstante gleich 1 und ihre Bercksichtigung folglich irrelevant.
Auch die von LOGISTIC REGRESSION praktizierte Verarbeitung auf Individualdaten und Betrachtung
~ ~ ~
der Wahrscheinlichkeit P(Y1 y1 , Y2 y 2 , ..., YN y N ) an Stelle von P( Y1 = ~
y1 , Y2 = ~
y 2 , .., YK = ~
y K ) fhrt
zu einer Likelihood-Funktion ohne das binomiale Analogon zur obigen Konstanten.
Im folgenden Beispiel aus Hosmer & Lemeshow (2000, S. 266) zum Effekt von familirer Erfahrung mit
Brustkrebs (Variable HIST) auf die Teilnahme an der Frherkennung per Mammographie (Variable ME)
70
Logistische Regressionsanalyse mit SPSS
liefert die SPSS-Prozedur NOMREG u.a. folgende Tabelle mit -2LL - Werten:
Bei Hosmer & Lemeshow (2000, S. 267) findet sich demgegenber eine Log-Likelihood von -396,17.
Es zeigt sich, dass die SPSS-Prozedur NOMREG die mit (-2) vormultiplizierte komplette Likelihood
ausgibt, whrend sich Hosmer & Lemeshow auf den Kern beschrnken:
LL(Parameter ) ln(multinomialeKonstante) ln( Kern)
368! 44!
ln ln( Kern)
220! 85! 63! 14! 19! 11!
386,341 396,17
9,829
71
Logistische Regressionsanalyse mit SPSS
Modells getestet werden. Begrndet man das kumulative Logit-Modell durch ein lineares Hintergrund-
modell fr eine metrische Variable , aus der die ordinale Kriteriumsvariable Y durch vergrberndes
Messen hervorgegangen ist, dann erscheint die Annahme paralleler Regressionen als sehr plausibel (siehe
unten).
Analog zum binren Fall kann man die Modellformulierung in Formel (14) quivalent auch durch die
folgenden Gleichungssysteme ber Odds (Wahrscheinlichkeitsquotienten) oder Logits (logarithmierte
Wahrscheinlichkeitsquotienten) ersetzen, die u.a. bei der Interpretation der Regressionskoeffizienten von
Nutzen sind:
P(Y j ) X X X ... X
e j e j 1 1 2 2 M M e j e 1 X1 e 2 X 2 e M X M , j 1, .., J 1
P(Y j )
P(Y j )
ln j X, j 1, .., J 1
P(Y j )
Auch das ordinale logistische Modell kann aus einem linearen Modell fr eine latente kontinuierliche
Variable mit logistisch verteiltem Fehleranteil hergeleitet werden (vgl. Abschnitt 2.1.4), wobei die ma-
nifeste Kriteriumsvariable Y aus der latenten Variablen durch ein Treppenfunktions-Messmodell mit
Schwellenwerten hervorgeht:
0 1 X 1 2 X 2 ... M X M (15)
1, falls 0 1
2, falls 1 2
Y .
.
J , falls J
J 1
Wie im binren Fall gilt ausdrcklich, dass die Unterstellung einer solchen Herkunft keine Voraussetzung fr
die Verwendung des ordinalen logistischen Modells ist.
Im folgenden Beispiel hngt die latente Kriteriumsvariable von einem Prdiktor X ab und geht durch
vergrbernde Messung in ein manifestes Kriterium mit vier Stufen ber:
73
Logistische Regressionsanalyse mit SPSS
Die farblich gekennzeichneten Flchenanteile stehen fr die Wahrscheinlichkeiten der vier Y-Kategorien
bei einem bestimmten X-Wert. Offenbar sinkt mit wachsendem X-Wert z.B. die Wahrscheinlichkeit der
ersten Y-Kategorie, whrend fr die vierte Y-Kategorie das Gegenteil gilt.
Analog zur BLR-Situation besteht auch im OLR-Modell mit latentem Hintergrund eine einfache Bezie-
hung zwischen den -Koeffizienten in der Regressionsgleichung fr und den Koeffizienten im Modell
(14). Fr die Wahrscheinlichkeit
P(Y > j) = P( > j), j = 1, 2, , J - 1
gilt:
P( j ) P( 0 j 1 X 1 2 X 2 ... M X M )
Wie in Abschnitt 2.1.4 erhalten wir:
j 1 X 1 2 X 2 ... M X M
P( j ) P 0
Mit den Definitionen:
j 0
j :
(16)
m
m : , m 1, ..., M
gilt:
P( j ) P( j X)
Die Wahrscheinlichkeit dafr, dass die Zufallsvariable einen Wert kleiner oder gleich (-j + X) an-
nimmt, ist identisch mit dem Wert ihrer Verteilungsfunktion an dieser Stelle:
X
e j
P( j X) X
1 e j
Bei Betrachtung der Wahrscheinlichkeit P(Y j) ergibt sich Modell (14):
j X j X
e 1 e
P(Y j ) 1 P(Y j ) 1 j X
j X
j X
1 e 1 e 1 e
Wir haben gerade gesehen, dass die aus einem latenten Modell abgeleiteten Koeffizienten der j-ten Glei-
chung des kumulativen Logit-Modells mit Ausnahme des konstanten Terms nicht von der Wahl des
Schwellenwertes j abhngen. Weil sich die J - 1 Gleichungen des kumulativen OLR-Modells nur durch
den zur Dichotomisierung der latenten Variablen verwendeten Schwellenwert j unterscheiden, ergibt sich
unter dieser Perspektive zwingend das kumulative Logit-Modell (14) mit einem einzigen -Vektor.
Aus der Annahme paralleler Regressionen folgt fr zwei feste Prdiktorwertekombinationen x1 und x2,
dass der Quotient aus ihren Wahrscheinlichkeitsverhltnissen (ihr odds ratio) nicht von der Grenzkatego-
rie j abhngt:
P(Y j | X x1 ) P(Y j | X x1 )
e ( x2 x1 )
P(Y j | X x 2 ) P(Y j | X x 2 )
Daher wird das kumulative Logit-Modell in der angelschsischen Literatur auch als proportional-odds
model - Modell bezeichnet.
74
Logistische Regressionsanalyse mit SPSS
4.2 Anwendungsbeispiel
Als Beispiel greifen wir die Risikofaktoren fr Durchblutungsstrungen wieder auf (Datei DBS.SAV,
siehe Abschnitt 2.2), wobei aber ein dreistufiges Kriterium (Variable DBS3) verwendet wird: 1
0 Keine diagnostizierte Durchblutungsstrung
1 Periphere Durchblutungsstrungen
2 Koronare Herzkrankheit, Schlaganfall oder Vorstufe
Abweichend von den in Abschnitt 2.2 beschriebenen Verhltnissen steht in der knstlichen Population
das manifeste und ordinale Kriterium DBS3 in folgender Beziehung zur latenten und stetigen Variablen
:
0, falls 1
DBS3 1, falls 1 5
2, falls 5
Hier wird der dichotome Prdiktor ERBE als Kovariate behandelt. Deklariert man ihn als Faktor,
kommt es zu sachlich irrelevanten nderungen der Schtzergebnisse: Der Regressionskoeffizient wech-
selt das Vorzeichen, und bei den Schwellen kommt es zu kompensatorischen nderungen.
1
Aufgrund der BLR-Historie haben die Kategorien unseres Kriteriums numerische Werte ab 0, was eine leichte Diskrepanz
zur obigen Formulierung des allgemeinen OLR-Modells schafft (mit j = 1, 2, .., J).
75
Logistische Regressionsanalyse mit SPSS
ber den Schalter Ausgabe fordern wir zustzlich den Parallelittstest fr Linien an:
4.3 Parameterschtzung
Die Parameterschtzungen werden wie blich nach dem ML-Prinzip ermittelt. Weil sich keine wesentli-
chen Unterschiede zur Situation bei der BLR und der MLR ergeben, ersparen wir uns diesmal die For-
meln. Fr unser Beispiel mit bekannten Populationsparametern liefert die Zufallsstichprobe folgende
Schtzer:
76
Logistische Regressionsanalyse mit SPSS
SPSS bezeichnet die geschtzten Ordinatenabschnitte (im Beispiel 1 und 2 ) als Schwellen, sieht also
darin offenbar Schtzer fr die Trennwerte 1 und 2, die den bergang von zu Y definieren. Allerdings
sind die Trennwerte nicht ohne weiteres aus den Ordinatenabschnitten j des OLR-Modells zu gewinnen.
In der folgenden Bestimmungsgleichung (siehe oben)
j 0
j j j 0
stecken zwei Identifikationsprobleme:
Das Fehlergewicht ist unbekannt.
Auch bei bekanntem Fehlergewicht knnte man aus j nicht gleichzeitig den Ordinatenabschnitt
0 und den Schwellenwert j berechnen.
Diese Identifikationsprobleme sind nur durch Annahmen zu lsen. Weil die Statistik-Programmpakete
dabei verschiedene Wege gehen, ermitteln sie bei gleichen Daten unterschiedliche Schtzwerte fr die
Schwellen (vgl. Long 1997, S. 122). SPSS kommt ber die Annahmen
= 1
0 = 0
zum Ergebnis:
j = j
Mit dem (in echten Studien natrlich nicht vorhandenen) Wissen ber 0 ( = -4) und (= 1,5) liefert das
geschtzte Modell andere Schwellen, die recht nahe bei den wahren Werten (1 und 5) liegen:
1 1 0 2,745 1,5 4 0,118
Weil unser Modell garantiert stimmt, drfen wir uns schon vor einer Diskussion der Modellgltigkeits-
prfung mit der Parameterinterpretation beschftigen. Wir erfahren z.B., dass die Wahrscheinlichkeits-
quotienten
P( DBS 0) P( DBS 1)
bzw.
P( DBS 0) P( DBS 1)
bei Rauchern um den Faktor e -2,59 0,075 kleiner eingeschtzt werden als bei Nichtrauchern. Bei jeder
beliebigen DBS-Dichotomisierung ist also die geschtzte Wahrscheinlichkeit der gesnderen Seite bei
Rauchern deutlich kleiner. Bei dieser Interpretation ist zu beachten:
PLUM arbeitet bei nominalskalierten Regressoren mit der Indikator- bzw. Dummy-Kodierung
und verwendet die letzte Kategorie als Referenz. So resultieren im Beispiel fr den Faktor RAU-
CHER zwei Kodiervariablen mit zugehrigen Parametern, welche die erste (Raucher) bzw. zweite
(Ex-Raucher) Kategorie mit der dritten Kategorie (Nichtraucher) vergleichen. Folglich kann der
z.B. der Logit-Unterschied zwischen Rauchern und Nichtrauchern direkt als 6 aus den Schtzer-
gebnissen abgelesen werden. In der folgenden (mit LOGISTIC REGRESSION erzeugten) Tabelle
werden die Indikator-Kodiervariablen beschrieben:
77
Logistische Regressionsanalyse mit SPSS
Beim Berechnen der Effektgren ist zu beachten, dass die -Koeffizienten mit einem negativen
Vorzeichen in das OLR-Modell eingehen.
Fr ein um 3 Skalenpunkte hheres Ma an Krperbewegung wird fr die Wahrscheinlichkeitsverhltnis-
se eine nderung um den Faktor e3 0,802 11,09 in der gesunden Richtung geschtzt.
4.4 Modellgltigkeit
4.4.1 Parallelitt
Zunchst wird im Parallelittstest wird das OLR-Modell in Gleichung (14) mit einer liberalisierten Vari-
ante verglichen, die fr jede Logitgleichung einen eigenen Vektor j mit Regressionsgewichten schtzt:
j j X
P(Y j )
e
j j X
, mit j : j1 , j 2 , .., jM , j 1, .., J 1
1 e
Bei einem dreistufigen Kriterium (mit zwei Logit-Gleichungen) prft der Parallelittstest die folgende
Nullhypothese:
H 0 : 11 21 , 12 22 , ..., 1M 2 M
Weil durch die Restriktionen im parallelen Modell gerade M Parameter eingespart werden, erhalten wir in
unserem Beispiel eine Prfgre mit 7 Freiheitsgraden:
Der Test spricht deutlich fr die Annahme paralleler Regressionen, so dass die Globalbeurteilung des
OLR-Modells fr unser Beispiel insgesamt positiv ausfllt.
Im Fall einer unhaltbaren Parallelittsannahme kann eventuell eine Modifikation des Modells Abhilfe
schaffen (z.B. die nichtlineare Transformation eines metrischen Prdiktors). Sollte die in Abschnitt 4.8
diskutierte Homogenittsannahme problematisch sein, kann mit SPSS-PLUM ein Lokations-Skalen -
Modell geschtzt werden.
Bei OConnell (2006, S. 47ff) werden weitere Optionen diskutiert, z.B.:
Separate Betrachtung der binren Bestandteile von Modell (14)
So erhlt man allerdings weder ein sparsames Modell, noch eindeutige Schtzungen zu den Wahr-
scheinlichkeiten der Kriteriumsausprgungen.
Verwendung der multinomialen logistischen Regression
Dabei wird allerdings die ordinale Struktur des Kriteriums ignoriert.
78
Logistische Regressionsanalyse mit SPSS
Durch dieses Beispiel sollen Sie aber keinesfalls dazu ermuntert werden, die beiden Tests auf Individual-
daten (mit berwiegend einfach besetzten Prdiktorwertekombinationen) anzuwenden. Ersatzweise wird
vorgeschlagen, die Gltigkeit des OLR-Modells (14) in zwei Schritten zu testen:
Man bildet fr jede einzelne Logit-Gleichung durch geeignete Dichotomisierung des Kriteriums
ein binres Modell und nutzt den hier verfgbaren Hosmer-Lemeshow - Test (siehe Abschnitt
2.4.1.3).
Sind die dichotomen Modelle akzeptiert, ist noch die Annahme paralleler Regressionen zu prfen.
Dazu bietet die PLUM-Prozedur einen Test, der auch bei Individualdaten anwendbar ist (siehe un-
ten).
Fr das erste binre Partialmodell ist in unserem Beispiel folgendes Kriterium zu verwenden:
1, falls DBS3 0
DBS2a
0, sonst
Abgesehen von der (letztlich beliebigen) Kategoriennummerierung handelt es sich natrlich um dasselbe
Kriterium, das wir im Zusammenhang mit der BLR untersucht haben. Wie wir bereits wissen, akzeptiert
der Hosmer-Lemeshow-Test dieses binre Modell:
79
Logistische Regressionsanalyse mit SPSS
Weil von der globalen Nullhypothese 7 Regressionsgewichte auf 0 fixiert werden, resultiert eine appro-
ximativ 2- verteilte Prfgre mit 7 Freiheitsgraden.
Auch bei der OLR knnen die in Abschnitt 2.5.2 diskutierten Pseudo-R2-Statistiken berechnet werden,
die auf den Likelihood-Werten verschiedener Modelle basieren. Wir erhalten:
Leider gibt die Prozedur PLUM keine Klassifikationstabelle aus, kann aber immerhin die vorhergesagte
Kategorie in eine neue Variable schreiben (Subdialogbox Ausgabe):
Nach dieser Vorarbeit erhlt man eine brauchbare Klassifikationstabelle ber den folgenden Menbefehl
Analysieren > Deskriptive Statistiken > Kreuztabellen
ber die Subdialogbox Zellen kann man auch noch die Prozentanteile richtiger Klassifikationen berech-
nen lassen:
80
Logistische Regressionsanalyse mit SPSS
Im Beispiel werden 148 (83 + 40 + 25) von 200 Fllen (= 74 %) richtig eingeordnet. Einen realistischen
Eindruck von der Diagnoseleistung eines Modells vermittelt allerdings nur eine Kreuzvalidierung, die bei
einer OLR mit SPSS leider etwas Handarbeit erfordert: Man berechnet fr die Flle der Kreuzvalidie-
rungsstichprobe mit Hilfe der geschtzten Parameter die prognostizierten Wahrscheinlichkeiten der Krite-
riumskategorien und whlt die Kategorie mit dem grten Wert als Modellprognose.
81
Logistische Regressionsanalyse mit SPSS
Anschlieend erscheinen separate Wald-Tests fr die einzelnen Kontraste bzw. Parameter, die im konkre-
ten Beispiel aber keine Neuigkeiten enthalten:
Im simultanen Wald-Test ber beide Parameter wird die RAUCHER-Nullhypothese deutlich verworfen:
Nhere Informationen zum PLUM-Subkommando TEST findet man in der SPSS-Hilfe ber
Hilfe > Befehlssyntax-Referenz > NOMREG
ber das Kontrollkstchen Zellinformation in der Ausgabe-Subdialogbox kann man PLUM dazu be-
wegen, die Pearson-Residuen des Modells zu tabellieren. Diese sind jedoch nur bei mehrfach besetzten
Prdiktorwertekombinationen sinnvoll zu interpretieren (siehe Abschnitt 2.4.2.1), so dass wir bei unserem
Beispiel auf eine Inspektion verzichten.
82
Logistische Regressionsanalyse mit SPSS
Die Nullhypothese zum Prdiktor STRESS kann im Likelihood-Quotienten-Test nicht verworfen werden:
Die hheren Pseudo-R2 Statistiken sprechen nicht fr eine berlegenheit des multinomialen Modells,
weil bei deren Berechnung die 7 zustzlichen Parameter (im Vergleich zum OLR-Modell) nicht in Rech-
nung gestellt werden:
83
Logistische Regressionsanalyse mit SPSS
eine Kovarianzanalyse mit unseren Daten gerechnet. Aufgrund der bei DBS3 im Vergleich zur latenten
Variablen erheblich eingeschrnkten Standardabweichung (0,77 versus 4,74) sind die geschtzten Reg-
ressionskoeffizienten betragsmig deutlich kleiner als die wahren Parameter im Modell fr die latente
Variable, sie stehen jedoch untereinander in plausiblen Relationen:
Zwar sind die Ergebnisse trotz der grob verletzten Normalverteilungsannahme insgesamt nur mig ver-
zerrt, doch wird wie bei der MLR-Analyse der Effekt des Prdiktors STRESS bersehen: Die bekann-
termaen falsche Nullhypothese kann nicht verworfen werden. Der (unkorrigierte) Determinationskoeffi-
zient liegt mit 0,597 ungefhr im selben Bereich wie die Pseudo-R2 - Mae der OLR.
Hier wird angenommen, dass die Residualvariable fr jede Prdiktorwertekombination eine logistische
2
Verteilung mit der identischen Varianz besitzt (Homogenittsannahme), wobei der Parameter fr
3
die Anpassung an die Residualvarianz in der aktuell untersuchten Population zustndig ist. Wie die weite-
re Argumentation in den Abschnitten 2.1.4 und 4.1 zeigt, geht neben m auch in den Parameter m des
Modells fr das manifeste ordinale Kriterium ein:
m
m : , m 1, ..., M
Im bisherigen (homoskedastischen) Modell kann der Parameter nicht geschtzt werden.
Wird eine Studie in zwei Populationen (mit jeweils gltiger Homogenittsannahme) durchgefhrt, liegen
eventuell zwei verschiedene - Werte vor. Findet man fr einen Regressionskoeffizienten in beiden Po-
pulationen verschiedene Werte, kann nicht entschieden werden, ob verschiedene Wirkungen vorliegen,
oder unterschiedliche Residualvarianzen (mit-)verantwortlich sind (Williams, R. 2009).
Fr jede Anwendung der logistischen Regressionsanalyse (mit einem nominalen oder ordinalen Kriteri-
um) hat eine Verletzung der Varianzhomogenittsannahme zwei unerfreuliche Konsequenzen (Keele &
Park 2006):
84
Logistische Regressionsanalyse mit SPSS
unter- oder berschtzte Standardfehler mit entsprechenden Folgen fr die Inferenzstatistik (Kon-
fidenzintervalle, Hypothesentests)
verzerrte, inkonsistente Parameterschtzungen
Whrend bei einer linearen Regressionsanalyse (mit einem metrischem Kriterium) nur die Inferenzsta-
tistik unter verletzter Homoskedastizitt leidet, sind bei der logistischen Regression auch die Parameter-
schtzungen betroffen, was aufgrund des in Gleichung (16) beschriebenen Zusammenhangs zwischen den
Parametern m, m und verstndlich wird.
Die SPSS-Prozedur PLUM untersttzt ein erweitertes Modell, das heterogene Varianzen erlaubt. Fr ei-
nen Fall i mit den Prdiktorwerten im Vektor xi
x1
x
2
x i : .
.
x
M
und einer Auswahl seiner Prdiktorwerte im Vektor zi
z1
z
2
z i : .
.
z
Q
wird der bisherige Modellkern
j x i
nun als Lokationsmodell bezeichnet und durch das so genannte Skalenmodell mit Parametervektor
ez i , : 1 , 2 , .., Q
dividiert, um einen individuellen Skalierungsfaktor (eine individuelle Varianz) zu ermglichen:
j x i
e z i
In der Regel wird man sich im Varianz- bzw. Skalenmodell auf wenige Prdiktoren beschrnken.
Mit der Abkrzung FL fr die logistische Verteilungsfunktion, ergibt sich das folgende Lokations-Skalen
Modell:
j x i
P( yi j ) FL z i
, i 1,.., N , j 1, .., J 1 (17)
e
Es wird von einigen englischsprachigen Autoren auch als Heterogenous Choice Model bezeichnet (z.B.
Williams 2009).
In einer Simulationsstudie betrachten wir ein ordinales Kriterium Y
85
Logistische Regressionsanalyse mit SPSS
86
Logistische Regressionsanalyse mit SPSS
Weil das voreingestellte Lokationsmodell mit zwei Haupteffekten korrekt ist, muss es nicht gendert
werden.
Bei ignorierter Heteroskedastizitt wird das Modell verworfen,
Nun definieren wir im Dialog der ordinalen Regression nach einem Klick auf den Schalter Skala das
Skalenmodell:
87
Logistische Regressionsanalyse mit SPSS
88
Logistische Regressionsanalyse mit SPSS
5 Numerische Schtzprobleme
In diesem Abschnitt geht es numerische Probleme der Maximum-Likelihood-Schtzung bei einer logisti-
schen Regressionsanalyse, die durch spezielle Muster in den Daten verursacht werden.
5.1 Multikollinearitt
Allzu hohe Korrelationen zwischen den Regressoren fhren zu groen Standardfehlern bei den geschtzten
Regressionskoeffizienten, worunter auch die Power der Tests zu den Regressionskoeffizienten leidet. Jeder
Regressor sollte mglichst viel Eigenstndigkeit in das Design einbringen, die bei metrischen Regressoren
ber ihre quadrierte multiple Korrelation mit den restlichen Regressoren beurteilt werden kann. Nach Me-
nard (1995, S. 66) sollte dieser Wert nicht ber 0,80 liegen.
Hier liefert das ML-Schtzverfahren unbrauchbare Ergebnisse, was an berhhten Schtzwerten und vor
allem an extrem groen Standardfehlern zu erkennen ist, z.B. in der Ausgabe von LOGISTIC REGRES-
SION:
Bei der berichteten Analyse wurde fr den kategorialen Regressor die voreingestellte Indikator-Ko-
dierung mit der dritten Stufe als Referenz gewhlt:
89
Logistische Regressionsanalyse mit SPSS
Allerdings sind alle in Abschnitt 4.8 behandelten Schtzprobleme auch ohne Warnungen der Software an
berhhten Standardfehlern zuverlssig zu erkennen.
Eine zulssige (wenngleich nicht immer sympathische) Manahme zum Entfernen leerer Zellen besteht
darin, die betroffene Prdiktorkategorie mit einer anderen zu kombinieren. Wenn im Beispiel die kritische
Kategorie A mit der Nachbarkategorie B zusammengefasst wird, hat der ML-Algorithmus kein Problem
mehr:
Dass in einer (nicht allzu kleinen Stichprobe) alle Flle einer Regressorenkategorie zur selben Kriteri-
umskategorie gehren, drfte eher selten passieren. Schon eher ist bei einer durch Kreuzen mehrerer Re-
gressoren resultierenden Zelle mit der Kriteriums-Monotonie zu rechnen. In folgender Situation
90
Logistische Regressionsanalyse mit SPSS
Nach Erweiterung des Modells um die Wechselwirkung der beiden kategorialen Regressoren sorgt jedoch
die leere Zelle in der Tabelle
KATREG1 KATREG2 KRIT
fr massive Schtzprobleme:
Um zu einem Urteil ber die Wechselwirkung zu gelangen, kann man die Kategorien 2 und 3 von KA-
TREG1 zusammenfassen. Im Beispiel ergibt sich dabei, dass der Interaktionsterm vermutlich berflssig
ist:
91
Logistische Regressionsanalyse mit SPSS
Man htte eigentlich Anlass zur Freude, wenn nicht numerische Probleme im Schtzverfahren fr kuriose
Ergebnisse sorgen wrden:
Im Gegensatz zu LOGISTIC REGRESSION macht die Prozedur NOMREG wiederum explizit auf das
Problem aufmerksam:
Sobald man die (eigentlich wnschenswerte) perfekte Trennung durch Verndern eines Falles aufhebt,
92
Logistische Regressionsanalyse mit SPSS
Allzu groe Sorgen muss man sich wegen der vollstndigen Trennung, die mit einem perfekten Determi-
nationskoeffizienten von 1,0 in linearen Regressionsmodellen vergleichbar ist, bei realen Anwendungen
allerdings nicht machen.
93
Logistische Regressionsanalyse mit SPSS
6 Anhang
6.1 Symbolverzeichnis
Symbol Bedeutung
M Anzahl der Prdiktorvariablen im Design (intervallskaliert oder durch Kodierung von nominal-
skalierten Variablen entstanden)
m Index fr die Prdiktorvariablen im Design
J Anzahl der Kategorien des Kriteriums
j Index fr die Kategorien des Kriteriums
N Anzahl der Beobachtungen
i Index fr die Beobachtungen
Yi Zufallsvariable zur Beobachtung i
yi Stichprobenergebnis fr Beobachtung i bei der binren logistischen Regression, yi {0, 1}
X Spaltenvektor mit den Prdiktorvariablen X1 bis XM im Populationsmodell (mit einer fhren-
den 1 fr die Konstante)
1
X
1
X
X 2
.
.
X M
xi Spaltenvektor mit den Stichprobenwerten der Prdiktorvariablen X1 bis XM bei Beobachtung i
(mit einer fhrenden 1 fr die Konstante)
1
x
i1
xi xi 2
.
.
xiM
Zeilenvektor mit den Modelparametern der binren oder ordinalen logistischen Regression
j Zeilenvektor mit den Modelparametern der j-ten Gleichung eines multinomialen logistischen
Regressionsmodells
K Anzahl der Prdiktorwertekombinationen
k Index fr die Prdiktorwertekombinationen
~ ~ Stichprobenhufigkeit der Einserkategorie fr die Prdiktorwertekombination k bei der binren
yk , Yk
logistischen Regression bzw. zugehrige Zufallsvariable
~ ~ Stichprobenhufigkeit der Kriteriumskategorie j fr die Prdiktorwertekombination k bei der
y kj , Ykj
multinomialen oder ordinalen logistischen Regression bzw. zugehrige Zufallsvariable
94
Logistische Regressionsanalyse mit SPSS
95
Logistische Regressionsanalyse mit SPSS
formatsbeweg,stresstoraucheffdbsdbs3auswahl(f1.0)abwig(f2.0)nrdruck(f3.0).
variablewidthnrabwigtoraucherdbsdbs3auswahl(5).
variablelevelnrerbedbsauswahl(nominal)/raucherdbs3(ordinal)/abwigbewegdruckstress
(scale).
variablerole
/inputabwigbewegdruckstresserberaucher
/targetdbsdbs3
/nonenr.
saveoutfile='dbs.sav'
/keep=nrabwigtoraucherdbsdbs3auswahl.
96
Logistische Regressionsanalyse mit SPSS
Literatur
Agresti, A. (1990). Categorical Data Analysis. New York: Wiley.
Allison, P. D. (1999). Logistic Regression Using the SAS System. Cary, NC: SAS Institute.
Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (2008). Multivariate Analysemethoden (12. Aufl.).
Berlin: Springer.
Baltes-Gtz, B. (1994). Einfhrung in die Analyse von Strukturgleichungsmodellen mit LISREL 7 und
PRELIS unter SPSS. Online-Dokumentation: http://www.uni-trier.de/index.php?id=22734
Baltes-Gtz, B. (2009). Moderatoranalyse per multipler Regression mit SPSS. Online-Dokument:
http://www.uni-trier.de/index.php?id=22528
Baltes-Gtz, B. (2012). Statistisches Praktikum mit SPSS Statistics 20. Online-Dokument:
http://www.uni-trier.de/index.php?id=22552
Bhl, A. (2012). SPSS 20. Einfhrung in die moderne Datenanalyse. Mnchen: Pearson Studium.
Cohen, J., Cohen, P., West, S. G. & Aiken, L. S. (2003). Applied multiple regression/correlation analyses
for the behavioral sciences (3rd ed.). Mahwah, NJ: Lawrence Erlbaum.
Cox, D. R. & Snell, E. J. (1989). The Analysis of Binary Data. London: Chapman and Hall.
DeCarlo, L.T. (2003). Using the PLUM procedure of SPSS to fit unequal variance and gegeralized signal
detection models, Behavior Research Methods, Instruments, & Computers, 35(1), 49-56. Online-
Dokument: http://www.columbia.edu/~ld208/brmic03.pdf (Abgerufen: 11.06.2012)
Fox, J. & Weisberg, S. (2011). An R Companion to Applied Regression. Thousand Oaks, CA: Sage.
Hosmer, D. W. & Lemeshow, S. (2000). Applied Logistic Regression (2nd ed.). New York: Wiley & Sons.
Jaccard, J. (2001). Interaction Effects in Logistic Regression. Thousand Oaks, CA: Sage.
Keele, L. & Park, D.K. (2006). Difficult Choices: An Evaluation of Heterogenous Choice Models. Onli-
ne-Dokument: http://www.nd.edu/~rwilliam/oglm/ljk-021706.pdf (Abgerufen: 11.06.2012)
Kleinbaum, D. G. (1994). Logistic Regression. A Self-Learning Text. New York: Springer.
Liang, K.-L. & Zeger, S.L. (1986). Longitudinal data analysis using generalized linear models. Bio-
metrika, 73, 13-22.
Long, J. S. (1997). Regression Models for Categorical and limited Dependent Variables. Thousand Oaks,
CA: Sage.
McCullagh, P. (1980). Regression Models for Ordinal Data, Journal of the Royal Statisticsl Society, Se-
ries B, 42, 109-142.
Menard, S. (1995). Applied Logistic Regression Analysis. Thousand Oaks: Sage.
Nagelkerke, N.J. D. (1991). A note on the general definition of the coefficient of determination. Biomet-
rica, 78, 691-692.
Noruis, M.J. (2005). SPSS 14.0. Statistical Procedures Companion. Upper Saddle River, NJ: Prentice Hall.
Noruis, M.J. (2008). SPSS 16.0. Advanced Statistical Procedures Companion. Upper Saddle River, NJ:
Prentice Hall.
Nichols, D. (1993). Interpreting MANOVA parameter estimates. Keywords, 50, 8-14.
OConnell, A. (2006). Logistic Regression Models for Ordinal Response Variables. Thousand Oaks:
Sage.
Ryan, T. P. (1997). Modern Regression Methods. New York: Wiley & Sons.
97
Logistische Regressionsanalyse mit SPSS
98
Logistische Regressionsanalyse mit SPSS
Stichwortverzeichnis
Abweichungskodierung ............................................................. 48 McFadden ..................................................................................39
Basismodell ............................................................................... 36 Modellgleichung
Binre logistische Regression ...................................................... 9 binre logist. Regr...................................................................9
Block multinomiale logist. Regr. ....................................................62
von Regressoren ................................................................... 58 ordinale logist. Regr. ............................................................72
Cooks Distanz .......................................................................... 35 Modellgte.................................................................................36
Correct Classification Rate ........................................................ 39 Multikollinearitt ........................................................................89
covariate pattern .................................................................. 21, 26 Multinomiale
Cox ............................................................................................ 38 logistische Regression ..........................................................62
Devianz...................................................................................... 24 Multinomialverteilung ...............................................................63
Devianzresiduen ........................................................................ 27 Nagelkerke.................................................................................38
Devianz-Residuen...................................................................... 27 Newton-Raphson .......................................................................19
Diskriminanzanalyse.................................................................... 6 NOMREG ..............................................................................8, 69
Dummy-Kodierung.............................................................. 51, 77 odds............................................................................................11
Effektgre .......................................................................... 12, 43 Odds...........................................................................................73
Effiziente Schtzer..................................................................... 68 odds ratio ....................................................................... 12, 43, 74
Einflussreiche Flle ................................................................... 35 odds-Gleichung..........................................................................11
Fehlerquadratsumme.................................................................. 28 Parallele Regressionen ...............................................................72
F-Test der lin. Regr.................................................................... 37 Parameterschtzung ...................................................................20
Generalisiertes R2 ...................................................................... 38 Pearson-2-Statistik....................................................................21
GENLOG..................................................................................... 6 Pearson-Residuen.......................................................................28
Gewinnchance ........................................................................... 11 PLUM ..............................................................................8, 72, 81
Goodness-of-fit-Statistiken........................................................ 21 TEST ....................................................................................81
Gruppenresiduen........................................................................ 31 PoLytomous Universal Model .....................................................8
Hierarchische Regressionsanalyse ............................................. 58 Probit-Analyse ...........................................................................14
Hosmer-LemeshowGoodness-of-Fit-Test................................ 25 proportional-odds model ............................................................74
Indikatorkodierung .................................................................... 77 Pseudo-R2-Statistiken ................................................................38
Indikator-Kodierung .................................................................. 51 R2-Statistiken .............................................................................38
Individualresiduen ..................................................................... 28 Referenzkategorie ......................................................................51
Interaktion.................................................................................. 52 Regressionskoeffizienten ...........................................................42
Kategoriale Regressoren ............................................................ 46 Residuen
Kern ........................................................................................... 70 Devianz.................................................................................27
Klassifikationsdiagramm ........................................................... 41 Pearson .................................................................................28
Klassifikationstabelle................................................................. 39 standardisierte.......................................................................28
Kodiervariablen ......................................................................... 47 SAS......................................................................................70, 72
Konsistente Schtzer.................................................................. 68 Saturiertes Modell......................................................................24
Kontrastvektoren ....................................................................... 49 Schwellen...................................................................................77
Kreuzvalidierung ....................................................................... 40 Score-Statistik............................................................................59
Kumulatives Logit-Modell ........................................................ 72 Separation
Leere Zellen............................................................................... 89 quasi-vollstndige.................................................................89
Likelihood.................................................................................. 36 vollstndige...........................................................................92
Likelihood-Funktion .................................................................. 19 Skalenmodell .............................................................................85
Likelihood-Ratio Test ............................................................. 36 Snell ...........................................................................................38
lineare Regressionsanalyse .......................................................... 6 Standardfehler............................................................................42
Loess.......................................................................................... 29 Standardisierte Residuen............................................................28
LOGISTIC REGRESSION.......................................................... 7 Stata ...........................................................................................70
Logistische Verteilung............................................................... 12 Stichprobengre .......................................................................10
Logistische Verteilungsfunktion.................................................. 9 Stichprobenmodell .....................................................................10
Logistischen Verteilung............................................................. 84 TEST-Subkommando ................................................................69
Logit .......................................................................................... 11 Trennung
Logit-Gleichung......................................................................... 11 quasi-vollstndige.................................................................89
Log-lineare Modelle .................................................................... 6 vollstndige...........................................................................92
LogXact ..................................................................................... 20 Trennwert.............................................................................34, 41
Lokations - Skalen - Modelle..................................................... 84 Wald-Statistk .............................................................................43
Lokationsmodell ........................................................................ 85
Maximum-Likekihood-Schtzmethode ..................................... 18
99