Sie sind auf Seite 1von 23

Vorlesung: Generalisierte Regression

Dozent: Fabian Scheipl – Material: Helmut Küchenhoff

Institut für Statistik, LMU München

WS 22/23

Version: 13. Januar 2023


Multinomial- Verteilung

y = (y1 , . . . , yk )

folgt einer a Multinomial-Verteilung mit Parametern m, π = (π1 , . . . , πk )


falls die Wahrscheinlichkeitsfunktion wie folgt definiert ist:

m!
f (y|π) = · π y1 · . . . · πkyk
y1 ! . . . yk ! 1
Es gilt: Erwartungswert und Varianz von
y ∼ M (m, π)
sind gegeben durch :

E(y) = mπ
 
π1 (1 − π1 ) −π1 π2 . . . −π1 πk
Cov(y) = m 
 .. .. .. 
. . . 
−π1 πk ... πk (1 − πk )

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 299


Nicht redundante Darstellung

Wir verwenden die letzte Kategorie als Referenz k und erhalten mit
q = k − 1 folgende Darstellung:
m! y
f (y|π) = · π y1 · . . . · πqq
y1 ! . . . yq ! (m − y1 − . . . − yq )! 1
· (1 − π1 − . . . − πq )m−y1 −...−yq

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 300


Das multinomiale Logit Modell

Logit-Modell für Y ∈ 1, 2 mit Referenz 2:


 
P(Y1 = 1|xi )
log = x′ β
P(Yi = 2|xi )
Verallgemeinerung auf k Kategorien
 
P(Yi = r |xi )
log = x′i β r , r = 1, . . . , k − 1. (7.1)
P(Yi = k|xi )
exp(x′i β r )
P(Yi = r |xi ) = k−1
r = 1, . . . , k − 1 (7.2)
exp(x′i β s )
P
1+
s=1
1
P(Yi = k|xi ) = k−1
(7.3)
exp(x′i β s )
P
1+
s=1

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 301


Allgemeine Darstellung

exp(x′ β r )
P(Yi = r ) = k
r = 1, . . . , k (7.4)
exp(x′i β s )
P
s=1

Verschiedene Nebenbedingungen zur Identifizierbarkeit:

βk = 0 Referenz k, s.o.
βr 0 = 0 Referenz r0
k
X
βs = 0 Symmetrisch, Effektkodierung
s=1

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 302


Bemerkungen

Kovariablen sind zunächst für alle Kategorien identisch.


Kategorien-spezifische Kovariablen werden später diskutiert.
Vorsicht bei der Interpretation der Koeffizienten: Beispielsweise
bedeutet βrj > 0 nicht notwendigerweise, dass die
Wahrscheinlichkeit von Y ∈ r steigt, wenn xj steigt. Es steigt dann
nur die Wahrscheinlichkeit im Verhältnis zu der Referenzkategorie.
Falls βsj > βrj > 0, so steigt die Wahrscheinlichkeit für s schneller
mit xj als die Wahrscheinlichkeit für r
Es ist häufig sinnvoll, Wahrscheinlichkeiten für bestimmte
Kombinationen von Kovariablen zu berechnen.
Das Modell kann aus dem Random Utility Modell hergeleitet
werden.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 303


Kategorien-spezifische Kovariablen

Kovariablen wie z.B. Alter des Kandidaten der Partei “sind sog.

Kategorien-spezifische Kovariablen. Diese können wie folgt in das Modell
einbezogen werden:

ηir = x′i β r + (wir − wik )′ γ, r = 1, . . . , k − 1, ηi,k = 0.

Beachte: Nur die Differenzen zur Referenz wir − wik können in das
Modell einbezogen werden.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 304


Inferenz im Multinomialen Logit-Modell
ML Schätzung nach dem gleichen Prinzip wie im GLM. Darstellung in
gruppierter Form:

yi ∼ M(ni , π i ),

mit π i = (πi1 , . . . , πiq )′ aus dem Modell


Die Likelihood ist bis auf eine Konstante:
n
Y
L(β) = f(yi |π i ),
i=1

mit:
yi1 y
f(yi |π i ) = πi1 · . . . · πi,ki,k ,

mit

πi,k = 1 − πi1 − . . . − πiq and yi,k = ni − yi1 − . . . − yiq .

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 305


Die Log-likelihood ist
n
X
l(β) = yi1 log(πi1 ) + . . . + yi,k log(πi,k ).
i=1

Die Scorefunktion ist


∂ l(β)
s(β) = ,
∂β
und der ML-Schätzer ist:

s(β̂ ML ) = 0.

Die erwartete Fisher–Information ist gegeben durch

F(β) = E(s(β)s(β)⊤ ).

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 306


Darstellung als multivariates Modell

Wir definieren q lineare Prädiktoren ηi1 , . . . , ηiq die mit den


Wahrscheinlichkeiten für die Responsekategoreien wie folgt verbunden
sind:

P(yi = r ) = πir = hr (ηi1 , . . . , ηiq )

exp(η )
πir = Pq ir = hr (ηi1 , . . . , ηiq )
1 + s=1 exp(ηis )

und

ηir = x′i β r + (wir − wik )′ γ.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 307


Darstellung in Matrixform

π i = h(Xi β) (7.5)
mit
 ′ ′ ′

xi wi1 − wi,k
Xi = 
 .. .. 
. . 
x′i ′ ′
wiq − wi,k
β = (β ′i , . . . , β ′q , γ ′ )′

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 308


Scorefunktion
n
X
−1
s(β) = X⊤
i Di Σi (yi − ni π i ),
i=1

where
∂ h(η i )
Di = (c × c)
∂η
Σi = Cov(yi ) (c x c)

mit der Gewichtsmatrix

Wi = Di Σ−1 ⊤
i Di ,

Fisher–Information:
n
X
F(β) = X⊤
i Wi Xi .
i=1

Di und Σi sind nicht diagonal.


GRM WS 22/23 Scheipl/Küchenhoff (LMU) 309
Inferenz

Alle weiteren Eigenschaften sind analog zum GLM:


Fisher scoring
[t−1] [t] [t] [t]
β̂ = β̂ + F−1 (β̂ )s(β̂ ),

Asymptotik
a
β̂ ∼ N(β, F−1 (β̂)),

Test der linearen Hypothese


etc.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 310


Implementation

{mgcv} mit family = multinom


{VGAM}

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 311


Ordinale Daten

Beispiel:
Bewertungen
Likert-Skalen
Diskretisierte kontinuierliche Messungen (Privatsphäre, IP, ...)

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 312


Angemessene Modelle für ordinale Daten
Ordinale Daten ̸= Kontinuierliche Daten
Lineares Regressionsmodell unangemessen
Verletzung von Annahmen:
Scores sind nicht bedingt normalverteilt
Score von ”4”üblicherweise nicht doppelt so viel wie Score ”2”
Varianz meist nicht konstant
=⇒ Cumulative Link Model (CLM, auch: Proportional Odds Modell)
Verwendet nur Informationen über die Reihenfolge
Intuition: Lineares Modell, das die ordinale Natur der Antwort
respektiert
Intuition: Lineares Modell für eine latente/unbeobachtete
kontinuierliche Variable von der nur eine diskretisierte/ordinale
Version beobachtet wird

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 313


Beispiel: wine

Wie hängt die wahrgenommene Bitterkeit von Wein von der Temperatur
der Trauben und dem Kontakt zwischen Saft und Schalen während der
Pressung ab?

Tabelle: Weindaten (Randall, 1989),N=72


Variablen Typ Werte
Bitterkeit Antwort 1, 2, 3 ,4, 5
weniger — mehr
Temperatur Prädiktor kalt, warm
Kontakt Prädiktor nein, ja
Richter Zufall 1, . . . , 9

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 314


Intuition: Kumulatives Link-Modell

βt

Latente & stetige Bitterkeit S


warm
folgt einem linearen Modell:
S

Si = xi⊤ β + εi , εi ∼ N(0, σ 2 )
= βt tempi + εi

cold
S
0

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 315


Intuition: Kumulatives Link-Modell
Y: 1 2 3 4 5

βt

Diskretisierte Version Y von S


wird beobachtet:
warm
S Yi = j ⇔ αj−1 ≤ Si < αj
P(Yi ≤ j) = h(αj − xi⊤ β)

P(Y = 2 |cold) Link-Funktion h−1 : CDF von ε


(hier: Probit für ε ∼ N(0, 1)).
cold Auch: Logit, Loglog, ...
S
α1 0 α2 α3 α4

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 316


Strukturierte Schwellenwerte
Flexibel mit {α1 , . . . , α4 }: Symmetrisch mit {α2 , α3 , ∆}:
Y: 1 2 3 4 5 Y: 1 2 3 4 5

βt βt

warm warm
S S

cold cold
S S
α1 0 α2 α3 α4 − ∆ α2 α3 + ∆

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 317


Strukturierte Schwellenwerte
Äquidistant mit {α, ∆}:
Y: 1 2 3 4 5

βt

Schwellenwerte:
flexibel: αj unrestringiert aber
warm geordnet
S
symmetrisch um die mittlere(n)
Kategorie(n)
äquidistant

cold
S
α ∆ ∆ ∆

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 318


CLM: Modellannahmen

Kovariableneffekte für alle Kategorien identisch – impliziert für


logit-Link proportional odds:

P(Yi ≤ r |x + 1)
= exp(β)∀r
P(Yi ≤ r |x)

keine Skaleneffekte: Dispersion der latenten Variable ist unabhängig


von Kovariablen

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 319


Implementation

{mgcv} mit family = ocat: nur logit-Link, unrestringierte


Schwellenwerte
{ordinal}: (gemischte) Modelle für ordinale Daten (mit
strukturierten Schwellenwerten), keine glatten Terme implementiert
{VGAM}

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 320

Das könnte Ihnen auch gefallen