GR22 Kapitel7

Vorlesung: Generalisierte Regression
Dozent: Fabian Scheipl – Material: Helmut Küchenhoff
Institut für Statistik, LMU München
WS 22/23
Version: 13. Januar 2023

Multinomial- Verteilung
y = (y1 , . . . , yk )
folgt einer a Multinomial-Verteilung mit Parametern m, π = (π1 , . . . , πk )

falls die Wahrscheinlichkeitsfunktion wie folgt definiert ist:
m!
f (y|π) = · π y1 · . . . · πkyk
y1 ! . . . yk ! 1
Es gilt: Erwartungswert und Varianz von
y ∼ M (m, π)
sind gegeben durch :
E(y) = mπ
 
π1 (1 − π1 ) −π1 π2 . . . −π1 πk
Cov(y) = m 
 .. .. .. 
. . . 
−π1 πk ... πk (1 − πk )
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 299

Nicht redundante Darstellung
Wir verwenden die letzte Kategorie als Referenz k und erhalten mit
q = k − 1 folgende Darstellung:
m! y
f (y|π) = · π y1 · . . . · πqq
y1 ! . . . yq ! (m − y1 − . . . − yq )! 1
· (1 − π1 − . . . − πq )m−y1 −...−yq

Das multinomiale Logit Modell
Logit-Modell für Y ∈ 1, 2 mit Referenz 2:

P(Y1 = 1|xi )
log = x′ β
P(Yi = 2|xi )
Verallgemeinerung auf k Kategorien

P(Yi = r |xi )
log = x′i β r , r = 1, . . . , k − 1. (7.1)
P(Yi = k|xi )
exp(x′i β r )
P(Yi = r |xi ) = k−1
r = 1, . . . , k − 1 (7.2)
exp(x′i β s )
P
1+
s=1
1
P(Yi = k|xi ) = k−1
(7.3)
exp(x′i β s )
P
1+
s=1

Allgemeine Darstellung
exp(x′ β r )
P(Yi = r ) = k
r = 1, . . . , k (7.4)
exp(x′i β s )
P
s=1
Verschiedene Nebenbedingungen zur Identifizierbarkeit:
βk = 0 Referenz k, s.o.
βr 0 = 0 Referenz r0
k
X
βs = 0 Symmetrisch, Effektkodierung
s=1

Bemerkungen
Kovariablen sind zunächst für alle Kategorien identisch.

Kategorien-spezifische Kovariablen werden später diskutiert.
Vorsicht bei der Interpretation der Koeffizienten: Beispielsweise
bedeutet βrj > 0 nicht notwendigerweise, dass die
Wahrscheinlichkeit von Y ∈ r steigt, wenn xj steigt. Es steigt dann
nur die Wahrscheinlichkeit im Verhältnis zu der Referenzkategorie.
Falls βsj > βrj > 0, so steigt die Wahrscheinlichkeit für s schneller
mit xj als die Wahrscheinlichkeit für r
Es ist häufig sinnvoll, Wahrscheinlichkeiten für bestimmte
Kombinationen von Kovariablen zu berechnen.
Das Modell kann aus dem Random Utility Modell hergeleitet
werden.

Kategorien-spezifische Kovariablen
Kovariablen wie z.B. Alter des Kandidaten der Partei “sind sog.
”
Kategorien-spezifische Kovariablen. Diese können wie folgt in das Modell
einbezogen werden:
ηir = x′i β r + (wir − wik )′ γ, r = 1, . . . , k − 1, ηi,k = 0.
Beachte: Nur die Differenzen zur Referenz wir − wik können in das
Modell einbezogen werden.

Inferenz im Multinomialen Logit-Modell
ML Schätzung nach dem gleichen Prinzip wie im GLM. Darstellung in
gruppierter Form:
yi ∼ M(ni , π i ),
mit π i = (πi1 , . . . , πiq )′ aus dem Modell

Die Likelihood ist bis auf eine Konstante:
n
Y
L(β) = f(yi |π i ),
i=1
mit:
yi1 y
f(yi |π i ) = πi1 · . . . · πi,ki,k ,
mit
πi,k = 1 − πi1 − . . . − πiq and yi,k = ni − yi1 − . . . − yiq .

Die Log-likelihood ist
n
X
l(β) = yi1 log(πi1 ) + . . . + yi,k log(πi,k ).
i=1
Die Scorefunktion ist

∂ l(β)
s(β) = ,
∂β
und der ML-Schätzer ist:
s(β̂ ML ) = 0.
Die erwartete Fisher–Information ist gegeben durch
F(β) = E(s(β)s(β)⊤ ).

Darstellung als multivariates Modell
Wir definieren q lineare Prädiktoren ηi1 , . . . , ηiq die mit den

Wahrscheinlichkeiten für die Responsekategoreien wie folgt verbunden
sind:
P(yi = r ) = πir = hr (ηi1 , . . . , ηiq )
exp(η )
πir = Pq ir = hr (ηi1 , . . . , ηiq )
1 + s=1 exp(ηis )
und
ηir = x′i β r + (wir − wik )′ γ.

Darstellung in Matrixform
π i = h(Xi β) (7.5)
mit
 ′ ′ ′

xi wi1 − wi,k
Xi = 
 .. .. 
. . 
x′i ′ ′
wiq − wi,k
β = (β ′i , . . . , β ′q , γ ′ )′

Scorefunktion
n
X
−1
s(β) = X⊤
i Di Σi (yi − ni π i ),
i=1
where
∂ h(η i )
Di = (c × c)
∂η
Σi = Cov(yi ) (c x c)
mit der Gewichtsmatrix
Wi = Di Σ−1 ⊤
i Di ,
Fisher–Information:
n
X
F(β) = X⊤
i Wi Xi .
i=1
Di und Σi sind nicht diagonal.

Inferenz
Alle weiteren Eigenschaften sind analog zum GLM:

Fisher scoring
[t−1] [t] [t] [t]
β̂ = β̂ + F−1 (β̂ )s(β̂ ),
Asymptotik
a
β̂ ∼ N(β, F−1 (β̂)),
Test der linearen Hypothese

etc.

Implementation
{mgcv} mit family = multinom

{VGAM}

Ordinale Daten
Beispiel:
Bewertungen
Likert-Skalen
Diskretisierte kontinuierliche Messungen (Privatsphäre, IP, ...)

Angemessene Modelle für ordinale Daten
Ordinale Daten ̸= Kontinuierliche Daten
Lineares Regressionsmodell unangemessen
Verletzung von Annahmen:
Scores sind nicht bedingt normalverteilt
Score von ”4”üblicherweise nicht doppelt so viel wie Score ”2”
Varianz meist nicht konstant
=⇒ Cumulative Link Model (CLM, auch: Proportional Odds Modell)
Verwendet nur Informationen über die Reihenfolge
Intuition: Lineares Modell, das die ordinale Natur der Antwort
respektiert
Intuition: Lineares Modell für eine latente/unbeobachtete
kontinuierliche Variable von der nur eine diskretisierte/ordinale
Version beobachtet wird

Beispiel: wine
Wie hängt die wahrgenommene Bitterkeit von Wein von der Temperatur
der Trauben und dem Kontakt zwischen Saft und Schalen während der
Pressung ab?
Tabelle: Weindaten (Randall, 1989),N=72

Variablen Typ Werte
Bitterkeit Antwort 1, 2, 3 ,4, 5
weniger — mehr
Temperatur Prädiktor kalt, warm
Kontakt Prädiktor nein, ja
Richter Zufall 1, . . . , 9

Intuition: Kumulatives Link-Modell
βt
Latente & stetige Bitterkeit S

warm
folgt einem linearen Modell:
S
Si = xi⊤ β + εi , εi ∼ N(0, σ 2 )
= βt tempi + εi
cold
S
0

Intuition: Kumulatives Link-Modell
Y: 1 2 3 4 5
βt
Diskretisierte Version Y von S

wird beobachtet:
warm
S Yi = j ⇔ αj−1 ≤ Si < αj
P(Yi ≤ j) = h(αj − xi⊤ β)
P(Y = 2 |cold) Link-Funktion h−1 : CDF von ε

(hier: Probit für ε ∼ N(0, 1)).
cold Auch: Logit, Loglog, ...
S
α1 0 α2 α3 α4

Strukturierte Schwellenwerte
Flexibel mit {α1 , . . . , α4 }: Symmetrisch mit {α2 , α3 , ∆}:
Y: 1 2 3 4 5 Y: 1 2 3 4 5
βt βt
warm warm
S S
cold cold
S S
α1 0 α2 α3 α4 − ∆ α2 α3 + ∆

Strukturierte Schwellenwerte
Äquidistant mit {α, ∆}:
Y: 1 2 3 4 5
βt
Schwellenwerte:
flexibel: αj unrestringiert aber
warm geordnet
S
symmetrisch um die mittlere(n)
Kategorie(n)
äquidistant
cold
S
α ∆ ∆ ∆

CLM: Modellannahmen
Kovariableneffekte für alle Kategorien identisch – impliziert für

logit-Link proportional odds:
P(Yi ≤ r |x + 1)
= exp(β)∀r
P(Yi ≤ r |x)
keine Skaleneffekte: Dispersion der latenten Variable ist unabhängig

von Kovariablen

Implementation
{mgcv} mit family = ocat: nur logit-Link, unrestringierte

Schwellenwerte
{ordinal}: (gemischte) Modelle für ordinale Daten (mit
strukturierten Schwellenwerten), keine glatten Terme implementiert
{VGAM}

GR22 Kapitel7

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

GR22 Kapitel7

Hochgeladen von

Copyright:

Verfügbare Formate

Vorlesung: Generalisierte Regression

Dozent: Fabian Scheipl – Material: Helmut Küchenhoff

Institut für Statistik, LMU München

Version: 13. Januar 2023

folgt einer a Multinomial-Verteilung mit Parametern m, π = (π1 , . . . , πk )

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 299

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 300

Logit-Modell für Y ∈ 1, 2 mit Referenz 2:

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 301

Verschiedene Nebenbedingungen zur Identifizierbarkeit:

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 302

Kovariablen sind zunächst für alle Kategorien identisch.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 303

ηir = x′i β r + (wir − wik )′ γ, r = 1, . . . , k − 1, ηi,k = 0.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 304

mit π i = (πi1 , . . . , πiq )′ aus dem Modell

πi,k = 1 − πi1 − . . . − πiq and yi,k = ni − yi1 − . . . − yiq .

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 305

Die Scorefunktion ist

Die erwartete Fisher–Information ist gegeben durch

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 306

Wir definieren q lineare Prädiktoren ηi1 , . . . , ηiq die mit den

P(yi = r ) = πir = hr (ηi1 , . . . , ηiq )

ηir = x′i β r + (wir − wik )′ γ.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 307

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 308

mit der Gewichtsmatrix

Di und Σi sind nicht diagonal.

Alle weiteren Eigenschaften sind analog zum GLM:

Test der linearen Hypothese

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 310

{mgcv} mit family = multinom

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 311

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 312

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 313

Tabelle: Weindaten (Randall, 1989),N=72

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 314

Latente & stetige Bitterkeit S

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 315

Diskretisierte Version Y von S

P(Y = 2 |cold) Link-Funktion h−1 : CDF von ε

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 316

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 317

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 318

Kovariableneffekte für alle Kategorien identisch – impliziert für

keine Skaleneffekte: Dispersion der latenten Variable ist unabhängig

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 319

{mgcv} mit family = ocat: nur logit-Link, unrestringierte

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 320

Das könnte Ihnen auch gefallen