CDC Clatse 2008 S3

Gloria Icaza y Alejandro J ara
Modelos Lineales Generalizados Mixtos

Sesin 3
(GLMM)
Introduccin: LMM
Modelos Lineales Generalizados Mixtos (GLMM)
Algoritmos
Ejemplo
(GLMM)
Considere el modelo lineal mixto:
Y
i
|
R
,
F
, b
i
, R
i
ind
N(X
i
F
+Z
i
R
+Z
i
b
i
, R
i
)
b
i
|
iid
N(0, )
(GLMM)
El modelo marginal implicado es:
Bajo el supuesto de independencia condicional, la estructura de
asociacin marginal es implicada a travs de los efectos aleatorios.
Las mismas ideas se pueden aplicar en el contexto de GLM para
modelar la asociacin de datos no-gaussianos.
Y
i
|
R
,
F
, , R
i
ind
N(X
i
F
+Z
i
R
, R
i
+Z
i
Z
T
i
)
(GLMM)
La distribucin marginal de las respuestas para el cluster es:
p
Y
i
|
F
,
R
, ,
=
R
Q
n
i
j=1
p
Y
ij
|
F
,
R
, b
i
,
p (b
i
| ) db
i
La covarianza entre las observaciones dentro de un cluster es:
Cov(Y
ij
, Y
ik
) = Cov(E(Y
ij
| b
i
), E(Y
ik
| b
i
)) + E(Cov(Y
ij
, Y
ik
, | b
i
))
= Cov(
ij
,
ik
) + E(0)
= Cov(g
1
(x
T
ij
+z
T
ij
b
i
), g
1
(x
T
ik
+z
T
ik
b
i
))
(GLMM)
La distribucin marginal de las respuestas para el cluster es:
De esta forma, la funcin de verosimilitud esta dada por:
p
Y
i
|
F
,
R
, ,
=
R
Q
n
i
j=1
p
Y
ij
|
F
,
R
, b
i
,
p (b
i
| ) db
i
L
F
,
R
, ,
=
Q
N
i=1
R
Q
n
i
j=1
p
Y
ij
|
F
,
R
, b
i
,
p (b
i
| ) db
i
(GLMM)
Bajo el LMM, la integral se puede calcular en forma analtica.
En general, aproximaciones son necesarias:
Aproximacin del integrando.
Aproximacin de los datos.
Aproximacin de la integral.
Las predicciones de los efectos aleatorios, en principio, se pueden basar
en la distribucin a posteriori:
Una aproximacin se puede obtener en base a la distribucin condicional
de los efectos aleatorios dados los datos y los otros parmetros,
evaluada en la estimacin de mxima verosimilitud de estos parmetros.
p (b
i
| Y )
Aproximando el integrando: Laplace
Integrales en la verosimilitud se pueden escribir en la forma:
Expansin de Taylor en torno a la moda de los EA produce:
El trmino cuadrtico lleva a una densidad normal re-escalada:
En el caso del kernel normal, esta aproximacin es exacta. Produce una
buena aproximacin en el caso de un nmero grande de observaciones
dentro de cada cluster.
I =
R
exp{Q(b)} db
Q(b) Q(
b) +
1
2
(b
b)
T
Q
b)(b
b)
I (2)
q/2
| Q
b)|
1/2
exp{Q(
b)}
Aproximando los Datos
Idea general:
Donde:
Expansin de Taylor para la media:
Penalized quasi-likelihood (PQL): En torno a
Marginal quasi-likelihood (MQL): En torno a
V ar(Y
ij
| b
i
) = (
ij
)
(
,

b
i
)
(
, b
i
= 0)
Y
ij
=
ij
+ e
ij
= g
1
(x
T
ij
F
+z
T
ij
R
+z
T
ij
b
ij
) + e
ij
= h(x
T
ij
F
+z
T
ij
R
+z
T
ij
b
ij
) + e
ij
Penalized quasi-likelihood (PQL)
Expansin de Taylor para la media condicional:
En notacin matricial:
Re-ordenando los trminos:
El modelo es ajustado iterando entre la evaluacin de los pseudo datos y
el ajuste del modelo lineal mixto.
Y
i

i
+

T
i
X
i
(
) +

T
i
Z
i
(b
i
b
i
) +e
i
Y
i

T
1
i
(Y
i

i
) +X
i
+Z
b
i
=

i
(Y
i

i
) +X
i
+Z
b
i
X
i
+Z
i
b
i
+e
i
Y
ij
h(x
T
ij
+z
T
ij
b
i
) +
h
(x
T
ij
+z
T
ij
b
i
)x
T
ij
(
) + h
(x
T
ij
+z
T
ij
b
i
)z
T
ij
(b
i
b
i
) + e
ij

ij
+ t(
ij
)x
T
ij
(
) + t(
ij
)z
T
ij
(b
i
b
i
) + e
ij
Marginal quasi-likelihood (MQL)
Expansin de Taylor para la media condicional:
En notacin matricial:
Re-ordenando los trminos:
El modelo es ajustado iterando entre la evaluacin de los pseudo datos y
el ajuste del modelo lineal mixto.
Y
ij
h(x
T
ij
) + h
(x
T
ij
)(
) + h
(x
T
ij
)z
T
ij
b
i
+ e
ij

ij
+ t
(
ij
)x
T
ij
(
) + t
(
ij
)z
T
ij
b
i
+ e
ij
Y
i

i
+

T
i
X
i
(
) +

T
i
Z
i
b
i
+e
i
Y
i

T
i
1
(Y
i

i
) +X
i
i
(Y
i

i
) +X
i
X
i
+Z
i
b
i
+e
i
PQL vs MQL
MQL slo se comporta relativamente bien si la varianza de los efectos
aleatorios es (muy) chica
Ambos se comportan mal para datos binarios cuando el nmero de
observaciones por cluster es pequeo.
Cuando el nmero es grande:
MQL es sesgado.
PQL es consistente.
Mejoramientos posibles con expansiones de Taylor de orden mayor.
Aproximando la Integral
La contribucin a la verosimilitud de cada cluster es de la forma:
Mtodos de cuadratura Gaussiana reemplazan la integral por una suma
ponderada:
Q es el orden de aproximacin. Mientras mayor sea Q ms exacta es la
aproximacin.
Z
f(z)(z)dz
Z
f(z)(z)dz
Q
X
q=1
w
q
f(z
q
)
Los nodos (o puntos de cuadratura) son las soluciones a un polinomio de
Hermite de orden Q.
Los ws son pesos bien escogidos.
Los nodos y los pesos se pueden encontrar en tablas. Alternativamente,
existen algoritmos disponibles para calcularlos para cualquier valor de Q.
Con cuadratura Gausiana, los nodos y los pesos son fijos,
independientemente de la funcin.
Con cuadratura Gausiana adaptativa, los nodos y los pesos se adaptan
al soporte de la funcin.
Grficamente (Q=10):
Tpicamente, cuadratura Gausiana adaptativa necesita (mucho) menos
nodos en comparacin a cuadratura clsica.
Sin embargo, cuadratura Gausiana adaptativa es mucho ms
demandante desde el punto de vista computacional (ms lenta).
Cuadratura gausiana adaptativa de orden 1 es equivalente a la
transformacin de Laplace.
Ajustando GLMMs in R
Librera lme4, funcin lmer. Diseada para implementar los tres mtodos.
Actualmente slo Laplace y PQL.
Librera MASS, funcin glmmPQL. Implementa PQL.
Librera glmmML, funcin glmmML. Implementa cuadratura Gausiana y
Laplace. Slo con interceptos aleatorios.
Librera GLMMGibbs, function glmm. Implementa versin Bayesiana con
interceptos aleatorios.
BRugs. Es una versin para R de BUGS. No existe funcin especfica. Se
debe especificar el modelo.
Ejemplo
Datos de Infeccin en la Ua (Toenail Data).
Infeccin comn: 2% de la poblacin.
Dermatofito Onychomicosis.
Estudio Multicntrico para la comparacin de dos nuevos
componentes.
2 grupos de 189 pacientes en 36 centros.
48 semanas de seguimiento.
12 semanas de tratamiento.
Mediciones a los meses 0,1,2,3,6,9,12
Datos de Infeccin en la Ua (Toenail Data).
moderada o severa versus ausente o leve
logit {P (Y
ij
= 1 | , b
i
)} =
0
+
1
Trt
i
+
2
Time
ij
+
3
Trt
i
Time
ij
+ b
i
Ejemplo
Librera lme4, funcin lmer.
library(lme4)
m1 <- lmer(infect ~ trt+times+trt*times+ (1 | idnr),
family = binomial(logit), method = "Laplace")
m2 <- lmer(infect ~ trt+times+trt*times+ (1 | idnr),
family = binomial(logit), method = "PQL")
Ejemplo
> m1
Generalized linear mixed model fit using Laplace
Formula: infect ~ trt + times + trt * times + (1 | idnr)
Family: binomial(logit link)
AIC BIC logLik deviance
1266 1293 -627.8 1256
Random effects:
Groups Name Variance Std.Dev.
idnr (Intercept) 20.867 4.568
number of obs: 1908, groups: idnr, 294
Estimated scale (compare to 1 ) 1.623702
Fixed effects:
Estimate Std. Error z value Pr(>| z| )
(Intercept) -2.51389 0.46275 -5.433 5.56e-08 ***
trt -0.30663 0.66293 -0.463 0.6437
times -0.40044 0.04520 -8.859 < 2e-16 ***
trt:times -0.13629 0.07361 -1.851 0.0641
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Correlation of Fixed Effects:
(Intr) trt times
trt -0.698
times -0.277 0.193
trt:times 0.170 -0.278 -0.614
Ejemplo
> m2
Generalized linear mixed model fit using PQL
Formula: infect ~ trt + times + trt * times + (1 | idnr)
Family: binomial(logit link)
AIC BIC logLik deviance
1306 1333 -647.8 1296
Random effects:
Groups Name Variance Std.Dev.
idnr (Intercept) 6.24 2.498
number of obs: 1908, groups: idnr, 294
Estimated scale (compare to 1 ) 0.9291529
Fixed effects:
Estimate Std. Error z value Pr(>| z| )
(Intercept) -0.74507 0.26409 -2.821 0.00478 **
trt -0.03551 0.37439 -0.095 0.92443
times -0.29591 0.03389 -8.731 < 2e-16 ***
trt:times -0.10049 0.05377 -1.869 0.06164 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Correlation of Fixed Effects:
(Intr) trt times
trt -0.705
times -0.372 0.262
trt:times 0.234 -0.370 -0.630
Ejemplo
Librera MASS, funcin glmmPQL.
library(MASS)
m3 <- glmmPQL(infect ~ trt+times+trt*times, random = ~ 1 | idnr,
family = binomial(logit))
Ejemplo
> summary(m3)
Random effects:
Formula: ~1 | idnr
(Intercept) Residual
StdDev: 2.317071 0.9362733
Variance function:
Structure: fixed weights
Formula: ~invwt
Fixed effects: infect ~ trt + times + trt * times
Value Std.Error DF t-value p-value
(Intercept) -0.7432471 0.2465876 1612 -3.014130 0.0026
trt -0.0348023 0.3496389 292 -0.099538 0.9208
times -0.2946910 0.0318770 1612 -9.244625 0.0000
trt:times -0.1001751 0.0505787 1612 -1.980579 0.0478
Correlation:
(Intr) trt times
trt -0.705
times -0.375 0.264
trt:times 0.236 -0.373 -0.630
Standardized Within-Group Residuals:
Min Q1 Med Q3 Max
-2.58855883 -0.29784858 -0.19228100 -0.03381723 20.93376731
Number of Observations: 1908
Number of Groups: 294
Ejemplo
Librera glmmML, funcin glmmML.
library(glmmML)
m4 <- glmmML(infect ~ trt+times+trt*times, cluster = idnr,
method="Laplace")
m5 <- glmmML(infect ~ trt+times+trt*times, cluster = idnr,
method="ghr",n.points = 20)
Ejemplo
> m4
Call: glmmML(formula = infect ~ trt + times + trt * times, cluster = idnr,
method = "Laplace")
coef se(coef) z Pr(>| z| )
(I ntercept) -2.5233 0.61426 -4.1078 3.99e-05
trt -0.3070 0.68730 -0.4467 6.55e-01
times -0.4001 0.04471 -8.9493 0.00e+00
trt:times -0.1373 0.06937 -1.9785 4.79e-02
Standard deviation in mixing distribution: 4.571
Std. Error: 0.4317
Residual deviance: 1256 on 1903 degrees of freedom AI C: 1266
Ejemplo
> m5
Call: glmmML(formula = infect ~ trt + times + trt * times, cluster = idnr,
method = "ghr", n.points = 20)
coef se(coef) z Pr(>| z| )
(I ntercept) -1.6182 0.56686 -2.8547 0.00431
trt -0.1608 0.71582 -0.2246 0.82200
times -0.3908 0.03289 -11.8829 0.00000
trt:times -0.1367 0.04507 -3.0335 0.00242
Standard deviation in mixing distribution: 4.004
Std. Error: 0.3275
Residual deviance: 1251 on 1903 degrees of freedom AI C: 1261
Ejemplo
En SAS
proc nlmixeddata=test noadqpoints=3;
parms beta0=-1.6 beta1=0 beta2=-0.4 beta3=-0.5 sigma=3.9;
eta = beta0 + b + beta1*trt + beta2*times + beta3*timetr;
expeta = exp(eta);
p = expeta/ (1+expeta);
model infect ~ binary(p);
random b ~ normal(0,sigma**2) subject=idnr;
run;
Cuadratura Gausiana adaptativa omitiendo opcin noad
Modelos Marginales vs GLMM
En modelos lineales, los coeficientes de regresin tanto en
modelos de efectos aleatorios como en modelos marginales
son idnticos:
el promedio de una funcin lineal = funcin lineal del promedio
En modelos no-lineales (logstico, log-lineal,) los
coeficientes tienen diferente significado-valor, y responden
diferentes preguntas
Modelo Marginal -> parmeteros poblacionales.
GLMM -> parmetros son cluster-especficos.
Diferencias
Poblacionales
Diferencias sujeto
especficas
Mujer
Hombre
Mujer
Hombre
Promedios
Poblacionales
b
Diferencias
Poblacionales
Diferencias sujeto
especficas
Mujer
Hombre
b
log(ODDS
i
) =
0
+
1
Genero
i
+ b
i
Diferencias
Poblacionales Mujer
Hombre
Promedios
Poblacionales
log(ODDS
i
) =
0
+
1
Genero
i
GEE GLMM
Estimacin (EE) Estimacin (EE)
(Intercept) -0.5819 (0.1721) -1.6183 (0.5707)
trt 0.0071 (0.2590) -0.1608 (0.7274)
times -0.1713 (0.0300) -0.3910 (0.0329)
trt:times -0.0778 (0.0543) -0.1368 (0.0451)
Comparacin entre GEE y GLMM
Para modelos logsticos con interceptos aleatorios
normalmente distribuidos se puede mostrar que el modelo
marginal puede ser bien aproximado:
GLMM
GEE
=
c
2
2
+ 1 > 1
c = 16
3/(15)
En nuestro ejemplo, sin embargo:
c
2
2
+ 1 = 2.559858
GEE GLMM
Estimacin (EE) Estimacin (EE) Razn
(Intercept) -0.7396 (0.1664) -1.6183 (0.5707) 2.188075
trt 0.0373 (0.2467) -0.1608 (0.7274) -4.310992
times -0.1319 (0.0263) -0.3910 (0.0329) 2.964367
trt:times -0.0896 (0.0484) -0.1368 (0.0451) 1.526786

CDC Clatse 2008 S3

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

CDC Clatse 2008 S3

Hochgeladen von

Copyright:

Verfügbare Formate

Gloria Icaza y Alejandro J ara

Modelos Lineales Generalizados Mixtos

Das könnte Ihnen auch gefallen