Beruflich Dokumente
Kultur Dokumente
0
+cos(
2
X)
+ e
e: trmino de error
0
,
1
,
2
y
3
: parmetros.
Modelos 1, 2 y 3: modelos vlidos.
Modelo 4: modelo no vlido.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Modelo de Regresin Lineal Simple
Y
i
=
0
+
1
X
i
+ e
i
i = 1, . . . , n
h(Y
i
) =
0
+
1
g(X
i
) + e
i
i = 1, . . . , n
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Supuestos del Modelo
1
VE1) Es tal que cuando n , su varianza muestral
1
n
n
i =1
(X
i
X)
2
Q donde Q es una constante ja nita.
2
VE2) El cuarto momento de X es nito.
1
E1) Tienen media cero (condicional en X),
E(e
i
X
i
) = 0 Cov(e
i
, X
i
) = 0. La variable explicativa X
y el error e no estn correlacionados.
2
E2) Son homoscedsticos (Tienen varianza constante),
Var (e
i
X
i
) =
2
. Por lo tanto, el error tiene varianza
constante que no es funcin de la variable explicativa.
3
E3) No estn correlacionados, Cov(e
i
, e
j
X
i
, X
j
) = 0 para
toda i = j .
4
E4) Tienen una distribucin normal, por tanto,
e
i
N(0,
2
)
Equivalentemente,
e N(0,
2
I
nn
)
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Ntese que dados estos supuestos,
E(Y
i
X
i
) =
0
+
1
X
i
Var (Y
i
X
i
) =
2
Y
i
X
i
N(
0
+
1
X
i
,
2
) independientes.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Estimacin por Mnimos Cuadrados
Minimizar:
SC(
0
,
1
) =
n
i =1
(Y
i
0
1
X
i
)
2
Bajo normalidad de los errores es equivalente a Mxima
Verosimilitud.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
0
2
4
6
8
h
c
u
a
r
t
o
s
2 4 6 8 10 12
hocupantes
Figure: Criterio de Mnimos Cuadrados.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
1
El valor ajustado de la E[Y X
i
] dado por el modelo (Y
gorro)
Y
i
:
Y
i
=
0
+
1
X
i
2
Suma de Cuadrados Total SCT:
SCT =
n
i =1
(Y
i
Y)
2
Es la variacin de Y sin tomar en cuenta la informacin
dada por X.
3
Suma de Cuadrados del Modelo SCM:
SCM =
n
i =1
(
Y
i
Y)
2
Es la variacin de los valores predichos por el modelo
alrededor de su media
Y.
4
Suma de Cuadrados del Error SCE:
SCE =
n
i =1
(Y
i
Y
i
)
2
Para el modelo de regresin lineal simple en el cual se incluye
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
A partir de la descomposicin en suma de cuadrados
SCT = SCM + SCE
se dene el coeciente de determinacin como
R
2
=
SCM
SCT
=
(
1
SCE
SCT
)
100
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Es signicativa (importante) la variable explicativa X ?
1
s
1
SC
XX
t
(n2)
t-Student con n 2 g.l.
I.C: al (1 )100% para
1
:
1
t
(n2),1
2
s
1
SC
XX
donde t
(n2),1
2
es el percentil
(
1
2
)
100% de una
distribucin t -Student con n 2 grados de libertad (g.l .).
Prueba de Hiptesis:
H
0
:
1
= 0 vs. H
a
:
1
= 1
1
s
1
SC
XX
t
(n2)
es una cantidad pivotal bajo H
0
.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Recurdese que E(Y X), para X dada, es un parmetro
(cantidad ja desconocida).
E[Y X = x] =
Y
x
Y
x
0
1
x
s
1
n
+
(x
X)
2
SC
XX
t
(n2)
I.C. al (1 )100% para E[Y X = x]
Y
x
t
(n2),1
2
s
1
n
+
(x
X)
2
SC
XX
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
0
2
4
6
8
h
c
u
a
r
t
o
s
2 4 6 8 10 12
hocupantes
Figure: Intervalos de Conanza al 95% para E(Y X).
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Prediccin de Valores Futuros:
I.P. al (1 )100% para el valor futuro de Y en X = x
0
+
1
x t
(n2),1
2
s
1 +
1
n
+
(x
X)
2
SC
XX
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Anlisis de Residuales
e
i
, denido como
e
i
= Y
i
Y
i
= observado
i
esperado
i
Determinar la existencia de violaciones a los supuestos del
modelo.
Si el modelo ajustado es adecuado entonces los residuales
{
e
1
,
e
2
, . . . ,
e
n
} se deben comportar como una muestra de los
errores {e
1
, e
2
, . . . , e
n
}.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Inclusin de Variables Cualitativas:
Para incluir una variable cualitativa como variable explicativa
con m niveles (m posibles valores) en un modelo de regresin
es necesario
construir m1 variables indicadoras relacionadas
con m1 de los m niveles de la variable cualitativa.
Una variable indicadora, como su nombre lo seala,
indica si el individuo tiene el valor de la variable
cualitativa especicado en la denicin de la variable
indicadora.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Por ejemplo,
1
Para la variable Sexo con posibles valores Hombre (H) y
Mujer (M) es necesario construir una variable indicadora:
I
H
(i ) =
{
1 si el i-simo individuo es hombre
0 en otro caso
2
Para la variable Carrera con posibles valores Actuara,
Matemticas, Administracin, Contabilidad y Otra es
necesario construir 4 variables indicadoras:
I
Act
(i ) =
{
1 si el i-simo individuo estudia Actuara
0 en otro caso
I
Mat
(i ) =
{
1 si el i-simo individuo estudia Matemticas
0 en otro caso
I
Conta
(i ) =
{
1 si el i-simo individuo estudia Contabilidad
0 en otro caso
I
Otra
(i ) =
{
1 si el i-simo individuo estudia Otra
0 en otro caso
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Trmino de Interaccin: producto de una variable cuantitativa
por una variable indicadora.
Ejemplo:
1
Y: Salario.
2
X
1
: NSE (A, B y C).
3
X
2
: Horas de Trabajo (HTrabajo).
Si utilizamos indicadoras para los niveles A y B podemos
escribir el modelo de regresin lineal como
Salario
i
=
0
+
1
HTrabajo
i
+
2
I
A
(i ) +
3
I
B
(i )+
4
HTrabajo
i
I
A
(i ) +
5
HTrabajo
i
I
B
(i ) + e
i
Salario
i
=
0
+
1
HTrabajo
i
+
2
I
A
(i ) +
3
I
B
(i )+
4
HTrabajo
i
I
A
(i ) +
5
HTrabajo
i
I
B
(i )
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Criterios de Seleccin de Modelos
Escoger el modelo que maximice la R
2
(R
2
a
).
C
p
=
SCE
reducido
s
2
completo
+ 2p n
Escoger el modelo nal como aquel que minimiza C
p
o que
haga C
p
p.
AIC = 2l + 2p = cte + 2p + n ln(SCE)
Escoger el modelo con el menor AIC.
BIC = 2l + p ln(n) = cte + p ln(n) + n ln(SCE)
Escoger el modelo con el menor BIC.
PRESS =
n
i =1
(Y
i
Y
i (i )
)
2
Escoger el modelo con el menor PRESS (Validacin Cruzada).
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
EJEMPLO 1.
REGRESIN LINEAL SIMPLE:
ESPERANZA DE VIDA VS. NMERO DE HABITANTES POR
CADA DOCTOR
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
2. Modelos Lineales Generalizados
Los modelos de regresin lineal presentan dos grandes
problemas:
1
La variable dependiente, Y, debe tener una distribucin
Normal (los errores tienen una distribucin Normal).
2
La relacin debe de ser lineal en los parmetros.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
En la prctica es posible pensar en varias situaciones en las
cuales Y no tiene una distribucin normal:
1
Nmero de accidentes en un ao para cierta cartera de
asegurados, Y Poisson() = Po().
2
Nmero de partidos que ganar cierto equipo de un total
de n, Y Binomial (n, ) = Bi (n, ).
3
Monto de reclamaciones, Y Gamma(, ).
En estas situaciones se puede contar con variables explicativas
que pensamos puedan tener cierta relacin con los parmetros
de inters (, , , ).
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Generalmente consideramos la siguiente ecuacin de
regresin
E[Y
i
x
i
] = g
i
(x
i
) para i = 1, . . . , n
donde g
i
() son funciones montonas (con inversa) y
comnmente g
i
() = g() para i = 1, . . . , n.
Las distribuciones para las cuales los modelos lineales
generalizados estn denidos son aquellas que pertenecen a
la familia exponencial.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Funciones de densidad:
f (y; , ) = c(y, )e
ya()
E[Y] = =
a()
Var (Y) =
a() = V()
Ejemplos:
1
Y Po()
2
Y Bi (n, p)
3
Y Normal (,
2
) = N(,
2
)
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Liga cannica y funcin de varianza:
Modelo Liga Cannica Funcin de Parmetro de
Varianza V() Dispersin
Bernoulli ln
(
i
1
i
)
= x
i
i
(1
i
) 1
Poisson ln(
i
) = x
i
i
1
Normal
i
= x
i
1
Gamma
1
i
= x
i
2
i
Normal Inversa
2
i
= x
i
3
i
Table: Ligas Cannicas.
Pesos para cada observacin:
=
w
i
para i = 1, . . . , n
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Un modelo lineal generalizado se compone de 3 elementos:
1
Vector de observaciones de la variable dependiente Y,
suponiendo que Y tiene una distribucin en la familia
exponencial.
2
Matriz de diseo, tamao n p (p 1 covariables)
Vector de parmetros
3
Funcin liga g():
i
= E(Y
i
)
i
= X
i
= g(
i
)
i
= g
1
(X
i
)
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Por lo tanto, la base de datos es
Y
1
X
11
X
21
. . . X
p1,1
Y
2
X
12
X
22
. . . X
p1,2
.
.
.
.
.
.
.
.
. . . .
.
.
.
Y
n
X
1n
X
2n
. . . X
p1,n
10
i =1
i
X
i
Modelo reducido:
i
=
0
+
1
X
1
+
2
X
10
Modelos anidados: Se dice que los modelos
M
1
, M
2
, . . . , M
k
estn anidados si M
1
M
2
. . . M
k
Ejemplo:
M
1
: utiliza X
1
, X
2
, . . . , X
10
M
2
: utiliza X
1
, X
3
, X
5
M
3
: utiliza X
1
, X
3
M
4
: utiliza X
1
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Prueba de Cociente de Verosimilitudes
La prueba del cociente de verosimilitudes: Modelo completo
vs. Modelo reducido:
RC
=
L
R
L
C
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
La idea principal es que si la hiptesis nula es cierta entonces
L
R
y
L
C
deben ser muy cercanos en valor.
Si H
0
es verdadera (bajo H
0
) entonces
2 ln(
RC
)
2
pk
grados de libertad: parmetros de ms en el modelo completo,
los que fueron jados en la hiptesis nula.
Ahora, denotando por
L
S
el valor mximo de la verosimilitud
bajo el modelo saturado, podemos escribir
RC
=
L
R
L
S
L
C
L
S
2 ln(
RC
) = 2
(
ln
(
L
R
L
S
)
ln
(
L
C
L
S
))
= 2 ln(
RS
)2 ln(
CS
)
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Cuando el parmetro de escala del modelo lineal
generalizado (e.g. Binomial, Poisson) entonces
D = 2 ln(
0
)
es la devianza. Si el parmetro de escala es desconocido (e.g.
Normal) entonces
D
L
M
k
L
S
)
M
k1
2 ln
(
L
M
k1
L
S
)
D
M
k1
D
M
k
.
.
.
.
.
.
.
.
.
M
1
2 ln
(
L
M
1
L
S
)
D
M
1
D
M
2
C 2 ln
(
L
C
L
S
)
D
C
D
M
1
S 0 0 D
S
D
C
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Anlisis de Residuales
Distintos tipos de residuales se pueden denir para un modelo
lineal generalizado
1
Pearson
r
p
=
Y
Var( )
2
Residual de devianza Cada observacin tiene una
contribucin a la devianza
D =
n
i =1
d
i
D =
n
i =1
d
2
i
r
D
= signo(Y )
d
i
r
D
= signo(Y )d
i
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Regresin Logstica: Respuesta Binaria
Variable aleatoria de Bernoulli: slo puede tomar dos posibles
valores.
Ejemplos: pliza de seguro de vida. Portafolios de plizas de
automviles.
Z=1=xito y Z=0=fracaso Z Ber (p), f (z), est dada por
f (z) =
z
(1 )
1z
para z = 0, 1
donde (0, 1) es la probabilidad de xito.
E(Z) = y Var (Z) = (1 ).
Desde el punto de vista de los modelos lineales generalizados
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Funcin liga logit:
ln
(
i
1
i
)
= x
i
=
0
+ x
i 1
1
+. . . + x
i ,p1
p1
i
=
e
x
1 + e
x
=
e
0
+x
i 1
1
+...+x
i ,p1
p1
1 +e
0
+x
i 1
1
+...+x
i ,p1
p1
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Momio:
i
1
i
Si denotamos por m al momio, es decir, m =
1
entonces =
m
1+m
. Funcin de verosimilitud:
L( z) =
n
i =1
z
i
i
(1
i
)
1z
i
.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Interpretacin de los coecientes del modelo de regresin
logstica:
m(x
i 1
, . . . , x
ik
, . . . , x
i ,p1
) =
i
1
i
= e
x
i
= e
0
+x
i 1
1
+...+x
i ,p1
p1
De x
k
a x
k
+ 1
m(x
i 1
, . . . , x
ik
+ 1, . . . , x
i ,p1
) =
i
1
i
=
e
0
+x
i 1
1
+...+(x
ik
+1)
k
+...+x
i ,p1
p1
y, el cociente de momios resulta ser
m(x
i 1
, . . . , x
ik
+ 1, . . . , x
i ,p1
)
m(x
i 1
, . . . , x
ik
, . . . , x
i ,p1
)
= e
k
o equivalentemente
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
m(x
i 1
, . . . , x
ik
+ 1, . . . , x
i ,p1
) = m(x
i 1
, . . . , x
ik
, . . . , x
i ,p1
)e
k
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Un modelo alternativo al modelo de regresin logstica es el
modelo probit que satisface
i
= (
0
+x
i 1
1
+. . . + x
i ,p1
p1
))
donde (x) es la funcin de distribucin acumulada de una
variable normal estndar.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
EJEMPLO 2.
REGRESIN LOGSTICA.
HUNDIMIENTO DEL TITANIC.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Modelo Poisson : Regresin Poisson
Una variable aleatoria Y sigue una funcin de densidad
Poisson (Y Po()) si
f (y) =
y
y!
e
para y = 0, 1, 2, . . .
donde el parmetro > 0.
La variable aleatoria Poisson es til para modelar el nmero de
ocurrencias de cierto evento en el tiempo (medio continuo).
Ntese que E(Y) = y Var (Y) = . El objetivo consiste en
modelar como funcin de ciertas covariables.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Liga cannica: logaritmo,
ln(
i
(x
i 1
, . . . , x
i ,p1
)) = x
i
=
0
+ x
i 1
1
+. . . + x
i ,p1
p1
y
i
(x
i 1
, . . . , x
i ,p1
) = e
x
= e
0
+x
i 1
1
+...+x
i ,p1
p1
.
De x
k
a x
k
+ 1
i
(x
i 1
, . . . , x
ik
+1, . . . , x
i ,p1
) = e
0
+x
i 1
1
+...+(x
ik
+1)
k
+...+x
i ,p1
p1
y entonces
i
(x
i 1
, . . . , x
ik
+ 1, . . . , x
i ,p1
) =
e
0
+x
i 1
1
+...+x
ik
k
+...+x
i ,p1
p1
e
k
=
i
(x
i 1
, . . . , x
ik
, . . . , x
i ,p1
)e
k
.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Funcin de verosimilitud:
L( y) =
n
i =1
i
(x
i 1
, . . . , x
i ,p1
)
y
i
y
i
!
e
i
(x
i 1
,...,x
i ,p1
)
.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Modelo Poisson:
Varianza = Media
Sobredispersin (Cuasipoisson):
Varianza > Media
Las estimaciones de los parmetros para el modelo Poisson
y cuasiPoisson son idnticos pero los errores estndar son
diferentes.
En el caso del modelo Poisson, otra posibilidad para modelar
sobredispersin es anidar el modelo Poisson en un modelo
Binominal Negativo.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Modelo Binomial Negativo
Y E Poisson(E) y E Gamma()
E(Y) =
Var (Y) = +
2
f
Y
(y , ) =
(+y)
()y!
(+)
+y
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
EJEMPLO 3.
REGRESIN POISSON.
ACCIDENTES DE BARCOS.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Modelos para Variables Continuas Positivas
Los modelos GLM para respuestas continuas positivas son
muy tiles para el anlisis de los montos de las reclamaciones
en Actuara.
Gamma,
Normal Inversa y
Modelo Tweedie (para frecuencia y severidad).
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Modelo Gamma
T Gamma(, r )
f
T
(t ) =
r
r
(r )
r
t
r 1
e
rt
para t , r , > 0
La liga cannica corresponde a la inversa pero se acostumbra
utilizar una liga logaritmo.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Modelo Normal Inverso
Y IG(, )
f (y) =
(
2y
3
)
1
2
e
(y)
2
2
2
y
para y, , > 0
La media es y la varianza es
3
. La liga cannica es
1
2
y la
funcin de varianza es V() =
3
. Nuevamente, en la prctica
se preere utilizar la liga logaritmo.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
Modelo Tweedie
Sea Y una variable aleatoria tal que
Y =
N
k=1
Z
k
donde
N sigue una distribucin Poisson (Po())
las Zs son independientes e idnticamente distribuidas
como Gamma entonces,
Y sigue una distribucin Tweedie la cual asigna una
probabilidad positiva al caso Y = 0 siendo una mezcla de
una distribucin discreta y una distribucin continua.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
3. Aplicacin en Taricacin
Ideas Fundamentales:
1
Descomponer la taricacin en componentes de
frecuencia y severidad.
2
Utilizar factores de taricacin aprovechando la naturaleza
multiplicativa de las ligas logaritmo en el modelo de
frecuencia (p. ej. Poisson o binomial negativa) y el modelo
de severidad (p.ej. gamma o normal inversa).
3
Generalmente, es mejor en la prctica modelar por
separado la frecuencia y severidad que utilizar el modelo
Tweedie.
4
Necesidad de utilizar offsets para denir la exposicin.
5
Regresin Logstica para modelar la renovacin.
6
La varianza de la prima se puede obtener mediante el
mtodo delta.
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)
EJEMPLO 4. TARIFICACIN.
MODELO DE FRECUENCIA: POISSON-BINOMIAL
NEGATIVO
MODELO DE SEVERIDAD: GAMMA-LOGNORMAL
JUAN JOS FERNNDEZ DURN Modelos Lineales Generalizados (GLM)