Sie sind auf Seite 1von 31

REGRESIN BETA Y APLICACIONES

GALARZA, CHRISTIAN
Departamento de Estastica IMECC / UNICAMP
INTRODUCCIN
En modelos de regresin, muchas veces la variable y de respuesta es una variable que
solamente toma valores en el intervalo continuo [0,1].
Ejemplos:
Porcentaje de tiempo dedicado a alguna actividad.
Tasa de pobreza, tasa de desempleo.
Calificacin de un examen.
Proporcin de un compuesto qumico en una mezcla.
Fraccin de la superficie talada de un bosque.
INTRODUCCIN
Principales problemas de variables con soporte restringido:
Heterocedasticidad.
Asimetra.
Bajo el supuesto de Normalidad se podra utilizar la transformacin =

Desventajas:
corregir la heterocedasticidad o la asimetra.
Dificultad de interpretacin.
Variable Respuesta
~(, )
Funcin de
Enlace
Variables
Explicativas
INTRODUCCIN
Regresin Beta
Ventajas:
Estimaciones precisas independientemente de la tendencia de los datos.
Facilidad de interpretacin dada una adecuada reparametrizacin.
REGRESIN BETA
[] =

+
[] =

+

+ + 1
(2.1)
Una variable aleatoria Y sigue una Distribucin Beta con parmetros , > 0
denotado por ~(, ) si la distribucin de Y tiene densidad:
; , =
) ( +

1

, 0 1
0,
siendo () la funcin gamma y su media y varianza dadas por
(2.2)
REGRESIN BETA
[] =
[] =
(1 )
1 +
(2.3)
Sea = /( + ) y = + , i.e., = y = 1 ; sobre la nueva
parametrizacin ~(, ) y su densidad en (2.1) puede ser escrita como,
; , =
()
1

1

, 0 1
0,
con media y varianza dadas por
(2.4)
FIGURA 1.1
Densidades beta para diferentes valores de (indicados e el grfico), co = 10 (a) y = 90 (b).
REGRESIN BETA
Consideremos una muestra independente

~(

, ).
Sea g() una funcin (0,1)R, estrictamente montona y dos veces diferenciable.

DISTRIBUCIN NOMBRE FUNCIN DE ENLACE


Logstica Logit
= log [ (1 )]
Normal estndar Probit
=

()
Valor mnimo extremo Log-log Complemento
= log [log 1 ]
Valor mximo extremo Log-log
= log [log ]
Cauchy Cauchit
= tan [( 0.5)]
REGRESIN BETA
(2.6)
La funcin de Log verosimilitud ,

puede ser calculada como,


,

,
donde

= log log

log 1

1 log

+ { 1

1} log 1

Ntese que

) es una funcin de .
REGRESIN BETA
sando logit como funcin de enlace tenemos

= logit

= log

=
exp

) 1 + ex p(

= logit

= log

(2.8)
(2.7)
(2.9)
REGRESIN BETA
) (

()

) (

) (

(1

) (

+ log 1

(1

) +
siendo la funcin digamma
1
,

(1

) y

definido en (2.9).
1
Em geral, a funo poligama est definida para m = 0,1,.., como

=

() , > .
REGRESIN BETA

()

()

()

()

()

()

()

()

()

()

()

Matriz H

()

1 2

()

(1

()

()
siendo

.
REGRESIN BETA
REGRESIN BETA
Matriz de Informacin Esperada de Fisher
() =

(1

()
REGRESIN BETA
Matriz de Informacin Esperada de Fisher
() =


tr
onde = diag{

, ,

}, = diag{

, ,

}, =

, ,


e = diag{

, ,

} com

= 1

.
REGRESIN BETA
Los estimadores de Mxima Verosimilitud para pueden ser calculados de manera
iterativa por los algoritmos:
Newton-Raphson Escoring de Fisher

()
=
()
+ ()


()


()
=
()
+ ()


()

Hasta alcanzar , i.e.,

()

()
< , = 10

.
REGRESIN BETA
Para muestras grandes, y sobre condiciones de regularidad, los estimadores de
Mxima Verosimilitud de

y , tienen aproximadamente distribucin de
conjunta normal (p+1) multivariada, i.e.,

, ()

donde los errores estndar de los estimadores pueden ser obtenidos de la matriz de
Variancias y Covarincias ()

como


= diag



.
REGRESIN BETA
Simas et al. (2010). Modelo de regresin Beta con dispersin variable, i.e., ms
especficamente

~(

) para cada i, con funcin de enlace:


siendo y vectores de los coeficientes de regresin,

predictores lineales y

vectores de regresores.
Modelo de Regresin Beta con dispersin variable
Software: R
Package: b e t a r e g
Data: Gasoline Yield. Prater (1956)
Variable de Respuesta:
y i e l d , Proporcin de petrleo bruto convertida en gasolina despus de los procesos de
destilacin y fraccionamiento.
Covariables
T e mp : temperatura (en grados Fahrenheit) a la cual toda la gasolina es evaporada
B a t c h : factor que contiene diez niveles correspondientes a diferentes lotes, los cuales fueron
sometidos a diferentes condiciones experimentales.
APLICACIN
FIGURA 2.1
Temperatura en grados Fahrenheit cuando la gasolina es evaporada Vs. proporcin de petrleo bruto
convertida en gasolina depus de los procesos de destilacin y fraccionamento. Las observaciones
conectadas por nmeros iguales representan un nivel del factor b a t c h .
Modelo simple con funcin
de enlace logit para

y
parmetro de precisin
constante.
> d a t a ( " Ga s o l i n e Y i e l d " , p a c k a g e = " b e t a r e g " )
> B R _ l o g i t = b e t a r e g ( y i e l d ~ b a t c h + t e mp ,
d a t a = Ga s o l i n e Y i e l d )
> s u mma r y ( B R _ l o g i t )
C a l l :
b e t a r e g ( f o r mu l a = y i e l d ~ b a t c h + t e mp , d a t a =
Ga s o l i n e Y i e l d )
S t a n d a r d i z e d we i g h t e d r e s i d u a l s 2 :
Mi n 1 Q Me d i a n 3 Q Ma x
- 2 . 8 7 5 0 - 0 . 8 1 4 9 0 . 1 6 0 1 0 . 8 3 8 4 2 . 0 4 8 3
C o e f f i c i e n t s ( me a n mo d e l wi t h l o g i t l i n k ) :
E s t i ma t e S t d . E r r o r z v a l u e P r ( >| z | )
( I n t e r c e p t ) - 6 . 1 5 9 5 7 1 0 0 . 1 8 2 3 2 4 7 - 3 3 . 7 8 4 < 2 e - 1 6 * * *
b a t c h 1 1 . 7 2 7 7 2 8 9 0 . 1 0 1 2 2 9 4 1 7 . 0 6 7 < 2 e - 1 6 * * *
b a t c h 2 1 . 3 2 2 5 9 6 9 0 . 1 1 7 9 0 2 0 1 1 . 2 1 8 < 2 e - 1 6 * * *
b a t c h 3 1 . 5 7 2 3 0 9 9 0 . 1 1 6 1 0 4 5 1 3 . 5 4 2 < 2 e - 1 6 * * *
b a t c h 4 1 . 0 5 9 7 1 4 1 0 . 1 0 2 3 5 9 8 1 0 . 3 5 3 < 2 e - 1 6 * * *
b a t c h 5 1 . 1 3 3 7 5 1 8 0 . 1 0 3 5 2 3 2 1 0 . 9 5 2 < 2 e - 1 6 * * *
b a t c h 6 1 . 0 4 0 1 6 1 8 0 . 1 0 6 0 3 6 5 9 . 8 0 9 < 2 e - 1 6 * * *
b a t c h 7 0 . 5 4 3 6 9 2 2 0 . 1 0 9 1 2 7 5 4 . 9 8 2 6 . 2 9 e - 0 7 * * *
b a t c h 8 0 . 4 9 5 9 0 0 7 0 . 1 0 8 9 2 5 7 4 . 5 5 3 5 . 3 0 e - 0 6 * * *
b a t c h 9 0 . 3 8 5 7 9 3 0 0 . 1 1 8 5 9 3 3 3 . 2 5 3 0 . 0 0 1 1 4 * *
t e mp 0 . 0 1 0 9 6 6 9 0 . 0 0 0 4 1 2 6 2 6 . 5 7 7 < 2 e - 1 6 * * *
P h i c o e f f i c i e n t s ( p r e c i s i o n mo d e l wi t h i d e n t i t y l i n k ) :
E s t i ma t e S t d . E r r o r z v a l u e P r ( >| z | )
( p h i ) 4 4 0 . 3 1 1 0 . 0 4 . 0 0 2 6 . 2 9 e - 0 5 * * *
- - -
S i g n i f . c o d e s : 0 ' * * * ' 0 . 0 0 1 ' * * ' 0 . 0 1 ' * ' 0 . 0 5 ' . ' 0 . 1
' ' 1
T y p e o f e s t i ma t o r : ML ( ma x i mu m l i k e l i h o o d )
L o g - l i k e l i h o o d : 8 4 . 8 o n 1 2 Df
P s e u d o R - s q u a r e d : 0 . 9 6 1 7
N u mb e r o f i t e r a t i o n s : 5 1 ( B F GS ) + 3 ( F i s h e r s c o r i n g )
Modelo con dispersin variable
y funcin de enlace logit para

y
> B R _ l o g i t V = b e t a r e g ( y i e l d ~ b a t c h + t e mp | t e mp ,
d a t a = Ga s o l i n e Y i e l d )
> s u mma r y ( B R _ l o g i t V )
C a l l :
b e t a r e g ( f o r mu l a = y i e l d ~ b a t c h + t e mp | t e mp , d a t a =
Ga s o l i n e Y i e l d , l i n k = " l o g i t " )
S t a n d a r d i z e d we i g h t e d r e s i d u a l s 2 :
Mi n 1 Q Me d i a n 3 Q Ma x
- 2 . 5 3 9 9 - 0 . 7 7 9 2 - 0 . 1 1 6 7 0 . 8 6 2 1 2 . 9 4 1 9
C o e f f i c i e n t s ( me a n mo d e l wi t h l o g i t l i n k ) :
E s t i ma t e S t d . E r r o r z v a l u e P r ( >| z | )
( I n t e r c e p t ) - 5 . 9 2 3 2 3 6 1 0 . 1 8 3 5 2 6 2 - 3 2 . 2 7 5 < 2 e - 1 6 * * *
b a t c h 1 1 . 6 0 1 9 8 7 7 0 . 0 6 3 8 5 6 1 2 5 . 0 8 7 < 2 e - 1 6 * * *
b a t c h 2 1 . 2 9 7 2 6 6 3 0 . 0 9 9 1 0 0 1 1 3 . 0 9 0 < 2 e - 1 6 * * *
b a t c h 3 1 . 5 6 5 3 3 8 3 0 . 0 9 9 7 3 9 2 1 5 . 6 9 4 < 2 e - 1 6 * * *
b a t c h 4 1 . 0 3 0 0 7 2 0 0 . 0 6 3 2 8 8 2 1 6 . 2 7 6 < 2 e - 1 6 * * *
b a t c h 5 1 . 1 5 4 1 6 3 0 0 . 0 6 5 6 4 2 7 1 7 . 5 8 2 < 2 e - 1 6 * * *
b a t c h 6 1 . 0 1 9 4 4 4 6 0 . 0 6 6 3 5 1 0 1 5 . 3 6 4 < 2 e - 1 6 * * *
b a t c h 7 0 . 6 2 2 2 5 9 1 0 . 0 6 5 6 3 2 5 9 . 4 8 1 < 2 e - 1 6 * * *
b a t c h 8 0 . 5 6 4 5 8 3 0 0 . 0 6 0 1 8 4 6 9 . 3 8 1 < 2 e - 1 6 * * *
b a t c h 9 0 . 3 5 9 4 3 9 0 0 . 0 6 7 1 4 0 6 5 . 3 5 4 8 . 6 3 e - 0 8 * * *
t e mp 0 . 0 1 0 3 5 9 5 0 . 0 0 0 4 3 6 2 2 3 . 7 5 1 < 2 e - 1 6 * * *
P h i c o e f f i c i e n t s ( p r e c i s i o n mo d e l wi t h l o g l i n k ) :
E s t i ma t e S t d . E r r o r z v a l u e P r ( >| z | )
( I n t e r c e p t ) 1 . 3 6 4 0 8 9 1 . 2 2 5 7 8 1 1 . 1 1 3 0 . 2 6 6
t e mp 0 . 0 1 4 5 7 0 0 . 0 0 3 6 1 8 4 . 0 2 7 5 . 6 5 e - 0 5 * * *
- - -
S i g n i f . c o d e s : 0 ' * * * ' 0 . 0 0 1 ' * * ' 0 . 0 1 ' * ' 0 . 0 5 ' . ' 0 . 1
T y p e o f e s t i ma t o r : ML ( ma x i mu m l i k e l i h o o d )
L o g - l i k e l i h o o d : 8 6 . 9 8 o n 1 3 Df
P s e u d o R - s q u a r e d : 0 . 9 5 1 9
N u mb e r o f i t e r a t i o n s : 3 3 ( B F GS ) + 2 8 ( F i s h e r s c o r i n g )
COMPARACIONES
Test de la Razn de Verosimilitud Criterio de Informacin de Akaike
L i k e l i h o o d r a t i o t e s t
Mo d e l 1 : y i e l d ~ b a t c h + t e mp
Mo d e l 2 : y i e l d ~ b a t c h + t e mp | t e mp
#Df L o g L i k Df C h i s q P r ( >C h i s q )
1 1 2 8 4 . 7 9 8
2 1 3 8 6 . 9 7 7 1 4 . 3 5 9 0 . 0 3 6 8 1 *
- - -
S i g n i f . c o d e s : 0 * * * 0 . 0 0 1 * *
0 . 0 1 * 0 . 0 5 . 0 . 1 1
> A I C ( B R _ l o g i t , B R _ l o g i t V )
d f A I C
B R _ l o g i t 1 2 - 1 4 5 . 5 9 5 1
B R _ l o g i t V 1 3 - 1 4 7 . 9 5 4 1

~(

, )

~(

)
FIGURA 2.2
Curvas de prediccin de la proporcin de petrleo bruto convertida en gasolina despus de los procesos
de destilacin y fraccionamento dada la temperatura en grados Fahrenheit donde la gasolina es
evaporada. Cada curva con diferente color representa un nivel del factor b a t c h .
COMPARACIONES
Modelo Simple y diferentes funciones de enlace: logit, probit y loglog.
Criterio de Informacin de Akaike
> B R _ l o g i t = b e t a r e g ( y i e l d ~ b a t c h + t e mp , Ga s o l i n e Y i e l d , l i n k =" l o g i t " )
> B R _ p r o b i t = b e t a r e g ( y i e l d ~ b a t c h + t e mp , Ga s o l i n e Y i e l d , l i n k =" p r o b i t " )
> B R _ l o g l o g = b e t a r e g ( y i e l d ~ b a t c h + t e mp , Ga s o l i n e Y i e l d , l i n k =" l o g l o g " )
> A I C ( B R _ l o g i t , B R _ p r o b i t , B R _ l o g l o g )
d f A I C
B R _ l o g i t 1 2 - 1 4 5 . 5 9 5 1
B R _ p r o b i t 1 2 - 1 5 5 . 6 5 7 5
B R _ l o g l o g 1 2 - 1 6 8 . 3 1 0 1
FIGURA 2.3
Curvas medias de prediccin de la proporcin de petrleo bruto convertida en gasolina despus de los
procesos de destilacin y fraccionamento dada la temperatura en grados Fahrenheit donde la gasolina
es evaporada. Cada curva representa la funcin media ajustando los datos con modelos con funciones
de enlace logit, probit y loglog.
Varying dispersion beta regression models: Smithson & Verkuilen (2006).
A general class of beta regression models: Simas, Barreto-Souza & Rocha (2010).
Inflated beta regression models: Cook, Kieschnick, McCullough (2008), Ospina &
Ferrari (2010,2012a), Calabrese (2012).
Truncated inflated beta regression models: Pereira, Botter & Sandoval (2011,
2013).
Semi-parametric beta regression: Branscum, Jonhson & Thurmond (2007), Weihua
et al (2012).
OTROS MODELOS
Time series: Rydlewski (2007), Rocha & CribariNeto (2009), Billio & Casarin
(2011), Casarin, Dalla Valle, Leisen (2012); da-Silva, Migon & Correia (2011), da-Silva
& Migon (2012), Guolo & Varin (2012).
Multivariate beta regression: Souza & Moura (2012a, 2012b)
Mixed beta regression: Zimprich (2010), Verkuilen & Smithson (2012), Figueroa
Ziga, Arellano Valle & Ferrari (2013), Bonat, Ribeiro Jr & Zeviani (2013).
Errors-in-variables beta regression models: Carrasco, Ferrari, ArellanoValle
(2012) (more later).
Beta rectangular regression models: Bayes, Bazn & Garca (2012).
OTROS MODELOS
Johnson et al. (1995, p. 235). The beta distributions are among the most frequently employed to
model theoretical distributions.
Bury (1999). Applications of the beta distribution in engineering.
Janardan and Padmanabhan (1986). Modelling of hydrological variables using the beta
distribution.
McNal ly (1990). Use of the beta distribution in the study of reproducibility of cows.
Graham e Hol lands (1990) e Milyutin e Yaromenko (1991). Use the beta distribution in studies of
indices related to the transmission of solar radiation
Maffet and Wackerman (1991). Power of radar signals is modeled by using the beta law.
Wiley et al. (1989). Develop a beta model to estimate the probability of HIV transmission during
sexual intercourse involving infected and non-infected individuals.
INVESTIGACIONES
1) Bayer, F.M. (2011) Modelagem e Inferncia em Regresso Beta, Tese de Doutorado, Universidade Federal de
Pernambuco, Recife, Brasil.
2) Biguelini, C.B.,(2009). Modelo de Regresso Beta para a Anlise da Origem dos Problemas de Sistemas Prediais.
Monografia. Universidade Federal do Rio Grande do Sul.
3) Branscum, A.J., Johnson, W.O. & Thurmond, M.C. (2007). Bayesian beta regression: applications to household
expenditure data and genetic distance between foot-and-mouth disease viruses. Australian and New Zealand Journal
of Statistics, 49, 287301.
4) CribariNeto, F. & Zeiles, A. (2010). Beta regression in R. Journal of Statistical Software, 34, 124.
5) Espinheira, P.L., Ferrari, S.L.P. & CribariNeto, F. (2008a). Influence diagnostics in beta regression. Computational
Statistics and Data Analysis, 52, 44174431.
6) Ferrari, S.L.P. & CribariNeto, F. (2004). Beta regression for modelling rates and proportions. Journal of Applied
Statistics, 31, 799815.
7) Ferrari, S.L.P., Espinheira, P.L. & CribariNeto, F. (2011). Diagnostic tools in beta regression with varying
dispersion. Statistica Sinica, 65, 337351.
8) Ospina, R., CribariNeto, F. & Vasconcellos, K.L.P. (2006). Improved point and interval estimation for a beta
regression model. Computational Statistics and Data Analysis, 51, 960981. Erratum at Computational Statistics
and Data Analysis, 55, 2445.
REFERENCIAS
GRACIAS!

Das könnte Ihnen auch gefallen