You are on page 1of 138

Monique Bettio Massuia

CAMPINAS
2015

i
ii
Ficha catalogrfica
Universidade Estadual de Campinas
Biblioteca do Instituto de Matemtica, Estatstica e Computao Cientfica
Ana Regina Machado - CRB 8/5467

Massuia, Monique Bettio, 1989-


M389m MasModelos para dados censurados sob a classe de distribuies misturas de
escala skew-normal / Monique Bettio Massuia. Campinas, SP : [s.n.], 2015.

MasOrientador: Vctor Hugo Lachos Dvila.


MasDissertao (mestrado) Universidade Estadual de Campinas, Instituto de
Matemtica, Estatstica e Computao Cientfica.

Mas1. Modelos lineares (Estatstica). 2. Anlise de regresso. 3. Distribuio


normal assimtrica. 4. Algoritmos de esperana-maximizao. I. Lachos Dvila,
Vctor Hugo,1973-. II. Universidade Estadual de Campinas. Instituto de
Matemtica, Estatstica e Computao Cientfica. III. Ttulo.

Informaes para Biblioteca Digital

Ttulo em outro idioma: Censored regression models under the class of scale mixture of skew-
normal distributions
Palavras-chave em ingls:
Linear models (Statistics)
Regression analysis
Skew-normal distributions
Expectation-maximization algorithms
rea de concentrao: Estatstica
Titulao: Mestra em Estatstica
Banca examinadora:
Vctor Hugo Lachos Dvila [Orientador]
Filidor Edilfonso Vilca Labra
Luis Mauricio Castro Cepero
Data de defesa: 06-03-2015
Programa de Ps-Graduao: Estatstica

iv

Powered by TCPDF (www.tcpdf.org)


vi
Abstract

This work aims to present the linear regression model with censored response variable under
the class of scale mixture of skew-normal distributions (SMSN), generalizing the well known Tobit
model as providing a more robust alternative to the normal distribution.
A study based on classic inference is developed to investigate these censored models under two
special cases of this family of distributions, normal and Students-t, using the EM algorithm for
obtaining maximum likelihood estimates and developing methods of diagnostic based on global
and local influence as suggested by Cook (1986) and Poom & Poon (1999). Under a Bayesian
approach, the censored regression model was studied under some special cases of SMSN class, such
as normal, Students-t, skew-normal, skew-t and skew-slash. In these cases, the Gibbs sampler was
the main tool used to make inference about the model parameters.
We also present some simulation studies for evaluating the developed methodologies that,
finally, are applied on two real data sets. The packages SMNCensReg,CensRegMod and BayesCR
implemented for the software R give computational support to this work.

Keywords: Linear regression Models; Censored response variable; Gibbs sampler; EM algo-
rithm; Local influence; Scale mixture of skew-normal distributions

Resumo
Este trabalho tem como objetivo principal apresentar os modelos de regresso lineares com
respostas censuradas sob a classe de distribuies de mistura de escala skew-normal (SMSN),

vii
visando generalizar o clssico modelo Tobit ao oferecer alternativas mais robustas distribuio
Normal.
Um estudo de inferncia clssico desenvolvido para os modelos em questo sob dois casos
especiais desta famlia de distribuies, a normal e a t de Student, utilizando o algoritmo EM para
obter as estimativas de mxima verossimilhana dos parmetros dos modelos e desenvolvendo
mtodos de diagnstico de influncia global e local com base na metodologia proposta por Cook
(1986) e Poom & Poon (1999). Sob o enfoque Bayesiano, o modelo de regresso para respostas
censuradas estudado sob alguns casos especiais da classe SMSN, como a normal, a t de Student, a
skew-normal, a skew-t e a skew-slash. Neste caso, o amostrador de Gibbs a principal ferramenta
utilizada para a inferncia sobre os parmetros do modelo.
Apresentamos tambm alguns estudos de simulao para avaliar a metodologia desenvolvida
que, por fim, aplicada em dois conjuntos de dados reais. Os pacotes SMNCensReg,CensRegMod e
BayesCR implementados em R do suporte computacional para este trabalho.

Palavras-chave: Modelos de regresso linear; Varivel resposta censurada; Amostrador de


Gibbs; Algoritmo EM; Influncia Local; Distribuies misturas da escala skew normal.

Este trabalho foi financiado pela Fundao de Amparo Pesquisa do Estado de So Paulo (FAPESP) atravs
do processo nmero 2012/18702-9.

viii
Sumrio

Dedicatria xiii

Agradecimentos xv

1 Preliminares 1
1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Censura e truncamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Variveis censuradas e truncadas . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.2 Distribuies truncadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 O algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Algoritmos MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.1 Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.2 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 Critrios para comparao de modelos . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.1 Critrios frequentistas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.2 Critrios Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.7 Deteco de observaes influentes em estudos Bayesianos . . . . . . . . . . . . . . 19
1.8 Apresentao dos prximos captulos . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 Modelos Normal e t de Student para dados censurados 25


2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

ix
2.2 A famlia de mistura de escala normal (SMN) . . . . . . . . . . . . . . . . . . . . . 26
2.2.1 A distribuio t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Definio dos modelos N-CR e t-CR . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Inferncia Bayesiana para os modelos N-CR e t-CR . . . . . . . . . . . . . . . . . . 31
2.4.1 Construo do amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . 31
2.4.2 Aplicao I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5 Inferncia clssica para os modelos N-CR e t-CR . . . . . . . . . . . . . . . . . . . . 37
2.5.1 Construo do algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.5.2 Aproximao da varincia dos estimadores dos parmetros da regresso . . . 44
2.5.3 Anlise de diagnstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.5.4 Estudo de simulao I: Robustez das estimativas EM . . . . . . . . . . . . . 54
2.5.5 Estudo de simulao II: Desvios padres dos estimadores EM . . . . . . . . . 55
2.5.6 Aplicao II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3 Modelos para dados censurados sob a famlia de misturas de escala skew-normal 65


3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.2 Distribuies de mistura de escala skew-normal (classe SMSN) . . . . . . . . . . . . 66
3.3 Definio e inferncia Bayesiana para os modelos SMSN-CR . . . . . . . . . . . . . 76
3.3.1 Construo do amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . 78
3.4 Estudo de simulao III: perfomance dos modelos assimtricos sob perturbaes . . 81
3.5 Estudo de simulao IV: qualidade das estimativas dos modelos SMSN-CR . . . . . 84
3.6 Aplicao III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4 Consideraes finais 95
4.1 Produo tcnica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1.1 Artigos aceitos para publicao . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1.2 Artigos submetidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1.3 Pacotes para o software R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.2 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.3 Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

x
Referncias Bibliogrficas 105

A Desenvolvimento da pdf e cdf da skew-t 113

B Licena 117
B.1 Sobre a licena dessa obra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

xi
xii
Ao meu esposo Adriano, com todo o meu amor.

xiii
xiv
Agradecimentos

Ao meu esposo, Adriano Azinheira Massuia, o grande incentivador de minha graduao e mes-
trado. Obrigada por seu amor, seu companheirismo, sua pacincia e por suas ideias valiosas que
salvaram este trabalho inmeras vezes.

Ao meu orientador, Victor Hugo Lachos, pelos seus ensinamentos e compreenso e em especial
pela confiana depositada em mim.

Ao meu amigo Aldo Medina, por todo o suporte na construo desta dissertao e amizade ao
longo destes anos.

Fapesp, pelo apoio financeiro.

xv
xvi
Lista de Ilustraes

2.1 Densidade da t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28


2.2 Aplicao I. Deteco de observaes influentes. . . . . . . . . . . . . . . . . . . . . 36
2.3 Estudo de simulao I. Robustez das estimativas EM. . . . . . . . . . . . . . . . . . 55
2.4 Aplicao II. Seleo de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.5 Aplicao II. Grficos de envelope. . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.6 Aplicao II. Robustez das estimativas EM. . . . . . . . . . . . . . . . . . . . . . . 62
2.7 Aplicao II. Deteco de observaes influentes via distncia generalizada de Cook. 63
2.8 Aplicao II. Deteco de observaes influentes via medidas de influncia local. . . 64

3.1 Densidade da skew-normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67


3.2 Comparao entre as densidades da skew-normal, skew-t e skew-slash. . . . . . . . . 76
3.3 Estudo de simulao III. Robustez das estimativas pontuais sob modelos SMSN-CR. 83
3.4 Estudo de simulao III. Comparao entre ajustes de diferentes modelos SMSN-CR. 83
3.5 Estudo de simulao IV. Densidade da normal inversa gaussiana. . . . . . . . . . . . 84
3.6 Estudo de simulao IV. MAE e MSE das estimativas pontuais sob modelos SMSN-
CR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.7 Estudo de simulao IV. Box-plot para as estimativas pontuais sob modelos SMSN-
CR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.8 Aplicao III. Deteco de observaes influentes via divergncia K-L. . . . . . . . . 91
3.9 Aplicao III. Deteco de observaes influentes via distncia J. . . . . . . . . . . . 92
3.10 Aplicao III. Deteco de observaes influentes via distncia L1 . . . . . . . . . . . 93

xvii
xviii
Lista de Tabelas

2.1 Aplicao I. Resultado dos ajustes dos modelos N-CR e t-CR. . . . . . . . . . . . . 35


2.2 Aplicao I. Comparao entre os ajustes dos modelos N-CR e t-CR. . . . . . . . . 36
2.3 Estudo de simulao I. Robustez das estimativas EM. . . . . . . . . . . . . . . . . . 56
2.4 Estudo de simulao II. Desvio padro observado e estimado para os estimadores. . 57
2.5 Aplicao II. Resultados dos ajustes dos modelos N-CR e t-CR. . . . . . . . . . . . 60
2.6 Aplicao II. Comparao entre os ajustes dos modelos N-CR e t-CR. . . . . . . . . 60

3.1 Aplicao III. Resultado dos ajustes dos modelos SMSN-CR. . . . . . . . . . . . . . 89


3.2 Aplicao III. Comparao entre os ajustes dos modelos SMSN-CR. . . . . . . . . . 90
3.3 Aplicao III. Avaliao da influncia de algumas observaes. . . . . . . . . . . . . 94

xix
xx
Captulo 1

Preliminares

1.1 Motivao

O problema de estimao dos parmetros de um modelo de regresso onde a varivel


resposta censurada surge em diversos campos de estudo, como em econometria, engenharia e
testes clnicos, dentre outros. No caso em que a varivel de interesse o tempo at o acontecimento
de um evento existem diversas tcnicas de modelagem na rea de anlise de sobrevivncia, porm,
quando este no o caso, a aplicao destas tcnicas pode no ser adequada, principalmente se a
varivel de interesse puder assumir valores negativos.

O modelo de regresso mais conhecido e utilizado para modelar variveis que podem assumir
valores negativos e/ou censurados o modelo Tobit (veja Tobin, 1958), onde a principal hiptese
assumida a de que os erros aleatrios seguem uma distribuio normal. Barros et al. (2010) faz
um estudo de inferncia e diagnstico para este modelo. No entanto, alguns conjuntos de dados
no so compatveis com a suposio de normalidade, seja pela falta de simetria ou pela presena
de valores atpicos. Neste sentido, Arellano-Valle et al. (2012) prope a distribuio t de Student
como alternativa normal no modelo Tobit e, generalizando este trabalho, Garay (2014) prope
utilizar a famlia de distribuies de mistura de escala normal dando ateno especial a alguns de
seus casos particulares, como a normal, a t de Student, a normal contaminada e a slash. Dado
que estas distribuies so todas simtricas, buscamos neste trabalho apresentar alternativas

1
distribuio normal no modelo Tobit que sejam capazes de incorporar parmetros de curtose e/ou
de assimetria: a chamada famlia de mistura de escala skew-normal (veja Branco & Dey, 2001).
Esta famlia engloba distribuies como a skew-normal, skew-t, skew-slash e tambm suas verses
simtricas, desta forma, ao adotar uma classe de distribuies mais genrica, conseguimos lidar
tanto com conjuntos de dados assimtricos e que contm observaes atpicas quanto com conjun-
tos de dados bem comportados.

Neste primeiro captulo faremos uma introduo sobre certos aspectos tericos relevantes para
o desenvolvimento dos captulos seguintes, como o conceito de censuras e truncamento, o algoritmo
EM, algoritmos MCMC e alguns mtodos para comparao de modelos e diagnstico.

1.2 Introduo

Comearemos este captulo introduzindo algumas notaes que sero utilizadas ao longo deste
trabalho. Em geral, adotaremos a conveno tradicional denotando uma varivel ou vetor aleatrio
por uma letra maiscula e sua realizao pela letra minscula correspondente. Vetores e matrizes
(aleatrios ou no) so representados por letras em negrito. X a transposio de X.
d
Sejam X e Y duas variveis aleatrias, a notao XY indica que so independentes e X = Y
indica que tm mesma distribuio. Denotaremos por f (x) a densidade de X, por F (x) sua funo
de distribuio acumulada, por f (x, y) a densidade conjunto de (X, Y ) e por f (x|y) a densidade
condicional de X|Y = y. Quando , o vetor de parmetros que indexa a distribuio de X, for
relevante (e considerado um valor fixo), a densidade de X ser denotada por f (x; ) e sua funo de
distribuio por F (x; ). O smbolo , como em X f (x), significa que X distribuda conforme
iid iid
f (x). O smbolo , como em X, Y f (x), denota que X e Y so independentes e identicamente
distribudas segundo f (x). EX [h(X)] e VarX [h(X)] denotam respectivamente a esperana e a
varincia da funo h(X) em relao densidade da varivel aleatria X. Embora sejam um tanto
abusivas, estas notaes facilitaro o desenvolvimento matemtico deste trabalho.
Denotamos por Np (, ) a distribuio normal pvariada com vetor de locao e ma-
triz de varincia-covarincia , com densidade p ( ; , ) e funo de distribuio acumulada

2
p( ; , ). Tp ( ; , , ) denota a funo de distribuio acumulada de uma t de Student
pvariada, com vetor de parmetros de locao , matriz de escala e grau de liberdade ; a
respectiva densidade denotada por tp (0 , 0 , ). Se o subescrito p for omitido, ento estas fun-
es referem-se verso univariada destas distribuies, e neste caso, se forem tambm omitidos
os parmetros e , estamos nos referindo sua verso padro (com parmetro de locao 0 e de
escala 1). G(, ) denota a distribuio gama com esperana / e IG(, ) denota a distribuio
gama inversa com esperana /( 1).
A notao 11A (x) denota a funo indicadora em x no conjunto A, isto , 11A (x) = 1 se x A
e 11A (x) = 0 caso contrrio. () denota a funo gama. Abreviaremos funo de distribuio de
probabilidade por pdf e funo de distribuio acumulada por cdf.

1.3 Censura e truncamento

1.3.1 Variveis censuradas e truncadas

Em diversos campos da cincia nos deparamos com situaes em que a varivel de interesse no
pode ser completamente observada para todos os indivduos do experimento, mas, ao invs disso
observa-se somente um intervalo em que esta varivel est contida, caracterizando o que chamamos
de censuras.
Existem trs tipos de censura, o mais comum a censura direita, que ocorre quando o intervalo
observado do tipo [a, ) para alguma constante finita a conhecida, isto , quando sabemos que
o verdadeiro valor da varivel de interesse maior do que o valor observado a. Este tipo de
censura ocorre com muita frequncia quando a varivel de interesse o tempo at a ocorrncia
de um evento, como nos estudos clnicos sobre o tempo de sobrevida ou remisso de pacientes
ou em estudos sobre o tempo de vida til de equipamentos eletrnicos. Nestes casos, as censuras
correspondem aos indivduos que no experimentaram o evento de interesse antes do trmino do
estudo. Um outro exemplo de censura direita que no envolve a varivel tempo ocorre quando
um instrumento de medio tem uma capacidade mxima fixa e no fornece a quantia de interesse
quando esta ultrapassada.

3
O segundo tipo de censura a censura esquerda, quando o verdadeiro valor da varivel de
interesse menor do que o valor observado a. Neste caso, o intervalo observado do tipo (, a],
onde a uma constante finita e conhecida. Este tipo de censura ocorre, por exemplo, em testes
para detectar o vrus HIV, onde a carga viral de um indivduo portador no pode ser mensurada
se for menor do que um determinado ponto limtrofe.
O ltimo tipo de censura a intervalar, que ocorre quando s possvel observar um intervalo
finito do tipo [a, b] no qual o verdadeiro valor da varivel est contida, com |a|< , |b|< e
a < b. Esta censura menos comum que os outros dois tipos e costuma aparecer em experimentos
nos quais no h vigilncia contnua das unidades experimentais e o interesse estudar o tempo
at a ocorrncia de um evento, de forma que existe a possibilidade de que o evento de interesse
ocorra entre uma inspeo e outra.

O truncamento ocorre quando algumas observaes (seja na varivel resposta ou nas regres-
soras) no esto disponveis. Ao contrrio das censuras, onde a perda de informao parcial,
no truncamento simplesmente no h qualquer registro para a varivel em questo. Um exemplo
de dados truncados retratado em Colosimo & Giolo (2006), onde usado um banco de dados
da previdncia social para estudar a expectativa de vida dos moradores de uma certa localidade
- neste caso, somente moradores que atingiram a idade da aposentadoria fazem parte da amostra
e indivduos mais jovens so automaticamente excludos do estudo. Outros exemplos de trunca-
mento podem ser encontrados em Nelson (1990) e Kalbfleisch & Lawless (1992).

Neste trabalho daremos enfoque a modelos para dados com censuras direita e esquerda,
porm os resultados so expansveis para conjuntos de dados com censura intervalar.

1.3.2 Distribuies truncadas

Seja X uma varivel aleatria com densidade f (), funo de distribuio acumulada F () e
suporte . Se esta varivel sujeita a censura, ento observar o intervalo A = a, b como
produto desta censura quer dizer que obtivemos uma nova informao que deve ser incorporada

4
funo de densidade de f (), a de que X A. Este processo gera o que chamamos de distribuio
truncada. Aqui, a notao , expressa um intervalo cujo cada extremo pode ser tanto aberto
quanto fechado.
Desta forma, denotando por T f ( ; A ) a verso truncada da distribuio f () no intervalo A,
temos a seguinte relao: se X f (), ento X|X A T f ( ; A ) e

f (x)
T f (x ; A) = 11{axb} .
F (b) F (a)
f (x)
Note que se X for censurada direita, ento b = e T f (x ; A) = 11
1F (a) {xa}
e, se for
f (x)
censurada esquerda, ento a = e T f (x ; A) = 11
F (b) {xb}
.

1.4 O algoritmo EM
Na rea de inferncia estatstica clssica bastante comum lidar com problemas de maximi-
zao de funes a fim de estimar os parmetros desconhecidos do modelo. Em muitos destes casos
no h forma analtica fechada para tais estimadores e mtodos iterativos de maximizao tornam-
se uma boa alternativa. Dentre estes mtodos, o algoritmo EM (Expectation-Maximization,
Dempster et al. (1977)) uma alternativa relativamente simples pois no requer o clculo de se-
gundas derivadas e pode ser empregado sempre que existir uma representao dos dados em termos
de uma varivel latente.
Cada iterao do algoritmo consiste em duas etapas. Na primeira etapa, E ou Expectation, os
dados observados e a estimativa atual do parmetro so utilizados para encontrar a distribuio dos
dados latentes, enquanto na segunda etapa, M ou Maximization, uma re-estimao do parmetro
feita sob a hiptese de que a distribuio da varivel latente encontrada no passo anterior de
fato sua distribuio verdadeira.
Denote por o vetor de parmetros de interesse, por Y o vetor com os dados observveis
e por (; y) a funo de log-verossimilhana assumida pelo modelo estatstico. Suponha que
cada componente do vetor aleatrio observvel Y possa ser escrita como uma funo do vetor de
variveis latentes Z. Mais especificamente, assumimos que existe uma funo h : Z Y tal que
h(Z) = Y , de forma que, uma vez observado Y = y, a nica coisa que sabemos sobre Z que este

5
vetor aleatrio est restrito ao espao determinado por Z(y) Z, o subespao de Z determinado
pela equao h(Z) = y.
A estratgia deste algoritmo considerar os chamados dados aumentados, isto , tomar o
vetor de variveis latentes Z como se este fosse observvel. Desta forma conhecemos a funo de
distribuio deste vetor, f (z; ), e temos disposio a funo de log-verossimilhana completa,
c (; z) log f (z; ). Pode-se tambm calcular a distribuio condicional de Z dado Y = y,
f (z|y; ), da seguinte forma:
f (y, z; )
f (z|y; ) =
f (y; )
f (y|z; )f (z; )
=
f (y; )
f (z; )
= , z Z(y), (1.4.1)
f (y; )
sendo que a segunda igualdade vem do Teorema de Bayes e a terceira igualdade vem do fato de
que o vetor Y fica completamente determinado se temos a informao de que Z = z, de forma que
f (y|z; ) uma distribuio que atribui probabilidade 1 em Y = h(z) e 0 em qualquer outro lugar.

Seja (t) a estimativa de na iterao t do algoritmo, t = 0, 1, 2, . . ., onde (0) um valor


inicial. A iterao (t + 1) do algoritmo consiste em dois passos:

Etapa E: Clculo da funo Q(| (t) ) = EZ|Y c (; Z) | Y = y, = (t) .

Etapa M: Atualizar a estimativa, fazendo (t+1) = arg max Q(| (t) ).


Estes dois passos so repetidos at que alguma medida de convergncia seja satisfeita, como
por exemplo || (t+1) (t) ||< , para algum > 0 suficientemente pequeno.

O principal ganho do algoritmo EM trocar uma nica maximizao complicada da funo


de verossimilhana por vrias maximizaes simples da funo Q( | (t) ). No entanto, preciso
garantir que as estimativas encontradas na convergncia do algoritmo sejam as mesmas que ma-
ximizam a funo de verossimilhana. Neste sentido, o algoritmo EM possui uma propriedade
interessante chamada ascendncia, que diz que o valor da verossimilhana avaliada em uma nova

6
atualizao da estimativa no deve ser menor do que se avaliada em estimativas anteriores. Esta
propriedade formulada no Teorema 1.

Teorema 1. Se (; y) a funo de verossimilhana do modelo e (t) denota a estimativa de


na tsima iterao do algoritmo EM, temos que, t Z+ :

( (t) ; y) ( (t+1) ; y) (1.4.2)

Prova:
Aplicando o log em ambos os lados da equao 1.4.1, temos:

! " ! " ! "


log f (z|y; ) = log f (z; ) log f (y; )
! " ! " ! "
log f (z|y; ) = c |z |y
! " ! " ! "
|y c |z = log f (z|y; ) . (1.4.3)

Tomando a esperana em ambos os lados da Equao (1.4.3) com relao distribuio f (z|y; (t) ),
temos:

! "
|y Q(| (t) ) = H(| (t) ), (1.4.4)


onde H(| (t) ) = EZ|Y log f (z|y; ) | y, (t) . Agora,


H( (t) | (t) ) H(| (t) ) = EZ|Y ,(t) log f (z|y; (t) ) | y, (t) EZ|Y ,(t) log f (z|y; ) | y, (t)
S A B -- T
f (z|y; ) -
- y, (t) V
= EZ|Y ,(t) U log
f (z|y; (t) ) -
-
Q C - DR
f (z|y; ) --
log aEZ|Y ,(t) - y, (t) b , pela Desigualdade de Jensen
f (z|y; (t) ) -

f (z|y; )
= log f (z|y; (t) ) dz
Z(y) f (z|y; (t) )

= log f (z|y; ) dz
Z(y)

0,

7
e, portanto, H( (t) | (t) ) H(| (t) ). Desta forma, substituindo este resultado na Equao
(1.4.4):
! "
|y Q(| (t) ) = H(| (t) )
1 2
H( (t) | (t) ) = (t) |y Q( (t) | (t) ),

logo,
! " 1 2
|y (t) |y Q(| (t) ) Q( (t) | (t) ). (1.4.5)

Em outras palavras, a Equao (1.4.5) nos diz que ao escolhermos um valor de que aumente o
valor da funo Q(| (t) ) alm da constante Q( (t) | (t) ), estaremos aumentando tambm o valor da
! " 1 2
funo |y alm da constante (t) |y em pelo menos o mesmo tanto. Desta forma acabamos
de provar que o algoritmo EM correto no sentido de que, ao maximizar a funo Q(| (t) ) em
cada iterao, maximiza tambm a funo de verossimilhana e, na convergncia, deve encontrar
as estimativas de mxima verossimilhana do parmetro (supondo que no h problemas graves
de multimodalidade que possam desviar a convergncia para um mximo local).
Para finalizar a demonstrao do Teorema 1, note que, ao atualizarmos o valor da estimativa
com (t+1) = arg max Q(| (t) ), temos por definio que Q( (t+1) | (t) ) Q(| (t) ) ,

inclusive para = . Logo, Q( (t+1) | (t) ) Q( (t) | (t) ) e a igualdade s satisfeita se (t+1) =
(t)

(t) , comprovando a propriedade ascendente do algoritmo dada a discusso do pargrafo anterior.

1.5 Algoritmos MCMC


O objetivo maior dos algoritmos MCMC (Monte Carlo em Cadeias de Markov) o de gerar
uma cadeia de observaes de uma densidade da qual no seja possvel amostrar diretamente. Den-
tre esta classe de algoritmos, o de Metropolis-Hastings, inicialmente desenvolvido por Metropolis
et al. (1953) e posteriormente generalizado por Hastings (1970), talvez seja um dos mais conheci-
dos e utilizados na estatstica, principalmente devido ao impacto de um dos seus casos especiais, o
amostrador de Gibbs, na rea de inferncia Bayesiana (Tanner & Wong (1987) e Gelfand & Smith

8
(1990)).

Na teoria de cadeias de Markov com espao de estados contnuas, os problemas geralmente


comeam com um kernel de transio P (x, A), com x Rd e A B, onde B uma -lgebra de
Borel em Rd . Este kernel de transio simplesmente uma funo de distribuio condicional que
representa a probabilidade de a cadeia sair do ponto x e ir para um ponto do conjunto A. Suponha
que possamos escrever:

P (x, dy) = p(x, y)dy + r(x)11xdy ,

s
para alguma funo p(, ), onde p(x, x) = 0 e r(x) = 1 Rd p(x, z)dz representa a probabilidade
de a cadeia permanecer no estado x. Se a funo p(, ) satisfizer a condio de reversibilidade, isto
, se existir uma funo () com domnio em Rd tal que:

(x)p(x, y) = (y)p(y, x) x, y Rd , (1.5.1)

ento dizemos que () a funo de densidade invariante de P (x, ) (Tierney (1994)). O resultado
interessante desta propriedade, que ser explorado pelos algoritmos MCMC, que, se a cadeia
for irredutvel e aperidica, () tambm a distribuio estacionria de P (x, ), o que quer dizer
que aps um nmero suficientemente grande de passos (mudanas de estado), este kernel converge
para ().

A engenhosidade da classe de algoritmos MCMC est em definir () como a distribuio


alvo da qual se quer amostrar e ento construir um kernel apropriado que satisfaa a condio
de reversibilidade em (1.5.1) a partir de uma densidade da qual seja simples gerar observaes.
Desta forma, aps um nmero suficientemente grande de iteraes, a cadeia de valores obtida
atravs deste mtodo se aproximar de um conjunto de amostras da distribuio (). A seguir
apresentaremos o funcionamento do algoritmo de Metropolis-Hastings e de seu caso particular mais
famoso, o amostrador de Gibbs.

9
1.5.1 Metropolis-Hastings

Dentro do contexto geral dos algoritmos MCMC, entender o funcionamento do algoritmo de


Metropolis-Hastings quer dizer conhecer o processo utilizado por ele para a construo do kernel
de transio. Seja ento (x) a funo de densidade (absolutamente contnua) da varivel/vetor
aleatrio X do qual queremos amostrar, com X . Suponha que saibamos gerar observaes
s
de uma densidade q(x, y) cujo domnio seja igual a 2 e tal que q(x, y)dy = 1. No contexto de
cadeias de Markov, devemos interpretar q(x, y) como a densidade da qual um novo valor y gerado
quando a cadeia encontra-se no estado x. Geralmente esta densidade, vista como um kernel de
transio, no satisfaz a propriedade de reversibilidade com relao a (x), isto , provavelmente
existir um par de valores (x, y) em 2 tal que (x)q(x, y) > (y)q(y, x). Informalmente isto
que dizer que uma cadeia com o kernel de transio q(, ) move-se muito mais vezes do estado
x para o estado y do que necessrio para convergir para a densidade (). O que o algoritmo
de Metropolis-Hastings faz ento construir um kernel apropriado corrigindo a densidade q(x, y)
atravs da introduo de uma probabilidade (x, y), a qual, uma vez gerado um novo candidato
y atravs de q(x, y), diz se a cadeia deve mover-se para este candidato ou se deve continuar no
estado atual x.
As iteraes do algoritmo consistem nos seguintes passos:

Inicializao:

Passo 1: Escolha um valor inicial x(0) .

Passo 2: Defina uma distribuio proposta q(, ).

Na iterao t, t = 1, 2, 3 . . .:

Passo 1: Gere y de q(x(t1) , ).

Passo 2: Calcule a probabilidade:


Y Z
(t1)
] (y) q(y, x(t1) ) ^
(x , y) = min [1 ; .
(x(t1) ) q(x(t1) , y) \

10
Passo 3: Faa X (t) = y com probabilidade (x(t1) , y) ou X (t) = x(t1) com probabilidade 1
(x(t1) , y).

Uma segunda verso bastante interessante do algoritmo de Metropolis-Hastings aparece quando


a distribuio alvo () multivariada, isto , quando queremos amostrar da distribuio conjunta
do vetor aleatrio X = (X1 , X2 , . . . , Xd ), com d > 1, e ao invs disso, mais fcil amostrar das cha-
madas condicionais completas, as distribuies de Xi |Xi , onde Xi = (X1 , . . . , Xi1 , Xi+1 , . . . , Xd ) ,
isto , o vetor Xi contem todos os elementos originais de X, exceto por Xi , para i = 1, 2, . . . , d.
Neste caso, ao invs de aplicar o algoritmo simultaneamente a todos os elementos do vetor, constri-
se uma verso componente-a-componente do algoritmo, aplicando-o em sequncia a cada ele-
mento. Esta verso foi originalmente discutida por Metropolis et al. (1953) e simplifica a escolha
da distribuio proposta.
Denote por i (|xi ) a distribuio condicional de Xi |Xi e suponha que existam d kernels de
transio P (xi , A|xi ) cuja distribuio invariante seja i (|xi ), i = 1, 2, . . . , d. Cada um destes
kernels representa a probabilidade condicional de a cadeia de Markov definida pela sequncia de
observaes da varivel Xi sair do estado atual xi e ir para algum ponto do conjunto A, dado que
Xi = xi . Neste cenrio, se cada um dos d componentes do vetor X for movido em uma ordem
fixa (ou seja, se fizermos a atualizao componente-a-componente), o processo resultante ser uma
cadeia de Markov cujo kernel de transio corresponde ao produto dos d kernels iniciais. Este
processo tem como distribuio invariante (x) e, se a cadeia for irredutvel e aperidica, (x)
tambm sua distribuio estacionria. este resultado que serve como base para a construo
desta verso do algoritmo.
Cada iterao da verso componente-a-componente do Metropolis-Hasting consiste em d
(t)
atualizaes. Denotando por xi o valor atribudo a Xi na tsima iterao, o passo i da iterao
(t1) (t)
t consiste em gerar um candidato yi de uma distribuio proposta qi (xi , |xi ) e aceit-lo
(t1) (t) (t) (t) (t) (t1) (t1)
conforme uma probabilidade (xi , yi |xi ), onde xi = (x1 , . . . , xi1 , xi+1 , . . . , xd ) denota
o valor atribudo ao vetor Xi aps completar o passo i1 da iterao atual. De forma mais precisa,
os passos so:

Inicializao:

11
(0) (0) (0)
Passo 1: Escolha um valor inicial x(0) = (x1 , x2 , . . . , xd )

Passo 2: Defina d distribuies propostas qi (, | xi ), para i = 1, 2, . . . , d

Na iterao t, t = 1, 2, 3 . . . , para i = 1, 2, . . . , d:

(t1) (t)
Passo 1: Gere yi de q(xi , | xi ).

Passo 2: Calcule a probabilidade:


Y Z
(t) (t1) (t)
(t1) (t)
] i (yi |xi ) qi (yi , xi |xi ) ^
i (xi , yi | xi ) = min [1 ; (t1) (t) (t1) (t)
.
i (xi |xi ) qi (xi , yi |xi ) \
(t) (t1) (t) (t) (t1)
Passo 3: Faa Xi = yi com probabilidade i (xi , yi | xi ) ou Xi = xi com probabilidade
(t1) (t)
1 i (xi , yi | xi ).

Gelman (1992) sugere um mtodo para avaliar a convergncia do kernel de transio da cadeia
para a distribuio estacionria. Este mtodo requer que pelo menos duas cadeias sejam rodadas
paralelamente, de preferncia a partir de valores iniciais distintos, pois compara a varincia inter
e intra cadeias. Desta forma, seja xij a isima observao proveniente da jsima cadeia, com
1 qM 1 q
i = 1, 2, . . . , M e j = 1, 2, . . . , J. Denote por xj = M i=1 xij e x = JM i,j xij . Calculamos as
varincias inter (W) e intra (B) cadeias da seguinte forma:
S T
1 J
1 M
M J
W = U (xij xj )2 V e B= (xj x )2 .
J j=1 M 1 i=1 J 1 j=1

A varincia de X pode ento ser estimada por:


M 1 1
Var[X]
= W + B.
M M
Esta estimativa em geral superestima a varincia real de X e, ao mesmo tempo, W tende a subes-
timar a varincia inter cadeia. No entanto, conforme M , ambas as quantidades convergem
para Var[X], de forma que podemos usar a razo entre Var[X]
e W para monitorar a convergncia
da cadeia: quanto mais prxima de 1 for a razo, mais indcios temos de que o kernel de transio
convergiu para a distribuio estacionria. Neste sentido, a estatstica de Gelman-Rubin definida
por:
= Var[X]

R .
W

12
Espera-se que R
seja prximo de 1 para assegurar a convergncia das cadeias.

Sobre a sequncia de amostras retornadas, uma prtica comum e bastante eficiente eliminar
os valores resultantes das primeiras iteraes do algoritmo, realizadas antes de a convergncia
ser atingida (conhecida como burn-in). Alm disso, existe uma dependncia entre observaes
sucessivas, fruto da origem markoviana do mtodo. O que se faz, no sentido de eliminar ou
minimizar esta correlao, guardar as observaes espaadas utilizando um passo constante, cujo
tamanho pode ser facilmente determinado atravs da construo de grficos de auto-correlao
para a amostra gerada (processo conhecido como thinning).
Para a demonstrao de que o kernel construdo no algoritmo de Metropolis-Hastings converge
para a distribuio alvo, veja Hastings (1970). Chib & Greenberg (1995) discute problemas de
implementao deste algoritmo, como a escolha da distribuio proposta.

1.5.2 Amostrador de Gibbs

O amostrador de Gibbs um caso particular da verso componente-a-componente do al-


goritmo de Metropolis-Hastings. Sua principal aplicao na estatstica na rea da inferncia
Bayesiana quando deseja-se amostrar da distribuio a posteriori conjunta de um vetor aleat-
rio de interesse X = (X1 , X2 , . . . , Xd ) e as distribuies condicionais completas de Xi |Xi , para
i = 1, 2, . . . , d, so conhecidas e fceis de se obter amostras, seja diretamente ou atravs de algum
mtodo iterativo como o prprio Metropolis-Hastings.
Este algoritmo MCMC surge do Metropolis-Hastings quando a distribuio proposta para atu-
alizar o valor de Xi tomada como a prpria condicional completa de Xi |Xi , i (|xi ), para
i = 1, 2, . . . , d. Ao fazer esta escolha, a probabilidade de aceitao de um valor candidato 1, o que
(t1) (t) (t1) (t) (t1) (t)
pode ser visto facilmente se substituirmos qi (yi , xi |xi ) por i (xi |xi ) e qi (xi , yi |xi ) por
(t) (t1) (t)
i (yi |xi ) na equao que define i (xi , yi | xi ) nos passos do Metropolis-Hastings componente-
a-componente. Desta forma, as iteraes do amostrador de Gibbs consistem em:

Inicializao:

13
(0) (0) (0)
Passo 1: Escolha um valor inicial x(0) = (x1 , x2 , . . . , xd ) .

Na iterao t, t = 1, 2, 3 . . . , para i = 1, 2, . . . , d:

(t) (t1) (t)


Passo 1: Gere uma nova amostra xi para a varivel aleatria Xi a partir de (xi | xi ).

Sendo o amostrador de Gibbs um caso particular do Metropolis-Hastings, aqui ocorrem os


mesmos problemas acerca do nmero de iteraes at a convergncia e correlao entre amostras
sucessivas discutidos na Subseo 1.5.1, portanto as observaes feitas anteriormente sobre tais
assuntos so pertinentes para este algoritmo.

1.6 Critrios para comparao de modelos


Existe uma grande variedade de metodologias para comparar a adequao de diferentes modelos
a um determinado conjunto de dados, geralmente balanceando-se a qualidade do ajuste promovido
e a complexidade do modelo. Apresentaremos aqui algumas das principais metodologias utilizadas:
o AIC, o BIC e o EDC, para estudos frequentistas, e o EAIC, EBIC, LPML, DIC e WAIC, para
estudos Bayesianos.

1.6.1 Critrios frequentistas

Alguns dos principais critrios de comparao de modelos utilizados em estudos frequentis-


tas so o AIC (Akaike information criterion), o BIC (Bayesian information criterion) e o
EDC (efficient determination criterion). Suponha que temos n observaes de um determinado
Seja () a funo de
modelo, cujo vetor de parmetros Rq possui estimativa igual a .
log-verossimilhana deste modelo. Estes trs critrios podem ser expressos por

+ qcn ,
2()

onde q o nmero de parmetros livres a serem estimados no modelo e cn uma sequncia


(conveniente) de nmeros positivos. O AIC definido tomando-se cn = 2 e o BIC, fazendo-
se cn = log(n). Para o EDC, cn escolhido de modo a satisfazer as condies cn /n 0 e

14

cn /log(n) 0 quando n . Neste trabalho utilizaremos cn = 0.2 n, conforme sugerido por
Bai et al. (1989).

1.6.2 Critrios Bayesianos

Existem vrias propostas de critrios de comparao de modelos Bayesianos, teis quando


preciso escolher entre modelos distintos para o mesmo conjunto de dados (veja Ando (2010)).
Considere um modelo com vetor de parmetros e seja z = {z1 , . . . , zn } um conjunto com n
observaes da varivel de interesse. Um dos critrios mais conhecidos o LPML (log pseudo
marginal likelihood), derivado a partir da estatstica CPO (conditional predictive ordinate).
Para a isima observao, i = 1, 2, . . . , n, a estatstica CPOi definida como a densidade preditiva
f (zi |zi ), representando uma medida do quo provvel seria obter uma futura observao igual a
zi dado a amostra zi , onde zi o conjunto obtido ao excluir-se zi de z. Desta forma, fcil
enxergar esta estatstica como um mtodo de identificao de observaes aberrantes, um dos seus
usos mais conhecidos na inferncia Bayesiana. Para maiores detalhes sobre o CP O, veja Gelfand
et al. (1992). Pode-se mostrar que o CP O pode ser escrito da seguinte forma:
A B1 3 41
f (|z) -
-
CPOi = f (zi |) f (|zi ) d = d = E|Z f (zi |)1 - z] . (1.6.1)
f (zi |)

Para a maioria dos modelos a estatstica CPOi no possui uma forma analtica fechada. No
entanto pode-se obter uma aproximao desta estatstica usando uma amostra MCMC de f (|z),
a distribuio a posteriori de : {1 , 2 , . . . , Q } (aps o processo de burn-in e thinning). dado
em Dey et al. (1997) que:
Q R1
\ 1 Q
1
CPOi = a b . (1.6.2)
Q j=1 f (zi |j )

O critrio LPML uma sumarizao destas n estatsticas, definido por:


n

LPML = \i ).
log(CPO
i=1

Quanto maior o valor de LMPL, melhor a adequao do modelo proposto ao conjunto de dados.

15
Os critrios DIC, EAIC, EBIC e WAIC ponderam a qualidade do ajuste do modelo e sua
complexidade. Para defini-los vamos primeiramente definir uma medida de qualidade de ajuste, o
deviance, dada por:
Q R
n

D() = 2 log a f (zi |)b .
i=1

O DIC (deviance information criterion, Spiegelhalter et al. (2002)) pondera o deviance com
uma medida relacionada com a complexidade do modelo, o nmero de parmetros efetivos, definida
por:

DIC = D() D(),

onde o primeiro termo a esperana a posteriori do deviance, dada por


n
# $
D() = 2 E log f (zi |)|z ,
i=1

e o segundo termo o deviance avaliado em alguma estimativa pontual de . A mdia a


mas existem outras alternativas, como a moda ou a
posteriori uma escolha natural para ,
mediana a posteriori. Finalmente, definimos o DIC por:

= 2D() D().
DIC = 2DIC + D()

Quanto menor o valor do DIC, mais adequado o modelo ao conjunto de dados. O clculo
da integral D() pode ser bastante complexo, por isso, pode-se usar tambm aqui uma amostra
MCMC {1 , 2 , . . . , Q } de f (|z) para estimar o valor do DIC. Desta forma, aproximamos D()
pela mdia amostral a posteriori dos desvios D():
Q R
2 Q n
D() = log a (zi |j )b . (1.6.3)
Q j=1 i=1

Assim, uma aproximao do DIC dada por:

DIC
= 2 D()
D().

Mais recentemente Watanabe (2010) introduziu outro critrio para seleo de modelos, o WAIC
(Watanabe-Akaike information criterion). Para defini-lo, vamos primeiramente definir a log-

16
densidade preditiva, dada por:
n

p(z) = log f (zi |)f (|z) d.
i=1

Basicamente, o WAIC calcula p(z) e adiciona uma correo relacionada ao nmero efetivo de
parmetros do modelo, a fim de compensar um possvel superajuste. Gelman et al. (2014) sugere
duas maneiras de calcular esta correo. A primeira muito parecida com a utilizada em DIC e
dada por
WAIC1 = 2 p(z) + D().

A segunda definida por


n
# $
WAIC2 = V ar log f (zi |)|z .
i=1

Finalmente, as duas verses do critrio WAIC so definidas da seguinte forma:

WAICk = 2 WAICk 2 p(z), k = 1, 2. (1.6.4)

Quanto menor for o valor do WAIC, mais adequado o modelo ao conjunto de dados.
importante notar que na definio original de Watanabe o critrio WAIC foi definido somente por
p(z)/n adicionada a uma correo. Aqui, seguindo a sugesto dada por Gelman et al. (2014),
este termo foi multiplicado por 2 de forma a ficar na mesma escala que os critrios DIC, EAIC
e EBIC.
Novamente, computar o WAIC envolve envolve calcular integrais que geralmente no so di-
retas ou so computacionalmente custosas. Desta forma, possvel aproximar o valor deste cri-
trio como foi feito para o DIC: utilizando uma amostra MCMC da densidade a posteriori de ,
{1 , 2 , . . . , Q }. Primeiramente, aproximamos p(z) da seguinte forma:
Q R
n
1 Q
p(z) =
log a f (zi |j )b ,
i=1 Q j=1

e depois, considerando a aproximao de D() dada na Equao (1.6.3), a primeira verso do


WAIC pode ser aproximada por

\ 1 = 2 p(z)
WAIC
+ 2 D().

17
\ 2 , pode ser calculada considerando a vari-
A aproximao da segunda verso do WAIC, WAIC
1 qQ 1 qQ
ncia amostral Vj=1
Q
(x) = Q1 j=1 (x x) como uma estimativa da varincia, onde x = Q j=1 xj ,
e utilizando a amostra MCMC da densidade posteriori de para aproximar o valor de f (zi |),
i = 1, 2, . . . , n, fazendo:
1 Q
f\
(zi |) = f (zi |j ).
Q j=1
Outros critrios podem ser usados para comparar a adequao de modelos distintos a um
mesmo conjunto de dados: o EAIC (expected Akaike information criterion), veja Brooks (2002),
e o EBIC (expected Bayesian information criterion), veja Carlin & Louis (2001). Estes critrios
so definidos por:
EAIC = D() + 2q e EBIC = D() + q log (n) ,

onde q o nmero de parmetros livres a serem estimados no modelos. Quanto menor o valor do

EAIC ou do EBIC, mais adequado o modelo ao conjunto de dados. Substituindo D() por D(),
pode-se obter uma estimativa destes critrios.

Quando a inteno no comparar modelos distintos mas sim investigar se um determinado


modelo suficientemente adequado para um conjunto de dados, usamos uma medida baseada na
distribuio preditiva posteriori, o p-valor Bayesiano preditivo (Gelman et al., 2004). Usando
alguma estatstica pr-fixada como medida de discrepncia, T (z, ), pode-se determinar se seu valor
observado extremo em relao distribuio preditiva posteriori com o auxlio de amostras
simuladas desta distribuio.
Neste trabalho seguiremos a sugesto de Gelman et al. (2004) e usaremos uma funo da
log-verossimilhana como medida de discrepncia, dada por:
n

T (z, ) = 2 log [f (zi | )]. (1.6.5)
i=1

O p-valor Bayesiano preditivo, denotado por pB , definido como a porcentagem de vezes em que
1 2
T (zpr , ) maior do que T (z, ) em L conjuntos de dados simulados, isto , pB = P T (zpr ,
! "
T z, ) | Z = z , onde zpr a amostra simulada da distribuio preditiva posteriori. Se o modelo
for adequado, pB deve ser prximo de 0.5 sendo que valores muito alto ou muito baixos indicam
uma m especificao do modelo.

18
1.7 Deteco de observaes influentes em estudos Baye-
sianos

Nesta Seo iremos abordar algumas medidas Bayesianas de diagnstico para detectar observa-
es extremas, que exercem uma influncia desproporcionalmente grande nos resultados do ajuste.
A abordagem que utilizaremos uma das mais conhecidas, o mtodo de deleo de casos.

Um modo bastante comum em estudos Bayesianos para quantificar a influncia de uma de-
terminada observao calcular alguma medida de divergncia entre a distribuio posteriori
obtida com o conjunto de dados completo e excluindo-se dele tal observao. Se obtivermos uma
medida significativamente grande, ento esta observao considerada influente. Desta forma,
seja z = {z1 , z2 , . . . , zn } a amostra observada e I um subconjunto de {1, 2, . . . , n}. Considere o
conjunto zI = {zi ; i I}, denotando por zI seu complementar em z. A fim de estabelecer uma
medida de divergncia apropriada, denote por f (|z; M0 ) e f (|z; M1 ) as distribuies a posteriori
de sob os modelos M0 e M1 respectivamente. Para comparar o quo parecidos so estes dois
modelos em termos da inferncia final sobre , definimos a funo de perturbao entre M0 e M1
como:
f (|z; M1 )
m(; M0 , M1 ) = .
f (|z; M0 )

A partir desta funo de perturbao Csiszr (1967) define a medida q-divergente entre os
modelos M0 e M1 da seguinte forma:

! " # $
dq m(; M0 , M1 ) = EM0 q(m(; M0 , M1 )) (1.7.1)

onde q() uma funo convexa tal que q(1) = 0.


Se tomarmos M0 como o modelo que considera toda a amostra z para o clculo da posteriori
e M1 como o modelo que considera somente zI para este fim, ento podemos definir a funo de
perturbao do conjunto I na distribuio a posteriori como:

f (|zI )
mI () = m(; M0 , M1 ) = . (1.7.2)
f (|z)

19
A medida q-divergente pode tambm ser definida para a funo de perturbao do conjunto I da
seguinte forma:
dq (z, zI ) = E|Z [q(mI ())]. (1.7.3)

Algumas medidas de divergncia bastante conhecidas so obtidas considerando-se diferentes


funes q(), por exemplo, se q(x) = log (x) obtemos a divergncia de Kullback-Leibler (K-L),
ao considerar q(x) = (x 1) log(x) estaremos trabalhando com a distncia J e a distncia L1
obtida fazendo-se q(x) = |x 1| .

Para a maioria dos modelos bastante complicado calcular a esperana da Equao (1.7.3),
logo, conveniente considerar uma aproximao MCMC das medidas de influncia citadas. Neste
sentido, enunciamos a seguinte proposio:

Proposio 1. Seja mI () a funo de perturbao do conjunto I conforme definida na Equao


(1.7.2) e denote por CP OI a estatstica CP O para o conjunto de observaes zI , isto , CP OI =
- r -
- -
E|Z f (zI |)1 - z]1 = E|Z jI f (zj |) - z] . Pode-se escrever:
1 1

CP OI
mI () = .
f (zI |)

Prova:
Segundo a definio dada na Equao (1.7.2),

mI () = f (|zI )f (|z)1
f ()f (zI |) f (z)
=
f (zI ) f ()f (z|)
3 41
f (z)
= f (zI |)f () d (1.7.4)
f (zI |)
3 41
f (z)
= f (z|)f (zI |) f () d
1
(1.7.5)
f (zI |)
A B1
f ()f (z|)
= f (zI |) 1
f (zI |)1 d
f (z)
3 41
= f (zI |) 1
f (zI |) f (|z) d
1

CP OI
= ,
f (zI |)

20
onde a Equao (2.2.5) foi obtida atravs das igualdades f (zI |)/f (z|) = f (zI |)1 e
s
f (zI ) = f (zI |)f () d e, multiplicando-se o integrando por f (zI |)/f (zI |), obtm-se a
Equao (2.2.6).

Com a Proposio 1 encontramos uma maneira de aproximar mi () para uma dada observao
i, i = 1, 2, . . . , n, e com isso obter tambm uma aproximao das medidas de influncia citadas
para tal observao. Basta-nos aproximar a funo mi () atravs de uma amostra MCMC da
distribuio a posteriori de , {1 , 2 , . . . , Q } da seguinte forma:
Q R1
[ 1 Q
i () = CP
m Oi a f (zi |j )b ,
Q j=1

[
onde CP Oi exibido na Equao (1.6.2). Em seguida, a aproximao da medida de influncia
dada por:
1 Q
d (z, z
q i ) = i (j )).
q(m
Q j=1
Note que preciso estabelecer um ponto limiar a partir do qual estas medidas classificam uma
dada observao como influente. Neste sentido, Peng & Dey (1995) and Vidal & Castro (2010)
fazem analogia a um experimento clssico para determinar este ponto limiar, o lanamento de uma
moeda: suponha que uma moeda com probabilidade p [0, 1] de cara arremessada. A varivel
aleatria X representa o resultado do lanamento, sendo que X = 1 significa que o experimento
resultou em cara e X = 0, em coroa. Sob o ponto da inferncia frequentista, seja M0 o modelo no
qual no feita nenhuma suposio a respeito de p e M1 o modelo no qual a moeda considerada
justa, ou seja, no qual consideramos p = 0.5. A distribuio associada a X sob o modelo M0
f0 (x; p) = px (1 p)1x e, sob o modelo M1 , f1 (x; p) = 0.5, com x {0, 1} em ambos os casos.
Da Equao (1.7.1), a medida qdivergente entre estes dois modelos dada por:

q(2p) + q(2(1 p))


dq (M0 , M1 ) = . (1.7.6)
2

Note que dq (M0 , M1 ) aumenta conforme p se afasta de 0.5, simtrica em torno de 0.5 e atinge
seu ponto de mnimo tambm em p = 0.5 (onde os modelos so iguais). Se estabelecermos o

21
critrio de que uma estimativa para p maior do que 0.8 (ou menor do que 0.2) sugere fortes
evidncias de que a moeda no justa, ento dq (0.8) seria um ponto limiar acima do qual uma
observao seria considerada influente pela medida qdivergente. Calculando dq (0.8) para as
medidas particulares apontadas, temos dKL (0.8) .0.2231 para K-L, dJ (0.80) 0.4159 para a
distncia J e dL1 (0.8) = 0.6 para a distncia L1 .

1.8 Apresentao dos prximos captulos

Inciaremos o Captulo 2 apresentando a classe de distribuies de mistura de escala, dando


ateno especial distribuio t de Student. Definiremos ento os modelos de regresso para res-
postas censuradas, comeando pelo clssico modelo Tobit e estendendo seus resultados para erros
com distribuio t de Student. Em seguida, faremos um estudo de inferncia Bayesiano atravs da
construo do amostrador de Gibbs e tambm um estudo frequentista, desenvolvendo o algoritmo
EM para a estimao paramtrica e tcnicas de diagnsticos baseadas em influncia global e local.
Estudos de simulao sero desenvolvidos para avaliar a qualidade das estimativas EM e a robustez
dos modelos. Finalmente, as tcnicas desenvolvidas no captulo sero aplicadas a dois conjuntos
de dados reais.

No Captulo 3 apresentaremos a classe de distribuies de misturas da skew-escala normal


(SMSN), originalmente introduzida por Branco & Dey (2001) e posteriormente estudada por Kim
(2008b), Basso (2009), entre outros. Em seguida, desenvolveremos um estudo de inferncia Bayesi-
ano para os modelos de regresso com respostas censuradas sob esta classe de distribuies atravs
da construo do amostrador de Gibbs para a estimao paramtrica. Alm disso, apresentaremos
dois estudos de simulao para avaliar a qualidade do mtodo de estimao e a robustez dos mo-
delos propostos. Finalmente, as tcnicas desenvolvidas sero aplicadas em um conjunto de dados
reais.

No Captulo 4, finalizaremos esta trabalho com as concluses finais, a apresentao da produ-


o tcnica derivada desta dissertao e algumas perspectivas para trabalhos futuros.

22
importante destacar que todas as aplicaes e estudos de simulao apresentados neste tra-
balho foram desenvolvidos no software R.

23
24
Captulo 2

Modelos Normal e t de Student para


dados censurados

2.1 Introduo

Problemas ou experimentos cuja varivel de interesse est sujeita censura surgem em


diversos campos de estudo. Quando o interesse principal medir o efeito de determinados fatores
nesta varivel, o modelo de regresso linear Tobit (Tobin (1958)) um dos mtodos mais conhecidos
e utilizados. Por exemplo, Tan et al. (2009) aplica este modelo aos dados de Schmee & Hahn (1979),
Insulation life data with censoring times, na tentativa de medir a influncia da temperatura no
tempo de vida til de motores eltricos.

No entanto, mesmo em conjuntos de dados relativamente simtricos, a suposio de normali-


dade pode no ser vlida devido presena de valores extremos. Nestes casos, o ajuste do modelo
Tobit no adequado e uma distribuio com caudas mais pesadas, capaz de comportar a pre-
sena destes valores, deveria ser levada em considerao.

Neste segundo captulo definiremos o modelo Tobit, denotado neste trabalho por N-CR (nor-
mal censored regression) e apresentaremos a famlia de distribuies de mistura de escala normal,
introduzindo a distribuio t de Student como alternativa normal para os erros aleatrios do

25
N-CR, dando origem ao modelo t-CR (t de Student censored regression). Faremos um estudo de
inferncia clssica e Bayesiana para estes modelos, apresentando algoritmos iterativos para estimar
seus parmetros e desenvolvendo medidas de diagnstico. Por fim, aplicaremos ambos os modelos
a um conjunto de dados reais e apresentaremos alguns estudos de simulao que visam comparar
a performance dos modelos normal e t de Student para dados censurados.

2.2 A famlia de mistura de escala normal (SMN)


Andrews & Mallows (1974) introduziram uma famlia de distribuies simtricas chamada
distribuies de mistura de escala normal. O ganho desta classe incorporar um parmetro de
forma (relacionado curtose e no assimetria) densidade normal e, com isso, obter distribuies
mais maleveis e com caudas mais pesadas do que esta, bastante teis em inferncia robusta para
dados simtricos. A seguir, definiremos esta famlia de distribuies e desenvolveremos algumas
de suas propriedades.

Definio 1. Dizemos que a varivel aleatria X tem distribuio pertencente famlia de mistura
de escala normal, com parmetro de locao R, de escala 2 > 0 e de forma se ela pode ser
escrita da seguinte forma:

X = + (U )1/2 Z, Z N (0, 2 ), U Z, (2.2.1)

onde () uma fuo real positiva e U uma varivel aleatria positiva, cuja funo de distribuio
acumulada, H( ; ), indexada pelo vetor de parmetros . Denotamos X SM N (, 2 ; H).

fcil ver na Equao (2.2.1) que X|(U ) = (u) N (, (u) 2 ), portanto, a densidade de
X dada por:

fSM N (x) = (x ; , (u) 2 ) dH(u). (2.2.2)
0

Alguns dos casos especiais mais conhecidos desta classe de distribuio so alcanados quando
(U ) = 1/U . Fixando a funo () desta forma, se tomarmos na Equao (2.2.1):

i) U degenerada em 1, isto , P(U = 1) = 1, ento X N (, 2 )

26
ii) U Beta(, 1), temos X distribuda de acordo com uma Slash, com parmetros de locao
, escala 2 e forma .

iii) U discreta, assumindo o valor 1 com probabilidade 2 ou o valor 1, com probabilidade 12 .


Neste caso, X segue uma normal contaminada com parmetro de locao , de escala 2 e
de forma = (1 , 2 ).

iv) U G(1 /2, 2 /2), ento X segue a distribuio Pearson VII com locao , escala 2 e
forma = (1 , 2 ). Note que, se 1 = 2 := , ento a distribuio de X se reduz t de
Student com graus de liberdade e mesmos parmetros de locao e escala. Se = 1, temos
a Cauchy.

A seguir apresentaremos algumas a distribuio t de Student, no intuito de definir o modelo


t-CR.

2.2.1 A distribuio t de Student

Como discutido anteriormente, a suposio do modelo N-CR de que os erros i em (2.3.2), para
i = 1, 2, . . . , n, so normalmente distribudos pode prejudicar o processo de inferncia se houver
valores extremos no conjunto de dados. Diante deste problema, introduziremos aqui a distribuio
t de Student visando a substituio da distribuio Normal no modelo de regresso para dados
censurados, na tentativa de, ao utilizar uma distribuio mais robusta, conseguir comportar a
existncia de valores considerados extremos sob a distribuio Normal. Little (1999) e Lange
et al. (1989), por exemplo, utilizaram a distribuio t de Student para modelagem robusta. A
seguir, apresentamos a densidade da distribuio t de Student e desenvolvemos algumas de suas
propriedades.

Definio 2. Dizemos que a varivel aleatria X tem distribuio t de Student, com parmetro
de locao , de escala 2 e graus de liberdade, denotada por t(, 2 , ), se sua densidade dada
por:
A B( +1 )
( +1 ) d(x)2 2
f (x) = 2
1+ , x R, (2.2.3)
(/2)

27
(x)
onde d(x) =
.

Na Figura 2.1 mostramos a densidade da t de Student para diferentes valores dos parmetros
2 e . importante destacar no primeiro grfico como o valor de influencia na curtose da
distribuio, sendo que valores menores de geram caudas mais pesadas. A distribuio Normal
o caso limite da t de Student quando .

t(0,1) t(0,2)

=1 22=1, =1
=3 2=2, =3
2=3, =5
=5 2=4, =7
=10 =5, =9

4 2 0 2 4 12 6 0 6 12

Figura 2.1: Densidade de t de Student para = 0 e valores variados para 2 e .

Proposio 2. Seja X t(, 2 , ). Ento, a distribuio de X pertence famlia de mistura de


escala normal e esta varivel aleatria pode ser escrita como:

X = + U 1/2 Z, (2.2.4)

onde U G(/2, /2) independente de Z N (, 2 ). Alm disso, E[X] = e, se > 2,


Var[X] = 2 2

.

Prova:
Seja X uma varivel aleatria como na Equao (2.2.4). Ento, dado que a densidade condi-
cional de X|U = u N (, 2 /u), podemos utilizar a relao f (x, u) = f (x|u)f (u) para calcular a

28
densidade marginal de X:

f (x) = (x ; , 2 ) Gama(u ; /2, /2) du
0
; <
(/2)/2 +1 1 u
= u 2 exp (d(x)2 + )
2 (/2) 0 2
A B A B +1
(/2)/2 +1 d(x)2 + 2
= (2.2.5)
2 (/2) 2 2
1 2 A B +1
d(x)2
+1 2
2
= 1+ , (2.2.6)
(/2)
onde Gama( ; , ) denota a funo de densidade de uma G(, ), d(x) como na Definio 2 e a
2
Equao (2.2.5) foi obtida completando a densidade de uma G( +1
2
, d(x)2 + ) em u na integral, de
forma que o resultado desta integral fosse 1. Em (2.2.6) vemos que a densidade de X corresponde
a uma t(, 2 , ), conforme a Definio 2.2.3. Agora,

EX [X] = EU [ EX|U [X|U ] ]

= EU [] = .

Alm disso,

VarX [X] = EU [ VarX|U [X|U ] ] + VarU [ EX|U [X|U ] ]

= EU [ 2 U 1 ] + VarU []

= 2 , > 2, (2.2.7)
2
aqui, a Equao (2.2.7) foi obtida usando o seguinte resultado (cuja demonstrao ser omitida):
se U G(, ), ento a distribuio de U 1 uma Inversa Gama com parmetros de forma e
de escala , cuja esperana
1
.

2.3 Definio dos modelos N-CR e t-CR


Supunha que queiramos ajustar um modelo de regresso varivel de interesse Y , de acordo
com:
Yi = x
i + i , i = 1, 2, . . . , n, (2.3.1)

29
em que, para i = 1, 2, . . . , n, Yi a resposta para o indivduo i, i a varivel aleatria representando
o erro da regresso, xi = [xi1 , xi2 , . . . , xip ] um vetor p 1 de variveis explicativas para este
indivduo e = [1 , 2 , ..., p ] o vetor de parmetros da regresso.
O modelo acima supe que a varivel Y pode ser observada para todos os indivduos no estudo.
Porm neste trabalho estamos interessados no caso em que Y sujeita censura, isto , no caso em
que existem indivduos na amostra para o qual o valor assumido por Y no conhecido, somente
observa-se o intervalo A em que ele est contido. Se a varivel resposta censurada direita,
A = [a, ) e, se censurada esqueda, A = (, a], para a uma constante representando o valor
limtrofe observado para Y . Neste contexto, a varivel aleatria passvel de observao e que ser
modelada V , uma funo de Y dada por:
Y
_
_
] ai se Y i ai
Vi = _ (2.3.2)
_[ Yi = x
i + i se Yi < ai ,

para i = 1, 2, . . . , n e {ai }ni=1 o conjunto de valores limiares fixos e conhecidos. Note que, a partir
do conhecimento deste conjunto de valores limiares, ao observar Vi observa-se tambm a varivel
indicadora Ci , que assume o valor 1 quando a resposta do indivduo i censurada (Vi = ai ) e 0,
quando no (Vi = ai ), com i = 1, 2, . . . , n.

As Equaes (2.3.1) e (2.3.2) definem o modelo de regresso para dados censurados. Se as-
iid
sumirmos na Equao (2.3.1) que i N (0, 2 ) obtemos o modelo N-CR, e, se consideramos
iid
i tv (0, 2 ), o modelo t-CR. Para mais detalhes sobre o modelo N-CR veja Barros et al. (2010),
onde desenvolvido um estudo de inferncia e diagnstico.

Dado uma amostra observada v = (v1 , v2 , . . . , vn ) de V = (V1 , V2 , . . . , Vn ) , a funo de


log-verossimilhana para estes modelos assumindo censura esquerda dada por:
n
n

# $ # $
(; v) = log FSM N (vi ; ) 11(,ai ] (vi ) + log fSM N (vi ; ) 11(ai ,) (vi ), (2.3.3)
i=1 i=1

onde fSM N (; ) e FSM N (; ) representam a funo de densidade e de distribuio acumulada de


Y . No caso do N-CR, estas funes referem-se a uma varivel aleatria normal com mdia x
i e

30
varincia 2 , no caso do t-CR, a uma varivel aleatria que segue uma distribuio t(x
i , 2 , ).
Se considerssemos censuras direita, a funo de log-verossimilhana seria bastante anloga:
n
n

# $ # $
(; v) = log 1 FSM N (vi ; ) 11[ai ,) (vi ) + log fSM N (vi ; ) 11(,ai ) (vi ), (2.3.4)
i=1 i=1

Nas prximas duas Sees ser desenvolvido um estudo de inferncia e diagnstico para estes
modelos sob as ticas Bayesianas e frequentistas, respectivamente.

2.4 Inferncia Bayesiana para os modelos N-CR e t-CR

2.4.1 Construo do amostrador de Gibbs

Nesta Seo desenvolveremos o amostrador de Gibbs para fazer inferncia para os modelos
N-CR e t-CR sob um ponto de vista Baysiano. Os modelos sero ento aplicados em um conjunto
de dados reais e estudos de simulao sero realizados para avaliar a qualidade do processo de
estimao e a robustez dos dois modelos.

O primeiro passo para fazer inferncia Bayesiana para os modelos N-CR e t-CR, definidos na
Seo 2.3, definir uma densidade priori para o vetor de parmetros . Para o N-CR, =
(
, 2 ) e para o t-CR = (
, 2 , ) . Aqui, usaremos a suposio priori de independncia
entre os parmetros do modelos, portanto a densidade conjunta priori do vetor ser o produto
das densidades priori de cada um de seus elementos. Para ambos os modelos assumiremos
priori que Np (0 , 0 ), com hiperparmetros fixos e conhecidos 0 Rp e 0 uma matriz
p p diagonal e definida positiva, e que 2 tem como densidade priori uma GI(a2 , b2 ), onde
a2 > 0 e b2 > 0 so hiperparmetros fixos e conhecidos.
No caso do modelo t-CR preciso ainda definir uma priori para . Neste sentido, existe
um grande nmero de sugestes como a clssica exponencial, a exponencial truncada, Geweke
(1993), a priori de Jeffreys, Fonseca et al. (2008) e a exponencial hierrquica, Cabral & Madruga
(2012). Esta discusso sumarizada em um estudo de simulao feito em Garay et al. (2013)
que guia nossa escolha pela exponencial truncada hierrquica, ou seja, neste trabalho assumimos

31
T exp( ; (2, ) ) e U nif (c, d), onde T exp( ; A) denota uma distribuio exponencial de
parmetro truncada no intervalo A e, U nif [c, d], uma distribuio uniforme no intervalo [c, d].
Aqui, o truncamento da exponencial serve principalmente para assegurar que todos os valores ge-
rados da amostra posteriori de caiam em um intervalo para o qual o segundo momento da t
de Student exista.

No contexto Bayesiano, estimativas pontuais so obtidas como caractersticas associadas dis-


tribuio posteriori deste parmetro, como a esperana ou a moda. Devido forma complexa
destas distribuies a posteriori muitas vezes bastante custoso (algbrica ou computacionalmente)
obter estes estimadores de forma direta ou por integrao numrica. Atualmente, algoritmos do
tipo MCMC so bastante utilizados a fim de amostrar da distribuio a posteriori e fazer inferncia
para o problema. Em nosso caso, o algoritmo do tipo MCMC a ser utilizado o amostrador de
Gibbs (veja a Seo 1.5 para detalhes sobre o algoritmo) e, para o modelo t-CR, ele ser construdo
com base na representao estocstica dada na Equao (2.2.4). O artifcio utilizado na elabora-
o do amostrado de Gibbs o aumento dos dados, isto , vamos supor que o vetor de variveis
respostas sujeitas censura Y = (Y1 , Y2 , . . . , Yn ) e, no caso do t-CR, tambm o vetor de variveis
latentes U = (U1 , U2 , . . . , Un ), podem ser completamente observados - isto nos permitir calcular
as distribuies condicionais completas para e Y e, sob o t-CR, tambm de e U e amostrar
destas distribuies.

Considere v = (v1 , v2 , . . . , vn ) e c = (c1 , c2 , . . . , cn ) os vetores de observaes de Vi e Ci ,


i = 1, 2, . . . , n, respectivamente. Seja (0) um valor inicial para e (k) o valor de na iterao
k do algoritmo. Calculando-se as condicionais completas, a k-sima iterao do amostrador de
Gibbs sob o modelo t-CR da seguinte forma:

(k) (k)
Passo 1: Para i = 1, 2, . . . , n, se ci = 0 tome yi = vi . Caso contrrio, se ci = 1, gere yi
(independentemente) de uma normal truncada:

(k1) (k1)
N T (xi , 2(k1) /ui ; A),

onde A = [vi , ) se a varivel resposta for censurada direita ou A = (, vi ], se for censurada

32
esquerda.

Passo 2: Gere 2(k) de uma gama inversa:


Q R
n 1 n
(k1) (k) (k1) 2 b
GI aa2 + , b 2 + ui (yi x ) .
2 2 i=1 i

(k)
Passo 3: Para i = 1, 2, . . . , n, gere ui independentemente de uma gama:
Q Q RR
(k)
c
(k1)
+1 1 a (k1) (yi x ) bd
(k1) 2
Ga , + i
b.
2 2 2(k)

Passo 4: Gere (k)


de uma normal pvariada Np ((k) , (k) ), onde
Q R Q R1
x(k) y (k) b x(k) x(k)
(k) = (k) a1
0 0 + , (k) =a + 1
0
b ,
2(k) 2(k)

(k)
x (k)
uma matriz n p cuja i-sima linha formada pelo vetor i e y
u i x (k)
o vetor

(k) (k)
n 1 cuja i-sima componente dada por ui yi , i = 1, 2, . . . , n.

Passo 5: Gere (k) de uma gama truncada: T G(2, (k1) ; [a , b ]).

Passo 6: (k) deve ser gerado de f (|y (k) , u(k) , (k)


, 2(k) , (k) ), que proporcional a:
Q Rn Q R 1 Y Q RZ
(/2)/2 b a 1
n 2 ] n ^
(k) (k)
a ui b exp [ a (k) + ui b\ 11(2,) (),
(/2) i=1 2 i=1

em que utilizamos um passo de Metropolis-Hasting para amostrar desta distribuio (veja


detalhes deste algoritmo na Seo 1.5). Dada a observao (k1) obtida na iterao k 1 do
amostrado de Gibbs, gere um candidato da distribuio candidata g(), uma distribuio
normal truncada:
! "
g() TN (k1) , (k1) ; (2; ) ,

onde o parmetro de locao desta distribuio candidata dado por (k1) = (k1)
q1 ( (k1) ) 1
q2 ( (k1) )
e o de escala por (k1) = q2 ( (k1) )
, onde:
d (k)
q1 () = log f ( | y (k) , u(k) , , 2(k) . (k) ),
d
d2 (k)
q2 () = 2
log f ( | y (k) , u(k) , , 2(k) . (k) ),
d

33
respectivamente a primeira e segunda derivadas da condicional completa de . As escolhas
dos parmetros de locao e de escala da distribuio candidata foram baseadas no trabalho
de Abanto-Valle et al. (2013) e o truncamento foi feito no intervalo (2, ) para garantir a
existncia dos primeiros dois momentos da t de Student utilizando o candidato gerado como
graus de liberdade.

O amostrado de Gibbs construdo sob o modelo N-CR como o anterior, porm considerando
ui = 1 em todos os passos e iteraes e descartando-se os passos 3, 5 e 6.

2.4.2 Aplicao I

Nesta Subseo aplicaremos os mtodos de inferncia desenvolvidos para os modelos N-CR e


t-CR utilizando os dados disponibilizados em Tan et al. (2009) Insulation life data with censoring
times, onde feito um teste acelerado sobre o tempo de vida til do isolamento trmico de
motores eltricos (classe B, originalmente projetada para suportar temperaturas at 130o C ). Um
total de 40 motores foram envolvidos no experimento, sendo que grupos de 10 foram testados sob
as quatro diferentes temperaturas: 150o C, 170o C, 190o C e 220o C. Os testes foram interrompidos
em diferentes tempos para cada nvel de temperatura, de forma que os motores que no sofreram
danos at o trmino do estudo representam observaes censuradas direita, sendo estes 23 de um
total de 40.
Para este conjunto de dados vamos ajustar os modelos N-CR e t-CR e comparar a performance
de ambos, utilizando para isto o pacote BayesCR (veja sua descrio na Subseo 4.1.3). Seguindo
a sugesto dada em Tan et al. (2009), a varivel resposta (censurada direita) ser o logaritmo
na base 10 do tempo de vida til (em horas) e a varivel explicativa uma funo decrescente
da temperatura, (100 (temperatura + 273, 2)1 ). Conforme os modelos N-CR e t-CR descritos nas
subsees anteriores, denotaremos por 1 o intercepto do modelo e 2 o coeficiente de regresso
correspondente varivel explicativa.
Usando o amostrador de Gibbs geramos cadeias de tamanho 200000, aplicamos um burn-in
de 50000 e um thinning de tamanho 30, a fim de eliminar possveis correlaes. Como resultado,
obtivemos 5000 observaes das distribuies a posteriori. A estatstica de Gelman-Rubin (veja

34
Seo 1.5), R, foi calculada para avaliar a convergncia da cadeia. Os resultados esto mostrados
na Tabela 2.1

Modelos
N-CR t-CR

Parmetros Mdia SD HPD (95%) R Mdia SD HPD (95%) R

1 -6.498 1.674 (-9.677;-3.125) 1.00067 -6.372 1.515 (-9.428;-3.486) 1.00039


2 4.602 0.774 ( 3.122; 6.143) 1.00072 4.528 0.703 ( 3.189; 5.937) 1.00035
2 0.197 0.090 ( 0.075; 0.378) 1.00048 0.148 0.082 ( 0.030; 0.296) 1.00234
14.457 18.465 ( 2.101; 59.157) 1.00087

Tabela 2.1: Insulation life data with censoring times. Mdia a posteriori, desvio padro posteriori
(SD), intervalo HPD (95%) e estatstica de Gelman-Rubin (R) sob os modelos N-CR e t-CR.

Como o valor estimado para 1 positivo nos dois modelos, podemos concluir que o logaritmo
na base 10 do tempo de vida til do isolamento (e, consequentemente, o prprio tempo de vida)
diminui conforme aumenta-se a temperatura do teste (note que a varivel explicativa funo de-
crescente da temperatura). Desta forma, para uma dada temperatura t, o tempo mdio de vida
estimado em 106.498+1674/(t+273.2) pelo modelo N-CR e em 106.372+1515/(t+273.2) pelo modelo t-CR.
Note que o valor alto estimado para sob o t-CR indica que o modelo N-CR (seu caso limite
quando ) pode ser adequado para este conjunto de dados.

Na Tabela 2.2 mostramos a comparao entre a adequao dos dois modelos ajustados atravs
dos critrios descritos na Subseo 1.6.2. Todos os critrios utilizados do preferncia para o ajuste
promovido pelo N-CR, embora seus valores no apresentem uma diferena to grande comparados
com os calculados sob o t-CR. Os p-valores Bayesianos no indicam m especificao de nenhum
dos dois modelos.
No intuito de identificar observaes que exercem alguma influncia desproporcional na infe-
rncia final, calculamos as medidas de divergncia de Kullback-Leibler, a distncia J e a distncia
L1 (veja Subseo 1.7), apresentadas nos grficos da Figura 2.2. Estas medidas no identificaram
nenhuma observao influente no conjunto de dados, para qualquer um dos dois modelos ajustados.

35
Modelo LPML DIC EAIC EBIC WAIC1 WAIC2 pB
N-CR -23.164 46.132 44.642 48.019 45.914 46.288 0.405
t-CR -23.422 46.912 46.327 51.393 46.483 46.812 0.530

Tabela 2.2: Insulation life data with censoring times. Comparao entre os modelos N-CR e t-CR.

NCR tCR
0.50

0.50
Divergncia KL

Divergncia KL
0.25

0.25
0.00

0.00

0 10 20 30 40 0 10 20 30 40
Index Index

NCR tCR
0.6

0.6
Distncia J

Distncia J
0.3

0.3
0.0

0.0

0 10 20 30 40 0 10 20 30 40
Index Index

NCR tCR
0.8

0.8
Distncia L

Distncia L
0.4

0.4
0.0

0.0

0 10 20 30 40 0 10 20 30 40
Index Index

Figura 2.2: Insulation life data with censoring times. Divergncia de Kullback-Leibler e distncias
J e L1 sob os modelos N-CR e t-CR.

36
A avaliao da qualidade das estimativas pontuais obtidas com o amostrador de Gibbs e da
robustez dos modelos N-CR e t-CR ser feita juntamente com a dos modelos assimtricos no
prximo captulo (Sees 3.5), atravs de um estudo de simulao.

2.5 Inferncia clssica para os modelos N-CR e t-CR

Nesta Seo desenvolveremos o algoritmo EM para fazer inferncia para os modelos N-CR e
t-CR sob um ponto de vista frequentista (veja Seo 1.4 para mais detalhes sobre este algoritmo).
Discutiremos diagnstico de influncia para estes modelos com base em tcnicas de deleo de ca-
sos e influncia local. A performance dos dois modelos e a qualidade das estimativas obtidas com
o algoritmo EM sero ento avaliados atravs de estudos de simulao. Por fim, as tcnicas aqui
desenvolvidas sero aplicadas em um conjunto de dados reais. No intuito de simplificar a notao,
nesta Seo denotaremos respectivamente por E [Y ] e por V ar [Y ], a esperana e varincia de
Y calculadas sob a suposio de que a distribuio de Y indexada pelo vetor de parmetros ,
quando esta for uma informao relevante.

Os modelos N-CR e t-CR j foram definidos anteriormente na Seo 2.3, portanto, comearemos
esta Seo enunciando alguns resultados que sero bastante teis na construo do algoritmo EM
para os modelos N-CR e t-CR. Os dois lemas seguintes encontram-se demonstrados em Gen (2013)
(veja tambm Kim, 2008a) e apresentam os dois primeiros momentos das distribuies Normal e
t de Student truncadas (veja a Subseo 1.3.2 para a definio deste tipo de distribuies).

Lema 1. Seja Y TN(, 2 ; (a, b)), ento:

() ()
EY [Y ] = + ,
() ()
# $ # $
2 2 2 () () + 2 () () + () ()
EY [Y ] = + ,
() ()

onde = a

e= b

.

37
Lema 2. Se Y Tt(, 2 , ; (a, b)), ento:

EY [Y ] = + G() ( + 2 )(1)/2 ( + 2 )(1)/2 , > 1,
; <
2 2 2 2 (1)/2 2 (1)/2
EY [Y ] = + A() + G() ( + ) ( + )

+2G() ( + 2 )(1)/2 ( + 2 )(1)/2 , > 2,
A B
T ( ; 0, 1, ) T ( ; 0, 1, ) (( 1)/2) /2
onde A() = , G() = ,
2 T (; 0, 1, ) T (; 0, 1, ) 2(T (; 0, 1, ) T (; 0, 1, )) (/2) (1/2)
= a , = b , = , = .
(2)/ (2)/

O resultado seguinte ser til na implementao do algoritmo EM e na estimao da matriz de


varincia-covarincia dos estimadores dos parmetros da regresso.

Lema 3. Seja Y Tt(, 2 , ; (a, b)) e d2 (Y ) = (Y )2 / 2 . Ento, para k = 0, 1, 2 e para


r = 1, 2:
SA Br T S A B A BT
+1 b a
EY U Y k V = c(, r)EX [X k ] UT ; 0, 1, + 2r T ; 0, 1, + 2r V
+ d2 (Y )
S A B A BT1
b a
UT ; 0, 1, T ; 0, 1, V ,

onde

X Tt(, 2 , + 2r; (a, b)), com 2 = 2,
( + 2r)
e A Br
+1 (( + 1)/2) (( + 2r)/2)
c(, r) = .
(/2) (( + 2r + 1)/2)
Prova:
Aps alguma manipulao algbrica, pode-se ver que:
A Br
+1
t(x; , 2 , ) = c(, r) t(x; , 2 , + 2r),
+ d2 (Y )
e isto implica que:
SA Br T
+1 c(, r)P (W (a, b)) t(w; , 2 , + 2r)
EY U Y kV = wk dw,
+ d2 (Y ) P (Z (a, b)) (a,b) P (W (a, b))
onde Z t(, ; ) e W t(, 2 , + 2r). Daqui, a obteno do resultado direta utilizando os
dois primeiros momentos da distribuio t de Student truncada, dados no Lema 2.

38
2.5.1 Construo do algoritmo EM

Considerando os modelos N-CR e t-CR deifnidos anteriormente, construiremos um algoritmo


do tipo EM para estimar o vetor de parmetros = (
, 2 ) destes modelos. Note que, no caso
do modelo t-CR, estamos considerando os graus de liberdade como uma constante fixa e no
como um parmetro a ser estimado e claro que esta escolha precisa ser justificada com algum
argumento terico. Nesta direo, o trabalho de Fernandez & Steel (1999) crucial, pois nele so
discutidos alguns problemas que podem surgir na inferncia como um todo devido estimao dos
graus de liberdade, em especial para a distribuio t de Student. Isto devido funo de veros-
similhana no ser limitada perto da fronteira do espao paramtrico, o que torna questionvel o
esquema de estimao por mxima verossimilhana desenvolvido em Lange & Sinsheimer (1993)
por no fornece informao suficiente para concluir se a estimativa do vetor de parmetros obtida
de fato o ponto de mximo global ou simplesmente um ponto de mximo local. Alm disso,
Lucas (1997) mostra que as estimativas paramtricas se comportam de forma mais robusta na
presena de observaes atpicas quando a hiptese de graus de liberdade fixos feita. Dito isso,
os desenvolvimentos desta Seo consideraro uma constante fixa, e na aplicao em dados reais,
o valor mais apropriado para ser escolhido atravs de um procedimento baseado nos critrios
de seleo AIC e BIC, (veja Lange et al., 1989; Meza et al., 2012).

Para desenvolver o algoritmo EM iremos utilizar novamente a representao estocstica da


varivel resposta censurada Y dada na Definio 1, de forma que:

2
Yi |Ui = ui N(xi , u1
i ), (2.5.1)

onde Ui = 1 com probabilidade 1 sob o modelo N-CR e Ui G(/2, /2) sob o modelo t-CR, para
i = 1, 2, . . . , n.
Assim como no estudo de inferncia Bayesiano feito Seo 2.4, tambm no caso frequentista a
chave para o desenvolvimento do algoritmo de estimao ser considerar os dados aumentados,
isto , considerar que o vetor de variveis sujeita censura Y = (Y1 , Y2 , . . . , Yn ) e, no caso do
modelo t-CR, tambm o vetor de variveis latentes U = (U1 , U2 , . . . , Un ) poderiam ser de fato ob-
servados. Sob este esquema, usamos a Equao (2.5.1) para obter a funo de log-verossimilhana

39
completa, dada por:

n n 2 n n
1 n
2
n
c (; y, u) = log(2) log + log ui 2 ui (yi xi ) +

log h(ui ), (2.5.2)
2 2 2 i=1 2 i=1 i=1

onde h(ui ) a densidade de Ui , isto , 11{1} (ui ) se estamos trabalhando sob o N-CR ou a
densidade G(/2, /2), se sob o t-CR, para i = 1, 2, . . . , n.
No que segue, o sobrescrito (k) indica a estimativa do respectivo parmetro na ksima iterao
do algoritmo. No passo E do algoritmo EM, obtemos a funo Q(| (k) ):

Q(| (k) ) = E(k) [c (; Y , U )|v],

que fica completamente determinada atravs do clculo das seguintes esperanas:

Esi ( (k) ) = E(k) [Ui Yis |v], s = 0, 1, 2, (2.5.3)

j que E(k) [log Ui |v] e E(k) [log h(Ui )|v] dependem somente de , que suposto conhecido. Desta
forma, como o interesse maximizar a funo Q(| (k) ) em relao a , podemos omitir os termos
constantes em e escrever tal funo de uma forma mais sinttica:

n 1 n
Q(| (k) ) = log 2 2 E2i ( (k) ) 2E1i ( (k) )xi + E0i ( (k) )(xi )2 . (2.5.4)
2 2 i=1

Os dois seguintes Lemas tm como intuito apresentar o formato das esperanas Esi ( (k) ) sob os
modelos N-CR e t-CR.

Lema 4. Suponha que Y t(, 2 , ), de forma que vale a representao estocstica apresentada
na Definio 1, com U G(/2, /2). Ento:

+1
E[U |Y = y] = , (2.5.5)
+ d2 (y)
( + 1)( + 3)
E[U 2 |Y = y] = ! " , (2.5.6)
+ d2 (y) 2
2( + 1)
V ar[U |Y = y] = , (2.5.7)
+ d2 (y)

onde d(y) = (y )/.

40
Prova:
Para m = 1, 2, temos que:
1
E[U |y] =
m
uf (y|u)f (u) du
f (y)
Y C DZ

(/2) (/2) ] u (y ) 2
^
= exp +
+1+2m
1
u 2 du
2 2 f (y) (/2) [ 2 2 2 \
C D(+1)/2 ; <
(/2)(+1)/2 d2 (y) u
= 1+ exp d2 (y) + du.
+1+2m
1
1 2 u 2
+1 2
2

Defina:
+ 1 + 2m 1
a= e b= + d2 (y) ,
2 2
ento:
A B(+1)/2
(/2)(+1)/2 2b
E[U |y] =
m 1 2 ua1 exp{b u} du
+1
2
A B(+1)/2
(/2)(+1)/2 2b (a)
= 1 2
+1 ba
2
A BA Bm
(/2)m +1 d2 (y)
= +m 1+ .
( +1
2
) 2
Simplificando a ltima equao para m = 1 e m = 2 obtemos as expresses para E[U |Y = y] e
E[U 2 |Y = y]. A V ar[U |Y = y] pode ento ser facilmente calculada atravs da relao: V ar[X] =
E[X 2 ] E2 [X].

Lema 5. Considere o modelo de regresso para respostas censuradas definidos em (2.3.1) e (2.3.2)
e suponha que Yi admite a representao estocstica dada na Definio1, de forma que, sob os
modelos N-CR e t-CR, vale o resultado em (2.5.1). Seja Esi ( (k) ) conforme definido em (2.5.3),
ento, para s = 0, 1, 2:

Se a isima observao no censurada:

Esi ( (k) ) = vis , sob o modelo N-CR, (2.5.8)


vis ( + 1)
Esi ( (k) ) = , sob o modelo t-CR. (2.5.9)
+ d2 ( (k) , v i)

41
Se a isima observao censurada:

# $
Esi ( (k) ) = E(k) Yis |Yi Ai , sob o modelo N-CR, (2.5.10)
C D
(k) ( + 1)Yi s
Esi ( ) = E(k) |Yi Ai , sob o modelo t-CR, (2.5.11)
+ d2 ( (k) , Yi )

onde Ai = [vi , ) se estamos trabalhando com censuras direita e Ai = (, vi ], se com


censuras esquerda. As esperanas em (2.5.10) e (2.5.11) podem ser obtidas atravs dos
Lemas 1 e 3, respectivamente.

Prova:

Primeiro, suponha que estamos trabalhando sob o modelo N-CR, de forma que a distribuio
de Yi seja uma N (x
i
(k)
, 2(k) ) e que Ui = 1 com probabilidade 1 na Definio 1, i = 1, 2, . . . , n.
Desta forma, se a isima observao no censurada, Yi = Vi e Esi ( (k) ) = E(k) [Yis |Yi = vi ] = vis ,
para s = 1, 2. Agora, se a isima observao censurada, Yi Ai , onde Ai como especificado no
Lema 5, portanto Esi ( (k) ) = E(k) [Yis |Yi Ai ]. Esta esperana corresponde ao ssimo momento
de uma distribuio N T (x
i
(k)
, 2(k) ; Ai ), que pode ser facilmente calculado atravs do Lema 1.

Suponha agora que estamos trabalhando sob o modelo t-CR, ento Yi t(x
i
(k) 2(k)
, ) e
Ui G(/2, /2), i = 1, 2, . . . , n. Se a isima observao no censurada, Yi = Vi e:

Esi ( (k) ) = E(k) [Ui Yis |Yi = vi ]

= vis E(k) [Ui |Yi = vi ]


+1
= vis , (2.5.12)
+ d2 ( (k) , vi )

vi x (k)
onde d( (k) , vi ) = i
(k)
e a Equao (2.5.12) foi obtida utilizando o Lema 4.

Por outro lado, se a observao i for censurada, temos que Yi Ai , onde Ai como especificado

42
no Lema 5. Desta forma:

Esi ( (k) ) = E(k) [Ui Yis |Yi Ai ]



= ui yis f (ui |Yi = yi , Yi Ai )f (yi |Yi = yi , Yi Ai )dui dyi
5 6
= yis ui f (ui |yi ) dui f (yi |Yi Ai ) dyi (2.5.13)

( + 1)yis
= f (yi |Yi Ai ) dyi (2.5.14)
+ d2 ( (k) , yi )
C D
( + 1)Yis
= E(k) |Yi Ai , (2.5.15)
+ d2 ( (k) , Yi )

onde a Equao (2.5.14) vem do fato de que, se Yi estivesse disponvel, seria uma realizao
de uma distribuio t(xi , 2 , ) e a integral mais interna da Equao (2.5.13) seria igual
esperana E(k) [Ui |Yi = yi ], dada no Lema 4. Finalmente, a esperana em (2.5.15) pode ser
calculada facilmente atravs do Lema 3, j que a distribuio de Yi |Yi Ai uma Tt(xi , 2 , ; Ai ).

Aps determinarmos estas esperanas, maximizar a funo Q(| (k) ), relativamente simples,
bastando-nos igualar a 0 as primeiras derivadas parciais desta funo em relao a e a 2 (e veri-
ficar que de fato os argumentos encontrados so pontos de mximo atravs da anlise das derivadas
segundas desta funo), de forma que os argumentos encontrados neste processo de maximizao
consistem no passo M do algoritmo. Desta forma, considerando a funo Q(| (k) ) dada na Equa-
o (2.5.4), temos que a iterao (k + 1) do algoritmo EM pode ser sumarizada da seguinte forma:

Passo E: Dado = (k) , calcule Esi ( (k) ) para i = 1, 2, . . . , n e para s = 0, 1, 2, utilizando o Lema
5.
Passo M : Atualize o valor de (k) maximizando Q(| (k) ) em relao a , que leva s seguintes
expresses:
Q R1
n n

(k+1)
= a E0i ( (k) )xi x b ixi E1i ( (k) ), (2.5.16)
i=1 i=1

(k+1) 1n
(k+1) (k+1) 2

2 = E2i ( (k) ) 2E1i ( (k) )xi + E0i ( (k) )(xi ) . (2.5.17)
n i=1

43
Este processo deve ser repetido at que alguma distncia envolvendo duas avaliaes sucessi-
vas da log-verossimilhana seja pequena o suficiente, como por exemplo, ||( (k+1) ) ( (k) )|| ou
||( (k+1) )/( (k) ) 1||.

Em aplicaes, necessrio especificar um valor para os graus de liberdade antes de aplicar


o algoritmo desenvolvido nesta Subseo. Neste sentido, a sugesto que daremos neste trabalho
baseada nos critrios frequentistas de seleo de modelos: fixe alguns valores para , faa a
estimao paramtrica e considere como resultado para anlise final o cenrio que fornecer maior
valor para a funo de verossimilhana. Um exemplo deste mtodo ser desenvolvido na Subseo
2.5.6.

2.5.2 Aproximao da varincia dos estimadores dos parmetros da


regresso

No processo de inferncia importante tambm avaliar a variabilidade dos estimadores obtidos,


neste caso, via algoritmo EM. Neste trabalho, aproximaremos a matriz de varincia-covarincia dos
estimadores de = (
, 2 ) sob os modelos N-CR e t-CR pela inversa da matriz de informao
emprica, definida por:
n

Ie () = w(vi ; ) w(vi ; ) (2.5.18)
i=1
1
= W (v; ) W (v; ) , (2.5.19)
n
qn
onde W (v; ) = i=1 w(vi ; ) e o vetor score para cada observao, w(vi ; ), i = 1, 2, . . . , n, pode
ser obtido da seguinte forma:
C D
(; vi ) c (; yi , ui )
w(vi ; ) = = E | vi ; , (2.5.20)

onde c (; yi , ui ) a funo de log-verossimilhana completa, dada na Equao (2.5.2). O resul-


tado da Equao (2.5.20), exibido em Louis (1982), pode ser provado observando que (; v) =
s
log f (v; ) = log R f (y; )dy, onde R = {y : v(y) = v}, isto , R o conjunto contido em R com
os valores possveis para o vetor de variveis latentes Y capazes de gerar o vetor de observaes v

44
(veja a Seo 1.4). Desta forma, o vetor score dado por:

(; v)
w(v; ) = = log f (y; ) dy
R
s
(y;

f ) dy
= sR (2.5.21)
R f (y; ) dy
s
f (y;)
R f (y;) f (y; ) dy
= (2.5.22)
f (v; )

c (; y) f (y; )
= dy
R f (v; )
C D
c (; y)
= EY |V |v , (2.5.23)

onde f (y; ) representa a primeira derivada de f (y; ) com relao a , a Equao (2.5.22) foi

obtida multiplicando-se e dividindo o integrando do numerador em (2.5.21) por f (y; ) e, final-


mente, a Equao (2.5.23) vem de (1.4.1).

O vetor score para a isima observao, i = 1, 2, . . . , n, decomposto em


3 4
w(vi ; ) = w (vi ; ), w2 (vi ; ) ,

e cada um destes elementos dado por:


C D
c (; Yi , Ui )
w (vi ; ) = E |Vi = vi

xi xi x
= 2
E1i () 2
i
E0i (), (2.5.24)

e
C D
c (; Yi , Ui )
w2 (vi ; ) = E |Vi = vi
2
1 1 1 2
2
= + E2i () 2x
E1i () + (x
) E0i () , (2.5.25)
2 2 2 4 i i

onde as esperanas Esi () = E[Yis Ui |Vi = vi ], para s = 0, 1, 2, so dadas para os modelos N-CR e
t-CR no Lema 5.

45
a matriz de informao em-
Substituindo por sua estimativa de mxima verossimilhana, ,
prica observada pode ser calculada atravs das Equaes (2.5.18), (2.5.24) e (2.5.25). Finalmente,
a matriz de varincia-covarincia do estimador de mxima verossimilhana de estimada como

Ie1 ().

2.5.3 Anlise de diagnstico

Tcnicas de diagnstico de influncia consistem em avaliar a sensibilidade das estimativas pa-


ramtricas quando ocorre uma perturbao no conjunto de dados ou em pressupostos do prprio
modelo. Existem duas principais abordagens para a deteco de observaes influentes, a primeira
delas a deleo de casos (Cook, 1977), na qual o efeito ou a influncia de uma dada observao
na inferncia final do modelo medida atravs da comparao entre as estimativas dos parmetros
obtidas com o conjunto de dados completo e eliminando-se dele tal observao, utilizando-se, para
isso, alguma mtrica adequada. A segunda abordagem atravs do mtodo da influncia local
Cook (1986), que avalia as alteraes nos resultados da anlise devido a uma perturbao nas
hipteses do modelo ou no conjunto de dados.
Utilizando os resultados da Subseo 2.5.1, introduziremos nesta Subseo medidas de influncia
para os modelos N-CR e t-CR baseando-nos na funo Q(| (k) ) previamente definida.

Medidas de influncia via deleo de casos

A deleo de casos um mtodo clssico para estudar a influncia da isima observao do


conjunto de dados na inferncia final. No que segue, uma quantidade com o subescrito i
denota a quantidade original sem o isimo caso, por exemplo, y1 = (y2 , y3 , . . . , yn ) . A funo
de log-verossimilhana completa calculada aps a excluso da isima observao do conjunto de

dados ser denotada por c (; yi , ui ). Seja i = ( i , 2 i ) o argumento que maximiza a
= E # (; y , u )|v $, onde = ( ,
funo Qi (|) 2 ) a estimativa EM de .
c
i i i

Para acessar a influncia da isima observao nas estimativas de mxima verossimilhana de


iremos comparar a diferena entre i e ,
de modo que se distante de (em algum sentido),
i

46
ento o isimo caso considerado influente no processo de estimao e requer ateno especial.
Como a obteno dos valores i necessria para todo i {1, 2, . . . , n}, o esforo computacional
necessrio pode ser bastante grande j que tais estimativas so alcanadas atravs de um algoritmo
iterativo. Para tentar driblar este problema, apresentamos i

, uma pseudo-aproximao de i
que pode ser obtida em um nico passo (veja Cook & Weisberg, 1982):

i

= + {Q(| 1 Q (|
)}
i
),
(2.5.26)

onde
2 Q(|) = Qi (|) |

Q(| =
) | e Q ( )
| (2.5.27)
,
=
i =

so respectivamente a matriz Hessiana e o vetor gradiente da funo Q(|) avaliados em = ,

respectivamente. Em particular, a matriz Hessiana um elemento essencial no mtodo desenvolvido


por Zhu et al. (2001) para obter as medidas de diagnstico baseadas na deleo de casos e em
influncia local para um determinado esquema de perturbao (veja tambm Zhu et al., 2009). As
seguintes frmulas podem ser obtidas facilmente a partir da relao (2.5.4).
Qi (|)
1
Qi (| =
) |= = E(1)i ,
2
= Qi (|) | 1

Qi2 (|
)
2 = 2 E(2)i ,
=
2
onde

E(1)i = xj E1j ()
E ()x
0j

j xj

e (2.5.28)
j=i
C D
1 1 2
2
E(2)i = 1 E2j ()
2E
1j ()xj

+ E0j ()(x

j ) . (2.5.29)
j=i 2
avaliadas em = ( ,
As derivadas parciais de segunda ordem de Q(|) 2 ) so:

2 Q(|)
1 n
x ,
Q (| =
) | = E0i ()xi i (2.5.30)
= 2 i=1
2 Q(|)

Q2 (|
)}
= |
2 C2 = D
1 n
2 1 2
2
= 1 E2i () 2E1i ()xi + E0i ()(xi )
, (2.5.31)
2 4 i=1 2
2 Q(|)
1 n
Q (|)} =
2
| = x E1i () 0i
x .
E ()x (2.5.32)
2 =
i i i
4 i=1

47
(k) (k)
Utilizando as expresses dadas em (2.5.16) e (2.5.17) com a substituio de (k) = ( , 2 )
por ,
pode-se mostrar que Q 2 (|

um vetor pdimensional nulo. Isto significa que a matriz
)}

Hessiana bloco-diagonal da forma:

Q(| = bloco diag{Q (|


) Q 2 (|
), )},

onde Q (| e Q 2 (|
)

so dados em (2.5.30) e (2.5.31), respectivamente.
)

Com estes resultados, podemos aplicar a aproximao dada em (2.5.26) e obter frmulas con-

cisas para as aproximaes de i = ( i , 2 i ) , i = 1, 2, . . . , n,. O Teorema seguinte nos
mostra esta relao entre as estimativas paramtricas obtidas com o conjunto de dados completo
e excluindo-se dele a isima observao. Sua prova ser omitida pois trata-se simplesmente de
manipulaes algbricas.

Teorema 2. Para os modelos N-CR e t-CR, uma aproximao para as estimativas de e 2


obtidas aps a excluso do isimo caso da amostra dada por:
Q R1
n
= +a x b E
E0i ()x
i i i (1)i ,
i=1
C D
2 1 2
2 1
2 i = 2 + 1 E2i ()
2E1i ()x

i + E0i ()(x

i ) E(2)i ,
2

onde e 2 so os estimadores EM de e 2 , E(1)i e E(2)i so dados nas Equaes (2.5.28) e


(2.5.29) (respectivamente) e as esperanas Esi so dadas para os modelos N-CR e t-CR no Lema
5, para s = 0, 1, 2.

Dado o resultado apresentado no Teorema 2, resta-nos agora escolher mtricas adequadas para
comparar as estimativas i e ,
a fim de acessar a influncia que a isima observao exerce

sobre a inferncia final. Baseando-nos na mtrica proposta por Zhu et al. (2001), iremos considerar
primeiramente a distncia generalizada de Cook, definida por:

GDi = (i )
{Q(|
)}(
),
i
i = 1, 2, . . . , n. (2.5.33)

48
Substituindo (2.5.26) em (2.5.33), obtemos a seguinte aproximao para esta mtrica:

GDi = Qi (|
)
{Q(| 1 Q (|
)}
i
),
i = 1, 2, . . . , n.

Uma vez em que Q(| uma matriz bloco-diagonal, GD pode ser decomposta na soma:
)
i

GDi = GDi ( ) + GDi ( 2 ),

onde

GDi ( ) = Qi (| {Q (|
)

)}
1 Q
i (|)

S T1
1 n
x V E
=
E(1)i U E0i ()xi (1)i
i e
2 i=1

GDi ( 2 ) = Qi2 (| {Q 2 (|
)

1 Q 2 (|
)}
i
)

C D
1
n
2 1 2
2 1
= 1 E2i ()
2E1i ()x
+ E0i ()(x
)
22
i i
i=1 2
so medidas da influncia exercida pela isima observao nas estimativas dos parmetros e
2 , respectivamente, funcionando como verses da distncia generalizada de Cook para cada um
destes parmetros.

Outra mtrica que pode ser utilizada para nosso objetivo principal, que comparar i e ,

a chamada distncia-Q. Esta medida, bastante anloga distncia pela verossimilhana LDi
(Cook & Weisberg, 1982), definida como:

QDi = 2{Q(|
)
Q( |)}.
i
(2.5.34)

Pode-se calcular uma aproximao da distncia-Q atravs da substituio de (2.5.26) em (2.5.34),


resultando em:
QDi = 2{Q(|
)
Q( |)}.
i

Note que necessrio especificar um ponto limite acima do qual estas mtricas classificam
uma observao como influente. Neste sentido, faremos aqui uma adaptao da sugesto dada por
Barros et al. (2010) e usaremos 2(p + 1)/n como ponto limtrofe para GDi , 2p/n para GDi ( ) e
2/n para GDi ( 2 ), para i = 1, 2, . . . , n, onde p a dimenso do vetor .

49
Medidas de influncia local

Em geral os mtodos de diagnstico visam a verificao de possveis afastamentos das suposi-


es feitas pelo o modelo, bem como a identificao da existncia de observaes extremas com
alguma interferncia indesejada na inferncia final. O mtodo de influncia local, introduzido por
Cook (1986) consiste em verificar a existncia de pontos que, sob pequenas modificaes no modelo
ou no prprio conjunto de dados, causam variaes desproporcionais nos resultados do ajuste.
Para este propsito vamos considerar dois esquemas diferentes de perturbao: a ponderao de
casos e a perturbao na escala.

Considere um vetor de perturbaes ! = (1 , ..., g ) variando em uma regio aberta Rg .


Seja c (, !; y, u) a funo de log-verossimilhana completa do modelo perturbado. Assumiremos
que existe um ! 0 tal que c (, ! 0 ; y, u) = c (; y, u), para todo . Defina:

= E [ (, !; Y, U )|v] e
Q(, !|) c


(!) = arg max Q(, !|)
= ( (!) ,
2 (!)) .

O grfico de influncia ento definido como (!) = (! , fQ (!)) , onde fQ (!) a chamada
funo de afastamento, dada por:

fQ (!) = 2 Q(|
)
Q((!)|
.
)

Seguindo o trabalho de Cook (1986) e Zhu & Lee (2001), a curvatura normal CfQ ,d do grfico
(!) no ponto ! = ! 0 na direo de um vetor unitrio d pode ser utilizada para sumarizar
o comportamento local da funo de afastamento (para detalhes sobre a definio de curvatura
normal de superfcies, veja do Carmo (2006)). Sejam

2 Q(, !|)
2 Q((!)|

)
!= | e Q! 0 = |! =! 0 .
! = !!

Ento, pode-se mostrar que


1
CfQ ,d = 2d Q! 0 d = 2d
! 0 Q(|) ! 0 d,

50
onde Q(| como definido em (2.5.27).
)

Seguindo o mesmo procedimento adotado por Cook (1986), a informao proveniente da ma-
triz simtrica Q! 0 bastante til para detectar observaes influentes. Primeiro, considere a
decomposio espectral desta matriz:
g

2Q! 0 = k "k "
k,
k=1

onde {(k , "k ), k = 1, . . . , g} so pares de auto-valor e auto-vetor de 2Q! 0 com 1 . . . r >


r+1 = . . . = 0 e auto-vetores ortonormais "k , k = 1, . . . , g. Zhu & Lee (2001) propuseram ins-
pecionar os auto-vetores correspondentes a auto-valores no nulos para capturar mais informao
segundo o seguinte mtodo: seja
r
k
k = , "2k = (2k1 , . . . , 2kg ) e M (0) = k "2k ,
1 + . . . + r k=1

e seja M (0)l =
qr 2 a lsima componente do vetor M (0). A deteco de observaes in-
k=1 k kl

fluentes baseada na inspeo visual do grfico de M (0)l , l = 1, . . . , g plotado contra o ndice l.


O lsimo caso ento considerado influente se M (0)l maior do que um valor limtrofe adequado.

Utilizar a curvatura normal em sua forma original para avaliar a influncia de uma determinada
observao pode gerar alguns problemas, uma vez em que CfQ ,d pode assumir qualquer valor na
reta e no invariante a mudanas de escala uniformes. Desta forma, com base no trabalho de
Poom & Poon (1999) e de Zhu & Lee (2001), utilizaremos a curvatura normal conforme, dada por:
CfQ ,d
BfQ ,d = ,
tr[2Q! 0 ]
cujo clculo bastante simples e tambm possui a propriedade de que 0 BfQ ,d 1. Seja dl um
vetor de zeros, exceto pela lsima componente que igual a 1. Zhu & Lee (2001) mostraram que
M (0)l = BfQ ,dl para todo l. Desta forma, pode-se obter M (0)l via BfQ ,dl .

At o momento no foi dada nenhuma sugesto na literatura sobre uma regra geral para deter-
minar um ponto limtrofe para M (0)l , acima do qual a observao correspondente seria considerada

51
influente. Denote ento por M (0) e por SM (0) a mdia e o desvio padro de {M (0)l ; l = 1, . . . , g},
respectivamente. Utilizando o fato de que os vetores "k so ortonormais, no difcil provar que
M (0) = 1/g. Poom & Poon (1999) propuseram utilizar 2M (0) como um ponto limtrofe para
M (0), enquanto Zhu & Lee (2001) propuseram utilizar M (0) + 2SM (0) como tal, a fim de levar
em considerao tambm a varincia de {M (0)l ; l = 1, . . . , g}. H inmeras escolhas de funes
de M (0) que servem como ponto limtrofe, de fato, segundo Lee & Xu (2004), a escolha de M (0)
como tal funo subjetiva, por isso eles propuseram utilizar M (0) + c SM (0), onde c uma
constante apropriada cuja escolha depende da aplicao. Neste trabalho adotaremos esta sugesto
utilizando c = 3.5.

A seguir, apresentaremos dois esquemas de perturbao. O primeiro a ponderao de ca-


sos, que apropriada para detectar observaes com contribuies atpicas para a funo de log-
verossimilhana e, por isso, podem exercer influncia significativa nas estimativas de mxima
verossimilhana. O segundo esquema a perturbao na escala, uma perturbao feita no par-
metro 2 que pode revelar o quo sensvel so as estimativas do modelo acerca da hiptese de
homocedasticidade e identificar as observaes que mais contribuem para esta sensibilidade.
Nos dois esquemas de perturbao consideraremos ! = (1 , . . . , n ) , isto , o vetor de per-
turbao ter uma componente para cada observao no conjunto de dados. Observe que, uma
vez em que a curvatura normal conforme pode ser calculada atravs somente de ! 0 e da matriz
! 0 , no necessrio especificar valores para cada componente de ! para realizar a anlise de
diagnstico, desde que a funo de log-verossimilhana completa perturbada seja suave o suficiente
para que as derivadas requeridas sejam bem definidas.
Para cada um dos dois esquemas de perturbao propostos, especificaremos o vetor ! 0 e ava-
liaremos o formato da matriz ! 0 , que pode ser particionada na forma:

!0 = ( 2 ) ,

,

onde
2 Q(, !|)
2 Q(, !|)

= | Rpg e 2 = | R1g .
! =(! 0 ) 2 ! =(! 0 )

52
Ponderao de casos

Neste esquema de perturbao temos que ! 0 = (1, . . . , 1) = 1n . Alm disso, possvel mostrar
que a influncia local sob ponderao de casos equivalente ao mtodo de deleo de casos discutido
anteriormente, portanto (! 0 ) = and 2 (! 0 ) = 2 . A funo Q(, !|),
a verso perturbada

de Q(|),
dada por:

n
n

= E [ (, !; Y , U )|v] =
Q(, !|) i E[ci (; Y , U )|v] = i Qi (|),

c

i=1 i=1

onde Qi (|)
representa o termo da funo Q(|)
relativo isima observao, isto :

= 1 log 2 1 E ()

2
Qi (|) 2i
2E ()x
1i
+ E ()(x
0i

) .
2 2 2 i i

Desta forma, sob este esquema de perturbao, os componentes de ! 0 so dados por:

1
= X diag{E1 ()}
A ,

2
I J
1 1
2 = 1n B ,

2 2 2

onde A uma matriz com n colunas igual a X diag{E0 ()}X



, com Ej ()
= (E (),
j1
. . . , E ())
jn
,

para j = 1, 2, X uma matriz com linhas dada pelos vetores xi (isto , a matriz de desenho) e
B um vetor ndimensional com coordenadas Bi = E2i ()
2E ()x
1i
+ E ()(x
i 0i

i ) , para
2

i = 1, 2, . . . , n.

Perturbao na escala

A fim de identificar observaes que influenciam de forma significativa nas estimativas pa-
ramtricas quando a hiptese de homocedasticidade no vlida, consideramos a perturbao
2 (i ) = i1 2 , para i = 1, 2, . . . , n., isto , sob esta perturbao cada erro aleatrio do modelo
dado na Equao (2.3.1) segue uma distribuio Normal ou t de Student (dependendo do modelo
assumido) com parmetro de escala 2 (i ), gerando um cenrio homocedstico. claro que o

53
vetor relacionado ao modelo no perturbado dado por ! 0 = 1n . Alm disso, Q(, !|)
como

na Equao (2.5.4), fazendo-se a substituio de 2 por 2 (i ) e de (k) por .


A matriz ! 0 tem os seguintes elementos:


1
= X diag{E1 ()}
A ,
2
1
2 = B ,
2 4
onde A e B so como definidos no esquema de ponderao de casos.

2.5.4 Estudo de simulao I: Robustez das estimativas EM

O objetivo deste estudo de simulao comparar a sensibilidade dos estimadores EM obtidos sob
os modelos N-CR e t-CR quando ocorre uma perturbao na varivel resposta, gerando observaes
atpicas. Para isso, geramos 1000 conjuntos de dados de tamanho 100 cada sob o modelo N-CR
especificado nas Equaes (2.3.1) e (2.3.2), com i N(0, 2 ) e fixando
= (1 , 2 ) = (1, 4),
2 = 2 e x
i = (1, xi ), com xi gerado aleatoriamente de uma distribuio uniforme no intervalo

(2, 20), para i = 1, 2, . . . , n. importante destacar que estes valores foram fixados para as 1000
simulaes. Aps gerado, cada conjunto teve sua varivel resposta censurada direita a um nvel
de 8%.
Para avaliar o quanto as estimativas EM so afetadas pela presena de observaes atpicas
substitumos (em todos os 1000 conjuntos de dados) a observao y50 por y50 () = y50 , com
= 1, 2, . . . , 10. Para cada conjunto de dados obtido (incluindo os originais e aqueles com os
10 padres de perturbao) foram ajustados os modelos N-CR e t-CR, com {3, 6, 8, 10, 12}.
Estamos interessados em avaliar a mudana relativa mdia sofrida pelas estimativas como uma
funo de . Para cada um dos 1000 conjuntos de dados originais, a mudana relativa sofrida pelo
parmetro sob uma perturbao definida como:

RC() = |(()
|.
)/ (2.5.35)

onde ()
a estimativa EM do parmetro obtida com o conjunto de dados perturbado em e
com o conjunto de dados original.
,

54
A Tabela 2.3 e a Figura 2.3 descrevem os valores mdios das mudanas relativas sofridas pelos
parmetros 1 , 2 e 2 em funo de , sob cada modelo ajustado. O que observamos que, para
todos os parmetros, as mudanas relativas mdias aumentam bruscamente sob o N-CR conforme
cresce o valor de , enquanto que, sob o modelo t-CR, este aumento bastante sutil (para todos
os valores de ). Este cenrio mostra a maior sensibilidade das estimativas do modelo N-CR na
presena de observaes atpicas e a robustez do modelo t-CR para lidar com este tipo de problema.
Alm disso, pode-se notar que as estimativas dos parmetros 1 e 2 so as mais afetadas pela
presena do outlier, enquanto a de 2 se mantm mais estvel, com mudanas relativas mdias
de menor amplitude.

1 2 2
1.0
50

50
NCR NCR NCR
Mudana relativa mdia (em %)

Mudana relativa mdia (em %)

Mudana relativa mdia (em %)


tCR (=3) tCR (=3) tCR (=3)
0.8

tCR (=6) tCR (=6) tCR (=6)


tCR (=8) tCR (=8) tCR (=8)
40

40
tCR (=10) tCR (=10) tCR (=10)
tCR (=12) tCR (=12) tCR (=12)
0.6
30

30
0.4
20

20
0.2
10

10
0.0
0

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10

Figura 2.3: Estudo de simulao I. Mudana relativa mdia nas estimaes para diferentes conta-
minaes .

2.5.5 Estudo de simulao II: Desvios padres dos estimadores EM

Neste estudo de simulao avaliaremos a qualidade do mtodo sugerido na Subseo 2.5.2 para
aproximar a varincia dos estimadores de mxima verossimilhana dos parmetros e 2 sob os
modelos N-CR e t-CR, sob diferentes nveis de censura. Para isso, fixamos 1 = 2, 2 = 1, 2 = 1
e a matriz de desenho X igual a (1
100 , t 110 ), onde t = (1.0, 1.2, 1.4, 1.6, 1.8, 2.0, 2.2, 2.4, 2.6, 2.8) e

1p um vetor pdimensional com elementos iguais a 1, e geramos geramos 1000 conjuntos de dados
de tamanho 100 segundo o modelo em (2.3.1) sob a distribuio Normal e outros 1000 tambm de
tamanho 100 sob a distribuio t-Student com graus de liberdade igual a 4. Aps gerado, cada

55

Modelos 1 2 3 4 5 6 7 8 9 10

1 N-CR 6.89 13.35 19.37 24.95 30.11 34.85 39.19 43.14 46.72 49.94
t-CR ( = 3) 2.71 4.60 5.40 5.43 5.17 4.88 4.65 4.47 4.34 4.25
t-CR ( = 6) 6.05 10.39 12.70 13.41 13.21 12.62 11.94 11.29 10.74 10.29
t-CR ( = 8) 2.60 4.82 6.32 7.09 7.32 7.25 7.04 6.78 6.51 6.25
t-CR ( = 10) 3.67 6.84 9.13 10.48 11.09 11.20 11.03 10.73 10.37 10.00
t-CR ( = 12) 0.78 1.60 2.37 2.99 3.45 3.77 3.98 4.11 4.19 4.23

2 N-CR 0.08 0.17 0.25 0.33 0.40 0.47 0.54 0.60 0.67 0.72
t-CR ( = 3) 0.05 0.09 0.11 0.11 0.10 0.10 0.09 0.09 0.09 0.09
t-CR ( = 6) 0.03 0.06 0.08 0.09 0.09 0.08 0.08 0.08 0.07 0.07
t-CR ( = 8) 0.01 0.02 0.03 0.04 0.04 0.04 0.04 0.04 0.04 0.04
t-CR ( = 10) 0.02 0.05 0.07 0.08 0.09 0.09 0.09 0.09 0.08 0.08
t-CR ( = 12) 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02

2 N-CR 1.29 3.00 5.50 9.04 13.73 19.61 26.68 34.88 44.19 54.61
t-CR ( = 3) 1.78 3.10 3.97 4.55 4.98 5.31 5.54 5.70 5.82 5.90
t-CR ( = 6) 1.60 3.17 4.57 5.74 6.70 7.47 8.07 8.52 8.85 9.09
t-CR ( = 8) 1.55 3.12 4.63 6.07 7.35 8.44 9.32 10.01 10.54 10.95
t-CR ( = 10) 1.52 3.09 4.75 6.44 8.01 9.38 10.53 11.46 12.19 12.78
t-CR ( = 12) 1.49 3.18 4.97 6.74 8.46 10.05 11.43 12.60 13.56 14.33

Tabela 2.3: Estudo de simulao I. Mudana relativa mdia nas estimaes dos parmetros 1 , 2
e 2 para diferentes contaminaes (em %).

conjunto de 100 observaes da varivel resposta foi censurado direita em nveis de 5%, 10%, 20%
e 50%.

Para cada conjunto de dados foi ajustado o modelo adequado (N-CR ou t-CR), calculando
as estimativas EM dos parmetros envolvidos, a aproximao dos desvios padres para 1 e 2
segundo os desenvolvimentos da Subseo 2.5.2 (cujo valor mdio para as 1000 amostras deno-
tado por IM SE), e tambm um intervalo de 95% de confiana para tais parmetros, utilizando a
hiptese de normalidade assinttica. Em seguida, calculamos o desvio padro observado para as
1000 estimativas de 1 e de 2 (denotado por SE), a fim de compar-lo com o IM SE calculado.
Tambm foi calculada a cobertura mdia dos intervalos calculados (supondo normalidade assint-

56
tica dos estimadores), denotada por COV, isto , a porcentagem dos 1000 intervalos de confiana
assintticos que continham o verdadeiro valor do parmetro. Os resultados esto apresentados na
Tabela 2.4, sugerindo que, de fato, o mtodo da Subseo 2.5.2 apropriado sob os dois modelos e
para os quatro nveis de censura considerados. Nota-se, no entanto, que a porcentagem de cober-
tura um pouco prejudicada para os intervalos contrudos para 2 , principalmente sob o t-CR, o
que compreensvel j que a normalidade assinttica pode no ser vlida para o estimador deste
parmetro.

N-CR t-CR

Nvel de censura (%) Medida 1


2
2
1
2
2

5 IM SE 0.3526 0.1784 0.1519 0.4051 0.2041 0.1867


SE 0.3463 0.1715 0.1502 0.4191 0.2120 0.2840
COV 95.7% 96.1% 92.5% 93.6% 93.7% 80.0%

10 IM SE 0.3538 0.1796 0.1574 0.4048 0.2042 0.1905


SE 0.3474 0.1728 0.1563 0.4204 0.2125 0.2842
COV 95.7% 96.2% 91.7% 93.2% 93.6% 80.3%

20 IM SE 0.3582 0.1838 0.1701 0.4075 0.2067 0.2026


SE 0.3529 0.1783 0.1724 0.4215 0.2131 0.2941
COV 95.1% 95.8% 92.0% 93.6% 93.9% 82.1%

50 IM SE 0.3912 0.2154 0.2295 0.4505 0.2471 0.2732


SE 0.3879 0.2095 0.2181 0.4722 0.2603 0.3916
COV 94.7% 94.8% 91.3% 93.2% 93.1% 82.2%

Tabela 2.4: Estudo de simulao II. Valores mdios (em 1000 amostras) do desvio padro com-
putado via matriz de informao emprica (IM SE), desvio padro observado para os estimadores
(SE), e cobertura mdia dos intervalos assintticos de 95% de confiana (COV).

2.5.6 Aplicao II

Nesta Subseo ajustaremos os modelos N-CR e t-CR via algoritmo EM ao conjunto de dados
descrito em Mroz (1987), Wage Rate. Tambm faremos um estudo de diagnstico destes modelos

57
com base na metodologia descrita nas Sees 2.5.3. O respaldo computacional desta aplicao
feito pelos pacotes CensRegMod e SMNCensReg, descritos na Subseo 4.1.3.

O conjunto de dados Wage Rate descreve os ganhos por hora (em dlares) de 753 mulheres
brancas e casadas com idades entre 30 e 60 anos no ano de 1975, sendo que 325 destas mulheres
no trabalharam neste ano e seus ganhos so tidos como 0. Algumas caractersticas pessoais e
familiares destas mulheres tambm foram gravadas e funcionaro como variveis explicativas para
o nosso modelo.
Para ajustar o modelo de regresso para dados censurados teremos como objetivo modelar
o ganho potencial destas mulheres, de forma que se um indivduo trabalhou no ano de 1975
seu ganho potencial sua prpria renda, porm, se este no for o caso, seu ganho potencial
um valor negativo, representando o quanto deixou de ganhar por no ter trabalhado. Assim, o
ganho potencial uma varivel aleatria sujeita a censura esquerda, pois s conseguimos observar
seu valor real se o indivduo exerceu alguma atividade remunerada durante o ano de 1975, caso
contrrio somente sabemos que seu ganho potencial pertence ao intervalo (, 0].
Dito isto, modelaremos a varivel censurada esquerda Yi , definida como o ganho potencial do
indivduo i em funo das variveis explicativas:

x2 : nmero de filhos (em casa) com menos de 6 anos,

x3 : nmero de filhos (em casa) entre 6 e 19 anos,

x4 : idade,

x5 : anos de estudo,

x6 : nmero de horas trabalhadas pelo marido em 1975,

x7 : renda (por hora, em dlares) do marido em 1975,

x8 : taxa de impostos pagos pela mulher,

x9 : nmero de anos trabalhados (antes de 1975),

58
de forma que o vetor de covariveis para o indivduo i dado por xi = (1, x2i , x3i , . . . , x9i ), com
i = 1, 2, . . . , 753.

O algoritmo EM desenvolvido na Subseo 2.5.1 foi aplicado para ajustar os modelos N-CR
e t-CR a este conjunto de dados. Para o modelo t-CR, os graus de liberdade foram fixados em
= 2.3, escolha justificada atravs da Figura 2.4, que mostra os valores assumidos pela funo de
log-verossimilhana avaliada nas estimativas EM obtidas fixando nos valores 2, 2.1, 2.2, . . . , 10.
1299
logverossimilhana
1309
1319
1329

2.3 4 6 8 10

Figura 2.4: Wage rate data. Grfico da log-verossimilhana perfilada para .

Na Tabela 2.5 esto apresentadas as estimativas paramtricas obtidas nos ajustes dos modelos
N-CR e t-CR via algoritmo EM, bem como a aproximao dos desvios padres para os estimadores
dos efeitos fixos, denotada por SD (veja Subseo 2.5.2). Nesta tabela podemos notar que os desvios
padres estimados sob o t-CR so sempre menores do que sob o N-CR, indicando que o modelo
t-CR produz estimativas mais precisas. Alm disso, o pequeno valor de escolhido para os graus
da liberdade da t de Student reflete um cenrio em que o modelo N-CR pode no ser o mais
adequado para este conjunto de dados, o que comprovado pelos critrios de seleo de modelos
apresentados na Tabela 2.6.
Para avaliar a adequao dos dois modelos ajustados, realizaremos uma anlise de resduos
baseada em grficos de envelope (veja Atkinson, 1985). Aqui, optamos por utilizar os resduos
deviance para gerar os envelopes pois, ao contrrio de resduos mais clssicos (como os de Pear-
son), estes so capazes de incorporar informao sobre as censuras e, segundo Ortega et al. (2003),

59
Modelos
N-CR t-CR

Parmetro Estimativa SD Estimativa SD


1 30.0152 3.6592 35.4547 2.6735
2 -2.0625 0.4054 -1.7787 0.2558
3 0.3536 0.1515 0.2893 0.0936
4 -0.1473 0.0265 -0.1306 0.0177
5 0.5378 0.0850 0.3822 0.0513
6 -0.0024 0.0003 -0.0026 0.0002
7 -0.5486 0.0648 -0.6521 0.0531
8 -32.3373 3.4749 -35.7824 2.4793
9 0.1753 0.0270 0.1381 0.0160
2 16.8390 0.5759 4.3183 0.4356

Tabela 2.5: Wage rates data. Resultados dos ajustes dos modelos N-CR e t-CR via algoritmo EM.

Modelo AIC BIC EDC


N-CR 2820.161 2866.401 2855.042
t-CR 2660.688 2671.553 2659.058

Tabela 2.6: Wage rate data. Comparao entre os modelos N-CR e t-CR.

podem ser utilizados para avaliar a qualidade do ajuste de um determinado modelo.


Primeiramente, defina o resduo de martingale (Ortega et al., 2003) para o isimo indivduo
como: Q Q RR
c vi xi bd
mi = (1 ci ) + log a1 F a b,

onde F () a cdf da verso padro da densidade dos erros aleatrios (em nosso caso, N(0, 1) para o
N-CR ou t (0, 1) para o t-CR) e ci uma funo indicadora de censura, isto , ci = 1 se a isima

60
observao censurada ou ci = 0, se no . Finalmente o resduo deviance para este indivduo
definido como:
) *1/2
di = sign(mi ) 2 (1 ci ) log(1 ci mi ) + mi .

Os grficos de envelope gerados esto apresentados na Figura 2.5, onde podemos ver claramente
que o modelo t-CR se ajusta melhor aos dados do que o N-CR, apesar de ainda apresentar indcios
de m especificao (provavelmente relacionado presena de assimetria dos dados).

NCR tCR

2
1
0
Resduos deviance

Resduos deviance
0
2

1
4

2
6

3 2 1 0 1 2 3 3 2 1 0 1 2 3

Quantis da normal padro Quantis da tStudent padro

Figura 2.5: Wage rates data. Grficos de envelope baseados nos resduos deviance para os ajustes
dos modelos N-CR e t-CR.

A robustez dos modelos N-CR e t-CR podem ser avaliadas atravs da influncia que uma nica
observao atpica exerce sobre as estimativas EM do vetor de parmetros . Em particular, pode-
mos investigar a mudana relativa sofrida nas estimativas de ao adicionar-se unidades em uma
nica observao yi , substituindo-se yi por yi () = yi + . Aqui, utilizaremos a mesma definio de
mudana relativa dada na Equao (2.5.35). A Figura 2.6 mostra as mudanas relativas sofridas
pelas estimativas de 1 , 2 , . . . , 9 sob ambos os modelos ao contaminarmos a observao nmero
44 (no censurada) com valores de variando entre 0 e 40 em passos de tamanho 0.5. Como
esperado, as estimativas do modelo t-CR so menos afetadas pelas contaminaes e a robustez
deste modelo em comparao com o N-CR fica mais clara medida que aumenta-se o valor de .

A fim de verificar se existem obervaes no conjunto de dados capazes de influenciar (de modo
desproporcional) os ajustes dos dois modelos, prosseguimos com a anlise de diagnstico conforme

61
1 2 3

12

18
3

NCR NCR NCR


tCR tCR tCR
Mudana relativa (%)

Mudana relativa (%)

Mudana relativa (%)


12
2

8
1

6
0

0
0 10 20 30 40 0 10 20 30 40 0 10 20 30 40

4 5 6
3

3
NCR NCR NCR
3

tCR tCR tCR


Mudana relativa (%)

Mudana relativa (%)

Mudana relativa (%)


2

2
2
1

1
1
0

0
0 10 20 30 40 0 10 20 30 40 0 10 20 30 40

7 8 9
6

NCR NCR 6 NCR


tCR tCR tCR
Mudana relativa (%)

Mudana relativa (%)

Mudana relativa (%)


4

4
2

2
0

0 10 20 30 40 0 10 20 30 40 0 10 20 30 40

Figura 2.6: Wage rates data. Mudanas relativas nas estimativas EM de sob os modelos N-CR
e t-CR, para diferentes contaminaes .

o desenvolvimento feito na Subseo 2.5.3. A Figura 2.7 mostra as distncias generalizadas de


Cook, assim como o ponto limiar acima do qual uma observao considerada influente (linha
vermelha), para os subconjuntos de parmetros = (
, 2 ) , e 2 , sob os modelos N-CR
e t-CR. No mesmo sentido, a Figura 2.8 mostra os grficos para as medidas de influncia local
baseadas nas quantias M (0) sob ponderao de casos e perturbao na escala para os modelos N-
CR e t-CR, utilizando o critrio M (0)i > M (0) + 3.5SM (0) para classificar a isima observao

62
como influente (linha vermelha). Em todos estes cenrios podemos observar uma quantidade muito
menor de observaes influentes sob o t-CR do que sob o N-CR, refletindo mais uma vez a maior
robustez do t-CR.

NCR NCR (escala ampliada) tCR

0.050

0.050
1.8
1.2

0.025

0.025
GD

GD

GD
0.6

0.000

0.000
0.0

0 250 500 750 0 250 500 750 0 250 500 750


ndice ndice ndice

NCR NCR (escala ampliada) tCR


0.050

0.050
0.6
0.4
GD()

GD()

GD()
0.025

0.025
0.2

0.000

0.000
0.0

0 250 500 750 0 250 500 750 0 250 500 750


ndice ndice ndice

NCR NCR (escala ampliada) tCR


0.0250

0.0250
1.2
0.8
GD(2)

GD(2)

GD(2)
0.0125

0.0125
0.4

0.0000

0.0000
0.0

0 250 500 750 0 250 500 750 0 250 500 750


ndice Index ndice

Figura 2.7: Wage rate data. Na primeira linha, distncia generalizada de Cook GDi sob os modelos
N-CR e t-CR. Na segunda linha, GDi para o subconjunto de parmetros sob os modelos N-CR
e t-CR. Na terceira linha, GDi para 2 sob os modelos N-CR e t-CR.

63
NCR Ponderaao de casos tCR Ponderaao de casos

0.030
0.15
0.10

0.015
M(0)

M(0)
0.05

0.000
0.00

0 250 500 750 0 250 500 750


ndice ndice

NCR Perturbao na escala tCR Perturbao na escala


0.030
0.15
0.10

0.015
M(0)

M(0)
0.05

0.000
0.00

0 250 500 750 0 250 500 750


ndice ndice

Figura 2.8: Wage rate data. Grficos de M (0)i , i = 1, 2, . . . , n, sob os esquemas de perturbao:
ponderao de casos (primeira linha) e perturbao na escala (segunda linha), para os modelos
N-CR e t-CR.

64
Captulo 3

Modelos para dados censurados sob a


famlia de misturas de escala
skew-normal

3.1 Introduo

Conforme discutido no incio do Captulo 2, o modelo Tobit, frequentemente usado para modelar
conjuntos de dados sujeitos censura, pode no ser adequado se a varivel resposta apresentar
indcios de desvio da normalidade. Neste sentido, o captulo anterior apresentou a t de Student
generalizada como alternativa normal, visando sanar problemas relacionados existncia de
valores extremos nos dados, j que esta possui caudas mais pesadas do que a distribuio normal.

No entanto, quando os dados apresentam assimetria alm de possveis problemas relacionados


a valores extremos, a distribuio t de Student pode ser to inaqueda quanto a normal. Neste
sentido, apresentaremos neste captulo a classe de distribuies de mistura de escala skew-normal
(SMSN) proposta por Branco & Dey (2001), que inclui distribuies como a skew-normal, skew-t,
skew-slash e suas verses simtricas. Esta classe, ao incorporar parmetros de forma e de assime-
tria distribuio normal, consegue lidar ao mesmo tempo com assimetria e com valores extremos.

65
Neste captulo ser apresentada a classe SMSN e suas principais propriedades com o intuito
de fazer um estudo de inferncia Bayesiana para o modelo de regresso com respostas censuradas
sob esta famlia de distribuies. Em seguida, faremos a aplicao deste modelo a dados reais e
tambm desenvolveremos alguns estudos de simulao para comparar a performance dos diferentes
modelos na presena de valores extremos e de assimetria, variando o nvel de censura dos dados.

3.2 Distribuies de mistura de escala skew-normal (classe


SMSN)
Antes de introduzir a classe SMSN, definiremos a distribuio skew-normal (a verso assimtrica
da normal) conforme feito por Azzalini (1985).

Definio 3. Uma varivel aleatria X tem distribuio skew-normal com parmetro de locao
R, de escala 2 > 0 e de forma R, denotada por X SN (, 2 , ), se sua densidade
dada por:
A B A B
2 x (x )
f (x) = , x R, (3.2.1)

aqui o parmetro de forma controla a assimetria da distribuio, de forma que valores positivos
de indicam assimetria direita e valores negativos indicam assimetria esquerda, alm disso, o
grau de assimetria da distribuio aumenta conforme aumenta-se o valor absoluto de . Se = 0
e 2 = 1, dizemos que X tem distribuio skew-normal padro com parmetro de forma .

Na Figura 3.1 mostramos a densidade da skew-normal padro para diferentes valores de .


Algumas das principais propriedades da distribuio skew-normal esto listadas na Proposio
abaixo.

Proposio 3. Seja X SN (, 2 , ) e Z N (, 2 ) ento:


d
I) Se = 0, ento X = Z

II) Conforme , a distribuio de X tende a uma T N (, 2 , [, )). Se , X


tende a uma T N (, 2 , (, ]).

66
SN(0,1,)

= 0
= 1
=1
= 4
=4

4 2 0 2 4

Figura 3.1: Densidade de skew-normal para = 0, = 1 e valores variados para .

III) X

SN (0, 1, )

IV) X SN (, 2 , )

V) A densidade de X log-cncava, e portanto, unimodal (vista como funo de x)

VI) 1 F (x; , 2 , ) = F (x; , 2 , ),

d
VII) |X|= |Z|

VIII) Se X SN (0, 1, ) ento X 2 21 .

Prova:
No desenvolveremos a prova completa destas propriedades, porm faremos um esboo. As
propriedades de I) a IV ) seguem diretamente da densidade em (3.2.1), sendo que para as propri-
edades III) e IV ) simples utilizar o mtodo do Jacobiano para encontrar a distribuio de X

e de X. A propriedade V ) provada utilizando os seguintes resultados:

O produto de duas funes log-cncavas uma funo log-cncava.

Se uma densidade log-cncava, ento a respectiva funo de distribuio acumulada tambm


log-cncava (veja a prova em Bagnoli & Bergstrom (2005)).

67
Uma funo no negativa g() duas vezes difencivel e com domnio em um intervalo contnuo
log-cncava se e somente se:

g(x)g (x) g (x)2 , x t.q. g(x) > 0, (3.2.2)


onde g (x) e g (x) denotam respectivamente a primeira e segunda derivada de g(x) em relao a

x. Desta forma, para provar o resultado basta-nos provar que a densidade da normal com locao
e escala 2 log-cncava, o que feito utilizando o terceiro resultado acima. As propriedades
de V I) a IX) so provadas em Azzalini (1985).

Uma discusso mais detalhada das propriedades da distribuio skew-normal podem ser vistas
em Bayes (2005) e Basso (2009).

Proposio 4. Seja X SN (, 2 , ) e T0 , T1 N (0, 1). Ento X admite a seguinte represen-


iid

tao:
1 2
X = + |T0 |+(1 2 )1/2 T1 , (3.2.3)

onde =
1+2
.

Prova:
Seja Y como em (3.2.3) e tome = 0 e 2 = 1. Note que Y | |T0 |= t N (t, (1 2 )) com
|T0 | T N (0, 1; [0, )). Ento, pelo Lema A.2 apresentado em Basso (2009), temos que:

f (y) = (x; t, (1 2 ))2(t)dt
0

= 2 (x; 0, 1)(t; x, (1 2 ))dt
0
x
= 2(x; 0, 1) ( ),
1 2

isto , Y SN (0, 1, ) com =


1 2
. Agora, para e 2 geral, basta usar a propriedade III)
da Proposio 3 e concluir que X = + Y SN (, 2 , ).

68
Proposio 5. A funo geradora de momentos da varivel aleatria Y SN (, 2 , ) dada
por:
t2 2
MY (t) = 2et+ 2 (t).

Prova:
Provemos primeiramente o resultado para a skew-normal padro. Assim, considere Z SN (0, 1, ).
Utilizando o Lema A.1 apresentado em Basso (2009), com a = t, B = , = = 0 e = = 1


MZ (t) = EZ [eZt ] = 2 ezt (z) (z)dz


1 1 2
= 2 e 2 (z 2zt) (z)dz
2

2 1 1 2
= 2et /2 e 2 (zt) (z)dz
2

2 /2
= 2et (x) (x + t)dx, x = z t, dx = dz

2 /2
= 2et E[ (x + t)]
2 /2
= 2et EX [ (X + t)]
2 t 0
= 2et /2 ( )
1 + 2
2 /2
= 2et (t), = .
1 + 2

Agora, dado que Y = + Z, temos que a funo geradora de Y dada por:

MY (t) = EZ [e(+Z)t ] = EZ [et etZ ] = et MZ (t)


t2 2
= 2et+ 2 (t).

Corolrio 1. Se Y SN (, 2 , ), ento:
A B
2 2 2
E[Y ] = + , V ar[Y ] = 1 2 .

69
Uma vez definida a skew-normal, podemos agora definir a classe de distribuies de mistura de
escala skew-normal, objetivo principal desta Seo.

Definio 4. Dizemos que uma varivel aleatria Y possui densidade pertencente famlia de
distribuies de mistura de escala skew-normal se ela pode ser escrita da seguinte forma:

Y = + (U )1/2 Z, U Z, (3.2.4)

em que um parmetro de locao, Z SN (0, 2 , ), () uma funo positiva e U uma


varivel aleatria com funo de distribuio H( ; ) e densidade h( ; ) e um escalar ou vetor
de parmetros indexando a distribuio de U , o qual pode ser conhecido ou desconhecido (Lange
et al., 1989). Enquanto o parmetro est relacionado com o grau de assimetria da distribuio,
controla a curtose. Note que, sob a restrio = 0, a famlia SMSN reduzida famlia SMN.
Denotamos Y SM SN (, 2 , ; H).

Existe uma segunda representao estocstica para Y SM SN (, 2 , ; H) baseada na ante-


rior e na Proposio 4. Esta representao, dada a seguir, muito conveniente para derivar algumas
propriedades desta classe de distribuies, assim como para desenvolver um estudo de inferncia
Bayesiana para os modelos de regresso com erros SMSN, como feito por exemplo em Basso (2009)
no contexto de misturas de distribuies SMSN e em Cancho et al. (2011), no contexto de modelos
de regresso no lineares.

Y =+ T + (U )1/2 1/2 T1 , (3.2.5)

iid
onde = , = (1 2 ) 2 , =
1+2
, T = (U )1/2 |T0 |, T0 , T1 N (0, 1) e || denota valor
absoluto.
A varivel aleatria U pode ser discreta ou contnua e sua distribuio determina diretamente a
distribuio de Y . Neste captulo focaremos em trs membros da classe de distribuies SMSN: a
skew-normal, denotada por SN (, 2 , ), a skew-t, denotada por St(, 2 , , ) e a skew-slash,
denotada por SSL(, 2 , , ). Existem outros exemplos de distribuies pertencentes a esta
famlia, tal como a skew-normal-contaminada, a skew-Cauchy, a skew-Perason VII e todas as
verses simtricas das mesmas. Usando a representao dada na Definio 4 fcil ver que

70
Y |U = u SN (, (u) 2 , ), portanto, integrando a densidade conjunta de (Y, U ) em relao
a U obtemos a densidade marginal de Y , dada por:

A B
2 (y )
f (y) = 2 (y; , (u) ) dH(u), (3.2.6)
0 (u)1/2

e considerando a representao estocstica dada em (3.2.5), temos que:

Y |T = t, U = u N ( + t , (u) ),

T |U = u T N (0, (u) ; [0, )). (3.2.7)

Desta forma, uma outra maneira de escrever a densidade da varivel aleatria Y :


f (y) = f (y|t, u)f (t|u)f (u) dt du

= 2 (y ; + t , (u) ) (t ; 0, (u)) dt dH(u). (3.2.8)
0 0

A seguinte proposio apresenta o formato das cdf da famlia de distribuies SMSN.

Proposio 6. Seja Y SMSN(, 2 , ; H). Ento, a cdf da varivel aleatria Y pode ser escrita
de duas formas distintas:

1 y 2
a) F (y) = 2 (t ; 0, 1) 1 1 + 2 t ; 0, 1 dt dH(u), (3.2.9)
0 0 (u)1/2
1 2
b) F (y) = 2 2 y(u) ; , dH(u), (3.2.10)
0

Q R
2
c d
onde y(u) = ((u)1/2 y, 0) , = (, 0) , =c
a
d.
b
1

Prova:

71
Seja Y SM SN (, 2 , ; H). Dada a pdf de Y na Equao (3.2.8), temos que:
y
F (y) = f (z)dz

y
= 2(z ; + t, (u) )(t ; 0, (u)) dt dH(u) dz
0 0
C D
y
= 2 (z ; + t, (u) ) dz (t ; 0, (u)) dt dH(u) (3.2.11)
0 0
C D
y
1/2
= 2 (z ; + (u) x, (u) ) dz (x ; 0, 1) dx dH(u) (3.2.12)
0 0
Q R

y (u)1/2 x
= 2 a ; 0, 1b (x ; 0, 1) dx dH(u)
0 0 (u)1/2 1/2
Q R

y
= 2 a x ; 0, 1b (x ; 0, 1) dx dH(u)
0 0 (u) 1
1/2 2 1 2
Q R

(y ) 1 + 2
= 2 a x ; 0, 1b (x ; 0, 1) dx dH(u), (3.2.13)
0 0 (u)1/2

onde a Equao (3.2.13) consequncia das relaes = , = 2 (1 2 ) e = / 1 + 2 .
Desta forma, est provada a parte (a) da Proposio 6. A parte (b) obtida se continuarmos
desenvolvendo a Equao (3.2.11) escrevendo a expresso completa para ():
y
1
F (y) = 2
0 0 2(u) 1/2
I J
1 2 2 2

exp (z ) + ( + )t 2(z ) t dz dt dH(u)
2(u)
y
1
= 2
0 0 2(u) 1 2
Y C D Z
1 ] (z )2 t2 2 ^
exp + (z )t dz dt dH(u)
[ 2(1 2 ) (u) 2 (u) (u) \
y
1
= 2
0 0 2||1/2
Y Q R Q RZ
_
_ _
_
_ _
1c z d
] c z d^
exp c d 1 c d dz dt dH(u) (3.2.14)
_
_
_ 2 a
t
b a
t
b_
_
_
[ \

! "
Note que, se considerarmos o vetor de variveis aleatrias (X, W ) N2 (, 0) , , ento a
integrao em z e t na Equao (3.2.14) representa P(X y , W 0) , que, por simetria,

72
equivalente a P(X y , W 0). Desta forma, podemos reescrever esta Equao da seguinte
forma:

F (y) = 2 2 (y ; , ) dH(u),
0

onde y e foram definidos anteriormente, provando a parte (b) da Proposio 6.


A partir deste momento consideraremos (U ) = U 1 na representao estocstica dada em


(3.2.5). Esta escolha, feita tambm em Basso (2009), nos possibilitar desenvolver algumas pro-
priedades interessantes da famlia de distribuies SMSN, como a funo geradora de momentos,
a esperana e a varincia, apresentadas nas proposies seguintes.

Proposio 7. Seja Y SM SN (, 2 , ; H), ento a funo geradora de momentos (fgm) de Y


dada por:

1 1 t2 2
MY (t) = 2 et+ 2 u (u1/2 t)dH(u), t R. (3.2.15)
0

Prova:
Da Definio 4 temos que Y |U = u SN (, u1 2 , ). Considerando ento propriedades da
esperana condicional e a Proposio 5, temos que:

MY (t) = EY [eY t ] = EU [EY |U [etY |U ]]


t2 2
= EU [2et+ 2 (t)]

1 1 t2 2
= 2 et+ 2 u (u1/2 t)dH(u).
0

Proposio 8. Seja Y SM SN (, 2 , ; H). Ento,



2
i) Se E[U 1/2 ] < , EY [Y ] = + k
1
,

ii) Se E[U 1 ] < , V arY [Y ] = k2 2 2 k12 2


,

onde km = EY [U m/2 ] para m = 1, 2, = e =


1+2
.

73
Prova:
Da Definio 4, do Corolrio 1 e da suposio de independncia entre U e Z, temos que:

EY [Y ] = + E(Z,U ) [U 1/2 Z]

= + EU [U 1/2 ]EZ [Z]



2
= + k1 ,

V arY [Y ] = V ar(Z,U ) [U 1/2 Z]
1 22
= E(Z,U ) [U 1 Z 2 ] E(Z,U ) [U 1/2 Z]
! "2
= EU [U 1 ]EZ [Z 2 ] k1 EZ [Z]
A B
2 2 2
= k2 k1 22.

Apresentaremos agora alguns casos particulares da classe SMSN, com os quais trabalharemos
no restante deste captulo. Para cada um dos casos desenvolveremos as respectivas pdf, cdf e a
esperana km = EU [U m/2 ], m N, til na implementao do amostrador de Gibbs para o modelo
de regresso censurado sob esta famlia de distribuies.

Skew-normal: Este caso obtido quando U uma varivel aleatria degenerada em 1, isto
, quando P (U = 1) = 1, desta forma, km = 1. A densidade de Y SN (, 2 , ) definida
em (3.2.1) e, usando a parte (b) da Proposio 6, sua cdf dada por:

1 2
F (y) = 2 2 y ; , , (3.2.16)
Q R
2
c d
onde y = (y, 0) , = (, 0) e =c
a
d.
b
1

Skew-t: A distribuio skew-t surge quando consideramos U G(/2, /2) na Definio 4,


de forma que km = (/2)(m/2) ( m
2
) (/2)1 . A densidade de Y St(, 2 , ) dada por:

74
A B +1 Q R
2 ( +1 ) d(y)2 2
+1
f (y|, 2 , ; ) = 2 1+ T1 a d(y) ; 0, 1, + 1b , y R,
( 2 ) + d(y)2
(3.2.17)
onde d(y) = (y )/. A demonstrao deste resultado encontra-se no Apndice A. Um
caso particular da distribuio skew-t a skewCauchy, obtida quando = 1. Alm disso,
quando , obtemos a skew-normal como caso limite.

Utilizando a parte (b) da Proposio 6 podemos simplificar a expresso da cdf da skew-t:

F (y) = 2 T2 (y ; , , ) , (3.2.18)

onde y , e so como definidos no caso da skew-normal. Este resultado tambm est


demonstrado no Apndice A. A distribuio skew-t tem como caso particular a skew-Cauchy,
quando = 1, e tem como caso limite a skew-normal, alcanada conforme . Aplicaes
da skew-t podem ser encontradas em Lin et al. (2007) e Azzalini & Genton (2008).

Skew-slash: Aqui, consideramos U Beta(, 1) na Definio 4, com > 0, assim, km =



m/2
. A densidade de Y dada por:
1
(y )
f (y|, 2 , ; ) = 2 u1 (y; , u1 2 ) (u1/2 ) du, y R. (3.2.19)
0
A cdf da skew-slash no possui uma forma fechada, no entanto, utilizando a parte (b) da
Proposio 6, podemos escrev-la em termos de uma integral que pode ser aproximada por
mtodos numricos:
1 2
F (y) = 2 2 y(u) ; , u1 du, (3.2.20)
0

onde y(u) , e so como na Proposio 6 (com (u) = 1/u). A skew-slash tem caudas
mais pesadas do que a skew-normal, tendendo a esta distribuio quando . Aplicaes
desta distribuio podem ser encontradas em Wang & Genton (2006).

A Figura 3.2 compara as distribuies skew-normal, skew-t e skew-slash para diferentes valores
de e . No grfico da esquerda consideramos = 2 e = 3, no grfico do centro, = 0 e = 4 e
no grfico da direita, = 2 e = 5. Nestes grficos podemos ver claramente que as distribuies

75
skew-t e skew-slash possuem caudas mais pesadas do que a skew-normal. importante destacar
que todos os trs grficos tm o eixo y com a mesma escala.

SN(0,1,2) SN(0,1,0) SN(0,1,2)


St(0,1,2,3) St(0,1,0,4) St(0,1,2,5)
SSL(0,1,2,3) SSL(0,1,0,4) SSL(0,1,2,5)

4 2 0 2 4 4 2 0 2 4 4 2 0 2 4

Figura 3.2: Densidades skew-normal, skew-t e skew-slash para diferentes valores de e .

Mtodos para estimar os parmetros das distribuies SMSN podem ser encontrados em Basso
et al. (2010), a partir do mtodo dos momentos, e em Garay (2009), a partir do algoritmo EM.
Nestas duas referncias a estimao feita supondo um valor conhecido, porm possvel adaptar
o algoritmo EM de Garay (2009) para estimar este parmetro: em cada iterao, aps calcular o
valor das estimativas de , 2 e , a estimativa de escolhida como o argumento que maximiza a
funo de log-verossimilhana vista somente como funo de , substituindo os outros parmetros
por suas estimativas atuais. Esta verso do algoritmo EM conhecida como ECM (expectation
conditional maximization).

3.3 Definio e inferncia Bayesiana para os modelos SMSN-


CR
O modelo de regresso para dados censurados sob a classe de distribuies de mistura de es-
cala skew-normal, denotado por SMSN-CR, definido como nas Equaes (2.3.1) e (2.3.2), porm
iid
fazendo-se a suposio de que i SM SN ( , 2 , ; H) para i = 1, 2, . . . , n na Equao (2.3.1),

2
onde = k.
1
O parmetro de locao dos erros aleatrios diferente de 0 e foi escolhido
com base na Proposio 8, uma vez que, com esta adaptao, Yi SM SN (x
i + , 2 , ; H) e

76
EY [Y ] = x
i .

Nesta Seo iremos fazer inferncia Bayesiana para o modelo de regresso com respostas cen-
suradas sob trs distribuies da famlia SMSN: a skew-normal, a skew-t e a skew-slash. Para
isto, seguindo a sugesto de Cancho et al. (2011), consideraremos uma reparametrizao da classe
SMSN baseada na representao 3.2.5, o que simplificar a construo do algoritmo mencionado.
Seja ento ! = (
, , , ) o vetor de parmetros com o qual trabalharemos. importante
destacar que existe uma correspondncia
um a um entre este vetor e o vetor de parmetros original
1 2 2
= , 2 , , , uma vez que = R e = > 0, sendo possvel obter 2 e
2 + 1 2+1

a partir de e fazendo-se 2 = + 2 e = / . Desta forma, as amostras a posteriori de


! podem ser utilizadas para fazer inferncia sobre , bastando para isso aplicar a transformao
anteriormente mencionada.

Seguindo novamente o trabalho de Cancho et al. (2011), assumiremos priori que


Np (0 , 0 ), N( , 2 ) e IG(a , b ), onde os hiperparmetros fixos e conhecidos so
0 , um vetor p 1, 0, uma matriz p p definida positiva, R, 2 > 0, a > 0 e b > 0.
Estas escolhas de prioris so feitas para garantir conjugao.
Para os modelos de regresso censurados skew-t (St-CR) e skew-slash (SSL-CR) precisamos
especificar tambm a distribuio a priori de , o parmetro que indexa a distribuio de U
(veja a representao dada na Definio 4). Para isso utilizaremos a sugesto dada em Cabral &
Madruga (2012): Texp ( ; A) e Unif (c, d), onde c e d so hiperparmetros conhecidos.
Aqui, Texp ( ; A) denota a distribuio exponencial com parmetro de escala 1/ > 0 truncada
no intervalo A e Unif (c, d) denota a distribuio uniforme no intervalo (c, d). Para garantir a
existncia dos primeiro e segundo momentos da distribuio assumida para os erros da regresso,
neste trabalho tomamos A = (2, ) e (c, d) = (0.02, 0.49) para o modelo St-CR e A = (1, ) e
(c, d) = (0.02, 0.9) para o modelo SSL-CR. Assumimos tambm independncia priori entre os
parmetros, portanto a distribuio priori do vetor ! :

f (!) = f ( ) f ( ) f ( ) f () . (3.3.1)

77
Embora a hiptese de independncia possa no ser realista para alguns conjuntos de parmetros,
ela leva a propriedades interessantes para as distribuies posteriori, como a conjugao, e fa-
cilita o desenvolvimento de um algoritmo para amostrar destas distribuies, alm disso, se esta
hiptese realmente no for verdadeira, ela ser corrigida posteriori e no ir prejudicar o processo
de inferncia.

3.3.1 Construo do amostrador de Gibbs

No contexto Bayesiano, estimativas pontuais so obtidas como caractersticas associadas dis-


tribuio posteriori, como a esperana ou a moda. Dada a forma matemtica complexa destas
quantidades bastante complicado aproxim-las atravs de tcnicas como a integrao numrica.
Portanto, utilizaremos o amostrador de Gibbs para gerar uma amostra da distribuio posteriori
do vetor de parmetros e fazer estimativas pontuais baseando-nos nesta amostra. Para desen-
volver este algoritmo faremos uso do aumento de dados, isto , vamos supor que o vetor de
variveis sujeitas censura Y = (Y1 , Y2 , . . . , Yn ) e os de variveis latentes U = (U1 , U2 , . . . , Un )
e T = (T1 , T2 , . . . , Tn ) (veja a representao em (3.2.5)), poderiam ser completamente observados
e ento calcular as distribuies condicionais completas para cada parmetro do modelo e para
cada varivel latente.

A representao estocstica da classe SMSN de distribuies dada em (3.2.5) nos permite


escrever:

Yi |Ui = ui , Ti = ti N(xi + i ),
ti , u1

Ti |Ui = ui TN(, u1
i ; (, )),

Ui H(|),

para i = 1, 2, . . . , n. Considere v = (v1 , v2 , . . . , vn ) o vetor de observaes de Vi , i = 1, 2, . . . , n.


Seja (0) um valor inicial para e (m) o valor de na iterao m do algoritmo. Calculando-
se as condicionais completas, a m-sima iterao do amostrador de Gibbs sob as distribuies
skew-normal, skew-t e skew-slash da seguinte forma:

78
Passo 1: Para i = 1, 2, . . . , n, se isima observao no for censurada, faa yi(m) = vi , caso contrrio
gere yi(m) (independentemente) de f (yi | vi , ti , ui , , , ), que uma distribuio normal
truncada:
TN(x
i (m1) + (m1) ti(m1) , (m1) /ui(m1) ; A),

onde A = [vi , ) se a varivel resposta for censurada direita ou A = (, vi ], se for censurada


esquerda.

Passo 2: Para i = 1, 2, . . . , n, gere ti(m) independentemente de f (ti | vi , yi , ui , , , ) , que

TN(ti (m1) , ti (m1) ; [, )),


3 4
onde ti (m1) = (m1) + e t2i (m1) = .
(m1) (m1) (m1)
2 +(m1)
yi(m) x
i (m1) ui(m1) ( 2 +(m1) )
(m1) (m1)

1 2
Passo 3: Gere (m) de f ( | v, y, t, u, , , ), que Np ( m 1), (m1)
, onde
Q R

X(m1) y(m1) (m1) X(m1) t(m1)
(m1) =
(m1)
a 1 0 +
0 b,
(m1) (m1)
Q R1

X(m1) X(m1)

(m1) = a + 1 b
0 ,
(m1)


t(m1) o vetor composto por ti(m1) = ui(m1) ti(m) , i = 1, 2, . . . , n, y(m1)

o vetor com

elementos yi(m1)

= ui(m1) yi(m) , i = 1, 2, . . . , n e X(m1)

a matriz composta por linhas

dadas pelos vetores xi(m1) = ( ui(m1) xi1 , . . . , ui(m1) xip ) para i = 1, 2, . . . , n.
1 2
Passo 4: Gere (m) de f ( | v, y, t, u, , , ), que N (m1) , 2(m1) com
Q R
2 1 n
(m1) = (m1) a + ui(m1) ti(m) (yi(m) x (m) )
b,
2 (m1) i=1 i

Q R1
1 n
1
2(m1) = a ui(m1) t2i(m) + 2 b .
(m1) i=1

Passo 5: Gere (m) de f ( | v, y, t, u, , , ), que uma gama inversa:


Q R
n 1 n
2b
IG a + , b +
a ui(m1) (yi(m) X (m) (m) ti(m) ) .
2 2 i=1 i

79
Passo 6: Para o caso skew-normal, faa ui(m) = 1, i = 1, 2, . . . , n. Para a skew-t e skew-slash gere
ui(m) para i = 1, 2, . . . , n (independentemente) de f (ui | vi , yi , ti , , , , ), que :

(a) sob a distribuio skew-t,


A B
(m1) (m1) + Ai(m)
G + 1, ,
2 2
1 22
onde Ai(m) = yi(m) X
i (m) (m) ti(m) /(m) + (ti(m) )2 .

(b) sob a distribuio skew-slash,


A B
Ai(m)
TG (m1) + 1, ; [0, 1] ,
2
uma distribuio gama truncada em [0, 1].

Passo 7: Para os casos skew-slash ou skew-t, precisamos ainda gerar (m) e (m) , atravs do seguinte
procedimento:

(a) sob a distribuio skew-t,

i. Gere (m) de f (|), que TG(2, (m1) ; [0.02, 0.49]).


ii. Utilizando um passo de Metropolis-Hastings, gere (m) de:

f ( | v, y, t, u, , , , )
Q! " Rn Y Q RZ
/2 /2 b ] 1 n ^ n
exp a ui(m) + (m) b 11(2,) (). (3.3.2)
2
1
a ui(m)
(/2) [ 2 i=1 \
i=1

O passo de Metropolis-Hastings da seguinte forma: dada a observao (m1) ob-


tida na iterao m1 do amostrado de Gibbs, gere um candidato da distribuio
candidata g(), uma distribuio normal truncada:
1 2
g() TN (m1) , (m1) ; (2; ) ,

onde o parmetro de locao desta distribuio candidata dado por (m1) =


q1 ((m1) ) 1
(m1) q2 ((m1) )
e o de escala por (m1) = q2 ((m1) )
, onde:

d
q1 () = log f ( | y(m) , t(m) , u(m) , (m) , (m) , (m) , (m) ),
d
d2
q2 () = log f ( | y(m) , t(m) , u(m) , (m) , (m) , (m) , (m) ),
d 2

80
respectivamente a primeira e segunda derivadas da condicional completa de . As
escolhas dos parmetros de locao e escala da distribuio candidata foram basea-
das no trabalho de Abanto-Valle et al. (2013) e o truncamento foi feito no intervalo
(2, ) para garantir a existncia dos primeiros dois momentos da t de Student uti-
lizando o candidato gerado como graus de liberdade. Assim, (m) tomado como o
valor candidato gerado com probabilidade:
I J
f ( )g((m1) )
((m1) ) = min f ((m1) )g( ) ; 1 ,

ou ento (m) = (m1) com probabilidade 1 ((m1) ), onde a funo f () a


mesma que em (3.3.2).

(b) sob a distribuio skew-slash,

i. Gere (m) de f (|), que uma TG(2, (m1) ; [0.02, 0.9]).

ii. Gere (m) de f ( | v, y, t, u, , , , ), que :


Q R
n
1 2
TG an + 1, (m) log ui(m) ; (1, )b .
i=1

3.4 Estudo de simulao III: perfomance dos modelos as-


simtricos sob perturbaes
O objetivo deste estudo de simulao comparar a performance dos modelos SN-CR, St-
CR e SSL-CR na presena de observaes atpicas no conjunto de dados (em relao varivel
resposta). Para isso, geramos observaes de um modelo de regresso para dados censurados
iid
skew-normal, conforme as Equaes (2.3.1) e (2.3.2), supondo que n = 100, i SN ( , 2 , ),

2
com =
, =
1+2
, 2 = 2 e = 4 e que x
i = (1, xi ), onde xi foram gerados de

forma independente a partir de uma uniforme em (1, 3), para i = 1, 2, . . . , n; supomos tambm
que
= (1 , 2 ) = (10, 15). Aps gerado, o conjunto de dados teve sua varivel resposta
censurada esquerda a um nvel de 10% do total de observaes. Perturbamos ento as observaes
#3 (y3 = 43.22178), #66 (y66 = 51.17056) e #92 (y92 = 31.82169), escolhidas aleatoriamente

81
dentre as no censuradas, aumentando aos valores de y em % de seus valores originais, para
= 10, 20, 30, . . . , 150. Desta forma, se y denota o valor original da varivel resposta, seu valor
perturbado y dado por: A B
y = 1+

y.
100
Para cada um dos 15 padres de perturbao e para o conjunto de dados no perturbado,
foram ajustados os modelos SN-CR, St-CR e SSL-CR, computando em cada ajuste os valores dos
critrios LPML, DIC, EAIC, EBIC e WAIC2 (veja Seo 1.6.2) e tambm a mudana relativa na
estimao pontual de j , j = 1, 2, dada por:
- -
-
- j0 jk -
-
RC(j )k = - -, j = 1, 2 k = 1, 2, . . . , 15,
j0 -
- -
-

onde j0 representa a estimativa pontual de j utilizando o conjunto de dados no perturbado e


jk , utilizando o conjunto de dados com o ksimo padro de perturbao.

A Figura 3.3 mostra os resultados em relao s mudanas relativas. Para 1 vemos que para
perturbaes menores do que 100% as mudanas relativas no so muito significativas (menores
do que 5%) e no obedecem um padro, porm conforme torna-se maior do que 100 vemos
que a mudana relativa para 1 sob os modelos St-CR e SSL-CR parecem se estabilizar perto dos
5%, enquanto que sob o modelo SN-CR ela apresenta um padro crescente, atingindo 10% para
= 150. Em relao a 2 , pode-se observar que para pequenas perturbaes ( {10, 20, 30})
os trs modelos se comportam de formas muito parecidas, porm conforme aumenta o modelo
SN-CR perde performance em relao aos outros dois modelos, que se comportam de forma muito
parecida entre si. Isto confirma que o modelo SN-CR menos robusto do que o St-CR e o SSL-CR
para lidar com observaes atpicas.
O cenrio descrito acima confirmado nos critrios mostrados na Figura 3.4, onde o modelo
SN-CR se mostra to bom quanto os outros (ou at prefervel) para pequenas perturbaes, o que
esperado j que os dados so gerados de um modelo skew-normal, porm conforme aumentamos
as perturbaes os modelos St-CR e SSL-CR mostram-se superiores ao N-CR (e com performances
bastante parecidas entre si).

82
1 2

15

15
SN CR SN CR
St CR St CR
SSL CR SSL CR

Mudana relativa ( % )

Mudana relativa ( % )
10

10
5

5
0

0
0 30 60 90 120 150 0 30 60 90 120 150

Figura 3.3: Estudo de simulao III. Mudana relativa (em %) para 1 e 2 para os modelos
SN-CR, SSL-CR e St-CR, sob diferentes nveis de perturbao .

LPML DIC WAIC2


220

SN CR SN CR SN CR
St CR St CR St CR
650

650
SSL CR SSL CR SSL CR
260

WAIC2
LPML

DIC
550

550
300
340

450

450

0 30 60 90 120 150 0 30 60 90 120 150 0 30 60 90 120 150


EAIC EBIC

SN CR SN CR
St CR St CR
650

650

SSL CR SSL CR
EAIC

EBIC
550

550
450

450

0 30 60 90 120 150 0 30 60 90 120 150


Figura 3.4: Estudo de simulao III. Critrios LPML, DIC, WAIC, EAIC e EBIC para os modelos
SN-CR, SSL-CR e St-CR, sob diferentes nveis de perturbao .

Com estes resultados confirmamos a hiptese de que os modelos St-CR e SSL-CR so mais
robustos para lidar com observaes atpicas do que o SN-CR.

83
3.5 Estudo de simulao IV: qualidade das estimativas dos
modelos SMSN-CR
O foco principal deste estudo de simulao investigar o impacto na inferncia final dos modelos
SMSN-CR (sob um ponto de vista Bayesiano) quando a hiptese de normalidade inapropriada,
para diferentes nveis de censura nos dados. Para isto, geramos uma varivel elatria Y conforme
o modelo geral de regresso para dados censurados definidos em (2.3.1) e (2.3.2) usando n=200,
= (1 , 2 ) = (10, 2) , X uma matriz 200 2 cuja primeira coluna tem todos os elementos
iguais a 1 e os elementos da segunda coluna so gerados de forma independente a partir de uma
distribuio uniforme em (0, 4), alm disso, os erros i , i = 1, 2, . . . , n, foram gerados de forma
independente de uma distribuio normal inversa gaussiana com parmetros = 0 = 5, =
0 = 4.9, = 0 = 2 e = 0 = (aqui usamos a notao para os parmetros da normal
2 2
inversa gaussiana conforme definida em Barndorff-Nielsen (1997), onde pode-se encontrar maiores
detalhes sobre esta distribuio. Note que o parmetro de escala foi definido de forma a garantir
que EYi [Yi ] = x
i , i = 1, 2, . . . , n). A distribuio dos erros, conforme foi gerada, apresenta
assimetria e valores atpicos em relao distribuio normal e sua densidade est graficada na
Figura 3.5.
NIG(0, 0, 0, 0)

20 0 20 40

Figura 3.5: Estudo de simulao IV. Densidade da normal inversa gaussiana com parmetros
= 0 = 5, = 0 = 4.9, = 0 = 2 e = 0 = .
2 2

Geramos um total de 150 conjuntos de dados segundo o esquema apresentado anteriormente,


sendo que, aps gerado, cada conjunto teve sua varivel resposta censurada segundo 4 nveis de

84
censura: 10%, 25%, 40% e 50% do total de observaes. Desta forma, cada um dos 150 conjunto
de dados gerou novos quatro conjuntos, sendo o original descartado. Os algoritmos de Gibbs
desenvolvidos nas Sees 2.4 e 3.3 foram aplicados em cada um destes conjuntos de dados a fim
de ajustar a eles os modelos N-CR, t-CR, SN-CR, St-CR e SSL-CR, sendo que a especificao das
distribuies priori foi feita conforme a discusso nas mesmas Sees, com 0 = 02 , 0 = 100 I2 ,
= 0, 2 = 100,a = 2.1, b = 3, c = 0.02 e d = 0.49 para o modelo t-CR e St-CR e c = 0.02 e
d = 0.9 para o modelo SSL-CR. Aqui, 02 denota um vetor de tamanho 2 com todos os componentes
iguais a zero e I2 denota a matriz identidade com dimenso 2 2. Foram rodadas 60000 iteraes
do Gibbs, com um burn-in de 18000 e um thinning de 3, gerando cadeias finais de tamanho 14000.
Em cada um dos ajustes as estimativas pontuais dos parmetros foram gravadas (mdia da
cadeia MCMC gerada, aps burn-in e thinning), de forma que pudemos calcular o erro mdio
absoluto (MAE) e o erro mdio quadrtico (MSE) para as estimativas dos coeficientes de regresso
de cada modelo sob cada um dos quatro nveis de censura. Definimos o MAE e o MSE para o
parmetro j , j = 1, 2, como:
150 150
1 1
| j | ( j )2
(i) (i)
M AE = , M SE =
150 i=1 j 150 i=1 j

onde j a estimativa de j no isimo conjunto de dados simulado, para j = 1, 2 e i =


(i)

1, 2, . . . , 150.

A Figura 3.6 apresenta o MAE e o MSE para as estimativas de 1 e 2 para os cinco modelos
ajustados e para os quatro nveis de censura. A Figura 3.7 sumariza via box-plot as 150 estimativas
pontuais obtidas para 1 and 2 , comparando-as com o verdadeiro valor destes parmetros para
os diferentes modelos ajustados e diferentes nveis de censura.
Na Figura 3.6 observamos que as estimativas do intercepto 1 a que mais sofre impacto quando
muda-se o modelo ajustado, sendo que os modelos simtricos (N-CR e t-CR) so os que apresentam
maiores valores do MAE e MSE, enquanto os modelos St-CR e SSL-CR possuem performances
muito parecidas e significativamente melhor do que o SN-CR. Enquanto isso, os valores do MAE
e MSE para o parmetro 2 so pequenos sob todos os modelos e no apresentam diferenas sig-
nificativas. importante notar que todos os modelos perdem performance conforme aumentamos

85
1 2 2 (escala ampliada)

1.0
N CR N CR N CR
SN CR SN CR SN CR
t CR t CR t CR
St CR St CR St CR
SSL CR SSL CR SSL CR
MAE

MAE

MAE
2

0.5
0.0
0

0
10 20 30 40 50 10 20 30 40 50 10 20 30 40 50
% de censura % de censura % de censura

1 2 2 (escala ampliada)
20

20

1.0
N CR N CR N CR
SN CR SN CR SN CR
t CR t CR t CR
St CR St CR St CR
SSL CR SSL CR SSL CR
MSE

MSE

MSE
10

10

0.5
0.0
0

10 20 30 40 50 10 20 30 40 50 10 20 30 40 50
% de censura % de censura % de censura

Figura 3.6: Estudo de simulao IV. MAE e MSE das estimativas pontuais de 1 e 2 para cinco
modelos SMSN-CR e quatro diferentes nveis de censura.

o nvel de censura, porm este aumento parece afetar com menor intensidade a qualidade das
estimativas obtidas sob os modelos St-CR e SSL-CR.

A Figura 3.7 nos mostra um cenrio parecido: comparando os modelos simtricos com suas
verses assimtricas vemos uma melhora na qualidade das estimativas, o que tambm acontece
quando comparamos modelos menos robustos com mais robustos (N-CR com t-CR e SN-CR com
St-CR e SSL-CR). Novamente, os modelos St-CR e SSL-CR se comportam de forma muito seme-
lhante e possuem estimativas mais precisas do que os outros modelos. Nestes box-plots notamos
mais uma vez que todos os modelos so prejudicados pelo aumento do nvel de censura.

Com este estudo mostramos como as inferncias finais para um modelo de regresso para dados
censurados podem ser prejudicadas quando h desvio da normalidade e um modelo adequado, capaz
de acomodar assimetria e/ou observaes atpicas, no for escolhido.

86
1 NCR 1 SNCR 1 tCR 1 StCR 1 SSLCR
5

5
10

10

10

10

10
15

15

15

15

15
20

20

20

20

20
10 25 40 50 10 25 40 50 10 25 40 50 10 25 40 50 10 25 40 50
% of censoring % of censoring % of censoring % of censoring % of censoring

2 NCR 2 SNCR 2 tCR 2 StCR 2 SSLCR


6

6
4

4
2

2
0

0
10 25 40 50 10 25 40 50 10 25 40 50 10 25 40 50 10 25 40 50
% of censoring % of censoring % of censoring % of censoring % of censoring

Figura 3.7: Estudo de simulao IV. Box-plot para as 150 estimativas pontuais de 1 e 2 para
os modelos N-CR, SN-CR, t-CR, St-CR e SSL-CR e diferentes nveis de censura, em comparao
com o valor verdadeiro dos parmetros (linha vermelha).

3.6 Aplicao III

Nesta Seo ajustaremos o modelo de regresso para dados censurados sob as distribuies nor-
mal, t de Student, skew-normal, skew-t e skew-slash ao conjunto de dados Wage Rate, descrito
na Subseo 2.5.6, utilizando os algoritmos desenvolvidos nas Sees 2.4 e 3.3. Tambm faremos
um estudo de diagnstico destes modelos com base na metodologia descrita nas Sees 1.6.2 e
1.7. Nesta aplicao ser utilizado o pacote BayesCR (veja sua descrio na Subseo 4.1.3) como
respaldo computacional.

Modelaremos a varivel censurada esquerda Yi , definida como o ganho potencial do indivduo


i em funo das variveis explicativas:

x2 : idade,

x3 : anos de estudo,

87
x4 : nmero de filhos (em casa) com menos de 6 anos,

x5 : nmero de filhos (em casa) entre 6 e 19 anos,

de forma que o vetor de covariveis para o indivduo i dado por xi = (1, x2i , x3i , x4i , x5i ), com
i = 1, 2, . . . , 753.
Para o processo de estimao utilizaremos as densidades priori definidas na Seo 3.3 com
0 = 02 , 0 = 100 I2 , = 0, 2 = 100,a = 2.1, b = 3, c = 0.02, d = 0.49 (St-CR) e d = 0.9
(SSL-CR). O amostrador de Gibbs foi utilizado para gerar duas cadeias MCMC da distribuio
posteriori do vetor de parmetros, de forma que pudemos analisar a convergncia destas cadeias
utilizando a estatstica de Gelman-Rubin (veja Seo 1.5). Cada cadeia MCMC tem tamanho
inicial 400,000 e, considerando um burn-in de 100,000 e um thinning de 30, tamanho final igual a
10,000.

A Tabela 3.1 mostra a mdia a posteriori (Mdia), o desvio padro (SD), o intervalo HPD
(95%) e a estatstica de Gelman-Rubin (R) para os parmetros de cada um dos modelos ajustados.
Pode-se notar que a mais impactante diferena entre os modelos ajustados a significncia do
intercepto: somente sob o modelo SSL-CR o intervalo HPD para 1 no contm o 0. Um outro
aspecto a se observar os valores pequenos das estimativas pontuais de sob os modelos t-CR,
St-CR e SSL-CR, indicando que o modelo N-CR ou SN-CR podem no ser adequados para este
conjunto de dados, j que a distribuio t de Student tende normal e a skew-t e skew-slash
tendem skew-normal conforme . Sobre a interpretao dos parmetros, todos os modelos
concordam que o ganho potencial de uma mulher aumenta conforme mais anos de escolaridade ela
tem e diminui conforme aumenta sua idade e/ou o nmero de filhos.
A Tabela 3.2 compara os ajustes dos cinco modelos considerados usando os critrios discutidos
na Seo 1.6.2. Note que os modelos com caudas pesadas tm uma perfomance significativa-
mente melhor (comparando-se o N-CR com o t-CR e tambm o SN-CR com o St-CR e SSL-CR),
alm disso os modelos assimtricos so tambm mais adequados do que suas verses simtricas
(comparando-se o N-CR com o SN-CR e o t-CR com o St-CR). De fato o pvalor Bayesiano indica
que os modelos simtricos e/ou no robustos (N-CR, SN-CR e t-CR) no so uma boa escolha

88
Modelos
N-CR T-CR

Parmetro Mdia SD HPD (95%) R Mdia SD HPD (95%) R

1 -2.752 1.748 (-6.133; 0.665) 1.000003 -1.184 1.433 (-3.937; 1.669) 1.000005
2 -0.106 0.028 (-0.161;-0.051) 1.000007 -0.111 0.023 (-0.155;-0.066) 1.000001
3 0.731 0.084 ( 0.569; 0.896) 0.999999 0.655 0.073 ( 0.514; 0.794) 1.000001
4 -3.056 0.448 (-3.923;-2.188) 1.000000 -3.166 0.398 (-3.951;-2.404) 0.999999
5 -0.215 0.153 (-0.521; 0.077) 1.000003 -0.294 0.130 (-0.548;-0.037) 1.000001
2 21.325 1.5999 (18.222;24.483) 1.000010 11.644 1.019 (9.773;13.739) 1.000082
5.351 0.626 ( 4.557; 6.578) 1.000451

SN-CR ST-CR

Parmetro Mdia SD HPD (95%) R Mdia SD HPD (95%) R

1 -1.034 1.632 (-4.178;2.206) 1.000004 -3.058 1.516 (-5.856; 0.083) 1.000025


2 -0.120 0.026 (-0.170;-0.070) 0.999999 -0.088 0.024 (-0.133;-0.040) 1.000011
3 0.675 0.081 ( 0.519; 0.836) 0.999999 0.673 0.068 ( 0.540; 0.806) 1.000012
4 -3.243 0.442 (-4.112;-2.389) 1.000005 -2.809 0.387 (-3.569;-2.065) 1.000011
5 -0.259 0.146 (-0.542;0.030) 1.000001 -0.267 0.128 (-0.510;-0.011) 1.000007
2 33.708 3.270 ( 27.143; 39.833) 1.000229 22.562 4.495 (13.774;31.283) 0.999999
1.803 0.380 ( 1.159; 2.576) 1.000663 -1.422 0.377 (-2.141;-0.656) 1.000060
4.877 0.255 ( 4.656; 5.369) 1.006467

SSL-CR

Parmetro Mdia SD HPD (95%) R

1 -4.127 1.485 (-7.097; -1.349) 1.000003


2 -0.079 0.023 (-0.124; -0.036) 1.000013
3 0.669 0.065 ( 0.542; 0.796) 1.000006
4 -2.688 0.366 (-3.406; -1.979) 0.999998
5 -0.265 0.122 (-0.505; -0.030) 1.000003
2 13.424 2.369 ( 8.938; 18.123) 1.000026
-1.940 0.397 (-2.728; -1.183) 1.000036
1.063 0.064 ( 1.001; 1.191) 1.000144

Tabela 3.1: Wage rate data. Mdia e desvio padro a posteriori, intervalo HPD (95%) e estatstica
de Gelman-Rubin sob os modelos N-CR, t-CR, SN-CR, St-CR e SSL-CR.

89
para este conjunto de dados. Dentre todos os modelos, o SSL-CR mostra-se o mais adequado.

Modelo LPML DIC EAIC EBIC WAIC1 WAIC2 pB


N-CR -1489.290 2975.017 2975.381 3003.126 2978.080 2978.651 0.3693
t-CR -1447.537 2893.862 2895.804 2928.172 2894.622 2894.943 0.8181
SN-CR -1479.075 2955.640 2955.402 2987.770 2958.067 2958.144 0.6098
St-CR -1441.834 2881.913 2884.199 2921.192 2883.431 2883.766 0.5293
SSL-CR -1432.518 2863.778 2864.841 2901.834 2864.796 2865.119 0.5425

Tabela 3.2: Wage rate data. Comparao entre os modelos SMSN-CR.

Considerando a amostra MCMC da distribuio posteriori do vetor de parmetros dos cinco


modelos ajustados para os dados wage rate, computamos as medidas qdivergentes descritas na
Seo 1.7 a fim de identificar possveis observaes influentes (utilizando p = 0.8 na Equao (1.7.6)
para calcular o ponto limite a partir do qual uma observao considerada influente). As Figuras
3.8, 3.9 e 3.10 mostram respectivamente as medidas de Kullback-Lieber, distncia J e distncia L1
sob os cinco modelos SMSN-CR ajustados.
Note que as observaes #185, #349 e #408 foram consideradas influentes sob os modelos
N-CR e SN-CR segundo todas as medidas calculadas, enquanto a observao #394 o foi sob estes
dois modelos somente segundo a distncia J e sob o modelo N-CR segundo a medida K-L (embora
ela tenha ficado muito prxima do ponto limite sob o SN-CR). O que notvel que nenhuma
das observaes citadas foram consideradas influentes quando os modelos de caudas mais pesadas
foram ajustados, o t-CR, St-CR e SSL-CR, mostrando a robustez destes em relao ao N-CR e
SN-CR na presena de observaes atpicas.
A fim de avaliar o real impacto das observaes #185, #349, #394 e #408 na inferncia
sobre os coeficientes de regresso, em geral os parmetros que mais influenciam na interpretao
prtica do problema, comparamos os modelos N-CR e SSL-CR (respectivamente o menos e o
mais adequado para o conjunto de dados segundo a Tabela 3.2) em relao mudana relativa
que a estimativa pontual (mdia posteriori) destes parmetros sofre quando cada uma destas
observaes excluda do conjunto de dados, calculamos tambm esta mudana relativa quando

90
NCR
tCR

0.9

0.9
408

0.6

0.6
KL divergence
349

KL divergence
185

0.3
0.3
394

0.0
0.0

0 150 300 450 600 750 0 150 300 450 600 750
Index Index

SNCR
StCR
0.9

0.9
0.6

0.6
KL divergence
408
KL divergence

185 349

0.3
0.3

0.0
0.0

0 150 300 450 600 750 0 150 300 450 600 750
Index Index

SSLCR
0.9
0.6
KL divergence

0.3
0.0

0 150 300 450 600 750

Index

Figura 3.8: Wage rate data. Divergncia de Kullback-Lieber para os modelos SMSN-CR.

todas estas observaes so excludas. Assim, defina a mudana relativa na estimatica do parmetro
- -
por RC = --( (I) )/-- 100, onde denota a estimativa pontual de utilizando toda a amostra
e (I) , excluindo-se o conjunto I de observaes. O resultado deste procedimento encontra-se na
Tabela 3.3, onde o smbolo indica parmetros que no eram significativos no ajuste original e
passaram a ser quando determinada observao foi removida. Nesta Tabela podemos observar
que o intercepto 1 o mais impactado por estas observaes quando comparado com os outros
coeficientes de regresso. Todas as mudanas relativas sob o modelo SSL-CR so menores do que
o N-CR, alm disso nenhum parmetro teve sua significncia estatstica alterada sob o ajuste do

91
NCR
tCR

1.5

1.5
408

349

1.0

1.0
J distance
J distance
185

394

0.5
0.5

0.0
0.0

0 150 300 450 600 750 0 150 300 450 600 750
Index Index

SNCR StCR
1.5

1.5
408
1.0

1.0
J distance

J distance
185 349
0.5

0.5
394
0.0

0.0

0 150 300 450 600 750 0 150 300 450 600 750

Index Index

SSLCR
1.5
1.0
J distance

0.5
0.0

0 150 300 450 600 750

Index

Figura 3.9: Wage rate data. Distncia J para os modelos SMSN-CR.

modelo SSL-CR, enquanto sob o N-CR o parmetro 5 , que no era considerado significativo no
ajuste original, passou a ser quando removemos a observao #185 e tambm quando todas as
observaes influentes foram removidas. Estes fatos confirmar mais uma vez que o SSL-CR mais
robusto do que o N-CR, conforme j era esperado.

92
NCR
tCR
1.2

1.2
408
349
0.8

0.8
185

L distance
L distance

0.4
0.4

0.0
0.0

0 150 300 450 600 750 0 150 300 450 600 750
Index Index

SNCR StCR
1.2

1.2

408
0.8

0.8
L distance

L distance

185 349
0.4

0.4
0.0

0.0

0 150 300 450 600 750 0 150 300 450 600 750

Index Index

SSLCR
1.2
0.8
L distance

0.4
0.0

0 150 300 450 600 750

Index

Figura 3.10: Wage rate data. Distncia L1 para os modelos SMSN-CR

93
Modelos
N-CR SSL-CR

Conjunto I 1 2 3 4 5 1 2 3 4 5

{#185} 2.43 3.63 0.86 3.30 3.56 2.46 2.27 0.22 1.11 1.91
{#349} 22.59 10.19 1.01 0.44 19.85 0.37 0.06 0.19 0.62 0.59
{#394} 8.46 3.14 4.09 2.07 5.65 1.16 1.52 0.49 0.32 2.64
{#408} 7.16 0.36 0.80 3.48 19.47 2.06 1.42 0.14 0.39 1.65
{#185, #349, #394, #408} 33.15 1.02 7.36 0.46 35.53 7.79 6.37 0.20 3.23 3.57

Tabela 3.3: Wage rate data. Mudana relativa (em %) para os coeficientes de regresso sob os
modelos N-CR e SSL-CR.

94
Captulo 4

Consideraes finais

4.1 Produo tcnica


Nesta Seo, descreveremos a produo tcnica derivada desta dissertao de mestrado.

4.1.1 Artigos aceitos para publicao

Influence diagnostics for Student-t censored linear regression models


Autores: Monique Bettio Massuia, Celso Rmulo Barbosa Cabral, Larissa vila Matos e
Victor Hugo Lachos Dvila.
Peridico: Statistics (Taylor & Francis)
DOI: 10.1080/02331888.2014.958489

Este artigo referente Subseo 2.5 desta dissertao e apresenta um estudo de inferncia
frequentista para o modelo t-CR com base no algoritmo EM e em tcnicas de diagnsticos atravs
de influncia global e local.

4.1.2 Artigos submetidos

Bayesian Analysis of Censored Linear Regression Models with Scale Mixtures of Skew-
Normal Distributions

95
Autores: Monique Bettio Massuia, Aldo Medina Garay, Victor Hugo Lachos Dvila e Celso
Rmulo Cabral.

Este artigo referente ao Captulo 3 desta dissertao e apresenta um estudo de inferncia


Bayesiano para os modelos SMSN-CR, utilizando o amostrador de Gibbs para realizar os ajustes
e baseando-se nas medidas q-divergentes para realizar diagnstico de influncia.

4.1.3 Pacotes para o software R

CensRegMod
Este pacote foi desenvolvido para dar suporte computacional aos desenvolvimentos da Subse-
o 2.5 e ao artigo Massuia et al. (2014), estimando os parmetros dos modelos t-CR e N-CR
via algoritmo EM, aproximando os erros padres dos estimadores dos coeficientes de regresso
atravs do mtodo mostrado na Subseo 2.5.2 e calculando as medidas de diagnstico local
e global conforme foi feito na Subseo 2.5.3. Este pacote calcula tambm os critrios AIC,
BIC e EDC para seleo de modelos e encontra-se disponvel para download gratuito no site:
http://cran.r-project.org/web/packages/CensRegMod/index.html.

Descrio
O comando principal a ser utilizado neste pacote da seguinte forma:

Cdigos em R

em.cens(cc, x, y, nu, dist, diagnostic, typediag)

com os seguintes argumentos:

cc: vetor de indicadores de censura, cujo isimo componente igual a 1 se a observaes


correspondente for censurada ou igual a 0, se no for.

x: matriz de desenho.

y: vetor com as observaes da varivel resposta.

96
nu: valor inicial para os graus de liberdade (ou NULL, se for o modelos N-CR a ser ajustado).

dist: Normal, se o modelo a ser ajustado for o N-CR ou T, se for o t-CR.

diagnostic: TRUE se quiser que as medidas de diagnstico apresentadas na Subseo 2.5.3


sejam computadas ou FALSE, caso contrrio.

typediag: Caso diagnostic=TRUE, se typediag=1 calcula-se a distncia generalizada de Cook


(e suas decomposies para os subconjuntos de parmetros e 2 ), se typediag=2, calcula-se
as medidas de influncia local sob ponderao de casos e, se typediag=3, sob a perturbao
na escala.

Exemplo

Cdigos em R

> library(CensRegMod)
> data(wage.rates)
> attach(wage.rates)
> N_CR = em.cens(cc,-x,-y,dist="Normal",diagnostic=TRUE,typediag=1)
> t_CR = em.cens(cc,-x,-y,nu=5,dist="T")

Observao: Ao contrrio do desenvolvimento da Seo 2.5, este pacote estima o valor do pa-
rmetro no caso do modelo t-CR, tomando como estimativa em cada iterao o argumento que
maximiza a funo verossimilhana, j avaliada nas estimativas calculadas para e 2 . No en-
tanto, a anlise de diagnstico feita considerando um valor fixo, tomado como o valor estimado
ao final do algoritmo EM. importante notar tambm que, embora este pacote tenha sido desen-
volvido para lidar com censuras direita, pode-se fazer uma adaptao para o ajuste do modelo
censurado esquerda, passando como argumento para a funo em.cens o vetor y e a matriz x
ao invs de seus valores originais.

SMNCensReg

97
Este pacote foi desenvolvido em conjunto com Aldo Medina Garay e d suporte computacional
Subseo 2.5, assim como sua tese de doutorado (veja Garay, 2014). Este pacote ajusta modelos
de regresso para respostas censuradas sob as seguintes distribuies da classe SMN (mistura de
escala normal) a saber: Normal, t de Student, Pearson VII, Slash e Normal Contaminada. Os erros
padres para os estimadores dos coeficientes de regresso so estimados atravs do mtodo descrito
na Subseo 2.5.2. Tambm faz o grfico de envelope com base nos resduos deviance para a anlise
de diagnstico e calcula os critrios AIC, BIC e EDC para seleo de modelos. Disponvel para
download gratuito no site http://cran.r-project.org/web/packages/SMNCensReg/index.html.

Descrio
O comando principal a ser utilizado neste pacote da seguinte forma:

Cdigos em R

CensReg.SMN(cc,x,y,LS,nu,delta,cens,dist,show.envelope,error,iter.max)

com os seguintes argumentos:

cc: vetor de indicadores de censura, cujo isimo componente igual a 1 se a observaes


correspondente for censurada ou igual a 0, se no for.

x: matriz de desenho.

y: vetor com as observaes da varivel resposta no caso de censuras direita ou esquerda.


No caso de censura intervalar, y o vetor com os limites inferiores dos intervalos observados.

LS : no caso de censura intervalar, contm os limites superiores dos intervalos observados.

nu: valor inicial para os graus de liberdade da t de Student, Pearson VII ou Slash. Um vetor
bidimensional com os valores iniciais dos parmetros da Normal Contaminada.NULL, para a
distribuio Normal.

delta: valor inicial para o segundo parmetro da distribuio Pearson VII (ou NULL, para as
outras distribuies).

98
cens: left, se a varivel resposta for censurada esquerda, right, se for direita e interval,
se a censura for intervalar.

dist: Normal, se a distribuio assumida para os erros do modelo for Normal, T, se for t de
Student, PearsonVII, se for Pearson VII, Slash, se for Slash e, finalmente, NormalC, se for
Normal contaminada.

show.envelope: TRUE, caso queira que o grfico de envelope seja mostrado ou FALSE, caso
contrrio.

error: preciso para que o critrio de convergncia seja atingido. O padro do pacote
0.0001.

iter.max: Nmero mximo de iteraes. O padro do pacote 300.

Exemplo

Cdigos em R

> library(SMNCensReg)
> data(wage.rates)
> attach(wage.rates)
> y = wage.rates$wage
> x = cbind(wage.rates$age,wage.rates$educ,wage.rates$kidslt6,wage.rates$kidsge6)
> cc = c(rep(0,428),rep(1,325))
> N_CR = CensReg.SMN(cc,x,y,cens="left",dist="Normal")
> t_CR = CensReg.SMN(cc,x,y,nu=3,cens="left",dist="T",show.envelope="TRUE")

BayesCR
Este pacote foi desenvolvido em conjunto com Aldo Medina Garay e d suporte computacional
ao estudo de inferncia Bayesiana para as Subsees 3.3 e 2.4.1, assim como sua tese de doutorado
(veja Garay, 2014). Com este pacote possvel ajustar, via amostrador de Gibbs, modelos de
regresso para dados censurados ( direita ou esquerda) sob as seguintes distribuie da classe

99
SMSN (mistura de escala skew-normal): Normal, Skew-Normal, t de Student, Skew t de Student,
Slash, Skew-Slash e Normal Contaminada. O pacote tambm calcula os seguintes critrios de
seleo de modelos: LPML, DIC, EAIC, EBIC, WAIC1 e WAIC2 , alm das medidas de divergncia
de Kullback-Lieber, e as distncia J, L1 e Chi. Alm disso, o pacote pode ser utilizado para gerar
observaes das distribuies SMSN consideradas.

Descrio

O comando que ajusta os modelos SMSN-CR via amostrador de Gibbs da seguinte forma:

Cdigos em R

Bayes.CR(cc,x,y,cens,dist,influence,criteria,spacing,prior,hyper,n.thin,burnin,
n.iter,n.chains,chain)

com os seguintes argumentos:

cc: vetor de indicadores de censura, cujo isimo componente igual a 1 se a observaes


correspondente for censurada ou igual a 0, se no for.

x: matriz de desenho.

y: vetor com as observaes da varivel resposta.

dist: Normal, se a distribuio assumida para os erros do modelo for Normal, SN, se for Skew-
Normal, T, se for t de Student, ST, se for Skew-t, Slash, se for Slash, SSL se for Skew-Slash
e, finalmente, NormalC, se for Normal contaminada.

influence: TRUE, caso queira que sejam computadas a divergncia de Kullback-Lieber e as


distncia J, L1 e Chi ou FALSE caso contrrio.

criteria: TRUE, caso queira que sejam computados os critrios LPML, DIC, EAIC, EBIC,
WAIC1 e WAIC2 ou FALSE caso contrrio.

100
spacing: Somente deve ser fornecido se influence=TRUE ou criteria=TRUE, especificando o
lag entre observaes da cadeia final a ser utilizado para o clculo das medidas de influncia
e/ou dos critrios de seleo de modelos.

prior: Distribuio priori a ser considerada para os graus de liberdade no caso da distri-
buio t de Student, sendo Exp para a priori exponencial, Jeffreys para a de Jeffreys, Unif
para a uniforme ou Hierar para a priori hierrquica, utilizada nesta dissertao (veja Garay
(2014)).

hyper: valor do hiperparmetro da priori exponencial ou NULL, se foram utilizadas outras


prioris ou modelos.

n.thin: lag a ser considerado para a cadeia final de observaes.

burnin: burn-in a ser considerado para a cadeia final de observaes.

n.iter: nmero de iteraes para cada cadeia do amostrador de Gibbs.

n.chains: nmero de cadeias paralelas a serem geradas pelo amostrador de Gibbs.

chain: TRUE, caso as cadeias finais devam ser armazenadas para anlise ou FALSE, caso
contrrio.

Alm disso, possvel gerar observaes das distribuies consideradas a partir da seguinte
funo:

Cdigos em R

rSMSN(n,mu,sigma2,lambda,nu,dist)

Com os seguintes argumentos:

n: nmero de observaes a serem geradas.

mu: parmetro de locao.

sgiam2 : parmetro de escala.

101
lambda: parmetro de forma relativo assimetria.

nu: graus de liberdade para as distribuies t de Student, Slash e suas verses assimtricas.

dist: distribuio da qual se quer gerar. Normal, para Normal, SN, para Skew-Normal, T,
para t de Student, ST,para Skew-t, Slash, para Slash, SSL para Skew-Slash e, finalmente,
NormalC, para Normal contaminada.

Exemplo

Cdigos em R

> library(BayesCR)
> data(wage.rates)
> attach(wage.rates)
> y = wage.rates$wage
> x = cbind(wage.rates$age,wage.rates$educ,wage.rates$kidslt6,wage.rates$kidsge6)
> cc = c(rep(0,428),rep(1,325))
> t_CR = Bayes.CR(cc,x,y,cens="left",dist="T",influence=FALSE,criteria=FALSE,
prior="Hierar, n.thin=10, burnin=10000,n.iter=100000,n.chains=1,chain=FALSE)

4.2 Trabalhos futuros


Os desenvolvimentos realizados nesta dissertao abrem perspectivas para diversos trabalhos
futuros, como:

Desenvolver um estudo de inferncia e diagnstico frequentista para os modelos SMSN-CR


com base no algoritmo EM-SAEM (que utiliza aproximaes MCMC para as esperanas
calculadas na etapa E do algoritmo).

Estender os resultados apresentados para modelos no lineares com respostas censuradas.

Estender os desenvolvimentos desta dissertao para o caso multivariado.

102
4.3 Concluso

Neste trabalho consideramos a classe de distribuies de mistura de escala skew-normal como


alternativa para a hiptese convencional de normalidade atribuda aos erros dos modelos de re-
gresso lineares para respostas censuradas, generalizando os trabalhos de Barros et al. (2010), que
faz anlise de diagnstico para o modelo Tobit, de Arellano-Valle et al. (2012), que desenvolve um
estudo de inferncia frequentistica para o modelo t-Student e de Garay (2014), que considera o
modelo de regresso com respostas censuradas sob a classe de distribuies de mistura de escala
normal.

Sob a perspectiva frequentista, demos ateno especial aos modelos N-CR e t-CR no captulo
2, desenvolvendo o algoritmo EM para a estimao paramtrica destes modelos e tambm um
estudo de diagnstico baseados em medidas de influncia local e global. Os pacotes CensRegMod
e SMNCensReg do suporte computacional a este problema e esto disponveis para download no
repositrio CRAN. Foram feitos dois estudos de simulao, o primeiro compara a robustez das
estimativas EM obtidas sob os modelos N-CR e t-CR quando uma perturbao feita no conjunto
de dados, mostrando que as estimativas do modelo t-CR so menos sensveis perturbao do que
as do modelo N-CR. O segundo estudo de simulao avaliou a consistncia do mtodo utilizado
para estimar o desvio padro dos estimadores EM dos parmetros de regresso, que mostrou-se
bastante adequado. Os modelos foram ento ajustados ao conjunto de dados de Mroz (1987)
utilizando os pacotes citados e, como esperado, o modelo t-CR mostrou-se bem mais adequado do
que o N-CR para acomodar observaes atpicas.

Sob a perspectiva Bayesiana, consideramos o modelo de regresso linear para dados censu-
rados sob diversas distribuies da famlia SMSN: a normal, normal assimtria, t de Student, t
de Student assimtrica, e, finalmente, slash assimtrica. A estimao paramtrica foi feita com
base no amostrador de Gibbs e a anlise de diagnstico, com base nas medidas q-divergentes.
O pacote BayesCR d respaldo computacional ao problema e foi utilizado nas aplicaes I e III,
assim como nos estudos de simulao III e IV, que compararam a qualidade das estimativas dos
modelos citados na presena de observaes atpicas e/ou assimetria, mostrando o impacto sofrido
pelas estimativas dos modelos quando utilizada uma distribuio que no consegue acomodar

103
tais caractersticas presentes no conjunto de dados.

104
Referncias Bibliogrficas

Abanto-Valle, C. A., Lachos, V. H. & Dey, D. K. (2013). Bayesian estimation of a skew-t stochastic
volatility model. Methodology: Computing in Applied Probability (revision invited).

Ando, T. (2010). Bayesian Model Selection and Statistical Modeling. Chapman & Hall/CRC.

Andrews, D. R. & Mallows, C. L. (1974). Scale mixtures of normal distributions. Journal of the
Royal Statistical Society, 36, 99102.

Arellano-Valle, R. B., Castro, L. M., Faras, G. G. & Gajardo, K. A. M. (2012). Student-t censored
regression model: properties and inference. Statistical Methods and Applications, 21(4), 453473.

Atkinson, A. C. (1985). Plots, transformations and regression. An introduction to graphical methods


of diagnostic regression analysis. Oxford Statistical Science Series.

Azzalini, A. (1985). A class of distributions which includes the normal ones. Scandinavian Journal
of Statistics, 12, 171178.

Azzalini, A. & Genton, M. G. (2008). Robust likelihood methods based on the skew-t and related
distributions. International Statistical Review, 76, 14901507.

Bagnoli, M. & Bergstrom, T. (2005). Log-concave probability and its applications. Economic
Theory, 24(2), 445469.

Bai, Z. D., krishnaiah, P. R. & Zhao, L. C. (1989). On rates of convergence of efficient detection
criteria in signal processing with white noise. IEEE Transactions on Information Theory, 35,
380388.

105
Barndorff-Nielsen, O. E. (1997). Normal inverse gaussian distributions and stochastic volatility
modelling. Scandinavian Journal of Statistics, 24, 113.

Barros, M., Galea, M., Gonzlez, M. & Leiva, V. (2010). Influence diagnostics in the tobit censored
response model. Statistical Methods & Applications, 19, 716723.

Basso, R. M. (2009). Misturas Finitas de Misturas de Escala Skew-Normal. Dissertao do mes-


trado, Instituto de Matemtica, Estatstica e Computao Cientfica, IMECC - UNICAMP.

Basso, R. M., Lachos, V. H., Cabral, C. R. B. & Ghosh, P. (2010). Robust mixture modeling based
on scale mixtures of skew-normal distributions. Computational Statistics and Data Analysis, 54,
29262941.

Bayes, C. L. (2005). Inferncia Bayesiana no modelo normal assimtrico. Dissertao do mestrado,


Instituto de Matemtica e Estatstica, IME-USP.

Branco, M. D. & Dey, D. K. (2001). A general class of multivariate skew-elliptical distributions.


Journal of Multivariate Analysis, 79, 99113.

Brooks, S. P. (2002). Discussion on the paper by spiegelhalter, best, carlin, and van der linde
(2002). JRSSB, 64(4), 616618.

Cabral, C. R. B. & Madruga, V. H. (2012). Bayesian analysis of skew-normal independent li-


near mixed models with heterogeneity in the randon-effects population. Journal of Statistical
Planning and Inference, 142, 181200.

Cancho, V. G., Dey, D. K., Lachos, V. H. & Andrade, M. G. (2011). Bayesian nonlinear regres-
sion models with scale mixtures of skew-normal distributions: Estimation and case influence
diagnostics. Computational Statistics and Data Analysis, 55, 588602.

Carlin, B. P. & Louis, T. A. (2001). Bayes and Empirical Bayes Methods for Data Analysis.
Chapman & Hall/CRC, Boca Raton, second edition.

Chib, S. & Greenberg, E. (1995). Understanding the metropolis-hastings algorithm. The American
Statistician, 49, 327335.

106
Colosimo, E. & Giolo, S. (2006). Anlise de sobrevivncia aplicada. ABE - Projeto Fisher.

Cook, R. D. (1977). Detection of influential observation in linear regression. Technometrics, 19,


1518.

Cook, R. D. (1986). Assessment of local influence. Journal of the Royal Statistical Society, 48,
133169.

Cook, R. D. & Weisberg, S. (1982). Residuals and influence in regression. Chapman and Hall.

Csiszr, I. (1967). Information-type measures of difference of probability distributions and indirect


observations. Studia Scientiarum Mathematicarum Hungarica, 2, 299318.

Dempster, A. P., Laird, N. M. & Rubin., D. B. (1977). Maximum likelihood from incomplete data
via the em algorithm. Journal of the Royal Statistical Society, 39, 138.

Dey, D. K., Chen, M. H. & Chang, H. (1997). Bayesian approach for the nonlinear random effects
models. Biometrics, 53, 12391252.

do Carmo, M. P. (2006). Geometria diferencial de curvas e superfcies. Sociedade Brasileira de


Matemtica, second edition.

Fernandez, C. & Steel, M. J. F. (1999). Multivariate student-t regression models: pitfalls and
inference. Biometrika, 86, 153157.

Fonseca, T. C. O., Ferreira, M. A. R. & Migon, H. S. (2008). Objective bayesian analysis for the
student-t regression model. Biometrika, 95, 325333.

Garay, A. M. (2009). Modelos no lineares sob a classe de distribuies misturas da escala skew-
normal. Dissertao de mestrado, Instituto de Matemtica, Estatstica e Computao Cientfica,
IMECC - UNICAMP.

Garay, A. M. (2014). Modelos de regresso para dados censurados sob distribuies simtricas.
Tese de doutorado, Instituto de Matemtica e Estatstica, IME - USP.

107
Garay, A. M., Lachos, V. H., Bolfarine, H. & Cabral, C. R. B. (2013). Bayesian analysis censored
linear regression models with scale mixtures of normal distributions. Technical Report 14,
Universidade Estadual de Campinas.

Gelfand, A. E. & Smith, A. F. M. (1990). Sampling-based approaches to calculating marginal


densities. Journal of the American Statistical Association, 85, 398409.

Gelfand, A. E., Dey, D. & Chang, H. (1992). odel determination using predictive distributions
with implementation via sampling-based methods. Bayesian Statistics, 4, 147167.

Gelman, A. (1992). Iterative and non-iterative simulation algorithm. Computing Science and
Statistics, 7, 457511.

Gelman, A., Carlin, J. B., Stern, H. S. & Rubin, D. B. (2004). Bayesian data analysis. Chapman
& Hall/CRC.

Gelman, A., Hwang, J. & Vehtari, A. (2014). Understanding predictive information criteria for
bayesian models. Statistics and Computing, 24, 9971016.

Gen, A. I. (2013). Moments of truncated normal/independent distributions. Statistical Papers,


54, 741754.

Geweke, J. (1993). Bayesian treatment of the independent student-t linear model. Journal of
Applied Econometrics, 8, S19S40.

Hastings, W. K. (1970). Monte carlo sampling methods using markov chains and their applications.
JBiometrika, 57, 97109.

Kalbfleisch, J. & Lawless, J. (1992). Some useful statistical methods for truncated data. Journal
of Quality and Technology, 24(3), 145152.

Kim, H. J. (2008a). Moments of truncated student-t distribution. Journal of the Korean Statistical
Society, 37, 8187.

108
Kim, H. M. (2008b). A note on scale mixtures of skew normal distribution. Statistics and Probability
Letters, 78, 16941701.

Lange, K. L. & Sinsheimer, J. S. (1993). Normal/independent distributions and their applications


in robust regression. Journal of Computational and Graphical Statistics, 2, 175198.

Lange, K. L., Little, J. A. & Taylor, M. G. J. (1989). Robust modeling using the t distribution.
Journal of the American Statistical Association, 84, 881896.

Lee, S. Y. & Xu, L. (2004). R influence analysis of nonlinear mixed-effects models. Computational
Statistics and Data Analysis, 45, 321341.

Lin, T. I., Lee, J. C. & Hsieh, W. J. (2007). Robust mixture modelling using the skew t distribution.
Statistics and Computing, 17, 8192.

Little, R. J. A. (1999). Robust estimation of the mean and covariance matrix from data with
missing values. Applied Statistics, 37, 2338.

Louis, T. A. (1982). Finding the observed information matrix when using the em. Journal of the
Royal Statistical Society, 44, 226233.

Lucas, A. (1997). Robustness of the student-t based m-estimator. Communications in Statistics,


Theory and Methods, 26, 11651182.

Massuia, M. B., Cabral, C. R. B., Matos, L. A. & Lachos, V. H. (2014). In-


fluence diagnostics for student-t censored linear regression models. Statistics, DOI:
10.1080/02331888.2014.958489.

Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H. & Teller, E. (1953). Equations
of state calculations by fast computing machines. Journal of Chemical Physics, 21, 10871092.

Meza, C., Osorio, F. & la Cruz, R. D. (2012). Estimation in nonlinear mixed-effects models using
heavy-tailed distributions. Statistics and Computing, 22, 121139.

109
Mroz, T. A. (1987). The sensitivity of an empirical model of married womens hours of work to
economic and statistical assumptions. Econometrica, 55, 765799.

Nelson, W. (1990). Hazard plotting of left truncated life data. Journal of Quality and Technology,
22(3), 230238.

Ortega, E. M., Bolfarine, H. & Paula, G. A. (2003). Influence diagnostics in generalized log-gamma
regression models. Computational Statistics and Data Analysis, 42, 165186.

Peng, F. & Dey, D. K. (1995). Bayesian analysis of outlier problems using divergence measures.
The Canadian Journal of Statistics, 23, 199213.

Poom, W. Y. & Poon, Y. S. (1999). Conformal normal curvature and assessment of local influence.
Journal of the Royal Statistical Society, 61, 5161.

Schmee, J. & Hahn, G. J. (1979). A simple method for regression analysis with censored data.
Technometrics, 21, 417432.

Spiegelhalter, D. J., Best, N. G., Carlin, B. P. & van der Linde, A. (2002). A bayesian measure of
model complexity and fit (with discussion). Journal of Royal Statistical Society, 64, 583639.

Tan, M., Tian, G. L. & Ng, K. W. (2009). Bayesian Missing Data Problems: EM, Data Augmen-
tation and Noniterative Computation. Chapman & Hall/CRC Biostatistics Series, Boca Raton,
NY.

Tanner, M. A. & Wong, W. H. (1987). The calculation of posterior distributions by data augmen-
tation. Journal of the Maerican Statistical Association, 82, 528549.

Tierney, L. (1994). Markov chains for exploring posterior distributions (with discussion). Annals
of Statistics, 22, 17011762.

Tobin, J. (1958). Estimation of relationships for limited dependent variables. Econometrica, 26,
2436.

110
Vidal, I. & Castro, L. M. (2010). Influential observations in the independent Student-t measure-
ment error model with weak nondifferential error. Chilean Journal of Statistics, 1, 1734.

Wang, J. & Genton, M. G. (2006). The multivariate skew-slash distribution. Journal of Statistical
Planning and Inference, 136, 209220.

Watanabe, S. (2010). Asymptotic equivalence of bayes cross validation and widely applicable
information criterion in singular learning theory. The Journal of Machine Learning Research,
11, 35713594.

Zhu, H. & Lee, S. (2001). Local influence for incomplete-data models. Journal of the Royal
Statistical Society, 63, 111126.

Zhu, H., Lee, S., Wei, B. & Zhou, J. (2001). Case-deletion measures for models with incomplete
data. Biometrika, 88, 727737.

Zhu, H., Ibtahim, J. G. & Shi, X. (2009). Diagnostic measures for generalized linear models with
missing covariates. Scandinavian Journal of Statistics, 36, 686712.

111
112
Apndice A

Desenvolvimento da pdf e cdf da skew-t

Nesta Seo derivaremos a forma fechada da pdf e cdf da distribuio skew-t. Para isso,
considere o seguinte Lema:

Lema 6. Seja U G (, ), > 0 and > 0. Ento, para qualquer vetor fixo w Rp , temos
que:

Q R
5 1 26
EU p U w ; , = Tp a w ; , , 2b .

Prova:

113
Considere o vetor aleatrio V Np (, ) independente de U G(, ), ento:
5 1 26
EU p U w ; , = EU P(V w U )
S A BT
V
= EU UP w V
U
S Q RT

W V 1 X
= EU UP a wbV
2U 2
S Q RT

W c V dX
= EU W
UP a w bX
V
/U
S Q RT

W bX
= EU UP aX w V with X tp (, , 2) (A.0.1)

A B

= Tp w ; , , 2 ,

aqui, a Equao (A.0.1) foi obtida usando os seguintes resultados (os quais no sero demonstra-
dos):

Se U G(, ), ento, para qualquer constante c > 0, c U G(, /c).

Se U G(, 1/2), ento U tem a mesma distribuio que Y X2 .

Se V Np (, ) independente de U , ento X = V tp (, , ),
U/

onde X denota a distribuio chi-quadrado com graus de liberdade.

Agora, considerando o formato geral da pdf da classe SMSN dada na Equao (3.2.6), a den-
sidade da skew-t dada por:
A B ; <
1 2 (y ) (/2)/2 /21
f (y) = 2 (y ; , u ) ; 0, 1 u exp u du
0 u 1/2 (/2) 2
Y A BZ
2 (/2)/2 1 ] d(y)2 ^ 1 2
= u 2 exp [u + d(y) u du
(/2) 0 2 2 \
A B A B +1 5 1
2(/2)/2 +1 + d(y)2 2 26
= EX d(y) X ; 0, 1 ,
(/2) 2 2

114
3 4
+1 +d(y)2
onde d(y) = y

e X Gamma 2
, 2 . Utilizando o Lema 6, temos que:

A B +1 Q R
2 ( +1 ) d(y)2 2
+1
f (y) = 2
1+ T1 a d(y) ; + 1b .
(/2) + d(y)2

A partir da parte (b) da Proposio 6, a cdf da skew-t fica:


! "
F (y) = 2EU 2 y(U ) ; , ,

onde U Gamma(/2, /2), y(u) e so definidas na parte (b) da Proposio (6). Desta
forma, pelo Lema 6, temos que:
QQ R R
cc y d d
c d
F (y) = 2 T2 cc d ; , , d .
aa b b
0

115
116
Apndice B

Licena

Copyright (c) 2015 de Monique Bettio Massuia.


Exceto quando indicado o contrrio, esta obra est licenciada sob a licena Creative Com-
mons Atribuio-CompartilhaIgual 3.0 No Adaptada. Para ver uma cpia desta licena, visite
http://creativecommons.org/licenses/by-sa/3.0/.

A marca e o logotipo da UNICAMP so propriedade da Universidade Estadual de Campi-


nas. Maiores informaes sobre encontram-se disponveis em http://www.unicamp.br/unicamp/
a-unicamp/logotipo/normas%20oficiais-para-uso-do-logotipo.

B.1 Sobre a licena dessa obra


A licena Creative Commons Atribuio-CompartilhaIgual 3.0 No Adaptada utilizada nessa
obra diz que:

1. Voc tem a liberdade de:

Compartilhar copiar, distribuir e transmitir a obra;

Remixar criar obras derivadas;

117
fazer uso comercial da obra.

2. Sob as seguintes condies:

Atribuio Voc deve creditar a obra da forma especificada pelo autor ou licenciante
(mas no de maneira que sugira que estes concedem qualquer aval a voc ou ao seu uso
da obra).

Compartilhamento pela mesma licena Se voc alterar, transformar ou criar em cima


desta obra, voc poder distribuir a obra resultante apenas sob a mesma licena, ou sob
uma licena similar presente.

118