Sie sind auf Seite 1von 14

1a Lista de Exercícios  Modelos Lineares Generalizados

Aluna: Vanessa Souza dos Santos


Professor: Fernando Moura

21 de outubro de 2015

Exercício 1. Para o modelo de regressão linear simples, determine a distribuição conjunta dos esti-
madores de máxima verossimilhança de β1 e β2 .

Solução: Dado o Modelo de Regressão Linear Simples: Yi = β1 + β2 xi + εi i = 1, 2, . . . , n. Um


método de estimativa pontual para os parâmetros é o Método da Máxima Verossimilhança (MV).
O vetor ε ∼ Normal(0, σ 2 I) e Y ∼ Normal(Xβ β , σ 2 I), assim temos que a densidade de Y é dada por:

1
f (Y) = √ β )T (Y − Xβ
exp{(Y − Xβ β )}
2πσ 2

em que  
β1 
β= Xi = 1 xi
β2
onde o vetor de médias é dado por I é a matriz identidade com dimensão n × n.
Os estimadores de máxima verossimilhança do vetor de parâmetros β são encontrados maximizando
o logaritmo da função de verossimilhança associada a amostra yT = (y1 , y2 , . . . , yn ) que é dada por:
n 1
β , σ 2 ) = − log(2πσ 2 ) − 2 (Y − Xβ
l(β β )T (Y − Xβ
β ), β ∈ R p , σ 2 > 0.
2 2σ
Para maximizar β considera-se σ 2 xado, o que equivale a estimar a função desvio, também
conhecida como o núcleo da densidade de uma distribuição Normal, dada por

β )T (Y − Xβ
β ) = (Y − Xβ
D(β β ), β ∈ Rp
β − β T XT Y + β T XT Xβ
= YT Y − YT Xβ β
= YT Y − β T XT Y + β T XT Xβ
β

O ponto crítico de D é encontrado como a solução de:


∂D
=0
∂β

Assim a derivada parcial ca da forma


∂D
= −2XT Y + XT Xβˆ = 0 (0.1)
∂β

1
Os pontos críticos devem necessariamente a solução de (0.1) e se (XT X) for invertível, então e
equação tem solução única, após alguma álgebra se encontra:
 −1
βb = X> X X> Y

Então dizemos que βb é o estimador de máxima verossimilhança para β , cujos elementos são βb1 e
βb2 , tal que
 
1 x1
∑ni=1 xi
   1 1 · · · 1   1 x2   n

>
X X =  . . =
 
x1 x2 · · · xn  .. ..  ∑ni=1 xi ∑ni=1 xi2
1 xn
 n 2
∑i=1 xi − ∑ni=1 xi
−1 

> 1
X X = n
n ∑ni=1 xi2 − (∑ni=1 xi )2 − ∑i=1 xi n
 
Y1
  n
1 1 · · · 1  Y2 
  
> ∑i=1 Yi
X Y=  . =
x1 x2 · · · xn  ..  ∑ni=1 Yi xi
Yn

∑ni=1 xi2 − ∑ni=1 xi ∑ni=1 Yi


−1   
 1
X> X X> Y =
n ∑ni=1 xi2 − (∑ni=1 xi )2 − ∑ni=1 xi n ∑ni=1 Yi xi
" #
∑ni=1 Yi ∑ni=1 xi2 − ∑ni=1 xi (∑ni=1 Yi xi )
 
1 βb1
= =
n ∑ni=1 xi2 − (∑ni=1 xi )2 n ∑ni=1 Yi xi − (∑ni=1 Yi ) (∑ni=1 xi ) βb2

Logo
n ∑ni=1 Yi xi − (∑ni=1 Yi ) (∑ni=1 xi )
βb1 = Y − βb2 x e βb2 =
n ∑ni=1 xi2 − (∑ni=1 xi )2

O vetor esperado de βb é
 −1   −1  −1
> > > > >
E( ) = E X X
βb X Y = X X X E [Y] = X X X> Xβ
β = Iβ
β =β

E a matriz de covariância de βb é

   −1   −1   −1   −1 >


> > > > > > >
V β
b = V X X X Y =V X X X Y = X X X V(Y) X X X>
 −1   −1 >  −1  −1  −1
> > >
= X X X σ 2
X X X> = σ 2 X> X X> X X> X = σ 2 X> X

 
em que os elementos σ da matriz Σβ = V βb são da seguinte forma
 2 n 2 
σ ∑i=1 xi σ 2 ∑ni=1 xi
− Sxx
 
Sxx σ11 σ12

σ2 n x
 =
σ 2n
− ∑i=1 i Sxx Sxx
σ21 σ22

2
onde Sxx = n ∑ni=1 xi2 − (∑ni=1 xi )2 ; σ11 é a variância de βb1 ; σ22 é a variância de βb2 ; e σ12 = σ21 é a
covariância entre βb1 e βb2 .
Note que, como βb1 e βb2 são combinações lineares de Yi , onde Yi ∼ Normal(µi , σ 2 ), então segue
que
βb1 ∼ Normal(β1 , σ11 ) e βb2 ∼ Normal(β2 , σ22 )
Além disso, note que det(Σ ) = σ 4 6= 0, logo Σ admite inversa. Portanto βb ∼ Normal2 (β
β β β ,Σ ) . β

b y+ − βb2 Sty .
Exercício 2. Mostre que ∑i ri2 = ∑i y2i − α

Resolução: Note que ri = yi − α


b − βb2ti , onde i = 1, . . . , n.
Hipóteses do exercício: ∑ni=1 ri = ∑ni=1 riti = 0.

n
∑ ri2 = ∑(yi − αb − βb2ti)2 = ∑[y2i − 2yi(αb + βb2ti) + (αb + βb2ti)2]
i=1 i i
= ∑[y2i − yi(αb + βb2ti) − yi(αb + βb2ti) + (αb + βb2ti)(αb + βb2ti)]
i
= ∑[y2i − yiαb − βb2yiti − (αb + βb2ti)(yi − αb − βb2ti)]
i
= ∑[y2i − yiαb − βb2yiti − (αb + βb2ti)ri]
i
= ∑ y2i − αb y+ − βb2Sty − αb ∑ ri − βb2 ∑ tiri
i i i
= ∑ y2i − α
b y+ − βb2 Sty . 2
i

Vericação das hipóteses: ∑ni=1 ri = ∑ni=1 riti = 0.

∑ ri = ∑[yi − αb − βb2ti]
i i
 
Sty
= ∑ yi − y+ − ti
i St
Sty
= ∑ yi − ny+ ∑ ti = 0 . 2
i St i

E ainda,

∑ riti = ∑[yiti − αb ti − βb2ti2]


i i
Sty
= ∑ yiti − ny+ ∑ ti − St ∑ ti2 = 0 . 2
i i i

Vericação dos Estimadores: Considere D = ∑i εi2 = ∑i (yi − α − β2ti )2 . Estimar os parâmetros α e


β2 de modo que os desvios ε sejam mínimos consiste minimizar D. Para isto, derivamos D em relação
aos parâmetros α e β2 . Assim

∂D ∂D
= −2 ∑(yi − α − β2ti ) e = −2 ∑(yi − α − β2ti )ti = −2 ∑(yiti − αti − β2ti2 ) .
∂α i ∂ β2 i i

3
Substituindo α e β2 por α
b e βb2 (pontos que minimizam D) e igualando as derivadas parciais a
zero, obtemos

−2 ∑(yi − α
b − βb2ti ) = 0 −→ b = ∑ yi − βb2 ∑ ti
nα −→ b = y − βb2 ∑ ti = y 2
α
i i i i

e
∑ yiti Sty
b ti − βb2ti2 ) = 0
−2 ∑(yiti − α −→ βb2 ∑ ti2 = ∑ yiti − α
b ∑ ti −→ βb2 = i 2 = . 2
i i i i ∑i ti St

Exercício 3. Considere o seguinte modelo de regressao linear simples y = β0 + β1 x + ε , em que β0 é


conhecido.
(a) Encontre o estimador de mínimos quadrados de β1 para este modelo;

(b) determine a variância de β


b1 para o estimador de mínimos quadrados obtido em (a);

(c) obtenha um intervalo de 100(1 − α)% de conança. Compare este intervalo com o respectivo
intervalo no caso em que β0 e β1 são desconhecidos.
Resolução (a):
Considere o modelo de regressão linear simples y = β0 + β100 x + ε , onde β0 é conhecido, em que
ε ∼ N(0, σ 2 ) e y ∼ N(β0 +β10 x, σ 2 ). O método dos Mínimos Quadrados é capaz de estimar o parâmetro
β10 através da minimização da soma dos erros ao quadrado, conforme segue:
n n
D(β10 ) = ∑ εi2 = ∑ (yi − β0 − β10 xi )2 ,
i=1 i=1
onde é possível minimizar os erros aplicando uma derivada de 1a ordem e assim encontrar a estimativa
de mínimos quadrados para β10 . Assim

∂ D(β10 ) n

∂ β10
= 2 ∑ (yi − β0 − β10 xi)(−xi)
i=1
n
= 2 ∑ (−yi xi + β0 xi + β10 xi2 ) .
i=1

Fazendo
∂ D(β10 ) n
=0 −→ 2 ∑ (−yi xi + β0 xi + βb10 xi2 ) = 0
∂ β10 i=1
n n n
−2 ∑ yi xi + 2β0 ∑ xi + 2βb10 ∑ xi2 = 0
i=1 i=1 i=1

∑n yi xi − β0 ∑ni=1 xi
βb10 = i=1 ,
∑ni=1 xi2
onde βb10 é o estimador para β10 .
Como σ 2 é desconhecido, vamos calcular o seu estimador:
No Exercício 4(b) será mostrado que σ12 ∑ni=1 (yi − β0 − βb10 )2 ∼ χn−1
2 . por enquanto vamos usar

apenas o resultado. Sabendo que E(χn−1


2 ) = n − 1. Portanto

4
!
1 n
E 2 ∑ (yi − β0 − βb10 )2 = n−1
σ i=1
!
1 n
E ∑ (yi − β0 − βb10 )2 = σ 2
n − 1 i=1
| {z }
b12
σ

1 n
e12 =
σ ∑ (yi − β0 − βb10 )2
n − 1 i=1
onde a quantidade σe12 representa o estimador não viesado para σ 2 , pois E(σe12 ) = σ 2 .
• Resolução (b)
A variância de βb10 é
 n ! !
n  n n n
∑ Yi xi − β0 ∑ x i 1 1
V(βb10 ) = V i=1
n 2
i=1
= 2
V ∑ Yi xi − β0 ∑ xi = 2 V ∑ Yixi
∑i=1 xi ∑ni=1 xi2 ∑ni=1 xi2

i=1 i=1 i=1
n n n
indep 1 1 1 σe12
= ∑ V (Yixi) = ∑ xi2 V (Yi ) = ∑ xi2 σ
e12 =
∑ni=1 xi2
2 2 2
∑ni=1 xi2 i=1 ∑ni=1 xi2 i=1 ∑ni=1 xi2 i=1
e12
σ
V(βb10 ) = .
∑ni=1 xi2
• Resolução (c)
Para encontrar o intervalo de conança para β10 , considere a seguinte função:
βb0 −β 0
Q(β10 ) = h 1 i11/2 ∼ tn−1 (Veja a demonstração no exercício 6), em outras palavras, a quantidade
V(βb10 )
pivotal Q(β10 ) segue distribuibução t -student com n − 1 graus de liberdade. Pelo método da quantidade
pivotal temos

P(tn−1,α/2 < Q(β10 ) < tn−1,α/2 ) = 1 − α


onde 1 − α é o nível de conabilidade, ou seja, a probabilidade do intervalo conter o parâmetro β10 , e
o ponto tn−1,α/2 é o quantil da distribuição t -student. Assim,

P(−tn−1,α/2 < Q(β10 ) < tn−1,α/2 )


 
βb0 − β 0
= P −tn−1,α/2 < h 1 i11/2 < tn−1,α/2 
 
V(βb10 )
 
 βb10 − β10 
= P −tn−1,α/2 < h

1/2
< tn−1,α/2

e2
i 
σ 1
∑ni=1 xi2
1/2 1/2 !
e12 e12
 
σ σ
= P −tn−1,α/2 < βb10 − β10 < tn−1,α/2
∑ni=1 xi2 ∑ni=1 xi2
2 1/2 2 1/2
  !
0 σ
e 1 0 0 σ
e 1
= P βb1 − tn−1,α/2 n 2 < β1 < βb1 + tn−1,α/2 n 2 = 1−α .
∑i=1 xi ∑i=1 xi

5
Portanto, o intervalo de conança para β10 a um nível de conança de 1 − α é

2 1/2 2 1/2
"   #
σ σ
βb10 − tn−1,α/2 n 1 2 ; βb10 + tn−1,α/2 n 1 2
e e
.
∑i=1 xi ∑i=1 xi
Considerando β0 e β1 desconhecidos, vamos encontrar o estimador do vetor β0 através da derivada

n
∂ D(β0 , β1 )
= 2 ∑ (yi − β0 − β1 xi )(−1)
∂ β0 i=1
n
= 2 ∑ (−yi + β0 + β1 xi ) .
i=1

Fazendo
n
∂ D(β1 )
=0 −→ 2 ∑ (−yi + βb0 + βb1 xi ) = 0
∂ β0 i=1
n n
− ∑ yi + nβb0 + βb1 ∑ xi = 0
i=1 i=1

Logo
n ∑ni=1 Yi xi − (∑ni=1 Yi ) (∑ni=1 xi )
β0 = Y − β1 x em que segue β1 =
b b b
n ∑ni=1 xi2 − (∑ni=1 xi )2
Vamos usar o Exercício 4(b) como resultado, tal que
1 n 2 .. No entanto E(χ 2 ) = n − 2. Logo
(y − βb0 − βb1 )2 ∼ χn−2
σ 2 ∑i=1 i n−2

!
1 n
E 2 ∑ (yi − βb0 − βb1 )2 = n−2
σ i=1
!
n
1
E ∑ (yi − βb0 − βb1 )2 = σ2
n − 2 i=1
| {z }
b22
σ

1 n
e22 =
σ ∑ (yi − βb0 − βb1)2
n − 2 i=1

onde σe22 é o estimador não viesado para σ 2 quando β1 e β2 são desconhecidos.


A variância de βb1 é

!
n ∑ni=1 Yi xi − (∑ni=1 Yi ) (∑ni=1 xi )
V(βb1 ) = V
n ∑ni=1 xi2 − (∑ni=1 xi )2
!2 " ! ! !!#
n n n
1
= V n ∑ Yi xi − V ∑ Yi ∑ xi
n ∑ni=1 xi2 − (∑ni=1 xi )2 i=1 i=1 i=1
!2  ! !2 !
n n n
1  n2 ∑ xi2 V(Yi ) −
= n n 2 ∑ xi V ∑ Yi 
2
n ∑i=1 xi − (∑i=1 xi ) i=1 i=1 i=1

6
!2  ! !2 !
n n n
1  n2 ∑ xi2 σ
V(βb1 ) = 2
e 2 − ∑ xi ∑ V(Yi) 
n 2 n
n ∑i=1 xi − (∑i=1 xi ) i=1 i=1 i=1
!2  ! !2 
n n
1  n2 ∑ xi2 σ
e 2 − ∑ xi e2 

= 2
n σ
n ∑ni=1 xi2 − (∑ni=1 xi ) i=1 i=1
!2  !2 
2 n n e22
nσe2 n ∑ xi2 − ∑ xi  = nσ nσe22
= = .
n ∑ni=1 xi2 − (∑ni=1 xi )2 i=1 i=1 n ∑ni=1 xi2 − (∑ni=1 xi )2 Sxx

e a variância βb0

σ 2 nσ 2 
1 nx 2
2 e 2 2 e2 2
V(βb0 ) = V(Y − βb1 x) = V(Y ) + x V(βb1 ) = +x =σ
e2 +
n Sxx n Sxx
Sejam

βb0 − β0 βb1 − β1
Q(β0 ) =   ∼ tn−2 e Q(β1 ) =   ∼ tn−2 .
σe22 1/n + nx2 /Sxx 1/2 e22 /Sxx 1/2

Logo, o intervalo de conança para β0 é dado por

P(−tn−2,α/2 < Q(β0 ) < tn−2,α/2 )


!
βb0 − β0
= P −tn−2,α/2 <  1/2 < tn−2,α/2
2 2
σ2 1/n + nx /Sxx
e
!
βb0 − β0
= P −tn−2,α/2 <  1/2 < tn−2,α/2
σe22 1/n + nx2 /Sxx
 1/2 b 1/2 
P −tn−2,α/2 σe22 1/n + nx2 /Sxx < β0 − β0 < tn−2,α/2 σe22 1/n + nx2 /Sxx
 
=
  2 1/2 1/2 
e2 1/n + nx2 /Sxx
 2
= P βb0 − tn−2,α/2 σ e2 1/n + nx2 /Sxx
< β0 < βb0 + tn−2,α/2 σ = 1−α .

Portanto, o intervalo para β0 a um nível de conança de 1 − α é


h 1/2 b 1/2 i
βb0 − tn−2,α/2 σe22 1/n + nx2 /Sxx
 2
e2 1/n + nx2 /Sxx

; β0 + tn−2,α/2 σ .
O intervalo de conança para β1 é dado por

P(−tn−2,α/2 < Q(β1 ) < tn−2,α/2 )


!
βb1 − β1
= P −tn−2,α/2 <  1/2 < tn−2,α/2
nσe22 /Sxx
!
βb1 − β1
= P −tn−2,α/2 <  1/2 < tn−2,α/2
nσe22 /Sxx
  2 1/2 b  2 1/2 
= P −tn−2,α/2 nσ e2 /Sxx < β1 − β1 < tn−2,α/2 nσ e2 /Sxx
 1/2 1/2 
P βb1 − tn−2,α/2 nσe22 /Sxx < β1 < βb1 + tn−2,α/2 nσe22 /Sxx
 
= = 1−α .

7
Portanto, o intervalo de conança para β1 a um nível de conança de 1 − α é
h  2 1/2 b 1/2 i
; β1 + tn−2,α/2 nσe22 /Sxx

βb1 − tn−2,α/2 nσ
e2 /Sxx .
Para comparar os intervalos de conança quando β0 é conhecido e desconhecido, vamos obter o
comprimento do intervalo para cada caso.
O comprimento do intervalo de β1 quando β0 é conhecido:

 " #1/2 " #1/2 


n n
e12 / ∑ xi2
`β10 = βb1 + tn−1,α/2 σ − βb1 + tn−1,α/2 e12 / ∑ xi2
σ 
i=1 i=1
" #1/2
n
e12 / ∑ xi2
= 2tn−1,α/2 σ
i=1

e o comprimento do intervalo de β1 quando β0 é desconhecido é

" 1/2 1/2 #


e22 n σe22 n
 
σ
`β100 = βb1 + tn−2,α/2 − βb1 + tn−2,α/2
Sxx Sxx
1/2 " #1/2
e22 n e22 n

σ σ
= 2tn−2,α/2 = 2tn−2,α/2
Sxx n ∑ni=1 xi2 − (∑ni=1 xi )2

Fazendo:
i1/2
σe12
h #1/2
2tn−1,α/2
"
`β10 n x2
∑i=1 i e12 n ∑ni=1 xi2 − (∑ni=1 xi )2
tn−1,α/2 σ
= = <1
e22 n ∑ni=1 xi2
`β100  1/2 tn−2,α/2 σ
e22 n
σ
2tn−2,α/2 2
n ∑ni=1 xi2 −(∑ni=1 xi )

Note que `β10 < `β100 . Isso signica que intervalo de conança do comprimento `β10 é mais preciso que
o intervalo do comprimento `β100 . Portanto, o primeiro modelo, quando β0 é conhecido, é o melhor
(parcimonioso) com relação ao modelo de β0 desconhecido.
Exercício 4. Seja D(α,
e β2 ) = ∑ni=1 (Yi − α − β2ti )2 a função desvio para o modelo de regressão linear
simples centralizado.
(a) Encontre a matriz de derivadas parciais de ordem 2 de D(α,
e β2 ) e mostre que a mesma é positiva
denida se St = ∑ni=1 ti2 > 0. Que conclusão você pode tirar deste resultado sobre a existência
do estimadores de máxima verossimilhança de α e β .

(b) Encontre a distribuição de σ12 D(


e αb , βb2 ) onde α
b e βb2 são os estimadores de verossimilhança de α
e β2 , sob a hipótese de normalidade e independência das observações.
Resolução (a): A matriz de derivadas parciais de é denida como

∂ 2 D(α, ∂ 2 D(α,
 
e β2 ) e β2 )
2
e =  2 ∂α ∂ α∂ β2 

D 2

 ∂ D(α,
e β2 ) ∂ D(α,
e β2 ) 
∂ β2 ∂ α ∂ β22

8
em que D(α,
e β2 ) = ∑ni=1 (Yi − α − β2ti )2 . Logo

n n
∂ D(α,
e β2 )
= 2 ∑ (Yi − α − β2ti )(−1) = −2 ∑ (Yi − α − β2ti )
∂α i=1 i=1
∂ 2 D(α,
e β2 )
2
= 2n
∂α
n n
∂ D(α,
e β2 )
= 2 ∑ (Yi − α − β2ti )(−ti ) = −2 ∑ (Yiti − αti − β2ti2 )
∂ β2 i=1 i=1
n
∂ 2 D(α,
e β2 )
= 2 ∑ ti2 .
∂ β22 i=1
2 n
∂ D(α, β2 )
e ∂ 2 D(α
e 2 , β2 )
= = 2 ∑ ti = 0
∂ α∂ β2 ∂ β2 ∂ α i=1

Assim  
e= 2n 0
D i=1 2 .
0 2 ∑n ti
Observe que D e é simétrica e diagonal. Os autovalores de uma matriz diagonal são os elementos da
diagonal principal. Portanto, os autovalores de De são λ1 = 2n e λ2 = 2 ∑i=1
n ti que são positivos. Logo
2
e é positiva denida se todos os autovalores forem positivos, isto é, se ∑n t 2 > 0.
D i=1
i
Como a matriz D é positiva denida, logo D(α, β2 ) possui um mínimo, ou seja, α
e b e βb2 serão os
estimadores de Máxima Verossimilhança.
Resolução (b):
Seja Yi ∼ N(µ, σ 2 ), onde podemos padronizar Yi tal que
 
Yi − µi
Zi = ∼ N(0, 1)
σ
onde µi = α + β xi . Sabendo que Zi2 ∼ χ12 , onde ∀n ∈ N temos ∑ni=1 Zi2 ∼ χn2 , no qual n corresponde
aos graus de liberdade para distribuição χ 2 . No entanto, como visto anteriormente no Exercício 3
(mudando a notação βb1 para βb2 ), α
b ∼ N(α, σ 2 /n), tal que
 
b −α
α
Zj = √ ∼ N(0, 1)
σ/ n

em que Z 2j ∼ χ12 . Para βb2 ∼ N(β2 , σ 2 /St ) segue que


!
βb2 − β2
Zk = √ ∼ N(0, 1)
σ / St

portanto Zk2 ∼ χ12 .


Desenvolvendo o termo a seguir:

9
n n
∑ (Yi − α − β2ti)2 = ∑ ((Yi − αb − βb2ti) + (αb − α) + (βb2 − β2)ti)2
i=1 i=1
n
= ∑ ((Yi − αb − βb2ti)2 + 2(Yi − αb − βb2ti)((αb − α) + (βb2 − β2)ti) + ((αb − α) + (βb2 − β2)ti)2
i=1
n n h i
2
b − β2ti ) + 2 ∑ (Yi − α
= ∑ (Yi − α b b − β2ti )((α
b b − α) + (β2 − β2 )ti )
b
i=1 i=1
n
h i2
+ ∑ (α − α) + (β2 − β2 )ti
b b
i=1
n h n i
2
= ∑ (Yi − α − β2ti ) + 2 ∑ (Yi − α − β2ti )((α − α) + (β2 − β2 )ti )
b b b b b b
i=1 i=1
| {z }
(1)
n h i2
+ ∑ (αb − α) + (βb2 − β2 )ti
i=1
| {z }
(2)

Desenvolvendo o termo (1):


n
h i n
(Y
∑ i − α
b − β
b t
2i )((αb − α) + (βb2 − β )t
2 i ) = ∑ ri((αb − α) + (βb2 − β2)ti)
i=1 i=1
n n
b − α) ∑ ri + (βb2 − β2 ) ∑ riti = 0 ,
= (α
i=1 i=1

onde ∑ni=1 ri = ∑ni=1 riti = 0.


Desenvolvendo (2)

nh i2 h n i
2 b2 − β2 )ti + (βb2 − β2 )2t 2
∑ (αb − α) + (βb2 − β2 )ti = ∑ (αb − α) + 2(αb − α)(β i
i=1 i=1
n n
b − α)2 + 2(α
= n(α b − α)(βb2 − β2 ) ∑ ti + (βb2 − β2 )2 ∑ ti2
i=1 i=1
b − α)2 + (βb2 − β2 )2 St
= n(α

onde ∑ni=1 ti = 0.
Portanto,

n n
∑ (Yi − α − β2ti)2 = ∑ (Yi − αb − βb2ti)2 + n(αb − α)2 + (βb2 − β2)2St
i=1 i=1
n
∑i=1 (Yi − α − β2ti )2
∑ni=1 (Yi − α
b − βb2ti )2 b − α)2 (βb2 − β2 )2 St
n(α
= + +
σ2 σ2 σ2 σ2
!2  !2
b −α 2
n  2 n 
Yi − α − β2ti Yi − α
b − βb2ti α βb2 − β2
∑ =∑ + √ + √
i=1 σ i=1 σ σ/ n σ / St

10
!2 2 2 !2
n n  
Yi − α
b − βb2ti Yi − α − β2ti b −α
α βb2 − β2
∑ =∑ − √ − √
i=1 σ i=1 σ σ/ n σ / St
∼ χn2 − χ12 − χ12 = χn−2 2
2

pois, (Ri , α
b ) e (Ri , βb2 ) são normais independentes.(ver Exercício 5). Logo

1 n
D(
e α b − βb2ti )2 ∼ χn−2
b , βb2 ) = 2 ∑ (Yi − α 2
.
σ i=1

Seja o modelo yi = β0 + β2 xi com β0 conhecido. Vamos encontrar a distribuição de 1 e


σ2
D(β0 , βb2 ),
a partir do termo abaixo:

n n n
∑ (Yi − β0 − β2xi)2 = ∑ (Yi − β0 − βb2xi)2 + n(β0 − β0)2 + (βb2 − β2)2 ∑ xi2
i=1 i=1 i=1
n
∑i=1 (Yi − β0 − β2 xi )2
∑ni=1 (Yi − β0 − βb2 xi )2 (βb2 − β2 )2 ∑ni=1 xi2
= +
σ2 σ2 σ2
!2  2
n  2 n
Yi − β0 − β2 xi Yi − β0 − β2 xi
b β2 − β2 
b
∑ =∑ + q
i=1 σ i=1 σ σ / ∑ni=1 xi2

!2  2
n n  2
Yi − β0 − βb2 xi Yi − β0 − β2 xi β2 − β2 
b
∑ =∑ − q
i=1 σ i=1 σ σ / ∑ni=1 xi2
∼ χn2 − χ12 = χn−1
2
2

Exercício 5. Mostre que, sob a hipótese de normalidade e independência das observações, a distri-
buição dos resíduos ri = yi − α
b − βb2ti , i = 1, . . . , n é normal n−multivariada Nn (µ, Σ). Ache µ e Σ e
prove que quando n aumenta as correlações dos resíduos diminuem. Qual a aplicação prática deste
resultado?

Resolução:
Sob a hipótese de normalidade e independência das observações Yi , Yi ∼ Normal(µi , σ 2 ) e o vetor
µ , Σ). Como α
Y = (Y1 ,Y2 , . . . ,Yn ) ∼ Nn (µ b e βb2 são combinações lineares das variáveis Y1 , . . . ,Yn e,
portanto, são conjuntamente normalmente distribuídos, em que

1 1 1 1 1
b ) = E(Y ) = E(∑ Yi ) = ∑ E(Yi ) = ∑ E (α + β2ti ) = ∑ E(α) + β2 ∑ ti = nα + β2 ∑ ti = α
E(α
n i n i n i n i i n i

e
1 1 1 2 1 2 σ2
b) =
V(α V(∑ Yi ) = ∑ V(Yi ) = ∑ σ = nσ =
n2 i n2 i n2 i n2 n

11
que corresponde respectivamente a esperança e a variância do estimador α b . No entanto αb ∼ Normal(α, σ 2 /n).
Os estimadores α b e βb2 são encontrados na vericação que está no Exercício 2. A esperança e a variância
do estimador βb2 são respectivamente
  !
∑ Y
i iit 1 1 1 1
E(βb2 ) = E = E(∑ Yiti ) = ∑ ti E(Yi ) = ∑ ti E (α + β2ti ) = α ∑ ti + β2 ∑ ti2 = β2
St St i St i St i St i i

e
1 1 2 1 2 σ2
V(βb2 ) = Y t ) = t ) = S = .
(St )2 ∑ (St )2 ∑
V( i i i V(Yi t σ
i i (St )2 St

onde St = ∑ni=1 ti2 . Assim βb2 ∼ Normal(β2 , σ 2 /St ) . A covariância entre α b e βb2 é dada por
 
∑i Yiti ∑ ti C(Yi ,Yi ) ∑i ti V(Yi ) ∑ ti
C(α b , β2 ) = C Y ,
b = i = = σ2 i = 0
St St St St

logo α
b e βb2 são independentes. Seja Ri = Yi − α
b − βb2ti , vamos vericar a covariância de Ri e α
b:

b ) = C(Yi − α
C(Ri , α b − βb2ti , α
b ) = C(Yi , αb ) − C(α b ) − ti C(βb2 , α
b, α b ) = C(Yi ,Y ) − V(αb ) − ti C(βb2 , α
b)
1 1 σ 2 σ 2
= C(Yi ,Yi ) − V(αb ) − ti C(βb2 , α
b ) = V(Yi ) − V(α b ) − ti C(βb2 , α
b) = − −0 = 0 2
n n n n

e a covariância entre Ri e βb2 :


∑ Yt
C(Ri , βb2 ) = C(Yi − αb − βb2ti , βb2 ) = C(Yi , βb2 ) − C(αb , βb2 ) − ti C(βb2 , βb2 ) = C(Yi , i i i ) − 0 − ti V(βb2 )
St
ti σ 2 ti σ 2 σ 2 σ 2
= C(Yi ,Yi ) − ti = V(Yi ) − ti = ti − ti =0 2
St St St St St St
Como as variáveis tem distribuição conjunta normal, a correlação zero implica em independência.
Assim, para cada i = 1, . . . , n; Ri e (α
b , βb2 ) são independentes.
Fazendo Yi = Ri + αb + βb2ti , pela independência temos

b + βb2ti ) = σ 2
V(Yi ) = V(Ri + α → b ) + V(βb2ti ) = σ 2
V(Ri ) + V(α

V(Ri ) = σ 2 − V(α
b ) − ti2 V(βb2 ) = σ 2 − σ 2 /n − ti2 σ 2 /St = σ 2 1 − 1/n − ti2 /St


V(Ri ) = σ 2 1 − 1/n − ti2 /St 2


E esperança E(Ri ) = E(Yi − α b − βb2ti = α − β2ti − (α − β2ti ) = 0.


b − βb2ti ) = E(Yi ) − α
Como Ri é uma combinação linear das observações temos Ri ∼ N(0, σ 2 1 − 1/n − ti2 /St ), com


covariância:

C(Ri , R j ) = C(Ri ,Y j − α
b − βb2t j )
= C(Ri ,Y j ) − C(Ri , α
b ) − C(Ri , βb2t j )
= C(Yi − αb − βb2ti ,Y j ) − 0 − 0
= C(Yi ,Y j ) − C(α
b ,Y j ) − C(βb2ti ,Y j )
σ 2 tit j 2
 
2 ti t j 2 1 tit j
= 0 − (σ /n) − V(Y j ) = − − σ = −σ +
St n St n St

12
logo o vetor R = (R1 , R2 , . . . , Rn ) não são independentes, porém R ∼ Nn (µ
µ , Σr ), onde

     

0
 1 − 1/n − t12 /St − 1n + t1Stt2 ··· − 1
+ t1Sttn
   n  
t2 t1
1
− n + St 1 − 1/n − t22 /St ··· − 1n + t2Sttn
 
 0 
e 2
 
µ = .. Σr = σ  .
 
.
 .. .. ... ..
.  . .
  
 
  
0
 
− n1 + tnStt1 − n1 + tnStt2 · · · 1 − 1/n − tn2 /St

A correlação entre Ri e R j é


C(Ri , R j ) − 1/n + tit j /St
ρbi, j = 1/2 = h i1/2
[V(Ri )]1/2 V(R j )
 
1 − 1/n − ti2 /St 1 − 1/n − t 2j /St

o que indica que os resíduos são autocorrelacionados, onde 0 ≤ ρbi, j ≤ 1 . Além disso, a matriz de
covariância Σr não tem inversa, portanto e Ri segue distribuição normal degenerada.
Quando n 7→ ∞, temos St 7→ ∞, logo ρbi, j 7→ 0. Na prática, para uma amostra de tamanho grande,
os resíduos Ri são independentes.
(0) (0)
Exercício 6. Considere o seguinte teste de hipóteses sobre β2 : H0 : β2 = β2 contra HA : β2 6= β2 .
(0)
βb2 −β2
(a) Mostre que sob H0 , t(y) = tem uma distribuição t -student com n − 2 graus de liberdade.
s.e(βb2 )

(0)
(b) Baseado no resultado obtido em (a), descreva o procedimento para se testar H0 : β2 = β2 contra
(0)
6 β2 .
HA : β2 =

σ2
Resolução (a): Pelo Exercício 5 a V(βb2 ) = St e como

βb2 ∼ N(β2 , σ 2 /St ) .

Portanto,
βb2 − β2
Z= q ∼ N(0, 1) .
σ2
St

Do Exercício 4(b) temos


1 e 2
V= b , βb2 ) ∼ χn−2
D(α .
σ2
Se Z e V são independetes, então √Z ∼ tk , onde k é os graus de liberdade. Como βb2 e Ri são
V /k
combinações de Z e V respectivamente, logo pelo exercício 5 temos C(Ri , βb2 ) = 0, então V e Z são
independentes. Assim, temos que q
(0) σ2
β2 − β2
b 1/ St
× q
2
s.e(β2 )
b
1/ σSt
D( b ,βb2 )
onde s.e(βb2 ) = , em que σ é obtido através de:
f2 = e α
√σ
e
St n−2

13
2
E(χn−2 ) = n−2
 
1 e
E b , βb2 ) = n − 2
D(α
σ2
!
D( b , βb2 )
e α
E = σ2
n−2

Então,

D(
e αb , βb2 )
σe 2 = .
n−2

onde σe 2 é um estimador não tendencioso para σ 2 .


Portanto,
  q 2
(0)
β2 − β2 / σSt
b

√σ
e √σ
/ S
St t
  q 2
(0)
βb2 − β2 / σSt
q ∼ tn−2 2
1 D(
e αb ,βb2 )
σ 2 n−2
Resolução (b): Consideremos como estatística de teste
  q 2
(0)
βb2 − β2 / σSt
T= q
1 D( b ,βb2 )
e α
σ 2 n−2
A distribuição de T supondo que H0 é verdadeira é, é t de Student com n − 2 graus de liberdade e,
com este resultado, podemos calcular a probabilidade de erro do tipo I para uma determinada regra
de decisão baseada em T . Para uma hipótese alternativa
(0)
HA : β2 6= β2

podemos rejeitar H0 , por exemplo, para grandes valores de |T |, o que signica encontrar um valor
crítico c e denir a regra de decisão por Rejeitar H0 se e somente se |T | > c. Denotando por tn−2 uma
variável aleatória com distribuição t de Student com n − 2 graus de liberdade, vemos então que, para
um teste de nível de conabilidade α , c deve ser escolhido de tal maneira que

P(|T | > c) = P(|tn−2 | > c) = α

de modo que c = tn−2,α/2 .2

14

Das könnte Ihnen auch gefallen