Beruflich Dokumente
Kultur Dokumente
1
1. Introdução ao Modelo de Regressão .............................................................................. 1
2. Exemplos de Modelos Lineares ..................................................................................... 2
3. Derivação dos Mínimos Quadrados no Modelo de Regressão ...................................... 6
4. A Natureza Probabilística do Modelo de Regressão...................................................... 9
5. Propriedades Estatísticas dos Estimadores................................................................... 13
6. Critérios de Avaliação dos Estimadores....................................................................... 14
7. Obtenção da Média e o Desvio Padrão dos Melhores Estimadores Lineares Não
Tendenciosos ou “Best Linear Unbiased Estimators” (BLUEs) .......................................... 16
8. Aplicação de Testes de Hipóteses e Intervalos de Confiança aos EstimadoresErro!
Indicador não definido.
9. O Coeficiente de Ajustamento ou Determinação: Erro! Indicador não definido.
10. Interpretação da Variação em Y em termos da Análise de VariânciaErro! Indicador
não definido.
11. O Modelo de Regressão Múltipla......................... Erro! Indicador não definido.
12. Considerações Adicionais: a Correlação Parcial.................................................34
13. Teste de Chow: um Teste para a Estabilidade Estrutural dos Modelos ................36
14. O Modelo de Regressão Múltipla com Variáveis Explanatórias Estocásticas......36
15. Violação dos Pressupostos Básicos do Modelo de Regressão Clássico..............37
16. O Problema da Multicolinearidade .....................................................................38
17. O Problema de Heteroscedasticidade..................................................................40
18. O Problema da Correlação Serial ......................... Erro! Indicador não definido.
19. A Previsão com o Modelo de Regressão.............. Erro! Indicador não definido.
Para esses dois tipos de informação é possível estabelecer relações que descrevem as
situações observadas por meio de modelos de regressão.
1
Tome-se por hipótese que exista a relação linear li entre X e Y. No diagrama de
dispersão da Figura 2 são representadas as linhas l1 e l2 que se procurou ajustar ao conjunto de
pares ordenados (X, Y) do conjunto amostral, assim como os desvios (positivos e negativos)
em relação a l2 .
2
Modelo
∗ Tendência inexistente, ou constante Tt = β0
horizontal
Tt = β0 + β1t + β2v,
t t
Variáveis “dummies”
1 se t é o período sazonal 2
X S2,t = 0 senão
3
Observa-se que o período sazonal L corresponde ao período base da representação de St
(poderia ser outro qualquer, definindo-o a priori).
Seja o modelo:
y 1
• y=e a+bx
⇒ logey = (a + bx) logee ⇒ y = a + bx (transformação
linear).
t
Figura 4- Gráfico da curva do aprendizado
• Modelo recíproco
1 1
Y= ⇒ = a + bx ⇒ y=a+bx (transformação linear)
a + bx Y
• Modelo semilogarítmico
v
Da mesma forma:
Y = α0 + α1 x12 + α2 log x2 ⇒ Y = α0 + α1 V1 + α2 V2
V1 V2
Y = α0 x1α1 x2α2
Esta equação é não linear nos coeficientes, mas linearizável, por meio de aplicação
de logaritmos.
4
Seja o exemplo das vendas de um produto introduzido no mercado e com vendas,
posteriormente, em expansão. Esta situação é típica do modelo que representa a curva do
aprendizado do tipo Y = ea – (b/t), pois observa-se o começo lento, crescimento forte e período
de saturação (Figura 5).
Dados
tempo(t) vendas(Y) 1/t Loge(vendas)
1 0.023 1 -3.77226
2 0.157 0.5 -1.851151
3 0.329
4 0.48
5 1.205
6 1.748
7 1.996
8 2.509
9 2.366
10 2.94
11 2.8714
12 2.9346
13 3.1346
14 3.24
Y = e1,478 – (5,786/t) 15 3.148
16 3.522
Resultados do ajuste do modelo ao 17 3.54
18 3.31
conjunto de observações: 19 3.547
20 3.374
Parâmetros (a) 20.7867 21 3.3745
22 3.401
(b) -21.0389 23 3.6971
24 3.493
R2 = 0.953, Fteste = 442.6
Situações-Exemplo:
Yt = β1 + β2 x2t + β3t + εt, sendo que o termo β3t modela o efeito líquido de
conjunto de variáveis excluídas. O efeito da inclusão desse termo é estatístico.
5
3. Derivação dos Mínimos Quadrados no Modelo de Regressão
Y = a + bX
⇓ ⇓
Variável dependente Variável independente
N
Busca-se obter Min ∑ (Yi − a − bX i ) 2 ou seja, a minimização do somatório dos N
i =1
∂b
6
(I) ∗ ∑ Xi ⇒ equações ⇒ (∗∑Xi) ∑Yi = (∗∑Xi) (a N + b ∑Xi)
“intercepto”
∑ Yi ∑ Xi
a= −b
N N
“constante”
Y X
Se Y = X = 0 isto significa a = 0, e
X Y
(∑ X i Yi /N)
Tomando-se a situação onde X = Y = 0 ⇒ b = .
(∑ X i2 /N)
Esses resultados sugerem a conveniência de escrever a estimativa de mínimos
quadrados por meio de variáveis que representam desvios em relação às médias, sejam
essas nulas ou não. Dessa forma, deve-se obter a transformação: xi = Xi - X e yi = Yi - Y ,
Σx i
pois x = = 0 = y (são nulas as médias das variáveis que correspondem à uma
N
transformação de defasagem em relação às médias das variáveis originais, pois:
∑(X i − X) ∑ X i NX
x= = − = 0 ).
N N N
7
Σx i y i
b=
Σx i2
a = Y − bX
dY
b→ razão da variação (marginal) em Y com a variação em X.
dX
Y X ∑xi = 0
4.0 21.0 ∑yi = 0
3.0 15.0
∑xiyi = 19.50
3.5 15.0
2.0 9.0 ∑xi2 = 162.00
3.0 12.0 Σx i y i
b= = 0,120
3.5 18.0 Σx i2
2.5 6.0
2.5 12.0 a = 1,375
Ŷ = 1,375 + 0,12 X
Calcula-se: X = 13.5 e Y = 3.0 (R2 = 0.77; F1,6 = 21.2)
8
Regressão transformada
Figura 7- Exemplo do ajustamento da linha de regressão e da linha de regressão
transformada
Exercício (casa)
9
X Y
observados
εi
Figura 8- Relação entre amostra de renda dos indivíduos e seus gastos com
alimentação
Yi = α + β Xi + εi “TRUE MODEL”
variável (população)
aleatória erro aleatório
“Fixados”
(omissão de variáveis explicativas)
(distribuição de (erro de coleta de dados)
probabilidade)
10
Assim, são pressupostos básicos do modelo clássico de regressão linear a duas
variáveis:
constante α`
11
Variância decresce ou cresce (heteroscedasticidade)
Figura 11- Exemplos de heteroscedasticidade
E (Xi εi) = Xi E (εi) = 0, ou seja: erro aleatório não correlacionado com Xi, onde
Xi`s são valores fixados.
12
(iii) (a`) Y → E (Yi) = α + βX
Assume-se que:
variáveis aleatórias ou seja, tem E ( α̂ ), VAR( α̂ ), E ( β̂ ) e VAR ( β̂ ) (Figura 13). Para que
se possa entender melhor este ponto supõe-se que se tenha N valores fixados de Xi, em
uma determinada amostra (A1), de forma que se tenha Yi valores associados a esses N
β / (β̂)
E (β̂) e VAR (β̂) ,
população Yi
A1 A2 Yi ↔ Xi
N
X1
13
Toma-se outra amostra de pares de valores Xi e Yi, obtendo novos N valores de Yi
associados aos N valores de Xi, com os quais estima-se um novo β → (β̂) . Note-se que os
εi`s são diferentes, sempre. Com esse procedimento, pode-se obter uma distribuição de
∑ x i yi
estimativas de β (β̂) , sendo: β̂ = com respectivos valor esperado e variância, aos
∑ x i2
∑ Xi
Quando N → número grande, é estimador não-viesado da verdadeira média
N
∑ (X i − X)
2
da população. Da mesma forma, observa-se que: é estimador não-viesado da
N −1
verdadeira variância da população, em cujo denominador tem-se N-1, pois X foi fixado
para estabelecer os desvios.
2) Eficiência
14
β̂ é um estimador não-viesado eficiente se a VAR (β̂) é menor que a variância de
qualquer outro estimador não-viesado.
Maior eficiência implica que são mais fortes as afirmações estatísticas sobre os
estimadores. Quando a variância é igual a zero (0), isto implica que se está tratando do
parâmetro verdadeiro da regressão.
MSE (β̂) = E (β̂ - β) 2 = E [ (β̂ - β̂ ) + ( β̂ − β)] 2 = ... = VAR (β̂) + [viés (β̂) ]2, sendo
E (β̂) = β̂ .
4) Consistência
Este critério diz respeito a quando o tamanho da amostra N tender a ser grande
(Figura 15) verificar-se propriedades assintóticas, definidas pelo limite em probabilidade
de β̂ ou p lim β̂ :
N→∞
δ > 0, pequeno
Prob β̂
N muito grande
Pequeno N
β β̂
15
grande. Como exemplo, usa-se N no denominador para obter estimador da variância
(X i − X) 2
populacional, de forma a ter ∑ como um estimador viesado mas consistente da
N
variância populacional (base das estimações robustas).
Assim:
Obtém-se:
16
E (β̂) = ∑ ciβx i + ∑ ci E(ε i )
⎡ x ⎤
onde ∑ ci x i = ∑ ⎢ i 2 ⎥ x i =1 (II)
⎣ ∑ xi ⎦
De modo similar:
VAR (β̂) = E ( β̂ - β) 2
β̂ - β
Observa-se que β̂ - β = ∑ ciβx i + ∑ ci ε i − β = ( ∑ c i x i − 1) β + ∑ c i ε i
β̂ - β = ∑ ci ε i , sendo ( β̂ - β )2 = ( ∑ ci ε i )2
∴ VAR (β̂) = E ( β̂ - β )2 = E [ ∑ ci ε i ]2
2
∑ xi 1
Ora, ∑ci2 = 2 2
= 2
, logo:
(∑ x i ) ∑ xi
E (α̂) = α
17
⎡ ∑ X i2
2 ⎤
VAR (α̂) = σ ⎢ 2 ⎥
⎣ N ∑(X i − X) ⎦
− Xσ 2
COV ( α̂, β̂ ) =
∑ x i2
implica que os testes de hipótese são válidos para β̂ . Além disso, observa-se que, de
acordo com o Teorema do Limite Central, se o tamanho da amostra cresce, a distribuição
da média amostral de uma variável independentemente distribuída tende para a
normalidade. Com isso pode-se afirmar que, mesmo no caso dos yi não serem
normalmente distribuídos, a distribuição de β̂ é, ainda assim, assintóticamente normal.
⎡ σ2 ⎤
β̂ ~ N ⎢β, 2 ⎥
, de onde extrai-se o critério amostral: maior variância na amostra
⎣ ∑ xi ⎦
⎡ 2 ∑ Xi ⎤
2
α̂ ~ N ⎢α, σ 2 ⎥
, cuja variância reduz-se a σ2/N se X = 0 na amostra.
⎣ N ∑ xi ⎦
Xσ 2
COV (α̂, β̂) = − , onde se observa que, se X > 0, superestimar α̂ corresponde
∑ x i2
a subestimar β̂ e vice-versa.
18
Em geral estabelece-se a hipótese nula ou seja, de que o efeito não está presente. Para o
modelo ser explicativo, a hipótese nula deve ser rejeitada. Ao associar-se ao conjunto
amostral um modelo de regressão, é objetivo analisar os dados de forma a testar o modelo
ajustado e avaliar a adequação de novos modelos. Desta forma, realizam-se os testes de
hipóteses, tendo resultados que podem levar a uma seqüência de testes de modelos. Ou
seja:
β̂ − β β̂ − β
tN-2 = = , com a qual se obtém a padronização do valor estimado
Sβ̂ S/( ∑ x i2 )1/2
β̂ .
-tc < tN-2 < tc , que tem (1-n.s.)% de probabilidade de conter o verdadeiro valor do
parâmetro, onde tc corresponde ao valor tabelado da estatística t de “Students” para um
nível de significância (n.s.) ou probabilidade (1-n.s.), com N-2 graus de liberdade (N é o
tamanho da amostra e 2 representa o número de estimadores).
19
Assim, seja por exemplo a probabilidade de 95% de que o valor padronizado
pertença ao intervalo de confiança:
Prob (- tc < tN-2 < tc) = 0,95 por exemplo, onde tc = 1,96, com N – 2 graus de
liberdade, N tendendo a um número grande.
⎡ β̂ − β ⎤
Prob ⎢− t c < < t c ⎥ = 0,95 significa que há 95% de probabilidade de
⎣⎢ S/( ∑ x i2 )1/2 ⎥⎦
S
que β está contido no intervalo entre β̂ ± tc = β̂ ± tc S β̂ .
(∑ x i2 )1/2
S (∑ X i2 )1/2
α̂ ± tc S α̂ = α̂ ± tc
(N ∑ x i2 )1/2
Ho = hipótese nula β = 0,
Hipótese alternativa β ≠ 0.
β̂ − β β̂
, se β = 0 ⇒ ≥ t c , sendo tc = 1,96, por exemplo.
Sβ̂ Sβ̂
1.96
condição de rejeição de Ho
β̂
Como regra prática: a 5% n.s., se > 2 → rejeito Ho.
Ŝβ
Deve ser remarcado que não rejeitar Ho não significa aceitá-la. O procedimento
de teste nos fala sobre a situação de rejeitar a hipótese nula (e aceitar a estimativa de β)
quando na verdade a hipótese nula é verdadeira em n.s. % das vezes.
Caso 1
20
Ct = β1 + β2 Yt + εt não há variação do tipo sazonal, logo não
há teste de hipótese para avaliar a
presença de sazonalidade.
Caso 2
1 0
guerra paz
E (Ct) = β1 + β2 E (Yt)
σ2 constante
ou teste: α=0, verifica se a
mudança é significativa entre
E (Ct) = (β1 + α) + β2 E (Yt) diferentes períodos.
Caso 3
Ct = β1 + β2 Yt + γ (Dt Yt) + εt
E (Ct) = β1 + β2 Yt
teste: γ=0, verifica se a
ou mudança é significativa e
altera a taxa de mudança em
E (Ct) = β1 + (β2 + γ) Yt Ct associada a Yt.
Caso 4
Os testes para α=0 e para
Ct = β1 + β2 Yt + α Dt + γ (Dt Yt) + εt
γ=0 avaliam se há mudança
significativa entre diferentes
períodos sazonais.
21
Grandes resíduos → ajuste ruim
Figura 16- Obtenção dos desvios entre a variável observada, a linha ajustada e o seu valor
médio
De forma que:
22
∑ (Yi − Y) = ∑ (Yi − Ŷi ) + ∑ (Ŷi − Y) + 2∑ (Yi − Ŷi )(Ŷi − Y)
2 2 2
⇓ ⇓ ⇓ ε̂ i ŷ i
Regressão
Erro
Total
ESS RSS
1= +
TSS TSS
23
Uma outra maneira de se obter R2 é mostrada a seguir. Seja:
y i = Yi − Y ; x i = X i − X
ŷ i = β̂x i
y i = ŷ i + ε̂ i ∑ y i = ∑ ŷ i + ∑ ε̂ i + 2∑ ŷ i ε̂ i
2 2 2
Resíduo da 2 ∑ β̂x i ε̂ i
regressão
⇓
2β̂ ∑ x i ε̂ i
⇓=0
2
∑ yi = β̂ 2 ∑ x i2 + ∑ ε̂ i2 + ( 2 β̂ 0 = 0 ), onde
β̂ 2 ∑ x i2 = ∑ y i2 - ∑ ε̂ i2 .
2 2
Lembrando que o coeficiente de ajustamento é função de ŷi e yi , ou seja, as
As medidas relativas a TSS, RSS e ESS devem ser convertidas em variâncias, por
sua divisão pelos graus de liberdade associados ao processo de sua obtenção. Assim,
TSS
Variância total em Y =
N −1
média
RSS
Variância explicada em Y =
1
24
Xi
ESS
Variância residual em Y =
N−2
α̂ , β̂ ou X, β̂
variância explicada
Define-se a relação de variâncias: , como uma boa
variância não − explicada
medida (complementar ao coeficiente de determinação) da qualidade do ajustamento,
permitindo que se avalie a existência de relação linear em Y e X. Essa medida permite que
se aplique o teste estatístico da equação de regressão. O teste da equação de regressão que
testa a existência de relação linear entre Y e X baseia-se na estatística F de “Snedecor”
associada à essa relação de variâncias.
S2
que segue a distribuição F com 1, N-2 graus de liberdade no numerador e no denominador,
respectivamente.
β̂ 2 ∑ x i2 RSS
F1, N-2 = 2
⇔ F1, N-2 = 0 → somente quando =0,
S 1
2
2∑ ε̂ i
onde S =
N-2
F1, N-2 pequenos
25
Os valores da distribuição F estão tabelados, onde se obtém valores de Fcrítico (Fc).
Dessa forma,
se F1, N-2 > Fc rejeito Ho
Tabela F1, N-2 → Fc
se F1, N-2 < Fc não posso rejeitar
n.s. %
1, N-2 graus de liberdade
onde X1i = 1
ii) X`s não-estocásticos. Não há relação linear exata entre os X`s (senão:
multicolinearidade).
iii) E (εi) = 0
E (εi)2 = σ2
E (εi . εj) = 0, i ≠ j
εi ~ N [0, σ2]
E (Yi)2 = σ2 σ̂ 2 = S 2
26
β̂1 = Y − β̂ 2 X 2 −β̂ 3 X 3
(∑ x 2i y i )(∑ x 3i ) − (∑ x 3i y i )(∑ x 2i x 3i )
2
β̂ 2 =
(∑ x 2i ) (∑ x 3i ) − (∑ x 2i x 3i ) 2
2 2
(∑ x 3i y i )(∑ x 2i ) − (∑ x 2i y i )(∑ x 2i x 3i )
2
β̂ 3 =
(∑ x 2i ) (∑ x 3i ) − (∑ x 2i x 3i ) 2
2 2
j = 1, ..., k
σ 2 ∑ x 3i2
k=3 =
∑x ∑x 2
2i
2
3i −(∑ x 2i x 3i ) 2
σ 2 ∑ x 22i
β̂ 2 = b 2 E[(b3 - β3)2] = ... =
∑x ∑x
2
2i
2
3i − (∑ x 2i x 3i ) 2
β̂ 3 = b3
σ 2 [∑ X 22i ∑ X 3i2 − (∑ X 2i X 3i ) 2
E[(b1 −β1 ) 2 ] = , sendo b1 = β̂1 .
N [∑ x 22i ∑ x 3i2 − (∑ x 2i x 3i ) 2 ]
− σ 2 ∑ x 2i x 3i
Cov (b2, b3) =
∑ x 22i ∑ x 3i2 − (∑ x 2i x 3i ) 2
27
∑ε̂ i2
ii) S2 = é uma estimativa consistente e não-viesada de σ2.
N−k
iii) Quando o erro é normalmente distribuído, testes t podem ser aplicados pois
os valores padronizados dos parâmetros βj seguem essa distribuição de probabilidade de
forma que:
β̂ j − β j
~ tN-k, j = 1, ..., k
Sβ̂j
Seja:
O coeficiente de ajustamento:
deve baixar R2
Além disso, o uso isolado do R2 tem valor limitado, pois pode ocorrer bom ajustamento
(leia-se aqui: bom R2) do modelo global porque variáveis independentes estão fortemente
correlacionadas entre si, com baixos valores de t e altos desvios padrão individuais.
28
Para avaliar a significância do R2 realiza-se o teste F k-1, N-k , com k-1 e N-k graus
de liberdade no numerador e denominador, respectivamente, representando o número de
variáveis independentes e o grau de variação não explicada. Para realizar o teste de
hipótese Fk-1, N-k, obtém-se:
R2 N − k
Fk-1, N-k =
1− R 2 k −1
S 2
=
∑ ε̂ 2
i
N−k
var(ε̂)
R2 = 1 -
var(Y)
∑ (Yi − Y)
2
N −1
Note-se que:
2
2
∑ ε̂ i S 2 (N − k)
R =1- é igual a 1 -
∑ (Yi − Y)
2
var(Y) (N - 1)
Variação total
N −1
R 2 = 1 – (1 – R2) (N>k), para a qual:
N−k
1. k = 1 ⇔ R2 = R 2
29
(c) Comparando Modelos de Regressão
S2
Var(ε̂) S2
R2 = 1 - -, onde (1 - R 2 ) = 2 e S2 = (1 - R 2 ) S 2Y .
Var(Y) SY
S 2Y
Para nortear essa resposta, deve ser destacado que R2 deve aumentar ao adicionar-
se uma variável explicativa pouco importante ao modelo, mas se esse aumento ocorrer com
um decréscimo em R 2 e um aumento em S2 (impacta a variância do erro de previsão;
significa perda de precisão do modelo de previsão), essa variável não deve constar da
formulação definitiva do modelo.
Y ↔ Xi ... Xn
30
Etapas:
Ŷ = â 1 + b̂1,1 X 1 → R 12
.
.
. Busca do maior R2:
Ŷ = â 2 + b̂1,2 X 2 → R 22 Ŷ = â + b̂1 X t
. b̂1 = b̂1, t do modelo com o maior R2
.
.
Ŷ = â n + b̂1,n X n → R 2n
Assim,
2) Modelos a 3 variáveis:
Estratégia:
“Troca-se” cada variável no modelo (Xt e Xp) com cada variável fora do modelo,
de forma a saber se haverá uma troca de variável (entre as dentro e as fora do
modelo) que irá melhorar o R2 do modelo.
Resultado:
3) Modelos a 4 variáveis:
31
Exercício 1 - Regressão
x t2
xt5 ≡ ≡ razão entre preços (alternativa a xt4).
x t1
v1 (⇒ linearizado) ...)
v2
Yt = βo + β1xt4 + β2xt3 + β3 x2t3 + β4 xt4xt3 + εt tem as seguintes estatísticas associadas:
1. ESS = 1,0644
⎡ k −1 ⎤ ⎡ N −1 ⎤
5. R 2 = ⎢R 2 − ⎥⎢ ⎥=
⎣ N − 1⎦ ⎣ N − k ⎦
⎡ 5 −1 ⎤ ⎡ 30 − 1 ⎤
= ⎢0,9029 − ⎥⎢ ⎥ = 0,9083
⎣ 30 − 1⎦ ⎣ 30 − 5 ⎦
N −1
O mesmo que R 2 =1 − (1 − R 2 ) N>k
N−k
v3
2
Adicionando-se a variável independente xt4 x t3
32
Yt = βo + β1xt4 + β2xt3 + β3 x2t3 + β4 xt4xt3 + β5 xt4 x2t3 + εt
12,4161
3. R2 (cresce) = = 0,9225
13,4586
ESS 1,0425
4. S2 (cresce) = = = 0,0434
N − np 30 − 6
5. R 2 = 0,8701
33
Exemplo: DATA (QUATERLY, 1954-1 até 1971-4, em US$)
mod I Ct = α1 + β1 yt + ε1t
Função de con.s.umo (Ct) mod II Ct = α2 + β2 yt + γ2Ct-1 + ε2t
St = α3 + β3Yt + ε3t
Abaixou em relação ao σ
R2 mod. I
Seja: Yi = β1 + β 2 X 2i + β 3 X 3i + ε i .
34
O coeficiente de correlação parcial entre Y e X2 mede o efeito de X2 em Y sem
levar em conta outra variável do modelo.
1. Regressão Y em X3 Ŷ = α̂ 1 + α̂ 2 X 3
2. Regressão X2 em X3 X̂ 2 = γ̂ 1 + γ̂ 2 X 3
3. Remover influência de X3 em Y e X2
Assim, obtém-se: Y* = Y – Ŷ
X2* = X2 - X̂ 2
rYX 2 .X 3
rYX 2 − rYX 3 . rX 2 X 3
rYX 2 rYX 2 .X 3 = , onde:
(1 − rX2 2 X 3 )1/2 (1 − rYX
2
3
)1/2
rX 2 .X3
R 2 − r 2 YX 3
2
rYX . =
2 X3
ou 1-R2 = (1 − r 2 YX3 ) (1 − r 2 YX 2 .X 3 )
1 − r YX 3
2
35
13. Teste de Chow: um Teste para a Estabilidade Estrutural dos Modelos
São pressupostos:
36
2. Cada variável explanatória é distribuída independente dos verdadeiros erros no
modelo.
erro de especificação
37
Nesse caso diz-se que os testes são aproximadamente válidos ou seja, são
válidos quando o tamanho da amostra N → ∞.
38
Entretanto na presença de multicolinearidade os parâmetros individuais não são
valores satisfatórios.
Uma outra regra prática, válida para o caso de duas variáveis independentes:
Considere-se o modelo:
Yi = β1 + β 2 X 2i + β 3 X 3i + ε i , i = 1, ..., N
δ ∑ y i x 3i ∑ x 3i2 − δ ∑ y i x 3i ∑ x 3i2 0 0
β̂ 2 = = e β̂ 3 = ... = indeterminação.
δ (∑ x 3i ) − δ (∑ x 3i )
2 2 2 2 2 2
0 0
σ 2 ∑ x 3i2 σ2
Var (β̂ 2 ) = = , onde r23 é o coeficiente de
∑ x 22i ∑ x 3i2 − (∑ x 2i x 3i ) 2 ∑ x 22i (1 − r 2 23 )
correlação simples entre X2 e X3, de forma que:
∑ x2x3
r23 = 1
(Thomas, (1978), págs. 132, 217).
(∑ x x )
2
2
2
3
2
39
Como r23 → ± 1 (alta correlação), e Var (β̂ 2 ) → ∞ e Var (β̂ 3 ) → ∞, a aplicação
baixa
Gastos de indivíduos
de renda
alta
εi ~ N (0, σ2i)
40
Em presença de σ2i, o procedimento de MQO dá maior peso, naturalmente, às
observações com maiores variâncias, o que leva a estimadores não-viesados e consistentes,
mas que não são eficientes (variâncias do MQO não são as mínimas).
ŷ i = β̂x i , y i = βx i + ε i , logo y i = ŷ i + ε i ,
∑ x i yi ∑ x iε i
β̂ = ⇒ β+
∑ x i2 ∑ x i2
E(∑ x i ε i )
E (β̂) = β + = β , logo σi2 não importa na derivação do valor esperado.
∑ xi
2
σ2
Entretanto, na derivação de Var (β̂) = , σ2 não pode ser concluído. O uso da
∑ x i2
σ2
expressão Var (β̂) = para obtenção da variância do estimador leva a estimativas
∑ x i2
tendenciosas das verdadeiras variâncias e a aplicação dos testes a resultados incorretos.
Uso dos Mínimos Quadrados Ponderados (caso especial dos mínimos quadrados
generalizados). Seja o modelo a duas variáveis:
Ŷi = α̂ + β̂ X i
2 2
⎡ Y −α̂ − β̂ X i ⎤ ⎡ y − β̂ x i ⎤
min ∑ ⎢ i ⎥ ou min ∑⎢ i ⎥
⎢⎣ σi ⎥⎦ ⎢⎣ σ i ⎥⎦
* *
∑ x i yi * xi * yi
∴ β̂ = * 2
, xi = e yi = ,
∑(x i ) σi σi
onde primeiro obtém-se a transformação das variáveis dividindo-as por σi, para
em seguida subtraí-las dos seus valores médios.
41
No caso do modelo de regressão múltipla, obtém-se:
* Yi * X ji * ε
Yi = , X ji = , ε i = i , j = 1, ..., k
σi σi σi
* * * * * 1
Yi = β1 X 1i +β 2 X 2i +...+ ε i , onde X 1i = ou seja, a equação ajustada não tem
σi
⎡ε ⎤ Var(ε i ) σ i2
intercepto, sendo que: Var(εi*) = Var ⎢ i ⎥ = = 2 = 1.
⎣σi ⎦ σ i2 σi
Seja a Tabela 2, onde são tabulados os gastos com a casa de indivíduos, agrupados
em grupos de acordo com a variação nesses gastos, com as faixas de renda familiar
variando entre R$ 5.000,00 e R$20.000,00. Após proceder à análise dos dados em que
observa-se que os gastos variam diferentemente por cada uma das faixas de renda, obtém-
se as variâncias desses gastos por grupo, o que é apresentado na Tabela 3.
Tabela 2
Tabela 3-
42
Caso 3: Variâncias do erro variam diretamente com uma variável
independente
≠0
β 2 X 2i
=β2 .
X 2i
* Yi * X ji * εi
Yi = X ji = εi =
X 21 X 21 X 21
εi Var(ε i )
onde: Var(εi*) = Var = 2
=C
X 2i X 2i
Yi 1 * Yi 1
= β* + α* + εi = 0,249 + 752,9
Xi Xi Xi Xi
R2 = 0,76 F = 58,7
Passos do teste:
43
⎡ 1 ⎤ Ng
1. Estima-se Sg2 = ⎢ ⎥ ∑ (Yi − Y) 2 para cada grupo de observações, g = 1, 2, ..., G,
⎣⎢ N g ⎦⎥ i =1
onde: Sg2 = σ̂ g2
G 2 G 2
N log [ ∑ (N g /N) S g ] − ∑ N g log S g
g =1 g =1
2. Teste S, sendo S = G
1 + [1/3 (G − 1) ][ ∑ (1/N g ) − (1/N)]
g =1
44
Procedimentos gerais do teste:
Assim:
1. Ordenação dos dados de acordo com a magnitude de uma das variáveis independentes
(relacionada à magnitude da variância do erro).
N−d
2. Omite-se d informações centrais (d ≈ 1/5 N), e ajusta-se 2 regressões aos dados
2
(N − d)
e − k graus de liberdade.
2
ESS 2
⇒ distribuição F[N-d-2k)/2 graus de liberdade no numerador e no denominador]
ESS1
ESS 2
Se > Fcrítico ⇒ rejeito Ho
ESS1
45
Seja o mesmo exemplo anterior (em que d = 0):
Yi = 600,00 + 0,276 Xi
(3,1) (11,3)
ε i2 = γ+ φ X i2 + δ Z i2 + θ Xi Zi + νi,
46
Por exemplo, se Xi for a única variável da qual se suspeita ser a origem da
heteroscedasticidade, deve-se calcular a estatística χ 2 para o modelo:
47
Exemplo
N = 88 graus de liberdade = 82
Exercício: Questão 1 escolher uma série sazonal e estimar seus parâmetros, R2,
testes, ...
48
18. O Problema da Correlação Serial
49
conjunto amostral: (a) β̂ < β e (b) β̂ > β . Na média, entretanto, há ausência de viés (ou
seja, os estimadores estão corretos). Entretanto, a medida do sucesso da estimação estará
super avaliada se a variância estimada for utilizada em testes.
Yt = β 1 + β 2 X 2t + ... + β k X kt + ε t , t = 1, ..., T
= E[ρ2ε2t-1 + v2t + 2 (ρεt-1 . vt)] = ρ2 Var (εt-1) + Var (vt) = ρ2 Var (εt) + Var (vt)
σ2v
Var (εt) = σ2ε = ,
1− ρ2
1. Sobre o termo de erro para o primeiro período: Não há dados sobre valores
σ2v
anteriores que o influenciaram. Assim, assume-se: ε1 ~ N (0, )
1− ρ2
50
Cov (ε t , ε t −1 )
2. Assume-se a seguinte expressão para obtenção de ρ: ρ = ,
σ2ε
1 1
sendo σ 2 ε = Var(ε t ) 2
Var(ε t −1 ) 2
Yt* = Yt − ρ Yt −1
Assim:
Yt = ....
Yt* = β1(1-ρ) + β2 X*2t + ... + βk X*kt + vt , onde vt não são correlacionados entre si, sendo:
σ2v
var(εt) = 0≤ρ<1.
1− ρ2
Observa-se que o intercepto do modelo original (β1) deve ser calculado a partir do
intercepto obtido para a equação transformada Yt* .
Quando:
k
ρ = 1 ⇒ “primeira diferença”. Obtém-se. β̂1 = Y − ∑ β̂ i X i , pois nessa situação
2
51
1º passo: Estimação do modelo original por mínimos quadrados.
ε̂ t = ρ ε̂ t −1 + v t
Yt* = Yt − ρ̂ Yt −1
X *kt = X kt − ρ̂ X kt −1
β̂1 , β̂ 2 , β̂ 3 , ... , β̂ k
ε̂ˆ t = ρ ε̂ˆ t −1 + v t
Nova estimativa de ρ
por exemplo:
Problema: valor obtido pela minimização da soma dos quadrados dos resíduos
pode ser mínimo local (x mínimo global).
- O Procedimento de Hildreth-Lu
52
Os passos do procedimento são os seguintes:
0
0,1
0,2
0,3
0,4
Por exemplo 0,5
0,6
ρ= ρ 0,7
0,8
0,9
1,0
- O Procedimento de Durbin
53
Nova Variável Nova Variável Nova Variável
Dependente Independente Independente
Hipótese nula ⇒ ρ = 0
T
∑ (ε̂ t − ε̂ t −1 )
2
t =2
Calcula-se: DW = T
, situando essa estatística de acordo com valores
2
∑ ε̂ t
t =1
O teste não pode ser usado (por definição) quando o modelo de regressão inclui,
como variável explanatória, a variável dependente defasada.
54
ε̂ t opostos a ε̂ t -1 (autocorrelação negativa) ⇒ altos DW
serial
∑ (ε̂
t =2
t − ε̂ t −1 ) 2
obtido a partir da relação DW = T
inicial.
∑ ε̂
t =1
2
t
Exemplo:
COAL = 12,262 + 92,34 FIS + 118,57 FEU- 48,90 PCOAL + 118,91 PGAS
(Demanda) (3,51) (6,46) (7,14) (-3,82) (3,18)
Hildreth-Lu ⇒ ρ = 0,6
55
COAL* = 16,245 + 75,29 FIS* + 100,26 FEU*- 38,98 PCOAL* + 105,99 PFAS*
(3,3) (4,4) (3,7) (-2,0) (2,0)
DW = 2,07 ⇒ Ho aceita (2<DW< 4-dU) nas condições: 5% n.s., 96 observações e
4 variáveis independentes, para os valores de dL = 1,58 e dU = 1,75 tabelados.
Para isto calcula-se a estatística h que vai testar a presença de correlação serial no
caso citado. Essa estatística é definida por:
ρ̂ = (1-1/2 DW),
O teste é válido para amostras de grande tamanho (N>30) (embora na prática seja
aplicado também em amostras pequenas). A estatística é testada como um desvio da
distribuição normal. Se h > 1,645, rejeita-se a hipótese nula de que os resíduos não tem
correlação serial a 5 % de nível de significância.
56
(a) Período das previsões ex “post”: usado para a avaliação do modelo de
previsão. Essas são previsões ditas incondicionais (valores das variáveis
independentes conhecidos).
(b) Período das previsões ex “ante”: essas previsões podem ser incondicionais ou
condicionais. Seja por exemplo:
condicional
T1 T2 T3 (atual)
Tempo T
Período da
ex“post” ex “ante”
estimação
Períodos de previsão
Pode-se definir como sendo a melhor previsão aquela com variância mínima em
seu erro de previsão. Pode-se afirmar que as estimativas de MQO levam às melhores
previsões não tendenciosas com modelos lineares (BLUEs). O erro do procedimento de
previsão está associado aos seguintes pontos:
57
(A) Previsão Incondicional
Seja:
Yt = α + β Xt + εt, t = 1, 2, ..., T
Para a avaliação da significância estatística dos valores previstos deve ser obtido o
ŶT +1 − YT +1
erro normalizado: λ = , onde λ ~ N (0, 1).
σ
ŶT +1 − YT +1
- λ0,0 5 ≤ ≤ λ0,05, onde λ0,05 é o valor de λcrítico que se obtém segundo
σ
a tabela da distribuição normal.
58
Yt = α + βX
ŶT +1 − λ 0,05 σ ≤ YT +1 ≤ ŶT +1 + λ 0,05 σ
* intervalo de previsão
Pode ser feita a avaliação do modelo de previsão após obter-se YT+1 e comparar-se
seu valor com valores previstos para os limites do intervalo de previsão. São possíveis as
situações:
59
No caso de violação do pressuposto: α e β conhecidos, tem-se a situação mais
realista ou seja, supõe-se que α e β são variáveis aleatórias que podem ser estimadas e σ2
desconhecido, podendo ser, também, estimado.
O procedimento de 2 estágios:
1. Yt = α + βXt + εt
Com a aplicação dos Mínimos Quadrados Ordinários obtém-se α̂ , β̂ , σ 2 .
2. ŶT +1 = E ( YT +1 ) = α̂ + β̂ XT+1
sendo:
60
2
σ2 ∑ Xt σ2
Var( α̂ ) = , Var(β̂ ) = ,
T ∑ (X t − X) 2 ∑ (X t − X) 2
- X σ2
Cov( α̂ , β̂ ) = e X ≡ média amostral .
∑ (X t − X) 2
2 ⎡ 1 X 2 − 2XX T +1 + X 2 T +1 ⎤
2
∴ σp = σ ⎢1 + + ⎥
⎣ T ∑ (X t − X) 2 ⎦ (a)
ou “distância” entre Xt+1 e X
⎡ 1 (X T +1 - X) 2 ⎤
σp2 = σ2 ⎢1 + + 2 ⎥
⎣ T ∑ (X t − X) ⎦
(b)
(c) Variância na amostra de dados de X
Tamanho da amostra (estimação)
Ou seja, o erro de previsão é sensível a (a), (b) e (c). Dessa forma, (XT+1 - X )
permite ter uma medida da variação que pode-se assumir para o período de previsão. Em
pacotes estatísticos, são gerados valores para a variável hzz , definida para o modelo a 2
1 (Xz − X) 2
variáveis por hzz = + sendo σp2 = σ2 (1 + hzz), onde z é o período da
∑X
2
T t −T X 2
previsão.
1
S2 = ∑ (Yt − Ŷt ) 2
T−2
⎡ 1 (X t +1 − X) 2 ⎤
2 2
Assim, conhecida Sp = S ⎢1 + + 2 ⎥
e o valor do erro normalizado λ:
⎣ T ∑ (X t − X) ⎦
ŶT +1 − YT +1
, que segue a distribuição da estatística t, com (T-2) graus de liberdade:
Sp
61
ŶT +1 − t 0.05 S p ≤ YT +1 ≤ ŶT +1 + t 0.05 S p é o intervalo de previsão com 95% de
Exemplo-
S2 = 0,111
62
(B) A Previsão incondicional com erros serialmente correlacionados
Seja:
εt = ρ εt-1 + vt
|ρ| < 1
ŶT +1 = α + β X T +1 + ε̂ T +1
ŶT +1 = α + β X T +1 + ρ ε T .
Observe-se que, quanto mais para o futuro T+s, a informação sobre a correlação
dos erros se torna pouco expressiva:
ε̂ t + 2 = ρ ε̂ t +1 = ρ 2 ε t
.
.
ε̂ t +S = ρ s ε t , s → ∞ ⇒ ρ s → 0
onde:
Yt* = Yt - ρ Yt-1
Xt* = Xt - ρ Xt-1
63
Nessa forma, a previsão para o período T+1 pode ser obtida pela equação (2):
ŶT*+1 = α (1 - ρ) + β X *T +1 (2)
onde:
X *T +1 = XT+1 - ρ XT (4)
logo:
Além disso:
= ρ2 σ2 + σ2 – 2 ρ2 σ2 = σ2 - ρ2 σ2 = (1 - ρ2) σ2,
onde (1 - ρ2) é o fator de redução no erro de previsão (em relação à situação com ausência
de autocorrelação). Observe-se que (1 - ρ2) σ2 = σ 2v .
64
Nessa situação, o valor previsto ŶT +1 pode ser calculado por:
⎡ 1 (X * − X * ) 2 ⎤
Sp2 = S2 ⎢1 + + T +1* * 2 ⎥
, onde o termo do erro é vt ao invés de εt, fazendo
⎣ T ∑ (X t − X ) ⎦
com que se obtenha S2 = Sv2 , pois Sp2 é obtida a partir do modelo de diferenças
generalizadas (baseado em Pindyck e Rubinfeld (1976), “Economic Models and Economic
Forecasts”, pp. 172).
Yt = α + β Xt + εt , t = 1, 2, ..., T
⎡ 1 (X − X) 2 + σ u 2 ⎤
σp2 = σ2 ⎢1 + + T +1
2
⎥ + β σu
2
⎢⎣ T ∑ (X t − X) 2
⎥⎦
65
Assim, uma estimativa robusta para o intervalo de previsão pode ser obtida por:
⎡ 1 (X * T +1 − X) 2 ⎤
σp2 ≈ σ2 ⎢1 + + 2 ⎥
, com cálculo similar para X ** T +1 .
⎣ T ∑ (X t − X) ⎦
66