Beruflich Dokumente
Kultur Dokumente
Figueiredo 1
UNIVERSIDADE FEDERAL DE MATO GROSSO DO SUL - UFMS
ESCOLA DE ADMINISTRAÇÃO E NEGÓCIOS - ESAN
Econometria
Prof. Adriano Marcos Rodrigues Figueiredo
Versão de 06.08.20181
Campo Grande – MS
2018
Citar como:
FIGUEIREDO, Adriano M. R. Econometria. Campo Grande, MS: UFMS, 2018.
195p. (no prelo)
1
Os direitos de reprodução pertencem ao autor e requer citação apropriada.
Econometria – Prof. Adriano M. R. Figueiredo 2
Econometria – Prof. Adriano M. R. Figueiredo 3
LISTA DE FIGURAS
SUMÁRIO
1. INTRODUÇÃO .......................................................................................................................................11
2. PRESSUPOSIÇÕES DO MODELO DE REGRESSÃO LINEAR CLÁSSICO .......................................................20
2.1. PRESSUPOSIÇÃO 1: A RELAÇÃO ENTRE Y E X É LINEAR ........................................................................................ 20
2.2. PRESSUPOSIÇÃO 2: O ERRO ALEATÓRIO TEM MÉDIA ZERO .................................................................................. 24
2.3. PRESSUPOSIÇÃO 3: O ERRO ALEATÓRIO TEM VARIÂNCIA CONSTANTE (PRESENÇA DE HOMOCEDASTICIDADE) ................ 26
2.4. PRESSUPOSIÇÃO 4: OS ERROS ALEATÓRIOS SÃO INDEPENDENTES (OU NÃO AUTOCORRELACIONADOS)......................... 27
2.5. PRESSUPOSIÇÃO 5: AS VARIÁVEIS EXPLICATIVAS SÃO NÃO ALEATÓRIAS (SÃO FIXAS) ................................................. 29
2.6. PRESSUPOSIÇÃO 6: O ERRO TEM DISTRIBUIÇÃO NORMAL, COM MÉDIA ZERO E VARIÂNCIA CONSTANTE:....................... 30
2.7. PRESSUPOSIÇÃO 7: AUSÊNCIA DE MULTICOLINEARIDADE ENTRE AS VARIÁVEIS EXPLICATIVAS ..................................... 30
2.8. RESUMO DAS PRESSUPOSIÇÕES ..................................................................................................................... 32
3. ESTIMAÇÃO ..........................................................................................................................................34
3.1. PROPRIEDADES DOS ESTIMADORES DE MQO .................................................................................................. 41
ANEXO 1: ESTIMAÇÃO UTILIZANDO MATRIZES NO EXCEL: .............................................................................................. 45
ANEXO 2: ESTIMAÇÃO UTILIZANDO MATRIZES NO R/RSTUDIO: ...................................................................................... 47
ANEXO 3: EXERCÍCIOS:........................................................................................................................................... 48
4. VIOLAÇÕES NAS PRESSUPOSIÇÕES CLÁSSICAS DO MODELO DE REGRESSÃO LINEAR............................52
4.1. PRESSUPOSIÇÃO 1: ESPECIFICAÇÃO DO MODELO .............................................................................................. 52
4.1.1. DETECÇÃO DO PROBLEMA: O TESTE RESET DE RAMSEY ............................................................................... 52
4.1.1.1. IMPLEMENTAÇÃO NO R: ........................................................................................................................ 54
4.1.1.2. IMPLEMENTAÇÃO NO EVIEWS: ................................................................................................................ 58
4.1.1.3. IMPLEMENTAÇÃO NO STATA: .................................................................................................................. 61
4.1.2. TESTES PARA OMISSÃO DE VARIÁVEIS COM R ............................................................................................. 67
4.1.3. OBSERVANDO OUTROS INDICADORES DE BOA ESPECIFICAÇÃO DO MODELO ....................................................... 71
4.1.4. VARIÁVEIS ESPECIAIS NA ESPECIFICAÇÃO DO MODELO .................................................................................. 72
4.1.5. IDENTIFICAÇÃO DE OUTLIERS DO MODELO ................................................................................................. 80
4.2. PRESSUPOSIÇÃO 2: O ERRO ALEATÓRIO TEM MÉDIA ZERO .................................................................................. 89
4.2.1. NO R ................................................................................................................................................. 89
4.2.2. NO STATA........................................................................................................................................... 90
4.2.3. EVIEWS .............................................................................................................................................. 92
4.3. PRESSUPOSIÇÃO 5: O ERRO TEM DISTRIBUIÇÃO NORMAL, COM MÉDIA ZERO E VARIÂNCIA CONSTANTE:....................... 96
4.3.1. ROTEIRO PARA TESTAR NORMALIDADE NO R: ............................................................................................. 96
4.3.2. ROTEIRO PARA TESTAR NORMALIDADE NO STATA:..................................................................................... 100
4.3.3. ROTEIRO PARA TESTAR NORMALIDADE NO EVIEWS: ................................................................................... 101
4.4. PRESSUPOSIÇÃO 3: O ERRO ALEATÓRIO TEM VARIÂNCIA CONSTANTE (PRESENÇA DE HOMOCEDASTICIDADE) .............. 103
4.4.1. TESTE DE WHITE DE HETEROCEDASTICIDADE DOS RESÍDUOS........................................................................ 104
4.4.2. TESTE DE HETEROCEDASTICIDADE DOS RESÍDUOS DE WHITE, R: .................................................................. 105
4.4.3. TESTE DE HETEROCEDASTICIDADE DOS RESÍDUOS DE WHITE, EVIEWS: .......................................................... 108
4.4.4. TESTE DE HETEROCEDASTICIDADE DOS RESÍDUOS DE WHITE, STATA: ............................................................ 109
4.4.5. TESTE DE BREUSCH-PAGAN-GODFREY DE HETEROCEDASTICIDADE DOS RESÍDUOS (WOOLDRIDGE, P.257): .......... 114
4.4.5.1. TESTE DE BREUSCH-PAGAN-GODFREY NO R: ........................................................................................... 115
4.4.5.2. TESTE DE BREUSCH-PAGAN-GODFREY NO STATA:..................................................................................... 116
4.4.5.3. HETEROSKEDASTICITY TEST: BREUSCH-PAGAN-GODFREY , NO EVIEWS: ........................................................ 117
4.4.5.4. ANEXO: ROTEIRO PARA ESTIMAÇÃO DE OUTROS TESTES NO EVIEWS – HETEROCEDASTICIDADE .......................... 119
4.5. PRESSUPOSIÇÃO 4: OS ERROS ALEATÓRIOS SÃO INDEPENDENTES (OU NÃO AUTOCORRELACIONADOS)....................... 127
4.5.1. TESTE DE DURBIN-WATSON E H DE DURBIN ............................................................................................ 127
4.5.1.1. TESTE DE DURBIN-WATSON NO R ......................................................................................................... 131
4.5.2. TESTE DE BREUSCH-GODFREY OU DE LM DE CORRELAÇÃO SERIAL............................................................... 132
4.5.2.1. TESTE DE BREUSCH-GODFREY OU DE LM DE CORRELAÇÃO SERIAL NO R ....................................................... 133
Econometria – Prof. Adriano M. R. Figueiredo 10
4.5.2.2. TESTE DE BREUSCH-GODFREY OU DE LM DE CORRELAÇÃO SERIAL NO STATA ................................................ 139
4.5.3. ESTIMAÇÃO SOLUCIONANDO O PROBLEMA DE AUTOCORRELAÇÃO - FGLS:..................................................... 145
4.5.4. EXEMPLO DE CORREÇÃO POR COCHRANE-ORCUTT NO R: ........................................................................... 146
4.5.5. EXEMPLO DE CORREÇÃO COM INFERÊNCIA ROBUSTA NO R: ......................................................................... 146
4.5.6. EXEMPLO DE CORREÇÃO POR ARIMA NO EVIEWS: ................................................................................... 147
4.6. PRESSUPOSIÇÃO 6: AS VARIÁVEIS EXPLICATIVAS SÃO NÃO ALEATÓRIAS (SÃO FIXAS) ............................................... 158
4.7. PRESSUPOSIÇÃO 7: AUSÊNCIA DE MULTICOLINEARIDADE ENTRE AS VARIÁVEIS EXPLICATIVAS ................................... 161
4.7.1. TESTE DE MULTICOLINEARIDADE NO STATA: ............................................................................................. 164
4.7.1.1. TESTE DO VARIANCE INFLATION FACTOR (VIF) NO STATA: ......................................................................... 164
4.7.1.2. TESTE DE MULTICOLINEARIDADE NO STATA – REGRA DE KLEIN: .................................................................... 166
4.7.2. TESTE DE MULTICOLINEARIDADE NO GRETL:............................................................................................. 168
4.7.2.1. TESTE DO FACTOR DE INFLACCIONAMIENTO DA VARIÂNCIA (VIF) NO GRETL: ................................................. 168
4.7.3. TESTE DE MULTICOLINEARIDADE NO EVIEWS: ........................................................................................... 170
4.7.3.1. TESTE DO VARIANCE INFLATION FACTOR (VIF) NO EVIEWS: ........................................................................ 170
4.7.4. TESTE DE MULTICOLINEARIDADE NO R: ................................................................................................... 171
4.7.4.1. TESTE DO VARIANCE INFLATION FACTOR (VIF) NO R: ................................................................................ 171
4.7.5. CORREÇÃO DA MULTICOLINEARIDADE NO STATA, OMITINDO A VARIÁVEL PROBLEMÁTICA:................................. 174
4.7.6. CORREÇÃO DA MULTICOLINEARIDADE NO R, EVIEWS E STATA ..................................................................... 177
5. REFERÊNCIAS BIBLIOGRÁFICAS...........................................................................................................193
6. PROGRAMAS RECOMENDADOS .........................................................................................................195
Econometria – Prof. Adriano M. R. Figueiredo 11
1. Introdução
2
VASCONCELLOS, M.A.S.; ALVES, D. (coords.). Manual de econometria. São Paulo: Atlas, 2000.
Econometria – Prof. Adriano M. R. Figueiredo 15
valor observado e o valor estimado da variável dependente do modelo. Portanto, tem-se ui
devido a:
omissão de variáveis
problemas de especificação
erros de medida da variável dependente
Pode-se dizer que Y nunca pode ser previsto com exatidão, ou seja, sem resíduo.
Portanto, para cada valor de X, existe uma distribuição de probabilidade dos valores de Y,
com média E(Yi) = Y = X e variância constante 2.
O objetivo da análise de regressão é estimar uma curva através da nuvem de pontos,
relacionando uma variável dependente como função de outras variáveis ditas independentes,
sendo que a forma funcional deve ser pressuposta pelo pesquisador. Neste caso, a teoria a
respeito da relação estudada, a análise da dispersão dos pontos e os estudos anteriores acerca
desta relação ajudarão nesta definição.
Por exemplo, pode-se observar a relação entre o PIB dos municípios de Mato Grosso
do Sul e e o valor adicionado bruto da agropecuária para o ano de 2014 na Figura 1-3.
Figura 1-3. Relação entre o PIB dos municípios de Mato Grosso do Sul e o valor
adicionado bruto da agropecuária para o ano de 2014 (SCN 2010).
Figura 1-4. Valor do PIB nominal de Campo Grande - MS, 2002-2014 (SCN 2010).
Figura 1-6. PIB dos municípios de Mato Grosso do Sul em 2014 (SCN 2010) em Bilhões
de Reais correntes.
Os dados podem ainda relacionar os dois tipos anteriores, ou seja, dados de diferentes
unidades ou indivíduos acompanhados para diferentes períodos de tempo, originando o que se
chama de combinação de séries temporais e seção cruzada (STSC), ou dados longitudinais.
Como exemplo, pode-se ter uma amostra de consumidores de Mato Grosso como no caso da
Pesquisa Nacional de Amostragem por Domicílio (PNAD) conduzida pelo IBGE, cujos
detalhes do consumo são investigados anualmente. Neste caso, a preocupação é tanto na
variabilidade entre indivíduos como na dinâmica ou no comportamento temporal de cada
individuo. No caso de se ter os mesmos indivíduos nos mesmos períodos de tempo, tem-se a
especificidade de uma combinação STSC chamada “painel”.
A forma de relacionar as variáveis no modelo econométrico observará aspectos
matemáticos e estatísticos, sempre com base na teoria. As previsões a serem obtidas devem
ser olhadas com cautela, pois o uso de funções matemáticas ou escolhas de variáveis
inadequadas poderá resultar em má especificação do modelo e outros problemas estatísticos
que invalidarão as estimativas. Por este motivo, é fundamental ter uma boa revisão de
literatura investigando o que outros pesquisadores realizaram, de que modo trabalharam, e
quais os principais resultados, tudo isto previamente ao desenvolvimento do modelo
Econometria – Prof. Adriano M. R. Figueiredo 19
econométrico. Este modelo ainda estará sujeito a verificações estatísticas de pressupostos
importantes, detalhados no próximo capítulo.
Econometria – Prof. Adriano M. R. Figueiredo 20
Forma funcional
Esta pressuposição em princípio implica na consideração de uma reta estimada, ou
seja, uma função linear nas variáveis do tipo
Yi 0 1 X1i 2 X 2i k X ki i ,
ou pela forma matricial:
Y = X + ε ,
Figura 2-1. Retornos das ações das Lojas Americanas em função de uma variável Z
qualquer.
RLAME x Z
0.07
0.06
0.05
0.04
0.02
0.01
y = 0.0018x + 0.0048
0
-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
Z Linear (Z) Polinômio (Z)
Y * 0 1 X 1* 2 X 2* 3 X 3*
Esses modelos devem ser estimados por Mínimos Quadrados não lineares ou Máxima
Verossimilhança não linear. Algumas formas funcionais utilizadas em economia da produção
podem ser:
n
Cobb-Douglas logaritmizada: log y a 0 a i log x i
i 1
n
Elasticidade Constante de Substituição ou CES: y a 0 a i x i
i 1
n n n
Generalizada Leontief: y a 0 a i x i a ij x i x j
i 1 i 1 j1
n n n
Transcendental Logaritmica ou Translog: log y a 0 a i log x i a ij log x i log x j
i 1 i 1 j1
n n n
Quadrática: y a 0 a i x i a ij x i x j
i 1 i 1 j1
Significa que o erro tem uma distribuição de probabilidade centralizada em zero (com
média zero). O erro é o efeito das variáveis que não consigo explicar no modelo. A média
pode ser considerada como o valor esperado do erro, ou seja,
𝐸 (𝜀 ) = 0 , 𝑖 = 1, 2, . . . , 𝑛
Ou na forma matricial,
𝐸(𝜀) = 0
Figura 2-3. Representação dos resultados de uma estimação dos retornos mensais do
ativo Lojas Americanas (LAME4) contra os do ativo Lojas Renner (LREN3) e os do
índice da Bolsa de Valores e Mercadorias e Futuros de São Paulo(BMF-BOVESPA),
Jan/2005 a Mar/2012.
Resultados de RLAME = f(RREN, RBVSP) e resíduos
.4
.2
.0
.3
-.2
.2
.1 -.4
.0
-.1
-.2
-.3
2005 2006 2007 2008 2009 2010 2011
Figura 2-4. Representações da dispersão dos pontos em torno de uma reta estimada –
ilustração da heterocedasticidade.
Neste caso pressupõe-se que os erros de uma observação não afetam os erros do
período seguinte, e assim sucessivamente.
COV(ei ,ej) = E { [ei – E(ei)] [ej – E(ej)] }
E (ei, ej) = 0, i j
esta pressuposição é denominada “ausência de autocorrelação”. A violação desta
pressuposição é um problema típico de séries temporais.
Quando se trabalha com ajustamentos de séries temporais, essa pressuposição em geral
não é obedecida, visto que nas séries temporais como, por exemplo, as séries de preços, de
salários e de produção têm no seu comportamento o reflexo de movimentos cíclicos e/ou
sazonais. Observa-se na Figura 2-5 que existem relações entre os resíduos das observações à
medida que X aumenta – correlação negativa (caso a) e positiva (caso b).
Figura 2-5. Representações da dispersão dos pontos em torno de uma reta estimada –
ilustração da correlação serial.
Figura 2-6. Padrões de correlação entre os distúrbios. (a) correlação serial positiva; (b)
correlação serial negativa; e (c) correlação nula.
Assim, ao escrever que var-cov(εε´) = 2.I, ao mesmo tempo se diz que as variâncias são
homocedásticas iguais a 2 (diagonal principal tem todos os valores iguais a 2, i=j) e que as
autocorrelações entre resíduos de observações distintas são nulas (valores nulos fora da
diagonal principal, i≠j).
RESID01
10
6
Density
0
-.3 -.2 -.1 .0 .1 .2 .3
Histogram Normal
Consequências da multicolinearidade:
Teóricas: consequências sobre as propriedades dos estimadores de M.Q.O.; a
multicolinearidade não afeta em nada as propriedades dos estimadores de M.Q.O.,
Econometria – Prof. Adriano M. R. Figueiredo 32
que continuam os melhores estimadores lineares não tendenciosos (MELNT);
conforme Gujarati e Porter (2011, p.335), haverá maior dificuldade na estimação
dos parâmetros com erros-padrões muito pequenos, mas as propriedades de
MELNT permanecem.
Práticas:
1. aumenta as variâncias dos parâmetros estimados:
aumenta V(β) = s2(X´X)-1
(X´X)-1 = (1/|X´X|) . Adj(X´X)
como |X´X| → 0 => (X´X)-1→ ∞ e V(β) → ∞
2. aumenta erro-padrão
3. reduz “t” => induz à não significância => estarei aceitando o fato de que a
variável não é importante no modelo em virtude da multicolinearidade, mas
que na realidade a variável poderá ser importante ao corrigir o modelo
4. Estimativas muito sensíveis: tirando uma ou duas observações, as estimativas
alteram muito => é melhor ter um modelo onde as alterações não alteram
muito as estimativas, uma certa estabilidade do modelo em termos de
magnitudes e sinais
2 . Média do erro é zero E(εi) = 0 para todo i E(ε) = 0, onde ε e 0 são vetores nX1 Erro de especificação
3. Estimação
ˆ Y X
' Y X ˆ
ˆ
' Y Y Y X ˆ X Y
ˆ X X
ˆ
( ' ) ˆ 0
2 X Y 2 X X
ˆ Sistema de equações normais dos
ˆ X Y mínimos quadrados
X X
ˆ X X 1 X Y
Válida para não multicolinearidade de X
(k+1 x 1) X X
1
ˆ
X Y
Mas como X são fixas, independentes dos resíduos, o valor esperado se reduz a:
ˆ ) X X 1 X E X X X 1
Var Cov(
ˆ ) X X 1 X 2 IX X X 1
Var Cov(
Ou seja,
ˆ ) 2 X X 1 X X X X 1
Var Cov(
ˆ ) 2 I X X 1
Var Cov(
ˆ ) 2 X X 1
Var Cov(
ou
ˆ ) s 2 X X 1
Var Cov(
Desta forma, têm-se as equações essenciais para a estimação. Segue o Quadro 3.1 com
um resumo dos estimadores de MQO.
Econometria – Prof. Adriano M. R. Figueiredo 36
Quadro 3.1. Estimadores de Mínimos Quadrados Ordinários.
Estimador da
variância-
Estimadores dos covariância dos
parâmetros ˆ X X 1 X Y
resíduos
ee SQRes SQRes
s2
n p n p G.L.
ˆ ) s 2 X X 1
Var Cov( Estimador da
variância-
covariância dos
parâmetros
O valor dos erros padrões dos parâmetros será obtido a partir da raiz da variância dos
parâmetros, ou seja, tirando-se a raiz da diagonal principal da var-cov(β).
Os parâmetros devem ter análise de significância, por meio de um teste de hipótese do
tipo t:
H0 : j 0
H1 : j 0 ( bilateral )
ˆ
j
tcalculado ~ tn p
sˆ G.L.
j
O teste t bicaudal prevê a área de rejeição de H0 para valores em módulo maiores que
tc = tn-p para o nível de significância escolhido, que geralmente é 1%, 5% ou 10% (Figura 3-1).
Figura 3-2. Áreas para a distribuição de t para um exemplo genérico com 20 graus de
liberdade e três graus de confiança: 90%, 95% e 99%.
99%
95%
90%
Y
𝑦
𝑌 = 𝛽 +𝛽 𝑋 (reta estimada)
𝑌 𝑒̂
𝑌 𝑌 −𝑌
𝑌
X
𝑦 =𝑌 −𝑌
𝑦 = 𝑌 + 𝑒̂ − 𝑌
A variação total (𝑦 ) será a variação explicada por X (𝑦 ) [em que 𝑦 = 𝑌 − 𝑌 é a
variação devida à regressão] mais a variação não explicada (decorrente do resíduo), de modo
que 𝑦 = (𝑦 + 𝑒̂ ). Assim,
SQTot=SQReg + SQRes
em que SQTot é a soma dos quadrados totais (relativa à variação total, 𝑦 ), SQRes é a soma
do quadrado dos resíduos (relativa à variação não explicada) e SQReg é a soma dos quadrados
da regressão (relativa à variação explicada por X). Portanto,
𝑦 = (𝑦 + 𝑒̂ )
2
SQReg ŷi2 Yˆi Y Yˆ Yˆ nY 2
SQRes
R2 1
n-p
SQTot
n-1
Em geral, quanto maior o número de variáveis X, maior é o valor de R2, mas para o R2
ajustado esta regra não vale. Justamente para evitar a inclusão equivocada de variáveis
explicativas é que se usa o R2 ajustado. Assim, a inclusão de uma variável irrelevante poderá
elevar o valor de R2, mas não necessariamente elevará o valor de R2 ajustado.
2
Se n for grande e p pequeno em relação a n, a diferença entre R (R quadrado
ajustado) e R² será pequena. Se n for pequeno e p grande em relação a n, a diferença entre
ambos pode ser grande e o valor ajustado será mais importante.
Outro indicador é o Teste F da regressão (F-statistic). Procura-se saber se o modelo
tem suporte estatístico. É o Teste de significância global da regressão: os X’s em conjunto
explicam Y de forma significativa. A hipótese nula é de que todos os parâmetros em conjunto
são nulos. A Hipótese alternativa prevê pelo menos um parâmetro não nulo.
H 0 : 1 0,2 0,...,k 0
H1 : pelo menos um i 0
Econometria – Prof. Adriano M. R. Figueiredo 41
Define-se a estatística de teste F como:
SQReg
p-1
F ~ Fp 1,n p
SQRes G .L.
n-p
Se Fcalculado > Ftabelado , então rejeita-se H0 e concluo pela existência de ao menos um X
explicando Y. Deseja-se um P-value (F de significação) menor que 10%, 5% ou 1%,
similarmente ao teste de t dos parâmetros.
O teste F muitas vezes é usado para outras hipóteses como para testar a especificação
do modelo, ou a omissão de variáveis. Estes testes alternativos serão apresentados na seção de
teste da especificação do modelo.
Esses indicadores em geral são obtidos em todos os softwares econométricos ou
estatísticos. Podem-se mencionar alguns: R/RStudio, Excel, Eviews, Stata, Gretl, SAS, SPSS,
Gauss, e MatLab.
Alguns sites podem auxiliar ao leitor:
https://cran.r-project.org/web/views/Econometrics.html
http://www.oswego.edu/~economic/econsoftware.htm
http://www.economics.ltsn.ac.uk/software/econometrics.htm
http://emlab.berkeley.edu/eml/index.shtml
O anexo apresenta rotinas para execução dos cálculos usando matrizes no Excel. Um
software bastante interessante, plataforma livre e com versão em português é o Gretl, no link:
<http://gretl.sourceforge.net/gretl_portugues.html>. Neste material, trabalham-se exemplos
com RStudio, Eviews e Stata.
Tendenciosidade
Econometria – Prof. Adriano M. R. Figueiredo 42
Uma propriedade desejável é a da não-tendenciosidade, ou seja, os valores esperados
ˆ X X 1 X Y são iguais ao verdadeiro
dos parâmetros estimados por meio da expressão
f
fdp de MQO
fdp de MQ 2
ˆMQO E E MQ 2
Consistência
Econometria – Prof. Adriano M. R. Figueiredo 43
Embora tenha sido falado sobre estimadores não-tendenciosos, há casos em séries
temporais, nos quais o estimador de MQO não é não-tendencioso. Neste caso, em geral os
pesquisadores costumam observar a propriedade da Consistência dos estimadores, dentro do
espectro chamado de propriedades assintóticas dos estimadores, ou propriedades dos
estimadores para grandes amostras, ou quando n tender ao infinito (n = número de
observações). Faz-se uma explicação intuitiva ao leitor. Demonstrações formais podem ser
obtidas, entre outros lugares, no Apêndice C de Wooldridge (2016). Se aumentar o tamanho
da amostra e o estimador ̂ convergir para o valor verdadeiro, então se tem matematicamente
f ˆ
n 1000
n 100
n 10
̂
Fonte: Adaptado de Wooldridge (2016).
Eficiência
Figura 3-7 (a) para ̂ 2 ; e a distribuição da Figura 3-7 (b) para ̂ 2* . A distribuição de variância
mínima será a de ̂ 2 , a mais concentrada em torno da média E ( ˆ2 ) 2 . Portanto, ̂ 2
será dito o estimador eficiente de 2 , posto que Var ( ˆ2 ) Var ( ˆ2* ) . No caso de estimadores
em que algum deles é viesado, uma forma de comparar é olhando o erro quadrático médio
(EQM), pois este pode ser demonstrado como a soma da variância com o quadrado do viés. O
EQM medirá o quanto o estimador está longe de seu valor esperado.
f ˆ2 , f ˆ2*
fdp de 2
fdp de 2*
E ˆ2 2 E ˆ2* ˆ2 , ˆ2*
Fonte: Adaptado de Wooldridge (2016) e Gujarati (2011, p.92).
Econometria – Prof. Adriano M. R. Figueiredo 45
8. Fazer a raiz quadrada dos elementos da diagonal, obtendo os erros padrões dos
parâmetros estimados: utilizar a função RAIZ(·) do Excel.
10. Calcular R2
a. R2 = SQE/SQT = (betaest.X’Y – n. Y 2)/(Y’Y - n. Y 2)
i. Y = média de Y
SQE SQ Re s
p 1 np
b. R 2 1
SQT SQT
n 1 n 1
SQE
p 1
c. F ~ Fp 1,n p ( GL )
SQ Re s
np
11. No Stata
Econometria – Prof. Adriano M. R. Figueiredo 47
. regress y x
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+---------------------------------------------------------------
x | .5090909 .0357428 14.24 0.000 .4266678 .591514
_cons | 24.45455 6.413817 3.81 0.005 9.664256 39.24483
------------------------------------------------------------------------------
3
Este script foi adaptado a partir de HEISS (2016, capítulos 3 e 4).
Econometria – Prof. Adriano M. R. Figueiredo 48
Xy
#Para calcular o vetor beta:
beta<-invX_X %*% Xy
beta
#agora calculamos os desvios-padrões
# obtencao de sigma quadrado estimado
yly<-t(y)%*%y
blXy<-t(beta)%*%Xy
ulu<-yly - blXy
ulu
uhat<-y-X%*%(beta)
uhat
#sigma quadrado para gl=n-p=8
n<-nrow(exercicio_matrizes)
k<-ncol(X)
sigsqhat<-as.numeric(ulu/(n-k))
sigsqhat
varcovbeta<-sigsqhat*invX_X
varcovbeta
#obtendo a raiz da variancia da diagonal de varcovbeta
sebeta<-sqrt(diag(varcovbeta))
sebeta
#estatistica t dos parametros
beta
tbeta<-beta/sebeta
tbeta
#obtendo a probabilidade de tbeta para 5% e df=n-k
pvalue<-2*pt(-abs(tbeta),n-k)
pvalue
#obtendo R2 e R2 ajustado
sqtot<-yly-n*mean(y1)^2
sqtot
sqres<-ulu
sqres
sqreg<-sqtot-sqres
sqreg
r2<-sqreg/sqtot
r2
r2aj<-1-(sqres/(n-k))/(sqtot/(n-1))
r2aj
F<-(sqreg/(k-1))/(sqres/(n-k))
F
probF<-1-pf(F,k-1,n-k)
probF
#fim
Anexo 3: Exercícios:
( ) A idéia básica da estimação econométrica é obter os parâmetros de tal forma que a soma dos erros
seja, na média, nula, e a soma de seus quadrados seja mínima.
( ) A expressão para obtenção dos parâmetros por Mínimos Quadrados Ordinários,
ˆ X ' X 1 X ' Y refere-se a um modelo linearizado qualquer.
( ) A heterocedasticidade dos resíduos implica em variâncias constantes dos resíduos ao longo da
amostra.
( ) A estimação realizada pelas operações matriciais no Excel fornecem os mesmos parâmetros
estimados que a Ferramenta de Análise de Dados de Regressão do referido software.
( ) A especificação do modelo não precisa ser feita antes da estimação, pois as vezes será necessário
excluir alguma variável do modelo.
( ) A fase de estimação do modelo consiste em determinar os parâmetros da equação estimada.
( ) Todo modelo estimado pode ser utilizado para fazer previsões da variável explicada.
( ) A econometria pode favorecer todas as áreas da economia, pois sempre é possível explicar tudo
que se quer com a econometria.
( ) O modelo de regressão linear simples é um caso específico do modelo de regressão linear
múltiplo, podendo estimar os parâmetros matricialmente nos dois casos.
3. O método de estimação de Mínimos Quadrados Ordinários é um dos mais utilizados para estimar
parâmetros econométricos. Explique o que significa e o raciocínio por trás desse método.
5. Suponha que se tem dados municipais para o modelo lnQi = βo + β1.lnJUROSi1 + β2.lnRDi2
+ εi, em que Q é a quantidade demandada de moeda no município i, em milhares de reais; JUROS é a
taxa de juros interbancária (CDI) em valores nominais; RD é a renda disponível per capita em reais;
β’s são parâmetros do modelo e ε é o erro aleatório tal que ε ~ N(0,s2). Pergunta-se:
a) Como você faria para obter os valores dos β’s num ambiente computacional do Microsoft Excel?
Quais os passos necessários para execução da estimação?
b) É possível fazer por meio matricial? Quais os passos necessários para execução da estimação?
Variável Dependente: W
Método: Mínimos Quadrados
Data: 22/03/06 Horário: 11:10
Amostra: 1980 2004
Observações incluídas: 25
Variável Coeficiente Erro padrão Estatística-t Prob.
C -290.8117 327.1702 -0.888870 0.3841
IGP -0.326847 0.193898 -1.685664 0.1067
PIB 0.046182 0.034176 1.351321 0.1910
U 21.07782 8.048040 2.619000 0.0160
R-quadrado 0.255609 Média da Var. Dep. 228.0943
R-quadrado ajustado 0.149268 Desv. Pad. Da var. dep. 40.64528
Erro pad. da regressão 37.48923 Crit. Inf. Akaike 10.23163
Soma dos quadrados 29514.30 Critério Schwarz 10.42665
dos resíduos
Log Verossimilhança -123.8954 Estatística F 2.403666
Est. Durbin-Watson 0.607152 Prob(F) 0.096187
7. Seja um exemplo do PIB Real (REALGDP) como função do Consumo Real (REALCONS),
Investimento Real (REALINVS), Gastos Reais do Governo (REALGOVT), e Transações Líquidas
Reais com o Exterior (REALINT), OBS é a variável de tendência. Encontre o R2, R2 ajustado, os
coeficientes, erros-padrões e valores de t para completar os resultados e analise-os a seguir:
A pressuposição pode ser escrita como: A relação entre Y e X é linear e o modelo está
bem especificado. Conforme exposto anteriormente, a pressuposição em análise implica que
os modelo tem uma forma funcional linear ou linearizada nas variáveis e nos coeficientes, e
ainda, que não existem problemas de omissão de variável relevante (o que geraria um viés nas
estimativas). Portanto, a preocupação é saber se existe violação do pressuposto, ou seja, se o
modelo está mal especificado, o que requereria alteração na especificação. A identificação do
problema é normalmente feita por testes do tipo proposto por Ramsey (1969)4.
Entre outros testes, o teste RESET de Ramsey é um dos mais aplicados na literatura. O
nome vem do pesquisador Ramsey para o ‘Regression Specification Error Test’ ou ‘Teste de
Erro de Especificação da Regressão’.
O teste é baseado na regressão aumentada
Y = Xβ + Zα + ε ,
em que X são as variáveis explicativas e Z são variáveis dependentes estimadas e elevadas a
uma potência, Z = [ Yest2 Yest3 Yest4], (neste exemplo, para três fitted terms, três termos
acrescentados na regressão aumentada, em que Yest é a variável Y prevista pelo modelo
estimado originalmente: Y = Xβ + ε).
4
RAMSEY, J. B. Tests for Specification Errors in Classical Linear Least Squares Regression Analysis. Journal
of the Royal Statistical Society, Series B, v.31. 1969. pp.350–371.
Econometria – Prof. Adriano M. R. Figueiredo 53
A ideia é olhar a significância dos α para ver se os termos acrescentados são relevantes
no modelo, indicando erro de especificação.
Procedimento do teste:
1) estima-se Y = Xβ + ε
2) obtém-se os valores previstos de Y e gera-se Yest2 Yest3 ou mais se
desejar. Recomenda-se no máximo até 3 termos, ou seja, até Yest4.
3) Ajusta-se a regressão aumentada, colocando-se os X e as variáveis do
item 2 : Y = f ( X, Yest2, Yest3 )
4) Com as regressões de 1 e de 3, observam-se os valores de R2 novo (de
3) e R2 velho (de 1) e calcula-se a estatística de teste:
5) Estatística de Teste;
2
Rnovo Rvelho
2
5
Praticamente todos os livros de estatística trazem as tabelas teóricas de distribuição de probabilidade para
diferentes tipos de distribuição.
Econometria – Prof. Adriano M. R. Figueiredo 54
4.1.1.1. Implementação no R:
No software R, o teste RESET pode ser feito manualmente, por meio de ajustamento
da regressão, obtenção dos valores ‘ajustados’ ou ‘estimados’ e estimação da regressão de
teste como nos procedimentos 1 a 6 mencionados na página anterior desta seção. Outra forma
é usar o comando resettest da library lmtest. Serão mostrados no script os dois
procedimentos.
Portanto, os passos seriam, usando o arquivo ‘soja_apostila.xlsx’, que contém os
dados do valor de produção de soja, sabendo que a variável dependente Qsoja é a quantidade
produzida de soja, a variável FERTILIZANTE é a quantidade utilizada de fertilizantes, a
variável TRATOR é o número de horas-máquina utilizadas, e MO é a quantidade de mão-de-
obra em número de pessoas (script ao final).
Econometria – Prof. Adriano M. R. Figueiredo 55
Ou seja, o teste acusou probabilidade de F menor que 1%, rejeita-se H0, conclui-se
que algum dos coeficientes de “fitted” é diferente de zero. Desta forma, elas apresentam
algum poder explicativo e o modelo é dito mal especificado.
Outra alternativa é usar o “resettest” da library “lmtest”. Neste caso, apenas pede-se o
comando e especifica-se o objeto que contém a regressão original. Este teste foi colocado
também no script do exemplo anterior. A interpretação e resultados são idênticos. Foi
apresentado também o teste RESET para potências 2,3 e 4, com resultados abaixo e que são
idênticos aos calculados em outros softwares como Eviews e Stata ou manualmente.
Econometria – Prof. Adriano M. R. Figueiredo 57
Script::: “soja.R”:
#exercicio para trabalhar especificacao e RESET de Ramsey
#chamando os dados de soja
library(readxl)
library(foreign)
dados <- read_excel("soja_apostila.xlsx",
sheet = "dados")
# QSOJA = quantidade de soja;
# FERTILIZANTE = quantidade utilizada de fertilizantes,
# TRATOR = número de horas-máquina utilizadas, e
# MO = quantidade de mão-de-obra em número de pessoas
library(sfsmisc)
View(dados)
attach(dados)
#execucao manual do RESET de Ramsey para especificacao
# PASSO 1: estimar o modelo
regressao1<-lm(QSOJA~FERTILIZANTE+TRATOR+MO)
summary(regressao1)
library(stargazer)
stargazer(list(regressao1),type="text",style="all" )
#reg_RESET<-
lm(QSOJA~FERTILIZANTE+TRATOR+MO+I(fitted(regressao1)^2)+I(fitted(regressao1)^3
)+I(fitted(regressao1)^4),data=dados)
reg_RESET<-
lm(QSOJA~FERTILIZANTE+TRATOR+MO+I(fitted(regressao1)^2)+I(fitted(regressao1)^3
),data=dados)
results<-stargazer(list(regressao1,reg_RESET),type="text",style="all" )
Quadro 4.1. Exemplo de saída do Eviews para o Ramsey RESET Test: Equação
original:
Econometria – Prof. Adriano M. R. Figueiredo 59
Dependent Variable: QSOJA
Method: Least Squares
Date: 04/12/14 Time: 17:37
Sample: 1 117
Included observations: 117
Value df Probability
F-statistic 5.281559 (3, 110) 0.0019
Likelihood ratio 15.74446 3 0.0013
F-test summary:
Mean
Sum of Sq. df Squares
Test SSR 24510.05 3 8170.017
Restricted SSR 194668.5 113 1722.730
Unrestricted SSR 170158.4 110 1546.895
LR test summary:
Value df
Restricted LogL -599.9033 113
Unrestricted LogL -592.0310 110
Neste caso, é possível observar que no topo da saída do Teste RESET, o Eviews
apresenta os valores de F-statistic = 5.281559, com graus de liberdade do numerador e
denominador de (3, 110), e valor da probabilidade de 0.0019. Neste caso, rejeita-se a hipótese
nula de que os coeficientes das variáveis elevadas às potências são nulas. Desta forma, elas
apresentam algum poder explicativo e o modelo é dito mal especificado.
Econometria – Prof. Adriano M. R. Figueiredo 61
Observa-se agora que no modelo original, o R², agora chamado de R²velho = 0,46511.
No modelo novo, aumentado, o R² chamado de R²novo = 0,532456. Observar que
aqui, para efeito de demonstração, optei por utilizar mais dígitos de R² do que os mostrados na
saída do Stata, de modo a demonstrar a precisão dos cálculos entre o método do Eviews e
cálculos do Stata.
Foram adicionadas 3 variáveis, portanto, m=3. E o modelo tem 117 observações (n=117) e
ficou após aumentado, contendo 7 parâmetros. Assim, n-p = 110 no modelo novo.
5) Calcular a estatística F do teste:
2
Rnovo Rvelho
2
0,532456 0,46511
número de novos regressores ( m) 3
F 5,281
1 Rnovo
2
1 0,532456
n número parametros no novo mod elo (p) 117 7
Para a distribuição de F com (m,n-p) = (3, 117-7) = (3,110) graus de liberdade, tem-se
F tabelado de 0.19 para 90% de confiança, com uso do comando ‘invFtail’:
Econometria – Prof. Adriano M. R. Figueiredo 63
. disp invFtail(3,110,0.9) ==.19442741
Outra opção, no Stata, é utilizando o pacote Reset. Tem-se, para o mesmo exemplo da
soja, o Quadro 4.3. Neste caso, o pacote realiza vários testes inserindo as variáveis de Y
estimado às potências (2, 3 e 4) e mostrando os resultados para o teste com H0: o modelo está
especificado, contra Ha: o modelo está mal especificado (misspecified). Ainda apresenta
alternativas como as de DeBenedictis-Giles Specification ResetL Test, o DeBenedictis-Giles
Specification ResetS Test6, e o White Functional Form Test.
É possível verificar os mesmos resultados obtidos acima (a menos de alguma variação
por causa do número de decimais) para o caso de 3 variáveis adicionadas:
- Ramsey RESETF3 Test: Y= X Yh2 Yh3 Yh4 = 5.279 P-Value > F(3, 110) 0.0019.
6
DEBENEDICTIS, L. F.; GILES D. E. A. Diagnostic Testing in Econometrics: Variable Addition, RESET and
Fourier Approximations. In: ULLAH, Aman; GILES, D. E. A. (Eds.), Handbook of Applied Economic
Statistics. Marcel Dekker, New York; 1998. pp.383-417.
RAMSEY, J. B. Tests for Specification Errors in Classical Linear Least-Squares Regression Analysis. Journal
of the Royal Statistical Society, Series B, v.31, 1969. pp.350-371.
Econometria – Prof. Adriano M. R. Figueiredo 64
Econometria – Prof. Adriano M. R. Figueiredo 65
Quadro 4.3. Resultados do Ramsey RESET para especificação do modelo no Stata.
. reset qsoja fertilizante trator mo
==============================================================================
* Ordinary Least Squares (OLS)
==============================================================================
qsoja = fertilizante + trator + mo
==============================================================================
*** REgression Specification Error Tests (RESET)
==============================================================================
Ho: Model is Specified - Ha: Model is Misspecified
------------------------------------------------------------------------------
* Ramsey Specification ResetF Test
- Ramsey RESETF1 Test: Y= X Yh2 = 10.237 P-Value > F(1, 112) 0.0018
- Ramsey RESETF2 Test: Y= X Yh2 Yh3 = 5.075 P-Value > F(2, 111) 0.0078
- Ramsey RESETF3 Test: Y= X Yh2 Yh3 Yh4 = 5.279 P-Value > F(3, 110) 0.0019
------------------------------------------------------------------------------
* DeBenedictis-Giles Specification ResetL Test
- Debenedictis-Giles ResetL1 Test = 7.426 P-Value > F(2, 111) 0.0009
- Debenedictis-Giles ResetL2 Test = 5.816 P-Value > F(4, 109) 0.0003
- Debenedictis-Giles ResetL3 Test = 3.852 P-Value > F(6, 107) 0.0016
------------------------------------------------------------------------------
* DeBenedictis-Giles Specification ResetS Test
- Debenedictis-Giles ResetS1 Test = 4.721 P-Value > F(2, 111) 0.0108
- Debenedictis-Giles ResetS2 Test = 2.549 P-Value > F(4, 109) 0.0433
- Debenedictis-Giles ResetS3 Test = 2.205 P-Value > F(6, 107) 0.0480
------------------------------------------------------------------------------
- White Functional Form Test: E2= X X2 = 16.245 P-Value > Chi2(1) 0.0003
------------------------------------------------------------------------------
Outra alternativa no Stata é o Linktest, que procede uma estimação para uma potencia,
de modo semelhante ao Ramsey RESET (Quadro 4.5). A diferença é que neste não se incluem
as variáveis X originais e adiciona-se apenas a potencia ao quadrado para a variável
dependente estimada. De novo, se rejeitar H0, o modelo estará mal especificado. A ‘_hatsq’ é
a variável dependente estimada ao quadrado. Neste caso, conforme sugestão de Pregibon
(1980)7, deve-se olhar a significância do coeficiente da variável dependente ao quadrado, ou
seja, olhar o valor da probabilidade associado a ‘_hatsq’. É possível ver que ‘_hatsq’ foi
significativa diferente de zero, levando a rejeição da especificação apresentada originalmente,
ou seja, o modelo foi mal especificado.
Quadro 4.5. Exemplo do Linktest para especificação do modelo no Stata.
. linktest
7
PREGIBON, D. Goodness of link tests for generalized linear models. Applied Statistics, vol.29, pp. 15–24.
1980.
Econometria – Prof. Adriano M. R. Figueiredo 68
Para exemplificar estes testes, faz-se uso do exercício 7.19 de Gujarati (2011, p.236)
para os dados da tabela 7.9 com a Demanda por frangos nos Estados Unidos, de 1960 a 1982,
com os dados do arquivo <gujarati 5ed p236 frangos tabela7_9.xlsx>, como no script do
Quadro 4.6. Observe que são colocadas quatro possíveis especificações, com as variáveis em
logaritmos e a variável Y sendo dependente em todas. As alterações são para as variáveis X2
até X5. Neste exemplo, não se está preocupado com a interpretação econômica, para fins do
exemplo e, portanto, apenas trata-se das variáveis como X.
#exercicio 7.19 para os dados da tabela 7.9, conforme Gujarati (2011, p.236)
#Demanda por frangos nos Estados Unidos, 1960-1982 (23 observacoes)
#chamando os dados de <gujarati 5ed p236 frangos tabela7_9.xlsx>
library(readxl)
library(foreign)
dados <- read_excel("gujarati 5ed p236 frangos tabela7_9.xlsx",
sheet = "dados")
#Y Per Capita Consumption of Chickens, Pounds
#X2 Real Disposable Income Per Capita, $
#X3 Real Retail Price of Chicken Per Pound, Cents
#X4 Real Retail Price of Pork Per Pound, Cents
#X5 Real Retail Price of Beef Per Pound, Cents
#X6 Composite Real Price of Chicken Substitutes Per Pound, Cents
View(dados)
attach(dados)
𝑆𝑆𝑅𝑟 − 𝑆𝑆𝑅𝑢𝑟 𝑛 − 𝑘 − 1
𝐹= .
𝑆𝑆𝑅𝑢𝑟 𝑞
ou
𝑅 −𝑅 𝑛−𝑘−1
𝐹= .
1−𝑅 𝑞
# R2:
( r2.ur <- summary(res.ur)$r.squared )
( r2.r <- summary(res.r)$r.squared )
Outra opção é usar o pacote “car” como no script. O resultado será o mesmo, como na
figura. Para uma probabilidade de 0.3421, não se rejeita H0 para coeficientes de X4 e X5
simultaneamente nulos. Assim, algum desses coeficientes é diferente de zero e o modelo da
equação 1 está omitindo alguma dessas variáveis testadas.
Econometria – Prof. Adriano M. R. Figueiredo 71
Quadro 4.10. Script para o teste de omissão de variáveis no R com pacote ‘car’.
O leitor poderia observar que em alguns termos a dummy aparece associada apenas ao
coeficiente α e noutros ao αX1, ou seja, ao coeficiente e a variável X1. Imagine aqui que X1
seja uma variável quantitativa contínua. Em uma estimação cujo coeficiente α fosse não
significativo, seria o equivalente a ter um termo nulo, pois a dummy e a variável X
multiplicada pelo coeficiente não significativo retornaria um valor não diferente de zero.
De outra forma, quando o α for significativo para algum termo contendo a dummy, se
está não estiver multiplicada por X1, seria o equivalente a uma alteração do intercepto 0 . Se
estiver multiplicada por X1, seria o equivalente a uma alteração do coeficiente associado à
inclinação de X1, somando-se o α da dummy ao 1 . Neste caso, a presença da característica
cujo coeficiente da dummy foi significativo, diferente de zero, indica uma curva estimada
distinta das demais (no intercepto ou na inclinação ou em ambos).
Entretanto, uma estimação desta forma do exemplo, contendo quatro dummies
para as quatro possíveis respostas, geraria um problema de multicolinearidade perfeita
com o termo do intercepto. Recorde-se que na matriz de variáveis explicativas também está
a coluna de 1 para o intercepto. Mas a soma das colunas das dummies também será 1. Ou seja,
não será possível estimar o vetor de coeficientes, pois não será possível computar (X’X)-1.
Econometria – Prof. Adriano M. R. Figueiredo 74
Assim, o procedimento normal é excluir uma das dummies, ou seja, sempre que tiver m
possíveis respostas, acrescentam-se m-1 dummies. A dummy excluída do modelo será do
grupo básico, e a estimação do modelo quando todos os coeficientes das dummies forem
nulos retornará o resultado do grupo básico. Portanto, as observações do grupo básico terão
valores zero para as dummies, por não fazer parte daqueles grupos.
Assim, para cada categoria, seria o equivalente a ter as equações como abaixo:
Respostas
Nome
a b c d e f g
Marcelo x
Antônio x
Tassiany x
Elenir x
Joice x
Alexandre x
Adriano x
João x
Pedro x
Estimando um modelo do tipo acima, alterando apenas intercepto, cada grupo teria a
equação estimada como abaixo, ou seja, alterando o intercepto relativamente ao grupo básico
g:
Y 0 1 X 1 2 X 2 3 Da 4 Db 5 Dc 6 Dd 7 De 8 D f
Quando as dummies forem todas com coeficientes nulos, Da=Db =Dc=Dd=De=Df=0,
então o modelo se reduz a curva para o grupo g, quando as dummies são nulas:
Y 0 1 X 1 2 X 2
Assim, os coeficientes 0 ,1 , 2 representam exatamente o grupo básico g.
Suponha que os coeficientes estimados associados as dummies, sejam significativos,
ou d 0 , d= 3, 4, 5, 6, 7 e 8. Então a expressão para os grupos serão:
para a: Ya ˆ0 ˆ3 ˆ1 X 1 ˆ 2 X 2
para b: Yb ˆ0 ˆ 4 ˆ1 X1 ˆ 2 X 2
para c: Yc ˆ0 ˆ5 ˆ1 X 1 ˆ 2 X 2
para d: Yd ˆ0 ˆ6 ˆ1 X1 ˆ2 X 2
para e: Ye ˆ0 ˆ7 ˆ1 X 1 ˆ 2 X 2
para f: Y f ˆ 0 ˆ8 ˆ1 X1 ˆ 2 X 2
A representação das equações para cada grupo serão, partindo da equação geral:
LOG(QALG) = 1.204*LOG(AALG) + 0.653*LOG(PALG) - 0.475*LOG(PSOJA) - 0.002*DMS - 0.202*DMT - 1.800
Para MT: DMS=0, ou seja, esta curva está pouco abaixo das curvas de MS e GO:
LOG(QALG) = 1.204*LOG(AALG) + 0.653*LOG(PALG) - 0.202
Para uma estimação contendo alterações nas inclinações de AALG e no intercepto,
Quadro 4.14:
Assim, conclui-se que a reação de QALG a AALG para MT é maior que em GO e MS,
mas a curva de MT está em nível mais baixo que os demais.
b) Variáveis tendência
Econometria – Prof. Adriano M. R. Figueiredo 78
Este tipo de variável é típico dos modelos de série temporal, ou seja, com dados
organizados no tempo. Uma variável tendência será criada para considerar a evolução
temporal de modo explícito e evitar regressões espúrias.
É uma variável com característica básica de que ao passar da observação 1 para 2,
tem-se exatamente a mudança de um período de tempo. Assim, o fato de ser um valor, por
exemplo, 30, indica 2 períodos a frente de outro igual a 28. Existe uma ordem implícita e
também a cada observação se tem a mudança de um período igual.
Normalmente se usa esta variável em cálculos da taxa geométrica de crescimento. Seja
uma variável V de periodicidade anual que se deseja saber a variação anual num período. Faz
a regressão log linear de logv = f(t), em que t é a variável tendência, que pode ser 1,2,3, ... ou
por exemplo 1990,1991, 1992, ... . O que importa é que a alteração é sempre de um período
de tempo e sequencial.
Por exemplo, seja a tabela:
Tabela 4-1. Dados para exemplo do cálculo da TGC.
v t logv
100 1 4,60517
112 2 4,718499
145 3 4,976734
178 4 5,181784
134 5 4,89784
A regressão logV t , fornece os resultados do Quadro 4.9:
Econometria – Prof. Adriano M. R. Figueiredo 79
Quadro 4.15. Estimação de um modelo para a Taxa Geométrica de Crescimento com
variável tendência, usando Excel.
Os gráficos de box-plot mostram o centro e a dispersão dos dados. O box refere-se aos
limites dados pelo primeiro e terceiro quartis. O ponto ao meio, dentro do box, indica a média.
A mediana é o traço horizontal no box. Os traços horizontais denotam os inner fences e o
staple: limites a partir dos quais são detectados outliers (ver Figura 4.4).
Econometria – Prof. Adriano M. R. Figueiredo 82
Figura 4-4. Detalhamento dos limites do box-plot no Stata.
Quando se tem dados com outliers, uma alternativa é distinguir grupos utilizando as
dummies. Esta situação poderá auxiliar a melhor incorporar esta informação no modelo sem,
no entanto excluir a observação. Esta opção de excluir a observação atípica poderá gerar
problemas de viés de seleção da amostra.
No Stata, o comando será, para o box-plot: . graph box vprod (Figura 4.6):
Econometria – Prof. Adriano M. R. Figueiredo 83
Figura 4-6. Exemplo de box-plot para identificação de outliers no Stata.
1.0e+08 outlier 1
outlier 2
outlier3
outlier 4
outlier 5
outlier 6
VPROD
outlier 7
5.0e+07
outlier 8
0
2) na janela Equation, entrar em View, Stability Tests, Ramsey Reset Test como na
figura a seguir:
Value df Probability
F-statistic 5.074639 (2, 111) 0.0078
Likelihood ratio 10.23671 2 0.0060
F-test summary:
Mean
Sum of Sq. df Squares
Test SSR 16308.35 2 8154.174
Restricted SSR 194668.5 113 1722.730
Unrestricted SSR 178360.1 111 1606.848
LR test summary:
Value df
Restricted LogL -599.9033 113
Unrestricted LogL -594.7849 111
A maior dificuldade é que não existe teste formal para essa pressuposição. É similar a
um erro de especificação do modelo, como por exemplo, com variáveis relevantes omitidas do
modelo. O modelo com uma correta especificação provavelmente não terá problemas com
média dos resíduos não nula.
Normalmente se faz o teste simples de “H0: média igual a zero” para investigar a
violação ou não da pressuposição. Valores elevados para a probabilidade indicarão a aceitação
da hipótese nula e confirmação da pressuposição.
4.2.1. No R
4.2.2. No Stata
Procedendo pelo Stata, é só gerar a série de resíduos pelo comando ‘predict’, e depois
proceder o teste de hipótese simples.
Econometria – Prof. Adriano M. R. Figueiredo 91
. ttest residuos == 0
One-sample t test
Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Olhando os resultados para a hipótese Ho: mean = 0, tem-se logo abaixo três
possibilidades de hipótese alternativa: unicaudal à direita, à esquerda e bicaudal.
Para Ha: mean < 0, a probabilidade de 0.5 indica pela não rejeição de Ho. Da mesma
forma tem-se para Ha: mean > 0, com probabilidade de 0.5. Para o caso bicaudal, a indicação
de Ha: mean != 0 indica o mesmo que Ha: mean ≠ 0, ou seja, pode ser maior ou menor que 0.
Econometria – Prof. Adriano M. R. Figueiredo 92
Neste caso a probabilidade de 1.0 indica pela não rejeição de Ho, e a média pode ser
considerada como zero.
4.2.3. Eviews
No caso do Eviews, também se gera a série dos resíduos e se faz o teste de média igual
a zero.
Econometria – Prof. Adriano M. R. Figueiredo 93
Tabela dos resíduos
Na janela View da Series: Resid, escolher a opção “Tests for Description Stats”,
Simple Hypothesis Tests:
O teste para detecção mais usual é o Bera-Jarque, ou teste BJ, o qual testa a simetria e
a curtose da distribuição dos resíduos em relação à curva normal.
A curtose está associada ao achatamento da distribuição, quanto mais chata menor o
valor da curtose (K). Exemplo: K>3 (distribuição mais “em pé”), K<3 (distribuição mais
“chata”).
A curtose (em inglês kurtosis) é definida pela expressão:
4
1 Yi Y
t 1 Var
N
K
N
BJ
1
6
n p S 2 1
4
K 32 ~ 2gl 2
Se rejeitar ‘H0: erros normais’, ou seja, p-value menor que 10%, 5% ou 1% de
significância, tenho que descobrir qual é a distribuição real dos resíduos e fazer nova dedução
do estimador dos parâmetros.
Em geral, para amostras grandes, aplica-se o Teorema do Limite Central
argumentando que no limite tem-se a normalidade da distribuição dos resíduos.
#outros testes
### Testes de normalidade
# Pacote com alguns testes
library(nortest)
# Testes
t1.2 <- ks.test(u.hat_reg2, "pnorm") # KS
t2.2 <- lillie.test(u.hat_reg2) # Lilliefors
t3.2 <- cvm.test(u.hat_reg2) # Cramér-von Mises
t4.2 <- shapiro.test(u.hat_reg2) # Shapiro-Wilk
t5.2 <- sf.test(u.hat_reg2) # Shapiro-Francia
t6.2 <- ad.test(u.hat_reg2) # Anderson-Darling
# Tabela de resultados
testes <- c(t1.2$method, t2.2$method, t3.2$method, t4.2$method, t5.2$method,
t6.2$method)
estt <- as.numeric(c(t1.2$statistic, t2.2$statistic, t3.2$statistic,
t4.2$statistic, t5.2$statistic, t6.2$statistic))
valorp <- c(t1.2$p.value, t2.2$p.value, t3.2$p.value, t4.2$p.value, t5.2$p.value,
t6.2$p.value)
resultados <- cbind(estt, valorp)
rownames(resultados) <- testes
colnames(resultados) <- c("Estatística", "p")
print(resultados, digits = 4)
Exemplo 1: se K=2,95 e χ2tab = 1,76 e o p-value=0,41, para H0: erro normal, então p-
value maior que 0,10 indica a aceitação de H0, ou seja, os erros são normais.
Exemplo 2:
Ex12_22, Gujarati (p.447):
Std. Dev = 0,085542
Skewness = 0,047155
Kurtosis = 2,367936
BJ = 0,47 e p-value = 0,78 => aceita H0: erros normais
Probabilidade igual a 0,788 ou 78,8%, maior que 10%, logo não se rejeita a hipótese H0 de
que não há erro de distribuição.
Econometria – Prof. Adriano M. R. Figueiredo 103
8
DIAZ, M.D.M. Problemas econométricos no modelo linear geral. In: VASCONCELLOS, M.A.S.; ALVES, D.
(Coords.) Manual de econometria. São Paulo:Atlas, 2000. p.105-137.
Econometria – Prof. Adriano M. R. Figueiredo 104
Este problema de presença de heterocedasticidade também pode ser detectado por
meio de análise gráfica. Pode-se estimar a função e fazer o gráfico dos resíduos ao longo da
amostra:
ei x Xi
ei x Yi ou Yi,estimado
Conhecido o resultado do teste de Glejser, utiliza-se a variável da regressão auxiliar
que acusou o problema para ponderar as variáveis, transformando-as, e procedendo a
estimação de M.Q.G., ou seja, M.Q.O. nas variáveis transformadas.
A estimação por M.Q.G. será para o modelo:
P.Y = PXβ + Pε
e o vetor de parâmetros estimados será
β = (X´P´PX)-1X´P´PY
que é o mesmo que estimar o M.Q.O. para Y* = X*β + ε*.
Os resíduos podem ser obtidos no Eviews fazendo, na janela de uma equação,
Procs/make residual series. O programa pergunta o nome da série a conter os resíduos e uma
vez feito isso é só especificar a série como variável.
O método como descrito acima é uma alternativa apresentada em vários livros de
econometria, mas como a transformação fazendo Y/Xi pode gerar uma correlação espúria,
indicando uma correlação entre Y/X que na realidade não ocorreria entre Y e X caso não
fosse feita a transformação, sugere-se então os testes de White e de Breusch-Pagan-Godfrey e
a correção de White9.
9
WHITE, Halbert. A Heteroskedasticity-Consistent Covariance Matrix and a Direct Test for Heteroskedasticity.
Econometrica, 48, 817–838. 1980.
Econometria – Prof. Adriano M. R. Figueiredo 105
ou seja, o quadrado dos resíduos estimados como função das variáveis explicativas,
dos quadrados das variáveis explicativas e do produto cruzado das variáveis explicativas.
Deve-se incluir o termo do intercepto (α1) mesmo que na regressão original não o tenha.
c) Analisa-se o R2 da regressão auxiliar multiplicado pelo tamanho da amostra (n)
comparando com o valor da tabela qui-quadrado para graus de liberdade iguais ao número
total de regressores da equação auxiliar. No nosso exemplo,
n. R2 ~ χ2 com gl = 5 (X2i, X3i , X2i2, X3i2 , X2i.X3i)
Se n.R2 > χ2 tabelado, então existe heterocedasticidade.
Se n.R2 < χ2 tabelado, então α2 = α3 = α4 = α5 = α6 = 0 , e não existe
heterocedasticidade.
Deve-se tomar cuidado com este teste, pois ele prevê a inclusão de termos adicionais
que, em presença de muitas variáveis X, poderá comprometer o modelo com relação aos seus
graus de liberdade.
O teste de White, fazendo os passos como indicado acima, pode ser feito pelos
comandos.
#teste de White
m <- regressao1
data <- dados
#rotina do teste com base em m e data
u2 <- m$residuals^2
reg.auxiliar <- lm(u2 ~ I(FERTILIZANTE^2)+I(TRATOR^2)+I(MO^2)) #sem termos cruzados, no cross-terms
summary(reg.auxiliar)
Ru2<- summary(reg.auxiliar)$r.squared
LM <- nrow(data)*Ru2
#obtendo o numero de regressores menos o intercepto
k <- length(coefficients(reg.auxiliar))-1
k
p.value <- 1-pchisq(LM, k) # O TESTE TEM k TERMOS REGRESSORES EM reg.auxiliar
#c("LM","p.value")
c(LM, p.value)
# white com termos cruzados - com cross-terms
reg.auxiliar <- lm(u2 ~
FERTILIZANTE+I(FERTILIZANTE*FERTILIZANTE)+I(FERTILIZANTE*TRATOR)+I(FERTILIZANTE*
MO)+TRATOR+I(TRATOR*TRATOR)+I(TRATOR*MO)+MO+I(MO*MO))
summary(reg.auxiliar)
Ru2<- summary(reg.auxiliar)$r.squared
LM <- nrow(data)*Ru2
#obtendo o numero de regressores menos o intercepto
k <- length(coefficients(reg.auxiliar))-1
k
p.value <- 1-pchisq(LM, k) # O TESTE TEM k TERMOS REGRESSORES EM reg.auxiliar
c(LM, p.value)
Econometria – Prof. Adriano M. R. Figueiredo 106
em que e^2 são os resíduos ao quadrado, e X é a matriz do modelo. Os demais métodos são
ajustamentos desta fórmula para a matriz de var-cov dos resíduos, denotada por . Conforme
Zeileis (2006), na instrução do pacote sandwich, tem-se as expressões de para as diferentes
especificações do modelo e alternativas de HC (heterocedasticidade corrigida):
Econometria – Prof. Adriano M. R. Figueiredo 107
#regressao1<-lm(QSOJA~FERTILIZANTE+TRATOR+MO)
#library(car)
#possibilidades: hccm(regressao1,type=c("hc0","hc1","hc2","hc3","hc4"))
vcov.white0<-hccm(regressao1,type=c("hc1"))
#para obtener los resultados de las pruebas que hicimos aplicamos el siguiente comando
coeftest(regressao1,vcov.white0)
A correção do modelo neste caso pode ser feita utilizando os estimadores de matrizes
de covariâncias heterocedástico-consistentes de White, que podem ser obtidos rapidamente
pelo software Eviews.
A operacionalização no Eviews é bastante simples. Primeiro o estudante deve estimar
o modelo e, na janela da equação estimada, selecionar View/Residual Tests e depois clicar em
White Heteroskedasticity (no cross terms ou cross terms). A diferença das duas opções é que
na primeira não inclui termos multiplicativos das variáveis Xi.Xj. Na primeira opção, se
economizam graus de liberdade mas representa uma distorção do teste original. Na segunda
opção, no rigor científico, incluem-se termos cruzados e, em presença de muitos regressores,
pode causar problemas de reduzidos graus de liberdade.
Sugere-se utilizar a primeira opção quando tiver mais de 5 regressores Xi, e a segunda
quando tiver menos de 5, pois com os termos cruzados, ocorreria uma inclusão de mais outros
5 termos.
Para a mesma regressão do Quadro 4.1, mostram-se os resultados do teste de White
para termos cruzados e sem termos cruzados na Tabela 4.1. Procure distinguir as diferenças
nos resultados. A hipótese nula do teste é que não há heterocedasticidade, ou seja, de que os
erros são homocedásticos e independentes dos regressores, e que a especificação do modelo é
correta. Assim, é desejável ter a aceitação da hipótese nula, com probabilidade acima de 10%,
e baixo valor de n.R2.
Tabela 4-2. Teste de White – no cross terms, no Eviews.
White Heteroskedasticity Test:
F-statistic 2.956033 Probability 0.010300
Obs*R-squared 16.24547 Probability 0.012495
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Sample: 1988:09 1998:05
Included observations: 117
Variable Coefficient Std. Error t-Statistic Prob.
C 9515.997 6550.445 1.452725 0.1491
FERTILIZANTE -810.4509 551.7908 -1.468765 0.1448
FERTILIZANTE^2 18.85117 15.37210 1.226324 0.2227
TRATOR -2061.748 2106.302 -0.978848 0.3298
TRATOR^2 245.7209 236.7449 1.037914 0.3016
MO 76907.49 29850.12 2.576455 0.0113
MO^2 -230942.8 103719.0 -2.226620 0.0280
R-squared 0.138850 Mean dependent var 1663.833
Adjusted R-squared 0.091878 S.D. dependent var 2943.689
Econometria – Prof. Adriano M. R. Figueiredo 109
S.E. of regression 2805.201 Akaike info criterion 18.77430
Sum squared resid 8.66E+08 Schwarz criterion 18.93956
Log likelihood -1091.297 F-statistic 2.956033
Durbin-Watson stat 1.307013 Prob(F-statistic) 0.010300
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 06/06/03 Time: 18:01
Sample: 1988:09 1998:05
Included observations: 117
Variable Coefficient Std. Error t-Statistic Prob.
C -20557.49 9888.589 -2.078910 0.0400
FERTILIZANTE 445.3517 600.7180 0.741366 0.4601
FERTILIZANTE^2 25.26911 15.80557 1.598748 0.1128
FERTILIZANTE*TRA -120.1672 87.69892 -1.370224 0.1735
TOR
FERTILIZANTE*MO -13077.63 3137.312 -4.168419 0.0001
TRATOR 864.9398 3116.365 0.277548 0.7819
TRATOR^2 309.3549 253.6114 1.219799 0.2252
TRATOR*MO -22449.97 12081.31 -1.858240 0.0659
MO 426444.0 90390.39 4.717802 0.0000
MO^2 -365960.5 130236.2 -2.809975 0.0059
R-squared 0.280643 Mean dependent var 1663.833
Adjusted R-squared 0.220136 S.D. dependent var 2943.689
S.E. of regression 2599.568 Akaike info criterion 18.64567
Sum squared resid 7.23E+08 Schwarz criterion 18.88176
Log likelihood -1080.772 F-statistic 4.638220
Durbin-Watson stat 1.549746 Prob(F-statistic) 0.000034
A utilização do Stata para o teste de White pode ser realizada fazendo a regressão por
meio do comando fit e depois utilizando o pacote <white.ado>. Observe que este pacote
requer o prévio uso do fit ao invés do regress (Quadro 4.10).
Outra opção é usar o pacote <whitetst.pkg>, que faz o teste de White após o regress
(Quadro 4.11).
Econometria – Prof. Adriano M. R. Figueiredo 110
Quadro 4.16. exemplo de teste de White de heterocedasticidade com o Stata.
. fit qsoja fertilizante trator mo
. white
White's test for Ho: homoscedasticity
against Ha: unrestricted heteroscedasticity
Caso o pesquisador deseje ver a equação de teste de White, deverá gerar os resíduos e
estimar o modelo contendo as variáveis e os termos cruzados, o que pode ser feito pelos
comandos do Stata (Quadro 4.12):
. regress qsoja fertilizante trator mo
. predict res, residuals
. gen res2=res*res
. regress res2 fertilizante c.fertilizante#c.fertilizante c.fertilizante#c.trator c.fertilizante#c.mo
trator c.trator#c.trator c.trator#c.mo mo c.mo#c.mo
Econometria – Prof. Adriano M. R. Figueiredo 111
Quadro 4.18. Saída da regressão da equação de teste de White no Stata.
Source SS df MS Number of obs = 117
F( 9, 107) = 4.64
Model 282095629 9 31343958.8 Prob > F = 0.0000
Residual 723079870 107 6757755.79 R-squared = 0.2806
Adj R-squared = 0.2201
Total 1.0052e+09 116 8665306.02 Root MSE = 2599.6
Robust
qsoja Coef. Std. Err. t P>|t| [95% Conf. Interval]
Num outro exemplo, com os dados de Gujarati (2000:p.388), para gastos com P&D
em relação as vendas, obteve-se o teste de White com cross terms e os resultados a seguir.
Primeiro apresenta-se os resultados da estimação sem a correção para heterocedasticidade,
faz-se o teste de White e depois se re-estima o modelo com a correção de White (Tabelas 4.3
e 4.4 no Eviews).
Econometria – Prof. Adriano M. R. Figueiredo 113
Tabela 4-4. Resultados da estimação inicial para o exemplo de Gujarati, p.388, 4ed.no
Eviews.
Dependent Variable: RD
Method: Least Squares
Date: 06/06/03 Time: 18:38
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
SALES 0.031900 0.008329 3.830033 0.0015
C 192.9931 990.9858 0.194749 0.8480
R-squared 0.478303 Mean dependent var 3056.856
Adjusted R-squared 0.445697 S.D. dependent var 3705.973
S.E. of regression 2759.153 Akaike info criterion 18.78767
Sum squared resid 1.22E+08 Schwarz criterion 18.88660
Log likelihood -167.0891 F-statistic 14.66916
Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476
Tabela 4-5. Saída do Teste de White para o exemplo de Gujarati, p.388, 4ed. Eviews.
White Heteroskedasticity Test:
F-statistic 3.057178 Probability 0.076975
Obs*R-squared 5.212492 Probability 0.073811
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 06/06/03 Time: 18:32
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
C -6219665. 6459809. -0.962825 0.3509
SALES 229.3508 126.2197 1.817077 0.0892
SALES^2 -0.000537 0.000449 -1.194952 0.2507
R-squared 0.289583 Mean dependent var 6767046.
Adjusted R-squared 0.194861 S.D. dependent var 14706011
S.E. of regression 13195639 Akaike info criterion 35.77968
Sum squared resid 2.61E+15 Schwarz criterion 35.92808
Log likelihood -319.0171 F-statistic 3.057178
Durbin-Watson stat 1.694567 Prob(F-statistic) 0.076975
Neste caso, com os dados em seção cruzada (indústrias dos EUA), não foi possível
deixar de rejeitar a hipótese nula de homocedasticidade ao nível de 10% de significância,
como observado pelo valor da probabilidade de Obs*R-squared = 0,073811, menor que 0,10.
Existe problema de heterocedasticidade nos resíduos.
Mostram-se agora os resultados com a correção de White, obtidos no Eviews fazendo
alteração na janela da estimação, clicando em Options e selecionando a caixa
heteroskedasticity, e clicando em White. Os resultados são como na Tabela 4-6.
Econometria – Prof. Adriano M. R. Figueiredo 114
Observe que agora na saída do Eviews, indica-se que foi utilizada a opção White
Heteroskedasticity-Consistent Standard Errors & Covariance, e pode-se comparar os
resultados com os da Tabela 4.3, sem essa opção de White. De modo geral, nesse exemplo, os
erros-padrões estavam subestimados. Pode-se observar que o modelo com heterocedasticidade
apresenta viés nos erros padrões, podendo ser negativo ou positivo, dependendo do estudo.
Quanto aos parâmetros, não ocorrem alterações.
Após a correção de White não cabe mais a nova realização do teste, pois os resultados
já foram obtidos com os resíduos alterados pelo critério de White.
a. Se a probabilidade de LM = SQReg/(2 ̂ )
4
(Scaled explained Sum of
Squares) < 0.10, (10%), rejeita-se H0 e existirá heterocedasticidade;
b. H0: não tem heterocedasticidade dos resíduos.
regressao1<-lm(QSOJA~FERTILIZANTE+TRATOR+MO)
library(AER)
## teste de Breusch-Pagan - bptest simples
bp.het<-bptest(regressao1, studentize = TRUE)
chi2(3) = 15.65
Prob > chi2 = 0.0013
chi2(3) = 10.09
Prob > chi2 = 0.0178
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 04/21/14 Time: 16:20
Sample: 1 117
Included observations: 117
Dependent Variable: PD
Method: Least Squares
Date: 03/04/05 Time: 16:00
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
VENDAS 0.031900 0.008329 3.830033 0.0015
C 192.9931 990.9858 0.194749 0.8480
R-squared 0.478303 Mean dependent var 3056.856
Adjusted R-squared 0.445697 S.D. dependent var 3705.973
S.E. of regression 2759.153 Akaike info criterion 18.78767
Sum squared resid 1.22E+08 Schwarz criterion 18.88660
Log likelihood -167.0891 F-statistic 14.66916
Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476
Dependent Variable: ME
Method: Least Squares
Date: 03/04/05 Time: 18:18
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
VENDAS 0.011939 0.005704 2.093059 0.0526
C 578.5710 678.6950 0.852476 0.4065
R-squared 0.214951 Mean dependent var 1650.432
Adjusted R-squared 0.165886 S.D. dependent var 2069.046
S.E. of regression 1889.657 Akaike info criterion 18.03062
Sum squared resid 57132868 Schwarz criterion 18.12955
Log likelihood -160.2756 F-statistic 4.380896
Durbin-Watson stat 1.743294 Prob(F-statistic) 0.052633
Econometria – Prof. Adriano M. R. Figueiredo 122
Me em função da raiz de vendas:
Dependent Variable: ME
Method: Least Squares
Date: 03/04/05 Time: 18:18
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
SQR(VENDAS) 7.971957 3.363146 2.370387 0.0307
C -507.0202 1007.684 -0.503154 0.6217
R-squared 0.259901 Mean dependent var 1650.432
Adjusted R-squared 0.213645 S.D. dependent var 2069.046
S.E. of regression 1834.761 Akaike info criterion 17.97166
Sum squared resid 53861578 Schwarz criterion 18.07059
Log likelihood -159.7449 F-statistic 5.618732
Durbin-Watson stat 1.785727 Prob(F-statistic) 0.030672
Econometria – Prof. Adriano M. R. Figueiredo 123
Me em função de 1/vendas:
Dependent Variable: ME
Method: Least Squares
Date: 03/04/05 Time: 18:20
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
1/(VENDAS) -19924566 12318138 -1.617498 0.1253
C 2273.702 604.6990 3.760056 0.0017
R-squared 0.140538 Mean dependent var 1650.432
Adjusted R-squared 0.086822 S.D. dependent var 2069.046
S.E. of regression 1977.188 Akaike info criterion 18.12118
Sum squared resid 62548360 Schwarz criterion 18.22011
Log likelihood -161.0906 F-statistic 2.616300
Durbin-Watson stat 1.505561 Prob(F-statistic) 0.125313
Correção:
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 03/04/05 Time: 18:32
Sample: 1 18
Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
C -6219665. 6459809. -0.962825 0.3509
VENDAS 229.3508 126.2197 1.817077 0.0892
VENDAS^2 -0.000537 0.000449 -1.194952 0.2507
R-squared 0.289583 Mean dependent var 6767046.
Adjusted R-squared 0.194861 S.D. dependent var 14706011
S.E. of regression 13195639 Akaike info criterion 35.77968
Sum squared resid 2.61E+15 Schwarz criterion 35.92808
Log likelihood -319.0171 F-statistic 3.057178
Durbin-Watson stat 1.694567 Prob(F-statistic) 0.076975
Dependent Variable: PD
Method: Least Squares
Date: 03/04/05 Time: 18:29
Sample: 1 18
Included observations: 18
White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficient Std. Error t-Statistic Prob.
C 192.9931 533.9317 0.361457 0.7225
VENDAS 0.031900 0.010147 3.143815 0.0063
R-squared 0.478303 Mean dependent var 3056.856
Adjusted R-squared 0.445697 S.D. dependent var 3705.973
S.E. of regression 2759.153 Akaike info criterion 18.78767
Sum squared resid 1.22E+08 Schwarz criterion 18.88660
Log likelihood -167.0891 F-statistic 14.66916
Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476
ˆ t ˆ t 1
2
DW t 2
T
21 ˆ
ˆ
2
t
t 1
em que
ρ=0 DW = 2 => ausência de autocorrelação
ρ = +1 DW = 0 => autocorrelação positiva e perfeita
ρ = -1 DW = 4 => autocorrelação negativa e perfeita
Econometria – Prof. Adriano M. R. Figueiredo 128
em que
dL = limite inferior => vem da tabela para n observações e k variáveis explanatórias
dU = limite superior => vem da tabela para n observações e k variáveis explanatórias
Exemplo:
Para k = 3 (referente a um modelo com X1, X2 e X3), para n = 30 observações, a tabela de
DW para 5% de significância nos fornece dL = 1,214 e dU=1,650, e portanto,
4-dL = 4 – 1,214 = 2,786
4 – dU = 4 – 1,650 = 2,350
Para 0<DW<1,214 = rejeição de Ho e autocorrelação positiva
Para 1,214<DW<1,650 = área inconclusiva
Para 1,650<DW<2,350 = aceitação de Ho e não-autocorrelação
Para 2,350<DW<2,786 = área inconclusiva
Para 2,786<DW<4 = rejeição de Ho e autocorrelação negativa
T
h ~ N(0,1) = comparar com o limite de ±1,96 p/ 5%
1 T.Var()
em que
T – número de observações
β – parâmetro da variável dependente defasada.
Para especificar uma série temporal para anual, seria utilizando ty ao invés de tm.
Econometria – Prof. Adriano M. R. Figueiredo 130
. tsset ano, yearly
time variable: ano, 1970 to 1983
delta: 1 year
. regress pnb m1 m2 m3 l
. estat dwatson
Realizando o mesmo exemplo anterior, mas agora no R, pode-se proceder com o script
como no quadro. Primeiro se define o modelo como série temporal, realiza a regressão e
depois realiza o teste de DW.
O resultado foi pela rejeição de H0, ou seja, rejeita-se que não tenha autocorrelação até
1ª ordem.
Econometria – Prof. Adriano M. R. Figueiredo 132
1. estimar o modelo de regressão pelo método usual de MQO e obter resíduos εt;
2. estimar o modelo de εt como função das demais variáveis X do modelo “a” e
também de variáveis εt defasadas (εt-1 εt-2 ... etc) (formando assim a matriz de
regressores X 0 ), utilizando para estas defasagens os resíduos obtidos em “a”;
Seja o exemplo da definição de moeda afetando o PNB, o script para realizar o teste de
LM de correlação serial até ordem p é feito pelo comando ‘bgtest’. No caso, estabeleceram-se
quatro testes, ou seja, procedeu-se o mesmo teste para ordens 1, 2, 3 e até 4.
# Teste de Breusch-Godfrey para ordens superiores
# Também chamado de LM de correlação serial
bgteste1<-bgtest(regressao1, order = 1, type = c("Chisq", "F"), data = dados.st)
bgteste2<-bgtest(regressao1, order = 2, type = c("Chisq", "F"), data = dados.st)
bgteste3<-bgtest(regressao1, order = 3, type = c("Chisq", "F"), data = dados.st)
bgteste4<-bgtest(regressao1, order = 4, type = c("Chisq", "F"), data = dados.st)
bgteste1
bgteste2
bgteste3
bgteste4
Neste caso, as saídas foram todas pela rejeição de não autocorrelação residual nos
quatro casos. Deve-se então corrigir o modelo para tal violação de pressuposto clássico. A
função retorna no “default” a estatística para a distribuição qui-quadrado. Quando se solicita a
saída da estatística “F”, esta tem uma distribuição F para amostra finita.
Econometria – Prof. Adriano M. R. Figueiredo 134
Hypothesis:
L(residual) = 0
L(residual, 2) = 0
L(residual, 3) = 0
Model 1: restricted model
Model 2: residual ~ L(residual) + L(residual, 2) + L(residual, 3) + log(che
mpi) +
log(gas) + log(rtwex) + befile6 + affile6 + afdec6
Veja que neste caso, F=5.1232 e p-value = 0.002289, levando a rejeição de H0: ausência de
autocorrelação serial até ordem 3. Ou seja, existe evidência de autocorrelação serial AR(3).
Entretanto, náo foi possível observar qual o lag com coeficiente significativo. Isto será
possível fazendo o “summary(resreg)”:
Econometria – Prof. Adriano M. R. Figueiredo 138
> summary(resreg)
Call:
dynlm(formula = residual ~ L(residual) + L(residual, 2) + L(residual,
3) + log(chempi) + log(gas) + log(rtwex) + befile6 + affile6 +
afdec6, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-1.88999 -0.32255 0.05904 0.36411 1.19769
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -14.52655 20.76374 -0.700 0.486
L(residual) 0.22198 0.09170 2.421 0.017 *
L(residual, 2) 0.13370 0.09213 1.451 0.149
L(residual, 3) 0.12533 0.09111 1.376 0.172
log(chempi) -0.14257 0.47174 -0.302 0.763
log(gas) 0.63002 0.89053 0.707 0.481
log(rtwex) 0.17880 0.39086 0.457 0.648
befile6 -0.08531 0.25097 -0.340 0.735
affile6 -0.12153 0.25472 -0.477 0.634
afdec6 -0.06730 0.27431 -0.245 0.807
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
data: reg1
LM test = 14.767, df = 3, p-value = 0.002027
data: reg1
LM test = 5.1241, df1 = 3, df2 = 121, p-value = 0.002265
Econometria – Prof. Adriano M. R. Figueiredo 139
No Stata, o teste vem implantado nas opções após estimação do modelo, e pode ser
acessado pelas janelas do software ou pelo comando <estat bgodfrey, lags (1 2 3 ... p)>, em
que o pesquisador define quais os lags a serem analisados. O programa retornará o teste para
cada um dos lags.
1 9.424 1 0.0021
2 9.950 2 0.0069
3 12.242 3 0.0066
4 12.352 4 0.0149
5 12.556 5 0.0279
6 12.707 6 0.0479
Neste exemplo, observe que a probabilidade menor que 1%, 5% ou 10% levará a
rejeição de H0: não autocorrelação dos resíduos. Aqui se teve rejeição desde a primeira
ordem. O leitor atento gostará olhar a equação de teste, que usualmente não é reportada pelo
software, fazendo a previsão dos resíduos do modelo original e a equação dos resíduos em
Econometria – Prof. Adriano M. R. Figueiredo 140
função das variáveis explicativas originais e dos resíduos defasados, aqui utilizando o
operador de defasagem do Stata, representado por (l.variável). No caso, para 6 defasagens,
pode-se simplificar a notação escrevendo no comando regress a expressão <L(1/6).res>. Isto é
o equivalente a incluir como variáveis os lags L1.res, L2.res, L3.res, ..., L6.res = (εt-1 εt-2 ... εt-
6). Neste exemplo a base de dados apresenta multicolinearidade e, por este motivo, não são
obtidos os valores de erros-padrões.
. predict res, residuals
m1 0 (omitted)
m2 -1.104659 . . . . .
m3 -3.957807 . . . . .
l 4.015903 . . . . .
res
L1. -.0094944 . . . . .
L2. .9671443 . . . . .
L3. -1.506737 . . . . .
L4. 0 (omitted)
L5. 0 (omitted)
L6. -.842507 . . . . .
_cons 374.7052 . . . . .
1 11.121 1 0.0009
2 14.781 2 0.0006
3 16.505 3 0.0009
4 19.404 4 0.0007
5 19.447 5 0.0016
6 19.679 6 0.0032
7 21.542 7 0.0030
8 21.606 8 0.0057
9 24.942 9 0.0030
10 24.942 10 0.0055
11 25.346 11 0.0081
12 25.687 12 0.0119
Desde a primeira ordem existe autocorrelação, não sendo possível saber exatamente
até qual lag é o problema. Faz-se a equação de teste para melhorar a visualização.
Econometria – Prof. Adriano M. R. Figueiredo 142
. regress res l_chempi l_gas l_rtwex l(1/12).res
res
L1. .2030911 .0981034 2.07 0.041 .0085262 .397656
L2. .1373696 .0996312 1.38 0.171 -.0602253 .3349645
L3. .1555331 .1010439 1.54 0.127 -.0448636 .3559298
L4. -.1545982 .1011423 -1.53 0.129 -.35519 .0459936
L5. -.0514118 .0980085 -0.52 0.601 -.2457887 .142965
L6. .0091389 .0968191 0.09 0.925 -.182879 .2011568
L7. .1483849 .0966711 1.53 0.128 -.0433395 .3401092
L8. .0658224 .0976796 0.67 0.502 -.1279021 .2595469
L9. -.1264921 .0964877 -1.31 0.193 -.3178528 .0648685
L10. .0077911 .0967757 0.08 0.936 -.1841406 .1997229
L11. -.0334636 .0951027 -0.35 0.726 -.2220774 .1551502
L12. -.055116 .0927521 -0.59 0.554 -.2390679 .128836
Com esta equação de teste, é possível ver que apenas o L1.res teve coeficiente
significativo a 5%. Os demais foram não significativos. Entretanto, deve-se ter cautela, pois a
retirada de lags da equação de teste pode indicar outros resultados significativos. Devem-se
retirar os termos um a um, observar a estabilidade dos resultados a fim de avaliar a inclusão
de um ou outro lag e alguma justificativa do fenômeno para estes períodos de interferência.
Por exemplo, fazendo para apenas 6 lags, agora aparecem os lags L1.res, L2.res e L4.res
como importantes neste caso.
Econometria – Prof. Adriano M. R. Figueiredo 143
. regress res l_chempi l_gas l_rtwex l(1/6).res
res
L1. .2368314 .0923923 2.56 0.012 .05382 .4198429
L2. .1934805 .0942596 2.05 0.042 .0067704 .3801906
L3. .1242248 .0940219 1.32 0.189 -.0620146 .3104641
L4. -.1875369 .0947112 -1.98 0.050 -.3751415 .0000677
L5. .0149124 .0935503 0.16 0.874 -.1703928 .2002175
L6. .0581912 .09106 0.64 0.524 -.1221812 .2385635
. estat dwatson
Exercicio 12.22 Gujarati, p.447-448: Seja uma regressão do preço do cobre explicado por um
índice da indústria, do preço do cobre na bolsa, de um índice da construção e do preço do
alumínio.
No Stata, segue a regressão original.
. regress lpcdom lipi lpcbolsa lconst lpalu
1 8.841 1 0.0029
2 13.507 2 0.0012
3 13.707 3 0.0033
4 13.754 4 0.0081
Estima-se o modelo inicial por M.Q.O. e depois segue um procedimento iterativo até
alcançar a convergência nos parâmetros. Este procedimento é chamado também de Feasible
Generalized Least Squares (FGLS). Abaixo estão os passos da estimação de Cochrane-Orcutt:
1) Estima-se modelo inicial por MQO e obtém DW
2) Calcula-se ρ = 1 – 0,5.DW
3) Estima equação transformada:
Yt Yt 1 1 1 2 X t X t 1 t
ou
𝑌 ∗ = 𝛽 ∗ + 𝛽 ∗ . 𝑋 ∗ + µ∗
4) Recalcula-se (2) e verifica-se a convergência para ρ.
5) Repetem-se os passos (2) a (4) até que a convergência seja menor que 0,01.
A implementação no Eviews prevê a inserção de um termo AR(1) na especificação das
variáveis da equação. O programa fará a estimação considerando a correção para o
autoregressivo de primeira ordem.
Econometria – Prof. Adriano M. R. Figueiredo 146
função dos demais xkt [ x1t f x2t ,..., xkt ], e calcula-se aˆt rˆt .uˆt . Para uma escolha de g, que
Exercicio 12.22 Gujarati, p.447-448: Seja uma regressão do preço do cobre explicado por um
índice da indústria, do preço do cobre na bolsa, de um índice da construção e do preço do
alumínio.
Test Equation:
Dependent Variable: RESID
Method: Least Squares
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) -0.104877 0.146079 -0.717946 0.4797
LOG(PCBOLSA) 0.089288 0.102299 0.872811 0.3914
LOG(CONST) 0.045395 0.123362 0.367981 0.7161
LOG(PALU) -0.009785 0.091346 -0.107125 0.9156
C -0.368385 0.867570 -0.424617 0.6749
RESID(-1) 0.567066 0.179076 3.166620 0.0042
R-squared 0.294688 Mean dependent var 8.14E-17
Adjusted R-squared 0.147748 S.D. dependent var 0.113041
S.E. of regression 0.104357 Akaike info criterion -1.505141
Sum squared resid 0.261370 Schwarz criterion -1.224901
Log likelihood 28.57711 F-statistic 2.005497
Durbin-Watson stat 1.521486 Prob(F-statistic) 0.114145
Para AR(2):
Breusch-Godfrey Serial Correlation LM Test:
F-statistic 9.417751 Probability 0.001028
Obs*R-squared 13.50683 Probability 0.001167
Test Equation:
Dependent Variable: RESID
Method: Least Squares
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) -0.036780 0.134421 -0.273620 0.7868
LOG(PCBOLSA) 0.028677 0.095271 0.301008 0.7661
LOG(CONST) 0.082020 0.112179 0.731149 0.4721
LOG(PALU) -0.017166 0.082432 -0.208239 0.8369
C -0.552588 0.785758 -0.703255 0.4890
RESID(-1) 0.795135 0.184599 4.307363 0.0003
RESID(-2) -0.489015 0.191703 -2.550900 0.0179
R-squared 0.450228 Mean dependent var 8.14E-17
Adjusted R-squared 0.306809 S.D. dependent var 0.113041
S.E. of regression 0.094116 Akaike info criterion -1.687610
Sum squared resid 0.203731 Schwarz criterion -1.360664
Log likelihood 32.31415 F-statistic 3.139250
Durbin-Watson stat 1.918606 Prob(F-statistic) 0.021333
Também existe problema para AR(2). Ficou mais expressivo o problema de autocorrelação.
Econometria – Prof. Adriano M. R. Figueiredo 149
Para AR(3):
Breusch-Godfrey Serial Correlation LM Test:
F-statistic 6.169355 Probability 0.003321
Obs*R-squared 13.70695 Probability 0.003332
Test Equation:
Dependent Variable: RESID
Method: Least Squares
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) -0.029746 0.137274 -0.216691 0.8304
LOG(PCBOLSA) 0.025964 0.096960 0.267780 0.7914
LOG(CONST) 0.078075 0.114254 0.683340 0.5015
LOG(PALU) -0.025278 0.085213 -0.296644 0.7695
C -0.512105 0.802317 -0.638283 0.5299
RESID(-1) 0.854409 0.219535 3.891895 0.0008
RESID(-2) -0.592317 0.278293 -2.128395 0.0447
RESID(-3) 0.126950 0.244219 0.519819 0.6084
R-squared 0.456898 Mean dependent var 8.14E-17
Adjusted R-squared 0.284093 S.D. dependent var 0.113041
S.E. of regression 0.095646 Akaike info criterion -1.633151
Sum squared resid 0.201259 Schwarz criterion -1.259498
Log likelihood 32.49727 F-statistic 2.644009
Durbin-Watson stat 2.002055 Prob(F-statistic) 0.038212
Ainda tem, mas menos que para AR(2). Observe que o termo de RESID(-3) já não é
significativo. Optar por corrigir para AR(2).
Similarmente, estimando no Stata e corrigindo para p=2, a estimação do modelo com correção
de autocorrelação é feita pela opção <Time Series / ARIMA and ARMAX models>:
Neste caso, especificam-se 2 defasagens de AR, p=2. Observe que os resultados apresentarão
estes termos descritos como AR, L1. e L2.
Econometria – Prof. Adriano M. R. Figueiredo 151
ARIMA regression
OPG
lpcdom Coef. Std. Err. z P>|z| [95% Conf. Interval]
lpcdom
lipi .445348 .1958934 2.27 0.023 .0614039 .829292
lpcbolsa .2874183 .1397868 2.06 0.040 .0134412 .5613953
lconst .0951566 .1545352 0.62 0.538 -.2077267 .39804
lpalu .4352074 .0977832 4.45 0.000 .2435558 .6268591
_cons -2.16279 1.090135 -1.98 0.047 -4.299416 -.0261643
ARMA
ar
L1. .7522133 .1970465 3.82 0.000 .3660093 1.138417
L2. -.5081638 .1979488 -2.57 0.010 -.8961363 -.1201914
Note: The test of the variance against zero is one sided, and the two-sided
confidence interval is truncated at zero.
Observe que a saída do Stata não apresenta R², mas pode-se comparar olhando os
critérios de informação (IC) de Akaike e Schwarz. Também pode-se olhar a significância dos
coeficientes, procurando um modelo com mais coeficientes significativos. Esta informação do
<estat ic> deve ser realizada logo após a estimação, de modo a se ter as estatísticas do
Econometria – Prof. Adriano M. R. Figueiredo 152
modelo, por exemplo, comparando o modelo apenas com AR(1) contra um alternativo
contendo AR(1) e AR(2). Quanto menores os valores de AIC e SIC, melhor o modelo.
Neste exemplo, AIC = -47 para o modelo com duas defasagens, e AIC = -42 quando se
especifica apenas AR(1). Ainda, pode-se observar que nos resultados do modelo contendo
duas defasagens, os coeficientes de ar L1. e L2. foram significativos, ou seja, o termo AR(2)
foi efetivamente importante para melhorar a explicação do modelo.
. estat ic
Dependent Variable: RR
Method: Least Squares
Date: 03/07/05 Time: 20:19
Sample: 1954 1981
Included observations: 28
Variable Coefficient Std. Error t-Statistic Prob.
GROWTH 3.943315 1.293445 3.048693 0.0054
INFLATION -2.499426 1.082101 -2.309789 0.0294
C 3.531812 8.111369 0.435415 0.6670
R-squared 0.572374 Mean dependent var 5.875000
Adjusted R-squared 0.538164 S.D. dependent var 20.89837
S.E. of regression 14.20223 Akaike info criterion 8.245632
Sum squared resid 5042.582 Schwarz criterion 8.388368
Log likelihood -112.4388 F-statistic 16.73114
Durbin-Watson stat 1.896592 Prob(F-statistic) 0.000024
DW = 1,8965
. estat dwatson
Test Equation:
Dependent Variable: RESID
Method: Least Squares
Date: 03/07/05 Time: 20:23
Variable Coefficient Std. Error t-Statistic Prob.
GROWTH -0.371429 1.426117 -0.260448 0.7968
INFLATION -0.131592 1.125693 -0.116898 0.9080
C 1.737633 8.657860 0.200700 0.8427
RESID(-1) -0.014931 0.211928 -0.070455 0.9444
RESID(-2) -0.177451 0.222006 -0.799306 0.4323
R-squared 0.027070 Mean dependent var -3.68E-15
Adjusted R-squared -0.142136 S.D. dependent var 13.66610
S.E. of regression 14.60506 Akaike info criterion 8.361046
Sum squared resid 4906.081 Schwarz criterion 8.598940
Log likelihood -112.0546 F-statistic 0.159981
Durbin-Watson stat 1.787912 Prob(F-statistic) 0.956406
1 0.001 1 0.9721
2 0.758 2 0.6846
3 3.080 3 0.3794
4 3.903 4 0.4193
Se mais de uma variável é suspeita, deve fazer o teste F para os diferentes resíduos
envolvidos.
Econometria – Prof. Adriano M. R. Figueiredo 159
Assim, para o caso de x1 e x2, fazer regressões para cada um e obter u1 e u2. A
regressão terá como hipótese que H : δ = δ = 0.
O teste F será para os parâmetros das variáveis explicativas endógenas previstas ( Yˆ2 e
Yˆ3 ao mesmo tempo iguais a zero): usar teste Wald e colocar os coeficientes iguais a
zero ao mesmo tempo.
p index g interest
p 1.0000
index 0.6357 1.0000
g 0.6362 0.9786 1.0000
interest 0.7243 0.8043 0.8039 1.0000
Econometria – Prof. Adriano M. R. Figueiredo 163
Quadro 4.21. Matrizes de correlações parciais, Stata.
. pcorr g p index interest
(obs=15)
Ou seja, retorna as correlações parciais de uma variável com respeito a cada variável
da lista (year, g, interest, p).
Econometria – Prof. Adriano M. R. Figueiredo 164
Outro método é a análise do Fator de variância inflacionária (FVI), ou no inglês
Variance Inflation Factor (VIF), ou ainda, Fator de inflação da Variância (Gujarati, 2006:
p.282), para cada variável explicativa. Neste caso, faz-se a estimação de
𝑥 = 𝑓 𝑥 , 𝑥 , 𝑥 … 𝑥 e obtém-se o 𝑅 para cada variável. O FVI da variável i será:
1
𝐹𝑉𝐼 =
1−𝑅
g 1690.30 0.000592
intercept 1010.43 0.000990
index 106.90 0.009355
interest 31.15 0.032103
p 28.87 0.034636
. estat vif
Para a regra de Klein, é preciso ter regressões auxiliares. Recorde que a regressão
original teve R² = 0.9735. Fazem-se várias regressões de Xi contra Xj, e analisam-se os
diversos R² contra o R² da regressão original, ou seja, se nas regressões auxiliares os R² são
maiores ou menores que 0.9735.
Quadro 4.25. Regressão auxiliar para a regra de Klein: index, em Stata
. regress index g interest p
Portanto, conforme saídas das regressões auxiliares, em nenhum caso o R² foi superior
a 0.9735. Ou seja,
Econometria – Prof. Adriano M. R. Figueiredo 168
R2Y∙ X1, X2, ... , Xk =0.9735 > R2 Xi ∙ X1, X2... , Xk = 0.9586 (para index em função das
demais)
Neste caso, pela regra de Klein, não se tem uma multicolinearidade preocupante.
Entretanto, pode-se observar que existe um valor de R² expressivo acima de 0,9 na regressão
cuja variável dependente é g e na que é index. Observe que g explica index assim como index
explica g a 1% de significância. Ou seja, existe uma relação entre g e index. Isto foi
observado quando se fez a correlação e obteve valor de 0,9786 entre g e index, e 0,9384 nas
correlações parciais entre g e index. Também a mesma relação se observa nos VIF
anteriormente calculados.
> reg1.vif<-vif(reg1)
> reg1.vif
index g interest p
24.138403 24.113602 3.654118 2.141294
Da mesma forma que anteriormente, é possível ver valores acima de 5 para as
variáveis index e g, que podem estar com respectivas variâncias dos parâmetros
“inflacionadas”.
Pela regra de Klein, estimam-se as regressões auxiliares alternando as variáveis
explicativas na posição de variável explicada e observam-se os respectivos R² das regressões
auxiliares comparando com o R² = 0,9735 da regressão principal.
Portanto, similarmente aos resultados dos outros softwares, nenhum dos R² das
regressões auxiliares foi acima de R² = 0,9735 da regressão principal e não foi possível
afirmar que existe um problema de multicolinearidade no modelo.
Com relação à correção, neste caso, deve-se optar por tirar uma das variáveis (index
ou g), ou alterar o modelo fazendo alguma combinação entre as duas. No exemplo, a variável
index é uma variável tendência, e a variável g é o GNP real (ou PNB real no português). Ou
seja, é uma relação de tendência temporal dentro da g. O mais sensato é retirar a variável
tendência, obtendo (pelo Stata) (reproduz-se abaixo também a equação inicial para facilitar a
comparação):
Econometria – Prof. Adriano M. R. Figueiredo 175
Quadro 4.40. Equação com a variável index, Stata.
. regress y index g interest p
Observe que, como esperado, R² decresce para 0.7776. Ou seja, reduziu bastante o
poder de explicação. Embora houvesse alguma indicação de multicolinearidade entre g e
index, ao retirar a variável tendência, não apenas reduziu bastante o poder de explicação como
também a variável interest perdeu poder de explicação. Existe uma relação importante de y
com a variável index (tendência). Isto é natural, considerando que a variável explicada y é o
investimento real. Ou seja, existe uma relação esperada do investimento no tempo (relação
com a tendência, index) assim como com a taxa de juros (interest) e o GNP real (g). Assim, é
mais plausível deixar o modelo com a variável index. Isto pode estar causando o problema
chamado de regressão espúria devido à “não-estacionariedade” da série.
Econometria – Prof. Adriano M. R. Figueiredo 176
A mesma estimação pelo R será:
Quadro 4.42. Estimativas do modelo sem a variável index, R.
> reg2 <- lm(y~g+interest+p, data=tsdata )
> summary(reg2)
Call:
lm(formula = y ~ g + interest + p, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-0.031352 -0.004970 0.003501 0.009404 0.020617
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.072471 0.050213 -1.443 0.176812
g 0.236190 0.051332 4.601 0.000763 ***
interest -0.003648 0.003274 -1.114 0.288942
p -0.000144 0.003642 -0.040 0.969163
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.01815 on 11 degrees of freedom
Multiple R-squared: 0.7776, Adjusted R-squared: 0.7169
F-statistic: 12.82 on 3 and 11 DF, p-value: 0.0006529
Econometria – Prof. Adriano M. R. Figueiredo 177
Call:
lm(formula = Employed ~ GNP.deflator + GNP + Unemployed +
Armed.Forces +
Population + Year, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-410.11 -157.67 -28.16 101.55 455.39
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.727e+04 2.251e+04 3.433 0.007470 **
GNP.deflator 1.506e+01 8.491e+01 0.177 0.863141
GNP -3.582e-02 3.349e-02 -1.070 0.312681
Unemployed -2.020e+00 4.884e-01 -4.136 0.002535 **
Armed.Forces -1.033e+00 2.143e-01 -4.822 0.000944 ***
Population -5.110e-02 2.261e-01 -0.226 0.826212
Year 1.829e+03 4.555e+02 4.016 0.003037 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 304.9 on 9 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9925
F-statistic: 330.3 on 6 and 9 DF, p-value: 4.984e-10
10
J. W. Longley (1967) An appraisal of least-squares programs from the point of view of the user. Journal of the
American Statistical Association 62, 819–841.
11
Detalhes em: <https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/longley.html> com sete variáveis.
12
Disponível em <https://artax.karlin.mff.cuni.cz/r-help/library/AER/html/Longley.html> com quatro variáveis.
Econometria – Prof. Adriano M. R. Figueiredo 178
. regress y x1 x2 x3 x4 x5 x6
x1 x2 x3 x4 x5 x6
x1 1.0000
x2 0.9916 1.0000
x3 0.6206 0.6043 1.0000
x4 0.4647 0.4464 -0.1774 1.0000
x5 0.9792 0.9911 0.6866 0.3644 1.0000
x6 0.9911 0.9953 0.6683 0.4172 0.9940 1.0000
> correl<-cor(tsdata)
> correl
O valor para comparação para a regra de Klein é R²=0.9955. Desta forma, a regressão
que acusa o problema é a reg1.GNP, reg1.pop, reg1.year. Olhando essas equações, percebe-
se uma relação significativa estatisticamente entre GNP e pop e tendência (year),
principalmente.
Dependent Variable: X4
Method: Least Squares
Sample: 1947 1962
Included observations: 16
Dependent Variable: X5
Method: Least Squares
Sample: 1947 1962
Included observations: 16
Dependent Variable: X6
Method: Least Squares
Sample: 1947 1962
Included observations: 16
Var. Dep. X1 X2 X3 X4 X5 X6
R2 0.992622 0.999441 0.970255 0.721365 0.997495 0.998682
OBS: R² da regressão principal = 0.995479
Econometria – Prof. Adriano M. R. Figueiredo 189
Conclusão: São evidenciados problemas de multicolinearidade entre x2
(PNB), x5 (população maior de 14anos) e x6 (tendência). Para melhorar a análise,
faz-se o cálculo do vif pelos softwares.
> reg1.vif<-vif(reg1)
> reg1.vif
GNP.deflator GNP Unemployed Armed.Forces Population Year
135.53244 1788.51348 33.61889 3.58893 399.15102 758.98060
x2 1788.51 0.000559
x6 758.98 0.001318
x5 399.15 0.002505
x1 135.53 0.007378
x3 33.62 0.029745
x4 3.59 0.278635
Dependent Variable: Y
Method: Least Squares
Date: 03/14/17 Time: 09:31
Sample: 1947 1962
Included observations: 16
. regress y z x4 x5
> reg2<-lm(Employed~I(GNP/GNP.deflator)+Armed.Forces
+ + Population, data=tsdata )
> summary(reg2)
Call:
lm(formula = Employed ~ I(GNP/GNP.deflator) + Armed.Forces +
Population, data = tsdata)
Residuals:
Min 1Q Median 3Q Max
-1131.8 -139.5 13.6 306.3 681.7
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 65720.3663 10624.8077 6.186 4.69e-05 ***
I(GNP/GNP.deflator) 9.7365 1.7916 5.435 0.000151 ***
Armed.Forces -0.6880 0.3222 -2.135 0.054074 .
Population -0.2995 0.1418 -2.113 0.056234 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 535.4 on 12 degrees of freedom
Multiple R-squared: 0.9814, Adjusted R-squared: 0.9768
F-statistic: 211.1 on 3 and 12 DF, p-value: 1.203e-10
Econometria – Prof. Adriano M. R. Figueiredo 192
Quadro 4.71. Resumo das violações de pressupostos do modelo de regressão linear clássico.
RESET de Ramsey
1. Relação Linear / especificação H0: Não há erro de especificação Se rejeitar H0
(linktest, ovtest)
2 . Média do erro é zero Teste de hipótese simples (t) H0: média igual a zero Se rejeitar H0
7. Erro tem distribuição normal Bera-Jarque H0: erros são normais Se rejeitar H0
* Em que Y = [Yi] é um vetor nX1 das observações da variável dependente; X = [Xij] é uma matriz nXp das observações das variáveis independentes; ε = [εi] é um vetor nX1
dos erros aleatórios; β = [βj], j = 0, 1, 2, ..., k é um vetor pX1 de parâmetros a serem estimados; δ² é a variância do erro, também a ser estimada; I é uma matriz identidade de
ordem mXn; k é o número de variáveis independentes; p = K + 1 é o número de parâmetros; n é o número de observações; E significa valor esperado ou esperança matemática.
Fonte: elaboração própria.
Econometria – Prof. Adriano M. R. Figueiredo 193
5. Referências Bibliográficas
DEBENEDICTIS, L. F.; GILES D. E. A. Diagnostic Testing in Econometrics: Variable
Addition, RESET and Fourier Approximations. In: ULLAH, Aman; GILES, D. E. A. (Eds.),
Handbook of Applied Economic Statistics. Marcel Dekker, New York; 1998. pp.383-417.
GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica. 5.ed. Porto Alegre:
AMGH/Bookman/McGraw-Hill do Brasil, 2011.
HILL, C.; GRIFFITHS, W.; JUDGE, G. Econometria. São Paulo: Saraiva, 1999.
MATOS, O.C. Econometria Básica: teoria e aplicações. São Paulo: Atlas, 1995.
PREGIBON, D. Goodness of link tests for generalized linear models. Applied Statistics,
vol.29, pp. 15–24. 1980.
RAMSEY, J. B. Tests for Specification Errors in Classical Linear Least Squares Regression
Analysis. Journal of the Royal Statistical Society, Series B, v.31. 1969. pp.350–371.
6. Programas Recomendados
EVIEWS - http://www.eviews.com/
GRETL - http://gretl.sourceforge.net/gretl_portugues.html
LIMDEP - http://www.limdep.com/
R - https://cran.r-project.org/bin/windows/base/
RSTUDIO - https://www.rstudio.com/products/rstudio/download3/
STATA - http://www.stata.com/