Sie sind auf Seite 1von 17

Multicolinearidade

Multicolinearidade
Uma das hipteses do MCRL que no h multicolinearidade entre os regressores includos no
modelo de regresso.
1.
2.
3.
4.
5.

Qual a natureza da Multicolinearidade?


A multicolinearidade realmente um problema?
Quais as suas consequncias prticas?
Como a detectamos?
Que medidas correctivas podemos adoptar para aliviar o problema da multicolinearidade?

Natureza da Multicolinearidade
O termo multicolinearidae foi cunhado por Ragnar Frisch (1934) e significava originalmente a
existncia de uma perfeita! (ou exacta) relao linear entre algumas ou todas as variveis
explicativas de um modelo de regresso. Hoje o termo multicolinearidade usado em um sentido
mais amplo, para incluir o caso da perfeita multicolinearidade, bem como o caso em que as
variveis X so intercorrelacionados, mas no perfeitamente.
Quando variveis independentes em uma anlise de regresso mltipla se encontram altamente
correlacionadas umas com as outras, os coeficientes de regresso parcial perdem a sua
confiabilidade em termos de significado. De modo similar, o significado prtico dos coeficientes
de correlao parcial pode ser questionado. possvel que o coeficiente de correlao parcial
para uma dada varivel independente se apresenta como gradativamente negativo, muito embora
a correlao simples seja altamente positive. Em geral, deve se ter cuidado ao interpretar
coeficientes de regresso parcial e de correlao parcial, quando existirem duas variveis
independentes que estejam altamente correlacionadas, positive ou negativamente, uma com a
outra.
Em modelos de regresso mltipla, quando as variveis preditoras no esto correlacionadas, o
efeito atribudo a cada uma delas o mesmo, independentemente do nmero de variveis que o
modelo apresente.

A contribuio marginal para a reduo da soma dos quadrados da regresso de uma das
preditoras quando a outra est no modelo a mesma quando ela aparece sozinha no modelo.
Em modelos de regresso com duas ou mais variveis explicativas usual que tais variveis
apresentem algum tipo de interdependncia. Essa relao de interdependncia chamada de
multicolinearidade.
A regresso mltipla visa entre outras coisas estabelecer a importncia relativa e a magnitude do
efeito das variveis preditoras sobre a varivel dependente, identificar preditoras que deveriam
ser eliminadas do modelo e apontar a necessidade de incluso de variveis preditoras ainda no
participantes do modelo. Na ausncia de multicolinearidade esses objectivos podem ser
alcanados.
O ponto de de partida:
Quando existe a multicolinearidade severa?
1. O conjunto de variveis independentes for totalmente independente os coeficientes da
regresso no podero ser estimados
Quando isso acontece, podemos afirmar que a multicolinearidade severa e o modelo deve ser
revisto.
A multicolinearidade implica que as variveis preditoras esto linearmente relacionadas, o
problema implica que a alta correlao entre as variveis preditoras, mas isso nem sempre
ocorre.
A presena de multicolinearidade severa faz com os coeficientes no reflictam nenhum efeito
particular da varivel explicativa na regressora, pois o coeficiente estar contaminado pelo efeito
de outras variveis e somente um efeito parcial lhe poder ser atribudo.
A variabilidade amostral dos coeficientes grande gerando grandes mudanas na magnitude de
1 por conta de pequenas mudanas nos dados, {} ter valores elevados e crescer na medida
em que novos preditores forem includos.
Quanto ao exame da estatstica:

Diagnstico da Multicolinearidade:
1 - Quando um conjunto referente s variveis preditoras significante, ao passo que
individualmente no.
Ex:
1) Quanto ao exame da estatstica F da regresso altamente significante, mas o valor
da estatstica t no.
Como sabemos F mede a relao de regresso do conjunto de regressores contra a
varivel dependente, enquanto que t mede a contribuio de uma nica varivel
explicativa.
Alm disso, um R2 alto tambm favorece esse diagnstico.
2) Quanto ao factor de inflao da varincia (VIF) tambm utilizado para medir a
multicolinearidade:

n 1 2k 5 ln_ det
6

Sensibilidade dos estimadores de MQO e de seus erros padro a pequenas


variaes nos dados
Contanto que a multicolinearidade no seja perfeita, possvel
Dados hipotticos
Modelo 1

Modelo 2

X2

X3

X2

X3

12

12

16

16

SUMMARY OUTPUT
(Modelo 1)
Regression Statistics
Multiple R
R Square
Adjusted R Square
Standard Error

0.900067748
0.810121951
0.620243902
0.974366586

Observations

ANOVA
df
Regression
Residual

2
2

SS
8.101219512
1.898780488

Total

10

Coefficients
1.193902439
0.446341463

Standard Error
0.773678855
0.184810424

t Stat
1.543149889
2.415131425

P-value
0.262764835
0.137060016

0.00304878

0.085065893

0.035840222

0.97466527

Intercept
x2
x3

SUMMARY OUTPUT
(Modelo 2)
Regression Statistics

MS
4.050609756
0.949390244

F
4.266538215

Multiple R
R Square
Adjusted R Square
Standard Error

0.902399205
0.814324324
0.628648649
0.963523938

Observations

ANOVA
df
Regression
Residual

2
2

SS
8.143243243
1.856756757

MS
4.071621622
0.928378378

F
4.38573508

Total

10

Intercept
X2

Coefficients
1.210810811
0.401351351

Standard
Error
0.748021496
0.272064987

t Stat
1.618684514
1.475203978

P-value
0.246931182
0.278128264

X3

0.027027027

0.125228061

0.215822451

0.849137143

No modelo 1 nenhum dos coeficientes de regresso , individualmente, significativo em nveis


de significncia convencionais de 1% ou 5%, embora 2 estimado seja significativo com base no
teste t unicaudal. No modelo 2, 2 estimado j no significativo mesmo ao nvel de 10%.
Regression Statistics (Modelo 1)
Multiple R
0.552344771
R Square
0.305084746
Adjusted R Square
0.073446328
Standard Error
3.043934415
Observations

ANOVA
df
Regression
Residual

1
3

SS
12.20338983
27.79661017

MS
12.20338983
9.265536723

F
1.317073171

Total

40

Intercept

Coefficients
2.271186441

Standard
Error
2.030364161

t Stat
1.118610387

P-value
0.344803701

X3

0.254237288

0.221530892

1.147638084

0.334339092

Regression Statistics (Modelo 2)


Multiple R
0.828517156
R Square
0.686440678
Adjusted R
Square
0.581920904
Standard Error
2.044698257
Observations

ANOVA
df
Regression
Residual

1
3

SS
27.45762712
12.54237288

MS
27.457627
4.180791

F
6.567567568

Total

40

Intercept

Coefficients
1.406779661

Standard
Error
1.363853978

t Stat
1.0314738

P-value
0.378191608

X3

0.381355932

0.148808669

2.5627266

0.083016775

O aumento do R Mltiplo no modelo 2 revela um aumento da multicolinearidade. Os erros


padres de 2 e 3 aumentam entre as duas regresses, um sintoma comum de colinearidade.
Note-se que na presena de alta colinearidade, no podemos estimar os coeficientes
individuais de regresso precisamente, mas as suas combinaes lineares podem ser estimadas
mais precisamente.
No modelo 1, os erros padro so praticamente iguais, 0,1550 contra 0,1823 do Modelo 2.
Exemplo Ilustrativo: Consumo, Renda e Riqueza
Y, US$
70
65
90
95
110
115
120
140
155
150

X2,
US$
80
100
120
140
160
180
200
220
240
260

X3,
US$
810
1009
1273
1425
1633
1876
2052
2201
2435
2686

Os resultados do modelo de Regresso constam da tabela abaixo:


SUMMARY OUTPUT
Regression Statistics
Multiple R
0.981582597
R Square
0.963504395
Adjusted R
Square
0.95307708
Standard Error
6.80804069
Observations

10

ANOVA
Regression
Residual

df
2
7

SS
8565.554074
324.4459263

Total

8890

MS
4282.777
46.349418

F
92.401959

Intercept
X2, US$

Coefficients
24.77473327
0.941537342

Standard
Error
6.7524996
0.822898263

t Stat
3.6689722
1.1441722

P-value
0.0079751
0.2901647

X3, US$

-0.04243453

0.080664483

-0.5260621

0.6150945

A regresso mostra que a renda e riqueza, juntas explicam cerca de 96,35% da variao no
consumo, no entanto, nenhum dos coeficientes de inclinao , individualmente, estatisticamente
significativo. Alm disso, a varivel riqueza no s estatisticamente insignificante, como
tambm tem um sinal errado. A priori, esperaramos uma relao positiva entre consumo e
riqueza. Embora 2 e 3 estimado individualmente sejam estatisticamente insignificantes, se
testarmos a hiptese 2 = 3 = 0 simultaneamente, essa hiptese pode ser rejeitada como mostra o
quadro acima. O F observado igual a 92,4019. Este valor altamente significativo.
Alm desta abordagem podemos construir os intervalos de confiana para 2 e 3. Cada intervalo
individual de estimado contm o valor zero. Podemos no rejeitar a hiptese ( 2 = 3 = 0). As
duas inclinaes parciais so zero.

O exemplo dado evidencia uma amostra dramtica da presena de multicolinearidade. O facto do


teste F ser significativo, porm os valores t de X2 e X3 serem individualmente insignificantes,
indica que as duas variveis so to altamente correlacionadas que impossvel isolar o efeito
sobre o consumo tanto da renda quanto da riqueza.
Agora podemos calcular as regresses parciais de X3 sobre X2 e obtm-se:
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.998962392
R Square
0.99792586
Adjusted R
Square
0.997666593
Standard Error
29.83972337
Observations

10

ANOVA
Regression
Residual

df
1
8

SS
3427202.727
7123.272727

MS
3427202.727
890.4090909

F
3849.0204

Total

3434326

Intercept

Coefficients
7.545454545

Standard
Error
29.47581069

t Stat
0.255988024

P-value
0.8044195

X2, US$

10.19090909

0.164262271

62.04047363

5.065E-12

De acordo com a tabela, existe uma quase perfeita colinearidade entre X 3 e X2. Se calcularmos Y
sobre X2 obtm-se os seguintes resultados:
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.980847369
R Square
0.96206156
Adjusted R
Square
0.957319256
Standard Error
6.493003227
Observations

10

ANOVA
Regression
Residual

df
1
8

SS
8552.727273
337.2727273

MS
8552.727273
42.15909091

F
202.8679245

Total

8890

Intercept

Coefficients
24.45454545

Standard
Error
6.413817299

t Stat
3.812791091

P-value
0.005142172

X2, US$

0.509090909

0.035742806

14.24317115

5.75275E-07

A varivel renda era estatisticamente insignificante, enquanto agora altamente significativa. Se,
em vez de calcularmos a regresso de Y sobre X2, regredimos sobre X3, obteremos:
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.978099708
R Square
0.956679039
Adjusted R
Square
0.951263919
Standard Error
6.93832963
Observations

10

ANOVA
df
Regression
Residual

1
8

SS
8504.876656
385.1233444

MS
8504.876656
48.14041805

F
176.66811

Total

8890

Intercept

Coefficients
24.41104485

Standard
Error
6.87409684

t Stat
3.551163944

P-value
0.0074967

X3, US$

0.049763767

0.003743986

13.29165564

9.802E-07

Note que nas duas tabelas sobre regresses de Y sobre os X`s mostram claramente que, em
situaes de multicolinearidade extrema, omitir uma varivel altamente colinear muitas vezes

tornar a outra varivel X estatisticamente significativa. Este resultado sugeriria que uma sada
para a colinearidade extrema omitir a varivel colinear.
Deteco da Multicolinearidade
Existem regras prticas, algumas formais e outras informais:
1. Alto R2, porm poucas razes t significativas (em excesso de 0,8). Embora este
diagnstico seja sensato, sua desvantagem que ele muito forte por que a
multicolinearidade considerada prejudicial somente quando todas as influncias das
variveis explicativas sobre Y no podem ser separadas.
2. Altas correlaes dois a dois entre os regressores (em excesso de 0,8), ento a
multicolinearidade se constituem um srio problema. altas correlaes de ordem zero
so condio suficiente, mas no necessria, para existncia da multicolinaridade, pois
ela pode existir mesmo que as correlaes simples ou de ordem zero sejam relativamente
baixas (digamos, menores que 0,5).
Em modelos que envolvam mais de duas variveis explicativas, a correlao simples ou
de ordem no nos dar um indcio infalvel da presena de multicolinearidade.
Naturalmente, se houver somente duas variveis explicativas, as correlaes de ordem
zero sero suficientes.
3. Exames das correlaes parciais.
4. Regresses auxiliares como a multicolinearidade se manifesta porque um ou mais
regressores so combinaes lineares exactas ou aproximadas de outros regressores, um
meio de descobrir qual varivel X se relaciona com outras variveis X regredir cada X i
sobre as demais variveis e calcular o R2 correspondente, que designaremos por Ri2.
em vez de testar formalmente todos os R2 auxiliares, podemos adoptar a regra prtica de
Klein, que sugere que a multicolineraidade pode ser um problema incmodo somente se
o R2 obtido de uma regresso auxiliar for maior que o R2 Global, ou seja, o obtido de uma
regresso de Y sobre todos os regressores.
5. Autovalores e ndice de Condio

AutovalorMaximo
AutovalorMnimo

O ndice de Condio definido pela relao:


IC

AutovalorMximo

AutovalorMnimo

Regra prtica:
Se K estiver entre 100 e 1000, h multicolinearidade de moderada a forte; se exceder 100,
h multicolinearidade grave. Alternativamente se IC se situar entre 10 e 30, h
multicolinearidade de moderada a forte; se exceder 30, h multicolinearidade grave.
6. Tolerncia (TOL) e Factor Inflao da Varincia (FIV)
Var(j) =

2
1
*
2
x j 1 R2

2
* FIV j
Var(j) =
x 2j

Onde j o coeficiente de regresso (parcial) do X j, Rj2 R2 na regresso (auxiliares) de


Xj sobre os demais (k-2) regressores FIV o factor inflao da varincia. Regra prtica:
se o FIV de uma varivel exceder 10 (isto ocorrer se R 2j exceder 0,90), diz-se que essa
varivel altamente colinear.
Medida de Tolerncia (TOL)
TOLj = (1 R2j)
=(1/FIVj)
Claramente TOL = 1 se Xj no tem correlao com os outros regressores, enquanto ser
zero se Xj se relacionar perfeitamente co outros regressores.
Medidas Correctivas

Existem algumas regras prticas cujo sucesso depende da gravidade da colinearidade


existente:
1. Informao Priori
2. Combinando dados de corte e sries temporais. Exerccio 10.25
3. Eliminao de uma varivel (ou variveis) e vis de especificao: quando nos
deparamos com multicolinearidade grave, umas das coisas simples a fazer eliminar uma
das variveis colineares. Assim no exemplo de consumo-renda-riqueza, quando
suprimimos a varivel riqueza, obtemos uma regresso que mostra que, enquanto no
modelo original a varivel renda era estatisticamente insignificante, agora altamente
significativa.
Enquanto a multicolinearidade pode impedir a estimativa precisa dos parmetros do
modelo, omitir uma varivel pode nos enganar seriamente no que diz respeito aos
verdadeiros valores dos parmetros. Lembre-se que os estimadores de MQO so
BLUE apesar da quase-colinearidade.
4. Transformao das variveis
Se a relao Yt 1 2 X 2t 3 X 3t u t , for vlida no instante t, deve ser vlida tambm
no instante t-1, porque de qualquer forma a origem do tempo arbitrria. Logo temos:
Yt 1 1 2 X 2,t 1 3 X 3,t 1 u t 1 , se subtrairmos as duas equaes, obteremos:

Yt Yt 1 2 ( X 2 t X 2,t 1 ) 3 ( X 3t X 3,t 1 ) vt em que = ut ut-1. Esta equao

conhecida como forma de primeira diferena, porque rodamos a regresso no sobre as


variveis originais, mas sobre as diferenas dos sucessivos valores das variveis. Este
modelo pode no ser vivel em dados de corte.
5. Dados adicionais ou novos
A multicolinearidade uma caracterstica da amostra. Esporadicamente, simplesmente
aumentando-se o tamanho da amostra (se for possvel) pode-se atenuar o problema da
colinearidade.

Por

exemplo,

no

modelo

de

trs

variveis,

vimos

que

var( 2 )

2
, assim, conforme aumenta o tamanho da amostra, x 22i,
2
2
x
(
1

r
)
2i
23

geralmente aumentar.
Como exemplo considere a seguinte regresso de consumo Y sobre a renda X 2 e a riqueza
X3 com base em 10 observaes:

Yi 24,377 0,8716 X 2i 0,0349 X 3i

(3,875) (2,7726)

(-1,1595)

R2 = 0,9682

O coeficiente da riqueza nessa regresso no somente tem o sinal errado, como tambm
estatisticamente insignificante ao nvel de 5%. Mas quando aumenta-se o tamanho da
amostra para 40 observaes obtm-se os seguintes dados:

Yi 2,0907 0,7299 X 2i 0,0605 X 3i

T (0,8713) (6,0014)

(2,0014)

R2 = 0,9672

Agora o coeficiente de riqueza no somente tem o sinal correcto, como tambm


estatisticamente significativo em nvel de 5%.
6. Reduzindo a colinearidade nas regresses polinomiais
7. Tcnicas estatsticas multivariadas, como anlise factorial e componentes principais

Exerccios: Multicolinearidade
1. Em dados envolvendo sries temporais econmicas, como PNB, oferta Monetria,
preos,

renda,

desemprego,

etc,

geralmente

suspeitamos

da

presena

da

multicolinearidade. Por qu?


2. Suponha que no modelo Yt 1 2 X 2i 3 X 3i u i
R23, o coeficiente de correlao entre X2 e X3, seja zero. Por isso, algum sugere que voc
rode as seguintes regresses:
Yi 1 2 X 2i u1i
Yi 1 3 X 3i u 2i

a) 2 2 e 2 3 ? Por qu?

b) 1 igual a 1 ou 1 ou alguma combinao disso?


c)



var 2 var( 2 ) ou var 3 var( 3 )

3. Veja o exemplo ilustrativo do exerccio em que ajustamos a funo de Cobb-Douglas ao


sector industrial de Taiwan. Os resultados da regresso mostram que os coeficientes de
trabalho e de capital so, individualmente, estatisticamente significativos.
a. Verifique se as variveis trabalho e capital so altamente correlacionadas.
b. Caso a sua resposta em (a) seja afirmativa, voc suprimiria do modelo, digamos, a
varivel trabalho e regrediria a varivel produto somente sobre o capital?
c. Se voc fizer isso, que tipo de vis de especificao est cometendo? Descubra a
natureza deste vis.

4. Diga, expondo a razo, se os enunciados a seguir so verdadeiros, falsos, ou incertos:


a. Apesar da perfeita multicolinearidade, os estimadores de MQO so MELNV
(BLUE).
b. Nos casos de alta multicolinearidade, no possvel avaliar a significncia
individual de um ou mais coeficientes de regresso parcial
c. Se uma regresso auxiliar mostra que um determinado R2 alto, h uma clara
evidncia de alta colinearidade.
d. Correlao par a par alta no sugere que haja multicolinearidade alta
e. A multicolinearidade no prejudicial se o objectivo da anlise for somente a
previso do modelo.
f. Tudo o mais constante, quanto mais alto o FIV, maiores as varincias dos
estimadores de MQO.
g. A tolerncia (TOL) mede melhor a multicolinearidade do que o FIV.
h. Voc no obter um valor alto de R 2 em uma regresso mltipla se todos os
coeficientes de inclinao parcial forem, individualmente, estatisticamente
insignificantes segundo o teste t usual.
i. Na regresso de Y sobre X 2 e X3; suponha que haja pouca variabilidade nos
valores de X3: Isto aumenta a var (3).
5. Considere o seguinte modelo:
PNBt 1 2 M 3 M t 1 4 ( M t M t 1 ) u t

Em que PNBt = PNB no instante t, Mt = oferta monetria no instante t, Mt-1 = oferta


monetria no instante t-1 e (Mt - Mt-1) = variao na oferta monetria entre os instantes t e
t-1. Este modelo postula assim que o nvel do PNB na poca t uma da funo da oferta
monetria nos instantes t e t-1, bem como da variao na oferta monetria entre estes
perodos.

a) Supondo que voc tenha os dados para estimar o modelo anterior, voc
conseguiria estimar todos os coeficientes desse modelo? Justifique.
b) Em caso negativo, quais coeficientes podem ser estimados?
c) Suponha que o termo 3Mt-1 esteja ausente do Modelo. Sua resposta em a) seria a
mesma?
d) Repita c), supondo que o termo 2Mt, esteja ausente do modelo.
6. Com base nos dados anuais do sector industrial dos EUA no perodo 1899-1922,
Dougherty obteve os seguintes resultados de regresso:

log Y 2.81 0.53 log K 0.91 log L 0.047t

ep

(1.38) (0.34)

(0.14)

(0.021)

R2 = 0.97 F = 189.9

com Y = ndice do produto real, K = ndice do capital, L = ndice do trabalho real e t =


tempo ou tendncia.
Usando os mesmos dados, ele obteve tambm a seguinte regresso:

log Y / L 0.11 0.11 log( K / L) 0.06t

ep

(0.03) (0.15)

(0.006)

R2 = 0.65 F = 19.5

a) H multicolinearidade na regresso1)? Como voc sabe?


b) Na regresso 1), qual de principio o sinal do logK? Os resultados esto de acordo
com suas expectativas? Justifique
c) Como voc justificaria a forma funcional da regresso 1)?
d) Interprete a regresso 1. Qual o papel da varivel de tendncia nesta regresso?
e) Qual a lgica por trs da estimativa da regresso 2?
f) Se havia multicolinearidade na regresso 1, ela foi reduzida pela regresso 2?
Justifique.

7. Diga se as seguintes afirmaes so verdadeiras, falsas ou incertas, expondo


resumidamente o motivo:
a. Na presena de heteroscedasticidade, os estimadores de MQO so viesados e
ineficiente?
b. Se a heteroscedasticidade estiver presente, os testes F e t convencionais no tm
validade.
c. Na presena de heteroscedasticidade, o mtodo usual de MQO sempre
superestima os erros-padres dos estimadores;
d. No h um teste geral para heteroscedasticidade