Cinthia de Souza Resumo dos captulos 9, 10 e 11 do Gujarati.
Captulo 9 Modelos de regresso com variveis binrias (dummies)
O tipo de variveis que temos trabalhado por enquanto era chamado variveis proporcionais. Neste captulo envolvido no apenas as variveis proporcionais, mas tambm variveis de escala nominal. Tais variveis so conhecidas ainda como variveis indicadoras, de categoria, qualitativas ou binrias (dummies).
9.1 A natureza das variveis dummies
Em uma anlise de regresso a varivel dependente pode ser influenciada freqentemente por variveis de natureza qualitativa, como o gnero, raa, cor, religio, nacionalidade, etc. Tais variveis em geral indicam a presena ou ausncia de uma qualidade, de forma que possvel quantific-la formulando valores de 1 e 0, em que 1 indica a presena daquele atributo e 0 determina a ausncia do mesmo. Por exemplo, 1 indica que a pessoa mulher; 0 indica que homem. Tais variveis so facilmente incorporadas aos modelos de regresso por meio dos modelos de anlise de varincia (ANOVA).
Ex 9.1
Y = B1 + B2D2i + B3D3i + ui Yi = salrio mdio do professor na rede pblica D2i = 1 se o estado for do Nordeste ou Norte central; 0 se no for D3i = se o estado pertencer a regio Sul; 0 se no pertencer.
Neste caso, o salrio mdio dos professores da regio nordeste e centro norte ser: D2i = 1; D3i = 0: E(Y) = B1 + B2
No sul: E(Y) = B1 + B3
No oeste: E(Y) = B1
Rodando o modelo:
Y = 48014,615 +1524,099D2i 1721,027D3i
Estes resultados indicam que o salrio mdio no oeste de 48014,6015 reais, no nordeste 48014,615 + 1524,099 = 49539; e na regio sul 48014,615 1721,027 = 46294.
Tais nmeros parecem diferentes, mas so eles estatisticamente diferentes um dos outros? Para saber, basta descobrir se cada um dos coeficientes angulares estatisticamente significativo. Nesse caso os coeficientes no so significativos, visto que seus p valor so maiores que 0,05. Logo, estatisticamente no h diferena de salrio de acordo com o estado.
Advertncia quanto ao uso das variveis dummies
1 Para distinguir as trs regies, usamos apenas duas variveis dummies. Isso ocorre pois se usssemos as 3, haveria colinearidade perfeita. Ou seja, se uma varivel qualitativa tem m categorias, introduza m-1 variveis binrias.
2 A categoria que no atribuda uma varivel binria conhecida como categoria de referncia.
3 O valor de B1 representa o valor mdio da categoria de referncia.
4 Os coeficientes ligados as variveis binrias so conhecidos como coeficientes diferenciais de intercepto, pois informam quanto a categoria que recebe o valor de 1 difere do valor mdio da categoria de referncia.
5 A escolha da categoria de referncia fica a critrio do pesquisador.
9.3 Modelos ANOVA com duas variveis qualitativas
No modelo anterior havia uma varivel qualitativa com trs categorias; nesta seo consideraremos outro modelo com duas variveis qualitativas.
Ex 9.2
Y = 8,81 +1,099D2i 1,672D3i Y = salrio por hora D2 = estado civil; 1 = casado, 0 = outros D3 = regio de residncia; 1 = sul, 0 = outros
Nesse caso a categoria de referncia no casado e no residente na regio sul. O ganho mdio dessa referncia de 8,81 reais por hora. Para os homens casados, esse valor de 9,91. J aqueles que moram no sul de 7,14.
Os ganhos so estatisticamente significativos, pois todos interceptos diferenciais so estatisticamente significativos.
9.4 Regresso com uma mistura de regressores quantitativos e qualitativos: modelos ANCOVA
Os modelos de regresso que misturam a variveis quantitativas e qualitativas so chamados de modelos de anlise de covarincia (ANCOVA).
Ex 9.3
Y = B1 + B2D2i + B3D3i + B4Xi + ui Y = salrio mdio de professores Xi = gastos com escola pblica por aluno D2i = 1 se o Estado for do nordeste ou do centro-norte; 0 caso contrrio D3i = 1 se for da regio sul; 0 caso contrrio.
Rodando o modelo:
Y = 28694,918 2954,127D2i 3112,194D3i + 2,3404Xi
Ou seja: Quando o gasto com escolas aumenta em um dlar, o salrio de um professor aumenta cerca de 2,34 reais. Os resultados so diferentes do modelo anterior pois agora acrescentamos os gastos. Nesse caso, o salrio mdio quando os gastos forem iguais a zero na rgio oeste 28694,918; na regio nordeste 25741 e no sul 25583.
9.5 A varivel binria alternativa ao teste de Chow
O teste de Chow foi usado para ver se havia diferena na relao entre poupana e renda nos EUA em dois perodos. O teste apenas informa se h diferena, todavia no indica qual seria essa diferena, que pode ser: interceptos distintos, inclinaes distintas, ambos distintos ou ambos iguais. Para saber a origem deve-se fazer uma regresso mltipla como a seguinte:
Y = A1 + A2Dt + B1Xt + B2(Dt, Xt) + ut
Onde Y = poupana; X = renda; t = tempo; D = 1 para observaes em 1982 1995; 0 caso contrrio (observaes em 1970 -1982)
Funo poupana para 70 95:
E ( Y| Dt=0, Xt ) = A1 + b1Xt
Para 82 95:
E ( Y | Dt = 1, Xt ) = (A1 + A2) + (B1 + B2) Xt
Na equao geral tem-se que A2 o intercepto diferencial, B2 o coeficiente angular diferencial (tambm chamado de deslocador de coeficiente angular), indicando quanto o coeficiente angular da funo poupana do segundo perodo difere daquele do primeiro perodo. A introduo da varivel binria D na forma multiplicativa (d x X) permite diferenciar entre os coeficientes angulares dos dois perodos, assim como a varivel binria da forma aditiva permitiu distinguir entre os interceptos dos dois perodos.
Mdia var. dependente 162,0885 D.P. var. dependente 63,20446 Soma resd. quadrados 11790,25 E.P. da regresso 23,14996 R-quadrado 0,881944 R-quadrado ajustado 0,865846 F(3, 22) 54,78413 P-valor(F) 2,27e-10 Log da verossimilhana -116,4125 Critrio de Akaike 240,8250 Critrio de Schwarz 245,8574 Critrio Hannan-Quinn 242,2742 r 0,167786 Durbin-Watson 1,648454
Para 70 81:
Y = 1,0161 + 0,0803Xt
Para 82 95:
Y = (1,0161 +152,47) + (0,0803 0,0655)Xt Y = 153,49 + 0,0148Xt
Como tanto o intercepto diferencial como os coeficientes angulares so estatisticamente significativos, tem-se que as regresses so distintas para os dois modelos. O intercepto e a inclinao so ambos distintos.
9.6 Efeitos de interao usando variveis dummies
No caso Y = A1 + A2D2i + A3D3i + BXi + ui Onde: Y = salrio por hora X = escolaridade D2 = 1 se mulher, 0 se homem D3 = 1 se no branco e no espnico, 0 nos demais
Nesse caso est implcito que o efeito da varivel binria D2 constante nas categorias de raa e que a binria D3 constante nos dois gneros. Todavia isso pode no ser verdade, pode haver interao entre as variveis. O efeito das variveis pode no ser aditivo como naquela equao, como tambm multiplicativo como na seguinte:
Y = A1 + A2D2i + A3D3i + A4(D2iD3i) + BXi + ui
Nesse caso A4 representa o efeito de ser mulher no branca e no hispnica.
Primeiro ser estimado o modelo com efeito aditivo:
Y = -0,2610 2,3606D2i 1,7327D3i +0,8028Xi Ou seja, mantendo tudo o mais constante, os ganhos mdios das mulheres so menores em 2,36 reais e o ganho mdio de trabalhadores no brancos e no hispnicos so 1,73 reais mais baixos.
Incluindo a varivel binria de interao:
Y = -0,2610 2,3606D2i 1,7327D3i + 2,1289D2iD3i + 0,8028Xi
Nesse caso a varivel interativa binria no deu estatisticamente significante. Porm se considerarmos que o nvel de significncia 10% tem-se que: mantendo o nvel de escolaridade constante, se acrescentarmos os trs coeficientes de varivel dummy teremos: - 1,96 = ( -2,36 1,73 + 2,12) o que significa que o salrio mdio por hora de mulheres no brancas e no hispnicas inferior em cerca de 1,96 reais.
9.7 O uso de variveis dummies na anlise sazonal
Existem vrios mtodos para dessazonalizar uma srie temporal, mas consideraremos apenas um deles: o mtodo de variveis binrias.
Para exemplificar o caso, apresentada uma tabela sobre a venda de quatro eletrodomsticos: lavadores de pratos, trituradores de lixo, lavadoras de roupas e geladeiras.
Para exemplificar, pegaremos apenas o caso das geladeiras:
Y = A1D1t + A2D2t + A3D3t + A4D4t + ut
Em que Y = vendas de geladeiras e os D so variveis binrias, onde cada uma apresenta 1 em um trimestre e zero nos demais. Nesse caso admitimos uma varivel pra cada semestre, mas omitimos o intercepto.
Mdia var. dependente 1354,844 D.P. var. dependente 235,6719 Soma resd. quadrados 806142,4 E.P. da regresso 169,6785 R-quadrado 0,531797 R-quadrado ajustado 0,481632 F(3, 28) 10,60102 P-valor(F) 0,000079 Log da verossimilhana -207,5545 Critrio de Akaike 423,1090 Critrio de Schwarz 428,9720 Critrio Hannan-Quinn 425,0524 r 0,808979 Durbin-Watson 0,392512
Y = 1222,1250 + 245,37D2t + 347,62D3t 62,12D4t
Nesse caso, 1222,1250 o valor mdio de vendas pro primeiro trimestre, e os demais coeficientes nos do a variao de vendas com relao a esse valor para cada trimestre.
Para dessazonalizar a srie, estimamos com base no modelo acima os valores de Y para cada observao e subtramos dos mesmos os valores efetivos de Y, ou seja, diminumos dele o valor dos reduos da regresso.
Se adicionarmos a varivel quantitativa gastos com bens durveis temos:
Mdia var. dependente 1354,844 D.P. var. dependente 235,6719 Soma resd. quadrados 465084,7 E.P. da regresso 131,2454 R-quadrado 0,729881 R-quadrado ajustado 0,689864 F(4, 27) 18,23901 P-valor(F) 2,30e-07 Log da verossimilhana -198,7539 Critrio de Akaike 407,5077 Critrio de Schwarz 414,8364 Critrio Hannan-Quinn 409,9370 r 0,689788 Durbin-Watson 0,566015
9.8 Regresso linear segmentada
Tendo os dados sobre comisso, vendar e o valor do limiar X*(onde ocorre a mudana), a tcnica das variveis binrias pode ser usada para estimar os coeficientes angulares dos dois segmentos da regresso linear. Pode-se proceder da seguinte forma:
Y = A1 + B1Xi +B2(Xi X*)Di + ui
Supondo o caso de comisso de vendas: Yi = comisso de vendas Xi = volume de vendas geradas pelo vendedor X* = limiar de vendas D = 1 de Xi>X*; 0 se Xi<X*
Temos: E( Yi| Di = 0, Xi, X* ) = A1 + B1Xi e E ( Yi | Di = 1, Xi, X* ) = A1 B2X* + (B1 + B2)Xi
Ex 9.7
Relao entre custo total e produo
Modelo 7: MQO, usando as observaes 1-10 Varivel dependente: cost
Mdia var. dependente 1507,600 D.P. var. dependente 1003,946 Soma resd. quadrados 238521,5 E.P. da regresso 184,5928 R-quadrado 0,973706 R-quadrado ajustado 0,966193 F(2, 7) 129,6078 P-valor(F) 2,95e-06 Log da verossimilhana -64,58753 Critrio de Akaike 135,1751 Critrio de Schwarz 136,0828 Critrio Hannan-Quinn 134,1793
De acordo com o modelo, o custo marginal da produo de aproximadamente 28 centavos por unidade. Quando a produo ultrapassa X*, o custo marginal de 28+9 = 37. Todavia, a varivel binria no significativa, o que significa que podemos excluir a varivel binria.
9.10 Alguns aspectos tcnicos
A interpretao de variveis dummies em regresses semilogartmicas
Ln Yi = B1 + B2Di + ui Onde Y = salrio-hora e D = 1 para mulheres e 0 para homens.
Funo salrio para homens:
E( ln Yi | Di = 0 ) = B1 E ( ln Yi | Di = 1 ) = B1 + B2
O intercepto B1 d o logaritmo mdio do salrio-hora e o coeficiente angular d a diferena no logaritmo mdio dos ganhos por hora de homens e mulheres.
Ex 9.8
Ln Yi = 2,17 0,24Di
Ou seja: tomando o antilogartimo de 2,17, encontramos 8,81, que corresponde ao salrio mediano por hora dos homens. Ao retirarmos o antilogartimo de 2,17 0,24 = 1,92, obtemos 6,87, que so os ganhos medianos por hora recebidos pelas mulheres.
Variveis dummies e heterocedasticidade
No exemplo poupana-renda nos EUA para ou perodos de 70-81 e 82-95 foi testada a estabilidade estrutural supondo que a var(u1i) = var (u2i) = , ou seja, que a varincia nos dois perodos era igual. Para no tirarmos concluses precipitadas, deve-se checar se as varincias so de fato iguais. Se elas no forem, os mtodos aqui expostos podem no ser aplicveis.
Captulo 10 Muticolinearidade: O que acontece se os regressores estiverem correlacionados?
10.1 A natureza da multicolinearidade
Originalmente, o termo multicolinearidade significava a existncia de uma relao linear perfeita, ou seja:
A1B1 + A2X2 + .... + AkXk = 0
Hoje o termo usado em sentido mais amplo, incluindo tambm variveis que esto intercorrelacionadas, mas no perfeitamente:
A1X1 +A2X2 + ... + AkXk + vi = 0
A multicolinearidade conforme assim definida diz respeito apenas a relaes lineares. Se o X estivesse elevado ao quadrado, no haveria multicolinearidade, entretanto nessas equaes h dificuldade para estimar os parmetros.
No se pode ter multicolinearidade perfeita pois se houvesse os coeficientes das variveis X seriam indeterminados e seus erros padro infinitos. Quando a linearidade for menos que perfeita, os coeficientes sero determinados, mas tero um erro padro alto.
Exemplo de fontes de colinearidade:
1 O mtodo de coleta de dados empregado. 2 Restries ao modelo ou populao que est sendo amostrada 3 Especificao do modelo 4 Um modelo sobredeterminado 5 Existncia de tendncia comum
10.2 Estimao na presena de multicolinearidade perfeita
Demonstrao matemtica de que quando h multicolinearidade perfeita os coeficientes no podem ser determinados e os erros padro so infinitos, apenas a relao linear entre os coeficientes pode ser determinada.
10.3 Estimao na presena de multicolinearidade alta, mas imperfeita
X3i = bx2i + vi
Onde vi um termo de erro estocstico tal que x2ivi = 0. Nesse caso, a estimao dos coeficientes possvel. Todavia as varincias sero altas e os erros padro tambm. Se vi for muito pequeno, a equao indicar linearidade quase perfeita.
10.4 Multicolinearidade: muito barulho por nada? Mesmo se a multicolinearidade for muito alta, os estimadores MQO conservaro a propriedade de melhores estimadores lineares no viesados.
Segundo Achen, a multicolinearidade apenas dificulta a obteno de estimativa dos coeficientes, da mesma forma que um baixo nmero de observaes tambm o faz.
verdade que os estimados de MQO sero inviesados se forem perfeitamente colineares. Mas tal fato no diz nada a cerca das propriedades dos estimadores. Em segundo lugar, verdade tambm que a varincia tambm ser mnima. Contudo isso no significa que a varincia ser pequena o suficiente. Terceiro, a multicolinearidade essencialmente um fenmeno amostral, no sentido de que mesmo se ela no existir, a amostra elas podem estar perfeita e linearmente relacionadas.
Por exemplo, no caso consumo, renda e riqueza na qual os economistas apontam a necessidade de utilizar as trs variveis:
Consumo = B1 + B2Renda + B3Riqueza + ui
Nesse caso pode haver uma alta colinearidade entre renda e riqueza. Embora teoricamente renda e riqueza sejam candidatos lgicos para explicar o comportamento do consumo, na prtica pode ser difcil separa as influncias de cada varivel. Para avaliarmos os efeitos individuais da riqueza e da renda sobre o consumo, precisamos de um nmero suficiente de observaes de amostra dos indivduos ricos com baixa renda e com anta renda e baixa riqueza. Logo, o fato dos estimadores serem MELNT significa pouco.
10.5 Conseqncias prticas da multicolinearidade
Em caso de alta colinearidade provvel que nos deparemos com as seguintes conseqncias:
1 embora sejam os melhores estimadores lineares no viesados, os estimadores de MQO tm grandes varincias e covarincias, tornando difcil uma estimao precisa. 2 Devido a conseqncia 1,os intervalos de confiana tendem a ser muito mais amplos, levando aceitao imediata da hiptese nula igual a zero 3 A razo t dos coeficientes tende a ser estatisticamente insignificante. 4 Embora a razo t de um ou mais coeficientes seja estatisticamente insignificante, R, a medida geral da qualidade do ajustamento, pode ser muito alto. 5 Os estimadores de MQO e seus erros padro podem ser sensveis a pequenas alteraes nos dados.
Ex 10.1
Suponha a relao entre consumo, renda e riqueza
Modelo 1: MQO, usando as observaes 1-10 Varivel dependente: Y
Mdia var. dependente 111,0000 D.P. var. dependente 31,42893 Soma resd. quadrados 324,4459 E.P. da regresso 6,808041 R-quadrado 0,963504 R-quadrado ajustado 0,953077 F(2, 7) 92,40196 P-valor(F) 9,29e-06 Log da verossimilhana -31,58705 Critrio de Akaike 69,17411 Critrio de Schwarz 70,08186 Critrio Hannan-Quinn 68,17830
Y = 24,77 + 0,94X2 0,042X3
Ou seja, a renda e a riqueza juntas explicam cerca de 96% da variao do consumo, mas nenhum dos coeficientes significativo. Alm disso, a varivel riqueza tem o sinal errado. Apesar disso, o modelo globalmente significante. Como j ressaltado, quando a colinearidade alta, os testes dos regressores individuais no so confiveis; em tais casos o teste F geral que indicar se Y est relacionado aos vrios regressores. O fato do teste F ser significativo mas individualmente as variveis serem insignificantes, significa que as duas variveis esto to correlacionadas que impossvel identificar o impacto isolado de cada uma.
Se fizermos a regresso de X3 contra X2:
Modelo 3: MQO, usando as observaes 1-10 Varivel dependente: X3
Mdia var. dependente 111,0000 D.P. var. dependente 31,42893 Soma resd. quadrados 385,1233 E.P. da regresso 6,938330 R-quadrado 0,956679 R-quadrado ajustado 0,951264 F(1, 8) 176,6681 P-valor(F) 9,80e-07 Log da verossimilhana -32,44428 Critrio de Akaike 68,88856 Critrio de Schwarz 69,49373 Critrio Hannan-Quinn 68,22469
Vemos que a riqueza agora est com o sinal correto e altamente significativa. esse resultado mostra que uma forma de escapar da extrema colinearidade excluir a varivel colinear.
Ex 10.2
Dados sobre consumo (C), renda pessoal real disponvel (Yd), riqueza real (W), taxa de juros real (I) para os EUA de 1947-2000.
Ln C = B1 +B2ln(Yd) + B3lnW + B4I + ut Nesse caso os coeficientes deram significativos o R deu alto, e os sinais esto certos, no havendo motivos de se preocupar muito com a multicolinearidade.
10.7 - Deteco da multicolinearidade
1 A multicolinearidade questo de grau, no de tipo 2 uma caracterstica da amostra, no da populao
Sinais de colinearidade alta:
1 R alto mas poucas variveis significativas; 2 Alta correlao entre pares de regressores; 3 Exame de correlaes parciais 4 Regresses auxiliares 5 Autovalores e ndice condicional 6 Tolerncia e fator de inflao da varincia quando R 1, o FIV tende ao infinito 7 Diagrama de disperso
10.8 Medidas corretivas
O que fazer se a multicolinearidade for alta?
No fazer nada: Blanchard diz que a multicolinearidade foge de nosso controle e um problema de deficincia de dados (micronumerosidade)
Procedimentos:
1 Uma informao a priori: Suponha que o modelo
Y = B1 + B2X2i + B3X3i + ui
Onde y = consumo, X2 = renda e X3 = riqueza. Suponha que a relao linear entre renda e riqueza seja: B3 = 0,1B2. Pode-se efetuar a seguinte regresso:
Y = B1 + B2X2 + 0,1B2X3i + ui = B1 + B2Xi + ui, em que Xi = X2i +0,1X3i.
2 Combinando dados de corte transversal e de sries temporais
Suponhamos que desejemos estudar a demanda por automveis nos EUA e pressupomos que tenhamos dados de uma srie temporal do nmero de carros vendidos, do preo mdio do carro e da renda do consumidor. Suponha que:
Ln Y = B1 + B2ln P + B3ln R + u
Em que Y = numero de carros vendidos, P = preo mdio, R = renda e t = tempo. Nosso objetivo estimar as elasticidades preo e renda. Em sries temporais as variveis preo e renda em geral tendem a ser altamente colineares. Se temos dados de corte transversal, podemos chegar a uma estimativa confivel da elasticidade renda B3, pois nesses dados os preos no variam muito. Seja B3 a elasticidade renda estimada por corte transversal. Usando a estimativa, pode-se escrever a regresso da srie temporal como:
Y* = B1 + B2ln P + u
em que Y*= lnY - B3ln R, ou seja, Y* representa o valor de Y depois de removermos o efeito renda. Agora podemos estimar a elasticidade preo B2 por meio da regresso anterior.
3 Excluses de variveis e vis de especificao Excluir varivel que apresenta multicolinearidade, todavia pode levar a erros de especificao e a resultados viesados.
4 Transformaes de variveis
Y = B1 + B2X2i + B3X3i + ui
Y(t-1) = B1 + B2X2i(t-1) + B3X3i(t-1) + ui
Subtraindo uma equao da outra:
Y Y (t 1) = B2 (X2 X2(t-1)) + B3( X3 X3 (t -1)) + Vt
Tal equao conhecida como forma de primeira diferena. Ela frequentemente reduz a gravidade da multicolinearidade. Outra forma fazer um transformao proporcional, dividindo a equao por uma das variveis altamente correlacionadas.
5 Dados adicionais ou novos
Mudar a amostra ou ampli-la, visto que a multicolinearidade um aspecto da amostra. Em outra amostra envolvendo as mesmas variveis a multicolinearidade pode ser menor.
6 Reduzindo a colinearidade em regresses polinomiais
A colinearidade costuma se reduzir bastante quando as variveis explanatrias so expresso na forma de desvios da mdia.
10.9 A multicolinearidade um mal necessrio?
Se a anlise de regresso tiver como objetivo a previso ou prognstico, a multicolinearidade no um problema to grave, pois quanto mais alto R melhor a previso. Todavia as amostras futuras devem seguir a mesma relao linear das antigas, o que difcil de ocorrer.
10.10 Um exemplo ampliado: os dados de Longley
Srie temporal para os anos de 1947 1962 e referem-se a Y = numero de pessoas empregadas; X1 = deflator implcito dos preos no PNB; X2 = PNB; X3 = nmero de pessoas desempregadas; X4 = nmero de pessoas nas foras armadas; X5 = populao no institucionalizada com mais de 14 anos; X6 = ndex.
Nesse caso o R d alto e poucas variveis do significantes, o que pode sugerir que temos problema de multicolinearidade. Ao analisar a tabela de correlao, vimos que muitas delas so altas. Para haver certeza da multicolinearidade, testa-se regresses auxiliares, de cada varivel X contra as variveis X remanescentes. Os R so muito altos, o que sugere um grande problema de colinearidade. Aplicando o teste F na regresso, percebe-se que as variveis so globalmente significantes.
Para tentar corrigir o problema: Passe o PNB nominal para o real; a populao esta diretamente correlacionada com o tempo, ento retira-se o tempo; e no h razo para incluir X3. Efetuando-se essas alteraes, os coeficientes estimados so significativos e os sinais fazem sentido.
Captulo 11 Heterocedasticidade: O que acontece se a varincia do erro no constante?
11.1 A natureza da heterocedasticidade
Uma das hipteses importantes do modelo clssico de regresso linear que a varincia de cada termo de erro ui um nmero constante e igual a . Tal hiptese chamada de homocedasticidade, o seja, igual espalhamento (igual varincia).
Todavia, h vrios fatores que contribuem para que as varincias no sejam constantes, como os seguintes:
1 De acordo com os modelos de erro aprendizagem, comportamentos incorretos das pessoas tendem a diminuir com o tempo, esperando-se que diminua.
2 Conforme a renda aumenta, as pessoas tem mais renda discricionria, e portanto mais opes para escolher onde alocar sua renda. Por isso, provvel que aumente com o tempo.
3 A medida que as tcnicas de coleta de dados se aprimoram, provvel que diminua.
4 - A heterocedasticidade pode ocorrer como resultado de dados discrepantes.
5 Se o modelo de regresso nao for especificado corretamente, tambm pode haver heterocedasticidade.
6 Outra fonte da heterocedasticidade a assimetria na distribuio de um ou mais regressores. Por exemplo, variveis econmicas como renda, riqueza e educao, pois a distribuio de renda e riqueza costuma ser desigual.
7 A heterocedasticidade tambm pode surgir da transformao incorreta de dados e da forma funcional incorreta.
O problema da heterocedasticidade provavelmente mais comum em dados de corte transversal do que nas sries temporais, visto que o primeiro lida com amostras que podem diferenciar geograficamente, economicamente, etc. e o segundo apenas lida com a diferena temporal.
11.2 Estimativa dos MQO na presena da heterocedasticidade
O que ocorre com os MQO e suas varincias se introduzirmos a heterocedasticidade?
Considerando o modelo: Y = B1 + B2Xi +ui
A varincia dada por:
Var B2 = xi /(xi)
Que diferente da frmula usual varB2= /x1
Ainda haver MELNT quando houver heterocedasticidade? O coeficiente B2 continuar sem ser tendencioso, pois para isso no necessrio que os termos de erro sejam homocedsticos. Porm, B2 deixa de ser o melhor estimador e a varincia mnima no dada por sua equao.
11.3 O mtodo dos mnimos quadrados generalizados (MQG)
Queremos montar um modelo em que as observaes vindas de populaes com maior variabilidade recebam menos peso do que as que possuem menor variabilidade. possvel fazelo pelo mtodo MQG.
Y = B1X1 +B2X2 + ui
Dividindo ambos lados por :
Y/ = B1X1/ +B2X2/ + ui/
Aplicando a frmula da varincia, percebe-se que ela ser 1. Logo, uma forma de resolver o problema da heterocedasticidade transformar a equao e depois aplicar o MQO.
Diferena entre os MQO e os MQG
Como ui = wi(Yi B1Xi B2Xi)
wiui = wi(Yi* B1*Xi B2*Xi)
Em que wi = 1/ Dessa forma, quando a varincia aumenta, o peso ser menor. J no MQO, os pesos sero os mesmos quando a SQR for minimizada. A equao chamada mnimos quadrados ponderados.
11.4 Consequncias de usar MQO na presena de heterocedasticidade
Os estimadores B2 e B2* ambos no so tendenciosos, todavia B2* eficiente, ou seja, tem menor varincia. Como ficar nossas testes no caso de considerar B2*? Se persistimos no uso dos procedimentos comuns de teste apesar da heterocedasticidade, quaisquer que sejam as concluses a que chegarmos podem estar equivocadas.
11.5 - Deteco da heterocedasticidade
Na maior parte dos casos que envolvem investigaes economtricas, a heterocedasticidade pode ser uma questo de intuio, visto que apenas podemos de fato saber se ela existe se tivermos conhecimento da populao inteira, o que muito difcil ocorrer na rea econmica.
Mtodos informais:
Natureza do problema Por exemplo, ao estudar o comportamento da renda sobre o consumo, espera-se varincias desiguais entre os termos de erro.
Mtodo grfico Pode-se estimar a regresso como se no houvesse hetorocedasticidade e ento fazer um grfico dos resduos elevados ao quadrado para ver se os mesmos possuem um padro sistemtico. Se possurem, h heterocedasticidade.
Mtodos formais:
Teste de Park Park formaliza o mtodo grfico sugerindo que seja uma funo da varivel explanatria Xi. A forma funcional por ele sugerida :
i = Xi^B*e^vi
ou
ln i = ln + B ln Xi + vi
Como i em geral no conhecido, deve-se usar ui como Proxy e calcular a regresso:
Ln ui = ln + B ln Xi + v
Se B for estatisticamente significativo, tem-se que a heterocedasticidade est presente.Esse teste feito em dois passos: Primeiro fazemos a regresso de MQO desconsiderando a heterocedasticidade e depois se obtem o ui dessa regresso, e faz-se a regresso acima exposta. Todavia, vi pode tambm ser heterocedastico, e camos no mesmo problema.
Ex 11.1
Y = B1 + B2Xi + ui Onde Y = remunerao e X = produtividade.
Modelo 1: MQO, usando as observaes 1-9 Varivel dependente: r
Mdia var. dependente 217,9776 D.P. var. dependente 214,6654 Soma resd. quadrados 363925,4 E.P. da regresso 228,0117 R-quadrado 0,012816 R-quadrado ajustado -0,128210 F(1, 7) 0,090875 P-valor(F) 0,771825 Log da verossimilhana -60,50410 Critrio de Akaike 125,0082 Critrio de Schwarz 125,4027 Critrio Hannan-Quinn 124,1570
Novamente no h significncia, portanto no h heterocedasticidade.
Teste de correlao por ordem Spearman o coeficiente de correlao de ordem precedente pode ser usado para detectar a heterocedasticidade como se segue, supondo Y = B0 + B1Xi + ui
Etapa 1 Ajuste a regresso aos dados em Y e X e obtenha os resduos ui Etapa 2 Usando o valor absoluto de u, ordene tanto ui quando X de acordo com uma ordem ascendente ou descentende e calcule o coeficiente de correlao Etapa 3 Supondo que o coeficiente de correlao por ordem da populao seja zero e n >8, a significncia de Rs na amostra pode ser verificada pelo teste t a seguir:
T = Rs (n-1)^1/2/(1 r)^1/2
Se o valor t exceder o valor t crtico, aceita-se a hiptese da heterocedasticidade, caso contrrio rejeita-se.
Ex 11.3
Modelo 1: MQO, usando as observaes 1-10 Varivel dependente: E
Mdia var. dependente 12,97000 D.P. var. dependente 2,156875 Soma resd. quadrados 2,652825 E.P. da regresso 0,575850 R-quadrado 0,936640 R-quadrado ajustado 0,928720 F(1, 8) 118,2624 P-valor(F) 4,52e-06 Log da verossimilhana -7,554586 Critrio de Akaike 19,10917 Critrio de Schwarz 19,71434 Critrio Hannan-Quinn 18,44530
RS = 1 6 (110/(10*(100-1)) = 0.3333 Como t crtico = 0,99
Como t menor que t crtico, no h heterocedasticidade.
Teste de Goldfeld-Quandt aplicvel quando se supe que a varincia heterocedastica relaciona-se positivamente com uma das variveis explanatrias.
Etapa 1 Ordene as observaes de acordo com os valores de X, a comear pelo valor mais baixo Etapa 2 - Omita c observaes centrais e divida as remanescentes em dois grupos com observaes (n-c)/2 em cada um. Etapa 3 Ajuste as regresses separadamente, para as primeiras obsevaes (n-c)/2 e para as ltimas obtenha as somas dos quadrados dos resduos. Etapa 4 Calcula a razo SQR2/gl/SGR1/gl
Se o valor calculado for maior que o crtico, rejeita-se a hiptese de homocedasticidade e aceita-se a heterocedasticidade.
Teste de White Y = b1 +b2x2 + b3x3 +ui Etapa 1 Calcula-se o u da equao acima Etapa 2 Faz- se a seguinte regresso
U = A1 + A2X2 + A3 X3 + A4X2 + A5X3 + A6X2X3 =v
Etapa 3 n*R . se esse valor der maior que o qui quadrado crtico, h heterocedasticidade.
Ex 11.4
Y = 3,4 + 0,69X para as 13 primeiras observaes SQR = 377,17 Y = -28,02 + 0,79Xi para as 13 ltimas SQR = 1536,8
= 1536,8/377,17 =4,07
F crtico = 2,82. Logo, rejeita-se a hiptese de homecedasticidade.
11.6 - Medidas corretivas
Quando conhecido: mtodo dos mnimos quadrados ponderados
Ex 11.7
Y/ = B1 (1/ ) + B2( Xi/ i) + ui/ i
Modelo 2: MQO, usando as observaes 1-9 Varivel dependente: YSIGMA
Mdia var. dependente 4,373500 D.P. var. dependente 0,671417 Soma resd. quadrados 0,124253 E.P. da regresso 0,133231 R-quadrado 0,999293 R-quadrado ajustado 0,999192 F(2, 7) 4947,196 P-valor(F) 9,40e-12 Log da verossimilhana 6,501524 Critrio de Akaike -9,003048 Critrio de Schwarz -8,608598 Critrio Hannan-Quinn -9,854268
Y/ = 3406,63 (1/) = 154,15 (X/)
Quando desconhecido:
White mostrou que esta estimativa pode ser realizada de modo que inferncias estatsticas vlidas assintoticamente possam ser feitas sobre os verdadeiros valores dos parmetros. Os erros padro corrigidos para a heterocedasticidade de White tambm so conhecidos como erros padro robustos.
Ex 11.8
Y = 832,91 1834,2 (Renda) + 1587,04 (Renda) Ep MQO =(327,3); (829) e (519,1)
Ep White: 460,9; 1243,0; 830.
Hipteses plausveis sobre o padro de heterocedasticidade
H1- A varincia do erro proporcional a Xi H2 A varincia do erro proporcional a Xi. H3 A varincia do erro proporcional ao quadrado do valor mdio de Y H4 uma transformao logartmica reduz a heterocedasticidade quando comparada com a regresso sem log.
11.7 Exemplos finais
11.9
Teste de Parker
Modelo 6: MQO, usando as observaes 1-64 Varivel dependente: usq5
Mdia var. dependente 4,999615 D.P. var. dependente 0,452228 Soma resd. quadrados 0,623543 E.P. da regresso 0,164653 R-quadrado 0,878042 R-quadrado ajustado 0,867437 F(2, 23) 82,79456 P-valor(F) 3,10e-11 Log da verossimilhana 11,60324 Critrio de Akaike -17,20648 Critrio de Schwarz -13,43219 Critrio Hannan-Quinn -16,11962 r 0,521252 Durbin-Watson 0,925613
De acordo com o modelo, os dois termos de intercepto so iguais, pois o coeficiente da varivel binria no estatisticamente significativo. O valor do coeficiente de intercepto 0,1589 no perodo de 70 81 e de -0,15-0,00029 no segundo perodo, pode-se dizer que ele representa o valor do logaritmo da poupana quando todos os regressores tomam o valor zero. Todavia, esse termo possui um significado mais mecnico do que econmico. A propenso marginal a poupar pode ser considerada igual nos dois perodos, valendo 0,66.
c) para 1970 1981, o intercepto -0,15. J para 1982 1995, o intercepto -0,15 0,00029.
Mdia var. dependente 1187,844 D.P. var. dependente 108,7996 Soma resd. quadrados 304869,1 E.P. da regresso 104,3465 R-quadrado 0,169199 R-quadrado ajustado 0,080185 F(3, 28) 1,900810 P-valor(F) 0,152397 Log da verossimilhana -191,9965 Critrio de Akaike 391,9929 Critrio de Schwarz 397,8559 Critrio Hannan-Quinn 393,9363 r 0,739608 Durbin-Watson 0,551916
a) Os coeficientes angulares so, chamados de interceptos diferenciais, sendo o primeiro trimestre o de referncia. Somente a varivel binria do quarto trimestre para mquinas de lavar roupas significativamente diferente da do primeiro em termos estatsticos, indicando que s para esse perodo h uma sazonalidade. J no caso das vendas de geladeiras, h uma sazonalidade no terceiro e no segundo semestres,mas no quarto no.
d) Diminuindo o resultado dos resduos da regresso do valor das vendas, teremos os valores dessazonalizados.
9.12
(a) Poderia-se escolher o formato logartimo por querer descobrir a semielasticidade, j que o coeficiente da varivel renda em formato logartmico uma semielasticidade, representando a variao absoluta da expectativa de vida para uma variao percentual na renda.
(b) Esse coeficiente mostra que se a renda per capita aumentar 1%, a expectativa mdia de vida aumenta em mdia 0,0939 anos.
(c) Esse regressor foi includo para contornar o efeito sobre a expectativa de vida dos aumentos crescentes da renda per capita acima do valor limite de US$1097. O regressor tambm informa o nmero de anos adicionais que se pode esperar viver quando a renda passa de US$1097. O valor do coeficiente estimado no , entretanto, estatisticamente significativo, pois seu valor p de 0,1618.
(d) A equao da regresso para os pases cuja renda per capita est abaixo do nvel de 1097 dlares americanos 2,40 + 9,39 lnXi , e para os pases cuja renda est acima desse nvel 2,40 + (9,393,36) lnXi + (3,36)(7) = 21,12 + 6,03 lnXi.
Embora numericamente as duas regresses paream diferentes, no o so estatisticamente, pois o coeficiente do ltimo termo da equao zero em termos estatsticos. Se considerarmos pases mais ricos aqueles com renda per capita maior que US$1097, parece no haver entre estes e os outros mais pobres nenhuma diferena estatstica perceptvel na expectativa de vida.
CAP 11
11.11
Modelo 1: MQO, usando as observaes 1-9 Varivel dependente: R
Mdia var. dependente 217,9776 D.P. var. dependente 214,6654 Soma resd. quadrados 364600,3 E.P. da regresso 228,2230 R-quadrado 0,010985 R-quadrado ajustado -0,130303 F(1, 7) 0,077749 P-valor(F) 0,788429 Log da verossimilhana -60,51244 Critrio de Akaike 125,0249 Critrio de Schwarz 125,4193 Critrio Hannan-Quinn 124,1737
Como no h significncia, no h heterocedasticidade.
d) Se classificarmos os valores absolutos dos resduos e os nmeros da produtividade mdia em ordem ascendente e calcularmos o coeficiente de correlao por ordem de Spearman conforme (11.5.5), observaremos que vale -0,5167. Aplicando a frmula t dada em (11.5.6), obtemos t = -0,8562, que no estatisticamente significativo, pois seu valor crtico absoluto no nvel de 5% com 7 gl 2,447. Portanto, com base no teste de correlao por ordem, no h motivos para esperarmos heterocedasticidade.
11.1
a) Falsa. Os estimadores no so tendenciosos, mas ineficientes.
b) Verdadeira, conforme explicitado na seo 11.4.
c) Falsa. provvel mas no obrigatrio que a a varincia ser superestimada.
d) Falsa. Alm da heterocedasticidade, tal padro pode ser resultado de autocorrelao, erros de especificao de modelo etc.
e) Verdadeira. Como os verdadeiros no so diretamente observados, algum pressuposto a respeito da natureza da heterocedasticidade inevitvel.
f) Verdadeira.
g) Falsa. Heterocedasticidade tem a ver com a varincia do termo de erro ui, no com a varincia do regressor. Todavia erros de especificao podem resultar na heterocedasticidade.
11.15
a)
Modelo 8: MQO, usando as observaes 1-81 Varivel dependente: MPG
Mdia var. dependente 24,10525 D.P. var. dependente 59,93927 Soma resd. quadrados 198479,0 E.P. da regresso 52,87229 R-quadrado 0,309439 R-quadrado ajustado 0,221904 F(9, 71) 3,535003 P-valor(F) 0,001143 Log da verossimilhana -430,9956 Critrio de Akaike 881,9912 Critrio de Schwarz 905,9357 Critrio Hannan-Quinn 891,5980
Regressando os quadrados dos resduos do modelo em (a) contra os trs regressores, seus quadrados e seus produtos cruzados, obtemos um R de 0,3094, que multiplicado pelo nmero de observaes (81), dar 25,0646, valor com distribuio qui-quadrado com 9 gl (3 regressores, 3 quadrados de regressores e 3 produtos cruzados) sob a hiptese nula de que no h heterocedasticidade. O valor p de se obter um valor qui-quadrado de 25,0646 ou maior , sob essa hiptese, 0,0029, que muito pequeno. Temos, portanto, de rejeitar a hiptese nula, ou seja, h heterocedasticidade.
d) Comparando esses resultados com os obtidos com MQO, descobriremos que os valores dos coeficientes estimados so iguais, mas suas varincias e erros-padro so diferentes. Estes so mais altos nos procedimentos de White porque os |t| so menores, indicando que os erros-padro esto subestimados nos resultados obtidos com MQO.
e) No existe uma frmula simples para determinar a natureza exata da heterocedasticidade neste caso. Podemos, talvez, partir de alguns pressupostos simples e tentar diferentes transformaes. Se, por exemplo, acharmos que a varivel culpada HP e que a varincia do erro proporcional a HP, podemos dividir a equao por HP. Naturalmente, qualquer outro regressor um candidato to bom quanto esse para a transformao.
CAPTULO 10
10.5
A - Sim. Dados de sries temporais econmicas tendem a evoluir na mesma direo, como acontece com as variveis defasadas de renda neste caso.
B - A transformao de primeira diferena uma forma de diminuir o problema.
10.9
A - O coeficiente de correlao entre trabalho e capital relativamente alto e aproximadamente igual a 0,698.
B - No. Apesar da correlao entre as duas variveis, os coeficientes da regresso so estatisticamente significativos no nvel de 5%. Excluir uma varivel nessas condies acarretaria vis de especificao.
C - Se for excluda a varivel trabalho, o coeficiente do capital ser tendencioso.
10.24
A - Dados o relativamente alto R de 0,97, o valor F significativo e o coeficiente insignificante e impropriamente sinalizado coeficiente de log K, pode ser que haja colinearidade no modelo.
B - A priori, espera-se que o impacto do capital sobre a produo seja positivo, o que no ocorre nesse caso devido provavelmente colinearidade nos regressores.
C - uma funo de produo tipo Cobb-Douglas, pois podemos escrever o modelo dado como Y = B1 8K*B2*L^B3*e^B4.
D - Em mdia, ao longo do perodo estudado, um incremento de 1% no ndice de uso real de mo-de- obra leva a um aumento de 0,11% do ndice de produto real. No modelo, a varivel t representa o tempo, que com freqncia tomado como varivel instrumental para mudana tecnolgica. O coeficiente de 0,006 indica que ao longo do perodo estudado, a taxa de crescimento do produto real (como medida pelo ndice de produto) foi de 0,6%, em mdia.
E - Implicitamente, a equao assume que h retornos de escala constantes, ou seja, B3 + B2 = 1 Uma eventual vantagem da transformao pode ser a reduo do problema da colinearidade.
F - Dado que o coeficiente da relao capital/mo-de-obra estatisticamente insignificante, o problema da colinearidade, ao que tudo indica, no foi resolvido.
G - Como mencionado em anteriormente, o autor est tentando saber se h retornos de escala constantes. O teste F visto no Captulo 8 poderia ser utilizado para descobrirmos se a restrio vlida. Mas como as variveis dependentes so diferentes nos dois modelos, precisamos das somas dos quadrados dos resduos restritas e irrestritas para usar a verso R desse teste.
(h) De acordo com (g), os valores de R no so comparveis. Para torn-los comparveis, poderamos adotar os procedimentos vistos no Captulo 7.