Beruflich Dokumente
Kultur Dokumente
Fonte: Wooldridge, Jeffrey M. Introduo econometria: uma abordagem moderna. So Paulo: Cengage Learning, 2008. Captulo 1 (1-17) e Captulo 2 (pp.19-63).
ESTRUTURA DO LIVRO
Introduo: principais conceitos em econometria (captulo 1).
Parte 1: trata de anlise de regresso com dados de corte transversal (captulos 2 ao 9).
DOCUMENTAO DO LIVRO
UCLA Academic Technology Services:
http://www.ats.ucla.edu
Domiclios (PNAD) de 2007 de Minas Gerais para as demonstraes em sala de aula e a PNAD de 2011 do Brasil
para o exerccio final do curso.
Os bancos de dados, questionrio, livro de cdigos e demais arquivos esto disponveis no site do Instituto Brasileiro de
Geografia e Estatstica (IBGE):
http://www.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2011/microdados.shtm
ECONOMETRIA
A econometria evoluiu como uma disciplina separada da estatstica matemtica, porque enfoca problemas inerentes coleta e anlise de dados econmicos no-experimentais. Dados no-experimentais no so acumulados por meio de experimentos controlados de indivduos, firmas ou segmentos da economia. Dados no-experimentais so tambm chamados de dados observacionais para enfatizar o fato de que o pesquisador um coletor passivo de dados. Dados experimentais so frequentemente coletados em ambientes de laboratrio nas cincias naturais, mas so muito mais difceis de serem obtidos nas cincias sociais. O mtodo de anlise da regresso mltipla utilizado por econometristas e estatsticos matemticos, mas o foco e interpretao pode diferir significantemente.
MICROECONOMIA
Os indivduos fazem escolhas para maximizar seu bemestar (maximizao da utilidade), sujeitas s restries de recursos. Isso oferece um arcabouo para criar modelos econmicos para fazer previses entre variveis. A maximizao da utilidade leva a um conjunto de equaes de demanda, no contexto das decises de consumo. Em uma equao de demanda, a quantidade demandada de cada produto depende do seu prprio preo, do preo dos bens substitutos e complementares, da renda do consumidor e das caractersticas individuais que influem no gosto.
MODELO ECONMICO
O modelo econmico a formulao terica de uma relao entre variveis econmicas. A quantidade de tempo gasto na atividade criminosa uma funo de vrios fatores (Gary Becker 1968): y=f(x1, x2, x3, x4, x5, x6, x7),
y = horas gastas em atividades criminosas. x1 = salrio por hora ocupada em atividade criminosa. x2 = salrio-hora em emprego legal. x3 = renda de outras atividades que no o crime ou um emprego legal. x4 = probabilidade de ser capturado. x5 = probabilidade de ser condenado se capturado. x6 = sentena esperada se condenado. x7 = idade.
MODELO ECONOMTRICO Aps elaborar o modelo econmico, especificado um modelo economtrico, que ser aplicado a dados existentes. A forma da funo f(.) deveria ser especificada antes de realizar uma anlise economtrica. Se uma varivel no pode ser obtida, possvel utilizar uma varivel que se aproxima desta que se quer medir ( proxy). Outros fatores so considerados no termo de erro u (ou termo de disturbncia): Erro amostral a diferena entre o resultado amostral e o verdadeiro resultado da populao (devidos ao acaso). Erro no-amostral ocorre quando os dados amostrais so coletados, registrados ou analisados incorretamente. Modelo economtrico de Becker (1968): crime = 0 + 1salrio + 2outrenda + 3freqpris + 4freqcond + 5sentmed + 6idade + u
10
11
12
Dados de sries de tempo = estudos de coortes. Dados de painel ou longitudinais = estudos de painel.
DADOS DE CORTE TRANSVERSAL (Wooldridge) SURVEYS INTERSECCIONAIS (Babbie) Um conjunto de dados de corte transversal consiste em uma amostra de uma unidade de anlise, tomada em um determinado ponto no tempo. Esses dados so muito utilizados em economia e em outras cincias sociais. Dados em um determinado ponto do tempo so importantes para testar hipteses e avaliar polticas. Dados podem ter problemas de seleo amostral, no caso de determinados indivduos no revelarem informaes acuradas. Amostragem deve ser realizada de forma acurada para evitar que coleta se concentre em unidades com caractersticas semelhantes.
13
14
Feminino
1 2 3
11 12 11
2 22 2
1 1 0
0 1 0
8 12 ... 16 14
44 7 ... 5 5
0 0 ... 0 1
1 1 ... 1 0
CORTES TRANSVERSAIS AGRUPADOS (Wooldridge) ESTUDOS DE TENDNCIAS (Babbie) Uma populao pode ser amostrada e estudada em ocasies diferentes. Um mesmo conjunto de variveis coletado em diferentes perodos do tempo, em distintas amostras aleatrias de uma mesma populao (Censo Demogrfico, Pesquisa Nacional por Amostra de Domiclios PNAD). Agrupar cortes transversais de diferentes anos eficaz para analisar os efeitos de uma poltica pblica. O ideal coletar dados de anos anteriores e posteriores a uma importante mudana de poltica governamental. Alm de aumentar o tamanho da amostra, a anlise de corte transversal agrupada importante para estimar como uma relao fundamental mudou ao longo do tempo. Geralmente so utilizados dados secundrios, coletados por outros pesquisadores ou instituies.
15
16
1
2 3 ...
1993
1993 1993 ...
85.500
67.300 134.000 ...
42
36 38 ...
1.600
1.440 2.000 ...
3
3 4
2,0
2,5 2,5 ...
250
251 252
1993
1995 1995
243.600
65.000 182.400
41
16 20
2.600
1.250 2.200
4
2 4
3,0
1,0 2,0
253 ...
520
1995 ...
1995
97.500 ...
57.200
15 ...
16
1.540 ...
1.100
3 ...
2
2,0 ...
1,5
DADOS DE SRIES DE TEMPO (Wooldridge) ESTUDOS DE COORTES (Babbie) Um conjunto de dados de sries de tempo consiste em observaes sobre variveis ao longo do tempo. Como eventos passados podem influenciar eventos futuros, o tempo uma dimenso importante em um conjunto de dados de sries de tempo. A anlise desses dados pode ser dificultada, porque observaes econmicas no so independentes ao longo do tempo (variveis possuem padres sazonais). H uma srie de frequncias possveis: dirias, semanais, mensais, trimestrais, anuais, decenais... Estes dados so tambm chamados de estudos de coorte, em que mesma populao analisada, mas amostras estudadas podem ser diferentes: Pessoas com 10 anos em 2000, 20 anos em 2010, 30 anos em 2020, 40 anos em 2030...
17
18
Ano
Taxa de desemprego
1
2 3 ... 37
1950
1951 1952 ... 1986
0,20
0,21 0,23 ... 3,35
20,1
20,7 22,6 ... 58,1
15,4
16,0 14,8 ... 18,9
878,7
925,0 1.015,9 ... 4.281,6
38
1987
3,35
58,2
16,8
4.496,7
DADOS DE PAINEL OU LONGITUDINAIS (Wooldridge) ESTUDOS DE PAINEL (Babbie) Um conjunto de dados de painel consiste em uma srie de tempo para cada membro do corte transversal. Os dados de painel so distintos dos dados de corte transversal agrupados (tendncias) e de sries de tempo (coortes), porque as mesmas unidades so acompanhadas ao longo de um determinado perodo. Dados de painel podem ser coletados para indivduos, domiclios, instituies ou unidades geogrficas. Esses dados so os mais sofisticados para fins explicativos, mas so mais difceis e caros de se obter. Pode haver problema de grande nmero de no respostas nas ltimas ondas de entrevistas. A anlise dos dados pode se tornar complicada quando se tentar avaliar as mudanas dos indivduos no tempo.
19
20
1986
350.000
8,7
440
2 3
4 ...
1 2
2 ...
1990 1986
1990 ...
8 2
1 ...
359.200 64.300
65.100 ...
7,2 5,4
5,5 ...
471 75
75 ...
297 298
299 300
149 149
150 150
1986 1990
1986 1990
10 6
25 32
260.700 245.000
543.000 546.200
9,6 9,8
4,3 5,2
286 334
520 493
21
Por exemplo, possvel utilizar um nico banco de dados de corte transversal para comparar pessoas de diferentes idades (jovens e idosos) e coortes (calouros e veteranos).
22
Estudos sociomtricos: inteno de observar as interrelaes entre membros da populao estudada (redes de amizades, por exemplo).
23
Mudanas ao longo do tempo so mais difceis de realizar, porque dados de painel exigem tempo e recursos:
possvel utilizar dados de corte transversal e comparar pessoas que passaram por uma experincia no passado, com aqueles que no passaram. Estudos de painel so mais viveis economicamente quando o fenmeno estudado tem durao curta (por exemplo, opinio de voto durante uma campanha eleitoral). Estudos de tendncias podem ser realizados quando dados antigos so complementados com dados coletados pelo pesquisador.
24
CAUSALIDADE
Na avaliao de polticas pblicas, o objetivo do pesquisador inferir que uma varivel tem um efeito causal sobre outra varivel. Encontrar uma associao entre duas ou mais variveis pode ser sugestivo (correlao), mas somente ser convincente se for possvel estabelecer uma causalidade. A noo de ceteris paribus importante, j que significa outros fatores (relevantes) permanecendo iguais. Se outros fatores no forem mantidos fixos, no poderemos conhecer o efeito causal de uma varivel sobre outra. Como a maioria dos dados coletados nas cincias sociais so no-experimentais (no so experimentos controlados como nas cincias naturais), descobrir relaes causais uma tarefa complexa.
25
26
27
PREMISSA E EXEMPLOS
Premissa da anlise economtrica: y e x so duas variveis que representam uma populao. Estamos interessados em explicar y em termos de x. Ou seja, queremos estudar como y varia com variaes em x. Exemplos: y o rendimento do trabalhador, e x so os anos de escolaridade. y a escala ideolgica esquerda/direita, e x o partido poltico do deputado. y o ndice de tradicionalismo/secularismo, e x o nvel de escolaridade.
28
PERGUNTAS IMPORTANTES
Como nunca h uma relao exata entre duas variveis, como consideramos outros fatores que afetam y?
29
Terminologia:
y Varivel Dependente Varivel Explicada x Varivel Independente Varivel Explicativa Uso Econometria
Cincias Experimentais
VOLTANDO S PERGUNTAS IMPORTANTES Como nunca h uma relao exata entre duas variveis, como consideramos outros fatores que afetam y? Varivel u o termo erro ou perturbao da relao. Na anlise de regresso simples, todos fatores (alm de x) que afetam y so tratados como no-observados.
30
31
32
E O PROBLEMA DO CETERIS PARIBUS? Estamos capturando uma relao ceteris paribus (outros fatores constantes) entre y e x?
A variao em y 1 multiplicado pela variao em x. 1: parmetro de inclinao da relao entre y e x, mantendo fixos os outros fatores em u.
No entanto, estamos ignorando todos os outros fatores. Os estimadores de 0 e 1 sero confiveis em uma amostra aleatria, se o termo no-observvel (u) estiver relacionado varivel explicativa (x) de modo que o valor mdio de u na populao seja zero: E(u)=0.
33
HIPTESE SOBRE A RELAO ENTRE x E u Se u e x no esto correlacionados, ento (como variveis aleatrias) no so linearmente relacionados. No entanto, a correlao mede somente a dependncia linear entre u e x. Na correlao, possvel que u seja no-correlacionado com x e seja correlacionado com funes de x, tal como x2. Melhor seria pensar na distribuio condicional de u, dado qualquer valor de x. Para um valor de x, podemos obter o valor esperado (ou mdio) de u para um grupo da populao. A hiptese que o valor mdio de u no depende de x: E(u|x) = E(u) = 0 Ou seja, para qualquer valor de x, a mdia dos fatores noobservveis a mesma e, portanto, igual ao valor mdio de u na populao (hiptese de mdia condicional zero).
34
FUNO DE REGRESSO POPULACIONAL Quando E(u|x)=E(u)=0 verdadeiro, til dividir y em: Parte sistemtica (parte de y explicada por x): 0 + 1x Parte no-sistemtica (parte de y no explicada por x): u Considerando o valor esperado de y=0+1x+u condicionado a x, e usando E(u|x)=0, temos a funo de regresso populacional (FRP), que uma funo linear de x: E(y|x) = 0 + 1x Linearidade: o aumento de uma unidade em x faz com que o valor esperado de y varie segundo a magnitude de 1. Para qualquer valor de x, a distribuio de y est centrada ao redor de E(y|x).
35
36
ESTIMATIVA DE MNIMOS QUADRADOS ORDINRIOS Para a estimao dos parmetros 0 e 1, preciso considerar uma amostra da populao:
ui o termo erro para a observao i, j que contm todos os fatores, alm de xi, que afetam yi. Um exemplo a poupana anual para a famlia i (yi), dependendo da renda anual desta famlia (xi), em um determinado ano.
37
38
ESTIMATIVA DE MNIMOS QUADRADOS ORDINRIOS Como obter estimativas do intercepto (0) e da inclinao (1) na regresso populacional da poupana sobre a renda?
Na populao, u tem mdia zero. O valor esperado de u zero: E(u)=0
Alm disso, u no-correlacionado com x. A covarincia entre x e u zero: Cov(x,u)=E(xu)=0 E(u)=0 pode ser escrita como: E(y-0-1x)=0 Cov(x,u)=E(xu)=0 pode ser escrita como: E[x(y-0-1x)]=0 Como h dois parmetros desconhecidos para estimar ( 0 e 1), possvel utilizar uma amostra de dados para calcular as estimativas:
e
39
40
ESTIMATIVAS DE
41
ESTIMATIVAS DE MQO DE
42
quadrados ordinrios (MQO) que a varincia amostral de x seja maior que zero.
43
44
VALORES ESTIMADOS E RESDUOS Encontrados o intercepto e a inclinao, teremos um valor estimado para y para cada observao (x) na amostra:
45
46
MINIMIZANDO A SOMA DOS RESDUOS QUADRADOS Suponha que escolhemos o intercepto e a inclinao estimados com o propsito de tornar a soma dos resduos quadrados:
O nome mnimos quadrados ordinrios utilizado porque as estimativas do intercepto e da inclinao minimizam a soma dos resduos quadrados.
No utilizada a minimizao dos valores absolutos dos resduos, porque a teoria estatstica para isto seria muito complicada.
47
MINIMIZANDO A SOMA DOS RESDUOS QUADRADOS Reta de regresso de MQO ou funo de regresso amostral (FRA) a verso estimada da funo de regresso populacional (FRP):
O coeficiente de inclinao indica o quanto o valor estimado (previsto) de y varia quando x aumenta em uma unidade:
48
49
50
51
PROPRIEDADES ALGBRICAS DAS ESTATSTICAS A soma dos resduos de MQO zero, j que as estimativas de MQO de e so escolhidas para fazer com que a soma dos resduos seja zero:
Se inserirmos a mdia de x no lugar de xi, o valor estimado a mdia de y (este ponto est sempre sobre a reta):
52
SOMAS DOS QUADRADOS Soma dos quadrados total (SQT) uma medida da variao amostral total em yi (mede a disperso dos yi na amostra):
53
GRAU DE AJUSTE Visa mensurar o quanto a varivel independente (x) explica a varivel dependente (y).
um nmero que resume o quo bem a reta de regresso de MQO se ajusta aos dados.
R2: razo entre a variao explicada (SQE) e a variao total (SQT). R2: frao da variao amostral em y que explicada por x. SQT = SQE + SQR SQT /SQT = (SQE + SQR)/SQT
1 = SQE/SQT + SQR/SQT SQE/SQT = 1 - SQR/SQT
Usar o R2 como principal padro de medida de sucesso de uma anlise economtrica pode levar a confuses.
54
MUDANAS DAS UNIDADES DE MEDIDA Ao mudar unidades de medida das variveis dependente e/ou independente, estimativas de MQO so afetadas.
Se a varivel dependente multiplicada pela constante c (cada valor na amostra multiplicado por c), ento as estimativas de MQO de intercepto e de inclinao tambm so multiplicadas por c.
Se a varivel independente dividida (ou multiplicada) por alguma constante diferente de zero (c) ento o coeficiente de inclinao de MQO multiplicado (ou dividido) por c, respectivamente.
Mudar as unidades de medida da varivel independente no afeta o intercepto. O grau de ajuste do modelo (R2) no depende das unidades de medida das variveis.
55
NO-LINEARIDADE NA REGRESSO SIMPLES Formas funcionais populares usadas em economia e outras cincias sociais aplicadas podem ser incorporadas anlise de regresso. At agora foram analisadas relaes lineares entre as variveis dependente e independente. No entanto, relaes lineares no so suficientes para todas as aplicaes econmicas e sociais. fcil incorporar no-linearidade na anlise de regresso simples.
56
EXEMPLO DE NO-LINEARIDADE Para cada ano adicional de educao, h um aumento fixo no salrio. Esse o aumento tanto para o primeiro ano de educao quanto para anos mais avanados:
Suponha que o aumento percentual no salrio o mesmo, dado um ano a mais de educao formal. Um modelo que gera um efeito percentual constante dado por:
Se
, ento:
Como a variao percentual no salrio a mesma para cada ano adicional de educao, a variao no salrio aumenta quando a educao formal aumenta.
57
58
Aumento de 1% em x aumenta y em 1% (modelo de elasticidade constante): Elasticidade a razo entre o percentual de mudana em uma varivel e o percentual de mudana em outra varivel.
59
Modelo
Varivel Independente
x
Interpretao de 1
y=1x y=(1/100)%x %y=(1001)x %y=1%x
nvel-nvel
nvel-log
log(x)
log-nvel
log(y)
log-log
log(y)
log(x)
60
A interpretao dos coeficientes depende das definies de como x e y so construdos. muito mais importante tornar-se proficiente em interpretar coeficientes do que eficiente no clculo de frmulas. (Wooldridge, 2008: 45)
61
UTILIZAO DE PESOS
62
DIFERENTES PESOS
Nmero de observaes coletadas na amostra Peso para expandir para o tamanho da populao (N) Peso para manter o tamanho da amostra (n)
Indivduo
Joo
Maria Total
1
1 2
4
6 10
0,8
1,2 2
EXEMPLO: Peso amostral do Joo = Peso de frequncia do Joo * (Peso amostral total / Peso de frequncia total)
63
PESO DE FREQUNCIA NO STATA FWEIGHT: Expande os resultados da amostra para o tamanho populacional. Utilizado em tabelas para gerar frequncias. O uso desse peso importante na amostra do Censo Demogrfico e na Pesquisa Nacional por Amostra de Domiclios (PNAD) do Instituto Brasileiro de Geografia e Estatstica (IBGE) para expandir a amostra para o tamanho da populao do pas, por exemplo. Somente pode ser usado em tabelas de frequncia quando o peso uma varivel discreta (no decimal).
tab x [fweight = peso]
64
PESO AMOSTRAL PARA PROGRAMADORES NO STATA IWEIGHT: No tem uma explicao estatstica formal. Esse peso utilizado por programadores que precisam implementar tcnicas analticas prprias. Pode ser utilizado em tabelas de frequncia, mesmo que o peso seja decimal.
tab x [iweight = peso]
65
PESO AMOSTRAL ANALTICO NO STATA AWEIGHT: Inversamente proporcional varincia da observao. Nmero de observaes na regresso escalonado para permanecer o mesmo que o nmero no banco. Utilizado para estimar uma regresso linear quando os dados so mdias observadas, tais como:
group 1 2 x 3.5 5.0 y 26.0 20.0 n 2 3
Ao invs de:
group 1 1 2 2 2 x 3 4 8 2 5 y 22 30 25 19 16
66
UM POUCO MAIS SOBRE O AWEIGHT De uma forma geral, no correto utilizar o AWEIGHT como um peso amostral, porque as frmulas utilizadas por esse comando assumem que pesos maiores se referem a observaes medidas de forma mais acurada.
Uma observao em uma amostra no medida de forma mais cuidadosa que nenhuma outra observao, j que todas fazem parte do mesmo plano amostral. Usar o AWEIGHT para especificar pesos amostrais far com que o Stata estime valores incorretos de varincia e de erros padres para os coeficientes, assim como valores incorretos de "p" para os testes de hiptese. regress y x1 x2 [aweight = peso]
67
PESO AMOSTRAL NAS REGRESSES DO STATA PWEIGHT: Ideal para ser usado nas regresses do Stata. Usa o peso amostral como o nmero de observaes na populao que cada observao representa. So estimadas propores, mdias e parmetros da regresso corretamente. H o uso de uma tcnica de estimao robusta da varincia que automaticamente ajusta para as caractersticas do plano amostral, de tal forma que varincias, erros padres e intervalos de confiana so calculados de forma mais precisa. o inverso da probabilidade da observao ser includa no banco, devido ao desenho amostral. regress y x1 x2 [pweight = peso]
68
Tipo do peso
Discreto
fweight
pweight
reg y x, robust
aweight
outreg2
69
PLANO AMOSTRAL COMPLEXO Estatsticas descritivas e modelos de regresso devem levar em considerao a estrutura de planos amostrais complexos. PNAD tem amostra complexa (Silva, Pessoa, Lila, 2002): Considerar variveis de estrato de municpio autorrepresentativo e no autorrepresentativo (v4617) e de unidade primria de amostragem (v4618), do banco de domiclios. Agregar variveis acima ao banco de pessoas, o qual possui peso da pessoa (v4729). Lidar com problema de alguns estratos terem somente uma unidade primria de amostragem. Pode-se especificar mdia deste estrato como sendo a mdia geral, ao invs da mdia do prprio estrato.
svyset [pweight=v4729], strata(v4617) psu(v4618) singleunit(centered)
70
EXEMPLOS COM PNAD DE MINAS GERAIS DE 2007 O banco de dados de pessoas possui informao de anos de escolaridade (anest), rendimento no trabalho principal (renpri), logaritmo do rendimento no trabalho principal (lnrenpri) e peso da pessoa (v4729):
...
71
72
EXEMPLO 1: PNAD DE MINAS GERAIS DE 2007 Renda predita por anos de escolaridade:
30000 10000 0 20000 1500 renpre 500 1000
0 0 5 anest 10 15
5 anest renpri
10 renpre
15
73
500 renpre
1000
1500
74
75
EXEMPLO 2: PNAD DE MINAS GERAIS DE 2007 Renda predita por anos de escolaridade:
8 10 2 4 6
lnrenpre
6.5 6
5.5
0
0 5 anest 10 15
5 anest lnrenpri
10 lnrenpre
15
800
1000
explnrenpre
600
400
10000 0
20000
30000
200
0
0 5 anest 10 15
5 anest renpri
10 explnrenpre
15
76
Residuals
-2
-4
5.5
6 lnrenpre
6.5
-4
-2
200
400
600 explnrenpre
800
1000
77
GRFICOS FORAM GERADOS COM ESTAS VARIVEIS Clculo do valor predito: y-predito = 0 + 1x Clculo do resduo: u = y-observado y-predito Na 2 regresso, calculamos ainda o exponencial do predito.
...