Sie sind auf Seite 1von 77

1

AULA 01 Introduo & Modelo de regresso simples


Ernesto F. L. Amaral

15 de julho de 2013 Anlise de Regresso Linear (MQ 2013) www.ernestoamaral.com/mq13reg.html

Fonte: Wooldridge, Jeffrey M. Introduo econometria: uma abordagem moderna. So Paulo: Cengage Learning, 2008. Captulo 1 (1-17) e Captulo 2 (pp.19-63).

ESTRUTURA DO LIVRO
Introduo: principais conceitos em econometria (captulo 1).

Parte 1: trata de anlise de regresso com dados de corte transversal (captulos 2 ao 9).

Parte 2: anlise de regresso com dados de sries


temporais (captulos 10 ao 12).

Parte 3: tpicos avanados (captulos 13 ao 19).

DOCUMENTAO DO LIVRO
UCLA Academic Technology Services:
http://www.ats.ucla.edu

Introductory Econometrics: A Modern Approach by Jeffrey M. Wooldridge:


http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge.html

DOCUMENTAO PARA EXERCCIO


Vamos utilizar a Pesquisa Nacional por Amostra de

Domiclios (PNAD) de 2007 de Minas Gerais para as demonstraes em sala de aula e a PNAD de 2011 do Brasil
para o exerccio final do curso.

Os bancos de dados, questionrio, livro de cdigos e demais arquivos esto disponveis no site do Instituto Brasileiro de
Geografia e Estatstica (IBGE):
http://www.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2011/microdados.shtm

CAPTULO 1 - WOOLDRIDGE INTRODUO: PRINCIPAIS CONCEITOS EM ECONOMETRIA

ECONOMETRIA
A econometria evoluiu como uma disciplina separada da estatstica matemtica, porque enfoca problemas inerentes coleta e anlise de dados econmicos no-experimentais. Dados no-experimentais no so acumulados por meio de experimentos controlados de indivduos, firmas ou segmentos da economia. Dados no-experimentais so tambm chamados de dados observacionais para enfatizar o fato de que o pesquisador um coletor passivo de dados. Dados experimentais so frequentemente coletados em ambientes de laboratrio nas cincias naturais, mas so muito mais difceis de serem obtidos nas cincias sociais. O mtodo de anlise da regresso mltipla utilizado por econometristas e estatsticos matemticos, mas o foco e interpretao pode diferir significantemente.

ANLISE ECONMICA EMPRICA


Os mtodos economtricos so usados para testar uma teoria econmica ou para analisar relaes que apresentam importncia para anlises de polticas pblicas. Uma anlise emprica usa dados para testar uma teoria ou estimar uma relao. O primeiro passo em qualquer anlise emprica a formulao cuidadosa da questo de interesse, a qual pode ser a de testar efeitos de uma poltica governamental ou, at mesmo, de testar hipteses e teorias. O modelo econmico formal consiste em equaes matemticas que descrevem relaes para testar teorias.

MICROECONOMIA
Os indivduos fazem escolhas para maximizar seu bemestar (maximizao da utilidade), sujeitas s restries de recursos. Isso oferece um arcabouo para criar modelos econmicos para fazer previses entre variveis. A maximizao da utilidade leva a um conjunto de equaes de demanda, no contexto das decises de consumo. Em uma equao de demanda, a quantidade demandada de cada produto depende do seu prprio preo, do preo dos bens substitutos e complementares, da renda do consumidor e das caractersticas individuais que influem no gosto.

MODELO ECONMICO
O modelo econmico a formulao terica de uma relao entre variveis econmicas. A quantidade de tempo gasto na atividade criminosa uma funo de vrios fatores (Gary Becker 1968): y=f(x1, x2, x3, x4, x5, x6, x7),

y = horas gastas em atividades criminosas. x1 = salrio por hora ocupada em atividade criminosa. x2 = salrio-hora em emprego legal. x3 = renda de outras atividades que no o crime ou um emprego legal. x4 = probabilidade de ser capturado. x5 = probabilidade de ser condenado se capturado. x6 = sentena esperada se condenado. x7 = idade.

MODELO ECONOMTRICO Aps elaborar o modelo econmico, especificado um modelo economtrico, que ser aplicado a dados existentes. A forma da funo f(.) deveria ser especificada antes de realizar uma anlise economtrica. Se uma varivel no pode ser obtida, possvel utilizar uma varivel que se aproxima desta que se quer medir ( proxy). Outros fatores so considerados no termo de erro u (ou termo de disturbncia): Erro amostral a diferena entre o resultado amostral e o verdadeiro resultado da populao (devidos ao acaso). Erro no-amostral ocorre quando os dados amostrais so coletados, registrados ou analisados incorretamente. Modelo economtrico de Becker (1968): crime = 0 + 1salrio + 2outrenda + 3freqpris + 4freqcond + 5sentmed + 6idade + u

10

11

MODELO ECONOMTRICO NA PRTICA


Na maioria dos casos, a anlise economtrica comea pela especificao de um modelo economtrico, sem considerao de detalhes da criao do modelo econmico. comum comear com um modelo economtrico e usar o raciocnio econmico e conhecimentos cientficos como guias para escolher as variveis. Aps a especificao do modelo economtrico, vrias hipteses podem ser formuladas em termos das direes e influncias dos parmetros desconhecidos (independentes) sobre a varivel de interesse (dependente). Aps os dados terem sido coletados, os mtodos economtricos so usados para estimar os parmetros do modelo economtrico e para testar as hipteses de interesse.

12

DESENHOS BSICOS DE SURVEY: BANCOS DE DADOS


Aps especificar os objetivos e unidades de anlise da pesquisa, preciso escolher entre diversos desenhos diferentes: Surveys interseccionais (cross-sectional). Surveys longitudinais (tendncias, coortes ou painel).

Surveys interseccionais servindo como longitudinais.


Wooldridge (2008) classifica os dados econmicos em: Dados de corte transversal = surveys interseccionais. Cortes transversais agrupados = estudos de tendncias.

Dados de sries de tempo = estudos de coortes. Dados de painel ou longitudinais = estudos de painel.

DADOS DE CORTE TRANSVERSAL (Wooldridge) SURVEYS INTERSECCIONAIS (Babbie) Um conjunto de dados de corte transversal consiste em uma amostra de uma unidade de anlise, tomada em um determinado ponto no tempo. Esses dados so muito utilizados em economia e em outras cincias sociais. Dados em um determinado ponto do tempo so importantes para testar hipteses e avaliar polticas. Dados podem ter problemas de seleo amostral, no caso de determinados indivduos no revelarem informaes acuradas. Amostragem deve ser realizada de forma acurada para evitar que coleta se concentre em unidades com caractersticas semelhantes.

13

14

EXEMPLO DE DADOS DE CORTE TRANSVERSAL


Conjunto de dados de corte transversal para o ano de 1976 de 526 trabalhadores (Wooldridge 2008):
Nmero da observao Salrio por hora Anos de escolaridade Anos de experincia no mercado de trabalho Estado civil (casado)

Feminino

1 2 3

3,10 3,24 3,00

11 12 11

2 22 2

1 1 0

0 1 0

4 5 ... 525 526

6,00 5,30 ... 11,56 3,50

8 12 ... 16 14

44 7 ... 5 5

0 0 ... 0 1

1 1 ... 1 0

CORTES TRANSVERSAIS AGRUPADOS (Wooldridge) ESTUDOS DE TENDNCIAS (Babbie) Uma populao pode ser amostrada e estudada em ocasies diferentes. Um mesmo conjunto de variveis coletado em diferentes perodos do tempo, em distintas amostras aleatrias de uma mesma populao (Censo Demogrfico, Pesquisa Nacional por Amostra de Domiclios PNAD). Agrupar cortes transversais de diferentes anos eficaz para analisar os efeitos de uma poltica pblica. O ideal coletar dados de anos anteriores e posteriores a uma importante mudana de poltica governamental. Alm de aumentar o tamanho da amostra, a anlise de corte transversal agrupada importante para estimar como uma relao fundamental mudou ao longo do tempo. Geralmente so utilizados dados secundrios, coletados por outros pesquisadores ou instituies.

15

16

EXEMPLO DE CORTES TRANSVERSAIS AGRUPADOS


Conjunto de dados sobre os preos da moradia em 1993 e 1995 nos Estados Unidos (Wooldridge 2008):
Nmero da observao Ano Preo comercializado Imppro Arquad Quantidade de dormitrios Quantidade de banheiros

1
2 3 ...

1993
1993 1993 ...

85.500
67.300 134.000 ...

42
36 38 ...

1.600
1.440 2.000 ...

3
3 4

2,0
2,5 2,5 ...

250
251 252

1993
1995 1995

243.600
65.000 182.400

41
16 20

2.600
1.250 2.200

4
2 4

3,0
1,0 2,0

253 ...
520

1995 ...
1995

97.500 ...
57.200

15 ...
16

1.540 ...
1.100

3 ...
2

2,0 ...
1,5

DADOS DE SRIES DE TEMPO (Wooldridge) ESTUDOS DE COORTES (Babbie) Um conjunto de dados de sries de tempo consiste em observaes sobre variveis ao longo do tempo. Como eventos passados podem influenciar eventos futuros, o tempo uma dimenso importante em um conjunto de dados de sries de tempo. A anlise desses dados pode ser dificultada, porque observaes econmicas no so independentes ao longo do tempo (variveis possuem padres sazonais). H uma srie de frequncias possveis: dirias, semanais, mensais, trimestrais, anuais, decenais... Estes dados so tambm chamados de estudos de coorte, em que mesma populao analisada, mas amostras estudadas podem ser diferentes: Pessoas com 10 anos em 2000, 20 anos em 2010, 30 anos em 2020, 40 anos em 2030...

17

18

EXEMPLO DE DADOS DE SRIES DE TEMPO


Conjunto de dados de sries de tempo sobre efeitos do salrio mnimo em Porto Rico (apud Wooldridge 2008):
Nmero da observao Salrio mnimo mdio no ano
Taxa de trabalhadores cobertos pela lei de salrio mnimo

Ano

Taxa de desemprego

Produto Nacional Bruto (PNB)

1
2 3 ... 37

1950
1951 1952 ... 1986

0,20
0,21 0,23 ... 3,35

20,1
20,7 22,6 ... 58,1

15,4
16,0 14,8 ... 18,9

878,7
925,0 1.015,9 ... 4.281,6

38

1987

3,35

58,2

16,8

4.496,7

DADOS DE PAINEL OU LONGITUDINAIS (Wooldridge) ESTUDOS DE PAINEL (Babbie) Um conjunto de dados de painel consiste em uma srie de tempo para cada membro do corte transversal. Os dados de painel so distintos dos dados de corte transversal agrupados (tendncias) e de sries de tempo (coortes), porque as mesmas unidades so acompanhadas ao longo de um determinado perodo. Dados de painel podem ser coletados para indivduos, domiclios, instituies ou unidades geogrficas. Esses dados so os mais sofisticados para fins explicativos, mas so mais difceis e caros de se obter. Pode haver problema de grande nmero de no respostas nas ltimas ondas de entrevistas. A anlise dos dados pode se tornar complicada quando se tentar avaliar as mudanas dos indivduos no tempo.

19

20

EXEMPLO DE DADOS DE PAINEL OU LONGITUDINAIS


Conjunto de dados de painel sobre crime e estatsticas relacionadas em 1986 e 1990 em 150 cidades nos Estados Unidos (Wooldridge 2008):
Nmero da observao
Cidade Ano Homicdios Populao Desemprego Polcia

1986

350.000

8,7

440

2 3
4 ...

1 2
2 ...

1990 1986
1990 ...

8 2
1 ...

359.200 64.300
65.100 ...

7,2 5,4
5,5 ...

471 75
75 ...

297 298
299 300

149 149
150 150

1986 1990
1986 1990

10 6
25 32

260.700 245.000
543.000 546.200

9,6 9,8
4,3 5,2

286 334
520 493

21

CORTE TRANSVERSAL USADO COMO LONGITUDINAL


Alguns mecanismos podem ser utilizados num survey interseccional (corte transversal) para aproximar o estudo de processo ou mudana (longitudinal). Podem ser realizadas perguntas referentes ao passado (renda no ano anterior, local de residncia anterior):

H problemas de erro de memria.


Os dados devem ser interpretados como amostra da populao atual, e no de populao passada.

Por exemplo, possvel utilizar um nico banco de dados de corte transversal para comparar pessoas de diferentes idades (jovens e idosos) e coortes (calouros e veteranos).

22

VARIAES DOS DESENHOS BSICOS


Os desenhos bsicos de pesquisa apresentados anteriormente podem ser modificados para se enquadrarem aos objetivos de um estudo: Amostras paralelas: amostras separadas de populaes diferentes, utilizando mesmo questionrio (exemplo a pesquisa sobre preconceito na UFMG). Estudos contextuais: uso de dados sobre o ambiente ou meio da pessoa para descrever o contexto do indivduo.

Estudos sociomtricos: inteno de observar as interrelaes entre membros da populao estudada (redes de amizades, por exemplo).

23

ESCOLHENDO O DESENHO APROPRIADO


Dados de corte transversal so mais apropriados se objetivo descrio de tempo nico.

Mudanas ao longo do tempo so mais difceis de realizar, porque dados de painel exigem tempo e recursos:
possvel utilizar dados de corte transversal e comparar pessoas que passaram por uma experincia no passado, com aqueles que no passaram. Estudos de painel so mais viveis economicamente quando o fenmeno estudado tem durao curta (por exemplo, opinio de voto durante uma campanha eleitoral). Estudos de tendncias podem ser realizados quando dados antigos so complementados com dados coletados pelo pesquisador.

24

CAUSALIDADE
Na avaliao de polticas pblicas, o objetivo do pesquisador inferir que uma varivel tem um efeito causal sobre outra varivel. Encontrar uma associao entre duas ou mais variveis pode ser sugestivo (correlao), mas somente ser convincente se for possvel estabelecer uma causalidade. A noo de ceteris paribus importante, j que significa outros fatores (relevantes) permanecendo iguais. Se outros fatores no forem mantidos fixos, no poderemos conhecer o efeito causal de uma varivel sobre outra. Como a maioria dos dados coletados nas cincias sociais so no-experimentais (no so experimentos controlados como nas cincias naturais), descobrir relaes causais uma tarefa complexa.

25

CAPTULO 2 - WOOLDRIDGE MODELO DE REGRESSO SIMPLES

26

MODELO DE REGRESSO SIMPLES


O modelo de regresso linear simples explica uma varivel (y) com base em modificaes em outra varivel (x).

Ou seja, usado para avaliar a relao entre duas variveis.


Esse tipo de regresso no muito utilizada em cincias sociais aplicadas, devido sua simplicidade. No entanto, serve como ponto de partida, j que sua lgebra e interpretaes so fceis de entender. O entendimento do modelo de regresso simples importante para estudar a regresso mltipla.

27

PREMISSA E EXEMPLOS
Premissa da anlise economtrica: y e x so duas variveis que representam uma populao. Estamos interessados em explicar y em termos de x. Ou seja, queremos estudar como y varia com variaes em x. Exemplos: y o rendimento do trabalhador, e x so os anos de escolaridade. y a escala ideolgica esquerda/direita, e x o partido poltico do deputado. y o ndice de tradicionalismo/secularismo, e x o nvel de escolaridade.

28

PERGUNTAS IMPORTANTES
Como nunca h uma relao exata entre duas variveis, como consideramos outros fatores que afetam y?

Qual a relao funcional entre y e x?


Como podemos estar certos de que estamos capturando uma relao ceteris paribus (outros fatores constantes) entre y e x?

29

MODELO DE REGRESSO LINEAR SIMPLES


Tambm chamado de modelo de regresso linear de duas variveis ou modelo de regresso linear bivariada.

Terminologia:
y Varivel Dependente Varivel Explicada x Varivel Independente Varivel Explicativa Uso Econometria

Varivel de Resposta Varivel Prevista Regressando

Varivel de Controle Varivel Previsora Regressor Covarivel

Cincias Experimentais

VOLTANDO S PERGUNTAS IMPORTANTES Como nunca h uma relao exata entre duas variveis, como consideramos outros fatores que afetam y? Varivel u o termo erro ou perturbao da relao. Na anlise de regresso simples, todos fatores (alm de x) que afetam y so tratados como no-observados.

30

OUTRA PERGUNTA Qual a relao funcional entre y e x?


Se os outros fatores em u so mantidos fixos, de modo que a variao em u zero (u=0), ento x tem um efeito linear sobre y, tal como: y=1x; se u=0. A linearidade do modelo de regresso linear simples implica que uma variao de uma unidade em x tem o mesmo efeito sobre y, independentemente do valor inicial de x. Isso no realista. Por exemplo, o prximo ano de escolaridade teria um efeito maior sobre os salrios, em relao ao anterior. Esse problema ser tratado adiante.

31

32

E O PROBLEMA DO CETERIS PARIBUS? Estamos capturando uma relao ceteris paribus (outros fatores constantes) entre y e x?
A variao em y 1 multiplicado pela variao em x. 1: parmetro de inclinao da relao entre y e x, mantendo fixos os outros fatores em u.

0: parmetro de intercepto raramente analisado.


1 mede o efeito de x sobre y, mantendo todos os outros fatores (em u) fixos.

No entanto, estamos ignorando todos os outros fatores. Os estimadores de 0 e 1 sero confiveis em uma amostra aleatria, se o termo no-observvel (u) estiver relacionado varivel explicativa (x) de modo que o valor mdio de u na populao seja zero: E(u)=0.

33

HIPTESE SOBRE A RELAO ENTRE x E u Se u e x no esto correlacionados, ento (como variveis aleatrias) no so linearmente relacionados. No entanto, a correlao mede somente a dependncia linear entre u e x. Na correlao, possvel que u seja no-correlacionado com x e seja correlacionado com funes de x, tal como x2. Melhor seria pensar na distribuio condicional de u, dado qualquer valor de x. Para um valor de x, podemos obter o valor esperado (ou mdio) de u para um grupo da populao. A hiptese que o valor mdio de u no depende de x: E(u|x) = E(u) = 0 Ou seja, para qualquer valor de x, a mdia dos fatores noobservveis a mesma e, portanto, igual ao valor mdio de u na populao (hiptese de mdia condicional zero).

34

FUNO DE REGRESSO POPULACIONAL Quando E(u|x)=E(u)=0 verdadeiro, til dividir y em: Parte sistemtica (parte de y explicada por x): 0 + 1x Parte no-sistemtica (parte de y no explicada por x): u Considerando o valor esperado de y=0+1x+u condicionado a x, e usando E(u|x)=0, temos a funo de regresso populacional (FRP), que uma funo linear de x: E(y|x) = 0 + 1x Linearidade: o aumento de uma unidade em x faz com que o valor esperado de y varie segundo a magnitude de 1. Para qualquer valor de x, a distribuio de y est centrada ao redor de E(y|x).

35

36

ESTIMATIVA DE MNIMOS QUADRADOS ORDINRIOS Para a estimao dos parmetros 0 e 1, preciso considerar uma amostra da populao:

{(xi, yi): i=1, ..., n}


A equao do modelo de regresso simples escrito como:

ui o termo erro para a observao i, j que contm todos os fatores, alm de xi, que afetam yi. Um exemplo a poupana anual para a famlia i (yi), dependendo da renda anual desta famlia (xi), em um determinado ano.

37

38

ESTIMATIVA DE MNIMOS QUADRADOS ORDINRIOS Como obter estimativas do intercepto (0) e da inclinao (1) na regresso populacional da poupana sobre a renda?
Na populao, u tem mdia zero. O valor esperado de u zero: E(u)=0

Alm disso, u no-correlacionado com x. A covarincia entre x e u zero: Cov(x,u)=E(xu)=0 E(u)=0 pode ser escrita como: E(y-0-1x)=0 Cov(x,u)=E(xu)=0 pode ser escrita como: E[x(y-0-1x)]=0 Como h dois parmetros desconhecidos para estimar ( 0 e 1), possvel utilizar uma amostra de dados para calcular as estimativas:
e

39

EQUAES DA POPULAO E AMOSTRA Mdia de u na populao:


Mdia de u na amostra:

Covarincia entre x e u na populao:

Covarincia entre x e u na amostra:

40

ESTIMATIVAS DE

41

ESTIMATIVAS DE MQO DE

Covarincia amostral entre x e y Varincia amostral de x

Se x e y so positivamente correlacionados na amostra,


positivo e vice-versa.

42

VARINCIA DE x DEVE SER MAIOR QUE ZERO


A hiptese necessria para calcular estimativas de mnimos

quadrados ordinrios (MQO) que a varincia amostral de x seja maior que zero.

Ou seja, os valores de xi na amostra no devem ser todos iguais a um mesmo valor.

43

44

VALORES ESTIMADOS E RESDUOS Encontrados o intercepto e a inclinao, teremos um valor estimado para y para cada observao (x) na amostra:

O resduo a diferena entre o valor verdadeiro de yi e seu valor estimado:

45

46

MINIMIZANDO A SOMA DOS RESDUOS QUADRADOS Suponha que escolhemos o intercepto e a inclinao estimados com o propsito de tornar a soma dos resduos quadrados:

O nome mnimos quadrados ordinrios utilizado porque as estimativas do intercepto e da inclinao minimizam a soma dos resduos quadrados.

No utilizada a minimizao dos valores absolutos dos resduos, porque a teoria estatstica para isto seria muito complicada.

47

MINIMIZANDO A SOMA DOS RESDUOS QUADRADOS Reta de regresso de MQO ou funo de regresso amostral (FRA) a verso estimada da funo de regresso populacional (FRP):

O coeficiente de inclinao indica o quanto o valor estimado (previsto) de y varia quando x aumenta em uma unidade:

Da mesma forma, dada qualquer variao em x, podemos calcular a variao prevista em y:

48

49

Fonte: Hamilton, 1992: 52.

50

Fonte: Hamilton, 1992: 53.

51

PROPRIEDADES ALGBRICAS DAS ESTATSTICAS A soma dos resduos de MQO zero, j que as estimativas de MQO de e so escolhidas para fazer com que a soma dos resduos seja zero:

A covarincia amostral entre os regressores e os resduos de MQO zero:

Se inserirmos a mdia de x no lugar de xi, o valor estimado a mdia de y (este ponto est sempre sobre a reta):

52

SOMAS DOS QUADRADOS Soma dos quadrados total (SQT) uma medida da variao amostral total em yi (mede a disperso dos yi na amostra):

Soma dos quadrados explicada (SQE) mede a variao amostral em:


Soma dos quadrados dos resduos (SQR) mede a variao amostral em: Variao total em y a soma da variao explicada e da variao no-explicada: SQT = SQE + SQR

53

GRAU DE AJUSTE Visa mensurar o quanto a varivel independente (x) explica a varivel dependente (y).
um nmero que resume o quo bem a reta de regresso de MQO se ajusta aos dados.

R2: razo entre a variao explicada (SQE) e a variao total (SQT). R2: frao da variao amostral em y que explicada por x. SQT = SQE + SQR SQT /SQT = (SQE + SQR)/SQT
1 = SQE/SQT + SQR/SQT SQE/SQT = 1 - SQR/SQT

Usar o R2 como principal padro de medida de sucesso de uma anlise economtrica pode levar a confuses.

54

MUDANAS DAS UNIDADES DE MEDIDA Ao mudar unidades de medida das variveis dependente e/ou independente, estimativas de MQO so afetadas.
Se a varivel dependente multiplicada pela constante c (cada valor na amostra multiplicado por c), ento as estimativas de MQO de intercepto e de inclinao tambm so multiplicadas por c.

Se a varivel independente dividida (ou multiplicada) por alguma constante diferente de zero (c) ento o coeficiente de inclinao de MQO multiplicado (ou dividido) por c, respectivamente.
Mudar as unidades de medida da varivel independente no afeta o intercepto. O grau de ajuste do modelo (R2) no depende das unidades de medida das variveis.

55

NO-LINEARIDADE NA REGRESSO SIMPLES Formas funcionais populares usadas em economia e outras cincias sociais aplicadas podem ser incorporadas anlise de regresso. At agora foram analisadas relaes lineares entre as variveis dependente e independente. No entanto, relaes lineares no so suficientes para todas as aplicaes econmicas e sociais. fcil incorporar no-linearidade na anlise de regresso simples.

56

EXEMPLO DE NO-LINEARIDADE Para cada ano adicional de educao, h um aumento fixo no salrio. Esse o aumento tanto para o primeiro ano de educao quanto para anos mais avanados:

Suponha que o aumento percentual no salrio o mesmo, dado um ano a mais de educao formal. Um modelo que gera um efeito percentual constante dado por:

Se

, ento:

Para cada ano adicional de educao, h um aumento de ?% sobre o salrio.

Como a variao percentual no salrio a mesma para cada ano adicional de educao, a variao no salrio aumenta quando a educao formal aumenta.

57

58

INTERPRETAO DOS COEFICIENTES Aumento de uma unidade em x aumenta y em 1 unidades:


Aumento de 1% em x aumenta y em (1/100) unidades: Aumento de uma unidade em x aumenta y em (100* 1)%. O clculo da semi-elasticidade {[exp(1) 1]*100} indica a diferena percentual exata:

Aumento de 1% em x aumenta y em 1% (modelo de elasticidade constante): Elasticidade a razo entre o percentual de mudana em uma varivel e o percentual de mudana em outra varivel.

59

FORMAS FUNCIONAIS ENVOLVENDO LOGARITMOS


Varivel Dependente
y

Modelo

Varivel Independente
x

Interpretao de 1
y=1x y=(1/100)%x %y=(1001)x %y=1%x

nvel-nvel

nvel-log

log(x)

log-nvel

log(y)

log-log

log(y)

log(x)

60

SIGNIFICADO DE REGRESSO LINEAR O modelo de regresso linear permite relaes no-lineares.


Esse modelo linear nos parmetros: 0 e 1. No h restries de como y e x se relacionam com as variveis dependente e independente originais, j que podemos utilizar: logaritmo natural, quadrado, raiz quadrada...

A interpretao dos coeficientes depende das definies de como x e y so construdos. muito mais importante tornar-se proficiente em interpretar coeficientes do que eficiente no clculo de frmulas. (Wooldridge, 2008: 45)

61

UTILIZAO DE PESOS

62

DIFERENTES PESOS
Nmero de observaes coletadas na amostra Peso para expandir para o tamanho da populao (N) Peso para manter o tamanho da amostra (n)

Indivduo

Joo
Maria Total

1
1 2

4
6 10

0,8
1,2 2

EXEMPLO: Peso amostral do Joo = Peso de frequncia do Joo * (Peso amostral total / Peso de frequncia total)

63

PESO DE FREQUNCIA NO STATA FWEIGHT: Expande os resultados da amostra para o tamanho populacional. Utilizado em tabelas para gerar frequncias. O uso desse peso importante na amostra do Censo Demogrfico e na Pesquisa Nacional por Amostra de Domiclios (PNAD) do Instituto Brasileiro de Geografia e Estatstica (IBGE) para expandir a amostra para o tamanho da populao do pas, por exemplo. Somente pode ser usado em tabelas de frequncia quando o peso uma varivel discreta (no decimal).
tab x [fweight = peso]

64

PESO AMOSTRAL PARA PROGRAMADORES NO STATA IWEIGHT: No tem uma explicao estatstica formal. Esse peso utilizado por programadores que precisam implementar tcnicas analticas prprias. Pode ser utilizado em tabelas de frequncia, mesmo que o peso seja decimal.
tab x [iweight = peso]

65

PESO AMOSTRAL ANALTICO NO STATA AWEIGHT: Inversamente proporcional varincia da observao. Nmero de observaes na regresso escalonado para permanecer o mesmo que o nmero no banco. Utilizado para estimar uma regresso linear quando os dados so mdias observadas, tais como:
group 1 2 x 3.5 5.0 y 26.0 20.0 n 2 3

Ao invs de:
group 1 1 2 2 2 x 3 4 8 2 5 y 22 30 25 19 16

66

UM POUCO MAIS SOBRE O AWEIGHT De uma forma geral, no correto utilizar o AWEIGHT como um peso amostral, porque as frmulas utilizadas por esse comando assumem que pesos maiores se referem a observaes medidas de forma mais acurada.
Uma observao em uma amostra no medida de forma mais cuidadosa que nenhuma outra observao, j que todas fazem parte do mesmo plano amostral. Usar o AWEIGHT para especificar pesos amostrais far com que o Stata estime valores incorretos de varincia e de erros padres para os coeficientes, assim como valores incorretos de "p" para os testes de hiptese. regress y x1 x2 [aweight = peso]

67

PESO AMOSTRAL NAS REGRESSES DO STATA PWEIGHT: Ideal para ser usado nas regresses do Stata. Usa o peso amostral como o nmero de observaes na populao que cada observao representa. So estimadas propores, mdias e parmetros da regresso corretamente. H o uso de uma tcnica de estimao robusta da varincia que automaticamente ajusta para as caractersticas do plano amostral, de tal forma que varincias, erros padres e intervalos de confiana so calculados de forma mais precisa. o inverso da probabilidade da observao ser includa no banco, devido ao desenho amostral. regress y x1 x2 [pweight = peso]

68

OUTRAS OBSERVAES SOBRE PESOS NO STATA


PESOS EM TABELAS DE FREQUNCIA Expandir para o tamanho da populao (N) Manter o tamanho da amostra (n) aweight Decimal iweight

Tipo do peso

Discreto

fweight

PESOS EM MODELOS DE REGRESSO devem manter o tamanho da amostra (n)


Erro padro robusto R2 ajustado, SQT, SQE, SQR

pweight
reg y x, robust

aweight
outreg2

69

PLANO AMOSTRAL COMPLEXO Estatsticas descritivas e modelos de regresso devem levar em considerao a estrutura de planos amostrais complexos. PNAD tem amostra complexa (Silva, Pessoa, Lila, 2002): Considerar variveis de estrato de municpio autorrepresentativo e no autorrepresentativo (v4617) e de unidade primria de amostragem (v4618), do banco de domiclios. Agregar variveis acima ao banco de pessoas, o qual possui peso da pessoa (v4729). Lidar com problema de alguns estratos terem somente uma unidade primria de amostragem. Pode-se especificar mdia deste estrato como sendo a mdia geral, ao invs da mdia do prprio estrato.
svyset [pweight=v4729], strata(v4617) psu(v4618) singleunit(centered)

Tabelas e regresses devem ser precedidas de svy:.

70

EXEMPLOS COM PNAD DE MINAS GERAIS DE 2007 O banco de dados de pessoas possui informao de anos de escolaridade (anest), rendimento no trabalho principal (renpri), logaritmo do rendimento no trabalho principal (lnrenpri) e peso da pessoa (v4729):

...

71

EXEMPLO 1: PNAD DE MINAS GERAIS DE 2007 Escolaridade explicando rendimento:


. reg renpri anest [aweight=v4729] (sum of wgt is 8.7563e+06) Source Model Residual Total renpri anest _cons SS df MS 2.5086e+09 1466951.75 1621416.61 t 41.35 3.23 P>|t| 0.000 0.001 Number of obs F( 1, 16230) Prob > F R-squared Adj R-squared Root MSE = 16232 = 1710.07 = 0.0000 = 0.0953 = 0.0953 = 1211.2

2.5086e+09 1 2.3809e+10 16230 2.6317e+10 16231 Coef. 94.24418 65.81278

Std. Err. 2.279019 20.36991

[95% Conf. Interval] 89.77705 25.88551 98.71131 105.7401

72

EXEMPLO 1: PNAD DE MINAS GERAIS DE 2007 Renda predita por anos de escolaridade:
30000 10000 0 20000 1500 renpre 500 1000

0 0 5 anest 10 15

5 anest renpri

10 renpre

15

73

EXEMPLO 1: PNAD DE MINAS GERAIS DE 2007 Resduos por renda predita:


30000 Residuals 10000 0 20000

500 renpre

1000

1500

74

EXEMPLO 2: PNAD DE MINAS GERAIS DE 2007 Escolaridade explicando logaritmo do rendimento:


. reg lnrenpri anest [aweight=v4729] (sum of wgt is 8.7563e+06) Source Model Residual Total lnrenpri anest _cons SS df MS 2204.86541 .618334278 .754139039 t 59.71 420.80 P>|t| 0.000 0.000 Number of obs F( 1, 16230) Prob > F R-squared Adj R-squared Root MSE = 16232 = 3565.81 = 0.0000 = 0.1801 = 0.1801 = .78634

2204.86541 1 10035.5653 16230 12240.4307 16231 Coef. .088355 5.565065

Std. Err. .0014796 .0132249

[95% Conf. Interval] .0854548 5.539142 .0912552 5.590987

75

EXEMPLO 2: PNAD DE MINAS GERAIS DE 2007 Renda predita por anos de escolaridade:
8 10 2 4 6

lnrenpre

6.5 6

5.5

0
0 5 anest 10 15

5 anest lnrenpri

10 lnrenpre

15

800

1000

explnrenpre

600

400

10000 0

20000

30000

200

0
0 5 anest 10 15

5 anest renpri

10 explnrenpre

15

76

EXEMPLO 2: PNAD DE MINAS GERAIS DE 2007 Resduos por renda predita:


4 4 Residuals

Residuals

-2

-4

5.5

6 lnrenpre

6.5

-4

-2

200

400

600 explnrenpre

800

1000

77

GRFICOS FORAM GERADOS COM ESTAS VARIVEIS Clculo do valor predito: y-predito = 0 + 1x Clculo do resduo: u = y-observado y-predito Na 2 regresso, calculamos ainda o exponencial do predito.

...

Das könnte Ihnen auch gefallen