Beruflich Dokumente
Kultur Dokumente
QUANTITATIVOS
COM STATA
MTODOS
QUANTITATIVOS
COM STATA
1 EDIO
CIP-BRASIL. CATALOGAO-NA-FONTE
SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
M552
Mtodos quantitativos com stata : procedimentos, rotinas e anlise de resultados / Luiz
Paulo Fvero ... [et al.]. - 1. ed. - Rio de Janeiro : Elsevier, 2014.
23cm.
ISBN 978-85-352-5157-9
1. Tecnologia da informao. 2. Sistemas operacionais (Computadores). 3.
Computadores. 4. Informtica. 5. Software. 6. Computadores - Equipamento de entrada e
sada. I. Fvero, Luiz Paulo. II. Ttulo.
13-03450 CDD: 004
CDU: 004
APRESENTAO
Este livro pode ser considerado resultado de vrias discusses e elucubraes, ao longo
dos ltimos anos, sobre a importncia da modelagem aplicada aos mais diversos campos
do conhecimento humano. O crescente acmulo de dados gerados, cada vez com maior
frequncia, em ambientes acadmicos e organizacionais vem acompanhado do profundo
desenvolvimento computacional e do aprimoramento dos softwares estatsticos e eco-
nomtricos. Dentro deste contexto, o Stata um software com grande capacidade de
processamento de enormes bases de dados, alm de ser capaz de elaborar os mais diversos
testes e modelos apropriados e robustos a cada situao e de acordo com aquilo que o
pesquisador e o tomador de deciso desejam.
O software Stata surgiu em 1985. Sua primeira verso, criada por William Gold, era
compatvel com o sistema operacional DOS. Atualmente, na verso 12, distribudo e
utilizado em mais de 150 pases, sendo compatvel, por meio do programa Stat/Transfer,
com a grande maioria dos softwares que utilizam bases de dados, como Excel, SPSS, SAS,
FoxPro, Gauss, LIMDEP, Matlab, Minitab, R, S-PLUS, Statistica, entre outros.
Alm disso, o Stata propicia ao usurio utilizar menus automticos do tipo point-and-
click ou aplicar diretamente comandos e programaes, dispondo de recursos para
atualizao automtica por meio da Web como quase nenhum outro software. Pos-
sibilita, por exemplo, que um pesquisador faa atualizaes de procedimentos, comandos
e cdigos, utilize macros desenvolvidas por outros pesquisadores ao redor do mundo
ou trabalhe com bases de dados disponveis na internet sem que, para tanto, haja algum
custo adicional.
Neste sentido, com bastante satisfao que apresento o primeiro livro de Mtodos
Quantitativos Aplicados por meio do software Stata publicado em lngua portuguesa.
O livro est estruturado em nove captulos, de acordo com o que segue:
Captulo1: Introduo
Captulo2: Estatstica Descritiva, Tabelas e Grficos
Captulo3: Testes de Hiptese e Anlise de Varincia (ANOVA)
Captulo4: Regresso Linear
Captulo5: Avaliao dos Modelos de Regresso
Captulo6: Regresso Robusta
Captulo7: Regresso Logstica
Captulo8: Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso
de Cox
Captulo9: Regresso com Dados em Painel
Cada captulo est estruturado dentro de uma mesma lgica de apresentao, o que,
acredito, favorece o processo de aprendizado. A aplicao de exemplos por meio da
utilizao do Stata a linha mestra, e a anlise dos outputs gerados possibilita, em funo
v
vi Apresentao
Janela de comandos
A janela de comandos (command window) iniciada quando o Stata carregado. Por
padro, localizada na parte inferior da tela. A janela de comandos permite que as funes
sejam executadas rapidamente, mas somente se o usurio conhecer os comandos bsicos.
Janela de reviso
A janela de reviso (review window) dos comandos utilizados , por padro, posicionada
no canto superior esquerdo da tela.Todos os comandos so gravados nessa tela. Digitado
um comando na janela de comandos, posteriormente ele ser exibido e armazenado
4 Mtodos Quantitativos com Stata
Algumas vezes, por acidente, voc pode fechar uma das janelas do Stata. Nessecaso,
basta recorrer barra de comandos Window e reativar a janela. Por exemplo, caso
ajanelade reviso dos comandos utilizados desaparea da tela do software, possvel
recuper-la, como demonstrado na Figura1.4.
Cabe destacar que o Stata diferencia, na grafia das palavras, as letras maisculas e
minsculas (ou seja, case sensitive). Nesse sentido, podemos citar como exemplo o co-
mando edit. No Stata o comando edit ir acionar a janela de edio dos dados, contudo,
comandos como Edit ou EDIT no so identificados pelo programa. Seguindo nessa
mesma linha de raciocnio, as variveis Id e id seriam consideradas duas variveis distintas.
Caso essa opo no aparea, digite update all no prompt de comando (janela
command) do Stata (Sintaxe1.1).
Voc pode fazer o que quiser com os dados na memria, e a cpia permanente
continuar a mesma em seu disco.
A nica forma de mudar uma cpia permanente dos dados utilizando o comando
save (Sintaxe1.4).
Alm disso, se algum erro reportado, nenhuma mudana realizada no banco que
se encontra na memria.
Exemplo: set mem 2m (por exemplo, muda para 2mb a memria disponvel para
ser utilizada pelo aplicativo)
O Stata, verso 12, oferece um avano em relao s demais verses. A partir dessa
verso no mais necessrio estabelecer a quantidade de memria a ser utilizada, sendo
que o programa aloca a quantidade mxima de memria possvel para execuo dos
comandos.
Stata: <http://www.stata.com/>
No site oficial da StataCorp possvel adquirir informaes sobre os produtos da
StataCorp, obter suporte tcnico para todas as verses do Stata. Nos menus do Stata
possvel encontrar informaes sobre encontros, treinamentos, publicaes, atualizaes
tcnicas, entre outros.
Statalist: <www.hsph.havard.edu/statalist>
O StataList um grupo aberto de mensagens por e-mail (uma lista de discusso),
sendo que qualquer interessado pode se inscrever. Existe um grande fluxo de mensagens
dirias da lista, o que pode se tornar um inconveniente. Contudo, possvel escolher
uma verso na qual os e-mails so condensados, reduzindo significativamente o nmero
de mensagens recebidas. Tambm existem arquivos on-line do StataList que podem ser
consultados.
Portal de Estatstica Computacional da Universidade da Califrnia de Los
Angeles (UCLA):<http://www.ats.ucla.edu/stat/stata/>
A Universidade da Califrnia possui um portal sobre o Stata, sendo que qualquer
interessado pode acessar. O site, proporcionado pela UCLA Academic Technology Service
Stata Consulting Group, auxilia usurios gratuitamente. O site uma rica fonte de notas
de curso, tutoriais e exemplos detalhados que incluem comandos do Stata, sada do
programa e discusses dos outputs do programa.
Stata Journal: <http://www.statajournal.com>
O Stata Journal um peridico publicado trimestralmente tanto em meio fsico
como eletrnico. Contm artigos escritos sobre o Stata, alm de adies ao software
elaboradas pelos usurios, contribuindo para a evoluo do programa ao longo de suas
verses.
Stata Help Files
Se o usurio est interessado em um comando especfico, o menu help o auxilia
na procura de palavras-chave (keyword). No menu Help, possvel entender o que cada
comando realiza alm, de explicitar opes que podem ser combinadas. Geralmente,
existem exemplos que podem auxiliar no processo de anlise dos resultados (PEVALIN;
ROBSON, 2009) (Sintaxe1.6).
usurio quanto os arquivos de ajuda on-line e das dvidas frequentes no site do Stata,
no Stata Journal e nas demais fontes on-line reconhecidas pelo aplicativo. Existe tambm
o comando search, apresentado na Sintaxe1.8.
O comando edit pode ser acessado com o cone Data Editor da barra de ferramentas.
As variveis que aparecem na cor preta no possuem rtulos e so variveis quantita-
tivas. Uma varivel quantitativa pode ser descrita por um nmero para o qual operaes
aritmticas, tais como mdia e desvio-padro, fazem sentido. As demais variveis (que so
apresentadas em outras cores) foram consideradas variveis qualitativas pelo programa.Va-
riveis qualitativas (ou categricas), por outro lado, so simples registros de uma qualidade/
caracterstica. Dentre as variveis qualitativas, as que aparecem na cor azul possuem o rtulo
visualizado, e as que apresentam a cor vermelha so variveis nominais (string ou character).
Uma segunda forma de se introduzir dados no Stata a abertura de arquivos j
preparados no formato do software. Esses arquivos de dados tm uma extenso .dta,
e utilizaremos um arquivo de exemplo que poder ser encontrado no diretrio C:\
Arquivos de Programas\Stata12 denominado auto.dta. Para carregar esse arquivo v
at o menu File Open e busque o arquivo auto.dta neste caminho.
O Stata permite a importao ou exportao para outros formatos de bancosde
dados. Por exemplo, na verso 12, possvel a importao direta de planilhas eletrnicas
nos formatos utilizados pelo Excel 97, 2003 e 2010. Em outras verses existe a pos-
sibilidade de utilizao de arquivos no formato texto, no formato utilizado pelo SAS,
noformato XML (extensible mark-up language) ou diretamente em bases de dados
relacionais (MySQL, por exemplo).
Introduo 13
selecionado onde o arquivo est localizado (o boto browse pode ser utilizado para a
localizao do arquivo).
O prximo passo escolher a extenso do programa em que se deseja ter os dados,
atravs da opo de sada dos dados (Output File Type). Uma vez selecionado o formato,
na parte inferior estabelecido onde ser salvo o novo arquivo. Caso no seja alterado
o local de sada dos dados, o Stat Transfer automaticamente salvar o novo arquivo no
mesmo local onde se encontram os dados originais.
Dessa maneira, possvel utilizar o Excel para organizar bancos de dados secundrios,
j que esse um programa mais acessvel e com mais recursos para a edio de dados.
Aps a organizao dos dados, o Stat Transfer pode ser utilizado para transferir os dados
para um arquivo no formato padro do Stata, permitindo fazer anlises estatsticas mais
sofisticadas.
Depois de selecionados os tipos de dados de entrada, sada, e suas respectivas localiza
es, possvel ativar a opo Transfer, solicitando que o programa inicie a transformao
dos dados para a nova extenso. Terminado o processo, possvel ver o novo arquivo
criado com a extenso predefinida. Tambm possvel iniciar outro processo com a
opo reset ou sair do programa com a opo Exit (Figura1.11).
append indicado quando as variveis de dois bancos de dados so iguais, mas possuem
observaes distintas. Por exemplo, um conjunto de dados sobre pessoas de Minas Gerais
pode ser adicionado ao arquivo master com dados sobre pessoas de So Paulo. As variveis
devem apresentar as mesmas denominaes. Se uma varivel aparece em apenas um dos
conjuntos de dados, as demais observaes sero caracterizadas como dados faltantes (mis-
sings ou missing values).A sintaxe para a execuo desse tipo de procedimento simples: basta
carregar o arquivo mestre e definir para o programa qual a base de dados que ser anexada.
Por exemplo, suponha que se deseje adicionar ao arquivo banco 1 o arquivo banco
2. Nesse caso, o arquivo banco 1 ser considerado o arquivo master. Nas Figuras1.13
e1.14 so apresentados os dois bancos de dados.
Figura 1.13 Janela do editor de dados arquivo Figura 1.14 Janela do editor de dados arquivo
banco 1.dta. banco 2.dta.
16 Mtodos Quantitativos com Stata
Aberto o arquivo mestre, basta solicitar ao programa que o arquivo desejado, no caso
o arquivo banco 2, seja anexado, como demonstrado na Figura1.15. Para acessar esse
comando via barra de menus, clique nas seguintes opes: Data Combine datasets
Append datasets.
O comando merge pode ser selecionado via barra de menus. Basta clicar nas seguin-
tes opes: Data Combine datasets Merge two datasets. Surgir uma janela, conforme
a Figura1.19.
O comando keep pode ser acessado pela seleo das seguintes opes na barra de
menus: Data Create or change data Keep or drop observations. Aparecer uma janela,
conforme a Figura1.21.
O Stata utiliza o comando drop (Sintaxe1.14) para a excluso de variveis. Por exemplo:
drop renda.
Alm disso, observaes tambm podem ser excludas pontualmente. Nesse sentido,
caso se deseje remover a observao 10 por algum motivo (tal como consider-la um
outlier), basta solicitar a excluso tambm pelo comando drop, da seguinte forma: drop
in 10/10.
Via barra de menus, podemos acessar o comando drop, selecionando as seguintes
opes: Data Create or change data Keep or drop observations. Aparecer uma janela,
conforme a Figura1.24.
O comando generate (ou simplesmente gen) (Sintaxe1.15), por sua vez, in-
dicadonos casos em que se deseja incluir novas variveis, por meio de transformaode
variveis anteriormente existentes. Por exemplo, para gerar uma nova varivel denominada
lnendividamento que contm logaritmo natural do valor do endividamento, basta digitar
o comando a seguir: gen lnendividamento=log(endividamento).
Introduo 23
Na barra de menus, esse comando est disponvel em: Data Create or change data
Create new variable. Surgir uma janela, conforme a Figura1.25.
Caso queira criar uma descrio mais detalhada das variveis, o usurio pode inserir
as informaes em um campo com tal destinao. A adio da descrio pode ser feita
pelo comando label var (Sintaxe1.16). No exemplo, deseja-se especificar na base de
dados que a renda apresentada no banco de dados a renda bruta familiar. Por exemplo:
label var renda renda familiar bruta.
Essa opo pode ser acessada via barra de menus. Basta selecionar as seguintes opes:
Data Variables Manager (ver Figura1.26).
Para visualizar uma relao das variveis contidas na base de dados, pode ser utilizado
o comando list (Sintaxe1.17). Esse comando lista as variveis, sendo que no precisam ser
todas, pois o usurio pode selecionar um subgrupo. Existem diversas formas de utilizao
do comando list com o uso de delimitadores: if e in.
uma regresso; (iv) obtidos os resduos do modelo e seu grfico; e (v) salvo novamente
o arquivo de dados. Todos os do-files podem ser salvos e armazenados, facilitando sua
utilizao futura.
Para se trabalhar com o do-file, deve-se digitar, na janela de comandos, doedit
(Sintaxe1.18). Os comandos a seguir devem ser digitados dentro do do-file. Nesse caso,
basta copiar e colar para dentro da janela do do-file. Todos os comandos precedidos de
asterisco (*) so considerados comentrios.
O primeiro passo que daremos ser acionar o aplicativo Stata e, aps a sua inicia-
lizao, iremos solicitar a abertura da base de dados auto.dta, utilizando o comando
sysuse (Sintaxe2.1).
27
28 Mtodos Quantitativos com Stata
possibilita que os usurios escolham algumas opes em relao ao resultado que ser
ento fornecido.
Uma descrio mais detalhada das variveis que compem o banco de dados pode
ser obtida por intermdio do comando codebook (Sintaxe2.3).
Outra forma de mostrar informaes sobre as variveis da base de dados, com ilus-
trao de quantidade de nmeros negativos, positivos e em branco (missing values), alm
de um pequeno grfico de ramos e folhas (com distribuio da varivel entre os seus
valores), com o comando inspect (Sintaxe2.4).
Verificaremos agora as mesmas variveis do exemplo anterior, price e weight. Para isso,
digitaremos o seguinte comando:
inspect price weight
Caso desejarmos acionar o comando list, por meio da barra de menus, precisaremos
clicar nas seguintes opes: Data Describe data List data. Aparecer uma janela,
conforme a Figura2.4.
Para mostrar a base de dados em uma tela separada, utilize o comando browse
(Sintaxe2.6).
Caso se deseje que na tabela sejam includas informaes adicionais tais como per-
centis, varincia, assimetria e curtose, a opo detail (precedida por uma vrgula) pode
ser includa no comando summarize.
O Stata permite que alguns comandos sejam utilizados em sua forma reduzida. Em
relao ao comando summarize, o mesmo pode ser acionado apenas digitando a sua
forma reduzida sum.
Para visualizarmos apenas algumas variveis (como, por exemplo price e weight) e es-
tatsticas descritivas adicionais, utilizaremos o seguinte comando:
sum price weight, detail
mediana (Percentiles 50%), (vi) varincia (Variance), (vii) assimetria (Skewness) e (viii)
curtose (Kurtosis).
Caso seja utilizada a barra de menus para se acessar o comando summarize, para
obter as estatsticas descritivas adicionais o usurio precisar selecionar a opo Display
additional statistics, na janela de configurao do comando.
O Stata permite que especifiquemos somente as estatsticas descritivas de interes-
se para serem exibidas na tabela. O comando para obter tal informao o tabstat
(Sintaxe2.9).
Suponha que estamos interessados nas seguintes estatsticas descritivas da varivel price:
(i) mdia (mean), (ii) desvio-padro (sd), (iii) assimetria (skewness), (iv) curtose (kurtosis),
(v) nmero de observaes (n), (vi) mnimo (min) e (vii) mximo (max). Para isso, basta
informarmos na janela de comandos o seguinte:
tabstat price, stats (mean sd skewness kurtosis n min max)
O comando tabstat tambm est acessvel via barra de menus. Basta selecionarmos
as seguintes opes: Statistics Summaries, tables, and tests Tables Table of summary
statistics (tabstat). Aparecer uma janela, conforme a Figura2.8.
Vamos visualizar os histogramas das variveis price e length. Para tanto, basta digitarmos
os seguintes comandos, um de cada vez:
histogram price, norm
histogram length, norm
Agora, vamos visualizar os grficos box plot para as variveis price e length (Figura2.11).
Dessa forma, precisamos informar os seguintes comandos, um de cada vez:
Estatstica Descritiva, Tabelas eGrficos 45
A partir da anlise grfica, verificamos que o box pot da varivel length demonstra
que essa varivel possui uma distribuio simtrica, enquanto a varivel price possui uma
distribuio assimtrica, pois h bastantes valores atpicos (outliers).
Por meio da barra de menus, podemos encontrar o comando graph box, selecio-
nando as seguintes opes: Graphics Box plot. Ser exibida uma janela, conforme a
Figura2.12.
Seguindo com o nosso exemplo, vamos solicitar o grfico P-P plot para as variveis
price e length (Figura2.13). Novamente, lembramos que os comandos a seguir devem ser
informados um de cada vez.
pnorm price
pnorm length
Com funo similar, o grfico Q-Q plot compara os quantis de uma distribuio de
dados com os quantis da distribuio terica da normal. O comando qnorm produz
um grfico Q-Q plot. O grfico Q-Q plot apresenta um padro similar ao grfico P-P
plot. No Stata acionado a partir do comando qnorm (Sintaxe2.13).
Estatstica Descritiva, Tabelas eGrficos 49
Dessa vez, vamos solicitar o grfico Q-Q plot para as variveis price e length
(Figura2.15). Relembramos que os comandos a seguir devem ser informados um
de cada vez.
qnorm price
qnorm length
De maneira similar ao que ocorreu nos grficos P-P plot, a anlise dos grficos Q-Q
plot nos permite identificar que a distribuio da varivel length mais ajustada dis-
tribuio terica de uma varivel normal do que a distribuio da varivel price.
Por intermdio da barra de menus, podemos acessar o comando qnorm, clicando
nas seguintes opes: Statistics Summaries, tables, and tests Distributional plots and tests
Normal quantile plot. Na Figura2.16 apresentamos a janela que surgir.
Passaremos agora aos testes estatsticos para a deteco da normalidade. Iremos des-
crever e demonstrar os principais testes contidos no Stata, porm, no nos preocupare-
mos, nesse momento, com a anlise dos resultados, pois a veremos mais detalhadamente
na seo 2.5.
Para verificarmos a normalidade de uma s varivel (normalidade univariada), o
Stata possui quatro mtodos de teste: (i) Shapiro-Wilk, (ii) Shapiro-Francia; (iii) teste
de assimetria e curtose (Skewness-Kurtosis test) e (iv) Kolmogorov-Smirnov.
Para executarmos o teste Shapiro-Wilk que, segundo Maroco (2011), mais indicado
para pequenas amostras (aquelas com at 30 observaes), solicitamos o comando swilk
(Sintaxe2.14).
Estatstica Descritiva, Tabelas eGrficos 51
Iremos solicitar ao Stata que elabore o teste Shapiro-Wilk (apenas para fins didticos,
sem nos preocuparmos com a dimenso da amostra), para as variveis price e length
(Resultados2.15). Assim, devemos digitar:
swilk price length
O teste Shapiro-Wilk poder ser acionado por meio da barra de menus. Para tanto,
acionaremos as seguintes opes: Statistics Summaries, tables, and tests Distributional
plots and tests Shapiro-Wilk normality test. Surgir a janela da Figura2.17.
Shapiro e Francia (1972) realizaram alteraes no teste Shapiro-Wilk para que o mes-
mo pudesse ser utilizado com grandes amostras, dando origem ao teste Shapiro-Francia.
No Stata, esse teste acionado pelo comando sfrancia (Sintaxe2.15).
Agora, solicitaremos que seja feito o teste Shapiro-Francia, para as variveis price e
length (Resultados2.16).
sfrancia price length
Tambm esse comando poder ser acionado por meio da barra de menus. Basta
selecionarmos as seguintes opes: Statistics Summaries, tables, and tests Distributional
plots and tests Skewness and kurtosis normality test. Ser exibida a janela da Figura2.19.
Para acessarmos, via barra de menus, o comando tabulate, basta clicarmos nas seguin-
tes opes: Statistics Summaries, tables, and tests Tables One-way tables. Aparecer
a janela da Figura2.22.
Vamos montar uma tabela cruzada envolvendo as variveis rep78 e foreign, utilizando
o seguinte comando:
60 Mtodos Quantitativos com Stata
Agora, estamos interessados em produzir uma tabela cruzada que inclua dados faltantes
na tabela no clculo das porcentagens e que calcula todas as estatsticas disponveis (qui
-quadrado de Pearson, qui-quadrado da razo da verossimilhana,V de Cramer, gamma
Estatstica Descritiva, Tabelas eGrficos 61
de Kruskal e tau b de Kendall), apenas para a varivel rep78. Para tanto, empregaremos
o seguinte comando:
tab rep78 foreign, missing row all
Caso se deseje acessar o comando tabulate para duas variveis, podemos utilizar as
seguintes opes, presentes na barra de menus: Statistics Summaries, tables, and tests
Tables Two-way tables with measures of association. Surgir a janela da Figura2.24.
Figura 2.24 Janela de configuraes do comando tabulate para duas variveis, com opes.
Por meio da barra de menus, acessamos o comando tab2, a partir das seguintes
opes: Statistics Summaries, tables, and tests Tables All possible two-way tabulations.
Ser exibida a janela da Figura2.25.
64 Mtodos Quantitativos com Stata
Podemos desejar incluir apenas um grupo especfico de observaes, que pode ser especi-
ficado pelo comando if (Resultados2.29 e Figura2.28). No nosso exemplo, essa opo pode
ser especificada conforme o seguinte comando, caso se deseje apenas plotar carros nacionais.
twoway (scatter trunk weight) (scatter mpg weight) if foreign==0
Figura 2.28 Grfico de disperso entre as variveis trunk, mpg e weight, utilizando-se a opo if.
68 Mtodos Quantitativos com Stata
Figura 2.29 Grfico de disperso entre as variveis trunk e weight, utilizando-se a opo by.
Figura 2.31 Grfico de linha entre as variveis trunk e weight, utilizando a opo sort.
Figura 2.32 Grfico de disperso entre as variveis mpg e weight, com uma linha de tendncia.
Estatstica Descritiva, Tabelas eGrficos 71
Basta que cliquemos no boto Create, para gerar um novo grfico. Ao cliclarmos,
surgir outra janela, na qual informaremos o tipo de grfico e as variveis a serem
utilizadas (Figura2.34).
Ao clicarmos no boto Accept, ser armazenado o novo grfico a ser gerado. Assim,
poderemos repetir o processo e solicitar quantos grficos desejamos que o Stata gere.
O Stata apresenta diferentes verses do grfico de barras. O comando twoway bar
apenas uma variao do comando que j foi visto.
Tambm existem grficos que no fazem parte da famlia twoway. Por exem-
plo, para gerar um grfico de barras podemos utilizar o comando graph bar
(Sintaxe2.23).
Por exemplo, imagine que queremos obter grficos de barras das variveis weight e
price, separando-as de acordo com a origem dos veculos (varivel foreign) (Figura2.35).
Para isso, basta digitarmos o seguinte comando:
Figura 2.35 Grfico de barras entre as variveis weight e price, separando os resultados pelas cate-
gorias da varivel foreign.
Estatstica Descritiva, Tabelas eGrficos 73
Para acessar esse comando, por meio da barra de menus, podemos utilizar as seguintes
opes: Graphics Bar chart. Aparecer a janela da Figura2.36.
Em que:
Mean=Mdia
Std. Dev.=Desvio-padro
Estatstica Descritiva, Tabelas eGrficos 75
Variance =Varincia
Skewness=Assimetria
Kurtosis=Curtose
Percentiles=Percents
Mediana=Percentis 50%
Por intermdio das medidas de posio possvel avaliar onde os dados esto concen-
trados, possibilitando detectar quais so, aparentemente, os valores tpicos ou centrais.
Calculando as estatsticas descritivas, obteve-se uma mdia de 6,63 e mediana de 10,38.
Uma vez que a mdia inferior mediana calculada, uma primeira concluso a ser
alcanada seria a de que valores extremamente baixos interferiram no clculo da mdia,
puxando-a para baixo. Essa hiptese corroborada pelos valores mximos e mnimos
encontrados (percentil 99%: 100,02; percentil 1%: -988,90). O percentil 1% de -988,90
demonstra um comportamento bem destoante do comportamento mdio da amostra.
Entretanto, a anlise das medidas de tendncia central por si s no permite um
entendimento completo, impossibilitando avaliar a regularidade com a qual as observaes
se apresentam. Para se estimar a variao existente nos dados, isto , como os mesmos
esto espalhados, mostra-se necessrio o clculo de medidas tais como a varincia e o
desvio-padro. A varincia e o desvio-padro calculados para a amostra foram de 2957,29
e de 54,38, respectivamente. O desvio-padro nada mais do que a raiz quadrada da
varincia, transformando a medida de acordo com a unidade original dos dados. O
coeficiente de variao, por sua vez, fornece meios adicionais para a interpretao da
magnitude do desvio-padro: seu clculo demonstrou um patamar de variao das
observaes de cerca de 820% (54,38/6,63*100); valor este extremamente elevado, o
que caracteriza uma alta disperso dos dados.
O fato de ter sido encontrada uma mdia inferior mediana denota uma assime-
tria na distribuio dos dados, mais especificamente esquerda (negativa), constatao
corroborada pelo coeficiente de assimetria de -11,80. Por fim, o quarto momento da
distribuio, isto , a curtose, indicou se tratar de uma distribuio leptocrtica, uma
vez que o coeficiente de curtose foi superior a 0 (180,74). O pico mais pronunciado e
a cauda longa apontada para a direita podem ser observados no histograma esboado ao
se digitar o seguinte comando: (Figura2.38)
histogram rentabilidade
Por esse mtodo, 70 empresas foram excludas da amostra. Levando em conta os dados
finais aps excluso dos outliers, as estatsticas descritivas foram elaboradas novamente,
conforme apresentado nos Resultados2.39.
summarize rentabilidade, detail
A mediana, que antes se encontrava no patamar de 10,38, aps a excluso dos out
liers permaneceu a mesma. Contudo, a mdia, antes influenciada por valores extremos,
aproximou-se da mediana, passando de 6,63 para 11,41. A assimetria, que antes era es-
querda (negativa), com um coeficiente de assimetria de -11,80 (e uma mediana superior
mdia), passou a ser direita e bem menos pronunciada (coeficiente de 0,222). Da
mesma maneira, houve uma reduo significativa no coeficiente da curtose, que passou
de 180,74 para 0,291. Portanto, o terceiro e o quarto momentos demonstraram uma
aproximao da distribuio normal, como demonstrado pelo histograma esboado
ao se digitar o seguinte comando (Figura2.39):
78 Mtodos Quantitativos com Stata
histogram rentabilidade
2.6.EXERCCIOS
1. Inicialmente, solicite a abertura da base de dados auto.dta utilizando o comando
sysuse (sysuse auto). Aps a abertura dessa base de dados, calcule as estatsticas des-
critivas da varivel rep78 (nmero de reparos no ano de 1978). Pergunta-se:
a. Qual o nmero total de observaes?
b. Qual o nmero de missings (dados faltantes)?
c. Qual o valor mnimo da varivel x?
d. Qual o valor mximo da varivel x?
2. Com a mesma base de dados auto.dta utilizada na questo 1, com relao varivel
weight, pede-se:
a. Existe algum caso com informaes faltantes (missing)?
b. Calcule as seguintes medidas de tendncia central: mdia, mediana e quartis.
c. Calcule as medidas de disperso: amplitude, varincia, desvio-padro.
d. Estime os coeficientes para as seguintes medidas de forma: Assimetria e Curtose.
3. Com a mesma base de dados auto.dta utilizado na questo 1, pede-se:
a. Elabore um histograma desta vez para a varivel gear_ratio (razo da engrenagem
do cmbio). Pode-se afirmar que essa varivel se comporta como uma normal?
Realize os testes destinados para tal.
b. Elabore um histograma para a varivel rep78. Cabe ressaltar que se tratam de dados
discretos, devendo essa caracterstica ser especificada quando da elaborao do grfico.
c. Elabore um grfico de disperso para avaliar se existe uma relao entre o preo
(price) e a potncia dos alto-falantes (headroom).
4. A seguir est apresentada a srie histrica do IPCA de jan./2010 at dez./2012. Com
base nesses dados pede-se:
ndice do ms (em %)
jan./10 0,75 jan./11 0,83 jan./12 0,56
fev./10 0,78 fev./11 0,80 fev./12 0,45
mar./10 0,52 mar./11 0,79 mar./12 0,21
abr./10 0,57 abr./11 0,77 abr./12 0,64
maio/10 0,43 maio/11 0,47 maio/12 0,36
jun./10 0,00 jun./11 0,15 jun./12 0,08
jul./10 0,01 jul./11 0,16 jul./12 0,43
ago./10 0,04 ago./11 0,37 ago./12 0,41
set./10 0,45 set./11 0,53 set./12 0,57
out./10 0,75 out./11 0,43 out./12 0,59
nov./10 0,83 nov./11 0,52 nov./12 0,60
dez./10 0,63 dez./11 0,50 dez./12 0,79
X
t=
[Equao 3.1]
n
Suponha que em uma pesquisa anual com o histrico de 10 anos a mdia de repara-
odos carros tenha se apresentado constante nos ltimos anos. No existem indcios de
que essa mdia foi alterada no ano de anlise. Contudo, por meio do teste de hipteses
buscam-se alteraes nesse valor mdio. O teste de hipteses que voc deseja implementar
visa verificar se a mdia do valor de vendas est aumentando ou diminuindo.
81
82 Mtodos Quantitativos com Stata
H0 : = 3
H1 : 3
Em particular, para utilizar o teste t para uma amostra, pressupe-se que os dados
numricos obtidos so extrados independentemente e representam uma amostra
aleatria de uma populao que normalmente distribuda, ou seja, deve-se seguir
uma distribuio normal.
X Y
t= ~ Tk( g .l .)
12 22
n m
2
12 22
[Equao 3.2]
n m
k= 2 2
12 22
n m
+
(n 1) (m 1)
De acordo com os p-valores apresentados para cada par de hipteses nula e alternativa,
verifica-se que as mdias dos carros nacionais e dos estrangeiros so estatisticamente
diferentes (H0: diff=0 versus H1: diff 0, em que diff=mdia nacionais mdia es-
trangeiros) e que a mdia dos carros nacionais menor do que a mdia de reparos dos
estrangeiros (H0: diff=0 versus H1: diff<0).
86 Mtodos Quantitativos com Stata
Caso as varincias dos grupos fossem iguais, o comando utilizado seria o seguinte:
ttest rep78, by(foreign)
que 0,05 significa que necessrio selecionar a opo Unequal variances ao realizar o
teste t. Nesse caso, o nvel de significncia confortavelmente acima de 0,05, e portanto
varincias equivalentes so assumidas (Figura3.4).
de cheque especial e de carto de crdito. Alm disso, imagine que a empresa esteja
interessada em analisar se existem diferenas significativas para esse quesito em relao
s classes sociais dos clientes.
Para tanto, as variveis dependentes so os percentuais de utilizao do crdito em
relao aos respectivos limites concedidos no cheque especial e no carto de crdito e
a varivel independente refere-se s classes sociais.
Assim, a hiptese nula pode ser descrita da seguinte maneira (FVERO et al., 2009):
Figura 3.7 Janela para aplicao do teste de Levene para a varivel perc_cheque.
Testes de Hiptese e Anlise deVarincia (ANOVA) 93
O resultado do teste de Levene, por sua vez, indica, com nvel de significncia de 5%,
que apenas o percentual de utilizao do limite de crdito do cheque especial atende
ao pressuposto da homogeneidade de varincia. Ou seja, a outra varivel dependente
(perc_cartao) somente observa esse pressuposto se o nvel de significncia for 1%. Neste
sentido, caber ao pesquisador avaliar o nvel de significncia a ser adotado no estudo
e os respectivos impactos. Para fins didticos, e tendo em vista os resultados do teste de
Box's M, ser dada sequncia anlise dos outros resultados.
Para a obteno dos resultados dos testes de mdias (Pillai's Trace, Wilks Lambda,
Hotelling's Trace e Roy's Largest Root), por sua vez, basta digitar o seguinte comando:
manova perc_cartao perc_cheque=classesocial
A Figura3.8 apresenta o passo a passo para elaborao dos testes por meio das janelas
de comando.
Os testes de mdias (Pillai's Trace, Wilks Lambda, Hotelling's Trace e Roy's Largest
Root) sugerem a no rejeio da hiptese nula de igualdade de mdias entre as classes
sociais em relao aos percentuais de utilizao do limite de crdito concedido no
carto de crdito e no cheque especial, indicando adequao da poltica de crdito da
instituio financeira em relao ao no beneficiamento de qualquer classe social em
detrimento de outras.
Os resultados apresentados a seguir so coerentes com o que j foi discutido, apontan-
do para a no existncia de elementos que levem rejeio da hiptese nula de igualdade
de mdias, com nvel de significncia de 5%, entre as classes sociais.
Testes de Hiptese e Anlise deVarincia (ANOVA) 95
Podemos comear comparando a classe social 1 com a mdia das classes sociais 2
e 3. A hiptese que as mdias dos dois grupos sejam iguais. O resultado anterior-
mente apresentado indica que o quarto elemento da matriz a constante, ou seja,
ser estabelecido como zero no comando matrix a seguir. Uma vez criada a matriz
(que denominaremos c1), pode-se utilizar o comando manovatest para test-la.
matrix c1=(2,-1,-1,0)
manovatest, test(c1)
3.6.EXERCCIOS
1. Um investidor possui 13 ativos que lhe renderam os seguintes retornos:
8,4% 4,6% 11,9% 15,3% 7,6% 12,2% 9,0% 15,6% 14,5% 6,0% 18,8% 9,1% 18,1%
Investimentos com perfis de risco semelhantes lhe renderiam cerca de 12%. Dessa
maneira, calcule a mdia da rentabilidade e avalie se est estatisticamente abaixo ou acima
da rentabilidade mdia oferecida pelo mercado.
2. O arquivo endividamento.dta contm o endividamento de longo prazo das mil
maiores empresas de capital aberto do pas para o ano de 2007, sendo estas empresas
segregadas em trs ramos de atuao (comrcio, indstria ou servios). Com base
nesse arquivo, responda as seguintes questes:
a. Existem dados faltantes? Exclua esses casos.
b. Qual a mdia do endividamento?
c. Teste a hiptese de que a mdia da varivel endividamento_lp igual a 20% a partir
de um teste bicaudal. Reporte o p-valor. Devemos rejeitar a hiptese a um nvel
de 5% de significncia?
d. A varivel ramo_atividade contm informaes sobre a qual ramo de atividade a
empresa pertence (comrcio, indstria ou servios). Teste a hiptese nula padro
em um teste bicaudal de que o endividamento de longo prazo das empresas do
setor de comrcio estatisticamente igual ao endividamento do setor de servios.
Em um nvel de 10% de significncia, a hiptese nula rejeitada? E em um nvel
de 5% de significncia?
e. Reporte a diferena na mdia dos grupos.
f. O teste t pode ser estimado pressupondo varincias equivalentes ou varincias dife-
rentes entre os grupos. Qual dos dois testes mais adequado para a amostra estudada?
3. Ainda por meio do arquivo endividamento.dta, pede-se:
a. Qual o nmero total de observaes de cada grupo (ramo de atividade)? Qual
dos grupos apresenta a menor e a maior mdia?
b. Realize a anlise da varincia para os dados. Quais so os graus de liberdade para
o numerador da estatstica F? E do denominador?
c. Qual o p-valor para a hiptese nula de que todas as mdias so estatisticamente
iguais? A hiptese nula rejeitada a um nvel de 10%? E a 2%?
4. O arquivo tv.dta contm dados obtidos de uma empresa cujo objetivo consiste em avaliar
a preferncia do consumidor no momento de aquisio de um aparelho de televiso,
com base no preo e na qualidade do suporte tcnico, a partir de variveis referentes a
classe social e sexo. Com base nessas informaes, elabore e interprete a MANOVA.
CAPTULO 4
Regresso Linear
A regresso linear a tcnica que busca estimar o valor esperado para uma varivel,
denominada dependente, a partir da variao de outra(s) varivel(is), denomina-
da(s) explicativa(s), considerando a varivel dependente como uma funo linear
da(s) explicativa(s).
Neste captulo apresentaremos os principais comandos para a estimao de uma
regresso linear, utilizando tanto a regresso simples quanto a regresso mltipla.
Abordaremos, tambm, a anlise dos resduos e a utilizao da tcnica para a previso
de valores.
Usaremos em nossos exemplos a base de dados cidades.dta. A referida base pos-
sui 153 observaes sobre valores mdios simulados sobre o censo de 153 cidades.
composta pelas variveis descritas no Quadro4.1.
99
100 Mtodos Quantitativos com Stata
y = + x + [Equao 4.1]
Em que:
y: a varivel dependente;
x: a varivel explicativa;
a e b: so os parmetros da regresso; e
: termo de erro da regresso.
No Stata, para estimar uma regresso linear devemos utilizar o comando regress
(Sintaxe4.1).
Para acessar o comando regress, por intermdio da barra de menus, devemos clicar
nas seguintes opes: Statistics Linear models and related Linear regression. Surgir uma
janela, conforme a Figura4.2.
Na prxima seo passaremos a analisar os resultados da regresso linear simples.
Todavia, apenas uma estatstica R2 com um alto valor no suficiente para atestarmos
sobre a significncia da regresso estimada. O teste F resultou em uma estatstica de 999,76
que, em uma distribuio F1,151 (graus de liberdade do numerador: k-1=2-1=1; graus
de liberdade do denominador: n-k=153-2=151), retorna um p-valor inferior a 0,001.
Tal resultado nos leva rejeio da hiptese nula de que todos os parmetros sejam
estatisticamente iguais a zero, o que, no caso da regresso linear simples, representa que
o coeficiente da varivel explicativa possui significncia estatstica.
Em relao ao teste t, verificamos que o coeficiente da varivel explicativa considerado
estatisticamente significativo, pois, com um p-valor inferior a 0,001, rejeita-se a hiptese de
que esse parmetro seja igual a zero, diferentemente do que acontece com o intercepto, cujo
p-valor de 0,062. Uma propriedade em relao regresso linear simples que a estatstica
t do coeficiente da varivel explicativa ao quadrado igual estatstica F [(31,62)2=999,76].
Em todas as anlises realizadas, utilizamos o nvel de significncia de 5%.
De acordo com o modelo estimado, a cada alterao em uma unidade na taxa de
matrimnio ocorre 0,343 de variao na taxa de divrcio.
Esse comando pode ser acessado via barra de menus, por meio dos seguintes passos:
Statistics Postestimation Predictions, residuals, etc. Ir surgir uma janela, conforme
a Figura4.3.
Aps gerarmos a varivel resid, que contm os resduos da regresso, iremos solicitar
o teste Shapiro-Francia para verificar se a mesma possui uma distribuio normal.
Utilizaremos o seguinte comando:
sfrancia resid
Apenas para relembrar, o teste Shapiro-Francia pode ser acessado mediante a seleo
das seguintes opes: Statistics Summaries, tables, and tests Distributional plots and tests
Shapiro-Francia normality test. Poderiam ter sido usados outros testes de normalidade,
escolha do pesquisador, conforme vimos no Captulo 2.
Para verificarmos a homocedasticidade dos resduos, ou seja, se os mesmos possuem
varincia constante, utilizaremos o teste Breusch-Pagan por meio do comando estat
hettest (Sintaxe4.3) (nas verses mais antigas do Stata, apenas hettest).
Figura 4.7 Grfico de disperso entre as variveis div e mat e de linha entre as variveis estimat e mat.
A partir da anlise grfica entre a disperso das variveis observadas e a reta estimada
da regresso, verificamos a presena de alguns pontos dispersos.
Caso desejssemos gerar o grfico, a partir da barra de menus, deveramos selecionar
as seguintes opes: Graphics Twoway graph (scatter, line, etc.). Ser exibida uma janela,
conforme as Figuras4.8 (scatter) e 4.9 (line).
Figura 4.8 Janela de configuraes do comando twoway adio do primeiro grfico (scatter).
Figura 4.9 Janela de configuraes do comando twoway adio do segundo grfico (line).
estat hettest
Vamos, inicialmente, solicitar a criao das variveis dummies, visto que utilizaremos
apenas a categoria relativa regio 2 na regresso mltipla. Na janela de comandos
devemos digitar o seguinte:
xi i.regiao
Podemos notar que foram criadas duas variveis dummies, com os nomes de _Iregiao_2
e _Iregiao_3. A primeira categoria da varivel regiao considerada a referncia. Vamos
para a estimao da regresso, digitando o seguinte comando:
Regresso Linear 117
Ser criada a varivel mes, que ser utilizada para definir a srie como sendo temporal.
Para isso, precisaremos do comando tsset (Sintaxe4.6).
Caso desejssemos utilizar a barra de menus para a seleo dos comandos anteriores,
precisaramos proceder da forma relatada a seguir. Em relao ao comando gen, devemos
clicar nas seguintes opes: Data Create or change data Create new variable. Surgir
a janela da Figura4.16.
Em relao ao comando tsset, o mesmo pode ser acessado por meio da seleo
das seguintes opes: Statistics Time series Setup and utilities Declare dataset to be
time-series data. Aparecer a janela da Figura4.17.
4.8.EXERCCIOS
1. Buscando detectar um padro de comportamento dos retornos das aes negociadas
na bolsa de valores BM&FBovespa, um analista coletou dados referentes aos retornos
anuais de 112 empresas (arquivo retorno.dta), bem como informaes de variveis
julgadas boas preditoras para a variao nos preos das aes, quais sejam:
Varivel Descrio
Tamanho Tamanho da companhia (logaritmo natural do ativo total
daempresa)
Book/Mkt Quociente entre o valor de livro (Patrimnio Lquido) e o valor
demercado
Beta Indicador utilizado para calcular o risco das aes
ROA Retorno sobre Ativo
INV Crescimento do Ativo Imobilizado entre t e t-1
No exemplo anterior, verificamos que o coeficiente estimado para a varivel expe foi
de -0,291. Supondo que, em uma pesquisa anterior, o coeficiente estimado tivesse sido
de -0,34. Assim, iremos testar se o valor estimado pela regresso atual difere significativa-
mente do obtido na regresso anterior. Devemos digitar o seguinte comando no Stata:
test expe = -0.34
Verificamos que, mesmo que se considerasse um nvel de significncia de 10%, com
um p-valor de 0,657, no haveria rejeio da hiptese nula do teste que, nesse caso, foi
a seguinte: H0: bexpe=-0,34 (Resultados5.3).
Por ltimo, imaginemos que, em outro estudo, foi identificado que a soma dos
coeficientes das variveis esc2 e expe foi igual -0,9. Para testar se a situao se repetiu na
presente regresso, utilizaremos o seguinte comando:
test esc2 + expe == -0.9
Com um p-valor inferior a 0,0001 no teste de Wald, considerando qualquer um dos
nveis de significncia usuais, rejeitamos a hiptese nula de que, na nova regresso, a soma
desses coeficientes seja igual a -0,9 (Resultados5.5).
Para acessar o teste de Wald, aps uma regresso, via barra de menus, precisamos
selecionar as seguintes opes: Statistics Postestimation Tests Test linear hypotheses.
Surgir uma janela, conforme a Figura5.1.
Avaliao dos Modelos de Regresso 131
5.2.MULTICOLINEARIDADE
A multicolinearidade ocorre quando duas ou mais variveis explicativas possuem
correlao entre si. Quando a multicolinearidade se d em um grau bastante elevado,
podem ser gerados vieses bastante expressivos nos parmetros estimados em uma regresso.
Conforme vimos no Captulo4, no h um teste amplamente aceito para a deteco
da multicolinearidade. Para detectar a sua presena, costumamos utilizar algumas estats-
ticas, tais como a correlao linear e o fator de inflao da varincia ou VIF (variance
inflation factor).
No exemplo a ser utilizado, queremos analisar a relao da taxa de mortalidade com
as seguintes variveis explicativas: mor1, mor2 e expe.
Inicialmente, iremos solicitar a correlao linear entre essas variveis, utilizando o
seguinte comando:
pwcorr mort mor1 mor2 expe, sig
Observando os Resultados5.6, percebemos que todas as variveis explicativas pos-
suem correlaes, entre si, superiores a 0,8 a um nvel de significncia de 1%.Variveis
5.3.HETEROCEDASTICIDADE
No Captulo4 foram apresentados os pressupostos do estimador de mnimos qua-
drados utilizados pelo Stata no comando regress, para as regresses lineares simples e
mltiplas. Dentre os pressupostos, est definido que os resduos devem ser homoceds-
ticos, ou seja, no devem haver problemas de heterocedasticidade.
O teste para a deteco da heterocedasticidade foi o Breusch-Pagan, executado no
Stata por intermdio do comando estat hettest ou simples hettest (principalmente
nas verses mais antigas). Apresentamos novamente a sintaxe deste comando, incluindo
novas opes (Sintaxe5.2).
As opes do comando estat hettest somente devero ser utilizadas quando o es-
timador utilizado na regresso no tiver como pressuposto que os resduos possuem
distribuio normal. No o caso do estimador dos mnimos quadrados.
Existe no Stata outro teste para deteco de heterocedasticidade: o teste de White.
Esse teste executado por meio do comando estat imtest ou simplesmente imtest
(especialmente nas verses mais antigas) (Sintaxe5.3).
Para acessar o teste Breusch-Pagan, utilizando a barra de menus, devemos clicar nas
seguintes opes: Statistics Postestimation Reports and statistics. Aparecer uma janela,
conforme a Figura5.2.
Para acessar o teste de White, utilizando a barra de menus, devemos clicar nas se-
guintes opes: Statistics Postestimation Reports and statistics. Ir aparecer uma janela,
conforme a Figura5.3.
136 Mtodos Quantitativos com Stata
Para acessar o comando predict, por meio da barra de menus, basta selecionar as
seguintes opes: Statistics Postestimation Predictions, residuals, etc. Ser exibida uma
janela, conforme a Figura5.5.
lvr2plot, mlabel(pais)
Utilizaremos o comando gen para criar o logaritmo da varivel pop. O Stata emprega
a funo log para criar o logaritmo natural de uma varivel. Informaremos o seguinte
na janela de comandos:
gen lpop=log(pop)
histogram lpop
Para observar o impacto dessas transformaes nas relaes entre as variveis nata e
pop, iremos solicitar as correlaes por intermdio do seguinte comando:
pwcorr nata pop lpop bpop, sig
A varivel pop no apresenta correlao significativa com a varivel nata. Possivelmen-
te, a assimetria excessiva da varivel original a principal responsvel por tal situao.
Quando comparamos as variveis transformadas, vemos que ambas, apesar de no
apresentarem correlaes significativas, possuem maior correlao com a varivel nata
do que com a varivel original (Resultados5.18).
146 Mtodos Quantitativos com Stata
Para acessar a transformao de Box-Cox, via barra de menus, devemos clicar nas
seguintes opes: Data Create or change data Other variable-creation commands Box
-Cox transform. Ser exibida uma janela, conforme a Figura5.13.
b var =
( var L
1)
[Equao 5.2]
L
pressuposto da estimao pelo mtodo dos mnimos quadrados ordinrios. Neste caso,
uma nova varivel pode ser gerada a partir da varivel original, a fim de que eventualmen-
te possa ser verificado o pressuposto da normalidade da varivel dependente do modelo,
mesmo que este passe a ter uma diferente forma funcional. Cabe ao pesquisador definir
a melhor forma funcional do modelo a ser utilizado, em funo da teoria subjacente e
da sua experincia, respeitando-se os pressupostos da estimao.
5.6.EXERCCIOS
1. O arquivo salarios.dta apresenta dados sobre os salrios de 15 alunos recm-forma-
dos no curso de Administrao de empresas.Traz tambm trs exemplos que contm,
cada um deles, as notas finais de RH e de econometria (de 0 a 10) que estes alunos
tiraram na faculdade. Pede-se:
a. Para cada um dos exemplos propostos, elabore o modelo de regresso linear
mltipla salrio=f (nota de RH; nota de econometria).
b. Aps elaborar cada um dos trs modelos, interprete os outputs com foco para o
teste F e os testes t. H alguma inconsistncia quando da anlise destes outputs?
c. Elabore a matriz de correlaes para as variveis RH e econometria em cada um
dos casos. As correlaes so muito altas, porm, diferentes de 1, em algum dos
trs casos? Se sim, como voc interpretaria este fenmeno?
d. Elabore e discuta as estatsticas VIF para cada um dos trs modelos.
2. Por meio do arquivo Renda x Tempo Formado.dta, elabore o modelo de regresso
linear simples renda=f (tempo de formado) e discuta a existncia de heterocedasticidade
no modelo. Elabore um grfico de disperso de renda=f (tempo formado) para auxiliar
na discusso.
CAPTULO 6
Regresso Robusta
A regresso robusta um mtodo alternativo ao mtodo dos mnimos quadrados
quando existem outliers e opta-se pela sua manuteno na anlise. Alm disso, tambm
pode ser utilizado para detectar pontos de influncia. O objetivo do presente captulo
mostrar como aplicar vrios comandos para a anlise de dados com a presena de outliers
em modelos de regresso.
Continuaremos a utilizar, em nosso exemplo, a base de dados paises.dta. A referida
base possui 79 observaes sobre dados simulados relativos a pases. composta pelas
variveis descritas no Quadro6.1.
Na janela de comandos do aplicativo Stata solicitaremos a abertura da base de
dados paises.dta, utilizando o comando use (Resultados6.1). Lembre-se de informar
o endereo completo de localizao do arquivo paises.dta.
149
150
Mtodos Quantitativos com Stata
6.1.OUTLIERS
Na regresso linear, os resduos consistem na diferena entre o valor previsto (baseado
na equao da regresso) e o valor observado. Na regresso linear, um outlier pode indicar
uma observao com altos valores dos resduos, em decorrncia de uma peculiaridade
da amostra ou um erro na digitao dos dados.
No Captulo5 comeamos a verificar algumas anlises grficas para a deteco de
outliers. Agora, procedemos no sentido de ampliar a lista de procedimentos utilizados
para tal tarefa.
Suponha que o nosso objetivo seja entender quais condies seriam capazes de
explicar a taxa de mortalidade infantil (para crianas com menos de um ano de idade),
utilizando as caractersticas dos pases.
Inicialmente, estimaremos uma regresso linear mltipla (Resultados6.2), com o
comando reg. Digitaremos o seguinte na janela de comandos:
reg nata expe esc2
Agora que j temos as distncias, precisamos calcular o valor crtico que nos orientar
na deteco dos outliers. Para tanto, utilizaremos o comando display, que possui a seguinte
sintaxe (Sintaxe6.2).
Verificamos que o valor crtico a ser utilizado 0,101, com aproximao. As ob-
servaes com distncias de leverage, acima do valor crtico, sero consideradas como
outliers. Para identificar se h observaes nessa situao, iremos utilizar o comando list
da seguinte forma:
list pais mor2 nata esc1 esc2 lev if lev > 0.101
Empregando esse critrio verificamos a existncia de duas observaes, que podem
ser consideradas como outliers: 6 e 43 (Resultados6.5).
Para verificar a existncia de observaes cuja distncia de Cook seja superior a 0,051,
iremos utilizar o seguinte comando:
list pais mor2 nata esc1 esc2 cook if cook>0.051
Caso optssemos pela distncia de Cook para o procedimento de deteco de ou-
tliers, identificaramos um total de oito observaes: 10, 33, 37, 43, 45, 46, 69 e 73
(Resultados6.7).
Para gerar as distncias de Cook, precisamos selecionar os seguintes comandos na
barra de menus: Statistics Postestimation Predictions, residuals, etc. Surgir uma tela,
conforme a Figura6.3.
154
Mtodos Quantitativos com Stata
Figura 6.3 Janela de configuraes do comando predict selecionando-se a opo Cook's distance.
Para gerar o indicador DfFit, via barra de menus, devemos selecionar as seguintes
opes: Statistics Postestimation Predictions, residuals, etc. Ser exibida uma tela,
conforme a Figura6.4.
156
Mtodos Quantitativos com Stata
6.2.MODELOS
Os modelos de regresso robusta visam ajustar as estimaes realizadas pelo mtodo
dos mnimos quadrados, considerando-se as particularidades da amostra. Na maioria das
vezes, a presena de outliers faz com que os pressupostos necessrios para a consistncia
do estimador dos mnimos quadrados no sejam alcanados.
Existem trs principais modelos de regresso robusta: (i) regresso com erro-padro ro-
busto, (ii) regresso robusta com mnimos quadrados ponderados e (iii) regresso quantlica.
Retornando ao nosso exemplo, iremos verificar se os pressupostos do estimador dos
mnimos quadrados foram observados.
Na janela de comandos do Stata, iremos informar os seguintes comandos:
estat hettest
estat imtest, white
predict res, residual
158
Mtodos Quantitativos com Stata
sfrancia res
estat vif
A partir dos resultados apresentados pelos testes solicitados (Resultados6.12), verificamos
que os resduos possuem distribuio normal e no temos problemas de multicolinearidade.
Para realizar uma nova estimao, iremos informar, na janela de comandos do Stata,
o seguinte:
reg nata expe esc2, robust
Na estimao utilizando o erro-padro robusto (Resultados6.13), verificamos que
no h alterao dos coeficientes estimados. Todavia, as estatsticas utilizadas nos testes t
Assim sendo, precisaremos saber quais os valores mnimo e mximo da varivel pop.
Digitaremos o seguinte comando:
sum pop
Conhecendo os valores limites da varivel (Resultados6.14), iremos solicitar a
criao de 15 faixas, como tambm verificar a quantidade de grupos formados. Para
tanto, digitaremos os seguintes comandos:
Caso quisssemos acessar a regresso robusta com o uso da varivel de grupo, via
barra de menus, precisaramos acessar as seguintes opes: Statistics Linear models and
related Linear regression. Ser exibida uma janela, conforme a Figura6.8.
Voltando para o nosso exemplo, iremos agora realizar uma regresso robusta utilizando
o comando rreg.
rreg nata expe esc2
Ao compararmos os resultados da regresso robusta (Resultados6.17) com o modelo
anterior, verificamos que os coeficientes estimados no so os mesmos, assim como as
estatsticas dos testes t e F.
Voltando ao nosso exemplo, dessa vez utilizaremos a regresso quantlica para estimar
os parmetros. Digitaremos, na janela de comandos do Stata, o seguinte:
qreg nata expe esc2
Mais uma vez, podemos notar que os coeficientes estimados so um pouco diferentes
daqueles estimados pelos demais modelos (Resultados6.18). Ocorre o mesmo em relao
s estatsticas t e F. Verificamos que a varivel expe no foi considerada significativa.
166
Mtodos Quantitativos com Stata
Por meio da barra de menus, podemos realizar uma regresso quantlica selecionando
as seguintes opes: Statistics Nonparametric analysis Quantile regression. Ser exibida
uma tela, conforme a Figura6.10.
6.3.EXERCCIO
1. O arquivo Imovel Comercial.dta traz dados sobre preo mdio de aluguel de
escritrios comerciais por metro quadrado localizados em 20 distritos municipais,
bem como as taxas de vacncia de cada uma destas localidades. A taxa de vacncia
refere-se ao percentual de rea til disponvel para locao em cada distrito, calculada
em relao ao estoque total do mercado em determinado perodo.Trata-se, portanto,
de um indicador da relao entre oferta e demanda de espaos para escritrios, em
dado perodo, induzindo ou inibindo as decises de investimento na expanso do
estoque de reas para locao comercial e permitindo a elaborao de prognsticos
envolvendo tendncias de excesso de oferta no mercado.
Isto posto, pede-se:
a. Elabore um grfico de disperso para avaliar o comportamento de preo por metro
quadrado=f (taxa de vacncia).
b. Por meio deste grfico, possvel identificar um outlier?
c. Elabore uma regresso linear simples no robusta a outliers para avaliar o compor-
tamento de preo por metro quadrado=f (taxa de vacncia) e salve os valores previstos
gerados por meio deste modelo.
d. Elabore agora uma regresso linear simples robusta a outliers para avaliar o com-
portamento de preo por metro quadrado=f (taxa de vacncia) e salve tambm os
valores previstos gerados por meio deste novo modelo.
e. Elabore um grfico de disperso que contenha simultaneamente as retas corres-
pondentes aos valores previstos em cada um dos modelos elaborados e discuta os
resultados.
CAPTULO 7
Regresso Logstica
Vamos iniciar nosso estudo da regresso logstica binominal por meio da sua compa-
rao com a regresso tradicional por mnimos quadrados ordinrios.Talvez a diferena
mais bvia entre a regresso com o estimador dos mnimos quadrados ordinrios e a
regresso logstica seja que, na primeira, a varivel dependente contnua e na regres-
so logstica binomial, a varivel dependente uma varivel codificada como 0 e 1
(dummy). Uma vez que a varivel dependente binria, pressupostos so mais flexveis
na regresso logstica do que aqueles estabelecidos na regresso linear tradicional.
A regresso logstica similar ao mtodo dos mnimos quadrados no sentido de se
permitir identificar quais variveis so estatisticamente significativas na anlise. Diagns-
ticos so utilizados para avaliar se os pressupostos so vlidos, havendo teste para verificar
se o modelo geral estatisticamente significativo, com um coeficiente e um erro-padro
para cada varivel explicativa (UCLA, 2013).
Usaremos em nossos exemplos a base de dados nlsw88.dta, que comumente instalada
no mesmo diretrio que o Stata. A referida base de dados possui 2.246 observaes sobre o
censo norte-americano de 1988, apenas para trabalhadores do sexo feminino (Quadro7.1).
Quadro 7.1 Variveis que compem a base de dados nlsw88.dta
Varivel Descrio Tipo
idcode Cdigo
age Idade Quantitativa
race Raa (1 branco / 2 negro / 3 - outra) Qualitativa
married Estado civil (0 - solteiro / 1 - casado) Qualitativa
never_married Nunca casou (0 - no / 1 - sim) Qualitativa
grade Escolaridade em anos Quantitativa
collgrad Possui ensino superior (0 - no / 1 - sim) Qualitativa
south Mora na regio sul (0 - no / 1 - sim) Qualitativa
smsa Mora em regio metropolitana (0 - no / 1 - sim) Qualitativa
c_city Mora na capital (0 - no / 1 - sim) Qualitativa
industry Setor Qualitativa
occupation Ocupao Qualitativa
union Sindicalizado (0 - no / 1 - sim) Qualitativa
wage Salrio por hora Quantitativa
hours Carga horria Quantitativa
ttl_exp Experincia profissional Quantitativa
tenure Tempo no emprego Quantitativa
169
170 Mtodos Quantitativos com Stata
Para ilustrarmos a diferena entre a regresso linear e a regresso logstica, vamos ver
o que acontece quando uma varivel dependente binria utilizada em uma regresso
linear com o estimador dos mnimos quadrados ordinrios.
Considere que estamos interessados em estabelecer as caractersticas, por meio das quais
poderemos identificar a probabilidade de uma trabalhadora ser sindicalizada ou no (varivel
union). Inicialmente, consideraremos como varivel explicativa apenas a varivel wage.
Digitaremos na janela de comandos do Stata o seguinte:
reg union wage
Regresso Logstica 171
Podemos observar que os valores estimados no formam mais uma reta, mas, sim,
uma curva S. Alm do mais, os valores ficam limitados entre 0 e 1. O que a regresso
logstica estima no so os valores da varivel dependente, mas, sim, a probabilidade de
ocorrncia de um dos dois valores assumidos pela varivel dependente (evento).
Caso desejssemos acessar o comando logit, utilizando a barra de menus, precisa-
ramos selecionar as seguintes opes: Statistics Binary outcomes Logistic regression.
Surgir uma janela, conforme a Figura7.3.
Para acessar o comando predict, precisamos selecionar as seguintes opes na barra
de menus: Statistics Postestimation Predictions, residuals, etc. Aparecer uma janela,
conforme a Figura7.4.
Para acessar o comando, via barra de menus, precisamos clicar nas seguintes opes: Statis-
tics Postestimation Reports and statistics. Ser exibida uma janela, conforme a Figura7.5.
Outra forma de se avaliar um modelo logstico observar a tabela de classificao
do modelo, considerando as medidas de sensitividade, especificidade e o percentual de
acerto do modelo. No Stata, podemos solicitar a tabela de classificao do modelo por
meio do comando estat class (Sintaxe7.4).
Figura 7.7 Grfico das probabilidades dos pontos de corte versus sensitividade e especificidade.
Considerando um ponto de corte de 0,25, podemos observar que tanto o acerto geral
quanto a especificidade foram menores do que na classificao anterior, que utilizou um
ponto de corte de 0,50. Porm, a sensitividade, que anteriormente foi de 5,43%, passou
para 59,35% (Resultados7.10). A alterao do ponto de corte depender do uso que se
far do modelo regressivo e do que pretendido pelo pesquisador em termos preditivos
para uma melhor tomada de deciso.
Para acessar o comando lsens, por intermdio da barra de menus, precisamos clicar
nas seguintes opes: Statistics Binary outcomes Postestimation Sensitivity/specificity
plot. Surgir uma janela, conforme a Figura7.8.
A curva ROC (Receiver Operating Characteristic) uma medida sobre a capacidadede
o modelo discriminar as categorias da varivel dependente. Caso a rea sob a curva seja
menor ou igual a 0,5, o modelo no consegue discriminar as categorias. Se a rea alcanar
valores acima de 0,8, o modelo possui poder discriminatrio excelente, enquanto, nos
demais casos, o poder discriminatrio apenas aceitvel.
No Stata, para gerar a curva ROC (Figura7.9), utilizamos o comando lroc (Sintaxe7.6).
A rea sob a curva ROC de 0,662, o que indica que o modelo no apresenta um
poder discriminatrio elevado (Resultados7.11 e Figura7.9). Percebemos essa situao
quando verificamos que a sensitividade do modelo baixa. Alm disso, o Pseudo R 2
demonstra que o poder explicativo do modelo tambm baixo.
Para acessar o comando lroc, por meio da barra de menus, basta clicarmos nas
seguintes opes: Statistics Binary outcomes Postestimation ROC curve after logistic/
logit/probit/ivprobit. Aparecer uma janela, conforme a Figura7.10.
Voltamos anlise sobre o papel de cada varivel explicativa. Para isso, analisaremos o
impacto dessas variveis considerando os respectivos efeitos em relao probabilidade
de uma trabalhadora ser sindicalizada.
Para identificarmos a influncia do parmetro de cada varivel explicativa sobre
ocomportamento da varivel dependente em termos da razo de chance de ocorrn-
cia do evento em questo, ou seja, em termos de odds ratio, utilizaremos, no Stata, o
comando logistic (Sintaxe7.7).
Regresso Logstica 183
Para realizarmos estes testes via barra de menus, basta clicar nas seguintes opes: Statistics
Postestimation Tests Test linear hypotheses.Aparecer uma janela, conforme a Figura7.13.
7.4.EXERCCIO
1. Para se avaliar quais as caractersticas que poderiam interferir no hbito da populao
em realizar exames de rotina com frequncia, um pesquisador realizou uma srie
de entrevistas. Dados relativos a educao, idade, doenas passadas e frequncia de
realizao de exames de rotina foram coletados.
O arquivo medico.dta apresenta quatro colunas (variveis) com cdigos numricos:
Idade:
1. idade<25
2. 25 idade 29
3. 30 idade 39
4. 40 idade 49
Educao superior (0=No; 1=Sim)
Doena grave (0 = No apresentou doena grave no passado; 1= J apresentou alguma
doena grave no passado)
Realiza exames de rotina com frequncia (0=No; 1=Sim)
Por meio da tcnica de regresso logstica, pede-se:
a. Quais variveis so significativas para se elaborar uma boa previso do fato de um
indivduo realizar exames de rotina com frequncia?
b. Elabore novamente, sem as variveis que apresentaram problemas de significncia
(teste Z).
c. Interprete os outputs da tcnica.
d. Elabore uma curva ROC e interprete-a.
e. Calcule a probabilidade de uma pessoa com as seguintes caractersticas realizar
frequentemente exames de rotina:
Idade<25
Educao superior: No
Doena grave no passado: No
f. Elabore a anlise de sensibilidade no Stata e discuta os resultados.
CAPTULO 8
Anlise de Sobrevivncia: Procedimento
Kaplan-Meier e Regresso de Cox
A anlise de sobrevivncia compreende uma variedade de mtodos estatsticos desti-
nados a analisar a durao de um evento de interesse. De acordo com Fvero et al. (2009),
a anlise de sobrevivncia tem como principal vantagem o suporte a dados censurados,
alm de poder ser aplicada tanto nas cincias biomdicas, quanto nas cincias sociais.
Neste captulo, apresentaremos os principais comandos relacionados com dois es-
timadores muito utilizados nas anlises de sobrevivncia: (i) Estimador de Kaplan-Meier
e (ii) Regresso de Cox ou Modelo de Riscos Proporcionais.
Utilizaremos em nossos exemplos a base de dados AIDS.dta.1 A referida base de
dados possui 100 observaes sobre tratamentos ministrados a pacientes com AIDS, sendo
composto pelas variveis contidas no Quadro8.1.
O primeiro passo que daremos ser acionar o software Stata e, aps a inicializao
do mesmo, iremos solicitar a abertura da base de dados AIDS.dta.
1
anco de dados elaborado tendo por base o banco de dados cancer.dta, que est disponvel ao se instalar
B
o software Stata.
195
196 Mtodos Quantitativos com Stata
8.2.MODELOS
A anlise de sobrevivncia um mtodo que permite se examinar a durao de
tempo de determinado evento. Se, por exemplo, este evento crtico for a morte, h
um grande interesse pelo tempo de sobrevivncia para diferentes populaes por
parte de empresas de seguros de vida. Por exemplo, podemos definir como tempo de
sobrevivncia:
Tempo para finalizao de determinado processo (emprstimo, compra de imvel
etc.) em diferentes locais ou por meio de diferentes procedimentos.
Previso de insolvncia.
Tempo em que diferentes grupos de consumidores mantero contas em determinado
banco.
O tempo de sobrevivncia pode ser considerado uma varivel aleatria com dis-
tribuio de probabilidade F(t) e funo de densidade de probabilidade f(t). O interesse no
uso de anlise de sobrevivncia identificar a probabilidade de sobrevivncia ao tempo
t. Mais que isso, mostra-se de extremo interesse detectar a funo de sobrevivncia ou a
curva de sobrevivncia S(t). A funo sobrevivncia, indicada por S(t), pode ser definida
como a probabilidade de uma observao no falhar at determinado tempo t, podendo
ser escrita da seguinte maneira:
d log(S(t ))
= h(t ) [Equao 8.5]
dt
E, ento:
8.3.ESTIMADORES
Nesta seo iremos analisar dois estimadores empregados na anlise de sobrevivncia:
(i) Estimador de Kaplan-Meier e (ii) Regresso de Cox ou Modelo de Riscos Propor-
cionais.
O estimador de Kaplan-Meier um estimador no paramtrico da funo de so-
brevivncia. Se todas as falhas, ou perodos, em que o evento ocorre na amostra, so
organizados e chamados de t(j) tal como t(1)t(2)t(n), o estimador dado por:
d
S(t ) = 1 j
nj [Equao 8.7]
j :t j <t
em que dj consiste no nmero de indivduos que sofreu o evento no tempo t(j) e nj
o nmero de indivduos que ainda no sofreu o evento naquela ocasio e, portanto,
200 Mtodos Quantitativos com Stata
ainda esto expostos ao risco de sofrer este evento (includos os dados censurados em
t(j)). O produto a apresentao de todas as falhas em um perodo inferior ou igual a t.
Quando a anlise realizada para apenas um grupo, examina-se a curva de sobre-
vivncia acumulada, que apresenta as probabilidades estimadas de sobrevivncia aps o
final de cada perodo. Quando muitos grupos so envolvidos, a curva de sobrevivncia
acumulada elaborada para cada grupo, permitindo a comparao entre eles (teste de
significncia).
Iniciando o nosso exemplo, imagine que o nosso objetivo o efeito de trs tratamen
tos, e o evento analisado a morte do paciente. No Stata, primeiro precisaremos informar
que a base de dados utilizada possui o formato prprio de uma anlise de sobrevivncia.
Utilizaremos o comando stset (Sintaxe8.1 e Resultados8.3).
O estimador de Kaplan-Meier pode ser acessado no Stata por meio de dois comandos:
sts e ltable. Enquanto no comando sts (Sintaxe8.2) a varivel temporal tratadacomo
contnua, o comando ltable indicado quando os dados da anlise tiverem sido agrupados
em intervalos temporais de iguais tamanhos.
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 201
Iremos solicitar a criao das sries contendo os valores calculados a partir da funo
de risco acumulada e da contribuio do risco. Informaremos na janela de comandos o
seguinte:
sts gen ac = na
graph twoway line ac tempo_estudo, sort connect(J)
Com base no grfico apresentado por meio da Figura8.5, podemos notar as varia-
es ocorridas no risco (contribuio do risco), calculado a partir da funo de risco
estimada. Por exemplo, entre o 23 e o 24 ano do perodo analisado, observamos que
houve grandes variaes, que podem ser consideradas como perodos crticos para o
experimento analisado.
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 205
Para acessar este comando por meio da barra de menus, basta clicarmos nas seguin-
tesopes: Statistics Survival analysis Summary statistics, tests, and tables Create
survivor, hazard, and other variables. Surgir uma janela, conforme a Figura8.6.
Voltaremos agora funo de sobrevivncia para visualizar os efeitos de cada um dos
trs tratamentos utilizados. Solicitaremos a gerao do grfico da funo de sobrevivncia
considerando o tipo de tratamento, por meio do seguinte comando:
sts graph, by(remedio)
206 Mtodos Quantitativos com Stata
De acordo com a anlise do grfico da Figura8.7, notamos que os trs tipos de tra-
tamento apresentam efeitos diferentes em relao funo de sobrevivncia. Em um
curtssimo perodo (um ano apenas), os trs tratamentos resultam na mesma probabilidade
de sobrevivncia.Todavia, para perodos mais longos, verifica-se que o remdio classificado
como remedio=1 mostra-se menos efetivo do que os demais tratamentos para fins de
sobrevivncia.
A tbua de sobrevivncia similar tabela exibida pelo comando sts list. Os valores
Ainda por meio da anlise de sobrevivncia, iremos agora adicionar a varivel idade
e verificar o seu efeito na probabilidade de ocorrncia do evento de interesse. Na janela
de comandos do Stata, digitaremos a seguinte expresso:
stcox i.remedio idade
Dessa forma, necessrio que solicitemos ao Stata que sejam geradas as respectivas
sries, por meio dos seguintes comandos:
predict cox_s, bases
predict cox_na, basec
predict cox_ct, basehc
8.4. EXERCCIOS
1. Por meio do Arquivo AIDS.dta, realize a anlise de sobrevivncia com base no
procedimento Life Table (segregando-a segundo o tipo de droga). Sendo assim:
a. Qual a probabilidade estimada de sobrevivncia dos indivduos com AIDS aps
cinco anos de estudo? Demonstre os clculos.
b. H diferenas entre o tipo de drogas?
c. H diferenas entre o tipo de drogas para indivduos acima de 55 anos?
d. H diferena na sobrevivncia de indivduos acima de 55 anos dos demais indivduos?
2. Um pesquisador deseja modelar o tempo gasto por um estudante para obter uma
ps-graduao. O arquivo pos_graduacao.dta contm quatro colunas:
Ano: codificado de 1 a 14, representando os anos desde o fim da graduao.
Universidade:
- 1 para Universidade A,
- 2 para Universidade B,
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 221
- 3 para Universidade C.
Residncia: 1 para residentes permanentes; 2 para residentes temporrios.
Evento: Nmero de estudantes nesta categoria.
Por intermdio do procedimento Kaplan-Meier:
a. Verifique se h diferenas entre as universidades.
b. H diferenas entre os tipos de residncia?
3. Uma estudante interessada em se casar, com o intuito de escolher o parceiro ideal,
realizou uma pesquisa para determinar os principais fatores associados sobrevivncia
ao evento divrcio. A unidade de observao pesquisada foram casais e o evento
de interesse, o divrcio. A ausncia de dados e a viuvez so tratadas como eventos
censurados. As variveis englobadas na pesquisa so, portanto:
id: identificao do casal.
heduc: anos de estudo do marido, codificado como:
222 Mtodos Quantitativos com Stata
- 0=menos de 12 anos,
- 1=12 a 15 anos, e
- 2=16 ou mais anos.
Cas_anterior: codificado 1 se algum do casal j foi casado e 0, caso contrrio.
filhos: codificado 1 se o casal possui filhos e 0, caso o contrrio.
anos: durao do casamento, desde a data do casamento at a data do divrcio ou
do dado censurado.
div: o indicador de falha, codificado como 1 para divrcio e 0 para dados censu-
rados.
Por meio do procedimento Kaplan-Meier aplicado ao arquivo divorcio.dta:
a. Qual a probabilidade de um casal sobreviver ao divrcio depois de cinco anos de
casados?
b. Verifique se h diferenas na probabilidade em se divorciar de acordo com o nvel
de formao dos maridos.
c. H diferenas entre os casais com e sem filhos?
d. H diferenas entre os casais com maridos que j foram casados e os casais com
maridos que esto no primeiro casamento?
4. Ainda por meio da utilizao do arquivo divorcio.dta, estime o Modelo de Ris-
cos Proporcionais. Tambm esboce o grfico de sobrevivncia e o grfico de risco
acumulado para os casos em que o marido j divorciado ou no.
CAPTULO 9
Regresso com Dados em Painel
cada vez mais crescente e importante a utilizao de modelos que envolvam dados
provenientes de vrias cross-sections ao longo do tempo (dados em painel). Como muitos
dados de empresas, municpios ou pases so divulgados periodicamente, o pesquisador
convidado, naturalmente, a aplicar modelos longitudinais para o estudo de fenmenos
que sofrem influncia das diferenas entre os indivduos e da prpria evoluo temporal.
Segundo Marques (2000), a principal vantagem da utilizao de modelos de dados
em painel refere-se ao controle da heterogeneidade individual, ou seja, possibilidade
de se medirem separadamente os efeitos gerados por conta de diferenas existentes entre
cada observao em cada cross-section, alm de ser possvel avaliar a evoluo, para um
dado indivduo, das variveis em estudo ao longo do tempo.
Por outro lado, ainda de acordo com Marques (2000), os dados em painel providen-
ciam maior quantidade de informao, maior variabilidade dos dados, menor colinearida-
de entre as variveis, maior nmero de graus de liberdade e maior eficincia na estimao.
A incluso da dimenso em cross-section, num estudo temporal, confere maior variabi-
lidade aos dados, na medida em que a utilizao de dados agregados resulta em sries
mais suaves do que as sries individuais que lhes servem de base. Este aumento na
variabilidade dos dados contribui para a reduo de uma eventual colinearidade exis-
tente entre variveis.
Usaremos em nossos exemplos as bases de dados Painel Curto.dta e Painel Longo.
dta. As referidas bases contm, respectivamente, 11.220 e 580 observaes referentes a
dados fictcios sobre mortalidade por causas externas ao longo do tempo para municpios
provenientes de cinco estados da federao (Quadro9.1).
Quadro 9.1 Variveis que compem as bases de dados Painel Curto.dta e Painel Longo.dta
Varivel Descrio Tipo
ms Ms
id Identificao do municpio
estado Estado da federao Qualitativa
t Perodo para cada municpio Quantitativa
ano Ano
renda Renda mdia familiar (R$) do municpio em determinado ms Quantitativa
invest Investimento mensal em segurana pblica (R$ x 10.000) no Quantitativa
municpio em determinado ms
mort Mortalidade ou causas externas (para cada 100.000 habitantes) Quantitativa
nomunicpio em determinado ms
223
224 Mtodos Quantitativos com Stata
i Ti 1 [Equao 9.2]
1
Varincia Between: sxB =
2
N 1
i ( xi x )2 [Equao 9.3]
1
2
Varincia Geral: sxO = i t ( xit x )2
i i
T 1 [Equao 9.4]
O
As notaes N e iTi correspondem, respectivamente, ao nmero de indivduos e ao
nmero total de observaes ao longo do tempo.
Este captulo traz a aplicao de modelagens com painel de dados por meio de dez
diferentes estimadores, a fim de propiciar um melhor entendimento dos seus conceitos
e das suas condies de uso. O Quadro9.2, com base em Cameron e Trivedi (2009) e
em Fvero (2013), apresenta estes dez diferentes modelos.
9.2.APLICAO
Como muitas bases de dados em cincias sociais aplicadas apresentam periodicidade
de divulgao mensal, trimestral ou anual, comum que os estudos nestas reas utilizem
modelos de dados em painel curto, j que o nmero de indivduos (empresas, municpios
ou pases, por exemplo) ultrapassa o nmero de perodos de divulgao dos dados. Por
outro lado, nada impede que o pesquisador baseie seu estudo numa amostra menor de
indivduos ou utilize dados com frequncia de divulgao maior (diria, por exemplo)
o que poderia ocasionar uma modelagem com dados em painel longo. De qualquer
maneira, fundamental que a identificao desta caracterstica na base de dados seja feita
de forma anterior modelagem propriamente dita.
Inicialmente, uma base fictcia contendo dados sobre mortalidade por causas
externas para cada 100.000 habitantes (indicador de violncia) em 299 municpios
provenientes de 5 estados brasileiros (Bahia, Gois, Minas Gerais, Par e So Paulo), ao
longo de 100 meses (2006-2012), totalizando 11.220 observaes, ser utilizada para
o estudo de um painel curto (arquivo Painel Curto.dta). Na sequncia, um estrato
desta base ser utilizado, com dados de apenas 10 municpios ao longo de 58 meses,
Regresso com Dados em Painel 227
Figura 9.1 Evoluo da mortalidade por causas externas para os municpios de cada estado.
228 Mtodos Quantitativos com Stata
tamento distinto, em mdia, para cada um dos 5 estados brasileiros ao longo do tempo.Ape-
sar de a anlise ser feita para cada municpio, a Figura9.1, obtida por meio do comando a
seguir, apresenta o comportamento para todos os municpios de cada estado.
graph twoway scatter mort t || lfit mort t, by(estado)
Figura 9.2 Desvios da mortalidade por causas externas em relao mdia de cada municpio ao
longo do tempo (within variation).
Regresso com Dados em Painel 229
Figura 9.3 Desvios da mortalidade por causas externas em relao mdia geral para cada instante
de tempo (between variation).
preserve
xtdata, be
graph twoway scatter mort t || lfit mort t
restore
230 Mtodos Quantitativos com Stata
Dessa forma, partiremos agora para a elaborao das diversas regresses para o painel
curto. Os comandos para a realizao de cada uma delas encontram-se a seguir:
- POLS com Erros-Padro Robustos Clusterizados:
reg mort renda invest, vce(cluster id)
- Modelo com Estimador Between:
xtreg mort renda invest, be
- Efeitos Fixos:
xtreg mort renda invest, fe
- Efeitos Fixos com Erros-Padro Robustos Clusterizados:
xtreg mort renda invest, fe vce(cluster id)
- Efeitos Aleatrios:
xtreg mort renda invest, re
- Efeitos Aleatrios com Erros-Padro Robustos Clusterizados:
xtreg mort renda invest, re vce(cluster id)
Os Resultados9.7 apresentam os outputs dos seis modelos de dados em painel curto,
gerados por meio do seguinte comando:
quietly reg mort renda invest, vce(cluster id)
estimates store POLS_rob
quietly xtreg mort renda invest, be
estimates store BE
quietly xtreg mort renda invest, fe
estimates store FE
quietly xtreg mort renda invest, fe vce(cluster id)
estimates store FE_rob
quietly xtreg mort renda invest, re
estimates store RE
quietly xtreg mort renda invest, re vce(cluster id)
estimates store RE_rob
estimates table POLS_rob BE FE FE_rob RE RE_rob, b se stats(N r2 r2_o
r2_b r2_w F chi2)
Como se pode observar, os coeficientes estimados variam de modelo para modelo,
o que reflete a existncia de resultados diferentes se as variaes within ou between forem
utilizadas.
Primeiramente verifica-se, em relao adequao dos modelos, que o vetor de re-
gressores apresenta significncia estatstica em todos os casos (sig. F para os modelos POLS,
between e com efeitos fixos, e sig. Wald 2 para os modelos com efeitos aleatrios). Alm
disso, verifica-se a existncia de maiores valores para os R2 between em todos os modelos
em que esta estatstica calculada, o que demonstra que a variao que ocorre na varivel
dependente consideravelmente maior entre os municpios do que para um mesmo
Regresso com Dados em Painel 233
Por fim, segundo Cameron e Trivedi (2009), essencial que se discuta a distino
entre os modelos de efeitos fixos e aleatrios na anlise de dados em painel. Sob a
hiptese nula de que os efeitos individuais so aleatrios, o teste de Hausman verifica
se os estimadores so similares (efeitos aleatrios) ou divergem entre si (efeitos fixos)
para cada indivduo. J discutimos, quando da aplicao do comando xtsum e por
meio da anlise do R2 within e do R2 between, que pouca variao ocorre na varivel
dependente ao longo do tempo para cada municpio (R2 within baixo e bem menor
do que o R 2 between), porm alteraes visveis so percebidas entre indivduos.
Neste momento, portanto, importante saber se os estimadores que influenciam o
comportamento da varivel dependente entre municpios tambm divergem entre
municpios (efeitos fixos).
No nosso exemplo, a aplicao do teste de Hausman (comando apresentado a seguir)
auxilia na rejeio da hiptese nula de que o modelo de efeitos aleatrios oferece
estimativas dos parmetros mais consistentes, j que, para este caso, 2=36,53 (sig.
2=0,000), conforme mostram os Resultados9.10.
hausman FE RE, sigmamore
xtset id t
Verifica-se que as variveis mort, renda e invest apresentaram maior variao entre in-
divduos (between) do que ao longo do tempo (within). Por outro lado, a varivel temporal
(t) passa a apresentar variao between nula, j que se trata de um painel balanceado.
238 Mtodos Quantitativos com Stata
Para tanto, necessrio, assim como para qualquer outra tcnica de modelagem,
que a aplicao venha acompanhada de rigor metodolgico e certos cuidados
quando da anlise dos resultados, principalmente se estes tiverem como objetivo
a elaborao de previses. A adoo de determinado estimador, em detrimento de
outro considerado viesado ou inconsistente, pode auxiliar o pesquisador na escolha
do melhor modelo, valorizando a sua pesquisa e propiciando novos estudos sobre
o tema escolhido.
Neste captulo, procurou-se elaborar seis diferentes modelos para um especfico
painel curto e outros seis para um painel longo. A anlise da contribuio da renda mdia
familiar e do investimento em segurana pblica sobre a mortalidade por causas externas
de municpios brasileiros possibilita que seja incrementada a discusso sobre violncia
urbana e desenvolvimento social, porm foi adotada apenas como exemplo dentro de
um objetivo especfico, que foi o de apresentar como os diferentes estimadores podem
gerar resultados discrepantes quando da elaborao de modelos de dados em painel e
auxiliar para a escolha do modelo mais adequado, tanto no caso de um painel curto,
quanto no de um painel longo.
9.4.EXERCCIO
1. Um cardiologista tem monitorado 10 pacientes, que so executivos de empresas, ao
longo dos ltimos 5 anos, em relao aos seus nveis de colesterol LDL (mg/dL).
Seu intuito orient-los sobre a importncia da manuteno ou perda de peso e
da realizao peridica de atividades fsicas para a reduo do colesterol e, portanto,
elaborou uma base de dados que pode ser acessada por meio do arquivo colest.dta.
As variveis presentes nesta base so:
Varivel Descrio
ano Ano
indivduo Identificao do executivo
colesterol Colesterol LDL (mg/dL)
imc ndice de massa corprea (kg/m2)
esporte Atividades fsicas semanais (nmero de vezes)
Desta forma, elabore as seguintes estimaes, por meio do painel de dados, e dis-
cuta os resultados:
POLS com Erros-Padro Robustos Clusterizados.
Modelo com Estimador Between.
Efeitos Fixos.
Efeitos Fixos com Erros-Padro Robustos Clusterizados.
Efeitos Aleatrios.
Efeitos Aleatrios com Erros-Padro Robustos Clusterizados.
e. possvel verificar, em relao adequao dos modelos, que o vetor de regres-
sores apresenta significncia estatstica em todos os casos (sig. F para os modelos
POLS, between e com efeitos fixos, e sig. Wald 2 para os modelos com efeitos
aleatrios)?
f. Verifica-se que os valores de R2 between so maiores do que os valores de R2
within em todos os modelos em que estas estatsticas so calculadas. Justifique por
qual razo este fato deve ter ocorrido.
g. Elabore o teste Breusch-Pagan, o teste F de Chow e o teste de Hausman e discuta
seus resultados. O que se pode avaliar sobre os efeitos fixos e os efeitos aleatrios
neste painel de dados?
h. Elabore uma tabela com os coeficientes do modelo com efeitos fixos para cada um
dos executivos da amostra. H diferenas entre eles, em termos de comportamento
das variveis imc e esporte sobre a varivel colesterol? Como voc, cardiologista,
orientaria cada um dos pacientes?
REFERNCIAS
ACOCK, A. C. A Gentle Introduction to Stata. 2. ed. College Station: StataCorp LP, 2008.
AHN, S. C.; SCHMIDT, P. Efficient estimation of dynamic panel data models: alternative as-
sumptions and simplified estimation. Journal of Econometrics, v. 76, n. 1-2, p. 309-321, 1997.
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatstica Aplicada Administrao e
Economia. So Paulo: Pioneira Thomson Learning, 2002.
ANDERSON, T. W.; HSIAO, C. Formulation and estimation of dynamic models using panel
data. Journal of Econometrics, v. 18, n. 1, p. 47-82, 1982.
ARELLANO, M. Panel Data Econometrics: Advanced Texts in Econometrics. New York: Oxford
University Press, 2003.
BALESTRA, P.; NERLOVE, M. Pooling cross section and time series data in the estimation
of a dynamic model: the demand for natural gas. Econometrica, v. 34, n. 3, p. 585-612, 1966.
BALTAGI, B. H. Econometric Analysis of Panel Data. 4. ed. New York: John Wiley & Sons, 2008.
BALTAGI, B. H.; GRIFFIN, J. M. Short and long run effects in pooled models. International
Economic Review, v. 25, n. 3, p. 631-645, 1984.
BARNETT,V.; LEWIS, T. Outliers in Statistical Data. 2. ed. New York: John Wiley & Sons, 1984.
BAUM, C. F. An Introduction to Modern Econometrics Using Stata. College Station, Tex: Stata Press,
2006.
BECK, N.; KATZ, J. N.What to do (and not to do) with time-series cross-section data. American
Political Science Review, v. 89, n. 3, p. 634-647, 1995.
BELKAOUI, A. Quantitative Models in Accounting. Quorum Books, 1987.
BERENSON, M. L.; LEVINE, D. M. Basic Business Statistics: Concepts and Application. 6. ed.
Upper Saddle River: Prentice Hall, 1996.
BHARGAVA, A.; FRANZINI, L.; NARENDRANATHAN,W. Serial correlation and the fixed
effects model. Review of Economic Studies, v. 49, n. 4, p. 533-549, 1982.
BHARGAVA, A.; SARGAN, J. D. Estimating dynamic random effects models from panel data
covering short time periods. Econometrica, v. 51, n. 6, p. 1635-1659, 1983.
BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time Series Analysis: Forecasting and Control.
4. ed. Hoboken: John Wiley & Sons, 2008.
BREUSCH,T. S.; MIZON, G. E.; SCHMIDT, P. Efficient estimation using panel data. Econome-
trica, v. 57, n. 3, p. 695-700, 1989.
BUENO, R. L. S. Econometria de Sries Temporais. 2. ed. So Paulo: Cengage Learning, 2011.
BUSSAB, W. O.; MORETTIN, P. A. Estatstica Bsica. 7. ed. So Paulo: Saraiva, 2011.
CAMERON, A. C.; TRIVEDI, P. K. Microeconometrics Using Stata. College Station: Stata Press,
2009.
CHARNET, R.; BONVINO, H.; FREIRE, C. A. L.; CHARNET, E. M. R. Anlise de Modelos
de Regresso Linear: Com Aplicaes. 2. ed. Campinas: Editora da UNICAMP, 2008.
CRONBACH, L. J. Coefficient alpha and the internal structure of tests. Psychometrika, v. 31, p.
93-96, 1951.
DILLON,W. R.; GOLDSTEIN, M. Multivariate Analysis Methods and Applications. New York: John
Wiley & Sons, 1984.
DOANE, D. P.; SEWARD, L. E. Estatstica Aplicada Administrao e Economia. So Paulo:
McGraw-Hill, 2008.
DOORNIK, J. A.; HANSEN, H. A. An omnibus test for univariate and multivariate normality.
Oxford Bulletin of Economics and Statistics, v. 70, p. 927-939, 2008.
DOWNING, D.; CLARK, J. Estatstica Aplicada. 2. ed. So Paulo: Saraiva, 2005.
243
244 Mtodos Quantitativos com Stata
ENDERS, W. Aplied Econometric Time Series. 2. ed. New York: John Wiley & Sons, 2003.
FVERO, L. P. L. Dados em painel em contabilidade e finanas: teoria e aplicao. Brazilian
Business Review, v. 10, n. 1, p. 131-156, 2013.
FVERO, L. P. L.; ALMEIDA, J. E. F. O comportamento dos ndices de aes em pases emergen-
tes: uma anlise com dados em painel e modelos hierrquicos. Revista Brasileira de Estatstica,
v. 72, n. 235, p. 97-137, 2011.
FVERO, L. P. L.; BELFIORE, P. Cash flow, earnings ratio and stock returns in emerging global
regions: evidence from longitudinal data. Global Economy and Finance Journal, v. 4, n. 1, p. 32-
43, 2011.
FVERO, L. P. L.; BELFIORE, P.; SILVA, F. L.; CHAN, B. L. Anlise de Dados: Modelagem
Multivariada para Tomada de Decises. Rio de Janeiro: Elsevier, 2009.
FVERO, L. P. L.; SOTELINO, F. B. Elasticities of stock prices in emerging markets: a panel
data approach. In: Batten, J. A.; Szilagyi, P. G. The Impact of the Global Financial Crisis on
Emerging Financial Markets. Contemporary Studies in Economic and Financial Analysis, v. 93,
p. 471-491, 2011.
FREES, E. W. Longitudinal and Panel Data: Analysis and Applications in the Social Sciences.
Cambridge: Cambridge University Press, 2004.
GELMAN, A.; HILL, J. Data Analysis Using Regression and Multilevel / Hierarchical Models. NovaYork:
Cambridge University Press, 2007.
GIL, A. C. Mtodos e Tcnicas de Pesquisa Social. So Paulo: Atlas, 1999.
GREENE, W. H. Econometric Analysis. 6. ed. Upper Saddle River: Prentice Hall, 2007.
GUJARATI, D. N. Econometria Bsica. 5. ed. Porto Alegre: Bookman, 2011.
HAMILTON, L. C. Statistics with Stata: Updated for Version 10. Belmont: Brooks/Cole, Cengage
Learning, 2009.
HENRY, G. T. Practical Sampling. C. A.: Sage, 1990.
HILL, C.; GRIFFITHS, W.; JUDGE, G. Econometria. So Paulo: Saraiva, 2000.
HOAGLIN, D. C.; MOSTELLER, F.; TUKEY, J. W. Anlise Exploratria de Dados: Tcnicas
Robustas. Lisboa: Salamandra, 1983.
HOECHLE, D. Robust standard errors for panel regressions with cross-sectional dependence.
Stata Journal, v. 7, n. 3, p. 281-312, 2007.
HOLTZ-EAKIN, D.; NEWEY, W.; ROSEN, H. S. Estimating vector autoregressions with panel
data. Econometrica, v. 56, n. 6, p. 1371-1395, 1988.
HOSMER, D. W.; LEMESHOW, S. Applied Logistic Regression. New York: John Wiley & Sons,
1989.
HSIAO, C. Analysis of Panel Data. 2. ed. Cambridge: Cambridge University Press, 2003.
ISLAM, N. Growth empirics: a panel data approach. The Quarterly Journal of Economics, v. 110, n.
4, p. 1127-1170, 1995.
JENKINS, S. P. Survival Analysis. Disponvel em: http://michau.nazwa.pl/aska/uploads/Studenci/
mag7_1.pdf (2005). Acesso em: 05/04/2013.
JOHNSON, R. A.; WICHERN, D. W. Applied Multivariate Statistical Analysis. New Jersey, Upper
Saddle River: Prentice Hall, 1998.
JOHNSTON, J.; DINARDO, J. Mtodos Economtricos. 4. ed. Lisboa: McGraw-Hill, 2001.
JONES, D. C.; KALMI, P.; MKINEN, M. The productivity effects of stock option schemes:
evidence from Finnish panel data. Journal of Productivity Analysis, v. 33, n. 1, p. 67-80, 2010.
KACHIGAN, S. Statistical Analysis: An Interdisciplinary Introduction to Univariate &
Multivariate Methods. New York: Radius Press, 1986.
KING, G.; KEOHANE, R. O.;VERBA, S. Designing Social Inquiry: Scientific Inference in Qua-
litative Research. Princeton: Princeton University Press, 1994.
KMENTA, J. Elementos de Econometria. So Paulo: Atlas, 1978.
Referncias 245
D L
Dados em painel 223-226, 230, 235, 236, Logit 1, 170-172, 174, 175, 182, 183
239, 240
Dados em painel curto 226, 231, 232 M
Dados em painel longo226 236, 239 Mdia 12, 37-41, 74, 75, 78, 81-85, 88, 93-98, 142,
Desvio-padro 12, 37-40, 74, 75, 78, 79, 81 165, 228-230, 233, 236, 240
Diagrama box-plot 76 Mediana 37, 40, 44, 75-77, 79, 112, 165
Distncias de Cook 151, 153-155, 164 Mnimos quadrados 1, 2, 100, 101, 106, 110, 133,
Distncias de leverage 139-141, 151, 152 134, 147, 149, 157, 164, 165, 169, 170, 225
Mnimos quadrados de dois estgios 1
E Modelo de riscos proporcionais 195, 199, 213, 219,
Especificidade 180 222
Estatstica descritiva 24, 27 Multicolinearidade 111, 113-115, 118, 131, 132,
Estatstica inferencial 27 158
Estatstica VIF 114 Modelo de efeitos aleatrios 224, 233, 235
Estatsticas C de Harrell e D de Somers 218 Modelo de efeitos fixos 225, 226, 232, 238, 241
Estimador between 225, 232, 241 Multinomial 1, 184-188, 191, 192
Estimador de Kaplan-Meier 195, 199, 200, 216
Estimador FGLS (feasible generalized least squares) N
224, 226 n-way ANOVA 88
Estimador within 224-226, 228, 229, 231, 232, 234, Normalidade dos resduos 41, 44, 50, 53, 55, 89,
235, 237, 240, 241 90, 105, 106, 113, 147
247
248 ndice Remissivo
O S
Odds 182-184, 214 Sensitividade 177-181
One-way ANOVA 1, 58, 88 Sries temporais 1, 122
Outlier 22, 46, 77, 78, 136-141, 149-157, 159, 164, Stat Transfer 13, 14
165, 167
T
P Tabulao bidimensional 56
Painel curto 223, 226, 230-232, 233, 237, Tempo de sobrevivncia 195, 196, 198, 199, 201,
238, 240 202, 208
Painel longo 223, 226, 227, 230, 236, 237, Teste Box's M 90, 91
239, 240 Teste de Breusch-Godfrey 122-124
Percentil 30, 39, 40, 44, 74-77 Teste de Breusch-Pagan 106, 114, 117-119, 133-
Probabilidade 83, 105, 170, 173, 174, 176, 178, 135, 158, 233, 234, 241
179, 180, 182, 187, 191-193, 198, 200-202, Teste de hiptese com uma amostra 81
204, 206, 213, 214, 216, 220, 222 Teste de hiptese com duas amostras 84
Procedimento Kaplan-Meier 195, 221, 222 Teste de Kruskal-Wallis 88
Teste de Levene 90-93
Teste de Mann-Whitney 88
Q Teste de mdias (Pillai's Trace, Wilks' Lambda,
Quartil 44, 76, 165
Hotelling's Trace e Roy's Largest Root) 93, 94
Teste de sinais 88
R Teste de Wald 128-130
R 101-104, 111, 112, 115, 118, 125, 132, 171, Teste de Wilcoxon 207-209
175, 181, 185, 232, 235, 241 Teste F 86, 87, 95, 101, 102, 104, 112, 115, 118,
R ajustado 111, 112, 118, 132 125, 128, 132, 147, 175, 189, 234, 241
Regresso com dados em painel 223 Teste Shapiro-Francia 52 105, 106, 118, 119
Regresso com erro padro robusto 157, 159 Teste t 82-86, 88, 98, 101, 102, 104, 112, 115, 118,
Regresso de Cox 195, 199, 211, 213 132, 175
Regresso linear simples 100, 101, 103, 104 Testes de normalidade 41, 106
Regresso linear mltipla 110-114, 116, 117, 121, Transformao de Box-Cox 144-146
147, 150, 158 Transformao de variveis 22, 127, 142
Regresso logstica 169-175, 184-188, 190, 192,
193, 214 V
Regresso logit 175 VAR 146, 234
Regresso probit 1 Varincia 1, 39, 40, 41, 75, 78, 79, 81, 83-88, 90, 91,
Regresso quantlica 157, 165, 166 93, 98, 101, 106, 114
Regresso robusta 149, 157, 163-165 Varincia between (entre indivduos) 225
Regresso robusta com mnimos quadrados Varincia geral 225
ponderados 157, 164, 165 Varincia within (ao longo do tempo) 225