Sie sind auf Seite 1von 63

Universidade Estadual da Paraba

Centro de Ciencias e Tecnologia


Departamento de Matematica, Estatstica e Computac ao
Rodrigo Lins Rodrigues
Modelo de regressao linear: aspectos
teoricos e computacionais
Campina Grande
10 de Dezembro de 2008
Rodrigo Lins Rodrigues
Modelo de regressao linear: aspectos
teoricos e computacionais
Trabalho Academico Orientado apresentado
ao curso de Bacharelado em Estatstica do
Departamento de Matem atica, Estatstica e
Computac ao do Centro de Ciencias e Tecno-
logia da Universidade Estadual da Paraba
em cumprimento ` as exigencias legais para ob-
tenc ao do ttulo de bacharel em Estatstica.
Orientador:
Gustavo Henrique Esteves
Campina Grande
10 de Dezembro de 2008
Rodrigo Lins Rodrigues
Modelo de regressao linear: aspectos
teoricos e computacionais
Trabalho Academico Orientado apresentado
ao curso de Bacharelado em Estatstica do
Departamento de Matem atica, Estatstica e
Computac ao do Centro de Ciencias e Tecno-
logia da Universidade Estadual da Paraba
em cumprimento ` as exigencias legais para ob-
tenc ao do ttulo de bacharel em Estatstica.
Aprovado em: / /
Banca Examinadora:
Prof.Dr. Gustavo Henrique Esteves
Orientador
Prof.Dr. Robson Pequeno de Sousa
Universidade Estadual da Paraba
Prof.Dr Joao Gil de Luna
Universidade Estadual da Paraba
Dedicat oria
Primeiramente a Deus, por ter me dado a vida e todos os dons que proporcioaram a
relaizar as atividades ate hoje concludas.
A minha famlia, em especial aos meus Pais (Jairo Rodrigues da Silva e Maria do So-
corro Lins Rodrigues) e minha irma Ravenna Lins Rodrigues, por sempre me incentivarem
e dar for cas para evoluir no campo pessoal e prossional.
A minha namorada Simone Lins, por seu apoio e amor incondicional em todos os
memoentos difceis e felizes que passei.
A todos os amigos que z durante a graduacao.
Agradecimentos
Ao nal deste trabalho, sinto a necessidade de agradecer ` as pessoas que direta ou
indiretamente contriburam para sua realizac ao.
Em primeiro lugar a minha famlia, pelo apoio e incentivo em todos os momentos da
minha vida, sejam eles quais foram.
A minha namorada Simone Lins, pelo amor e carinho dedicados a mim nesses 5 anos
que esteve ao meu lado e por tudo que ela representa para mim.
Aos meus amigos F abio, Carlos, Rivelino e Elisangela, pelo apoio, pelos conselhos,
pelas alegrias divididas e experiencias vividas, e com os quais eu aprendi e aprendo ate
hoje.
Ao professor Gustavo Henrique pela boa vontade e ajuda, na orientacao deste trabalho
que foi de grande importancia.
Aos professores que fazem parte da minha banca: Robson Pequeno de Sousa e Jo ao
Gil de Luna.
A cidade de Campina Grande por me acolher durante o tempo de estudo.
E a todos aqueles que, direta ou indiretamente, colaboraram para que este trabalho
chega-se a atingir aos objetivos propostos.
Resumo
A an alise de regress ao e uma das tecnicas mais utilizadas para a inferencia de dados. Os
modelos de regress ao linear simples tem por nalidade explicar uma vari avel resposta de
interesse em func ao de outra variavel chamada vari avel explicativa. Esses modelos s ao
utilizados em todas as areas do conhecimento, a exemplo da Estatstica onde a maioria
dos metodos de an alise se utiliza da teoria de regressao. Diante deste contexto, o obje-
tivo deste trabalho foi apresentar quais os principais aspectos te oricos e computacionais
relacionados `a inferencia estatstica em modelos de regress ao linear simples. Inicialmente,
foi feito uma abordagem te orica sobre regressao linear simples onde foram explorados
t opicos importantes tais como: Metodos de estimac ao; Testes de hipoteses; Intervalos de
conanca; An alise de resduos; An alise de vari ancia; Representa coes gracas e Tecnicas
de ajuste de parametros. Apos essa abordagem te orica, foi utilizado um banco de dados
do software estatstico R, a m de demonstrar computacionalmente todas as tecnicas de
an alise de regress ao abordadas na teoria. A escolha do software, teve alem do motivo
relacionado com o fato de este ser um software livre, podendo ser copiado e distribudo
livremente, o fato de ser uma linguagem clara, simples e de grande exibilidade permi-
tindo que simples comandos construam func oes poderosas de analise de dados, deixando
assim nossa contribuic ao para estudantes e professores que desejam conhecer e aplicar a
an alise de regress ao utilizando o software estatstico R.
Palavras-chave: An alise de regress ao, Software R, Estatstica computacional.
Abstract
Regression analysis is one of the most used statistical methods for statistical inference in
real problems, the simple linear regression model has the main focus to explain a response
variable as a linear function of the another variable, known as explicative, these models
are used in all scientic areas. In Statistics, most of the real applications use the regression
theory, in this way the main purpose of this work was to present the main theoretic and
computational issues related to the inference in simple linear regression analysis, where
in this approach we clarify important topics like: estimation methods, hypothesis testing,
condence intervals, residual analysis, analysis of variance, graphical representations and
techniques to the model tting. After the theoretical foundation, we used an R database
for computationally show all the regression techniques presented in the theory. The R
choice was supported by the fact that it is a clear, simple and exible computational
language, together with the fact that it is free software, what turn possible to freely copy
and distribute it. These characteristics make the R software a powerful tool to construct
data analysis functions, thus leaving our contribution to students and teachers who want
to know and apply a regression analysis using statistical software R.
Keywords: Regression analysis, R software, Computational Statistics.
Sumario
Lista de Figuras
Lista de abreviaturas
1 Introducao p. 13
2 Fundamentacao Te orica p. 15
2.1 Marco Historico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 15
2.1.1 Principais Aplica coes . . . . . . . . . . . . . . . . . . . . . . . . p. 16
2.2 Regress ao versus correla cao . . . . . . . . . . . . . . . . . . . . . . . . p. 16
2.3 Regress ao Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17
2.3.1 A equac ao linear . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18
2.3.2 Modelo Matem atico vs Modelo Estatstico . . . . . . . . . . . . p. 18
2.3.3 Pressupostos do Modelo . . . . . . . . . . . . . . . . . . . . . . p. 20
2.3.3.1 Estimac ao por mnimos quadrados . . . . . . . . . . . p. 21
2.3.3.2 Estimac ao por m axima verossimilhanca . . . . . . . . p. 23
2.3.4 Propriedades dos estimadores de e . . . . . . . . . . . . . . p. 25
2.3.5 Decomposi cao da variabilidade total . . . . . . . . . . . . . . . p. 27
2.3.6 Esperan cas das somas de Quadrados . . . . . . . . . . . . . . . p. 28
2.3.6.1 Coeciente de Determinacao R
2
. . . . . . . . . . . . . p. 32
2.3.6.2 Coeciente de Determinacao Ajustado R
2
. . . . . . . p. 33
2.3.7 Intervalos de Conanca . . . . . . . . . . . . . . . . . . . . . . . p. 34
2.3.7.1 Intervalos de conanca para . . . . . . . . . . . . . . p. 34
2.3.7.2 Intervalos de conanca para . . . . . . . . . . . . . . p. 35
2.3.8 Testes para a falta de ajuste . . . . . . . . . . . . . . . . . . . . p. 35
2.4 An alise de Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38
2.4.1 Representac ao gr aca . . . . . . . . . . . . . . . . . . . . . . . . p. 38
2.4.2 N ao linearidade da fun cao de regressao . . . . . . . . . . . . . . p. 38
2.4.3 Os erros nao tem vari ancia constante . . . . . . . . . . . . . . . p. 39
2.4.4 Os termos do erro n ao s ao independentes . . . . . . . . . . . . . p. 40
2.4.5 O modelo ajusta bem mas, uma ou poucas observacoes s ao dis-
crepantes ou inuentes . . . . . . . . . . . . . . . . . . . . . . . p. 40
2.4.6 Os erros n ao seguem distribuicao normais . . . . . . . . . . . . p. 41
2.5 Transformac ao de variaveis . . . . . . . . . . . . . . . . . . . . . . . . . p. 42
2.5.1 Func ao potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 42
2.5.2 Func ao exponencial . . . . . . . . . . . . . . . . . . . . . . . . . p. 43
2.5.3 Func ao hiperbolica . . . . . . . . . . . . . . . . . . . . . . . . . p. 44
2.6 Estatstica Computacional . . . . . . . . . . . . . . . . . . . . . . . . . p. 46
2.6.1 Software Estatstico R . . . . . . . . . . . . . . . . . . . . . . . p. 47
3 Aplicacao p. 49
3.1 An alise de regress ao utilizando o R . . . . . . . . . . . . . . . . . . . . p. 49
3.1.1 Sobre o banco de dados . . . . . . . . . . . . . . . . . . . . . . . p. 49
3.1.2 Estimando o modelo linear (lm) . . . . . . . . . . . . . . . . . . p. 50
3.1.3 Plotando o gr aco de dispersao (plot) . . . . . . . . . . . . . . . p. 51
3.1.4 Teste de signicancia (summary) . . . . . . . . . . . . . . . . . p. 51
3.1.5 Intervalo de conanca . . . . . . . . . . . . . . . . . . . . . . . p. 52
3.1.6 Resduos e testes diagn osticos . . . . . . . . . . . . . . . . . . . p. 53
3.1.7 Transformacoes de variaveis . . . . . . . . . . . . . . . . . . . . p. 54
4 Conclusao p. 61
Referencias p. 62
Lista de Figuras
1 Gracos de dispers ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18
2 Graco do modelo matem atico . . . . . . . . . . . . . . . . . . . . . . . p. 19
3 Modelo linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 19
4 Graco coeciente de determinacao . . . . . . . . . . . . . . . . . . . . p. 33
5 Graco da falta de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . p. 35
6 Graco dos valores estimados x resduos . . . . . . . . . . . . . . . . . p. 38
7 Ilustracao de n ao linearidade no modelo de regressao linear simples. (a)
e (b) modelo linear inadequado. (c) e (d) modelo linear adequado . . . p. 39
8 Ilustracao de vari ancia dos termos do erro n ao constante no modelo . . p. 39
9 Graco de nao independencia dos erros . . . . . . . . . . . . . . . . . . p. 40
10 Gr aco com observacoes discrepantes . . . . . . . . . . . . . . . . . . . p. 41
11 Gr aco da func ao potencia . . . . . . . . . . . . . . . . . . . . . . . . . p. 42
12 Gr aco da func ao exponencial . . . . . . . . . . . . . . . . . . . . . . . p. 43
13 Gr aco da func ao hiperbolica, tipo I . . . . . . . . . . . . . . . . . . . p. 44
14 Gr aco da func ao hiperbolica, tipo II. . . . . . . . . . . . . . . . . . . . p. 45
15 Gr aco da func ao hiperbolica . . . . . . . . . . . . . . . . . . . . . . . p. 45
16 Gr aco de dispers ao entre Species e Endemics . . . . . . . . . . . . . . p. 51
17 Gr aco testes diagn osticos . . . . . . . . . . . . . . . . . . . . . . . . . p. 53
18 Gr aco Estimacao do parametro pelo metodo de Box-Cox . . . . . . p. 55
19 Gr aco Diagrama de dispersao entre Comprimento do corpo e concen-
trac ao de merc urio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56
20 Gr aco de diagn ostico . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57
21 Gr aco Estimacao do parametro pelo metodo de Box-Cox. . . . . . p. 58
22 Gr aco Diagrama de dispersao pelo metodo de Box-Cox. . . . . . . p. 59
23 Gr aco de diagn ostico para o modelo ajustado . . . . . . . . . . . . . p. 60
Lista de abreviaturas
ANOVA - Analyses of variance
gl. - Graus de liberdade
SQtot - Soma dos Quadrados Totais
SQreg - Soma dos Quandrados da Regress ao
SQres - Soma dos Quandrados dos Resduos
SQep - Soma dos Quadrados do erro puro
SQfa - Soma dos Quadrados da fata de ajuste
13
1 Introducao
Dados podem ser obtidos de v arias maneiras, e a maneira como os dados s ao obtidos,
bem como sua natureza especca sao fatores que determinam a analise, esses dados
podem ser obtidos a partir de experimentos planejados, observacoes de fenomenos da
natureza, levantamentos etc. Qualquer que seja a maneira pela a qual os dados s ao obtidos
eles contem informacoes a respeito de algum fenomeno, que precisam ser organizadas,
analisadas e interpretadas. Os dados s ao medidas de alguma propriedade ou caracterstica
de um fen omeno em estudo (CHATTERJEE; BERTRAM, 1991). Nesta monograa a an alise
de dados abordados sera a an alise de regress ao linear simples, o modelo linear simples
e a correlac ao s ao duas tecnicas estreitamente relacionadas que envolvem uma forma
de estimacao, essas tecnicas se referem ` a estimacao de uma relac ao que possa existir
entre duas ou mais vari aveis na populac ao. Mais especicamente, a an alise de regressao
compreende a an alise de dados amostrais para saber se e como duas ou mais vari aveis
relacionam-se umas com as outras numa populac ao. De acordo com Souza (2001) a an alise
de correla cao linear d a um n umero que resume o grau de relacionamento linear entre duas
vari aveis, j a a an alise de regress ao tem como resultado uma equac ao matematica que
descreve o relacionamento entre essas vari aveis, a equac ao pode ser usada para estimar ou
predizer, valores futuros de uma variavel quando se conhecem ou se supoem conhecidos
valores da outra vari avel.
A an alise de correlac ao e util em trabalho exploratorio, quando um pesquisador ou
analista procura determinar quais variaveis sao potencialmente importantes e o interesse
est a basicamente no grau ou forca do relacionamento. Em educac ao e psicologia, freq uen-
temente se d a maior enfase ao grau ou forca do relacionamento, em outras areas, como
administrac ao, economia, pesquisa medica, agricultura, o foco principal esta na natureza
do relacionamento (isto e, a equac ao de predi cao) e a an alise de regress ao e o instrumento
principal. Os dados para a an alise de regress ao e correlac ao provem de observac oes de
vari aveis emparelhadas, isto signica que cada observac ao origina dois valores, para a
regress ao simples, um para cada variavel (MATOS, 1998). Por exemplo,um estudo que
14
envolva caractersticas fsicas pode focalizar a idade e a altura de cada indivduo, as duas
vari aveis de interesse - idade e altura de cada pessoa - sao ent ao emparelhadas, para um
problema de tres variaveis, cada observacao origina tres valores, por exemplo, alem da
idade e altura de cada pessoa, podemos incluir tambem o peso na an alise.
Estas an alises podem classicar-se quanto ao n umero de variaveis ou quanto ` a quali-
dade da relac ao. Quanto ao n umero temos as simples: quando uma variavel independente
explica bem o fen omeno ou as m ultiplas: quando o fenomeno exige mais de uma variavel
indenpendente para sua boa explicac ao. Quanto ` a qualidade temos as lineares: quando
os fen omenos podem ser razoavelmente bem explicados por equacoes do 1
o
grau, ou Nao
lineares: quando os fen omenos nao podem ser adequadamente explicados por equac oes do
1
o
grau, exigindo funcoes de ordem superior.
Dentro desse contexto, o objetivo geral desta monograa foi demonstrar as tecnicas
de an alise de regressao dentro de uma abordagem computacional utilizando o software
estatstico R. Ainda como parte do objetivo, desenvolvemos aplicac oes dessas tecnicas
utilizando os dados do livro Faraway (2004) am de demonstrar a aplicabilidade da analise
de regressao linear simples no ambito computacional e teorico.
15
2 Fundamentacao Te orica
2.1 Marco Historico
O termo regress ao e correlacao nao e tao novo como parece, mas onde e como surgi-
ram os termos correlac ao e regress ao? Foi Francis Galton (1822-1911), primo de Charles
Darwin, quem usou pela primeira vez esses termos, cujo trabalho inuenciou a Estatstica
e a Psicologia. Galton publicou o livro Genio Hereditario, em 1869, onde aplicou con-
ceitos estatsticos a problemas da hereditariedade. Galton cou impressionado com a
distribuic ao normal aplicada a area de biologia por Quetelet, que mostra no livro O
homem Medio, que a estatura de dez mil sujeitos seguiam uma distribuic ao normal, ou
seja a maioria dos sujeitos tinham suas estaturas em torno da media e que um n umero,
cada vez menor, vai sendo encontrado ` a medida que se afasta da media. O primeiro relato
onde Galton usou o termo correlacao foi em 1888.
As tecnicas modernas de determinacao da validade e da conabilidade de testes, bem
como os metodos da an alise fatorial sao resultados diretos da descoberta, por Galton, da
correlac ao, produzida quando ele observou que as caractersticas tendem a regredir na
direc ao da media (SOUZA, 2001).
Galton cunhou o termo regressao quando observou que lhos de homens altos, n ao s ao,
em media, tao altos quanto os pais, enquanto que os lhos de homens muito baixos sao,
em media, mais altos do que os pais. Ele concebeu uma forma gr aca de representar as
propriedades basicas do coeciente de correlac ao. Ele aplicou o seu metodo de correlac ao
a varia coes de medidas fsicas, por exemplo, mostrou a correlac ao entre a altura do corpo
e o comprimento da cabeca. Seu aluno Karl Pearson desenvolveu a f ormula matem atica,
que usamos hoje e que tem o seu nome em homenagem. O smbolo do coeciente de
correlac ao r, vem da primeira letra de regress ao, em reconhecimentos a Galton.
16
2.1.1 Principais Aplicac oes
Enquanto as tecnicas de regressao sao largamente utilizadas nas atividades em que o
planejamento do futuro proximo e fundamental (particularmente nas administrac ao das
organizac oes), as tecnicas de correlacao tem uso frequente nas chamadas ciencias do
comportamento, tais como educa cao, psicologia e sociologia. Tais tecnicas podem ser
aplicadas para se determinar e avaliar a rela cao existente entre variaveis diversas, como,
por exemplo, a distribuic ao do consumo de cerveja pelos meses do ano, os gastos gerais do
orcamento de uma famlia em func ao de sua renda mensal e do n umero de dependentes,
a variac ao da produc ao agrcola de uma regiao em razao do uso de diferentes tipos de
fertilizantes, a importac ao e consumo de petr oleo em comparac ao com a produc ao de
veculos automotores, o aumento nas vendas devido a uma nova campanha publicit aria
e/ou nos precos e ate o n umero de nascidos em fevereiro dado o n umero de casamentos
em maio.
2.2 Regressao versus correlacao
Estreitamente relacionada, porem conceitualmente diferente da an alise de regressao,
e a analise de correlacao, cujo objetivo b asico e medir a intensidade ou grau de associa cao
linear entre duas vari aveis aleatorias (GUJARATI, 2000). O coeciente de correlac ao geral-
mente representado pela letra eseuestimadorporr, medeaintensidadedaassocia

c aolinearentreasvari aveis.Porexemplo, podeserdeinteresseacharumaestimativardacorrela

c ao, entreoh abitodefumareaocorr enciadec ancerdepulm ao, entreasnotasemexamesdeEstatsticaeMatem atica, entreasnotasnocol egioenafaculdade, etc.Naan alisederegress aoemprincpio, n aoexisteinteresseemestimaressaassocia

c ao, massim, preverovalordavari avelrespostacombasenosvaloresfixadosdavari avel(ouvari aveis)independente.


Assim, na regress ao pode ser de interesse estimar a nota media recebida pelos alunos
em uma prova de Estatstica com base na nota de uma prova de Matem atica, ou com base
no n umero de horas de estudo. Vale a pena ressaltar algumas diferen cas fundamentais
entre regress ao e correlac ao. De acordo com Dmenta (1988) na an alise de regressao
h a uma assimetria na forma como as vari aveis dependente e independente sao tratadas.
Sup oe-se que a vari avel dependente e aleat oria e segue uma distribuicao de probabilidade
e a vari avel (ou variaveis) independente tem valores xados em amostragem repetida.

E
importante salientar que vari aveis independentes podem ser intrinsecamente aleatorias,
mas, para ns de analise de regressao admite-se que seus valores s ao xados por meio
de amostragem repetida, convertendo-se assim em xas. Por outro lado, na an alise de
correlac ao trata-se quaisquer duas variaveis simetricamente, sem haver distinc ao entre
vari avel dependente e independente, sendo as duas vari aveis consideradas aleat orias, com
distribuic ao bivariada.
17
2.3 Regressao Linear Simples
A regress ao linear simples constitui uma tentativa de estabelecer uma equa cao ma-
tem atica linear (linha reta) que descreva o relacionamento entre duas vari aveis (CURRAL,
1994). H a diversas maneiras em que as equa coes de regress ao s ao utilizadas, em situacoes
em que as duas variaveis medem aproximadamente a mesma coisa, mas uma delas e re-
lativamente dispendiosa, ou difcil de lidar, enquanto que a outra nao. Por exemplo, a
resistencia e a dureza de um metal podem estar relacionadas, de modo que lhe conhe-
cendo a dureza podemos estimar-lhe a resistencia. Se o teste de resistencia destroi o
metal, enquanto que o teste de dureza n ao o destr oi, uma pessoa interessada em estimar
a resistencia obviamente preferir a conar nos resultados do teste de dureza para estimar
a resistencia. A nalidade de uma equac ao de regress ao seria ent ao estimar valores de
uma vari avel, com base em valores conhecidos da outra.
Outra utilizac ao das equa coes de regressao e explicar valores de uma variavel em ter-
mos da outra. Isto e, podemos suspeitar de uma rela cao de causa e efeito entre duas
vari aveis. Por exemplo, um economista pode tentar explicar as variac oes na procura de
autom oveis usados em termos de desemprego. Um agricultor pode suspeitar que a quan-
tidade de fertilizante por ele usada tenha inuenciado a safra. A dist ancia de frenagem
de um carro e inuenciada por sua velocidade. Deve-se notar, entretanto, que a l ogica
de uma rela cao causal deve advir de teorias externas ao ambito da estatstica. A analise
de regress ao apenas indica qual relacionamento matem atico pode existir, se existir algum
(TOLEDO et al., 1985).
Ainda uma terceira aplicac ao da regressao: predizer valores futuros de uma vari avel.
Por exemplo, costuma-se aplicar testes a empregados ou estudantes potenciais, para ava-
liar o potencial de sucesso na escola ou no emprego.

E de presumir que haja um relacio-
namento matem atico entre o resultado do teste e o potencial futuro. Embora tais rela coes
possam assumir uma grande diversidade de formas, discutiremos apenas as equac oes line-
ares. As equacoes lineares sao importantes porque servem para aproximar muitas relac oes
da vida real, e porque sao relativamente f aceis de lidar e de interpretar. Outras formas da
an alise de regressao, tais como regress ao m ultipla (mais de duas vari aveis) e regress ao cur-
vilnica (nao-linear) envolvem extens oes dos mesmos conceitos usados na regressao linear
simples.
18
2.3.1 A equacao linear
Duas importantes caractersticas da equac ao linear s ao o coeciente angular e o coe-
ciente linear da reta em determinado ponto. Uma equac ao linear tem a forma:
y
i
= +x
i
+
i
, i = 1, 2, ..., n,
e coeciente linear da reta, e o coeciente angular e n e o tamanho da amostra. A
vari avel Y e a vari avel que deve ser predita (vari avel resposta ou dependente), e X e o
valor preditor (vari avel independente, explicativa ou covari avel) isto e, preferencialmente
deve-se utilizar X como a variavel mais acessvel (mais facil de ser obtida) e Y a vari avel
menos acessvel (mais difcil de ser obtida).

E importante ter em mente que nem todas
as situac oes sao bem aproximadas por uma equacao linear (GUJARATI, 2000). Por isso,
em geral e necess ario desenvolver um trabalho preliminar para determinar se um modelo
linear e adequado. O processo mais simples consiste em fazer o diagrama de dispersao dos
dados, isto e, vericar se os valores de X e de Y, (x
1
, y
1
), (x
2
, y
2
), ..., (x
n
, y
n
) apresentados
evidencia da existencia de uma relac ao linear entre elas.
Figura 1: Gracos de dispers ao
Quando os dados n ao podem ser aproximados por um modelo linear, as alternativas
s ao procurar um modelo nao linear conveniente, ou transformar os dados para a forma
linear. Por exemplo, a convers ao de uma ou de ambas as escalas em logaritmos da por
vezes um modelo linear. Isto provavelmente ocorreria com os dados da Figura 1 (a). Na
sec ao 2.5 abordaremos com mais detalhes algumas dessas transforma coes.
2.3.2 Modelo Matematico vs Modelo Estatstico
Considere duas vari aveis x e y tais que y = f(x), dado um conjunto de valores x
i
onde
i = 1,2,...,n, os correspondentes valores de y
i
= f(x
i
) sao conhecimentos exatamente.
19
Figura 2: Graco do modelo matem atico
Exemplo: y = 1 +x sejam os valores x
i
= (1, 2, 3, 4)
Figura 3: Modelo linear
Esse tipo de situac ao congura um modelo matem atico ou determinstico.
Em uma an alise de regress ao, geralmente a vari avel resposta e afetada por varias
vari aveis.
Y = f(X
1
, X
2
, ..., X
k
, X
k+1
, ..., X
k+m
),
onde, por varios motivos, n ao conseguimos observar as variaveis X
k+1
, ..., X
k+m
. Entao,
analisamos y como func ao apenas das k primeiras variaveis, sendo que permanece um erro
(ou resduo),
i
, devido a n ao utiliza cao das outras m vari aveis.
Assim, o modelo caria:
y
i
= f(x
1i
, x
2i
, ..., x
ki
) +
i
onde i = 1, 2, ..., n
se apenas uma vari avel explicativa e observada, temos:
y
i
= f(x)
i
+
i
) i = 1, 2, ..., n
Os erros
i
tambem podem ser devidos a erros obtidos no processo de mensurac ao da
vari avel dependente, isso congura um modelo estatstico.
20
2.3.3 Pressupostos do Modelo
Ao estabelecer o modelo de regress ao linear simples, pressupomos que:
1. A relac ao entre X e Y e linear
2. Os valores de X s ao xos, isto e, X n ao e uma variavel aleat oria
3. A media dos erros e nula, isto e, E(
i
) = 0, i=1,2,...,n
4. Para um dado valor x de X, a variancia dos erros
i
e sempre
2
, denominada
vari ancia do erro, logo temos:
V ar(
i
) = E(
2
i
) [E(
i
)]
2
= E(
2
i
) =
2
Neste caso, dizemos que o erro e homoced astico.
5. O erro em uma observac ao e nao correlacionado com o erro em qualquer outra
observa cao, isto e,
Cov(
i
,
j
) = E(
i
,
j
) E(
i
).E(
j
) = E(
i
,
j
) = 0
i, j, com i = j para i, j = 1, 2, ..., n
6. Os erros seguem uma distribui cao normal
Na pr atica, a suposicao 6 nao e necessaria para se estimar os parametros e ,
como veremos a seguir, atraves dos estimadores de mnimos quadrados, entretanto, ela e
fundamental para a construcao de testes de hip oteses e intervalos de conanca (ESTEVES,
2008).
Quando a suposi cao 4 nao for razo avel, ou seja, quando os erros s ao, ou parecem ser,
heteroced asticos devemos usar o metodo dos mnimos quadrados ponderados, que veremos
mais adiante.
Dadas as suposic oes do modelo, especialmente 1, 2 e 3, podemos ver que:
E(y
i
) = E( +X
i
+
i
) = E() + E(X
i
) + E(
i
)
E(y
i
) = +x
i
.
21
Ou seja, as medias (ou valores esperados) de y
i
est ao sobre a reta +x
i
.
Pelas suposicoes 4 e 6 temos que para cada valor xado x
i
de X, os valores de y
i
seguem uma distribuic ao de probabilidade normal com mesma vari ancia,
2
, isto e, y
i

N( +x
i
;
2
).
Uma vez que o modelo foi especicado e as suposic oes foram feitas, devemos estimar
os parametros da regressao, e .
2.3.3.1 Estimacao por mnimos quadrados
De acordo com Homann (2006), o primeiro passo na analise de regressao e obter as
estimativas a e b dos par ametros e da regress ao respectivamente. Os valores dessas
estimativas ser ao obtidos a partir de uma amostra de n pares de valores (x
i
, y
i
) (com
i = 1, 2, ..., n), que correspondem a n pontos num graco.
Isto e, dados n pares de observac oes (x
i
, y
i
) das variaveis X e Y , i = 1, 2, ..., n queremos
encontrar uma equac ao do tipo:
y
i
= a + bx
i
, i = 1, 2, ...n
onde y
i
, a e b s ao os estimadores de E(y
i
), e , respectivamente.
Para cada par (x
i
, y
i
) observado, podemos estabelecer a seguinte rela cao:
e
i
=y
i
y
i
= y
i
- (a + bx
i
), para i = 1, 2, ..., n
onde os e
i
s ao chamados de resduos ou desvios do modelo.
Na estimac ao por mnimos quadrados, queremos encontrar a e b que minimizam a
soma dos quadrados dos resduos. Ou seja, queremos tornar mnima a express ao:
Z =
n

i=1
e
2
i
=
n

i=1
[y
i
a bx
i
]
2
=
n

i=1
[y
2
i
2ay
i
2by
i
x
i
+ 2abx
i
+ a
2
+ (bx
i
)
2
]
= na
2
+
n

i=1
y
2
i
2a
n

i=1
y
i
2b
n

i=1
y
i
x
i
+ 2ab
n

i=1
x
i
+ b
2
n

i=1
x
2
i
.
Para minimizar esta express ao em a e b, teremos as derivadas em relac ao a a e b:
22
Z
a
= 2na 2
n

i=1
y
i
+ 2b
n

i=1
x
i
,
Z
b
= 2
n

i=1
y
i
x
i
+ 2a
n

i=1
x
i
+ 2b
n

i=1
x
i
,
e igualando essas equac oes a zero:
na +b
n

i=1
x
i
=
n

i=1
y
i
(2.1)
a
i=1

n
x
i
+ b
n

i=1
x
2
i
=
n

i=1
y
i
x
i
(2.2)
Que e conhecido como sistema de equa coes normais. Agora basta resolver este sistema
para a e b. Da equacao 2.1 temos que:
a =

n
i=1
y
i
b

n
i=1
x
i
n
= y b x
a = y b x.
Da equac ao 2.2 temos:
n

i=1
y
i
.x
i
a
n

i=1
x
i
= b
n

i=1
x
2
i
,
e substituindo a express ao de a temos:
b
n

i=1
x
2
i
=
n

i=1
y
i
x
i

n
i=1
x
i
)(

n
i=1
y
i
)
n
+
b(

n
i=1
x
i
)
2
n
=
n

n
i=1
y
i
x
i
(

n
i=1
x
i
)(

n
i=1
y
i
) + b(

n
i=1
x
i
)
2
n
= nb
n

i=1
x
2
i
b(
n

i=1
x
i
)
2
n
n

i=1
y
i
x
i
(
n

i=1
y
i
)(
n

i=1
x
i
)
= b(n
n

i=1
x
2
i
(
n

i=1
x
i
)
2
) = n
n

i=1
y
i
x
i
(
n

i=1
y
i
)(
n

i=1
x
i
)
Logo, temos que
23
b =
n

n
i=1
y
i
x
i
(

n
i=1
y
i
)(

n
i=1
x
i
)
n

n
i=1
x
2
i
(

n
i=1
x
i
)
2
ou b =

n
i=1
y
i
x
i

n
i=1
y
i
)(

n
i=1
x
i
)
n

n
i=1
x
2
i

(

n
i=1
x
i
)
2
n
Observe que b ainda pode ser escrito de v arias outras formas:
b =

n
i=1
y
i
x
i

n
i=1
y
i
)(

n
i=1
x
i
)
n

n
i=1
x
2
i

(

n
i=1
x
i
)
2
n
=

n
i=1
(x
i
x)(y
i
y)

n
i=1
(x
i
x)
2
=

n
i=1
(x
i
x)yi

n
i=1
(x
i
x)
2
=

n
i=1
x
i
(y
i
y)

n
i=1
(x
i
x)
2
)
onde,
Sxx =
n

i=1
x
2
i

(

n
i=1
x
i
)
2
n
e Sxy =
n

i=1
x
i
y
i

n
i=1
x
i
)(

n
i=1
y
i
)
n
Logo, temos:
b =
Sxy
Sxx
, a = y bx e y = a +bxi
2.3.3.2 Estimacao por maxima verossimilhanca
Na subsec ao anterior mostramos como encontrar os estimadores de e pelo metodo
de mnimos quadrados, agora veremos, para o mesmo modelo, a construcao desses mesmos
estimadores por m axima verossimilhanca.
y
i
= +X
i
+
i
, i = 1, 2, ..., n
Onde assumimos que os erros seguem uma distribuicao N(0,
2
), i.i.d. A partir da
temos que y
i
N( + x
i
,
2
)
Ent ao a func ao de distribui cao de y
i
e dada por:
24
f(y
i
) =
1

2
exp
1
2
2
.(y
i
x
i
)
2
A partir dos dados observados (x
i
, y
i
), i = 1, ..., n temos que a func ao de verossimi-
lhanca e dada por:
L(, ,
2
; x
1
, ..., x
n
) =
n

i=1
(2
2
)
1
2
2
(yixi)
2
= (2
2
)
n
2
.exp
1
2
2

n
i=1
(yixi)
Agora maximizar L(, ,
2
; x) e o mesmo que maximizar l(, ,
2
; x) = log[L(, ,
2
; x)]
=
n
2
log(2
2
)
1
2
2
n

i=1
(yi xi)
2
Agora, para maximizar L ou l, temos que derivar em relac ao a , , e
2
igualar as
equac oes a zero e resolver o sistema de equa coes resultantes.
l

=
1

2
n

i=1
(y
i
x
i
)
l

=
1

2
n

i=1
(y
i
x
i
x
2
i
)
l

2
=
n
2
2
+
1
2
2
.
n

i=1
(y
i
x
2
i
)
Igualando as equa coes a zero temos que encontrar a, b e
2
que resolvem o sistema:
n

i=1
y
i
= na +b
n

i=1
x
i
(2.3)
n

i=1
y
i
x
i
= a
n

i=1
x
i
+b
n

i=1
x
2
i
(2.4)
1
2
2
= [
1

2
n

i=1
(y
i
x
i
)
2
n] = 0 (2.5)
Observando o sistema anterior vemos que as equac oes 2.3 e 2.4 n ao dependem de

2
e sao axatamente iguais ao sistema de equac oes normais do metodo de estimac ao de
mnimos quadrados. Ent ao do mesmo jeito que zemos naquele caso, a partir das equac oes
2.3 e 2.4 vemos que:
a = y bx
b =
Sxy
Sxx
,
25
Sxy =
n

i=1
x
i
y
i

n
i=1
x
i
)(

n
i=1
y
i
)
n
e Sxx =
n

i=1
x
2
i

(

n
i=1
x
2
i
)
n
Logo, vemos que os estimadores a e b de e de m axima verossimilhanca s ao exa-
tamente os mesmos estimadores de mnimos quadrados. Agora, voltando nossa atenc ao
para a equa cao (III) temos:
1
2
2
n

i=1
(y
i
a bx
i
)
2
n = 0
1

2
n

i=1
(y
i
a bx
i
)
2
= n

2
=
1
n
n

i=1
[y
i
(a + bx
i
)
2
Como j a sabemos como calcular a e b, o sistema que maximiza l est a resolvido. Como
vimos anteriormente, temos que y
i
= a +bx
i
e y
i
y
i
= y
i
a bx
i
= e
i
, logo:

2
=
1
n
n

i=1
e
2
i
=
1
n
n

i=1
(y
i
y)
2
Como podemos observar, estimamos e por mnimos quadrados sem nem nos
lembrar de que tnhamos que estimar
2
. Na estimac ao por maxima verossimilhanca
encontramos os mesmos estimadores e e ainda encontramos um possvel estimador
para
2
que e dado pela media dos quadrados dos resduos entretanto, como veremos, este
estimador e viesado.
2.3.4 Propriedades dos estimadores de e
Agora que encontramos os estimadores de e , vamos vericar algumas carac-
tersticas de a e b para construir as suas distribuic oes de probabilidade. Inicialmente,
vamos calcular a esperan ca e a vari ancia de b. Como vimos:
b =
Sxy
Sxx
=

n
i=1
x
i
y
i
(

n
i=1
x
i
)(

n
i=1
y
i
)
n

n
i=1
x
2
i

(

n
i=1
x
i
)
2
n
=

n
i=1
(x
i
x)y
i

n
i=1
(x
i
x)
2
Agora, como y
i
= + x
i
+
i
, temos que:
b =

n
i=1
(x
i
x)( + x
i
+i)
Sxx
=

n
i=1
(x
i
x)
Sxx
+

n
i=1
x
i
(x
i
x)
Sxx
+

n
i=1

i
(x
i
x)
Sxx
26
Porem, vemos que:
n

i=1
(x
i
x) =
n

i=1
xi nx =
n

i=1
x
i

i=1
x
i
= 0
Sxx =
n

i=1
(x
i
x)
2
=
n

i=1
(x
i
x)(x
i
x) =
n

i=1
x
i
(x
i
x) x
n

i=1
(x
i
x)
Sxx =
n

i=1
x
i
(x
i
x)
Ent ao,
b = +

n
i=1

i
(x
i
x)
Sxx
Calculando a esperan ca de b,
E(b) = +

n
i=1
(x
i
x)E(
i
)
Sxx
= .
Logo E(b) = e b e um estimador nao viesado de , agora vamos calcular a variancia
de b, temos que:
V ar(b) = V ar() + V ar
_
n
i=1
(x
i
x)
i
Sxx
_

n
i=1
(x
i
x)
2
V ar(
i
)
(Sxx)
2
=

2
Sxx
(Sxx)
2
V ar(b) =

2
Sxx
Como vimos b e uma combinac ao linear de vari aveis aleat orias com distribuic ao nor-
mal, ent ao e tambem normal com media e vari ancia

2
Sxx
, logo,
b N
_
,

2
Sxx
_
Agora, vamos ver a mesma construc ao para o estimador a de .
Como vimos a = y bx, logo:
a =

n
i=1
y
i
n
bx =

n
i=1
( +x
i
+
i
)
n
bx
a =
n
n
+

n
i=1
x
i
n
+

n
i=1

i
n
bx
+x +

n
i=1

i
n
bx,
27
logo
E(a) = + x +E(

n
i=1

i
n
E(bx)
E(a) = +x
i
+

n
i=1
E(
i
)
n
E(b)x
E(a) = .
Ent ao, a e um estimador n ao viesado de . Agora vamos calcular a var(a).
V ar(a) = V ar() + V ar(x) + V ar
_
n
i=1

i
n
_
+V ar(bx)
V ar(a) =
n
2
n
2
+
x
2

2
Sxx
=
_
1
n
+
x
2
Sxx
_
V ar(a) =
2
_
1
n
+
x
2
Sxx
_
E como no caso de b, temos que:
a N
_
,
2
_
1
n
+
x
2
Sxx
__
2.3.5 Decomposicao da variabilidade total
De acordo com a subsec ao anterior iremos decompor a variabilidade total.
SQres =
n

i=1
(y
i
y
i
)
2
=
n

i=1
(y
i
a bx
i
)
2
=
n

i=1
(y
i
y +bx bx
i
)
2
=
n

i=1
[(y
i
y) b(x
i
x)]
2
=
n

i=1
(y
i
y)
2
+b
2
n

i=1
(x
i
x)
2
2b
n

i=1
(x
i
x)(y
i
y)
=
n

i=1
(y
i
y)
2
+b
2
Sxx 2bSxy =
n

i=1
(x
i
x)
2
+
Sxy
Sxx
Sxy
Sxx
Sxx 2bSxy
=
n

i=1
(y
i
y)
2
+bSxy 2bSxy =
n

i=1
(y
i
y)
2
bSxy
SQres = SQtot SQreg
28
SQtot = SQreg + SQres
Logo, a soma de quadrados total e a soma de quadrados de regress ao mais a soma de
quadrado dos resduos.
2.3.6 Esperancas das somas de Quadrados
Agora iremos calcular as esperancas das tres somas de quadrados, comecando por
SQreg.
SQreg = bSxy =
S
2
xy
Sxx
= b
2
Sxx
logo,
E(SQreg) =
E(S
2
xy)
Sxx
(2.6)
Porem, como vimos anteriormente, temos que:
y
i
= +x
i
+
i
(2.7)
y = +x + (2.8)
Fazendo as equac oes (2.7) - (2.8), temos:
(y
i
y) = (x
i
x) + i
Multiplicando por (x
i
x) em ambos os lados e aplicando a soma:
n

i=1
(x
i
x)(y
i
y) =
n

i=1
(x
i
x)
2
+
n

i=1
(x
i
x)
i

i=1
(x
i
x)
Sxy = Sxx +
n

i=1
(x
i
x)
i
S
2
xy =
2
S
2
xx + [
n

i=1
(x
i
x)
i
]
2
+ 2Sxx

(x
i
x)
i
Ent ao:
E(S
2
xy) =
2
S
2
xx + E[
n

i=1
(x
i
x)
i
]
2
+E[2Sxx
n

i=1
(x
i
x)
i
] =
2
S
2
xx +
2
Sxx
29
Sxx(
2
Sxx +
2
)
Voltando para a Equac ao 2.6 temos que:
E(SQreg) =
E(S
2
xy)
Sxx
=
Sxx(
2
Sxx +
2
)
Sxx
=
2
Sxx +
2
=
2
+
2
Sxx
Para a soma de quadrados total, vemos da equac ao que:
SQtot =
n

i=1
(y
i
y)
2
=
n

i=1
[(x
i
x) +
i
]
2
]
=
n

i=1
[
2
(x
i
x)
2
+ (
i
)
2
+ 2(x
i
x)(
i
)]
=
2
Sxx +
n

i=1
(
i
)
2
+ 2

(x
i
x)
i
2

(x
i
x)
Logo, tomando a esperanca, temos que:
E(SQtot) =
2
Sxx + E[
n

i=1
(
i
)
2
]
como no caso de Sxx e Syy temos que:
n

i=1
(
i
)
2
=
n

i=1

2
i

(

n
i=1

i
)
2
n
E enm:
E[
n

i=1
(
i
)
2
]n
2

n
2
n
=
2
(n 1)
Voltando para a equac ao temos que:
30
E(SQtot) =
2
Sxx +
2
(n 1)
= (n 1)
2
+
2
Sxx
Agora para a soma de quadrados de resduos atraves da decomposic ao da soma de
quadrados total, temos que:
E(SQres) = E(SQtotal) E(SQreg)
=
2
Sxx +
2
(n 1)
2
Sxx
2
=
2
(n 2).
Portanto,
E(
SQres
n
) =
1
n
(n 2)
2
,
e o estimador
2
para
2
e viesado. Porem S
2
=
SQres
n2
e um estimador n ao viesado
de
2
, ja que:
E(S
2
) = E(
SQres
n 2
) =
1
n 2
(n 2)
2
=
2
A partir desses resultados das somas de quadrados, se = 0, podemos demonstrar
que:

SQtot

2
tem distribuic ao qui-quadrado com n 1 grau de liberdade (
2
n1
)

SQres

2
tem distribuicao qui-quadrado comn2 graus de liberdade (
2
n2
), independentedeque =
0

SQreg

2
tem distribuic ao qui-quadrado com 1 grau de liberdade (
2
1
)
Entretando, esses resultados n ao ser ao demonstrados. A partir dessas distribui coes,
denimos os quadrados medios dividindo a respectiva soma de quadrados pelos respectivos
graus de liberdade:
QMtot =
SQtot
n 1
31
QMreg =
SQreg
1
= SQreg
QMres =
SQres
n 2
Agora, uma vez que o modelo foi ajustado e todos os parametros estimados, surgem
algumas perguntas tais como:
1. Existe realmente alguma relac ao linear entre X e Y ?
2. Como podemos responder isso estatisticamente?
Para responder a pergunta (1) , observamos que, se = 0, n ao existe relac ao linear
explicando Y em func ao de X.
Para a pergunta (2), se = 0, como vimos anteriormente,
SQreg

2

2
1
e
SQres

2

2
n2
e atraves de um resultado da teoria de probabilidade mostramos que:
F =
SQreg
1
SQres
n2
=
QMreg
QMres
F
1,n2
como vimos anteriormente, temos que:
E(QMreg) = E(SQreg) =
2
Sxx +
2
e E(QMres) =
2
ou seja, em media QMreg e igual a
2
Sxx+
2
. Se = 0, ambos s ao em media iguais
a
2
, e F = 1. Se = 0 vemos que E(QMreg) > E(QMres) e F > 1.
Assim, a estatstica F e uma estatstica para testar H
0
: = 0 contra H
1
: = 0.
Quanto maior o valor de F, maior evidencia a favor de H
1
.
A partir da, procedemos a an alise de vari ancia do modelo linear, dado pela tabela a
seguir:
Tabela 1: An alise de vari ancia do modelo de regressao linear simples
Causas Variacao G.L S.Q Q.M F
Regress ao 1 bSxy bSxy
QMreg
QMres
Resduo n 2 Syy bSxy
SyybSxy
n2
Total n 1 Syy
32
Entretando, ainda existe outra maneira de se testar H
0
: = 0 contra H
1
: = 0.
Lembremos que, sob as suposic oes usuais do modelo de regressao linear simples, temos
que b N(;

2
Sxx
), logo,
Z
1
=
b

Sxx
N(0, 1)
Porem, nao conhecemos o verdadeiro valor de
2
e usamos o estimador.
(n 2)
S
2

2

(n2)
, onde S
2
= QMres
logo:
t

=
b
S

Sxx
t
n2
.
Enm, para testar H
0
: = 0 contra H
1
: = 0, vemos que:
t

=
b

Sxx
S
t
n2
,
e entao basta encontrar o ponto crtico para um nvel de signic ancia na tabela da t ou
calcular o p-valor do teste. De forma equivalente, se quisermos testar H
0
: =
0
contra
H
1
: =
0
usamos a estatstica:
t
b
=

Sxx(n
0
)
S
t
n2
De maneira equivalente, como a N(,
2
(
1
n
+
x
2
Sxx
)), usamos o mesmo raciocnio
para testar H
0
: =
0
contra H
1
: =
0
. Ou seja a estatstica:
t

=
a
0
S
_
1
n
+
x
2
Sxx
t
n2
,
e podemos usar esta estatstica para testar H
0
com nvel de signic ancia .
2.3.6.1 Coeciente de Determinacao R
2
A partir da decomposic ao da soma de quadrados total, denimos o coeciente de
determinac ao ou explica cao do modelo, que e dado por:
33
r
2
=
SQreg
SQtot
=
bSxy
Sxx
Essa quantidade indica a proporc ao da varia cao de y
i
que e explicadapela regressao.
Note, ainda que SQtot 0, SQreg 0 e SQres 0 pois eles s ao somas de quadrados.
Alem disso, pela decomposi cao da soma de quadrados, temos que:
SQtot = SQrest +SQreg
Logo, SQreg SQtot, e ent ao 0 R
2
1. Tambem e possvel mostrar que R
2
mede
o quadrado da correlac ao entre y
i
e y
i
. Logo, quanto mais proximo de 1 estiver o valor
de R
2
, melhor e o ajuste do modelo e quanto mais pr oximo de 0 (zero), pior e o ajuste,
um exemplo seria uma aplicac ao onde o calculo de R
2
tivesse um valor 0, 818, neste caso
81, 8% da variac ao total de y e explicada pelo modelo de regressao linear simples.
Podemos sintetizar gracamente, atraves da Figura 4.
Figura 4: Graco coeciente de determinacao
onde: y = y
i
= (y) e o modelo mais simples. T e a diferenca entre os pontos observados
e a media (variacao total dos ys). Reg e o desvio da regress ao. Variac ao de y atribuda a
x. Chamamos de variac ao explicada. Res e a variacao residual. Parte n ao explicada pelo
modelo.
2.3.6.2 Coeciente de Determinacao Ajustado R
2
Como vimos anteriormente, o valor do coeciente de determinac ao e uma medida que
d a indcios sobre a qualidade do ajuste do modelo obtido, porem e importante enfatizar
que a medida R
2
depende do n umero de observac oes da amostra, sendo que ele tende a
aumentar a medida que n diminui.
Especialmente, para n = 2 temos R
2
= 1, j a que dois pontos determinam uma
unica reta. Para tentar contornar este problema, denimos o coeciente de determinacao
corrigido para graus de liberdade, mas antes observemos a seguinte transformacao:
34
1 R
2
= 1
SQreg
SQtot
=
SQtot SQreg
SQtot
=
SQres
SQtot
Dividindo as somas de quadrados pelos respectivos graus de liberdade, denimos o
coeciente de determinacao corrigido pelos graus de liberdade:
1 R
2
=
SQres
n2
SQtot
n1
=
n 1
n 2
(1 R
2
).
Logo,
R
2
= R
2

1 R
2
n 2
Agora, R
2
e uma nova medida da qualidade de ajuste do modelo, note que R
2
< R
2
.
Alem disso R
2
pode assumir valores negativos.
2.3.7 Intervalos de Conanca
Outra forma para se avaliar a signic ancia dos resultados obtidos para a e b, que
s ao os estimadores de e , respectivamente, e atraves da utilizacao de intervalos de
conanca (ICs).
2.3.7.1 Intervalos de conanca para
Para construir um I.C para com (1 )% de conanca, temos que encontrar um
valor t
/2
, tal que:
P
_
t
/2
<
_
Sxx
S
(b ) < t
/2
_
= 1
P
_
t
/2
S

Sxx
< (b ) < t
/2
S

Sxx
_
= 1
P
_
b t
/2
S

Sxx
< < t
/2
S

Sxx
b
_
= 1
P
_
b t
/2
S

Sxx
< < b + t
/2
S

Sxx
b
_
= 1
logo,
_
b t
/2
S

Sxx
< < b +t
/2
S

Sxx
b
_
= 1
e um intervalo de conanca para com (1 )% de conan ca.
35
2.3.7.2 Intervalos de conanca para
De maneira equivalente, como
a
S
_
1
n
+
x
2
Sxx
t
n2
vemos que:
_
a t
/2
S
_
1
n
+
x
Sxx
; a +t
/2
S
_
1
n
+
x
Sxx
_
2.3.8 Testes para a falta de ajuste
Tanto o R
2
como

R
2
s ao medidas descritivas e nao servem para tomarmos uma de-
cis aosobre a qualidade do ajuste do modelo. Para essa nalidade, existe o teste para
vericar a falta de ajuste do modelo. Se o modelo estiver correto, ent ao S
2
e um estima-
dor nao viesado para
2
. Se o modelo usado n ao estiver bom o suciente para os dados,
S
2
ir a super-estimar
2
, na Figura 5 temos um modelo graco de um modelo nao ajustado
de forma linear.
Figura 5: Graco da falta de ajuste
Desta forma, vemos que um procedimento de teste seria comparar S
2
com
2
. Neste
caso, existem duas possibilidades.

2
e conhecido
O
2
pode ser conhecido a partir de trabalhos anteriores, pelo conhecimento do erro
obtido no processo de medida etc. Assim, temos que:
SQres

2
=
(n 2)S
2

2

2
n2
36
Como
2
e conhecido, podemos facilmente fazer o c alculo, toda vez que
(n2)S
2

2
resultar
em um valor muito alto, temos indcios de que S
2
est a maior que
2
. Usando a tabela de
qui-quadrado podemos avaliar a signic ancia do resultado.

2
e desconhecido
Este e o caso mais comum, quando nao temos nenhuma informac ao adicional sobre
2
.
Neste caso, devemos adotar outra estimativa para
2
que seja independente do modelo
que estamos ajustando.
Isto pode ser feito com o uso de medidas repetidas de y para um ou mais valores xos
de x.
Suponha que temos m valores diferentes para x e que cada x
j
; j = 1, 2, ..., m tenha n
j
observa coes, digamos:
y
11
, y
12
, ..., y
1n1
para x
1
y
21
, y
22
, ..., y
2n2
para x
2
.
.
.
.
.
.
.
.
.
.
.
.
y
m1
, y
m2
, ..., y
mnm
para x
m
No total, temos:
n =
m

j=1
nj

k=1
1 =
m

j=1
n
j
Neste caso podemos obter a soma de quadrados do erro puro para cada x
j
. Por
exemplo, para x
1
teramos:
n1

k=1
(y
1k
y
1
)
2
e ent ao, supondo que as medidas sejam todas de mesma magnitude, temos a soma de
quadrados do erro puro dada por:
SQep =
m

j=1
ni

k=1
(y
1k
y
1
)
2
,
37
que tem n umero de graus de liberdade dado por:
n
e
=
m

j=1
(n
j
1) =
m

j=1
(n
j
m) = n m
Logo, o estimador da vari ancia do erro puro ou quadrado medio do erro puro e dado
por:
S
2
e
=

m
i=1

nj
k=1
(y
jk
y
i
)
2
n m
ou quadrado medio do erro puro
Agora, da mesma maneira que mostramos a decomposic ao da soma de quadrados
total,a soma de quadrados de resduos pode ser decomposta da seguinte maneira:
m

j=1
nj

k=1
(y
jk
y
i
)
2
. .
SQres
=
m

j=1
nj

k=1
(y
jk
y
i
)
2
. .
SQep
+
m

j=1
nj( y
j
y
j
)
2
. .
SQfa
ou seja, a soma de quadrados de resduos se decomp oe na soma de quadrados de erro
puro mais a soma de quadrados da falta de ajuste. Alem disso, pode-se mostrar que:
SQep

2

2
nm
e
SQfa

2

2
m2
e a partir da, construmos um quadro de analise de vari ancia para a falta de ajuste,
dado na tabela 2.
Tabela 2: An alise da vari ancia para a falta de ajuste.
Causas Variacao G.L S.Q Q.M F
Resduo n 2 SQres
Falta de Ajuste m2 SQres SQrep
SQfa
m2
Erro puro n m SQep
SQep
nm
QMfa
QMep
Como
SQep

2

2
nm
e
SQfa
m2

2
m2
A estatstica F

acima tem distribuic ao F-Snedecor com m-2 e n-m graus de liberdade,


quanto maior o valor de F

, maior e a SQfa em relacao a SQep, e o modelo parece n ao


estar bem ajustado.
38
2.4 Analise de Resduos

E importante, ap os se realizar a regress ao, testar se os pressupostos do modelo de


regress ao linear se aplicam aos dados estudados (ESTEVES, 2008). Isto se faz com a
an alise dos resduos. Resduos representam a diferenca entre o valor observado de y e o
que foi predito pelo modelo de regressao.
2.4.1 Representacao graca
A primeira forma de se avaliar resduos e plotar um gr aco no qual os resduos (y - y)
s ao colocados no eixo vertical (y) e os valores esperados de y ( y) no eixo horizontal (x),
como ilustrado na Figura 6.
Figura 6: Graco dos valores estimados x resduos
e necess ario testar as suposicoes feitas a respeito do modelo.
2.4.2 Nao linearidade da funcao de regressao
Se a fun cao de regress ao linear e apropriada ou nao para os dados sob estudo, pode ser
investigado atraves do diagrama de dispers ao dos dados (Y versus X) e a func ao ajustada
sobreposta no mesmo gr aco. Adicionalmente pode-se tracar o diagrama de dispersao dos
resduos.
Quando o modelo de regressao linear simples ajusta bem aos dados, os valores ob-
servados se distribuem aleatoriamente em torno de uma reta no gr aco de Y versus X.
Num diagrama de e
i
versus x
i
os pontos se distribuem aleatoriamente em torno de zero
quando o modelo de regress ao linear simples e apropriado. Na Figura 7, (a) e (b) ilustram
o ajuste de um modelo de regressao linear simples inadequado. Ja os casos (c) e (d) da
mesma gura mostram o ajuste de um modelo de regressao linear simples adequado aos
39
Figura 7: Ilustrac ao de n ao linearidade no modelo de regressao linear simples. (a) e (b)
modelo linear inadequado. (c) e (d) modelo linear adequado
dados.
2.4.3 Os erros nao tem variancia constante
Um gr aco dos resduos e
i
versus a variavel independente X e apropriado para avaliar
a homocedasticidade do modelo. Quando a dispers ao dos resduos cresce a medida que
X cresce, ha indcio de variancia dos termos do erro n ao constante. Tambem e indicativo
de vari ancia n ao constante, o decrescimento da dispers ao dos resduos quando a vari avel
independente cresce. Tambem, pode-se usar o diagrama de dispers ao de e
i
versus , com
a mesma interpretac ao do gr aco de e
i
versus y
i
.
Figura 8: Ilustracao de vari ancia dos termos do erro n ao constante no modelo
A Figura 8 ilustra casos de variancia nao constante, nos termos do erro do modelo de
regress ao linear simples.
40
2.4.4 Os termos do erro nao sao independentes
Quando os erros s ao independentes, espera-se os resduos utuarem aleatoriamente
em ralac ao a linha e
i
= 0 nos diagramas de e
i
versus X e e
i
versus tempo (quando
tivermos informacao de tempo). A presenca de padr ao nestes diagramas e indicativo
de dependencia nos erros. Presenca de padrao pode ser muita altern ancia ou pouca
altern ancia dos resduos em relac ao a linha e
i
= 0, nos diagramas. Dependencia nos
erros ocorre geralmente em dados tomados numa seq uencia de tempo, em decorrencia de
aprendizagem do operador, mudanca gradual em equipamentos, etc. A dependencia dos
erros pode ser vista como falta de uma vari avel importante no modelo.

E importante
salientar que algumas vezes o diagrama de e
i
versus X aparece sem nenhum padr ao
indicando que os erros s ao independentes e no diagrama de e
i
versus tempo padroes
tornam-se evidentes. Assim, ha casos em que os gr acos de e
i
versus tempo sao mais
ecientes para a avaliac ao da independencia dos termos do erro do que e
i
versus X
i
.
Figura 9: Graco de nao independencia dos erros
A Figura 9 ilustra casos de dependencia dos erros do modelo de regress ao linear.
Padr oes no diagrama de e
i
versus X pode nao ser a causa de dependencia dos erros.
Geralmente os padr oes sao causados por modelo ajustado inadequadamente como, de-
clarac ao da equac ao nao apropriada ou falta de uma variavel independente importante
no modelo. Os diagramas de e
i
versus tempo s ao mais apropriados para identica cao de
dependencia dos erros.
2.4.5 O modelo ajusta bem mas, uma ou poucas observac oes
sao discrepantes ou inuentes
Valores discrepantes ( outliers) s ao observac oes extremas. Num diagrama dos
resduos padronizados (r
i
) versus X eles aparecem geralmente quatro ou mais vezes o
desvio padr ao unit ario, ou seja quatro unidades ou mais, distantes da linha e
i
= 0. A
Figura 10 ilustra uma observac ao que pode ser um valor discrepante ou valor inuente.
Valores discrepantes apresentam diculdades no processo de modelagem porque tem forte
41
impacto sobre a equac ao ajustada e podem implicar num modelo mal ajustado. Por
outro lado, valores discrepantes podem levar signicante informac ao, como por exemplo
interacao com vari aveis importantes omitidas no modelo. Um valor discrepante so deve
ser descartado se houver evidencia de que ele representa um registro errado, um calculo
errado, mau funcionamento de um equipamento ou a certeza de uma inuencia estranha
ao processo ou sistema.
Figura 10: Graco com observac oes discrepantes
2.4.6 Os erros nao seguem distribuicao normais
No ajuste de modelos de regress ao, e suciente que os termos do erro sejam aproxi-
madamente normais. Afastamento acentuado da distribuic ao normal pode ser investigado
visualmente atraves de uma serie de gracos de resduos. Uma maneira e construir um
histograma dos resduos e observar se ha um grande afastamento da normalidade. Outra
possibilidade e vericar se cerca de 68% dos resduos padronizados r
i
est ao dentro da
amplitude -1 a +1, ou se cerca de 90% est ao na amplitude -1.64 a +1.64. No caso de pe-
quenas amostras pode-se usar as correspondentes estatsticas t e a distribuic ao t-Student.
Outra alternativa e o uso de gr acos normal de probabilidade.
A analise do modelo quanto a normalidade dos termos do erro e geralmente mais
difcil do que outras pressuposic oes. Em primeiro lugar variac oes do acaso pode levar
a conclus oes erradas quando alguem estuda a natureza da distribuic ao de probabilidade
especialmente no caso de pequenas amostras. Em segundo lugar quando outras pres-
suposic oes sao violadas, a distribui cao dos resduos pode ser afetada. Por exemplo, os
resduos podem aparecer n ao normalmente distribudos quando uma fun cao de regress ao
n ao apropriada e usada ou quando a variancia dos termos do erro n ao e constante. As-
sim, e recomendavel que se investigue primeiro outras pressuposic oes antes de considerar
o problema da normalidade dos resduos. V arios testes estatsticos sao encontrados na
literatura para testar a normalidade de variaveis aleat orias, como os testes de aderencia
de qui-quadrado, Kolmogorov-Smirnov e Lilifors. Outros testes para normalidade sao
42
Shapiro-Wilks e Shapiro-Francia. Estes testes geralmente est ao disponveis nos pacotes
estatsticos.
2.5 Transformacao de variaveis
Muitas vezes, podemos encontrar problemas na especicac ao da func ao que relaciona
as vari aveis. Ou seja, pode ser que a escolha da funcao linear nao seja a melhor op cao.
Isso, geralmente, pode ser vericado atraves de um gr aco de dispers ao entre x e y.
Nestes casos, existem algumas func oes que podem ser transformadas em modelos
lineares atraves de fun coes matematicas simples. A seguir, vamos ver alguns casos deste
tipo.
2.5.1 Funcao potencia
Esta func ao e dada pela expressao:
y = x

O graco desta func ao e esbo cado na Figura 11:


Figura 11: Graco da funcao potencia
Assumindo um modelo estatstico com o erro multiplicativo, temos:
y
i
= x

i

i
i, i = 1, 2, ..., n
Aplicando o logaritmo em ambos os lados da igualdade camos com:
log(y
i
) = log(x

i

i
)
43
log(y
i
) = log() + log(x
i
) + log(
i
)
e ent ao, temos um modelo:
z
i
= A +v
i
+
i
, i = 1, ..., n,
com z
i
= log(y
i
), A = log(), v
i
= log(x
i
) e
i
= log(
i
)
que agora e um modelo linear simples nos logaritmos das variaveis.
2.5.2 Funcao exponencial
A func ao e dada pela expressao:
y =
x
O graco desta func ao e esbo cado na Figura 12:
Figura 12: Graco da funcao exponencial
Assumindo o erro multiplicativo:
y
i
=
x
i

i
, i = 1, 2, ..., n
tomando os logaritmos:
log(y
i
) = log() + x
i
log() + log(
i
)
ou
z
i
= A + Bx
i
+
i
,i = 1,...,n onde
z
i
= log(y
i
), A = log(), B = log() e
i
= log(
i
)
que e um modelo de regressao linear simples do log(y
i
) com rela cao a x
i
44
2.5.3 Funcao hiperb olica
Existem tres tipos de func ao hiperbolica que veremos a seguir:
Na func ao tipo I temos:
y = x

ou y =

x

O graco e dado na Figura 13, assumindo um modelo do tipo


y
i
=

x

i

i
, i = 1, 2, ..., n
Figura 13: Graco da funcao hiperbolica, tipo I
Aplicando o log, temos que:
log(u
i
) = log() log(x
i
) + log(
i
)
ou
z
i
= A +
i
, i = 1, 2, ..., n
z
i
= log(y
i
), A = log(), = log(x
i
) e i = log(
i
)
Na func ao tipo II, temos:
y = +x
1
cujo graco e dado na Figura 14.
Neste caso, podemos assumir um modelo estatstico com erro aditivo:
y
i
= +

x
i
+
i
, i = 1, 2, ...n
45
Figura 14: Graco da func ao hiperb olica, tipo II.
Note que, neste caso, o modelo j a e linear nos parametros, mas devemos fazer uma
transformac ao em x, reescrevendo o modelo como:
y
i
= + t
i
, i = 1, 2, ..., n
Onde t
i
=
1
x
i
ou t
i
= x
1
i
, que agora pode ser ajustado usando a teoria descrita ate
aqui:
Na func ao do tipo III, temos:
y = ( +x)
1
=
1
+x
Cujo gr aco da func ao e do tipo, sempre que +x = 0, e apresentado na Figura 15.
Figura 15: Graco da funcao hiperbolica
Adotando um modelo estatstico com o termo de erro aditivo no denominador do
segundo termo de equac ao:
y
i
=
1
+x
i
+
i
, i = 1, ..., n,
fazendo a transformacao t
1
em ambos os lados, temos o modelo:
1
y
i
= + x
i
+
i
, i = 1, ..., n ou
46
z
i
= +x
i
+
i
, i = 1, ..., n
onde z
i
=
1
y
i
, que e um modelo linear simples.
2.6 Estatstica Computacional
Com os avan cos na tecnologia ao longo dos anos, ocorreram muitas mudancas nas
an alises estatsticas. Os pesquisadores e os estudantes podem agora facilmente usar uma
grande variedade de modelos, dos mais simples aos mais complexos e gerar gr acos bem
elaborados com apenas alguns cliques do mouse.
O uso de ferramentas e programas adequados poupa horas de c alculos e propocionam
importantes an alises. Os complicados c alculos manuais gerados a partir de exemplos
fornecidos da vida real sao difceis de se manipular, com o software estatstico, situac oes
reais podem ser analisadas mais prontamente.
De acordo com Alves e Cunha (2006), a utiliza cao de software estatstico deve ter
sempre como suporte um adequado conhecimento das tecnicas estatsticas envolvidas, ou
segundo orientac oes de quem detenha esses conhecimentos.
De uma forma generica e simplicada, todos os aplicativos estatsticos, lidam com
uma analise estatstica de dados estruturada em quatro etapas:
1. Introducao dos dados no programa ou importa cao de arquivos de dados.
2. Avaliac ao descritiva dos dados.
3. Selecao do procedimento de an alise estatstica a aplicar.
4. Apreciacao e interpretac ao dos resulados.
Hoje, h a um grande n umero de pacotes estatsticos no mercado. Alguns dos principais
programas disponveis como SAS, MINITAB, SPSS, S-PLUS e o R possuem caractersticas
diferentes. A maioria desses pacotes s ao desenvolvidos especicamente para determinados
nichos de especialistas: bi ologos, medicos, psic ologos, cientistas sociais etc. Muitos desses
softwares foram desenvolvidos sob orientac ao dos especialistas nessas areas.
Com toda essa variedade de programas, ca um pouco difcil decidir qual deles uti-
lizar. Segundo Curral (1994), a utiliza cao dos softwares e computadores deve ser feita
n ao se esquecendo de uma ressalva importante: o computador n ao raciocina, e n ao pode
47
formular julgamentos. A compreens ao dos princpios da estatstica e pre-requisito `a cor-
reta interpretac ao de resultados obtidos pelo computador. Para Guedes e Margins (2005)
um equvoco comum com o qual nos deparamos nos dias atuais e que, em funcao da faci-
lidade que o advento dos computadores nos proporciona, permitindo desenvolver c alculos
avancados e aplica coes de processos sosticados com razo avel eciencia e rapidez, muitos
pesquisadores consideram-se aptos a fazerem analises estatsticas sem um conhecimento
mais aprofundado dos conceitos e teorias.
Em areas especcas da estatstica como a Analise de Regressao, onde se exige respon-
sabilidade e muito conhecimento estatstico por parte do pesquisador, e de fundamental
import ancia a aplicacao correta de metodos estatsticos nos softwares, nao basta jogar
os dados no software e comecar a tirar conclusoes precipitadas, o estatstico deve fazer
primeiramente uma an alise criteriosa dos resduos am de vericar todas as suposi coes
necess arias para se trabalhar com aquele grupo de dados.
Em qualquer tipo de an alise estatstica, seja no campo da regressao ou nao, um
bom domnio de conte udo teorico e importante e evita a pratica inadequada de se obter
interpreta coes equivocadas e muitas vezes err oneas.
2.6.1 Software Estatstico R
O Software R e um conjunto integrado de pacotes ou blibliotecas para manipuac ao
de dados, c alculo e visualiza cao gr aca. Entre outras caractersticas, ele permite:
Uma facilidade efetiva para manipula cao e armazenagem de dados;
Um conjunto de operadores para calculos sobre quadros de dados, em particular as
matrizes;
Uma grande e coerente colec ao integrada de ferramentas para analise de dados;
Facilidades gr acas com capacidade de visualizac ao na tela ou impressora;
uma linguagem de programa cao bem desenvolvida, simples e eciente;
O R e um sistema totalmente planejado e coerente, em vez de uma alglomera cao de
ferramentas muito especcas e inexveis, como e o caso de outros programas de analise
de dados.
48
R e uma poderosa linguagem de programac ao, que permite aos usu arios acrescen-
tar funcionalidades adicionais. H a tambem, possibilidade de escrever c odigos em outras
linguagens de programacao (como o C, por exemplo) para manipular objetos R.

E um projeto GNU-GPL similar ` a linguagem e ambiente S, desenvolvida no Bell


Laboratories (anteriormente ATT, agora Lucent Technologies) por John Chambers e co-
legas. R pode ser considerada como uma implementac ao diferente do S. R fornece uma
ampla variedade de tecnicas estatsticas e gr acas, e e altamente extensvel, alem de ser
inteiramente livre.
Um dos pontos fortes do R e a facilidade com que gracos bem-desenhados com qua-
lidade para publicac ao podem ser produzidos, incluindo smbolos matematicos e f ormulas
quando necess ario. Outra vantagem e que o R e disponvel como Software Livre sob os
termos da Licenca P ublica General GNU-GPL da FreeSoftwareFoundation na forma de
c odigo fonte. O R esta disponvel para ambientes Windows, MacOS e tambem para uma
grande variedade de plataformas UNIX e sistemas similares (inclindo FreeBSDeLinux).
49
3 Aplicacao
3.1 Analise de regressao utilizando o R
Os modelos lineares podem ser acessados no ambiente R a partir da funcao lm(),
que gera um objeto no R correspondente a uma lista com v arios componentes do modelo
linear em quest ao (coecientes, resduos, valores preditos, dentre outros). A estes objetos
(os modelos lineares), encontram-se associados tambem modos especicos das func oes
plot() e summary(), mostrando tabelas de analise de vari ancia para o modelo linear.
A diferenca entre modelos (regress ao, analise de vari ancia, an alise de covariancia) e
determinada pela f ormula e pelo tipo de vari aveis envolvidas a ser utilizada na especi-
cac ao do modelo, a qual e um dos argumentos da func ao. Para as an alises mais simples,
as formulas sao muito f aceis de escrever. No entanto, `a medida que o n umero de fatores
(vari aveis independentes) aumenta, e necess ario especicar possveis interacoes entre fa-
tores, o que complica um pouco a determina cao das formulas. O pacote R-commander,
quando instalado, simplica a tarefa de montar a equacao, mas n ao resolve os modelos
mais complexos, como an alise de covariancia com m ultiplos fatores e covariaveis. Neste
trabalho iremos abordar os modelos de regress ao simples, seguidos por an alise de variancia,
intervalo de conanca e analises gr acas.
3.1.1 Sobre o banco de dados
Os modelos de regress ao linear sao especicados como uma equac ao da reta (Y X),
onde o smbulo assume a fun cao de igualdade e os par ametros do modelo linear nao
precisam ser especicados diretamente. A equac ao de regressao a ser ajustada a partir
da especicac ao acima seria Y = a + bX . Uma vez calculado um objeto da classe
modelo linear, podemos utilizar este objeto como argumento em uma serie de func oes que
permitem a extracao de mais informac ao do modelo e a vericac ao de premissas, por meio
de gracos diagn osticos.
50
Para ilustrar os conceitos de regress ao linear simples abordados nessa monograa,
resolvemos utilizar um conjunto de dados chamado gala, que trata de um conjunto
de dados relativo ao n umero de especies de tartaruga sobre as v arias ilhas Gal apagos.
Estes dados est ao contidos no livro Faraway (2004), o banco de dados e composto por
30 observac oes organizadas em sete colunas com cabe calho, que s ao: Species, Endemics,
Elevation, Area, Nearest, Scruz e Adjacent.
As vari aveis sao:
Species: O n umero de especies de especies de tartaruga encontrados na ilha
Endemics: O n umero de especies endemicas
Elevation: A mais alta elevacao da ilha (m)
Nearest: A dist ancia da ilha mais proxima (km)
Scruz : A dist ancia da ilha de Santa Cruz (km)
Adjacent: A area adjacente da ilha (km
2
)
Neste trabalo iremos utilizar apenas as duas primeiras colunas Species corresponde ao
n umero de especies de tartaruga encontrados na ilha , e a segunda coluna Endemics cor-
responde ao n umero de especies endemicas, embora o banco de dados tenha sete vari avies,
iremos utizar apenas duas por se tratar de uma analise de regressao linear simples.
3.1.2 Estimando o modelo linear (lm)
Para ajustar um modelo de regress ao a este conjunto de dados, de modo que Species =
a + b(Endemics), precisamos utilizar a func ao lm() para criar um modelo linear. O
principal argumento para esta func ao e o modelo a ser ajustado, a variavel dependente
e a Species e a independente e Endemics. Podemos visualizar os par ametros estimados
para a reta de regressao linear simples escrevendo o nome do objeto:
> gfit = lm(Species Endemics, data=gala)
> gfit
Call: lm(formula = Species Endemics, data = gala)
Coefficients:
(Intercept) Endemics
51
-21.048 4.072
O coeciente chamado Intercept corresponde ao a da reta de regressao, ao passo que
o coeciente identicado como Endemics corresponde ao b da reta de regressao (coeficiente
angular).
3.1.3 Plotando o graco de dispersao (plot)
Gracos de dispersao mostram as relacoes entre os valores numericos em varias seq uencias
de dados ou plotam dois grupos de n umeros como uma seq uencia de coordenadas XY. No nosso
exemplo plotamos as variaveis Species contra Endemics, atraves do graco podemos vericar
visualmente que existe uma relacao de linearidade entre as duas variavies, no entanto o graco
e apenas uma medida descritiva, o que nao nos permite conrmar uma armacao concreta, logo
utilizamos medidas de inferencia para comprovar os resultados explicitados pelo graco.
O graco e feito atrave da fucao plot (Species, Encemics) e esta representado na Figura
16, logo apos podemos adicionar a reta de regressao no graco de dispesao utilizando a fun cao
abline() e o modelo linear como argumento, como a fun cao abline() e de nvel mais baixo, e
necessario que o graco ja esteja plotado.
> plot(Species,Endemics)
> abline(gfit)
Figura 16: Graco de dispers ao entre Species e Endemics
3.1.4 Teste de signicancia (summary)
A informa cao sobre testes de signicacia e os erros associados aos parametros do modelo
linear pode ser obtida com a funcao summary()
52
> summary (gfit)
Call:
lm(formula = Species Endemics, data = gala)
Residuals:
Min 1Q Median 3Q Max
-71.791 -15.894 3.507 12.088 78.200
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -21.0480 7.1138 -2.959 0.00622 **
Endemics 4.0721 0.1899 21.443 < 2e-16 ***
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 27.95 on 28 degrees of freedom Multiple R-squared:
0.9426, Adjusted R-squared: 0.9406 F-statistic: 459.8 on 1 and 28 DF, p-value:
< 2.2e-16
Temos nesta tabela uma distribui cao dos resduos, com quantis, intervalo e mediana, os
valores estimados dos parametros com seus devidos erros e testes t para H
0
: = 0 e H
0
: = 0.
O erro padrao residual(raiz quadrada do quadrado medio residual) e mostrado na mesma sada,
assim como o coeciente de determinacao e o coeciente de determinacao ajustado.
3.1.5 Intervalo de conanca
O intervalo de conanca para o coeciente de regressao pode ser construdo a partir do erro
associado ao mesmo, usando a distribui cao t, por exemplo, o valor crtico do t para os 28 graus
de liberdade residuais do modelo, associado ao intervalo de conan ca de 95% sera:
> qt(0.975,28)
[1] 2.048407
E os limite de conanca para o coeciente de regressao podem ser calculados como:
> c(4.0721-2.048407*0.1899, 4.0721+2.048407*0.1899)
[1] 3.683108 4.461092
53
3.1.6 Resduos e testes diagnosticos
Uma serie de gracos estao disponveis na funcao plot(lm) para o teste de premissas do
modelo linear. Esta funcao gera quatro gracos em serie, de modo que pode ser interessante gerar
um a um ou colocar todos os gracos de uma vez. Para este m, vamos mostar como colocar
m ultiplos gracos em uma unica pagina. Para isto, precisamos modicar os parametros mfcol
ou mfrow. Estes parametros permitem a determina cao de quantos gracos devem aparecer
por pagina, fazendo com que os gracos gerados na sequencia sejam adicionados nas colunas ou
linhas pre-determinadas pelos parametros, na Figura 17 temos:
> par(mfrow=c(2,2),pch=16)
> plot(gfit)
Figura 17: Graco testes diagnosticos
Na Figura 17 encontramos quatro gracos diferentes que nos ajudam a vericar as premissas
do modelo. O graco do canto superior esquerdo (Residuals vs Fitted) corresponde aos resduos
comparados aos valores preditos pelo modelo. Neste graco e possvel observar tendencias nos
resduos, como nao-linearidade ou mesmo heteroscedasticidade (esta, no entando, sera melhor
vericada por outro graco). No exemplo, nao encontramos nenhuma tendencia clara e a dis-
tribui cao dos resduos parce simetria em torno da linha. O segundo graco (normal Q-Q plot)
mostra o graco de quantis para os resduos, onde podemos vericar a normalidade dos resduos.
No nosso exemplo, temos os pontos distribudos de modo aproximadamente linear, o que su-
54
gere que os resduos apresentam uma distribui cao normal. O terceiro graco (Scale-Location
Plot) mostra a distribuicao da raiz do modulo dos resduos em compara cao aos valores preditos.
Este graco permite a vericacao da tendencia de heteroscedasticidade em que a magnitude da
variacao dos resduos esta correlacionada com os valores preditos.
3.1.7 Transformacoes de variaveis
A analise que vimos no topico anterior mostra uma situa cao em que as premissas do modelo
linear foram todas aceitas e o modelo foi bem ajustado. No entando, encontraremos situa coes
em que a estrutura da amostragem, a nao-linearidade ou a estrutura do erro (seguindo uma
distribui cao diferente da normal) exigem a aplica cao de tecnicas especiais mais apropriadas.
Por outro lado, se a estrutura do erro nao e normal, mas segue uma distribui cao esperada
conhecida (como Poisson ou Binomial), podemos utilizar modelos lineares generalizados (fun cao
glm(). Estes, no entando, sao mais complexos que os lineares gerais e nao serao tratados nessa
monograa.
Uma op cao que temos em algumas situacoes e transformar a variavel dependente (ou ambas)
de modo a linearizar a rela cao, normalizar o erro ou homogeneizar as variancias. Uma serie de
transformacoes de dados esta disponvel no R, sendo que uma maneira interessante de determinar
a transforma cao necessaia para o conjunto de dados e a fun cao boxcox(lm). Esta funcao utiliza
um procecimento de estima cao por verossimilhan ca maxima de modo a calcular um valor de
, que dene o tipo de transformacao mais apropriada para a variavel dependente do modelo
linear. Esta transformacao e denida de modo que um valor de = 1 determina que nenhuma
transformacao e necessaria para este conjunto de dados, quando = 0 uma transformacao
logartmica e a melhor opcao, e quando = 0, 5 a transforma cao raiz quadrada e mais indicada.
Podemos acessar a tranformacao Box Cox no R a partir da fun cao boxcox(lm) disponvel
no pacote MASS. Vamos experimentar o procedimento no conjunto de dados que acabamos
de analisar nos capitulos anteriores e ver o resultado. Primeiro e necessario carregar o pacote
[MASS], o qual e instalado junto com o R base:
> library(MASS)
[1] TRUE
Podemos agora utilizar a fun cao boxcox() para calcular o estimado e visualizar o resultado
gracamente, como representado na Figura 18.
> par (mfrow=c(1,2))
> boxcox(gfit)
> boxcox(gfit, lambda=seq(-0.5,1.5,by=0.1))
55
Figura 18: Graco Estimac ao do par ametro pelo metodo de Box-Cox
A Figura 18 sugere que o com maior verossimilhan ca seria um pouco menor que 0, 5. No
entando, percebemos que o 1 encontra-se dentro do intervalo de conan ca de 95%, de modo que
podemos escolher neste caso, nao efetuar nenhuma transforma cao.

E importante nunca efetuar
transformacoes desnecessarias no conjunto de dados, visto que as mesmas dicultam um pouco a
interpretacao dos parametros, modicando a escala das variaveis. Como os gracos diagnosticos
para este exemplo ja mostram linearidade da relacao, normalidade e homoscedasticidade dos
resduos, e melhor optar por nao modicar.

E interessante agora examinar-mos um outro exemplo em que sera interessante mocar a


escala da variavel dependente para linearizar a relacao. Vamos carregar um conjunto de dados
de exemplo chamado gemfish.txt, que apresenta duas variaveis e 242 observa coes, que corres-
pondem a comprimentos de indivduos (variavel Len) de uma especie de peixe autraliana (Rexea
solandri) e o conte udo de merc urio (mg/Kg) em tecidos (variavel Merc). O arquivo relativo a este
conjunto de dados foi obtido no site (http://aerg.canberra.edu.au/envirostats/bm/introduction.htm).
Carregamos o arquivo e visualizamos a dispersao entre o conte udo de merc urio e o comprimento
de peixes:
> gemfish = read.table("gemfish.txt", header=T)
> plot(gemfish$Len,gemfish$Merc, xlab= "Comprimento (cm)", ylab="Concentrac~ao
de mercucio em tecidos (mg/Kg)", pch=16,cex.lab=1.3)
O graco gerado e observado na Figura 19
Pelo diagrama de dispersao mostrado na Figura 19, percebemos que a rela cao entre as duas
variaveis nao e linear. Podemos ajustar um modelo linear aqui, mas ja podemos imaginar que
o resultado nao sera muito satisfatorio:
> summary (lm.gemfish)
56
Figura 19: Graco Diagrama de dispersao entre Comprimento do corpo e concentrac ao
de merc urio
Call:
lm(formula = Merc Len, data = gemfish)
Residuals:
Min 1Q Median 3Q Max
-0.77551 -0.22482 -0.06595 0.13670 1.98830
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.426346 0.105996 -13.46 <2e-16 ***
Endemics 0.027866 0.001318 21.14 < 2e-16 ****
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.364 on 240 degrees of freedom Multiple R-squared:
0.6506, Adjusted R-squared: 0.6492 F-statistic: 446.9 on 1 and 240 DF, p-value:
< 2.2e-16
O resultado e estatisticamente signicativo, no entanto, os gracos de diagnosticos mostram
algum problema, como pode ser obervado na Figura 20.
> par(mfrow=c(2,2), pch=16)
> plot(lm.gemfish)
Na Figura 20, os resduos mostram claramente um padrao de tendencia nao-linear. O graco
57
Figura 20: Graco de diagnostico
normal mostra uma distribui cao de resduos com tendencia assimetrica `a direita (formando
uma curva exponencial positiva). O graco Scale-Location mostra que a heteroscedasticidade
nao chega a ser um problema tao serio e as distancias de Cook nao apresentam nenhum valor
grande demais. Chegamos `a conclusao que este conjunto de dados apresenta um problema de
linearidade. Podemos rodar o estimador de Box-Cox para ver qual seria o valor de mais
apropriado para realizar uma transformacao da variavel dependente:
> par(mfrow=c(1,2))
> boxcox(lm.gemfish)
> boxcox(lm.gemfish, lambda=seq(-0.2,0.1,by=0.01))
O resultado e apresentado na Figura 21.
Nesta gura, o intervalo de conan ca para a estimativa do parametro inclui o 0, que sig-
nicaria uma transformacao logartmica (apesar de nao ser o valor com maior verossimilhan ca).
Como a transformacao logartmica e bastante conhecida, e prefervel utiliza-la, pois sera mais
facil interpretar na escala decimal onde a variavel foi medida.
Na pratica, nao temos como saber se o resduo e aditivo ou multiplicativo. A melhor opcao
e experimentar a transformacao e ver se os resduos passam a atender as premissas do modelo
linear.
58
Figura 21: Graco Estimac ao do par ametro pelo metodo de Box-Cox.
Vamos agora refazer o ajuste do modelo de regressao transformando a variavel Merc em
logaritmos naturais usando a funcao log():
> lm;logfish = lm(log(Merc) Len, gemfish)
> summary(lm.logfish)
Call:
lm(formula = Merc Len, data = gemfish)
Residuals:
Min 1Q Median 3Q Max
-1.07019 -0.21346 -0.01326 0.18690 1.50932
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.166968 0.095181 -43.78 <2e-16 ***
Endemics 0,045279 0.001184 38.25 < 2e-16 ****
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.3268 on 240 degrees of freedom Multiple R-squared:
0.8591, Adjusted R-squared: 0.8585 F-statistic: 1463 on 1 and 240 DF, p-value:
< 2.2e-16
Comparando este ajuste com o previo (sem a transformacao), podemos notar uma diferenca
no coeciente de determinacao (que aumentou de 0,6506 para 0,8591), assim como uma dimi-
nuicao do erro padrao residual. A reta de regressao para os dados transformados em logaritmos,
assim como os intervalos de conanca de predi cao podem ser obtidos como os comandos abaixo
e visualizados na Figura 22.
59
> new.x = data.frame(Len=seq(40,120,by=1))
> pred.logfish = predict(lm.logfish,new.x,interval="confidence")
> plot(gemfish$Len, log(gemfish$Merc), xlab="Comprimento (cm)",
ylab="log(Concentrac~ao de mercurio)", cex.lab=1.3,pch=16)
> abline(lm.logfish,lwd = 2)
> lines(new.x$Len, pred.logfish[,3], lty=2,lwd=2)
> lines (new.x$Len, pred.logfish[,2],lty=2,lwd=2)
Figura 22: Graco Diagrama de dispers ao pelo metodo de Box-Cox.
O graco de diagnosticos para este modelo obtido pelo comando plot(lm.logfish) Figura
23 mostra que a aplicacao do logaritmo linearizou a rela cao entre as variaveis e normalizou os
resdos, fazendo com que os dados atendessem `as premissas do modelo linear. A transformacao
de variaveis deve ser realizada com cautela, principalmente com relacao `a interpretacao direta
dos parametros e `a compara cao de modelos. Em algumas situacoes, a melhor opcao e utilizar
modelos apropriados como o linear generalizado, que nao e foco do nosso trabalho. O modelo
linear da variavel transformada pode ser mais difcil de interpretar, visto que o coeciente de
regressao nos mostra uma taxa de aumento no logaritmo natural da concentracao de merc urio
nos tecidos em relacao ao aumento no tamanho corporal dos peixes e nao temos como inferir
mais nada sobre o processo biologico responsavel pelo ac umulo de merc urio nos tecidos dos
peixes maiores.
Por outro lado, se quisermos fazer um graco com a curva estimada na escala original,
podemos transformar de volta as predi coes, assim como os intervalos de conanca para a escala
decimal, usando a fun cao expe().
No entanto, se o proposito do modelo estatstico for simplesmente a predicao de valores
de concentracao de merc urio a partir do comprimento dos peixes, o modelo com a variavel
60
Figura 23: Graco de diagnostico para o modelo ajustado
transformada funciona muito bem. Existem situacoes em que e necessario tambem modicar a
escala da variavel independente. Neste caso, nao temos como inferir a transformacao otima a
partir do metodo de Box-Cox, e temos que tomar um cuidado especial se estivermos realizando
uma regressao m ultipla, pois as escalas de diferentes variaveis independentes podem requerer
diferentes transformacoes e a comparacao de coecientes de regressao pode ser difcil.
61
4 Conclusao
Diante deste trabalho pode-se concluir que a analise de regressao e de grande valia para areas
onde atividades em que o planejamento do futuro e fundamental, nos dias atuais e impossvel
pensar em analise de regressao sem o uso de computadores devido a complexidade de calculos e
representacoes gracas que sao necesssarias durante as analises.
Apesar do nosso enfoque ter sido, a analise de regressao linear explanando a utilizacao
do software R, nao deixamos de abordar toda a teoria que compoe esta tecnica, pois acredi-
tamos que a utiliza cao de uma ferramenta estatstica sem o aprofundamento teorico de nada
tem serventia, pois o manuseio de um software estatstico deve ter sempre como suporte um
adequado conhecimento das tecnicas estatsticas envolvidas, deve ser feita nao esquecendo-se de
uma ressalva importante: o computador nao raciocina, e nao pode formular julgamentos, jul-
gamento este que podemos armar ser o papel fundamental do estatstico, onde a compreensao
dos princpios da estatstica e pre-requisito `a correta interpretacao de resultados obtidos pelo
software. Alem disso, o aprofundamento de conhecimento sobre o software R ainda e bastante
recente, no entanto o nosso objetivo ao delinear e escrever algo sobre esta tematica foi antes de
tudo, um esforco de familiariza cao com a ferramenta, de modo a explorarmos as potencialidades
e benefcios do mesmo, e deixar nossa contribuicao para estudantes e professores que desejam
conhecer e aplicar a analise de regressao utilizando o software estatstico R.
62
Referencias
ALVES, H.; CUNHA, L. M. Uma introducao a alguns aplicativos, numa abordagem inicial dos
dados. In: . [S.l.]: Software Estatstico, 2006.
CHATTERJEE, S.; BERTRAM, P. . Regression analysis by example. [S.l.: s.n.], 1991.
CURRAL, J. Statistics Packages: A General Overview. [S.l.]: Universidade de Glasgow, 1994.
DMENTA, J. Elementos de Econometria. [S.l.]: Atlas, 1988.
ESTEVES, G. H. Notas de aula. 2008.
FARAWAY, J. J. Linear Models With R. [S.l.]: Chapman and Hall/CRC, 2004.
GUEDES, T.; MARGINS, A. Projeto de ensino - aprender fazendo estatstica. [S.l.]:
Universidade Estadual de Maringa, 2005.
GUJARATI, D. N. Econometria Basica. [S.l.]: .Markron Books, 2000.
HOFFMANN, R. An alise de regressao: Uma Introducao `a Econometria. [S.l.]: Editora Hucitec,
2006.
MATOS, O. C. Econometria Basica - teorias e aplicacoes. [S.l.]: Atlas, 1998.
SILVA SOUZA, G. da. Introdu cao aos Modelos de Regressao Linear e Nao-Linear. [S.l.]:
Embrapa Producao de Informacao, 2001.
TOLEDO, G. L.; ANDRADE MARTINS, G. de; FONSECA, J. S. da. Eststica Aplicada. [S.l.]:
Atlas, 1985.

Das könnte Ihnen auch gefallen