You are on page 1of 45

Introducao

Regressao Linear Simples

CURSO: ESTATISTICA - BACHARELADO


DISCIPLINA: ESTATISTICA COMPUTACIONAL I

Professora Marta

IME - UFG

REGRESSAO LINEAR SIMPLES


Introducao
Regressao Linear Simples

Introducao

Os modelos de regressao constituem uma classe dos metodos


estatsticos que sao utilizados para investigar e modelar a
relacao entre duas ou mais variaveis.
O objetivo basico consiste em fornecer um mecanismo capaz
de fazer previsoes dos valores de uma variavel utilizando
informacoes sobre outras variaveis.
Introducao
Regressao Linear Simples

Introducao

Exemplo: Deseja-se investigar a relacao entre rendimento de


um veculo (milhas por galao; quilometros por litro) e algumas
de suas caractersticas, tais como: peso, numero de
carburadores, numero de cilindros, numero de marchas. Neste
caso, o objetivo do pesquisador e estudar a variavel
rendimento.
Introducao
Regressao Linear Simples

Introducao

Identificamos dois tipos de variaveis: variaveis independentes e


dependentes.
Variaveis dependentes: Mede o fenomeno que se estuda e
que se quer explicar a que se deve a variabilidade deste
fenomeno. Exemplo: Rendimento do veculo (milhas por
galao; quilometros por litro).
Variaveis independentes: Sao aquelas variaveis candidatas a
explicar a variabilidade da variavel dependente. Exemplo:
peso, numero de carburadores, numero de cilindros, numero
de marchas.
Introducao
Regressao Linear Simples

Introducao

Em geral, a variabilidade da variavel dependente nao e


satisfatoriamente explicada por somente uma variavel
independente.
Por outro lado, e interessante se optar por um modelo que
seja simples: que a variabilidade da variavel dependente seja
explicada por poucas, ou apenas uma, variavel indepedente.
Porem, isso nem sempre e possvel.
Introducao
Regressao Linear Simples

Introducao

Exemplo: Se quisessemos estudar o consumo de energia de


residencias, poderamos construir uma relacao simples do tipo
de consumo em funcao do tamanho da casa. No entanto,
provavelmente tamanho da casa nao sera a unica variavel a
influenciar o consumo de energia, outras variaveis tais como:
numero de pessoas residentes na casa, numero de aparelhos
domesticos tambem podem ser importantes.
Neste caso, um modelo envolvendo mais de uma variavel
independente seria mais satisfatorio.
Introducao
Regressao Linear Simples

Introducao

A regressao linear modela a relacao linear existente entre


variavel dependente e variavel independente.
O caso em que utilizamos apenas uma variavel independente e
chamado de modelo de regressao linear simples e quando
usamos mais de uma variavel independente temos o modelo
de regressao linear multipla.
A presenca de relacao linear pode ser evidenciada por duas
ferramentas estatsticas: diagrama de dispersao e teste de
hipotese para o coeficiente de correlacao linear .
Introducao
Regressao Linear Simples

Introducao

diagrama de dispersao: quando, embora, nenhuma curva


simples passar exatamente atraves de todos os pontos, ha
uma forte indicacao de que os pontos repousam
aleatoriamente dispersos em torno de uma linha reta.
Teste de Hipotese para o coeficient de correlacao linear
: fornece evidencias quanto a significancia de uma relacao
linear entre variavel dependente e independente.
Introducao
Regressao Linear Simples

Exemplo 1: Dados mtcars - diagrama de dispersao


rendimento (variavel dependente); peso (variavel
independente) Diagrama de Disperso


30
Rendimento (varivel dependente)


25



20










15


10

2 3 4 5

peso (varivel independente)


Introducao
Regressao Linear Simples

Exemplo 1: Dados mtcars - Teste de correlacao linear


rendimento (variavel dependente); peso (variavel
independente)
>data(mtcars); attach(mtcars)
>cor.test(wt,mpg)
Pearsons product-moment correlation
data: wt and mpg
t = -9.559, df = 30, p-value = 1.294e-10
alternative hypothesis: true correlation is not
equal to 0
95 percent confidence interval:
-0.9338264 -0.7440872
sample estimates:
cor
-0.8676594
Introducao
Regressao Linear Simples

Exemplo 2: Dados mtcars - diagrama de dispersao


rendimento (variavel dependente); relacao do eixo
traseiro(variavel independente)
Diagrama de disperso


30


25


rendimento



20










15


10

3.0 3.5 4.0 4.5 5.0

relao do eixo traseiro


Introducao
Regressao Linear Simples

Exemplo 2: Dados mtcars - Teste de correlacao linear


rendimento (variavel dependente); relacao eixo traseiro
(variavel independente)
>data(mtcars); attach(mtcars)
>cor.test(wt,drat)
Pearsons product-moment correlation
data: wt and drat
t = 5.096, df = 30, p-value = 1.776e-05
alternative hypothesis: true correlation is not
equal to 0
95 percent confidence interval:
0.4360484 0.8322010
sample estimates:
cor
0.6811719
Introducao
Regressao Linear Simples

Exemplo 3
Oito indivduos foram submetidos a um teste sobre conhecimento
de lngua estrangeira e, em seguida, mediu-se o tempo gasto para
cada um aprender a operar uma determinada maquina. Aqui temos
as variaveis X : resultado obtido no teste (maximo 100 pontos) e
Y : tempo, em minutos, necessario para operar a maquina
satisfatoriamente.

Indivduo Resultado do teste (X ) Tempo de operacao de maquina (Y


A 45 343
B 52 368
C 61 355
D 70 334
E 74 337
F 76 381
G 80 345
H 90 375
Introducao
Regressao Linear Simples

Exemplo 3: diagrama de dispersao


tempo operacao maquina (variavel dependente); resultado
do teste (variavel independente)

380
370
360
Tempo

350
340

50 60 70 80 90

Resultado do teste
Introducao
Regressao Linear Simples

Exemplo 3: Teste de correlacao linear


tempo operacao maquina (variavel dependente); resultado
do teste (variavel independente)
>nota.teste<-c(45,52,61,70,74,76,80,90)
>tempo<-c(343,368,355,334,337,381,345,375)
>cor.test(nota.teste,tempo)
Pearsons product-moment correlation
data: nota.teste and tempo
t = 0.6005, df = 6, p-value = 0.5701
alternative hypothesis: true correlation is not
equal to 0
95 percent confidence interval:
-0.5606379 0.8073190
sample estimates:
cor
0.2381005
Introducao
Regressao Linear Simples

O modelo

Observada a presenca de relacao linear entre duas variaveis, o


modelo estatstico que representa esta relacao e:

y = 0 + 1 x + ,  N(0, 2 ) i = 1, ..., n

onde:
y : variavel dependente;
x: variavel independente;
0 = intercepto da reta;
1 = inclinacao da reta;
 = erro aleatorio de y , ou ainda, a perturbacao do modelo.
Introducao
Regressao Linear Simples

O modelo

O objeto do modelo de regressao e prever o valor de y para


um valor fixado de x. Logo, em regressao assume-se como
nossa variavel em estudo a variavel aleatoria y |x. De acordo
com o modelo de regressao, temos:

E [y |x] = E [0 + 1 x + ] = 0 + 1 x + E () = 0 + 1 x.

Var (y |x) = Var (0 + 1 x) + Var () = 0 + 2 = 2 .


Desta maneira, para cada valor de x temos a v.a.
y |x N(0 + 1 x, 2 ).
Introducao
Regressao Linear Simples

O modelo
Introducao
Regressao Linear Simples

O modelo

Para cada valor de x, o valor predito para y , mais eficiente,


e a media de y |x, ou seja

E [y |x] = 0 + 1 x
porem, 0 e 1 sao desconhecidos, sao os parametros do
modelo de regressao linear simples.
E necessario entao estimar os parametros 0 e 1 para realizar
previsoes para y :

y = 0 + 1 x
esta e a chamada reta ajustada da regressao.
Como encontrar a melhor reta ajustada?
Introducao
Regressao Linear Simples

Estimando 0 e 1 : solucao de mnimos quadrados

Os parametros 0 e 1 sao estimados a partir de um conjunto


de dados (amostra) {(yi , xi )}ni=1 . De posse do conjunto de
dados, podemos reescrever o modelo de regressao como:

yi = 0 + 1 xi + i , i N(0, 2 ) i = 1, ..., n
sendo os erros aleatorios i , i = 1, ..., n independentes.
Para cada observacao, i e o erro (desvio) cometido pela
adocao do modelo

i = yi (0 + 1 xi )
Introducao
Regressao Linear Simples

Estimando 0 e 1 : solucao de mnimos quadrados

A quantidade de informacao perdida pela adocao do modelo,


e obtida pela soma dos quadrados dos desvios:
n
X n
X
SQ(0 , 1 ) = 2i = {yi (0 + 1 xi )}2
i=1 i=1

Ponto chave: minimizar a informacao perdida SQ(0 , 1 ). A


solucao de mnimos quadrados 0 e 1 e aquela que torna a soma
de quadrados mnima, esta solucao e:

0 = y 1 x
P
xy nx y
1 = P 2
x nx 2
Introducao
Regressao Linear Simples

Reta ajustada de regressao

A reta estimada ou ajustada de regressao e

y = 0 + 1 x.

Note que cada par de observacoes satisfaz a relacao

yi = 0 + 1 xi + ei , i = 1, 2, . . . , n,

sendo ei = yi yi chamado de resduo.


O resduo descreve o erro no ajuste do modelo para a i-esima
observacao yi .
Introducao
Regressao Linear Simples

Estimando 2

Outro parametro desconhecido em nosso modelo de regressao


e 2 , a variancia do erro .
Os resduos ei = yi yi sao usados no calculo da estimativa
de 2 .
A soma dos quadrados dos resduos e:
n
X n
X
SQRes = ei 2 = (yi yi )2 .
i=1 i=1

Definicao: Um estimador nao-viesado de 2 e


SQRes
2 = .
n2
SQRes
Propriedade: 2
n2 .
Introducao
Regressao Linear Simples

Propriedades dos Estimadores de Mnimos Quadrados

E (1 ) = 1 1 e um estimador nao-viesado da inclinacao


verdadeira 1 .
2
Var (1 ) = Sxx .
E (0 ) = 0 0 e um estimador nao-viesado do intercepto
verdadeiro 0 .
2
P 2
xi
Var (0 ) = nSxx .
2
P 2
x
0 N(0 , nSxx i )
2
1 N(1 , Sxx )
(xi x)2 = Pxi2 nx 2 (exerccio)
P P
OBS: SP
xx =
Sxy = (xi x)(yi y ) = xi yi nx y (exerccio)
Introducao
Regressao Linear Simples

Adequacao do modelo: Testes de Hipoteses na Regressao


Linear Simples

Uma importante parte da verificacao da adequacao de um


modelo de regressao linear e a realizacao de testes de
hipoteses em relacao aos parametros: intercepto e inclinacao
da reta.
Introducao
Regressao Linear Simples

Teste de Hipoteses para 0 e 1

Hipoteses:
H0 : 0 = 00 H1 : 0 6= 00
H1 : 0 > 00
H1 : 0 < 00

H0 : 1 = 10 H1 : 1 6= 10
H1 : 1 > 10
H1 : 1 < 10
Introducao
Regressao Linear Simples

Testes de Hipoteses para 0 e 1

Estatsticas dos Testes:

0 00
1. r tn2
2
P 2
xi
nSxx

1 10
2. q tn2
2
Sxx
Introducao
Regressao Linear Simples

Testes de Hipoteses na Regressao Linear Simples

Um caso especial muito importante de hipoteses e:

H0 : 1 = 0 H1 : 1 6= 0

Essas hipoteses se relacionam a significancia de regressao.


Nao rejeitar H0 : 1 = 0 e equivalente a concluir que nao ha
relacao linear entre x e y ;
Rejeitar H0 : 1 = 0, implica que x e importante para explicar
a variabilidade em y . Ou seja, pode existir uma relacao linear
entre x e y .
Introducao
Regressao Linear Simples

Analise de Variancia (ANOVA): testando a significancia da


regressao

O metodo analise de variancia pode ser usado para testar a


significancia da regressao, ou seja,

H0 : 1 = 0 H1 : 1 6= 0
O procedimento de ANOVA divide a variancia total da
variavel resposta y em dois componentes: um referentes a
variabilidade inerente a regressao (o quanto x explica y ) e
outro inerente a variabilidade do erro (explicacao de y por
outras causas aleatorias).
Introducao
Regressao Linear Simples

Analise de Variancia (ANOVA): testando a significancia da


regressao

Podemos reescrever:

yi y = (yi yi ) + (yi y ) = ei + (yi y )


ou seja,

Desvio Total = Desvio residual + desvio da regressao


Introducao
Regressao Linear Simples

Analise de Variancia (ANOVA): testando a significancia da


regressao
Introducao
Regressao Linear Simples

Analise de Variancia (ANOVA): testando a significancia da


regressao
Temos ainda,
n
X n
X n
X
(yi y )2 = (yi y )2 + (yi yi )2
i=1 i=1 i=1
que denominamos por,
SQTot = SQReg + SQRes
variacao total (SQTot) = variacao explicada (SQReg ) + variacao
nao explicada (SQRes), onde
SQTot = ni=1 (yi y )2 Soma dos quadrados total;
P

SQReg = ni=1 (yi y )2 Soma dos quadrados da


P
regressao;
SQRes = ni=1 (yi yi )2 Soma dos quadrados dos
P
resduos.
Introducao
Regressao Linear Simples

Analise de Variancia (ANOVA): testando a significancia da


regressao

Desta maneira, pode-se propor a estatstica do Teste para


Significancia da Regressao como:
SQReg
Fcalc = F1;n2 ,
SQRes/(n 2)

Rejeitamos H0 : 1 = 0 se Fcalc > f;1,n2 .


Introducao
Regressao Linear Simples

Analise de Variancia (ANOVA): testando a significancia da


regressao

Para auxliar na montagem do teste de significancia da Regressao


linear simples (Teste F), usa-se a tabela ANOVA:

Fonte de Variacao GL SQ QM Fcalc pvalor


QMReg
Regressao 1 SQReg QMReg=SQReg QMRes
P(F > Fcalc )
Resduo n-2 SQRes QMRes= SQRes
n2
= 2
Total n-1 SQTot
Introducao
Regressao Linear Simples

Coeficiente de Determinacao da Regressao (R 2 )

Uma medida muito usada para um modelo de regressao e o


coeficiente de determinacao dado por
SQReg SQRes
R2 = =1 .
SQTot SQTot

R 2 representa a quantidade de variabilidade nos dados que e


explicada ou considerada pelo modelo de regressao: o quanto
a variavel independente x explica a variabilidade de y .
R 2 e um numero pertencente ao intervalo [0, 1] e R 2 = 1
implica que SQRes = 0, ou seja, e o caso do ajuste perfeito.
Introducao
Regressao Linear Simples

Adequacao do modelo: Analise de Resduos

Outra importante parte da verificacao da adequacao de um modelo


de regressao linear e a analise de resduos, verificacao das hipoteses
do modelo referentes ao erro aleatorio (resduos):
Normalidade dos resduos: resduos seguindo uma distribuicao
normal.
Homocedasticidade dos resduos: resduos com mesma
variancia 2 .

 N(0, 2 )
Introducao
Regressao Linear Simples

Adequacao do modelo: Analise de Resduos

Para a normalidade, pode-se realizar um teste de normalidade


(shapiro wilk), e para verificar a homocedasticidade pode-se fazer
um grafico de resduos.

Tipo de Grafico ideal de resduos: os resduos apresentarem-se


distribudos aleatoriamente em torno do zero, sem nenhuma
observacao muito discrepante. Uma caracterstica de normalidade,
e cerca de 95% dos pontos carem na regiao (2, 2).
Introducao
Regressao Linear Simples

Analise de Resduos: Tipos de Graficos de Resduos


Introducao
Regressao Linear Simples

Revisao - Esquema para uma analise de regressao linear

1. Verificar a existencia de relacao linear entre as variaveis x


(independente) e y (dependente):
Diagrama de dispersao;
Teste de Hipotese para o coeficiente de correlacao linear .
2. Ajustar a reta de regressao: calculo das estimativas 0 e 1 e
2 .

y = 0 + 1 x
Introducao
Regressao Linear Simples

Revisao - Esquema para uma analise de regressao linear

3. Calcular coeficiente de determinacao R 2 : quanto a reta de


regressao ajustada explica a variavel dependente y .
4. Analise de Resduos:
Teste de normalidade dos resduos;
Grafico dos Resduos (verificacao de homocedasticidade)
Introducao
Regressao Linear Simples

Revisao - Esquema para uma analise de regressao linear

5. Demais ferramentas a serem usadas:


Realizar previsoes.
Lembre-se: So podemos usar a reta ajustada para fazer
previsao da variavel resposta para valores de x que estejam
contidos entre os valores mnimo e maximo dos dados da
variavel independente x.
Calcular intervalos de confianca e testar os coeficientes 0 e
1 ;
Calcular intervalos de confianca para as previsoes.
Introducao
Regressao Linear Simples

Exerccios

Para os exerccios 1 e 2 (slides a seguir) faca:


1) Os passos 1 a 4 do Esquema para uma analise de regressao
linear.
2) Faca o teste F, usando a tabela ANOVA.
3) Interprete o valor de R 2 . Comente sobre a qualidade das
previsoes pela reta ajustada.
4) Faca o teste H0 : 0 = 0.
Use = 0, 1.
Introducao
Regressao Linear Simples

Exerccio 1
Renda bruta mensal, expressa em numero de salarios mnimos, e
porcentagem da renda bruta anual gasta com assistencia medica
para um conjunto de dez famlias.

Famlia Renda bruta mensal % da renda gasta com saude


A 12 7,2
B 16 7,4
C 18 7,0
D 20 6,5
E 28 6,6
F 30 6,7
G 40 6,0
H 48 5,6
I 50 6,0
J 54 5,5
Introducao
Regressao Linear Simples

Exerccio 2
Numero de anos de servico por numero de clientes de agentes de
uma companhia de seguros.

Agente Anos de servico Numero de clientes


A 2 48
B 3 50
C 4 56
D 5 52
E 4 43
F 6 60
G 7 62
H 8 58
I 8 64
J 10 72
Introducao
Regressao Linear Simples

Demais Exerccios

3. Exerccios das Notas de aula 8 e 9 (arquivos anexos no


SIGAA);
4. Exerccios Texto Regressao (arquivo anexo no SIGAA).
*Os arquivos citados acima apresentam o conteudo teorico do
topico Regressao Linear Simples.