Sie sind auf Seite 1von 92

Regressão Linear Simples

Vı́ctor Hugo Lachos Dávila


hlachos@ime.unicamp.br

Departamento Estatı́stica-IMECC
Universidade Estadual de Campinas
Campinas, São Paulo, Brasil

Regressão Linear Simples – p. 1/6


Objetivos

Estudar a relação linear entre duas variáveis quantitativas.


Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);

Regressão Linear Simples – p. 2/6


Objetivos

Estudar a relação linear entre duas variáveis quantitativas.


Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Renda semanal e despensas de consumo;

Regressão Linear Simples – p. 2/6


Objetivos

Estudar a relação linear entre duas variáveis quantitativas.


Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Renda semanal e despensas de consumo;
Variação dos salarios e taxa de desemprego (Fig 2);

Regressão Linear Simples – p. 2/6


Objetivos

Estudar a relação linear entre duas variáveis quantitativas.


Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Renda semanal e despensas de consumo;
Variação dos salarios e taxa de desemprego (Fig 2);
Demanda dos productos de uma firma e publicidade;

Regressão Linear Simples – p. 2/6


Objetivos

Estudar a relação linear entre duas variáveis quantitativas.


Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Renda semanal e despensas de consumo;
Variação dos salarios e taxa de desemprego (Fig 2);
Demanda dos productos de uma firma e publicidade;
Sob dois pontos de vista:
Explicitando a forma dessa relação: regressão.
Quantificando a força dessa relação: correlação.

Regressão Linear Simples – p. 2/6


Observações

1) Regressão vs Causação
Uma relação estatística por sí propria não implica uma
causação
Para atribuir causação, devemos invocar a alguma
teoría (p.e. econômica)
2) Regressão (AR) vs Correlação (AC)

na AC há tratamento simetrico das variáveis


na AR a variável explanatoria é fixa
na AC presupõe-se que as duas variaveís são
aleatórias
Regressão Linear Simples – p. 3/6
Dados Hipotéticos

Os dados se referem à renda semanal (X) e as despensas


de consumo (Y) (em U S$), de uma população total de 60
familias. As 60 familias foram divididas em 10 grupos de
renda (Fig 3 e 4).
Y 80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
X 70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
Total 325 462 445 707 678 750 685 1043 966 1211
E(Y|X) 65 77 89 101 113 125 137 149 161 173
Regressão Linear Simples – p. 4/6
Função de Regressão Populacional

É razoável supor que a média da variável aleatória Y , está


relacionada com X pela seguinte relação

E(Y |X = x) = µY |x = β0 + β1 x

onde βo e β1 , são respectivamente, o intercepto e a


inclinação da reta e recebem o nome de coeficientes de
regressão.

Regressão Linear Simples – p. 5/6


Função de Regressão Populacional

É razoável supor que a média da variável aleatória Y , está


relacionada com X pela seguinte relação

E(Y |X = x) = µY |x = β0 + β1 x

onde βo e β1 , são respectivamente, o intercepto e a


inclinação da reta e recebem o nome de coeficientes de
regressão.
Cada valor individual Yi será determinado pelo valor médio
da função linear (µY |x ) mais um termo que representa um
erro aleatório,

Regressão Linear Simples – p. 5/6


Função de Regressão Populacional

É razoável supor que a média da variável aleatória Y , está


relacionada com X pela seguinte relação

E(Y |X = x) = µY |x = β0 + β1 x

onde βo e β1 , são respectivamente, o intercepto e a


inclinação da reta e recebem o nome de coeficientes de
regressão.
Cada valor individual Yi será determinado pelo valor médio
da função linear (µY |x ) mais um termo que representa um
erro aleatório,
Yi = µY |x + εi = β0 + β1 xi + εi ,

onde εi é o erro estocástico que satisfaz E(εi |xi ) = 0


Regressão Linear Simples – p. 5/6
Em geral, a variável resposta pode estar relacionada com
k variáveis explicativas X1 , . . . Xk obedecendo à equação :

Y = β0 + β1 X1 + . . . + βk Xk + ε,

A equação é denominada modelo de regressão linear


múltipla.

Regressão Linear Simples – p. 6/6


Em geral, a variável resposta pode estar relacionada com
k variáveis explicativas X1 , . . . Xk obedecendo à equação :

Y = β0 + β1 X1 + . . . + βk Xk + ε,

A equação é denominada modelo de regressão linear


múltipla.
O adjetivo "linear"é usado para indicar que o modelo é
linear nos parâmetros β1 , . . . , βk e não porque Y é função
linear dos X’s. Por exemplo, uma expressão da forma
Y = βo + β1 log X1 + β2 X23 + ε é um modelo de regressão
linear múltipla, mas o mesmo não acontece com a
equação Y = β0 + β1 X1β2 + β3 X22 + ε.
Regressão Linear Simples – p. 6/6
Significado do erro estocástico

Caráter vago da teoria


Falta de dados disponíveis
Variávies essenciais vs variáveis periféricas
Caráter aleatório da natureza
Principio da parcimônia
Forma funcional equivocada

Regressão Linear Simples – p. 7/6


Função de Regressão Amostral(FRA)

A tarefa agora é estimar a FRP com base em informações


amostrais

Yi = Ybi + εbi = βb0 + βb1 Xi + εbi , i = 1, . . . , n,

onde βb0 e βb1 são estimadores de β0 e β1 , respectivamente


e εbi = Yi − Ybi a componente residual (Fig 5). Precisamos
formular uma regra ou método que torne tal aproximação o
mais próximo possível!

Exercicio: Resolva o problema 2.16 do livro texto.

Regressão Linear Simples – p. 8/6


Estimação: Método de MQO

Suponha que tem-se n pares de observações amostrais


(x1 , y1 ), . . . , (xn , yn ). A soma de quadrados dos desvios
das observações em relação à FRA é:
n
X n
X
Q= εb2i = (yi − βb0 − βb1 xi )2 .

O método de mínimos quadrados ordinarios (MQO)


escolhe βb1 e βb2 (únicos) de forma que, para qualquer
amostra, Q é o menor possível. Após uma simple algebra
tem-se

Regressão Linear Simples – p. 9/6


n
X n
X
(1) β̂0 + β̂1 xi = yi
i=1 i=1
n
X Xn Xn
β̂0 xi + β̂1 x2i = xi y i .
i=1 i=1 i=1

As equações (1) recebem o nome de equações normais


de mínimos quadrados.

Regressão Linear Simples – p. 10/6


A solução dessas equações fornece os EMQ, β̂0 e β̂1 ,
dados por:

β̂0 = ȳ − β̂1 x̄.


P
n
 P
n

n
P x i y i
xi y i − i=1
n
i=1

i=1
β̂1 = P
n
2 .
n
P xi
x2i − i=1
n
i=1

P
n
x
P
n
y
i i
onde x̄ = i=1
n
e ȳ = i=1
n
.

Regressão Linear Simples – p. 11/6


Notações especiais

P
n
2
X
n X
n
i=1
xi X
n
Sxx = (xi − x̄)2 = x2i − = x2i − nx̄2 ,
n
i=1 i=1 i=1
P
n
P
n

X
n X
n X
n x
i=1
y
i
i=1
i
Sxy = (xi − x̄)(yi − ȳ) = (xi − x̄)yi = xi yi −
i=1 i=1 i=1
n
Xn
= xi yi − nx̄ȳ,

P 2
i=1
n
X
n X
n X
n
i=1
yi
X
n
Syy = (yi − ȳ)2 = (yi − ȳ)yi = yi2 − = yi2 − nȳ 2 .
i=1 i=1 i=1
n i=1

Os EMQ de β0 e β1 em termos da notação acima são:

, ybi − ȳ = βb1 (xi − x̄).


Sxy
β̂0 = ȳ − β̂1 x̄, β̂1 =
Sxx Regressão Linear Simples – p. 12/6
Observaçoes sobre os EMQ

Os EMQ dependem só de quantidades observáveis


São estimadores pontuais
A linha de regressão amostral é facilmente obtida

Ybi = βb0 + βb1 Xi

ǫi é zero
O valor médio do resíduo b
ǫi são não correlacionados com Xi e Ybi .
Os residuos b

Regressão Linear Simples – p. 13/6


Exemplo 1

O gerente de uma cadeia de supermercados deseja


desenvolver um modelo com a finalidade de estimar as
vendas médias semanais (em milhares de dólares)
Y - Vendas semanais; e
X - Número de clientes.
Estas variáveis foram observadas em 20 supermercados
escolhidos aleatóriamente.
X 907 926 506 741 789 889 874 510 529 420
Y 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12
X 679 872 924 607 452 729 794 844 1010 621
Y 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41

Regressão Linear Simples – p. 14/6


Aplicação

Considerando os dados do exemplo 1

n = 20
X
n
xi = 907 + 926 + . . . + 621 = 14.623; x̄ = 731, 15
i=1
Xn
yi = 11, 20 + 11, 05 + . . . + 7, 41 = 176, 11; ȳ = 8, 8055
i=1
Xn
x2i = (907)2 + (926)2 + . . . + (621)2 = 11.306.209
i=1
Xn
yi2 = (11, 20)2 + (11, 05)2 + . . . + (7, 41)2 = 1.602, 0971
i=1
X
n
xi yi = (907)(11, 20) + (11, 05)(926) . . . + (7, 41)(621) = 134.127, 90
i=1

Regressão Linear Simples – p. 15/6


X
n
Sxx = x2i − n(x̄)2 = 11.306.209 − 20(731, 15)2 = 614.603
i=1
Xn
Sxy = xi yi − n(x̄)(ȳ) = 134.127, 90 − 20(8, 8055)(731, 15) = 5.365, 08
i=1
Xn
Syy = yi2 − n(ȳ)2 = 1.609, 0971 − 20(8, 8055) = 51, 3605.
i=1

As estimativas dos parâmetros do MRLS são:

Sxy 5.365, 08
β̂1 = = = 0, 00873; β̂0 = ȳ−β̂1 x̄ = 8, 8055−(0, 00873)(731, 15) = 2, 423
Sxx 614.603

Portanto, a linha de regressão ajustada ou estimada para esses dados são:

ŷ = 2, 423 + 0, 00873x.

Regressão Linear Simples – p. 16/6


11
10
Vendas semanais

9
8
7
6

400 500 600 700 800 900 1000

Numero de clientes
Regressão Linear Simples – p. 17/6
Suponha que tem-se interesse em prever as vendas
semanais para um supermercado com 600 clientes.
No modelo de regressão ajustado basta substituir
X = 600, ísto é,

ŷ = 2, 423 + (0, 00873)(600) = 7, 661.

Regressão Linear Simples – p. 18/6


Suponha que tem-se interesse em prever as vendas
semanais para um supermercado com 600 clientes.
No modelo de regressão ajustado basta substituir
X = 600, ísto é,

ŷ = 2, 423 + (0, 00873)(600) = 7, 661.

A venda semanal de 7,661 mil dólares pode ser


interpretada com uma estimação da venda média semanal
verdadeira dos supermercados com X = 600 clientes,

Regressão Linear Simples – p. 18/6


Suponha que tem-se interesse em prever as vendas
semanais para um supermercado com 600 clientes.
No modelo de regressão ajustado basta substituir
X = 600, ísto é,

ŷ = 2, 423 + (0, 00873)(600) = 7, 661.

A venda semanal de 7,661 mil dólares pode ser


interpretada com uma estimação da venda média semanal
verdadeira dos supermercados com X = 600 clientes, ou
como uma estimação de uma futura venda de um
supermercado quando o número de clientes for X = 600.

Regressão Linear Simples – p. 18/6


Suposições do método de MQO

(i) E(ε|X) = 0, V ar(ε|X) = σ 2 (desconhecido).


(ii) Os erros são não correlacionados
(iii) A variável explicativa X é controlada pelo
experimentador.
(iv) o modelo de regressão esta especificado da forma
correta
(v) n> número de variáveis explanatorias
(iv) não ha multicolinearidade perfeita

Regressão Linear Simples – p. 19/6


Propriedades dos EMQ

Se as suposições do método de MQO são válidas, então


σ2
E(β̂1 ) = β1 , V ar(β̂1 ) = Sxx
= σβ2b .
1
h i
1 x̄2
E(β̂0 ) = β0 , V ar(β̂0 ) = σ 2 n
+ Sxx
= σβ2b .
0

σ 2 x̄
Cov(β̂0 , β̂1 ) = − Sxx
Exercicio 2.

Regressão Linear Simples – p. 20/6


Estimação de σ 2

Os resíduos,
ei = yi − ŷi
são empregados na estimação de σ 2 . A soma de
quadrados residuais ou soma de quadrados dos erros,
denotado por SQR é:
n
X n
X
SQR = e2i = (yi − ŷi )2
i=1 i=1

Pode-se demonstrar que o valor esperado da soma de


quadrados dos residuais SQR, é dado por:(Exercício 3)

E(SQR) = (n − 2)σ 2
Regressão Linear Simples – p. 21/6
Portanto, um estimador não viciado de σ 2 , é

ˆ2
SQR
σ = = QM R (Quadrado médio residual),
n−2
Uma fórmula mais conveniente para o cálculo da SQR é
dada por:
SQR = Syy − β̂1 Sxy .
A estimativa de σ 2 para o exemplo 1.

ˆ2
SQR Syy − β̂1 Sxy
σ = =
n−2 n−2
51, 3605 − (0, 00873)(5.365, 08)
= = 0, 2513.
20 − 2 Regressão Linear Simples – p. 22/6
Previsão

Seja xp o valor para o qual deseja-se prever (ou projetar) o


valor médio E(Y |xp ) e o valor individual de Y .
- Previsão média
Ybi é um estimador não viciado de E[Y |xp ], dado que

E(Ybi ) = E(β̂0 + β̂1 xp ) = β0 + β1 xp = E(Y |xp )


(xi −x̄)2
V ar(Ybi ) = σ 2 [ n1 + sxx
]
- Previsão individual (Exercicio 4.)
(xi −x̄)2
V ar(Ybpart ) = σ 2 [1 + 1
n
+ sxx
]

Na pratica sustituimos σ 2 (desconhecido), pelo estimador


b2
Regressão Linear Simples – p. 23/6
consistente σ
Coeficiente de Determinação (r2 )

O r2 é uma medida de qualidade do ajustamento. No caso


de regressão linear simples o coeficiente de determinação
é o quadrado do coeficiente de correlação.(Fig 6)

(Yi − Ȳ ) = (Yi − Ŷi − Ȳ + Ŷi )


n
X Xn n
X
(Yi − Ȳ )2 = (Ŷi − Ȳ )2 + (Yi − Ŷi )2
i=1 i=1 i=1
SQT = SQM + SQR

2
SQM SQR 2 SQM s xy
1 = + ⇒r = =
SQT SQT SQT sxx syy

Regressão Linear Simples – p. 24/6


Teorema de Gauss-Markov

Se as suposições MQO são satisfeitas, os EMQ da classe


de estimadores lineares não viesados têm variância
mínima, isto é, são os melhores estimadores lineares não
viesados. (Prova)
Para que normalidade?
A estimação é a metade do caminho, a outra metade é
teste se hipóteses, para isto, suposições adicionais são
necessárias.
uma alternativa é considerar tamanhos de amostra o
suficientemente grandes (estimação de máxima
verossimilhança)
a outra é supor que ǫi ∼ N (0, σ 2 ) (O modelo de
regressão normal simple clássico)
Regressão Linear Simples – p. 25/6
Propiedades dos EMQ sob Normalidade

A justificão teórica da premissa de normalidade é o TLC


n
X n
X
β1 = ki Yi = ki (β1 + β2 xi + ǫi ) ∼ N (.)
i=1 i=1

βb0 ∼ N (β0 , σβ2b ), βb1 ∼ N (β1 , σβ2b ),


0 1

σ 2 /σ 2 ∼ χ2 (n − 2)
(n − 1)b
A distribuição de βb0 e βb1 é independente de σ
b2
(Exercicio 5.)
βb0 e βb1 têm variância mínima dentro de toda classe dos
estimadores não viesados, sejam ou não lineares (Rao)

Yi |Xi ∼ N (β0 + β1 Xi , σ 2 ) Regressão Linear Simples – p. 26/6


Teste de hipóteses sobre β1

Suponha que se deseje testar a hipótese de que a


inclinação é igual a uma constante representada por β1,0 .
As hipóteses apropriadas são:

H0 : β1 = β1,0 , vs H1 : β1 6= β1,0

A estatística
β̂1 − β1,0
T =p ,
2
σ̂ /Sxx
tem distribuição t-Student com n − 2 graus de liberdade
sob H0 : β1 = β1,0 . Rejeita-se H0 se

|Tobs | > tα/2, n−2 .


Regressão Linear Simples – p. 27/6
Teste de hipóteses sobre β0

H0 : β0 = β0,0 , vs H1 : β0 6= β0,0

A estatística
β̂0 − β0,0
T =q
x̄2
σ̂ 2 [ n1 + Sxx
]

que tem distribuição t-Student com n − 2 graus de


liberdade. Rejeitamos a hipóteses nula se |Tobs | > tα/2, n−2 .

Regressão Linear Simples – p. 28/6


Teste de significância do MRLS

H0 : β1 = 0, vs H1 : β1 6= 0,

Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir que


não há nenhuma relação linear entre X e Y.

Regressão Linear Simples – p. 29/6


Se H0 : β1 = 0 é rejeitado, implica que X tem importância
para explicar a variabilidade de Y

Regressão Linear Simples – p. 30/6


Exemplo

Teste de significância para o MRLS para os dados do


exemplo 1, com α = 0, 05.
As hipóteses são H0 : β1 = 0, vs H1 : β1 6= 0
Do exemplo tem-se:

β̂1 = 0, 00873, n = 20 Sxx = 614, 603, σ̂ 2 = 0, 2512,

De modo que a estatística de teste, é:

β̂1 0, 00873
Tobs = p =p = 13, 65.
σ̂ 2 /Sxx 0, 2513/614.603

Como Tobs = 13, 65 > t0,03,18 = 2, 101, rejeita-se a hipótese


H0 : β1 = 0.
Regressão Linear Simples – p. 31/6
Análise de variância

Se a hipótese nula H0 : β1 = 0 é verdadeira, a estatística

SQM/1 QM reg
F = = ∼ F (1, n − 2),
SQR/(n − 2) QM R

Portanto, rejeita-se H0 se F0bs > Fα, 1, n−2 .


As quantidades
QM reg = SQM 1
, (quadrado médio devido à regressão) e
SQR
QM R = (n−2) ( quadrado médio residual)

Regressão Linear Simples – p. 32/6


Tabela de ANOVA

Fonte de Soma de Graus de Quadrado


variação Quadrados Liberdade Médio F
QM reg
Regressão SQM 1 QM reg QM R
Residual SQR n−2 QM R
Total SQT n−1

Regressão Linear Simples – p. 33/6


Tabela de ANOVA

Fonte de Soma de Graus de Quadrado


variação Quadrados Liberdade Médio F
QM reg
Regressão SQM 1 QM reg QM R
Residual SQR n−2 QM R
Total SQT n−1
Exemplo: o procedimento de análise de variância para
testar se de fato existe relação linear entre o número de
clientes (X) e as vendas semanais (Y), no modelo
proposto para os dados do exemplo 1. Relembre que
Syy = 51, 3605, β̂1 = 0, 00873, Sxy = 5.365, 08 e n = 20.

Regressão Linear Simples – p. 33/6


A soma de quadrados da regressão é

SQM = β̂1 Sxy = (0, 00873)(5.365, 08) = 46, 8371

enquanto a soma de quadrados dos residuais é:

SQR = SQT − β̂1 Sxy = 51, 3605 − 46, 8371 = 4, 5234

Regressão Linear Simples – p. 34/6


A soma de quadrados da regressão é

SQM = β̂1 Sxy = (0, 00873)(5.365, 08) = 46, 8371

enquanto a soma de quadrados dos residuais é:

SQR = SQT − β̂1 Sxy = 51, 3605 − 46, 8371 = 4, 5234

A ANOVA para testar H0 : β1 = 0. Nesse caso, a


estatística de teste é
F0bs = QM reg/QM R = 46, 837148/0, 2512 = 186, 4536.

Regressão Linear Simples – p. 34/6


A soma de quadrados da regressão é

SQM = β̂1 Sxy = (0, 00873)(5.365, 08) = 46, 8371

enquanto a soma de quadrados dos residuais é:

SQR = SQT − β̂1 Sxy = 51, 3605 − 46, 8371 = 4, 5234

A ANOVA para testar H0 : β1 = 0. Nesse caso, a


estatística de teste é
F0bs = QM reg/QM R = 46, 837148/0, 2512 = 186, 4536.

Como Fobs = 186, 4536 > F0,05,1,18 = 4, 41 rejeita-se H0 , ao


nível de significância de 5%.
Regressão Linear Simples – p. 34/6
Tabela de ANOVA para Ex. 1

Fonte de Soma de Graus de Quadrado


variação Quadrados Liberdade Médio F
Regressão 46, 8371 1 46, 8371 186,45
Residual 4, 5234 18 0, 2513
Total 51, 3605 19

Regressão Linear Simples – p. 35/6


Intervalo de confiança para β0 e β1

Se para o MRLS é válida a suposição de que os


εi ∼ N ID(0, σ 2 ), então

s
p 1 x̄2
(β̂1 − β1 )/ QM R/Sxx e (β̂0 − β0 )/ QM R[ + ]
n Sxx

são variáveis aleatórias com distribuição t-Student com


n − 2 graus de liberdade.
Um intervalo de 100(1 − α)% de confiança para β1 :
r r !
QM R QM R
IC(β1 ; 1−α) = β̂1 − t α2 , n−2 ; β̂1 + t α2 , n−2
Sxx Sxx
Regressão Linear Simples – p. 36/6
De modo similar, um intervalo de 100(1 − α)% de confiança
para β0 é dado por:

s
1 x̄2
IC(β0 ; 1 − α) = β̂0 − t α2 , n−2 QM R[ + ]
n Sxx
s !
1 x̄2
β̂0 + t α2 , n−2 QM R[ + ]
n Sxx

A seguir é obtido um intervalo de 95% de confiança para a


inclinação do MRLS com os dados do exemplo 1,

Regressão Linear Simples – p. 37/6


Relembre que n = 20, β̂1 = 0, 00873, Sxx = 614, 603 e
QM R = 0, 2513. Para 1 − α = 0, 95, tem-se t0,025, 18 = 2, 101.

IC(β1 ; 0, 95) = (β̂1 − E ; β̂1 + E)


q q
E = t0,025,18 QM
Sxx
R
= 2, 101 0,2513
614.603
= 0, 00134

IC(β1 ; 0, 95) = (0, 00873 − 0, 00134; 0, 00873 + 0, 00134)


= (0, 00739; 0, 01007)

Regressão Linear Simples – p. 38/6


Intervalo de confiança para resposta
média

O interesse consiste em estimar um intervalo de confiança


para
E(Y |X = x0 ) = µY |x0 = β0 + β1 x0 .
Um estimador pontual de µY |x0 é

µ̂Y |xo = Ŷ = β̂0 + β̂1 x0 .

Se εi ∼ N ID(0, σ 2 ) é válida, pode-se demonstrar

µ̂Y |xo − µY |xo


T =r h i ∼ t(n − 2)
1 (x0 −x̄)2
QM R n + Sxx

Regressão Linear Simples – p. 39/6


Int. conf. 100(1 − α)% para µY |x0


IC(µ̂Y |x ; 1 − α) = µ̂Y |xo − E; µ̂Y |xo + E
q
(x0 −x̄)2
onde E = t α
2
, n−2 QM R[ n1 + Sxx
]
Exemplo: Suponha que tem-se interesse em construir um
intervalo de 95% de confiança da venda, média, semanal
para todos supermercados com 600 clientes.

Regressão Linear Simples – p. 40/6


Int. conf. 100(1 − α)% para µY |x0


IC(µ̂Y |x ; 1 − α) = µ̂Y |xo − E; µ̂Y |xo + E
q
(x0 −x̄)2
onde E = t α
2
, n−2 QM R[ n1 + Sxx
]
Exemplo: Suponha que tem-se interesse em construir um
intervalo de 95% de confiança da venda, média, semanal
para todos supermercados com 600 clientes.
No modelo ajustado µ̂Y |x0 = 2, 423 + 0, 00873x0 . Para
x0 = 600, obtém-se µ̂Y |x0 = 7, 661.

Regressão Linear Simples – p. 40/6


Int. conf. 100(1 − α)% para µY |x0


IC(µ̂Y |x ; 1 − α) = µ̂Y |xo − E; µ̂Y |xo + E
q
(x0 −x̄)2
onde E = t α
2
, n−2 QM R[ n1 + Sxx
]
Exemplo: Suponha que tem-se interesse em construir um
intervalo de 95% de confiança da venda, média, semanal
para todos supermercados com 600 clientes.
No modelo ajustado µ̂Y |x0 = 2, 423 + 0, 00873x0 . Para
x0 = 600, obtém-se µ̂Y |x0 = 7, 661. Também,
x̄ = 731, 15, QM R = 0, 2513, Sxx = 614.603, n = 20
e 1 − α = 0, 95 ⇒ t0,05,18 = 2, 101.

Regressão Linear Simples – p. 40/6


Int. conf. 100(1 − α)% para µY |x0


IC(µ̂Y |x ; 1 − α) = µ̂Y |xo − E; µ̂Y |xo + E
q
(x0 −x̄)2
onde E = t α
2
, n−2 QM R[ n1 + Sxx
]
Exemplo: Suponha que tem-se interesse em construir um
intervalo de 95% de confiança da venda, média, semanal
para todos supermercados com 600 clientes.
No modelo ajustado µ̂Y |x0 = 2, 423 + 0, 00873x0 . Para
x0 = 600, obtém-se µ̂Y |x0 = 7, 661. Também,
x̄ = 731, 15, QM R = 0, 2513, Sxx = 614.603, n = 20
e 1 − α = 0, 95 ⇒ t0,05,18 = 2, 101.
q
1 (600−731,15)2
E = 2, 101 0, 2513[ 20 + 614.603 ] = 0, 292
Regressão Linear Simples – p. 40/6
IC(µY |x0 ; 0, 95) = (7, 661 − 0, 292; 7, 661 + 0, 292)
= (7, 369; 7, 935)

Regressão Linear Simples – p. 41/6


Previsão de novas observações

Uma aplicação muito importante de um modelo de


regressão é a previsão de novas ou futuras observações
de Y, (Y0 ) correspondente a um dado valor da variável
explicativa X, x0 , então

Yˆ0 = β̂0 + β̂1 x0

é o melhor estimador pontual de Y0 .


Um intervalo de 100(1 − α)% de confiança para uma futura
observação é dado por:

IC(Y0 ; 1 − α) = (Ŷ − E; Ŷ + E)
q
1 (x0 −x̄)2
onde E = t 2 , n−2 QM R[1 + n + Sxx ]
α

Regressão Linear Simples – p. 42/6


Exemplo

Suponha agora, tem-se interesse em encontrar um


intervalo de previsão de 95% das vendas semanais de um
supermercado com 600 clientes.
Considerando os dados do exemplo 1, Ŷ = 7, 661 e o
intervalo de predição é:
q
1 (600−731,15)2
E = 2, 101 0, 2513[1 + 20 + 614.603 ] = 1, 084

IC(Y0 ; 0, 95) = (7, 661 − 1, 084; 7, 661 + 1, 084)


= (6, 577; 8, 745).

Regressão Linear Simples – p. 43/6


Bandas de confiança do 95% para µY |x0 (CI) e
Y0 (ICP)

Regressão Linear Simples – p. 44/6


Adequação do modelo de regressão

Análise residual,

Regressão Linear Simples – p. 45/6


Adequação do modelo de regressão

Análise residual,
Coeficiente de determinação

Regressão Linear Simples – p. 45/6


Adequação do modelo de regressão

Análise residual,
Coeficiente de determinação

Os resíduos de um modelo de regressão são definidos


como
ei = yi − ŷi , i = 1, . . . , n
onde yi é uma observação real de Y e ŷi é o valor
correspondente estimado através do modelo de regressão.

Regressão Linear Simples – p. 45/6


Adequação do modelo de regressão

Análise residual,
Coeficiente de determinação

Os resíduos de um modelo de regressão são definidos


como
ei = yi − ŷi , i = 1, . . . , n
onde yi é uma observação real de Y e ŷi é o valor
correspondente estimado através do modelo de regressão.
Resíduos padronizados
ei
di = √ , i = 1, . . . , n
QM R

Regressão Linear Simples – p. 45/6


Adequação do modelo de regressão

Análise residual,
Coeficiente de determinação

Os resíduos de um modelo de regressão são definidos


como
ei = yi − ŷi , i = 1, . . . , n
onde yi é uma observação real de Y e ŷi é o valor
correspondente estimado através do modelo de regressão.
Resíduos padronizados
ei
di = √ , i = 1, . . . , n
QM R

Regressão Linear Simples – p. 45/6


Regressão Linear Simples – p. 46/6
Gráfico de resíduos do exemplo 1

Regressão Linear Simples – p. 47/6


Exemplo: Coeficiente de
Determinação

Para os dados dos supermercados do exemplo1,


determinar R2 .

Regressão Linear Simples – p. 48/6


Exemplo: Coeficiente de
Determinação

Para os dados dos supermercados do exemplo1,


determinar R2 . Da definição tem-se:

2 SQM 46, 8371


R = = = 0, 912
SQT 51, 3605

Regressão Linear Simples – p. 48/6


Exemplo: Coeficiente de
Determinação

Para os dados dos supermercados do exemplo1,


determinar R2 . Da definição tem-se:

2 SQM 46, 8371


R = = = 0, 912
SQT 51, 3605

Esse resultado significa que o modelo ajustado explicou


91,2% da variação na variável resposta Y (vendas
semanais). Isto é, 91,2% da variabilidade de Y é explicada
pela variável regressora X (número de clientes).

Regressão Linear Simples – p. 48/6


Analise de Correlação

Suponha que se deseja desenvolver um modelo de


regressão que relacione a resistência ao corte dos pontos
de soldadura com o diâmetro dos mesmos. Neste caso,
não é possível controlar o diâmetro de soldadura. O que
pode ser feito é selecionar ao acaso n pontos de
soldadura e observar o diâmetro (Xi ) e a resistência ao
corte (Yi ) de cada um deles. Portanto, (Xi , Yi ) são
variáveis aleatórias distribuídas de maneira conjunta.

Regressão Linear Simples – p. 49/6


Suponha que a distribuição conjunta de Xi e Yi tenha uma
distribuição normal bivariada cuja função de densidade é
dada por

Regressão Linear Simples – p. 50/6


Suponha que a distribuição conjunta de Xi e Yi tenha uma
distribuição normal bivariada cuja função de densidade é
dada por
( " 2
1 1 x − µ1
f (x, y) = p exp 2
+
2πσ1 σ2 1 − ρ 2 2(1 − ρ ) σ1
 2   #)
y − µ2 x − µ1 y − µ2
− 2ρ
σ2 σ1 σ2

Regressão Linear Simples – p. 50/6


Suponha que a distribuição conjunta de Xi e Yi tenha uma
distribuição normal bivariada cuja função de densidade é
dada por
( " 2
1 1 x − µ1
f (x, y) = p exp 2
+
2πσ1 σ2 1 − ρ 2 2(1 − ρ ) σ1
 2   #)
y − µ2 x − µ1 y − µ2
− 2ρ
σ2 σ1 σ2

onde µ1 e σ12 são a média e variância de X e µ2 e σ22 são a


média e variância de Y e, ρ é coeficiente de correlação entre X
e Y.
Regressão Linear Simples – p. 50/6
A densidade condicional de Y para um valor dado X = x é
dado por (exercicio 5.)
 !2 
1  1 y −β −β x 
i 0 1
f (y|x) = √ exp −
2πσY |x  2 σY2 |x 

Regressão Linear Simples – p. 51/6


A densidade condicional de Y para um valor dado X = x é
dado por (exercicio 5.)
 !2 
1  1 y −β −β x 
i 0 1
f (y|x) = √ exp −
2πσY |x  2 σY2 |x 

onde β0 = µ2 − µ1 ρ σσ21 , β1 = σ2
σ1
ρ e σY2 |x = σ22 (1 − ρ2 )

Regressão Linear Simples – p. 51/6


A densidade condicional de Y para um valor dado X = x é
dado por (exercicio 5.)
 !2 
1  1 y −β −β x 
i 0 1
f (y|x) = √ exp −
2πσY |x  2 σY2 |x 

onde β0 = µ2 − µ1 ρ σσ21 , β1 = σσ21 ρ e σY2 |x = σ22 (1 − ρ2 )


A distribuição condicional de Y dado X = x é normal com
média
E(Y |X = x) = β0 + β1 x
e variância σY2 |x .

Regressão Linear Simples – p. 51/6


Estimadores de β0 , β1 e ρ

β̂0 = Ȳ − β̂1 X̄

Regressão Linear Simples – p. 52/6


Estimadores de β0 , β1 e ρ

β̂0 = Ȳ − β̂1 X̄
Pn Y (X −X̄)
β̂1 = Pi=1
n
i i
(Xi −X̄)2
= SXY
SXX
i=1

Regressão Linear Simples – p. 52/6


Estimadores de β0 , β1 e ρ

β̂0 = Ȳ − β̂1 X̄
Pn Y (X −X̄)
β̂1 = Pi=1
n
i i
(Xi −X̄)2
= SXY
SXX
i=1

P
n
Y (X −X̄)
i i
ρ̂ = r = s P
n
i=1
P
n
= √ SXY
SXX SY Y
(X −X̄)2i (Y −Ȳ )2 i
i=1 i=1

Regressão Linear Simples – p. 52/6


Estimadores de β0 , β1 e ρ

β̂0 = Ȳ − β̂1 X̄
Pn Y (X −X̄)
β̂1 = Pi=1
n
i i
(Xi −X̄)2
= SXY
SXX
i=1

P
n
Y (X −X̄)
i i
ρ̂ = r = s P
n P
n
i=1
= √ SXY
SXX SY Y
(X −X̄)2 (Y −Ȳ )2
i i
i=1 i=1

 1/2
SY Y
β̂1 = SXX
r

Regressão Linear Simples – p. 52/6


Teste de hipóteses

H0 : ρ = 0 vs H1 : ρ 6= 0
A estatística de teste apropriada é

r n−2 ∼
T = √ sob H0 t(n − 2)
1−r 2

Regressão Linear Simples – p. 53/6


Teste de hipóteses

H0 : ρ = 0 vs H1 : ρ 6= 0
A estatística de teste apropriada é

r n−2 ∼
T = √ sob H0 t(n − 2)
1−r 2

A hipótese nula deverá ser rejeitada se |Tobs | ≥ tα/2, n−2 .


Esse teste é equivalente ao teste de hipóteses H0 : β1 = 0.

Regressão Linear Simples – p. 53/6


H0 : ρ = ρ0 vs H1 : ρ 6= ρ0
onde ρ0 6= 0.

Regressão Linear Simples – p. 54/6


H0 : ρ = ρ0 vs H1 : ρ 6= ρ0
onde ρ0 6= 0.
Para amostras de tamanho moderado grande (n ≥ 30), a
estatística

Regressão Linear Simples – p. 54/6


H0 : ρ = ρ0 vs H1 : ρ 6= ρ0
onde ρ0 6= 0.
Para amostras de tamanho moderado grande (n ≥ 30), a
estatística
1 1+r
Zr = arctanh r = ln
2 1−r
tem distribuição aproximadamente normal com média
1 1+ρ
µZr = arctanh ρ = ln
2 1−ρ

e variância σZ2 r = (n − 3)−1 .


Regressão Linear Simples – p. 54/6
A estatística de teste apropriada é:

Z = (arctanh r − arctanh ρ0 ) (n − 3)1/2 .

Regressão Linear Simples – p. 55/6


A estatística de teste apropriada é:

Z = (arctanh r − arctanh ρ0 ) (n − 3)1/2 .

Se H0 : ρ = ρ0 é verdadeira, a estatística Z tem,


aproximadamente, distribuição normal padrão. Portanto,
H0 deverá ser rejeitada se |Zobs | ≥ zα/2 .

Regressão Linear Simples – p. 55/6


Intervalo de confiança para ρ

Um intervalo aproximado de 100(1 − α)% de confiança


para o coeficiente de correlação ρ, que é dado por:
  
zα/2
IC(ρ; 1 − α) = tanh arctanh r − √ ;
n−3
 
zα/2
tanh arctanh r + √ ,
n−3
ew −e−w
onde tanhw = ew +e−w
.

Regressão Linear Simples – p. 56/6


Exemplo 2

Suponha que se tenha interesse em medir a força da


relação linear de dois produtos diferentes com relação ao
preço em várias cidades do mundo.
Y - Preço de uma libra de frango; e
X - Preço de uma caixa de suco.

Regressão Linear Simples – p. 57/6


Caixa com seis Uma libra
Cidade sucos (X) de frango (Y )
Frankfurt 3,27 3,06
Hong Kong 2,22 2,34
Londres 2,28 2,27
Manila 3,04 1,51
México 2,33 1,87
Nova York 2,69 1,65
París 4,07 3,09
Sidney 2,78 2,36
Tokyo 5,97 4,85

Regressão Linear Simples – p. 58/6


Dos dados da tabela são obtidos os valores seguintes:
n
X n
X
n = 9; Xi = 28, 65; X̄ = 3, 183; Xi2 = 28, 65 = 102
i=1 i=1
n
X n
X
SXX = 11, 4594; Yi = 23, 00; Ȳ = 2, 5566; Yi2 = 67
i=1 i=1
n
X
SY Y = 8, 3522; Xi Yi = 81, 854; SXY = 8, 6437
i=1

SXY 8, 6437
r=√ =p = 0, 883.
SXX SY Y (11, 4594)(8, 3522)
Regressão Linear Simples – p. 59/6
H0 : ρ = 0 (não relação linear entre X e Y )
H1 : ρ 6= 0 (há relação linear entre X e Y )

O valor calculado para a estatística do teste foi


√ √
r n−2 0, 883 9 − 2
Tobs = √ =p = 4, 98.
1−r 2 1 − (0, 883) 2

Para α = 0, 05, tem-se que t0,025,7 = 2, 365 < Tobs = 4, 98,


logo, rejeita-se H0 : ρ = 0 ao nível de significância de
α = 5%.

Regressão Linear Simples – p. 60/6

Das könnte Ihnen auch gefallen