Regresslide PDF

Regressão Linear Simples
Vı́ctor Hugo Lachos Dávila

hlachos@ime.unicamp.br
Departamento Estatı́stica-IMECC
Universidade Estadual de Campinas
Campinas, São Paulo, Brasil
Regressão Linear Simples – p. 1/6

Objetivos
Estudar a relação linear entre duas variáveis quantitativas.

Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);

Objetivos

Renda semanal e despensas de consumo;

Objetivos

Variação dos salarios e taxa de desemprego (Fig 2);

Objetivos

Demanda dos productos de uma firma e publicidade;

Objetivos

Demanda dos productos de uma firma e publicidade;
Sob dois pontos de vista:
Explicitando a forma dessa relação: regressão.
Quantificando a força dessa relação: correlação.

Observações
1) Regressão vs Causação
Uma relação estatística por sí propria não implica uma
causação
Para atribuir causação, devemos invocar a alguma
teoría (p.e. econômica)
2) Regressão (AR) vs Correlação (AC)
na AC há tratamento simetrico das variáveis

na AR a variável explanatoria é fixa
na AC presupõe-se que as duas variaveís são
aleatórias
Dados Hipotéticos
Os dados se referem à renda semanal (X) e as despensas

de consumo (Y) (em U S$), de uma população total de 60
familias. As 60 familias foram divididas em 10 grupos de
renda (Fig 3 e 4).
Y 80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
X 70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
Total 325 462 445 707 678 750 685 1043 966 1211
E(Y|X) 65 77 89 101 113 125 137 149 161 173
Função de Regressão Populacional
É razoável supor que a média da variável aleatória Y , está

relacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1 x
onde βo e β1 , são respectivamente, o intercepto e a

inclinação da reta e recebem o nome de coeficientes de
regressão.


E(Y |X = x) = µY |x = β0 + β1 x

regressão.
Cada valor individual Yi será determinado pelo valor médio
da função linear (µY |x ) mais um termo que representa um
erro aleatório,


E(Y |X = x) = µY |x = β0 + β1 x

regressão.
Cada valor individual Yi será determinado pelo valor médio
da função linear (µY |x ) mais um termo que representa um
erro aleatório,
Yi = µY |x + εi = β0 + β1 xi + εi ,
onde εi é o erro estocástico que satisfaz E(εi |xi ) = 0

Em geral, a variável resposta pode estar relacionada com
k variáveis explicativas X1 , . . . Xk obedecendo à equação :
Y = β0 + β1 X1 + . . . + βk Xk + ε,
A equação é denominada modelo de regressão linear

múltipla.

Em geral, a variável resposta pode estar relacionada com
k variáveis explicativas X1 , . . . Xk obedecendo à equação :
Y = β0 + β1 X1 + . . . + βk Xk + ε,
A equação é denominada modelo de regressão linear

múltipla.
O adjetivo "linear"é usado para indicar que o modelo é
linear nos parâmetros β1 , . . . , βk e não porque Y é função
linear dos X’s. Por exemplo, uma expressão da forma
Y = βo + β1 log X1 + β2 X23 + ε é um modelo de regressão
linear múltipla, mas o mesmo não acontece com a
equação Y = β0 + β1 X1β2 + β3 X22 + ε.
Significado do erro estocástico
Caráter vago da teoria

Falta de dados disponíveis
Variávies essenciais vs variáveis periféricas
Caráter aleatório da natureza
Principio da parcimônia
Forma funcional equivocada

Função de Regressão Amostral(FRA)
A tarefa agora é estimar a FRP com base em informações

amostrais
Yi = Ybi + εbi = βb0 + βb1 Xi + εbi , i = 1, . . . , n,
onde βb0 e βb1 são estimadores de β0 e β1 , respectivamente

e εbi = Yi − Ybi a componente residual (Fig 5). Precisamos
formular uma regra ou método que torne tal aproximação o
mais próximo possível!
Exercicio: Resolva o problema 2.16 do livro texto.

Estimação: Método de MQO
Suponha que tem-se n pares de observações amostrais

(x1 , y1 ), . . . , (xn , yn ). A soma de quadrados dos desvios
das observações em relação à FRA é:
n
X n
X
Q= εb2i = (yi − βb0 − βb1 xi )2 .
O método de mínimos quadrados ordinarios (MQO)

escolhe βb1 e βb2 (únicos) de forma que, para qualquer
amostra, Q é o menor possível. Após uma simple algebra
tem-se

n
X n
X
(1) β̂0 + β̂1 xi = yi
i=1 i=1
n
X Xn Xn
β̂0 xi + β̂1 x2i = xi y i .
i=1 i=1 i=1
As equações (1) recebem o nome de equações normais

de mínimos quadrados.

A solução dessas equações fornece os EMQ, β̂0 e β̂1 ,
dados por:
β̂0 = ȳ − β̂1 x̄.

P
n
P
n

n
P x i y i
xi y i − i=1
n
i=1
i=1
β̂1 = P
n
2 .
n
P xi
x2i − i=1
n
i=1
P
n
x
P
n
y
i i
onde x̄ = i=1
n
e ȳ = i=1
n
.

Notações especiais
P
n
2
X
n X
n
i=1
xi X
n
Sxx = (xi − x̄)2 = x2i − = x2i − nx̄2 ,
n
i=1 i=1 i=1
P
n
P
n

X
n X
n X
n x
i=1
y
i
i=1
i
Sxy = (xi − x̄)(yi − ȳ) = (xi − x̄)yi = xi yi −
i=1 i=1 i=1
n
Xn
= xi yi − nx̄ȳ,
P 2
i=1
n
X
n X
n X
n
i=1
yi
X
n
Syy = (yi − ȳ)2 = (yi − ȳ)yi = yi2 − = yi2 − nȳ 2 .
i=1 i=1 i=1
n i=1
Os EMQ de β0 e β1 em termos da notação acima são:
, ybi − ȳ = βb1 (xi − x̄).

Sxy
β̂0 = ȳ − β̂1 x̄, β̂1 =
Sxx Regressão Linear Simples – p. 12/6
Observaçoes sobre os EMQ
Os EMQ dependem só de quantidades observáveis

São estimadores pontuais
A linha de regressão amostral é facilmente obtida
Ybi = βb0 + βb1 Xi
ǫi é zero
O valor médio do resíduo b
ǫi são não correlacionados com Xi e Ybi .
Os residuos b

Exemplo 1
O gerente de uma cadeia de supermercados deseja

desenvolver um modelo com a finalidade de estimar as
vendas médias semanais (em milhares de dólares)
Y - Vendas semanais; e
X - Número de clientes.
Estas variáveis foram observadas em 20 supermercados
escolhidos aleatóriamente.
X 907 926 506 741 789 889 874 510 529 420
Y 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12
X 679 872 924 607 452 729 794 844 1010 621
Y 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41

Aplicação
Considerando os dados do exemplo 1
n = 20
X
n
xi = 907 + 926 + . . . + 621 = 14.623; x̄ = 731, 15
i=1
Xn
yi = 11, 20 + 11, 05 + . . . + 7, 41 = 176, 11; ȳ = 8, 8055
i=1
Xn
x2i = (907)2 + (926)2 + . . . + (621)2 = 11.306.209
i=1
Xn
yi2 = (11, 20)2 + (11, 05)2 + . . . + (7, 41)2 = 1.602, 0971
i=1
X
n
xi yi = (907)(11, 20) + (11, 05)(926) . . . + (7, 41)(621) = 134.127, 90
i=1

X
n
Sxx = x2i − n(x̄)2 = 11.306.209 − 20(731, 15)2 = 614.603
i=1
Xn
Sxy = xi yi − n(x̄)(ȳ) = 134.127, 90 − 20(8, 8055)(731, 15) = 5.365, 08
i=1
Xn
Syy = yi2 − n(ȳ)2 = 1.609, 0971 − 20(8, 8055) = 51, 3605.
i=1
As estimativas dos parâmetros do MRLS são:
Sxy 5.365, 08
β̂1 = = = 0, 00873; β̂0 = ȳ−β̂1 x̄ = 8, 8055−(0, 00873)(731, 15) = 2, 423
Sxx 614.603
Portanto, a linha de regressão ajustada ou estimada para esses dados são:
ŷ = 2, 423 + 0, 00873x.

11
10
Vendas semanais
9
8
7
6
400 500 600 700 800 900 1000
Numero de clientes
Suponha que tem-se interesse em prever as vendas
semanais para um supermercado com 600 clientes.
No modelo de regressão ajustado basta substituir
X = 600, ísto é,
ŷ = 2, 423 + (0, 00873)(600) = 7, 661.

X = 600, ísto é,
ŷ = 2, 423 + (0, 00873)(600) = 7, 661.
A venda semanal de 7,661 mil dólares pode ser

interpretada com uma estimação da venda média semanal
verdadeira dos supermercados com X = 600 clientes,

X = 600, ísto é,
ŷ = 2, 423 + (0, 00873)(600) = 7, 661.
A venda semanal de 7,661 mil dólares pode ser

interpretada com uma estimação da venda média semanal
verdadeira dos supermercados com X = 600 clientes, ou
como uma estimação de uma futura venda de um
supermercado quando o número de clientes for X = 600.

Suposições do método de MQO
(i) E(ε|X) = 0, V ar(ε|X) = σ 2 (desconhecido).

(ii) Os erros são não correlacionados
(iii) A variável explicativa X é controlada pelo
experimentador.
(iv) o modelo de regressão esta especificado da forma
correta
(v) n> número de variáveis explanatorias
(iv) não ha multicolinearidade perfeita

Propriedades dos EMQ
Se as suposições do método de MQO são válidas, então

σ2
E(β̂1 ) = β1 , V ar(β̂1 ) = Sxx
= σβ2b .
1
h i
1 x̄2
E(β̂0 ) = β0 , V ar(β̂0 ) = σ 2 n
+ Sxx
= σβ2b .
0
σ 2 x̄
Cov(β̂0 , β̂1 ) = − Sxx
Exercicio 2.

Estimação de σ 2
Os resíduos,
ei = yi − ŷi
são empregados na estimação de σ 2 . A soma de
quadrados residuais ou soma de quadrados dos erros,
denotado por SQR é:
n
X n
X
SQR = e2i = (yi − ŷi )2
i=1 i=1
Pode-se demonstrar que o valor esperado da soma de

quadrados dos residuais SQR, é dado por:(Exercício 3)
E(SQR) = (n − 2)σ 2
Portanto, um estimador não viciado de σ 2 , é
ˆ2
SQR
σ = = QM R (Quadrado médio residual),
n−2
Uma fórmula mais conveniente para o cálculo da SQR é
dada por:
SQR = Syy − β̂1 Sxy .
A estimativa de σ 2 para o exemplo 1.
ˆ2
SQR Syy − β̂1 Sxy
σ = =
n−2 n−2
51, 3605 − (0, 00873)(5.365, 08)
= = 0, 2513.
20 − 2 Regressão Linear Simples – p. 22/6
Previsão
Seja xp o valor para o qual deseja-se prever (ou projetar) o

valor médio E(Y |xp ) e o valor individual de Y .
- Previsão média
Ybi é um estimador não viciado de E[Y |xp ], dado que
E(Ybi ) = E(β̂0 + β̂1 xp ) = β0 + β1 xp = E(Y |xp )

(xi −x̄)2
V ar(Ybi ) = σ 2 [ n1 + sxx
]
- Previsão individual (Exercicio 4.)
(xi −x̄)2
V ar(Ybpart ) = σ 2 [1 + 1
n
+ sxx
]
Na pratica sustituimos σ 2 (desconhecido), pelo estimador

b2
consistente σ
Coeficiente de Determinação (r2 )
O r2 é uma medida de qualidade do ajustamento. No caso

de regressão linear simples o coeficiente de determinação
é o quadrado do coeficiente de correlação.(Fig 6)
(Yi − Ȳ ) = (Yi − Ŷi − Ȳ + Ŷi )

n
X Xn n
X
(Yi − Ȳ )2 = (Ŷi − Ȳ )2 + (Yi − Ŷi )2
i=1 i=1 i=1
SQT = SQM + SQR
2
SQM SQR 2 SQM s xy
1 = + ⇒r = =
SQT SQT SQT sxx syy

Teorema de Gauss-Markov
Se as suposições MQO são satisfeitas, os EMQ da classe

de estimadores lineares não viesados têm variância
mínima, isto é, são os melhores estimadores lineares não
viesados. (Prova)
Para que normalidade?
A estimação é a metade do caminho, a outra metade é
teste se hipóteses, para isto, suposições adicionais são
necessárias.
uma alternativa é considerar tamanhos de amostra o
suficientemente grandes (estimação de máxima
verossimilhança)
a outra é supor que ǫi ∼ N (0, σ 2 ) (O modelo de
regressão normal simple clássico)
Propiedades dos EMQ sob Normalidade
A justificão teórica da premissa de normalidade é o TLC

n
X n
X
β1 = ki Yi = ki (β1 + β2 xi + ǫi ) ∼ N (.)
i=1 i=1
βb0 ∼ N (β0 , σβ2b ), βb1 ∼ N (β1 , σβ2b ),

0 1
σ 2 /σ 2 ∼ χ2 (n − 2)
(n − 1)b
A distribuição de βb0 e βb1 é independente de σ
b2
(Exercicio 5.)
βb0 e βb1 têm variância mínima dentro de toda classe dos
estimadores não viesados, sejam ou não lineares (Rao)
Yi |Xi ∼ N (β0 + β1 Xi , σ 2 ) Regressão Linear Simples – p. 26/6

Teste de hipóteses sobre β1
Suponha que se deseje testar a hipótese de que a

inclinação é igual a uma constante representada por β1,0 .
As hipóteses apropriadas são:
H0 : β1 = β1,0 , vs H1 : β1 6= β1,0
A estatística
β̂1 − β1,0
T =p ,
2
σ̂ /Sxx
tem distribuição t-Student com n − 2 graus de liberdade
sob H0 : β1 = β1,0 . Rejeita-se H0 se
|Tobs | > tα/2, n−2 .

Teste de hipóteses sobre β0
H0 : β0 = β0,0 , vs H1 : β0 6= β0,0
A estatística
β̂0 − β0,0
T =q
x̄2
σ̂ 2 [ n1 + Sxx
]
que tem distribuição t-Student com n − 2 graus de

liberdade. Rejeitamos a hipóteses nula se |Tobs | > tα/2, n−2 .

Teste de significância do MRLS
H0 : β1 = 0, vs H1 : β1 6= 0,
Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir que

não há nenhuma relação linear entre X e Y.

Se H0 : β1 = 0 é rejeitado, implica que X tem importância
para explicar a variabilidade de Y

Exemplo
Teste de significância para o MRLS para os dados do

exemplo 1, com α = 0, 05.
As hipóteses são H0 : β1 = 0, vs H1 : β1 6= 0
Do exemplo tem-se:
β̂1 = 0, 00873, n = 20 Sxx = 614, 603, σ̂ 2 = 0, 2512,
De modo que a estatística de teste, é:
β̂1 0, 00873
Tobs = p =p = 13, 65.
σ̂ 2 /Sxx 0, 2513/614.603
Como Tobs = 13, 65 > t0,03,18 = 2, 101, rejeita-se a hipótese

H0 : β1 = 0.
Análise de variância
Se a hipótese nula H0 : β1 = 0 é verdadeira, a estatística
SQM/1 QM reg
F = = ∼ F (1, n − 2),
SQR/(n − 2) QM R
Portanto, rejeita-se H0 se F0bs > Fα, 1, n−2 .

As quantidades
QM reg = SQM 1
, (quadrado médio devido à regressão) e
SQR
QM R = (n−2) ( quadrado médio residual)

Tabela de ANOVA
Fonte de Soma de Graus de Quadrado

variação Quadrados Liberdade Médio F
QM reg
Regressão SQM 1 QM reg QM R
Residual SQR n−2 QM R
Total SQT n−1

Tabela de ANOVA

QM reg
Regressão SQM 1 QM reg QM R
Residual SQR n−2 QM R
Total SQT n−1
Exemplo: o procedimento de análise de variância para
testar se de fato existe relação linear entre o número de
clientes (X) e as vendas semanais (Y), no modelo
proposto para os dados do exemplo 1. Relembre que
Syy = 51, 3605, β̂1 = 0, 00873, Sxy = 5.365, 08 e n = 20.

A soma de quadrados da regressão é
SQM = β̂1 Sxy = (0, 00873)(5.365, 08) = 46, 8371
enquanto a soma de quadrados dos residuais é:
SQR = SQT − β̂1 Sxy = 51, 3605 − 46, 8371 = 4, 5234

SQM = β̂1 Sxy = (0, 00873)(5.365, 08) = 46, 8371
SQR = SQT − β̂1 Sxy = 51, 3605 − 46, 8371 = 4, 5234
A ANOVA para testar H0 : β1 = 0. Nesse caso, a

estatística de teste é
F0bs = QM reg/QM R = 46, 837148/0, 2512 = 186, 4536.

SQM = β̂1 Sxy = (0, 00873)(5.365, 08) = 46, 8371
SQR = SQT − β̂1 Sxy = 51, 3605 − 46, 8371 = 4, 5234
A ANOVA para testar H0 : β1 = 0. Nesse caso, a

estatística de teste é
F0bs = QM reg/QM R = 46, 837148/0, 2512 = 186, 4536.
Como Fobs = 186, 4536 > F0,05,1,18 = 4, 41 rejeita-se H0 , ao

nível de significância de 5%.
Tabela de ANOVA para Ex. 1

Regressão 46, 8371 1 46, 8371 186,45
Residual 4, 5234 18 0, 2513
Total 51, 3605 19

Intervalo de confiança para β0 e β1
Se para o MRLS é válida a suposição de que os

εi ∼ N ID(0, σ 2 ), então
s
p 1 x̄2
(β̂1 − β1 )/ QM R/Sxx e (β̂0 − β0 )/ QM R[ + ]
n Sxx
são variáveis aleatórias com distribuição t-Student com

n − 2 graus de liberdade.
Um intervalo de 100(1 − α)% de confiança para β1 :
r r !
QM R QM R
IC(β1 ; 1−α) = β̂1 − t α2 , n−2 ; β̂1 + t α2 , n−2
Sxx Sxx
De modo similar, um intervalo de 100(1 − α)% de confiança
para β0 é dado por:
s
1 x̄2
IC(β0 ; 1 − α) = β̂0 − t α2 , n−2 QM R[ + ]
n Sxx
s !
1 x̄2
β̂0 + t α2 , n−2 QM R[ + ]
n Sxx
A seguir é obtido um intervalo de 95% de confiança para a

inclinação do MRLS com os dados do exemplo 1,

Relembre que n = 20, β̂1 = 0, 00873, Sxx = 614, 603 e
QM R = 0, 2513. Para 1 − α = 0, 95, tem-se t0,025, 18 = 2, 101.
IC(β1 ; 0, 95) = (β̂1 − E ; β̂1 + E)

q q
E = t0,025,18 QM
Sxx
R
= 2, 101 0,2513
614.603
= 0, 00134
IC(β1 ; 0, 95) = (0, 00873 − 0, 00134; 0, 00873 + 0, 00134)

= (0, 00739; 0, 01007)

Intervalo de confiança para resposta
média
O interesse consiste em estimar um intervalo de confiança

para
E(Y |X = x0 ) = µY |x0 = β0 + β1 x0 .
Um estimador pontual de µY |x0 é
µ̂Y |xo = Ŷ = β̂0 + β̂1 x0 .
Se εi ∼ N ID(0, σ 2 ) é válida, pode-se demonstrar
µ̂Y |xo − µY |xo

T =r h i ∼ t(n − 2)
1 (x0 −x̄)2
QM R n + Sxx

Int. conf. 100(1 − α)% para µY |x0

IC(µ̂Y |x ; 1 − α) = µ̂Y |xo − E; µ̂Y |xo + E
q
(x0 −x̄)2
onde E = t α
2
, n−2 QM R[ n1 + Sxx
]
Exemplo: Suponha que tem-se interesse em construir um
intervalo de 95% de confiança da venda, média, semanal
para todos supermercados com 600 clientes.


q
(x0 −x̄)2
onde E = t α
2
]
No modelo ajustado µ̂Y |x0 = 2, 423 + 0, 00873x0 . Para
x0 = 600, obtém-se µ̂Y |x0 = 7, 661.


q
(x0 −x̄)2
onde E = t α
2
]
x0 = 600, obtém-se µ̂Y |x0 = 7, 661. Também,
x̄ = 731, 15, QM R = 0, 2513, Sxx = 614.603, n = 20
e 1 − α = 0, 95 ⇒ t0,05,18 = 2, 101.


q
(x0 −x̄)2
onde E = t α
2
]
x0 = 600, obtém-se µ̂Y |x0 = 7, 661. Também,
x̄ = 731, 15, QM R = 0, 2513, Sxx = 614.603, n = 20
e 1 − α = 0, 95 ⇒ t0,05,18 = 2, 101.
q
1 (600−731,15)2
E = 2, 101 0, 2513[ 20 + 614.603 ] = 0, 292
IC(µY |x0 ; 0, 95) = (7, 661 − 0, 292; 7, 661 + 0, 292)
= (7, 369; 7, 935)

Previsão de novas observações
Uma aplicação muito importante de um modelo de

regressão é a previsão de novas ou futuras observações
de Y, (Y0 ) correspondente a um dado valor da variável
explicativa X, x0 , então
Yˆ0 = β̂0 + β̂1 x0
é o melhor estimador pontual de Y0 .

Um intervalo de 100(1 − α)% de confiança para uma futura
observação é dado por:
IC(Y0 ; 1 − α) = (Ŷ − E; Ŷ + E)
q
1 (x0 −x̄)2
onde E = t 2 , n−2 QM R[1 + n + Sxx ]
α

Exemplo
Suponha agora, tem-se interesse em encontrar um

intervalo de previsão de 95% das vendas semanais de um
supermercado com 600 clientes.
Considerando os dados do exemplo 1, Ŷ = 7, 661 e o
intervalo de predição é:
q
1 (600−731,15)2
E = 2, 101 0, 2513[1 + 20 + 614.603 ] = 1, 084
IC(Y0 ; 0, 95) = (7, 661 − 1, 084; 7, 661 + 1, 084)

= (6, 577; 8, 745).

Bandas de confiança do 95% para µY |x0 (CI) e
Y0 (ICP)

Adequação do modelo de regressão
Análise residual,

Análise residual,
Coeficiente de determinação

Análise residual,
Os resíduos de um modelo de regressão são definidos

como
ei = yi − ŷi , i = 1, . . . , n
onde yi é uma observação real de Y e ŷi é o valor
correspondente estimado através do modelo de regressão.

Análise residual,

como
ei = yi − ŷi , i = 1, . . . , n
Resíduos padronizados
ei
di = √ , i = 1, . . . , n
QM R

Análise residual,

como
ei = yi − ŷi , i = 1, . . . , n
Resíduos padronizados
ei
di = √ , i = 1, . . . , n
QM R

Gráfico de resíduos do exemplo 1

Exemplo: Coeficiente de
Determinação
Para os dados dos supermercados do exemplo1,

determinar R2 .

Determinação

determinar R2 . Da definição tem-se:
2 SQM 46, 8371

R = = = 0, 912
SQT 51, 3605

Determinação

determinar R2 . Da definição tem-se:
2 SQM 46, 8371

R = = = 0, 912
SQT 51, 3605
Esse resultado significa que o modelo ajustado explicou

91,2% da variação na variável resposta Y (vendas
semanais). Isto é, 91,2% da variabilidade de Y é explicada
pela variável regressora X (número de clientes).

Analise de Correlação
Suponha que se deseja desenvolver um modelo de

regressão que relacione a resistência ao corte dos pontos
de soldadura com o diâmetro dos mesmos. Neste caso,
não é possível controlar o diâmetro de soldadura. O que
pode ser feito é selecionar ao acaso n pontos de
soldadura e observar o diâmetro (Xi ) e a resistência ao
corte (Yi ) de cada um deles. Portanto, (Xi , Yi ) são
variáveis aleatórias distribuídas de maneira conjunta.

Suponha que a distribuição conjunta de Xi e Yi tenha uma
distribuição normal bivariada cuja função de densidade é
dada por

dada por
( " 2
1 1 x − µ1
f (x, y) = p exp 2
+
2πσ1 σ2 1 − ρ 2 2(1 − ρ ) σ1
2 #)
y − µ2 x − µ1 y − µ2
− 2ρ
σ2 σ1 σ2

dada por
( " 2
1 1 x − µ1
f (x, y) = p exp 2
+
2πσ1 σ2 1 − ρ 2 2(1 − ρ ) σ1
2 #)
y − µ2 x − µ1 y − µ2
− 2ρ
σ2 σ1 σ2
onde µ1 e σ12 são a média e variância de X e µ2 e σ22 são a

média e variância de Y e, ρ é coeficiente de correlação entre X
e Y.
A densidade condicional de Y para um valor dado X = x é
dado por (exercicio 5.)
 !2 
1  1 y −β −β x 
i 0 1
f (y|x) = √ exp −
2πσY |x  2 σY2 |x 

 !2 
1  1 y −β −β x 
i 0 1
f (y|x) = √ exp −
2πσY |x  2 σY2 |x 
onde β0 = µ2 − µ1 ρ σσ21 , β1 = σ2
σ1
ρ e σY2 |x = σ22 (1 − ρ2 )

 !2 
1  1 y −β −β x 
i 0 1
f (y|x) = √ exp −
2πσY |x  2 σY2 |x 
onde β0 = µ2 − µ1 ρ σσ21 , β1 = σσ21 ρ e σY2 |x = σ22 (1 − ρ2 )

A distribuição condicional de Y dado X = x é normal com
média
E(Y |X = x) = β0 + β1 x
e variância σY2 |x .

Estimadores de β0 , β1 e ρ
β̂0 = Ȳ − β̂1 X̄

β̂0 = Ȳ − β̂1 X̄
Pn Y (X −X̄)
β̂1 = Pi=1
n
i i
(Xi −X̄)2
= SXY
SXX
i=1

β̂0 = Ȳ − β̂1 X̄
Pn Y (X −X̄)
β̂1 = Pi=1
n
i i
(Xi −X̄)2
= SXY
SXX
i=1
P
n
Y (X −X̄)
i i
ρ̂ = r = s P
n
i=1
P
n
= √ SXY
SXX SY Y
(X −X̄)2i (Y −Ȳ )2 i
i=1 i=1

β̂0 = Ȳ − β̂1 X̄
Pn Y (X −X̄)
β̂1 = Pi=1
n
i i
(Xi −X̄)2
= SXY
SXX
i=1
P
n
Y (X −X̄)
i i
ρ̂ = r = s P
n P
n
i=1
= √ SXY
SXX SY Y
(X −X̄)2 (Y −Ȳ )2
i i
i=1 i=1
1/2
SY Y
β̂1 = SXX
r

Teste de hipóteses
H0 : ρ = 0 vs H1 : ρ 6= 0
A estatística de teste apropriada é
√
r n−2 ∼
T = √ sob H0 t(n − 2)
1−r 2

Teste de hipóteses
H0 : ρ = 0 vs H1 : ρ 6= 0
A estatística de teste apropriada é
√
r n−2 ∼
T = √ sob H0 t(n − 2)
1−r 2
A hipótese nula deverá ser rejeitada se |Tobs | ≥ tα/2, n−2 .

Esse teste é equivalente ao teste de hipóteses H0 : β1 = 0.

H0 : ρ = ρ0 vs H1 : ρ 6= ρ0
onde ρ0 6= 0.

H0 : ρ = ρ0 vs H1 : ρ 6= ρ0
onde ρ0 6= 0.
Para amostras de tamanho moderado grande (n ≥ 30), a
estatística

H0 : ρ = ρ0 vs H1 : ρ 6= ρ0
onde ρ0 6= 0.
Para amostras de tamanho moderado grande (n ≥ 30), a
estatística
1 1+r
Zr = arctanh r = ln
2 1−r
tem distribuição aproximadamente normal com média
1 1+ρ
µZr = arctanh ρ = ln
2 1−ρ
e variância σZ2 r = (n − 3)−1 .

A estatística de teste apropriada é:
Z = (arctanh r − arctanh ρ0 ) (n − 3)1/2 .

A estatística de teste apropriada é:
Z = (arctanh r − arctanh ρ0 ) (n − 3)1/2 .
Se H0 : ρ = ρ0 é verdadeira, a estatística Z tem,

aproximadamente, distribuição normal padrão. Portanto,
H0 deverá ser rejeitada se |Zobs | ≥ zα/2 .

Intervalo de confiança para ρ
Um intervalo aproximado de 100(1 − α)% de confiança

para o coeficiente de correlação ρ, que é dado por:

zα/2
IC(ρ; 1 − α) = tanh arctanh r − √ ;
n−3

zα/2
tanh arctanh r + √ ,
n−3
ew −e−w
onde tanhw = ew +e−w
.

Exemplo 2
Suponha que se tenha interesse em medir a força da

relação linear de dois produtos diferentes com relação ao
preço em várias cidades do mundo.
Y - Preço de uma libra de frango; e
X - Preço de uma caixa de suco.

Caixa com seis Uma libra
Cidade sucos (X) de frango (Y )
Frankfurt 3,27 3,06
Hong Kong 2,22 2,34
Londres 2,28 2,27
Manila 3,04 1,51
México 2,33 1,87
Nova York 2,69 1,65
París 4,07 3,09
Sidney 2,78 2,36
Tokyo 5,97 4,85

Dos dados da tabela são obtidos os valores seguintes:
n
X n
X
n = 9; Xi = 28, 65; X̄ = 3, 183; Xi2 = 28, 65 = 102
i=1 i=1
n
X n
X
SXX = 11, 4594; Yi = 23, 00; Ȳ = 2, 5566; Yi2 = 67
i=1 i=1
n
X
SY Y = 8, 3522; Xi Yi = 81, 854; SXY = 8, 6437
i=1
SXY 8, 6437
r=√ =p = 0, 883.
SXX SY Y (11, 4594)(8, 3522)
H0 : ρ = 0 (não relação linear entre X e Y )
H1 : ρ 6= 0 (há relação linear entre X e Y )
O valor calculado para a estatística do teste foi

√ √
r n−2 0, 883 9 − 2
Tobs = √ =p = 4, 98.
1−r 2 1 − (0, 883) 2
Para α = 0, 05, tem-se que t0,025,7 = 2, 365 < Tobs = 4, 98,

logo, rejeita-se H0 : ρ = 0 ao nível de significância de
α = 5%.

Regresslide PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Regresslide PDF

Hochgeladen von

Copyright:

Verfügbare Formate

Regressão Linear Simples

Vı́ctor Hugo Lachos Dávila

Regressão Linear Simples – p. 1/6

Estudar a relação linear entre duas variáveis quantitativas.

Regressão Linear Simples – p. 2/6

Estudar a relação linear entre duas variáveis quantitativas.

Regressão Linear Simples – p. 2/6

Estudar a relação linear entre duas variáveis quantitativas.

Regressão Linear Simples – p. 2/6

Estudar a relação linear entre duas variáveis quantitativas.

Regressão Linear Simples – p. 2/6

Estudar a relação linear entre duas variáveis quantitativas.

Regressão Linear Simples – p. 2/6

na AC há tratamento simetrico das variáveis

Os dados se referem à renda semanal (X) e as despensas

É razoável supor que a média da variável aleatória Y , está

onde βo e β1 , são respectivamente, o intercepto e a

Regressão Linear Simples – p. 5/6

É razoável supor que a média da variável aleatória Y , está

onde βo e β1 , são respectivamente, o intercepto e a

Regressão Linear Simples – p. 5/6

É razoável supor que a média da variável aleatória Y , está

onde βo e β1 , são respectivamente, o intercepto e a

onde εi é o erro estocástico que satisfaz E(εi |xi ) = 0

A equação é denominada modelo de regressão linear

Regressão Linear Simples – p. 6/6

A equação é denominada modelo de regressão linear

Caráter vago da teoria

Regressão Linear Simples – p. 7/6

A tarefa agora é estimar a FRP com base em informações

Yi = Ybi + εbi = βb0 + βb1 Xi + εbi , i = 1, . . . , n,

onde βb0 e βb1 são estimadores de β0 e β1 , respectivamente

Exercicio: Resolva o problema 2.16 do livro texto.

Regressão Linear Simples – p. 8/6

Suponha que tem-se n pares de observações amostrais

O método de mínimos quadrados ordinarios (MQO)

Regressão Linear Simples – p. 9/6

As equações (1) recebem o nome de equações normais

Regressão Linear Simples – p. 10/6

β̂0 = ȳ − β̂1 x̄.

Regressão Linear Simples – p. 11/6

Os EMQ de β0 e β1 em termos da notação acima são:

, ybi − ȳ = βb1 (xi − x̄).

Os EMQ dependem só de quantidades observáveis

Ybi = βb0 + βb1 Xi

Regressão Linear Simples – p. 13/6

O gerente de uma cadeia de supermercados deseja

Regressão Linear Simples – p. 14/6

Considerando os dados do exemplo 1

Regressão Linear Simples – p. 15/6

As estimativas dos parâmetros do MRLS são:

Portanto, a linha de regressão ajustada ou estimada para esses dados são:

Regressão Linear Simples – p. 16/6

400 500 600 700 800 900 1000

ŷ = 2, 423 + (0, 00873)(600) = 7, 661.

Regressão Linear Simples – p. 18/6

ŷ = 2, 423 + (0, 00873)(600) = 7, 661.

A venda semanal de 7,661 mil dólares pode ser

Regressão Linear Simples – p. 18/6

ŷ = 2, 423 + (0, 00873)(600) = 7, 661.

A venda semanal de 7,661 mil dólares pode ser

Regressão Linear Simples – p. 18/6

(i) E(ε|X) = 0, V ar(ε|X) = σ 2 (desconhecido).