Beruflich Dokumente
Kultur Dokumente
108
106
104
102
100
98
96
94
92
90
0 5 10 15 20
Regressão Linear
Bernardo Almada-Lobo
Métodos Estatísticos de Previsão 2
Regressão
Regressão
Métodos Estatísticos de Previsão 4
Regressão
Regressão
Yn = α + β ⋅ ( X n − X ) + En ⇔ Yn = β0 + β ⋅ X n + En (β0 = α − β ⋅ X )
Aos valores observados Xn não estão associados quaisquer erros, devendo ser
encarados como constantes.
En IN(0, σ2 )
Note que, a hipótese de que existe uma recta de regressão que se ajusta aos dados
está implícita em todo o processo.
Métodos Estatísticos de Previsão 8
µ Yn = α + β ⋅ Xn − X
Métodos Estatísticos de Previsão 11
Yn = α + β ⋅ ( X n − X ) ⇔
Yn = β0 + β ⋅ X n
α
β0
x1 x2 x3 x4 x5 x6 X
X
Métodos Estatísticos de Previsão 13
∑
1
A = ⋅ Yn = Y
N n =1
∑ [( )( )]
N
∑ {Y − [α + β ⋅ (X )]}
N N
∑ ⇒ Xn − X ⋅ Yn − Y
2
MIN SEQ = E =
2
−X
n n n
B = n =1 S XY
n =1 n =1 =
∑( )
N
2 S XX
Xn − X
n =1
Y
2
s
b = βˆ = XY 1
s XX 0
0 10 20 X 30 40 50
Métodos Estatísticos de Previsão 14
Y
(
Yn = α + β ⋅ Xn − X )
X
X
a = αˆ = y
( )
Yn = y + β ⋅ X − X = y
Métodos Estatísticos de Previsão 15
Yn = α + β ⋅ ( X n − X ) + En relativamente a Yn = β 0 + β ⋅ X n + En
Métodos Estatísticos de Previsão 16
σ2
Var ( B) =
S XX
Estimativa de β é melhor
quando os valores de x estão
mais espalhados.
Métodos Estatísticos de Previsão 17
3. Um estimador não-enviesado de σ2 é
2
⋅ ∑ [Yn − A − B ⋅ (X n − X )]
N N
1 1
S2 = ⋅ ∑ Eˆ n2 =
N − 2 n =1 N − 2 n =1
Métodos Estatísticos de Previsão 18
Exemplo
Admitindo que a relação entre as variáveis X e Y é linear, pretende-se estimar os
parâmetros do modelo de regressão correspondente:
n xn yn N=5
1 12 33 x = 10 a = y = 30
2 8 24 y = 30
b = s XY s XX = 2.05
∑ (x
3 14 39
s XX = n − x ) = 40
2
4 10 31 n
= ∑ (x
5 6 23
s XY n − x ) ⋅ ( y n − y ) = 82
n
∑ ê
1
s = σˆ =
2 2
⋅ 2
= 2.63
n
N−2
n
1 33 30 + 2.05⋅ 2 = 34.1 33 − 34.1 = −1.1 n =1
2 24 30 + 2.05⋅ (−2) = 25.9 24 − 25.9 = −1.9
3 39 30 + 2.05⋅ 4 = 38.2 39 − 38.2 = 0.8 σˆ 2A = s 2 N = 0.527
4 31 30 + 2.05⋅ 0 = 30.0 31 − 30.0 = 1.0
5 23 30 + 2.05⋅ (−4) = 21.8 23 − 21.8 = 1.2 σˆ B2 = s 2 s XX = 0.0658
Métodos Estatísticos de Previsão 19
1 X2 2
2. B0 N β0 , + ⋅ σ
⇒
B0 − β0
t N− 2 (B 0 = A − X ⋅B )
N S XX
2
S⋅
1 X
+
N S XX
3. B (
N β , σ 2 S XX ) ⇒
B−β
t N− 2
S S XX
1. α: A ± t N−2 (γ 2 ) ⋅ S ⋅ 1 N
2. β0 : (A − X ⋅ B) ± t (γ 2) ⋅ S ⋅
N− 2 1 N + X 2 S XX
3. β : B ± t N−2 (γ 2) ⋅ S ⋅ 1 S XX
EXEMPLO (CONT.)
t 3 (0.05 2) = 3.18
1. H0 : α = α 0 A − α0
⇒ H0 VERD. : ET = t N− 2
H1 : α ≠ α 0 , α > α 0 , α < α 0 S N
2. H0 : β0 = (β0 )0 A − X ⋅ B − (β0 )0
⇒ H0 VERD. : ET = t N− 2
H1 : β0 ≠ (β0 )0 , β0 > (β 0 )0 , β0 < (β0 )0 1 X 2
S⋅ +
N S XX
3. H0 : β = β0
⇒ H0 VERD. : ET =
B − β0
t N− 2
H1 : β ≠ β0 , β > β 0 , β < β0 S S XX
Métodos Estatísticos de Previsão 22
Quando se pretende realizar um teste bilateral à hipótese nula H0: β=0, pode
recorrer-se a um procedimento baseado na ANOVA
(Variação total)
Exemplo (anterior)
n xn yn
1 12 33 a = y = 30
2 8 24
b = s XY s XX = 2.05
3 14 39
4 10 31
5 6 23
Métodos Estatísticos de Previsão 25
Exemplo (cont.)
H0 : β = 0 H1 : β ≠ 0 α = 5%
Regressão
(
Ŷ = µˆ Y = A + B ⋅ X − X ) σ
Y
σ
µY
O erro que se comete na previsão vem x1
1
µY µy
2
[ ( ) ] [ ( )]
x2
δ = Y − Ŷ = α + β ⋅ X − X + E − A + B ⋅ X − X X
N S XX
Regressão
(
1 X−X
Ŷ ± t N−2 (γ 2 ) ⋅ S ⋅ 1 + +
)
2
N S XX
1 X−X
Ŷ ± S ⋅ 1 + +
( )
2
N S XX
Métodos Estatísticos de Previsão 28
Regressão
Y BANDA A: Ŷ ± S ⋅ 1
yny=i =aa++ bb ⋅.(x
( xni- −x) x ) B C
A
1
BANDA B: Ŷ ± S ⋅ 1 +
N
BANDA C:
1 X−X
Ŷ ± S ⋅ 1 + +
( )
2
N S XX
x X
Regressão
Uma relação que pareça linear dentro da gama de valores observados Xn, pode
ter um comportamento não-linear numa gama mais alargada.
Valor
extrapo-
lado de Y
Regressão
Y
2
1
0
0 10 20 X 30 40 50
N − 1 n =1 N − 1 n =1
Métodos Estatísticos de Previsão 33
Zona central
X
Enviesamento do coeficiente de correlação amostral calculado a partir de observações pertencentes
à zona central da população de x
Métodos Estatísticos de Previsão 34
∑ (X )
2
B2 ⋅ n −X
B 2 ⋅ S XX
R 2XY = = n
∑ (Y )
2
S YY n −Y
n
N N
sYY = ∑ ( yn − y ) = ∑
2
[( yn − yˆ n ) + ( yˆ n − y )]2
n =1 n =1
N N
= L = ∑ en2 + b 2 ⋅ ∑ ( xn − x )
2
n =1 n =1
Não-
-explicada Explicada
Métodos Estatísticos de Previsão 36
Agora, a recta é y = β0 + β1 x
transformada num plano
+ β x2
β + β x1
1
2
y = 0
X1
Yn = α + β1 ⋅ ( X 1n − X 1 ) + L + β J ⋅ ( X Jn − X J ) + E n
Yii = β
β00 + β
β11X1i +β
β22X2i + εεii
Y 1i
(Observed
(Observed Y)
Y)
2i
Response b00
eii
Plane
X2
X1 (X1i ,X 2i)
1i 2i
^
Yii = b00 + b11X1i
1i
+ b22X2i
2i
Métodos Estatísticos de Previsão 42
En IN (0,σ2)
Métodos Estatísticos de Previsão 43
∑E = ∑ {Y − [α + β ⋅ ( X ]}2
SEQ = 2
n n 1 1n − X1 ) + L + βJ ⋅ ( X Jn − X J )
n n
∂ SEQ
= (−2) ⋅ ∑{( X 1n − X 1 ) ⋅ [Yn − α − β1 ⋅ ( X 1n − X 1 ) − ⋅ ⋅ ⋅ − β J ⋅ ( X Jn − X J )]} = 0
∂β1 n
(...)
∂ SEQ
= (−2) ⋅ ∑{( X Jn − X J ) ⋅ [Yn − α − β1 ⋅ ( X 1n − X 1 ) − ⋅ ⋅ ⋅ − β J ⋅ ( X Jn − X J )]} = 0
∂β J n
Métodos Estatísticos de Previsão 44
∑Y
1
A= ⋅ n =Y
N n
onde SXj
1
Xj 2 = ∑ (X
n
j1n − X j1 ) ⋅ ( X j2n − X j2 ) e S X jY = ∑ (X
n
jn − X j ) ⋅ ( Yn − Y )
Métodos Estatísticos de Previsão 45
−1
Var ( A ) Cov( A,B1 ) L Cov( A,B J ) N 0 L 0
Cov(B , A ) 0 S L S X1XJ
Var (B1 ) L Cov(B1,B J )
= σ2 ⋅
1 X1X1
L L L L L L L L
Cov(B J, A ) Cov(B J,B1 ) L Var (B J ) 0 S XJ X1 L S XJ XJ
Métodos Estatísticos de Previsão 46
∑Ê
1
S2 = ⋅ 2
=
N − J −1 n
∑
1
= ⋅ [ Yn − A − B1.( X1n − X1 ) − L −B J.( X Jn − X J )]2
N − J −1 n
Métodos Estatísticos de Previsão 47
= ∑( x
i
10 4.6 6.9 50.4
Sx2 x2 2i − x2 )2 = (7.2 − 7.65)2 + ⋅ ⋅ ⋅ + (6.9 − 7.65)2 = 7.42
∑
i
Sx1x2 = Sx2 x1 = (x1i − x1) ⋅ (x2i − x2 )= (5.0 − 5.1) ⋅ (7.2 − 7.65) + ⋅ ⋅ ⋅ + (4.6 − 5.1) ⋅ (6.9 − 7.65) = 0.45
∑
i
Sx1y = (x1i − x1) ⋅ (yi − y)= (5.0 − 5.1) ⋅ (51.7 − 53.41) + ⋅ ⋅ ⋅ + (4.6 − 5.1) ⋅ (50.4 − 53.41) = 15.67
= ∑(x
i
Sx2 y 2i − x2 ) ⋅ (yi − y)= (7.2 − 7.65) ⋅ (51.7 − 53.41) + ⋅ ⋅ ⋅ + (6.9 − 7.65) ⋅ (50.4 − 53.41) = 24.16
i
Syy = ∑(y − y)
i
i
2
= (51.7 − 53.41)2 + ⋅ ⋅ ⋅ + (50.4 − 53.41)2 = 147.19
Métodos Estatísticos de Previsão 48
Exemplo (cont.)
a = αˆ = y = 53.41
A partir de µˆY = 53.41+ 4.34⋅ ( x1i − 5.10) + 2.99⋅ ( x2i − 7.65) pode-se calcular a estimativa de σ2
i
n yn µ̂ eˆ i = yi − µ̂Yn
Yn
1 51.7 51.630 0.070
2 56.4 56.897 -0.497
∑
3 49.3 50.850 -1.550 1 1
s2 = σˆ 2 = ⋅ ên2 = ⋅ [0.072 + ⋅ ⋅ ⋅ + 1.4042 ] = 0.983
4 60.7 60.458 0.242
N − J −1 n
10 − 2 − 1
5 48.9 48.967 -0.067
6 54.1 55.132 -1.032
7 54.9 54.410 0.490
8 49.8 49.306 -0.006
9 57.9 56.956 0.944
10 50.4 48.996 1.404 e estimar a variância dos estimadores:
^ ^
−1 −1
Var(B ) Cov (B ,B ) S S 3.30 0.45 0.300 − 0.018
^ 1 1 2
=σˆ 2
⋅ S
x x x x
= 0.983 ⋅ =
Sx2 x2
1 1 1 2
^ 0.45 7.42 − 0.018 0.133
Cov(B ,B ) Var(B ) x2 x1
2 1 2
^ ^
Var(B1) = 0.300 ⇒σˆ B1 = 0.548 Var(B2 ) = 0.133 ⇒σˆ B2 = 0.365
^
0.018
Cov(B1,B2 ) = −0.018 ⇒ρˆ B1,B2 = − = −0.090
0.548⋅ 0.365
Métodos Estatísticos de Previsão 50
B1 N [β1,Var(B1)]
..............
BJ N [βJ,Var(BJ)]
A −α B1 − β1 B J − βJ
t N−J−1 t N−J−1 t N−J−1
S/ N Vâr(B1 ) Vâr(B J )
Métodos Estatísticos de Previsão 51
α: A ± t N−J−1( γ / 2) ⋅ S ⋅ 1/ N
β j : B j ± t N−J−1( γ / 2) ⋅ Vâr(B j )
Note que, os intervalos assim definidos estão correctamente especificados quando
considerados individualmente. No entanto, o nível de confiança para o conjunto dos
intervalos definidos para A e Bj (j=1,...,J) é, de facto, diferente do considerado.
Teste de Hipóteses:
O teste relativo ao parâmetro α será:
H0: α =α0
A − α0
ET =
H1: α ≠ α0 , α < α0 ou α > α0 S/ N H0 verdadeira ⇒ ET t N−J−1
Métodos Estatísticos de Previsão 52
∑
n
( Yn − Y)2 =
n
∑
[ A + B1.( X1n − X1 ) + L +BJ.( XJn − XJ ) − Y]2 +
1 4
4244 3 1 44444444 42444444444 3
VT=S YY VDR=B1⋅S X1Y +L+BJ ⋅S XJY
+ ∑
n
[ Yn − A − B1.( X1n − X1 ) − L −BJ.( XJn − XJ )]2
1 4444444442444444444 3
VR=S YY −( B1⋅S X1Y +L+BJ ⋅S XJY )
Métodos Estatísticos de Previsão 53
(Variação total)
Exemplo (cont.)
Utilizando os dados do exemplo anterior, vamos testar as hipóteses
H0: β 1 = β 2 = 0
H1: β 1 ou β 2 ≠ 0.
A tabela ANOVA correspondente vem:
FO NTES V A R IA Ç Õ E S G .L . DQM
DR 1 40.3 2 7 0.1 5
R 6.9 7 0 .98 3
T 1 47.2 9
70.15
ET = = 71.34 > F2,7 (α = 0.05) = 4.74
0.983
H0: βj =0
βj
ET = H0 verdadeira ⇒ ET t N−J−1
Vâr(B j )
Métodos Estatísticos de Previsão 56
Exemplo (cont.)
H0:β1 = 0 e H0: β2 = 0
H1: β1 ≠ 0 H1: β2 ≠ 0
b1 4.34
ET = = = 7.92 > t 7 (0.025 ) = 2.365
^ 0.548
Var (B1 )
Exemplo.
Estime e teste o modelo de regressão para as seguintes variáveis:
Y X1 X2
69 60 19
49 90 9
56 95 11
62 100 13
117 180 22
45 85 9
38 80 9
83 230 18
Métodos Estatísticos de Previsão 58
a= 64.88
b1= 0.12
b2= 3.74
ANOVA
FV Var GL DQM ET= 21.93798
DR 4056.595 2 2028.298 F2,5= 5.786135
R 462.2799 5 92.45598
T 4518.875 7 R2xy= 89.77%
Métodos Estatísticos de Previsão 59
Selecção de Regressores
Método Exaustivo
Método Progressivo
1. Ajustar tantos modelos de regressão linear simples quantos os regressores
potenciais. Incluir no modelo aquele que explica a maior proporção da variação
da variável dependente. Se nenhum regressor explicar uma proporção
significativa da variação o método termina.
Exemplo
Considere-se o problema da selecção de regressores admitindo que se dispõe de
20 observações de uma variável dependente (Y) e de três variáveis candidatas a
figurarem como regressores num modelo de regressão múltipla (X1, X2 e X3).
Passo (2) construir os dois modelos de regressão linear dupla Y = Y(X2, X1) e
Y = Y(X2, X3)
Modelo Y = Y(X2, X1): Modelo Y = Y(X2, X3):
Fontes Variações G.L. DQM Fontes Variações G.L. DQM
DR (X2,X1) 120 2 120/2 DR (X2,X3) 135 2 135/2
R 80 17 80/17 R 65 17 65/17
T 200 19 T 200 19
O regressor que explica uma proporção adicional maior da variação total é X3.
Vamos agora de testar se o contributo adicional de X3 para a explicação da
variação de Y é significativo. Para tal tem-se de alterar a tabela ANOVA
correspondente decompondo: Fontes Variações G.L. DQM
DR (X2,X3) 135 2 135/2
DR (X2) (110) (1)
VDR(X2, X3) = VDR(X2) + VDR(X3|X2) DR (X3|X2) (25) (1) 25
R 65 17 65/17
T 200 19
Métodos Estatísticos de Previsão 65
DQMDR( X3 | X2 ) 25
ET = = = 6.54 > F1,17 (0.05) = 4.45
DQMR 65 / 17
Nestas condições, é incluído no modelo o regressor X3, que assim se junta ao
regressor X2
Passo (3) construir o modelo de regressão linear tripla Y = Y(X2, X3, X1)
Fontes Variações G.L. DQM
DR (X2,X3,X1) 140 3 135/2
DR (X2,X3) (135) (2) Neste caso, o teste ANOVA permite verificar
DR (X1|X2,X3) (5) (1) 5 que, a proporção adicional da variação total
R 60 16 60/16
que é explicada por X1 não é significativa
T 200 19
DQMDR( X1 | X 2 , X 3 ) 5
ET = = = 1.33 < F1,16 (0.05) = 4.50 ⇒ H 0 não rejeitada.
DQMR 60 / 16
Métodos Estatísticos de Previsão 66
Método Regressivo
1. Incluir no modelo todos os regressores potenciais.
2. Retirar do modelo, um a um, regressores cuja presença não contribua
para explicar uma proporção significativa da variação total
3. Prosseguir a tentativa de construção de modelos de ordem inferior
adoptando um procedimento idêntico ao descrito.
Y 69 49 56 62 117 45 38 83
X1 60 90 95 100 180 85 80 230
X2 19 9 11 13 22 9 9 18
Métodos Estatísticos de Previsão 68
X
Métodos Estatísticos de Previsão 70
Regressão
Regressão Não-Linear
Método:
1. Transformar a variável X
2. Transformar a variável Y
3. Aplicar método de regressão linear às variáveis transformadas
Métodos Estatísticos de Previsão 72
Exemplo 1
β
Modelo : Yn = α'+ + En
Xn
Uma relação deste tipo pode ser Y
linearizada recorrendo à seguinte
transformação da variável independente
1
Un = X
Xn
Exemplo 2
Exemplo 3
linearização: Un = 1
Xn
Zn = ln( Yn )
Y
Regressão
Regressão Polinomial
Entre uma variável dependente Y e uma variável independente X pode existir uma
relação polinomial de grau J, que pode ser representada por um modelo do tipo:
Yn = α + β1 ⋅ ( Xn − X) + β2 ⋅ ( Xn2 − X 2 ) + L + βJ ⋅ ( XnJ − X J ) + En
1 1 1
Onde X= ⋅ ∑ Xn X 2 = ⋅ ∑ Xn2 ... X J = ⋅ ∑ XnJ
N n N n N n
Regressão Polinomial
75
X Y 70
1 55 65
2 70 60
Y
3 75 55
50
4 65
45
5 60
40
0 1 2 3 4 5 6
MODELO: Yn = α + β1 ⋅ Xn + β2 ⋅ X 2
n
X
Métodos Estatísticos de Previsão 77
Regressão Polinomial
X1 ≡ X
Vamos definir as seguintes variáveis:
X2 ≡ X
2
5 25 60 75
70
⇔ ⇔ 60
Y
b1 ⋅ Sx2x1 + b2 ⋅ Sx2x2 = Sx2y b1 ⋅ 60 + b2 ⋅ 374 = −25 55
50
b1 = 24.1
⇔ 45
b2 = −3.9 40
0 1 2 3 4 5 6
Regressão Polinomial
Regressão Polinomial
2
Coeficiente de Determinação Ajustado ( R XY )
t 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
Zt 100 120 200 307 351 456 690 796 955 1195
Com base nestes dados, efectue previsões dos valores de Zt (para t = 2007, 2008,
2009 e 2010), recorrendo aos seguintes métodos:
i) regressão polinomial;
ii) regressão linear de variáveis transformadas.