Sie sind auf Seite 1von 52

1

Diagnstico na anlise de regresso


O modelo que estamos usando adequado?
Os erros tem distribuio normal?
Os erros so independentes?
Os erros tem varincia constante?
existem valores discrepantes (outliers ) ?
- uma ou mais variveis preditoras importantes foram omitidas do modelo?
Qualidade do modelo
Mtodos grficos
Testes estatsticos
Diagnstico para a varivel preditora
+ Verificar se existe algum valor de X discrepante que possa influenciar o ajuste da funo
de regresso
*
. til para verificar a faixa de validade da anlise de regresso.
*
Ponto influente (Captulo 9 do livro texto).

Seja o exemplo dado em SNEDECOR AND COCHRAN (1976), no livro Statistical methods.
Obs: recomenda-se a leitura do captulo 9 do livro texto.
2
Y=produo de milho;
X
1
=concentrao de fsforo inorgnico
X
2
=concentrao de fsforo orgnico
1=Amostras de solos.
O box-plot no indica que existe algum valor
de X
1
muito distante dos demais, isto , que
foge da distribuio dos demais. A distribuio
um pouco assimtrica.
Outros mtodos:
diagrama de pontos
grfico seqencial
(tempo)
ramo-e-folhas
Exerccio: fazer o
box-plot para X
2
.
Interpretar
3
Exemplo: 26 programas foram monitoradas para estudar a demanda por recursos.
Y=cpu time;
X
1
=disk I/O
X
2
=memory size
Max = 400
Min = 70
75% = 238
25% = 140
Median = 210,5
Box Plot (cputime.STA 10v*26c)
0
50
100
150
200
250
300
350
400
450
TAM_MEMO
4
Resduos
Diagnstico para a varivel resposta realizado atravs de uma anlise de resduos. Os
resduos so definidos como:
i i i
Y Y e

=
Os resduos podem ser considerados como erros observados, para distingui-los do erro
verdadeiro desconhecido c
i
no modelo de regresso:
) (
i i i
Y E Y = c
) , 0 (
2
~
o c N
iid
i
pressuposio
Se o modelo adequado para os dados, os resduos observados devem refletir essas propriedades.
Propriedades dos resduos
0 =

=
n
e
i
e
Mdia
Varincia
QME
n
SQE
n
e
n
e e
i i
= =

2 2 2
) (
2 2
Se o modelo est adequado, o QME um estimador no tendencioso da varincia
do erro (o
2
).
Para o modelo de regresso, temos:
5
Dependncia: os resduos no so variveis aleatrias independentes pois eles
envolvem os valores Y(chapu)
i
os quais so baseados na mesma equao de
regresso.

Quando o tamanho da amostra grande em comparao com o nmero de
parmetros no modelo de regresso, o efeito de dependncia entre os resduos e
i

relativamente sem importncia e pode ser ignorado.
6
Resduos semistudentizados
QME
e
QME
e e
i
i i
e = =

*
Diagnstico:
1. Grfico dos resduos versus variveis preditoras.
2. Grfico dos resduos absolutos ou quadrticos versus variveis preditoras.
3. Grficos dos resduos versus valores ajustados (estimados).
4. Grficos dos resduos versus tempo ou outra sequncia.
5. Grfico dos resduos versus variveis preditoras omitidas do modelo.
6. Box-plot dos resduos.
7. Grfico normal de probabilidades dos resduos.
importante para detectar valores discrepantes.
Grficos utilizados:
7
No linearidade da funo de regresso:
A verificao de que a funo de regresso adequada aos dados pode ser feita atravs do
grfico dos resduos versus valores ajustados ou dos resduos versus variveis preditoras.
Exemplo: Uma pesquisadora estava interessada em estudar o comportamento do pH de tomates
Chronos, inteiros minimamente processados, submetidos ao tratamento vcuo, durante 22 dias de
estocagem, a uma temperatura mdia de 8
o
C e umidade relativa de 62,78%.
A figura apresenta o grfico dos resduos versus a varivel preditora Dias. Note que os desvios a
partir de resduo=zero apresenta um padro sistemtico; eles so positivos para valores baixos de
dias de estocagem, negativos para valores mdios e, novamente, positivos para valores altos.
PH DIAS
1 5,700 1,000
2 5,800 1,000
3 5,600 1,000
4 4,800 8,000
5 4,700 8,000
6 4,600 8,000
7 4,600 15,000
8 4,500 15,000
9 4,500 15,000
10 4,400 22,000
11 4,300 22,000
12 4,200 22,000
Caso verificar-se um comportamento
sistemtico, termos adicionais ou
alternativos devem ser includos no
modelo.
8
Nesta figura temos um prottipo da situao em que um modelo de regresso linear
adequado. Observe que os resduos se distribuem aleatoriamente em torno da mdia
zero.
Pode-se usar, como neste grfico, os resduos versus valores ajustados.
9
Exemplo: a pesquisadora deseja encontrar o modelo de regresso da
porcentagem de acertos sobre o tamanho da cache. Foi usado um modelo RLS.
Regression
95% conf id.
TAMANHO CACHE
S
t
a
n
d
a
r
d

r
e
s
i
d
u
a
l
s
-2,0
-1,4
-0,8
-0,2
0,4
1,0
1,6
2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5
Este grfico de resduos mostra que o modelo de regresso linear simples est
adequado.
10
Heterogeneidade de varincias
O grfico dos resduos versus variveis preditoras ou versus os valores ajustados so
apropriados para examinar a suposio de varincia constante. Geralmente, a falta de
homogeneidade de varincias tende a produzir um grfico com forma de megafone, como na
figura a seguir:
0
e
Exemplo: uma pesquisadora est estudando o comportamento da perda de peso de tomates
Chronos, inteiros minimamente processados, do tratamento controle durante 22 dias de
experimento, estocado a uma temperatura mdia de 8
o
C e umidade relativa de 62,78%.
Menor disperso
Maior disperso
i
Y

11
O grfico dos resduos versus valores preditos (ajustados) mostra que quanto
maiores so os valores preditos maior a disperso dos resduos. Isto sugere que a
varincia maior para os tempos de estocagem maiores.
DIAS PERDAPES
1 1,000 ,700
2 1,000 ,800
3 1,000 ,300
4 1,000 ,400
5 1,000 ,900
6 1,000 1,000
7 8,000 2,500
8 8,000 2,600
9 8,000 2,700
10 8,000 2,800
11 8,000 2,900
12 8,000 3,000
13 8,000 3,200
14 15,000 2,900
15 15,000 5,700
16 15,000 7,100
17 15,000 7,500
18 15,000 7,800
19 15,000 8,700
20 22,000 4,600
21 22,000 5,500
22 22,000 7,700
23 22,000 8,300
24 22,000 9,300
25 22,000 9,500
26 22,000 10,800
27 22,000 11,600
12
Presena de outliers
Outliers so valores extremos, atpicos, ou seja, so observaes que no so bem ajustadas pelo
modelo. Resduos que so outliers podem ser identificados a partir de um grfico dos resduos
versus a varivel preditora ou valores ajustados. Pode-se usar tambm o box-plot ou ramo-e-
folhas. O uso dos resduos semi-studentizados so particularmente teis, pois fcil identificar
resduos que esto muitos desvios padres a partir de zero. Regra: considera-se outliers os
resduos que esto 4 ou mais desvios padres a partir de zero.
O grfico ao lado apresenta os
resduos semi-studentizados e
no contm outliers.
Outliers podem introduzir
grandes dificuldades na anlise
estatstica. Deve-se descartar
um outlier se ele representa um
erro de registro, erro de medida,
falha de equipamento ou algum
outro problema similar.
13
Falta de independncia dos erros
Sempre que os dados so obtidos ao longo do tempo (srie temporal), ou de algum outro tipo de
seqncia (p.e., a seqncia em que os dados foram coletados, reas geogrficas adjacentes),
deve-se fazer um grfico dos resduos versus seqncia.
0
Resduos (e
i
)
tempo
-
-
-
-
-
-
-
-
-
-
-
-
0
Resduos (e
i
)
tempo
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
Quando os resduos so independentes, eles devem se distribuir aleatoriamente em torno de zero.
Deve alternar os pontos em torno de zero. Algumas vezes, o problema de falta de independncia,
devido a alguma varivel importante (p.e. tempo) que foi omitida do modelo. No grfico (b) um
problema de falta de ajuste da funo de regresso (ajuste pobre).
(a)
(b)
14
Para os dados de populao de
Staphilococcus observa-se que os
resduos se distribuem
aleatoriamente em torno de zero.
Falta de normalidade dos erros
Grfico normal de probabilidades (Normal Probability Plot)
Cada resduo grafado com o seu valor esperado sob normalidade. Se o padro de distribuio
linear assume-se que a distribuio dos erros normal, caso contrrio, a distribuio no normal.
Mostra-se que para uma varivel aleatria normal com mdia 0 (zero) e varincia o
2
( quadrado
mdio residual), o valor esperado da k-sima menor observao (observaes ordenadas
crescentemente) numa amostra aleatria de tamanho n :
( ) | |
25 , 0
375 , 0
+

n
k
z QME
z(A) denota o (A)100 percentil da distribuio normal
padro. Qual o valor de z para uma rea acumulada
igual a A?
15
Exemplo: vamos calcular os valores esperados para os dados de populao de Staphilococcus
Resduos e valores esperados sob normalidade - pop. Staphilococcus
Observaes Resduos Posto (Rank) - k Valor esperado sob
normalidade
1 -0,211 2 -0,1657
2 0,375 6 0,3288
3 -0,216 1 -0,3288
4 0,150 5 0,1657
5 -0,097 3 -0,0527
6 -0,001 4 0,0527
Observamos no grfico que os
pontos caem prximos da reta,
sugerindo que a amostra segue
aproximadamente uma distribuio
normal.
A falta de normalidade pode ser
devida a heterogeneidade de
varincias e falta de ajuste do
modelo, portanto, inicialmente
verificar essas suposies.
Obs.: resduos com o mesmo valor: calcular a mdia dos ranks.
Exerccio: obtenha o valor
esperado para a observao 1. Seja
z(0,26)=-0,6433. 2. QME=0,0659
16
Omisso de importantes variveis preditoras
Fazer um grfico dos resduos versus variveis preditoras omitidas do modelo que podem ter
um efeito importante na resposta.
Exemplo: objetivo: estimar o volume da rvore em p a partir de medidas mais facilmente obtidas.
Y=volume da rvore em ps cbicos; X1=dimetro da rvore em polegadas a 4 ps e 6 polegadas
acima do solo; X2=altura da rvore em ps. Foi realizada uma regresso do volume sobre a altura.
Mostra uma relao
linear forte entre os
resduos e a varivel X1
(DAP) ainda no
includa no modelo.
Mostra tambm
heterogeneidade de
varincias.
17
A inclinao sugere a incluso de log dap no
modelo. Eliminou-se a heterocedasticidade.
18
Teste F para falta de ajuste do modelo
(Lack of fit)
Iremos desenvolver um teste formal para verificar se uma especfica funo de
regresso linear simples representa um bom ajuste para os dados.
Suposies:
O teste de ajuste do modelo assume que as observaes Y para um dado X so:
1) independentes
2) normalmente distribudos
3) as distribuies de Y tem a mesma varincia o
2

O teste para falta de ajuste necessita de repeties em um ou mais nveis de X.
Exemplo: num estudo observacional da produtividade de trabalhadores e suas
idades, diversos trabalhadores de mesma idade so includos no estudo; num
estudo experimental para verificar o efeito de seis diferentes porcentagens sobre
as vendas oferecidas aos vendedores (as), pode-se tomar 3 vendedores (as) para
cada porcentagem.
19
Exemplo (Neter et al.) : num experimento envolvendo 12 filiais suburbanas
similares, mas distribudas, de um banco comercial, aos possuidores de conta
bancria nas filiais foram oferecidos presentes para aplicao de dinheiro no
mercado. Um valor mnimo de aplicao foi estabelecido para se qualificar a
receber o presente. O valor do presente foi diretamente proporcional ao valor
mnimo depositado.Vrios nveis de depsitos mnimos iniciais e valores de
presentes foram usados no experimento para se estabelecer a relao entre o
depsito mnimo e o valor do presente, de um lado, e o nmero de contas abertas
nas filiais , de outro. Foram usados seis nveis de depsitos iniciais e os valores
dos presentes, com duas filiais atribudas aleatoriamente para cada nvel. Uma
filial foi eliminada do estudo. Os resultados foram:
Nmero de novas contas abertas nas filiais (Y)
Tamanho mnimo de depsitos Repeties
j=1 j=2 j=3 j=4 j=5 j=6
X
1
=75 X
2
=100 X
3
=125 X
4
=150 X
5
=175 X
6
=200
i=1 28 112 160 152 156 124
i=2 42 136 150 124 104
Mdia j
Y
35 124 155 152 140 114
20
A funo de regresso ajustada aos dados dada por:
X Y 4867 , 0 7225 , 50

+ =
Regression Summary for Dependent Variable: CONTAS
R= ,50850840 R= ,25858079 Adjusted R= ,17620088
F(1,9)=3,1389 p<,11021 Std.Error of estimate: 40,472
St. Err. St. Err.
BETA of BETA B of B t(9) p-level
Intercpt 50,72251 39,39791 1,287442 ,230060
DEPOSITO ,508508 ,287019 ,48670 ,27471 1,771689 ,110212 N.S.
A anlise de varincia fica:
Analysis of Variance; DV: CONTAS (deposito.sta)
Sums of Mean
Squares df Squares F p-level
Regress. 5141,34 1 5141,338 3,138882 ,110212 N.S.
Residual 14741,57 9 1637,952
Total 19882,91
Concluso: indica que a funo de regresso linear no adequada.
Obs.: O vlaor de R
2

no est correto.
21
Predictedvs. Residual Scores
Dependent variable: CONTAS
PredictedValues
R
e
s
i
d
u
a
l
s
-80
-60
-40
-20
0
20
40
60
80 90 100 110 120 130 140 150 160
Existe uma forte
evidncia de que o
modelo de
regresso linear
simples no est
bem ajustado aos
dados.
Notao:
X
j
com j=1,2,...,c indica os nveis da varivel preditora. Para o exemplo, o valor de
c 6. O nmero de repeties para o nvel j de X representado por n
j
; para o
exemplo temos: n
1
=n
2
=n
3
=n
5
=n
6
=2 e n
4
=1. Vamos representar o valor observado
da varivel resposta da i-sima repetio e j-simo nvel de X por Y
ij
, onde
i=1,2,...,n
j
e j=1,2,...,c.
22
Objetivo: Vamos particionar o soma de quadrados do erro em dois componentes:
soma de quadrados do erro puro (modelo completo) e soma de quadrados da falta
de ajuste (modelo reduzido). Vamos fazer o teste para a falta de ajuste do modelo.
Modelo completo
O modelo completo dado por:
(4)
ij j ij
Y c + =
Onde
j
so os parmetros, j=1,2,...,c; c
ij
so independentes N(0,o
2
).
Como a E(c
ij
)=0, segue-se que:
j ij
Y E = ) (
Assim, o parmetro
j
(j=1,2,...,c) a resposta mdia quando X=X
j.

O modelo completo (4) da mesma forma que o modelo de regresso (3) no sentido que
cada resposta Y o resultado de dois componentes: a resposta mdia quando X=X
j
e o
termo do erro aleatrio. A diferena entre eles que no modelo completo (4) no existem
restries sobre as mdias
j
, ao passo que no modelo de regresso (3) as respostas
mdias so linearmente dependentes com X, ou seja, E(Y)=|
0
+|
1
X.
23
Demonstra-se que os estimadores de mnimos quadrados ou mxima
verossimilhana de
j
so simplesmente as mdias amostrais no j-simo nvel:
j j
Y =

Assim o valor esperado estimado de Y


ij
:
j ij
Y Y E = ) (

E a soma de quadrados do erro do modelo completo dada por:

= =
j i
j ij
Puro Erro SQ Y Y C SQErro
2
) ( ) (
A soma de quadrados do erro puro atribudo essencialmente ao acaso (o
2
). entre
os valores de ys observados. No importa qual a funo de regresso adequada.
Para o exemplo temos:
1148
) 114 104 ( ... ) 35 42 ( ) 35 28 (
2 2 2
=
+ + + =
puro erro
puro erro
SQ
SQ
24
Os graus de liberdade associados com a soma de quadrados do erro puro dado
por:

= = =
j
j
j
j C
c n c n n gl ) 1 (
Para o exemplo, temos: 11-6=5 graus de liberdade.
Modelo reduzido ( modelo sob hiptese, em estudo)
Devemos levar em considerao o modelo que est sob estudo, isto , sob
hiptese. Neste caso, estamos considerando um modelo de regresso linear
simples, portanto, as hipteses so:
X Y E H
X Y E H
a 1 0
1 0 0
) ( :
) ( :
| |
| |
+ =
+ =
Pela hiptese nula,
j
no modelo completo (4) est linearmente relacionada com
X
j
, do seguinte modo:
j j
X
1 0
| | + =
Dessa forma, o modelo em estudo, sob H
0
, dado por:
(5) X Y
ij j ij
c | | + + =
1 0
25
Este modelo justamente o modelo de regresso linear simples (3), com os
ndices para reconhecer as repeties e os nveis da varivel preditora.
Sabemos que:
j ij
X b b Y
1 0

+ =
Portanto, a soma de quadrados do erro do modelo em estudo, exatamente a
soma de quadrados do erro usualmente calculado:
SQE R SQErro
Y Y R SQErro
X b b Y R SQErro
i j
ij ij
i j
j ij
=
=
+ =

) (
)

( ) (
)) ( ( ) (
2
2
1 0
Da tabela da anlise de varincia obtemos:
R SQErro 6 , 741 . 14 ) ( =
O clculo dos graus de liberdade dado por:n-2. No exemplo,
temos: 11-2=9.
26
Teste para falta de ajuste (lack of fit)
Vimos que o teste dado por:
) ( ) ( ) 2 (
) ( *
c n
SQErroPuro
c n n
SQErroPuro R SQErro
F


=
A soma de quadrados para falta de ajuste calculada por:
SQFA=SQER-SQEP
(Veja grfico adiante)
Podemos escrever o teste F
*
como:
QMEP
QMFA
c n
SQEP
c
SQFA
F
F
=
=

*
) ( ) 2 (
*
C C R
gl
C SQE
gl gl
C SQE R SQE
F
) ( ) ( ) ( *
=

Aqui fica:
27
Rejeitamos H
0
se F
*
> F(o; (c-2),(n-c)) o modelo no est bem ajustado aos
dados.
**
Usar o valor p.
Exerccio: faa o este F
*
para o exemplo e conclua.
gl 4 2 - 6 com SQFA = = = 6 , 13593 1148 6 , 14741
adequado. est no regresso de modelo o
F
F

=
= = =
4 , 11 ) 5 ; 4 ; 01 . 0 (
801 , 14
6 , 229
4 , 3398 *
5
1148
4
6 , 13593
28
Tabela da anlise de varincia
A decomposio da soma de quadrados do erro em soma de quadrados do erro puro
e falta de ajuste, segue da seguinte identidade:
)

( ) (

ij j j ij ij ij
Y Y Y Y Y Y + =
Desvios da
regresso
Erro puro Falta de
ajuste
A figura a seguir ilustra esta partio com o exemplo do banco comercial para a
observao Y
13
=136, X
3
=100.
29
CONTAS=50,723+,48670* DEPOSITO
DEPOSITO
C
O
N
T
A
S
30
45
60
75
90
105
120
135
150
165
60 70 80 90 100 110 120 130 140 150 160 170 180
) 6 , 36

(
22 22
= Y Y
Y
22
=136
124
2
= Y
Erro puro
Falta de ajuste
) 6 , 24

(
22 2
= Y Y
) 12 (
2 22
= Y Y
Erro
4 , 99

22
= Y
30
Como todos os Y
ij
, num mesmo nvel X
j
, tem o mesmo valor ajustado, representados
por Y
j
(chapu), podemos escrever a soma de quadrados para falta de ajuste como:

=
=
c
j
j j j
) Y

Y ( n SQFA
1
2
Observe, na frmula, que se a funo de regresso linear simples est bem
ajustada aos dados, ento as mdias das observaes vo estar prximas dos
valores estimados e a soma de quadrados para falta de ajuste ser pequena
0

~ ~ SQFA Y Y
j j
Por outro lado, se a funo no est bem ajustada aos dados, a SQFA ser maior.
Como temos c mdias na soma de quadrados para falta de ajuste e 2 graus de
liberdade so perdidos para estimarmos os parmetros |
0
e |
1
do modelo de
regresso, o nmero de graus de liberdade associados a soma de quadrados c-2.
A soma de quadrados do erro puro dada por:

= =

c
j
n
i
j ij
j
) Y Y (
1 1
2
31
Tabela geral da ANOVA
Causas de
variao
Soma de quadrados Graus de
liberdade
Quadrados mdios F
Regresso
SQR=


2
)

( Y Y
ij
1 QMR=SQR/1 QMR/QME
Erro
SQE=

2
)

(
ij ij
Y Y
n-2 QME=SQE/(N-2)
Falta de ajuste
SQFA=


2
)

(
ij j
Y Y
(c-2) QMFA=SQFA/(C-2) QMFA/QMEP
Erro puro SQEP=

2
) (
j ij
Y Y
(n-c) QMEP=SQEP/(N-C)
Total SQT=

2
) ( Y Y
ij n-1
Tabela da ANOVA para o exemplo do banco comercial
Causas de
variao
Soma de quadrados Graus de
liberdade
Quadrados mdios F
Regresso 5.141,3 1 5.141,3 3,14
NS
Erro 14.741,6 9 1.638,0
Falta de ajuste 13.593,6 (4) 3.398,4 14,80
**
Erro puro 1.148,0 (5) 229,6
Total 19.882,9 10
A seguir apresentamos a tabela da ANOVA geral e para o exemplo do banco
comercial.
R
2
=SQR/(SQTOTAL-SQEP)=5141,3/(19882,9-1148,0)=0,2744
32
Pode-se mostrar que as esperanas dos quadrados mdios so dadas por:
2
)] ( [
2
2
2
1 0
) (
) (

+ =
=
c
X n
j j j
QMFA E
QMEP E
| |
o
o
O QMEP um estimador no tendencioso da varincia o
2
, seja qual for o modelo de
regresso.
O valor esperado do QMFA tambm o
2
se a funo de regresso linear, pois

j
=|
0
+|
1
X
j
, ento o segundo termo nulo. Por outro lado, se a funo de regresso
no linear,
j
=|
0
+|
1
X
j
, e a E(QMFA) ser maior do que o
2
. Ento:
dados aos ajustado bem est no ples linear sim modelo o 1 F
adequado regresso de modelo o F
>>
~1
Valor p: 0 ,110158 (com 1 e 9 gl e F=3,14)
Valor p: 0,005595 (com 4 e 5 gl F=14,80)
Concluso: o modelo de regresso linear simples no adequado para os dados.
33
Os termos SQE e QME no so precisos quando o modelo de regresso sob
hiptese em H
0
no a funo verdadeira pois a SQE e o QME refletem os efeitos
da falta de ajuste e a variabilidade do termo dos erros. Continuaremos usando a
mesma terminologia para que se tenha coerncia e agora usar o termo erro puro
para identificar a variabilidade associada apenas com o termo do erro.

O teste aqui aplicado pode ser usado para testar o ajuste de outras funes de
regresso.

Quando aceitamos que o modelo em estudo apropriado, na prtica usual usar o
quadrado mdio do erro, QME, como um estimador de o
2
, em preferncia ao
quadrado mdio do erro puro, pois o QME contm mais graus de liberdade.
34
Admite-se que as variveis X e Y esto relacionadas de acordo com modelo
Y
ij
=|
0
+|
1
X
j
+c
ij
, onde os c
ij
so variveis aleatrias independentes com distribuio
normal de mdia zero e varincia o
2
.
a) determine as estimativas dos parmetros da regresso linear;
b) faa a anlise de varincia e interprete o valor de F;
c) verifique se h razes para rejeitar o modelo linear inicialmente proposto.
d) fazer um grfico dos valores ajustados versus resduos.
e) Calcule o coeficiente de determinao (r
2
)

X
j
Y
ij
X
j
Y
ij
X
j
Y
ij
1 2 2 8 5 11
1 4 2 6 5 10
1 3 4 9 5 16
1 5 4 13 5 9
Exerccio: dada uma amostra de 12 valores
Y Y Y Y 5 , 11 0 , 11 0 , 7 5 , 3
5 4 2 1
= = = =
35
Analysis of Variance; DV: Y (dozepare.sta)
Sums of Mean
Squares df Squares F p-level
Regress. 144,0000 1 144,0000 28,80000 ,000316
Residual 50,0000 10 5,0000
Total 194,0000
Regression Summary for Dependent Variable: Y
R= ,86154979 R= ,74226804 Adjusted R= ,71649485
F(1,10)=28,800 p<,00032 Std.Error of estimate: 2,2361
St. Err. St. Err.
BETA of BETA B of B t(10) p-level
Intercpt 2,000000 1,290994 1,549193 ,152378
X ,861550 ,160540 2,000000 ,372678 5,366563 ,000316
A soma de quadrados do erro do modelo completo (ou soma de quadrados do erro puro)
vale:

= = + + + = gl 4 - 12 com Y Y
j ij
8 44 ) 5 , 11 9 ( ... ) 5 , 3 4 ( ) 5 , 3 2 ( ) (
2 2 2 2
36
A soma de quadrados do erro do modelo reduzido (ou soma de quadrados do erro)
vale:
gl 10 com SQER 00 , 50 =
A soma de quadrados de falta de ajuste vale:
gl 2 2 - 4 com SQFA = = = 6 44 50
O teste F fica:
proposto linear modelo o rejeitamos no 0,597303 : p valor
gl 8 e 2 com F

= = 55 , 0
8
44
2
6
( )
96 0
44 194
00 144
2
,
,
r =

=
37
Algumas medidas para contornar problemas do
modelo de regresso
Modelo de regresso linear
simples no adequado
Usar um modelo apropriado
Usar transformaes
No linearidade do modelo de regresso
) (logstico ) (
al) (Exponenci ) (
) (
) exp(
i 2 1
0
X 1
X
1 0
2
2 1 0
Y E
Y E
X X Y E
| |
|
| |
| | |
+
=
=
+ + =

Mudar o modelo
Usar transformao (ser visto na prxima seo)
Varincias heterogneas
Usar o mtodo de mnimos quadrados ponderados para estimar os parmetros
Usar transformao (ser visto na prxima seo)
38
Erros correlacionados
Usar modelos que levam em considerao a dependncia entre os erros
(modelos de sries temporais, modelar a matriz de covarincias)
Usar transformao
Falta de normalidade
A falta de normalidade geralmente vem junto com falta de homogeneidade de
varincias. Frequentemente, a mesma transformao estabiliza a varincia e
aproxima para normalidade, portanto, primeiro usar uma transformao para
estabilizar a varincia (ser visto na prxima seo).
Omisso de varivel preditora importante
Modificar o modelo (Regresso linear mltipla)
Outliers
Usar procedimentos de estimao robustos (mtodo dos mnimos
quadrados reponderados iterativamente), pois os mtodos de mnimos
quadrados e mxima verossimilhana produzem estimativas distorcidas.
) (
1
'

=
t t t
Y Y Y
39
Transformaes
Transformao da varivel Y ou da varivel preditora X, ou de ambas, frequentemente
suficiente para tornar o modelo de regresso linear simples apropriado para os dados
transformados.
Transformaes para no linearidade do modelo
Vamos considerar algumas transformaes quando a distribuio dos erros aproximadamente
normal e com varincia constante. Deve-se realizar uma transformao apenas na varivel X.
X X
X X
=
=
'
log
10
'
) exp( '
2 '
X X
X X
=
=
) exp(
/ 1
'
'
X X
X X
=
=
Padres de relao entre X e Y
40
Exemplo: Uma pesquisadora estava interessada em estudar o comportamento do pH de tomates
Chronos (Y), inteiros minimamente processados, submetidos ao tratamento vcuo, durante 22 dias
de estocagem (X), a uma temperatura mdia de 8
o
C e umidade relativa de 62,78%.
DiagramadedispersodosdadosdetomatesChronos: pH(Y) edias(X)
DIAS
P
H
4,0
4,4
4,8
5,2
5,6
6,0
-2 2 6 10 14 18 22 26
O diagrama de
disperso indica uma
relao curvilnea. A
variabilidade nos
diferentes nveis de X
parece constante,
portanto, vamos
considerar a
transformao X

=1/X.
41
Valores originais e os valores transformados (1/X).
PH DIAS 1/DIAS
1 5,700 1,000 1,000
2 5,800 1,000 1,000
3 5,600 1,000 1,000
4 4,800 8,000 ,125
5 4,700 8,000 ,125
6 4,600 8,000 ,125
7 4,600 15,000 ,067
8 4,500 15,000 ,067
9 4,500 15,000 ,067
10 4,400 22,000 ,045
11 4,300 22,000 ,045
12 4,200 22,000 ,045
Dadostransformados(1/X)
1/DIAS
P
H
4,0
4,4
4,8
5,2
5,6
6,0
-0,1 0,1 0,3 0,5 0,7 0,9 1,1
Os dados continuam mostrando um comportamento curvilneo. A variabilidade nos diferentes nveis
de X continua constante (pois no foi feita a transformao em Y).
Exerccio: usar a transformao X

=log10(X). Fazer a anlise de resduos para ver se a transformao


foi efetiva.
*
Nota: fazer anlise de resduos para verificar a transformao mais efetiva.

42
Transformaes para no normalidade e heterocedasticidade
A transformao
log
10
(dias)
linearizou a funo
de regresso. A
variabilidade
permanece
constante.
43
A figura ilustra algumas formas de relacionamento onde a assimetria e as varincias aumentam
com a reposta mdia E(Y).
Transformaes sobre Y:
Y Y
Y Y
Y Y
/ 1
log
'
10
'
'
=
=
=
Nota: uma transformao
em X pode ser til ou
necessrio.
Fazer anlise de resduos
Varincias heterogneas e no normalidade dos erros frequentemente aparecem juntas. Necessita-se
fazer uma transformao em Y, pois a forma e a disperso em Y precisam ser modificadas. A
transformao em Y pode tambm eliminar o problema de no linearidade do modelo. Outras vezes
uma transformao tambm em X necessria para manter ou obter uma relao linear.
44
Exemplo: objetivo: estimar o volume da rvore em p a partir de medidas mais facilmente obtidas.
Y=volume da rvore em ps cbicos; X1=dimetro da rvore em polegadas a 4 ps e 6 polegadas
acima do solo; X2=altura da rvore em ps.
Observamos maior variabilidade para valores maiores
de altura. A relao entre volume e altura linear.
ALTURA VOLUME UM_VOLUM
70,000 10,300 ,097
65,000 10,300 ,097
63,000 10,200 ,098
72,000 16,400 ,061
81,000 18,800 ,053
83,000 19,700 ,051
66,000 15,600 ,064
75,000 18,200 ,055
80,000 22,600 ,044
75,000 19,900 ,050
79,000 24,200 ,041
76,000 21,000 ,048
76,000 21,400 ,047
69,000 21,300 ,047
75,000 19,100 ,052
74,000 22,200 ,045
85,000 33,800 ,030
86,000 27,400 ,036
71,000 25,700 ,039
64,000 24,900 ,040
78,000 34,500 ,029
80,000 31,700 ,032
74,000 36,300 ,028
72,000 38,300 ,026
77,000 42,600 ,023
81,000 55,400 ,018
82,000 55,700 ,018
80,000 58,300 ,017
80,000 51,500 ,019
80,000 51,000 ,020
87,000 77,000 ,013
45
Transformao: valores inverso de Y (1/Y).
Diagramadedisperso: alturaversus1/volume
Alturadasrvores
1
/
v
o
lu
m
e

(
t
r
a
n
s
f
o
r
m
a

o
)
0,00
0,02
0,04
0,06
0,08
0,10
0,12
60 66 72 78 84 90
Note que a transformao
tornou a varincia
razoavelmente constante
para os diferentes nveis de
X.
O modelo de regresso linear simples ajustado aos dados com a transformao
Y

=1/Y dado por:


X Y 002377 , 0 22386 , 0

'
=
Exerccio: fazer o grfico normal de probabilidades dos resduos. Interpretar.
46
Rawresidualsvs. ALTURA
ALTURA
R
a
w

r
e
s
id
u
a
ls
-0,04
-0,03
-0,02
-0,01
0,00
0,01
0,02
0,03
0,04
0,05
60 66 72 78 84 90
Indica que o modelo
apropriado para os dados
transformados
Se desejamos estimar os valores de
Y, na unidade original, fazemos:
X
Y
002377 , 0 22386 , 0
1

=
Transformao Box-Cox
A transformao Box-Cox automaticamente identifica uma transformao a partir de uma
famlia de transformaes potncia de Y. A famlia de transformaes potncia dada por:

Y Y =
'
Onde um parmetro a ser determinado a partir dos dados da amostra. Esta famlia
inclui, por exemplo,
Y
'
e
'
Y
'
' '
Y -1,0 def inio) (por Y Y
Y
Y Y 0,5 Y Y
1
1
2
log 0
5 , 0
2
= = = =
= =
= = = =



47
O modelo de regresso com erros normais com a varivel resposta pertencente a famlia de
transformao potncia fica:
i i i
X Y c | |

+ + =
1 0
O procedimento Box-Cox usa o mtodo de mxima verossimilhana para estimar , |
0
, |
1
e o
2
.
A funo de verossimilhana dada por:
(

=

=

n
i
i i
X Y L
n
1
2
1 0
2
1
) 2 (
1
2
1 0
) ( exp ) , , , (
2 2 / 2
| | o | |

o to
Desta forma, o procedimento de Box-Cox encontra a estimativa de mxima verossimilhana de
para usar na transformao potncia.
48
Procedimento (simples) para obter uma estimativa de
Vamos usar a anlise de regresso padro do modelo de regresso linear simples
Vamos fazer uma busca numrica (menor SQE) para uma faixa de valores de
lambda, por exemplo:
2 1 0,5 0 -0,5 -1 = = = = = = = 2
Para cada valor de , as observaes Y
i

so padronizadas do seguinte modo:




1
2
1
1
/ 1
1
2
2
1
) (log
) 1 (

=
|
.
|

\
|
=

=
=
=
[
=

K
n
n
i
i
i e
i
i
K
Y K
0 Y K
0 Y K
W
Faz-se a regresso das observaes W
i
sobre X e obtm-se as SQE.. Pode-se
mostrar que a estimativa de mxima verossimilhana de o valor de para a
qual a SQE mnima.
49
1 0,3 0,2 0,1 0 -0,1 2 , 0 -0,3 1 = = = = = = = = =
Exemplo: continuamos com o exemplo das rvores (X=altura e Y=volume). Vamos
tomar os seguintes valores para lambda
00 , 1 -0,30 2 , 0 10 , 0 00 , 0 10 , 0 20 , 0 30 , 0 00 , 1
K
2
26,3833 26,3833 26,3833 26,3833 26,3833 26,3833 26,3833 26,3833 26,3833
K
1
-696,0792 -34,0792 -253,8430 -365,9841 190,1938 68,5541 32,9465 1
SQE 4201,9 3324,5 3310,3 3319,8 3352,9 3409,7 3490,5 3596,3 5204,9
Observe na tabela acima que a transformao Box-Cox indica prximo de -0,20. Entretanto, a
SQE aproximadamente estvel na faixa de -0,30 a 0,00, portanto, vamos usar a transformao
logartmica por ser a preferida dos pesquisadores ( uma transformao que os pesquisadores
entendem melhor). A transformao Box-Cox d um direo no sentido da escolha da melhor
transformao.
Observe que a transformao usada anteriormente, 1/Y, no foi razovel de acordo com
transformao de Box-Cox. (compare os dois grficos de resduos).
Quando a transformao Box-Cox produz um prximo de 1, no necessrio transformar os
dados.
50
Rawresidualsvs. ALTURA
Altura
R
a
w

r
e
s
id
u
a
ls
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
60 66 72 78 84 90
Indica a adequao
do modelo de
regresso para os
dados transformados
(transformao
logartmica)
51
Estudo da forma da funo de regresso
Mtodo Loess
(Locally weighted regression scatterplot smoothing)
um mtodo no paramtrico de ajuste de curvas. Fornece uma curva alisada
(suavizada) atravs do ajuste de vrias funes de regresso linear em pontos
vizinhos.
indicada em casos de difcil deciso sobre a aplicao de uma curva
paramtrica. Tambm em presena de valores discrepantes.
** Fazer lista de exerccios nmero 3.
52
20 40 60
AGE
I
N
C
O
M
E
Este grfico foi feito no SAS (Interactive Data Analysis), arquivo: sasuser.custdet1.

Das könnte Ihnen auch gefallen