Modelo Linear

Captulo 3
O Modelo Linear
Recorde-se a denio do Modelo Linear discutida no Captulo introdutrio, e sintetizada na pgina 4.
Para um conjunto de observaes sobre uma varivel resposta (aleatria) Y , e variveis preditoras (com
valores previamente xados) X
0
, X
1
, X
2
, ..., X
p
, observadas em n indivduos:
O Modelo Linear
Os n conjuntos

(x
0
(i)
, x
1
(i)
, x
2
(i)
, ..., x
p
(i)
, Y
i
)
, onde x
0
(i)
, x
1
(i)
, x
2
(i)
, ..., x
p
(i)
so valores considerados
constantes e Y
i
so variveis aleatrias, vericam:
1. Y
i
=
0
x
0
(i)
+
1
x
1
(i)
+
2
x
2
(i)
+... +
p
x
p
(i)
+
i
, i = 1 : n.
2.
i
^(0,
2
), i = 1 : n.
3.
i
n
i=1
so variveis aleatrias independentes.
Utilizando uma notao matricial, possvel escrever este modelo de forma mais compacta. Sejam:
Y =
Y
1
Y
2
.
.
.
Y
n
o vector das n variveis aleatrias resposta.

=
1
.
.
.
o vector dos p + 1 parmetros (constantes) do modelo.

47
CAPTULO 3. O MODELO LINEAR
X =
x
0
(1)
(1) x
1
(1)
x
2
(1)
x
p
(1)
x
0
(2)
(1) x
1
(2)
x
2
(2)
x
p
(2)
x
0
(3)
(1) x
1
(3)
x
2
(3)
x
p
(3)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
0
(n)
(1) x
1
(n)
x
2
(n)
x
p
(n)
a matriz de dimenses n (p + 1) cujas colunas so dadas

pelas observaes de cada varivel preditora; caso o Mod-
elo tenha a constante aditiva
0
, a primeira coluna consti-
tuda por uns (os valores da varivel associados constante
0
).
=
2
.
.
.
o vector dos n erros aleatrios.

Como um vector aleatrio cujas n componentes sejam variveis aleatrias Normais ^(0,
2
), indepen-
dentes tem distribuio conjunta Multinormal com vector mdio 0 = (0, 0, ..., 0)
t
e matriz de varincias-
covarincias =
2
I
n
, onde I
n
representa a matriz identidade nn (vejam-se os Apontamentos da Prof
a
Manuela Neves, na disciplina de Complementos de Probabilidades e Estatstica, ou a seco na pgina
56 destas folhas), tem-se:
O Modelo Linear na forma matricial
Sejam Y e variveis aleatrias, X uma matriz constante e um vector constante, compatvel na
multiplicao com X. Ento:
1. Y = X +
2. ^
n
(0,
2
I
n
)
Como j se referiu, o pressuposto de que os valores das variveis preditoras X
0
, X
1
, ..., X
p
so constantes
, tal como os pressupostos relativos aos erros aleatrios, ditado essencialmente pelas assinalveis simpli-
caes que se introduzem no estudo do Modelo quando as variveis preditoras podem ser consideradas
no-aleatrias. Este presssuposto pode ser encarado de uma de duas formas: ou pensar que os valores das
variveis preditoras foram previamente xados pelo experimentador, opo que realista nalguns con-
textos, mas no noutros; ou, alternativamente, considerar que o que se xa a relao de Y, condicional
aos valores x
0
, x
1
, ..., x
p
das variveis preditoras.
3.1 Estimao de Parmetros no Modelo Linear
Consideremos a equao matricial com a relao entre varivel resposta e variveis preditoras no Modelo
Linear, isto : Y = X+. Os parmetros do modelo, isto , as constantes do vector , so desconhecidos,
e o primeiro objectivo do estudo do modelo ser o de estimar esses parmetros, utilizando n conjuntos
de observaes, da forma (x
0(i)
, x
1(i)
, x
2(i)
, ..., x
p(i)
, y
i
), com i = 1, ..., n.
A estimao dos parmetros exige a denio de um mtodo de estimao. A considerao da geometria
subjacente ao Modelo Linear sugere um tal mtodo.
ISA/UTL Mestrado em Matemtica Modelao Estatstica I 2009/2010 48
3.1. ESTIMAO DE PARMETROS NO MODELO LINEAR
Para introduzir a geometria do problema, utilizemos as representaes das observaes no espao IR
n
,
associando eixos a indivduos observados, e pontos/vectores a variveis, tal como foi referido na seco
Aplicaes Estatsticas da pgina 40
1
. A partir das denies da pgina 47, e considerando os valores
de Y efectivamente observados, y ser um vector de IR
n
, tal como o so as p + 1 colunas da matriz
X. O produto X representa uma combinao linear das colunas da matriz X, e ser assim um vector
do subespao de IR
n
gerado pelas colunas de X, o subespao ((X). Caso as p + 1 colunas de X sejam
linearmente independentes, este subespao ((X) ter dimenso p+1, e as colunas de X formam uma base
do subespao ((X). Esta situao facilita consideravelmente o estudo que se segue, pelo que passaremos
a admitir, sem perda de generalidade, que ela se verica.
No que se segue, admitir-se- sempre que n p +1. E admitir-se- tambm que as colunas de X so
linearmente independentes. Caso o no sejam, ser sempre possvel retirar colunas da matriz X (isto
, parcelas na parte sistemtica do Modelo Linear) at car apenas com colunas que formem uma
base do espao gerado pelas colunas da matriz X inicial.
3.1.1 Mtodo dos Mnimos Quadrados
Do ponto de vista geomtrico, estimar o vector (desconhecido) X signicar escolher um vector (em
geral diferente) do subespao ((X), necessariamente da forma X
para algum vector

IR
p+1
. Uma
escolha geometricamente plausvel ser a do vector do subespao ((X) que esteja mais prximo do vector
observado y. Como estamos no espao IR
n
, usando o habitual produto interno e norma Euclidianos, o
problema ser o de escolher para

o vector que (entre todos os vectores de dimenso p + 1), minimize:
|y y| com y = X
Pelo que foi visto no Captulo introdutrio (Teorema 2.20, pgina 30), este problema tem como soluo
y a projeco ortogonal do vector das observaes de Y sobre o subespao gerado pelas
colunas da matriz X. Isto , toma-se:
y = P
X
y = X(X
t
X)
1
X
t
y (3.1)
Isso corresponde a tomar para vector dos coecientes estimados:
= (X
t
X)
1
X
t
y (3.2)
Observaes:
1. A expresso agora obtida s faz sentido caso a matriz quadrada X
t
X (de dimenses (p+1)(p+1))
seja invertvel, isto , se a caracterstica de X
t
X fr p + 1. Resultados de lgebra Linear e Teoria
de Matrizes mostram que as caractersticas duma matriz X e da matriz X
t
X so sempre iguais (ver
apontamentos da disciplina de Estatstica Multivariada), pelo que a nossa exigncia anterior quanto
independncia linear das colunas de X suciente para garantir a existncia destas estimativas.
1
Recorde-se que as representaes grcas mais frequentes de dados observados em duas ou trs variveis correspondem
a uma viso diferente, em que cada eixo corresponde a uma varivel e cada ponto a um dos n indivduos observados. As
duas representaes esto relacionadas, mas so diferentes.
2. O vector y da equao (3.1) uma combinao linear das colunas da matriz X. O vector de
coecientes dessa combinao linear s pode ser o

da equao (3.2), uma vez que as colunas de
X formam uma base do espao que geram: existe uma forma nica de escrever os vectores desse
espao como combinao linear dos vectores da base, e essa forma nica, no caso do vector y,
dada pelos coecientes indicados na equao (3.2).
Com base nestas estimativas dos parmetros , obtemos os valores previstos para a varivel resposta
Y , associados aos valores das variveis preditoras anteriormente considerados:
y
i
=

0
x
0(i)
+

1
x
1(i)
+ ... +

p
x
p
(i)
diferena entre valores observados e valores previstos de Y chama-se resduos, sendo o i-simo (i =
1 : n) resduo dado por:
e
i
= y
i
y
i
= y
i
(

0
x
0(i)
+

1
x
1(i)
+... +

p
x
p
(i)
) (3.3)
Se o vector dos n valores previstos de Y no mais que a projeco ortogonal do vector de observaes
de Y no subespao gerado pelas colunas da matriz X ( y = P
x
y), o vector dos n resduos a projeco
do vector de observaes de Y no complemento ortogonal do subespao gerado pelas colunas da matriz X:
e = y y = y P
x
y = (I
n
P
x
)y (3.4)
Estas estimativas dos parmetros foram obtidas minimizando a norma |y y| = |e| ou, o que
equivalente, o seu quadrado |e|
2
=
n
i=1
e
2
i
. Esta expresso designada a Soma dos Quadrados
dos Resduos, SQRE. Pode assim armar-se que o mtodo de estimao usado foi o de procurar
os parmetros

0
,

1
, ...,

p
que minimizassem a Soma dos Quadrados dos Resduos. Trata-se de uma
particularizao do mtodo geral de estimao designado Mtodo dos Mnimos Quadrados. As
consideraes geomtricas subjacentes a este mtodo apenas zeram uso da primeira das duas condies
do Modelo Linear (seco 3), isto , da relao de fundo entre varivel resposta e variveis preditoras
dada por Y = X. No foram necessrios os pressupostos distribucionais sobre os erros aleatrios para
obter estas estimativas pelo Mtodo dos Mnimos Quadrados.
Os estimadores de Mnimos Quadrados dos parmetros do Modelo Linear, acabados de deduzir, so
tambm os estimadores que se obteria utilizando os pressupostos distribucionais do Modelo Linear e
o Mtodo da Mxima Verosimilhana, estudado na disciplina de Complementos de Probabilidades e
Estatstica. Esta questo ser discutida no nal da Seco 3.3.
3.2 Propriedades de Modelos com constante aditiva
Assinalem-se agora propriedades algbricas importantes associadas aos estimadores acima deduzidos, e
resultantes da formulao do Modelo Linear com uma constante aditiva
0
. Mais concretamente, admita-
se que o subespao gerado pelas colunas da matriz X contem o vector 1
n
de n uns, o que ser
sempre o caso se se admitir um modelo com constante aditiva
0
. Ento:
3.2. PROPRIEDADES DE MODELOS COM CONSTANTE ADITIVA
1. A soma e o valor mdio dos resduos zero, uma vez que a soma dos resduos dada por
1
n
t
e = 1
n
t
(I
n
P
x
)y = (1
n
t
1
n
t
)y = 0. De facto, recorde-se que a projeco dum vector sobre
um subespao que o contm deixa esse vector invariante (observao na pg. 29), pelo que P
x
1
n
=
1
n
. A mdia dos resduos (a soma dos resduos a dividir por n) ter ento de ser igualmente zero.
2. As mdias dos valores observados e previstos de Y coincidem. De facto, a mdia de y :
y =
1
n
1
n
t
y =
1
n
1
n
t
P
x
y =
1
n
1
n
t
y = y
3. Na outra representao possvel dos dados, em IR
p+1
, associando cada eixo a uma das variveis (as
p variveis preditoras, e a varivel Y ), as linhas da matriz X denem n pontos no espao. O centro
de gravidade dessa nuvem de pontos ser o ponto de coordenadas (x
1
, x
2
, ..., x
p
, y), onde x
i
indica
a mdia das n observaes na varivel x
i
, e y indica a mdia das n observaes da varivel resposta.
Esse ponto satisfaz a equao y = (1, x
1
, x
2
, ..., x
p
)
t
y =

0
+

1
x
1
+

2
x
2
+ ... +

p
x
p
. De
facto, a mdia das observaes das variveis X so dadas pelo vector (pgina 41)
1
n
1
n
t
X. Ora:
1
n
1
n
t
X
=
1
n
1
n
t
X(X
t
X)
1
X
t
y =
1
n
1
n
t
y = y
Este facto signica que o hiperplano em IR
p+1
denido pela equao y = x
t
contm
o centro de gravidade da nuvem dos n pontos observados. Convm assinalar que esta
propriedade no foi uma condio explicitamente exigida, mas antes uma consequncia da geometria
associada ao problema quando 1
n
((X). Convm tambm distinguir este hiperplano ajustado (o
hiperplano y = x
t
) do hiperplano terico por ele estimado (o hiperplano y = x
t
). Um bom
ajustamento signicar que se trata de dois hiperplanos prximos, mas so em geral diferentes.
Vejamos agora resultados importantes relativos Soma dos Quadrados dos Resduos e outras quan-
tidades relacionadas com essa Soma.
O Teorema de Pitgoras (pgina 30) garante-nos que:
|y|
2
= | y|
2
+|e|
2
ou, equivalentemente:

n
i=1
y
2
i
=
n
i=1
y
2
i
+
n
i=1
e
2
i
. A segunda parcela do lado direito , como vimos,
a Soma dos Quadrados dos Resduos. As outras duas somas de quadrados no so de grande interesse
estatstico, tratando-se dos numeradores dos momentos no-centrados de segunda ordem dos valores
observados e previstos de Y . De maior interesse estatstico seriam os momentos centrados de segunda
ordem, associados s varincias desses valores. Se o vector de n uns, 1
n
, pertence ao subespao
gerado pelas colunas de X, fcil introduzir os numeradores das varincias de valores observados e
previstos na equao anterior. De facto,
|y|
2
= | y|
2
+|e|
2
n
i=1
y
2
i
=
n
i=1
y
2
i
+
n
i=1
e
2
i

n
i=1
y
2
i
ny
2
=
n
i=1
y
2
i
ny
2
+
n
i=1
e
2
i
n
i=1
(y
i
y)
2
=
n
i=1
( y
i
y)
2
+
n
i=1
e
2
i
A expresso do membro esquerdo o numerador da varincia amostral dos valores observados de Y ,
(n1) s
2
y
, e designada a Soma de Quadrados Total, SQT. A primeira parcela no membro direito da
equao o numerador da varincia amostral dos valores de Y previstos pelo Modelo ajustado, (n1) s
2
y
,
e designa-se a Soma de Quadrados ajustada pelo Modelo, SQM
2
. A Soma de Quadrados Residual
(SQRE), j anteriormente denida, a segunda parcela do membro direito. tambm o numerador da
varincia amostral dos residuos, (n 1) s
2
e
, uma vez que o valor mdio dos resduos zero.
A igualdade fundamental relacionando as trs somas de quadrados acima obtida :
SQT = SQM+SQRE (3.5)
onde:
SQT = (n 1) s
2
y
=
n
i=1
(y
i
y)
2
=
(I
n
P
1
n
)y
2
a Soma de Quadrados Total, numerador da
varincia amostral dos valores observados da varivel resposta Y .
SQM = (n1) s
2
y
=
n
i=1
( y
i
y)
2
=
(P
x
P
1
n
)y
2
a Soma de Quadrados associada ao Modelo,
numerador da varincia amostral dos valores previstos para a varivel resposta Y .
SQRE = (n 1) s
2
e
=
n
i=1
(y
i
y
i
)
2
= |(I
n
P
x
)y|
2
a Soma de Quadrados Residual, numerador
da varincia amostral dos resduos associados ao ajustamento do modelo.
A relao (3.5) igualmente uma aplicao do Teorema de Pitgoras. De facto, considere-se o vector
centrado das observaes de Y , y
c
= (I
n
P
1
n
)y. Considere-se a decomposio deste vector associada
soma directa ((X) ((X)
, onde ((X) o subespao gerado pelas colunas da matriz X, isto :

y
c
= P
x
y
c
+ (I
n
P
x
)y
c
(3.6)
Pelo Teorema de Pitgoras verica-se:
|y
c
|
2
= |P
x
y
c
|
2
+|(I
n
P
x
)y
c
|
2
(3.7)
Considere-se agora o vector P
x
y
c
= P
x
(I
n
P
1
n
)y. Trata-se de uma dupla projeco do vector de
observaes y, primeiro sobre o subespao complementar do vector 1
n
(isto , a operao de centragem
do vector y), e depois sobre o subespao das colunas da matriz X. Como 1
n
((X), tem-se (ver Teorema
2.24, p. 35) P
x
(I
n
P
1
n
) = P
x
P
1
n
. Daqui resulta que:
1. A decomposio da norma do vector y
c
indicada na equao (3.7) equivalente a:
(I
n
P
1
n
)y
2
=
(P
x
P
1
n
)y
2
+
(I
n
P
x
)y
2
ou ainda:
|y
c
|
2
= | y
c
|
2
+|y
c
y
c
|
2
(3.8)
que no mais do que a relao fundamental entre Somas de Quadrados obtida anteriormente:
SQT = SQM + SQRE.
2
No contexto especco de Regresses Lineares, mais frequente a designao Soma de Quadrados explicada pela
Regresso, SQR
3.2. PROPRIEDADES DE MODELOS COM CONSTANTE ADITIVA
2. A matriz que resulta da dupla projeco, ou seja (I
n
P
1
n
)P
x
= P
x
P
1
n
a matriz projeco
ortogonal sobre o subespao ((X) ((1
n
)
(Teorema 2.25, p. 36). Trata-se dum subespao de

dimenso dim(((X)) dim(((1
n
)) = (p + 1) 1 = p em IR
n
, j que 1
n
((X).
Dividindo por
1
n1
, a relao (3.5) transforma-se numa decomposio da varincia amostral dos valores
observados de Y :
s
2
y
= s
2
y
+ s
2
e
. (3.9)
No estudo do Modelo Linear desempenha tambm um papel importante o chamado Coeciente de
Determinao, R
2
, que denido por:
R
2
=
SQM
SQT
=
Pxy
c
2
y
c
2
=
s
2
y
s
2
y
(3.10)
Pelas consideraes geomtricas j referidas (veja-se a pgina 30), trata-se do quadrado do cosseno
do ngulo entre o vector centrado das observaes de Y e o subespao gerado pelas colunas
de X, ou, o que igual, o quadrado do cosseno entre o vector centrado das observaes de Y e o vector
centrado dos valores de Y previstos pelo Modelo Linear (veja-se a gura 3.1).
((1
n
)
0
((X) ((1
n
)
@
@
@
@
@
@
@
@
@
@
@
@I
y
c
y
c
= P
x
y
c
T
e = (I
n
P
x
)y
c
SQM
SQRE
SQT
Figura 3.1: Geometria associada ao estudo do Modelo Linear. O vector y

c
((1
n
)
representa o vector
das observaes centradas da varivel resposta. O vector y
c
representa o vector centrado de valores de
Y ajustados pelo Modelo Linear. O vector e o vector dos resduos. O subespao ((X) representa o
subespao gerado pelas colunas da matriz X, isto , pelos vectores de observaes das variveis preditoras
(e o vector de n uns). O quadrado do cosseno do ngulo o Coeciente de Determinao R
2
.
3.3 Ferramentas para a inferncia no Modelo Linear
Vejamos algumas ferramentas necessrias para se poder proceder obteno de resultados inferenciais
no Modelo Linear.
Comecemos por introduzir alguma notao que simplica o estudo de vectores aleatrios.
3.3.1 Ferramentas para vectores e matrizes aleatrios
Denio 3.1 Seja X = (X
1
, X
2
, ..., X
p
)
t
um vector aleatrio. Dene-se
3
:
1. O vector esperana de X, E[X], cuja i-sima componente E[X
i
].
2. A matriz de varincias-covarincias de X, V [X], de elemento genrico V [X]
ij
= Cov(X
i
, X
j
) ,
(i = 1 : p, j = 1 : p). Nota: Os elementos diagonais so as varincias de cada componente de X.
3. Dado um segundo vector aleatrio Y = (Y
1
, Y
2
, ..., Y
k
), dene-se a matriz de covarincias
cruzadas entre X e Y, C[X, Y] como a matriz cujo elemento genrico C[X, Y]
ij
= Cov(X
i
, Y
j
) ,
(i = 1 : p, j = 1 : k).
Observaes:
1. Assinale-se a natureza diferente do vector aleatrio X e do vector (real, no-aleatrio) E[X].
2. A matriz (de elementos reais, no-aleatrios) V [X] de dimenso pp. necessariamente simtrica,
pois C(X
i
, X
j
) = C(X
j
, X
i
). E semi-denida positiva (ver o Apndice A).
3. A matriz (de elementos reais, no aleatrios) C[X, Y] uma matriz de dimenso p k. Logo,
a matriz de covarincias cruzadas nem sequer tem de ser quadrada, muito menos simtrica. Por
outras palavras, em geral C[X, Y] = C[Y, X]. Mas verica-se: C[X, Y] = C[Y, X]
t
.
Interessa ainda denir o conceito de valor esperado duma matriz aleatria.
Denio 3.2 Seja X uma matriz n m de variveis aleatrias. Dene-se o valor esperado da
matriz aleatria como a matriz n m, E[X], cujo elemento genrico E[X
ij
].
Observao: Pela denio de matriz de covarincias cruzadas, e de produto de matrizes, tem-se:
C[X, Y] = E[(XE[X])(Y E[Y])
t
] (3.11)
Logo, V [X] = C[X, X] = E[(XE[X])(XE[X])
t
].
Exerccio 3.1 Conrme, calculando o elemento genrico da matriz (XE[X])(Y E[Y])
t
.
3
Admitindo que existem os valores esperados, varincias e covarincias a seguir indicados. O mesmo ser feito nas
denies que se seguem.
3.3. FERRAMENTAS PARA A INFERNCIA NO MODELO LINEAR
Veremos agora algumas propriedades relativas a combinaes lineares de vectores aleatrios. Para facilitar
a exposio desses resultados, utlizar-se- a notao de produtos internos entre vectores de nmeros reais
e vectores aleatrios, do tipo a
t
X =
n
i=1
a
i
X
i
. Formalmente, no se trata de um produto interno,
uma vez que a um vector de elementos de IR e X um vector aleatrio, no sendo, pois, objectos num
mesmo espao linear. No entanto, um vector aleatrio uma aplicao no espao IR
n
. Para uma dada
concretizao do vector aleatrio, obtem-se o tradicional produto interno de vectores reais. Trabalhando
com esta espcie de produto interno envolvendo vectores reais e vectores aleatrios como se fossem todos
vectores reais, obtm-se operaes legtimas, desde que se mantenha presente a natureza dos objectos
envolvidos.
Teorema 3.1 Sejam
X = (X
1
, ..., X
n
)
t
e Y = (Y
1
, ..., Y
k
)
t
vectores aleatrios
Z [Z
ij
] uma matriz n p aleatria.
A
mn
e B
pk
matrizes constantes (no aleatrias);
a
m1
e b
p1
vectores constantes (no aleatrios); e
e escalares (no aleatrios).
Ento, verica-se:
1. E[AX+a] = AE[X] +a.
2. E[AZB] = AE[Z]B.
3. C[AX+a , BY+b] = AC[X, Y]B
t
.
4. V [AX+a] =
2
AV [X]A
t
Se W um vector aleatrio n-dimensional,
5. E[X+W] = E[X] +E[W].
6. C[X+W, Y] = C[X, Y] +C[W, Y].
7. V [X+W] = V [X] +V [W] +C[X, W] +C[W, X]
Demonstrao.
1. O produto AX um vector m1, cujo i-simo elemento (i = 1 : m) dado pelo produto interno
da i-sima linha de A com o vector aleatrio X, isto , por (AX)
i
=
n
l=1
A
il
X
l
, onde A
il
designa
um elemento genrico da matriz A, e X
l
a l-sima componente do vector aleatrio X. Como o valor
esperado um operador linear, tem-se: E[(AX)
i
+ a
i
] =
n
l=1
A
il
E[X
l
] + a
i
, que o i-simo
elemento do vector AE[X] +a.
2. O produto AZB tem, na posio genrica (i, j), o produto da i-sima linha da matriz A com a
matriz Z, e com a j-sima coluna da matriz B. Assim, (AZB)
ij
=
n
m=1
p
l=1
A
im
Z
ml
B
lj
. Logo, o
valor esperado deste elemento genrico dado por: E[(AZB)
ij
] =
n
m=1
p
l=1
A
im
E[Z
ml
]B
lj
. Mas esta
expresso d-nos o elemento na posio genrica (i, j) da matriz AE[Z]B.
3. Pela denio de matriz de covarincias cruzadas, tem-se:
C[AX+a, BY +b] = E
[AX+a E(AX+a)][BY +b E(BY +b)]

t
= E
[AXAE(X)][BY BE(Y)]
t
= E
A[(XE(X))(Y E(Y))
t
]B
t
= AE
(XE(X))(Y E(Y))
t
B
t
= AC[X, Y]B
t
4. Sai directamente da alnea anterior, j que V [Z] = C[Z, Z] para qualquer vector aleatrio Z.
5. Sai directamente da denio de vector esperado dum vector aleatrio, e do facto de a esperana da
soma de variveis aleatrias unidimensionais ser sempre a soma dos respectivos valores esperados.
6. Por denio,
C[X+W, Y] = E
(X+WE[X+W])(Y E[Y])
t
= E
(XE[X])(Y E[Y])
t
+ (WE[W])(Y E[Y])
t
= E
(XE[X])(Y E[Y])
t
+E
(WE[W])(Y E[Y])
t
= C[X, Y] +C[W, Y]
como queramos demonstrar.
7. Pela denio de matriz de varincias-covarincias, e pela alnea anterior, tem-se: V [X + W] =
C[X+W, X+W] = C[X, X+W] +C[W, X+W] = C[X, X] +C[X, W] +C[W, X] +C[W, W],
que o resultado pretendido.
Note-se, na ltima alnea do resultado anterior, que C[X, W] , em geral, diferente de C[W, X], pelo
que no se pode substituir a soma dessas duas parcelas por 2C[X, W], como se faria se estivessemos a
trabalhar com variveis aleatrias unidimensionais.
3.3.2 A Multinormalidade
Na disciplina de Complementos de Probabilidades e Estatstica foi introduzida a distribuio Multinor-
mal (Normal Multivariada), e foram dadas algumas propriedades desta distribuio. Um estudo mais
pormenorizado desta distribuio ser feito na disciplina de Estatstica Multivariada. Mas o estudo do
Modelo Linear exige o conhecimento de algumas propriedades fundamentais da distribuio Multinormal.
Faremos agora uma rpida reviso dos conhecimentos j dados na disciplina de CPE e introduziremos
(sem demonstraes) alguns outros resultados necessrios.
Denio 3.3 Seja Y um vector aleatrio n-dimensional. Diz-se que Y tem distribuio Multinor-
mal, com parmetros dados pelo vector e a matriz (denida positiva) se a sua funo
densidade conjunta fr dada por:
f
Y
(y) =
1
(2)
n/2
det()
e
1
2
(y)
t
1
(y)
, y IR
n
(3.12)
Nesse caso, escreve-se: Y ^
n
(, ).
Uma ilustrao da forma desta funo densidade conjunta apenas possvel no caso de Normal bivariada
(ou Binormal), isto , da Multinormal com p = 2 componentes: Y = (Y
1
, Y
2
)
t
. Associando dois eixos a
Y
1
e Y
2
e um terceiro eixo (vertical) aos valores da funo densidade da Normal bivariada, f
Y
(y
1
, y
2
),
obtemos uma superfcie em R
3
cujo grco dado na Figura 3.2.
x
y
z
Figura 3.2: A funo densidade conjunta duma Normal bivariada
Na disciplina de CPE foram vistas as seguintes propriedades da distribuio Multinormal:
Teorema 3.2 Seja Y ^
n
(, ), ento:
1. E[Y] = e V [Y] = .
2. Todas as distribuies marginais de Y so tambm multinormais, com vectores mdios e matrizes
de varincias dados pelos correspondentes subvectores e submatrizes de e .
3. Seja Y = [ Y
t
1
.
.
. Y
t
2
.
.
.
.
.
.Y
t
r
]
t
^
n
(, ). Ento os subvectores Y
i
e Y
j
so independentes se e
s se a submatriz de V [Y] = que est associada s covarincias entre as suas componentes fr
constituda apenas por zeros.
4. Combinaes lineares das componentes dum vector multinormal so Normais: a
t
Y ^(a
t
, a
t
a).
5. Se C uma matriz p n, de caracterstica p n, e a um vector (no-aleatrio) p 1, ento
CY+a ^
p
(C +a, CC
t
), o que uma generalizao do resultado anterior.
6. A forma quadrtica Q = (Y )
t
1
(Y ) tem distribuio Qui-quadrado, com n graus de
liberdade, isto , Q
2
(n)
.
7. A funo geradora de momentos de Y dada por M
Y
(t) = e
t
t+
1
2
t
t
t
.
Observaes:
1. Considere-se um vector Y composto por trs subvectores Y
1
, Y
2
e Y
3
. O resultado da alnea 3
implica que os subvectores Y
1
e Y
2
so independentes se e s se a matriz das covarincias de Y
fr da forma:
=
11
.
.
. 0
.
.
.
13

0
.
.
.
22
.
.
.
23

31
.
.
.
32
.
.
.
33
(sendo os blocos da matriz de dimenses correspondentes aos subvectores Y

1
, Y
2
e Y
3
).
2. Na alnea (5) exige-se que C seja de caracterstica p n para garantir que CC
t
seja no singular,
pois caso contrrio, no se poderia falar em multinormalidade, tal como foi denida acima (uma vez
que no haveria inversa de CC
t
). No entanto, ser necessrio considerar, no estudo do Modelo
Linear, situaes onde temos vectores de combinaes lineares CY, mas em que CC
t
no uma
matriz invertvel. Assim, ser feita uma denio mais geral de distribuio Multinormal,
que englobar o caso que por vezes se designa da Multinormal singular
4
.
Denio 3.4 Seja Y um vector aleatrio p-dimensional, com E[Y] = e V [Y] = E[(Y)(Y)
t
]
= . Diz-se que Y tem uma distribuio Multinormal generalizada, e escreve-se Y ^(, ), se
existir uma transformao da forma
Y = AW+a
onde A seja uma matriz no-aleatria com p linhas e nmero de colunas igual caracterstica da matriz
, W um vector aleatrio com densidade dada por (3.12) e de dimenso igual ao nmero de colunas de
A, e a um vector constante p-dimensional.
Com base nesta denio, agora possvel escrever um resultado muito geral, onde se caracterizam os
vectores que resultem de quaisquer combinaes lineares de componentes de vectores multinormais (em
sentido restrito, ou em sentido generalizado).
Teorema 3.3 Seja Y^
n
(, ), C uma matriz mn, no aleatria, e a R
m
um vector no-aleatrio.
Ento CY+a ^
m
(C +a, CC
t
).
4
Para um tratamento mais detalhado desta denio, vejam-se os livros: Searle, S.R. (1971) Linear Models, John Wiley
& Sons (DM 390-62); ou Anderson, T.W., Introduction to Multivariate Analysis, 2a. edio, John Wiley & Sons, (DM
402-62).
3.3.3 Mais Consequncias do Modelo Linear
Vejamos agora alguns resultados que resultam da aplicao destes resultados ao estudo do Modelo Linear.
Comecemos por relembrar o Modelo Linear na forma matricial, tal como j visto na pgina 48.
O Modelo Linear na forma matricial
Sejam Y e variveis aleatrias, X uma matriz constante e um vector constante, compatvel na
multiplicao com X. Ento:
1. Y = X +
2. ^
n
(0,
2
I
n
)
A distribuio do vector-resposta Y
Teorema 3.4 Dado o Modelo Linear, verica-se:
1. E[Y] = X.
2. V [Y] =
2
I
n
.
3. Y ^
n
(X,
2
I
n
).
Observaes:
1. Como foi referido na formulao do Modelo Linear, admite-se que a matriz X no-aleatria. Caso
os valores dos vectores preditores sejam aleatrios, estes resultados devem ser entendidos como
condicionais aos valores observados de X. Assim, por exemplo, o primeiro resultado deveria ler-se
como E[Y[X] = X e o segundo como V [Y[X] =
2
I
n
.
2. A varincia de todas as observaes Y
i
comum e igual a
2
. Mas como se armou na observao
anterior, trata-se da varincia condicional aos valores dados das variveis preditoras. Por outras
palavras,
2
a varincia das observaes de Y em torno da hiper-superfcie denida pela equao
linear do modelo.
Demonstrao. Tendo em ateno os resultados sobre vectores aleatrios (pgina 55) e os pressupostos
do Modelo Linear, tem-se:
1. E[Y] = E[X +] = E[X] +E[] = E[X] = X.
2. V [Y] = V [X +] = V [] =
2
I
n
.
3. Y a soma dum vector aleatrio multinormal e dum vector no aleatrio. Logo, pelo Teorema
3.2 (pgina 57), a sua distribuio mantm-se multinormal, com os parmetros obtidos nas alneas
anteriores.
Observao: Este resultado diz-nos que as observaes de Y so variveis aleatrias Normais, inde-
pendentes (recordar que em distribuies multinormais, a independncia e o no-correlacionamento
coincidem), sempre com a mesma varincia (
2
, igual varincia dos erros aleatrios). Mas no se
trata, em geral, de variveis identicamente distribudas, uma vez que diferem no seu valor esperado.
Este dado pela combinao linear dos valores das variveis preditoras, que diferem para as vrias ob-
servaes de Y . Daqui decorre que variveis resposta Y que no sejam (pelo menos aproximadamente)
Normais, sero melhor estudadas por outro Modelo, que no o Modelo Linear aqui apresentado. Ser,
por exemplo, o caso de variveis resposta binrias, ou de contagem (sobretudo quando os valores
contados no so muito numerosos).
3.4 A inferncia relativa aos parmetros
Regressamos agora ao estimador do vector de parmetros do Modelo Linear, para estudar resultados
que permitam fazer inferncia sobre esses parmetros, no caso geral.
Teorema 3.5 Dado o Modelo Linear, o estimador

= (X
t
X)
1
X
t
Y dos parmetros verica:
1.

um estimador centrado de , isto , E[
] = .
2. V [
] = (X
t
X)
1
2
.
3.

^
p+1
, (X
t
X)
1
4. Se a um vector (p + 1)-dimensional de constantes, a

t
^
a
t
,
2
a
t
(X
t
X)
1
a
Demonstrao. Tendo em conta as Proposies 3.1 (pg. 55) e 3.2 (pg. 57) tem-se:
1. E[
] = E[(X
t
X)
1
X
t
Y] = (X
t
X)
1
X
t
E[Y] = (X
t
X)
1
X
t
X = .
2. V [
] = V [(X
t
X)
1
X
t
Y] = (X
t
X)
1
X
t
V [Y]
(X
t
X)
1
X
t
t
= (X
t
X)
1
X
t
2
I
n
X(X
t
X)
1
=
2
(X
t
X)
1
X
t
X(X
t
X)
1
=
2
(X
t
X)
1
, como se pretendia demonstrar.
3. uma consequncia imediata da alnea (5) do Teorema 3.2 na pgina 57.
4. Idem (vericar!).
Observaes:
1. Deste resultado sai que cada estimador individual

i
tem distribuio Normal, com valor
esperado
i
e varincia dada por
2
a multiplicar pelo elemento diagonal da matriz
(X
t
X)
1
correspondente a
i
, ou seja, o elemento que est na (i + 1)-sima posio diagonal
dessa matriz (tendo em conta que a primeira linha/coluna da matriz est associada a
0
, a segunda
a
1
, etc.). Ou seja, a distribuio de cada

i
individual

i
^
i
,
2
(X
t
X)
1
(i+1,i+1)
.
3.4. A INFERNCIA RELATIVA AOS PARMETROS
2. O Teorema acima tambm indica que, em geral, os estimadores dos parmetros
i
no so inde-
pendentes. A covarincia entre dois desses estimadores proporcional a um elemento no-diagonal
da matriz (XX)
1
. Mais concretamente, cov(

i
,

j
) =
2
(X
t
X)
1
(i+1,j+1)
. Assim, s haver
covarincias nulas (o que em distribuies multinormais equivale a dizer que s haver independn-
cia) quando esse elemento no diagonal de (X
t
X)
1
fr nulo. Assinale-se que, se a matriz X
t
X fr
uma matriz diagonal, a sua inversa tambm o ser, e nesse caso os estimadores dos parmetros do
modelo sero independentes. Esta situao acontece quando as colunas da matriz X so ortogonais
entre si, o que no uma situao habitual em aplicaes de Regresso Linear, mas j poder s-lo
em aplicaes de Anlise de Varincia, quando as colunas da matriz X so colunas indicatrizes.
3. As concluses relativas ao valor esperado e varincia dos estimadores no utilizaram os pressupostos
de multinormalidade, isto , no utilizaram os pressupostos relativos forma da distribuio dos
erros aleatrios. Pelo contrrio, esses pressupostos so necessrios para garantir a terceira e quarta
concluses, ou seja, a multinormalidade do vector de estimadores

e a normalidade de suas combi-
naes lineares. No entanto, a hiptese de os valores das variveis preditoras (isto , da matriz X)
serem no aleatrios crucial para os raciocnios que justicam os resultados do Teorema anterior.
De novo, perante variveis preditoras aleatrias, os resultados teriam de ser interpretados como
condicionais aos valores observados na matriz X.
4. Repare-se, porm, que a multinormalidade de

seria sempre garantida assintoticamente (isto ,
aproximadamente, para grandes amostras), pelo facto de os estimadores

serem tambm esti-
madores de Mxima Verosimilhana, como se ver na subseco seguinte (subseco 3.4.1). Recorde-
se o resultado (dado na disciplina de Complementos de Probabilidades e Estatstica) garantindo
que estimadores de Mxima Verosimilhana so assintoticamente Normais.
O resultado acima obtido signica que seria possvel conceber desde j intervalos de conana e testes
de hipteses relativos a valores dos parmetros do Modelo Linear. Mas h um obstculo: o facto de
esse resultado exigir o conhecimento da varincia (comum) dos erros aleatrios, isto , de ser necessrio
conhecer o valor de
2
. Trata-se duma situao anloga que j se encontrou pela frente nas primeiras
experincias de inferncia estatstica, quando se pretendia fazer inferncia sobre uma mdia populacional
com base numa amostra aleatria. Vericou-se que
X
n
^(0, 1) (exactamente, para amostras
provenientes duma populao Normal, ou assintoticamente, noutros casos), mas a utilidade prtica desse
resultado estava condicionada pela necessidade de conhecer o valor da varincia populacional
2
. A forma
como se torneou essa diculdade, naquele contexto, foi a de considerar um estimador de
2
(a varincia
amostral S
2
), e ver qual o efeito que a substituio da constante
2
pela varivel aleatria S
2
tinha sobre
a distribuio do quociente ento resultante (passava a ser uma distribuio t-Student). O caminho que
ser aqui seguido ser anlogo. Vamos considerar um estimador da varincia
2
dos erros aleatrios, e
depois veremos que efeitos distribucionais resultaro de substituir
2
por esse estimador.
Nesse estudo, os resduos desempenham um papel central, pelo que analisaremos em Seces posteriores
alguns resultados relativos aos resduos.
3.4.1 Estimadores de Mxima Verosimilhana
Voltemos agora ao problema de estimar os coecientes do Modelo Linear, mas utilizando agora um
diferente mtodo de estimao: a estimao por Mxima Verosimilhana. Facilmente se concluir que
os estimadores obtidos desta forma coincidem com os estimadores de Mnimos Quadrados obtidos na
equao (3.2), pgina 49.
De facto, a funo verosimilhana de n observaes Normais, independentes, de mdia
i
= E[Y
i
] =
0
+
p
j=1
j
x
j
(i)
, (i = 1 : n), e de varincia constante
2
dada por:
f(,
1
, ...,
n
; y
1
, ..., y
n
) =
n
i=1
2
e
1
2
(y
i
i
)
2
=
1
n
(2)
n/2
e
1
2
2
n
P
i=1
(yii)
2
Admitindo que a varincia dos erros (
2
) conhecida, obtm-se o mximo desta verosimilhana quando
se minimiza o somatrio que aparece no expoente, isto , quando se minimiza

n
i=1
(y
i
i
)
2
. Tendo em
conta a natureza dos valores esperados
i
, estamos a falar de minimizar:
n
i=1
(y
i

i
)
2
= |YX|
2
que o critrio j usado na estimao pelo Mtodo dos Mnimos Quadrados. Logo, os estimadores (3.2)
so simultaneamente estimadores de Mnimos Quadrados e de Mxima Verosimilhana
5
.
Como foi referido acima, a derivao dos estimadores de Mnimos Quadrados dos parmetros do Modelo
Linear no utilizou os pressupostos distribucionais do Modelo. Mas sem esses pressupostos no seria
possvel estimar pelo Mtodo da Mxima Verosimilhana. Os estimadores dos parmetros obtidos pelos
dois mtodos coincidem, admitindo os pressupostos de multinormalidade, homogeneidade de varincias e
independncia dos erros. Seja como fr, qualquer inferncia que se queira fazer sobre os parmetros, ou
sobre outros aspectos do modelo, exige a considerao de hipteses probabilsticas.
3.5 Distribuies associadas s projeces ortogonais de Y
Outra consequncia relativamente imediata, no contexto do estudo do Modelo Linear, diz respeito
distribuio das projeces ortogonais do vector de observaes Y sobre subespaos de IR
n
.
Teorema 3.6 Dado o Modelo Linear, e sendo P uma matriz de projeco ortogonal sobre um subespao
de IR
n
, tem-se:
1. E[PY] = PX.
2. V [PY] = P
2
.
3. O vector projectado PY tem distribuio PY^
n
PX,
2
P
, sendo a distribuio multinormal

no sentido generalizado.
5
A estimao simultnea de
2
e dos parmetros conduz aos mesmos estimadores para os coecientes
i
e ainda (a
partir do equacionamento a zero da derivada parcial de log(f) em relao a
2
) estimativa de Mxima Verosimilhana

2
=
SQRE
n
. No entanto, adiante se ver que prefervel utilizar uma estimativa ligeiramente diferente para
2
no estudo
do Modelo Linear.
3.5. DISTRIBUIES ASSOCIADAS S PROJECES ORTOGONAIS DE Y
Demonstrao. O resultado quase imediato, tendo em conta as ferramentas anteriormente consider-
adas, nas Proposies 3.1 (pg. 55) e 3.2 (pg. 57). Assim,
1. E[PY] = PE[Y] = PX, sendo a ltima passagem consequncia do Teorema 3.4.
2. V [PY] = P V [Y] P
t
=
2
PP
t
=
2
P, uma vez que P simtrica e idempotente.
3. Sabemos, pelo Teorema 3.3 que combinaes lineares dos elementos de um vector multinormal
so ainda multinormais, e neste caso, com os parmetros vistos nas alneas anteriores. Trata-se
de uma distribuio multinormal singular, uma vez que a matriz de varincias-covarincias,
2
P,
no invertvel. De facto, esta matriz de dimenso n n tem caracterstica igual dimenso do
subespao de IR
n
sobre o qual P projecta (ver Teorema 2.23) que, em geral, ser inferior a n (ser
igual a n apenas no caso de P ser a matriz de projeco sobre o prprio espao IR
n
, isto , quando
P fr a matriz identidade de dimenso n).
No estudo do Modelo Linear, ser frequentemente necessrio determinar a distribuio de quantidades

associadas norma dos vectores projectados, e mais concretamente, a distribuio de quantidades do
tipo,
|PY|
2
2
=
Y
t
PY
2
ou seja, de formas quadrticas no vector de observaes, denidas por uma matriz de projeco ortogonal
P (a dividir pela varincia comum dos erros aleatrios). Veremos seguidamente um resultado que nos
ajudar, nesse sentido. Comecemos por considerar, sem demonstrao, o seguinte resultado auxiliar
6
.
Teorema 3.7 Seja Y ^
n
(0, ) (no sentido de distribuio Multinormal generalizada). Seja A uma
matriz simtrica (no aleatria) n n. Ento, a forma quadrtica Y
t
AY tem distribuio
2
tr(A)
se e
s se AA = A.
Observaes:
1. O resultado acima vlido quer seja uma matriz invertvel (caso em que Y Multinormal no
sentido de ter densidade conjunta dada por (3.12)), e tambm quando uma matriz singular
(caso em que a distribuio multinormal deve ser entendida no sentido da denio da pgina 58).
2. Um caso particular ocorre quando A = I
n
, em cujo caso a condio do Teorema equivale idem-
potncia de . Nesse caso, o trao da matriz (que indica o nmero de graus de liberdade da
distribuio
2
) A = (simtrica, visto ser matriz de varincias-covarincias) equivale dimen-
so do subespao sobre o qual projecta.
3. O resultado dado acima exige que o vector aleatrio Y tenha vector esperado nulo. Existe um
resultado semelhante onde essa restrio levantada, em que as formas quadrticas resultantes tm
uma forma mais geral de distribuio Qui-quadrado, designada Qui-quadrado no central. No se
refere aqui esse resultado mais geral, pois no indispensvel para o que se segue.
6
Veja-se, por exemplo, o j referido livro de Searle (1971) para uma discusso mais detalhada
Tem-se ento o seguinte resultado.
Teorema 3.8 Considere o Modelo Linear. Considere um subespao M IR
n
, de dimenso k, e a
respectiva matriz de projeco ortogonal, P. Caso se verique E[PY] = 0, tem-se:
|PY|
2
2
=
Y
t
PY
2

2
k
Demonstrao. Sabemos, pelo Teorema 3.6 (pgina 62) que PY multinormal, em particular, que
PY ^
n
PX,
2
P
. Uma vez que E[PY] = PX , por hiptese, o vector nulo, tem-se PY/
^ (0, P). Ora,
Y
t
PY
2
= (PY/)
t
I
n
(PY/). Considerando A = I
n
e = P, tem-se, dada a idem-
potncia da matriz de projeco P, a condio exigida no Teorema 3.7 para garantir que
Y
t
PY
2

2
tr(P)
.
Finalmente, como P uma matriz de projeco ortogonal sobre o subespao M, o trao dessa matriz ser
a dimenso de M, isto , k (veja-se o Teorema 2.23 na pgina 34).
3.5.1 Os Resduos
Os resduos foram denidos anteriormente como a diferena entre valores observados e valores previstos
pelo modelo para a varivel resposta Y . Os resduos calculados para um conjunto de valores observados
de Y so dados por e = y y = y X
. Estes valores observados de resduos podem ser vistos como a

concretizao de variveis aleatrias resduos, dadas por:
E = YX
= (I
n
P
x
)Y (3.13)
Tenha-se em ateno que os resduos resultam de uma projeco ortogonal do vector de obser-
vaes Y sobre o complemento ortogonal do subespao gerado pelas colunas da matriz X,
isto , sobre ((X)
.
Este vector aleatrio no deve ser confundido com o vector dos erros aleatrios, dado por:
= YX
Os resduos so preditores dos erros aleatrios
7
. No Modelo Linear, o comportamento deste vector
aleatrio de resduos facilmente caracterizvel.
Teorema 3.9 Dado o Modelo Linear, o vector aleatrio de resduos, E = YX
= (I
n
P
x
)Y verica:
1. E[E] = 0.
2. V [E] =
2
(I
n
P
x
)
3. E ^
n
0,
2
(I
n
P
x
)
, no sentido generalizado da distribuio Multinormal.

7
Usa-se o termo estimador para indicar uma varivel aleatria usada na estimao de constantes (parmetros) popula-
cionais. Variveis aleatrias usadas para aproximar valores de outras variveis aleatrias sero designadas preditores.
3.5. DISTRIBUIES ASSOCIADAS S PROJECES ORTOGONAIS DE Y
Demonstrao. Resulta da aplicao directa do Teorema 3.6, para o caso concreto em que a matriz
de projeco I
n
P
x
. Registe-se apenas que, na primeira alnea, se tem E[E] = (I
n
P
x
)X =
X X = 0.
Observaes:
1. Este resultado diz-nos que, admitindo o Modelo Linear, os resduos so variveis aleatrias Normais,
de mdia zero, de varincia dada pelo produto de
2
com os elementos diagonais da matriz (I
n

P
x
). Estes resultados sero usados mais tarde para validar os pressupostos do Modelo Linear (ver
Seco 3.10), uma vez que a violao de, por exemplo, o pressuposto de Normalidade dos resduos,
signicaria que algum(ns) dos pressupostos do Modelo no parecem adequados.
2. Mas os resduos no so independentes, ao contrrio dos erros aleatrios de que os resduos so
preditores. De facto, os elementos no-diagonais da matriz (I
n
P
x
) no so, em geral, nulos.
Com base neste Teorema, e no Teorema 3.8, ser possvel determinar a distribuio duma quantidade
baseada na Soma dos Quadrados dos Resduos, SQRE.
Teorema 3.10 Dado o Modelo Linear, verica-se:
SQRE
2

2
n(p+1)
Demonstrao. Sabemos que E = (I
n
P
x
)Y e que E[E] = 0. Por outro lado a Soma dos Quadrados
dos Resduos a norma ao quadrado do vector de resduos, isto , SQRE = E
t
E. Ora, E
t
E = Y
t
(I
n

P
x
)
t
(I
n
P
x
)Y = Y
t
(I
n
P
x
)Y, uma vez que (I
n
P
x
) simetrica e idempotente. Logo, pelo Teorema
3.8, tem-se
SQRE
2

2
tr(InPx)
. Finalmente, como (I
n
P
x
) uma matriz de projeco ortogonal no
complemento ortogonal do subespao (de dimenso p+1) gerado pelas colunas de X, o trao dessa matriz
ser a dimenso desse complemento ortogonal (Teorema 2.23, p. 34), isto , a dimenso de IR
n
(n) menos
a dimenso do espao das colunas de X (p + 1).
Observao: Tem sido conveno utilizar letras maisculas para indicar variveis aleatrias e as corre-
spondentes letras minsculas para indicar as concretizaes dessas variveis aleatrias em valores reais
concretos. Para as Somas de Quadrados no se seguir esta conveno (como hbito na literatura).
Assim, por exemplo, utiliza-se sempre SQRE, quer para indicar a varivel aleatria, quer para indicar
um seu valor concreto para um conjunto de dados especco.
J foi referido (nota de rodap 5, pg. 62) que o estimador de Mxima Verosimilhana para a varincia
2
dos erros aleatrios no Modelo Linear dada por
SQRE
n
. Mas hbito utilizar outro estimador para
essa varincia, por uma razo que decorre do seguinte Teorema:
Teorema 3.11 Dado o Modelo Linear,
2
=
SQRE
n(p+1)
um estimador centrado da varincia co-
mum dos erros aleatrios,
2
.
Demonstrao. A partir dos conhecimentos de Estatstica univariada, sabemos que o valor esperado
duma varivel aleatria com distribuio
2
equivale ao seu parmetro (nmero de graus de liberdade).
Assim, e tendo em conta o Teorema 3.10, tem-se: E[
SQRE
2
] = n(p+1). Tendo em conta que n(p+1)
e
2
so constantes, obtem-se E
SQRE
n(p+1)
=
2
.
O estimador das varincias dos erros aleatrios no Modelo Linear,

SQRE
n(p+1)
, tambm designado o
Quadrado Mdio Residual (QMRE). Consiste na Soma de Quadrados Residual a dividir pelos graus
de liberdade da distribuio
2
associada a SQRE.
Estamos agora em condies de juntar os vrios resultados obtidos anteriormente, e dar os resultados
que permitem construir intervalos de conana ou efectuar testes de hipteses a valores de
qualquer combinao linear dos parmetros
j
do Modelo Linear.
3.6 Intervalos de conana e testes para os parmetros
i
Regressemos ao problema da inferncia relativa aos parmetros
i
(i = 0, ..., p) do Modelo Linear. Veremos
de seguida um resultado distribucional relativo a qualquer combinao linear dos parmetros
i
, que
compreende vrios casos particulares de interesse.
Seja
(p+1)1
o vector dos parmetros
i
, e a R
(p+1)
um vector constante. Ento
a
t
= a
0
0
+a
1
1
+... +a
p
p
.
Trs casos importantes surgem como casos particulares destas combinaes lineares:
1. Se a = e
i+1
= (0, 0, ..., 0, 1
....
pos.i+1
, 0, ..., 0)
t
o (i + 1)-simo vector da base cannica de R
p+1
(i =
0, 1, ..., p), ento a
t
=
i
.
2. Se a = e
i+1
e
j+1
= (0, ..., 0, 1
....
pos.i+1
, 0, ..., 0, 1
....
pos.j+1
, 0, ..., 0)
t
, ento a
t
=
i

j
, a soma ou
diferena dos parmetros
i
e
j
.
3. Se a = (1, x
(1)
, x
(2)
, ..., x
(p)
)
t
onde x
(j)
representa um possvel valor da varivel preditora X
j
, ento
a
t
=
0
+
1
x
(1)
+
2
x
(2)
+... +
p
x
(p)
= E[Y [X
1
=x
(1)
, X
2
=x
(2)
, ..., X
p
=x
(p)
], o valor esperado
de Y associado aos valores especicados das p variveis preditoras.
Logo, resultados inferenciais para combinaes lineares dos
i
incluem, como casos particulares, resultados
inferenciais para cada parmetro individual, para a soma ou diferena de dois parmetros, ou para o valor
esperado de Y dado um qualquer conjunto de valores das variveis preditoras.
Teorema 3.12 Dado um vector (p + 1)-dimensional de constantes, a, a combinao linear a
t
dos
parmetros estimados do Modelo Linear verica:
a
t
a
t

a
t
t
n(p+1)
onde
a
t
QMRE a
t
(X
t
X)
1
a.
3.6. INTERVALOS DE CONFIANA E TESTES PARA OS PARMETROS
I
Demonstrao. J foi visto (p. 60) que a combinao linear a
t
tem distribuio ^
a
t
,
2
a
t
(X
t
X)
1
a
,
ou seja, Z =
a
t
a
t
a
t
(X
t
X)
1
a
tem distribuio Normal (univariada) reduzida. J vimos (p. 65) que
W =
SQRE
2

2
n(p+1)
. Ora, as variveis aleatrias Z e W so independentes, uma vez que Z ape-
nas funo (em termos de vectores aleatrios) de

, W apenas funo dos resduos E, e C[
, E] =
(X
t
X)
1
X
t
V [Y](I
n
P
X
) =
2
(X
t
X)
1
X
t
(I
n
P
X
) = 0, pois o ltimo produto matricial produz a
matriz nula. Tendo em ateno a multinormalidade, resulta que estimadores (e suas combinaes lin-
eares) e resduos so independentes. Logo, o quociente de Z a dividir pela raz quadrada de W sobre
os seus graus de liberdade,
Z
W/g.l.(W)
, tem distribuio t-Student com os mesmos graus de liberdade
que W (ver resultados da disciplina de Complementos de Probabilidades e Estatstica). Mas esse o
resultado que se pretendia demonstrar.
Observao: Vejamos as expresses do desvio padro estimado,

a
t

, nos casos particulares de combi-

naes lineares dos parmetros do Modelo Linear que so particularmente dignos de nota.
1. Quando a um vector cannico e
j+1
, (j = 0 : p), isto , um vector com um nico elemento no-
nulo, na posio j + 1, com o valor 1, a combinao linear a
t
no mais que um individual,
mais concretamente,
j
. Nesse caso, a expresso a
t
(X
t
X)
1
a o (j +1)-simo elemento diagonal
da matriz (X
t
X)
1
, ou seja, o elemento (X
t
X)
1
(j+1,j+1)
. Assim, tem-se

jj

j
t
n(p+1)
, onde

j
=
QMRE (X
t
X)
1
(j+1,j+1)
. (3.14)
2. Quando a a soma ou a diferena de dois diferentes vectores cannicos, i.e., se a = e
i+1
e
k+1
,
a combinao linear reduz-se soma ou diferena dos estimadores dos s correspondentes: a
t
=
i

k
. Nesse caso, o Teorema 3.12 simplica para:
(

i

k
)(i
k
)

(

k
)
t
n(p+1)
, onde

(

i

k
)
=
QMRE
(X
t
X)
1
(i+1,i+1)
+ (X
t
X)
1
(k+1,k+1)
2(X
t
X)
1
(i+1,k+1)

2
i
+
2
j
2

Cov[
i
,

j
]. (3.15)
3. Quando a corresponde a uma linha da matriz de observaes X, isto , se a = x
linha j
, ento a
combinao linear a
t
=
p
i=0
x
ij
i
= E[Y [X
0
= x
0j
, X
1
= x
1j
, ..., X
p
= x
p
j
], ser o valor esperado
da varivel resposta associado aos valores das variveis preditoras da linha j da matriz X. Nesse
caso, o resultado do Teorema acima pode re-escrever-se da forma:
E[Y [X
0
= x
0j
, X
1
= x
1j
, ..., X
p
= x
p
j
] E[Y [X
0
= x
0j
, X
1
= x
1j
, ..., X
p
= x
p
j
]

b
E[Y |X0=x0j
,X1=x1j
,...,Xp=xp
j
]
t
n(p+1)
,
onde
b
E[Y |X0=x0j
,X1=x1j
,...,Xp=xp
j
]
=
QMRE (P
X
)
(j,j)
, uma vez que a
t
(X
t
X)
1
a ser, neste
caso, o j-simo elemento diagonal da matriz de projeco ortogonal P
X
(conrmar!!).
4. Generalizando a alnea anterior, sempre que a IR
p+1
tenha como elementos valores possveis
das correspondentes variveis preditoras, a combinao linear da totalidade dos parmetros do
Modelo corresponde a considerar o valor esperado da varivel resposta, para os valores de variveis
preditoras dados no vector a: X
0
= a
0
, X
1
= a
1
, X
2
= a
2
, ..., X
p
= a
p
. No caso do Modelo com
constante aditiva
0
, o primeiro valor do vector a ter de ser sempre a unidade.
O resultado anterior directamente utilizvel, da forma habitual, para efectuar testes de hipteses
sobre combinaes lineares dos valores dos parmetros do Modelo. Exemplicando, para o caso
geral duma combinao linear a
t
, e com uma hiptese nula simples contra uma hiptese alternativa que
englobe todos os outros possveis valores, teremos:
Teste de Hipteses bilateral a uma Combinao Linear dos
j
Hipteses: H
0
: a
t
= c vs. H
1
: a
t
= c
Estatstica do Teste: T =
a
t
a
t
|H
0

a
t
t
n(p+1)
,
com
a
t
QMRE a
t
(X
t
X)
1
a
.
Nvel de signicncia: Escolher a probabilidade de cometer o Erro de Tipo I:
= P[Rejeitar H
0
[ H
0
verdade].
Regio Crtica: Bilateral, tendo em conta H
1
. Rejeitar H
0
se [T
calc
[ > t
2
;
, onde = n (p + 1).
Concluso: Efectuar o clculo do valor da estatstica de teste para a amostra disponvel,
T
calc
=
a
t
b c

a
t
,
onde b indica o vector das estimativas dos parmetros para a amostra observada (e
a
t

valor calculado a partir do QMRE associado aos dados da matriz X correspondentes amostra
observada). Decidir sobre a rejeio, ou no, de H
0
de acordo com a regra do ponto anterior.
Naturalmente que hipteses do tipo H
0
: a
t
c vs. H
1
: a
t
> c (ou com os sinais trocados) levaro a
regies crticas associadas do tipo unilateral, como se v de seguida.
Teste de Hipteses unilateral direito a uma Combinao Linear dos
j
Hipteses: H
0
: a
t
c vs. H
1
: a
t
> c
a
t
c

a
t
t
n(p+1)
,
com
a
t
QMRE a
t
(X
t
X)
1
a
.
Nvel de signicncia: Escolher o nvel de signicncia .
Regio Crtica: Unilateral direita. Rejeitar H
0
se T
calc
> t
;
, onde = n (p + 1).
Concluso: Determinar o valor de T
calc
para a amostra observada e decidir em funo da regra do
ponto anterior.
3.6. INTERVALOS DE CONFIANA E TESTES PARA OS PARMETROS
I
Teste de Hipteses unilateral esquerdo a uma Combinao Linear dos
j
Hipteses: H
0
: a
t
c vs. H
1
: a
t
< c
a
t
c

a
t
t
n(p+1)
,
com
a
t
QMRE a
t
(X
t
X)
1
a
.
Nvel de signicncia: Escolher o nvel de signicncia .
Regio Crtica: Unilateral esquerda. Rejeitar H
0
se T
calc
< t
;
, onde = n (p + 1).
Concluso: Determinar o valor de T
calc
para a amostra observada e decidir em funo da regra do
ponto anterior.
possvel substituir a pr-especicao dum nvel de signicncia = P[Rejeitar H
0
[ H
0
verdade]
pelo clculo do p-value ou valor de prova da estatstica calculada, que consiste na probabilidade da
estatstica de teste tomar um valor to, ou mais, extremo que T
calc
, onde a denio de extremo est
associada ao tipo de regio crtica relevante. Assim, os p-values denem-se da seguinte forma:
Quando aplicvel uma Regio Crtica unilateral direita, p = P[ T > T
calc
].
Quando aplicvel uma Regio Crtica unilateral esquerda, p = P[ T < T
calc
].
Quando aplicvel uma Regio Crtica bilateral, p = 2 P[ T > [T
calc
[ ].
Quanto a intervalos de conana para combinaes lineares dos parmetros do Modelo Linear
j
, e
indicando por b = (b
0
, b
1
, b
2
, ..., b
p
) o vector das p+1 estimativas produzidas pelo estimador

a partir duma amostra concreta, tem-se:

Um intervalo a (1 ) 100% de conana para a combinao linear a
t
dado por:
a
t
b t
2
;

a
t
, a
t
b +t
2
;

a
t
(3.16)
sendo = n (p + 1) e
a
t
QMRE a
t
(X
t
X)
1
a.
De novo, escolhas especcas de vectores de coecientes a podem originar situaes especcas de interesse
geral, como indicado acima. Assim, a escolha dum vector cannico para a produz
um intervalo a (1 ) 100% de conana para
j
:
b
j
t
2
;

j
, b
j
+t
2
;

(3.17)
sendo = n (p + 1) e
j
=
QMRE (X
t
X)
1
(j+1,j+1)
.
Da mesma forma, um intervalo de conana para uma soma ou diferena de dois parmetros :
i

j
:
(b
i
b
j
) t
2
;

j
, (b
i
b
j
) +t
2
;

(3.18)
sendo = n (p + 1) e onde
j
=
V [
i
] +

V [
j
] 2

Cov[
i
,

j
] (expresso 3.15).
Como j foi visto, um intervalo de conana para o valor esperado de Y , dado um conjunto de valores
das variveis preditoras, ou seja, um intervalo de conana para
Y |X
= E [Y [X
1
= x
1
, X
2
= x
2
, ..., X
p
= x
p
] =
0
+
1
x
1
+
2
x
2
+... +
p
x
p
, (3.19)
um caso particular dum intervalo de conana para uma combinao linear a
t
, com o vector de
coecientes a
t
= ( 1 , x
1
, x
2
, . . . , x
p
). Assim, e designando o valor estimado de
Y |X
por

Y |X
= b
0
+b
1
x
1
+b
2
x
2
+... +b
p
x
p
, (3.20)
temos:
Y
se X
1
= x
1
, X
2
= x
2
, ..., X
p
= x
p
:

Y |X
t
2
;

a
t
,
Y |X
+t
2
;

a
t
(3.21)
sendo = n(p+1) e
a
t
QMRE a
t
(X
t
X)
1
a , para a
t
= (1, x
1
, x
2
, . . . , x
p
).
O intervalo de conana que acaba de ser visto um intervalo de conana para E[Y [X], ou seja, para
o ponto que, dados os valores das variveis preditoras, se encontra em cima do hiperplano popu-
lacional Y = X. No um intervalo para observaes individuais da varivel resposta Y , associadas a
esses mesmos valores das variveis preditoras, uma vez que essas observaes individuais oscilam em torno
desse hiperplano. De acordo com o Modelo Linear, essas oscilaes correspondem aos erros aleatrios, cuja
varincia (desconhecida)
2
, e estimada por QMRE. Um intervalo de predio para uma obser-
vao individual de Y , associada aos valores X
1
= x
1
, X
2
= x
2
, ..., X
p
= x
p
das variveis preditoras,
constri-se aumentando a varincia prevista em QMRE unidades (uma vez que varincia resultante
da variabilidade associada amostragem e estimao da hipersuperfcie Y = X h que acrescentar a
variabilidade da observao individual). Ou seja, neste caso, para a expresso da varincia, tem-se:

indiv
=
QMRE a
t
(X
t
X)
1
a +QMRE ,
para a
t
= (1, x
1
, x
2
, . . . , x
p
).
3.7. UM EXEMPLO NO PROGRAMA R
um intervalo de predio para um valor observado de Y , dado
X
1
= x
1
, X
2
= x
2
, ..., X
p
= x
p
:

Y |X
t
2
;

indiv
,
Y |X
+t
2
;

indiv
(3.22)
sendo = n(p+1) e
indiv
=
QMRE [a
t
(X
t
X)
1
a + 1] , para a
t
= (1, x
1
, x
2
, . . . , x
p
).
Nota: A expresso intervalo de conana reserva-se para intervalos associados estimao de con-
stantes (quantidades no aleatrias) populacionais. Neste caso, o objectivo foi construir um intervalo
que, em (1 ) 100% das amostras extradas no contexto do Modelo Linear, contenha os valores ob-
servados de Y para os valores indicados das variveis preditoras. Este tipo de intervalos, que pretendem
capturar os valores de variveis aleatrias designam-se intervalos de predio.
Vimos como a Soma de Quadrados Residual desempenhou um papel fundamental para obter os resul-
tados anteriores. Adiante veremos que essa mesma Soma de Quadrados, e as outras acima denidas,
desempenham tambm um papel crucial noutros aspectos do estudo do Modelo Linear.
3.7 Um exemplo no programa R
Consideremos agora o exemplo inicial de aplicao do modelo linear, considerado na Seco 1.2.2 (pgina
12). Recorde-se que o exemplo envolvia um ensaio onde se media o crescimento radicular (varivel
Y , comprimento.raiz) de uma cultivar de uma dada espcie agrcola, aps um dado nmero de dias
(varivel x). Vamos admitir que j foram criados os vectores com as variveis dias e comprimento.raiz,
como indicado da Seco 1.2.2, e que essas variveis foram colocadas como colunas duma data frame de
nome raiz:
> raiz <- data.frame(dias,comprimento.raiz)
> raiz
dias comprimento.raiz
1 1 5
2 7 10
3 13 12
4 20 29
5 27 36
6 34 83
7 62 102
Como se viu anteriormente, o comando para pedir uma regresso linear simples :
> lm(comprimento.raiz ~ dias, data=raiz)
Call:
lm(formula = comprimento.raiz ~ dias, data=raiz)
Coefficients:
(Intercept) dias
-1.936 1.772
Os valores produzidos correspondem aos valores ajustados da ordenada na origem, b
0
(indicado pela sua
designao em ingls, intercept ) e do declive da recta, b
1
(indicado pelo nome da varivel preditora que,
neste caso, dias).
Um tanto paradoxalmente, a obteno de mais informao relativa ao ajustamento do modelo linear faz-se
mediante o comando summary
8
. Assim, no nosso caso, tem-se:
> summary(lm(comprimento.raiz ~ dias, data=raiz))
Call:
lm(formula = comprimento.raiz ~ dias, data=raiz)
Residuals:
1 2 3 4 5 6 7
5.1645 -0.4655 -9.0955 -4.4971 -9.8988 24.6995 -5.9071
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.9361 7.9483 -0.244 0.81722
dias 1.7717 0.2639 6.712 0.00111 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 13.21 on 5 degrees of freedom
Multiple R-Squared: 0.9001, Adjusted R-squared: 0.8801
F-statistic: 45.06 on 1 and 5 degrees of freedom, p-value: 0.001111
De entre a informao agora disponibilizada saliente-se:
1. uma linha inicial (indicada por Call) que indica o comando que foi invocado para produzir o
resultado (esta linha til para objectos que sero armazenados, permitindo no futuro vericar
qual foi a origem desse output );
2. uma linha com o valor de cada resduo (que no caso de conjuntos de dados mais numerosos ter
apenas os quartis, mximo e mnimo dos resduos);
3. uma tablea central (de nome Coefficients), com tantas linhas quantos os parmetros no modelo
(neste caso, p + 1 = 2), e onde se indicam:
os valores da estimativa b
j
de cada parmetro
j
, na coluna de nome Estimate;
o respectivo erro padro,
2
j
, na coluna Std.Error;
o valor da estatstica t associada ao estudo da hiptese nula
j
= 0, na coluna t value
9
;
8
O comando summary um comando genrico, vlido para muitas funes e tipos de modelos no programa R, que gera
informao bsica sobre essas funes.
9
Ateno: para efectuar testes a outros valores dos parmetros
j
ser necessrio construir a estatstica do teste,
conforme indicado na pgina 68.
a signicncia (p-value) desse valor da estatstica t, na coluna encimada por Pr(>|t|);
Caso existam coecientes signicativamente diferentes de zero (isto , em que o p-value associado
ao teste a H
0
:
j
= 0 seja inferior a 0.1), tal facto indicado por pontos ou estrelas no nal de
cada linha, com os cdigos referidos no output.
4. Trs linhas nais onde se indica:
a raz quadrada do Quadrado Mdio Residual (Residual standard error) e os graus de liberdade
que lhe esto associados;
o coeciente de determinao R
2
(Multiple R-Squared) e o coeciente de determinao ajustado
(Adjusted R-squared);
o valor da estatstica F, cujo signicado ser discutido mais tarde (veja-se o texto conducente
ao quadro-resumo da pgina 85).
O coeciente de determinao ajustado ou modicado, Adjusted R-squared, uma transformao
do Coeciente de Determinao em que, em vez de R
2
=
SQM
SQT
= 1
SQRE
SQT
, se usa a expresso
R
2
adj
= 1
QMRE
QMT
= 1
SQRE/(n (p + 1))
SQT/(n 1)
= 1 (1 R
2
)
n 1
n (p + 1)
.
(3.23)
Esta transformao preferida por alguns autores, uma vez que penaliza ajustamentos feitos com base
num nmero de observaes no muito superior ao nmero de parmetros (isto , quando n pouco maior
que p + 1), em especial se R
2
no fr muito elevado. Repare-se que, se n >> (p + 1), os valores de R
2
e
de R
2
adj
so praticamente idnticos.
Exerccio 3.2 Vejamos como efectuar um teste de hipteses a valores dum parmetro individual.
Concretamente, testemos se admissvel que a recta populacional tenha declive igual a 2.
Seguindo os passos indicados no quadro da pgina 68, temos:
Hipteses: H
0
:
1
= 2 vs. H
1
:
1
= 2

12

1
t
n(p+1)
Nvel de signicncia: Vamos escolher o nvel = 0.05.
Regio Crtica: Bilateral, tendo em conta H
1
. Tem-se onde = n (p + 1) = 7 2 = 5, logo a regra
de rejeio :
rejeitar H
0
se [T
calc
[ > t
2
;
= t
0.025(5)
= 2.571.
Este ltimo valor pode ser obtido a partir de tabelas da distribuio t-Student, ou ento no R, atravs
do comando que devolve o quantil de ordem 0.975 numa distribuio t
5
:
> qt(0.975,5)
[1] 2.570582
Concluso: Tem-se
T
calc
=
1.7717 2
0.2639
= 0.8651 ,
tendo em conta os valores na tabela. Assim, e como [T
calc
[ = [ 0.8651[ < 2.571 = t
0.025(5)
,
no se rejeita a hiptese nula. A informao existente no permite rejeitar a hiptese de que o
verdadeiro declive da recta populacional seja
1
= 2.
Exerccio 3.3 Analogamente, um intervalo a 95% de conana para o declive da recta popula-
cional,
1
obtm-se, tendo em conta a expresso (3.17) e os valores j discutidos:
] 1.7717 (2.571)(0.2639) , 1.7717 + (2.571)(0.2639) [
] 1.093213 , 2.450187 [
Esta , com 95% de conana, a gama de valores admissveis para o verdadeiro valor do declive da recta
populacional. Entre estes valores admissveis est o valor 2, o que coerente com o resultado do teste de
hipteses antes realizado. Tendo em conta que o teste era bilateral e que em ambos os casos se utilizou o
valor = 0.05, era obrigatrio que os resultados do teste e do intervalo de conana fossem coerentes.
Outra maneira de exprimir a mesma ideia armar que, para um teste bilateral
1
= c, ao nvel = 0.05,
os valores de c para os quais no se rejeitaria a hiptese nula so os valores que pertencem ao IC a 95%
de conana acima indicado. Valores de c fora deste intervalo levariam rejeio da hiptese nula.
O exemplo considerado muito simples e baseado em poucos dados. No sendo um exemplo particular-
mente eloquente , no entanto, um bom exemplo para se visualizar mais informao que possvel extrair
com o auxlio do R.
Para facilitar no que se segue, vamos guardar o resultado da execuo do comando lm (resultado esse que
uma list ) num novo objecto, de nome raiz.lm:
> raiz.lm <- lm(comprimento.raiz ~ dias, data=raiz)
A tabela de resultados acima referida ser agora produzida invocando apenas o comando summary(raiz.lm)
(experimente!).
Na distribuio padro do R disponibilizam-se numerosas funes que permitem obter mais informao
sobre a regresso. Vejamos algumas dessas funes, e os resultados que produzem se invocadas no contexto
deste exemplo.
Os valores ajustados y
i
podem ser obtidos atravs da funo fitted:
> fitted(raiz.lm)
1 2 3 4 5 6 7
-0.1644812 10.4655074 21.0954960 33.4971494 45.8988027 58.3004561 107.9070696
Os resduos e
i
= y
i
y
i
podem ser obtidos atravs da funo residuals:
> residuals(raiz.lm)
1 2 3 4 5 6 7
5.1644812 -0.4655074 -9.0954960 -4.4971494 -9.8988027 24.6995439 -5.9070696
Intervalos de conana para cada parmetro
i
obtm-se a partir da funo confint. Por
omisso, trata-se de intervalos a 95% de conana, mas outros graus de conana podem ser solic-
itados atravs do argumento level, que toma valores entre 0 e 1. Assim, os ICs a 95% e a 90% de
conana, respectivamente, para ambos os parmetros,
0
e
1
, so dados por:
> confint(raiz.lm)
2.5 % 97.5 %
(Intercept) -22.367847 18.495555
dias 1.093188 2.450142
> confint(raiz.lm,level=0.90)
5 % 95 %
(Intercept) -17.952312 14.080020
dias 1.239815 2.303515
Repare-se na coincidncia do IC a 95% de conana para
1
com o os valores anteriormente obtidos.
As pequenas diferenas nas casas decimais nais resultam do facto de se ter trabalhado, nos clculos
anteriores, com os valores arredondados produzidos pela tabela dos resultados.
Para se efectuar o ajustamento de valores da varivel-resposta Y associados a valores es-
pecicados das variveis preditoras, existe o comando predict. Na utilizao deste comando, os
valores das variveis preditoras X
i
para as quais se quer ajustar um valor de Y so especicados
pelo argumento new. Ateno: a especicao dos valores deste argumento tem de ser feito atravs
duma data frame com colunas de nome igual ao utilizado na data frame com base na qual foi feito
o ajustamento inicial (a m de permitir que o R faa a associao correcta de valores nas colunas
da nova data frame com as variveis preditoras do modelo ajustado). Para o nosso exemplo, os
valores ajustados de Y correspondentes a x = 25, x = 30 e x = 40 dias (valores que no constam
das observaes utilizadas no ajustamento inicial) obtm-se da seguinte forma:
> predict(raiz.lm, new=data.frame(dias=c(25,30,40)))
1 2 3
42.35547 51.21380 68.93044
Intervalos de conana para um valor esperado de Y , dadas as observaes das variveis
preditoras tambm se podem obter atravs do comando predict, atravs da especicao da opo
conf no argumento interval:
> predict(raiz.lm, new=data.frame(dias=c(25,30,40)),interval="conf")
fit lwr upr
1 42.35547 29.47462 55.23633
2 51.21380 37.62489 64.80271
3 68.93044 51.86609 85.99480
Repare-se que existiro tantas linhas quantos os valores ajustados que foram solicitados. Na primeira
coluna so dados os valores de y correspondentes (j vistos acima). Na segunda coluna indica-se o
ponto inicial do intervalo (por omisso a 95% de conana) e na terceira coluna o limite superior
desse mesmo intervalo. Outros graus de conana podem ser solicitados atravs do argumento
level (j visto para o comando confint), como se ilustra de seguida:
> predict(raiz.lm, new=data.frame(dias=c(25,30,40)),interval="conf", level=0.99)
fit lwr upr
1 42.35547 22.15092 62.56002
2 51.21380 29.89861 72.52898
3 68.93044 42.16377 95.69712
Intervalos de predio para uma observao de Y , dadas as observaes das variveis pred-
itoras, tambm se podem obter atravs do comando predict, atravs da especicao da opo
pred no argumento interval:
> predict(raiz.lm, new=data.frame(dias=c(25,30,40)),interval="pred")
fit lwr upr
1 42.35547 6.032281 78.67867
2 51.21380 14.633525 87.79407
3 68.93044 30.921892 106.93900
Existe tambm uma funo para obter de forma fcil a matriz de (co)varincias estimadas
associada aos estimadores dos parmetros, ou seja, a matriz que resulta de, na expresso para V [
]
do Teorema 3.5 substituir o parmetro desconhecido
2
pela sua estimativa QMRE:
V [
] = QMRE (X
t
X)
1
.
O comando em questo a funo vcov:
> vcov(raiz.lm)
(Intercept) dias
(Intercept) 63.175137 -1.63212388
dias -1.632124 0.06966382
Repare-se que os elementos diagonais desta matriz so as varincias estimadas associadas aos dois
parmetros do nosso exemplo, e como tal, so os quadrados dos valores disponibilizados na coluna
de nome Std.Error da listagem de resultados produzida pelo comando summary (conrme!). No
nosso exemplo de regresso linear simples a nica novidade reside no valor da covarincia estimada
Cov(
0
,

1
) = 1.6321. Este valor tem de ser o que resulta de aplicar a frmula para esta co-
varincia, obtida no Exerccio 6 deste Captulo (pg. 102), substitundo a varincia desconhecida
2
pela sua estimativa QMRE. Assinale-se ainda que este ltimo valor pode ser obtido a par-
tir da listagem produzida pelo comando summary, uma vez que nessa listagem se encontra a raz
quadrada do QMRE, sob a designao Residual standard error. No noss exemplo, teremos
QMRE = 13.21
2
= 174.5.
Embora no sendo funes que sejam de utilidade frequente, o R disponibiliza ainda algumas funes
teis para a visualizao ou compreenso dos conceitos expostos at aqui. Entre elas, est a funo
model.matrix, que cria a matriz X utilizada na denio do modelo linear. Para o nosso exemplo, X
tem duas colunas: a coluna de uns e a coluna dos valores observados da nica varivel preditora:
> model.matrix(raiz.lm)
(Intercept) dias
1 1 1
2 1 7
3 1 13
4 1 20
5 1 27
6 1 34
7 1 62
A partir desta matriz possvel criar a matriz de projeco sobre o subespao coluna de X, ((X), ou
seja, a matriz P
X
= X(X
t
X)
1
X
t
:
> X <- model.matrix(raiz.lm)
> Px <- X %*% solve(t(X) %*% X) %*% t(X)
> Px
1 2 3 4 5 6 7
1 0.34361460 0.28990878 0.23620296 0.17354618 0.1108894 0.04823261 -0.20239453
2 0.28990878 0.25057013 0.21123147 0.16533637 0.1194413 0.07354618 -0.11003421
3 0.23620296 0.21123147 0.18625998 0.15712657 0.1279932 0.09885975 -0.01767389
4 0.17354618 0.16533637 0.15712657 0.14754846 0.1379704 0.12839225 0.09007982
5 0.11088940 0.11944128 0.12799316 0.13797035 0.1479475 0.15792474 0.19783352
6 0.04823261 0.07354618 0.09885975 0.12839225 0.1579247 0.18745724 0.30558723
7 -0.20239453 -0.11003421 -0.01767389 0.09007982 0.1978335 0.30558723 0.73660205
Esta matriz pode gerar o vector y = P
X
y dos valores ajustados de Y (j obtido pelo comando fitted):
> Px %*% comprimento.raiz
[,1]
1 -0.1644812
2 10.4655074
3 21.0954960
4 33.4971494
5 45.8988027
6 58.3004561
7 107.9070696
De forma semelhante poderia ser construdo o vector de resduos, a partir da matriz I
7
P
X
. A matriz
identidade 7 7 pode ser criada pelo comando diag(7) do R:
> diag(7)
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,] 1 0 0 0 0 0 0
[2,] 0 1 0 0 0 0 0
[3,] 0 0 1 0 0 0 0
[4,] 0 0 0 1 0 0 0
[5,] 0 0 0 0 1 0 0
[6,] 0 0 0 0 0 1 0
[7,] 0 0 0 0 0 0 1
> (diag(7) - Px) %*% comprimento.raiz
[,1]
1 5.1644812
2 -0.4655074
3 -9.0954960
4 -4.4971494
5 -9.8988027
6 24.6995439
7 -5.9070696
Registe-se que os elementos diagonais de P
X
no so iguais, logo os elementos diagonais de I
7
P
X
tambm so, em geral, diferentes. Recorde-se (Teorema 3.9, pg. 64) que as varincias dos resduos so
mltiplos escalares destes valores diagonais, pelo que ca ilustrado que ao contrrio dos erros aleatrios,
os resduos no tm varincia constante. Tambm de interesse o facto de os elementos no-diagonais
de P
X
, logo de I
7
P
X
, serem no-nulos, o que signica que as covarincias entre resduos so no-nulas,
facto de que decorre que ao contrrio dos erros aleatrios, os resduos no so independentes.
3.8 Mais teoria sobre projeces
No foi ainda considerado o problema de avaliar a qualidade do ajustamento global do Modelo Linear aos
dados. A considerao formal desse problema envolve projeces de um mesmo vector sobre subespaos
mutuamente ortogonais, uma vez que se utilizaro, quer as variveis resposta ajustadas,

Y = P
X
Y, quer
os resduos, E = (I P
X
)Y.
A projeco dum vector sobre subespaos mutuamente ortogonais uma questo que tornar a surgir,
posteriormente, noutros contextos relacionados com o Modelo Linear. Convm, pois, enunciar as ferra-
mentas necessrias considerao dessa questo, o que ser feito nesta Seco. Veremos a razo de ser
da frequncia com que surgem testes F no estudo do Modelo Linear.
Teorema 3.13 Sejam M
1
e M
2
subespaos ortogonais de IR
n
. Sejam P
1
e P
2
as matrizes de projeco
ortogonal sobre os subespaos M
1
e M
2
. Seja Y ^
n
,
2
I
n
. Considerem-se os vectores aleatrios

projectados

Y
i
= P
i
Y, (i = 1 : 2). Ento:
1. P
1
Y e P
2
Y so vectores aleatrios independentes.
2. Se E[P
1
Y] = E[P
2
Y] = 0 , tem-se:
|P
1
Y|
2
/dim(M
1
)
|P
2
Y|
2
/dim(M
2
)
F
[dim(M1),dim(M2)]
(3.24)
Demonstrao. Tendo em conta os resultados das pginas 55 - 58, tem-se:
1. a matriz das covarincias cruzadas entre

Y
1
= P
1
Y e

Y
2
= P
2
Y a matriz nula. De facto,
C[
Y
1
,

Y
2
] = C[P
1
Y, P
2
Y] = P
1
C[Y, Y] P
t
2
= P
1
2
I
n
P
2
=
2
P
1
P
2
. Mas P
1
P
2
uma matriz
3.8. MAIS TEORIA SOBRE PROJECES
nula, 0. De facto, designando por M
1
uma matriz cujas colunas formem uma base de M
1
, e
por M
2
uma matriz cujas colunas formem uma base de M
2
, temos P
1
= M
1
(M
t
1
M
1
)
1
M
t
1
e
P
2
= M
2
(M
t
2
M
2
)
1
M
t
2
. Ento, P
1
P
2
= M
1
(M
t
1
M
1
)
1
M
t
1
M
2
(M
t
2
M
2
)
1
M
t
2
. Mas o produto
central M
t
1
M
2
consiste na matriz cujos elementos so produtos internos entre colunas de M
1
(que
esto no subespao M
1
) e colunas de M
2
(que esto no subespao M
2
). Como os subespaos onde
residem essas colunas so ortogonais, esse produto resulta numa matriz de zeros, que anular todo o
produto P
1
P
2
, e por conseguinte, anular C[

Y
1
,

Y
2
]. Dada a multinormalidade de Y, esta matriz
de covarincias cruzadas nulas implica que P
1
Y e P
2
Y so independentes.
2. Sabemos que, se Y ^
n
(,
2
I
n
), tem-se P
i
Y ^
n
(P
i
,
2
P
i
) , para i = 1 : 2 (Teorema 3.6,
pg.62). Por outro lado, pelo Teorema 3.8 (p.64), sabemos que
PiY
2
2
ter, caso E[P
i
Y] = P
i
= 0,
uma distribuio
2
tr(Pi)
, onde tr(P
i
) = dim(M
i
), a dimenso do subespao sobre o qual P
i
projecta
ortogonalmente. Recorde-se das disciplinas introdutrias de Estatstica que distribuies F surgem
quando se tm duas variveis aleatrias V e W independentes, com distribuies Qui-quadrado,
V
2
1
e W
2
2
, e se forma o quociente dessas variveis a dividir pelos seus graus de liberdade,
isto
V/1
W/2
F
(1,2)
. Ora, sabemos da alnea anterior que P
1
Y e P
2
Y so independentes. Assim,
e caso se tenha a dupla condio E[P
1
Y] = E[P
2
Y] = 0, o quociente de duas formas quadrticas
do tipo apenas consideradas, a dividir pelos graus de liberdade das distribuies
2
que lhes esto
associadas, ter distribuio F
[dim(M1),dim(M2)]
.
Uma consequncia imediata do Teorema anterior que, no Modelo Linear, o vector

Y dos Y
ajustados e o vector E dos resduos so independentes, uma vez que resultam de projectar o
vector Y das observaes sobre subespaos mutuamente ortogonais: respectivamente ((X) e ((X)
.
Vejamos agora um resultado geral relativo ao valor esperado de formas quadrticas, e uma sua particu-
larizao de utilidade no estudo do Model Linear.
Teorema 3.14 Seja Y um vector aleatrio n-dimensional. Seja A uma matriz simtrica n n no
aleatria. Seja V[Y] a matriz das varincias-covarincias de Y. Ento, a forma quadrtica Y
t
AY tem
o seguinte valor esperado:
E[Y
t
AY] = tr (AV[Y]) + E[Y]
t
AE[Y] (3.25)
Demonstrao. Sabemos que a matriz de covarincias cruzadas entre Y e AY, C[Y, AY], verica
(ver pgina 55) C[Y, AY] = C[Y, Y]A
t
= V [Y]A. Mas, por outro lado, temos pela denio de
matriz de covarincias cruzadas, que C[Y, AY] = E [(YE[Y])(AY AE[Y])
t
]. Logo, V [Y]A =
E [YY
t
A
t
YE[Y]
t
A
t
E[Y]Y
t
A
t
+E[Y]E[Y]
t
A
t
] = E[YY
t
A] E[Y]E[Y]
t
A, pelas propriedades
do valor esperado e pela simetria da matriz A. Tomando o trao das matrizes presentes na equao, e
pelas propriedades do trao (inclundo a circularidade do trao, veja-se a pgina 192), tem-se: tr(V[Y]A)
= E [tr(YY
t
A)] tr (E[Y]E[Y]
t
A) = E [tr(Y
t
AY)] tr (E[Y]
t
AE[Y]). Mas nas duas parcelas do lado
direito, as matrizes cujo trao se pretende agora calcular so matrizes de tipo 1 1, pelo que o trao co-
incide com o nico elemento da matriz. Logo, E [Y
t
AY] = E[Y]
t
AE[Y] + tr(V[Y]A), que o resultado
pretendido.
Repare-se que o resultado agora obtido vlido independentemente da distribuio do vector aleatrio
Y ser ou no Multinormal. Vejamos agora a aplicao deste resultado ao vector aleatrio Y do Modelo
Linear, quando a matriz A uma matriz de projeco ortogonal P sobre algum subespao de IR
n
.
Corolrio 3.1 Seja M um subespao de IR
n
, de dimenso k, e P a respectiva matriz de projeco ortog-
onal. Dado o contexto do Modelo Linear, verica-se que a forma quadrtica Y
t
PY = |PY|
2
(onde Y
indica o vector resposta) tem a seguinte esperana matemtica:
E
|PY|
2
= E[Y
t
PY] =
2
k +
t
X
t
PX =
2
k +|PX|
2
.
Demonstrao. Sai directamente do Teorema 3.14, tendo em conta que no Modelo Linear E[Y] = X e
tr(PV[Y]) =
2
tr(P) =
2
k. Esta ltima passagem resulta do trao da matriz de projeco ortogonal
P ser igual dimenso do subespao sobre o qual projecta (Teorema 2.23, p. 34).
Observao: Note-se que a segunda parcela da expresso obtida no Corolrio 3.1 no pode ser negativa.
3.9 Subespaos e submodelos
Consideremos agora um problema que surge com alguma frequncia: o de, dado um Modelo Linear e
o subespao ((X) denido pelas variveis preditoras desse modelo original, se considerar outro modelo
baseado na projeco sobre um subespao de dimenso mais reduzida, mas contido em ((X), ou seja, num
subespao encaixado em ((X).
Este problema surge muitas vezes sob a forma de saber se um dado submodelo do modelo linear seria
capaz de assegurar um ajustamento dos dados que no diferisse signicativamente do ajustamento do
modelo completo. Por um submodelo do modelo linear entende-se um modelo da forma geral referida
na Seco 1.2, mas apenas utilizando um subconjunto das p variveis preditoras. Assim, um submodelo
com k variveis preditoras e constante aditiva admite uma relao de fundo entre a i-sima observao
da varivel resposta Y , e os correspondentes valores das k variveis preditoras, da forma:
Y
i
=
0
+
s(1)
x
s(1)
(i)
+
s(2)
x
s(2)
(i)
+... +
s(k)
x
s(k)
(i)
+
i
, i = 1 : n (3.26)
onde s(j), j = 1 : k, indica a j-sima varivel do subconjunto de variveis retido no submodelo.
Um caso extremo desta situao corresponde a considerar que nenhuma varivel preditora pertence ao
submodelo, que neste caso ser o chamado Modelo Nulo, Y =
0
1
n
+ . Neste caso, o subespao
encaixado relevante ((1
n
). No caso de no ser possvel distinguir a qualidade de ajustamento de um
dado modelo e do Modelo Nulo, considera-se que esse modelo intil.
Considere-se ento o subespao gerado pelas colunas da matriz X, ((X). Seja N um subespao prprio
de ((X). J vimos no Teorema 2.28 (pgina 39), tomando M = ((X), que possvel escrever uma
decomposio de IR
n
em soma directa de trs espaos mutuamente ortogonais:
IR
n
= N
((X) N
((X)
(3.27)
Admitamos que o subespao N surge de considerar um submodelo do modelo linear, em que se retm
apenas k < p variveis preditoras e a constante aditiva, como o indicado na equao (3.26). Repare-se
que este submodelo surge quando, no modelo original, os coecientes associados s variveis no includas
no submodelo so todos nulos. Esta ltima observao sugere uma formulao para a hiptese a testar
3.9. SUBESPAOS E SUBMODELOS
quando se pretende determinar se um modelo e um seu submodelo diferem signicativamente: testar se
admissvel considerar que todos os coecientes
j
num dado subconjunto tm valor zero.
Convm esclarecer que este problema no ca resolvido por uma aplicao repetida de testes a valores
individuais de
j
s, do tipo indicado na pgina 68. E isto, no tanto pelos problemas (reais) associados
aplicao repetida de testes e consequente perda de controlo sobre o nvel de signicncia da totalidade
desses testes. O problema de fundo reside no facto de que os testes a
j
s individuais estudados na Seco
3.4 podem ser usados para testar se um coeciente individual igual a zero, admitindo a presena no
modelo da totalidade das variveis preditoras. Mas o facto de uma varivel preditora individual no ser
necessria no modelo na presena de todas as restantes, no signica que na ausncia de algum grupo de
vrias variveis, essa mesma varivel continue a ser dispensvel. Assim, se do primeiro duma srie de
testes a valores de s individuais resultar a possibilidade de esse coeciente ser zero (e, por conseguinte, a
varivel preditora ao qual est associado poder ser excluda do modelo), dever-se-ia, antes de proceder a
avaliar qualquer dos outros
j
s, proceder a um novo ajustamento do modelo, mas utilizando agora apenas
as p 1 variveis preditoras que restaram aps essa excluso. Para testar se um dado grupo de p k > 1
variveis preditoras dispensvel, necessrio dispr de um teste que permita dar uma resposta global
e simultnea.
Rera-se alguma da notao que ser usada no teste de comparao de modelos encaixados (termo
usado aqui para designar um modelo e um seu submodelo). Seja S o conjunto de ndices associados s
k variveis preditoras que formam o subconjunto que se pretende estudar (admitindo-se tambm que S
possa ser o conjunto vazio, em cujo caso estaramos a considerar o Modelo Nulo). Seja

S o complementar
de S (isto , o conjunto dos ndices das pk variveis que no formam parte do subconjunto S). Seja X
S
a submatriz de X composta pelas k colunas associadas s variveis do subconjunto S, e ainda a coluna
de 1s associada constante do Modelo. Evidentemente, X
S
uma matriz de dimenso n (k + 1)
(que, no caso de S = constituda apenas pela coluna dos n uns). Designe-se por ((X
S
) o subespao
(de dimenso k +1) gerado pelas colunas da matriz X
S
e P
S
a matriz de projeco ortogonal sobre esse
subespao. Evidentemente que ((X
S
) est contido no subespao gerado pelas colunas da matriz X, isto
, ((X
S
) ((X). Tem-se:
1. Da equao (3.27) sai que IR
n
se pode escrever na seguinte decomposio em soma directa de
subespaos mutuamente ortogonais:
IR
n
= ((X
S
)
((X) ((X
S
)
((X)
. (3.28)
O primeiro subespao do membro direito o subespao gerado pelas variveis explicativas do
submodelo. O ltimo subespao corresponde ao que no pode ser explicado pelo modelo com-
pleto ( o espao dos resduos do modelo completo). O espao ((X) ((X
S
)
est associado ao
que, no podendo ser explicado pelo submodelo, pode ser explicado pelo modelo completo.
2. A matriz P
X
P
S
a matriz de projeco ortogonal sobre o subespao ((X) ((X
S
)
(Teorema
2.25), subespao esse que de dimenso p k (o trao de P
X
P
S
).
3. A equivalncia entre modelo e submodelo pode exprimir-se atravs da condio X
((X
S
). De facto, se j / S, se verica
j
= 0, ento evidente que X = X
S
S
, onde por
S
se indica o subvector de correspondente aos coecientes
j
com j S, ou seja, X ((X
S
).
Mas tem-se tambm a seguinte implicao: se X ((X
S
), ou seja, se X se pode escrever como
combinao linear das k +1 colunas de X
S
, ento, uma vez que as colunas de X formam uma base
de ((X), a forma nica de escrever X como combinao linear das p + 1 colunas de X consiste
em tomar
j
= 0, j / S, tendo-se =

S
0
.
4. A norma ao quadrado do vector (P
X
P
S
) Y a diferena entre a Soma de Quadrados Residual
associada ao submodelo e a Soma de Quadrados Residual associada ao modelo completo,
|(P
X
P
S
) Y|
2
= Y
t
(P
X
P
S
)Y = SQRE
S
SQRE
X
(3.29)
onde SQRE
S
designa a Soma de Quadrados Residual associada ao submodelo e SQRE
X
designa
a Soma de Quadrados Residual associada ao modelo completo. De facto, tem-se que (P
X
P
S
) y
= (I
n
+P
X
+I
n
P
S
) y = (I
n
P
S
) y (I
n
P
X
) y. Logo, |(P
X
P
S
) y|
2
=
|(I
n
P
S
) y (I
n
P
X
) y|
2
= |(I
n
P
S
) y|
2
+ |(I
n
P
X
) y|
2
2 '(I
n
P
S
) y, (I
n
P
X
) y`.
Mas a ltima parcela equivalente a 2y
t
(I
n
P
S
) (I
n
P
X
) y. Como (I
n
P
S
) (I
n
P
X
) =
I
n
P
X
P
S
+P
S
P
X
= I
n
P
X
(j que P
S
P
X
= P
S
), verica-se que 2 '(I
n
P
S
) y, (I
n
P
X
) y`
= 2 |(I
n
P
X
) y|
2
. Logo, |(P
X
P
S
) y|
2
= |(I
n
P
S
) y|
2
|(I
n
P
X
) y|
2
. Tendo em
ateno a denio de Somas de Quadrados Residuais (p. 52), verica-se o resultado pretendido.
Estamos assim em condies de enunciar o resultado-chave na obteno de uma estatstica para um teste
aos modelos encaixados.
Teorema 3.15 Considere-se o Modelo Linear com constante aditiva e p variveis preditoras, e um sub-
modelo encaixado, com constante aditiva, denido por um subconjunto S de 0 k < p dessas variveis
preditoras (podendo ter-se S = ). Sejam X e X
S
as matrizes dos n conjuntos de observaes associadas
a cada caso, ((X) e ((X
S
) os respectivos espaos-coluna, e P
X
e P
S
as matrizes de projeco ortogonal
nesses subespaos. Ento:
1. E[SQRE
S
SQRE
X
] = E
|(P
X
P
S
)Y|
2
=
2
(p k) +
t
X
t
(I
n
P
S
)X.
Se se vericar ainda que X ((X
S
), tem-se tambm:
2. O vector esperado de (P
X
P
S
) Y o vector nulo.
3. F =
(SQRESSQREX)/(pk)
SQREX/(n(p+1))
F
(pk,n(p+1))
.
Demonstrao.
1. Sai directamente do Teorema 3.1 (p. 80), tendo em ateno a equao (3.29) e uma vez que
(P
X
P
S
)X = (I
n
P
S
)X, pois P
X
X = X.
2. Tem-se E[(P
X
P
S
)Y] = (P
X
P
S
)E[Y] = (P
X
P
S
)X = X P
S
X. Se X ((X
S
),
tem-se ainda P
S
X = X, e o vector esperado ser o vector nulo.
3. Trata-se duma consequncia directa do Teorema 3.13 (pg. 78), e mais concretamente do seu ltimo
ponto (equao 3.24), tendo em conta que os subespaos ((X)
e ((X) ((X
S
)
sobre os quais
projectam, respectivamente, as matrizes de projeco (I
n
P
X
) e (P
X
P
S
) que geram os vectores
do numerador e denominador, so ortogonais entre si.
Observaes:
1. No contexto da comparao de modelos encaixados, a varivel aleatria F denida no nal do Teo-
rema anterior avalia (abstrando das constantes multiplicativas associadas aos graus de liberdade) o
aumento na soma de quadrados residual resultante de considerar apenas as variveis do submodelo.
Valores elevados de F correspondero a situaes em que a variabilidade residual do submodelo
muito maior que a variabilidade residual do modelo completo, isto , em que o submodelo ajusta
muito menos variabilidade total do que o modelo completo.
2. A varivel aleatria F pode ser re-escrita e re-interpretada em termos dos coecientes de deter-
minao do modelo completo (R
2
C
) e do submodelo (R
2
S
). De facto, assinale-se que a Soma de
Quadrados Total, SQT, a mesma, quer para o Modelo completo, quer para o Submodelo, j que,
tratando-se do numerador da varincia dos valores observados da varivel resposta y, no depende
do Modelo que esteja a ser ajustado, mas apenas dos valores observados de y. Logo, substituindo
as Somas de Quadrados Residuais pelas correspondentes diferenas entre SQTs e SQMs, e dividindo
numerador e denominador da estatstica do teste por SQT, obtem-se:
F =
n (p + 1)
p k

R
2
C
R
2
S
1 R
2
C
(3.30)
3. Os graus de liberdade da varivel aleatria F so, respectivamente, a dimenso do subespao sobre
o qual se projecta para obter a diferena da Soma de Quadrados do numerador (isto , o subespao
((X) ((X
S
)
), e a dimenso do subespao sobre o qual se projecta para obter a Soma de

Quadrados do denominador (isto , o subespao ((X)
).
4. O valor esperado de SQRE
S
SQRE
X
, calculado na alnea 1 signica que o valor esperado do
numerador da varivel aleatria F :
E [(SQRE
S
SQRE
X
) /(p k)] =
2
+

t
X
t
(I
n
P
S
)X
p k
(3.31)
Sabemos (p. 65) que o valor esperado do denominador de F apenas
2
. Sabemos ainda (veja-
se a alnea 2 do Teorema anterior) que se os coecientes
j
j / S
forem todos iguais a zero, o
valor esperado do numerador ser tambm apenas
2
. Assim, valores elevados de F sugerem
que algum(ns) dos coecientes
j
associados a variveis no pertencentes ao submodelo (so)
diferente(s) de zero.
Do que acima cou dito, estamos em condies de utilizar a varivel aleatria F como estatstica de um
teste hiptese nula de
j
= 0 , j / S. De facto, conhecemos a distribuio de F sob essa hiptese,
e sabemos que, a no ser verdade essa hiptese nula, os valores de F devero ser elevados, pelo que
uma regio crtica unilateral direita adequada para a hiptese alternativa de que existe pelo menos um
dos coecientes
j
com j / S que diferente de zero. O quadro seguinte resume este teste a modelos
encaixados.
Teste a Modelos Encaixados (Teste F parcial)
Hipteses: S indica um subconjunto de ndices de variveis preditoras do Modelo Linear.
H
0
:
j
= 0 j / S vs. H
1
: j / S t.q.
j
= 0
H
0
: X ((X
S
) vs. H
1
: X / ((X
S
)
(Submodelo Admissvel) vs. (Submodelo n ao admissvel)
Estatstica do Teste: F =
(SQRESSQREX)/(pk)
SQREX/(n(p+1))
=
n(p+1)
pk

R
2
C
R
2
S
1R
2
C
F
(pk,n(p+1))
, sob H
0
.
Regio Crtica: Unilateral direito, i.e, rejeitar H
0
se F
calc
> f
;(pk,n(p+1))
.
Observaes:
1. A forma alternativa de escrever a estatstica do teste aos modelos encaixados, dada na equao (3.30)
ajuda a compreender a natureza unilateral direita da regio crtica do teste: valores pequenos da
estatstica correspondem a armar que os coecientes de determinao do submodelo e do modelo
completo so semelhantes, o que no contraria a hiptese de que o submodelo seja equivalente
ao modelo completo. Pelo contrrio, valores elevados da estatstica correspondem a situaes em
que o modelo completo tem um valor de R
2
C
muito mais elevado que o submodelo, indiciando um
ajustamento signicativamente melhor.
2. A hiptese nula indica que o Modelo e o Submodelo so coincidentes (sendo nulos os coecientes
i
que os poderiam distinguir). Na hiptese alternativa pelo menos um dos coecientes
j
associados
a variveis no pertencentes ao submodelo diferente de zero, o que no corresponde exactamente
a dizer que devemos optar pelo modelo completo. Poder acontecer que um outro submodelo, com
mais uma, ou vrias, varivel(is) do que o submodelo sob considerao no dira signicativamente
do modelo completo.
Convm destacar o caso especial em que S = , associado a um teste comparando o ajustamento dum
dado modelo (completo) e o ajustamento do Modelo Nulo (sem variveis preditoras). A decomposio
em soma directa associada a este caso :
IR
n
= ((1
n
)
((X) ((1
n
)
((X)
. (3.32)
O teste F, nesse caso, tambm conhecido por Teste de Ajustamento Global do modelo (completo).
um passo inicial quase inevitvel no estudo de qualquer Modelo Linear, embora a hiptese nula deste
teste (que corresponde a dizer que o modelo no difere signicativamente do Modelo Nulo) indica que se
trata dum mau modelo. Caso um modelo linear no leve rejeio desta hiptese nula, pode armar-se
que intil.
Neste contexto, a estatstica de teste ganha uma expresso alternativa, envolvendo a Soma de Quadrados
Residual e a Soma de Quadrados associada ao ajustamento do Modelo, denida na discusso inicial do
Modelo Linear. De facto, se o submodelo fr o Modelo Nulo, tem-se X
S
= 1
n
, e nesse caso, P
S
= P
1
n
,
pelo que SQRE
S
= Y
t
(I
n
P
S
)Y = Y
t
(I
n
P
1
n
)Y = SQT. Sendo assim, no numerador da estatstica
do teste surge SQRE
S
SQRE
X
= SQT SQRE
X
= SQM, a Soma de Quadrados associada ao
ajustamento do Modelo. Ao mesmo tempo, tem-se p k = p. O quociente do numerador designa-se
frequentemente Quadrado Mdio associado ao ajustamento do Modelo:
QMM =
SQM
p
.
Teste de Ajustamento Global do Modelo Linear com constante aditiva
Hipteses: A Hiptese Nula corresponde ao Modelo Linear ser intil.
H
0
:
1
=
2
= ... =
p
= 0 vs. H
1
: j = 1 : p t.q.
j
= 0
H
0
: Modelo Nulo vs. H
1
: Algum Modelo com preditores
Estatstica do Teste: F =
QMM
QMRE
=
n(p+1)
p

R
2
1R
2
F
(p,n(p+1))
, se H
0
se vericar.
Regio Crtica: Unilateral direito, i.e, rejeitar H
0
se F
calc
> f
;(p,n(p+1))
.
Observaes:
1. Como a expresso F =
n(p+1)
p

R
2
1R
2
para a estatstica F uma funo crescente de R
2
, compreende-
se melhor a natureza unilateral direita da Regio Crtica associada ao teste de ajustamento do
Modelo: quanto maior fr R
2
, menos plausvel ser a Hiptese Nula.
2. Esta hiptese nula do Teste de Ajustamento do Modelo corresponde a um ajustamento pssimo do
Modelo, que estatisticamente indistinguvel do Modelo Nulo, no qual no existe qualquer relao
entre Y e os preditores X
i
. A rejeio de H
0
no equivalente a que o Modelo se ajusta
bem, mas apenas que no totalmente intil. Assim, a adequao do Modelo Linear a uma
situao concreta no se dever basear numa aplicao cega do Teste de Ajustamento do Modelo,
mas dever ser acompanhada duma leitura do valor do Coeciente de Determinao amostral.
Veja-se, a este respeito, o Exerccio 15 (pgina 104).
A considerao da geometria associada ao problema ajuda a compreender a importncia das quantidades
envolvidas na estatstica do Teste de Ajustamento Global dum Modelo Linear. Recorde-se que SQT o
quadrado da norma do vector centrado das observaes de Y , isto , do vector y
c
. SQM o quadrado da
norma do vector projectado P
x
y
c
. E SQRE o quadrado da norma do vector dos resduos, e (ver a gura
3.1 na pgina 53). Logo, SQRE o quadrado da distncia do vector centrado das observaes de Y ao
subespao onde o Modelo Linear coloca a relao entre variveis preditoras e varivel resposta (centradas).
Quanto maior (em termos relativos) essa distncia, pior o ajustamento do Modelo. Pelo contrrio, valores
relativamente pequenos de SQRE correspondem a um bom ajustamento dos valores observados de Y ao
subespao gerado a partir das variveis preditoras. Alternativamente, pode-se considerar o ngulo entre o
vector centrado das observaes de Y e o subespao no qual se projecta, ngulo cujo cosseno ao quadrado
dado por R
2
(denido na pgina 53). Quanto menor fr esse ngulo, melhor o ajustamento. Como
ngulos pequenos signicam cossenos grandes (em mdulo), e como o quadrado do cosseno dado por
R
2
=
SQM
SQT
= 1
SQRE
SQT
, vemos novamente que as Somas de Quadrados contm informao importante
para o estudo do ajustamento global do Modelo.
3.10 Validao dos pressupostos do Modelo e outros diagnsticos
Nesta Seco aborda-se um problema fulcral: o problema de avaliar se os pressupostos subjacentes ao
Modelo Linear so, ou no, plausveis. A discusso desta questo nestas folhas ser necessariamente
sinttica. Aconselha-se a consulta de um texto mais pormenorizado (como por exemplo Draper & Smith,
1998) para uma discusso mais aprofundada.
Do ponto de vista conceptual, a validao dos pressupostos do Modelo Linear deveria preceder a sua
utilizao. No entanto, a maioria dos diagnsticos relativos validade desses pressupostos baseia-se no
estudo dos resduos, razo pela qual se torna necessrio ajustar o Modelo antes de se poder considerar o
problema da validao dos pressupostos subjacentes.
Recorde-se que os pressupostos do Modelo Linear eram, essencialmente, os seguintes:
relao linear de fundo entre a varivel resposta e as variveis preditoras;
Normalidade dos erros aleatrios;
erros aleatrios independentes;
varincias homogneas dos erros aleatrios.
A primeira destas hipteses pode ser estudada por inspeco da nuvem de n pontos em IR
p+1
, correspon-
dentes s n observaes em Y e as p variveis preditoras, apenas quando p = 1, 2. Para valores superiores
de p, tambm a avaliao desta hiptese, semelhana do que acontece com as hipteses relativas aos
erros aleatrios, faz-se com o auxlio dos resduos.
Problemas no estudo dos resduos
Foi j visto na pgina 64 que, a serem verdadeiros os pressupostos do Modelo Linear, o vector E de
resduos tem uma distribuio ^
n
0,
2
(I
n
P
x
)
. A m de aligeirar a notao, designemos por H

a matriz de projeco ortogonal sobre o subespao ((X), isto , consideremos H = P
x
10
. Assim, o
elemento genrico da matriz de projeco pode ser indicado por h
ij
. Tendo em conta a natureza duma
matriz identidade, verica-se que:
V ar(E
i
) =
2
(1 h
ii
) , (3.33)
Cov(E
i
, E
j
) =
2
h
ij
, (3.34)
o que signica que as correlaes entre resduos diferentes so da forma:
r
i,j
=
h
ij
(1 h
ii
)(1 h
jj
)
. (3.35)
Da distribuio do vector de resduos sai que cada resduo individual tem a seguinte distribuio:
E
i
^
0,
2
(1 h
ii
)
(3.36)
10
Esta utilizao da letra H para indicar a matriz de projeco generalizada na literatura anglo-saxnica do Modelo
Linear e tem a sua origem na designao de hat matrix para a matriz de projeco. Os valores ajustados pelo modelo,
usualmente indicados por y, obtm-se a partir da relaao y = Hy, pelo que a matriz H a matriz que coloca o chapu
(hat) no vector de observaes y.
3.10. VALIDAO DOS PRESSUPOSTOS DO MODELO E OUTROS DIAGNSTICOS
Uma forma de validar os pressupostos do Modelo Linear ser a de vericar se esta distribuio dos
resduos uma admissvel, luz dos valores calculados dos resduos resultantes do conjunto de dados
observados. tentador considerar que os n resduos observados representam uma amostra aleatria duma
distribuio Normal, e que se podero ento aplicar as ferramentas estudadas em disciplinas introdutrias
de Estatstica: testes de ajustamento a uma distribuio Normal, inferncia sobre varincias, etc. Mas
alguns problemas importantes inviabilizam uma tal abordagem.
O primeiro e mais importante desses problemas reside no facto de as variveis aleatrias resduos no
serem independentes, pelo que os resduos observados no podem ser usados em testes formais baseados
em amostras aleatrias com observaes independentes. De facto, o resultado (3.35) indica que os resduos
E
i
e E
j
apenas sero independentes se h
ij
= 0, o que, em geral, no acontece
11
. Alis, o facto de os
resduos no serem em geral independentes era previsvel em Modelos com constante aditiva, dado que
existe uma restrio sobre os resduos quando o Modelo admite a constante aditiva, que a de a soma dos
resduos ser igual a zero (ver p. 51). Assim, o conhecimento de n 1 resduos signica o conhecimento
do ltimo desses resduos, situao no compatvel com a independncia.
verdade que existe uma tendncia para que essas correlaes no-nulas entre resduos sejam pequenas
no caso de grandes amostras, e seria possvel falar numa espcie de independncia assinttica. Mas a
ausncia de independncia aconselha que o estudo da Normalidade dos resduos seja feita de forma mais
subjectiva, com base em inspeces grcas, procurando afastamentos grosseiros relativamente hiptese
de Normalidade. Duas formas de representao grca comummente utilizadas para este m so:
histogramas dos resduos;
qqplots dos quantis empricos dos resduos observados contra os quantis tericos duma distribuio
Normal Reduzida.
No primeiro caso procuram-se afastamentos evidentes em relao forma simtrica e unimodal da dis-
tribuio Normal: grandes assimetrias ou mais do que um mximo local no histograma podem indicar
problemas com a hiptese de Normalidade admitida para os erros aleatrios. O qq plot acima indicado
deveria, caso fosse vlida a hiptese de normalidade dos erros, indicar uma relao aproximadamente
linear
12
. Desvios em relao a uma relao linear entre os dois conjuntos de quantis levantam dvidas
em relao hiptese de Normalidade.
Mas existe uma segunda diculdade com os resduos. Para alm de no serem independentes, as n variveis
aleatrias resduos, E
i
, tambm no so identicamente distribudas (uma vez que as suas varincias no
so iguais), e dependem de
2
, a varincia desconhecida dos erros aleatrios. Estes problemas so, no
entanto, mais fceis de ultrapassar, como veremos mais adiante.
11
Pode acontecer, com escolhas cuidadas de valores das variveis preditoras, o que uma questo abordada nalguns
estudos.
12
Recorde-se que a relao entre qualquer varivel aleatria X com distribuio Normal N(,
2
) e uma Normal Reduzida
Z N(0, 1) linear: X = +Z.
3.10.1 Pontos fulcrais (leverage points)
O elemento diagonal h
ii
da matriz de projeco H = P
x
pode designar-se o efeito alavanca ou efeito
de fulcro (leverage em ingls) da i-sima observao. Repare-se, a partir da equao (3.33), que quanto
maior fr o efeito alavanca duma observao, menor ser a varincia associada ao seu resduo. Observem-
se ainda trs aspectos sobre a matriz de projeco H= P
X
:
1. os seus elementos diagonais h
ii
no podem ser negativos, uma vez que se trata duma matriz semi-
denida positiva e h
ii
= e
t
i
He
i
, onde e
i
o i-simo vector cannico (recorde-se que, por denio,
qualquer forma quadrtica duma matriz semi-denida positiva no negativa);
2. tem-se necessariamente h
ii
1, caso contrrio a varincia dos resduos (equao 3.36) seria negativa;
3. caso 1
n
((X) (por exemplo, se o Modelo tem constante aditiva) a soma de cada linha (e, por
simetria, de cada coluna) da matriz H igual a 1, pois nesse caso a projeco do vector 1
n
sobre
o subespao gerado pelas colunas de X deixa 1
n
invariante (isto , H1
n
= 1
n
) e o produto H1
n
devolve a soma das linhas da matriz H, como foi discutido no nal do Captulo 1
13
.
O facto de uma observao ter um efeito alavanca elevado sugere que as estimativas dos parmetros do
modelo podem depender em boa medida dessa observao, que se pode designar um ponto fulcral.
Repare-se que, para esse tipo de observaes, a varincia do resduo associado prxima de zero, isto , a
observao ca prxima da hiper-superfcie ajustada. Este tipo de situao surge com frequncia quando
se trabalha com observaes cujos valores de variveis preditoras se afastam dos valores das restantes
observaes integrando o conjunto de dados usado para ajustar o modelo. precisamente esta tendncia
dessas observaes a atrairem as superfcies ajustadas para perto de si que deu origem designao
de efeito alavanca ou ponto fulcral (sendo o o ponto fulcral o ponto de apoio duma alavanca, que ca
praticamente imvel enquanto a alavanca se mexe). Mas rera-se desde j que um ponto fulcral no
sinnimo de uma observao atpica
14
.
3.10.2 Transformaes de resduos
frequente denir duas transformaes do habituais resduos E
i
= Y
i

Y
i
. Normalizando esse resduo
usual (utilizando a distribuio (3.36), obtem-se:
E
i
2
(1 h
ii
)
^(0, 1)
e substituindo a varincia desconhecida
2
pelo seu estimador QMRE, obtemos aquilo que se designam
os resduos padronizados ou resduos internamente Studentizados:
R
i
=
E
i
QMRE (1 h
ii
)
(3.37)
13
Matrizes cujas linhas e colunas somam sempre 1 designam-se matrizes duplamente estocsticas.
14
Utiliza-se a expresso observao atpica para indicar o conceito que em ingls designado por outlier, ou seja, o de
uma observao que recai fora do padro geral das observaes num conjunto de dados.
Embora esta quantidade resulte de dividir uma Normal reduzida pela raz quadrada de um Qui-quadrado
(SQRE/
2
) a dividir pelos seus graus de liberdade, no possvel concluir que a distribuio destes res-
duos sejam uma t-Student. De facto, no existe independncia entre o numerador (E
i
) e o denominador,
j que este ltimo calculado utilizando tambm a informao do i-simo resduo que se encontra no
numerador
15
.
Esta questo sugere uma outra transformao de resduos que usada com bastante frequncia: a nor-
malizao dos resduos utilizando como estimador de
2
, no QMRE, mas sim a quantidade anloga
resultante de excluir a observao qual se reporta o resduo.
Designando por X
(i)
e Y
(i)
a matriz e vector resultantes de retirar a X e Y a sua i-sima linha e
elemento, respectivamente, o vector de parmetros estimados por este subconjunto de n 1 observaes
dado por:
(i)
=
X
t
(i)
X
(i)
1
X
t
(i)
Y
(i)
(3.38)
Designando ainda por

Y
(i)
= X
(i)

(i)
os n 1 valores ajustados com base nestas estimativas, e
por E
(i)
= Y
(i)

Y
(i)
os respectivos resduos, temos a Soma de Quadrados Residuais calculada
com base nestes valores: SQRE
(i)
= |E
(i)
|
2
. possvel mostrar
16
que esta Soma de Quadrados dos
Resduos obtidos ignorando a existncia da i-sima observao verica a seguinte relao com a Soma de
Quadrados Residual habitual (obtida usando a totalidade das n observaes):
SQRE
(i)
= SQRE
e
2
i
1 h
ii
onde e
i
indica o resduo e h
ii
a efeito alavanca da i-sima observao, ambos relativos ao ajustamento
habitual, com a totalidade das observaes. O estimador da varincia dos erros
2
, obtido ignorando a
existncia da i-sima observao ser ento dada pelo quociente entre esta Soma de Quadrados Residual
modicada e os graus de liberdade que lhe esto associados, que so agora (n1)(p+1). Assim, temos:
QMRE
(i)
=
SQRE
(i)
n p 2
(3.39)
Designa-se ento por resduo externamente Studentizado, ou apenas resduo Studentizado a:
T
i
=
Y
i

Y
i
QMRE
(i)
(1 h
ii
)
(3.40)
onde Y
i
e

Y
i
indicam os i-simo valores observado e ajustado (com base na totalidade das observaes),
respectivamente. possvel calcular os resduos externamente Studentizados directamente a partir dos
resduos internamente Studentizados, sem necessidade de efectuar explicitamente o ajustamento dos mod-
elos resultantes da excluso de cada observao, atravs da relao:
t
i
=
r
i
n p 2
n p 1 r
2
i
15
Da a origem do adjectivo internamente associado a este tipo de resduo.
16
Veja-se o livro de Stapleton (1995, Seco 4.4) para a demonstrao deste e outros resultados relativos aos efeitos no
ajustamento de um Modelo Linear resultantes de acrescentar ou retirar observaes.
Os resduos externamente Studentizados seguem uma distribuio t
np2
caso seja vlido o Modelo
Linear, e so por vezes utilizados na identicao de observaes atpicas (outliers): um critrio frequente
o de xar previamente um quantil elevado da distribuio t
n(p+2)
, ou um valor elevado como 3 ou 4,
e considerar atpicas todas aquelas observaes cujos resduos externamente Studentizados excedam, em
mdulo, esse valor.
frequentemente sugerido que o estudo da normalidade dos resduos se faa sobre os resduos transfor-
mados da forma agora descrita. No entanto, deve ter-se sempre presente que, nem mesmo os resduos
externamente studentizados so independentes entre si.
3.10.3 Falta de independncia, heterogeneidade de varincias, curvaturas
Na validao das restantes hipteses geralmente aconselhado que se analisem os seguintes grcos:
resduos vs. valores ajustados da varivel resposta ( y
i
);
resduos vs. valores de cada uma das variveis preditoras, em especial no caso de haver uma nica
varivel preditora;
resduos vs. ordem de observao dos n valores da varivel resposta (nos casos onde essa ordem
seja relevante).
Como regra geral, estes grcos no devero revelar padres de organizao dos resduos. A existncia
de tais padres pode indiciar a violao de algum dos pressupostos do Modelo Linear.
Grcos de Resduos vs. Valores ajustados de Y
Este primeiro tipo de grco til, uma vez que resduos E
i
e valores ajustados

Y
i
devem ser in-
dependentes, caso seja vlido o Modelo Linear (resultam da projeco dum vector multinormal sobre
subespaos mutuamente ortogonais, como foi visto anteriormente)
17
. Esta independncia entre resduos
e valores ajustados de Y sugere uma ausncia de relaes evidentes no grco sugerido. Entre os padres
frequentemente observados neste tipo de grco incluem-se os seguintes:
grco em forma de funil, com uma maior disperso de resduos associados a valores num
dos extremos da gama de valores de y
i
(em geral, associados aos valores maiores de y
i
). Este
tipo de situao sugere que as varincias dos erros aleatrios possam no ser homogneas, como
hipotizado, mas antes funo dos valores esperados de Y . Uma situao deste tipo sugere (para
alm duma eventual opo por um outro tipo de Modelo) a ponderao de observaes (que ser
discutida mais adiante), ou uma transformao dos valores da varivel resposta que vise estabilizar
a varincia dos erros aleatrios. O mais famoso tipo de transformaes com este objectivo a
famlia de transformaes de Box-Cox, que visa cobrir todas as transformaes potncia (Y
) da
varivel resposta, mas sob uma forma que permita tambm falar num caso limite quando 0:
Y W =
(Y
1)/ para = 0
ln Y para = 0
(3.41)
17
, alis, por esta razo que se sugere a utilizao do grco de resduos contra valores ajustados, e no contra valores
observados de Y . De facto, Cov[E, Y] = Cov[(In P
X
)Y, Y] = (In P
X
)V [Y] =
2
(In P
X
), pelo que as covarincias
(e correlaes) entre resduos e valores observados de Y no so, em geral, nulas.
ou a sua modicao, que utiliza a mdia geomtrica dos Y observados, (relacionada com o Jaco-
biano da transformao dos Y s para os Ws acima indicados), G =
i=1
Y
i
1/n
:
Y W
G
=
(Y
1)/(G
1
) para = 0
Gln Y para = 0
(3.42)
A escolha de valor do parmetro que especica qual das transformaes desta famlia pode
adequar-se melhor a um dado contexto usualmente feita por meio da maximizao da funo
verosimilhana associada transformao W ou W
G
escolhida. Venables & Ripley (1994) es-
creveram uma funo na linguagem S para efectuar essa maximizao, que se encontra disponvel
no programa R, atravs do pacote MASS
18
. Mas previne-se que a escolha de valores de , sem
restries, apenas faz sentido caso os valores de Y sejam sempre positivos.
grco curvilneo, sugerindo a existncia de no-linearidade na relao entre Y e as variveis
preditoras. Mais uma vez, esta questo poder ou no vir a ser ultrapassada atravs do recurso a
transformaes da varivel resposta e/ou das variveis preditoras. Pode tambm vir a ser ultrapas-
sada mediante a introduo de novas variveis preditoras, que sejam possivelmente transformaes
das variveis preditoras j consideradas (no para substituir, mas para se juntar s variveis j
consideradas, como por exemplo se numa regresso linear simples se decidir incluir tambm uma
parcela quadrtica em X no modelo). Para um exemplo de problemas deste tipo, veja-se a Figura
3.3, relativa aos dados do Exerccio 8, pgina 102.
banda no-horizontal, pode indicar a presena de observaes atpicas, a ausncia de uma con-
stante aditiva ou outro preditor linear necessrio. Para um exemplo de problemas deste tipo, veja-se
a Figura 3.4, relativa aos dados do Exerccio 3, pgina 100 (quando se efectua uma regresso de
log-pesos do crebro sobre log-pesos do corpo).
Grcos de Resduos vs. Valores de uma varivel preditora
Os problemas mais frequentes detectveis por meio deste tipo de grcos so anlogos aos sugeridos para a
comparao de resduos e valores ajustados de Y : falta de homogeneidade de varincias, no-linearidade.
A discusso deste tipo de grcos particularmente til na presena de uma nica varivel preditora, e
torna-se mais difcil quando aumenta o nmero de variveis preditoras.
Grcos de Resduos vs. Ordem cronolgica das observaes
Nos casos em que a sucesso cronolgica das observaes seja relevante, importante analisar este tipo
de grco que pode sugerir dependncias entre observaes consecutivas, no incorporadas no modelo e
que ponham em dvida a importante hiptese de independncia dos erros aleatrios do Modelo Linear.
Em particular, surgem violaes desta hiptese associadas a:
18
A m de carregar para uma sesso de R os pacotes dedicados a temas especcos, que no sejam automaticamente
carregados, basta dar o comando:
>library(nome-pacote )
onde nome-pacote seria, neste caso, MASS. Consoante as verses do R com que se esteja a trabalhar, pode acontecer que
este pacote no tenha sido trazido para o ambiente de trabalho onde nos encontramos, sendo nesse caso necessrio ir busc-lo
ao repositrio ocial do R, em http://cran.r-project.org.
120 130 140 150 160
1
0
1
2
3
Ys ajustados
r
e
s
i
d
u
o
s
Figura 3.3: Curvilinearidade de resduos vs. valores ajustados, resultante de no-linearidade na relao
de base, no prevista no Modelo.
2 4 6 8
1
0
1
2
Y ajustados
r
e
s
i
d
u
o
s
Figura 3.4: Banda no-horizontal de resduos, associada presena de observaes atpicas.
grcos indicando uma relao linear entre resduos e tempo, crescente ou decrescente,
que indicia a possibilidade de haver preditores associados ao tempo que no esto a ser englobados
no modelo. Uma possvel soluo ser a de incluir uma varivel preditora no modelo que indique o
tempo de observao.
grcos curvilneos, em que a grupos de resduos positivos se sucedem grupos de resduos neg-
ativos, e/ou viceversa, indiciadores de correlacionamento positivo entre observaes consecutivas.
Tal situao poder (ou no) ser ultrapassada atravs da incluso no modelo de termos preditores
lineares, quadrticos ou porventura de ordens superiores, associados a uma varivel cronolgica.
Cuidados com as transformaes
Duas prevenes gerais, em relao utilizao de transformaes das variveis: (i) h que ter cuidado em
relao possibilidade de uma dada transformao poder resolver um problema (como o das varincias
heterogneas), mas simultneamente criar outra (como por exemplo, destruindo uma normalidade ad-
missvel dos erros aleatrios); (ii) convm ter alguma discrio na utilizao de transformaes: a grande
variedade de possveis transformaes faz com que seja possvel encontrar uma transformao que, de
forma espria, resolva os problemas associados a um conjunto de dados especco, mas sem que isso
reicta uma soluo geral e robusta para os problemas associados ao fenmeno sob estudo.
3.10.4 Inuncia e distncia de Cook
Outra questo que importa avaliar a possibilidade de uma ou outra observao ter, por si s, grande
inuncia no ajustamento do Modelo, no sentido de que a excluso dessa(s) observao(es) afecte de
forma relevante os valores dos parmetros estimados e outros aspectos do modelo. Cook props
19
um
diagnstico para avaliar a inuncia de uma observao, conhecido por distncia de Cook. A distncia
de Cook associada i-sima observao dada por:
D
i
=
| y y
(i)
|
2
(p + 1) QMRE
(3.43)
onde y, p, e QMRE tm o signicado habitual, e y
(i)
= X
(i)
representa o vector dos n valores
ajustados de Y caso as estimativas dos s fossem obtidas apenas a partir das n1 observaes resultantes
de excluir a i-sima observao, como indicado na equao (3.38) e discutido na seco 3.10.2
20
. A
distncia de Cook pode ser re-expressa como:
D
i
=
e
i
QMRE (1 h
ii
)
2
h
ii
1 h
ii
1
p + 1
que um produto de trs factores: o quadrado do resduo internamente studentizado associado a essa i-
sima observao, o quociente entre o efeito alavanca da observao i e a sua distncia do valor mximo 1,
e nalmente o recproco do nmero de variveis preditoras. Tendo em conta que h
ii
o elemento diagonal
da matriz de projeco P
X
sobre ((X), que proporcional varincia do i-simo valor ajustado de Y
(veja-se o Teorema 3.6, pg.62) e que 1 h
ii
o i-simo elemento diagonal de I
n
P
X
, que proporcional
varincia do i-simo resduo (Teorema 3.9, pg.64), o segundo destes trs factores pode ainda ser visto
como o quociente entre a varincia do i-simo valor ajustado e a varincia do i-simo resduo (valores
ajustados e resduos calculados aqui com base na totalidade das observaes). Com muita frequncia,
estas observaes tm valores extremos numa ou vrias das variveis preditoras. Sublinhe-se que, tal
19
Mais uma vez, veja-se Draper & Smith (1998) ou outra referncia para uma discusso mais pormenorizada desta questo.
20
Repare-se na relao com a denio de resduos externamente studentizados. Assinale-se ainda que nesta denio de
distncia de Cook, o valor de QMRE calculado com base na totalidade das n observaes.
como no caso dos impactos, uma observao inuente no necessariamente sinnimo de uma observao
atpica. sim indicativo de que essa observao desempenha um papel importante no ajustamento do
modelo.
A ttulo de exemplo, considerem-se seis observaes (ctcias) sobre uma varivel preditora e uma varivel
resposta, dadas por: (1, 2.5), (1.1, 2.45), (1.2, 2.5), (1.2, 2.4), (1.4, 2.45), (6, 10). Compare-se a nuvem de
pontos das seis observaes, com a nuvem de pontos resultante de ignorar a ltima observao (ateno
s escalas diferentes nos dois grcos da Figura 3.5). A recta de regresso associada totalidade das
1 2 3 4 5 6
4
6
8
1
0
1.0 1.1 1.2 1.3 1.4
2
.
4
0
2
.
4
2
2
.
4
4
2
.
4
6
2
.
4
8
2
.
5
0
Figura 3.5: Nuvens de pontos diferindo numa de seis observaes.
6 observaes tem parmetros estimados:

0
= 0.59283 e

1
= 1.56192. O respectivo coeciente de
determinao : R
2
= 0.9937. J para o caso resultante da excluso da ltima observao, os parmetros
estimados so

0
= 2.6400 e

1
= 0.1500. E o coeciente de determinao de apenas R
2
= 0.3214. A
sexta e ltima observao , assim, uma observao muito inuente. A sua distncia de Cook resulta ser
453.882, enquanto que as distncias de Cook das cinco primeiras observaes nunca excedem 0.285.
3.10.5 A natureza das variveis preditoras
Um apontamento nal sobre um dos aspectos mais limitativos do Modelo Linear: a exigncia de que os
valores das variveis preditoras sejam constantes.
O Modelo Linear , e continuar a ser, aplicado em grande nmero de circunstncias onde as variveis
preditoras no so, na realidade, controladas previamente pelo experimentador. Quando as variveis
preditoras so, na realidade, variveis aleatrias, uma justicao para a utilizao do Modelo Linear pode
vir de considerar que aquilo que se est a modelar so os valores esperados de Y condicionais a um dado
conjunto de valores das variveis preditoras, E[Y [X
0
= x
0
, X
1
= x
1
, X
2
= x
2
, ..., X
p
= x
p
]. No entanto,
no foi utilizada a informao respeitante distribuio de probabilidades das variveis preditoras, e no
ser legtimo fazer inferncia para conjuntos de valores das variveis preditoras diferentes daqueles que
3.11. DE NOVO UM EXEMPLO NO PROGRAMA R
foram efectivamente observados. Alguns autores
21
sugerem a utilizao de tcnicas multivariadas como a
Anlise em Componentes Principais (estudada na disciplina de Estatstica Multivariada), mas essa opo
implica sacricar a natureza de variveis preditoras e resposta, tratando todas as variveis em plano
de igualdade. Nesta disciplina camos pela referncia existncia deste problema, acompanhado pela
constatao de que isso no tem impedido a utilizao na prtica do Modelo Linear em muitos contextos
onde a natureza da varivel preditora no , na realidade, controlada pelo experimentador.
3.11 De novo um exemplo no programa R
Consideremos novamente o exemplo de aplicao do modelo linear, considerado nas Seces 1.2.2 (pgina
12) e 3.7 (pgina 71). Saliente-se que a informao fornecida pela aplicao do comando summary ao
ajustamento dum Modelo Linear inclui o valor da estatstica F, os graus de liberdade da distribuio
associada e ainda a signicncia do valor observado da estatstica. assim possvel vericar logo qual a
concluso dum Teste de Ajustamento Global do Modelo.
Alis, possvel obter uma Tabela-Resumo com a informao relativa a Somas de Quadrados e Quadrados
Mdios (utilizadas no Teste de Ajustamento Global), recorrendo ao comando anova:
> anova(lm(comprimento.raiz ~dias))
Analysis of Variance Table
Response: comprimento.raiz
Df Sum Sq Mean Sq F value Pr(>F)
dias 1 7864.9 7864.9 45.056 0.001111 **
Residuals 5 872.8 174.6
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Este mesmo comando anova pode ser utilizado para efectuar outros Testes F a modelos encaixados (teste
F parcial), mas dada a natureza do nosso exemplo (uma regresso linear simples), essa utilizao ser
feita mais adiante.
Em matria de resduos, o R disponibiliza funes para calcular os trs tipos de resduos referidos na
Seco 3.10. Para se obter os resduos usuais, os resduos (internamente) padronizados e os resduos
externamente Studentizados, existem as funes, respectivamente, residuals, rstandard e rstudent:
> residuals(lm(comprimento.raiz ~ dias, data=exfolhas))
1 2 3 4 5 6 7
5.1644812 -0.4655074 -9.0954960 -4.4971494 -9.8988027 24.6995439 -5.9070696
> rstandard(lm(comprimento.raiz ~ dias, data=exfolhas))
1 2 3 4 5 6 7
0.48247833 -0.04069974 -0.76315740 -0.36866595 -0.81167108 2.07394097 -0.87115706
> rstudent(lm(comprimento.raiz ~ dias, data=exfolhas))
21
Veja-se, para uma discusso no contexto duma Regresso Linear Simples, Draper & Smith (1998), p. 89-96.
1 2 3 4 5 6 7
0.44195236 -0.03640899 -0.72619185 -0.33432006 -0.77912236 4.96203264 -0.84603426
Os efeitos alavanca (ou seja, as leverages h
ii
) podem ser calculadas atravs da funo hatvalues:
> hatvalues(lm(comprimento.raiz ~dias, data=exfolhas))
1 2 3 4 5 6 7
0.3436146 0.2505701 0.1862600 0.1475485 0.1479475 0.1874572 0.7366021
Conrmem-se estes valores, comparando com os elementos diagonais da matriz de projeco H = P
x
que
j foram obtidos na Seco 3.7.
As distncias de Cook podem ser calculadas atravs da funo cooks.distance:
> cooks.distance(lm(comprimento.raiz ~ dias, data=exfolhas))
1 2 3 4 5 6 7
0.0609310011 0.0002769183 0.0666549045 0.0117625384 0.0571967820 0.4961566097 1.0611663366
Para obter um grco de resduos contra a ordem em que surgem na matriz de dados (como indicado na
Figura 3.6), grco esse que pode ser til caso a ordem corresponda a ordem de observao e se deseje
avaliar eventuais padres que sugiram falta de independncia, pode usar-se a instruo:
> plot(residuals(lm(comprimento.raiz ~ dias)))
1 2 3 4 5 6 7
1
0
0
1
0
2
0
Index
r
e
s
i
d
u
a
l
s
(
l
m
(
c
o
m
p
r
i
m
e
n
t
o
.
r
a
i
z

~

d
i
a
s
)
)
Figura 3.6: Resduos do exemplo
Mas para obter a maioria dos grcos de diagnstico referidos na Seco 3.10, pode usar-se a funo
plot, sendo o argumento de entrada o objecto resultante do ajustamento dum modelo linear atravs do
comando lm. A funo plot, nesse caso, devolve um conjunto de quatro grcos teis na validao das
hipteses subjacentes ao modelo:
3.11. DE NOVO UM EXEMPLO NO PROGRAMA R
> plot(lm(comprimento.raiz ~ dias)
gera os grcos indicados na Figura 3.7. Trata-se duma seleco de quatro de entre um total de seis
0 20 40 60 80 100
1
0
0
1
0
2
0
Fitted values
R
e
s
id
u
a
ls
Residuals vs Fitted
6
5
3
1.0 0.5 0.0 0.5 1.0
0
.
5
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
Theoretical Quantiles
S
t
a
n
d
a
r
d
iz
e
d

r
e
s
id
u
a
ls
Normal QQ
6
7
5
0 20 40 60 80 100
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1
.
2
1
.
4
Fitted values
S
t
a
n
d
a
r
d
iz
e
d

r
e
s
id
u
a
ls
ScaleLocation
6
7
5
0.0 0.2 0.4 0.6
1
.
0
0
.
5
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
Leverage
S
t
a
n
d
a
r
d
iz
e
d

r
e
s
id
u
a
ls
Cooks distance
1
0.5
0.5
1
Residuals vs Leverage
7
6
3
Figura 3.7: Alguns diagnsticos associados ao estudo do Modelo Linear, produzidos pelos programa R.
Devido ao reduzido nmero de observaes neste exemplo, as linhas de alisamento podem confundir a
leitura dos grcos.
grcos de diagnsticos de resduos disponibilizados na distribuio padro do R. Caso se deseje ver a
totalidade (ou qualquer outro subconjunto) dos seis grcos pode utilizar-se o argumento which. As
linhas de alisamento que por vezes dicultam a leitura dos grcos podem ser omitidas, atribuindo-se o
valor lgico FALSE ao argumento add.smooth. A Figura 3.8 foi produzida com o seguinte comando:
> plot(lm(comprimento.raiz ~ dias, data=exfolhas), which=1:6, add.smooth=FALSE)
Da anlise destes grcos de diagnstico surge alguma indicao de no-linearidade da relao de fundo, e
de no-normalidade dos resduos. As duas ltimas observaes tm uma inuncia bastante mais elevada
do que as restantes no ajustamento do Modelo Linear. Como foi sugerido logo no incio, pode ser til
considerar uma relao no-linear de fundo entre comprimento da raz e dias decorridos desde o incio da
experincia.
0 20 40 60 80 100
1
0
0
1
0
2
0
Fitted values
R
e
s
id
u
a
ls
Residuals vs Fitted
6
5
3
1.0 0.5 0.0 0.5 1.0
0
.
5
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
Theoretical Quantiles
S
t
a
n
d
a
r
d
iz
e
d

r
e
s
id
u
a
ls
Normal QQ
6
7
5
0 20 40 60 80 100
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1
.
2
1
.
4
Fitted values
S
t
a
n
d
a
r
d
iz
e
d

r
e
s
id
u
a
ls
ScaleLocation
6
7
5
1 2 3 4 5 6 7
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Obs. number
C
o
o
k
s

d
is
t
a
n
c
e
Cooks distance
7
6
3
0.0 0.2 0.4 0.6
1
.
0
0
.
5
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
Leverage
S
t
a
n
d
a
r
d
iz
e
d

r
e
s
id
u
a
ls
Cooks distance
1
0.5
0.5
1
Residuals vs Leverage
7
6
3
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Leverage hii
C
o
o
k
s

d
is
t
a
n
c
e
0.1 0.3 0.5 0.6 0.7
0
0.5
1 1.5 2 2.5
Cooks dist vs Leverage h
ii
(1 h
ii
)
7
6
3
Figura 3.8: Os seis grcos diagnsticos associados ao estudo do Modelo Linear, produzidos pelos pro-
grama R. As linhas de alisamento que nem sempre facilitam a leitura dos grcos foram omitidas com o
argumento add.smooth=FALSE.

Modelo Linear

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Modelo Linear

Hochgeladen von

Copyright:

Verfügbare Formate

Captulo 3

o vector das n variveis aleatrias resposta.

o vector dos p + 1 parmetros (constantes) do modelo.

a matriz de dimenses n (p + 1) cujas colunas so dadas

o vector dos n erros aleatrios.

para algum vector

, onde ((X) o subespao gerado pelas colunas da matriz X, isto :

(Teorema 2.25, p. 36). Trata-se dum subespao de

Figura 3.1: Geometria associada ao estudo do Modelo Linear. O vector y

[AX+a E(AX+a)][BY +b E(BY +b)]

(sendo os blocos da matriz de dimenses correspondentes aos subvectores Y

4. Se a um vector (p + 1)-dimensional de constantes, a

, sendo a distribuio multinormal

No estudo do Modelo Linear, ser frequentemente necessrio determinar a distribuio de quantidades

. Estes valores observados de resduos podem ser vistos como a

, no sentido generalizado da distribuio Multinormal.

O estimador das varincias dos erros aleatrios no Modelo Linear,

Observao: Vejamos as expresses do desvio padro estimado,

, nos casos particulares de combi-

a partir duma amostra concreta, tem-se:

. Considerem-se os vectores aleatrios

), e a dimenso do subespao sobre o qual se projecta para obter a Soma de

. A m de aligeirar a notao, designemos por H

Das könnte Ihnen auch gefallen