Beruflich Dokumente
Kultur Dokumente
c ao, entreoh abitodefumareaocorr enciadec ancerdepulm ao, entreasnotasemexamesdeEstatsticaeMatem atica, entreasnotasnocol egioenafaculdade, etc.Naan alisederegress aoemprincpio, n aoexisteinteresseemestimaressaassocia
i=1
e
2
i
=
n
i=1
[y
i
a bx
i
]
2
=
n
i=1
[y
2
i
2ay
i
2by
i
x
i
+ 2abx
i
+ a
2
+ (bx
i
)
2
]
= na
2
+
n
i=1
y
2
i
2a
n
i=1
y
i
2b
n
i=1
y
i
x
i
+ 2ab
n
i=1
x
i
+ b
2
n
i=1
x
2
i
.
Para minimizar esta express ao em a e b, teremos as derivadas em relac ao a a e b:
22
Z
a
= 2na 2
n
i=1
y
i
+ 2b
n
i=1
x
i
,
Z
b
= 2
n
i=1
y
i
x
i
+ 2a
n
i=1
x
i
+ 2b
n
i=1
x
i
,
e igualando essas equac oes a zero:
na +b
n
i=1
x
i
=
n
i=1
y
i
(2.1)
a
i=1
n
x
i
+ b
n
i=1
x
2
i
=
n
i=1
y
i
x
i
(2.2)
Que e conhecido como sistema de equa coes normais. Agora basta resolver este sistema
para a e b. Da equacao 2.1 temos que:
a =
n
i=1
y
i
b
n
i=1
x
i
n
= y b x
a = y b x.
Da equac ao 2.2 temos:
n
i=1
y
i
.x
i
a
n
i=1
x
i
= b
n
i=1
x
2
i
,
e substituindo a express ao de a temos:
b
n
i=1
x
2
i
=
n
i=1
y
i
x
i
n
i=1
x
i
)(
n
i=1
y
i
)
n
+
b(
n
i=1
x
i
)
2
n
=
n
n
i=1
y
i
x
i
(
n
i=1
x
i
)(
n
i=1
y
i
) + b(
n
i=1
x
i
)
2
n
= nb
n
i=1
x
2
i
b(
n
i=1
x
i
)
2
n
n
i=1
y
i
x
i
(
n
i=1
y
i
)(
n
i=1
x
i
)
= b(n
n
i=1
x
2
i
(
n
i=1
x
i
)
2
) = n
n
i=1
y
i
x
i
(
n
i=1
y
i
)(
n
i=1
x
i
)
Logo, temos que
23
b =
n
n
i=1
y
i
x
i
(
n
i=1
y
i
)(
n
i=1
x
i
)
n
n
i=1
x
2
i
(
n
i=1
x
i
)
2
ou b =
n
i=1
y
i
x
i
n
i=1
y
i
)(
n
i=1
x
i
)
n
n
i=1
x
2
i
(
n
i=1
x
i
)
2
n
Observe que b ainda pode ser escrito de v arias outras formas:
b =
n
i=1
y
i
x
i
n
i=1
y
i
)(
n
i=1
x
i
)
n
n
i=1
x
2
i
(
n
i=1
x
i
)
2
n
=
n
i=1
(x
i
x)(y
i
y)
n
i=1
(x
i
x)
2
=
n
i=1
(x
i
x)yi
n
i=1
(x
i
x)
2
=
n
i=1
x
i
(y
i
y)
n
i=1
(x
i
x)
2
)
onde,
Sxx =
n
i=1
x
2
i
(
n
i=1
x
i
)
2
n
e Sxy =
n
i=1
x
i
y
i
n
i=1
x
i
)(
n
i=1
y
i
)
n
Logo, temos:
b =
Sxy
Sxx
, a = y bx e y = a +bxi
2.3.3.2 Estimacao por maxima verossimilhanca
Na subsec ao anterior mostramos como encontrar os estimadores de e pelo metodo
de mnimos quadrados, agora veremos, para o mesmo modelo, a construcao desses mesmos
estimadores por m axima verossimilhanca.
y
i
= +X
i
+
i
, i = 1, 2, ..., n
Onde assumimos que os erros seguem uma distribuicao N(0,
2
), i.i.d. A partir da
temos que y
i
N( + x
i
,
2
)
Ent ao a func ao de distribui cao de y
i
e dada por:
24
f(y
i
) =
1
2
exp
1
2
2
.(y
i
x
i
)
2
A partir dos dados observados (x
i
, y
i
), i = 1, ..., n temos que a func ao de verossimi-
lhanca e dada por:
L(, ,
2
; x
1
, ..., x
n
) =
n
i=1
(2
2
)
1
2
2
(yixi)
2
= (2
2
)
n
2
.exp
1
2
2
n
i=1
(yixi)
Agora maximizar L(, ,
2
; x) e o mesmo que maximizar l(, ,
2
; x) = log[L(, ,
2
; x)]
=
n
2
log(2
2
)
1
2
2
n
i=1
(yi xi)
2
Agora, para maximizar L ou l, temos que derivar em relac ao a , , e
2
igualar as
equac oes a zero e resolver o sistema de equa coes resultantes.
l
=
1
2
n
i=1
(y
i
x
i
)
l
=
1
2
n
i=1
(y
i
x
i
x
2
i
)
l
2
=
n
2
2
+
1
2
2
.
n
i=1
(y
i
x
2
i
)
Igualando as equa coes a zero temos que encontrar a, b e
2
que resolvem o sistema:
n
i=1
y
i
= na +b
n
i=1
x
i
(2.3)
n
i=1
y
i
x
i
= a
n
i=1
x
i
+b
n
i=1
x
2
i
(2.4)
1
2
2
= [
1
2
n
i=1
(y
i
x
i
)
2
n] = 0 (2.5)
Observando o sistema anterior vemos que as equac oes 2.3 e 2.4 n ao dependem de
2
e sao axatamente iguais ao sistema de equac oes normais do metodo de estimac ao de
mnimos quadrados. Ent ao do mesmo jeito que zemos naquele caso, a partir das equac oes
2.3 e 2.4 vemos que:
a = y bx
b =
Sxy
Sxx
,
25
Sxy =
n
i=1
x
i
y
i
n
i=1
x
i
)(
n
i=1
y
i
)
n
e Sxx =
n
i=1
x
2
i
(
n
i=1
x
2
i
)
n
Logo, vemos que os estimadores a e b de e de m axima verossimilhanca s ao exa-
tamente os mesmos estimadores de mnimos quadrados. Agora, voltando nossa atenc ao
para a equa cao (III) temos:
1
2
2
n
i=1
(y
i
a bx
i
)
2
n = 0
1
2
n
i=1
(y
i
a bx
i
)
2
= n
2
=
1
n
n
i=1
[y
i
(a + bx
i
)
2
Como j a sabemos como calcular a e b, o sistema que maximiza l est a resolvido. Como
vimos anteriormente, temos que y
i
= a +bx
i
e y
i
y
i
= y
i
a bx
i
= e
i
, logo:
2
=
1
n
n
i=1
e
2
i
=
1
n
n
i=1
(y
i
y)
2
Como podemos observar, estimamos e por mnimos quadrados sem nem nos
lembrar de que tnhamos que estimar
2
. Na estimac ao por maxima verossimilhanca
encontramos os mesmos estimadores e e ainda encontramos um possvel estimador
para
2
que e dado pela media dos quadrados dos resduos entretanto, como veremos, este
estimador e viesado.
2.3.4 Propriedades dos estimadores de e
Agora que encontramos os estimadores de e , vamos vericar algumas carac-
tersticas de a e b para construir as suas distribuic oes de probabilidade. Inicialmente,
vamos calcular a esperan ca e a vari ancia de b. Como vimos:
b =
Sxy
Sxx
=
n
i=1
x
i
y
i
(
n
i=1
x
i
)(
n
i=1
y
i
)
n
n
i=1
x
2
i
(
n
i=1
x
i
)
2
n
=
n
i=1
(x
i
x)y
i
n
i=1
(x
i
x)
2
Agora, como y
i
= + x
i
+
i
, temos que:
b =
n
i=1
(x
i
x)( + x
i
+i)
Sxx
=
n
i=1
(x
i
x)
Sxx
+
n
i=1
x
i
(x
i
x)
Sxx
+
n
i=1
i
(x
i
x)
Sxx
26
Porem, vemos que:
n
i=1
(x
i
x) =
n
i=1
xi nx =
n
i=1
x
i
i=1
x
i
= 0
Sxx =
n
i=1
(x
i
x)
2
=
n
i=1
(x
i
x)(x
i
x) =
n
i=1
x
i
(x
i
x) x
n
i=1
(x
i
x)
Sxx =
n
i=1
x
i
(x
i
x)
Ent ao,
b = +
n
i=1
i
(x
i
x)
Sxx
Calculando a esperan ca de b,
E(b) = +
n
i=1
(x
i
x)E(
i
)
Sxx
= .
Logo E(b) = e b e um estimador nao viesado de , agora vamos calcular a variancia
de b, temos que:
V ar(b) = V ar() + V ar
_
n
i=1
(x
i
x)
i
Sxx
_
n
i=1
(x
i
x)
2
V ar(
i
)
(Sxx)
2
=
2
Sxx
(Sxx)
2
V ar(b) =
2
Sxx
Como vimos b e uma combinac ao linear de vari aveis aleat orias com distribuic ao nor-
mal, ent ao e tambem normal com media e vari ancia
2
Sxx
, logo,
b N
_
,
2
Sxx
_
Agora, vamos ver a mesma construc ao para o estimador a de .
Como vimos a = y bx, logo:
a =
n
i=1
y
i
n
bx =
n
i=1
( +x
i
+
i
)
n
bx
a =
n
n
+
n
i=1
x
i
n
+
n
i=1
i
n
bx
+x +
n
i=1
i
n
bx,
27
logo
E(a) = + x +E(
n
i=1
i
n
E(bx)
E(a) = +x
i
+
n
i=1
E(
i
)
n
E(b)x
E(a) = .
Ent ao, a e um estimador n ao viesado de . Agora vamos calcular a var(a).
V ar(a) = V ar() + V ar(x) + V ar
_
n
i=1
i
n
_
+V ar(bx)
V ar(a) =
n
2
n
2
+
x
2
2
Sxx
=
_
1
n
+
x
2
Sxx
_
V ar(a) =
2
_
1
n
+
x
2
Sxx
_
E como no caso de b, temos que:
a N
_
,
2
_
1
n
+
x
2
Sxx
__
2.3.5 Decomposicao da variabilidade total
De acordo com a subsec ao anterior iremos decompor a variabilidade total.
SQres =
n
i=1
(y
i
y
i
)
2
=
n
i=1
(y
i
a bx
i
)
2
=
n
i=1
(y
i
y +bx bx
i
)
2
=
n
i=1
[(y
i
y) b(x
i
x)]
2
=
n
i=1
(y
i
y)
2
+b
2
n
i=1
(x
i
x)
2
2b
n
i=1
(x
i
x)(y
i
y)
=
n
i=1
(y
i
y)
2
+b
2
Sxx 2bSxy =
n
i=1
(x
i
x)
2
+
Sxy
Sxx
Sxy
Sxx
Sxx 2bSxy
=
n
i=1
(y
i
y)
2
+bSxy 2bSxy =
n
i=1
(y
i
y)
2
bSxy
SQres = SQtot SQreg
28
SQtot = SQreg + SQres
Logo, a soma de quadrados total e a soma de quadrados de regress ao mais a soma de
quadrado dos resduos.
2.3.6 Esperancas das somas de Quadrados
Agora iremos calcular as esperancas das tres somas de quadrados, comecando por
SQreg.
SQreg = bSxy =
S
2
xy
Sxx
= b
2
Sxx
logo,
E(SQreg) =
E(S
2
xy)
Sxx
(2.6)
Porem, como vimos anteriormente, temos que:
y
i
= +x
i
+
i
(2.7)
y = +x + (2.8)
Fazendo as equac oes (2.7) - (2.8), temos:
(y
i
y) = (x
i
x) + i
Multiplicando por (x
i
x) em ambos os lados e aplicando a soma:
n
i=1
(x
i
x)(y
i
y) =
n
i=1
(x
i
x)
2
+
n
i=1
(x
i
x)
i
i=1
(x
i
x)
Sxy = Sxx +
n
i=1
(x
i
x)
i
S
2
xy =
2
S
2
xx + [
n
i=1
(x
i
x)
i
]
2
+ 2Sxx
(x
i
x)
i
Ent ao:
E(S
2
xy) =
2
S
2
xx + E[
n
i=1
(x
i
x)
i
]
2
+E[2Sxx
n
i=1
(x
i
x)
i
] =
2
S
2
xx +
2
Sxx
29
Sxx(
2
Sxx +
2
)
Voltando para a Equac ao 2.6 temos que:
E(SQreg) =
E(S
2
xy)
Sxx
=
Sxx(
2
Sxx +
2
)
Sxx
=
2
Sxx +
2
=
2
+
2
Sxx
Para a soma de quadrados total, vemos da equac ao que:
SQtot =
n
i=1
(y
i
y)
2
=
n
i=1
[(x
i
x) +
i
]
2
]
=
n
i=1
[
2
(x
i
x)
2
+ (
i
)
2
+ 2(x
i
x)(
i
)]
=
2
Sxx +
n
i=1
(
i
)
2
+ 2
(x
i
x)
i
2
(x
i
x)
Logo, tomando a esperanca, temos que:
E(SQtot) =
2
Sxx + E[
n
i=1
(
i
)
2
]
como no caso de Sxx e Syy temos que:
n
i=1
(
i
)
2
=
n
i=1
2
i
(
n
i=1
i
)
2
n
E enm:
E[
n
i=1
(
i
)
2
]n
2
n
2
n
=
2
(n 1)
Voltando para a equac ao temos que:
30
E(SQtot) =
2
Sxx +
2
(n 1)
= (n 1)
2
+
2
Sxx
Agora para a soma de quadrados de resduos atraves da decomposic ao da soma de
quadrados total, temos que:
E(SQres) = E(SQtotal) E(SQreg)
=
2
Sxx +
2
(n 1)
2
Sxx
2
=
2
(n 2).
Portanto,
E(
SQres
n
) =
1
n
(n 2)
2
,
e o estimador
2
para
2
e viesado. Porem S
2
=
SQres
n2
e um estimador n ao viesado
de
2
, ja que:
E(S
2
) = E(
SQres
n 2
) =
1
n 2
(n 2)
2
=
2
A partir desses resultados das somas de quadrados, se = 0, podemos demonstrar
que:
SQtot
2
tem distribuic ao qui-quadrado com n 1 grau de liberdade (
2
n1
)
SQres
2
tem distribuicao qui-quadrado comn2 graus de liberdade (
2
n2
), independentedeque =
0
SQreg
2
tem distribuic ao qui-quadrado com 1 grau de liberdade (
2
1
)
Entretando, esses resultados n ao ser ao demonstrados. A partir dessas distribui coes,
denimos os quadrados medios dividindo a respectiva soma de quadrados pelos respectivos
graus de liberdade:
QMtot =
SQtot
n 1
31
QMreg =
SQreg
1
= SQreg
QMres =
SQres
n 2
Agora, uma vez que o modelo foi ajustado e todos os parametros estimados, surgem
algumas perguntas tais como:
1. Existe realmente alguma relac ao linear entre X e Y ?
2. Como podemos responder isso estatisticamente?
Para responder a pergunta (1) , observamos que, se = 0, n ao existe relac ao linear
explicando Y em func ao de X.
Para a pergunta (2), se = 0, como vimos anteriormente,
SQreg
2
2
1
e
SQres
2
2
n2
e atraves de um resultado da teoria de probabilidade mostramos que:
F =
SQreg
1
SQres
n2
=
QMreg
QMres
F
1,n2
como vimos anteriormente, temos que:
E(QMreg) = E(SQreg) =
2
Sxx +
2
e E(QMres) =
2
ou seja, em media QMreg e igual a
2
Sxx+
2
. Se = 0, ambos s ao em media iguais
a
2
, e F = 1. Se = 0 vemos que E(QMreg) > E(QMres) e F > 1.
Assim, a estatstica F e uma estatstica para testar H
0
: = 0 contra H
1
: = 0.
Quanto maior o valor de F, maior evidencia a favor de H
1
.
A partir da, procedemos a an alise de vari ancia do modelo linear, dado pela tabela a
seguir:
Tabela 1: An alise de vari ancia do modelo de regressao linear simples
Causas Variacao G.L S.Q Q.M F
Regress ao 1 bSxy bSxy
QMreg
QMres
Resduo n 2 Syy bSxy
SyybSxy
n2
Total n 1 Syy
32
Entretando, ainda existe outra maneira de se testar H
0
: = 0 contra H
1
: = 0.
Lembremos que, sob as suposic oes usuais do modelo de regressao linear simples, temos
que b N(;
2
Sxx
), logo,
Z
1
=
b
Sxx
N(0, 1)
Porem, nao conhecemos o verdadeiro valor de
2
e usamos o estimador.
(n 2)
S
2
2
(n2)
, onde S
2
= QMres
logo:
t
=
b
S
Sxx
t
n2
.
Enm, para testar H
0
: = 0 contra H
1
: = 0, vemos que:
t
=
b
Sxx
S
t
n2
,
e entao basta encontrar o ponto crtico para um nvel de signic ancia na tabela da t ou
calcular o p-valor do teste. De forma equivalente, se quisermos testar H
0
: =
0
contra
H
1
: =
0
usamos a estatstica:
t
b
=
Sxx(n
0
)
S
t
n2
De maneira equivalente, como a N(,
2
(
1
n
+
x
2
Sxx
)), usamos o mesmo raciocnio
para testar H
0
: =
0
contra H
1
: =
0
. Ou seja a estatstica:
t
=
a
0
S
_
1
n
+
x
2
Sxx
t
n2
,
e podemos usar esta estatstica para testar H
0
com nvel de signic ancia .
2.3.6.1 Coeciente de Determinacao R
2
A partir da decomposic ao da soma de quadrados total, denimos o coeciente de
determinac ao ou explica cao do modelo, que e dado por:
33
r
2
=
SQreg
SQtot
=
bSxy
Sxx
Essa quantidade indica a proporc ao da varia cao de y
i
que e explicadapela regressao.
Note, ainda que SQtot 0, SQreg 0 e SQres 0 pois eles s ao somas de quadrados.
Alem disso, pela decomposi cao da soma de quadrados, temos que:
SQtot = SQrest +SQreg
Logo, SQreg SQtot, e ent ao 0 R
2
1. Tambem e possvel mostrar que R
2
mede
o quadrado da correlac ao entre y
i
e y
i
. Logo, quanto mais proximo de 1 estiver o valor
de R
2
, melhor e o ajuste do modelo e quanto mais pr oximo de 0 (zero), pior e o ajuste,
um exemplo seria uma aplicac ao onde o calculo de R
2
tivesse um valor 0, 818, neste caso
81, 8% da variac ao total de y e explicada pelo modelo de regressao linear simples.
Podemos sintetizar gracamente, atraves da Figura 4.
Figura 4: Graco coeciente de determinacao
onde: y = y
i
= (y) e o modelo mais simples. T e a diferenca entre os pontos observados
e a media (variacao total dos ys). Reg e o desvio da regress ao. Variac ao de y atribuda a
x. Chamamos de variac ao explicada. Res e a variacao residual. Parte n ao explicada pelo
modelo.
2.3.6.2 Coeciente de Determinacao Ajustado R
2
Como vimos anteriormente, o valor do coeciente de determinac ao e uma medida que
d a indcios sobre a qualidade do ajuste do modelo obtido, porem e importante enfatizar
que a medida R
2
depende do n umero de observac oes da amostra, sendo que ele tende a
aumentar a medida que n diminui.
Especialmente, para n = 2 temos R
2
= 1, j a que dois pontos determinam uma
unica reta. Para tentar contornar este problema, denimos o coeciente de determinacao
corrigido para graus de liberdade, mas antes observemos a seguinte transformacao:
34
1 R
2
= 1
SQreg
SQtot
=
SQtot SQreg
SQtot
=
SQres
SQtot
Dividindo as somas de quadrados pelos respectivos graus de liberdade, denimos o
coeciente de determinacao corrigido pelos graus de liberdade:
1 R
2
=
SQres
n2
SQtot
n1
=
n 1
n 2
(1 R
2
).
Logo,
R
2
= R
2
1 R
2
n 2
Agora, R
2
e uma nova medida da qualidade de ajuste do modelo, note que R
2
< R
2
.
Alem disso R
2
pode assumir valores negativos.
2.3.7 Intervalos de Conanca
Outra forma para se avaliar a signic ancia dos resultados obtidos para a e b, que
s ao os estimadores de e , respectivamente, e atraves da utilizacao de intervalos de
conanca (ICs).
2.3.7.1 Intervalos de conanca para
Para construir um I.C para com (1 )% de conanca, temos que encontrar um
valor t
/2
, tal que:
P
_
t
/2
<
_
Sxx
S
(b ) < t
/2
_
= 1
P
_
t
/2
S
Sxx
< (b ) < t
/2
S
Sxx
_
= 1
P
_
b t
/2
S
Sxx
< < t
/2
S
Sxx
b
_
= 1
P
_
b t
/2
S
Sxx
< < b + t
/2
S
Sxx
b
_
= 1
logo,
_
b t
/2
S
Sxx
< < b +t
/2
S
Sxx
b
_
= 1
e um intervalo de conanca para com (1 )% de conan ca.
35
2.3.7.2 Intervalos de conanca para
De maneira equivalente, como
a
S
_
1
n
+
x
2
Sxx
t
n2
vemos que:
_
a t
/2
S
_
1
n
+
x
Sxx
; a +t
/2
S
_
1
n
+
x
Sxx
_
2.3.8 Testes para a falta de ajuste
Tanto o R
2
como
R
2
s ao medidas descritivas e nao servem para tomarmos uma de-
cis aosobre a qualidade do ajuste do modelo. Para essa nalidade, existe o teste para
vericar a falta de ajuste do modelo. Se o modelo estiver correto, ent ao S
2
e um estima-
dor nao viesado para
2
. Se o modelo usado n ao estiver bom o suciente para os dados,
S
2
ir a super-estimar
2
, na Figura 5 temos um modelo graco de um modelo nao ajustado
de forma linear.
Figura 5: Graco da falta de ajuste
Desta forma, vemos que um procedimento de teste seria comparar S
2
com
2
. Neste
caso, existem duas possibilidades.
2
e conhecido
O
2
pode ser conhecido a partir de trabalhos anteriores, pelo conhecimento do erro
obtido no processo de medida etc. Assim, temos que:
SQres
2
=
(n 2)S
2
2
2
n2
36
Como
2
e conhecido, podemos facilmente fazer o c alculo, toda vez que
(n2)S
2
2
resultar
em um valor muito alto, temos indcios de que S
2
est a maior que
2
. Usando a tabela de
qui-quadrado podemos avaliar a signic ancia do resultado.
2
e desconhecido
Este e o caso mais comum, quando nao temos nenhuma informac ao adicional sobre
2
.
Neste caso, devemos adotar outra estimativa para
2
que seja independente do modelo
que estamos ajustando.
Isto pode ser feito com o uso de medidas repetidas de y para um ou mais valores xos
de x.
Suponha que temos m valores diferentes para x e que cada x
j
; j = 1, 2, ..., m tenha n
j
observa coes, digamos:
y
11
, y
12
, ..., y
1n1
para x
1
y
21
, y
22
, ..., y
2n2
para x
2
.
.
.
.
.
.
.
.
.
.
.
.
y
m1
, y
m2
, ..., y
mnm
para x
m
No total, temos:
n =
m
j=1
nj
k=1
1 =
m
j=1
n
j
Neste caso podemos obter a soma de quadrados do erro puro para cada x
j
. Por
exemplo, para x
1
teramos:
n1
k=1
(y
1k
y
1
)
2
e ent ao, supondo que as medidas sejam todas de mesma magnitude, temos a soma de
quadrados do erro puro dada por:
SQep =
m
j=1
ni
k=1
(y
1k
y
1
)
2
,
37
que tem n umero de graus de liberdade dado por:
n
e
=
m
j=1
(n
j
1) =
m
j=1
(n
j
m) = n m
Logo, o estimador da vari ancia do erro puro ou quadrado medio do erro puro e dado
por:
S
2
e
=
m
i=1
nj
k=1
(y
jk
y
i
)
2
n m
ou quadrado medio do erro puro
Agora, da mesma maneira que mostramos a decomposic ao da soma de quadrados
total,a soma de quadrados de resduos pode ser decomposta da seguinte maneira:
m
j=1
nj
k=1
(y
jk
y
i
)
2
. .
SQres
=
m
j=1
nj
k=1
(y
jk
y
i
)
2
. .
SQep
+
m
j=1
nj( y
j
y
j
)
2
. .
SQfa
ou seja, a soma de quadrados de resduos se decomp oe na soma de quadrados de erro
puro mais a soma de quadrados da falta de ajuste. Alem disso, pode-se mostrar que:
SQep
2
2
nm
e
SQfa
2
2
m2
e a partir da, construmos um quadro de analise de vari ancia para a falta de ajuste,
dado na tabela 2.
Tabela 2: An alise da vari ancia para a falta de ajuste.
Causas Variacao G.L S.Q Q.M F
Resduo n 2 SQres
Falta de Ajuste m2 SQres SQrep
SQfa
m2
Erro puro n m SQep
SQep
nm
QMfa
QMep
Como
SQep
2
2
nm
e
SQfa
m2
2
m2
A estatstica F
i
i
i, i = 1, 2, ..., n
Aplicando o logaritmo em ambos os lados da igualdade camos com:
log(y
i
) = log(x
i
i
)
43
log(y
i
) = log() + log(x
i
) + log(
i
)
e ent ao, temos um modelo:
z
i
= A +v
i
+
i
, i = 1, ..., n,
com z
i
= log(y
i
), A = log(), v
i
= log(x
i
) e
i
= log(
i
)
que agora e um modelo linear simples nos logaritmos das variaveis.
2.5.2 Funcao exponencial
A func ao e dada pela expressao:
y =
x
O graco desta func ao e esbo cado na Figura 12:
Figura 12: Graco da funcao exponencial
Assumindo o erro multiplicativo:
y
i
=
x
i
i
, i = 1, 2, ..., n
tomando os logaritmos:
log(y
i
) = log() + x
i
log() + log(
i
)
ou
z
i
= A + Bx
i
+
i
,i = 1,...,n onde
z
i
= log(y
i
), A = log(), B = log() e
i
= log(
i
)
que e um modelo de regressao linear simples do log(y
i
) com rela cao a x
i
44
2.5.3 Funcao hiperb olica
Existem tres tipos de func ao hiperbolica que veremos a seguir:
Na func ao tipo I temos:
y = x
ou y =
x
i
i
, i = 1, 2, ..., n
Figura 13: Graco da funcao hiperbolica, tipo I
Aplicando o log, temos que:
log(u
i
) = log() log(x
i
) + log(
i
)
ou
z
i
= A +
i
, i = 1, 2, ..., n
z
i
= log(y
i
), A = log(), = log(x
i
) e i = log(
i
)
Na func ao tipo II, temos:
y = +x
1
cujo graco e dado na Figura 14.
Neste caso, podemos assumir um modelo estatstico com erro aditivo:
y
i
= +
x
i
+
i
, i = 1, 2, ...n
45
Figura 14: Graco da func ao hiperb olica, tipo II.
Note que, neste caso, o modelo j a e linear nos parametros, mas devemos fazer uma
transformac ao em x, reescrevendo o modelo como:
y
i
= + t
i
, i = 1, 2, ..., n
Onde t
i
=
1
x
i
ou t
i
= x
1
i
, que agora pode ser ajustado usando a teoria descrita ate
aqui:
Na func ao do tipo III, temos:
y = ( +x)
1
=
1
+x
Cujo gr aco da func ao e do tipo, sempre que +x = 0, e apresentado na Figura 15.
Figura 15: Graco da funcao hiperbolica
Adotando um modelo estatstico com o termo de erro aditivo no denominador do
segundo termo de equac ao:
y
i
=
1
+x
i
+
i
, i = 1, ..., n,
fazendo a transformacao t
1
em ambos os lados, temos o modelo:
1
y
i
= + x
i
+
i
, i = 1, ..., n ou
46
z
i
= +x
i
+
i
, i = 1, ..., n
onde z
i
=
1
y
i
, que e um modelo linear simples.
2.6 Estatstica Computacional
Com os avan cos na tecnologia ao longo dos anos, ocorreram muitas mudancas nas
an alises estatsticas. Os pesquisadores e os estudantes podem agora facilmente usar uma
grande variedade de modelos, dos mais simples aos mais complexos e gerar gr acos bem
elaborados com apenas alguns cliques do mouse.
O uso de ferramentas e programas adequados poupa horas de c alculos e propocionam
importantes an alises. Os complicados c alculos manuais gerados a partir de exemplos
fornecidos da vida real sao difceis de se manipular, com o software estatstico, situac oes
reais podem ser analisadas mais prontamente.
De acordo com Alves e Cunha (2006), a utiliza cao de software estatstico deve ter
sempre como suporte um adequado conhecimento das tecnicas estatsticas envolvidas, ou
segundo orientac oes de quem detenha esses conhecimentos.
De uma forma generica e simplicada, todos os aplicativos estatsticos, lidam com
uma analise estatstica de dados estruturada em quatro etapas:
1. Introducao dos dados no programa ou importa cao de arquivos de dados.
2. Avaliac ao descritiva dos dados.
3. Selecao do procedimento de an alise estatstica a aplicar.
4. Apreciacao e interpretac ao dos resulados.
Hoje, h a um grande n umero de pacotes estatsticos no mercado. Alguns dos principais
programas disponveis como SAS, MINITAB, SPSS, S-PLUS e o R possuem caractersticas
diferentes. A maioria desses pacotes s ao desenvolvidos especicamente para determinados
nichos de especialistas: bi ologos, medicos, psic ologos, cientistas sociais etc. Muitos desses
softwares foram desenvolvidos sob orientac ao dos especialistas nessas areas.
Com toda essa variedade de programas, ca um pouco difcil decidir qual deles uti-
lizar. Segundo Curral (1994), a utiliza cao dos softwares e computadores deve ser feita
n ao se esquecendo de uma ressalva importante: o computador n ao raciocina, e n ao pode
47
formular julgamentos. A compreens ao dos princpios da estatstica e pre-requisito `a cor-
reta interpretac ao de resultados obtidos pelo computador. Para Guedes e Margins (2005)
um equvoco comum com o qual nos deparamos nos dias atuais e que, em funcao da faci-
lidade que o advento dos computadores nos proporciona, permitindo desenvolver c alculos
avancados e aplica coes de processos sosticados com razo avel eciencia e rapidez, muitos
pesquisadores consideram-se aptos a fazerem analises estatsticas sem um conhecimento
mais aprofundado dos conceitos e teorias.
Em areas especcas da estatstica como a Analise de Regressao, onde se exige respon-
sabilidade e muito conhecimento estatstico por parte do pesquisador, e de fundamental
import ancia a aplicacao correta de metodos estatsticos nos softwares, nao basta jogar
os dados no software e comecar a tirar conclusoes precipitadas, o estatstico deve fazer
primeiramente uma an alise criteriosa dos resduos am de vericar todas as suposi coes
necess arias para se trabalhar com aquele grupo de dados.
Em qualquer tipo de an alise estatstica, seja no campo da regressao ou nao, um
bom domnio de conte udo teorico e importante e evita a pratica inadequada de se obter
interpreta coes equivocadas e muitas vezes err oneas.
2.6.1 Software Estatstico R
O Software R e um conjunto integrado de pacotes ou blibliotecas para manipuac ao
de dados, c alculo e visualiza cao gr aca. Entre outras caractersticas, ele permite:
Uma facilidade efetiva para manipula cao e armazenagem de dados;
Um conjunto de operadores para calculos sobre quadros de dados, em particular as
matrizes;
Uma grande e coerente colec ao integrada de ferramentas para analise de dados;
Facilidades gr acas com capacidade de visualizac ao na tela ou impressora;
uma linguagem de programa cao bem desenvolvida, simples e eciente;
O R e um sistema totalmente planejado e coerente, em vez de uma alglomera cao de
ferramentas muito especcas e inexveis, como e o caso de outros programas de analise
de dados.
48
R e uma poderosa linguagem de programac ao, que permite aos usu arios acrescen-
tar funcionalidades adicionais. H a tambem, possibilidade de escrever c odigos em outras
linguagens de programacao (como o C, por exemplo) para manipular objetos R.