Sie sind auf Seite 1von 38

Regresso Linear

Mltipla -
Complementando
Variveis Indicadoras
Comparando modelos aninhados e no
aninhados
Multicolinearidade

Variveis Indicadoras

Variveis Explicativas Qualitativas
Exemplos de variveis qualitativas:
Sexo
Grupo etrio
Nvel scio-econmica (A, B, C, D, E)
Nvel educacional(anafalbeto, fundamental incompleto,
fundamental completo, mdio incompleto, mdio completo
ou mais)
Regies do Brasil

Variveis Explicativas Qualitativas
Como estas variveis aparecerm no banco de
dados?
Em geral, representadas por nmeros, que so apenas rtulo.

O nvel de mensurao no mximo ordinal.

Variveis Explicativas Qualitativas
Podemos ter as seguintes codificaes:
Nvel educacional:
0 Anafabeto
1 Fundamental incompleto
2 Fundamental Completo
3 Mdio Incompleto
4 - Mdio Completo ou mais
No faria diferena se a codificao fosse:
Nvel educacional:
0 Anafabeto
4 Fundamental incompleto
9 Fundamental Completo
13 Mdio Incompleto
22 - Mdio Completo ou mais

Variveis Indicadoras
A sua introduo se d atravs de um conjunto de
variveis indicadoras (dummies).
Existem diversas formas de construir variveis indicadoras.
Vamos considerar a representao mais simples que
atravs dos valores 0 e 1.

Variveis Indicadoras - Exemplo
Considere um um banco de dados contendo informaes sobre
Despesa hospitalar de 49 pacientes com diagnstico idntico.
As variveis envolvidas na anlise so:
SEXO: sexo do paciente (1=Feminino; 2=masculino;)
MEDICO: no. de registro do mdico atendente (499; 730; 1021)
GRAVE: gravidade do quadro (1 a 4. 1 correspondendo menor
gravidade e 4 maior)
IDADE: idade do paciente
VALOR: valor da conta do hospital na alta.
A varivel resposta de interesse VALOR.
Deseja-se investigar a influncia das demais variveis na resposta.
Como introduzir as variveis SEXO, GRAVE e MEDICO no modelo?

Variveis Indicadoras - Exemplo

Variveis Indicadoras - Exemplo
Necessidade de transformar a varivel valor transformao logartmo

Exemplo Varivel Indicadora VALOR

A varivel sexo est codificada como:
Sexo:
1 - Feminino
2 - Masculino
Para introduzi-la no modelo, criamos a varivel indicadora de sexo
feminino:
Como interpretamos o modelo?
Modelo:

Se sexo1=0, Se sexo1=1,
sexo1={
1 se sexo=1
0 se sexo=2
Y=
0
+
1
sexo1+c
Y=
0
+c Y=
0
+
1
+c

Exemplo Varivel Indicadora -VALOR
O modelo nos diz que o log dovalor mdio das internaes dos
homens dado por
0
e, para as mulheres dado por
0
+
1
Se
1
no significativo, podemos considerar que as internaes
de homens e mulheres tem o mesmo log do valor mdio dado por
0
Porque s colocamos o indicador de sexo feminino no modelo?
No deveramos colocar tambm o indicador de sexo masculino?
O que acontece se colocamos as duas indicadoras?

Exemplo Varivel Indicadora -VALOR
Considerar o modelo:
Em que :
Qual a matriz X para estes modelo?
Y =
0
+
2
sexo1+
3
sexo2+c
sexo2={
1 se sexo=2
0 se sexo=1

Exemplo Varivel Indicadora -VALOR
O modelo:
constante sexo1 sexo2
1. | 1 0 1 |
2. | 1 0 1 |
3. | 1 1 0 |
4. | 1 1 0 |
5. | 1 0 1 |
6. | 1 1 0 |
7. | 1 0 1 |
. |
. |
. |
n. | 1 1 0 |

Y =
0
+
1
sexo1+
2
sexo2+c
A soma das colunas 2 e 3 igual
coluna 1. Logo, a matriz tem posto 2
e os parmetros no so estimveis.

Exemplo Varivel Indicadora -VALOR
Como introduzir as variveis GRAVE e MEDICO?
GRAVE tem 4 nveis. Quantas indicadoras precisamos para incorpor-la
no modelo?
Definimos:
GRAVE1={
1 se GRAVE =1
0 se GRAVE != 1
GRAVE2={
1 se GRAVE = 2
0 se GRAVE != 2
GRAVE3={
1 se GRAVE = 3
0 se GRAVE != 3

Exemplo Varivel Indicadora -VALOR
E a varivel mdico?
Modelo de regresso:

MEDICO1={
1 se MEDICO =499
0 se MEDICO != 499
MEDICO2={
1 se MEDICO = 730
0 se MEDICO != 730
Y =
0
+
1
sexo1+
2
GRAVE1+
3
GRAVE2 +
+
4
GRAVE3+
5
MEDICO1+
6
MEDICO2+c

Exemplo Varivel Indicadora -VALOR
Interpretao?
E se introduzirmos idade?

Y =
0
+
1
sexo1+
2
GRAVE1+
3
GRAVE2+
+
4
GRAVE3+
5
MEDICO1+
6
MEDICO2+
7
idade+c

Modelo com todas as explicativas
lm(formula = lnvalor ~ idade + sexo + grave + Medico, data = preco)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.38832 0.23609 31.295 < 2e-16 ***
idade 0.02062 0.00340 6.065 3.50e-07 ***
sexoM 0.05206 0.10511 0.495 0.62300
grave2 0.45439 0.13114 3.465 0.00126 **
grave3 0.83116 0.14436 5.757 9.57e-07 ***
grave4 1.04479 0.16329 6.398 1.17e-07 ***
Medico730 0.05961 0.11666 0.511 0.61213
Medico1021 0.34108 0.12415 2.747 0.00889 **
---
Residual standard error: 0.3184 on 41 degrees of freedom
Multiple R-squared: 0.8398, Adjusted R-squared: 0.8124
F-statistic: 30.7 on 7 and 41 DF, p-value: 2.301e-14

Exemplo Varivel Indicadora -VALOR
Como modelar a interao de grave com a idade?
Y =
0
+
1
sexo1+
2
GRAVE1+
3
GRAVE2+
4
GRAVE3 +
+
5
MEDICO1+
6
MEDICO2+
7
IDADE +
+
8
GRAVE1IDADE+
9
GRAVE2IDADE+
10
GRAVE3IDADE+c

Modelo interao grave*idade
lm(formula = lnvalor ~ idade + sexo + idade * grave + Medico,
data = preco)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.554838 0.282536 23.200 < 2e-16 ***
idade 0.035137 0.004574 7.683 2.99e-09 ***
sexoM 0.021408 0.094278 0.227 0.821584
grave2 1.577453 0.397174 3.972 0.000307 ***
grave3 2.501338 0.544664 4.592 4.70e-05 ***
grave4 3.879839 1.064042 3.646 0.000794 ***
Medico730 0.190981 0.104179 1.833 0.074617 .
Medico1021 0.416966 0.107313 3.886 0.000396 ***
idade:grave2 -0.020455 0.006661 -3.071 0.003930 **
idade:grave3 -0.025856 0.007648 -3.381 0.001685 **
idade:grave4 -0.041633 0.014194 -2.933 0.005661 **
Residual standard error: 0.2711 on 38 degrees of freedom
Multiple R-squared: 0.8924, Adjusted R-squared: 0.864
F-statistic: 31.5 on 10 and 38 DF, p-value: 2.328e-15

Comparando os dois modelos anteriores
> anova(preco3, preco4)
Analysis of Variance Table
Model 1: lnvalor ~ idade + sexo + grave + Medico
Model 2: lnvalor ~ idade + sexo + idade * grave + Medico
Res.Df RSS Df Sum of Sq F Pr(>F)
1 41 4.1564
2 38 2.7926 3 1.3638 6.1861 0.001576 **
AIC(preco3, preco4)
df AIC
preco3 9 36.16424
preco4 12 22.67763

Comparando Modelos
Aninhados e No
Aninhados

Comparando Modelos Aninhados O
Teste Linear Geral
A abordagem do teste Linear Geral envolve trs etapas:
Determinao do modelo completo
Determinao do modelo reduzido
Teste estatstico
Utiliza a Soma de Quadrados Extra

Soma de Quadrados Extra
Mede a reduo na Soma de Quadrados dos Resduos
(ou, equivalentemente, aumento na Soma de Quadrados
da Regresso) decorrente da introduo de uma ou mais
variveis explicativas no modelo, dado que outras
variveis explicativas j esto no modelo
SQExtra=SQRes RSQRes C

Teste Estatstico associado
Teste F:
O Modelo Completo tem p-1 variveis explicativas
SQRes(C) tem n-p gl
O Modelo Restrito tem q-1 variveis explicativas
SQRes(R) tem n-q gl

A SQExtra esto associados n-q-(n-p) =( p-q)= l gl

Teste Estatstico associado
Modelo Completo:
Hiptese H
0
:
A uma matriz de posto l
Y=
0
1+
1
X
1
++
p1
X
p1
A=0
l x p

Teste Estatstico associado
Teste F:
O Modelo de comparao deve ser o modelo completo,
que, a princpio, o modelo correto.
A pergunta : Ao se retirar as variveis explicativas do modelo,
O valor estimado pelo novo modelo semelhante ao valor estimado
Pelo modelo completo? Ou seja, a diferena entre eles residual?
Devemos comparar a variao gerada pelo QMRes(C), que
Estima
2
sendo H
0
verdadeira ou falsa.

Teste Estatstico associado
Teste F:
Funo no R: Anova(modelo R, modelo C)
F
i
=
SQRes( R)SQRes(C)
gl ( R)gl (C)
-
SQRes(C)
gl (C)

Comparando modelos no aninhados
Usar a funo de informao de Akaike ou o
critrio Bayesiano obtidos da frmula
-2*log-likelihood + k*npar

em que npar representa o nmero de parmetros
no modelo ajustado e k = 2 para AIC e k = log(n)
(n= nmero de observaes) para o critrio
bayesiano.
Quanto menor o valor da estatistica, melhor o
modelo.

Multicolinearidade
Compromentendo a
estimativa dos parmetros

Multicolinearidade
A qualidade da estimativa dos parmetros, medida pelo erro
padro , pode ficar comprometida se as variveis explicativas
estiverem altamente correlacionadas
Caso extremo Se as colunas de X so linearmente
dependentes, a matriz XX singular e no pode ser invertida
Esta situao ocorre raramente na prtica e,em
geral, tem soluo

Multicolinearidade
Lembrando: As colunas de X so linearmente dependentes se
existir um vetor c, com cc= 1, tal que Xc=0, ou ,
equivalentemente, cXXc=0
Se as covariveis do modelo apresentam alta correlao,
dizemos que existe uma quase dependncia entre as
colunas de X.
Neste caso, os dados so ditos mal condicionados. As colunas
de X so quase linearmente dependentes

Multicolinearidade
As colunas de X so quase dependentes se existir
um vetor c, com cc =1, tal que:
Isto equivalente a dizer que para algum vetor
c=(c
1
, c
2
, ..., c
k
) de comprimento unitrio, o comprimento
de pequeno, em que x
[j]
representa a
j-sima coluna da matriz X.
XC
2
=c X Xc=6 pequeno

j =0
k
c
j
x
| j

Multicolinearidade
A existncia de multicolinearidade afeta a varincia das
estimativas, em geral, resultando em algum com
varincia grande.
Como consequncia, podemos tambm encontrar sinais
no esperados para os coeficientes, ou seja, as
estimativas dos parmetros no so confiveis.

j

Como Detectar Multicolinearidade ?
Verificar se algum coeficiente de regresso tem sinal trocado,
pelo que se espera de conhecimento anterior
Verificar se covariveis que se antecipava serem importantes,
com base em conhecimento prvio, apresentam pequeno valor
para t
Verificar a correlao entre pares de covariveis, procurando
alguma muito elevada
Examinar o fator de inflao da varincia( Variance Inflation
Factor) VIF
Fazer a decomposio de XX em autovalores e autovetores
(biblioteca perturb do R comando colldiag)

Fator de Inflao da Varincia : VIF
Quando se ajusta um modelo por mnimos quadrados, as
varincias dos
i
podem ser escritas como:
Se uma coluna da matriz X, X
i
, ortogonal s outras colunas de
X, seu VIF
i
=1.
Ou seja, VIF
i
uma medida de quanto aumentado pelo
relacionamento de X
i
com as outras covariveis de X.
V
(

i
)
=VIF
i
(
c
2
S
ii
)
, sendo S
ii
=

j=1
n
(
X
ij


X
i
)
2
c
2
S
ii

Fator de Inflao da Varincia : VIF
Pode-se mostrar que
Em que o coeficiente de correlao multipla do modelo
que correlaciona X
i
com todas as outras variveis explicativas
Um valor alto de VIF
i
indica que pequeno
grande.
Um valor alto de VIF indica, portanto, que existe uma quase
dependncia entre as colunas de X, excluindo a coluna 1.
1R
i
2
-R
i
2
VIF
i
=
1
1R
i
2
R
i
2

Interpretando o VIF
Sugestes para anlise do VIF
Existe evidncia de multicolinearidade se:

O maior valor de VIF maior que 10 (alguns autores utilizam


30)

A mdia de todos os VIFs consideravelmente maior que 1.


No existem trs pacotes que fornecem o valor do VIF:
car,DAAG e faraway.

Para saber mais .
KUTNER M.H., NACHTSHEIM, C.J., NETER J., LI, W.,
Applied linear statistical models. 5 ed. McGraw-Hill, Irwin,
2005.
FOX, J. Applied Regression Analysis and Generalized
Linear Models. Sage Publications, Inc., 2008.
WEISBERG, S. Applied Linear Regression. 3a. ed New
York: Wiley, 2005. 310 p
FOX, J. An R and S-Plus Companion to Applied
Regression. Sage Publications, Inc., 2002.
MONTGOMERY, Douglas C; PECK, Elizabeth A., VINING,
Geoffrey G. Introduction to linear regression analysis, 4a.
ed. New York ; Chichester: John Wiley, 2007. 670p.

Das könnte Ihnen auch gefallen