06 Lineal Multiple

Bioestadstica II.
Gabriel Cavada
Regresin Lineal Mltiple
Siguiendo la idea inspiradora de la regresin lineal simple, esto es, observado un efecto buscar la o las causas que
lo produjeron, aceptamos ampliamente que este efecto puede ser producido por ms de una causa, es decir
aceptamos la multicausalidad de una respuesta, concepto que se acerca con mayor fidelidad a la realidad que
estamos observando. Si la respuesta o efecto lo atribuimos a p posibles causas, la idea anterior la expresamos
matemticamente as:
Y = f ( X 1 , X 2 , X 3 ,..., X p )
Efecto o respuesta Causas
Nos interesa modelar la respuesta cuando la relacin funcional entre la respuesta y la causa es lineal, es decir, de la
forma:
Y = 0 + 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p
O bien, si nos centramos en la i-sima observacin:
Yi = 0 + 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p + i
( 0 + 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p , )
I. Estimacin por mxima verosimilitud: Se basa en suponer que:

(0, )
O equivalentemente:
As la funcin de verosimilitud toma la siguiente forma:
" 0
&

+ 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p
!
1 %
$
, , , , =

2
Al igual que en regresin lineal simple, se obtienen los estimadores de los parmetros del modelo.
Sin embargo, se necesitan agrega el supuesto de independencia entre los predictores, esta exigencia se conoce
como no colinealidad o no multicolinealidad.
Bioestadstica II. Gabriel Cavada
Una vez ajustado un modelo de regresin, es necesario conocer la calidad del mismo, para ello
la variabilidad total de Y, que no depende del modelo ajustado, puede descomponerse del siguiente
modo:
( ) ( ) ( )
2 2 2
Y Y = Y Y + Y Y
SCTotal = SCResidual + SCRegresin
Varianza Total = Varianza no explicada + Varianza explicada
Se define el coeficiente de determinacin como:
( )2
Y Y
R2 =

2
(Y Y )
Sin embargo, el coeficiente de determinacin, aumenta en la medida que se incorporan variables al
modelo, sin aportar, necesariamente una explicacin plausible a la respuesta, por esta razn es
necesario corregir este coeficiente, por la cantidad de predictores involucrados en el modelo, al
2
coeficiente de determinacin corregido se le llama R ajustado.
La descomposicin de la variabilidad o Tabla ANOVA es:
Fuente de Variacin Grados de libertad Suma de cuadrados Cuadrado medio F
(Y Y ) (Y Y )
Regresin p 2 2 CMreg
CMreg = F=
CMres
p
(Y Y ) (Y Y )
Residuo n-p-1 2 2
CMres =
n p 1
(Y Y )
Total n-1 2
Asociada a la descomposicin de la variabilidad y por ende a la calidad del modelo, se tiene la siguiente dcima:
2
H : = 0
0
H 1 : 2 > 0
Cuya estadstica de prueba es:
CMreg
F= ~F(p,n-p-1)
CMres
La estimacin de la varianza del error es:
= CMres =
S 2 (Y Y ) 2
n p 1
Ejemplo ilustrativo:
En pacientes con antecedentes con infarto agudo al miocardio, se desea explicar la presin arterial media
(pam=2pdias/3-psist/3) a travs de las siguientes variables:
Variable Etiqueta
edad en aos
sexo 0:masc 1:fem
peso kg
talla m
glicma glicemia
coltot colest. Total
hdl coles. Hdl
ldl coles. Ldl
trigl Triglicridos
Los datos estn en la base remultiple.dta.
Primera estrategia de anlisis:

1. Con peso y talla se gener el imc
2. Se describe la muestra
3. Se explora la asociacin de pam con las variables explicativas.
. tab sexo
0:masc |
1:fem | Freq. Percent Cum.
------------+-----------------------------------
0 | 2,422 73.48 73.48
1 | 874 26.52 100.00
------------+-----------------------------------
Total | 3,296 100.00
. tabstat edad glicma coltot hdl ldl trigl imc pam, stat(n min q max mean sd) col(stat)
variable | N min p25 p50 p75 max mean sd

-------------+--------------------------------------------------------------------------------
edad | 3296 17 53 62 72 98 62.52488 12.67926
glicma | 3296 31 112 134 183 926 162.8494 84.24484
coltot | 3296 66 164 194 224 992 197.6633 58.338
hdl | 3296 10.2 35 42 50 99 43.31201 12.35635
ldl | 3296 10 92 119 146 415 120.4346 41.36683
trigl | 3296 18 98.5 136 192 3900 159.5226 118.6273
imc | 3296 18 24.4 26.6 29.3 44.5 27.11478 3.934646
pam | 3296 38 87.6 101.15 115.3 203.3 102.1407 21.06202
----------------------------------------------------------------------------------------------
Exploracin de asociaciones de la pam:

. ttest pam ,by(sexo)
Two-sample t test with equal variances

------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
0 | 2422 102.9195 .4213516 20.73632 102.0932 103.7457
1 | 874 99.98272 .7376175 21.80655 98.53501 101.4304
---------+--------------------------------------------------------------------
combined | 3296 102.1407 .3668651 21.06202 101.4214 102.8601
---------+--------------------------------------------------------------------
diff | 2.936765 .829645 1.310093 4.563437
------------------------------------------------------------------------------
diff = mean(0) - mean(1) t = 3.5398
Ho: diff = 0 degrees of freedom = 3294
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Pr(T < t) = 0.9998 Pr(|T| > |t|) = 0.0004 Pr(T > t) = 0.0002
El p-value en negritas indica que hay evidencias de que la pam es distinta entre hombres y mujeres.
. pwcorr pam edad glicma coltot hdl ldl trigl imc,sig
| pam edad glicma coltot hdl ldl trigl

-------------+---------------------------------------------------------------
pam | 1.0000
|
|
edad | -0.0610 1.0000
| 0.0005
|
glicma | -0.0740 0.0991 1.0000
| 0.0000 0.0000
|
coltot | 0.1125 -0.1504 -0.0068 1.0000
| 0.0000 0.0000 0.6963
|
hdl | 0.0546 0.1451 -0.0383 0.1116 1.0000
| 0.0017 0.0000 0.0280 0.0000
|
ldl | 0.1235 -0.1537 -0.0370 0.7388 0.0369 1.0000
| 0.0000 0.0000 0.0338 0.0000 0.0340
|
trigl | 0.0701 -0.1970 0.0091 0.2783 -0.1941 0.0769 1.0000
| 0.0001 0.0000 0.6034 0.0000 0.0000 0.0000
|
imc | 0.1295 -0.1827 0.0637 0.0838 -0.0960 0.0656 0.1206
| 0.0000 0.0000 0.0003 0.0000 0.0000 0.0002 0.0000
Los p values en negritas indican que la pam est correlacionada significativamente con todas las variables predictoras,
pero adems se observa que entre los predictores hay una fuerte evidencia de multicolinealidad.
'()*
'(
Exploracin del nivel de multicolinealidad: El mtodo de los valores y vectores propios: se genera un ndice, L= , el
cuociente entre el mayor y el menor valor propio de la matriz de correlaciones construida con slo los predictores, y
este se compara segn el siguiente criterio:
Si L< 30 hay poca colineealidad

Si 30 L 100 colinealidad moderadada
Si L>100 hay colinealidad fuerte
. pca edad glicma coltot hdl ldl trigl imc
Principal components/correlation Number of obs = 3296

Number of comp. = 7
Trace = 7
Rotation: (unrotated = principal) Rho = 1.0000
--------------------------------------------------------------------------
Component | Eigenvalue Difference Proportion Cumulative
-------------+------------------------------------------------------------
Comp1 | 1.93785 .580822 0.2768 0.2768
Comp2 | 1.35702 .305423 0.1939 0.4707
Comp3 | 1.0516 .129815 0.1502 0.6209
Comp4 | .921786 .142496 0.1317 0.7526
Comp5 | .77929 .0472119 0.1113 0.8639
Comp6 | .732078 .5117 0.1046 0.9685
Comp7 | .220378 . 0.0315 1.0000
--------------------------------------------------------------------------
. dis 1.93785 /.220378

8.7933006
Es decir este nmero indica que la multicolinealidad es dbil. Por lo tanto se estima el modelo completo, es decir
explicar la pam a travs de: edad imc glicma coltot hdl ldl trigl, an no se incluye sexo:
. reg pam edad glicma coltot hdl ldl trigl imc
Source | SS df MS Number of obs = 3296

Evidencia de la existencia
-------------+------------------------------ F( 7, 3288) = 21.34 del modelo: a lo menos una
Model | 63511.2566 7 9073.03666 Prob > F = 0.0000 de las variables explica a la
Residual | 1398179.44 3288 425.237055 R-squared = 0.0435 pam
-------------+------------------------------ Adj R-squared = 0.0414
Total | 1461690.69 3295 443.608708 Root MSE = 20.621
------------------------------------------------------------------------------
pam | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
edad | -.023115 .0299411 -0.77 0.440 -.0818201 .0355901
glicma | -.0186019 .0043097 -4.32 0.000 -.0270519 -.0101518
coltot | -.0014451 .009902 -0.15 0.884 -.0208598 .0179696
hdl | .1260887 .0306547 4.11 0.000 .0659845 .186193
ldl | .0539938 .0133053 4.06 0.000 .0279062 .0800813
trigl | .0107094 .003369 3.18 0.001 .004104 .0173149
imc | .6686379 .0937813 7.13 0.000 .4847621 .8525136
_cons | 75.09872 3.863546 19.44 0.000 67.52352 82.67392
------------------------------------------------------------------------------
Los p-values en negritas indicas que las respectivas variables explican significativamente a la pam. La hiptesis nula
es que el coeficiente respectivo es nulo.
Un modelo de regresin mltiple debe ser parsimonioso, es decir debe explicar lo mximo posible con un mnimo
de variables predictoras.
En este anlisis se observa que ni la edad ni el colesterol total explican significativamente a la pam: Si son sacadas
del modelo Se pierde capacidad de explicacin?. Esta respuesta la entrega el Test de Razn de Verosimilitudes
(Likelihood ratio test), cuya hiptesis nula es que el modelo inicial y el modelo reducido tienen la misma capacidad de
explicacin:
. reg pam edad glicma coltot hdl ldl trigl imc

-------------+------------------------------ F( 7, 3288) = 21.34
Model | 63511.2566 7 9073.03666 Prob > F = 0.0000
Residual | 1398179.44 3288 425.237055 R-squared = 0.0435
-------------+------------------------------ Adj R-squared = 0.0414
Total | 1461690.69 3295 443.608708 Root MSE = 20.621
------------------------------------------------------------------------------
-------------+----------------------------------------------------------------
edad | -.023115 .0299411 -0.77 0.440 -.0818201 .0355901
glicma | -.0186019 .0043097 -4.32 0.000 -.0270519 -.0101518
coltot | -.0014451 .009902 -0.15 0.884 -.0208598 .0179696
hdl | .1260887 .0306547 4.11 0.000 .0659845 .186193
ldl | .0539938 .0133053 4.06 0.000 .0279062 .0800813
trigl | .0107094 .003369 3.18 0.001 .004104 .0173149
imc | .6686379 .0937813 7.13 0.000 .4847621 .8525136
_cons | 75.09872 3.863546 19.44 0.000 67.52352 82.67392
------------------------------------------------------------------------------
. estimates store A
. reg pam glicma hdl ldl trigl imc

-------------+------------------------------ F( 5, 3290) = 29.76
Model | 63250.3562 5 12650.0712 Prob > F = 0.0000
Residual | 1398440.34 3290 425.057853 R-squared = 0.0433
-------------+------------------------------ Adj R-squared = 0.0418
Total | 1461690.69 3295 443.608708 Root MSE = 20.617
------------------------------------------------------------------------------
-------------+----------------------------------------------------------------
glicma | -.0190041 .0042777 -4.44 0.000 -.0273913 -.0106169
hdl | .1225339 .0297766 4.12 0.000 .0641514 .1809165
ldl | .0534757 .0087438 6.12 0.000 .0363319 .0706195
trigl | .0108991 .0031131 3.50 0.000 .0047952 .0170029
imc | .6795968 .0925668 7.34 0.000 .4981025 .8610911
_cons | 73.32228 3.121049 23.49 0.000 67.20288 79.44167
------------------------------------------------------------------------------
. estimates store B
. lrtest A B
Likelihood-ratio test LR chi2(2) = 0.61

(Assumption: B nested in A) Prob > chi2 = 0.7353
El p value en negritas indica que el modelo reducido explica igual cantidad que el inicial.
Variables indicatrices (Dummys)
Si en el modelo:
Y = 0 + 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p
Es necesario introducir variables explicativas que son de naturaleza nominal (no numricas), tales como, sexo, raza,
tratamiento u otras, debemos introducir el concepto de variable indicatriz o variables dummy. Estas variables son
generadas a partir de una variable categrica que est medida en k niveles, de modo tal que esta producir tantas
variables dummy como niveles tenga, as cada dummy indicar la pertenencia de la unidad de observacin,, en
forma excluyente a cada nivel de la variable original. Es decir:
Si X una variable categrica medida en r niveles, entonces se definen r variables dummys que indican en forma
EXCLUYENTE la pertenencia de una unidad de observacin a un determinado nivel de la variable, as:
1 si el sujeto est en el nivel X 1

d1 =
0 si el sujeto no est en el nivel X 1
1 si el sujeto est en el nivel X 2
d2 =
0 si el sujeto no est en el nivel X 2
.
.
.
1 si el sujeto est en el nivel X r
dr =
0 si el sujeto no est en el nivel X r
Ejemplo: Supongamos que se registra la variable Nivel Educacional medida en tres niveles:
1 nivel bajo

ivel Educacional = 2 nivel medio
3 nivel alto

Y se registra informacin de 5 sujetos, que se muestran a continuacin:

Al ejecutar el siguiente comando en STATA, se generarn las variables dummys respectivas:
. tab Nivel_Educacional, gen(NEdu)

Nivel_Educa |
cional | Freq. Percent Cum.
------------+-----------------------------------
1 | 2 40.00 40.00
2 | 2 40.00 80.00
3 | 1 20.00 100.00
------------+-----------------------------------
Total | 5 100.00
Una vez creadas estas variables ellas entran al modelo lineal mltiple del siguiente modo:
Y = 0 + 2 IVEdu2 + 3 IVEdu3
Respuesta promedio en el grupo de referencia
Respuesta promedio en el grupo 2
Respuesta promedio en el grupo 3

Ejemplo: Un mdico sospecha que la efectividad de un tratamiento hipotensor, debido a su complejidad, depende
del nivel educacional del paciente y de su edad. La principal respuesta es el cambio de PAM (mm Hg) al cabo de
un mes de tratamiento, el registro de datos se encuentra en PAM.dta
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
pac float %9.0g
Neduc float %9.0g 1:bajo 2:medio 3:alto
edad float %9.0g
deltaPAM float %9.0g
-------------------------------------------------------------------------------
Sorted by: pac
. tabstat deltaPAM, stat(n min q max mean sd) by( Neduc)

Summary for variables: deltaPAM
by categories of: Neduc (1:bajo 2:medio 3:alto)
Neduc | N min p25 p50 p75 max mean sd
---------+--------------------------------------------------------------------------------
1 | 10 -.9 -.9 -.9 -.8 -.8 -.86 .0516398
2 | 10 -1.9 -1.9 -1.85 -1.8 -1.8 -1.85 .0527046
3 | 10 -1.6 -1.6 -1.6 -1.5 -1.5 -1.56 .0516398
---------+--------------------------------------------------------------------------------
Total | 30 -1.9 -1.8 -1.6 -.9 -.8 -1.423333 .42563
------------------------------------------------------------------------------------------
Vaiacin de deltaPAM por nivel educacional

-.5
-1
-1.5
-2
1 2 3

-------------+------------------------------ F( 2, 27) = 958.07
Model | 5.18066651 2 2.59033325 Prob > F = 0.0000
Residual | .073000006 27 .002703704 R-squared = 0.9861
-------------+------------------------------ Adj R-squared = 0.9851
Total | 5.25366651 29 .181160914 Root MSE = .052
------------------------------------------------------------------------------
deltaPAM | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
NEDU2 | -.99 .0232538 -42.57 0.000 -1.037713 -.942287
NEDU3 | -.7 .0232538 -30.10 0.000 -.7477129 -.6522871
_cons | -.86 .0164429 -52.30 0.000 -.8937381 -.8262619
------------------------------------------------------------------------------
deltaPAM = 0.86 0.99EDU 2 0.7EDU 3
Promedio de
deltaPAM en nivel Promedio de
educacional 1 deltaPAM en nivel
=-0.86 educacional 3
=-0.86-0.7=-1.56
Promedio de
deltaPAM en nivel
educacional 2
=-0.86-0.99=-1.85
. reg deltaPAM NEDU2 NEDU3 edad

-------------+------------------------------ F( 3, 26) = 1566.00
Model | 5.22475126 3 1.74158375 Prob > F = 0.0000
Residual | .028915253 26 .001112125 R-squared = 0.9945
-------------+------------------------------ Adj R-squared = 0.9939
Total | 5.25366651 29 .181160914 Root MSE = .03335
------------------------------------------------------------------------------
deltaPAM | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
NEDU2 | -.9957627 .014942 -66.64 0.000 -1.026476 -.965049
NEDU3 | -.7028814 .0149209 -47.11 0.000 -.7335518 -.6722109
edad | .0144068 .0022882 6.30 0.000 .0097033 .0191103
_cons | -1.712881 .1358731 -12.61 0.000 -1.992172 -1.43359
------------------------------------------------------------------------------
. predict deltaPAMhat
. twoway (line deltaPAMhat edad if Neduc==1,sort) (line deltaPAMhat edad if Neduc==2,sort) (line
deltaPAMhat edad if Neduc==3,sort)
-.5
Valores ajustados de PAM
-1
-1.5
-2
54 56 58 60 62 64
edad
pam vs. edad en NEduc=1 pam vs. edad en NEduc=2

pam vs. edad en NEduc=3

06 Lineal Multiple

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

06 Lineal Multiple

Hochgeladen von

Copyright:

Verfügbare Formate

Bioestadstica II.

Regresin Lineal Mltiple

Efecto o respuesta Causas

O bien, si nos centramos en la i-sima observacin:

As la funcin de verosimilitud toma la siguiente forma:

SCTotal = SCResidual + SCRegresin

Varianza Total = Varianza no explicada + Varianza explicada

Se define el coeficiente de determinacin como:

La descomposicin de la variabilidad o Tabla ANOVA es:

Fuente de Variacin Grados de libertad Suma de cuadrados Cuadrado medio F

Los datos estn en la base remultiple.dta.

Primera estrategia de anlisis:

variable | N min p25 p50 p75 max mean sd

Exploracin de asociaciones de la pam:

Two-sample t test with equal variances

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

. pwcorr pam edad glicma coltot hdl ldl trigl imc,sig

| pam edad glicma coltot hdl ldl trigl

Si L< 30 hay poca colineealidad

. pca edad glicma coltot hdl ldl trigl imc

Principal components/correlation Number of obs = 3296

. dis 1.93785 /.220378

. reg pam edad glicma coltot hdl ldl trigl imc

Source | SS df MS Number of obs = 3296

. reg pam edad glicma coltot hdl ldl trigl imc

Source | SS df MS Number of obs = 3296

. reg pam glicma hdl ldl trigl imc

Source | SS df MS Number of obs = 3296

Likelihood-ratio test LR chi2(2) = 0.61

Variables indicatrices (Dummys)

1 si el sujeto est en el nivel X 1

Y se registra informacin de 5 sujetos, que se muestran a continuacin:

Al ejecutar el siguiente comando en STATA, se generarn las variables dummys respectivas:

. tab Nivel_Educacional, gen(NEdu)

Respuesta promedio en el grupo 2

Respuesta promedio en el grupo 3

. tabstat deltaPAM, stat(n min q max mean sd) by( Neduc)

Vaiacin de deltaPAM por nivel educacional

Source | SS df MS Number of obs = 30

deltaPAM = 0.86 0.99EDU 2 0.7EDU 3

. reg deltaPAM NEDU2 NEDU3 edad

pam vs. edad en NEduc=1 pam vs. edad en NEduc=2

Das könnte Ihnen auch gefallen

deltaPAM = 0.86 0.99EDU 2 0.7EDU 3