Beruflich Dokumente
Kultur Dokumente
Gabriel Cavada
Siguiendo la idea inspiradora de la regresin lineal simple, esto es, observado un efecto buscar la o las causas que
lo produjeron, aceptamos ampliamente que este efecto puede ser producido por ms de una causa, es decir
aceptamos la multicausalidad de una respuesta, concepto que se acerca con mayor fidelidad a la realidad que
estamos observando. Si la respuesta o efecto lo atribuimos a p posibles causas, la idea anterior la expresamos
matemticamente as:
Y = f ( X 1 , X 2 , X 3 ,..., X p )
Nos interesa modelar la respuesta cuando la relacin funcional entre la respuesta y la causa es lineal, es decir, de la
forma:
Y = 0 + 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p
Yi = 0 + 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p + i
( 0 + 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p , )
I. Estimacin por mxima verosimilitud: Se basa en suponer que:
(0, )
O equivalentemente:
" 0
&
+ 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p
!
1 %
$
, , , , =
2
Al igual que en regresin lineal simple, se obtienen los estimadores de los parmetros del modelo.
Sin embargo, se necesitan agrega el supuesto de independencia entre los predictores, esta exigencia se conoce
como no colinealidad o no multicolinealidad.
Bioestadstica II. Gabriel Cavada
Una vez ajustado un modelo de regresin, es necesario conocer la calidad del mismo, para ello
la variabilidad total de Y, que no depende del modelo ajustado, puede descomponerse del siguiente
modo:
( ) ( ) ( )
2 2 2
Y Y = Y Y + Y Y
( )2
Y Y
R2 =
2
(Y Y )
Sin embargo, el coeficiente de determinacin, aumenta en la medida que se incorporan variables al
modelo, sin aportar, necesariamente una explicacin plausible a la respuesta, por esta razn es
necesario corregir este coeficiente, por la cantidad de predictores involucrados en el modelo, al
2
coeficiente de determinacin corregido se le llama R ajustado.
Bioestadstica II. Gabriel Cavada
(Y Y ) (Y Y )
Regresin p 2 2 CMreg
CMreg = F=
CMres
p
(Y Y ) (Y Y )
Residuo n-p-1 2 2
CMres =
n p 1
(Y Y )
Total n-1 2
Asociada a la descomposicin de la variabilidad y por ende a la calidad del modelo, se tiene la siguiente dcima:
2
H : = 0
0
H 1 : 2 > 0
Cuya estadstica de prueba es:
CMreg
F= ~F(p,n-p-1)
CMres
La estimacin de la varianza del error es:
= CMres =
S 2 (Y Y ) 2
n p 1
Bioestadstica II. Gabriel Cavada
Ejemplo ilustrativo:
En pacientes con antecedentes con infarto agudo al miocardio, se desea explicar la presin arterial media
(pam=2pdias/3-psist/3) a travs de las siguientes variables:
Variable Etiqueta
edad en aos
sexo 0:masc 1:fem
peso kg
talla m
glicma glicemia
coltot colest. Total
hdl coles. Hdl
ldl coles. Ldl
trigl Triglicridos
. tab sexo
0:masc |
1:fem | Freq. Percent Cum.
------------+-----------------------------------
0 | 2,422 73.48 73.48
1 | 874 26.52 100.00
------------+-----------------------------------
Total | 3,296 100.00
. tabstat edad glicma coltot hdl ldl trigl imc pam, stat(n min q max mean sd) col(stat)
El p-value en negritas indica que hay evidencias de que la pam es distinta entre hombres y mujeres.
Los p values en negritas indican que la pam est correlacionada significativamente con todas las variables predictoras,
pero adems se observa que entre los predictores hay una fuerte evidencia de multicolinealidad.
'()*
'(
Exploracin del nivel de multicolinealidad: El mtodo de los valores y vectores propios: se genera un ndice, L= , el
cuociente entre el mayor y el menor valor propio de la matriz de correlaciones construida con slo los predictores, y
este se compara segn el siguiente criterio:
--------------------------------------------------------------------------
Component | Eigenvalue Difference Proportion Cumulative
-------------+------------------------------------------------------------
Comp1 | 1.93785 .580822 0.2768 0.2768
Comp2 | 1.35702 .305423 0.1939 0.4707
Comp3 | 1.0516 .129815 0.1502 0.6209
Comp4 | .921786 .142496 0.1317 0.7526
Comp5 | .77929 .0472119 0.1113 0.8639
Comp6 | .732078 .5117 0.1046 0.9685
Comp7 | .220378 . 0.0315 1.0000
--------------------------------------------------------------------------
Es decir este nmero indica que la multicolinealidad es dbil. Por lo tanto se estima el modelo completo, es decir
explicar la pam a travs de: edad imc glicma coltot hdl ldl trigl, an no se incluye sexo:
------------------------------------------------------------------------------
pam | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
edad | -.023115 .0299411 -0.77 0.440 -.0818201 .0355901
glicma | -.0186019 .0043097 -4.32 0.000 -.0270519 -.0101518
coltot | -.0014451 .009902 -0.15 0.884 -.0208598 .0179696
hdl | .1260887 .0306547 4.11 0.000 .0659845 .186193
ldl | .0539938 .0133053 4.06 0.000 .0279062 .0800813
trigl | .0107094 .003369 3.18 0.001 .004104 .0173149
imc | .6686379 .0937813 7.13 0.000 .4847621 .8525136
_cons | 75.09872 3.863546 19.44 0.000 67.52352 82.67392
------------------------------------------------------------------------------
Los p-values en negritas indicas que las respectivas variables explican significativamente a la pam. La hiptesis nula
es que el coeficiente respectivo es nulo.
Un modelo de regresin mltiple debe ser parsimonioso, es decir debe explicar lo mximo posible con un mnimo
de variables predictoras.
En este anlisis se observa que ni la edad ni el colesterol total explican significativamente a la pam: Si son sacadas
del modelo Se pierde capacidad de explicacin?. Esta respuesta la entrega el Test de Razn de Verosimilitudes
(Likelihood ratio test), cuya hiptesis nula es que el modelo inicial y el modelo reducido tienen la misma capacidad de
explicacin:
Bioestadstica II. Gabriel Cavada
------------------------------------------------------------------------------
pam | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
edad | -.023115 .0299411 -0.77 0.440 -.0818201 .0355901
glicma | -.0186019 .0043097 -4.32 0.000 -.0270519 -.0101518
coltot | -.0014451 .009902 -0.15 0.884 -.0208598 .0179696
hdl | .1260887 .0306547 4.11 0.000 .0659845 .186193
ldl | .0539938 .0133053 4.06 0.000 .0279062 .0800813
trigl | .0107094 .003369 3.18 0.001 .004104 .0173149
imc | .6686379 .0937813 7.13 0.000 .4847621 .8525136
_cons | 75.09872 3.863546 19.44 0.000 67.52352 82.67392
------------------------------------------------------------------------------
. estimates store A
------------------------------------------------------------------------------
pam | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
glicma | -.0190041 .0042777 -4.44 0.000 -.0273913 -.0106169
hdl | .1225339 .0297766 4.12 0.000 .0641514 .1809165
ldl | .0534757 .0087438 6.12 0.000 .0363319 .0706195
trigl | .0108991 .0031131 3.50 0.000 .0047952 .0170029
imc | .6795968 .0925668 7.34 0.000 .4981025 .8610911
_cons | 73.32228 3.121049 23.49 0.000 67.20288 79.44167
------------------------------------------------------------------------------
. estimates store B
. lrtest A B
El p value en negritas indica que el modelo reducido explica igual cantidad que el inicial.
Bioestadstica II. Gabriel Cavada
Si en el modelo:
Y = 0 + 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p
Es necesario introducir variables explicativas que son de naturaleza nominal (no numricas), tales como, sexo, raza,
tratamiento u otras, debemos introducir el concepto de variable indicatriz o variables dummy. Estas variables son
generadas a partir de una variable categrica que est medida en k niveles, de modo tal que esta producir tantas
variables dummy como niveles tenga, as cada dummy indicar la pertenencia de la unidad de observacin,, en
forma excluyente a cada nivel de la variable original. Es decir:
Si X una variable categrica medida en r niveles, entonces se definen r variables dummys que indican en forma
EXCLUYENTE la pertenencia de una unidad de observacin a un determinado nivel de la variable, as:
Ejemplo: Supongamos que se registra la variable Nivel Educacional medida en tres niveles:
1 nivel bajo
ivel Educacional = 2 nivel medio
3 nivel alto
Una vez creadas estas variables ellas entran al modelo lineal mltiple del siguiente modo:
Y = 0 + 2 IVEdu2 + 3 IVEdu3
Respuesta promedio en el grupo de referencia
Ejemplo: Un mdico sospecha que la efectividad de un tratamiento hipotensor, debido a su complejidad, depende
del nivel educacional del paciente y de su edad. La principal respuesta es el cambio de PAM (mm Hg) al cabo de
un mes de tratamiento, el registro de datos se encuentra en PAM.dta
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
pac float %9.0g
Neduc float %9.0g 1:bajo 2:medio 3:alto
edad float %9.0g
deltaPAM float %9.0g
-------------------------------------------------------------------------------
Sorted by: pac
1 2 3
------------------------------------------------------------------------------
deltaPAM | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
NEDU2 | -.99 .0232538 -42.57 0.000 -1.037713 -.942287
NEDU3 | -.7 .0232538 -30.10 0.000 -.7477129 -.6522871
_cons | -.86 .0164429 -52.30 0.000 -.8937381 -.8262619
------------------------------------------------------------------------------
Bioestadstica II. Gabriel Cavada
Promedio de
deltaPAM en nivel Promedio de
educacional 1 deltaPAM en nivel
=-0.86 educacional 3
=-0.86-0.7=-1.56
Promedio de
deltaPAM en nivel
educacional 2
=-0.86-0.99=-1.85
. predict deltaPAMhat
. twoway (line deltaPAMhat edad if Neduc==1,sort) (line deltaPAMhat edad if Neduc==2,sort) (line
deltaPAMhat edad if Neduc==3,sort)
-.5
Valores ajustados de PAM
-1
-1.5
-2
54 56 58 60 62 64
edad