Sie sind auf Seite 1von 248

Apunte de Regresin Lineal

Mara Eugenia Szretter Noste


Carrera de Especializacin en Estadstica
para Ciencias de la Salud
Facultad de Ciencias Exactas y Naturales,
Universidad de Buenos Aires
Agosto - Octubre de 2013

ndice
1. Correlacin 6
1.1. Grficos de dispersin (o scatter plots) . . . . . . . . . . . . . 6
1.1.1. Desventajas de los scatter plots . . . . . . . . . . . . . 9
1.2. Coeficiente de correlacin de Pearson . . . . . . . . . . . . . . 10
1.2.1. Definicin del coeficiente de correlacin . . . . . . . . . 10
1.2.2. Propiedades del coeficiente de correlacin muestral (y
tambin de ) . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.3. Inferencia de . . . . . . . . . . . . . . . . . . . . . . 18
1.3. Coeficiente de correlacin de Spearman . . . . . . . . . . . . . 23

2. Regresin lineal simple 29


2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2. Modelo lineal simple . . . . . . . . . . . . . . . . . . . . . . . 33
2.3. Ecuacin de la recta . . . . . . . . . . . . . . . . . . . . . . . 34
2.4. Supuestos del modelo lineal . . . . . . . . . . . . . . . . . . . 35
2.5. Estimacin de los parmetros 0 y 1 . . . . . . . . . . . . . . 38
2.6. Recta ajustada, valores predichos y residuos . . . . . . . . . . 40
2.6.1. Aplicacin al ejemplo . . . . . . . . . . . . . . . . . . . 41
2.7. Estimacin de 2 . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.8. Inferencia sobre 1 . . . . . . . . . . . . . . . . . . . . . . . . 46
2.8.1. Aplicacin al ejemplo . . . . . . . . . . . . . . . . . . . 50
2.9. Inferencia sobre 0 . . . . . . . . . . . . . . . . . . . . . . . . 52

1
2 Mara Eugenia Szretter

2.10. Intervalo de confianza para la respuesta media de Y cuando


X = xh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.11. Intervalo de Prediccin de una nueva observacin Y medida
cuando X = xh . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.11.1. Aplicacin al ejemplo . . . . . . . . . . . . . . . . . . . 57
2.12. Descomposicin de la suma de cuadrados (ANOVA para re-
gresin) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.13. El coeficiente de determinacin R2 . . . . . . . . . . . . . . . 66
2.13.1. Propiedades de R2 . . . . . . . . . . . . . . . . . . . . 67
2.14. Test F (otro test para H0 : 1 = 0) . . . . . . . . . . . . . . . 68

3. Diagnstico en Regresin 71
3.1. Medidas de diagnstico . . . . . . . . . . . . . . . . . . . . . . 71
3.1.1. Leverage de una observacin . . . . . . . . . . . . . . . 71
3.1.2. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.1.3. Residuos estandarizados . . . . . . . . . . . . . . . . . 73
3.1.4. Los residuos cuando el modelo es correcto . . . . . . . 73
3.1.5. Los residuos cuando el modelo es incorrecto . . . . . . 74
3.1.6. Los residuos en el ejemplo . . . . . . . . . . . . . . . . 74
3.1.7. Cmo detectar (y resolver) la curvatura? . . . . . . . 76
3.1.8. Qu hacer si la varianza no es constante? . . . . . . . 77
3.1.9. Cmo validamos la independencia? . . . . . . . . . . . 78
3.1.10. Cmo validamos la normalidad? . . . . . . . . . . . . 79
3.2. Outliers y observaciones influyentes . . . . . . . . . . . . . . . 80
3.2.1. Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.2.2. Un test para encontrar outliers . . . . . . . . . . . . . 80
3.2.3. Observaciones influyentes . . . . . . . . . . . . . . . . . 83
3.2.4. Cmo medir la influencia de una observacin? . . . . . 88

4. Regresin Lineal Mltiple 93


4.1. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.2. Significado de los coeficientes de regresin . . . . . . . . . . . 95
4.3. Modelo de Regresin Lineal Mltiple . . . . . . . . . . . . . . 96
4.4. Modelo de Regresin Lineal en notacin matricial . . . . . . . 98
4.5. Estimacin de los Parmetros (Ajuste del modelo) . . . . . . . 99
4.6. Valores Ajustados y Residuos . . . . . . . . . . . . . . . . . . 100
4.7. Dos predictoras continuas . . . . . . . . . . . . . . . . . . . . 102
4.8. Resultados de Anlisis de la Varianza (y estimacin de 2 ) . . 104
4.8.1. Sumas de cuadrados y cuadrados medios (SS y MS) . . 104
4.8.2. Coeficiente de Determinacin Mltiple (R2 y R2 ajus-
tado) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
NDICE 3

4.8.3. Test F . . . . . . . . . . . . . . . . . . . . . . . . . . . 111


4.8.4. Estimacin de 2 . . . . . . . . . . . . . . . . . . . . . 113
4.9. Inferencias sobre los parmetros de la regresin . . . . . . . . 114
4.9.1. Intervalos de confianza para k . . . . . . . . . . . . . 115
4.9.2. Tests para k . . . . . . . . . . . . . . . . . . . . . . . 115
4.9.3. Inferencias conjuntas . . . . . . . . . . . . . . . . . . . 116
4.9.4. Aplicacin al ejemplo . . . . . . . . . . . . . . . . . . . 118
4.10. Estimacin de la Respuesta Media . . . . . . . . . . . . . . . . 122
4.10.1. Intervalo de confianza para E (Yh ) . . . . . . . . . . . . 122
4.10.2. Regin de Confianza para la Superficie de Regresin . 123
4.10.3. Intervalos de Confianza Simultneos para Varias Res-
puestas Medias . . . . . . . . . . . . . . . . . . . . . . 123
4.11. Intervalos de Prediccin para una Nueva Observacin Yh(nueva) 124
4.11.1. Intervalo de prediccin para Yh(nueva) cuando los parmet-
ros son conocidos . . . . . . . . . . . . . . . . . . . . . 125
4.11.2. Intervalo de prediccin para Yh(nueva) cuando los parmet-
ros son desconocidos . . . . . . . . . . . . . . . . . . . 126
4.11.3. Ejemplo de clculo de Intervalo de Confianza para E (Yh )
y de un Intervalo de Prediccin para Yh(nueva) . . . . . . 129
4.11.4. Precaucin Respecto de Extrapolaciones Ocultas . . . . 131
4.12. Predictores Categricos . . . . . . . . . . . . . . . . . . . . . . 131
4.12.1. Predictores Binarios . . . . . . . . . . . . . . . . . . . 131
4.12.2. Un predictor binario y otro cuantitativo . . . . . . . . 139
4.13. Predictores Cualitativos con ms de dos clases . . . . . . . . . 144
4.13.1. Una sola predictora cualitativa con ms de dos clases . 144
4.13.2. Variables indicadoras versus variables numricas . . . . 148
4.13.3. Variables numricas como categricas . . . . . . . . . . 150
4.13.4. El test F . . . . . . . . . . . . . . . . . . . . . . . . . . 150
4.13.5. Comparaciones Mltiples . . . . . . . . . . . . . . . . . 151
4.14. Una predictora cualitativa y una numrica . . . . . . . . . . . 152
4.14.1. Test F para testear si varios parmetros son cero, y
tabla de ANOVA para comparar modelos . . . . . . . . 154
4.14.2. Comparaciones mltiples . . . . . . . . . . . . . . . . . 157
4.15. Modelos con interaccin entre variables cuantitativas y cuali-
tativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.16. Interaccin entre dos variables cuantitativas . . . . . . . . . . 170
4.17. Interaccin entre dos variables cualitativas . . . . . . . . . . . 178
4.18. Generalizacin a ms de dos variables. . . . . . . . . . . . . . 186
4 Mara Eugenia Szretter

5. Diagnstico del modelo 188


5.1. Diagnstico del modelo: definiciones y grficos . . . . . . . . . 188
5.1.1. Matriz de scatter plots o grficos de dispersin . . . . . 188
5.1.2. Grficos de dispersin en tres dimensiones . . . . . . . 190
5.1.3. Grficos de residuos . . . . . . . . . . . . . . . . . . . . 190
5.2. Identificacin de outliers y puntos de alto leverage . . . . . . . 191
5.2.1. Leverage . . . . . . . . . . . . . . . . . . . . . . . . . . 192
5.2.2. Uso de la matriz de proyeccin para identificar extra-
polaciones . . . . . . . . . . . . . . . . . . . . . . . . . 193
5.2.3. Residuos estudentizados y distancias de Cook . . . . . 194
5.3. Colinealidad de los predictores . . . . . . . . . . . . . . . . . . 195
5.3.1. Diagnstico de multicolinealidad . . . . . . . . . . . . . 195
5.3.2. Diagnstico informal . . . . . . . . . . . . . . . . . . . 196
5.3.3. Diagnstico formal . . . . . . . . . . . . . . . . . . . . 197
5.3.4. Cmo tratar el problema de multicolinealidad? . . . . 197
5.4. Seleccin de modelos . . . . . . . . . . . . . . . . . . . . . . . 198
5.4.1. Criterios para comparar modelos . . . . . . . . . . . . 198
5.4.2. Cul de estos criterios utilizar? . . . . . . . . . . . . . 201
5.4.3. Seleccin automtica de modelos . . . . . . . . . . . . 201
5.4.4. Todos los subconjuntos posibles (Best subset) . . . . . 202
5.4.5. Eliminacin backward (hacia atrs). . . . . . . . . . . . 202
5.4.6. Seleccin forward (incorporando variables) . . . . . . . 203
5.4.7. Seleccin stepwise . . . . . . . . . . . . . . . . . . . . . 204
5.4.8. Limitaciones y abusos de los procedimientos automti-
cos de seleccin de variables . . . . . . . . . . . . . . . 204
5.4.9. Validacin de modelos . . . . . . . . . . . . . . . . . . 206

Apndice A: Ejercicios 207

Apndice B: Salidas del SPSS para Regresin Mltiple 231

Referencias 247
NDICE 5

Prefacio
Las notas de regresin lineal que componen estas pginas fueron escritas
como material terico y prctico para el curso Regresin Lineal de la Carrera
de Especializacin en Estadstica para Ciencias de la Salud, que se dicta en la
Facultad de Ciencias Exactas y Naturales, de la Universidad de Buenos Aires
que tuve la alegra de dar durante algo ms de dos meses, en 2011 y 2013.
Presuponen un conocimiento estadstico obtenido en un curso bsico y hacen
nfasis en un enfoque aplicado de la regresin lineal, para un pblico que
viene, en general, de las ciencias mdicas o biolgicas. La informacin sigue un
programa estndar en el tema: correlacin, regresin lineal simple y regresin
lineal mltiple y representa una primera introduccin al tema. La idea es
hacer un nfasis en los modelos y la interpretaciones, sin perder (del todo)
el entusiasmo en el camino. En esa direccin, estas notas buscan presentar
al modelo lineal como el primer modelo estadstico a estudiar en detalle, e
intenta mostrar cules de las herramientas presentadas se generalizan a otros
modelos estadsticos. En el Apndice A, al final, figuran una serie de ejercicios
que (espero) complementen el aprendizaje.
Los grficos y las salidas que acompaan las notas fueron realizados us-
ando el paquete R [10], principalmente, y tambin el SPSS. En el Apndice
B hay varias salidas obtenidas con este paquete para los datos. El resto de las
figuras fueron extraidas de varios buenos textos disponibles sobre el tema (y
debidamente citados). Quiz la mejor hoja de estas notas sea la bibliografa.
Finalmente agradezco a varios colegas las conversaciones y opiniones sobre
los temas que aparecen a continuacin, que ayudaron a dar (esta) forma a
estas notas, en especial a Liliana Orellana y a Andrs Farall.
Este material puede descargarse de la web de la siguiente direccin
http://mate.dm.uba.ar/~meszre/apunte_regresion_lineal_szretter.pdf
En la misma direccin, hay una carpeta con todos los archivos de datos
mencionados en el texto, o necesarios para los ejercicios. La direccin de la
carpeta es http://mate.dm.uba.ar/~meszre/datos_regresion
6 Mara Eugenia Szretter

1. Correlacin
La regresin lineal, de la que tratan estas notas, se ocupa de investigar
la relacin entre dos o ms variables continuas. En esta seccin, comenzare-
mos tratando de describir el vnculo observado y luego nos sofisticaremos
resumiendo en un valor numrico nuestra conclusin.
Con qu datos contamos para llevar a cabo un anlisis? Disponemos de
n observaciones de dos variables aleatorias medidas en los mismos individuos,
como describimos en la Tabla 1.

Tabla 1: Observaciones a nuestra disposicin. Aqu X1 quiere decir, la variable


X medida en el individuo 1, etc.
Individuo Variable X Variable Y
1 X1 Y1
2 X2 Y2
.. .. ..
. . .
n Xn Yn

En estas notas, estamos pensando en que medimos ambas variables en


la misma unidad: puede tratarse de un individuo, un paciente, un pas, un
animal, una escuela, etc. Comencemos con un ejemplo.

1.1. Grficos de dispersin (o scatter plots)


Ejemplo 1.1 Queremos investigar la relacin entre el pocentaje de nios
que ha sido vacunado contra tres enfermedades infecciosas: difteria, pertusis
(tos convulsa) y ttanos (DPT, que se suele denominar, triple bacteriana)
en un cierto pas y la correspondiente tasa de mortalidad infantil para nios
menores a cinco aos. El Fondo de las Naciones Unidas para la Infancia
considera a la tasa de mortalidad infantil para nios menores a cinco aos
como uno de los indicadores ms importantes del nivel de bienestar de una
poblacin infantil. Datos publicados en United Nations Childrens Fund, The
State of the Worlds Children 1994, New York: Oxford University Press.
Y tratados en el libro [8], Captulo 17.
Los datos para 20 pases, del ao 1992, se muestran en la Tabla 2. Si
X representa el porcentaje de nios vacunados a la edad de un ao, e Y
representa la tasa de mortalidad infantil de nios menores de 5 aos, tenemos
una pareja de resultados (Xi , Yi ) para cada pas en la muestra.
Cmo se lee la informacin desplegada en la Tabla 2? Por ejemplo, para
Bolivia X1 = 77,0, es decir, en el ao 1992, un 77 % de los nios menores
1.1 Grficos de dispersin (o scatter plots) 7

Tabla 2: Datos para 20 pases en los que se midieron dos variables, X :


porcentaje de nios vacunados a la edad de un ao en cada pas, Y : es la
tasa de mortalidad infantil de nios menores de 5 aos en cada pas. Archivo:
paises.txt.
Pas Porcentaje Tasa de mortalidad
vacunado menor a 5 aos
Bolivia 77,0 118,0
Brasil 69,0 65,0
Camboya 32,0 184,0
Canad 85,0 8,0
China 94,0 43,0
Repblica Checa 99,0 12,0
Egipto 89,0 55,0
Etiopa 13,0 208,0
Finlandia 95,0 7,0
Francia 95,0 9,0
Grecia 54,0 9,0
India 89,0 124,0
Italia 95,0 10,0
Japn 87,0 6,0
Mxico 91,0 33,0
Polonia 98,0 16,0
Federacin Rusa 73,0 32,0
Senegal 47,0 145,0
Turqua 76,0 87,0
Reino Unido 90,0 9,0

de un ao estaban vacunados contra la DPT y (en el ao 1992) 118 nios


menores de 5 aos murieron por cada 1000 nios nacidos vivos.
Cmo puede visualizarse esta informacin? La forma ms sencilla es
mediante un grfico de dispersin (o scatter plot). En un scatter plot se
ubican los resultados de una variable (X) en el eje horizontal y los de la
otra variable (Y ) en el eje vertical. Cada punto en el grfico representa una
observacin (Xi , Yi ) .
En este tipo de grfico se pierde la informacin del individuo (paciente o
pas), y aunque si hubiera pocos puntos se los podran rotular, esencialmente
esta informacin no suele estar disponible en un scatter plot. El grfico de
dispersin de los datos de la Tabla 2 puede verse en la Figura 1. Ah vemos
que, por ejemplo, Bolivia est representada por el punto (77, 118) .
8 Mara Eugenia Szretter

Figura 1: Scatter plot: tasa de mortalidad infantil (menor a 5 aos) versus el


porcentaje de chicos menores de un ao vacunados contra la DPT.

Usualmente con este grfico podemos determinar si existe algn tipo de


relacin entre X e Y. Para este caso vemos que a medida que aumenta el
porcentaje de nios inmunizados, decrece la tasa de mortalidad. Qu otras
cosas podramos observar? En la Figura 2 ilustramos algunas posibilidades,
que describimos a continuacin.

Ausencia de datos. Puede ser que no hayamos medido ninguna ob-


servacin cuya variable X se encuentre entre cierto rango de valores
(en la Figura 2 (a) por ejemplo, no hay observaciones con coordenada
X entre los valores 13 y 21). O que esta combinacin entre X e Y no
exista, o no se d biolgicamente. Esto indica que la relacin que obser-
vamos entre las variables graficadas es solamente vlida para algunos
valores de las variables.

No asociacin. Cmo luce un grfico de dispersin de dos variables


que no estn asociadas? En la Figura 2 (b) hay un ejemplo. Luce como
una nube de puntos: los valores bajos de X pueden aparecer asociados
tanto con valores altos de Y como con valores bajos de Y . Lo mismo
1.1 Grficos de dispersin (o scatter plots) 9

para los valores altos de X. Lo mismo para los valores intermedios de


X.

Vnculo curvilneo. Esto aparece cuando los valores de Y se vincu-


lan a los de X por medio de una funcin. Por ejemplo, si en el eje X
graficramos los valores del tiempo medidos con un cronmetro a inter-
valos regulares y en el eje Y la posicin de un objeto en cada instante
de tiempo medido, y si este objeto se moviera siguiendo un movimien-
to rectilneo uniformemente variado, observaramos en el grfico una
funcin cuadrtica, como aparece en la Figura 2 (c). A veces la curva
no describe la ubicacin de los puntos en la grfica de manera exacta,
sino en forma aproximada (hay errores de medicin, por ejemplo, o una
relacin slo aproximadamente cuadrtica entre las variables).

Agrupamientos. Cuando en el grfico de dispersin se ven las obser-


vaciones separadas en grupos esto puede indicar que hay variables que
estn faltando incluir en el anlisis. Por ejemplo, la Figura 2 (d) puede
tratarse de mediciones del largo de ptalo y del spalo de una flor, de
un grupo de flores para las cuales no se ha registrado la variedad. Si
hablramos con el bilogo que llev a cabo las mediciones podramos
encontrar que se trat de tres variedades distintas de flores, que dieron
origen a los tres grupos indicados con elipses de colores en el grfico.

1.1.1. Desventajas de los scatter plots


Los scatter plots son herramientas bsicas del estudio de varias variables
simultneas. Sin embargo adolescen de dos problemas, esencialmente.

1. Si hay muchas observaciones todas iguales, en general no se las puede


graficar a todas. En el grfico de dispersin uno no puede notar si hay
puntos repetidos en la muestra observada.

2. Slo se pueden visualizar los vnculos entre dos variables. En grficos


tridimensionales se podran graficar hasta tres variables, y luego habra
que elegir con mucho cuidado el punto de vista del observador para
exhibir las caractersticas ms sobresalientes del grfico. Cuando el in-
ters est puesto en estudiar varias variables simultneamente, pueden
hacerse varios grficos de dispersin simultneos. Es decir, cuando ten-
emos las variables (X, Y, Z) haremos tres grficos: Y versus X, Z versus
X, y Z versus Y . Los haremos en la Seccin 5.
10 Mara Eugenia Szretter

Figura 2: Grficos de dispersin de cuatro conjuntos de datos diferentes: (a)


ausencia de datos; (b) no asociacin; (c) vnculo curvineo; (d) agrupamientos.

1.2. Coeficiente de correlacin de Pearson


Descriptivamente hablando, en estas notas estaremos interesados en las
situaciones donde aparece una relacin entre X e Y del estilo de las graficadas
en la Figura 3. En el grfico (a) se ve una asociacin positiva entre las varia-
bles, esto quiere decir que a medida que crece X, esencialmente Y crece. En
cambio, en el grfico (b) las variables estn negativamente asociadas: cuando
X crece, Y decrece, en general.

1.2.1. Definicin del coeficiente de correlacin

Para cuantificar el grado de asociacin entre X e Y se pueden describir


coeficientes. Antes de hacerlo, repasemos los coeficientes poblacionales que
asumimos conocidos, ya que se ven en cualquier curso introductorio de pro-
babilidades y estadstica
1.2 Coeficiente de correlacin de Pearson 11

Figura 3: Dos conjuntos de datos con asociacin lineal entre X e Y : el


grfico (a) muestra asociacin lineal positiva, el (b) muestra asociacin lineal
negativa entre ambas.

Para una sola variable numrica X podemos definir la esperanza de X

X = E (X)

como el valor poblacional que describe el centro de la variable. A su vez,


tenemos tambin la varianza poblacional de X que es

2X = E [X E (X)]2 = V ar (X)

que es una medida de la dispersin de la variable X respecto de su centro


dado por E (X) . A partir de ella se define el desvo estndar poblacional
de X por q p
X = 2X = V ar (X).
Cmo estimamos estos valores poblacionales, en general desconocidos, a
travs de una muestra X1 , X2 , . . . , Xn de variables independientes con la
misma distribucin que la variable X? A la media poblacional, X la es-
timamos por el promedio de las n observaciones disponibles. Llamaremos bX
al estimador, es decir, a la funcin o cuenta que hacemos con las variables
12 Mara Eugenia Szretter

X1 , X2 , . . . , Xn observadas para estimar al nmero fijo X (en este sentido,


bX en realidad es un
bX (X1 , X2 , . . . , Xn )), y escribimos

1X
n
bX = X n =
Xi
n i=1

X n o bien X es el promedio o media muestral. A la varianza poblacional la


estimamos por
1 X
n
2
b2X = SX
2
= Xi X ,
n 1 i=1

que es la varianza muestral. Entonces, el desvo estndar poblacional queda


estimado por el desvo estndar muestral, es decir,
v
u
u 1 X n
2
bX = SX =
t Xi X .
n 1 i=1

Ahora estamos en condiciones de pensar en cmo definir un coeficiente que


resuma el vnculo entre dos variables aleatorias X e Y medidas en el mismo
individuo. El ms utilizado de todos es el que se conoce como coeficiente de
correlacin, que se simboliza con una letra griega rho: o XY y se define
por

X X Y Y
XY = E
X Y
cov (X, Y )
= ,
X Y

o sea, el nmero promedio a nivel poblacin del producto de X menos su


media por Y menos su media divididos por el producto de los desvos estn-
dares. Cmo estimamos a ? A travs de r el coeficiente de correlacin de
Pearson, o coeficiente de correlacin muestral,
1
Pn
i=1 Xi X Yi Y
r = n1 .
SX Sy

Al numerador, se lo denomina covarianza muestral entre X e Y ,

1 X
n

covarianza muestral = Xi X Yi Y
n 1 i=1
1.2 Coeficiente de correlacin de Pearson 13

y el denominador es el producto de los desvos muestrales de cada muestra


por separado
v
u
u 1 X n
2
SX = t Xi X
n 1 i=1
v
u
u 1 X n
2
SY = t Yi Y
n 1 i=1

Otra forma de escribir a r es la siguiente


Pn
i=1 Xi X Yi Y
r = rh .
Pn 2 i hPn 2 i
i=1 Xi X i=1 Yi Y

Pn
Observemos que el numerador Xi X Yi Y puede ser positivo o
rh
i=1
Pn 2 i hPn 2 i
negativo, pero el denominador i=1 X i X i=1 Yi Y siem-
pre es positivo. Luego el signo de r est determinado por el del numerador.
Veamos de qu depende.

+ si Xi es ms grande que X
signo de Xi X =

si Xi es ms chico que X

y tambin

+ si Yi es ms grande que Y
signo de Yi Y =

si Yi es ms chico que Y

Luego, el

+ si + +
signo de Xi X Yi Y =

si + +

Hacemos un scatter plot de las observaciones. Luego ubicamos en el plano el


punto X, Y . Trazamos una lnea vertical que pase por X y otra lnea hori-
zontal que pase a la altura de Y . Esto divide al grfico en cuatro cuadrantes,
como puede verse en la Figura 4. Luego, el signo del sumando isimo de r ser
14 Mara Eugenia Szretter

positivo, si para el individuo isimo tanto Xi como Yi son mayores que su res-
pectivo promedio (es decir, la observacin cae en el cuadrante noreste, lo que
hemos denotado por ++) o bien ambos valores son simultneamente menores
que su promedio, es decir, la observacin cae en el cuadrante suroeste, que
hemos denotado por . En cambio, el sumando isimo de r ser negativo
en el caso en el que la observacin isima tenga un valor Xi por encima de
su promedio pero la Yi sea menor que su promedio, o bien la Xi sea menor a
su promedio y la Yi sea mayor a su promedio.

Figura 4: Scatter plot de la tasa de mortalidad versus el porcentaje de nios


menores
aun ao inmunizados, con la recta vertical y horizontal que pasan
por X, Y , y los signos de cada sumando que interviene en el clculo de r.

Esto en cuanto a cada sumando en particular. Qu significar el signo


de r?
Si r da positivo, ser indicio de que la mayora de las observaciones caen
en los cuadrantes noreste (NE) y suroeste (SO), marcados con color en el
Grfico 5. Es decir, que cuando los valores de las X suelen estar por encima
1.2 Coeficiente de correlacin de Pearson 15

del promedio ocurre, simultneamente, que los valores de Y tambin estn


sobre su promedio. Anlogamente, cuando en un individuo el valor de X est
por debajo del promedio, lo mismo ocurre con su valor de Y . En general, un
valor positivo de r indica que hay una asociacin positiva entre las variables
(cuando una crece, la otra tambin lo hace).
Si r da negativo, en cambio, tenemos una indicacin de mayor nmero
de observaciones en los otros cuadrantes marcados con fondo blanco en el
Grfico 5, y se invierten las situaciones descriptas anteriormente. Es decir,
que cuando los valores de las X suelen estar por encima del promedio ocurre,
simultneamente, que los valores de Y estn por debajo de su promedio.
Anlogamente, cuando en un individuo el valor de X est por debajo del
promedio, ocurre lo inverso con su valor de Y, que superar a su promedio.
En general, un valor negativo de r es indicador de asociacin negativa entre
las variables (cuando una crece, la otra decrece).

Figura 5: Scatter plot de la tasa de mortalidad versus el porcentaje de nios


menores
a un ao inmunizados, con los cuatro cuadrantes delimitados por
X, Y . Las observaciones que caen en la regin coloreada darn sumandos
positivos del r.
16 Mara Eugenia Szretter

Ejemplo 1.2 Veamos qu ocurre en nuestro ejemplo. Calculamos los prome-


dios de ambas variables, obtenemos

X = 77,4
Y = 59

y le superponemos al scatter plot dos lneas rectas, una vertical que corta al
eje x en 77,4 y otra horizontal que corta al eje y en Y = 59. Las Figuras 4 y 5
muestran el grfico de esta situacin. Observamos que en los dos cuadrantes
coloreados hay muy pocas observaciones (exactamente 3 de un total de 20).
El coeficiente de correlacin muestral en este caso da 0,791, un valor
negativo, lo cual hubiramos podido anticipar ya que la mayora de los trmi-
nos involucrados en el clculo de r (17 de los 20 sumandos) sern menores
o iguales a cero.

1.2.2. Propiedades del coeficiente de correlacin muestral (y tam-


bin de )
A continuacin damos las propiedades del coeficiente de correlacin mues-
tral r, pero estas tambin son vlidas para el coeficiente de correlacin pobla-
cional .

1. 1 r 1. El valor del coeficiente r est entre 1 y menos 1 porque


puede probarse que el denominador es ms grande que el numerador.

2. El valor absoluto de r, |r| mide la fuerza de la asociacin lineal entre X


e Y, a mayor valor absoluto, hay una asociacin lineal ms fuerte entre
X e Y.

3. El caso particular r = 0 indica que no hay asociacin lineal entre X e


Y.

4. El caso r = 1 indica asociacin lineal perfecta. O sea que los puntos


estn ubicados sobre una recta de pendiente (o inclinacin) positiva.

5. En el caso r = 1 tenemos a los puntos ubicados sobre una recta de


pendiente negativa (o sea, decreciente).

6. El signo de r indica que hay asociacin positiva entre las variables (si
r > 0); o asociacin negativa entre ellas (si r < 0).

7. r = 0,90 indica que los puntos estn ubicados muy cerca de una recta
creciente.
1.2 Coeficiente de correlacin de Pearson 17

8. r = 0,80 indica que los puntos estn cerca, pero no tanto, de una recta
creciente. En la Figura 6 se pueden ver distintos grados de correlacin,
que estn comentados ms abajo.

9. r no depende de las unidades en que son medidas las variables (milmet-


ros, centmetros, metros o kilmetros, por ejemplo) .

10. Los roles de X e Y son simtricos para el clculo de r.

11. Cuidado: el coeficiente de correlacin de Pearson es muy sensible a


observaciones atpicas. Hay que hacer siempre un scatter plot de los
datos antes de resumirlos con r.

Figura 6: Interpretacin de distintos grados de correlacin. Fuente: [11], pg.


137.

Un ejemplo de fuerte correlacin positiva se da entre el volumen espira-


torio esforzado (FEV: forced expiratory volume), una medida de la funcin
pulmonar, y la altura. En la Figura 6 (a) se muestra un grfico de dispersin
de observaciones de estas variables, que tienen correlacin = 0,90. En la
18 Mara Eugenia Szretter

Figura 6 (b) se puede observar una correlacin positiva ms dbil entre nive-
les sricos de colesterol y la ingesta de colesterol, aqu = 0,3. Una fuerte
correlacin negativa ( = 0,8) se da entre la frecuencia del pulso en reposo
y la edad, medidas en nios menores a diez aos. Ah vemos que a medida
que un chico crece, la frecuencia de su pulso desciende. Una correlacin neg-
ativa ms dbil = 02. existe entre FEV y nmero de cigarrillos fumados
por da (en nios!), como se ve en la Figura 6 (d).
Cabe hacer un comentario respecto de la interpretacin del coeficiente de
correlacin. Altos grados de asociacin lineal entre X e Y no son seales de
causalidad, es decir, una relacin de causa y efecto entre ambas variables. Una
alta correlacin observada entre dos variables es compatible con la situacin
de que existan modelos que explican a Y por X, o bien a X por Y , o bien
que exista una tercer variable que las determine a ambas simultneamente.

1.2.3. Inferencia de
La pregunta que nos hacemos en esta seccin es la clsica pregunta de
inferencia estadstica, qu podemos decir de a partir de r?
Queremos sacar conclusiones acerca del parmetro poblacional a par-
tir de la muestra de observaciones (X1 , Y1 ) , . . . , (Xn , Yn ) . En el ejemplo, la
pregunta que podramos hacer es qu podemos decir del vnculo entre in-
munizacin contra la DPT y la tasa de mortalidad infantil para menores a
cinco aos? Slo contamos con observaciones de 20 pases en 1992. El test
que ms nos interesar es el que tiene las siguientes hiptesis

H0 : = 0
H1 : 6= 0,

ya que la afirmacin de la hiptesis nula, = 0, puede escribirse como no hay


asociacin lineal entre X e Y a nivel poblacional, mientras que la hiptesis
alternativa postula que s hay tal relacin entre las variables. O sea, en el
caso del ejemplo, sabemos que la correlacin muestral observada entre ambas
variables fue r = 0,791, y la pregunta ser que entre las dos variables
consideradas no hay asociacin lineal, y slo por casualidad en la muestra
obtenida vemos un valor de r = 0,791? O ser que 6= 0? Como el
coeficiente de correlacin muestral r es un estimador del valor poblacional ,
a travs de l podemos proponer un test para estas hiptesis.

Test para = 0 Los supuestos para llevar a cabo el test son que los
pares de observaciones (X1 , Y1 ) , . . . , (Xn , Yn ) sean independientes entre s,
idnticamente distribuidos, y cada una de las muestras X1 . . . , Xn e Y1 . . . , Yn
1.2 Coeficiente de correlacin de Pearson 19

tengan distribucin normal. Si la hiptesis nula es verdadera, entonces el


estadstico
r
T =q
1r2
n2

que no es ms que b dividido por un estimador de su desvo estndar, tiene


distribucin t de Student con n 2 grados de libertad, lo cual notaremos
T tn2 bajo H0 .
Si H0 fuera cierto, sera cero y su estimador r = b
debera tomar valores
muy cercanos a cero. Lo mismo debera pasar con T que es b estandarizado.
Por lo tanto rechazaramos la hiptesis nula cuando T tome valores muy
alejados de 0, tanto positivos como negativos. El test rechaza H0 cuando T
toma valores muy grandes o muy pequeos, es decir, rechazamos la hiptesis
nula con nivel 1 cuando
T tn2,1 2 T tn2,1 2
donde tn2,1 2 es el percentil 1 2 de una distribucin tn2 , o sea el valor
que deja a su izquierda un rea de 1 2 . Es un test bilateral. La regin de
rechazo aparece dibujada en la Figura 7. El p-valor puede calcularse como
p valor = P (|T | |Tobs |) ,
donde T tn2 y en general lo devuelve el paquete estadstico. Si el tamao
de la muestra fuera suficientemente grande, aplicando una versin del teorema
central del lmite no necesitaramos que las dos muestras fueran normales.
Ejemplo 1.3 En la Figura 8 y la Tabla 3 aparecen las salidas de los paquetes
estadsticos SPSS y R para los datos del Ejemplo 1.1. Comparndolas vemos
que las salidas de los dos paquetes son muy similares. Adems, vemos que en
este caso el p-valor del test resulta ser menor a 0,05, por lo que rechazamos la
hiptesis nula y concluimos que el coeficiente de correlacin poblacional es
no nulo, mostrando que la tasa de vacunacin y la tasa de mortalidad infantil
menor a 5 aos estn correlacionadas. Confiamos en esta conclusin si nos
creemos que los datos de ambas variables tienen distribucin normal. Para
validar este supuesto deberamos realizar grficos de probabilidad normal (qq-
plots), histogramas o boxplots, y tests de normalidad (por ejemplo, el test de
Shapiro-Wilks) y ver que ambos conjuntos de datos pasan las comprobaciones.
Sin embargo, para estos conjuntos de datos no puede asumirse la distribucin
normal ya que ambos tienen distribucin asimtrica: el porcentaje de nios
vacunados con cola pesada a la derecha, la tasa de mortalidad con cola pesada
a izquierda, como puede observarse en la Figura 9 .
20 Mara Eugenia Szretter

Figura 7: Regin de rechazo y aceptacin para el test de t para una cor-


relacin. Fuente: [11], pg. 457.

Test para = 0 A veces es de inters testear si la verdadera correlacin


poblacional es igual a un cierto valor 0 predeterminado. Es decir, se quieren
testear las hiptesis

H0 : = 0
H1 : 6= 0 .

Por supuesto, esto no ocurre muy frecuentemente, pero puede surgir una
pregunta de este tipo en algunas aplicaciones. La cuestin es que cuando
= 0 el estadstico T descripto en la seccin anterior no tiene distribucin
t de Student, sino que tiene una distribucin sesgada.
Para testear las hiptesis recin propuestas, est el test basado en la
transformacin z de Fisher. Como en el anterior se requiere que las obser-
vaciones (X1 , Y1 ) , . . . , (Xn , Yn ) sean independientes entre s, idnticamente
distribuidos, y cada una de las muestras X1 . . . , Xn e Y1 . . . , Yn tengan dis-
tribucin normal. El test se realiza de la siguiente forma. Primero se calcula
la transformacin z de Fisher sobre el coeficiente de correlacin, que es

1 1+r
z = ln .
2 1r
1.2 Coeficiente de correlacin de Pearson 21

Figura 8: Clculo de la correlacin entre el porcentaje de chicos vacunados


contra la DPT y la tasa de mortalidad para chicos menores a 5 aos, con el
clculo del p-valor para el test de las hiptesis H0 : = 0, versus H1 : 6= 0,
con SPSS.

Bajo H0 , puede probarse que la distribucin de z es aproximadamente



1 1 + 0 1
N ln , .
2 1 0 n3
Luego, esta distribucin se utiliza para calcular el p-valor del test, o dar la
regin de rechazo de nivel . El p-valor se obtendr estandarizando el valor de
z observado y calculando la probabilidad de obtener un valor tan alejado del
cero o ms alejado an como el observado, usando la funcin de distribucin
acumulada normal estndar, es decir
1
1+r 1 1+0
2
ln 1r
2 ln 1
0
zest = q
1
n3

p valor = P (|Z| |zest |) .

Esto lo realiza el paquete estadstico. En el ejemplo no puede aplicarse este


test puesto que hemos visto ya que ninguna de las dos muestras es normal,
y este test es an ms sensible que el anterior al supuesto de normalidad.
22 Mara Eugenia Szretter

Tabla 3: Clculo de la correlacin entre el porcentaje de chicos vacunados


contra la DPT y la tasa de mortalidad para chicos menores a 5 aos, con el
clculo del p-valor para el test de las hiptesis H0 : = 0, versus H1 : 6= 0,
e intervalo de confianza para . Salida del R.

> cor.test(immunized,under5, method = "pearson")

Pearsons product-moment correlation

data: immunized and under5


t = -5.4864, df = 18, p-value = 3.281e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9137250 -0.5362744
sample estimates:
cor
-0.7910654

Intervalo de confianza para Puede resultar de inters disponer de


un intervalo de confianza para el verdadero coeficiente de correlacin pobla-
cional, , que nos d indicios de qu parmetros poblacionales pueden de-
scribir apropiadamente a nuestros datos. Para construirlo se recurre a la
transformacin z presentada en la seccin anterior. Luego se utiliza la dis-
tribucin normal para encontrar los percentiles adecuados para describir el
comportamiento del z estandarizado, y finalmente se aplica la inversa de la
transformacin z para obtener un intervalo de confianza para . Los supuestos
para llevar este procedimiento a cabo son los mismos que los presentados para
ambos tests de las subsecciones anteriores. Finalmente el intervalo de confi-
anza de nivel 1 para est dado por [I , D ] donde


1 1+r
zobs = ln
2 1r
 
1
2 zo b s z1 n3
e 2 1
I = 
1

2 zo b s z1 n3
e 2

+1
1
2 zo b s +z1 n3
e 2 1
D = 
1

2 zo b s +z1 n3
e 2 +1
1.3 Coeficiente de correlacin de Spearman 23

Figura 9: Histograma para los datos de porcentaje de nios vacunados y tasas


de mortalidad infantil, para los datos del Ejemplo 1.1.

y z1 2 es el percentil 1 2 de la normal estndar. En el caso del ejemplo no


tiene sentido mirarlo porque no se cumplen los supuestos, pero puede verse
la salida del R en la Tabla 3 donde aparece calculado por la computadora, y
da [0,91, 0,54] .

1.3. Coeficiente de correlacin de Spearman


Existen otras medidas de asociacin entre dos variables que no son tan
sensibles a observaciones atpicas como el coeficiente de correlacin de Pear-
son, ni necesitan el supuesto de normalidad para testearse. La ms difundida
de ellas es el coeficiente de correlacin de Spearman, que presentamos en esta
seccin. El coeficiente de correlacin de Spearman se encuadra entre las tc-
nicas estadsticas no paramtricas, que resultan robustas bajo la presencia de
outliers ya que reemplazan los valores observados por los rangos o rankings
de las variables. Se calcula del siguiente modo.
24 Mara Eugenia Szretter

1. Se ordena cada muestra por separado, de menor a mayor. A cada ob-


servacin se le calcula el ranking que tiene (o rango, o nmero de ob-
servacin en la muestra ordenada). De este modo, la observacin ms
pequea de las X 0 s recibe el nmero 1 como rango, la segunda recibe
el nmero 2, etctera, la ms grande de todas las X 0 s recibir el ran-
go n. Si hubiera dos o ms observaciones empatadas en algn puesto
(por ejemplo, si las dos observaciones ms pequeas tomaran el mismo
valor de X, entonces se promedian los rangos que les tocaran: cada
una tendr rango 1,5, en este ejemplo, ya que 1+2 2
= 1,5. En el caso
en el que las tres primeras observaciones fueran empatadas, a las tres
les tocara el promedio entre 1, 2 y 3, que resultar ser 1+2+3
3
= 2). A
este proceso se lo denomina ranquear las observaciones X. Llamemos
R (Xi ) al rango obtenido por la i-sima observacin X.

2. Se reemplaza a cada observacin Xi por su rango R (Xi ) .

3. Se ranquean las observaciones Y , obtenindose R (Yi ) de la misma for-


ma en que se hizo en el tem 1 para las X 0 s.

4. Se reemplaza a cada observacin Yi por su rango R (Yi ) . Observemos


que conocemos la suma de todos los rangos de ambas muestras (es la
suma de 1 + 2 + 3 + + n = n(n+1)
2
).

5. Se calcula el coeficiente de correlacin de Pearson entre los pares


(R (Xi ) , R (Yi )) . El valor obtenido es el coeficiente de correlacin de
Spearman, que denotaremos rS .

Ilustramos el procedimiento con los datos del Ejemplo 1.1, de la vac-


unacin de DPT, en la Tabla 4. All figuran las originales X e Y en las
columnas 1 y 3, y los rangos de cada muestra: los rangos de las X 0 s en la
columna 2 y los rangos de las Y 0 s en la columna 4. Ah vemos que Etiopa
es el pas de la muestra con menor tasa de vacunacin, por eso su valor X
recibe el rango 1. Lo sigue Camboya. Observamos que hay dos pases cuyo
porcentaje de vacunacin es 89 %: Egipto e India. Ambos empatan en los
puestos 11 y 12 de la muestra ordenada, por eso reciben el rango 11,5. Y
tambin hay 3 pases con un 95 % de bebs vacunados (Finlandia, Francia e
Italia) que, a su vez, empatan en los puestos 16, 17 y 18 y reciben el rango
promedio de esos tres valores, o sea, 17. Es interesante observar que Etiopa
recibe el rango 1 (el menor) para el porcentaje de vacunacin, y el rango 20
(el mayor) para la tasa de mortalidad menor a 5 aos, Camboya, a su vez,
recibe el rango 2 (el segundo ms chico) para el porcentaje de vacunacin,
y el rango 19 (el penltimo) para la tasa de mortalidad. En ambos rdenes,
1.3 Coeficiente de correlacin de Spearman 25

lo sigue Senegal, esto muestra la asociacin negativa entre ambas variables.


Para evaluar si esto ocurre con el resto de los pases, hacemos un scatter
plot de los rangos de Y versus los rangos de X en la Figura 10. En ella se
ve una asociacin negativa entre los rangos de ambas variables, aunque no
se trata de una asociacin muy fuerte, sino ms bien moderada. Los tres
puntos con menores rangos de X mantienen una relacin lineal perfecta, co-
mo habamos observado. Sin embargo, ese ordenamiento se desdibuja en las
dems observaciones.

Tabla 4: Datos para los 20 pases, con las variables, X : porcentaje de nios
vacunados a la edad de un ao en cada pas, rangos de la X : ranking que
ocupa la observacin en la muestra ordenada de las Xs, Y : tasa de mor-
talidad infantil de nios menores de 5 aos en cada pas, rangos de la Y :
posicin que ocupa la observacin en la muestra ordenada de las Y s.

Pas Porcentaje Rangos Tasa de mortalidad Rangos


vacunado (X) de X menor a 5 aos (Y ) de Y
Bolivia 77,0 8 118,0 16
Brasil 69,0 5 65,0 14
Camboya 32,0 2 184,0 19
Canad 85,0 9 8,0 3
China 94,0 15 43,0 12
Repblica Checa 99,0 20 12,0 8
Egipto 89,0 11,5 55,0 13
Etiopa 13,0 1 208,0 20
Finlandia 95,0 17 7,0 2
Francia 95,0 17 9,0 5
Grecia 54,0 4 9,0 5
India 89,0 11,5 124,0 17
Italia 95,0 17 10,0 7
Japn 87,0 10 6,0 1
Mxico 91,0 14 33,0 11
Polonia 98,0 19 16,0 9
Federacin Rusa 73,0 6 32,0 10
Senegal 47,0 3 145,0 18
Turqua 76,0 7 87,0 15
Reino Unido 90,0 13 9,0 5

Cmo resumimos el grado de asociacin observado entre los rangos?


Con el clculo del coeficiente de correlacin entre ellos. En este caso da rS =
0,543, como puede verse en la Tabla 5 o en la Figura 11. Este nmero resulta
26 Mara Eugenia Szretter

Figura 10: Grfico de dispersin entre los rangos de Y (es decir, los rangos
de la tasa de mortalidad menor a 5 aos) y los rangos de X (es decir, del
porcentaje de nios menores a un ao vacunados contra la DPT). Se ve una
asociacin negativa, aunque no muy estrecha.

menor en magnitud que el coeficiente de correlacin de Pearson, pero sugiere


una moderada relacin entre las variables. Esta asociacin es negativa.

Otro test para = 0. Pueden testearse las mismas hiptesis de la Seccin


1.2.3, es decir

H0 : = 0
H1 : 6= 0,

pero usando el coeficiente de correlacin de Spearman, rechazando para val-


ores de valor absoluto grande de rS . El p-valor puede calcularse de manera
exacta si n < 10 y no hay empates en la muestra, y de manera aproximada
para n mayores.
Si n es muy grande, se utiliza la misma distribucin t de la Seccin an-
terior, tn2 . La ventaja de este test por sobre el test de Spearman es que
los supuestos para llevarlo a cabo es que que los pares de observaciones
1.3 Coeficiente de correlacin de Spearman 27

(X1 , Y1 ) , . . . , (Xn , Yn ) sean independientes entre s, idnticamente distribui-


dos. No es necesario asumir nada respecto de la distribucin de cada muestra,
de hecho basta que la escala de las observaciones sea ordinal para poder apli-
carlo. Puede utilizarse si hay observaciones atpicas. La desventaja radica en
la potencia del test. El test de Spearman tiene una potencia menor en el
caso en el que ambas muestras son normales (en cualquier otro caso, el de
Pearson no puede aplicarse). Pero, por supuesto que si con el test de Spear-
man se logra rechazar la hiptesis nula, ya no es necesario preocuparse por
la potencia, ni utilizar el coeficiente de Pearson, que resulta ms eficiente.

Tabla 5: Clculo de la correlacin de Spearman entre el porcentaje de chicos


vacunados contra la DPT (immunized) y la tasa de mortalidad para chicos
menores a 5 aos (under5), con el clculo del p-valor con el coeficiente de
Spearman, para el test de las hiptesis H0 : = 0, versus H1 : 6= 0. Salida
del R.

> cor.test(immunized,under5, method = "spearman")

Spearmans rank correlation rho

data: immunized and under5


S = 2052.444, p-value = 0.01332
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
-0.5431913

En el ejemplo vemos que el p-valor del test de Spearman es 0,013 que


al ser menor a 0,05 nos permite rechazar la hiptesis nula y concluir que la
verdader correlacin poblacional entre el porcentaje de nios vacunados y la
tasa de mortalidad menor a 5 aos, es distinta de cero.
Un ltimo comentario respecto de la correlacin en el contexto del estudio
de regresin lineal. En este contexto, no estaremos tan interesados en los
tests presentados para probar si existe correlacin entre las variables, sino
ms bien en el uso de la correlacin a nivel descriptivo. Nos servir en una
primera etapa exploratoria de los datos para ver si las variables bajo nuestra
consideracin estn asociadas con una variable Y que nos interesa explicar,
y qu grado de fuerza tiene esa asociacin lineal. Y tambin nos servir
para entender ciertos comportamientos extraos que presenta la regresin
28 Mara Eugenia Szretter

Figura 11: Correlacin de Spearman entre el porcentaje de chicos vacunados


contra la DPT (immunized) y la tasa de mortalidad para chicos menores
a 5 aos (under5), con el clculo del p-valor, para el test de las hiptesis
H0 : = 0, versus H1 : 6= 0. Salida del SPSS.

lineal mltiple cuando se ajusta para modelos con muchas covariables muy
correlacionadas entre s.

Ejercicio 1.4 Hacer el ejercicio 1, de correlacin, que est en el Apndice


A, correspondiente a datos de peso y presin.

Ejercicio 1.5 Hacer el ejercicio 2, de correlacin, que est en el Apndice


A, correspondiente a datos de colesterol y triglicridos.
2. Regresin lineal simple 29

2. Regresin lineal simple

2.1. Introduccin
Antes de presentar el modelo lineal, comencemos con un ejemplo.

Ejemplo 2.1 Datos publicados en Leviton, A., Fenton, T., Kuban, K. C.


K., Pagano, M., Labor and Delivery Characteristics and the Risk
of Germinal Matrix Hemorrhage in Low Birth Weight Infants,
Journal of Child Neurology, Volumen 6, October 1991, 35-40, tratados en
el libro de Pagano, M., Gauvreau, K. Principles of Biostatistics, Second
Edition, Duxbury Thomson Learning. 2000.
Los datos corresponden a mediciones de 100 nios nacidos con bajo peso
(es decir, con menos de 1500g.) en Boston, Massachusetts. Para dichos bebs
se miden varias variables. La variable que nos interesa es el permetro cefli-
co al nacer (medido en cm.). Los datos estn en el archivo low birth weight
infants.txt, la variable headcirc es la que contiene los datos del permetro
ceflico. No tiene sentido tipear los 100 datos, pero al menos podemos listar
algunos, digamos los primeros 14 datos: 27, 29, 30, 28, 29, 23, 22, 26, 27,
25, 23, 26, 27, 27. La lista completa est en el archivo. Asumamos que entra
ahora una madre con su beb recin nacido en mi consultorio de nios de bajo
peso, y quiero predecir su permetro ceflico, con la informacin que me pro-
porciona la muestra de los 100 bebs. Cul debiera ser el valor de permetro
ceflico que le predigo? O sea, me estoy preguntando por el mejor estimador
del permetro ceflico medio de un beb de bajo peso, sin otra informacin a
mano ms que la muestra de 100 bebs antes descripta. Si llamamos Y a la
variable aleatoria:

Y = permetro ceflico (medido en cm.) de un beb recin nacido


con bajo peso,

estamos interesados en estimar a la media poblacional E (Y ) . Sabemos que la


media muestral Y 100 ser el mejor estimador que podemos dar para la media
poblacional E (Y ) . Los estadsticos de resumen para la muestra dada figuran
en la Tabla 6.

Tabla 6: Medidas de resumen de los datos de permetro ceflico.


Variable N Media muestral Desvo estndar muestral
Permetro ceflico 100 26,45 2,53
30 Mara Eugenia Szretter

Luego, nuestro valor predicho ser 26,45 cm. de permetro ceflico. El


desvo estndar muestral es 2,53. Ms an, podramos dar un intervalo de
confianza para la media poblacional, basado en la muestra (ver la Figura 12).

Figura 12: Intervalo de confianza para el permetro ceflico medio, basado en


los 100 datos disponibles (en SPSS).

Ejemplo 2.2 Por lo tanto, el intervalo de confianza para E (Y ) resulta ser


[25,95, 26,95] , ver la Figura 12.

Pero qu pasara si contramos con informacin adicional a la ya descrip-


ta en la muestra de 100 bebs de bajo peso? Adems del permetro ceflico
al nacer, se miden otras variables en los 100 bebs en cuestin. La siguiente
tabla las exhibe, para los primeros 14 bebs.
Comenzaremos por estudiar dos de estas variables conjuntamente. Es de-
cir, miraremos headcirc: permetro ceflico al nacer (medido en cm.) y
gestage: edad gestacional (medida en semanas). La idea es ver si podemos
predecir de una mejor manera el permetro ceflico de un beb al nacer si
conocemos la edad gestacional de la madre (semanas que dur el embara-
zo). Podemos pensar en estas observaciones como en n = 100 observaciones
apareadas (Xi , Yi ) con 1 i n, donde Yi es la variable respuesta medida en
el isimo individuo (o isima repeticin o isima unidad experimental, segn
el caso), y Xi es el valor de la variable predictora en el isimo individuo. En
el ejemplo,

Yi = permetro ceflico del isimo beb de bajo peso (headcirc)


Xi = edad gestacional o duracin de la gestacin del isimo beb
de bajo peso (gestage)

Veamos un scatter plot (grfico de dispersin) del permetro ceflico ver-


sus la edad gestacional, para los 100 nios. En SPSS, por men: Grficos
2.1 Introduccin 31

Tabla 7: Primeros 14 datos de los bebs de bajo peso


Caso headcirc length gestage birthwt momage toxemia
1 27 41 29 1360 37 0
2 29 40 31 1490 34 0
3 30 38 33 1490 32 0
4 28 38 31 1180 37 0
5 29 38 30 1200 29 1
6 23 32 25 680 19 0
7 22 33 27 620 20 1
8 26 38 29 1060 25 0
9 27 30 28 1320 27 0
10 25 34 29 830 32 1
11 23 32 26 880 26 0
12 26 39 30 1130 29 0
13 27 38 29 1140 24 0
14 27 39 29 1350 26 0

Cuadros de dilogo antiguos Dispersin Dispersin simple


Definir. Aparece en la Figura 13.

Figura 13: Grfico de dispersin de permetro ceflico versus edad gestacional,


para 100 bebs de bajo peso.
32 Mara Eugenia Szretter

Figura 14: Correlacin entre permetro ceflico y edad gestacional, en SPSS.

El scatter plot de permetro ceflico versus edad gestacional sugiere que


el permetro ceflico aumenta al aumentar la edad gestacional. Y que dicho
aumento pareciera seguir un patrn lineal.
Observemos que, como ya dijimos, a veces el grfico de dispersin no
permite ver la totalidad de las observaciones: el scatter plot recin presentado
contiene informacin correspondiente a 100 bebs, pero parece que hubiera
menos de 100 puntos graficados. Esto se debe a que los resultados de las dos
variables graficadas estn redondeados al entero ms cercano, muchos bebs
aparecen con valores idnticos de permetro ceflico y edad gestacional; en
consecuencia algunos pares de datos son graficados sobre otros.
Adems, si calculamos el coeficiente de correlacin lineal para estos datos
nos da 0,781, indicando fuerte asociacin lineal entre X e Y , ya que el valor
obtenido est bastante cerca de 1. Antes de realizar inferencias que involucren
al coeficiente de correlacin hay que verificar que se cumplen los supuestos de
normalidad de ambas muestras (haciendo, por ejemplo un test de Shapiro-
Wilks y un qqplot de los datos). Una vez verificado el supuesto de normali-
dad, podemos analizar el test. (Si los datos no sustentaran la suposicin de
normalidad, deberamos usar el coeficiente de correlacin de Spearman para
evaluar la correlacin existente entre ellos). Los resultados aparecen en la
Figura 14. Recordemos que el pvalor obtenido en el test (menor a 0,0001 da
casi cero trabajando con 4 decimales de precisin) significa que en el test
de H0 : = 0 versus la alternativa H1 : 6= 0 donde es el coeficiente
de correlacin poblacional, rechazamos la hiptesis nula a favor de la alter-
nativa y resulta que es significativamente distinto de cero, indicando que
efectivamente hay una relacin lineal entre ambas variables.
2.2 Modelo lineal simple 33

Observemos que si bien ahora sabemos que ambas variables estn lineal-
mente asociadas, todava no podemos usar esta informacin para mejorar
nuestra prediccin del permetro ceflico de un beb recin nacido, de bajo
peso. Para hacerlo, proponemos el modelo lineal.

2.2. Modelo lineal simple


El modelo de regresin lineal es un modelo para el vnculo de dos varia-
bles aleatorias que denominaremos X = variable predictora e Y = variable
dependiente o de respuesta. El modelo lineal (simple pues slo vincula una
variable predictora con Y ) propone que

Y = 0 + 1 X + , (1)

donde es el trmino del error. Esto es que para cada valor de X, la corre-
spondiente observacin Y consiste en el valor 0 + 1 X ms una cantidad ,
que puede ser positiva o negativa, y que da cuenta de que la relacin entre
X e Y no es exactamente lineal, sino que est expuesta a variaciones indi-
viduales que hacen que el par observado (X, Y ) no caiga exactamente sobre
la recta, sino cerca de ella, como puede anticiparse viendo el scatter plot de
los datos que usualmente se modelan con este modelo (ver, por ejemplo, la
Figura 13). En el modelo (1) los nmeros 0 y 1 son constantes desconoci-
das que se denominan parmetros del modelo, o coeficientes de la ecuacin.
El modelo se denomina lineal puesto que la Y depende linealmente de
estas constantes, es lineal en los parmetros: los 0 s no aparecen como expo-
nentes ni multiplicados o divididos por otros parmetros. Los parmetros se
denominan

0 = ordenada al origen
1 = pendiente.

Otra forma de escribir el mismo modelo es pensando en las observaciones


(Xi , Yi ) . En tal caso, el modelo (1) adopta la forma

Yi = 0 + 1 Xi + i , (2)

donde i es el trmino del error para el individuo isimo, que no es obser-


vable.
Antes de escribir los supuestos del modelo, hagamos un breve repaso de
ecuacin de la recta, en un ejemplo sencillo.
34 Mara Eugenia Szretter

2.3. Ecuacin de la recta


Estudiemos el grfico y el vnculo entre x e y que impone la ecuacin de
la recta. Miremos en particular la recta

y = 2x + 3

En este caso la pendiente es 1 = 2, y la ordenada al origen es 0 = 3. Antes


de graficarla armamos una tabla de valores de la misma.

x y
0 3
1 5
2 7
3 9

Grafiquemos. Nos basta ubicar dos puntos sobre la misma, por ejemplo el
(0, 3) y el (1, 5) .

Figura 15: Grfico de la recta y = 2x + 3.

Observemos que al pasar de x = 0 a x = 1, el valor de y pasa de 3 a


5, es decir, se incrementa en 2 unidades. Por otra parte, al pasar de x = 1
a x = 2, el valor de y pasa de 5 a 7, o sea, nuevamente se incrementa en 2
2.4 Supuestos del modelo lineal 35

unidades. En general, al pasar de cualquier valor x a (x + 1) , el valor de y


pasa de 2x + 3 a 2 (x + 1) + 3, es decir, se incrementa en
[2 (x + 1) + 3] [2x + 3] = 2x + 2 + 3 2x 3
=2
que es la pendiente. Por lo tanto, la pendiente representa el cambio en y
cuando x aumenta una unidad.
Luego de este breve repaso, retomemos el modelo lineal, escribiendo los
supuestos bajo los cuales es vlido.

2.4. Supuestos del modelo lineal


Tomando en cuenta el repaso realizado de la ecuacin de la recta, podemos
decir que en el scatter plot de la Figura 13, hemos visto que una relacin Iineal
indica la tendencia general por la cual el permetro ceflico vara con la edad
gestacional. Se puede observar que la mayora de los puntos no caen exac-
tamente sobre una lnea. La dispersion de los puntos alrededor de cualquier
lnea que se dibuje representa la variacin del permetro ceflico que no es-
t asociada con la edad gestacional, y que usualmente se considera que es
de naturaleza aleatoria. Muchas veces esta aleatoriedad se debe a la falta
de informacin adicional (datos genticos del nio y sus padres, abultada
informacin acerca del embarazo que incluyan tratamientos seguidos por la
madre, datos de alimentacin, raza, edad de la madre, etc.) y de un modelo
complejo que pueda dar un adecuado vnculo funcional entre estos datos y la
variable respuesta (en este caso el permetro ceflico del recin nacido de bajo
peso). Por otro lado, como se espera que todos estos componentes diversos se
sumen entre s y tengan un aporte muy menor a la explicacin de la variable
respuesta comparada con el de la explicativa considerada, se los puede mode-
lar adecuadamente asumiendo que todas estas caractersticas independientes
de la edad gestacional y asociadas al individuo las incluyamos en el trmino
del error, que al ser suma de muchas pequeas variables independientes (y no
relevadas) podemos asumir que tiene distribucin normal. Lo cual no se ale-
jar mucho de la realidad en muchos de los ejemplos prcticos de aplicacin
del modelo de regresin.
Es por eso que el modelo lineal
Y = 0 + 1 X + , (3)
consta de una parte aleatoria y otra determinstica, 0 + 1 X.
Los supuestos bajo los cuales sern vlidas las inferencias que haremos
ms adelante sobre el modelo
Yi = 0 + 1 Xi + i , (4)
36 Mara Eugenia Szretter

son los siguientes:

1. los i tiene media cero, E (i ) = 0.


2. los i tienen todos la misma varianza desconocida que llamaremos 2
y que es el otro parmetro del modelo, V ar (i ) = 2 . A este requisito
se lo suele llamar homoscedasticidad.

3. los i tienen distribucin normal


4. los i son independientes entre s, y son no correlacionados con las Xi .

El hecho de que los errores no estn correlacionados con las variables


explicativas apunta a que el modelo est identificado. Observemos que estos
cuatro supuestos pueden resumirse en la siguiente expresin

i N 0, 2 , 1 i n, independientes entre s. (5)

Tambien resulta interesante remarcar que en la ecuacin (4) lo nico que se


observa es (Xi , Yi ) .
Otra manera de escribir los supuestos es observar que a partir de la
ecuacin (4) o (1) uno puede observar que para cada valor fijo de la
variable X, el valor esperado de la respuesta Y depende de X de manera
lineal, es decir escribir el modelo en trminos de la esperanza de Y condicional
a las Xs que notaremos E (Y | X) . Esto constituye un modo equivalente de
escribir el modelo de regresin lineal simple. Supuestos:

1. La esperanza condicional de Y depende de X de manera lineal, es decir

E (Y | X) = 0 + 1 X (6)

o, escrito de otro modo

E (Y | X = xi ) = 0 + 1 xi (7)

donde 0 , 1 son los parmetros del modelo, o coeficientes de la ecuacin.


A la ecuacin (6) se la suele llamar funcin de respuesta, es una recta.
2. La varianza de la variable respuesta Y dado que la predictora est
fijada en X = x la denotaremos por V ar (Y | X = x) . Asumimos que
satisface
V ar (Y | X = xi ) = 2 ,
o sea, es constante (una constante desconocida y positiva) y no depende
del valor de X.
2.4 Supuestos del modelo lineal 37

3. Las Yi , es decir, el valor de la variable Y cuando X toma el valor


isimo observado, Yi = Y | X = xi tienen distribucin normal, es decir,
Y | X = xi N ( 0 + 1 xi , 2 ) .

4. Las Yi son independientes entre s.

Ejemplificamos grficamente los supuestos en la Figura 16.

Figura 16: Suponemos que cada observacin de la variable respuesta proviene


de una distribucin normal centrada verticalmente en el nivel implicado por
el modelo lineal asumido. Asumimos que la varianza de cada distribucin
normal es la misma, 2 . Fuente: Draper N., Smith H. Applied Regression Analysis.
Third Edition, Wiley Series in Probability and Statistics, 1998, p. 34.

Si para algn conjunto de datos estos supuestos no se verifican (por ejem-


plo, las observaciones no son independientes porque hay varias mediciones de
los mismos pacientes, o la varianza de Y crece a medida que crece X) no se
puede aplicar el modelo de regresin lineal a dichos datos. Es necesario tra-
bajar con modelos ms refinados, que permitan incluir estas estructuras en
los datos, por ejemplo, modelos de ANOVA con alguna predictora categrica
que agrupe observaciones realizadas a los mismos individuos, o modelo lineal
38 Mara Eugenia Szretter

estimado con mnimos cuadrados pesados, que permiten incluir ciertos tipos
de heteroscedasticidades.

El modelo de regresin lineal tiene tres parmetros a ser estimados, 0 , 1


2
y . Qu nos interesa resolver?

1. Estimar los parmetros a partir de observaciones.

2. Hacer inferencias sobre los pmetros (tests e intervalos de confianza


para 0 , 1 y 2 ).

3. Dar alguna medida de la adecuacin del modelo a los datos.

4. Evaluar si se cumplen los supuestos (resmenes, grficos).

5. Estimar la esperanza condicional de Y para algn valor de X observado


o para algn valor de X que no haya sido observado en la muestra, y
construir un intervalo de confianza para dicha esperanza, como para
tener idea del error a que se est expuesto.

6. Dar un intervalo de prediccin para el valor de Y de una nueva obser-


vacin para la cual tenemos el valor de X.

7. Describir los alcances y los problemas del modelo de regresin lineal.

2.5. Estimacin de los parmetros 0 y 1


Los coeficientes del modelo se estiman a partir de la muestra aleatoria de n
observaciones (Xi , Yi ) con 1 i n. Llamaremos b0 y
b1 a los estimadores
de 0 y 1 . Los valores b0 y
b1 correspondern a la recta de ordenada al
b0 y pendiente
origen b1 que mejor ajuste a los datos (X1 , Y1 ) , . . . , (Xn , Yn )
observados. Para encontrarlos, debemos dar una nocin de bondad de ajuste
de una recta cualquiera con ordenada al origen a y pendiente b a nuestros
datos. Tomemos las distancias verticales entre los puntos observados (Xi , Yi )
y los puntos que estn sobre la recta y = a + bx, que estn dados por los
pares (Xi , a + bXi ) . La distancia entre ambos es Yi (a + bXi ) . Tomamos
como funcin que mide el desajuste de la recta a los datos a

X
n
g (a, b) = (Yi (a + bXi ))2 ,
i=1
2.5 Estimacin de los parmetros 0 y 1 39

es decir, la suma de los cuadrados de las distancias entre cada observacin


y el valor que la recta candidata y = a + bx propone para ajustar dicha
observacin. Esta expresin puede pensarse como una funcin g que depende
de a y b, y que toma a los valores (X1 , Y1 ) , . . . , (Xn , Yn ) como nmeros fijos.
Cunto ms cerca est la recta de ordenada al origen a y pendiente b, menor
ser el valor de g evaluado en el par (a, b) . Los estimadores de mnimos
cuadrados de 0 y 1 sern los valores de a y b que minimicen la funcin
g. Para encontrarlos, derivamos esta funcin con respecto a a y b y luego
b0 y
buscamos los valores b1 que anulan sus derivadas. Sus derivadas son

g (a, b) X
n
= 2 (Yi (a + bXi )) (1)
a i=1

g (a, b) X
n
= 2 (Yi (a + bXi )) (Xi )
b i=1

b0 y
Las igualamos a cero para encontrar b1 , sus puntos crticos. Obtenemos
n
X
b b
Yi 0 + 1 Xi = 0 (8)
i=1
n
X
Yi b0 +
b1 Xi Xi = 0. (9)
i=1

Las dos ecuaciones anteriores se denominan las ecuaciones normales para


regresin lineal. Despejamos de ellas las estimaciones de los parmetros que
resultan ser
Pn
b1 = i=1P X i X Yi Y
n 2 , (10)
i=1 Xi X
b b
0 = Y 1 X. (11)

La pendientes estimada tambin se puede escribir de la siguiente forma


1
Pn
Xi X Yi Y c (X, Y )
cov
b1 =
n1 i=1
P = ,
1 n 2 d
n1 i=1 Xi X V ar (X)

es decir, el cociente entre la covarianza muestral y la varianza muestral de


las X 0 s. Por supuesto, un estudio de las segundas derivadas mostrar (no lo
haremos ac) que este procedimiento hace que el par b1 no sea slo un
b0 y
punto crtico, sino tambin un mnimo. Afortunadamente, en la prctica, los
clculos para hallar a b0 y
b1 son realizados por un paquete estadstico.
40 Mara Eugenia Szretter

Observacin 2.1 La funcin g propuesta no es la nica funcin de desajuste


posible, aunque s la ms difundida. La eleccin de otra funcin g para medir
el desajuste que proporciona la recta y = a + bx a nuestros datos, como

g (a, b) = mediana [Y1 (a + bX1 )]2 , . . . , [Yn (a + bXn )]2

da lugar al ajuste, conocido por su nombre en ingls, de least median of


squares. Obtendremos distintos estimadores de 0 y 1 que los que se ob-
tienen por mnimos cuadrados. Tambin se utiliza como funcion g a la sigu-
iente
X
n
g (a, b) = (Yi (a + bXi )) ,
i=1

donde es una funcin muy parecida al cuadrado para valores muy cercanos
al cero, pero que crece ms lentamente que la cuadrtica para valores muy
grandes. Estos ltimos se denominan M-estimadores de regresin, y, en
general, estn programados en los paquetes estadsticos usuales.

2.6. Recta ajustada, valores predichos y residuos


Una vez que tenemos estimadores para 0 y 1 podemos armar la recta
ajustada (o modelo ajustado), que es

b0 +
Ybi = b1 Xi

b0 +
Definicin 2.1 El valor Ybi = b1 Xi calculado para el valor Xi observado
se denomina (valor) predicho o ajustado i-simo.

Definicin 2.2 Llamamos residuo de la observacin i-sima a la va-


riable aleatoria

ei = Yi Ybi
b0
= Yi b1 Xi

El residuo isimo representa la distancia vertical entre


el punto
observado
(Xi , Yi ) y el punto predicho por el modelo ajustado, Xi , Ybi , como puede
observarse en la Figura 17. Los residuos reflejan la inherente asimetra en los
roles de las variables predictora y respuesta en los problemas de regresin.
Hay herramientas estadsticas distintas para tratar problemas donde no se da
2.6 Recta ajustada, valores predichos y residuos 41

esta asimetra, hemos visto el coeficiente de correlacin como una de ellas.


Las herramientas del anlisis multivariado (no se vern en este curso), en
general, se abocan a modelar problemas en los que no est presente esta
asimetra.

Figura 17: Un grfico esquemtico de ajuste por mnimos cuadrados a un


conjunto de datos. Cada par observado est indicado por un crculo pequeo,
la lnea slida es la recta ajustada por el mtodo de mnimos cuadrados, la
lnea punteada es la recta verdadera (desconocida) que dio lugar a los datos.
Las lneas verticales entre los puntos y la recta ajustada son los residuos. Los
puntos que quedan ubicados bajo la lnea ajustada dan residuos negativos,
los que quedan por encima dan residuos positivos. Fuente: Weisberg, Sanford,
Applied linear regression. 3rd ed. Wiley series in probability and statistics, 2005,
p.23.

2.6.1. Aplicacin al ejemplo


Ajuste con el SPSS Volvamos al ejemplo correspondiente a las mediciones
de 100 nios nacidos con bajo peso. El modelo propone que para cada edad
gestacional, el permetro ceflico se distribuye normalmente, con una espe-
ranza que cambia linealmente con la edad gestacional y una varianza fija.
42 Mara Eugenia Szretter

Asumimos que las 100 observaciones son independientes. El modelo propues-


to es
Yi = 0 + 1 Xi + i .
Ajustemos el modelo de regresin lineal simple a los datos
En SPSS: Analizar Regresin Lineales
Variable dependiente: permetro ceflico
Variable independiente: edad gestacional
Estadsticos: cliquear en
- Coeficientes de regresin: estimaciones
- Ajuste del modelo
Presentamos la tabla de coeficientes estimados en la Figura 18.

Figura 18: Coeficientes estimados para el modelo de regresin lineal aplicado


a los datos de bebs recin nacidos.

La recta ajustada a esos datos es


Yb = 3,9143 + 0,7801 X
Es decir, la ordenada al origen estimada resulta ser 3,9143 y la pendiente
de la recta estimada es 0,7801.

Significado de los coeficientes estimados Tericamente, el valor de la


ordenada al origen, es decir, 3,91 es el valor de permetro ceflico esperado
para una edad gestacional de 0 semanas. En este ejemplo, sin embargo, la
edad 0 semanas no tiene sentido. La pendiente de la recta es 0,7801, lo cual
implica que para cada incremento de una semana en la edad gestacional, el
permetro ceflico del beb aumenta 0,7801 centmetros en promedio. A ve-
ces (no en este caso), tiene ms sentido emplear un aumento de la variable
explicativa mayor a una unidad, para expresar el significado de la pendi-
ente, esto sucede cuando las unidades de medida de la covariable son muy
pequeas, por ejemplo.
2.6 Recta ajustada, valores predichos y residuos 43

Ahora podemos calcular los valores predichos basados en el modelo de


regresin. Tambin podramos calcular los residuos. Por ejemplo, calculemos
el valor predicho de permetro ceflico medio para un beb con 25 semanas
de gestacin (caso i = 6, ver los valores observados), nuestro valor predicho
sera de
Yb6 = 3,9143 + 0,7801 25 = 23,417
y el residuo sera

e6 = Y6 Yb6 = 23 23,417 = 0,417

Si quisiramos predecir el valor del permetro ceflico medio para un beb


con 29 semanas de gestacin (i = 1), nuestro valor predicho sera

Yb1 = 3,9143 + 0,7801 29 = 26,537

y el residuo sera

e1 = Y1 Yb1 = 27 26,537 = 0,463

Si quisiramos predecir el valor del permetro ceflico medio para un beb


con 33 semanas de gestacin (i = 3), nuestro valor predicho sera

Yb3 = 3,9143 + 0,7801 33 = 29,658

y el residuo sera

e3 = Y3 Yb3 = 30 29,658 = 0,342

Resumimos esta informacin en la Tabla 8.

Tabla 8: Primeros 3 datos de los bebs de bajo peso, con el valor predicho y
el residuo respectivo
Caso (i) Yi = headcirc Xi = gestage Ybi ei
1 27 29 26,537 0,463
3 30 33 29,658 0,342
6 23 25 23,417 0,417

Adems, en la Figura 19 superponemos al scatter plot la recta estimada


por mnimos cuadrados.
Volviendo a la pregunta que motiv la introduccin del modelo lineal, si
entra una madre con su beb recin nacido, de bajo peso, al consultorio y
44 Mara Eugenia Szretter

Figura 19: Grfico de dispersin del permetro ceflico versus la edad gesta-
cional, con la recta ajustada por mnimos cuadrados.

quiero predecir su permetro ceflico, ahora contamos con una herramien-


ta que (confiamos) mejorar nuestra prediccin. Le podemos preguntar a la
madre la duracin de la gestacin del nio. Si contesta 25 semanas, pre-
decir, 23,417 cm. de permetro ceflico; si contesta 29 semanas, predecir
26,537, si contesta 33 semanas, predecir 29,658. Si dice x0 semanas, diremos
3,9143 + 0,7801 x0 cm. Qu error tiene esta prediccin? Para contestar a
esta pregunta, tenemos que estimar la varianza condicional de Y , es decir,
2 .

Ejercicio 2.3 Hacer el ejercicio 3, de regresin lineal simple, que est en el


Apndice A, correspondiente a datos de peso y presin.

Ejercicio 2.4 Hacer los ejercicios del Taller 1 de Correlacin y Regresin


lineal simple, que figura en el Apndice A.

2.7. Estimacin de 2
Escribamos nuevamente el modelo poblacional y el modelo ajustado
Yi = 0 + 1 Xi + i , Modelo poblacional (12)
b0 +
Ybi = b1 Xi , Modelo ajustado
2.7 Estimacin de 2 45

Si queremos hacer aparecer el valor observado Yi a la izquierda en ambos,


podemos escribir el modelo ajustado de la siguiente forma
b0 +
Yi = b1 Xi + ei , Modelo ajustado. (13)

ya que los residuos se definen por ei = Yi Ybi . El error isimo (i ) es la


variable aleatoria que representa la desviacin (vertical) que tiene el isimo
par observado (Xi , Yi ) respecto de la recta poblacional o terica que asumi-
mos es el modelo correcto para nuestros datos (ecuacin (12)). El residuo
isimo (ei ) , en cambio, es la variable aleatoria que representa la desviacin
(vertical) que tiene el isimo par observado (Xi , Yi ) respecto de la recta ajus-
tada que calculamos en base a nuestros datos (ecuacin (13)). Recordemos
que uno de los supuestos del modelo es que la varianza de los errores es
2 , V ar (i ) = 2 . Si pudiramos observar los errores, entonces podramos
construir un estimador de la varianza a partir de ellos, que sera

1 X
n
(i )2 .
n 1 i=1

Pero los errores (i ) no son observables, lo que podemos observar son su


correlato emprico, los residuos (ei ). Desafortunadamente, el residuo isimo
no es una estimacin del error isimo (ya que el error es una variable aleatoria,
no un nmero fijo). Tanto los i como los ei son variables aleatorias, pero
muchas de las cualidades de los errores no las heredan los residuos. Los errores
i son independientes, pero los residuos ei no lo son. De hecho, suman 0. Esto
puede verse si uno escribe la primera ecuacin normal que vimos en la Seccin
2.5, la ecuacin (8) en trminos de los ei
n
X X
n
0= b b
Yi 0 + 1 Xi = ei . (14)
i=1 i=1

Si escribimos la segunda ecuacin normal en trminos de los residuos vemos


tambin que
n
X
0 = Yi b0 +
b1 Xi Xi
i=1
Xn X
n X
n

= ei Xi = (ei e) Xi = (ei e) Xi X (15)
i=1 i=1 i=1

La segunda igualdad de (15) se debe a que por (14) el promedio de los resi-
duos e, es igual a cero, y la tercera puede verificarse haciendo la distributiva
46 Mara Eugenia Szretter

correspondiente. Observemos que si calculamos el coeficiente de correlacin


muestral entre las Xi y los ei , el numerador de dicho coeficiente es el que
acabamos de probar que vale 0, es decir,
Pn
i=1 (ei e) Xi X
r = r ((X1 , ei ) , . . . , (Xn , en )) = qP q 2 = 0.
n 2 Pn
i=1 (ei e) i=1 Xi X

Luego, los residuos satisfacen dos ecuaciones lineales (las dadas por (14)
y (15)) y por lo tanto, tienen ms estructura que los errores. Adems, los
errores tienen todos la misma varianza, pero los residuos no. Ms adelante
las calcularemos.
El estimador de 2 que usaremos ser

1 X 1 X 2 1 X 2
n n n
b2 =
(ei e)2 = ei = Yi Ybi . (16)
n 2 i=1 n 2 i=1 n 2 i=1

Al numerador de la expresin anterior ya lo encontramos cuando hallamos


la solucin al problema de mnimos cuadrados: es la suma de los cuadrados
de los residuos que notamos tambin por SSRes donde las siglas vienen de
la expresin en ingls (residual sum of squares). De l deviene otra manera
de nombrar al estimador de 2 : MSRes, es decir, mean squared residuals, o
cuadrado medio de los residuos:
1
b2 =
SSRes = MSRes.
n2
Hallmoslo en el caso del ejemplo. Para ello, vemos otra de las tablas de la sali-
da del SPSS en la Figura 20. Ms adelante analizaremos en detalle esta salida,
por ahora slo nos interesa la estimacin de 2 que resulta ser 2,529, la celda
en gris correspondiente a la media cuadrtica residual. Luego la estimacin
de que proporciona el modelo es su raz cuadrada, que es 1,5903. Al com-
pararla con la obtenida sin el modelo de regresin, cuando slo disponamos
de la variable Y , vemos que el desvo estndar se redujo considerablemente
(el desvo estndar muestral de las Ys es 2,53). Esta informacin adems nos
permite proponer tests e intervalos de confianza para 0 y 1 .

2.8. Inferencia sobre 1


Intentaremos construir un intervalo de confianza y tests para 1 , la pen-
diente de la recta del modelo lineal poblacional o terico que describe a la
poblacin de la que fueron muestreados nuestros datos. Recordemos que el
2.8 Inferencia sobre 1 47

Figura 20: ANOVA para el ajuste de regresin lineal, para los 100 bebs de
bajo peso.

modelo lineal es un modelo para la esperanza condicional de Y conocidos los


valores de la variable X. La estimacin y la inferencia se realizan bajo este
contexto condicional. Para hacer inferencias,tomaremos las Xi como cons-
b b1
tantes, para no escribir oraciones del estilo E 1 | X . Para el estimador
puede probarse que, si los datos siguen el modelo lineal (1), es decir, si
Yi = 0 + 1 Xi + .
con los supuestos que hemos descrito (homoscedasticidad, independencia y
normalidad de los errores), entonces

E b1 = 1
2
V ar b1 = P 2 .
n
i=1 Xi X
y tambin !
b1 N 2
1 , Pn 2 .
i=1 Xi X
Un estimador de la varianza es
b2 SSRes/ (n 2)
Vdar b1 = P = 2 .
n 2 Pn
i=1 Xi X i=1 X i X
Finalmente, bajo los supuestos del modelo, puede probarse que
b
b 1

r 1 1 = 1
b1 see1
Vdar
48 Mara Eugenia Szretter

tiene distribucin t de Student con n 2 grados de libertad si los datos siguen


el modelo lineal. Esto es lo que se conoce como la distribucin de muestreo
de b1 . Los grados de libertad son n 2 puesto que los residuos satisfacen dos
ecuaciones lineales, es decir, conociendo n 2 de ellos (y las X 0 s) se pueden
reconstruir los dos restantes. A la raz cuadrada de una varianza estimada
se la llama error estndar (standard error), por lo que usamos el smbolo
see1 para el error estndar de b1 , o sea see es un estimador de la desviacin
1
estndar de la distribucin de muestreo de b1 .
Con esta distribucin podemos construir un intervalo de confianza de
nivel 1 para 1 que resultar
v
u
u b2

b t
1 tn2;1 2 Pn
2 , o bien
i=1 Xi X

b1 tn2;1 see
2 1

donde tn2 ,1 2 es el percentil 1 2 de la distribucin tn2 (el valor que deja


a su izquiera un rea 1 2 ). Esto tambin permite realizar tests para la
pendiente. La forma general de las hiptesis para estos tests es
H0 : 1 = b
H1 : 1 6= b.
donde b es un valor fijado de antemano. Sin embargo, el test de mayor inters
para el modelo lineal es el que permite decidir entre estas dos hiptesis
H0 : 1 = 0 (17)
H1 : 1 6= 0,
(es decir, tomar b = 0 como caso particular). Si 1 = 0, las Yi no dependen de
las Xi , es decir, no hay asociacin lineal entre X e Y , en cambio, la hiptesis
alternativa indica que s hay un vnculo lineal entre ambas variables. Para
proponer un test, debemos dar la distribucin de un estadstico basado en el
estimador bajo la hiptesis nula. En este caso resulta que, bajo H0 , Yi | Xi
N ( 0 , 2 ) , es decir, son variables aleatorias independientes e idnticamente
distribuidas. Como adems el estimador de 1 (y tambin el de 0 ) puede
escribirse como un promedio (ponderado) de los Yi :
Pn
X i X Yi Y 1 Xn

b
1 = i=1
Pn 2 = Pn 2 Xi X Yi
j=1 Xj X j=1 Xj X i=1

Xn
Xi X Xn
= Pn 2 Yi = ci Yi (18)
i=1 j=1 Xj X i=1
2.8 Inferencia sobre 1 49

donde

Xi X Xi X
ci = Pn 2 = , (19)
Xj X S XX
j=1
X
n
2
SXX = Xj X .
j=1

b1 ser normal. Si el supuesto de normalidad


Entonces, la distribucin de
de los errores no valiera, pero la muestra fuera suficientemente grande, y
b1 seguira sien-
se cumpliera una condicin sobre los ci la distribucin de
do aproximadamente normal. Luego, si 1 = 0 el estadstico T descripto a
continuacin
b 0
b
b1

T =r 1 = 1 =r (20)
b1 see1 SSRes
Vd ar S
(n2) n (Xi X )
2
i=1

tiene distribucin tn2 . Finalmente, un test de nivel para las hiptesis (17)
rechazar H0 cuando el valor de T observado en la muestra sea mayor que
el percentil 1 2 de la distribucin tn2 , es decir, tn2 ,1 2 , o menor que
tn2 , 2 = tn2 ,1 2 , segn la Figura 21.
Es decir, el test rechaza H0 con nivel si

Tobs tn2 , 2 tn2 ,1 2 Tobs ,

donde Tobs es el valor del estadstico T definido en (20) calculado en base a las
observaciones (X1 , Y1 ) , . . . , (Xn , Yn ) . O bien, se puede calcular el p valor
del test de la siguiente forma

p valor = 2P (T |Tobs |) ,

ya que se trata de un test a dos colas. Reportar el p-valor cuando uno realiza
un test sobre un conjunto de datos siempre permite al lector elegir su punto
de corte respecto de aceptar o rechazar una hiptesis.
Un comentario final. Hay una importante distincin entre significatividad
estadstica, la observacin de un pvalor suficientemente pequeo y la significa-
tividad cientfica (mdica, biolgica, econmica, dependiendo del contexto)
en el hecho de considerar significativa un efecto de una cierta magnitud. La
significatividad cientfica requerir examinar, en la mayora de las aplica-
ciones, ms que slo un p-valor.
50 Mara Eugenia Szretter

Figura 21: Regin de rechazo y aceptacin para el test t para la pendiente


del modelo lineal simple, se grafica la densidad de una t de Student con n 2
grados de libertad. Fuente [11], pg. 442.

Figura 22: Estadsticos descriptivos para la edad gestacional

2.8.1. Aplicacin al ejemplo


Para el ejemplo de los 100 bebs de bajo peso, si volvemos a mirar la
tabla de coeficientes estimados (Figura 18) obtenemos el estimador del error
estndar de b1 , o sea
see1 = 0,063.

Otra forma de obtener este valor es a partir de las Figuras 20 y 22. De la


primera obtenemos que

SSRes/ (n 2) = 247,883/98 = 2,529418


r
Sn 2
i=1 (Xi X )
En la segunda vemos que n1
= 2,534 que es el desvo estndar
2.8 Inferencia sobre 1 51

muestral de las X 0 s. De aqu obtenemos

X
n
2
SXX = Xi X = 2,5342 (n 1) = 2,5342 (99) = 635,69
i=1

Finalmente,
s s
SSRes/ (n 2) 247,883/98
see1 = Pn 2 =
X i X 635,69
i=1
r
2,529418
= = 0,06307941
635,69

El percentil resulta ser tn2;1 2 = t98,0,975 = 1,984467. Luego, un intervalo


de confianza de nivel 0,95 = 1 para 1 ser

b1 tn2;1 see
2 1
0,7801 1,984467 0,06307941
[0,654921, 0,905279]

Es decir, como el intervalo est ntegramente contenido en los reales posi-


tivos, el verdadero valor de la pendiente, 1 , ser positivo, confirmando que
la asociacin positiva que encontramos en la muestra se verifica a nivel pobla-
cional. Observemos tambin que el intervalo es bastante preciso, esto se debe
a que la muestra sobre la que sacamos las conclusiones es bastante grande.
Notemos que la variabilidad de b1 disminuye (la estimacin es ms precisa o
el intervalo de confianza ms pequeo) cuando:

La varianza de los errores 2 disminuye.

La varianza de la variable regresora aumenta, o sea, mientras ms am-


plio el rango de valores de la covariable, mayor la precisin en la esti-
macin de la pendiente

El tamao de muestra aumenta.

Si en vez del intervalo de confianza queremos hacer un test de nivel 0,05


para las hiptesis siguientes

H0 : 1 = 0
H1 : 1 6= 0,
52 Mara Eugenia Szretter

entonces en la Figura 18 vemos calculado el estadstico del test T = 12,367


que se obtuvo al dividir el estimador de 1 por el estimador del desvo estn-
dar del estimador de 1 :
b1
0,7801
Tobs = = = 12,36695.
see1 0,06307941
Para decidir la conclusin del test debemos comparar el valor Tobs con el
percentil tn2;1 2 = t98,0,975 = 1,984467. Como claramente Tobs = 12,367 >
t98,0,975 = 1,984, entonces rechazamos H0 , concluyendo que el parmetro
poblacional que mide la pendiente del modelo lineal es distinto de cero. Como
sabemos, una forma alternativa de llevar a cabo este test es calcular el p
valor, que en este caso ser
p valor = 2P (T > Tobs ) = 2P (T > 12,367) ' 0
como figura en la ltima columna de la Figura 18. Como p valor < 0,05,
se rechaza la hiptesis nula.
Observemos que el intervalo de confianza para 1 construido en base a
los datos es ms informativo que el test, ya que nos permite decir que para
los tests de hiptesis
H0 : 1 = b
H1 : 1 6= b.
la hiptesis nula ser rechazada para todo b fijo que no quede contenido en
el intervalo [0,655, 0,905] en base a la muestra observada (esto es lo que se
conoce como dualidad entre intervalos de confianza y tests).

2.9. Inferencia sobre 0


Esta inferencia es de mucho menor inters. Aunque los paquetes estadsti-
cos la calculan es infrecuente encontrarla en aplicaciones. Bajo los supuestos
del modelo lineal, puede calcularse la esperanza y varianza del estimador de
0 , que resultan ser

E b0 = 0
!
1 X
2
V ar b0 = 2 + .
n Pn Xj X 2
j=1

La varianza puede estimarse por


!
1 X
2
Vdar b0 = b 2
+
n Pn Xj X 2
j=1
2.10 Intervalo de confianza para la respuesta media de Y cuando X = xh 53

Nuevamente, b0 tiene distribucin normal, su distribucin


el estadstico
2
es N 0 , 2 n1 + Sn X 2 , luego
j=1 (Xj X )

b

r 0 0 tn2
b0
V ar

y el intervalo de confianza para la ordenada al origen resulta ser


v
u 2
u1 X
b b
0 tn2; 2 t + (21)
n Pn Xi X 2

i=1

Esto quiere decir que el (1 ) 100 por ciento de los intervalos construidos
de esta forma contendrn al verdadero valor 0 con el que fueron generados
los datos.

Ejemplo 2.5 Para el ejemplo de los 100 bebs vemos en la Figura 18 que el
estadstico T observado en este caso vale 2,14 y el p-valor para testear

H0 : 0 = 0
H1 : 0 6= 0,

es 0,035, indicando que se rechaza la H0 y la ordenada al origen poblacional


es no nula.

2.10. Intervalo de confianza para la respuesta media


de Y cuando X = xh
Nos interesa construir un intervalo de confianza para E (Yh | X = xh )
que escribiremos E (Yh ) , es decir, un intervalo de confianza para la respuesta
media para algun valor prefijado de la covariable en xh . Observemos que xh
el nivel de X para el que queremos estimar la respuesta media puede o no
ser un valor observado en la muestra (pero siempre tiene que estar dentro
del rango de valores observados para X, es decir, entre el mnimo y mximo
valor observado para X). El parmetro poblacional a estimar es, entonces

E (Yh | X = xh ) = 0 + 1 xh .

El estimador puntual est dado por


b0 +
Ybh = b1 xh .
54 Mara Eugenia Szretter

La esperanza y la varianza de dicho estimador son



E Ybh = E (Yh )
" 2 #
1 x X
h
V ar Ybh = 2 + .
n Pn Xi X 2
i=1

Observemos que la variabilidad de nuestra estimacin de Yh se ve afectada


esencialmente por dos componentes:
por 2 , la variabilidad de las Y 0 s cuando conocemos el valor de X,
y por cuan lejos est ese valor de xh (de X) del promedio observado en
la muestra X.
Notar que la variabilidad de la estimacin de E (Yh | X = xh ) ser menor
cuanto ms cercano a la media muestral X est el valor de xh que nos in-
teresa. Esto puede tomarse en cuenta en los (raros) casos en los cuales los
valores de X1 , . . . , Xn son fijados por el experimentador.Esto ltimo
se debe
a que la recta de mnimos cuadrados pasa por el punto X, Y , ya que
b0 +
b1 X = Y
b X +
b1 X = Y
| {z 1 }
e
0

Luego, si tomamos muchas muestras de observaciones (X1 , Y1 ) , . . . , (Xn , Yn )


con los mismos valores X1 , . . . , Xn , resultr que el valor X no variar,y el
valor Y ser parecido en las diversas muestras. Todas las rectas ajustadas

por mnimos cuadrados pasarn por sus respectivos centros X, Y , que al
no diferir demasiado en su valor en Y , darn una estimacin ms precisa
para alrededor de E (Yh | X = xh ) cuando xh est cerca de X que cuando
est lejos, ver la Figura 23.
A partir de la definicin de b0 , y las ecuaciones (18) y (19), podemos
escribir

b0 +
Ybh = b1 xh
= Y b1 X + b1 xh

= Y + b1 xh X
Xn
1 Xn

= Yi + ci Yi xh X
i=1
n i=1
Xn
1
= + ci xh X Yi
i=1
n
2.11 Intervalo de Prediccin de una nueva observacin Y medida cuando X = xh 55

Figura 23: Dos rectas ajustadas por mnimos cuadrados


para dos muestras
con los mismos Xi , ambas pasan por el mismo X, Y , se observa la variabi-
lidad mayor en el ajustado para E (Y | x2 ) que para E (Y | x1 ) si la distancia
al X es mayor para x2 que para x1 .

(Xi X )
con ci = SXX . De la normalidad de los errores se deduce la normalidad de
Ybh . Luego, un intervalo de confianza de nivel 1 para E (Yh ) resulta ser
v
u 2
u1 xh X
b b
Yh tn2;1 2 t + .
n Pn Xi X 2
i=1

2.11. Intervalo de Prediccin de una nueva observacin


Y medida cuando X = xh
Consideramos ahora el problema de predecir una nueva observacin Y
correspondiente a un nivel de X dado.
En el ejemplo de los bebs nacidos con bajo peso, queremos predecir el
permetro ceflico de un beb que tiene 29 semanas de gestacin (y sabemos
56 Mara Eugenia Szretter

que naci con bajo peso).


Esta nueva observacin debe ser obtenida en forma independiente de las
observaciones (Xi , Yi )1in en las cuales se bas la estimacin de la recta de
regresin. En el caso del ejemplo se trata de predecir el permetro ceflico de
un beb que no est entre los 100 bebs sobre los cuales se bas el ajuste de
la regresin.
Denotamos por xh el valor de X y por Yh(nuevo) al valor de Y . A dife-
rencia del intervalo de confianza (IC) para E (Yh ) que hallamos antes, ahora
predecimos un resultado individual proveniente de la distribucin de Y , o
sea, tenemos ahora dos fuentes de variabilidad:

- la incerteza en la estimacin de E (Yh ) alrededor de la cual yacer la


nueva observacin

- la variabilidad de Y alrededor de su media (que deviene de su distribu-


cin).

Lo que queremos es un intervalo de extremos aleatorios [an , bn ] tal que



P an Yh(nuevo) bn = 1 .

Enfaticemos la diferencia entre ambos procedimientos.


Estimacin (es decir, el clculo del intervalo de confianza para la espe-
ranza de Y condicional al valor de X E (Yh | X = xh )): Es una regla para
calcular a partir de los datos un valor que nos permita adivinar el valor
que puede tomar un parmetro poblacional, en este caso, la esperanza
de Y cuando la variable X toma el valor xh . En el ejemplo, el parmetro
es el permetro ceflico medio de todos los bebs de bajo peso con xh (por
ejemplo, 29) semanas de gestacin.
Prediccin (es decir, el clculo del intervalo de prediccin de una nueva
observacin Yh(nueva) medida cuando X = xh ): Es una regla para calcular a
partir de los datos un valor que nos permita adivinar el valor que puede
tomar una variable aleatoria.
Nuestra mejor prediccin es nuevamente
b0 +
Ybh = b1 xh ,

pero ahora el error asociado ser mayor. Estimamos el error estndar de


la prediccin con
v
u 2
u 1 xh X
t
b 1 + + Pn 2
n Xi X
i=1
2.11 Intervalo de Prediccin de una nueva observacin Y medida cuando X = xh 57

A partir de este error estndar podemos construir un intervalo de predic-


cin de nivel (1 ) para el valor predicho de Y cuando X = xh por
v
u 2
u 1 x X
b t1 + + Pn
h
Ybh tn2;1 2 2
n Xi X
i=1

2.11.1. Aplicacin al ejemplo


Calculemos los intervalos de confianza de nivel 0,95 para E(Yh | X = xh )
y de prediccin para una nueva observacin Yh realizada cuando X = xh ,
para algunos valores considerados previamente (y otros ms) en el ejemplo
de los 100 nios de bajo peso al nacer: (recordemos que X = edad gestacional,
Y = permetro ceflico)

X = xh Ybh Intervalo de Confianza Longitud del IC


23 21,85549 [21,05352 22,65745] 1,603 9
25 23,417 [22,83534 23,99584] 1,160 5
28 25,75575 [25,42106 26,09045] 0,66939
29 26,537 [26,21989 26,85172] 0,63183
33 29,658 [29,05247 30,25956] 1,207 1
35 31,21612 [30,38878 32,04347] 1,654 7
X = xh Ybh Intervalo de Prediccin Longitud del IP
23 21,85549 [18,59907 25,11190] 6,512 8
25 23,417 [20,20657 26,62461] 6,418
28 25,75575 [22,58193 28,92957] 6,3476
29 26,537 [23,36391 29,70770] 6,3438
33 29,658 [26,44271 32,86933] 6,4266
35 31,21612 [27,95336 34,47889] 6,5255

En SPSS: Analizar Regresin Lineales Guardar :


En Valores pronosticados seleccionar No tipificados
En Intervalos de pronstico seleccionar Media (para intervalos de confi-
anza) e Individuos (para intervalos de prediccin) Las columnas se denom-
inarn, respectivamente: LMCI_1, UMCI_1, LICI_1, UICI_1 (lower - up-
per, media - individual, confidence interval) (el 1 es porque es el primer ajuste
de regresin cuyos resultados se graban, para estos datos)
(para casos nuevos, agregar un caso con el valor de la variable explicativa
sobre el que interese obtener el intervalo)

Hagamos las cuentas en detalle para xh = 29. Sabemos que Ybh = 26,537.
58 Mara Eugenia Szretter

La teora nos dice que el IC de nivel 0,95 para E(Yh | X = xh ) se obtiene por
v
u 2
u1 x X
b t + Pn
h
Ybh tn2;1 2 2
n Xi X
i=1

Sabemos que (ver los estadsticos descriptivos de la edad gestacional) calcu-


lados en la Seccin 2.8

X = 28,89
SXX = 635,69
n = 100

La varianza estimada por la regresin es

SSRes
b2 =
= 2,529
n2

de dnde surge
p
b=s=
2,529 = 1,5903

y
tn2;1 2 = t98;0,975 = 1,984467.

Luego, el intervalo de confianza de nivel 0,95 para E(Yh | X = 29) se obtiene


por
s
1 (xh x)2
Ybh tn2; 2
b + Pn 2
n i=1 (xi x)
s
1 (29 28,89)2
26,537 1,984467 1,5903 +
100 635,69
26,537 0,3159
[26,22; 26,85]

que coincide con lo hallado por el SPSS: [26,21989; 26,85172] .


En cuanto al intervalo de prediccin para una nueva observacin de permetro
ceflico a realizarse en un beb de 29 semanas de gestacin, el intervalo de
2.11 Intervalo de Prediccin de una nueva observacin Y medida cuando X = xh 59

prediccin de nivel 1 = 0,95 resulta ser


s
b 1 (xh x)2
b 1 + + Pn
Yh tn2; 2 2
n i=1 (xi x)
s
1 (29 28,89)2
26,537 1,984467 1,5903 1 + +
100 635,69
26,537 3,1717
[23,365; 29,709]

que coincide con lo hallado por el SPSS: [23,36391; 29,70770] . Vemoslo


grficamente. Si construimos un IC y un IP para cada xh tenemos el grfico
de la Figura 24.

Figura 24: Recta ajustada e intervalos de confianza y de prediccin para el


ejemplo de los 100 bebs.

Observemos que el IC para E(Yh | X = x) es el ms corto. Y que los IP


son mucho ms anchos que los IC. De hecho, si aumentramos el tamao de
muestra muchsimo (lo que matemticamente se dice hiciramos tender n a
60 Mara Eugenia Szretter

2
(xh X )
infinito) y eligiramos los Xi de manera tal que Sn 2 tendiera a cero,
i=1 (Xi X )
entonces la longitud de los IC tendera a cero, pero la longitud de los IP no.
Una observacin sobre el grfico anterior es que las conclusiones tienen nivel
de confianza 1 para cada valor (o nivel de prediccin para cada IP)
calculado, pero no hay nivel de confianza simultneo. (O sea, la probabilidad
de que un IC contenga al verdadero parmetro es 1 , sin embargo la
probabilidad de que simultneamente el IC calculado para xh = 29 y el IC
calculado para xh+1 = 30 ambos contengan a los dos verdaderos parmetros,
no puede asegurarse que sea 1 ).

2.12. Descomposicin de la suma de cuadrados (ANO-


VA para regresin)
El anlisis de la varianza provee un mtodo apropiado para comparar el
ajuste que dos o ms modelos proporcionan a los mismos datos. La metodologa
presentada aqu ser muy til en regresin mltiple, y con modificaciones no
demasiado importantes, en la mayora de los problemas de regresin ms
generales. Queremos comparar el ajuste proporcionado por el modelo de re-
gresin con el modelo ms simple disponible.
Cul es el modelo ms simple a nuestra disposicin? Es el modelo en el
que no contamos con la variable explicativa X y slo tenemos las observa-
ciones Y1 , . . . , Yn . A falta de algo mejor proponemos el modelo

Modelo A: E (Y | X) = , o escrito de otro modo



Modelo A: Yi = + ui con ui N 0, 2Y , 1 i n,
independientes entre s.

Es lo que se conoce como el modelo de posicin para las Y 0 s. Un estimador


puntual de es Y y un estimador de la varianza o variabilidad de las Y s
bajo el modelo A es la varianza muestral

1 X
n
2
Yi Y .
n 1 i=1

En este contexto, la varianza muestral es una medida de la variabilidad de


P 2
Y que no queda explicada por el Modelo A. A la cantidad ni=1 Yi Y
se la denomina suma de los cuadrados total (SSTo). Estos sumandos
tienen
n 1 grados de libertad ya que si uno conoce los valores de Y1 Y , . . . ,

Yn1 Y puede deducir el valor de Yn Y pues todos ellos suman 0.
2.12 Descomposicin de la suma de cuadrados (ANOVA para regresin) 61

Si ahora usamos los pares (X1 , Y1 ) , . . . , (Xn , Yn ) para estimar la recta de


regresin tenemos el modelo
Modelo B: E (Y | X) = 0 + 1 X, o escrito de otro modo (22)
2

Modelo B: Yi = 0 + 1 Xi + i , con i N 0, , 1 i n,
independientes entre s.
Ahora la variabilidad de las Yi que no queda explicada por el modelo de
regresin (modelo B) puede estimarse por
1 X 2 1 X 2
n n
b 1
ei = Yi Yi = SSRes
n 2 i=1 n 2 i=1 n2
es decir, la variacin de las observaciones alrededor de la recta ajustada. Co-
P 2
mo ya comentamos, a la cantidad ni=1 Yi Y se la denomina suma de
los cuadrados de los residuos (SSRes). Estos sumandos (los residuos)
tienen
n 2 grados de libertad pues si uno conoce los valores de Y1 Yb1 , . . . ,

Yn2 Ybn2 puede deducir el valor de en1 = Yn1 Ybn1 y en =

Yn Ybn ya que los residuos satisfacen las dos ecuaciones normales (suman
0 y su correlacin muestral con las X 0 s es cero, las ecuaciones (14) y (15)).
Si comparamos los dos modelos disponibles para las Y 0 s vemos que el
Modelo A est includo en el Modelo B, ya que tomando 0 = y 1 = 0 en
el Modelo B obtenemos el Modelo A como un caso particular del modelo B.
Estadsticamente se dice que ambos modelos estn anidados. Es decir, que
ajustar bajo el Modelo A corresponde a encontrar la mejor recta horizontal
que ajuste a los datos, mientras que ajustar bajo el Modelo B es encontrar
la mejor recta (no vertical) que ajuste a los datos. La Figura 25 muestra los
ajustes de ambos modelos para un mismo conjunto de datos.
Si todas las Yi cayeran sobre la recta, SSResiduos sera igual a cero.
Cunto mayor sea la variacin de las Yi alrededor de la recta ajustada, mayor
ser la SSResiduos.
Cul de las dos ser mayor? Vale que
SSRes SSTotal
b0 y
pues b1 son los estimadores de mnimos cuadrados, es decir, son aquellos
valores de ordenada al origen a y pendiente b que minimizan la suma de los
cuadrados siguiente
X
n
g (a, b) = (Yi (a + bXi ))2 .
i=1
62 Mara Eugenia Szretter

Figura 25: Las dos esperanzas o medias condicionales ajustadas bajo ambos
modelos, para un conjunto de veinte datos

Por lo tanto,

Xn 2 X
n 2
b b
SSRes = g 0 , 1 = b
Yi Yi = b b
Yi 0 + 1 Xi
i=1 i=1
X
n
g (a, b) = (Yi (a + bXi ))2 para todo a y b. (23)
i=1

P 2
En particular, tomando a = Y y b = 0 tenemos g Y , 0 = ni=1 Yi Y y
de (23) tenemos
X
n
2
SSRes Yi Y = SSTo. (24)
i=1

Podemos interpretar a SSTo como una medida de la variabilidad de las Y


que no queda explicada por el modelo A. Es una medida del desajuste del
modelo A a los datos. Lo mismo puede decirse de SSRes: es una medida de
la variabilidad de la Y que no queda explicacada por el modelo de regresin
lineal (modelo B). La desigualdad (24) nos dice que la mejor recta ajusta
mejor a los datos que la mejor recta horizontal, como ya discutimos, y grafi-
camos en la Figura 25. Podemos hacer la siguiente descomposicin de cada
2.12 Descomposicin de la suma de cuadrados (ANOVA para regresin) 63

uno de los sumandos de SSTo

Yi Y = Yi Ybi + Ybi Y (25)


| {z } | {z } | {z }
desviacin total
desvo alrededor desvo de los predichos
de la recta de regresin respecto de la media
ajustada

En la Figura 26 vemos estas diferencias graficadas para una observacin. La


desviacin total Yi Y mide la distancia vertical (con signo) de la observacin
a la recta horizontal que corta al eje vertical en Y , Yi Ybi mide la distancia
vertical (con signo, es decir puede ser positivo o negativo, segn dnde est
ubicada la observacin) de la observacin a la recta ajustada por mnimos
cuadrados y Ybi Y mide la distancia vertical (con signo) entre los puntos que
estn ubicados sobre ambas rectas y tienen la misma coordenada Xi . Cada
una de estas cantidades puede ser positiva, negativa o nula para distintas
observaciones.

Figura 26: Los tres trminos que aparecen en la igualdad (25) para una
observacin.

Obviamente es falso que el cuadrado del trmino de la izquierda en la


igualdad (25) anterior sea igual a la suma de los cuadrados de los trminos
64 Mara Eugenia Szretter

de la derecha es decir,
2 2 2
b b
Yi Y 6= Yi Yi + Yi Y para cada i.

Sin embargo vale la siguiente igualdad, cuando sumamos sobre todas las
observaciones
X n 2 X
n 2
n
2 X
Yi Y = b
Yi Yi + b
Yi Y . (26)
i=1 i=1 i=1

El tercer trmino involucrado en esta suma recibe el nombre de suma de


cuadrados de la regresin (SSReg, algunos autores lo llaman suma de cuadra-
dos del modelo, SSM), y por la igualdad anterior, puede escribirse la siguiente
igualdad
n
X 2 X n 2
n
2 X
SSReg = Ybi Y = Yi Y Yi Ybi
i=1 i=1 i=1
= SSTo SSRes.

En la Figura 27 pueden verse los tres sumandos de esta descomposicin en


forma grfica para un conjunto de datos.
Como la SSReg queda completamente determinada al quedar determina-
da la inclinacin de la recta (recordemos que los valores de Xi estn fijos),
es decir, la pendiente de la recta, decimos que la SSReg tiene un slo grado
de libertad.
Con estas cantidades se construye la tabla de anlisis de la varianza que
aparece en la salida de cualquier paquete estadstico en lo que se conoce como
tabla de ANOVA (Analysis of Variance table). Resumimos esta informacin
en la siguiente tabla.
La primer columna tiene las sumas de cuadrados, la segunda los respec-
tivos grados de libertad, la tercera tiene el cociente entre la primera y la
segunda, es decir, esta columna tiene lo que denominamos los cuadrados
medios (o media cuadrtica, mean square, en ingls). Explicaremos las dos
ltimas columnas de la tabla de ANOVA en la Seccin 2.14.
Observemos tambin, que la ltima fila de la tabla es la suma de las
primeras dos, lo cual es consecuencia de la ecuacin (26) es decir

SSTo = SSRes + SSRegresin.

El valor de las sumas de cuadrados depende de la escala en la que est medida


la variable Y .
2.12 Descomposicin de la suma de cuadrados (ANOVA para regresin) 65

Figura 27: El primer grfico contiene las distancias (con signo) que inter-
vienen en la SSTo, es decir, las diferencias entre los valores observados de Y
y la media muestral Y , el segundo tiene las diferencias entre las observaciones
y los valores predichos por la recta ajustada, que conforman la SSRes y el
tercer grfico muestra la deferencia entre los valores predichos por el modelo
lineal y el promedio Y , que forman la SSReg o SSM. Fuente: [2], pg. 149.

Ejemplo 2.6 En la Figura aparece la tabla de ANOVA para los datos de


bebs con bajo peso. Ya habamos visto que en el casillero marcado en gris
aparece el estimador de 2 dado por el modelo, es decir, MSRes = SSRes/ (n 2) .
Vemos que los valores numricos exhibidos en la tabla no nos dan informa-
cin que nos permita evaluar la bondad de la regresin.
66 Mara Eugenia Szretter

Tabla 9: Tabla de ANOVA para el modelo de Regresin Lineal Simple


Fuente de Suma de Grados de Cuadrado F p-valor
variacin cuadrados libertad medio
MSReg
Regresin SSReg 1 MSReg MSRes
P (F1,n2 Fobs )
Residuos SSRes n2 MSRes
Total SSTo n1

donde
Pn b 2
SSReg
SSReg = i=1 Yi Y MSReg = 1
P 2
SSRes = ni=1 Yi Ybi MSRes = SSRes
n2
P 2
SSTo = ni=1 Yi Y F = MSReg
MSRes
= SSReg(n2)
SSRes

Figura 28: La tabla de ANOVA para los 100 bebs con bajo peso, que ya fue
exhibida en la pgina 47.

En la siguiente seccin nos ocuparemos de construir una medida para


evaluar la bondad del modelo de regresin, en cuanto al ajuste a nuestros
datos, que no sea dependiente de la escala en la que est medida la variable
Y , a partir de la tabla de ANOVA.

2.13. El coeficiente de determinacin R2


Trataremos de construir una medida de la fuerza de la relacin entre la
variable dependiente e independiente, que nos indique cun buen predictor
de Y es X. Se trata de decidir si el hecho de conocer el valor de X mejora
nuestro conocimiento de Y . O sea, si uno puede predecir Y mucho mejor
2.13 El coeficiente de determinacin R2 67

usando la recta de regresin


b0 +
Ybi = b1 Xi

que sin conocer el valor de X, entonces las variables estn asociadas. Para
ello usaremos la descomposicin de la suma de cuadrados vista en la seccin
anterior. Por lo descripto all, la mejora en el ajuste a los datos conseguida
por la inclusin del modelo B resulta ser SSTo SSRes. Cunto de la va-
riabilidad total de las Y queda explicada por la regresin? Podemos plantear
la siguiente regla de tres simple:

100 % de variabilidad SSTo

% de variabilidad explicada SSTo SSRes

Luego el porcentaje de variabilidad explicada es


SSTo SSRes
100 %.
SSTo
A la cantidad
SSTo SSRes SSReg
=
SSTo SSTo
2
se la denomina R , o coeficiente de determinacin.
R2 nos dice qu proporcin de la variabilidad total en la variable Y puede
ser explicada por la variable regresora, en consecuencia es una medida de la
capacidad de prediccin del modelo.
R2 tambin puede verse como una medida de la fuerza de la asociacin
lineal entre X e Y . (Hacemos nfasis en la palabra lineal porque fue obtenido
bajo un modelo lineal).

2.13.1. Propiedades de R2
0 R2 1

No depende de las unidades de medicin.

Es el cuadrado del coeficiente de correlacin de Pearson para la muestra.

Mientras mayor es R2 mayor es la fuerza de la variable regresora (X)


para predecir la variable respuesta (Y ).

Mientras mayor sea R2 menor es la SSRes y por lo tanto, ms cercanos


estn los puntos a la recta.
68 Mara Eugenia Szretter

Toma el mismo valor cuando usamos a X para predecir a Y o cuando


usamos a Y para predecir a X.

Ejemplo 2.7 Para los datos de la regresin de permetro ceflico versus edad
gestacional vemos que
R2 = 0,6095
Este valor implica una relacin lineal moderadamente fuerte entre la edad
gestacional y el permetro ceflico. En particular, el 60,95 % de la variabilidad
observada en los valores de permetro ceflico queda explicada por la relacin
lineal entre el permetro ceflico y la edad gestacional. El restante

100 % 60,95 % = 39,05 %

de la variabilidad no queda explicada por esta relacin.

El R2 no se usa para testear hiptesis del modelo sino como una medida
de la capacidad predictiva de la relacin lineal ajustada.

2.14. Test F (otro test para H0 : 1 = 0)


A partir de la Tabla de ANOVA es posible derivar un test para H0 : 1 =
0.
En el contexto de regresin lineal simple ya hemos obtenido el test t que
resuelve este punto. El test F ser ms importante en Regresin Mltiple.
El razonamiento es el siguiente. Bajo los supuestos del modelo de regre-
sin, puede probarse que

1. La distribucin de muestreo de MSRes = SSRes/(n2) tiene esperanza


2.

2. La distribucin de muestreo de MSReg = SSReg/1 tiene esperanza


P 2
2 + 21 ni=1 Xi X .

Entonces, cuando H0 es verdadera ambos cuadrados medios (el residual y


el de regresin) deberan parecerse mucho, o su cociente debera parecerse a
uno, y cuando H0 no es cierta, el numerador tender a tomar valores mucho
ms grandes que el denominador. Por lo tanto, es razonable considerar el
estadstico
SSReg
MSReg 1 SSReg
F = = SSRes =
MSRes n2
SSRes/ (n 2)
2.14 Test F (otro test para H0 : 1 = 0) 69

como candidato para testear la hiptesis H0 : 1 = 0. Esperamos que F est


cerca de 1 (o sea menor a 1) si H0 es verdadera y que F sea mucho ms
grande cuando H0 es falsa.
Puede probarse que, bajo los supuestos del modelo lineal y cuando H0
es verdadera F tiene distribucin de Fisher con 1 grado de libertad en el
numerador y n 2 grados de libertad en el denominador. Por lo tanto, un
test de nivel para
H0 : 1 = 0
H1 : 1 6= 0
rechazar la hiptesis nula si el valor del estadstico observado Fobs cumple
que Fobs > F1,n2,1 . O cuando su p-valor es menor a , siendo p-valor
= P (F (1, n 2) > Fobs ) . Las dos ltimas columnas de la tabla de ANOVA
descripta en la Tabla 9 presenta estos valores.
Observacin 2.2 El test F que obtendremos aqu es el mismo que el test
t presentado en la Seccin 2.8 para testear la hiptesis H0 : 1 = 0, ya
que F se define como el cuadrado del estadstico empleado en el test t. Para
comprobarlo, observemos que a partir de la ecuacin que define a b0 (11)
tenemos
b0 = Y
b1 X.
Xn 2 X n 2
MSReg = SSReg = b
Yi Y = b0 +
b1 Xi Y
i=1 i=1
n
X n
2 X 2
= b b
Y 1 X + 1 Xi Y = b1 X +
b1 Xi
i=1 i=1
X
n
2
b2
= Xi X
1
i=1
SSRes
MSRes =
n2
Luego, si recordamos el estadstico T definido en las ecuaciones (20) para
testear la hiptesis de pendiente igual a cero, tenemos
b 0
b
b1

T =r 1 = 1 =r
b1 see1 SSRes/(n2)
Vd ar Sn 2
i=1 (Xi X )

y el estadstico F que resulta ser



MSReg b2 Pn Xi X 2 b2

1 i=1 1
F = = SSRes
= SSRes/(n2)
,
MSRes n2 Sn 2
i=1 (Xi X )
70 Mara Eugenia Szretter

vemos que
F = T2
y el p-valor del test t se calculaba

p valor = 2P (T |Tobs |) = P (T |Tobs | T |Tobs |)



= P (|T | |Tobs |) = P |T |2 |Tobs |2 = P T 2 Tobs
2

= P (F Fobs )

dando el mismo p-valor que el test de Fisher.

Ejemplo 2.8 Si miramos la tabla de ANOVA para el ejemplo de los 100


bebs (Figura 28), vemos que el estadstico del test F toma el valor

F = 152,947.

Su raz cuadrada es 152,947 = 12,367, que es el valor del estadstico T para
testear si la pendiente es o no nula, como vemos en la Figura 29.

Figura 29: Tabla de coeficientes estimados y tests t para el ejemplo de 100


bebs de bajo peso.
3. Diagnstico en Regresin 71

3. Diagnstico en Regresin
Las tcnicas del diagnstico en regresin se abocan a validar que los
supuestos realizados por el modelo sean apropiados para los datos con los
que se cuenta. Son realizadas a posteriori del ajuste (aunque filosficamente
se deberan realizar antes) y estn basadas en general en los residuos (o ver-
siones apropiadamente escaladas) de ellos. Constan principalmente de tcni-
cas grficas, aunque tambin en la exhibicin de algunas medidas de bondad
de ajuste. Si el modelo propuesto, una vez ajustado a los datos, no propor-
ciona residuos que parezcan razonables, entonces comenzamos a dudar de que
algun aspecto del modelo (o todos) sea apropiado para nuestros datos. Un
tema relacionado es asegurarse que la estimacin realizada no sea tremenda-
mente dependiente de un slo dato (o un pequeo subconjunto de datos) en
el sentido en que si no se contara con dicho dato las conclusiones del estudio
seran completamente diferentes. La identificacin de estos puntos influyentes
forma parte relevante del diagnstico (y de esta seccin).

3.1. Medidas de diagnstico


3.1.1. Leverage de una observacin

El valor predicho de un dato puede escribirse como combinacin lineal de


las observaciones
X
n
b b b
Yi = 0 + 1 Xi = hik Yk (27)
k=1

donde

1 Xi X Xk X
hik = +
n SXX
y como caso particular tenemos que
2
1 Xi X
hii = + . (28)
n SXX

Recordemos que hemos llamado SXX a la cantidad

X
n
2
SXX = Xk X .
k=1
72 Mara Eugenia Szretter

Vale que
X
n X
n
hik = 1, hik = 1 (29)
k=1 i=1
Xn
hii = 2
i=1
1 1
hii 1. (30)
n s
donde s es la cantidad de observaciones con predictor igual a Xi en la muestra.
La cantidad hii se denomina leverage del dato i-simo. Es una medida que
resume cun lejos cae el valor de Xi de la media muestral de las X. Mide,
de alguna manera, cunto es el aporte de la observacin isima a la varianza
muestral de las X (que es Sn1
XX
). La traduccin de leverage al castellano es
usualmente palanca, o influencia. Observemos que es un concepto que no
depende del valor Yi observado.

3.1.2. Residuos
Dijimos en la Seccin 2.7 que los residuos son cantidades observables,
que representan de alguna manera el correlato emprico de los errores. Para
verificar los supuestos del modelo lineal, suelen usarse mtodos grficos que
involucran a los residuos. El modelo lineal
Y = 0 + 1X +
supone que los errores tienen media poblacional cero y varianza constante
(que denominamos 2 ), y que son indendientes para distintas observaciones.
Sin embargo, ya hemos visto que no ocurre lo mismo con los residuos. Vimos
que los residuos no son independientes. Adems, puede probarse que
E (ei ) = 0
V ar (ei ) = 2 (1 hii ) (31)
2
(Xi X )
donde hii = n1 + SXX , el leverage de la observacin isima. En consecuencia
la varianza del residuo de un dato depende del valor de la covariable, y los
residuos de distintos casos tienen diferentes varianzas. De la ecuacin (31)
vemos que cunto mayor sea hii , menor ser la varianza del ei : mientras ms
cercano a uno sea hii ms cercana a cero ser la varianza del residuo de la
observacin isima. Esto quiere decir que para observaciones con gran hii ,
Ybi tender a estar cerca del valor observado Yi , sin importar cunto sea el
valor Yi observado. En el caso extremo e hipottico en que hii = 1, la recta
ajustada sera forzada a pasar por el valor observado (Xi , Yi ).
3.1 Medidas de diagnstico 73

3.1.3. Residuos estandarizados


Para hacer ms comparables a los residuos entre s, podemos dividir a
cada uno de ellos por un estimador de su desvo estndar, obteniendo lo que
se denominan residuos estandarizados:
ei
resti = q . (32)
b2 (1 hii )

Recordemos que el estimador de 2 bajo el modelo de regresin est dado


por
SSRes
b2 =

n2
Puede probarse que los residuos estandarizados tienen media poblacional cero
(igual que los residuos), e igual varianza poblacional igual a uno, es decir

E (resti ) = 0
V ar (resti ) = 1.

3.1.4. Los residuos cuando el modelo es correcto


Para chequear que los supuestos del modelo lineal son apropiados para un
conjunto de datos, suelen hacerse una serie de grficos. El ms importante es
el scatter plot de residuos versus la covariable. Esto se conoce como grfico
de residuos (o residual plot). En el caso de regresin lineal simple, los valores
ajustados o predichos Ybi representan un cambio de escala lineal respecto de
los valores Xi ya que Ybi = b0 +
b1 Xi . Luego, es equivalente al grfico recin
descripto el scatter plot de residuos versus los valores ajustados. Cmo debe
lucir este grfico si el modelo es correcto?

1. Puede probarse que E (e | X) = 0. Esto quiere decir que el scatter plot


de los residuos versus las X debe estar centrado alrededor del cero (de
la recta horizontal de altura cero).

2. Vimos que cuando el modelo es correcto, V ar (ei | X) = 2 (1 hii ) .


Luego el grfico de residuos versus la covariable debera mostrar mayor
variabilidad para los valores de X ms alejados de la media muestral
(sern los que tengan mayor leverage hii ). Por este motivo, suele ser
ms frecuente graficar los residuos estandarizados versus la covariable.
En ese caso, deberamos ver la misma variabilidad para los distintos
valores de la covariable.
74 Mara Eugenia Szretter

3. Los residuos de distintas observaciones estn correlacionados entre s,


pero esta correlacin no es muy importante, no ser visible en los gr-
ficos de residuos.

En resumen, si el modelo es correcto, el grfico de los residuos versus


predichos o versus la covariable debera lucir como una nube de puntos sin
estructura, ubicada alrededor del eje horizontal.

3.1.5. Los residuos cuando el modelo es incorrecto


En el caso en el que el modelo es incorrecto, el grfico de residuos (o de
residuos estandarizados) versus la variable predictora (o versus los valores
predichos) suele tener algn tipo de estructura. En la Figura 30 se ven varios
de estos posibles scatter plots (algo idealizados, claro).
El primero de ellos es una nube de puntos sin estructura que indica que
no hay problemas con el modelo ajustado. De las Figuras 30(b) a 30(d)
inferiramos que el supuesto de homogeneidad de varianzas no se satisface: la
varianza depende de la cantidad graficada en el eje horizontal. Las Figuras
30(e) a 30(h) son indicadoras de que se viola el supuesto de linealidad de la
esperanza condicional, lo cual nos lleva a pensar que el vnculo entre el valor
esperado de la variable respuesta Y y la covariable se ve mejor modelado
por una funcin ms complicada que la lineal (lo que genricamente suele
denominarse una curva). Las dos ltimas figuras, las 30(g) y 30(h) sugieren
la presencia simultnea de curvatura y varianza no constante.
En la prctica, los grficos de residuos no son tan claros como estos... Es
til recordar que an cuando todos los datos satisficieran todos los supuestos,
la variabilidad muestral podra hacer que el grfico tuviera pequeos apartamien-
tos de la imagen ideal.

3.1.6. Los residuos en el ejemplo


La Figura 31 muestra el grfico de residuos en el ejemplo de los 100 bebs
de bajo peso. Por ejemplo, el primer dato observado (i = 1) corresponde a
un beb de 29 semanas de gestacin cuyo permetro ceflico fue de 27 cm. El
valor predicho para este caso es

Yb1 = 3,9143 + 0,7801 29 = 26,537

y el residuo asociado a esa observacin es

e1 = Y1 Yb1 = 27 26,537 = 0,463,


3.1 Medidas de diagnstico 75

Figura 30: Grficos de residuos: (a) nube de datos sin estructura, (b) varianza
que crece con X (forma de megfono abierto a la derecha), (c) varianza que
decrece con X (forma de megfono abierto a la izquierda), (d) varianza que
depende de la covariable, (e)-(f) no linealidad, (g)-(h) combinacin de no
linealidad y funcin de varianza no constante. Fuente:[15] , pg. 172.

como ya habamos calculado. Luego, el punto (26,537,


0,463) ser incluido en
el grfico, que es un scatter plot de los puntos Ybi , ei para las 100 observa-
ciones de la muestra.
En l vemos que hay un residuo en particular que es un poco ms grande
que el resto: este punto corresponde a la observacin 31, que corresponde a
un beb cuya edad gestacional es de 31 semanas y cuyo permetro ceflico es
de 35 centmetros. De acuerdo al modelo, el valor predicho para su permetro
ceflico sera

Yb31 = 3,9143 + 0,7801 31 = 28,097


76 Mara Eugenia Szretter

un valor mucho menor que el observado, por lo tanto el residuo resulta grande

e31 = Y31 Yb31 = 35 28,097 = 6,903.

Podemos probar sacar este punto de la muestra, volver a realizar el ajuste


y luego comparar los dos modelos para medir el efecto del punto en la esti-
macin de los coeficientes de la recta. No lo haremos aqu puesto que en las
secciones subsiguientes propondremos otros modelos que ajustarn mejor a
nuestros datos. En cuanto al grfico de residuos, este no muestra evidencia
de que el supuesto de homoscedasticidad sea violado, o que haya algun tipo
de curvatura en el vnculo entre los residuos y los predichos.

Figura 31: Grfico de residuos versus valores ajustados para el ajuste lineal
de permetro ceflico en funcin de la edad gestacional, en el caso de los 100
bebs de bajo peso.

3.1.7. Cmo detectar (y resolver) la curvatura?


Para ayudarnos a decidir si un grfico de residuos corresponde (o no) a
una nube de puntos es posible hacer un test de curvatura. El ms difundido
3.1 Medidas de diagnstico 77

es el test de no aditividad de Tuckey, que no describiremos aqu. Sin embargo,


s diremos que un remedio posible al problema de la curvatura consiste en
transformar alguna de las variables X o Y (o ambas), y luego proponer un
modelo lineal para las variables transformadas. Hay tcnicas que ayudan a
decidir qu transformaciones de los datos pueden ser interesante investigar.
Las transformaciones de Box-Cox son las ms difundidas de estas tcnicas,
ver [6].
Otra posibilidad consiste en proponer modelos ms complejos que con-
templen un vnculo ms general entre X e Y, por ejemplo

E (Y | X) = 0 + 1 X + 2 X 2 .

Es posible estudiar estos modelos como un caso particular de los modelos


de regresin lineal, pero con dos covariables (X y X 2 ), lo cual nos lleva a
tratarlos dentro de los modelos de regresin mltiple, que presentaremos ms
adelante.

3.1.8. Qu hacer si la varianza no es constante?


En un grfico de residuos, una funcin de la varianza no constante puede
indicar que el supuesto de varianza constante es falso. Hay por lo menos cua-
tro remedios bsicos en este caso, que describiremos siguiendo a [15], Seccin
8.3. El primero es el uso de una transformacin estabilizadora de la varian-
za para transformar a las Y, ya que el reemplazo de Y por Y transf ormada
puede inducir varianza constante en la escala transformada. Una segunda op-
cin es encontrar los pesos que podran ser utilizados en los mnimos cuadra-
dos ponderados. El mtodo de mnimos cuadrados ponderados o pesados es
una tcnica estadstica que ataca una versin ms general del problema de
regresin que describimos hasta ahora. Lo presentamos a continuacin, en su
caso ms simple. Seguimos trabajando bajo el supuesto de linealidad de la
esperanza
E (Y | X = xi ) = 0 + 1 xi ,
pero ahora relajamos el supuesto de que la funcin de varianza V ar(Y | X)
sea la misma para todos los valores de X. Supongamos que podemos asumir
que
2
V ar (Y | X = xi ) = V ar (i ) =
wi
donde w1 , . . . , wn son nmeros positivos conocidos. La funcin de varianza
todava queda caracterizada por un nico parmetro desconocido 2 , pero las
varianzas pueden ser distintas para distintos casos. Esto nos lleva al mtodo
de mnimos cuadrados pesados o ponderados (en ingls weighted least squares,
78 Mara Eugenia Szretter

o wls) en vez del mtodo usual de mnimos cuadrados (ordinary least squares,
ols) para obtener estimadores. En este caso, se buscan los valores de los
parmetros que minimizan la funcin

X
n
gwls (a, b) = wi (Yi (a + bXi ))2 .
i=1

Existen expresiones explcitas para los parmetros estimados con este mto-
do, y los softwares ms difundidos realizan el ajuste. En las aplicaciones, por
supuesto, se agrega la complejidad extra de elegir los pesos wi que en gene-
ral no vienen con los datos. Muchas veces se usan pesos empricos, que se
deducen de algunos supuestos tericos que se tengan sobre las variables, por
ejemplo. Si hubiera replicaciones, es decir varias mediciones de la variable
respuesta realizadas para el mismo valor de la covariable, podra estimarse la
varianza dentro de cada grupo y conseguirse de este modo pesos aproxima-
dos. Tambin es posible usar modelos de mnimos cuadrados generalizados,
en los que se estiman simultneamente los parmetros del modelo y los pe-
sos, que exceden por mucho estas notas (consultar por ejemplo Pinheiro, J.
y Bates, D. (2000) [9], Seccin 5.1.2).
La tercera posibilidad es no hacer nada. Los estimadores de los parmet-
ros, ajustados considerando una funcin de varianza incorrecta o mal es-
pecificada, son de todos modos insesgados, aunque ineficientes. Los tests e
intervalos de confianza calculados con la funcin de varianza errada sern
inexactos, pero se puede recurrir a mtodos de bootstrapping para obtener
resultados ms precisos.
La ltima opcin es usar modelos de regresin que contemplan la posi-
bilidad de una funcin de varianza no constante que dependa de la media.
Estos modelos se denominan modelos lineales generalizados, de los cuales por
ejemplo, los modelos de regresin logstica forman parte. Puede consultarse
el texto clsico McCullagh y Nelder, (1989) [7] y tambin el libro de Weisberg
(2005) [15], Seccin 8.3 y Seccin 12.

3.1.9. Cmo validamos la independencia?


Si las observaciones con las que contamos fueron producto de haber toma-
do una muestra aleatoria de sujetos de alguna poblacin, entonces en princi-
pio, tendremos observaciones independientes. Algunas situaciones en las que
este supuesto puede fallar se describen a continuacin.
Los estudios en los cuales los datos se recolectan secuencialmente pueden
dar lugar a observaciones que no resulten independientes. Lo mismo puede
suceder en las determinaciones de laboratorio hechas secuencialmente en el
3.1 Medidas de diagnstico 79

tiempo, ya que pueden mostrar un cierto patrn, dependiendo de cmo fun-


cionan los equipos, los observadores, etc. El modo de deteccin de estas situa-
ciones suele ser graficar los residuos versus la secuencia temporal en la que
fueron relevados.
Si los datos fueron obtenidos por dos observadores distintos A y B, po-
dramos esperar que las observaciones de un observador tiendan a parecerse
ms entre ellas. La manera de detectar que esto sucede es graficar las Y
versus las X identificando los puntos de cada grupo. En ocasiones, la varia-
bilidad debida a la regresin puede ser explicada por la pertenencia al grupo.
Tampoco sern independientes las observaciones si varias de ellas fueron re-
alizadas sobre los mismos sujetos (o animales). Si este fuera el caso, puede
considerarse un modelo de regresin mltiple donde el operador (o el suje-
to) entre como covariable. Nos ocuparemos de discutir esto ms adelante, ya
que los modelos correctos para este tipo de situaciones son los modelos de
ANOVA con efectos aleatorios, o los modelos de efectos mixtos, que exceden
el contenido de estas notas. Ver para ello, el libro de Pinheiro, J. y Bates, D.
(2000) [9].

3.1.10. Cmo validamos la normalidad?

El supuesto de normalidad de los errores juega un rol menor en el anlisis


de regresin. Es necesario para realizar inferencias en el caso de muestras
pequeas, aunque los mtodos de bootstrap (o resampleo) pueden usarse
si este supuesto no est presente. El problema con las muestras pequeas
es que chequear el supuesto de normalidad a travs de los residuos cuando
no hay muchas observaciones es muy difcil. Los grficos cuantil cuantil de
los residuos (qq-plots) y los tests de normalidad realizados sobre ellos pueden
ayudar en esta tarea. Hay varios tests posibles que ayudan a descartar la nor-
malidad, entre ellos el test de Shapiro-Wilks (que est esencialmente basado
en el cuadrado de la correlacin entre las observaciones ordenadas y sus val-
ores esperados bajo normalidad), o el test de Kolmogorov-Smirnov, que estn
implementados en los paquetes.
En la prctica los supuestos de normalidad y homoscedasticidad nunca se
cumplen exactamente. Sin embargo, mientras ms cerca estn nuestros datos
de los supuestos del modelo lineal, ms apropiados sern los tests e intervalos
de confianza que construyamos.
Para muestras grandes el supuesto de distribucin normal no es crucial.
Una versin extendida del Teorema Central del Lmite dice que el estimador
de mnimos cuadrados de la pendiente tiene distribucin de muestreo apro-
ximadamente normal cuando n es grande.
80 Mara Eugenia Szretter

3.2. Outliers y observaciones influyentes


3.2.1. Outliers
En algunos problemas, la respuesta observada para algunos pocos casos
puede parecer no seguir el modelo que s ajusta bien a la gran mayora de
los datos. Un ejemplo (de datos ficticios) puede verse en el scatter plot de la
Figura 32. Los datos de este ejemplo sugieren que el modelo lineal puede ser
correcto para la mayora de los datos, pero uno de los casos est muy alejado
de lo que el modelo ajustado le prescribe. Diremos que este dato alejado es
un outlier. Observemos que el concepto de outlier (o sea, dato atpico) es
un concepto relativo al modelo especfico en consideracin. Si se modifica
la forma del modelo propuesto a los datos, la condicin de ser outlier de
un caso individual puede modificarse. O sea, un outlier es un caso que no
sigue el mismo modelo que el resto de los datos. La identificacin de estos
casos puede ser til. Por qu? Porque el mtodo de cuadrados mnimos es
muy sensible a observaciones alejadas del resto de los datos. De hecho, las
observaciones que caigan lejos de la tendencia del resto de los datos pueden
modificar sustancialmente la estimacin.

Figura 32: Datos hipotticos que muestran el desajuste de una observacin


al modelo ajustado.

3.2.2. Un test para encontrar outliers


Si sospechamos que la observacin isima es un outlier podemos proceder
del siguiente modo. Este procedimiento es clsico dentro de la regresin y
corresponde a muchos otros procedimientos en estadstica que son genrica-
mente conocidos como tcnicas leave one out procedures.

1. Eliminamos esa observacin de la muestra, de modo que ahora tenemos


una muestra con n 1 casos.
3.2 Outliers y observaciones influyentes 81

2. Usando el conjunto de datos reducidos volvemos a estimar los parmet-


b0(i) ,
ros, obteniendo b1(i) y
b2(i) donde el subndice (i) est escrito para
recordarnos que los parmetros fueron estimados sin usar la isima ob-
servacin.

3. Para el caso omitido, calculamos el valor ajustado Ybi(i) = b0(i) +


b1(i) Xi .
Como el caso isimo no fue usado en la estimacin de los parmetros,
Yi y Ybi(i) son independientes. La varianza de Yi Ybi(i) puede calcularse
y es estima usando b2(i) .

4. Escribamos
Yi Ybi(i)
ti = r ,
Vd
ar Yi Ybi(i)

la versin estandarizada del estadstico en consideracin. Si la obser-


vacin isima sigue el modelo, entonces la esperanza de Yi Ybi(i) debera
ser cero. Si no lo sigue, ser un valor no nulo. Luego, si llamamos a
la esperanza poblacional de esa resta, = E Yi Ybi(i) , y asumimos
normalidad de los errores, puede probarse que la distribucin de ti bajo
la hiptesis H0 : = 0 es una t de Student con n 3 grados de libertad,
ti tn3 (recordar que hemos excluido una observacin para el clculo
del error estndar que figura en el denominador, por eso tenemos un
grado de libertad menos que con los anteriores tests), y rechazar cuando
este valor sea demasiado grande o demasiado pequeo.

Hay una frmula computacionalmente sencilla para expresar a ti sin necesi-


dad de reajustar el modelo lineal con un dato menos, ya que es fcil escribir
al desvo estndar estimado sin la observacin isima b(i) en trminos del
leverage de la observacin isima (hii ) y el desvo estndar estimado con toda
la muestra (b ). Es la siguiente
r
ei n3
ti = = resti (33)
b(i) 1 hii
n 2 resti

donde el residuo estadarizado resti lo definimos en la ecuacin (32). Esta


cantidad se denomina el residuo estudentizado isimo. La ecuacin (33)
nos dice que los residuos estudentizados y los residuos estandarizados llevan
la misma informacin, ya que pueden ser calculados uno en funcin de otro.
Vemos entonces que para calcular los residuos estudentizados no es necesario
descartar el caso isimo y volver a ajustar la regresin (cosa que tampoco
nos preocupara mucho ya que es la computadora la que realiza este trabajo).
82 Mara Eugenia Szretter

Los residuos estudentizados son el modo ms robusto para evaluar si una


observacin tiene un residuo inusualmente grande.
Para completar el test, nos queda nicamente decidir contra qu valor
comparar el ti para decidir si la isima observacin es o no un outlier. Si
el investigador sospecha de antemano a realizar el ajuste que la observacin
isima es un outlier lo justo sera comparar el valor absoluto de ti con el
percentil 1 2 de la t de student con n 3 grados de libertad. Pero es rara
la ocasin en la que se sospecha de un dato antes de hacer el anlisis. Si
lo que el analista hace es hacer el ajuste, luego computar los residuos estu-
dentizados, y sospechar de aquella observacin con mayor valor absoluto de
ti , entonces en el fondo est realizando n tests de significatividad, uno para
cada observacin. Para tener controlada la probabilidad de cometer un error
de tipo I en alguno de los n tests (es decir, decidir falsamente que una obser-
vacin que en realidad no es outlier sea declarada como tal), puede usarse un
procedimiento conservativo conocido como mtodo de Bonferroni para com-
paraciones mltiples. Este procedimiento propone rechazar H0 :ninguna de
las n observaciones es un outlier, cuando alguno de los |ti | es mayor que el

percentil 1 2n de la tn3 . Por ejemplo, si n = 20 (pensamos en una muestra
con 20 observaciones) y nivel simultneo 0,05, entonces en vez de comparar
con el percentil 0,975 de una t17 que es 2,11, la comparacin correcta es con

el percentil 1 2n = 1 0,05
220
= 0,99875 de una t17 que es 3,543.
Apliquemos este test al ejemplo de los bebs de bajo peso

Ejemplo 3.1 En el caso de los 100 bebs, para detectar outliers a nivel 0,05
debemos computar el residuo estudentizado para cada caso, y compararlo con
el percentil
0,05
1 =1 = 0,99975
2n 2 100
de una t97 , que resulta ser 3,602. El nico residuo estudentizado cuyo valor
absoluto sobrepasa este punto de corte es el correspondiente a la observacin
31, que es 4,857. En la Figura 33 pueden verse los boxplots de los residuos,
los residuos estandarizados y los residuos estudentizados para el ajuste de
permetro ceflico en funcin de la edad gestacional.

Este test ubica un outlier, pero no nos dice qu hacer con l. Cuando
detectamos un outlier, sobre todo si es severo, es importante investigarlo.
Puede tratarse de un dato mal registrado, o que fue mal transcripto a la base
de datos. En tal caso podremos eliminar el outlier (o corregirlo) y analizar
los casos restantes. Pero si el dato es correcto, quizs sea diferente de las
otras observaciones y encontrar las causas de este fenmeno puede llegar a
ser la parte ms interesante del anlisis. Todo esto depende del contexto del
3.2 Outliers y observaciones influyentes 83

Figura 33: Los boxplots de los residuos, los residuos estandarizados y los
residuos estudentizados para el ajuste de permetro ceflico en funcin de la
edad gestacional en el ejemplo.

problema que uno est estudiando. Si el dato es correcto y no hay razones


para excluirlo del anlisis entonces la estimacin de los parmetros debera
hacerse con un mtodo robusto, que a diferencia de mnimos cuadrados, no
es tan sensible a observaciones alejadas de los dems datos. Algo ya comen-
tamos sobre ajustes robustos en la Observacin 2.1, ya que los mtodos all
comentados son robustos, es decir, son muy poco sensibles a datos atpicos.

3.2.3. Observaciones influyentes


La idea general de analizar la influencia de las observaciones es estudiar
los cambios en el anlisis cuando se omiten uno o ms datos, siempre una
pequea porcin de los datos disponibles. La idea es descubrir los efectos o la
influencia que tiene cada caso en particular comparando el ajuste obtenido
con toda la muestra con el ajuste obtenido sin ese caso particular (o sin esos
pocos casos particulares). Una observacin se denomina influyente si al
excluirla de nuestro conjunto de datos la recta de regresin estimada cambia
notablemente. Ejemplificaremos los conceptos en forma grfica.
En la Figura 34 se observan scatter plots de cuatro conjuntos de 18 datos
cada uno. En el grfico (1), el conjunto de datos no presenta ni puntos in-
84 Mara Eugenia Szretter

fluyentes ni outliers, ya que todas las observaciones siguen el mismo patrn.


En los restantes tres grficos se conservaron 17 de las observaciones del gr-
fico (1) y se intercambi una de ellas por los puntos que aparecen indicados
como A, B y C en los respectivos scatter plots, y que son puntos atpicos en
algun sentido, es decir, puntos que no siguen el patrn general de los datos.
No todos los casos extremos tendrn una fuerte influencia en el ajuste de la
recta de regresin.

En el grfico (2) entre las observaciones figura la indicada con A. El


caso A puede no ser muy influyente, ya que hay muchos otros datos en la
muestra con valores similares de X que evitarn que la funcin de regresin
se desplace demasiado lejos siguiendo al caso A. Por otro lado, los casos B y
C ejercern una influencia muy grande en el ajuste, ya que como vimos en
las Secciones 3.1.1 y 3.1.2 el leverage de ambas ser bastante alto. Mientras
mayor sea el leverage de la observacin, menor ser la variabilidad del residuo,
esto quiere decir que para observaciones con gran leverage, el valor predicho
tendr que estar cerca del valor observado. Esto es lo que se dice que tienen
un alto grado de apalancamiento, o que cada uno de ellos es un punto de
alta palanca. Luego la recta ajustada se ver obligada a acercarse a dichas
observaciones.

En el grfico (3) figura la observacin B. Esta observacin ser influyente


en el ajuste, pero como sigue el patrn lineal de los datos (o sea, sigue la
estructura de esperanza condicional de Y cuando X es conocida que tienen
el resto de los datos) no har que la recta estimada cuando el punto est en la
muestra vare mucho respecto de la recta estimada en la situacin en la que
no est, pero reforzar (quiz artificialmente) la fuerza del ajuste observado:
reforzar la significatividad de los tests que se hagan sobre los parmetros.

El grfico (4) presenta la observacin C. Esta observacin ser muy in-


fluyente en el ajuste, arrastrando a la recta estimada a acercarse a ella. Como
no sigue la misma estructura de esperanza condicional que el resto de las ob-
servaciones, la recta ajustada en este caso diferir mucho de la que se ajusta
a los datos del grfico (1). Sin embargo, si una vez realizado el ajuste inten-
tamos identificar este punto mirando las observaciones de mayores residuos
(o residuos estandarizados) es posible que no la detectemos (depender de
cun extrema sea) ya que al arrastrar la recta hacia ella, tendr un residuo
mucho menor que el que tendra si usramos la recta que ajusta a los datos
del grfico (1).
3.2 Outliers y observaciones influyentes 85

Figura 34: Scatter plot de 4 conjuntos de datos (hay 18 observaciones en cada


uno): El grfico (1) no presenta ni puntos influyentes ni outliers, (2) entre las
observaciones figura la indicada con A, que es un outlier, no muy influyente,
(3) en este grfico figura la observacin B, influyente pero no outlier, (4) en
este grfico figura la observacin C, simultneamente influyente y atpica.

Constatemos que lo afirmado antes es cierto, buscando la recta que mejor


ajusta a cada conjunto de datos, por mnimos cuadrados. A continuacin figu-
ran las salidas del R a los 4 ajustes, y en la Figura 35 nuevamente los scatter
plots de los cuatro conjuntos de datos, con las rectas ajustadas superpuestas.

Grfico (1)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.4063 2.0364 3.146 0.00625
pendiente 2.3987 0.3038 7.895 6.58e-07
86 Mara Eugenia Szretter

Residual standard error: 2.899 on 16 degrees of freedom


Multiple R-squared: 0.7957, Adjusted R-squared: 0.783
F-statistic: 62.33 on 1 and 16 DF, p-value: 6.579e-07

Grfico (2)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.8387 3.6856 2.127 0.049338
pendiente 2.3281 0.5469 4.257 0.000602

Residual standard error: 5.184 on 16 degrees of freedom


Multiple R-squared: 0.5311, Adjusted R-squared: 0.5018
F-statistic: 18.12 on 1 and 16 DF, p-value: 0.000602

Grfico (3)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.2614 1.7778 3.522 0.00283
pendiente 2.4242 0.2412 10.049 2.57e-08

Residual standard error: 2.9 on 16 degrees of freedom


Multiple R-squared: 0.8632, Adjusted R-squared: 0.8547
F-statistic: 101 on 1 and 16 DF, p-value: 2.566e-08

Grfico (4)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 17.8872 3.8042 4.702 0.00024
pendiente 0.4471 0.4933 0.906 0.37823

Residual standard error: 6.91 on 16 degrees of freedom


Multiple R-squared: 0.04883, Adjusted R-squared: -0.01062
F-statistic: 0.8214 on 1 and 16 DF, p-value: 0.3782
3.2 Outliers y observaciones influyentes 87

Figura 35: Nuevamente los scatter plots de los 4 conjunto de datos, esta vez
con las rectas ajustadas.

Una vez realizado el ajuste vemos que se verifica lo anticipado. Las pen-
dientes de las rectas estimadas en los 3 primeros grficos no difieren de-
masiado entre s, en el grfico (2) la ordenada al origen es mayor ya que la
observacin A est ubicada muy por encima de los datos. La recta estimada
en (3) pasa casi exactamente por el dato B y la significatividad del test para
la pendiente aumenta en este caso, comparada con la del grfico (1). Adems
tambin se incrementa el R cuadrado, que pasa de 0,79 en (1) a 0,86 en (3).
En el grfico (4) vemos que la recta ajustada difiere completamente de la
recta estimada para el conjunto (1), de hecho la pendiente que era significa-
tiva para los datos del grfico (1) deja de serlo en este caso. Vemos que la
observacin C arrastr la recta hacia ella.
Una observacin ms que habra que hacer con respecto a la influencia es
que en este caso hemos presentado un ejemplo muy sencillo donde para cada
conjunto de datos hay un slo dato sospechoso. En las situaciones prcticas,
cuando hay ms de un dato anmalo en un conjunto de datos, esta presencia
simultnea puede enmascararse: la tcnica de sacar las observaciones de a
88 Mara Eugenia Szretter

una muchas veces no logra detectar los problemas. En regresin simple nos
salva un poco el hecho de que podemos graficar muy bien los datos. No ser
esta la situacin en regresin mltiple, por lo que se vuelve importante tener
medidas cuantitativas que permitan medir el grado de influencia (al menos
potencial) que tiene cada dato en un conjunto de datos.
Observacin 3.1 Si uno ajustara una recta usando un procedimiento de
ajuste robusto, por ejemplo un M-estimador de regresin con la funcin de
penalizacin conocida con el nombre de rho de Huber, presentada en la Ob-
servacin 2.1 (rutina rlm en el paquete R) para los datos (4) obtendramos
la salida que figura a continuacin. En ella vemos que los valores de la pendi-
ente y ordenada al origen estimados resultan ser muy parecidos a los que se
obtienen al ajustar por el mtodo de mnimos cuadrados a los datos (1). La
dificultad con los mtodos robustos de ajuste yace en que no es fcil hallar los
p-valores para medir la significatividad de los tests. Pero vemos que en cuanto
a la estimacin el mtodo robusto prcticamente ignora a la observacin C
que estaba distorsionando el ajuste. Y que esto lo hace automticamente, sin
que tengamos que informarle que se trata de una observacin potencialmente
problemtica.

Coefficients:
Value Std. Error t value
(Intercept) 6.7147 1.9674 3.4130
pendiente 2.3271 0.2935 7.9282

Residual standard error: 2.208 on 16 degrees of freedom

3.2.4. Cmo medir la influencia de una observacin?


Tenemos dos medidas de influencia: el leverage y las distancias de Cook.
El leverage lo definimos en la Seccin 3.1.1. Pero cabe preguntarse cuan
grande debe ser el leverage de una observacin para declararla influyente. Se
han sugerido diferentes criterios:
P
Teniendo en cuenta que ni=1 hii = 2 y por lo tanto el promedio h = n2 ,
un criterio es considerar potencialmente influyentes las observaciones
con hii > n4 .
Otro criterio es declarar potencialmente influyentes aquellas observa-
ciones cuyos leverages hii que cumplen hii > 0,5 y evaluar o inspec-
cionar adems los casos en que 0,2 < hii 0,5.
3.2 Outliers y observaciones influyentes 89

Mirar la distribucin de los hi en la muestra, en especial si existen saltos


en los valores de leverage de las observaciones. El modo ms simple de
hacerlo es a travs de un box-plot o un histograma.

En la Figura 36 est el boxplot y el histograma de los leverage calculados


para los datos del grfico (4). Hay un nico dato con un leverage alto. Ob-
servemos que si hiciramos lo mismo para los datos (3) obtendramos algo
muy parecido, ya que el leverage slo depende de los valores de la covariable
(y no de la variable respuesta). En ese sentido es una medida de influencia
potencial de los datos. Los leverages para los restantes conjuntos de datos
pueden verse en la Figura 37.

Figura 36: Boxplot e histograma para los leverage de los datos (4) graficados
en la Figura 34.

La influencia de una observacin depende de dos factores:

1. Cun lejos cae el valor de Y de la tendencia general en la muestra para


ese valor de X.
2. Cun lejos se encuentra el valor de la variable explicativa de su media.

El leverage slo recaba informacin de la situacin descripta en 2). Una


medida que toma en cuenta ambas facetas de una observacin es la Distancia
de Cook, definida por 2
Yb(i)i Ybi
Di = ,
2b2
90 Mara Eugenia Szretter

Figura 37: Histogramas de los leverage para los cuatro conjuntos de datos
graficados en la Figura 34.

donde Yb(i) corresponde al valor predicho para la isima observacin si se us-


aron las n 1 restantes observaciones para hacer el ajuste, como lo habamos
definido en la Seccin 3.2.2 y Ybi es el valor predicho para la isima obser-
vacin en el modelo ajustado con las n observaciones. Como en el caso de
los residuos estudentizados, no es necesario recalcular el ajuste por mnimos
cuadrados para calcular los Di , ya que otra expresin para ellos es la siguiente
1 hii
Di = (resti )2 .
2 1 hii
La distancia de Cook se compara con los percentiles de la distribucin
F de Fisher con 2 y n 2 grados de libertad en el numerador y denomi-
nador, respectivamente (2 porque estamos estimando dos parmetros beta).
El criterio para decidir si una observacin es influyente es el siguiente:

Si Di < percentil 0,20 de la distribucin F2,n2 entonces la observacin


no es influyente.
3.2 Outliers y observaciones influyentes 91

Si Di > percentil 0,50 de la distribucin F2,n2 entonces la observacin


es muy influyente y requerir tomar alguna medida.
Si Di se encuentra entre el percentil 0,20 y el percentil 0,50 de la dis-
tribucin F2,n2 se sugiere mirar adems otros estadsticos.
Volviendo a los datos de la Figura 34, el percentil 0,20 de la distribucin
F2,16 es 0,226 y el percentil 0,50 de la distribucin F2,16 es 0,724. Los histogra-
mas de las distancias de Cook calculadas en este caso estn en la Figura 38.
Vemos que slo en el caso de los datos (4) aparece una observacin (la C)
cuya distancia de Cook supera al percentil 0,50 de la distribucin de Fisher,
indicando que hay una observacin muy influyente.

Figura 38: Histogramas de las distancias de Cook para los datos de la Figura
34

Existen otras medidas de influencia. Los DFfits y los DFbetas son me-
didas bastante estudiadas. Una referencia para leer sobre ellos es el libro de
Neter [6]. Los grficos de variables agregadas (en el caso de regresin mlti-
ple) pueden servir tambin para identificar observaciones influyentes, pueden
verse en [15] secciones 3.1 y 9.2.4 o [6] seccin 10.
92 Mara Eugenia Szretter

Ejercicio 3.2 Hacer el ejercicio domiciliario (sobre datos de galletitas), que


figura en el Apndice A.

Ejercicio 3.3 Hacer los ejercicios del Taller 2, de medidas de diagnstico


para regresin lineal simple que figuran en el Apndice A.
4. Regresin Lineal Mltiple 93

4. Regresin Lineal Mltiple


El modelo de regresin lineal mltiple es uno de los modelos ms utilizados
entre todos los modelos estadsticos.
En la mayora de las situaciones prcticas en las que se quiere explicar una
variable continua Y se dispone de muchas potenciales variables predictoras.
El modelo de regresin lineal simple (es decir, con una sola variable predic-
tora) provee una descripcin inadecuada de la respuesta ya que en general
son muchas las variables que ayudan a explicar la respuesta y la afectan de
formas distintas e importantes. Ms an, en general estos modelos suelen ser
muy imprecisos como para ser tiles (tienen mucha variabilidad). Entonces
es necesario trabajar con modelos ms complejos, que contengan variables
predictoras adicionales, para proporcionar predicciones ms precisas y colab-
orar en la cuantificacin del vnculo entre ellas. En este sentido, el modelo
de regresin mltiple es una extensin natural del modelo de regresin lineal
simple, aunque presenta caractersticas propias que es de inters estudiar en
detalle.
El modelo de regresin mltiple se puede utilizar tanto para datos obser-
vacionales como para estudios controlados a partir de ensayos aleatorizados
o experimentales.

4.1. El modelo
La regresin mltiple es un modelo para la esperanza de una variable
continua Y cuando se conocen variables explicativas o predictoras que de-
notaremos X1 , X2 , . . . , Xp1 . Antes de formularlo en general, describiremos
a modo ilustrativo la situacin en la que se tienen dos variables predictoras
(i.e. p = 3). En este caso, proponemos el siguiente modelo para la esperanza
condicional de Y dado X1 y X2
E (Y | X1 , X2 ) = 0 + 1 X1 + 2 X2 (34)
donde 0 , 1 , 2 son constantes desconocidas que se denominan parmetros
del modelo, o coeficientes de la ecuacin. Muchas veces, por simplicidad,
escribiremos E (Y ) en vez de E (Y | X1 , X2 ) . El modelo se denomina lineal
puesto que la esperanza de Y condicional a las Xs depende linealmente de
las covariables X1 y X2 . Los coeficientes del modelo se estiman a partir de
una muestra aleatoria de n observaciones (Xi1 , Xi2 , Yi ) con 1 i n, donde
Yi es la variable respuesta medida en el isimo individuo (o isima repeticin
o isima unidad experimental, segn el caso), Xi1 y Xi2 son los valores de
las variables predictoras en el isimo individuo (o isima repeticin o isima
unidad experimental, segn el caso). Una manera alternativa de escribir el
94 Mara Eugenia Szretter

modelo (34) en trminos de las variables (en vez de sus valores esperados) es
la siguiente
Yi = 0 + 1 Xi1 + 2 Xi2 + i , (35)
donde i es el trmino del error para el individuo isimo, que no es observable.
A la ecuacin (34) se la suele llamar funcin de respuesta. En analoga con la
regresin lineal simple donde la funcin E (Y | X) = 0 + 1 X1 es una recta,
la funcin de regresin (34) es un plano. En la siguiente figura se representa
una porcin de la funcin de respuesta

E (Y | X1 , X2 ) = 10 + 2X1 + 5X2 . (36)

Por supuesto, la nica situacin en la que podemos graficar es cuando p 3


(dos o menos variables explicativas), es por eso que hemos comenzado con
este caso.

Figura 39: En regresin lineal con dos variables explicativas la funcin de


respuesta es un plano. Fuente [6], pg. 215.

Observemos que cualquier punto de la Figura 39 corresponde a una re-


spuesta media E (Y ) para una combinacin dada de X1 y X2 . La Figura 39
tambin muestra una observacin Yi correspondientes a los niveles (Xi1 , Xi2 )
de las dos variables predictoras. El segmento vertical entre Yi y el grfico
4.2 Significado de los coeficientes de regresin 95

de la funcin (el plano) de respuesta representa la diferencia entre Yi y la


media E (Yi ) = E (Yi | Xi1 , Xi2 ) de la distribucin de probabilidad de Y para
la combinacin de (Xi1 , Xi2 ). Por lo tanto, la distancia vertical entre Yi y
el plano de respuesta representa el trmino de error i = Yi E (Yi ). En
regresin lineal mltiple, a la funcin de respuesta tambin suele llamrsela
superficie de regresin o superficie de respuesta.

4.2. Significado de los coeficientes de regresin


Consideremos ahora el significado de los coeficientes en la funcin de re-
gresin mltiple (35). El parmetro 0 es el intercept u ordenada al origen
del plano. Si dentro de los valores que estamos ajustando el modelo, se en-
cuentra incluido el punto X1 = 0, X2 = 0, el origen de coordenadas, entonces
0 representa la respuesta media E (Y ) en X1 = 0, X2 = 0. De lo contrario,
0 no tiene ningn significado en particular como un trmino separado del
modelo de regresin.
El parmetro 1 indica el cambio en la respuesta media E (Y ) cuando
aumentamos a X1 en una unidad, manteniendo a X2 constante (en cualquier
valor). Del mismo modo, 2 indica el cambio en la respuesta media E (Y )
cuando aumentamos a X2 en una unidad, manteniendo a X1 constante. En
el ejemplo (36) graficado, supongamos que fijamos X2 en el nivel X2 = 3. La
funcin de regresin (36) ahora es la siguiente:

E (Y ) = 10 + 2X1 + 5(3) = 25 + 2X1 , X2 = 3.


Notemos que esta funcin de respuesta es una lnea recta con pendiente
1 = 2. Lo mismo es cierto para cualquier otro valor de X2 ; slo el
intercept de la funcin de respuesta ser diferente. Por lo tanto, 1 = 2 indica
que la respuesta media E (Y ) aumenta en 2 unidades, cuando se produce un
incremento unitario en X1 , cuando X2 se mantiene constante, sin importar
el nivel de X2 .
Del mismo modo, 1 = 5, en la funcin de regresin (36) indica que la
respuesta media E (Y ) se incrementa en 5 unidades, cuando se produce un
incremento unitario en X2 , siempre que X1 se mantenga constante.
Cuando el efecto de X1 en la respuesta media no depende del nivel de
X2 , y adems el efecto de X2 no depende del nivel de X1 , se dice que las dos
variables predictoras tienen efectos aditivos o no interactuan. Por lo tanto,
el modelo de regresin tal como est propuesto en (34) est diseado para
las variables predictoras cuyos efectos sobre la respuesta media son aditivos.
Los parmetros 1 y 2 a veces se llaman coeficientes de regresin parcial
porque reflejan el efecto parcial de una variable de prediccin cuando la otra
96 Mara Eugenia Szretter

variable predictora es incluida en el modelo y se mantiene constante.


Observacin 4.1 El modelo de regresin para el que la superficie de re-
spuesta es un plano puede ser utilizado tanto porque se crea que modela la
verdadera relacin entre las variables, o como una aproximacin a una super-
ficie de respuesta ms compleja. Muchas superficies de respuesta complejas
se pueden aproximar razonablemente bien por planos para valores limitados
de las covariables X1 y X2 .

4.3. Modelo de Regresin Lineal Mltiple


El modelo de regresin lineal mltiple es un modelo para la variable
aleatoria Y cuando se conocen X1 , X2 , . . . , Xp1 las variables regresoras. El
modelo es
Yi = 0 + 1 Xi1 + 2 Xi2 + + p1 Xip1 + i , (37)
donde 0 , 1 , . . . , p1 son parmetros (es decir, nmeros) desconocidos, Xi1 ,
Xi2 , . . . , Xip1 son los valores de las variables predictoras medidas en el isimo
individuo (o isima repeticin del experimento o isima unidad experimental,
segn el caso) con 1 i n, n es el tamao de muestra, Yi es la variable
respuesta medida en el isimo individuo (observado) y i es el error para el
individuo isimo, que no es observable. Haremos supuestos sobre ellos:

i N 0, 2 , 1 i n, independientes entre s. (38)
Es decir,
- los i tienen media cero, E (i ) = 0.
- los i tienen todos la misma varianza desconocida que llamaremos 2
y que es el otro parmetro del modelo, V ar (i ) = 2 .
- los i tienen distribucin normal.
- los i son independientes entre s, e independientes de las covariables
Xi1 , Xi2 , . . . , Xip1 .
Si definimos Xi0 = 1 para todo i, podemos escribir a (37) de la siguiente
forma equivalente
Yi = 0 Xi0 + 1 Xi1 + 2 Xi2 + + p1 Xip1 + i
p1
X
= j Xij + i
j=0
4.3 Modelo de Regresin Lineal Mltiple 97

Observemos que del hecho de que los i son independientes y tienen dis-
2
tribucin
P N (0, ) y de (37) se deduce que, condicional a X1 , . . . , Xp1 , Yi
p1 2
N j=0 j Xij , independientes entre s. Tomando esperanza (condicional)
en (37) obtenemos
E (Y | X1 , ..., Xp1 ) = 0 + 1 X1 + 2 X2 + + p1 Xp1 ,
que es una manera alternativa de escribir el modelo (37). Las variables pre-
dictoras pueden ser acomodadas para contemplar una serie de situaciones
cuyo tratamiento iremos desarrollando a lo largo del curso. Esencialmente
pueden ser
- variables continuas, y todas distintas. En la Seccin 4.7 veremos un
ejemplo de dos continuas.
- variables categricas o cualitativas, en la Seccin 4.12 veremos varios
ejemplos donde aparecern categricas de dos categoras, que se suelen
denominar binarias o dicotmicas o dummies, o de ms de dos cate-
goras.
- variables continuas, algunas representando potencias de otras. A esta
situacin se le suele llamar regresin polinomial.
- variables continuas, pero aparecen en el modelo transformaciones de
las originales.
- variables modelando efectos de interaccin entre dos o ms variables,
continuas o categricas (ver Secciones 4.15 y 4.17).
- combinaciones de algunos o de todos los casos anteriores.

Observacin 4.2 Como ya dijimos en el caso p = 3, el trmino lineal en


modelo lineal se refiere al hecho de que el modelo (37) es lineal en las co-
variables X1 , . . . , Xp1 que no tienen porqu ser las variables originalmente
observadas para cada individuo o para cada repeticin del experimento, pu-
diendo ser una transformacin o recodificacin o combinacin de ellas. Un
ejemplo de modelo no lineal es el siguiente
Yi = 0 exp ( 1 Xi ) + i
puesto que no puede expresarse de la forma (37). Varios libros tratan el tema
de regresin no lineal, por ejemplo [6], parte III.
98 Mara Eugenia Szretter

4.4. Modelo de Regresin Lineal en notacin matricial


Ahora presentaremos el modelo (37) en notacin matricial. Es una notable
propiedad del lgebra de matrices el hecho de que tanto la presentacin del
modelo como los resultados del ajuste del modelo de regresin lineal mltiple
(37) escrito en forma matricial tienen el mismo aspecto (la misma forma) que
los que ya vimos para regresin lineal simple. Slo cambian algunos grados
de libertad y algunas constantes.
Enfatizamos en la notacin matricial puesto que ste es el tratamiento
estndar del tema, y adems porque refleja los conceptos esenciales en el
ajuste del modelo. Nosotros no calcularemos nada, las cuentas las hace la
computadora.
Para expresar el modelo (37) de forma matricial definimos las siguientes
matrices

Y1 1 X11 X12 X1,p1
Y2 1 X21 X22 X2,p1

Y = .. X = .. .. .. .. (39)
n1 . np . . . .
Yn 1 Xn1 Xn2 Xn,p1

0 1
2
1
= .. = ..
p1 . n1 .
p1 n

Observemos que los vectores Y y son los mismos que para la regresin
lineal simple. El vector contiene los parmetros de regresin adicionales.
Cada fila de la matriz X corresponde a las observaciones correspondientes a
cada individuo (la fila isima contiene las observaciones del individuo isimo)
y las columnas identifican a las variables.
El modelo (37) se escribe matricialmente en la siguiente forma

Y=X +
n1 npp1 n1

donde
Y es un vector de respuestas
es un vector de parmetros
X es una matriz de constantes
es un vector de variables aleatorias normales independientes con espe-
4.5 Estimacin de los Parmetros (Ajuste del modelo) 99

ranza E () = 0 y matriz de varianzas y covarianzas



2 0 0
0 2 0
2
V ar () = .. .. .. = I.
. . .
0 0 2
Entonces tomando a las variables equis como fijas, el vector Y tiene esperanza
E (Y) = X
o, bien, condicional a las variables equis, resulta que
E (Y | X) = X
y la matriz de covarianza de las Y resulta ser la misma que la de
V ar (Y) = 2 I.

4.5. Estimacin de los Parmetros (Ajuste del modelo)


Usamos el mtodo de mnimos cuadrados para ajustar el modelo. O sea,
definimos la siguiente funcin
X
n
g (b0 , b1 , . . . , bp1 ) = (Yi b0 Xi0 b1 Xi1 b2 Xi2 bp1 Xip1 )2
i=1
(40)
b b b
y los estimadores 0 , 1 , . . . , p1 sern aquellos valores de b0 , b1 , . . . , bp1
que minimicen a g. Los denominamos estimadores de mnimos cuadrados.
Denotaremos al vector de coeficientes estimados por . b

b0


b b1
= .
p1 ..
bp1

Las ecuaciones de mnimos cuadrados normales para el modelo de regresin
lineal general son
b = Xt Y
Xt X
donde Xt quiere decir la matriz traspuesta. Algunos autores lo notan X0
(recordemos que la matriz traspuesta es aquella matriz p n que tiene por
filas a las columnas de X). Los estimadores de mnimos cuadrados son

b = Xt X 1 Xt Y

100 Mara Eugenia Szretter

Observacin 4.3 En el caso de la regresin lineal, los estimadores de mn-


imos cuadrados coinciden tambin con los estimadores de mxima verosimil-
itud para el modelo antes descripto.

Observacin 4.4 Para encontrar los estimadores de no se necesita que


los errores sean normales.

4.6. Valores Ajustados y Residuos


Denotemos al vector de valores ajustados (fitted values, en ingls) Ybi por
b y al vector de residuos ei = Yi Ybi lo denotamos por e
Y

Yb1 e1
Yb e2
b =
Y
2
..

e = ..
n1 . n1 .
b
Yn en

Los valores ajustados se calculan del siguiente modo



b = X
Y b = X Xt X 1 Xt Y

que son los valores que estn en la superficie de respuesta ajustada (o sea, en
el plano ajustado en el caso p = 3). Los residuos se escriben matricialmente
como
b
b = Y X
e = YY
t 1 t
=YX X X XY
t 1 t
= IX X X X Y

Llamando 1 t
H = X Xt X X Rnn (41)
a la hat matrix (la matriz que sombrerea) tenemos que
b = HY
Y

y
e = (I H) Y.
La matriz de varianzas de los residuos es

V ar (e) = 2 (I H) . (42)
4.6 Valores Ajustados y Residuos 101

Observacin 4.5 (residuos) El modelo de regresin lineal impone que los


errores i sean independientes, normales y tengan todos la misma varianza.
Como ya hemos dicho, los errores no son observables. Los residuos ei , que son
el correlato emprico de los errores, son observables. Sin embargo, los residuos
no son independientes entre s y sus varianzas no son iguales. Vemoslo.
Por (42), la varianza de ei es el elemento isimo de la matriz 2 (I H) .
Si la matriz H fuera igual a cero (que no tendra sentido para el modelo de
regresin lineal), todos los residuos tendran la misma varianza 2 (igual
que la varianza de los errores). Sin embargo esto no sucede. Calculemos el
elemento isimo de la matriz 2 (I H) .

V ar (ei ) = 2 (1 Hii )

donde Hii representa el elemento que ocupa el lugar ii de la matriz. Pero


sabemos que
1 t 1
Hij = X Xt X X = [fila i de X] Xt X [fila j de X]t
ij
1
= xti Xt X xj

donde xti representa la isima fila de X. Luego,


1 t
V ar (ei ) = 2 (1 Hii ) = 2 1 xi Xt X xi

Como en el caso de regresin lineal simple, al elemento ii de la matriz H, es


decir, a Hii , se lo denominar el leverage o palanca de la observacin
isima. Esta cantidad servir para detectar observaciones atpicas o poten-
cialmente influyentes. Nos ocuparemos de esto en la Seccin 5.2.
En cuanto a la independencia, los errores no son independientes entre
s ya que la cov(ei , ej ) ocupa el lugar ijsimo de la matriz 2 (I H) .
Nuevamente, si la matriz H fuera igual a cero (que no tendra sentido),
entonces dichas covarianzas valdran cero. Pero
1 t
cov (ei , ej ) = 2 (Hij ) = 2 xi Xt X xj

donde Hij representa el elemento que ocupa el lugar ij de la matriz.

Observacin 4.6 (terica) H, y por lo tanto I H, son matrices de proyec-


cin (es decir que H2 = H y lo mismo ocurre con I H). H proyecta al
subespacio de Rn generado por las columnas de Xt . Algunos textos la notan
con la letra P.
102 Mara Eugenia Szretter

4.7. Dos predictoras continuas


Antes de seguir con las sumas de cuadrados, las estimaciones de los inter-
valos de confianza para los coeficientes y el test F, presentaremos un ejemplo
numrico con p = 3.
Consideremos los datos correspondientes a mediciones de 100 nios naci-
dos con bajo peso en Boston, Massachusetts presentados en el artculo de
Leviton y coautores [5], tratados en el libro de Pagano y Gauvreau [8]. Al
estudiar el modelo de regresin lineal simple encontramos una relacin lineal
significativa entre el permetro ceflico y la edad gestacional para la poblacin
de nios nacidos con bajo peso. La recta ajustada a esos datos era

Yb = 3,9143 + 0,7801X1

Nos preguntamos ahora si el permetro ceflico tambin depender del peso


del nio al nacer. Veamos un scatter plot (grfico de dispersin) del permetro
ceflico versus el peso al nacer, para los 100 nios. El scatter plot de la Figura
40 sugiere que el permetro ceflico aumenta al aumentar el peso. Pero una vez
que hayamos ajustado por la edad gestacional, ser que el conocimiento del
peso al nacer mejorar nuestra habilidad para predecir el permetro ceflico
de un beb?
Para responder a esta pregunta ajustamos un modelo de regresin lineal
mltiple con dos variables predictoras. Sean

Yi = permetro ceflico del isimo nio, en centmetros (headcirc)


Xi1 = edad gestacional del isimo nio, en semanas (gestage)
Xi2 = peso al nacer del isimo nio, en gramos (birthwt)

Proponemos el modelo (35), o lo que es lo mismo, el modelo (37) con p = 3,


o sea dos covariables. Lo reescribimos

Yi = 0 + 1 Xi1 + 2 Xi2 + i .

Para darnos una idea de las herramientas con las que trabaja la computadora
que ajustar el modelo, listamos los primeros siete datos en la Tabla 10.
El modelo ajustado figura en la Tabla 11. En el Apndice B figuran estas y
otras salidas de la Seccin de Regresin Lineal Mltiple en SPSS. Intercaladas
en el texto estn las salidas del paquete R. La superficie ajustada resulta ser

Yb = 8,3080 + 0,4487X1 + 0,0047X2 .


La ordenada al origen, que es 8,3080 es, en teora, el valor medio del
permetro ceflico para bebs de bajo peso con edad gestacional de 0 semanas
4.7 Dos predictoras continuas 103

Figura 40: Permetro ceflico versus peso al nacer para la muestra de 100
bebs de bajo peso.
34
32
Perimetro cefalico (en centimetros)

30
28
26
24
22

600 800 1000 1200 1400

Peso al nacer (en gramos)

y peso al nacer de 0 gramos, y por lo tanto carece de sentido. El coeficiente


estimado de edad gestacional (0,4487) no es el mismo que cuando la edad
gestacional era la nica variable explicativa en el modelo; su valor descendi
de 0,7801 a 0,4487. Esto implica que, si mantenemos el peso al nacer de
un nio constante, cada incremento de una semana en la edad gestacional
corresponde a un aumento de 0,4487 centmetros en su permetro ceflico,
en promedio. Una manera equivalente de decirlo es que dados dos bebs
con el mismo peso al nacer pero tales que la edad gestacional del segundo
de ellos es una semana ms grande que la del primero, el segundo beb
tendr un permetro ceflico aproximadamente 0,4487 centmetros mayor que
el primero.
De forma similar, el coeficiente del peso al nacer indica que si la edad
gestacional de un beb no cambia, cada incremento de un gramo en el peso al
nacer redunda en un aumento de 0,0047 centmetros en el permetro ceflico,
en promedio. En este caso en el que el valor del coeficiente estimado es
tan pequeo, puede tener ms sentido expresar el resultado aumentando las
104 Mara Eugenia Szretter

Tabla 10: Primeros siete datos de bebs de bajo peso

Nio i Yi = headcirc Xi1 = gestage Xi2 = birthwt


1 27 29 1360
2 29 31 1490
3 30 33 1490
4 28 31 1180
5 29 30 1200
6 23 25 680
7 22 27 620

unidades involucradas, por ejemplo decir: si la edad gestacional no cambia,


cada incremento de 10 g. en el peso al nacer redunda en un aumento de 0,047
cm. en el permetro ceflico, en promedio.

4.8. Resultados de Anlisis de la Varianza (y estimacin


de 2 )

4.8.1. Sumas de cuadrados y cuadrados medios (SS y MS)

Las sumas de cuadrados para el anlisis de la varianza son,

SSTo = suma de cuadrados total


Xn
2
= Yi Y
i=1
Xn
2
= Yi2 nY
i=1

que en trminos matriciales puede escribirse como


t 1 t t 1
SSTo = Y Y Y JY = Y I J Y,
n n
4.8 Resultados de Anlisis de la Varianza (y estimacin de 2 ) 105

Tabla 11: Ajuste del modelo lineal para los datos de bebs de bajo peso,
headcirc con dos explicativas continuas: gestage y birthwt

> ajuste2<-lm(headcirc~gestage+birthwt)
>
> summary(ajuste2)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3080154 1.5789429 5.262 8.54e-07
gestage 0.4487328 0.0672460 6.673 1.56e-09
birthwt 0.0047123 0.0006312 7.466 3.60e-11
---

Residual standard error: 1.274 on 97 degrees of freedom


Multiple R-squared: 0.752, Adjusted R-squared: 0.7469
F-statistic: 147.1 on 2 and 97 DF, p-value: < 2.2e-16

donde J es una matriz n n toda de unos. De igual modo,


SSRes = suma de cuadrados de los residuos (SSE)
Xn 2 Xn
= Yi Ybi = e2i
i=1 i=1
t
b
= et e = Y X b
Y X
t
b X0 Y = Yt [I H] Y
= Yt Y
que en trminos matriciales se escribe
b t Xt Y = Yt [I H] Y
SSRes = Yt Y
y
SSReg = suma de cuadrados de la regresin o del modelo (SSM)
Xn 2
= b
Yi Y ,
i=1

y vale
b t t 1 t t 1
SSReg = X Y Y JY = Y H J Y.
n n
106 Mara Eugenia Szretter

Ms all de las expresiones matemticas que permiten calcularlas, en la


regresin mltiple se cumple la misma propiedad que en la regresin sim-
ple en cuanto a las sumas de cuadrados. Volvamos sobre ellas. Recordemos
que como los estimadores b0 ,
b1 , . . . ,
bp1 se eligen como aquellos valores de
b0 , b1 , . . . , bp1 que minimicen a g dada en (40), luego los parmetros elegi-
dos hacen que la suma de los cuadrados de los residuos (SSRes) sea lo ms
chica posible. Pero, aunque esta superficie sea la mejor superficie disponible,
todava cabe preguntarse cuan bueno es el ajuste encontrado, es decir, cuan
bien ajusta el modelo a los datos observados. Para ello, una manera es com-
parar el ajuste que proporciona el modelo de regresin lineal con algo, y el
algo que siempre podemos elegir es el modelo ms bsico que podemos en-
contrar. Entonces usamos las sumas de cuadrados para calcular el ajuste del
modelo ms bsico (un solo parmetro que ajuste a todas las observaciones).
Es decir, elegimos el valor de tal que minimice
X
n
(Yi )2 ,
i=1

sin tener en cuenta para nada los valores de las covariables (X1 , . . . , Xp1 ). Es
un resultado de un curso inicial de estadstica que el valor de que minimiza
dicha suma es el promedio de las Y s es decir, = Y . Esencialmente, estamos
tomando como medida de cuan bien ajusta un modelo, a la suma de los
cuadrados; en general
X
modelo = (observados modelo)2 (43)

donde el modelo es la superficie de respuesta (37) en regresin lineal mltiple


y un slo parmetro en el modelo ms bsico. Para cada modelo usamos la
ecuacin (43) para ajustar ambos modelos, es decir, encontramos los valores
de los parmetros que minimizan (43) entre todos los valores posibles y, luego,
bsicamente si el modelo lineal es razonablemente bueno ajustar a los datos
significativamente mejor que el modelo bsico. Es decir, la resta

modelo bsico regresin lineal = SSTo SSRes = SSReg

ser pequea comparada con lo que era la SSTo. Esto es un poco abstracto
as que mejor lo miramos en un ejemplo.
Imaginemos que nos interesa predecir el permetro ceflico de un nio
al nacer (Y ) a partir de la edad gestacional del beb (X1 ) y de su peso al
nacer (X2 ) . Cunto ser el permetro ceflico de un beb con 33 semanas
de edad gestacional y que pesa 1490 gramos al nacer? Si no tuviramos un
modelo preciso de la relacin entre las tres variables en nios nacidos con
4.8 Resultados de Anlisis de la Varianza (y estimacin de 2 ) 107

bajo peso, cul podra ser nuestro mejor pronstico? Bueno, posiblemente
la mejor respuesta sea dar el nmero promedio de permetros ceflicos en
nuestra base de datos, que resulta ser 26,45 cm. Observemos que la respuesta
sera la misma si ahora la pregunta fuera: cunto ser el permetro ceflico
de un nio con 25 semanas de gestacin y que pes 680 g. al nacer? Nueva-
mente, en ausencia de un vnculo preciso, nuestro mejor pronstico sera dar
el promedio observado de permetros ceflicos, o sea 26,45 cm. Claramente
hay un problema: no importa cual es la edad gestacional o el peso al nacer
del nio, siempre predecimos el mismo valor de permetro ceflico. Debera
ser claro que la media es poco til como modelo de la relacin entre dos
variables, pero es el modelo ms bsico del que se dispone.
Repasemos entonces los pasos a seguir. Para ajustar el modelo ms bsi-
co, predecimos el outcome Y por Y , luego calculamos las diferencias entre
los valores observados y los valores que da el modelo (Y siempre para el mo-
delo bsico) y la ecuacin (43) se convierte en la SSTo (es decir, SSTo es la
cantidad total de diferencias presentes cuando aplicamos el modelo bsico a
los datos). La SSTo representa cuan bueno es el promedio como modelo de
los datos observados. En un segundo paso ajustamos el modelo ms sofisti-
cado a los datos (el modelo de regresin lineal mltiple con dos predictores).
Este modelo permite pronosticar un valor distinto para cada combinacin de
covariables. A este valor lo hemos llamado valor predicho y resulta ser
b0 +
Ybi = b1 Xi1 +
b2 Xi2 .

En el ejemplo, para la primer pregunta nuestra respuesta sera

b1 33 +
b0 + b2 1490 = 8,3080 + 0,4487 33 + 0,0047 1490 = 30,118

y para la segunda pregunta tendramos

b1 25 +
b0 + b2 680 = 8,3080 + 0,4487 25 + 0,0047 680 = 22,722.

Hemos visto que el modelo de regresin lineal mltiple encuentra los valores
de b1 y
b0 , b2 por el mtodo de mnimos cuadrados, es decir minimizando
las diferencias entre el modelo ajustado a los datos y los propios datos. Sin
embargo, aun en este modelo optimizado hay todava imprecisiones que se
representan por las diferencias
entre cada valor observado (Yi ) y cada valor
predicho por la regresin Ybi . Como antes, calculamos esas diferencias,
elevamos al cuadrado cada una de ellas y las sumamos (si las sumramos sin
elevarlas al cuadrado la suma terminara dando cero). El resultado se conoce
como la suma de los cuadrados de los residuos (SSRes). Este valor representa
el grado de imprecisin cuando el modelo se ajusta a los datos. Podemos usar
108 Mara Eugenia Szretter

estos dos valores para calcular cuanto mejor es usar la superficie de respuesta
estimada en vez de la media como modelo (es decir, cunto mejor es el mejor
modelo posible comparado con el peor?) La mejora en prediccin resultante
al usar el mejor modelo en vez de la media se calcula al hacer la resta entre
SSTo y SSRes. Esta diferencia nos muestra la reduccin en la imprecisin
que se obtiene por usar un modelo de regresin lineal. Como en el caso de
regresin lineal simple, puede verse que esta resta da SSReg, es decir

SSTo SSRes = SSReg.

La Figura 41 muestra ambas distancias para una misma observacin, en


el caso de regresin lineal simple.

Figura 41: Distancias que intervienen en las sumas de cuadrados para una
observacin. Fuente: [11], pg. 473.

Si el valor de SSReg es grande, entonces usar el modelo de regresin


lineal es muy distinto a usar la media para predecir el outcome. Esto implica
que el modelo de regresin ha hecho una gran mejora en la calidad de la
prediccin de la variable respuesta. Por otro lado, si SSReg es chico, entonces
el hecho de usar el modelo de regresin es slo un poco mejor que usar la
media. (Observemos de paso que SSTo siempre ser mayor que SSRes ya
que tomando b1 = b2 = = bp1 = 0 y b0 = Y que son valores posibles
para los parmetros de la regresin lineal mltiple recuperamos al modelo
bsico, es decir, el modelo bsico est contenido entre todos los modelos
posibles bajo la regresin lineal mltiple). Pero ahora, por supuesto, aparece
la natural pregunta de cundo decimos que un valor de SSReg es grande o
pequeo.
4.8 Resultados de Anlisis de la Varianza (y estimacin de 2 ) 109

4.8.2. Coeficiente de Determinacin Mltiple (R2 y R2 ajustado)


Una primera manera de zanjar esto es calcular la proporcin de mejora
debida al modelo. Esto es fcil de hacer dividiendo la suma de cuadrados
de la regresin por la suma de cuadrados total. Es lo que hacamos tambin
en regresin lineal simple. El resultado se denomina R2 , el coeficiente de
determinacin mltiple. Para expresar este valor como un porcentaje hay
que multiplicarlo por 100. Luego, como en el caso de regresin lineal simple,
R2 representa la proporcin de variabilidad de la variable respuesta que queda
explicada por el modelo de regresin relativa a cunta varianza haba para
ser explicada antes de aplicar el modelo. Luego, como porcentaje, representa
el porcentaje de variacin de la variable respuesta que puede ser explicada
por el modelo
SSReg SSRes
R2 = =1 .
SSTo SSTo
De igual modo que para el modelo de regresin lineal simple, R (la raz
cuadrada de R2 ) resulta ser la correlacin
de Pearson entre los valores obser-
vados de (Yi ) y los valores predichos Ybi . Por lo tanto los valores grandes
de R mltiple (al que se lo suele llamar coeficiente de correlacin mltiple)
representan una alta correlacin entre los valores observados y predichos del
outcome. Un R mltiple igual a uno representa una situacin en la que el
modelo predice perfectamente a los valores observados.

Observacin 4.7 El hecho de agregar variables explicativas X al modelo de


regresin slo puede aumentar el R2 y nunca reducirlo, puesto que la suma de
cuadrados de los residuos SSReg nunca puede aumentar con ms covariables
X y la suma de cuadrados total SSTo siempre vale lo mismo para un conjunto
fijo de respuestas Yi . Por este hecho, de que la inclusin de ms covariables
siempre aumenta el R2 , sean estas importantes o no, se sugiere que cuando
se quieran comparar modelos de regresin con distinto nmero de covariables
en vez de usarse el R2 se utilice una medida modificada que ajusta por el
nmero de covariables explicativas incluidas en el modelo. El coeficiente de
determinacin mltiple ajustado, que se suele denominar Ra2 , ajusta a
R2 dividiendo cada suma de cuadrados por sus correspondientes grados de
libertad, de la siguiente forma
SSRes
np n1 SSRes
Ra2 =1 SSTo
=1
n1
np SSTo

Este coeficiente de determinacin mltiple puede, de hecho, disminuir cuando


se agrega una covariable al modelo, ya que cualquier disminucin de la SSRes
110 Mara Eugenia Szretter

puede ser ms que compensada por la prdida de un grado de libertad en el


denominador n p. Si al comparar un modelo con las covariables X1 , . . . , Xk
para explicar a Y con un modelo que tiene las mismas X1 , . . . , Xk y adems a
Xk+1 como covariables vemos un aumento de los Ra2 , esto es una indicacin
de que la covariable Xk+1 es importante para predecir a Y, an cuando las
covariables X1 , . . . , Xk ya estn incluidas en el modelo.
Observacin 4.8 Hemos dicho que en el modelo lineal mltiple, el R2 re-
presenta el cuadrado del coeficiente de correlacin muestral de Pearson entre
los valores Yi observados y los valores Ybi predichos. Esto tambin sucede en
regresin lineal simple. Es decir,
Pn
b b
i=1 Yi Y Yi Y
r=r
Pn 2 Pn 2
Yi Y b
Y i b
Y
i=1 i=1

es tal que el valor absoluto de r es la raz de R2 , |r| = R2 . En este caso, el
signo de r es positivo ya que los valores observados y los predichos estn po-
sitivamente correlacionados. Entonces, cmo juega la raz cuadrada? Como
R2 es un nmero comprendido entre 0 y 1, la raz cuadrada es en dicho inter-
valo una funcin creciente que es la inversa de la funcin elevar al cuadrado.
Por lo tanto, como puede verse en la Figura 42 r = R2 ser mayor que
R2 .
Para ver cmo funciona este vnculo entre r y R2 inspeccionamos un par
de ejemplos numricos, que exhibimos en la Tabla 12.

Tabla 12: Algunos valores del coeficiente de determinacin mltiple R2 con


el respectivo valor del coeficiente de correlacin muestral de Pearson, r entre
valores predichos y valores observados.
R2 r
0,1 0,316
0,4 0,632
0,6 0,775
0,7 0,837
0,9 0,949
0,99 0,995

Desde esta ptica, otra interpretacin del R2 es pensar que un buen mo-
delo debera producir valores predichos altamente correlacionados con los
valores observados. Esta es otra manera de visualizar por qu un R2 alto es,
en general, una buena seal de ajuste.
4.8 Resultados de Anlisis de la Varianza (y estimacin de 2 ) 111

Figura 42: Funcin raz cuadrada comparada con la funcin elevar al cuadra-
do y la identidad en el intervalo (0, 1) . Estn graficadas las imgenes del
2
x = 0,4, con
tres puntos cuyas alturas son (en orden ascendente) 0,4 =
0,16; 0,4 y 0,4 = 0,632.

4.8.3. Test F
Como en el modelo de regresin lineal simple, una segunda forma de usar
las sumas de cuadrados para evaluar la bondad de ajuste del modelo de
regresin lineal mltiple a los datos es a travs de un test F. Este test se basa
en el cociente de la mejora debida al modelo (SSReg) y la diferencia entre el
modelo y los datos observados (SSRes). De hecho, en vez de utilizar las sumas
de cuadrados por s mismas, tomamos lo que se denominan los cuadrados
medios (MS mean squares o sumas medias de cuadrados o cuadrados medios).
Para trabajar con ellos, es necesario primero dividir a las sumas de cuadrados
por sus respectivos grados de libertad. Para la SSReg, los grados de libertad
son simplemente el nmero de covariables en el modelo, es decir, p 1.
112 Mara Eugenia Szretter

Del
mismo modo que suceda con la regresin lineal simple, las diferencias
b
Yi Y quedan determinadas al fijar los p 1 coeficientes que acompaan

b
a las p 1 covariables, luego las diferencias Yi Y tienen p 1 grados de
libertad.
Para la SSRes son el nmero de observaciones menos el nmero de parmet-
ros que se estiman (es decir, el nmero de coeficientes beta incluyendo el 0 ),
en este caso n p. Esto proviene, al igual que en el caso de regresin lin-
eal simple, del hecho de que los residuos satisfacen p ecuaciones normales.
Luego, si conocemos n p de ellos, podemos hallar los restantes p a partir
de despejarlos de las p ecuaciones lineales.
Los resultados son, respectivamente, el cuadrado medio de regresin (que
notaremos MSReg o MSM, es decir regression mean square o model mean
square) y el cuadrado medio de residuos (MSRes o MSE, es decir, residual
mean square o mean square error). Por supuesto, hay teora que garantiza
estos resultados pero no nos concentraremos en ella. S es relevante retener
que el estadstico F es una medida de cunto mejora el modelo la prediccin
de la variable respuesta comparada con el nivel de imprecisin de los datos
originales. Si el modelo es bueno, esperamos que la mejora en la prediccin
debida al modelo sea grande (de manera que MSReg sea grande) y que la
diferencia entre el modelo y los datos observados sea pequea (o sea, MSRes
pequea). Para hacerla corta, un buen modelo debe tener un estadstico F
grande (al menos mayor a 1 porque el numerador, de decir, la mitad supe-
rior de (44) ser mayor que el denominador -la mitad inferior de (44)). El
estadstico F es
SSReg
MSReg p1 SSReg (n p)
F = = SSRes
= . (44)
MSRes np
SSRes (p 1)

Se construye para testear las hiptesis

H0 : 1 = 2 = = p1 = 0
H1 : no todos los k (k = 1, 2, . . . , p 1) son iguales a 0

Observemos que H0 dice que no hay vnculo entre la variable respuesta y las
regresoras. En cambio, H1 dice que al menos una de las variables regresoras
sirve para predecir a Y . La distribucin de F cuando H0 es cierta es la
distribucin F (de Snedecor o de Fisher) con p 1 grados de libertad en el
numerador y n p grados de libertad en el denominador. El test rechaza H0
cuando F > Fp1,np,1 , el 1 percentil de la distribucin vlida cuando
H0 es verdadera. Para valores grandes de F (es decir, p-valores pequeos) el
4.8 Resultados de Anlisis de la Varianza (y estimacin de 2 ) 113

test rechaza H0 y concluye que no todos los coeficientes que acompaan a


las covariables del modelo de regresin lineal son nulos.

Observacin 4.9 Cuando p 1 = 1, este test se reduce al test F visto en el


modelo de regresin lineal simple para testear si 1 es 0 o no.

Observacin 4.10 La existencia de una relacin de regresin lineal, por


supuesto, no asegura que puedan hacerse predicciones tiles a partir de ella.

Usualmente, como ya hemos visto en el modelo lineal simple, estos val-


ores aparecen en la salida de cualquier paquete estadstico en lo que se conoce
como tabla de ANOVA (Analysis of Variance table). Resumimos esta infor-
macin en la Tabla 13.

Tabla 13: Tabla de ANOVA para el modelo de Regresin Lineal General (37)

Fuente de variacin SS g.l. MS


Pn b 2
SSReg
Regresin SSReg = i=1 Yi Y p1 MSReg = p1
P 2
Residuos SSRes = ni=1 Yi Ybi np MSRes = SSRes
np
P 2
Total SSTo = ni=1 Yi Y n1

Usualmente la tabla se completa con dos ltimas columnas que se de-


nominan F y p-valor. La columna F tiene un nico casillero completo (el
correspondiente a la primer fila) con el valor del estadstico, es decir

MSReg
F = .
MSRes
La columna p-valor tiene tambin un nico casillero con el p-valor del test,

p valor = P (Fp1,np > Fobs ) .

4.8.4. Estimacin de 2
El modelo de regresin lineal dado en (37) y (38) impone que los erro-
res 1 , . . . , n sean variables aleatorias independientes con esperanza cero y
V ar (i ) = 2 . Si tuviramos los errores, sabemos que un estimador insesgado
de 2 es
1 X
n
(i )2 .
n 1 i=1
114 Mara Eugenia Szretter

El problema es que en el modelo de regresin lineal mltiple, al igual que


en el caso de regresin lineal simple, los errores no son observables. Para
estimar a 2 los podemos reemplazar por sus correlatos empricos, los residuos
e1 , . . . , en . Pero, como ya vimos en la Observacin 4.5 los residuos no son
independientes. En el caso del modelo lineal simple habamos visto que los
residuos estn ligados entre s ya que satisfacen dos ecuaciones lineales (las
dos ecuaciones normales):

- la suma de los residuos e1 , . . . , en es cero.

- la correlacin muestral entre e1 , . . . , en y X1 , . . . , Xn es cero, o equi-


valentemente, el coeficiente de correlacin de Pearson calculado para
(X1 , e1 ) , . . . , (Xn , en ) es cero.

En el caso de regresin lineal mltiple con p 1 variables predictoras, los


residuos estn ligados entre s de una manera ms estrecha, ya que satisfacen
p ecuaciones lineales (linealmente independientes): como e = (I H) Y y H
es una matriz de proyeccin de rango p resulta que He = 0. Una de ellas es,
tambin, que la suma de los residuos vale cero. Informalmente se dice que los
residuos tienen n p grados de libertad. Esto quiere decir que conociendo
n p de ellos, podemos deducir cunto valen los p restantes despejndolos de
las ecuaciones normales. Luego, el estimador de 2 se basar en los residuos
de la siguiente forma

1 X 1 X
n n
2
2
b =
(ei e) = (ei )2
n p i=1 n p i=1
1 X 2 SSRes
n
= b
Y i Yi =
n p i=1 np
= MSRes. (45)

Es decir, el cuadrado medio de los residuos es el estimador de 2 dado por el


modelo de regresin. En la salida de un paquete estadstico se puede encontrar
en el casillero correspondiente en la tabla de ANOVA.

4.9. Inferencias sobre los parmetros de la regresin


bk son insesgados, es decir,
Los estimadores de mnimos cuadrados

E bk = k .
4.9 Inferencias sobre los parmetros de la regresin 115


La matriz de covarianza de dichos estimadores V ar b est dada por una
bj y
matriz p p que en la coordenada jk tiene la covarianza entre bk y que
resulta ser
b = 2 X t X 1 .
V ar

Como vimos en la Seccin 4.8.4, MSRes es el estimador de 2 , por lo que la


estimacin de dicha matriz est dada por
1 1
Vdar b = b2 X t X = MSRes X t X .

4.9.1. Intervalos de confianza para k


Para el modelo de errores normales dado por (37) y (38) tenemos que

b

r k k tnp para k = 0, 1, . . . , p 1.
Vd bk
ar

Recordemos que n p es el nmero de observaciones menos elrnmero de



covariables del modelo menos uno. Muchas veces al denominador Vd ar bk

se lo llama s bk . Luego, el intervalo de confianza de nivel 1 para cada
k es r
bk tnp,1 Vd
ar bk ..
(46)
2

4.9.2. Tests para k


Los tests para k se llevan a cabo de la forma usual. Para testear

H0 : k = 0
H1 : k 6= 0

usamos el estadstico
bk

T =r
Vd
ar bk

y rechazamos H0 cuando |T | tnp,1 2 . El p-valor, a su vez, se calcula como

p valor = P (|T | |Tobs |) .


116 Mara Eugenia Szretter

Observemos que cuando realizamos este test asumimos que en el modelo


aparecen todas las restantes covariables. Se puede hallar la potencia de este
test. Como en regresin lineal simple, se puede llevar a cabo un test F para
decidir si k = 0 o no. Lo discutiremos ms adelante.

4.9.3. Inferencias conjuntas


El objetivo de los intervalos de confianza y tests presentados en las sec-
ciones 4.9.1 y 4.9.2 es proveer conclusiones con un nivel prefijado de confianza
sobre cada uno de los parmetros 0 , 1 , . . . , p1 por separado. La dificul-
tad es que stos no proporcionan el 95 por ciento de confianza de que las
conclusiones de los p intervalos son correctas. Si las inferencias fueran inde-
pendientes, la probabilidad de que los p intervalos construidos cada uno a
nivel 0.95, contengan al verdadero parmetro sera (0,95)p , o sea, solamente
0,857 si p fuese 3. Sin embargo, las inferencias no son independientes, ya que
son calculadas a partir de un mismo conjunto de datos de la muestra, lo que
hace que la determinacin de la probabilidad de que ambas inferencias sean
correctas sea mucho ms difcil.
En esta seccin propondremos intervalos de confianza de nivel conjun-
to 0,95. Esto quiere decir que nos gustara construir una serie de intervalos
(o tests) para los cuales tengamos una garanta sobre la exactitud de todo
el conjunto de intervalos de confianza (o tests). Al conjunto de intervalos de
confianza (o tests) de inters lo llamaremos familias de intervalos de confianza
de nivel conjunto o simultneo (o regiones de confianza de nivel simultneo o
tests o inferencias conjuntas). En nuestro ejemplo, la familia se compone de p
estimaciones, para 0 , 1 , . . . , p1 . Podramos estar interesados en construir
regiones de confianza para una cantidad g entre 1 y p de estos parmetros,
con g prefijado. Distingamos entre un intervalo de confianza de nivel 0.95
para un parmetro, que nos resultan familiares ya que hemos trabajado con
ellos hasta ahora, donde 0,95 es la proporcin de intervalos construido con el
mtodo en cuestin que cubren al verdadero parmetro de inters cuando se
seleccionan repetidamente muestras de la poblacin de inters y se construyen
los intervalos de confianza para cada una de ellas. Por otro lado, cuando cons-
truimos una familia de regiones o intervalos de confianza de nivel simultneo
0.95 para g parmetros, el valor 0,95 indica la proporcin de familias de g
intervalos que estn enteramente correctas (cubren a los g parmetros de
inters, simultneamente) cuando se seleccionan repetidamente muestras de
la poblacin de inters y se construyen los intervalos de confianza especfi-
cos para los g parmetros en cuestin. Luego, el nivel simultneo de una
familia de regiones o intervalos de confianza corresponde a la probabilidad,
calculada previa al muestreo, de que la familia entera de afirmaciones sea
4.9 Inferencias sobre los parmetros de la regresin 117

correcta.
Ilustremos esto en el caso del ejemplo de los 100 bebs de bajo peso. Si
nos interesara construir intervalos de confianza de nivel simultneo 0,95 para
1 y 2 , una familia de intervalos de confianza simultneos para estos datos
consistira en dos intervalos de confianza de modo tal que si tomramos
muestras de 100 bebs de bajo peso, les midiramos la edad gestacional,
el permetro ceflico y el peso al nacer, y luego construyramos para cada
muestra los dos intervalos de confianza para 1 y 2 , para el 95 % de las
muestras ambos intervalos construidos con este mtodo cubriran tanto al
verdadero 1 como al verdadero 2 . Para el 5 % restante de las muestras,
resultara que uno o ambos intervalos de confianza sera incorrecto.
En general es sumamente deseable contar con un procedimiento que provea
una familia de intervalos de confianza de nivel simultneo cuando se estiman
varios parmetros con una misma muestra de datos, ya que le permite al
analista entrelazar dos resultados juntos en un conjunto integrado de con-
clusiones con la seguridad de que todo el conjunto de inferencias es correcto.
Para obtenerlos hay bsicamente dos herramientas estadsticas disponibles.
Una de ellas es el estudio matemtico en detalle del fenmeno en cuestin,
en este caso, estudiar matemticamente las propiedades de los estimadores
b0 , . . . ,
bp1 de manera de poder obtener la distribucin exacta de alguna me-

b
dida numrica que los resuma, como el max0kp1 k o las descripciones
matemticas del elipsoide p dimensional ms pequeo que los contenga, con
probabilidad 0,95, para contar un par de ejemplos que son utilizados en dis-
tintas reas de la estadstica para construir regiones de confianza de nivel
simultneo. Veremos otro en la Seccin 4.10.2. La otra herramienta consiste
en construir intervalos de confianza con nivel simultneo a partir de ajustar
el nivel de confianza de cada intervalo individual a un valor ms alto, de mo-
do de poder asegurar el nivel simultneo de la construccin. Esto es lo que
se conoce como el mtodo de Bonferroni para la construccin de intervalos
de nivel simultneo. Una descripcin detallada de este mtodo puede con-
sultarse en [6], pg. 155 a 157. Este procedimiento es de aplicacin bastante
general en la estadstica. En vez de usar el percentil de la t propuesto en
la Seccin 4.9.1 para cada intervalo de confianza para k se usa el percentil
correspondiente a un nivel mayor. Cuando se quieren construir intervalos de
confianza de nivel simultneo 1 para g coeficientes de la regresin, el

percentil que se utiliza en el correspondiente a un nivel 1 2g en cada in-
tervalo en particular. Resultan ser intervalos ms anchos que los presentados
en la Seccin 4.9.1. Una observacin importante es que el procedimiento de
Bonferroni es conservativo, es decir, el nivel conjunto de los intervalos as
construidos es mayor o igual a 1 .
118 Mara Eugenia Szretter

As, se pueden construir los intervalos de confianza simultneos de Bonfer-


roni para estimar varios coeficientes de regresin de manera simultnea Si se
desean estimar simultneamente g parmetros (donde g p), los intervalos
de confianza con nivel simultneo 1 son los siguientes
r
b d
k tnp,1 2g V ar
bk .

Ms adelante discutiremos tests que conciernan varios parmetros de regre-


sin en forma simultnea.

4.9.4. Aplicacin al ejemplo


Antes de seguir presentando teora, veamos cmo se calculan e interpretan
estas cuestiones en el ejemplo de los 100 bebs de bajo peso. Para dicho
ejemplo, cuyo modelo contena a la edad gestacional y el peso al nacer como
variables explicativas, p1 resulta ser igual a 2 (luego p = 3). La distribucin
t involucrada en la construccin de intervalos de confianza o tests para los k
tiene en este caso np = 1003 = 97 grados de libertad. En la Tabla 11 que
figura en la pgina 105 exhibimos los coeficientes estimados. Los recordamos
a continuacin

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3080154 1.5789429 5.262 8.54e-07
gestage 0.4487328 0.0672460 6.673 1.56e-09
birthwt 0.0047123 0.0006312 7.466 3.60e-11

Luego,
b0 = 8,3080
b1 = 0,4487
b2 = 0,0047

y sus errores estndares respectivos resultan ser


r
Vdar b0 = s b0 = 1,5789 s b1 = 0,0672 s
b2 = 0,00063

Luego, los respectivos estadsticos t observados en cada caso son

b 0
0,4487
T =r 1 = = 6,67
d b 0,0672
V ar 1
4.9 Inferencias sobre los parmetros de la regresin 119

cuando k = 1 y
b 0
0,0047
T =r 2 = = 7,46
d b 0,00063
V ar 2

cuando k = 2. En ambos casos, los p-valores resultan ser menores que 0,001.
Observemos que en la salida de cualquier paquete estadstico figuran tanto las
estimaciones de los betas, como sus desvos estndares estimados, los valores
de t observados y los p-valores respectivos. En ambos casos rechazamos las
hiptesis nulas a nivel 0,05 y concluimos que 1 es distinta de cero cuando en
el modelo aparece X2 como explicativa (en el primer test) y que 2 es distinta
de cero cuando en el modelo aparece X1 como explicativa (en el segundo test).
Como adems ambos estimadores son positivos, concluimos que el permetro
ceflico aumenta cuando aumenta tanto la edad gestacional como cuando
aumenta el peso al nacer. Debemos tener presente, sin embargo, que varios
tests de hiptesis basados en los mismos datos no son independientes; si cada
test se realiza a nivel de significacin , la probabilidad global de cometer
un error de tipo I o rechazar la hiptesis nula cuando es verdadera es,
de hecho, mayor que . Para eso se pueden realizar los tests simultneos
presentados, como los de Bonferroni.
Los intervalos de confianza para ambos parmetros de la regresin resul-
tan ser
r
b d
1 t97,0,975 V ar b1

= [0,4487 1,9847 0,06724; 0,4487 + 1,9847 0,06724]


= [0,315 25; 0,582 15]

y
r
b2 t97,0,975
Vd b2
ar

= [0,004712 1,9847 0,00063; 0,004712 + 1,9847 0,00063]


= [0,00346; 0,00596]

o, calculados con un paquete estadstico, como figuran en la Tabla 14.


Si usramos el procedimiento de Bonferroni para construir los intervalos,
tendramos que usar el percentil

0,05
1 =1 = 0,99167
2g 23
120 Mara Eugenia Szretter

Tabla 14: Intervalos de confianza de nivel 0,95 para 0 , 1 y 2 para los datos
de nios de bajo peso al nacer

> confint(ajuste2)
2.5 % 97.5 %
(Intercept) 5.174250734 11.441780042
gestage 0.315268189 0.582197507
birthwt 0.003459568 0.005964999

de una t97, es decir, t97,0,9917 = 2,43636 en vez de t97,0,975 = 1,9847, que nos
dar intervalos ms anchos, como puede observarse comparando los intervalos
de confianza de las Tablas 14 y 15, la primera contiene a los intervalos de
confianza de nivel 0,95 cada uno, y la segunda contiene los intervalos de
confianza de nivel simultneo 0,95.

Tabla 15: Intervalos de confianza de nivel simultneo 0,95 para 0 , 1 y 2


para los datos de nios de bajo peso al nacer, construidos con el mtodo de
Bonferroni

> confint(ajuste2,level=(1-(0.05/3)))
0.833 % 99.167 %
(Intercept) 4.461384677 12.154646098
gestage 0.284907765 0.612557932
birthwt 0.003174601 0.006249966
> 0.05/(2*3)
[1] 0.008333333

Si calculamos el R2 para este modelo (que figura en la Tabla 11) vemos


que es R2 = 0,752, luego el modelo que contiene a la edad gestacional y el
peso al nacer como variables explicativas explica el 75,20 % de la variabilidad
en los datos observados de permetro ceflico; el modelo que tena solamente
a la edad gestacional explicaba el 60,95 %. Este aumento en el R2 sugiere
que agregar la variable peso al modelo mejora nuestra habilidad para prede-
cir el permetro ceflico para la poblacin de bebs nacidos con bajo peso.
Pero, como ya vimos, debemos ser muy cuidadosos al comparar coeficientes
de determinacin de dos modelos diferentes. Ya dijimos que la inclusin de
una nueva covariable al modelo nunca puede hacer que el R2 decrezca; el
4.9 Inferencias sobre los parmetros de la regresin 121

conocimiento de la edad gestacional y el peso al nacer, por ejemplo, nunca


puede explicar menos de la variabilidad observada en los permetros ceflicos
que el conocimiento de la edad gestacional sola (aun si la variable peso no
contribuyera en la explicacin). Para sortear este problema podemos usar una
segunda medida (cuando el inters sea comparar el ajuste que producen dos
o ms modelos entre s), el R2 ajustado (que notaremos Ra2 ), que compensa
por la complejidad extra que se le agrega al modelo. El R2 ajustado aumenta
cuando la inclusin de una variable mejora nuestra habilidad para predecir la
variable y disminuye cuando no lo hace. Consecuentemente, el R2 ajustado
nos permite hacer una comparacin ms justa entre modelos que contienen
diferente nmero de covariables. Como el coeficiente de determinacin, el R2
ajustado es una estimacin del coeficiente de correlacin poblacional ; a di-
ferencia del R2 , sin embargo, no puede ser directamente interpretado como
la proporcin de la variabilidad de los valores Y que queda explicada por el
modelo de regresin. En este ejemplo, el R2 ajustado resulta ser 0,7469 (ver
nuevamente la Tabla 11) que al ser mayor que el R2 ajustado del modelo
con solo una variable explicativa (era Ra2 = 0,6055) indica que la inclusin
del peso al nacer en el modelo, mejora nuestra capacidad para predecir el
permetro ceflico del nio.
Finalmente, la tabla ANOVA para estos datos (de acuerdo a la salida del
SPSS) aparece en la Figura 43.

Figura 43: Tabla de ANOVA para los datos de nios de bajo peso al nacer

Observemos que el estimador de 2 que surge del modelo de regresin es


1 X 2
n
SSRes
MSRes = = Yi Ybi = 1,62, (47)
np n p i=1

b2 =
por la Seccin 4.8.4. Si comparamos el valor observado del estimador
1,62 para este modelo con el estimador de la varianza no explicada por el
122 Mara Eugenia Szretter

modelo de regresin lineal simple que slo tiene a la edad gestacional como
explicativa, que era 2,529 (ver Tabla 2.7) observamos que con la inclusin del
peso hemos reducido la variabilidad no explicada por el modelo, mejorando
la calidad del ajuste obtenido (y de las predicciones que pueden hacerse con
l).

4.10. Estimacin de la Respuesta Media


4.10.1. Intervalo de confianza para E (Yh )
Nos interesa estimar la respuesta media o esperada cuando (X1 , . . . , Xp1 )
toma el valor dado (Xh1 , . . . , Xh,p1 ) . Notamos a esta respuesta media por
E (Yh ) o bien E (Yh | (Xh1 , . . . , Xh,p1 )) . Como en regresin lineal simple es-
tos valores (Xh1 , . . . , Xh,p1 ) pueden ser valores que hayan ocurrido en la
muestra considerada o pueden ser algunos otros valores de las variables pre-
dictoras dentro del alcance (scope) del modelo. Definimos el vector

1
Xh1

Xh = ..
.
Xh,p1
de modo que la respuesta a ser estimada es
E (Yh ) = E (Yh | Xh ) = Xth .

La respuesta media estimada correspondiente a Xh , que denotamos por Ybh


es la variable aleatoria que se calcula del siguiente modo
b=
Ybh = Xth b0 +
b1 Xh1 +
b2 Xh2 + +
bp1 Xh,p1 .

Para el modelo de errores normales (38) la distribucin de Ybh ser normal,


con media
E Ybh = Xth = E (Yh ) (48)
y varianza
1
V ar Ybh = 2 Xth Xt X b Xh .
Xh = Xth V ar

Como
la esperanza del predicho es igual a lo que queremos estimar, es decir,
E Ybh = E (Yh ), el estimador resulta ser insesgado. La varianza estimada
resulta ser
t 1
d b t t d b
V ar Yh = MSRes Xh X X Xh = Xh V ar Xh . (49)
4.10 Estimacin de la Respuesta Media 123

A partir de (48) y (49) puede obtenerse un intervalo de confianza de nivel


1 para E (Yh ) , la respuesta media esperada cuando las covariables son
Xh , que viene dado por
r
Yh tnp,1/2 V ar Ybh .
b d (50)

En general, estos intervalos sern calculados usando un paquete estadstico.

4.10.2. Regin de Confianza para la Superficie de Regresin


La regin de confianza para toda la superficie de regresin es una ex-
tensin de la banda de confianza de Hotelling para una recta de regresin
(cuando hay una sola variable predictora). Los puntos de la frontera de la
regin de confianza en Xh , se obtienen a partir de
r
Yh W Vd
b ar Ybh .

donde
W 2 = pFp,np;1 . (51)
Puede probarse que eligiendo este percentil, la regin resultante cubrir a la
superficie de regresin para todas las combinaciones de las variables
X (dentro de los lmites observados), con nivel 1 . Es por eso que esta
regin de confianza tiene nivel simultneo o global 1 , como discutimos
en la Seccin 4.9.3.

4.10.3. Intervalos de Confianza Simultneos para Varias Respues-


tas Medias
Para estimar un nmero de respuestas medias E (Yh ) correspondientes
a distintos vectores Xh con coeficiente de confianza global 1 podemos
emplear dos enfoques diferentes:

1. Usar las regiones de confianza para la superficie de regresin basadas


en la distribucin de Hotelling (51) para varios vectores Xh de inters
r
Yh W V ar Ybh .
b d


b
donde Yh , W y V ar Ybh estn definidos respectivamente en (48), (51)
d
y (49). Como la regin de confianza para la superficie de regresin
124 Mara Eugenia Szretter

basada en la distribucin de Hotelling cubre la respuesta media para


todos los vectores Xh posibles con nivel conjunto 1 , los valores de
frontera seleccionados cubrirn las respuestas medias para los vectores
Xh de inters con nivel de confianza global mayor a 1 .

2. Usar intervalos de confianza simultneos de Bonferroni. Cuando se


quieren hallar g intervalos de confianza simultneos, los lmites sern
r
Yh B V ar Ybh .
b d

donde
B = tnp,1 2g .

Para una aplicacin en particular, podemos comparar los valores de W y


B para ver cul procedimiento conduce a tener los intervalos de confianza ms
angostos. Si los niveles Xh no son conocidos antes de aplicar el modelo, sino
que surgen del anlisis, es mejor usar los intervalos basados en la distribucin
de Hotelling, puesto que la familia de estos intervalos incluye a todos los
posibles valores de Xh .

4.11. Intervalos de Prediccin para una Nueva Obser-


vacin Yh(nueva)
Como en el caso de regresin lineal simple, estamos interesados ahora en
predecir una nueva observacin Y correspondiente a un nivel dado de las
covariables Xh . La nueva observacin Y a ser predicha se puede ver como el
resultado de una nueva repeticin del experimento u observacin, indepen-
diente de los resultados anteriores en los que se basa el anlisis de regresin.
Denotamos el nivel de X para la nueva observacin por Xh y a la nueva
observacin de Y como Yh(nueva) . Por supuesto, asumimos que el modelo de
regresin subyacente aplicable a los datos con los que contamos sigue siendo
apropiado para la nueva observacin.
La diferencia entre la estimacin de la respuesta media E (Yh ), tratado
en la seccin anterior, y la prediccin de una nueva respuesta Yh(nueva) , que
discutimos en esta es bsica. En el primer caso, se estima la media de la
distribucin de Y. En el caso que nos ocupa a continuacin, queremos pre-
decir un resultado individual surgido a partir de la distribucin de Y . Por
supuesto, la gran mayora de los resultados individuales se desvan de la re-
spuesta media, y esto debe ser tenido en cuenta por el procedimiento para la
prediccin de la Yh(nueva) .
4.11 Intervalos de Prediccin para una Nueva Observacin Yh(nueva) 125

4.11.1. Intervalo de prediccin para Yh(nueva) cuando los parmet-


ros son conocidos
Para ilustrar la naturaleza de un intervalo de prediccin para una nueva
observacin de la Yh(nueva) de la manera ms simple posible, en primer lugar
supondremos que todos los parmetros de regresin son conocidos. Ms ade-
lante abandonaremos este supuesto para tener el enfoque realista y haremos
las modificaciones pertinentes.
Consideremos el ejemplo de los nios con bajo peso al nacer. Supongamos
que supiramos que los parmetros del modelo son

0 = 8 1 = 0,5 1 = 0,004 = 1,25


E (Y ) = 8 + 0,5X1 + 0,004X2

El analista considera ahora un beb de 30 semanas de edad gestacional y que


pes 1360g. al nacer. El permetro ceflico medio para Xh1 = 30 y Xh2 = 1360
es
E (Y ) = 8 + 0,5 30 + 0,004 1360 = 28,44
En la Figura 44 se muestra la distribucin para Yh para Xth = (1, 30, 1360) .
Su media es E (Yh ) = 28,44 y su desvo estndar es = 1,25. La distribucin
es normal debido al modelo de regresin (37) y (38).
Supongamos que furamos a predecir el permetro ceflico de un beb con
estos valores de las covariables, diramos que est entre

E (Yh ) 3
28,44 3 1,25

de modo que el intervalo de prediccin sera

24,69 Yh(nueva) 32,19

Como el 99,7 por ciento del rea en una distribucin de probabilidad normal
cae dentro de los tres desvos estndares de la media, hay una probabilidad
de 0,997 de que este intervalo de prediccin d una prediccin correcta para
el permetro ceflico del beb en cuestin, con 30 semanas de gestacin y
que pes 1360g. al nacer. Los lmites de prediccin en este caso son bastante
amplios, por lo que la prediccin no es muy precisa, sin embargo, el intervalo
de prediccin indica que el beb tendr un permetro ceflico mayor a 24 cm.,
por ejemplo.
La idea bsica de un intervalo de prediccin es, pues, elegir un rango en
la distribucin de Y en donde la mayora de las observaciones caer, y luego,
declarar que la observacin siguiente caer en este rango. La utilidad del
126 Mara Eugenia Szretter

Figura 44: Distribucin de Yh cuando Xth = (1, 30, 1360) . Fuente: [6], pg. 57.

intervalo de prediccin depende, como siempre, del ancho del intervalo y de


la necesidad de precisin por parte del usuario.
En general, cuando los parmetros del modelo de regresin con errores
normales son conocidos, los lmites de la prediccin de la Yh(nueva) son

E (Yh ) z1 2 (52)

4.11.2. Intervalo de prediccin para Yh(nueva) cuando los parmet-


ros son desconocidos
Cuando los parmetros de regresin son desconocidos, deben ser estima-
dos. La media de la distribucin de Y se estima por Ybh , como de costumbre, y
la varianza de la distribucin de Y se estima por la MSRes. No podemos, sin
embargo slo utilizar los lmites de la prediccin de (52) con los parmetros
reemplazados por los estimadores puntuales correspondientes. La razn de
ello es ilustrada de manera intuitiva en la Figura 45. En ella se muestran dos
distribuciones de probabilidad de Y , que corresponde a los lmites superior e
inferior de un intervalo de confianza para E (Yh ). En otras palabras, la dis-
tribucin de Y puede ser ubicada tan a la izquierda como la distribucin que
4.11 Intervalos de Prediccin para una Nueva Observacin Yh(nueva) 127

se exhibe a la extrema izquierda, o tan a la derecha como la distribucin que


se exhibe a la extrema derecha, o en cualquier lugar en el medio. Dado que
no sabemos la media E (Yh ) y slo la podemos estimar por un intervalo de
confianza, no podemos estar seguros de la localizacin de la distribucin de
Y.
La Figura 45 tambin muestra los lmites de prediccin para cada una
de las dos distribuciones de probabilidad de Y all presentadas. Ya que no
podemos estar seguros de la localizacin del centro de la distribucin de Y ,
los lmites de la prediccin de Yh(nueva) claramente deben tener en cuenta dos
elementos, como se muestra en la Figura 45:

1. La variacin en la posible ubicacin de la (esperanza o centro de la)


distribucin de Y .

2. La variacin dentro de la distribucin de probabilidad de Y .

Figura 45: Prediccin de Yh(nueva) cuando los parmetros son desconocidos.


Fuente: [6], pg 58.

Los lmites de prediccin para una nueva observacin Yh(nueva) en un de-


terminado nivel Xh se obtienen por medio del siguiente resultado

ch
Yh(nueva) Y
tnp (53)
s (pred)
128 Mara Eugenia Szretter

Observemos que en el estadstico de Student utilizamos el estimador puntual


ch en el numerador y no la verdadera media E (Yh ) porque la media real se
Y
desconoce y no puede ser utilizada al hacer la prediccin. El desvo estndar
estimado de la prediccin, s (pred), en el denominador se define por

s2 (pred) = MSRes + Vd ar Ybh

1
= MSRes 1 + X0h (X0 X) Xh ,

de manera anloga a lo que habamos calculado para el modelo de regresin


lineal simple. A partir de dicho resultado, el intervalo de prediccin de la
Yh(nueva) correspondiente a Xh de nivel 1 es

Ybh tnp,1/2 s (pred)


q
b
Yh tnp,1/2 MSRes 1 + X0h (X0 X)1 Xh

Observemos que el numerador del estadstico de Student (53) representa


cun lejos se desviar la nueva observacin Yh(nueva) de la media estimada Ybh
basada en los n casos originales en el estudio. Esta diferencia puede ser vista
como el error de prediccin, con Ybh jugando el papel de la mejor estimacin
puntual del valor de la nueva observacin Yh(nueva) . La varianza de este error
de prediccin puede ser fcilmente obtenida mediante la utilizacin de la
independencia de la nueva observacin, Yh(nueva) y los n casos originales de la
muestra en la que se basa Ybh .

c
V ar (pred) = V ar Yh(nueva) Yh

= V ar Yh(nueva) + V ar Y ch

2
= + V ar Y ch

Luego, la varianza del error de prediccin V ar (pred) tiene dos compo-


nentes:

1. La varianza de la distribucin de Y en X = Xh , es decir, 2 .



ch , es decir, V ar Y
2. La varianza de la distribucin muestral de Y ch .

Un estimador insesgado de V ar (pred) es



s (pred) = MSRes + V ar Ybh .
2 d
4.11 Intervalos de Prediccin para una Nueva Observacin Yh(nueva) 129


Por supuesto, como este estimador es siempre mayor que Vd ar Ybh , que
aparecen en el intervalo de confianza (50), el intervalo de prediccin de la
Yh(nueva) correspondiente a Xh de nivel 1 siempre ser ms largo que el
intervalo de confianza de nivel 1 para E (Yh ) , la respuesta media esperada
cuando las covariables son Xh .

4.11.3. Ejemplo de clculo de Intervalo de Confianza para E (Yh )


y de un Intervalo de Prediccin para Yh(nueva)

Apliquemos estos dos resultados (clculo de intervalo de confianza e in-


tervalo de prediccin) a un caso particular, usando los datos de bebs de
bajo peso. Buscamos un intervalo de confianza para la media del permetro
ceflico de un beb con 30 semanas de gestacin y que pes 1360g. al nacer,
de nivel 0,95. El intervalo de confianza resulta ser

Tabla 16: Intervalos de confianza y prediccin de nivel 0,95 para los datos de
nios de bajo peso al nacer, para edad gestacional de 30 semanas y peso al
nacer de 1360g.

> new<-data.frame(gestage=30, birthwt= 1360)


> predict.lm(ajuste2,new,interval="confidence")
fit lwr upr
1 28.17871 27.81963 28.53778
> predict.lm(ajuste2,new,interval="prediction")
fit lwr upr
1 28.17871 25.62492 30.73249

O, bien, operando a mano, la matriz de varianzas de los coeficientes beta


da

> vcov(sal2)
(Intercept) gestage birthwt
(Intercept) 2.4930607944 -9.986181e-02 3.714576e-04
gestage -0.0998618122 4.522022e-03 -2.801056e-05
birthwt 0.0003714576 -2.801056e-05 3.983870e-07
130 Mara Eugenia Szretter


Recordemos que Vd
ar Ybh est definida en (49), luego

Vd
ar Ybh

= Xth Vd b Xh
ar
2

2,4930607944 9,986181 103 3,714576 104 1
= 1 30 1360 0,0998618122 4,522022 10 2,801056 105 30
0,0003714576 2,801056 105 3,983870 107 1360
= 0,032731
Como
tnp,1/2 = t97,0,975 = 1,984723
Ybh = 8,3080 + 0,4487 30 + 0,0047122 1360 = 28,178
resulta que el intervalo de confianza de nivel 1 = 0,95 para E (Yh ) , la
respuesta media esperada cuando las covariables son Xh , es
r
Ybh tnp,1/2 Vd
ar Ybh
p
28,178 1,984723 0,032731
28,178 0,359 07
es decir
[27,819; 28,537]
Por otro lado, el intervalo de prediccin de la Yh(nueva) correspondiente a
Xh de nivel 1 = 0,95 es
Ybh tnp,1/2 s (pred)
r
Yh tnp,1/2 MSRes + V ar Ybh
b d

Como
MSRes = 1,62,
el intervalo de prediccin de la Yh(nueva) resulta ser
p
28,178 1,984723 1,62 + 0,032731
28,178 2,551 5
es decir,
[25,62; 30,730] .
4.12 Predictores Categricos 131

4.11.4. Precaucin Respecto de Extrapolaciones Ocultas


Al estimar una respuesta media o al predecir una nueva observacin en
la regresin mltiple, hay que tener especial cuidado de que la estimacin o
prediccin est comprendida dentro del alcance del modelo. El peligro, por
supuesto, es que el modelo puede no ser apropiado cuando se lo extiende fuera
de la regin de las observaciones. En regresin mltiple, es particularmente
fcil perder la nocin de esta regin ya que los niveles de X1 , ..., Xp1 definen
a la regin en forma conjunta. Por lo tanto, uno no puede simplemente mirar
los rangos de cada variable predictora de forma individual. Para visualizar el
problema, consideremos la Figura 46, donde la regin sombreada es la regin
de las observaciones para una regresin mltiple con dos variables de predic-
cin y el punto con un crculo alredor representa los valores (Xh1 , Xh2 ) para
los que se desea predecir la Yh(nueva) . Dicho punto est dentro de los rangos
de las variables predictoras X1 y X2 en forma individual, sin embargo, est
bien fuera de la regin conjunta de las observaciones. Cuando slo hay dos
variables de prediccin es fcil descubrir que se est frente a esta extrapo-
lacin, a travs de un scatterplot (o grfico de dispersin) pero esta deteccin
se hace mucho ms difcil cuando el nmero de variables predictivas es muy
grande. Se discute en la Seccin 5.2 un procedimiento para identificar las
extrapolaciones ocultas cuando hay ms de dos variables predictoras.

Ejercicio 4.1 Hacer el ejercicio 1 del Taller 3, sobre regresin lineal mlti-
ple, que figura en el Apndice A.

Ejercicio 4.2 Hacer el ejercicio 2 del Taller 3, sobre regresin lineal mlti-
ple, que figura en el Apndice A.

4.12. Predictores Categricos


Hasta ahora hemos visto el modelo de regresin lineal simple con un
slo predictor continuo. Sin embargo, tanto en regresin lineal simple como
mltiple los predictores pueden ser variables binarias, categricas, numricas
discretas o bien numricas continuas.

4.12.1. Predictores Binarios


Comencemos con un ejemplo.
Los niveles de glucosa por encima de 125 mg/dL son diagnstico de dia-
betes, mientras que los niveles en el rango de 100 a 125 mg/dL sealan un
aumento en el riesgo de progresar a esta condicin grave. Por lo tanto, es
de inters determinar si la actividad fsica, una caracterstica del estilo de
132 Mara Eugenia Szretter

Figura 46: Regin de observaciones en X1 y X2 conjuntamente, comparada


con los rangos de X1 y X2 por separado.

vida que es modificable, podra ayudar a las personas a reducir sus niveles de
glucosa y, por ende, evitar la diabetes. Responder a esta pregunta de man-
era concluyente requerira un ensayo clnico aleatorizado, lo cual es a la vez
difcil y costoso. Por ello, preguntas como estas son con frecuencia, inicial-
mente respondidas utilizando datos observacionales. Pero esto es complicado
por el hecho de que las personas que hacen ejercicio fsico difieren en muchos
aspectos de las que no lo hacen, y algunas de las otras diferencias podran
explicar cualquier asociacin (no ajustada) entre el ejercicio fsico y el nivel
de glucosa.
Usaremos un modelo lineal simple para predecir el nivel base de glucosa
usando una medida de ejercicio, para 2.032 participantes sin diabetes en el
ensayo clnico HERS de terapia hormonal (Hulley et al., 1998 [4]). Excluimos
a las mujeres con diabetes porque la pregunta que queremos responder es si
el hecho de hacer actividad fsica puede ayudar a prevenir la progresin a
4.12 Predictores Categricos 133

la diabetes entre las mujeres en riesgo, y porque las causas que determinan
la glucosa pueden ser diferentes en dicho grupo. Este conjunto de datos es
tratado en el libro de Vittingho [14].

Hay muchas manera de identificar cuantitativamente las clases de una


variable cualitativa. Usaremos variables indicadoras que valen 0 1. Estas
variables indicadoras son fciles de usar y son ampliamente utilizadas, pero
de ninguna manera son la nica forma de cuantificar una variable cualita-
tiva. Ver, por ejemplo, ms adelante en la Observacin 4.12 una propuesta
alternativa de codificacin. Para el ejemplo, definimos la variable indicadora
(o binaria, o dummy) por


si la isima mujer hace actividad fsica
1
al menos 3 veces por semana
Xi1 = (54)



0 si no

El modelo de regresin lineal para este caso es

Yi = 0 + 1 Xi1 + i

La funcin de respuesta para este modelo de regresin es

E (Y | X1 ) = 0 + 1 X1 . (55)

Para entender el significado de los coeficientes de regresin en este modelo,


consideremos primero el caso de una mujer que no hace ejercicio. Para tal
mujer, X1 = 0, y la funcin de respuesta (55) se reduce a

E (Y ) = 0 + 1 0 = 0 no ejercita

Para una mujer que s hace ejercicio, X1 = 1, y la funcin de respuesta (55)


se convierte en

E (Y ) = 0 + 1 1 = 0 + 1 ejercita

Luego, el modelo de regresin lineal en este caso es simplemente expresar


la media del nivel de glucosa en cada poblacin mediante dos coeficientes
distintos, donde 0 es la media de la glucosa para las mujeres que no ejercitan
y 0 + 1 es la media de la glucosa para las mujeres que ejercitan; por lo tanto,
1 es la diferencia (positiva o negativa, dependiendo del signo) en niveles
medios de glucosa para las mujeres que ejercitan respecto de las que no.
Observemos que esto es consistente con nuestra interpretacin ms general
134 Mara Eugenia Szretter

de j como el cambio en E[Y |X] por un aumento de una unidad de Xj . En


este caso, si el ejercicio estuviera asociado con menores niveles de glucosa
(como se presume) 1 debera ser negativo.
En la Tabla 17 presentamos el resultado de ajustar el modelo propuesto
a los datos. Los datos estn en el archivo datoshersmodif2.txt.El conjunto
de datos correspondiente a mujeres sin diabetes est en el archivo her1.txt.

Tabla 17: Ajuste de la regresin para la variable glucosa con ejercicio como
explicativa.

ajuste3<-lm(glucose~exercise)
> summary(ajuste3)

Call:
lm(formula = glucose ~ exercise)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 97.3610 0.2815 345.848 < 2e-16
exercise -1.6928 0.4376 -3.868 0.000113

Residual standard error: 9.715 on 2030 degrees of freedom


Multiple R-squared: 0.007318, Adjusted R-squared: 0.006829
F-statistic: 14.97 on 1 and 2030 DF, p-value: 0.000113

> anova(ajuste3)
Analysis of Variance Table

Response: glucose
Df Sum Sq Mean Sq F value Pr(>F)
exercise 1 1413 1412.50 14.965 0.000113 ***
Residuals 2030 191605 94.39

El coeficiente estimado para la actividad fsica (exercise) muestra que


los niveles basales de glucosa fueron alrededor de 1,7 mg/dL ms bajos para
mujeres que hacan ejercicios al menos tres veces por semana que para las
mujeres que ejercitaban menos. Esta diferencia es estadsticamente significa-
tiva (t = 3,868, p valor = 0,000113 < 0,05).
Sin embargo, las mujeres que hacen ejercicio son un poco ms jvenes,
un poco ms propensas a consumir alcohol, y, en particular, tienen un menor
4.12 Predictores Categricos 135

ndice promedio de masa corporal (BMI), todos factores asociados con el


nivel de glucosa. Esto implica que el promedio ms bajo de la glucosa que
observamos entre las mujeres que hacen ejercicio puede deberse al menos
en parte, a diferencias en estos otros predictores. En estas condiciones, es
importante que nuestra estimacin de la diferencia en los niveles promedio
de glucosa asociadas con el ejercicio se ajuste a los efectos de estos factores
de confusin potenciales de la asociacin sin ajustar. Idealmente, el ajuste de
un modelo de regresin mltiple (o sea, de mltiples predictores) proporciona
una estimacin del efecto (causal?) de ejercitar en el nivel medio de glucosa,
manteniendo las dems variables constantes.

Observacin 4.11 Qu pasa si ponemos dos variables binarias para mo-


delar ejercicio? O sea, si definimos:

1 si la isima mujer ejercita
Xi1 =

0 si no

y
1 si la isima mujer no ejercita
Xi2 =

0 si no
Ac decimos que ejercita si hace actividad fsica ms de tres veces por semana.
Entonces el modelo sera

Yi = 0 + 1 Xi1 + 2 Xi2 + i (56)

Esta manera intuitiva de incorporar una variable indicadora para cada clase
de la predictora cualitativa, desafortunadamente, conduce a problemas tanto
estadsticos (de identificacin de parmetros) como computacionales. Para
verlo, supongamos que tuviramos n = 4 observaciones, las primeras dos
compuestas por mujeres que ejercitan (X1 = 1, X2 = 0 ) y las dos segundas
que no lo hacen (X1 = 0, X2 = 1 ) . Entonces la matriz X sera

X1 X2

1 1 0
1 1 0
X=
1

0 1
1 0 1
136 Mara Eugenia Szretter

Observemos que la suma de las columnas X1 y X2 da la primer columna,


de modo que las columnas de esta matriz son linealmente dependientes. Esto
tiene un efecto serio en la matriz X t X.

1 1 0
1 1 1 1 4 2 2
1 1 0
X tX = 1 1 0 0 1 0 1 = 2 2 0

0 0 1 1 2 0 2
1 0 1

Vemos que la primer columna de la matriz X t X es igual a la suma de las


ltimas dos, de modo que las columnas son linealmente dependientes. Luego,
la matriz X t X no tiene inversa, y por lo tanto, no se pueden hallar ni-
cos estimadores de los coeficientes de regresin. De hecho, no hay unicidad
tampoco en los parmetros del modelo (lo que en estadstica se conoce como
identificabilidad de los parmetros) puesto que la funcin de respuesta para
el modelo (56) es

0 + 1 si ejercita
E (Y | X2 , X3 ) = 0 + 1 X1 + 2 X2 =

0 + 2 si no ejercita

En particular, tomando

0 = a
1 = b
2 = c

o bien

0 = a b
1 = 2b
2 = c

resulta, en ambos casos



a+b si ejercita
E (Y | X2 , X3 ) =

a+c si no ejercita

para cualesquiera nmeros reales a, b, c. Una salida simple a este problema


es desprenderse de una de las variables indicadoras. En nuestro ejemplo nos
deshacemos de X2 . Esta forma de resolver el problema de identificabilidad no
4.12 Predictores Categricos 137

es la nica pero, como hemos visto, permite una interpretacin sencilla de los
parmetros. Otra posibilidad en este caso consiste en eliminar 0 y proponer
el modelo

1 si ejercita
E (Y | X2 , X3 ) = 1 X1 + 2 X2 =

2 si no ejercita
Sin embargo, no la exploraremos ya que nuestra propuesta anterior es satis-
factoria.

Comparemos este modelo lineal con una sola regresora dicotmica con el
test t para comparar las medias de dos poblaciones, a travs de dos muestras
independientes. El test t permite decidir entre las hiptesis
H0 : 0 = 1
H1 : 0 6= 1
donde 0 = E (Y | X1 = 0) es decir, la esperanza de la glucosa para las
mujeres que no ejercitan y 1 = E (Y | X1 = 1) la esperanza de la glucosa
para las mujeres que s lo hacen. Recordemos que este test presupone que las
observaciones de cada poblacin tienen distribucin normal con las medias
0 y 1 respectivamente, y la misma varianza (aunque desconocida). Para
este conjunto de datos la salida de correr el test t figura en la Tabla 18.
Recordemos que el estadstico del test es
X n Y n2
n1 + n2 1 tn1 +n2 2
Sp Bajo H 0

donde n1 y n2 son los tamaos de las muestras respectivas, y


"n n2
#
1 X 1
2 X 2
Sp2 = Xi X n1 + Yj Y n2
n1 + n2 i=1 j=1

es la varianza pooleada o combinada de ambas muestras. Por otra parte, para


el modelo (17), el test de H0 : 1 = 0 es tambin un test t, observemos que el
estadstico calculado es el mismo y tambin el pvalor. En el caso en el que
el modelo lineal tiene una sola variable explicativa categrica, el test de si el
coeficiente que la acompaa es estadsticamente significativo es equivalente
a un test t de comparacin de medias entre dos poblaciones normales, con
igual varianza.
Dos observaciones con respecto a la codificacin de la variable binaria
dada en (54):
138 Mara Eugenia Szretter

Tabla 18: Test t para dos muestras normales independientes, datos her1.

> t.test(glucose~ exercise,data=her1,var.equal=T)

Two Sample t-test

data: glucose by exercise


t = 3.8685, df = 2030, p-value = 0.000113
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.8346242 2.5509539
sample estimates:
mean in group 0 mean in group 1
97.36104 95.66825

- Comparemos el valor de 0 estimado en la Tabla 17 (que es b0 =


97,361) con el promedio de la glucosa de las mujeres que no ejercitan
(el grupo correspondiente a exercise = 0) calculado en la Tabla 18,
que es 93,361, como anticipramos. De igual modo, recuperamos el
promedio de glucosa de las mujeres que ejercitan (95,66825 en la Tabla
b0 +
18) a partir de sumar b1 de la Tabla 17

b0 +
b1 = 97,36104 1,692789 = 95,668.

- Codificando de esta forma, el promedio de la variable exercise da la


proporcin de mujeres que hacen ejercicio en la muestra, que son el
41,39 % de la muestra, como puede comprobarse en la Tabla 19 que
tiene los estadsticos descriptivos de la variable exercise.

Tabla 19: Estadsticos descriptivos de la variable exercise.

> summary(exercise)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.0000 0.0000 0.4139 1.0000 1.0000
4.12 Predictores Categricos 139

Observacin 4.12 Una alternativa comnmente utilizada para la codificacin


de las variables binarias es (1 = s, 2 = no). Con este cdigo, el modelo es

E (Y | X1 ) = 0 + 1 X1 .

Luego la funcin de respuesta para las mujeres que ejercitan (X1 = 1) es

E (Y ) = 0 + 1 ,

y para las que no ejercitan (X1 = 2) es

E (Y ) = 0 + 2 1 .

Nuevamente, la diferencia entre ambas medias es 1 . Luego el coeficiente 1


conserva su interpretacin como la diferencia en el nivel medio de glucosa
entre grupos, pero ahora entre las mujeres que no hacen ejercicio, comparadas
con aquellas que s lo hacen, una manera menos intuitiva de pensarlo. De
hecho, 0 slo no tiene una interpretacin directa, y el valor promedio de la
variable binaria no es igual a la proporcin de observaciones de la muestra
que caen en ninguno de los dos grupos. Observar que, sin embargo, en general
el ajuste del modelo, es decir, los valores ajustados, los errores estndares, y
los p-valoresson iguales con cualquier codificacin.

4.12.2. Un predictor binario y otro cuantitativo

Incorporemos al modelo una variable cuantitativa. Tomaremos el ndice


de masa corporal que se denomina BMI (body mass index, medido en kg/m2 )
en la base de datos,

Xi2 = BMI de la mujer isima.

El ndice de masa corporal (BMI) es una medida de asociacin entre el peso


y la talla de un individuo ideada por el estadstico belga L. A. J. Quetelet,
por lo que tambin se conoce como ndice de Quetelet. Se calcula segn la
expresin matemtica
peso
BMI =
estatura2
donde la masa o peso se expresa en kilogramos y la estatura en metros, luego
la unidad de medida del BMI es kg/m2 . En el caso de los adultos se ha
utilizado como uno de los recursos para evaluar su estado nutricional, de
acuerdo con los valores propuestos por la Organizacin Mundial de la Salud:
140 Mara Eugenia Szretter

a grandes rasgos se divide en tres categoras: delgadez (si BMI < 18,5),
peso normal (cuando 18,5 BMI < 25) y sobrepeso (si BMI 25), con
subclasificaciones que contemplan los casos de infrapeso u obesidad.
Luego el modelo de regresin lineal mltiple que proponemos es

Yi = 0 + 1 Xi1 + 2 Xi2 + i .

O, si escribimos la funcin de respuesta (o sea, el modelo para la esperanza


de Y ) obtenemos

E (Y | X1 , X2 ) = 0 + 1 X1 + 2 X2 . (57)

Interpretemos los parmetros. Para las mujeres que no hacen ejercicio (X1 =
0) la funcin de respuesta es

E (Y ) = 0 + 1 0 + 2 X2 = 0 + 2 X2 no ejercita (58)

O sea, la funcin de respuesta para la glucosa media de las mujeres que no


ejercitan es una lnea recta con ordenada al origen 0 y pendiente 2 .
Para las que s hacen ejercicio (X1 = 1) la funcin de respuesta (57) se
convierte en

E (Y ) = 0 + 1 1 + 2 X2 = ( 0 + 1 ) + 2 X2 ejercita (59)

Esta funcin tambin es una lnea recta, con la misma pendiente 2 pero con
ordenada al origen ( 0 + 1 ) . En la Figura 47 se grafican ambas funciones.
4.12 Predictores Categricos 141

Figura 47: Significado de los coeficientes del modelo de regresin (57) con
una variable indicadora X1 de ejercicio y una variable continua X2 = BMI
(ejemplo de las mujeres del ensayo clnico HERS).

Enfoqumosnos en el significado de los coeficientes en la funcin (57) en


el caso de las mediciones del nivel de glucosa. Vemos que el nivel medio de
glucosa, E (Y ), es una funcin lineal del BMI (X2 ) de la mujer, con la misma
pendiente 2 para ambos tipos de mujeres. 1 indica cunto ms baja (o ms
alta) es la funcin de respuesta para las mujeres que hacen ejercicio respecto
de las que no, fijada el BMI. Luego 1 mide el efecto diferencial por ejercitar.
Como el ejercicio debiera reducir el nivel de glucosa, esperamos que 1 sea
menor que cero y que la recta de valores de glucosa esperados para mujeres
que ejercitan (59) est por debajo de las que no lo hacen (58). En general,
1 muestra cunto ms baja (o ms alta) est la recta de respuesta media
para la clase codificada por 1 respecto de la recta de la clase codificada por
0, para cualquier nivel fijo de X2 .
En la Tabla 20 figura el ajuste del modelo propuesto. La funcin de re-
spuesta ajustada es

Yb = 83,942 0,91729X1 + 0,47361X2 .

Nos interesa medir el efecto de ejercitar (X1 ) en el nivel de glucosa en


sangre. Para ello buscamos un intervalo de confianza del 95 % para 1 . Nece-
sitamos el percentil 0,975 de la t de Student con n 3 = 2027 grados de
142 Mara Eugenia Szretter

Tabla 20: Ajuste de la regresin para la variable glucosa con ejercicio y BMI
como explicativas

> summary(lm(glucose ~ exercise + BMI, data = her1 ))


Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 83.94220 1.19935 69.990 <2e-16
exercise -0.91729 0.42981 -2.134 0.0329
BMI 0.47361 0.04119 11.498 <2e-16
---
Residual standard error: 9.418 on 2027 degrees of freedom
(2 observations deleted due to missingness)
Multiple R-squared: 0.06817, Adjusted R-squared: 0.06725
F-statistic: 74.14 on 2 and 2027 DF, p-value: < 2.2e-16

> anova(lm(glucose ~ exercise + BMI, data = her1 ))


Analysis of Variance Table

Response: glucose
Df Sum Sq Mean Sq F value Pr(>F)
exercise 1 1427 1426.6 16.083 6.283e-05
BMI 1 11727 11727.2 132.206 < 2.2e-16
Residuals 2027 179802 88.7
---

libertad (n = 2030, hay dos observaciones menos porque falta el BMI de el-
las). Como t (0,975, 2027) = 1,961135 ' 1,959964 = z0,975 , los lmites para el
intervalo de confianza resultan ser

0,91729 1,96 0,42981

o sea

0,91729 1,96 0,42981 1 0,91729 + 1,96 0,42981


1,759 7 1 0,07486 2

Luego, con el 95 por ciento de confianza concluimos que las mujeres que
ejercitan tienen un nivel de glucosa entre 0,07 y 1,76 mg/dL, ms bajo que
las que no lo hacen, en promedio, para un cada nivel de BMI fijo. Un test
4.12 Predictores Categricos 143

formal de
H0 : 1 = 0
H1 : 1 6= 0
con nivel de significatividad de 0,05 nos conducira a rechazar H0 y aceptar
H1 , es decir, que el ejercicio tiene efecto cuando en el modelo incluimos el
BMI, pues el intervalo de confianza del 95 % para 1 no contiene al cero. Eso
lo vemos tambin en la tabla de salida del paquete estadstico, en el p-valor
de dicho coeficiente, que es 0,0329 < 0,05.
Observacin 4.13 Por qu no ajustar dos regresiones lineales separadas
(una para las mujeres que ejercitan y otra para las que no) en vez de hacer
un ajuste con el total de datos? O sea, ajustar
(0) (0)
E (Y | X2 ) = 0 + 2 X2 no ejercitan (60)
para las que no ejercitan y
(1) (1)
E (Y | X2 ) = 0 + 2 X2 ejercitan (61)
para las que ejercitan. Hay dos razones para esto.
- El modelo (57) asume pendientes iguales en (60) y (61) y la misma
varianza del error de para cada tipo de mujer. En consecuencia, la
pendiente comn 2 se puede estimar mejor usando la informacin en
la muestra conjunta. Ojo, este modelo no debera usarse si no se cree
que este supuesto sea correcto para los datos a analizar.
- Usando el modelo (57) otras inferencias, como por ejemplo las real-
izadas sobre 0 y 1 resultarn ms precisas pues se disponen de ms
observaciones para estimarlos y estimar a 2 (lo que se traduce en
ms grados de libertad en el MSRes). De todos modos, en este ejemplo
donde hay ms de dos mil observaciones, tenemos grados de libertad
suficientes para proponer dos modelos si creyramos que el modelo (57)
no describe bien a los datos.
Observacin 4.14 Los modelos de regresin mltiple en los que todas las va-
riables explicativas son cualitativas se suelen denominar modelos de anli-
sis de la varianza (ANOVA). Los modelos que contienen algunas varia-
bles explicativas cuantitativas y otras variables explicativas cualitativas, para
los que la variable explicativa de inters principal es cualitativa (por ejemplo,
tipo de tratamiento que recibe el paciente) y las variables cuantitativas se in-
troducen primariamente para reducir la varianza de los trminos del error, se
suelen denominar modelos de anlisis de la covarianza (ANCOVA).
144 Mara Eugenia Szretter

4.13. Predictores Cualitativos con ms de dos clases


4.13.1. Una sola predictora cualitativa con ms de dos clases
Las 2.763 mujeres de la cohorte HERS tambin respondieron a una pre-
gunta acerca de cun activas fsicamente se consideraban a s mismas, en
comparacin con otras mujeres de su edad. La respuesta, de cinco niveles, se
denomina physact: va desde mucho menos activa a mucho ms activa,
y fue codificada en orden de 1 a 5. Este es un ejemplo de una variable ordinal
(con valores o categoras cuyo orden relativo es relevante, pero separados por
incrementos que pueden no estar reflejados en forma precisa en la codificacin
numrica asignada). Por ejemplo, las respuestas mucho menos activa y un
poco menos activa pueden representar entre s una mayor diferencia en la
actividad fsica que las que hay entre un poco menos activa y casi tan
activa. Es de resaltar que esta variable no es la variable exercise que con-
sideramos antes, sino otra variable reportada por cada mujer sobre s misma.
Las categoras de la variable physact figuran en la Tabla 21.

Tabla 21: Niveles de la variable physact, en respuesta a la pregunta cun


activa fsicamente se considera a usted misma en comparacin con otras mu-
jeres de su edad?

Categoras de physact codificacin original


Mucho menos activa (Much less active) 1
Algo menos activa (Somewhat less active) 2
Casi tan activa (About as active) 3
Un poco ms activa (Somewhat more active) 4
Mucho ms activa (Much more active) 5

Las variables categricas de muchos niveles tambin puede ser nominales,


en el sentido que no hay un orden intrnseco en las categoras. Etnia, estado
civil, ocupacin y regin geogrfica son ejemplos de variables nominales. Con
las variables nominales es an ms claro que la codificacin numrica usada
habitualmente para representar a la variable en la base de datos no puede
ser tratada como los valores de una variable numrica como nivel de glucosa
en sangre.
Las categoras se suelen crear para ser mutuamente excluyentes y exhaus-
tivas, por lo que que cada miembro de la poblacin se encuentra en una y slo
una categora. En ese caso, tanto las categoras ordinales como las nominales
definen subgrupos de la poblacin.
Es secillo acomodar ambos tipos de variables tanto en la regresin lineal
mltiple como en otros modelos de regresin, usando variables indicadoras o
4.13 Predictores Cualitativos con ms de dos clases 145

dummies. Como en las variables binarias, donde dos categoras se representan


en el modelo con una sola variable indicadora, las variables categricas con
K 2 niveles se representan por K 1 indicadoras, una para cada nivel de
la variable, excepto el nivel de referencia o basal. Supongamos que elegimos
el nivel 1 como nivel de referencia. Entonces para k = 2, 3, ..., K, la k-sima
variable indicadora toma el valor 1 para las observaciones que pertenecen a
la categora k, y 0 para las observaciones que pertenecen a cualquier otra
categora. Observemos que para K = 2 esto tambin describe el caso binario,
en el cual la respuesta no define el nivel basal o de referencia y la variable
indicadora toma el valor 1 slo para el grupo s.
Traduzcamos todo al ejemplo. Como la variable ordinal physact tiene 5
categoras, necesitamos definir 4 variables dummies. Las llamamos Iphysact_1,
Iphysact_2, Iphysact_3 y Iphysact_4. En la Tabla 22, observamos los
valores para las cuatro variables indicadoras correspondientes a la variable
categrica de 5 niveles physact. Cada nivel de physact queda definidio por
una combinacin nica de las cuatro variables indicadoras.

Tabla 22: Codificacin de las variables indicadoras para una variable categri-
ca multinivel
Variables indicadoras
physact Iphysact_2 Iphysact_3 Iphysact_4 Iphysact_5
1 0 0 0 0
2 1 0 0 0
3 0 1 0 0
4 0 0 1 0
5 0 0 0 1

Por el momento consideremos un modelo simple en el cual los cinco niveles


de physact sean los nicos predictores. Entonces

E (Y | X) = 0 + 2 Iphysact_2 + 3 Iphysact_3 (62)


+ 4 Iphysact_4 + 5 Iphysact_5

donde X representa las cuatro variables dummies recin definidas, es decir,

X = (Iphysact_2, Iphysact_3, Iphysact_4, Iphysact_5) .

Para tener mayor claridad, en (62) hemos indexado a los 0 s en concordancia


con los niveles de physact, de modo que 1 no aparece en el modelo. Si
dejamos que las cuatro indicadoras tomen el valor 0 1 de manera de definir
146 Mara Eugenia Szretter

los cinco niveles de physact, obtenemos




0 si physact = 1


0 + 2 si physact = 2
E (Y | X) = 0 + 3 si physact = 3 (63)



+ 4 si physact = 4
0
0 + 5 si physact = 5

De (63) es claro que 0 , la ordenada al origen, da el valor de E (Y | X) en


el grupo de referencia, (el grupo mucho menos activa, o physact = 1).
Entonces es slo cuestin de restarle a la segunda lnea la primera lnea para
ver que 2 da la diferencia en el promedio de glucosa en el grupo algo menos
activa (physact = 2) comparado con el grupo mucho menos activa. De
acuerdo con esto, el test de H0 : 2 = 0 es un test para chequear si los niveles
medios de glucosa son los mismos en los dos grupos algo menos activa y
mucho menos activa (physact = 1 y 2). Y de manera similar para 3 , 4
y 5.
Podemos hacer unas cuantas observaciones a partir de (63).

- Sin otros predictores, o covariables, el modelo es equivalente a un ANO-


VA de un factor (one-way ANOVA). Tambin se dice que el modelo est
saturado (es decir, no impone estructura alguna a las medias pobla-
cionales) y las medias de cada grupo de la poblacin se estimarn bajo
el modelo (63) por el promedio de las muestras correspondientes. Con
covariables, las medias estimadas para cada grupo se ajustarn a las
diferencias entre grupos en las covariables incluidas en el modelo.

- Los parmetros del modelo (y por lo tanto las dummies que los acom-
paanan) pueden ser definidos para que signifiquen la media pobla-
cional de cada grupo o, por ejemplo, para que sean las diferencias en-
tre las medias poblacionales de dos grupos distintos, como en (63).
Por ejemplo, la diferencia en los niveles medios de la variable Y entre
los grupos mucho ms activa (physact = 5) y algo menos activa
(physact = 2) est dada por 5 2 (chequearlo). Todos los paquetes
estadsticos permiten calcular de manera directa estimadores y tests de
hiptesis acerca de estos contrastes lineales. Esto implica que la elec-
cin del grupo de referencia es, en algun sentido, arbitraria. Mientras
que alguna eleccin en particular puede ser la mejor para facilitar la
presentacin, posiblemente porque los contrastes con el grupo de refer-
encia seleccionado sean los de mayor inters, cuando se toman grupos
de referencia alternativos esencialmente se est definiendo el mismo
modelo.
4.13 Predictores Cualitativos con ms de dos clases 147

Tabla 23: Ajuste de regresin lineal mltiple para explicar a la variable glu-
cosa con la variable actividad fsica mirada como categrica (datos de la base
HERS).

> summary(lm(glucose ~Iphysact_, data = her1))

Call:
lm(formula = glucose ~ Iphysact_, data = her1)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 112.7980 0.8350 135.09 <2e-16
Iphysact_2 -13.3139 0.9576 -13.90 <2e-16
Iphysact_3 -13.6174 0.9039 -15.06 <2e-16
Iphysact_4 -17.8211 0.9006 -19.79 <2e-16
Iphysact_5 -22.8094 0.9247 -24.67 <2e-16
---

Residual standard error: 8.308 on 2027 degrees of freedom


Multiple R-squared: 0.2752, Adjusted R-squared: 0.2737
F-statistic: 192.4 on 4 and 2027 DF, p-value: < 2.2e-16

La Tabla 23 muestra los resultados para el modelo con physact tratada


como una variable categrica, utilizando de nuevo los datos para las mujeres
sin diabetes en el estudio HERS. En la salida de la regresin, b0 se encuentra
en la columna y la fila con la etiqueta Coef. y _cons; vemos que la glucosa
media en el grupo menos activo es de aproximadamente 112,798 mg / dL.
Las diferencias entre el grupo de referencia y los distintos grupos ms activos
de mujeres son estadsticamente significativas; por ejemplo, el nivel promedio
de glucosa en el grupo mucho ms activa (Iphysact_5) es 22,8094 mg / dL
menor que el del grupo mucho menos activa (Iphysact_1) (t = 24,67,
p valor < 1,7 1011 ). En la Figura 48 vemos un boxplot de los datos de
glucosa para mujeres sin diabetes, separados segn sus niveles de physact,
donde se aprecia esta diferencia.
Es de inters testear si la variable physact sirve para explicar al nivel de
glucosa. Para evaluarla en su conjunto se utiliza el test F que describiremos
en la Seccin 4.13.4. Antes de hacerlo discutamos otra manera de introducir
a la variable physact en el modelo
148 Mara Eugenia Szretter

Figura 48: Boxplot de los datos de glucosa para las mujeres sin diabetes de
la cohorte HERS, segn sus niveles de physact.

Boxplot de glucose por niveles de physact


120
100
80
60

1 2 3 4 5

4.13.2. Variables indicadoras versus variables numricas


Una alternativa al uso de variables indicadoras de una variable de predic-
cin cualitativa es pensarla como numrica. En el ejemplo de la glucosa,
podramos utilizar una nica variable predictora Z y asignar valores 1,2,3, 4
y 5 a las clases, como se describe en la Tabla 24.
Los valores numricos son, por supuesto, arbitrarios y podran ser cualquier
otro conjunto de nmeros. El modelo en este caso sera

Yi = 0 + 1 Zi + i (64)

La principal dificultad en tomar a las variables categricas como numricas


es que la numeracin otorgada a las categoras distintas define una mtrica en
las clases de la variable cualitativa que puede no resultar razonable. Vemoslo
en el ejemplo. Escribimos la funcin de respuesta media con el modelo (64)
4.13 Predictores Cualitativos con ms de dos clases 149

Tabla 24: Variable categrica mirada como numrica

physact Z
Mucho menos activa (Much less active) 1
Algo menos activa (Somewhat less active) 2
Casi tan activa (About as active) 3
Un poco ms activa (Somewhat more active) 4
Mucho ms activa (Much more active) 5

para las cinco clases de la variable cualitativa




0 + 1 si physact = 1


0 + 2 1 si physact = 2
E (Y | Z) = 0 + 3 1 si physact = 3



+ 4 si physact = 4
0 1
0 + 5 1 si physact = 5

Notemos la implicacin clave de este modelo:

E (Y | physact = 2) E (Y | physact = 1)
= E (Y | physact = 3) E (Y | physact = 2)
=
= E (Y | physact = 5) E (Y | physact = 4)
= 1

Luego, la codificacin 1 a 5 implica que pensamos que la respuesta media


cambia en la misma cantidad cuando pasamos de physact=1 a physact=2
o de physact=4 a physact=5. Esto puede no estar en coincidencia con la
realidad y resulta de la codificacin 1 a 5 que asigna igual distancia entre los 5
tipos de actividad fsica. Por supuesto, con distintas codificaciones podemos
imponer espaciamientos diferentes entre las clases de la variable cualitativa
pero esto sera siempre arbitrario.
En contraposicin, el uso de variables indicadoras no hace supuestos sobre
el espaciamiento de las clases y descansa en los datos para mostrar los efec-
tos diferentes que ocurren. En el caso del modelo (63) no se impone ningun
patrn o vnculo entre s a las cinco medias de los grupos definidos por la
variable categrica, tanto en el modelo sin covariables como si las tuviera.
Aqu 2 da la diferencia en el promedio de glucosa en el grupo physact=2
comparado con el grupo physact=1, y 3 da la diferencia en el promedio
de glucosa en el grupo physact=3 comparado con el grupo physact=1 y,
150 Mara Eugenia Szretter

por ejemplo 3 2 da la diferencia en el promedio de glucosa en el grupo


physact=3 comparado con el grupo physact=2. Observemos que no hay re-
stricciones arbitrarias que deban cumplir estos tres efectos. En cambio, si la
variable physact fuera tratada como una variable numrica que toma valores
de 1 a 5, las esperanzas poblacionales de cada grupo se veran obligadas a
yacer en una lnea recta. Por otro lado, si 3 = 2 2 y 4 = 2 3 y 5 = 2 4 ,
entonces existira equiespaciamiento de las clases, y el modelo (64) sera vli-
do. En sntesis: para problemas como el de la base HERS es preferible usar
la codificacin que proporcionan las cuatro variables dummies.

4.13.3. Variables numricas como categricas


Algunas veces, an cuando las variables son originalmente cuantitativas
se las puede incluir en un modelo como categricas. Por ejemplo, la variable
cuantitativa edad se puede transformar agrupando las edades en las cate-
goras: menor de 21, 21 a 34, 35 a 49, etc. En este caso, se usan variables
indicadoras o dummies para las clases de este nuevo predictor. A primera
vista, este enfoque parece cuestionable, ya que la informacin sobre la edad
real se pierde. Adems, se ponen parmetros adicionales en el modelo, lo que
conduce a una reduccin de los grados de libertad asociados con el MSRes.
Sin embargo, hay ocasiones en las que la sustitucin de una variable
cuantitativa por indicadoras puede ser apropiado. Por ejemplo, cuando se
piensa que la relacin entre la respuesta y la explicativa puede no ser lineal
(en el caso en que la glucosa aumentara tanto para mujeres muy jvenes o muy
grandes) o en una encuesta a gran escala, como en los datos de HERS, donde
la prdida de 10 20 grados de libertad es irrelevante. En una primera etapa
exploratoria, donde se est muy en duda acerca de la forma de la funcin
de regresin, puede ajustarse un modelo como (63) en una primera etapa
exploratoria, y luego, en virtud de lo observado, incluir a la variable como
numrica.
Para grandes conjuntos de datos, la inclusin de variables indicadoras
puede servir como una alternativa a lowess y otros ajustes no paramtricos
para modelar la funcin de respuesta.

4.13.4. El test F
A pesar de que todos los contrastes entre los niveles de una variable ex-
plicativa categrica estn disponibles para ser estimados y comparados luego
de ajustar un modelo de regresin, los test t para estas comparaciones mlti-
ples en general no proporcionan una evaluacin conjunta de la importancia
de la variable categrica para predecir a la variable respuesta, o ms pre-
4.13 Predictores Cualitativos con ms de dos clases 151

cisamente no permiten realizar un nico test de la hiptesis nula de que el


nivel medio de la variable respuesta es el mismo para todos los niveles de
este predictor. En el ejemplo, esto es equivalente a un test de si alguno de
los cuatro coeficientes correspondientes a I_physact difieren de cero. El re-
sultado que aparece en la Tabla 23 (Fobs = 192,4, con 4 grados de libertad
en el numerador y 2027 en el denominador, p valor< 2 1016 ) muestra
que los niveles medios de glucosa son claramente diferentes entre los grupos
definidos por physact. Las hiptesis que chequea este test en este caso son

H0 : 2 = 3 = 4 = 5 = 0 (65)
H1 : al menos uno de los i con i entre 2 y 5 es tal que i 6= 0

En este caso se rechaza la hiptesis nula (p valor< 2 1016 < 0,05) y se


concluye que no todos los i con i entre 2 y 5 son simultneamente iguales
a cero. Luego la actividad fsica es til para predecir el nivel de glucosa. En
general este resultado puede leerse en la tabla de ANOVA del ajuste.
Es por este motivo que conviene ingresar en la base de datos a la variable
physact con sus cinco niveles y pedirle al software que compute las cuatro
variables dicotmicas, en vez de ponerlas a mano en el archivo, pues en tal
caso no hay cmo decirle al paquete que las cuatro variables estn vinculadas
de esta forma.

4.13.5. Comparaciones Mltiples


Cuando el foco est puesto en la diferencia entre un slo par de subgrupos
previamente especificados, el test F es de inters limitado y se puede utilizar
el test t para evaluar el contraste nico entre los subgrupos sin inflar la tasa
de error de tipo I. Sin embargo, deben mantenerse en el anlisis todos los
niveles del predictor categrico, debido que la varianza residual (la estimacin
de 2 ) se puede reducir, a veces sustancialmente, manteniendo divididos a
los grupos restantes (aunque no sean el centro de inters). Adems, esto
evita la combinacin de los subgrupos restantes con cualquiera de los grupos
pre-especificados, centrndose el contraste en la comparacin de inters.
Sin embargo, frecuentemente interesa comparar mltiples diferencias en-
tre pares de niveles de una variable predictora categrica, sobre todo cuando
el test F es estadsticamente significativo, y en algunos casos, incluso cuando
no lo es.
En este caso, hay distintos mtodos disponibles para controlar la tasa
de error de tipo I (experimentwise type-I error rate, EER) para el conjunto
ms amplio de comparaciones. Estos mtodos difieren en el trade-o entre
la potencia de las conclusiones y la amplitud de las circunstancias bajo las
152 Mara Eugenia Szretter

cuales se protege la tasa de error de tipo I. Uno de los ms directos es el


procedimiento de la mnima diferencia significativa de Fisher (LSD: least
significative dierence), en el que las comparaciones por parejas se llevan
a cabo utilizando las pruebas t con la tasa de error de tipo nominal, pero
slo si el test conjunto F es estadsticamente significativo, de lo contrario
la hiptesis nula es aceptada por todas las comparaciones de a pares. Esto
protege el EER bajo la hiptesis nula de que todas los medias de los subgrupos
de la poblacin son las mismas. Sin embargo, est sujeta a la inflacin de la
EER bajo hiptesis nula parcial - es decir, cuando hay algunas diferencias
entre los subgrupos de poblacin real.
Procedimientos ms conservadores que protegen el EER bajo hiptesis
nulas parciales, incluyen establecer el nivel de los tests de las comparaciones
por parejas igual a k (Bonferroni) o 1(1)1/k (Sidak), donde es el EER
deseado y k es el nmero de comparaciones prefijado. La correccin Sidak
es un poco ms liberal para valores pequeos de k, pero de otra manera
equivalente. El mtodo Sche es otro mtodo, aunque muy conservador, en
el que las diferencias pueden ser declaradas estadsticamente significativas
slo cuando el test F global es a su vez estadsticamente significativo. La
diferencia honestamente significativa de Tukey (HSD: honestly significant
dierence) y los mtodos de Tukey-Kramer son ms potentes que los mtodos
de Bonferroni, Sidak o Schee y tienen tambin un buen desempeo bajo
hiptesis nulas parciales.
Son un caso especial las comparaciones con un slo grupo de referencia,
en el que se puede utilizar el test de Dunnett. Esto se ver con detalle al
estudiar el modelo de ANOVA.

4.14. Una predictora cualitativa y una numrica


Ajustemos ahora un modelo de regresin lineal mltiple con una covaria-
ble numrica y una categrica. Siguiendo con los datos de HERS, proponemos
ajustar un modelo donde aparezcan physact y BMI como variables explicati-
vas, donde la primera es categrica (como ya vimos, la incluimos en el modelo
como las 4 dummies definidas por Iphysact_) y la segunda es continua. Pro-
ponemos ajustar el siguiente modelo

E (Y | X) = 0 + 2 Iphysact_2 + 3 Iphysact_3 (66)


+ 4 Iphysact_4 + 5 Iphysact_5 + BMI BMI

En este caso, X = (Iphysact_2, Iphysact_3, Iphysact_4, Iphysact_5, BMI)


Para entender este modelo, nuevamente dejamos que las indicadoras tomen
4.14 Una predictora cualitativa y una numrica 153

el valor 0 1 de manera de definir los cinco niveles de physact, y obtenemos




0 + BMI BMI si physact = 1


0 + 2 + BMI BMI si physact = 2
E (Y | X) = 0 + 3 + BMI BMI si physact = 3



+ 4 + BMI BMI si physact = 4
0
0 + 5 + BMI BMI si physact = 5
es decir, que este modelo propone ajustar una recta distinta para la glucosa
media de cada grupo, todas con igual pendiente que en este caso hemos de-
nominado BMI , y cinco ordenadas al origen diferentes, una por cada grupo.
Como vemos, estamos ajustando cinco rectas paralelas. Ac 2 indica cun-
to aumenta (o disminuye, dependiendo del signo) el valor medio de glucosa
para las mujeres cuyo nivel de actividad fsica es 2 (las mujeres algo menos
activa) respecto de aquellas cuyo nivel de actividad fsica es 1 (las mujeres
mucho menos activas). En la Figura 49 puede verse el grfico que pro-
ponemos para el valor esperado de la glucosa en funcin de la actividad fsica
de las mujeres y del BMI. Como esperamos que a mayor actividad fsica haya
menos glucosa, hemos acomodado las rectas de manera que vayan bajando al
aumentar la actividad fsica de las mujeres. As mismo, es de esperar que a
mayor BMI aumente el nivel de glucosa, por eso en el dibujo proponemos una
pendiente (comn a todos los grupos) positiva, como ya vimos que pasaba
en el ajuste anterior.
La Tabla 25 exhibe el modelo ajustado.
En este caso vemos que cuando incorporamos la variable BMI al modelo,
todos los coeficientes asociados a la variable physact siguen siendo significa-
tivos. El test de, por ejemplo, H0 : 2 = 0 da significativo (t = 13,705,
p valor < 2 1016 ) indicando que hay diferencia significativa en los nive-
les medios de glucosa para mujeres cuya actividad fsica es mucho menos
activa que las mujeres de su entorno (grupo basal) y aquellas del grupo
algo menos activa. Lo mismo sucede al testear las restantes igualdades.
Por ejemplo, el test de H0 : 5 = 0 en el modelo (57), es decir, cuando se
ajusta por BMI y se incluyen las otras tres categricas, resulta significati-
vo (t = 23,782, p valor < 2 1016 ) . Es decir que los niveles medios de
glucosa en los distintos grupos definidos por la actividad fsica desarrolla-
da difieren del basal. Adems, como sus coeficientes estimados decrecen al
aumentar el nivel de actividad, vemos que los valores estimados son consis-
tentes con lo que bosquejamos a priori en la Figura 49. Antes de comparar
los niveles medios de los distintos grupos entre s observemos que si queremos
evaluar a la variable physact en su conjunto, debemos recurrir a un test F
que evalue las hiptesis (65), cuando adems en el modelo aparece BMI como
explicativa. A presentarlo nos abocamos en la siguiente seccin.
154 Mara Eugenia Szretter

Figura 49: Modelo propuesto para explicar la glucosa con una covariable
explicativa continua (BMI) y otra categrica (Iphysact_) con cinco niveles.

M odelo de regresin lineal mltiple para glucosa con una explicativa


continua (BM I) y una categrica (Iphysact_) con 5 categoras
120
115
110
105
glucosa

100
95

physact = 1
90

physact = 2
physact = 3
physact = 4
physact = 5
85

20 30 40 50

BMI

4.14.1. Test F para testear si varios parmetros son cero, y tabla


de ANOVA para comparar modelos

En forma anloga a la descripta en la Seccin 4.8.1, pueden usarse las


sumas de cuadrados para comparar el ajuste proporcionado por dos mode-
los lineales distintos. Esto puede hacerse de manera general, para diversos
modelos. Lo describiremos con cierto detalle para la situacin que nos intere-
sa ahora. En el caso de los datos de HERS queremos testear si la variable
categrica que describe la actividad fsica es significativa para explicar el ni-
vel de glucosa cuando en el modelo tenemos a BMI como explicativa.
Es decir, para el modelo (57)

E (Y | X) = 0 + 2 Iphysact_2 + 3 Iphysact_3
+ 4 Iphysact_4 + 5 Iphysact_5 + BMI BMI
4.14 Una predictora cualitativa y una numrica 155

Tabla 25: Regresin de glucosa en las regresoras: physact (categrica) y BMI


(numrica)

> summary(lm(glucose~Iphysact_+BMI, data = her1))

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 103.05276 1.33058 77.449 <2e-16
Iphysact_2 -12.87837 0.93968 -13.705 <2e-16
Iphysact_3 -13.35215 0.88633 -15.065 <2e-16
Iphysact_4 -17.22072 0.88511 -19.456 <2e-16
Iphysact_5 -21.73285 0.91383 -23.782 <2e-16
BMI 0.33229 0.03577 9.288 <2e-16
---

Residual standard error: 8.142 on 2024 degrees of freedom


(2 observations deleted due to missingness)
Multiple R-squared: 0.3046, Adjusted R-squared: 0.3029
F-statistic: 177.3 on 5 and 2024 DF, p-value: < 2.2e-16

queremos testear las hiptesis


H0 : 2 = 3 = 4 = 5 = 0 (67)
H1 : al menos uno de los i con i entre 2 y 5 es tal que i 6= 0
Para ello, ajustamos dos modelos lineales a los datos y usaremos la suma de
cuadrados propuesta en (43) como medida de cuan bueno es cada ajuste, es
decir, calcularemos y compararemos las
X
modelo = (observados modelo)2
para cada uno de dos modelos. En este caso el modelo bsico ser el que
vale si H0 es verdadera, el modelo lineal simple que tiene a BMI como nica
explicativa del nivel medio de glucosa:
Yi = bsico
0 + bsico
BMI BMIi + i .

bbsico y
Para este modelo se calculan las estimaciones de los parmetros 0
bsico
b
BMI , y con ellos los predichos
bbsico +
Ybibsico = bbsico BMIi
0 BMI
156 Mara Eugenia Szretter

y la suma de cuadrados que mide el desajuste


n
X 2
modelo bsico = Yi Ybibsico .
i=1

El modelo ms complejo ser el que figura en (57), es decir

Yi = comp
0 + comp
2 Iphysact_2i + comp
3 Iphysact_3i
+ 4 Iphysact_4i + 5 Iphysact_5i + comp
comp comp
BMI BMIi + i .

Nuevamente se estiman los parmetros bajo este modelo obtenindose bcomp ,


0
comp comp comp comp comp
b b b
2 , 3 , 4 , 5 b b
y BMI , con ellos se calculan los predichos para este
modelo
bcomp +
Ybicomp = bcomp Iphysact_2 + bcomp Iphysact_3
0 2 i 3 i
comp comp comp
+b Iphysact_4 + b Iphysact_5 + b BMIi
4 i 5 i BMI

y la suma de cuadrados que mide el desajuste que tienen los datos a este
modelo complejo
n
X 2
modelo complejo = Yi Ybicomp .
i=1

Por supuesto, como el modelo complejo tiene al modelo bsico como caso
particular, resulta que el ajuste del modelo complejo a los datos ser siem-
pre tan satisfactorio como el del modelo bsico o mayor an, de modo que
modelo complejo modelo bsico . Es de inters observar que la estimacin del
coeficiente que acompaa al BMI depende de qu covariables hay en el mo-
delo, excepto cuando todas las covariables presentes en el modelo sean no
correlacionadas con BMI, lo cual ocurrir las menos de las veces: en general
las variables explicativas estn vinculadas entre s de manera ms o menos
estrecha, eso significa que en general estarn (linealmente) correlacionadas.
Nuevamente se puede construir una tabla de ANOVA para resumir la
informacin descripta hasta ahora. Dicha tabla ser de la forma
La resta modelo bsico modelo complejo mide la mejora en el ajuste debida
al modelo ms complejo respecto del ms sencillo. Los grados de libertad
de esta resta ser la resta de los grados de libertad de los dos ajustes, en el
ejemplo (n 6) (n 2) = 4 (recordemos que hay 2032 mujeres sin diabetes
en la base HERS, pero las mediciones de BMI de dos de ellas faltan, de modo
que aqu n = 2030). El test F se basa en la comparacin de la mejora en el
ajuste debido al modelo ms complejo respecto del simple relativa al ajuste
4.14 Una predictora cualitativa y una numrica 157

Tabla 26: Tabla de ANOVA para comparar dos modelos de regresin


Modelo SS g.l. Diferencia g.l. F
Bsico mod bs n2
(m o d b s m o d co m p )/4
Complejo mod comp n 6 mod bs mod comp 4 m o d c o m p /(n6)

proporcionado por el modelo complejo (el mejor ajuste disponible), ambos


divididos por sus grados de libertad. El test F para las hiptesis (67) rechaza
H0 cuando F > F4,n6, (el percentil 1 de la distribucin F con 4 grados
de libertad en el numerador y n 6 grados de libertad en el denominador)
o, equivalentemente, cuando el p valor calculado como P (F4,n6 > Fobs ) es
menor que . En general, cuando se comparan
p1
X
Modelo complejo: Yi = c0 + ck Xik + i (68)
k=1
q1
X
Modelo simple: Yi = s0 + sk Xik + i
k=1

Es decir, cuando se testea

H0 : q = q+1 = = p1 = 0
H1 : al menos uno de los k con k entre q y p 1 es tal que k 6= 0

en el modelo (68), los grados de libertad del estadstico F sern p q en el


numerador y n p en el denominador. Para los datos de la base HERS, la
tabla de ANOVA para chequear las hiptesis (67) es la que figura en la Tabla
27. Como el p-valor es menor a 0,05 resulta que cuando controlamos a la
glucosa por el BMI, el nivel de actividad fsica desarrollado por las mujeres
resulta significativo. Luego la actividad fsica es til para predecir el nivel de
glucosa, an cuando controlamos por el BMI.

4.14.2. Comparaciones mltiples


Cuando usamos un modelo de regresin (66), podemos querer estimar los
efectos diferenciales entre dos niveles de physact que no involucren al basal.
Esto puede hacerse estimando diferencias entre coeficientes de regresin. Por
ejemplo 5 2 indica cunto ms alta (o baja) es la funcin de respuesta
para mucho ms activa (physact=5) comparada con algo menos activa
158 Mara Eugenia Szretter

Tabla 27: Comparacin de sumas de cuadrados para evaluar la significativi-


dad de physact (categrica) una vez que se tiene a BMI (numrica) como
regresora de glucosa

> uno<-lm(glucose ~BMI, data = her1)


> dos<-lm(glucose ~Iphysact_+BMI, data = her1)
> anova(uno,dos)

Analysis of Variance Table


Model 1: glucose ~ BMI
Model 2: glucose ~ Iphysact_ + BMI
Res.Df RSS Df Sum of Sq F Pr(>F)
1 2028 180206
2 2024 134184 4 46023 173.55 < 2.2e-16
---
> drop1(lm(glucose~Iphysact_+BMI, data = her1),test="F")
Single term deletions

Model:
glucose ~ Iphysact_ + BMI
Df Sum of Sq RSS AIC F value Pr(F)
<none> 134184 8520.1
Iphysact_ 4 46023 180206 9110.7 173.550 < 2.2e-16
BMI 1 5720 139903 8602.8 86.274 < 2.2e-16
---

(physact=2) para cualquier nivel de BMI pues

E (Y | BMI, physact = 5) E (Y | BMI, physact = 2)


= 0 + 5 + BMI BMI 0 2 BMI BMI
= 5 2.

b5
El estimador puntual de esta cantidad es, por supuesto, b2 , y la varianza
estimada de este estimador es

Vd
ar b5
b2 = Vd ar b5 + Vd ar b2 + 2Cov
d b2 .
b5 ,

Las varianzas y covarianzas necesarias se pueden obtener a partir de la matriz


de varianza y covarianza de los coeficientes de regresin.
4.14 Una predictora cualitativa y una numrica 159

> summary(lm(glucose~Iphysact_+BMI, data = her1))$cov.unscaled


(Intercept) Iphysact_2 Iphysact_3 Iphysact_4
(Intercept) 0.0267050455 -1.084307e-02 -1.055299e-02 -1.112399e-02
Iphysact_2 -0.0108430724 1.331889e-02 1.012121e-02 1.014673e-02
Iphysact_3 -0.0105529896 1.012121e-02 1.184942e-02 1.012886e-02
Iphysact_4 -0.0111239852 1.014673e-02 1.012886e-02 1.181693e-02
Iphysact_5 -0.0119314286 1.018281e-02 1.015084e-02 1.021378e-02
BMI -0.0005661539 2.530237e-05 1.541131e-05 3.488076e-05
Iphysact_5 BMI
(Intercept) -1.193143e-02 -5.661539e-04
Iphysact_2 1.018281e-02 2.530237e-05
Iphysact_3 1.015084e-02 1.541131e-05
Iphysact_4 1.021378e-02 3.488076e-05
Iphysact_5 1.259637e-02 6.241245e-05
BMI 6.241245e-05 1.930436e-05

De todos modos, esta cuenta la realiza, en general, el software estads-


tico. A continuacin vemos las comparaciones de a pares realizadas con el
mtodo de la diferencia honestamente significativa de Tukey (HSD: honestly
significant dierence), realizada con nivel conjunto del 95 %. Ah vemos que
exceptuando la diferencia entre los subgrupos dados por los niveles 2 y 3 de
actividad fsica, las restantes diferencias son estadsticamente significativas.
> TukeyHSD(aov(glucose~Iphysact_+BMI, data = her1),"Iphysact_")
Tukey multiple comparisons of means
95% family-wise confidence level

Fit: aov(formula = glucose ~Iphysact_ + BMI, data = her1)

$Iphysact_
diff lwr upr p adj
2-1 -13.3139034 -15.876247 -10.751560 0.0000000
3-1 -13.6174242 -16.036045 -11.198804 0.0000000
4-1 -17.8211203 -20.231224 -15.411017 0.0000000
5-1 -22.8071541 -25.282072 -20.332236 0.0000000
3-2 -0.3035209 -1.862943 1.255901 0.9841303
4-2 -4.5072169 -6.053397 -2.961037 0.0000000
5-2 -9.4932507 -11.138635 -7.847867 0.0000000
4-3 -4.2036961 -5.497834 -2.909558 0.0000000
5-3 -9.1897299 -10.600904 -7.778556 0.0000000
5-4 -4.9860338 -6.382560 -3.589507 0.0000000
160 Mara Eugenia Szretter

En la Figura 50 se ve un grfico de estos intervalos de confianza de nivel


simultneo 95 %. Slo el intervalo para la diferencia de medias entre los grupos
2 y 3 contiene al cero. Los restantes quedan ubicados a la izquierda del
cero. En el grfico esto se ve ms fcilmente que leyendo la tabla. Para el
modelo con las covariables Iphysact_ pero sin BMI tambin podramos haber
exhibido un grfico como ste (de hecho, no lo hicimos puesto que ambos dan
muy parecidos).

Figura 50: Intervalos de confianza de nivel simultneo para las diferencias de


los niveles medios de glucosa de cada grupo, controlados por el BMI.

Como ltima observacin, cabe remarcar que la variable physact fue


modificada artificialmente respecto de la que figuraba originariamente en la
base de datos HERS para facilitar la interpretabilidad. Las restantes variables
tratadas en este apunte corresponden a datos observados.
4.15 Modelos con interaccin entre variables cuantitativas y cualitativas 161

4.15. Modelos con interaccin entre variables cuanti-


tativas y cualitativas
Como ya dijimos, cuando proponemos un modelo de regresin lineal mlti-
ple del estilo de
Yi = 0 + 1 Xi1 + 2 Xi2 + i , (69)

estamos asumiendo que los efectos de las variables X1 y X2 sobre la respuesta


Y no interactan entre s: es decir, que el efecto de X1 en Y no depende del
valor que tome X2 (y al revs, cambiando X1 por X2 , el efecto de X2 en Y
no depende del valor que tome X1 ). Cuando esto no sucede, es inadecuado
proponer el modelo (69), y es necesario agregarle a dicho modelo un tmino
que intente dar cuenta de la interaccin entre X1 y X2 en su relacin con
Y , es decir, del hecho de que el efecto de un predictor sobre la respuesta
difiere de acuerdo al nivel de otro predictor. La manera estndar de hacerlo
es agregarle al modelo (69) un trmino de interaccin, es decir

Yi = 0 + 1 Xi1 + 2 Xi2 + 3 Xi1 Xi2 + i . (70)

El modelo (70) es un caso particular del modelo de regresin lineal mltiple.


Sea Xi3 = Xi1 Xi2 el producto entre las variables X1 y X2 medidas en el
isimo individuo, entonces el modelo (70) puede escribirse de la forma

Yi = 0 + 1 Xi1 + 2 Xi2 + 3 Xi3 + i ,

que es un caso particular del modelo de regresin lineal mltiple presentado


en (37). Algunas veces al coeficiente de la interaccin se lo nota con los
subndices 1 : 2, es decir 1:2 = 3 para explicitar que es el coeficiente
asociado a la interaccin. Veamos un ejemplo.

Ejemplo 4.3 Consideremos datos sobre la frecuencia cardaca o pulso medi-


do a 40 personas antes y despus de ejercitar. Estos datos aparecen publicados
en el manual del paquete BMDP, sin citar las fuentes
http://www.statistical-solutions-software.com/BMDP-documents
/BMDP-2D.pdf. Se les pidi que registraran su pulso, luego que corrieran una
milla, y luego volvieran a registrar su pulso. Adems se registr su sexo, edad
y si eran o no fumadores. De este modo, para cada individuo, se midieron
162 Mara Eugenia Szretter

las siguientes variables


Y = pulso luego de correr una milla (Pulso2)
X1 = pulso en reposo (Pulso1)

1 si la persona es mujer
X2 =

0 en caso contrario

1 si la persona fuma
X3 =

0 en caso contrario
X4 = edad
Interesa explicar el pulso post-ejercicio, en funcin de algunas de las dems
covariables. Es de inters saber si la edad, o el hbito de fumar inciden en
l. La frecuencia cardaca es el nmero de contracciones del corazn o pul-
saciones por unidad de tiempo. Su medida se realiza en unas condiciones
determinadas (reposo o actividad) y se expresa en latidos por minuto.
Tanto el sexo como la condicin de fumador son variables dummies o
binarias. En la base de datos se las denomina X2 = mujer y X3 = fuma.
Las restantes son variables continuas. En la Figura 51 hacemos un scatter
plot de Y versus X1 . En l se puede ver que a medida que X1 crece tambin
lo hace Y , y que una relacin lineal es una buena descripcin (inicial) de la
relacin entre ellas.
Si identificamos en ese grfico a las observaciones segn su sexo, obtene-
mos el grfico de dispersin que aparece en la Figura 52. En l observamos
que el gnero de la persona parece influir en la relacin entre ambas variables.
Querramos cuantificar el efecto del gnero en el pulso medio post ejerci-
cio. Para ello vamos a ajustar un modelo de regresin lineal mltiple con el
pulso post ejercicio como variable dependiente. Proponemos un modelo lineal
mltiple para estos datos. El modelo mltiple sera en este caso
Yi = 0 + 1 Xi1 + 2 Xi2 + i , (71)
Como ya vimos en la Seccin 4.12.2, este modelo sin interaccin propone que
el pulso medio post-ejercicio es una funcin lineal del pulso pre-ejercicio, con
dos rectas diferentes para las mujeres y los hombres, pero estas rectas tienen
la misma pendiente. O sea, la ecuacin (71) propone que para las mujeres,
(o sea, cuando X2 = 1)
E (Y | X1 , X2 = 1) = 0 + 1 X1 + 2
= ( 0 + 2 ) + 1 X1
4.15 Modelos con interaccin entre variables cuantitativas y cualitativas 163

Figura 51: Grfico de dispersin del pulso post-ejercicio versus el pulso pre-
ejercicio, para 40 adultos. Archivo: pulso.txt

mientras que para los hombres (cuando X2 = 0) se tiene

E (Y | X1 , X2 = 0) = 0 + 1 X1 .

La salida del ajuste del modelo est en la Tabla 28. De acuerdo a ella, la
recta ajustada es

Yb = 93,0970 + 0,5157 X1 + 12,7494 X2


El coeficiente estimado de mujer es positivo, indicando que cuando la variable
X2 aumenta de 0 a 1 (mujer = 0 quiere decir que se trata de un hombre),
el pulso medio post ejercicio crece, es decir, el pulso medio de las mujeres
es mayor que el de los hombres si uno controla por pulso en reposo. Ser
estadsticamente significativa esta observacin? Para evaluarlo, hacemos un
test de
H0 : 2 = 0 versus H0 : 2 6= 0
164 Mara Eugenia Szretter

Figura 52: Grfico de dispersin del pulso post-ejercicio versus el pulso pre-
ejercicio, identificando el sexo de cada observacin.

asumiendo que el modelo contiene al pulso en reposo. El estadstico obser-


vado resulta ser tobs = 3,927 y pvalor = 0,000361. Entonces, rechazamos
la hiptesis nula y concluimos que 2 6= 0. Si construyramos un intervalo
de confianza para 2 , ste resultara contenido enteramente en (, 0) . Por
eso concluimos que el verdadero valor poblacional de 2 es menor a cero. Es
decir, para las dos poblaciones de personas (hombres y mujeres) con el mis-
mo pulso en reposo, en promedio los pulsos medios luego de ejercitar sern
mayores en las mujeres que en los hombres.
Para entender mejor este modelo escribimos las dos rectas ajustadas en
cada caso. El modelo ajustado para las mujeres, (X2 = 1) es

Yb = (93,0970 + 12,7494) + 0,5157 X1


= 105,85 + 0,5157 X1
mientras que para los hombres (X2 = 0)

Yb = 93,0970 + 0,5157 X1 .
4.15 Modelos con interaccin entre variables cuantitativas y cualitativas 165

Tabla 28: Ajuste del modelo lineal mltiple Yi = 0 + 1 Xi1 + 2 Xi2 + i ,


donde X1 = pulso pre ejercicio (Pulso1), X2 = indicador de mujer (mujer),
Y = pulso post ejercicio (Pulso2).

> ajuste1<-lm(Pulso2~ Pulso1+mujer)


> summary(ajuste1)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 93.0970 12.5157 7.438 7.44e-09
Pulso1 0.5157 0.1715 3.007 0.004725
mujer 12.7494 3.2468 3.927 0.000361

Residual standard error: 9.107 on 37 degrees of freedom


Multiple R-squared: 0.5445, Adjusted R-squared: 0.5199
F-statistic: 22.12 on 2 and 37 DF, p-value: 4.803e-07

Las dos rectas estn graficadas en la Figura 53, junto con las observaciones
identificadas por sexo. Observemos que ambas rectas son paralelas: en ambos
grupos una unidad (un latido por minuto) de aumento en el pulso en reposo
est asociado con un incremento en 0,5157 latidos por minuto de la frecuen-
cia cardaca post ejercicio, en promedio. Esto es consecuencia del modelo
propuesto.
Ahora queremos proponer un modelo con interaccin para estos datos. Es
decir proponemos el modelo

Yi = 0 + 1 Xi1 + 2 Xi2 + 1:2 Xi1 Xi2 + i (72)

Como la variable X2 asume solamente valores 0 y 1, el trmino de la interac-


cin Xi1 Xi2 valdr 0 siempre que X2 = 0 (o sea para los hombres), y ser
igual a X1 siempre que X2 = 1 (o sea para las mujeres). En la poblacin de
personas ejercitando, esta nueva variable tendr coeficiente 1:2 . Llamemos
X = (X1 , X2 ) . Si escribimos el modelo propuesto para los dos grupos de
observaciones, tendremos que cuando mujer = 1,

E (Y | X) = 0 + 1 X1 + 2 1 + 1:2 X1 1
= ( 0 + 2 ) + ( 1 + 1:2 ) X1 mujeres
166 Mara Eugenia Szretter

Figura 53: Rectas ajustadas para los dos gneros (modelo sin interaccin).

Mientras que cuando mujer = 0, proponemos


E (Y | X) = 0 + 1 X1 + 2 0 + 1:2 X1 0
= 0 + 1 X1 hombres
Es decir que para cada grupo estamos proponiendo ajustar dos rectas dis-
tintas. Observemos que estas rectas no estn atadas (como s lo estaban
en el modelo aditivo con una explicativa binaria y una continua, en el que
ajustbamos dos rectas paralelas). Por otro lado, la interpretacin de los
coeficientes del modelo cambia. Analicemos cada uno. El coeficiente de X1
( 1 ) es la pendiente del pulso1 en el grupo de hombres. Indica que por ca-
da auento en una unidad en el pulso en reposo entre los hombres, el pulso
medio post ejercicio aumenta (o disminuye, segn el signo) 1 unidades. El
coeficiente de la interaccin ( 1:2 ) representa el aumento (o la disminucin)
de la pendiente en el grupo de las mujeres con respecto al de los hombres. Si
1:2 = 0 esto significara que ambas rectas son paralelas. Los distintos valores
que pueden tomar 1 y 1:2 dan lugar a distintos posibles tipos de interaccin
entre las variables, segn se ve en la Figura 54.
4.15 Modelos con interaccin entre variables cuantitativas y cualitativas 167

Figura 54: Grfico de posibles combinaciones de valores de 1 y 1:2 para el


modelo (72).

El ajuste del modelo con interaccin a los datos se muestra en la Tabla


29. Los coeficientes en el modelo no resultan ser todos significativos. De hecho,
el test de
H0 : 1:2 = 0 versus H0 : 1:2 6= 0
asumiendo que el modelo contiene al pulso en reposo y a la indicadora de
mujer, tiene por estadstico tobs = 0,211 y pvalor = 0,834. Esto nos dice
que esta muestra no provee evidencia suficiente de que el pulso en reposo
tenga un efecto diferente en el pulso post ejercicio dependiendo del sexo de
la persona.
Como la interaccin no es estadsticamente significativa, no la retendremos
en el modelo de regresin. Sin embargo, veamos cuanto dan las dos rectas
ajustadas en este caso. Cuando mujer = 1,

Yb = 95,429 + 0,483 X1 + 7,056 1 + 0,074X1 1


= 102,485 + 0,557 X1
168 Mara Eugenia Szretter

Tabla 29: Ajuste del modelo lineal con interaccin.entre X1 = pulso pre
ejercicio (Pulso1), X2 = indicador de mujer (mujer), Y = pulso post ejercicio
(Pulso2).

> ajuste2<-lm(Pulso2~ Pulso1 * mujer)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 95.42838 16.80929 5.677 1.88e-06
Pulso1 0.48334 0.23157 2.087 0.044
mujer 7.05575 27.14749 0.260 0.796
Pulso1:mujer 0.07402 0.35033 0.211 0.834

Residual standard error: 9.227 on 36 degrees of freedom


Multiple R-squared: 0.5451, Adjusted R-squared: 0.5072
F-statistic: 14.38 on 3 and 36 DF, p-value: 2.565e-06

Mientras que cuando mujer = 0, resulta

Yb = 95,429 + 0,483 X1 + 7,056 0 + 0,074X1 0


= 95,429 + 0,483 X1

Estas dos rectas se encuentran graficadas en la Figura 55. Estas dos rectas
no tienen la misma pendiente, ni la misma ordenada al origen. En el rango de
inters, sin embargo, la recta que describe el pulso medio post-ejercicio para
las mujeres est completamente sobre la de los hombres. Esto implica que
a lo largo de todos los valores relevantes del pulso en reposo, predeciremos
valores de pulso post-ejercicio mayores para las mujeres que para los hombres.
Si comparamos los ajustes obtenidos para los modelos que explican a Y con
las variables Pulso1 y mujer sin interaccin (71) y con interaccin (72),
que aparecen en las Tablas 28 y 29, respectivamente, vemos que son muy
diferentes.
En la Tabla 30 resumimos lo observado. Cuando el trmino de la interac-
cin se incluye en el modelo, el coeficiente de mujer se reduce en magnitud,
casi a la mitad. Adems, su error estndar aumenta multiplicndose por un
factor de 8. En el modelo sin trmino de interaccin, el coeficiente de mujer
es significativamente distinto de cero, a nivel 0,05; esto no ocurre cuando in-
cluimos el trmino de interaccin en el modelo, en ese caso la variable mujer
4.15 Modelos con interaccin entre variables cuantitativas y cualitativas 169

Figura 55: Rectas ajustadas por mnimos cuadrados para distintos niveles de
sexo, con el trmino de interaccin incluido.

deja de ser significativa. El coeficiente de determinacin (R2 ) no cambia al


incluir la interaccin, sigue valiendo 0,545. Ms an, el coeficiente de cor-
relacin ajustado decrece ligeramente con la incorporacin de una covariable
ms al modelo. Al tomar en cuenta simultneamente todos estos hechos, con-
cluimos que la inclusin del trmino de interaccin de Pulso1 - mujer en el
modelo no explica ninguna variabilidad adicional en los valores observados
del pulso post-ejercicio, ms all de lo que es explicado por las variables
mujer y Pulso1 en forma aditiva. La informacin proporcionada por este
trmino es redundante.
Por qu sucede esto? Muchas vece sucede que al incorporar una nueva
variable al modelo ajustado, se pierde la significatividad de alguna o varias
variables ya incluidas previamente. Si adems de suceder esto aparece una
inestabilidad de los coeficientes estimados, difiriendo sustancialmente los val-
ores estimados de algunos coeficientes en los dos modelos, y en particular,
se observa un aumento grosero de los errores estndares: esto suele ser un
sntoma de colinealidad o multicolinealidad entre los predictores. La colinea-
170 Mara Eugenia Szretter

lidad ocurre cuando dos o ms variables explicativas estn altamente cor-


relacionadas, a tal punto que, esencialmente, guardan la misma informacin
acerca de la variabilidad observada de Y . En la Seccin 5.3.1 presentaremos
algunas maneras de detectar y resolver la multicolinealidad.
En este caso, la variable artificial Pulso1 mujer est fuertemente cor-
relacionada con mujer ya que el coeficiente de correlacin de Pearson es
rmujer,Pulso1mujer = 0,99, como aparece en la Tabla 31. Como la correlacin
entre las variables es tan grande, la capacidad explicativa de Pulso1 mujer
cuando mujer est en el modelo es pequea.

Tabla 30: Tabla comparativa de los ajustes con y sin interaccin para las
covariables Pulso1 y mujer.

Sin interaccin Con interaccin


b2
Coeficiente 12,749 7,056
Error estndar de b2 3,247 27,147
Valor del estadstico t 3,927 0,26
pvalor 0,000361 0,796
R2 0,5445 0,5451
R2 ajustado 0,5199 0,5072

Tabla 31: Correlaciones de Pearson entre X1 = pulso pre ejercicio (Pulso1),


X2 = indicador de mujer (mujer) e Y = pulso post ejercicio (Pulso2).

Pulso1 mujer Pulso1mujer


Pulso1 1 0,453 0,53
mujer 0,453 1 0,99
Pulso1mujer 0,53 0,99 1

Un modo de resolver el problema de la multicolinealidad es trabajar con


los datos centrados para la o las variables predictoras que aparecen en ms de
un trmino del modelo. Esto es, usar no la variable X tal como fue medida,
sino la diferencia entre el valor observado y el valor medio en la muestra.

4.16. Interaccin entre dos variables cuantitativas


En la seccin anterior presentamos la interaccin entre dos variables cuan-
do una es cualitativa y la otra cuantitativa. Ahora nos ocuparemos de estu-
diar la situacin en la que las dos variables que interesan son cuantitativas.
4.16 Interaccin entre dos variables cuantitativas 171

Vimos que el modelo aditivo propone que cuando la covariable Xj aumenta


una unidad, la media de Y aumenta en j unidades independientemente de
cules sean los valores de las otras variables. Esto implica paralelismo de las
rectas que relacionan a Y y Xj , cualesquiera sean los valores que toman las
dems variables.
En nuestro ejemplo de los bebs de bajo peso, analizado en la Seccin
4.7, propusimos un modelo de regresin lineal mltiple con dos variables
predictoras. Sean

Yi = permetro ceflico del isimo nio, en centmetros (headcirc)


Xi1 = edad gestacional del isimo nio, en semanas (gestage)
Xi2 = peso al nacer del isimo nio, en gramos (birthwt)

Propusimos el siguiente modelo,

Y = 0 + 1 X1 + 2 X2 + . (73)

El modelo ajustado figura en la Tabla 11. La superficie ajustada result ser

Yb = 8,3080 + 0,4487X1 + 0,0047X2 .

Cuando controlamos por X2 (peso al nacer), la ecuacin (parcial) ajustada


que relaciona el permetro ceflico y la edad gestacional es

X2 = 600, Yb = 8,3080 + 0,4487X1 + 0,0047 600 = 11,128 + 0,4487X1


X2 = 900, Yb = 8,3080 + 0,4487X1 + 0,0047 900 = 12,538 + 0,4487X1
X2 = 1200, Yb = 8,3080 + 0,4487X1 + 0,0047 1200 = 13,948 + 0,4487X1

Para cada nivel posible de peso al nacer, por cada unidad de aumento en
la edad gestacional se espera un aumento de 0,448 unidades (cm.) en el
permetro ceflico al nacer. Grficamente, esto se ve representado en la Figura
56. Lo mismo sucedera si controlramos por X1 en vez de X2 : tendramos
rectas paralelas, de pendiente 0,0047.
Este modelo asume que no existe interaccin entre las variables. El modelo
(73) fuerza a que los efectos de las covariables en la variable dependiente sean
aditivos, es decir, el efecto de la edad gestacional es el mismo para todos los
valores del peso al nacer, y viceversa, porque el modelo no le permitir ser
de ninguna otra forma. A menudo este modelo es demasiado simple para ser
adecuado, aunque en muchos conjuntos de datos proporciona una descripcin
satisfactoria del vnculo entre las variables.
Cuando esto no suceda, es decir, cuando pensemos que tal vez la forma
en que el permetro ceflico vare con la edad gestacional dependa del peso
172 Mara Eugenia Szretter

Figura 56: Permetro ceflico esperado en funcin de la edad gestacional,


controlando por peso al nacer, para tres posibles valores de peso al nacer
(600, 900 y 1200g.) en el modelo sin interaccin.

al nacer del beb, ser necesario descartar (o validar) esta conjetura. Una
manera de investigar esta posibilidad es incluir un trmino de interaccin
en el modelo. Para ello, creamos la variable artificial que resulta de hacer el
producto de las otras dos: X3 = X1 X2 = gestage birthwt, y proponemos
el modelo

Y = 0 + 1 X1 + 2 X2 + 3 X3 +
Y = 0 + 1 X1 + 2 X2 + 1:2 X1 X2 + (74)

Este es un caso especial de un modelo de regresin con tres variables regre-


soras. Cmo se interpreta este modelo para dos variables cuantitativas? En
este caso decimos que existe interaccin estadstica cuando la pendiente
de la relacin entre la variable respuesta y una variable explicativa cambia
para distintos niveles de las otras variables. Para entenderlo, escribamos el
4.16 Interaccin entre dos variables cuantitativas 173

modelo propuesto cuando controlamos el valor de X2 .

E (Y | X1 , X2 = 600) = 0 + 1 X1 + 2 600 + 1:2 X1 600


= 0 + 2 600 + ( 1 + 1:2 600)X1
| {z } | {z }
ordenada al origen pendiente

E (Y | X1 , X2 = 900) = 0 + 1 X1 + 2 900 + 1:2 X1 900


= 0 + 2 900 + ( 1 + 1:2 900)X1
| {z } | {z }
ordenada al origen pendiente

E (Y | X1 , X2 = 1200) = 0 + 1 X1 + 2 1200 + 1:2 X1 1200


= 0 + 2 1200 + ( 1 + 1:2 1200)X1
| {z } | {z }
ordenada al origen pendiente

En general

E (Y | X1 , X2 ) = 0 + 1 X1 + 2 X2 + 1:2 X1 X2
= 0 + 2 X2 + ( 1 + 1:2 X2 )X1 (75)
| {z } | {z }
ordenada al origen pendiente

Luego, en el modelo (74), la pendiente de la relacin entre X1 e Y depende


de X2 , decimos entonces que existe interaccin entre las variables.
Entonces, cuando X2 aumenta en una unidad, la pendiente de la rec-
ta que relaciona Y con X1 aumenta en 1:2 . En este modelo, al fijar X2 ,
E (Y | X1 , X2 ) es una funcin lineal de X1 , pero la pendiente de la recta de-
pende del valor de X2 . Del mismo modo, E (Y | X1 , X2 ) es una funcin lineal
de X2 , pero la pendiente de la relacin vara de acuerdo al valor de X1 .
Si 1:2 no fuera estadsticamente significativa, entonces los datos no sopor-
taran la hiptesis de que el cambio en la respuesta con un predictor dependa
del valor del otro predictor, y podramos ajustar directamente un modelo
aditivo, que es mucho ms fcil de interpretar.

Ejemplo 4.4 Consideremos un ejemplo de datos generados. Para n = 40


pacientes se miden tres variables:
X1 = cantidad de droga A consumida
X2 = cantidad de droga B consumida
Y = variable respuesta
Proponemos un modelo con interaccin para los datos, que figuran en el
archivo ejemploint.txt. Antes de ajustar un modelo, veamos los estadsticos
174 Mara Eugenia Szretter

Tabla 32: Estadsticos descriptivos de las variables X1 = drogaA y X2 =


drogaB.

> summary(drogaA)
Min. 1st Qu. Median Mean 3rd Qu. Max.
3.207 4.449 7.744 8.107 11.100 13.590

> summary(drogaB)
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.18 38.44 63.02 59.58 82.61 93.76

descriptivos de las dos variables, en la Tabla 32. Ajustamos el modelo (74).


En la Tabla 33 aparece la salida. Vemos que el coeficiente asociado al trmino
de interaccin es 2,771 y el test t rechaza la hiptesis H0 : 1:2 = 0 (pvalor <
2 1016 ). Conclumos que la interaccin resulta estadsticamente significativa,
as como lo son los restantes coeficientes asociados a las dos drogas. Luego,
hay variacin en la pendiente de la relacin entre la respuesta y la cantidad
de droga A ingerida, al variar la cantidad de droga B consumida. Esto puede
verse ms fcilmente en el grfico de la Figura 57. En este caso vemos que
las dos drogas potencian su efecto en la variable respuesta, ya que a medida
que la cantidad de droga A crece (en el grfico pasa de 4 a 7 y luego a 11) la
variable respuesta crece al crecer la droga B, con pendientes cada vez mayores.
Tienen interaccin positiva. Las rectas graficadas en dicha figura son

drogaA = 4 Yb = 53,92 + 16,59 4 + 6,22X2 + 2,77 4 X2


Yb = 12,44 + 17,3X2

drogaA = 7 Yb = 53,92 + 16,59 7 + 6,22X2 + 2,77 7 X2


Yb = 62,21 + 25,61X2

drogaA = 11 Yb = 53,92 + 16,59 11 + 6,22X2 + 2,77 11 X2


Yb = 128,57 + 36,69X2

Debera resultar claro en este caso, que necesitamos conocer el valor de


la droga A para poder decir cunto aumenta la respuesta media al aumen-
tar en una unidad la cantidad de droga B consumida. Para los tres valores
4.16 Interaccin entre dos variables cuantitativas 175

Tabla 33: Ajuste del modelo lineal mltiple (74) E (Y | X1 , X2 ) = 0 + 1 X1 +


2 X2 + 1:2 X1 X2 , donde X1 = drogaA, X2 = drogaB, Y = respuesta.

> summary( ajuste5)

Call:
lm(formula = YY ~ drogaA * drogaB)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -53.92176 42.27242 -1.276 0.21027
drogaA 16.59288 4.92500 3.369 0.00181
drogaB 6.22153 0.63436 9.808 1.04e-11
drogaA:drogaB 2.77152 0.07774 35.651 < 2e-16
---

Residual standard error: 44.04 on 36 degrees of freedom


Multiple R-squared: 0.9979, Adjusted R-squared: 0.9977
F-statistic: 5650 on 3 and 36 DF, p-value: < 2.2e-16

graficados, tendramos tres respuestas distintas: 17,3, 25,61 y 36,69 (para


drogaA = 4, 7 y 11, respectivamente).

Hay que tener mucho cuidado en la interpretacin de los coeficientes de ca-


da covariable cuando el modelo contiene interacciones. Este modelo es mucho
ms complicado que el aditivo. Por esta razn, cuando se ajusta un modelo
con interaccin y no se rechaza la hiptesis de que la interaccin es cero, es
mejor eliminar el trmino de interaccin del modelo antes de interpretar los
efectos parciales de cada variable. Sin embargo, cuando existe clara eviden-
cia de interaccin (se rechaza H0 : 1:2 = 0), ya no tiene sentido testear las
hiptesis para los coeficientes asociados a las variables originales, ya que el
efecto de cada variable cambia segn el nivel de las otras variables, ver (75).
Veamos un ejemplo donde el efecto de la interaccin es ms fuerte an.

Ejemplo 4.5 El conjunto de datos est en el archivo ejemploint3.txt.


Nuevamente se trata de datos generados para los que se midieron las tres
variables descriptas en el principio de esta seccin, es decir, niveles de droga
A (X1 ), droga B (X2 ) y la respuesta (Y ) . El modelo ajustado figura en la
Tabla 34.
176 Mara Eugenia Szretter

Figura 57: Variable respuesta Y ajustada en funcin de la drogaB, controlando


por drogaA, para tres posibles valores de drogaA (4, 7 y 11) en el modelo
con interaccin.

Ah vemos que tanto el coeficiente de la interaccin, como los otros dos


coeficientes que acompaan a las covariables son significativamente distintos
de cero. En la Figura 58 vemos las rectas ajustadas para tres valores fijos de
drogaB. En ella vemos que el efecto de la interaccin cambia de sentido al
vnculo entre la respuesta Y y la drogaA al aumentar la cantidad de drogaB,
ya que pasa de ser un potenciador de la variable respuesta, aumntadola
considerablemente al aumentar la cantidad de drogaA, cuando la cantidad de
drogaB es 10, a tener un vnculo inverso con Y cuando la cantidad de drogaB
es 90, en el sentido que a mayor cantidad de drogaA la variable respuesta
disminuye en este caso. En el caso de drogaB = 50, vemos que el vnculo
entre drogaA y la respuesta desaparece, ya que la recta parece horizontal (la
pendiente estimada es exactamente cero cuando drogaB = 50,47703).
4.16 Interaccin entre dos variables cuantitativas 177

Tabla 34: Modelo ajustado para los datos del archivo ejemploint3.txt, con
las variables explicativas X1 = drogaA y X2 = drogaB y la interaccin entre
ellas, para explicar a Y .

> summary(ajuste7)
Call:
lm(formula = Y7 ~ drogaA * drogaB)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2488.19403 31.27861 79.55 < 2e-16
drogaA 151.87124 3.64415 41.67 < 2e-16
drogaB 4.92268 0.46938 10.49 1.71e-12
drogaA:drogaB -3.00872 0.05752 -52.30 < 2e-16
---
Residual standard error: 32.59 on 36 degrees of freedom
Multiple R-squared: 0.9965, Adjusted R-squared: 0.9962
F-statistic: 3427 on 3 and 36 DF, p-value: < 2.2e-16

Las tres rectas graficadas son


drogaB = 10 Yb = 2488,194 + 151,871X1 + 4,923 10 3,0087 X1 10
Yb = 2537,4 + 121,78X1

drogaB = 50 Yb = 2488,194 + 151,871X1 + 4,923 50 3,0087 X1 50


Yb = 2734,2 + 1,436X1

drogaB = 90 Yb = 2488,194 + 151,871X1 + 4,923 90 3,0087 X1 90


Yb = 2931,3 118,91X1
En este caso observamos que para hablar del efecto que tiene en la media de
Y el aumento de una unidad de la drogaA debemos saber cul es el valor
de la drogaB (ya que Y podra crecer, quedar constante o incluso disminuir)
con un aumento de una unidad de la drogaA. En el modelo aditivo (sin in-
teraccin) uno poda siempre cuantificar la variacin de la respuesta ante un
aumento de una unidad de una covariable sin necesidad de conocer siquiera
el valor de la otra covariable, mientras se mantuviera constante. Decamos,
178 Mara Eugenia Szretter

en el ejemplo de los bebs de bajo peso, que manteniendo el peso constante, el


aumento de una semana en la edad gestacional de un beb repercuta en un
aumento de 0,45 cm. del permetro ceflico esperado del beb al nacer. Esto
vale tanto para bebs que pesan 600 g., 900 g. o 1200 g. al nacer. Cuando
hay interaccin, esta interpretacin se dificulta.

Figura 58: Variable respuesta Y ajustada en funcin de la drogaA, controlando


por drogaB, para tres posibles valores de drogaB (10, 50 y 90) en el modelo
con interaccin, para los datos de ejemplointer3.txt.

Ejercicio 4.6 Hacer el ejercicio 3 del Taller 3.

Ejercicio 4.7 Hacer el ejercicio 4 del Taller 3.

4.17. Interaccin entre dos variables cualitativas


Finalmente restara presentar un modelo de regresin lineal con interac-
cin entre dos variables cualitativas. Retomemos el ejemplo del pulso post
ejercicio.
4.17 Interaccin entre dos variables cualitativas 179

Ejemplo 4.8 A cuarenta personas se les miden el pulso antes y despus de


ejercitar, junto con otras covariables. Estos datos fueron presentados en el
Ejemplo 4.3. Para cada individuo, se midieron las siguientes variables

Y = pulso luego de correr una milla (Pulso2)



1 si la persona es mujer
X2 =

0 en caso contrario

1 si la persona fuma
X3 =

0 en caso contrario
Antes de presentar el modelo con interaccin, proponemos un modelo aditi-
vo para explicar el pulso post-ejercicio, en funcin de las covariables X2 y
X3 . Tanto el sexo como la condicin de fumador son variables dummies o
binarias. En la base de datos se las denomina X2 = mujer y X3 = fuma.

El modelo (aditivo) es

E (Y | X2 , X3 ) = 0 + M mujer + F fuma. (76)

Hemos puesto el subndice de los beta de acuerdo a la variable explicativa


que acompaan. En la Tabla 35 escribimos el significado del modelo para las
cuatro combinaciones posibles de los valores de X2 y X3 .

Tabla 35: Modelo de regresin lineal mltiple aditivo para el pulso post-
ejercicio con covariables X2 = mujer y X3 = fuma.
Grupo X2 = mujer X3 = fuma E (Y | X2 , X3 )
1 0 0 0
2 0 1 0 + F
3 1 0 0 + M
4 1 1 0 + F + M

En la Tabla 35 vemos que F representa el aumento (o disminucin, segn


el signo) en el pulso medio post ejercicio al comparar el grupo de hombres
fumadores con el grupo de hombres no fumadores (grupo 2 menos grupo 1),
pues

E (Y | mujer = 0, fuma = 1) E (Y | mujer = 0, fuma = 0)


= ( 0 + F ) 0
= F
180 Mara Eugenia Szretter

y tambin representa el cambio en el pulso medio post ejercicio al comparar


el grupo de mujeres fumadoras con el de las mujeres no fumadoras (grupo 4
menos grupo 3), pues

E (Y | mujer = 1, fuma = 1) E (Y | mujer = 1, fuma = 0)


= ( 0 + F + M ) ( 0 + M )
= F .

Como ambas diferencias dan el mismo nmero, decimos que F representa


el cambio en el valor esperado del pulso post-ejercicio por efecto de fumar,
cuando se controla (o estratifica) por la variable sexo, o sea, cuando man-
tenemos la otra variable fija sin importar su valor. Observemos que esta es
la misma interpretacin que hemos hecho de los coeficientes en los modelos
de regresin lineal aditivos. Del mismo modo, M representa la diferencia
en el pulso medio post-ejercicio entre mujeres y varones, al controlar por la
variable fuma.
Observemos que este modelo dispone de tres coeficientes 0 , M y F para
reflejar las medias de cuatro grupos distintos.
Cmo es el modelo que explica a Y con X2 , X3 y la interaccin entre
ambas? El modelo es el siguiente

E (Y | X2 , X3 ) = 0 + M mujer + F fuma + M:F mujer fuma. (77)

Como tanto X2 = mujer y X3 = fuma son variables dicotmicas, el trmino


producto X2 X3 = mujer fuma tambin resulta ser una variable indicadora
o dicotmica, en este caso

1 si la persona es mujer y fuma
X2 X3 =

0 en caso contrario.

Nuevamente, en la Tabla 36, escribimos el significado del modelo para las


cuatro combinaciones posibles de los valores de X2 = mujer y X3 = fuma.
Hagamos las mismas comparaciones que hicimos en el modelo aditivo.
Comparamos el valor medio de la variable respuesta del grupo 2 con el del
grupo 1:

E (Y | mujer = 0, fuma = 1) E (Y | mujer = 0, fuma = 0)


= ( 0 + F ) 0
= F
4.17 Interaccin entre dos variables cualitativas 181

Tabla 36: Modelo de regresin lineal mltiple con interaccin, para el pulso
post-ejercicio con covariables X2 = mujer y X3 = fuma.
Grupo X2 = mujer X3 = fuma X2 X3 E (Y | X2 , X3 )
1 0 0 0 0
2 0 1 0 0 + F
3 1 0 0 0 + M
4 1 1 1 0 + F + M + M:F

Ahora comparemos los valores medios de la respuesta en los grupos 4 y 3:


E (Y | mujer = 1, fuma = 1) E (Y | mujer = 1, fuma = 0)
= ( 0 + M + F + M:F ) ( 0 + M )
= F + M:F .
Por lo tanto, F mide el efecto de fumar en los hombres, y F + M:F mide
el efecto de fumar en las mujeres. De modo que el trmino de la interaccin
M:F da la diferencia del pulso medio post-ejercicio por efecto de fumar de
las mujeres respecto de los hombres. Si M:F > 0, el hecho de fumar en las
mujeres redunda en un aumento de la respuesta media respecto de la de los
hombres. Un test de H0 : M:F = 0 versus H1 : M:F 6= 0 para el modelo (77)
es una prueba para la igualdad del efecto de fumar en el pulso medio post-
ejercicio de hombres y mujeres. Observemos que si no se rechaza H0 , tenemos
un modelo aditivo: el efecto de fumar en el pulso post-ejercicio resulta ser el
mismo para hombres y mujeres.
Tambin se podran tomar diferencias anlogas entre los grupos 1 y 3
(no fumadores) y entre los grupos 4 y 2 (fumadores) y llegar a la misma
interpretacin de la interaccin. En este ejemplo, esta aproximacin parece
menos intuitiva, ya que interesa evaluar el efecto de fumar (controlando por
el sexo) en la respuesta.
Antes de pasar a los ajustes de los modelos, propongamos un modelo de
comparacin de las medias de cuatro muestras aleatorias normales, todas
con la misma varianza (o sea, una generalizacin del test de t para de dos
muestras). Tal modelo, propondra que se tienen 4 muestras de pulso post-
ejercicio tomadas en 4 grupos diferentes (en este caso, los definidos en la
primer columna de la Tabla 36) y para cada uno de ellos proponemos

Yi1 N 1 , 2 (1 i n1 ) grupo 1 (hombres no fumadores) (78)

Yi2 N 2 , 2 (1 i n2 ) grupo 2 (hombres fumadores)
2

Yi3 N 3 , (1 i n3 ) grupo 3 (mujeres fumadoras)

Yi4 N 4 , 2 (1 i n4 ) grupo 4 (mujeres no fumadoras).
182 Mara Eugenia Szretter

Todas las observaciones son independientes entre s. Este modelo propone


ajustar 4 parmetros que dan cuenta de la media (uno para cada grupo, que
hemos denominado k que se estimarn con las observaciones del respectivo
grupo k simo) y un parmetro que da cuenta de la varianza de cada obser-
vacin en el modelo homoscedstico ( 2 que se estimar de forma conjunta
con todas las n1 +n2 +n3 +n4 observaciones). Si comparamos este modelo con
el propuesto en (77), vemos que ambos tienen 4 parmetros para las medias.
Ms an, resultar que se vinculan de la siguiente forma, por lo desarrollado
en la Tabla 36.

1 = 0 (79)
2 = 0 + F
3 = 0 + M
4 = 0 + F + M + F :M .

Otra forma de escribir el modelo (78) es la siguiente

Yi1 = 1 + i1 (1 i n1 ) grupo 1 (hombres no fumadores)


(80)
Yi2 = 2 + i2 (1 i n2 ) grupo 2 (hombres fumadores)
Yi3 = 3 + i3 (1 i n3 ) grupo 3 (mujeres fumadoras)
Yi4 = 4 + i4 (1 i n4 ) grupo 4 (mujeres no fumadoras),

donde los ik N 0, 2 y son todos independientes

Vemos pues que ambos modelos (77) y (78) son equivalentes, ya que cono-
ciendo los parmetros de uno de ellos (los k por ejemplo) podemos despejar
los valores del otro (los h por ejemplo) por medio de las ecuaciones (79). O
al revs, obtener los k a partir de los h . La varianza del error se estimar
en forma conjunta en ambos modelos. La diferencia est en el significado
de los parmetros. En el modelo (78), k representa el valor esperado de la
variable respuesta en el grupo ksimo, mientras que en el modelo (77) los
h representan (algunas de) las diferencias entre los valores de las respuestas
medias entre los distintos grupos.
En las Tablas 37 y 38 se muestran los valores ajustados de los modelos
aditivos (76) y con interaccin (77).
Analicemos primero el modelo con interaccin. En la salida vemos que
el coeficiente de la interaccin no resulta significativo (el pvalor es 0,245
que no es menor a 0,05), por lo tanto concluimos que el efecto de fumar en
el pulso medio post-ejercicio de mujeres y varones es el mismo. Luego, para
los datos del pulso el modelo apropiado es el aditivo (76). En dicho ajuste
4.17 Interaccin entre dos variables cualitativas 183

Tabla 37: Ajuste del modelo lineal mltiple aditivo Yi = 0 + M Xi2 + F Xi3 +
i , donde X2 = indicador de mujer (mujer), X3 = indicador de fumar (fuma),
e Y = pulso post ejercicio (Pulso2).

> ajusteA<-lm(Pulso2 ~ mujer + fuma)


> summary(ajusteA)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 126.926 2.452 51.754 < 2e-16
mujer 18.064 3.027 5.967 6.96e-07
fuma 7.362 3.074 2.395 0.0218
---

Residual standard error: 9.453 on 37 degrees of freedom


Multiple R-squared: 0.5093, Adjusted R-squared: 0.4828
F-statistic: 19.2 on 2 and 37 DF, p-value: 1.906e-06

vemos que todos los coeficientes son significativos, y que el hecho de fumar
aumenta el pulso post-ejercicio en 7,36 pulsaciones por minuto, cuando uno
controla por sexo. Es interesante graficar las cuatro medias muestrales y los
cuatro valores esperados bajo el modelo. Esos valores figuran en la Tabla 39.

Mirando la Tabla 39 podemos corroborar que los estimadores obtenidos


con el modelo con interaccin son los mismos que obtendramos si estimramos
las medias de cada grupo por separado. En este caso adems, vemos que el
ajuste obtenido por el modelo sin interaccin no difiere demasiado del con
interaccin, en sus valores ajustados, es por eso que la interaccin no resulta
significativa en este modelo. El Grfico 59 permite visualizar ms claramente
la situacin. En l vemos que al pasar del grupo de no fumadores al grupo de
fumadores, aumenta el pulso medio post-ejercicio, tanto en hombres como en
mujeres, siempre en una cantidad parecida (tan parecida, que la diferencia
entre ambos no es estadsticamente significativa).
184 Mara Eugenia Szretter

Tabla 38: Ajuste del modelo lineal mltiple con interaccin Yi = 0 + M Xi2 +
F Xi3 + M:F Xi2 Xi3 + i , donde X2 = indicador de mujer (mujer), X3 =
indicador de fumar (fuma), Y = pulso post ejercicio (Pulso2).

> ajusteB <-lm(Pulso2 ~ mujer * fuma)


> summary(ajusteB)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 128.333 2.714 47.280 < 2e-16
mujer 15.250 3.839 3.973 0.000326
fuma 4.267 4.026 1.060 0.296306
mujer:fuma 7.317 6.190 1.182 0.244922
---

Residual standard error: 9.403 on 36 degrees of freedom


Multiple R-squared: 0.5276, Adjusted R-squared: 0.4883
F-statistic: 13.4 on 3 and 36 DF, p-value: 4.978e-06

Figura 59: Grfico de las medias muestrales de los cuatro grupos, de los datos
de pulso-post ejercicio.
4.17 Interaccin entre dos variables cualitativas 185

Tabla 39: Medias muestrales calculadas por grupos, comparadas con el ajuste
de los modelos sin y con interaccin, para el pulso post-ejercicio con covari-
ables X2 = mujer y X3 = fuma.
Grupo X2 X3 Media muestral E (Y | X2 , X3 ) sin interaccin
1 0 0 128,3333 b0 = 126,926

2 0 1 132,6 b0 +
bF = 126,926 + 7,362 = 134,29
3 1 0 143,5833 b0 +
bM = 126,926 + 18,064 = 144,99
4 1 1 155,1667 b0 +
bF + bM = 126,926 + 7,362
+18,064 = 152,35

Grupo X2 X3 Media muestral E (Y | X2 , X3 ) con interaccin


1 0 0 128,3333 b0 = 128,333

2 0 1 132,6 b0 +
bF = 128,333 + 4,267 = 132,6
3 1 0 143,5833 b0 +
bM = 128,333 + 15,25 = 143,58
4 1 1 155,1667 b0 +
bF + bM + bF :M = 128,333 + 4,267
+15,25 + 7,317 = 155,1667

Este grfico suele llamarse grfico de interaccin. Sirve para evaluar si


tiene sentido ajustar un modelo con interaccin a nuestros datos. Si dicho
grfico resultara como se muestra en alguno de los dos de la Figura 60,
entonces se justificara agregar el trmino de interaccin al modelo con dos
covariables categricas. En el grfico A vemos un ejemplo donde al pasar del
grupo no fumador al grupo fumador, para las mujeres se produce un aumento
de la respuesta media, y para los hombres una disminucin de la respuesta
media. Para este ejemplo, tiene sentido incluir el trmino de la interaccin,
ya que la respuesta cambia de sentido para distintas combinaciones de las
dos explicativas. En el grfico B sucede algo parecido: cuando controlamos
por el sexo de la persona, el efecto de fumar es diferente en los dos grupos,
para las mujeres aumenta la media de la respuesta, para los hombres la deja
igual.
186 Mara Eugenia Szretter

Figura 60: Grficos de las medias de una variable respuesta Y para dos ejem-
plos ficticios, en las figuras A y B.

4.18. Generalizacin a ms de dos variables.


Cuando el nmero de variables regresoras es mayor que dos, se pueden
incluir trminos de interaccin para cada par de covariables. Por ejemplo, en
un modelo con tres variables regresoras X1 , X2 y X3 , podemos tener:

E (Y | X1 , X2 , X3 ) = 0 + 1 X1 + 2 X2 + 3 X3
+ 1:2 X1 X2 + 1:3 X1 X3 + 2:3 X2 X3

En este modelo hemos considerado las interacciones de las variables tomadas


de a pares, a las que se denomina interacciones de segundo orden. Pero po-
dramos haber considerado adems la interaccin de tercer orden incorporan-
do un trmino 1:2:3 X1 X2 X3 .
A partir de los tests de significacin podremos evaluar si alguna(s) de
estas interacciones son necesarias en el modelo.
4.18 Generalizacin a ms de dos variables. 187

Cuando alguna interaccin es significativa y el modelo debe incluir estos


trminos, es ms compleja la presentacin de los resultados. Una aproxi-
macin posible es graficar una coleccin de rectas como en las figuras anteri-
ores, para describir grficamente como cambia la relacin con los valores de
las dems variables.
188 Mara Eugenia Szretter

5. Diagnstico del modelo


5.1. Diagnstico del modelo: definiciones y grficos
Los mtodos de inferencia anteriormentes descriptos (clculo de p-valores,
intervalos de confianza y de prediccin, por citar algunos) requieren que se
satisfagan los cuatro supuestos (38) que subyacen a nuestro modelo. El diag-
nstico del modelo consiste en la validacin de estos supuestos para los datos
en cuestin. Esta validacin puede hacerse a travs de una serie de grficos,
muchos de los cuales ya describimos en la regresin lineal simple, o bien a
travs de diversos clculos. El diagnstico desempea un papel importante en
el desarrollo y la evaluacin de los modelos regresin mltiple. La mayora de
los procedimientos de diagnstico para la regresin lineal simple que hemos
descrito anteriormente se trasladan directamente a la regresin mltiple. A
continuacin revisaremos dichos procedimientos de diagnstico.
Por otro lado, tambin se han desarrollado herramientas de diagnstico y
procedimientos especializados para la regresin mltiple. Algunas de las ms
importantes se discuten en la Seccin 5.2.

5.1.1. Matriz de scatter plots o grficos de dispersin

Los boxplots, histogramas, diagramas de tallo y hojas, y grficos de pun-


tos para cada una de las variables predictoras y para la variable de respuesta
pueden proporcionar informacin univariada preliminar y til sobre estas va-
riables. Los diagramas de dispersin (scatter plots) de la variable de respuesta
versus cada variable predictora pueden ayudar a determinar la naturaleza y
la fuerza de las relaciones bivariadas entre cada una de las variables de predic-
cin y la variable de respuesta as como pueden permitir la identificacin de
lagunas en las regiones de datos. Tambin pueden permitir identificar outliers
u observaciones atpicas o alejadas del patrn del resto de los datos. Los dia-
gramas de dispersin de cada variable predictora versus cada una de las otras
variables de prediccin son tiles para el estudio de las relaciones bivariadas
entre las distintas variables predictoras y tambin para buscar espacios con
ausencia de datos y detectar valores atpicos.
El anlisis resulta ms fcil si los grficos de dispersin se ensamblan
en una matriz diagrama de dispersin (scatter plot matrix), como vemos
en la Figura 61. En esta figura, la variable graficada en el eje vertical para
cualquier grfico de dispersin es aquella cuyo nombre se encuentra en su
fila, y la variable graficada en el eje horizontal es aquella cuyo nombre se
encuentra en su columna. Por lo tanto, la matriz de grfico de dispersin en
la Figura 61 muestra en la primera fila los grficos de Y (permetro ceflico:
5.1 Diagnstico del modelo: definiciones y grficos 189

headcirc) versus X1 , (edad gestacional: gestage) y de Y versus X2 (peso:


birthwt). En la segunda fila tenemos los grficos de X1 versus Y y de X1
versus X2 . Finalmente, en la tercer fila tenemos los grficos de X2 versus Y y
de X2 versus X1 . Una matriz de diagramas de dispersin facilita el estudio de
las relaciones entre las variables mediante la comparacin de los diagramas
de dispersin dentro de una fila o una columna. Esta matriz muestra, por
supuesto, informacin repetida de los datos. Bastara con dar los scatter plots
que quedan por encima (o bien, por debajo) de la diagonal.

Figura 61: Matriz de scatter plots para los datos de bebs con bajo peso, con
las covariables edad gestacional y peso

Un complemento a la matriz de diagramas de dispersin que puede ser til


es a veces es la matriz de correlaciones. Esta matriz contiene los coeficientes de
correlacin simple rY X1 , rY X2 , ..., rY Xp1 entre Y y cada una de las variables
predictoras, as como todos los coeficientes de correlacin simple entre las
190 Mara Eugenia Szretter

distintas variables predictoras entre s. El formato de la matriz de correlacin


sigue el de la matriz de scatter plots

1 rY X1 rY X2 rY Xp1
rY X 1 rX1 X2 rX1 Xp1
1
.. .. .. ..
. . . .
rY Xp1 rX1 Xp1 rX2 Xp1 1

y en el caso de los datos de bebs de bajo peso es

> cor(infants[,c(1,3,4)])
headcirc gestage birthwt
headcirc 1.0000000 0.7806919 0.7988372 gestage 0.7806919 1.0000000
0.6599376 birthwt 0.7988372 0.6599376 1.0000000

Observemos que la matriz de correlacin es simtrica y en la diagonal


contiene unos pues el coeficiente de correlacin de una variable consigo misma
es 1.

5.1.2. Grficos de dispersin en tres dimensiones

Algunos paquetes estadsticos proporcionan grficos de dispersin en tres


dimensiones y permiten girar estos grficos para permitir al usuario ver la
nube de puntos desde diferentes perspectivas. Esto puede ser muy til para
identificar los patrones que slo se desprenden de la observacin desde ciertas
perspectivas.

5.1.3. Grficos de residuos

Es importante recalcar que aunque las observaciones (Xi1 , Xi2 , . . . , Xi(p1) ,


Y ) no puedan graficarse en el caso de tener ms de dos covariables, siempre
tanto el valor predicho o ajustado Ybi como el residuo ei estn en R y pueden
ser graficados. De modo que un grfico de los residuos contra los valores ajus-
tados es til para evaluar la idoneidad de la regresin mltiple para modelar
los datos observados, y la homoscedasticidad (constancia de la varianza) de
los trminos de error. Tambin permite proporcionar informacin acerca de
los valores extremos como lo vimos en la regresin lineal simple. Del mismo
modo, un grfico de los residuos contra el tiempo (u orden en el que fueron
recopilados los datos, si este fuera relevante) o en contra de otra secuencia
5.2 Identificacin de outliers y puntos de alto leverage 191

puede proporcionar informacin acerca de las posibles correlaciones entre los


trminos de error en la regresin mltiple. Boxplots y grficos de probabilidad
normal de los residuos son tiles para examinar si el supuesto de distribu-
cin normal sobre los trminos de error se satisface razonablemente para los
valores observados.
Adems, los residuos deben ser graficados versus cada una de las variables
predictivas. Cada uno de estos grficos pueden proporcionar ms informacin
sobre la idoneidad de la funcin de regresin con respecto a la variable de
prediccin (por ejemplo, si un efecto que d cuenta de la curvatura es nece-
sario para dicha variable) y tambin puede proporcionar informacin sobre
la posible variacin de la varianza del error en relacin con dicha variable
predictora.
Los residuos tambin deben ser graficados versus cada una de las varia-
bles de prediccin importantes que se omitieron del modelo, para ver si las
variables omitidas tienen importantes efectos adicionales sobre la variable
de respuesta que an no han sido reconocidos en el modelo de regresin.
Adems, los residuos deben graficarse versus trminos de interaccin para
los posibles efectos no incluidos en el modelo de regresin (trabajamos con
interaccin en la Seccin 4.15 y subsiguientes), para ver si es necesario incluir
algn trmino de interaccin en el modelo.
Un grfico de los residuales absolutos o los residuos al cuadrado contra
los valores ajustados es til para examenar si la varianza de los terminos
de error son constantes. Si se detecta que la varianza no es constante, suele
ser apropiado realizar grficos del valor absoluto de los residuos, o de sus
cuadrados, versus cada una de las variables predictoras, ya que pueden per-
mitir identificar si una o ms variables predictoras con las que se relaciona
la magnitud de la variabilidad del error.
Por supuesto, cualquier paquete estadstico realizar estos grficos de
manera ms o menos automtica.

5.2. Identificacin de outliers y puntos de alto leverage


Como en el caso de regresin lineal simple, aqu tambin tiene sentido
identificar las observaciones que no siguen el patrn de los dems datos.
Medidas para identificar estas observaciones son, nuevamente, el leverage,
los residuos estudentizados, y algunas que no estudiaremos aqu como los
DFFITS y los DFBETAS.
192 Mara Eugenia Szretter

5.2.1. Leverage
Vimos en la Observacin 4.5, en la Seccin 4.6 que los residuos no son
homoscedsticos. Y adems vimos que la varianza dependa del leverage de
una observacin, que tambin definimos en esa seccin a partir de la matriz
de proyeccin o hat matrix H. El leverage de la isima observacin ser el
elemento hii de la matriz de proyeccin, y en general ser calculado por el
software. En el caso de regresin mltiple, sin embargo, es mucho ms impor-
tante asegurarse que no haya observaciones potencialmente influyentes, o si
uno sospecha de algunas, estudiar cmo cambia el ajuste cuando esa obser-
vacin es eliminada de la base de datos. Para la deteccin de observaciones
potencialmente influyentes en regresin lineal simple, muchas veces basta mi-
rar con cuidado el scatter plot de los datos. El problema que aparece aqu es
que no podemos, en general, dibujar el scatter plot de los datos, por lo que
tendremos que calcular el leverage de cada observacin. El criterio para en-
contrar observaciones potencialmente influyentes ser la extensin del visto
anteriormente. El leverage alto indica que una observacin no sigue el patrn
de las dems covariables X. Nuevamente se tiene
X
n
0 hii 1 hii = p
i=1

donde p es el nmero de parmetros de regresin (betas) que hay en la funcin


de regresin, incluyendo el trmino de intercept. Puede mostrarse que hii es
una medida de la distancia entre los valores de las covariables X de la isima
observacin respecto del valor del promedio de todas las X observadas en los
n casos. Es lo
que se conoce como distancia de Mahalanobis de la isima
observacin Xi1 , Xi2 , . . . , Xi(p1) cuando se tiene una muestra de ellas. Este
concepto se estudia en detalle en los cursos de anlisis multivariado. La idea
subyacente es que las distancia usual no expresa bien las distancias entre
observaciones cuando hay dependencia entre las covariables, entonces esta
correlacin o dependencia se toma en cuenta para definir una nueva nocin
de distancia entre puntos. En la Figura 62 se ve un grfico de dispersin
para un conjunto de observaciones, con curvas superpuestas. Estas curvas
representan los puntos que tienen el mismo leverage. Vemos que son elipses.
En el grfico hay una observacin alejada, indicada con A.
Los dos criterios para evaluar si una observacin tiene alta palanca pre-
sentados en el caso de regresin lineal simple se extienden sin grandes modi-
ficaciones al caso mltiple. Ellos son

1. (Ajustado por la cantidad de covariables)P Declarar a la observacin


isima con alto leverage si hii > 2h = n2 nj=1 hjj = 2p
n
.
5.2 Identificacin de outliers y puntos de alto leverage 193

Figura 62: Contornos de leverage constante en dos dimensiones. Las elipses


ms pequeas representan un menor leverage. Vemos una observacin iden-
tificada con el nombre A que tiene alto leverage y no sigue el patrn de las
restantes. Fuente: [15], pg. 170

2. (Sin ajustar por la cantidad de covariables) Declarar a la observacin


isima con muy alto leverage si hii > 0,5 y con leverage moderado si
0,2 < hii 0,5.

Una evidencia adicional para declarar que una cierta observacin tiene
un leverage notoriamente alto, consiste en graficar un histograma de los hii y
ver si existe una brecha notoria que separa al mayor leverage o a un pequeo
conjunto de mayores leverages del resto de las observaciones.

5.2.2. Uso de la matriz de proyeccin para identificar extrapola-


ciones
La matriz H de proyeccin tambin es til para determinar si una in-
ferencia respecto de la respuesta media o de la prediccin para una nueva
observacin Xnueva de valores de las predictoras involucra una extrapolacin
sustancial respecto del rango de los valores observados. Cuando slo tenemos
dos predictoras X1 y X2 esto puede resolverse con un scatter plot como mues-
194 Mara Eugenia Szretter

tra la Figura 62. Este sencillo anlisis grfico no se encuentra disponible si


p 3, donde las extrapolaciones pueden ocultarse.
Para detectarlas podemos utilizar los clculos de leverage presentados
anteriormente. Para una nueva combinacin de variables

Xnueva = (X1nueva , . . . , Xp1 nueva )

para la que interesa hacer prediccin se puede calcular


t
t 1
Xnueva XX Xnueva

donde la matriz X es la que se calcul basada en las n observaciones de la


muestra con la que se calcul el modelo ajustado. Si hnuevo nuevo est bien
incluida dentro del rango de leverages observados en el conjunto de datos
disponibles, estamos seguros de que no hay extrapolacin involucrada. Si,
por el contrario, hnuevo nuevo es mucho mayor que los leverages observados,
entonces no debera llevarse a cabo la estimacin o prediccin para esta com-
binacin Xnueva de covariables.

5.2.3. Residuos estudentizados y distancias de Cook


Ambos estadsticos se definen y calculan del mismo modo que en regresin
lineal simple. Las distancia de Cook para la isima observacin se define por
Pn b b
2
j=1 Yj Yj(i)
Di =
pMSRes

donde Ybj es el valor ajustado para la j-sima observacin, cuando se usaron


las n observaciones en el ajuste del modelo, y Ybj(i) es el valor ajustado para
la j-sima observacin, cuando se usaron n 1 observaciones en el ajuste del
modelo, todas menos la i-sima. Esto se repite para cada observacin, para
poder calcular todas las Distancias de Cook. Afortunadamente, las Di pueden
ser calculadas sin necesidad de ajustar una nueva funcin de regresin cada
vez, en la que se deja una observacin distinta afuera del conjunto de datos.
Esto es porque puede probarse la siguiente igualdad que permite calcular las
distancias de Cook
e2i hii
Di = .
pMSRes (1 hii )2
Observemos que las Distancias de Cook dependen de dos factores:

1. el tamao del residuo isimo, ei


5.3 Colinealidad de los predictores 195

2. el leverage isimo, hii .


Cuanto ms grande sean ei o hii , mayor ser Di . Luego el isimo caso
puede ser influyente por
1. tener un alto residuo ei y slo un moderado valor de leverage hii ,
2. o bien por tener un alto valor de leverage hii con slo un moderado
valor de residuo ei ,
3. o bien por tener tanto un alto valor de leverage hii como un alto valor
de residuo ei .
Los puntos de corte sugeridos para detectar una observacin influyente
con la Distancia de Cook suelen ser percentiles de la distribucin F de Fisher
con p grados de libertad en el denominador y n p en el denominador. Si la
Di F (p, n p, 0,50) la observacin isima es considerada influyente.
El residuo estudentizado (o estudentizado eliminado) se define por
Yi Ybi(i)
restudi = MSRes(i)
,
1hii

donde Ybi(i) es el valor ajustado para la i-sima observacin, cuando se us-


aron n 1 observaciones en el ajuste del modelo, todas menos la i-sima y
MSRes(i) es el cuadrado medio de los residuos cuando el caso isimo es omi-
tido en el ajuste de la regresin lineal. Nuevamente, no necesitamos ajustar
las regresiones excluyendo los casos de a uno por vez, pues una expresin
alternativa para el residuo estudentizado es
1/2
np1
restudi = ei
SSRes (1 hii ) e2i
Los puntos de corte sugeridos para detectar una observacin influyente con
el residuo estudentizado estn dados por el criterio de Bonferroni y consiste
en declarar influyente a una observacin si
|restudi | > tnp1, .
1 2n

5.3. Colinealidad de los predictores


5.3.1. Diagnstico de multicolinealidad
Cuando las variables predictoras incluidas en el modelo estn correla-
cionadas entre ellas, decimos que existe intercorrelacin o multicolinealidad.
Algunos de los problemas tpicos que aparecen cuando las variables regresoras
estn fuertemente correlacionadas son:
196 Mara Eugenia Szretter

1. Los coeficientes de regresin estimados se modifican sustancialmente


cuando se agregan o se quitan variables del modelo.

2. Los errores estndares de los estimadores de los coeficientes aumentan.

3. Los coeficientes pueden ser no significativos an cuando exista una


asociacin verdadera entre la variable de respuesta y el conjunto de
variables regresoras.

5.3.2. Diagnstico informal


Las siguientes situaciones son indicativas de multicolinealidad severa:

1. Cambios importantes en los coeficientes estimados al agregar o quitar


variables o al modificar levemente las observaciones.

2. Tests no significativos para los coeficientes asociados a variables que


tericamente son importantes predictores, an cuando observamos que
existe una relacin estadstica entre las predictoras y la respuesta. El
modelo puede tener R2 cercano a 1 y el test F para el modelo ser
fuertemente significativo y los tests para los coeficientes pueden ser no
significativos. Recordemos que el efecto de la multicolinealidad es inflar
la varianza estimada y en consecuencia el estadstico t asociado a cada
coeficiente beta ser pequeo. Por lo tanto, cuando existe multicolin-
ealidad es difcil evaluar los efectos parciales.

3. Coeficientes estimados con signo contrario al que se espera segn con-


sideraciones tericas.

4. Coeficientes de correlacin grandes para las predictoras tomadas de a


pares.

Aunque este ltimo diagnstico parece ser el modo ms simple de detec-


tar multicolinealidad, adolece de un problema: al calcular los coeficientes de
correlacin de Pearson de todas las variables regresoras tomadas de a pares
slo estamos mirando los vnculos lineales entre dos covariables. El problema
es que podra haber un vnculo lineal muy estrecho entre una coleccin de
variables y otra variable en particular. Un enfoque ms apropiado es hacer
una regresin de cada variable regresora sobre las dems variables regreso-
ras. Cuando el R2 de alguna de estas regresiones sea cercano a 1, deberamos
preocuparnos por el efecto de la multicolinealidad.
Finalmente diremos que la interpretacin de los coeficientes se vuelve du-
dosa cuando existe multicolinealidad. Recordemos que en regresin mltiple
5.3 Colinealidad de los predictores 197

(aditiva) cada coeficiente representa el efecto de la variable regresora cuando


todas las dems variables se mantienen constantes. Pero si dos variables re-
gresoras, por ejemplo X1 y X2 , estn fuertemente correlacionadas tiene poco
sentido pensar en el efecto de X1 sobre Y cuando X2 se mantiene constante.

5.3.3. Diagnstico formal


Un mtodo formal para detectar la presencia de multicolinealidad que est
ampliamente difundida es el uso de los factores de inflacin de la varianza,
ms conocidos como Variance Inflation Factor (VIF). Es un nmero que
se calcula para cada covariable. El VIF de la ksima covariable se calcula
del siguiente modo
1
V IFk = , 1 k p 1,
1 Rk2
donde Rk2 es el coeficiente de determinacin mltiple cuando Xk es regresado
en las p 2 restantes covariables X en el modelo.
El VIFk es igual a uno si Rk2 = 0, es decir si la ksima covariable no
est correlacionada con las restantes covariables. Cuando Rk2 6= 0, el VIFk
es mayor a uno. Cuando Rk2 est muy cerca de uno, el VIFk se vuelve un
nmero enorme.
Para un conjunto de datos, el mayor VIF observado se usa como medida
de diagnstico. Si el mximo VIF es mayor a 10, eso es seal de multicolineali-
dad. Otro criterio es que cuando el promedio de los VIF es considerablemente
mayor a uno se est frente a problemas de multicolinealidad.

5.3.4. Cmo tratar el problema de multicolinealidad?


El recurso ms simple es elegir un subconjunto de las variables regresoras
poco correlacionadas. Si detectamos dos variables muy correlacionadas cmo
decidir cul omitir? En general, conviene omitir aquella que tenga:

mayor nmero de datos faltantes,


mayor error de medicin o
que sea menos satisfactoria en algn sentido.

Otra posibilidad es eliminar variables a travs de procedimientos de se-


leccin automticos (se presentarn ms adelante).
Cuando varios predictores estn altamente correlacionados y son indi-
cadores de una caracterstica comn, uno puede construir un ndice com-
binando estas covariables. Los ndices de bienestar, como el IDH (ndice de
198 Mara Eugenia Szretter

desarrollo humano), o el ndice de inflacin, construidos como promedios pon-


derados de variables que miden el bienestar en una cierta regin o bien los
precios asociados a una determinada canasta, son ejemplos clsicos de es-
ta construccin. En aplicaciones en las que se miden varias covariables muy
correlacionadas esta puede resultar una buena solucin.
En modelos polinmicos o que contienen interacciones, una solucin al
problema de multicolinealidad es trabajar con los datos centrados para la
o las variables predictoras que aparecen en ms de un trmino del modelo.
Esto es, no usar la variable X tal como fue medida, sino la diferencia entre
el valor observado y el valor medio de X en la muestra.
Existen otros procedimientos para tratar multicolinealidad (que escapan
a los objetivos de este curso) como anlisis factorial (factor analysis) o com-
ponentes principales. Estos mtodos permiten crear nuevas variables no cor-
relacionadas a partir de un conjunto de covariables. En general, unas pocas
de estas nuevas variables capturan la mayor parte de la informacin con-
tenida en las variables originales. El problema es que no siempre las nuevas
variables tienen una interpretacin simple.

5.4. Seleccin de modelos


Ya hemos observado que cuando tenemos K covariables disponibles y una
variable a explicar Y , pueden, en principio, ajustarse 2K modelos distintos.
Decimos en principio, pues este total de modelos no incluye aquellos que
tienen interacciones. En esta seccin estamos pensando que si uno quiere
evaluar ciertas interacciones, las debe incluir en esas K covariables iniciales.
Lo mismo si uno quisiera evaluar algunas potencias de las covariables origi-
nales, o algunas transformaciones ms complicadas de ellas. De este modo,
cuando K es un nmero grande, la cantidad de modelos posibles crece expo-
nencialmente, y evaluarlos uno por uno puede ser inmanejable. Por ejemplo,
para K = 8, hay 28 = 256 modelos posibles: hay un modelo sin covariables,
8 modelos de regresin lineal simple, cada uno con una sola covariable, 82 =
28 modelos
8 con dos covariables {X1 , X2 } , {X1 , X3 } , {X1 , X4 } , {X2 , X3 } ,
etc. , 3 = 56 modelos con tres covariables, etctera.
Lo que se denomina seleccin de modelos corresponde a la tarea de elegir
el mejor modelo para nuestros datos.

5.4.1. Criterios para comparar modelos


Una vez que se tienen todas las variables, es de inters contar con un
criterio numrico para resumir la bondad del ajuste que un modelo lineal
con un cierto conjunto de covariables da a la variable dependiente observada.
5.4 Seleccin de modelos 199

A partir de este criterio se podrn ranquear los modelos y elegir un conjunto


de unos pocos buenos candidatos para estudiar luego en detalle.
A continuacin presentamos algunos de los criterios ms frecuentemente
utilizados en regresin lineal para la seleccin de modelos. No son los nicos,
pero s los ms difundidos. Cuando ajustamos un modelo con p1 covariables,
es decir, con p coeficientes 0 s podemos tomar como criterio para evaluar el
ajuste a:

Rp2 o SSResp : Un primer criterio para comparar modelos es mirar el R2


obtenido con cada uno de ellos y elegir aqul con mayor R2 . Usamos
el subndice p para indicar la cantidad de parmetros 0 s hay en el
modelo (es decir, p 1 covariables). Como tenemos que

SSResp
Rp2 = 1 ,
SST otal
resulta que comparar modelos usando el criterio de elegir aqul cuyo
Rp2 sea lo ms grande posible equivale a elegir aquel que tenga la menor
suma de cuadrados de residuos SSResp (ya que la suma de cuadra-
P 2
dos total SST otal = ni=1 Yi Y no depende de las covariables del
modelo ajustado y por eso permanece constante). Pero como ya ob-
servamos, el R2 aumenta al aumentar p 1, el nmero de covariables,
sean estas apropiadas para ajustar los datos o no. Es por eso que el
criterio no es identificar el modelo con mayor R2 (ese ser siempre el
modelo con todas las covariables disponibles) sino encontrar el punto a
partir del cual no tiene sentido agregar ms variables ya que estas no
inciden en un aumento importante del R2 . Muchas veces esto sucede
cuando se han incorporado unas pocas variables al modelo de regre-
sin. Por supuesto, encontrar el punto donde este aumento se empieza
a estancar es un asunto de criterio individual. Suele ser bastante in-
formativo graficar el mejor Rp2 en funcin de p y evaluar grficamente
cundo el crecimiento en el R2 es tan poco que no justifica la inclusin
de la covariable adicional.
2
Ra,p o MSEp : Como el Rp2 no toma en cuenta el nmero de parmetros
en el modelo de regresin, un criterio de decisin mucho ms objetivo
y automatizable es calcular y comparar modelos por medio del Ra2 . Lo
subindicaremos como Ra,p2
para indicar la cantidad de coeficientes 0 s
presentes en el modelo. Recordemos que

2 n 1 SSResp MSResp
Ra,p = 1 = 1 SST otal .
n p SST otal n1
200 Mara Eugenia Szretter

Como SST otal


n1
est fijo en un conjunto de datos dado (slo depende
2
de las Y observadas), el Ra,p aumenta si y slo si el MSResp dismi-
2
nuye. Luego, el coeficiente de determinacin mltiple ajustado Ra,p y
el cuadrado medio del error MSResp , proveen informacin equivalente
acerca del ajuste obtenido. Al usar este criterio buscamos el subcon-
2
junto de p 1 covariables que maximicen el Ra,p , o un subconjunto
2
de muchas menos covariables para las cuales Ra,p est muy cerca del
2
max Ra,p , en el sentido que el aumento en el Ra2 sea tan pequeo que
no justifique la inclusin de la o las covariables extra.
Cp de Mallows: Para utilizar esta medida hay que asumir que en el
modelo con el total de las K covariables (el ms grande posible) estn
todas las covariables importantes de modo que en ese modelo completo,
la estimacin de la varianza del error, 2 , es insesgada. El valor del Cp
se define por
SSResp
Cp = (n 2p)
MSRes (X1 , . . . , XK )
donde SSResp es la suma de los cuadrados de los errores del modelo con
p parmetros (es decir, con p1 covariables) y MSRes (X1 , . . . , XK ) es
el estimador de la varianza del error 2 , calculado bajo el modelo con
todas las posibles covariables X1 , . . . , XK . Cuando se usa el Cp como
criterio, se busca aquel subconjunto de p covariables X que tengan un
Cp pequeo, lo ms cercano a p posible. Es fcil ver que para el modelo
completo, CP = P.
AICp , o el Criterio de Akaike y SBCp o el Criterio Bayesiano de
Schwartz, son otros dos criterios que, al igual que el Cp de Mallows,
penalizan a los modelos con muchas covariables. Se buscan los modelos
que tienen valores pequeos de AICp o SBCp , donde estas cantidades
estn dadas por
AICp = n ln (SSResp ) n ln (n) + 2p
SBCp = n ln (SSResp ) n ln (n) + p ln (n)
Observemos que para ambas medidas, el primer sumando decrece al
aumentar p. El segundo sumando est fijo (puesto que n lo est, para
un conjunto de datos) y el tercer sumando crece al crecer p, es decir,
el nmero de covariables. Ambas medidas representan una buena pon-
deracin entre ajuste apropiado (es decir, SSResp pequea) y parsimo-
nia del modelo (es decir, pocos parmetros a ajustar, o sea, p pequeo).
El Criterio SBCp tambin se llama Criterio Bayesiano de Informacin
(BIC, por sus siglas en ingls).
5.4 Seleccin de modelos 201

5.4.2. Cul de estos criterios utilizar?

Todos estos criterios miden cualidades deseables en un modelo de regre-


sin. Ocasionalmente, una nica ecuacin de regresin produce valores p-
timos de los cuatro criterios simultneamente, con lo que uno puede confiar
que ste es el mejor modelo en trminos de estos criterios.
Desafortunadamente esto raramente ocurre y diferentes instrumentos iden-
tifican diferentes modelos. Sin embargo, tomados en conjunto estos criterios
permiten identificar un conjunto pequeo de modelos de regresin que pueden
ser construidos a partir de las variables independientes relevadas. Conviene
entonces estudiar estos pocos modelos ms detalladamente, teniendo en cuen-
ta los objetivos del estudio, nuestro conocimiento del sistema bajo estudio
y la evaluacin de los supuestos del anlisis de regresin para realizar una
seleccin criteriosa de cual es el mejor modelo.

5.4.3. Seleccin automtica de modelos

Al inicio de la Seccin 5.4 hemos visto que en el proceso de seleccin de


modelos es necesario comparar un nmero muy grande de modelos entre s.
Para simplificar esta tarea, existen una variedad de procedimientos automti-
cos de seleccin de modelos, programados en los paquetes estadsticos.
Un gran problema de estas bsquedas automticas es que en general, estn
programadas para trabajar con la base completa de n K observaciones. Si
hubiera una observacin faltante (missing data) (es decir, un caso para el
cual no se registr una de las variables) estos algoritmos remueven el caso
completo y hacen la seleccin de modelos basados en n 1 observaciones.
Esto puede volverse un problema si n es pequeo y hay varias variables con
observaciones faltantes.
Los mtodos ms populares de seleccin de variables son:

1. Todos los subconjuntos posibles (Best subset).

2. Eliminacin backward (hacia atrs).

3. Seleccin forward (incorporando variables).

4. Stepwise regression (regresin de a pasos).

A continuacin los describimos. Asumimos que n > K (o sea, que tenemos


ms observaciones que covariables).
202 Mara Eugenia Szretter

5.4.4. Todos los subconjuntos posibles (Best subset)

Estos algoritmos ajustan todos los submodelos posibles (los 2K ) y luego


los ranquean de acuerdo a algn criterio de bondad de ajuste. Por supuesto,
esto involucra hacer 2K regresiones. Siempre que sea posible es aconsejable
usar este procedimiento ya que es el nico mtodo que garantiza que se
obtendr el modelo final que realmente optimice la bsqueda con el criterio
elegido: por ejemplo mayor Ra2 , o mejor Cp , etc. Es decir, garantiza que el
modelo final es el mejor para el presente conjunto de datos y para los
criterios utilizados.
Una vez que todos los modelos han sido ajustados, en general el paque-
te exhibe los 10 (o una cantidad prefijable) mejores modelos de acuerdo al
criterio elegido, entre todos los que tienen el mismo nmero de variables.
Cuando la cantidad original de potenciales covariables es muy grande, K
mayor a 40, por ejemplo, no es posible ajustar todos los modelos posibles ya
que 240 = 1 099 511 627 776. Se vuelve necesario usar otro tipo de procedi-
mientos, computacionalmente ms realizables, que buscan elegir un modelo
luego de una bsqueda que explora una sucesin de modelos de regresin
que en cada paso agrega o quita una covariable X. El criterio para agregar o
quitar una covariable, en el caso secuencial, puede escribirse equivalentemen-
te en trminos de la suma de los cuadrados de los residuos, los estadsticos
F parciales, el estadstico t asociado a un coeficiente, o el Ra2 . Son los tres
procedimientos que describimos a continuacin.

5.4.5. Eliminacin backward (hacia atrs).

El procedimiento comienza construyendo el modelo con todas las predic-


toras y en cada paso se elimina una variable. La secuencia del procedimiento
es la siguiente:

1. El modelo inicial contiene todos los potenciales predictores (que hemos


denominado K).

2. Se define un nivel de significacin fijo . Si todas las variables producen


una contribucin parcial significativa (es decir, un estadstico t con
pvalor < ) entonces el modelo completo es el modelo final.

3. De otro modo, se elimina la variable que tenga la menor contribucin


parcial (es decir, el mayor pvalor de su estadstico t) cuando todas
las dems estn en el modelo.
5.4 Seleccin de modelos 203

4. Se ajusta el nuevo modelo con (K 1) predictores y se repiten los


pasos anteriores hasta que todas las variables en el modelo tienen un
coeficiente parcial con pvalor < .

Si hay una alta multicolinealidad en el conjunto de los K predictores, este


procedimiento no es muy recomendable.

5.4.6. Seleccin forward (incorporando variables)


En este caso, comenzamos con el modelo sin variables y vamos agregando
las variables de a una por vez. Ingresa la variable que ms contribuye a
explicar a Y cuando las otras ya estn en el modelo. Se elige un nivel de
significacin fijo . La secuencia de pasos es la siguiente:

1. Primero se ajustan todos los modelos de regresin lineal simple con Y


como respuesta y una sola covariable explicativa. Se elige la que tiene
el mayor valor del estadstico F o, equivalentemente, el menor pvalor
del estadstico t asociado al coeficiente, siempre que dicho pvalor sea
inferior a , sino el procedimiento termina y se elige el modelo sin
covariables

2. En el segundo paso, se busca elegir entre todos los modelos de dos


covariables que tienen a la que fue seleccionada en el primer paso aqul
para el cul el test F parcial d mas significativo. El test F parcial es
el que compara el ajuste del modelo con dos variables con el ajuste del
modelo con una variable elegido en el primer paso. Es decir, es el test
que mide la significatividad de la segunda variable a ser incorporada
en el modelo cuando la primera ya est en l. Aquel modelo que tenga
el F parcial ms significativo o, equivalentemente, el test t asociado al
coeficiente de la variable a ser incorporada ms significativo, o sea, el
menor pvalor, se lo compara a dicho pvalor con el valor crtico . Si
el pvalor es menor que se elige dicho modelo, si el pvalor supera
el valor crtico, el procedimiento se detiene.

3. Ahora se calculan los estadsticos F parciales de todos los modelos con


tres covariables, que tienen a las dos covariables ya elegidas e incorporan
una tercera. Se continua de esta manera (como en el paso 2) hasta que
ninguna variable produce un F parcial (o t) significativo.

Si se usa un punto de corte muy exigente (digamos < 0,01) sern inclu-
das menos variables y existe la posibilidad de perder covariables importantes.
Si se usa un punto de corte menos exigente ( < 0,20) es menos probable
204 Mara Eugenia Szretter

que se pierdan covariables explicativas importantes pero el modelo contendr


ms variables.
Una vez que el procedimiento finaliza, no todas las variables en el modelo
necesariamente tendrn coeficientes parciales significativos.

5.4.7. Seleccin stepwise


Es una modificacin del procedimiento forward que elimina una variable
en el modelo si sta pierde significacin cuando se agregan otras variables. La
aproximacin es la misma que la seleccin forward excepto que a cada paso,
despus de incorporar una variable, el procedimiento elimina del modelo las
variables que ya no tienen contribucin parcial significativa. Una variable que
entr en el modelo en una etapa, puede eventualmente, ser eliminada en un
paso posterior.
En este caso ser necesario definir un punto de corte para que ingrese
una variable I y otro para eliminarla del modelo e . Uno puede desear ser
menos exigente (mayor pvalor) en el punto de corte para que una variable
salga del modelo una vez que ingres, o usar el mismo valor para ambos.
Este procedimiento, en general produce modelos con menos variables que
la seleccin forward.

5.4.8. Limitaciones y abusos de los procedimientos automticos


de seleccin de variables
Cualquier mtodo automtico de seleccin de variables debe ser usado con
precaucin y no debera ser sustituto de un investigador que piensa, ya que
no hay garantas que el modelo final elegido sea ptimo. Conviene tener en
cuenta las siguientes observaciones.

Cuando se proponen trminos de interaccin entre las variables regreso-


ras, el modelo debe contener las interacciones significativas y los efectos
principales de las variables involucradas en estas interacciones, sean s-
tas significativas o no. De otro modo el modelo carece de interpretacin.
La mayora de los procedimientos automticos no tienen este cuidado.
Lo mismo sucede cuando uno incorpora una variable categrica cod-
ificada con dummies: o entran todas las dummies, o ninguna, pero
no es correcto poner algunas de ellas (las significativas) y otras no,
porque sino el modelo carece de interpretacin. Con las categricas,
otra posibilidad consiste en recategorizarlas, agrupando algunas cate-
goras, y luego ajustar el modelo nuevamente, esperando que se obtenga
un mejor ajuste (no siempre ocurre).
5.4 Seleccin de modelos 205

El hecho de que un modelo sea el mejor en trminos de algn criterio


(Cp o Ra2 , por ejemplo) no significa que sea el mejor desde el punto de
vista prctico. Ni tampoco que para este modelo valgan los supuestos.

El procedimiento de seleccin automtica puede excluir del modelo va-


riables que realmente deberan estar en el modelo de acuerdo a otros cri-
terios tericos.Una posibilidad es forzar a que ciertas variables aparez-
can en el modelo, independientemente del hecho de que tengan coefi-
cientes significativos. Por ejemplo, podemos hacer una regresin back-
ward sujeta a la restriccin de que el modelo incluya ciertos trminos
especificados de antemano. Esto asegura que el modelo final contiene
las variables de inters primario y toda otra variable o interaccin que
sea til a los efectos de prediccin. Algunos paquetes permiten esta
alternativa.

Una vez que hemos seleccionado un modelo final usando cualquier pro-
cedimiento de seleccin, la inferencia realizada sobre ese modelo es slo
aproximada. En particular, los pvalores sern menores y los inter-
valos de confianza ms angostos que lo que deberan ser, puesto que
el modelo seleccionado es aqul que ms fuertemente refleja los datos.
(Hemos hecho uso y abuso de nuestros datos para obtener un modelo, es
de esperar que otra muestra aleatoria de observaciones del mismo tipo
a la que se le ajuste este modelo tenga menor capacidad predictiva).

Existe una diferencia sustancial entre seleccin de modelos explicativos


y exploratorios. En investigacin explicatoria, uno tiene un modelo
terico y pretende testearlo a travs de un anlisis de regresin. Uno
podra querer testear si una relacin que se propone como esprea desa-
parece al incorporar una nueva variable en el modelo. En este enfoque,
los procedimientos de seleccin automtica en general no son apropia-
dos, ya que es la teora la que determina cules son las variables que
deben estar en el modelo.

En investigacin exploratoria el objetivo es encontrar un buen conjun-


to de predictores. Uno intenta maximizar R2 independientemente de
explicaciones tericas.

Por qu podra dejarse en el modelo final una variable que no resulta


estadsticamente significativa? Muchas veces pueden aparecer variables
en el modelo seleccionado para las cules el pvalor del test t no es
menor que 0,05. Esto puede deberse a que haya motivos tericos que
indican que la respuesta depende de dicha covariable y que tal vez el
206 Mara Eugenia Szretter

tamao de muestra no haya sido lo suficientemente grande como para


comprobarse la significatividad estadstica. Se deja para que el modelo
no resulte sesgado. Los estimadores de los coeficientes son insesgados
si el modelo es correcto (es decir, contiene todas las covariables apro-
piadas en la forma correcta, dejar covariables con sustento terico para
que estn permite que los estimadores de los efectos de otras covari-
ables sean insesgados). Otro motivo para dejarla puede ser porque su
presencia ayuda a reducir la varianza estimada del error, permitiendo
que otros coeficientes resulten significativos. Y tambin pueden dejarse
covariables aunque no sean significativas pero que permitan comparar
el modelo presentado con otros modelos publicados con antelacin.

En resumen, los procedimientos de seleccin automtica de modelos no


son sustitutos de una cuidadosa construccin terica que gue la formulacin
de los modelos.

5.4.9. Validacin de modelos


El paso final en el proceso de construccin o seleccin de modelos lo
constituye el proceso de validacin de los modelos. Esta etapa de validacin
involucra, usualmente, chequear el modelo candidato con datos independien-
tes a los utilizados para proponer el modelo. Hay cuatro formas bsicas de
validar un modelo de regresin:

1. Recolectar un nuevo conjunto de datos que permita chequear el modelo


y su habilidad predictiva.
2. Comparar los resultados con las expectativas tericas, resultados em-
pricos previos y resultados de simulaciones.
3. Cuando fuera posible, usar otras tcnicas experimentales para con-
firmar el modelo. Esto, por supuesto, depender de las herramientas
propias de cada disciplina.
4. Cuando el tamao de muestra lo permitiera, otra posibilidad es dividir
al conjunto de observaciones disponible en dos grupos disjuntos. Con
uno de ellos se selecciona el modelo ms apropiado. Este grupo se de-
nomina muestra de entrenamiento (training sample). Con el segundo
grupo, que se llama muestra de validacin (validation set) se evala
la razonabilidad y la capacidad predictiva del modelo seleccionado. A
este proceso de validacin se lo denomina a veces, cross-validation, es
decir, validacin cruzada.
Apndice A: Ejercicios 207

Apndice A: Ejercicios
Ejercicio 1, de Correlacin (peso y presin)

La tabla que se presenta a continuacin contiene el peso y la presin sangunea sistlica


de 11 hombres seleccionados al azar en el grupo de edades de 25 a 30 aos. Queremos
estudiar la relacin entre estas dos variables.

Persona Peso (en libras) Presin sangunea


sistlica
1 165 130
2 167 133
3 180 150
4 155 128
5 175 146
6 190 150
7 149 125
8 158 133
9 169 135
10 170 150
11 172 153

1. En el diagrama de dispersin que se encuentra a continuacin se han graficado 8


de las 11 personas de la tabla. Graficar los 3 puntos que faltan. parece haber
alguna evidencia de una relacin lineal entre el peso y la presin sangunea
sistlica?. Si la respuesta es positiva cmo parece ser esta relacin?
150
145
Presin sangunea sistlica

140
135
130
125

150 160 170 180 190

Peso

2. Calcular el coeficiente de correlacin de Pearson (r) para estos datos. Para


facilitar los clculos se completaron algunas casillas de la tabla que se encuentra
a continuacin.
208 Mara Eugenia Szretter

xi yi
Persona (peso) (presin) xi x yi y ( x i x )2 ( y i y )2 (xi x )( yi y )
1 165 130 -3.182 -9.364 87.678 29.793
2 167 133 -1.182 -6.364 1.397 40.496 7.521
3 180 150
4 155 128 -13.182 -11.364 173.760 129.132 149.793
5 175 146 6.818 6.636 46.488 44.041 45.248
6 190 150 21.818 113.132 232.066
7 149 125 -14.364 367.942 206.314
8 158 133 -10.182 -6.364 103.669 40.496 64.793
9 169 135 0.818 0.669 19.041
10 170 150 10.636 3.306 19.339
11 172 153 3.818 13.636 14.578 185.950 52.066
Suma 1850 1533
Media 168.182 139.364

3. Calcular el coeficiente de correlacin de Spearman (rs) para los datos dados.

xi yi Rango Rango
Persona (peso) (presin) ( xi ) ( y i ) xi x yi y ( x i x )2 ( yi y )2 (xi x )( yi y )
1 165 130 -3 9 6
2 167 133 -1.5 2.25 1.5
3 180 150 3 9 12
4 155 128 -4 16 16
5 175 146
6 190 150 5 3 25 9
7 149 125 -5 25
8 158 133 -3 9
9 169 135 0 0 0
10 170 150 1 3 1 9 3
11 172 153 2 5 4 25 10
Suma 1850 1533 66 66
Media 168.182 139.364 6 6

4. Testear, a nivel 0.05, la hiptesis nula de que el coeficiente de correlacin


poblacional es igual a cero, usando el coeficiente de correlacin de Pearson.
A qu conclusin llega? Recordar que t 9, 0.975 = 2.262157 .
Apndice A: Ejercicios 209

Ejercicio 2, de Correlacin (colesterol y triglicridos)

En un estudio conducido en Italia a 10 pacientes con hipertrigliceridemia se los puso


a dieta baja en grasas y alta en carbohidratos. Antes de comenzar la dieta, se les midi el
colesterol y los tricridos. Esos datos figuran en la tabla a continuacin (ordenados por
la segunda variable) y fueron publicados en Luciano Cominacini, Isabella Zocca, Ulisse
Garbin, Anna Davoli, Roberta Compri, Loredana Brunetti, Ottavio Boseio, Long-term
effect of a low-fat, high-carbohydrate diet on plasma lipids of patients affected by
familial endogenous hypertriglyceridemia, American Journal of Clinical Nutrition,
1988; 48, p. 57-65, y se encuentran grabados en el archivo hipertrigliceridemia.sav.

Paciente Colesterol Triglicridos


1 5.12 2.30
2 6.18 2.54
3 6.77 2.95
4 6.65 3.77
5 6.36 4.18
6 5.90 5.31
7 5.48 5.53
8 6.02 8.83
9 10.34 9.48
10 8.51 14.20

Para analizar estos datos, el primer paso es construir un scatter plot de ellos.
En SPSS, por men: Grficos Cuadro de dilogos antiguos Dispersin
Dispersin simple Definir

a) Parece haber alguna evidencia de una relacin lineal entre los niveles de colesterol
y de triglicridos antes de la dieta?
210 Mara Eugenia Szretter

b) Calcular r, el coeficiente de correlacin de Pearson para los datos. Para ello,


completar los valores correspondientes a las primeras 5 observaciones de la siguiente
tabla. Hemos puesto los valores de las 5 ltimas observaciones, los totales y los valores
medios para facilitar las cuentas.

Paciente x =y= xi x yi y (xi x )( yi y ) (xi x )2 ( y i y )2


chol tri
1 5.12 2.30
2 6.18 2.54
3 6.77 2.95
4 6.65 3.77
5 6.36 4.18
6 5.90 5.31 -0.833 -0.599 0.4990 0.6939 0.3588
7 5.48 5.53 -1.253 -0.379 0.4749 1.5700 0.1436
8 6.02 8.83 -0.713 2.921 -2.0827 0.5084 8.5322
9 10.34 9.48 3.607 3.571 12.8806 13.0104 12.7520
10 8.51 14.20 1.777 8.291 14.7331 3.1577 68.7407
media 6.733 5.909 0 0
total 34.90223 21.99541 131.2229

(x i x )( y i y )
Una vez completada la tabla, calcular r = i =1
n n

(x x) (y y)
2 2
i i
i =1 i =1

c) Testear, a nivel 0.05, la hiptesis nula de que el coeficiente de correlacin


poblacional es igual a cero. Cul es su conclusin?

Con el SPSS: Analizar Correlaciones Bivariadas Pearson

Hacerlo a mano. Recordar que t8, 0.975 = 2.306004.

d) Calcular rs, el coeficiente de correlacin de Spearman para los datos. Para ello,
completar los valores correspondientes a los rangos de cada muestra y luego las dems
columnas de la siguiente tabla. Hemos puesto algunos valores para facilitar las cuentas.
Apndice A: Ejercicios 211

Paci chol x tri y xi x y i y (xi x )( y i y ) ( x i x )2 ( y i y )2


ente =Rango =Rango

1 5.12 2.30 20.25


2 6.18 2.54 0.25
3 6.77 2.95 6.25
4 6.65 3.77 2.25
5 6.36 4.18 0.25
6 5.90 5.31 6.25 0.25
7 5.48 5.53 12.25 2.25
8 6.02 8.83 2.25 6.25
9 10.34 9.48 20.25 12.25
10 8.51 14.20 12.25 20.25
medi 6.733 5.5 5.909 5.5 0 0
a
total 34.5 82.5 82.5

Observar que ac los que juegan el papel de xi y yi son los rangos de las respectivas
observaciones.
n

(x i x )( y i y )
Una vez completada la tabla, calcular rs = i =1
n n

(x x) (y y)
2 2
i i
i =1 i =1

e) Comparar r y rs.
f) Testear, a nivel 0.05, la hiptesis nula de que el coeficiente de correlacin poblacional
es igual a cero, pero esta vez usando el rs. Cul es su conclusin?

Con el SPSS Analizar Correlaciones Bivariadas Spearman

Hacerlo a mano. Recordar que t8, 0.975 = 2.306004. Son slo diez datos, la aproximacin
normal no ser lo mejor, pero la tomamos como vlida para no hacer tantas cuentas.

g) Cul es la conclusin global respecto de si el coeficiente de correlacin poblacional


es o no igual a cero? Justificar
212 Mara Eugenia Szretter

Ejercicio 3, de Regresin lineal simple (peso y presin)

Con los datos del Ejercicio 1: Peso y la Presin Sangunea Sistlica (PSS) de
11 hombres seleccionados al azar en el grupo de edades de 25 a 30 aos

Persona Peso (en libras) Presin sangunea


sistlica
1 165 130
2 167 133
3 180 150
4 155 128
5 175 146
6 190 150
7 149 125
8 158 133
9 169 135
10 170 150
11 172 153

Resolver los siguientes items:

1. Expresar el modelo de Regresin Lineal para la variable respuesta Presin


Sangunea Sistlica y la variable explicativa Peso, indicando claramente los
parmetros y variables involucradas. Cules son los supuestos que deben
satisfacer los datos para que sean vlidas las inferencias posteriores?

2. Ajustar una recta de cuadrados mnimos para las mismas variables del tem
anterior. Escribir la ecuacin de la recta estimada y graficarla en el diagrama de
dispersin.
Apndice A: Ejercicios 213

Dira que el signo de la pendiente de la recta estimada ( 1 ) es correcto? Por qu?

Basndose en el ajuste realizado, responder las siguientes preguntas.

3. Qu PSS se espera que tenga un hombre, entre 25 y 30 aos, que pesa 160
libras?Y uno que pesa 180 libras?

4. Predecira un valor de PSS para un hombre, entre 25 y 30 aos, que pesa 240
libras? Justificar.

5. En cunto se incrementa la PSS cuando el Peso aumenta de 160 a 161


libras?Y cundo el Peso aumenta de 160 a 170 libras?Y de 180 a 190 libras?
214 Mara Eugenia Szretter

Taller 1 Coeficiente de Correlacin y Regresin Lineal simple

Ejercicio 1

a) En una ciudad con graves problemas de obesidad en la poblacin, se solicit a un


grupo de 100 adolescentes que registrara durante un mes la cantidad de horas que
dedicaban cada da a actividades sedentarias (mirar televisin, estudiar o utilizar la
computadora) y las promediaran. El archivo Adol horas 2013.xls presenta la edad en
aos (Edad), el gnero (Varn, Mujer), el promedio de horas por da dedicadas a
actividades sedentarias (Horas) como as tambin un nmero (Id) para identificar a
cada participante. Importe los datos que se encuentran en el archivo Adol horas
2013.xls. Estos datos fueron artificialmente generados.

b) Utilizando la vista de variables, modifique la cantidad de decimales de las variables


Id y Varn. En la vista de variables, controle que sea adecuada la codificacin
(medida) de las variables VARN: nominal, EDAD y HORAS: escala.

c) Calcule el coeficiente de correlacin entre la variable edad y la variable horas


para todos los datos juntos.

Por men: Analizar Correlaciones Bivariadas Pearson


Apndice A: Ejercicios 215

Repita para cada gnero.

Por men

Datos Segmentar archivo - > Organizar los resultados por grupo

Analizar Correlaciones Bivariadas Pearson


Datos Segmentar archivo Restablecer

Por sintaxis
SORT CASES BY VARON.
SPLIT FILE SEPARATE BY VARON.
CORRELATIONS
/VARIABLES=EDAD HORAS.
SPLIT FILE OFF.

Qu p-valores obtiene? Qu se est testeando?

d) Obtenga el diagrama de dispersin de horas (en el eje vertical) en funcin de la edad


(en el eje horizontal).
Para todos los datos juntos, por men:
Grficos Generador de grficos Dispersin/puntos
Para todos los datos en un solo grfico y un color para cada grupo por men:

Grficos Generador de grficos


en Galera: Dispersin/puntos Seleccionar las variables
en Grupos/ID..: activar Variable de agrupacin/apilado y mover VARON a
establecer color

y un diagrama de dispersin para cada gnero por separado (use Segmentar archivo
por men , o SPLIT FILE por sintaxis).
216 Mara Eugenia Szretter

e) Describa el tipo de asociacin que muestran los diagramas de dispersin de las


variables edad y horas del punto anterior. Compare con los correspondientes
coeficientes de correlacin.

Ejercicio 2

Abra y examine las variables del archivo ingresos1.sav. Corresponde a una base de
datos de 40 individuos, para los que se registraron las variables: Id (identificador, un
nmero entre 1 y 40 que identifica al nmero de observacin), educacin, edad y
salario. La variable educacin est codificada de 1 a 10, donde 1 corresponde al
menor nivel de educacin alcanzado y 10 al mayor. La variable salario corresponde al
salario bruto mensual (es decir, antes de impuestos), en dlares. La variable edad est
medida en aos.

a) Obtenga el coeficiente de correlacin y su p-valor entre educacin y salario.


Interprete el resultado. Realice el diagrama de dispersin (con educacin en el eje
horizontal). Describa el tipo de asociacin que muestran las variables. Le parece que es
un resultado lgico? Justifique brevemente.

b) Obtenga el coeficiente de correlacin y su p-valor entre educacin y salario para


cada edad. Interprete el resultado. Realice los diagramas de dispersin (con educacin
en el eje horizontal). Describa el tipo de asociacin que muestran las variables. Le
parece que es un resultado lgico? Justifique brevemente. Compare con el resultado
obtenido en a).

Para ello, Datos Segmentar archivo


Tildar en la opcin Organizar los resultados por grupos
Arrastrar la edad y luego, aceptar.
Cuando pidamos la correlacin lo separar por grupos de edad.

c) Realice el diagrama de dispersin entre educacin y salario utilizando edad como


Variable de agrupacin/apilado. Qu observa? Puede explicar ahora las
contradicciones entre a) y b)?

Observar que si seguimos con el archivo segmentado, la opcin de graficar devuelve un


diagrama de dispersin para cada edad. Si queremos poner todas las observaciones en el
mismo grfico, con un color diferente para cada edad, hacer:
Datos Segmentar archivo Reestablecer Aceptar

Ir a Datos Segmentar archivo Restablecer


Grficos Generador de grficos Dispersion/puntos
Arrastrar el segundo grfico que aparece. Y poner en el
Eje Y: salario
Eje X: educacin
Color: Establecer marcas por: edad
Aceptar
Apndice A: Ejercicios 217

d) Haremos un cambio de unidades en las que est expresada la variable salario, para
que las sumas de cuadrados queden expresadas en valores ms pequeos. Para ello
defina una nueva variable: sal (salario en cientos) que es igual a la variable salario
dividida por 100. Para ello:
Transformar calcular variable
Variable de destino: sal
Expresin numrica: salario/100

Ajuste una recta de cuadrados mnimos para la variable respuesta sal y la variable
explicativa educacin sin tener en cuenta la variable edad.

En SPSS: Analizar Regresin Lineales


218 Mara Eugenia Szretter

Describa e interprete cada una de los resultados. Qu significa el coeficiente de la


variable explicativa educacin?

e) Para cada edad, ajuste una recta de cuadrados mnimos con sal como variable
respuesta y educacin como variable explicativa. Qu significa el coeficiente de la
variable explicativa en cada una de las regresiones ajustadas?
6. Apndice A: Ejercicios 219

Ejercicio domiciliario

Para entregar la clase antes del examen


El valor energtico (en kcal. por cada 100g.) de galletitas de agua de marca
A (Y ) se relaciona con la cantidad de grasas totales (en g.) (X) involucradas
en su produccin. Un experimentador toma una muestra de tamao 22 (es
decir, compra 22 paquetes de galletitas y elige una de cada uno) para verificar
la adecuacin de un modelo de regresin lineal a esta relacin. Utilizando el
archivo de datos galletitas.xls responda a las siguientes preguntas: (no hace
falta que copie en su respuesta las salidas del SPSS, simplemente responda
brevemente a las preguntas, en general bastar con una o dos oraciones).

1. Exprese el modelo de regresin lineal indicando claramente los parmet-


ros y variables involucradas. Escriba los supuestos necesarios para que
sean vlidas las conclusiones respecto de los tests y los intervalos de
confianza.
2. Ajuste el modelo. D la ecuacin de la recta estimada.
3. Es la pendiente del modelo significativa? Es decir, hay un vnculo
lineal entre las valor energtico (en kcal. por cada 100g.) de galletitas
de agua de marca A (Y ) y la cantidad de grasas totales (en g.) (X)
involucradas en su produccin? Conteste a nivel 0.05. Al escribir su
respuesta, escriba claramente las hiptesis que testea, el pvalor obtenido
y su conclusin.
4. Es la ordenada al origen significativa al nivel 0.05?
5. Estime la varianza del error ( 2 ).
6. Interprete los parmetros estimados (en su respuesta a esta pregunta
debera aparecer una frase que comience ms o menos as: Por cada
aumento de 1g. en la cantidad de grasas totales....)
7. Al investigador le interesa calcular la cantidad de caloras esperadas
para 100g de galletitas de agua de marca A producidas con X = 30g.
de grasas totales. Diga cul es el valor esperado, en base a los datos
dados.

8. D un intervalo de confianza de nivel 0,95 del valor calculado en el tem


anterior.

9. Halle un intervalo de confianza para la pendiente correspondiente al


ajuste de la marca A de nivel 0,95.
220 Mara Eugenia Szretter

10. Cunto vale el coeficiente de determinacin R2 ? Cmo interpreta este


valor para estos datos?

11. El fabricante de las galletitas de marca A le regala al investigador un


paquete de galletitas producidas con 40g. de grasas totales, que no usa
para hacer su anlisis. Antes de comer una, el investigador se pregunta
cuntas caloras estar ingiriendo. Responda a esta pregunta calculando
dicho valor. Adems, d un intervalo de prediccin del 99 % para dicho
valor.

12. dem la pregunta anterior pero para un paquete de galletitas producidas


con 90g. de grasas totales. Con el ajuste obtenido, se puede realizar
este clculo?

13. Para qu valores de grasas totales involucradas en la produccin de


galletitas puede contestar la pregunta 11 con los datos dados? (es decir,
diga para qu valores de X no est extrapolando al calcular valores
predichos).

14. Para cul de los valores posibles para X la pregunta anterior el inter-
valo a calcular resultar ms corto? Para cul (o cules) ms largo?

15. Responda a la pregunta 3 con otro test.

16. Diga verdadero o falso:

a) Los residuos son observables.


b) Los errores son observables.
c) Los residuos son iguales que los errores.
d) Los residuos son aleatorios.
e) Los errores son aleatorios.

17. Analice la adecuacin del modelo. Indique en qu salidas/grficos se


basan sus conclusiones.
Apndice A: Ejercicios 221

Taller 2 Regresin Lineal Simple: medidas de diagnstico

El objetivo de este ejercicio es ver cmo influyen las observaciones, aclarar lo que
quiere decir punto influyente y punto que sigue el modelo lineal. Pondremos
artificialmente observaciones atpicas y veremos cmo influyen sobre el ajuste
obtenido, y cmo las medidas de diagnstico (en este caso, el leverage y los residuos
estudentizados) reaccionan a esta contaminacin. Es ms un trabajo de simulacin
que de anlisis. Recordemos las definiciones: (segn el apunte de Diana Kelmansky):

Un dato atpico (outlier) en una regresin es aquel que no sigue la estructura de los dems datos,
en general produce un residuo grande.
Una observacin potencialmente influyente (con alta palanca) es aquella cuya variable
explicativa se encuentra lejos del promedio, al ser excluida del anlisis podra provocar un
cambio importante en la recta ajustada.

Si un dato yace fuera el patrn lineal, es decir que es un outlier, y tiene adems alta palanca, la
posicin de la recta de regresin estar influida por dicha observacin. La influencia de estos
puntos en la regresin por cuadrados mnimos generalmente garantiza que sus residuos no sean
demasiado grandes, pues acercan la recta ajustada hacia ellos. Un punto de alta palanca que no
sigue el patrn lineal puede quedar enmascarado y no aparecer con un residuo grande.

No sirve buscar simplemente residuos grandes ya que puntos de alta palanca fuera del patrn
lineal general podran producir residuos pequeos.

Los puntos influyentes y los valores atpicos son fciles de detectar mientras haya una sola
variable explicativa. Un diagrama de dispersin clsico, de y versus x, alertar adems sobre las
observaciones que son extremas en x y que pueden por lo tanto ser influyentes. Una observacin
influyente debera ser investigada para asegurarse que es correcta. Incluso cuando no se halle error
se debera determinar si esa observacin pertenece a la poblacin en estudio.

Las medidas de influencia se calculan caso por caso, como los residuos, los residuos
estandarizados y los residuos estudentizados. El leverage de la observacin isima queda definido
por
1 ( xi - x ) 2
h ii = +
n n
( x k - x ) 2
k =1
Otras medidas son la distancia de Cook, los DFFITS, los DFBETAS. Como su anlisis es similar,
nos dedicaremos a mirar en detalle al leverage.

Un caso influyente es aquel que produce cambios importantes en el ajuste de la regresin cuando
ese punto se omite. Uno de los objetivos principales del diagnstico es la deteccin y el estudio de
estos casos potencialmente influyentes. Los siguientes estadsticos miden el efecto que produce
eliminar la observacin i-sima:

1. Distancia de Cook (COO). Puede interpretarse como un efecto global sobre todos los
coeficientes estimados y tambin como el efecto sobre el valor predicho y i .
2. DFFITS. Mide el efecto sobre el valor predicho y i
3. DFBETA. Mide el efecto sobre cada coeficiente estimado.
222 Mara Eugenia Szretter

Las tres medidas estn relacionadas. Las dos primeras son muy similares y debe elegirse una de
ellas si el inters est en la prediccin. En cambio el inters est en la estimacin de un parmetro
de la regresin el DFBETA para ese parmetro ser de mayor utilidad.

El leverage o palanca, hii, es un estadstico fundamental para detectar puntos potencialmente


influyentes. El SPSS presenta una versin centralizada (hii -1/n) Puede tomar valores entre 0 y 1-
1/n. Existen distintas propuestas de corte para identificar los casos influyentes:

Ajustado por la cantidad de covariables en el modelo: Un caso es influyente si h i i > 2K / n.


(K es la cantidad de betas en el modelo de regresin lineal, K = 2 en el modelo de regresin
lineal simple), o sea si hii centrado > (2K-1)/n = 3/n

Sin ajustar por la cantidad de covariables en el modelo:

h i i 0.2 es un caso seguro


0.2 < h i i 0.5 es un caso riesgoso
h i i >0.5 es un caso que debe evitarse si es posible

o sea, si los hii centrado 0.2 1 / n es un caso seguro


0.2 1 / n < hii centrado 0.5 1 / n es un caso riesgoso
hii centrado > 0.5 1/n es un caso que debe evitarse si es posible

Resumen de la forma en que puede afectar un nico dato el ajuste de una recta por el mtodo de
Cuadrados Mnimos

Dato con Cae dentro del patron lineal Cae fuera del patron lineal
alta palanca determinado por los dems determinado por los dems
Aumenta el R2 y reduce el p-valor del Modifica los coeficientes estimados,
S coeficiente estimado de la variable puede tener residuo chico por
explicativa enmascaramiento
No Bien Tiene residuo grande, aumenta el s2,
aumenta la longitud de los intervalos de
confianza

Ejercicio 1
a) Abra los datos que se encuentran en el archivo low birth weight infants.sav.
Corresponden a los datos que analizamos en clase, tratados en el libro de Pagano y
Gauvreau:
Pagano, M., Gauvreau, K. Principles of Biostatistics, Second Edition, Duxbury
Thomson Learning. 2000.

b) Usaremos solamente las variables headcirc (permetro ceflico, en centmetros) y


birthwt (peso al nacer, en gramos). Para hacer ms fcil de interpretar la variable,
expresemos el peso al nacer en kilogramos en una nueva variable que se llamar
pesokg y ser igual al birthwt dividida por 1000. Para ello
Transformar Calcular variable
Variable de destino: pesokg
Expresin numrica: birthwt/1000

Haremos una regresin lineal con pesokg como explicativa y headcirc como
variable dependiente.
Apndice A: Ejercicios 223

c) Escriba el modelo propuesto, con lpiz (bueno, puede ser lapicera) y papel. Indique
qu significan 0 y 1.

d) Realice el ajuste por cuadrados mnimos. Guarde los residuos estandarizados, los
residuos estudentizados y los valores de influencia para utilizarlos ms adelante. Observe
cmo se ha modificado el archivo contiene que los datos. Describa cada una de las nuevas
variables que aparecen.

Analizar Regresin Lineales


Dependiente: headcirc
Independientes: pesokg

Guardar:
Valores pronosticados (o sea, predichos): No tipificados
Residuos:
- No tipificados (son los residuos que conocemos)
- Tipificados (son los estandarizados, se los divide por un estimador de
sigma)
- Mtodo de Student (son los residuos estudentizados)

Distancias:
- Valores de influencia (leverage centrado)
- Distancias de Cook

La vista de variables permite identificar a qu corresponde cada uno de los


estadsticos.

e) Escriba el modelo estimado e interprete el significado de cada uno de los trminos


de dicho modelo.

f) Cunto estima que aumentar el permetro ceflico de un beb si aumenta en 10g?


Si aumenta 100g. ? Tiene sentido responder esta pregunta si se trata de 1kg. de
aumento?

g) Prediga el permetro ceflico medio para la poblacin de bebs que pesaron 820g. al
nacer. Lo mismo para los bebs de 1200g.

h) Obtenga el diagrama de dispersin de los datos junto con la recta de regresin


ajustada. Superponga luego las bandas de los intervalos de confianza y los intervalos de
prediccin de nivel 95%.

En SPSS: Grficos Generador de grficos Dispersin/Puntos (arrastrar el 1ro de


la izq. arriba) doble click en el grfico se abre la ventana Editar grficos
Aadir lnea de ajuste total Lineal
Intervalos de confianza: media Aplicar
Intervalos de confianza: individuos Aplicar

i) Calcule los intervalos de confianza y los intervalos de prediccin de nivel 95% para
los casos del tem g).
224 Mara Eugenia Szretter

Analizar Regresin Lineales


Dependiente: headcirc
Independientes: pesokg

Guardar:
Intervalos de pronstico: tildar en media y en individuos. Verificar el nivel de
confianza. Volver a mirar el conjunto de datos para interpretar los valores calculados
por el paquete.

j) Hacer un grfico de residuos (los que quiera, no difieren mucho entre s en este caso)
versus la covariable X. Y tambin un grfico de residuos versus predichos. Son muy
diferentes? Tenemos evidencia de que no se cumplan los supuestos del modelo lineal?
Podemos identificar en este grfico alguna observacin con residuo alto? Hay alguna
observacin influyente en este conjunto de datos?

k) Se ven valores potencialmente influyentes o outliers? Chequee esto por medio de los
estadsticos calculados para ello. Es decir, hay observaciones con leverage fuera de los
rangos admisibles? Para eso, hacer un
Analizar Estadsticos descriptivos Descriptivos: Variable: centered leverage

l) Identificaremos algunas observaciones con alto leverage, que superan uno de los dos
criterios de corte (aunque estn muy lejos del otro). Si uno observa en el diagrama de
dispersin de las observaciones, estos puntos siguen el patrn lineal y no resultarn
influyentes.

Identificamos una observacin con alto residuo (el caso 31), sin embargo no tiene ni
alto leverage ni distancia de Cook anmala (no supera el percentil 0.5 de una F(2,98)
aunque s est por encima del percentil 0.2 de dicha distribucin), luego no estara mal
estudiarla. Una posibilidad es quitarla de la base de datos y volver a ajustar el modelo
sin ella. Hacerlo. Qu puede concluir?

Para hacerlo, genere una variable caso que identifique los casos. Esto le permitir
identificar los casos cuando el archivo de datos no tenga el orden original y seleccionar
los casos por nmero. Se puede generar una variable conteniendo el nmero de caso
utilizando la funcin $CASENUM de la siguiente manera:

Transformar Calcular variable (Grupo de funciones: otras )

En nuestro ejercicio esto servir para identificar los casos a extraer.

Para eso ir a Datos Seleccionar casos elegirlos segn el nmero de caso.


Apndice A: Ejercicios 225

La instruccin para seleccionar es


(caso > 31) | (caso < 31) (la barra vertical corresponde a la disyuncin castellana o)
que permite identificar a todos los casos excepto el 31.

Luego vuelva a ajustar el modelo lineal, escriba el modelo ajustado, compare la


significacin de los coeficientes estimados y el R cuadrado entre ambos ajustes.

m) Ahora contaminemos los datos. Agreguemos dos datos a la base: los casos 101 y 102
que figuran a continuacin.

Dato pesokg headcirc caso


101 0.4 50 101
102 0.35 20 102

Para eso, en SPSS: Edicin Insertar caso

n) Repetir el punto d) e) y h) para los 102 datos. Comparar el ajuste obtenido. Hacer un
histograma de los leverages en este caso. Calcule tambin las distancias de Cook.

Se ven valores potencialmente influyentes o outliers? Chequee esto por medio de los
estadsticos recin calculados. Es decir, hay observaciones con leverage o distancias de
Cook fuera de los rangos admisibles?

Luego hacerlo para los datos 1 a 101.


Luego hacerlo para los datos 1 a 100 y el dato 102.

Completar la siguiente tabla de rectas estimadas

Datos 0 estimado 1 estimado R cuadrado


(pvalor) (pvalor)
100
datos
1 al 102

1 al 101

1 al 100
y 102

Deberan extraerse las siguientes conclusiones:

El conjunto original de datos no tiene observaciones potencialmente influyentes, hay


una observacin con un residuo grande pero no influye demasiado en el ajuste.
Al agregarse los dos datos se ve que el ajuste se modifica bastante. Cambian los
coeficientes ajustados. Debera entonces descubrirse que hay dos observaciones
potencialmente influyentes, resultan ser la 101 y 102.
226 Mara Eugenia Szretter

Al hacer el ajuste sin la observacin 101 debera verse que el ajuste resultante es muy
parecido al original, suben un poco los niveles de significatividad y algo el R cuadrado.
El 102 es un punto influyente que sigue el modelo lineal. No tiene residuo grande.

Al hacer el ajuste sin la observacin 102 cambia mucho el ajuste original, cambian los
parmetros estimados, baja mucho el R cuadrado. El caso 101 es un punto influyente
que no sigue el modelo lineal. Su residuo es grande.

Ejercicio 2

Abra los datos que se encuentran en el archivo gross nacional product.sav.


Corresponden a los datos tratados en el libro de Pagano y Gauvreau, captulo 18:
Pagano, M., Gauvreau, K. Principles of Biostatistics, Second Edition, Duxbury
Thomson Learning. 2000.
Las variables son: birthrt tasa de nacimiento por 1000.
gnp producto bruto nacional expresado en dlares estadounidenses.
Las observaciones corresponden a 143 pases distintos.

a) Obtenga el diagrama de dispersin de los datos tomando a gnp como variable


explicativa. Le parece razonable ajustar un modelo lineal a estos datos?

b) Ajuste un modelo lineal de todos modos. Mire la salida y el grfico de residuos.


Qu ve en este grfico?

c) Trasforme la variable X en Lgnp = log(gnp) y repita los tems a) y b) para el modelo


que explica la tasa de nacimiento con esta nueva covariable. Escriba el modelo
propuesto y el modelo ajustado. Interprete.
Apndice A: Ejercicios 227

Taller 3 Regresin Lineal Mltiple

Ejercicio 1

Para los datos de nios de bajo peso, se encontr una relacin lineal significativa entre
la presin sistlica y la edad gestacional. Los datos estn el archivo lowbwt. Las
mediciones de presin sistlica estn guardadas bajo el nombre sbp, y las
correspondientes edades gestacionales en gestage. Tambin en ese archivo figuran los
datos de apgar5, el score Apgar a los 5 minutos para cada nio recin nacido. (El score
Apgar es un indicador del estado general de salud del nio a los 5 minutos de haber
nacido; aunque en realidad es una medida ordinal se lo suele tomar como si fuera
continua).

a) Hacer un diagrama de dispersin de la presin sistlica versus el score Apgar.


Parece haber una relacin lineal entre estas dos variables?

b) Usando la presin sistlica como respuesta y la edad gestacional y el score


Apgar como explicativas, ajuste el modelo lineal
E(Y X ) = 0 + 1 gestage + 2 apgar 5 , donde X = ( gestage, apgar 5) . Ajuste el
modelo e interprete los coeficientes estimados.

c) Cul es la presin media estimada para la poblacin de nios de bajo peso cuya
edad gestacional es 31 semanas y cuyo score Apgar es 7?

d) Construya un intervalo de confianza del 95% para la media verdadera para el


caso anterior.

e) Testee la hiptesis de H0: 2 = 0 al nivel del 0.05 de confianza.

f) Comente la magnitud de R cuadrado. La inclusin del score apgar en el modelo


que ya contiene a la edad gestacional mejora su habilidad para predecir a la presin
sistlica?

g) Construya un grfico de los residuos versus los valores ajustados. Qu le dice


este grfico del ajuste obtenido?

Ejercicio2

La idea de este ejercicio es discutir qu significan distintos modelos de regresin


mltiple. Probaremos distintos modelos en un solo conjunto de datos.

Retomamos el ejercicio 2 del taller 1. Eran datos guardados en el archivo ingresos1.sav.


Consistan en 40 datos de salarios (ingresos), niveles de educacin y edad. Para modelar
esos datos, propusimos ajustar dos modelos, que recordamos ahora:

1. Un modelo lineal simple con salario como variable respuesta y educacin como
variable explicativa: vimos que haba una asociacin negativa entre ellas, lo cual era
ilgico.
228 Mara Eugenia Szretter

2. 4 modelos lineales simples basados en 10 datos cada uno, con salario como
variable respuesta y educacin como variable explicativa, pero separados por
tramos de edad (edad = 20, 30, 40 y 50, respectivamente).

Ahora buscamos modelarlos usando lo aprendido de modelo lineal mltiple.

a) Abra los datos que se encuentran en el archivo ingresos1.sav.

b) En el taller 1 ajustamos el modelo siguiente. Lo llamaremos

modelo A E(salario educacion ) = 0 + 1 educacion

Proponemos ajustar el modelo lineal mltiple

modelo B E (salario educacion, edad ) = 0 + 1 educacion + 2 edad

Para este modelo, cules son los supuestos necesarios para que sean vlidas las
conclusiones respecto de los tests y los intervalos de confianza?

Interprete los parmetros del modelo. Recuerde, en su respuesta a esta pregunta debera
aparecer una frase que comience ms o menos as: Para cada aumento de 1 ao en la
edad ....

c) Ajuste el modelo B. Al hacerlo, incluya la opcin de graficar residuos (en la opcin


grficos, cliquear el histograma de residuos tipificados y el grfico de probabilidad
normal), tambin pedirle al SPSS que haga el grfico de los residuos estudentizados
eliminados en el eje vertical versus los valores predichos en el eje horizontal.

D los parmetros estimados. Mejor an, escriba el modelo ajustado, con lpiz y papel.

d) Evale la bondad del ajuste con el test F. Diga si los coeficientes son significativos.
Evale la adecuacin del modelo con el R2. Qu porcentaje de variabilidad del
salario queda explicada por el modelo que tiene a educacion y a edad como
explicativas?

Ejercicio 3

Con los datos del Ejercicio 1 (archivo lowbwt):

a) Considere el modelo que slo contiene edad gestacional como covariable (modelo
lineal E (Y gestage ) = 0 + 1 gestage ), agregue la variable sex al modelo (vale 1 si
el beb es varn y 0 si es nena). Ajuste el modelo. Comente la significatividad de
los parmetros. Dados dos nios con igual edad gestacional, uno varn y otro nena,
cual tendr presin sistlica ms alta? Por qu?

b) Haga un diagrama de dispersin de presin sistlica versus edad gestacional


separando varones de nenas. Superponga las rectas ajustadas. Es la presin sistlica
Apndice A: Ejercicios 229

media de los varones con una edad gestacional fija significativamente distinta de la
presin sistlica media de las nenas con la misma edad gestacional?

c) Agregue la interaccin sexo edad gestacional. Ajuste el modelo.

d) Incluira al sexo como variable explicativa al modelo que tiene a la edad


gestacional?Incluira a la interaccin como variables explicativas al modelo? Por
qu?

Ejercicio 4

Con los datos del Ejercicio 2 (archivo ingresos1.sav):

a) Ajustemos ahora un modelo con interaccin

modelo C E(salario X ) = 0 + 1 educ + 2 edad + 1:2 educ edad


donde X = (educ, edad , educ.edad )

Observe que para este modelo, los supuestos necesarios para que sean vlidas las
conclusiones respecto de los tests y los intervalos de confianza son los mismos que
antes.
Interprete los parmetros del modelo. Debera quedar clara la diferencia con el modelo
B. Si no es as, pregunte hasta aclararlo!!

b) Ajuste el modelo C. D los parmetros estimados. Mejor an, escriba el modelo


ajustado, con lpiz y papel.

Para hacerlo, es necesario crear una nueva variable que sea el producto de las variables
educacin y edad.
Para eso, ir al men: Transformar Calcular variable
Variable de destino: educ.edad
Expresin numrica: educacion*edad

Y ahora, al poner las variables independientes en el ajuste del modelo de regresin


lineal asegurarse de poner las 3.

c) Evale la bondad del ajuste con el test F. Diga si los coeficientes son significativos.
Evale la adecuacin del modelo con el R2. Qu porcentaje de variabilidad del
salario queda explicada por el modelo que tiene educacion, edad y la
interaccin entre educacin y edad como explicativas? Con cul de los dos
modelos (B o C) se quedara?

d) Ajustemos ahora el modelo con la variable edad como categrica. Cuntas


dummies o variables binarias hay que poner en el ajuste?

Como la edad toma 4 valores, nos bastar con poner 3 dummies. Queda claro esto? Las
dummies sern:
edad_20 = Indicadora del grupo cuya edad es igual a 20
edad_30 = Indicadora del grupo edad edad es igual a 30
230 Mara Eugenia Szretter

edad_40 = Indicadora del grupo cuya edad es igual a 40

Para crearlas necesitamos usar la opcin de Recodificar en distintas variables. El


proceso de recodificacin tiene dos pasos. En el primero, le decimos al SPSS qu
nombre queremos que tenga la nueva variable. En el segundo le decimos qu valores
queremos que tome.

Para eso, ir al men: Transformar Recodificar en distintas variables


Variable numrica: Edad Variable de resultado: Nombre: edad_20 Cambiar
Valor antiguo: 20 Valor nuevo: 1 Aadir
Valor antiguo: Todos los dems valores (cliquear esta opcin) Valor nuevo:0 Aadir
Y finalmente Aceptar.
Aparecer una nueva columna en la ventana del editor de datos con el nombre de
edad_20 que tendr un 1 en cada observacin correspondiente a una persona de 20 aos
y un cero en el resto.

Repetir para crear las otras dos dicotmicas: edad_30 y edad_40. Tal vez haya una
mejor manera de hacer esto...

El modelo D es entonces:

e) Ajuste el modelo D. D los parmetros estimados. Mejor an, escriba el modelo


ajustado, con lpiz y papel.

f) Evale la bondad del ajuste con el test F. Testee si es significativa la inclusin de las
variables dummies de edad (o sea la variable edad como cualitativa) cuando en el
modelo aparece la educacin. (Recuerde que esto se responde con otro test F). Diga
si los coeficientes son significativos. Evale la adecuacin del modelo con el R2.
Qu porcentaje de variabilidad del salario queda explicada por el modelo que tiene
a educacion y a edad como explicativas? Con cul de los modelos se quedara?

g) Finalmente ajustemos el modelo con educacin, las 3 dummies y la interaccin entre


educacin y las dicotmicas que codifican la edad.

El modelo E es entonces:

Antes de responder a las mismas preguntas de los otros modelos, diga cul es la
diferencia (si la hay) entre este modelo y los 4 modelos lineales simples basados en 10
datos cada uno, con salario como variable respuesta y educacin como variable
explicativa, pero separados por tramos de edad (edad = 20, 30, 40 y 50,
respectivamente) que fueron ajustados en el Taller 1.
Apendice B Salidas del SPSS para regresion multiple 231

Apndice B: Salidas del SPSS para regresin mltiple


[Conjunto_de_datos1] D:\datos\low birth weight infants.sav

Estadsticos descriptivos

Desviacin
Media tpica N
Permetro ceflico al nacer 26,45 2,532 100
Edad gestacional 28,89 2,534 100
Peso 1098,85 269,993 100

Correlaciones

Permetro Edad
ceflico al nacer gestacional Peso

Correlacin de Pearson Permetro ceflico al nacer 1,000 ,781 ,799

Edad gestacional ,781 1,000 ,660

Peso ,799 ,660 1,000


Sig. (unilateral) Permetro ceflico al nacer . ,000 ,000
Edad gestacional ,000 . ,000
Peso ,000 ,000 .
N Permetro ceflico al nacer 100 100 100
Edad gestacional 100 100 100

Peso 100 100 100

Variables introducidas/eliminadasb

Variables Variables
Modelo introducidas eliminadas Mtodo

1 Peso, Edad . Introducir


gestacional

a. Todas las variables solicitadas introducidas.


b. Variable dependiente: Permetro ceflico al nacer
232 Mara Eugenia Szretter

Resumen del modelo

R cuadrado Error tp. de la


Modelo R R cuadrado corregida estimacin

1 ,867a ,752 ,747 1,274

a. Variables predictoras: (Constante), Peso, Edad gestacional

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 477,327 2 238,663 147,058 ,000a

Residual 157,423 97 1,623

Total 634,750 99

a. Variables predictoras: (Constante), Peso, Edad gestacional


b. Variable dependiente: Permetro ceflico al nacer

Coeficientesa

Coeficientes no estandarizados
Modelo B Error tp.
1 (Constante) 8,308 1,579

Edad gestacional ,449 ,067

Peso ,005 ,001

Coeficientesa

Coeficientes Intervalo de confianza de 95,0%


tipificados para B
Modelo Beta t Sig. Lmite inferior Lmite superior

1 (Constante) 5,262 ,000 5,174 11,442

Edad gestacional ,449 6,673 ,000 ,315 ,582

Peso ,502 7,466 ,000 ,003 ,006

a. Variable dependiente: Permetro ceflico al nacer


Apendice B Salidas del SPSS para regresion multiple 233

Estadsticos sobre los residuosa

Desviacin
Mnimo Mximo Media tpica N

Valor pronosticado 21,74 31,03 26,45 2,196 100


Valor pronosticado tip. -2,145 2,088 ,000 1,000 100
Error tpico de valor ,129 ,378 ,213 ,057 100
pronosticado
Valor pronosticado 21,79 31,19 26,45 2,196 100
corregido
Residual -2,035 8,540 ,000 1,261 100
Residuo tp. -1,597 6,704 ,000 ,990 100
Residuo estud. -1,656 6,866 ,000 1,009 100
Residuo eliminado -2,186 8,958 -,001 1,310 100
Residuo eliminado estud. -1,671 9,526 ,028 1,213 100
Dist. de Mahalanobis ,029 7,729 1,980 1,630 100
Distancia de Cook ,000 ,768 ,013 ,077 100
Valor de influencia centrado ,000 ,078 ,020 ,016 100
a. Variable dependiente: Permetro ceflico al nacer

[Conjunto_de_datos2] D:\reglin\her1.sav

Variables introducidas/eliminadasb

Variables Variables
Modelo introducidas eliminadas Mtodo
a
1 exercise . Introducir

a. Todas las variables solicitadas introducidas.


b. Variable dependiente: glucose

Resumen del modelo

R cuadrado Error tp. de la


Modelo R R cuadrado corregida estimacin

1 ,082a ,007 ,006 36,731


a. Variables predictoras: (Constante), exercise
234 Mara Eugenia Szretter

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.

1 Regresin 25456,730 1 25456,730 18,869 ,000a

Residual 3725004,730 2761 1349,151

Total 3750461,460 2762

a. Variables predictoras: (Constante), exercise


b. Variable dependiente: glucose

Coeficientesa

Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.

1 (Constante) 114,561 ,892 128,408 ,000

exercise -6,233 1,435 -,082 -4,344 ,000

a. Variable dependiente: glucose

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 25456,730 1 25456,730 18,869 ,000a

Residual 3725004,730 2761 1349,151

Total 3750461,460 2762

a. Variables predictoras: (Constante), exercise


b. Variable dependiente: glucose

Coeficientesa

Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.

1 (Constante) 114,561 ,892 128,408 ,000

exercise -6,233 1,435 -,082 -4,344 ,000

a. Variable dependiente: glucose


Apendice B Salidas del SPSS para regresion multiple 235

Frecuencias

Estadsticos
diabetes

N Vlidos 2763

Perdidos 0

diabetes

Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado

Vlidos 0 2032 73,5 73,5 73,5

1 731 26,5 26,5 100,0

Total 2763 100,0 100,0

Estadsticos
Diabetes

N Vlidos 2032

Perdidos 0

diabetes

Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado

Vlidos 0 2032 100,0 100,0 100,0

Variables introducidas/eliminadasb

Variables Variables
Modelo introducidas eliminadas Mtodo
a
1 exercise . Introducir
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: glucose

Resumen del modelo

R cuadrado Error tp. de la


Modelo R R cuadrado corregida estimacin

1 ,086a ,007 ,007 9,715

a. Variables predictoras: (Constante), exercise


236 Mara Eugenia Szretter

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 1412,504 1 1412,504 14,965 ,000a

Residual 191605,195 2030 94,387

Total 193017,699 2031

a. Variables predictoras: (Constante), exercise


b. Variable dependiente: glucose

Coeficientesa

Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.

1 (Constante) 97,361 ,282 345,848 ,000

Exercise -1,693 ,438 -,086 -3,868 ,000

a. Variable dependiente: glucose

Informe
Glucose

exercise Media N Desv. tp.

0 97,36 1191 9,898


1 95,67 841 9,450
Total 96,66 2032 9,749

Prueba T
Estadsticos de grupo

Error tp. de la
Exercise N Media Desviacin tp. media

glucose >= 1 841 95,67 9,450 ,326

<1 1191 97,36 9,898 ,287

Prueba de muestras independientes

Prueba de Levene para la


igualdad de varianzas

F Sig.
glucose Se han asumido varianzas 1,762 ,184
iguales

No se han asumido
varianzas iguales
Apendice B Salidas del SPSS para regresion multiple 237

Prueba de muestras independientes

Prueba T para la igualdad de medias

Diferencia de
t gl Sig. (bilateral) medias

glucose Se han asumido varianzas -3,868 2030 ,000 -1,693


iguales

No se han asumido -3,899 1858,333 ,000 -1,693


varianzas iguales

Prueba de muestras independientes

Prueba T para la igualdad de medias

95% Intervalo de confianza para


Error tp. de la la diferencia
diferencia Inferior Superior

glucose Se han asumido varianzas ,438 -2,551 -,835


iguales

No se han asumido ,434 -2,544 -,841


varianzas iguales

Regresin
[Conjunto_de_datos2] D:\reglin\her1.sav

Variables introducidas/eliminadasb

Variables Variables
Modelo introducidas eliminadas Mtodo
1 BMI, exercise . Introducir

a. Todas las variables solicitadas introducidas.


b. Variable dependiente: glucose

Resumen del modelo

R cuadrado Error tp. de la


Modelo R R cuadrado corregida estimacin
a
1 ,261 ,068 ,067 9,418

a. Variables predictoras: (Constante), BMI, exercise


238 Mara Eugenia Szretter

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.

1 Regresin 13153,784 2 6576,892 74,144 ,000a

Residual 179802,433 2027 88,704

Total 192956,217 2029

a. Variables predictoras: (Constante), BMI, exercise


b. Variable dependiente: glucose

Coeficientesa

Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.

1 (Constante) 83,942 1,199 69,990 ,000

exercise -,917 ,430 -,046 -2,134 ,033

BMI ,474 ,041 ,250 11,498 ,000

a. Variable dependiente: glucose

Regresin
DATASET CLOSE Conjunto_de_datos1.
RECODE physact0 (1=0) (2=1) (3 thru 5=0) INTO Iphysact_2.
EXECUTE.
RECODE physact0 (1=0) (2=0) (3=1) (4 thru 5=0) INTO Iphysact_3.
EXECUTE.
RECODE physact0 (1=0) (2=0) (3=0) (5=0) (4=1) INTO Iphysact_4.
EXECUTE.
RECODE physact0 (1=0) (2=0) (3=0) (4=0) (5=1) INTO Iphysact_5.
EXECUTE.
Apendice B Salidas del SPSS para regresion multiple 239

Variables introducidas/eliminadasb

Variables Variables
Modelo introducidas eliminadas Mtodo

1 Iphysact_5, . Introducir
Iphysact_2,
Iphysact_3,
Iphysact_4

a. Todas las variables solicitadas introducidas.


b. Variable dependiente: glucose

Resumen del modelo

R cuadrado Error tp. de la


Modelo R R cuadrado corregida estimacin
a
1 ,525 ,275 ,274 8,308

a. Variables predictoras: (Constante), Iphysact_5, Iphysact_2, Iphysact_3,


Iphysact_4

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.

1 Regresin 53113,477 4 13278,369 192,383 ,000a

Residual 139904,222 2027 69,020

Total 193017,699 2031


a. Variables predictoras: (Constante), Iphysact_5, Iphysact_2, Iphysact_3, Iphysact_4
b. Variable dependiente: glucose

Coeficientesa

Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.

1 (Constante) 112,798 ,835 135,092 ,000

Iphysact_2 -13,314 ,958 -,494 -13,904 ,000

Iphysact_3 -13,617 ,904 -,630 -15,065 ,000

Iphysact_4 -17,821 ,901 -,837 -19,788 ,000

Iphysact_5 -22,809 ,925 -,962 -24,666 ,000

a. Variable dependiente: glucose


240 Mara Eugenia Szretter

Variables introducidas/eliminadasb

Variables Variables
Modelo introducidas eliminadas Mtodo

1 BMI, . Introducir
Iphysact_4,
Iphysact_2,
Iphysact_5,
Iphysact_3

a. Todas las variables solicitadas introducidas.


b. Variable dependiente: glucose

Resumen del modelo

R cuadrado Error tp. de la


Modelo R R cuadrado corregida estimacin
a
1 ,552 ,305 ,303 8,142

a. Variables predictoras: (Constante), BMI, Iphysact_4, Iphysact_2,


Iphysact_5, Iphysact_3
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.

1 Regresin 58772,626 5 11754,525 177,303 ,000a

Residual 134183,591 2024 66,296

Total 192956,217 2029


a. Variables predictoras: (Constante), BMI, Iphysact_4, Iphysact_2, Iphysact_5, Iphysact_3
b. Variable dependiente: glucose

Coeficientesa

Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.

1 (Constante) 103,053 1,331 77,449 ,000

Iphysact_2 -12,878 ,940 -,478 -13,705 ,000

Iphysact_3 -13,352 ,886 -,617 -15,065 ,000

Iphysact_4 -17,221 ,885 -,808 -19,456 ,000

Iphysact_5 -21,733 ,914 -,915 -23,782 ,000

BMI ,332 ,036 ,175 9,288 ,000

a. Variable dependiente: glucose


Apendice B Salidas del SPSS para regresion multiple 241

Para obtener la Tabla de Anova que evala la significatividad de la variable physact


como categrica (codificada por 4 dummies) cuando en el modelo est BMI, es
decir, la Tabla 27, hay que hacer lo siguiente.

Analizar Regresin Lineales

En la ventana de Regresin lineal: completar lo siguiente

Dependientes: glucose

Bloque 1 de 1

Independientes: BMI
Mtodo: Introducir
Siguiente

Bloque 2 de 2

Independientes:
BMI
Iphysact_2
Iphysact_3
Iphysact_4
Iphysact_5

Mtodo: Introducir
Siguiente

Regresin

[Conjunto_de_datos3] D:\datos\her1.sav

Variables introducidas/eliminadasb

Variables Variables
Modelo introducidas eliminadas Mtodo
a
1 BMI . Introducir
2 Iphysact_4, . Introducir
Iphysact_2,
Iphysact_5,
Iphysact_3

a. Todas las variables solicitadas introducidas.


b. Variable dependiente: glucose
242 Mara Eugenia Szretter

Resumen del modelo

R cuadrado Error tp. de la


Modelo R R cuadrado corregida estimacin

1 ,257a ,066 ,066 9,427


b
2 ,552 ,305 ,303 8,142

Resumen del modelo

Estadsticos de cambio

Cambio en R Sig. Cambio en


Modelo cuadrado Cambio en F gl1 gl2 F

1 ,066 143,483 1 2028 ,000


2 ,239 173,550 4 2024 ,000

a. Variables predictoras: (Constante), BMI


b. Variables predictoras: (Constante), BMI, Iphysact_4, Iphysact_2, Iphysact_5, Iphysact_3

ANOVAc

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.

1 Regresin 12749,758 1 12749,758 143,483 ,000a

Residual 180206,458 2028 88,859

Total 192956,217 2029


2 Regresin 58772,626 5 11754,525 177,303 ,000b
Residual 134183,591 2024 66,296

Total 192956,217 2029

a. Variables predictoras: (Constante), BMI


b. Variables predictoras: (Constante), BMI, Iphysact_4, Iphysact_2, Iphysact_5, Iphysact_3
c. Variable dependiente: glucose
Apendice B Salidas del SPSS para regresion multiple 243

Coeficientesa

Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.

1 (Constante) 83,176 1,145 72,619 ,000

BMI ,488 ,041 ,257 11,978 ,000


2 (Constante) 103,053 1,331 77,449 ,000
BMI ,332 ,036 ,175 9,288 ,000

Iphysact_2 -12,878 ,940 -,478 -13,705 ,000

Iphysact_3 -13,352 ,886 -,617 -15,065 ,000

Iphysact_4 -17,221 ,885 -,808 -19,456 ,000

Iphysact_5 -21,733 ,914 -,915 -23,782 ,000

a. Variable dependiente: glucose

Variables excluidasb

Estadsticos de
Correlacin colinealidad
Modelo Beta dentro t Sig. parcial Tolerancia
a
1 Iphysact_2 ,116 5,454 ,000 ,120 ,999

Iphysact_3 ,137a 6,398 ,000 ,141 ,989


a
Iphysact_4 -,108 -5,069 ,000 -,112 1,000

Iphysact_5 -,325a -15,859 ,000 -,332 ,974


a. Variables predictoras en el modelo: (Constante), BMI
b. Variable dependiente: glucose

Para evaluar la significatividad de la variable BMI cuando en el modelo figura


physact como categrica (codificada por 4 dummies), es decir, la otra parte de la
Tabla 27, hay que hacer lo siguiente.

Analizar Regresin Lineales

En la ventana de Regresin lineal: completar lo siguiente

Dependientes: glucose

Bloque 1 de 1

Independientes:
Iphysact_2
Iphysact_3
Iphysact_4
Iphysact_5
244 Mara Eugenia Szretter

Mtodo: Introducir
Siguiente

Bloque 2 de 2

Independientes:
BMI
Iphysact_2
Iphysact_3
Iphysact_4
Iphysact_5

Mtodo: Introducir
Siguiente

Se obtiene

Regresin
[Conjunto_de_datos3] D:\datos\her1.sav

Variables introducidas/eliminadasb

Variables Variables
Modelo introducidas eliminadas Mtodo
1 Iphysact_5, . Introducir
Iphysact_2,
Iphysact_3,
Iphysact_4
2 BMIa . Introducir

a. Todas las variables solicitadas introducidas.


b. Variable dependiente: glucose

Resumen del modelo

R cuadrado Error tp. de la


Modelo R R cuadrado corregida estimacin

1 ,524a ,275 ,274 8,312


b
2 ,552 ,305 ,303 8,142
Apendice B Salidas del SPSS para regresion multiple 245

Resumen del modelo

Estadsticos de cambio

Cambio en R Sig. Cambio en


Modelo cuadrado Cambio en F gl1 gl2 F

1 ,275 191,976 4 2025 ,000


2 ,030 86,274 1 2024 ,000

a. Variables predictoras: (Constante), Iphysact_5, Iphysact_2, Iphysact_3, Iphysact_4


b. Variables predictoras: (Constante), Iphysact_5, Iphysact_2, Iphysact_3, Iphysact_4, BMI

ANOVAc

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.

1 Regresin 53052,975 4 13263,244 191,976 ,000a

Residual 139903,242 2025 69,088

Total 192956,217 2029


2 Regresin 58772,626 5 11754,525 177,303 ,000b
Residual 134183,591 2024 66,296

Total 192956,217 2029

a. Variables predictoras: (Constante), Iphysact_5, Iphysact_2, Iphysact_3, Iphysact_4


b. Variables predictoras: (Constante), Iphysact_5, Iphysact_2, Iphysact_3, Iphysact_4, BMI
c. Variable dependiente: glucose
Coeficientesa

Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.

1 (Constante) 112,798 ,835 135,026 ,000

Iphysact_2 -13,314 ,958 -,494 -13,897 ,000

Iphysact_3 -13,617 ,904 -,630 -15,058 ,000


Iphysact_4 -17,821 ,901 -,836 -19,776 ,000

Iphysact_5 -22,807 ,925 -,961 -24,646 ,000


2 (Constante) 103,053 1,331 77,449 ,000
Iphysact_2 -12,878 ,940 -,478 -13,705 ,000

Iphysact_3 -13,352 ,886 -,617 -15,065 ,000

Iphysact_4 -17,221 ,885 -,808 -19,456 ,000

Iphysact_5 -21,733 ,914 -,915 -23,782 ,000

BMI ,332 ,036 ,175 9,288 ,000

a. Variable dependiente: glucose


246 Mara Eugenia Szretter

Variables excluidasb

Estadsticos de
Correlacin colinealidad
Modelo Beta dentro t Sig. parcial Tolerancia
a
1 BMI ,175 9,288 ,000 ,202 ,966

a. Variables predictoras en el modelo: (Constante), Iphysact_5, Iphysact_2, Iphysact_3,


Iphysact_4
b. Variable dependiente: glucose
REFERENCIAS 247

Referencias
[1] Draper N., Smith H. Applied Regression Analysis. Third Edition, Wiley
Series in Probability and Statistics, 1998.

[2] Field, A. Discovering Statistics Using SPSS. 2nd. ed. SAGE Publications
LTD, London UK. 2007.

[3] Kelmansky, Diana. Apunte de Regresin Lineal para la CEECS, 2009.

[4] Hulley, S., Grady, D., Bush, T., Furberg, C., Herrington, D., Riggs, B .
and Vittingho, E. (1998). Randomized trial of estrogen plus progestin
for secondary prevention of heart disease in postmenopausal women.
The Heart and Estrogen/progestin Replacement Study. Journal of the
American Medical Association, 280(7), 605613.

[5] Leviton, A., Fenton, T., Kuban, K. C. K., Pagano, M., Labor and
Delivery Characteristics and the Risk of Germinal Matrix Hemorrhage
in Low Birth Weight Infants, Journal of Child Neurology, Volumen 6,
October 1991, 35-40.

[6] Kutner, M. H., Nachtsheim, C. J. , Neter, J., Li, W. Applied linear statis-
tical models. 5th ed. McGraw-Hill/Irwin series Operations and decision
sciences. 2005.

[7] McCullagh, P., Nelder, J. Generalized Linear Models, Second Edition.


London: Chapman & Hall. 1989.

[8] Pagano, M., Gauvreau, K. Principles of Biostatistics, Second Edition,


Duxbury Thomson Learning. 2000.

[9] Pinheiro, J., Bates, D. Mixed-Eects Models in S and S-plus. New York:
Springer. 2000.

[10] R Development Core Team. R: A language and environment for statisti-


cal computing. R Foundation for Statistical Computing, Vienna, Austria.
ISBN 3-900051-07-0, URL http://www.R-project.org/. 2011

[11] Rosner, B. Principles of Biostatistics. 6th. ed. Thomson Brooks Cole.


2006.

[12] Sche, H. The Analysis of Variance. New York: Wiley. 1959.

[13] Seber, G. A. F. Linear Regression Analysis. New York: Wiley. 1977.


248 Mara Eugenia Szretter

[14] Vittingho E., Shiboski S., Glidden D., McCulloch C. E. Regression


Methods in Biostatistics Linear, Logistic, Survival, and Repeated Mea-
sures Models. 2005 Springer Science + Business Media, Inc.

[15] Weisberg, Sanford. Applied linear regression. 3rd ed. Wiley series in
probability and statistics, 2005.