Beruflich Dokumente
Kultur Dokumente
Apuntes sobre
REGRESION
Y
MODELOS LINEALES
CON UNA INTRODUCCIÓN A LOS DISEÑOS DE
EXPERIMENTOS CLASICOS
NOTAS DE CLASE
Por
INTRODUCCION
Los cálculos de los ejemplos en los documentos originales fueron hechos con los
paquetes estadísticos que se mencionan a continuación: En primer lugar ESM-PLUS, un
paquete de programas de computador desarrollado por el Autor y que hace algunos años
se utilizó ampliamente en la Universidad del Tolima. En segundo lugar ASP (versión
estudiantil), un programa que acompaña al texto de Mendenhall y Sincich, mencionado
en la bibliografía y que podía ser usado por las personas que hubiesen adquirido dicho
texto, lo que les otorgaba licencia de uso individual. En tercer lugar RELODI y
RELOPO, dos programas elaborados por Luis Carlos Silva y Humberto Fariñas del
Instituto Superior de Ciencias Médicas de la Habana (Cuba) y que, como en el caso
anterior, se conseguían con la compra del texto, lo que otorgaba licencia de uso
individual. Todos estos paquetes mencionados se ejecutan en ambiente DOS, una
plataforma en desuso hoy en día. Por esta razón hubo necesidad de actualizar varios
ejemplos y desarrollarlos con software ejecutable en la plataforma Windows de 64 bits.
UNIDAD 1
GENERALIDADES
En esta unidad se presentarán los conceptos básicos necesarios para una cabal
comprensión de los métodos de regresión que se estudiarán en las unidades siguientes.
1. p( A) 0 para todo A
2. p( Ai ) = p( Ai ) siempre que { Ai , i = 1,2,3,} sea una familia enu-
i =1 i =1
merable de eventos disjuntos.
3. p () = 1
FUNCIONES DE DISTRIBUCION
1. F ( x) 0 para todo x
2. F es monótona
3. F es continua por la derecha
4. lim F ( x) = 0 y lim F ( x) = 1
x → − x →
1. f ( x) 0 para todo x
2. f ( x)dx = 1
−
se construyen las funciones de distribución a partir de las funciones de densidad
x
mediante la expresión F ( x) = f (t )dt
−
1 1 t − 2
f (t ) = Exp - para t
2 2
la gráfica de esta función, para cada par de valores , , es una curva de Gauss y la
probabilidad P( X x) = F ( x) es simplemente el valor del área bajo la curva desde
− hasta el punto x (ver figura)
x
Afortunadamente no es necesario hacer un cálculo de la integral F ( x) = f (t )dt
−
para
cada valor de y debido a que esta integral siempre se puede transformar al caso
particular en que = 0 y = 1 , llamado normal estándar, mediante el cambio de
x−
variable z= . Los valores de la integral de la normal estándar para
− 3.5 z 3.5 , de centésima en centésima, se encuentran tabulados (Tabla de la
normal). Hoy en día las tablas han caído en desuso pues hay software que hace los
cálculos con mucha más precision.
n +1
tn ( x ) =
2 1 1
n +1
para n = 1, 2,3,
n n
x2 2
2 1 +
n
donde (u ) = x u −1e −u du para u 0 (función Gamma).
0
El índice n se conoce como Grados de Libertad (GL).
Dada una variable aleatoria X se llama población (inducida por X) al conjunto de todos
los valores que puede tomar X junto con su distribución. Es frecuente confundir la
población con la variable aleatoria que le da origen.
Con las muestras aleatorias la estadística construye estimadores que simplemente son
funciones de las variables de la muestra las cuales proporcionan estimaciones de los
parámetros poblacionales mediante valores particulares observados de tales variables.
1 n
Por ejemplo: X = X i es un estimador para . Este estimador produce
n i =1
diferentes estimaciones del parámetro dependiendo de los valores particulares
x1 , x2 , x3 ,, xn que tomen las variables X 1 , X 2 ,, X n en una muestra observada.
x = xi . No debe confundirse la
1
Cada una de tales estimaciones está dado por
n
estimación con el estimador: aquella es un valor numérico mientras que éste es una
variable aleatoria, por tanto, con una distribución, una media y una varianza. La raiz
cuadrada positiva de la varianza de un estimador se llama error estándar del
estimador.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 10
Resulta demasiado raro que una estimación coincida con el parámetro estimado. Aún
más: aunque los dos coincidieran, nunca lo sabríamos ya que los parámetros son
desconocidos. (Si no lo fueran no los estaríamos estimando!!).
Por la anterior razón una sola estimación no puede considerarse como valor del
parámetro. En consecuencia se hace necesario ampliar el concepto de estimación y
construir el así llamado intervalo de confianza para el parámetro. Dado un valor
pequeño , (generalmente comprendido entre 0 y 0.1) se define el intervalo del
100(1 − ) % de confianza para un parámetro , como aquel intervalo centrado en la
estimación de , dentro del cual se encuentra el parámetro con probabilidad 1 − . El
cálculo del intervalo de confianza exige conocer la distribución del estimador lo cual no
siempre es fácil. Sin embargo en los casos clásicos de regresión tales distribuciones son
normales, como se verá en la próxima unidad.
(ˆ − z
2
ee( ), ˆ + z ee( )
2
) donde ee( ) = V( )
z denota el cuantil bajo la normal estándar tal que P( Z z ) = 1 − . Usualmente
2 2 2
se hacen estimaciones al 95% de confianza, en tal caso z = 1.96 .
2
PRUEBAS DE HIPOTESIS
El otro objetivo de la estadística inferencial tiene que ver con la prueba de hipótesis.
Una hipótesis es una conjetura que se hace acerca de uno o más parámetros, de una
distribución o de una propiedad estadística. Por ejemplo, se puede lanzar la conjetura de
que una cierta media poblacional vale 30, o de que dos medias poblacionales son
iguales, de que cierta variable tiene distribución normal, etc.
La hipótesis que va a ser probada se llama hipótesis nula (H0) y se contrasta contra otra
hipótesis que afirme lo contrario y que se conoce como hipótesis alterna (H1). Se
utiliza una muestra aleatoria como elemento de respaldo ya que H0 se presume
verdadera y se utiliza la información aportada por la muestra para tratar de negar tal
presunción. Se rechaza la hipótesis nula cuando la información muestral la desvirtúe
claramente. Por el contrario, si la información consignada en la muestra no es suficiente
para declarar la falsedad de H0 no se puede rechazar esta hipótesis y, en consecuencia,
seguirá siendo plausible su veracidad, mientras una prueba más potente no demuestra lo
contrario.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 11
Puesto que nunca se sabe con certeza si H0 es verdadera o falsa, al hacer la prueba se
pueden cometer dos errores, a saber: a) Que se rechace H0 y que ésta sea verdadera
(error tipo I) y b) Que no se rechace H0 pero que ésta sea falsa (error tipo II). Se fija
un valor máximo de probabilidad para cometer error tipo I. Este valor se denomina
nivel de significancia. Las pruebas estadísticas calculan un valor intrínseco de
probabilidad para cometer error tipo I. Tal valor se denomina valor P.
La probabilidad de cometer error tipo II se designa con , su complemento 1 − se
llama potencia de la prueba ya que mide la capacidad de la prueba para detectar
hipótesis falsas.
UNIDAD 2
Consideremos la situación en la que una variable X ha sido planeada para que tome
ciertos valores y supongamos que Y representa una variable de respuesta cuyos valores
dependen de los valores que tome X. Si los valores de Y dependen en forma lineal de los
de X, entonces un cambio en X produce un cambio proporcional en Y. Más exactamente,
entre Y y X existe una relación funcional del tipo Y = 0 + 1 X
En la práctica una relación lineal entre las variables dependiente (Y) e independiente (X)
se detecta por medio del diagrama de dispersión que se obtiene al graficar en un plano
cartesiano los puntos ( xi , yi ) correspondientes a las observaciones de una muestra.
Esto es así porque en tal caso los puntos resultantes muestran una tendencia rectilínea
acentuada.
Los coeficientes 0 y 1 son parámetros desconocidos que deben ser estimados con
los valores de la muestra, de esta manera se tendrá un modelo estimado Y = b0 + b1 x
cuyos coeficientes son estimaciones puntuale de 0 y 1 . Puesto que hay diferencias
entre el modelo teórico y el modelo estimado, para cada observación se puede escribir
Yi = b0 + b1 x + i donde i es una variable aleatoria que representa el error entre el
valor estimado de la observación y el valor teórico. Este valor no es medible pero sí
puede ser estimado por ei = yi − yi donde yi = b0 + b1 xi es el valor estimado de Yi y
y i es el correspondiente valor observado. Cada ei se llama un residuo.
n n
Se tiene: SCE = (y i − yi ) 2 = ( yi − b0 − b1 xi ) 2 = f (b0 , b1 )
i =1 i =1
f n
f
= −2 ( yi − b0 − b1 xi ) y = −2 ( y i − b0 − b1 xi ) xi
b0 i =1 b1
nb0 + ( xi )b1 = yi
( xi )b0 + ( xi2 )b1 = xi yi
n xi yi − ( xi )( yi )
b1 =
n xi2 − ( xi ) 2
1
b0 = ( yi − b1 xi ) = y − b1 x
n
EJEMPLO:
Supóngase que en un experimento con ratones se ha experimentado con 5 animales a los
que se aplican diferentes dosis de un medicamento. Se observa el número de
pulsaciones por minuto durante una hora. Este valor comienza a descender hasta un
valor mínimo a partir del cual tiende a normalizarse. La variable respuesta es el valor
máximo de descenso del ritmo cardiaco durante el tiempo de observación.
5 94.5 − 7.5 54
b1 = = 5.4
5 13.75 − (7.5)2
Teniendo en cuenta que las X i son variables matemáticas y las Yi son variables
aleatorias, podemos utilizar las ecuaciones vistas anteriormente para definir estimadores
de 1 y 0 mediante:
n xi Yi − ( xi )( Yi )
B1 =
n xi2 − ( xi ) 2
1
B0 = ( Yi − B1 xi )
n
Yi N( 0 + 1 xi , i2 )
n
A partir de ésto se concluye que B1 = ci Yi (una combinación lineal de variables
i =1
Además
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 15
n
E( B1 ) = ci E (Yi ) = ci ( 0 + 1 xi ) = 0 ( ci ) + 1 ( ci xi )
i =1
xi − x
= 1 ci xi = 1 ( ) xi = 1
( xi − x ) 2
lo que nos dice que B1 es un estimador insesgado, cuya varianza vale:
2
V( B1 ) = 2
c 2
i = n
(x
i =1
i − x)2
n
S xy = ( xi − x )( yi − y )
i =1
n
S xx = ( xi − x ) 2
i =1
n
S yy = ( yi − y ) 2
i =1
Se tiene ahora lo siguiente:
= S yy − 2b1 S xy + b1 S xx
= S yy − b1 S xy
= Yi 2 − nY 2 − B12 ( xi2 ) − nx 2
E( SYY − B1 S xY ) = (n − 2) 2
de donde:
S − B1S xY
=
2
E YY
n−2
SCE
En otras palabras: hemos encontrado un estimador insesgado de 2 , a saber: .
n-2
Este valor se designa, como es usual, por S 2
SCE S2
Se puede probar que = (n − 2) tiene distribución Ji-cuadrado con n − 2
2 2
grados de libertad y que es una variable independiente de B1 . De aquí se deduce que
( B1 − 1 )
B1 − 1
S xx
T1 = =
S S
S xx
tiene distribución t con n − 2 grados de libertad lo que permite construir intervalos
de confianza para 1 dados por:
S
b1 t n − 2,
2 S xx
s2 1 x 2
b0 tn − 2, +
2 n − 2 n Sxx
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 17
Una vez estimado un modelo lineal de regresión viene una etapa de análisis para medir
la bondad de dicha estimación. Si el modelo estimado no supera las pruebas se hace
necesario volver a iniciar el proceso después de haber modificado el modelo o las
variables.
A continuación se expondrán los principales aspectos que deben ser examinados para
juzgar la bondad de un modelo ya estimado.
Las principales razones por las cuales un modelo puede no ser bueno son: a) De una
parte, el modelo lineal no es el indicado o b) se está violando alguno(s) de los supuestos.
(y i − y ) 2 = ( yˆ i − y ) 2 + ( yi − yˆ i ) 2
SCR SCE
Se puede probar que tiene distribución Ji-2 con 1 grado de libertad y que
2
2
SCT
tiene distribución Ji-2 con n − 2 grados de libertad. De aquí se concluye que
2
tiene distribución Ji-2 con n − 1 grados de libertad. Según esto, bajo el supuesto de que
1 = 0 (hipótesis nula), la variable
SCR
2
1 SCR
F= = tiene distribución F1,n−2
SCE S2
2
n−2
Las hipótesis sobre la significancia de los coeficientes del modelo pueden probarse
también mediante los correspondientes intervalos de confianza obtenidos al estimar
estos coeficientes. Un coeficiente es significativo dentro del modelo si el
correspondiente intervalo de confianza no contiene el valor 0. La mayoría de paquetes
estadísticos producen un valor t y el correspondiente valor P con el cual se rechaza o no
la hipótesis correspondiente: H1(i ) : i = 0 vs H1(i ) : i 0 para i = 0,1
Chatterjee y Hadi, proponen como ejemplo, los datos correspondientes a las alturas del
hombre y la mujer en 96 matrimonios recién celebrados. Puesto que es costumbre muy
arraigada que el hombre es quien elige a la mujer como esposa, es lícito pensar que X,
la estatura de los hombres, sea la variable independiente o regresora y que Y, la estatura
de las mujeres, sea la variable respuesta o dependiente. Los datos correspondientes en
centímetros, se presentan en la table siguiente, y han sido dispuestos en un archivo
ASCII como una matriz de 96 filas (cada pareja) y dos columnas. La primera columna
corresponde a la altura de los hombres mientras que la segunda corresponde a la altura
de las mujeres.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 19
Se sugiere ejecutar el código por segmentos, tal como se indica en las líneas de parada,
para poder discutir los resultados parciales que se van obteniendo. Creemos que de esta
manera se interioriza más profundamente el sentido de la técnica que se está estudiando.
Posteriormente puede usarse un paquete estadístico profesional para realizer los mismos
cálculos de una manera más eficiente.
clear
t = 1.986;
%% INICIO DE CALCULOS:
x = w(:,1);
y = w(:,2);
x2 = x.*x;
xy = x.*y;
mx = mean(x);
my = mean(y);
n = length(x);
tabla = [x y x2 xy ];
suma = sum(tabla);
tabla1 = [tabla;suma];
% Esta tabla podría suprimirse de la presentación. Puede ser larga.
tabla1
% ====================PARADA==========================
% ====================PARADA==========================
Sxx = sum((x-mx).*(x-mx));
Syy = sum((y-my).*(y-my));
Sxy = sum((x-mx).*(y-my));
b1= (n*sum(xy) - sum(x)*sum(y))/(n*sum(x2)-sum(x)^2);
b0 = my - b1*mx;
coef = [b0 b1];
% Estimación del coeficiente de correlación entre las variables:
r = Sxy/sqrt(Sxx*Syy);
ttr = r*sqrt(n-2)/sqrt(1-r^2)
disp(' COEFICIENTES DEL MODELO:')
disp(' Intersecto b0: Pendiente b1:')
coef
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 21
corr = [r ttr];
disp('Correlación estimada: Valor t de prueba:')
corr
disp(' NOTA: se rechaza <<H0: Rho = 0>> si valor t es mayor que:')
t
% ====================PARADA==========================
% ESTIMACIONES:
yes = b0 + b1*x;
e = y-yes;
yh = yes-my;
SCR = sum(yh.*yh);
SCE = sum(e.*e);
SCT = SCE + SCR;
CMR = SCR/1;
CME = SCE/(n-2);
CMT = SCT/(n-1);
% Estimación de la varianza: s2 y del Coef de determinación R2:
s2 = SCE/(n-2);
R2 = 1-(SCE/Syy);
vajus = [s2 R2];
disp('Varianza y Ajuste R2:)
vajus
disp(' PUEDE OBSERVAR RESIDUOS CONTRA VALORES ESTIMADOS')
disp(' Este gráfico aparece en una ventana diferente!!!')
% Diagrama de residuos contra valores estimados:
plot(e,yes,'o')
% ====================PARADA==========================
% ====================PARADA==========================
% Tabla ANOVA:
SC = [SCR SCE SCT]';
GL = [1 n-2 n-1]';
CM = [CMR CME CMT]';
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 22
aov = [SC GL CM];
F = CMR/CME
VF = [F 1 n-2]
disp(' TABLA DE ANALISIS DE VARIANZA:')
aov
disp('Valor del estadistico F y grados de libertad:')
VF
% ====================PARADA==========================
ANALISIS DE RESIDUOS
Junto a las estimaciones e inferencias realizadas con el material anteriormente visto, se
hace necesario juzgar la bondad del modelo, esto es, el cabal cumplimiento de los
supuestos bajo los cuales se valida la teoría de la regresión. Estos análisis se realizan
comunmente usando los residuos. Hay un conjunto de técnicas que se resumen en los
siguientes párrafos.
ei e
di = = i
CME S2
( et − et −1 ) e e
2
t t −1
dado por d = t =2
n
. Si la correlación se estima por r = t =2
n
entonces se
e
t =2
2
t e
t =2
2
t −1
tiene la relación d = 2(1 − r ) lo que hace que d tome valores en el intervalo (0, 4).
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 24
Puesto que es estimado por r se cumple que d = 2 cuando = 0 y d = 0 cuando
= 1 . Durbin y Watson tabularon una serie de límites d L y dU (inferior y superior,
respectivamente, ver anexo 3) con los cuales se realiza la prueba de la siguiente manera:
Si d d L rechace H0 . Si d dU no rechace H0 . El test no es concluyente cuando
d L d dU .
Rara vez sucede que haya autocorrelación negativa en los residuos. Si esto llegase a
suceder, se tendría que d = 4 cuando = −1 . Por esta razón, bastará construir unos
límites simétricos dados por 4 − dU y 4 − d L respectivamente dentro de los cuales la
prueba no es concluyente y los cuales muestran la presencia de correlación negativa si
d 4 − dL
e e t t −1
es desconocido se emplea la siguiente estimación suya: = t =2
n
. El nuevo modelo
et2−1
t =2
* *
produce ciertos parámetros estimados b 0 y b1 los cuales permiten encontrar
b0*
estimaciones de los coeficientes para el modelo original, dados por b0 =
y
1−
b1 = b1* . Se debe examinar el nuevo modelo y si aún persiste la correlación de primer
orden se puede emplear el mismo procedimiento con el nuevo modelo.
Las gráficas siguientes muestran dos tipos de puntos influenciales muy frecuentes:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 25
En el primer caso un punto demasiado alejado (outlier) de los puntos que marcan la
tendencia produce una desviación de la recta de regresión con lo cual el modelo
construído no logra buen ajuste de los datos y, por consiguiente, producirá pronósticos
erróneos. En el segundo caso un punto aislado en cualquier dirección (apalancamiento o
leverage) produce una falsa recta de regresión: se encuentra un modelo cuando
realmente no hay ninguno. Esto puede llevar a falsa conclusiones.
Existen herramientas para detectar puntos influenciales. Por ejemplo, para detectar
outliers se pueden medir las magnitudes de los residuos. Los puntos atípicos
generalmente presentan residuos demasiado grandes al ser comparados con los demás.
Un criterio muy usado consiste en declarar como tales aquellos puntos cuyos residuos
son mayores que 3 desviaciones estándar ( 3s ). Hay otros criterios que se presentarán en
el próximo capítulo. Usualmente el software para cálculo de regresión trae programadas
herramientas de detección de puntos influenciales.
Un pronóstico futuro está dado por la misma expresión, pero su intervalo de confianza
está dado por:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 26
1 ( x0 − x ) 2
y 0 t n −2, + S 1 + +
2 n S xx
EJERCICIO:
Hacer un análisis lo más completo posible a los datos siguientes que definen un modelo
de regresión lineal simple:
El siguiente código en R hace un recorrido por los principals aspectos del análisis de
regresión sobre los datos presentados por Chatterjee sobre las alturas de los hombres y
mujeres cuando se unen en parejas. Los datos se encuentran en el archivo HWdat.prn.
Se supone que el hombre es quien elige a la mujer como pareja, así que la variable H
(husband) es la independiente mientras que W (wife) es la dependiente. Los datos están
descritos en las páginas 54 y ss de Chaterjee y Hani.
## EXTRACCION DE VARIABLES:
x=datos$H
y=datos$W
library(lmtest)
bptest(regresión) #prueba de homogeneidad
## independencia
##Autocorrelación DURWIN WATSON de primer orden
library(lmtest)
dwtest(y~x, alternative = "two.sided", data = datos)
La tabla siguiente da los límites para la prueba de Durbin y Watson algunos tamaños de
muestra y máximo 5 variables regresoras (independientes).
Es claro, sin embargo, que la tabla no es necesaria cuando se usa software espacializado
como R, pues estos paquetes hacen la prueba Durbin-Watson en forma automática
arrojando el valor P, con el cual se toma una decisión frente a la hipótesis nula.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 28
Límites de intervalos para prueba de Durbin y Watson (p= # de independientes)
Nivel de significancia: 0.05
p=1 p=2 p=3 p=4 p=5
N dL dU dL dU dL dU dL dU dL dU
15 1.08 1.36 0.95 1.54 0.82 1.75 0.69 1.97 0.56 2.21
16 1.10 1.37 0.98 1.54 0.86 1.73 0.74 1.93 0.62 2.15
17 1.13 1.38 1.02 1.54 0.90 1.71 0.78 1.90 0.67 2.10
18 1.16 1.39 1.05 1.53 0.93 1.69 0.82 1.87 0.71 2.06
19 1.18 1.40 1.08 1.53 0.97 1.68 0.86 1.85 0.75 2.02
20 1.20 1.41 1.10 1.54 1.00 1.68 0.90 1.83 0.79 1.99
21 1.22 1.42 1.13 1.54 1.03 1.67 0.93 1.81 0.83 1.96
22 1.24 1.43 1.15 1.54 1.05 1.66 0.96 1.80 0.86 1.94
23 1.26 1.44 1.17 1.54 1.08 1.66 0.99 1.79 0.90 1.92
24 1.27 1.45 1.19 1.55 1.10 1.66 1.01 1.78 0.93 1.90
25 1.29 1.45 1.21 1.55 1.12 1.66 1.04 1.77 0.95 1.89
26 1.30 1.46 1.22 1.55 1.14 1.65 1.06 1.76 0.98 1.88
27 1.32 1.47 1.24 1.56 1.16 1.65 1.08 1.76 1.01 1.86
28 1.33 1.48 1.26 1.56 1.18 1.65 1.10 1.75 1.03 1.85
29 1.34 1.48 1.27 1.56 1.20 1.65 1.12 1.74 1.05 1.84
30 1.35 1.49 1.28 1.57 1.21 1.65 1.14 1.74 1.07 1.83
31 1.36 1.50 1.30 1.57 1.23 1.65 1.16 1.74 1.09 1.83
32 1.37 1.50 1.31 1.57 1.24 1.65 1.18 1.73 1.11 1.82
33 1.38 1.51 1.32 1.58 1.26 1.65 1.19 1.73 1.13 1.81
34 1.39 1.51 1.33 1.58 1.27 1.65 1.21 1.73 1.15 1.81
35 1.40 1.52 1.34 1.58 1.28 1.65 1.22 1.73 1.16 1.80
36 1.41 1.52 1.35 1.59 1.29 1.65 1.24 1.73 1.18 1.80
37 1.42 1.53 1.36 1.59 1.31 1.66 1.25 1.72 1.19 1.80
38 1.43 1.54 1.37 1.59 1.32 1.66 1.26 1.72 1.21 1.79
39 1.43 1.54 1.38 1.60 1.33 1.66 1.27 1.72 1.22 1.79
40 1.44 1.54 1.39 1.60 1.34 1.66 1.29 1.72 1.23 1.79
- --- --- --- --- --- --- --- --- --- ---
45 1.48 1.57 1.43 1.62 1.38 1.67 1.34 1.72 1.29 1.78
50 1.50 1.59 1.46 1.63 1.42 1.67 1.38 1.72 1.34 1.77
55 1.53 1.60 1.49 1.64 1.45 1.68 1.41 1.72 1.38 1.77
60 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.73 1.41 1.77
65 1.57 1.63 1.54 1.66 1.50 1.70 1.47 1.73 1.44 1.77
70 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.74 1.46 1.77
75 1.60 1.65 1.57 1.68 1.54 1.71 1.51 1.74 1.49 1.77
80 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.74 1.51 1.77
85 1.62 1.67 1.60 1.70 1.57 1.72 1.55 1.75 1.52 1.77
90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78
95 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75 1.56 1.78
100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78
DATOS:
Día 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
#Visit 12 14 16 20 21 10 15 24 32 30 23 28 26 15 18
Gananc 600 660 720 920 960 580 720 1050 1400 1320 1070 1240 1160 750 820
Usted puede adaptar el programa visto anteriormente para hacer el análisis. Solo es
necesario crear un archivo con los datos y modificar la parte correspondiente a la ruta de
lectura de dicho archive así como el valor t, correspondiente al nivel de confianza que
usted escoja para las estimaciones y al tamaño de muestra n = 15 en este caso.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 30
UNIDAD 3
REGRESION MULTIPLE
Suponiendo que se tienen n observaciones del modelo, cada una de ellas de la forma;
Yi = 0 + 1 X1i + 2 X1i + + p X pi + i
Y1 1 X 11 X p1 0 1
Y2 1 X 12 X p 2 1 2
=
+
Y 1 X
n 1n X pn p n
Mediante técnicas de minimización del cálculo se prueba que tal hiperplano queda
determinado por las ecuaciones normales ( X'X)B = X'Y cuya solución está dada por
B = (X'X)−1 (X'Y) siempre que X'X sea invertible (no singular).
Se puede probar que SCT = SCE + SCR donde SCE ~ n2− k y SCR ~ k2−1 y, de
aquí, que se pueda construir la tabla de análisis de varianza con el fin de probar la
conveniencia del modelo lineal, mediante la hipótesis nula H0: 1 = 2 = = k = 0
(nótese cómo esta hipótesis (global) no incluye el coeficiente 0 ). Dicha tabla es:
El análisis de la bondad del modelo estimado se realiza con las mismas herramientas ya
mencionadas en los modelos lineales simples.
Sólo cuando un modelo estimado ha superado todas las pruebas y, por tanto, cuando
estamos seguros de poseer un buen modelo de ajuste de los datos, sólo entonces tiene
SCE
sentido utilizar el coeficiente de determinación R 2 = 1 − como una medida del
SCT
porcentaje de variación explicada por el modelo. Aún así, tener el valor de R 2 como
único criterio de la bondad de un modelo es peligroso ya que dicho coeficiente puede
aparecer inflado, cuando hay presencia de variables extrañas.
El análisis de los residuos de un modelo lineal involucra dos tipos de residuos como se
verá a continuación:
Una vez estimados los coeficientes del modelo, para cada i = 1, 2, , n se tendrá el valor
estimado yˆi = b0 + b1 xi1 + b2 xi 2 + + bp xip . El vector de valores estimados será entonces
Yˆ = Xβ .
siendo H = X(X'X)−1 X' = (hij ) p p . Esta matriz, denominada matriz HAT o matriz de
proyección es simétrica e idempotente, es decir, H2 = H , como sucede con toda
matriz de proyección.
Es claro que e − E(e) = (I − H)(Y − Xβ) y de aquí V(e) = E ([e − E (e)][e − E (e)]') =
(I − H)E(ee')(I − H)' = (I − H)V(e)(I − H)' = (I − H)( 2I)(I − H)' = (I − H) 2 .
Los residuos vistos anteriormente son variables aleatorias con varianzas dadas por la
fórmula anterior. En vista de ésto, podemos definir otros dos tipos de residuos de la
siguiente manera:
ei
a. Residuos estandarizados: ri =
1 − hii
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 33
ei
b. Residuos estudentizados: ri* = (llamados también externamente
(i ) 1 − hii
estandarizados)
ei2
(n − k ) s 2 −
1 − hii
Una estimación de (2i ) está dada por s(2i ) = (Draper & Smith, 3th
n−k
Edition, page 208)
Puntos Influenciales
Los modelos de regresión pueden verse distorsionados por la acción de puntos que
tienen un poder de influencia fuera del patrón común. Tales puntos influenciales
pueden ser puntos atípicos (outliers) o puntos de apalancamiento con alto leverage.
Un criterio empírico para determinar outliers es considerar como tales aquellos puntos
que se encuentren a una distancia de más de 3s de la recta de regresión (Sincich).
Otro criterio más técnico, muy utilizado para detectar valores atípicos, son las así
llamadas distancias de Cook, definidas para cada observación por:
Otro criterio, propuesto por Welsch y Kuh, consiste en utilizar los así llamados DFIT,
definidos como:
hii
DFITi = ri*
1 − hii
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 34
k
Se declaran como influenciales aquellos puntos para los cuales DFITi 2
n−k
Finalmente, otro criterio propuesto por Belsley, Kuh y Welsch (1980) para detectar
observaciones influenciales determina como tales aquellas observaciones para las cuales
se cumpla
k s(2i ) 1
Cov − 1 3 siendo Cov = 2 =
n s 1 − hii
Con frecuencia se suele realizar una prueba basada en la distribución Fk +1, n−( k +1) : un
Di Fk +1, n−( k +1) , 0.5 usualmente se toma como indicativo de que un punto es leverage.
EJEMPLO:
Los datos siguientes (ChatIPs .txt) corresponden a mediciones hechas en una encuesta
de Sicología Industrial a 30 empleados de oficina, en la que se evalúa la satisfacción en
diferentes aspectos frente a los supervisores, en una corporación financiera. El
problema está descrito en Chatterjee (Ejemplo 3.3). La última variable es la respuesta Y,
las seis anteriores son regresoras.
El siguiente código en R permite realizar las estimaciones del modelo con los datos
anteriores y aplicar la mayor parte de las herramientas descritas anteriormente para
evaluar la bondad del modelo construido.
setwd("c:/datos")
datos = read.table('chatipsr.txt', header=T)
datos
pairs(datos) ## presenta diagramas de dispersión entre regresoras
cor(datos) ## presenta correlaciones entre regresoras
##prueba de homogeneidad
library(lmtest)
bptest(regresión)
Y = 0 + 1 X1 + 2 X 2 + 3 X1 X 2 + 4 X12 + 5 X 22
EJEMPLO:
setwd("c:/datos")
datos = read.table('ex44mend.prn', header=T)
datos
Lo que nos dice que el costo de envio realmente está dependiendo del peso de la
encomienda, de una combinación entre peso y distancia y del peso al cuadrado.
setwd("c:/datos")
datos = read.table('ex44mend2.txt', header=T)
datos
Lo anterior nos dice que para indicar una interacción en R se deben usar dos puntos (:)
entre las variables que interactúan y para incluir una variable a alguna potencia distinta
de 1 debemos incluir la potencia correspondiente dentro de I( ). Esto es necesario
pues el símbolo de potencia (^) tiene otras funciones dentro del modelo de regression
de R.
EJERCICIO
Usted debe examinar el modelo de regression correspondiente para IgG como variable
independiente, verificando el cumplimiento de supuestos para juzgar la bondad del
modelo (normalidad, independencia, homocedasticidad, no presencia de valores atípicos
o influenciales, significancia de los coeficientes, etc). Debe justificar la decisión de
declarar como influential alguna observación e introducir correcciones hasta lograr un
modelo acceptable. Finalmente determinar la ecuación de éste ultimo modelo e
interpretar los resultados obtenidos.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 40
UNIDAD 4
Los modelos vistos hasta el momento incluyen únicamente variables numéricas como
variables independientes (regresoras) pero es válida la pregunta de si un modelo lineal
puede incluir variables categóricas como variables regresoras. Por ejemplo, una de tales
variables podría estar indicando el lugar donde se observaron las demás variables del
modelo; digamos, por ejemplo: A=En clima frío, B=en clima templado y C=en clima
cálido. Evidentemente el coeficiente que acompañe a dicha variable en el modelo
ya no puede ser interpretado como una constante por la que se ha de multiplicar la
variable para medir su aporte al modelo. ¿ Cómo se interpreta entonces?
Partamos de un ejemplo muy sencillo que nos permita introducir el tema. Supóngase
que se tiene el modelo lineal Y = 0 + 1 X en el que X es una variable categórica
con dos categorías 1=macho, 0=Hembra. Los códigos 1 y 0 son arbitrarios pero se
convendrá en que estas variables dicotómicas se codifiquen siempre con 0 y 1,
recibiendo entonces el nombre de variables dummy.
Como en todos los modelos lineales, se busca estimar el valor promedio de la variable
Y, es decir Y . Aquí se observa claramente que la esperanza de Y está condicionada
por los valores de X, así: E(Y | X =1 ) = 0 + 1 y E(Y | X =0 ) = 0 . En otras palabras:
H = E(Y | X = H ) = 0 y M = E(Y | X = M ) = 0 + 1
Lo anterior implica : 0 = H y 1 = M − H
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 41
El anterior resultado tiene grandes implicaciones: de una parte ofrece una interpretación
para los coeficientes del modelo en términos de los promedios teóricos de las categórías
y de sus diferencias. Siempre 0 será el promedio de una categoría llamada categoría
base o nivel base y 1 será la diferencia entre la media de la otra categoría y la media
de la categoría base. De otra parte la significancia de los coeficientes del modelo
permiten probar hipótesis acerca de las medias o de sus diferencias en las categórías.
Por ejemplo, si 0 es significativamente diferente de 0, se concluye que el promedio
de respuestas en el grupo de hembras es diferente de 0. Esta prueba se hace mediante el
estadístico t correspondiente a 0 y su nivel de significancia. Análogamente si 1 no
difiere significativamente de 0, se concluye que no existe diferencia significativa entre
la respuesta media del grupo de machos y la respuesta media del grupo de hembras.
Nuevamente la prueba se basa en el estadístico t correspondiente al coeficiente 1 .
Consideremos ahora el caso de una variable categórica de tres niveles. Supóngase, por
ejemplo, que X es una variable que representa el nivel socioeconómico del individuo
que ha proporcionado la respuesta Y. Supongamos además que los niveles han sido
codificados como A=Bajo, B=Medio y C=Alto. Se pueden introducir dos variables
dummy definidas así:
0 = E(Y | X =0, X
1 2 =0
) = A (Nivel base)
0 + 1 = E(Y | X 2 = 0) = B de donde 1 = B − A
0 + 2 = E(Y | X 1 = 0) = C de donde 2 = C − A
COSTO Kg NATURALEZA X1 X2
1720 Frágil 1 0
1110 Frágil 1 0
1200 Frágil 1 0
1090 Frágil 1 0
1380 Frágil 1 0
650 Semifrágil 0 1
1080 Semifrágil 0 1
1150 Semifrágil 0 1
700 Semifrágil 0 1
850 Semifrágil 0 1
210 Duro 0 0
130 Duro 0 0
340 Duro 0 0
750 Duro 0 0
200 Duro 0 0
Como puede apreciarse, la media del nivel base (duro) es A = 326 , valor
significativamente mayor que cero. De igual manera, B − A 0 es decir,
B A y también C A
El segundo tema que se tratará en esta unidad tiene que ver con las técnicas de selección
de variables para encontrar un modelo parsimonioso.
Aunque existen variantes del método, en la mayoría de los casos se sigue el siguiente
procedimiento (al menos éste es el que siguen los más importantes paquetes estadísticos
que hacen regresión stepwise).
PASO 2. Se agregan una a una las p − 1 variables independientes restantes, para formar
p − 1 modelos lineales de la forma Y = 0 + 1 X 1 + 2 X i y en cada uno de ellos se
prueba la hipótesis H0 : 2 = 0 contra H1 : 2 0 Nuevamente la variable
correspondiente al parámetro 2 de mayor valor t se retiene para el modelo. En este
momento hay diferencias entre los paquetes. Los mejores paquetes vuelven a la variable
X 1 y examinan el valor t. Si este valor ha dejado de ser significativo por estar por
debajo de cierto nivel, digamos 0.5 (nivel de salida), remueven la variable X 1 del
modelo y se reinicia una búsqueda entre las demás variables para introducir aquella que
tenga un t mas significativo, comparado con un cierto nivel de entrada, digamos 0.5
Otros paquetes no hacen esto sino que simplemente van al paso 3.
PASO 3. Se introducen una a una las p − 2 variables restantes para formar modelos
lineales de tres variables independientes y se procede en general como en el paso
anterior. Nuevamente puede haber o no una remoción de alguna de las variables
previamente seleccionadas y su reemplazo por alguna de las otras variables. El
procedimiento continúa hasta que no se encuentren más variables con valores t no
significativos, es decir hasta que según los criterios de entrada y salida no haya más
movimientos de variables en el modelo.
Utilizando un valor de 0.5 para valores de t 2 o F (es lo que pide ASP) se obtiene el
siguiente resumen del proceso:
____________________________STUDENT_VERSION_OF_ASP_____________________________
STEPWISE REGRESSION
Como puede apreciarse, la primera variable en entrar al modelo fue X5, luego X4, X3,
X1. No entraron en el modelo ni X2 ni X6. Se observa que la variable X1 no resulta
significativa en este modelo lo que implica que seguramente hace falta una nueva
estimación subiendo el valor para los criterios de entrada y salida.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 46
Existen otros procedimientos para seleccionar el mejor grupo de variables para un
modelo lineal entre los cuales podemos citar el criterio C p , el criterio MSE o del R 2
ajustado. Mencionaremos únicamente el criterio PRESS, basado en el estadístico del
mismo nombre, por ser uno de los más efectivos aunque exige numerosos cálculos,
siendo, por tanto, realmente útil cuando se estudian modelos de pocas variables.
Los paquetes estadísticos más importantes ponen a disposición los dos métodos
stepwise (paso a paso) mencionados anteriormente en sus dos versiones: Forward
(partiendo del modelo sin variables y agregando en cada paso aquella variable que más
aporte) y Backward (que parte del modelo completo y en cada paso elimina la variable
que menos aporta)
Funciones linealizables
Existen algunos modelos funcionales para describir curvas de ajuste que, aunque no
presentan la forma de un modelo lineal, y = 0 + 1 x , mediante transformaciones de
variables pueden ser llevados a esta forma y, en consecuencia, mediante una muestra
observada podrían estimarse sus coeficientes.
1− y
EJEMPLO
Per 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Bac 355 211 197 166 142 106 104 60 56 38 36 32 21 19 15
La gráfica siguiente, correspondiente a los datos anteriores, muestra una típica curva de
crecimiento negativo de poblaciones que, en forma directa, no puede ser estimada
mediante un modelo lineal. Nuestro objetivo es utilizar la muestra para estimar los
coeficientes del modelo.
UNIDAD 5
REGRESION LOGISTICA
Inicialmente presentaremos el caso en que Y toma sólo dos valores que denotaremos
por 0 y 1, es decir, Y es una variable dummy. Una primera observación que podemos
hacer es que la normalidad de los errores ya no se cumple. Igualmente como se vió
antes, la varianza del error es función de , la probabilidad de que Y sea un éxito. En
consecuencia, estos modelos deben ser tratados de una manera diferente.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 50
E(Y ) = 0 + 1 X1 + 2 X 2 + + pX p
donde la respuesta Y toma los valores 0 o 1, y puede ser considerada como una
variable aleatoria con distribución Bernoulli. En este caso se cumple que
E(Y ) = g ( ) = 0 + 1 X1 + + p X p para ciertos valores de las variables X i con
= E(Y = 1) ,
Exp( 0 + 1 X 1 )
y=
1 + Exp( 0 + 1 )
Exp( 0 + 1 X 1 + 2 X 2 + + p X p ) 1 Si ocurre A
E( y ) = donde y =
1 + Exp( 0 + 1 X 1 + 2 X 2 + + p X p ) 0 Si no ocurre A
Exp(0 + 1 X 1 + 2 X 2 + + pX p)
'
eβ X
= E( y ) = =
1 + Exp(0 + 1 X 1 + 2 X 2 + + pX p) 1 + eβ X
'
se concluye que
) = 0 + 1 X 1 + 2 X 2 + + p X p = eβ X
'
ln(
1−
Este último sí es un modelo lineal en el que la variable dependiente está dada por
ln( ) y se podría pensar en aplicar los métodos ya vistos para estimar los
1−
coeficientes i
En la cultura sajona las odds tienen un interpretación usual como en la cultura latina la
tienen los porcentajes. Por ejemplo, cuando afirmamos que un 75% de los pacientes
que ingresasn con quemaduras a un hospital sobreviven, los anglosajones hablan de un
odds de 3, pues para ellos es más usual 0.75/0.25
P(E F)
1-P(E F)
Odds ratio =
P(E F )
1-P(E F )
Vimos antes cómo mediante una transformación, fue posible llevar el modelo logístico
a un modelo de tipo lineal. Sin embargo, aunque se haya logrado transformar el
modelo a un modelo lineal, existen aún dos problemas: De una parte, puesto que es
desconocido, también lo es el logaritmo de la odds y estos valores son necesarios para
poder estimar el modelo (equivale a los valores de respuesta observados de los
modelos corrientes). En consecuencia se hace necesario estimarlos. Un buen
ˆ
estimador es el valor ln( ) donde ̂ es la proporción de 1’s que se encuentren
1 − ˆ
en la muestra para la combinación particular de X’s. Sin embargo, para poder obtener
estas estimaciones se hace necesario tener varias observaciones replicadas para la
misma combinación de los niveles de las X’s
n
V = piyi (1 − pi )1− yi
i =1
V es una función acotada por 0 y 1 la cual, para valores fijos de y y de los X ' s , toma
valores que dependen de los coeficientes i . Se trata entonces de encontrar los
valores de estos coeficientes que hagan que V esté lo más cerca posible de 1. Esto se
logra maximizando el logaritmo de V que tiene la forma:
n
L( yi , β) = [ yi ln( pi ) + (1 − yi ) ln(1 − pi )] con pi = P(Y = yi xi )
i =1
Lo que se logra mediante métodos numéricos iterativos que buscan valores que hagan
crecer el valor de V y que se detienen cuando el incremento de ese valor deje de ser
perceptible, de acuerdo con algún valor pequeño que se ha prefijado. El algoritmo
utilizado está fuera del alcance de estas notas y se basa en un método de Newton y
Raphson para resolver ecuaciones no lineales (Agresti, 1990). Entre los resultado que
arroja el proceso es bueno tener en cuenta la verosimilitud inicial
V I y la verosimil itud final V F ya que las dos permiten definir el cociente de
V
verosimilitud R = −2 ln I = −2[ln(VI ) − ln(VF )] el cual tiene distribución Ji-
VF
cuadrado con p grados de libertad y sirve para evaluar si las p variables X i tomadas
en conjunto, contribuyen efectivamente a explicar las modificaciones que se producen
en P( y = 1) , la hipótesis nula afirma en este caso que las variables independientes no
modifican la probabilidad de un resultado exitoso.
Se dijo anteriormente que los modelos logísticos pueden incluir variables categóricas
dentro de las variables independientes. Esto es cierto siempre que se haga con
precaución. Las variables dicotómicas puras (tipo SI-NO) deben entrar como variables
dummy, es decir, deben tomar el valor 1 cuando ocurra la categoría A y el valor 0 en
caso de que no ocurra. Una variable categórica pura con r categorías debe ser
expresada mediante r − 1 variables dummy que reemplazan a la variable categórica
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 54
dentro del modelo. Para ello se debe seguir la la regla ya conocida, que resumimos en
el siguiente procedimiento:
Supóngase, por ejemplo, que se tiene una variable categórica que representa el tipo de
sangre, la cual se ha sustituído por tres variables dummy Z1, Z2, Z3, de acuerdo con lo
siguiente:
X = Tipo de Sangre Z1 Z2 Z3
O 0 0 0
A 1 0 0
B 0 1 0
AB 0 0 1
Intercepto Z1 Z2 Z3 RH
b0 = 0.374 b1 = 0.316 b2 = 0.390 b3 = 0.070 b4 = 0.053
mientras que para un individuo con sangre O+ tal probabilidad valdría 0.592 aprox.
Obsérvese que Exp(b4) = Exp(0.053) = 1.05. Esto significa que la razón de los odds
asociados al factor RH vale 1.05 y se interpreta diciendo que tener factor RH negativo
incrementa el riesgo de padecer la enfermedad en un 5% respecto de tenerlo positivo,
independientemente del grupo sanguíneo. Esto es así, porque se está ante un caso en
que todas las variables son iguales, excepto una, el RH.
4,agrupados,enfer,z1,z2,z3,rh
1, 200, 1, 0, 0, 1
1, 30, 1, 0, 0, 0
0, 100, 1, 0, 0, 1
0, 10, 1, 0, 0, 0
1, 150, 0, 1, 0, 1
1, 60, 0, 1, 0, 0
0, 75, 0, 1, 0, 1
0, 19, 0, 1, 0, 0
1, 100, 0, 0, 1, 1
1, 64, 0, 0, 1, 0
0, 52, 0, 0, 1, 1
0, 50, 0, 0, 1, 0
1, 50, 0, 0, 0, 1
1, 60, 0, 0, 0, 0
0, 26, 0, 0, 0, 1
0, 48, 0, 0, 0, 0
Interpretación de resultados:
Como se ve, las estimaciones de los coeficientes del modelo son las mismas. Infostat
ˆ
proporciona además las odds’ ratio (razones de odss) , ei , los intervalos de confianza
de Wald para las odds´ratio que están dados por e ( ˆi − z /2 EE ( i ) ˆ
)
, e i + z /2 EE ( i ) , los
valores p para probar la significancias de los coeficientes y otros resultados cuyo
significado, por ahora, no vamos a discutir.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 58
El ejemplo siguiente involucra variables regresoras numéricas. En tales casos es
conveniente tener la tabla de datos completa con todos los n individuos de la muestra,
aunque es claro que individuos con exactamente la misma información (aún la de las
variables numéricas) podrían ser contados para formar una columna de frecuencias.
EJEMPLO
Se tiene una muestra de 22 personas de dos etnias (1 = Afro, 0 = otro) con diferentes
niveles de estudio (P = Primaria, S= Secundaria, U = Universitaria) y su edad en años
cumplidos. Se considera como respuesta el estar desempleado o no ( 1 = Desempleado,
0 = empleado).
p
ln = −4.05 − 3.07 Etnia+0.89 Z1 − 0.04 Z 2 + 0.15 Edad
1 − p
Podemos averiguar, por ejemplo, cual es la probabilidad de que una persona Afro con
40 años de edad y nivel universitario de estudios, esté desempleada:
p1
1 = ln = 10 + 11 X 1 + 12 X 2 + + 1 p X p
p0
p2
2 = ln = 20 + 21 X 1 + 22 X 2 + + 2 p X p
p0
pk −1
k −1 = ln = k −1,0 + k −1,1 X 1 + k −1,2 X 2 + + k −1 p X p
0
p
Todos ellos relacionados con la categoría de referencia, los que pueden ser estimados
usando un algoritmo similar al ya mencionado en el aparte anterior, para lo cual se
requiere software especializado.
A partir de las estimaciones anteriores se obtiene:
Puesto que las sumas de todas las k probabilidades de las categorías deben sumar 1, se
deduce que
En resumen:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 61
De esta manera el archivo de datos del cuadro anterior tendrá el aspecto siguiente:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 62
Usando Minitab para estimar el modelo de regresión logística con tres categorías para Y
siendo la tercera de ellas la categoría de referencia se obtiene:
Información de respuesta
Frecuencia: Freq
IC de
Relación de 95%
Predictor Coef SE Coef Z P probabilidades Inferior
Logit 1: (2/3)
Constante 0.182563 0.236446 0.77 0.440
PS -0.138976 0.179648 -0.77 0.439 0.87 0.61
Z1 0.430375 0.220545 1.95 0.051 1.54 1.00
Z2 0.432446 0.226221 1.91 0.056 1.54 0.99
T1 0.0994148 0.228792 0.43 0.664 1.10 0.71
T2 0.375322 0.229604 1.63 0.102 1.46 0.93
Logit 2: (1/3)
Constante -1.67897 0.335594 -5.00 0.000
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 63
PS 0.541796 0.217915 2.49 0.013 1.72 1.12
Z1 0.928240 0.306604 3.03 0.002 2.53 1.39
Z2 1.55741 0.297931 5.23 0.000 4.75 2.65
T1 0.100743 0.282930 0.36 0.722 1.11 0.64
T2 0.599579 0.274541 2.18 0.029 1.82 1.06
Predictor Superior
Logit 1: (2/3)
Constante
PS 1.24
Z1 2.37
Z2 2.40
T1 1.73
T2 2.28
Logit 2: (1/3)
Constante
PS 2.64
Z1 4.61
Z2 8.51
T1 1.93
T2 3.12
Log-verosimilitud = -732.736
Probar que todas las pendientes son cero: G = 55.362, GL = 10, valor P = 0.000
Método Chi-cuadrada GL P
Pearson 24.3759 24 0.440
Desviación 24.9795 24 0.407
data proyectos;
input Y PS Z1 Z2 T1 T2 Cantidad;
datalines;
1 1 1 0 1 0 12
1 1 1 0 0 1 21
1 1 1 0 0 0 6
1 1 0 1 1 0 16
1 1 0 1 0 1 32
… Más datos….
3 0 0 0 0 1 9
3 0 0 0 0 0 10
;
title 'Regresión Logística Politómica)';
proc catmod data=proyectos;
weight Cantidad;
direct PS Z1 Z2 T1 T2;
model Y=PS Z1 Z2 T1 T2 / freq covb corrb itprint design;
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 64
quit;
run;
E1 1.6835
p1 = = = 0.3777
1 + E1 + E 2 1 + 1.6835 + 1.7725
E2 1.7725
p2 = = = 0.3978
1 + E1 + E 2 1 + 1.6835 + 1.7725
p3 = 1 − ( p1 + p2 ) = 0.2245
OTRO EJEMPLO
Data Neuralgia;
input Tratamiento $ Sexo $ Edad Duracion Dolor $ @@;
datalines;
P F 68 1 No B M 74 16 No P F 67 30 No
P M 66 26 Si B F 67 28 No B F 77 16 No
A F 71 12 No B F 72 50 No B F 76 9 Si
A M 71 17 Si A F 63 27 No A F 69 18 Si
B F 66 12 No A M 62 42 No P F 64 1 Si
A F 64 17 No P M 74 4 No A F 72 25 No
P M 70 1 Si B M 66 19 No B M 59 29 No
A F 64 30 No A M 70 28 No A M 69 1 No
B F 78 1 No P M 83 1 Si B F 69 42 No
B M 75 30 Si P M 77 29 Si P F 79 20 Si
A M 70 12 No A F 69 12 No B F 65 14 No
B M 70 1 No B M 67 23 No A M 76 25 Si
P M 78 12 Si B M 77 1 Si B F 69 24 No
P M 66 4 Si P F 65 29 No P M 60 26 Si
A M 78 15 SI B M 75 21 Si A F 67 11 No
P F 72 27 No P F 70 13 Si A M 75 6 Si
B F 65 7 No P F 68 27 Si P M 68 11 Si
P M 67 17 Si B M 70 22 No A M 65 15 No
P F 67 1 Si A M 67 10 No P F 72 11 Si
A F 74 1 No B M 80 21 Si A F 69 3 No
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 66
;
proc logistic data=Neuralgia;
class Tratamiento Sexo;
model Dolor = Tratamiento Sexo Tratamiento*Sexo Edad Duracion / expb;
run;
Response Profile
Ordered Total
Value Dolor Frequency
1 No 35
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 67
Response Profile
Ordered Total
Value Dolor Frequency
2 Si 25
Tratamiento A 1 0
B 0 1
P -1 -1
Sexo F 1
M -1
SC 85.598 81.351
Joint Tests
Wald
Effect DF Chi-Square Pr > ChiSq
Note:Under full-rank parameterizations, Type 3 effect tests are replaced by joint tests. The joint
test for an effect is a test that all the parameters associated with that effect are zero. Such joint
tests might not be equivalent to Type 3 effect tests under GLM parameterization.
Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq Exp(Est)
Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq Exp(Est)
95% Wald
Effect Point Estimate Confidence Limits
EJERCICIO
Propuesto por Javier Morales. Universidad Miguel Hernández de Elche.
1 1
f (x) = Exp − ( x - μ) ' Σ −1 ( x - μ) , x p
2
p
(2 ) 2
Σ
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 71
p
Y de las propiedades métricas del espacio en particular de la distancia de
Mahalanobis inducida por la forma cuadrática Q(x) = (x - μ) ' Σ−1 (x - μ) a partir de la
cual se puede definer un product interior e introducer el concepto de ortogonalidad.
Bajo esta concepción, la matriz de diseño del modelo lineal general es el conjunto de
vectores que generan el subespacio lineal 0 . Y la hipótesis que se considera es
H0 : μ - μ0 = Xβ con β k
. Como es de esperarse, la solución de un modelo lineal
depende de la solución de la ecuación: X ' Σ−1Y = X ' Σ−1 Xβ . (una ampliación de este
tema puede verse en Madsen y Thyregod).
Capítulo II
MODELOS DE ANOVA
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 73
Unidad 6
Modelos de diseño
Como se dijo antes, los modelos de diseño son modelos lineales en los que la matriz de
diseño no es de rango completo. Esto nos lleva a considerar una teoría especial para este
tipo de modelos. Los aspectos más relevantes para tales modelos se consignan a
continuación.
Las estimaciones de los parámetros pueden lograrse mediante una expresión del tipo
β = ( X'X)G (X'Y) donde ( X'X)G es una inversa generalizada de X'X . El principal
inconveniente que presenta este tipo de estimación es la falta de unicidad para las
soluciones. Sin embargo, dos soluciones cualesquiera producen la misma estimación
(ejercicio). Por lo anterior, cualquier inversa generalizada puede ser usada. Si se utiliza
software de cálculo como Matlab u Euler es conveniente usar la inversa de Moore-
Penrose, la cual se define de la siguiente manera:
M = L'(K'AL')-1 K' . Tanto Matlab como Euler usan el comando pinv() para calcular la
inversa de Moore-Penrose.
2 1 0
4 2 1
Ejemplo 1: Considérese A = que es una matriz de rango 3. El comando
1 1 2
2 2 4
m
Es de mucho interés estimar combinaciones lineales del tipo λ' β = i i , razón por
i =1
siendo a , b , c , … el número de valores diferentes que pueden tomar cada una de las
variables X1 , X 2 , , X m respectivamente. Esto es así porque una variable categórica
de q categorías puede ser sustituída por q variables categóricas dicotómicas (con
valores 0 y 1) mediante el siguiente artificio (parecido pero diferente a lo visto en
páginas anteriores): Si X es una variable categórica con q categorías identificadas
1 Si X = i
con los valores 1, 2, 3, …, q podemos definir Xi = para
0 Si X i
i = 1, 2, ,q
En la teoría del diseño, cada una de las categorías de las variables independientes se
denomina un nivel y, con frecuencia, cada variable independiente se llama un factor.
Así, el ejemplo anterior corresponde a un diseño de un solo factor con tres niveles. En la
teoría del diseño de experimentos denominaremos tratamiento a cada combinación de
niveles de los factores. En los diseños unifactoriales al no existir combinaciones de
niveles, éstos coinciden con los tratamientos.
escribir:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 77
y11 3 1 1 0 0 11
y 5 1 1 0 0
12 12
y21 2 1 0 1 0 21
y22 = 4 = 1 0 1 0 1 22
+
y23 3 1 0 1 0 2 23
y31 1 1 0 0 1 3 31
y 3 1 0 0 1
32 32
y33 2 1 0 0 1 33
Esta expresión corresponde al siguiente esquema de diseño:
8 2 3 3 23
2 2 0 0 8
En este ejemplo se cumple: X'X = X'Y =
3 0 3 0 9
3 0 0 3 6
8 2 3 3 1 1
2
2 0 0 2 0
escribir como = de donde se deduce que es un sistema
3 0 3 0 3 −1
3 0 0 3 4 0
Se puede probar que, en general, son estimables todas aquellas funciones que puedan
escribirse como combinaciones lineales de las filas de Xβ
Por otra parte resulta de interés tener una expresión para estimar la varianza de una fpl
ya que esto permite construir intervalos de confianza para ella. Se tiene:
Cov(λ 1 ' β, λ 2 ' β) = E (λ 1 ' β - λ 1β)(λ 2 ' β - λ 2β) ' = E ( γ 1'X'Y - λ 1'β )( γ 2'X'Y - λ 2'β ) '
se tendrá: V (λ'β) = 2 (λ'γ) siendo γ una solución del sistema antes mencionado.
Por ejemplo, para el caso presentado anteriormente, se obtiene
1 1
= (0,1, 0, −1) ' = (0, , 0, − ) ' (una de las infinitas soluciones posibles). Por
2 3
5 2 1
tanto V( 1 − 3 ) = . Como 2 = Y'(I − X( X'X)G X')Y , al utilizar los
6 n−m
6
valores observados de Y con n = 8 y m = 3, se obtiene: 2 = y, por tanto,
5
V(1 − 3 ) = 1 (Los cálculos pueden verificarse con Matlab).
Con el fin de transformar los modelos anteriores en otros de rango completo, en los
cuales X'X sea invertible, se suelen hacer reparametrizaciones.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 79
Dado Y = βX + ε , por una reparametrización de este modelo se entenderá una
transformación α = Uβ del vector β donde cada elemento de α es una función
lineal estimable.
B 0
m m (m en general es el número de tratamientos) tal que ( WF )( X'X ) WC =
0 0
donde B es matriz cuadrada k k de rango k. WF se puede particionar en la forma
W' B 0
( X'X ) W, W1 = lo que produce: W'(X'X)W = B y W1'(X'X)W1 = 0
W1' 0 0
lo que implica en particular que W'X es de rango k y W1'X' = 0 . De aquí XW1 = 0 .
U U
hacer (W )
* -1
= U* = se tendrá: Y = X W, W1 β + ε , esto es:
U1 U1
Y = ( XW ) (Uβ) + (XW1 ) ( U1β ) + ε , o lo que es igual: Y = ( XW )( Uβ ) + ε . En esta
Para estimar α o cualquier combinación lineal de sus componentes, pueden usarse las
Nota: Puesto que existen muchas matrices W* que diagonalizan a X'X , existen
también muchas formas de reparametrizar un modelo pero cualesquiera dos de ellas
producen la misma estimación de la fpl λ'β . Resulta entonces de interés seleccionar
algunas reparametrizaciones que presentan propiedades especiales. Por ejemplo, son
muy importantes aquellas en las cuales Z'Z es una matriz diagonal de rango completo,
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 80
llamadas reparametrizaciones ortogonales. Siempre es posible encontrar una
reparametrización ortogonal pues bastará para ello tomar como W* la matriz ortogonal
formada por los vectores propios unitarios correspondientes a los valores propios de
X'X .
y 1 1 0 13
Y = 13 = 1 + = Xβ + ε
y21 1 0 1 21
2
y22 1 0 1 22
y23 1 0 1 23
1 1 1 0 1 1 0
obtiene α = = 1 y, por tanto, U= . Para construir una
2 1 0 1 1 0 1
2
matriz no singular U* , debemos construir U1 de modo que al agregarla a U se forme
U
una matriz cuadrada de rango completo. Hay muchas formas de hacerlo. Por
U1
1 1 0
ejemplo, se puede tomar U1 = (0, 1, 1) , con lo cual U = 1 0 1 . De esta manera:
*
0 1 1
aquí:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 81
1 1 0 1 0
1 1 0 1 0
0.5 0.5
1 1 0 1 0 3 0
Z = XW = 0.5 −0.5 = . Además Z'Z = , lo que nos dice
1 0 1
−0.5 0.5
0 1 0 3
1 0 1 0 1
1 0 1 0 1
que la reparametrización encontrada es ortogonal.
3
−1 y1 j
3 0 j =1 −1 Y
α = 1 = = ( Z'Z ) 1 •
2 0 3 y Y2 •
3
2 j
j =1
expresión λ'β - sino construir un intervalo de confianza para dicha estimación. Bajo el
supuesto de que el modelo cumple las condiciones de Gauss-Markov, un intervalo de
confianza para la flp mencionada está dado por λ'β − b(λ'β) t ee(V(λ'β)) , donde
S2 1
(n − m) = (Y - Xβ) '(Y - Xβ) tiene distribución Ji-cuadrado con n − m grados de
2
2
libertad. Si se usa el modelo W para estimar los parámetros i , se sigue que
Con mucha frecuencia en los procesos de investigación se plantean hipótesis sobre los
parámetros de un modelo lineal y en particular sobre los parámetros de un modelo de
diseño. Tales hipótesis pueden ser formuladas en general en términos de funciones
paramétricas lineales. Puede afirmarse que las hipótesis de interés son en general del
tipo Ho: λ'β = 0 donde 0 es una constante, fija y conocida. Si λ'β es una fpl
( − )
2
1
= 1 20
2
F 1, , donde = (λ'β - β 0 ) es el parámetro de no
ci i S 2cii 2
centralidad para la distribución F.
constituyen hipótesis muy frecuentes sobre los parámetros en los modelos de rango
incompleto. Para hipótesis estimables (cfr Graybill 11.15), lo anterior equivale a probar
que λ1'β = λ 2'β = = λ r'β = 0 para ciertos vectores λ1 , λ 2 , , λ r y el procedimiento
de prueba puede resumirse en lo siguiente:
(
Q0 = Y - X'β ' Y - X'β )( )
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 83
2. Obtener una solución de las ecuaciones normales ( Z'Z ) α = Z'Y del modelo
n − q Q1
3. Hacer ahora Q0 + Q1 = (Y - Zγ)'(Y - Zγ) . Se cumple = Fr , n−q,
r Q0
donde es el parámetro de no centralidad para la distribución F.
En particular las hipótesis del tipo H0 : λ'β = 0 donde las componentes del vector λ
m
satisfacen
i =1
i = 0 , llamadas contrastes, son de utilidad y aplicación en el análisis de
los modelos de diseño. Es de gran interés estimar contrastes y probar la hipótesis de que
un contraste λ'β = 0 . Usualmente esto se hace aplicando lo que se ha dicho en los
párrafos anteriores. Es decir: estimando el contraste, estimando su varianza y
construyendo intervalos de confianza centrados en la estimación puntual del contraste.
Cuando un intervalo de confianza contiene al valor 0, se concluye que dicho contraste
es igual a cero. Se pueden aplicar también los resultados anteriores ya que al suponer
verdadera la hipótesis nula, la distribución del estadístico es una F central. Más
adelante se volverá sobre este tema.
En la sección anterior se han presentados algunos resultados generales para estimar los
coeficientes de un modelo lineal en general. Dichos métodos son de naturaleza
universal y aplicables en cualquier situación. Sin embargo, en la práctica se utilizan
otros métodos más específicos basados principalmente en la estimación por mínimos
cuadrados (MCO). Bajo el supuesto de validez de las condiciones Gauss-Markov los
métodos de mínimos cuadrados producen estimaciones equivalentes a las que se
obtienen por métodos de máxima verosimilitud (MV). Esta es una de las razones por las
cuales se hacen supuestos de normalidad, independencia en las observaciones y
homocedasticidad (igual varianza) en los modelos de diseño.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 84
Como se dijo al comienzo de estas notas, suponer que un modelo de diseño se ajusta a
los supuestos Gauss-Markov conduce a una teoría demasiado restrictiva que sólo
produce soluciones para los relativamente escasos modelos que los satisfacen.
Quisiéramos poder presentar una teoría más amplia que ofrezca soluciones para diseños
más generales pero el tema resultaría tan amplio y complejo que nos pondría a nivel de
un curso de profundización para maestría. Baste saber que en la actualidad la estadística
investiga modelos muchos más generales, por ejemplo con distribuciones diferentes a la
normal o incluso con funciones de varianza más generales que las que comúnmente se
tratan en los libros corrientes de estadística.
Esta segunda unidad sigue los delineamientos tradicionales para el estudio de los
modelos de diseño, a sabiendas de que la teoría aquí expuesta no puede resolver muchos
problemas que se presentan en la vida diaria, pero resaltando - eso sí- que los métodos
tradicionales de solución tienen una base teórica importante que los justifica. Por otra
parte conviene advertir que la mayor parte del software existente para realizar el análisis
de los diseños suponen en gran medida las condiciones de normalidad, independencia y
homocedasticidad propias de los modelos ajustados a las hipótesis Gauss-Markov. Son
muy pocos los paquetes estadísticos que enfrentan situaciones más generales como las
que hemos mencionado. Entre ellos cabe destacar el paquete SAS, uno de las más
potentes, completos y eficientes para el análisis de esos tipos de diseños.
i =1
Una matriz inversa MCO puede construirse mediante la fórmula A0 = (A'A)G A'
2 y11 1 1 0 11
3 y 1
1 0 12
Ejemplo 5. Considérese el modelo Y = = 12 = 1 + = Xβ + ε
5 y21 1 0 1 21
2
4 y22 1 0 1 21
que no tiene solución ya que X no es de rango completo. Si usamos la inversa de
Moore-Penrose para X , esto es:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 86
1 1 1 1 14
6 6 6 6 6
+
X = 1 1 −1 −1 se obtiene la estimación β p = X Y = 8 la cual
+
3 3 6 6 6
− 1 −1 1 1 13
6 6 3 3 6
1 1 0 14 3.66
1 6
1 0 8 3.66
produce la solución aproximada YP = =
1 0 1 6 4.50
1 0 1 13 6 4.50
Si buscamos otra solución aproximada mediante la matriz MCO, (un poco traída por
arte de magia, pero que ya pronto se sabrá cómo se logra):
0 0 1 1 9
2 2 2
X = 1
0 1 −1 − 1 se obtiene la estimación − 4 , dada por:
2 2 2 2 2
0 0 0 0 0
2 9
0 0 0.5 0.5 2
= X0 Y = 0.5 0.5 −0.5 −0.5 = − 4
3
β mc
5 2
0 0 0 0 0
4
2.5
2.5
estimación que produce la solución de mínimos cuadrados: Ymc = Xβ mc =
4.5
4.5
Para ver cuál de las dos soluciones anteriores es mejor, se pueden calcular las
'
10 4 3 3
correspondientes SCE, dadas por los residuos: e P = Y - YP = − , − , , −
6 6 6 6
'
1 1 1 1
para el caso Penrose y e mc = Y - Ymc = − , , , − para el caso MCO, las
2 2 2 2
1
A es de rango k, la matriz A G
Si puede obtenerse arreglando en orden inverso la matriz
( A* )−1 0 A11 A12
A = 11
*
obtenida del arreglo de A , de modo que A 11 sea de orden k.
0 A21 A22
0
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 87
mejor la solución dada por el método MCO que la obtenida por la inversa de Penrose.
Se puede observar además que la solución dada por el método MCO produce errores
cuyo promedio es cero, cosa que no ocurre con la otra solución.
optaremos por el método MCO como la herramienta usual para producir estimaciones
del vector de parámetros, β mc , estimación que en general denotaremos simplemente por
β.
S C(X)⊥ ).
C( X)⊥ , la matriz que realiza esta operación es: P = X(X'X)G X' para cualquier G-
inversa de X'X . Es fácil ver que la matriz P = X(X'X)G X' es una matriz de
proyección ya que ella es idempotente. Además, sin importar cuál sea la inversa
generalizada que se use, P siempre logrará el mismo objetivo. Se puede construir otra
matriz de proyección Q dada por Q = In - P , la cual obviamente proyecta los vectores
e = Y - Y = I n Y - PY = (I n - P)Y = QY
La expresión anterior, que no es más que una versión del teorema de Pitágoras, se
conoce como descomposición de las sumas de cuadrados. Ella establece una relación
entre la suma de cuadrados de las observaciones (suma total de cuadrados) con la suma
de cuadrados de valores estimados por el modelo (suma de cuadrados explicada por el
modelo) y la suma de cuadrados de los residuos. Por esta razón se acostumbra a usar las
siglas SCT, SCR y SCE, estableciendo entonces la expresión típica del análisis de
varianza:
Tratam 1 Tratam 2
2 5
3 4
2
3
El modelo correspondiente puede escribirse Y = Xβ + ε donde Y = , = 1 ¨ y
5
2
4
1 1 0
1 4 2 2
0
. Se tiene entonces: X'X = 2 2 0 que es una matriz de rango 2.
1
X=
1 0 1
2 0 2
1 0 1
Aplicando lo dicho en el pie de la página 20 se obtiene la G-inversa
0.5 −0.5 0.0
( X'X ) = −0.5 1.0 0.0 ¨y, en consecuencia, las matrices de proyección P y Q
G
−2.5
2.5
La proyección de Y sobre C( X) será PY = = Y y la proyección de Y sobre
4.5
−4.5
−0.5
0.5
C( X) es: QY =
⊥ =e
0.5
−0.5
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 91
La tabla siguiente muestra tres maneras típicas de descomponer la suma total de
cuadrados SCT:
Una vez lograda la solución anterior, podemos calcular los residuos mediante
ˆ y la suma de cuadrados de residuos mediante SCR = e, e .
e = Y-Y
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 93
y11 2 1 1 0 0 0 11
y 4 1 1 0 0 0
12 12
y13 6 1 1 0 0 0 13
y14 2 1 1 0 0 0 14
y21 4 1 0 1 0 0 21
y22 3 1 0 1 0 0 22
y 4 1
0 1 0 0 23
23 1
y24 2 1 0 1 0 0 24
y = 6 + 1 2 +
0 0 1 0 31
31 3
y32 6 1 0 0 1 0 32
4
y33 5 1 0 0 1 0 33
y34 4 1 0 0 1 0 34
y41 8 1 0 0 0 1 41
y 6 1 0 0 0 1
42 42
y43 5 1 0 0 0 1 43
y 6 1 0 0 0 1
44 44
En este modelo, El vector Y = ( yij )161 corresponde a las 16 respuestas, La matriz X165
es la matriz de diseño y el último vector a la derecha es un vector de errores que se
supone con distribución normal multivariada de media 0 y varianza 2 I16
Calcularemos todas las matrices en Matlab. Así se tiene:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 94
1 = + 1
2 = + 2
Reparametrizamos el modelo tomando
3 = + 3
4 = + 4
1 1 1 0 0 0
1 0 1 0 0 1
con lo cual 1 = .
1 1 0 0 1 0 2
3
1 1 0 0 0 1
4
De acuerdo con ésto, los valores estimados de respuesta, según el nuevo modelo, los
residuos y la suma de cuadrados de los errores, son:
La estimación mediante un modelo MCO es mucho más simple: solo requiere del
cálculo de dos matrices de proyección que son ortogonales entre sí, P, Q , y,
ocasionalmente, una tercera matriz P0 , definidas como se estipula a continuación:
Esta última presentación es la que aparece en todos los paquetes estadísticos que hacen
análisis de varianza, como Infostat. Este paquete presenta algunos elementos
adicionales: los cuadrados medios (que son varianzas obtenidas al dividir las sumas de
cuadrados entre sus correspondientes grados de libertad) y el cociente F de la varianza
ENTRE, correspondiente al modelo, y la varianza DENTRO. Este cociente es una
variable aleatoria con distribución F -por ser cociente de dos varianzas- y se usa para
realizar cierto tipo de inferencia relacionada con las medias de los niveles.
La siguiente es la salida de Infostat para los datos del ejemplo que estamos analizando:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 98
5.1 Modelos S.
Los modelos sobreparametrizados son aquellos en los que aparece un parámetro por
cada efecto de los factores involucrados. Corresponden a los casos de modelos de
diseño que hemos visto hasta el momento. Otro ejemplo típico puede ser el sugerido por
el siguiente esquema de diseño desbalanceado (diferente número de réplicas en los
tratamientos):
FACTOR 2
crecen las plantas y podría indicar, por ejemplo, producción, altura, resistencia a una
plaga, etc Es claro que en este diseño puede haber interacción entre los factores (el tipo
de terreno y la variedad de la planta), por consiguiente, el modelo debe incluir:
• Dos parámetros 1 , 2 para los niveles del primer factor.
El intervalo de confianza para λ'β está dado por λ'θ0 t v(λ'β) donde k es el
n−k ,
2
rango de la matriz de diseño y v(λ'β) es la varianza estimada de la fpl, la cual está dada
por 2 γ ' ( X'X ) γ donde γ es una solución del sistema ( X'X ) γ = λ , según se
Ejemplo 9.
Volvamos a los datos del ejemplo 6 anterior, caso correspondiente a un diseño
unifactorial con dos niveles (y dos réplicas por nivel). Se tiene = , 1 , 2 y el
Los cálculos para este ejemplo pueden corroborarse con el siguiente programa Matlab:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 101
4 2 2 14 4.5
Se tiene: X'X = 2 2 0 , X'Y = 5
y, como se vió anteriormente, β = −2.0
2 0 2 9 0.0
es una estimación del vector de parámetros, β = 1 .
2
Consideremos la fpl λ'β = 1 − 2 = (0, 1, − 1)β
4 2 2 1 0
2 2 0 = 1 y una
En este caso la ecuación ( X'X ) γ = λ equivale a 2
2 0 2 3 −1
0.0
solución particular de este sistema es γ = 0.5 , lo que muestra que la fpl sí es
−0.5
estimable.
Una estimación particular de esta fpl es λ'θ 0 donde θ 0 es una solución particular de
sistema de ecuaciones normales ( X'X ) β = X'Y , esto es, del sistema de ecuaciones
4 2 2 14 0.0
lineales: 2 2 0 1 = 5 . Por ejemplo, θ = 2.5 . Así pues: λ'θ0 = −2 es una
0
2 0 2 2 9 4.5
0.0
usamos la solución particular γ = 0.5 , encontrada arriba, y la estimación de la
−0.5
Por consiguiente el intervalo del 95% para la fpl estará dado por:
1 1
−2 t4−2, 0.025 = −2 4.303 = (−5.0427 , 1.0427)
2 2
Puesto que 0 pertenece a este intervalo, se puede concluir que 1 − 2 = 0 o, lo que es
igual, 1 = 2
yi j
2
SCM = n ( y ..) = 4 i j = 49 , se resume en la siguiente tabla:
2
4
5.2 Modelos W
Los modelos sobreparametrizados, vistos anteriormente, han sido importantes debido a
que muestran todos los parámetros pero esto a la vez constituye su mayor debilidad,
pues son más los parámetros que las medias disponibles para estimarlos.
Los modelos de medias de celdas son reparametrizaciones de los modelos S, en las que
se busca un modelo Y = Wμ + ε definido mediante una matriz W de rango completo.
En este caso μ es un nuevo vector de parámetros más reducido que el anterior vector
β.
Los modelos de medias de celdas más comunes, para una y dos vías de clasificación,
son los siguientes:
Como antes, las fpl son combinaciones lineales de los parámetros del modelo, es decir,
de las medias de las celdas. Digamos que son expresiones del tipo L = λ'μ cuya
MELI, en caso de que sean estimables, tendrá la forma L = λ'Y , donde Y es el vector
formado por las medias estimadas de las celdas con las observaciones. Su varianza
estará dada por V( L) = 2 γ'(W'W)γ donde γ es solución del sistema (W'W)γ = λ .
Como antes, esta varianza puede ser estimada utilizando la estimación
SCE
s 2 = 2 =CME= donde k es el rango de X.
n−k
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 104
Ejemplo 10
Considérese el diseño de clasificación cruzada a dos vías sin interacción, dado por el
siguiente esquema, en el cual los asteriscos representan observaciones perdidas a lo
largo del proceso. Aunque una línea de conducta debe ser la de diseñar experimentos
balanceados, suele ocurrir a lo largo del desarrollo de un experimento que se pierdan
unidades experimentales, razón por la cual los resultados finales puedan dar origen a
diseños desbalanceados, es decir, diseños en los que el número de observaciones no es
el mismo para todas las celdas.
Factor 2
Nivel 1 Nivel 2
2 *
Nivel 1 4 *
Factor * 6
1 * 2
Nivel 2 3 3
5 4
y111 2 1 1 0 1 0 111
y 4 1 1 0 1 0
112
112
y123 6 1 1 0 0 1 123
1
y212 = 3 = 1 0 1 1 0 212
2 +
y213 5 1 0 1 1 0 213
1
y221 2 1 0 1 0 1 221
2
y 3 1 0 1 0 1
222 222
y223 4 1 0 1 0 1 223
que es de la forma Y = Wμ + ε
2 0 0 0
0 1 0 0
W 'W =
0 0 2 0
0 0 0 3
y11. 3
y 6
μ = 12. = = Y
y21. 4
y22. 3
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 106
que es el vector de estimación de los cuatro parámetros (11 , 12 , 21 , 22 ) ' y que,
como se ve, está formado por las medias de los datos en cada celda.
Nota 2: De acuerdo con lo dicho anteriormente, para los modelos de doble clasificación
las fpl son combinaciones lineales de los parámetros del modelo, es decir, de las medias
de las celdas. Digamos que son expresiones del tipo
a b
L = i j i j
i =1 j =1
La MELI de tales fpl, en caso de que ellas sean estimables, tendrá la forma
a b
L = i j yi j
i =1 j =1
2i j
y su varianza estará dada por V( L ) =
2
Como antes, esta varianza
j ni j
i
SCE
puede ser estimada utilizando la estimación s 2 = 2 =CME= donde k es el
n−k
rango de X. La sigla CME significa cuadrado medio del error y aparece generalmente
en las tablas de análisis de varianza que se verán en la segunda parte de este documento.
Continuando con el ejemplo y utilizando Matlab para construir las matrices proyectoras
P y Q a partir del modelo S correspondiente, se tendrá:
SCM = 105.1250
SCR = 106.1429 SCR m = 1.0179 SCR m = 1.0179
SCE = 12.8571 SCE = 12.8571 SCE = 12.8571
SCT = 119.0000 SCT = 119.0000 SCTm = 13.8750
Puesto que la matriz de diseño X del modelo S, tiene rango 3, se concluye que una
SCE 12.8571
estimación de 2 es CME = = = 2.5714
n−k 8−3
expresión que sugiere, en la forma tres, cómo se puede descomponer SCR m en dos (o
más) sumandos, dependiendo de la manera como se distribuyan los rangos de las
diferentes matrices que intervienen en dicha descomposición, ya que se debe cumplir:
Ejemplo 11
Considerando la matriz X del ejemplo anterior
1 1 0 1 0
1 1 0 1 0
1 1 0 0 1
1 0 1 1 0
X=
1 0 1 1 0
1 0 1 0 1
1 0 1 0 1
1 0 1 0 1
1 1 0 1 0
1 1 0 1 0
1 1 0 0 1
1 0 1 1 0
X0 = X1 = X2 =
1 0 1 1 0
1 0 1 0 1
1 0 1 0 1
1 0 1 0 1
Ejemplo 12
Factor 2
1 2
1 3 6
Factor 5 4
1 2 3 5
2 3
1 1 0 1 0 1 0 0 0
1 1 0 1 0 1 0 0 0
1 1 0 0 1 0 1 0 0
1 1 0 0 1 0 1 0 0
X=
1 0 1 1 0 0 0 1 0
1 0 1 1 0 0 0 1 0
1 0 1 0 1 0 0 0 1
1 0 1 0 1 0 0 0 1
1 1 0 1 0 1 0 0 0
1 1 0 1 0 1 0 0 0
1 1 0 0 1 0 1 0 0
1 1 0 0 1 0 1 0 0
X0 = X1 = X2 = X12 =
1 0 1 1 0 0 0 1 0
1 0 1 1 0 0 0 1 0
1 0 1 0 1 0 0 0 1
1 0 1 0 1 0 0 0 1
En los modelos de dos y más factores puede ocurrir que además de los efectos de los
factores existan efectos conjuntos producidos por la combinación de dos o mas de los
factores. Tales efectos se denominan interacciones y, cuando existen, constituyen otra
fuente de variación que dificulta un poco la interpretación de los resultados. En estas
notas nos limitamos al caso de modelos de dos vías de clasificación, pero el lector queda
avisado de que la situación también se puede presentar cuando se manejan más de dos
factores.
EJEMPLO:
El lector puede intentar la formulación matricial de este modelo, el cual puede ser
analizado con el siguiente programa en MATLAB:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 114
El lector puede realizar los calculos para completar las tablas siguientes:
Algunos paquetes como SAS o Minitab pueden realizar estimaciones de ambos tipos de
modelo, según como éste se especifique. El primer modelo se especifica con la
expresión Y = X1 + X 2 + X1 * X 2 mientras que el segundo se hace con Y = X1 + X 2 , tal
como se ilustra en los siguientes programas para SAS:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 115
Modelos
Los modelos con restricción paramétrica se han introducido con el fin de lograr
soluciones únicas en las estimaciones de los parámetros. En tales modelos se
condicionan los valores que pueden tomar los parámetros mediante algunas ecuaciones
que se les imponen. Casi siempre dicha condición es que la suma de los parámetros
correspondientes sea 0. En tales condiciones los modelos resultantes se representan
mediante la expresión: Y = ZΘ + ε
1 a a
i = i − i y entonces
a i =1
i =1
i =0
a
1 a
j = j − j y entonces
b j =1
i =1
j =0
a
1 b 1 a 1 b
i j = i j −
a j =1
ij −
b i =1
i j − i j
ab i j =1
con lo cual i j = 0 y
i =1
j =1
ij =0
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 116
Lo anterior se enuncia comúnmente diciendo que “las sumas de los efectos de diseño
valen cero”.
Ejemplo 13
Considérense tres tipos de sondas pedológicas en dos tipos de terreno. Se mide la
cantidad en mg de P2O3 por cada 100 gr de tierra extraída, como muestra el cuadro
siguiente (Iemma, Simposio 1993).
Suelo 1 43 41 42
i =1 45 * 44
40 35 *
Suelo 2 40 37 *
i=2 * 33 *
43 1 1 1 0 1 111
45 1 1 1 0
1
112
41 1 1 0 1 −1 121
42 1 1 −1 −1 0 131
1
44 1 1 −1 −1 0 132
= 1 ¨+
40 1 −1 1 0 −1 211
2
40 1 −1 1 0 −1 212
11
35 1 −1 0 1 1 221
37 1 −1 0 1 1
222
33 1 −1 0 1 1 223
10 0 2 2 2 0 400
0 10 −2 −4 0 0 30
1
2 −2 6 2 0 10 = 82
2 −4 2 6 2 20 60
2 0 0 2 8 110 72
y, en consecuencia,
0 = 40.1667
10 = 2.5000
10 = 1.8333
20 = −2.1667
110 = −0.5000
5.4 Modelos R
Diremos brevemente que los modelos clásicos de regresión pueden ser usados para
resolver modelos de diseño siempre que se haga una conveniente utilización de
variables indicadoras. En tales casos, los modelos de regresión pueden ser considerados
como reparametrizaciones del modelo S.
Si se fija un nivel, por ejemplo el nivel a como básico (testigo o control), usualmente
denotado por , se tendrá:
yi j = 0 + 1U i j 1 + 2U i j 2 + + a −1U i j a −1 + i j
Algo semejante puede formularse para otros modelos, pero en este momento no
insistiremos más en el tema.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 118
Los modelos de regresión pueden ser escritos en la forma Y = Uδ + ε de donde se
deducen las ecuaciones normales (U'U)δ = U'Y que permiten la estimación de los
parámetros.
Ejemplo 14
El ejemplo anterior escrito en forma de modelo R tiene la siguiente formulación:
lo que produce:
10 5 4 4 2 1 0 400
5
5 2 1 2 1 11 215
4 2 4 0 2 0 21 168
=
4 1 0 4 0 1 22 146
2 2 2 0 2 0 31 88
1 1 0 1 0 1 32 41
0 127
−84
11
21 −87
y, por tanto: =
22 −92
31 88
32 90
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 119
2
parámetro de no centralidad, está determinado por la esperanza y la varianza del
correspondiente vector Y visto como variable aleatoria de respuesta.
Bajo la hipótesis de que los efectos son nulos, las distribuciones Ji cuadradas no
centrales se convierten en distribuciones Ji cuadradas centrales cuyos grados de libertad
corresponden a los rangos de las matrices proyectoras que las definen. Esto, a su vez,
implica que los cocientes de dos cualesquiera de tales formas cuadráticas, definidas
previamente entre sus grados de libertad, correspondan a una variable aleatoria con
distribución F.
Las sumas de cuadrados divididas entre sus grados de libertad (que realmente son
varianzas) reciben usualmente el nombre de cuadrados medios y el cociente de dos
cuadrados medios cualesquiera es entonces una variable aleatoria con distribución F.
Por lo general se hacen los cocientes tomando como denominador el cuadrado medio
correspondiente a SCE, conformándose con ello una tabla que, por su naturaleza,
recibe el nombre de tabla de análisis de varianza (ANOVA) que en su forma más
general, corresponde a lo siguiente:
El cociente F de la tabla anterior, corresponde al valor particular que toma una variable
aleatoria F que tiene H y E grados de libertad en el numerador y el
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 120
denominador respectivamente, con los valores de respuesta observados. Ella constituye
pieza esencial para probar la hipótesis de que los efectos del modelo son nulos, lo que
en últimas equivale a probar que todos los tratamientos tienen la misma media.
El análisis de varianza es una de las técnicas más populares y usuales para realizar el
análisis de un diseño de experimentos. Sin embargo existen otras técnicas basadas en los
modelos lineales que son más generales y aplicables, por consiguiente, en situaciones en
las que el ANOVA es francamente inapropiado.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 121
Capítulo III
MODELOS LINEALES
GENERALIZADOS
INTRODUCCION
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 122
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 123
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 124
UNIDAD 7
Más adelante se ampliarán algunos conceptos sobre los modelos de conteos que casi
siempre obedecen a modelos con distribuciones Poisson y que con mucha frecuencia
presentan problemas relacionados con la varianza o con la presencia de ceros.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 127
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 128
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 129
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 130
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 131
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 132
Dedicaremos las páginas siguientes al estudio de algunos de los casos más típicos de
modelos lineales generalizados, los que por alguna razón no encajan dentro de los
modelos estudiados en los capítulos estudiados hasta ahora.
0 + 1 xi1 + 2 xi 2 + + p xip i = 1, 2, ,n
3. Una función link o de enlace que es una función del valor esperado de Y ,
= E(Y ) como combinación lineal de las variables predictoras.
En resumen:
Los modelos para datos binaries corresponden a los casos en los que la variable de
respuesta Y tiene dos categorías del tipo SI/NO, Exito/Fracaso, codificadas con 0 y 1.
Es decir, Y ~ b( )=B(1, ) , y, por tanto:
y
f ( y | ) = (1 − )
y 1− y
= (1 − ) = (1 − )Exp y log con y = 0,1
1− 1 −
El parámetro natural es Q( ) = log = log it( ) . En este caso:
1−
1. E(Y ) = P(Y = 1) = (x) , expresion que depende de p variables explicativas
x1 , x2 , , x p
2. V (Y ) = (x)(1 − (x))
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 136
EJEMPLO:
Se han examinado 2374 pacientes y se han clasificado de acuerdo con la intensidad con
que roncan la cual se ha valorado en 0, 2, 4, 5 de acuerdo con lo expresado en la table
siguiente:
PROGRAMA R:
ronca = c(0, 2, 4, 5)
prop.SI = c(24/(24+1355), 35/(35+603), 21/(21+192), 30/(30+224))
modelo = glm(prop.SI ~ ronca)
summary(modelo)
RESULTADOS:
Call:
glm(formula = prop.SI ~ ronca)
Deviance Residuals:
1 2 3 4
0.0010917 -0.0021289 0.0009281 0.0001090
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0163122 0.0015862 10.28 0.00932 **
ronca 0.0203378 0.0004729 43.01 0.00054 ***
EJEMPLO:
Usaremos los mismos datos del ejemplo anterior para formular un modelo de regresión
logística dicotómica.
PROGRAMA EN R:
ronca = c(0, 2, 4, 5)
propor <- cbind(SI = c(24, 35, 21, 30), NO = c(1355, 603, 192, 224))
fit <- glm((propor ~ ronca), family = binomial(link=logit))
summary(fit)
RESULTADOS:
Call:
glm(formula = (propor ~ ronca), family = binomial(link = logit))
Deviance Residuals:
1 2 3 4
-0.8346 1.2521 0.2758 -0.6845
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.86625 0.16621 -23.261 < 2e-16 ***
ronca 0.39734 0.05001 7.945 1.94e-15 ***
(Dispersion parameter for binomial family taken to be 1)
MODELOS PROBIT:
Estos Modelos se obtienen cuando (x) = F (x) , siendo F una función de distribución
de probabilidad. El caso más frecuente ocurre cuando F (x) = (x) , la distribución
normal estándar.
Esto es: ( x) = j xij , o lo que es igual −1 ( (x) ) = j xij . Es decir, la
j j
EJEMPLO:
ronca = c(0, 2, 4, 5)
propor <- cbind(SI = c(24, 35, 21, 30), NO = c(1355, 603, 192, 224))
fit <- glm((propor ~ ronca), family = binomial(link=probit))
summary(fit)
RESULTADOS:
Call:
glm(formula = (propor ~ ronca), family = binomial(link = probit))
Deviance Residuals:
1 2 3 4
-0.6188 1.0388 0.1684 -0.6175
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.06055 0.07017 -29.367 < 2e-16 ***
ronca 0.18777 0.02348 7.997 1.28e-15 ***
Procedimiento GENMOD
Información del modelo
Distribución Poisson
Algoritmo convergido.
Límites de Chi-
Error confianza de cuadrado
Parámetro DF Estimación estándar Wald al 95% de Wald Pr > ChiSq
ANEXO
1. Introducción
Desde este punto de vista podemos esquematizar la situación planteada de acuerdo con
lo siguiente:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 144
Podría pensarse en una clasificación de acuerdo con la forma como sean tomadas las
variables independientes: En los estudios observacionales y exploratorios dichas
variables se toman “como aparezcan”, es decir, no han sido planeadas, ni sus valores
han sido definidos de antemano. Por el contrario en los experimentos diseñados dichas
variables han sido cuidadosamente planeadas de antemano. En cualquiera de los dos
casos se observan los valores de las variables respuestas. En los experimentos
estadísticos o aleatorios dichas respuestas son variables aleatorias. No sucede lo mismo
en la investigación de campos como la física, en la que tales variables son
determinísticas.
Y1 X 1
Y X 2
Y= = f
2
¨= f ( X 1 , X 2 , , X p)
Ym X p
En las que f es alguna función en el sentido matemático. La situación más frecuente
Q
B = 2.3026 donde Q = (n − k ) Log 10 ( S p2 ) − (n j − 1) Log 10 ( S 2j )
C
1 k
(n j − 1) − (n − k )
−1 −1
C = 1+
3(k − 1) j =1
k
1
S p2 =
n−k
(n
j =1
j − 1) S 2j
muestras pueden ser diferentes aunque se recomienda que sean iguales). De esta manera
nj
1
se obtienen estimadores X j =
nj
X
i =1
ji para cada una de las medias k y, a la vez,
nj k nj
de cuadrados, SCB = n ( X ji − X ) , 2
y SCW = ( X ji − X j ) 2 , llamadas
i =1 j =1 i =1
Se puede probar que SCB ~ k −1 , SCW ~ k ( n −1) y, de aquí, SCT tiene distribución Ji-
Si las sumas de cuadrados anteriores se dividen entre los grados de libertad se obtienen
los cuadrados medios, CMB y CMW respectivamente, los cuales realmente representan
varianzas y para los que se cumple:
k
ni
E(CMB) = 2 + ( i − ) 2 y E(CMW ) = 2
i =1 k −1
Como se desprende de las expresiones anteriores, cuando las medias de los tratamientos
son iguales entre sí e iguales a la media general, se cumple que
E(CMB) = E(CMW ) = 2 . Y, por tanto, en tales circunstancias, tanto CMB como CMW
SCB
son estimadores insesgados de la varianza. Además F =
CMB
= k −1 es una
CMW SCW
k (n − 1)
variable aleatoria con distribución F de k − 1 y k (n − 1) grados de libertad.
Error o
DENTRO SCW k (n − 1) CMW = SCW
k (n − 1)
TOTAL SCT n −1
Tabla de un análisis de varianza para un diseño aleatorio completo
Es conveniente saber que tanto las medias por tratamiento como las diferencias de
medias pueden estimarse de acuerdo con las siguientes fórmulas:
Ti s2
1. Intervalos para la media de cada tratamiento: t
ni n − k , 2 ni
T Tj 1 1
2. Intervalos para diferencias de medias: i − t n −k , s +
n n n nj
i j 2
i
EJEMPLO 4.1: Este ejemplo ha sido tomado del texto de Kuehl y se basa en datos de
B. Nichols (Universidad de Arizona 1980). Es un ejemplo interesante debido a los
elementos tanto teóricos como prácticos que involucra. Se trata de comparar cuatro
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 150
métodos de empaque de carnes para determinar cuál de ellos es más efectivo. Los
métodos de empaque (tratamientos) son los siguientes:
Tr1: Envoltura en papel plástico especial
Tr2: Empaque en bolsas selladas al vacío
Tr3: Empaque en atmósfera de CO2 (1%), O2 (40%) y N (59%)
Tr4: Empaque en atmósfera de CO2 (100%)
Los datos correspondientes a las mediciones de contaminación por bacterias son los
siguientes:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 151
Tratam 1 Tratam 2 Tratam 3 Tratam 4
Plástico Vacío Co2 O2 N CO2
Con el fin de poder analizar los datos mediante software estadístico (ESM en este caso),
los datos deben ser dispuestos en un archivo en la forma siguiente:
7.66 1
6.98 1
7.80 1
5.26 2
5.44 2
5.80 2
7.41 3
7.33 3
7.04 3
3.51 4
2.91 4
3.66 4
Este archivo contiene los valores observados de la variable respuesta más un rótulo que
identifica el tratamiento correspondiente. Esta última columna conforma la variable
independiente o de tratamientos.
----------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
----------------------------------------------------------------------------
Modelo 32.8728 3 10.9576 94.5844
Error 0.9268 8 0.1158 *****
Total 33.7996 11 ***** *****
---------------------------------------------------------------------------
R2 = .972579 F tiene 3 y 8 Grados de libertad
Valor P de probabilidad: 0.00003000
Resultado del análisis de varianza del ejemplo 4.1
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 152
Antes de entrar a comparar las diferentes medias de tratamientos debemos verificar que
se cumplan las hipótesis básicas del modelo: homogeneidad de las varianzas y
normalidad de los residuos.
B = 1.207904
P = 0.75110913
Tabla 4.4 Prueba de homogeneidad de varianza del ejemplo 4.1
xij = + ( i − ) + ( xij − i )
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 153
siendo xij la j-ésima observación del i-ésimo tratamiento, μ la media general y i
consecuencia, al utilizar las medias proporcionadas por los datos se pueden tener
estimaciones de los efectos y de los errores respectivamente mediante las expresiones:
ˆi = xi − x y ˆij = xij − xi . Estos últimos valores se conocen como residuos.
En teoría los errores deben tener distribución normal para que el modelo sea apropiado.
El cumplimiento de este supuesto se verifica utilizando los residuos como estimaciones
de los errores, ya que ellos constituyen la única información tangible acerca de los
errores de ajuste de los datos al modelo.
Este cuadro proporciona los valores estimados de las medias por tratamiento, junto con
los errores estándar y el intervalo del 95% de confianza para cada caso.
Sobre estos valores debe realizarse una prueba de normalidad. En nuestro caso, la
prueba de Geary arroja los siguientes resultados:
Número de observaciones: 12
El valor P de 0.17204, al ser mayor que el nivel de significancia 0.05, no nos permite
rechazar la hipótesis nula. En consecuencia, los residuos se ajustan a una distribución
normal y entonces, el modelo cumple con los supuestos básicos para una correcta toma
de decisiones.
Una primera herramienta muy popular para realizar estas comparaciones la constituyen
los intervalos de confianza para las medias obtenidos anteriormente. Cuando dos
intervalos se intersecan las medias de los respectivos tratamientos no difieren
significativamente. Por el contrario, intervalos disjuntos corresponden a medias que
difieren significativamente; y será mayor la media correspondiente al intervalo situado
más a la derecha.
En el ejemplo que estamos presentando los intervalos para las medias de los
tratamientos son respectivamente:
Tr1: (7.02 , 7.93)
Tr2: (5.05 , 5.96)
Tr3: (6.80 , 7.71)
Tr4: (2.91 , 3.81)
Una gráfica aproximada de los intervalos del 95% de confianza para las medias de los
tratamientos es la siguiente:
En ella puede observarse que los intervalos correspondientes a los tratamientos Tr1 y
Tr3 son intersecantes lo que significa que entre ellos no hay diferencias significativas.
Por otra parte a ellos corresponden los intervalos situados más a la derecha lo que
significa que sus medias son las de mayor valor. Es decir, en este caso corresponden a
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 157
los métodos de empaque menos efectivos. Se puede observar que la menor media
corresponde al tratamiento Tr4, el cual difiere significativamente de los demás. Este es
el tratamiento que produce mejores resultados. Es decir, de acuerdo con este método de
comparación, el mejor sistema de empaque es una atmósfera al 100% de CO2. Los
peores métodos de empaque son envolturas en plástico y empaque en atmósfera
CO2+O2+N que prácticamente no presentan diferencias. El empaque al vacío presenta
una efectividad intermedia.
Este método de comparación es muy simple pero tiene la desventaja de que exige
numerosos cálculos ya que se deben realizar k(k -1)/2 comparaciones de medias. En el
ejemplo que venimos presentando se requieren 6 comparaciones. ESM realiza los
diferentes cálculos como se ve a continuación (en este caso el archivo de salida se ha
editado para dejar solamente los LSD correspondientes al 5% de significancia):
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 158
COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS SIGNIFICATIVAS (LSD):
Ho: μ(i)= μ(j) H1: μ(i) <> μ(j) *DS* = Difieren signif. *ND* = No dif
Como puede observarse los resultados coinciden con lo calculado anteriormente aunque
es menos evidente la interpretación.
s2 1 1
xi − x j + qk , , DHS(k , E ) donde DHS(k , E ) = + y qk , , es un
2 ni n j
valor que depende del nivel mínimo de significancia E , de los grados de libertad ν
0.116 2
qk , , = q4, 8, 0.05 = 4.53 , DHS(k , E ) = 4.53 = 0.8907
2 3
En consecuencia:
4.3 Contrastes
k
escalares i satisfacen i =1
i =0.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 160
práctica sólo son fracciones sencillas que, por lo general, se reducen a números enteros
multiplicándolas por una cantidad conveniente: casi siempre por el mínimo común
múltiplo de sus denominadores.
Por ejemplo, en el caso de empaques de carnes, si quisiéramos comparar los efectos del
empaque plástico frente a los de los demás tratamientos, un contraste adecuado sería:
1
C1 = 1 − ( 2 + 3 + 4 ) . Igualmente el contraste que permite comparar el empaque al
3
1
vacío frente a los empaques con gases sería: C2 = 2 − ( 3 + 4 ) y el que permite
2
comparar el empaque en una atmósfera, mezcla de gases, frente al empaque con CO2
puro, sería C3 = 3 − 2 . Los dos primeros contrastes de estos ejemplos también pueden
escribirse como C1 = 31 − 12 − 13 − 14 y C2 = 01 + 22 − 13 − 14 . De igual
alternativa
H1 : Ci 0 .
k
CM Contraste x i i
El estadístico de prueba está dado por FC = donde CM Contraste = i =1
y
k
i
n
CM Error
i =1 i
CM Error = s 2 . El estadístico FC tiene distribución F1, n−k , lo que puede ser aprovechado
k
i
varianza es V(C ) = s 2 lo que permite construir intervalos de confianza para el
i =1 ni
Una expresión interesante, como se verá luego, es la suma de cuadrados del contraste,
2
k
i xi
dada por SS(C ) = i =k1 .
nii
i =1
En el ejemplo de las carnes que hemos estado analizando, los tres contrastes
presentados anteriormente, junto con sus estadísticos de prueba y los correspondientes
valores P, se resumen en la siguiente tabla:
Nótese que el valor P, demasiado pequeño, nos lleva al rechazo de la hipótesis nula de
que este contraste vale cero. Esto se confirma al observar los intervalos de confianza. En
particular, el intervalo del 95% de confianza, situado a la derecha del cero, muestra que
el contraste es positivo. Esto es: C3 0 . De aquí se deduce que 3 4 . Es decir, el
promedio de bacterias en la carne al empacar en una atmósfera que es mezcla de gases,
es mayor que el promedio de bacterias al empacar en una atmósfera de CO2 puro.
VALOR P: 0.000020
Los contrastes ortogonales son interesantes entre otras cosas porque sus sumas de
cuadrados proporcionan una descomposición de la suma de cuadrados de los
tratamientos. Por ejemplo, las sumas de cuadrados de los tres contrastes ortogonales
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 163
dados anteriormente para el ejemplo 6.1 son respectivamente: 9.9856, 0.0722 y
22.8150, valores cuya suma es 32.8728, exactamente el valor de la suma de cuadrados
de tratamientos (modelo) arrojado por la tabla anova.
resumida en lo siguiente:
Las observaciones de las diferentes muestras se reúnen en una sola gran muestra, dentro
de la cual se asignan rangos que luego se separan dentro de cada tratamiento según a
donde pertenezca la respectiva observación. De esta manera se pueden obtener las
sumas de rangos por tratamiento T j para j = 1, 2,3 k , como se muestra en la tabla
siguiente:
T1 T2 ... Tk
Tabla 4.13 Transformación de rangos para una prueba de Kruskall y Wallis
12 k T j
2 k
H = − 3(n + 1)
n(n + 1) j =1 n j
donde n = n j
j =1
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 164
De acuerdo con lo anterior se rechaza la hipótesis de igualdad de las medianas cuando el
estadístico H determine un valor P muy pequeño bajo una Ji-cuadrado con k − 1 GL.
Se debe tener en cuenta, sin embargo, que la técnica no paramétrica aquí mencionada no
proporciona herramientas de comparaciones múltiples. En caso de rechazo de la
hipótesis nula, tales pruebas se hacen con base en los intervalos de confianza para las
medias o para las diferencias de medias lo que implica que también debe realizarse tales
cálculos paramétricos tal y como fueron expuestos anteriormente.
El problema se analiza proponiendo como hipótesis nula que estas temperaturas sí son
iguales y luego se decidirá si se rechaza o no esta hipótesis. En ESM se obtiene la salida
que se presenta en la página siguiente.
Como puede apreciarse en dicha salida, el análisis dice que no existen diferencias entre
las temperaturas de los diferentes tipos de terreno. Sin embargo esta conclusión es
dudosa ya que no se cumplen los supuestos para que el análisis de varianza sea
confiable: No se puede garantizar la homogeneidad de las varianzas en los tres grupos y
los residuos del modelo no son normales. Este es un ejemplo que debiera ser analizado
además mediante el método no paramétrico que se expondrá más adelante.
____________________________________________________________________
PRUEBAS DE NORMALIDAD E IGUALDAD DE VARIANZA
______________________________________________________________________
Numero de observaciones: ...................... 150
Numero de tratamientos: ....................... 3
Suma total de observaciones: .................. 2753
Media general de las observaciones: ........... 18.35333333333333
Suma de cuadrados de observaciones: ........... 53713
Corrección para la media: ..................... 50526.72666666667
Suma de cuadrados corregida: .................. 3186.273333333331
______________________________________________________________________
TABLA ANOVA:
----------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
----------------------------------------------------------------------------
Modelo 15.0790 2 7.5395 0.3495
Error 3171.1944 147 21.5728 *****
Total 3186.2733 149 ***** *****
---------------------------------------------------------------------------
R2 = 4.732E-003 F tiene 2 y 147 Grados de libertad
Valor P de probabilidad: 0.71089000
Valor exacto del CME = 21.57275085940558
____________________________________________________________________
PRUEBAS DE NORMALIDAD E IGUALDAD DE VARIANZA
TABLA ANOVA:
----------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
----------------------------------------------------------------------------
Modelo 0.2399 2 0.1200 2.5155
Error 7.0105 147 0.0477 *****
Total 7.2505 149 ***** *****
---------------------------------------------------------------------------
R2 = 3.3091E-002 F tiene 2 y 147 Grados de libertad
Valor P de probabilidad: 0.08232000
Valor exacto del CME = 4.769077018326961E-002
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 167
B = 0.734351
P = 0.69268793
Tratamiento: 2 VS Tratamiento: 1 :
Razón de Varianza: 1.2931 P = 0.2083200 GL: 66 y 34
Tratamiento: 3 VS Tratamiento: 1 :
Razón de Varianza: 1.2384 P = 0.2588600 GL: 47 y 34
Tratamiento: 3 VS Tratamiento: 2 :
Razón de Varianza: 1.0441 P = 0.4429700 GL: 66 y 47
Como se ve, en este caso se cumplen los supuestos y además se concluye que el terreno
con mayor índice de hembras es el terreno plano, cuyas diferencia con el quebrado no es
significativa.
La correspondiente tabla ANOVA tiene el aspecto que muestra la tabla 6.15, donde
T2
C= (valor que se conoce como corrección por la media) y donde T*i , i = 1,2,..., b
kb
son los totales marginales para los bloques (por filas); T j*, j =1, 2,..., k son los totales
Como puede apreciarse, en este caso aparecen dos valores de F, uno para tratamientos
(Ft) y el otro para bloques (Fb). Se pueden probar dos hipótesis, a saber:
En primer lugar la hipótesis nula de que no hay diferencias significativas entre la medias
de los tratamientos, es decir: H0: 1 = 2 = = k , hipótesis que se prueba contra la
alternativa de que no todas las medias son iguales. Esta hipótesis se prueba con la F de
tratamientos (Ft) que tiene distribución con k − 1 y (k − 1)(b − 1) grados de libertad. El
rechazo de esta hipótesis obliga a realizar comparaciones múltiples para determinar el
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 170
orden de las medias y de esta manera averiguar cuál es el mejor tratamiento (o el peor) y
cuales no difieren entre sí. El criterio LSD sigue siendo el mejor en este caso.
k b
En segundo lugar, se puede probar la hipótesis de que no hay diferencias entre las
medias de los bloques. Esta se prueba con la F de bloques (Fb) que tiene b − 1 y
(k − 1)(b − 1) grados de libertad. Sin embargo esta hipótesis es secundaria ya que si el
experimento ha sido bien diseñado, tales medias por principio deben ser diferentes.
ESM realiza la prueba anterior junto con los cálculos necesarios para aplicar los
criterios LSD y comparaciones múltiples mediante intervalos de confianza, para lo cual
es necesario que los datos se encuentren en una única columna y que existan dos
columnas adicionales de tipo categórico, con códigos numéricos, que identifiquen el
tratamiento y el bloque al que pertenece cada observación.
El cuadrado medio esperado para tratamientos en un diseño de dos vías está dado por la
b k
expresión E(CMTr) = 2 +
k − 1 i =1
( i − ) 2 , lo que prueba que bajo la hipótesis nula
de que las medias de tratamientos son iguales, el cuadrado medio de tratamientos es una
estimación de la varianza y puede aplicarse el argumento presentado en el diseño de una
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 171
vía para determinar por qué la prueba F permite decidir si se cumple o no la igualdad
de medias en los tratamientos.
b(k − 1) CMB
Si designamos por c = , la expresión ER = (1 − c) + c es conocida como
bk − 1 CME
eficiencia relativa y mide la eficiencia que presenta el diseño de dos vías sobre el diseño
de una vía. El diseño de dos vías es más eficiente que el de una vía siempre que
ER 1 .
Cuando no sean aplicables los procedimientos anteriores bién sea porque se violan los
supuestos de normalidad o porque los tamaños de muestra son extremadamente
pequeños, es posible recurrir a la prueba no paramétrica de Friedman que es el
correspondiente sustituto para el ANOVA de los diseños de dos vías. Sin embargo se
debe tener presente que esta prueba por lo general tiene menos potencia que la prueba
paramétrica y en consecuencia es posible que muestre no diferencias de medias entre
tratamientos cuando realmente estos sí difieran.
Para la prueba de Friedman se asignan rangos a las observaciones de cada bloque (fila
por fila) y luego se suman los rangos correspondientes a cada tratamiento. De esta
manera se obtienen k sumas de rangos T1 , T2 , T3 , Tk con los cuales se construye el
12 k 2
S= T j − 3b(k + 1)
bk (k + 1) j =1
Friedman demostró que bajo la hipótesis nula de no diferencias entre las medias de
tratamientos, este estadístico tiene distribución asintótica Ji-cuadrado con k − 1 grados
de libertad. En consecuencia, un valor grande de S, es decir un pequeño valor P bajo
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 172
esta distribución, indica que la hipótesis nula es falsa y que, por tanto, debe ser
rechazada.
De acuerdo con lo anterior se puede afirmar que un experimento diseñado puede ser
estudiado como un caso de superficies (o curvas) de respuesta, tambíén podría
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 174
corresponder al estudio de modelos lineales generales e incluso podría corresponder a
casos de modelos no lineales (cuando la función de enlace f no sea lineal). Desde este
punto de vista, el estudio de la información de un experimento diseñado suele recurrir a
herramientas matemáticas (principalmente cálculo y álgebra lineal) para su análisis.
El número de réplicas mínimo por tratamiento no puede ser arbitrario. Dependiendo del
nivel de significancia al que se desee realizar el experimento, de la precisión de las
estimaciones y de la dispersión de las respuestas se debe calcular un mínimo de réplicas
( )
2 2
Conviene llamar la atención sobre el siguiente hecho importante: para calcular los
tamaños de muestra en cada tratamiento (número de réplicas) se fija un valor de
significancia α el cual determina el cuantil z que se usa en la fórmula anterior. Esto
2
implica que para otro nivel de significancia menor que el anterior, el correspondiente
cuantil sea mayor y por tanto que se requiera un mayor tamaño de muestra, es decir,
mayor número de réplicas. En consecuencia, las conclusiones que se obtengan para el
nivel de significancia α posiblemente no sean válidas para niveles de significancia
inferiores. Es un error entonces, sacar conclusiones sin haber verificado previamente
que el número de réplicas del experimento es suficiente para ello.
En general los diseños de experimentos deben satisfacer ciertos supuestos bajo los
cuales han sido desarrollados los principios teóricos que los sustentan. El cumplimiento
de estos supuestos garantiza la validez de los resultados y, por ello, debe ser verificado
cada vez que se analice un experimento. Son cuatro los supuestos más importantes que
se debe cumplir en un diseño: 1) Aditividad de los efectos lo que implica ausencia de
interacción. 2) Independencia de los términos de error 3) Normalidad de los errores y
4) Homogeneidad de la varianza de los términos de error sin importar la magnitud de
los efectos.
La violación fuerte de la normalidad afecta la validez de las pruebas F pues en tal caso
no se cumple en general que los cuadrados medios tengan distribuciones Ji cuadrado
independientes. Las inferencias que se realicen respecto a las medias en poblaciones no
normales siguen siendo válidas siempre que se utilicen muestras grandes. Esto,
s2
infortunadamente, no funciona con las varianzas pues en tales casos la varianza de
2
se incrementa en un factor proporcional a la curtosis afectando seriamente los niveles de
potencia, calculados bajo el supuesto de normalidad. Este problema tiene un impacto
menor cuando se usan muestras del mismo tamaño para todos los tratamientos (es decir,
en todas las celdas).
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 179
La falta de independencia de los términos de error se presenta cuando las
observaciones presentan correlación serial Por ejemplo, si cada observación presenta
con la siguiente una correlación ρ (autocorrelación de primer orden) entonces se
cumple:
2 1 2
E( x ) = , V( x ) = 1 + 2 (1 − ) y E (s 2 ) = (1 − 2 )
n n n
lo que hace que los intervalos de confianza calculados por los métodos corrientes no
cubran el verdadero valor de la media en los niveles de probabilidad para el cual se
construyen. Por ejemplo, para ρ = 0.5 la probabilidad de 0.95 se reduce drásticamente a
0.166. Esto da una idea del impacto negativo que puede traer la falta de independencia
entre las observaciones de los tratamientos. Los problemas son mucho más graves
cuando existen autocorrelaciones de primero y otros órdenes.
Al diseñar un experimento resulta difícil aislar completamente una única causa (variable
independiente) como responsable de los efectos que se producen en un fenómeno. Por lo
general dichos efectos son producidos en mayor o menor grado por un sinnúmero de
factores y, es un verdadero arte determinar cuáles de ellos son los más importantes. Es
evidente que al diseñar un experimento con demasiados factores activos los costos y las
dificultades teóricas de análisis pueden ser enormes. Por esta razón se busca reducir el
número de factores activos y controlar o eliminar la mayor parte de factores externos
(exógenos) que puedan causar interferencia. En la práctica se suelen admitir dos o tres
factores activos. Muy excepcionalmente, otros números, y casi nunca más de cinco.
cada uno de los ab tratamientos (combinaciones de los niveles) hay r réplicas y que
todas ellas han proporcionado una respuesta al final del experimento. Se tienen
entonces abr valores reales correspondientes a las respuestas de las correspondientes
unidades experimentales observadas, las cuales corresponden a la siguiente
representación del diseño:
Factor F2
Nivel 1 Nivel 2 … Nivel b
Nivel
1 y111 , y112 , , y11r y121 , y122 , , y12 r … y1b1 , y1b 2 , , y1br
2 y211 , y212 , , y21r y221 , y222 , , y22r … y2b1 , y2b 2 , , y2br
F1
… … … … …
a ya11 , ya12 , , ya1r ya 21 , ya 22 , , ya 2 r … yab1 , yab 2 , , yabr
Tabla 4.16 Disposición de los datos para un diseño de dos factores
Este diseño corresponde a un modelo estadístico de la forma yijk = ij + ijk donde i =
b
Suma de cuadrados para F2: SC 2 = ra ( y. j . − y... ) 2
j =1
a b
Suma de cuadrados para interacciones: SC12 = r ( yij . − yi.. − y. j. − y... ) 2
i =1 j =1
La interacción puede definirse por ij − i. − . j + ... . Las interacciones, cuando existen,
hacen que la respuesta a los tratamientos no sea dada exclusivamente por la suma de los
efectos de cada factor sino que parte de esa respuesta se debe a la interacción de los
factores. En otras palabras los efectos de los factores son aditivos en ausencia de
interacción.
Las sumas de cuadrados son variables aleatorias cuyas distribuciones como las de todas
las sumas de cuadrados son distribuciones Ji cuadrado con ciertos grados de libertad
dados de acuerdo con la siguiente tabla de análisis de varianza
1 a 1 a
Donde 12 =
a − 1 i =1
( i. − ... )2 , 22 =
b − 1 i =1
( . j − ... )2 ,
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 183
a
1
y 122 =
(a − 1)(b − 1) i =1
( ij − i. − . j + ... )2 ,
En efecto:
1.30 1 1 1
2.88 1 1 2
2.42 1 1 3
2.66 1 1 4
2.94 1 1 5
0.90 1 2 1
1.06 1 2 2
0.98 1 2 3
1.29 1 2 4
1.12 1 2 5
1.01 2 1 1
1.52 2 1 2
1.02 2 1 3
1.32 2 1 4
1.63 2 1 5
0.83 2 2 1
0.67 2 2 2
0.57 2 2 3
0.47 2 2 4
0.66 2 2 5
Tabla 4.19 Disposición de los datos del ejemplo 4.5 para análisis con software
Nótese cómo los niveles de los factores se han identificado con los códigos
1 y 2. En general es buena recomendación utilizar dígitos consecutivos para
identificar los niveles de los factores. El análisis realizado con ESM
produce los siguientes resultados
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 186
TABLA ANOVA:
-------------------------------------------------------------------
FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F
-------------------------------------------------------------------
F1 3.08 1 3.08 21.704
F2 5.15 1 5.15 36.285
F1*F2 0.63 1 0.63 4.439
Error 2.27 16 0.14 *******
TOTAL 11.13 19 ********* *******
-------------------------------------------------------------------
El programa también estima los efectos de cada uno de los factores y las estimaciones,
pero estas salidas han sido suprimidas para mayor sencillez.
Como puede observarse el valor F para interacción es 0.439 que corresponde un valor P
de 0.0489 el cual, por ser muy cercano a 0.05, puede considerarse como no
significativo. Esto quiere decir que podríamos considerar que el modelo no tiene
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 187
interacción y, en consecuencia, es un modelo aditivo, así que podemos confiar en las
deducciones acerca de las medias. Puesto que tanto la F del factor F1 como la del factor
F2 son significativas por arrojar valores P muy pequeños (menores que 0.05)
concluímos que hay diferencias significativas entre los promedios de los niveles de
cada factor.
Los residuos que fueron calculados por el programa se pueden usar para realizar con
ellos una prueba de validez del modelo. Deben tener distribución normal para que el
modelo cumpla con los supuestos. En este caso la prueba de Geary arroja un valor P de
0.005036 por lo que se puede concluir que el modelo presenta un problema de
normalidad.
CME 1 1 0.14 1 1
qk , , + = 3.64 + = 0.61
2 ni n j 2 5 5
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 188
Puesto que y11 − y12 = 2.44 − 1.07 = 1.37 es un valor mayor que 0.61, se
concluye que sí hay diferencias significativas entre las medias de estos dos
tratamientos.
Nótese que, en cambio, y12 − y22 = 1.07 − 0.64 = 0.43 es un valor menor que
0.61 lo que nos dice que entre los tratamientos CELDA(1,2) y CELDA(2,2),
Para el análisis estadístico con ESM se crea un archivo de datos en el que cada una de
las 72 observaciones se escribe acompañada de cuatro identificadores según el nivel
de cada factor y el número de réplica. Es decir, dicho archivo está conformado por una
variable de respuesta y cuatro variables categóricas de identificación. Los resultados
obtenidos están consignados en la salida de la página siguiente.
Como puede apreciarse en este ejemplo las interacciones son significativas lo que hace
que el modelo no sea aditivo. Este resultado dificulta los análisis pues ahora no se puede
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 191
estar seguro sobre las pruebas de comparaciones de medias ni en los niveles de los
factores ni en los diferentes tratamientos.
N I V E L D E A G U A = F1
1 = Bajo 2 = Medio 3 = Alto
F2 = Temperatura F2 = Temperatura F2 = Temperatura
Tipo de Planta 1 2 3 1 2 3 1 2 3
F3 15° 18° 21° 15° 18° 21° 15° 18° 21°
69.1 87.3 72.3 80.4 93.1 94.3 100.1 121.2 100.1
Sin Hojas 70.2 80.1 73.1 83.5 88.6 96.1 97.3 120.5 98.3
P 68.3 78.6 74.1 84.1 90.2 96.5 90.6 119.3 103.1
L 1 72.1 74.3 72.6 79.6 101.3 91.4 94.1 115.6 92.1
A
N 68.0 74.3 73.4 81.5 90.8 96.7 89.6 96.2 98.1
Con Hojas 66.5 72.1 74.2 82.5 91.3 92.3 90.2 101.3 99.6
T 68.9 75.0 71.8 84.6 92.0 94.1 91.3 99.6 95.4
A 2 71.1 70.3 72.1 78.1 93.1 95.2 90.0 100.2 98.6
Tabla 4.21 Datos para el ejemplo 4.6
TABLA ANOVA:
---------------------------------------------------------------------
FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F
---------------------------------------------------------------------
F1 (A) 9029.73 2 4514.86 544.144
F2 (B) 1607.95 2 803.97 96.897
F3 (C) 286.00 1 286.00 34.470
A*B 469.45 4 117.36 14.145
A*C 200.49 2 100.24 12.082
B*C 285.41 2 142.70 17.199
A*B*C 180.01 4 45.00 5.424
Error 448.05 54 8.30 *******
TOTAL 12507.08 71 ********* *******
---------------------------------------------------------------------
(A) = AGUA: P = 0.000000 F( 2 , 54 )
(B) = TEMP: P = 0.000000 F( 2 , 54 )
(C) = TIPO: P = 0.000010 F( 1 , 54 )
Interacción (A)*(B): P = 0.000000 F( 4 , 54 )
Interacción (A)*(C): P = 0.000140 F( 2 , 54 )
Interacción (B)*(C): P = 0.000020 F( 2 , 54 )
Interac (A)*(B)*(C): P = 0.001250 F( 4 , 54 )
ESTIMACIONES:
Ejemplo 4.7: los datos siguientes representan los registros de producción de una
empresa que ha estado ensayando diferentes políticas de trabajo entre sus empleados. El
diseño muestra los resultados al implementar dos jornadas de trabajo, una de 10 horas
diarias y otra de 8 horas diarias (4 días a la semana y 5 días respectivamente), dos
turnos, uno diurno y otro nocturno y tres alternativas de descanso en cada jornada: uno
con un solo descanso a la mitad de la jornada, otro con dos desacansos en la jornada y
otro con tres descansos. El diseño es entonces un factorial 2 2 3 con dos réplicas en
el que los factores son respectivamente: jornadas, turnos y descansos.
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 193
Turno diurno Turno nocturno
(1) (2)
Descansos Descansos
Jornada 1 2 3 1 2 3
(2) 96 100 82 81 90 94
8 horas 92 103 88 84 92 96
Tabla 4.22 Datos para el ejemplo 4.7
94 1 1 1 1
97 1 1 1 2
105 1 1 2 1
106 1 1 2 2
96 1 1 3 1
91 1 1 3 2
90 1 2 1 1
89 1 2 1 2
102 1 2 2 1
97 1 2 2 2
103 1 2 3 1
98 1 2 3 2
96 2 1 1 1
92 2 1 1 2
100 2 1 2 1
103 2 1 2 2
82 2 1 3 1
88 2 1 3 2
81 2 2 1 1
84 2 2 1 2
90 2 2 2 1
92 2 2 2 2
94 2 2 3 1
96 2 2 3 2
Tabla 4.23 Disposición de datos ejemplo 4.7 para análisis con ESM
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 194
Parte del archivo de resultados arrojado por ESM (se han omitido las estimaciones de
los efectos) es lo siguiente:
TABLA ANOVA:
---------------------------------------------------------------------
FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F
---------------------------------------------------------------------
F1 (A) 204.17 1 204.17 29.878
F2 (B) 48.17 1 48.17 7.049
F3 (C) 334.08 2 167.04 24.445
A*B 8.17 1 8.17 1.195
A*C 8.08 2 4.04 0.591
B*C 385.58 2 192.79 28.213
A*B*C 21.58 2 10.79 1.579
Error 82.00 12 6.83 *******
TOTAL 1091.83 23 ********* *******
---------------------------------------------------------------------
(A) = JORNAD: P = 0.000290 F( 1 , 12 )
(B) = TURNOS: P = 0.020060 F( 1 , 12 )
(C) = DESCAN: P = 0.000160 F( 2 , 12 )
Interacción (A)*(B): P = 0.296090 F( 1 , 12 )
Interacción (A)*(C): P = 0.573050 F( 2 , 12 )
Interacción (B)*(C): P = 0.000100 F( 2 , 12 )
Interac (A)*(B)*(C): P = 0.245510 F( 2 , 12 )
ESTIMACIONES:
ECM 1 1
= qk , ,0.05 + = 3.48 , valor que se compara con las diferencias entre
2 ni n j
medias como lo sugiere el siguiente cuadro:
Este cuadro muestra que la diferencia entre los niveles 1 y 3 no es significativa pues es
menor que , mientras que la diferencia entre los niveles 3 y 2 –y por consiguiente
entre los niveles 1 y 2- sí es significativa ya que ella es mayor que . En este caso la
conclusión es que resulta mejor otorgar dos descansos en la jornada y que no hay
diferencias entre uno y tres descansos.
Tratam.
Celda: 1,2,1 1,1,3 1,1,1 1,2,2 1,2,3 1,1,2
Media 89.5 93.5 95.5 99.5 100.5 105.5
Diferencia 4.0 2.0 4.0 1.0 5.0
Los grados de libertad del error y el valor de ECM son los mismos de antes, así que
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 197
q2, 12, 0.05 = 4.75 y, por tanto, = 8.77 . Seleccionamos el primer par de celdas que
difieran por una cantidad mayor que 8.77, en este caso las celdas 121 y 122. Entonces
los tratamientos 121, 113 y 111 no difieren entre sí. 111, 122 y 123 tampoco difieren
entre sí y finalmente 122, 123 y 112 tampoco difieren entre sí. Si dos tratamientos no
difieren entre sí entonces dos tratamientos cualesquiera comprendidos entre ellos
tampoco difieren. Esto permite señalar las medias que no difieren como se indica en el
siguiente cuadro.
En esta tabla cualesquiera dos medias o tratamientos unidos por la misma letra (es decir,
con el mismo vínculo) no presentan diferencias significativas.
Muy brevemente se hará una referencia a los diseños factoriales de efectos aleatorios ya
mencionados anteriormente. Estos diseños se usan para estudiar el comportamiento de
la variabilidad y en qué medida ella contribuye a los efectos de los tratamientos.
Si a2 = 0 entonces los efectos de los tratamientos son iguales pero si a2 > 0 existe
variabilidad entre ellos. En este último caso la diferencia entre los efectos de los
tratamientos puede deberse a la variabilidad entre las observaciones.
Tabla 4.27 Tabla ANOVA para un diseño de efectos aleatorios en una vía
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 199
Con la información proporcionada por esta tabla se prueba la hipótesis nula H0 : a2 = 0
distribución Fk −1,n −k .
ni a2 + 2 = CMtr
= CMerr
2
CMtr − CMerr
cuya solución está dada por a2 = y 2 = CMerr
ni
En algunos casos especiales estas soluciones pueden resultar extrañas pues pueden
aparecer valores negativos los cuales no tienen una interpretación clara. Existen otros
métodos de estimación que no se estudian en esta obra.
CMtr − CMerr 1 k
ni2
a2 se estima por a2 = donde r0 = .
n −
r0 k −1 i =1 n
a2
Se define el coeficiente de correlación intraclase como I = , el cual varía
a2 + 2
1
entre − y 1 (en diseños balanceados). Si I es grande el afecto aleatorio común
r −1
a un grupo afecta por igual a todos los individuos de ese grupo, de manera que la
similitud entre individuos es mayor dentro del mismo grupo que entre los individuos de
grupos diferentes. Esto se debe a que la varianza residual es muy pequeña frente a la
varianza entre clases. Por el contrario, si I es pequeño existe disimilaridad entre los
individuos de cada grupo lo que dice que la diferencia de medias puede deberse a la
variabilidad interna de los grupos. Por ejemplo, en un problema de dietas los recursos
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 200
nutritivos pueden causar disparidad de crecimiento dentro de cada grupo. Esto puede
suceder, por ejemplo, si los individuos más vigorosos y agresivos toman la mayor parte
de dicho recurso.
Ejemplo 4.8: En un estudio de genética con reses, varios machos se aparearon con
grupos diferentes de hembras. Si nacían terneros (machos) se usaban en un estudio de
pesos hereditarios. La tabla siguiente muestra el peso al nacer de 8 terneros por cada
uno de los 5 grupos usados en el estudio.
Resultados:
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 201
dentro de los grupos hay mucha disimilaridad. Esto implica que de existir diferencias
en las medias de los tratamientos, dicha diferencia podría estar ocasionada por la
variabilidad interna de los grupos.
BIBLIOGRAFIA
8. FARAWAY J.J; Linear Models with R. Chapman & Hall / CRC. 2009
9. STAPLETON J.H.; Linear Statistical Models. John Wiley & Sons. 1995
10. KUTNER M. et al. Applied Linear Statistical Models. McGraw- Hill. 2005
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 203
ANEXO
120 100 15 1 2 14 12 75 1 1 1 6
458 360 21 1 2 25 124 58 2 2 1 1
148 140 18 2 1 18 15 125 2 2 1 2
200 160 25 2 2 25 14 200 2 2 2 3
150 76 21 2 1 24 18 157 1 1 1 3
400 320 25 2 1 33 19 42 1 1 1 4
150 98 20 3 1 24 25 15 1 1 2 1
125 105 21 2 1 7 54 6 3 1 2 4
250 200 15 3 2 25 55 25 3 1 2 4
145 125 18 2 2 21 12 158 3 1 2 1
400 375 14 1 2 26 6 145 3 1 2 1
75 68 19 2 1 23 24 162 3 2 1 4
25 22 18 2 2 30 78 145 3 2 2 2
162 145 14 3 1 25 125 45 3 2 2 2
185 164 15 1 1 54 14 25 2 2 2 3
220 210 16 1 2 24 7 28 2 1 2 5
150 140 12 1 2 15 25 145 2 1 1 2
220 200 17 2 2 25 14 25 1 1 1 6
250 125 21 1 2 26 16 158 1 1 1 6
145 120 25 2 2 25 25 200 1 2 2 2
200 78 24 1 1 24 89 125 1 2 2 4
230 170 28 3 1 12 35 456 2 2 2 2
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 204
148 68 26 3 1 32 47 25 1 2 2 5
205 145 25 3 1 25 45 145 2 2 1 1
420 300 21 2 1 21 48 13 2 1 1 3
358 260 20 2 1 24 21 15 1 1 1 2
320 150 24 1 1 28 25 258 2 1 1 1
180 120 25 2 1 14 24 25 2 2 2 4
200 110 21 1 2 12 15 21 1 2 2 1
150 98 14 2 1 25 19 22 2 1 2 5
100 75 18 1 2 24 25 48 3 2 2 2
75 32 15 3 1 21 125 75 2 1 2 2
310 140 14 2 2 24 478 145 2 1 2 1
250 200 16 2 2 20 14 400 3 1 1 1
148 48 12 1 1 20 478 125 3 1 1 4
150 36 15 2 2 23 14 256 3 1 1 3
200 100 14 1 2 22 15 25 3 2 1 3
230 126 15 3 2 21 78 470 3 2 1 5
400 268 12 2 1 22 48 145 2 2 2 2
350 239 25 1 1 24 58 125 2 2 2 1
320 169 21 2 2 23 74 58 2 2 2 6
125 85 24 1 1 21 25 54 1 2 2 2
100 24 25 2 1 25 24 47 2 1 2 1
90 45 21 1 1 36 13 45 1 1 1 4
120 62 20 3 2 21 25 46 2 1 1 2
220 156 20 3 2 24 14 25 1 1 1 1
250 200 20 3 2 25 15 185 2 1 1 4
320 260 21 3 2 26 18 26 1 1 2 2
250 235 20 2 1 20 19 456 2 1 1 1
200 128 25 2 1 21 52 125 3 1 1 3
120 90 25 3 1 20 45 100 2 1 1 2
200 135 26 3 1 20 45 78 1 1 1 1
320 300 28 3 1 20 48 12 2 1 1 5
250 160 24 3 1 24 47 45 1 2 1 2
390 310 14 2 1 21 14 45 2 1 2 1
225 198 15 2 1 20 25 125 2 2 2 4
220 195 16 3 1 23 54 215 1 1 1 1
150 87 12 1 1 25 51 200 1 1 1 1
75 36 14 2 1 28 42 180 1 2 1 2
80 56 12 2 1 27 15 57 2 2 1 1
140 112 15 2 1 24 14 45 2 1 2 2
200 180 18 3 1 26 14 12 2 1 2 1
180 145 19 1 1 25 15 45 2 1 1 2
125 112 20 2 2 21 25 25 2 1 2 1
145 110 17 2 1 23 14 17 3 2 2 1
180 135 15 2 2 22 17 18 3 2 2 1
200 160 12 1 2 20 18 54 3 2 2 3
125 112 14 3 2 25 15 21 3 2 2 2
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 205
100 90 12 1 1 21 13 20 3 1 1 2
120 100 25 2 1 14 26 14 2 1 1 5
150 132 14 2 1 18 25 16 2 1 1 2
200 187 15 1 1 17 14 40 2 1 2 2
256 225 14 2 1 13 16 12 2 1 2 1
400 358 14 1 2 21 14 16 1 2 2 1
75 70 15 1 2 25 145 200 2 1 1 1
125 110 25 1 2 21 14 15 1 1 1 1
200 159 24 2 1 25 12 25 3 2 2 4
90 69 25 2 1 14 78 15 2 1 2 4
180 125 14 3 1 28 54 14 2 1 2 4
150 67 24 2 1 23 51 13 3 1 1 6
75 68 15 2 2 25 12 145 2 2 1 2
452 398 12 2 2 22 125 12 2 2 1 1
125 110 15 2 2 56 14 14 2 2 2 2
258 203 25 2 2 35 16 16 3 2 2 2
415 387 21 3 2 32 25 25 3 2 2 5
225 183 24 3 1 25 128 35 2 2 2 2
78 58 13 3 1 18 25 58 3 2 2 5
45 30 25 2 1 19 21 59 2 1 1 2
25 24 14 2 1 15 25 65 1 1 1 1
145 119 12 3 1 14 26 25 1 1 1 1
258 45 14 2 2 26 21 24 1 1 1 1
451 32 11 2 2 25 25 75 2 2 2 4
132 36 15 2 2 22 23 14 2 2 2 1
256 220 12 1 2 35 265 16 1 2 2 4
200 185 15 1 2 32 56 58 2 2 2 1
220 90 14 1 2 31 25 29 1 2 2 4
125 104 15 1 1 30 58 59 1 1 2 1
325 312 12 2 1 17 25 54 1 1 1 5
236 201 18 2 1 18 26 58 2 1 1 5
145 137 17 2 2 19 124 49 2 2 1 5
258 231 19 2 2 11 125 43 2 2 1 2
451 301 18 2 1 12 25 25 1 2 2 2
235 67 17 2 1 15 11 56 1 2 2 1
89 60 15 2 1 12 25 52 1 2 2 2
95 87 16 3 1 45 21 14 1 1 1 1
25 12 20 3 1 26 14 15 3 1 2 2
45 6 20 2 1 35 15 28 3 1 1 6
36 31 20 2 2 25 16 46 3 1 2 6
75 70 20 3 2 14 21 254 3 2 1 3
58 52 21 3 2 19 51 54 3 2 2 3
60 56 12 3 2 25 44 87 3 1 1 2
145 101 15 3 2 28 25 225 2 1 2 3
180 87 18 3 2 29 22 12 1 2 1 2
200 139 11 3 2 26 15 14 1 1 1 3
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 206
125 111 25 3 2 32 24 56 1 2 1 6
136 117 21 3 2 35 15 35 2 1 1 1
200 186 20 3 2 36 232 58 2 2 1 2
400 315 21 3 1 24 25 35 1 2 1 5
450 381 21 3 1 15 215 22 1 2 1 6
236 230 25 2 1 25 25 58 3 2 2 3
225 205 21 2 1 26 21 56 3 1 2 2
125 105 22 3 1 25 45 66 3 1 2 2
236 200 15 3 2 22 54 58 3 1 2 3
200 160 14 3 2 22 51 45 2 2 2 2
258 232 12 1 1 22 22 85 2 1 2 1
32 25 25 1 2 26 20 58 1 2 2 2
325 238 23 1 1 24 12 69 2 1 2 2
236 200 22 1 1 26 12 97 1 2 2 5
308 185 25 2 1 24 18 85 2 1 2 6
204 196 22 2 1 26 21 45 1 2 1 4
125 109 21 2 2 25 25 55 2 1 1 6
456 303 25 3 1 23 21 78 1 1 1 5
108 58 24 3 0 25 25 47 2 1 1 5
100 68 10 3 1 24 15 45 1 1 1 4
100 81 11 3 2 25 22 49 2 1 1 4
92 53 15 3 2 26 45 25 2 2 2 2
95 42 17 3 2 35 15 44 2 2 2 5
148 126 16 2 1 21 14 87 1 2 2 2
300 234 15 2 1 25 25 44 1 2 2 1
105 84 11 2 1 15 14 45 2 1 1 2
200 154 14 2 1 25 18 44 1 1 1 1
45 32 12 2 1 12 17 65 2 1 1 6
128 108 21 1 1 25 19 58 1 2 1 2
256 126 24 1 2 26 12 78 2 2 2 1
150 105 20 1 2 23 15 45 1 2 2 5
75 60 22 2 2 25 14 25 2 2 2 2
96 72 22 2 2 24 15 59 1 1 2 4
182 145 21 2 2 25 12 75 1 2 2 1
160 138 15 3 1 26 16 125 1 1 1 5
110 105 14 3 2 21 15 103 3 2 1 6