Regresión lineal y modelos ANOVA

UNIVERSIDAD DEL TOLIMA
Apuntes sobre
REGRESION
Y
MODELOS LINEALES
CON UNA INTRODUCCIÓN A LOS DISEÑOS DE
EXPERIMENTOS CLASICOS
JAIRO ALFONSO CLAVIJO MÉNDEZ
(DOCUMENTO EN PROCESO DE CREACION)

Revisión: Agosto 7 de 2019
REGRESION Y MODELOS LINEALES JACMEN 070819 UNIVERSIDAD DEL TOLIMA 2
NOTAS DE CLASE
Por
JAIRO ALFONSO CLAVIJO MENDEZ

(JACMEN)
Profesor de Estadística en la Facultad de Ciencias

de la Universidad del Tolima
IBAGUE, AGOSTO DE 2019

INTRODUCCION
La premura con la que debí asumir el curso de modelos lineales en la Carrera de

Matemáticas con Enfasis en Estadística en la Universidad del Tolima, ante la ausencia
del profesor que ostentaba esta cátedra, me obligó a desempolvar algunas notas que
había escrito hace varios años sobre regresión lineal y que fueron usadas en unas
jornadas promovidas por CEMFI, una organización estudiantil del antiguo programa de
licenciatura en matemáticas y física (XI semana de Matemáticas y Física, 4 al 8 de
Octubre de 1999). Acudí igualmente a unos escritos iniciados varios semestres atrás
sobre modelos ANOVA, para formar con esos escritos una notas iniciales que me
sirvieran como base para adelantar el curso de modelos lineales mencionado
anteriormente. Estas notas fueron revisadas, actualizadas y complementadas con
algunos ejemplos desarrollados con software más moderno. Específicamente R, SAS
UNIVERSITY EDITION, Minitab, Infostat y Matlab. Es así como se logra este
documento que ha servido de apoyo tanto a mí como a mis estudiantes en el studio de la
asignatura.
Los cálculos de los ejemplos en los documentos originales fueron hechos con los
paquetes estadísticos que se mencionan a continuación: En primer lugar ESM-PLUS, un
paquete de programas de computador desarrollado por el Autor y que hace algunos años
se utilizó ampliamente en la Universidad del Tolima. En segundo lugar ASP (versión
estudiantil), un programa que acompaña al texto de Mendenhall y Sincich, mencionado
en la bibliografía y que podía ser usado por las personas que hubiesen adquirido dicho
texto, lo que les otorgaba licencia de uso individual. En tercer lugar RELODI y
RELOPO, dos programas elaborados por Luis Carlos Silva y Humberto Fariñas del
Instituto Superior de Ciencias Médicas de la Habana (Cuba) y que, como en el caso
anterior, se conseguían con la compra del texto, lo que otorgaba licencia de uso
individual. Todos estos paquetes mencionados se ejecutan en ambiente DOS, una
plataforma en desuso hoy en día. Por esta razón hubo necesidad de actualizar varios
ejemplos y desarrollarlos con software ejecutable en la plataforma Windows de 64 bits.
Este document consta de cuatro partes bien diferenciadas, a saber:

1. Modelos de regresión lineal bajo el enfoque de mínimos cuadrados ordinaries.
2. Modelos de regresión bajo el enfoque de máxima verosimilitud. En particular,
los modelos de regresión logística.
3. Bases fundamentales de los modelos de ANOVA. Esta unidad se complementa
con un apéndice en el que se presentan de una manera muy sencilla los modelos
más corrientes de Análisis de Varianza para diseño de experimentos. Este
apéndice no forma parte del contenido programático de la asignatura. Sólo
aparece aquí como tema complementario
4. Una presentación muy simplificada de los modelos lineales generalizados.
Quiero manifestar mis agradecimientos al grupo de estudiantes del curso de modelos

lineales, semestre A 2019, quienes muy diligentemente utilizaron el presente documento
y ayudaron a su complementación, especialmente con la revision de algunas rutinas en
R.
Jairo Alfonso Clavijo M

Julio 9 de 2019
UNIDAD 1
GENERALIDADES
En esta unidad se presentarán los conceptos básicos necesarios para una cabal
comprensión de los métodos de regresión que se estudiarán en las unidades siguientes.
Se llama experimento a cualquier acción tendiente a producir un resultado medible.

Por ejemplo, lanzar un dado con el fin de observar el número que sale, o medir la
cantidad de metal depositado en el cátodo durante 1 hora en una operación de
galvanoplastia. Un experimento es aleatorio cuando no es posible predecir de antemano
el resultado que se obtendrá. Por ejemplo, en el lanzamiento de un dado se sabe cuáles
son los posibles resultados mas no el resultado específico que se obtendrá en el
lanzamiento. En los experimentos de tipo estadístico (experiemntos aleatorios) se
conoce por lo general el conjunto de posibles resultados, conjunto que recibe el nombre
de conjunto muestral, y que denotaremos por  . Por ejemplo, en el lanzamiento de
un dado se tiene  = {1,2,3,4,5,6} . Cada subconjunto de  se llama un evento.
Llamaremos probabilidad o medida de probabilidad a cualquier función p : 2  → 

que satisfaga las siguientes propiedades:
1. p( A)  0 para todo A  
 
2. p( Ai ) =  p( Ai ) siempre que { Ai , i = 1,2,3,} sea una familia enu-
i =1 i =1
merable de eventos disjuntos.
3. p () = 1
Evidentemente se cumple 0  p( A)  1 para cualquier evento A

(En realidad la definición de probabilidad es algo más compleja: requiere de una  -ál
gebra. Pero puede ser restringida a la  -álgebra 2  = () . Así se hace en el taller)
Una variable aleatoria X es una función X :  →  que a cada subconjunto de 

asigna un número real. Cada subconjunto de  se llama un evento. De esta manera las
variables aleatorias asignan valores reales a los eventos resultantes de un experimento
aleatorio. Las variables aleatorias pueden ser discretas o continuas, según que su
imagen sea un conjunto enumerable o un continuo. En particular en este taller serán de
interés las variables aleatorias continuas y, en consecuencia, el resto de exposición se
dedicará a este tipo de variables.
Por un abuso de escritura, y con el fin de simplificar la notación, se usará la expresión

X  a para indicar {w   / X ( w)  a} . Evidentemente este conjunto es un evento ya
que es un subconjunto de  . Por tanto, este evento tendrá asociado un valor real en el
intervalo [0,1], valor que será su probabilidad y que denotaremos por P( X  a)
FUNCIONES DE DISTRIBUCION
Se dirá que una función F :  →  es una función de distribución si F satisface las

condiciones siguientes:
1. F ( x)  0 para todo x  
2. F es monótona
3. F es continua por la derecha
4. lim F ( x) = 0 y lim F ( x) = 1
x → − x →
Una manera particular de construir funciones de distribución es utilizar ciertas

funciones especiales, llamadas funciones de densidad, que son funciones f :  → 
que satisfacen las condiciones siguientes:
1. f ( x)  0 para todo x  

2.  f ( x)dx = 1
−
se construyen las funciones de distribución a partir de las funciones de densidad
x
mediante la expresión F ( x) =  f (t )dt
−
Diremos ahora que una variable aleatoria X tiene distribución de probabilidad F

si para cada x   se cumple P( X  x) = F ( x) .
Cuando F se define mediante una función de densidad, la expresión anterior se escribe

x
P( X  x) =  f (t )dt . Cuando
−
F sea la función de distribución de X, se escribirá X
F y diremos que X se distribuye según F.
Algunos ejemplos muy especiales de funciones de distribución se mencionan en

seguida:
1. La distribución normal. Dadas cualquier constante  y cualquier constante

positiva  la distribución normal de probabilidad se define mediante la función de
densidad
1  1  t −  2 
f (t ) = Exp -    para t 
2  2    
la gráfica de esta función, para cada par de valores  ,  , es una curva de Gauss y la
probabilidad P( X  x) = F ( x) es simplemente el valor del área bajo la curva desde
−  hasta el punto x (ver figura)
x
Afortunadamente no es necesario hacer un cálculo de la integral F ( x) =  f (t )dt
−
para
cada valor de  y  debido a que esta integral siempre se puede transformar al caso
particular en que  = 0 y  = 1 , llamado normal estándar, mediante el cambio de
x−
variable z= . Los valores de la integral de la normal estándar para

− 3.5  z  3.5 , de centésima en centésima, se encuentran tabulados (Tabla de la
normal). Hoy en día las tablas han caído en desuso pues hay software que hace los
cálculos con mucha más precision.
Cuando una variable aleatoria X se distribuya normalmente con parámetros  y  ,

se escribirá X N(  ,  2 )
2. Las distribuciónes t (de Student). Una familia de distribuciones de gran

importancia está conformada por la sucesión de funciones {t n }nN donde cada función
t n se define como
 n +1
 
tn ( x ) = 
2  1 1
n +1
para n = 1, 2,3,
n n 
  x2  2
2 1 + 
 n 

donde (u ) =  x u −1e −u du para u  0 (función Gamma).
0
El índice n se conoce como Grados de Libertad (GL).
Se puede demostrar (Cramer, 1968) que esta sucesión de funciones converge

uniformemente a la normal estándar.
3. Las distribuciones Ji-cuadrado. Constituyen una sucesión de distribuciones de

mucha importancia en estadística. Las correspondientes funciones de densidad son
bastantes complejas (Cfr. Hogg y Tanis (1988), pag 270). Aunque están definidas para
todo número real, su parte significativa (por ser mayor que 0) es el semieje positivo
4. Las distribuciones F de Fisher. Estas distribuciones constituyen otra familia

infinita, dependiente de dos índices n, m, llamados grados de libertad del numerador y
del denominador. Esto se debe a que, como se puede demostrar, si dos variables
aleatorias U, V tienen distribuciones Ji-cuadrado con n y m grados de libertad
U
respectivamente, entonces la variable F = n tiene distribución F con n y m
V
m
grados de libertad.
Se pueden anotar sin demostración algunos resultados referentes a estas distribuciones:
1. Si Z N(0,1) entonces Z2 12 (Ji cuadrado con 1 grado de libertad)

2. Si X i  n2 entonces
i X i  donde  =  ni
3. Si X i N(i ,  ) i
2
entonces a Xi i N( ai i ,  ai2 i2 ) , X i indeptes
Z
4. Si U  n2 y Z N(0,1) entonces tn
U
n
U
5. Si U  2
y V  2
entonces U + V  2
y n Fn ,m
n m n+m
V
m
2
6. Si X tn entonces X F1,n
Dada una variable aleatoria X con función de densidad f , se define la esperanza de X

como E(X) =  tf (t )dt
−
y la varianza de X como V( X ) = E(( X − E( X )) 2 ) . La
esperanza se denomina también media de X
A manera de ejemplo, se puede anotar que si X~ N(  ,  ) entonces E(X) = µ y V(X) =

 2 . Si X tiene distribución Ji-cuadrado con n − 1 grados de libertad entonces E(X)
= n −1
POBLACIONES Y MUESTRAS – ESTIMACION
Uno de los objetivos de la estadística es hacer inferencia de lo particular hacia lo

general (al contrario de lo que hace la matemática). Este tipo de inferencia se conoce
comúnmente con el nombre de “generalización”. La estadística examina unos pocos
individuos y a partir de ellos saca conclusiones para todo un universo. Este tipo de
inducción o generalización conlleva inevitablemente un error, pero este error puede ser
medido o al menos controlado. Casi siempre lo que busca la estadística inferencial es
estimar valores a los que no se tiene acceso directo y probar conjeturas acerca de tales
valores que son desconocidos. La estimación y las pruebas de hipótesis son objetivos de
la estadística que por lo general van juntos.
Dada una variable aleatoria X se llama población (inducida por X) al conjunto de todos
los valores que puede tomar X junto con su distribución. Es frecuente confundir la
población con la variable aleatoria que le da origen.
Dada una variable aleatoria X se define una muestra aleatoria de X de tamaño n a

cualquier conjunto de variables aleatorias independientes, { X 1 , X 2 ,, X n } , tales que
cada X i tiene exactamente la misma distribución de X. El conjunto formado por una
realización concreta de cada X i es una muestra observada. Las muestras observadas
son los datos con los que se hacen cálculos estadísticos.
Con las muestras aleatorias la estadística construye estimadores que simplemente son
funciones de las variables de la muestra las cuales proporcionan estimaciones de los
parámetros poblacionales mediante valores particulares observados de tales variables.
1 n
Por ejemplo: X =  X i es un estimador para  . Este estimador produce
n i =1
diferentes estimaciones del parámetro  dependiendo de los valores particulares
x1 , x2 , x3 ,, xn que tomen las variables X 1 , X 2 ,, X n en una muestra observada.
x =  xi . No debe confundirse la
1
Cada una de tales estimaciones está dado por
n
estimación con el estimador: aquella es un valor numérico mientras que éste es una
variable aleatoria, por tanto, con una distribución, una media y una varianza. La raiz
cuadrada positiva de la varianza de un estimador se llama error estándar del
estimador.
Se dirá que un estimador ~ de un parámetro  es insesgado si E( ) = 

~
Resulta demasiado raro que una estimación coincida con el parámetro estimado. Aún
más: aunque los dos coincidieran, nunca lo sabríamos ya que los parámetros son
desconocidos. (Si no lo fueran no los estaríamos estimando!!).
Por la anterior razón una sola estimación no puede considerarse como valor del
parámetro. En consecuencia se hace necesario ampliar el concepto de estimación y
construir el así llamado intervalo de confianza para el parámetro. Dado un valor
pequeño  , (generalmente comprendido entre 0 y 0.1) se define el intervalo del
100(1 −  ) % de confianza para un parámetro  , como aquel intervalo centrado en la
estimación de  , dentro del cual se encuentra el parámetro con probabilidad 1 −  . El
cálculo del intervalo de confianza exige conocer la distribución del estimador lo cual no
siempre es fácil. Sin embargo en los casos clásicos de regresión tales distribuciones son
normales, como se verá en la próxima unidad.
El intervalo del 100(1 −  ) % de confianza de un parámetro  cuyo estimador ~ es


insesgado, tiene distribución normal y del cual se conoce una estimación  , está dado
por la siguiente expresión:
(ˆ − z

2
 ee( ), ˆ + z  ee( )
2
) donde ee( ) = V( )

z denota el cuantil bajo la normal estándar tal que P( Z  z ) = 1 − . Usualmente
2 2 2
se hacen estimaciones al 95% de confianza, en tal caso z = 1.96 .
2
PRUEBAS DE HIPOTESIS
El otro objetivo de la estadística inferencial tiene que ver con la prueba de hipótesis.
Una hipótesis es una conjetura que se hace acerca de uno o más parámetros, de una
distribución o de una propiedad estadística. Por ejemplo, se puede lanzar la conjetura de
que una cierta media poblacional vale 30, o de que dos medias poblacionales son
iguales, de que cierta variable tiene distribución normal, etc.
La hipótesis que va a ser probada se llama hipótesis nula (H0) y se contrasta contra otra
hipótesis que afirme lo contrario y que se conoce como hipótesis alterna (H1). Se
utiliza una muestra aleatoria como elemento de respaldo ya que H0 se presume
verdadera y se utiliza la información aportada por la muestra para tratar de negar tal
presunción. Se rechaza la hipótesis nula cuando la información muestral la desvirtúe
claramente. Por el contrario, si la información consignada en la muestra no es suficiente
para declarar la falsedad de H0 no se puede rechazar esta hipótesis y, en consecuencia,
seguirá siendo plausible su veracidad, mientras una prueba más potente no demuestra lo
contrario.
Puesto que nunca se sabe con certeza si H0 es verdadera o falsa, al hacer la prueba se
pueden cometer dos errores, a saber: a) Que se rechace H0 y que ésta sea verdadera
(error tipo I) y b) Que no se rechace H0 pero que ésta sea falsa (error tipo II). Se fija
un valor máximo  de probabilidad para cometer error tipo I. Este valor se denomina
nivel de significancia. Las pruebas estadísticas calculan un valor intrínseco de
probabilidad para cometer error tipo I. Tal valor se denomina valor P.
La probabilidad de cometer error tipo II se designa con  , su complemento 1 −  se
llama potencia de la prueba ya que mide la capacidad de la prueba para detectar
hipótesis falsas.
Generalmente es el investigador quien decide de antemano cuál es el nivel máximo de

riesgo que está dispuesto a correr para cometer error tipo I, es decir, el nivel de
significancia de una prueba (con mucha frecuencia este nivel se fija en  = 0.05) y
calcula el tamaño mínimo de muestra que necesita para poder garantizar una buena
potencia (usualmente superior al 90%). Cuando el nivel de significancia de la prueba
esté por debajo del nivel máximo de riesgo asumido, se rechaza la hipótesis nula. El
nivel de significancia de la prueba es calculado por los programas de computador a
partir de la distribución de los estadísticos involucrados en la misma.
UNIDAD 2
REGRESION LINEAL SIMPLE
Consideremos la situación en la que una variable X ha sido planeada para que tome
ciertos valores y supongamos que Y representa una variable de respuesta cuyos valores
dependen de los valores que tome X. Si los valores de Y dependen en forma lineal de los
de X, entonces un cambio en X produce un cambio proporcional en Y. Más exactamente,
entre Y y X existe una relación funcional del tipo Y =  0 + 1 X
En la práctica una relación lineal entre las variables dependiente (Y) e independiente (X)
se detecta por medio del diagrama de dispersión que se obtiene al graficar en un plano
cartesiano los puntos ( xi , yi ) correspondientes a las observaciones de una muestra.
Esto es así porque en tal caso los puntos resultantes muestran una tendencia rectilínea
acentuada.
Los coeficientes  0 y 1 son parámetros desconocidos que deben ser estimados con
los valores de la muestra, de esta manera se tendrá un modelo estimado Y = b0 + b1 x
cuyos coeficientes son estimaciones puntuale de  0 y 1 . Puesto que hay diferencias
entre el modelo teórico y el modelo estimado, para cada observación se puede escribir
Yi = b0 + b1 x +  i donde  i es una variable aleatoria que representa el error entre el
valor estimado de la observación y el valor teórico. Este valor no es medible pero sí
puede ser estimado por ei = yi − yi donde yi = b0 + b1 xi es el valor estimado de Yi y
y i es el correspondiente valor observado. Cada ei se llama un residuo.
El objetivo inmediato que perseguimos es estimar los coeficientes  0 y 1 del

modelo. En principio hay dos maneras de hacerlo: construyendo estimadores de máxima
verosimilitud o mediante el método de mínimos cuadrados. Esta última forma es la más
frecuente y así lo haremos en este documento.
Se trata de minimizar la suma de los errores elevados al cuadrado. Puesto que no se

puede usar directamente los errores, usamos los residuos, así que se buscará que la
n
expresión SCE =  ei2 tome un valor mínimo.
i =1
n n
Se tiene: SCE =  (y i − yi ) 2 =  ( yi − b0 − b1 xi ) 2 = f (b0 , b1 )
i =1 i =1
De lo anterior, derivando parcialmente respecto a b0 y b1 , se obtiene:
f n
f
= −2 ( yi − b0 − b1 xi ) y = −2 ( y i − b0 − b1 xi ) xi
b0 i =1 b1
igualando a 0 para minimizar y reordenando se obtiene el siguiente sistema de

ecuaciones lineales:
nb0 + ( xi )b1 =  yi
( xi )b0 + ( xi2 )b1 =  xi yi
sistema de ecuaciones con dos incógnitas, llamado de ecuaciones normales, cuya

solución está dada por:
n xi yi − ( xi )( yi )
b1 =
n xi2 − ( xi ) 2
1
b0 = ( yi − b1  xi ) = y − b1 x
n
expresiones que proporcionan estimaciones puntuales de 1 y  0 respectivamente.
EJEMPLO:
Supóngase que en un experimento con ratones se ha experimentado con 5 animales a los
que se aplican diferentes dosis de un medicamento. Se observa el número de
pulsaciones por minuto durante una hora. Este valor comienza a descender hasta un
valor mínimo a partir del cual tiende a normalizarse. La variable respuesta es el valor
máximo de descenso del ritmo cardiaco durante el tiempo de observación.
Se tiene la tabla siguiente:

xi yi xi2 xi yi
0.5 5 0.25 2.5
1.0 8 1.00 8.0
1.5 12 2.25 18.0
2.0 13 4.00 26.0
2.5 16 6.25 40.0
7.5 54 13.75 94.5
A partir de esta tabla se obtiene:
5  94.5 − 7.5  54
b1 = = 5.4
5 13.75 − (7.5)2
x = 1.5 y = 10.8 b0 = 10.8 − 5.4 1.5 = 2.7
En consecuencia, la ecuación de la recta de regresión es: y = 2.7 + 5.4 x
Dicho de otra manera: Descenso de ritmo = 2.7 + 5.4*Dosis
INFERENCIA EN EL MODELO DE REGRESION SIMPLE
Teniendo en cuenta que las X i son variables matemáticas y las Yi son variables
aleatorias, podemos utilizar las ecuaciones vistas anteriormente para definir estimadores
de 1 y  0 mediante:
n xi Yi − ( xi )( Yi )
B1 =
n xi2 − ( xi ) 2
1
B0 = ( Yi − B1  xi )
n
Para obtener algunos resultados interesantes haremos un primer supuesto a saber:
Yi N( 0 + 1 xi ,  i2 )
n
A partir de ésto se concluye que B1 =  ci Yi (una combinación lineal de variables
i =1
aleatorias normales) y, por tanto, B1 tiene distribución normal.
Además
n
E( B1 ) =  ci E (Yi ) =  ci (  0 +  1 xi ) =  0 ( ci ) +  1 ( ci xi )
i =1
xi − x
=  1  ci xi =  1  ( ) xi =  1
 ( xi − x ) 2
lo que nos dice que B1 es un estimador insesgado, cuya varianza vale:
V( B1 ) =  ci2 V(Yi ) =  ci2 i2
Aquí haremos un segundo supuesto: V(Yi ) =  i2 =  2 para todo i = 1,2,3,..., n

Este supuesto es conocido como hipótesis de homocedasticidad.
De acuerdo con lo anterior, se tiene:
2
V( B1 ) =  2
c 2
i = n
 (x
i =1
i − x)2
De igual manera puede probarse que B0


N  0 ,
 xi2  2 

 n ( xi − x ) 2 

Con el fin de simplificar la notación en desarrollos subsecuentes utilizaremos las

siguientes convenciones:
n
S xy =  ( xi − x )( yi − y )
i =1
n
S xx =  ( xi − x ) 2
i =1
n
S yy =  ( yi − y ) 2
i =1
Se tiene ahora lo siguiente:
SCE = (y − b − b x ) = (y

i 0 1 i
2
i − y + y − b0 − b1 xi ) 2
=  [( y − y ) − b ( x − x )]
i 1 i
2
= S yy − 2b1 S xy + b1 S xx
= S yy − b1 S xy
De aquí se deduce que un estimador de SCE es
S YY − B1 S xY = S YY − B12 S xx =  (Yi − Y ) 2 − B12  ( xi − x ) 2

=  Yi 2 − nY 2 − B12 ( xi2 ) − nx 2
Al tomar la esperanza a ambos lados se obtiene:
E( SYY − B1 S xY ) = (n − 2) 2
de donde:
 S − B1S xY 
 =
2
E  YY
 n−2 
SCE
En otras palabras: hemos encontrado un estimador insesgado de  2 , a saber: .
n-2
Este valor se designa, como es usual, por S 2
SCE S2
Se puede probar que = (n − 2) tiene distribución Ji-cuadrado con n − 2
2 2
grados de libertad y que es una variable independiente de B1 . De aquí se deduce que
( B1 −  1 )

B1 −  1
S xx
T1 = =
S S
 S xx
tiene distribución t con n − 2 grados de libertad lo que permite construir intervalos
de confianza para  1 dados por:
S
b1  t n − 2,
2 S xx
De una manera completamente similar se puede probar que

B0 −  0
T0 = tiene distribución Ji-cuadrado con n − 2 grados de libertad y de
xi2
S 
nS xx
aquí que los intervalos de confianza para  0 estén dados por
s2  1 x 2 
b0 tn − 2,  + 
2 n − 2  n Sxx 
Una vez estimado un modelo lineal de regresión viene una etapa de análisis para medir
la bondad de dicha estimación. Si el modelo estimado no supera las pruebas se hace
necesario volver a iniciar el proceso después de haber modificado el modelo o las
variables.
A continuación se expondrán los principales aspectos que deben ser examinados para
juzgar la bondad de un modelo ya estimado.
Las principales razones por las cuales un modelo puede no ser bueno son: a) De una
parte, el modelo lineal no es el indicado o b) se está violando alguno(s) de los supuestos.
El primer caso se examina mediante un análisis de varianza y el segundo mediante un

conjunto de técnicas conocido como análisis de residuos.
Veamos el primer caso: Puesto que S yy = b1 S xy + SCE se cumple:
(y i − y ) 2 =  ( yˆ i − y ) 2 +  ( yi − yˆ i ) 2
lo que comúnmente se expresa como SCT = SCR + SCE , es decir, la suma de

cuadrados total es igual a la suma de cuadrados de la regresión más la suma de
cuadrados del error.
SCR SCE
Se puede probar que tiene distribución Ji-2 con 1 grado de libertad y que
 2
2
SCT
tiene distribución Ji-2 con n − 2 grados de libertad. De aquí se concluye que
2
tiene distribución Ji-2 con n − 1 grados de libertad. Según esto, bajo el supuesto de que
 1 = 0 (hipótesis nula), la variable
SCR
2
1 SCR
F= = tiene distribución F1,n−2
SCE S2
2
n−2
La falsedad de la hipótesis nula H 0 : 1 = 0 se traduce entonces en un cuantil grande

bajo la F1,n−2 , o lo que es equivalente en un pequeño nivel de significancia intrínseca.
Si no se puede rechazar H 0 : 1 = 0 , se concluye que el modelo lineal no está definido
y, por tanto, que éste no es un modelo adecuado para ajustar los datos. El análisis de
varianza suele resumirse en una tabla como la siguiente, con la cual se toma la decisión:
FUENTE SUMA DE GL CUADRADOS F VALOR
VARIAC CUADRADOS MEDIOS CALCULADA P
Modelo SCR 1 CMR = SCR/1 F = CMR/CME P
Error SCE n−2 CME = SCE/( n − 2) ---------- -------
Total SCT n −1 ------------------- --------- ------
Se rechaza H 0 siempre que P sea pequeño (menor que  y usualmenyte  =0.05 )
En el modelo de regresión simple que estamos analizando, la tabla anterior es de poca

utilidad. Realmente ella solo hace la prueba de la hipótesis H0 : 1 = 0 vs H1 : 1  0
Dicha hipótesis se rechaza cuando el valor F calculado con los datos es mayor que
F1, n − 2,  , lo que equivale a decir que el intervalo de confianza para 1 contiene al 0.
En los modelos de regresión múltiple que se verán más adelante la tabla ANOVA
anterior tendrá un uso muy importante.
Las hipótesis sobre la significancia de los coeficientes del modelo pueden probarse
también mediante los correspondientes intervalos de confianza obtenidos al estimar
estos coeficientes. Un coeficiente es significativo dentro del modelo si el
correspondiente intervalo de confianza no contiene el valor 0. La mayoría de paquetes
estadísticos producen un valor t y el correspondiente valor P con el cual se rechaza o no
la hipótesis correspondiente: H1(i ) : i = 0 vs H1(i ) : i  0 para i = 0,1
EJEMPLO: para ser analizado en clase.
Chatterjee y Hadi, proponen como ejemplo, los datos correspondientes a las alturas del
hombre y la mujer en 96 matrimonios recién celebrados. Puesto que es costumbre muy
arraigada que el hombre es quien elige a la mujer como esposa, es lícito pensar que X,
la estatura de los hombres, sea la variable independiente o regresora y que Y, la estatura
de las mujeres, sea la variable respuesta o dependiente. Los datos correspondientes en
centímetros, se presentan en la table siguiente, y han sido dispuestos en un archivo
ASCII como una matriz de 96 filas (cada pareja) y dos columnas. La primera columna
corresponde a la altura de los hombres mientras que la segunda corresponde a la altura
de las mujeres.
El programa que presentamos a continuación, para ser ejecutado en FREEMAT o en

MATLAB, ha sido diseñado para observer los cálculos de las diversas formulas vistas
anteriormente. El puede ser adaptado para otros ejemplos si se hacen las modificaciones
pertinentes como se indica al comienzo del programa.
Se sugiere ejecutar el código por segmentos, tal como se indica en las líneas de parada,
para poder discutir los resultados parciales que se van obteniendo. Creemos que de esta
manera se interioriza más profundamente el sentido de la técnica que se está estudiando.
Posteriormente puede usarse un paquete estadístico profesional para realizer los mismos
cálculos de una manera más eficiente.
% MODELO DE REGRESION LINEAL SIMPLE - EJEMPLO DE CHATTERJEE

% SOBRE MATRIMONIOS
% (Programa para práctica en clase, desarrollado por Jairo A. Clavijo)
%
% Este programa tiene por objeto ilustrar los diferentes pasos para
% la estimación de un modelo de regresión lineal simple. Está pensado
% para ser ejecutado como ilustración en clase.
% Los datos deben encontrarse en un archivo ASCII a dos columnas. La primera
% de ellas corresponde a la variable independiente X, la segunda a la variable
% de respuesta Y.
%
% Se recomienda tener el código en un editor de texto y ejecutarlo por
% sesiones que pueden ser discutidas a medida que vayan apareciendo los
% correspondientes resultados. Para ello copie (CTRL C) el código que
% aparece antes de cada aviso de =======PARADA======== y luego cópielo
% (CTRL V) y ejecútelo dentro de FREEMAT (o MATLAB).
clear
%% ATENCION ENTRADA DE INFORMACION PARA OTROS EJEMPLOS:

% EL SIGUIENTE VALOR DEBE SER MODIFICADO SEGUN EL NUMERO DE
OBSERVACIONES:
% Valor t para confianza del 95% con n-2 Grados de Libertad es:
t = 1.986;
% TAMBIEN SE DEBE MODIFICAR LA RUTA DE LECTURA DE DATOS:

load c:\datos\hwdatos.txt
w = hwdatos;
%% INICIO DE CALCULOS:
x = w(:,1);
y = w(:,2);
x2 = x.*x;
xy = x.*y;
mx = mean(x);
my = mean(y);
n = length(x);
tabla = [x y x2 xy ];
suma = sum(tabla);
tabla1 = [tabla;suma];
% Esta tabla podría suprimirse de la presentación. Puede ser larga.
tabla1
% ====================PARADA==========================
% Diagrama de dispersion valores observados:

disp(' PUEDE OBSERVAR EL DIAGRAMA DE DISPERSION DE LOS DATOS')
disp(' Este gráfico aparece en una ventana diferente!!!')
plot(x,y,'*')
% ====================PARADA==========================
Sxx = sum((x-mx).*(x-mx));
Syy = sum((y-my).*(y-my));
Sxy = sum((x-mx).*(y-my));
b1= (n*sum(xy) - sum(x)*sum(y))/(n*sum(x2)-sum(x)^2);
b0 = my - b1*mx;
coef = [b0 b1];
% Estimación del coeficiente de correlación entre las variables:
r = Sxy/sqrt(Sxx*Syy);
ttr = r*sqrt(n-2)/sqrt(1-r^2)
disp(' COEFICIENTES DEL MODELO:')
disp(' Intersecto b0: Pendiente b1:')
coef
corr = [r ttr];
disp('Correlación estimada: Valor t de prueba:')
corr
disp(' NOTA: se rechaza <<H0: Rho = 0>> si valor t es mayor que:')
t
% ====================PARADA==========================
% ESTIMACIONES:
yes = b0 + b1*x;
e = y-yes;
yh = yes-my;
SCR = sum(yh.*yh);
SCE = sum(e.*e);
SCT = SCE + SCR;
CMR = SCR/1;
CME = SCE/(n-2);
CMT = SCT/(n-1);
% Estimación de la varianza: s2 y del Coef de determinación R2:
s2 = SCE/(n-2);
R2 = 1-(SCE/Syy);
vajus = [s2 R2];
disp('Varianza y Ajuste R2:)
vajus
disp(' PUEDE OBSERVAR RESIDUOS CONTRA VALORES ESTIMADOS')
disp(' Este gráfico aparece en una ventana diferente!!!')
% Diagrama de residuos contra valores estimados:
plot(e,yes,'o')
% ====================PARADA==========================
% INTERVALOS DE CONFIANZA PARA COEFICIENTES:

eb0 = t*sqrt(CME*(1/n + mx^2/Sxx));
eb0i = b0 - eb0;
eb0s = b0 + eb0;
ICb0 = [eb0i eb0s];
eb1 = t*(sqrt(s2/Sxx));
eb1i = b1 - eb1;
eb1s = b1 + eb1;
ICb1 = [eb1i eb1s];
disp(' Intervalos del 95% de confianza para los coeficentes del modelo:')
disp ('Para intersecto:')
ICb0
disp ('Para la pendiente:')
ICb1
% ====================PARADA==========================
% Tabla ANOVA:
SC = [SCR SCE SCT]';
GL = [1 n-2 n-1]';
CM = [CMR CME CMT]';
aov = [SC GL CM];
F = CMR/CME
VF = [F 1 n-2]
disp(' TABLA DE ANALISIS DE VARIANZA:')
aov
disp('Valor del estadistico F y grados de libertad:')
VF
% ====================PARADA==========================
ANALISIS DE RESIDUOS
Junto a las estimaciones e inferencias realizadas con el material anteriormente visto, se
hace necesario juzgar la bondad del modelo, esto es, el cabal cumplimiento de los
supuestos bajo los cuales se valida la teoría de la regresión. Estos análisis se realizan
comunmente usando los residuos. Hay un conjunto de técnicas que se resumen en los
siguientes párrafos.
El análisis de residuos permite verificar el cumplimiento de los siguientes supuestos

básicos:
1. Los errores  i tienen media 0

2. Los errores  i tienen varianza constante,  2 (homocedasticidad)
3. Los errores  i no están correlacionados
4. Los errores  i no están autocorrelacionados
5. Los errores  i se distribuyen normalmente
La verificación de los supuestos se hace mediante los residuos ei = yi − yˆ i o mediante

los residuos estandarizados, dados por:
ei e
di = = i
CME S2
El análisis de residuos comprende la verificación de los siguientes puntos:
• Los residuos tienen media cero y varianza constante. Si se emplea el método de

mínimos cuadrados para estimar los coeficientes del modelo no es necesario
verificar la nulidad de la media de los residuos.
• Los errores tienen distribución normal. La prueba puede realizarse mediante
cualquiera de los tests de normalidad ya vistos (K-S, Geary, Shapiro, etc), aplicado a
los residuos.
• Los residuos deben ser aleatorios. Esto puede ser probados mediante alguna de las
pruebas de aleatoriedad (Rachas, Neuman, etc)
• Se debe realizar una gráfica de los valores xi contra los residuos ei . La presencia
de tendencias y patrones curvilíneos en esta gráfica es síntoma de que la variable
regresora (independiente), x , debe entrar en el modelo con una potencia diferente a
1. Esto nos puede llevar a modelos con más de una variable independiente.
Uno de los aspectos más difíciles de diagnosticar y remediar es la homocedasticidad

(varianza constante) de los errores. Se han ideado numerosas pruebas pero casi todas
ellas son aplicables únicamente en determinadas circunstancias particulares. Así, por
ejemplo, se puede mencionar la prueba de Glejser. El método de diagnóstico más
utilizado es un gráfico de dispersión de los residuos ei contra los valores estimados por
el modelo, ŷ i . La presencia de tendencias o patrones no aleatorios en esta gráfica es
síntoma de falta de homocedasticidad.
La heterocedasticidad también puede ser detectada mediante otra prueba, conocida

como test de Breusch – Pagan que se basa en la utilización de los cuadrados de los
residuos para estimar la varianza del modelo. En efecto, puesto que la media de los
residuos es cero, la media de sus cuadrados es una estimación de la varianza. Si esta
media difiere significativamente de la varianza estimadamediante el cuadrado medio del
error, se podría concluir que la varianza se relaciona de alguna manera con las variables
regresoras del modelo lo que constituye una razón suficiente para la precencia de
heterocedasticidad. Esta prueba está disponible en R.
Una preocupación grande en un modelo no homocedástico es cómo remediar dicho

problema. No hay sin embargo una receta única para hacerlo pues ello depende del tipo
de heterocedasticidad presente. Se pueden ensayar transformaciones de variables,
regresiones ponderadas por los inversos de las varianzas, etc.
Otro problema grave en la determinación de un modelo de regresión es la presencia de

autocorrelaciones en la variable independiente la cual se traduce en autocorrelaciones en
los residuos. La prueba de Durbin y Watson ha sido propuesta para detectar
autocorrelación de primer orden, es decir, para probar la hipótesis H0 : 1 = 0 versus
H1 : 1  0 en los residuos. La prueba de Box y Ljung, con muestras grandes, es también
una buena herramienta para detectar autocorrelación de órdenes superiores. Cuando se
detecte presencia de autocorrelación en los errores, el modelo lineal no es adecuado para
realizar pronósticos, debiéndose entonces intentar una solución a través de métodos para
datos autorregresivos, similares a las series de tiempo.
La prueba de Durbin y Watson consiste en lo siguiente: se calcula el estadístico d (DW)

n n
 ( et − et −1 ) e e
2
t t −1
dado por d = t =2
n
. Si la correlación se estima por r = t =2
n
entonces se
e
t =2
2
t e
t =2
2
t −1
tiene la relación d = 2(1 − r ) lo que hace que d tome valores en el intervalo (0, 4).
Puesto que  es estimado por r se cumple que d = 2 cuando  = 0 y d = 0 cuando
 = 1 . Durbin y Watson tabularon una serie de límites d L y dU (inferior y superior,
respectivamente, ver anexo 3) con los cuales se realiza la prueba de la siguiente manera:
Si d  d L rechace H0 . Si d  dU no rechace H0 . El test no es concluyente cuando
d L  d  dU .
Rara vez sucede que haya autocorrelación negativa en los residuos. Si esto llegase a
suceder, se tendría que d = 4 cuando  = −1 . Por esta razón, bastará construir unos
límites simétricos dados por 4 − dU y 4 − d L respectivamente dentro de los cuales la
prueba no es concluyente y los cuales muestran la presencia de correlación negativa si
d  4 − dL
Ante la presencia de autocorrelación de primer orden, es decir, cuando et =  et −1 + ut ,

se puede intentar remover la autocorrelación mediante una transformación propuesta por
Cochran y Orcutt en 1949: consiste en reemplazar cada yi por yi −  yi −1 y cada xi
por xi −  xi −1 antes de volver a realizar la estimación de los coeficientes. Dado que 
n
e e t t −1
es desconocido se emplea la siguiente estimación suya:  = t =2
n
. El nuevo modelo
 et2−1
t =2
* *
produce ciertos parámetros estimados b 0 y b1 los cuales permiten encontrar
b0*
estimaciones de los coeficientes para el modelo original, dados por b0 =
y
1− 
b1 = b1* . Se debe examinar el nuevo modelo y si aún persiste la correlación de primer
orden se puede emplear el mismo procedimiento con el nuevo modelo.
Finalmente es necesario hacer un examen de observaciones influenciales (outliers,

puntos de apalancamiento, etc) pues ellos pueden introducir serias perturbaciones en el
modelo, hasta el punto de hacernos adoptar modelos inadecuados o de cambiar
radicalmente las estimaciones de los parámetros.
Las gráficas siguientes muestran dos tipos de puntos influenciales muy frecuentes:
Puntos influenciales en un modelo de regresión
En el primer caso un punto demasiado alejado (outlier) de los puntos que marcan la
tendencia produce una desviación de la recta de regresión con lo cual el modelo
construído no logra buen ajuste de los datos y, por consiguiente, producirá pronósticos
erróneos. En el segundo caso un punto aislado en cualquier dirección (apalancamiento o
leverage) produce una falsa recta de regresión: se encuentra un modelo cuando
realmente no hay ninguno. Esto puede llevar a falsa conclusiones.
Existen herramientas para detectar puntos influenciales. Por ejemplo, para detectar
outliers se pueden medir las magnitudes de los residuos. Los puntos atípicos
generalmente presentan residuos demasiado grandes al ser comparados con los demás.
Un criterio muy usado consiste en declarar como tales aquellos puntos cuyos residuos
son mayores que 3 desviaciones estándar ( 3s ). Hay otros criterios que se presentarán en
el próximo capítulo. Usualmente el software para cálculo de regresión trae programadas
herramientas de detección de puntos influenciales.
Cuando se haya logrado un buen modelo o un modelo aceptable para nuestras

necesidades, éste puede ser utilizado para hacer pronósticos. Un pronóstico es un valor
y 0 calculado con el modelo, para un valor x0 que no es observación. Cuanto más cerca
de la media x se tome el valor de x0 , tanto más exacto será el pronóstico. Cuando un
pronóstico se hace para valores de x0 que estén por fuera del rango de variación de x,
se dice que es un pronóstico hacia el futuro.
Un pronóstico está dado por y0 = b0 + b1 x0 con intervalo de confianza:

1 ( x0 − x ) 2
y 0  t n − 2, + S +
2 n S xx
Un pronóstico futuro está dado por la misma expresión, pero su intervalo de confianza
está dado por:
1 ( x0 − x ) 2
y 0  t n −2, + S 1 + +
2 n S xx
EJERCICIO:
Hacer un análisis lo más completo posible a los datos siguientes que definen un modelo
de regresión lineal simple:
El siguiente código en R hace un recorrido por los principals aspectos del análisis de
regresión sobre los datos presentados por Chatterjee sobre las alturas de los hombres y
mujeres cuando se unen en parejas. Los datos se encuentran en el archivo HWdat.prn.
Se supone que el hombre es quien elige a la mujer como pareja, así que la variable H
(husband) es la independiente mientras que W (wife) es la dependiente. Los datos están
descritos en las páginas 54 y ss de Chaterjee y Hani.
#LECTURA DE LOS DATOS (a partir del archivo HWdatos.prn en C:\datos)

setwd("c:/datos")
datos = read.table('hwdatos.prn', header=T)
datos
## EXTRACCION DE VARIABLES:
x=datos$H
y=datos$W
plot(y~x,col="red",main="diagrama de dispersión Husban vs Women"

,xlab="Altura hombres cm",ylab="Altura Mujeres cm",type="p",lwd=3)
#ajuste de la linea de regresión

regresión <- lm(y~x,data=datos)
abline(regresión,lwd=3,col ="blue") ### Dibuja la línea de regresión
summary(regresión) ## información sobre resultados
## Construye Intervalos de confianza del 90 y 95%

confint(regresión,level=0.90)
## Muestra la tabla de análisis de varianza

anova(regresión)
## Prueba gráfica de homogeneidad: estimados contra residuos

residuos = rstandard(regresión)
valores.ajustados = fitted(regresión)
plot(valores.ajustados, residuos,col="blue",pch=19,type="p")
abline(h=0,col="red")
library(lmtest)
bptest(regresión) #prueba de homogeneidad
## Prueba gráfica QQ de normalidad

qqnorm(residuos,col="blue")
qqline(residuos,col="red",lwd=2)
## Prueba analítica de Shapiro para normalidad de residuos
shapiro.test (residuos) #prueba de normalidad
## independencia
##Autocorrelación DURWIN WATSON de primer orden
library(lmtest)
dwtest(y~x, alternative = "two.sided", data = datos)
## Detección de puntos influenciales

par(mfrow = c(2,2))
plot(regresión)
## predición para una secuencia de valores

seq(160,190,by=10)
x=data.frame(x=seq(160,190,by=10))
predict(regresión,x)
La tabla siguiente da los límites para la prueba de Durbin y Watson algunos tamaños de
muestra y máximo 5 variables regresoras (independientes).
Es claro, sin embargo, que la tabla no es necesaria cuando se usa software espacializado
como R, pues estos paquetes hacen la prueba Durbin-Watson en forma automática
arrojando el valor P, con el cual se toma una decisión frente a la hipótesis nula.
Límites de intervalos para prueba de Durbin y Watson (p= # de independientes)
Nivel de significancia: 0.05
p=1 p=2 p=3 p=4 p=5
N dL dU dL dU dL dU dL dU dL dU
15 1.08 1.36 0.95 1.54 0.82 1.75 0.69 1.97 0.56 2.21
16 1.10 1.37 0.98 1.54 0.86 1.73 0.74 1.93 0.62 2.15
17 1.13 1.38 1.02 1.54 0.90 1.71 0.78 1.90 0.67 2.10
18 1.16 1.39 1.05 1.53 0.93 1.69 0.82 1.87 0.71 2.06
19 1.18 1.40 1.08 1.53 0.97 1.68 0.86 1.85 0.75 2.02
20 1.20 1.41 1.10 1.54 1.00 1.68 0.90 1.83 0.79 1.99
21 1.22 1.42 1.13 1.54 1.03 1.67 0.93 1.81 0.83 1.96
22 1.24 1.43 1.15 1.54 1.05 1.66 0.96 1.80 0.86 1.94
23 1.26 1.44 1.17 1.54 1.08 1.66 0.99 1.79 0.90 1.92
24 1.27 1.45 1.19 1.55 1.10 1.66 1.01 1.78 0.93 1.90
25 1.29 1.45 1.21 1.55 1.12 1.66 1.04 1.77 0.95 1.89
26 1.30 1.46 1.22 1.55 1.14 1.65 1.06 1.76 0.98 1.88
27 1.32 1.47 1.24 1.56 1.16 1.65 1.08 1.76 1.01 1.86
28 1.33 1.48 1.26 1.56 1.18 1.65 1.10 1.75 1.03 1.85
29 1.34 1.48 1.27 1.56 1.20 1.65 1.12 1.74 1.05 1.84
30 1.35 1.49 1.28 1.57 1.21 1.65 1.14 1.74 1.07 1.83
31 1.36 1.50 1.30 1.57 1.23 1.65 1.16 1.74 1.09 1.83
32 1.37 1.50 1.31 1.57 1.24 1.65 1.18 1.73 1.11 1.82
33 1.38 1.51 1.32 1.58 1.26 1.65 1.19 1.73 1.13 1.81
34 1.39 1.51 1.33 1.58 1.27 1.65 1.21 1.73 1.15 1.81
35 1.40 1.52 1.34 1.58 1.28 1.65 1.22 1.73 1.16 1.80
36 1.41 1.52 1.35 1.59 1.29 1.65 1.24 1.73 1.18 1.80
37 1.42 1.53 1.36 1.59 1.31 1.66 1.25 1.72 1.19 1.80
38 1.43 1.54 1.37 1.59 1.32 1.66 1.26 1.72 1.21 1.79
39 1.43 1.54 1.38 1.60 1.33 1.66 1.27 1.72 1.22 1.79
40 1.44 1.54 1.39 1.60 1.34 1.66 1.29 1.72 1.23 1.79
- --- --- --- --- --- --- --- --- --- ---
45 1.48 1.57 1.43 1.62 1.38 1.67 1.34 1.72 1.29 1.78
50 1.50 1.59 1.46 1.63 1.42 1.67 1.38 1.72 1.34 1.77
55 1.53 1.60 1.49 1.64 1.45 1.68 1.41 1.72 1.38 1.77
60 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.73 1.41 1.77
65 1.57 1.63 1.54 1.66 1.50 1.70 1.47 1.73 1.44 1.77
70 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.74 1.46 1.77
75 1.60 1.65 1.57 1.68 1.54 1.71 1.51 1.74 1.49 1.77
80 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.74 1.51 1.77
85 1.62 1.67 1.60 1.70 1.57 1.72 1.55 1.75 1.52 1.77
90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78
95 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75 1.56 1.78
100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78
A manera de Ejemplo, se presentará enseguida un caso de observaciones de ventas

realizadas en un almacen durante 15 días de ejercicio. En este caso se tomó como
variable independiente, X, el número de clientes que visitaron el almacén cada día y
como variable dependiente Y el total de ganancias (en miles de pesos) realizadas en el
almacén durante el mismo día. Una graficación de los valores de X e Y muestran una
gran tendencia lineal. Esto respalda la hipótesis de que los valores de Y se encuentran
relacionados con los de X mediante una dependencia funcional de tipo lineal que
debemos estimar.
DATOS:
Día 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
#Visit 12 14 16 20 21 10 15 24 32 30 23 28 26 15 18
Gananc 600 660 720 920 960 580 720 1050 1400 1320 1070 1240 1160 750 820
Usted puede adaptar el programa visto anteriormente para hacer el análisis. Solo es
necesario crear un archivo con los datos y modificar la parte correspondiente a la ruta de
lectura de dicho archive así como el valor t, correspondiente al nivel de confianza que
usted escoja para las estimaciones y al tamaño de muestra n = 15 en este caso.
UNIDAD 3
REGRESION MULTIPLE
Los modelos de regresión múltiple constituyen la más inmediata generalización del

modelo lineal simple, visto en la unidad anterior. En este caso se tiene un conjunto de p
variables planeadas (no aleatorias) X 1 , X 2 ,, X p , de cuyos valores depende la
respuesta Y , ésta sí, variable aleatoria.
El modelo teórico múltiple es de la forma Y =  0 + 1 X +  2 X 2 +  +  p X p donde

los coeficientes  i (parámetros del modelo) son desconocidos y deben ser estimados.
Suponiendo que se tienen n observaciones del modelo, cada una de ellas de la forma;
Yi = 0 + 1 X1i + 2 X1i + +  p X pi +  i
en forma matricial se puede escribir:
 Y1  1 X 11  X p1   0    1 
      
 Y2  1 X 12  X p 2   1    2 
   =   
+
      
      
 Y  1 X     
 n  1n  X pn   p   n
o simplemente: Y = Xβ + ε donde X es una matriz n  k con k = p + 1

En lo sucesivo Y, X,β,ε, y sus transpuestas, denotarán matrices.
Se hacen los siguientes supuestos:
1. E(ε ') = E(1 ,  2 , ,  n ) = (0,0, ,0)

2. E(εε ') =  I n
2
Homocedasticidad y no-correlación de errores
3. Cov(ε, X) = 0 Errores independientes de los predictores
4. Rango( X) = p No colinealidad
Si se cumplen todos los supuestos anteriores los estimadores son insesgados y

eficientes.
Denotemos por B = ( B0 , B1 , , Bp ) ' el vector de estimadores de β . A partir de

SCE = ε ' ε = (Y − XB) '(Y − XB) se busca el “hiperplano” que mejor ajuste los puntos.
Este será el que hace mínima la suma de cuadrados, SCE.
Mediante técnicas de minimización del cálculo se prueba que tal hiperplano queda
determinado por las ecuaciones normales ( X'X)B = X'Y cuya solución está dada por
B = (X'X)−1 (X'Y) siempre que X'X sea invertible (no singular).
Se cumplen varias propiedades. Entre ellas las siguientes:
1. B es estimador insesgado de β. Es decir : E( Bi ) = i para todo i = 1, 2,3, ,p

En efecto: E(B) = (X'X)−1[(X 'E(Y)] = (X'X)−1 (X '(Xβ) = ( X'X) −1 ( X ' X)β = β
2. V(B)=(X'X)−1 2 . De donde V(Bi ) = cii 2 con cii el i-ésimo elemento diagonal de (X'X)−1
Además: Cov ( Bi , B j ) = cij  2
3. B ~ Nk (β,  2 ( X'X) −1 )
SCE
4. S 2 = es un estimador insesgado de  2
n−k
De lo anterior se deduce que, si b = (b0 , b1 , ˆ es una estimación puntual de

,bp)' = B
β , el sustituir  2 por la estimación s 2 de S2 , los intervalos de confianza para los
coeficientes del modelo están dados por bî tn −k , s cii de donde se pueden derivar
2
técnicas para determinar si cada coeficiente es significativamente diferente de cero o no.
Se puede probar que SCT = SCE + SCR donde SCE ~  n2− k y SCR ~  k2−1 y, de
aquí, que se pueda construir la tabla de análisis de varianza con el fin de probar la
conveniencia del modelo lineal, mediante la hipótesis nula H0: 1 =  2 =  =  k = 0
(nótese cómo esta hipótesis (global) no incluye el coeficiente  0 ). Dicha tabla es:
FUENTE SUMA CUADRAD GL CUADRADOS MEDIOS F CALC

Regresión SCR = B ' X'Y − nY k − 1 CMR = (B'X'Y − nY 2 ) / (k −1)
2
CMR
F=
(Entre) CME
Error SCE = Y'Y − B ' X'Y n − k CME = (Y'Y - B'X'Y) / (n − k ) ------
(Dentro)
Total SCT = Y'Y − nY 2 n −1 ------------------- ------
El valor nY 2 que aparece en la tabla anterior se llama corrección por la media.
El análisis de la bondad del modelo estimado se realiza con las mismas herramientas ya
mencionadas en los modelos lineales simples.
Sólo cuando un modelo estimado ha superado todas las pruebas y, por tanto, cuando
estamos seguros de poseer un buen modelo de ajuste de los datos, sólo entonces tiene
SCE
sentido utilizar el coeficiente de determinación R 2 = 1 − como una medida del
SCT
porcentaje de variación explicada por el modelo. Aún así, tener el valor de R 2 como
único criterio de la bondad de un modelo es peligroso ya que dicho coeficiente puede
aparecer inflado, cuando hay presencia de variables extrañas.
El análisis de los residuos de un modelo lineal involucra dos tipos de residuos como se
verá a continuación:
Una vez estimados los coeficientes del modelo, para cada i = 1, 2, , n se tendrá el valor
estimado yî = b0 + b1 xi1 + b2 xi 2 + + bp xip . El vector de valores estimados será entonces
Yˆ = Xβ .
La diferencia ei = yi − yî es el i-ésimo residuo. Denotaremos e = (e1 , e1 , , e1 ) ' al

vector de residuos. Resulta claro entonces que SCR = e'e y además que
ˆ = Y − Xβ = Y − X(X'X)−1 ( X'Y) = [I − X(X'X)−1 X']Y = [I − H]Y

e = Y−Y
siendo H = X(X'X)−1 X' = (hij ) p p . Esta matriz, denominada matriz HAT o matriz de
proyección es simétrica e idempotente, es decir, H2 = H , como sucede con toda
matriz de proyección.
Es claro que e − E(e) = (I − H)(Y − Xβ) y de aquí V(e) = E ([e − E (e)][e − E (e)]') =
(I − H)E(ee')(I − H)' = (I − H)V(e)(I − H)' = (I − H)( 2I)(I − H)' = (I − H) 2 .
De lo anterior se deduce que V(ei ) = 1 − hii , i = 1, 2, ,n

Igualmente puede verse que Cov(ei , e j ) = −hij
Los residuos vistos anteriormente son variables aleatorias con varianzas dadas por la
fórmula anterior. En vista de ésto, podemos definir otros dos tipos de residuos de la
siguiente manera:
ei
a. Residuos estandarizados: ri =
 1 − hii
ei
b. Residuos estudentizados: ri* = (llamados también externamente
 (i ) 1 − hii
estandarizados)
La varianza  (2i ) de la definición anterior corresponde a la varianza del modelo de

regresión con una observación menos (observación borrada), resultante al eliminar la i-
ésima observación del modelo original. Tanto  2 como  (2i ) son desconocidas pero
SCE SCE(i )
se estiman con los datos de acuerdo con S2 = y S(2i ) =
n−k n − k −1
respectivamente.
ei2
(n − k ) s 2 −
1 − hii
Una estimación de  (2i ) está dada por s(2i ) = (Draper & Smith, 3th
n−k
Edition, page 208)
Puntos Influenciales
Los modelos de regresión pueden verse distorsionados por la acción de puntos que
tienen un poder de influencia fuera del patrón común. Tales puntos influenciales
pueden ser puntos atípicos (outliers) o puntos de apalancamiento con alto leverage.
Un criterio empírico para determinar outliers es considerar como tales aquellos puntos
que se encuentren a una distancia de más de 3s de la recta de regresión (Sincich).
Otro criterio más técnico, muy utilizado para detectar valores atípicos, son las así
llamadas distancias de Cook, definidas para cada observación por:
ri 2 hii ei2  hii 

Di = =  2
k 1 − hii (k + 1)CME  (1 − hii ) 
donde los valores hii , conocidos como leverages, corresponden a la diagonal de la

matriz Hat y están dados por hii = xi ( X'X)−1 xi ' para i = 1, 2, , n donde xi es la i-
ésima fila de la matriz de diseño. Se consideran como atípicos aquellos puntos para los
que Di  1 .
Otro criterio, propuesto por Welsch y Kuh, consiste en utilizar los así llamados DFIT,
definidos como:
hii
DFITi = ri*
1 − hii
k
Se declaran como influenciales aquellos puntos para los cuales DFITi  2
n−k
Finalmente, otro criterio propuesto por Belsley, Kuh y Welsch (1980) para detectar
observaciones influenciales determina como tales aquellas observaciones para las cuales
se cumpla
k s(2i ) 1
Cov − 1  3  siendo Cov = 2 =
n s 1 − hii
Con frecuencia se suele realizar una prueba basada en la distribución Fk +1, n−( k +1) : un
Di  Fk +1, n−( k +1) , 0.5 usualmente se toma como indicativo de que un punto es leverage.
Un problema que se puede presentar al estimar modelos lineales es la presencia de

multicolinealidad, o alta correlación entre variables regresoras. Existen varias técnicas
para detectar la multicolinealidad. Uno de ellos utiliza los factores de inflación de
1
varianza o VIF (dados por VIFj = ) que son los elementos de la diagonal de R −1 ,
1 − R 2j
siendo R la matriz de correlaciones de las variables independientes. Un VIF
extremadamente alto indica colinealidad. En la práctica se assume que un VIF es alto
cuando su valor es superior a 10.
Otro procedimiento para detector variables redundantes, y por ende la presencia de

multicolinealidad, es conocido como regla de Klein. Consiste en realizar un modelo
lineal tomando cada variable regresora en función de las demás regresoras y examinar
el valor del R 2j , j = 1, 2, , p . Si este valor es mayor que el R 2 del modelo original,
se asume que hay multicolinealidad.
EJEMPLO:
Los datos siguientes (ChatIPs .txt) corresponden a mediciones hechas en una encuesta
de Sicología Industrial a 30 empleados de oficina, en la que se evalúa la satisfacción en
diferentes aspectos frente a los supervisores, en una corporación financiera. El
problema está descrito en Chatterjee (Ejemplo 3.3). La última variable es la respuesta Y,
las seis anteriores son regresoras.
CFLTS PRIVI APRZJ ADEPO BDEPO AVCMT CLGEN

51 30 39 61 92 45 43
64 51 54 63 73 47 63
70 68 69 76 86 48 71
63 45 47 54 84 35 61
78 56 66 71 83 47 81
55 49 44 54 49 34 43
67 42 56 66 68 35 58
75 50 55 70 66 41 71
82 72 67 71 83 31 72
61 45 47 62 80 41 67
53 53 58 58 67 34 64
60 47 39 59 74 41 67
62 57 42 55 63 25 69
83 83 45 59 77 35 68
77 54 72 79 77 46 77
90 50 72 60 54 36 81
85 64 69 79 79 63 74
60 65 75 55 80 60 65
70 46 57 75 85 46 65
58 68 54 64 78 52 50
40 33 34 43 64 33 50
61 52 62 66 80 41 64
66 52 50 63 80 37 53
37 42 58 50 57 49 40
54 42 48 66 75 33 63
77 66 63 88 76 72 66
75 58 74 80 78 49 78
57 44 45 51 83 38 48
85 71 71 77 74 55 85
82 39 59 64 78 39 82
.
El siguiente código en R permite realizar las estimaciones del modelo con los datos
anteriores y aplicar la mayor parte de las herramientas descritas anteriormente para
evaluar la bondad del modelo construido.
# ESTIMACION DE UN MODELO DE REGRESION MULTIPLE

#LECTURA DE LOS DATOS (a partir del archivo ChatIPsR.txt en C:\datos)
setwd("c:/datos")
datos = read.table('chatipsr.txt', header=T)
datos
pairs(datos) ## presenta diagramas de dispersión entre regresoras
cor(datos) ## presenta correlaciones entre regresoras
## Estimacioón del modelo de regresión

regresión <- lm(CLGEN ~ CFLTS+PRIVI+APRZJ+ADEPO+BDEPO+AVCMT,data=datos)
summary(regresión) ## Presentación de resultados
## Construye Intervalos de confianza del 90 y 95%

## Muestra la tabla de análisis de varianza

anova(regresión)
## Prueba gráfica de homogeneidad: estimados contra residuos

residuos = rstandard(regresión)
valores.ajustados = fitted(regresión)
plot(valores.ajustados, residuos,col="blue",pch=19,type="p")
abline(h=0,col="red")
##prueba de homogeneidad
library(lmtest)
bptest(regresión)
## Prueba de normalidad realizada sobre los residuos:

## Prueba gráfica QQ de normalidad
qqnorm(residuos,col="blue")
qqline(residuos,col="red",lwd=2)
## Prueba analítica de Shapiro sobre los residuos
shapiro.test (residuos)
## Prueba de independencia (No autocorrelación de primer orden)

## Estadístico de Durbin-Watson:
library(lmtest)
dwtest(CLGEN ~ CFLTS+PRIVI+APRZJ+ADEPO+BDEPO+AVCMT, alternative = "two.sided", data = datos)
## Detección de puntos influenciales

par(mfrow = c(2,2)) ## pone los gráficos en la misma ventana (2 filas y 2 columnas)
plot(regresión)
## Prueba DCook para valores atípicos

## Debe tener instalado el paquete car
car::influencePlot(regresión)
## Cálculo de los VIF para detectar multicolinealidad:

Vif(regresión)
MODELOS CON INTERACCION:
Ocasionalmente un modelo lineal podría tener otros términos diferentes a los

considerados en los ejemplos anteriores. Por ejemplo, un modelo que inicialmente se
plantea como de dos variables regresoras X1 , X 2 podría tener términos mixtos
(interacciones) y tal vez términos cuadráticos, lo que nos llevaría a modelos de la forma:
Y = 0 + 1 X1 +  2 X 2 + 3 X1 X 2 +  4 X12 + 5 X 22
Un modelo así planteado no difiere sustancialmente de los modelos ya vistos. Se trata

simplemente de otro modelo lineal múltiple con 5 variables regresoras el cual se estima
y se analiza como tal. Lo único necesario es tener una matriz de datos con 5 columnas,
la tercera de ellas igual al producto término a término de las dos primeras, la cuarta con
los cuadrados de los valores de la primera y la quinta con los cuadrados de los valores
de la segunda o tener un software que sea capaz de incorporar las nuevas variables
dentro del análisis.
EJEMPLO:
Generalmente el costo del envío de paquetes a través de un servicio de encomiendas

depende tanto del peso del paquete como de la distancia al sitio donde debe ser llevado
el paquete. Estos valores por lo general se fijan arbitrariamente sin que se tenga una
fórmula preestablecida para calcular el costo de envío. Una compañía dedicada al
transporte de encomiendas hizo un experimento para determinar el tipo de relación
existente entre las variables mencionadas y determinar cómo es la dependencia del
Costo respecto al Peso (W) de los paquetes y la Distancia (D) a la que deben ser
transportados. Se quizo, sin embargo, incluir en el modelo, además de las variables
regresoras D y W, la posible interacción DW y los cuadrados, tanto del peso (W2) como
de la distancia (D2)
La siguiente matriz de datos incluye las 6 columnas W D WD W2 D2 Y

donde W está en libras, D está en Millas, Y (el costo) en (dólares)
En estos datos, la columna WD es el product de las columnas W y D. La columna W2

corresponde a los cuadrados de la columna W y D2 a los cuadrados de la columna D.
Se puede realizar la estimación del modelo correspondiente, usando el programa en R visto

anteriormente, en el que solo se cambia la parte correspondiente a la lectura de los datos y a la
formulación del modelo, que tendría el siguiente aspecto:
setwd("c:/datos")
datos = read.table('ex44mend.prn', header=T)
datos

regresión <- lm(Costo ~ W + D + WD + W2 + D2,data=datos)
Al ejecutar el Código en R se obtienen los siguientes resultados:
Lo que nos dice que el costo de envio realmente está dependiendo del peso de la
encomienda, de una combinación entre peso y distancia y del peso al cuadrado.
Dejamos al lector el análisis de otras condiciones respecto a la bondad del modelo

estimado.
El mismo resultado anterior se logra si ejecutamos el Código siguiente:
setwd("c:/datos")
datos = read.table('ex44mend2.txt', header=T)
datos

regresión <- lm(Costo ~ W + D + W:D + I(W^2) + I(D^2),data=datos)
leyendo el archivo Ex44Mend2.txt que tiene únicamente las columnas correspondientes

a las variables W D y Costo
Lo anterior nos dice que para indicar una interacción en R se deben usar dos puntos (:)
entre las variables que interactúan y para incluir una variable a alguna potencia distinta
de 1 debemos incluir la potencia correspondiente dentro de I( ). Esto es necesario
pues el símbolo de potencia (^) tiene otras funciones dentro del modelo de regression
de R.
EJERCICIO
Los datos siguientes corresponden a mg de inmunoglobulina (IgG) en cl de sangre en

función del máximo de oxígeno absorbido por Kg como una medida de aptitud
aeróbica en una muestra de 30 personas.
Usted debe examinar el modelo de regression correspondiente para IgG como variable
independiente, verificando el cumplimiento de supuestos para juzgar la bondad del
modelo (normalidad, independencia, homocedasticidad, no presencia de valores atípicos
o influenciales, significancia de los coeficientes, etc). Debe justificar la decisión de
declarar como influential alguna observación e introducir correcciones hasta lograr un
modelo acceptable. Finalmente determinar la ecuación de éste ultimo modelo e
interpretar los resultados obtenidos.
UNIDAD 4
ALGUNOS ASPECTOS ADICIONALES

En esta unidad se mencionarán algunos aspectos relacionados con la regresión y que
generalmente forman parte de temas más especializados. Por esta razón serán tratados
con un estilo diferente, haciendo menos énfasis en la parte matemática y más bien
insistiendo en la interpretación y aplicabilidad de los mismos. Trataremos en primer
lugar algunos aspectos muy sencillos relacionados con la inclusión de variables
categóricas en los modelos de regresión y en segundo lugar dos procedimientos de
selección de variables para lograr modelos óptimos desde el punto de vista de la
parsimonia.
Los modelos vistos hasta el momento incluyen únicamente variables numéricas como
variables independientes (regresoras) pero es válida la pregunta de si un modelo lineal
puede incluir variables categóricas como variables regresoras. Por ejemplo, una de tales
variables podría estar indicando el lugar donde se observaron las demás variables del
modelo; digamos, por ejemplo: A=En clima frío, B=en clima templado y C=en clima
cálido. Evidentemente el coeficiente  que acompañe a dicha variable en el modelo
ya no puede ser interpretado como una constante por la que se ha de multiplicar la
variable para medir su aporte al modelo. ¿ Cómo se interpreta entonces?
Partamos de un ejemplo muy sencillo que nos permita introducir el tema. Supóngase
que se tiene el modelo lineal Y =  0 + 1 X en el que X es una variable categórica
con dos categorías 1=macho, 0=Hembra. Los códigos 1 y 0 son arbitrarios pero se
convendrá en que estas variables dicotómicas se codifiquen siempre con 0 y 1,
recibiendo entonces el nombre de variables dummy.
Como en todos los modelos lineales, se busca estimar el valor promedio de la variable
Y, es decir  Y . Aquí se observa claramente que la esperanza de Y está condicionada
por los valores de X, así: E(Y | X =1 ) =  0 + 1 y E(Y | X =0 ) =  0 . En otras palabras:
 H = E(Y | X = H ) =  0 y  M = E(Y | X = M ) =  0 + 1
Lo anterior implica :  0 =  H y 1 =  M −  H
El anterior resultado tiene grandes implicaciones: de una parte ofrece una interpretación
para los coeficientes del modelo en términos de los promedios teóricos de las categórías
y de sus diferencias. Siempre  0 será el promedio de una categoría llamada categoría
base o nivel base y  1 será la diferencia entre la media de la otra categoría y la media
de la categoría base. De otra parte la significancia de los coeficientes del modelo
permiten probar hipótesis acerca de las medias o de sus diferencias en las categórías.
Por ejemplo, si  0 es significativamente diferente de 0, se concluye que el promedio
de respuestas en el grupo de hembras es diferente de 0. Esta prueba se hace mediante el
estadístico t correspondiente a  0 y su nivel de significancia. Análogamente si  1 no
difiere significativamente de 0, se concluye que no existe diferencia significativa entre
la respuesta media del grupo de machos y la respuesta media del grupo de hembras.
Nuevamente la prueba se basa en el estadístico t correspondiente al coeficiente  1 .
Consideremos ahora el caso de una variable categórica de tres niveles. Supóngase, por
ejemplo, que X es una variable que representa el nivel socioeconómico del individuo
que ha proporcionado la respuesta Y. Supongamos además que los niveles han sido
codificados como A=Bajo, B=Medio y C=Alto. Se pueden introducir dos variables
dummy definidas así:
1 Si estrato alto 1 Si estrato medio

X1 =  X2 = 
0 Si no 0 Si no
utilizando las dos variables dummy, el modelo Y =  0 + 1 X se transforma en el

nuevo modelo Y =  0 + 1 X 1 +  2 X 2 en el cual los coeficientes se interpretan así:
0 = E(Y | X =0, X
1 2 =0
) = A (Nivel base)
 0 + 1 = E(Y | X 2 = 0) =  B de donde 1 =  B −  A
 0 +  2 = E(Y | X 1 = 0) =  C de donde  2 =  C −  A
Resulta claro que la anterior situación es perfectamente generalizable para cualquier

número r de categorías y que serán necesarias r − 1 variables dummy para resolver el
problema. Estos resultados son muy usados en el diseño de experimentos cuando se
quieren comparar varios tratamientos con un testigo usando técnicas de modelos
lineales en cambio de los análisis de varianza.
Examinaremos ahora el siguiente ejemplo en el que el cobro de tarifas aéreas de

transporte para 15 artículos (por kilogramo) dependen de la naturaleza de los artículos
que han sido clasificados en una de tres categórias: Frágil, Semifrágil y Dura. En el
archivo de datos se han incluído las dos variables dummy X1 y X2. (Ver tabla en la
página siguiente)
La estimación del modelo se ha realizado con el programa ESM, ya mencionado
anteriormente. Es buen ejercicio para el lector relizar la correspondiente estimación
usando otro software, por ejemplo R o Infostat. Los resultados son los mismos y la
interpretación de los resultados aparecen dos páginas más adelante
COSTO Kg NATURALEZA X1 X2
1720 Frágil 1 0
1110 Frágil 1 0
1200 Frágil 1 0
1090 Frágil 1 0
1380 Frágil 1 0
650 Semifrágil 0 1
1080 Semifrágil 0 1
1150 Semifrágil 0 1
700 Semifrágil 0 1
850 Semifrágil 0 1
210 Duro 0 0
130 Duro 0 0
340 Duro 0 0
750 Duro 0 0
200 Duro 0 0
A continuación pueden verse los resultados de la estimación del modelo correspondiente al

ejemplo anterior:
Modelo: Y = ß0 + ß1*X1 + ß2*X2 + á3*X3 + ... + ßk*Xk
1. ESTIMACION DE LOS COEFICIENTES DEL MODELO:
COEFICIENTES ESTIMADOS T( 12 GL) VAL P VARIABLE

_______________________________________________________________________
ß 0 = 326.00000000 3.0318 0.01018 Intercepto
ß 1 = 974.00000000 6.4051 0.00012 x1
ß 2 = 544.00000000 3.5774 0.00400 x2
_______________________________________________________________________
T = Estadístico para H0: ßi=0 H1: ßi <> 0 (Individualmente)
2. INTERVALOS DE CONFIANZA DE 90, 95 Y 99% PARA LOS COEFICIENTES:
COEFICIENTE: ß 0 : ERROR ESTANDAR: 107.52674086
90% [ 134.387348, 517.612652]

95% [ 91.699232, 560.300768]
99% [ -2.494193, 654.494193]
90% [ 703.018789, 1244.981211]

95% [ 642.648676, 1305.351324]
99% [ 509.439057, 1438.560943]
90% [ 273.018789, 814.981211]

95% [ 212.648676, 875.351324]
99% [ 79.439057, 1008.560943]
________________________________________________________________________
3. TABLA ANOVA CORREGIDA POR LA MEDIA (No incluye Intercepto en H0)

________________________________________________________________________
FUENTE SUMA DE CUADRADOS GL CUADRADOS MEDIOS F
Modelo 2382520.0000 2 1191260.000000 20.60647
Error 693720.0000 12 57810.000000 *****
Total 3076240.0000 14 219731.428571 *****
-------------------------------------------------------------------------
F con 2 y 12 GL. Valor P: 0.000280
F = Estadístico para probar H0: ß1 = ß2 = ß3 = ... = ßk = 0
Como puede apreciarse, la media del nivel base (duro) es  A = 326 , valor
significativamente mayor que cero. De igual manera,  B −  A  0 es decir,
 B   A y también  C   A
Se pueden considerar dos o más variables categóricas en un modelo lineal. El

tratamiento es exactamente el mismo: transformar el modelo introduciendo variables
dummy –una menos que el número de niveles de cada variable categórica. La
introducción de dos variables categóricas equivale a un diseño bifactorial. Tres
categóricas equivale a un diseño de tres factores, etc.
CONSTRUCCION DE UN MODELO OPTIMO
El segundo tema que se tratará en esta unidad tiene que ver con las técnicas de selección
de variables para encontrar un modelo parsimonioso.
En primer lugar describiremos el método STEPWISE o método “paso a paso”, llamado

así porque el modelo se conforma introduciendo una a una las variables de mejor
desempeño o retirando la de peor desempeño hasta cuando la medida de bondad del
modelo deje de cambiar.
Aunque existen variantes del método, en la mayoría de los casos se sigue el siguiente
procedimiento (al menos éste es el que siguen los más importantes paquetes estadísticos
que hacen regresión stepwise).
En primer lugar se identifica la variable respuesta Y Luego se siguen los pasos

siguientes:
PASO 1. Se estiman todos los posibles modelos Y =  0 + 1 X i i = 1,2,…,p. Es decir,

tomando una a una las p variables independientes. En cada caso se prueba la hipótesis
H0:  1 = 0 contra la alteativa H1 : 1 0 . El parámetro significativamente distinto de
cero que tenga el mayor valor t se declara como “el mejor” y la X i correspondiente a
dicho parámetro será la primera variable del modelo, notada X 1 (no necesariamente es
la primera variable de la lista original).
PASO 2. Se agregan una a una las p − 1 variables independientes restantes, para formar
p − 1 modelos lineales de la forma Y =  0 + 1 X 1 +  2 X i y en cada uno de ellos se
prueba la hipótesis H0 :  2 = 0 contra H1 :  2  0 Nuevamente la variable
correspondiente al parámetro  2 de mayor valor t se retiene para el modelo. En este
momento hay diferencias entre los paquetes. Los mejores paquetes vuelven a la variable
X 1 y examinan el valor t. Si este valor ha dejado de ser significativo por estar por
debajo de cierto nivel, digamos 0.5 (nivel de salida), remueven la variable X 1 del
modelo y se reinicia una búsqueda entre las demás variables para introducir aquella que
tenga un t mas significativo, comparado con un cierto nivel de entrada, digamos 0.5
Otros paquetes no hacen esto sino que simplemente van al paso 3.
PASO 3. Se introducen una a una las p − 2 variables restantes para formar modelos
lineales de tres variables independientes y se procede en general como en el paso
anterior. Nuevamente puede haber o no una remoción de alguna de las variables
previamente seleccionadas y su reemplazo por alguna de las otras variables. El
procedimiento continúa hasta que no se encuentren más variables con valores t no
significativos, es decir hasta que según los criterios de entrada y salida no haya más
movimientos de variables en el modelo.
A manera de ejemplo, examinaremos el siguiente archivo de datos, usando ASP

(versión estudiantil), un pequeño pero potente programa estadístico que se consigue con
el texto de Mendenhall y Sincich (b), citado en la bibliografía (recomendable para
estudiantes que prefieran textos en castellano)
El número de horas-día que los trabajadores de un gran almacén laboran usualmente

depende de varias variables, entre ellas:
X1 = número de piezas de correo procesadas (abiertas, ordenadas, respondidas, etc)

X2 = número de órdenes pagadas, certificadas, etc
X3 = número de pagos por ventanilla o cajas
X4 = número de transacciones de cambio procesadas
X5 = número de cheques visados
X6 = número de devoluciones atendidas
Y = números de horas-día trabajadas en el almacén. Esta es la variable dependiente
Se toma la información correspondiente a 15 días y con ella se busca estimar un modelo

lineal que describa la situación.
Día Horas Tr X1 X2 X3 X4 X5 X6
1 128.5 7781 100 886 235 644 56
2 113.6 7004 110 962 388 589 57
3 146.6 7267 61 1342 398 1081 59
4 124.3 2129 102 1153 457 891 57
5 100.4 4878 45 803 577 537 49
6 119.2 3999 144 1127 345 563 64
7 109.5 11777 123 627 326 402 60
8 128.5 5764 78 748 161 495 57
9 131.2 7392 172 876 219 823 62
10 112.2 8100 126 685 287 555 86
11 95.4 4736 115 436 235 456 38
12 124.6 4337 110 899 127 573 73
13 103.7 3079 96 570 180 428 59
14 103.6 7273 51 826 118 463 53
15 133.2 4091 116 1060 206 961 67
Utilizando un valor de 0.5 para valores de t 2 o F (es lo que pide ASP) se obtiene el
siguiente resumen del proceso:
____________________________STUDENT_VERSION_OF_ASP_____________________________
FILE: WORK, NO. OF VARIABLES: 7, NO. OF CASES: 15 (MISS. CASES: 0)

LABEL: Datos para aplicación Stepwise
________________________________________________________________________________
STEPWISE REGRESSION
DEPENDENT VARIABLE: horas

INDEPENDENT VARIABLES:
1. x1 2. x2 3. x3 4. x4 5. x5 6. x6 7. CNST
F TO ADD = 0.5, F TO DROP = 0.5, TOLERANCE = 1E-3
MODEL: horas = 0.0380179x5 + -0.0380483x4 + 0.0278928x3 + 1.16654E-3x1

+ 73.9816CNST
COEF. SD. ER. t(10) P-VALUE PT. R SQ.

----------- --------- ------- --------- ---------
x5 0.0380179 0.0154859 2.455 0.0339657 0.376054
x4 -0.0380483 0.0157585 2.41446 0.0364048 0.368273
x3 0.0278928 0.013945 2.0002 0.0733638 0.285755
x1 1.16654E-3 8.0316E-4 1.45244 0.177024 0.174208
CNST 73.9816 ********* ******* ********* ********
R SQ. = 0.819972, ADJ. R SQ. = 0.747961, D. W. = 1.71477

SD. ER. EST. = 7.20644, F(4/10) = 11.3867 (P-VALUE = 9.64408E-4)
Como puede apreciarse, la primera variable en entrar al modelo fue X5, luego X4, X3,
X1. No entraron en el modelo ni X2 ni X6. Se observa que la variable X1 no resulta
significativa en este modelo lo que implica que seguramente hace falta una nueva
estimación subiendo el valor para los criterios de entrada y salida.
Existen otros procedimientos para seleccionar el mejor grupo de variables para un
modelo lineal entre los cuales podemos citar el criterio C p , el criterio MSE o del R 2
ajustado. Mencionaremos únicamente el criterio PRESS, basado en el estadístico del
mismo nombre, por ser uno de los más efectivos aunque exige numerosos cálculos,
siendo, por tanto, realmente útil cuando se estudian modelos de pocas variables.
Se define el estadístico PRESS (Prediction Sum of Squares) para un modelo lineal ,

2
mediante la expresión y i − yˆ (i ) donde yˆ ( i ) denota el valor estimado para la i-
ésima observación mediante el modelo obtenido con las n − 1 observaciones restantes

al eliminar la i-ésima observación de la muestra. El procedimiento para aplicar el
criterio PRESS es simple pero engorroso: estimar todos los modelos con una sola
variable independiente, todos los modelos con dos variables independientes, todos los
modelos con tres variables independientes, y así sucesivamente hasta llegar al modelo
formado por las p variables independientes. En cada caso se calcula el estadístico
PRESS del modelo correspondiente y finalmente se elige como mejor modelo aquel
que tenga el menor valor PRESS.
El PRESS también se puede calcularse de una manera más rápida mediante la

2
 e 
n
expression PRESS =   i 
i =1  1 − hii 
Los paquetes estadísticos más importantes ponen a disposición los dos métodos
stepwise (paso a paso) mencionados anteriormente en sus dos versiones: Forward
(partiendo del modelo sin variables y agregando en cada paso aquella variable que más
aporte) y Backward (que parte del modelo completo y en cada paso elimina la variable
que menos aporta)
Funciones linealizables
Existen algunos modelos funcionales para describir curvas de ajuste que, aunque no
presentan la forma de un modelo lineal, y = 0 + 1 x , mediante transformaciones de
variables pueden ser llevados a esta forma y, en consecuencia, mediante una muestra
observada podrían estimarse sus coeficientes.
Algunos ejemplos de funciones linealizables son:
1. y =  x  que se transforma en Ln(y ) = Ln( ) +  Ln(x) al tomar logaritmos en

ambos miembros. El modelo transformado puede escribirse como y* = 0 + 1 x*
donde y* = Ln( y) , 0 = Ln( ) , 1 =  y x* = Ln( x) .
2. y =  Exp(  x) que se transforma en Ln( y ) = Ln( ) +  x

x 1 1 1
3. y = . Se cumple =  +    . En consecuencia, podría hacerse y* =
x+  y  x y
1
y x* = con lo cual el modelo podría escribirse como y* =  +  x*
x
Exp( +  x)
4. y = . Esta función, de gran importancia estadística, se conoce como
1 + Exp( +  x)
función logística y será estudiada en la unidad siguiente. Se puede tomar
 y 
y* = Ln   con lo cual el modelo se transforma en y =  +  x
*
 1− y 
EJEMPLO
Los procesos de crecimiento o decrecimiento de poblaciones biológicas son ejemplos

típicos de fenómenos que pueden ser descritos por el segundo modelo linealizable dado
en la lista anterior. Los datos siguientes representan el número de bacterias
sobrevivientes (en centenares) después de que han sido expuestas a rayos X de 200
kilovoltios durante 1 hora y media, haciendo el recuento de bacterias vivas
periódicamente cada 6 minutos (Chatterjee, 1977)
Per 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Bac 355 211 197 166 142 106 104 60 56 38 36 32 21 19 15
Datos para el ejemplo
La gráfica siguiente, correspondiente a los datos anteriores, muestra una típica curva de
crecimiento negativo de poblaciones que, en forma directa, no puede ser estimada
mediante un modelo lineal. Nuestro objetivo es utilizar la muestra para estimar los
coeficientes del modelo.
Diagrama de dispersión de datos (ESM v8)

Si se supone el modelo y =  e1x se tendrá y* = 0 + 1 x donde y* = Ln( y) y
0 = Ln(  )
Si Se toman los logaritmos naturales de los valores de y y se grafican los nuevos

valores se obtiene la gráfica siguiente que, como se ve, tiene mayor ajuste a una línea
recta.
Diagrama de dispersión con los logaritmos de los datos (ESM v8)
La estimación de los coeficientes en este modelo produce los resultados siguientes,

como puede comprobar el lector: 0 = 5.9732 , 1 = −0.2184 y el modelo satisface
todos los supuestos.
Se concluye entonces que Ln( y ) = 5.9732 − 0.2184 x .
Puesto que  = Exp( 0 ) = e5.9732 = 392.76 , se tendrá y = 392.76e−0.2184 x como

ecuación para modelar el decrecimiento de la población de bacterias.
UNIDAD 5
REGRESION LOGISTICA
Hasta el momento los modelos de regresión que hemos examinado se han

caracterizado porque la variable de respuesta Y es de tipo mumérico con distribución
normal y las variables independientes han sido numéricas o categóricas. Pretendemos
ahora presenter otro tipo de modelos en los que algunos de los dos supuestos
anteriores deja de cumplirse. En primera instancia estudiaremos algunos modelos en
los que la variable de respuesta es una variable de tipo categórico. Son los modelos
logísticos.
Haremos en primer lugar una presentación de los modelos logísticos o de regresión

logística, recurriendo a la presentación clásica en la que los coeficientes se estiman por
métodos de máxima verosimilitud.
Inicialmente presentaremos el caso en que Y toma sólo dos valores que denotaremos
por 0 y 1, es decir, Y es una variable dummy. Una primera observación que podemos
hacer es que la normalidad de los errores ya no se cumple. Igualmente como se vió
antes, la varianza del error es función de  , la probabilidad de que Y sea un éxito. En
consecuencia, estos modelos deben ser tratados de una manera diferente.
El modelo que inicialmente se trata es de la forma
E(Y ) = 0 + 1 X1 + 2 X 2 + + pX p
donde la respuesta Y toma los valores 0 o 1, y puede ser considerada como una
variable aleatoria con distribución Bernoulli. En este caso se cumple que
E(Y ) = g ( ) = 0 + 1 X1 + +  p X p para ciertos valores de las variables X i con
 = E(Y = 1) ,
Un modelo particular de regresión como el que se ha querido presentar anteriormente

es aquel en el cual la función que representa la relación entre X y Y no es una línea
recta sino una curva como la famosa curva en forma de “S” que describe el crecimiento
de una población, llamada curva logística y que, sin pérdida de generalidad podemos
considerar acotada por las rectas y = 0 y y = 1 . Esta curva fue inicialmente
utilizada en análisis de sobrevivencia, razón por la cual sus valores son tomados entre 0
ex
y 1. Dicha curva está relacionada con la distribución logística F ( x) = , x ,
1 + ex
ex
cuya función de densidad es f ( x) = , x  (Dudewicz y Mishra, p136)
(1 + e x )
2
El modelo logístico para una única variable regresora tiene la forma:
Exp(  0 +  1 X 1 )
y=
1 + Exp(  0 +  1 )
En forma general, para varias variables independientes, el modelo logístico se define

como
Exp(  0 +  1 X 1 +  2 X 2 +  +  p X p ) 1 Si ocurre A
E( y ) = donde y = 
1 + Exp(  0 +  1 X 1 +  2 X 2 +  +  p X p ) 0 Si no ocurre A
es claro además que E( y ) = P(ocurra A) = 

En este caso X 1 , X 2 ,, X p pueden ser variables numéricas o categóricas.
Se observa que el modelo logístico no es un modelo lineal en los parámetros  i y

aunque estos valores podrían ser estimados por métodos de regresión no lineal –lo
que exige sofisticados programas de computador- existen algunos métodos más
sencillos para estimarlos.
La primera idea es utilizar mínimos cuadrados, como hacíamos anteriormente.
Veamos:
1. Mínimos cuadrados mediante transformación. Puesto que
Exp(0 + 1 X 1 +  2 X 2 + + pX p)
'
eβ X
 = E( y ) = =
1 + Exp(0 + 1 X 1 +  2 X 2 + + pX p) 1 + eβ X
'
se concluye que

) =  0 + 1 X 1 +  2 X 2 + +  p X p = eβ X
'
ln(
1− 
Este último sí es un modelo lineal en el que la variable dependiente está dada por

ln( ) y se podría pensar en aplicar los métodos ya vistos para estimar los
1−
coeficientes  i
Puesto que y toma los valores 0 y 1 únicamente, se concluye que

 = E( y ) = P( y = 1)
 P(y = 1)
De aquí que 1 −  = P( y = 0) . En consecuencia, =
1 −  P(y = 0)

La fracción es conocida con el nombre de odds, es decir, es una razón de
1−
probabilidades que expresa la ventaja de la ocurrencia sobre la no-ocurrencia de A. El
modelo transformado es entonces un modelo para el logaritmo natural de la odds, por
tal razón se le da también el nombre de modelo log-odds.
En la cultura sajona las odds tienen un interpretación usual como en la cultura latina la
tienen los porcentajes. Por ejemplo, cuando afirmamos que un 75% de los pacientes
que ingresasn con quemaduras a un hospital sobreviven, los anglosajones hablan de un
odds de 3, pues para ellos es más usual 0.75/0.25
Un concepto importante a tener en cuenta en regresión logística es el de Riesgo

relativo. Supóngase que P(E|A) denota el riesgo de que se produzca una enfermedad E
cuando está presente la condición A. Si B es otra condición, de modo que P(E|B) es el
riesgo de que se produzca la enfermedad estando presente B, el cociente
P(E A )
RR = expresa el riesgo relativo de que se produzca la enfermedad E cuando
P(E B)
se está en la condición A respecto a cuando se está en la condición B. En otras
palabras, dice cuánto más (o menos) probable es la enfermedad cuando se está en A
que cuando se está en B.
Un caso muy especial de riesgo relativo es aquel en el cual B es la condición

complementaria de A y se denomina odds. En tal caso, RR indica la probabilidad de
que se produzca E habiendo estado en la condición A respecto a no haber estado en
ella. Es decir, el odds representa cuánto más probable es que se produzca E cuando se
ha estado en la condición A que cuando no se ha estado en ella. Por ejemplo, cuánto
más probable es sufrir cáncer cuando se ha sido sometido a rayos X en forma
permanente que cuando no ha sido así. Este odds también se denomina riesgo
relativo inherente al factor A.
Así como el RR es la razón de dos probabilidades, puede definirse también la razón de

dos odds, lo que comunmente se llama Odds’ ratio y que corresponde en esencia al
mismo concepto de riesgo relativo. Se define la Odds’ ratio para el factor F como
P(E F)
1-P(E F)
Odds ratio =
P(E F )
1-P(E F )
Donde F denota la no exposición a F (condición complementaria de F).
Vimos antes cómo mediante una transformación, fue posible llevar el modelo logístico
a un modelo de tipo lineal. Sin embargo, aunque se haya logrado transformar el
modelo a un modelo lineal, existen aún dos problemas: De una parte, puesto que  es
desconocido, también lo es el logaritmo de la odds y estos valores son necesarios para
poder estimar el modelo (equivale a los valores de respuesta observados de los
modelos corrientes). En consecuencia se hace necesario estimarlos. Un buen
ˆ
estimador es el valor ln( ) donde ̂ es la proporción de 1’s que se encuentren
1 − ˆ
en la muestra para la combinación particular de X’s. Sin embargo, para poder obtener
estas estimaciones se hace necesario tener varias observaciones replicadas para la
misma combinación de los niveles de las X’s
El segundo problema es la falta de homocedasticidad. El modelo transformado

presenta varianzas que son inversamente proporcionales a  (1 −  ) y, puesto que
 es función de las variables independientes, los errores del modelo son
heterocedásticos. Con el fin de estabilizar la varianza se hace necesario usar regresión
ponderada. Esta técnica, además de que exige también replicaciones para los mismos
niveles de las variables independientes, demanda que tales replicaciones se den en
número relativamente grande. Si se han utilizado n j replicaciones para cada
combinaciones de niveles de las X’s, la ponderación indicada es w j = n jˆ (1 − ˆ )
donde
Número de 1' s para la j - ésima combinació n de X' s

ˆ =
nj
Como consecuencia de lo anterior, se concluye que usar MCO no es realmente viable
para estimar este tipo de modelos.
2. Estimación por máxima verosimilitud. Se basa en un método cuyos principios son

los siguientes en líneas generales:
Llamemos  i a la probabilidad en que se encuentre el i-ésimo individuo. Si

yi = 1 entonces i = pi , por el contrario, yi = 0 implica i = 1 − pi . La probabilidad
 i es función de pi y de yi , dada por i = piy (1 − pi )1− y . Si se define la función de
i i
verosimilitud V como el producto de los  i para toda la muestra, es decir:
n
V =  piyi (1 − pi )1− yi
i =1
V es una función acotada por 0 y 1 la cual, para valores fijos de y y de los X ' s , toma
valores que dependen de los coeficientes  i . Se trata entonces de encontrar los
valores de estos coeficientes que hagan que V esté lo más cerca posible de 1. Esto se
logra maximizando el logaritmo de V que tiene la forma:
n
L( yi , β) =  [ yi ln( pi ) + (1 − yi ) ln(1 − pi )] con pi = P(Y = yi xi )
i =1
Lo que se logra mediante métodos numéricos iterativos que buscan valores que hagan
crecer el valor de V y que se detienen cuando el incremento de ese valor deje de ser
perceptible, de acuerdo con algún valor pequeño que se ha prefijado. El algoritmo
utilizado está fuera del alcance de estas notas y se basa en un método de Newton y
Raphson para resolver ecuaciones no lineales (Agresti, 1990). Entre los resultado que
arroja el proceso es bueno tener en cuenta la verosimilitud inicial
V I y la verosimil itud final V F ya que las dos permiten definir el cociente de
V 
verosimilitud R = −2 ln  I  = −2[ln(VI ) − ln(VF )] el cual tiene distribución Ji-
 VF 
cuadrado con p grados de libertad y sirve para evaluar si las p variables X i tomadas
en conjunto, contribuyen efectivamente a explicar las modificaciones que se producen
en P( y = 1) , la hipótesis nula afirma en este caso que las variables independientes no
modifican la probabilidad de un resultado exitoso.
Se dijo anteriormente que los modelos logísticos pueden incluir variables categóricas
dentro de las variables independientes. Esto es cierto siempre que se haga con
precaución. Las variables dicotómicas puras (tipo SI-NO) deben entrar como variables
dummy, es decir, deben tomar el valor 1 cuando ocurra la categoría A y el valor 0 en
caso de que no ocurra. Una variable categórica pura con r categorías debe ser
expresada mediante r − 1 variables dummy que reemplazan a la variable categórica
dentro del modelo. Para ello se debe seguir la la regla ya conocida, que resumimos en
el siguiente procedimiento:
Si X es variable categórica con r categorías codificadas con 1, 2, 3, ..., r tomemos r − 1

variables dummy Z 1 , Z 2 ,, Z r −1 definidas así:
VARIABLE X Z1 Z2 Z3 Z4 ... Zr-1

1 0 0 0 0 ... 0
2 0 1 0 0 ... 0
3 0 0 1 0 ... 0
4 0 0 0 1 ... 0
    
r 0 0 0 0 ... 1
Supóngase, por ejemplo, que se tiene una variable categórica que representa el tipo de
sangre, la cual se ha sustituído por tres variables dummy Z1, Z2, Z3, de acuerdo con lo
siguiente:
X = Tipo de Sangre Z1 Z2 Z3
O 0 0 0
A 1 0 0
B 0 1 0
AB 0 0 1
Con frecuencia se toma la última categoría como la categoría base o de referencia,

identificada solo con 0’s.
Supóngase además que se ha incluído el factor RH el cual se ha codificado con 0 si es

positivo y con 1 si es negativo. Admitamos que después de haber examinado 1094
sujetos se llega a unos resultados como los expresados en la siguiente tabla:
Enfermó (1) No Enfermó (0)

Grupo Sanguíneo RH Neg RH Pos RH Neg RH Pos
(1) (0) (1) (0)
O 50 60 26 48
A 200 30 100 10
B 150 60 75 19
AB 100 64 52 50
Imaginemos que se ha aplicado regresión logística a estos datos obteniendo las

estimaciones de los coeficientes dadas en la tabla siguiente :
Intercepto Z1 Z2 Z3 RH
b0 = 0.374 b1 = 0.316 b2 = 0.390 b3 = 0.070 b4 = 0.053
y, por tanto, el modelo:
Y = 0.374 + 0.316  Z1 + 0.390  Z2 + 0.070  Z3 + 0.053  RH
Para un sujeto con RH negativo y sangre tipo B ( Z1 = 0, Z 2 = 1, Z3 = 0 ), la probabilidad

de padecer la enfermedad,  = P(Y = 1) , satisfaría la ecuación:
  
0.817
e
Ln   = 0.374 + 0.390 + 0.053 = 0.817 , y, por tanto,  = = 0.694
 1−   1 + e0.817
mientras que para un individuo con sangre O+ tal probabilidad valdría 0.592 aprox.
Obsérvese que Exp(b4) = Exp(0.053) = 1.05. Esto significa que la razón de los odds
asociados al factor RH vale 1.05 y se interpreta diciendo que tener factor RH negativo
incrementa el riesgo de padecer la enfermedad en un 5% respecto de tenerlo positivo,
independientemente del grupo sanguíneo. Esto es así, porque se está ante un caso en
que todas las variables son iguales, excepto una, el RH.
Aunque puede ser discutible, cuando la variable categórica independiente es una

variable ordinal, sus categorías, ordenadas en forma creciente, pueden ser codificadas
con los dígitos 1, 2, 3, ..., r, e ingresar al modelo como una variable única. Aunque, a
veces, suele reemplazarse como en el caso anterior.
Digamos finalmente que es posible tener modelos de regresión logística donde la

variable dependiente Y sea una variable categórica con r categorías, codificadas con
1, 2, 3, ..., r. (Regresión logística politómica). También en este caso se hacen necesarias
r − 1 variables dummy, W1 ,W2 , ,Wr −1 para reemplazar a la variable Y , y simplemente
se estiman r − 1 modelos dicotómicos (es decir, con una variable respuesta de 0’s y
1’s), tomando cada vez una de las variable dummy de respuesta. Es decir, el primer
modelo tendrá las variables W1 , X1 , X 2 , , X p , El segundo modelo las variables
W2 , X1 , X 2 , , X p , etc.
Siguiendo el proceso anterior, se P(Y = 2) = P(W1 = 1) ,

concluye que
P(Y = 3) = P(W2 = 1) ,…, P(Y = r ) = P(Wr −1 = 1) . Finalmente, P(Y=1) será el
complemento de la suma de las probabilidades anteriores.
Los programas RELODI y RELOPO permiten estimar modelos de regresión logística
dicotómica y politómica respectivamente
El siguiente archivo de datos corresponde a la tabla anterior (grupos sanguíneos de

1094 sujetos) y tiene el formato apropiado para ser analizado con RELODI:
4,agrupados,enfer,z1,z2,z3,rh
1, 200, 1, 0, 0, 1
1, 30, 1, 0, 0, 0
0, 100, 1, 0, 0, 1
0, 10, 1, 0, 0, 0
1, 150, 0, 1, 0, 1
1, 60, 0, 1, 0, 0
0, 75, 0, 1, 0, 1
0, 19, 0, 1, 0, 0
1, 100, 0, 0, 1, 1
1, 64, 0, 0, 1, 0
0, 52, 0, 0, 1, 1
0, 50, 0, 0, 1, 0
1, 50, 0, 0, 0, 1
1, 60, 0, 0, 0, 0
0, 26, 0, 0, 0, 1
0, 48, 0, 0, 0, 0
Los resultados obtenidos pueden resumirse en lo siguiente:
-2 ln(Vi) = 1412.99 -2 ln(Vf) = 1406.11
VARIABLE COEFICIENTE ODDS’ RATIO

Cte 0.374409 ----
Z1 0.316097 1.371764
Z2 0.389958 1.476919
Z3 0.070033 1.072544
RH 0.053429 1.054882
El mismo ejemplo, para ser analizado en Infostat, adopta la forma

Tabla de Datos para ejemplo en Infostat
y proporciona las siguientes estimaciones:
Interpretación de resultados:
Como se ve, las estimaciones de los coeficientes del modelo son las mismas. Infostat
ˆ
proporciona además las odds’ ratio (razones de odss) , ei , los intervalos de confianza
de Wald para las odds´ratio que están dados por e ( î − z /2 EE ( i ) ˆ
)
, e i + z /2 EE ( i ) , los
valores p para probar la significancias de los coeficientes y otros resultados cuyo
significado, por ahora, no vamos a discutir.
El ejemplo siguiente involucra variables regresoras numéricas. En tales casos es
conveniente tener la tabla de datos completa con todos los n individuos de la muestra,
aunque es claro que individuos con exactamente la misma información (aún la de las
variables numéricas) podrían ser contados para formar una columna de frecuencias.
EJEMPLO
Se tiene una muestra de 22 personas de dos etnias (1 = Afro, 0 = otro) con diferentes
niveles de estudio (P = Primaria, S= Secundaria, U = Universitaria) y su edad en años
cumplidos. Se considera como respuesta el estar desempleado o no ( 1 = Desempleado,
0 = empleado).
La variable nivel de estudios se ha sustituído por dos variables dummy, Z1 , Z 2 , como se

indica en el cuadro siguiente:_
Con lo cual el archivo de datos toma la forma siguiente:
En el análisis con Infostat no incluímos la última variable <Nestudios> que ya ha sido

reemplazada pr Z1 y Z2. Se obtienen las siguientes estimaciones para el modelo:
el cual tiene la forma siguiente:
 p 
ln   = −4.05 − 3.07  Etnia+0.89  Z1 − 0.04  Z 2 + 0.15  Edad
 1 − p 
Podemos averiguar, por ejemplo, cual es la probabilidad de que una persona Afro con
40 años de edad y nivel universitario de estudios, esté desempleada:
Para esta perzona se tiene Z1 = Z 2 = 0 así que

 p 
ln   = −0.45 − 0.07 + 0.15  40 = 5.48
 1− p 
de donde:
e5.48
p= = 0.9958
1 + e5.48
MODELOS LOGISTICOS MULTINOMIALES O POLITÓMICOS
Supóngase que la variable de respuesta Y tiene k categorías y tomemos como

categoría de referencia la última de ellas (igual es si se toma otra cualquiera). Por
conveniencia, denotemos  0 la probabilidad de la categoría de referencia. Las
probabilidades teóricas de las demás categorías serán:  i , i = 1, 2, , k −1 . Estos
valores son realmente desconocidos pero sus estimaciones a partir de los datos pueden
ser notadas como p1 , p2 , , pk −1 , p0 . Podemos entonces formular k − 1 modelos
logísticos de la forma:
 p1 
1 = ln   = 10 + 11 X 1 + 12 X 2 + + 1 p X p
 p0 
 p2 
 2 = ln   =  20 +  21 X 1 +  22 X 2 + + 2 p X p
 p0 
 pk −1 
 k −1 = ln   =  k −1,0 +  k −1,1 X 1 +  k −1,2 X 2 + +  k −1 p X p
 0 
p
Todos ellos relacionados con la categoría de referencia, los que pueden ser estimados
usando un algoritmo similar al ya mencionado en el aparte anterior, para lo cual se
requiere software especializado.
A partir de las estimaciones anteriores se obtiene:
p1 = p0e1 , p2 = p0e2 , , pk −1 = p0ek −1
Puesto que las sumas de todas las k probabilidades de las categorías deben sumar 1, se
deduce que
p0e1 + p0e2 + p0e3 + + p0ek −1 + p0 = 1

Esto es:
(
p0 e1 + e 2 + e3 + + e k −1 + 1 = 1 )
De donde:
1 1
p0 = =
1 + e + e + e3 +
1 2
+e  k −1 k −1
1 +  Exp( i )
i =1
En resumen:
En este caso la respuesta tiene tres valores categóricos: Aprobado, Aplazado y

Rechazado.
Definimos variables dummy de la siguiente manera:
De esta manera el archivo de datos del cuadro anterior tendrá el aspecto siguiente:
Usando Minitab para estimar el modelo de regresión logística con tres categorías para Y
siendo la tercera de ellas la categoría de referencia se obtiene:
Regresión logística nominal: Y vs. PS; Z1; Z2; T1; T2
Información de respuesta
Variable Valor Conteo

Y 3 195 (Evento de referencia)
2 354
1 177
Total 726
Frecuencia: Freq
Tabla de regresión logística (Tomando como referencia la tercera categoría)
IC de
Relación de 95%
Predictor Coef SE Coef Z P probabilidades Inferior
Logit 1: (2/3)
Constante 0.182563 0.236446 0.77 0.440
PS -0.138976 0.179648 -0.77 0.439 0.87 0.61
Z1 0.430375 0.220545 1.95 0.051 1.54 1.00
Z2 0.432446 0.226221 1.91 0.056 1.54 0.99
T1 0.0994148 0.228792 0.43 0.664 1.10 0.71
T2 0.375322 0.229604 1.63 0.102 1.46 0.93
Logit 2: (1/3)
Constante -1.67897 0.335594 -5.00 0.000
PS 0.541796 0.217915 2.49 0.013 1.72 1.12
Z1 0.928240 0.306604 3.03 0.002 2.53 1.39
Z2 1.55741 0.297931 5.23 0.000 4.75 2.65
T1 0.100743 0.282930 0.36 0.722 1.11 0.64
T2 0.599579 0.274541 2.18 0.029 1.82 1.06
Predictor Superior
Logit 1: (2/3)
Constante
PS 1.24
Z1 2.37
Z2 2.40
T1 1.73
T2 2.28
Logit 2: (1/3)
Constante
PS 2.64
Z1 4.61
Z2 8.51
T1 1.93
T2 3.12
Log-verosimilitud = -732.736
Probar que todas las pendientes son cero: G = 55.362, GL = 10, valor P = 0.000
Pruebas de bondad del ajuste
Método Chi-cuadrada GL P
Pearson 24.3759 24 0.440
Desviación 24.9795 24 0.407
El mismo problema resuelto en SAS (SAS University Edition) con el siguiente

procedimiento:
data proyectos;
input Y PS Z1 Z2 T1 T2 Cantidad;
datalines;
1 1 1 0 1 0 12
1 1 1 0 0 1 21
1 1 1 0 0 0 6
1 1 0 1 1 0 16
1 1 0 1 0 1 32
… Más datos….
3 0 0 0 0 1 9
3 0 0 0 0 0 10
;
title 'Regresión Logística Politómica)';
proc catmod data=proyectos;
weight Cantidad;
direct PS Z1 Z2 T1 T2;
model Y=PS Z1 Z2 T1 T2 / freq covb corrb itprint design;
quit;
run;
Produce los siguientes resultados:
Lo que nos arroja las dos funciones siguientes:
Función1: Logit(p1 ) = −1.6790 + 0.5418  PS + 0.9282  Z1 + 1.5574  Z2 + 0.1007  T1 + 0.5996  T2

Función2 : Logit(p2 ) = 0.1826 − 0.1390  PS + 0.4304  Z1 + 0.4324  Z2 + 0.0994  T1 + 0.3753  T2
El caso considerado de un proyecto sin proyección social, con estudio de impacto

ambiental a largo plazo y con cofinanciación oficial, tendría, de acuerdo con las
funciones anteriores, los siguientes valores esperados:
E1 = Exp(0.5209) = 1.6835 E2 = Exp(0.5724) = 1.7725

De donde:
E1 1.6835
p1 = = = 0.3777
1 + E1 + E 2 1 + 1.6835 + 1.7725
E2 1.7725
p2 = = = 0.3978
1 + E1 + E 2 1 + 1.6835 + 1.7725
p3 = 1 − ( p1 + p2 ) = 0.2245
Nótese que se ha tomado como categoría de referencia la tercera. El cuadro siguiente da

información complementaria sobre las estimaciones del modelo:
OTRO EJEMPLO
El siguiente programa SAS corresponde a información de 60 pacientes de diferentes

edades y sexo que fueron tratados para dolores neurálgicos con tres tipos de
medicamentos, A, B y P. En cada paciente se midió el tiempo que se sometió al
tratamiento y la presencia o ausencia de dolor al final del tratamiento. Esta última se
considera como variable de respuesta en función de las demás variables.
Data Neuralgia;
input Tratamiento $ Sexo $ Edad Duracion Dolor $ @@;
datalines;
P F 68 1 No B M 74 16 No P F 67 30 No
P M 66 26 Si B F 67 28 No B F 77 16 No
A F 71 12 No B F 72 50 No B F 76 9 Si
A M 71 17 Si A F 63 27 No A F 69 18 Si
B F 66 12 No A M 62 42 No P F 64 1 Si
A F 64 17 No P M 74 4 No A F 72 25 No
P M 70 1 Si B M 66 19 No B M 59 29 No
A F 64 30 No A M 70 28 No A M 69 1 No
B F 78 1 No P M 83 1 Si B F 69 42 No
B M 75 30 Si P M 77 29 Si P F 79 20 Si
A M 70 12 No A F 69 12 No B F 65 14 No
B M 70 1 No B M 67 23 No A M 76 25 Si
P M 78 12 Si B M 77 1 Si B F 69 24 No
P M 66 4 Si P F 65 29 No P M 60 26 Si
A M 78 15 SI B M 75 21 Si A F 67 11 No
P F 72 27 No P F 70 13 Si A M 75 6 Si
B F 65 7 No P F 68 27 Si P M 68 11 Si
P M 67 17 Si B M 70 22 No A M 65 15 No
P F 67 1 Si A M 67 10 No P F 72 11 Si
A F 74 1 No B M 80 21 Si A F 69 3 No
;
proc logistic data=Neuralgia;
class Tratamiento Sexo;
model Dolor = Tratamiento Sexo Tratamiento*Sexo Edad Duracion / expb;
run;
En este modelo estamos considerando la interacción entre Tratamiento y Sexo. Es

decir, estamos estimando el modelo
Donde la variable de respuesta, Dolor, es una variable categórica dicotómica mientras

que las variables independientes son unas categóricas y otras numéricas.
La estimación correspondiente es la siguiente:
The LOGISTIC Procedure

Model Information
Data Set WORK.NEURALGIA
Response Variable Dolor
Number of Response Levels 2
Model binary logit
Optimization Technique Fisher's scoring
Number of Observations Read 60
Number of Observations Used 60
Response Profile
Ordered Total
Value Dolor Frequency
1 No 35
Response Profile
Ordered Total
Value Dolor Frequency
2 Si 25
Probability modeled is Dolor='No'.

Class Level Information
Class Value Design Variables
Tratamiento A 1 0
B 0 1
P -1 -1
Sexo F 1
M -1
Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.
Model Fit Statistics
Criterion Intercept Only Intercept and Covariates
AIC 83.503 64.596
SC 85.598 81.351
-2 Log L 81.503 48.596
Testing Global Null Hypothesis: BETA=0

Test Chi-Square DF Pr > ChiSq
Likelihood Ratio 32.9074 7 <.0001
Score 25.6812 7 0.0006
Wald 14.2879 7 0.0463
Joint Tests
Wald
Effect DF Chi-Square Pr > ChiSq
Tratamiento 2 11.9886 0.0025
Sexo 1 5.3104 0.0212
Tratamiento*Sexo 2 0.1412 0.9318
Edad 1 7.2744 0.0070
Duracion 1 0.0247 0.8752
Note:Under full-rank parameterizations, Type 3 effect tests are replaced by joint tests. The joint
test for an effect is a test that all the parameters associated with that effect are zero. Such joint
tests might not be equivalent to Type 3 effect tests under GLM parameterization.
Analysis of Maximum Likelihood Estimates
Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq Exp(Est)
Intercept 1 19.2236 7.1315 7.2661 0.0070 2.232E8
Tratamiento A 1 0.8483 0.5502 2.3773 0.1231 2.336
Tratamiento B 1 1.4949 0.6622 5.0956 0.0240 4.459
Sexo F 1 0.9173 0.3981 5.3104 0.0212 2.503
Tratamiento*Sexo A F 1 -0.2010 0.5568 0.1304 0.7180 0.818
Tratamiento*Sexo B F 1 0.0487 0.5563 0.0077 0.9302 1.050

Analysis of Maximum Likelihood Estimates
Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq Exp(Est)
Edad 1 -0.2688 0.0996 7.2744 0.0070 0.764
Duracion 1 0.00523 0.0333 0.0247 0.8752 1.005
Odds Ratio Estimates
95% Wald
Effect Point Estimate Confidence Limits
Edad 0.764 0.629 0.929
Duracion 1.005 0.942 1.073
Association of Predicted Probabilities and Observed Responses
Percent Concordant 90.5 Somers' D 0.810
Percent Discordant 9.5 Gamma 0.810
Percent Tied 0.0 Tau-a 0.401
Pairs 875 C 0.905
EJERCICIO
Propuesto por Javier Morales. Universidad Miguel Hernández de Elche.
La Kifosis es una enfermedad que se manifiesta en la deformación de las vertebras

después de una intervención quirúrgica en las mismas. Los datos de la tabla siguiente
corresponden a un estudio sobre 81 niños que han sido intervenidos quirúrgicamente en
su columna vertebral. La primera variable. Kifosis, indica si el niño presenta o no
Kifosis (1 = sí presenta, 0 = no presenta), Edad representa la edad en meses al momento
de hacer la cirugía, Número representa el número de vertebras intervenidas durante la
cirugía y finalmente VInicio representa la primera vertebra involucrada en la cirugía.
Se pide estimar el correspondiente modelo logístico e interpreter los resultados.
Cierre del capítulo

Los modelos lineales estudiados hasta el momento se conocen como Modelos Lineales
Clásicos y han sido investigados desde la época de Gauss. Tienen un atractivo especial
debido a que los efectos son de tipo aditivo y, en general, son bien estimados por
métodos basados en mínimos cuadrados ordinarios. Algunas complicaciones se analizan
con métodos especiales como mínimos cuadrados ponderados o mediante
transformaciones de linealización como se mencionó anteriormente. Algunos de estos
modelos forman una clase aparte debido a que su matriz de diseño no es de rango
complete, pero aún así, todos ellos, de una u otra forma, descansan en supuestos de
normalidad para la variable respuesta. Excepción a esta regla la constituyen los modelos
logísticos vistos anteriormente, que son resueltos expresamente usando logaritmos
basados en la maximización de la verosimilitud.
Un estudio más profundo de los modelos lineales generales require de conceptos

propios de la estadística multivariada, particulamente de la distribución normal p-
variada, dada por la función de densidad
1  1 
f (x) = Exp  − ( x - μ) ' Σ −1 ( x - μ)  , x  p
 2 
p
(2 ) 2
Σ
p
Y de las propiedades métricas del espacio en particular de la distancia de
Mahalanobis inducida por la forma cuadrática Q(x) = (x - μ) ' Σ−1 (x - μ) a partir de la
cual se puede definer un product interior e introducer el concepto de ortogonalidad.
En las anteriores condiciones podría definirse un modelo lineal de acuerdo con lo

siguiente:
Si Y = (Y1 , Y2 , , Yp ) ' es tal que Y ~ N p (μ, Σ) , un modelo lineal general para Y es

un modelo en el que para la media μ se fija una hipótesis del tipo H0 : μ - μ0 0 ,
siendo 0 un subespacio lineal de p
de dimension k y μ 0 un vector de valores
conocidos a priori.
Bajo esta concepción, la matriz de diseño del modelo lineal general es el conjunto de
vectores que generan el subespacio lineal 0 . Y la hipótesis que se considera es
H0 : μ - μ0 = Xβ con β  k
. Como es de esperarse, la solución de un modelo lineal
depende de la solución de la ecuación: X ' Σ−1Y = X ' Σ−1 Xβ . (una ampliación de este
tema puede verse en Madsen y Thyregod).
La clasificación de los modelos depende de la matriz de diseño , X , o más exactamente

de su rango. Cuando el rango es completo los modelos son de regresión y cuando el
rango no es completo los diseños se denominan de análisis de varianza o diseños
ANOVA. En estas notas haremos una breve introducción a los modelos ANOVA en el
siguiente capítulo.
Capítulo II
MODELOS DE ANOVA
Unidad 6
Modelos de diseño
Como se dijo antes, los modelos de diseño son modelos lineales en los que la matriz de
diseño no es de rango completo. Esto nos lleva a considerar una teoría especial para este
tipo de modelos. Los aspectos más relevantes para tales modelos se consignan a
continuación.
Las estimaciones de los parámetros pueden lograrse mediante una expresión del tipo
β = ( X'X)G (X'Y) donde ( X'X)G es una inversa generalizada de X'X . El principal
inconveniente que presenta este tipo de estimación es la falta de unicidad para las
soluciones. Sin embargo, dos soluciones cualesquiera producen la misma estimación
(ejercicio). Por lo anterior, cualquier inversa generalizada puede ser usada. Si se utiliza
software de cálculo como Matlab u Euler es conveniente usar la inversa de Moore-
Penrose, la cual se define de la siguiente manera:
Si A es una matriz n  m de rango k , la inversa de Moore (1920)-Penrose (1955) es

una matriz M de orden m  n y de rango k que satisface las siguientes cuatro
condiciones:
1. AMA = A
2. MAM = M
3. AM es simétrica
4. MA es simétrica
La inversa de Moore Penrose de una matriz A , a veces notada A + , siempre existe y es
única pero su cálculo no es sencillo: se basa en la factorización A = KL donde
K y L son matrices de rango columna y fila completos respectivamente. En tal caso
M = L'(K'AL')-1 K' . Tanto Matlab como Euler usan el comando pinv() para calcular la
inversa de Moore-Penrose.
2 1 0
4 2 1 
Ejemplo 1: Considérese A =  que es una matriz de rango 3. El comando
1 1 2
 
2 2 4
 −3.0 2.0 −0.2 −0.4 

pinv(A) produce M =  7.0 −4.0 0.4 0.8 como inversa de A
 −2.0 1.0 0.0 0.0 
m
Es de mucho interés estimar combinaciones lineales del tipo λ' β =  i i , razón por
i =1
la cual se establece el siguiente:
Teorema: La combinación lineal λ' β (denominada función paramétrica lineal o fpl)

es estimable si y solamente si existe una solución para la ecuación (X'X)γ = λ .
Se establece igualmente que si λ' β es estimable entonces γ 0' (X'Y) , donde γ 0 es
una solución de la ecuación planteada en el teorema, constituye la mejor estimación

lineal insesgada (MELI) de λ' β .
Pueden formularse varios resultados importantes, a saber:
1. Si X es de rango k entonces existen exactamente k fpl independientes

2. Tanto Xβ como (X'X)β son estimables
3. Si λ1β, λ 2β, , λ sβ son fpl estimables, entonces cualquier combinación lineal

de ellas es también estimable.
4. La MELI de cualquier combinación lineal de fpl estimables es la combinación
lineal análoga de las MELI de dichas funciones
siendo a , b , c , … el número de valores diferentes que pueden tomar cada una de las
variables X1 , X 2 , , X m respectivamente. Esto es así porque una variable categórica
de q categorías puede ser sustituída por q variables categóricas dicotómicas (con
valores 0 y 1) mediante el siguiente artificio (parecido pero diferente a lo visto en
páginas anteriores): Si X es una variable categórica con q categorías identificadas
1 Si X = i
con los valores 1, 2, 3, …, q podemos definir Xi =  para
0 Si X  i
i = 1, 2, ,q
Ejemplo 2: Consideremos Y, variable aleatoria, como función lineal de una variable

X, categórica, con tres categorías , identificadas con 1, 2 y 3. Podemos entonces
definir tres variables categóricas dicotómicas X1 , X 2 , X 3 de la siguiente manera:
1 Si X = 1 1 Si X = 2 1 Si X = 3
X1 =  ¨ X2 =  y X3 = 
0 Si X  1 0 Si X  2 0 Si X  3
De esta manera, una forma alternativa y más usual de escribir el modelo

correspondiente, será: Y =  + i +  con i = 1, 2, 3
En la teoría del diseño, cada una de las categorías de las variables independientes se
denomina un nivel y, con frecuencia, cada variable independiente se llama un factor.
Así, el ejemplo anterior corresponde a un diseño de un solo factor con tres niveles. En la
teoría del diseño de experimentos denominaremos tratamiento a cada combinación de
niveles de los factores. En los diseños unifactoriales al no existir combinaciones de
niveles, éstos coinciden con los tratamientos.
En la práctica y con el fin de estudiar la variabilidad de las respuestas ya que Y es una

variable aleatoria, se hace necesario observar varios valores de respuesta por cada
tratamiento. Aparece así la idea de repetición o replicación de un experimento,
concepto necesario para poder estimar varianzas y otros parámetros. Posteriormente
ampliaremos este tema. Bástenos por ahora con lo dicho anteriormente, para presentar el
siguiente ejemplo.
Ejemplo 3: Consideremos el ejemplo 2, dado anteriormente y supóngase que la

respuesta fue observada dos veces en el nivel 1 de X, tres veces en el nivel 2 de X y
tres veces en el nivel 3 de X. Mas aún, supóngase que los correspondientes valores
observados de Y fueron: 3 y 5 en el nivel 1; 2, 4 y 3 en el nivel 2; 1, 3 y 2
en el nivel 3. Si yi j representa la j-ésima observación en el i-ésimo nivel, podremos
escribir:
 y11   3  1 1 0 0  11 
 y   5  1 1 0 0   
 12      12 
 y21   2  1 0 1 0      21 
       
 y22  =  4  = 1 0 1 0  1   22 
+
 y23   3  1 0 1 0   2   23 
        
 y31  1  1 0 0 1   3   31 
 y   3  1 0 0 1  
 32       32 
 y33   2  1 0 0 1   33 
Esta expresión corresponde al siguiente esquema de diseño:
Nivel Nivel Nivel

1 2 3
3 2 1
5 4 3
-- 3 2
Como puede observarse, la matriz X es de rango 3 ya que la primera columna es la

suma de las otras tres que son linealmente independientes entre sí.
8 2 3 3  23
2 2 0 0  8
En este ejemplo se cumple: X'X =  X'Y =  
3 0 3 0 9
   
3 0 0 3 6
Queremos saber, por ejemplo, si  −  2 es una función paramétrica lineal estimable o
no. Como puede observarse  −  2 = (1, 0, −1, 0) ' β . En consecuencia, examinemos si
el sistema de ecuaciones ( X'X) γ = λ tiene solución o no. Este sistema se puede
8 2 3 3   1   1 
2
 2 0 0   2   0 
escribir como = de donde se deduce que es un sistema
3 0 3 0   3   −1
    
3 0 0 3   4   0 
incompatible, por tanto, sin solución. En consecuencia  −  2 no es estimable. El

lector puede verificar que, por ejemplo, 1 − 3 sí es una función paramétrica
estimable. Es más, puede verificar que el valor de la mejor estimación de dicha función
paramétrica es 2. ¿podría el lector calcular tres funciones paramétricas lineales
independientes que existen en este caso?
Se puede probar que, en general, son estimables todas aquellas funciones que puedan
escribirse como combinaciones lineales de las filas de Xβ
Por otra parte resulta de interés tener una expresión para estimar la varianza de una fpl
ya que esto permite construir intervalos de confianza para ella. Se tiene:
Cov(λ 1 ' β, λ 2 ' β) = E (λ 1 ' β - λ 1β)(λ 2 ' β - λ 2β) ' = E ( γ 1'X'Y - λ 1'β )( γ 2'X'Y - λ 2'β ) '
= E ( γ 1'Xε )( γ 2'Xε ) ' =  2 γ 1'(X'X)γ 2
La varianza se obtiene cuando λ1 = λ 2 = λ con lo cual γ1 = γ 2 = γ , en consecuencia
se tendrá: V (λ'β) =  2 (λ'γ) siendo γ una solución del sistema antes mencionado.
Por ejemplo, para el caso presentado anteriormente, se obtiene
1 1
 = (0,1, 0, −1) '  = (0, , 0, − ) ' (una de las infinitas soluciones posibles). Por
2 3
5 2 1
tanto V( 1 − 3 ) =  . Como 2 = Y'(I − X( X'X)G X')Y , al utilizar los
6 n−m
6
valores observados de Y con n = 8 y m = 3, se obtiene: 2 = y, por tanto,
5
V(1 − 3 ) = 1 (Los cálculos pueden verificarse con Matlab).
Reparametrización de un modelo de diseño
Con el fin de transformar los modelos anteriores en otros de rango completo, en los
cuales X'X sea invertible, se suelen hacer reparametrizaciones.
Dado Y = βX + ε , por una reparametrización de este modelo se entenderá una
transformación α = Uβ del vector β donde cada elemento de α es una función
lineal estimable.
Puesto que X'X es definida positiva de rango k existen matrices WF , WC de orden
B 0
m  m (m en general es el número de tratamientos) tal que ( WF )( X'X ) WC =  
 0 0
donde B es matriz cuadrada k  k de rango k. WF se puede particionar en la forma
WF = [ W | W1 ] =  W, W1  donde W , de orden m  k . De esta manera se tiene
 W'  B 0
  ( X'X )  W, W1  =   lo que produce: W'(X'X)W = B y W1'(X'X)W1 = 0
 W1'   0 0
lo que implica en particular que W'X es de rango k y W1'X' = 0 . De aquí XW1 = 0 .
El modelo Y = βX + ε puede ser escrito como Y = X  W* W* ( )  β + ε y, entonces, al

-1
 
U U
hacer (W )
* -1
= U* =   se tendrá: Y = X  W, W1    β + ε , esto es:
 U1   U1 
Y = ( XW ) (Uβ) + (XW1 ) ( U1β ) + ε , o lo que es igual: Y = ( XW )( Uβ ) + ε . En esta
expresión se puede hacer Z = XW y α = Uβ con lo cual se obtiene el modelo

transformado o reparametrizado: Y = Zα + ε , completamente equivalente al original y
donde Z es una matriz de orden n  k y de rango completo k. .
Para estimar α o cualquier combinación lineal de sus componentes, pueden usarse las
ecuaciones normales, dadas por: α = ( Z'Z ) ( Z'Y ) .

-1
Nota: Puesto que existen muchas matrices W* que diagonalizan a X'X , existen
también muchas formas de reparametrizar un modelo pero cualesquiera dos de ellas
producen la misma estimación de la fpl λ'β . Resulta entonces de interés seleccionar
algunas reparametrizaciones que presentan propiedades especiales. Por ejemplo, son
muy importantes aquellas en las cuales Z'Z es una matriz diagonal de rango completo,
llamadas reparametrizaciones ortogonales. Siempre es posible encontrar una
reparametrización ortogonal pues bastará para ello tomar como W* la matriz ortogonal
formada por los vectores propios unitarios correspondientes a los valores propios de
X'X .
Ejemplo 4. Consideremos el modelo lineal yi j =  +  i +  i j con i = 1, 2 y j = 1, 2, 3
, el cual puede ser escrito matricialmente como:

 y11  1 1 0  11 
 y  1 1 0   
 12      
12
 y  1 1 0     13 
Y =  13  =    1 +   = Xβ + ε
 y21  1 0 1     21 
 2 
 y22  1 0 1     22 
     
 y23  1 0 1   23 
Si se hace el usual y recomendado cambio de variable i =  +  i para i = 1, 2 , se
 
1  1 1 0    1 1 0 
obtiene α =   =    1  y, por tanto, U=  . Para construir una
 2  1 0 1    1 0 1 
 2
matriz no singular U* , debemos construir U1 de modo que al agregarla a U se forme
U
una matriz cuadrada   de rango completo. Hay muchas formas de hacerlo. Por
 U1 
1 1 0 
ejemplo, se puede tomar U1 = (0, 1, 1) , con lo cual U = 1 0 1  . De esta manera:
*
0 1 1 
 0.5 0.5 −0.5  0.5 0.5

W =  W, W1  = ( U
*
)
* -1
=  0.5 −0.5 0.5  y entonces W =  0.5 −0.5 . De
 −0.5 0.5 0.5   −0.5 0.5
aquí:
1 1 0 1 0
1 1 0  1 0 
  0.5 0.5 
1 1 0   1 0 3 0
Z = XW =    0.5 −0.5 =   . Además Z'Z =   , lo que nos dice
1 0 1
 −0.5 0.5 
0 1 0 3
1 0 1 0 1
   
1 0 1  0 1 
que la reparametrización encontrada es ortogonal.
En este modelo, conocido como modelo W por la manera como ha sido

 
reparametrizado, se tiene Y = Zα + ε con α =  1  y, por tanto,
 2 
 3 
−1   y1 j 
   3 0   j =1  −1  Y 
α =  1 =  = ( Z'Z )  1 • 
 2   0 3   y  Y2 • 
3
 2 j 
 j =1 
Se puede probar que si Y = Zα + ε es una reparametrización ortogonal de Y = βX + ε

entonces las componentes de α son incorrelacionadas y, por tanto, independientes.
Estimación de funciones paramétricas lineales

Como se vió antes, la varianza de la fpl λ'β es  2 γ'λ . En la práctica resulta de interés
no sólo estimar el valor puntual de una fpl λ'β , - lo que se obtiene mediante la
expresión λ'β - sino construir un intervalo de confianza para dicha estimación. Bajo el
supuesto de que el modelo cumple las condiciones de Gauss-Markov, un intervalo de
confianza para la flp mencionada está dado por λ'β − b(λ'β)  t ee(V(λ'β)) , donde
b(λ'β) es el sesgo del estimador y ee(V(λ'β)) es el error estándar del estimador de la

varianza de la fpl.. Se puede probar que cuando se cumplen las condiciones de Gauss-
Markov el estimador de λ'β es insesgado, eficiente, consistente, suficiente, completo y
N(β,  2 ( X'X ) ) , razón por la cual los

−1
de mínima varianza. Además en tal caso β
estimadores de β y 2 son independientes, además de que

S2 1
(n − m) = (Y - Xβ) '(Y - Xβ) tiene distribución Ji-cuadrado con n − m grados de
 2
2
libertad. Si se usa el modelo W para estimar los parámetros  i , se sigue que
N(i , ci i 2 ) siendo ci i el i-ésimo elemento de la diagonal de ( Z'Z ) . En

−1
i
i − i
consecuencia t con  = n − k , donde k es el rango de X.
ci i S 2
Pruebas de hipótesis sobre los parámetros de un modelo
Con mucha frecuencia en los procesos de investigación se plantean hipótesis sobre los
parámetros de un modelo lineal y en particular sobre los parámetros de un modelo de
diseño. Tales hipótesis pueden ser formuladas en general en términos de funciones
paramétricas lineales. Puede afirmarse que las hipótesis de interés son en general del
tipo Ho: λ'β = 0 donde  0 es una constante, fija y conocida. Si λ'β es una fpl
estimable se puede reparametrizar el modelo a uno de rango completo de la forma

Y = αZ + ε . En tal caso, si se hace 1 = λ'β y si Ho es verdadera se cumple que
( −  )
2
1
 = 1 20
2
F 1,  ,  donde = (λ'β - β 0 ) es el parámetro de no
ci i S 2cii 2
centralidad para la distribución F.
Podrían también formularse hipótesis del tipo 1 =  2 = =  q con q  m las cuales
constituyen hipótesis muy frecuentes sobre los parámetros en los modelos de rango
incompleto. Para hipótesis estimables (cfr Graybill 11.15), lo anterior equivale a probar
que λ1'β = λ 2'β = = λ r'β = 0 para ciertos vectores λ1 , λ 2 , , λ r y el procedimiento
de prueba puede resumirse en lo siguiente:
1. Obtener una solución cualquiera de la ecuación ( X'X ) β = X'Y y calcular
(
Q0 = Y - X'β ' Y - X'β )( )
2. Obtener una solución de las ecuaciones normales ( Z'Z ) α = Z'Y del modelo
reparametrizado bajo las condiciones  =   = = q .
n − q Q1
3. Hacer ahora Q0 + Q1 = (Y - Zγ)'(Y - Zγ) . Se cumple  = Fr , n−q, 
r Q0
donde  es el parámetro de no centralidad para la distribución F.
En particular las hipótesis del tipo H0 : λ'β = 0 donde las componentes del vector λ
m
satisfacen 
i =1
i = 0 , llamadas contrastes, son de utilidad y aplicación en el análisis de
los modelos de diseño. Es de gran interés estimar contrastes y probar la hipótesis de que
un contraste λ'β = 0 . Usualmente esto se hace aplicando lo que se ha dicho en los
párrafos anteriores. Es decir: estimando el contraste, estimando su varianza y
construyendo intervalos de confianza centrados en la estimación puntual del contraste.
Cuando un intervalo de confianza contiene al valor 0, se concluye que dicho contraste
es igual a cero. Se pueden aplicar también los resultados anteriores ya que al suponer
verdadera la hipótesis nula, la distribución del estadístico  es una F central. Más
adelante se volverá sobre este tema.
Otros métodos de solución para modelos de diseño
En la sección anterior se han presentados algunos resultados generales para estimar los
coeficientes de un modelo lineal en general. Dichos métodos son de naturaleza
universal y aplicables en cualquier situación. Sin embargo, en la práctica se utilizan
otros métodos más específicos basados principalmente en la estimación por mínimos
cuadrados (MCO). Bajo el supuesto de validez de las condiciones Gauss-Markov los
métodos de mínimos cuadrados producen estimaciones equivalentes a las que se
obtienen por métodos de máxima verosimilitud (MV). Esta es una de las razones por las
cuales se hacen supuestos de normalidad, independencia en las observaciones y
homocedasticidad (igual varianza) en los modelos de diseño.
Como se dijo al comienzo de estas notas, suponer que un modelo de diseño se ajusta a
los supuestos Gauss-Markov conduce a una teoría demasiado restrictiva que sólo
produce soluciones para los relativamente escasos modelos que los satisfacen.
Quisiéramos poder presentar una teoría más amplia que ofrezca soluciones para diseños
más generales pero el tema resultaría tan amplio y complejo que nos pondría a nivel de
un curso de profundización para maestría. Baste saber que en la actualidad la estadística
investiga modelos muchos más generales, por ejemplo con distribuciones diferentes a la
normal o incluso con funciones de varianza más generales que las que comúnmente se
tratan en los libros corrientes de estadística.
Esta segunda unidad sigue los delineamientos tradicionales para el estudio de los
modelos de diseño, a sabiendas de que la teoría aquí expuesta no puede resolver muchos
problemas que se presentan en la vida diaria, pero resaltando - eso sí- que los métodos
tradicionales de solución tienen una base teórica importante que los justifica. Por otra
parte conviene advertir que la mayor parte del software existente para realizar el análisis
de los diseños suponen en gran medida las condiciones de normalidad, independencia y
homocedasticidad propias de los modelos ajustados a las hipótesis Gauss-Markov. Son
muy pocos los paquetes estadísticos que enfrentan situaciones más generales como las
que hemos mencionado. Entre ellos cabe destacar el paquete SAS, uno de las más
potentes, completos y eficientes para el análisis de esos tipos de diseños.
Vimos en la unidad anterior cómo el uso de matrices inversas generalizadas pueden

ayudar a encontrar una estimación de los coeficientes de un modelo aunque tienen el
inconveniente de la falta de unicidad. Vimos también cómo puede usarse la inversa
generalizada de Moore - Penrose –que sí es única- para obtener estimaciones. Sin
embargo, al deseo de evitar engorrosos cálculos como los que trae el uso de tales
matrices, queremos buscar otro tipo de soluciones que aunque no sean exactas sí sean lo
suficientemente buenas para fines prácticos. Son soluciones aproximadas que aunque
produzcan ligeros errores respecto de las soluciones teóricas ideales, tales errores
puedan ser considerados como de poca magnitud frente al grado de aproximación que se
logre.
Se dice que un sistema de ecuaciones lineales AX = Y es incompatible cuando no
existe un vector X que lo satisfaga. Puede pensarse entonces en una solución
aproximada Y con la cual se logre una “buena” aproximación de utilidad práctica.
Puesto que puede haber muchas soluciones aproximadas, un criterio muy extendido es
considerar como mejor solución aproximada aquella solución Y = AX0 para la cual el
vector de errores e = Y - AX0 = Y - Y tenga longitud mínima. Es decir, aquella

n
solución para la cual se cumpla que SCE = e =  ei 2 tiene un mínimo valor. Esta
2
i =1
solución –que siempre existe- se denomina solución de mínimos cuadrados y, al menos

transitoriamente, se denominará Ym c . Se puede probar que la solución de mínimos
cuadrados se obtiene mediante una matriz inversa generalizada A0 , llamada inversa de

mínimos cuadrados (inversa MCO) que se caracteriza por cumplir las dos condiciones
siguientes:
1. AA0 A = A
2. ( AA ) ' = AA
0 0
Una matriz inversa MCO puede construirse mediante la fórmula A0 = (A'A)G A'
donde A G es una inversa condicional de A , es decir, A G es una matriz que satisface

AAG A = A . 1
 2   y11  1 1 0 11 
 3   y  1    
1 0    12 
Ejemplo 5. Considérese el modelo Y =   =  12  =  1 + = Xβ + ε
 5   y21  1 0 1     21 
       2   
 4   y22  1 0 1  21 
que no tiene solución ya que X no es de rango completo. Si usamos la inversa de
Moore-Penrose para X , esto es:
 1 1 1 1  14 
 6 6 6 6   6
+ 
X = 1 1 −1 −1  se obtiene la estimación β p = X Y =  8  la cual
+
 3 3 6 6  6
− 1 −1 1 1  13 
 6 6 3 3   6 
1 1 0  14  3.66 
1  6
1 0   8  3.66 
produce la solución aproximada YP =  =
1 0 1   6   4.50 
    
1 0 1  13 6   4.50 
Si buscamos otra solución aproximada mediante la matriz MCO, (un poco traída por
arte de magia, pero que ya pronto se sabrá cómo se logra):
0 0 1 1   9 
 2 2   2 
X = 1
0 1 −1 − 1  se obtiene la estimación  − 4  , dada por:
 2 2 2 2  2
0 0 0 0   0 
   
2  9 
0 0 0.5 0.5     2 
= X0 Y = 0.5 0.5 −0.5 −0.5   =  − 4 
3
β mc
5  2 
 0 0 0 0     0 
 4   
 2.5
 2.5
estimación que produce la solución de mínimos cuadrados: Ymc = Xβ mc = 
 4.5
 
 4.5
Para ver cuál de las dos soluciones anteriores es mejor, se pueden calcular las
'
 10 4 3 3
correspondientes SCE, dadas por los residuos: e P = Y - YP =  − , − , , − 
 6 6 6 6
'
 1 1 1 1
para el caso Penrose y e mc = Y - Ymc =  − , , , −  para el caso MCO, las
 2 2 2 2
= 3.72 = 1 , lo que permite asegurar que es

2 2
cuales arrojan valores de eP y e mc
1
A es de rango k, la matriz A G
Si puede obtenerse arreglando en orden inverso la matriz
 ( A* )−1 0   A11 A12 
A =  11
*
 obtenida del arreglo   de A , de modo que A 11 sea de orden k.
 0   A21 A22 
 0 
mejor la solución dada por el método MCO que la obtenida por la inversa de Penrose.
Se puede observar además que la solución dada por el método MCO produce errores
cuyo promedio es cero, cosa que no ocurre con la otra solución.
Lo observado en el ejemplo anterior es cierto en general: las soluciones obtenidas

mediante matrices MCO tienen la menor SCE siendo, por tanto, las mejores soluciones
para el problema que se ha venido estudiando. Además el promedio de los errores de
tales soluciones es cero. Resulta evidente que las soluciones MCO no son únicas pero
cualesquiera dos de ellas producen siempre la misma estimación β mc . En razón a esto,
optaremos por el método MCO como la herramienta usual para producir estimaciones
del vector de parámetros, β mc , estimación que en general denotaremos simplemente por
β.
Un resultado adicional de gran importancia es que el vector de errores e = emc es

ortogonal al espacio vectorial C( X) generado por las columnas de X . En otras
palabras, para todo vector A  C( X) se cumple A e = 0 , lo cual se comprueba
simplemente mediante la multiplicación X'e = 0 . En nuestro ejemplo:

 −0.5
1 1 1 1    0 
1 1 0 0   0.5  = 0 
   0.5   
0 0 1 1    0 
 −0.5
4. Proyecciones ortogonales y sumas de cuadrados
X es una matriz de orden n  p donde n es el número de observaciones y p el de
variables del modelo. Podemos considerar los espacios vectoriales n y C( X) , este

último, el espacio generado por las columnas de X , es un espacio vectorial cuya
dimensión es menor o igual que p. Sus elementos son n-uplas de n , por ser
combinaciones lineales de las columnas que a, a su vez, son n-uplas de reales. Es decir,
se cumple que C( X) es un subespacio vectorial de n y, por tanto, C(X)  n .
Ahora bien, se puede considerar la suma directa n = C( X)  C( X)⊥ . Cualquier vector
V de n puede ser escrito como V = T+S donde T ⊥ S , ( T  C( X) y
S  C(X)⊥ ).
Todo vector V de n puede ser proyectado sobre C( X) en una dirección paralela a
C( X)⊥ , la matriz que realiza esta operación es: P = X(X'X)G X' para cualquier G-
inversa de X'X . Es fácil ver que la matriz P = X(X'X)G X' es una matriz de
proyección ya que ella es idempotente. Además, sin importar cuál sea la inversa
generalizada que se use, P siempre logrará el mismo objetivo. Se puede construir otra
matriz de proyección Q dada por Q = In - P , la cual obviamente proyecta los vectores
V de n sobre el espacio C( X)⊥ en la dirección de C( X) .
De acuerdo con lo anterior, si Y = βX + ε , se cumple
Y = Xβ = X (X'X)G (X'Y)  =  X(X'X)G X' Y = PY
y ésta es la mejor estimación MCO debido a que P es una matriz simétrica.
De lo anterior también se deduce que
e = Y - Y = I n Y - PY = (I n - P)Y = QY
y, puesto que P y Q son matrices de proyecciones complementarias, se concluye que

Y y e son ortogonales entre sí. En otras palabras, se cumple Y e = 0 o, lo que es
igual, PY ⊥ QY (ver figura):
La gráfica anterior , mediante la aplicación del teorema de Pitágoras, permite deducir

que
Y = PY + QY . Esto es: ( In Y ) '(I n Y) = ( PY ) ' ( PY ) + (QY) ' ( QY ) o bien:

2 2 2
Y'In Y = Y'PY + Y'QY
La expresión anterior, que no es más que una versión del teorema de Pitágoras, se
conoce como descomposición de las sumas de cuadrados. Ella establece una relación
entre la suma de cuadrados de las observaciones (suma total de cuadrados) con la suma
de cuadrados de valores estimados por el modelo (suma de cuadrados explicada por el
modelo) y la suma de cuadrados de los residuos. Por esta razón se acostumbra a usar las
siglas SCT, SCR y SCE, estableciendo entonces la expresión típica del análisis de
varianza:
SCT = SCR + SCE
Ejemplo 6: Consideremos nuevamente los datos del ejemplo 5, correspondientes al

siguiente esquema de diseño:
Tratam 1 Tratam 2
2 5
3 4
2
3 
El modelo correspondiente puede escribirse Y = Xβ + ε donde Y =   ,  =  1  ¨ y
5
    2 
4
1 1 0
1  4 2 2
0 
. Se tiene entonces: X'X =  2 2 0  que es una matriz de rango 2.
1
X=
1 0 1
   2 0 2 
1 0 1
Aplicando lo dicho en el pie de la página 20 se obtiene la G-inversa
 0.5 −0.5 0.0 
( X'X ) =  −0.5 1.0 0.0  ÿ, en consecuencia, las matrices de proyección P y Q
G
 0.0 0.0 0.0 
está dada por:

 0.5 0.5 0.0 0.0   0.5 −0.5 0.0 0.0 
 0.5 0.5 0.0 0.0   −0.5 0.5 0.0 0.0 
P = X(X'X)G X' =  Q= 
0.0 0.0 0.5 0.5   0.0 0.0 0.5 −0.5 
   
0.0 0.0 0.5 0.5   0.0 0.0 −0.5 0.5
 −2.5 
 2.5
La proyección de Y sobre C( X) será PY =   = Y y la proyección de Y sobre
 4.5
 
 −4.5 
 −0.5
 0.5
C( X) es: QY = 
⊥  =e
 0.5
 
 −0.5
La tabla siguiente muestra tres maneras típicas de descomponer la suma total de
cuadrados SCT:
PRIMERA FORMA SEGUNDA FORMA TERCERA FORMA
SCM = Y'P0 Y = n ( Y )

2
SCR = Y'PY SCRm = Y'PY - SCM SCRm = Y'PY - SCM

SCE = Y'QY SCE = Y'QY SCE = Y'QY
SCT = Y'In Y SCT = Y'In Y SCTm = Y'In Y - SCM
Diferentes maneras de descomponer la suma total de cuadrados
La expresión SCM se denomina corrección por la media y se incluye en los cálculos

1
por razones teóricas. Se cumple en general SCM = (Y'P0 )(P0' Y) donde P0 es la
n
submatriz de X correspondiente al parámetro  , es decir, la primera columna de
unos.
La primera forma de descomponer la suma total de cuadrados, llamada descomposición

no corregida por la media, corresponde a la fórmula vista anteriormente. La segunda
forma de descomposición resalta el hecho de que se utilice la corrección por la media
pero no es muy usual. La tercera forma de presentación es la más utilizada. Casi todo el
software disponible para análisis de datos provenientes de diseños de experimentos
presenta esta forma, llamada comúnmente descomposición corregida por la media.
Todos los sumandos considerados en la tabla anterior , vale decir todas estas sumas de
cuadrados, son variables aleatorias cuyos valores dependen de las respuestas
proporcionadas por las unidades experimentales. Por tratarse de sumas de cuadrados
ellas tienen distribuciones Ji cuadrado con diferentes grados de libertad que dependen
de cada modelo considerado. Ellas resultan ser elementos claves en la construcción de
las tablas de análisis de varianza, una de las herramientas importantes para el análisis de
la información proporcionada por los diseños experimentales, tema que será visto en las
páginas que vienen más adelante.
Ejemplo 8
Considere el diseño a cuatro niveles dado por el siguiente esquema:
En este ejemplo queremos:
1. Formular el modelo matricial Y = Xβ + ε , equivalente al

esquema de diseño anterior.
2. Realizar una reparametrización de la forma Y = Zα ,
donde α = Uβ
3. Estimar el vector de parámetros α y calcular la estimación
de Y , el vector de residuos e, y la suma de cuadrados del
error SCE, bajo esta estimación.
4. Encontrar la estimación de Y mediante MCO y calcular los
residuos y la suma de cuadrados del error, bajo esta nueva
estimación.
5. Usando los resultados en 4, mostrar la descomposición de la
suma de cuadrados total (SCT) en las sumas SCR y SCE,
además mostrar cómo serían las tablas ANOVA para este
caso.
En nuestro ejemplo se cumple lo siguiente:
Se trata de un diseño balanceado de una vía de clasificación con k = 4 niveles y

r = 4 réplicas. Según se vió en páginas anteriores, si tenemos formulado el modelo
matricial Y = Xβ + ε , donde X es la matriz de diseño y β el vector de parámetros,
(modelo que está sobreparametrizado pues tiene 5 parámetros mientras que X es de
rango 4), se puede hacer una reparametrización del tipo α = Uβ mediante el cambio de
variable i =  + i , i = 1, 2, , k con lo cual, al tomar A = U'(UU')-1 y Z = XA , el
modelo original Y = Xβ + ε se transforma en un modelo reparametrizado Y = Zα + ε
que es de rango completo y que, por consiguiente, puede ser solucionado mediante la
estimación αˆ = (Z'Z)-1 (Z'Y) , ya que Y ˆ = Zαˆ .
Una vez lograda la solución anterior, podemos calcular los residuos mediante
ˆ y la suma de cuadrados de residuos mediante SCR = e, e  .
e = Y-Y
En consecuencia, para los objetivos 1, 2 y 3, tendremos:
1. Formulación matricial del modelo:
 y11   2  1 1 0 0 0  11 
 y   4  1 1 0 0 0   
 12      12 
 y13   6  1 1 0 0 0  13 
       
 y14   2  1 1 0 0 0 14 
 y21   4  1 0 1 0 0  21 
       
 y22   3  1 0 1 0 0  22 
 y   4  1   
0 1 0 0     23 
 23      1  
 y24   2  1 0 1 0 0     24 
 y  =  6  + 1 2  +
0 0 1 0     31 
 31      3  
 y32   6  1 0 0 1 0     32 
        4   
 y33   5  1 0 0 1 0  33 
 y34   4  1 0 0 1 0  34 
       
 y41  8  1 0 0 0 1  41 
 y   6  1 0 0 0 1  
 42       42 
 y43   5  1 0 0 0 1  43 
 y   6  1 0 0 0 1   
 44      44 
En este modelo, El vector Y = ( yij )161 corresponde a las 16 respuestas, La matriz X165
es la matriz de diseño y el último vector a la derecha es un vector de errores que se
supone con distribución normal multivariada de media 0 y varianza  2 I16
Calcularemos todas las matrices en Matlab. Así se tiene:
1 =  + 1
2 =  + 2
Reparametrizamos el modelo tomando
 3 =  + 3
4 =  + 4

1  1 1 0 0 0   
  1 0 1 0 0   1 
con lo cual  1 =     .
1  1 0 0 1 0   2 
     3 
1  1 0 0 0 1    
 4
Por consiguiente tomamos la matriz U en Matlab así:
1. La reparametrización del modelo se logra así:
El nuevo modelo tendrá la forma: Y = Zα + ε y es de rango completo, así que
2. La estimación de α , la de Y , los residuos y la suma de cuadrados del

error bajo esta estimación, serán las siguientes:
α̂ = Alfa = (Z'* Z)-1 (Z'* Y) , ˆ = Z * αˆ ,

Y ˆ ,
e = Y-Y
SCE = < e,e >
De acuerdo con ésto, los valores estimados de respuesta, según el nuevo modelo, los
residuos y la suma de cuadrados de los errores, son:
Para los objetivos 4 y 5, tendremos:
La estimación mediante un modelo MCO es mucho más simple: solo requiere del
cálculo de dos matrices de proyección que son ortogonales entre sí, P, Q , y,
ocasionalmente, una tercera matriz P0 , definidas como se estipula a continuación:
• P = X(X'X)G X' donde (X'X)G es una inversa generalizada de X'X .

En particular podemos tomar la inversa de Moore-Penrose ya que es
única.
• Q = I-P
• La matriz P0 = X0 (X'0 X0 )G X'0 , definida por X0 , la columna completa de
1s en la matriz X , que corresponde al parámetro  .
Calculamos en Matlab las matrices P0 = X0 *pinv(X'0 X0 )X'0 que siempre es de rango

1, P = X*pinv(X'*X)*X' , I = eye(16) y Q = I-P pero no presentamos
estas matrices pues son muy grandes: 16x16.
Con las dos matrices P, Q anteriores se obtiene: Ŷ = PY , e = QY , SCR = Y'PY ,

SCE = Y'QY y SCT = Y'IY . La suma de cuadrados de la media corresponde al
valor SCM = Y'* P0* Y y se usa cuando queremos presentar la tabla ANOVA en su
tercera forma -corregida por la media- como se muestra a continuación.
Continuando con Matlab:
Como se ve: SCR + SCE = SCT
La tabla ANOVA (Primera forma) para el caso sería:
Sumas de Cuadrados Grados de Libertad

SCR = 357.75 rank( P ) = 4
SCE = 21.25 rank( I - P ) =12
SCT = 379.00 Rank( I ) = 16
Si queremos presentar la tercera forma -más usual- usamos la matriz P0 y calculamos
Es decir, la suma de cuadrados de la media vale SCM = 333.0625 , en consecuencia,

la tercera forma de la tabla ANOVA será la siguiente:
Esta tercera forma de presentar los datos, corresponde realmente a la siguiente

formulación, basada en la igualdad (P - P0 ) + (I - P) = I - P0 :
Fuente de Suma de cuadrados Grados de

Variación Libertad
Modelo SCR m = Y'(P - P0 )Y rank(P - P0 )
Error SCE=Y'(I - P)Y rank(I - P)
Total SCTm = Y'(I - P0 )Y rank(I - P0 )
Esta última presentación es la que aparece en todos los paquetes estadísticos que hacen
análisis de varianza, como Infostat. Este paquete presenta algunos elementos
adicionales: los cuadrados medios (que son varianzas obtenidas al dividir las sumas de
cuadrados entre sus correspondientes grados de libertad) y el cociente F de la varianza
ENTRE, correspondiente al modelo, y la varianza DENTRO. Este cociente es una
variable aleatoria con distribución F -por ser cociente de dos varianzas- y se usa para
realizar cierto tipo de inferencia relacionada con las medias de los niveles.
La siguiente es la salida de Infostat para los datos del ejemplo que estamos analizando:
5 Clasificación de los modelos
Según la estructura que adopte un modelo lineal Y = Xβ + ε , éste suele clasificarse en

una de las siguientes categorías:
• Modelos S o modelos sobreparametrizados
• Modelos W o modelos de medias de celdas
• Modelos Σ o modelos con restricción en los parámetros
• Modelos R o modelos de regresión
5.1 Modelos S.
Los modelos sobreparametrizados son aquellos en los que aparece un parámetro por
cada efecto de los factores involucrados. Corresponden a los casos de modelos de
diseño que hemos visto hasta el momento. Otro ejemplo típico puede ser el sugerido por
el siguiente esquema de diseño desbalanceado (diferente número de réplicas en los
tratamientos):
FACTOR 2
Nivel 1 Nivel 2 Nivel 3
F y111 y121 y131

A Nivel y112 y122 y132
C 1
T y113 --- ---
O
R y211 y221 ---
y212 --- y232
1 Nivel --- y233
2 y213
--- y234
y214
En este diseño se observa la presencia de dos factores (el primer factor podría ser, por
ejemplo, la variedad de una planta y el segundo factor podría ser la alcalinidad del
terreno). En este caso cada yi j k representa una respuesta a las condiciones en que
crecen las plantas y podría indicar, por ejemplo, producción, altura, resistencia a una
plaga, etc Es claro que en este diseño puede haber interacción entre los factores (el tipo
de terreno y la variedad de la planta), por consiguiente, el modelo debe incluir:
• Dos parámetros 1 ,  2 para los niveles del primer factor.
• Tres parámetros 1 , 2 , 3 para los niveles del segundo factor
• Seis parámetros  11 ,  12 ,  13 ,  21 ,  22 ,  23 para los seis cruces de niveles de los
factores que representan las posibles interacciones.

• Un parámetro general  que representa la respuesta media general en ausencia
de tratamientos.
Se tiene así un espacio de parámetros para el modelo, dado por:
 =  , 1 ,  2 , 1 ,  2 , 3 ,  11,  12 ,  13 ,  21,  22 ,  23 
y la matriz de diseño correspondiente:
1 1 0 1 0 0 1 0 0 0 0 0
1 1 0 1 0 0 1 0 0 0 0 0 

1 1 0 1 0 0 1 0 0 0 0 0
 
1 1 0 0 1 0 0 1 0 0 0 0
1 1 0 0 1 0 0 1 0 0 0 0
 
1 1 0 0 0 1 0 0 1 0 0 0
1 1 0 0 0 1 0 0 1 0 0 0
 
X = 1 0 1 1 0 0 0 0 0 1 0 0
1 0 1 1 0 0 0 0 0 1 0 0
 
1 0 1 1 0 0 0 0 0 1 0 0
 
1 0 1 1 0 0 0 0 0 1 0 0
1 0 1 0 1 0 0 0 0 0 1 0
 
1 0 1 0 0 1 0 0 0 0 0 1
1 0 1 0 0 1 0 0 0 0 0 1
 
1 0 1 0 0 1 0 0 0 0 0 1 
Algunos ejemplos de modelos sobreparametrizados son los siguientes:

• yi j =  +  i +  i j Modelo de clasificación simple (ya visto)
• yi j k =  + i +  j +  i j k Modelo de clasificación doble sin interacción
• yi j k =  + i +  j +  i j +  i j k Modelo de clasificación doble con interacción
Los modelos sobreparametrizados se notan Y = Xβ + ε y se parecen a los que hemos

estudiado hasta el momento. En todos ellos la matriz de diseño es de rango incompleto y
las estimaciones de sus parámetros pueden hacerse mediante el uso de inversas
generalizadas de la matriz X'X , tal como se ha indicado anteriormente. Entre tales
soluciones se destacan, como lo hemos hecho, las matrices de MCO que proporcionan
las mejores soluciones. Por otra parte, en tales modelos la estimación de fpl del tipo
λ'β está dada por λ'θ 0 donde θ0 es una solución cualquiera del sistema de
ecuaciones normales.
El intervalo de confianza para λ'β está dado por λ'θ0  t  v(λ'β) donde k es el
n−k ,
2
rango de la matriz de diseño y v(λ'β) es la varianza estimada de la fpl, la cual está dada
por  2 γ ' ( X'X ) γ donde γ es una solución del sistema ( X'X ) γ = λ , según se
desprende de lo dicho en páginas anteriores.
Ejemplo 9.
Volvamos a los datos del ejemplo 6 anterior, caso correspondiente a un diseño
unifactorial con dos niveles (y dos réplicas por nivel). Se tiene  =  , 1 ,  2  y el
modelo correspondiente será: yi j =  + i +  i j i = 1, 2 j = 1, 2 .
Los cálculos para este ejemplo pueden corroborarse con el siguiente programa Matlab:
 4 2 2 14   4.5
Se tiene: X'X =  2 2 0  , X'Y =  5 
  y, como se vió anteriormente, β =  −2.0 
 2 0 2   9   0.0 

es una estimación del vector de parámetros, β = 1  .
 2 
Consideremos la fpl λ'β = 1 −  2 = (0, 1, − 1)β
4 2 2   1   0
 2 2 0    =  1  y una
En este caso la ecuación ( X'X ) γ = λ equivale a   2  
 2 0 2   3   −1
 0.0 
solución particular de este sistema es γ =  0.5  , lo que muestra que la fpl sí es
 −0.5 
estimable.
Una estimación particular de esta fpl es λ'θ 0 donde θ 0 es una solución particular de
sistema de ecuaciones normales ( X'X ) β = X'Y , esto es, del sistema de ecuaciones
 4 2 2     14 0.0 
lineales:  2 2 0  1  =  5  . Por ejemplo, θ =  2.5 . Así pues: λ'θ0 = −2 es una
      0
 2 0 2   2   9   4.5
estimación particular de la fpl en consideración.

Para construir un intervalo de confianza de esta fpl se debe estimar V(λ'β) . Para ello,
 0.0 
usamos la solución particular γ =  0.5  , encontrada arriba, y la estimación de la
 −0.5 
varianza de los datos

 0.5 −0.5 0.0 0.0  2 
 −0.5 0.5 0.0 0.0  3 
SCE Y'QY 1   = 1
s = =
2 2
= = (2,3,5, 4) 
n−k n−k 2  0.0 0.0 0.5 −0.5  5  2
  
 0.0 0.0 −0.5 0.5  4 
 4 2 2   0.0 
En consecuencia: v(1 −  2 ) = (0.0, 0.5, − 0.5)  2 2 0   0.5 =
1 1
2 2
 2 0 2   −0.5 
Por consiguiente el intervalo del 95% para la fpl estará dado por:
1 1
−2  t4−2, 0.025 = −2  4.303 = (−5.0427 , 1.0427)
2 2
Puesto que 0 pertenece a este intervalo, se puede concluir que 1 −  2 = 0 o, lo que es
igual, 1 =  2
La descomposición de la suma de cuadrados para este ejemplo, teniendo en cuenta que
  yi j
2

 
SCM = n ( y ..) = 4  i j  = 49 , se resume en la siguiente tabla:
2
 4 
 
Primera Segunda Tercera

forma forma forma
SCM = 49
SCR = 53 SCR m = 4 SCR m = 3
SCE = 1 SCE = 1 SCE = 1

SCT = 54 SCT = 54 SCTm = 5
5.2 Modelos W
Los modelos sobreparametrizados, vistos anteriormente, han sido importantes debido a
que muestran todos los parámetros pero esto a la vez constituye su mayor debilidad,
pues son más los parámetros que las medias disponibles para estimarlos.
Los modelos de medias de celdas son reparametrizaciones de los modelos S, en las que
se busca un modelo Y = Wμ + ε definido mediante una matriz W de rango completo.
En este caso μ es un nuevo vector de parámetros más reducido que el anterior vector
β.
Los modelos de medias de celdas más comunes, para una y dos vías de clasificación,
son los siguientes:
• yi j = i +  i j , corresponde al modelo de una vía, yi j =  +  i +  i j , al hacer el

cambio de variable i =  + i .
• yi j k = i j +  i j k , que viene del modelo de dos vías sin interacción
yi j k =  + i +  j +  i j k , al realizar el cambio de variable i j =  + i +  j
• yi j k = i j +  i j k obtenido del modelo de dos vías con interacción,
yi j k =  + i +  j +  i j +  i j k mediante el cambio de variable
i j =  + i +  j +  i j
Mediante transformaciones adecuadas, todo modelo S puede ser transformado en un

modelo de medias de celdas, de la forma Y = Wμ + ε de rango completo.
Como es de esperarse, el vector de parámetros μ , se estima mediante las ecuaciones

normales μ = ( W'W ) (W'Y) .
-1
Como antes, las fpl son combinaciones lineales de los parámetros del modelo, es decir,
de las medias de las celdas. Digamos que son expresiones del tipo L = λ'μ cuya
MELI, en caso de que sean estimables, tendrá la forma L = λ'Y , donde Y es el vector
formado por las medias estimadas de las celdas con las observaciones. Su varianza
estará dada por V( L) =  2 γ'(W'W)γ donde γ es solución del sistema (W'W)γ = λ .
Como antes, esta varianza puede ser estimada utilizando la estimación
SCE
s 2 =  2 =CME= donde k es el rango de X.
n−k
Ejemplo 10
Considérese el diseño de clasificación cruzada a dos vías sin interacción, dado por el
siguiente esquema, en el cual los asteriscos representan observaciones perdidas a lo
largo del proceso. Aunque una línea de conducta debe ser la de diseñar experimentos
balanceados, suele ocurrir a lo largo del desarrollo de un experimento que se pierdan
unidades experimentales, razón por la cual los resultados finales puedan dar origen a
diseños desbalanceados, es decir, diseños en los que el número de observaciones no es
el mismo para todas las celdas.
Factor 2
Nivel 1 Nivel 2
2 *
Nivel 1 4 *
Factor * 6
1 * 2
Nivel 2 3 3
5 4
El modelo S correspondiente a este diseño, yi j k =  + i +  j +  i j k , puede explicitarse

de la siguiente manera:
 y111   2  1 1 0 1 0  111 
 y   4  1 1 0 1 0   
 112       
 112 
 y123   6  1 1 0 0 1     123 
      1  
 y212  =  3  = 1 0 1 1 0     212 
 2  +
 y213   5  1 0 1 1 0     213 
      1  
 y221   2  1 0 1 0 1     221 
  2 
 y   3  1 0 1 0 1  
 222       222 
 y223   4  1 0 1 0 1   223 
El cambio de variable i j =  + i +  j produce el nuevo modelo de rango completo:

 y111   2  1 0 0 0  111 
 y   4  1 0 0 0   
 112      112 
 y123   6   0 1 0 0   11   123 
       
 y212  =  3  =  0 0 1 0   12   212 
+
 y213   5   0 0 1 0   21   213 
        
 y221   2   0 0 0 1   22   221 
 y   3 0 0 0 1  
 222       222 
 y223   4   0 0 0 1   223 
que es de la forma Y = Wμ + ε
El proceso para encontrar W es sencillo si se observa el esquema siguiente:
En este caso W'W es la matriz diagonal de rango completo, dada por:
2 0 0 0
0 1 0 0 
W 'W = 
0 0 2 0
 
0 0 0 3
matriz de la cual, al resolver el sistema de ecuaciones normales, se obtiene
 y11.   3 
 y  6
μ =  12.  =   = Y
 y21.   4 
   
 y22.   3 
que es el vector de estimación de los cuatro parámetros (11 , 12 , 21 , 22 ) ' y que,
como se ve, está formado por las medias de los datos en cada celda.
Nota 1: En el modelo Σ que se presentará en la siguiente sesión se mostrará que al

fijar condiciones sobre los parámetros, es posible estimar los valores de i y  j , es
decir de los efectos del diseño en cada nivel.
Nota 2: De acuerdo con lo dicho anteriormente, para los modelos de doble clasificación
las fpl son combinaciones lineales de los parámetros del modelo, es decir, de las medias
de las celdas. Digamos que son expresiones del tipo
a b
L =  i j i j
i =1 j =1
La MELI de tales fpl, en caso de que ellas sean estimables, tendrá la forma
a b
L =  i j yi j
i =1 j =1
  2i j 
y su varianza estará dada por V( L ) =   
2
 Como antes, esta varianza

j  ni j
i 
SCE
puede ser estimada utilizando la estimación s 2 =  2 =CME= donde k es el
n−k
rango de X. La sigla CME significa cuadrado medio del error y aparece generalmente
en las tablas de análisis de varianza que se verán en la segunda parte de este documento.
Continuando con el ejemplo y utilizando Matlab para construir las matrices proyectoras
P y Q a partir del modelo S correspondiente, se tendrá:
SCR = Y'PY = 106.1429

SCE = Y'QY = 12.8571
SCT = Y'I8 Y = SCR+SCE = 119.0000
En general SCM = Y'P0 Y donde P0 = X0 (X'0 X0 )G X'0 siendo X0 la primera columna
de la matriz X.
El programa adjunto en Matlab, permite calcular las estimaciones correspondientes, a

saber:
En consecuencia la tabla de descomposición de sumas de cuadrados para este ejemplo,

será la siguiente:
Primera forma Segunda forma Tercera forma
SCM = 105.1250
SCR = 106.1429 SCR m = 1.0179 SCR m = 1.0179
SCE = 12.8571 SCE = 12.8571 SCE = 12.8571
SCT = 119.0000 SCT = 119.0000 SCTm = 13.8750
Puesto que la matriz de diseño X del modelo S, tiene rango 3, se concluye que una
SCE 12.8571
estimación de  2 es CME = = = 2.5714
n−k 8−3
5.3 Descomposición última de la suma de cuadrados del modelo

La suma de cuadrados de la regresión, SCR, es decir la suma explicada por el modelo,
generalmente se puede descomponer en varias sumas de cuadrados, debido a diferentes
fuentes de variación. Una de ellas es la SCM. La parte restante, es decir SCR – SCM se
puede descomponer en una parte debida a un factor, otra debida a otro factor y otra a las
interacciones, etc. Generalmente, todas estas descomposiciones, si se desea conocerlas,
se hacen sobre la tercera forma de descomposición de las sumas de cuadrados. Para ello,
la matriz X debe ser particionada en varias submatrices Xi correspondientes a cada
una de las fuentes de variación. Con cada una de tales submatrices se construye una
matriz proyectora que permite el cálculo de la correspondiente suma de cuadrados.
Siguiendo el esquema Pi = Xi (Xi'Xi )G Xi' donde G indica una inversa generalizada,
se pueden construir matrices proyectoras ortogonales P0 , P1 , P2 , las cuales,
combinadas adecuadamente, permiten la descomposición de SCR en componentes
debidas al factor 1 y al factor 2 respectivamente.
Puesto que se cumple P - P0 = (P1 - P0 ) + (P - P1 ) es posible escribir:
Y'(P - P0 )Y = Y'(P1 - P0 )Y + Y'(P - P1 )Y
expresión que sugiere, en la forma tres, cómo se puede descomponer SCR m en dos (o
más) sumandos, dependiendo de la manera como se distribuyan los rangos de las
diferentes matrices que intervienen en dicha descomposición, ya que se debe cumplir:
Rango(P - P0 ) = Rango(P1 - P0 ) + Rango(P - P1 )
estos rangos corresponden realmente a los grados de libertad de las sumas de

cuadrados como variables aleatorias que tienen distribución Ji cuadrado.
Puede ocurrir que Y'(P1 - P0 )Y + Y'(P - P1 )Y no sea exactamente igual al valor de

SCR m en cuyo caso la descomposición debe ser corregida. El exceso, en caso de que
exista, junto con los correspondientes grados de libertad constituyen el valor de la suma
de cuadrados de la interacción en el modelo. Estas descomposiciones se suelen disponer
en una tabla, como se muestra en los ejemplos siguientes.
Ejemplo 11
Considerando la matriz X del ejemplo anterior
1 1 0 1 0
1 1 0 1 0 

1 1 0 0 1
 
1 0 1 1 0
X=
1 0 1 1 0
 
1 0 1 0 1
1 0 1 0 1
 
1 0 1 0 1 
X se puede descomponer en tres submatrices X0 , X1 , X2 correspondientes

respectivamente a la media, a los efectos del primer factor y a los efectos del segundo
factor, de la siguiente manera:
1 1 0 1 0
1 1 0  1 0 
  
1 1 0 0 1
    
1 0 1 1 0
X0 =   X1 =  X2 = 
1 0 1 1 0
    
1 0 1 0 1
1 0 1 0 1
    
1  0 1  0 1 
estas matrices dan origen a las siguientes matrices proyectoras:
P = X(X'X)G X' de rango 3

P0 = X0 (X0'X0 )G X0' de rango 1 (siempre es de rango 1))
G
P1 = X1 (X1'X1 ) X1' de rango 2
G
P2 = X2 (X2'X2 ) X2' de rango 2
Q = I-P de rango n − rango(P) = 8 – 3 = 5
T = I - Po de rango 7 (siempre es de rango n − 1 ).
La tabla de descomposición de suma de cuadrados junto con los grados de libertad es la

siguiente:
Fuente de variación Sumas de Cuadrados Grados de libertad

(rango del proyector)
MODELO Y'(P - P0 )Y = 1.0179 3 −1 = 2
Factor 1 Y'(P1 - P0 )Y = 0.6750 2 −1 = 1
Factor 2 Y'(P - P1 )Y = 0.3429 3− 2 =1
ERROR Y'(I - P)Y = 12.8571 8−3 = 5
TOTAL Y'(I - P0 )Y = 13.8750 n −1 = 7
Ejemplo 12
Considérese el diseño cuyos datos obedecen al esquema de la tabla adjunta:

Factor 2
1 2
1 3 6
Factor 5 4
1 2 3 5
2 3
Cuya matriz de diseño es la siguiente:
1 1 0 1 0 1 0 0 0
1 1 0 1 0 1 0 0 0 

1 1 0 0 1 0 1 0 0
 
1 1 0 0 1 0 1 0 0
X=
1 0 1 1 0 0 0 1 0
 
1 0 1 1 0 0 0 1 0
1 0 1 0 1 0 0 0 1
 
1 0 1 0 1 0 0 0 1 
En este caso se tiene:
1 1 0 1 0 1 0 0 0
1 1 0  1 0  1 0 0 0 
   
1 1 0 0 1 0 1 0 0
      
1 1 0 0 1 0 1 0 0
X0 =   X1 =  X2 =  X12 = 
1 0 1 1 0 0 0 1 0
      
1 0 1 1 0 0 0 1 0
1 0 1 0 1 0 0 0 1
      
1  0 1  0 1  0 0 0 1 
Es decir, la matriz de diseño se ha particionado en la forma X = [X0 X1 X2 X12 ] ,

matrices que corresponden respectivamente a la media, al primer factor (con dos
niveles), al segundo factor (con dos niveles) y a las interacciones
11 , 12 ,  2 1 ,  2 2 entre los dos factores.
El modelo del diseño es en este caso: yi j k =  + i +  j +  i j +  i j k donde  i j = i  j
para i = 1, 2 j = 1, 2 .
Igual que antes, se pueden construir las matrices proyectoras Pi = Xi (Xi'Xi )G Xi ´

donde el exponente G indica una inversa generalizada que coincide con la inversa
{ñcorriente cuando Xi sea de rango completo. Esta misma fórmula se aplica para
P = X(X'X)G X´ . Se calcula además Q = I - P , con lo cual se obtienen los siguientes
resultados
• SCM = Y'P0 Y = 120.125

• SCR m = Y'(P − P0 )Y = 6.375
• SCR1 = Y'(P1 − P0 )Y = 3.125
• SCR 2 = Y'(P − P1 )Y = 3.25
• SCE = Y'(I - P)Y = Y'QY = 6.50
• SCTm = Y'(I - P0 )Y = 12.875
Nótese que: P - P0 = (P1 - P0 ) + (P - P1 ) , por lo que podemos asegurar que

SCR m = SCR1 + SCR 2 . El subíndice m que acompaña algunas sumas de
cuadrados indica que ellas han sido corregidas por la media, es decir, se les ha
sustraído el valor SCM , lo que se refleja en la sustracción de la matriz P0 . En
nuestro ejemplo
Los cálculos anteriores pueden verificarse con el siguiente programa en Matlab

Lo anterior nos lleva a la siguiente tabla de análisis de varianza:
Fuente Sumas de G.L

variación cuadrados
Modelo SCR m = 6.375 3
Debido a X1 SCR1 = 3.125 1
Debido a X 2 SCR 2 = 3.250 2
Error SCE = 6.500 5

Total Corr SCTm = 12.875 7
MODELOS CON INTERACCION
En los modelos de dos y más factores puede ocurrir que además de los efectos de los
factores existan efectos conjuntos producidos por la combinación de dos o mas de los
factores. Tales efectos se denominan interacciones y, cuando existen, constituyen otra
fuente de variación que dificulta un poco la interpretación de los resultados. En estas
notas nos limitamos al caso de modelos de dos vías de clasificación, pero el lector queda
avisado de que la situación también se puede presentar cuando se manejan más de dos
factores.
Cuando no hay interacción interacción entre los factores en un modelo de doble

clasificación, se cumple SCR m = SCR1 + SCR 2 donde SCR1 y SCR 2 son las
sumas de cuadrados correspondientes a cada uno de los factores F1 y F2

respectivamente. Cuando existe una interacción significativa entre estos dos factores la
suma anterior toma la forma SCR m = SCR1 + SCR 2 + SCI , donde la suma SCI está
asociada a la matriz (P - P1 )(P - P2 ) .

La presencia de esta suma obliga a recomponer la tabla ANOVA que ahora toma la
forma siguiente:
Fuente de Suma de cuadrados

variación Corregidos por la media Grados de Libertad
Modelo SCR m rank( P − P0 )
Factor F1 SCR1 = Y'* (P - P1 )* Y (# niveles de F1) – 1

Factor F2 SCR 2 = Y'* (P - P2 )* Y (# niveles de F2) – 1
Interacción
F1*F2 SCI = Y'(P - P1 )(P - P2 )Y  = rank((P - P1 )(P - P2 ))
Error Y'(I - P)Y rank(I - P) −

Total Y'(I - P0 )Y n -1 = rank( I − P0 )
EJEMPLO:
Considérese un diseño bifactorial determinado por el siguiente esquema:
El lector puede intentar la formulación matricial de este modelo, el cual puede ser
analizado con el siguiente programa en MATLAB:
La ejecución del programa arroja los siguientes resultados:
El lector puede realizar los calculos para completar las tablas siguientes:
Nótese cómo al eliminar la interacción los correspondientes grados de libertad pasan al

error.
Algunos paquetes como SAS o Minitab pueden realizar estimaciones de ambos tipos de
modelo, según como éste se especifique. El primer modelo se especifica con la
expresión Y = X1 + X 2 + X1 * X 2 mientras que el segundo se hace con Y = X1 + X 2 , tal
como se ilustra en los siguientes programas para SAS:
Estimación del modelo SIN Estimación del modelo CON interacción:

interacción
Data ejemplo; Data ejemplo;
Input Y X1 X2; Input Y X1 X2;
Datalines; Datalines;
3 1 1 3 1 1
5 1 1 5 1 1
6 1 2 6 1 2
4 1 2 4 1 2
3 2 1 3 2 1
2 2 1 2 2 1
5 2 2 5 2 2
3 2 2 3 2 2
; ;
proc anova; proc anova;
class X1 X2; class X1 X2;
model Y = X1 X2; model Y = X1 X2 X1*X2;
run; run;
Programas en SAS para la descomposición de las sumas de cuadrados
Modelos 
Los modelos con restricción paramétrica se han introducido con el fin de lograr
soluciones únicas en las estimaciones de los parámetros. En tales modelos se
condicionan los valores que pueden tomar los parámetros mediante algunas ecuaciones
que se les imponen. Casi siempre dicha condición es que la suma de los parámetros
correspondientes sea 0. En tales condiciones los modelos resultantes se representan
mediante la expresión: Y = ZΘ + ε
Por ejemplo, al modelo yi j k =  + i +  j +  i j +  i j k se le pueden imponer las

condiciones:
1 a a
i = i − i y entonces
a i =1

i =1
i =0
a
1 a
j = j −   j y entonces
b j =1

i =1
j =0
a
1 b 1 a 1 b
i j = i j − 
a j =1
 ij − 
b i =1
i j − i j
ab i j =1
con lo cual  i j = 0 y
i =1

j =1
ij =0
Lo anterior se enuncia comúnmente diciendo que “las sumas de los efectos de diseño
valen cero”.
Ejemplo 13
Considérense tres tipos de sondas pedológicas en dos tipos de terreno. Se mide la
cantidad en mg de P2O3 por cada 100 gr de tierra extraída, como muestra el cuadro
siguiente (Iemma, Simposio 1993).
Sonda 1 Sonda 2 Sonda 3

j =1 j=2 j =3
Suelo 1 43 41 42
i =1 45 * 44
40 35 *
Suelo 2 40 37 *
i=2 * 33 *
Este diseño incompleto y desbalanceado puede representarse matricialmente de la

siguiente manera:
 43 1 1 1 0 1  111 
 45 1 1 1 0 
1  
    112 
 41 1 1 0 1 −1  121 
       
 42  1 1 −1 −1 0     131 
1
 44  1 1 −1 −1 0    132 
 =   1  ¨+  
 40  1 −1 1 0 −1    211 
2
 40  1 −1 1 0 −1    212 
     11   
 35  1 −1 0 1 1   221 
37  1 −1 0 1 1   
     222 
 33  1 −1 0 1 1   223 
lo anterior, debido a que  2 = −1 , 3 = −1 − 2 ,  21 = − 11 ,  12 = − 11 ,  13 = 0 ,

 22 =  11 a causa de las relaciones que deben cumplir los parámetros.
Lo anterior implica (Z'Z)Θ = Z'Y , de donde:

10 0 2 2 2    0  400 
 0 10 −2 −4 0   0   30 
  1   
 2 −2 6 2 0   10  =  82 
    
 2 −4 2 6 2    20   60 
 2 0 0 2 8   110   72 
y, en consecuencia,
 0 = 40.1667
10 = 2.5000
10 = 1.8333
 20 = −2.1667
 110 = −0.5000
de donde se pueden encontrar los valores de los demás parámetros.
5.4 Modelos R
Diremos brevemente que los modelos clásicos de regresión pueden ser usados para
resolver modelos de diseño siempre que se haga una conveniente utilización de
variables indicadoras. En tales casos, los modelos de regresión pueden ser considerados
como reparametrizaciones del modelo S.
Para el modelo de clasificación simple yi j =  +  i +  i j i = 1, 2, , a , bastará

1 si i = k
considerar a variables indicadoras: U i j k =  para k = 1, 2, ,a
0 si i  k
Si se fija un nivel, por ejemplo el nivel a como básico (testigo o control), usualmente
denotado por  , se tendrá:
yi j =  0 + 1U i j 1 +  2U i j 2 + +  a −1U i j a −1 +  i j
cumpliéndose entonces que  i = i −  a para i = 1, 2, , a −1
Algo semejante puede formularse para otros modelos, pero en este momento no
insistiremos más en el tema.
Los modelos de regresión pueden ser escritos en la forma Y = Uδ + ε de donde se
deducen las ecuaciones normales (U'U)δ = U'Y que permiten la estimación de los
parámetros.
Ejemplo 14
El ejemplo anterior escrito en forma de modelo R tiene la siguiente formulación:
 y111   43 1 1 1 0 1 0  111 

 y   45 1 1 1 0 1 0   
 112      112 
 y121   41 1 1 0 1 0 1    0   121 
       
 y131   42  1 1 0 0 0 0   11   131 
 y132   44  1 1 0 0 0 0   21  132 
 = =  + 
 y211   40  1 0 1 0 0 0   22   211 
 y   40  1 0 1 0 0 0   31   212 
 212        
 y221   35  1 0 0 1 0 0   32   221 
 y  37  1 0 0 1 0 0  
 222       222 
 y223   33  1 0 0 1 0 0   223 
lo que produce:
10 5 4 4 2 1    0   400 
5
 5 2 1 2 1   11   215 
4 2 4 0 2 0   21  168 
   =  
4 1 0 4 0 1   22  146 
2 2 2 0 2 0   31   88 
    
 1 1 0 1 0 1   32   41 
  0   127 
    −84 
 11   
 21   −87 
y, por tanto:  = 
 22   −92 
 31   88 
   
 32   90 
Tablas de análisis de varianza

Las tablas de descomposición de las sumas de cuadrados, vistas anteriormente,
corresponden realmente a formas cuadráticas de la forma Q = Y'AY donde la matriz
proyectora A que es de la forma Xi (Xi'Xi )Xi' es simétrica (verificarlo!). En
consecuencia, tales formas cuadráticas tienen distribución Ji cuadrado no central de
1
parámetros q y  = μ i' ( Σ i ) μ i , donde q es el rango de la matriz A y  , el
-1
2
parámetro de no centralidad, está determinado por la esperanza y la varianza del
correspondiente vector Y visto como variable aleatoria de respuesta.
Bajo la hipótesis de que los efectos son nulos, las distribuciones Ji cuadradas no
centrales se convierten en distribuciones Ji cuadradas centrales cuyos grados de libertad
corresponden a los rangos de las matrices proyectoras que las definen. Esto, a su vez,
implica que los cocientes de dos cualesquiera de tales formas cuadráticas, definidas
previamente entre sus grados de libertad, correspondan a una variable aleatoria con
distribución F.
Las sumas de cuadrados divididas entre sus grados de libertad (que realmente son
varianzas) reciben usualmente el nombre de cuadrados medios y el cociente de dos
cuadrados medios cualesquiera es entonces una variable aleatoria con distribución F.
Por lo general se hacen los cocientes tomando como denominador el cuadrado medio
correspondiente a SCE, conformándose con ello una tabla que, por su naturaleza,
recibe el nombre de tabla de análisis de varianza (ANOVA) que en su forma más
general, corresponde a lo siguiente:
Fuente de Suma de cuadrados Grados de Cuadrados F Calculada

Variación Libertad Medios
Modelo H = SCR m CMR
CMR = F=
(corregido) SCR m = Y'(P - P0 )Y rango(P - P0 ) H CME
E = SCE
SCE = Y'(I - P)Y CME =
Error rango(I - P) E
Total n −1 = SCTm
CME =
(corregido) SCTm = Y'(I - P0 )Y rango(I - P0 ) n −1
Típica tabla de Análisis de varianza
Cuando SCR m se descompone en otras sumas de cuadrados más elementales es posible

ampliar la tabla de análisis de varianza y obtener otros cocientes F con los cuales es
posible probar otras hipótesis. Este tema se verá en la segunda parte en cada uno de los
diseños particulares que se estudiarán.
El cociente F de la tabla anterior, corresponde al valor particular que toma una variable
aleatoria F que tiene  H y  E grados de libertad en el numerador y el
denominador respectivamente, con los valores de respuesta observados. Ella constituye
pieza esencial para probar la hipótesis de que los efectos del modelo son nulos, lo que
en últimas equivale a probar que todos los tratamientos tienen la misma media.
En el anexo este documento se estudiarán con más detenimiento algunos modelos

comunes de diseño a los que se les puede aplicar la técnica anterior, conocida como
técnica de análisis de varianza.
El análisis de varianza es una de las técnicas más populares y usuales para realizar el
análisis de un diseño de experimentos. Sin embargo existen otras técnicas basadas en los
modelos lineales que son más generales y aplicables, por consiguiente, en situaciones en
las que el ANOVA es francamente inapropiado.
Capítulo III
MODELOS LINEALES
GENERALIZADOS
INTRODUCCION
UNIDAD 7
FUNDAMENTOS TEORICOS DE LOS

MODELOS LINEALES GENERALIZADOS
Más adelante se ampliarán algunos conceptos sobre los modelos de conteos que casi
siempre obedecen a modelos con distribuciones Poisson y que con mucha frecuencia
presentan problemas relacionados con la varianza o con la presencia de ceros.
Dedicaremos las páginas siguientes al estudio de algunos de los casos más típicos de
modelos lineales generalizados, los que por alguna razón no encajan dentro de los
modelos estudiados en los capítulos estudiados hasta ahora.
Recapitulando un poco sobre lo escrito en páginas anteriores temenos lo siguiente:
Los modelos lineales generalizados tienen tres components claramente establecidas, a

saber:
1. Una componente aleatoria conformada por la variable de respuesta Y que

puede ser numérica o categórica, junto con su distribución de probabilidad, sus
parámetros y todas las propiedades de cualquier variable aleatoria.
La componente aleatoria está representada por n observaciones aleatorias
y1 , y2 , , yn . Estas observaciones pueden ser categorías de una variable categórica o
valores numéricos de una variable aleatoria numérica discrete o continua.
2. Una componente sistemática conformada por las variables explicativas o

regresoras, en forma de combinación lineal. Este parte se conoce también como
función predictora y tiene la forma  =   j xij =
j
0 + 1 xi1 + 2 xi 2 + +  p xip i = 1, 2, ,n
3. Una función link o de enlace que es una función del valor esperado de Y ,
 = E(Y ) como combinación lineal de las variables predictoras.
Esta función g (  ) relaciona el valor E(Y ) con el predictor lineal en la forma

g (  ) =  , lo que implica que i = 1, 2, , n : g(i ) = i =   j xij
j
La función de enlace más simple es g (  ) =  , o sea la idéntica, y se da con los

modelos clásicos que son casos particulares de los GLM. Es decir, los GLM son
verdaderas generalizaciones de los modelos de regresión corriente en dos sentidos:
a. De una parte, permiten el uso de variables de respuesta con distribuciones
diferentes a la normal.
b. De otro lado, el uso de funciones diferentes a las idénticas permiten la inclusion
de los modelos de ANOVA y de datos categóricos dentro del campo más amplio
de los modelos lineales.
En general las estimaciones se hacen por máxima verosimilitud. En esto se basan,

por ejemplo, el procedimiento GENMOD del SAS y la función glm de R.
En resumen:
Los modelos para datos binaries corresponden a los casos en los que la variable de
respuesta Y tiene dos categorías del tipo SI/NO, Exito/Fracaso, codificadas con 0 y 1.
Es decir, Y ~ b( )=B(1, ) , y, por tanto:
      
y
f ( y |  ) =  (1 −  )
y 1− y
= (1 −  )   = (1 −  )Exp  y log    con y = 0,1
 1−     1 −  
  
El parámetro natural es Q( ) = log   = log it( ) . En este caso:
 1−  
1. E(Y ) = P(Y = 1) =  (x) , expresion que depende de p variables explicativas
x1 , x2 , , x p
2. V (Y ) =  (x)(1 −  (x))
EJEMPLO:
Se han examinado 2374 pacientes y se han clasificado de acuerdo con la intensidad con
que roncan la cual se ha valorado en 0, 2, 4, 5 de acuerdo con lo expresado en la table
siguiente:
Frecuencia de Inten- SI NO Proporción

Ronquido sidad roncan roncan Del SI
Nunca 0 24 1355 0.0174
Ocasionalmente 2 35 603 0.0549
Casi siempre 4 21 192 0.0986
Siempre 5 30 224 0.1181
PROGRAMA R:
ronca = c(0, 2, 4, 5)
prop.SI = c(24/(24+1355), 35/(35+603), 21/(21+192), 30/(30+224))
modelo = glm(prop.SI ~ ronca)
summary(modelo)
RESULTADOS:
Call:
glm(formula = prop.SI ~ ronca)
Deviance Residuals:
1 2 3 4
0.0010917 -0.0021289 0.0009281 0.0001090
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0163122 0.0015862 10.28 0.00932 **
ronca 0.0203378 0.0004729 43.01 0.00054 ***
(Dispersion parameter for gaussian family taken to be 3.298632e-06)
Null deviance: 6.1076e-03 on 3 degrees of freedom

Residual deviance: 6.5973e-06 on 2 degrees of freedom
AIC: -35.909
Number of Fisher Scoring iterations: 2

MODELOS DE REGRESION LOGISTICA:

  ( x) 
Como ya se sabe, en este tipo de modelos se tiene log   =   j xij = logit(x)
 1 −  ( x)  j
En consecuencia , la función de enlace es logit(x)
EJEMPLO:
Usaremos los mismos datos del ejemplo anterior para formular un modelo de regresión
logística dicotómica.
PROGRAMA EN R:
ronca = c(0, 2, 4, 5)
propor <- cbind(SI = c(24, 35, 21, 30), NO = c(1355, 603, 192, 224))
fit <- glm((propor ~ ronca), family = binomial(link=logit))
summary(fit)
RESULTADOS:
Call:
glm(formula = (propor ~ ronca), family = binomial(link = logit))
Deviance Residuals:
1 2 3 4
-0.8346 1.2521 0.2758 -0.6845
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.86625 0.16621 -23.261 < 2e-16 ***
ronca 0.39734 0.05001 7.945 1.94e-15 ***
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 65.9045 on 3 degrees of freedom

Residual deviance: 2.8089 on 2 degrees of freedom
AIC: 27.061

MODELOS PROBIT:
Estos Modelos se obtienen cuando  (x) = F (x) , siendo F una función de distribución
de probabilidad. El caso más frecuente ocurre cuando F (x) = (x) , la distribución
normal estándar.
 
Esto es:  ( x) =     j xij  , o lo que es igual  −1 ( (x) ) =   j xij . Es decir, la
 j  j
función de enlace se define como probit(x) =  ( x )−1
EJEMPLO:
Usando los mismos datos del ejemplo anterior,
ronca = c(0, 2, 4, 5)
propor <- cbind(SI = c(24, 35, 21, 30), NO = c(1355, 603, 192, 224))
fit <- glm((propor ~ ronca), family = binomial(link=probit))
summary(fit)
RESULTADOS:
Call:
glm(formula = (propor ~ ronca), family = binomial(link = probit))
Deviance Residuals:
1 2 3 4
-0.6188 1.0388 0.1684 -0.6175
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.06055 0.07017 -29.367 < 2e-16 ***
ronca 0.18777 0.02348 7.997 1.28e-15 ***
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 65.9045 on 3 degrees of freedom

Residual deviance: 1.8716 on 2 degrees of freedom
AIC: 26.124

MODELOS PARA CONTEOS:

Son los modelos en los que Y representa conteos de individuos. Con mucha frecuencia
tales conteos aparecen formando parte de tablas de contingencia obtenidas mediante el
cruce de dos o más variables categorizadas. Se habla entonces de modelos loglineales.
Un ejemplo sencillo es el siguiente: Se han examinado 400 pacientes que presentan

diferentes tipos de melanomas. Se han tenido en cuenta de una parte el tipo de cancer
(clasificado en cuatro categorías) y de otra la parte o sitio del cuerpo donde aparecieron.
Los conteos aparecen en la table siguiente:
Tipo de cáncer Sitio de aparición

CabezaCuello Tronco Extremidades
Hutchinson 22 2 10
Superficial 16 54 115
Nódulos 19 33 73
Indeterminado 11 17 28
La estimación del modelo se realiza con SAS UNIVERSITY EDITION siguiendo el

siguiente programa:
data melanomas;
input tipo $ sitio $ conteo;
datalines;
Hutchinson CabezaCuello 22
Hutchinson Tronco 2
Hutchinson Extremidades 10
Superficial CabezaCuello 16
Superficial Tronco 54
Superficial Extremidades 115
Nodulos CabezaCuello 19
Nodulos Tronco 33
Nodulos Extremidades 73
Indetermina CabezaCuello 11
Indetermina Tronco 17
Indetermina Extremidades 28
;
run;
proc genmod data = melanomas;
class tipo sitio / param = glm;
model conteo = tipo sitio / type3 dist = poisson;
run;
Se obtienen los siguientes resultados:
Procedimiento GENMOD
Información del modelo
Conjunto de datos WORK.MELANOMAS
Distribución Poisson
Función de vínculo Log
Variable dependiente conteo
N.º observaciones leídas 12
N.º observaciones usadas 12
Información del nivel de clase
Clase Niveles Valores
tipo 4 Hutchins Indeterm Nodulos Superfic
sitio 3 CabezaCu Extremid Tronco
Criterio para evaluar bondad de ajuste
Criterio DF Valor Valor/DF
Desviación 6 51.7950 8.6325
Desviación escalada 6 51.7950 8.6325
Chi-cuadrado de Pearson 6 65.8129 10.9688
Pearson X2 escalado 6 65.8129 10.9688
Verosimilitud log 1124.3272
Verosimilitud log completa -55.4532
AIC (mejor más pequeño) 122.9064
AICC (mejor más pequeño) 139.7064

Criterio para evaluar bondad de ajuste
Criterio DF Valor Valor/DF
BIC (mejor más pequeño) 125.8159
Algoritmo convergido.
Análisis de estimadores de parámetro de verosimilitud máxima
Límites de Chi-
Error confianza de cuadrado
Parámetro DF Estimación estándar Wald al 95% de Wald Pr > ChiSq
Intercept 1 3.8923 0.1111 3.6746 4.1100 1227.80 <.0001
tipo Hutchins 1 -1.6940 0.1866 -2.0597 -1.3283 82.42 <.0001
tipo Indeterm 1 -1.1950 0.1525 -1.4939 -0.8961 61.39 <.0001
tipo Nodulos 1 -0.3920 0.1158 -0.6190 -0.1651 11.47 0.0007
tipo Superfic 0 0.0000 0.0000 0.0000 0.0000 . .
sitio CabezaCu 1 -0.4439 0.1554 -0.7485 -0.1394 8.16 0.0043
sitio Extremid 1 0.7571 0.1177 0.5264 0.9878 41.36 <.0001
sitio Tronco 0 0.0000 0.0000 0.0000 0.0000 . .
Escala 0 1.0000 0.0000 1.0000 1.0000
Note:The scale parameter was held fixed.

Estadísticos LR para análisis de tipo 3
Origen DF Chi-cuadrado Pr > ChiSq
tipo 3 145.11 <.0001
sitio 2 98.30 <.0001

ANEXO
DISEÑOS CLASICOS DE ANOVA

(INTRODUCCION A LOS DISEÑOS EXPERIMENTALES CLASICOS)
1. Introducción
Podría pensarse, de acuerdo con Campbell y Stanley, que la investigación científica se

divide en dos: la investigación experimental y la no experimental. Esta postura, puede
ser polémica, pero ayuda a ubicar el trabajo que hace un investigador cuando diseña un
experimento con fines investigativos. Sin entrar en detalles, la investigación
experimental ha sido clasificada en pre-experimental, experimental pura y cuasi
experimental, mientras que la investigación no experimental suele dividirse en
transversal y longitudinal. Sea como fuere, puede afirmarse, desde el punto de vista
estadístico, que en cualquiera de los casos se busca construir un modelo matemático,
que pueda ser utilizado para explicar un fenómeno.
Desde este punto de vista podemos esquematizar la situación planteada de acuerdo con
lo siguiente:
Podría pensarse en una clasificación de acuerdo con la forma como sean tomadas las
variables independientes: En los estudios observacionales y exploratorios dichas
variables se toman “como aparezcan”, es decir, no han sido planeadas, ni sus valores
han sido definidos de antemano. Por el contrario en los experimentos diseñados dichas
variables han sido cuidadosamente planeadas de antemano. En cualquiera de los dos
casos se observan los valores de las variables respuestas. En los experimentos
estadísticos o aleatorios dichas respuestas son variables aleatorias. No sucede lo mismo
en la investigación de campos como la física, en la que tales variables son
determinísticas.
Comúnmente se entiende por experimento “un estudio de investigación en el que se

manipulan deliberadamente una o más variables independientes (supuestas causas)
para analizar las consecuencias que la manipulación tiene sobre una o más variables
dependientes (supuestos efectos), dentro de una situación controlada por el
investigador” (Sampieri, Fernández y Baptista).
Cuando se considera más de una variable respuesta el experimento es de naturaleza

multivariada. En este curso se hará más énfasis en experimentos univariados con una o
más variables independientes.
Las variables independientes deben ser cuidadosamente seleccionadas dentro de un

sinnúmero de posibles causas. Esta selección debe realizarse a la luz de un cuerpo de
teorías que la sustenten. Unicamente desde la teoría de una ciencia en particular podría
adivinarse cuáles pueden ser las variables importantes que deben ser manipuladas. Las
variables de respuesta no se manipulan sino que se miden. Esta medición debe ser
apropiadamente “operacionalizada” para que refleje claramente los efectos producidos,
si es que ellos existen.
El diseño y análisis de un experimento comprende entonces la definición y planificación

de los diferentes pasos que componen un experimento: desde el momento de selección
de las diferentes variables que intervienen, pasando por la determinación de los valores
que se van a considerar en las variables independientes, la operacionalización de las
variables de respuesta, la selección de una muestra de objetos o unidades
experimentales que van a sufrir una acción y a producir una respuesta, la medición de
los efectos en dichas unidades experimentales, hasta el análisis estadístico de la
información resultante como fruto de dichas mediciones y la interpretación de tales
análisis.
Se ha dicho anteriormente que uno de los objetivos perseguidos en los tipos de

investigación que hemos considerado es la obtención de un modelo matemático que, a la
vez que exprese las respuestas en función de las variables independientes, sirva para
pronosticar otros valores que no han sido observados y que pueden ser producidos por
valores no planificados de las variables independientes dentro del experimento. Tales
modelos son ecuaciones o relaciones funcionales del tipo:
 Y1   X 1  
   
Y   X 2 
Y= = f
2
¨= f ( X 1 , X 2 , , X p)
   
    
 Ym   X p  
En las que f es alguna función en el sentido matemático. La situación más frecuente
en este curso corresponde al caso univariado Y = f ( X1 , X 2 , , X p)
En la siguiente sesión presentaremos algunos conceptos básicos para los modelos de

tipo lineal los cuales conforman las situaciones más importantes y usuales en el estudio
de los diseños de experimentos.
Al diseñar un experimento el investigador fija los tratamientos y diseña la manera de

medir los efectos, es decir, los cambios que se producen en el valor de la media al
cambiar un nivel de un factor. Igualmente el investigador asigna las unidades
experimentales (objetos o individuos que van a sufrir la acción del experimento) a cada
uno de los tratamientos. Dicha asignación debe realizarse teniendo en cuenta principios
de aleatoriedad, homogeneidad y conveniencia de modo que se garantice el
cumplimiento de los principios teóricos en los que descansa el análisis de los datos
según el modelo de experimento que se esté utilizando.
4.1 Diseño de una vía (Diseño aleatorio completo)
Se tienen en este caso k poblaciones X 1 , X 2 ,, X k con distribuciones normales de
medias 1 ,  2 ,,  k y varianzas  12 , 22 ,, k2 respectivamente. Supondremos que
 12 =  22 =  =  k2 (homogeneidad de varianzas) y se desea probar la hipótesis H0:

1 =  2 =  =  k contra la alternativa de que al menos una media difiere
significativamente de las demás.
La prueba de homogeneidad de varianzas suele hacerse mediante un estadístico

propuesto por Bartlett y que está definido de la siguiente manera:
Q
B = 2.3026 donde Q = (n − k ) Log 10 ( S p2 ) −  (n j − 1) Log 10 ( S 2j )
C
1 k 
 (n j − 1) − (n − k ) 
−1 −1
C = 1+
3(k − 1)  j =1 
k
1
S p2 =
n−k
 (n
j =1
j − 1) S 2j
S 2j = Varianza muestral en el j-ésimo grupo
El estadístico de Bartlett, bajo la hipótesis de homogeneidad de las varianzas, tiene

distribución Ji-cuadrado con k − 1 grados de libertad, lo que puede ser aprovechado
para probar la hipótesis nula de que las varianzas son iguales ya que un valor grande de
B, es decir un pequeño valor P, indica que tal hipótesis es falsa y que, por ende, debe
ser rechazada.
El estadístico de Bartlett es sin embargo muy sensible a la falta de normalidad en los
grupos y por esta razón suele acompañarse de otras pruebas más robustas como la
prueba de Levene, la prueba de Hartley, la prueba de Box o la prueba Q de Cochran.
Para la comparación de las k medias, se toman muestras aleatorias X j1 , X j 2 ,, X jn j con
j = 1,2,, k , de cada una de las correspondientes poblaciones (los tamaños de estas
muestras pueden ser diferentes aunque se recomienda que sean iguales). De esta manera
nj
1
se obtienen estimadores X j =
nj
X
i =1
ji para cada una de las medias  k y, a la vez,
reuniendo todas las muestras, se puede construir un estimador de la media general

1
X=  X ji . Igual cosa puede hacerse con las varianzas en cada grupo y la
n j i
varianza general, también llamada varianza total.
En cualquier caso, una varianza es un cociente del tipo

(X i − X )2
donde el
GL
numerador es una suma de desviaciones al cuadrado y el denominador es un número
entero que representa unos grados de libertad. Si no se dividiera entre los grados de
libertad se tendría sólo la sumatoria del numerador, denominada variabilidad o
simplemente suma de cuadrados.
La técnica que se expondrá para comparar medias, se basa en una descomposición de la

variabilidad, es el análisis de varianza o ANOVA, y que, en líneas generales puede
resumirse en lo siguiente (Recordar lo visto en la página 89 y siguientes):
La suma de cuadrados SCT =  ( X ji − X ) 2 puede descomponerse en dos sumas
nj k nj
de cuadrados, SCB = n ( X ji − X ) , 2
y SCW =   ( X ji − X j ) 2 , llamadas
i =1 j =1 i =1
respectivamente Variabilidad Entre y variabilidad Dentro o también suma de

cuadrados entre y suma de cuadrados dentro. Se cumple la igualdad siguiente:
SCT = SCB + SCW

Se puede probar que SCB ~  k −1 , SCW ~  k ( n −1) y, de aquí, SCT tiene distribución Ji-
cuadrado con n − 1 grados de libertad
Si las sumas de cuadrados anteriores se dividen entre los grados de libertad se obtienen
los cuadrados medios, CMB y CMW respectivamente, los cuales realmente representan
varianzas y para los que se cumple:
k
ni
E(CMB) =  2 +  ( i −  ) 2 y E(CMW ) =  2
i =1 k −1
Como se desprende de las expresiones anteriores, cuando las medias de los tratamientos
son iguales entre sí e iguales a la media general, se cumple que
E(CMB) = E(CMW ) =  2 . Y, por tanto, en tales circunstancias, tanto CMB como CMW
SCB
son estimadores insesgados de la varianza. Además F =
CMB
= k −1 es una
CMW SCW
k (n − 1)
variable aleatoria con distribución F de k − 1 y k (n − 1) grados de libertad.
El no cumplimiento de la hipótesis nula, es decir, cuando no todas las medias de los

tratamientos son iguales, se traduce en valores grandes de F, ya que en tales casos el
numerador es sensiblemente mayor que el denominador. Esto, a su vez, se ve reflejado
en pequeños valores P, bajo la cola derecha de la distribución F correspondiente a los
grados de libertad k − 1 y k (n − 1)
Teniendo en cuenta lo expuesto en los párrafos anteriores es frecuente resumir la

información en una tabla denominada tabla de análisis de varianza o tabla ANOVA (ver
tabla 6.1) la cual facilita la interpretación de los resultados y la toma de decisiones
respecto al rechazo de la hipótesis nula . En esta tabla aparecen los valores calculados
de las diferentes variabilidades (Entre, Dentro y Total) al igual que los correspondientes
valores de varianza (Entre, dentro y Total) y el valor calculado de la F.
Cuando se rechace la hipótesis nula, se concluye que no todas las medias poblacionales
son iguales y, en consecuencia, habrá alguna(s) más pequeña(s) que las demás y
alguna(s) mayor(es) que todas las demás, resultando de interés el compararlas entre sí
con el fin de ordenarlas de menor a mayor para, de esta manera, poder decir cuál es el
peor y cuál el mejor tratamiento. Este proceso de comparación se conoce con el nombre
de comparaciones múltiples y puede realizarse de varias formas, como se muestra más
adelante.
Suma de Cuadrados medios F

Fuente de variación Cuadrados GL (Varianzas) Calculada
Tratamientos o
ENTRE SCB k −1 CMB = SCB CMB
(k − 1) F=
CMW
Error o
DENTRO SCW k (n − 1) CMW = SCW
k (n − 1)
TOTAL SCT n −1
Tabla de un análisis de varianza para un diseño aleatorio completo
Es conveniente saber que tanto las medias por tratamiento como las diferencias de
medias pueden estimarse de acuerdo con las siguientes fórmulas:
Ti s2
1. Intervalos para la media de cada tratamiento: t 
ni n − k , 2 ni
 T Tj  1 1
2. Intervalos para diferencias de medias:  i −   t n −k , s +
n n  n nj
 i j  2
i
EJEMPLO 4.1: Este ejemplo ha sido tomado del texto de Kuehl y se basa en datos de
B. Nichols (Universidad de Arizona 1980). Es un ejemplo interesante debido a los
elementos tanto teóricos como prácticos que involucra. Se trata de comparar cuatro
métodos de empaque de carnes para determinar cuál de ellos es más efectivo. Los
métodos de empaque (tratamientos) son los siguientes:
Tr1: Envoltura en papel plástico especial
Tr2: Empaque en bolsas selladas al vacío
Tr3: Empaque en atmósfera de CO2 (1%), O2 (40%) y N (59%)
Tr4: Empaque en atmósfera de CO2 (100%)
El experimento comienza con la selección de 12 trozos de carne muy homogéneos y

semejantes entre sí (unidades muestrales), tomados de la misma res y de la misma
porción mayor, los cuales son asignados aleatoriamente a cada uno de los cuatro
tratamientos. De esta manera en cada tratamiento se encuentran tres trozos que se
empacan de acuerdo con el proceso correspondiente. Ellos forman las réplicas
necesarias para que dentro de cada tratamiento haya variabilidad. Cuando en un diseño
hay igual número de réplicas en todos los tratamientos -como es el caso que nos ocupa-
se dice que el experimento es balanceado. Los diseños de una vía pueden ser
desbalanceados pero es recomendable mantener el balanceo mientras sea posible.
Para medir el efecto del empaque, se contabiliza el número de bacterias psicotrópicas

por centímetro cuadrado en la superficie de la carne empacada, al cabo de nueve días
de permanencia a una temperatura de 4 grados Celsius. A mayor número de bacterias
menor efectividad del empaque. Puesto que dicho número es demasiado grande se
prefiere tomar su logaritmo natural. Así pués, la variable respuesta o dependiente es el
logaritmo natural del número de bacteria por cm cuadrado. Esta es una variable
numérica
Los datos correspondientes a las mediciones de contaminación por bacterias son los
siguientes:
Tratam 1 Tratam 2 Tratam 3 Tratam 4
Plástico Vacío Co2 O2 N CO2
7.66 5.26 7.41 3.51
6.98 5.44 7.33 2.91
7.80 5.80 7.04 3.66
Con el fin de poder analizar los datos mediante software estadístico (ESM en este caso),
los datos deben ser dispuestos en un archivo en la forma siguiente:
7.66 1
6.98 1
7.80 1
5.26 2
5.44 2
5.80 2
7.41 3
7.33 3
7.04 3
3.51 4
2.91 4
3.66 4
Este archivo contiene los valores observados de la variable respuesta más un rótulo que
identifica el tratamiento correspondiente. Esta última columna conforma la variable
independiente o de tratamientos.
La tabla ANOVA junto con el valor P de probabilidad para la hipótesis nula es la

siguiente:
----------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
----------------------------------------------------------------------------
Modelo 32.8728 3 10.9576 94.5844
Error 0.9268 8 0.1158 *****
Total 33.7996 11 ***** *****
---------------------------------------------------------------------------
R2 = .972579 F tiene 3 y 8 Grados de libertad
Valor P de probabilidad: 0.00003000
Resultado del análisis de varianza del ejemplo 4.1
En esta tabla puede observarse un valor F de 94.5844 al cual corresponde un valor de

probabilidad demasiado pequeño (0.00003) en la cola derecha. Este valor, al ser inferior
al nivel de significancia establecido de 0.05, nos obliga a rechazar la hipótesis de
igualdad de las medias correspondientes a los tratamientos.
El cuadrado medio correspondiente al error se denomina también error cuadrático

medio, se representa por s 2 y es una estimación de la varianza no explicada en los
datos.
Antes de entrar a comparar las diferentes medias de tratamientos debemos verificar que
se cumplan las hipótesis básicas del modelo: homogeneidad de las varianzas y
normalidad de los residuos.
Homogeneidad de las varianzas. La prueba de Bartlett arroja los siguientes resultados:
** PRUEBAS DE IGUALDAD DE VARIANZAS ENTRE TRATAMIENTOS:

(Hipótesis nula: Ho: 12 =  22 =  32 =  42 )
PRUEBA CONJUNTA DE BARTLETT:
B = 1.207904
P = 0.75110913
Tabla 4.4 Prueba de homogeneidad de varianza del ejemplo 4.1
Puesto que la prueba arroja un valor P de 0.7512 aproximadamente, se concluye que no

es posible rechazar la hipótesis nula de que las varianzas son iguales. Es decir, podemos
suponer que se cumple la homogeneidad de las varianzas.
Normalidad de los residuos. El experimento analizado se ajusta al siguiente modelo:
xij =  + ( i −  ) + ( xij − i )
siendo xij la j-ésima observación del i-ésimo tratamiento, μ la media general y i
la media del i-ésimo tratamiento, considerado como una población. La diferencia

i −  es el efecto del i-ésimo tratamiento y el valor xij − i es el error entre cada
observación y la media del tratamiento al que ella pertenece.
Es frecuente utilizar la siguiente escritura para el modelo analizado: xij =  +  i +  ij . En
consecuencia, al utilizar las medias proporcionadas por los datos se pueden tener
estimaciones de los efectos y de los errores respectivamente mediante las expresiones:
î = xi − x y îj = xij − xi . Estos últimos valores se conocen como residuos.
En teoría los errores deben tener distribución normal para que el modelo sea apropiado.
El cumplimiento de este supuesto se verifica utilizando los residuos como estimaciones
de los errores, ya que ellos constituyen la única información tangible acerca de los
errores de ajuste de los datos al modelo.
En el ejemplo que estamos analizando se obtienen los siguientes resultados:
INTERVALOS DE CONFIANZA PARA MEDIAS EN CADA TRATAMIENTO:

_________________________________________________________
MEDIAS E INTERVALOS PARA TRATAMIENTO # 1 :

Media: 7.48 Err.Stand: .1965112380162134
Inter95%: [ 7.0268, 7.9332]

Media: 5.5 Err.Stand: .1965112380162134
Inter95%: [ 5.0468, 5.9532]

Media: 7.26 Err.Stand: .1965112380162134
Inter95%: [ 6.8068, 7.7132]

Media: 3.36 Err.Stand: .1965112380162134
Inter95%: [ 2.9068, 3.8132]
__________________________________________________________
MEDIA GENERAL DE LOS DATOS: 5.90
Estimación de intervalos para las medias de tratamientos. Ejemplo 4.1

Este cuadro proporciona los valores estimados de las medias por tratamiento, junto con
los errores estándar y el intervalo del 95% de confianza para cada caso.
Aplicando las fórmulas anteriores para estimar efectos y residuos se tendría:
• Estimación del efecto del primer tratamiento: 7.48 – 5.90 = 1.58

• Estimación del efecto del segundo tratamiento: 5.50 – 5.90 = -0.40
• Estimación del efecto del tercer tratamiento: 7.26 – 5.90 = 1.36
• Estimación del efecto del cuarto tratamiento: 3.36 – 5.90 = -2.54
Como puede observarse, la suma de los efectos de los tratamientos es cero.
Los residuos, para este ejemplo, son los siguientes
7.66 – 7.48 = 0.18

6.98 – 7.48 = -0.50
7.80 – 7.48 = 0.32
5.26 – 5.50 = -0.24
5.44 – 5.50 = -0.06
5.80 – 5.50 = 0.30
7.41 – 7.26 = 0.15
7.33 – 7.26 = 0.07
7.04 – 7.26 = -0.22
3.51 – 3.36 = 0.15
2.91 – 3.36 = -0.45
3.66 – 3.36 = 0.30
Residuos del ejemplo 4.1
Frecuentemente se calculan los residuos estandarizados que se obtienen dividiendo los

residuos anteriores entre la raiz cuadrada del error cuadrático medio. En nuestro caso, se
obtendrían dividiendo los residuos anteriores entre 0.1158 = 0.3403 , lo que arroja los
siguientes residuos estandarizados:
0.52884023
-1.46900064
0.94016041
-0.70512031
-0.17628008
0.88140038
0.44070019
0.20566009
-0.64636028
0.44070019
-1.32210058
0.88140038
Tabla 4.7 Residuos estandarizados. Ejemplo 4.1
Sobre estos valores debe realizarse una prueba de normalidad. En nuestro caso, la
prueba de Geary arroja los siguientes resultados:
Número de observaciones: 12
HIPOTESIS NULA: Las observaciones de la variable analizada

SE AJUSTAN A UNA DISTRIBUCION NORMAL con
Media (estimada): -4.625929269271485E-018
Varianza (estimada): 8.425454545454544E-002
Valor crítico de Z para H0: 1.365614709913629

VALOR P: 0.17204250
Tabla 4.8 Prueba de normalidad de residuos del ejemplo 4.1
El valor P de 0.17204, al ser mayor que el nivel de significancia 0.05, no nos permite
rechazar la hipótesis nula. En consecuencia, los residuos se ajustan a una distribución
normal y entonces, el modelo cumple con los supuestos básicos para una correcta toma
de decisiones.
4.2 Comparaciones múltiples
Entraremos ahora sí a realizar comparaciones múltiples entre las medias de los

diferentes tratamientos. Estas comparaciones, como se dijo anteriormente, permiten
comparar dos a dos las diferentes medias poblacionales de los tratamientos para
determinar cuáles de ellos producen efectos similares (es decir, no difieren) y cuáles
producen efectos significativamente distintos. Lo anterior permite, entre otras cosas,
decir cuál tratamiento es el peor y cuál es el mejor.
Una primera herramienta muy popular para realizar estas comparaciones la constituyen
los intervalos de confianza para las medias obtenidos anteriormente. Cuando dos
intervalos se intersecan las medias de los respectivos tratamientos no difieren
significativamente. Por el contrario, intervalos disjuntos corresponden a medias que
difieren significativamente; y será mayor la media correspondiente al intervalo situado
más a la derecha.
En el ejemplo que estamos presentando los intervalos para las medias de los
tratamientos son respectivamente:
Tr1: (7.02 , 7.93)
Tr2: (5.05 , 5.96)
Tr3: (6.80 , 7.71)
Tr4: (2.91 , 3.81)
Una gráfica aproximada de los intervalos del 95% de confianza para las medias de los
tratamientos es la siguiente:
En ella puede observarse que los intervalos correspondientes a los tratamientos Tr1 y
Tr3 son intersecantes lo que significa que entre ellos no hay diferencias significativas.
Por otra parte a ellos corresponden los intervalos situados más a la derecha lo que
significa que sus medias son las de mayor valor. Es decir, en este caso corresponden a
los métodos de empaque menos efectivos. Se puede observar que la menor media
corresponde al tratamiento Tr4, el cual difiere significativamente de los demás. Este es
el tratamiento que produce mejores resultados. Es decir, de acuerdo con este método de
comparación, el mejor sistema de empaque es una atmósfera al 100% de CO2. Los
peores métodos de empaque son envolturas en plástico y empaque en atmósfera
CO2+O2+N que prácticamente no presentan diferencias. El empaque al vacío presenta
una efectividad intermedia.
Una segunda herramienta de comparación se conoce con el nombre de diferencias

mínimas significativas (LSD o Least Significative Differences). Esta técnica es muy
similar a la anterior. En opinión de D. Montgomery es una de las técnicas de
comparación múltiple más efectivas cuando la F de la tabla ANOVA ha resultado
significativa.
Se definen las diferencias mínimas significativas mediante la expresión:

1 1
LSD(i, j ) = tn −k , s +
2 ni n j
donde s 2 es el error cuadrático medio.
Se rechaza H0: i =  j siempre que LSD(i, j ) | xi − x j | . En otras palabras dos
medias difieren significativamente cuando la diferencia en valor absoluto de las

respectivas medias muestrales es mayor que la correspondiente LSD.
Este método de comparación es muy simple pero tiene la desventaja de que exige
numerosos cálculos ya que se deben realizar k(k -1)/2 comparaciones de medias. En el
ejemplo que venimos presentando se requieren 6 comparaciones. ESM realiza los
diferentes cálculos como se ve a continuación (en este caso el archivo de salida se ha
editado para dejar solamente los LSD correspondientes al 5% de significancia):
COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS SIGNIFICATIVAS (LSD):
Ho: μ(i)= μ(j) H1: μ(i) <> μ(j) *DS* = Difieren signif. *ND* = No dif
MEDIA DE TRATAM( 2 ) - MEDIA DE TRATAM( 1 ):

Diferencia de medias = -1.98000000
LSD(α=0.05) = 0.6409 *DS*

LSD(α=0.05) = 0.6409 *ND*

Diferencia de medias = 1.76000000
LSD(α=0.05) = 0.6409 *DS*

LSD(α=0.05) = 0.6409 *DS*

LSD(α=0.05) = 0.6409 *DS*

LSD(α=0.05) = 0.6409 *DS*
Tabla 4.9 Comparación de medias en el ejemplo 4.1
Como puede observarse los resultados coinciden con lo calculado anteriormente aunque
es menos evidente la interpretación.
Mencionaremos muy brevemente el método de Tukey – Kramer, también muy

utilizado para realizar comparaciones múltiples.
Este método produce intervalos de confianza simultáneos de la forma:
s2  1 1 
xi − x j + qk ,  ,  DHS(k ,  E ) donde DHS(k ,  E ) =  +  y qk ,  ,  es un
2  ni n j 
valor que depende del nivel mínimo de significancia  E , de los grados de libertad ν
correspondientes al error cuadrático medio s, y del número de tratamientos k. Este

valor se busca en una tabla (ver anexo 2). De acuerdo con lo anterior, las medias de dos
tratamientos difieren significativamente cuando el valor absoluto de la diferencia de sus
medias muestrales es mayor que qk ,  ,  DHS(k ,  E ) .
Para el ejemplo que nos ocupa se tiene:

0.116 2
qk ,  ,  = q4, 8, 0.05 = 4.53 , DHS(k ,  E ) = 4.53 = 0.8907
2 3
En consecuencia:
Medias Valores de medias DHS Difer medias Difieren?

compar.
1 con 2 7.48 5.50 0.8907 1.98 Sí
1 con 3 7.48 7.26 0.8907 0.22 No
1 con 4 7.48 3.36 0.8907 4.12 Sí
2 con 3 5.50 7.26 0.8907 1.76 Sí
2 con 4 5.50 3.36 0.8907 2.14 Sí
3 con 4 7.26 3.36 0.8907 3.90 Sí
Tabla 4.10. Comparación de medias mediante prueba de Tukey en ejemplo 4.1
Existen otros métodos de comparación recomendables en diferentes circunstancias pero

que no serán tratados en este libro. Algunos de ellos son: Scheffé, Bonferroni, Duncan,
Gabriel, NKS, etc.
4.3 Contrastes
Dedicaremos unas líneas al método de comparación de medias mediante la técnica de

contrastes. Este método, de gran importancia en investigación, se usa cuando un
experimento se ha diseñado para comparar específicamente ciertos tratamientos. La
diferencia con los métodos anteriores, también denominados post hoc, es que aquellos
tienen sentido cuando el valor de la F ha resultado significativo, es decir, cuando la
prueba ANOVA ha detectado diferencias significativas y se desea saber cuáles son las
medias que difieren. En cambio los contrastes planificados pueden realizarse en
cualquier circunstancia.
k
Se define un contraste C como cualquier combinación lineal C =   i i donde los
i =1
k
escalares  i satisfacen i =1
i =0.
Aunque en principio los escalares  i podrían ser cualesquiera números reales, en la
práctica sólo son fracciones sencillas que, por lo general, se reducen a números enteros
multiplicándolas por una cantidad conveniente: casi siempre por el mínimo común
múltiplo de sus denominadores.
Por ejemplo, en el caso de empaques de carnes, si quisiéramos comparar los efectos del
empaque plástico frente a los de los demás tratamientos, un contraste adecuado sería:
1
C1 = 1 − ( 2 + 3 + 4 ) . Igualmente el contraste que permite comparar el empaque al
3
1
vacío frente a los empaques con gases sería: C2 = 2 − ( 3 + 4 ) y el que permite
2
comparar el empaque en una atmósfera, mezcla de gases, frente al empaque con CO2
puro, sería C3 = 3 − 2 . Los dos primeros contrastes de estos ejemplos también pueden
escribirse como C1 = 31 − 12 − 13 − 14 y C2 = 01 + 22 − 13 − 14 . De igual
manera C3 = 01 + 02 + 13 − 14
En general un contraste en un experimento de k tratamientos está determinado por k

constantes enteras cuya suma vale cero.
En cualquier caso se prueba la hipótesis nula H0 : Ci = 0 frente a la hipótesis
alternativa
H1 : Ci  0 .
k
CM Contraste  x i i
El estadístico de prueba está dado por FC = donde CM Contraste = i =1
y
k
i
n
CM Error
i =1 i
CM Error = s 2 . El estadístico FC tiene distribución F1, n−k , lo que puede ser aprovechado
para tomar la decisión de si se rechaza o no la hipótesis nula.

k
La estimación de un contraste, como era de esperarse, está dada por Cˆ =   i xi . Su
i =1
k
i
varianza es V(C ) = s 2  lo que permite construir intervalos de confianza para el
i =1 ni
contraste, intervalos que están dados por: Cˆ  tn −k ,  V(C )

2
Una expresión interesante, como se verá luego, es la suma de cuadrados del contraste,
2
 k 
   i xi 
dada por SS(C ) =  i =k1  .
 nii
i =1
En el ejemplo de las carnes que hemos estado analizando, los tres contrastes
presentados anteriormente, junto con sus estadísticos de prueba y los correspondientes
valores P, se resumen en la siguiente tabla:
Contraste Constantes del contraste Estadístico Valor P

Ci 1 2 3 4 FC (Ci )
C1 3 -1 -1 -1 86.12 0.0001
C2 0 2 -1 -1 0.6034 0.4608
C3 0 0 1 -1 196.72 0.0000
Tabla 4.11. Estimación y significancia de contrastes para el ejemplo 4.1
Lo que muestra que las hipótesis formuladas en los contrastes C1 y C3 se rechazan

mientras que la formulada por el contraste C2 no se rechaza. En otras palabras, el
promedio de bacterias en la carne empacada en plástico es mayor que el promedio de
bacterias en las carnes empacadas en atmósferas de gases. Podemos afirmar esto porque
la estimación del contraste es un número positivo: Cˆ1 = 2.11 aproximadamente.
Análogamente, la conclusión que se puede obtener del contraste C2 es que el
promedio de bacterias al empacar la carne al vacío es igual al promedio de bacterias al
empacar con otros gases.
Otra manera de probar hipótesis mediante contrastes es la utilización de los intervalos

de confianza para ellos. Si el intervalo de confianza contiene al cero entonces el
contraste se considera igual a cero. Por el contrario, si el cero no está dentro del
intervalo de confianza, el contraste es diferente de cero y será negativo o positivo según
que el cero esté a la derecha o a la izquierda del intervalo de confianza.
ESM V8 permite construir contrastes para el caso de comparación de varias medias en

el diseño de una vía. Por ejemplo, para probar la hipótesis formulada por el contraste
C3 (constantes 0, 0, 1 y -1), el paquete arroja los resultados consignados en la tabla
6.12.
Nótese que el valor P, demasiado pequeño, nos lleva al rechazo de la hipótesis nula de
que este contraste vale cero. Esto se confirma al observar los intervalos de confianza. En
particular, el intervalo del 95% de confianza, situado a la derecha del cero, muestra que
el contraste es positivo. Esto es: C3  0 . De aquí se deduce que 3  4 . Es decir, el
promedio de bacterias en la carne al empacar en una atmósfera que es mezcla de gases,
es mayor que el promedio de bacterias al empacar en una atmósfera de CO2 puro.
Valor estimado del contraste: 3.90

Varianza estimada del contraste: 0.0772
Suma de cuadrados del contraste: 22.8150
Valor F para H0:CONTRASTE=0: F(1, 8 ) = 196.9357
VALOR P: 0.000020
Intervalos de confianza para el contraste:

Interv 90% ( 3.3831 , 4.4169 )
Interv 95% ( 3.2591 , 4.5408 )
Interv 99% ( 2.9676 , 4.8324 )
Tabla 4.12 Estimación y significancia de un contraste con ESM v8.0
Con frecuencia resultan de interés ciertos contrastes, llamados contrastes ortogonales.

k k
Dos contrastes C1 =   i i y C2 =  i i se dicen ortogonales si se cumple
i =1 i =1
k
  i i 

i =1  ni 
 = 0.
En un diseño de una vía con k tratamientos existen exactamente k − 1 contrastes

ortogonales entre sí. Por ejemplo, en el diseño del empaque de carnes que tiene cuatro
tratamientos sólo es posible construir tres contrastes ortogonales. Ellos son (se dan solo
las constantes): C1 = (3, -1, -1, -1), C2 = ( 0, 2, -1, -1) y C3 = (0, 0, 1, -1).
Los contrastes ortogonales son interesantes entre otras cosas porque sus sumas de
cuadrados proporcionan una descomposición de la suma de cuadrados de los
tratamientos. Por ejemplo, las sumas de cuadrados de los tres contrastes ortogonales
dados anteriormente para el ejemplo 6.1 son respectivamente: 9.9856, 0.0722 y
22.8150, valores cuya suma es 32.8728, exactamente el valor de la suma de cuadrados
de tratamientos (modelo) arrojado por la tabla anova.
4.4 Prueba de Kruskall y Wallis
La correspondiente prueba no paramétrica para los diseños de una vía o completos

aleatorios es la prueba de Kruskall y Wallis que busca probar la hipótesis nula de que las
medianas de los tratamientos son iguales (H0: M 1 = M 2 = ... = M k ) y que puede ser
resumida en lo siguiente:
Las observaciones de las diferentes muestras se reúnen en una sola gran muestra, dentro
de la cual se asignan rangos que luego se separan dentro de cada tratamiento según a
donde pertenezca la respectiva observación. De esta manera se pueden obtener las
sumas de rangos por tratamiento T j para j = 1, 2,3 k , como se muestra en la tabla
siguiente:
TRA1 TRA2 ... TRAk TRA1 TRA2 ... TRAk

x11 x 21 xk1 r( x11 ) r( x 21 ) r( xk1 )
x12 x 22 xk 2 r( x12 ) r( x 22 ) r( x k 2 )
... ...
     
x1n1 x2n2 x knk r( x1n1 ) r( x 2n ) r( x knk )
2
T1 T2 ... Tk
Tabla 4.13 Transformación de rangos para una prueba de Kruskall y Wallis
Kruskall y Wallis propusieron el siguiente estadístico de prueba que tiene distribución

asintótica Ji-cuadrado con k − 1 grados de libertad:
12  k T j 
2 k
H =  − 3(n + 1)
n(n + 1)  j =1 n j 
donde n = n j
j =1
De acuerdo con lo anterior se rechaza la hipótesis de igualdad de las medianas cuando el
estadístico H determine un valor P muy pequeño bajo una Ji-cuadrado con k − 1 GL.
Se debe tener en cuenta, sin embargo, que la técnica no paramétrica aquí mencionada no
proporciona herramientas de comparaciones múltiples. En caso de rechazo de la
hipótesis nula, tales pruebas se hacen con base en los intervalos de confianza para las
medias o para las diferencias de medias lo que implica que también debe realizarse tales
cálculos paramétricos tal y como fueron expuestos anteriormente.
Ejemplo 4.2: Utilizando el archivo FINCAS.DAT se hará una comparación de los

promedios de temperaturas (variable X3) en los diferentes tipos de terreno (variable X4).
Es decir, se quiere saber si en promedio la temperatura del terreno plano es diferente a
la del terreno quebrado y éstas diferentes a la de los terrenos mixtos.
El problema se analiza proponiendo como hipótesis nula que estas temperaturas sí son
iguales y luego se decidirá si se rechaza o no esta hipótesis. En ESM se obtiene la salida
que se presenta en la página siguiente.
Como puede apreciarse en dicha salida, el análisis dice que no existen diferencias entre
las temperaturas de los diferentes tipos de terreno. Sin embargo esta conclusión es
dudosa ya que no se cumplen los supuestos para que el análisis de varianza sea
confiable: No se puede garantizar la homogeneidad de las varianzas en los tres grupos y
los residuos del modelo no son normales. Este es un ejemplo que debiera ser analizado
además mediante el método no paramétrico que se expondrá más adelante.
ANALISIS DE VARIANZA DE UNA VIA - (Diseño Completo Aleatorio)

ANOVA: VAR-Clasif: TERRENO VAR-Análisis: TEMPER
____________________________________________________________________
PRUEBAS DE NORMALIDAD E IGUALDAD DE VARIANZA
Variable analizada: TEMPER Variable Clasif: TERRENO

Archivo de datos: finca150.dat
GRUP P #OBS Z MEDIA VARIANZA

1 0.000563 35 3.450 17.8286 22.2050
2 0.003073 67 2.961 18.3881 19.6653
3 0.018234 48 2.361 18.6875 23.7939
TOTAL OBSERVACIONES: 150

PRUEBA BARTLETT PARA IGUALDAD DE VARIANZAS ENTRE GRUPOS:
V/r de B: 0.5168 V/r P = 0.772300 Ji-2: 2 GL
______________________________________________________________________
Numero de observaciones: ...................... 150
Numero de tratamientos: ....................... 3
Suma total de observaciones: .................. 2753
Media general de las observaciones: ........... 18.35333333333333
Suma de cuadrados de observaciones: ........... 53713
Corrección para la media: ..................... 50526.72666666667
Suma de cuadrados corregida: .................. 3186.273333333331
______________________________________________________________________
TABLA ANOVA:
----------------------------------------------------------------------------
----------------------------------------------------------------------------
Modelo 15.0790 2 7.5395 0.3495
Error 3171.1944 147 21.5728 *****
Total 3186.2733 149 ***** *****
---------------------------------------------------------------------------
R2 = 4.732E-003 F tiene 2 y 147 Grados de libertad
Valor exacto del CME = 21.57275085940558
**** PRUEBA DE AJUSTE A UNA DISTRIBUCION NORMAL ****

(Prueba de Geary)
VARIABLE ANALIZADA: RESIDUO (No Clasificada)

ARCHIVO DE DATOS: residuos.dat

Media (estimada): 4.333333333354024E-005
Varianza (estimada): 21.28318373468679
Valor crítico de Z para H0: 4.942729917122696

VALOR P: 0.00000078
Ejemplo 4.3: Si se construye la proporción de hembras por finca como el total de

hembras sobre el total de animales en cada finca. Esto es:
HEMBRAS
PORCHE = , podemos averiguar si este índice difiere
MACHOS + HEMBRAS
significativamente en los diferentes tipos de terreno (variable X4). Para esto debemos
construir la variable PORCHE ya que ella no se encuentra en el archivo de datos. Usando
la rutina de transformación de variables construimos en primer lugar la totalidad de
animales de cada finca, sumando las variables X7 y X8, y luego hacemos el cociente de
la variable X8 (HEMBRAS) entre la variable recién construída. Esta será la variable de
análisis. La variable de clasificación o tratamientos será el TIPO DE TERRENO (X4). Con
ellas se hace el análisis de varianza, cuyo resultados en ESM pueden verse en las páginas
siguientes.
____________________________________________________________________
PRUEBAS DE NORMALIDAD E IGUALDAD DE VARIANZA
Variable analizada: PORCHE Variable Clasif: TERRENO

Archivo de datos: finca150.dat
GRUP P #OBS Z MEDIA VARIANZA

1 0.478737 35 0.708 0.6739 0.0395
2 0.673503 67 0.421 0.6374 0.0511
3 0.200657 48 1.280 0.5698 0.0489
TOTAL OBSERVACIONES: 150
PRUEBA BARTLETT PARA IGUALDAD DE VARIANZAS ENTRE GRUPOS:
V/r de B: 0.7344 V/r P = 0.692688 Ji-2: 2 GL

____________________________________________________________________
ANALISIS DE VARIANZA DE UNA VIA - (Diseño Completo Aleatorio)

ANOVA: VAR-Clasif: TERRENO VAR-Análisis: PORCHE
______________________________________________________________________
Numero de observaciones: ...................... 150
Numero de tratamientos: ....................... 3
Suma total de observaciones: .................. 93.64001000000005
Media general de las observaciones: ........... .6242667333333336
Suma de cuadrados de observaciones: ........... 65.70681572325402
Corrección para la media: ..................... 58.45634315200073
Suma de cuadrados corregida: .................. 7.250472571253297
______________________________________________________________________
..
TABLA ANOVA:
----------------------------------------------------------------------------
----------------------------------------------------------------------------
Modelo 0.2399 2 0.1200 2.5155
Error 7.0105 147 0.0477 *****
Total 7.2505 149 ***** *****
---------------------------------------------------------------------------
R2 = 3.3091E-002 F tiene 2 y 147 Grados de libertad
Valor exacto del CME = 4.769077018326961E-002
** PRUEBAS DE IGUALDAD DE VARIANZAS ENTRE TRATAMIENTOS:

(Hipótesis nula: Ho: 12 =  22 =  32
1. PRUEBA CONJUNTA DE BARTLETT:
B = 0.734351
P = 0.69268793
2. PRUEBAS INDIVIDUALES DE IGUALDAD DE VARIANZAS:

(Comparan cada par de tratamientos ignorando los demás).
Tratamiento: 2 VS Tratamiento: 1 :
Razón de Varianza: 1.2931 P = 0.2083200 GL: 66 y 34
VALOR (MINIMO) DE P: 0.20832000
INTERVALOS DE CONFIANZA PARA MEDIAS EN CADA TRATAMIENTO:

Variable de análisis: PORCH Var Clasific: TERRENO
_________________________________________________________________________
Numero de Tratamientos: 3

Media: .6738 Err.Stand: 3.691332325607792E-002
Inter90%: [ 0.6131, 0.7345] <--
Inter95%: [ 0.6014, 0.7462]
Inter99%: [ 0.5787, 0.7689]

Media: .6373 Err.Stand: 2.667962780941294E-002
Inter90%: [ 0.5934, 0.6812] <--
Inter95%: [ 0.5850, 0.6896]
Inter99%: [ 0.5686, 0.7060]

Media: .5698 Err.Stand: 3.152075050108183E-002
Inter90%: [ 0.5179, 0.6217] <--
Inter95%: [ 0.5080, 0.6316]
Inter99%: [ 0.4886, 0.6510]
_________________________________________________________________________
COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS SIGNIFICATIVAS (LSD):

Ho: μ(i)= μ(j) H1: μ(i) <> μ(j) *DS* = Difieren signif. *ND* = No dif
NOTA: Se presentan todas las combinaciones de tratamientos por pares.

LSD(α=0.10) = 0.0749 *ND* <--

LSD(α=0.05) = 0.0893 *ND*
LSD(α=0.01) = 0.1173 *ND*

LSD(α=0.10) = 0.0798 *DS* <--

LSD(α=0.05) = 0.0951 *DS*
LSD(α=0.01) = 0.1250 *ND*

LSD(α=0.10) = 0.0679 *ND* <--

LSD(α=0.05) = 0.0809 *ND*
LSD(α=0.01) = 0.1064 *ND*
**** PRUEBA DE AJUSTE A UNA DISTRIBUCION NORMAL ****

(Prueba de Geary)
VARIABLE ANALIZADA: RESIDUOS (No Clasificada)

ARCHIVO DE DATOS: residuos.dat
Número de observaciones: 150

Media (estimada): 5.006666666666789E-005
Varianza (estimada): 4.705062642451899E-002
Valor crítico de Z para H0: .6525776466669402

VALOR P: 0.51404673
Como se ve, en este caso se cumplen los supuestos y además se concluye que el terreno
con mayor índice de hembras es el terreno plano, cuyas diferencia con el quebrado no es
significativa.
4.5 Diseño de dos vías (Diseño aleatorio de bloques completos)
La generalización inmediata de la comparación de dos medias pareadas es la

comparación de k medias ligadas. Recuérdese que en caso de dos medias cada pareja
de observaciones procedían del mismo individuo o de individuos muy semejantes
(gemelos). Siguiendo este mismo patrón de conducta, en el caso que nos ocupa se
tendrán k-uplas de observaciones que deben proceder de individuos muy semejantes.
Una k-upla de individuos semejantes o muy homogéneos recibe el nombre de bloque.
Cuando b bloques de k individuos cada uno, se asignan a k tratamientos de manera

que los individuos de cada bloque se asignen a los tratamientos en forma aleatoria, se
tiene un diseño aleatorio de bloques completos o diseño de dos vías de clasificación.
En este caso las observaciones tendrán la siguiente disposición:
BLOQUES TRAT1 TRAT2 ... TRATk

Bloque 1 x11 x21 ... xk1
Bloque 2 x12 x22 ... xk 2
    
Bloque b x1b x2b ... xkb
Tabla4.14 Esquema de organización de datos para un ANOVA de dos vías
La correspondiente tabla ANOVA tiene el aspecto que muestra la tabla 6.15, donde
T2
C= (valor que se conoce como corrección por la media) y donde T*i , i = 1,2,..., b
kb
son los totales marginales para los bloques (por filas); T j*, j =1, 2,..., k son los totales
marginales para los tratamientos (por columnas)
Como puede apreciarse, en este caso aparecen dos valores de F, uno para tratamientos
(Ft) y el otro para bloques (Fb). Se pueden probar dos hipótesis, a saber:
En primer lugar la hipótesis nula de que no hay diferencias significativas entre la medias
de los tratamientos, es decir: H0: 1 =  2 =  =  k , hipótesis que se prueba contra la
alternativa de que no todas las medias son iguales. Esta hipótesis se prueba con la F de
tratamientos (Ft) que tiene distribución con k − 1 y (k − 1)(b − 1) grados de libertad. El
rechazo de esta hipótesis obliga a realizar comparaciones múltiples para determinar el
orden de las medias y de esta manera averiguar cuál es el mejor tratamiento (o el peor) y
cuales no difieren entre sí. El criterio LSD sigue siendo el mejor en este caso.
ANOVA para un diseño aleatorio de bloques completos (dos vías)

Fuente de Suma de cuadrados GL Cuadrados F calc
Variación Medios
1 k 2 SCTr CMTr
Tratamientos SCTr = 
b j =1
T j* − C k −1
CMTr =
k −1
Ft =
CME
1 b 2 SCB CMB
Bloques SCB =  T*i − C
k i =1 b −1
CMB =
b −1
Fb =
CME
Error SCE = SCE

SCT − SCTr − SCB (k − 1)(b − 1) CME = (k − 1)(b − 1) *****
k b
TOTAL SCT =  xij2 − C ***** ***** *****

j =1 i =1
Tabla 4.15 Tabla ANOVA para un diseño de bloques completos
En segundo lugar, se puede probar la hipótesis de que no hay diferencias entre las
medias de los bloques. Esta se prueba con la F de bloques (Fb) que tiene b − 1 y
(k − 1)(b − 1) grados de libertad. Sin embargo esta hipótesis es secundaria ya que si el
experimento ha sido bien diseñado, tales medias por principio deben ser diferentes.
ESM realiza la prueba anterior junto con los cálculos necesarios para aplicar los
criterios LSD y comparaciones múltiples mediante intervalos de confianza, para lo cual
es necesario que los datos se encuentren en una única columna y que existan dos
columnas adicionales de tipo categórico, con códigos numéricos, que identifiquen el
tratamiento y el bloque al que pertenece cada observación.
El cuadrado medio esperado para tratamientos en un diseño de dos vías está dado por la
b k
expresión E(CMTr) =  2 + 
k − 1 i =1
( i −  ) 2 , lo que prueba que bajo la hipótesis nula
de que las medias de tratamientos son iguales, el cuadrado medio de tratamientos es una
estimación de la varianza y puede aplicarse el argumento presentado en el diseño de una
vía para determinar por qué la prueba F permite decidir si se cumple o no la igualdad
de medias en los tratamientos.
b(k − 1) CMB
Si designamos por c = , la expresión ER = (1 − c) + c es conocida como
bk − 1 CME
eficiencia relativa y mide la eficiencia que presenta el diseño de dos vías sobre el diseño
de una vía. El diseño de dos vías es más eficiente que el de una vía siempre que
ER  1 .
4.6 La prueba de Friedman
Cuando no sean aplicables los procedimientos anteriores bién sea porque se violan los
supuestos de normalidad o porque los tamaños de muestra son extremadamente
pequeños, es posible recurrir a la prueba no paramétrica de Friedman que es el
correspondiente sustituto para el ANOVA de los diseños de dos vías. Sin embargo se
debe tener presente que esta prueba por lo general tiene menos potencia que la prueba
paramétrica y en consecuencia es posible que muestre no diferencias de medias entre
tratamientos cuando realmente estos sí difieran.
Para la prueba de Friedman se asignan rangos a las observaciones de cada bloque (fila
por fila) y luego se suman los rangos correspondientes a cada tratamiento. De esta
manera se obtienen k sumas de rangos T1 , T2 , T3 , Tk con los cuales se construye el
siguiente estadístico de prueba;
12  k 2 
S=   T j  − 3b(k + 1)
bk (k + 1)  j =1 
Friedman demostró que bajo la hipótesis nula de no diferencias entre las medias de
tratamientos, este estadístico tiene distribución asintótica Ji-cuadrado con k − 1 grados
de libertad. En consecuencia, un valor grande de S, es decir un pequeño valor P bajo
esta distribución, indica que la hipótesis nula es falsa y que, por tanto, debe ser
rechazada.
4.7 El análisis de varianza en experimentos diseñados.
El diseño de experimentos es la parte de la estadística que estudia la manera de

organizar los materiales, disponer las unidades muestrales, asignar tratamientos, medir
respuestas, analizar e interpretar información para obtener conclusiones acerca del
comportamiento de la(s) variable(s) de respuesta en un experimento controlado. El
diseño de experimentos constituye un tema demasiado amplio que no puede ser tratado
en un libro como éste pero, dado que en este capítulo se ha venido hablando de la
comparación de varias medias, justo es dar algunas nociones muy básicas acerca del
diseño de experimentos en los modelos más elementales.
Sir Ronald Aylmer Fisher, estadístico y genetista inglés,

inventor de las técnicas de máxima verosimilitud y análisis de
varianza y pionero del diseño de experimentos, nació en
Londres el 17 de febrero de 1890 y murió el 29 de julio de
1962 en Adelaida (Australia). Obtuvo en 1912 un título en
matemáticas en la Universidad de Cambridge. Desde 1919
trabajó en la estación experimental Rothamsted. En 1933 llegó
a ser profesor en University College London y en 1943
profesor de Cambridge.
Es famosa una disputa científica que sostuvo con Pearson
desde 1917 y que Fisher continuó aún después de la muerte de
aquel, ocurrida en 1936, debido tal vez a su incontrolable
temperamento que muchas veces obligó a sus estudiantes a
abandonar sus clases.
Podemos afirmar que los experimentos son de dos clases fundamentalmente:

comparativos y de pronóstico. Los primeros –casos de comparaciones de medias, por
ejemplo- establecen conjuntos de circunstancias dentro del experimento y comparan las
respuestas en esas circunstancias. En esta clase de experimentos los tratamientos son las
circunstancias creadas para cada respuesta. Los experimentos de pronóstico –casos de
regresión o de superficies de respuesta, por ejemplo- proponen modelos que describen
las respuestas en términos de las variables dependientes para pronosticar otros valores
de respuesta en casos que no han sido observados.
Existe una gran variedad de diseños experimentales adecuados a diferentes situaciones y

también existen varias técnicas estadísticas que permiten analizarlos. Pero podría
decirse que todos los casos obedecen a un único modelo general, a saber: varias
unidades experimentales, es decir, objetos físicos o individuos, son sometidos a la
acción de uno o más agentes que producen un efecto sobre ellas. El efecto producido es
cuantificable mediante una o más variables de tipo numérico mientras que los agentes
transformadores son aplicados en dosis o niveles definidos previamente por el
investigador. De esta manera se establece una relación funcional del tipo
(Y1 , Y2 , , Yp ) = f ( X 1 , X 2 , , X r ) donde las Yi son variables de tipo numérico
(respuestas) y las Xj son variables de tipo categórico (variables independientes o
factores). Las categorías o modalidades de estas últimas variables se denominan niveles.

Los modelos más simples de diseño corresponden a la situación en la cual Y = f ( X )
con X, variable categórica, Y variable numérica y f una función de tipo lineal. Los
diseños en los cuales r  1 se denominan multifactoriales y los diseños en los cuales
p  1 se dicen multivariados. En general las situaciones más estudiadas corresponden a
una o más variables independientes de tipo categórico y a una variable Y de tipo

numérico como respuesta, enlazadas por una función de tipo lineal. En cambio de tomar
factores de tipo categórico, también es posible tomar variables numéricas para observar
el experimento únicamente en ciertos valores o niveles de dichas variables. En estos
casos el objetivo perseguido es la construcción de una curva o superficie de respuesta en
la que se pueda encontrar un máximo o un mínimo y determinar a cuál o cuáles valores
de los factores corresponde.
De acuerdo con lo anterior se puede afirmar que un experimento diseñado puede ser
estudiado como un caso de superficies (o curvas) de respuesta, tambíén podría
corresponder al estudio de modelos lineales generales e incluso podría corresponder a
casos de modelos no lineales (cuando la función de enlace f no sea lineal). Desde este
punto de vista, el estudio de la información de un experimento diseñado suele recurrir a
herramientas matemáticas (principalmente cálculo y álgebra lineal) para su análisis.
Los diseños comparativos de experimentos son de dos tipos principalmente: unos,

conocidos como diseños de efectos fijos porque los niveles de los diferentes factores han
sido definidos a juicio y gusto de los investigadores. Es éste –el investigador- quien
decide, por ejemplo, los niveles de temperatura, de humedad, de dosis químicas que
usará en un experimento. En otros experimentos el investigador no puede seleccionar
los niveles de los factores sino que éstos surgen aleatoriamente de una gran cantidad de
posibilidades. Piénsese, por ejemplo, en una investigación en la que se pretende mostrar
que la profundidad a la que se encuentre el carbón natural influye en sus propiedades
bituminosas. Se debe extraer carbón de diferentes profundidades para analizarlo
químicamente. Para ello se realizan perforaciones en diferentes sitios de una zona
carbonífera y se toman muestras. En este caso el analista del experimento no puede
determinar con anticipación la profundidad de las perforaciones, las cuales resultan
aleatorias. Es decir, los niveles de profundidad no son definidos previamente sino que
constituyen una muestra aleatoria de todos los posibles valores de profundidad a los que
se pueda encontrar carbón. Los diseños que obedezcan a este último patrón se conocen
como diseños de efectos aleatorios. Finalmente los diseños de dos o más factores
podrían ser mixtos si algunos de dichos factores son de efectos fijos y los demás de
efectos aleatorios.
Existe una variada gama de experimentos que se ajustan a determinados modelos

predefinidos y que pueden ser estudiados mediante la técnica de descomposición de la
variabilidad (ANOVA), tal como ocurrió con los modelos de una y dos vías estudiados
anteriormente.
El propósito de esta sección es presentar la técnica ANOVA para el análisis de la

información en experimentos de efectos fijos de dos o tres factores con una única
respuesta Y. Se hará también una breve referencia a los experimentos de efectos
aleatorios al final de la sección. El caso de experimentos con un único factor y una
única respuesta Y, es lo estudiado en las secciones anteriores de este mismo capítulo.
Los casos más complejos de experimentos con uno o más factores y varias respuestas no
se estudian en este libro, a excepción de los casos más sencillos, correspondientes a un
único factor y varias respuestas que se ve usualmente en los cursos de análisis
multivariado.
En el diseño y análisis de un experimento suelen presentarse ciertos elementos de tipo

teórico y ciertos conceptos que deben ser entendidos para garantizar una adecuada
aplicación de los datos a un determinado modelo y garantizar así correctas
interpretaciones y decisiones. En los párrafos siguientes se busca sentar algunas bases
para el diseño de un experimento sin pretender que con ello se agote el tema, por cierto
amplio y complejo.
Una primera inquietud que se puede formular es acerca de la necesidad de planear un

experimento. La investigación experimental tiene como inquietud frecuente comparar
diferentes acciones, agentes o factores para determinar cuál de ellos es más eficiente o
produce mejores resultados. Ante la carencia de una explicación natural que satisfaga
esta pregunta, el científico experimental opta por ensayar diversos factores o diversos
niveles de uno o más factores para determinar cuál combinación de ellos produce una
mejor respuesta. Si este ensayo se hace de una manera organizada, ciñéndose a ciertos
parámetros determinados por un modelo estadístico que ha sido probado teóricamente,
se tendrá un experimento diseñado, cuyo análisis obedece a deducciones lógicas propias
del modelo al cual se ajusta.
Se denominan unidades experimentales a cada una de las entidades físicas o sujetos

expuestos al tratamiento, independientemente de otras unidades.
El error experimental describe la variabilidad entre las unidades experimentales tratadas

de manera idéntica e independiente. Puede producirse por variación entre unidades
experimentales, variabilidad en las mediciones, imposibilidad de reproducir con
exactitud las condiciones de los tratamientos en las unidades experimentales o por
presencia de factores externos que no han sido controlados.
Existen varias estrategias para reducir el error experimental y aumentar la exactitud en

las mediciones. Tales técnicas se conocen como técnicas de control local. Las dos más
usadas son las siguientes:
• Selección de unidades experimentales uniformes (homogéneas)
• Bloquización o agrupamiento de las unidades experimentales de modo que la
variación dentro de cada grupo después del agrupamiento sea menor que antes
del mismo
La bloquización suele realizarse de acuerdo con los siguientes criterios:

o Por proximidad física
o Por características físicas como edad, peso, tamaño, raza, etc
o Por simultaneidad temporal (unidades examinadas en la misma época) o
geográfica
o Por administración de tareas en el experimento
En muchos experimentos se presentan tratamientos de control que, por lo general, son

grupos de unidades experimentales a las que no se les da ningún tratamiento. Estos
tratamientos son útiles y necesarios en determinadas circunstancias, especialmente
cuando las condiciones del experimento sean un obstáculo para la efectividad de los
tratamientos. Un tratamiento control revela las condiciones en que se efectuó el
experimento. Por ejemplo, los fertilizantes con nitrógeno suelen ser efectivos pero en
campos altamente fértiles no producen respuesta. Hay también casos en los cuales la
manipulación de las unidades experimentales ya produce un efecto, en estos casos se
usa un control placebo.
Se entiende por replicaciones las repeticiones independientes del experimento básico,

las cuales se hacen por las razones siguientes:
a. Muestran que se pueden reproducir los resultados
b. Proporcionan seguridad contra los resultados anormales por accidentes no
previstos
c. Permiten estimar la varianza del error experimental
d. Aumentan la precisión en la estimación de las medias de los tratamientos
El número de réplicas mínimo por tratamiento no puede ser arbitrario. Dependiendo del
nivel de significancia al que se desee realizar el experimento, de la precisión de las
estimaciones y de la dispersión de las respuestas se debe calcular un mínimo de réplicas
( )  
2 2
para cada tratamiento. Dicho valor está determinado por r = 2 z + z   donde

2  
δ es un porcentaje de la media general del experimento y 1 −  es la potencia de la
prueba (usualmente 0.8 o una cantidad mayor hasta 0.95)
El cálculo del número de réplicas no es sencillo pues usualmente no se conoce la media

general ni es fácil determinar el nivel de precisión de las estimaciones. Sin embargo,
como sucede frecuentemente, un experimento se realiza varias veces perfeccionando
cada vez su diseño. De esta manera los datos arrojados en las primeras realizaciones se
convierten en insumos para las siguientes realizaciones.
Conviene llamar la atención sobre el siguiente hecho importante: para calcular los
tamaños de muestra en cada tratamiento (número de réplicas) se fija un valor de
significancia α el cual determina el cuantil z que se usa en la fórmula anterior. Esto
2
implica que para otro nivel de significancia menor que el anterior, el correspondiente
cuantil sea mayor y por tanto que se requiera un mayor tamaño de muestra, es decir,
mayor número de réplicas. En consecuencia, las conclusiones que se obtengan para el
nivel de significancia α posiblemente no sean válidas para niveles de significancia
inferiores. Es un error entonces, sacar conclusiones sin haber verificado previamente
que el número de réplicas del experimento es suficiente para ello.
Otro elemento importante en el diseño de los experimentos es el principio de

aleatorización el cual se usa como sustituto de la hipótesis de normalidad cuando se
hace una selección cuidadosa de unidades experimentales. Según este principio, las
unidades experimentales deben ser asignadas en forma aleatoria a los tratamientos. La
aleatorización disminuye la correlación entre unidades próximas reafirmando con ello la
independencia entre ellas. Además elimina sesgos producidos por la asignación
sistemática de los tratamientos a las unidades experimentales. Es bueno saber que no
siempre es posible aplicar el principio de aleatorización. Así sucede por ejemplo, en
experimentos ecológicos.
En general los diseños de experimentos deben satisfacer ciertos supuestos bajo los
cuales han sido desarrollados los principios teóricos que los sustentan. El cumplimiento
de estos supuestos garantiza la validez de los resultados y, por ello, debe ser verificado
cada vez que se analice un experimento. Son cuatro los supuestos más importantes que
se debe cumplir en un diseño: 1) Aditividad de los efectos lo que implica ausencia de
interacción. 2) Independencia de los términos de error 3) Normalidad de los errores y
4) Homogeneidad de la varianza de los términos de error sin importar la magnitud de
los efectos.
Las condiciones anteriores imponen severas restricciones a los análisis de experimentos

basados en la técnica ANOVA y, en consecuencia, en la práctica debe constatarse su
cumplimiento antes de emitir juicios y tomar decisiones.
La violación fuerte de la normalidad afecta la validez de las pruebas F pues en tal caso
no se cumple en general que los cuadrados medios tengan distribuciones Ji cuadrado
independientes. Las inferencias que se realicen respecto a las medias en poblaciones no
normales siguen siendo válidas siempre que se utilicen muestras grandes. Esto,
s2
infortunadamente, no funciona con las varianzas pues en tales casos la varianza de
2
se incrementa en un factor proporcional a la curtosis afectando seriamente los niveles de
potencia, calculados bajo el supuesto de normalidad. Este problema tiene un impacto
menor cuando se usan muestras del mismo tamaño para todos los tratamientos (es decir,
en todas las celdas).
La falta de independencia de los términos de error se presenta cuando las
observaciones presentan correlación serial Por ejemplo, si cada observación presenta
con la siguiente una correlación ρ (autocorrelación de primer orden) entonces se
cumple:
2  1  2
E( x ) =  , V( x ) = 1 + 2  (1 − ) y E (s 2 ) = (1 − 2  )
n  n  n
lo que hace que los intervalos de confianza calculados por los métodos corrientes no
cubran el verdadero valor de la media en los niveles de probabilidad para el cual se
construyen. Por ejemplo, para ρ = 0.5 la probabilidad de 0.95 se reduce drásticamente a
0.166. Esto da una idea del impacto negativo que puede traer la falta de independencia
entre las observaciones de los tratamientos. Los problemas son mucho más graves
cuando existen autocorrelaciones de primero y otros órdenes.
La falta de homogeneidad de las varianzas tiene también implicaciones negativas pero

ellas dependen de los tamaños muestrales de los tratamientos. En los diseños
balanceados (es decir con el mismo tamaño de muestra en todos los tratamientos) el
impacto negativo de la carencia de homocedasticidad no es tan grave como en los
diseños desbalanceados. Aún con muestras grandes, en los diseños desbalanceados, se
incrementa la varianza del cociente de los cuadrados medios entre y dentro, lo que hace
que se aumente la probabilidad de incurrir en error tipo I. La estrategia para reducir la
heterocedasticidad es el uso de transformaciones monótonas –tales como el logaritmo-
lo que puede afectar la normalidad. Con todo, como se dijo antes, es menos grave la
trasgresión de la normalidad que la heterocedasticidad.
Mencionaremos por último la covariabilidad Con frecuencia es posible usar variables

relacionadas con la variable de respuesta que permiten ejercer un control de tipo
estadístico sobre la varianza del error experimental. Tales variables son conocidas
como covariables o variables concomitantes. Los análisis de experimentos que
contemplan este tipo de variables se conocen como análisis de covarianza.
Todos los principios generales que hemos mencionado hasta el momento son aplicables
a los diseños de experimentos de cualquier naturaleza, incluidos los ya estudiados
experimentos unifactoriales de una y dos vías.
Muy brevemente presentaremos ahora dos tipos de experimentos univariados y

multifactoriales: son los diseños de dos y tres factores.
4.8 Diseños multifactoriales
Al diseñar un experimento resulta difícil aislar completamente una única causa (variable
independiente) como responsable de los efectos que se producen en un fenómeno. Por lo
general dichos efectos son producidos en mayor o menor grado por un sinnúmero de
factores y, es un verdadero arte determinar cuáles de ellos son los más importantes. Es
evidente que al diseñar un experimento con demasiados factores activos los costos y las
dificultades teóricas de análisis pueden ser enormes. Por esta razón se busca reducir el
número de factores activos y controlar o eliminar la mayor parte de factores externos
(exógenos) que puedan causar interferencia. En la práctica se suelen admitir dos o tres
factores activos. Muy excepcionalmente, otros números, y casi nunca más de cinco.
4.8.1 Diseños bifactoriales
Existen varios diseños experimentales para dos factores. Aquí presentaremos

únicamente los diseños completos y balanceados de dos factores. Un diseño es completo
cuando en él se consideran todas las posibles combinaciones de niveles de cada factor.
Así, por ejemplo, si un factor en un experimento agronómico es el tipo de terreno
(ácido, neutro y alcalino) con tres niveles y otro factor es la temperatura con cuatro
niveles (12°C, 16°C, 21°C y 25°C) habrá un total de 3  4 = 12 tratamientos posibles. Si
a todos los 12 tratamientos se asigna unidades experimentales, el diseño será completo.
Por el contrario, será incompleto si uno o más de los tratamientos no tiene unidades
experimentales asignadas. Por otra parte un diseño factorial es balanceado cuando todos
los tratamientos tienen el mismo número de unidades experimentales asignadas. Por
ejemplo, en el caso citado, si cada uno de los 12 tratamientos tiene cuatro unidades
experimentales, es decir cuatro réplicas. Por razones de economía un experimento
podría ser incompleto. Por razones fortuitas –como la muestre de un animal o una
planta- un diseño puede ser desbalanceado. Tanto la incompletez como el desbalanceo
son condiciones que complican el análisis de un diseño factorial. Existen tratamientos
para remediarlos pero esos temas están fuera del alcance de esta obra.
Supóngase entonces que que se ha desarrollado un diseño completo y balanceado de dos

factores F1 y F2 con a y b niveles respectivamente. Supóngase además que en
cada uno de los ab tratamientos (combinaciones de los niveles) hay r réplicas y que
todas ellas han proporcionado una respuesta al final del experimento. Se tienen
entonces abr valores reales correspondientes a las respuestas de las correspondientes
unidades experimentales observadas, las cuales corresponden a la siguiente
representación del diseño:
Factor F2
Nivel 1 Nivel 2 … Nivel b
Nivel
1 y111 , y112 , , y11r y121 , y122 , , y12 r … y1b1 , y1b 2 , , y1br
2 y211 , y212 , , y21r y221 , y222 , , y22r … y2b1 , y2b 2 , , y2br
F1
… … … … …
a ya11 , ya12 , , ya1r ya 21 , ya 22 , , ya 2 r … yab1 , yab 2 , , yabr
Tabla 4.16 Disposición de los datos para un diseño de dos factores
Este diseño corresponde a un modelo estadístico de la forma yijk = ij +  ijk donde i =
1,2,…, a; j = 1, 2, …, b; k = 1, 2, …, r; ij es la media del tratamiento
resultante al combinar los niveles i y j de F1 y F2 respectivamente y  ijk son los
errores experimentales aleatorios que se suponen distribuídos normalmente con media

0 y varianza constante  2
En este tipo de diseños la suma de cuadrados de todas las observaciones

a b r
SCT =  ( yijk − y )2 se descompone en cuatro sumas de cuadrados a saber: una
i =1 j =1 k =1
correspondiente al factor F1, otra correspondiente al factor F2, una tercera
correspondiente a las combinaciones de niveles y una cuarta que es la suma de
cuadrados residual, o no explicada, que se denomina suma de cuadrados del error; las
cuales están dadas respectivamente por:
Suma de cuadrados para F1: SC1 = rb ( yi.. − y... ) 2
b
Suma de cuadrados para F2: SC 2 = ra  ( y. j . − y... ) 2
j =1
a b
Suma de cuadrados para interacciones: SC12 = r  ( yij . − yi.. − y. j. − y... ) 2
i =1 j =1
La interacción puede definirse por ij − i. − . j + ... . Las interacciones, cuando existen,
hacen que la respuesta a los tratamientos no sea dada exclusivamente por la suma de los
efectos de cada factor sino que parte de esa respuesta se debe a la interacción de los
factores. En otras palabras los efectos de los factores son aditivos en ausencia de
interacción.
Las sumas de cuadrados son variables aleatorias cuyas distribuciones como las de todas
las sumas de cuadrados son distribuciones Ji cuadrado con ciertos grados de libertad
dados de acuerdo con la siguiente tabla de análisis de varianza
Fuente de Suma de Grados de Cuadrados Cuadrados medios

Variación cuadrados libertad medios esperados
Factor F1 SC1 a–1 CM1=SC1/a-1)  2 + rb12
Factor F2 SC2 b–1 CM2=SC2/(b-1)  2 + ra 22
Inter. F1*F2 SC12 (a - 1)(b - 1) CM12=SC12/(a-1)(b-  2 + r122
1)
Error SCE ab( r - 1) CME=SCE/ab(r-1) 2
Total SCT rab - 1 ------------- -------------
Tabla 4.17 Tabla de ANOVA para un diseño bifactorial completo
1 a 1 a
Donde 12 = 
a − 1 i =1
( i. − ... )2 ,  22 = 
b − 1 i =1
( . j − ... )2 ,
a
1
y 122 = 
(a − 1)(b − 1) i =1
( ij − i. − . j + ... )2 ,
La tabla anterior proporciona los elementos necesarios para juzgar en

primer lugar si las interacciones entre los factores son significativas o no y
en segundo lugar para saber si existen efectos significativos de los factores,
lo que finalmente se traduciría en diferencias de medias entre tratamientos.
En efecto:
Si no existiera interacción entre los factores se tendría ij − i. − . j + ... = 0
lo que implicaría 122 = 0 y, entonces, E(CME) =  2 . En tal caso la razón

CM 12
tendría distribución F con (a - 1)(b - 1) y ab(r - 1) grados de
CME
libertad. En consecuencia, una F con estas características proporciona un
mecanismo de prueba para determinar la significancia de la interacción
entre los factores. Una interacción significativa puede alterar la inferencia
basada en las diferencias significativas entre las medias marginales de los
factores.
En caso de que la interacción no sea significativa, un argumento similar al

ya expuesto pero realizado sobre los cuadrados medios CM1 y CM2,
permite concluir que bajo las hipótesis nulas de igualdad de medias para los
CM 1
niveles de los respectivos factores, los cocientes F1 = y
CME
CM 2
F2 = son variables aleatorias que tienen distribución F con grados
CME
de libertad dados por los correspondientes grados de libertad de CM1,
CM2 y CME en la tabla. Esto proporciona herramientas para probar la
igualdad de medias para cada uno de los respectivos factores.
En caso de obtener valores de F1 o F2 que obliguen a rechazar las

correspondientes hipótesis nulas se pueden realizar pruebas de
comparaciones múltiples para determinar cuáles medias difieren entre sí.
Una de las pruebas más usadas en estos casos es la prueba de Tukey.
Ejemplo 4.5. El Mirogrex Terrae Santae es un pez semejante a la sardina

que se encuentra en el mar de Galilea. Se realizó un estudio para determinar
el efecto de la luz y la temperatura sobre el índice gonadosomático (GSI)
que es una medida del crecimiento del ovario. Se utilizaron dos
fotoperiodos: a) 14 horas de luz y 10 de obscuridad y b) 9 horas de luz con
15 de obscuridad los cuales se cruzaron con dos niveles de temperatura de
agua: 16°C y 27°C. De esta manera se obtuvieron cuatro tratamientos:
verano simulado, invierno simulado y dos climas no naturales. En cada uno
de estos ambientes se han criado 5 peces. La variable respuesta es el GSI.
Analizar este experimento si se obtuvieron los siguientes valores del GSI al
final del mismo.
FACTOR 2: Temperatura del agua

16°C (1) 27°C (2)
9 horas de luz 1.30 0.88 0.90 1.06
FACTOR 1 (1) 2.42 2.66 0.98 1.29
Fotoperiodos 2.94 1.12
14 horas de luz 1.01 1.52 0.83 0.67
(2) 1.02 1.32 0.57 0.47
1.63 0.66
Tabla 4.18 Datos para el ejemplo 4.5
Lo primero que ha de hacerse es construir un archivo de datos en el que

aparece la variable respuesta y la identificación de los niveles tanto del
primero como del segundo factor. Es conveniente además incluir otra
identificación para el número de réplica. Si el análisis se realiza con ESM,
ésta última identificación es obligatoria. El archivo correspondiente tendrá
el siguiente aspecto:
1.30 1 1 1
2.88 1 1 2
2.42 1 1 3
2.66 1 1 4
2.94 1 1 5
0.90 1 2 1
1.06 1 2 2
0.98 1 2 3
1.29 1 2 4
1.12 1 2 5
1.01 2 1 1
1.52 2 1 2
1.02 2 1 3
1.32 2 1 4
1.63 2 1 5
0.83 2 2 1
0.67 2 2 2
0.57 2 2 3
0.47 2 2 4
0.66 2 2 5
Tabla 4.19 Disposición de los datos del ejemplo 4.5 para análisis con software
Nótese cómo los niveles de los factores se han identificado con los códigos
1 y 2. En general es buena recomendación utilizar dígitos consecutivos para
identificar los niveles de los factores. El análisis realizado con ESM
produce los siguientes resultados
TABLA ANOVA:
-------------------------------------------------------------------
FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F
-------------------------------------------------------------------
F1 3.08 1 3.08 21.704
F2 5.15 1 5.15 36.285
F1*F2 0.63 1 0.63 4.439
Error 2.27 16 0.14 *******
TOTAL 11.13 19 ********* *******
-------------------------------------------------------------------
FACTORES VALOR P DISTRIBUCION

F1 = FOTOPE 0.000450 F( 1 , 16 )
F2 = TEMPER 0.000070 F( 1 , 16 )
F1*F2 0.048900 F( 1 , 16 )
ESTIMACIONES DEL MODELO:
MEDIA GENERAL: μ = 1.3625
VARIANZA GENERAL: 2 = 0.1420
MEDIAS POR CELDAS:

Media de la celda( 1 , 1 ) = 2.4400
V/R OBSERVADO V/R ESTIMADO RESIDUO

1.30 2.44 -1.1400
2.88 2.44 0.4400
2.42 2.44 -0.0200
2.66 2.44 0.2200
2.94 2.44 0.5000
0.90 1.07 -0.1700
1.06 1.07 -0.0100
0.98 1.07 -0.0900
1.29 1.07 0.2200
1.12 1.07 0.0500
1.01 1.30 -0.2900
1.52 1.30 0.2200
1.02 1.30 -0.2800
1.32 1.30 0.0200
1.63 1.30 0.3300
0.83 0.64 0.1900
0.67 0.64 0.0300
0.57 0.64 -0.0700
0.47 0.64 -0.1700
0.66 0.64 0.0200
El programa también estima los efectos de cada uno de los factores y las estimaciones,
pero estas salidas han sido suprimidas para mayor sencillez.
Como puede observarse el valor F para interacción es 0.439 que corresponde un valor P
de 0.0489 el cual, por ser muy cercano a 0.05, puede considerarse como no
significativo. Esto quiere decir que podríamos considerar que el modelo no tiene
interacción y, en consecuencia, es un modelo aditivo, así que podemos confiar en las
deducciones acerca de las medias. Puesto que tanto la F del factor F1 como la del factor
F2 son significativas por arrojar valores P muy pequeños (menores que 0.05)
concluímos que hay diferencias significativas entre los promedios de los niveles de
cada factor.
Los residuos que fueron calculados por el programa se pueden usar para realizar con
ellos una prueba de validez del modelo. Deben tener distribución normal para que el
modelo cumpla con los supuestos. En este caso la prueba de Geary arroja un valor P de
0.005036 por lo que se puede concluir que el modelo presenta un problema de
normalidad.
A manera de ejemplo, podemos realizar la prueba de Tukey para determinar si dentro

del fotoperiodo de 9 horas de luz hay diferencias entre los promedios de GSI para las
dos temperaturas. Es decir, estamos comparando los promedios de los tratamientos
CELDA(1,1) y CELDA(1,2), o lo que es igual: TRAT(9h,16°C) y TRAT(9h,27°C). Los datos
correspondientes a estos dos tratamientos son:
TRAT(9h, 16°C) TRAT(9h, 27°C)

1.30 0.90
2.88 1.06
2.42 0.98
2.66 1.29
2.94 1.12
y las correspondientes medias son 2.44 y 1.07
En este caso n1 = n2 = 5 , k = 2, ν = 16 (grados de libertad del error), en

consecuencia qk , , = 3.64 (valor buscado en tabla) y por tanto:
CME  1 1  0.14  1 1 
qk , ,  +  = 3.64  +  = 0.61
2  ni n j  2 5 5
Puesto que y11 − y12 = 2.44 − 1.07 = 1.37 es un valor mayor que 0.61, se
concluye que sí hay diferencias significativas entre las medias de estos dos
tratamientos.
Nótese que, en cambio, y12 − y22 = 1.07 − 0.64 = 0.43 es un valor menor que
0.61 lo que nos dice que entre los tratamientos CELDA(1,2) y CELDA(2,2),
correspondientes a los dos fotoperiodos dentro de la temperatura de 27

grados, no hay diferencias significativas.
6.4.2 Diseño trifactorial
Una vez se ha estudiado el diseño bifactorial completo y balanceado resulta

inmediata la comprensión de lo que sucede en el diseño trifactorial
completo y balanceado. No entraremos a presentar fórmulas para las
descomposiciones de las sumas de cuadrados. Tan solo diremos que en este
caso la suma total de cuadrados se descompone en ocho (8) sumas de
cuadrados de acuerdo con lo siguiente:
1. Suma de cuadrados correspondiente al factor F1, SC1

4. Suma de cuadrados para la interacción de segundo orden F1*F2,
SC12
SC13
SC23
7. Suma de cuadrados para la interacción de tercer orden F1*F2*F3,
SC123
8. Suma de cuadrados residual, no explicada o de error, SCE.
Todas las sumas de cuadrados anteriores son variables aleatorias con

distribuciones Ji cuadrado y, por consiguiente al ser divididas entre sus
grados de libertad (ver tabla ANOVA para este tipo de diseño) los
cuadrados medios correspondientes representan varianzas. Los siete
cocientes resultantes al dividir cada cuadrado medio entre el CME
representan valores de cuantiles bajo distribuciones F con los grados de
libertad apropiados que permiten probar hipótesis, en primer lugar sobre la
significancia de las interacciones y, en segundo lugar, sobre la igualdad de
las medias de los niveles en los respectivos factores. Igual que en los casos
anteriores se puede aplicar la prueba de Tukey para comparar las medias de
dos tratamientos cualesquiera.
El cuadro siguiente representa la tabla de análisis de varianza para un

experimento factorial completo y balanceado de tres factores F1, F2 y F3
con niveles a, b y c, respectivamente.
Fuente de Suma Grados de Cuadrados Valor F

Variación de Libertad medios
Cuadra (Varianzas)
dos
F1 SC1 ν1 = a-1 CM1 = SC1 / ν1 f1= CM1 / CME
F2 SC2 ν2 = b -1 CM2 = SC2 / ν2 f2=CM2 / CME
F3 SC3 ν3 = c -1 CM3 = SC3 / ν3 f3=CM3 / CME
F1xF2 SC12 ν12 = (a-1)(b-1) CM12 =SC12 / ν12 f12=CM12 / CME
F1xF3 SC13 ν13 = (a-1)(c-1) CM13 =SC13 /ν13 f13=CM13 / CME
F2xF3 SC23 ν23 = (b-1)(c-1) CM23 =SC23 / ν23 f23=CM23 / CME
F1xF2xF3 SC123 ν123 = (a-1)(b-1)(c-1) CM123 =SC123 / ν123 f123=CM123 / CME
Error SCE  E = abc(r – 1) CME =SCE / E ----------------
Total SCT  T = abcr - 1 -------------- ----------------
Tabla 4.20 Tabla de Análisis de varianza para un diseño completo de tres factores
Ejemplo 4.6: Con el fin de determinar el efecto de los niveles de agua, la

temperatura y el tipo de planta en la producción de guisantes, se disponen
aleatoriamente 36 plantas sin hojas en 9 grupos de 4 plantas cada uno los cuales se
asignan aleatoriamente a las combinaciones de tres niveles de agua (bajo, medio y
alto) con tres temperaturas (15°C, 18°C y 21°C) en un invernadero. Este mismo
experimento se repite simultáneamente y en las mismas condiciones con 36 plantas
con hojas. Resulta así un experimento factorial 3  3  2 , lo que significa que el primer
factor tiene 3 niveles, el segundo 3 niveles y el tercero 2 niveles. Los valores de
producción de cada planta se resumen en la tabla 6.21.
Para el análisis estadístico con ESM se crea un archivo de datos en el que cada una de
las 72 observaciones se escribe acompañada de cuatro identificadores según el nivel
de cada factor y el número de réplica. Es decir, dicho archivo está conformado por una
variable de respuesta y cuatro variables categóricas de identificación. Los resultados
obtenidos están consignados en la salida de la página siguiente.
Como puede apreciarse en este ejemplo las interacciones son significativas lo que hace
que el modelo no sea aditivo. Este resultado dificulta los análisis pues ahora no se puede
estar seguro sobre las pruebas de comparaciones de medias ni en los niveles de los
factores ni en los diferentes tratamientos.
N I V E L D E A G U A = F1
1 = Bajo 2 = Medio 3 = Alto
F2 = Temperatura F2 = Temperatura F2 = Temperatura
Tipo de Planta 1 2 3 1 2 3 1 2 3
F3 15° 18° 21° 15° 18° 21° 15° 18° 21°
69.1 87.3 72.3 80.4 93.1 94.3 100.1 121.2 100.1
Sin Hojas 70.2 80.1 73.1 83.5 88.6 96.1 97.3 120.5 98.3
P 68.3 78.6 74.1 84.1 90.2 96.5 90.6 119.3 103.1
L 1 72.1 74.3 72.6 79.6 101.3 91.4 94.1 115.6 92.1
A
N 68.0 74.3 73.4 81.5 90.8 96.7 89.6 96.2 98.1
Con Hojas 66.5 72.1 74.2 82.5 91.3 92.3 90.2 101.3 99.6
T 68.9 75.0 71.8 84.6 92.0 94.1 91.3 99.6 95.4
A 2 71.1 70.3 72.1 78.1 93.1 95.2 90.0 100.2 98.6
TABLA ANOVA:
---------------------------------------------------------------------
---------------------------------------------------------------------
F1 (A) 9029.73 2 4514.86 544.144
F2 (B) 1607.95 2 803.97 96.897
F3 (C) 286.00 1 286.00 34.470
A*B 469.45 4 117.36 14.145
A*C 200.49 2 100.24 12.082
B*C 285.41 2 142.70 17.199
A*B*C 180.01 4 45.00 5.424
Error 448.05 54 8.30 *******
TOTAL 12507.08 71 ********* *******
---------------------------------------------------------------------
(A) = AGUA: P = 0.000000 F( 2 , 54 )
(B) = TEMP: P = 0.000000 F( 2 , 54 )
(C) = TIPO: P = 0.000010 F( 1 , 54 )
Interacción (A)*(B): P = 0.000000 F( 4 , 54 )
Interacción (A)*(C): P = 0.000140 F( 2 , 54 )
Interacción (B)*(C): P = 0.000020 F( 2 , 54 )
Interac (A)*(B)*(C): P = 0.001250 F( 4 , 54 )
ESTIMACIONES:
a) Media General: 87.54861111111115
b) Varianza general (CME): 8.297175925923959
c) Media por celda:

Media Celda( 1 , 1 , 1 ): 69.92500000000001
Media Celda( 1 , 1 , 2 ): 68.625
Media Celda( 1 , 2 , 1 ): 80.07499999999999
Media Celda( 1 , 2 , 2 ): 72.925
Media Celda( 1 , 3 , 1 ): 73.02499999999999
Media Celda( 1 , 3 , 2 ): 72.875
Media Celda( 2 , 1 , 1 ): 81.90000000000001
Media Celda( 2 , 1 , 2 ): 81.675
Media Celda( 2 , 2 , 1 ): 93.3
Media Celda( 2 , 2 , 2 ): 91.80000000000001
Media Celda( 2 , 3 , 1 ): 94.57499999999999
Media Celda( 2 , 3 , 2 ): 94.575
Media Celda( 3 , 1 , 1 ): 95.52500000000001
Media Celda( 3 , 1 , 2 ): 90.27500000000001
Media Celda( 3 , 2 , 1 ): 119.15
Media Celda( 3 , 2 , 2 ): 99.325
Media Celda( 3 , 3 , 1 ): 98.40000000000001
Media Celda( 3 , 3 , 2 ): 97.92500000000001
d) Medias por niveles de AGUA:

Media Factor 1 Nivel ( 1 ): 72.90833333333332
e) Medias por niveles de TEMP:

f) Medias por niveles de TIPO:

El siguiente ejemplo de mejor comportamiento ilustrará además el uso de la prueba de

Tukey para comparar tratamientos.
Ejemplo 4.7: los datos siguientes representan los registros de producción de una
empresa que ha estado ensayando diferentes políticas de trabajo entre sus empleados. El
diseño muestra los resultados al implementar dos jornadas de trabajo, una de 10 horas
diarias y otra de 8 horas diarias (4 días a la semana y 5 días respectivamente), dos
turnos, uno diurno y otro nocturno y tres alternativas de descanso en cada jornada: uno
con un solo descanso a la mitad de la jornada, otro con dos desacansos en la jornada y
otro con tres descansos. El diseño es entonces un factorial 2  2  3 con dos réplicas en
el que los factores son respectivamente: jornadas, turnos y descansos.
Turno diurno Turno nocturno
(1) (2)
Descansos Descansos
Jornada 1 2 3 1 2 3
(1) 94 105 96 90 102 103

10 horas 97 106 91 89 97 98
(2) 96 100 82 81 90 94
8 horas 92 103 88 84 92 96
El archivo de datos correspondiente para el análisis está consignado en la tabla 6.23. En

él la primera variable es la respuesta (RENDIM = calificación del rendimiento), y cuatro
variables categóricas que son respectivamente: jornada (JORNAD), turno (TURNOS),
descansos (DESCAN) y réplica. En otros paquetes no es necesario contemplar la variable
REPLICA dentro del archivo de datos cuando el diseño es balanceado.
94 1 1 1 1
97 1 1 1 2
105 1 1 2 1
106 1 1 2 2
96 1 1 3 1
91 1 1 3 2
90 1 2 1 1
89 1 2 1 2
102 1 2 2 1
97 1 2 2 2
103 1 2 3 1
98 1 2 3 2
96 2 1 1 1
92 2 1 1 2
100 2 1 2 1
103 2 1 2 2
82 2 1 3 1
88 2 1 3 2
81 2 2 1 1
84 2 2 1 2
90 2 2 2 1
92 2 2 2 2
94 2 2 3 1
96 2 2 3 2
Tabla 4.23 Disposición de datos ejemplo 4.7 para análisis con ESM
Parte del archivo de resultados arrojado por ESM (se han omitido las estimaciones de
los efectos) es lo siguiente:
TABLA ANOVA:
---------------------------------------------------------------------
---------------------------------------------------------------------
F1 (A) 204.17 1 204.17 29.878
F2 (B) 48.17 1 48.17 7.049
F3 (C) 334.08 2 167.04 24.445
A*B 8.17 1 8.17 1.195
A*C 8.08 2 4.04 0.591
B*C 385.58 2 192.79 28.213
A*B*C 21.58 2 10.79 1.579
Error 82.00 12 6.83 *******
TOTAL 1091.83 23 ********* *******
---------------------------------------------------------------------
(A) = JORNAD: P = 0.000290 F( 1 , 12 )
(B) = TURNOS: P = 0.020060 F( 1 , 12 )
(C) = DESCAN: P = 0.000160 F( 2 , 12 )
Interacción (A)*(B): P = 0.296090 F( 1 , 12 )
Interacción (A)*(C): P = 0.573050 F( 2 , 12 )
Interacción (B)*(C): P = 0.000100 F( 2 , 12 )
Interac (A)*(B)*(C): P = 0.245510 F( 2 , 12 )
ESTIMACIONES:
a) Media General: 94.41666666666667
b) Varianza general (CME): 6.833333333336564
c) Media por celda:

Media Celda( 1 , 1 , 1 ): 95.5
Media Celda( 1 , 1 , 2 ): 105.5
Media Celda( 1 , 1 , 3 ): 93.5
Media Celda( 1 , 2 , 1 ): 89.5
Media Celda( 1 , 2 , 2 ): 99.5
Media Celda( 1 , 2 , 3 ): 100.5
Media Celda( 2 , 1 , 1 ): 94
Media Celda( 2 , 1 , 2 ): 101.5
Media Celda( 2 , 1 , 3 ): 85
Media Celda( 2 , 2 , 1 ): 82.5
Media Celda( 2 , 2 , 2 ): 91
Media Celda( 2 , 2 , 3 ): 95
d) Medias por niveles de JORNAD:

e) Medias por niveles de TURNOS:

Media Factor 2 Nivel ( 2 ): 93
f) Medias por niveles de DESCAN:

Como puede observarse en la salida de la tabla de análisis de varianza, la interacción de
los factores F1 y F2 es significativa lo que resta aditividad al modelo pero, dado que las
demás interacciones no lo son, podemos aceptar las conclusiones sin demasiadas
prevenciones. En este caso los valores P para los tres factores indican que las medias en
los niveles de dichos factores no son iguales. Para determinar cuáles niveles o cuales
tratamientos difieren se deben realizar comparaciones múltiples. Para ello podemos
aplicar el método de Tukey, utilizando las diferentes medias que el programa ha
calculado.
La comparación de las medias en los factores de dos niveles no requiere de la prueba de

Tukey pues al ser sólo dos niveles y saber que ellos difieren será mayor la media del
nivel que presente la mayor media muestral. Así, hay mayor rendimiento en la jornada
de 10 horas que en la de 8 horas pues los valores respectivos de las medias muestrales
son 95.83 para la primera y 93.0 para la segunda. Igualmente se puede concluir que el
turno diurno produce mejores resultados que el nocturno
Aplicaremos la regla de Tukey para determinar cuál sistema de descansos produce

mejores resultados. Para tal efecto ordenamos de menor a mayor las medias muestrales
para los tres niveles obteniendo : 90.38 (un descanso), 93.5 (tres descansos) y 99.38
(para dos descansos). Puesto que el diseño es balanceado con ni = 8 (hay 8
observaciones en cada forma de descanso) y el error cuadrático medio ( s 2 = ECM =

6.83) tiene  = 12 grados de libertad, para k = 3 tratamientos, se encuentra en la tabla
(anexo 2) que qk , , = 3.77 (se ha tomado α = 0.05, como es usual). Esto nos lleva a
ECM 1 1
 = qk , ,0.05  +  = 3.48 , valor que se compara con las diferencias entre
2  ni n j 
medias como lo sugiere el siguiente cuadro:
Nivel: (1) (3) (2)

No de descansos: Uno Tres Dos
Media estimada: 90.38 93.5 99.38
Diferencias: 3.12 5.88
Tabla 4.24 Comparación de medias en el ejemplo 4.7 con el método de Tukey

Este cuadro muestra que la diferencia entre los niveles 1 y 3 no es significativa pues es
menor que  , mientras que la diferencia entre los niveles 3 y 2 –y por consiguiente
entre los niveles 1 y 2- sí es significativa ya que ella es mayor que  . En este caso la
conclusión es que resulta mejor otorgar dos descansos en la jornada y que no hay
diferencias entre uno y tres descansos.
En resumen el sistema de trabajo que proporciona mejores rendimientos es jornada

diurna en turnos de 10 horas con dos descansos. Esto corresponde a la celda (1,1,2) cuya
media es 105.5. Es decir, que la calificación de rendimiento en esta forma de trabajo se
estima en 105.5. Nótese que si sólo interesa determinar cuál es el mejor tratamiento de
los 12 posibles, bastaría seleccionar aquel correspondiente a la celda cuya media sea
mayor. Sin embargo las comparaciones suelen ser útiles porque podría suceder que
hubiera dos o más tratamientos cuyas medias no difieran significativamente y entonces
podría escogerse aquel que resulte más benéfico según otros criterios. Por ejemplo,
aquel que sea menos costoso, o el que implique menos riesgos laborales, etc.
Puesto que la interacción F2*F3 (es decir, TURNO*DESCANSO) ha resultado significativa

podemos realizar una comparación de sus efectos utilizando también la regla de Tukey.
Esta comparación puede hacerse por separado para la jornada de 10 horas y para la
jornada de 8 horas. Aquí presentaremos la comparación para la jornada de 10 horas,
dejando al lector que compare los efectos en la jornada de 8 horas. El cuadro siguiente
presenta las medias ordenadas y sus diferencias:
Tratam.
Celda: 1,2,1 1,1,3 1,1,1 1,2,2 1,2,3 1,1,2
Media 89.5 93.5 95.5 99.5 100.5 105.5
Diferencia 4.0 2.0 4.0 1.0 5.0
Tabla 4.25 Comparación de medias en ejemplo 4.7. Método de Tukey
En este caso el número de tratamientos es k = 6, cada uno con ni = 2 observaciones.
Los grados de libertad del error y el valor de ECM son los mismos de antes, así que
q2, 12, 0.05 = 4.75 y, por tanto,  = 8.77 . Seleccionamos el primer par de celdas que
difieran por una cantidad mayor que 8.77, en este caso las celdas 121 y 122. Entonces
los tratamientos 121, 113 y 111 no difieren entre sí. 111, 122 y 123 tampoco difieren
entre sí y finalmente 122, 123 y 112 tampoco difieren entre sí. Si dos tratamientos no
difieren entre sí entonces dos tratamientos cualesquiera comprendidos entre ellos
tampoco difieren. Esto permite señalar las medias que no difieren como se indica en el
siguiente cuadro.
Tratamiento: 1,2,1 1,1,3 1,1,1 1,2,2 1,2,3 1,1,2

Media: 89.5 93.5 95.5 99.5 100.5 105.5
Vínculos: AAAAAAAAAAAA
BBBBBBBBBBBBB
CCCCCCCCCCCCC
Tabla 4.26 Método de Tukey para comparación de medias. Ejemplo 4.7
En esta tabla cualesquiera dos medias o tratamientos unidos por la misma letra (es decir,
con el mismo vínculo) no presentan diferencias significativas.
John W. Tukey nació en New Bedford, Massachussets, el 16 de

junio de 1915. Obtuvo un magíster en química en la Universidad
de Brown en 1936. Se trasladó a Princetown para obtener un
grado en matemáticas y en dos años obtuvo su doctorado.
Después de desempeñarse por varios años en una oficina de
investigación del gobierno, llegó a ser profesor de Princetown en
1950. Recibió la medalla nacional de Ciencias en 1973. Fue
miembro de la Academia Nacional de Ciencias y de la Royal
Society de Inglaterra. En su época fue reconocido como uno de
los mejores expertos en pronósticos electorales. Murió en el año
2000.
4.9 Diseños de efectos aleatorios
Muy brevemente se hará una referencia a los diseños factoriales de efectos aleatorios ya
mencionados anteriormente. Estos diseños se usan para estudiar el comportamiento de
la variabilidad y en qué medida ella contribuye a los efectos de los tratamientos.
En un diseño unifactorial balanceado se construye una tabla ANOVA en la forma usual

pero aparece una columna adicional en la que se encuentran los valores esperados de los
cuadrados medios, ya que la varianza de cada observación  y2 puede verse como la
suma  a2 +  2 donde  a2 (varianza entre grupos) es la varianza de la distribución de los
efectos y  2 (varianza aleatoria) es la varianza residual. Estos dos valores se conocen
como componentes de varianza.
Si  a2 = 0 entonces los efectos de los tratamientos son iguales pero si  a2 > 0 existe
variabilidad entre ellos. En este último caso la diferencia entre los efectos de los
tratamientos puede deberse a la variabilidad entre las observaciones.
La tabla de análisis de varianza tiene la forma siguiente:
Origen de V S de C. GL Cuadr.med. C.M.Esperad F

Entre SCTr k-1 CMtr ni a2 +  2 F=
CMtr
CMerr
Dentro SCErr n-k CMerr  2
Total SCtot n-1 ------- -------
Tabla 4.27 Tabla ANOVA para un diseño de efectos aleatorios en una vía
Con la información proporcionada por esta tabla se prueba la hipótesis nula H0 :  a2 = 0
versus la alterna H1 :  a2  0 lo que se hace utilizando el valor calculado F que tiene
distribución Fk −1,n −k .
Para hacer una estimación de las componentes de varianza se toma la columna de

cuadrados medios como una estimación de los cuadrados medios esperados, lo que lleva
al planteamiento del sistema de ecuaciones lineales:
ni a2 +  2 = CMtr

   = CMerr
2
CMtr − CMerr
cuya solución está dada por  a2 = y  2 = CMerr
ni
En algunos casos especiales estas soluciones pueden resultar extrañas pues pueden
aparecer valores negativos los cuales no tienen una interpretación clara. Existen otros
métodos de estimación que no se estudian en esta obra.
Si el diseño no es balanceado y el tamaño de muestra para los tratamientos es variable,
CMtr − CMerr 1  k
ni2 
 a2 se estima por  a2 = donde r0 =   .
n −
r0 k −1  i =1 n 
 a2
Se define el coeficiente de correlación intraclase como  I = , el cual varía
 a2 +  2
1
entre − y 1 (en diseños balanceados). Si  I es grande el afecto aleatorio común
r −1
a un grupo afecta por igual a todos los individuos de ese grupo, de manera que la
similitud entre individuos es mayor dentro del mismo grupo que entre los individuos de
grupos diferentes. Esto se debe a que la varianza residual es muy pequeña frente a la
varianza entre clases. Por el contrario, si  I es pequeño existe disimilaridad entre los
individuos de cada grupo lo que dice que la diferencia de medias puede deberse a la
variabilidad interna de los grupos. Por ejemplo, en un problema de dietas los recursos
nutritivos pueden causar disparidad de crecimiento dentro de cada grupo. Esto puede
suceder, por ejemplo, si los individuos más vigorosos y agresivos toman la mayor parte
de dicho recurso.
El problema de componentes de varianza en diseños de efectos aleatorios puede ser

extendido a diseños multifactoriales pero la teoría necesaria para su estudio escapa a la
proyección de esta obra. El paquete ESM-plus V8 permite estimar componentes de
varianza para diseños bifactoriales en los cuales ambos factores son de efectos
aleatorios y para diseños bifactoriales mixtos en los cuales un factor es de efectos fijos y
el otro de efectos aleatorios.
El siguiente ejemplo de un diseño unifactorial de efectos aleatorios, analizado con ESM,

permite ilustrar lo dicho en los párrafos anteriores.
Ejemplo 4.8: En un estudio de genética con reses, varios machos se aparearon con
grupos diferentes de hembras. Si nacían terneros (machos) se usaban en un estudio de
pesos hereditarios. La tabla siguiente muestra el peso al nacer de 8 terneros por cada
uno de los 5 grupos usados en el estudio.
Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5

61 75 58 57 59
100 102 60 56 46
56 95 60 67 120
113 103 57 59 115
99 98 57 58 115
103 115 59 121 93
75 98 54 101 105
62 94 100 101 75
Resultados:
TABLA ANOVA PARA COMPONENTES DE VARIANZA:

----------------------------------------------------------------------------
----------------------------------------------------------------------------
Modelo 5591.1500 4 1397.7875 3.0138
Error 16232.7500 35 463.7929 *****
Total 21823.9000 39 ***** *****
---------------------------------------------------------------------------
R2 = .256193 F tiene 4 y 35 Grados de libertad
Valor exacto del CME = 463.7928571428571
ESTIMACION DE LAS COMPONENTES DE VARIANZA:

-----------------------------------------------------------------------
Varianza ENTRE: SIGMAa2 = 116.7493303571436
Varianza DENTRO: SIGMAe2 = 463.7928571428571
Coeficiente de Correlación Intraclases: .2011039557002796

-----------------------------------------------------------------------
Tabla 4.29 Salida de análisis con ESM del ejemplo 4.8
Puesto que el valor P de probabilidad para la F es menor que α = 0.05 se rechaza la

hipótesis de que  a2 = 0 . Esto significa que existe varianza entre clases, es decir, que
dentro de los grupos hay mucha disimilaridad. Esto implica que de existir diferencias
en las medias de los tratamientos, dicha diferencia podría estar ocasionada por la
variabilidad interna de los grupos.
En este ejemplo  a2 = 116.75 ,  2 = 463.79 y  I = 0.2011 , valor que puede ser

considerado pequeño, confirmando la existencia de disimilaridad entre individuos de
cada grupo. Esto, por supuesto, implica que hay diferencias entre los efectos de los
tratamientos, pero, como se advirtió antes, dichas diferencias podrían estar causadas por
la falta de homogeneidad dentro de los grupos y no por los tratamientos.
BIBLIOGRAFIA
1. MENDENHALL W. y T. SINCICH; A Second Course in Statistics – Regression

Analysis. 5ª Ed. Prentice-Hall, London 1996
2. MENDENHALL W. y T. SINCICH; Probabilidad y Estadística para Ingeniería y

Ciencias. 4ª Ed. Prentice-Hall.México. 1997 (Incluye programa ASP individual)
3. DRAPER N. R. y H. SMITH; Applied Regression Analysis. 2ª Ed. John Wiley &

Sons. N.Y 1982
4. MONTGOMERY D. y E. PECK; Introduction to Linear Regression Analysis. John

Wiley & Sons. N.Y. 1982
5. CHATTERJEE S. y B. PRICE; Regression Analysis by Example. John Wiley &

Sons. N.Y. 1977
6. SILVA L. C.; Una excursión a la regresión logística en Ciencias de la Salud. Diaz

Santos. Barcelona. 1997 (Incluye programas RELODI y RELOPO)
7. MADSEN H y P. THYREGOD; Introduction to General and Generalized Linear

Models. Chapman & Hall / CRC. 2010
8. FARAWAY J.J; Linear Models with R. Chapman & Hall / CRC. 2009
9. STAPLETON J.H.; Linear Statistical Models. John Wiley & Sons. 1995
10. KUTNER M. et al. Applied Linear Statistical Models. McGraw- Hill. 2005
ANEXO
Archivo de datos FINCAS
Las variables contempladas en el archivo FINCAS.DAT son las siguientes:
X1 EXTENSION DE LA FINCA EN HECTAREAS

X2 NUMERO DE HECTAREAS DEDICADAS AL CULTIVO
X3 TEMPERATURA PROMEDIO EN CADA FINCA
X4 TIPO DE TERRENO: 1=Plano 2=Quebrado 3=Mixto
X5 FINCA TECNIFICADA: 1=Sí 2=No
X6 NUMERO DE OBREROS QUE TRABAJAN EN LA FINCA
X7 NUMERO DE CABEZAS DE GANADO MACHO
X8 NUMERO DE CABEZAS DE GANADO HEMBRAS
X9 RAZA DE GANADO MAYORITARIA: 1=Ceb£ 2=Normando 3=Holstein
X10 EXISTENCIA DE HATO LECHERO: 1=Sí 2=No
X11 EXISTENCIA DE RIEGO ARTIFICIAL: 1=Sí 2=No
X12 TIPO DE CULTIVO PREDOMINANTE: 1=Maiz 2=Sorgo 3=Algodón
4=Trigo 5=Papa 6=Otro
120 100 15 1 2 14 12 75 1 1 1 6
458 360 21 1 2 25 124 58 2 2 1 1
148 140 18 2 1 18 15 125 2 2 1 2
200 160 25 2 2 25 14 200 2 2 2 3
150 76 21 2 1 24 18 157 1 1 1 3
400 320 25 2 1 33 19 42 1 1 1 4
150 98 20 3 1 24 25 15 1 1 2 1
125 105 21 2 1 7 54 6 3 1 2 4
250 200 15 3 2 25 55 25 3 1 2 4
145 125 18 2 2 21 12 158 3 1 2 1
400 375 14 1 2 26 6 145 3 1 2 1
75 68 19 2 1 23 24 162 3 2 1 4
25 22 18 2 2 30 78 145 3 2 2 2
162 145 14 3 1 25 125 45 3 2 2 2
185 164 15 1 1 54 14 25 2 2 2 3
220 210 16 1 2 24 7 28 2 1 2 5
150 140 12 1 2 15 25 145 2 1 1 2
220 200 17 2 2 25 14 25 1 1 1 6
250 125 21 1 2 26 16 158 1 1 1 6
145 120 25 2 2 25 25 200 1 2 2 2
200 78 24 1 1 24 89 125 1 2 2 4
230 170 28 3 1 12 35 456 2 2 2 2
148 68 26 3 1 32 47 25 1 2 2 5
205 145 25 3 1 25 45 145 2 2 1 1
420 300 21 2 1 21 48 13 2 1 1 3
358 260 20 2 1 24 21 15 1 1 1 2
320 150 24 1 1 28 25 258 2 1 1 1
180 120 25 2 1 14 24 25 2 2 2 4
200 110 21 1 2 12 15 21 1 2 2 1
150 98 14 2 1 25 19 22 2 1 2 5
100 75 18 1 2 24 25 48 3 2 2 2
75 32 15 3 1 21 125 75 2 1 2 2
310 140 14 2 2 24 478 145 2 1 2 1
250 200 16 2 2 20 14 400 3 1 1 1
148 48 12 1 1 20 478 125 3 1 1 4
150 36 15 2 2 23 14 256 3 1 1 3
200 100 14 1 2 22 15 25 3 2 1 3
230 126 15 3 2 21 78 470 3 2 1 5
400 268 12 2 1 22 48 145 2 2 2 2
350 239 25 1 1 24 58 125 2 2 2 1
320 169 21 2 2 23 74 58 2 2 2 6
125 85 24 1 1 21 25 54 1 2 2 2
100 24 25 2 1 25 24 47 2 1 2 1
90 45 21 1 1 36 13 45 1 1 1 4
120 62 20 3 2 21 25 46 2 1 1 2
220 156 20 3 2 24 14 25 1 1 1 1
250 200 20 3 2 25 15 185 2 1 1 4
320 260 21 3 2 26 18 26 1 1 2 2
250 235 20 2 1 20 19 456 2 1 1 1
200 128 25 2 1 21 52 125 3 1 1 3
120 90 25 3 1 20 45 100 2 1 1 2
200 135 26 3 1 20 45 78 1 1 1 1
320 300 28 3 1 20 48 12 2 1 1 5
250 160 24 3 1 24 47 45 1 2 1 2
390 310 14 2 1 21 14 45 2 1 2 1
225 198 15 2 1 20 25 125 2 2 2 4
220 195 16 3 1 23 54 215 1 1 1 1
150 87 12 1 1 25 51 200 1 1 1 1
75 36 14 2 1 28 42 180 1 2 1 2
80 56 12 2 1 27 15 57 2 2 1 1
140 112 15 2 1 24 14 45 2 1 2 2
200 180 18 3 1 26 14 12 2 1 2 1
180 145 19 1 1 25 15 45 2 1 1 2
125 112 20 2 2 21 25 25 2 1 2 1
145 110 17 2 1 23 14 17 3 2 2 1
180 135 15 2 2 22 17 18 3 2 2 1
200 160 12 1 2 20 18 54 3 2 2 3
125 112 14 3 2 25 15 21 3 2 2 2
100 90 12 1 1 21 13 20 3 1 1 2
120 100 25 2 1 14 26 14 2 1 1 5
150 132 14 2 1 18 25 16 2 1 1 2
200 187 15 1 1 17 14 40 2 1 2 2
256 225 14 2 1 13 16 12 2 1 2 1
400 358 14 1 2 21 14 16 1 2 2 1
75 70 15 1 2 25 145 200 2 1 1 1
125 110 25 1 2 21 14 15 1 1 1 1
200 159 24 2 1 25 12 25 3 2 2 4
90 69 25 2 1 14 78 15 2 1 2 4
180 125 14 3 1 28 54 14 2 1 2 4
150 67 24 2 1 23 51 13 3 1 1 6
75 68 15 2 2 25 12 145 2 2 1 2
452 398 12 2 2 22 125 12 2 2 1 1
125 110 15 2 2 56 14 14 2 2 2 2
258 203 25 2 2 35 16 16 3 2 2 2
415 387 21 3 2 32 25 25 3 2 2 5
225 183 24 3 1 25 128 35 2 2 2 2
78 58 13 3 1 18 25 58 3 2 2 5
45 30 25 2 1 19 21 59 2 1 1 2
25 24 14 2 1 15 25 65 1 1 1 1
145 119 12 3 1 14 26 25 1 1 1 1
258 45 14 2 2 26 21 24 1 1 1 1
451 32 11 2 2 25 25 75 2 2 2 4
132 36 15 2 2 22 23 14 2 2 2 1
256 220 12 1 2 35 265 16 1 2 2 4
200 185 15 1 2 32 56 58 2 2 2 1
220 90 14 1 2 31 25 29 1 2 2 4
125 104 15 1 1 30 58 59 1 1 2 1
325 312 12 2 1 17 25 54 1 1 1 5
236 201 18 2 1 18 26 58 2 1 1 5
145 137 17 2 2 19 124 49 2 2 1 5
258 231 19 2 2 11 125 43 2 2 1 2
451 301 18 2 1 12 25 25 1 2 2 2
235 67 17 2 1 15 11 56 1 2 2 1
89 60 15 2 1 12 25 52 1 2 2 2
95 87 16 3 1 45 21 14 1 1 1 1
25 12 20 3 1 26 14 15 3 1 2 2
45 6 20 2 1 35 15 28 3 1 1 6
36 31 20 2 2 25 16 46 3 1 2 6
75 70 20 3 2 14 21 254 3 2 1 3
58 52 21 3 2 19 51 54 3 2 2 3
60 56 12 3 2 25 44 87 3 1 1 2
145 101 15 3 2 28 25 225 2 1 2 3
180 87 18 3 2 29 22 12 1 2 1 2
200 139 11 3 2 26 15 14 1 1 1 3
125 111 25 3 2 32 24 56 1 2 1 6
136 117 21 3 2 35 15 35 2 1 1 1
200 186 20 3 2 36 232 58 2 2 1 2
400 315 21 3 1 24 25 35 1 2 1 5
450 381 21 3 1 15 215 22 1 2 1 6
236 230 25 2 1 25 25 58 3 2 2 3
225 205 21 2 1 26 21 56 3 1 2 2
125 105 22 3 1 25 45 66 3 1 2 2
236 200 15 3 2 22 54 58 3 1 2 3
200 160 14 3 2 22 51 45 2 2 2 2
258 232 12 1 1 22 22 85 2 1 2 1
32 25 25 1 2 26 20 58 1 2 2 2
325 238 23 1 1 24 12 69 2 1 2 2
236 200 22 1 1 26 12 97 1 2 2 5
308 185 25 2 1 24 18 85 2 1 2 6
204 196 22 2 1 26 21 45 1 2 1 4
125 109 21 2 2 25 25 55 2 1 1 6
456 303 25 3 1 23 21 78 1 1 1 5
108 58 24 3 0 25 25 47 2 1 1 5
100 68 10 3 1 24 15 45 1 1 1 4
100 81 11 3 2 25 22 49 2 1 1 4
92 53 15 3 2 26 45 25 2 2 2 2
95 42 17 3 2 35 15 44 2 2 2 5
148 126 16 2 1 21 14 87 1 2 2 2
300 234 15 2 1 25 25 44 1 2 2 1
105 84 11 2 1 15 14 45 2 1 1 2
200 154 14 2 1 25 18 44 1 1 1 1
45 32 12 2 1 12 17 65 2 1 1 6
128 108 21 1 1 25 19 58 1 2 1 2
256 126 24 1 2 26 12 78 2 2 2 1
150 105 20 1 2 23 15 45 1 2 2 5
75 60 22 2 2 25 14 25 2 2 2 2
96 72 22 2 2 24 15 59 1 1 2 4
182 145 21 2 2 25 12 75 1 2 2 1
160 138 15 3 1 26 16 125 1 1 1 5
110 105 14 3 2 21 15 103 3 2 1 6

Regresión lineal y modelos ANOVA

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Regresión lineal y modelos ANOVA

Hochgeladen von

Copyright:

Verfügbare Formate

UNIVERSIDAD DEL TOLIMA

JAIRO ALFONSO CLAVIJO MÉNDEZ

(DOCUMENTO EN PROCESO DE CREACION)

JAIRO ALFONSO CLAVIJO MENDEZ

Profesor de Estadística en la Facultad de Ciencias

IBAGUE, AGOSTO DE 2019

La premura con la que debí asumir el curso de modelos lineales en la Carrera de

Este document consta de cuatro partes bien diferenciadas, a saber:

Quiero manifestar mis agradecimientos al grupo de estudiantes del curso de modelos

Jairo Alfonso Clavijo M

Se llama experimento a cualquier acción tendiente a producir un resultado medible.

Llamaremos probabilidad o medida de probabilidad a cualquier función p : 2  → 

Evidentemente se cumple 0  p( A)  1 para cualquier evento A

Una variable aleatoria X es una función X :  →  que a cada subconjunto de 

Por un abuso de escritura, y con el fin de simplificar la notación, se usará la expresión

Se dirá que una función F :  →  es una función de distribución si F satisface las

Una manera particular de construir funciones de distribución es utilizar ciertas

Diremos ahora que una variable aleatoria X tiene distribución de probabilidad F

Cuando F se define mediante una función de densidad, la expresión anterior se escribe

F y diremos que X se distribuye según F.

Algunos ejemplos muy especiales de funciones de distribución se mencionan en

1. La distribución normal. Dadas cualquier constante  y cualquier constante

Cuando una variable aleatoria X se distribuya normalmente con parámetros  y  ,

2. Las distribuciónes t (de Student). Una familia de distribuciones de gran

Se puede demostrar (Cramer, 1968) que esta sucesión de funciones converge

3. Las distribuciones Ji-cuadrado. Constituyen una sucesión de distribuciones de

4. Las distribuciones F de Fisher. Estas distribuciones constituyen otra familia

Se pueden anotar sin demostración algunos resultados referentes a estas distribuciones:

1. Si Z N(0,1) entonces Z2 12 (Ji cuadrado con 1 grado de libertad)

esperanza se denomina también media de X

A manera de ejemplo, se puede anotar que si X~ N(  ,  ) entonces E(X) = µ y V(X) =

POBLACIONES Y MUESTRAS – ESTIMACION

Uno de los objetivos de la estadística es hacer inferencia de lo particular hacia lo

Dada una variable aleatoria X se define una muestra aleatoria de X de tamaño n a

Se dirá que un estimador ~ de un parámetro  es insesgado si E( ) = 

El intervalo del 100(1 −  ) % de confianza de un parámetro  cuyo estimador ~ es

Generalmente es el investigador quien decide de antemano cuál es el nivel máximo de

REGRESION LINEAL SIMPLE

El objetivo inmediato que perseguimos es estimar los coeficientes  0 y 1 del

Se trata de minimizar la suma de los errores elevados al cuadrado. Puesto que no se

De lo anterior, derivando parcialmente respecto a b0 y b1 , se obtiene:

igualando a 0 para minimizar y reordenando se obtiene el siguiente sistema de

sistema de ecuaciones con dos incógnitas, llamado de ecuaciones normales, cuya

expresiones que proporcionan estimaciones puntuales de 1 y  0 respectivamente.

Se tiene la tabla siguiente:

A partir de esta tabla se obtiene:

x = 1.5 y = 10.8 b0 = 10.8 − 5.4 1.5 = 2.7

En consecuencia, la ecuación de la recta de regresión es: y = 2.7 + 5.4 x

Dicho de otra manera: Descenso de ritmo = 2.7 + 5.4*Dosis

INFERENCIA EN EL MODELO DE REGRESION SIMPLE

Para obtener algunos resultados interesantes haremos un primer supuesto a saber:

aleatorias normales) y, por tanto, B1 tiene distribución normal.

V( B1 ) =  ci2 V(Yi ) =  ci2 i2

Aquí haremos un segundo supuesto: V(Yi ) =  i2 =  2 para todo i = 1,2,3,..., n

De acuerdo con lo anterior, se tiene:

De igual manera puede probarse que B0

Con el fin de simplificar la notación en desarrollos subsecuentes utilizaremos las

SCE = (y − b − b x ) = (y

De aquí se deduce que un estimador de SCE es

S YY − B1 S xY = S YY − B12 S xx =  (Yi − Y ) 2 − B12  ( xi − x ) 2

Al tomar la esperanza a ambos lados se obtiene:

De una manera completamente similar se puede probar que