Modeloslineales

MODELOS LINEALES
Francesc Carmona
Departament dEstadstica
Barcelona, 19 de diciembre de 2003
Pr ologo
Las p aginas que siguen constituyen una parte de las exposiciones te oricas y pr acticas de
asignaturas que se han impartido a lo largo de algunos a nos en varias licenciaturas y
cursos de doctorado. En particular en la licenciatura de Matem aticas, la licenciatura de
Biologa y la diplomatura de Estadstica de la Universidad de Barcelona. Se ha inten-
tado un cierto equilibrio entre las explicaciones te oricas y los problemas pr acticos. Sin
embargo, nuestra intenci on siempre ha sido fundamentar s olidamente la utilizaci on de los
modelos lineales como base de las aplicaciones de la regresi on, el an alisis de la varianza y
el dise no de experimentos. Por ello, en este libro la base matem atica y estadstica es con-
siderable y creemos importante la correcta denici on de los conceptos y la rigurosidad de
las demostraciones. Una s olida base impedir a cometer ciertos errores, habituales cuando
se aplican los procedimientos ciegamente.
Por otra parte, la aplicaci on pr actica de los metodos de regresi on y an alisis de la varianza
requiere la manipulaci on de muchos datos, a veces en gran cantidad, y el c alculo de algunas
f ormulas matriciales o simples. Para ello es absolutamente imprescindible la utilizaci on
de alg un programa de ordenador que nos facilite el trabajo. En una primera instancia es
posible utilizar cualquier programa de hojas de c alculo que resulta sumamente did actico.
Tambien se puede utilizar un paquete estadstico que seguramente estar a preparado para
ofrecer los resultados de cualquier modelo lineal est andar como ocurre con el paquete
SPSS. En cambio, en este libro se ha optado por incluir algunos ejemplos con el programa
R. Las razones son varias. En primer lugar, se trata de un programa que utiliza el lenguaje
S, est a orientado a objetos, tiene algunos m odulos especcos para los modelos lineales y
es programable. R utiliza un lenguaje de instrucciones y al principio puede resultar un
poco duro en su aprendizaje, sin embargo superada la primera etapa de adaptaci on, su
utilizaci on abre todo un mundo de posibilidades, no s olo en los modelos lineales, sino en
todo c alculo estadstico. Adem as, la raz on m as poderosa es que el proyecto R es GNU y,
por tanto, de libre distribuci on. De modo que los estudiantes pueden instalar en su casa
el programa R y practicar cuanto quieran sin coste econ omico alguno. Por otra parte, el
paquete S-PLUS es una versi on comercial con el mismo conjunto de instrucciones b asicas.
El tratamiento de algunos temas tiene su origen en unos apuntes de C.M. Cuadras y Pedro
S anchez Algarra (1996) que amablemente han cedido para su actualizaci on en este libro
y a los que agradezco profundamente su colaboraci on. Tambien es evidente que algunas
demostraciones tienen su origen en el cl asico libro de Seber.
Por ultimo, este libro ha sido escrito mediante el procesador de textos cientco L
A
T
E
X y
presentado en formato electr onico. Gracias a ello este libro puede actualizarse con relativa
facilidad. Se agradecer a cualquier la comunicaci on de cualquier errata, error o sugerencia.
Barcelona, 19 de diciembre de 2003.
Dr. Francesc Carmona
Indice general
1. Las condiciones 9
1.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4. El metodo de los mnimos cuadrados . . . . . . . . . . . . . . . . . . . . 13
1.5. Las condiciones de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . 14
1.6. Otros tipos de modelos lineales . . . . . . . . . . . . . . . . . . . . . . . 16
1.7. Algunas preguntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2. Estimaci on 22
2.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2. El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3. Suposiciones b asicas del modelo lineal . . . . . . . . . . . . . . . . . . . . 25
2.4. Estimaci on de los par ametros . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5. Estimaci on de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6. Distribuciones de los estimadores . . . . . . . . . . . . . . . . . . . . . . 32
2.7. Matriz de dise no reducida . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8. Matrices de dise no de rango no m aximo . . . . . . . . . . . . . . . . . . . 36
2.8.1. Reducci on a un modelo de rango m aximo . . . . . . . . . . . . . . 37
2.8.2. Imposici on de restricciones . . . . . . . . . . . . . . . . . . . . . . 37
2.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3. Funciones parametricas estimables 41
3.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3. Varianza de la estimaci on y multicolinealidad . . . . . . . . . . . . . . . 46
3.4. Sistemas de funciones parametricas estimables . . . . . . . . . . . . . . . 48
3.5. Intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4
4. Complementos de estimaci on 55
4.1. Ampliar un modelo con m as variables regresoras . . . . . . . . . . . . . . 55
4.1.1. Una variable extra . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.2. Una interpretaci on . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.3. M as variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2. Mnimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . . . 60
4.3. Otros metodos de estimaci on . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.1. Estimaci on sesgada . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.2. Estimaci on robusta . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.3. M as posibilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5. Contraste de hip otesis lineales 67
5.1. Hip otesis lineales contrastables . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2. El modelo lineal de la hip otesis . . . . . . . . . . . . . . . . . . . . . . . 68
5.3. Teorema fundamental del An alisis de la Varianza . . . . . . . . . . . . . 71
5.3.1. Un contraste m as general . . . . . . . . . . . . . . . . . . . . . . . 78
5.3.2. Test de la raz on de verosimilitud . . . . . . . . . . . . . . . . . . 80
5.4. Cuando el test es signicativo . . . . . . . . . . . . . . . . . . . . . . . . 81
5.5. Contraste de hip otesis sobre funciones parametricas estimables . . . . . . 81
5.6. Elecci on entre dos modelos lineales . . . . . . . . . . . . . . . . . . . . . 82
5.6.1. Sobre los modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.6.2. Contraste de modelos . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.7. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6. Regresi on lineal simple 91
6.1. Estimaci on de los coecientes de regresi on . . . . . . . . . . . . . . . . . 91
6.2. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.3. Inferencia sobre los par ametros de regresi on . . . . . . . . . . . . . . . . 96
6.3.1. Hip otesis sobre la pendiente . . . . . . . . . . . . . . . . . . . . . 96
6.3.2. Hip otesis sobre el punto de intercepci on . . . . . . . . . . . . . . 97
6.3.3. Intervalos de conanza para los par ametros . . . . . . . . . . . . . 98
6.3.4. Intervalo para la respuesta media . . . . . . . . . . . . . . . . . . 98
6.3.5. Predicci on de nuevas observaciones . . . . . . . . . . . . . . . . . 99
6.3.6. Regi on de conanza y intervalos de conanza simult aneos . . . . . 100
6.4. Regresi on pasando por el origen . . . . . . . . . . . . . . . . . . . . . . . 100
6.5. Correlaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.6. Car acter lineal de la regresi on simple . . . . . . . . . . . . . . . . . . . . 102
6.7. Comparaci on de rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.7.1. Dos rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.7.2. Varias rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5
6.7.3. Contraste para la igualdad de varianzas . . . . . . . . . . . . . . . 113
6.8. Un ejemplo para la reexi on . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.9. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7. Una recta resistente 123
7.1. Recta resistente de los tres grupos . . . . . . . . . . . . . . . . . . . . . . 123
7.1.1. Formaci on de los tres grupos . . . . . . . . . . . . . . . . . . . . . 123
7.1.2. Pendiente e intercepci on . . . . . . . . . . . . . . . . . . . . . . . 124
7.1.3. Ajuste de los residuos e iteraciones . . . . . . . . . . . . . . . . . 125
7.1.4. Mejora del metodo de ajuste . . . . . . . . . . . . . . . . . . . . . 129
7.2. Metodos que dividen los datos en grupos . . . . . . . . . . . . . . . . . . 131
7.3. Metodos que ofrecen resistencia . . . . . . . . . . . . . . . . . . . . . . . 132
7.3.1. Discusi on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
8. Regresi on lineal m ultiple 135
8.1. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.2. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
8.3. Inferencia sobre los coecientes de regresi on . . . . . . . . . . . . . . . . 139
8.4. Coecientes de regresi on estandarizados . . . . . . . . . . . . . . . . . . . 144
8.5. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
8.6. Regresi on polin omica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
8.6.1. Polinomios ortogonales . . . . . . . . . . . . . . . . . . . . . . . . 150
8.6.2. Elecci on del grado . . . . . . . . . . . . . . . . . . . . . . . . . . 152
8.7. Comparaci on de curvas experimentales . . . . . . . . . . . . . . . . . . . 155
8.7.1. Comparaci on global . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.7.2. Test de paralelismo . . . . . . . . . . . . . . . . . . . . . . . . . . 156
8.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
8.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
9. Diagnosis del modelo 165
9.1. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
9.1.1. Estandarizaci on interna . . . . . . . . . . . . . . . . . . . . . . . 165
9.1.2. Estandarizaci on externa . . . . . . . . . . . . . . . . . . . . . . . 167
9.1.3. Gr acos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
9.2. Diagn ostico de la inuencia . . . . . . . . . . . . . . . . . . . . . . . . . 171
9.2.1. Nivel de un punto . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
9.2.2. Inuencia en los coecientes de regresi on . . . . . . . . . . . . . . 172
9.2.3. Inuencia en las predicciones . . . . . . . . . . . . . . . . . . . . . 173
9.3. Selecci on de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
9.3.1. Coeciente de determinaci on ajustado . . . . . . . . . . . . . . . 174
9.3.2. Criterio C
P
de Mallows . . . . . . . . . . . . . . . . . . . . . . . . 174
6
9.3.3. Selecci on paso a paso . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.4. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
10.Analisis de la Varianza 179
10.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
10.2. Dise no de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
10.2.1. Comparaci on de medias . . . . . . . . . . . . . . . . . . . . . . . 181
10.2.2. Un modelo equivalente . . . . . . . . . . . . . . . . . . . . . . . . 183
10.3. Dise no de dos factores sin interacci on . . . . . . . . . . . . . . . . . . . . 186
10.4. Dise no de dos factores con interacci on . . . . . . . . . . . . . . . . . . . . 193
10.5. Descomposici on ortogonal de la variabilidad . . . . . . . . . . . . . . . . 199
10.5.1. Descomposici on de la variabilidad en algunos dise nos . . . . . . . 202
10.5.2. Estimaci on de par ametros y c alculo del residuo . . . . . . . . . . 204
10.6. Diagnosis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
10.7. Dise nos no balanceados y observaciones faltantes . . . . . . . . . . . . . . 208
10.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
10.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
11.Analisis de Componentes de la Varianza 220
11.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
11.2. Contraste de hip otesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
11.2.1. Los test F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
11.2.2. Estimaci on de los componentes de la varianza . . . . . . . . . . . 225
11.3. Comparaci on entre modelos de efectos jos y modelos de efectos aleatorios 225
11.3.1. Dise no de un factor con efectos jos . . . . . . . . . . . . . . . . . 226
11.3.2. Dise no de un factor con efectos aleatorios . . . . . . . . . . . . . . 228
11.3.3. Dise no de dos factores sin interacci on con efectos jos o dise no en
bloques al azar completos . . . . . . . . . . . . . . . . . . . . . . 233
11.3.4. Dise no de dos factores sin interacci on con efectos aleatorios . . . . 236
11.3.5. Dise no de dos factores aleatorios con interacci on . . . . . . . . . . 238
11.3.6. Dise no de tres factores aleatorios y replicas . . . . . . . . . . . . . 239
11.3.7. Dise no anidado de dos factores aleatorios . . . . . . . . . . . . . . 240
11.3.8. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
11.4. Correlaci on intracl asica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
11.5. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
11.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
A. Matrices 249
A.1. Inversa generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
A.2. Derivaci on matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
A.3. Matrices idempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
A.4. Matrices mal condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 251
7
B. Proyecciones ortogonales 252
B.1. Descomposici on ortogonal de vectores . . . . . . . . . . . . . . . . . . . . 252
B.2. Proyecciones en subespacios . . . . . . . . . . . . . . . . . . . . . . . . . 254
C. Estadstica multivariante 255
C.1. Esperanza, varianza y covarianza . . . . . . . . . . . . . . . . . . . . . . 255
C.2. Normal multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
8
Captulo 1
Las condiciones
1.1. Introducci on
Los metodos de la Matem atica que estudian los fen omenos deterministas relacionan, por
lo general, una variable dependiente con diversas variables independientes. El problema se
reduce entonces a resolver un sistema lineal, una ecuaci on diferencial, un sistema no lineal,
etc.. Sin embargo, la aplicaci on de los metodos cuantitativos a las Ciencias Experimentales
ha revelado la poca abilidad de las relaciones deterministas. En tales Ciencias, el azar,
la aleatoriedad, la variabilidad individual, las variables no controladas, etc. justican el
planteo, en terminos muy generales, de la ecuaci on fundamental
observaci on = modelo + error aleatorio
El experimentador puede, jando las condiciones de su experimento, especicar la estruc-
tura del modelo, pero siempre debe tener en cuenta el error aleatorio o desviaci on entre
lo que observa y lo que espera observar seg un el modelo.
Los modelos de regresi on utilizan la ecuaci on anterior jando el modelo como una funci on
lineal de unos par ametros. El objetivo consiste, casi siempre, en la predicci on de valores
mediante el modelo ajustado.
El An alisis de la Varianza es un metodo estadstico introducido por R.A. Fisher de gran
utilidad en las Ciencias Experimentales, que permite controlar diferentes variables cua-
litativas y cuantitativas (llamadas factores), a traves de un modelo lineal, suponiendo
normalidad para el error aleatorio. Fisher(1938) deni o este metodo como la separaci on
de la varianza atribuible a un grupo de la varianza atribuible a otros grupos. Como
veremos, los tests en An alisis de la Varianza se construyen mediante estimaciones inde-
pendientes de la varianza del error.
Ambos conjuntos de modelos se pueden abordar con una teora com un: los modelos li-
neales.
Iniciaremos este captulo con un ejemplo de modelizaci on de un problema y su aplicaci on
pr actica. A continuaci on explicaremos en que consiste esencialmente el metodo de los
mnimos cuadrados y estableceremos las condiciones para que este metodo sea v alido
para su utilizaci on en Estadstica.
9
1.2. Un ejemplo
En el libro de Sen and Srivastava en [66, p ag. 2] se explica este ejemplo que nosotros
hemos adaptado a las medidas europeas.
Sabemos que cuantos m as coches circulan por una carretera, menor es la velocidad del
tr aco. El estudio de este problema tiene como objetivo la mejora del transporte y la
reducci on del tiempo de viaje.
La tabla adjunta proporciona los datos de la densidad (en vehculos por km) y su corres-
pondiente velocidad (en km por hora).
Dato Densidad Velocidad Dato Densidad Velocidad
1 12,7 62,4 13 18,3 51,2
2 17,0 50,7 14 19,1 50,8
3 66,0 17,1 15 16,5 54,7
4 50,0 25,9 16 22,2 46,5
5 87,8 12,4 17 18,6 46,3
6 81,4 13,4 18 66,0 16,9
7 75,6 13,7 19 60,3 19,8
8 66,2 17,9 20 56,0 21,2
9 81,1 13,8 21 66,3 18,3
10 62,8 17,9 22 61,7 18,0
11 77,0 15,8 23 66,6 16,6
12 89,6 12,6 24 67,8 18,3
Cuadro 1.1: Datos del problema de tr aco
Como la congesti on afecta a la velocidad, estamos interesados en determinar el efecto
de la densidad en la velocidad. Por razones que explicaremos m as adelante (ver ejercicio
9.2), tomaremos como variable dependiente la raz cuadrada de la velocidad.
El gr aco 1.1 presenta la nube de puntos o diagrama de dispersi on (scatter plot) con
la variable independiente (densidad) en el eje horizontal y la variable dependiente (raz
cuadrada de la velocidad) en el eje vertical.
Grfico de dispersin
0
2
4
6
8
10
0 20 40 60 80 100
densidad
R
A
I
Z
(
v
e
l
)
Figura 1.1: Nube de puntos del problema de tr aco
10
Como primera aproximaci on podramos tomar, como modelo de ajuste, la recta que une
dos puntos representativos, por ejemplo, los puntos (12, 7,
62, 4) y (87, 8,
12, 4). Dicha

recta es y = 8, 6397 0, 0583x.
Inmediatamente nos proponemos hallar la mejor de las rectas, seg un alg un criterio. Como
veremos, el metodo de los mnimos cuadrados proporciona una recta, llamada recta de
regresi on, que goza de muy buenas propiedades. Este metodo consiste en hallar a y b tales
que se minimice la suma de los errores al cuadrado.
n
i=1
(y
i
(a +bx
i
))
2
En este caso la recta de regresi on es y = 8, 0898 0, 0566x.
Para estudiar la bondad del ajuste se utilizan los residuos
e
i
= y
i
y
i
donde y
i
= 8, 0898 0, 0566x
i
. Los gr acos de la gura 1.2 nos muestran estos residuos.
Para mejorar el modelo podemos a nadir el termino cuadr atico y considerar el modelo
parab olico
y
i
= a +bx
i
+cx
2
i
Tambien aqu, el metodo de los mnimos cuadrados proporciona un ajuste que es optimo
en varios aspectos. Se trata de hallar los valores de a, b y c que minimizan la suma de los
errores al cuadrado
n
i=1
(y
i
(a +bx
i
+cx
2
i
))
2
El c alculo de estos valores con los datos del tr aco se deja como ejercicio (ver ejercicio
1.3).
La gura 1.3 muestra los gr acos de los residuos para el modelo parab olico.
Finalmente, podemos utilizar el modelo concreto que hemos obtenido para sustituir la
velocidad en la ecuaci on
ujo = velocidad densidad
de modo que el ujo queda en funci on de la densidad. Por ultimo, el m aximo valor de
esta funci on es la capacidad de la carretera.
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0 20 40 60 80 100
densidad
r
e
s
i
d
u
o
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
2 3 4 5 6 7 8
prediccin
r
e
s
i
d
u
o
Figura 1.2: Gr acos de los residuos del modelo recta de regresi on.
11
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0 20 40 60 80 100
densidad
r
e
s
i
d
u
o
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
2 3 4 5 6 7 8
prediccin
r
e
s
i
d
u
o
Figura 1.3: Gr acos de los residuos del modelo parab olico.
1.3. El modelo
Cuando en el ejemplo anterior ajustamos los datos a una recta, implcitamente estamos
asumiendo la hip otesis de que los datos siguen un patr on lineal subyacente del tipo
y =
0
+
1
x
Pero el ajuste no es perfecto y contiene errores. La ecuaci on que dene el modelo es
y
i
=
0
+
1
x
i
+
i
i = 1, . . . , n
donde
i
son los errores aleatorios.

Este es el modelo de regresi on simple o con una sola
variable independiente.
En el mismo ejemplo anterior, ajustamos mejor con el modelo
y
i
=
0
+
1
x
i
+
2
x
2
i
+
i
i = 1, . . . , n
que contin ua siendo un modelo lineal.
Un modelo es lineal si lo es para los par ametros. Por ejemplo, el modelo ln y
i
=
0
+
1
ln(x
i
) +
i
es lineal, mientras que y
i
=
0
exp(
1
x
i
)
i
no.
En general, suponemos que una cierta variable aleatoria Y es igual a un valor jo m as
una desviaci on aleatoria
Y = +
representa la verdadera medida de la variable, es decir, la parte determinista de un
experimento, que depende de ciertos factores cualitativos y variables cuantitativas que
son controlables por el experimentador.
El termino representa el error. Es la parte del modelo no controlable por el experi-
mentador debido a m ultiples causas aleatorias, inevitables en los datos que proceden de
la Biologa, Psicologa, Economa, Medicina,. . . El error convierte la relaci on matem ati-
ca Y = en la relaci on estadstica Y = + , obligando a tratar el modelo desde la
perspectiva del an alisis estadstico.
En particular, los modelos de la forma
y
i
=
0
+
1
x
i1
+
2
x
i2
+ +
k
x
ik
+
i
i = 1, . . . , n
con k > 1 variables independientes, predictoras o regresoras, se llaman modelos de regre-
si on m ultiple. La variable cuyos datos observados son y
i
es la llamada variable dependiente
o respuesta.
12
Los par ametros
j
son desconocidos y nuestro objetivo principal es su estimaci on. En
cuanto a los errores
i
, su c alculo explcito nos permitir a, como veremos extensamente, la
evaluaci on del modelo.
Observaci on:
En el modelo de regresi on simple puede suceder que los datos x
i
i = 1, . . . , n correspondan
a los valores observados de una v.a. X o de una variable controlada no aleatoria. En
cualquier caso, vamos a considerar los valores x
i
como constantes y no como observaciones
de una variable aleatoria.
En la regresi on simple
Y = (x) +
donde Y es aleatoria y es aleatoria con E() = 0. De manera que, para cada valor
X = x, Y es una v.a. con esperanza (x). Si asumimos
(x) = E[Y [X = x] =
0
+
1
x
podemos proceder considerando las inferencias como condicionadas a los valores observa-
dos de X.
En cualquier caso, tambien en regresi on m ultiple, vamos a considerar los valores de las
variables regresoras X
1
, . . . , X
k
como simplemente n umeros.
1.4. El metodo de los mnimos cuadrados
La paternidad de este metodo se reparte entre Legendre que lo public o en 1805 y Gauss
que lo utiliz o en 1795 y lo public o en 1809.
Obviamente, cuanto menores son los residuos, mejor es el ajuste. De todos los posibles
valores de los
j
, el metodo de los mnimos cuadrados selecciona aquellos que minimizan
S =
n
i=1
2
i
=
n
i=1
(y
i
(
0
+
1
x
i1
+ +
k
x
ik
))
2
En el caso de la regresi on lineal simple
S =
n
i=1
2
i
=
n
i=1
(y
i
1
x
i
)
2
de modo que derivando e igualando a cero, se obtienen los estimadores MC (mnimo-
cuadr aticos) o LS (least squares)
0
= y

1
x
1
=
s
xy
s
2
x
=
n
i=1
(y
i
y)(x
i
x)
n
i=1
(x
i
x)
2
Tambien se puede considerar el modelo centrado, que consiste en centrar los datos de la
variable regresora
y
i
=
0
+
1
(x
i
x) +
i
i = 1, . . . , n
La estimaci on MC de
0
,
1
es equivalente a la estimaci on de
0
,
1
, ya que
0
=
0
+
1
x.
De modo que
0
= y y la estimaci on de
1
es la misma que en el modelo anterior.
13
Con las estimaciones de los par ametros, podemos proceder al c alculo de predicciones y
i
y residuos e
i
y
i
=

0
+

1
x
i
= y +

1
(x
i
x)
e
i
= y
i
y
i
= y
i
y

1
(x
i
x)
Como consecuencia resulta que
n
i=1
e
i
= 0
lo que no ocurre en un modelo sin
0
.
Finalmente, si queremos una medida del ajuste de la regresi on podemos pensar en la
suma de cuadrados
n
i=1
e
2
i
, pero es una medida que depende de las unidades de y
i
al
cuadrado. Si
0
,= 0, la medida que se utiliza es el coeciente de determinaci on
R
2
= 1
n
i=1
e
2
i
n
i=1
(y
i
y)
2
Sabemos que 0 R
2
1 y cuando R
2
1 el ajuste es bueno.
En el caso
0
= 0, el coeciente de determinaci on es
R
2
= 1
n
i=1
e
2
i
n
i=1
y
2
i
de modo que los modelos que carecen de termino independiente no se pueden comparar
con los que s lo tienen.
1.5. Las condiciones de Gauss-Markov
Hasta aqu, el metodo de los mnimos cuadrados es analtico d onde est a la estadstica?
A lo largo de los siguientes captulos vamos a ver que un modelo estadstico y la imposici on
de algunas condiciones, hacen que podamos utilizar el modelo con toda la potencia de los
metodos estadsticos y calibrar la bondad del ajuste desde esa optica.
Una primera pregunta es que tan bueno es el metodo de los mnimos cuadrados para
estimar los par ametros? La respuesta es que este metodo proporciona un buen ajuste y
buenas predicciones si se verican las condiciones de Gauss-Markov.
En el modelo lineal que hemos denido anteriormente, se supone que los errores
i
son
desviaciones que se comportan como variables aleatorias. Vamos a exigir que estos errores
aleatorios veriquen las siguientes condiciones:
1. E(
i
) = 0 i = 1, . . . , n
2. var(
i
) =
2
i = 1, . . . , n
3. E(
i

j
) = 0 i ,= j
Veamos con detalle estas condiciones:
14
Primera condici on E(
i
) = 0 i = 1, . . . , n
Se trata de una condici on natural sobre un error.
De este modo nos aseguramos que E(y
i
) =
0
+
1
x
i
, el
modelo lineal es correcto y la situaci on que representa
el gr aco no se puede dar.
Segunda condici on var(
i
) = E(
2
i
) =
2
constante i = 1, . . . , n
Es la propiedad de homocedasticidad.
En el gr aco se representa una situaci on an omala lla-
mada de heterocedasticidad, en la que la var(
i
) crece
con x
i
.
El par ametro desconocido
2
es la llamada varianza
del modelo.
Otras situaciones extra nas, que tambien se pretende prevenir, son:
I El punto I del gr aco representa un punto inuyente y
atpico (outlier). En general es un punto a estudiar, un
error o incluso una violaci on de la primera condici on.
I
El punto I del gr aco es claramente inuyente, aunque
no es atpico (outlier), ya que proporciona un residuo
peque no.
Tercera condici on E(
i
j
) = 0 i ,= j
Las observaciones deben ser incorrelacionadas. Con dos puntos tenemos una recta de
regresi on. Con 20 copias de esos dos puntos, tenemos 40 puntos y la misma recta, poco
able.
15
Tales condiciones pueden expresarse en forma matricial como
E() = 0 var() =
2
I
n
donde E() es el vector de esperanzas matem aticas y var() es la matriz de covarianzas
de = (
1
, . . . ,
n
)
.
Como demostraremos en los siguientes captulos, la adopci on de estas condiciones evi-
tar a te oricamente las situaciones an omalas que aqu hemos esquematizado.
1.6. Otros tipos de modelos lineales
Por suerte, con el mismo tratamiento podremos resolver otros modelos lineales, que aun-
que tienen diferentes objetivos, gozan de las mismas bases te oricas.
Por ejemplo, el An alisis de la Varianza con un factor (one-way Analysis of Variance),
representado por el modelo lineal
y
ij
= +
i
+
ij
con
ij
N(0,
2
) indep.,
se resuelve de forma similar al modelo de regresi on.
El An alisis de la Covarianza, que utiliza como variables independientes tanto variables
cuantitativas como factores, y el An alisis Multivariante de la Varianza, con varias variables
dependientes, son dos de los an alisis que generalizan el estudio y aplicaciones de los
modelos lineales que vamos a investigar.
1.7. Algunas preguntas
Un tpico problema de estadstica consiste en estudiar la relaci on que existe, si existe,
entre dos variables aleatorias X e Y . Por ejemplo, altura y peso, edad del hombre y la
mujer en una pareja, longitud y anchura de unas hojas, temperatura y presi on de un
determinado volumen de gas.
Si tenemos n pares de observaciones (x
i
, y
i
) i = 1, 2, . . . , n, podemos dibujar estos puntos
en un gr aco o scatter diagram y tratar de ajustar una curva a los puntos de forma que
los puntos se hallen lo m as cerca posible de la curva. No podemos esperar un ajuste
perfecto porque ambas variables est an expuestas a uctuaciones al azar debido a factores
incontrolables. Incluso aunque en algunos casos pudiera existir una relaci on exacta entre
variables fsicas como temperatura y presi on, tambien apareceran uctuaciones debidas
a errores de medida.
Algunas cuestiones que podemos plantearnos en nuestras investigaciones son:
Si existe un modelo fsico te orico y lineal, podemos utilizar la regresi on para estimar
los par ametros.
Si el modelo te orico no es lineal, se puede, en muchos casos, transformar en lineal.
Por ejemplo:
PV
= c log P = log c log V

Si no es una recta, se puede estudiar un modelo de regresi on polin omico. De
que grado?
16
En el modelo m ultiple intervienen varias variables predictoras son todas necesa-
rias? son linealmente independientes las llamadas variables independientes?
Se verican realmente las condiciones de Gauss-Markov?
Que ocurre si las variables predictoras son discretas?
Que ocurre si la variable dependiente es discreta o una proporci on?
Y si faltan algunos datos?
Que hacemos con los puntos atpicos y los puntos inuyentes?
Algunas de estas preguntas las iremos trabajando y resolviendo en los siguientes captulos,
otras pueden quedar para una posterior profundizaci on.
1.8. Ejemplos con R
En esta secci on vamos a ver como se calculan las regresiones que se han sugerido a partir
del ejemplo inicial con los datos de la tabla 1.1.
En primer lugar procedemos a introducir los datos en los vectores correspondientes.
> dens<-c(12.7,17.0,66.0,50.0,87.8,81.4,75.6,66.2,81.1,62.8,77.0,89.6,
+ 18.3,19.1,16.5,22.2,18.6,66.0,60.3,56.0,66.3,61.7,66.6,67.8)
> vel<-c(62.4,50.7,17.1,25.9,12.4,13.4,13.7,17.9,13.8,17.9,15.8,12.6,
+ 51.2,50.8,54.7,46.5,46.3,16.9,19.8,21.2,18.3,18.0,16.6,18.3)
> rvel<-sqrt(vel)
Las siguientes instrucciones generan el gr aco de puntos para estos datos.
> par(pty="m")
> plot(dens,rvel,type="p",xlab="densidad",ylab="RAIZ(vel)")
El c alculo de la regresi on simple se realiza con la funci on lsfit(x,y) que asignamos al
objeto recta.ls
> recta.ls<-lsfit(dens,rvel)
Aunque esta ultima instrucci on no muestra ninguna informaci on en pantalla, ahora ya
podemos utilizar su resultado. Por ejemplo, podemos a nadir la recta de regresi on al gr aco
anterior.
> abline(recta.ls)
Los coecientes de la recta son:
> recta.ls$coef
Intercept X
8.08981299 -0.05662558
Tambien se puede obtener una informaci on m as completa con la instrucci on ls.print,
aunque su resultado no se explicar a hasta el captulo correspondiente.
17
> ls.print(recta.ls, digits=4, print.it=T)
Residual Standard Error=0.2689
R-Square=0.9685
F-statistic (df=1, 22)=676.3944
p-value=0
Estimate Std.Err t-value Pr(>|t|)
Intercept 8.0898 0.1306 61.9295 0
X -0.0566 0.0022 -26.0076 0
La estimaci on de la desviaci on est andar de los errores y otros elementos de diagnosis del
modelo se obtienen con la funci on ls.diag como
> ls.diag(recta.ls)$std.dev
[1] 0.2689388
Con el vector de residuos y las predicciones se pueden dibujar unos gr acos similares a
los de la gura 1.2. La instrucci on par(mfrow=c(1,2)) permite dos gr acos en la misma
gura.
> e<-recta.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicci on",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
Finalmente, podemos repetir los c alculos para el modelo parab olico. Simplemente debe-
mos introducir los valores de la variable densidad y sus cuadrados en una matriz de datos.
El resto es identico al modelo de regresi on simple.
> matriz.frame<-data.frame(dens,dens^2)
> parabola.ls<-lsfit(matriz.frame,rvel)
> parabola.ls$coef
Intercept dens dens.2
8.8814208199 -0.1035152795 0.0004892585
> round(parabola.ls$coef,5)
Intercept dens dens.2
8.88142 -0.10352 0.00049
> e<-parabola.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicci on",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
18
Los gr acos ser an muy similares a los de la gura 1.3.
En los siguientes captulos veremos otras instrucciones de R, en especial la funci on lm,
que permiten ajustar un modelo de regresi on a unos datos.
19
1.9. Ejercicios
Ejercicio 1.1
Hallar las estimaciones de los par ametros en un modelo de regresi on lineal simple, mini-
mizando la suma de los cuadrados de los errores:
S =
n
i=1
(y
i
1
x
i
)
2
Hallar una expresi on para las predicciones y
i
y los residuos e
i
= y
i
y
i
.
Ejercicio 1.2
Hallar las estimaciones de los par ametros en un modelo de regresi on parab olico, minimi-
zando la suma de los cuadrados de los errores:
S =
n
i=1
(y
i
1
x
i
2
x
2
i
)
2
Hallar una expresi on para las predicciones y
i
y los residuos e
i
= y
i
y
i
.
Ejercicio 1.3
Consideremos el problema de tr aco planteado en el apartado 1.2 de este captulo, con la
variable independiente densidad y la variable dependiente raz cuadrada de la velocidad.
Con los datos proporcionados en la tabla 1.1 realizar el siguiente proceso:
(a) Dibujar la nube de puntos y la recta que pasa por los puntos (12,7,
62,4) y
(87,8,
12,4). Dibujar el gr aco de los residuos con la densidad y el gr aco con

las predicciones. Calcular la suma de cuadrados de los residuos.
(b) Hallar la recta de regresi on simple. Dibujar el gr aco de los residuos con la densidad
y el gr aco con las predicciones. Calcular la suma de cuadrados de los residuos.
(c) Mejorar el modelo anterior considerando una regresi on parab olica. Dibujar el gr aco
de los residuos con la densidad y el gr aco con las predicciones. Calcular la suma
de cuadrados de los residuos.
(d) Calcular la capacidad de la carretera o punto de m aximo ujo. Recordar que ujo =
vel densidad.
Ejercicio 1.4
La siguiente tabla contiene los mejores tiempos conseguidos en algunas pruebas de velo-
cidad en atletismo en los Juegos Olmpicos de Atlanta:
hombres mujeres
distancia tiempo
100 9,84 10,94
200 19,32 22,12
400 43,19 48,25
800 102,58 117,73
1500 215,78 240,83
5000 787,96 899,88
10000 1627,34 1861,63
42192 7956,00 8765,00
20
Si tomamos como variable regresora o independiente la distancia (metros) y como variable
respuesta o dependiente el tiempo (segundos):
(a) Calcular la recta de regresi on simple con los datos de los hombres y dibujarla.
Dibujar el gr aco de los residuos con la distancia y el gr aco con las predicciones.
Calcular la suma de cuadrados de los residuos y el R
2
.
(b) Repetir el apartado anterior utilizando los logaritmos de las variables tiempo y
distancia.
(c) Repetir los dos apartados anteriores utilizando los datos de las mujeres.
21
Captulo 2
Estimaci on
2.1. Introducci on
En primer lugar concretaremos la denici on general de un modelo lineal y hallaremos la
estimaci on por mnimos cuadrados de los par ametros del modelo.
Veremos que la estimaci on ser a unica si la matriz de dise no es de rango m aximo. En
caso contrario, resulta importante denir el concepto de funci on parametrica estimable
y probar, para estas funciones, la unicidad del estimador mnimo-cuadr atico, como estu-
diaremos en el siguiente captulo.
Estudiaremos las propiedades de estos estimadores, entre las que destacaremos el Teorema
de Gauss-Markov que demuestra que los estimadores mnimo-cuadr aticos son los mejores,
en el sentido de que son insesgados y de mnima varianza.
Adem as, con la introducci on de la hip otesis de normalidad de los errores, podremos
estudiar las distribuciones de los estimadores y de otros estadsticos, as como la relaci on
con los estimadores de m axima verosimilitud.
M as adelante, trabajaremos la generalizaci on del metodo de los mnimos cuadrados cuan-
do la matriz de varianzas-covarianzas de los errores no es
2
I. Por otra parte, tambien
profundizaremos el caso de matrices de dise no de rango no m aximo.
2.2. El modelo lineal
Sea Y una variable aleatoria que uct ua alrededor de un valor desconocido , esto es
Y = +
donde es el error, de forma que puede representar el valor verdadero e Y el valor
observado.
Supongamos que toma valores distintos de acuerdo con diferentes situaciones experi-
mentales seg un el modelo lineal
=
1
x
1
+ +
m
x
m
donde
i
son par ametros desconocidos y x
i
son valores conocidos, cada uno de los cuales
ilustra situaciones experimentales diferentes.
22
En general se tienen n observaciones de la variable Y . Diremos que y
1
, y
2
, . . . , y
n
obser-
vaciones independientes de Y siguen un modelo lineal si
y
i
= x
i1
1
+ +x
im
m
+
i
i = 1, . . . , n
Estas observaciones de Y se pueden considerar variables aleatorias independientes y dis-
tribuidas como Y (son copias) o tambien realizaciones concretas (valores numericos) para
los c alculos.
La expresi on del modelo lineal en forma matricial es
_
_
_
_
_
y
1
y
2
.
.
.
y
n
_
_
_
_
_
=
_
_
_
_
_
x
11
x
12
. . . x
1m
x
21
x
22
. . . x
2m
.
.
.
.
.
.
.
.
.
x
n1
x
n2
. . . x
nm
_
_
_
_
_
_
_
_
_
_
2
.
.
.
m
_
_
_
_
_
+
_
_
_
_
_
2
.
.
.
n
_
_
_
_
_
o en forma resumida
Y = X + (2.1)
Los elementos que constituyen el modelo lineal son:
1. El vector de observaciones Y = (y
1
, y
2
, . . . , y
n
)
.
2. El vector de par ametros = (
1
,
2
, ,
m
)
.
3. La matriz del modelo
X =
_
_
_
_
_
x
11
x
12
. . . x
1m
x
21
x
22
. . . x
2m
.
.
.
.
.
.
.
.
.
x
n1
x
n2
. . . x
nm
_
_
_
_
_
cuyos elementos son conocidos.
En problemas de regresi on, X es la matriz de regresi on. En los llamados dise nos
factoriales del An alisis de la Varianza, X recibe el nombre de matriz de dise no.
4. El vector de errores o desviaciones aleatorias = (
1
,
2
, . . . ,
n
)
, donde
i
es la
desviaci on aleatoria de y
i
.
Ejemplo 2.2.1
El modelo lineal m as simple consiste en relacionar una variable aleatoria Y con una
variable controlable x (no aleatoria), de modo que las observaciones de Y veriquen
y
i
=
0
+
1
x
i
+
i
i = 1, . . . , n
Se dice que Y es la variable de predicci on o dependiente y x es la variable predictora,
por ejemplo Y es la respuesta de un f armaco a una dosis x. Hallar
0
y
1
es el cl asico
problema de regresi on lineal simple.
Ejemplo 2.2.2
El modelo anterior se puede generalizar a situaciones en las cuales la relaci on sea po-
lin omica.
23
Consideremos el modelo
y
i
=
0
+
1
x
i
+
2
x
2
i
+ +
p
x
p
i
+ i = 1, . . . , n
Observemos que es lineal en los par ametros
i
. La matriz de dise no es
_
_
_
_
_
1 x
1
. . . x
p
1
1 x
2
. . . x
p
2
.
.
.
.
.
.
.
.
.
1 x
n
. . . x
p
n
_
_
_
_
_
Ejemplo 2.2.3
En general, cualquier variable Y puede relacionarse con dos o m as variables control. As,
son modelos lineales:
a) y
i
=
0
+
1
x
i1
+
2
x
i2
+
i
b) y
i
=
0
+
1
x
i1
+
2
x
i2
+
3
x
i1
x
i2
+
4
x
2
i1
+
5
x
2
i2
+
i
c) y
i
=
0
+
1
x
i1
+
2
cos(x
i2
) +
3
sen(x
i2
) +
i
Sin embargo, no es modelo lineal
y
i
=
0
+
1
log(
2
x
i1
) +
3
x
4
i2
+
i
Ejemplo 2.2.4
Supongamos que la producci on Y de una planta depende de un factor F (fertilizante) y
un factor B (bloque o conjunto de parcelas homogeneas). El llamado modelo del dise no
del factor en bloques aleatorizados es
y
ij
= +
i
+
j
+
ij
donde
es una constante (media general)
i
el efecto del fertilizante
j
el efecto del bloque
Si tenemos 2 fertilizantes y 3 bloques, tendremos en total k = 2 3 = 6 situaciones
experimentales y la siguiente matriz de dise no:

1

2

1

2

3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1
La utilizaci on del fertilizante 1 en el bloque 3 queda descrita a traves de la la 5 de X.
24
Ejemplo 2.2.5
Para predecir la capacidad craneal C, en Antropologa se utiliza la f ormula
C = L
1
A
2
H
3
donde L = longitud del cr aneo, A = anchura parietal m axima y H = altura basio bregma.
La f ormula anterior se convierte en un modelo lineal tomando logaritmos
log C = log +
1
log L +
2
log A +
3
log H
El par ametro expresa el tama no, mientras que los par ametros expresan la forma del
cr aneo.
2.3. Suposiciones basicas del modelo lineal
En el modelo lineal denido en el apartado anterior, se supone que los errores
i
son
desviaciones que se comportan como variables aleatorias que verican las condiciones de
Gauss-Markov:
1. E(
i
) = 0 i = 1, . . . , n
2. var(
i
) =
2
i = 1, . . . , n
3. E(
i

j
) = 0 i ,= j
Como sabemos, la condici on (2) es la llamada condici on de homocedasticidad del modelo y
el par ametro desconocido
2
es la llamada varianza del modelo. La condici on (3) signica
que las n desviaciones son mutuamente incorrelacionadas.
Estas condiciones pueden expresarse en forma matricial como
E() = 0 var() =
2
I
n
donde E() es el vector de esperanzas matem aticas y var() es la matriz de covarianzas
de = (
1
, . . . ,
n
)
.
Si adem as suponemos que cada
i
es N(0, ) y que
1
, . . . ,
n
son estoc asticamente inde-
pendientes, entonces diremos que el modelo denido es un modelo lineal normal. As ten-
dremos que
Y N
n
(X,
2
I
n
)
es decir, Y sigue la distribuci on normal multivariante de vector de medias X y matriz
de covarianzas
2
I
n
.
Se llama rango del dise no al rango de la matriz X
r = rango X
y es un elemento muy importante en la discusi on de los modelos. Evidentemente r m.
El valor de r es el n umero efectivo de par ametros del dise no, en el sentido de que si r < m
es posible reparametrizar el modelo para que r sea igual al n umero de par ametros. En
muchos casos el dise no verica directamente que r = m y entonces se dice que es de rango
m aximo.
El modelo lineal que verique las condiciones aqu expuestas, salvo la normalidad, diremos
que est a bajo las condiciones de Gauss-Markov ordinarias.
25
2.4. Estimaci on de los parametros
La estimaci on de los par ametros = (
1
, . . . ,
m
)
se hace con el criterio de los mnimos

cuadrados. Se trata de hallar el conjunto de valores de los par ametros

= (
1
, . . . ,
m
)
que minimicen la siguiente suma de cuadrados
= (YX)
(YX) (2.2)
=
n
i=1
(y
i
x
i1
1
x
im
m
)
2
La estimaci on

de la llamaremos estimaci on MC, abreviaci on de mnimo-cuadr atica,
o LS del ingles least squares.
Teorema 2.4.1
Toda estimaci on MC de es soluci on de la ecuaci on
X
X = X
Y (2.3)
Demostraci on:
Si desarrollamos la suma de cuadrados
tenemos
= (YX)
(YX)
= Y
Y2
Y +
X
y si derivamos matricialmente respecto a resulta
= 2X
Y + 2X
X
De modo que, si igualamos a cero, obtenemos la ecuaci on enunciada en el teorema.
Las ecuaciones 2.3 reciben el nombre de ecuaciones normales.
Si el rango es m aximo y r = m, entonces X
X tiene inversa y la unica soluci on de las

ecuaciones normales es
= (X
X)
1
X
Y
Si r < m el sistema de ecuaciones 2.3 es indeterminado y su soluci on no es unica. En
estos casos, una posibilidad (ver Apendice A) es considerar
= (X
X)
Y
donde A
= (X
X)
es una g-inversa de A = X
X, es decir, A
verica
AA
A = A
Entonces se puede demostrar que la soluci on general es
= (X
X)
Y + (I A
A)z
siendo z un vector parametrico.
26
Ahora podemos denir la suma de cuadrados residual como
SCR = e
e = (YX
(YX
)
Como veremos, SCR entendido como un estadstico funci on de la muestra Y, desempe na
un papel fundamental en el An alisis de la Varianza.
El modelo lineal Y = X +, bajo las hip otesis de Gauss-Markov, verica
E(Y) = X
Teorema 2.4.2
Sea = X) R
n
el subespacio vectorial generado por las columnas de X de dimensi on
dimX) = r = rango X.
Entonces se verica:
(i) E(Y) X)
(ii) Si

es una estimaci on MC, el vector de residuos e = YX
es ortogonal a X).
Demostraci on:
En efecto,
i) Si x
(1)
, . . . , x
(m)
son las columnas de X, entonces
E(Y) = x
(1)
1
+ +x
(m)
m
X)
ii) X
e = X
(YX
) = X
YX
= 0
Teorema 2.4.3
Para cualquier

soluci on MC de 2.3 se verica que
Y = X
e = Y

Y SCR = (YX
(YX
)
son unicos.
Adem as
SCR = Y
Y (2.4)
Demostraci on:
Si desarrollamos la suma de cuadrados residual SCR resulta
SCR = Y
YY
y como X
= X
Y, obtenemos
SCR = Y
Y2
Y +
Y = Y
Y
Consideremos ahora los vectores

Y
1
= X
1
y

Y
2
= X
2
, donde

1
y

2
son dos solu-
ciones MC. Entonces

Y
1
y

Y
2
pertenecen al subespacio X) generado por las columnas
de X y su diferencia

Y
1

Y
2
tambien. Por otra parte, observamos que
X
Y
1

Y
2
) = X
1
X
2
= X
YX
Y = 0
de modo que

Y
1
Y
2
pertenece al ortogonal de X). As pues, necesariamente

Y
1
Y
2
= 0
y el vector de errores e = Y

Y
1
= Y

Y
2
es unico.
En consecuencia, la suma de cuadrados de los errores SCR tambien es unica.
27
Interpretaci on geometrica
El modelo te orico es
Y = X + = + si = X
Entonces E(Y) = X = signica que el valor esperado de Y pertenece al subespacio
= X) y para estimar los par ametros debemos minimizar
= |Y|
2
con = X)
Como el vector concreto de observaciones Y se puede considerar un vector de R
n
, el
problema anterior se puede resolver en terminos geometricos. As se sabe que cuando
, |Y |
2
es mnimo para =

Y = PY, donde P es la matriz de la proyecci on
ortogonal en = X) (ver Apendice B). La estimaci on MC es equivalente a hallar la
proyecci on ortogonal

Y de Y sobre X), es decir, la norma eucldea de e = Y

Y es
mnima:
SCR = e
e = |e|
2
= |Y

Y|
2
Se comprende que cualquier otra proyecci on no ortogonal dara una soluci on menos ade-
cuada.
Y
Y e
= X)
Como e = Y

Y es ortogonal a , se verica que
X
(Y

Y) = 0 o X
Y = X
Y
donde

Y est a determinada por ser la unica proyecci on ortogonal de Y en . Cuando las
columnas de X son linealmente independientes, forman una base y existe un unico vector
tal que

Y = X
de manera que
X
Y = X
Y X
= X
Y
son las ecuaciones normales. En caso contrario, es decir, cuando las columnas de X son de-
pendientes no podemos concretar una soluci on unica para los par ametros . Sin embargo
todas las soluciones deben vericar la siguiente propiedad.
Teorema 2.4.4
es una estimaci on MC de si y s olo si X
= PY, donde P es la proyecci on ortogonal

en = X)
28
Demostraci on:
Una estimaci on

de es MC si y s olo si
(YX
(YX
) = mn
(YX)
(YX)
Sea

una estimaci on cualquiera de , entonces
(YX
(YX
) = (YPY +PYX
(YPY +PYX
)
= (YPY)
(YPY) + (YPY)
(PYX
)
+ (PYX
(YPY) + (PYX
(PYX
)
Sin embargo
(YPY)
(PYX
) = Y
(I P)PYY
(I P)X
= 0
ya que P es idempotente y adem as PX = X. De forma que
(YX
(YX
) = (YPY)
(YPY) + (PYX
(PYX
)
donde ambos terminos son positivos, el primero no depende de

y el segundo se minimiza
si es cero, luego PY = X
.
En resumen y como ya hemos visto, la soluci on del problema se basa en la proyecci on
ortogonal sobre el subespacio que garantiza la unicidad del vector de predicciones
Y = PY y por ende del vector de residuos e = Y

Y y de la suma de cuadrados de los
residuos
SCR = e
e = (YPY)
(YPY) = Y
(I P)Y
ya que I P es idempotente (ver Apendice B).
La soluci on para los par ametros debe salir de las ecuaciones normales o de la ecuaci on
X = PY y s olo es unica cuando el rango de la matriz X es m aximo.
Ejemplo 2.4.1
Consideremos el modelo lineal con n = 3, m = 1 y r = 1
y
1
= +
1
y
2
= 2 +
2
y
3
= +
3
que en expresi on matricial escribimos
_
_
y
1
y
2
y
3
_
_
=
_
_
1
2
1
_
_
+
_
_
3
_
_
de modo que X
= (1, 2, 1).
Las ecuaciones normales son
_
1 2 1
_
_
_
1
2
1
_
_
=
_
1 2 1
_
_
_
y
1
y
2
y
3
_
_
29
es decir
6 = y
1
+ 2y
2
y
3
y la estimaci on MC de es

= (y
1
+ 2y
2
y
3
)/6.
La suma de cuadrados residual es
SCR = Y
Y = y
2
1
+y
2
2
+y
2
3
(y
1
+ 2y
2
y
3
)
2
/6
Ejemplo 2.4.2
Supongamos que se desea pesar tres objetos cuyos pesos exactos son
1
,
2
y
3
. Se
dispone de una balanza de platillos con un error de pesada que podemos considerar con
distribuci on N(0, ). Un articio para mejorar la precisi on y ahorrar pesadas consiste en
repartir los objetos en uno o en los dos platillos y anotar las sumas o diferencias de pesos:
x
1
1
+x
2
2
+x
3
3
= y
donde y es el peso observado y x
i
= 0, 1, 1.
Consideremos las siguientes pesadas:
1
+
2
+
3
= 5,53
2
+
3
= 1,72
1
+
2
3
= 0,64
1
+
2
+
3
= 5,48
2
+
3
= 1,70
A partir de estos datos, las ecuaciones normales son
_
_
_
5
1
+
2
+ 3
3
= 15,07
1
+ 5
2
3
= 8,23
3
1
2
+ 5
3
= 13,79
La estimaci on de los par ametros proporciona
1
= 1,175

2
= 1,898

3
= 2,433
y la suma de cuadrados residual es
SCR = (5,53 (
1
+

2
+

3
))
2
+ = 0,00145
2.5. Estimaci on de la varianza
La varianza de los errores del modelo lineal
2
= var(
i
) = var(y
i
) i = 1, . . . , n
es otro par ametro que debe ser estimado a partir de las observaciones de y
1
, . . . , y
n
.
30
Teorema 2.5.1
Sea Y = X + el modelo lineal con las hip otesis impuestas en la secci on 2.3. Entonces
el estadstico
1

2
= ECM = SCR/(n r)
es un estimador insesgado de la varianza
2
. En este estadstico SCR es la suma de
cuadrados residual, n el n umero total de observaciones y r el rango del dise no.
Demostraci on 1:
Las columnas x
(1)
, . . . , x
(m)
de la matriz de dise no X generan el subespacio de dimensi on
r que escribimos
X) = x
(1)
, . . . , x
(m)
)
Sea ahora V una matriz ortogonal, es decir, tal que VV
= V
V = I
n
, cuyas columnas
v
(1)
, . . . , v
(r)
, v
(r+1)
, . . . , v
(n)
forman una base ortogonal de R
n
. Es posible construir V de
modo que las r primeras columnas generen el subespacio X)
X) = v
(1)
, . . . , v
(r)
)
Por otra parte, Y = (y
1
, . . . , y
n
)
es un vector aleatorio de R
n
que, mediante V, transfor-
mamos en Z = (z
1
, . . . , z
n
)
= V
Y
z
i
= v
1i
y
1
+ +v
ni
y
n
i = 1, . . . , n
Para las variables transformadas se verica que
E(z
i
) =
n
h=1
v
hi
E(y
h
) = v
(i)
X =
_

i
si i r
0 si i > r
pues X X) que es ortogonal a v
(i)
para i > r.
Sea

una estimaci on MC. Entonces
Y = X
+ (YX
) = X
+e
donde obviamente X
X) y como sabemos e X)
, de manera que la transformaci on

ortogonal V
aplicada sobre e proporciona

V
e = (0, . . . , 0, z
r+1
, . . . , z
n
)
Luego, en funci on de las variables z

i
tenemos
SCR = e
e = (V
e)
e =
n
i=r+1
z
2
i
Adem as, por ser una transformaci on ortogonal, las variables z
1
, . . . , z
n
siguen siendo in-
correlacionadas y de varianza
2
. As pues
E(z
i
) = 0 E(z
2
i
) = var(z
i
) = var(y
i
) =
2
1
En muchos de los libros cl asicos escritos en ingles este estadstico se llama MSE, siglas de mean
square error.
31
y por lo tanto
E(SCR) =
n
i=r+1
E(z
2
i
) = (n r)
2
La expresi on
SCR = z
2
r+1
+ +z
2
n
(2.5)
se llama forma can onica de la suma de cuadrados residual del modelo lineal bajo las
hip otesis de Gauss-Markov.
Demostraci on 2:
Se puede hacer una demostraci on mucho m as directa a partir de la propiedad 2 explicada
en el Apendice C1 de Estadstica Multivariante:
Para un vector aleatorio Y con esperanza E(Y) = y matriz de varianzas y covarianzas
var(Y) = V, se tiene que
E(Y
AY) = tr(AV) +
A
donde A es una matriz constante.
En nuestro caso E(Y) = = X y var(Y) = V =
2
I, de forma que
E(SCR) = E(Y
(I P)Y) = tr(
2
(I P)) +
(I P)X
=
2
tr(I P)
=
2
rg(I P) =
2
(n r)
gracias a las propiedades de la matriz I P.
2.6. Distribuciones de los estimadores
Vamos ahora a establecer algunas propiedades de los estimadores MC para un modelo de
rango m aximo.
Si asumimos que los errores son insesgados E() = 0, que es la primera condici on de
Gauss-Markov, entonces

es un estimador insesgado de
E(
) = (X
X)
1
X
E(Y) = (X
X)
1
X
X =
Si asumimos adem as que los errores
i
son incorrelacionados y con la misma varianza, es
decir var() =
2
I, resulta que
var(Y) = var(YX) = var() =
2
I
ya que X no es aleatorio y en consecuencia
var(
) = var((X
X)
1
X
Y) = (X
X)
1
X
var(Y)X(X
X)
1
=
2
(X
X)
1
(X
X)(X
X)
1
=
2
(X
X)
1
Veamos a continuaci on algunos resultados acerca de la distribuci on de

y SCR bajo las
hip otesis del modelo lineal normal en el caso de rango m aximo.
32
Teorema 2.6.1
Sea Y N(X,
2
I
n
) con rango X = m. Entonces se verican las siguientes propiedades:
i) La estimaci on MC de coincide con la estimaci on de la m axima verosimilitud.
Adem as es insesgada y de mnima varianza.
ii)

N(,
2
(X
X)
1
)
iii) (
X(
)/
2

2
m
iv)

es independiente de SCR
v) SCR/
2

2
nm
Demostraci on:
i) La funci on de verosimilitud es
L(Y; ,
2
) = (
2
2
)
n
exp
_
1
2
2
(YX)
(YX)
_
de modo que el mnimo de (YX)
(YX) es el m aximo de L.
Ya hemos visto que

es insesgado y adem as, cada

i
es un estimador lineal de va-
rianza mnima de
i
, ya que es centrado y de m axima verosimilitud, luego suciente.
Se llegar a a la misma conclusi on como consecuencia del Teorema 3.2.1.
Por otra parte, si sustituimos por

en la funci on de verosimilitud y derivamos
respecto a
2
resulta que el el estimador de m axima verosimilitud de la varianza es

2
MV
= SCR/n
Este estimador es sesgado y en la pr actica no se utiliza, ya que disponemos del
estimador insesgado propuesto en el apartado anterior. Adem as, bajo ciertas condi-
ciones generales se puede probar que
2
= SCR/(nm) es un estimador de varianza
mnima de
2
(vease Seber [65, p ag. 52]).
ii) Como

= [(X
X)
1
X
]Y,

es combinaci on lineal de una normal y, por tanto,
tiene distribuci on normal multivariante con matriz de varianzas-covarianzas
(X
X)
1
2
iii) Es consecuencia de las propiedades de la normal multivariante del apartado anterior
ya que
(
X(
)/
2
= (
var(
)
1
(
)
2
m
iv) Si calculamos la matriz de covarianzas entre

i YX
tenemos
cov(
, YX
) = cov((X
X)
1
X
Y, (I P)Y)
= (X
X)
1
X
var(Y)(I P)
=
2
(X
X)
1
X
(I P) = 0
de modo que efectivamente

es independiente de (Y X
(Y X
), ya que la
incorrelaci on entre normales multivariantes implica su independencia.
Este resultado se ampliar a en el Teorema 3.4.1.
33
v) Aplicando la ecuaci on 2.5
SCR/
2
= (z
m+1
/)
2
+ + (z
n
/)
2
obtenemos una suma de cuadrados de n m variables normales independientes, es
decir, una distribuci on
2
nm
.
Ejemplo 2.6.1
La distribuci on de

del ejemplo 2.4.1 es N(, /
6)
E(
) = E((y
1
+ 2y
2
y
3
)/6) = (1/6)( + 4 +) =
var(
) = (
2
+ 4
2
+
2
)/6
2
=
2
/6
La distribuci on de SCR/
2
es
2
2
, siendo
SCR = (y
1
)
2
+ (y
2
2
)
2
+ (y
3
+
)
2
Ejemplo 2.6.2
La estimaci on de la varianza del error
2
en el ejemplo 2.4.2 es

2
= 0,00145/(5 3) = 0,725 10
3
Observemos que el n umero de pesadas necesarias para obtener la misma precisi on sera
mayor si pes aramos cada objeto individualmente.
2.7. Matriz de dise no reducida
Supongamos que varias observaciones y
i
han sido obtenidas bajo las mismas condiciones
experimentales. Para estas observaciones, el modelo que liga y
i
con las es el mismo, lo
que se traduce en que las las de la matriz de dise no correspondientes est an repetidas.
Para evitar la redundancia que esto supone nos ser a muy util, a efectos te oricos y de
c alculo, introducir el concepto de matriz de dise no reducida.
Denici on 2.7.1
Dado el modelo lineal Y = X+, llamaremos matriz de dise no reducida X
R
a la matriz
k m obtenida tomando las k las distintas de la matriz de dise no original X. Diremos
entonces que k es el n umero de condiciones experimentales.
Las matrices de dise no original o ampliada y reducida las indicaremos por X y X
R
respectivamente, cuando convenga distinguir una de otra.
Si la la i-esima de X
R
est a repetida n
i
veces en X, signica que se han obtenido n
i
replicas de la variable observable bajo la i-esima condici on experimental. Si estos n umeros
de replicas son n
1
, n
2
, . . . , n
k
, entonces
n = n
1
+n
2
+ +n
k
34
Adem as de la matriz reducida X
R
, utilizaremos tambien la matriz diagonal
D = diag(n
1
, n
2
, . . . , n
k
)
y el vector de medias
Y = ( y
1
, y
2
, . . . , y
k
)
donde cada y
i
es la media de las replicas bajo la condici on experimental i.
En una experiencia bajo la cual todas las observaciones han sido tomadas en condiciones
experimentales distintas (caso de una sola observaci on por casilla), entonces
X
R
= X

Y = Y D = I n
i
= 1
Como veremos m as adelante (ver secci on 10.7), la utilizaci on de X
R
, D e

Y nos permi-
tir a abordar dise nos no balanceados y el caso de observaciones faltantes.
Teorema 2.7.1
La soluci on de las ecuaciones normales y la suma de cuadrados residual en terminos de
la matriz de dise no reducida X
R
, de D e

Y es
= (X
R
DX
R
)
1
X
R
D
Y
SCR = Y
R
D
Y
Demostraci on:
Sea M una matriz n k de forma que cada columna i es
(0, . . . , 0
. .
n
, 1, . . . , 1
. .
n
i
, 0, . . . , 0
. .
n
donde k es el n umero de condiciones experimentales (n umero de las distintas de X), n

i
el n umero de replicas bajo la condici on i, y adem as
n
= n
1
+ +n
i1
n
= n
i+1
+ +n
k
Se verica
M
Y = D
Y MX
R
= X M
M = D X
Y = X
R
M
Y = X
R
D
Y
de donde se siguen inmediatamente las f ormulas del teorema.
Ejemplo 2.7.1
Con los datos del ejemplo 2.4.2
X =
_
_
_
_
_
_
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
_
_
_
_
_
_
Y =
_
_
_
_
_
_
5,53
1,72
0,64
5,48
1,70
_
_
_
_
_
_
35
Agrupando las las 1, 4 y 2, 5 obtenemos
X
R
=
_
_
1 1 1
1 1 1
1 1 1
_
_
D =
_
_
2 0 0
0 2 0
0 0 1
_
_
donde n
1
= n
2
= 2, n
3
= 1, k = 3.
Y =
_
_
(5,53 + 5,48)/2
(1,72 + 1,70)/2
0,64
_
_
=
_
_
5,505
1,710
0,640
_
_
La matriz M es
M =
_
_
_
_
_
_
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
_
_
_
_
_
_
Ejemplo 2.7.2
Consideremos el modelo
y
ij
= +
i
+
j
+
ij
correspondiente al dise no de dos factores sin interacci on.
Supongamos que el primer factor tiene 2 niveles y el segundo tiene 3 niveles, y que los
n umeros de replicas son
n
11
= 2 n
21
= 1 n
12
= 3 n
22
= 3 n
13
= 5 n
23
= 4
La matriz de dise no reducida es

1

2

1

2

3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1
Sin embargo, la matriz de dise no ampliada tiene 6 columnas y
n
ij
= 18 las.
2.8. Matrices de dise no de rango no maximo
Cuando el modelo lineal corresponde al an alisis de los datos de un dise no experimental,
la matriz X tiene todos sus elementos con valores 0 o 1 y sus columnas acostumbran a ser
linealmente dependientes. Ya sabemos que en este caso es posible hallar el estimador MC
de = X pero, por desgracia, hay m ultiples estimaciones de los par ametros que m as
bien podemos considerar como soluciones

de las ecuaciones normales. En todo caso y
como veremos en el pr oximo captulo estamos interesados en concretar una estimaci on
de los par ametros aunque no sea unica. A continuaci on se comentan algunos metodos
para hallar una soluci on

o para hallar la SCR directamente.
36
2.8.1. Reducci on a un modelo de rango maximo
Sea X
1
la matriz nr con las r = rg X columnas linealmente independientes de la matriz
de dise no X, entonces P = X
1
(X
1
X
1
)
1
X
1
de forma que
SCR = Y
(I P)Y = Y
1
Y
donde = (X
1
X
1
)
1
X
1
Y es la soluci on del modelo Y = X
1
+ de rango m aximo.
Podemos asumir, sin perdida de generalidad, que X
1
est a formada por las r primeras las
de X de manera que X = (X
1
, X
2
). Entonces X
2
= X
1
F ya que las columnas de X
2
son
linealmente dependientes de las de X
1
y, por tanto, X = X
1
(I
r
, F). As, este es un caso
especial de una factorizaci on m as general del tipo
X = KL
donde K es n r de rango r, y L es r m de rango r. Entonces podemos escribir
X = KL = K
y estimar .
2.8.2. Imposici on de restricciones
Este metodo consiste en imponer un conjunto de restricciones del tipo H = 0 para
evitar la indeterminaci on de . Las restricciones apropiadas, llamadas identicables, son
aquellas que, para cada = X), existe un unico que satisface = X y 0 = H,
es decir, que satisface
_

0
_
=
_
X
H
_
= G
La soluci on es simple. Debemos elegir como las de H un conjunto de m r vectores
m 1 linealmente independientes que sean tambien linealmente independientes de las
las de X. Entonces la matriz G de orden (n +mr) m tendr a rango m de modo que
G
G = X
X+H
H es mm de rango m y en consecuencia tiene inversa. Luego hemos

salvado la deciencia en el rango de X
X introduciendo la matriz H
H.
As pues, si a nadimos H
H = 0 a las ecuaciones normales tenemos

G
G = X
Y
cuya soluci on es

= (G
G)
1
X
Y. Se puede ver, a partir de

= X
= PY, que
P = X(G
G)
1
X
ya que P es unica.
La demostraci on de todos los detalles aqu expuestos puede verse en Seber [65, p ag. 74].
Es interesante comprobar que, si H = 0, entonces
E(
) = (G
G)
1
X
X
= (G
G)
1
(X
X+H
H) =
de modo que

es un estimador insesgado de .
Este metodo es particularmente util en los modelos de an alisis de la varianza para los que
H se halla con mucha facilidad.
37
Ejemplo 2.8.1
Consideremos el modelo correspondiente al dise no de un factor con, por ejemplo, 3 niveles
y
ij
= +
i
+
ij
i = 1, 2, 3 j = 1, . . . , n
i
entonces, tenemos m = 4 y una matriz de dise no de rango 3. La estimaci on de los
par ametros resulta indeterminada.
Sin embargo, si a nadimos la restricci on
i
= 0, es decir, si hacemos H = (0, 1, 1, 1),
el sistema conjunto es de rango 4 y podemos determinar una soluci on o calcular la suma
de cuadrados residual.
38
2.9. Ejercicios
Ejercicio 2.1
Una variable Y toma los valores y
1
, y
2
y y
3
en funci on de otra variable X con los valores
x
1
, x
2
y x
3
. Determinar cuales de los siguientes modelos son lineales y encontrar, en su
caso, la matriz de dise no para x
1
= 1, x
2
= 2 y x
3
= 3.
a) y
i
=
0
+
1
x
i
+
2
(x
2
i
1) +
i
b) y
i
=
0
+
1
x
i
+
2
e
x
i
+
i
c) y
i
=
1
x
i
(
2
tang(x
i
)) +
i
Ejercicio 2.2
Dado el modelo lineal
_
y
1
y
2
_
=
_
2
1
_
+
_

1
2
_
hallar la estimaci on MC de y la suma de cuadrados residual.
Ejercicio 2.3
Si

es una estimaci on MC, probar que
(YX)
(YX) = (YX
(YX
) + (
X(
)
Ejercicio 2.4
Cuatro objetos cuyos pesos exactos son
1
,
2
,
3
y
4
han sido pesados en una balanza
de platillos de acuerdo con el siguiente esquema:
1

2

3

4
peso
1 1 1 1 9,2
1 1 1 1 8,3
1 0 0 1 5,4
1 0 0 1 1,6
1 0 1 1 8,7
1 1 1 1 3,5
Hallar las estimaciones de cada
i
y de la varianza del error.
Ejercicio 2.5
Sea

la estimaci on MC de . Si

Y = X
= PY, probar que la matriz P verica

P
2
= P (I P)
2
= I P
Ejercicio 2.6
La matriz de dise no reducida de un modelo lineal normal es
X
R
=
_
_
1 1 1
1 0 1
0 1 0
_
_
39
Se sabe adem as que
y
1
= 10 y
2
= 12 y
3
= 17 n
1
= n
2
= n
3
= 10
s
2
1
=
1
n
1
(y
i1
y
1
)
2
= 2,8 s
2
2
= 4,2 s
2
3
= 4,0
Se pide:
a) Hallar la expresi on general de las estimaciones MC de los par ametros .
b) Calcular SCR. Estimar la varianza del dise no
2
.
c) Estudiar si la hip otesis nula H
0
:
2
= 3 puede ser aceptada.
Ejercicio 2.7
Consideremos el modelo lineal
y
i
=
0
+
1
x
i1
+ +
m
x
im
+
i
i = 1, . . . , n
Sean

0
,
1
, . . . ,
m
las estimaciones MC de los par ametros y sea
y
i
=

0
+

1
x
i1
+ +

m
x
im
i = 1, . . . , n
Probar que
n
i=1
(y
i
y
i
) =
n
i=1
e
i
= 0
40
Captulo 3
Funciones parametricas estimables
3.1. Introducci on
En los modelos lineales, adem as de la estimaci on de los par ametros
i
y de
2
, interesa
tambien la estimaci on de ciertas funciones lineales de los par ametros. Como vamos a ver,
esto es especialmente necesario cuando los par ametros carecen de una estimaci on unica.
Denici on 3.1.1
Llamaremos funci on parametrica a toda funci on lineal de los par ametros
= a
1
1
+ +a
m
m
= a
y diremos que una funci on parametrica es estimable si existe un estadstico

, combi-
naci on lineal de las observaciones y
1
, . . . , y
n
= b
1
y
1
+ +b
n
y
n
= b
Y
tal que
E(
) =
es decir,

es estimador lineal insesgado de .
Estas funciones parametricas tienen la siguiente caracterizaci on
Teorema 3.1.1
Sea = a
una funci on parametrica estimable asociada al modelo lineal Y = X + .

Se verica:
i) es estimable si y s olo si el vector la a
es combinaci on lineal de las las de X.

ii) Si
1
, . . . ,
q
son funciones parametricas estimables, entonces la combinaci on lineal
= c
1
1
+ +c
q
q
es tambien funci on parametrica estimable.
iii) El n umero m aximo de funciones parametricas estimables linealmente independientes
es r = rango(X).
Demostraci on:
41
i) Sea

= b
Y tal que E(
) = . Entonces
a
= E(b
Y) = b
E(Y) = b
X
cualquiera que sea , luego
a
= b
X
lo que nos dice que a
es combinaci on lineal de las las de la matriz de dise no X.

Recprocamente, si suponemos que b
X = a
, entonces basta tomar

= b
Y como
estimador lineal insesgado de .
ii) y iii) para el lector (ver ejercicio 3.4)
Observaciones:
1) Si rango X = m, entonces todos los par ametros
i
y todas las funciones parametri-
cas son estimables, pues el subespacio generado por las las de X coincide con
R
m
.
2) Si rango X < m, pueden construirse funciones parametricas que no son estimables.
3) Una caracterizaci on algebraica de que = a
es estimable viene dada por la

identidad
a
(X
X)
X = a
donde (X
X)
representa una g-inversa de X
X.
En efecto, consideremos las matrices
S = X
X S
= (X
X)
H = S
S
entonces se comprueba f acilmente que
H
2
= H SH = S
Puesto que H es idempotente
rango H = traza H = rango S = rango X = r
Por otra parte tenemos
0 = S SH = (I
m
H)
(S SH) = (I
m
H)
(X
XX
XH)
= (I
m
H)
(X
(XXH)) = (XXH)
(XXH)
luego
X = XH
Entonces, si = a
es estimable, a
= b
X y
a
H = b
XH = b
X = a
Recprocamente, si a
H = a
, resulta que
a
= a
S = (a
)X = b
X
siendo b
= a
.
42
3.2. Teorema de Gauss-Markov
Vamos a ver en primer lugar que, cuando el rango de la matriz de dise no no es m aximo
y, por tanto, la estimaci on MC de los par ametros no es unica, la estimaci on de cualquier
funci on parametrica estimable utilizando cualquiera de los estimadores MC s es unica.
Teorema 3.2.1
Si = a
una funci on parametrica estimable y

es un estimador MC de , entonces
el estimador

= a
de es unico.
Demostraci on:
Si es una funci on parametrica estimable, tiene un estimador lineal insesgado b
Y,
donde b es un vector n 1. Consideremos el subespacio = X) de R
n
generado por las
columnas de X. El vector b se puede descomponer de forma unica
b =
b +c

b c
de modo que c es ortogonal a todo vector de .
Consideremos ahora el estimador lineal

b
Y y veamos que es insesgado y que su valor es

unico. Sabemos que b
Y es insesgado
= a
= E(b
Y) = E(
Y) +E(c
Y) = E(
Y) =
X (3.1)
luego E(
Y) = a
, pues
E(c
Y) = c
E(Y) = c
X = 0 = 0
Supongamos que b
Y es otro estimador insesgado para y b
. Entonces
0 = E(
Y) E(b
Y) = (
)X
luego
(
)X = 0
lo que quiere decir que (
) es ortogonal a . Como tambien pertenece a , debe

ser

b b
= 0, es decir,

b = b
.
Por ultimo, sabemos que para cualquier estimador MC de e = YX
es ortogonal a
, de manera que
0 =
e =
y as

b
Y =
. Adem as, por 3.1 sabemos que

b
X = b
X = a
, luego
Y = a
para cualquier

.
A continuaci on se demuestra la principal ventaja de la utilizaci on de los estimadores MC.
Teorema 3.2.2 (Gauss-Markov)
Si = a
una funci on parametrica estimable y

es un estimador MC de , entonces
= a
es el estimador de varianza mnima

1
en la clase de los estimadores lineales
insesgados de .
1
BLUE: best linear unbiased estimate
43
Demostraci on:
Con la notaci on
|b|
2
= b
2
1
+ +b
2
n
tenemos que
var(b
Y) = b
2
1
2
+ +b
2
n
2
= |b|
2
2
Si consideramos la descomposici on de cualquier estimador insesgado de que hemos
utilizado en el teorema anterior y dado que
|b|
2
= |
b|
2
+|c|
2
resulta
var(a
) = var(
Y) = |
b|
2
2
(|
b|
2
+|c|
2
)
2
= var(b
Y)
Observaciones:
1) Estos resultados son v alidos incluso para un modelo lineal sin la hip otesis de nor-
malidad.
2) La estimaci on con varianza mnima es
= a
(X
X)
Y
3) Como la varianza de b
Y es b
b
2
, resulta que la varianza mnima es
var(
) = var(a
) =
2
a
(X
X)
a
4) Utilizando la matriz de dise no reducida tenemos
= a
(X
R
DX
R
)
R
D
Y
var(
) =
2
a
(X
R
DX
R
)
a
De aqu deducimos que

es combinaci on lineal de las medias de las k condiciones
experimentales
= c
1
Y
1
+ +c
k

Y
k
= c

Y
donde c = (c
1
, . . . , c
k
)
es
c = DX
R
(X
R
DX
R
)
a
Entonces
var(
) =
_
k
i=1
c
2
i
/n
i
_
2
=
2
2
Por otra parte, todo estimador lineal insesgado

= b
Y de = a
se descompone como
hemos visto en
b
Y =
Y +c
Y
Diremos que
Y (donde
b es unico) pertenece al espacio estimaci on y que c
Y pertenece
al espacio error.
44
M as explcitamente, la descomposici on de b
es
b
= b
P+b
(I P)
siendo P = X(X
X)
la matriz del operador que proyecta b en = X) (ver Apendice

B). El vector proyectado es

b
= b
P. Asimismo, I P es otro operador que proyecta b

en el espacio ortogonal a . La proyecci on es c
= b
(I P). Como

b
c = 0, se verica
cov(
Y, c
Y) = 0
As pues, todo estimador lineal insesgado b
Y se descompone en
b
Y = b
PY +b
(I P)Y
donde b
PY es el estimador de Gauss-Markov, mientras que b
(I P)Y tiene esperanza

cero y provoca un aumento de la varianza mnima del mejor estimador

= b
PY.
Finalmente, observemos que
= b
PY = b
X(X
X)
Y = b
X(X
X)
=
= b
XH
= a
(3.2)
Siendo H = (X
X)
X, que verica XH = X, y siendo a
= b
X.
El aspecto geometrico de las estimaciones se puede resumir en el hecho que el espacio
muestral R
n
al que pertenece el vector de observaciones Y, se descompone en
R
n
= +
donde representa el espacio estimaci on. Toda estimaci on de los par ametros de regresi on
est a ligada a . Toda estimaci on de la varianza del modelo est a ligada al espacio error
. Ambos espacios son ortogonales y bajo el modelo lineal normal, como veremos m as
adelante, ambas clases de estimaciones son estoc asticamente independientes.
Ejemplo 3.2.1
Sea y
1
, . . . , y
n
una muestra aleatoria simple procedente de una poblaci on N(, ). El mo-
delo lineal asociado es
_
_
_
y
1
.
.
.
y
n
_
_
_
=
_
_
_
1
.
.
.
1
_
_
_
+
El estimador MC de es = (1/n)
y
i
que tambien es de Gauss-Markov (centrado y
de varianza mnima).
En este caso R
n
= +
, siendo
= (1, . . . , 1)
= (x
1
, . . . , x
n
)
x
i
= 0
Sea a
Y =
a
i
y
i
otro estimador centrado de . Entonces E(a
Y) = implica
a
i
= 1.
Luego se verica a = a +b, es decir,
_
_
_
a
1
.
.
.
a
n
_
_
_
=
_
_
_
1/n
.
.
.
1/n
_
_
_
+
_
_
_
a
1
1/n
.
.
.
a
n
1/n
_
_
_
45
con a , b
. Es f acil ver que a
b = 0. Adem as
a
i
y
i
= (1/n)
y
i
+
(a
i
1/n)y
i
El primer termino es estimador centrado y de varianza mnima
2
/n. El segundo termino
verica
E(
(a
i
1/n)y
i
) = 0
cov(1/n
y
i
,
(a
i
1/n)y
i
) = 0
La matriz del operador que proyecta a en es
P = 1/n
_
_
_
1
.
.
.
1
_
_
_
(1, . . . , 1) =
_
_
_
1/n . . . 1/n
.
.
.
.
.
.
.
.
.
1/n . . . 1/n
_
_
_
siendo f acil ver que
a
P = (1/n, . . . , 1/n)
a
(I P) = (a
1
1/n, . . . , a
n
1/n)
Ejemplo 3.2.2
Ver especialmente el nal del ejemplo 5.3.2.
3.3. Varianza de la estimaci on y multicolinealidad
Sabemos que a
se dice estimable si tiene un estimador lineal insesgado b
Y o, equiva-
lentemente, cuando a = X
b. Es decir, cuando a es combinaci on lineal de las las de la

matriz X.
Teorema 3.3.1
La funci on parametrica a
es estimable si y s olo si
a X
) = X
X)
Demostraci on:
Como sabemos, la funci on parametrica a
es estimable si y s olo si a es combinaci on

lineal de las las de X, es decir, cuando a X
). De modo que s olo queda probar que

X
) = X
X)
Pero X
Xc = X
d para d = Xc, de forma que X
X) X
). Adem as, las dimensiones de

ambos subespacios son iguales ya que rg X
= rg X
X, de donde se deduce la igualdad.

Los detalles pueden verse en Seber [65, p ag. 385].
En el apartado anterior hemos demostrado que para una funci on parametrica estimable
a
, su estimador MC a
es el de mnima varianza. Pero, cuanto vale esta varianza?

46
Supongamos que X
X tiene como valores propios

1
, . . . ,
r
todos positivos no nulos
asociados a los correspondientes vectores propios ortonormales v
1
, . . . , v
r
, es decir
X
Xv
i
=
i
v
i
i = 1, . . . , r
y tales que v
i
v
j
=
ij
.
Si a
es estimable, entonces a X
X) y este subespacio est a generado por los vectores

propios. As pues, a se puede expresar en la forma
a =
r
i=1
c
i
v
i
Entonces
var(a
) = var
_
i
c
i
v
_
=
i
c
2
i
var(v
)
=
2
i
c
2
i
1
i
ya que
cov(v
, v
) =
1
i

1
j
cov(v
i
X
, v
j
X
)
= (
i
j
)
1
cov(v
i
X
Y, v
j
X
Y)
= (
i
j
)
1
2
v
i
X
Xv
j
= (
i
j
)
1
j
v
i
v
j
=
2
1
i

ij
Silvey[67] concluy o que es posible una estimaci on relativamente precisa en las direcciones
de los vectores propios de X
X correspondientes a los mayores valores propios, mien-

tras que se obtienen unas estimaciones relativamente imprecisas (poco ecientes) en las
direcciones correspondientes a los valores propios m as peque nos.
Supongamos que X tiene rango m aximo pero que sus columnas est an cerca de ser li-
nealmente dependientes. Entonces X
X est a cerca de ser singular (no inversible), en el

sentido que uno o varios de sus valores propios no nulos son excesivamente peque nos, casi
despreciables, y por lo que hemos visto las estimaciones en algunas direcciones ser an muy
imprecisas.
La presencia de relaciones quasi lineales entre las variables regresoras se conoce en Eco-
nometra con el nombre de multicolinealidad, cuya forma m as extrema se presenta cuando
la matriz de datos X no tiene rango m aximo. Este grave problema debe ser detectado
previamente a la estimaci on y se puede corregir de varias formas (ver secci on 8.5).
Una soluci on te orica consiste en minimizar o incluso erradicar la multicolinealidad, me-
diante la incorporaci on de nuevas observaciones en las direcciones de los vectores propios
con valores propios demasiado peque nos (o cero).
Supongamos que una nueva observaci on se a nade al modelo Y = X + y resulta
_
Y
Y
n+1
_
=
_
X
x
n+1
_
+
_

n+1
_
= X
47
donde x
n+1
= cv, donde v es un vector propio normalizado de X
X correspondiente a un
valor propio . Entonces se puede probar que v es tambien un vector propio de X
correspondiente al valor propio + c

2
. Y de esta forma Sylvey propuso un an alisis para
la elecci on de las direcciones en las que es conveniente elegir nuevas observaciones para
mejorar la precisi on de las estimaciones de un a
particular.
3.4. Sistemas de funciones parametricas estimables
Consideremos un sistema de funciones parametricas estimables
1
= a
1
, . . . ,
q
= a
sobre el mismo modelo lineal normal y donde los vectores a

1
, . . . , a
q
(q r = rango X)
son linealmente independientes. Para cada una, tenemos las correspondientes estimaciones
de Gauss-Markov
i
= a
i = 1, . . . , q
que podemos condensar matricialmente en la forma
= (
1
, . . . ,

q
)
= A
donde
A =
_
_
_
a
1
.
.
.
a
q
_
_
_
Con esta matriz,

es el conjunto de estimadores MC del sistema de funciones parametri-
cas = A.
Teorema 3.4.1
Bajo el modelo lineal normal, el conjunto de estimadores

= A
del sistema de funciones

parametricas = A verica:
i)

sigue la distribuci on normal multivariante
N
q
(,
)
donde = A es el vector de medias y
=
2
A(X
X)
es la matriz de varianzas-covarianzas.
ii) La estimaci on MC de toda funci on parametrica estimable es estoc asticamente in-
dependiente de la suma de cuadrados residual
SCR = (YX
(YX
)
En particular,

= A
es estoc asticamente independiente de SCR.

Demostraci on:
48
i) Es consecuencia de que

es una combinaci on lineal de variables normales indepen-
dientes:
i
= a
i
(X
X)
Y
luego si
A(X
X)
= C
sabemos que E(
) = y la matriz de covarianzas de CY es =
2
CC
, de
manera que
=
2
CC
=
2
A(X
X)
X(X
X)
=
2
A(X
X)
ii) Como en el teorema 2.5.1, consideremos la transformaci on ortogonal

Z = V
Y
donde las primeras r columnas de la matriz ortogonal V generan el subespacio
= X). Entonces las variables z
1
, . . . , z
n
son normales e independientes, y toda
estimaci on de Gauss-Markov es una combinaci on lineal de
z
1
, . . . , z
r
puesto que pertenece al espacio estimaci on. Sin embargo, la suma de cuadrados
residual es
SCR = z
2
r+1
+ +z
2
n
y, por tanto, ser a estoc asticamente independiente de cualquier estimaci on

i
= a
.
Esto mismo se puede deducir de la expresi on 3.2 ya que

= BPY, mientras que
SCR = Y
(I P)Y = ((I P)Y)
(I P)Y
donde (I P)Y pertenece al espacio ortogonal de .
Teorema 3.4.2
La distribuci on de U = (A
A)
(
2
A(X
X)
)
1
(A
A) es una
2
q
.
Adem as, U es estoc asticamente independiente de SCR/
2
cuya distribuci on es
2
nr
.
Demostraci on:
Es consecuencia de las propiedades de la distribuci on normal multivariante y de los teo-
remas 2.5.1 y 3.4.1.
Dos resultados importantes que se deducen de los teoremas anteriores son:
a) Para el modelo lineal normal y el sistema de q funciones parametricas estimables
= A se verica que la distribuci on de
F =
(A
A)
(A(X
X)
)
1
(A
A)/q
SCR/(n r)
(3.3)
es una F con q y n r grados de libertad, ya que se trata de un cociente de dos
2
independientes divididas por sus grados de libertad respectivos. Observemos la
desaparici on del par ametro
2
desconocido.
49
b) En el caso q = 1, si

es la estimaci on de Gauss-Markov de , entonces

N(,
), siendo
= a
(X
X)
a
2
=
2
2
luego la distribuci on de
t =
2
SCR
n r (3.4)
es la de una t de Student con n r grados de libertad. Este resultado se puede
establecer directamente o a partir de 3.3 ya que F
1,nr
= t
2
nr
.
3.5. Intervalos de conanza
Consideremos una funci on parametrica estimable = a
, su estimaci on MC

= a
y
sea t
tal que
P(t
< t < t
) = 1
para una distribuci on t de Student con n r grados de libertad. Entonces, de la distri-
buci on 3.4 deducimos que
P
_
t
<
2
SCR
n r < t
_
= 1
y despejando obtenemos
P
_
2
SCR
n r
< <

+t
2
SCR
n r
_
= 1
Por lo tanto
2
SCR
n r
< <

+t
2
SCR
n r
es decir
a
[a
(X
X)
a
2
]
1/2
(3.5)
es un intervalo de conanza para la funci on parametrica estimable = a
, con coeciente
de conanza 1 .
Por otra parte, como SCR/
2
sigue una
2
nr
tenemos
P(a < SCR/
2
< b) = 1
donde a y b son tales que
P(
2
nr
a) = /2 P(
2
nr
> b) = /2
Deducimos entonces que
P
_
SCR
b
<
2
<
SCR
a
_
= 1 (3.6)
dene un intervalo de conanza para la varianza
2
del modelo lineal normal, con coe-
ciente de conanza 1 .
50
3.6. Ejercicios
Ejercicio 3.1
Sea una funci on parametrica estimable y

1
,

2
dos estimadores insesgados, estoc asti-
camente independientes, de varianzas
2
1
y
2
2
. Hallar la combinaci on lineal de

1
,

2
cuya
varianza es mnima y adem as es insesgado.
Ejercicio 3.2
En un modelo lineal, la matriz de dise no es
_
_
_
_
1 1 1 1 1
1 0 1 0 0
1 1 1 0 0
1 0 1 1 1
_
_
_
_
Hallar la expresi on general de las funciones parametricas estimables.
Ejercicio 3.3
Probar que
= b
Y E(
) = = a
siendo b combinaci on lineal de las columnas de X, implica que a es combinaci on lineal

de las las de X.
Ejercicio 3.4
Probar que toda combinaci on lineal de funciones parametricas estimables es tambien fun-
ci on parametrica estimable y que r = rg X es el n umero m aximo de funciones linealmente
independientes.
Ejercicio 3.5
Si

es la estimaci on de Gauss-Markov, probar que la expresi on
= c
1
y
1
+ +c
k
y
k
funci on de las medias de las condiciones experimentales, es unica.
Ejercicio 3.6
La matriz de dise no reducida correspondiente a un modelo lineal normal es
X =
_
_
1 0 1
1 1 0
0 1 1
_
_
Se sabe adem as que
y
1
= 11 y
2
= 10 y
3
= 15
n
1
= n
2
= n
3
= 10
s
2
1
= (1/n
1
)
n
1
i=1
(y
i
y
1
)
2
= 4,5
s
2
2
= 6,0 s
2
3
= 4,3
Se pide
51
1) Hallar la expresi on general de las estimaciones MC de .
2) Calcular SCR. Se ajustan los datos al modelo denido por X? (nivel de signicaci on
0,05)
3) Dada la funci on parametrica estimable
=
1
+
3
contrastar la hip otesis H
0
: = 3 en los casos:
a)
2
varianza del dise no desconocida
b)
2
= 5 varianza del dise no conocida
(nivel de signicaci on 0,05)
4) Hallar la funci on parametrica estimable tal que
= c
1
y
1
+c
2
y
2
+c
3
y
3
verica c
2
1
+c
2
2
+c
2
3
= 1 y adem as

es m aximo.
Ejercicio 3.7
y
1
=
1
+
2
+
1
y
2
=
1
+
3
+
2
y
3
=
1
+
2
+
3
Se pide:
1) Es la funci on parametrica
=
1
+
2
+
3
estimable?
2) Probar que toda funci on parametrica
= a
1
1
+a
2
2
+a
3
3
es estimable si y s olo si a
1
= a
2
+a
3
.
Ejercicio 3.8
y
1
= +
1
+
1
+
1
y
2
= +
1
+
2
+
2
y
3
= +
2
+
1
+
3
y
4
= +
2
+
2
+
4
y
5
= +
3
+
1
+
5
y
6
= +
3
+
2
+
6
52
(a) Cuando es
0
+
1
1
+
2
2
+
3
3
+
4
1
+
5
2
estimable?
(b) Es
1
+
2
estimable?
(c) Es
1
2
estimable?
(d) Es +
1
estimable?
(e) Es 6 + 2
1
+ 2
2
+ 2
3
+ 3
1
+ 3
2
estimable?
(f) Es
1
2
2
+
3
estimable?
(g) Hallar la covarianza entre los estimadores lineales MC de las funciones parametricas
2
y
1
2
, si estas son estimables.
(h) Hallar la dimensi on del espacio parametrico.
(i) Obtener una expresi on del espacio de los errores.
Ejercicio 3.9
Cuatro objetos A, B, C, D est an involucrados en un experimento de pesado. Todos reu-
nidos pesan y
1
gramos. Cuando A y C se ponen en el plato izquierdo de la balanza y B
y D se ponen en el plato derecho, un peso de y
2
gramos es necesario en el plato derecho
para equilibrar la balanza. Con A y B en el plato izquierdo y C, D en el plato derecho,
y
3
gramos son necesarios en el plato derecho y, nalmente, con A, D en el plato izquierdo
y B, C en el plato derecho, y
4
gramos son necesarios en la derecha para equilibrar. Si las
observaciones y
1
, y
2
, y
3
, y
4
son todas con errores incorrelacionados y con varianza com un
2
, obtener la estimaci on BLUE del peso total de los cuatro objetos y su varianza.
Ejercicio 3.10
Con el modelo lineal
y
1
=
1
+
5
+
1
y
2
=
2
+
5
+
2
y
3
=
3
+
6
+
3
y
4
=
4
+
6
+
4
y
5
=
1
+
7
+
5
y
6
=
3
+
7
+
6
y
7
=
2
+
8
+
7
y
8
=
4
+
8
+
8
contestar las siguientes preguntas:
(a) Cuantas funciones parametricas son estimables? Obtener el conjunto completo de
todas ellas.
(b) Probar que
1
2
es estimable. Calcular su estimador lineal MC y su varianza.
(c) Probar que
1
+
2
no es estimable.
(d) Hallar cuatro estimadores insesgados diferentes de
1
2
y calcular sus varianzas.
Compararlas con la varianza del estimador MC.
53
(e) Hallar un estimador insesgado de la varianza de los errores
2
.
Ejercicio 3.11
Diremos que el estimador lineal b
Y pertenece al espacio error si E(b
Y) = 0. Probar
que la covarianza entre b
Y y todo estimador de Gauss-Markov

= a
es siempre cero.
Ejercicio 3.12
Consideremos el modelo lineal normal Y = X + , siendo rg X = r. Sea X = UV
una descomposici on en valores singulares de X. Se pide:

1) Expresar la estimaci on MC de en terminos de U, , V y Y.
2) Sea = a
una funci on parametrica. Probar que es estimable si y s olo si se

verica
a
= b
para alg un vector b.

54
Captulo 4
Complementos de estimaci on
En este captulo se presentan algunas extensiones del metodo de los mnimos cuadrados.
Estos complementos no son estrictamente necesarios para continuar con el desarrollo de
la teora de los modelos lineales y, en particular, para el contraste de hip otesis que se
explica en el captulo 5. En una primera lectura de este libro se puede pasar directamente
a ese captulo.
4.1. Ampliar un modelo con mas variables regresoras
4.1.1. Una variable extra
Supongamos que despues de ajustar el modelo lineal
E(Y) = X var(Y) =
2
I
decidimos introducir una nueva variable regresora con las mismas observaciones que ya
tenamos.
Sean x
(i)
, i = 1, . . . , m las columnas de la matriz X n m de rango m de modo que
E(Y) = X = (x
(1)
, . . . , x
(m)
) = x
(1)
1
+ +x
(m)
m
La inclusi on de la nueva variable regresora x
(m+1)
proporciona un modelo ampliado
G : E(Y) = x
(1)
1
+ +x
(m)
m
+x
(m+1)
m+1
= X +x
(m+1)
m+1
= G
donde la matriz G = (x
(1)
, . . . , x
(m)
, x
(m+1)
) es n (m+ 1) de rango m+ 1.
Para hallar la estimaci on de los m+1 par ametros = (
1
, . . . ,
m
,
m+1
)
podemos hacerlo
directamente como

G
= (G
G)
1
G
Y var(
G
) =
2
(G
G)
1
o a partir del modelo original que ya hemos resuelto. Vamos a ver el desarrollo de esta
segunda opci on que proporciona unos c alculos m as simples.
Partimos de las ecuaciones normales del modelo ampliado G
G
G
= G
Y que podemos
descomponer as
X
G
+X
x
(m+1)
m+1
= X
Y
x
(m+1)
X
G
+x
(m+1)
x
(m+1)
m+1
= x
(m+1)
Y
55
De la primera ecuaci on tenemos
G
= (X
X)
1
X
(Yx
(m+1)
m+1
) =

f
m+1
(4.1)
donde f = (X
X)
1
X
x
(m+1)
, y sustituyendo en la segunda
x
(m+1)
x
(m+1)
m+1
= x
(m+1)
Yx
(m+1)
X(X
X)
1
X
(Yx
(m+1)
m+1
)
es decir
x
(m+1)
(I X(X
X)
1
X
)x
(m+1)
m+1
= x
(m+1)
(I X(X
X)
1
X
)Y
de manera que
m+1
= [x
(m+1)
(I P)x
(m+1)
]
1
x
(m+1)
(I P)Y = gx
(m+1)
(I P)Y (4.2)
donde g = [x
(m+1)
(I P)x
(m+1)
]
1
es un escalar.
Observemos que ahora este resultado se puede sustituir en la ecuaci on 4.1 de modo que
G
queda determinado.
Por otra parte
YX
G
x
(m+1)
m+1
= YX(X
X)
1
X
(Yx
(m+1)
m+1
) x
(m+1)
m+1
= (I X(X
X)
1
X
)(Yx
(m+1)
m+1
)
= (I P)(Yx
(m+1)
m+1
)
de manera que la suma de cuadrados de los residuos para el modelo ampliado es
SCR
G
= (YG
G
)
(YG
G
)
= (YX
G
x
(m+1)
m+1
)
(YX
G
x
(m+1)
m+1
)
= (Yx
(m+1)
m+1
)
(I P)(Yx
(m+1)
m+1
)
ya que I P es simetrica e idempotente.
Si desarrollamos esta expresi on se obtiene
SCR
G
= Y
(I P)YY
(I P)x
(m+1)
m+1
x
(m+1)
(I P)Y
m+1
+x
(m+1)
(I P)x
(m+1)
2
m+1
= Y
(I P)Yx
(m+1)
(I P)Y
m+1
[x
(m+1)
(I P)Yx
(m+1)
(I P)x
(m+1)
m+1
]
m+1
y por 4.2 resulta
SCR
G
= SCR x
(m+1)
(I P)Y
m+1
(4.3)
En cuanto a las varianzas y covarianzas de los estimadores se tiene lo siguiente: A partir
de la ecuaci on 4.2 tenemos
var(
m+1
) =
2
(x
(m+1)
(I P)x
(m+1)
)
1
=
2
g
Adem as
cov(
m+1
) = cov[(X
X)
1
X
Y, gx
(m+1)
(I P)Y]
=
2
g(X
X)
1
X
(I P)x
(m+1)
= 0
56
ya que X
(I P) = 0. Esto permite calcular la covarianza entre

G
y

m+1
cov(
G
,
m+1
) = cov[
m+1
,
m+1
]
= cov(
m+1
) f var(
m+1
)
= 0 f
2
g
Finalmente
var(
G
) = var(
m+1
)
= var(
) 2cov(
, f
m+1
) + var(f
m+1
)
= var(
) 2cov(
m+1
)f
+f var(
m+1
)f
=
2
[(X
X)
1
+g
]
En resumen
var(
G
) =
2
_
(X
X)
1
+g
gf
gf
g
_
(4.4)
donde g = [x
(m+1)
(I P)x
(m+1)
]
1
y f = (X
X)
1
X
x
(m+1)
.
En consecuencia, las f ormulas 4.1, 4.2, 4.3 y 4.4 demuestran que es posible calcular todos
los elementos del modelo ampliado a partir del modelo original, mediante productos de
matrices en los que interviene unicamente la matriz (X
X)
1
original.
4.1.2. Una interpretaci on
Partimos del modelo
Y = X + E() = 0, var() =
2
I (4.5)
donde X = (x
(1)
, . . . , x
(m)
) y = (
1
, . . . ,
m
)
, y queremos ampliar el modelo con una

nueva variable regresora para llegar al modelo
G : Y = X +x
(m+1)
m+1
+
G
= G +
G
(4.6)
donde G = (x
(1)
, . . . , x
(m)
, x
(m+1)
) y = (
1
, . . . ,
m
,
m+1
)
.
Consideremos

la estimaci on MC en el modelo original, de forma que
Y = X
+e (4.7)
donde e es el vector de residuos o parte de Y no explicada linealmente por X.
Sea c la estimaci on MC en el modelo lineal x
(m+1)
= Xc +
m+1
, de forma que
x
(m+1)
= Xc +e
m+1
(4.8)
donde el vector de residuos e
m+1
representa la parte de x
(m+1)
no explicada linealmente
por las variables anteriores.
Consideremos ahora la regresi on lineal simple de (parte de Y no explicada por X) con
m+1
(parte de x
(m+1)
independiente de X)
e = e
m+1
d +e
(4.9)
57
Teorema 4.1.1 Si consideramos las estimaciones MC que se han calculado en las ecua-
ciones 4.7, 4.8 y 4.9, resulta que la estimaci on MC de
m+1
en el modelo ampliado 4.6 es
m+1
=

d.
Demostraci on:
Si sustituimos 4.9 en la ecuaci on 4.7, se obtiene
Y = X
+e
m+1
d +e
= X
+ (x
(m+1)
Xc)
d +e
La soluci on MC del modelo ampliado es

Y = X
G
+x
(m+1)
m+1
+e
G
donde

G
=

(X
X)
1
X
x
(m+1)
m+1
como hemos visto en 4.1. De forma que
Y = X
+ (x
(m+1)
X(X
X)
1
X
x
(m+1)
)
m+1
+e
G
Pero por 4.8 sabemos que c = (X
X)
1
X
x
(m+1)
, de manera que
Y = X
+ (x
(m+1)
Xc)
m+1
+e
G
y entonces

m+1
=

d y e
G
= e
.
En el gr aco se dibuja la consecuencia de a nadir a un modelo con una variable regresora
x
1
una nueva variable x
2
.
O
D
E
A
B
C
x
1
x
2
Y
Y
e
G
e
G)
En este gr aco tenemos los siguientes datos:
ED = e
m+1
OD = x
1
c AB = e
m+1
d OB = x
1
de forma que
ED[[AB BC OB ED OD AB OB AC OA
y en especial
Y =
OB +
AB
Como conclusi on podemos decir que cualquier coeciente estimado

i
puede interpretarse
como la pendiente de la recta que relaciona los residuos de la regresi on de Y respecto a
todas las otras variables, es decir, la parte de Y no explicada por el resto de las variables
regresoras, con la aportaci on diferencial de x
i
o parte de x
i
no com un con las dem as
58
variables regresoras que se obtiene tomando el residuo de la regresi on de x
i
sobre las
restantes x.
Observemos que cuando x
(m+1)
es independiente de X el paso 4.8 no es posible. En esta
situaci on
Y = X
+e
e = x
(m+1)
m+1
+e
G
de modo que la soluci on del modelo ampliado es
Y = X
+x
(m+1)
m+1
+e
G
x
1
x
2
Y
Y
e
G
e
x
1
x
2
2
Esto signica que si excluimos del modelo variables regresoras independientes, esto no
afecta a la estimaci on de los par ametros
i
, pero si excluimos variables relevantes esto
afecta considerablemente a las estimaciones.
4.1.3. Mas variables
Supongamos que despues de ajustar el modelo lineal
E(Y) = X var(Y) =
2
I
decidimos introducir un grupo de variables regresoras. El modelo es ahora
G : E(Y) = X +Z =
_
X Z
_
_

_
= W
y vamos a suponer que las matrices son de rango m aximo, de forma que X es n m de
rango m, Z es n t de rango t, y las columnas de Z son linealmente independientes de
las columnas de X, de forma que W es n (m+t) de rango m+t.
Si queremos hallar el estimador mnimo cuadr atico
G
de , podemos hacerlo a partir
del modelo completo G

G
= (W
W)
1
W
Y var(
G
) =
2
(W
W)
1
o reducir los c alculos utilizando los resultados del modelo inicial. El siguiente teorema
resume las principales propiedades de esta segunda propuesta.
Teorema 4.1.2
59
Consideremos las matrices P = X(X
X)
1
X
, P
G
= W(W
W)
1
W
, L = (X
X)
1
X
Z,
M = (Z
(I P)Z)
1
y el vector

G
=
_

G
_
Entonces,
(i)

G
= (X
X)
1
X
(YZ
G
) =

L
G
(ii)

G
= (Z
(I P)Z)
1
Z
(I P)Y
(iii) SCR
G
= Y
(I P
G
)Y = (YZ
G
)
(I P)(YZ
G
)
(iv) SCR
G
= SCR
G
Z
(I P)Y
(v)
var(
G
) =
2
_
(X
X)
1
+LML
LM
ML
M
_
Demostraci on:
Se puede reseguir sin mayor dicultad todos los c alculos que hemos realizado en el aparta-
do anterior. El unico detalle importante es que debe demostrarse que la matriz Z
(IP)Z
es inversible. Este resultado y los detalles de la demostraci on pueden verse en Seber [65,
p ag. 65].
A partir de estas f ormulas se deduce que, una vez invertida la matriz X
X, podemos hallar

G
y su matriz de varianzas-covarianzas var(
G
) simplemente invirtiendo Z
(IP)Z t t
y no se necesita calcular la inversa de la matriz W
W (m+t) (m+t).
Estos resultados se pueden utilizar de diversas formas en modelos de An alisis de la Va-
rianza y de An alisis de la Covarianza. Para introducir un grupo de variables en un modelo
de regresi on es mejor hacerlo de una en una, lo que se llama regresi on paso a paso.
4.2. Mnimos cuadrados generalizados
Hasta este momento se ha presentado la teora de los modelos lineales Y = X + con
la asunci on de las hip otesis E() = 0 y var() =
2
I. Vamos ahora a estudiar lo que
ocurre cuando permitimos a los
i
ser correlacionados. En particular, vamos a considerar
el modelo lineal m as general
Y = X + E() = 0, var() =
2
V (4.10)
donde V es una matriz n n denida positiva con valores plenamente conocidos.
Dado que V es denida positiva, existe una matriz nn K no singular tal que V = KK
y con la que podemos transformar el modelo anterior

K
1
Y = K
1
X + K
1
Z = B +
(4.11)
donde B es n r, rgB = rgX y adem as
E() = K
1
E() = 0
var() =
2
K
1
V(K
1
)
=
2
I
60
de forma que el modelo 4.11 verica las condiciones del modelo lineal ordinario. As es
posible calcular el estimador MC de que minimiza
.
Denici on 4.2.1
Un estimador
es un estimador MCG de para el modelo 4.10 si y s olo si
es un
estimador MC ordinario para el modelo 4.11. En el caso particular de que la matriz V
sea diagonal se llama MC ponderado.
En consecuencia, un estimador MCG
de satisface la ecuaci on
B(B
B)
Z = B
K
1
X((K
1
X)
K
1
X)
(K
1
X)
K
1
Y = K
1
X
X(X
V
1
X)
V
1
Y = X
Como un estimador MCG es simplemente un estimador MC ordinario del modelo trans-

formado, es de esperar que tenga las mismas propiedades optimas.
Propiedades
(a) Si X es de rango m aximo, la estimaci on MC se puede obtener de las ecuaciones
normales
= (B
B)
1
B
Z = (X
V
1
X)
1
X
V
1
Y
con las siguientes propiedades
E(
) = (X
V
1
X)
1
X
V
1
(X) =
var(
) =
2
(B
B)
1
=
2
(X
V
1
X)
1
SCR = (Z B
(Z B
) = (YX
V
1
(YX
)
(b) Una funci on parametrica a
es estimable en el modelo 4.10 si y s olo si es estimable

en el modelo 4.11.
En efecto, si a
es estimable en el modelo 4.10 podemos escribir

a
= b
X = (b
K)K
1
X = c
B
luego tambien es estimable en el modelo 4.11.
Si a
es estimable en el modelo 4.11, entonces

a
= c
B = c
K
1
X = (c
K
1
)X = b
X
luego es estimable en el modelo 4.10.
(c) Para una f.p.e. a
, el estimador MCG es el mejor estimador lineal, en el sentido

de insesgado y de varianza mnima, y adem as es unico.
Aplicando el teorema 3.2.1 de Gauss-Markov al modelo 4.11, sabemos que a
es
el estimador lineal insesgado y de mnima varianza entre todas las combinaciones
lineales del vector K
1
Y. Sin embargo, cualquier combinaci on lineal de Y se puede
obtener de K
1
Y porque K
1
es inversible. Luego el estimador MCG es el mejor.
Tambien por una propiedad anterior sabemos que es unico.
61
Para un modelo de rango no m aximo y en el caso ordinario hemos visto que un estimador
debe vericar la ecuaci on PY = X
, donde P es el operador proyecci on ortogonal sobre

el subespacio X). Veamos una propiedad similar en el caso generalizado.
Teorema 4.2.1
Un estimador MCG
en el modelo 4.10 verica la ecuaci on AY = X
donde A =
X(X
V
1
X)
V
1
es una matriz idempotente pero no, en general, simetrica.
Demostraci on:
Se trata de probar que A es una especie de operador proyecci on sobre X) aunque no
necesariamente ortogonal.
Por la denici on de estimador MCG ya hemos visto que
X(X
V
1
X)
V
1
Y = AY = X
Es f acil ver que AA = A de manera que A es idempotente y no necesariamente simetrica,

veamos ahora que A es un operador proyecci on sobre X), en el sentido de que A) = X)
de modo que AY X).
La proyecci on ortogonal sobre K
1
X) es
K
1
X[(K
1
X)
(K
1
X)]
(K
1
X)
Por la denici on de proyecci on se verica

K
1
X[(K
1
X)
(K
1
X)]
(K
1
X)
K
1
X = K
1
X
K
1
AX = K
1
X
AX = X
y en consecuencia X) A). Pero tambien tenemos que
A = X[(X
V
1
X)
V
1
]
y por tanto A) X).
Para una funci on parametrica estimable a
con a
= b
X, el estimador MCG es a
=
b
AY. Vamos a calcular su varianza.

En primer lugar
var(X
) = var(AY) =
2
AVA
=
2
AV
=
2
X(X
V
1
X)
de forma que si a
es estimable
var(a
) =
2
a
(X
V
1
X)
a
Tambien es necesario obtener un estimador para
2
.
A partir del modelo 4.11
SCR = (K
1
Y)
[I K
1
X((K
1
X)
(K
1
X))
]K
1
Y
= Y
(I A)
V
1
(I A)Y
62
y como rg(K
1
X) = rg(X), tenemos
2
= Y
(I A)
V
1
(I A)Y/(n r)
Adem as, cuando asumimos la hip otesis de normalidad N(0,
2
V) se verican otras
propiedades tambien heredadas del caso ordinario. En especial, cualquier estimador MCG
de es de m axima verosimilitud. Tambien, para cualquier funci on estimable a
el esti-
mador MCG es insesgado de varianza mnima.
En cuanto a las distribuciones asociadas, si tiene distribuci on normal, la SCR es inde-
pendiente de K
1
X
, ya que cov(B
, Z B
) = 0, y en consecuencia independiente
de X
.
Es evidente que X
se distribuye normalmente y se demuestra que SCR/

2

2
.
As pues, para una funci on parametrica estimable a
2
a
(X
V
1
X)a]
1/2
t
nr
lo que se puede utilizar para el c alculo de intervalos de conanza de a
o en contrastes
de hip otesis.
Por ultimo nos podemos preguntar si la estimaci on generalizada
puede coincidir con

la ordinaria

y en que circunstancias. La respuesta es que ambas estimaciones coinciden
si y s olo si V
1
X) = X) que es equivalente a VX) = X). La demostraci on puede
verse en [65, p ag. 63].
4.3. Otros metodos de estimaci on
4.3.1. Estimaci on sesgada
Dado el modelo lineal ordinario Y = X + , donde E() = 0 y var() =
2
I, sabemos
que el estimador MC a
es el estimador insesgado de varianza mnima para una f.p.e. a
cuando tiene distribuci on normal, y el estimador lineal insesgado de varianza mnima

sin la hip otesis de normalidad. Pero el hecho de ser un estimador de varianza mnima
no garantiza que esta sea realmente peque na. Ya hemos visto en el apartado 3.3 c omo se
calcula dicha varianza en funci on de los valores propios de la matriz X
X y una posible
soluci on propuesta por Silvey. Veamos ahora otra propuesta cuando en un modelo de
rango m aximo, X
X est a cerca de la singularidad, es decir, cuando uno o m as de sus

valores propios son casi cero.
Consideremos la llamada varianza total de los estimadores de los par ametros en un modelo
m
i=1
var(
i
) =
2
tr[(X
X)
1
] =
2
m
i=1
1
i
>
2
1
m
donde
m
> 0 es el m as peque no de los valores propios de X
X. En la pr actica, aunque la
matriz X sea de rango m aximo, puede ocurrir que
m
sea muy peque no y en consecuencia
provocar que la varianza total sea muy grande.
63
Para solucionar este problema Hoerl y Kennard (1970) introducen los ridge estimators
(k)
= (X
X+kI)
1
X
Y
= (X
X+kI)
1
X
= (I +k(X
X)
1
)
1
= K
donde k 0 es un escalar a elegir de forma que, si no es cero,

(k)
es un estimador sesgado
de .
Las principales razones para la utilizaci on de estos estimadores son:
Los gr acos de los componentes de

(k)
y de sus correspondientes SCR al variar k
permiten estudiar la enfermedad de X.
Es posible elegir un valor de k tal que los coecientes de regresi on tengan valores
razonables y la SCR no sea muy grande.
Se ha demostrado que es posible hallar un k que, por un peque no incremento del
sesgo, reduce la varianza total y, en consecuencia, el error cuadr atico medio total.
El estudio de generalizaciones de estos estimadores y sus propiedades ha tenido bastante
exito.
4.3.2. Estimaci on robusta
En el captulo anterior se ha demostrado que, mientras se verique la hip otesis de nor-
malidad para las observaciones, los estimadores obtenidos por el metodo de los mnimos
cuadrados gozan de muy buenas propiedades. Sin embargo, tambien se han estudiado
los resultados cuando las observaciones siguen distribuciones distintas de la normal y se
ha constatado que el metodo de los mnimos cuadrados falla en muchos aspectos. En
especial, cuando la distribuci on de los errores tiene una alta curtosis los estimadores
mnimo-cuadr aticos son muy poco ecientes, comparados con estimadores robustos de
localizaci on (ver Andrews et al.[4, cap. 7]). Puede probarse (ver Pe na [54, p ag. 465]) que
en estas situaciones la estimaci on de m axima verosimilitud es equivalente a minimizar
una funci on ponderada de los errores, que proporcione menos pesos a los residuos m as
grandes. Se trata de calcular estimadores que minimicen
i
(
i
)
2
i
donde
i
(
i
) es una funci on para reducir el efecto de los datos con un residuo muy alto. Los
metodos de estimaci on robusta que utilicen esta idea requieren la denici on de la funci on
de ponderaci on y un procedimiento iterativo para acercarnos a los valores
i
(
i
), ya
que los errores
i
son, en principio, desconocidos. Entre las propuestas m as interesantes
destaca la funci on de ponderaci on de Huber (1981)
i
=
_
_
1
2
si [r
i
[ < c
c
r
i
1
2
c
r
i
2
si [r
i
[ c
64
donde los r
i
son los residuos estudentizados y c una constante entre 1,5 y 2 que establece el
grado de protecci on. Para calcular la estimaci on de los par ametros se toma inicialmente
la mnimo cuadr atica ordinaria, se calculan los residuos y con ellos las ponderaciones para
la siguiente estimaci on, y as sucesivamente.
Otra alternativa es minimizar
i
[
i
[ con respecto a . Este es un problema de minimi-
zaci on de una norma L1 que se puede reducir a un problema de programaci on lineal y a
un procedimiento similar al metodo del simplex, aunque la soluci on no siempre es unica y
algunos de los algoritmos proporcionan estimadores sesgados. Otros procedimientos ite-
rativos propuestos no tienen resuelta la cuesti on de la convergencia y el sesgo (ver Seber
[65, p ag. 91]).
4.3.3. Mas posibilidades
Tambien se ha estudiado el problema de la estimaci on mnimo cuadr atica sujeta a las
restricciones
i
0, i = 1, . . . , m.
Por otra parte, en algunos problemas de regresi on, los datos de la variable respuesta
pueden ser censurados, es decir, los valores de algunas observaciones s olo se conocen si
son superiores (o inferiores) a alg un valor dado. Esto se suele producir en problemas
donde la variable observada es el tiempo de vida. En estos casos el metodo cl asico de los
mnimos cuadrados no sirve y se han estudiado otros procedimientos (ver Seber [65, p ag.
90]).
65
4.4. Ejercicios
Ejercicio 4.1
Sea el modelo lineal
y
1
=
1
+
2
+
1
y
2
=
1
2
2
+
2
y
3
= 2
1
2
+
3
Hallar las estimaciones MC de
1
y
2
. Utilizando el metodo mnimo-cuadr atico en dos
pasos, hallar la estimaci on MC de
3
, cuando el modelo se ampla en la forma
y
1
=
1
+
2
+
3
+
1
y
2
=
1
2
2
+
3
+
2
y
3
= 2
1
2
+
3
+
3
Ejercicio 4.2
Un experimentador desea estimar la densidad d de un lquido mediante el pesado de
algunos vol umenes del lquido. Sean y
i
los pesos para los vol umenes x
i
, i = 1, . . . , n y
sean E(y
i
) = dx
i
y var(y
i
) =
2
f(x
i
). Hallar el estimador MC de d en los siguientes casos:
(a) f(x
i
) 1 (b) f(x
i
) = x
i
(c) f(x
i
) = x
2
i
66
Captulo 5
Contraste de hip otesis lineales
5.1. Hip otesis lineales contrastables
Consideremos el modelo lineal Y = X +, donde E(Y) = X y var(Y) =
2
I.
Una hip otesis lineal consiste en una o varias restricciones lineales planteadas sobre los
par ametros . En un dise no de rango m aximo rg X = m vamos a ver que cualquier
hip otesis lineal es contrastable (testable o demostrable), es decir, es posible encontrar un
estadstico (el test F del teorema 5.3.1) mediante el cual podemos decidir si se rechaza o
acepta la hip otesis. Si rg X = r < m, entonces pueden existir hip otesis estadsticamente
no contrastables.
Denici on 5.1.1
Una hip otesis lineal de rango q sobre los par ametros es un conjunto de restricciones
lineales
a
i1
1
+ +a
im
m
= 0 i = 1, . . . , q
Si escribimos la matriz de la hip otesis como
A =
_
_
_
a
11
a
1m
.
.
.
.
.
.
.
.
.
a
q1
a
qm
_
_
_
rg A = q
entonces las restricciones se resumen en
H
0
: A = 0
Una hip otesis se dice que es contrastable o demostrable si el conjunto A es un sistema
de funciones parametricas estimables. Entonces, las las de A son combinaci on lineal de
las las de la matriz de dise no X, es decir, que existe una matriz B de tama no q n tal
que
A = BX
Tambien B puede ser q k si consideramos la matriz de dise no reducida X
R
k m.
Cuando X no es de rango m aximo, un conjunto de restricciones A = 0 donde las
las de A son linealmente independientes de las las de X no forman una alternativa al
modelo general, en el sentido de un modelo m as sencillo. En realidad son restricciones que
permiten identicar mejor las estimaciones indeterminadas que resultan de las ecuaciones
67
normales. Por ello exigimos que las las de A sean linealmente dependientes de las las de
X y que el rango de la matriz A q m sea q. De hecho, cualquier ecuaci on a
i
= 0 para
la que a
i
sea linealmente independiente de las las de X puede ignorarse y la hip otesis
contrastable estar a formada por el resto de las ecuaciones.
Una caracterizaci on para saber si una hip otesis lineal es contrastable es
A(X
X)
X = A
Este resultado es una generalizaci on del que se ha demostrado en la p agina 42 para una
funci on parametrica estimable (ver ejercicio 5.3).
5.2. El modelo lineal de la hip otesis
El modelo lineal inicial Y = X +, que se supone v alido, constituye la hip otesis alter-
nativa
H
1
: Y = X + rg X = r
Por otra parte, el modelo lineal junto con la restricci on lineal contrastable forman la
hip otesis nula
H
0
: Y = X + A = 0 rg A = q
Pero esta restricci on lineal transforma los par ametros y la matriz de dise no X en un
nuevo modelo llamado el modelo lineal de la hip otesis
H
0
: Y =

X + rg

X = r q > 0
que es otra forma de plantear la hip otesis nula.
Existen varios procedimientos para estimar o bajo la hip otesis nula y calcular la suma
de cuadrados residual.
Metodo 1
Si la hip otesis es contrastable, las las de A son combinaci on lineal de las las de X. El
subespacio A
) generado por las las de A est a incluido en el subespacio X
) generado
por las las de X. Existe entonces una base ortogonal
v
1
, . . . , v
q
, v
q+1
, . . . , v
r
, v
r+1
. . . , v
m
tal que
A
) = v
1
, . . . , v
q
) v
1
, . . . , v
q
, v
q+1
, . . . , v
r
) = X
) R
m
Sea entonces C una matriz m r
, con r
= r q, construida tomando los vectores

columna v
q+1
, . . . , v
r
C = (v
q+1
, . . . , v
r
)
y denamos el vector parametrico = (
1
, . . . ,
r
)
tal que
= C
Los par ametros constituyen la reparametrizaci on inducida por la hip otesis H
0
, pues
A = AC = 0 = 0
68
El modelo Y = X + bajo la restricci on A = 0, se convierte en
E(Y) = XC =

X
y la matriz de dise no se transforma en
X = XC
relaci on tambien v alida para la matriz de dise no reducida
X
R
= X
R
C
La estimaci on MC de los par ametros es
= (
X)
1
Y
La suma de cuadrados residual bajo la restricci on A = 0 es
SCR
H
= mn
A=0
(YX)
(YX) = (Y

X
(Y

X
)
= Y
Y
Metodo 2
Introduzcamos q multiplicadores de Lagrange
= (
1
, . . . ,
q
)
uno para cada restricci on lineal. El mnimo restringido de (Y X)
(Y X) se halla
igualando a cero las derivadas respecto a cada
i
de
n
i=1
(y
i
x
i1
1
x
im
m
)
2
+
q
i=1
i
(a
i1
1
+ +a
im
m
)
En notaci on matricial, donde ahora X es la matriz ampliada, escribiremos
f(, ) = (YX)
(YX) + (
)
f/ = 2X
Y + 2X
X +A
= 0
X
X = X
Y
1
2
A
(5.1)
La soluci on es
H
= (X
X)
Y
1
2
(X
X)
H
=

1
2
(X
X)
H
y como A
H
= 0, resulta
0 = A

1
2
A(X
X)
H
69
La matriz A(X
X)
posee inversa, puesto que es de rango q, as

1
2
H
= (A(X
X)
)
1
(A
)
y nalmente tenemos que la estimaci on MC restringida es
H
=

(X
X)
(A(X
X)
)
1
A
(5.2)
SCR
H
= (YX
H
)
(YX
H
)
Hemos visto (teorema 2.5.1) que la forma can onica de la suma de cuadrados residual bajo
el modelo sin restricciones es
SCR = z
2
r+1
+ +z
2
n
La hip otesis H
0
: A = 0, que implica

X = XC, signica que las columnas de

X son
combinaci on lineal de las de X. Luego los subespacios generados por dichas columnas
verican
X) X) R
n
(5.3)
Podemos entonces construir una base ortogonal
u
1
, . . . , u
r
, u
r
+1
, . . . , u
r
, u
r+1
, . . . , u
n
tal que
X) = u
1
, . . . , u
r
) X) = u
1
, . . . , u
r
)
Entonces, si se cumple la hip otesis, por identico razonamiento al seguido en el teorema
2.5.1 tendremos que la forma can onica de la suma de cuadrados residual bajo el modelo
H
0
es
SCR
H
= z
2
r
+1
+ +z
2
n
Adem as, siempre se vericar a que SCR
H
> SCR pues
SCR
H
SCR =
r
+1
z
2
i
Ejemplo 5.2.1
Consideremos el siguiente modelo lineal normal
y
1
=
1
+
2
+
1
y
2
= 2
2
+
2
y
3
=
1
+
2
+
3
y la hip otesis lineal
H
0
:
1
= 2
2
Las matrices de dise no y de la hip otesis son
X =
_
_
1 1
0 2
1 1
_
_
A = (1 2) rg X = 2 rg A = 1
70
Como A es combinaci on lineal de las las de X, H
0
es una hip otesis contrastable. Adem as,
en este caso particular el rango de la matriz de dise no es m aximo, de modo que toda
hip otesis lineal es contrastable.
Con unos sencillos c alculos, tenemos:
Ecuaciones normales
2
1
+ 0
2
= y
1
y
3
0
1
+ 6
2
= y
1
+ 2y
2
+y
3
Estimaciones MC
1
= (y
1
y
3
)/2

2
= (y
1
+ 2y
2
+y
3
)/6
Suma de cuadrados residual
SCR = y
2
1
+y
2
2
+y
2
3
2
2
1
6
2
2
Si consideramos los vectores columna
v
1
= (1, 2)
v
2
= (2, 1)
que constituyen una base ortogonal de R

2
, se verica
A
) = v
1
) X
) = v
1
, v
2
)
Podemos entonces tomar la matriz
C = (2, 1)
que verica AC = 0. La reparametrizaci on = C es
1
= 2
2
=
El modelo bajo la hip otesis es ahora
y
1
= 3 +
1
y
2
= 2 +
2
y
3
= +
3
Finalmente
= (3y
1
+ 2y
2
y
3
)/14
SCR
H
= y
2
1
+y
2
2
+y
2
3
14
2
5.3. Teorema fundamental del Analisis de la Varian-
za
En esta secci on vamos a deducir el test F que nos permite decidir sobre la aceptaci on de
una hip otesis lineal contrastable.
71
Teorema 5.3.1
Sea Y = X+ un modelo lineal normal, de manera que Y N(X,
2
I). Consideremos
una hip otesis lineal contrastable
H
0
: A = 0 rango A = q
entonces, los estadsticos
SCR = (YX
(YX
)
SCR
H
= (Y

X
(Y

X
)
verican:
(i) SCR/
2

2
nr
(ii) Si H
0
es cierta
SCR
H
/
2

2
nr
(r
= r q)
(SCR
H
SCR)/
2

2
q
(iii) Si H
0
es cierta, los estadsticos SCR
H
SCR y SCR son estoc asticamente indepen-
dientes.
(iv) Si H
0
es cierta, el estadstico
F =
(SCR
H
SCR)/q
SCR/(n r)
(5.4)
sigue la distribuci on F de Fisher-Snedecor con q y n r grados de libertad.
Demostraci on:
(i) Aunque este resultado ya se ha establecido en el teorema 3.4.2, nos interesa ahora
su demostraci on explcita. En el teorema 2.5.1 se ha visto que
SCR = z
2
r+1
+ +z
2
n
donde las z
i
son normales, independientes y adem as E(z
i
) = 0, var(z
i
) =
2
. Luego
SCR/
2
es suma de los cuadrados de n r variables N(0, 1) independientes.
(ii) La forma can onica de la suma de cuadrados residual bajo la restricci on A = 0 es
SCR
H
= z
2
r
+1
+ +z
2
n
luego an alogamente tenemos que SCR
H
/
2

2
nr
, donde r
= r q. Adem as
SCR
H
SCR = z
2
r
+1
+ +z
2
r
es tambien una suma de cuadrados en las mismas condiciones.
(iii) Las variables z
r
+1
, . . . , z
n
son normales e independientes. SCR
H
SCR depende de
las q primeras, mientras que SCR depende de las n r ultimas y no hay terminos
comunes. Luego son estoc asticamente independientes.
72
(iv) Es una consecuencia evidente de los apartados anteriores de este teorema. Si H
0
es
cierta, el estadstico
F =
[(SCR
H
SCR)/
2
]/q
(SCR/
2
)/(n r)
=
(SCR
H
SCR)/q
SCR/(n r)
sigue la distribuci on F de Fisher-Snedecor con q y n r grados de libertad.
Observese que F no depende del par ametro desconocido

2
y se puede calcular exclusi-
vamente en funci on de las observaciones Y.
La expresi on de SCR es
SCR = Y
(I P)Y = Y
Y
Veamos que, del mismo modo, la expresi on de SCR
H
es
SCR
H
= Y
H
X
Y
donde

H
es la estimaci on MC de restringida a A = 0.
En efecto,
SCR
H
= (YX
H
)
(YX
H
) = Y
Y2Y
H
+
H
X
H
Adem as (ver p agina 69), se verica
X
H
= X
Y
1
2
A
H
luego
SCR
H
= Y
Y2Y
H
+
H
(X
Y
1
2
A
H
)
= Y
Y2Y
H
+Y
H

1
2
H
A
H
Pero como A
H
= 0, nos queda
SCR
H
= Y
YY
H
Calculemos ahora SCR
H
SCR. Considerando 5.2 tenemos
H
= (A
(A(X
X)
)
1
A(X
X)
luego
SCR
H
SCR = (
H
)X
Y
= (A
(A(X
X)
)
1
A(X
X)
Y
= (A
(A(X
X)
)
1
(A
)
(5.5)
73
El estadstico F puede escribirse entonces
F =
(A
(A(X
X)
)
1
(A
)
q
2
(5.6)
donde
2
= SCR/(n r).
Cuando q > 2 es mejor obtener SCR y SCR
H
directamente por minimizaci on de
sin
restricciones y con restricciones, respectivamente. Sin embargo, si q 2 se puede utilizar
la f ormula 5.6, ya que la matriz a invertir A(X
X)
es s olo de orden uno o dos.

Observese que si A = 0 es cierta, entonces A
0. Luego es probable que F no sea

signicativa.
Cuando sea posible, tambien se puede utilizar la matriz de dise no reducida X
R
, junto con
las matrices D y

Y. Las expresiones son entonces
SCR = Y
Y

Y
DX
R
(X
R
DX
R
)
R
D
Y
SCR
H
SCR = (A
(A(X
R
DX
R
)
(A
)
El c alculo de ambas cantidades se suele expresar en forma de tabla general del an alisis
de la varianza (ver tabla 5.1).
grados de suma de cuadrados
libertad cuadrados medios cociente
Desviaci on
hip otesis q SCR
H
SCR (SCR
H
SCR)/q F
Residuo n r SCR SCR/(n r)
Cuadro 5.1: Tabla general del an alisis de la varianza
Criterio de decisi on
Si F > F
se rechaza H
0
; si F F
se acepta H
0
.
Donde, para un nivel de signicaci on , F
se elige
de forma que P(F
q,nr
> F
) = .
Del teorema 5.3.1 deducimos que, si H
0
es cierta, entonces
E[(SCR
H
SCR)/q] =
2
Luego (SCR
H
SCR)/q y SCR/(nr) son dos estimaciones independientes de la varianza
2
. El test F nos indica hasta que punto coinciden. Un valor grande de F indica que la
primera estimaci on diere demasiado de la varianza
2
y entonces H
0
debe ser rechazada.
Se puede demostrar adem as (ver ejercicio 5.7) que en general
E(SCR
H
SCR) = q
2
+ (A)
(A(X
X)
(A) (5.7)
74
Ejemplo 5.3.1
Para decidir sobre la hip otesis H
0
:
1
= 2
2
en el ejemplo 5.2.1 calcularemos
F =
(SCR
H
SCR)/1
SCR/(3 2)
=
14
2
+ 2
2
1
+ 6
2
2
y
2
1
+y
2
2
+y
2
3
2
2
1
6
2
2
Si utilizamos 5.6, se obtiene una expresi on m as sencilla
F =
(
1
2
2
)
2
(SCR/1)(7/6)
En cualquier caso, se decide por la signicaci on en una distribuci on F
1,1
con 1 y 1 grados
de libertad.
Ejemplo 5.3.2 Dise no cross-over simplicado
Supongamos una experiencia clnica en la que se desean comparar dos f armacos a y b,
para combatir una determinada enfermedad. El estado de los pacientes se valora mediante
una cierta variable cuantitativa Y .
En el dise no cross-over la experiencia se organiza asignando a N
a
pacientes el trata-
miento a y a N
b
pacientes el tratamiento b, en un primer periodo. En un segundo periodo,
los que tomaban a pasan a tomar b y recprocamente. En este dise no los datos son de la
forma:
Grupo 1 media varianza
a (primera vez) y
11
y
12
. . . y
1Na
y
1
s
2
1
=
1
Na
Na
i=1
(y
1i
y
1
)
2
b (despues de a) y
21
y
22
. . . y
2Na
y
2
s
2
2
=
1
Na
Na
i=1
(y
2i
y
2
)
2
Grupo 2
b (primera vez) y
31
y
32
. . . y
3N
b
y
3
s
2
3
=
1
N
b
N
b
i=1
(y
3i
y
3
)
2
a (despues de b) y
41
y
42
. . . y
4N
b
y
4
s
2
4
=
1
N
b
N
b
i=1
(y
4i
y
4
)
2
Indicando
= media general
= efecto f armaco a
= efecto f armaco b
= efecto recproco entre a y b
se propone el siguiente modelo:
a (primera vez) y
1i
= + +
1i
i = 1, . . . , N
a
b (despues de a) y
2i
= + + +
2i
i = 1, . . . , N
a
b (primera vez) y
3i
= + +
3i
i = 1, . . . , N
b
a (despues de b) y
4i
= + + +
4i
i = 1, . . . , N
b
75
Es decir, cuando s olo se ha tomado un f armaco act ua un solo efecto, pero cuando se ha
tomado uno despues del otro act ua entonces un efecto aditivo que recoge la mejora del
enfermo que ya ha tomado el primer medicamento.
Tenemos k = 4 condiciones experimentales, que en el cross-over simplicado se consi-
deran independientes, y N
1
= N
2
= N
a
, N
3
= N
4
= N
b
. El vector de observaciones Y y
la matriz de dise no reducida X
R
son
Y = (y
11
, . . . , y
1Na
, y
21
, . . . , y
2Na
, y
31
, . . . , y
3N
b
, y
41
, . . . , y
4N
b
)
X
R
=
_
_
_
_
1 1 0 0
1 0 1 1
1 0 1 0
1 1 0 1
_
_
_
_
rg X
R
= 3
La hip otesis nula de mayor interes es
H
0
: = a y b tienen la misma efectividad
que expresada en forma de hip otesis lineal es
H
0
:
_
0 1 1 0
_
_
_
_
_
_
_
_
_
= 0
Como el vector
_
0 1 1 0
_
es combinaci on lineal de las las de X
R
, se trata de una
hip otesis contrastable. Para reparametrizar el dise no bajo H
0
tomaremos como matriz
ortogonal a A
C =
_
_
_
_
2/3 0
1/3 0
1/3 0
0 1
_
_
_
_
Observese que las columnas de C son tambien combinaci on lineal de las las de X
R
.
Al establecer la relaci on = C tendremos
=
_

1
2
_
siendo
1
= + = + y
2
= .
Es decir, bajo H
0
el dise no reparametrizado depende de dos par ametros:
1
: efecto debido a la medicaci on (com un a a y b bajo H
0
)
2
: efecto recproco entre a y b
y la nueva matriz de dise no es
X
R
= X
R
C =
_
_
_
_
1 0
1 1
1 0
1 1
_
_
_
_
76
siendo rg

X
R
= r t = 3 1 = 2.
Si el dise no es balanceado (N
a
= N
b
), entonces N = 4N
a
= 4N
b
y se puede calcular que
SCR =
N
a
4
(y
1
+y
2
y
3
y
4
)
2
+N
a
_
4
i=1
s
2
i
_
con N 3 grados de libertad
SCR
H
=
N
a
4
[(y
1
+y
2
y
3
y
4
)
2
+ (y
1
y
2
y
3
+y
4
)
2
] +N
a
_
4
i=1
s
2
i
_
con N 2 grados de libertad.
Luego, si H
0
es cierta, bajo el modelo lineal normal, el estadstico
F =
(y
1
y
2
y
3
+y
4
)
2
4 SCR
N
a
(4N
a
3)
sigue la distribuci on F con 1 y N 3 g.l..
La tabla 5.2 contiene los datos de dos grupos de 10 y 10 enfermos reum aticos a los que se
valor o la variaci on del dolor respecto del estado inicial, mediante una escala convencional,
con el deseo de comparar dos f armacos antirreum aticos a y b, administrados a lo largo
de dos meses. Se incluye adem as la tabla del an alisis de la varianza para contrastar H
0
.
Grupo 1 Grupo 2
a (mes 1) b (mes 2) b (mes 1) a (mes 2)
17 17 21 10
34 41 20 24
26 26 11 32
10 3 26 26
19 -6 42 52
17 -4 28 28
8 11 3 27
16 16 3 28
13 16 16 21
11 4 -10 42
Cuadro 5.2: Datos de los enfermos reum aticos
g.l. suma de cuadrados F
cuadrados medios
Entre f armacos 1 783.2 783.2 4.71 (p < 0,05)
Residuo 37 6147.9 166.2
Cuadro 5.3: Tabla del an alisis de la varianza para H
0
: =
Con estos datos se han detectado diferencias signicativas entre los dos f armacos a y
b. Para estimar la ecacia de cada f armaco, pasaremos a considerar las funciones pa-
rametricas
a
= +
b
= +
77
que son ambas estimables.
Para estimar
a
,
b
hallaremos primeramente una estimaci on MC de los par ametros:
= 0 = 20,975

= 12,125
Aplicando el teorema de Gauss-Markov, las estimaciones optimas de
a
,
b
se obtienen
sustituyendo par ametros por estimaciones MC, es decir
a
= + = 20,975

b
= +

= 12,125
Por otra parte, las expresiones en funci on de las medias y las varianzas mnimas corres-
pondientes son:
a
= 3/4 y
1
1/4 y
2
+ 1/4 y
3
+ 1/4 y
4
var(
a
) = 0,075
2
b
= 1/4 y
1
+ 1/4 y
2
+ 3/4 y
3
1/4 y
4
var(
b
) = 0,075
2
5.3.1. Un contraste mas general
Consideremos la hip otesis nula
H
0
: A = c A es q m, rg A = q
donde c es un vector columna que l ogicamente debe ser combinaci on lineal de las columnas
de A. Tambien suponemos que las las de A son combinaci on lineal de las las de X, de
manera que A es un conjunto de funciones parametricas estimables.
Sea
0
tal que A
0
= c y consideremos =
0
. Entonces, si en el modelo lineal
YX
0
= X(
0
) +
ponemos

Y = YX
0
, obtenemos el modelo transformado
Y = X + (5.8)
y en este modelo la hip otesis planteada adopta la expresi on
H
0
: A = 0
La estimaci on MC del conjunto de funciones parametricas estimables A en este modelo
transformado es
A =BX(X
X)
Y
= BP(YX
0
) = BX
BX
0
= A
A
0
= A
c
En consecuencia, de la ecuaci on 5.5 se deduce
SCR
H
SCR = (A )
(A(X
X)
)
1
(A )
= (A
c)
(A(X
X)
)
1
(A
c)
donde

es tal que X
= X
Y. Se verica tambien
E(SCR
H
SCR) = q
2
+ (A c)
(A(X
X)
)
1
(A c)
78
Finalmente, a partir de la f ormula 5.6 el test para contrastar la hip otesis es
F =
(A
c)
(A(X
X)
)
1
(A
c)/q
SCR/(n r)
(5.9)
donde, si es cierta la hip otesis nula, el estadstico F sigue una distribuci on F
q,nr
.
En el caso particular q = 1, donde la hip otesis es H
0
: a
= c, el test F se puede
simplicar en un test t con
t =
a
c
(
2
(a
(X
X)
a))
1/2
(5.10)
que sigue una distribuci on t
nr
, si H
0
es cierta.
Ejemplo 5.3.3
Contraste de medias en poblaciones normales con igual varianza
Sean u
1
, u
2
, . . . , u
n
1
y v
1
, v
2
, . . . , v
n
2
dos muestras aleatorias simples de dos poblaciones
normales N(
1
,
2
) y N(
2
,
2
), respectivamente.
Vamos a contrastar la hip otesis lineal H
0
:
1

2
= d con la ayuda de la teora de los
modelos lineales.
Podemos pensar que las observaciones son de la forma
u
i
=
1
+
i
i = 1, . . . , n
1
v
j
=
2
+
n
1
+j
j = 1, . . . , n
2
o en notaci on matricial
_
_
_
_
_
_
_
_
_
u
1
.
.
.
u
n
1
v
1
.
.
.
v
n
2
_
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_
_
1 0
.
.
.
.
.
.
1 0
0 1
.
.
.
.
.
.
0 1
_
_
_
_
_
_
_
_
_
_

1
2
_
+
_
_
_
_
_
_
_
_
_
1
.
.
.
n
1
n
1
+1
.
.
.
n
_
_
_
_
_
_
_
_
_
donde n = n
1
+n
2
. Observemos que, gracias a la igualdad de varianzas en las dos pobla-
ciones, se trata de un modelo lineal y se verican las condiciones de Gauss-Markov.
En este modelo, la matriz de dise no reducida es 2 2 de rango m aximo
X
R
=
_
1 0
0 1
_
y D =
_
n
1
0
0 n
2
_
As pues, la hip otesis nula es lineal y contrastable
H
0
:
1
2
= d H
0
:
_
1 1
_
_

1
2
_
= d q = 1
Con unos sencillos c alculos se obtiene
= (
1
,
2
)
= (X
R
DX
R
)
1
X
R
D
Y =

Y = ( u, v)
=
1

2
= u v
79
SCR = Y
Y

Y
DX
R
(X
R
DX
R
)
R
D
Y
=
i
u
2
i
+
j
v
2
j
n
1
u
2
n
2
v
2
=
i
(u
i
u)
2
+
j
(v
j
v)
2
A(X
R
DX
R
)
1
A
=
1
n
1
+
1
n
2
de modo que
F =
(A
c)
(A(X
R
DX
R
)
1
A
)
1
(A
c)
q
2
=
( u v d)
2

2
(1/n
1
+ 1/n
2
)
donde
2
= SCR/(n
1
+n
2
2) y cuya distribuci on, bajo H
0
, es una F
1,n
1
+n
2
2
.
Pero cuando q = 1, tenemos que F
1,n
1
+n
2
2
t
2
n
1
+n
2
2
y se deduce que el contraste es
equivalente al test t usual, en especial el caso d = 0.
5.3.2. Test de la raz on de verosimilitud
Para simplicar, consideremos un modelo de rango m aximo. Bajo la hip otesis de nor-
malidad de las observaciones, ya sabemos (ver p ag. 33) que las estimaciones de m axima
verosimilitud de los par ametros son
= (X
X)
1
X
Y
2
MV
= SCR/n
y el valor m aximo de la funci on de verosimilitud es
L(
,
2
MV
) = (2
2
MV
)
n/2
e
n/2
Del mismo modo, los estimadores de m axima verosimilitud de los par ametros con las
restricciones A = c son
H

2
H
= SCR
H
/n
y el valor m aximo de la funci on de verosimilitud, bajo la hip otesis nula, es
L(
H
,
2
H
) = (2
2
H
)
n/2
e
n/2
De modo que el estadstico de la raz on de verosimilitud es
=
L(
H
,
2
H
)
L(
,
2
MV
)
=
_

2
MV

2
H
_
n/2
Es f acil ver que
F =
n m
q
(
2/n
1)
luego son contrastes equivalentes.
80
5.4. Cuando el test es signicativo
Si el estadstico F para H
0
: A = c es signicativo, podemos investigar la causa del
rechazo de dicha hip otesis. Una posibilidad consiste en contrastar cada una de las res-
tricciones a
i
= c
i
, i = 1, . . . , q por separado, utilizando un test t para ver cual es la
responsable.
Hemos visto de varias formas que, bajo la hip otesis lineal H
i
: a
i
= c
i
, el estadstico t
i
verica
t
i
=
a
c
i
[
2
a
i
(X
X)
a
i
]
1/2
t
nr
de modo que podemos rechazar H
i
: a
i
= c
i
con un nivel de signicaci on si
[t
i
[ t
nr
()
donde t
nr
() es el valor de la tabla tal que P([t
nr
[ t
nr
()) = .
Tambien podemos construir intervalos de conanza para cada a
t
nr
() (a
i
(X
X)
a
i
)
1/2
Este procedimiento en dos etapas para el contraste de H
0
: A = c, es decir, un contraste
global F seguido de una serie de test t cuando F es signicativo, se conoce con el nombre
de MDS
1
o mnima diferencia signicativa. El valor signicativo mnimo es t
nr
() y la
palabra diferencia se reere a que este metodo se utiliza con frecuencia para comparar
par ametros tales como medias dos a dos.
Este metodo es simple y vers atil, sin embargo tiene sus debilidades: es posible rechazar
H
0
y no rechazar ninguna de las H
i
. Este problema, otras dicultades y, en general, otros
metodos de inferencia simult anea se estudian de forma m as completa en lo que se llama
Metodos de comparaci on m ultiple.
5.5. Contraste de hip otesis sobre funciones parame-
tricas estimables
Sea = (
1
, . . . ,
q
)
= A un sistema de funciones parametricas estimables, de modo

que las las de la matriz A sean linealmente independientes. La distribuci on F que sigue
la expresi on 3.3 permite construir diferentes contrastes de hip otesis bajo el modelo lineal
normal.
Sea c = (c
1
, . . . , c
q
)
un vector de constantes, con la condici on de que c sea combinaci on

lineal de las columnas de A. Planteamos la hip otesis nula
H
0
: A = c (5.11)
Para decidir la aceptaci on de H
0
, como una consecuencia de 3.3, podemos utilizar el
estadstico
F =
(A
c)
(A(X
X)
)
1
(A
c)/q
SCR/(n r)
(5.12)
1
en ingles: LSD o least signicant dierence
81
con distribuci on F
q,nr
. Pero es evidente que 5.11 es una hip otesis lineal contrastable, de
modo que podemos utilizar el test F que resulta ser identico al anterior. Es otra forma
de demostrar 5.9 y tambien que
SCR
H
SCR = (A
c)
(A(X
X)
)
1
(A
c)
Adem as, podemos plantear otras hip otesis sobre las funciones parametricas estimables ,
siempre que sean lineales. Por ejemplo, consideremos ahora la hip otesis lineal planteada
sobre las q funciones linealmente independientes
H
0
:
1
=
2
= =
q
(5.13)
es decir, bajo H
0
las q funciones son iguales. Si consideramos las nuevas funciones
i
=
1
i+1
i = 1, . . . , q 1
entonces 5.13 se reduce a 5.11 tomando

= (
1
, . . . ,

q1
)
, c = 0 y sustituyendo q por
q 1. Dicho de otra manera, sea la matriz
A =
_
_
_
_
_
a
11
a
12
. . . a
1m
a
21
a
22
. . . a
2m
.
.
.
.
.
.
.
.
.
a
q1
a
q2
. . . a
qm
_
_
_
_
_
Entonces 5.13 es equivalente a la hip otesis lineal
H
0
: A
= 0
tomando como matriz de hip otesis
A
=
_
_
_
a
11
a
21
a
12
a
22
. . . a
1m
a
2m
.
.
.
.
.
.
.
.
.
a
11
a
q1
a
12
a
q2
. . . a
1m
a
qm
_
_
_
Luego podemos utilizar el estadstico F de 5.6, con A
y q 1, que bajo H
0
tiene distri-
buci on F
q1,nr
, para decidir si 5.13 debe ser aceptada.
5.6. Elecci on entre dos modelos lineales
5.6.1. Sobre los modelos
Para la estimaci on en el modelo lineal
Y = X + E() = 0, var() =
2
I
hemos establecido (ver p ag. 28) que el punto crucial es la utilizaci on de la matriz P,
proyecci on ortogonal sobre el espacio de las estimaciones = X). As, dos modelos son
iguales si tienen el mismo espacio de las estimaciones. Dos de estos modelos dar an las
mismas predicciones y el mismo estimador de
2
.
82
Sean Y = X
1
1
+
1
y Y = X
2
2
+
2
dos modelos lineales tales que X
1
) = X
2
). La
matriz proyecci on no depende de X
1
o X
2
sino s olo de (= X
1
) = X
2
)). La estimaci on
de
2
es la misma
2
= SCR/(n r) y las predicciones tambien
Y = PY = X
1
1
= X
2
2
En cuanto a las funciones parametricas estimables, hemos visto que la estimabilidad se
restringe a las combinaciones lineales de las las X
1
, es decir, a
1
es estimable si se
escribe como b
X
1
1
. Pero X
1
1
pertenece a de forma que X
1
1
= X
2
2
para alg un
2
y as
a
1
= b
X
1
1
= b
X
2
2
= a
2
Las funciones parametricas estimables son las mismas pero est an escritas con diferentes
par ametros. Su estimador b
PY tambien es unico.
Ejemplo 5.6.1
El ANOVA de un factor se puede escribir de dos formas:
y
ij
= +
i
+
ij
i = 1, . . . , I, j = 1, . . . , n
i
y
ij
=
i
+
ij
i = 1, . . . , I, j = 1, . . . , n
i
pero son equivalentes puesto que X
1
) = X
2
).
En este modelo las relaciones entre los dos conjuntos de par ametros son sencillas
i
= +
i

1
2
=
1
2
etc.
Ejemplo 5.6.2
La regresi on lineal simple admite dos modelos:
y
i
=
0
+
1
x
i
+
i
i = 1, . . . , n
y
i
=
0
+
1
(x
i
x) +
i
i = 1, . . . , n
pero son equivalentes ya que
0
=
0
+
1
x
1
=
1
En resumen, en un modelo lineal Y = X + la esencia es el subespacio = X). Si
conservamos , podemos cambiar X a nuestra conveniencia.
5.6.2. Contraste de modelos
El contraste de hip otesis en modelos lineales se reduce esencialmente a restringir el espacio
de las estimaciones.
Si partimos de un modelo que sabemos o suponemos v alido
Modelo inicial: Y = X + rg X = r
debemos intentar reducir este modelo, es decir, ver si alg un modelo m as simple se ajusta
aceptablemente a los datos, como
Modelo restringido: Y =

X + rg

X = r
83
Dado que la esencia de un modelo est a en el subespacio generado por las columnas de la
matriz de dise no o espacio de las estimaciones, es absolutamente necesario que el modelo
restringido verique
0
=
X) X) =
S olo en este caso se puede plantear la elecci on entre dos modelos alternativos como un
contraste de hip otesis
H
0
: Y =

X +
H
1
: Y = X +

H
0
: E(Y)
0
=
X)
H
1
: E(Y) = X)
(5.14)
donde E(Y) =

X y E(Y) = X, respectivamente.
Sean P
y P
0
las proyecciones ortogonales sobre = X) y
0
=
X) respectivamen-
te. Bajo el modelo inicial el estimador de E(Y) es P
Y, mientras que bajo el modelo

restringido el estimador es P
0
Y. Si la hip otesis H
0
es cierta, ambas estimaciones deben
estar pr oximas.
Teorema 5.6.1
La condici on necesaria y suciente para que 5.14 sea contrastable es que se verique
0
=
X) X) = (5.15)
El test F se basa entonces en el estadstico
F =
(SCR
H
SCR)/(r r)
SCR/(n r)
cuya distribuci on, bajo H
0
, es F
r r,nr
y donde
SCR
H
= Y
(I P
0
)Y SCR = Y
(I P
)Y
Demostraci on:
La expresi on 5.15 implica la relaci on

X = XC para una cierta matriz C. Entonces H
0
signica formular una hip otesis lineal contrastable al modelo E(Y) = X, que lo reduce
a E(Y) =

X. El resto es consecuencia del Metodo 1 explicado en la secci on 5.2 y el
teorema 5.3.1.
Observemos que si
0
, entonces estamos ante modelos de naturaleza diferente. No
podemos decidir entre ambos modelos mediante ning un criterio estadstico conocido. Si
se verica
0
= , entonces tenemos dos versiones parametricas del mismo modelo,
pudiendo pasar del uno al otro por una reparametrizaci on. Un modelo Y = X +
determina el espacio = X), y recprocamente el espacio determina el modelo (salvo
reparametrizaciones que no disminuyan el rango).
Como ya hemos visto, la interpretaci on geometrica de la soluci on al modelo lineal Y =
X + es considerar la proyecci on del vector Y sobre el subespacio = X) de R
n
. La
relaci on 5.15 indica que las columnas de

X generan un subespacio de X). Entonces SCR
y SCR
H
son distancias de la observaci on Y a los subespacios X) y
X), respectivamente.
El test F nos dice hasta que punto la diferencia SCR
H
SCR es peque na (comparada
con SCR) para poder armar que el modelo se ajusta al subespacio
X) en lugar de X)
(ver gura).
84
e e
H
Y
X)

X)
La longitud al cuadrado de la diferencia P
YP
0
Y es
((P
0
)Y)
((P
0
)Y) = Y
(P
0
)Y
ya que P
0
= P
0

es una matriz proyecci on (ver Apendice). Pero adem as
Y
(P
0
)Y = Y
(I P
0
)YY
(I P
)Y = SCR
H
SCR
Cuando la hip otesis nula se plantea en terminos de un grupo de funciones parametricas
estimables del tipo H
0
: A = 0, sabemos que existe una matriz B = A(X
X)
tal
que A = BX. De modo que
0 = A = BX = BE(Y) E(Y) ker(B)
y el subespacio que dene la hip otesis nula es
0
= ker(B) . En este caso se puede
demostrar (ver Apendice) que
0
= P
) y reencontrar as el test 5.6.

Ejemplo 5.6.3
Consideremos de nuevo el dise no cross-over explicado en el ejemplo 5.3.2. Supongamos
ahora que la inuencia de un f armaco sobre el otro no es recproca. El efecto aditivo
no es necesariamente el mismo cuando se administra a despues de b, que cuando se
administra b despues de a. Entonces debemos introducir los par ametros
1
: inuencia de a sobre b
2
: inuencia de b sobre a
y admitir que la matriz de dise no reducida, para los par ametros , , ,
1
,
2
es
X
R
=
_
_
_
_
1 1 0 0 0
1 0 1 1 0
1 0 1 0 0
1 1 0 0 1
_
_
_
_
rg X
R
= 4
que representa una alternativa a la propuesta inicialmente para los par ametros , , ,
X
R
=
_
_
_
_
1 1 0 0
1 0 1 1
1 0 1 0
1 1 0 1
_
_
_
_
rg

X
R
= 3
Es f acil ver que se verica 5.15. El an alisis de la varianza para decidir entre

X
R
y X
R
,
sobre los datos de la tabla 5.2, se encuentra en la tabla 5.4. Como F no es signicativo
se admite como v alido el modelo m as simple representado por

X
R
.
85
grados de suma de cuadrados
libertad cuadrados medios F
Desviaci on
hip otesis 1 600,6 600,6 3,898
Residuo 36 5547,3 154,1
Cuadro 5.4: Tabla del an alisis de la varianza para contrastar dos modelos de cross-over
5.7. Ejemplos con R
En esta secci on vamos a ver como se contrastan las hip otesis que hemos planteado en el
ejemplo 5.3.2 sobre el dise no cross-over simplicado.
En primer lugar procedemos a introducir los datos en el vector de observaciones.
> y<-c(17,34,26,10,19,17,8,16,13,11,
+ 17,41,26,3,-6,-4,11,16,16,4,
+ 21,20,11,26,42,28,3,3,16,-10,
+ 10,24,32,26,52,28,27,28,21,42)
A continuaci on construimos las columnas de la matriz de dise no que corresponden a los
par ametros , , con las funciones de repetici on.
> alpha<-c(rep(1,10),rep(0,10),rep(0,10),rep(1,10))
> beta<-c(rep(0,10),rep(1,10),rep(1,10),rep(0,10))
> gamma<-c(rep(0,10),rep(1,10),rep(0,10),rep(1,10))
Los modelos lineales se denen en R con la funci on lm. As, el modelo general y el modelo
bajo la hip otesis nula se denen como
> crossover.lm<-lm(y~alpha+beta+gamma)
> crossover.lm0<-lm(y~gamma)
La columna de unos que corresponde al par ametro no es necesario escribirla, ya que por
defecto est a incluida en cualquier modelo lineal de R as denido. Observemos adem as
que bajo la hip otesis nula H
0
: = , el modelo a considerar s olo tiene dos par ametros
, . En este caso, el efecto del f armaco (com un) se puede incluir en la media general.
La tabla del an alisis de la varianza para el contraste de la hip otesis nula considerada se
realiza mediante la funci on anova(modelo H
0
,modelo general ).
> anova(crossover.lm0,crossover.lm)
Analysis of Variance Table
Model 1: y ~ gamma
Model 2: y ~ alpha + beta + gamma
Res.Df RSS Df Sum of Sq F Pr(>F)
1 38 6931.1
2 37 6147.9 1 783.2 4.7137 0.03641 *
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
86
Del mismo modo tambien se puede realizar el contraste de modelos propuesto en el ejemplo
5.6.3. En este caso, el modelo m as general necesita las columnas correspondientes a los
par ametros
1
,
2
.
> gamma1<-c(rep(0,10),rep(1,10),rep(0,10),rep(0,10))
> gamma2<-c(rep(0,10),rep(0,10),rep(0,10),rep(1,10))
> crossover.lm1<-lm(y~alpha+beta+gamma1+gamma2)
> anova(crossover.lm,crossover.lm1)
Model 1: y ~ alpha + beta + gamma
Model 2: y ~ alpha + beta + gamma1 + gamma2
Res.Df RSS Df Sum of Sq F Pr(>F)
1 37 6147.9
2 36 5547.3 1 600.6 3.8978 0.05606 .
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
87
5.8. Ejercicios
Ejercicio 5.1
Sean X N(
1
, ), Y N(
2
, ) variables independientes. En muestras de extensi on n
1
de X, n
2
de Y , plantear la hip otesis nula
H
0
:
1
=
2
mediante el concepto de hip otesis lineal contrastable y deducir el test t de Student de
comparaci on de medias como una consecuencia del test F.
Ejercicio 5.2
Una variable Y depende de otra x (variable control no aleatoria) que toma los valores
x
1
= 1, x
2
= 2, x
3
= 3, x
4
= 4 de acuerdo con el modelo lineal normal
y
i
=
0
+
1
x
i
+
2
x
2
i
+
i
Encontrar la expresi on del estadstico F para la hip otesis
H
0
:
2
= 0
Ejercicio 5.3
Probar que una hip otesis lineal de matriz A es contrastable si y s olo si
A(X
X)
X = A
Ejercicio 5.4
Con el modelo del ejercicio 3.10:
(a) Podemos contrastar la hip otesis H
0
:
1
+
8
= 0?
(b) Contrastar la hip otesis H
0
:
1
=
2
.
Ejercicio 5.5
Dado el siguiente modelo lineal normal
1
+
2
= 6,6
2
1
+
2
= 7,8
1
+
2
= 2,1
2
1
2
= 0,4
estudiar si se puede aceptar la hip otesis H
0
:
2
= 2
1
.
Ejercicio 5.6
Consideremos el modelo lineal normal Y = X +. Probar que para la hip otesis lineal
H
0
: X = 0
se verica SCR
H
SCR =

Y. Hallar el estadstico F correspondiente.

88
Ejercicio 5.7
Demostrar que para una hip otesis lineal contrastable se verica
E(SCR
H
SCR) = q
2
+ (A)
(A(X
X)
(A)
Indicaci on: Utilizar la propiedad 2 del Apendice de Estadstica Multivariante con la ex-
presi on 5.5.
Ejercicio 5.8
Demostrar que para una hip otesis lineal contrastable se verica la siguiente descomposi-
ci on en suma de cuadrados
|Y

Y
H
|
2
= |Y

Y|
2
+|
Y

Y
H
|
2
Ejercicio 5.9
Supongamos que cada uno de los valores x
1
, x
2
, . . . , x
12
son las observaciones de los angu-
los a, a
, A, A
, b, b
, B, B
, c, c
, C, C
del tri angulo del gr aco adjunto. Los errores de las

observaciones
1
, . . . ,
12
se asume que son independientes y con distribuci on N(0, ).
a
a
A
A
b
b
B B
c
c
C
C
Antes de escribir el modelo asociado a estos datos observemos que, aunque aparentemente
hay 12 par ametros a, a
, . . . , estos est an ligados por las conocidas propiedades de un

tri angulo, es decir
a = a
A = A
a +A = 180 a +b +c = 180
y de forma similar para b, b
, B, B
y c, c
, C, C
. El conjunto de estas relaciones nos conduce

a que, realmente, s olo hay dos par ametros independientes, les llamaremos y . Si
trasladamos a la izquierda las cantidades 180 y con estos par ametros, el modelo es
y
1
= +
1
y
2
= +
2
y
3
= +
3
y
4
= +
4
y
5
= +
5
y
6
= +
6
y
7
= +
7
y
8
= +
8
y
9
= +
9
y
10
= +
10
y
11
= + +
11
y
12
= + +
12
donde
y
1
= x
1
y
2
= x
2
y
3
= x
3
180 y
4
= x
4
180
y
5
= x
5
y
6
= x
6
y
7
= x
7
180 y
8
= x
8
180
y
9
= x
9
180 y
10
= x
10
180 y
11
= x
11
y
12
= x
12
89
Deseamos contrastar la hip otesis de que el tri angulo es equil atero, es decir, que a = b =
c = 60. Pero si a = 60, b = 60, c es autom aticamente 60, luego la hip otesis es
H
0
: = = 60
con 2 grados de libertad, no 3. Resolver el contraste.
Ejercicio 5.10
Con el modelo cross-over expuesto en el ejemplo 5.3.2 calcular los siguientes elementos:
(a) Una estimaci on de los par ametros mediante la f ormula (X
R
DX
R
)
R
D
Y.
(b) La suma de cuadrados residual
SCR = Y
YY
PY =
y
2
ij
Y
PY
= N
a
_
4
i=1
y
2
i
+
4
i=1
s
2
i
_
Y
PY
= N
a
_
4
i=1
y
2
i
+
4
i=1
s
2
i
_
DX
R
(X
R
DX
R
)
R
D
Y
(c) La estimaci on de la funci on parametrica y su varianza.
(d) El estadstico con distribuci on t de Student para contrastar la hip otesis H
0
: =
t =

ee(

)
cuyo cuadrado coincide con el estadstico F del ejemplo.
90
Captulo 6
Regresi on lineal simple
Sea Y una variable aleatoria y x una variable controlable, es decir, los valores que toma x
son jados por el experimentador. Supongamos que calculamos Y para diferentes valores
de x de acuerdo con el siguiente modelo
y
i
=
0
+
1
x
i
+
i
i = 1, . . . , n (6.1)
donde E(
i
) = 0, var(
i
) =
2
i = 1, . . . , n.
Este modelo es la formulaci on lineal del problema de hallar la recta de regresi on de Y sobre
x. Los par ametros
0
,
1
reciben el nombre de coecientes de regresi on. El par ametro
0
es la ordenada en el origen, intercept en ingles, y
1
es la pendiente de la recta, slope en
ingles. La expresi on matricial de 6.1 es
_
_
_
y
1
.
.
.
y
n
_
_
_
=
_
_
_
1 x
1
.
.
.
.
.
.
1 x
n
_
_
_
_

0
1
_
+
_
_
_
1
.
.
.
n
_
_
_
rg X = 2
Ahora podemos aplicar toda la teora general desarrollada en los captulos anteriores para
un modelo lineal cualquiera, al caso particular de la regresi on lineal simple.
6.1. Estimaci on de los coecientes de regresi on
Con los datos observados se pueden calcular los siguientes estadsticos
x = (1/n)
x
i
s
2
x
= (1/n)
(x
i
x)
2
y = (1/n)
y
i
s
2
y
= (1/n)
(y
i
y)
2
s
xy
= (1/n)
(x
i
x)(y
i
y)
donde x, y, s
2
x
, s
2
y
, s
xy
son las medias, varianzas y covarianzas muestrales, aunque el signi-
cado de s
2
x
y s
xy
es convencional pues x no es variable aleatoria. Con esta notaci on las
ecuaciones normales son:
X
X = X
Y
_
n n x
n x
x
2
i
__

0
1
_
=
_
n y
x
i
y
i
_
y como
(X
X)
1
=
1
ns
2
x
_
(1/n)
x
2
i
x
x 1
_
91
la soluci on es
0
= y

1
x
1
=
S
xy
S
x
=
s
xy
s
2
x
donde
S
xy
=
x
i
y
i
(1/n)
x
i
y
i
=
(x
i
x)(y
i
y) = ns
xy
S
x
=
x
2
i
(1/n)(
x
i
)
2
=
(x
i
x)
2
= ns
2
x
En el ejercicio 6.2 se ven otras formas de expresar

1
.
La recta de regresi on es
y =

0
+

1
x
que se expresa tambien en la forma
y y =

1
(x x)
lo que deja claro que la recta pasa por el punto ( x, y) y que el modelo es v alido en el
rango de las x
i
, centrado en x.

Esta es tambien la recta que se obtiene a partir del modelo
equivalente con los datos x
i
centrados (ver ejemplo 5.6.2 y ejercicio 6.3).
Recordemos que por lo que hemos estudiado, estas estimaciones son insesgadas y de
varianza mnima entre todos los estimadores lineales (teorema de Gauss-Markov). Las
varianzas y covarianza de los estimadores son
var(
) =
_
var(
0
) cov(
0
,

1
)
cov(
0
,

1
) var(
1
)
_
=
2
(X
X)
1
(6.2)
Es decir
E(
0
) =
0
var(
0
) =
2
_
1
n
+
x
2
S
x
_
(6.3)
E(
1
) =
1
var(
1
) =

2
S
x
(6.4)
cov(
0
,

1
) =
2
x
S
x
(6.5)
Ejemplo 6.1.1
Vamos a ilustrar el c alculo manual de las estimaciones de los par ametros con un ejemplo
muy sencillo de muy pocos datos.
Supongamos que una empresa de compra-venta de autom oviles organiza exposiciones los
nes de semana i contrata un n umero variable de vendedores que oscila entre 3 y 8.
El gerente de esta empresa quiere estudiar la relaci on entre el n umero de vendedores
y el n umero de coches vendidos ya que, si es posible, podra prever las ventas a partir
del n umero de vendedores que contrata. Para aclararlo, el gerente examina el registro
de ventas de los ultimos cuatro meses y localiza un perodo de 10 semanas durante las
cuales no hubo ning un incentivo especial ni a la venta ni a la compra. El n umero de
92
Semana Vendedores Coches
1 5 10
2 6 20
3 5 18
4 4 10
5 3 7
6 4 14
7 7 21
8 6 15
9 5 13
10 8 22
s
Cuadro 6.1: Datos de las ventas en 10 semanas y gr aco de dispersi on
coches vendidos durante este perodo y el n umero de vendedores empleados en cada caso
se muestra en la tabla adjunta.
Para examinar esta relaci on es muy util empezar por dibujar un diagrama de dispersi on.
Este gr aco muestra una relaci on bastante evidente entre el n umero de vendedores y las
ventas, relaci on que se poda esperar. Vamos a cuanticarla con la ayuda de la recta de
regresi on MC.
En la siguiente tabla tenemos los c alculos necesarios para obtener los coecientes de
regresi on, las predicciones, los residuos y la suma de cuadrados de los errores para los
datos de las 10 semanas. Esta tabla se ha calculado con una hoja de c alculo, lo que permite
una mayor precisi on en los c alculos sucesivos.
i x
i
y
i
x
2
i
x
i
y
i
y
i
e
i
e
2
i
1 5 10 25 50 14,10 4,10 16,85
2 6 20 36 120 17,09 2,91 8,47
3 5 18 25 90 14,10 3,90 15,18
4 4 10 16 40 11,12 1,12 1,25
5 3 7 9 21 8,13 1,13 1,29
6 4 14 16 56 11,12 2,88 8,30
7 7 21 49 147 20,07 0,93 0,86
8 6 15 36 90 17,09 2,09 4,37
9 5 13 25 65 14,10 1,10 1,22
10 8 22 64 176 23,06 1,06 1,12
Suma 53 150 301 855 0 58,90
Media 5,3 15
Cuadro 6.2: C alculos de regresi on simple para los datos de ventas
Con estos c alculos, las estimaciones de los coecientes de regresi on son
1
=
855
1
10
53 150
301
1
10
(53)
2
= 2,9850746
0
= 15

1
5,3 = 0,820896
93
La ecuaci on de la recta de regresi on es
y = 0,821 + 2,985x
o tambien
y 15 = 2,985 (x 5,3)
Para calcular la precisi on de estas estimaciones, primero debemos estimar la varianza del
modelo.
Nota: Una aplicaci on de hojas de c alculo como Microsoft Excel tiene la funci on ESTI-
MACION.LINEAL que calcula de forma directa los coecientes de regresi on y algunos
estadsticos m as. Otra funci on matricial es TENDENCIA que permite calcular directa-
mente las predicciones. Adem as, Excel lleva un conjunto de macros opcionales llamadas
Herramientas para an alisis que, entre otras cosas, calculan una regresi on lineal comple-
ta.
En el ejemplo anterior, se comprueba que las suma de los residuos es cero, salvo problemas
de redondeo. Esto no es una casualidad. Vamos a ver algunas propiedades adicionales para
las predicciones y
i
=

0
+

1
x
i
y para los residuos e
i
= y
i
y
i
, cuya demostraci on se deja
para el lector (ver ejercicio 6.4).
(i) La suma de los residuos es cero:
e
i
= 0.
(ii) La suma de los residuos ponderada por los valores de la variable regresora es cero:
x
i
e
i
= 0.
(iii)
y
i
=
y
i
(iv) La suma de los residuos ponderada por las predicciones de los valores observados
es cero:
y
i
e
i
= 0.
6.2. Medidas de ajuste
La evaluaci on global del ajuste de la regresi on se puede hacer con la SCR o, mejor, con
la varianza muestral de los residuos (1/n)
e
2
i
. Pero los residuos no son todos indepen-
dientes, si no que est an ligados por dos ecuaciones (la (i) y la (ii) de arriba), de forma
que utilizaremos la llamada varianza residual o estimaci on MC de
2
:

2
= SCR/(n 2)
Su raz cuadrada , que tiene las mismas unidades que Y , es el llamado error est andar
de la regresi on. La varianza residual o el error est andar son ndices de la precisi on del
modelo, pero dependen de las unidades de la variable respuesta y no son utiles para
comparar rectas de regresi on de variables diferentes. Otra medida de ajuste requiere una
adecuada descomposici on de la variabilidad de la variable respuesta.
Teorema 6.2.1
Consideremos el coeciente de correlaci on muestral, cuyo signicado es convencional,
r =
s
xy
s
x
s
y
=
S
xy
(S
x
S
y
)
1/2
Entonces se verican las siguientes relaciones
94
(i)
(y
i
y)
2
=
(y
i
y
i
)
2
+
( y
i
y)
2
(ii) SCR =
(y
i
y
i
)
2
= (1 r
2
)
(y
i
y)
2
= (1 r
2
)S
y
(iii)
2
= (
e
2
i
)/(n 2) = (1 r
2
)S
y
/(n 2)
Demostraci on:
(y
i
y)
2
=
(y
i
y
i
+ y
i
y)
2
=
(y
i
y
i
)
2
+
( y
i
y)
2
+ 2
(y
i
y
i
)( y
i
y)
pero
(y
i
y
i
)( y
i
y) =
(y
i
y
i
) y
i
y
(y
i
y
i
) = 0 por las propiedades del apartado
anterior. Tambien podemos recordar la ortogonalidad de los subespacios de los errores y
de las estimaciones. Queda as demostrada la relaci on (i).
Por otra parte, es f acil ver que
( y
i
y)
2
=

2
1
(x
i
x)
2
= r
2
(y
i
y)
2
de forma que nalmente
(y
i
y)
2
=
(y
i
y
i
)
2
+r
2
(y
i
y)
2
Luego
(y
i
y
i
)
2
= (1 r
2
)
(y
i
y)
2
Como consecuencia tenemos que el estimador centrado de la varianza
2
del modelo 6.1
es

2
= SCR/(n 2) = (1 r
2
)S
y
/(n 2) (6.6)
La descomposici on de la suma de cuadrados de las observaciones en dos terminos inde-

pendientes se interpreta as: la variabilidad de la variable Y se descompone en un primer
termino que reeja la variabilidad no explicada por la regresi on, que es debida al azar, y
el segundo termino que contiene la variabilidad explicada o eliminada por la regresi on y
puede interpretarse como la parte determinista de la variabilidad de la respuesta.
Podemos denir:
Variaci on total = VT =
(y
i
y)
2
= S
y
Variaci on no explicada = VNE =
(y
i
y
i
)
2
= SCR
Variaci on explicada = VE =
( y
i
y)
2
=

2
1
S
x
de forma que
VT = VNE + VE (6.7)
Denici on 6.2.1
Una medida del ajuste de la recta de regresi on a los datos es la proporci on de variabilidad
explicada que denimos con el nombre de coeciente de determinaci on as:
R
2
=
VE
VT
= 1
SCR
S
y
95
Esta medida se puede utilizar en cualquier tipo de regresi on, pero en el caso particular
de la regresi on lineal simple con una recta tenemos
R
2
= 1
(1 r
2
)S
y
S
y
= r
2
que es el cuadrado del coeciente de correlaci on lineal entre las dos variables.
El coeciente de determinaci on R
2
es una medida de la bondad del ajuste, 0 R
2
1,
mientras que el coeciente de correlaci on es una medida de la dependencia lineal entre
las dos variables, cuando son aleatorias y s olo hay una variable regresora.
Ejemplo 6.2.1
Continuando con el ejemplo de los datos de ventas tenemos:
SCR = 58,896

2
= 58,896/8 = 7,362 = 2,713
VT = S
y
= 238
R
2
= 1
58,896
238
= 0,7525
6.3. Inferencia sobre los parametros de regresi on
Supongamos que el modelo 6.1 es un modelo lineal normal. Entonces (ver teorema 2.6.1)
se verica que
= (
0
,

1
)
N
2
(, var(
))
donde
var(
) =
2
(X
X)
1
=
2
_
1/n + x/S
x
x/S
x
x/S
x
1/S
x
_
como hemos visto en 6.26.5. Adem as sabemos que

es independiente de SCR.
Como consecuencia de estas distribuciones hemos demostrado (ver 3.4 o 5.10) que para
contrastar una hip otesis del tipo H
0
: a
= c se utiliza el estadstico
t =
a
c
(
2
(a
(X
X)
1
a))
1/2
(6.8)
que seguir a una distribuci on t
n2
, si H
0
es cierta.
6.3.1. Hip otesis sobre la pendiente
El contraste de la hip otesis H
0
:
1
= b
1
frente a H
1
:
1
,= b
1
se resuelve rechazando H
0
si
1
b
1
(
2
/S
x
)
1/2
> t
n2
()
donde P[[t
n2
[ > t
n2
()] = .
En particular, estamos interesados en contrastar si la pendiente es cero, es decir, la hip ote-
sis H
0
:
1
= 0. Vamos a deducir este contraste directamente.
96
Si H
0
:
1
= 0 es cierta, el modelo 6.1 se simplica y se convierte en
y
i
=
0
+
i
de donde
SCR
H
=
(y
i
0|H
)
2
=
(y
i
y)
2
= S
y
(6.9)
dado que

0|H
= y.
Por el teorema 6.2.1 sabemos que SCR = (1 r
2
)S
y
, de manera que
F =
SCR
H
SCR
SCR/(n 2)
=
S
y
(1 r
2
)S
y
(1 r
2
)S
y
/(n 2)
= (n 2)
r
2
1 r
2
F
1,n2
Finalmente,
t =
F = r
n 2
1 r
2
(6.10)
sigue la distribuci on t de Student con n 2 grados de libertad.
Este contraste H
0
:
1
= 0 se llama contraste para la signicaci on de la regresi on y se
formaliza en una tabla de an alisis de la varianza donde se explicita la descomposici on de
la suma de cuadrados 6.7.
Fuente de grados de suma de cuadrados
variaci on libertad cuadrados medios F
Regresi on 1

1
S
xy
CM
R
CM
R
/ECM
Error n 2 SCR ECM
Total n 1 S
y
Cuadro 6.3: Tabla del an alisis de la varianza para contrastar la signicaci on de la regresi on
El hecho de aceptar H
0
:
1
= 0 puede implicar que la mejor predicci on para todas las
observaciones es y, ya que la variable x no inuye, y la regresi on es in util. Pero tambien
podra pasar que la relaci on no fuera de tipo recta.
Rechazar la hip otesis H
0
:
1
= 0 puede implicar que el modelo lineal 6.1 es adecuado.
Pero tambien podra ocurrir que no lo sea. En todo caso, es muy importante no confundir
la signicaci on de la regresi on con una prueba de causalidad. Los modelos de regresi on
unicamente cuantican la relaci on lineal entre la variable respuesta y las variables expli-
cativas, una en el caso simple, pero no justican que estas sean la causa de aquella.
Tanto la adecuaci on del modelo 6.1, como la hip otesis de normalidad han de estudiarse
a traves del an alisis de los residuos.
6.3.2. Hip otesis sobre el punto de intercepci on
Para el contraste de hip otesis H
0
:
0
= b
0
, se utiliza el estadstico
t =
0
b
0
(
2
(1/n + x
2
/S
x
))
1/2
que, si la hip otesis es cierta, sigue una distribuci on t de Student con n 2 grados de
libertad.
97
6.3.3. Intervalos de conanza para los parametros
Adem as de los estimadores puntuales de
0
,
1
y
2
, con las distribuciones estudiadas
podemos proporcionar intervalos de conanza para estos par ametros. El ancho de estos
intervalos estar a en funci on de la calidad de la recta de regresi on.
Con la hip otesis de normalidad y teniendo en cuenta las distribuciones de

0
y

1
estu-
diadas, un intervalo de conanza para la pendiente
1
con nivel de conanza 100(1) %
es
1
t
n2
() (
2
/S
x
)
1/2
donde t
n2
() es tal que P[[t
n2
[ < t
n2
()] = 1 .
An alogamente, para
0
es
0
t
n2
() (
2
(1/n + x
2
/S
x
))
1/2
Las cantidades
ee(
1
) = (
2
/S
x
)
1/2
ee(
0
) = (
2
(1/n + x
2
/S
x
))
1/2
son los errores est andar de la pendiente

1
y la intercepci on

0
, respectivamente. Se trata
de estimaciones de la desviaci on tpica de los estimadores. Son medidas de la precisi on
de la estimaci on de los par ametros.
Como sabemos

2
=
SCR
n 2
=
1
n 2
S
y
(1 r
2
)
es el estimador insesgado de
2
y la distribuci on de SCR/
2
es
2
n2
. As, el intervalo
de conanza al 100(1 ) % de
2
es
SCR
2
n2
(/2)

2
SCR
2
n2
(1 /2)
donde
2
n2
(/2) y
2
n2
(1 /2) son los valores de una
2
n2
para que la suma de las
probabilidades de las colas sea .
6.3.4. Intervalo para la respuesta media
Uno de los usos principales de los modelos de regresi on es la estimaci on de la respuesta
media E[Y [x
0
] para un valor particular x
0
de la variable regresora. Asumiremos que x
0
es
un valor dentro del recorrido de los datos originales de x. Un estimador puntual insesgado
de E[Y [x
0
] se obtiene con la predicci on
y
0
=

0
+

1
x
0
= y +

1
(x
0
x)
Podemos interpretar
0
+
1
x
0
como una funci on parametrica estimable
0
+
1
x
0
= (1, x
0
) = x
cuyo estimador es y
0
= x
, de manera que
var(x
) =
2
x
0
(X
X)
1
x
0
98
y el error est andar de x
es
ee(x
) = [
2
(1/n + (x
0
x)
2
/S
x
)]
1/2
Entonces, el intervalo de conanza para la respuesta media E[Y [x
0
] es
y
0
t
n2
()
1
n
+
(x
0
x)
2
S
x
Destacaremos el hecho de que evidentemente el ancho del intervalo depende de x
0
, es
mnimo para x
0
= x y crece cuando [x
0
x[ crece. Esto es intuitivamente razonable.
6.3.5. Predicci on de nuevas observaciones
Otra de las importantes aplicaciones de los modelos de regresi on es la predicci on de
nuevas observaciones para un valor x
0
de la variable regresora. El intervalo denido en el
apartado anterior es adecuado para el valor esperado de la respuesta, ahora queremos un
intervalo de predicci on para una respuesta individual concreta. Estos intervalos reciben el
nombre de intervalos de predicci on en lugar de intervalos de conanza, ya que se reserva
el nombre de intervalo de conanza para los que se construyen como estimaci on de un
par ametro. Los intervalos de predicci on tienen en cuenta la variabilidad en la predicci on
del valor medio y la variabilidad al exigir una respuesta individual.
Si x
0
es el valor de nuestro interes, entonces
y
0
=

0
+

1
x
0
es el estimador puntual de un nuevo valor de la respuesta Y
0
= Y [x
0
.
Si consideramos la obtenci on de un intervalo de conanza para esta futura observaci on
Y
0
, el intervalo de conanza para la respuesta media en x = x
0
es inapropiado ya que es
un intervalo sobre la media de Y
0
(un par ametro), no sobre futuras observaciones de la
distribuci on.
Se puede hallar un intervalo de predicci on para una respuesta concreta de Y
0
del siguiente
modo:
Consideremos la variable aleatoria Y
0
y
0
N(0, var(Y
0
y
0
)) donde
var(Y
0
y
0
) =
2
+
2
_
1
n
+
(x
0
x)
2
S
x
_
ya que Y
0
, una futura observaci on, es independiente de y
0
.
Si utilizamos el valor muestral de y
0
para predecir Y
0
, obtenemos un intervalo de predicci on
al 100(1 ) % para Y
0
y
0
t
n2
()
1 +
1
n
+
(x
0
x)
2
S
x
Este resultado se puede generalizar al caso de un intervalo de predicci on al 100(1 ) %
para la media de k futuras observaciones de la variable respuesta cuando x = x
0
. Si y
0
es
la media de k futuras observaciones para x = x
0
, un estimador de y
0
es y
0
de forma que
el intervalo es
y
0
t
n2
()
1
k
+
1
n
+
(x
0
x)
2
S
x
99
6.3.6. Regi on de conanza y intervalos de conanza simultaneos
Habitualmente, los intervalos de conanza se dan de forma conjunta para los dos par ame-
tros
0
,
1
de la regresi on simple. Sin embargo, la conanza conjunta de ambos intervalos
no es 100(1) %, aunque los dos se hayan construido para vericar ese nivel de conanza.
Si deseamos que el nivel de conanza conjunta sea el 100(1) % debemos construir una
regi on de conanza o, alternativamente, los llamados intervalos de conanza simult aneos.
A partir de la distribuci on de la ecuaci on 5.9 sabemos que, en general,
F =
(A
A)
(A(X
X)
)
1
(A
A)/q
SCR/(n r)
F
q,nr
donde, en este caso, A
= I
= (
0
,

1
)
y q = 2. As pues
(
X(
)
2ECM
F
2,n2
y
X
X =
_
n n x
n x
x
2
i
_
Con esta distribuci on se puede construir una regi on de conanza al 100(1 ) % para
0
,
1
conjuntamente que viene dada por la elipse
(
X(
)
2ECM
F
2,n2
()
Con el mismo objetivo, se pueden utilizar diversos metodos de obtenci on de intervalos
simult aneos del tipo
j
ee(
j
) j = 0, 1
Por ejemplo, el metodo de Schee proporciona los intervalos simult aneos
j
(2F
2,n2
())
1/2
ee(
j
) j = 0, 1
6.4. Regresi on pasando por el origen
Supongamos que, por alguna raz on justicada, el experimentador decide proponer el
modelo de regresi on simple
y
i
=
1
x
i
+
i
i = 1, . . . , n
que carece del termino
0
.
El estimador MC del par ametro
1
es
1
=
x
i
y
i
x
2
i
y su varianza es
var(
1
) =
1
(
x
2
i
)
2
x
2
i
var(y
i
) =
2
1
x
2
i
100
El estimador de
2
es

2
= SCR/(n 1) =
1
n 1
_
y
2
i

x
i
y
i
_
(6.11)
Con la hip otesis de normalidad se pueden construir intervalos de conanza al 100(1) %
para
1
1
t
n1
()
x
2
i
para E[Y [x
0
]
y
0
t
n1
()
x
2
0
x
2
i
y para predecir una futura observaci on
y
0
t
n1
()
1 +
x
2
0
x
2
i
Es preciso estar muy seguros para utilizar este modelo. Frecuentemente la relaci on entre
la variable respuesta Y y la variable regresora x vara cerca del origen. Hay ejemplos
en qumica y en otras ciencias. El diagrama de dispersi on nos puede ayudar a decidir el
mejor modelo. Si no estamos seguros, es mejor utilizar el modelo completo y contrastar
la hip otesis H
0
:
0
= 0.
Una medida del ajuste del modelo a los datos es el error cuadr atico medio 6.11 que se
puede comparar con el del modelo completo 6.6. El coeciente de determinaci on R
2
no
es un buen ndice para comparar los dos tipos de modelos.
Para el modelo sin
0
, la descomposici on
y
2
i
=
(y
i
y
i
)
2
+
y
2
i
justica que la denici on del coeciente de determinaci on sea
R
2
0
=
y
2
i
y
2
i
que no es comparable con el R
2
de la denici on 6.2.1. De hecho puede ocurrir que R
2
0
> R
2
,
aunque ECM
0
< ECM.
6.5. Correlaci on
Consideremos la situaci on en la que las dos variables son aleatorias, tanto la la variable
respuesta como la variable explicativa o regresora. De modo que tomamos una muestra
aleatoria simple de tama no n formada por las parejas (x
1
, y
1
), . . . , (x
n
, y
n
) de dos variables
aleatorias (X, Y ) con distribuci on conjunta normal bivariante
(X, Y )
N
2
(, ) = (
1
,
2
)
=
_

2
1

1
2

2
2
_
donde cov(X, Y ) =
1
2
y es el coeciente de correlaci on entre Y y X.
101
La distribuci on condicionada de Y dado un valor de X = x es
Y [X = x N(
0
+
1
x,
2
21
)
donde
0
=
1
1
=

2
2
21
=
2
2
(1
2
)
De modo que la esperanza de Y [X = x es el modelo de regresi on lineal simple
E[Y [X = x] =
0
+
1
x
Adem as, hay una clara relaci on entre
1
y , = 0
1
= 0, en cuyo caso no hay
regresi on lineal, es decir, el conocimiento de X = x no nos ayuda a predecir Y .
El metodo de la m axima verosimilitud proporciona estimadores de
0
y
1
que coinciden
con los estimadores MC.
Ahora tambien es posible plantearse inferencias sobre el par ametro . En primer lugar,
el estimador natural de es
r =
S
xy
(S
x
S
y
)
1/2
y
1
=
_
S
y
S
x
_
1/2
r
As,

1
y r est an relacionados, pero mientras r representa una medida de la asociaci on
entre X e Y ,

1
mide el grado de predicci on en Y por unidad de X.
Nota: Ya hemos advertido de que cuando X es una variable controlada, r tiene un sig-
nicado convencional, porque su magnitud depende de la elecci on del espaciado de los
valores x
i
. En este caso, no existe y r no es un estimador.
Tambien sabemos que r
2
= R
2
, de modo que el coeciente de determinaci on es el cuadrado
de la correlaci on.
Finalmente, el principal contraste sobre es el de incorrelaci on H
0
: = 0 que es equiva-
lente a H
0
:
1
= 0 y se resuelve con el estadstico
t =
r
n 2
1 r
2
que, si H
0
es cierta, sigue una distribuci on t
n2
.
6.6. Caracter lineal de la regresi on simple
Supongamos ahora que estamos interesados en decidir si la regresi on de Y sobre x es
realmente lineal. Consideremos las hip otesis
H
0
: Y
i
=
0
+
1
x
i
+
i
H
1
: Y
i
= g(x
i
) +
i
102
donde g(x) es una funci on no lineal desconocida de x. Sin embargo, vamos a ver que
podemos reconducir el contraste a la situaci on prevista en la secci on 5.6.2 para la elecci on
entre dos modelos lineales.
Necesitamos n
i
valores de Y para cada x
i
. Con un cambio de notaci on, para cada i =
1, . . . , k, sean
x
i
: y
i1
, . . . , y
in
i
y
i
= (1/n
i
)
j
y
ij
s
2
y
i
= (1/n
i
)
j
(y
ij
y
i
)
2
y = (1/n)
i,j
y
ij
s
2
y
= (1/n)
i,j
(y
ij
y)
2
n = n
1
+ +n
k
Introducimos a continuaci on el coeciente

2
= 1
1
n
k
i=1
n
i
s
2
y
i
s
2
y
(6.12)
que verica 0
2
1, y mide el grado de concentraci on de los puntos (x
i
, y
ij
) a lo largo
de la curva y = g(x) (ver gura 6.1).
Figura 6.1: Curva que mejor se ajusta a los datos
Si indicamos
i
= g(x
i
) i = 1, . . . , k convertimos la hip otesis H
1
en una hip otesis lineal
con k par ametros. Cuando H
1
es cierta, la estimaci on de
i
es

i
= y
i
. La identidad
SCR
H
= SCR + (SCR
H
SCR)
es entonces
i,j
(y
ij
1
x
i
)
2
=
i,j
(y
ij
y
i
)
2
+
i
n
i
( y
i
1
x
i
)
2
Dividiendo por n tenemos
s
2
y
(1 r
2
) = s
2
y
(1
2
) +s
2
y
(
2
r
2
)
y el contraste para decidir si la regresi on es lineal se resuelve a traves del estadstico
F =
(
2
r
2
)/(k 2)
(1
2
)/(n k)
(6.13)
que tiene (k 2) y (n k) grados de libertad. Si F resulta signicativa, rechazaremos el
car acter lineal de la regresi on.
Observaciones:
103
1) Solamente se puede aplicar este test si se tienen n
i
> 1 observaciones de Y para
cada x
i
(i = 1, . . . , k).
2)
2
es una versi on muestral de la llamada raz on de correlaci on entre dos variables
aleatorias X, Y
2
=
E[(g(X) E(Y ))
2
]
var(Y )
siendo
y = g(x) = E(Y [X = x)
la curva de regresi on de la media de Y sobre X. Este coeciente
2
verica:
a) 0
2
1
b)
2
= 0 =y = E(Y ) (la curva es la recta y = constante).
c)
2
= 1 =y = g(X) (Y es funci on de X)
3) An alogamente, podemos tambien plantear la hip otesis de que Y es alguna funci on
(no lineal) de x frente a la hip otesis nula de que no hay ning un tipo de relaci on.
Las hip otesis son:
H
0
: y
i
= +
i
H
1
: y
i
= g(x
i
) +
i
siendo constante. Entonces, con las mismas notaciones de antes,
SCR
H
=
i,j
(y
ij
y)
2
con n 1 g.l.
SCR =
i,j
(y
ij
y
i
)
2
con n k g.l.
Operando, se llega al estadstico
F =

2
/(k 1)
(1
2
)/(n k)
(6.14)
Comparando 6.14 con 6.10, podemos interpretar 6.14 como una prueba de signi-
caci on de la raz on de correlaci on.
Ejemplo 6.6.1
Se mide la luminosidad (en l umenes) de un cierto tipo de l amparas despues de un tiempo
determinado de funcionamiento (en horas). Los resultados para una serie de 3, 2, 3, 2 y 2
l amparas fueron:
Tiempo (x) Luminosidad (Y)
250 5460 5475 5400 (n
1
= 3)
500 4800 4700 (n
2
= 2)
750 4580 4600 4520 (n
3
= 3)
1000 4320 4300 (n
4
= 2)
1250 4000 4010 (n
5
= 2)
104
Con estos datos podemos ilustrar algunos aspectos de la regresi on lineal de la luminosidad
sobre el tiempo de funcionamiento.
Recta de regresi on y coeciente de correlaci on:
x = 708,33 y = 4680,42 n=12
s
x
= 351,09 s
y
= 500,08 s
xy
= 170190,97
r = 0,969

1
= 1,381
y 4680,42 = 1,381(x 708,33)
La hip otesis H
0
:
1
= 0 debe ser rechazada pues (ver 6.10) obtenemos t = 12,403
(10 g.l.) que es muy signicativo.
Raz on de correlaci on y car acter lineal de la regresi on:
y
1
= 5445 y
2
= 4750 y
3
= 4566,7 y
4
= 4310 y
5
= 4005
s
2
y
1
= 1050 s
2
y
2
= 2500 s
2
y
3
= 1155,5 s
2
y
4
= 100 s
2
y
5
= 25
y = 4680,42 s
2
y
= 250077 n = 12 k = 5

2
= 1
1
n
k
i=1
n
i
s
2
y
i
s
2
y
= 0,996
Aplicando 6.13
F =
(0,996 0,939)/3
(1 0,996)/7
= 33,3
con 3 y 7 g.l. Se puede rechazar que la regresi on es lineal.
Aplicando ahora 6.14
F =
0,996/4
(1 0,996)/7
= 435,7
vemos que la raz on de correlaci on es muy signicativa.
6.7. Comparaci on de rectas
En primer lugar, vamos a estudiar detalladamente la comparaci on de dos rectas, ya que
en este caso las f ormulas son un poco m as sencillas. A continuaci on presentaremos el caso
general cuyos detalles pueden verse en Seber[65] p ag. 197-205.
6.7.1. Dos rectas
Consideremos dos muestras independientes de tama nos n
1
y n
2
(x
11
, y
11
), (x
12
, y
12
), . . . , (x
1n
1
, y
1n
1
)
(x
21
, y
21
), (x
22
, y
22
), . . . , (x
2n
1
, y
2n
1
)
sobre la misma variable regresora x y la misma variable respuesta Y con distribuci on
normal, pero para dos poblaciones distintas.
105
Los dos modelos de regresi on simple para las dos poblaciones por separado son
y
1i
=
1
+
1
x
1i
+
1i
i = 1, . . . , n
1
y
2i
=
2
+
2
x
2i
+
2i
i = 1, . . . , n
2
y sus estimadores MC son

h
= y
h
h
x
h

h
= r
h
_
S
yh
S
xh
_
1/2
h = 1, 2
donde x
h
, S
xh
, y
h
, S
yh
, r
h
son las medias, sumas de cuadrados de las desviaciones y coe-
ciente de correlaci on para cada una de las muestras h = 1, 2 respectivamente.
Tambien deberemos considerar x, S
x
, y, S
y
, r las medias, sumas de cuadrados de las des-
viaciones y coeciente de correlaci on de las dos muestras conjuntamente.
Vamos a considerar las dos regresiones simples como un unico modelo lineal. Para ello
hacemos
Y = (y
11
, . . . , y
1n
1
, y
21
, . . . , y
2n
2
)
y
X =
_
_
_
_
_
_
_
_
_
1 0 x
11
0
.
.
.
.
.
.
.
.
.
.
.
.
1 0 x
1n
1
0
0 1 0 x
21
.
.
.
.
.
.
.
.
.
.
.
.
0 1 0 x
2n
2
_
_
_
_
_
_
_
_
_
_
_
_
_
2
_
_
_
_
donde X es (n
1
+n
2
) 4 de rg(X) = 4.
As pues, el modelo que presenta a las dos regresiones simples conjuntamente Y = X+
es un modelo lineal siempre que los errores veriquen las condiciones de Gauss-Markov.
Entonces es necesario suponer que las varianzas de los errores para las dos poblaciones
son iguales
2
1
=
2
2
.
Para este modelo lineal, las estimaciones MC de los par ametros
1
,
2
,
1
,
2
coinciden
con las estimaciones MC de las rectas por separado
1
,
2
,

1
,

2
y la suma de cuadrados
residual es
SCR =
n
1
i=1
(y
1i

1
1
x
1i
)
2
+
n
2
i=1
(y
2i

2
2
x
2i
)
2
= SCR
1
+ SCR
2
= S
y1
(1 r
2
1
) +S
y2
(1 r
2
2
)
= S
y1
2
1
S
x1
+S
y2
2
2
S
x2
(6.15)
Para contrastar la hip otesis de homogeneidad de varianzas H
0
:
2
2
=
2
2
podemos utilizar
el estadstico
F =
SCR
1
/(n
1
2)
SCR
2
/(n
2
2)
F
n
1
2,n
2
2
y la estimaci on de la varianza com un es
ECM = SCR/(n
1
+n
2
4)
Tambien se pueden utilizar los contrastes que se explican en la secci on 6.7.3.
106
Test de coincidencia
Se trata de investigar si las dos rectas se pueden considerar iguales, es decir, vamos a
contrastar la hip otesis
H
0
:
1
=
2
,
1
=
2
Esta es una hip otesis lineal contrastable (el modelo es de rango m aximo) del tipo H
0
:
A = 0 con
A =
_
1 1 0 0
0 0 1 1
_
_
_
_
_
2
_
_
_
_
donde A es 2 4 y q = rg A = 2. Luego podramos utilizar las f ormulas obtenidas para
el contraste. Sin embargo, en este caso es mucho m as f acil calcular directamente la suma
de cuadrados bajo la hip otesis.
Bajo H
0
la estimaci on MC de los par ametros comunes =
1
=
2
y =
1
=
2
es
sencillamente la que se obtiene del modelo lineal conjunto, es decir, una unica recta de
regresi on con todos los datos juntos:
= y
= r
_
S
y
S
x
_
1/2
Luego
SCR
H
=
n
1
i=1
(y
1i
x
1i
)
2
+
n
2
i=1
(y
2i
x
2i
)
2
= S
y
(1 r
2
)
De modo que el estadstico F es
F =
(SCR
H
SCR)/2
SCR/(n
1
+n
2
4)
=
(S
y
(1 r
2
) SCR)/2
ECM
(6.16)
con distribuci on F
2,n
1
+n
2
4
, si H
0
es cierta.
Test de paralelismo
Ahora queremos comprobar la hip otesis
H
0
:
1
=
2
para la que A es 1 4 y q = rg A = 1.
Bajo H
0
, la estimaci on MC de los par ametros
1
,
2
y =
1
=
2
se obtiene de la
minimizaci on de
=
n
1
i=1
(y
1i
1
x
1i
)
2
+
n
2
i=1
(y
2i
2
x
2i
)
2
107
Las derivadas parciales son
1
=
n
1
i=1
2(y
1i
1
x
1i
)(1)
2
=
n
2
i=1
2(y
2i
2
x
2i
)(1)
=
n
1
i=1
2(y
1i
1
x
1i
)(x
1i
) +
n
2
i=1
2(y
2i
2
x
2i
)(x
2i
)
Al igualar a cero, de las dos primeras ecuaciones tenemos

1
= y
1

x
1

2
= y
2

x
2
y si sustituimos en la tercera ecuaci on
n
1
i=1
x
1i
(y
1i
y
1
) +
n
2
i=1
x
2i
(y
2i
y
2
)
n
1
i=1
x
1i
(x
1i
x
1
) +
n
2
i=1
x
2i
(x
2i
x
2
)
=
2
h=1
n
h
i=1
(x
hi
x
h
)(y
hi
y
h
)
2
h=1
n
h
i=1
(x
hi
x
h
)
2
=
r
1
(S
x1
S
y1
)
1/2
+r
2
(S
x2
S
y2
)
1/2
S
x1
+S
x2
De modo que la suma de cuadrados es
SCR
H
=
n
1
i=1
(y
1i

1

x
1i
)
2
+
n
2
i=1
(y
2i

2

x
2i
)
2
=
2
h=1
n
h
i=1
(y
hi
y
h

(x
hi
x
h
))
2
=
2
h=1
n
h
i=1
(y
hi
y
h
)
2
2
2
h=1
n
h
i=1
(x
hi
x
h
)
2
y el numerador del test F es
SCR
H
SCR =
2
h=1
2
h
n
h
i=1
(x
hi
x
h
)
2
2
2
h=1
n
h
i=1
(x
hi
x
h
)
2
Finalmente el estadstico F se puede escribir
F =
2
1
S
x1
+

2
2
S
x2
2
(S
x1
+S
x2
)
ECM
que bajo la hip otesis sigue una distribuci on F
1,n
1
+n
2
4
.
En la pr actica, primero se realiza un test de paralelismo y, si se acepta, se realiza el test
cuyo estadstico es
F =
SCR
H
SCR
H
SCR
H
/(n
1
+n
2
3)
Finalmente, y si este ultimo ha sido no signicativo, procederemos con el contraste de
coincidencia.
108
Test de concurrencia
Se trata de comprobar la igualdad de los terminos independientes de las dos rectas, es
decir
H
0
:
1
=
2
Como en el apartado anterior, se puede ver que el mnimo de la funci on
=
n
1
i=1
(y
1i

1
x
1i
)
2
+
n
2
i=1
(y
2i

2
x
2i
)
2
se alcanza cuando
=
_
n
1
+n
2
x
2
1
n
1
i=1
x
2
1i
x
2
2
n
2
i=1
x
2
2i
_
1
_
y
x
1
n
1
i=1
x
1i
y
1i
n
1
i=1
x
2
1i
x
2
n
2
i=1
x
2i
y
2i
n
2
i=1
x
2
2i
_
1
=
n
1
i=1
(y
1i
)x
1i
n
1
i=1
x
2
1i
2
=
n
2
i=1
(y
2i
)x
2i
n
2
i=1
x
2
2i
donde y
2
h=1
n
h
i=1
y
hi
, x
1
=
n
1
i=1
x
1i
y x
2
=
n
2
i=1
x
2i
.
Con estos resultados se puede calcular la suma de cuadrados
SCR
H
=
2
h=1
n
h
i=1
(y
hi

h
x
hi
)
2
y el estadstico
F =
SCR
H
SCR
ECM
que, bajo H
0
, sigue una distribuci on F
1,n
1
+n
2
4
.
El test que acabamos de ver contrasta la concurrencia de las dos rectas en x = 0. Si
deseamos comprobar la concurrencia en un punto x = c, bastar a aplicar este mismo test
sustituyendo los datos x
hi
por x
hi
c. Si lo que queremos es saber simplemente si las
rectas se cortan (en alg un punto), es suciente con rechazar la hip otesis de paralelismo.
6.7.2. Varias rectas
Supongamos que tenemos la intenci on de comparar H rectas de regresi on
Y =
h
+
h
x
h
+ h = 1, . . . , H
donde E() = 0 y var() =
2
es la misma para cada recta. Esta ultima condici on
es absolutamente imprescindible para poder aplicar los contrastes estudiados al modelo
lineal conjunto que ahora describiremos.
Para cada h, consideremos los n
h
pares (x
hi
, y
hi
) i = 1, . . . , n
h
de modo que
y
hi
=
h
+
h
x
hi
+
hi
i = 1, . . . , n
h
con
hi
independientes e identicamente distribuidos como N(0,
2
).
109
Sea Y = (y
11
, . . . , y
1n
1
, . . . , y
H1
, . . . , y
Hn
2
)
y
X =
_
_
_
_
_
1 0 0 x
1
0 0
0 1 0 0 x
2
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 1 0 0 x
H
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
2
.
.
.
2
.
.
.
H
_
_
_
_
_
_
_
_
_
_
_
_
_
donde x
h
= (x
h1
, . . . , x
hn
h
)
, para cada h = 1, . . . , H.
Con todo ello disponemos del modelo lineal
Y = X +
donde X es N 2H, con rg(X) = 2H y N =
H
h=1
n
h
.
De esta forma podemos contrastar cualquier hip otesis lineal de la forma H
0
: A = c.
La estimaci on MC de los par ametros
h
,
h
de este modelo se obtiene de cada recta
particular
h
=
i
(y
hi
y
h
)(x
hi
x
h
)
i
(x
hi
x
h
)
2
= r
h
_
S
yh
S
xh
_
1/2

h
= y
h
h
x
h
donde x
h
, S
xh
, y
h
, S
yh
, r
h
son las medias, sumas de cuadrados de las desviaciones y coe-
ciente de correlaci on para cada una de las muestras h = 1, . . . , H respectivamente.
Tambien la suma de cuadrados general SCR es simplemente la suma de las sumas de
cuadrados de los residuos de cada recta de regresi on por separado
SCR =
H
h=1
_
n
h
i=1
(y
hi
y
h
)
2
2
h
n
h
i=1
(x
hi
x
h
)
2
_
=
H
h=1
SCR
h
=
H
h=1
S
yh
(1 r
2
h
)
=
H
h=1
S
yh
2
h
S
xh
Test de coincidencia
Se trata de investigar si las rectas son iguales, es decir, si
H
0
:
1
=
2
= =
H
(= ) ;
1
=
2
= =
H
(= )
que podemos escribir matricialmente con una matriz A de tama no (2H 2) 2H de
rango 2H 2.
110
A partir de las estimaciones MC de los par ametros , que se obtienen de la recta
ajustada con todos los puntos reunidos en una unica muestra, la suma de cuadrados
residual es
SCR
H
=
H
h=1
n
h
i=1
(y
hi
y
(x
hi
x
))
2
=
H
h=1
n
h
i=1
(y
hi
y
)
2
(
)
2
H
h=1
n
h
i=1
(x
hi
x
)
2
= S
y
(1 r
2
)
donde
i
(y
hi
y
)(x
hi
x
i
(x
hi
x
)
2
= r
_
S
y
S
x
_
1/2
y los estadsticos x
, S
x
, y
, S
y
, r son las medias, sumas de cuadrados de las desviaciones
y coeciente de correlaci on de la muestra conjunta.
Entonces el estadstico F para el contraste de esta hip otesis es
F =
(SCR
H
SCR)/(2H 2)
SCR/(N 2H)
(6.17)
Contraste de paralelismo
Ahora se trata de investigar si las pendientes de las rectas son iguales, es decir, si
H
0
:
1
=
2
= =
H
que matricialmente es equivalente a
H
0
:
_
_
_
_
_
0 0 0 1 0 0 1
0 0 0 0 1 0 1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 0 0 1 1
_
_
_
_
_
_

_
= 0
En este caso, la matriz Aque representa las restricciones de los par ametros es (H1)2H
y su rango es H 1. De modo que tomando, en el contraste F, los valores q = H 1,
n = N y k = 2H, el estadstico especicado para este contraste es
F =
(SCR
H
SCR)/(H 1)
SCR/(N 2H)
Para calcular el numerador de este estadstico podemos proceder con las f ormulas ge-
nerales estudiadas u observar las peculiaridades de este modelo que permiten obtener
SCR
H
.
Primero hay que minimizar
i
(y
hi
h
x
hi
)
2
, de donde se obtienen los estimadores

h
= y
h

x
h
h = 1, . . . , H
111
i
x
hi
(y
hi
y
h
)
i
x
hi
(x
hi
x
h
)
=
i
(y
hi
y
h
)(x
hi
x
h
)
i
(x
hi
x
h
)
2
=
h
r
h
(S
xh
S
yh
)
1/2
h
S
xh
Este ultimo estimador es un estimador conjunto (pooled) de la pendiente com un.
Con estas estimaciones se procede a calcular la suma de cuadrados
SCR
H
=
H
h=1
S
yh
2
H
h=1
S
xh
y el estadstico F es
F =
(
2
h
S
xh
h
S
xh
)/(H 1)
SCR/(N 2H)
que bajo H
0
sigue una distribuci on F
H1,N2H
.
En la pr actica, es aconsejable comenzar por un contraste de paralelismo y, si se acepta,
continuar con el contraste cuyo estadstico es
F =
(SCR
H
SCR
H
)/(H 1)
SCR
H
/(N H 1)
Finalmente, y si este ultimo ha sido no signicativo, procederemos con el contraste 6.17.
Test de concurrencia
Deseamos contrastar la hip otesis de que todas las rectas se cortan en un punto del eje de
las Y , es decir, para x = 0:
H
0
:
1
=
2
= =
H
(= )
En este caso, las estimaciones de los par ametros bajo la hip otesis son
=
_
N
x
2
1
i
x
2
1i

x
2
H
i
x
2
Hi
_
1
_
y
x
1
i
x
1i
y
1i
i
x
2
1i

x
H
i
x
Hi
y
Hi
i
x
2
Hi
h
=
i
(y
hi
)x
hi
i
x
2
hi
h = 1, 2, . . . , H
donde x
h
=
i
x
hi
y y
i
y
hi
.
SCR
H
=
i
(y
hi

h
x
hi
)
2
y con ella se puede calcular el estadstico F para el contraste
F =
(SCR
H
SCR)/(H 1)
SCR/(N 2H)
112
Cuando los valores de las x son los mismos para todas las rectas, tenemos que n
h
= n y
x
hi
= x
i
para toda h = 1, . . . , H y as las f ormulas son m as simples
=
_
Hn
Hx
2
i
x
2
i
_
1
_
y
i
x
i
y
i
i
x
2
i
_
= y
i
y
hi
(x
i
x)
H
i
(x
i
x)
2
= y
h
H
donde cada

h
es la estimaci on de la pendiente de la h-esima recta, mientras que es el
corte de la recta de regresi on media.
En este caso
SCR
H
=
i
y
2
hi
i
x
i
y
hi
)
2
i
x
2
i

2
Hn
i
(x
i
x)
2
i
x
2
i
Adem as, como y
h
est an incorrelacionados
var( ) = var( y
) +H x
2
var(
h
)
H
2
=

2
H
_
1
n
+
x
2
i
(x
i
x)
2
_
=

2
i
x
2
i
nH
i
(x
i
x)
2
de modo que tenemos la posibilidad de construir un intervalo de conanza para ya que
( )
_
nH
i
(x
i
x)
2
ECM
i
x
2
i
_
1/2
t
H(n2)
donde ECM = SCR/(nH 2H).
Por otra parte, tambien podemos estudiar si las rectas se cortan en un punto x = c distinto
del cero. Simplemente reemplazaremos x
hi
por x
hi
c en todas las f ormulas anteriores.
La coordenada y del punto de corte sigue siendo estimada por .
Sin embargo, si el punto de corte es desconocido x = , la hip otesis a contrastar es mucho
m as complicada
H
0
:
h
+
h
= cte. = +

h = 1, 2, . . . , h
o tambien
H
0
:

1

= =

H

y desgraciadamente no es lineal.
6.7.3. Contraste para la igualdad de varianzas
En los contrastes de comparaci on de rectas se hace la suposici on de la igualdad de las
varianzas
2
h
de los modelos lineales simples h = 1, . . . , H.
Los estimadores de dichas varianzas son los errores cuadr aticos medios particulares
S
2
h
=
i
(y
hi
y
h
h
(x
hi
x
h
))
2
n
h
2
113
y sabemos que
(n
h
2)S
2
h
/
2
h

2
n
h
2
h = 1, . . . , H indep.
Para contrastar la hip otesis
H
0
:
2
1
= =
2
H
hay varios metodos, desde los m as cl asicos de Bartlett(1937) o Hartley(1950), muy sensi-
bles a la no normalidad de los datos, hasta los m as robustos entre los que destaca el de
Levene con sus variantes.
Si hacemos f
h
= n
h
2, el test de Bartlett es
T =
(
f
h
)logS
2
(f
h
logS
2
h
)
C
donde
S
2
=
f
h
S
2
h
f
h
C = 1 +
f
1
h
(
f
h
)
1
3(H 1)
Si H
0
es cierta, aproximadamente T
2
H1
.
Cuando los f
h
son todos iguales, Hartley propone el estadstico
F =
m axS
2
1
, . . . , S
2
H
mnS
2
1
, . . . , S
2
H
Sin embargo, como se trata de comparar las varianzas a partir de las observaciones o
replicas de H poblaciones, es mejor considerar el problema como un an alisis de la varianza
de un factor. La prueba robusta de Levene sobre la homogeneidad de varianzas se basa
en el an alisis de la varianza de un factor con los datos z
hi
= [y
hi
y
h
[. Para reforzar la
resistencia del metodo se puede utilizar como medida de localizaci on la mediana.
Finalmente podemos a nadir que, cuando la heterogeneidad de las varianzas es evidente,
siempre es posible estudiar alguna transformaci on potencia de los datos originales y
hi
que
mejore la situaci on.
6.8. Un ejemplo para la reexi on
La siguiente tabla presenta cinco conjuntos de datos para cinco modelos de regresi on
simple diferentes: los datos bajo el encabezamiento x
1
(a-d) son los valores de una variable
regresora que es com un en las cuatro regresiones con las variables respuesta y(a), y(b),
y(c) y y(d). Las series de datos x(e) y y(e) denen otra regresi on.
Se puede comprobar que, en los cinco casos, la regresi on de y sobre x conduce exactamente
a la misma recta
y = 0,520 + 0,809x
La varianza explicada, la no explicada i la varianza residual son identicas en todas las
regresiones, as como tambien el coeciente de determinaci on.
Por lo tanto, las cinco regresiones parecen ser formalmente identicas. A pesar de ello, si
dibujamos en cada caso los diagramas de dispersi on y la recta de regresi on, observaremos
que nuestra impresi on se modica radicalmente: en la p agina 116 tenemos los gr acos
para los cinco conjuntos de datos.
114
obs. x
1
(a-d) y(a) y(b) y(c) y(d) x(e) y(e)
1 7 5,535 0,103 7,399 3,864 13,715 5,654
2 8 9,942 3,770 8,546 4,942 13,715 7,072
3 9 4,249 7,426 8,468 7,504 13,715 8,496
4 10 8,656 8,792 9,616 8,581 13,715 9,909
5 12 10,737 12,688 10,685 12,221 13,715 9,909
6 13 15,144 12,889 10,607 8,842 13,715 9,909
7 14 13,939 14,253 10,529 9,919 13,715 11,327
8 14 9,450 16,545 11,754 15,860 13,715 11,327
9 15 7,124 15,620 11,676 13,967 13,715 12,746
10 17 13,693 17,206 12,745 19,092 13,715 12,746
11 18 18,100 16,281 13,893 17,198 13,715 12,746
12 19 11,285 17,647 12,590 12,334 13,715 14,164
13 19 21,385 14,211 15,040 19,761 13,715 15,582
14 20 15,692 15,577 13,737 16,382 13,715 15,582
15 21 18,977 14,652 14,884 18,945 13,715 17,001
16 23 17,690 13,947 29,431 12,187 33,281 27,435
Cuadro 6.4: Datos de cinco regresiones simples
n umero de obs. n = 16

1
= 0,809 ee(
1
)=0,170
media de las x
1
x
1
= 14,938

0
= 0,520 ee(
0
)=2,668
media de las y y = 12,600 R
2
= 0,617
(y
i
y)
2
= 380,403 con 15 g.l.
(y
i
y
i
)
2
= 145,66 con 14 g.l.
= 3,226
Cuadro 6.5: Principales resultados de la regresi on simple
La gura a es la que representan todos los manuales que explican la regresi on simple.
El modelo de la regresi on lineal simple parece correcto y adaptado a los datos que
permite describir correctamente. El modelo parece v alido.
La gura b sugiere que el modelo lineal simple no est a absolutamente adaptado
a los datos que pretende describir. M as bien, la forma adecuada es la cuadr atica
con una debil variabilidad. El modelo lineal simple es incorrecto; en particular,
las predicciones que el proporciona son sesgadas: subestimaciones para los valores
pr oximos a la media de x y sobreestimaciones para el resto.
La gura c sugiere todava que el modelo lineal simple no se adapta a los datos,
pero una unica observaci on parece ser la causa. Por contra, las otras observaciones
est an bien alineadas pero respecto a otra recta de ecuaci on y = 4,242+0,503x
1
. Hay
pues, un dato verdaderamente sospechoso. La reacci on natural del experimentador
ser a la de investigar con detalle la raz on de esta desviaci on. No ser a un error de
transcripci on? Hay alguna causa que justique la desviaci on y que no tiene en
cuenta el modelo lineal simple?
115
a
0
10
20
30
0 10 20 30
b
0
10
20
30
0 10 20 30
c
0
10
20
30
0 10 20 30
d
0
10
20
30
0 10 20 30
e
0
10
20
30
0 10 20 30
Figura 6.2: Gr acos de los cinco conjuntos de datos con la recta de regresi on
La gura d tiene un an alisis m as sutil: los puntos rodean la recta, pero aumentan
las desviaciones a medida que crecen los valores de la variable regresora. Se hace
evidente que la suposici on de una varianza com un de los residuos no se verica.
Finalmente, la gura e es m as contundente: el modelo parece correcto. Si la calidad
de los datos no puede ponerse en duda, este conjunto es tan v alido como el primero
y los resultados numericos de la regresi on son correctos. Pero nosotros intuimos que
este resultado no es lo sucientemente satisfactorio: todo depende de la presencia
116
de un unico punto, si lo suprimimos, incluso no ser a posible calcular la pendiente
de la recta, ya que la suma de los cuadrados de las desviaciones de las x es cero.
Este no es el caso del primer conjunto de datos, donde la supresi on de un punto no

conduce m as que a una ligera modicaci on de los resultados. As pues, deberamos
ser extremadamente cautos con las posibles utilizaciones de este modelo. Adem as,
debemos indicar que el experimento denido por los valores de x es muy malo.
Naturalmente, los conjuntos de datos b, c, d y e muestran casos extremos que, en la
pr actica, no hallaremos de forma tan clara.

Esta es una raz on suplementaria para dotar al
experimentador de medios para detectarlos. Cuando las desviaciones de las suposiciones
del modelo son debiles, los resultados no ser an err oneos, pero si las suposiciones son
groseramente falsas, las conclusiones pueden incluso no tener sentido. La herramienta
fundamental para la validaci on de las hip otesis del modelo es el an alisis de los residuos
del modelo estimado.
El analisis de los residuos (ver captulo 9) tiene como objetivo contrastar a posteriori
las hip otesis del modelo lineal. Es especialmente importante cuando, si tenemos un unico
valor de y para cada x, los contrastes de homocedasticidad, normalidad e independencia
no se pueden hacer a priori. Analizaremos los residuos para comprobar:
a) si la distribuci on es aproximadamente normal;
b) si su variabilidad es constante y no depende de x o de otra causa;
c) si presentan evidencia de una relaci on no lineal entre las variables;
d) si existen observaciones atpicas o heterogeneas respecto a la variable x, la y o
ambas.
6.9. Ejemplos con R
Vamos a recuperar el ejemplo de la secci on 1.8 donde se calculan algunas regresiones a
partir del ejemplo inicial con los datos de la tabla 1.1. En esa secci on, el c alculo de la
regresi on simple se realiza con la funci on lsfit(x,y) que asignamos al objeto recta.ls
> recta.ls<-lsfit(dens,rvel)
Ahora utilizaremos la funci on lm que dene el modelo de regresi on simple.
> recta<-lm(rvel~dens)
> recta
Call:
lm(formula = rvel ~ dens)
Coefficients:
(Intercept) dens
8.089813 -0.05662558
Degrees of freedom: 24 total; 22 residual
Residual standard error: 0.2689388
117
Tambien se pueden obtener otros datos importantes con la funci on summary:
> recta.resumen<-summary(recta)
> recta.resumen
Call: lm(formula = rvel ~ dens)
Residuals:
Min 1Q Median 3Q Max
-0.3534 -0.2272 -0.03566 0.1894 0.5335
Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) 8.0898 0.1306 61.9295 0.0000
dens -0.0566 0.0022 -26.0076 0.0000
Residual standard error: 0.2689 on 22 degrees of freedom
Multiple R-Squared: 0.9685
F-statistic: 676.4 on 1 and 22 degrees of freedom, the p-value is 0
Correlation of Coefficients:
(Intercept)
dens -0.9074
Adem as se puede acceder a muchos valores de los objetos recta y recta.resumen de
forma directa.
> recta$coef
(Intercept) dens
8.089813 -0.05662558
> recta.resumen$sigma
[1] 0.2689388
En general, podemos saber los diferentes resultados que se obtienen con el comando lm
si escribimos names(recta) o names(summary(recta)).
> names(recta)
[1] "coefficients" "residuals" "fitted.values" "effects" "R" "rank"
[7] "assign" "df.residual" "contrasts" "terms" "call"
> names(summary(recta))
[1] "call" "terms" "residuals" "coefficients" "sigma" "df"
[7] "r.squared" "fstatistic" "cov.unscaled" "correlation"
De modo que podemos utilizar estos datos para nuevos c alculos. Por ejemplo podemos cal-
cular la matriz estimada de covarianzas entre los estimadores de los par ametros
2
(X
X)
1
as:
> cov.beta<-round(recta.resumen$sigma^2*recta.resumen$cov.unscaled,6)
> cov.beta
(Intercept) dens
(Intercept) 0.017064 -0.000258
dens -0.000258 0.000005
118
Por otra parte, y aunque el resumen proporcionado por la funci on summary(recta) inclu-
ye el test F de signicaci on de la regresi on, la tabla del An alisis de la Varianza se puede
calcular con la funci on aov.
> summary(aov(recta))
Df Sum of Sq Mean Sq F Value Pr(F)
dens 1 48.92231 48.92231 676.3944 0
Residuals 22 1.59122 0.07233
Tambien se pueden calcular intervalos de conanza al 95 % para los par ametros
0
,
1
.
> coef(recta)
(Intercept) dens
8.089813 -0.05662558
> coef.recta<-coef(recta)
> names(coef.recta)
[1] "(Intercept)" "dens"
> names(coef.recta)<-NULL # Truco para utilizar mejor los coeficientes
> coef.recta
1 2
8.089813 -0.05662558
> ee0<-sqrt(cov.beta[1,1])
> ee1<-sqrt(cov.beta[2,2])
> c(coef.recta[1]+qt(0.025,22)*ee0,coef.recta[1]+qt(0.975,22)*ee0)
[1] 7.818905 8.360721
> c(coef.recta[2]+qt(0.025,22)*ee1,coef.recta[2]+qt(0.975,22)*ee1)
[1] -0.06126290 -0.05198826
Cabe se nalar que si el modelo de regresi on simple debe pasar por el origen, es decir, no
tiene termino de intercepci on, podemos utilizar la funci on lsfit(x,y,int=F) o la funci on
lm(y ~ x - 1).
La predicci on puntual o por intervalo de nuevos valores de la variable respuesta se puede
hacer con la funci on predict del modelo lineal. Atenci on, porque los argumentos en R y
S-PLUS dieren.
Por ultimo, podemos a nadir que en R existe un conjunto de datos similares a los explicados
en la secci on 6.8:
> data(anscombe)
> summary(anscombe)
119
6.10. Ejercicios
Ejercicio 6.1
Probar que bajo el modelo lineal normal y
i
=
0
+
1
x
i
+
i
las estimaciones MC

0
,

1
son estoc asticamente independientes si y s olo si
x
i
= 0.
Ejercicio 6.2
Comprobar que la pendiente de la recta de regresi on es
1
= r
S
1/2
y
S
1/2
x
= r
s
y
s
x
donde r es el coeciente de correlaci on
r =
S
xy
(S
x
S
y
)
1/2
=
s
xy
s
x
s
y
Ejercicio 6.3
Consideremos el modelo de regresi on simple alternativo
y
i
=
0
+
1
(x
i
x) +
i
i = 1, . . . , n
La matriz de dise no asociada es X
= (1, x x1) donde 1 = (1, . . . , 1)
y x = (x
1
, . . . , x
n
)
.
Este modelo es equivalente al modelo 6.1 ya que X
) = X).
Calcular las estimaciones = (X
)
1
X
Y para comprobar que

0
= y

1
=

1
=
x
i
x
S
x
y
i
Calcular la matriz de varianzas-covarianzas var( ) =
2
(X
)
1
y comprobar que

0
= y est a incorrelacionado con
1
=

1
. A partir de este resultado, calcular var(
1
) =
var(
1
) y var(
0
) = var( y

1
x).
Calcular tambien la matriz proyecci on P = X
(X
)
1
X
= X(X
X)
1
X
.
Ejercicio 6.4
En un modelo de regresi on simple, con
0
, demostrar que se verican las siguientes pro-
piedades para las predicciones y
i
=

0
+

1
x
i
y los residuos e
i
= y
i
y
i
:
(i) La suma de los residuos es cero:
e
i
= 0.
(ii)
y
i
=
y
i
(iii) La suma de los residuos ponderada por los valores de la variable regresora es cero:
x
i
e
i
= 0.
(iv) La suma de los residuos ponderada por las predicciones de los valores observados
es cero:
y
i
e
i
= 0.
120
Ejercicio 6.5 Modelo de regresi on simple estandarizado
A partir de los datos observados de una variable respuesta y
i
y de una variable regresora
x
i
se denen unas nuevas variables estandarizadas como
u
i
=
x
i
x
S
1/2
x
v
i
=
y
i
y
S
1/2
y
i = 1, . . . , n
La estandarizaci on signica que los datos transformados est an centrados y los vectores
u = (u
1
, . . . , u
n
)
, v = (v
1
, . . . , v
n
)
son de longitud uno, es decir, [[u[[ = 1 y [[v[[ = 1.

Se dene el modelo de regresi on simple estandarizado como
v
i
= b
1
u
i
+
i
i = 1, . . . , n
En este modelo desaparece de manera natural la ordenada en el origen al realizar el
cambio de variables.
Comprobar que
1
=

b
1
_
S
y
S
x
0
= y

1
x
Adem as, la matriz u
u = [[u[[
2
= 1 y la estimaci on de b
1
es muy sencilla

b
1
= r.
Ejercicio 6.6
En el caso de una regresi on lineal simple pasando por el origen y con la hip otesis de
normalidad, escribir el contraste de la hip otesis H
0
:
1
= b
1
, donde b
1
es una constante
conocida.
Ejercicio 6.7
Para el modelo lineal simple consideremos la hip otesis
H
0
: y
0
=
0
+
1
x
0
donde (x
0
, y
0
) es un punto dado. Esta hip otesis signica que la recta de regresi on pasa
por el punto (x
0
, y
0
). Construir un test para esta hip otesis.
Ejercicio 6.8
Hallar la recta de regresi on simple de la variable respuesta raz cuadrada de la velocidad
sobre la variable regresora densidad con los datos de la tabla 1.1 del captulo 1.
Comprobar las propiedades del ejercicio 6.4 para estos datos.
Calcular la estimaci on de
2
y, a partir de ella, las estimaciones de las desviaciones
est andar de los estimadores de los par ametros

0
y

1
.
Escribir los intervalos de conanza para los par ametros con un nivel de conanza del
95 %.
Construir la tabla para la signicaci on de la regresi on y realizar dicho contraste.
Hallar el intervalo de la predicci on de la respuesta media cuando la densidad es de 50
vehculos por km. Nivel de conanza: 90 %.
121
Ejercicio 6.9
Comparar las rectas de regresi on de hombres y mujeres con los logaritmos de los datos
del ejercicio 1.4.
Ejercicio 6.10
Se admite que una persona es proporcionada si su altura en cm es igual a su peso en kg
m as 100. En terminos estadsticos si la recta de regresi on de Y (altura) sobre X (peso)
es
Y = 100 +X
Contrastar, con un nivel de signicaci on = 0,05, si se puede considerar v alida esta
hip otesis a partir de los siguientes datos que corresponden a una muestra de mujeres
j ovenes:
X : 55 52 65 54 46 60 54 52 56 65 52 53 60
Y : 164 164 173 163 157 168 171 158 169 172 168 160 172
Razonar la bondad de la regresi on y todos los detalles del contraste.
Ejercicio 6.11
El perodo de oscilaci on de un pendulo es 2
_
l
g
, donde l es la longitud y g es la constante
de gravitaci on. En un experimento observamos t
ij
(j = 1, . . . , n
i
) perodos correspondien-
tes a l
i
(i = 1, . . . , k) longitudes.
(a) Proponer un modelo, con las hip otesis que se necesiten, para estimar la constante
2
g
por el metodo de los mnimos cuadrados.
(b) En un experimento se observan los siguientes datos:
longitud perodo
18,3 8,58 7,9 8,2 7,8
20 8,4 9,2
21,5 9,7 8,95 9,2
15 7,5 8
Contrastar la hip otesis H
0
:
2
g
= 2.
122
Captulo 7
Una recta resistente
Para ajustar una linea recta de la forma
y = a +bx
a un conjunto de datos (x
i
, y
i
), i = 1, . . . , n se han desarrollado varios metodos a lo largo
de la historia. La regresi on por mnimos cuadrados que hemos explicado es el metodo
m as conocido y m as ampliamente utilizado. Es un metodo que involucra c alculos alge-
braicamente simples, utiliza la inferencia deducida para la distribuci on normal y requiere
unicamente una derivaci on matem atica sencilla. Desgraciadamente, la recta de regresi on
mnimo-cuadr atica no es resistente. Un dato salvaje puede tomar f acilmente el control
de la recta ajustada y conducirnos a conclusiones enga nosas sobre la relaci on entre y y
x. La llamada recta resistente de los tres grupos evita esta dicultad. As, esta recta es
muy util en la exploraci on de los datos y-versus-x.
A continuaci on exponemos las principales ideas en este tema del cl asico libro Understan-
ding Robust and Exploratory Data Analysis de Hoaglin, Mosteller y Tukey [39].
7.1. Recta resistente de los tres grupos
7.1.1. Formaci on de los tres grupos
Empezaremos por ordenar los valores x de manera que x
1
x
2
x
n
. Entonces,
sobre la base de estos valores ordenados, dividiremos los n puntos (x
i
, y
i
) en tres grupos:
un grupo izquierdo, un grupo central y un grupo derecho, de tama no tan igual como sea
posible. Cuando no hay repeticiones en les x
i
, el n umero de puntos en cada uno de los
tres grupos depende del residuo de la divisi on de n por 3:
Grupo n = 3k n = 3k + 1 n = 3k + 2
Izquierdo k k k + 1
Central k k + 1 k
Derecho k k k + 1
Repeticiones de los x
i
nos har an estar alerta para formar tres conjuntos que no separen
los puntos con igual x en conjuntos diferentes. Un examen detallado del tratamiento de
las repeticiones nos puede llevar incluso a formar unicamente dos grupos. Cuando cada
uno de los tercios ha sido denitivamente formado, determinaremos las dos coordenadas
de unos puntos centrales, uno para cada grupo, con la mediana de los valores de las x y
123
la mediana de los valores de las y, por separado. Etiquetaremos las coordenadas de estos
tres puntos centrales con las letras I de izquierda, C de centro i D de derecha:
(x
I
, y
I
), (x
C
, y
C
), (x
D
, y
D
)
La gura 7.1 muestra los puntos observados y los puntos centrales de un ejemplo hipotetico
con 9 puntos. Como se ve en este gr aco, ninguno de los puntos centrales coincide con un
punto de los datos, ya que las medianas de les x y de las y se han calculado separadamente.
A pesar de ello, los tres podran ser puntos observados, como ocurre a menudo, cuando
las x y las y siguen el mismo orden.
Figura 7.1: Puntos observados y puntos centrales en un ejemplo hipotetico.
Este sistema de determinaci on de los puntos centrales de cada grupo es el que da a la
recta que calcularemos su resistencia. Cuanto mayor es el n umero de puntos observados
en cada grupo, la mediana proporciona la resistencia a los valores inuyentes de x, y o
ambos.
7.1.2. Pendiente e intercepci on
Ahora utilizaremos los puntos centrales para calcular la pendiente b y la ordenada en el
origen o intercepci on a de la recta y = a +bx que ajusta los valores observados y permite
la predicci on de los valores x
i
observados y cualquier otro valor apropiado de x. En este
sentido, la pendiente b nos dice cuantas unidades de y cambian por una unidad de x. Es
razonable obtener esta informaci on de los datos, en concreto de los puntos centrales de
los grupos izquierdo y derecho:
b
0
=
y
D
y
I
x
D
x
I
La utilizaci on de los dos puntos centrales de los grupos extremos nos da la ventaja de
medir el cambio de y sobre un intervalo bastante ancho de x, siempre que hayan sucientes
puntos observados en estos grupos para asegurar la resistencia.
Cuando tomamos la pendiente b
0
para ajustar el valor y de cada punto central, la dife-
rencia es el valor de la intercepci on de una linea con pendiente b
0
que pasa exactamente
por este punto. La intercepci on ajustada es la media de estos tres valores:
a
0
=
1
3
[(y
I
b
0
x
I
) + (y
C
b
0
x
C
) + (y
D
b
0
x
D
)]
De nuevo, como los puntos centrales est an basados en la mediana, a
0
es resistente.
124
El ajuste de una recta en terminos de pendiente e intercepci on es convencional, pero
usualmente articial. La intercepci on, que da el valor de y cuando x = 0, puede ser
determinada de forma imprecisa, especialmente cuando los valores de x est an todos muy
alejados del cero y el cero es un valor sin sentido en el rango de las x. Ajustar la recta
en terminos de pendiente y un valor central de las x, como la media, la mediana o x
C
, es
mucho m as util. Nosotros escogeremos x
C
por conveniencia y entonces la recta inicial es
y = a
0
+b
0
(x x
C
)
donde b
0
es la de antes y el valor central (tambien llamado nivel) es
a
0
=
1
3
[(y
I
b
0
(x
I
x
C
)) +y
C
+ (y
D
b
0
(x
D
x
C
))]
Como ahora explicaremos, esta recta se toma como punto de partida para ajustar una
mejor con iteraciones sucesivas.
7.1.3. Ajuste de los residuos e iteraciones
Una vez que hemos obtenido la pendiente y el nivel de la recta ajustada, el siguiente paso
es calcular los residuos para cada punto
r
i
= y
i
[a
+b(x
i
x
C
)]
Los gr acos de los residuos son muy utiles en la evaluaci on del ajuste y para descubrir
patrones de comportamiento inesperados. Pero ahora, de momento, resaltaremos una pro-
piedad general de todo conjunto de residuos, en nuestro problema actual o en situaciones
m as complejas:
Si substituimos los valores originales de y por los residuos, es decir, si utiliza-
mos (x
i
, r
i
) en lugar de (x
i
, y
i
), i = 1, . . . , n y repetimos el proceso de ajuste,
llegaremos a un ajuste cero.
Para una linea recta esto signica que, con los puntos (x
i
, r
i
), i = 1, . . . , n como datos, ob-
tendremos una pendiente cero y un nivel cero. En otras palabras, los residuos no contienen
m as aportaci on a la recta ajustada.
Una importante caracterstica de los procedimientos resistentes es que habitualmente
requieren iteraciones. Es el caso de la recta resistente de los tres grupos. Los residuos de
la recta con la pendiente b
0
y el nivel a
0
no tienen pendiente y nivel cero cuando hacemos
el ajuste de la recta con las mismas x
i
, aunque los nuevos valores de pendiente y nivel
son substancialmente menores (en magnitud) que b
0
y a
0
. Por esta raz on, pensaremos en
b
0
y a
0
como los valores iniciales de una iteraci on.
El ajuste a una recta de los residuos obtenidos con la recta inicial da unos valores
1
y
1
a la pendiente y el nivel, respectivamente. En concreto, utilizaremos los residuos iniciales
r
(0)
i
= y
i
[a
0
+b
0
(x
i
x
C
)], i = 1, . . . , n
en lugar de los y
i
y repetiremos los pasos del proceso de ajuste. Como el conjunto de los
x
i
no ha cambiado, los tres grupos y las medianas de los x en los puntos centrales ser an
los mismos.
125
Cuadro 7.1: Edad y altura de unos ni nos en una escuela privada.
Ni no Edad Altura
(meses) (cm)
1 109 137,6
2 113 147,8
3 115 136,8
4 116 140,7
5 119 132,7
6 120 145,4
7 121 135,0
8 124 133,0
9 126 148,5
10 129 148,3
11 130 147,5
12 133 148,8
13 134 133,2
14 135 148,7
15 137 152,0
16 139 150,6
17 141 165,3
18 142 149,9
Fuente: B.G. Greenberg (1953). The use of analysis of covariance and balan-
cing in analytical studies, American Journal of Public Health, 43, 692-699
(datos de la tabla 1, p ag. 694).
La pendiente y el nivel ajustados son b
0
+
1
y a
0
+
1
y los nuevos residuos
r
(1)
i
= r
(0)
i
[
1
+
1
(x
i
x
C
)], i = 1, . . . , n
Ahora podemos avanzar con otra iteraci on. En general no sabremos si hemos conseguido
un conjunto apropiado de residuos, hasta que veriquemos el ajuste cero. En la pr actica
continuaremos las iteraciones hasta que el ajuste de la pendiente sea sucientemente
peque no en magnitud, del orden del 1 % o del 0,01 % del tama no de b
0
. Cada iteraci on
a nade su pendiente y su nivel a los valores previos
b
1
= b
0
+
1
, b
2
= b
1
+
2
, . . .
y
a
1
= a
0
+
1
, a
2
= a
1
+
2
, . . .
Las iteraciones son normalmente pocas y los c alculos no muy largos.
Ejemplo 7.1.1
En una discusi on en 1953, Greenberg consider o los datos de edad y altura de dos muestras
de ni nos, una de una escuela privada urbana y la otra de una escuela p ublica rural. En
la tabla 7.1 se reproducen los datos de los 18 ni nos de la escuela privada.
Aunque los datos no siguen claramente una linea recta, su patr on no es notablemente
curvado y el ajuste a una linea puede resumir c omo la altura y crece con la edad x en
126
este grupo de ni nos. S olo los ni nos 13 y 17 tienen puntos muy separados y veremos c omo
inuyen en el conjunto. Dado que 18 es divisible por 3 y los datos x no tienen repeticiones,
cada grupo contiene seis puntos. Los puntos centrales de cada grupo son
(x
I
, y
I
) = (115,50, 139,15)
(x
C
, y
C
) = (127,50, 147,90)
(x
D
, y
D
) = (138,00, 150,25)
de forma que el valor inicial de la pendiente es
b
0
=
150,25 139,15
138,00 115,50
= 0,4933
y el valor inicial del nivel
a
0
=
1
3
[(139,150,4933(115,5127,5))+147,9+(150,250,4933(138127,5))] = 146,0133
120
140
160
180
100 110 120 130 140 150
Edad
A
l
t
u
r
a
Figura 7.2: Altura versus edad para los ni nos de una escuela privada.
Los datos de la tabla 7.2 est an ya ordenados en funci on de los valores de x = Edad y se
han calculado los residuos de la recta inicial.
Para ver c omo van las iteraciones, calcularemos los primeros ajustes de la pendiente y
del nivel
1
=
1,0500 0,5367
138,00 115,50
= 0,0705
1
= 0,1519
Notemos que
1
es sustancialmente menor en magnitud que b
0
, pero todava no es negli-
gible. Dos iteraciones m as nos proporcionan unos valores para los que el proceso puede
parar:
3
= 0,0006 es menor que un 1 % de la pendiente acumulada.
La recta ajustada es
y = 145,8643 + 0,4285(x 127,5)
La gura 7.3 representa los residuos de este ajuste. En general, el aspecto global es bas-
tante satisfactorio. S olo los dos puntos destacados, el del ni no 13 y el del ni no 17, se
separan mucho y son atpicos. Tambien hay tres residuos demasiado negativos para ni nos
127
Cuadro 7.2: Edad y altura de los ni nos en los tres grupos y residuos de la recta inicial
Ni no Edad Altura Residuo
(meses) (cm)
1 109 137,6 0,7133
2 113 147,8 8,9400
3 115 136,8 3,0467
4 116 140,7 0,3600
5 119 132,7 9,1200
6 120 145,4 3,0867
7 121 135,0 7,8067
8 124 133,0 11,2867
9 126 148,5 3,2267
10 129 148,3 1,5467
11 130 147,5 0,2533
12 133 148,8 0,0733
13 134 133,2 16,0200
14 135 148,7 1,0133
15 137 152,0 1,3000
16 139 150,6 1,0867
17 141 165,3 12,6267
18 142 149,9 3,2667
128
-20
-10
0
10
20
100 110 120 130 140 150
Edad
R
e
s
i
d
u
o
s
Figura 7.3: Residuos de la altura versus edad, despues del ajuste por la recta resistente.
que tienen alrededor de 120 meses. Si tuvieramos m as informaci on, podramos estudiar
porque estos ni nos son demasiado altos o demasiado bajos para su edad. Por ejemplo,
podramos separar los ni nos de las ni nas.
En este ejemplo hemos visto c omo dos puntos, hasta cierto punto inusuales, han tenido
muy poco efecto, si han tenido alguno, en el ajuste general de los datos. Una recta ajustada
por el metodo de los mnimos cuadrados corre mucho m as riesgo de dejarse inuenciar
por estos puntos. Para estos datos la recta de regresi on mnimo-cuadr atica es
y = 79,6962 + 0,5113x
o
y = 144,8853 + 0,5113(x 127,5)
donde observamos c omo los puntos 5, 7, 8 y 17 han torcido la recta. Adem as, si el valor de
y del punto 13 no fuera tan bajo, la recta mnimo-cuadr atica podra ser m as empinada. En
todo caso, como la evaluaci on del ajuste se hace con los residuos, la gura 7.4 nos muestra
los residuos mnimo-cuadr aticos con la edad. Aunque es bastante similar al anterior,
este gr aco nos da la sensaci on de una ligera tendencia a la baja. Es decir, los residuos
mnimo-cuadr aticos resultaran m as horizontales si elimin aramos de ellos una recta con
una pendiente ligeramente negativa.
En este ejemplo la variabilidad de los residuos merece m as atenci on que la diferencia
entre las pendientes de la recta de regresi on mnimo-cuadr atica y la recta resistente. Por
ejemplo, la desviaci on est andar de los residuos mnimo-cuadr aticos es 6,8188 y el error
est andar de la pendiente es 0,1621, sobre dos veces la diferencia entre las pendientes.
As hemos visto, cualitativamente, c omo algunos datos pueden afectar a la recta mnimo-
cuadr atica mucho m as que la recta resistente. En todo caso, cuando los datos est an razo-
nablemente bien dispuestos las dos lneas son parecidas.
7.1.4. Mejora del metodo de ajuste
Para algunos conjuntos de datos, el procedimiento iterativo explicado para ajustar la
recta resistente encuentra dicultades. Los ajustes de la pendiente pueden decrecer muy
lentamente o, despues de unos pocos pasos, dejar de decrecer y oscilar entre dos valores.
129
-20
-10
0
10
20
100 110 120 130 140 150
Edad
R
e
s
i
d
u
o
s
M
C
Figura 7.4: Residuos mnimo-cuadr aticos versus edad.
Afortunadamente, una modicaci on elimina completamente estos problemas y permite
que el n umero de iteraciones sea mucho m as limitado.
La soluci on propuesta por Johnstone y Velleman (1982) es un procedimiento iterativo
para el c alculo de la pendiente que asegura la convergencia hacia un valor unico.
En el c alculo de la pendiente en la j + 1 iteraci on tenemos
j+1
=
r
(j)
D
r
(j)
I
x
D
x
I
y esto ser a 0 justamente cuando el numerador r
(j)
D
r
(j)
I
= 0. Es decir, lo que debemos
hacer es hallar el valor de b que proporciona la misma mediana a los residuos del grupo
derecho y del grupo izquierdo. M as formalmente
r(b) = r
D
(b) r
I
(b)
muestra la dependencia funcional de b y prescinde del n umero de la iteraci on. Buscamos
el valor de b que hace r(b) = 0. Notemos que centraremos el proceso iterativo en b y
dejaremos a para el nal.
Empezaremos por calcular b
0
como antes y calcularemos r(b
0
) y
1
como ya sabemos.
A continuaci on calcularemos r(b
0
+
1
). Generalmente, r(b
0
) y r(b
0
+
1
) tendr an
signos opuestos, indicando que el valor deseado de b cae entre b
0
y b
1
= b
0
+
1
. Si pasa lo
contrario, cuando r(b
0
) y r(b
0
+
1
) tienen el mismo signo, hace falta seguir los pasos
desde b
0
y b
1
= b
0
+
1
hasta que hallamos un b
1
tal que r(b
1
) tiene el signo contrario a
r(b
0
).
En este punto tenemos un b
0
con r(b
0
) y un b
1
con r(b
1
) y sabemos que r ha de
ser 0 para alg un valor b entre b
0
y b
1
. (Este hecho y que la soluci on es unica requieren
una demostraci on formal que aqu no reproducimos.) As que podemos continuar por
interpolaci on lineal
b
2
= b
1
r(b
1
)
b
1
b
0
r(b
1
) r(b
0
)
Cuando r(b
2
) no es todava 0 (o sucientemente cerca de cero), hace falta repetir la
interpolaci on con otro paso. Para hacer esto, consideraremos el intervalo que contiene b
utilizando b
2
en lugar de b
1
o de b
0
, el que tenga r con el mismo signo que r(b
2
). Y
as los pasos necesarios.
130
7.2. Metodos que dividen los datos en grupos
Otras tecnicas anteriores al metodo resistente de los tres grupos fueron propuestas e
involucran la divisi on de los datos en grupos. Algunos de estos metodos no pretenden ser
una alternativa al metodo de los mnimos cuadrados y fueron desarrollados para ajustar
una recta cuando ambas variables est an sujetas a error.
Metodo de Wald
Wald (1940) propuso dividir los datos en dos grupos de igual tama no. Idealmente, los
valores te oricos X
i
del primer grupo son menores que los del segundo. En la pr actica,
porque los valores de X
i
son desconocidos, agruparemos los puntos en base a los x
i
observados.
Supongamos que n es par y sea m = n/2. Entonces, si asumimos que los valores de x
est an ordenados en orden creciente, la pendiente propuesta es
b
W
=
(y
m+1
+ +y
n
) (y
1
+ +y
m
)
(x
m+1
+ +x
n
) (x
1
+ +x
m
)
Si x
m+1
= x
m
, el metodo descarta los puntos con repetici on en el centro.
El punto de intercepci on es
a
W
= y b
W
x
donde y y x son las medias totales, de la misma forma que en la recta mnimo-cuadr atica.
Metodo de Nair y Shrivastava
Como una alternativa computacionalmente atractiva respecto al metodo de los mnimos
cuadrados, Nair y Shrivastava (1942) introdujeron el metodo de las medias por grupo. Si
ordenamos las x, podemos considerar un primer grupo con n
I
puntos, un segundo grupo
con n
D
puntos y descartamos los n n
I
n
D
restantes. Los puntos resumen de cada
grupo son las medias
x
I
=
x
1
+ +x
n
I
n
I
y
I
=
y
1
+ +y
n
I
n
I
x
D
=
x
nn
D
+1
+ +x
n
n
D
y
D
=
y
nn
D
+1
+ +y
n
n
D
y la pendiente y el punto de intercepci on resultan de la recta que pasa por ( x
I
, y
I
) y
( x
D
, y
D
)
b
NS
=
y
D
y
I
x
D
x
I
a
NS
= y
I
b
NS
x
I
= y
D
b
NS
x
D
Para formar los grupos se puede tomar n
I
= n
D
como el entero m as pr oximo a n/3.
Metodo de Bartlett
Bartlett (1949) modic o los dos metodos anteriores con la propuesta
b
B
=
y
D
y
I
x
D
x
I
a
B
= y b
B
x
131
de forma que la recta pasa por el punto ( x, y).
Recta de Brown-Mood
La propuesta de Brown y Mood (1951) es un metodo diferente que utiliza la mediana de
dos grupos. La pendiente b
BM
y el punto de intercepci on a
BM
se calculan de forma que
la mediana de los residuos en cada uno de los dos grupos sea cero:
mediana
x
i
Mx
y
i
a
BM
b
BM
x
i
= 0
mediana
x
i
>Mx
y
i
a
BM
b
BM
x
i
= 0
La inclusi on de la mediana M
x
en el primer grupo es arbitraria: el objetivo es que los dos
grupos sean muy parecidos en su tama no.
Para hallar los valores efectivos se propone un metodo iterativo similar al de las secciones
anteriores.
7.3. Metodos que ofrecen resistencia
En la secci on anterior hemos visto que la recta resistente de los tres grupos no fue la
primera alternativa a la de los mnimos cuadrados. Incluso la ultima de las rectas pro-
puestas, la recta de Brown-Mood, ofrece tambien resistencia. Ahora acabaremos esta
breve descripci on de tecnicas con algunas que proporcionan como mnimo un cierto grado
de resistencia. Pero primero debemos denir una medida de resistencia.
Una de las atractivas caractersticas de la recta resistente de los tres grupos es su habilidad
para tolerar puntos salvajes, es decir, puntos que son inusuales en su valor x o en su valor
y o en ambos. Para medir esta resistencia aplicaremos el concepto de colapso (breakdown)
introducido por Hampel (1971).
Denici on 7.3.1
El punto de colapso (breakdown bound) de un procedimiento para ajustar una recta a n
parejas de datos y-versus-x es la proporci on k/n, donde k es el mayor n umero de puntos
que pueden ser reemplazados arbitrariamente mientras dejen la pendiente y el punto de
intercepci on delimitados.
En la pr actica, podemos pensar en enviar puntos al innito al azar o en direcciones
problem aticas hasta que la pendiente y el punto de intercepci on no lo puedan tolerar m as
y se colapsen yendo tambien ellos hacia el innito. Nos preguntamos cuan grande debe
ser una parte de los datos para que un cambio dr astico no afecte de forma considerable
la recta ajustada.
Est a claro que la recta mnimo-cuadr atica tiene punto de colapso cero.
Dado que la recta resistente de los tres grupos usa la mediana dentro de cada grupo,
hallaremos su punto de colapso en 1/3 veces el punto de colapso de la mediana de una
muestra ordinaria. La mediana es el valor central, entonces su punto de colapso es 1/2,
de manera que el punto de colapso de la recta resistente es 1/6. A pesar de las diversas
posibilidades de construcci on de los tres grupos y el hecho que los puntos salvajes pueden
estar repartidos en los tres grupos, la idea es que 1/6 es lo mejor que podemos garantizar
en la m as desfavorable de las circunstancias.
132
Residuos mnimo-absolutos
Minimizar la suma de los residuos en valor absoluto tiene una historia casi tan larga como
la del metodo de los mnimos cuadrados. Para ajustar una recta hace falta hallar b
MA
y
a
MA
que minimicen
n
i=1
[y
i
a
MA
b
MA
x
i
[
Al contrario que para los mnimos cuadrados, no hay una f ormula para calcular b
MA
y
a
MA
. De hecho, la pendiente y el punto de intercepci on pueden no ser unicos.
Como la mediana es la medida que minimiza
n
i=1
[y
i
t[
hace falta esperar que este procedimiento tenga un alto punto de colapso. Desgraciada-
mente, este colapso es 0. La suma que se minimiza involucra tanto los valores x
i
como los
y
i
y as es posible pensar en un punto (x
i
, y
i
) que tome el control de la recta.
Mediana de las pendientes por parejas
Otra forma de aplicar la mediana al ajuste de una recta consiste en determinar, para cada
pareja de puntos, la pendiente y entonces calcular la mediana de estas pendientes. Con
m as cuidado, supongamos que los x
i
son todos diferentes, denimos
b
ij
=
y
j
y
i
x
j
x
i
1 i < j n
que son n(n 1)/2 valores. La pendiente ajustada es
b
T
= Medb
ij
Este metodo es una propuesta de Theil (1950), mejorada por Sen (1968), para manejar
las repeticiones de los x
i
.
Para deducir el punto de colapso, supongamos que exactamente k de los n puntos son
salvajes. Entonces el n umero de pendientes salvajes es
k(k 1
2
+k(n k)
Si este n umero es sucientemente grande, b
T
quedar a descontrolada. Para valores de
n grandes, podemos multiplicar el n umero de pendientes n(n 1)/2 por 1/2, el punto
de colapso de la mediana, y igualar con la expresi on anterior. Si resolvemos la ecuaci on
planteada para k, obtenemos un valor de k/n aproximadamente de 0,29. Esto quiere decir
que el punto de colapso de b
T
es 0,29.
Recta con medianas repetidas
Para conseguir un alto punto de colapso, Siegel (1982) ide o el metodo de las medianas
repetidas.
133
Empezamos con las pendientes por parejas del metodo anterior, pero ahora tomaremos
las medianas en dos pasos, primero en cada punto y despues para todos
b
MR
= Med
i
Med
j=i
b
ij
En el primer paso se toma la mediana de las pendientes de n 1 rectas que pasan por el
punto (x
i
, y
i
) y en el segundo paso se toma la mediana de estas n pendientes.
Para el punto de intercepci on calcularemos a
i
= y
i
b
MR
x
i
y entonces
a
MR
= Med
i
a
i
Siegel prob o que el punto de colapso de la recta con medianas repetidas es esencialmente
1/2.
7.3.1. Discusi on
Ahora que tenemos diversos metodos con diferentes puntos de colapso, c omo podemos
elegir uno?
Una consideraci on es el grado de resistencia que una particular aplicaci on pide. Otro
asunto es la precisi on relativa de las pendientes estimadas, especialmente en muestras
peque nas. Tambien es evidente que el tiempo de computaci on es otro de los factores a
tener en cuenta.
Finalmente, podemos decir que la recta resistente de los tres grupos tiene un comporta-
miento sucientemente bueno en los tres aspectos considerados y, por ello, es el metodo
resistente que hemos destacado.
134
Captulo 8
Regresi on lineal m ultiple
8.1. El modelo
De forma an aloga al caso de la regresi on lineal simple, podemos considerar el modelo
lineal entre una variable aleatoria respuesta Y y un grupo de k variables no aleatorias
x
1
, . . . , x
k
explicativas o regresoras.
Si y
1
, . . . , y
n
son n observaciones independientes de Y , el modelo lineal de la regresi on
m ultiple se dene como
y
i
=
0
+
1
x
i1
+ +
k
x
ik
+
i
i = 1, . . . , n (8.1)
donde (x
i1
, . . . , x
ik
) son los valores observados correspondientes a y
i
y se asumen las
consabidas hip otesis de Gauss-Markov sobre los errores.
En notaci on matricial, el modelo se escribe
Y = X +
donde Y = (y
1
, . . . , y
n
)
, = (
0
,
1
, . . . ,
k
)
, = (
1
, . . . ,
n
)
y la matriz de dise no es
X =
_
_
_
_
_
1 x
11
. . . x
1k
1 x
21
. . . x
2k
.
.
.
.
.
.
.
.
.
1 x
n1
. . . x
nk
_
_
_
_
_
Se supone adem as que rg(X) = k + 1 = m coincide con el n umero de par ametros.
Se trata de calcular el ajuste MC a un hiperplano k dimensional, donde
0
es el punto de
intersecci on del hiperplano con el eje y cuando x
1
= x
2
= = x
k
= 0.
Las ecuaciones normales son X
X = X
Y donde
X
X =
_
_
_
_
_
_
_
n
x
i1
x
i2
. . .
x
ik
x
2
i1
x
i1
x
i2
. . .
x
i1
x
ik
x
2
i2
. . .
x
i2
x
ik
.
.
.
.
.
.
x
2
ik
_
_
_
_
_
_
_
X
Y =
_
_
_
_
_
y
i
x
i1
y
i
.
.
.
x
ik
y
i
_
_
_
_
_
y cuya soluci on son las estimaciones

0
,

1
, . . . ,

k
, sin ning un problema de estimabilidad
ya que el modelo es de rango m aximo. Adem as, estas estimaciones son insesgadas y de
varianza mnima.
135
Las predicciones de los valores de Y dadas las observaciones de las variables regresoras
x
1
, . . . , x
k
son
Y = X
= PY
es decir
y
i
=

0
+

1
x
i1
+ +

k
x
ik
i = 1, . . . , n (8.2)
Tambien podemos considerar el modelo con las variables regresoras centradas
Y = (1, Z)
_
_
_
_
_
1
.
.
.
k
_
_
_
_
_
+
donde las columnas de Z tienen media cero, es decir, z
(j)
= x
(j)
x
j
1 o
z
ij
= x
ij
x
j
i = 1, . . . , n j = 1, . . . , k
Este modelo es equivalente al anterior con =
0
+
j
x
j
j
, pero su estimaci on es m as
sencilla porque
[(1, Z)
(1, Z)]
1
=
_
1/n 0
0 (Z
Z)
1
_
ya que Z
1 = 0.
Entonces
= y (
1
, . . . ,

k
)
= (Z
Z)
1
Z
(Y1 y)
Si denimos la matriz simetrica de varianzas-covarianzas, aunque de forma convencional,
entre las variables Y, x
1
, . . . , x
k
S =
_
s
2
y
S
xy
S
yx
S
xx
_
= n
1
(Y1 y, Z)
(Y1 y, Z)
resulta
(
1
, . . . ,

k
)
= S
1
xx
S
yx
Por todo ello, si consideramos las medias de los datos
y = (1/n)
i
y
i
x
j
= (1/n)
i
x
ij
j = 1, . . . , k
8.2 se expresa tambien en la forma
y
i
y =

1
(x
i1
x
1
) + +

k
(x
ik
x
k
)
Finalmente, observemos que el par ametro
j
, j = 1, . . . , k, indica el incremento en Y
cuando x
j
aumenta en una unidad manteniendose constantes el resto de variables regre-
soras. A veces se les llama coecientes de regresi on parcial porque reejan el efecto de
una variable regresora dada la presencia del resto que permanece constante.
Los residuos de la regresi on son
e = Y

Y = (I P)Y
que verican las propiedades que se han explicado para la regresi on simple en la p agina 94
(ver ejercicio 6.4).
136
8.2. Medidas de ajuste
Como en la regresi on simple, la evaluaci on del ajuste del hiperplano de regresi on a los
datos se puede hacer con la varianza residual o estimaci on MC de
2
.
SCR = e
e =
(y
i
1
x
i1

k
x
ik
)
2
= Y
YY
que tiene n m grados de libertad. As, la estimaci on centrada de la varianza del dise no
es el llamado error cuadr atico medio

2
= SCR/(n m) = ECM
Su raz cuadrada , que tiene las mismas unidades que Y , es el error est andar de la
regresi on m ultiple. Tambien aqu, la varianza residual y el error est andar dependen de las
unidades de la variable respuesta y no son utiles para comparar diversas regresiones.
En primer lugar, vamos a introducir el coeciente de correlaci on m ultiple de Y sobre
x
1
, . . . , x
k
. El uso del termino correlaci on es convencional puesto que las variables regre-
soras no son aleatorias. El coeciente se dene como la correlaci on muestral entre Y e
Y
r
yx
= corr(Y,

Y ) =
(y
i
y)( y
i
y)
[
(y
i
y)
2
( y
i
y)
2
]
1/2
ya que (1/n)
y
i
= y.
El coeciente de correlaci on m ultiple r
yx
verica 0 r
yx
1 y es una buena medida del
ajuste de Y al modelo X, pues
r
yx
= 1 =|Y

Y| = 0
El siguiente teorema, identico al teorema 6.2.1, justica la denici on del coeciente de
determinaci on como medida de ajuste.
Teorema 8.2.1
Las sumas de cuadrados asociadas a la regresi on m ultiple verican:
(i)
(y
i
y)
2
=
(y
i
y
i
)
2
+
( y
i
y)
2
(ii) r
2
yx
=
( y
i
y)
2
(y
i
y)
2
(iii) SCR =
(y
i
y
i
)
2
= (1 r
2
yx
)S
y
Demostraci on:
La descomposici on en suma de cuadrados (i) se justica de la misma forma que se ha
visto en el teorema 6.2.1. Tambien se puede ver el ejercicio 5.8.
El hecho fundamental es la ortogonalidad
(Y

Y)
Y = 0
pues el vector e = Y

Y = YX
es ortogonal a = X), mientras que

Y = X

(ver teorema 2.4.2 y su interpretaci on geometrica).
137
Luego
(y
i
y)( y
i
y) =
(y
i
y
i
+ y
i
y)( y
i
y)
=
(y
i
y
i
)( y
i
y) +
( y
i
y)
2
=
( y
i
y)
2
puesto que el primer sumando es nulo. Teniendo en cuenta la denici on de r
yx
, es f acil
deducir (ii).
Finalmente, combinando (i) y (ii) obtenemos (iii).
Como en 6.7, la descomposici on (i) del teorema anterior justica la denici on del coe-
ciente de determinaci on
R
2
=
VE
VT
= 1
SCR
S
y
Tambien aqu, esta medida del ajuste verica 0 R
2
1 y coincide con el cuadrado del
coeciente de correlaci on m ultiple
R
2
= 1
(1 r
2
yx
)S
y
S
y
= r
2
yx
Sin embargo, el coeciente de correlaci on m ultiple r
yx
es una medida de la asociaci on
lineal entre la variable respuesta Y y las regresoras x = (x
1
, . . . , x
k
) que, en este caso, es
convencional.
Como R
2
es la proporci on de variabilidad explicada por las variables regresoras, resulta
que si R
2
1, entonces la mayor parte de la variabilidad es explicada por dichas variables.
Pero R
2
es la proporci on de la variabilidad total explicada por el modelo con todas las
variables frente al modelo y =
0
, de manera que un R
2
alto muestra que el modelo mejora
el modelo nulo y por tanto s olo tiene sentido comparar coecientes de determinaci on entre
modelos anidados (casos particulares).
Adem as un valor grande de R
2
no necesariamente implica que el modelo lineal es bueno.
El coeciente R
2
no mide si el modelo lineal es apropiado. Es posible que un modelo con
un valor alto de R
2
proporcione estimaciones y predicciones pobres, poco precisas. El
an alisis de los residuos es imprescindible.
Tampoco est a claro lo que signica un valor grande, ya que problemas en diversas
ciencias (fsica, ingeniera, sociologa,. . . ) tienen razonablemente criterios diferentes.
Por otra parte, cuando se a naden variables regresoras R
2
crece, pero eso no signica que
el nuevo modelo sea superior:
R
2
nuevo
= 1
SCR
nuevo
S
y
R
2
= 1
SCR
S
y
SCR
nuevo
SCR
pero es posible que
ECM
nuevo
=
SCR
nuevo
n (m+p)
ECM =
SCR
n m
luego, en esta situaci on, el nuevo modelo ser a peor. As, como R
2
crece al a nadir nuevas
variables regresoras, se corre el peligro de sobreajustar el modelo a nadiendo terminos
innecesarios. El coeciente de determinaci on ajustado penaliza esto.
138
Denici on 8.2.1
Una medida del ajuste de la regresi on m ultiple a los datos es el coeciente de determina-
ci on o proporci on de variabilidad explicada
R
2
=
VE
VT
= 1
SCR
S
y
Sin embargo, para corregir el peligro de sobreajuste se dene el coeciente de determina-
ci on ajustado como
R
2
= 1
SCR/(n m)
S
y
/(n 1)
= 1
n 1
n m
(1 R
2
)
Cuando

R
2
y R
2
son muy distintos, el modelo ha sido sobreajustado y debemos eliminar
variables o terminos.
8.3. Inferencia sobre los coecientes de regresi on
Cuando asumimos la hip otesis de normalidad sobre la distribuci on de los errores
N
n
(0,
2
I), se deduce la normalidad de la variable respuesta
Y N
n
(X,
2
I)
lo que nos permite utilizar las distribuciones asociadas a los estimadores de los par ametros
que hemos estudiado.
En el captulo de contraste de hip otesis se ha visto de varias formas (ver 5.10) que para
una funci on parametrica estimable a
(
2
a
(X
X)
a)
1/2
t
nr
En nuestro caso, todas las funciones parametricas son estimables ya que r = k + 1 = m.
De modo que el estimador

j
verica
j
_
ECMc
jj
t
nm
(8.3)
donde c
jj
es el j-esimo elemento de la diagonal de (X
X)
1
y
2
= SCR/(nm) = ECM.
En consecuencia, los intervalos de conanza de los coecientes de regresi on
j
con un
nivel de conanza 100(1 ) % son
j
t
nm
() ee(
j
)
donde ee(
j
) =
_
ECMc
jj
.
En cuanto a los intervalos de conanza para la respuesta media o los intervalos de predic-
ci on para una respuesta concreta, su deducci on es similar al caso de la regresi on simple.
Si x
0
= (1, x
01
, . . . , x
0k
)
recoge una observaci on particular del conjunto de variables

regresoras, el intervalo de conanza con nivel 100(1) % para la respuesta media E[Y [x
0
]
est a centrado en su estimaci on y
0
= x
y
0
t
nm
() (ECMx
0
(X
X)
1
x
0
)
1/2
ya que E( y
0
) = x
0
= E[Y [x
0
] y var( y
0
) =
2
x
0
(X
X)
1
x
0
.
139
Extrapolaci on oculta
En la estimaci on de la respuesta media o la predicci on de nuevas respuestas en un punto
(x
01
, . . . , x
0k
) debemos ser muy cuidadosos con la extrapolaci on. Si unicamente tenemos
en cuenta el producto cartesiano de los recorridos de las variables regresoras, es f acil
considerar la predicci on para un punto que puede estar fuera de la nube de puntos con la
que hemos calculado la regresi on. Para evitar este problema deberemos ce nirnos al menor
conjunto convexo que contiene los n puntos originales y que recibe el nombre de casco
(hull) de las variables regresoras (ver gura 8.1).
x1
x
2
-2 -1 0 1 2
-
2
-
1
0
1
2
Figura 8.1: Conjunto convexo para los puntos de dos variables regresoras
Si consideramos los elementos h
ii
de la diagonal de la matriz proyecci on P = X(X
X)
1
X
,
podemos denir h
m ax
= m axh
11
, . . . , h
nn
y se puede comprobar que
x
(X
X)
1
x h
m ax
es un elipsoide que contiene al casco. No es el menor elipsoide, pero es el m as f acil de
calcular.
As pues, para evitar en lo posible la extrapolaci on, podemos comprobar en el punto
x
0
= (1, x
01
, . . . , x
0k
)
si
x
0
(X
X)
1
x
0
< h
m ax
Contraste de signicaci on de la regresi on
La hip otesis de mayor interes es la armaci on de que Y es independiente de las variables
x
1
, . . . , x
k
, es decir
H
0
:
1
=
2
= =
k
= 0 (8.4)
El An alisis de la Varianza del teorema 5.3.1 se puede aplicar al contraste de la signicaci on
conjunta de los coecientes de regresi on puesto que se trata de una hip otesis contrastable
del tipo H
0
: A = 0, donde
A =
_
_
_
_
_
0 1 0 . . . 0
0 0 1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . 1
_
_
_
_
_
rango A = k
140
Si H
0
es cierta, al igual que en 6.9, la estimaci on del unico par ametro que queda en el
modelo es

0|H
= y y la suma de cuadrados residual es
SCR
H
=
(y
i
y)
2
= S
y
que tiene n 1 grados de libertad.
La descomposici on en suma de cuadrados es
S
y
= SCR + (SCR
H
SCR)
es decir
(y
i
y)
2
=
(y
i
y
i
)
2
+
( y
i
y)
2
La tabla siguiente recoge esta descomposici on y realiza el contraste de la hip otesis. La
hip otesis se rechaza si F > F
k,nk1
().
Fuente de grados de suma de cuadrados
variaci on libertad cuadrados medios F
Regresi on k SC
R
= SCR
H
SCR CM
R
CM
R
/ECM
Error n k 1 SCR ECM
Total n 1 S
y
Cuadro 8.1: Tabla del an alisis de la varianza para contrastar la signicaci on de la regresi on
m ultiple
Teniendo en cuenta las f ormulas del teorema 8.2.1
SCR
H
SCR = r
2
yx
S
y
y deducimos una expresi on equivalente al estadstico F
F =
r
2
yx
1 r
2
yx
n k 1
k
que tambien se presenta en forma de tabla.
Fuente de Grados de Suma de F
variaci on libertad cuadrados
Regresi on k r
2
yx
S
y
r
2
yx
1 r
2
yx
n k 1
k
Residuo n k 1 (1 r
2
yx
)S
y
Total n 1 S
y
Cuadro 8.2: Tabla del an alisis de la varianza en regresi on m ultiple
Del mismo modo que en la secci on 6.5 la hip otesis 8.4 equivale a armar que el coeciente
de correlaci on m ultiple poblacional es cero y se resuelve con el contraste asociado a la
tabla anterior.
141
Signicaci on parcial
El contraste de signicaci on de un coeciente de regresi on particular H
0
:
j
= 0, para
un j jo, se resuelve con el estadstico 8.3 y la regi on crtica
j
(ECMc
jj
)
1/2
> t
nk1
() (8.5)
donde c
jj
es el j-esimo elemento de la diagonal de (X
X)
1
.
Aceptar esta hip otesis signica que la variable regresora x
j
se puede eliminar del modelo.
Sin embargo, es preciso actuar con cuidado ya que se trata de un contraste parcial porque
el coeciente

j
depende de todas las otras variables regresoras x
i
(i ,= j). Es un contraste
de la contribuci on de x
j
dada la presencia de las otras variables regresoras en el modelo.
De forma general podemos estudiar la contribuci on al modelo de un subconjunto de
las variables regresoras. Esto se puede hacer mediante la descomposici on de la suma de
cuadrados asociada a un contraste de modelos.
Consideremos el modelo lineal completo, dividido en dos grupos de variables regresoras,
Y = X + =
_
X
1
X
2
_
_
2
_
+
donde X
1
es n (mp) y X
2
es n p.
Para este modelo, la estimaci on de los par ametros es

= (X
X)
1
X
Y y la suma de
cuadrados de la regresi on es
SC
R
() = SCR
H
SCR = Y
Y(Y
Y) =

Y
con m grados de libertad. Esto es as porque la hip otesis considerada es H
0
: = 0 y,
bajo esta hip otesis, SCR
H
= Y
Y.
Para hallar la contribuci on de los terminos de
2
en la regresi on, podemos considerar la
hip otesis H
0
:
2
= 0 que es equivalente al modelo reducido Y = X
1
1
+ . Bajo esta
hip otesis, la estimaci on de los par ametros es

1
= (X
1
X
1
)
1
X
1
Y y la suma de cuadrados
de la regresi on
SC
R
(
1
) =

1
X
1
Y
con mp grados de libertad.
Luego la suma de cuadrados de la regresi on debida a
2
, dado que
1
est a ya en el modelo,
es
SC
R
(
2
[
1
) = SC
R
() SC
R
(
1
)
con m(mp) = p grados de libertad.
Como SC
R
(
2
[
1
) es independiente de SCR, la hip otesis H
0
:
2
= 0 se puede contrastar
con el estadstico
SC
R
(
2
[
1
)/p
ECM
F
p,nm
que se puede llamar una F parcial, pues mide la contribuci on de X
2
considerando que
X
1
est a en el modelo.
Por ejemplo, la suma de cuadrados de la regresi on SC
R
(
j
[
0
,
1
, . . . ,
j1
,
j+1
, . . . ,
k
)
para 1 j k es el crecimiento en la suma de cuadrados debido a a nadir x
j
al modelo
142
que ya contiene todas las otras variables, como si fuera la ultima variable a nadida al
modelo. El contraste es equivalente al contraste 8.5.
Estos contrastes F parciales juegan un papel muy importante en la b usqueda del mejor
conjunto de variables regresoras a utilizar en un modelo. Por ejemplo, en el modelo
parab olico Y =
0
+
1
x +
2
x
2
+ estaremos interesados en SC
R
(
1
[
0
) y luego en
SC
R
(
2
[
0
,
1
) que es la contribuci on cuadr atica al modelo lineal simple.
En el modelo Y =
0
+
1
x
1
+
2
x
2
+
3
x
3
+, la descomposici on en suma de cuadrados
es
S
y
= SC
R
(
1
,
2
,
3
[
0
) + SCR
pero
SC
R
(
1
,
2
,
3
[
0
) = SC
R
(
1
[
0
) + SC
R
(
2
[
0
,
1
) + SC
R
(
3
[
0
,
1
,
2
)
= SC
R
(
2
[
0
) + SC
R
(
1
[
0
,
2
) + SC
R
(
3
[
0
,
1
,
2
)
= . . .
Sin embargo, hay que ir con cuidado porque este metodo no siempre produce una partici on
de la suma de cuadrados de la regresi on y, por ejemplo,
SC
R
(
1
,
2
,
3
[
0
) ,= SC
R
(
1
[
2
,
3
,
0
) + SC
R
(
2
[
1
,
3
,
0
) + SC
R
(
3
[
1
,
2
,
0
)
Un resultado interesante se tiene cuando las columnas de X
1
y X
2
son ortogonales, ya
que entonces
SC
R
(
2
[
1
) = SC
R
(
2
) SC
R
(
1
[
2
) = SC
R
(
1
)
Regi on de conanza y intervalos simultaneos
Del mismo modo que hemos explicado en 6.3.6, en regresi on m ultiple la regi on con una
conanza conjunta del 100(1 ) % es
(
X(
)
mECM
F
m,nm
()
Los intervalos simult aneos para los coecientes de la regresi on son del tipo
j
ee(
j
)
para un conjunto de s coecientes entre los k +1. Por ejemplo, el metodo de Schee pro-
porciona los intervalos simult aneos
j
(sF
s,nk1
())
1/2
ee(
j
)
Los intervalos simult aneos para un conjunto de s respuestas medias a los puntos x
01
, . . . , x
0s
son
y
x
0j
(ECMx
0j
(X
X)
1
x
0j
)
1/2
donde = (sF
s,nk1
())
1/2
por el metodo de Schee.
143
8.4. Coecientes de regresi on estandarizados
Es difcil comparar coecientes de regresi on porque la magnitud de

j
reeja las unidades
de medida de la variable regresora. Por ejemplo, en el modelo
Y = 5 +x
1
+ 1000x
2
donde x
1
se mide en litros y x
2
en mililitros, aunque

2
= 1000 es mucho mayor que
1
= 1, el efecto sobre Y es el mismo.
Generalmente, las unidades de los coecientes de regresi on son
unidades

j
=
unidades Y
unidades x
j
Por todo ello, frecuentemente es de gran ayuda trabajar con variables estandarizadas que
producen coecientes de regresi on sin dimensi on. B asicamente hay dos tecnicas:
Escala normal unidad
z
ij
=
x
ij
x
j
s
j
i = 1, . . . , n; j = 1, . . . , k
y
i
=
y
i
y
s
y
i = 1, . . . , n
donde
x
j
=
1
n
n
i=1
x
ij
s
2
j
=
1
n 1
n
i=1
(x
ij
x
j
)
2
s
2
y
=
1
n 1
n
i=1
(y
i
y)
2
El modelo es
y
i
= b
0
+b
1
z
i1
+b
2
z
i2
+ +b
k
z
ik
+
i
i = 1, . . . , n
donde las variables regresoras y la variable respuesta tienen media cero y varianza muestral
uno. La estimaci on del modelo es

b = (
b
1
, . . . ,
b
k
)
= (Z
Z)
1
Z
y

b
0
= y
= 0.
Escala longitud unidad
w
ij
=
x
ij
x
j
S
1/2
j
i = 1, . . . , n; j = 1, . . . , k
y
0
i
=
y
i
y
S
1/2
y
i = 1, . . . , n
donde
S
j
=
n
i=1
(x
ij
x
j
)
2
S
y
=
n
i=1
(y
i
y)
2
El modelo es
y
0
i
= b
1
w
i1
+b
2
w
i2
+ +b
k
w
ik
+
i
i = 1, . . . , n
donde las variables regresoras y la variable respuesta tienen media cero y longitud
_
n
i=1
(w
ij
w
j
)
2
= 1
144
y la estimaci on de los par ametros es

b = (W
W)
1
W
Y
0
.
Pero en este modelo tenemos
W
W = R
xx
=
_
_
_
_
_
1 r
12
. . . r
1k
r
21
1 . . . r
2k
.
.
.
.
.
.
.
.
.
.
.
.
r
k1
r
k2
. . . 1
_
_
_
_
_
donde R
xx
es la matriz de correlaciones de las variables regresoras ya que
r
ij
=
n
s=1
(x
si
x
i
)(x
sj
x
j
)
(S
i
S
j
)
1/2
Tambien podemos considerar que W
Y
0
= R
xy
es el vector de correlaciones de las varia-
bles regresoras con la variable respuesta. Tambien aqu el termino correlaci on es conven-
cional.
En todo caso, como
Z
Z = (n 1)W
W
Z
= (n 1)W
Y
0
las estimaciones de b = (b
1
, . . . , b
k
)
por ambos metodos son identicas.

Denici on 8.4.1
Se llaman coecientes de regresi on estandarizados los que se obtienen como soluci on del
sistema de ecuaciones
b
1
+r
12
b
2
+ +r
1k
b
k
= r
1y
r
21
b
1
+ b
2
+ +r
2k
b
k
= r
2y
.
.
.
.
.
.
.
.
.
.
.
.
r
k1
b
1
+r
k2
b
2
+ + b
k
= r
ky
es decir
R
xx
b = R
xy
donde R
xx
es la matriz de coecientes de correlaci on entre las variables regresoras y
R
xy
= (r
1y
, . . . , r
ky
)
el vector columna con los coecientes de correlaci on entre las varia-

bles regresoras y la respuesta.
Los coecientes de regresi on ordinarios se deducen de las ecuaciones
j
=

b
j
_
S
y
S
j
_
1/2
=

b
j
s
y
s
j
j = 1, . . . , k
0
= y
k
j=1
j
x
j
Adem as, el coeciente de determinaci on es
R
2
= r
2
yx
=

b
1
r
1y
+
b
2
r
2y
+ +
b
k
r
ky
145
Algunos paquetes estadsticos calculan ambos conjuntos de coecientes de regresi on. En
alg un caso, a los coecientes de regresi on estandarizados les llaman beta coecientes lo
que para nosotros es confuso.
Finalmente se nalaremos que debemos cuidar las interpretaciones puesto que los coecien-
tes estandarizados todava son parciales, es decir, miden el efecto de x
j
dada la presencia
de las otras variables regresoras. Tambien

b
j
est a afectado por el recorrido de los valores
de las variables regresoras, de modo que es peligroso utilizar

b
j
para medir la importancia
relativa de la variable regresora x
j
.
Ejemplo 8.4.1
En un estudio sobre la incidencia que puede tener sobre el rendimiento en lenguaje Y ,
la comprensi on lectora x
1
y la capacidad intelectual x
2
, se obtuvieron datos sobre 10
estudiantes tomados al azar de un curso de b asica (ver tabla 8.3).
Y x
1
x
2
3 1 3
2 1 4
4 3 7
9 7 9
6 8 7
7 7 6
2 4 5
6 6 8
5 6 5
8 9 7
Cuadro 8.3: Tabla de datos del rendimiento en lenguaje
La matriz de correlaciones, las medias y las desviaciones tpicas son:
x
1
x
2
Y
x
1
1 0,6973 0,8491 x
1
= 5,2 s
1
= 2,82
x
2
1 0,7814 x
2
= 6,1 s
2
= 1,86
Y 1 y = 5,2 s
y
= 2,44
Empezaremos planteando el sistema
b
1
+ 0,6973 b
2
= 0,8491
0,6973 b
1
+b
2
= 0,7814
cuya soluci on es
b
1
= 0,592

b
2
= 0,368
Entonces
1
=

b
1
s
y
s
1
= 0,512

2
=

b
2
s
y
s
2
= 0,485
0
= y

1
x
1
2
x
2
= 0,424
La ecuaci on de regresi on es
y = 0,424 + 0,512x
1
+ 0,485x
2
146
El coeciente de determinaci on es
R
2
= r
2
yx
=

b
1
0,849 +
b
2
0,781 = 0,791
y puede armarse que hay una buena relaci on entre el rendimiento en lenguaje y la
comprensi on lectora y la capacidad intelectual.
Finalmente, para decidir sobre la hip otesis H
0
:
1
=
2
= 0 calcularemos
F =
r
2
yx
1 r
2
yx
10 3
3 1
= 13,22
con 2 y 7 grados de libertad. As H
0
puede ser rechazada, es decir, la relaci on anterior es
signicativa.
8.5. Multicolinealidad
Cuando la matriz X no es de rango m aximo, sabemos que X
X es singular y no podemos
calcular su inversa. Ya sabemos que la soluci on puede ser la utilizaci on de alguna g-inversa,
aunque ello implica que la soluci on de las ecuaciones normales no es unica. En el caso de
la regresi on m ultiple es difcil, aunque no imposible, que alguna columna sea linealmente
dependiente de las dem as. Si ocurriera esto diramos que existe colinealidad entre las
columnas de X. Sin embargo, el termino colinealidad o multicolinealidad se reere al
caso, mucho m as frecuente, de que la dependencia entre las columnas no es exacta sino
aproximada, es decir, a la quasi-dependencia lineal entre las variables regresoras. Esto
puede provocar problemas de computaci on de los par ametros y en el c alculo de la precisi on
de los mismos (ver Apendice A.4).
Entre las m ultiples formas de detecci on de la multicolinealidad vamos a destacar el c alculo
de los factores de inaci on de la varianza. Nosotros hemos visto que la matriz de varianzas-
covarianzas de los estimadores de los par ametros de un modelo lineal es
var(
) =
2
(X
X)
1
Si consideramos el modelo de regresi on estandarizado por la escala de longitud unidad,
la matriz de varianzas-covarianzas de los coecientes de regresi on estandarizados es
var(
b) =
2
R
1
xx
donde
2
es la varianza del error del modelo transformado. En particular, la varianza de
uno de los coecientes es
var(
b
j
) =
2
[R
1
xx
]
jj
donde [R
1
xx
]
jj
es el j-esimo elemento de la diagonal de la matriz. Estas varianzas pue-
den estar inadas a causa de la multicolinealidad que puede ser evidente a partir de
la observaci on de los elementos no nulos fuera de la diagonal de R
xx
, es decir, de las
correlaciones simples entre las variables regresoras.
Denici on 8.5.1
Los elementos de la diagonal de la matriz R
1
xx
se llaman FIV o factores de inaci on de
la varianza ya que
var(
b
j
) =
2
FIV
j
147
Se demuestra que
FIV
j
= (1 R
2
j
)
1
donde R
2
j
es el coeciente de determinaci on m ultiple de la variable regresora x
j
con todas
las dem as variables regresoras.
El factor de inaci on de la varianza FIV
j
= 1 cuando R
2
j
= 0, es decir, cuando x
j
no
depende linealmente del resto de las variables. Cuando R
2
j
,= 0, entonces FIV
j
> 1 y si
R
2
j
1, entonces FIV
j
es grande. As pues, el factor de inaci on de la varianza mide
el incremento que se produce en la varianza de los estimadores de los coecientes de
regresi on al comparar dicha varianza con la que deberan tener si las variables regresoras
fuesen incorrelacionadas.
Cuando FIV
j
> 10 tenemos un grave problema de multicolinealidad. Algunos autores
preeren calcular la media de los FIV
j
y alertar sobre la multicolinealidad cuando dicha
media supera el n umero 10.
Una de las posibles soluciones tras la detecci on de multicolinealidad es la estimaci on por
la regresi on ridge (ver 4.3.1).
Ejemplo 8.5.1
Con los datos del ejemplo 8.4.1, la matriz de correlaciones R
xx
y su inversa son
R
xx
=
_
1,0000 0,6973
0,6973 1,0000
_
R
1
xx
=
_
1,9465 1,3574
1,3574 1,9465
_
y los factores de inaci on de la varianza son FIV
1
= 1,9465, FIV
2
= 1,9465, que coinciden
naturalmente cuando k = 2.
8.6. Regresi on polin omica
Supongamos que una variable aleatoria Y se ajusta a una variable de control x seg un un
modelo polin omico de grado m
y
i
=
0
+
1
x
i
+
2
x
2
i
+ +
m
x
m
i
+
i
(8.6)
Observemos que se trata de un modelo de regresi on lineal m ultiple de Y sobre las variables
x
1
= x, x
2
= x
2
, . . . , x
m
= x
m
. Para una regresi on polin omica de grado m, la matriz de
dise no es
X =
_
_
_
_
_
1 x
1
x
2
1
. . . x
m
1
1 x
2
x
2
2
. . . x
m
2
.
.
.
.
.
.
.
.
.
.
.
.
1 x
n
x
2
n
. . . x
m
n
_
_
_
_
_
Estos modelos se pueden aplicar cuando el analista sabe que efectos curvilneos est an
presentes en la funci on respuesta. Tambien se pueden utilizar como aproximaciones a
desconocidas, y posiblemente muy complejas, relaciones no lineales. As, los polinomios
se pueden considerar los desarrollos de Taylor de la funci on desconocida.
La regresi on polin omica se justica por el teorema de Weierstrass, el cual dice que toda
funci on continua f(x) se puede aproximar por un polinomio P
m
(x) de grado m adecuado.
Se puede probar esta propiedad desde el punto de vista probabilstico:
148
Sea f(x) una funci on continua en el intervalo (0, 1) y consideremos
P
n
(x) =
n
k=0
f(k/n)x
k
(1 x)
nk
llamados polinomios de Bernstein. Entonces P
n
(x) converge a f(x) cuando n ,
uniformemente en x.
Como en cualquier modelo lineal, la estimaci on de los par ametros de regresi on se hace con
las ecuaciones normales. Sin embargo, hay varios problemas especiales que se presentan
en este caso.
1) Es muy importante que el orden del polinomio sea tan bajo como sea posible.
Para utilizar polinomio de grado m > 2 se debe justicar con razones externas a
los datos. Existen transformaciones de las variables, en particular de la respuesta,
que hacen que el modelo sea de primer orden. Un modelo de orden bajo con una
variable transformada es casi siempre preferible a un modelo de orden superior con
la metrica original. Se trata de mantener el principio de parsimonia o simplicidad
de los modelos.
2) Hay varias estrategias para elegir el grado del polinomio.
Selecci on hacia adelante (forward selection): Se trata de ir ajustando modelos en
orden creciente hasta que el test t para el termino de mayor orden es no signicativo
( = 0,1).
Selecci on hacia atr as (backward selection): Se trata de ajustar un modelo de alto
orden e ir eliminando terminos si no son signicativos para el test t ( = 0,1).
Ambos metodos no necesariamente conducen al mismo modelo. En todo caso, hay
que recordar el consejo anterior y tratar con modelos de orden dos o muy bajo.
3) Debemos ser muy cuidadosos con la extrapolaci on (ver p agina 140), ya que las
consecuencias pueden ser ruinosas.
4) Cuando el orden del polinomio es alto, la matriz X
X est a mal condicionada (ver

apendice A.4 y secci on 8.5). Esto provoca problemas graves para el c alculo de los
coecientes de regresi on y deciencias en la precisi on de los mismos. En Seber [65]
p ag. 214 se ve un ejemplo en el que variaciones del orden de 10
10
en X
Y producen
variaciones del orden de 3 en los elementos de

.
De hecho, los modelos de regresi on polin omicos est an notablemente mal condicio-
nados cuando el grado es mayor que 5 o 6, particularmente si los valores de x est an
igualmente espaciados.
5) Si los valores de x tienen un recorrido muy estrecho, esto puede conducir a la
multicolinealidad entre las columnas de X. Por ejemplo, si x vara entre 1 y 2, x
2
vara entre 1 y 4, lo que puede provocar una fuerte dependencia entre los datos de
x y x
2
.
Para reducir el efecto no esencial de la mala condici on de los modelos de regresi on po-
lin omicos se deben centrar las variables regresoras. Adem as se pueden utilizar polinomios
de Tchebychev o, mejor, polinomios ortogonales.
149
La utilizaci on de polinomios de Tchebychev consiste en considerar el modelo
y
i
=
0
T
0
(x
i
) +
1
T
1
(x
i
) + +
m
T
m
(x
i
) +
i
donde T
j
(x) es un polinomio de Tchebychev de grado j. Estos polinomios se generan
mediante la relaci on de recurrencia
T
j+1
(x) = 2xT
j
(x) T
j1
(x)
Tomando inicialmente
T
0
(x) = 1 T
1
(x) = x
se obtienen
T
2
(x) = 2x
2
1
T
3
(x) = 4x
3
3x
T
4
(x) = 8x
4
8x
2
+ 1
.
.
.
El campo de variaci on de x debe normalizarse adecuadamente entre 1 y 1 mediante
un cambio de variable. Esto se hace en favor de la estabilidad numerica.
Los polinomios de Tchebychev tienen propiedades muy interesantes que sugieren que, pa-
ra valores de x razonablemente espaciados, la matriz del modelo

X tiene columnas que son
aproximadamente ortogonales, de forma que la matriz

X
X tiene los elementos de fuera

de la diagonal bastante peque nos y generalmente est a bien condicionada. As pues, un
procedimiento de c alculo de regresi on polin omica consiste en usar polinomios de Tcheby-
chev junto con un metodo de descomposici on ortogonal de la matriz de dise no, como el
algoritmo QR.
8.6.1. Polinomios ortogonales
El replanteamiento del modelo 8.6 mediante polinomios ortogonales permite una soluci on
sencilla de los problemas numericos mencionados.
Consideremos ahora el modelo
y
i
=
0
0
(x
i
) +
1
1
(x
i
) + +
m
m
(x
i
) +
i
(8.7)
donde
j
(x
i
) es un polinomio de grado j en x
i
(j = 0, 1, . . . , m). Supongamos que los m
polinomios son ortogonales, es decir,
n
i=1
j
(x
i
)
j
(x
i
) = 0 j ,= j
(8.8)
El modelo lineal es entonces
Y =

X +
donde
X =
_
_
_
_
_
0
(x
1
)
1
(x
1
) . . .
m
(x
1
)
0
(x
2
)
1
(x
2
) . . .
m
(x
2
)
.
.
.
.
.
.
.
.
.
0
(x
n
)
1
(x
n
) . . .
m
(x
n
)
_
_
_
_
_
150
Entonces, debido a la ortogonalidad, tenemos que
X =
_
_
_
_
_
2
0
(x
i
) 0 . . . 0
0
2
1
(x
i
) . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
2
m
(x
i
)
_
_
_
_
_
y la soluci on de las ecuaciones normales es

j
=
j
(x
i
)y
i
2
j
(x
i
)
j = 0, 1, . . . , m
lo que es cierto para toda m. La estructura ortogonal de

X implica que el estimador MC
de
j
(j m) es independiente del grado m del polinomio, lo que es una propiedad muy
deseable.
Como
0
(x) es un polinomio de grado cero, si tomamos
0
(x) = 1 tendremos
0
= y.
La suma de cuadrados residual es entonces
SCR(m) =
(y
i
y)
2
j=1
(
2
j
(x
i
))
2
j
(8.9)
cantidad que indicaremos por Q(m).
En efecto:
y
i
=
m
j=0
j
(x
i
)
j
siendo y =
0
(x
i
)
0
Aplicando (i) de 8.2.1 tenemos
SCR(m) =
i
(y
i
y
i
)
2
=
i
(y
i
y)
2
i
( y
i
y)
2
siendo ahora
i
( y
i
y)
2
=
i
(
m
j=1
j
(x
i
)
j
)
2
Por otra parte
(
m
j=1
j
(x
i
)
j
)
2
=
j
(x
i
)
j

j
(x
i
)
j
y sumando respecto de i tenemos, considerando 8.8,
i
( y
i
y)
2
=

j

j
(
j
(x
i
)
j
(x
i
))
=
m
j=1

2
j
(
n
i=1
2
j
(x
i
))
lo que demuestra 8.9.
Existen diversos procedimientos para generar polinomios ortogonales (Fisher, Forsythe,
Hayes, etc.).
151
En el caso particular que los valores de x sean igualmente espaciados podemos transfor-
marlos de manera que
x
i
= i
1
2
(n + 1) i = 1, 2, . . . , n
Entonces se puede considerar el siguiente sistema de polinomios ortogonales
0
(x) = 1
1
(x) =
1
x
2
(x) =
2
(x
2
1
12
(n
2
1))
3
(x) =
3
(x
3
1
20
(3n
2
7)x)
.
.
.
donde las
j
se eligen de forma que los valores de
j
(x
i
) sean enteros. Estos polinomios
se encuentran tabulados para varios valores de n.
8.6.2. Elecci on del grado
Un aspecto importante de la regresi on polin omica es la elecci on del grado m adecuado.
El contraste de hip otesis
H
0
: m = m
0
H
1
: m = m
1
> m
0
(8.10)
equivale a plantear una regresi on polin omica de grado m y entonces establecer la hip otesis
lineal
H
0
:
m
0
+1
= =
m
1
= 0
sobre el modelo 8.6, o bien, utilizando el modelo equivalente 8.7 en terminos de polinomios
ortogonales
H
0
:
m
0
+1
= =
m
1
= 0
Las sumas de cuadrados residuales son
SCR = Q(m
1
) SCR
H
= Q(m
0
)
Teniendo en cuenta 8.9 resulta
SCR
H
SCR = Q(m
0
) Q(m
1
) =
m
1
j=m
0
+1
(
n
i=1
2
j
(x
i
))
2
j
Entonces, para contrastar H
0
: m = m
0
frente H
1
: m = m
1
, calcularemos el estadstico
F =
(Q(m
0
) Q(m
1
))/(m
1
m
0
)
Q(m
1
)/(n m
1
1)
(8.11)
cuya distribuci on, bajo H
0
, es una F con m
1
m
0
y n m
1
1 grados de libertad.
La estrategia para elegir el grado puede ser mediante elecci on descendente o elecci on as-
cendente. En el primer caso empezamos por el grado que se supone m aximo. Supongamos,
por ejemplo, que m = 5. Entonces se contrasta m = 4 frente a m = 5. Si el test F no es
152
signicativo, se contrasta m = 3 con m = 4, y as sucesivamente. El proceso es el inverso
en el caso de elecci on ascendente.
Tambien es util tener en cuenta que un descenso importante de la suma de cuadrados
residual Q(m) al pasar de grado k a grado m, es un indicio de que el grado es m.
Finalmente, si disponemos de n
i
observaciones y
i1
, . . . , y
in
i
para cada valor de la variable
de control x
i
i = 1, . . . , p, una vez elegido el grado m, podemos analizar la validez del
modelo planteando el contraste
H
0
: y
ih
= P
m
(x
i
) +
ih
H
1
: y
ih
= g(x
i
) +
ih
donde g(x) es una funci on desconocida de x. La hip otesis nula signica armar que
g(x) = P
m
(x) es un polinomio de grado m en x. Tenemos entonces (vease 6.12):
SCR =
i,h
(y
ih
y
i
)
2
= ns
2
y
(1
2
) n p g.l.
SCR
H
= Q(m) = ns
2
y
(1 r
2
yx
) n m1 g.l.
donde r
yx
es la correlaci on m ultiple de Y sobre x, x
2
, . . . , x
m
(ver teorema 8.2.1). Calcu-
laremos entonces el estadstico
F =
(
2
r
2
yx
)/(p m1)
(1
2
)/(n p)
y aceptaremos el ajuste polin omico de grado m si esta F no es signicativa.
Ejemplo 8.6.1
Se dispone de la respuesta a un test de conducta de dos grupos de ratas, uno control y
otro experimental, para diez observaciones realizadas cada tres das desde el da 47 al da
74 de vida (ver tabla 8.4).
dia grupo control grupo experimental
47 25,7 34,1
50 20,1 24,9
53 16,2 21,2
56 14,0 23,3
59 21,3 22,0
62 20,3 30,9
65 28,4 31,4
68 23,5 26,5
71 16,8 23,0
74 9,9 17,2
Cuadro 8.4: Datos del test de conducta a dos grupos de ratas
El modelo considerado hace depender la variable conducta (medida mediante el test) del
tiempo t seg un una funci on polin omica
var. obs. = polinomio de grado m en t + error y = P
m
(t) +
153
Para determinar el grado del polinomio al cual se ajustan los valores experimentales se
plantea la hip otesis 8.10 que se resuelve mediante el test F 8.11.
Los resultados, obtenidos seg un el metodo de los polinomios ortogonales, son los siguientes
grupo control g.l. grupo experimental g.l.
Q(0) = 273,87 9 Q(0) = 249,99 9
Q(1) = 249,22 8 Q(1) = 216,12 8
Q(2) = 233,52 7 Q(2) = 213,15 7
Q(3) = 41,61 6 Q(3) = 37,80 6
Q(4) = 41,52 5 Q(4) = 27,10 5
Observemos que hay un fuerte descenso de la suma de cuadrados residual Q(m) al pasar
de grado 2 a grado 3, indicio de que los datos experimentales se ajustan a un polinomio
de grado 3.
Las F obtenidas son:
contraste grupo control grupo experimental
0 v.s. 1 F = 0,79 (n.s.) F = 1,25 (n.s.)
0 v.s. 2 F = 0,60 (n.s.) F = 0,60 (n.s.)
0 v.s. 3 F = 11,16 (p < 0,01) F = 11,23 (p < 0,01)
1 v.s. 3 F = 14,97 (p < 0,01) F = 14,25 (p < 0,01)
2 v.s. 3 F = 27,67 (p < 0,01) F = 27,83 (p < 0,01)
3 v.s. 4 F = 0,01 (n.s.) F = 1,98 (n.s.)
Efectivamente, tanto los datos del grupo control como los del grupo experimental se ajustan
a un polinomio de grado 3 (ver Figura 8.2).
0
5
10
15
20
25
30
35
40
40 50 60 70 80
grupo control
grupo
experimental
Figura 8.2: Gr aco de los dos grupos de ratas
El modelo es:
grupo control ()
y
i
= 1929,24 97,86t
i
+ 1,654t
2
i
0,0092t
3
i
+
i
grupo experimental ()
y
i
= 1892,28 94,94t
i
+ 1,593t
2
i
0,0088t
3
i
+
i
154
8.7. Comparaci on de curvas experimentales
8.7.1. Comparaci on global
Si dos curvas experimentales se ajustan bien a modelos de formulaci on matem atica di-
ferente (por ejemplo, dos polinomios de distinto grado) hay que aceptar que las curvas
experimentales son distintas.
Si las dos curvas son polinomios del mismo grado
y
1
= P
m
(x) +
y
2
=

P
m
(x) +
la comparaci on se expresa planteando el siguiente contraste de hip otesis
H
0
: P
m
(x) =

P
m
(x)
H
1
: P
m
(x) ,=

P
m
(x)
(8.12)
que implica la hip otesis lineal
H
0
:
i
=

i
i = 0, 1, . . . , m
an aloga a
H
0
:
i
=
i
i = 0, 1, . . . , m (8.13)
si utilizamos el modelo planteado mediante polinomios ortogonales (ver 8.7).
Sean SCR
1
= Q
1
(m), SCR
2
= Q
2
(m) las sumas de cuadrados residuales para cada curva
y SCR = SCR
1
+ SCR
2
la suma de cuadrados residual del modelo conjunto construido
mediante la uni on de los dos modelos.
La construcci on del modelo conjunto es s olo posible si los dos modelos poseen varianzas
iguales. Por este motivo, es necesario plantear previamente el test de homogeneidad de
varianzas
H
0
:
2
1
=
2
2
H
1
:
2
1
,=
2
2
que se resuelve mediante el estadstico
F =
SCR
1
/(n
1
m1)
SCR
2
/(n
2
m1)
(8.14)
cuya distribuci on si H
0
es cierta es una F con n
1
m1 y n
2
m1 g.l..
Si aceptamos la igualdad de varianzas, podemos resolver 8.13 mediante el estadstico
F =
(SCR
H
SCR
1
SCR
2
)/(m+ 1)
(SCR
1
+ SCR
2
)/(n
1
+n
2
2m2)
(8.15)
que bajo H
0
sigue una F con m + 1 y n
1
+ n
2
2m 2 g.l.. La suma de cuadrados
SCR
H
= Q
12
(m) es la suma de cuadrados residual bajo H
0
, es decir, considerando que
las dos curvas son iguales y que en consecuencia todos los datos se ajustan a un mismo
polinomio de grado m.
155
8.7.2. Test de paralelismo
La hip otesis lineal de que las curvas son paralelas se plantea de la siguiente forma
H
0
:
i
=

i
i = 1, . . . , m
o bien, si nos referimos a 8.7
H
0
:
i
=
i
i = 1, . . . , m (8.16)
Es decir, las curvas dieren unicamente respecto a la ordenada en el origen.
Esta hip otesis tiene generalmente interes cuando se rechaza H
0
de 8.12. Se resuelve me-
diante el estadstico
F =
(SCR
H
SCR
1
SCR
2
)/m
(SCR
1
+ SCR
2
)/(n
1
+n
2
2m2)
(8.17)
cuya distribuci on sigue una F con m y n
1
+ n
2
2m 2 g.l. cuando H
0
es cierta. La
suma de cuadrados SCR
H
es la suma de cuadrados residual bajo H
0
que supone aceptar
la existencia de dos curvas distintas pero paralelas.
Ejemplo 8.7.1
En el ejemplo 8.6.1 hemos ajustado los datos del grupo control y del grupo experimental
a dos polinomios de grado 3.
Podemos aceptar que en realidad los dos polinomios son iguales? Esta pregunta equivale
a plantear la hip otesis lineal 8.13. Para resolverla es necesario realizar previamente el test
de homogeneidad de varianzas utilizando 8.14
F =
41,61/(10 3 1)
37,80/(10 3 1)
= 1,10
con 6 y 6 g.l. (no signicativa).
Pasamos pues a contrastar 8.13 mediante el estadstico 8.15. La suma de cuadrados re-
sidual bajo H
0
es SCR
H
= Q
12
(3) = 249,06
F =
(249,06 41,61 37,80)/(3 + 1)
(41,61 + 37,80)/(10 + 10 6 2)
= 6,41
con 4 y 12 g.l. que es signicativa (p < 0,01). Debemos aceptar en consecuencia que las
dos curvas son diferentes (la conducta de los individuos del grupo control es diferente de
la conducta de los individuos del grupo experimental).
No obstante, podemos preguntarnos si las dos curvas son paralelas y plantear la hip otesis
lineal 8.16 que resolveremos utilizando el estadstico 8.17. La suma de cuadrados residual
bajo H
0
es ahora SCR
H
= Q
12
= 82,59
F =
(82,59 41,61 37,80)/3
(41,61 + 37,80)/(10 + 10 6 2)
= 0,16
con 3 y 12 g.l. (no signicativa). Podemos entonces aceptar que las dos curvas experi-
mentales son paralelas. La interpretaci on en terminos de la conducta podra realizarse
conociendo con m as precisi on el planteamiento del problema.
156
8.8. Ejemplos con R
Vamos a utilizar los datos del ejemplo 8.4.1 sobre el lenguaje. Las siguientes instrucciones
permiten introducir los datos y dibujar los diagramas de dispersi on dos a dos de las
variables del ejemplo (ver gura 8.3).
y
2 4 6 8
2
4
6
8
2
4
6
8
x1
2 4 6 8 3 4 5 6 7 8 9
3
4
5
6
7
8
9
x2
Figura 8.3: Diagramas de dispersi on dos a dos entre la variable respuesta y las variables
explicativas del ejemplo 8.4.1
> y<-c(3,2,4,9,6,7,2,6,5,8)
> x1<-c(1,1,3,7,8,7,4,6,6,9)
> x2<-c(3,4,7,9,7,6,5,8,5,7)
> exp<-cbind(x1,x2)
> lenguaje.datos<-data.frame(y,exp)
> par(pty="s")
> pairs(lenguaje.datos)
El siguiente paso es calcular el modelo de regresi on lineal m ultiple que permita predecir
los valores de Y en funci on de las variables explicativas x
1
y x
2
.
> regrem<-lm(y~x1+x2)
> summary(regrem)
Call: lm(formula = y ~ x1 + x2)
Residuals:
Min 1Q Median 3Q Max
-2.051 -0.5264 -0.05257 0.7989 1.47
Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) -0.4244 1.4701 -0.2887 0.7812
x1 0.5123 0.2087 2.4543 0.0438
157
x2 0.4853 0.3178 1.5273 0.1705
Residual standard error: 1.266 on 7 degrees of freedom
Multiple R-Squared: 0.7907
F-statistic: 13.22 on 2 and 7 degrees of freedom, the p-value is 0.004196
Correlation of Coefficients:
(Intercept) x1
x1 0.1811
x2 -0.8036 -0.6973
El plano estimado es y = 0,4244 + 0,5123x
1
+ 0,4853x
2
con un coeciente de determi-
naci on R
2
= 0,7907 y el estadstico F nos dice que el modelo es util, si un estudio m as
profundo decide nalmente que es realmente v alido.
Resulta curioso que en S-PLUS se puede obtener el coeciente de determinaci on R
2
a
partir de la funci on summary.lm en la forma
> summary(regrem)$r.squared
[1] 0.790684
pero no hay nombre para el coeciente ajustado. Mientras que en R s es posible.
Tambien se pueden obtener los coecientes a partir de la matriz X
X:
> XtX<-t(regrem$R)%*%regrem$R
> XtX
(Intercept) x1 x2
(Intercept) 10 52 61
x1 52 342 350
x2 61 350 403
> XtX.inv<-solve(XtX)
> XtX.inv
(Intercept) x1 x2
(Intercept) 1.34840753 0.03466479 -0.2342073
x1 0.03466479 0.02718635 -0.0288580
x2 -0.23420728 -0.02885800 0.0629949
> XtX.inv%*%t(cbind(1,exp))%*%y
[,1]
(Intercept) -0.4244237
x1 0.5123174
x2 0.4853071
La matriz XtX.inv se puede obtener de forma directa as:
> summary(regrem)$cov.unscaled
(Intercept) x1 x2
(Intercept) 1.34840753 0.03466479 -0.2342073
x1 0.03466479 0.02718635 -0.0288580
x2 -0.23420728 -0.02885800 0.0629949
Tambien se obtiene m as f acilmente con los elementos que proporciona la funci on lsfit:
158
> regrem.ls<-lsfit(exp,y)
> regrem.diag<-ls.diag(regre.ls)
> regrem.diag$cov.unscaled
La matriz
2
(X
X)
1
de varianzas y covarianzas entre los estimadores MC de los coe-
cientes se obtiene de forma sencilla:
> summary(regrem)$sigma^2*summary(regrem)$cov.unscaled
(Intercept) x1 x2
(Intercept) 2.16117719 0.05555943 -0.37537868
x1 0.05555943 0.04357326 -0.04625252
x2 -0.37537868 -0.04625252 0.10096587
o tambien
> regrem.diag$std.dev^2*regrem.diag$cov.unscaled
Para calcular intervalos de conanza sobre los coecientes de regresi on hacemos
> beta.est<-cbind(regrem.ls$coef);beta.est
[,1]
Intercept -0.4244237
x1 0.5123174
x2 0.4853071
> cbind(beta.est+qt(0.025,7)*regrem.diag$std.err,
+ beta.est+qt(0.975,7)*regrem.diag$std.err)
[,1] [,2]
(Intercept) -3.90064431 3.051797
x1 0.01872084 1.005914
x2 -0.26605529 1.236669
Observamos que los intervalos correspondientes a
0
y
2
contienen al cero, en coherencia
con los test t parciales. Pero tambien nos puede interesar reproducir la tabla ANOVA
sobre la signicaci on de la regresi on, aunque el test F ya se ha obtenido con la funci on
summary(regrem). Las funciones anova.lm o summary.aov nos pueden ayudar.
> summary.aov(regrem)
x1 1 38.64190 38.64190 24.10956 0.0017330
x2 1 3.73876 3.73876 2.33270 0.1705213
Residuals 7 11.21934 1.60276
Sin embargo, los resultados se reeren a contrastes F secuenciales y parciales. Exacta-
mente SC
R
(
0
,
1
) = 38,64190 y SC
R
(
2
[
0
,
1
) = 3,73876, de manera que
SC
R
= SC
R
(
1
,
0
) + SC
R
(
2
[
0
,
1
) = 42,38066
Por otra parte, se observa directamente que SCR = 11,21934. Con estos datos, completar
la tabla 8.1 es relativamente sencillo. Sin embargo se puede conseguir dicha tabla, aunque
con otra organizaci on, mediante un contraste de modelos:
159
> regrem0<-lm(y~1)
> anova(regrem0,regrem)
Response: y
Terms Resid. Df RSS Test Df Sum of Sq F Value Pr(F)
1 1 9 53.60000
2 x1 + x2 7 11.21934 2 42.38066 13.22113 0.00419574
Otro aspecto que tambien hemos visto ha sido el c alculo de los coecientes de regresi on
estandarizados, que con R se obtienen as:
> cor(exp)
x1 x2
x1 1.0000000 0.6973296
x2 0.6973296 1.0000000
> cor(exp,y)
[,1]
x1 0.8490765
x2 0.7813857
> solve(cor(exp),cor(exp,y))
[,1]
x1 0.5921248
x2 0.3684796
Si queremos m as detalles sobre los coecientes de regresi on estandarizados, podemos
utilizar el siguiente modelo sin coeciente de intercepci on:
> x1.est<-(x1-mean(x1))/stdev(x1)
> x2.est<-(x2-mean(x2))/stdev(x2)
> y.est<-(y-mean(y))/stdev(y)
> regrem.est<-lm(y.est~-1+x1.est+x2.est)
> summary(regrem.est)
Por ultimo, podemos estudiar la multicolinealidad calculando los FIV
> diag(solve(cor(exp)))
[1] 1.946542 1.946542
que en este caso no existe.
El c alculo de predicciones puntuales o por intervalo se obtiene mediante la funci on
predict.lm del modelo lineal.
160
8.9. Ejercicios
Ejercicio 8.1
Consideremos el modelo de la regresi on lineal m ultiple
y
i
=
0
+
1
x
i1
+ +
m
x
im
i = 1, . . . , n
Sean

0
,

1
, . . . ,

m
las estimaciones MC de los par ametros. Explicar en que condiciones
podemos armar que E(
j
) =
j
, j = 0, 1, . . . , m.
Por otra parte, es siempre v alido armar que
y
i
=

0
+

1
x
i1
+ +

m
x
im
es una estimaci on centrada de
0
+
1
x
i1
+ +
m
x
im
?
Ejercicio 8.2
En la regresi on m ultiple de una variable Y sobre tres variables control x
1
, x
2
, x
3
y
i
=
0
+
1
x
i1
+
2
x
i2
+
3
x
i3
+
i
i = 1, . . . , n
donde
i
N(0,
2
), se desea contrastar la hip otesis nula
H
0
:
2
=
3
= 0
Sea r
yx
el coeciente de correlaci on m ultiple de Y sobre x
1
, x
2
, x
3
y sea r
y1
el coeciente
de correlaci on simple entre Y y x
1
. Deducir un test F para contrastar H
0
que sea funci on
de r
yx
y r
y1
.
Ejercicio 8.3
En una gran ciudad, queremos relacionar el n umero de muertos diarios por enfermedades
cardio-respiratorias con la media de humos (mg/m
3
) i la media de di oxido de azufre
(partes/mill on) medidas por los equipos del Ayuntamiento en diversas zonas de la ciudad.
Consideremos un modelo de regresi on lineal no centrado con los siguientes datos:
X
X =
_
_
15 6,87 21,09
5,6569 18,7243
63,2157
_
_
(X
X)
1
=
_
_
0,2243 1,2611 0,2987
16,1158 4,3527
1,2054
_
_
X
Y =
_
_
3922
2439,54
7654,35
_
_
Y
Y = 1264224
Se pide:
1) Calcular la estimaci on MC de todos los coecientes de regresi on del modelo.
2) Obtener una estimaci on insesgada de la varianza del modelo.
3) Contrastar la signicaci on del modelo propuesto con = 0,1.
161
4) Calcular el intervalo de conanza al 95 % para la media del valor respuesta para
una media de humos de 1 mg/m
3
y una media de SO
2
de 1.
Ejercicio 8.4
Se dispone de los siguientes datos sobre diez empresas fabricantes de productos de limpieza
domestica:
Empresa V IP PU
1 60 100 1,8
2 48 110 2,4
3 42 130 3,6
4 36 100 0,6
5 78 80 1,8
6 36 80 0,6
7 72 90 3,6
8 42 120 1,2
9 54 120 2,4
10 90 90 4,2
En el cuadro anterior, V son las ventas anuales, expresadas en millones de euros, IP es un
ndice de precios relativos (Precios de la empresa/Precios de la competencia) y PU son los
gastos anuales realizados en publicidad y campa nas de promoci on y difusi on, expresados
tambien en millones de euros.
Tomando como base la anterior informaci on:
1) Estimar el vector de coecientes = (
0
,
1
,
2
)
del modelo
V
i
=
0
+
1
IP
i
+
2
PU
i
+
i
2) Estimar la matriz de varianzas-covarianzas del vector

.
3) Calcular el coeciente de determinaci on.
Ejercicio 8.5
Dado el modelo
Y
t
=
0
+
1
X
1t
+
2
X
2t
+u
t
y los siguientes datos
Y
t
X
1t
X
2t
10 1 0
25 3 1
32 4 0
43 5 1
58 7 1
62 8 0
67 10 1
71 10 2
obtener:
162
(a) La estimaci on MC de
0
,
1
,
2
utilizando los valores originales.
(b) La estimaci on MC de
0
,
1
,
2
utilizando los datos expresados en desviaciones res-
pecto a la media.
(c) La estimaci on insesgada de
2
.
(d) El coeciente de determinaci on.
(e) El coeciente de determinaci on corregido.
(f) El contraste de la hip otesis nula H
0
:
0
=
1
=
2
= 0.
(g) El contraste de la hip otesis nula H
0
:
1
=
2
= 0 utilizando datos originales.
(h) El contraste de la hip otesis nula H
0
:
1
=
2
= 0 utilizando datos en desviaciones
respecto a la media.
(i) La representaci on gr aca de una regi on de conanza del 95 % para
1
y
2
.
(j) El contraste individual de los par ametros
0
,
1
y
2
.
(k) El contraste de la hip otesis nula H
0
:
1
= 10
2
.
(l) El contraste de la hip otesis nula H
0
: 2
0
+ 2
1
+ 7
2
= 50.
(m) El contraste de la hip otesis nula conjunta H
0
:
1
= 10
2
, 2
0
+ 2
1
+ 7
2
= 50.
Ejercicio 8.6
Supongamos que hemos estimado la siguiente ecuaci on utilizando MC (con las variables
medidas en logaritmos)
Y
t
=
0
+
1
X
1t
+
2
X
2t
t = 1, . . . , 17
y las estimaciones de los par ametros son:
0
= 1,37

1
= 1,14

2
= 0,83
Tambien hemos obtenido la siguiente expresi on escalar:
Y
[I X(X
X)
1
X
]Y = 0,0028
y los elementos triangulares de la matriz (X
X)
1
son:
_
_
510,89 254,35 0,42
132,70 6,82
7,11
_
_
Se pide:
1. Calcular las varianzas de los estimadores MC de
0
,
1
,
2
.
2. Si X
1t
aumenta en un 1 por 100 y X
2t
en un 2 por 100, cu al sera el efecto estimado
en Y
t
?
163
3. Efectuar un test estadstico para vericar la hip otesis de que
1
= 1 y
2
= 1
y dar el valor de dicho estadstico. Cu ales son las tablas que necesitaremos para
realizar el test y cu antos son los grados de libertad?
Ejercicio 8.7
Una variable Y depende de otra variable control x que toma los valores x
1
= 1, x
2
=
2, x
3
= 3, x
4
= 4 de acuerdo con el modelo lineal normal
y
i
=
0
+
1
x
i
+
2
x
2
i
+
i
i = 1, 2, 3, 4
Estudiar la expresi on del estadstico F para contrastar la hip otesis H
0
:
1
=
2
.
Ejercicio 8.8
La puntuaci on del test open-eld para un grupo de 10 ratas control (C) y otro grupo de
10 ratas experimentales (E) a lo largo de los das 47, 50, . . . , 74 contados desde el instante
del nacimiento fue
Da 47 50 53 56 59 62 65 68 71 74
grupo C 34 24 21 23 23 30 31 26 23 17
grupo E 25 20 16 15 21 20 28 23 18 9
Se ajustaron al grupo control polinomios de grado 0, 1, 2 y 3 respecto la variable edad
en das y se obtuvieron las siguientes sumas de cuadrados residuales:
Q(0) =235,6
Q(1) =202,8
Q(2) =199,4
Q(3) = 29,7
Se pide:
1) Comprobar que se puede aceptar como v alido el polinomio de grado 3 como poli-
nomio de regresi on de Y (puntuaci on) sobre x (edad en das).
2) El polinomio de grado 3 que ajusta Y a x es
y = 318,8 93,3x + 1,56x
2
0,0086x
3
El coeciente de correlaci on m ultiple de Y sobre x, x
2
, x
3
es r
yx
= 0,8734. Estudiar
si es signicativo.
3) Para el grupo experimental es tambien adecuado un ajuste polin omico de grado 3
con suma de cuadrados residual Q(3) = 29,2. Adem as, juntando todos los datos re-
ferentes a Y , es decir, juntando los dos grupos y en consecuencia las 20 observaciones
y realizando un ajuste polin omico de grado 3, se obtiene
SCR
H
= 225,8
Contrastar las hip otesis
H
0
: los dos polinomios (C y E) son identicos
H
1
: hay diferencias signicativas entre ambos polinomios
164
Captulo 9
Diagnosis del modelo
En este captulo se investiga la detecci on de posibles deciencias en el modelo por incum-
plimiento de las hip otesis jadas en 2.3. Para ello la principal herramienta es el an alisis
de los residuos que nos permite detectar los siguientes problemas:
1. Algunas de las variables explicativas del modelo tienen una relaci on no lineal con
la variable respuesta.
2. No hay homocedasticidad, es decir, los errores no tienen varianza constante.
3. Los errores no son independientes.
4. Muchas observaciones atpicas.
5. Hay observaciones demasiado inuyentes.
6. Los errores no tienen distribuci on normal
Tambien estudiaremos la consecuci on del mejor grupo reducido de variables regresoras.
9.1. Residuos
9.1.1. Estandarizaci on interna
Los residuos de un modelo lineal se obtienen como diferencia entre los valores observados
de la variable respuesta y las predicciones obtenidas para los mismos datos:
e = (e
1
, . . . , e
n
)
= Y

Y
La media de los residuos es cero
e =
1
n
n
i=1
e
i
= 0
y una estimaci on aproximada de la varianza es
1
n k 1
n
i=1
(e
i
e)
2
=
1
n k 1
n
i=1
e
2
i
= SCR/(n k 1) = ECM
165
que tiene s olo n k 1 grados de libertad, donde k es el n umero de variables regresoras,
ya que los n residuos no son independientes,
Se llaman residuos estandarizados a
d
i
=
e
i
ECM
i = 1, . . . , n
que tienen media cero y varianza aproximada uno.
Ahora bien, como el vector de residuos aleatorios es e = Y

Y = (I P)Y = (I P),
donde P es la matriz proyecci on, la matriz de varianzas-covarianzas de los residuos es
var(e) =
2
(I P) de manera que
var(e
i
) =
2
(1 h
ii
)
donde h
ii
es el i-esimo elemento
1
de la diagonal de P.
La utilizaci on de los residuos e como estimaciones de los errores requiere que mejoremos
la estandarizaci on. Como 0 h
ii
1, utilizar ECM para estimar la varianza var(e
i
) es
una sobreestimaci on:
0 var(e
i
)
2
0 ECM(1 h
ii
) ECM
De modo que muchos autores recomiendan trabajar con los residuos studentizados
r
i
=
e
i
[ECM(1 h
ii
)]
1/2
i = 1, . . . , n
Adem as, h
ii
es una medida de la localizaci on del i-esimo punto x
i
respecto al punto medio.
En la regresi on lineal simple
h
ii
=
1
n
+
(x
i
x)
2
n
i=1
(x
i
x)
2
(9.1)
En el modelo de regresi on m ultiple
h
ii
=
1
n
[1 + (x
i
x)
S
1
xx
(x
i
x)] =
1
n
(1 +D
2
i
) (9.2)
donde D
i
es la llamada distancia de Mahalanobis.
As, la varianza de un error e
i
depende de la posici on del punto x
i
. Puntos cercanos al
punto central x tienen mayor varianza (pobre ajuste MC) que los puntos alejados.
Como las violaciones de las hip otesis del modelo son m as probables en los puntos remotos,
pero m as difciles de detectar con los residuos e
i
(o d
i
), porque los residuos son menores,
es mejor trabajar con los residuos r
i
ya que var(r
i
) = 1 constante, desde el punto de vista
de la localizaci on de los x
i
.
Para n grande se puede trabajar con los d
i
o con los r
i
. Pero como valores altos de e
i
y de h
ii
pueden indicar un punto de alta inuencia en el ajuste MC, se recomienda la
utilizaci on de los residuos estudentizados r
i
. Estos residuos se utilizar an en el diagn ostico
de valores atpicos.
1
En muchos libros escritos en ingles la matriz proyecci on se llama hat y se escribe H.
166
Ejemplo 9.1.1
Si recuperamos el ejemplo de regresi on simple propuesto en la secci on 1.2 con los datos
de tr aco, podemos calcular los residuos studentizados de ese modelo.
Primero calculamos los elementos de la diagonal de la matriz P, por ejemplo
h
11
=
1
24
+
(12,7 54,44167)
2
15257,4383
= 0,155865
y con este valor se obtiene el residuo
r
1
=
0,528699
0,2689388(1 0,155865)
1/2
= 2,13968
Los otros residuos se calculan de forma similar, mejor con la ayuda de una hoja de c alculo
o con un programa estadstico (ver secci on 9.4).
9.1.2. Estandarizaci on externa
Para calcular los residuos estudentizados r
i
en el apartado anterior hemos utilizado ECM
como estimador de la varianza
2
. Nos referiremos a esto como una estimaci on interna
puesto que para calcularla se utilizan los n puntos. Otra aproximaci on consiste en estimar
2
con el conjunto de datos sin la i-esima observaci on.
Si s
2
(i)
es la estimaci on de
2
as obtenida, se demuestra que
s
2
(i)
=
(n k 1)ECMe
2
i
/(1 h
ii
)
n k 2
= ECM
_
n k 1 r
2
i
n k 2
_
Si utilizamos estos estimadores de
2
en lugar de ECM, producimos los llamados residuos
studentizados externamente o R-Student
t
i
=
e
i
[s
2
(i)
(1 h
ii
)]
1/2
i = 1, . . . , n (9.3)
En la mayora de situaciones los residuos t
i
no diferir an de los residuos studentizados r
i
.
Sin embargo, si la i-esima observaci on es inuyente, entonces s
2
(i)
puede diferir signica-
tivamente de ECM y el estadstico t
i
ser a m as sensible para este punto. Adem as, bajo las
hip otesis est andar t
i
t
nk2
, de modo que podemos considerar un procedimiento formal
para la detecci on de valores atpicos mediante el contraste de hip otesis y utilizando alg un
metodo m ultiple. En la pr actica, un diagn ostico a ojo es m as util y r apido. En general,
se considera que un residuo es atpico o outlier si [t
i
[ > 2. Adem as, la detecci on de los
valores atpicos est a ligada a la detecci on de puntos inuyentes.
Ejemplo 9.1.2
Vamos a calcular el residuo studentizado externamente t
1
para la primera observaci on
de la regresi on simple continuaci on del ejemplo 9.1.1. Para ello necesitamos el valor del
error ECM = (0,2689388)
2
= 0,072328 con el que calculamos
s
2
(i)
= 0,072328
24 1 1 2,13968
2
24 1 2
= 0,060004
y con esta estimaci on externa
t
1
=
0,528699
_
0,060004(1 0,155865)
= 2,349159
167
-0.4 -0.2 0.0 0.2 0.4 0.6
0
2
4
6
8
residuos
a) Histograma
-
0
.
2
0
.
0
0
.
2
0
.
4
b) Diagrama de caja
Figura 9.5: Gr acos de los residuos de la regresi on simple del ejemplo de la secci on 1.2.
Decimal point is 1 place to the left of the colon
-3 : 510
-2 : 44332
-1 : 711
-0 : 611
0 : 3
1 : 028
2 : 245
3 :
4 : 0
5 : 33
Para obtener los gr acos de la gura 9.3 se requieren las siguientes instrucciones:
> par(mfrow=c(2,2))
> plot(residuals(recta),xlab="indice",ylab="residuos")
> title("a) Residuos vs. indice")
> plot(fitted(recta),residuals(recta),xlab="ajustados",ylab="residuos")
> title("b) Residuos vs. ajustados")
> plot(fitted(recta),rvel,xlab="ajustados",ylab="observados")
> abline(0,1)
> title("c) Ajustados vs. observados")
> qqnorm(residuals(recta),xlab="Cuantiles de la normal",ylab="residuos")
> qqline(residuals(recta))
> title("d) QQ-plot")
R tambien permite obtener 6 gr acos para el an alisis de un modelo de regresi on lineal de
una forma directa, mediante las instrucciones
176
> par(mfrow=c(2,3))
> plot(recta)
En cuanto a los contrastes de ajuste a la distribuci on normal, podemos optar entre el test
de Kolmogorov-Smirnov ks.gof y la prueba ji-cuadrado chisq.gof. En nuestro caso:
> ks.gof(residuals(recta), distribution = "normal")
One sample Kolmogorov-Smirnov Test of Composite Normality
data: residuals(recta)
ks = 0.129, p-value = 0.5 alternative
hypothesis: True cdf is not the normal distn. with estimated parameters
sample estimates:
mean of x standard deviation of x
2.298509e-017 0.2630273
Tambien se puede calcular la regresi on con la instrucci on
recta.ls<-lsfit(dens,rvel)
que nos proporciona muchos de los elementos para el diagn ostico en la forma:
> recta.diag<-ls.diag(recta.ls)
> recta.diag$hat # nivel
...
> recta.diag$std.res # residuos studentizados
...
> recta.diag$stud.res # residuos studentizados externamente
...
> recta.diag$cooks # distancias de Cook
...
> recta.diag$dfits # medidas Dffits
...
Los gr acos ...
> par(mfrow=c(1,2))
> par(pty="s")
> plot(recta.diag$hat,type="h",xlab="dato",ylab="h_ii")
> title("a) Niveles de los datos")
> plot(recta.diag$cooks,type="h",xlab="dato",ylab="C_i")
> title("b) Distancias de Cook")
> par(mfrow=c(1,2))
> par(pty="s")
> plot(recta.diag$std.res,xlab="dato",ylab="r_i",ylim=c(-2.5,2.5))
> title("a) Residuos studentizados \n internamente")
> plot(recta.diag$stud.res,xlab="dato",ylab="t_i",ylim=c(-2.5,2.5))
> title("b) Residuos studentizados \n externamente")
177
9.5. Ejercicios
Ejercicio 9.1
Realizar el an alisis completo de los residuos del modelo de regresi on parab olico propuesto
en la secci on 1.2 con los datos de tr aco.
Ejercicio 9.2
Realizar el an alisis completo de los residuos de los modelos de regresi on simple y pa-
rab olico propuestos en la secci on 1.2 con los datos de tr aco, pero tomando como variable
respuesta la velocidad (sin raz cuadrada). Este an alisis debe justicar la utilizaci on de
la raz cuadrada de la velocidad como variable dependiente.
Ejercicio 9.3
Probar la relaci on 9.7 a partir de las ecuaciones 9.3 y 9.5.
Ejercicio 9.4
Se dene el coeciente de robustez como
B
2
=
SCR
PRESS
donde PRESS es la suma de cuadrados 9.4. Este coeciente est a entre 0 y 1 y representa
una medida de la robustez del modelo.
Calcular el coeciente de robustez para los cinco conjuntos de datos de la secci on 6.8.
178
Captulo 10
Analisis de la Varianza
10.1. Introducci on
El An alisis de la Varianza es un conjunto de tecnicas estadstico-matem aticas que per-
miten analizar c omo operan sobre una variable respuesta diversos factores considerados
simult aneamente seg un un determinado dise no factorial. Normalmente interesa estudiar
c omo se diferencian los niveles de un cierto factor, llamado factor tratamiento, teniendo en
cuenta la incidencia de otros factores cualitativos o cuantitativos (factores ambientales),
cuya inuencia es eliminada mediante una adecuada descomposici on de la variabilidad de
la variable observada. Tambien se pretende detectar la relevancia en el resultado de las
variables o factores inuyentes, es decir, estudiar la causalidad.
La variable respuesta se considera del tipo continuo, mientras que las variables experimen-
tales o factores son variables categ oricas o categorizadas en niveles. Un experimento de
este tipo consiste en tomar una unidad experimental o elemento muestral, jar los valores
de los factores a distintos niveles y observar el valor de la variable respuesta en cada caso.
Ahora bien, para llegar a conclusiones estadsticas correctas es preciso, en la mayora de
los problemas, observar el resultado tras la repetici on del experimento en varias unidades
experimentales para cada una de las diversas condiciones que indica el dise no pero lo m as
homogeneas posibles dentro de cada una. Esto redundar a en la reducci on de la variabi-
lidad y, por tanto, aumentar a la capacidad estadstica de detectar cambios o identicar
variables inuyentes. Con una variabilidad muy grande respecto al error experimental no
se pueden detectar diferencias entre tratamientos.
Como ocurre con la varianza de la media muestral, para reducir la variabilidad es posible
tomar un peque no n umero de observaciones llamadas replicas en condiciones totalmente
homogeneas o aumentar el n umero de observaciones. Esto ultimo es preciso cuando toma-
mos observaciones fuera del laboratorio o con variables inuyentes que escapan a nuestro
control.
Es muy importante que las replicas sean exactamente eso, es decir, repeticiones del ex-
perimento en las mismas condiciones y no repeticiones de la observaci on que pueden dar
lugar a observaciones dependientes. As pues, debemos repetir todo el experimento desde
el principio para cada una de las observaciones.
Como ya hemos dicho, para investigar el efecto del factor principal o tratamiento es po-
sible que debamos considerar y eliminar los efectos de muchas variables que inuyen en
el resultado. Para eliminar el efecto de una variable sobre el resultado del experimento
tenemos tres opciones: a) jar el valor de la variable para toda la investigaci on y restrin-
gir la validez de nuestras conclusiones a ese dato; b) dise nar el experimento de manera
179
que dicha variable aparezca como factor con unos determinados valores o niveles y c)
aleatorizar su aparici on en cada condici on experimental. Las dos primeras opciones son
propias del laboratorio y dependen del experimentador. La tercera resulta util cuando
queremos eliminar el efecto de una variable no directamente controlable y de poca in-
uencia esperada, as la parte de la variabilidad que le corresponde se incluir a en el error
experimental.
Para dise nar correctamente un experimento es preciso trabajar bajo el principio de alea-
torizaci on. Este principio consiste en tomar las observaciones de las replicas asignando al
azar todos los factores no directamente controlados por el experimentador y que pueden
inuir en el resultado. En el ejemplo 10.2.1 la comparaci on entre tres tratamientos se
hace con pacientes con ciertas condiciones de homogeneidad pero asignando los pacientes
al azar a cada tratamiento. Con la aleatorizaci on se consigue prevenir sesgos, evitar la
dependencia entre observaciones y validar estadsticamente los resultados. En particular,
debemos aleatorizar el orden de realizaci on de los experimentos.
En resumen, es necesario que el experimento este bien dise nado mediante el control fsico,
jando niveles, o estadstico, mediante la aleatorizaci on, de todas las variables o factores
relevantes. As se garantizar a que las diferencias se deben a las condiciones experimentales
jadas el dise no y se podr a concluir estadsticamente una relaci on causal.
Adem as, en Pe na[54, p ag. 82] se muestra c omo la aleatorizaci on permite la compara-
ci on de medias mediante los llamados tests de permutaciones que no requieren ning un
tipo de hip otesis sobre la distribuci on del error. Por otra parte, puede demostrarse (ver
Schee[63]) que los contrastes F son una buena aproximaci on a los contrastes de permu-
taciones, de manera que la aleatorizaci on justica la utilizaci on de la teora de los modelos
lineales bajo hip otesis de normalidad, aunque dicha hip otesis no este plenamente validada.
Para comparar tratamientos es necesario hacerlo en condiciones homogeneas y para ello se
deben introducir en el dise no todas las variables que pueden inuir, para luego promediar
la respuesta en situaciones homogeneas. Una vez jados los factores, la idea b asica de los
dise nos factoriales es cruzar los niveles de los factores y considerar todas las situaciones.
Tambien cuando los efectos de los factores no son puramente aditivos se puede introducir
el efecto de las llamadas interacciones.
En general, en todo An alisis de la Varianza es necesario considerar tres etapas:
a) Dise no del experimento a n de obtener observaciones de una variable Y , combi-
nando adecuadamente los factores incidentes.
b) Planteo de hip otesis, c alculo de sumas de cuadrados (residuales, de desviaci on de
la hip otesis, etc.) y obtenci on de los cocientes F. Esta parte del an alisis se formula
mediante la teora de los modelos lineales.
c) Toma de decisiones e interpretaci on de los resultados. Planteamiento a posteriori
de nuevas hip otesis.
En Ugarte[69, sec. 8.2] puede consultarse un buen resumen de las estructuras b asicas de
un dise no de experimentos.
180
10.2. Dise no de un factor
10.2.1. Comparaci on de medias
Supongamos que una variable Y ha sido observada bajo k condiciones experimentales
distintas. Puede ser que las observaciones provengan de k poblaciones, o bien tratarse de
replicas para cada uno de los k niveles de un factor.
Indiquemos por y
ih
la replica h (h = 1, . . . , n
i
) en la poblaci on o nivel i (i = 1, . . . , k),
donde n
i
es el n umero de replicas en la poblaci on i. El conjunto de datos es:
Nivel 1 y
11
, y
12
, . . . , y
1n
1
Nivel 2 y
21
, y
22
, . . . , y
2n
2
.
.
.
Nivel k y
k1
, y
k2
, . . . , y
kn
k
Con estos datos podemos calcular algunas medias que indicaremos de la siguiente forma:
Media en la poblaci on i o nivel i: y
i
=
1
ni
n
i
h=1
y
ih
Media general: y = y
=
1
n
k
i=1
n
i
h=1
y
ih
donde n =
k
i=1
n
i
es el n umero total de observaciones.
El modelo lineal que se adapta a este dise no es
y
ih
=
i
+
ih
i = 1, . . . , k ; h = 1, . . . , n
i
(10.1)
siendo (
1
,
2
, . . . ,
k
)
el vector de par ametros y

X =
_
_
_
_
_
1 0 . . . 0
0 1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . 1
_
_
_
_
_
rango X = k
la matriz de dise no (reducida).
Recordemos en este momento que asumir un modelo lineal signica aceptar las condiciones
de Gauss-Markov (ver secci on 1.5) y adem as, en este caso y en todo el captulo, aceptar
la distribuci on normal de los errores N(0, ). Entonces, se comprueba f acilmente que la
estimaci on MC de los par ametros es

i
= y
i
i = 1, . . . , k
Luego los residuos de este modelo son
e
ih
= observaci on predicci on = y
ih

i
de modo que la suma de cuadrados residual resulta
SCR =
k
i=1
n
i
h=1
(y
ih
y
i
)
2
181
Esta suma se indica por SC
D
y se denomina suma de cuadrados dentro de grupos o
tambien intragrupos.
Consideremos la identidad
y
ih
y = (y
i
y) + (y
ih
y
i
)
Elevando al cuadrado y sumando tenemos
i,h
(y
ih
y)
2
=
i,h
(y
i
y)
2
+
i,h
(y
ih
y
i
)
2
+ 2
i,h
(y
i
y)(y
ih
y
i
)
pero
i,h
(y
i
y)(y
ih
y
i
) =
i,h
(y
ih
y
i
)y
i
i,h
(y
ih
y
i
) y = 0
En efecto, el vector y
ih
y
i
pertenece al espacio error y por tanto es ortogonal al vector
y
i
que pertenece al espacio estimaci on como hemos visto en 2.4.2; por otra parte
i,h
(y
ih
y
i
) = 0
As pues, con la siguiente notaci on
SC
T
=
i,h
(y
ih
y)
2
suma de cuadrados total
SC
E
=
i
n
i
(y
i
y)
2
suma de cuadrados entre grupos
hemos probado que se verica la identidad
SC
T
= SC
E
+ SC
D
(10.2)
Esta igualdad muestra la descomposici on de la variabilidad total que tambien se puede
expresar en terminos de variabilidad explicada y no explicada como en la ecuaci on 6.7.
H
0
:
1
=
2
= =
k
Si H
0
es cierta, las medias de las k poblaciones son iguales o, en terminos de dise no
factorial, los niveles del factor no son signicativos para la variable observable. Entonces,
el modelo 10.1 se reduce a la forma
y
ih
= +
ih
i = 1, . . . , k ; h = 1, . . . , n
i
La estimaci on MC de es = y y la suma de cuadrados residual es
SCR
H
=
i,h
(y
ih
y)
2
= SC
T
182
Considerando la relaci on 10.2 deducimos que la suma de cuadrados debida a la desviaci on
de la hip otesis es
SCR
H
SCR =
i
n
i
(y
i
y)
2
= SC
E
Observese que SC
E
mide la variabilidad entre las medias y
1
, y
2
, . . . , y
k
.
Por otra parte y seg un el teorema 2.5.1, una estimaci on insesgada del error experimental
2
es

2
= SC
D
/(n k)
Adem as, gracias a la hip otesis de normalidad
ih
N(0, ) se verica (ver teorema 5.3.1):
a) SC
D
/
2

2
nk
b) Si H
0
es cierta, entonces SC
E
/(k 1) es otra estimaci on insesgada de
2
y adem as
SC
E
/
2

2
k1
c) Si H
0
F =
SC
E
/(k 1)
SC
D
/(n k)
(10.3)
sigue la distribuci on F con k 1 y n k grados de libertad.
La hip otesis H
0
de igualdad de medias se rechaza si 10.3 es signicativo. En todo caso es
recomendable disponer los c alculos de la forma indicada en la tabla 10.1.
Fuente de suma de cuadrados
variaci on cuadrados g.l. medios F
Entre grupos SC
E
=
i
n
i
(y
i
y)
2
k 1 SC
E
/(k 1)
SC
E
/(k 1)
SC
D
/(n k)
Dentro grupos SC
D
=
i,h
(y
ih
y
i
)
2
n k SC
D
/(n k)
Total SC
T
=
i,h
(y
ih
y)
2
n 1
Cuadro 10.1: Tabla del An alisis de la Varianza para dise nos de un factor
Tambien se puede calcular el coeciente de determinaci on como medida de la proporci on
de la variabilidad explicada por los grupos
R
2
=
SC
E
SC
T
10.2.2. Un modelo equivalente
El modelo 10.1 no se puede extender al caso de varios factores. Sin embargo, se puede
reparametrizar en la forma
y
ih
= +
i
+
ih
i = 1, . . . , k ; h = 1, . . . , n
i
(10.4)
183
con la restricci on
k
i=1
i
= 0
Esta restricci on es necesaria para determinar el c alculo de los k + 1 par ametros en un
modelo de rango k.
El modelo 10.4 tambien representa el dise no de un factor a k niveles, pero con la siguiente
interpretaci on de los par ametros
= media general
i
= efecto del nivel i
La hip otesis H
0
de igualdad entre niveles o tratamientos, antes igualdad de medias, se
expresa ahora as
H
0
:
1
= =
k
= 0
Las estimaciones de y
i
son
= y
i
= y
i
y
Se verica entonces
SCR
H
SCR = SC
E
=
i
n
i

2
i
de modo que SC
E
reeja bien la variabilidad entre los diferentes niveles del factor estu-
diado.
La formulaci on matricial de H
0
es
A =
_
_
_
_
_
0 1 0 . . . 0 0
0 0 1 . . . 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . 1 0
_
_
_
_
_
_
_
_
_
_
_
_
_
_
2
.
.
.
k1
k
_
_
_
_
_
_
_
_
_
= 0
Aplicando entonces 5.7, tenemos que
E(SCR
H
SCR) = E(SC
E
) = (k 1)
2
+
i
n
i
2
i
(10.5)
y como ya sabamos, si es cierta la hip otesis H
0
, el estadstico SC
E
/(k 1) es otro
estimador insesgado de
2
.
En todo caso, como se trata de una reparametrizaci on, el contraste de H
0
se realiza
exactamente con la misma tabla 10.1 y el mismo estadstico F de 10.3.
Finalmente, si se desean comparar dos niveles, es decir, plantear la hip otesis parcial
H
(ij)
0
:
i
=
j
utilizaremos el estadstico
t =
y
i
y
j
_
SC
D
/(n k)
_
n
i
n
j
n
i
+n
j
(10.6)
184
que bajo H
(ij)
0
sigue una t de Student con nk grados de libertad. Con m as generalidad,
si se desea estudiar si la funci on parametrica estimable, tal que c
1
+ +c
k
= 0,
= c
1
1
+ +c
k
k
se aparta signicativamente de 0, utilizaremos
t =
i
c
i
y
i
_
i
c
2
i
/n
i
_
SC
D
/(n k)
(10.7)
tambien con n k grados de libertad (ver f ormula 3.4). Del mismo modo se pueden
construir intervalos de conanza para las funciones parametricas estimables = c
1
1
+
+c
k
k
y en particular para
i
j
.
Otro aspecto mucho m as complejo es la consideraci on de varias de estas hip otesis de
forma conjunta. Es lo que se llama el problema de las comparaciones m ultiples o intervalos
simult aneos como en la secci on 6.3.6.
Ejemplo 10.2.1
Se desean comparar dos medicamentos D (diuretico), B (betabloqueante) con un producto
inocuo P (placebo). Se tom o una muestra de 15 individuos hipertensos cuyas condiciones
iniciales eran sucientemente homogeneas y se asignaron los tres tratamientos al azar.
El objetivo del estudio es ver c omo act uan los tres tratamientos frente a la hipertensi on,
concretamente si disminuyen la misma. A tal n se ha elegido la variable observable
porcentaje de descenso de la presi on arterial media. Los datos obtenidos se presentan
en la tabla 10.2.
D B P
22 20 10
18 28 5
30 35 0
15 19 14
17 33 18
B
D
P
0 10 20 30
y
Cuadro 10.2: Datos de los pacientes seg un el tratamiento
Vamos a estudiar si hay diferencias signicativas entre los tres f armacos y la signicaci on
de la funci on parametrica
=
1
2
(D +B) P
que se puede interpretar como una medida de la diferencia entre los productos activos
respecto al placebo.
Las medias son:
y
1
= 20,40 y
2
= 27,00 y
3
= 9,40 y = 18,93
185
Las sumas de cuadrados son:
SC
T
= 1349,93 SC
E
= 790,53 SC
D
= 558,40
de manera que podemos disponer las estimaciones en forma de tabla del An alisis de la
Varianza como se muestra en la tabla 10.3.
Entre f armacos 790,53 2 395,27 8,49
Dentro f armacos 558,40 12 46,53
Total 1349,93 14
Cuadro 10.3: Ejemplo de An alisis de la Varianza para un dise no de un factor
Con 2, 12 grados de libertad y un nivel de signicaci on del 0,01 leemos en la tabla de la
distribuci on F el valor 6,93. Luego la diferencia entre los tres f armacos es claramente
signicativa.
La estimaci on de Gauss-Markov de la funci on parametrica es
=
1
2
(20,40 + 27,00) 9,40 = 14,30
Adem as
i
c
2
i
/n
i
=
1
5
(
1
4
+
1
4
+ 1) = 0,3
SC
D
/(n k) = 46,53
Aplicando 10.7 obtenemos
t =
14,30
0,3
46,53
= 3,827
Contrastando con la tabla de la t de Student, para 12 grados de libertad, vemos que es
signicativa al nivel 0,01. Finalmente, para analizar si hay diferencias signicativas entre
D y B, utilizaremos 10.6
t =
20,40 27,00
46,53
_
5 5
5 + 5
= 1,530
que no es signicativa.
Conclusi on: Hay variabilidad signicativa entre los tres f armacos. La variabilidad reside
principalmente en la diferencia entre los dos f armacos activos frente al placebo.
10.3. Dise no de dos factores sin interacci on
Una variable o factor cuyo efecto sobre la respuesta no es directamente de interes pero
que se introduce en el experimento para obtener comparaciones homogeneas se denomina
una variable bloque. Por ejemplo, en una investigaci on para comparar la efectividad de
varios fertilizantes (tratamientos) se puede considerar las ncas donde se prueban como
186
un factor bloque (ver ejemplo 10.3.1). El efecto de la nca sobre la producci on no es de
interes y el objetivo es comparar los fertilizantes eliminando el efecto de la pertenencia
de una cosecha a una nca. Adem as, en general, se supone que no hay interacci on entre
la variable bloque y los factores de interes.
En este tipo de dise nos los tratamientos se asignan aleatoriamente a un grupo de unidades
experimentales en cada bloque o nivel de la variable bloque. Para poder detectar diferen-
cias entre los tratamientos es importante que haya diferencias entre los bloques, mientras
que las unidades experimentales dentro de cada bloque han de ser muy homogeneas. Un
buen resumen de las caractersticas m as importantes del dise no en bloques puede verse
en Ugarte[69, p ag. 405].
En este apartado vamos a tratar el caso m as simple del llamado dise no completamente
aleatorizado por bloques o, m as brevemente, dise no en bloques aleatorizados con un factor
principal y una variable bloque.
Supongamos que la variable respuesta est a afectada por dos causas de variabilidad, es
decir, por dos variables o factores cualitativos A y B, con a y b niveles respectivamente.
El factor A es el factor principal, mientras que el factor B es una variable bloque. Supon-
gamos tambien que tenemos unicamente una observaci on por casilla o combinaci on de
niveles. Eso signica tener tantas unidades experimentales por bloque como tratamientos
o niveles del factor principal y que la asignaci on del tratamiento se hace al azar en cada
bloque (ver ejemplo 10.3.1). Entonces, podemos disponer las observaciones del siguiente
modo
B
1
B
2
. . . B
b
A
1
y
11
y
12
. . . y
1b
y
1
A
2
y
21
y
22
. . . y
2b
y
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
a
y
a1
y
a2
. . . y
ab
y
a
y
1
y
2
. . . y
b
y
siendo
y
i
=
1
b
j
y
ij
y
j
=
1
a
i
y
ij
y
= y =
1
ab
i,j
y
ij
En relaci on a la tabla de datos anterior, diremos que A es el factor la y B el factor
columna con A
1
, A
2
, . . . , A
a
y B
1
, B
2
, . . . , B
b
niveles respectivamente.
Modelo aditivo
Si suponemos que tanto el efecto la como el efecto columna son aditivos, admitiremos
el modelo lineal
y
ij
= +
i
+
j
+
ij
i = 1, . . . , a ; j = 1, . . . , b (10.8)
siendo
= media general
i
= efecto del nivel A
i
del factor A
j
= efecto del nivel B
j
del factor B
187
Como 10.8 no es un dise no de rango m aximo, impondremos las siguientes restricciones
naturales
i
=
j
= 0 (10.9)
Entonces, el modelo depende de los par ametros
,
1
, . . . ,
a1
,
1
, . . . ,
b1
siendo
a
=
1

a1

b
=
1

b1
Por ejemplo, la matriz de dise no reducida X para el caso a = 3, b = 2 es

1

2

1
1 1 0 1
1 0 1 1
1 1 1 1
1 1 0 1
1 0 1 1
1 1 1 1
Como las columnas de X correspondientes a par ametros con distinta letra son ortogona-
les, mientras que las correspondientes a par ametros con la misma letra son linealmente
independientes, deducimos que el rango de Xes igual al n umero de par ametros resultantes
despues de imponer las restricciones 10.9, es decir,
rango X = 1 + (a 1) + (b 1) = a +b 1 (10.10)
Estimaci on de parametros
y
ij

i
j
= ( y ) + (y
i
y
i
) + (y
j
y
j
)
+(y
ij
y
i
y
j
+ y)
Elevando al cuadrado, sumando para todo i, j y teniendo en cuenta 10.9, como los pro-
ductos cruzados se anulan (puede probarse con algo de esfuerzo), obtenemos
(y
ij

i
j
)
2
=
( y )
2
+
(y
i
y
i
)
2
(10.11)
+
(y
j
y
j
)
2
+
(y
ij
y
i
y
j
+ y)
2
Entonces 10.11, con las restricciones 10.9, alcanza su mnimo para
= y
i
= y
i
y

j
= y
j
y (10.12)
de modo que la suma de cuadrados residual es
SCR =
i,j
(y
ij
y
i
y
j
+ y)
2
(10.13)
188
Observese que
y
ij
= +
i
+

j
+e
ij
siendo e
ij
la estimaci on del termino de error
e
ij
= y
ij
y
i
y
j
+ y
Finalmente, SCR tiene nr = ab (a +b 1) = (a 1)(b 1) grados de libertad, luego

2
= SCR/[(a 1)(b 1)]
es un estimador centrado de la varianza del dise no.
Hip otesis lineales
La hip otesis de que el factor principal A no es signicativo (no hay efecto la) es
H
A
0
:
1
= =
a
= 0 (10.14)
An alogamente, la hip otesis para B (no hay efecto columna), es
H
B
0
:
1
= =
b
= 0 (10.15)
El rango de H
A
0
es a 1, mientras que el de H
B
0
es b 1.
Vamos a obtener el test F adecuado para contrastar la hip otesis 10.15. Consideremos la
siguiente descomposici on fundamental de la suma de cuadrados (que demostraremos m as
adelante)
i,j
(y
ij
y)
2
= b
i
(y
i
y)
2
+a
j
(y
j
y)
2
+
i,j
(y
ij
y
i
y
j
+ y)
2
SC
T
= SC
F
+ SC
C
+ SCR (10.16)
donde SC
T
es la suma de cuadrados total, SC
F
la suma de cuadrados entre las, SC
C
la suma de cuadrados entre columnas y SCR la suma de cuadrados residual (ver cuadro
10.4). La suma de cuadrados residual bajo el modelo 10.8 es 10.13.
Ahora bien, si la hip otesis 10.15 es cierta, el modelo se reduce a la forma
y
ij
= +
i
+
ij
que corresponde al modelo de un solo factor. La suma de cuadrados residual (ver secci on
10.2) ser a entonces
SCR
H
=
i,j
(y
ij
y
i
)
2
puesto que para cada i, las observaciones y
i1
, . . . , y
ib
hacen el papel de replicas. Pero de
la identidad
y
ij
y
i
= (y
j
y) + (y
ij
y
i
y
j
+ y)
elevando al cuadrado y teniendo en cuenta que los productos cruzados tambien se anulan,
deducimos
SCR
H
= SC
C
+ SCR
189
Luego podemos decidir si puede aceptarse o no la hip otesis 10.15 utilizando el estadstico
F =
SC
C
/(b 1)
SCR/[(a 1)(b 1)]
(10.17)
cuya distribuci on bajo H
0
es F con b 1 y (a 1)(b 1) grados de libertad.
An alogamente se procede para estudiar el efecto la. As pues, gracias a la descomposici on
fundamental 10.16 es posible contrastar las dos hip otesis 10.14 y 10.15 con los mismos
c alculos que deben disponerse en forma de tabla (ver tabla 10.4).
Entre las SC
F
= b
i
(y
i
y)
2
a 1 SC
F
/(a 1)
SC
F
/(a1)
SCR/[(a1)(b1)]
Entre col. SC
C
= a
j
(y
j
y)
2
b 1 SC
C
/(b 1)
SC
C
/(b1)
SCR/[(a1)(b1)]
Residuo SCR = (a 1)(b 1)
SCR
(a1)(b1)
i,j
(y
ij
y
i
y
j
+ y)
2
Total SC
T
=
i,j
(y
ij
y)
2
ab 1
Cuadro 10.4: Tabla del An alisis de la Varianza para dise nos de dos factores sin interacci on
Cuando el efecto de la variable bloque no es signicativo se puede considerar el modelo m as
simple con un solo factor, prescindiendo de los bloques. Sin embargo, si hay diferencias
entre los bloques, el modelo en bloques aleatorizados es mucho m as ecaz en la detecci on
de diferencias entre tratamientos.
Finalmente, si se desea comparar dos niveles de un mismo factor, plantearemos la hip otesis
parcial
H
A(ij)
0
:
i
=
j
o bien H
B(ij)
0
:
i
=
j
seg un se trate de factor la o columna. El estadstico utilizado en el primer caso ser a
t =
y
i
y
j
_
SCR/[(a 1)(b 1)]
_
b/2
cuya distribuci on bajo la hip otesis es una t de Student con (a 1)(b 1) grados de
libertad. An alogamente, para comparar dos niveles del factor columna, utilizaremos
t =
y
i
y
j
_
SCR/[(a 1)(b 1)]
_
a/2
con la misma distribuci on que el estadstico anterior si la hip otesis es cierta.
Por otra parte, en Ugarte[69, sec. 8.8] pueden verse algunos ejemplos de comparaciones
m ultiples para este modelo.
190
Coecientes de determinaci on parcial
El coeciente de determinaci on se dene como
R
2
= 1
SCR
SC
T
=
SC
F
+ SC
C
SC
T
De modo que los coecientes de determinaci on parcial
R
2
F
=
SC
F
SC
T
R
2
C
=
SC
C
SC
T
indican el porcentaje de la variabilidad total explicada por el factor principal y por el
factor bloque, respectivamente.
Descomposici on fundamental de la suma de cuadrados
Vamos a probar la descomposici on aditiva 10.16 en sumas de cuadrados. Para ello expre-
saremos el modelo 10.8 en notaci on vectorial
Y = 1 +
i
u
i
+
j
v
j
+ (10.18)
siendo
1 = (1, 1, . . . , 1; 1, 1, . . . , 1; . . . ; 1, 1, . . . , 1)
u
1
= (1, 0, . . . , 0; 1, 0, . . . , 0; . . . ; 1, 0, . . . , 0)
.
.
.
u
a
= (0, . . . , 0, 1; 0, . . . , 0, 1; . . . ; 0, . . . , 0, 1)
v
1
= (1, 1, . . . , 1; 0, 0, . . . , 0; . . . ; 0, 0, . . . , 0)
.
.
.
v
b
= (0, 0, . . . , 0; 0, 0, . . . , 0; . . . ; 1, 1, . . . , 1)
La matriz de dise no ampliada es

X = (1, u
1
, . . . , u
a
, v
1
, . . . , v
b
)
y es evidente que 10.18 es equivalente a
Y = X +
siendo = (,
1
, . . . ,
a
,
1
, . . . ,
b
)
.
Se verica
u
i
1
u
i
2
= 0 i
1
,= i
2
, u
i
u
i
= b
u
i
v
j
= 1
v
j
1
v
j
2
= 0 j
1
,= j
2
, v
j
v
j
= a
Sustituyendo en 10.18 los par ametros por sus estimaciones MC obtenemos
Y 1 =
i

i
u
i
+
j
v
j
+e
191
Como e es ortogonal al subespacio generado por las columnas de X (teorema 2.4.2),
tendremos
u
i
e = v
j
e = 0
Entonces
|Y 1|
2
=
i

2
i
|u
i
|
2
+
2
j
|v
j
|
2
+
i,j

i
j
u
i
v
j
+|e|
2
Pero
i,j

i
j
=
i,j
(y
i
y)(y
j
y)
=
i,j
(y
i
y)y
j
y
i,j
(y
i
y)
=
j
y
j
i
(y
i
y) y
i
(y
i
y) = 0
pues
i
(y
i
y) = 0.
Luego
|Y 1|
2
=
i

2
i
|u
i
|
2
+
2
j
|v
j
|
2
+|e|
2
lo que demuestra la descomposici on fundamental 10.16.
Ejemplo 10.3.1
Para estudiar las diferencias entre los efectos de 4 fertilizantes sobre la producci on de
patatas, se dispuso de 5 ncas, cada una de las cuales se dividi o en 4 parcelas del mismo
tama no y tipo. Los fertilizantes fueron asignados al azar en las parcelas de cada nca. El
rendimiento en toneladas fue
Finca
Fert. 1 2 3 4 5
1 2,1 2,2 1,8 2,0 1,9
2 2,2 2,6 2,7 2,5 2,8
3 1,8 1,9 1,6 2,0 1,9
4 2,1 2,0 2,2 2,4 2,1
Algunos gr acos exploratorios pueden verse en la gura 10.4 de la p agina 213.
Se trata de un dise no en bloques aleatorizados. Este dise no utiliza el modelo 10.8 y es
especialmente utilizado en experimentaci on agrcola. El objetivo es comparar a = 4 tra-
tamientos (fertilizantes en este caso) utilizando b = 5 bloques (ncas) y repartiendo alea-
toriamente los a tratamientos en cada uno de los bloques (los fertilizantes son asignados
al azar en las parcelas de cada nca). Para una correcta aplicaci on de este dise no debe
haber m axima homogeneidad dentro de cada bloque, de modo que el efecto bloque sea el
mismo para todos los tratamientos.
Interesa pues saber si hay diferencias signicativas entre los tratamientos
i
y entre los
bloques
j
estableciendo con este n las hip otesis lineales 10.14 y 10.15 respectivamente.
Los resultados obtenidos son
y = 2,14 y
1
= 2,00 y
2
= 2,56 y
3
= 1,84 y
4
= 2,16
y
1
= 2,050 y
2
= 2,175 y
3
= 2,075 y
4
= 2,225 y
5
= 2,175
192
Bloques
1 1 2 4 3
2 4 3 2 1
3 2 1 4 3
4 3 1 4 2
5 2 4 3 1
Cuadro 10.5: Formaci on correcta de bloques y asignaci on al azar de los tratamientos
La tabla del An alisis de la Varianza (ver tabla 10.4) es
Fuente variaci on suma cuadrados g.l. cuadrados medios
Entre fertiliz. 1,432 3 0,477
Entre ncas 0,088 4 0,022
Residuo 0,408 12 0,034
Total 1,928 19
El estadstico F para comparar las ncas es
F =
0,022
0,034
= 0,65
con 4 y 12 grados de libertad. Como no es signicativo, admitimos que no hay diferencias
entre las ncas. Asimismo, para comparar los fertilizantes, el estadstico F es
F =
0,477
0,034
= 14,04
con 3 y 12 grados de libertad. Dado que es muy signicativo podemos admitir que hay
diferencias entre los fertilizantes.
Como el efecto del factor bloque no es signicativo podemos considerar el modelo de un
factor, a nadiendo la suma de cuadrados entre ncas al residuo.
Fuente variaci on suma cuadrados g.l. cuadrados medios
Entre fertiliz. 1,432 3 0,477
Residuo 0,496 16 0,031
Total 1,928 19
El estadstico F vale 15,39 lo que muestra una signicativa diferencia entre fertilizantes.
10.4. Dise no de dos factores con interacci on
Supongamos que la variable observable est a inuida por dos causas de variabilidad A y B,
con a y b niveles respectivamente. Pero ahora, a diferencia del dise no de la secci on anterior,
los dos factores tienen a priori la misma importancia y aceptamos a nadir un nuevo efecto
denominado interacci on entre factores. Entonces es preciso disponer de r observaciones
por casilla, porque con una sola unidad experimental para cada combinaci on de niveles,
el modelo tendra m as par ametros que observaciones y la varianza del modelo no sera
estimable.
193
Podemos disponer los datos de la siguiente manera
B
1
B
2
. . . B
b
y
111
y
121
y
1b1
A
1
y
112
y
122
. . . y
1b2
.
.
.
.
.
.
.
.
.
y
11r
y
12r
y
1br
.
.
.
.
.
.
.
.
.
.
.
.
y
a11
y
a21
y
ab1
A
a
y
a12
y
a22
. . . y
ab2
.
.
.
.
.
.
.
.
.
y
a1r
y
a2r
y
abr
Indicaremos las medias con la siguiente notaci on
y
i
=
1
br
j,k
y
ijk
y
j
=
1
ar
i,k
y
ijk
y
ij
=
1
r
k
y
ijk
y
= y =
1
abr
i,j,k
y
ijk
Modelo aditivo con interacci on
En este modelo suponemos que el efecto la (efecto debido al factor A) y el efecto columna
(efecto debido al factor B) son aditivos, pero aceptamos tambien la presencia del efecto
interacci on. En otras palabras, el modelo lineal es
y
ijk
= +
i
+
j
+
ij
+
ijk
(10.19)
para todo i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , r y donde
= media general
i
= efecto del nivel A
i
de A
j
= efecto del nivel B
j
de B
ij
= interacci on entre los niveles A
i
y B
j
Para determinar todos los par ametros, se imponen tambien las restricciones naturales
i
=
j
=
ij
=
ij
= 0 (10.20)
con lo cual el modelo depende de
1 + (a 1) + (b 1) + (a 1)(b 1) = ab (10.21)
par ametros.
La interacci on
ij
debe a nadirse para prever el caso de que no se verique la aditividad
supuesta en 10.8. Indicando
ij
= E(y
ijk
), la interacci on mide la desviaci on respecto a un
modelo totalmente aditivo
ij
=
ij

i
j
(10.22)
194
Por otra parte, diremos que un dise no es de rango completo si el n umero de par ametros
es igual al n umero de condiciones experimentales, es decir, al n umero de las distintas
de la matriz de dise no. En un dise no que no es de rango completo hay menos par ametros
que condiciones experimentales, por lo que en realidad admitimos que los datos se
ajustan al modelo propuesto. Por ejemplo, en el dise no sin interacci on tenemos (ver 10.10)
a + b 1 < ab, luego admitimos de partida el modelo 10.8. Sin embargo, este modelo
puede no ser cierto y de hecho existe la llamada prueba de Tukey para comprobarlo
(ver Pe na[54, p ag. 104] y Hoaglin et al.[39, p ags. 268-273]). En cambio, por 10.21, el
modelo 10.19 posee tantos par ametros como condiciones experimentales de variabilidad,
de modo que es v alido por construcci on. En general, un modelo de rango completo se
ajusta intrnsecamente a los datos sin problemas. No obstante, para poder estimar todos
los par ametros es necesario disponer de m as de una replica por condici on experimental.
Esta es la raz on por la cual la interacci on no puede ser incluida en 10.8.
El modelo 10.19 puede ser reparamentrizado en la forma
y
ijk
=
ij
+
ijk
(10.23)
Pasamos del modelo 10.23 al 10.19 mediante las transformaciones
=
1
ab
i,j
ij

i
=
1
b
_
ij
_
j
=
1
a
_
ij
_

ij
=
ij

i
j
(10.24)
Estimaci on de los parametros
y
ijk

i
ij
= ( y ) + (y
i
y
i
)
+(y
j
y
j
)
+(y
ij
y
i
y
j
+ y
ij
)
+(y
ijk
y
ij
)
Elevando al cuadrado y teniendo en cuenta las restricciones 10.20, los productos cruzados
se anulan y queda
i,j,k
(y
ijk

i
ij
)
2
=
i,j,k
( y )
2
+
i,j,k
(y
i
y
i
)
2
+
i,j,k
(y
j
y
j
)
2
+
i,j,k
(y
ij
y
i
y
j
+ y
ij
)
2
+
i,j,k
(y
ijk
y
ij
)
2
(10.25)
Como el ultimo termino de esta expresi on no depende de los par ametros, es f acil ver que
las estimaciones MC son
= y
i
= y
i
y

j
= y
j
y
ij
= y
ij
y
i
y
j
+ y (10.26)
195
mientras que la suma de cuadrados residual es
SCR =
i,j,k
(y
ijk
y
ij
)
2
que tiene ab(r 1) grados de libertad. Luego la estimaci on de la varianza es

2
= SCR/[ab(r 1)]
Por otra parte, considerando 10.23 y 10.24 podemos obtener las estimaciones 10.26 por
otro camino. Es obvio que las estimaciones de
ij
son

ij
= y
ij
Interpretando ,
i
,
j
,
ij
como funciones parametricas sobre el modelo 10.23, por el
teorema de Gauss-Markov, sus estimaciones se obtendr an sustituyendo
ij
por y
ij
en
10.24, lo que nos dar a 10.26.
Hip otesis lineales
En el dise no de dos factores con interacci on, las hip otesis de mayor interes son
H
A
0
:
1
= =
a
= 0 (no hay efecto la)
H
B
0
:
1
= =
b
= 0 (no hay efecto columna)
H
AB
0
:
ij
= 0 i, j (no hay interacci on)
Los rangos son a 1, b 1 y (a 1)(b 1) respectivamente.
A n de deducir el test F correspondiente, consideremos la siguiente descomposici on
fundamental de la suma de cuadrados
i,j,k
(y
ijk
y)
2
= br
i
(y
i
y)
2
+ar
j
(y
j
y)
2
+r
i,j
(y
ij
y
i
y
j
+ y)
2
+
i,j,k
(y
ijk
y
ij
)
2
Esta relaci on, que se puede probar con algo de esfuerzo, la expresaremos brevemente como
SC
T
= SC
F
+ SC
C
+ SC
I
+ SCR
donde SC
T
I
es la suma de cuadrados correspondiente
a la interacci on, etc.
Consideremos ahora la hip otesis H
A
0
. La suma de cuadrados residual es SCR. Supongamos
la hip otesis cierta, entonces el modelo 10.19 se convierte en
y
ijk
= +
j
+
ij
+
ijk
Adem as, como no hay
i
, el mnimo de 10.25, es decir, la suma de cuadrados residual
bajo H
A
0
es
SCR
H
=
(y
i
y)
2
+
(y
ijk
y
ij
)
2
= SC
F
+ SCR
196
Luego si H
A
0
es cierta (teorema 5.3.1) tendremos que
F =
(SCR
H
SCR)/(a 1)
SCR/[ab(r 1)]
=
SC
F
/(a 1)
SCR/[ab(r 1)]
sigue la distribuci on F(a 1, ab(r 1)).
La obtenci on del test F para decidir sobre H
B
0
y H
AB
0
es an aloga. En la pr actica, los
c alculos suelen disponerse en forma de tabla (ver tabla 10.6).
Entre las SC
F
= br
i
(y
i
y)
2
a 1 SC
F
/(a 1)
SC
F
/(a1)
SCR/[ab(r1)]
Entre col. SC
C
= ar
j
(y
j
y)
2
b 1 SC
C
/(b 1)
SC
C
/(b1)
SCR/[ab(r1)]
Interacci on SC
I
= r
i,j
(y
ij
y
i
(a 1)(b 1)
SC
I
(a1)(b1)
SC
I
/[(a1)(b1)]
SCR/[ab(r1)]
y
j
+ y)
2
Residuo SCR =
i,j,h
(y
ijh
y
ij
)
2
ab(r 1)
SCR
ab(r1)
Total SC
T
=
i,j,h
(y
ijh
y)
2
abr 1
Cuadro 10.6: Tabla del An alisis de la Varianza para dise nos de dos factores con interacci on
Ejemplo 10.4.1
Se desean comparar tres genotipos distintos de Drosophila melanogaster, observando si
existen diferencias de viabilidad sembrando 100 y 800 huevos. De este modo, para cada una
de las 6 casillas del experimento (3 genotipos 2 siembras) se dispusieron 6 preparados
(6 replicas) y al cabo del tiempo suciente de ser sembrados los huevos, se obtuvo el
porcentaje de huevos que haban eclosionado. Los resultados fueron:
Huevos Genotipo
sembrados ++ +
100 93 94 93 95,5 83,5 92 92 91 90
90 93 86 92,5 82 82,5 95 84 78
800 83,3 87,6 81,9 84 84,4 77 85,3 89,4 85,4
80,1 79,6 49,4 67 69,1 88,4 87,4 52 77
El n umero X de huevos eclosionados por casilla sigue la distribuci on binomial con n = 100
o n = 800. Para normalizar la muestra aplicaremos la transformaci on
Y = arcsen
_
X
n
= arcsen
_
porcentaje
100
Los datos transformados son:
197
Huevos Genotipo
sembrados ++ +
100 74,7 75,8 74,7 77,8 66 73,6 73,6 72,5 71,6
71,6 74,7 68 74,1 64,9 65,3 77,1 66,4 62
800 65,9 69,4 64,8 66,4 66,7 61,3 67,5 71 67,5
63,5 63,1 44,7 54,9 56,2 70,1 69,2 46,1 61,3
Con estos datos se dibujan los gr acos de la gura 10.1 que avanzan el resultado nal.
5
0
6
0
7
0
y
100 800
siembra
a) Diagrama de cajas
5
0
6
0
7
0
y
++ +- --
genotipo
b) Diagrama de cajas
Factors
m
e
a
n

o
f

y
6
4
6
6
6
8
7
0
100
800
++
+-
--
siembra genotipo
c) Medias
Factors
m
e
d
i
a
n

o
f

y
6
6
6
8
7
0
7
2
100
800
++
+-
--
siembra genotipo
d) Medianas
genotipo
m
e
a
n

o
f

y
6
2
6
4
6
6
6
8
7
0
7
2
++ +- --
siembra
100
800
e) Poligonos
Figura 10.1: Gr acos del an alisis exploratorio de los datos del ejemplo 10.4.1
A continuaci on se calculan las siguientes medias:
y
11
= 73,231 y
12
= 70,271 y
13
= 70,534 y
21
= 61,899
y
22
= 62,626 y
23
= 63,781 y
1
= 71,346 y
2
= 62,769
y
1
= 67,565 y
2
= 66,449 y
3
= 67,158 y = 67,057
Con ellas podemos obtener entonces la tabla del An alisis de la Varianza para un dise no
de dos factores con interacci on:
Fuente variaci on suma cuadrados g.l. cuadrados medios F
Entre siembras 662,086 1 662,086 14,833
Entre genotipos 7,665 2 3,832 0,086
Interacci on 35,354 2 17,677 0,396
Residuo 1339,094 30 44,636
Total 2044,199 35
198
A la vista de los valores F obtenidos, se concluye que no es signicativa la diferencia
entre genotipos ni la interacci on, pero s existen diferencias signicativas sembrando 100
o 800 huevos, siendo el porcentaje de eclosiones mayor en el primer caso, ya que seg un
parece al haber menos huevos, las larvas disponen de m as alimento.
Observaci on: cuando un factor no es signicativo, la interacci on generalmente tampoco
lo es.
10.5. Descomposici on ortogonal de la variabilidad
En las secciones anteriores han sido tratados los dise nos de uno y dos factores y se ha
estudiado c omo descomponer adecuadamente la variabilidad. Los dise nos en los que in-
tervienen tres o m as factores pueden estudiarse tambien descomponiendo adecuadamente
la variabilidad total
SC
T
=
(y
ij...m
y)
2
en diferentes sumas de cuadrados, m as una suma de cuadrados residual. Veamos c omo
debe procederse para un dise no de cuatro factores que indicaremos A, B, C y D, con a,
b, c y d niveles respectivamente. Distinguiremos dos casos:
(a) D es el factor replica, es decir, d es el n umero de replicas para cada condici on
experimental o combinaci on de los niveles de los factores A, B, C. El modelo lineal
es
y
ijkr
= +
A
i
+
B
j
+
C
k
+
AB
ij
+
AC
ik
+
BC
jk
+
ABC
ijk
+
ijkr
para i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , c; r = 1, . . . , d y siendo
y
ijkr
= replica r para los niveles i, j, k de A, B, C
= media general
A
i
,
B
j
,
C
k
= efectos principales de A, B, C
AB
ij
,
AC
ik
,
BC
jk
= interacciones entre los factores A y B, A y C, B y C
ABC
ijk
= interacci on entre los tres factores
ijkr
= desviaci on aleatoria N(0, )
Debe imponerse la restricci on de que la suma (respecto a uno o dos subndices) de
los par ametros sea igual a cero.
(b) D es un verdadero factor con d niveles, de modo que el dise no depende de cuatro
factores con una sola observaci on por casilla. El modelo es
y
ijkm
= +
A
i
+
B
j
+
C
k
+
D
m
+
AB
ij
+
AC
ik
+
AD
im
+
BC
jk
+
BD
jm
+
CD
km
+
ABC
ijk
+
ABD
ijm
+
ACD
ikm
+
BCD
jkm
+
ijkm
La interpretaci on de los par ametros es an aloga.
199
La tabla 10.7 contiene la descomposici on de la variabilidad. Los sumatorios deben des-
arrollarse para todos los subndices i, j, k, m, veric andose por lo tanto
SC
A
=
i,j,k,m
(y
i
y)
2
= bcd
i
(y
i
y)
2
SC
B
=
i,j,k,m
(y
j
y)
2
= acd
j
(y
j
y)
2
SC
BC
= ad
j,k
(y
jk
y
j
y
k
+ y)
2
etcetera.
Cuadro 10.7: Descomposici on ortogonal de la suma de cuadrados correspondiente a un
dise no de cuatro factores
Fuente de
variaci on suma de cuadrados grados de libertad
A
(y
i
y)
2
a 1
B
(y
j
y)
2
b 1
C
(y
k
y)
2
c 1
D
(y
m
y)
2
d 1
AB
(y
ij
y
i
y
j
+ y)
2
(a 1)(b 1)
AC
(y
ik
y
i
y
k
+ y)
2
(a 1)(c 1)
AD
(y
im
y
i
y
m
+ y)
2
(a 1)(d 1)
BC
(y
jk
y
j
y
k
+ y)
2
(b 1)(c 1)
BD
(y
jm
y
j
y
m
+ y)
2
(b 1)(d 1)
CD
(y
km
y
k
y
m
+ y)
2
(c 1)(d 1)
ABC
(y
ijk
y
ij
y
ik
y
jk
(a 1)(b 1)(c 1)
+y
i
+y
j
+y
k
y)
2
ABD
(y
ijm
y
ij
y
im
y
jm
(a 1)(b 1)(d 1)
+y
i
+y
j
+y
m
y)
2
ACD
(y
ikm
y
ik
y
im
y
km
(a 1)(c 1)(d 1)
+y
i
+y
k
+y
m
y)
2
BCD
(y
jkm
y
jk
y
jm
y
km
(b 1)(c 1)(d 1)
+y
j
+y
k
+y
m
y)
2
ABCD
(y
ijkm
y
ijk
y
ijm
y
ikm
y
jkm
(a 1)(b 1)(c 1)(d 1)
+y
ij
+y
ik
+y
jk
+y
im
+y
jm
+y
km
y
i
y
j
y
k
y
m
+ y)
2
Total
(y
ijkm
y)
2
abcd 1
Estas sumas de cuadrados pueden reunirse convenientemente, sumando tambien los gra-
dos de libertad, seg un el tipo de dise no factorial para obtener la suma de cuadrados
residual. Veamos tres casos:
1) Supongamos que se trata de un dise no de tres factores y replicas, como el descrito
en (a). Entonces:
SC
T
= SC
A
+ SC
B
+ SC
C
+ SC
AB
+ SC
AC
+ SC
BC
+ SC
ABC
+ SCR
200
siendo la suma de cuadrados residual
SCR = SC
D
+ SC
AD
+ SC
BD
+ SC
CD
+ SC
ABD
+ SC
ACD
+ SC
BCD
+ SC
ABCD
=
(y
ijkm
y
ijk
)
2
con (d 1) + + [(a 1)(b 1)(c 1)(d 1)] = abc(d 1) grados de libertad.
Para estudiar, por ejemplo, si la interacci on entre A y B es signicativa, calculare-
mos
F =
SC
AB
/[(a 1)(b 1)]
SCR/[abc(d 1)]
y consultaremos la tabla F con (a 1)(b 1) y abc(d 1) grados de libertad.
2) Supongamos que se trata de un dise no de 4 factores con una sola observaci on por
casilla, como el descrito en (b). Entonces:
SC
T
= SC
A
+SC
B
+SC
C
+SC
D
+SC
AB
+ +SC
CD
++SC
ABC
+ +SC
BCD
+SCR
siendo SCR = SC
ABCD
la suma de cuadrados residual. La signicaci on de los efectos
principales o las interacciones deber a efectuarse dividiendo por SC
ABCD
.
3) Supongamos que C es un factor (por ejemplo, un factor bloque) que no interacciona
con A, B y que D es un factor replica. Entonces
SC
T
= SC
A
+ SC
B
+ SC
C
+ SC
AB
+ SCR
siendo
SCR = SC
D
+SC
AC
+SC
AD
+ +SC
CD
+SC
ABC
+SC
ABD
+SC
BCD
+SC
ABCD
la suma de cuadrados residual.
La formulaci on general de esta descomposici on de la suma de cuadrados permite abordar
muchos tipos de dise nos que resulten de la combinaci on de varios factores, con una sola
replica por casilla, o con el mismo n umero de replicas por casilla (dise nos balanceados).
En este caso, las replicas se consideran como un factor formal y el residuo estar a formado
por todas las sumas de cuadrados en los que interviene el factor replica. Las interacciones
no presentes en un determinado modelo (por condiciones experimentales o por cocientes
F claramente no signicativos) se a naden al residuo. Esta formulaci on general no permite
tratar ciertos dise nos como cuadrados latinos, bloques incompletos balanceados, etc.
Esta descomposici on ortogonal, para un n umero cualquiera de factores, puede programar-
se por ordenador siguiendo el algoritmo propuesto por Hartley[36].
La principal dicultad de estos dise nos es la gran cantidad de observaciones necesarias,
de modo que en la pr actica no se consideran dise nos con m as de cuatro factores. En
algunos casos se puede suponer que las interacciones altas son nulas y estimar el resto
de par ametros.

Esta es la propuesta de los dise nos en cuadrados latinos y greco-latinos
que permiten estimar los efectos principales con el mnimo de observaciones (ver Pe na[54,
p ag. 116-128] y Cuadras[20, p ag. 261-262]).
201
10.5.1. Descomposici on de la variabilidad en algunos dise nos
Indicando simb olicamente por A, B, AB, . . . , T las sumas de cuadrados SC
A
,SC
B
, SC
AB
,
. . . , SC
T
, exponemos seguidamente diferentes dise nos del An alisis de la Varianza, pre-
sentando la descomposici on de la variabilidad. Algunos dise nos han sido tratados en las
secciones anteriores de este captulo.
1. Un factor y replicas
y
ij
= +
i
+
ij
T = A +R +AR
Entre grupos A a 1
Residuo R +AR ar a
2. Dos factores con una observaci on por casilla
y
ij
= +
i
+
j
+
ij
T = A +B +AB
Entre las A a 1
Entre columnas B b 1
Residuo AB (a 1)(b 1)
3. Dos factores con interacci on
y
ijk
= +
i
+
j
+
ij
+
ijk
T = A +B +R +AB +AR +BR +ABR
Efecto la A a 1
Efecto columna B b 1
Interacci on AB (a 1)(b 1)
Residuo R +AR +BR +ABR ab(r 1)
4. Dos factores con interacci on en bloques aleatorizados
y
ijk
= +
i
+
j
+b
k
+
ij
+
ijk
T = A +B +R +AB +AR +BR +ABR
Efecto la A a 1
Efecto columna B b 1
Efecto bloque R r 1
Interacci on AB (a 1)(b 1)
Residuo AR +BR +ABR (ab 1)(r 1)
Este modelo se utiliza cuando se combinan dos factores A, B y se obtienen replicas orga-
nizadas en bloques. El factor bloque tiene un efecto principal, pero no interacciona con
A, B.
5. Tres factores con una observaci on por casilla
y
ijk
= +
i
+
j
+
k
+ ()
ij
+ ()
ik
+ ()
jk
+
ijk
202
T = A +B +C +AB +AC +BC +ABC
Efecto A A a 1
Efecto B B b 1
Efecto C C c 1
Interacci on A B AB (a 1)(b 1)
Interacci on A C AC (a 1)(c 1)
Interacci on B C BC (b 1)(c 1)
Residuo ABC (a 1)(b 1)(c 1)
6. Tres factores con r observaciones por casilla
y
ijkm
= +
i
+
j
+
k
+ ()
ij
+ ()
ik
+ ()
jk
+ ()
ijk
+
ijkm
T = A +B +C +R +AB +AC +AR +BC +BR +CR
+ABC +ABR +ACR +BCR +ABCR
Efecto A A a 1
Efecto B B b 1
Efecto C C c 1
Interacci on B C BC (b 1)(c 1)
Interacci on A B C ABC (a 1)(b 1)(c 1)
Residuo R +AR +BR +CR +ABR abc(r 1)
+ACR +BCR +ABCR
7. Dise no de parcela dividida
y
ijk
= +
i
+
j
+b
k
+ ()
ij
+ (b)
ik
+ +
ijk
T = A +C +B +AC +AB +CB +ACB
Tratamiento principal A a 1
Subtratamiento C c 1
Bloque B b 1
Residuo CB +ACB a(b 1)(c 1)
B
1
A
2
A
1
A
3
A
4
C
1
C
2
C
2
C
1
C
2
C
1
C
1
C
2
B
2
A
1
A
3
A
4
A
2
C
2
C
1
C
2
C
1
C
1
C
2
C
1
C
2
B
3
A
3
A
4
A
2
A
1
C
1
C
2
C
1
C
2
C
2
C
1
C
2
C
1
Este dise no se utiliza en investigaci on agrcola, tambien en otras ciencias experimentales,
para comparar a tratamientos (factor A) que se asignan aleatoriamente en b bloques
o ncas (factor B), a raz on de a tratamientos por bloque. Se divide cada una de las
203
ab parcelas y se asignan al azar c subtratamientos (factorC), tal como se ilustra en el
esquema para el caso a = 4, b = 3, c = 2. Se supone que act uan los efectos principales A,
B y C, la interacci on AC y la interacci on AB. La interacci on entre A y los bloques es
debida a que estos no pueden considerarse completamente homogeneos. Sin embargo, se
supone que cada una de las ab parcelas dentro de los bloques son homogeneas, de modo
que los subtratamientos C no interaccionan con los bloques.
Para la signicaci on de C y la interacci on A C debe calcularse
F
C
=
C/(c 1)
(CB +ABC)/[a(b 1)(c 1)]
F
AC
=
AC/[(a 1)(c 1)]
(CB +ABC)/[a(b 1)(c 1)]
Para estudiar la signicaci on del factor A y del factor bloque debe calcularse
F
A
=
A/(a 1)
AB/[(a 1)(b 1)]
F
B
=
B/(b 1)
AB/[(a 1)(b 1)]
10.5.2. Estimaci on de parametros y calculo del residuo
La estimaci on de los efectos principales y las interacciones se obtienen utilizando los
terminos que intervienen en las correspondientes sumas de cuadrados (ver tabla 10.7).
Por ejemplo, en un estudio de dos factores con interacci on en bloques aleatorizados, las
estimaciones son:
= y
i
= y
i
y

j
= y
j
y
b
k
= y
k
y
ij
= y
ij
y
i
y
j
+ y
Se puede aplicar una regla sencilla para encontrar la expresi on algebraica del residuo. En
el dise no citado, cuyo modelo es
y
ijk
= +
i
+
j
+b
k
+
ij
+
ijk
sustituiremos los par ametros por sus estimaciones
y
ijk
= y + (y
i
y) + (y
j
y) + (y
k
y)
+(y
ij
y
i
y
j
+ y) +e
ijk
Para que exista identidad entre y
ijk
y el termino de la derecha, la estimaci on de la des-
viaci on aleatoria e
ijk
debe ser
e
ijk
= y
ijk
y
ij
y
k
+ y
El residuo correspondiente al dise no de dos factores con interacci on en bloques aleatori-
zados es entonces
i,j,k
e
2
ijk
=
i,j,k
(y
ijk
y
ij
y
k
+ y)
2
f ormula que coincide con AR +BR +ABR.
Esta regla sirve para todos los dise nos que admiten descomposici on ortogonal de la suma
de cuadrados. Por poner otro ejemplo, para el dise no de parcela dividida se comprueba
de este modo que la estimaci on de la desviaci on aleatoria es
e
ijk
= y
ijk
y
ik
y
ij
+y
i
204
Ejemplo 10.5.1
Con el n de valorar la acci on de los hongos xil ofagos sobre la madera, se han tomado
240 muestras de madera procedente de tocones de Pinus silvestris, clasicados atendiendo
simult aneamente a 4 factores (edad, orientaci on, altura y profundidad). La descripci on
de los factores es:
Edad (E): A nos transcurridos desde la fecha de tala (1,4,7,10 o 13 a nos).
Orientaci on (O): N,S,E,O seg un la ubicaci on de la muestra en el toc on.
Altura (A): 0, 2, 5, 15 expresada en cm contados a partir de la supercie de corte.
Profundidad (P): 0, 2, 5 expresada en cm contados radialmente a partir de la supercie
lateral.
Cada una de las 5 4 4 3 = 240 muestras era en realidad la homogeneizaci on de 3
muestras procedentes de 3 tocones distintos pero de las mismas caractersticas en cuanto
a la edad, orientaci on, altura y profundidad.
Se estudiaron 8 variables qumicas. Para la variable que meda la cantidad de hemicelulosa,
se obtuvo la siguiente descomposici on ortogonal de la suma de cuadrados:
Fuente de Suma de Grados de Cuadrados
variaci on cuadrados libertad medios F
E 1227,53 4 306,88 59,21
O 51,94 3 17,31 3,34
A 58,59 3 19,53 3,76
P 18,04 2 9,02 1,74
EO 152,70 12 12,72 2,45
EA 137,13 12 11,42 2,20
EP 72,22 8 9,03 1,74
OA 54,60 9 6,06 1,17
OP 37,26 6 6,21 1,20
AP 21,04 6 3,50 0,68
EOA 189,89 36 5,27 1,01
EOP 145,12 24 6,04 1,16
EAP 132,22 24 5,50 1,06
OAP 60,70 18 3,37 0,65
EOAP 373,19 72 5,18
Total 2732,64 239
Los datos se adaptan a un dise no de 4 factores con una observaci on por casilla. El residuo
es la suma de cuadrados indicada simb olicamente por EOAP y su valor es 373,19 con 72
grados de libertad. Un examen inicial de los cocientes F de la tabla, obtenidos dividiendo
los cuadrados medios por 373,19/72 = 5,18, para un nivel de signicaci on de 0,05 nos
lleva a las siguientes conclusiones:
a) Son signicativos los efectos principales E,O,A. No es signicativo el efecto principal
P.
205
b) Son signicativas las interacciones EA y EO. No son signicativas el resto de las
interacciones.
Prescindiendo de los efectos no signicativos, resulta un dise no de tres factores (E,O,A),
de los cuales interaccionan E con A y E con O (edad con altura y edad con orientaci on).
A nadiendo las correspondientes sumas de cuadrados al residuo, obtenemos la siguiente
tabla:
Fuente de Suma de Grados de Cuadrados
variaci on cuadrados libertad medios F
E 1227,53 4 306,88 56,97
O 51,94 3 17,31 3,21
A 58,59 3 19,53 3,63
EO 152,70 12 12,72 2,36
EA 137,13 12 11,42 2,12
Residuo 1104,26 205 5,39
Total 2732,64 239
Se observa que sigue existiendo variabilidad signicativa respecto E,O y A. Tambien son
signicativas las interacciones EO y EA. Por lo tanto, se conrman las conclusiones
iniciales. Una estimaci on insesgada de la varianza
2
es
2
= 5,39.
10.6. Diagnosis del modelo
Una vez decidido el modelo, calculados los par ametros y contrastadas las hip otesis sobre
los par ametros, es necesario comprobar si las hip otesis esenciales del modelo lineal se
cumplen. En caso contrario debemos analizar las consecuencias y si es preciso un cambio
de modelo. Para ello y como en el caso de los modelos de regresi on (ver captulo 9)
realizaremos un completo an alisis de los residuos. Como ya se ha explicado, dicho an alisis
debe comprobar la normalidad, la independencia y la aleatoriedad, la no existencia de
valores atpicos y la homocedasticidad. As pues, en esta secci on vamos a comentar los
aspectos especcos de este tema en el caso de los modelos de An alisis de la Varianza.
Podemos empezar por una exploraci on previa de las observaciones, especialmente gr aca,
como puede ser un diagrama de cajas m ultiple o, cuando el n umero de datos sea muy
peque no, un gr aco de puntos como el de la tabla 10.2.
Una vez resuelto el modelo, podemos realizar el estudio descriptivo y gr aco de la distri-
buci on de los residuos. En este sentido los gr acos propuestos en 9.1.3, como diagramas
de dispersi on frente a las previsiones (medias en cada grupo), QQ-plots, etc., nos pro-
porcionar an mucha informaci on sobre la veracidad de las hip otesis b asicas de un modelo
lineal normal.
Por otra parte, como la mayora de dise nos responden a una situaci on experimental, siem-
pre conviene representar los residuos respecto a su ndice temporal de observaci on. Con
ello podemos detectar posibles cambios en las condiciones experimentales que provocaran
una correlaci on indeseable o una alteraci on en la variabilidad experimental. Por ejemplo,
esto ultimo ocurre cuando se maniesta el llamado efecto de aprendizaje.
206
La falta de normalidad no es un problema grave. Aunque las observaciones no sigan la ley
normal, los contrastes son esencialmente v alidos y se dice que el An alisis de la Varianza
es en este caso una tecnica robusta. Sin embargo, la no normalidad s afecta a la precisi on
de la estimaci on de la varianza del modelo y su estimaci on por intervalos.
El efecto de varianzas desiguales en los grupos afecta al contraste F si el n umero de
observaciones en cada grupo es diferente (m ax n
i
/mn n
i
> 2). En caso contrario, cuando
el n umero de replicas por casilla es el mismo, el contraste F es bastante robusto incluso
cuando las varianzas son fuertemente distintas (por ejemplo en una relaci on 1 a 30).
Por supuesto, una fuerte desigualdad de la varianza del error en los grupos s inuye
marcadamente en la estimaci on de
2
.
En algunos casos se puede aplicar alguna transformaci on para conseguir homocedasticidad
(ver Pe na[p ag. 59][54]).
En cuanto a efectuar un contraste formal de igualdad de varianzas antes del test F, es
mejor utilizar un test robusto frente a la falta de normalidad como el test de Levene (ver
6.7.3 y Ugarte[69, p ag. 375]). Si los datos se desvan ligeramente de la normalidad, esto va
a afectar poco al test F, pero mucho a un test de varianzas no robusto, muy dependiente
de la normalidad.
Finalmente, el efecto de dependencia entre observaciones puede ser muy grave, ya que las
f ormulas para las varianzas de las distribuciones muestrales de las medias son inv alidas
en este caso, por lo que todos los c alculos sobre la precisi on de los estimadores ser an
err oneos. El procedimiento m as ecaz para prevenir la dependencia es la aleatorizaci on.
Ejemplo 10.6.1
Con el modelo lineal propuesto en el ejemplo 10.2.1 se pueden realizar los gr acos de los
residuos que se presentan en la gura 10.2. No se observan patologas que hagan dudar
de las hip otesis b asicas del modelo.
Ejemplo 10.6.2
Con los datos del ejemplo 10.3.1 y el modelo m as simple tras el contraste se calculan (ver
p agina 214) los residuos estandarizados que tenemos en la tabla 10.8. S olo hay un residuo
prod fert finca ajustado resid resid.std atipico
1 2.1 A 1 2.00 0.10 0.57
2 2.2 A 2 2.00 0.20 1.14
3 1.8 A 3 2.00 -0.20 -1.14
4 2.0 A 4 2.00 0.00 0.00
5 1.9 A 5 2.00 -0.10 -0.57
6 2.2 B 1 2.56 -0.36 -2.04 *
7 2.6 B 2 2.56 0.04 0.23
8 2.7 B 3 2.56 0.14 0.80
9 2.5 B 4 2.56 -0.06 -0.34
10 2.8 B 5 2.56 0.24 1.36
11 1.8 C 1 1.84 -0.04 -0.23
12 1.9 C 2 1.84 0.06 0.34
13 1.6 C 3 1.84 -0.24 -1.36
14 2.0 C 4 1.84 0.16 0.91
15 1.9 C 5 1.84 0.06 0.34
16 2.1 D 1 2.16 -0.06 -0.34
17 2.0 D 2 2.16 -0.16 -0.91
18 2.2 D 3 2.16 0.04 0.23
19 2.4 D 4 2.16 0.24 1.36
20 2.1 D 5 2.16 -0.06 -0.34
Cuadro 10.8: Residuos estandarizados del ejemplo 10.3.1
207
-
1
.
0
0
.
0
0
.
5
1
.
0
1
.
5
residuos estandarizados
a) Diagrama de caja
cuantiles de la normal
r
e
s
i
d
u
o
s

e
s
t
.
-1 0 1
-
1
.
0
0
.
0
0
.
5
1
.
0
1
.
5
b) QQ-plot
i
r
e
s
i
d
u
o
s

e
s
t
.
2 4 6 8 10 12 14
-
1
.
0
0
.
0
0
.
5
1
.
0
1
.
5
c) residuos est. vs index
predicciones
r
e
s
i
d
u
o
s

e
s
t
.
10 15 20 25
-
1
.
0
0
.
0
0
.
5
1
.
0
1
.
5
d) residuos est. vs predicciones
Figura 10.2: Gr acos para el an alisis de los residuos del ejemplo 10.2.1
ligeramente atpico, situado en las colas del 5 %, y marcado con un asterisco.
Los gr acos de estos residuos, como en el ejemplo anterior, tampoco muestran ning un
indicio de apartarse de las hip otesis b asicas del modelo lineal.
Ejemplo 10.6.3
En el an alisis de los residuos del ejemplo 10.4.1 con el modelo simplicado a un factor, el
factor signicativo siembra, se observan dos residuos estandarizados con valores atpicos:
2,84 (p < 0,007) y 2,61 (p < 0,01). Habra que estudiar estos dos resultados.
Los gr acos pueden verse en la gura 10.3.
10.7. Dise nos no balanceados y observaciones faltan-
tes
Un dise no experimental (observaciones y modelo del experimento) puede describirse me-
diante el modelo lineal Y = X + , donde X es la matriz de dise no ampliada. Sean
n
1
, . . . , n
k
los n umeros de replicas para cada una de las condiciones experimentales (ver
secci on 2.7). Excepto el dise no de un factor, los dem as dise nos deben tener el mismo n ume-
ro de replicas por condici on experimental. Sin embargo, en las aplicaciones no siempre es
posible mantener tal restricci on. Adem as, las replicas de alguna condici on experimental
208
-
3
-
2
-
1
0
1
residuos estandarizados
a) Diagrama de caja
cuantiles de la normal
r
e
s
i
d
u
o
s

e
s
t
.
-2 -1 0 1 2
-
3
-
2
-
1
0
1
b) QQ-plot
i
r
e
s
i
d
u
o
s

e
s
t
.
0 10 20 30
-
3
-
2
-
1
0
1
c) residuos est. vs index
predicciones
r
e
s
i
d
u
o
s

e
s
t
.
64 66 68 70
-
3
-
2
-
1
0
1
d) residuos est. vs predicciones
Figura 10.3: Gr acos para el an alisis de los residuos del ejemplo 10.4.1
pueden perderse (un tubo de ensayo que se rompe, unos datos que se extravan, etc.).
Veamos como pueden ser tratados ambos problemas.
Dado el modelo lineal Y = X +, diremos que corresponde a:
1) Un dise no balanceado si n
1
= n
2
= = n
k
,= 0.
2) Un dise no no balanceado si n
i
,= n
j
para alg un i, j.
3) Un dise no con observaciones faltantes si n
i
= 0 para alg un i.
Supongamos que X
R
es la matriz de dise no reducida est andar para un dise no experi-
mental determinado. Los dise nos no balanceados y con observaciones faltantes se pueden
manejar, sin modicar X
R
, utilizando
D = diag(n
1
, n
2
, . . . , n
k
)
Adoptemos el convenio de que si n
i
= 0 para alg un i, la correspondiente observaci on
contenida en Y se sustituye por 0 y en el vector de medias

Y = ( y
1
, y
2
, . . . , y
k
)
se toma
y
i
= 0. Entonces se verica
= (X
R
DX
R
)
R
D
Y
SCR = Y
R
D
Y
SCR
H
SCR = (A
(A(X
R
DX
R
)
)
1
(A
)
209
siendo H
0
: A = 0 una hip otesis contrastable. La matriz M que relaciona X con X
R
mediante X = MX
R
se dene como en la secci on 2.7, pero a nadiendo una la de ceros en
el lugar correspondiente a una casilla con observaciones faltantes (ver Cuadras[20]). Para
otros tratamientos del caso no balanceado y de las observaciones faltantes vease Seber[65,
p ag. 259,290-300].
Ejemplo 10.7.1
Consideremos un dise no de dos factores A, B sin interacci on, con a = 2, b = 3, n
11
= 1,
n
12
= 2, n
13
= 0, n
21
= 3, n
22
= 0, n
23
= 1; es decir, no balanceado y con observaciones
faltantes en los niveles A
1
B
3
y A
2
B
2
. Entonces, para los par ametros ,
1
,
2
,
1
,
2
,
3
,
tenemos:
X
R
=
_
_
_
_
_
_
_
_
1 1 0 1 0 1
1 1 0 0 1 0
1 1 0 0 0 1
1 0 1 1 0 0
1 0 1 0 1 0
1 0 1 0 0 1
_
_
_
_
_
_
_
_
M =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 0 0 0 0 0
0 1 0 0 0 0
0 1 0 0 0 0
0 0 0 0 0 0
0 0 0 1 0 0
0 0 0 1 0 0
0 0 0 1 0 0
0 0 0 0 0 0
0 0 0 0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
D = (1, 2, 0, 3, 1, 0)
X = MX
R
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 1 0 1 0 0
1 1 0 0 1 0
1 1 0 0 1 0
0 0 0 0 0 0
1 0 1 1 0 0
1 0 1 1 0 0
1 0 1 1 0 0
0 0 0 0 0 0
1 0 0 0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
10.8. Ejemplos con R
Empezamos por reproducir el ejemplo 10.2.1 con el dise no de un factor. En primer lugar
introducimos los datos en una tabla. Observemos en especial la denici on del vector
tratam como factor.
> y<-c(22,18,30,15,17,20,28,35,19,33,10,5,0,14,18)
> tratam<-factor(c(rep("D",5),rep("B",5),rep("P",5)))
> pacientes<-data.frame(y,tratam)
> design.table(pacientes)
B D P
1 20 22 10
2 28 18 5
3 35 30 0
210
4 19 15 14
5 33 17 18
A continuaci on podemos presentar alg un gr aco de los datos como un diagrama de cajas
o un gr aco de puntos (ver gura de la tabla 10.2).
> par(pty="s")
> boxplot(split(y,tratam))
> par(pty="s")
> dotplot(formula=tratam~y,data=pacientes)
El An alisis de la Varianza se realiza con la funci on aov.
> aov(y~tratam,data=pacientes)
Call:
aov(formula = y ~ tratam, data = pacientes)
Terms:
tratam Residuals
Sum of Squares 790.5333 558.4000
Deg. of Freedom 2 12
Residual standard error: 6.821535 Estimated effects are balanced
Aunque para obtener la tabla 10.3 del An alisis de la Varianza es mejor asignar el resultado
en la forma
> pacientes.aov<-aov(y~tratam,data=pacientes)
> summary(pacientes.aov)
tratam 2 790.5333 395.2667 8.494269 0.005031871
Residuals 12 558.4000 46.5333
Observemos que el estadstico F es signicativo, de forma que se rechaza la hip otesis nula
de igualdad de tratamientos.
Las estimaciones de los par ametros
i
son
i
= y
i
y
> model.tables(pacientes.aov)
Tables of effects
tratam
B D P
8.0667 1.4667 -9.5333
y las estimaciones de las medias = y, +
i
= y
i
son
> model.tables(pacientes.aov,type="mean")
Tables of means Grand mean
211
18.933
tratam
B D P
27.0 20.4 9.4
Los residuos estandarizados de este modelo se calculan f acilmente:
> ECM<-deviance(pacientes.aov)/pacientes.aov$df.residual;ECM
[1] 46.53333
> resstd<-residuals(pacientes.aov)/sqrt(ECM)
Nos interesa adem as se nalar los residuos atpicos, si los hay. Para ello denimos una
escala de tres estrellas que corresponde a las colas de probabilidad 0,007, 0,01 y 0,05,
respectivamente.
> outlier<-as.character(ifelse(abs(resstd)>2.698,"***",
+ ifelse(abs(resstd)>2.576,"**",
+ ifelse(abs(resstd)>1.96,"*"," "))))
La siguiente tabla muestra los resultados:
> cbind(pacientes,ajustado=fitted(pacientes.aov),
+ resid=round(residuals(pacientes.aov),2),
+ resid.std=round(resstd,2),atipico=outlier)
y tratam ajustado resid resid.std atipico
1 22 D 20.4 1.6 0.23
2 18 D 20.4 -2.4 -0.35
3 30 D 20.4 9.6 1.41
4 15 D 20.4 -5.4 -0.79
5 17 D 20.4 -3.4 -0.50
6 20 B 27.0 -7.0 -1.03
7 28 B 27.0 1.0 0.15
8 35 B 27.0 8.0 1.17
9 19 B 27.0 -8.0 -1.17
10 33 B 27.0 6.0 0.88
11 10 P 9.4 0.6 0.09
12 5 P 9.4 -4.4 -0.65
13 0 P 9.4 -9.4 -1.38
14 14 P 9.4 4.6 0.67
15 18 P 9.4 8.6 1.26
Los gr acos de la gura 10.2 se han obtenido con las siguientes instrucciones:
> par(mfrow=c(2,2))
> boxplot(resstd,xlab="residuos estandarizados")
> title("a) Diagrama de caja")
> qqnorm(resstd,xlab="cuantiles de la normal",ylab="residuos est.")
> qqline(resstd)
> title("b) QQ-plot")
212
> plot((1:length(resstd)),resstd,type="p",xlab="i",ylab="residuos est.")
> title("c) residuos est. vs index")
> plot(fitted(pacientes.aov),resstd,xlab="predicciones",ylab="residuos est.")
> title("d) residuos est. vs predicciones")
Veamos ahora la reproducci on del ejemplo 10.3.1. Primero la introducci on de los datos:
> prod<-c(2.1,2.2,1.8,2.0,1.9,2.2,2.6,2.7,2.5,2.8,1.8,
+ 1.9,1.6,2.0,1.9,2.1,2.0,2.2,2.4,2.1)
> fert<-c(rep(1,5),rep(2,5),rep(3,5),rep(4,5))
> fert<-factor(fert,labels=c("A","B","C","D"))
> finca<-rep(c(1,2,3,4,5),4)
> finca<-factor(finca)
> problema<-data.frame(prod,fert,finca)
> rm(prod,fert,finca)
> problema
Con la ultima instrucci on veremos la tabla con todos los datos.
Ahora podemos presentar algunos gr acos descriptivos como los de la gura 10.4.
> par(mfrow=c(1,3),pty="s")
> plot.factor(prod~fert,data=problema)
> title("a) Diagrama de cajas")
> plot.factor(prod~finca,data=problema)
> title("b) Diagrama de cajas")
> interaction.plot(finca,fert,prod)
> title("c) Poligonos")
1
.
6
1
.
8
2
.
0
2
.
2
2
.
4
2
.
6
2
.
8
p
r
o
d
A B C D
fert
a) Diagrama de cajas
1
.
6
1
.
8
2
.
0
2
.
2
2
.
4
2
.
6
2
.
8
p
r
o
d
1 2 3 4 5
finca
b) Diagrama de cajas
finca
m
e
a
n

o
f

p
r
o
d
1
.
6
1
.
8
2
.
0
2
.
2
2
.
4
2
.
6
2
.
8
1 2 3 4 5
fert
B
D
C
A
c) Poligonos
Figura 10.4: Gr acos para la exploraci on de los datos del ejemplo 10.3.1
Tambien se pueden obtener otros gr acos con las instrucciones:
> plot.design(prod~fert,fun="mean") # Medias de prod por fert
> plot.design(problema,fun="median") # Medianas de prod
> dotplot(fert ~ prod | finca, data = problema)
213
Con la ultima se obtiene un conjunto de gr acos de puntos, uno para cada nivel del factor
bloque, en este caso las ncas.
A continuaci on se calcula el An alisis de la Varianza:
> attach(problema)
> problema.aov<-aov(prod~fert+finca,data=problema)
> summary(problema.aov)
fert 3 1.432 0.4773333 14.03922 0.0003137
finca 4 0.088 0.0220000 0.64706 0.6395716
Residuals 12 0.408 0.0340000
Ahora se pueden calcular las estimaciones de los efectos y las medias.
> efectos<-model.tables(problema.aov);efectos
Tables of effects
fert
A B C D
-0.14 0.42 -0.30 0.02
finca
1 2 3 4 5
-0.090 0.035 -0.065 0.085 0.035
> medias<-model.tables(problema.aov,type="means");medias
Tables of means
Grand mean
2.14
fert
A B C D
2.00 2.56 1.84 2.16
finca
1 2 3 4 5
2.050 2.175 2.075 2.225 2.175
Como el efecto del factor bloque no es signicativo, podemos evaluar la tabla del An alisis
de la Varianza del modelo con el factor principal:
> simple.aov<-aov(prod~fert,data=problema)
> summary(simple.aov)
fert 3 1.432 0.4773333 15.39785 0.00005624767
Residuals 16 0.496 0.0310000
El an alisis de los residuos debe hacerse con simple.aov.
214
> ECM<-deviance(simple.aov)/simple.aov$df.residual;ECM
[1] 0.031
> resstd<-residuals(simple.aov)/sqrt(ECM)
+ ifelse(abs(resstd)>1.96,"*"," "))))
> cbind(problema,ajustado=fitted(simple.aov),
+ resid=round(residuals(simple.aov),2),
El resultado puede verse en la tabla 10.8 de la p agina 207. Los gr acos del an alisis de
estos residuos se pueden realizar con las mismas instrucciones que en el ejemplo anterior
y son muy parecidos a los de la gura 10.2.
Veamos ahora c omo se procede con los datos del ejemplo 10.4.1.
> huevos<-c(93,94,93,90,93,86,
+ 95.5,83.5,92,92.5,82,82.5,
+ 92,91,90,95,84,78,
+ 83.3,87.6,81.9,80.1,79.6,49.4,
+ 84,84.4,77,67,69.1,88.4,
+ 85.3,89.4,85.4,87.4,52,77)
> genotipo<-c(rep(1,6),rep(2,6),rep(3,6),rep(1,6),rep(2,6),rep(3,6))
> siembra<-c(rep(1,18),rep(2,18))
> genotipo<-factor(genotipo,labels=c("++","+-","--"))
> siembra<-factor(siembra,labels=c("100","800"))
> y<-asin(sqrt(huevos/100))
> y<-y*180/pi
> split(round(y,2),genotipo)
...
> problema<-data.frame(y,siembra,genotipo)
> rm(y,siembra,genotipo)
> attach(problema)
> par(mfrow=c(2,3))
> plot.factor(y~siembra,data=problema)
> title("a) Diagrama de cajas")
> plot.factor(y~genotipo,data=problema)
> title("b) Diagrama de cajas")
> plot.design(problema,fun="mean")
> title("c) Medias")
> plot.design(problema,fun="median")
> title("d) Medianas")
> interaction.plot(genotipo,siembra,y)
> title("e) Poligonos")
Este conjunto de gr acos puede verse en la gura 10.1. Se intuye la falta de diferencias
signicativas entre los genotipos, mientras hay una clara diferencia entre las dos siembras.
Tambien es evidente la no interacci on entre los dos factores.
A continuaci on resolvemos el An alisis de la Varianza con los dos factores y su interacci on.
Observemos que la f ormula que se introduce en la funci on aov es
215
siembra + genotipo + siembra:genotipo == siembra*genotipo
> problema.aov<-aov(y~siembra*genotipo,data=problema)
> summary(problema.aov)
siembra 1 662.086 662.0865 14.83286 0.0005736
genotipo 2 7.665 3.8323 0.08585 0.9179521
siembra:genotipo 2 35.354 17.6772 0.39603 0.6764562
Residuals 30 1339.094 44.6365
> medias<-model.tables(problema.aov,type="means");medias
El an alisis de los residuos se hace con el modelo simple. Ver gura 10.3.
> simple.aov<-aov(y~siembra,data=problema)
> summary(simple.aov)
siembra 1 662.086 662.0865 16.28734 0.00029224
Residuals 34 1382.113 40.6504
> ECM<-deviance(simple.aov)/simple.aov$df.residual;ECM
[1] 40.65038
> resstd<-residuals(simple.aov)/sqrt(ECM)
> par(mfrow=c(2,2))
> boxplot(resstd,xlab="residuos estandarizados")
> title("a) Diagrama de caja")
> qqnorm(resstd,xlab="cuantiles de la normal",ylab="residuos est.")
> qqline(resstd)
> title("b) QQ-plot")
> plot((1:length(resstd)),resstd,type="p",xlab="i",ylab="residuos est.")
> title("c) residuos est. vs index")
> plot(fitted(simple.aov),resstd,xlab="predicciones",ylab="residuos est.")
> title("d) residuos est. vs predicciones")
+ ifelse(abs(resstd)>1.96,"*",""))))
> cbind(problema,ajustado=fitted(simple.aov),
+ resid=round(residuals(simple.aov),2),
216
10.9. Ejercicios
Ejercicio 10.1
Los siguientes datos corresponden a los ndices de mortalidad, en un perodo de 10 a nos,
clasicados por estaciones. Determinar si hay diferencias signicativas entre las diferentes
estaciones al nivel 0,01.
Invierno Primavera Verano Oto no
9,8 9,0 8,8 9,4
9,9 9,3 9,4
9,8 9,3 8,7 10,3
10,6 9,2 8,8 9,8
9,9 9,4 8,6 9,4
10,7 9,1 8,3 9,6
9,7 9,2 8,8 9,5
10,2 8,9 8,7 9,6
10,9 9,3 8,9 9,5
10,0 9,3 9,4
Por otra parte, diere signicativamente de 10,0 el ndice medio registrado en invierno?
Ejercicio 10.2
Para el dise no de un factor con k niveles
y
ih
= +
i
+
ih
i = 1, . . . , k; h = 1, . . . , n
i
con
i
= 0, demostrar:
a) La relaci on entre el contraste de la raz on de verosimilitud y el contraste F para
la hip otesis H
0
:
1
= =
k
= 0 es
=
_
1 +
k 1
n k
F
_
n/2
b) El valor esperado de los cuadrados medios entre grupos es
E(CM
E
) =
2
+
1
k 1
n
i
2
i
c) Cuando H
0
es cierta y mnn
1
, . . . , n
k
, entonces F
P
1.
d) Si k = 2, el contraste F para la hip otesis
H
0
:
1
=
2
= 0
es equivalente al contraste t de Student para comparar las medias +
1
, +
2
de dos poblaciones normales suponiendo que las varianzas son iguales.
Ejercicio 10.3
La siguiente tabla registra las producciones de 4 variedades de maz, plantadas seg un un
dise no en bloques aleatorizados
217
Variedad
1 2 3 4
a 7 6 6 7
b 10 8 7 9
Bloque c 6 3 5 7
d 4 3 3 3
e 8 5 5 6
Al nivel 0,05 estudiar si hay diferencias entre variedades y entre bloques. Comparar la
variedad 1 con la variedad 3.
Ejercicio 10.4
En una experiencia agrcola en la que se combina a no con genotipo, se admite el siguiente
modelo
y
ikr
= +
i
+
k
+
ik
+
ir
+
ikr
(10.27)
donde y
ikr
es la longitud de la planta,
i
i = 1, . . . , 5 es el efecto principal del a no,
k
k = 1, 2, 3 es el efecto principal del genotipo,
ik
es la interacci on genotipo a no,
ir
es
una interacci on de las replicas con los a nos y
ikr
es el termino de error con distribuci on
N(0,
2
). La tabla 10.9 presenta la descomposici on ortogonal de la suma de cuadrados.
g.l. SC Y Y T T
A (a no) 4 742 412 630
B (genotipo) 2 118 105 110
C (bloque) 3 74 87 97
AB 8 647 630 521
AC 12 454 478 372
BC 6 87 63 79
ABC 24 345 247 270
Cuadro 10.9: Tabla con las sumas de cuadrados para el dise no 10.27
Se pide:
a) Hallar la expresi on algebraica del residuo y encontrar tres estimaciones indepen-
dientes de
2
.
b) Estudiar si los efectos principales y las interacciones son signicativas (nivel 0,05).
Observaci on: La variable T es una variable concomitante y su utilidad ser a estudiada en
el siguiente captulo. Por este motivo, las columnas correspondientes a Y T y T no
tienen interes ahora.
Ejercicio 10.5
En un estudio sobre viabilidad de Drosophila melanogaster se tienen en cuenta los si-
guientes factores:
Genotipo (G): se estudian 3 genotipos distintos
Generaci on (N): el experimento se repite durante 4 generaciones sucesivas
Temperatura (T): incubaci on a 17 y 25 grados centgrados
218
Se obtuvieron 5 replicas para cada una de las combinaciones de los 3 factores. El expe-
rimento se realiz o sembrando 100 huevos y anotando el n umero de huevos eclosionados
(esto constituye una replica). Despues de transformar adecuadamente los datos origina-
les (ver ejemplo 10.5.1), se obtuvo la siguiente descomposici on ortogonal de la suma de
cuadrados (R es el factor replica)
SC g.l.
G 621 2
N 450 3
T 925 1
R 347 4
GN 35 6
GT 210 2
GR 48 8
NT 23 3
NR 34 12
TR 110 4
GNT 75 6
GNR 17 24
GTR 22 8
NTR 11 12
GNTR 107 24
Se pide:
a) Sabiendo que las interacciones entre 2 o 3 factores en las que intervenga el factor
N no forman parte del modelo lineal asociado al dise no, estudiar la signicaci on de
los efectos principales y de las interacciones (nivel de signicaci on: 0,01).
b) Hallar tres estimaciones insesgadas de la varianza
2
del dise no estoc asticamente
independientes.
219
Captulo 11
Analisis de Componentes de la
Varianza
11.1. Introducci on
En los dise nos del captulo anterior hemos supuesto que los efectos de los factores son jos,
elegidos por el experimentador, y por este motivo se denominan modelos de efectos jos.
Se trataba de investigar el efecto que producen algunos niveles jados sobre la variable
respuesta. Sin embargo, en ciertas situaciones es necesario interpretar los efectos de los
factores como aleatorios. En estos dise nos los niveles no se eligen, sino que se consideran
una muestra al azar. A los modelos relacionados con los efectos aleatorios se les denomina
modelos de efectos aleatorios.
En el caso de dise nos con efectos jos estamos interesados en estimar el efecto de los
diversos niveles sobre la respuesta. Por el contrario, en los dise nos de efectos aleatorios
dicha estimaci on no tiene sentido y buscaremos saber si el efecto existe y, si as es, conocer
su efecto sobre la variabilidad con la estimaci on de las varianzas asociadas. Por ello este
estudio se conoce con el nombre de An alisis de Componentes de la Varianza.
Tambien pueden presentarse efectos de ambos tipos en un mismo modelo: son los llamados
modelos mixtos. Veamos como distinguirlos mediante ejemplos.
Un modelo de efectos jos
Una experiencia agrcola consisti o en comparar la producci on de cuatro variedades de
maz. Para ello, se plantaron las cuatro variedades en 40 parcelas identicas, 10 por va-
riedad. Transcurrido el tiempo necesario se recolect o, estudi andose la variable peso de
maz por parcela.
Un modelo adecuado para analizar esta experiencia es el de un factor
y
ij
= +
i
+
ij
i = 1, 2, 3, 4; j = 1, 2, . . . , 10
y
ij
es la observaci on j del nivel i, es decir, la producci on de la
parcela j de la variedad i
es la media general
i
es un par ametro jo y representa el efecto de la variedad i
ij
es el error aleatorio con distribuci on N(0, )
220
La hip otesis de interes en este estudio es
H
0
:
1
=
2
=
3
=
4
= 0
es decir, no hay efecto variedad y las cuatro pueden considerarse homogeneas en cuanto
a la productividad.
Un modelo de efectos aleatorios
Para determinar el contenido en DNA de los hepatocitos de rata hemos tomado al azar
cinco ratas. De cada hgado realizamos tres preparaciones y evaluamos con las tecnicas
adecuadas la cantidad de DNA por celula.
Un modelo apropiado para estos datos sera tambien el de un factor
y
ij
= +A
i
+
ij
i = 1, 2, . . . , 5; j = 1, 2, 3
pero la diferencia respecto al anterior estriba en que A
i
no es un par ametro jo sino el
efecto aleatorio de la rata i que procede de una poblaci on de ratas en la cual se supone
que la variable (cantidad DNA / celula hep atica) sigue una distribuci on N(,
y
). La
distribuci on de los A
i
es N(0,
A
) que se supone independiente de los errores
ij
con
distribuci on N(0, ).
La hip otesis de interes en este caso es
H
0
:
2
A
= 0
lo que equivale a armar que no hay variabilidad entre las distintas ratas de la poblaci on
respecto la variable estudiada.
Un modelo mixto
Para un estudio sobre la ecologa de un lago se han elegido al azar cuatro tardes de verano
y se ha medido la variable temperatura a diferentes profundidades (0,1,2,3,4 y 5 metros).
Nuestro objetivo es examinar mediante los datos obtenidos si hay diferencias signicativas
entre profundidades y das.
El modelo adecuado en este caso es el de dos factores sin interacci on
y
ij
= +
i
+B
j
+
ij
i = 1, 2, . . . , 6; j = 1, 2, 3, 4
y
ij
es la temperatura a la profundidad i en el da j
es la media general
i
es un par ametro jo y representa el efecto de la profundidad i
B
j
es el efecto aleatorio del da j y sigue una distribuci on N(0,
B
)
ij
es el error aleatorio con distribuci on N(0, )
La hip otesis de que la temperatura no vara con la profundidad es
H
0
:
1
= =
6
= 0
mientras que la hip otesis de que existe homogeneidad entre los diferentes das del verano
es
H
0
:
2
B
= 0
221
11.2. Contraste de hip otesis
El tratamiento mediante An alisis de la Varianza de dise nos con efectos aleatorios es, en
general, muy similar al caso de efectos jos en dise nos balanceados, existiendo diferencias
solamente cuando existen interacciones. En dise nos no balanceados el an alisis es mucho
m as complejo.
11.2.1. Los test F
Para realizar los contrastes principales utilizaremos los test F adaptados a cada situaci on
y que justicaremos en la secci on 11.3. La tabla 11.1 muestra los cuadrados medios
esperados y el cociente a efectuar para obtener la F en dise nos de uno y dos factores con
efectos jos, aleatorios o mixtos. Por ejemplo, en el dise no de dos factores sin interacci on
se verica
E[SCR
B
/(b 1)] = E(CM
B
) =
2
+
a
b 1
2
j
si los efectos son jos y
E(CM
B
) =
2
+a
2
B
si los efectos son aleatorios. Observemos que para este dise no y el de un factor, los cocientes
F son iguales tanto si se trata de efectos aleatorios como de efectos jos.
Sin embargo, en el dise no de dos factores con interacci on, los cocientes F dieren seg un
el modelo sea de efectos jos, aleatorios o mixto:
a) El modelo de efectos jos ya ha sido ampliamente tratado en la secci on 10.4.
b) Si los dos factores son aleatorios, los cocientes F que deben calcularse para las
distintas hip otesis son
H
0
:
2
A
= 0 F =
SCR
A
/(a 1)
SCR
I
/[(a 1)(b 1)]
H
0
:
2
B
= 0 F =
SCR
B
/(b 1)
SCR
I
/[(a 1)(b 1)]
H
0
:
2
AB
= 0 F =
SCR
I
/[(a 1)(b 1)]
SCR/[ab(r 1)]
En los dos primeros casos es necesario dividir por la interacci on para hallar la F.
En efecto, si H
0
es cierta
2
A
= 0 y entonces SCR
A
/(
2
+r
2
AB
) y SCR
I
/(
2
+r
2
AB
)
siguen distribuciones ji-cuadrado independientes con a 1 y (a 1)(b 1) grados
de libertad respectivamente. Luego
F =
CM
A
CM
I
sigue la distribuci on F con a 1 y (a 1)(b 1) grados de libertad. Observemos
que el termino desconocido
2
+r
2
AB
desaparece. Podemos realizar consideraciones
an alogas para H
0
y H
0
.
222
EFECTOS FIJOS EFECTOS ALEATORIOS MIXTOS
(A jo,B aleatorio)
suma de cuadrados medios cuadrados medios cuadrados medios
cuadrados esperados F esperados F esperados F
SCR
A

2
+
1
k1
n
i
2
i
CM
A
/CM
R

2
+n
0
2
A
CM
A
/CM
R
un factor (n
0
= n
1
= . . . = n
k
)
SCR
2
2
SCR
A

2
+
b
a1
2
i
CM
A
/CM
R

2
+b
2
A
CM
A
/CM
R

2
+
b
a1
2
i
CM
A
/CM
R
dos factores SCR
B

2
+
a
b1
2
j
CM
B
/CM
R

2
+b
2
B
CM
B
/CM
R

2
+a
2
B
CM
B
/CM
R
SCR
2
2
SCR
A

2
+
br
a1
2
i
CM
A
/CM
R

2
+r
2
AB
+br
2
A
CM
A
/CM
I

2
+r
2
AB
+
br
2
i
a1
CM
A
/CM
I
dos factores SCR
B

2
+
ar
b1
2
j
CM
B
/CM
R

2
+r
2
AB
+ar
2
B
CM
B
/CM
I

2
+ar
2
B
CM
B
/CM
R
con interaccion SCR
I

2
+
r
2
ij
(a1)(b1)
CM
I
/CM
R

2
+r
2
AB
CM
I
/CM
R

2
+r
2
AB
CM
I
/CM
R
SCR
2
2
C
u
a
d
r
o
1
1
.
1
:
T
a
b
l
a
d
e
l
o
s
c
u
a
d
r
a
d
o
s
m
e
d
i
o
s
e
s
p
e
r
a
d
o
s
y
e
l
c
o
c
i
e
n
t
e
a
e
f
e
c
t
u
a
r
p
a
r
a
o
b
t
e
n
e
r
l
a
F
e
n
d
i
s
e
n
o
s
d
e
u
n
o
y
d
o
s
f
a
c
t
o
r
e
s
c
o
n
e
f
e
c
t
o
s
j
o
s
,
a
l
e
a
t
o
r
i
o
s
o
m
i
x
t
o
s
2
2
3
c) Si A es jo y B es aleatorio, los cocientes F a efectuar son
H
0
:
1
= =
a
= 0 F =
SCR
A
/(a 1)
SCR
I
/[(a 1)(b 1)]
H
0
:
2
B
= 0 F =
SCR
B
/(b 1)
SCR/[ab(r 1)]
H
0
:
2
AB
= 0 F =
SCR
I
/[(a 1)(b 1)]
SCR/[ab(r 1)]
En este caso solamente el efecto principal de A debe ser dividido por la interacci on.
En efecto, si H
0
es cierta
i
= 0 i = 1, . . . , a y entonces SCR
A
/(
2
+ r
2
AB
) y
SCR
I
/(
2
+ r
2
AB
) siguen distribuciones ji-cuadrado independientes. Al realizar el
cociente para obtener la F desaparece el termino
2
+r
2
AB
.
En cambio, para
2
B
= 0 (H
0
cierta), tenemos que
SCR
B
/
2
SCR
I
/(
2
+
2
AB
) SCR/
2
siguen distribuciones ji-cuadrado independientes entre s con b 1, (a 1)(b 1)
y ab(r 1) g.l. respectivamente. Luego es necesario para obtener la F realizar el
cociente entre CM
B
/
2
y CM
R
/
2
de modo que el termino desconocido
2
desapa-
rezca. Observemos que dividiendo por la interacci on los terminos
2
y
2
+
2
AB
no
se anulan, imposibilitando el c alculo de la F.
Ejemplo 11.2.1
Se desea estudiar y comparar la acci on de tres f armacos tranquilizantes A, B C en la con-
ducci on de autom oviles. La variable que sirvi o de referencia fue el tiempo que un individuo
tarda en iniciar la frenada ante la puesta repentina en rojo de un sem aforo. Se eligieron
8 hombres al azar y se someti o a cada hombre a los 3 tratamientos, en perodos sucesivos
y secuencias al azar, mediante el procedimiento del doble ciego (ni el medico ni el pacien-
te saben cual es el f armaco suministrado en un determinado momento). Los resultados
fueron, en milesimas de segundo (cada dato es el promedio de varias observaciones):
1 2 3 4 5 6 7 8
A 548 619 641 846 517 876 602 628
Tratamiento B 519 776 678 858 493 741 719 595
C 637 818 701 855 618 849 731 687
Como hay tres tratamientos jos y ocho individuos elegidos al azar de la poblaci on, nos
encontramos ante un dise no mixto, donde el efecto individuo (efecto bloque) es aleatorio.
Las hip otesis a contemplar son
H
0
:
1
=
2
=
3
(no hay efecto tratamiento)
H
0
:
2
B
= 0 (no hay homogeneidad entre individuos)
donde
2
B
es la varianza del efecto individuo. La tabla del An alisis de la Varianza es
Entre tratam. 27535,6 2 13767,79 5,15
Entre individuos 258040,7 7 36862,95 13,78
Residuo 37451,1 14 2675,08
Total 323027,4 23
224
Para 2 y 14 g.l. F = 5,15 es signicativa al nivel 0,025, aceptamos pues que hay diferencias
entre f armacos. Para 7 y 14 g.l. F = 13,78 es signicativa al nivel 0,005, aceptamos que
hay variabilidad entre individuos.
11.2.2. Estimaci on de los componentes de la varianza
Una estimaci on aproximada de las varianzas
2
,
2
A
,
2
B
,
2
AB
se puede obtener igualan-
do los cuadrados medios con los cuadrados medios esperados y resolviendo el sistema
resultante. Por ejemplo, en el dise no de un factor tenemos

2
+n
0

2
A
= CM
A

2
= CM
R
y para el dise no de dos factores con interacci on

2
+r
2
AB
+br
2
A
= CM
A

2
+r
2
AB
+ar
2
B
= CM
B

2
+r
2
AB
= CM
I

2
= CM
R
Puede ocurrir que la estimaci on puntual de un componente de la varianza resulte negativa.
En este caso aceptaremos que su valor es cero dado que la varianza es un par ametro
estrictamente positivo.
Ejemplo 11.2.2
Para estimar la variabilidad entre individuos del ejemplo anterior, igualaremos los cua-
drados medios a sus valores esperados
36862,95 =
2
+ 3
2
B
2675,08 =
2
de donde

2
B
= (36862,95 2675,08)/3 = 11395,96
El tiempo de frenado entre los individuos vara con una desviaci on tpica estimada
B
=
106,75 milesimas de segundo.
11.3. Comparaci on entre modelos de efectos jos y
modelos de efectos aleatorios
En esta secci on vamos a probar los principales resultados te oricos que desembocan en
los test F prescritos en cada caso para modelos sencillos, tanto de efectos jos como de
efectos aleatorios . A los modelos de efectos jos los denominaremos tambien modelos de
tipo I y a los de efectos aleatorios modelos de tipo II.
225
11.3.1. Dise no de un factor con efectos jos
Tal como se ha visto en la secci on 10.2, el modelo lineal que se adapta a este dise no es
y
ij
=
i
+
ij
o, reparametrizado,
y
ij
= +
i
+
ij
i = 1, . . . , k; j = 1, . . . , n
i
con la restricci on
k
i=1
i
= 0. Las y
ij
son independientes y normales N(
i
, ). Las
ij
son independientes y normales N(0, ).
La descomposici on de la variabilidad viene dada por
i,j
(y
ij
y)
2
=
i,j
(y
i
y)
2
+
i,j
(y
ij
y
i
)
2
es decir
SC
T
= SC
e
+ SC
d
o tambien
SCR
H
= (SCR
H
SCR) + SCR
con n 1, k 1 y n k grados de libertad respectivamente, siendo n
1
+ +n
k
= n.
Teorema 11.3.1
El valor esperado de la suma de cuadrados entre grupos es
E(SC
e
) = (k 1)
2
+
k
i=1
n
i
2
i
luego
E(CM
e
) = E
_
SC
e
k 1
_
=
2
+
1
k 1
k
i=1
n
i
2
i
Demostraci on:
Por denici on SC
e
=
k
i=1
n
i
(y
i
y)
2
.
Del modelo y
ij
= +
i
+
ij
se obtiene
y
i
= +
i
+
i
y = +
ya que
k
i=1
i
= 0 y en consecuencia
= (1/k)
k
i=1
i
= 0.
Entonces
SC
e
=
k
i=1
n
i
(
i
+
i
)
2
=
k
i=1
n
i
2
i
+
k
i=1
n
i
2
i
+n
2
+ 2
k
i=1
n
i
i
2
i=1
n
i
i
2
i=1
n
i
i
226
pero
i=1
n
i
i
=
i=1
n
i
_
1
n
i
n
i
j=1
ij
_
=
i,j
ij
= n
2
luego
E(SC
e
) =
k
i=1
n
i
2
i
+
k
i=1
n
i
E(
2
i
) +nE(
2
)
+ 2
k
i=1
n
i
i
E(
i
) 2
_
k
i=1
n
i
i
_
E(
)
2nE(
2
)
Recordando que las v.a.
ij
son independientes y normales N(0, ) se verica
i
N(0, /
n
i
)
N(0, /
n)
Por ser centradas, la esperanza de su cuadrado coincide con la varianza, es decir
E(
2
i
) = var(
i
) =

2
n
i
E(
2
) = var(
) =

2
n
y por tanto
E(SC
e
) =
k
i=1
n
i
2
i
+
k
i=1
n
i
2
n
i
+n
2
n
2n
2
n
=
k
i=1
n
i
2
i
+k
2
+
2
2
2
= (k 1)
2
+
k
i=1
n
i
2
i
Teorema 11.3.2
El valor esperado de la suma de cuadrados dentro de los grupos es
E(SC
d
) = (n k)
2
y por lo tanto
E(CM
d
) = E
_
SC
d
n k
_
=
2
Demostraci on:
Teniendo en cuenta que SC
d
= SCR, este resultado es evidente y ya se prob o en el teorema
2.5.1 para un modelo lineal general. Tambien se puede demostrar siguiendo un proceso
parecido al del teorema anterior.
227
Caso particular
Si el dise no es balanceado, es decir, igual n umero de replicas por condici on experimental
(n
1
= = n
k
= n
0
), entonces de los teoremas 11.3.1 y 11.3.2 se deducen las f ormulas
E(CM
e
) =
2
+
n
0
k 1
k
i=1
2
i
E(CM
d
) = E
_
SC
d
k(n
0
1)
_
=
2
Inferencia en el modelo de un factor con efectos jos
H
0
:
1
=
2
= =
k
=
o, utilizando el modelo alternativo,
H
0
:
1
=
2
= =
k
= 0
Por el teorema 11.3.1, CM
e
2
si H
0
es cierta. Por el teorema
11.3.2 es siempre un estimador insesgado de
2
, sea H
0
cierta o no. Adem as, suponiendo
que
ij
N(0, ), se verica el teorema 5.3.1 de la teora general del modelo lineal normal
(Teorema fundamental del An alisis de la Varianza) como hemos visto en 10.3:
a) SC
d
/
2

2
nk
b) Si H
0
es cierta, entonces CM
e
= SC
e
/(k 1) es otra estimaci on insesgada de
2
y
adem as
SC
e
/
2

2
k1
c) Si H
0
F =
SC
e
/[
2
(k 1)]
SC
d
/[
2
(n k)]
=
CM
e
CM
d
sigue la distribuci on F con k 1 y n k grados de libertad. La hip otesis H
0
se
rechaza si el estadstico es signicativo.
11.3.2. Dise no de un factor con efectos aleatorios
y
ij
= +A
i
+
ij
i = 1, . . . , k; j = 1, . . . , n
i
con las siguientes particularidades
1) E(A
i
) = 0, var(A
i
) =
2
A
i = 1, . . . , k
2) E(A
i
A
i
) = 0 i ,= i
3) E(A
i

ij
) = 0 i, j
228
es decir, A
i
son variables aleatorias de media cero y varianza
2
A
, independientes entre
s y de los errores
ij
. Luego
var(y
ij
) = var(A
i
) + var(
ij
)
2
y
=
2
A
+
2
y por este motivo es apropiado denominar componentes de la varianza a
2
A
y
2
.
Para su tratamiento cl asico mediante An alisis de la Varianza de un factor es necesario
adem as que
4) A
i
N(0,
A
),
ij
N(0, ) y por lo tanto y
ij
N(,
y
)
5) el dise no sea balanceado n
1
= n
2
= = n
k
= n
0
Este modelo de efectos aleatorios que hemos formulado y en general cualquier modelo
de efectos aleatorios, diere de un modelo de efectos jos en que bajo las asunciones
realizadas
a) Para un i dado, todas las observaciones tienen igual esperanza
E(y
ij
) = +A
i
j
b) Para un i dado, las observaciones no son estoc asticamente independientes entre s.
c) La variable
k
i=1
A
i
es aleatoria y puede tomar un valor distinto de cero.
Teorema 11.3.3
Para el dise no de un factor con efectos aleatorios el valor esperado de la suma de cuadrados
entre grupos es
E(SC
e
) = (k 1)
2
+n
0
(k 1)
2
A
luego
E(CM
e
) = E
_
SC
e
k 1
_
=
2
+n
0
2
A
Demostraci on:
Por denici on SC
e
= n
0
k
i=1
(y
i
y)
2
.
Del modelo se obtiene
y
i
= +A
i
+
i
y = +A
de donde
SC
e
= n
0
k
i=1
[(A
i
A
) + (
i
)]
2
= n
0
_
k
i=1
A
2
i
+
k
i=1
A
2
2A
i=1
A
i
+
k
i=1
2
i
+k
2
i=1
i
+ 2
k
i=1
(A
i
A
)(
i
)
_
229
pero
k
i=1
i
=
k
i=1
1
n
0
n
0
j=1
ij
=
1
n
0
k
i=1
n
0
j=1
ij
=
1
n
0
kn
0
= k
ya que
=
1
kn
0
k
i=1
n
0
j=1
ij
Entonces
SC
e
= n
0
_
k
i=1
A
2
i
+kA
2
+
k
i=1
2
i
k
2
+ 2
k
i=1
(A
i
A
)(
i
)
_
E(SC
e
) = n
0
k
i=1
E(A
2
i
) n
0
kE(A
2
) +n
0
k
i=1
E(
2
i
)
n
0
kE(
2
) + 2n
0
k
i=1
E[(A
i
A
)(
i
)]
Por las hip otesis del modelo se verica
A
N(0,
A
/
k)
i
N(0, /
n
0
)
N(0, /
_
kn
0
)
Debido a que las variables aleatorias A
i
, A
,
i
,
son centradas, la esperanza de su

cuadrado coincide con su varianza, es decir,
E(A
2
i
) = var(A
i
) =
2
A
E(A
2
) = var(A
) =
2
A
/k
E(
2
i
) = var(
i
) =
2
/n
0
E(
2
) = var(
) =
2
/(kn
0
)
Adem as, al ser independientes las variables A
i
con las
ij
E[(A
i
A
)(
i
)] = E(A
i
A
) E(
i
) = 0 0 = 0
Por lo tanto
E(SC
e
) = n
0
k
2
A
n
0
k
2
A
k
+n
0
k
2
n
0
n
0
k

2
kn
0
= n
0
k
2
A
n
0
2
A
+k
2
2
= (k 1)
2
+n
0
(k 1)
2
A
Teorema 11.3.4
El valor esperado de la suma de cuadrados dentro de los grupos es
E(SC
d
) = k(n
0
1)
es decir
E(CM
d
) = E
_
SC
d
k(n
0
1)
_
=
2
230
Demostraci on:
Por denici on SC
e
=
k
i=1
n
0
j=1
(y
ij
y
i
)
2
.
Del modelo se obtiene
y
i
= +A
i
+
i
Entonces
SC
d
=
k
i=1
n
0
j=1
(
ij
i
)
2
=
k
i=1
n
0
j=1
2
ij
+
k
i=1
n
0
j=1
2
i
2
k
i=1
n
0
j=1
ij
=
k
i=1
n
0
j=1
2
ij
+n
0
k
i=1
2
i
2
k
i=1
i
n
0
j=1
ij
=
k
i=1
n
0
j=1
2
ij
+n
0
k
i=1
2
i
2
k
i=1
i
n
0
i
=
k
i=1
n
0
j=1
2
ij
n
0
k
i=1
2
i
de manera que
E(SC
d
) =
k
i=1
n
0
j=1
E(
2
ij
) n
0
k
i=1
E(
2
i
)
= kn
0
2
n
0
k
2
n
0
= kn
0
2
k
2
= k(n
0
1)
2
Inferencia en el modelo de un factor con efectos aleatorios

La hip otesis de interes en este modelo es
H
0
:
2
A
= 0
Recordemos que
SC
A
= n
0
k
i=1
(y
i
y)
2
= n
0
k
i=1
(A
i
+
i
A
)
2
SCR =
i,j
(y
ij
y
i
)
2
=
i,j
(
ij
i
)
2
siendo SC
A
la suma de cuadrados entre grupos o suma de cuadrados del factor y SCR
la suma de cuadrados dentro de los grupos o suma de cuadrados residual, representadas
hasta ahora por SC
e
y SC
d
respectivamente. Recuerdese tambien que A
es una variable
aleatoria y en consecuencia susceptible de tomar un valor distinto de cero.
231
Realizando el cambio g
i
= A
i
+
i
obtenemos k v.a. independientes con distribuci on
normal de media cero y varianza
var(g
i
) = var(A
i
) + var(
i
) =
2
A
+

2
n
0
Por el teorema de Fisher, la variable aleatoria
ks
2
g
/
2
g
se distribuye seg un una ji-cuadrado con k 1 g.l., es decir,
k
i=1
(g
i
g)
2
2
A
+

2
n
0
=
n
0
k
i=1
(g
i
g)
2
n
0
2
A
+
2
=
SC
A
n
0
2
A
+
2

2
k
Entonces
SC
A
= (n
0
2
A
+
2
)
2
k1
E(CM
A
) = E
_
SC
A
k 1
_
= n
0
2
A
+
2
A este resultado habamos llegado tambien anteriormente por el teorema 11.3.3.
Por otra parte, SCR est a distribuida de identica forma que en los modelos de efectos jos.
Los
ij
desempe nan el papel de las observaciones, con media cero y varianza
2
. Luego
SCR =
2

2
k(n
0
1)
E(CM
R
) = E
_
SCR
k(n
0
1)
_
=
2
Para efectuar comparaciones falta demostrar que SC
A
y SCR son independientes. Para
ello, basta probar la independencia entre A
i
+
i
A
y
ij
i
. Tenemos que A
i
A
y
ij
i
son obviamente independientes. Si expresamos
ij
=
+ (
i
) + (
ij
i
),
utilizando otra vez la analoga con los modelos de efectos jos,
i
pertenece al espacio
de las estimaciones y
ij
i
pertenece al espacio error, espacios que son ortogonales entre
s. Debido a la normalidad del modelo, sus vectores son independientes, luego SC
A
y SCR
son independientes. Entonces, si H
0
F =
SC
A
/[
2
(k 1)]
SCR/[
2
k(n
0
1)]
=
SC
A
/(k 1)
SCR/[k(n
0
1)]
=
CM
A
CM
R
sigue la distribuci on F con k1 y k(n
0
1) g.l.. La hip otesis H
0
se rechaza si el estadstico
es signicativo.
Como resumen de lo expuesto en los apartados anteriores vease el cuadro 11.2. Observese
que, si bien la hip otesis a contrastar del modelo I es formalmente distinta de la hip otesis
del modelo II, se utiliza el mismo estadstico de contraste
F =
CM
A
CM
R
F
k1,k(n
0
1)
Una estimaci on de los componentes de la varianza es

2
= CM
R

2
A
=
CM
A
CM
R
n
0
soluci on obtenida resolviendo el sistema resultante de igualar los cuadrados medios con
los cuadrados medios esperados (ver secci on 11.2.2). Observese que los estimadores
2
y

2
A
son siempre estimadores insesgados de los par ametros
2
y
2
A
respectivamente.
232
Esperanza del cuadrado medio
Fuente de cuadrados
variaci on g.l. medios Modelo I Modelo II
Tratamientos k 1 CM
A
= SC
A
/(k 1)
2
+
n
0
2
i
k 1

2
+n
0
2
A
Error k(n
0
1) CM
R
= SCR/[k(n
0
1)]
2
2
Total n
0
k 1
Cuadro 11.2: Tabla comparativa para dise nos de un factor con efectos jos y efectos
aleatorios
11.3.3. Dise no de dos factores sin interacci on con efectos jos o
dise no en bloques al azar completos
Este dise no recibe tambien el nombre de bloques aleatorizados. Un desarrollo tpico para
este dise no, utilizando tres tratamientos en cuatro bloques, es el siguiente
Bloque 1 Bloque 2 Bloque 3 Bloque 4
t
3
t
1
t
2
t
2
t
1
t
3
t
1
t
2
t
3
t
1
t
3
t
2
Las letras t indican la asignaci on aleatoria de los tratamientos en los bloques. Como
ejemplo vease el ejemplo 10.3.1.
Generalizando, consideremos el caso de a tratamientos en b bloques. La observaci on y
ij
indica la respuesta del i-esimo tratamiento aplicado al j-esimo bloque. Se supondr a que
y
ij
(i = 1, . . . , a; j = 1, . . . , b) son valores de v.a. independientes con distribuci on normal
de media
ij
y varianza com un
2
. Ser an de utilidad tambien
y
i
= media del i-esimo tratamiento
y
j
= media del j-esimo bloque
y
= media general
El promedio de las medias poblacionales para el i-esimo tratamiento est a denido por
i
=
1
b
b
j=1
ij
Asimismo, el promedio de las medias poblacionales para el j-esimo bloque est a denido
por
j
=
1
a
a
i=1
ij
233
y el promedio de las ab medias poblacionales es
=
1
ab
a
i=1
b
j=1
ij
Si representamos por A al factor tratamiento y por B al factor bloque, las hip otesis
lineales de interes son
H
A
0
:
1
=
2
= =
a
=
H
B
0
:
1
=
2
= =
b
=
Si se cumple la primera hip otesis, el factor A no es signicativo o, equivalentemente, no
existen diferencias signicativas entre los tratamientos. Tambien se dice que no hay efecto
la. En el caso de que se cumpla la segunda hip otesis, el factor B no es signicativo, es
decir, no existen diferencias signicativas entre los bloques; no hay efecto columna.
Cada observaci on puede descomponerse en
y
ij
=
ij
+
ij
donde
ij
mide la desviaci on del valor observado y
ij
frente la media poblacional
ij
. La
forma m as com un de expresar esta ecuaci on se obtiene al sustituir
ij
= +
i
+
j
donde
i
es el efecto del i-esimo tratamiento y
j
el efecto del j-esimo bloque. Se supone
que los efectos del tratamiento y del bloque son aditivos. As, el modelo es
y
ij
= +
i
+
j
+
ij
Observese que se asemeja al modelo de un criterio de clasicaci on, pero con la adici on
del efecto bloque. Ahora la variaci on se controla sistem aticamente en dos direcciones.
Si se imponen las restricciones naturales
a
i=1
i
= 0
b
j=1
j
= 0
entonces
i
=
1
b
b
j=1
( +
i
+
j
) = +
i
j
=
1
a
a
i=1
( +
i
+
j
) = +
j
Las hip otesis pueden ahora plantearse del siguiente modo
H
A
0
:
1
=
2
= =
a
= 0
H
B
0
:
1
=
2
= =
b
= 0
234
En la secci on 10.3 se vio que la descomposici on fundamental de la suma de cuadrados
(descomposici on de la variabilidad) viene dada por
i,j
(y
ij
y)
2
= b
i
(y
i
y)
2
+a
j
(y
j
y)
2
+
i,j
(y
ij
y
i
y
j
+ y)
2
es decir
SC
T
= SC
F
+ SC
C
+ SCR
donde SC
T
F
la suma de cuadrados entre las, SC
C
la
suma de cuadrados entre columnas y SCR la suma de cuadrados residual.
Teorema 11.3.5
El valor esperado de la suma de cuadrados entre las es
E(SC
F
) = (a 1)
2
+b
a
i=1
2
i
luego
E(CM
F
) = E(SC
F
/(a 1)) =
2
+
b
a 1
a
i=1
2
i
Demostraci on:
Es an aloga a la del teorema 11.3.1.
Teorema 11.3.6
El valor esperado de la suma de cuadrados entre columnas es
E(SC
C
) = (b 1)
2
+a
b
j=1
2
j
luego
E(CM
C
) = E(SC
C
/(b 1)) =
2
+
a
b 1
b
j=1
2
j
Demostraci on:
Teorema 11.3.7
El valor esperado de la suma de cuadrados residual es
E(SCR) = (a 1)(b 1)
2
luego
E(CM
R
) = E(SCR/[(a 1)(b 1)]) =
2
Demostraci on:
235
Inferencia en el dise no de dos factores sin interacci on con efectos jos
Una de las hip otesis a contrastar es
H
A
0
:
1
=
2
= =
a
= 0
Por el teorema 11.3.5, CM
F
2
si H
A
0
es cierta. Por el
teorema 11.3.7, SCR es siempre un estimador insesgado de
2
, tanto si H
A
0
es cierta como
si no lo es. Adem as, suponiendo que
ij
N(0, ), se verica el teorema 5.3.1 de la teora
general del modelo lineal formal:
a) SCR/
2

2
(a1)(b1)
b) Si H
A
0
es cierta, entonces CM
F
= SC
F
/(a 1) es otra estimaci on insesgada de
2
y
adem as
SC
F
/
2

2
a1
c) Si H
A
0
F =
SC
F
/[
2
(a 1)]
SCR/[
2
(a 1)(b 1)]
=
CM
F
CM
R
sigue la distribuci on F con a 1 y (a 1)(b 1) g.l.. La hip otesis H
A
0
se rechaza
si el estadstico es signicativo.
Otra hip otesis a contrastar es
H
B
0
:
1
=
2
= =
b
= 0
An alogamente al caso anterior, el estadstico
F =
SC
C
/[
2
(b 1)]
SCR/[
2
(a 1)(b 1)]
=
CM
C
CM
R
sigue la distribuci on F con b 1 y (a 1)(b 1) g.l.. La hip otesis H
B
0
se rechaza si el
estadstico es signicativo.
11.3.4. Dise no de dos factores sin interacci on con efectos alea-
torios
y
ij
= +A
i
+B
j
+
ij
i = 1, . . . , a; j = 1, . . . , b
siendo A
i
, B
j
,
ij
variables aleatorias normales independientes con media cero y varianzas
2
A
,
2
B
,
2
respectivamente. La descomposici on fundamental de la suma de cuadrados
(descomposici on de la variabilidad) viene dada por
i,j
(y
ij
y)
2
= b
i
(y
i
y)
2
+a
j
(y
j
y)
2
+
i,j
(y
ij
y
i
y
j
+ y)
2
es decir
SC
T
= SC
F
+ SC
C
+ SCR
236
Teorema 11.3.8
El valor esperado de la suma de cuadrados entre las es
E(SC
F
) = (a 1)
2
+b(a 1)
2
A
luego
E(CM
F
) = E(SC
F
/(a 1)) =
2
+b
2
A
Demostraci on:
Teorema 11.3.9
El valor esperado de la suma de cuadrados entre columnas es
E(SC
C
) = (b 1)
2
+a(b 1)
2
B
luego
E(CM
C
) = E(SC
C
/(b 1)) =
2
+a
2
B
Demostraci on:
Teorema 11.3.10
El valor esperado de la suma de cuadrados residual es
E(SCR) = (a 1)(b 1)
2
luego
E(CM
R
) = E(SCR/[(a 1)(b 1)]) =
2
Demostraci on:
Inferencia en el dise no de dos factores sin interacci on con efectos aleatorios
Las hip otesis de interes en este modelo son
H
0
:
2
A
= 0 H
0
:
2
B
= 0
Para contrastar la primera se utiliza el estadstico
F =
SC
F
/[
2
(a 1)]
SCR/[
2
(a 1)(b 1)]
=
CM
F
CM
R
que sigue bajo H
0
la distribuci on F con a 1 y (a 1)(b 1) g.l.. La hip otesis H
0
se
De manera an aloga, para contrastar la segunda hip otesis se utiliza el estadstico
F =
SC
C
/[
2
(b 1)]
SCR/[
2
(a 1)(b 1)]
=
CM
C
CM
R
237
Fuente de cuadrados
Entre las a 1 CM
F
= SC
F
/(a 1)
2
+
b
a 1
2
i

2
+b
2
A
Entre col. b 1 CM
C
= SC
C
/(b 1)
2
+
a
b 1
2
j

2
+a
2
B
Error (a 1)(b 1) CM
R
=
SCR
(a 1)(b 1)

2
2
Total ab 1
Cuadro 11.3: Tabla comparativa para dise nos de dos factores con efectos aleatorios y sin
interacci on
que sigue bajo H
0
la distribuci on F con b 1 y (a 1)(b 1) g.l.. La hip otesis H
0
se
A modo de resumen de lo expuesto en los apartados anteriores, vease el cuadro 11.3.
Las estimaciones insesgadas de las componentes de la varianza se obtienen igualando los
cuadrados medios a los cuadrados medios esperados y resolviendo el sistema de ecuaciones
resultante (ver secci on 11.2.2). Las soluciones en este caso son

2
= CM
R

2
A
= (CM
F
CM
R
)/b
2
B
= (CM
C
CM
R
)/a
veric andose
E(
2
) =
2
E(
2
A
) =
2
A
E(
2
B
) =
2
B
11.3.5. Dise no de dos factores aleatorios con interacci on
y
ijk
= +A
i
+B
j
+ (AB)
ij
+
ijk
i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , r
siendo A
i
, B
j
, (AB)
ij
y
ijk
variables aleatorias normales independientes con media cero
y varianza
2
A
,
2
B
,
2
AB
y
2
respectivamente.
En el cuadro 11.4 guran las esperanzas de los cuadrados medios tanto para el modelo I
como para el modelo II, indicando por modelo I cuando los dos factores son jos y por
modelo II cuando los dos factores son aleatorios. La demostraci on de las f ormulas de estas
esperanzas se hace de forma an aloga a la de los teoremas 11.3.5, 11.3.6 y 11.3.7 para el
modelo I, y 11.3.8, 11.3.9 y 11.3.10 para el modelo II.
Las hip otesis a contrastar en el modelo II son
H
A
0
:
2
A
= 0 H
B
0
:
2
B
= 0 H
AB
0
:
2
AB
= 0
238
Para contrastar la primera se utiliza el estadstico
F =
SC
A
/[(a 1)(
2
+r
2
AB
)]
SC
AB
/[(a 1)(b 1)(
2
+r
2
AB
)]
=
SC
A
/(a 1)
SC
AB
/(a 1)(b 1)
=
CM
A
CM
AB
que sigue bajo H
A
0
la distribuci on F con a 1 y (a 1)(b 1) g.l.. La hip otesis H
A
0
se
De manera an aloga para contrastar la segunda hip otesis se utiliza el estadstico
F =
SC
B
/[(b 1)(
2
+r
2
AB
)]
SC
AB
/[(a 1)(b 1)(
2
+r
2
AB
)]
=
SC
B
/(b 1)
SC
AB
/(a 1)(b 1)
=
CM
B
CM
AB
que sigue bajo H
B
0
la distribuci on F con b 1 y (a 1)(b 1) g.l..
En el contraste de las dos hip otesis anteriores se divide por el cuadrado medio de la
interacci on; en cambio, para contrastar la tercera hip otesis se divide por el cuadrado
medio del error, es decir, se utiliza el estadstico
F =
SC
AB
/[(a 1)(b 1)
2
]
SCR/[ab(r 1)
2
]
=
SC
AB
/[(a 1)(b 1)]
SCR/[ab(r 1)]
=
CM
AB
CM
R
que sigue bajo H
AB
0
la distribuci on F con (a1)(b 1) y ab(r 1) g.l.. La hip otesis H
AB
0
se rechaza si el estadstico es signicativo.
Las estimaciones insesgadas de las componentes de la varianza (ver secci on 11.2.2) son

2
= CM
R
E(
2
) =
2

2
A
= (CM
A
CM
AB
)/(br) E(
2
A
) =
2
A

2
B
= (CM
B
CM
AB
)/(ar) E(
2
B
) =
2
B

2
AB
= (CM
AB
CM
R
)/r E(
2
AB
) =
2
AB
11.3.6. Dise no de tres factores aleatorios y replicas
La esperanza de los cuadrados medios se muestra en el cuadro 11.5. De tales esperanzas se
deduce que se pueden formar las razones F apropiadas para contrastar las hip otesis rela-
tivas a los componentes de la varianza de las interacciones. Sin embargo, para contrastar
las hip otesis relativas a los efectos principales, es decir,
H
A
0
:
2
A
= 0 H
B
0
:
2
B
= 0 H
C
0
:
2
C
= 0
no hay una raz on F apropiada a menos que uno o m as de los componentes de la varianza
de la interacci on de dos factores no sean signicativos. Por ejemplo, supongamos que se
ha comprobado previamente la hip otesis H
0
:
2
AC
= 0 y ha resultado no signicativa.
Se puede armar entonces que el termino
2
AC
puede excluirse de todas las esperanzas
de los cuadrados medios en las que intervenga. Si deseamos ahora contrastar la hip otesis
H
A
0
:
2
A
= 0 es posible utilizar el estadstico F = CM
A
/CM
AB
.
En denitiva, si se desea contrastar las hip otesis relativas a los efectos principales, ha-
br a que estudiar primero la signicaci on de los componentes de la varianza relativos a las
interacciones.
239
Fuente de cuadrados
Entre las a 1 CM
A
=
SC
A
a1

2
+
rb
a1
2
i

2
+r
2
AB
+br
2
A
Entre col. b 1 CM
B
=
SC
B
b1

2
+
ra
b1
2
j

2
+r
2
AB
+ar
2
B
Interac. g
CM
AB
=
SC
AB
g

2
+
r
g
ij

2
+r
2
AB
Residuo ab(r 1) CM
R
=
SCR
ab(r1)

2
2
Total abr 1 g = (a 1)(b 1)
Cuadro 11.4: Tabla comparativa para dise nos de dos factores con efectos aleatorios y con
interacci on
Fuente de cuadrados Esperanza del cuadrado medio
variaci on g.l. medios Modelo II
A a 1 CM
A

2
+r
2
ABC
+cr
2
AB
+br
2
AC
+bcr
2
A
B b 1 CM
B

2
+r
2
ABC
+cr
2
AB
+ar
2
BC
+acr
2
B
C c 1 CM
C

2
+r
2
ABC
+br
2
AC
+ar
2
BC
+abr
2
C
AB (a 1)(b 1) CM
AB

2
+r
2
ABC
+cr
2
AB
AC (a 1)(c 1) CM
AC

2
+r
2
ABC
+br
2
AC
BC (b 1)(c 1) CM
BC

2
+r
2
ABC
+ar
2
BC
ABC (a 1)(b 1)(c 1) CM
ABC

2
+r
2
ABC
Residuo abc(r 1) CM
R

2
Total abcr 1
Cuadro 11.5: Tabla para dise nos de tres factores con efectos aleatorios
11.3.7. Dise no anidado de dos factores aleatorios
En muchas situaciones experimentales los niveles o elementos observados de un factor
aleatorio no pueden ser los mismos para cada nivel del factor aleatorio principal. Por
ejemplo, cuando queremos estudiar alg un resultado academico y el factor principal son
las diversas universidades, pero los resultados se observan en estudiantes de dichas uni-
240
versidades como segundo factor aleatorio, entonces los estudiantes son necesariamente
distintos (ver gura 11.1). En estos casos no se pueden cruzar los factores y se debe
trabajar con los llamados dise nos jerarquizados o dise nos anidados.
Universidad 1 Universidad 2 . . . Universidad a
e
s
t
u
d
i
a
n
t
e
E
1
1
e
s
t
u
d
i
a
n
t
e
E
1
2
e
s
t
u
d
i
a
n
t
e
E
1
3
. . .
e
s
t
u
d
i
a
n
t
e
E
1
n
1
e
s
t
u
d
i
a
n
t
e
E
2
1
e
s
t
u
d
i
a
n
t
e
E
2
2
e
s
t
u
d
i
a
n
t
e
E
2
3
. . .
e
s
t
u
d
i
a
n
t
e
E
2
n
2
e
s
t
u
d
i
a
n
t
e
E
a
1
e
s
t
u
d
i
a
n
t
e
E
a
2
e
s
t
u
d
i
a
n
t
e
E
a
3
. . .
e
s
t
u
d
i
a
n
t
e
E
a
n
a
Figura 11.1: Niveles en un ejemplo de dise no de clasicaci on jer arquica
Como no hay cruces entre niveles de los factores, no puede haber interacciones y el modelo
es el siguiente
y
ijk
= +A
i
+B
j(i)
+
ijk
i = 1, . . . , a; j = 1, . . . , n
i
; k = 1, . . . , r
siendo A
i
, B
j(i)
, y
ijk
variables aleatorias normales independientes con media cero y
varianza
2
A
,
2
B
y
2
respectivamente. As pues, la variabilidad de las observaciones es
var(y
ijk
) =
2
y
=
2
A
+
2
B
+
2
Observemos que hemos se nalado los diversos niveles del segundo factor con el subndice
j(i) para mostrar la jerarqua del primer factor. Como siempre se ha tomado el mismo
n umero de replicas r para cada situaci on j(i). Tambien podemos simplicar mucho el
modelo si decidimos tomar el mismo n umero de niveles del segundo factor de forma que
n
1
= = n
a
= b. En este caso, incluso podemos disponer los datos en una tabla de doble
entrada. Pero no nos dejemos enga nar, los elementos del segundo factor son distintos.
La descomposici on fundamental de la suma de cuadrados es
i,j,k
(y
ijk
y)
2
=
i,j,k
(y
i
y)
2
+
i,j,k
(y
ij
y
i
)
2
+
i,j,k
(y
ijk
y
ij
)
2
= br
i
(y
ijk
y)
2
+r
j
(y
ij
y
i
)
2
+
i,j,k
(y
ijk
y
ij
)
2
lo que podemos escribir en la forma
SC
T
= SC
A
+ SC
B|A
+ SCR
Ahora debemos hallar el valor esperado de cada una de las sumas de cuadrados. Tomando
las medias de las observaciones, tenemos
y
i
= +A
i
+B
(i)
+
i
y = +A
+B
()
+
241
de modo que
y
i
y = A
i
A
+B
(i)
B
()
+
i
Si elevamos al cuadrado, sumamos para todos los n = abr datos y tomamos esperanzas,
resulta
E(SC
A
) = brE
_
i
(A
i
A
)
2
_
+brE
_
i
(B
(i)
B
()
)
2
_
+brE
_
i
(
i
)
2
_
ya que las esperanzas de los dobles productos son cero porque las variables que intervienen
son independientes de media cero.
De manera que si dividimos por los grados de libertad a 1 obtenemos
E(CM
A
) = E(SC
A
/(a 1)) = br
2
A
+r
2
B
+
2
ya que
E
_
1
a 1
i
(A
i
A
)
2
_
= var(A
i
) =
2
A
E
_
1
a 1
i
(B
(i)
B
()
)
2
_
= var(B
(i)
) =

2
B
b
E
_
1
a 1
i
(
i
)
2
_
= var(
i
) =

2
br
Del mismo modo, podemos calcular la esperanza de la suma de cuadrados del factor
jerarquizado, ya que
y
ij
y
i
= B
j(i)
B
(i)
+
ij
i
y resulta
E(CM
B|A
) = r
2
B
+
2
En la tabla 11.6 se resume la informaci on relevante para el An alisis de los Componentes
de la Varianza de este modelo.
Fuente de cuadrados Esperanza del
variaci on g.l. medios cuadrado medio
A a 1 CM
A
br
2
A
+r
2
B
+
2
B[A a(b 1) CM
B|A
r
2
B
+
2
Residuo ab(r 1) CM
R

2
Total abr 1
Cuadro 11.6: Tabla para el dise no anidado de dos factores con efectos aleatorios
A la vista de estos resultados, la hip otesis H
A
0
:
2
A
= 0 se puede contrastar con el
estadstico CM
A
/CM
B|A
, ya que bajo la hip otesis, numerador y denominador tienen el
242
mismo valor esperado. Del mismo modo, la hip otesis H
B
0
:
2
B
= 0 se puede contrastar
con el estadstico CM
B|A
/CM
R
.
En general estas hip otesis son rechazadas y las varianzas no son nulas. Entonces podemos
estimar su valor con la resoluci on del sistema
CM
A
= br
2
A
+r
2
B
+
2
CM
B|A
= r
2
B
+
2
CM
R
=
2
de donde los estimadores insesgados propuestos son

2
A
=
1
br
(CM
A
CM
B|A
)

2
B
=
1
r
(CM
B|A
CM
R
)
11.3.8. Resumen
Como hemos visto con los diversos modelos estudiados en esta secci on, el an alisis de
ambos tipos de modelos, de efectos jos o de efectos aleatorios, presenta una base com un
con planteamientos y interpretaciones diferentes.
En resumen podemos destacar:
1. La formulaci on del modelo es muy parecida, pero los efectos jos que representan
la respuesta media son par ametros a estimar, mientras que los efectos aleatorios
son variables aleatorias normales de media cero y varianzas a estimar. Esto signica
que:
a) Los efectos jos son constantes y los efectos aleatorios son variables aleatorias.
b) Los efectos jos inuyen en la respuesta media, mientras que los efectos alea-
torios inuyen en la variabilidad.
c) En los efectos aleatorios no tiene sentido imponer restricciones del tipo
i
=
0.
d) Los niveles de un factor de efectos jos se jan arbitrariamente por el experi-
mentador, mientras que los niveles de un factor aleatorio son una muestra al
azar de una poblaci on.
e) Para un factor de efectos jos nuestro interes es estimar los par ametros y
contrastar su nulidad. Para un factor de efectos aleatorios nos proponemos
estimar su varianza y contrastar si es nula.
2. La descomposici on de la varianza en sus fuentes de variabilidad, la tabla del An alisis
de la Varianza y los contrastes son muy similares para ambos tipos de modelos.
Especialmente cuando no hay interacci on, en cuyo caso los contrastes son identicos.
Cuando hay interacci on, en lugar de comparar los cuadrados medios del factor
con los cuadrados medios del error, se compara con los cuadrados medios de la
interacci on.
Observemos que la tabla del An alisis de la Varianza tiene formalmente la misma
apariencia, pero las esperanzas de los cuadrados medios son distintas (ver tabla
11.4).
243
3. En un modelo de efectos aleatorios el objetivo es contrastar si los efectos existen,
a traves de sus varianzas, y estimar dichas varianzas. No tiene sentido plantearse
contrastes m ultiples como en el caso de los efectos jos.
Por ultimo, debemos advertir que en todos los problemas se precisa una diagnosis del
modelo a traves de los residuos como se ha visto en la secci on 10.6.
11.4. Correlaci on intraclasica
Sea el modelo de un factor con efectos aleatorios
y
ij
= +A
i
+
ij
i = 1, . . . , k; j = 1, . . . , n
0
donde var(A
i
) =
2
A
, var(
ij
) =
2
. Se llama correlaci on intracl asica al coeciente de
correlaci on entre dos observaciones y
ij
, y
ij
de un mismo grupo i.
El coeciente de correlaci on intracl asica viene dado por
I
=

2
A
2
A
+
2
0
I
1
En efecto
I
(y
ij
, y
ij
) =
cov(y
ij
, y
ij
)
_
var(y
ij
)
_
var(y
ij
)
=
E[(y
ij
)(y
ij
)]
2
A
+
2
=
E(A
2
i
+A
i
ij
+A
i
ij
+
ij
ij
)
2
A
+
2
=
E(A
2
i
)
2
A
+
2
=

2
A
2
A
+
2
La correlaci on intracl asica nos expresa el porcentaje de la variabilidad entre grupos res-
pecto la variabilidad total y se utiliza para estudiar la dependencia entre los individuos
de un mismo grupo respecto a una variable observable Y . Por ejemplo, es utilizado en
Genetica descomponiendo la variabilidad total
2
y
(varianza de la componente genetica)
y
2
(varianza de la componente ambiental).
Estimaci on y contraste de signicaci on
Una estimaci on adecuada de
I
es

I
= max0, r
I
siendo
r
I
=

2
A

2
A
+
2
=
F 1
F +n
0
1
donde F = CM
A
/CM
R
.
Para ver si r
I
es signicativo hemos de plantear el contraste de la hip otesis H
0
:
I
= 0
equivalente a H
0
:
2
A
= 0 que se resuelve mediante An alisis de la Varianza.
244
Ejemplo 11.4.1
En un estudio sobre los guisantes se tomaron 5 vainas, cada una de las cuales contena 8
guisantes. Los pesos en centigramos fueron
1 44 41 42 40 48 46 46 42
2 43 46 48 42 50 45 45 49
vaina 3 33 34 37 39 32 35 37 41
4 56 52 50 51 54 52 49 52
5 36 37 38 40 40 41 44 44
Los datos se asimilan a un dise no de un factor de efectos aleatorios. Las sumas de cua-
drados son (n
0
= 8)
SC
A
= 1176,1 con 4 g.l.
SCR = 273,9 con 35 g.l.
y entonces
F =
CM
A
CM
R
= 37,57
El coeciente de correlaci on intracl asica es

I
= max0, 0,8205 = 0,8205
ya que
r
I
=
F 1
F +n
0
1
=
36,57
44,57
= 0,8205
Realicemos el contraste de hip otesis para comprobar que es signicativo. La hip otesis
H
0
:
I
= 0 equivale a plantear el contraste H
0
:
2
A
= 0, que se resuelve mediante
An alisis de la Varianza. Como F = 37,57 con 4 y 35 g.l. es muy signicativa, aceptamos
que es distinto de cero. La interpretaci on en este caso es la siguiente: aproximadamente el
80 % de la variabilidad se explica por la componente genetica, el resto es debido a factores
ambientales.
11.5. Ejemplos con R
Empecemos con los datos del ejemplo 11.2.1. Observemos la denici on del factor aleatorio
con la instrucci on is.random que se aplica a factores o data.frame.
> tiempo<-c(548,519,637,619,776,818,641,678,701,
+ 846,858,855,517,493,618,876,741,849, + 602,719,731,628,595,687)
> farmaco<-factor(rep(c("A","B","C"),8))
> indiv <- factor(rep(1:8, each=3))
> is.random(indiv) <- T
> frenada<-data.frame(tiempo,farmaco,indiv)
> rm(tiempo,farmaco,indiv)
> attach(frenada)
En este caso no hay interacci on entre el efecto individuo (bloque) y el efecto f armaco
(tratamiento). Por ello los estadsticos F se calculan como en el An alisis de la Varianza
con efectos jos.
245
> frenada.aov<-aov(tiempo~farmaco+indiv,data=frenada)
> summary(frenada.aov)
farmaco 2 27535.6 13767.79 5.14669 0.02110964
indiv 7 258040.7 36862.95 13.78014 0.00002651
Residuals 14 37451.1 2675.08
La estimaci on de las varianzas y los coecientes del modelo se consigue con varcom:
> frenada.var<-varcomp(tiempo~farmaco+indiv,data=frenada)
> summary(frenada.var)
Call: varcomp(formula = tiempo ~ farmaco + indiv, data = frenada)
Variance Estimates:
Variance
indiv 11395.958
Residuals 2675.077 Method: minque0
Coefficients:
(Intercept) farmaco1 farmaco2
689.6667 6.375 23.66667
Approximate Covariance Matrix of Coefficients:
(Intercept) farmaco1 farmaco2
(Intercept) 1535.956 0.000 0.000
farmaco1 0.000 167.192 0.000
farmaco2 0.000 0.000 55.731
Con el ejemplo 11.4.1 procederemos de otra forma. En primer lugar, introducimos los
datos:
> peso<-c(44,41,42,40,48,46,46,42,
...
+ 36,37,38,40,40,41,44,44)
> vaina<-factor(rep(1:5, each=8))
> estudio<-data.frame(peso,vaina)
> rm(peso,vaina)
> attach(estudio)
Pero ahora no hace falta denir el factor como de efectos aleatorios, ya que vamos a
utilizar la funci on raov, que supone que todos los factores son aleatorios.
> estudio.raov<-raov(peso~vaina,data=estudio)
> summary(estudio.raov)
Df Sum of Sq Mean Sq Est. Var.
vaina 4 1176.100 294.025 35.775
Residuals 35 273.875 7.825 7.825
Para validar estos modelos realizaremos los c alculos y gr acos de los residuos de forma
identica al caso de los factores jos que hemos visto en el captulo anterior.
246
11.6. Ejercicios
Ejercicio 11.1
Eligiendo 4 tardes al azar del verano, se midi o la temperatura de un lago a diferentes
profundidades con los siguientes resultados
Fecha
Profundidad (m) 1 2 3 4
0 23,8 24,0 34,6 24,8
1 22,6 22,4 22,9 23,2
2 22,2 22,1 22,1 22,2
3 21,2 21,8 21,0 21,2
4 18,4 19,3 19,0 18,8
5 13,5 14,4 14,2 13,8
Determinar si son factores de efectos jos o de efectos aleatorios y si hay diferencias entre
profundidades y entre fechas.
Ejercicio 11.2
Para valorar la variabilidad del contenido de zumo de una cierta variedad de lim on, se
tomaron 4 arboles al azar y se midi o el contenido de zumo de 3 limones de cada arbol.
Esta observaci on se hizo durante 5 das, eligiendo fechas al azar. Los resultados fueron
(en cm
3
):
Arbol
Da 1 2 3 4
1 24 26 26 28 20 27 28 18 21 27 24 20
2 18 25 19 21 24 23 27 19 17 25 23 22
3 16 21 15 24 20 21 22 25 24 29 27 27
4 21 24 22 23 20 26 24 24 23 20 21 27
5 23 24 28 27 21 28 26 25 27 25 27 28
Estudiar si existe variabilidad entre arboles, entre das y entre las interacciones arboles
das.
Ejercicio 11.3
En una poblaci on, de entre las mujeres que haban concebido tres hijos varones, se selec-
cionaron 5 al azar y se anot o el peso que registr o cada hijo al nacer:
1 3,250 3,125 3,400
2 2,800 3,100 2,900
3 3,400 3,500 3,350
4 4,100 4,200 4,150
5 2,900 2,750 2,800
Calcular la correlaci on intracl asica y estudiar si es signicativa.
Ejercicio 11.4
247
Se han obtenido replicas de una variable observable y combinado dos factores A, B. El
n umero de replicas (factor R) por casilla es de tres. La descomposici on de la suma de
cuadrados es la siguiente:
Fuente variaci on g.l. Suma cuadrados
A 3 420
B 1 143
AB 3 32
R 2 109
AR 6 197
BR 2 39
ABR 6 155
Utilizando el nivel de signicaci on 0,01, se pide:
a) Suponiendo A, B factores de efectos jos, estudiar si son signicativos. Hallar tres
estimaciones independientes de la varianza del dise no.
b) Suponiendo A, B factores de efectos aleatorios, estudiar si A y la interacci on AB
son signicativos.
Ejercicio 11.5
Consideremos de nuevo el enunciado del problema 10.4. Supongamos ahora que en el mo-
delo 10.27 las interacciones
ir
son nulas, A (a no) es de efectos aleatorios y B (genotipo)
es de efectos jos. Estudiar si los efectos principales y las interacciones son signicativas.
Ejercicio 11.6
Los resultados y
ijh
de un cierto experimento, donde i = 1, . . . , p; j = 1, . . . , q; h = 1, . . . , b
combinan dos factores X, Y , junto con un factor bloque B que no interacciona con X, Y .
En este experimento las replicas son bloques y el modelo es
y
ijk
= +X
i
+Y
j
+I
ij
+B
h
+
ijh
La tabla de suma de cuadrados es:
Fuente variaci on g.l. Suma cuadrados
X 2 625
Y 3 1340
B 4 402
XY 6 227
XB 8 289
Y B 12 310
XY B 24 528
Se pide:
a) Suponiendo los efectos jos, estudiar la signicaci on de los efectos principales y la
interacci on (nivel 0,05). Hallar dos estimadores insesgados de la varianza del modelo.
b) Suponiendo todos los efectos aleatorios, y sabiendo que los valores esperados de los
cuadrados medios son:
E(CM
X
) = rq
2
X
+r
2
I
+
2
E(CM
Y
) = rp
2
Y
+r
2
I
+
2
E(CM
I
) = r
2
I
+
2
E(CM
B
) = pq
2
B
+
2
E(CM
R
) =
2
248
Apendice A
Matrices
A.1. Inversa generalizada
Para una matriz A (n p), A
se llama una g-inversa o inversa generalizada de A si

AA
A = A
Una inversa generalizada siempre existe aunque en general no es unica.
Metodos de construcci on
(1) Utilizando la descomposici on en valores singulares de la matriz A (n p), tenemos
A = ULV
. Luego es sencillo comprobar que

A
= VL
1
U
dene una g-inversa.

(2) Si rg(A) = r, una permutaci on de las las y columnas de A (n p) nos permite
hallar una submatriz no singular A
r
(r r). Entonces resulta que
A
=
_
A
1
r
0
0 0
_
es una g-inversa.
(3) Si A (p p) es no singular, entonces A
= A
1
y es unica.
(4) Si A (pp) es simetrica de rg(A) = r, podemos escribir A =
, donde (pr)
es la matriz cuyas columnas son los vectores propios ortonormales correspondientes
a los vectores propios no nulos = diag(
1
, . . . ,
r
) de A. Entonces se comprueba
que
A
=
1
Un caso especial de g-inversa es la llamada inversa de Moore-Penrose A

+
de A (n p)
que verica
AA
+
A = A A
+
AA
+
= A
+
A
+
A = (A
+
A)
AA
+
= (AA
+
)
La inversa de Moore-Penrose es unica.

249
A.2. Derivaci on matricial
Denimos la derivada de f(X) con respecto a X n p como la matriz
f(X)
X
=
_
f(X)
x
ij
_
.
El c alculo matricial de derivadas tiene, entre otras, las siguientes propiedades:
1.
a
x
x
= a,
Ax
x
= A
2.
x
x
x
= 2x,
x
Ax
x
= (A
+A)x,
x
Ay
x
= Ay
A.3. Matrices idempotentes
Una matriz P es idempotente si P
2
= P. Una matriz simetrica e idempotente se llama
matriz proyecci on.
1. Si P es simetrica, entonces P es idempotente y rg(P) = r si y s olo si P tiene r
valores propios iguales a 1 y el resto son cero.
Demostraci on:
Como P
2
= P, entonces Px = x con x ,= 0 implica que
x = Px = P
2
x = P(Px) = P(x) = (Px) = (x) =
2
x
de manera que
2
= 0 o ( 1) = 0.
Luego los valores propios de P son la unidad tantas veces como indica el rango y el
resto son cero, ya que la suma de los valores propios es el rango.
Recprocamente, si los valores propios son 0 y 1, entonces podemos pensar sin
perdida de generalidad que los primeros r son unos.
As, debe existir una matriz ortogonal T tal que P = TT
donde
=
_
I
r
0
0 0
_
Luego
P
2
= TT
TT
= T
2
T
= TT
= P
y rg(P) = r.
2. Si P es una matriz proyecci on, entonces tr(P) = rg(P).
Demostraci on:
Si rg(P) = r, entonces por el apartado anterior, P tiene r valores propios 1 y el
resto son cero. De aqu que tr(P) = r.
250
3. Si P es idempotente, tambien I P lo es.
Demostraci on:
(I P)
2
= I 2P+P
2
= I 2P+P = I P.
4. Las matrices proyecci on son semidenidas positivas.
Demostraci on:
x
Px = x
P
2
x = (Px)
(Px) 0.
A.4. Matrices mal condicionadas
Un sistema determinado de ecuaciones lineales Bx = c se dice que est a mal condicionado
(ill-conditioned) si peque nos errores o variaciones en los elementos de B y c tienen un
gran efecto en la soluci on exacta de x. Por ejemplo, la soluci on exacta del sistema es
x = B
1
c, pero si B est a cerca de la singularidad, es decir, peque nos cambios en sus
elementos pueden causar la singularidad, entonces el c alculo de la inversa de B puede
provocar una gran diferencia con la soluci on exacta.
En el caso de las ecuaciones normales la matriz B = X
X y el vector c = X
Y contienen
errores de redondeo, fruto del c alculo a partir de las matrices X y Y. Adem as, su almace-
namiento en el ordenador tambien puede tener inconvenientes de precisi on. Esto signica
que si la matriz X est a mal condicionada, es decir, peque nos cambios en los elementos de
X pueden causar grandes cambios en (X
X)
1
y en

= (X
X)
1
X
Y, entonces cualquier
error en la formaci on de X
X puede tener un efecto muy serio en la precisi on y la estabi-

lidad de la soluci on, que en este caso es la estimaci on de los par ametros. El problema de
la mala condici on es especialmente preocupante en la regresi on polin omica (ver secci on
8.6).
Una medida de la mala condici on de una matriz de datos X es el n umero de condici on
[X] que se dene como la raz on entre el mayor y el menor valor singular no nulo de X.
Los valores singulares de X son las races cuadradas positivas de los valores propios de la
matriz X
X. Entre las propiedades m as notorias de [X] tenemos que

[X
X] = ([X])
2
Por la denici on > 1, por tanto X
X siempre est a peor condicionada que X. Luego,

a no ser que [X] sea un valor moderado, es mejor no calcular X
X en los metodos de
computaci on de las soluciones (ver captulo 11 de Seber[65]).
En la pr actica, es muy com un que una variable regresora este altamente correlacionada
con una combinaci on lineal de las otras variables regresoras, de forma que las columnas
de X estar an muy pr oximas a ser linealmente dependientes. As X
X estar a cerca de la
singularidad (o ser a singular), el menor valor propio ser a peque no y [X] ser a grande (ver
secci on 8.5).
251
Apendice B
Proyecciones ortogonales
B.1. Descomposici on ortogonal de vectores
1. Dado , un subespacio vectorial de E
n
(un espacio eucldeo n-dimensional), todo
vector y puede expresarse de forma unica como y = u+v, donde u y v
.
Demostraci on:
Supongamos que hubiera dos descomposiciones y = u
1
+ v
1
= u
2
+ v
2
, entonces
(u
1
u
2
) +(v
1
v
2
) = 0. Como u
1
u
2
, v
1
v
2

= 0, resulta
que u
1
u
2
= 0 y v
1
v
2
= 0, es decir, u
1
= u
2
y v
1
= v
2
.
2. Si la descomposici on adopta la forma y = P
y +(I P
)y, la matriz P
es unica.
Demostraci on:
Si fueran dos las matrices P
i
i = 1, 2, entonces, como u es unico para cada y,
resulta que (P
1
P
2
)y = 0 para todo y. Luego P
1
P
2
= O.
3. La matriz P
puede expresarse en la forma P
= TT
, donde las columnas de T

forman una base ortonormal de .
Demostraci on:
Sea T = (
1
, . . . ,
r
), donde
1
, . . . ,
r
es una base ortonormal de y r es su
dimensi on. Podemos extender esta base hasta obtener una base ortonormal de todo
E
n
, digamos
1
, . . . ,
r
,
r+1
, . . . ,
n
. Entonces
y =
n
i=1
c
i
i
=
r
i=1
c
i
i
+
n
i=r+1
c
i
i
= u +v
donde u y v
. Pero
i
=
ij
de forma que
i
y = c
i
y podemos escribir
u =
r
i=1
c
i
i
=
r
i=1
(
i
y)
i
= (
1
, . . . ,
r
)(
1
y, . . . ,
r
y)
= TT
y
y por el apartado anterior P
= TT
.
4. P
es simetrica e idempotente.
Demostraci on:
Dado que P
= TT
es obviamente simetrica y
P
2
= TT
TT
= TI
r
T
= TT
= P
252
5. El subespacio generado por las columnas de P
es P
) = .
Demostraci on:
Es evidente que P
) , ya que P
es la proyecci on sobre . Recprocamente si

x , entonces x = P
x P
). Luego los dos subespacios son el mismo.

6. I
n
P
representa la proyecci on ortogonal sobre
.
Demostraci on:
A partir de la igualdad y = P
y + (I
n
P
)y tenemos que v = (I
n
P
)y. Los
resultados anteriores se obtienen intercambiando los papeles de y
.
7. Si P es una matriz cuadrada e idempotente, entonces P representa la proyecci on
ortogonal sobre P).
Demostraci on:
Sea y = Py + (I
n
P)y. Entonces (Py)
(I
n
P)y = y
(PP
2
)y = 0, de manera
que la descomposici on da las componentes ortogonales de y. El resultado se obtiene
al aplicar la propiedad B.1.5.
8. Si = X), entonces
P
= X(X
X)
donde (X
X)
es una inversa generalizada de X
X, es decir, si B = X
X, entonces
BB
B = B.
Demostraci on:
Las ecuaciones normales X
X = X
Y se pueden escribir como B = c, si c = X
Y.
Entonces

= B
c es una soluci on de dichas ecuaciones normales ya que

B
= B(B
c) = BB
B = B = c.
Por otra parte, si escribimos

= X
, tenemos Y =
+ (Y
) donde
(Y
) =

(YX
)
=

(X
YX
) = 0
Luego Y =

+ (Y
) es una descomposici on ortogonal de Y tal que

X)
y (Y
) X). Como

= X
= XB
c = X(X
X)
Y tenemos que P
=
X(X
X)
por la unicidad demostrada en (2).

9. Cuando las columnas de la matriz X son linealmente independientes y el rg(X) es
m aximo, resulta que P
= X(X
X)
1
X
.
Demostraci on:
Cuando el rg(X) es m aximo, la matriz cuadrada X
X es inversible.
253
B.2. Proyecciones en subespacios
1. Dado , entonces P
= P
= P
.
Demostraci on:
Como y = P
) (por el punto B.1.5), tenemos que la proyecci on sobre

de las columnas de P
son las propias columnas, es decir, P
= P
. El resultado
completo se deduce porque P
y P
son matrices simetricas.

2. P
= P
.
Demostraci on:
Consideremos la descomposici on P
y = P
y + (P
)y. Como P
y y P
y
pertenecen a resulta que (P
)y . As la ecuaci on anterior presenta la

descomposici on ortogonal de en y
ya que P
(P
) = O (por B.2.1).
3. Si A
es una matriz tal que = ker(A
) , entonces
= P
).
Demostraci on:
En primer lugar, observamos que
= ker(A
+A
)
ya que (
1

2
)
1
+
2
y [ker(A
)]
= A
).
Si x
+A
) , entonces
x = P
x = P
(I
n
P
)+A
= P
).
Recprocamente, si x P
), entonces x P
) = . Tambien para cualquier

z , resulta x
z =
z =
z = 0, es decir, x
. Luego x
.
4. Si A
(q n) tiene rg(A
) = q, entonces rg(P
) = q si y s olo si A
= 0.
254
Apendice C
Estadstica multivariante
C.1. Esperanza, varianza y covarianza
1. Sean X e Y vectores aleatorios no necesariamente de la misma longitud.
Denimos la matriz
cov(X, Y) = (cov(X
i
, Y
j
))
y si X = Y escribimos var(X) = cov(X, X). Entonces se verican las siguientes
propiedades:
(a) Si a es un vector constante de la misma dimensi on que X, var(a+X) = var(X).
(b) Si R, entonces var(X) =
2
var(X).
(c) Si A y B son matrices de constantes,
cov(AX, BY) = Acov(X, Y)B
(d) Para cualquier vector aleatorio X, Y, U, V y todo escalar a, b, c, d R,

cov(aX+bY, cU+dV) =
ac cov(X, U) +ad cov(X, V) +bc cov(Y, U) +bd cov(Y, V)
2. Sea Y un vector aleatorio con esperanza E(Y) = y matriz de varianzas y cova-
rianzas var(Y) = V, entonces
E(Y
AY) = tr(AV) +
A
donde A es una matriz constante.
Demostraci on:
Es evidente que
(Y)
A(Y) = Y
AY
AYY
A +
A
de modo que
E((Y)
A(Y)) = E(Y
AY)
AE(Y) E(Y
)A +
A
= E(Y
AY)
A
255
Por otra parte, sabemos que, para dos matrices C y D, la traza del producto verica
tr(CD) = tr(DC) =
i,j
c
ij
d
ji
y por eso
tr(AV) =
i,j
a
ij
cov(Y
j
, Y
i
) =
i,j
a
ij
E((Y
j
j
)(Y
i
i
))
= E
_
i,j
(Y
i
i
)a
ij
(Y
j
j
)
_
= E((Y)
A(Y))
con lo que obtenemos el resultado enunciado.
C.2. Normal multivariante
1. Cuando Y N
n
(, ), se verica:
(a) (Y)
1
(Y)
2
n
(b) Para cualquier matriz C constante, CY N
n
(C, CC
).
(c) Si consideramos una partici on del vector Y en dos vectores Y
1
y Y
2
, estos son
independientes ssi cov(Y
1
, Y
2
) = O.
2. Sea Y N
n
(,
2
I). Sean U = AY, V = BY dos vectores aleatorios combinaci on
de Y y sea A
la matriz formada por las las de A linealmente independientes. Si

cov(U, V) = O, entonces
(a) A
Y es independiente de V
V.
(b) U
U y V
V son independientes.
3. Supongamos que Q
1

2
r
y Q
2

2
s
, con r > s. Si Q = Q
1
Q
2
y Q
2
son
independientes, entonces Q
2
rs
.
256
Bibliografa
[1] J. Alegre y J. Arcarons, Aplicaciones de Econometra. Textos Docents, Universitat
de Barcelona, 1991.
[2] D.A. Allen and F.B. Cady, Analyzing Experimental Data by Regression. Wadsworth,
1982.
[3] V.L. Anderson and R.A. McLean, Design of Experiments. Marcel Dekker, 1974.
[4] D.F. Andrews et al., Robust Estimates of Location: Survey and Advances. Princeton
University Press, 1972.
[5] S.F. Arnold, The Theory of Linear Models and Multivariate Observations. Wiley,
1981.
[6] D.A. Belsley, E. Kuh and R.E. Welsch, Regression Diagnostics: Identifying Inuential
Data and Sources of Collinearity. Wiley, 1980.
[7] J. Bibby and H. Toutenberg, Prediction and Improved Estimation in Linear Models.
Wiley, 1977.
[8] D. Birkes and Y. Dodge, Alternative Methods of Regression. Wiley, 1993.
[9] G.E.P. Box and N. Draper, Empirical Model Building and Response Surfaces. Wiley,
1987.
[10] G.E.P. Box, W. Hunter and J.S. Hunter, Estadstica para Investigadores. Reverte,
1988.
[11] R.J. Brook and G.C. Arnold, Applied Regression Analysis and Experimental Design.
Marcel Dekker, 1985.
[12] R. Christensen, Plane Answers to Complex Questions. Springer-Verlag, 1987.
[13] W.G. Cochran and G.M. Cox, Experimental Designs. Wiley, 2nd Edition, 1992.
[14] R.D. Cook and S. Weisberg, Residuals and Inuence in Regression. Chapman and
Hall, 1982.
[15] R.D. Cook and S. Weisberg, Applied Regression Including Computing and Graphics.
Wiley, 1999.
[16] J.A. Cornell, Experiments with Mixtures: Designs, Models, and the Analysis of Mix-
ture Data. Wiley, 3rd Edition, 2002.
[17] D.R. Cox, Planning of Experiments. Wiley, 1958.
257
[18] C.M. Cuadras, Sobre la comparaci o estadstica de corbes experimentals. Q uestii o,
3(1), 1-10, 1979.
[19] C.M. Cuadras, Dise nos no balanceados y con observaciones faltantes en MANOVA,
Actas XIII Reun.Anual S.Esp.Est.I.O.Inf., Valladolid, 1982.
[20] C.M. Cuadras, Problemas de Probabilidades y Estadstica. VOL. 2 Inferencia es-
tadstica. EUB, Barcelona 2000.
[21] S. Chatterjee and B. Price, Regression Analysis by Example. Wiley, 3rd Edition,
1999.
[22] C. Daniel, Applications of Statistics to industrial experimentation. Wiley, 1976.
[23] C. Daniel and F.S. Wood, Fitting Equations to Data. Wiley, 1980.
[24] P.J. Dhrymes, Econometra. Editorial AC, Madrid, 1984.
[25] Y. Dodge, Analysis of Experiments with missing data. Wiley, 1985.
[26] H.E. Doran, Applied Regression Analysis in Econometrics. Marcel Dekker, 1989.
[27] N.R. Draper and H. Smith, Applied Regression Analysis. Wiley, 3rd Edition, 1998.
[28] R.A. Fisher, The Design of Experiments. Oliver Boyd, Edimburgo, 1953.
[29] J. Fox, Linear Statistical Models & Related Methods. Wiley, 1984.
[30] A.R. Gallant, Nonlinear Statistical Models. Wiley, 1987.
[31] A.S. Goldberger, A Course in Econometrics. Harvard University Press, 1991.
[32] F.A. Graybill, Theory and Application of the Linear Model. Wadsworth, 1976.
[33] R.F. Gunst and R.L. Mason, Regression Analysis and its Aplication. Marcel Dekker,
1980.
[34] I. Guttman, Linear Models. Wiley, 1982.
[35] W. H ardle, Applied Nonparametric Regression. Cambridge University Press, 1990.
[36] H.O. Hartley, Analysis of Variance. Mathematical Methods for Digital Computers.
A. Ralston and H. Wilf eds., Wiley, cap. 20, 1962.
[37] C.R. Hicks, Fundamental Conceps in the Design of Experiments. Holt, Renehart and
Winston, 1982.
[38] K. Hinkelmann and O. Kempthorne, Design and Analysis of Experiments , Volume
1, Introduction to Experimental Design. Wiley, 1994.
[39] D.C. Hoaglin, F. Mosteller, and J.W. Tukey, Understanding Robust and Exploratory
Data Analysis. Wiley, 1983.
[40] R.R. Hocking, Methods and Applications of Linear Models: Regression and the Analy-
sis of Variance. Wiley, 2nd Edition, 2003.
258
[41] P.W.M. John, Statistical Design and Analysis of Experiments. Mc Millan, 1971.
[42] J.A. John and M.H. Quenouille, Experiments: Design and Analysis. Charles Grin,
1977.
[43] O. Kempthorne, The Design and Analysis of Experiments. Wiley, 1952.
[44] M. Kendall, A. Stuart and J.K. Ord, The Avanced Teory of Statistics (vol. 3, Design
and Analysis, and Time Series). Charles Grin, 1983.
[45] A. Kshirsagar, A Course on Linear Models. Marcel Dekker, 1983.
[46] T.J. Lorenzen and V. L. Anderson, Design of Experiments. Marcel Dekker, 1993.
[47] R.L. Mason, R.F. Gunst and J.L. Hess, Statistical Design and Analysis of Experi-
ments: With Applications to Engineering and Science. Wiley, 2nd Edition, 2003.
[48] P. McCullagh and J.A. Nelder, Generalized Linear Models. Chapman and Hall, 1989.
[49] D.C. Montgomery, Design and Analysis of Experiments. Wiley, 1984.
[50] D.C. Montgomery, E.A. Peck and G.G. Vining Introduction to Linear Regression
Analysis. Wiley, 3rd Edition, 2001.
[51] F. Mosteller and J.W. Tukey, Data Analysis and Regression. Addison-Wesley, 1977.
[52] R.H. Myers, Clasical and Modern Regression with Application. Duxbury Press, 1986.
[53] J. Neter, W. Wasserman and M.H. Kutner, Applied Linear Statistical Models. Ri-
chard D. Irwin, 1990.
[54] D. Pe na, Estadstica: Modelos y metodos. 2. Modelos Lineales y Series Temporales.
Alianza, 1993.
[55] B.L. Raktoe et al., Factorial Designs. Wiley, 1981.
[56] C.R. Rao, Linear Statistical Inference and its Applications. Wiley, 1973
[57] C.R. Rao and H. Toutenburg, Linear Models. Springer Series in Statistics, 1995.
[58] D.A. Ratkowsky, Non Linear Regression Modeling. Marcel Dekker, 1983.
[59] P.J. Rousseeuw and A.M. Leroy, Robust Regression and Outlier Detection. Wiley,
2003.
[60] L. Ruiz-Maya, Metodos Estadsticos de Investigaci on. INE, Madrid, 1972.
[61] T.P. Ryan, Modern Regression Methods. Wiley, 1996.
[62] S.R. Searle, Linear Models. Wiley, 1971.
[63] H. Schee, The Analysis of Variance. Wiley, 1959.
[64] G.A.F. Seber and C.J. Wild, Nonlinear Regression, Wiley, 2003.
[65] G.A.F. Seber and A.J. Lee, Linear Regression Analysis. Wiley, 2nd. Edition, 2003.
259
[66] A. Sen and M. Srivastava, Regression Analysis. Springer-Verlag, 1990.
[67] S.D. Silvey, Multicollinearity and imprecise estimation, J. R. Stat. Soc. B, 31,
539-552, 1969.
[68] S.D. Silvey, Optimal Design: An Introduction to the Teory for Parameter Estimation.
Chapman and Hall, 1980.
[69] M.D. Ugarte y A.F. Militino. Estadstica Aplicada con S-Plus. Universidad P ublica
de Navarra, 2001.
[70] H.D. Vinod and A. Ullah, Recent Advances in Regression Methods. Marcel Dekker,
1981.
[71] S. Weisber, Applied Linear Regression. Wiley, 2nd Edition, 1985.
[72] B.J. Winer, Statistical Principes in Experimental Design. McGraw-Hill, 1970.
[73] T.H. Wonnacott and R.J. Wonnacott, Regression: a second course in statistics. Wiley,
1981
260
Indice alfabetico
aleatorizaci on, 180
ampliar un modelo
con una variable, 55
con varias variables, 59
an alisis de los residuos, 165, 206
bloque, 186
BLUE, 43
breakdown bound, 132
coeciente
de correlaci on
m ultiple, 137
muestral, 94
poblacional, 101
de determinaci on, 14, 95, 138
ajustado, 139
de regresi on parcial, 136
de robustez, 178
componentes de la varianza, 220
condiciones del modelo lineal, 14, 25
contraste
de coincidencia, 107, 110
de concurrencia, 109, 112
de igualdad de varianzas, 106, 114
de incorrelaci on, 102
de linealidad, 102
de paralelismo, 107, 111, 156
de signicaci on de la regresi on, 97,
140
de signicaci on parcial, 142
criterio C
P
de Mallows, 174
cuadrado
greco-latino, 201
latino, 201
Dfbetas, 172
dise no
anidado, 241
con efectos aleatorios, 220
con efectos jos, 220
en bloques aleatorizados, 187
factorial, 179
jerarquizado, 241
mixto, 220
distancia de Cook, 172
distancia de Mahalanobis, 166
ecuaciones normales, 26
efectos
aleatorios, 220
jos, 220
error cuadr atico de validaci on, 168
espacio
error, 44
estimaci on, 44
estadstico
F, 49
t, 50
estimaci on
de la m axima verosimilitud, 33
de varianza mnima, 33, 43
insesgada, 32
mnimo cuadr atica, 26
resistente, 123
ridge, 64
robusta, 123
sesgada, 63
extrapolaci on oculta, 140
factor, 179
aleatorio, 220
de inaci on de la varianza, 147
jo, 220
funci on parametrica, 41
estimable, 41
intervalo de conanza, 50
Gauss-Markov
condiciones de, 14, 25
teorema de, 43
gr aco
de dispersi on, 10
de los residuos, 168170
261
PP-plot, 170
QQ-plot, 170
heterocedasticidad, 15
hip otesis contrastable, 67
homocedasticidad, 15, 25
interacci on, 187, 193, 221, 222
intervalos simult aneos, 143
leverage, 171
mnimos cuadrados
generalizados, 60
metodo, 13, 26
matriz
de dise no, 23
de rango no m aximo, 36
reducida, 34
de rango m aximo, 47
de regresi on, 23
de varianzas y covarianzas, 255
del modelo, 23
inversa generalizada, 249
proyecci on, 45, 250
modelo
centrado, 13
de componentes de la varianza, 220
lineal, 23
lineal normal, 25
multicolinealidad, 47, 147
n umero de condici on, 251
nivel
de signicaci on, 74
de un factor, 179
de un punto, 171
polinomios
de Bernstein, 149
de Tchebychev, 150
ortogonales, 150
principio de aleatorizaci on, 180
punto
atpico, 15
de colapso, 132
inuyente, 15, 171
replica, 179
rango
del dise no, 25
m aximo, 25
recta resistente, 123
regi on de conanza, 100, 143
regresi on
parab olica, 11
paso a paso, 175
polin omica, 148
simple, 13
residuos
atpicos, 167
estandarizados, 166
studentizados, 166
studentizados externamente, 167
ridge regression, 64
selecci on de variables, 174
sobreajuste, 139
stepwise, 175
suma de cuadrados
forma can onica, 32
residual, 27
tabla del An alisis de la Varianza, 74, 183,
190, 197
teorema fundamental, 71
tratamiento, 179
variabilidad
experimental, 179
explicada, 95, 138, 182
no explicada, 95, 182
total, 95, 138, 182
varianza del modelo, 15
estimaci on, 31
intervalo de conanza, 50
varianza residual, 31, 94
262

Modeloslineales

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Modeloslineales

Hochgeladen von

Copyright:

Verfügbare Formate

MODELOS LINEALES

12, 4). Dicha

= c log P = log c log V

12,4). Dibujar el gr aco de los residuos con la densidad y el gr aco con

se hace con el criterio de los mnimos

que minimicen la siguiente suma de cuadrados

X tiene inversa y la unica soluci on de las

es una estimaci on MC de si y s olo si X

= PY, donde P es la proyecci on ortogonal

Y = PY y por ende del vector de residuos e = Y

, de manera que la transformaci on

aplicada sobre e proporciona

Luego, en funci on de las variables z

donde k es el n umero de condiciones experimentales (n umero de las distintas de X), n

H es mm de rango m y en consecuencia tiene inversa. Luego hemos

H = 0 a las ecuaciones normales tenemos

Y. Se puede ver, a partir de

= PY, probar que la matriz P verica

y diremos que una funci on parametrica es estimable si existe un estadstico

una funci on parametrica estimable asociada al modelo lineal Y = X + .

es combinaci on lineal de las las de X.

es combinaci on lineal de las las de la matriz de dise no X.

, entonces basta tomar

es estimable viene dada por la

representa una g-inversa de X

una funci on parametrica estimable y

Y y veamos que es insesgado y que su valor es

Y es otro estimador insesgado para y b

) es ortogonal a . Como tambien pertenece a , debe

. Adem as, por 3.1 sabemos que

una funci on parametrica estimable y

es el estimador de varianza mnima

b es unico) pertenece al espacio estimaci on y que c

la matriz del operador que proyecta b en = X) (ver Apendice

P. Asimismo, I P es otro operador que proyecta b

PY es el estimador de Gauss-Markov, mientras que b

(I P)Y tiene esperanza

X, que verica XH = X, y siendo a

. Es f acil ver que a

se dice estimable si tiene un estimador lineal insesgado b

b. Es decir, cuando a es combinaci on lineal de las las de la

es estimable si y s olo si a es combinaci on

). De modo que s olo queda probar que

d para d = Xc, de forma que X

). Adem as, las dimensiones de

X, de donde se deduce la igualdad.

es el de mnima varianza. Pero, cuanto vale esta varianza?

X tiene como valores propios

X) y este subespacio est a generado por los vectores

X correspondientes a los mayores valores propios, mien-

X est a cerca de ser singular (no inversible), en el

correspondiente al valor propio + c

sobre el mismo modelo lineal normal y donde los vectores a

del sistema de funciones

es estoc asticamente independiente de SCR.

ii) Como en el teorema 2.5.1, consideremos la transformaci on ortogonal

(I P)Y = ((I P)Y)

siendo b combinaci on lineal de las columnas de X, implica que a es combinaci on lineal

Y pertenece al espacio error si E(b

Y y todo estimador de Gauss-Markov

una descomposici on en valores singulares de X. Se pide:

una funci on parametrica. Probar que es estimable si y s olo si se

para alg un vector b.