Beruflich Dokumente
Kultur Dokumente
2014
Captulo XIV
El modelo animal simple: una metodologa
para los genetistas
Jos Atilio Aranguren Mndez
Rafael Mara Romn Bravo
El Dr. C.R. Henderson dedic su carrera a investigar el problema de la estimacin
de los efectos fijos, al cual llam el Mejor Estimador Lineal Insesgado (BLUE) y a la prediccin de los efectos aleatorios, a la cual llam Mejor Prediccin Lineal Insesgada
(BLUP), bajo un modelo mixto. El origen de esta metodologa se bas en una pregunta
que les hiciera en el ao 1949, el profesor Mood en una clase, y la cual se puede plantear
como Dado un puntaje de 130 en una prueba de coeficiente intelectual (IQ), Cul es el estimador de mxima verosimilitud del verdadero valor del IQ de ese individuo? Sabemos que la
media del verdadero IQ y del IQ de la prueba, se asume normalmente distribuido con media 100,
la varianza del error en la prueba es 25 y la varianza de del verdadero IQ es 225.
Henderson (1973), razon este problema sobre la base de lo que haba aprendido
sobre la estimacin de la Ms Probable Habilidad Productiva (MPHP) de una vaca y
plantea de hecho la respuesta correcta 127; el profesor no acept la metodologa y sugiri a la clase que deberan maximizar la distribucin conjunta del verdadero IQ y del IQ
de la prueba, para las variaciones en el verdadero IQ (Henderson, 1973). De hecho, el
us la sugerencia del profesor para derivar una metodologa que le permiti estimar los
efectos fijos y predecir los aleatorios, que resultan de una ligera modificacin a las ecuaciones de cuadrados mnimos, en la parte correspondiente al efecto aleatorio. Se haba
demostrado que la metodologa es equivalente a la recuperacin de la informacin interbloque, en el anlisis de bloques incompletos, en donde tratamiento es fijo y los bloques son aleatorios (Henderson et al., 1959). Las aplicaciones de esta metodologa han
sido detalladas en forma amplia para la evaluacin de toros (Henderson, 1973, 1974).
Sin embargo, por limitaciones de tipo tcnico y terico, no poda ser usada esta metodologa en gran escala en la evaluacin de animales. No fue sino hasta 1976, cuando se
descubri una va rpida para invertir la matriz de relacin, aun sin obtener la matriz de
relacin, lo que fue logrado a partir de un listado de individuos ordenados de forma que la
identificacin de la progenie sea inferior a la de sus padres (Henderson, 1976). Este descubrimiento es probablemente uno de los ms grandes legados de Henderson (Van Vleck,
1998).
120
121
2
2y
2e
2a
(1 h 2 ) 2y
h 2 2y
(1 h 2 )
h2
122 / Jos Atilio Aranguren Mndez & Rafael Mara Romn Bravo
ECUACIONES OLS
$
: n$
: $
: $
: $
: $
Par./ Est. :
a1
a2
a3
a4
$ 1
+ $ 1
+ $ 1
$ 2
+ $ 1
$ 3
+ $ 1
$ 4
+ $ 1
+ $ 1
+ $ 1
+ $ 1
=
=
y
y1
y2
y3
=
=
[1]
y4
Esas ecuaciones tienen propiedades interesantes: son simtricas, esto es, el elemento en la posicin (i, j) es idntico al de la posicin ( j, i) en este caso todos 0s, sealando que ningn animal i contribuye en nada a la estimacin del animal j; si sumamos las ecuaciones para los 4 animales, obtenemos la ecuacin para la estimacin de la
media, lo mismo pasa por columnas. De forma similar si sumamos los elementos del
RHS para los cuatro animales, obtenemos el total de observaciones de la ecuacin
para . Esto implica que ese sistema de ecuaciones es linealmente dependiente y por lo
tanto para obtener los estimadores de los a$ i debemos imponer una restriccin sobre
los parmetros a estimar, normalmente sobre a i aunque tambin lo podemos hacer sobre .
Ese sistema de ecuaciones, en general, lo podemos representar por conveniencia
en forma matricial.
n. .
n1.
n2.
n1.
n2.
n3.
n4 .
n1.
0
0
n2.
0
0
n3.
n4 .
0
0
0
0
0
0
n3.
0
0
n4 .
$
a$1
y ..
y1.
$
* a 2 = y 2.
a$ 3
y 3.
a$ 4
y4 .
[1]
Observe sin embargo que en este ejemplo slo tenemos un registro por animal
de manera que los coeficientes ni . son todos 1s y n.. es en este caso 4, el nmero de observaciones para estimar m. De esa manera, las ecuaciones en forma matricial seran:
4
1
1
1
1
1
1
0
0
0
1
0
1
0
0
1
0
0
1
0
y
1 $
y1
0 a$1
0 * a$ 2 = y 2
y3
0 a$ 3
y4
1 a$ 4
[2]
123
$
...
a$ 2
...
... : ... ... ... ...
y
1 : 1 0 0 0
= 1.
*
y 2.
1 : 0 1 0 0 a$ 3
$
a
y 3.
1 : 0 0 1 0
4
y4 .
1 : 0 0 0 1 a$ 5
Sea: x = [1 1 1 1], el vector de incidencia de la media; entonces x x = 4, la primera
matriz en las OLS, sea Z la matriz de incidencia de los animales, entonces x Z es el
vector hilera que aparece como la submatriz a la derecha de x x, de la misma manera
Z' x es el vector columna que aparece debajo de x x finalmente tenemos la submatriz
Z Z en este caso una matriz identidad, de orden el nmero de animales I4. En el RHS
tendramos como primer elemento el producto x y y debajo de este la suma de las observaciones para los 4 animales Z y. Esto es:
x x x Z b$ x y
Z x Z Z * $ = Z y
a
Retornando a las ecuaciones OLS en [2], para obtener las MME lo que requerimos es agregar a las OLS en la diagonal de la sub-matriz Z Z la constante l. Esto es:
1
1
1
1 $ y
4
1 1 +
0
0
0 a$1 y1
0 1+
0
0 * a$ 2 = y 2
1
1
0
0 1+
0 a$ 3 y 3
0
0
0 1 + a$ 4 y 4
1
[3]
Ahora tenemos un hecho importante; la matriz sigue siendo simtrica, pero ahora, para el caso a una sola va de clasificacin; el hecho de haber sumado l a la diagonal,
hace que la suma de las hileras de animales no sumen a la de la hilera para la media; en
otras palabras, el sistema de ecuaciones es linealmente independiente y no requerimos
imponer restricciones en los efectos para obtener una solucin. La solucin al sistema
requerira obtener la inversa del LHM en [2] y multiplicar este por el RHM:
1
1
1
1
1
y
$ 4
y
$ 1 1 +
0
0
0
1
1
$
=
*
0 1+
0
0
y 2
2 1
y
$ 1
0
0 1+
0
3
3
0
0
0 1 +
y 4
$ 4 1
124 / Jos Atilio Aranguren Mndez & Rafael Mara Romn Bravo
(1 h 2 )
$ +
h 2 (1 h 2 )
h
1
h2
1
a$ 4 = y 4 .
h2
[4]
Ahora es aparente la razn de agregar el cociente 2e / 2a a la diagonal del segmento de animales, lo que tenemos en [4], es lo que Henderson (1974), llam estimacin por Mxima Verosimilitud y que posteriormente acua como BLUP del efecto
gentico del animal y que Van Vleck (1993) seala que en algunos casos, es equivalente a un ndice de seleccin, slo que ac se usa el estimador de la media $ en lugar del
parmetro real $ As mismo, en el trmino h 2 , en el caso de ndice de seleccin se asume que los componentes de varianza son conocidos, en el caso de BLUP, se usan los
valores de los parmetros estimados con los datos.
Segn Littel et al. (2006), BLUP, es una suerte de contraccin hacia la media general, basada en los componentes de varianza. La idea bsica de esta estimacin por
contraccin es que la media del efecto aleatorio regresa hacia la media general y que el
grado de contraccin depender de la magnitud de la varianza. Una varianza grande
en el efecto aleatorio, resultar en muy poca contraccin hacia m As mismo, seala
que los estimadores muy arriba o muy debajo de m son regresados hacia m consistente
con la magnitud relativa de 2a en relacin a 2y ; de esta manera los valores extremos,
son atenuados por la variabilidad subyacente, con lo cual se reduce el riesgo de interpretar los datos de manera incorrecta (Robinson, 1991).
125
y.
4
126 / Jos Atilio Aranguren Mndez & Rafael Mara Romn Bravo
Adems, los efectos residuales, que incluyen los efectos ambientales aleatorios y
los errores de medicin, junto con los efectos no aditivos, son independientes uno de
otro, con varianza 2e . Por lo tanto:
V(e)=I 2e , usualmente llamada R y V (a ) = A 2a , usualmente llamada G
Los efectos aleatorios del modelo son independientes por lo tanto: Cov (a,e)=0.
En consecuencia, V(y)=ZGZ + R..
Las MME para el modelo anterior pueden ser representadas en forma matricial
como:
X X
Z X
X Z
$ X y
* =
Z Z + A * a$ Z y
[5]
Animal
Padre
Madre
4,1
3,7
4,2
.
.
1
4,0
La matriz X tiene tantas columnas como niveles tenga cada efecto fijo, para evitar
problemas de estimabilidad ignoraremos la columna para la media, de manera que no
tengamos que imponer restricciones en este ejemplo particular, de esta manera en el vector de soluciones, obtendremos como solucin la media de cada sexo. Para la construccin de X simplemente teniendo dos niveles, habr que definir 2 columnas y asociar los
registros con cada columna, en el lugar que un registro tenga valores asociados con ese nivel coloque un 1, el resto lo completa con 0s, proceda as hasta agotar todos los niveles.
1
1
X =
0
0
127
0
0
1
1
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1
4 , 0
4 ,1
El vector de observaciones es simplemente: y =
3 , 7
4 ,2
2 0
X X =
0 2
0
0
1
Z X =
1
0
0
0
0
0
0
1
1
0 0 1 1 0 0
X Z =
0 0 0 0 1 1
0
0
0
Z Z =
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
1
Ahora, los productos de las matrices de incidencia del efecto fijo y el efecto aleatorio multiplicado por y, para formar parte del RHM, sern:
128 / Jos Atilio Aranguren Mndez & Rafael Mara Romn Bravo
0
0
4 , 0
Z y
4 ,1
3 , 7
4 ,2
8 ,1
X y =
7 , 9
0
0
1
1
0
0
0 0 0 1 1 0 0 s$1 8 ,1
2 0 0 0 0 0 0 s$2 7 , 9
0 0 0 0 0 0 0 a$1 0
0 0 0 0 0 0 0 a$ 2 0
* =
0 0 0 1 0 0 0 a$ 3 4 , 0
0 0 0 0 1 0 0 a$ 4 4 ,1
1 0 0 0 0 1 0 a$ 5 3 , 7
1 0 0 0 0 0 1 a$ 6 4 ,2
A 1
1
1/ 2
0
1 / 2 1
2
1 / 2 11 / 6
1 2 / 3
0
0
1
2 / 3 0
7/3
0
1
=
0 2 / 3
0
4/3
0
0
0
2 / 3
0
11 / 6 1
1 / 2
1
0
0
0
1
2
(1 h 2 )
h2
(1 0 , 6 )
0, 6
=2
[6]
129
1 / 3 2 / 3
0
1 / 3 2 / 3
4/3
1 / 3 11 / 9 2 / 3 4 / 9
0
0
0
4 / 9
0
2 / 3 2 / 3 14 / 9
-1
* A =
0
4 / 9
0
8/ 9
0
0
0
4 / 9
0
11 / 9 2 / 3
1/ 3
2 / 3
0
0
0
2 / 3 4 / 3
[7]
0
0
1
1
0
0
0
2
0
0
0
0
1
1
s$1 8 ,1
s$ 7 , 9
2
1,3333
0 ,3333 0 , 6667
0
0 ,3333 0 , 6667 a$1 0
a$ 0
0 ,3333
1,2222 0 , 6667 0 ,4445
0
0
* 2 =
0 , 6667 0 , 6667 2 ,5555
0
0 ,4445
0
a$ 3 4 , 0
a$ 4 ,1
0
0 ,4445
0
1,8889
0
0
4
0 ,3333
0
0 ,4445
0
2 ,2222 0 , 6667 a$ 5 3 , 7
0 , 6667
0
0
0
0 , 6667 2 ,3333 a$ 6 4 ,2
0
0
0
0
1
0
1
0
0
1
0
1
[8]
Para este caso simple, la solucin de este sistema se puede realizar con muy pocos
individuos, por inversin directa o por medio de un procedimiento iterativo como por
ejemplo, uno de los ms simples, el procedimiento de Gauss-Seidel. En casos de aplicaciones reales que involucran miles de animales, se requiere obligatoriamente recurrir a
mtodos iterativos, en los cuales hay en la actualidad un desarrollo considerable.
s$1
2
s$
0
2
a$1
0
a$
0
2 = b
a$ 3
1
a$
1
4
a$ 5
0
a$
0
6
-1
0
0
0
1
1
0
0
8 ,1
7 , 9
2
0
0
0
0
1
1
0 1,3333
0 ,3333 0 , 6667
0
0 ,3333 0 , 6667
0
0
0 0 ,3333
1,2222 0 , 6667 0 ,4445
0
0
*
0 ,4445
0 0 , 6667 0 , 6667 2 ,5555
0
0
4 , 0
4 ,1
0 ,4445
0
0
0
1,8889
0
0
0 ,4445
1 0 ,33333
0
0
2 ,2222 0 , 6667
3 , 7
4 ,2
1 0 , 6667
0
0
0
0 , 6667 2 ,3333
La inversa de la matriz de coeficientes de las MME, la cual requerimos para obtener su diagonal, con el propsito de calcular los errores tpicos de la prediccin,
exactitudes y confiabilidades es ilustrada a continuacin:
130 / Jos Atilio Aranguren Mndez & Rafael Mara Romn Bravo
$s1 1,4369
$s 0,4465
2
$ 1 0,3828
$ 0,7475
2 =
$ 3 0,9373
$ 4 0,9366
$ 5 0,4607
$ 6 0,4324
a$1 0 , 0652
a$ 0 , 0284
2 =
a$ 3 0 , 0302
a$ 0 , 0160
4
a$ 5 0 ,1005
a$ 0 , 0961
6
La inspeccin de las MME nos indica que la solucin para cada sexo est dada
por las expresiones:
1
s$1 = [8 ,1 a$ 3 a$ 4 ] 4 , 0571
2
1
s$2 = [ 7 , 9 a$ 5 a$ 6 ] 3 , 9592
2
Las cuales reflejan directamente los promedios de cada sexo (por cuanto se elimin la ecuacin para la media) ajustadas por el efecto gentico aditivo de los animales que se sumen para obtener el total de cada sexo.
131
con registros, con uno o ambos progenitores conocidos, pero sin progenie y c) Individuos con registros, con uno o ambos progenitores conocidos y con progenie.
El aporte de cada fuente de informacin es ms fcil de entender si despejamos,
para cada animal en las MME dadas en [8]; en otras palabras, tomando el producto de
la matriz de coeficientes por las incgnitas, igualndola con el RHM y posteriormente
despejando en trminos de los efectos, tal como si fusemos a resolver el sistema de
ecuaciones en forma iterativa. Los casos de animales sin registros son fciles de seguir; pero en los otros casos, las manipulaciones algebraicas son ms complejas y requerirn adems del uso de factores de ponderacin.
CPi
diagonal MME
[9]
[10]
1
[( a$ 3 (1 / 2 ) a$ 2 ) + ( a$ 6 (1 / 2 ) a$ 5 )]
2
132 / Jos Atilio Aranguren Mndez & Rafael Mara Romn Bravo
$ 1 =
1
[( ($ 3 (1 / 2 ) $ 2 ) + ( $ 6 (1 / 2 ) $ 5 )]
2
11
2
)$a 2 a$ 3 a$ 4 = 0
6
3
11
2
a$ 2 = ( a$ 3 (1 / 2 ) a$1 ) + a$ 4 )
2
3
a$ 2 =
6
2
(a$ 3 (1 / 2 ) a$1 + a$ 4
11
3
a$ 2 =
6
2
($a 3 (1 / 2 ) a$1 ) + a$ 4 )
11
3
a$ 2 =
1
[(2 / 3 ) (0 ,302 (1 / 2 ) 0 , 0652 ) + (2 / 3 ) (2 / 3 ) 0 , 0160] = 0 , 0284
11 / 9
133
dh 2
(dh + (1 h 2 )
2
Donde d son elementos que toman valores de , 1 segn si ambos, uno o ningn
progenitor es conocido. Para el caso del animal con ambos progenitores conocidos:
BLUP ((a 6 ).
k=
(0 ,50 ) (0 , 6 )
0 ,4286
(0 ,50 ) (0 , 6 ) + (1 0 , 6 )
2 4
2 1 =
3 3
1
n3 = (1 / 2 ) g
1 2 2 2
=
2 3 3 9
134 / Jos Atilio Aranguren Mndez & Rafael Mara Romn Bravo
El denominador es:
d = n1 + n2 + n3
w1 =
4/3
12
23 / 9
23
w2 =
1
9
23 / 9
23
w3 =
2/ 9
18
23 / 9
207
23
9
12 9 18
(w 3 + w 2 + w 3 ) = + +
1
23 23 207
a$ 3 = w1 ( AP) + w 2 ( RC ) + w 3 (CP)
Nota: para el clculo de la contribucin de la progenie CP se debe aplicar el trmino entre corchetes dado en [9].
a$ 3 = w 1 (1 / 2 )($a1 + a$ 2 ) + w 2 ( y 3 s$1 ) + w 3 (2 a$ 5 )
a$ 3 =
12 1
18
9
(2 (0 ,1005)) 0 , 03022
(0 , 0652 + (0 , 0284 )) + (4 , 0 4 , 0571) +
23 2
207
23
(1 r 2 ) a2
di , i
e2
a2
135
= (1 r 2 )
d i , i =1 r 2
r 2 = 1 di , i
BLUPs, elementos de la diagonal, confiabilidades y exactitudes
de las evaluaciones
animal
BLUP
di,i
r2
a$1
0,0652
1,2776
0,1482
0,3850
$ 2
-0,0284
1,4895
0,0699
0,0836
a$ 3
-0,0302
1,2021
0,1986
0,4456
a$ 4
0,0160
1,2009
0,1994
0,4466
a$ 5
0,1005
1,3528
0,1161
0,3408
a$ 6
0,0961
1,4228
0,0515
0,2269
136 / Jos Atilio Aranguren Mndez & Rafael Mara Romn Bravo
REFERENCIAS BIBLIOGRFICAS
Henderson CR. 1973. Sire Evaluation and Genetic Trends. In: Proc Anim Breed Genetics
Symp in Honour J.L. Lush. Am Soc Anim Sci. Blackburgh, Champaign, Illinois. pp 10-41.
Henderson CR. 1974. General flexibility of linear model techniques for sire evaluation.
Symposium: New sire evaluations. J Dairy Sci. 57 (8): 963-972.
Henderson CR. 1976. A simple method for computing the inverse of the relationship
matrix used in prediction of breeding values. Biometrics 32: 69-83.
Henderson CR. 1988. Theoretical basis and computational methods for a number of
different animal models. J Dairy Sci. 71(Suppl. 2): 1-16.
Henderson CR, Kempthorne O, Searle SR, von Krosigk CM. 1959. The estimation of environmental and genetic trends from records subject to culling. Biometrics. 13:192-218.
Litell RC, Milliken GA, Stroup WW, Wolfinger ES, Shabenberger O. 2006. SAS for Mixed Models. 2nd Edition. SAS Institute Inc., Cary, NC, USA pp. 206-242.
Mrode RA. 1996. Linear Models for the Prediction of Animal Breeding Values. CAB, International, Wallingford, U.K. 187 pp.
Robinson GK. 1991. That BLUP is a Good Thing: The Estimation of Random Effects.
Stat Sci. 6 (1): 15-33.
Van Raden PM, Wiggans GR. 1991. Derivation, calculation, and use of national animal
model information. J Dairy Sci. 74: 2737-2746.
Van Vleck LD. 1993. Selection Index and Introduction to Mixed Model Methods. CRC
Press, Inc. Boca Raton, Fl, U.S.A. 481 pp.
Van Vleck LD. 1998. Charles Roy Henderson, 1911-1989: a brief biography. J Anim Sci.
76: 2959-2961.