Beruflich Dokumente
Kultur Dokumente
Mónica Balzarini
Cecilia Bruno
Alejandra Arroyo
Estadística y Biometría.
i
estabilidad, ecotipos, ideotipos y subregiones o mega-ambientes se pueden
analizar a partir de la interacción genotipo×ambiente.
ii
Organización del Texto
iii
CONTENIDOS
PARTE I.................................................................................................................................................................1
MODELOS CIENTÍFICOS...................................................................................................................................1
PARTE II ...............................................................................................................................................................9
INTRODUCCIÓN ................................................................................................................................................ 11
ENSAYOS COMPARATIVOS MULTI-AMBIENTALES ............................................................................................. 13
GENOTIPO (G) ................................................................................................................................................. 14
AMBIENTE (E) .................................................................................................................................................. 14
INTERACCIÓN GENOTIPO×AMBIENTE (GE)...................................................................................................... 14
ADAPTABILIDAD................................................................................................................................................ 16
MEGA-AMBIENTES............................................................................................................................................ 17
ECOTIPOS E IDEOTIPOS ................................................................................................................................... 18
ESTABILIDAD .................................................................................................................................................... 18
CONFIABILIDAD DEL RENDIMIENTO ................................................................................................................... 21
MODELOS PARA ANÁLISIS EN ENSAYOS COMPARATIVOS DE RENDIMIENTO ..................................................... 21
ENSAYOS EN LAS PRIMERAS ETAPAS DE EVALUACIÓN .................................................................................... 25
ENSAYOS EN ETAPAS AVANZADAS DE EVALUACIÓN ........................................................................................ 26
v
ANEXO DESCRIPCIÓN DE LAS BASES DE DATOS UTILIZADAS COMO EJEMPLOS................... 123
vi
PARTE I
MODELOS CIENTÍFICOS
Modelo Matemático
1
No existen modelos “buenos”, pero existen modelos que “son útiles”. No hay un
modelo “que tenga de todo”, cada modelo permite abordar algún punto de vista,
proporcionado una visión complementaria a la parte experimental.
Modelo Estadístico
2
Schabenberger y Pierce (2002) comentan que la inclusión de elementos
estocásticos (aleatorios) en un modelo matemático conduce a modelos más
parsimoniosos y a menudo a abstracciones más seguras que muchos modelos
determinísticos complejos.
3
necesita realizar omisiones de ciertos datos y suposiciones para abstraer el
fenómeno y conseguir un modelo útil para el valor esperado o promedio.
Para realizar inferencias a partir de modelos de efectos fijos sólo hay que
especificar supuestos distribucionales o probabilísticas sobre los términos
asociados a la variación no explicada (términos de error). Cuando se trabaja
con variables Y continuas como el rinde, generalmente se supone que los
errores se distribuyen independientemente como variables aleatorias normales
de media cero y varianza constante.
4
Estos supuestos se sustentan en un esquema de muestreo ideal y en un buen
diseño experimental. No siempre se cumplen, por lo que se han desarrollado
procesos de estimación asociados a modelos no lineales para datos no
normales, varianzas heterogéneas y datos no independientes. Casanoves
(2004, 2005b) ilustra aplicaciones de la teoría de modelos mixtos para modelar
falta de independencia y heterogeneidad de varianzas en modelos lineales para
ensayos multi-ambientales. En esta edición del libro, al usar modelos lineales
de ANAVA y RL supondremos que se cumplen los supuestos usuales del
muestreo ideal.
Como se dijera anteriormente las variables input de estos modelos pueden ser
variables de clasificación (es decir variables que generan categorizaciones o
clases de datos) o covariables (variables continuas que podrían variar
concomitantemente con la variable respuesta).
5
(Genotipo, Ambiente, Bloque) y de propiedades particulares respecto del
fenómeno estudiado.
Inferencia Estadística
6
Cuando la hipótesis se rechaza se concluye que el input asociado a ese
parámetro es influyente o importante en la explicación de la variabilidad de Y.
7
PARTE II
ENSAYOS MULTI-AMBIENTALES
EN AGRICULTURA
Introducción
11
precipitaciones, radiación y temperatura) y de suelo; éstas en interacción con
aquellas debidas a la mejora continua del germoplasma vegetal y de las
tecnologías de producción, provocan respuestas altamente variables. La
interacción genotipo×ambiente, ofrece posibilidades, especialmente en la
selección y adopción de genotipos que muestren interacción positiva con una
localidad y sus condiciones ambientales prevalecientes (exploración de
adaptación específica) o de genotipos con baja frecuencia de rendimientos
pobres o fracaso del cultivo (exploración de estabilidad de rendimientos) (Kang,
1990).
12
sistemas de cultivos en múltiples ambientes suelen tener un diseño balanceado
y con repeticiones dentro de cada ambiente, su elevado costo muchas veces
limita el plan experimental a nivel multi-ambiental y a menudo las conclusiones
deben extraerse de bases de datos con discontinuidad en el tiempo, con alta
dinámica de tratamientos entre ambientes y por tanto altamente
desbalanceadas.
13
abreviaciones que serán usadas, en concordancia con aquellas de la
bibliografía internacional.
Genotipo (G)
Ambiente (E)
14
variación entre los genotipos para caracteres morfofiosiológicos de resistencia
(o de escape) a uno más tipos de stress, o de una alta variación entre
ambientes para la incidencia del mismo o mismos tipos de stress (como los
determinados por clima, suelo, factores bióticos y de manejo). La estructura
genética del material vegetal puede también tener relación con la magnitud de
la interacción GE. Los tipos de variedades caracterizados por pocos niveles de
heterogeneidad (líneas puras, clones, híbridos simples) o heterocigosis (líneas
puras) tienden a interactuar con el ambiente más que los tipos de variedades
con comportamiento opuesto (poblaciones de polinización abierta, mezclas de
líneas puras) porque son menos ricos en genes de adaptabilidad y su estructura
genética los hace más susceptibles a las variaciones en las condiciones
ambientales (Annicchiarico, 2002).
35 35
30 30
25 25
rendimiento
rendimiento
20 20
15 15
10 10
5 5
0 0
1 2 1 2
ambiente ambiente
15
35 35
30 30
25 25
rendimiento
rendimiento
20 20
15 15
10 10
5 5
0 0
1 2 1 2
ambiente ambiente
Adaptabilidad
Se refiere a la habilidad del genotipo de tener buen desempeño (por ej. altos
rendimientos) con respecto a determinadas condiciones ambientales. La
información provista por los ensayos multi-ambientales permite evaluar
adaptabilidad e identificar el tipo y tamaño de la interacción GE esperada en
una región dada para definir, si es necesario, una estrategia de cultivo exitosa
con respecto a los efectos de interacción. Los efectos de interacción que son de
importancia práctica pueden ser maximizados para el desarrollo de
germoplasma específicamente adaptado o minimizados para el desarrollo de
16
material ampliamente adaptado. Cuando el tamaño de los efectos de
interacción entre genotipos y localidades (interacción GE repetible) es pequeño
comparado con otras fuentes de variación en la respuesta, particularmente con
la variación genotípica, se reduce la posibilidad de mejoramiento para
adaptación específica. Los patrones de adaptación con respecto a localidades
individuales son de limitado interés per se, ya que la muestra de sitios o
localidades con la que comúnmente se trabaja es muy pequeña comparada con
el número de localidades de la región en estudio. El mejoramiento genético
específico, debiera ser dirigido hacia áreas o subregiones y en general no es de
interés ahondar en los efectos de interacción positiva de genotipos con
localidades particulares. Las estrategias de adaptación amplia surgen cuando
hay baja interacción entre genotipos y localidades o bien aunque la varianza de
interacción sea grande, no existen ventajas claras de una crianza específica.
Mega-ambientes
Los sitios que son similares en términos de respuesta genotípica suelen ser
agrupados por diferentes métodos, y cada grupo puede identificar un área de
cultivo que es relativamente uniforme porque los efectos de la interacción GL
son limitados o despreciables. Tales áreas (posibilidad del objeto de
mejoramiento específico) han sido definidas por diferentes autores como
subregiones, subzonas, subáreas, macro-ambientes o mega-ambientes
(CIMMYT, 1989; Yan y Hunt, 2002).
17
es geográficamente exacta. La identificación de subregiones, aún cuando no se
pretende mejorar para áreas específicas, podría ayudar a localizar sitios de
prueba cruciales para selección de germoplasma. Las subregiones que son
demasiado pequeñas para tener interés práctico a veces suelen ser fusionadas
con algunas más grandes.
Ecotipos e Ideotipos
Estabilidad
18
Contrariamente, desde el concepto dinámico, un genotipo se considera estable
si tiene una respuesta predecible a las variaciones ambientales. Para el caso en
que el rendimiento es el carácter en estudio, se espera que un genotipo estable
rinda lo estimado o predicho por las condiciones ambientales. Becker (1981)
llamó a este tipo de estabilidad el concepto agronómico y lo distinguió del
concepto biológico, el cual es equivalente al concepto estático.
La clasificación dada por Lin et al. (1986) representa tres tipos diferentes de
conceptos de estabilidad. Para la estabilidad tipo I, un genotipo es considerado
estable si su varianza entre los ambientes es pequeña. Este tipo de estabilidad
sería análogo al concepto de homeostasis que Becker (1981) llamó estabilidad
biológica. Desde un punto de vista agronómico genotipos con una buena
estabilidad tipo I pueden no ser preferidos por presentar bajos rendimientos en
ambientes que son altamente productivos para otros cultivares. Obviamente,
una respuesta fenotípica de alto rendimiento acompañada de alta estabilidad
tipo I es deseable, pero esto puede ser muy difícil de alcanzar en la práctica,
razón por la cual frecuentemente se hace necesario evaluar los genotipos
desde conceptualizaciones diferentes a la de estabilidad tipo I. La utilidad de la
estabilidad tipo I depende del rango de variación de las condiciones
ambientales que se incorporan en un ensayo. Si se trata de experimentos multi-
ambientales, con ambientes muy distintos, los estadísticos de estabilidad de
tipo I pueden no ser tan útiles como en ensayos donde se comparan varios
genotipos dentro de una región o a través de ambientes no muy diferentes.
19
La estabilidad tipo II considera un genotipo estable si su respuesta al ambiente
es paralela a la respuesta promedio de todos los genotipos en el ensayo. Este
tipo de estabilidad sería análogo al concepto agronómico dado por Becker
(1981). La estabilidad tipo II tiene el inconveniente de tomar valores relativos a
los genotipos presentes en el ensayo. Esto dificulta la comparación de
genotipos provenientes de ensayos diferentes, o de genotipos que año a año se
van incorporando. La selección de los genotipos que intervienen en el ensayo
debe ser hecha muy cuidadosamente y en función del nivel de inferencia que
se quiera alcanzar con los resultados.
20
esto es también importante evaluar la estabilidad del rendimiento con respecto
a los efectos de la interacción genotipo-año dentro de las localidades. En
realidad, la consistencia del rendimiento en el espacio también merece
consideración en presencia de interacción genotipo-localidad significativa, ya
que un genotipo seleccionado o recomendado debería ser estable tanto a
través de los años como a través de las localidades en su área de adaptación o
recomendación (Piepho, 1998). Mejorar por alta estabilidad de rendimiento
puede considerarse un objetivo útil cuando la variación en la interacción GE es
grande.
21
media general; Gi es el efecto (que puede ser considerado como aleatorio o fijo)
del genotipo i con i=1,...,g; Ej es el efecto fijo del ambiente j con j=1,…,t; B(E)k(j)
es el efecto de bloque k dentro del ambiente j; GE(ij) es el efecto aleatorio de la
interacción del genotipo i con el ambiente j; y εijk es el término de error aleatorio
asociado a la observación yijk. Cuando se analizan caracteres continuos como
el rendimiento, los términos de error generalmente se suponen distribuidos
normalmente con media cero pero la varianza de los errores puede ser
constante o no. En numerosas ocasiones resulta apropiado considerar que la
variación residual es heterocedástica (i.e. no constante) a través de las
localidades, ya que ensayos conducidos en diferentes localidades suelen tener,
por múltiples razones, diferente precisión.
Aún cuando exista interacción con cambio de rango, si la misma refleja cambios
de rankings entre cultivares que pertenecen a una misma subregión, se suele
inferir la existencia de mega-ambientes. En general las tablas de datos de ECR
conducidos en un mismo año o campaña agrícola son completas. El modelo
básico para datos de ECR provenientes de una misma campaña agrícola es el
modelo de ANAVA a dos vías de clasificación presentado anteriormente donde
las localidades constituyen los ambientes. El término de interacción GEij,
interacción del i-ésimo genotipo en el j-ésimo ambiente, es estimado desde la
tablas de medias de genotipo en cada ambiente como el residuo del modelo
22
aditivo, y ij − y i . − y . j + y .. . El término de error del modelo de medias a través de
23
GE sobre el total de (G+E+GE), donde E representa el efecto del ambiente
definido por la combinación de los niveles de los factores localidad (L) y
Campaña (C).
24
1996), tanto como del aumento de la heredabilidad del rendimiento como una
consecuencia del decrecimiento de la interacción GE (Kang, 1998).
25
recomendados para ser usados como predictores del desempeño futuro de
cada genotipo ya que ponderan el rendimiento observado en el genotipo por la
heredabilidad del carácter y contemplan el desbalance de información que
puede existir entre los genotipos que se están comparando (Balzarini, 2000;
Casanoves y Balzarini, 2003). El uso del BLUP de genotipos permite ponderar
las predicciones sobre genotipos en relación a la estructura de covarianzas
genéticas subyacentes. Si se tiene información de pedigree o molecular que
permita establecer relaciones genéticas (covarianzas) entre las líneas
comparadas, éstas pueden ser incorporadas en la expresión del predictor,
incrementando la información disponible desde cada evaluación (Bernardo,
1999).
Los ECR se conducen en distintos sitios durante una serie de años para
obtener información que sustente la recomendación de cultivares superiores. La
información obtenida desde ensayos mutli-ambientales es explorada para
predecir respuestas de rendimiento en años venideros y, más comúnmente en
nuevas localidades. Los ensayos multiambientales en esta etapa generalmente
contienen un número reducido de genotipos mejorados (altamente
seleccionados) y uno o más cultivares comerciales usados como testigos
(Balzarini, 2001). El objetivo es comparar rendimientos promedios y estabilidad
de los rendimientos de los genotipos sobre varios ambientes y promedios de
rendimientos en ambientes específicos. Si bien se pretende identificar cultivares
superiores para un determinada región objetivo, estos ensayos también suelen
ser usados con otros propósitos, por ej., para evaluar si la región para la cual se
esta produciendo material puede ser subdividida en diferentes mega-ambientes
cuando la extensión de la interacción GE es considerablemente alta. Un mega-
ambiente usualmente representa un área relativamente amplia, no
necesariamente continua, con condiciones similares de stress biótico y abiótico,
requerimiento de sistemas de cultivo, preferencias del consumidor y de
volúmenes de producción (Braun et al., 1996). Gauch y Zobel (1996,1997)
26
definieron un mega-ambiente como una fracción del área de cultivo de una
especie que muestra condiciones ambientales homogéneas y que causa que
ciertos genotipos se desempeñen similarmente. Usando una base de datos de
ECR de maíz Gauch y Zobel (1997) presentaron la metodología www o “which
wins where” para identificar mega-ambientes, ésta constituye una aproximación
multivariada al estudio de interacción GE.
En los GGE biplots la SVD se aplica sobre una matriz conteniendo variaciones
debidas a G+GE, esto posibilita visualizar puntos que representan los filas
(genotipos) y otros que representan las columnas (ambientes) de la matriz de
datos con variaciones debidas a G+GE. Cuando la CP1, Componente Principal
de mayor variación, se correlaciona altamente con las medias de genotipo, se
interpreta que las diferencias entre genotipos observados a lo largo de este eje
representan respuestas proporcionales de los cultivares a través de los
ambientes. Los cultivares con altos valores de CP1 serán, en todos los
ambientes, más rendidores que los cultivares con bajos valores de la CP1. En
estos casos la CP2 generalmente muestra variaciones debidas a GE, es decir
27
respuestas no proporcionales de los genotipos a través de los ambientes, las
cuales son responsables de cambios de orden o ranking de los cultivares a
través de los ambientes (interacción crossover). Así, genotipos con valores altos
de CP1 se asocian a una respuesta promedio mayor y a ambientes con altos
valores de CP1 y valores de CP2 cercanos a cero facilitan la identificación de
tales genotipos. Las interpretaciones a realizar para este tipo de gráficos
depende de cada matriz de datos particular, es decir de cuánta variación debida
a los efectos G y GE se encuentran representadas por cada eje y por ello no
sólo es necesario indagar sobre los porcentajes explicados por cada eje, sino
también por el tipo de variación contenida en cada uno de ellos.
28
pruebas extremadamente valiosas para proporcionar causas de la ocurrencia
de interacciones GE, proporcionar promedios para la caracterización de las
subregiones y extender los resultados a nuevos sitios. También son útiles para
aumentar el conjunto de modelos posiblemente adoptados para el análisis de
adaptación y para identificar caracteres adaptativos y evaluar su potencial como
criterio de selección indirecto. Además, la comparación entre datos climáticos
de los años probados con los datos de los sitios a largo plazo puede ayudar a
verificar si ocurrió algún año con características muy inusuales para mejorar la
inferencia.
29
PARTE III
Descripción
33
La diferencia entre el valor observado y el valor ajustado por el modelo
se denomina residuo. Ellos son utilizados como herramienta de
diagnóstico del modelo y para explorar patrones de interacción con el
ambiente en ensayos multi-ambientales muchas veces se ajusta un
modelo o se aplica algún método de análisis sobre los residuos para
analizar la tendencia de la variabilidad contenido en los mismos.
Objetivo
Datos
Ejemplo
Modelo: Rinde=µ+Híbrido+Ambiente+Ambiente>rep+Híbrido*Ambiente+ε
34
ambiente y ε es un término de error aleatorio.
Menú Estadísticas
Comando Análisis de la varianza
Ventana Selector de Variables
Variables dependientes
Rinde
Variables de clasificación
Hibrido
Ambiente
rep
Ventana Análisis de Varianza
Solapa Modelo (Tipear Modelo)
Ambiente\Ambiente>rep
Hibrido
Ambiente>rep
Hibrido*Ambiente
Análisis de la varianza
Variable N R² R² Aj CV
Rinde 168 0,90 0,83 9,44
35
Interpretación
36
El programa ordena automáticamente las medias de cada nivel en orden
ascendiente, colocando letras diferentes a los niveles del factor en estudio que
muestras diferencias estadísticamente significativas para el nivel de
significación (α) fijado por el experimentador (en este caso α=0.05).
Con la prueba LSD de Fisher, tanto para las medias de ambientes como para
las de híbridos, hay superposición de letras diferentes, dificultando su
interpretación, sin embargo la prueba LSD permite concluir que los ambientes
que presentaron un mayor rendimiento promedio se asocian en general con las
localidades que recibieron fertilización nitrogenada (BN, ON, CN y PN) y que el
híbrido 2 presenta menor rendimiento promedio que los híbridos 5, 3 y 8 que
son de alto Rinde pero que no difieren en promedio de lo híbridos 4 y 7. Usando
DGC también se puede concluir que las localidades que recibieron fertilización
nitrogenada se asociaron con los mayores rindes y que se diferencian del resto
de las localidades. Entre las localidades que no recibieron fertilización
nitrogenada (P, O y C), P fue la que presentó menor rendimiento promedio. En
la comparación de los híbridos, surge que el 2 es el de menor rendimiento
medio, hay un grupo de híbridos con rendimiento promedio intermedio (1, 6 y 7)
y un grupo de alto rendimiento medio (3, 4, 5 y 8). La prueba DGC constituye un
método particionante (sin solapamiento de letras entre las medias) que es
recomendable para comparar muchas medias, digamos 5 o más (Di Rienzo et
al., 2001).
37
Cuadro 4. Resultado de comparaciones múltiples de a pares con la prueba de LSD Fisher
38
para cada ambiente (media ± EE) (izquierda) y para cada híbrido (media ± EE)
(derecha). Además se presentan las letras resultantes de la prueba de
comparaciones múltiples DGC.
1650 c 1500
c c
c
c c
1470 c 1400
c
b
b
b
Rinde (g/m2)
Rinde (g/m2)
1290 b 1300
a
1110 b 1200
930 1100
a
1000
750
2 6 1 7 4 8 3 5
P O C BN ON CN PN
Hibrido
Ambiente
Figura 2. Rendimiento promedio y error estándar para cada ambiente (izquierda) y para cada
híbrido (derecha). Letras distintas indican diferencias estadísticamente significativas (p<0.05),
prueba de comparaciones múltiples DCG.
39
Análisis de Componentes Principales (ACP)
Descripción
Objetivo
41
Datos
42
9 Interpretar “similaridades/disimilaridades” entre casos en función de las
distancias entre proyecciones sobre la CP1.
Ejemplo
43
base de datos conformada por los casos (filas) y variables (columna).
Menú Estadísticas
Comando Análisis Multivariado
Opción Componentes Principales
Ventana Selector de variables
Variables
Rinde
PG
NG
EI_F
EI_Fll
IV1-3
IV4-6
IV7-9
EUN
Criterio de clasificación
Ambiente
Híbrido
44
4
PN:4
PN:8
IV7-9
PN:6 PN:2 PN:3
2 NG PN:1 IV1-3
Rinde IV4-6
EI_F
PN:5 O:6 P:8 P:6
CP 2 (20.5%)
EI_Fll
O:3 O:8
CN:8 PG
0 P:4
CN:5 P:7
O:4
BN:4 BN:6 O:1
BN:8 P:3
CN:7
C:7 C:5 P:5
-2 BN:2 ON:5 EUN
P:1
BN:5
BN:7
-4
-4 -2 0 2 4
CP 1 (43.3%)
Figura 3. Biplot según el plano conformado por las dos primeras componentes principales (CP1
y CP2). Los puntos representan los casos (combinación de híbridos-ambientes) y los vectores
las variables. Se han identificado los casos marginales o aquellos con mayor inercia sobre cada
eje.
Interpretación
45
Los casos con mayor inercia, i.e., los casos cuyas proyecciones se encuentran
más distantes del cero, son los casos más representativos de la variabilidad
total. Por ejemplo, se manifiestan mayores diferencias entre P respecto de BN y
CN. Las variables con mayor inercia hacia la derecha son IV4-6 e IV1-3 y hacia
la izquierda Rinde, EI_Fll y PG. Dado que el ángulo entre IV4-6 e IV1-3 es
agudo y muy cerrado, suponemos que estas variables están positiva y
altamente correlacionadas, mientras que no se correlacionan con EUN, ya que
los vectores que las representan forman un ángulo recto, y se encuentran
correlacionadas negativamente con Rinde y PG (ángulo obtuso). Por otro lado,
el Rinde, PG, NG, EI_F y EI_Fll fueron las variables que presentaron valores
más altos en los casos posicionados sobre la izquierda del Biplot (fertilizados),
mientras que IVH1-3, IVH4-8, IVH7-9 y EUN presentaron los valores más altos
en los casos posicionados a la derecha del Biplot (casos sin fertilización
nitrogenada).
46
Estudio de Interacción con modelos de ANAVA y ACP
r
y ij = µ + Gi + A j + ∑ λnξ niηnj + ρ ij + ε ij
n =1
∑λ ξ
n =1
ηnj es la sumatoria de términos multiplicativos que modela la
n ni
47
multiplicativo y εij es el término de error aleatorio. El término ξni puede ser
48
Modelo AMMI y Biplots para AMMI(2) y AMMI(1)
Descripción
49
Componentes Principales sobre los residuos de ese modelo aditivo. De
esta manera el residuo obtenido para cada observación (o el promedio
de los residuos para las repeticiones de una combinación genotipo-
ambiente) contiene además de una medida del error experimental el
efecto de la interacción GE. El ACP es aplicado sobre esta matriz de
residuos para rescatar las principales componentes de variación que se
espera se relacionen con algún patrón sistemático debido a la interacción
y separar aquellas componentes asociadas a alguna “señal” de la últimas
que muy probablemente se asocien a la variación debido al “ruido” o
error aleatorio. Ambos análisis son aplicados automáticamente cuando
se solicita un análisis de interacción en Info-Gen y se especifica
correctamente los términos del modelo de ANAVA a ajustar en la primera
etapa.
Objetivo
Datos
50
Ejemplo
Menú Mejoramiento
Comando Análisis de Interacción
Ventana Selector de Variables
Variable dependiente
Rinde
Criterio de Clasificación
Líneas
Ambientes
51
Cuadro 10. Gráficos Biplot asociado al modelo AMMI(2) (arriba) y AMMI(1) (abajo)
2.30
IO0
12
1.22 19 22
13 16
CP 2 (17.8%)
15
9 28 30
14 5 6 VJ
0.15 SC 29 18
2 8 IE1 21
1 SM
27
IE0 25 IE2 23 17
10 7
24
MG 26
3 20 IO1
-0.93 11
4
-2.00
-2.00 -1.00 0.00 1.00 2.00
CP 1 (55.3%)
0.50
MG
IE0 VJ
SC
L8 L1 L15 L14
0.25 SM
L6
L12 L7
Scores CP1
L11
L25 L29
L3 L24
0.00
L4 L28
L13
L20
L26
L18 L23 IO0
L22
-0.25 L30
IE1
IE2
IO1
-0.50
1.0 1.2 1.4 1.6 1.8 2.0
Rinde medio
52
Interpretación
53
(todas fechas de plantación en Puerto Rico, excepto enero 1990) tendieron a
asociarse o mostrar correlación positiva con líneas indeterminadas, mientras
que los ambientes IE0, MG, SC, SM y VJ parecieran estar positivamente
correlacionados con líneas de hábito de crecimiento determinado. La CP2
diferencia líneas en función de la correlación de los términos de interacción con
el ambiente IO0.
54
Modelo SREG y Biplot GGE
Descripción
Los modelos de regresión por sitio (SREG, Cornelius et al., 1996; Crossa
y Cornelius, 1997 y 2002) son modelos lineales-bilineales que remueven
el efecto de sitio y sólo expresan a la respuesta en función de G+GE.
Son aconsejables cuando los sitios (o ambientes) constituyen la fuente
de variación más importante en relación a la contribución de los
genotipos y la interacción GE sobre la variabilidad total, situaciones éstas
muy comunes en la práctica. Para visualizar los patrones de interacción
con remoción de los efectos de ambiente (datos centrados por sitio), Yan
et al. (2000) proponen los gráficos GGE biplots. A partir de estos gráficos
se puede investigar la diferenciación de mega-ambientes entre los
ambientes en estudio y seleccionar cultivares superiores en un mega-
ambiente dado. El modelo para construir un GGE biplot con las 2
primeras CP, a partir de la SVD de datos centrados por efecto de
ambientes (Yan y Hunt, 2002) es:
y ij − y j = λ1ξ i 1η j 1 + λ2ξ i 2η j 2 + ε ij
55
El GGE biplot basado en las dos primeras componentes es construido
graficando λ11/ 2ξi 1 y λ11/ 2η j 1 versus λ21/ 2ξi 2 y λ21/ 2η j 2 .
56
Objetivo
Datos
Ejemplo
Menú Mejoramiento
Comando Análisis de interacción
Ventana Selector de variables
Variable dependiente
Rendim
Criterio de Clasificación
Genotipo
Sitio
Bloque
Ventana Siguiente (Borrar Genotipo
manualmente)
57
Cuadro 12. Análisis de la Interacción Genotipo Ambiente para un modelo GGE
2
Sitio 2
1 Sitio 1
Sitio 3 Tegua
Florman
CP 2 (16.7%)
mf484
mf480
mf487
0
mf485 manf393 mf478
mf447
mf489
mf457
-1
-2
-2 -1 0 1 2
CP 1 (76.2%)
Figura 4. GGE biplot para la identificación de los mejores genotipos en cada sitio. Puntos
oscuros representan genotipos y puntos claros sitios.
58
Interpretación
Los genotipos que quedan en el vértice son los que más rinden en los
ambientes que quedan encerrados en el cuadrante. Se observa que en el
cuadrante que tiene como vértices a los genotipos mf480 y mf457 se encuentra
el Sitio 1. Estos genotipos son los de mayor rinde en ese sitio. Luego les sigue
en rendimiento el genotipo mf478. El cuadrante cuyo vértice esta determinado
por el genotipo Tegua, involucra al Sitio 2. Al genotipo Tegua le sigue en
rendimiento el genotipo Florman, aunque por su cercanía en el biplot estos
tienen rendimientos muy parecidos en ese sitio. El siguiente cuadrante queda
determinado por la proyección de la línea que une a los genotipos mf484 y
Tegua y por la proyección perpendicular hacia el origen de la línea que une
mf489 y mf457. En este cuadrante el marcador del genotipo mf485 es el vértice
del sector que contiene al Sitio 3 y a los genotipos mf485, mf484m, mf489,
mf487 y mf447 en orden de mayor a menor rendimiento dentro de ese sitio.
Todos los sitios que quedan en un mismo cuadrante pueden ser considerados
como pertenecientes a un mega-ambiente. Aquí, la componente de interacción
GE fue mayor que la componente de G, quedan todos los sitios en distintos
cuadrantes, sugiriendo la presencia de tres mega-ambientes diferentes.
59
60
Modelo GREG y Biplot GEE
Descripción
Objetivo
Datos
61
Ejemplo
Menú Mejoramiento
Comando Análisis de interacción
Ventana Selector de variables
Variable dependiente
Rinde
Criterio de Clasificación
Líneas
Ambiente
Ventana Siguiente (Borrar Ambiente
manualmente)
62
Cuadro 15. Gráfico GEE Biplot
3.2
14
15 12
6 IO0
1.6 MG 5 1 2
10 29 13 22
SM
25 IE1
CP 2 (21.3%)
8 19 IE2
11 24
7 28 16
0.0 VJ 21
3 20 17 30
SC
27 26 18
IE0 4 23
-1.6
IO1
-3.2
-3.2 -1.6 0.0 1.6 3.2
CP 1 (53.7%)
Interpretación
Para la identificación de los mejores ambientes desde los GEE biplot en primer
lugar se debe graficar un polígono envolvente de identificadores de ambientes,
este es automáticamente obtenido en Info-Gen. En la base de datos analizada,
los extremos que definen el envolvente están dados por los ambientes IO0, IO1,
IE0 y MG. Estos son ambientes de comportamiento extremo, i.e. los de mejor o
peor rendimiento para algunos genotipos. A continuación, para cada uno de los
lados del polígono (hay tantos lados como genotipos extremos haya) se trazan
líneas rectas que pasan por el origen y son perpendiculares a cada uno de los
lados del polígono (o a sus proyecciones). De esta manera se formaron cuatro
cuadrantes. Los ambientes que quedan en el vértice son los que más rinden
entre los que quedan encerrados en el cuadrante. El cuadrante cuyo vértice
es IE0 y que además contiene a los ambientes VJ y SC no contiene ningún
genotipo sugiriendo que estos ambientes son los de rendimientos más pobres
en todos las líneas evaluadas. El ambiente MG es vértice del cuadrante que
contiene a las líneas principalmente de crecimiento indeterminado. El
63
tercer cuadrante tiene como vértice IO0 y además contiene a los ambientes IE1
e IE2 y a la mayoría de las líneas de crecimiento determinado pero también
líneas de crecimiento indeterminado. Estos ambientes presentaron altos
rendimientos para líneas de los dos tipos de rendimiento. Ambientes como IE0
son desfavorables para rinde.
64
ACP en el Estudio de Correlaciones Genética y Ambientalmente
Determinadas
Objetivo
Datos
65
Ejemplo
Cuadro 16. Paso 1 para estudiar Correlación Genéticamente Determinadas con Info-Gen
Menú Datos
Comando Transformar
Ventana Selector de variables
Variables
Rinde
PG
NG
MS2-1
IC
IV7-9
EI_F
EI_Fll
EUN
Opción Estandarizar
66
Cuadro 17. Paso 2 para estudiar Correlación Genéticamente Determinadas con Info-Gen
Menú Estadísticas
Comando Medidas Resumen
Ventana Selector de variables
Variables
EST_Rinde
EST_PG
EST_NG
EST_MS2-1
EST_IC
EST_IV1-9
EST_EI_F,
EST_EI_Fll,
EST_EUN
Criterio de clasificación
Híbrido
Opción Medias
Cuadro 18. Paso 3. Ir a Menú Resultados, Comando Exportar Resultados como Tabla
9 Nota: Si los nombres de las variables están separados por espacios utilizar el
comando Separador de Campos>Tabulador del Menú Resultados
67
Cuadro 19. Paso 4. Sobre la Nueva Tabla confeccionada en el Paso 3
Menú Aplicaciones
Comando Interacción Genotipo-Ambiente
Borrar (Híbrido de Especificación del modelo
manualmente)
1.5 NG
1.0
5 IC
Rinde
0.5 6
8
CP 2 (18.5%)
MS2-1
3
0.0 EI_F EUN
4 1
-0.5 2 EI_Fll
7
IV7-9
-1.0 PG
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
CP 1 (66.0%)
Interpretación
68
Ejemplo
3.5
EI_F
2.3
PN
1.2 C CN
P
MS2-1
CP 2 (21.6%)
IV7-9 NG Rinde
0.0
PG
O
BN
-1.2
ON
EUN
-2.3 EI_Fll
IC
-3.5
-3.5 -2.3 -1.2 0.0 1.2 2.3 3.5
CP 1 (64.3%)
Interpretación
69
70
Análisis de Regresión
Descripción
71
mayores a 2 o menores a -2 son considerados outliers o valores atípicos.
Los gráficos de residuos más usados para diagnóstico son:
Objetivo
72
Datos
Ejemplo
Menú Gráficos
Comando Diagrama de dispersión
Ventana Selector de Variables
Eje Y
Rend
Eje X
Pr1
73
En la Figura 5 se muestran los diagramas de dispersión entre cada una de las
variables relacionadas a la precipitación y el rendimiento. No se observa
relación lineal aparente entre Pr1, Pr2 o Pr3 y el rendimiento, mientras que para
la suma de precipitaciones (Pr2+Pr3) se observa una tendencia cuadrática.
Esta tendencia es difícil de explicar desde un punto de vista agronómico ya que
en general, si hay más agua se espera más rinde. No obstante si se analiza la
relación para casos donde la suma no supera los 180 mm la relación pareciera
ser lineal. Será entonces de interés, en este problema, modelar la relación
antes y después del valor de la precipitación donde se produce un cambio en la
tendencia. Si bien existen procedimientos estadísticos para la búsqueda de los
valores en X donde se produce un cambio en la relación mostrados, basados
en criterios agronómicos y según el diagrama de dispersión, seleccionamos el
valor de 180 mm como punto crítico para el cambio de modelo. Para realizar las
regresiones por separado se clasificó a la variable Suma[Pr2+Pr3] en 2 grupos
(hasta 180 mm y mayores a 180 mm) mediante el comando Categorizar del
Menú Datos.
540 540
A B
466 466
Rendimiento (g/m2)
Rendimiento (g/m2)
392 392
318 318
244 244
170
170
0 63 125 188 250
40 140 240 340 440
Pr2 (mm)
Pr1 (mm)
74
540 540
C D
466 466
Rendimiento (g/m2)
Rendimiento (g/m2)
392 392
318 318
244 244
170
170
40 170 300 430 560
0 110 220 330 440
Suma[Pr2+Pr3] (mm)
Pr3 (mm)
Menú Estadísticas
Comando Regresión Lineal
Ventana Selector de Variables
Variable dependiente
Rend
Regresoras
Suma[Pr2+Pr3]
En este ejemplo debió utilizarse además:
Solapa Particiones
Particionar por
CATSuma[Pr2+Pr3]
75
Cuadro 24. Resultados de Análisis de regresión Lineal Simple
Interpretación
76
rendimiento mediante este modelo. El primer ajuste realizado (sin sacar los
casos 110, 111 y 112) tiene un error de predicción (EP) de 51.55 g/m2, mientras
que el segundo ajuste (sin los casos 110, 111 y 112) tiene un EP de 32.07 g/m2.
540 3
110
Res. estudentizados_Rend
2 111
112
440
Rendimiento (g/m2)
340 0
-1
240
-2
140 -3
60 90 120 150 180 170 235 300 365 430
Suma[Pr2+Pr3] (mm) Predichos
Figura 6. Diagrama de dispersión con el ajuste y las bandas de confianza de la regresión lineal
simple del rendimiento en función de los valores de Suma[Pr2+Pr3] ≤ 180 mm (izquierda).
Diagrama de dispersión de los residuos estudentizados vs valores predichos por el modelo
ajustado (derecha).
Cuadro 25. Resultados de análisis de regresión lineal simple (sin los casos 110, 111 y 112)
para los casos donde Suma[Pr2+Pr3] es hasta 180 mm y para casos con Suma[Pr2+Pr3]
mayor a 180 mm
77
yˆ = 108.6 + 1.54 × Suma[Pr 2 + Pr 3] (R2=0.76, Error de predicción
1028.6 ).
78
Cuadro 26. Análisis de correlación lineal con Info-Gen
Menú Estadísticas
Comando Análisis de Correlación
Opción Coeficientes de Correlación
Variables Y
Ra1
Ra2
Ra3
Tm1
Tm2
Tm3
Fot1
Fot2
Fot3
Cuadro 27. Resultados del Análisis de Correlación para las variables climáticas
Coeficientes de correlación
79
Para el caso de las variables de suelo también se calcularon las correlaciones
(Cuadro 28) entre las variables y se decidió seleccionar AUI, MO y %Md para
comenzar a probar ajustes de modelos de regresión múltiple.
Cuadro 28. Resultados del Análisis de Correlación para las variables de suelo
Coeficientes de correlación
Menú Estadísticas
Comando Regresión Lineal
Ventana Análisis de Regresión Lineal
Variable dependiente
Rend
Regresoras
Suma[Pr2+Pr3],
Ra3
AUI
MO
%Md
Solapa Selección de modelo
Opción Eliminación backward
80
Los resultados sugieren un modelo para el ajuste (Cuadro 30) pero este
presenta nuevamente un problema desde el punto de vista agronómico, debido
a que el coeficiente estimado para la variable Suma[Pr2+Pr3] es negativo (-
0.11), un comportamiento análogo se observa con la variable AUI.
Cuadro 30. Resultados de la regresión múltiple del rendimiento como variable dependiente y 5
regresoras (Suma[Pr2+Pr3], Ra3, AUI, %Md y MO)
Variable N R² R² Aj ECMP
Rend 150 0.49 0.48 2602.42
81
Cuadro 31. Resultados de la Regresión Múltiple del rendimiento con 5 variables para los casos
con Suma[Pr2+Pr3]≤180mm
Cuadro 32. . Resultados de la regresión múltiple del rendimiento con 3 variables para los casos
con Suma[Pr2+Pr3]>180mm
82
Uso de regresión en el análisis de estabilidad
83
Cuadro 33.Medidas de estabilidad y su clasificación.
Ecovalencia
Dinámico g Wricke
B W j2 = ∑ (Yij − Yi . − Y. j + Y.. )2 (1962)
tipo 2 i =1
i =1 ⎦
84
Cuadro 34. (continuación): Medidas de estabilidad y su clasificación.
i =1 ⎦
Coeficiente de determinación Pinthus
Dinámico
S 2 (1973)
D r j2 = 1 − dj
tipo 3 S 2
yj
85
86
Análisis de Correlación Lineal
Descripción
⎛ n ⎞
⎜ ∑ ( xi − X )( y i − Y ) ⎟ /(n − 1)
rxy =
Sxy
= ⎝ i =1 ⎠
Sx2Sy2 ⎛⎛ n 2⎞ ⎞⎛⎛ n 2⎞ ⎞
⎜ ⎜ ∑ ( xi − X ) ⎟ /(n − 1) ⎟ ⎜ ⎜ ∑ ( y i − Y ) ⎟ /(n − 1) ⎟
⎝ ⎝ i =1 ⎠ ⎠ ⎝ ⎝ i =l ⎠ ⎠
87
correlación es estadísticamente distinto de cero se realiza una prueba de
hipótesis.
Objetivo
Datos
Ejemplo
Menú Estadísticas
Comando Análisis de Correlación
Opción Coeficientes de correlación
Selector de variables
Variables Y
Rinde
PG,
NG
EI_F
EI_Fll
IV1-3
IV4-6
IV7-9
88
correlación nula (triangular superior), obtenidos a partir del coeficiente de
correlación de Pearson.
Cuadro 36. Resultados del análisis de correlación entre variables ecofisiológicas. Matriz con los
coeficientes de correlación (triangular inferior) y valor p para la prueba de hipótesis de
correlación nula (triangular superior) entre nueve caracteres.
Coeficientes de correlación
Interpretación
89
90
Análisis de Sendero
Descripción
ry ,x = py ,x + py ,u rx ,u
ry ,u = py ,x rx ,u + py ,u
Dada una muestra, es posible obtener valores para todos los coeficientes
de correlación involucrado en este sistema de ecuaciones, las incógnitas
son siempre igual al número de ecuaciones y corresponden a los
estimadores de los efectos directos del sistema poblacional. Luego, otra
forma de estimar los coeficientes de sendero (path coefficients) es a
través de la resolución de este sistema de ecuaciones.
91
Objetivo
Datos
Ejemplo
Menú Estadísticas
Comando Análisis de correlación
Opción Análisis de sendero (path analysis)
Selector de variables
Dependiente
Rinde
Independientes
PG
NG
EI_F
EI_Fin ll
EUN
92
Cuadro 38. Resultados del Análisis de sendero
NG Directa 0.74
NG PG 0.05
NG EI_F 0.01
NG EI_Fll -0.01
NG EUN -2.7E-03
r total 0.79 <0.0001
Interpretación
93
rendimiento es muy baja pero como las correlaciones indirectas vía NG y PG
son relativamente altas se explica la correlación con el rendimiento. La EUN se
relaciona negativamente con el Rinde (r=-0.17) y el camino de dicha correlación
sobretodo es vía NG (Cuadro 38).
94
Regresión por Mínimos Cuadrados Parciales
Descripción
95
Si llamamos X e Y a los dos bloques de variables y suponemos que el
número de variables en X es m (X1, X2, ...,Xm) y el número de variables
en Y es n (Y1, Y2, ...,Yn), es posible construir una matriz R de
correlación tal que su elemento Rij sea la correlación entre Xi e Yj. Esta
matriz no tiene unos en la diagonal y usualmente no es cuadrada. La
idea en PLS es obtener un vector de m coeficientes Ai, uno para cada
variable en X y un vector de n coeficientes Bj, uno para cada variable en
Y, tal que el producto AB (i.e., matriz cuya entrada ij es Ai*Bj) aproxime
bien a la matriz R en el sentido mínimo cuadrático (i.e., minimizando la
suma de los términos (Rij-Ai*Bj)2). Podríamos decir que estos
coeficientes permiten combinar las variables de cada bloque para
explicar la variabilidad debida a la relación o correlación entre ambos
bloques.
Objetivos
Datos
96
La tabla de datos en Info-Gen deberá contener I casos y al menos (m+n)
columnas
Ejemplo
Para realizar el PLS entre Y (matriz que contiene términos de interacción entre
7 localidades y 3 genotipos) y la matriz X (conteniendo las covariables
ambientales antes descriptas), se ejecutaron los siguientes pasos: 1) Obtención
de las matrices Y y X. 2) Implementación de la rutina SVD para PLS de los
datos en X e Y estandarizados.
Estadística descriptiva
Localidad Resumen Ra3 %Md MO %pi PrB2t
Bouquet Media 493.03 17.00 2.87 52.50 28.00
C.Gómez Media 488.83 0.00 3.13 21.67 14.67
Cavanagh Media 548.13 22.00 3.65 37.07 20.00
Maizales Media 469.80 31.00 3.07 88.50 25.00
Oliveros Media 452.43 19.00 2.54 59.07 31.33
Rueda Media 368.03 3.57 2.85 35.33 28.67
Totoras Media 540.47 0.00 3.55 19.00 33.33
97
Para obtener Y se usó el menú Análisis de Interacción para ajustar un modelo
AMMI(2). Como el experimento tiene repeticiones dispuestas según un diseño
completamente aleatorizado, es importante aclarar cuál es la variable que
contiene el dato de la repetición, pero no usar esta variable como factor en el
modelo (el factor repetición sólo se pone en el modelo si el diseño experimental
es en bloques).
En el Cuadro 40 se muestran los resultados del ajuste del AMMI para este
diseño. Se seleccionaron las localidades como “tratamientos” ya que sólo de
ésta forma Info-Gen produce una tabla de residuos de dimensión 7×3 (en caso
contrario los residuos son los mismos pero organizados en un tabla 3×7. Este
tipo de matriz Y sería necesaria si se desea predecir la interacción a partir de
covariables genotípicas).
Finalmente ambas matrices se usaron para construir una Tabla Nueva como se
muestra en el Cuadro 40. En el Cuadro 41 se muestran los comandos para la
implementación de la rutina SVD para PLS y la obtención del tri-plot (Figura 7)
ejecutados sobre esta nueva tabla.
98
Cuadro 41. Tabla de datos necesaria para implantar la técnica PLS con el propósito de
correlacionar una matriz (7×3) de términos de interacción con otra matriz (7×5) de covariables
ambientales.
Cuadro 42. Análisis PLS (las columnas de Y deben ir como variables dependientes, mientras
que las filas como clasificatorias; las columnas de X como predictoras)
Menú Estadísticas
Comando Análisis Multivariado
Opción PLS
Selector de variables
Variables dependientes
A5520RG
A6040RG
DM4800RR
Clasificatoria
Localidad
Variables predictoras
Ra3
%Md
MO
%pi
PrB2t
99
Cuadro 43. PLS y triplot
2.2
DM4800RR
Oliveros
1.1
Ra3 PrB2t
Maizales Bouquet
%Md
%pi
Totoras
Dim: 2
0.0
Cavanagh
A5520RG
Rueda
C.Gómez
-1.1
A6040RG
MO
-2.2
-2.2 -1.1 0.0 1.1 2.2
Dim: 1
Interpretación
100
ambientales, las covariables de mayor “inercia” sobre el eje 1 del tri-plot
resultaron ser Ra3 y MO. Luego las interacciones detectadas en este conjunto
de datos, desde el punto de vista ambiental, son principalmente atribuidas a
estas dos variables.
101
102
Análisis de Conglomerados
Descripción
103
procedimiento. Los distintos algoritmos de conglomeración jerárquica, por
ejemplo, el método del vecino más cercano, el método del vecino más
lejano, el método de encadenamiento promedio o UPGMA y el método
de Ward, podrían producir agrupamientos diferentes sobre un mismo
conjunto de datos. En estos casos, el coeficiente de correlación
cofenética podría utilizarse como criterio de selección del algoritmo, i.e.
aquel algoritmo con el mayor coeficiente de correlación cofenética.
104
variables binarias se denominarán a, b, c, y d según correspondan a los
eventos (1,1), (1,0), (0,1) y (0,0) respectivamente (Cuadro 44).
Cuadro 44. Frecuencias de eventos cuando se comparan dos objetos mediante variables
binarias.
Muestra 2
Muestra 1 Característica Presente (1) Característica Ausente (0)
Característica Presente (1) a b
Característica Ausente (0) c d
Nota: a, b, c, y d frecuencias absolutas para eventos (1,1), (1,0), (0,1) y (0,0) respectivamente.
105
m
∑W ijc Sijc
Sij = c =1
p
∑W
K =1
ijc
donde:
xic − x jc
Sijc = 1 −
rc
Objetivo
Formar grupos tal que los elementos de un grupo sean más parecidos
entre sí que con los elementos de otro grupo.
Datos
106
Ejemplo
Menú Estadísticas
Comando Análisis multivariado
Opción Análisis de conglomerados
Ventana Selector de Variables
Variables
tamaño
número
largo
ancho
espesor
altura
INS
NBA
SBA
PSEr
larpedu
larpedi
larest
anchoest
nfolo
larfol
anchofol
larsem
anchsem
espsem
probu
Criterios de clasificación (opcional)
genotipo
Ventana Análisis de conglomerados
Solapa Jerárquicos (seleccionar método y distancia)
107
Se construyó una matriz de distancia entre genotipos usando la distancia
Euclidea (Cuadro 47). Se utilizó el algoritmo encadenamiento promedio
(UPGMA) de conglomeración jerárquica. En la Figura 8 se muestra el
dendrograma resultante de comparar la matriz de interdistancias entre
genotipos de garbanzo y el algorimto UPGMA.
108
Cuadro 47. Matriz de distancias euclídeas entre 14 genotipos de garbanzo.
Análisis de conglomerados
Euclidea
41 67 70 75 156 202 240 336 337 507 517 521 522 555
41 0,00
67 6,24 0,00
70 6,59 4,16 0,00
75 5,86 5,32 4,60 0,00
156 6,84 5,32 3,87 5,85 0,00
202 6,72 5,21 3,75 5,83 3,55 0,00
240 5,55 4,87 4,26 5,22 4,75 5,54 0,00
336 4,62 4,45 4,09 5,09 4,36 3,65 4,68 0,00
337 7,05 4,67 5,23 7,85 6,81 5,90 5,78 5,41 0,00
507 5,18 6,18 5,84 4,47 5,39 6,03 3,97 5,05 7,90 0,00
517 4,69 5,40 5,68 4,92 5,67 5,62 5,01 3,43 6,25 4,19 0,00
521 5,08 4,89 5,02 5,04 4,46 5,08 4,50 3,34 6,10 3,95 2,12 0,00
522 5,06 4,45 4,62 4,90 4,05 3,73 4,88 3,36 6,24 4,15 3,84 3,39 0,00
555 13,84 11,94 10,17 13,10 11,46 10,53 10,98 12,42 10,63 12,97 14,03 13,50 12,44 0,00
555
337
67
75
521
517
522
336
507
240
202
156
70
41
Interpretación
109
indica que el genotipo 555 es muy distinto al resto de los genotipos. Si usamos
un criterio de corte del 25% de la distancia (3,34), los genotipos 521 y 517
conformarían un grupo y el resto de los genotipos serían todos diferentes.
Debido a la experiencia del mejorador, en este ejemplo se fijó como criterio de
corte la distancia 5, encontrando que los genotipos 555, 75 y 41 permanecieron
separados, mientras que los genotipos 337 y 67 formaron un grupo y los
restantes genotipos otro grupo. Muchas veces el número de grupos formado
depende del conocimiento del problema y de la conveniencia en los análisis
posteriores que pueden realizarse con estos grupos.
Para la selección del algoritmo más apropiado para estos datos se realizaron
análisis de conglomerados con los métodos de encadenamiento completo,
encadenamiento promedio (UPGMA) y Ward. En el Cuadro 48 se presentan los
coeficientes de correlación cofenéticos obtenidos con los distintos métodos de
conglomeración sobre la misma matriz de distancias Euclídeas. El algoritmo
UPGMA produjo conglomerados más afines a la estructura subyacente, ya que
la correlación cofenética usando este método de agrupamiento (0.958) fue
mayor que la encontrada usando otras técnicas.
110
que para este problema, el algorítmo UPGMA aplicado sobre la matriz de
distnacias Euclídeas reproduce bien la estructura de interdistancias de los
genotipos. La pequeña diferencia entre ambas matrices de distancias podrías
deberse al hecho de que la mayoría de las variables en este ejemplo son
cuantitativas (Figura 9).
555 555
75 507
521 240
517 75
522 521
336 517
507 336
240 522
156 156
202 202
70 70
337 337
67 67
41 41
0,00 3,33 6,65 9,98 13,31 0,00 0,20 0,41 0,61 0,82
111
112
Árbol de Clasificación
Descripción
Objetivo
Conocer cuáles son las variables que permiten separar los grupos más
eficientemente y proveer valores umbrales de estas variables que
permiten saber si una observación pertenece a uno u otro nodo.
113
Datos
Se trabaja sobre una matriz n×(m+1) de datos, cada uno de los n objetos
u casos es caracterizado a través de m variables cuantitativas. Una
columna adicional es usada para indicar el grupo de pertenencia de los
objetos (variable dependiente clasificatoria), el cual debe ser conocido a
priori. El número de elementos por grupo debiera ser mayor al número de
variables que se consideran en el análisis.
Ejemplo
114
Cuadro 49. Árboles de clasificación.
Menú Estadísticas
Comando Análisis multivariado
Opción Árboles de clasificación
Ventana Selector de Variables
Variable dependiente
dependiente
Regresoras
bh dic
bh ene
bh feb
tmax dic
tmin dic
rad dic
Interpretación
Se observa que de todas las variables climáticas utilizadas para este análisis, la
temperatura media de febrero (tmed feb) y el balance hídrico de diciembre (bh
dic) son las de mayor potencialidad para diferenciar entre los grupos que se
encuentran por encima de la mediana en concentración de proteínas. Valores
de tmed feb mayores a 25.3ºC caracterizan a los ambientes con contenido de
proteínas mayores a la mediana (del total de ambientes que pertenecían al
grupo de contenido de proteínas mayores a la mediana, el 100% poseía una
tme feb>25.3ºC). La próxima variable usada para identificar ambientes es el
115
balance hídrico de diciembre (bh dic), valores de esta variable menores o
iguales a -75.8 mm permite diferenciar entre ambientes con mayor contenido de
proteína (4/5Æ 80%) de los ambientes con menor contenido de proteína (1/5Æ
20%).
Cuadro 51. Variables y valores umbral de un árbol de clasificación para predecir la calidad del
grano de soja antes de cosecha
Árboles de clasificación/regresión
H= Deviance (suma (ni*ln(pi))
(n=26)
bh dic(>-75,8; n=17)
bh dic(<=-75,8; n=5)
Figura 10. Árbol de clasificación para identificar a través de variables climáticas registradas,
antes de la cosecha, ambientes asociados a granos de soja con concentración de proteínas
mayor a la mediana.
116
Análisis Discriminante Lineal
Descripción
117
mostrar en un mismo espacio (aquel generado por los dos primeros ejes
canónicos o funciones discriminantes) tanto a los objetos como a las
variables.
Objetivo
Datos
Se trabaja sobre una matriz n×(m+1) de datos, cada uno de los n casos
es caracterizado a través de m variables cuantitativas. Una columna
adicional es usada para indicar el grupo de pertenencia de los casos, el
cual debe ser conocido a priori. El número de elementos por grupo
debiera ser mayor al número de variables que se consideran en el
análisis.
Ejemplo
118
observaciones y la zona Salta por 42. Las columnas de la matriz poseen
información de las m=4 variables que definen la calidad de aceite.
Menú Estadísticas
Comando Análisis multivariado
Opción Análisis discriminante
Ventana Selector de Variables
Variables
Acidez
O/L
MG
IY
Criterios de agrupamiento
Zonas
Ventana Análisis de conglomerados
Solapa Jerárquicos (seleccionar método y distancia)
119
Cuadro 54. Resultado del Análisis discriminante lineal.
Autovalores de Inv(E)H
Autovalores % % acumulado
33,44 99,21 99,21
0,27 0,79 100,00
Interpretación
Los pesos estandarizados (Cuadro 55) son utilizados para identificar la o las
variables de mayor peso en la discriminación entre ambos grupos.
120
Cuadro 55. Pesos asignados a 4 variables de calidad en maní en la construcción de una FLD
para separar las zonas maniceras en función de la calidad del grano de maní.
Variable Pesos1
Acidez 0.56
O/L 0.50
IY -1.04
MG -0.56
1
Pesos estandarizados por la matriz de covarianzas dentro de zona.
121
2,95 Saenz Peña
Centro
Salta
1,51
Eje Canónico 2
0,07
-1,37
-2,81
-9,38 -4,41 0,56 5,53 10,51
Eje Canónico 1
10,51 O/L
Saenz Peña
Centro
Salta
6,84
MG
Eje Canónico 2
3,17
-0,51
Acidez
IY
-4,18
-13,78 -7,71 -1,64 4,43 10,50
Eje Canónico 1
Figura 11. Dispersión de muestras en función de dos ejes canónicos que combinan información
sobre cuatro características químicas del grano de maní (izquierda) y biplot sobre el espacio
discriminante (derecha).
122
ANEXO
DESCRIPCIÓN DE LAS BASES DE DATOS UTILIZADAS COMO
EJEMPLOS
Base de Datos: Ideotipos de Maíz
125
contenido de N en láminas y resto de biomasa aérea, y en madurez en los
mismos componentes más el grano, para determinar la acumulación y partición
de nitrógeno. Se determino el rendimiento en grano y sus componentes. A
continuación se presenta la lista de variables y la abreviatura incluida en el
archivo que contiene los datos (Ideotipos de Maíz.idb).
Variable Abreviatura
2
Rendimiento (g/m ) Rinde
Peso de granos (mg) PG
Numero de granos por m2 NG
Materia seca aérea en F (g m-2) MS1
Materia seca aérea en MF (g m-2) MS2
Materia seca aérea entre F y MF (g m-2) MS2-1
Peso seco de hojas en F (g m-2) PSH1
Peso seco de hojas en MF (g m-2) PSH_MF
Índice de cosecha IC
Absorción de nitrógeno de E a F (g m-2) AbsN1
Absorción de nitrógeno desde F a MF (g m-2) AbsN2
Área foliar en F AF_F
Nitrógeno foliar especifico en F NFE_F
Inserción horizontal entre surco IH_es
Inserción vertical promedio hojas 1-3 IV1-3
Inserción vertical promedio hojas 4-6 IV4-6
Inserción vertical promedio hojas 7-9 IV7-9
Eficiencia intercepción de la radiación en F EI_F
Eficiencia intercepción de la radiación en Fll EI_Fll
Numero de hojas verdes en MF #HV_MF
PAR interceptado acumulado desde E a F (mj/M2) IPAR1
PAR interceptado acumulado desde F a MF (mj/M2) IPAR2
Eficiencia en el uso de la radiación desde E a F (g/mj) RUE1
Eficiencia en el uso de la radiación de E a F (g/mj) RUE2
Eficiencia en el uso del Nitrógeno EUN
E= Emergencia
F= Floración
MF= Madurez Fisiológica
Fll= Fin de llenado del grano
126
Base de Datos: Factores Limitantes. Soja
Variables Abreviatura
Rendimiento Rend
Número de granos NG
Peso de grano PG
Precipitación acumulada de E a R1 (mm) Pr1
Precipitación acumulada de R1 a R5 (mm) Pr2
Precipitación acumulada de R5 a R5 (mm) Pr3
Radiación acumulada de E a R1 Ra1
Radiación acumulada de R1 a R5 Ra2
127
Radiación acumulada de R5 a R7 Ra3
Temperatura media de E a R1 (ºC) Tm1
Temperatura media de R1 a R5 (ºC) Tm2
Temperatura media de R5 a R7 (ºC) Tm3
Fotoperíodo de E a R1 (hs) Fot1
Fotoperíodo de R1 a R5 (hs) Fot2
Fotoperíodo de R5 a R7 (hs) Fot3
Agua útil inicial (mm) AUI
Contenido de materia Orgánica (%) MO
Profundidad del horizonte B textural (cm) PrB2t
M delta (%) %Md
Pisos de arado (%) %pi
Conductividad hidráulica (cm/seg) Chid
Estados fenológicos
E= Emergencia
R1= Floración
R5= Comienzo de llenado de granos
R7= Madurez Fisiológica
128
Base de Datos: Selección de genotipos. Garbanzo
Carreras (1999) publicó que se han obtenido líneas de garbanzo que han
demostrado buena capacidad productiva y marcada semejanza fenotípica
durante la crianza. En su origen compartieron sus progenitores (madre y padre),
por ello poseen un estrecho parentesco y altos niveles de homocigosis. El
potencial genético de las mismas les confiere la posibilidad de ser futuras
creaciones fitogenéticas, por lo cual resulta relevante su diferenciación
genotípica. Para diferenciar un genotipo de otro se utilizan descriptores,
caracteres cualitativos y/o cuantitativos. La base de datos facilitada por la Ing.
Agr. (MSc) J. Carreras (FCA-UNC) contiene 25 descriptores relacionados con la
planta, inflorescencias, fruto, semillas y otros, sobre 12 líneas puras selectas
emparentadas y dos testigos. Las semillas empleadas correspondientes a las
12 líneas en selección avanzada forman parte del Proyecto Contribución al
Mejoramiento de Garbanzo, con sede en la Facultad de Ciencias Agropecuarias
de la Universidad Nacional de Córdoba, fueron identificadas como: 41, 67, 70,
75, 202, 240, 336, 337, 507, 517, 521, 522. Los testigos utilizados fueron el
cultivar Chañaritos S-156 y la línea pura Chañaritos M-6, ambos fueron
identificados como 156 y 555 respectivamente.
Variables Abreviatura
1. Caracteres Vegetativos de la planta
Altura de planta a cosecha (cm) altura
Altura de inserción de la primera vaina (cm) INS
Número de ramificaciones totales número
Número de foliolos por hoja nfolo
Larfol
Largo y ancho de foliolos (cm)
anchofol
Largo del Pedicelo larpedi
129
2. Caracteres de inflorescencia
larest
Largo y ancho de estandarte (cm)
anchoest
Largo de pedúnculo (cm) larpedu
Número de vainas NBA
Número de semillas por vainas SBA
Largo
Ancho
Largo, ancho, espesor y tamaño de vainas (cm)
Espesor
Tamaño
3. Caracteres de la semilla
Número de semillas NSE
Peso de semillas PSE
Larsem
Largo, ancho y espesor de semillas (cm) Anchosem
espsem
4. Otros
Incidencia patógeno A InsPA
Incidencia patógeno B InsPB
Incidencia patógeno c InsPC
Contenido de proteínas probru
130
Base de Datos: Ensayos Comparativos de Rendimiento de Poroto
131
132
Base de Datos: Calidad de soja
133
134
Base de Datos: Calidad de maní
135
136
Base de Datos: Ensayos Comparativos de Rendimiento de Maní
Cuadro 56. Sitios intervinientes en el período 1996/97 en los ECR de cultivares del Programa
de Mejoramiento de Maní de la EEA-Manfredi, INTA.
Sitios Localidades
Gral Deheza
Sitio 1
Gral Cabrera
Sitio 2 Manfredi
El sur
San Ambrosio
Sitio 3 Las Vertientes
Reducción
las acequias
Cuadro 57. Genotipos presentes en los ECR de cultivares del Programa de Mejoramiento de
Maní de la EEA-Manfredi, INTA en la campaña agrícola 1996/97.
137
138
Bibliografía Citada
140
components analysis. Biometrika, 58:453-467.
Gauch H.G. Jr. 1988. Model selection and validation for yield trials with interaction.
Biometrics 44: 705-715.
Gauch, H. G. and Zobel, R. W. 1996. AMMI analysis of yield trials. In M.S. Kang & H.G.
Gauch, eds. Genotype-by-environments interaction. p. 85-122. Boca Raton, FL,
CRC Press.
Gauch, H. G. and Zobel, R. W. 1997. Identifying mega-environments and targeting
genotypes. Crop Sci., 37:311-326
Gollob, H.F. 1968. A statistical model with combines features of factor analytic and
análisis of variante technique. Psychometrika, 33: 73-115.
Gower, J.C. 1985. Measures of similarity, dissimilarity and distance, p. 397-405. In
Kotz, S. and Jonhson N. Ed. Encyclopedia of stastistical science. Vol. 5. Wiley, New
York.
Kang M.S. 1990. Understanding and utilization of genotype-by-environment interaction
in plant breeding. En. Genotype-by-environment interaction in plant breeding. Kang,
M.S (ed.) pp.52-68.
Kang, M.S. 1998. Using genotype-by-environment interaction for crop cultivar
development. Advances in Agronomy 62: 199-252.
Kang, M.S. 2002. Genotype-environment interaction: Progress and prospects. Kang
M.S. (ed.) CABI Publishing, New York
Kang. M. S. y Pham, H. N. 1991. Simultaneous selection for high yielding and stable
crop genotypes. Agron. J., 83:161-165.
Kang M, Balzarini M and J. Guerra. 2004. Genotype-by-Environment interaction. In A.
Saxton (ed.) Genetic Analysis of Complex Traits Using SAS. pp 69-94. BBU Press.
SAS Institute, Cary NC. ISSN 1-59047-507-0.
Kuehl, Robert O. 2001. Diseño de Experimentos. Principios estadísticos de diseño y
análisis de investigación. 2ª edición. 666 pp. Thomson Learning. México.
Lin, C.S. and Binns, M.R. 1991. Genetic properties of four types of stability parameter.
Theor. Appl. Genet., 82:505-509.
Lin, C.S. Binns M.R. and Lefkovitch L.P. 1986. Stability analysis: Where do we stand?.
Crop Sci., 26: 894-900.
Macchiavelli R. and Beaver J. 1999. Analysis of genotype-by-environment interaction
with AMMI models using SAS Proc Mixed. Applied Statistics in Agriculture 11: 171-
183.
Piepho H.P. 1998. Methods for comparing the yield stability of croppping systems – A
review. J. Agron. Crop Sci., 180:193-213.
Robinson G.K. 1991. That BLUP is a good thing: The estimation of random effects.
Statistical Sciences. 6: 15-21.
Schabenberger, O. y Pierce, F. 2002. Contemporary statistical models for the plant and
soil sciences. p. 738. Taylor & Francis. CRC Press.
Yan W. y Hunt L. A.2002. Biplot Analysis of Diallel Data. Crop Sci. 42:21–30.
Yan W., Hunt L. A., Sheng Q. and Szlavnics Z. 2000. Cultivar evaluation and mega-
environment investigation based on GGE Biplot. Crop Sci. 40: 597-605.
Zobel, R.W., Wright, M.J. y Gauch, H.G. 1988. Statistical analysis of a yield trial. Agron.
J., 80: 388-393.
141