Sie sind auf Seite 1von 151

ANÁLISIS DE ENSAYOS AGRÍCOLAS MULTI-AMBIENTALES

Ejemplos con Info-Gen

Mónica Balzarini
Cecilia Bruno
Alejandra Arroyo

Estadística y Biometría.

Facultad de Ciencias Agropecuarias. Universidad Nacional de Córdoba


Prefacio

La utilización cuidadosa de procedimientos de análisis de datos agronómicos y


ambientales es una condición inherente al desarrollo actual y futuro de
investigaciones orientadas a mejorar los cultivos en forma económica y
ambientalmente sustentable. La eficiencia en la generación de tecnologías de
cultivo y en el proceso de adaptación de éstas a las áreas de producción
depende del entendimiento de las respuestas de las plantas a los diversos
ambientes. Los ensayos multi-ambientales, donde un conjunto de tratamientos
(por ejemplo, variedades) se evalúa en múltiples ambientes, son cruciales para
desarrollar el conocimiento científico necesario.

En particular, los ensayos muti-ambientales de comparación de rendimientos,


son frecuentes en investigaciones agrícolas ya que constituyen una de las
principales estrategias para la obtención de mejores genotipos vegetales y para
la identificación de ambientes donde éstos pueden expresarse de manera
diferencial. Los ensayos multi-ambientales representan una de las herramientas
de investigación más potentes para incrementar la productividad y rentabilidad
de los cultivos. Más allá de los aportes de centros internacionales a la mejora de
cultivos, muchos programas nacionales de mejoramiento y de investigación
agrícola (de gestión pública y privada) mantienen un rol fundamental en su
región, particularmente en lo concerniente a la explotación de la adaptación
específica y a las características de estabilidad de rendimiento desarrollando
alto nivel de conocimiento del germoplasma local, las prácticas de manejo y sus
interacciones con los ambientes de la región.

Una plétora de ensayos multi-ambientales comparativos de rendimiento se


conducen periódicamente, en cada región del área de cultivo de una especie,
debido a la omnipresencia de la interacción genotipo×ambiente, i.e. respuestas
genotípicas diferenciales en diferentes ambientes. Estos ensayos permiten
identificar adaptaciones de germoplasma tanto en sentido amplio (a través de
los ambientes) como específico (para cada ambiente o grupos de ambiente
particular). Conceptos importantes tales como adaptación específica,

i
estabilidad, ecotipos, ideotipos y subregiones o mega-ambientes se pueden
analizar a partir de la interacción genotipo×ambiente.

Los ensayos multi-ambientales, no son sólo diseñados para evaluar genotipos,


el interés puede radicar en la comparación de sistemas de cultivos u otros
tratamientos, pero el análisis de los patrones de interacción con el ambiente es
siempre necesario. Cuando la interacción es significativa se deben utilizar
estrategias de análisis apropiadas, ya que la comparación de medias de
tratamientos que no considera la variabilidad debida a la interacción con el
ambiente puede ser errónea. Los estudios de interacción tratamiento×ambiente,
así como la exploración de los patrones de interacción a partir de covariables
del cultivo y/o los ambientes, proveen valiosa información para optimizar la
respuesta de los cultivos en los ambientes de interés. Las bases de datos
relacionadas a ensayos multi-ambientales son costosas de obtener; la eficiencia
en el uso de los recursos destinados a esta tarea puede incrementarse
considerablemente a partir de la utilización de nuevos métodos y modelos de
análisis de datos capaces de convertirlos en información significativa.

En esta publicación presentamos, a través de ejemplos, herramientas


estadísticas para explorar bases de datos de ensayos multi-ambientales. Los
ejemplos se realizan a partir de datos gentilmente puestos a disposición por
investigadores en agricultura. Esperamos que ésta publicación sea de utilidad
para mejorar la productividad agrícola en beneficio de la sociedad y el
medioambiente y para promover un enfoque interdisciplinario en el diseño y
análisis de ensayos multi-ambientales.

ii
Organización del Texto

La primera parte está destinada a una revisión de ideas y principios


estadísticos, para establecer el lenguaje técnico que se utilizará más adelante
en la modelación de casos experimentales reales. En la Parte II se presentan
conceptos relacionados a experimentos agrícolas que involucran múltiples
ambientes, en especial aquellos comparativos de rendimiento y orientados a la
búsqueda de germoplasma diferencial. La Parte III presenta una colección de
ejemplos de análisis realizados sobre ensayos multi-ambiantales mediante la
aplicación de modelos de Análisis de la Varianza (ANAVA), de Regresión Lineal
y métodos estadísticos multivariados.

Los métodos presentados aquí no son exhaustivos, existen numerosas


estrategias analíticas que podrían ser implementadas en este tipo de ensayos,
pero hemos decidido “comenzar” por publicar éstas esperando que a partir de
su aplicación surjan nuevas preguntas y se genere un medio propicio para
explorar los desafíos y oportunidades de la modelación estadística en esta área.

El texto ha sido desarrollado proveyendo los comandos necesarios para utilizar


estas herramientas analíticas en el software Info-Gen (Balzarini y Di Rienzo,
2004), un programa amigable y portátil para el análisis de datos genéticos,
desarrollado por investigadores de la Cátedra de Estadística y Biometría de la
Facultad de Ciencias Agropecuarias, Universidad Nacional de Córdoba, con
subsidio de la Agencia Nacional de Ciencia y Tecnología de la República
Argentina y la Agencia Córdoba Ciencia. Una copia del CD del software Info-
Gen acompaña esta publicación; las instrucciones para la instalación se
encuentran en el mismo CD.

iii
CONTENIDOS

PARTE I.................................................................................................................................................................1

MODELOS CIENTÍFICOS...................................................................................................................................1

MODELO MATEMÁTICO .......................................................................................................................................1


MODELO ESTADÍSTICO........................................................................................................................................2
TÉRMINOS ASOCIADOS A MODELOS ESTADÍSTICOS............................................................................................4
INFERENCIA ESTADÍSTICA ...................................................................................................................................6

PARTE II ...............................................................................................................................................................9

ENSAYOS MULTI-AMBIENTALES EN AGRICULTURA...............................................................................9

INTRODUCCIÓN ................................................................................................................................................ 11
ENSAYOS COMPARATIVOS MULTI-AMBIENTALES ............................................................................................. 13
GENOTIPO (G) ................................................................................................................................................. 14
AMBIENTE (E) .................................................................................................................................................. 14
INTERACCIÓN GENOTIPO×AMBIENTE (GE)...................................................................................................... 14
ADAPTABILIDAD................................................................................................................................................ 16
MEGA-AMBIENTES............................................................................................................................................ 17
ECOTIPOS E IDEOTIPOS ................................................................................................................................... 18
ESTABILIDAD .................................................................................................................................................... 18
CONFIABILIDAD DEL RENDIMIENTO ................................................................................................................... 21
MODELOS PARA ANÁLISIS EN ENSAYOS COMPARATIVOS DE RENDIMIENTO ..................................................... 21
ENSAYOS EN LAS PRIMERAS ETAPAS DE EVALUACIÓN .................................................................................... 25
ENSAYOS EN ETAPAS AVANZADAS DE EVALUACIÓN ........................................................................................ 26

PARTE III ........................................................................................................................................................... 31

MODELOS Y MÉTODOS DE ANÁLISIS EN ENSAYOS MULTI-AMIBIENTALES.................................. 31

ANÁLISIS DE LA VARIANZA (ANAVA) ............................................................................................................... 33


ANÁLISIS DE COMPONENTES PRINCIPALES (ACP)........................................................................................... 41
ESTUDIO DE INTERACCIÓN CON MODELOS DE ANAVA Y ACP......................................................................... 47
Modelo AMMI y Biplots para AMMI(2) y AMMI(1).................................................................................. 49
Modelo SREG y Biplot GGE.................................................................................................................... 55
Modelo GREG y Biplot GEE.................................................................................................................... 61
ACP en el Estudio de Correlaciones Genética y Ambientalmente Determinadas .............................. 65
ANÁLISIS DE REGRESIÓN ................................................................................................................................. 71
ANÁLISIS DE CORRELACIÓN LINEAL ................................................................................................................. 87
ANÁLISIS DE SENDERO (PATH ANALYSIS) ........................................................................................................ 91
REGRESIÓN POR MÍNIMOS CUADRADOS PARCIALES ....................................................................................... 95
ANÁLISIS DE CONGLOMERADOS..................................................................................................................... 103
ÁRBOL DE CLASIFICACIÓN ............................................................................................................................. 113
ANÁLISIS DISCRIMINANTE LINEAL ................................................................................................................... 117

v
ANEXO DESCRIPCIÓN DE LAS BASES DE DATOS UTILIZADAS COMO EJEMPLOS................... 123

Base de Datos: Ideotipos de Maíz......................................................................................................... 125


Base de Datos: Factores Limitantes. Soja............................................................................................ 127
Base de Datos: Selección de genotipos. Garbanzo ............................................................................ 129
Base de Datos: Ensayos Comparativos de Rendimiento de Poroto.................................................. 131
Base de Datos: Calidad de soja ............................................................................................................ 133
Base de Datos: Calidad de maní........................................................................................................... 135
Base de Datos: Ensayos Comparativos de Rendimiento de Maní..................................................... 137
BIBLIOGRAFÍA CITADA .................................................................................................................................... 139

vi
PARTE I

MODELOS CIENTÍFICOS
Modelo Matemático

En investigaciones científicas se reconocen distintos niveles, uno


observacional-descriptivo, otro cuantitativo donde se ponen “números a las
obervaciones” y otro más avanzado que podríamos llamar nivel predictivo,
donde existe conocimiento como para pronosticar eventos futuros. No es
posible saltar de la descripción a la predicción sin pasar por la etapa de
cuantificación

Las bases de datos agrícolas, con observaciones repetidas en el tiempo y/o en


el espacio, se tornan cada vez más ricas (más variables). La importancia de
tener un modelo cuantitativo que ajuste los datos es poder predecir. A medida
que nuestro entendimiento de los mecanismos ecológicos, químicos, biológicos
y económicos de los procesos se incrementa existe mayor interés y necesidad
en la modelación de la dinámica que se observa o que se pone en acción
mediante la experimentación.

¿Qué es un modelo científico? Un modelo es un instrumento o herramienta


para estudiar el fenómeno de interés. Es una abstracción de la realidad, una
simplificación del proceso bajo estudio realizada para poner de manifiesto
aspectos relevantes en la búsqueda de respuestas a preguntas concretas. El
modelo es usado para coordinar el conocimiento en un todo coherente, para
representar los datos en una estructura sólida que los sintetice y que permita
visualizar los mecanismos que hay por detrás de éstos.

La Matemática es el sistema lógico más poderoso y universal, por ello no es


sorprendente que la mayoría de los modelos científicos sean desarrollados
como abstracciones matemáticas del fenómeno observado y cuantificado. Los
modelos matemáticos proveen una estructura lógica y concisa para estudiar
sistemas complejos (descubrir patrones, tendencias, relaciones), comunicar
hallazgos, realizar predicciones y desarrollar nuevos conocimientos y
tecnologías.

1
No existen modelos “buenos”, pero existen modelos que “son útiles”. No hay un
modelo “que tenga de todo”, cada modelo permite abordar algún punto de vista,
proporcionado una visión complementaria a la parte experimental.

La modelación científica es un proceso iterativo y fundamentalmente


interdisciplinario. En esta sección describiremos algunos aspectos teóricos
relacionados con la modelación estadística, para luego aplicar estas ideas en la
búsqueda de modelos para responder preguntas de interés desde ensayos
multi-ambientales usando Info-Gen como soporte computacional.

Modelo Estadístico

Un modelo puramente matemático es un dispositivo mecanístico


(=determinístico) tal que para un conjunto de “inputs” se predice el “output” con
absoluta certeza (Schabenberger y Pierce, 2002). Un modelo matemático no
deja nada liberado al azar. En particular en Bio-Ciencias, debido a la
variabilidad innata de los datos empíricos usados para desarrollar y validar el
modelo, muchas veces es imposible predecir su output con exactitud.

La variabilidad en el output puede provenir de fuentes de variación sistemáticas


o aleatorias asociados a los inputs, pero aún cuando éstas sean reconocidas a
priori e incorporadas en el modelo, existe mayor o menor extensión de
variabilidad residual debida a: 1) errores de medición, 2) errores de muestreo
(asociados con el mecanismo de observación) y/o 3) errores experimentales
provenientes de heterogeneidades en el material experimental y/o en la
aplicación de tratamientos (variación biológica y tecnológica).

El diseño de experimentos con repeticiones es recomendado ya que la


replicación de los tratamientos o condiciones experimentales de interés
garantiza que la variación debida al error experimental pueda ser estimada. La
replicación, en combinación con la aleatorización, permitirá obtener
estimaciones libres de sesgo.

2
Schabenberger y Pierce (2002) comentan que la inclusión de elementos
estocásticos (aleatorios) en un modelo matemático conduce a modelos más
parsimoniosos y a menudo a abstracciones más seguras que muchos modelos
determinísticos complejos.

El modelo estadístico (modelo que incorpora la aleatoriedad) es presentado


como un caso especial del modelo estocástico. El modelo estadístico contiene
componenetes determinísticas y aleatorias (como los modelos estocásticos)
pero asociadas a constantes desconocidas (parámetros) que deben ser
estimadas a partir de los datos empíricos. Por el contrario, en los modelos
estocásticos todos los parámetros son conocidos.

Por ejemplo, si modelamos la relación entre el rendimiento (g/m2) y niveles de


fertilización nitrogenada (kg/ha) con una función polinómica, un modelo
matemático describiría la variable output o respuesta (es decir, el rendimiento)
como función polinómica del nivel de fertilización (variable input o explicativa).
Así la i-ésima observación podría representarse a través de una polinomial de
segundo orden, i.e. Yi =β0 +β1Xi1+β 2 Xi2 .

El modelo estocástico agregaría a esta ecuación un término de error aleatorio


con alguna distribución de probabilidad conocida y de media cero. Si los
parámetros involucrados en el modelo (por ejemplo los β y la varianza de los
errores) son desconocidas y deben ser estimados a partir de los datos, diremos
que el modelo Yi =β0 +β1Xi1+β 2 Xi2 + ε i es un modelo estadístico. Al agregar una
desviación aleatoria, el modelo explícitamente establece que la respuesta
también es aleatoria, es decir que no puede predecirse con exactitud:

La expresión del modelo matemático (i.e. β0 +β1Xi1+β 2 Xi2 ) es el valor esperado o


promedio de la variable respuesta en el modelo estadístico. En general
buscamos modelos estadísticos parsimoniosos, i.e. no necesitamos ajustar
perfectamente cada dato, sino los valores esperados de una respuesta de
interés bajo ciertas condiciones (No se espera que el modelo sea correcto para
una observación particular, sino que sea correcto en promedio). Usualmente se

3
necesita realizar omisiones de ciertos datos y suposiciones para abstraer el
fenómeno y conseguir un modelo útil para el valor esperado o promedio.

El modelo estadístico, en general, describe la variabilidad de una o más


variables respuesta, descomponiendo esa variabilidad en fuentes de variación
conocida y desconocida. La calidad de un modelo no es necesariamente
función de su complejidad o de su tamaño, sino que está determinada por su
utilidad en un estudio particular o experimento para responder a las preguntas
de interés (Schabenberger y Pierce, 2002).

Términos Asociados a Modelos Estadísticos

Un modelo estadístico tradicionalmente usado en ensayos multi-ambientales es


el modelo de análisis de la varianza (ANAVA) que se basa en la partición de la
variabilidad total de la variable respuesta (Y) en una componente de la
variabilidad debida a la influencia de factores de clasificación conocidos, más
otro componente aleatorio asociado a la variabilidad residual o experimental.
Otro modelo frecuente es el de regresión lineal (RL) donde la variabilidad en Y
se expresa como la suma de la variabilidad debida a una relación lineal entre Y
y una o más covariables o variables regresoras más la variabilidad residual.
Ambos modelos son lineales en los parámetros del valor esperado para Y.

Según la naturaleza (constante o aleatoria) de los efectos de los factores de


clasificación y/o covariables sobre Y, los modelos se clasifican como modelos
de efectos fijos o modelos de efectos aleatorios o modelos mixtos (modelos que
incluyen tanto efectos fijos como aleatorios distintos al término de error).

Para realizar inferencias a partir de modelos de efectos fijos sólo hay que
especificar supuestos distribucionales o probabilísticas sobre los términos
asociados a la variación no explicada (términos de error). Cuando se trabaja
con variables Y continuas como el rinde, generalmente se supone que los
errores se distribuyen independientemente como variables aleatorias normales
de media cero y varianza constante.

4
Estos supuestos se sustentan en un esquema de muestreo ideal y en un buen
diseño experimental. No siempre se cumplen, por lo que se han desarrollado
procesos de estimación asociados a modelos no lineales para datos no
normales, varianzas heterogéneas y datos no independientes. Casanoves
(2004, 2005b) ilustra aplicaciones de la teoría de modelos mixtos para modelar
falta de independencia y heterogeneidad de varianzas en modelos lineales para
ensayos multi-ambientales. En esta edición del libro, al usar modelos lineales
de ANAVA y RL supondremos que se cumplen los supuestos usuales del
muestreo ideal.

Como se dijera anteriormente las variables input de estos modelos pueden ser
variables de clasificación (es decir variables que generan categorizaciones o
clases de datos) o covariables (variables continuas que podrían variar
concomitantemente con la variable respuesta).

Consideremos un ejemplo para usar los términos introducidos. Supongamos un


ensayo multi-ambiental donde 10 genotipos son sembrados en cada uno de 5
ambientes en un diseño en bloques completos al azar (DBCA) con 3
repeticiones por ambiente. Las clasificaciones de los datos relevados (Rinde)
que identifican la fuente de cada dato son llamados “factores”. Cada clase
individual de un factor representa un “nivel”. Aquí los factores son: Genotipo,
Ambiente y Bloque. El factor Genotipo tiene 10 niveles, Ambiente 5 y Bloque 3.
Así hay 150 casos o filas (10×5×3) en la matriz de datos. Si en cada unidad
experimental (UE) o parcela se releva el rendimiento pero también la humedad
del grano a cosecha, podríamos considerar a la humedad como una
covariables ya que ésta es una variable cuantitativa que varía de parcela a
parcela y que posiblemente sus variaciones o expliquen variaciones en el
rendimiento.

Además del impacto de factores principales sobre la variabilidad de Y,


frecuentemente es necesario estudiar la influencia de la variabilidad inducida
por la interacción de múltiples factores a la variabilidad de la respuesta. Nuevos
factores pueden ser compuestos en términos de los factores principales

5
(Genotipo, Ambiente, Bloque) y de propiedades particulares respecto del
fenómeno estudiado.

Si A y B son factores principales el factor compuesto A*B se denomina


“interacción A×B” o “A cruzado con B” cuando cada nivel del factor A se
combina con cada nivel del factor B para dar la nueva clase del factor A×B.

El factor compuesto B>A se denomina “anidamiento de A en B” cuando todas la


unidades experimentales con el mismo valor de A tienen necesariamente el
mismo valor de B, y por tanto cualquier variabilidad entre las clases de B
contribuyen a la variabilidad entre las clases de A. Si A está anidado en B, los
valores de los niveles de A correspondientes a una clase de B pueden diferir de
los valores de los niveles de A en otra clases de B. En el ejemplo planteado, el
factor Bloque se encuentra anidado en el factor Ambiente. Si bien los valores de
los niveles del factor Bloque son 1, 2 y 3 (porque hay tres repeticiones) para
todo nivel del factor Ambiente (es decir en todos los ambientes los bloques se
numeran como 1, 2 y 3), el 1 para el factor Bloque del Ambiente 1 no tiene
“nada que ver” con el 1 que corresponde al factor Bloque en el Ambiente 2.

Postulado el modelo, es necesario estimar sus parámetros. El método más


usado en la estimación para modelos de efectos fijos es el método de mínimos
cuadrados, mediante el cual se realiza una búsqueda de valores para los
parámetros de manera tal que las diferencias cuadráticas entre cada dato
observado y el valor predicho según el modelo sea mínima.

Inferencia Estadística

La inferencia en un modelo estadístico implica no sólo la estimación de los


parámetros del modelo sino también la determinación de la precisión de las
estimaciones (o errores estándares). Las estimaciones de los parámetros y sus
errores estándares son utilizados para contrastar hipótesis referidas a los
parámetros desconocidos del modelo. Las pruebas F constituyen la base del
contraste de hipótesis. La hipótesis nula, comúnmente evaluada para un
parámetro del modelo, es aquella que postula que el parámetro es cero.

6
Cuando la hipótesis se rechaza se concluye que el input asociado a ese
parámetro es influyente o importante en la explicación de la variabilidad de Y.

El software estadístico expresa los resultados de cada contraste de hipótesis en


función de “valores p” o “p-values”. Los valores p son probabilidades calculadas
bajo el supuesto de que la hipótesis nula es verdadera. Ellos miden la
probabilidad de observar un resultado experimental al menos tan extremo como
el observado en nuestro experimento cuando la hipótesis nula es verdadera.
Por ello se rechaza la hipótesis nula (hipótesis que niega la existencia de
influencia o que postula la nulidad del parámetro) siempre que el valor p sea
pequeño. Como pequeño se debe entender menor o igual al nivel de
significación (α) definido a priori para el contraste, generalmente, α=0.05. Si se
rechaza la hipótesis nula y se concluye que existe un efecto significativo
(repetible) del input sobre el output.

7
PARTE II

ENSAYOS MULTI-AMBIENTALES
EN AGRICULTURA
Introducción

En marzo de 2000, el premio Nobel Norman Borlaug (Borlaug, 2000) remarcó


que las investigaciones en agricultura deben orientarse al desarrollo y aplicación
de tecnologías que incrementen, en forma económica y ambientalmente
sustentable, los rendimientos de granos en un 75% en los próximos 25 años.
En respuesta a esta problemática se desarrollan investigaciones agrícolas que
involucran numerosas dimensiones de análisis; de particular importancia resulta
la búsqueda de germoplasma diferencial y de técnicas de manejo que permitan
un mejor uso y conservación de los recursos involucrados.

El aumento sostenido de la producción agropecuaria está orientando a las


investigaciones en agricultura hacia una diversidad de objetivos, que se
relacionan tanto a la producción económica como a la mayor calidad y también
hacia la capacidad de adaptación de las plantas a condiciones ambientales
específicas. El mejoramiento de germoplasma diversificado, adaptado
específicamente, constituye un importante elemento de políticas de desarrollo
hacia una agricultura sustentable. La obtención de germoplasma de alta
calidad, no sólo ofrece bio-seguridad, sino que también permite generar nichos
especiales de mercado.

El conocimiento de relaciones entre variables de cantidad y calidad de


producción y su ambiente de cultivo es clave para desarrollar tecnologías de
producción segura y de alto impacto. Es necesario maximizar el potencial
agrícola de sistemas de cultivos específicos y minimizar la ocurrencia de
eventos desfavorables. La mayoría de los caracteres de cultivo de importancia
económica corresponden a características complejas o poligénicas y son tanto
genética como ambientalmente determinados (Dayde, 2000; Casini et al., 2002;
Casini et al., 2003, Dardanelli et al., 2005).

Dado que las regiones de producción de los principales cultivos cubren


extensas áreas ecológicas con amplio rango longitudinal y latitudinal, se
observan importantes variaciones de condiciones climáticas (en especial

11
precipitaciones, radiación y temperatura) y de suelo; éstas en interacción con
aquellas debidas a la mejora continua del germoplasma vegetal y de las
tecnologías de producción, provocan respuestas altamente variables. La
interacción genotipo×ambiente, ofrece posibilidades, especialmente en la
selección y adopción de genotipos que muestren interacción positiva con una
localidad y sus condiciones ambientales prevalecientes (exploración de
adaptación específica) o de genotipos con baja frecuencia de rendimientos
pobres o fracaso del cultivo (exploración de estabilidad de rendimientos) (Kang,
1990).

La presencia de interacción entre genotipos y ambiente puede ser utilizada para


la generación de nichos “óptimos” para la obtención de productos agro-
alimentarios diferenciales. Su presencia debe ser contemplada en el análisis de
resultados experimentales, desde la generación de diseños o planes
experimentales hasta en el análisis y elaboración de recomendaciones. Las
decisiones concernientes con las estrategias de mejoramiento del germoplasma
y del cultivo de variedades vegetales deben ser basadas sobre un conocimiento
científico del material vegetal y sus relaciones con los ambientes de cultivo. Por
ello existe una inversión sustancial por parte de numerosas organizaciones en
la implementación de ensayos multi-ambientales.

Aspectos claves para el análisis de datos de ensayos multiambientales no sólo


se relacionan con las suposiciones que se deben realizar respecto a los efectos
principales de tratamientos, ambientes e interacciones sino también con los
supuestos asociados con las componentes de error derivadas de las parcelas y
el arreglo experimental que se utiliza a campo para conducir cada ensayo
individual. Es importante recordar que los experimentos que involucran
repeticiones permiten mejor control y estimación del error experimental. Sin
embargo, aumentar la repetición espacial y temporal de los ensayos
(obteniendo en mejor muestreo de la variación ambiental) es más conveniente
que aumentar el número de réplicas en cada ensayo cuando se trata de
experimentos multi-ambientales (Bradley et al., 1988). Si bien los diseños
experimentales realizados planificadamente para evaluar genotipos y/o

12
sistemas de cultivos en múltiples ambientes suelen tener un diseño balanceado
y con repeticiones dentro de cada ambiente, su elevado costo muchas veces
limita el plan experimental a nivel multi-ambiental y a menudo las conclusiones
deben extraerse de bases de datos con discontinuidad en el tiempo, con alta
dinámica de tratamientos entre ambientes y por tanto altamente
desbalanceadas.

Interpretar la gran cantidad de datos que se recolectan en ensayos multi-


ambientales ha generado importantes desafíos metodológicos-analíticos.
Nuevas aproximaciones para el análisis de datos relacionados a la variación
genotípica o entre tratamientos, ambiental y la interacción tratamiento×ambiente
han probado ser de utilidad. Pero, dada la multidimensionalidad del problema, el
enfoque seguido en la aplicación de estos métodos y modelos debe
necesariamente ser interdisciplinar. La interacción entre biometristas con
ecofisiólogos, mejoradores vegetales, agrometeorólogos, químicos,
fitopatólogos y biotecnólogos, entre otros, es crucial para favorecer la
generación de información necesaria para un accionar apropiadamente
planificado.

Ensayos Comparativos Multi-ambientales

Los ensayos multi-ambientales son comunes en la evaluación de germoplasma


vegetal. Al realizar los ensayos en distintos ambientes se aumenta el espacio
de inferencia y la potencia para explorar la interacción de los genotipos con los
ambientes. Los ensayos comparativos de rendimiento (ECR) multi-ambientales,
constituyen una colección de ensayos comparativos de rendimiento a través de
los ambientes. Los ECR multi-ambientales se caracterizan por involucrar
múltiples ambientes (localidades y/o años) en los que se evalúan varios
genotipos, dentro de cada ambiente se sigue un diseño experimental particular,
como por ejemplo, un diseño en bloques completamente aleatorizados (con
bloques completos o incompletos). Antes de iniciar una discusión sobre el
análisis de estos ensayos es importante dejar establecido ciertos términos y

13
abreviaciones que serán usadas, en concordancia con aquellas de la
bibliografía internacional.

Genotipo (G)

Se refiere a un cultivar (i.e., ya sea con material genéticamente homogéneo,


tales como líneas puras y clones o heterogéneos tales como poblaciones de
polinización abierta) más que al genoma del individuo.

Ambiente (E)

Se relaciona al conjunto de climas, suelos, factores bióticos (plagas y


enfermedades) y condiciones de manejo en un ensayo individual llevado a cabo
en una localidad dada en un año particular (en el caso de cultivos anuales) o en
varios años (en el caso de cultivos perennes). En ensayos repetidos en el
tiempo un ambiente se define a partir de la combinación de los factores
localidad y año (para anuales) o de la combinación de los factores localidad y
ciclo de cultivo (para perennes) (Annicchiarico, 2002).

Interacción Genotipo×Ambiente (GE)

La interacción GE no es directamente observable en ensayos multi-


ambientales, si no que es un concepto usado para contemplar la inconsistencia
de diferencias entre los desempeños de los genotipos a través de los
ambientes. Los estudios de interacción permiten clarificar el entendimiento de
adaptaciones en sentido amplio y en sentido estricto (o específicas de
ambiente) (Kang et al., 2004). El fin último es clasificar genotipos en relación a
los ambientes. Algunas veces el interés principal se centra en los ambientes,
pero el procedimiento de análisis no es muy diferente al usado cuando la
finalidad está focalizada en los genotipos, ya que ambos son necesarios para
que la interacción exista.

Las causas de la ocurrencia de la interacción GE son muy discutidas (Kang,


1998). Una interacción de magnitud importante puede provenir de una alta

14
variación entre los genotipos para caracteres morfofiosiológicos de resistencia
(o de escape) a uno más tipos de stress, o de una alta variación entre
ambientes para la incidencia del mismo o mismos tipos de stress (como los
determinados por clima, suelo, factores bióticos y de manejo). La estructura
genética del material vegetal puede también tener relación con la magnitud de
la interacción GE. Los tipos de variedades caracterizados por pocos niveles de
heterogeneidad (líneas puras, clones, híbridos simples) o heterocigosis (líneas
puras) tienden a interactuar con el ambiente más que los tipos de variedades
con comportamiento opuesto (poblaciones de polinización abierta, mezclas de
líneas puras) porque son menos ricos en genes de adaptabilidad y su estructura
genética los hace más susceptibles a las variaciones en las condiciones
ambientales (Annicchiarico, 2002).

La interacción GE, puede dividirse en dos categorías: 1) interacción GE con


cambio de rango (COI), también conocida como interacción “crossover”
(Cornelius et al., 1996) e interacción GE sin cambio de rango (NONCOI) o
interacción “noncrossover” (Figura 1).

35 35

30 30

25 25
rendimiento

rendimiento

20 20

15 15

10 10

5 5

0 0
1 2 1 2
ambiente ambiente

genotipo 1 genotipo 2 genotipo 1 genotipo 2

15
35 35

30 30

25 25

rendimiento
rendimiento

20 20

15 15

10 10

5 5

0 0
1 2 1 2
ambiente ambiente

genotipo 1 genotipo 2 genotipo 1 genotipo 2

Figura 1. Interacción Genotipo-Ambientes.

En el cuadro superior izquierdo de la Figura 1 se presenta una situación con


interacción GE, hay cambio de rango y las varianzas de los ambientes son
similares. En el cuadro superior derecho los genotipos interaccionan con los
ambientes pero no hay cambio de rango, las varianzas de los ambientes son
diferentes. En el cuadro inferior izquierdo hay interacción GE sin cambio de
rango y las varianzas de los genotipos en los ambientes son distintas. En el
cuadro inferior derecho se representan dos genotipos cuya producción aumenta
proporcionalmente con los ambientes, no hay interacción GE y no hay cambio
de rango.

Adaptabilidad

Se refiere a la habilidad del genotipo de tener buen desempeño (por ej. altos
rendimientos) con respecto a determinadas condiciones ambientales. La
información provista por los ensayos multi-ambientales permite evaluar
adaptabilidad e identificar el tipo y tamaño de la interacción GE esperada en
una región dada para definir, si es necesario, una estrategia de cultivo exitosa
con respecto a los efectos de interacción. Los efectos de interacción que son de
importancia práctica pueden ser maximizados para el desarrollo de
germoplasma específicamente adaptado o minimizados para el desarrollo de

16
material ampliamente adaptado. Cuando el tamaño de los efectos de
interacción entre genotipos y localidades (interacción GE repetible) es pequeño
comparado con otras fuentes de variación en la respuesta, particularmente con
la variación genotípica, se reduce la posibilidad de mejoramiento para
adaptación específica. Los patrones de adaptación con respecto a localidades
individuales son de limitado interés per se, ya que la muestra de sitios o
localidades con la que comúnmente se trabaja es muy pequeña comparada con
el número de localidades de la región en estudio. El mejoramiento genético
específico, debiera ser dirigido hacia áreas o subregiones y en general no es de
interés ahondar en los efectos de interacción positiva de genotipos con
localidades particulares. Las estrategias de adaptación amplia surgen cuando
hay baja interacción entre genotipos y localidades o bien aunque la varianza de
interacción sea grande, no existen ventajas claras de una crianza específica.

Mega-ambientes

Los sitios que son similares en términos de respuesta genotípica suelen ser
agrupados por diferentes métodos, y cada grupo puede identificar un área de
cultivo que es relativamente uniforme porque los efectos de la interacción GL
son limitados o despreciables. Tales áreas (posibilidad del objeto de
mejoramiento específico) han sido definidas por diferentes autores como
subregiones, subzonas, subáreas, macro-ambientes o mega-ambientes
(CIMMYT, 1989; Yan y Hunt, 2002).

La identificación de mega-ambientes se asocia con la exploración de los


patrones de la interacción GE repetibles a través de los años, e incluso más allá
de su connotación en mejoramiento genético pueden ser utilizadas desde un
punto de vista productivo ya que permiten señalar nichos ambientales propicios
para una mayor productividad tanto en cantidad como en calidad. Las
subregiones pueden también ser definidas para la recomendación de
variedades. Cada subregión entonces coincide con un dominio de
recomendación, agrupando aquellos sitios con el o los genotipos de mejor
comportamiento (Gauch y Zobel, 1997). La definición de subregiones no

17
es geográficamente exacta. La identificación de subregiones, aún cuando no se
pretende mejorar para áreas específicas, podría ayudar a localizar sitios de
prueba cruciales para selección de germoplasma. Las subregiones que son
demasiado pequeñas para tener interés práctico a veces suelen ser fusionadas
con algunas más grandes.

Ecotipos e Ideotipos

Un ecotipo se asocia con la ocurrencia de adaptación específica de individuos o


poblaciones de una misma especie a ciertas áreas y condiciones ambientales.
El ecotipo puede incluir varios genotipos. El concepto de ideotipo vegetal, que
constituye una construcción artificial de una “planta modelo” (aquella que reúne
atributos deseados) ha sido desarrollado en diferentes especies para
incrementar rendimientos bajo condiciones de cultivo favorables. Un ideotipo
vegetal es un modelo para el genotipo ideal para una subregión.

Estabilidad

La expresión estabilidad de rendimientos alta se refiere a la habilidad de los


genotipos de comportarse consistentemente, ya sea con altos o bajos niveles
de rendimiento, a través de un amplio rango de ambientes. Las medidas de
estabilidad pueden ser relativas a diferentes conceptos, estabilidad bajo el
concepto “estático” (Tipo 1) o bajo el concepto “dinámico” (Tipo 2) (Becker y
León, 1998; Lin et al., 1986).

Desde el concepto estático, un genotipo se considera estable si posee un


desempeño sin cambios ante variaciones de las condiciones ambientales. El
término “sensibilidad ambiental” también ha sido utilizado en este sentido,
donde una gran sensibilidad corresponde a baja estabilidad (Dyke et al., 1995).
Así, los genotipos estables son aquellos que se comportan similarmente en
todos los ambientes en que son probados. Se podría decir que la varianza del
rendimiento a través de los ambientes tiende a cero.

18
Contrariamente, desde el concepto dinámico, un genotipo se considera estable
si tiene una respuesta predecible a las variaciones ambientales. Para el caso en
que el rendimiento es el carácter en estudio, se espera que un genotipo estable
rinda lo estimado o predicho por las condiciones ambientales. Becker (1981)
llamó a este tipo de estabilidad el concepto agronómico y lo distinguió del
concepto biológico, el cual es equivalente al concepto estático.

Lin et al. (1986), publican un resumen de ecuaciones para nueve estadísticos


de estabilidad basados ya sea en la desviación respecto a un efecto de
genotipo promedio usando sumas de cuadrados (Grupo A), basados en el
término de interacción GE usando sumas de cuadrados (Grupo B), basados la
desviación respecto a un efecto de genotipo promedio o en el término de
interacción GE pero usando coeficientes de regresión (Grupo C) y basados la
desviación respecto a un efecto de genotipo promedio o en el término de
interacción GE pero usando desviaciones de regresión (Grupo D).

La clasificación dada por Lin et al. (1986) representa tres tipos diferentes de
conceptos de estabilidad. Para la estabilidad tipo I, un genotipo es considerado
estable si su varianza entre los ambientes es pequeña. Este tipo de estabilidad
sería análogo al concepto de homeostasis que Becker (1981) llamó estabilidad
biológica. Desde un punto de vista agronómico genotipos con una buena
estabilidad tipo I pueden no ser preferidos por presentar bajos rendimientos en
ambientes que son altamente productivos para otros cultivares. Obviamente,
una respuesta fenotípica de alto rendimiento acompañada de alta estabilidad
tipo I es deseable, pero esto puede ser muy difícil de alcanzar en la práctica,
razón por la cual frecuentemente se hace necesario evaluar los genotipos
desde conceptualizaciones diferentes a la de estabilidad tipo I. La utilidad de la
estabilidad tipo I depende del rango de variación de las condiciones
ambientales que se incorporan en un ensayo. Si se trata de experimentos multi-
ambientales, con ambientes muy distintos, los estadísticos de estabilidad de
tipo I pueden no ser tan útiles como en ensayos donde se comparan varios
genotipos dentro de una región o a través de ambientes no muy diferentes.

19
La estabilidad tipo II considera un genotipo estable si su respuesta al ambiente
es paralela a la respuesta promedio de todos los genotipos en el ensayo. Este
tipo de estabilidad sería análogo al concepto agronómico dado por Becker
(1981). La estabilidad tipo II tiene el inconveniente de tomar valores relativos a
los genotipos presentes en el ensayo. Esto dificulta la comparación de
genotipos provenientes de ensayos diferentes, o de genotipos que año a año se
van incorporando. La selección de los genotipos que intervienen en el ensayo
debe ser hecha muy cuidadosamente y en función del nivel de inferencia que
se quiera alcanzar con los resultados.

Por último, el concepto de estabilidad tipo III identifica a un genotipo como


estable si muestra un cuadrado medio residual pequeño cuando se regresa su
respuesta fenotípica sobre índices ambientales. Breese (1969), sugirió que el
término estabilidad debiera ser reservado para medir irregularidades no
predecibles en la respuesta a los ambientes. Así, si al regresar genotipos con
ambientes, la variabilidad de la respuesta es subdividida en una parte
predecible (debida a la regresión) y en otra no predecible (desvíos de la
regresión), esta última podría servir como medida de estabilidad. El problema
es que para regresar la respuesta del genotipo con el ambiente, se construyen
índices ambientales a partir de los promedios de rendimiento de los genotipos
presentes en el ensayo, luego el modelo de análisis es descriptivo y no
predictivo.

Lin y Binns (1991) definieron el concepto Tipo 4 de estabilidad que está


estrictamente relacionado al concepto estático. La estabilidad Tipo 4 relaciona
la consistencia de rendimiento exclusivamente en el tiempo, i.e. a través de los
años (o ciclos de cultivo) dentro de las localidades, mientras que la estabilidad
de Tipo 1 relaciona la consistencia tanto en el tiempo como en el espacio, i.e. a
través de los ambientes pertenecientes al mismo o a diferentes sitios.

Desde el punto de vista de los productores, la localidad es un factor constante –


no variable - y la consistencia del rendimiento a través del tiempo es el único
componente relevante de la estabilidad de rendimiento de los genotipos. Por

20
esto es también importante evaluar la estabilidad del rendimiento con respecto
a los efectos de la interacción genotipo-año dentro de las localidades. En
realidad, la consistencia del rendimiento en el espacio también merece
consideración en presencia de interacción genotipo-localidad significativa, ya
que un genotipo seleccionado o recomendado debería ser estable tanto a
través de los años como a través de las localidades en su área de adaptación o
recomendación (Piepho, 1998). Mejorar por alta estabilidad de rendimiento
puede considerarse un objetivo útil cuando la variación en la interacción GE es
grande.

Confiabilidad del Rendimiento

El interés práctico de combinar niveles altos de rendimiento promedio y de


estabilidad de rendimiento ha llevado a desarrollar el concepto confiabilidad de
rendimiento (Eskridge, 1990; Kang y Pham, 1991; Evans, 1993). Un genotipo
seguro (confiable) está caracterizado por rendimientos consistentemente altos a
través de los ambientes. El uso de índices de confiabilidad de rendimiento
facilita la selección o recomendación de genotipos; el rendimiento promedio y
los caracteres de estabilidad de rendimiento son combinados dentro de una
única medida. La evaluación de la estabilidad del rendimiento requiere
numerosos ambientes de prueba (por lo menos ocho) para garantizar
confiabilidad (Kang, 1998; Piepho, 1998).

Modelos para Análisis en Ensayos Comparativos de


Rendimiento

Un modelo estadístico simple para un ensayo comparativo de rendimiento multi-


ambiental conducido según un diseño en bloques completos al azar dentro de
cada ambiente para comparar g genotipos es:

yijk = µ + Gi + E j + B(E)k(j) + GE(ij) + ε ijk

donde yijk es la respuesta (rendimiento) del genotipo i, en el ambiente j; µ es la

21
media general; Gi es el efecto (que puede ser considerado como aleatorio o fijo)
del genotipo i con i=1,...,g; Ej es el efecto fijo del ambiente j con j=1,…,t; B(E)k(j)
es el efecto de bloque k dentro del ambiente j; GE(ij) es el efecto aleatorio de la
interacción del genotipo i con el ambiente j; y εijk es el término de error aleatorio
asociado a la observación yijk. Cuando se analizan caracteres continuos como
el rendimiento, los términos de error generalmente se suponen distribuidos
normalmente con media cero pero la varianza de los errores puede ser
constante o no. En numerosas ocasiones resulta apropiado considerar que la
variación residual es heterocedástica (i.e. no constante) a través de las
localidades, ya que ensayos conducidos en diferentes localidades suelen tener,
por múltiples razones, diferente precisión.

Los ambientes son primariamente definidos según las localidades intervinientes


en el ensayo, pero éstos son repetidos a través de varias campañas agrícolas o
años, y por tanto cada combinación del factor localidad y el factor campaña
puede ser entendida como un nuevo ambiente. Un alternativa de análisis para
estos ensayos repetidos temporalmente es modelar la respuestas de interés
para cada año en forma separada y luego evaluar la consistencia de los
patrones de efectos de genotipo y/o interacción observados a través de los
análisis por campaña. Si las localidades son las mismas a través de las
campañas se podrá observar la persistencia de los agrupamientos de
localidades en el tiempo.

Aún cuando exista interacción con cambio de rango, si la misma refleja cambios
de rankings entre cultivares que pertenecen a una misma subregión, se suele
inferir la existencia de mega-ambientes. En general las tablas de datos de ECR
conducidos en un mismo año o campaña agrícola son completas. El modelo
básico para datos de ECR provenientes de una misma campaña agrícola es el
modelo de ANAVA a dos vías de clasificación presentado anteriormente donde
las localidades constituyen los ambientes. El término de interacción GEij,
interacción del i-ésimo genotipo en el j-ésimo ambiente, es estimado desde la
tablas de medias de genotipo en cada ambiente como el residuo del modelo

22
aditivo, y ij − y i . − y . j + y .. . El término de error del modelo de medias a través de

los bloques, asociado al i-ésimo genotipo en el j-ésimo ambiente es el promedio


de los errores asociados a cada genotipo en cada ambiente, ε ij .

Bajo las suposiciones de varianzas residuales constantes, el error estándar


para la comparación de medias de genotipos es igual para todas las
comparaciones de a pares entre los genotipos. El modelo se usa para obtener
las contribuciones aditivas de genotipo, ambiente e interacción GE sobre las
respuestas. Si la interacción GE resulta significativa, los ranking de genotipos
usando las medias a través de los ambientes no son recomendados, sino que
convienen las comparaciones de genotipo dentro de cada ambiente.

El modelo anterior involucra (g-1)×(e-1) parámetros de interacción GE, con


e=número de ambientes, los cuales no proveen mucha información sobre los
patrones de la interacción. Posteriormente se presentarán otros modelos
basados en la re-expresión de cada término de interacción en función de
componentes principales de variación. Estos modelos permiten explorar más
parsimoniosamente los patrones de interacción. Cuando los ECR multi-
ambientales se llevan a cabo por más de una campaña agrícola, el efecto de la
campaña puede ser incorporado al modelo:

yijkl = µ + L j + B(L) k(j) + Cl + Gi + GL(ij) + GC(il) + GLC(ijl) + ε ijkl

donde yijkl es la respuesta (rendimiento) del genotipo i, en la localidad j, bloque k


en la campaña l; µ es la media general; Lj es el efecto de la localidad j con
j=1,…,s; B(L)k(j) es el efecto del bloque k dentro de la localidad j con k=1,...,n; Cl
es el efecto de la campaña l con l=1,…,a; Gi es el efecto del genotipo i con
i=1,...,g; GL(ij) es el efecto de la interacción del genotipo i con la localidad j; GC(il)
es el efecto de la interacción del genotipo i con la campaña l; GLC(ijl) es el efecto
de la interacción del genotipo i, la localidad j y la campaña l y εijkl es el término
de error aleatorio asociado a la observación yijkl. Este modelo es útil para
estimar la contribución relativa de los términos GC, GL y GCL en la interacción
GE, así como la contribución de la variabilidad debida a genotipo, ambiente y

23
GE sobre el total de (G+E+GE), donde E representa el efecto del ambiente
definido por la combinación de los niveles de los factores localidad (L) y
Campaña (C).

Las decisiones respecto a la estabilidad de rendimiento dependen


esencialmente de las relaciones entre estos componentes de varianza, las
cuales pueden ser estimadas únicamente si los ensayos son repetidos en el
tiempo. En particular los componentes de la interacción GC y GCL, o la
componente de la interacción GC dentro de localidades son relevantes para
decisiones en el contexto de una estrategia de adaptación amplia. El
mejoramiento en estabilidad de rendimiento se justifica cuando todos los
componentes de varianza relevantes de los efectos GE son relativamente más
grandes que los componentes de la varianza genotípica.

Generalmente, en etapas tempranas de la investigación existe un gran número


de genotipos experimentales con pocos antecedentes de evaluación que
pueden ser considerados como una colección aleatoria del material genético de
interés e interesa la adaptación general de los mismos a un amplio rango de
ambientes. El establecimiento de una estrategia de adaptación utiliza la
respuesta del conjunto de genotipos para obtener indicadores y generar
predictores relativos al futuro del material de mejoramiento que puede ser
producido desde la base genética de la que los genotipos evaluados, se
considera, conforman una muestra representativa.

Por el contrario, en etapas avanzadas de evaluación, usualmente se trabaja con


pocos genotipos altamente selectos y se requieren inferencias expresas sobre
ellos (recomendación de cultivares) y de existir una importante interacción
podría ser posible elaborar estrategias de cultivo para áreas determinadas de la
región objetivo. En general, el mejoramiento para adaptación específica tiende a
implicar grandes ganancias genéticas en comparación con el aumento de
costos relativos de una estrategia de adaptación general. Las ganancias
genéticas son derivadas de la exploración de los efectos de interacción entre
genotipos y localidades vía caracteres de adaptación útiles (Bindinger et al.,

24
1996), tanto como del aumento de la heredabilidad del rendimiento como una
consecuencia del decrecimiento de la interacción GE (Kang, 1998).

Ensayos en las Primeras Etapas de Evaluación

El uso de ensayos multi-ambientales en etapas tempranas de investigación, se


justifica en el propósito de ampliar el espacio de inferencia. Los efectos de
genotipos pueden ser considerados como aleatorios y el análisis de datos
experimentales se centrará en el estudio de la variabilidad entre genotipos y en
la elección del material que deberá continuar en evaluación. El análisis no se
centra en la diferencia entre ambientes por lo que la comparación de medias de
ambiente no es de interés. Los efectos de ambiente sólo se incorporan para
descontar posibles diferencias promedios entre ambientes y para considerar
que el desempeño de un genotipo podría cambiar a través de los ambientes,
pero en esta etapa no se trabaja pensando en adaptación específica.

El interés principal es poder evaluar el desempeño de los genotipos


experimentales sobre una base más amplia de ambientes. Los objetivos
clásicos del análisis para datos de ECR multi-ambientales en etapas tempranas
son: 1) estimar las componentes de varianza o contribución a la variación total
de los efectos de genotipo, ambiente y su interacción; 2) estimar si la respuesta
que se está analizando puede ser heredada, i.e. determinar la heredabilidad del
carácter basada en la relación entre la componente de varianza genotípica y la
varianza fenotípica (varianza debida a la interacción más varianza residual) y 3)
identificar los materiales superiores con el propósito de elegir un subconjunto
del conjunto de genotipos evaluados para continuar en futuros ECR. Si bien
pareciera ideal no descartar ningún material, la elección de un subconjunto para
continuar en evaluación es logísticamente necesaria debido a que cada año se
incorporan nuevos genotipos y no pueden seguir todos en evaluación.

El BLUP (del inglés, Best Linear Unbiased Predictor) es el mejor predictor


insesgado de los efectos del modelo cuando éstos se consideran aleatorios
(Robinson, 1991). Los BLUPs de efectos de genotipo son especialmente

25
recomendados para ser usados como predictores del desempeño futuro de
cada genotipo ya que ponderan el rendimiento observado en el genotipo por la
heredabilidad del carácter y contemplan el desbalance de información que
puede existir entre los genotipos que se están comparando (Balzarini, 2000;
Casanoves y Balzarini, 2003). El uso del BLUP de genotipos permite ponderar
las predicciones sobre genotipos en relación a la estructura de covarianzas
genéticas subyacentes. Si se tiene información de pedigree o molecular que
permita establecer relaciones genéticas (covarianzas) entre las líneas
comparadas, éstas pueden ser incorporadas en la expresión del predictor,
incrementando la información disponible desde cada evaluación (Bernardo,
1999).

Ensayos en Etapas Avanzadas de Evaluación

Los ECR se conducen en distintos sitios durante una serie de años para
obtener información que sustente la recomendación de cultivares superiores. La
información obtenida desde ensayos mutli-ambientales es explorada para
predecir respuestas de rendimiento en años venideros y, más comúnmente en
nuevas localidades. Los ensayos multiambientales en esta etapa generalmente
contienen un número reducido de genotipos mejorados (altamente
seleccionados) y uno o más cultivares comerciales usados como testigos
(Balzarini, 2001). El objetivo es comparar rendimientos promedios y estabilidad
de los rendimientos de los genotipos sobre varios ambientes y promedios de
rendimientos en ambientes específicos. Si bien se pretende identificar cultivares
superiores para un determinada región objetivo, estos ensayos también suelen
ser usados con otros propósitos, por ej., para evaluar si la región para la cual se
esta produciendo material puede ser subdividida en diferentes mega-ambientes
cuando la extensión de la interacción GE es considerablemente alta. Un mega-
ambiente usualmente representa un área relativamente amplia, no
necesariamente continua, con condiciones similares de stress biótico y abiótico,
requerimiento de sistemas de cultivo, preferencias del consumidor y de
volúmenes de producción (Braun et al., 1996). Gauch y Zobel (1996,1997)

26
definieron un mega-ambiente como una fracción del área de cultivo de una
especie que muestra condiciones ambientales homogéneas y que causa que
ciertos genotipos se desempeñen similarmente. Usando una base de datos de
ECR de maíz Gauch y Zobel (1997) presentaron la metodología www o “which
wins where” para identificar mega-ambientes, ésta constituye una aproximación
multivariada al estudio de interacción GE.

Aún cuando las medidas de rendimiento resultan de la suma de efectos de


genotipos (G), ambientes (E) y de efectos de interacción (GE), solamente G y
GE parecieran relevantes para recomendación de cultivares. Yan y Hunt (2002)
presentaron la técnica GGE biplot indicada para la identificación de mega-
ambientes. La técnica es derivada de la descomposición por valor singular
(SVD) de la matriz de residuos de un modelo que ajusta los datos sólo por los
efectos de ambientes, así el patrón de los residuos es usado para explorar
simultáneamente patrones de variación en la suma G+GE.

Los biplots (Gabriel, 1971) son gráficos de dispersión construidos a partir de


ejes artificialmente creados (denominados componentes principales o CP) para
mostrar los patrones más relevantes o de menor ruido de una matriz de datos
permitiendo visualizar en una misma gráfica tanto las filas de la matriz (casos)
como las columnas (variables). Estos de se obtienen a partir de la SVD de la
matriz de interés.

En los GGE biplots la SVD se aplica sobre una matriz conteniendo variaciones
debidas a G+GE, esto posibilita visualizar puntos que representan los filas
(genotipos) y otros que representan las columnas (ambientes) de la matriz de
datos con variaciones debidas a G+GE. Cuando la CP1, Componente Principal
de mayor variación, se correlaciona altamente con las medias de genotipo, se
interpreta que las diferencias entre genotipos observados a lo largo de este eje
representan respuestas proporcionales de los cultivares a través de los
ambientes. Los cultivares con altos valores de CP1 serán, en todos los
ambientes, más rendidores que los cultivares con bajos valores de la CP1. En
estos casos la CP2 generalmente muestra variaciones debidas a GE, es decir

27
respuestas no proporcionales de los genotipos a través de los ambientes, las
cuales son responsables de cambios de orden o ranking de los cultivares a
través de los ambientes (interacción crossover). Así, genotipos con valores altos
de CP1 se asocian a una respuesta promedio mayor y a ambientes con altos
valores de CP1 y valores de CP2 cercanos a cero facilitan la identificación de
tales genotipos. Las interpretaciones a realizar para este tipo de gráficos
depende de cada matriz de datos particular, es decir de cuánta variación debida
a los efectos G y GE se encuentran representadas por cada eje y por ello no
sólo es necesario indagar sobre los porcentajes explicados por cada eje, sino
también por el tipo de variación contenida en cada uno de ellos.

Predecesores de estos biplots son los biplots construidos a partir de un modelo


AMMI (del inglés, additive main effects and multiplicative interaction) (Gauch,
1988). El gráfico biplot asociado a un modelo AMMI, se obtiene a partir de la
descomposición por valor singular de la matriz de residuos de un modelo que
ajusta los datos no sólo por los efectos de ambientes sino también por los
efectos de genotipo. Así el patrón de los residuos es usado para explorar
patrones puramente atribuibles a los efectos GE.

Analizar las correlaciones entre genotipos y ambientes responsables de la


interacción GE es siempre informativo, sin embargo es importante realizar esta
interpretación junto a los niveles promedios de rendimiento. Por ello, los ejes de
representación de ambientes y genotipos obtenidos a partir de un modelo
AMMI, usualmente se presentan en combinación con las medias de los
genotipos, evaluando así simultáneamente producción y estabilidad de
producción.

Cuando existe información adicional sobre variables ambientales (datos


climáticos, de suelo, etc.) y/o sobre características de los genotipos o de manejo
del cultivo distinta a aquella considerada como variable de respuesta, es posible
introducir estos datos en el modelo como covariables. La información adicional
en cuanto a factores climáticos, de suelo, bióticos o de manejo de cultivo de las
localidades y los caracteres morfofisiológicos de los genotipos pueden ser

28
pruebas extremadamente valiosas para proporcionar causas de la ocurrencia
de interacciones GE, proporcionar promedios para la caracterización de las
subregiones y extender los resultados a nuevos sitios. También son útiles para
aumentar el conjunto de modelos posiblemente adoptados para el análisis de
adaptación y para identificar caracteres adaptativos y evaluar su potencial como
criterio de selección indirecto. Además, la comparación entre datos climáticos
de los años probados con los datos de los sitios a largo plazo puede ayudar a
verificar si ocurrió algún año con características muy inusuales para mejorar la
inferencia.

29
PARTE III

MODELOS Y MÉTODOS DE ANÁLISIS


EN ENSAYOS MULTI-AMIBIENTALES
Análisis de la Varianza (ANAVA)

Descripción

En experimentos con fines comparativos, usualmente se realiza la


aplicación de varios tratamientos a un conjunto de unidades
experimentales para valorar y comparar las respuestas obtenidas bajo
cada tratamiento o grupo. Se entiende por tratamientos a la/s acciones
que se aplican sobre las unidades experimentales y que son objeto de
comparación. Los tratamientos pueden ser representados por los niveles
de un factor o por la combinación de los niveles de dos o más factores
(estructura factorial de tratamientos), por ejemplo, lo factores pueden ser
localidades, fechas de siembra, híbridos, campañas, etc.; a su vez, cada
factor puede tener dos o más niveles. Por ejemplo, el factor localidad
puede tener dos niveles digamos Pergamino (P) y Córdoba (C), el factor
híbrido también dos niveles digamos el híbrido 1 (H1) y el híbrido 2 (H2).
La combinación de los niveles de los factores forman los tratamientos, es
decir, si los dos híbridos fueron evaluados en Pergamino y en Córdoba,
tendremos cuatro tratamientos: PH1, CH1, PH2, CH2.

Para reducir el error o variabilidad entre unidades experimentales que


reciben el mismo tratamiento, con el propósito de incrementar precisión y
sensibilidad al momento de la inferencia, es importante planificar la
experiencia siguiendo los principios del Diseño de Experimentos (Kuehl,
2001). El diseño experimental es una estrategia de combinación de la
estructura de tratamientos (factores de interés) con la estructura de
unidades experimentales (parcelas, individuos, macetas, etc.) de manera
tal que las alteraciones en las respuestas, al menos en algún subgrupo
de unidades experimentales, puedan ser atribuidas solamente a la acción
de los tratamientos excepto por variaciones aleatorias. El modelo de
análisis de varianza depende del diseño de experimentos que se halla
implementado.

33
La diferencia entre el valor observado y el valor ajustado por el modelo
se denomina residuo. Ellos son utilizados como herramienta de
diagnóstico del modelo y para explorar patrones de interacción con el
ambiente en ensayos multi-ambientales muchas veces se ajusta un
modelo o se aplica algún método de análisis sobre los residuos para
analizar la tendencia de la variabilidad contenido en los mismos.

Objetivo

Comparar las respuestas promedio de dos o más tratamientos.

Datos

Para realizar un ANAVA la base de datos debe contener una columna


por cada factor de clasificación y una columna con los valores de la
variable respuesta, en las filas se consignan las repeticiones.

Ejemplo

Base de datos Ideotipos de Maíz (Anexo). Análisis de la varianza para evaluar


el rendimiento en función de ocho híbridos y siete ambientes. Los ambientes
surgieron como la combinación de las localidades y la presencia o ausencia de
fertilización nitrogenada en tres bloques o repeticiones (cada híbrido fue
repetido en cada ambiente). Debido a la combinación de la estructura de
tratamientos y de las unidades experimentales, se ajustó un modelo de ANAVA
para un diseño factorial con las repeticiones anidadas dentro del factor
ambiente, ya que los bloques dentro de un ambiente son diferentes a los
bloques dentro de otro ambiente.

Modelo: Rinde=µ+Híbrido+Ambiente+Ambiente>rep+Híbrido*Ambiente+ε

donde, Rinde es la variable respuesta, µ es la media general del Rinde, Híbrido


es el efecto debido al híbrido, Ambiente es el efecto debido al ambiente,
Ambiente>rep es el efecto de las repeticiones dentro de cada ambiente,
Híbrido*Ambiente es el efecto de la interacción entre los efectos de genotipo y

34
ambiente y ε es un término de error aleatorio.

Cuadro 1. Modelo factorial con repeticiones anidadas en ambientes.

Menú Estadísticas
Comando Análisis de la varianza
Ventana Selector de Variables
Variables dependientes
Rinde
Variables de clasificación
Hibrido
Ambiente
rep
Ventana Análisis de Varianza
Solapa Modelo (Tipear Modelo)
Ambiente\Ambiente>rep
Hibrido
Ambiente>rep
Hibrido*Ambiente

9 La sentencia Ambiente\Ambiente>rep indica que para evaluar el efecto de


Ambiente debe utilizarse como término de error (expresión Ambiente>rep que
sigue a “\”) es decir la variación entre repetición dentro de un ambiente
(Ambiente>rep) es la variación de referencia para comparar la variación
debida a los Ambientes.

9 La sentencia Hibrido*Ambiente permite evaluar la interacción, i.e., evaluar si


las diferencias entre híbridos son las mismas en cada ambiente.

Cuadro 2. Resultado del modelo factorial con repeticiones anidadas en ambientes.

Análisis de la varianza

Variable N R² R² Aj CV
Rinde 168 0,90 0,83 9,44

Cuadro de Análisis de la Varianza (SC tipo I)


F.V. SC gl CM F p-valor (Error)
Modelo 13291130,77 69 192625,08 12,82 <0,0001
Ambiente 10076605,28 6 1679434,21 13,34 <0,0001 (Ambiente>rep)
Hibrido 722276,54 7 103182,36 6,86 <0,0001
Ambiente>rep 1762279,96 14 125877,14 8,37 <0,0001
Hibrido*Ambiente 729968,99 42 17380,21 1,16 0,2760
Error 1472991,50 98 15030,53
Total 14764122,28 167

35
Interpretación

La significancia del término de interacción, debe interpretarse antes de evaluar


la significancia de los efectos principales de cada factor. Para este ejemplo, no
hay interacción estadísticamente significativa entre ambientes e híbridos,
indicando que las diferencias en el rendimiento promedio entre los híbridos
evaluados se mantuvieron a través de los diferentes ambientes. Además, se
detectaron diferencias estadísticamente significativas entre los ambientes
(p<0.0001) y entre los híbridos (p<0.0001). Para detectar las diferencias
(estadísticamente significativas) entre pares de ambientes y de híbridos a nivel
del Rinde promedio, se realizaron pruebas de comparación múltiple a posteriori
repitiendo el procedimiento del Cuadro 3 se accedió a la solapa
“Comparaciones” para pedir la prueba LSD de Fisher. Se siguió el mismo
procedimiento seleccionando la opción de comparaciones múltiples DGC, en
una segunda implementación del análisis para poner de manifiesto algunas
diferencias entre estas dos técnicas de comparaciones múltiples.

Cuadro 3. Comparaciones Múltiples de a pares

36
El programa ordena automáticamente las medias de cada nivel en orden
ascendiente, colocando letras diferentes a los niveles del factor en estudio que
muestras diferencias estadísticamente significativas para el nivel de
significación (α) fijado por el experimentador (en este caso α=0.05).

Con la prueba LSD de Fisher, tanto para las medias de ambientes como para
las de híbridos, hay superposición de letras diferentes, dificultando su
interpretación, sin embargo la prueba LSD permite concluir que los ambientes
que presentaron un mayor rendimiento promedio se asocian en general con las
localidades que recibieron fertilización nitrogenada (BN, ON, CN y PN) y que el
híbrido 2 presenta menor rendimiento promedio que los híbridos 5, 3 y 8 que
son de alto Rinde pero que no difieren en promedio de lo híbridos 4 y 7. Usando
DGC también se puede concluir que las localidades que recibieron fertilización
nitrogenada se asociaron con los mayores rindes y que se diferencian del resto
de las localidades. Entre las localidades que no recibieron fertilización
nitrogenada (P, O y C), P fue la que presentó menor rendimiento promedio. En
la comparación de los híbridos, surge que el 2 es el de menor rendimiento
medio, hay un grupo de híbridos con rendimiento promedio intermedio (1, 6 y 7)
y un grupo de alto rendimiento medio (3, 4, 5 y 8). La prueba DGC constituye un
método particionante (sin solapamiento de letras entre las medias) que es
recomendable para comparar muchas medias, digamos 5 o más (Di Rienzo et
al., 2001).

37
Cuadro 4. Resultado de comparaciones múltiples de a pares con la prueba de LSD Fisher

Test:LSD Fisher Alfa:=0,05 DMS:=219,66800


Error: 125877,1402 gl: 14
Ambiente Medias n
P 860,48 24 A
O 1076,43 24 A B
C 1210,05 24 B C
BN 1396,84 24 C D
ON 1421,89 24 C D
CN 1513,49 24 D
PN 1614,33 24 D
Letras distintas indican diferencias significativas(p<= 0,05)
Test:LSD Fisher Alfa:=0,05 DMS:=75,08208
Error: 15030,5256 gl: 98
Hibrido Medias n
2 1163,28 21 A
6 1252,99 21 B
1 1263,30 21 B C
7 1304,21 21 B C D
4 1328,98 21 C D
8 1343,75 21 D
3 1360,20 21 D
5 1375,87 21 D
Letras distintas indican diferencias significativas(p<= 0,05)

Cuadro 5. Resultado de comparaciones múltiples de a pares con la prueba de DGC

Test:DGC Alfa:=0,05 PCALT:=210,0225


Error: 125877,1402 gl: 14
Ambiente Medias n
P 860,48 24 A
O 1076,43 24 B
C 1210,05 24 B
BN 1396,84 24 C
ON 1421,89 24 C
CN 1513,49 24 C
PN 1614,33 24 C
Letras distintas indican diferencias significativas(p<= 0,05)
Test:DGC Alfa:=0,05 PCALT:=77,5846
Error: 15030,5256 gl: 98
Hibrido Medias n
2 1163,28 21 A
6 1252,99 21 B
1 1263,30 21 B
7 1304,21 21 B
4 1328,98 21 C
8 1343,75 21 C
3 1360,20 21 C
5 1375,87 21 C
Letras distintas indican diferencias significativas(p<= 0,05)

La manera resumida y clara de presentar los resultados de este análisis es a


través de gráficos. En la Fig. 2 se presentan los valores de rendimiento

38
para cada ambiente (media ± EE) (izquierda) y para cada híbrido (media ± EE)
(derecha). Además se presentan las letras resultantes de la prueba de
comparaciones múltiples DGC.

1650 c 1500
c c
c
c c
1470 c 1400
c
b
b
b

Rinde (g/m2)
Rinde (g/m2)

1290 b 1300

a
1110 b 1200

930 1100
a

1000
750
2 6 1 7 4 8 3 5
P O C BN ON CN PN
Hibrido
Ambiente

Figura 2. Rendimiento promedio y error estándar para cada ambiente (izquierda) y para cada
híbrido (derecha). Letras distintas indican diferencias estadísticamente significativas (p<0.05),
prueba de comparaciones múltiples DCG.

39
Análisis de Componentes Principales (ACP)

Descripción

El ACP es una forma de combinar linealmente las variables para


encontrar índices (componentes principales, CP) con máxima varianza.
Cada combinación de variables define una componente y los valores
(coeficientes con los que se pondera cada variable) usados para
construir cada combinación son tales que no solo maximizan la varianza
de las componentes sino que también garantizan la falta de correlación
entre ellas (i.e. cada CP aporta nueva información para el entendimiento
de los patrones de variabilidad). Los tipos de variables usadas deben ser
cuantitativas. Los pesos con los que se pondera cada variable en la
combinación lineal constituyen los autovalores obtenidos a partir de la
descomposición por valor singular (SVD) de la matriz de varianzas y
covarianzas entre variables (Balzarini, 2003). Los autovalores asociados
a cada autovector representan las varianzas de cada componente
principal. En algunas situaciones (por ejemplo cuando existen datos
inconmensurables) la SVD se aplica sobre la matriz de correlaciones
entre variables que se corresponde con la matriz de varianzas y
covarianzas de los datos previamente estandarizados. Los gráficos Biplot
(Gabriel, 1971) usualmente acompañan los resultados del ACP, ya que a
través de éstos se grafican en un plano óptimo para el estudio de
variabilidad las observaciones y las variables de manera simultánea. El
plano conformado usando como ejes a las dos primeras componentes
(CP1 y CP2), es el plano que explica mayor porcentaje de variabilidad
total.

Objetivo

Explicar la variabilidad de los casos en estudio con respecto a todas las


variables intervinientes.

41
Datos

Para realizar un Análisis de Componentes Principales se puede partir


desde bases de datos donde las filas representan los casos en estudio y
las columnas las distintas variables medidas sobre cada caso (formato
A). También puede realizarse desde bases de datos donde las filas sean
los caracteres medidos (variables) y las columnas los casos (formato B).
El ACP puede realizarse sobre datos estandarizados o no. Se
recomienda estandarizar los datos cuando las variables no son
conmensurables (medidas en diferentes escalas) y/o tienen varianzas de
magnitudes muy distinta.

¿Cómo interpretar un Biplot?

Para interpretar un Biplot obtenido a partir de un ACP clásico (no


corregido por el efecto de filas ni columnas, también denominado ACP no
centrado) se recomienda seguir los siguientes pasos:

1. Observar el porcentaje de variabilidad total explicado por el Biplot. Si el


Biplot conformado por las CP1 y CP2 no explica más del 60% de la
variabilidad total, juzgar la necesidad de explorar los patrones de
variabilidad en un segundo Biplot conformado por las CP1 y CP3. Si son
necesarios muchos Biplot para explicar un porcentaje razonable de la
variabilidad total, digamos mayor a 60-70%, habrá indicios de que el ACP
no es suficiente para representar confiablemente las relaciones entre los
casos y las variables (Arroyo et al., 2005).

2. Concentrarse en la CP1, que por construcción, siempre explicará el


mayor porcentaje de variabilidad total.

2.1 Analizar las proyecciones perpendiculares a la CP1 de los puntos que


representan los casos. Identificar los de mayor inercia, i.e. los puntos que
se encuentran a mayor distancia del cero, ya sea que se alejan hacia la
derecha o hacia la izquierda.

42
9 Interpretar “similaridades/disimilaridades” entre casos en función de las
distancias entre proyecciones sobre la CP1.

2.2. Analizar las proyecciones de los puntos que representan las


variables sobre la CP1. Identificar las variables de mayor inercia.

9 Interpretar “correlaciones” entre variables según los ángulos de los


vectores que los representan. Ángulos agudos indican correlaciones
positivas, ángulos obtusos corresponden a correlaciones negativas y
ángulos rectos indican que no hay correlación entre las variables.

Nota: La longitud de los vectores correspondientes a las variables no son


de interés cuando los datos han sido previamente estandarizados. Si no
se estandarizan los datos, las longitudes de los vectores son
proporcionales a las varianzas de las variables.

2.3. Interpretar correlaciones entre casos y variables en función de la


orientación, pero no de la cercanía entre puntos, i.e. las variables
orientadas hacia la derecha tendrán altos valores en los casos orientados
en la misma dirección y las variables orientadas hacia la izquierda
tendrán altos valores en los casos orientados hacia la izquierda.

3. Concentrarse en la CP2 y realizar las interpretaciones siguiendo un


procedimiento análogo al realizado para la CP1 pero teniendo en cuenta
que las variables en esta dimensión son de menor importancia que los
realizados sobre la CP1 según indican los porcentajes de variabilidad
total explicados por cada CP.

Ejemplo

Archivo Ideotipos de Maíz (Anexo). El objetivo del análisis es estudiar las


correlaciones entre las variables Rinde, PG, NG, EIRFL, EIRfinLL, IVH1-3,
IVH4-8, IVH7-9 y EUN y describir la variabilidad entre los casos que han sido
definidos por la combinación de ambiente y genotipo. Se aplicó un ACP sobre la

43
base de datos conformada por los casos (filas) y variables (columna).

Cuadro 6. Análisis de Componentes Principales.

Menú Estadísticas
Comando Análisis Multivariado
Opción Componentes Principales
Ventana Selector de variables
Variables
Rinde
PG
NG
EI_F
EI_Fll
IV1-3
IV4-6
IV7-9
EUN
Criterio de clasificación
Ambiente
Híbrido

Cuadro 7. Análisis de Componentes Principales con Info-Gen.

44
4
PN:4
PN:8
IV7-9
PN:6 PN:2 PN:3

2 NG PN:1 IV1-3
Rinde IV4-6
EI_F
PN:5 O:6 P:8 P:6
CP 2 (20.5%)

EI_Fll
O:3 O:8
CN:8 PG
0 P:4
CN:5 P:7
O:4
BN:4 BN:6 O:1
BN:8 P:3
CN:7
C:7 C:5 P:5
-2 BN:2 ON:5 EUN
P:1
BN:5
BN:7

-4
-4 -2 0 2 4
CP 1 (43.3%)

Figura 3. Biplot según el plano conformado por las dos primeras componentes principales (CP1
y CP2). Los puntos representan los casos (combinación de híbridos-ambientes) y los vectores
las variables. Se han identificado los casos marginales o aquellos con mayor inercia sobre cada
eje.

Interpretación

El 63.8% de la variabilidad total en el conjunto de casos es explicado por el


primer plano factorial (CP1 y CP2). A nivel de la CP1, que es la componente
que explica por sí sola el 43,3% de la variabilidad total, los casos
correspondientes a situaciones donde se aplicó fertilización nitrogenada (BN,
PN, CN y ON) se “separan” de los casos sin nitrógeno. Con el término “separar”
se desea indicar que al realizar las proyecciones de los casos sobre la CP1, los
valores correspondientes a BN, PN, CN y ON quedan con signos negativos,
mientras que las proyecciones de O y P poseen valores de signos positivos
(Figura 3).

45
Los casos con mayor inercia, i.e., los casos cuyas proyecciones se encuentran
más distantes del cero, son los casos más representativos de la variabilidad
total. Por ejemplo, se manifiestan mayores diferencias entre P respecto de BN y
CN. Las variables con mayor inercia hacia la derecha son IV4-6 e IV1-3 y hacia
la izquierda Rinde, EI_Fll y PG. Dado que el ángulo entre IV4-6 e IV1-3 es
agudo y muy cerrado, suponemos que estas variables están positiva y
altamente correlacionadas, mientras que no se correlacionan con EUN, ya que
los vectores que las representan forman un ángulo recto, y se encuentran
correlacionadas negativamente con Rinde y PG (ángulo obtuso). Por otro lado,
el Rinde, PG, NG, EI_F y EI_Fll fueron las variables que presentaron valores
más altos en los casos posicionados sobre la izquierda del Biplot (fertilizados),
mientras que IVH1-3, IVH4-8, IVH7-9 y EUN presentaron los valores más altos
en los casos posicionados a la derecha del Biplot (casos sin fertilización
nitrogenada).

La CP2 permite diferenciar localidades dentro de los casos donde se aplicó


fertilización nitrogenada, ya que PN se “separa” de BN. Los casos
correspondientes a CN presentan proyecciones sobre la CP2 cercanas al cero,
indicando que estos casos poseen poca inercia. A nivel de la CP2, las variables
con mayor inercia son EUN e IV7-9 siendo las responsables de la variación
observada en esta componente. Estas son interpretaciones puramente
estadísticas, tienen por objeto recomendar un procedimiento de lectura de los
Biplt. Para que esta técnica de visualización de variaciones y asociaciones
tenga impacto en la búsqueda de conocimiento es necesario interpretar los
resultados en el contexto y conocimiento a priori del problema agronómico.

46
Estudio de Interacción con modelos de ANAVA y ACP

Modelos de ANAVA que incluyen componentes principales

La interacción GE o Tratamiento×Ambiente también puede analizarse


mediante modelos lineales y bilineales (Gollob, 1968), que separan la
porción de interacción dada por la heterogeneidad de las regresiones de
genotipos sobre las medias ambientales de la debida a error. Los
modelos lineales-bilineales representan la versión multivariada de los
procedimientos con interacción multiplicativa (Cornelius et al., 1992 y
1993; Crossa y Cornelius, 1993, 1997 y 2002, Crossa et al., 1993 y
1995). El nombre lineal-bilineal se debe a que el modelo para la
respuesta del genotipo i en el ambiente j comprende una parte
sistemática que involucra los efectos aditivos principales de genotipo y
ambiente (componentes lineales) como así también uno o más términos
multiplicativos para explicar patrones en el término de interacción GE
(componentes bilineales). Comúnmente la parte aleatoria del modelo
involucra al término de error y a la varianza residual del término de
interacción, i.e. la parte de la interacción GE no explicada por el modelo
multiplicativo. La ecuación de un modelo lineal-bilineal para la respuesta
de un genotipo en un ambiente dado puede expresarse como:

r
y ij = µ + Gi + A j + ∑ λnξ niηnj + ρ ij + ε ij
n =1

donde Gi es el efecto del genotipo i, Aj es el efecto del ambiente j,


r

∑λ ξ
n =1
ηnj es la sumatoria de términos multiplicativos que modela la
n ni

interacción GE, compuesta por el parámetro de interacción del j-ésimo


ambiente, denotado por ηnj , del i-ésimo genotipo para la misma

componente o eje, denotado por ξ ni y el autovalor (medida de variación)

asociado al eje y denotado por λn. El parámetro ρij representa la porción

del ij-ésimo término de interacción GE no explicado por el modelo

47
multiplicativo y εij es el término de error aleatorio. El término ξni puede ser

interpretado como sensibilidad genotípica a los factores ambientales


latentes, los cuales son representados por ηnj en el j-ésimo ambiente.

La estimación de los parámetros de interacción GE en un modelo lineal-


bilineal de efectos fijos y para tablas de datos balanceadas se hace por
medio de la descomposición por valor singular (SVD) de una matriz Z,
que contiene los residuos del modelo aditivo luego de ajustar por
mínimos cuadrados el modelo de efectos principales que contiene los
efectos que se quieren descontar.

El cociente entre la suma de los n primeros valores singulares y la suma


de todos los valores singulares representa la proporción de la variabilidad
total en Z explicada por las n primeras componentes (CP1 a la CPn). Las
componentes obtenidas a partir de los autovectores de la SVD de Z son
ordenadas de mayor a menor en función a los autovalores asociados. La
SVD de Z, provee los autovectores que contienen los scores de
genotipos y ambientes respectivamente.

Generalmente los dos primeros términos multiplicativos son suficientes


para explicar los patrones de interacción; la variabilidad remanente se
interpreta como ruido. Para la interpretación de los patrones e interacción
GE, los scores de genotipos y ambientes del término de interacción de un
modelo lineal-bilineal son generalmente visualizados por medio de
gráficos biplot (Gabriel, 1971) para identificar los genotipos y ambientes
más importantes para explicar los patrones de variación contenidos en
los residuos que se analizan.

48
Modelo AMMI y Biplots para AMMI(2) y AMMI(1)

Descripción

Los primeros modelos lineales-bilineales usados en ensayos agrícolas


multiambientales fueron llamados modelos de efectos aditivos e
interacción multiplicativa o modelos AMMI (del inglés, Additive Main
effects and Multiplicative Interaction) por Zobel et al. (1988) y Gauch
(1988). Cuando se usa análisis de componentes principales, los
genotipos con valores cercanos a cero en la CP1 son interpretados como
adaptados a los ambientes de prueba o de menor contribución en la
interacción GE.

Los modelos AMMI, suelen denominarse como AMMI(1),


AMMI(2),...,AMMI(n) dependiendo del número de componentes
principales usadas para modelar la interacción. Existen pruebas
estadísticas que pueden implementarse para la selección del mejor
modelo (Macchiavelli y Beaver, 1999). Una manera de seleccionar el
modelo (es decir, seleccionar el número de CPs que se usarán), que
puede no ser la más eficiente pero sí la más sencilla y rápida, es
observando el porcentaje de variación en la tabla de residuos explicada
por cada componente. Se debiera seleccionar un número de
componentes tal que se explique un alto porcentaje de la variación de
interés (en este caso la variación debida a la interacción). El porcentaje
acumulado de variación explicada por las componentes seleccionadas
debiera ser similar al porcentaje de variación explicada por la interacción
respecto al error que acusó la tabla de ANAVA de un modelo completo,
i.e un modelo conteniendo los términos de genotipo, ambiente,
interacción y error.

Para explorar la interacción a partir de un modelo AMMI es necesario


primero ajustar un modelo de Análisis de la Varianza con efectos de
genotipo y de ambiente (sin la interacción). Luego realizar un Análisis de

49
Componentes Principales sobre los residuos de ese modelo aditivo. De
esta manera el residuo obtenido para cada observación (o el promedio
de los residuos para las repeticiones de una combinación genotipo-
ambiente) contiene además de una medida del error experimental el
efecto de la interacción GE. El ACP es aplicado sobre esta matriz de
residuos para rescatar las principales componentes de variación que se
espera se relacionen con algún patrón sistemático debido a la interacción
y separar aquellas componentes asociadas a alguna “señal” de la últimas
que muy probablemente se asocien a la variación debido al “ruido” o
error aleatorio. Ambos análisis son aplicados automáticamente cuando
se solicita un análisis de interacción en Info-Gen y se especifica
correctamente los términos del modelo de ANAVA a ajustar en la primera
etapa.

Objetivo

Estudiar la interacción GE, es decir identificar comportamientos


diferenciales (alejados de los esperados bajo un modelo aditivo) de los
genotipos a través de los distintos ambientes.

Datos

La base de datos para realizar un estudio de patrones de interacción GE


mediante un modelo AMMI debe contener una columna que identifique
genotipos, otra ambientes y otra que contenga los valores de la variable
respuesta.

50
Ejemplo

Base de datos Ensayos Comparativos de Rendimiento de Poroto (Anexo).


Análisis de Interacción Genotipo*Ambiente, modelo AMMI.

Cuadro 8. Modelo AMMI usando Info-Gen.

Menú Mejoramiento
Comando Análisis de Interacción
Ventana Selector de Variables
Variable dependiente
Rinde
Criterio de Clasificación
Líneas
Ambientes

Cuadro 9. Análisis de la interacción Genotipo Ambiente

51
Cuadro 10. Gráficos Biplot asociado al modelo AMMI(2) (arriba) y AMMI(1) (abajo)

2.30
IO0

12
1.22 19 22

13 16
CP 2 (17.8%)

15
9 28 30
14 5 6 VJ
0.15 SC 29 18
2 8 IE1 21
1 SM
27
IE0 25 IE2 23 17
10 7
24
MG 26
3 20 IO1
-0.93 11
4

-2.00
-2.00 -1.00 0.00 1.00 2.00
CP 1 (55.3%)

0.50
MG
IE0 VJ

SC
L8 L1 L15 L14
0.25 SM
L6

L12 L7
Scores CP1

L11
L25 L29
L3 L24
0.00
L4 L28
L13
L20
L26
L18 L23 IO0
L22
-0.25 L30
IE1
IE2
IO1
-0.50
1.0 1.2 1.4 1.6 1.8 2.0
Rinde medio

52
Interpretación

En estos datos el rendimiento promedio mostró un amplio rango, de 0.4 a más


de 3 ton.ha-1, con las líneas determinadas siendo en general de menor rinde
que las indeterminadas. Del ANAVA completo se deduce que la varianza
debida a la interacción GE tiene una magnitud de aproximadamente el 50% de
aquella debida al error. Las dos primeras componentes principales explican el
73.1% de la variabilidad en la tabla de residuos y por tanto se puede suponer
que ellas son suficientes para explicar los patrones debidos a la interacción; se
decidió trabajar con un modelo AMMI(2). También se graficaron las líneas de
regresión para ambos tipos de genotipos (determinados y no determinados)
construidas a partir de la relación entre las respuestas centradas (yij.- y…)
versus los efectos de ambiente (y.j.- y…) para cada genotipo (análisis no
mostrado). Se observó que estas rectas de regresión presentaban pendientes
diferentes; este es un buen indicador de la existencia de efectos multiplicativos
que pueden ser explicados a través del modelo AMMI. Al menos parte de la
interacción debe ser explicada por el hábito de crecimiento debido al cruce
observado de las rectas de regresión. Este tipo de análisis suele ser útil antes
de proceder a analizar el biplot relacionado al modelo AMMI.

Se presentaron dos biplots, uno construido a partir de las dos primeras


componentes principales y otro construido a partir de la CP1 y los rendimientos
medios (por línea y por ambiente), algunas veces este último gráfico es referido
como AMMI(1). La primera componente principal (CP1), claramente indica que
el aspecto más importante de la interacción GE puede ser explicado por el
hábito de crecimiento: esencialmente, todos los genotipos con crecimiento
indeterminado (numerados del 16 al 30) tienen scores o valores positivos de la
CP1, mientras que la mayoría de los genotipos con crecimiento determinado
tienen scores negativos.

Debido a los efectos multiplicativos usados en el modelo, un ambiente dado va


a manifestar efectos opuestos para líneas determinadas respecto a los
manifestados para líneas indeterminadas. Los ambientes IE1, IE2, IO0 y IO1

53
(todas fechas de plantación en Puerto Rico, excepto enero 1990) tendieron a
asociarse o mostrar correlación positiva con líneas indeterminadas, mientras
que los ambientes IE0, MG, SC, SM y VJ parecieran estar positivamente
correlacionados con líneas de hábito de crecimiento determinado. La CP2
diferencia líneas en función de la correlación de los términos de interacción con
el ambiente IO0.

Los ambientes IO1 y MG son extremos en el rango de variación de la CP1 y por


tanto concluimos que ellos contribuyen más en explicar los patrones de
interacción GE, es decir los cambios más importantes en las diferencias entre
genotipos son observados en estos ambientes. El biplot del AMMI(1) sugiere
que los genotipos L24 y L29 exhiben un comportamiento más predecible
(mayor estabilidad) entre aquellos genotipos de alto rendimiento. Ellos son
buenos candidatos, entre las líneas indeterminadas, para los ambientes IE1,
IE2, IO0 y IO1. El genotipo L3 mostró el mismo comportamiento entre las líneas
determinadas. El genotipo L14 es también una línea de alto rendimiento entre
las determinadas y a la vez un importante contribuyente a la interacción GE.

54
Modelo SREG y Biplot GGE

Descripción

Los modelos de regresión por sitio (SREG, Cornelius et al., 1996; Crossa
y Cornelius, 1997 y 2002) son modelos lineales-bilineales que remueven
el efecto de sitio y sólo expresan a la respuesta en función de G+GE.
Son aconsejables cuando los sitios (o ambientes) constituyen la fuente
de variación más importante en relación a la contribución de los
genotipos y la interacción GE sobre la variabilidad total, situaciones éstas
muy comunes en la práctica. Para visualizar los patrones de interacción
con remoción de los efectos de ambiente (datos centrados por sitio), Yan
et al. (2000) proponen los gráficos GGE biplots. A partir de estos gráficos
se puede investigar la diferenciación de mega-ambientes entre los
ambientes en estudio y seleccionar cultivares superiores en un mega-
ambiente dado. El modelo para construir un GGE biplot con las 2
primeras CP, a partir de la SVD de datos centrados por efecto de
ambientes (Yan y Hunt, 2002) es:

y ij − y j = λ1ξ i 1η j 1 + λ2ξ i 2η j 2 + ε ij

donde y ij es el rendimiento medio del genotipo i en el ambiente j, y j es la

media de los genotipos en el ambiente j, λ1 y λ2 son los autovalores para


la CP1 y CP2 respectivamente, ξi 1 y ξ i 2 son los scores del genotipo i en
la CP1 y CP2 respectivamente, η j 1 y η j 2 son los scores del ambiente j en

la CP1 y CP2 respectivamente y ε ij es el término residual asociado a la

observación promedio del genotipo i en el ambiente j centrado por el


efecto del ambiente j. El modelo es escalado para asegurar que la CP1 y
la CP2 tengan las mismas unidades. El método de escalamiento consiste
en tomar la raíz cuadrada de la variable en su escala original

y ij − y j = λ11/ 2ξ i 1λ11/ 2η j 1 + λ21/ 2ξ i 2 λ21/ 2η j 2 + ε ij .

55
El GGE biplot basado en las dos primeras componentes es construido
graficando λ11/ 2ξi 1 y λ11/ 2η j 1 versus λ21/ 2ξi 2 y λ21/ 2η j 2 .

Yan et al. (2000) señalan que usualmente la CP1 representa respuestas


de los cultivares que son proporcionales a través de los ambientes las
cuales se asocian con la interacción GE sin cambio de rango, mientras
que la CP2 representa respuesta de los cultivares no proporcionales a
través de los ambientes, es decir aquellas responsables de la interacción
GE con cambio de rango. Si existe una alta correlación entre las medias
de los genotipos y la CP1 podría interpretarse el GGE biplot de acuerdo a
las sugerencias dada por Yan et al (2000), es decir los cultivares con
scores CP1 altos se interpretan como aquellos que tienden a tener
mayores rendimientos y los ambientes con CP1 altos y CP2 cercanos a
cero con los ambientes que facilitan la identificación de dichos cultivares.

Para explorar la interacción a partir de un modelo SREG es necesario


primero ajustar un modelo de Análisis de la Varianza con efectos de
ambiente (sin efectos de genotipo ni interacción). Luego realizar un
Análisis de Componentes Principales sobre los residuos del modelo
ajustado. De esta manera el residuo obtenido para cada observación (o
el promedio de los residuos para las repeticiones de una combinación
genotipo-ambiente) contiene además de una medida del error
experimental el efecto de genotipo (G) y el de la interacción GE.

El ACP es aplicado sobre esta matriz de residuos para rescatar las


principales componentes de variación que se espera se relacionen con
algún patrón sistemático debido a la suma G+GE y separar aquellas
componentes asociadas no muestra patrón sino ruido. Ambos análisis
son aplicados automáticamente cuando se solicita un análisis de
interacción en Info-Gen y se especifica correctamente los términos del
modelo de ANAVA a ajustar en la primera etapa.

56
Objetivo

Identificar mega-ambientes y genotipos ganadores en cada mega-


ambiente.

Datos

La base de datos para realizar un estudio de patrones de interacción GE


mediante un modelo SREG debe contener una columna que identifique
genotipos, otra ambientes y otra que contenga los valores de la variable
respuesta.

Ejemplo

Base de datos Ensayos Comparativos de Rendimiento de Maní (Anexo).


Modelo GGE.

Cuadro 11. Modelo GGE

Menú Mejoramiento
Comando Análisis de interacción
Ventana Selector de variables
Variable dependiente
Rendim
Criterio de Clasificación
Genotipo
Sitio
Bloque
Ventana Siguiente (Borrar Genotipo
manualmente)

57
Cuadro 12. Análisis de la Interacción Genotipo Ambiente para un modelo GGE

2
Sitio 2

1 Sitio 1
Sitio 3 Tegua
Florman
CP 2 (16.7%)

mf484
mf480
mf487
0
mf485 manf393 mf478
mf447

mf489
mf457
-1

-2
-2 -1 0 1 2
CP 1 (76.2%)

Figura 4. GGE biplot para la identificación de los mejores genotipos en cada sitio. Puntos
oscuros representan genotipos y puntos claros sitios.

58
Interpretación

Para la identificación de los mejores genotipos en cada ambiente, la propuesta


de Yan y Hunt (2002) de interpretación de los GGE biplot especifica que en
primer lugar se debe graficar un polígono envolvente de identificadores de
genotipo, este es automáticamente obtenido en Info-Gen (Figura 4). En la base
de datos analizada, los extremos que definen el envolvente están dados por los
genotipos mf480, mf457, mf489, mf485, mf484, Tegua y Florman. Estos son
genotipos de comportamiento extremo, i.e. los de mejor o peor rendimiento en
algunos ambientes. A continuación, para cada uno de los lados del polígono
(hay tantos lados como genotipos extremos haya) se trazan líneas rectas que
pasan por el origen y son perpendiculares a cada uno de los lados del polígono
(o a sus proyecciones). De esta forma, el biplot queda dividido en cuadrantes,
generalmente cada uno conteniendo un genotipo en el vértice.

Los genotipos que quedan en el vértice son los que más rinden en los
ambientes que quedan encerrados en el cuadrante. Se observa que en el
cuadrante que tiene como vértices a los genotipos mf480 y mf457 se encuentra
el Sitio 1. Estos genotipos son los de mayor rinde en ese sitio. Luego les sigue
en rendimiento el genotipo mf478. El cuadrante cuyo vértice esta determinado
por el genotipo Tegua, involucra al Sitio 2. Al genotipo Tegua le sigue en
rendimiento el genotipo Florman, aunque por su cercanía en el biplot estos
tienen rendimientos muy parecidos en ese sitio. El siguiente cuadrante queda
determinado por la proyección de la línea que une a los genotipos mf484 y
Tegua y por la proyección perpendicular hacia el origen de la línea que une
mf489 y mf457. En este cuadrante el marcador del genotipo mf485 es el vértice
del sector que contiene al Sitio 3 y a los genotipos mf485, mf484m, mf489,
mf487 y mf447 en orden de mayor a menor rendimiento dentro de ese sitio.
Todos los sitios que quedan en un mismo cuadrante pueden ser considerados
como pertenecientes a un mega-ambiente. Aquí, la componente de interacción
GE fue mayor que la componente de G, quedan todos los sitios en distintos
cuadrantes, sugiriendo la presencia de tres mega-ambientes diferentes.

59
60
Modelo GREG y Biplot GEE

Descripción

Los modelos de regresión por genotipo son modelos lineales-bilineales


que remueven el efecto de genotipo y expresan a la respuesta en función
de E+GE. Son aconsejables cuando los genotipos constituyen una fuente
de variación importante y es de interés identificar ambientes que
contribuyen a la interacción GE. Para visualizar los patrones de
interacción con remoción de los efectos de genotipo (datos centrados por
genotipo), se utilizan gráficos denominados GEE biplots. Estos son
obtenidos de manera análoga a la explicada para los GGE biplot.

Objetivo

Identificar ambientes que contribuyen a la interacción y los ambientes


“ganadores” dentro de mega-ambientes favorables para determinados
grupos de genotipos.

Datos

La base de datos para realizar un estudio de patrones de interacción GE


mediante un modelo GREG debe contener una columna que identifique
genotipos, otra ambientes y otra que contenga los valores de la variable
respuesta.

61
Ejemplo

Base de datos Ensayos Comparativos de Rendimiento de Poroto (Anexo).


Modelo GEE.

Cuadro 13. Modelo GEE usando Info-Gen

Menú Mejoramiento
Comando Análisis de interacción
Ventana Selector de variables
Variable dependiente
Rinde
Criterio de Clasificación
Líneas
Ambiente
Ventana Siguiente (Borrar Ambiente
manualmente)

Cuadro 14. Análisis de la Interacción Genotipo Ambiente para un modelo GEE

62
Cuadro 15. Gráfico GEE Biplot

3.2

14
15 12
6 IO0
1.6 MG 5 1 2
10 29 13 22
SM
25 IE1
CP 2 (21.3%)

8 19 IE2
11 24
7 28 16
0.0 VJ 21
3 20 17 30
SC
27 26 18
IE0 4 23

-1.6

IO1
-3.2
-3.2 -1.6 0.0 1.6 3.2
CP 1 (53.7%)

Interpretación

Para la identificación de los mejores ambientes desde los GEE biplot en primer
lugar se debe graficar un polígono envolvente de identificadores de ambientes,
este es automáticamente obtenido en Info-Gen. En la base de datos analizada,
los extremos que definen el envolvente están dados por los ambientes IO0, IO1,
IE0 y MG. Estos son ambientes de comportamiento extremo, i.e. los de mejor o
peor rendimiento para algunos genotipos. A continuación, para cada uno de los
lados del polígono (hay tantos lados como genotipos extremos haya) se trazan
líneas rectas que pasan por el origen y son perpendiculares a cada uno de los
lados del polígono (o a sus proyecciones). De esta manera se formaron cuatro
cuadrantes. Los ambientes que quedan en el vértice son los que más rinden
entre los que quedan encerrados en el cuadrante. El cuadrante cuyo vértice
es IE0 y que además contiene a los ambientes VJ y SC no contiene ningún
genotipo sugiriendo que estos ambientes son los de rendimientos más pobres
en todos las líneas evaluadas. El ambiente MG es vértice del cuadrante que
contiene a las líneas principalmente de crecimiento indeterminado. El
63
tercer cuadrante tiene como vértice IO0 y además contiene a los ambientes IE1
e IE2 y a la mayoría de las líneas de crecimiento determinado pero también
líneas de crecimiento indeterminado. Estos ambientes presentaron altos
rendimientos para líneas de los dos tipos de rendimiento. Ambientes como IE0
son desfavorables para rinde.

64
ACP en el Estudio de Correlaciones Genética y Ambientalmente
Determinadas

Objetivo

Estudiar correlaciones entre variables determinadas desde la genética de


los materiales o desde los ambientes en que éstos se evalúan.

Datos

Para estudiar correlaciones genéticamente determinadas se parte de una


base de datos que contenga las medias de cada variable (columnas) por
genotipo (filas). A partir de ésta base de datos se debe obtener una
nueva tabla de tres columnas. Una de las columnas contendrá el nombre
de los genotipos, otra el nombre de las variables evaluadas y la tercera
contendrá el valor promedio de cada uno de los caracteres para cada
genotipo. A partir de ésta nueva configuración de la base de datos se
realiza un Análisis de la Varianza del valor promedio de cada variable y
que sólo ajuste por la variación debida a la variable, es decir que se tiene
como único factor de clasificación a la variable con tantos niveles como
variables se hayan medido en el ensayo. Los residuos estimados a partir
del modelo ajustado contendrán la variación debida al genotipo más la
interacción genotipo*variable. Con los residuos así estimados se realiza
un ACP acompañado de su gráfico Biplot.

Para estudiar correlaciones ambientalmente determinadas se procede de


idéntica manera sólo que se parte de una base de datos que contiene las
medias de cada variable por ambiente.

Dado que las variables pueden ser no conmensurables y/o tener


varianzas muy distintas se recomienda estandarizar previo a cualquiera
de estos dos análisis.

65
Ejemplo

Para estudiar correlación genéticamente determinada

Base de datos Ideotipos de Maíz (Anexo). Correlación genéticamente


determinada

Cuadro 16. Paso 1 para estudiar Correlación Genéticamente Determinadas con Info-Gen

Menú Datos
Comando Transformar
Ventana Selector de variables
Variables
Rinde
PG
NG
MS2-1
IC
IV7-9
EI_F
EI_Fll
EUN
Opción Estandarizar

66
Cuadro 17. Paso 2 para estudiar Correlación Genéticamente Determinadas con Info-Gen

Menú Estadísticas
Comando Medidas Resumen
Ventana Selector de variables
Variables
EST_Rinde
EST_PG
EST_NG
EST_MS2-1
EST_IC
EST_IV1-9
EST_EI_F,
EST_EI_Fll,
EST_EUN
Criterio de clasificación
Híbrido
Opción Medias

Cuadro 18. Paso 3. Ir a Menú Resultados, Comando Exportar Resultados como Tabla

9 Nota: Si los nombres de las variables están separados por espacios utilizar el
comando Separador de Campos>Tabulador del Menú Resultados

67
Cuadro 19. Paso 4. Sobre la Nueva Tabla confeccionada en el Paso 3

Menú Aplicaciones
Comando Interacción Genotipo-Ambiente
Borrar (Híbrido de Especificación del modelo
manualmente)

Cuadro 20. Gráfico Biplot de correlación entre variables genéticamente determinada.

1.5 NG

1.0
5 IC
Rinde
0.5 6
8
CP 2 (18.5%)

MS2-1
3
0.0 EI_F EUN

4 1
-0.5 2 EI_Fll
7
IV7-9

-1.0 PG

-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
CP 1 (66.0%)

Interpretación

Las dos primeras CP explican el 84.5 % de la variabilidad total entre genotipos.


Los híbridos 5 y 7 son diferentes de los híbridos 2 y 6 según la CP1 y en cuanto
a los caracteres evaluados (Cuadro 20). Los caracteres que marcan la mayor
diferenciación genética a nivel de la CP1 es IV7-9 que está asociada a los
genotipos 2 y 6 (izquierda del gráfico) y los caracteres IC, PG y EUN que se
correlacionan positivamente a los genotipos 5 y 7 (derecha del gráfico). La CP2
separa principalmente al carácter NG. El rendimiento muestra correlación
positiva genéticamente determinada con IC, PG y EUN. La correlación entre las
variables IV7-9 y EI_F se encuentra genéticamente determinada; cuando estas
variables asumen valores mayores hay menores valores de IC, PG y EUN.

68
Ejemplo

Para estudiar correlación ambientalmente determinada

Base de datos Ideotipos de Maíz (Anexo). Correlación ambientalmente


determinada. Se procede de la misma forma que para el análisis anterior pero
las medias deben calculares por Ambiente (i.e. una media para cada ambiente).

Cuadro 21. Gráfico Biplot de correlaciones ambientalmente determinadas

3.5
EI_F

2.3

PN
1.2 C CN
P
MS2-1
CP 2 (21.6%)

IV7-9 NG Rinde
0.0
PG
O
BN
-1.2
ON
EUN
-2.3 EI_Fll
IC

-3.5
-3.5 -2.3 -1.2 0.0 1.2 2.3 3.5
CP 1 (64.3%)

Interpretación

Las dos primeras CP explican casi el 86% de la variabilidad total entre


ambientes (Cuadro 21). La CP1 separa los ambientes con nitrógeno (BN, PN,
CN y ON) de los que no recibieron fertilización nitrogenada (C, O y P). Los
primeros se correlacionan positivamente a las variables Rinde, PG, NG, EI_F,
EI_Fll, IC y MS2-1 mientras que los ambientes pobres en nitrógeno presentan
mayor EUN. A nivel de la CP2 se separan dentro de los ambientes
nitrogenados PN y CN de ON y BN las primeras se asocian a la EI_F mientras
que las segundas se asocian a EI_Fll e IC. El ambiente provoca correlaciones
altas entre Rinde, NG, PG y MS2-1 como así también entre EI_Fll e IC.

69
70
Análisis de Regresión

Descripción

En el análisis de regresión lineal se estudia cómo los cambios en la/s


variable/s input afectan a la variable respuesta (output), mediante el
ajuste de un modelo para la relación funcional entre ellas, suponiendo
que esta es lineal. Genéricamente, la relación entre las variables se
modela estadísticamente de la forma Yi = β0 + β1 X1 + β 2 X 2 + ... + ε i , donde
Yi es la i-ésima observación, X1, X2, … son las variables regresoras, ß1,
ß2 son los parámetros que dan los pesos de cada variable
represoramente también llamados coeficientes de regresión y que serán
estimados a partir de los datos y εi es el término de error aleatorio
asociado al i-ésimo dato. Asumiendo que el modelo es correcto, la
función de regresión estimada es usada para hacer inferencias y
predicciones. Antes de ello es importante examinar la adecuación del
modelo, es decir si se cumplen los supuestos del modelo sobre los
errores (normalidad, independencia y homogeneidad de varianza).

Toda la información muestral sobre falta de ajuste está contenida en los


residuos. Cada residuo es un estimador del error, que se espera se
distribuya como una variable aleatoria con media cero. Los residuos
pueden tener varianzas desiguales y correlaciones distintas de cero.
Dado que un dato puede asociarse a un residuo grande (outlier) pero no
ser influyente (no cambia fuertemente el modelo) suele ser preferible
realizar gráficos diagnóstico basados en residuos estudentizados, que
son los residuos corregidos por una medida de influencia de la
observación sobre el ajuste. Los residuos estudentizados debieran seguir
un patrón similar al de variables aleatorias independientes con
distribución normal de media cero y varianza constante. Valores de
residuos estudentizados entre -2 y 2 indican que no existen datos
aberrantes, mientras que datos con valores de residuos estudentizados

71
mayores a 2 o menores a -2 son considerados outliers o valores atípicos.
Los gráficos de residuos más usados para diagnóstico son:

Residuos (o residuos Estudentizados) versus predichos: Incumplimiento


de supuestos del modelo se reflejan en dependencias de los residuos
sobre los valores predichos que se manifiestan en la existencia de un
patrón (falta de aleatoriedad) en este gráfico.

QQ-plots e histogramas de residuos (o residuos Estudentizados):


Permiten verificar si los errores se distribuyen normalmente y detectar la
presencia de observaciones inusuales que podrían requerir especial
atención en el análisis. Cuando el tamaño de la muestra es grande, los
alejamientos de la normalidad tienen poco peso en la inferencia.

Para determinar qué proporción de la variabilidad en Y es explicada por


las regresoras introducidas en el modelo se usa el coeficiente de
determinación (R2). En regresión múltiple, la existencia de
multicolinealidad (i.e. correlación fuerte entre variables regresoras)
conduce a estimaciones de coeficientes de regresión poco estables
(cambian mucho al agregar o quitar variables regresoras).

La contribución de cada regresora puede resultar confusa si existe


multicolinealidad y en estos casos los errores estándar de los
estimadores suelen ser muy grandes. La multicolinealidad puede tratarse
mediante el agregado de puntos adicionales que la destruyan, el uso de
combinaciones lineales de las variables que sean ortogonales y/o la
eliminación de variables redundantes. La técnica de centrar las
regresoras también suele aplicarse para disminuir la correlación entre
regresoras.

Objetivo

Explicar la variación en la variable output como función lineal de la o las


variables regresoras.

72
Datos

Para realizar un análisis de regresión simple se debe disponer de una


variable dependiente o output (variable Y) y una variable regresora,
explicatoria o predictora (variable X). Si existe más de una variable
predictora se realizará un análisis de regresión múltiple.

Ejemplo

Regresión lineal simple

Base de datos Factores limitantes Soja (Anexo). El objetivo de este análisis es


estudiar si existe relación lineal significativa entre el rendimiento y la
precipitación acumulada durante algún período del cultivo: desde emergencia
hasta floración (Pr1), desde floración hasta inicio de llenado de grano (Pr2) y
desde inicio de llenado de grano hasta madurez fisiológica (Pr3). Además para
estudiar la relación de la precipitación acumulada durante todo el período
reproductivo y el rendimiento, se creó una nueva variable que mide la
precipitación acumulada durante todo el período reproductivo, desde floración
hasta madurez fisiológica (Pr2 + Pr3), mediante el comando Transformar del
menú Datos utilizando la opción Suma. Mediante gráficos de dispersión se
exploró la relación funcional que presentan las observaciones de la variable
dependiente (Rendimiento) vs cada una de variables de precipitación
(regresoras).

Cuadro 22. Gráfico de dispersión con Info-Gen

Menú Gráficos
Comando Diagrama de dispersión
Ventana Selector de Variables
Eje Y
Rend
Eje X
Pr1

9 Se repite el procedimiento para cada par de variables de interés

73
En la Figura 5 se muestran los diagramas de dispersión entre cada una de las
variables relacionadas a la precipitación y el rendimiento. No se observa
relación lineal aparente entre Pr1, Pr2 o Pr3 y el rendimiento, mientras que para
la suma de precipitaciones (Pr2+Pr3) se observa una tendencia cuadrática.
Esta tendencia es difícil de explicar desde un punto de vista agronómico ya que
en general, si hay más agua se espera más rinde. No obstante si se analiza la
relación para casos donde la suma no supera los 180 mm la relación pareciera
ser lineal. Será entonces de interés, en este problema, modelar la relación
antes y después del valor de la precipitación donde se produce un cambio en la
tendencia. Si bien existen procedimientos estadísticos para la búsqueda de los
valores en X donde se produce un cambio en la relación mostrados, basados
en criterios agronómicos y según el diagrama de dispersión, seleccionamos el
valor de 180 mm como punto crítico para el cambio de modelo. Para realizar las
regresiones por separado se clasificó a la variable Suma[Pr2+Pr3] en 2 grupos
(hasta 180 mm y mayores a 180 mm) mediante el comando Categorizar del
Menú Datos.

540 540
A B

466 466
Rendimiento (g/m2)
Rendimiento (g/m2)

392 392

318 318

244 244

170
170
0 63 125 188 250
40 140 240 340 440
Pr2 (mm)
Pr1 (mm)

74
540 540
C D

466 466

Rendimiento (g/m2)
Rendimiento (g/m2)

392 392

318 318

244 244

170
170
40 170 300 430 560
0 110 220 330 440
Suma[Pr2+Pr3] (mm)
Pr3 (mm)

Figura 5. Diagramas de dispersión Rendimiento vs A: Precipitación acumulada desde


emergencia hasta floración (Pr1); B: Precipitación acumulada desde floración hasta inicio de
llenado de grano (Pr2); C: Precipitación acumulada desde inicio de llenado de grano hasta
madurez fisiológica (Pr3) y D: Precipitación acumulada desde floración hasta madurez
fisiológica (Suma[Pr2+Pr3]), en este último diagrama la línea de corte vertical indica el valor 180
mm.

Se realizó un análisis de regresión lineal simple del rendimiento en función de


las precipitaciones del período reproductivo (Suma[Pr2+Pr3]) para cada grupo:
Hasta 180 mm y Mayor a 180 mm.

Cuadro 23. Regresión Lineal Simple con Info-Gen

Menú Estadísticas
Comando Regresión Lineal
Ventana Selector de Variables
Variable dependiente
Rend
Regresoras
Suma[Pr2+Pr3]
En este ejemplo debió utilizarse además:
Solapa Particiones
Particionar por
CATSuma[Pr2+Pr3]

9 En la casilla Regresoras pueden ir más de una variable.

75
Cuadro 24. Resultados de Análisis de regresión Lineal Simple

Análisis de regresión lineal

CATSuma Variable N R² R²Aj ECMP


Hasta 180 Rend 29 0. 71 0.70 2657.63

Coeficientes de regresión y estadísticos asociados

Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows


const 51.51 33.96 -18.18 121.20 1.52 0.1410
Suma 2.09 0.25 1.57 2.61 8.21 <0.0001 66.02

Interpretación

Los resultados de la regresión lineal para Suma[Pr2+Pr3] ≤ 180 mm se


presenta en el Cuadro 24. Se observa que la pendiente de la recta (2,09) es
estadísticamente distinta de cero (p<0.0001) por lo que existe relación lineal
positiva entre el rendimiento y las precipitaciones acumuladas durante la etapa
reproductiva, es decir que mientras mayor sea la precipitación acumulada en la
etapa reproductiva (hasta 180 mm) mayor será el rendimiento esperado. La
ordenada al origen (const) no es estadísticamente distinta de cero, si bien
podría ajustarse una recta que pase por el origen, en general se recomienda
dejar el término constante en el modelo aunque sea no significativo.

En el diagrama de dispersión de residuos estudentizados vs predichos (Figura 6


derecha) se observan tres puntos que podrían ser considerados outliers debido
a que presentan residuos estudentizados mayores a 2. Analizando la base de
datos se descubre que esos casos corresponden a las tres repeticiones de un
cultivar (DM 4800 RR) en una campaña (03_04) y en una localidad (Totoras).
Decidimos no incluirlo en la modelación ya que los valores de precipitación
registrados para esa localidad son más bajos de lo esperado. Sacando dichos
casos, el ajuste del modelo mejora (ver error cuadrático medio de predicción,
ECMP) (Cuadro 24). La raíz cuadrada de error cuadrático medio de predicción
es un indicador del error de predicción que debe esperarse cuando se use el
modelo en un sentido predictivo, es decir para pronosticar el valor de Y para
nuevos valores de la/s variables regresoras. En este ejemplo el error de
predicción nos dice en cuanto nos podemos equivocar al predecir el

76
rendimiento mediante este modelo. El primer ajuste realizado (sin sacar los
casos 110, 111 y 112) tiene un error de predicción (EP) de 51.55 g/m2, mientras
que el segundo ajuste (sin los casos 110, 111 y 112) tiene un EP de 32.07 g/m2.

540 3
110

Res. estudentizados_Rend
2 111
112
440
Rendimiento (g/m2)

340 0

-1
240
-2

140 -3
60 90 120 150 180 170 235 300 365 430
Suma[Pr2+Pr3] (mm) Predichos

Figura 6. Diagrama de dispersión con el ajuste y las bandas de confianza de la regresión lineal
simple del rendimiento en función de los valores de Suma[Pr2+Pr3] ≤ 180 mm (izquierda).
Diagrama de dispersión de los residuos estudentizados vs valores predichos por el modelo
ajustado (derecha).

Cuadro 25. Resultados de análisis de regresión lineal simple (sin los casos 110, 111 y 112)
para los casos donde Suma[Pr2+Pr3] es hasta 180 mm y para casos con Suma[Pr2+Pr3]
mayor a 180 mm

Análisis de regresión lineal

CATSuma Variable N R² R² Aj ECMP


Hasta 180 Rend 26 0.76 0.75 1028.60

Coeficientes de regresión y estadísticos asociados

Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows


const 108.60 22.77 61.61 155.59 4.77 0.0001
Suma 1.54 0.18 1.17 1.91 8.64 <0.0001 72.63

CATSuma Variable N R² R² Aj ECMP


Mayor 180 Rend 124 0.08 0.08 4379.05

Coeficientes de regresión y estadísticos asociados

Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows


const 411.80 23.40 365.49 458.12 17.60 <0.0001
Suma -0.24 0.07 -0.38 -0.10 -3.34 0.0011 12.10

El modelo ajustado para relación entre rendimiento y precipitación acumulada


en el segundo y tercer período, cuando esta es menor a 180 mm es

77
yˆ = 108.6 + 1.54 × Suma[Pr 2 + Pr 3] (R2=0.76, Error de predicción

1028.6 ).

El modelo ajustado por la regresión realizada con los valores de Suma[Pr2+Pr3]


mayores a 180 mm sugiere que la pendiente es estadísticamente distinta de
cero (p=0.0011), pero pero que la relación es negativa, nuevamente si bien este
modelo puede ajustar los datos carece de sentido agronómico por lo que
debiera buscarse otras variables para predecir rendimiento cuando
Suma[Pr2+Pr3] es mayor a 180 mm.

Regresión Lineal Múltiple

Base de datos Factores limitantes Soja (Anexo). El objetivo del análisis es


explicar la variabilidad del rendimiento en función de variables climática y de
suelo para todos los casos y luego separan los casos según la Suma[Pr2+Pr3]
sean ≤ 180 mm y mayor a 180 mm.

De las 4 variables climáticas de interés (Pr, Ra, Tm y Fot) se tienen 3


mediciones a través del ciclo del cultivo, este hecho ocasiona correlación entre
las variables predictoras y podría hacer que la regresión múltiple no sea muy
confiable por multicolinealidad. Las tres medidas de Pr ya las hemos resumido
anteriormente, en la variable Suma[Pr2+Pr3] y por lo tanto vamos a usar
Suma[Pr2+Pr3] en lugar de las tres variables relacionadas a Pr que figuran en
la base de datos. Para seleccionar de las otras variables regresoras un
subconjunto sin problemas de alta correlación realizamos previamente un
análisis de correlación lineal entre variables usando el coeficiente de correlación
de Pearson (Cuadro 26). En la triangular inferior de esta matriz se presentan los
coeficientes de correlación y en la parte superior los valores p asociados a la
hipótesis nula de falta de correlación. Se trabaja con un nivel de significación del
5% para interpretar las significancias de las correlaciones.

78
Cuadro 26. Análisis de correlación lineal con Info-Gen

Menú Estadísticas
Comando Análisis de Correlación
Opción Coeficientes de Correlación
Variables Y

Ra1
Ra2
Ra3
Tm1
Tm2
Tm3
Fot1
Fot2
Fot3

En el Cuadro 27 se muestran los coeficientes de correlación obtenidos y la


significancia de la prueba de hipótesis de no correlación. En general, se
observa que las variables Fot1, Fot2, Fot3, Tm1, Tm2 y Tm3 están
correlacionadas entre ellas y con Ra1, Ra2 y Ra3 y que éstas últimas también
se correlacionan entre ellas, por lo que se decidió elegir sólo una de las
radiaciones. Se seleccionó Ra3 debido a que se hipotetiza que la radiación
acumulada durante la etapa de llenado de grano podría ser más explicativa que
radiaciones en otras etapas.

Cuadro 27. Resultados del Análisis de Correlación para las variables climáticas

Coeficientes de correlación

Correlacion de Pearson: coeficientes\probabilidades

Ra1 Ra2 Ra3 Tm1 Tm2 Tm3 Fot1 Fot2 Fot3


Ra1 1.000 2.5E-07 1.2E-08 0.017 3.5E-05 0.111 0.331 0.000 2.5E-12
Ra2 -0.402 1.000 0.000 0.000 0.265 2.9E-07 4.0E-12 0.000 0.000
Ra3 -0.440 0.558 1.000 0.000 0.165 0.042 4.5E-12 0.000 0.000
Tm1 0.193 -0.586 -0.602 1.000 0.136 0.002 1.1E-07 0.000 0.000
Tm2 -0.328 -0.091 0.113 -0.121 1.000 0.013 1.3E-07 0.080 0.118
Tm3 0.129 0.401 -0.164 -0.244 -0.201 1.000 0.019 0.006 1.4E-05
Fot1 -0.079 -0.523 -0.522 0.413 0.411 -0.189 1.000 5.1E-06 1.4E-10
Fot2 -0.589 0.729 0.646 -0.792 0.142 0.221 -0.359 1.000 0.000
Fot3 -0.527 0.706 0.606 -0.793 0.127 0.344 -0.489 0.954 1.000

79
Para el caso de las variables de suelo también se calcularon las correlaciones
(Cuadro 28) entre las variables y se decidió seleccionar AUI, MO y %Md para
comenzar a probar ajustes de modelos de regresión múltiple.

Cuadro 28. Resultados del Análisis de Correlación para las variables de suelo

Coeficientes de correlación

Correlacion de Pearson: coeficientes\probabilidades

AUI MO PrB2t %Md %pi Chid


AUI 1.000 0.441 0.001 0.014 0.481 0.044
MO -0.063 1.000 0.132 4.6E-05 0.043 2.9E-09
PrB2t 0.276 -0.122 1.000 0.096 0.040 0.662
%Md -0.198 -0.323 0.135 1.000 0.000 0.000
%pi -0.057 -0.164 0.166 0.675 1.000 0.000
Chid 0.163 0.457 0.036 -0.597 -0.719 1.000

Al realizar la regresión múltiple y analizar los residuos estudentizados vs


predichos se encontró que los casos 110, 111 y 112 presentan residuos altos
residuos altos, como en el caso de la regresión lineal simple, por lo cual se
volvió a ajustar el modelo de Regresión Múltiple sin estos casos.

Cuadro 29. Análisis de Regresión Lineal Múltiple con Info-Gen

Menú Estadísticas
Comando Regresión Lineal
Ventana Análisis de Regresión Lineal
Variable dependiente
Rend
Regresoras
Suma[Pr2+Pr3],
Ra3
AUI
MO
%Md
Solapa Selección de modelo
Opción Eliminación backward

9 La opción Eliminación backward es un método de selección de modelo. Se


parte con el modelo completo y se van eliminando de a una las variables poco
explicativas hasta obtener un modelos de mejor ajuste.

80
Los resultados sugieren un modelo para el ajuste (Cuadro 30) pero este
presenta nuevamente un problema desde el punto de vista agronómico, debido
a que el coeficiente estimado para la variable Suma[Pr2+Pr3] es negativo (-
0.11), un comportamiento análogo se observa con la variable AUI.

Cuadro 30. Resultados de la regresión múltiple del rendimiento como variable dependiente y 5
regresoras (Suma[Pr2+Pr3], Ra3, AUI, %Md y MO)

Análisis de regresión lineal

Variable N R² R² Aj ECMP
Rend 150 0.49 0.48 2602.42

Eliminación backward. Máximo p-valor para retener regresoras: 0.15


Variables totales: 6, variables en el modelo 6

Coeficientes de regresión y estadísticos asociados

Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows


const 196.14 45.91 105.39 286.89 4.27 <0.0001
Ra3 0.24 0.04 0.17 0.32 6.40 <0.0001 45.70
AUI -0.25 0.10 -0.45 -0.05 -2.47 0.0145 11.09
MO 43.35 10.07 23.44 63.26 4.30 <0.0001 23.40
%Md -1.50 0.26 -2.02 -0.98 -5.69 <0.0001 37.19
Suma -0.11 0.04 -0.19 -0.03 -2.84 0.0052 13.00
Error cuadrático medio: 2386.124834

Como se mostró en el análisis de regresión simple existe un punto (180 mm) en


los valores de Suma[Pr2+Pr3] a partir del cual se produce un cambio en la
relación entre las precipitaciones y el rendimiento, por lo que se propone
realizar la regresión múltiple particionada según los valores de Suma[Pr2+Pr3]
sean hasta 180 mm o mayores a 180 mm.

Los resultados de la regresión múltiple para el grupo de casos con valores de


Suma[Pr2+Pr3]≤ 180 mm sugieren, luego de la selección de modelos, un
modelo que explica la variabilidad del rendimiento como función de una
ordenada al origen (const=172.32) y de dos regresoras, %Md y Suma[Pr2+Pr3]
con valores de coeficientes -0.89 y 1.29 respectivamente. El error de predicción
del modelo es ±31.5 g/m2 (Cuadro 31).

81
Cuadro 31. Resultados de la Regresión Múltiple del rendimiento con 5 variables para los casos
con Suma[Pr2+Pr3]≤180mm

Análisis de regresión lineal

CATSuma Variable N R² R² Aj ECMP


Hasta 180 Rend 26 0.80 0.78 993.76

Eliminación backward. Máximo p-valor para retener regresoras: 0.15


Variables totales: 6, variables en el modelo 3

Coeficientes de regresión y estadísticos asociados

Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows


const 172.43 37.38 95.11 249.75 4.61 0.0001
%Md -0.89 0.43 -1.77 -4.7E-03 -2.08 0.0489 6.19
Suma 1.29 0.21 0.87 1.71 6.28 <0.0001 39.89
Error cuadrático medio: 744.811436

Para el conjunto de datos con Suma[Pr2+Pr3]>180 mm no se introdujo en el


modelo AUI ni Suma[Pr2+Pr3] debido a las anomalías detectadas
anteriormente. Los resultados sugieren que para valores de Suma[Pr2+Pr3]
mayores a 180 mm la variabilidad del rendimiento puede ser aceptablemente
explicada por Ra3, MO y %Md, con un error de predicción ±54.6 g/m2 (Cuadro
32).

Cuadro 32. . Resultados de la regresión múltiple del rendimiento con 3 variables para los casos
con Suma[Pr2+Pr3]>180mm

CATSuma Variable N R² R² Aj ECMP


Mayor 180 Rend 124 0.42 0.40 2984.72

Eliminación backward. Máximo p-valor para retener regresoras: 0.15


Variables totales: 4, variables en el modelo 4

Coeficientes de regresión y estadísticos asociados


Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows
const 67.09 39.56 -11.23 145.40 1.70 0.0925
Ra3 0.25 0.04 0.16 0.33 5.72 <0.0001 35.49
MO 50.12 11.90 26.55 73.68 4.21 <0.0001 20.59
%Md -1.38 0.31 -2.00 -0.76 -4.39 <0.0001 22.11
Error cuadrático medio: 2745.576428

82
Uso de regresión en el análisis de estabilidad

Para el análisis de estabilidad, es común el uso de modelos de regresión o de


análisis de varianza y regresión para descomponer la interacción GE en un
conjunto de términos multiplicativos y de desviaciones desde ellos. Las
aproximaciones univariadas para el estudio de interacción modelan la
interacción GE como una función lineal de efectos de ambiente aditivos, i.e.
GEij=βEj+dij, donde dij es la desviación de la regresión y (1+β) es el coeficiente
de regresión lineal de la respuesta del i-ésimo genotipo sobre la media de los
ambientes. Al ajustar el modelo aditivo se obtienen las estimaciones de los
términos de interacción GE y luego se regresionan esos valores sobre los
efectos ambientales, i.e. y . j − y.. . La interacción GE es expresada como

heterogeneidad de pendientes y la estabilidad óptima es representada por alta


respuesta media, moderada a alta respuesta a los ambientes favorables y bajas
desviaciones de regresión.

Casanoves, (1996) resume los estadísticos más frecuentemente utilizados para


la cuantificación de la estabilidad de acuerdo con el concepto de estabilidad
estática y estabilidad dinámica (Becker y Leon, 1988) y en función de su base
estructural (Lin et al., 1986) (Cuadro 33)

83
Cuadro 33.Medidas de estabilidad y su clasificación.

Grupo Concepto Estadístico para medir Estabilidad Autores


Estabilidad
A Estático Varianza ambiental
1 g Roemer
tipo 1
S 2j = ∑
a − 1 i =1
(Yij − Y. j )2 (1917)

Coeficiente de variación ambiental


A Estático S 2j Francis y
CV j = 100 Kannenberg
tipo 1 Y. j (1978)

Componente de varianza promedio


g
g SCGA
B Dinámico θj = ∑
2(g − 1)(a − 1) i =1
(Yij − Yi . − Y. j + Y.. )2 +
2(g − 1)(a − 1)
Plaisted
Peterson
tipo 2 g a (1959)
donde SCGA = ∑∑ (Y
i =1 j =1
ij − Yi . − Y. j + Y.. )2

Componente de varianza de la interacción


B Dinámico genotipo×ambiente
g g
SCGA
Plaisted
tipo 2
θ( j ) = ∑
2(g − 1)(g − 2)(a − 1) i =1
(Yij − Yi . − Y. j + Y.. )2 +
(g − 1)(a − 1)
(1960)

Ecovalencia
Dinámico g Wricke
B W j2 = ∑ (Yij − Yi . − Y. j + Y.. )2 (1962)
tipo 2 i =1

Dinámico Varianza de estabilidad Shukla


g
B g SCGA (1972a)
tipo 2
σ 2j = ∑
( g − 2)(a − 1) i =1
(Yij − Yi . − Y. j + Y.. )2 −
(g − 1)( g − 2)(a − 1)
Coeficiente de regresión de valores observados sobre
índices ambientales
Dinámico g Finlay
C ∑ (Y ij − Y. j )(Yi . − Y.. ) Wilkinson
tipo 2 βj = i =1
(1963)
(Yi . − Y.. )2

Dinámico Estabilidad genotípica


g Hanson
CyB
D 2j = ∑ (Yij − Y. j − bminYi . + bminY.. )2 (1970)
tipo 2 i =1

Cuadrado medio residual de las desviaciones respecto a las


regresiones de valores observados sobre índices
Dinámico Eberhart
ambientales
D Rusell
tipo 3 1 ⎡g g
2⎤ (1966)
δ j2 = ⎢ ∑
(a − 2) ⎣ i =1
(Yij − Y.j )2
− β j ∑ (Yi . − Y.. ) ⎥
2

i =1 ⎦

84
Cuadro 34. (continuación): Medidas de estabilidad y su clasificación.

Grupo Concepto Estadístico para medir Estabilidad (*) Autores


Estabilidad
Cuadrado medio residual de las desviaciones respecto a
las regresiones de valores observados ajustados por
Dinámico Perkins
ambiente sobre índice ambiental.
D Jinks
tipo 3 1 ⎡g g
2⎤ (1968)
δ j2 = ⎢ ∑
(a − 2) ⎣ i =1
(Yij − Yi. − Y.j + Y.. )2
− β j ∑ (Yi . − Y.. ) ⎥
2

i =1 ⎦
Coeficiente de determinación Pinthus
Dinámico
S 2 (1973)
D r j2 = 1 − dj
tipo 3 S 2
yj

Media del valor absoluto de la diferencia entre rangos del


genotipo i-ésimo sobre todos los ambientes Nassar
Dinámico
B 2 a Hühn
S (1)
j = ∑ | rij − ri ´ j |
a(a − 1) i ´ =i +1
(1987)

Dinámico Varianza común de los rangos del genotipo i-ésimo entre


(Estático los ambientes
desde el 1 a Nassar
B punto de S (2)
j = ∑ (rij − r. j )2
(a − 1) i =1
Hühn
vista de (1987)
los
rangos)

9 (*) Yij es la respuesta del genotipo i en el ambiente j; Y. j es el promedio sobre

genotipos; Yi . es el promedio sobre ambientes; Y.. es el promedio general; bmin


es el mínimo coeficiente de regresión de Finlay y Wilkinson para genotipo; rij
es el rango del genotipo i en el ambiente j

85
86
Análisis de Correlación Lineal

Descripción

El objetivo del análisis de correlación lineal es conocer la relación


funcional entre dos variables numéricas i.e. estudiar si están linealmente
asociadas en el sentido que al aumentar el valor observado en una de las
variables, aumenta o disminuye linealmente el valor observado en la otra
variable. La medida de dicha asociación se puede realizar a través del
coeficiente de correlación de Pearson. El coeficiente de correlación de
Pearson (r) es una medida de la magnitud de la asociación lineal entre
dos variables numéricas. Ésta medida no depende de las unidades de
medida de las variables originales sino de la variación conjunta
(covarianza) entre las dos variables y de las varianzas de cada una de
ellas. La expresión del coeficiente de correlación de Pearson para las
variables X e Y es:

⎛ n ⎞
⎜ ∑ ( xi − X )( y i − Y ) ⎟ /(n − 1)
rxy =
Sxy
= ⎝ i =1 ⎠
Sx2Sy2 ⎛⎛ n 2⎞ ⎞⎛⎛ n 2⎞ ⎞
⎜ ⎜ ∑ ( xi − X ) ⎟ /(n − 1) ⎟ ⎜ ⎜ ∑ ( y i − Y ) ⎟ /(n − 1) ⎟
⎝ ⎝ i =1 ⎠ ⎠ ⎝ ⎝ i =l ⎠ ⎠

donde rxy es el Coeficiente de Correlación de Pearson, Sxy es la


covarianza entre X e Y, Sx2 es la varianza de X, Sy2 es la varianza de Y, xi
son los valores observados de la variable X, X es el valor medio de la
variable X, yi son los valores observados de la variable Y y Y es el medio
de la variable Y y n es el número de observaciones.

El coeficiente de correlación de Pearson puede tomar valores dentro del


intervalo [-1, 1]. Valores cercanos a 1 indican alta correlación lineal
positiva y valores de r cercanos a -1 indican alta correlación lineal
negativa. Si el coeficiente se aproxima a cero indica que no hay
correlación lineal entre variables. Para probar si un coeficiente de

87
correlación es estadísticamente distinto de cero se realiza una prueba de
hipótesis.

Objetivo

Conocer el grado de asociación que hay entre dos o más variables y


obtener una medida de la magnitud (y dirección) de la asociación o co-
variación de cada par de variables.

Datos

La base de datos debe tener dos o más variables numéricas observadas


sobre cada uno de los casos (genotipo, híbridos, etc.). Cada columna de
la base de datos contendrá la variable observada.

Ejemplo

Archivo Ideotipos de Maíz (Anexo). Análisis de Correlación entre variables


ecofisiológicas

Cuadro 35. Análisis de Correlación

Menú Estadísticas
Comando Análisis de Correlación
Opción Coeficientes de correlación
Selector de variables
Variables Y
Rinde
PG,
NG
EI_F
EI_Fll
IV1-3
IV4-6
IV7-9

En el Cuadro 36 se presenta la matriz de correlaciones entre todos los


caracteres (triangular inferior) y los valores de p para la prueba de hipótesis de

88
correlación nula (triangular superior), obtenidos a partir del coeficiente de
correlación de Pearson.

Cuadro 36. Resultados del análisis de correlación entre variables ecofisiológicas. Matriz con los
coeficientes de correlación (triangular inferior) y valor p para la prueba de hipótesis de
correlación nula (triangular superior) entre nueve caracteres.

Coeficientes de correlación

Correlacion de Pearson: coeficientes\probabilidades

Rinde PG NG EI_F EI_Fll IV1-3 IV4-6 IV7-9


Rinde 1.00 0.00 0.00 3.9E-08 0.00 2.2E-03 7.8E-06 0.38
PG 0.67 1.00 0.32 9.0E-04 1.7E-09 0.01 5.1E-05 3.6E-04
NG 0.79 0.08 1.00 3.4E-05 1.8E-09 0.01 2.5E-03 0.12
EI_F 0.41 0.25 0.31 1.00 0.15 0.05 0.02 0.42
EI_Fll 0.58 0.44 0.44 0.11 1.00 1.9E-05 3.3E-07 0.12
IV1-3 -0.23 -0.19 -0.19 -0.15 -0.32 1.00 0.00 0.00
IV4-6 -0.34 -0.31 -0.23 -0.18 -0.38 0.90 1.00 0.00
IV7-9 -0.07 -0.27 0.12 -0.06 -0.12 0.58 0.68 1.00

Interpretación

El rendimiento presenta correlación lineal positiva significativa (r>0) con las


variables PG (r=0.7, p<0.0001), NG (r=0.79, p<0.0001), EI_F (r=0.41,
p<0.0001), EI_Fll (r=0.58, p<0.0001) y negativamente con IV1-3 ((r=-0.23,
p<0.0022), IV4-6 (r=-0.34, p<0.0001) y no está correlacionado
significativamente con IV7-9 (r=-0.07, p=0.38). El PG y NG no están
correlacionadas linealmente (r=0.08, p=0.32).

En general se observa correlación estadísticamente significativa (distinta de


cero) entre los pares de variables eco-fisiológicas incluidas en el análisis. Las
variables de inserción de hojas verticales (IV1-3, IV4-6, IV7-9) presentan
correlación negativa con las variables de eficiencia de intercepción de la
radiación (EI_F y EI_Fll), con los componentes del rendimiento (PG y NG) y con
el rendimiento (Rinde).

89
90
Análisis de Sendero

Descripción

En el análisis de sendero (Path Analysis) se pretende construir modelos


de causa-efecto entre las variables a través de la disección de la
correlación entre dos variables como la suma de dos tipos de efectos,
estos son efectos directos de una variable sobre otra (senderos simples)
y efectos indirectos de una variable sobre otra vía una o más variables
exógenos (senderos compuestos). Si se considera una nueva variable en
el sistema anterior, digamos la variable U, y suponemos que existe un
sistema con relaciones lineales Y = β0 + β1 X + β 2U + ε que pueden ser
representadas por ese modelo, el análisis de sendero nos brindará
información sobre los efectos directos de X y U sobre Y (senderos
simples en el diagrama del sistema) y además efectos indirectos de X
sobre Y a través de U y de U sobre Y a través de X. El efecto indirecto de
una variable X sobre Y vía otra variable U se define como py ,x rx ,u , donde

los coeficientes py ,x corresponden a los coeficientes estandarizados de la

regresión múltiple de Y sobre X y U y rx ,u es el coeficiente de correlación

simple entre X y U. El análisis de sendero de este sistema involucrando


dos variables causales realiza la siguiente disección de la correlación
entre Y y X y entre Y y U:

ry ,x = py ,x + py ,u rx ,u
ry ,u = py ,x rx ,u + py ,u

Dada una muestra, es posible obtener valores para todos los coeficientes
de correlación involucrado en este sistema de ecuaciones, las incógnitas
son siempre igual al número de ecuaciones y corresponden a los
estimadores de los efectos directos del sistema poblacional. Luego, otra
forma de estimar los coeficientes de sendero (path coefficients) es a
través de la resolución de este sistema de ecuaciones.

91
Objetivo

Estudiar un sistema de correlación entre variables donde existe una


variable output teniendo en cuenta efectos directos e indirectos de las
variables input.

Datos

Para realizar un estudio de correlación a través de un análisis de


senderos las variables que se quieren correlacionar deben conformar las
columnas de la base de datos. Se supone independencia entre casos u
observaciones.

Ejemplo

Archivo Ideotipos de Maiz (Anexo). Análisis de Sendero

Cuadro 37. Análisis de sendero

Menú Estadísticas
Comando Análisis de correlación
Opción Análisis de sendero (path analysis)
Selector de variables
Dependiente
Rinde
Independientes
PG
NG
EI_F
EI_Fin ll
EUN

92
Cuadro 38. Resultados del Análisis de sendero

Coeficientes de Sendero (Path Analysis)

Variable dependiente: Rinde; n=168


Efecto Vía Coeficientes p-valor
PG Directa 0.62
PG NG 0.06
PG EI_F 0.01
PG EI_Fll -0.01
PG EUN -2.2E-03
r total 0.67 <0.0001

NG Directa 0.74
NG PG 0.05
NG EI_F 0.01
NG EI_Fll -0.01
NG EUN -2.7E-03
r total 0.79 <0.0001

EI_F Directa 0.03


EI_F PG 0.16
EI_F NG 0.23
EI_F EI_Fll -3.1E-03
EI_F EUN -4.7E-03
r total 0.41 <0.0001

EI_Fll Directa -0.03


EI_Fll PG 0.28
EI_Fll NG 0.33
EI_Fll EI_F 2.8E-03
EI_Fll EUN -1.6E-03
r total 0.58 <0.0001

EUN Directa 0.02


EUN PG -0.08
EUN NG -0.11
EUN EI_F -0.01
EUN EI_Fll 2.4E-03
r total -0.17 0.0262

Interpretación

El rendimiento se correlaciona de manera estadísticamente significativa con las


5 variables independientes incluidas en el análisis r total, p<0.05). El coeficiente
de correlación general entre Rinde y PG es 0.67, la correlación directa es 0.62 y
el resto es correlación indirecta i.e. correlación vía las otras variables. Esto
indica que la correlación observada entre Rinde y PG es sobretodo correlación
directa del PG sobre el Rinde. El mismo resultado se observa con NG, la mayor
parte de la correlación se debe al efecto directo de NG sobre Rinde. Mientras
que tanto para las eficiencias en la intercepción de la radiación (EI_F y EI_Fll)
como para la eficiencia de uso del nitrógeno (EUN) la correlación directa con el

93
rendimiento es muy baja pero como las correlaciones indirectas vía NG y PG
son relativamente altas se explica la correlación con el rendimiento. La EUN se
relaciona negativamente con el Rinde (r=-0.17) y el camino de dicha correlación
sobretodo es vía NG (Cuadro 38).

94
Regresión por Mínimos Cuadrados Parciales

Descripción

PLS (del inglés, Partial Least Squares) es un método estadístico


multivariado relativamente nuevo para el análisis de ensayos multi-
ambientales. Es una técnica que generaliza y combina el ACP y el
análisis de Regresión Lineal. Es particularmente útil cuando se desea
predecir un conjunto de variables dependientes (Y) desde un conjunto
(relativamente grande y posiblemente correlacionadas) de variables
predictoras (X). El objetivo del método PLS es describir Y a partir de X y
su estructura de variación común.

Cuando hay más observaciones que variables predoctoras y no existe


problema de multicolinealidad, la predicción de Y en función de X puede
realizarse eficientemente con un análisis de regresión lineal múltiple. PLS
se usa cuando existe correlación entre las variables predictoras y/o
existen más predictoras que observaciones. El problema de la estimación
en estos casos podría resolverse combinando linealmente las predictoras
con un ACP y luego regresionando Y con un número reducido de CP.
Pero hay que recordar que las CP explican variación en X y nada nos
dicen sobre la relación de Y con X. Por el contrario la técnica PLS busca
una solución óptima o de compromiso entre el objetivo de explicar la
máxima variación en X y encontrar las correlaciones de éstas con Y.

La técnica se basa en un re-arreglo de la SVD de la matriz de correlación


entre dos bloques (o matrices) de variables. Así, se la SVD se interpreta
en relación a los scores de pares de variables latentes (VL), un elemento
del par para cada bloque, tales que los coeficientes de cualquiera de
ellas son proporcionales a las capacidad predictiva de la variable
correspondiente de un bloque sobre la otra VL.

95
Si llamamos X e Y a los dos bloques de variables y suponemos que el
número de variables en X es m (X1, X2, ...,Xm) y el número de variables
en Y es n (Y1, Y2, ...,Yn), es posible construir una matriz R de
correlación tal que su elemento Rij sea la correlación entre Xi e Yj. Esta
matriz no tiene unos en la diagonal y usualmente no es cuadrada. La
idea en PLS es obtener un vector de m coeficientes Ai, uno para cada
variable en X y un vector de n coeficientes Bj, uno para cada variable en
Y, tal que el producto AB (i.e., matriz cuya entrada ij es Ai*Bj) aproxime
bien a la matriz R en el sentido mínimo cuadrático (i.e., minimizando la
suma de los términos (Rij-Ai*Bj)2). Podríamos decir que estos
coeficientes permiten combinar las variables de cada bloque para
explicar la variabilidad debida a la relación o correlación entre ambos
bloques.

En particular en ensayos multi-ambientales, PLS puede ser usado para


explicar a partir de un conjunto (relativamente grande y posiblemente
correlacionado) de variables relacionadas a los genotipos o a los
ambientes, las variaciones debidas a la interacción genotipo-ambiente.
Los resultados de PLS, son presentados a través de un “tri-plot”. Nos
referimos a tri-plot cuando se dispone de un gráfico biplot sobre el que
además se grafican covariables para explicar la asociación entre los
marcadores filas y columnas representados en el biplot.

Objetivos

Descubrir y reportar la naturaleza de la relaciones de variables


predictoras con una o varias variables respuesta (i.e., un bloque de
variables respuestas).

Datos

Se necesitan I observaciones o casos descriptos por m variables


dependientes (bloque de variables Y) y además n predictores colectados
sobre estos I casos en una matriz de datos I×n (bloque de variables X).

96
La tabla de datos en Info-Gen deberá contener I casos y al menos (m+n)
columnas

Ejemplo

Base de datos Factores limitantes Soja (Anexo). PLS para explicar la


interacción GE (en la Campaña 01_02) en función de las siguientes covariables
ambientales: Ra3, %MD, %pi, PrB2t y MO. En esta campaña intervinieron 3
genotipos (A5520RG, A6040RG y DM4800RR) y 7 localidades (Cavanagh,
Totoras, Oliveros, Maizales, Bouquet, Rueda, y C.Gómez).

Para realizar el PLS entre Y (matriz que contiene términos de interacción entre
7 localidades y 3 genotipos) y la matriz X (conteniendo las covariables
ambientales antes descriptas), se ejecutaron los siguientes pasos: 1) Obtención
de las matrices Y y X. 2) Implementación de la rutina SVD para PLS de los
datos en X e Y estandarizados.

Para obtener X, simplemente se solicitó, mediante el menú Medidas Resumen,


las medias de las covariables por localidad. La tabla de datos resultantes
(Cuadro 39) constituye una matriz de covariables de dimensión 7×5 ya que las
5 covariables ambientales varían con las localidades. Si se desea correlacionar
la interacción GE con covariables genotípicas, la matriz X se construye a partir
de las medias de covariables genotípicas por genotipo (matriz de dimensión
3×m).

Cuadro 39. Medias de covariables por ambiente (matriz X)

Estadística descriptiva
Localidad Resumen Ra3 %Md MO %pi PrB2t
Bouquet Media 493.03 17.00 2.87 52.50 28.00
C.Gómez Media 488.83 0.00 3.13 21.67 14.67
Cavanagh Media 548.13 22.00 3.65 37.07 20.00
Maizales Media 469.80 31.00 3.07 88.50 25.00
Oliveros Media 452.43 19.00 2.54 59.07 31.33
Rueda Media 368.03 3.57 2.85 35.33 28.67
Totoras Media 540.47 0.00 3.55 19.00 33.33

97
Para obtener Y se usó el menú Análisis de Interacción para ajustar un modelo
AMMI(2). Como el experimento tiene repeticiones dispuestas según un diseño
completamente aleatorizado, es importante aclarar cuál es la variable que
contiene el dato de la repetición, pero no usar esta variable como factor en el
modelo (el factor repetición sólo se pone en el modelo si el diseño experimental
es en bloques).

En el Cuadro 40 se muestran los resultados del ajuste del AMMI para este
diseño. Se seleccionaron las localidades como “tratamientos” ya que sólo de
ésta forma Info-Gen produce una tabla de residuos de dimensión 7×3 (en caso
contrario los residuos son los mismos pero organizados en un tabla 3×7. Este
tipo de matriz Y sería necesaria si se desea predecir la interacción a partir de
covariables genotípicas).

Cuadro 40. Obtención de matriz Y

Análisis de la Interacción Genotipo Ambiente


Matriz de residuos analizada por SVD
A5520RG A6040RG DM4800RR
Bouquet 13.10 -23.86 10.76
C.Gómez -2.07 4.06 -1.99
Cavanagh 8.56 -10.28 1.71
Maizales 4.93 7.92 -12.85
Oliveros -21.68 2.31 19.37
Rueda -0.81 17.51 -16.70
Totoras 3.99 -2.99 -1.00
Autovalores
Lambda Valor Proporción Prop Acum
1 276.64 0.60 0.60
2 184.83 0.40 1.00
3 0.00 0.00 1.00

Finalmente ambas matrices se usaron para construir una Tabla Nueva como se
muestra en el Cuadro 40. En el Cuadro 41 se muestran los comandos para la
implementación de la rutina SVD para PLS y la obtención del tri-plot (Figura 7)
ejecutados sobre esta nueva tabla.

98
Cuadro 41. Tabla de datos necesaria para implantar la técnica PLS con el propósito de
correlacionar una matriz (7×3) de términos de interacción con otra matriz (7×5) de covariables
ambientales.

Localidad A5520RG A6040RG DM4800RR Ra3 %Md MO %pi PrB2t


Bouquet 13.10 -23.86 10.76 493.03 17.00 2.87 52.50 28.00
C.Gómez -2.07 4.06 -1.99 488.83 0.00 3.13 21.67 14.67
Cavanagh 8.56 -10.28 1.71 548.13 22.00 3.65 37.07 20.00
Maizales 4.93 7.92 -12.85 469.80 31.00 3.07 88.50 25.00
Oliveros -21.68 2.31 19.37 452.43 19.00 2.54 59.07 31.33
Rueda -0.81 17.51 -16.70 368.03 3.57 2.85 35.33 28.67
Totoras 3.99 -2.99 -1.00 540.47 0.00 3.55 19.00 33.33

Cuadro 42. Análisis PLS (las columnas de Y deben ir como variables dependientes, mientras
que las filas como clasificatorias; las columnas de X como predictoras)

Menú Estadísticas
Comando Análisis Multivariado
Opción PLS
Selector de variables
Variables dependientes
A5520RG
A6040RG
DM4800RR
Clasificatoria
Localidad
Variables predictoras
Ra3
%Md
MO
%pi
PrB2t

99
Cuadro 43. PLS y triplot

2.2

DM4800RR
Oliveros
1.1
Ra3 PrB2t
Maizales Bouquet
%Md
%pi
Totoras
Dim: 2

0.0
Cavanagh

A5520RG
Rueda
C.Gómez
-1.1
A6040RG
MO

-2.2
-2.2 -1.1 0.0 1.1 2.2
Dim: 1

Figura 7. Tri-plot de la correlación entre una matriz de interacción entre 3 genotipos y 7


ambientes versus una matriz de 5 covariables ambientales.

Interpretación

La interacción GE se explica en su totalidad a partir de las dos primeras CP,


según lo muestran los autovalores del Cuadro 40. Los scores de genotipos y
ambientes para el estudio de interacción se presentan en la salida, ellos sirven
para asociar genotipos con ambientes, pero no para explicar esta asociación
con variables en X, las nuevas variables latentes obtenidas a partir de la técnica
PLS se muestran en la ventana resultados (no presentada aquí). Al
correlacionar la matriz de residuos del modelo AMMI(2) con las covariables

100
ambientales, las covariables de mayor “inercia” sobre el eje 1 del tri-plot
resultaron ser Ra3 y MO. Luego las interacciones detectadas en este conjunto
de datos, desde el punto de vista ambiental, son principalmente atribuidas a
estas dos variables.

Valores de Ra3, relativamente altos se registraron en Cavanagh y en Totoras,


éstos podrían explicar el desempeño mejor que tuvo el genotipo A5520RG
respecto a los otros en esas localidades. La MO también fue relativamente alta
en Cavanagh y Totoras y muy baja en Oliveros (correlación negativa entre el
marcador de MO y el de la localidad Oliveros). Las características de suelo
distintas de la MO, no resultaron importantes para explicar las interacciones en
esta campaña. El cultivar A6040RG se desempeñó, relativos a los otros dos
cultivares, mejor en Rueda y en Oliveros; la interacción con Rueda se
correlaciona negativamente con Ra3. La segunda dimensión del tri-plot se
asocia con las adaptaciones mejores de DM4800 en Oliveros que presenta un
menor contenido de MO que los otros sitios.

101
102
Análisis de Conglomerados

Descripción

El análisis de conglomerados es una combinación de técnicas o


algoritmos matemáticos que tienen por objeto la búsqueda de grupos
similares, ya sean éstos, grupos de genotipos, de ambientes o de los
caracteres medidos. En el análisis de conglomerados no se conoce a
priori el grupo de pertenencia de las entidades a agrupar. Cuando se
realizan agrupamientos de casos se busca clasificar a los objetos en
grupos lo más homogéneos posible en base a todas las variables
involucradas. En el análisis de conglomerados para agrupar casos, si se
utiliza una matriz de datos n×m (casos×variables), se calcula primero una
matriz de distancias (n×n) que contiene las interdistancias entre todos los
pares de casos y luego sobre esa matriz se aplica un procedimiento de
conglomeración o agrupamiento. Cuando se agrupan variables se busca
clasificar a las mismas en función de su perfil a través de todos los
casos, luego el algoritmo de conglomeración trabajará sobre una matriz
de interdistancias m×m. Para realizar un análisis de conglomerado, es
necesario seleccionar una medida de distancia o proximidad entre los
objetos a agrupar y un criterio o algoritmo de agrupamiento (este puede
ser jerárquico o no jerárquico). Hay numerosos algoritmos disponibles,
entre los jerárquicos, el más usado es el conocido como UPGMA o
encadenamiento promedio que define la distancia entre dos grupos o
conglomerados como el promedio de todas las distancias de a pares
entre elementos de un grupo y elementos del otro grupo. Entre los no
jerárquicos, el más conocido es el algorimo K-means (Balzarini, 2003).
Los resultados del agrupamiento jerárquico se visualizan en un
dendrograma. El dendrograma resultante puede presentarse
acompañado del coeficiente de correlación cofenético que mide la
correlación entre las interdistancias en el dendrograma y las
interdistancias en la matriz de distancia sobre la que se aplicó el

103
procedimiento. Los distintos algoritmos de conglomeración jerárquica, por
ejemplo, el método del vecino más cercano, el método del vecino más
lejano, el método de encadenamiento promedio o UPGMA y el método
de Ward, podrían producir agrupamientos diferentes sobre un mismo
conjunto de datos. En estos casos, el coeficiente de correlación
cofenética podría utilizarse como criterio de selección del algoritmo, i.e.
aquel algoritmo con el mayor coeficiente de correlación cofenética.

Respecto a medidas de distancias, es importante seleccionar una que se


adecue al tipo de datos (cuantitativo o categorías). Definiremos la
distancia entre un objeto denominado “i” y otro objeto denominado “j”
como dij. Las expresiones dij deben cumplir propiedades para ser
consideradas como medidas de distancia entre el par de objetos (i,j),
éstas son: (i) dij > 0 si i≠j, (ii) dij = 0 y (iii) dij = dij. Además, existen
propiedades que de cumplirse permiten identificar las distancias como
ultra-métricas. Las distancias ultra-métricas cumplen las 3 propiedades
mencionadas anteriormente y además la desigualdad triangular, i.e.,
dij ≤ d ik + d jk . Estas son recomendadas cuando el objetivo del estudio es

obtener una ordenación de las observaciones. La distancia más común


cuando se trabaja con datos cuantitativos viene dada por
d ij =d((i1, i2 ,...,im ),((j1, j2 ,...,jm ))=((i1 -j1 )2 +(i2 -j2 )2 +...+(im -jm )2 )1/2 . A esta distancia se le llama
distancia Euclídea. Cuando las variables poseen naturaleza binaria,
como puede ser el caso de presencia/ausencia de determinadas
características, la distancias euclídea puede no ser apropiada. Al
comparar dos objetos, para cada variable binaria, existen cuatro eventos
disjuntos posibles: 1) en los dos objetos se observa la presencia de la
característica deseada, denotado como evento (1,1); 2) ninguno de los
objetos presenta la característica deseada, evento denotado como (0,0);
3) el primer objeto presenta la característica, evento denotado como (1,0)
y 4) el primero no presenta la característica pero el segundo si, denotado
como evento (0,1), La frecuencia con que ocurre cada uno de estos
eventos cuando se comparan dos objetos caracterizados por múltiples

104
variables binarias se denominarán a, b, c, y d según correspondan a los
eventos (1,1), (1,0), (0,1) y (0,0) respectivamente (Cuadro 44).

Cuadro 44. Frecuencias de eventos cuando se comparan dos objetos mediante variables
binarias.

Muestra 2
Muestra 1 Característica Presente (1) Característica Ausente (0)
Característica Presente (1) a b
Característica Ausente (0) c d
Nota: a, b, c, y d frecuencias absolutas para eventos (1,1), (1,0), (0,1) y (0,0) respectivamente.

Las frecuencia de “desacuerdos” representados por los eventos (1,0) y


(0,1), de co-presencia (1,1) y de co-ausencia (0,0) contienen toda la
información relevante para la construcción de índices de similitud entre
dos objetos, i.e. los índices pueden ser expresados como función de
dichos recuentos.

Pueden construirse, distintos índices de similitud o asociación variando la


importancia relativa (mediante ponderación) que se le asigna a cada uno
de los cuatro eventos antes mencionados. Un índice de similitud muy
utilizado en el caso de variables binarias es el índice de Jaccard
( a ( a + b + c ) ) que no tienen en cuenta el evento de ausencia simultanea.
Este debiera usarse cuando por la naturaleza del problema, se supone
que dos objetos son más parecidos entres sí por presencia de una
característica que por ausencia. Desde cada índice de similitud, es
posible obtener una medida de distancia.

La transformación d ij = 1 − S ij , aplicada sobre matrices de similitud


definidas o semidefinidas positivas, asegura la obtención de una métrica
y por lo tanto es recomendada. Existe un coeficiente de similaridad que
permite el tratamiento de diferentes tipos de variables simultaneamente,
i.e., variables continuas y discretas como por ejemplo las variables
binarias. Fue propuesto por Gower (Gower, 1985) para agrupar objetos
caracterizados por distintos tipos de variables:

105
m

∑W ijc Sijc
Sij = c =1
p

∑W
K =1
ijc

donde:

Sij = similaridad entre el i-ésimo y j-ésimo objeto

m = número de variables o características observadas

Wijc = ponderación para la c-ésima variable entre el i-ésimo y j-ésimo


objeto

Si la c-ésima variable es de tipo binaria o cualitativa, la similitud entre el


objeto i y el objeto j para la variable c (Sijc) vale 0 si los datos entre el i-
ésimo (xi) y el j-ésimo objeto son diferentes y vale 1 si son iguales. Para
el caso de una variable cuantitativa la similaridad está dada por:

xic − x jc
Sijc = 1 −
rc

donde rc es el rango de la variable c.

Objetivo

Formar grupos tal que los elementos de un grupo sean más parecidos
entre sí que con los elementos de otro grupo.

Datos

Para realizar un análisis de conglomerados como método de clasificación


se puede partir desde matrices de datos con los formatos A y B
descriptos anteriormente o directamente desde matrices de distancia.

106
Ejemplo

Base de datos Selección de genotipos. Garbanzos (Anexo). Análisis de


conglomerados para agrupar genotipos en función de las distancias entre ellos
obtenidas a partir de todas las variables cuantitativas medidas (i.e., no se
incluyeron las variables dicotómicas relacionadas a la incidencia de patologías).

Cuadro 45. Análisis de conglomerados.

Menú Estadísticas
Comando Análisis multivariado
Opción Análisis de conglomerados
Ventana Selector de Variables
Variables
tamaño
número
largo
ancho
espesor
altura
INS
NBA
SBA
PSEr
larpedu
larpedi
larest
anchoest
nfolo
larfol
anchofol
larsem
anchsem
espsem
probu
Criterios de clasificación (opcional)
genotipo
Ventana Análisis de conglomerados
Solapa Jerárquicos (seleccionar método y distancia)

107
Se construyó una matriz de distancia entre genotipos usando la distancia
Euclidea (Cuadro 47). Se utilizó el algoritmo encadenamiento promedio
(UPGMA) de conglomeración jerárquica. En la Figura 8 se muestra el
dendrograma resultante de comparar la matriz de interdistancias entre
genotipos de garbanzo y el algorimto UPGMA.

Cuadro 46. Métodos y métricas para el análisis de conglomerados

108
Cuadro 47. Matriz de distancias euclídeas entre 14 genotipos de garbanzo.

Análisis de conglomerados

Euclidea
41 67 70 75 156 202 240 336 337 507 517 521 522 555
41 0,00
67 6,24 0,00
70 6,59 4,16 0,00
75 5,86 5,32 4,60 0,00
156 6,84 5,32 3,87 5,85 0,00
202 6,72 5,21 3,75 5,83 3,55 0,00
240 5,55 4,87 4,26 5,22 4,75 5,54 0,00
336 4,62 4,45 4,09 5,09 4,36 3,65 4,68 0,00
337 7,05 4,67 5,23 7,85 6,81 5,90 5,78 5,41 0,00
507 5,18 6,18 5,84 4,47 5,39 6,03 3,97 5,05 7,90 0,00
517 4,69 5,40 5,68 4,92 5,67 5,62 5,01 3,43 6,25 4,19 0,00
521 5,08 4,89 5,02 5,04 4,46 5,08 4,50 3,34 6,10 3,95 2,12 0,00
522 5,06 4,45 4,62 4,90 4,05 3,73 4,88 3,36 6,24 4,15 3,84 3,39 0,00
555 13,84 11,94 10,17 13,10 11,46 10,53 10,98 12,42 10,63 12,97 14,03 13,50 12,44 0,00

555
337
67
75
521
517
522
336
507
240
202
156
70
41

0,00 3,34 6,68 10,02 13,36


Distancia

Figura 8. Dendrograma resultante del análisis de conglomerado aplicado sobre 14 genotipos


(cultivares) de garbanzo utilizando el algoritmo UPGMA sobre la matriz de distancias Euclideas.

Interpretación

Al analizar los dendrogramas, una pregunta muy frecuente es dónde realizar el


corte sobre el eje de las abscisas (distancias) para definir el número de grupos
o conglomerados que subyacen en la base de datos. Existen diferentes criterios
de corte, uno frecuentemente utilizado es tomar la distancia que se encuentra a
la mitad del rango total de los valores de distancia, en este ejemplo, el 50% de
la distancia seria 6,68. Utilizando este criterio de corte el dendrograma

109
indica que el genotipo 555 es muy distinto al resto de los genotipos. Si usamos
un criterio de corte del 25% de la distancia (3,34), los genotipos 521 y 517
conformarían un grupo y el resto de los genotipos serían todos diferentes.
Debido a la experiencia del mejorador, en este ejemplo se fijó como criterio de
corte la distancia 5, encontrando que los genotipos 555, 75 y 41 permanecieron
separados, mientras que los genotipos 337 y 67 formaron un grupo y los
restantes genotipos otro grupo. Muchas veces el número de grupos formado
depende del conocimiento del problema y de la conveniencia en los análisis
posteriores que pueden realizarse con estos grupos.

Para la selección del algoritmo más apropiado para estos datos se realizaron
análisis de conglomerados con los métodos de encadenamiento completo,
encadenamiento promedio (UPGMA) y Ward. En el Cuadro 48 se presentan los
coeficientes de correlación cofenéticos obtenidos con los distintos métodos de
conglomeración sobre la misma matriz de distancias Euclídeas. El algoritmo
UPGMA produjo conglomerados más afines a la estructura subyacente, ya que
la correlación cofenética usando este método de agrupamiento (0.958) fue
mayor que la encontrada usando otras técnicas.

Cuadro 48. Coeficientes de correlación cofenética obtenidos mediante cuatro algoritmos de


conglomeración sobre una misma matriz de distancias Euclídeas.

Método de conglomeración Coeficiente de Correlación Cofenético


Encadenamiento Completo (Complete linkage) 0.936
Promedio (Average linkage) 0.958
Método de Ward 0.907

A título ilustrativo también se aplicó un análisis de conglomerados (UPGMA)


sobre dos matrices de distancia diferentes teniendo en cuenta además de las
variables cuantitativas, las tres variables relacionadas a incidencia de
patologías. Para la construcción de una matriz de distancia, se usó el índice de
similitud de Gower y la transformación 1-Sij para obtener distancias a partir de
las similitudes. La otra matriz de distancia fue calculada a partir de la métrica
Euclídea. De los coeficientes de correlación cofenético respectivos se concluye

110
que para este problema, el algorítmo UPGMA aplicado sobre la matriz de
distnacias Euclídeas reproduce bien la estructura de interdistancias de los
genotipos. La pequeña diferencia entre ambas matrices de distancias podrías
deberse al hecho de que la mayoría de las variables en este ejemplo son
cuantitativas (Figura 9).

555 555
75 507
521 240
517 75
522 521
336 517
507 336
240 522
156 156
202 202
70 70
337 337
67 67
41 41

0,00 3,33 6,65 9,98 13,31 0,00 0,20 0,41 0,61 0,82

Figura 9. Dendrograma resultante del análisis de conglomerado aplicado sobre 14 genotipos


(cultivares) de garbanzo utilizando el algoritmo UPGMA sobre la matriz de distancias Euclídeas
(izquierda) y sobre la matriz de distancia construida a partir del índice de similitud de Gower
(derecha). Los datos incluyen 21 variables cuantitativas más tres variables binarias
relacionadas a la incidencia de patologías.

111
112
Árbol de Clasificación

Descripción

Se denominan modelos de árbol porque el método original de presentar


los resultados es en forma de árbol binario. Un árbol de clasificación es
un conjunto de reglas determinadas por un procedimiento de ajuste por
particiones binarias recursivas, donde un conjunto de datos es
sucesivamente particionado. Esta técnica está relacionada con técnicas
de análisis de conglomerados divisivos. Inicialmente todos los objetos
son considerados como pertenecientes al mismo grupo. El grupo se
separa en dos subgrupos a partir de una de las variables regresoras de
manera tal que la “heterogeneidad”, a nivel de la variable dependiente,
sea mínima dentro de cada grupo formado. En la construcción de árboles
de clasificación, la medida de heterogeneidad recomendada es la
deviance que depende de la heterogeneidad de clases en los grupos
formados (i.e. proporción de elementos de uno y otro grupo dentro del
nodo). Los dos grupos (nodos) formados se separaran nuevamente si:
(1) hay suficiente heterogeneidad dentro de ellos para producir una
nueva partición de observaciones y/o (2) el tamaño del nodo (i.e.
cantidad de elementos en el grupo) es superior al mínimo establecido
para continuar el algoritmo. El proceso se detiene cuando no se cumple
una de estas condiciones. En cada instancia de separación el algoritmo
analiza todas las variables regresoras y selecciona, para realizar la
partición, aquella que permite conformar grupos más homogéneos dentro
y más heterogéneos entre ellos.

Objetivo

Conocer cuáles son las variables que permiten separar los grupos más
eficientemente y proveer valores umbrales de estas variables que
permiten saber si una observación pertenece a uno u otro nodo.

113
Datos

Se trabaja sobre una matriz n×(m+1) de datos, cada uno de los n objetos
u casos es caracterizado a través de m variables cuantitativas. Una
columna adicional es usada para indicar el grupo de pertenencia de los
objetos (variable dependiente clasificatoria), el cual debe ser conocido a
priori. El número de elementos por grupo debiera ser mayor al número de
variables que se consideran en el análisis.

Ejemplo

Base de datos Calidad de Soja (Anexo). Árboles de clasificación para investigar


cuál o cuáles variables climáticas permiten separar mejor los ambientes que
producen granos de soja con mayor contenido de proteínas de aquellos con
menor contenido. La identificación de variables podría ser usado en una futura
comparación para predecir si debe esperarse alto o bajo contenido de proteínas
en un nuevo ambiente. Se trabajó con una matriz de dimensión 26×(30+1), es
decir 26 ambientes y 30 variables. Los ambientes fueron clasificados a priori
según la concentración de proteína estuviera por encima o debajo de la
mediana. Se pretende identificar cuál o cuáles son las variables climáticas con
mayor capacidad para clasificar a los ambientes en estos dos grupos. Las
columnas de la matriz contienen información de variables climáticas que
podrían predecir la calidad del grano antes de la cosecha (bh, tmed, tmax, tmin
y rad). El número de variables usadas fue 15, ya que para cada variable
climática se utilizaron tres valores mensuales (diciembre, enero y febrero). En la
Figura 10 se presenta el árbol de clasificación obtenido.

114
Cuadro 49. Árboles de clasificación.

Menú Estadísticas
Comando Análisis multivariado
Opción Árboles de clasificación
Ventana Selector de Variables
Variable dependiente
dependiente
Regresoras
bh dic
bh ene
bh feb
tmax dic
tmin dic
rad dic

Cuadro 50. Ventana Árboles de clasificación/regresión

Interpretación

Se observa que de todas las variables climáticas utilizadas para este análisis, la
temperatura media de febrero (tmed feb) y el balance hídrico de diciembre (bh
dic) son las de mayor potencialidad para diferenciar entre los grupos que se
encuentran por encima de la mediana en concentración de proteínas. Valores
de tmed feb mayores a 25.3ºC caracterizan a los ambientes con contenido de
proteínas mayores a la mediana (del total de ambientes que pertenecían al
grupo de contenido de proteínas mayores a la mediana, el 100% poseía una
tme feb>25.3ºC). La próxima variable usada para identificar ambientes es el

115
balance hídrico de diciembre (bh dic), valores de esta variable menores o
iguales a -75.8 mm permite diferenciar entre ambientes con mayor contenido de
proteína (4/5Æ 80%) de los ambientes con menor contenido de proteína (1/5Æ
20%).

Cuadro 51. Variables y valores umbral de un árbol de clasificación para predecir la calidad del
grano de soja antes de cosecha

Árboles de clasificación/regresión
H= Deviance (suma (ni*ln(pi))

Nodo Formación H Predicción n mayor menor p(mayor) p(menor)


Raíz 26 13 13 0,50 0,50
1 tmed feb(<=25,3) 29,77 menor 22 9 13 0,41 0,59
1.1 bh dic(<=-75,8) 5,00 mayor 5 4 1 0,80 0,20
1.2 bh dic(>-75,8) 20,60 menor 17 5 12 0,29 0,71
1.2.1 rad ene(<=25,4) 15,01 menor 15 3 12 0,20 0,80
1.2.1.1 rad dic(<=20,3) 8,32 mayor 6 3 3 0,50 0,50
1.2.1.1.1 bh ene(<=-79,1) 0,00 mayor 1 1 0 1,00 0,00
1.2.1.1.2 bh ene(>-79,1) 6,73 menor 5 2 3 0,40 0,60
1.2.1.2 rad dic(>20,3) 0,00 menor 9 0 9 0,00 1,00
1.2.2 rad ene(>25,4) 0,00 mayor 2 2 0 1,00 0,00
2 tmed feb(>25,3) 0,00 mayor 4 4 0 1,00 0,00

(n=26)

tmed feb(<=25,3; n=22)


tmed feb(>25,3; n=4)

bh dic(>-75,8; n=17)
bh dic(<=-75,8; n=5)

rad ene(<=25,4; n=15)


rad ene(>25,4; n=2)

rad dic(<=20,3; n=6)


rad dic(>20,3; n=9)

bh ene(<=-79,1; n=1) bh ene(>-79,1; n=5)

Figura 10. Árbol de clasificación para identificar a través de variables climáticas registradas,
antes de la cosecha, ambientes asociados a granos de soja con concentración de proteínas
mayor a la mediana.

116
Análisis Discriminante Lineal

Descripción

Una función discriminante lineal es una combinación lineal de variables


que maximiza la diferencia entre grupos definidos a priori del análisis.

Si g denota el número de grupos, es posible construir g-1 funciones


discriminantes. La proporción de variabilidad entre grupos asociada a
cada función (cuantificada mediante el autovalor asociado a los pesos
usados en la construcción de las funciones) permite decidir el número de
funciones discriminantes lineales que deben examinarse para explicar
suficientemente la variabilidad entre grupos. Los valores, denominados
pesos estandarizados por los que se pondera la participación de cada
variable en la función, permiten identificar las variables con mayor
potencialidad para explicar las diferencias entre grupos. Estos pesos se
obtienen de la SVD de una matriz conformada a partir de la relación de la
variabilidad entre grupos con la variabilidad dentro de grupos.

La o las funciones encontradas pueden ser usadas de forma predictiva


para clasificar a un nuevo objeto como miembro de uno u otro grupo de
los definidos a priori. Una regla de asignación común es asignar el nuevo
objeto al grupo con centroide (media de la función discriminante en el
grupo) más cercano al valor obtenido al evaluar la función discriminante
con los datos del nuevo objeto. La tasa de error aparente es la
estimación de la probabilidad de una mala clasificación, obtenida al
clasificar los objetos en los grupos utilizando la función discriminante
construida. Las tasas de error aparente tienden a subestimar el error, son
útiles cuando se disponen de grandes tamaño de muestra en cada
población.

Los resultados del análisis discriminante lineal, cuando existen 3 o más


grupos. Al menos pueden representarse en un gráfico Biplot, para

117
mostrar en un mismo espacio (aquel generado por los dos primeros ejes
canónicos o funciones discriminantes) tanto a los objetos como a las
variables.

Objetivo

Encontrar una o más funciones, denominadas funciones discriminantes o


ejes canónicos, que combinen linealmente los datos de características
continuas ponderando cada uno de ellos por pesos tales que las
diferencias entre grupos sean máximas a nivel de esta o estas funciones.
Usar dichas funciones para identificar variables con buena capacidad de
discriminación de grupos y/o clasificar nuevos objetos en los grupos
disponibles.

Datos

Se trabaja sobre una matriz n×(m+1) de datos, cada uno de los n casos
es caracterizado a través de m variables cuantitativas. Una columna
adicional es usada para indicar el grupo de pertenencia de los casos, el
cual debe ser conocido a priori. El número de elementos por grupo
debiera ser mayor al número de variables que se consideran en el
análisis.

Ejemplo

Base de datos Calidad de Maní (Anexo). Análisis discriminante para separar


tres zonas productoras de maní a través de variables indicadoras de la calidad
del grano, como Acidez, porcentaje de materia grasa (MG), índice de Iodo (IY) y
relación de oleico/linoleico (O/L). Se trabajó con una matriz de dimensión
130×(4+1), donde 130 es el número de muestras provenientes de alguno de los
siguientes tres ambientes: Salta, Centro y Sáenz Peña. El tamaño muestral fue
suficiente para realizar este análisis (i.e. el número de elementos por grupo fue
mayor al número de variables que se consideran en el análisis). La zona
Central estuvo representada por 43 observaciones, la zona Sáenz Peña por 45

118
observaciones y la zona Salta por 42. Las columnas de la matriz poseen
información de las m=4 variables que definen la calidad de aceite.

Cuadro 52. Análisis discriminante.

Menú Estadísticas
Comando Análisis multivariado
Opción Análisis discriminante
Ventana Selector de Variables
Variables
Acidez
O/L
MG
IY
Criterios de agrupamiento
Zonas
Ventana Análisis de conglomerados
Solapa Jerárquicos (seleccionar método y distancia)

Cuadro 53. Ventana de Análisis discriminante lineal.

119
Cuadro 54. Resultado del Análisis discriminante lineal.

Análisis discriminante lineal

Prueba de Homogeneidad de Matrices de Covarianzas


Grupos N Estadístico gl p-valor
3 130 112,29 20 <0,0001

Autovalores de Inv(E)H
Autovalores % % acumulado
33,44 99,21 99,21
0,27 0,79 100,00

Funciones discriminantes canónicas


1 2
Constante 1,77 -7,55
Acidez 10,50 -1,41
O/L 2,83 4,55
IY -0,02 -0,01
MG -0,03 0,02

Funciones discriminantes - datos estandarizadas con la varianzas comunes


1 2
Acidez 0,56 -0,07
O/L 0,50 0,80
IY -1,04 -0,29
MG -0,56 0,51

Centroides en el espacio discriminante


Grupo Eje 1 Eje 2
Centro -1,78 -0,71
Saenz Peña -5,71 0,48
Salta 7,94 0,21

Tabla de clasificación cruzada


Grupo Centro Saenz Peña Salta Total Error(%)
Centro 42 1 0 43 2,33
Saenz Peña 1 44 0 45 2,22
Salta 0 0 42 42 0,00
Total 43 45 42 130 1,54

Interpretación

La primera función discriminante (FLD) que permite separar la Zona manicera


de Salta de la zona Centro y Sáenz Peña es:

FLD=1.77+10.50*Acidez+2.83* O/L-0.02* IY-0.03* MG

Los pesos estandarizados (Cuadro 55) son utilizados para identificar la o las
variables de mayor peso en la discriminación entre ambos grupos.

120
Cuadro 55. Pesos asignados a 4 variables de calidad en maní en la construcción de una FLD
para separar las zonas maniceras en función de la calidad del grano de maní.

Variable Pesos1
Acidez 0.56
O/L 0.50
IY -1.04
MG -0.56
1
Pesos estandarizados por la matriz de covarianzas dentro de zona.

Las características de mayor peso en la diferenciación entre zonas es el


porcentaje de Iodo (IY), este tiene peso negativo, luego se separan valores
mayores en la zona de menor promedio para la FLD. El centroide para la zona
Centro es de –1.78, para Saénz Peña -5.71 y para Salta de 7.94. La tasa de
error aparente (tasa de mala clasificación) de la función es 1.54%. Luego
supongamos que tenemos una muestra nueva, es decir un aislamiento que no
participó en el análisis, por lo cual no sabemos a cual de estas zonas tendría
más chance de pertenecer y que los valores de las características químicas del
grano para esta nueva muestra son 0.56 para Acidez, 1.95 para la relación O/L,
115 para porcentaje de Iodo (IY) y 46 para porcentaje de MG. El valor de la
función para esa muestra será 9.09 y como este es más próximo a la Zona de
Salta que resto se podría concluir que la muestra desconocida tiene más
chance de pertenecer a la Zona manicera de Salta.

En este ejemplo, la primera FDL explica un 99.21% de la variabilidad entre


grupos (según muestran los autovalores asociados a cada función) y por tanto
no tendría sentido examinar la segunda FDL. En la Figura 11 (izquierda) se
presenta el gráfico de dispersión de las muestras en el espacio discriminante,
donde se visualiza que a nivel del Eje Canónico 1 hay una diferencia importante
de las muestras procedentes de distintos ambientes, sobre todo de aquella
proveniente de Salta. En la Figura 11 (derecha) se presenta un biplot sobre el
espacio discriminante donde además de la variabilidad entre observaciones es
posible distinguir también las variables con mayor potencial para la clasificación
de observaciones en estas zonas.

121
2,95 Saenz Peña
Centro
Salta

1,51

Eje Canónico 2
0,07

-1,37

-2,81
-9,38 -4,41 0,56 5,53 10,51
Eje Canónico 1

10,51 O/L
Saenz Peña
Centro
Salta
6,84
MG
Eje Canónico 2

3,17

-0,51
Acidez
IY
-4,18
-13,78 -7,71 -1,64 4,43 10,50
Eje Canónico 1

Figura 11. Dispersión de muestras en función de dos ejes canónicos que combinan información
sobre cuatro características químicas del grano de maní (izquierda) y biplot sobre el espacio
discriminante (derecha).

122
ANEXO
DESCRIPCIÓN DE LAS BASES DE DATOS UTILIZADAS COMO
EJEMPLOS
Base de Datos: Ideotipos de Maíz

La base de datos Ideotipos de Maíz se generó en el marco de un proyecto de


investigación denominado “Identificación de caracteres ecofisiológicos
asociados a mayor eficiencia en el uso de nitrógeno y en la captación de
energía en maíz” El objetivo del proyecto fue caracterizar la variabilidad
existente en híbridos comerciales respecto a atributos ecofisiológicos asociados
a la eficiencia de uso de N y de la radiación y su incidencia relativa en la
expresión final de tales eficiencias. Las principales instituciones participantes y
los representantes de cada una fueron:

Institución participante Investigador responsable


E.E.A. Pergamino
Alfredo Cirilo
(Unidad Sede del Proyecto)
E.E.A. Oliveros Hugo Pedrol
E.E.A. Balcarce Fernando Andrade
Julio Dardanelli
E.E.A. Manfredi Marcelo Cantarero
Sergio Luque

En la campaña 2003/2004 se implantaron experimentos en diferentes


ambientes de la región pampeana argentina (Balcarce, Pergamino, Oliveros y
Córdoba), con ocho híbridos comerciales de maíz provenientes de los criaderos
Syngenta Agro S.A., Dow Agrosciences S.A., Nidera Semillas S.A. y Monsanto
Argentina S.A.: Dow-Mass462MG, Dow-Mass563MG, Nidera-AX882MG,
Nidera-AX890MG, Monsanto-DK682MG, Monsanto-DK752MG, Syngenta-
NK830MG y Syngenta-NK900MG. Todos los genotipos incluyeron la
transformación transgénica para tolerancia a daño por Diatraea sacchararis.
Los híbridos fueron sometidos a dos niveles de oferta nitrogenada edáfica
(baja=0 kg.ha-1 de fertilizante; alta=250 kg.ha-1 de fertilizante), en condiciones
de alta densidad (aprox. 8 pl.m-2), y sin limitaciones hídricas ni de otros
nutrientes como P y S. El diseño utilizado fue de parcelas divididas con tres
repeticiones en cada localidad. Durante el ciclo del cultivo se determinó la
fenología, la biomasa aérea particionada, el área foliar, la intercepción de
radiación fotosintéticamente activa, la orientación espacial de las hojas en el
plano vertical y horizontal y la senescencia foliar post-F. En F se determinó el

125
contenido de N en láminas y resto de biomasa aérea, y en madurez en los
mismos componentes más el grano, para determinar la acumulación y partición
de nitrógeno. Se determino el rendimiento en grano y sus componentes. A
continuación se presenta la lista de variables y la abreviatura incluida en el
archivo que contiene los datos (Ideotipos de Maíz.idb).

Variable Abreviatura
2
Rendimiento (g/m ) Rinde
Peso de granos (mg) PG
Numero de granos por m2 NG
Materia seca aérea en F (g m-2) MS1
Materia seca aérea en MF (g m-2) MS2
Materia seca aérea entre F y MF (g m-2) MS2-1
Peso seco de hojas en F (g m-2) PSH1
Peso seco de hojas en MF (g m-2) PSH_MF
Índice de cosecha IC
Absorción de nitrógeno de E a F (g m-2) AbsN1
Absorción de nitrógeno desde F a MF (g m-2) AbsN2
Área foliar en F AF_F
Nitrógeno foliar especifico en F NFE_F
Inserción horizontal entre surco IH_es
Inserción vertical promedio hojas 1-3 IV1-3
Inserción vertical promedio hojas 4-6 IV4-6
Inserción vertical promedio hojas 7-9 IV7-9
Eficiencia intercepción de la radiación en F EI_F
Eficiencia intercepción de la radiación en Fll EI_Fll
Numero de hojas verdes en MF #HV_MF
PAR interceptado acumulado desde E a F (mj/M2) IPAR1
PAR interceptado acumulado desde F a MF (mj/M2) IPAR2
Eficiencia en el uso de la radiación desde E a F (g/mj) RUE1
Eficiencia en el uso de la radiación de E a F (g/mj) RUE2
Eficiencia en el uso del Nitrógeno EUN
E= Emergencia
F= Floración
MF= Madurez Fisiológica
Fll= Fin de llenado del grano

126
Base de Datos: Factores Limitantes. Soja

La base de datos Factores limitantes. Soja fue generada en el marco de un


proyecto de investigación denominado “Factores limitantes del rendimiento y
determinantes de su variabilidad en el cultivo de soja en sistemas de siembra
directa”. El proyecto surgió con la finalidad de fue incrementar y/o estabilizar los
rendimientos de soja, en lotes bajo siembra directa y reducir la variabilidad
espacial y temporal de los mismos.

Las instituciones participantes e investigadores responsables fueron:

Institución Investigador responsable


Marcelo BODRERO
José ANDRIANI
Silvina BACIGALUPPO
EEA OLIVEROS
Guillermo GERSTER
Juan Martín ENRRICO
Cristina GONZALEZ
Diego SANTOS
EEA Paraná INTA Ricardo MELCHIORI
Hugo PELTZER
EEA Manfredi INTA Julio DARDANELLI
Alvaro QUIJANO
FCA
Ricardo MARTIGNONE

El ensayo se llevó a cabo durante tres campañas (01_02, 02_03, 03_04) en 16


localidades (A. Seco, ArmstrongA, Bouquet, C.Gómez, Carcaraña, Casilda,
Cavanagh, EEAOliveros, Las Rosas, Maizales, Oliveros, OliverosB, Rueda,
Totoras, TotorasA y TotorasB). Se probaron tres cultivares de soja A5520RG,
A6040RG y DM4800RR.

Las variables utilizadas en los ejemplos y las abreviaturas incluidas en el


archivo Factores Limitantes. Soja.idb se presentan a continuación:

Variables Abreviatura
Rendimiento Rend
Número de granos NG
Peso de grano PG
Precipitación acumulada de E a R1 (mm) Pr1
Precipitación acumulada de R1 a R5 (mm) Pr2
Precipitación acumulada de R5 a R5 (mm) Pr3
Radiación acumulada de E a R1 Ra1
Radiación acumulada de R1 a R5 Ra2

127
Radiación acumulada de R5 a R7 Ra3
Temperatura media de E a R1 (ºC) Tm1
Temperatura media de R1 a R5 (ºC) Tm2
Temperatura media de R5 a R7 (ºC) Tm3
Fotoperíodo de E a R1 (hs) Fot1
Fotoperíodo de R1 a R5 (hs) Fot2
Fotoperíodo de R5 a R7 (hs) Fot3
Agua útil inicial (mm) AUI
Contenido de materia Orgánica (%) MO
Profundidad del horizonte B textural (cm) PrB2t
M delta (%) %Md
Pisos de arado (%) %pi
Conductividad hidráulica (cm/seg) Chid
Estados fenológicos
E= Emergencia
R1= Floración
R5= Comienzo de llenado de granos
R7= Madurez Fisiológica

128
Base de Datos: Selección de genotipos. Garbanzo

Carreras (1999) publicó que se han obtenido líneas de garbanzo que han
demostrado buena capacidad productiva y marcada semejanza fenotípica
durante la crianza. En su origen compartieron sus progenitores (madre y padre),
por ello poseen un estrecho parentesco y altos niveles de homocigosis. El
potencial genético de las mismas les confiere la posibilidad de ser futuras
creaciones fitogenéticas, por lo cual resulta relevante su diferenciación
genotípica. Para diferenciar un genotipo de otro se utilizan descriptores,
caracteres cualitativos y/o cuantitativos. La base de datos facilitada por la Ing.
Agr. (MSc) J. Carreras (FCA-UNC) contiene 25 descriptores relacionados con la
planta, inflorescencias, fruto, semillas y otros, sobre 12 líneas puras selectas
emparentadas y dos testigos. Las semillas empleadas correspondientes a las
12 líneas en selección avanzada forman parte del Proyecto Contribución al
Mejoramiento de Garbanzo, con sede en la Facultad de Ciencias Agropecuarias
de la Universidad Nacional de Córdoba, fueron identificadas como: 41, 67, 70,
75, 202, 240, 336, 337, 507, 517, 521, 522. Los testigos utilizados fueron el
cultivar Chañaritos S-156 y la línea pura Chañaritos M-6, ambos fueron
identificados como 156 y 555 respectivamente.

Los descriptores evaluados y sus abreviaciones utilizadas se detallan a


continuación:

Variables Abreviatura
1. Caracteres Vegetativos de la planta
Altura de planta a cosecha (cm) altura
Altura de inserción de la primera vaina (cm) INS
Número de ramificaciones totales número
Número de foliolos por hoja nfolo
Larfol
Largo y ancho de foliolos (cm)
anchofol
Largo del Pedicelo larpedi

129
2. Caracteres de inflorescencia
larest
Largo y ancho de estandarte (cm)
anchoest
Largo de pedúnculo (cm) larpedu
Número de vainas NBA
Número de semillas por vainas SBA
Largo
Ancho
Largo, ancho, espesor y tamaño de vainas (cm)
Espesor
Tamaño
3. Caracteres de la semilla
Número de semillas NSE
Peso de semillas PSE
Larsem
Largo, ancho y espesor de semillas (cm) Anchosem
espsem
4. Otros
Incidencia patógeno A InsPA
Incidencia patógeno B InsPB
Incidencia patógeno c InsPC
Contenido de proteínas probru

Las unidades experimentales fueron parcelas de cuatro surcos de cuatro


metros de longitud y setenta centímetros de espaciamiento entre surcos, con
una densidad de siembra de diez semillas por metro lineal, uniformemente
distribuidas. Los ensayos fueron llevados a cabo bajo un diseño en bloques
completos al azar, con cuatro repeticiones para los ambientes uno y dos y con
tres repeticiones para el ambiente tres.

130
Base de Datos: Ensayos Comparativos de Rendimiento de Poroto

Los datos de rendimiento de poroto rojo moteado (Phaseolus vulgaris L.)


provienen de varios ensayos conducido en República Dominicana y Puerto
Rico. En los ensayos de Poroto rojo moteado se probaron 30 líneas diferentes:
15 con hábito de crecimiento indeterminado (número de líneas 1-15) y 15 con
hábito de crecimiento indeterminado (número de líneas 16 al 30) evaluadas en
9 ambientes. Los ambientes se formaron a partir de la combinación de
localidades y fechas de siembra.

País Localidad Fecha de siembra Nombre


República Dominicana San Cristobal Diciembre 1990 SC
República Dominicana Vallejuelo Septiembre 1991 VJ
República Dominicana Manoguayabo Diciembre 1991 MG
República Dominicana San Juan de la Maguana Diciembre 1991 SM
Puerto Rico Isabela Enero 1990 IE0
Puerto Rico Isabela Octubre 1990 IO0
Puerto Rico Isabela Enero 1991 IE1
Puerto Rico Isabela Octubre 1991 IO1
Puerto Rico Isabela Enero 1992 IE2

131
132
Base de Datos: Calidad de soja

La base de datos Calidad de soja fue generada en el marco de un proyecto de


investigación denominado “Caracterización del germoplasma argentino de soja
de alta calidad nutricional a través de nuevas tecnologías”. Con el objetivo de
caracterizar la calidad del grano de soja argentino a través de la evaluación de
la diversidad genética del germoplasma, la variabilidad de sus cualidades
químicas y sanitarias y la interacción de los genotipos con los ambientes que
definen la región agro-ecológica argentina. Las instituciones participantes y los
investigadores responsables fueron:

Institución participante Investigador responsable


Comisión de Investigaciones Científicas, Bs As Dra. Silvia RESNIK
EEA INTA Manfredi Dra María José Martinez
Ing. Agr. (M. Sc.) Héctor Baigorri
EEA INTA Marcos Juárez
Ing. Quim. Martha Cuniberti

Se midió el contenido de proteína (%) de granos de soja de 26 procedencias.


De cada ambientese obtuvieron registros mensuales, desde diciembre a mayo,
de 4 variables climáticas: temperatura media (tmed), temperatura máxima
(tmax), temperatura mínima (tmin), radiación (rad) y se estimó el balance hídrico
(bh) a partir de la diferencia entre la precipitación acumulada mensual y la
evapotranspiración acumulada mensual.

133
134
Base de Datos: Calidad de maní

Se evaluó la calidad del grano de maní procedente de tres zonas productoras


de maní de Argentina. Se recolectaron 43 muestras de Sáenz Peña, 45 de
Salta y 42 de la zona Centro. Como variables indicadoras de la calidad del
grano se midió Acidez, relación Oleico/Linoleico (O/L), índice de Yodo (IY) y
porcentaje de Materia Grasa (MG).

135
136
Base de Datos: Ensayos Comparativos de Rendimiento de Maní

La fuente de información utilizada (cedida gentilmente por el Ing. Agr. (MSc) J.


Baldessari), comprende los ensayos comparativos de rendimiento regionales de
maní de INTA realizados durante 1996/97. Los ensayos se realizaron en 8
localidades, algunas de las cuales por su proximidad y similitud edáfica-
climática fueron consideradas como un mismo sitio (Cuadro 56). Fueron
evaluados 11 genotipos, 3 de ciclo corto y 8 de ciclo largo (Cuadro 57). En
todos los sitios, el diseño experimental usado fue en bloques completos al azar
con cuatro repeticiones. Las parcelas experimentales fueron de dos surcos de
10 m de longitud, distanciados 70 cm uno de otro. Para la siembra se utilizaron
15 semillas por metro lineal de surco en promedio. Cada parcela se cosechó en
su totalidad en forma manual. Los valores de rendimiento analizados
corresponden a kilogramos de grano por parcela a humedad constante (8%).

Cuadro 56. Sitios intervinientes en el período 1996/97 en los ECR de cultivares del Programa
de Mejoramiento de Maní de la EEA-Manfredi, INTA.

Sitios Localidades
Gral Deheza
Sitio 1
Gral Cabrera
Sitio 2 Manfredi
El sur
San Ambrosio
Sitio 3 Las Vertientes
Reducción
las acequias

Cuadro 57. Genotipos presentes en los ECR de cultivares del Programa de Mejoramiento de
Maní de la EEA-Manfredi, INTA en la campaña agrícola 1996/97.

Genotipo Ciclo 1 Parentesco


Manf393 Corto Robut 33-1 / NC Ac 2698
Mf447 Corto Florman / Manfredi Virginia 5
Mf480 Corto CS 9 / ICGS 5
Florman Largo Selección de Florunner
Mf457 Largo Florman / Tachimasari
Mf484 Largo Florman / Marc 1 ℵ
Mf485 Largo Florman / Marc 1 ℵ
Mf486 Largo Florman / Marc 1ℵ
Mf487 Largo Florman / Marc 1
Mf489 Largo Florman / Marc 1
Tegua Largo Selección de Florunner

137
138
Bibliografía Citada

Annicchiarico, P. 2002. Genotype x environment interaction. Challenges and


opportunities for plant breeding and cultivar recommndations. Food and Agriculture
Organization of the United Nations. ISBN 92-5-104870-3
Arroyo,A., Balzarini,M., Bruno,C., Di Rienzo,J., 2005. Árboles de expansión mínimos:
ayudas para una mejor interpretación de ordenaciones en bancos de germoplasma.
Interciencia, ISSN 0378-1844 Vol 30 Nº 9: 550-554.
Balzarini M. 2000. Biometrical Models for Predicting Future Performance in Plant
Breeding. Thesis Ph.D. Louisiana State University, Baton Rouge, LA, USA, 268 pp.
Balzarini M., S.B. Milligan, M.S. Kang. 2001.Best linear unbiased prediction: A mixed
model approach in multi-environment trials. In M.S. Kang (ed.) Crop Improvement:
Challenges in the 21st Century. pp.102-113. Food Products Press, Binghamton,
NY.
Balzarini, M. 2003. Introducción al Análisis Multivariado. Notas de clases. Maestría en
Estadística Aplicada de la Universidad Nacional de Córdoba. 130 pp
Balzarini, M. y Di Rienzo, J. 2004. Info-Gen: Software para análisis estadístico de datos
genéticos. Universidad Nacional de Córdoba. Córdoba. Argentina.
Becker H.C. 1981. Correlations among some statistical measures of phenotypic
stability. Euphytica 30: 835-840.
Becker, H. y León, J. 1998. Stability analysis in plant breeding. Plan Breed 101:1-23.
Bernardo R. 1999. Best linear unbiased predictor analysis. En: The genetics and
explication of heterosis in Crops. American Society of Agronomy, Crop Science
Society of America, Soil Science Society of America, Madison, Wisconsin, pp. 269-
276.
Bindinger, F., Hammer, G. and Muchow, R. 1996. The physiological basis of genotype
by environment interaction in crop adaptation. En: M. Cooper & G. L. Hammer, eds.
Plant adaptation and crop improvement, p.329-347. Wallingford, UK, CABI.
Borlaug, N. E. 2000. Text of speech: http://usinfo.state.gov/topical/global/biotech
Bradley, J., Knittle, K. and Troyer, A. 1988. Statisical methods in seed corn product
selection. J. Prod. Agric. 1:34-38.
Braun, H., Pfeiffer, W. and Pollmer, W. 1996. CIMMYT’s approach to breeding for wide
adaptation. Euphytica, 92:175:183.
Casanoves F. 1996. Interacción Genotipo-ambiente. Evaluación simultanea de
modelos usados para la evaluación de genotipos. Tesis de Maestría. Facultad de
Agronomía, UBA. 120 pp.
Casanoves, F.y Balzarini, M. 2002. Predictores lineales insesgados (BLUP) en
ensayos comparativos de rendimiento. Journal or Basic &Applied Genetics 14 (3)
pp:55-62.
Casanoves F. 2004. Análisis de ensayos comparativos de rendimiento en
mejoramiento vegetal en el marco de los modelos lineales mixtos. Tesis de
Doctorado. Facultad de Agronomía, UNC. 144 pp.
Casanoves, F., J. Baldessari, and M. Balzarini. Evaluation of multi-environmental trials
of peanut (Arachis hypogaea L.) cultivars. 2005a. Crop Sci. 45:18-26.
Casanoves F, Macchiavelli R, and Balzarini M. Error variation in multi-environment
peanut trials: within-trial spatial correlation and between-trial heterogeneity. 2005b.
Crop Sci., 45: 1927-1933
139
Casini C., Dardanelli J., Martinez M., Balzarini, M., Borgogno C., and Nasetta M. 2003.
Oil quality and sugar content of peanut (Arachis hypogaea) grown in Argentina.
Their relationship with climatic variables and seed yield. Journal of Agricultural and
Food Chemistry, American Chemical Society. 51(21) 6309-6313. ISSN. 0021-8561
Casini C., Martínez M.J., Dardanelli, J., Borgogno C., Balzarini M., Nassetta M., Silva
C. y Avalis D. 2002. Relacion entre algunos componentes químicos que
caracterizan al maní argentino con variables climáticas y de cultivo. IDIA XXI, 2 (3)
Pp. 168-171
CIMMYT. 1989. Towars the 21st century: CIMMYT’s strategy. El Batan, Mexico,
CIMMYT.
Cornelius, P.L. 1993. Statistical test and retention of terms in the additive main effects
and multiplicative interaction model for cultivar trials. Crop Sci., 33: 1186-1193.
Cornelius, P.L., Seyedsadr, M.S. y Crossa, J.L. 1992. Using the shifted multiplicative
model to search for “separability” in crop cultivar trials. Theor. Appl. Genet., 84: 161-
172.
Cornelius, P.L.Crossa, J. y Seyedsadr, MS. 1996. Statistical test and estimators of
multiplicative models for genotype-by-environment interaction. In M.S. Kang y H.G.
Gauch, eds. Genotypr-by-environment interaction, p 199-234.Boca Raton, FL, CRC
Press.
Crossa, J. Cornelius, P.L. y Yan W. 2002. Biplots of Linear-Bilinear Models for
Studying Crossover Genotype _ Environment Interaction. Crop Sci. 42:619–633.
Crossa, J. Cornelius, P.L., Sayre, K. y Ortiz-Monasterio, R.J. 1995. A shifted
multiplicative model fision method for grouping environments without cultivar rank
change. Crop Sci., 35: 54-62.
Crossa, J. Cornelius,P.L. Seyedsadr, M.S. y Byre, P. 1993. A shifted multiplicative
model cluster análisis for grouping environments without cultivar rank change.
Theor. Appl. Genet., 85:577-586.
Crossa, J. y Cornelius, P.L. 1997. Sites regresion and shifted multiplicative model
clustering of cultivar trials sites Ander heterogenety of variantes. Crop Sci., 37: 406-
415.
Dardanelli, J., Balzarini, M, Martínez, M., Cuniberti, M., Resnik, S., Ramunda, F.,
Herrero, R and Hector Baigorri. Mega-environments for Soybean Seed Oil and
Protein Concentrations and Maturity Groups effects in the Argentinean Crop
Region. Crop Sci. In press.
Dayde J., Lacombe S. 2000. “Variation of isoflavone content and composition in
soybean seeds and related products”. Proceedings of the Third International
Soybean Processing and Utilization Conference, Tukuba, Ibaraki, Japan, 55-58.
Di Rienzo, J.A.; Guzmán A.W.; Casanoves F. 2001. A Multiple Comparisons Method
based on the Distribution of the Root Node Distance of a Binary Tree. Journal of
Agricultural, Bioogical, and Environment Statistics, 7 (1): 146-159.
Dyke, G., Lana, P. and Jenkyn, J. 1995. Sensitivity (stability) analysis of multiple variety
trials, wirh special reference to data expressed as proportions or percentages. Exp.
Agric., 31:75:87.
Eskridge, K. 1990. Selection of stable cultivars using a segety-first rule. Crop Sci.,
30:369-374.
Evans, L. 1993. Crop evolution, adaptation, and yield. New York, Cambridge Univ.
Press.
Gabriel, k. R. 1971. Biplot display of multivariate matrices with application to principal

140
components analysis. Biometrika, 58:453-467.
Gauch H.G. Jr. 1988. Model selection and validation for yield trials with interaction.
Biometrics 44: 705-715.
Gauch, H. G. and Zobel, R. W. 1996. AMMI analysis of yield trials. In M.S. Kang & H.G.
Gauch, eds. Genotype-by-environments interaction. p. 85-122. Boca Raton, FL,
CRC Press.
Gauch, H. G. and Zobel, R. W. 1997. Identifying mega-environments and targeting
genotypes. Crop Sci., 37:311-326
Gollob, H.F. 1968. A statistical model with combines features of factor analytic and
análisis of variante technique. Psychometrika, 33: 73-115.
Gower, J.C. 1985. Measures of similarity, dissimilarity and distance, p. 397-405. In
Kotz, S. and Jonhson N. Ed. Encyclopedia of stastistical science. Vol. 5. Wiley, New
York.
Kang M.S. 1990. Understanding and utilization of genotype-by-environment interaction
in plant breeding. En. Genotype-by-environment interaction in plant breeding. Kang,
M.S (ed.) pp.52-68.
Kang, M.S. 1998. Using genotype-by-environment interaction for crop cultivar
development. Advances in Agronomy 62: 199-252.
Kang, M.S. 2002. Genotype-environment interaction: Progress and prospects. Kang
M.S. (ed.) CABI Publishing, New York
Kang. M. S. y Pham, H. N. 1991. Simultaneous selection for high yielding and stable
crop genotypes. Agron. J., 83:161-165.
Kang M, Balzarini M and J. Guerra. 2004. Genotype-by-Environment interaction. In A.
Saxton (ed.) Genetic Analysis of Complex Traits Using SAS. pp 69-94. BBU Press.
SAS Institute, Cary NC. ISSN 1-59047-507-0.
Kuehl, Robert O. 2001. Diseño de Experimentos. Principios estadísticos de diseño y
análisis de investigación. 2ª edición. 666 pp. Thomson Learning. México.
Lin, C.S. and Binns, M.R. 1991. Genetic properties of four types of stability parameter.
Theor. Appl. Genet., 82:505-509.
Lin, C.S. Binns M.R. and Lefkovitch L.P. 1986. Stability analysis: Where do we stand?.
Crop Sci., 26: 894-900.
Macchiavelli R. and Beaver J. 1999. Analysis of genotype-by-environment interaction
with AMMI models using SAS Proc Mixed. Applied Statistics in Agriculture 11: 171-
183.
Piepho H.P. 1998. Methods for comparing the yield stability of croppping systems – A
review. J. Agron. Crop Sci., 180:193-213.
Robinson G.K. 1991. That BLUP is a good thing: The estimation of random effects.
Statistical Sciences. 6: 15-21.
Schabenberger, O. y Pierce, F. 2002. Contemporary statistical models for the plant and
soil sciences. p. 738. Taylor & Francis. CRC Press.
Yan W. y Hunt L. A.2002. Biplot Analysis of Diallel Data. Crop Sci. 42:21–30.
Yan W., Hunt L. A., Sheng Q. and Szlavnics Z. 2000. Cultivar evaluation and mega-
environment investigation based on GGE Biplot. Crop Sci. 40: 597-605.
Zobel, R.W., Wright, M.J. y Gauch, H.G. 1988. Statistical analysis of a yield trial. Agron.
J., 80: 388-393.

141

Das könnte Ihnen auch gefallen