Medida de La Diversidad Genetica

Anlisis de la diversidad gentica
utilizando datos de marcadores moleculares:

Mdulo de aprendizaje
Medidas de la diversidad
gentica
Derechos de Autor: IPGRI y Cornell University, 2004
Medidas de diversidad 1
Contenido
f Anlisis bsico de la diversidad gentica
f Tipos de variables
f Cuantificacin de la diversidad gentica:
Medidas de la diversidad gentica dentro de una
poblacin
Medidas de la diversidad gentica entre
poblaciones
f Cuantificacin de las relaciones genticas:
Diversidad y diferenciacin a nivel de nucletido

Distancia gentica
f Visualizacin de las relaciones:

Clasificacin o agrupacin
Ordenacin
f Apndices
Anlisis bsico de la diversidad gentica

1. Descripcin de la variacin
dentro de poblaciones,
regiones, etc. y entre ellas
m
D a
a r
t c
o a
s d
o
d r
e e
s
1
1
0
1
0
1
1
0
0
1
0
0
1
0
Individuos
1
1
0
0
0
1
1
0
1
0
0
1
1
1
0
1
0
0
1
0
1
2. Evaluacin de las relaciones

entre individuos, poblaciones,
regiones, etc.
01
1
1
0
1
0
0
1
02
03
04
05
01
02
0.56
03
0.33
0.33
04
0.47
0.26
0.50
05
0.32
0.43
0.37
0.28
06
0.33
0.56
0.56
0.37
0.46
06
Ind5
3. Expresin de las relaciones

entre los resultados obtenidos
con diferentes tipos de
caracteres
Ind3
Ind6
Ind4
Ind2
Ind1
La mayora de los anlisis de diversidad gentica en los que podramos estar

interesados incluira los siguientes pasos:
1.
La descripcin de la diversidad. Esto se puede hacer dentro de una

poblacin o entre poblaciones. Tambin puede extenderse a unidades
ms grandes como zonas y regiones.
2.
El clculo de las relaciones entre las unidades analizadas en el paso uno.

Esto implica el clculo de las distancias (geomtrica o gentica) entre
todos los pares de clases analizadas en el estudio.
3.
La expresin de estas relaciones con cualquier mtodo de ordenacin y/o

clasificacin disponible. Algunos de estos mtodos permitirn comparar
los resultados de nuestro estudio molecular con otros tipos de datos (por
ejemplo, geogrficos). En la diapositiva, los Ind1, Ind2, pueden
representar poblaciones o regiones, en vez de individuos.
Tipos of variables
f Cualitativas. Se refieren a caracteres o
cualidades, y son binarias o categricas:
Binarias, cuando reciben solamente dos valores:
presente (1) o ausente (0)
Categricas, cuando reciben un valor entre varias
posibilidades y pueden ser ordinales o nominales:
Ordinales: categoras que tienen un orden
Nominales: categoras que no tienen relacin
entre s
f Cuantitativas. Son numricas y pueden ser

continuas o discretas:
Continuas, cuando toman un valor dentro de un

rango dado
Discretas, cuando toman nmeros enteros o
decimales
Ejemplos de variables cualitativas:

Binarias: p. ej., pubescencia foliar: presente (1), ausente (0)
Categricas:
Ordinales: p. ej., pubescencia caulinar: escaso (1), comn (2),
abundante (3), o
longitud del pecolo: corto (1), intermedio (2), largo (3)
Nominales: p. ej., color de los ptalos: amarillo (1), rojo (2), blanco (3),
prpura (4)
Ejemplos de variables cuantitativas:
Continuas: p. ej., peso de la raz (g); longitud de la hoja (cm)
Discretas: p. ej., nmero de estambres: 2, 3, 4,
nmero de frutos: 1, 2, 3,
Las variables categricas pueden convertirse en variables binarias; sin embargo, existen
algunas limitaciones puesto que, como veremos, algunos coeficientes de similitud le dan
mayor importancia a la categora de algn carcter determinado, lo que puede generar un
sesgo en contra de otros caracteres que se estn evaluando. Es decir, cuntas ms
categoras tenga una variable, ms importancia tendr cuando se combine con otras
variables binarias o categricas que tengan pocas categoras.
A continuacin presentamos un ejemplo de conversin de una variable categrica en una
binaria:
Longitud del pecolo: corto (1), intermedio (2), largo (3)
Corto: presente (1), ausente (0)
Intermedio: presente (1), ausente (0)
Largo: presente (1), ausente (0)
Las variables cuantitativas tambin se pueden convertir en variables binarias, p.e.:
De 0 a 3 frutos: presente (1), ausente (0)
De 4 a 7 frutos: presente (1), ausente (0), ...
Cuantificacin de la diversidad gentica: Medida

de la diversidad gentica intrapoblacional
f Con base en el nmero de variantes
Polimorfismo o tasa de polimorfismo (Pj)

Proporcin de loci polimrficos
Abundancia de variantes allicas (A)
Nmero promedio de alelos por locus
f Con base en la frecuencia de variantes

Nmero efectivo de alelos (Ae)
Heterocigosidad esperada (He; diversidad gentica
de Nei)
Polimorfismo o tasa de polimorfismo (Pj)
Un gen se define como polimrfico si la frecuencia

de uno de sus alelos es menor o igual a 0.95
0.99
Pj = q 0.95
Pj = q 0.99
Donde,
Pj = tasa de polimorfismo
q = frecuencia allica
Esta medida proporciona el criterio para determinar si un gen presenta
variacin.
Su clculo se hace por observacin directa respecto a si se cumple la
definicin o no se cumple.
La medida puede usarse con marcadores codominantes y, de manera muy
restrictiva, con marcadores dominantes, debido a que la estimacin basada
en los marcadores dominantes presentara una tendencia al sesgo inferior al
nmero real.
Por lo general, un gen polimrfico es aquel para el cual el alelo ms comn tiene
una frecuencia de menos de 0.95. Los alelos raros o poco comunes se definen
como aquellos cuyas frecuencias son menores a 0.005. El lmite de la frecuencia
allica, que se fija en 0.95 ( 0.99) es arbitrario, y su objetivo es ayudar a
identificar aquellos genes en los cuales es comn la variacin allica.
Referencia
Cavalli-Sforza, L. L. y W. F. Bodmer. 1981. Gentica de las Poblaciones
Humanas. Ed. Omega, Barcelona.
Proporcin de loci polimrficos
Es el nmero de loci polimrficos dividido por el

nmero total de loci (polimrficos y monomrficos),
es decir:
P = npj/ntotal
Donde,
P = la proporcin de loci polimrficos
npj = el nmero de loci polimrficos
ntotal = el nmero total de loci
Expresa el porcentaje de loci variables en una poblacin.
Su clculo se basa en el conteo directo de los loci polimrficos y totales.
Puede usarse con marcadores codominantes y, de manera muy restrictiva,
con marcadores dominantes (ver la diapositiva anterior para la explicacin).
Abundancia de variantes allicas (A)
f Se refiere al nmero de variantes en una

muestra
f La medida de la diversidad es (A - 1) variantes
porque, dentro de una poblacin monomrfica,
el grado de diversidad es cero (A - 1 = 0)
Para un gen dado en una muestra, esta medida indica cuntas variantes allicas
pueden encontrarse.
Es sensible al tamao de la muestra.
Aunque la distribucin de alelos no afecta, el nmero mximo de alelos s es

importante.
La medida solamente puede aplicarse con marcadores codominantes.
Nmero promedio de alelos por locus
Es la suma de todos los alelos detectados en todos

los loci, dividido por el nmero total de loci
K
n = (1/K ) ni
i =1
Donde,
K = el nmero de loci
ni = el nmero de alelos detectados por locus
Esta medida brinda informacin complementaria a la informacin sobre
polimorfismo.
Requiere nicamente el conteo del nmero de alelos por locus y luego, el
clculo del promedio.
Se aplica mejor a marcadores codominantes, dado que los dominantes no
permiten la deteccin de todos los alelos.
Nmero efectivo de alelos (Ae)
Es el nmero de alelos que pueden estar presentes

en una poblacin
Ae = 1/(1 h) = 1/pi2
Donde,
pi = frecuencia del i-simo alelo en un locus
h = 1 pi2 = heterocigosidad en un locus
Indica el nmero de alelos que se esperara en un locus, en cada
poblacin.
Se calcula invirtiendo la medida de la homocigosidad en un locus.
Puede utilizarse con datos de marcadores codominantes.
Su clculo puede verse afectado por el tamao de la muestra.
Esta medida de diversidad puede proporcionar informacin til para
establecer estrategias de colecta. Por ejemplo, estimamos el nmero
efectivo de alelos en una muestra. Luego, la comprobamos en una
muestra diferente o en toda la coleccin. Si la cifra obtenida la segunda
vez es menor que la primera, esto podra significar que nuestra estrategia
de colecta necesita revisin.
Clculo de Ae: Un ejemplo

Loci (A, B, C)
Poblacin 1
Poblacin 2
Individuo 1
A1 A1
B1 B1
C1 C1
A1 A1
B1 B3
C1 C1
Individuo 2
A1 A2
B1 B2
C2 C2
A1 A1
B2 B3
C1 C1
Individuo 3
A1 A1
B1 B1
C1 C3
A2 A2
B1 B4
C1 C1
Individuo 4
A1 A3
B1 B3
C2 C3
A2 A2
B1 B1
C1 C1
Individuo 5
A3 A3
B3 B3
C3 C3
A1 A2
B4 B4
C1 C1
Frecuencia del alelo 1
0.60
0.60
0.30
0.50
0.40
1.00
0.10
0.10
0.30
0.50
0.10
0.00
0.30
0.30
0.40
0.20
0.00
Nmero de alelos
0.30
Heterocigosidad (h)
0.54
0.54
0.66
0.50
0.70
0.00
Nmero efectivo de alelos
2.17
2.17
2.94
2.00
3.33
1.00
El cuadro que aparece en esta diapositiva presenta un ejemplo de cmo calcular el

nmero efectivo de alelos. Cada una de las dos poblaciones tiene 5 individuos.
Para cada individuo, se analizan 3 loci, cada uno con un nmero diferente de
alelos, dependiendo de la poblacin (el locus A tiene 3 alelos en la poblacin 1 y
slo 2 alelos en la poblacin 2, y as sucesivamente). Primero se calculan las
frecuencias allicas para cada locus y para cada poblacin. Luego se calcula la
heterocigosidad en cada locus y, por ltimo, el nmero efectivo de alelos, Ae, de
acuerdo con la frmula que aparece en la diapositiva anterior.
Heterocigosidad promedio esperada (He)

(diversidad gentica de Nei [D])
f Es la probabilidad de que, en un locus nico,
cualquier par de alelos, escogidos al azar de la
poblacin, sean diferentes entre s
f Tres clculos son posibles:
Un locus con dos alelos:
h j = 1 p 2 q2
Un locus j con i alelos:
hj = 1 pi2
Promedio para varios loci:
H = jLhj/L
f La He promedio de todos los loci es una

estimacin del grado de variabilidad gentica en
la poblacin
Donde,
hj = la heterocigosidad por locus
p y q = las frecuencias allicas
H = la heterocigosidad promedio para varios loci
L = el nmero total de loci
La heterocigosidad promedio esperada se calcula al restar de 1 las
frecuencias esperadas de homocigotos en un locus. La operacin se repite
para todos los loci y luego se saca el promedio.
Puede aplicarse con todos los marcadores, ya sean codominantes o
dominantes.
El valor calculado puede verse afectado por aquellos alelos presentes en
frecuencias mayores.
Vara de 0 a 1.
Se maximiza cuando hay muchos alelos cuyas frecuencias son iguales.
Debe analizarse un mnimo de 30 loci en 20 individuos por poblacin, para
reducir el riesgo de sesgo estadstico.
Clculo de la diversidad con un marcador

molecular codominante
Individuos
M
10
11 12
13 14
15 16
17
10
11 12 13 14
15 16
17 18
18
19 20
21
22
23 24
19
21
22
23
25 26
27
28
29
30
27 28 29
30
Gel
Locus A
Locus B
Locus C
Locus D
Locus E
Lectura
de datos
Locus A
Locus B
Locus C
Locus D
Locus E
20
24
25 26
1,1 0,1 1,1 0,1 0,1 0,1 0,1 0,1 0,1 1,0 0,1 0,1 0,1 0,1 0,1 1,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1
1,0 0,1 0,1 1,1 0,1 0,1 0,1
0,1 0,1 0,1 0,1 0,1 1,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 1,0 1,0 1,0 0,1 0,1 0,1 0,1 0,1 0,1 1,0
0,1 1,1 0,1 1,0 1,0 1,0 1,1
1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0
1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0
1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0
1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0
0,1 1,1 0,1 1,1 0,1 1,0 1,1 1,0 1,1 1,1 1,1 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 0,1 0,1 1,0
1,0 1,0 1,0 1,0 1,1 1,1 0,1 0,1
(contina en la siguiente)
En la mitad superior de esta diapositiva aparece un dibujo de un gel con un
marcador de tamao a la izquierda (M) y 30 individuos analizados con un marcador
codominante, que detect cinco loci (A, B, C, D y E). De estos loci, solamente tres
son polimrficos (A, B y E).
En la mitad inferior de la diapositiva aparecen los resultados de la lectura de
bandas, por individuo y por locus. Obsrvese que, para facilitar la presentacin, no
se ilustraron ms de dos alelos por locus. Aunque las bandas que pertenecen a los
loci C y D fueron registradas como (1,0) para todos los individuos, la lectura no
hubiera sido necesaria puesto que las bandas no dieron informacin de diversidad.
Los clculos se presentan en la siguiente diapositiva.

molecular codominante (continuacin)
Locus
Frecuencia
allica
Anlisis de datos
Hi
Total
A1 A1
A1 A2
A2 A2
Frecuencia genotpica (esp.)
p2
2pq
q2
Individuos (no.)
24
30
P11 = 0.07
P12 = 0.13
P22 = 0.80
B1 B1
B1 B2
B2 B2
Total
p2
2pq
q2
Individuos (no.)
20
30
P11 = 0.23
P12 = 0.10
P22 = 0.67
E1 E1
E1 E2
E2 E2
Total
p2
2pq
q2
Genotipos
hj =
(1 - p2 - q2)
0.13
0.87
0.28
0.72
0.63
0.37
A
Frecuencia genotpica (obs.)
Genotipos
B

Genotipos
0.23
0.41
E
Individuos (no.)
15
30
P11 = 0.50
P12 = 0.27
P22 = 0.23
0.46
0.22
1. En primer lugar, observamos que los loci A, B y E son polimrficos porque

satisfacen el requisito de tener frecuencias allicas por debajo de 0.99. Los loci
C y D son monomrficos (esp. = valor esperado; obs. = valor observado).
2. La proporcin de loci polimrficos es de P = (3/5) = 0.6 60%. Es decir, el
nmero de loci polimrficos se divide por el nmero total de loci analizados.
3. Para calcular la heterocigosidad promedio (Ho), se procede de la siguiente
manera:
a. Contamos el nmero de loci, del total, que son heterocigotos. Por
ejemplo, el Individuo1 tiene un locus heterocigoto (A), el Individuo2
tambin (E); el Individuo27 tiene 2 loci heterocigotos (A y E), ... .
En total, 16 individuos fueron monomrficos (es decir, tenan
nicamente una banda en cada uno de los cinco loci), 13 individuos
tenan 1 locus heterocigtico y 1 individuo tena 2 loci heterocigticos.
b. Calculamos la heterocigosidad promedio observada, de la siguiente
manera:
Ho = [16(0/5) + 13(1/5) + 1(2/5)]/(30) = 0.1
4. La diversidad gnica dentro de un locus (hj) se calcula para cada locus, de
acuerdo con la frmula que aparece en la fila superior del cuadro, lo que nos da
los siguientes resultados: locus A = 0.23, locus B = 0.41 y locus E = 0.46.
5. La diversidad gnica promedio esperada (Hi) se calcula a partir de la frmula
que aparece en la diapositiva nmero 12:
Hi = (0.23 + 0.41 + 0.46)/5 = 0.22

molecular dominante
Individuos
M
10
11 12
13 14
15 16
17
18
19 20
21
22
23 24
25 26
27
28
29
30
25 26
27 28 29
30
Locus A
Locus B
Locus C
Locus D
Locus E
Lectura
de datos
Locus A
Locus B
Locus C
Locus D
Locus E
10
11 12 13
14 15
16
17 18
19 20
21
22
23
24
En la mitad superior de esta diapositiva aparece un dibujo de un gel (marcador de
tamao a la izquierda, M) con 30 individuos analizados con un marcador
dominante. Se identifican cinco loci (A, B, C, D y E), de los cuales tres estn
segregando (A, B y E), en tanto que los otros dos, C y D, son monomrficos.
En la mitad inferior de la diapositiva estn los resultados de la lectura de bandas,
por individuo y por locus. Como se trata de un marcador dominante, a las bandas
presentes se les asigna un 1 y a las ausentes un 0. La lectura de las bandas para
los loci C y D puede omitirse o bien atribuirles un 1 a todos, como aparece en la
diapositiva.
Los clculos figuran en la siguiente diapositiva.

molecular dominante (continuacin)
Locus
Frecuencia
allica
Anlisis de datos
Genotipos
Aa
p2
Aa
aa
Total
2pq
q2
24
30
0.11
0.89
0.18
0.82
0.52
0.48
hj =
(1 - p2 q2)
Hi
A
Individuos (no.)
P2 = 0.80
Genotipos
BB
Bb
bb
Total
p2
2pq
q2
P1 = 0.20
10
20
30
P1 = 0.33
P2 = 0.67
Individuos (no.)
Genotipos
EE
Ee
ee
Total
p2
2pq
q2
23
30
P1 = 0.77
P2 = 0.23
Individuos (no.)
0.19
0.30
0.50
0.198
1. En primer lugar, tomamos en consideracin el polimorfismo mostrado por todos

los loci. Los loci A, B y E satisfacen el requisito de tener frecuencias allicas
por debajo de 0.99 y, como tales, se puede decir que son polimrficos. Los loci
C y D son monomrficos (esp. = valor esperado;
obs. = valor observado).
2. La proporcin de loci polimrficos (P) es de P = (3/5) = 0.6 60%. No se
puede estimar la heterocigosidad promedio (He) porque los marcadores
dominantes no permiten discriminar entre individuos heterocigotos y
homocigotos.
3. A pesar de lo anterior (2), se puede calcular la diversidad gnica dentro de un
locus (hj) para cada locus, utilizando la frmula que aparece en la fila superior
del cuadro, columna 4, del siguiente modo: locus A = 0.19;
locus B = 0.30; y locus E = 0.50.
4. La diversidad gnica promedio (Hi) se calcula a partir de la frmula que
aparece en la diapositiva nmero 12:
Hi = (0.19 + 0.30 + 0.50)/5 = 0.198
Cuantificacin de la diversidad gentica: Medida

de la diversidad gentica entre poblaciones
f Diferenciacin entre poblaciones respecto a un
locus (gST)
f Diferenciacin entre poblaciones respecto a
varios loci (GST)
f Aporte de la poblacin a la diversidad gentica
total
f Estadsticos F (Wright)
f Anlisis de varianza molecular (AMOVA)
La diferenciacin se refiere a las diferencias polimrficas entre las poblaciones, a

niveles diferentes de estructura (poblaciones e individuos).
Diferenciacin entre poblaciones respecto a

un locus (gST)
gST = 1 (hS/hT)
hS = diversidad de la poblacin
hT = diversidad total
Donde,
hS = (/( - 1)[1 (1/s)xij2 (ho/2)]
hT = 1 - [(1/s)xij]2 + (hS/s) (ho/2s)
= el promedio armnico de los tamaos de poblacin
s = el nmero de poblaciones
ho = la heterocigosidad promedio observada
xij = la frecuencia calculada del i-simo alelo en la j-sima poblacin
La frmula que aparece en la diapositiva provee una medida de la
diferenciacin en funcin de los alelos por locus, en dos poblaciones o ms.
Vara de 0 a 1. Podra obtenerse un valor negativo si se cometiera un error
en el muestreo o si se empleara un tipo de marcadores inapropiado.
Dada la complejidad de sus componentes, para su clculo se requieren
programas informticos especializados.
Puede utilizarse con marcadores codominantes y, con algunas restricciones,
con marcadores dominantes debido a que es una medida de la
heterocigosidad. Son necesarias varias generaciones para tener una
apreciacin razonable del valor real.
Clculo de gST
Genotipos
A1 A1
A1 A2
A2 A2
p2 + q2
Poblacin 1
20
30
50
0.35
0.65
0.545
Poblacin 2
10
20
70
0.20
0.80
0.680
Poblacin 3
60
10
30
0.65
0.35
0.545
ho = 1/3(0.3 + 0.2 + 0.1) = 0.20
s=3
(p2 + q2) = 1.77
1/ = 1/n1 + 1/n2 + 1/n3 = 1/100 + 1/100 + 1/100 = 0.03
= 33.33
hs = (33.33/33.33 1)[1 1/3(1.77) (0.20/2(33.33))] = 0.4196

[1/3xij]2 = (1/3(0.35))2 + (1/3(0.65))2 + (1/3(0.20))2 + + (1/3(0.35))2 = 0.1967
hT = 1 0.1967 + [0.4196/(33.33 x 3)] [0.20/(2 x 33.33 x 3)] = 0.8065
gST = 1 (hs/hT) = 1 (0.4196/0.8065) = 0.4797
En este ejemplo, tenemos el nmero de individuos para cada genotipo, para un

locus (A), en tres poblaciones diferentes. Mediante este nmero, queremos
conocer el grado de diferenciacin en las tres poblaciones. En el cuadro, se
realizan los clculos para todos los elementos necesarios en la frmula que
aparece en la diapositiva anterior.
El resultado (gST = 0.4797) muestra que existe una diferenciacin significativa entre
las poblaciones con respecto a las frecuencias allicas. En consecuencia,
podemos afirmar que un porcentaje alto de la diversidad gentica se encuentra
distribuido entre las poblaciones.
Diferenciacin entre poblaciones respecto a

varios loci (GST)
GST es el coeficiente de diferenciacin gnica
GST = DST/HT
Pob2
HS
HT
DST
DST
Pob1
HS
Pob3
DST
HS
Donde,
HT = la diversidad gnica total = HS + DST
HS = la diversidad gnica dentro de una poblacin
DST = la diversidad entre poblaciones
(HT/HT) = (HS/HT) + (DST/HT) = 1
GST mide la proporcin de diversidad gnica que est distribuida entre las
poblaciones.
Debe tomarse una muestra de un nmero suficiente de loci.
Las ecuaciones son complejas y deben calcularse con programas
informticos especficos.
Por ejemplo, suponiendo que:
HT = 0.263
HS = 0.202
DST = 0.263 0.202 = 0.061
Entonces, GST = (DST/HT) 100 = (0.061/0.263) 100 = 23.19%, lo que significa
que, en esta especie, existe una diferenciacin del 23% entre las poblaciones.
Aporte de la poblacin a la diversidad

gnica total
El aporte se calcula retirando una poblacin del
conjunto, de manera que se pueda evaluar su
aporte a la diversidad gnica total
CT(K) = (HT HT/K)/HT
CS(K) = (HS HS/K)/HT
CST(K) = (DST DST/K)/HT
Donde,
CT(K) = el aporte de K a la diversidad total
CS(K) = el aporte de K a la diversidad dentro de una poblacin
CST(K) = el aporte de K a la diversidad entre poblaciones
HT = la diversidad gnica total
HS = la diversidad gnica dentro de una poblacin
DST = la diversidad entre poblaciones
HT/K = la diversidad gnica total, despus de retirar la poblacin K
HS/K = la diversidad gnica dentro de una poblacin, despus de retirar la
poblacin K
DST/K = la diversidad gnica entre poblaciones, despus de retirar la
poblacin K
La medida permite cuantificar la variacin de la diversidad gnica total
cuando se introduce o se retira una poblacin de un sitio (por ejemplo, al
introducir una variedad nueva en el campo de un agricultor, como parte de un
programa de conservacin in situ).
Tambin sirve para medir el impacto ocasionado, en trminos de diversidad
gnica, por la prdida de una poblacin en un lugar dado.
Puede utilizarse nicamente con marcadores codominantes.
Estadsticos F (Wright)
La ecuacin para la estructura gentica de
poblaciones es:
(1 - FIT) = (1 FIS)(1 FST)
FIT = 1 (HI/HT)
FIS = 1 (HI/HS)
FST = 1 (HS/HT)
Donde,
HT = la diversidad gnica total o la heterocigosidad esperada en la
poblacin total, estimada a partir de las frecuencias allicas combinadas
HI = la diversidad gnica dentro de una poblacin o la heterocigosidad
promedio observada en un grupo de poblaciones
HS = la heterocigosidad promedio esperada, estimada a partir de cada
subpoblacin
Los estadsticos F permiten el anlisis de estructura en poblaciones subdivididas.
Tambin puede emplearse para medir la distancia gentica entre las
subpoblaciones, un concepto que se fundamenta en la idea de que aquellas
subpoblaciones que no presentan apareamiento entre s tendrn frecuencias
allicas diferentes a las de la poblacin total.
La distancia gentica tambin provee una manera de medir la probabilidad de
encuentro entre alelos iguales (endogamia). Los ndices estadsticos involucrados
miden:
FIS = la deficiencia o el exceso de heterocigotos promedio en cada
poblacin
FST = el grado de diferenciacin gnica entre las poblaciones, en funcin
de las frecuencias allicas
FIT = la deficiencia o el exceso de heterocigotos promedio en un grupo de
poblaciones
Interpretacin de valores FST

El rango de FST es:
0
(no existe divergencia

gentica)
(fijacin para alelos

alternos en diferentes
subpoblaciones)
Cuando FST es:
entonces la diferenciacin gentica es:
de 0 a 0.05
de 0.05 a 0.15
de 0.15 a 0.25
>0.25
pequea
moderada
grande
muy grande
Clculo de los estadsticos F

Frecuencia genotpica
Pob.
A1 A1
A1 A2
A2 A2
pi
qi
2piqi
0.40
0.30
0.30
0.55
0.45
0.4950
0.3939
0.60
0.20
0.20
0.70
0.30
0.4200
0.5238
HT
2(0.625)(0.375) = 0.4688
po
(0.55 + 0.70)/2 = 0.625
HI
(0.3 + 0.2)/2 = 0.25
qo
(0.45 + 0.30)/2 = 0.375
HS
(0.495 + 0.420)/2 = 0.4575

FIT = 1 (0.25/0.4688) = 0.4667
FIS = 1 (0.25/0.4575) = 0.4536
FST = 1 (0.4575/0.4688) = 0.0241
Esta diapositiva presenta un ejemplo de dos poblaciones y el anlisis de un locus
(A). Se calculan las frecuencias allicas (p y q), al igual que sus promedios.
Tambin se calculan las variables HT, HI y HS, y se utilizan para calcular los
estadsticos F. El anlisis muestra una diferenciacin baja en las frecuencias
allicas entre las dos poblaciones (FST). Podemos concluir que casi todo el dficit
de heterocigotos se debi al apareamiento no aleatorio dentro de las poblaciones
(FIS = 0.4536).
F = ndice de fijacin (primera columna a la derecha del cuadro), que es la
probabilidad de que los dos alelos de un individuo sean los mismos. Su clculo
debe hacerse slo con marcadores codominantes. Si se hace con marcadores
dominantes, el clculo puede resultar sesgado.
Clculo de los estadsticos F (continuacin)

Frecuencia genotpica
Pob.
A1 A1
A1 A2
A2 A2
pi
qi
2piqi
0.25
0.50
0.25
0.50
0.50
0.500
0.0000
0.80
0.10
0.10
0.85
0.15
0.255
0.6078
HT
2(0.675)(0.325) = 0.4388
po
(0.50 + 0.85)/2 = 0.675
HI
(0.5 + 0.1)/2 = 0.30
qo
(0.50 + 0.15)/2 = 0.325
HS
(0.500 + 0.255)/2 = 0.3775

FIT = 1 (0.30/0.4388) = 0.3163
FIS = 1 (0.30/0.3775) = 0.2053
FST = 1 (0.3775/0.4388) = 0.1397
Este es otro ejemplo para el cual se siguieron los mismos procedimientos que en la
diapositiva anterior. La diferenciacin en las frecuencias allicas entre las dos
poblaciones parece mayor (FST = 0.1397), con solo un efecto moderado del
apareamiento no aleatorio dentro de las poblaciones (FIS = 0.2053).
Anlisis de varianza molecular (AMOVA)

f AMOVA es un mtodo que sirve para estudiar
la variacin molecular dentro de una especie
f Se basa en un modelo jerrquico o anidado
f Se diferencia de un anlisis de varianza
(ANOVA) en que:
Puede contener diferentes suposiciones evolutivas
sin modificar la estructura bsica del anlisis
La hiptesis utiliza mtodos de permutacin que no
requieren la suposicin de una distribucin normal
Los diferentes niveles jerrquicos de la diversidad gnica, estudiados por medio del
mtodo AMOVA, pueden abarcar:
1.
Continentes, que pueden contener niveles jerrquicos menores
2.
Regiones geogrficas dentro de un continente
3.
Zonas dentro de una regin, en un continente
4.
Poblaciones dentro de una zona de una regin, en un continente
5.
Individuos dentro de una poblacin en una zona de una regin, en un

continente
En los Apndices 2 y 3 est la descripcin matemtica del modelo para las

situaciones 3 y 4, respectivamente. Para consultarlos, haga clic aqu.
En las dos diapositivas que aparecen a continuacin, se explica el modo de
analizar la situacin 4.
Un ejemplo de AMOVA
Ind.
Pob. 1
Pob. 2
Pob. 3
X...k
15
21
18
54
A1
A2
A1
A2
A1
A2
X...k2
225
441
324
990
Xi...k2
27
33
28
88
Xijk2
15
21
18
X...2
10
11
12
54
2916
Sca
0.6
CMa
0.3
SCb
11
CMb
0.26190476
SCw
10
CMw
0.22222222
13
14
A1 = 1
Presente
15
A1 = 0
Ausente
En este cuadro, aparecen los datos obtenidos con 15 individuos de cada una de las tres
poblaciones, en un anlisis realizado con un marcador codominante. Mediante un anlisis
de varianza, estos datos nos permitirn calcular los estadsticos F.
El primer paso es convertir en variables binarias las bandas detectadas en los geles,
asignndoles un valor de 0 de 1. Luego, se calculan las sumas de las presencias (1) para
que podamos proceder con la suma de cuadrados. Se realizan primero los
clculos para una poblacin y se contina con las dems hasta completar (X...k). Tenemos i
= 15 individuos (efecto b), j = 2 alelos (efecto w), k = 3 poblaciones (efecto a).
Donde,
X...k es el resultado de la suma de todas las bandas presentes en los individuos
por poblacin
X...k2 es el resultado de elevar al cuadrado el nmero obtenido anteriormente
Xi...k2 es el resultado de sumar los cuadrados de la suma de alelos
presentes en cada individuo (por ejemplo, Indiv.1 en la Pob.1 ser (0 + 0)2 +
Indiv.2 en la Pob.1 (1 + 1)2 + Indiv. ...)
Xijk2 es la suma de cada valor al cuadrado
SC es la suma de los cuadrados para los efectos a, b y w
Un ejemplo para calcular SC:
SCa = X...k2/ij X...2/ijk = [990/(15 x 2)] - [2916/(15 x 2 x 3)] = 0.6
CM son los cuadrados medios para los efectos a, b y w
Un ejemplo para calcular CM: SCa/gla = 0.6/2 = 0.3, donde gla se refiere a los
grados de libertad para el efecto a (poblaciones).
Un ejemplo de AMOVA (continuacin)

FV
gl
SC
CM
CME
w2
+ 2b2 + 2*15a2
Poblaciones
0.6
0.3
Indiv./poblacin
42
11
0.26190476
w2 + 2b2
Dentro de indiv.
45
10
0.22222222
w2
Clculos de varianzas y estadsticos F

a2
0.0012698
b2
0.0198413
w2
0.2222222
0.24333
FIT
0.086758
FIS
0.0819672
FST
0.0052185
(1 - FIT)
0.91324
(1 - FIS)(1 - FST)
0.91324
Donde,
FV = fuentes de variacin
gl = grados de libertad
SC = la suma de los cuadrados (ver diapositiva anterior)
CM = cuadrados medios (ver diapositiva anterior)
2 = varianza total calculada
CME = cuadrados medios esperados
w2 = 0.2222222
b2 = (CMb CMw)/2 = (0.26190476 0.22222222)/2 = 0.0198413
a2 = (CMa CMb)/2 15 = (0.3 0.26190476)/2 15 = 0.0012698
2 = w2 + b2 + a2 = 0.24333 (varianza total calculada)
En la diapositiva 22, ya se ha explicado la forma de calcular los estadsticos F.
Para este ejemplo en particular, sera de la siguiente manera:
FIT = (a2 + b2)/2 = (0.0012698 + 0.0198413)/0.24333 = 0.086758
FST = a2/2 = 0.0012698/0.24333 = 0.0052185
FIS = b2/(b2 + w2) = 0.0198413/(0.0198413 + 0.222222) = 0.0819672
La diferenciacin de las frecuencias allicas entre las tres poblaciones es muy baja
(FST = 0.0052185) y probablemente es un resultado de muchos apareamientos al
azar. Para sacar una conclusin, es necesario analizar un mayor nmero de loci.
Cuantificacin de las relaciones genticas:

Diversidad y diferenciacin a nivel de
nucletido
f Usando datos de secuencia
Diversidad de nucletidos dentro de una poblacin

Diversidad de nucletidos entre poblaciones
f Usando datos de restriccin
Variaciones en los patrones de bandas

Diversidad de nucletidos dentro de una poblacin
Para realizar estos clculos, se parte del supuesto de que cada nucletido es un
locus.
Utilizacin de datos de secuencia:

Diversidad de nucletidos dentro de una
poblacin
Mide la diversidad de nucletidos entre varias

secuencias en una regin dada del genoma, dentro
de una poblacin (X)
X = n/(n 1)XiXjij
Donde,
n = el nmero de secuencias analizadas en los individuos de la poblacin
Xi = la frecuencia estimada de la i-sima secuencia en la poblacin
Xj = la frecuencia calculada de la j-sima secuencia en la poblacin
ij = la proporcin de nucletidos diferentes entre las secuencias i y j
La medida brinda informacin acerca del grado de diversidad de nucletidos
entre varias secuencias, en una regin dada del genoma. Equivale a la
medida de la diversidad allica dentro de un locus.
Vara de 0 a 1 (0 < X < 1).
Entre los factores que limitan el uso de esta herramienta de anlisis estn los
siguientes:
Debe haber disponibilidad de secuencias genmicas parciales
La ecuacin slo puede aplicarse a datos haploides
Este parmetro da informacin acerca de las secuencias de nucletidos, y el
modelo supone la presencia de haplotipos (genotipos haploides). Aunque el
estudio se basa en individuos diploides, es necesario secuenciar cada copia del
genoma.
Clculo de la diversidad de nucletidos

dentro de una poblacin
Secuencia
Frec. Xi
Sec1
TCC T CGAT T ATTC C CAGGGTGC C GATG A AT
5/10 = 0.5
Sec2
TCC A CGAT T ATTC G CAGGGTGC C GATG A AT
2/10 = 0.2
Sec3
TCC A CGAT C ATTC C CAGGGTGC A GATG G AT
1/10 = 0.1
Sec4
TCC G CGAT T ATTC T CAGGGTGC G GATG A AT
2/10 = 0.2
10
1,2 = 2/30, 1,3 = 4/30, 1,4 = 3/30, 2,3 = 4/30, 2,4 = 3/30, 3,4 = 5/30
= 10/(10 1)XiXjij
= (10/9)[0.5 0.2 (2/30) + 0.5 0.1 (4/30) + ... + 1 0.2 (5/30)]
= 0.037
Este ejemplo presenta 10 individuos en una poblacin X. Para cada individuo,

analizamos una secuencia de 30 nucletidos y observamos que las secuencias
individuales difieren en 5 nucletidos (azul). En total, en la poblacin hay cuatro
secuencias alternas para estos 30 nucletidos. La primera columna muestra el
nmero de individuos (n) que tienen cada una de las alternativas de secuencia.
Calculamos el nmero de diferencias de nucletidos en cada par de secuencias
dentro de la poblacin. Por ejemplo, 1,2 = 2/30 significa que entre las secuencias
1 y 2 hay dos diferencias entre los nucletidos (T versus A en la posicin 4, y C
versus G en la posicin 14).
Luego, calculamos X para toda la poblacin. El nmero obtenido es 0.037, o sea
una diversidad de nucletidos del 3.7%, con base en la secuencia analizada en la
muestra de 10 individuos.
Utilizacin de datos de secuencia:

f VXY mide la divergencia poblacional con base en el grado
de variacin de la secuencia (1 secuencia, 2 poblaciones)
VXY = dXY (X + Y)/2
f VW mide la diversidad promedio en una poblacin con base
en diversas secuencias
VW = (1/s)X
f Vb mide la diferenciacin total en diversas poblaciones
Vb = [1/(s(s 1))]XYVXY
f NST es la diferenciacin relativa
NST = Vb/(Vb + VW)
Donde,
VXY = la divergencia entre las poblaciones X y Y
X = la diversidad de nucletidos en la poblacin X
dXY = la probabilidad de que dos nucletidos al azar, en las poblaciones
X y Y, sean diferentes
s = el nmero de poblaciones
La medida brinda informacin acerca del nivel de diferenciacin entre
secuencias de nucletidos en las poblaciones.
Requiere datos de secuencia en una muestra de individuos para cada
poblacin.
Necesita programas informticos especficos con atributos que permitan la
alineacin de secuencias, por ejemplo CLUSTAL W, MALIGN y PAUP*.

entre poblaciones
Divergencia de nucletidos entre X y Y
VXY = dXY (XY)/2 = 0.14 (0.037 + 0.09)/2 = 0.0765
Diferenciacin total
Vb = [1/(s(s 1))]XYVXY = [1/(2(2 1))]0.0765 = 0.03825
Diversidad promedio en cada poblacin
VW = (1/s)X = (0.037 + 0.09) = 0.0635
Diferenciacin relativa
NST = Vb/(Vb + VW) = 0.03825/(0.03825 + 0.0635) = 0.3759
Digamos que tenemos otra poblacin Y en la cual la diversidad de nucletidos para

la misma secuencia analizada en la diapositiva 31 es Y = 0.09.
Tambin sabemos que la probabilidad de que dos nucletidos tomados al azar
sean diferentes en X y Y es de 0.14 (dXY).
En esta diapositiva, presentamos la divergencia entre las poblaciones X y Y (VXY),
la diferenciacin total (Vb), la diversidad promedio en cada poblacin (Vw) y la
diferenciacin relativa (NST)..
Utilizacin de datos de restriccin:

Variaciones en patrones de bandas
Sitio de restriccin EcoRI
Fragmento 1
Fragmento 2
ADN
Indiv. 1
GACTGAATTCCACGGCACTGACGAATTCGAAGTGAATTCTTACTTAAGCTAGCCTGAATTCGATAC
CTGACTTAAGGTGCCGTGACTGCTTAAGCTTCACTTAAGAATGAATTCGATCGGACTTAAGCTATG
ADN
Indiv. 2
GACTGATTTCCACGGCACTGACGAATTCGAAGTGAATTCTTACTTAAGCTAGCCTGAATTCGATAC
CTGACTAAAGGTGCCGTGACTGCTTAAGCTTCACTTAAGAATGAATTCGATCGGACTTAAGCTATG
Fragmento 2
No existe sitio de
reconocimiento
para EcoRI
I1
I2
Fragmento 2
Fragmento 1
Gel
La ausencia del fragmento 1 en el Individuo2 indica que porta una secuencia

diferente de ADN, al menos en este sitio de restriccin. Basta una pequea
diferencia de apenas dos nucletidos, en el dibujo, para hacer que desaparezca el
sitio de reconocimiento para la enzima.

Diversidad de nucletidos dentro de una
poblacin
Esta medicin () se basa en el nmero de

fragmentos de restriccin presentes en dos
muestras
= - (1/r)ln G
(si < 5%)
Donde,
r = el nmero de nucletidos de reconocimiento de una enzima de
restriccin
ln G = el logaritmo natural de la probabilidad de que no hubo substitucin
en el sitio de restriccin. Se calcula del siguiente modo:
G = F(3 2G)1/4
F = [Xi(Xin 1)]/[Xi(n 1)]
F = la proporcin de fragmentos compartidos
G = F1/4
n = el nmero de genotipos haploides en la poblacin
Xi = la frecuencia estimada del i-simo fragmento en la
poblacin
La medida estima la diversidad en los sitios de restriccin en una muestra,
porque depende de la secuencia de nucletidos de los sitios de
reconocimiento de una enzima de restriccin dada.
Suministra informacin acerca de la substitucin de nucletidos en los sitios
de restriccin. Vara de 0 a 1 (0 X 1).
Las ecuaciones anteriores pueden utilizarse con muestras haploides, ADNmt,
ADNcp o haplotipos.
Referencia
Karp, A., P. G. Isaac y D. S. Ingram. 1998. Molecular Tools for Screening
Biodiversity: Plants and Animals. Chapman & Hall, Londres.

f Esta medicin (VXY) indica la divergencia o
diferenciacin entre poblaciones, con base en
los datos de restriccin
VXY = dXY (X + Y)/2
f Tambin se utiliza esta medida con datos de
marcadores RAPD
Donde,
VXY = la divergencia o diferenciacin entre las poblaciones X y Y
X = la diversidad de la restriccin en la poblacin X
dXY = la diversidad de fragmentos entre dos poblaciones = (2/r)ln (GXY)
GXY = FXY(3 2GXY)1/4
G = FXY1/4
FXY = la proporcin de alelos compartidos entre las poblaciones X y Y
= (2XiXXiY)/((XiX + XiY))
XiX = la frecuencia calculada del fragmento i en la poblacin X
Calcula la diversidad en los sitios de restriccin de una muestra de dos poblaciones o

ms. Brinda informacin acerca de la substitucin de nucletidos en los sitios de
restriccin.
Resultan prcticos los programas informticos como BIOSYS y GENEPOP. Los
datos obtenidos son considerados como pertenecientes a organismos haploides.
Si se utiliza con datos de RAPD, el valor de r es reemplazado por la longitud del cebador (r
= 10).
Se hacen, adems, ciertas suposiciones:
Que se emplean los cebadores apropiados
Que el polimorfismo originado por insercin o delecin es poco comn
Que los fragmentos de tamao similar en poblaciones diferentes pertenecen al mismo
locus
Que se deben identificar los fragmentos sin error
Los programas que ms se usan son RAPDISTANCE y RAPDIS.

entre poblaciones
P
o
b
l
a
c
i
Sec.
10
11
12
P
o
b
l
a
c
i
15
16
17
18
19
20
Frec. Xi
A2
5/20 = 0.25
A3
9/20 = 0.45
F = [0.30(0.30 3 1) + 0.25(0.25 3 1) + 0.45(0.45 3 1)] = 0.0325

0.30(3 1) + 0.25(3 1) + 0.45(3 1)
G = 0.0325[3 2(0.424591)]1/4 = 0.039358
X = -(1/6) ln (0.039358) = 0.539176
Sec.
10
11
12
13
14
15
16
17
18
19
20
Frec. Xi
A1
5/20 = 0.25
A2
13/20 = 0.65
A3
2/20 = 0.10
F = [0.25(0.25 3 1) + 0.65(0.65 3 1) + 0.10(0.10 3 1)] = 0.2425

0.25(3 1) + 0.65(3 1) + 0.10(3 1)
G = (0.2425)1/4 = 0.701743
14
6/20 = 0.30
G = (0.0325)1/4 = 0.424591
X
13
A1
G = 0.2425[ 3 2(0.701743)]1/4 = 0.272587
Y = -(1/6) ln (0.272587) = 0.216633
En cada poblacin, detectamos tres fragmentos de ADN, como resultado de una restriccin:
A1, A2 y A3.
La diversidad de nucletidos en las regiones analizadas es ms grande en la poblacin X (X
= 0.5392) que en la poblacin Y (Y = 0.2166); por tanto, X tiene mayor diversidad gnica que
Y.
Entre las poblaciones X y Y, la diferenciacin de nucletidos con base en los sitios de
restriccin es de 0.230766.
2[0.30*0.25+0.25*0.65+0.45*0.10]
F = (0.30+0.25)+ (0.25+0.65)+ (0.45+0.10) = 0.14125
1/4
GXY = 0.14125
= 0.613052
]1/ 4 = 0.163012
GXY = 0.14125 3 2(0.613052)
dXY = (2 / 6 )ln(0.163012) = 0.604643

VXY = 0.604643 1 (0.539176 + 0.216633) = 0.226739
2
VW = 1 (0.539176 + 0.216633) = 0.377905
2
Vb = 1 (0.226739) = 0.11337
2
NST =
0.11337
0.11337 + 0.377905
= 0.230766
Cuantificacin de las relaciones genticas:

Distancia gentica
f La distancia gentica entre dos muestras se

describe como la proporcin de elementos
genticos (alelos, genes, gametos, genotipos)
que no son compartidos por ambas muestras
f D = 1 cuando, y solamente cuando, las dos
muestras no tienen elementos genticos en
comn
Segn las similitudes de los individuos, son posibles tres tipos de representacin de
la distancia (D):
D = 1 S, conocida como la distancia lineal porque asume que la relacin
con la similitud es lineal.
D = (1 S), conocida como la distancia cuadrtica porque asume que la
relacin con la similitud se ajusta a una funcin cuadrtica, de manera que
para volverla lineal es necesario calcular la raz cuadrada.
D = (1 S2), conocida como la distancia circular.
Linear
Lineal
Circular
Quadratic
Cuadrtic
a
0.6
0.4
0.2
1
0.8
0.8
Distancia
D is ta n c ia
D is ta n c ia
0.8
0.6
0.4
0.2
0.2
0.4
0.6
Similitud
0.8
0.4
0.2
0.6
0.2
0.4
0.6
Similitud
0.8
0
0
0.2
0.4
0.6
Similitud
0.8
Modelos de distancia
El clculo de la distancia o disimilitud se ajusta a
uno de estos dos modelos posibles:
Modelo de equilibrio
Modelo de desequilibrio
t
d
t+1
d1
t+1
d2
La distancia permanece
constante con el tiempo
(existe equilibrio entre
la migracin y la deriva gentica)
La distancia cambia con

el tiempo, a travs de
la migracin y la deriva
gentica
Para nuestros propsitos, emplearemos el modelo de desequilibrio. Existen dos

alternativas:
Distancia geomtrica
No considera los procesos evolutivos
Se basa solamente en las frecuencias allicas
Existe una relacin compleja entre la distancia y el tiempo de divergencia
Distancia gentica
No considera los procesos evolutivos
La distancia aumenta a partir del momento de separacin de una poblacin
ancestral
Requiere un modelo gentico de evolucin
Cundo debemos emplear la distancia geomtrica y cundo la distancia gentica?

La distancia geomtrica se emplea para estudios de diversidad en los cuales se
hacen comparaciones segn los datos morfolgicos o de marcadores recopilados de
las unidades taxonmicas operativas (UTO). Las UTO pueden ser individuos,
accesiones o poblaciones. La distancia geomtrica puede utilizarse con marcadores
dominantes (RAPD, AFLP) o codominantes. Dado que no se consideran los
aspectos evolutivos, los dendrogramas obtenidos no pueden interpretarse como
rboles filogenticos que suministran informacin acerca de la evolucin o
divergencia entre grupos.
Por el contrario, la distancia gentica de cualquier UTO dada puede incorporarse en
estudios filogenticos. El modelo contempla las frecuencias allicas en las UTO y su
fundamento matemtico es diferente. Puede utilizarse con marcadores
codominantes y dominantes; no obstante, con stos ltimos, se pierde informacin
porque solamente se pueden calificar dos alelos. La distancia gentica con
marcadores dominantes requiere que se examinen dos generaciones de la misma
poblacin para medir la segregacin de los loci (Lynch y Milligan, 1994).
Referencia
Lynch, M. y B. G. Milligan. 1994. Analysis of population genetic structure with RAPD
markers. Mol. Ecol. 3:91-99.
Modelos de desequilibrio: Distancia

geomtrica
f Mide la relacin directa entre el ndice de
similitud (s) y la distancia (D = 1 s)
f Son posibles diferentes situaciones; por
ejemplo:
Variables binarias
Variables cuantitativas
Tipos mixtos de variables
Nmero P de variables
Al analizar datos moleculares, tratamos con variables binarias (1,0). Estas se
discutirn en las diapositivas que aparecen a continuacin.
En el Apndice 4, hay informacin adicional sobre aquellos casos en los cuales es
necesario utilizar tambin variables cuantitativas, tipos mixtos de variables y un
nmero diverso de variables. En el Apndice 5, se ha agregado un ejemplo sobre
cmo calcular las distancias geomtricas con variables cuantitativas. Para
consultar los Apndices 4 y 5, haga clic aqu.
Distancia geomtrica (continuacin)

Con variables binarias:
Se emplea el anlisis multivariado y se elaboran

matrices de similitud o diferenciacin entre los posibles
pares de individuos o unidades taxonmicas operativas
(UTO)
Dos individuos similares tienen, simultneamente, el
valor mnimo de distancia y el valor mximo de similitud
La distancia y la similitud estn inversamente
relacionadas
La similitud se calcula por el nmero de coincidencias
Al emplear datos de marcadores moleculares y transformarlos en datos binarios,

hay que tener en cuenta los siguientes aspectos:
El nmero de ploida de una especie puede ocultar la presencia de series
allicas en un locus. Si esto sucede, se subestimar la diversidad gentica al
emplear marcadores dominantes (presencia/ausencia).
Si un marcador es codominante, se necesitan muestras de gran tamao
para que se puedan detectar todos los genotipos posibles, especialmente si
hay varios alelos por locus.
Son comunes las distorsiones de segregacin en las especies poliploides.
La mayora de los programas de informtica especializados estn diseados
para analizar especies diploides. Por lo tanto, si se usan con especies
poliploides, puede haber sesgos en la estimacin de los diversos ndices de
diversidad gentica.
El sistema reproductivo de ciertas especies no ha sido estudiado, de manera
que no se conoce lo suficiente acerca de su tipo de herencia.
Para obtener estimaciones confiables de diversidad gentica, se debe
muestrear y analizar la mayor cobertura posible (regiones de codificacin y
de no codificacin) del genoma de la especie en estudio.
Clculo de frecuencias allicas para diploides

y tetraploides: Marcador dominante
Individuos
17 18
10
11
12 13
14 15
16
10
11
12 13
14 15
16 17 18
Locus A
diploide
(2X)
Locus A
tetraploide
(4X)
Matriz
binaria
En este ejemplo, 18 individuos de una especie diploide y 18 de una especie

tetraploide fueron analizados con un marcador dominante. Los patrones de bandas
obtenidos son similares. En ambos casos, las bandas se convierten en un cuadro
binario. Los clculos de frecuencias estn abajo. Observamos que, por ejemplo, en
el tetraploide, el genotipo 1 puede ser AAAA, AAAa, AAaa o Aaaa; pero la banda se
leer como presente (1) al igual que en el diploide (AA o Aa).
Locus
A
(2X)
A
(4X)
Genotipos
Frec. allica
Diploide
AA, Aa
aa
Total
Frec. geno. (esp.)
p2 + 2pq
q2
No. de indiv.
14
18
Frec. geno. (obs.)
P1 = 0.78
P2 = 0.22
Tetraploide
AAAA, AAAa, AAaa,

Aaaa
Frec. geno. (esp.)
0.53
0.47
aaaa
Total
p4 + 4p3q + 6p2q2 +
4pq3
q4
No. de indiv.
14
18
Frec. geno. (obs.)
P1 = 0.78
P2 = 0.22
0.31
0.69
En ambos casos, las frecuencias allicas deben ser diferentes. No obstante, la

prdida de informacin en el individuo tetraploide es significativa. A qu se debe
esto? A que para calcular la frecuencia del alelo recesivo a, no se consideran los
heterocigotos AAAa, Aaaa y Aaaa. Este efecto es mucho mayor cuando no se
conoce el nmero de ploida de la especie en estudio (esp. = valor esperado; obs. =
valor observado).
Clculo de frecuencias allicas para diploides

y tetraploides: Marcador codominante
7
Individuos
9 10 11
12 13
14
15
16 17 18
12
14
15
16 17 18
A2 A3
A1 A2
A2 A2
A3 A3
A1 A1
Locus A
diploide
(2X)
A1 A3
A3 A3 A3 A3
A1 A2 A3 A3
A1 A1 A2 A3
M
Matriz
binaria
diploide
A1 A2 A2 A3
A1 A1 A1 A1
Locus A
tetraploide
(4X)
7
I
D I
10
I
11
U O
13
(1,0,0) (1,0,1) (0,0,1) (1,0,1) (0,1,1) (1,0,0) (1,0,1) (0,0,1) (0,0,1) (0,1,0) (1,1,0) (0,0,1) (0,0,1) (0,0,1) (0,0,1) (0,1,1) (1,0,1) (0,0,1)
En este ejemplo, hay 18 individuos de una especie diploide y 18 de una especie

tetraploide analizados utilizando un marcador codominante. En ambas situaciones,
se detecta un locus (A) con tres alelos (A1, A2 y A3).
El clculo de las frecuencias allicas en los individuos diploides no es difcil (matriz
binaria, parte inferior de la diapositiva). Sin embargo, con individuos tetraploides,
se dificulta la conversin a datos binarios debido a que aquellos que portan los
alelos A1 A1 A2 A3 no pueden diferenciarse de los que tienen otras combinaciones
como A1 A2 A2 A3 o A1 A2 A3 A3. Esta situacin solamente puede ser resuelta por
inferencia, con base en el clculo del nmero de copias del fragmento de ADN en
el gel.
Genotipo
A1 A1
A1
A2
A1
A3
A2
A2
A2
A3
A3
A3
Tota
l
Frec. geno.
(esp.)
p2
2pq
2pr
q2
2qr
r2
Indiv. (no.)
18
Frec. geno.
(obs.)
P11 =
0.11
P12 = P13 = P22 = P23 = P33 =

0.06 0.22 0.06 0.11 0.44
(esp. = valor esperado; obs. = valor observado).
0.25
0.15
0.60
Coeficientes de similitud para variables

binarias: Ejemplos
Ejemplo del valor del coeficiente
si
a = 3, b = 1, c = 3, d = 2
Autor
Expresin
S1
Russel y Rao (1940)
a/n
0.333
S2
Simpson
a/min[(a + b),(a + c)]
0.750
S3
Braun-Blanquet
a/max[(a + b),(a + c)]
0.500
S4
Dice (1945); Nei y Li (1979)
a/[a + (b + c)/2]
0.600
S5
Ochiai (1957)
a/[(a + b)(a + c)]1/2
0.612
S6
Kulczynski 2
(a/2)([1/(a+b)] + [1/(a+c)])
0.625
S7
Jaccard (1900, 1901, 1908)
a/(a + b + c)
0.429
S8
Sokal y Sneath 5 (1963)
a/[a +2(b + c)]
0.273
S9
Kulczynski 1 (1928)
a/(b + c)
0.750
S10
Sokal y Michener (1958)
(a + d)/n
0.556
S11
Rogers y Tanimoto (1960)
(a + d)/[a + d + 2(b + c)]
0.385
S12
(a + d)/[a + d + (b + c)/2]
0.714
S13
(a + d)/(b + c)
1.250
Indiv.j
Indiv.i
a+
b
c+d
a+c
b+d
Donde,
n=a+b+c+d
En el cuadro de la diapositiva, observamos que:
Los ndices S1 a S9 dan valor solamente a la presencia de informacin
Los ndices S10 a S13 dan valor tanto a la presencia de informacin
como a su ausencia
A continuacin, discutiremos tres ndices (los que aparecen en rojo en la
diapositiva): Concordancia Simple (S10), Jaccard (S7) y Nei-Li (S4).
ndices de distancia geomtrica

Coeficiente de concordancia simple:
(a + d)/(a + b + c + d)
Coeficiente de Jaccard:
a/(a + b + c)
Coeficiente de Nei-Li, o de Dice:
2a/(2a + b + c)
Estos tres ndices difieren en su enfoque para estimar el nmero de coincidencias y

diferencias.
El Coeficiente de Concordancia Simple considera que la ausencia corresponde a
loci homocigticos. Puede usarse con datos de marcadores dominantes (RAPD y
AFLP), por cuanto las ausencias podran corresponder a recesivos homocigticos.
En el Apndice 6 se da un ejemplo de aplicacin del Coeficiente de Concordancia
Simple para variables categricas (haga clic aqu).
El Coeficiente de Jaccard solamente cuenta las bandas presentes para cualquiera
de los individuos (i o j). Las ausencias dobles se consideran como datos
ausentes. Si se presentan falsos positivos o falsos negativos, la estimacin del
ndice tiende a ser sesgada. Puede aplicarse con datos de marcadores
codominantes.
El Coeficiente de Nei-Li cuenta el porcentaje de bandas compartidas entre dos
individuos y le da ms importancia a aquellas bandas presentes en ambos.
Considera que la ausencia tiene menor importancia biolgica y, de esta manera,
este coeficiente tiene un significado completo en funcin de la similitud del ADN.
Puede aplicarse con datos de marcadores codominantes (RFLP, SSR).
Modelos de desequilibrio: Distancia gentica
f Mide la diferencia entre dos genes, proporcional

al tiempo de separacin de un ancestro comn
f Varios modelos son posibles:
Mutacin de alelos infinitos
p. ej. Distancia gentica de Nei
Modelo de mutacin gradual
p. ej. Distancia con microsatlites
Mutacin en la secuencia de nucletidos
Mutacin de alelos infinitos (isoenzimas)

Cada mutacin da origen a un alelo nuevo.
Si 2 genes son iguales, no ha habido mutacin. Si 2 genes son
diferentes, se present un nmero desconocido de mutaciones.
El nmero promedio de mutaciones desde el momento t, cuando
divergieron de un ascestro es = 2t, donde es la tasa de mutacin y
se multiplica por 2 porque estamos tratando con 2 genes
independientes.
La probabilidad de que 2 genes provengan de un mismo progenitor
despus del momento t es de P= e-2t.
Modelo de mutacin gradual (SSR)

La mutacin es un cambio progresivo de tal manera que los fragmentos
que migran distancias similares han experimentado pocas mutaciones.
En el caso de las SSR, se asume que la mutacin modifica el nmero
de repeticiones, aumentando o disminuyendo paso a paso. Puede
mostrarse que el cuadrado de la diferencia en el nmero de repeticiones
entre 2 microsatlites es proporcional al momento de divergencia de un
ancestro comn.
Mutacin en la secuencia de nucletidos

Indica que la substitucion ms sencilla es la mutacin de una base
nica.
La limitacin principal es la prdida de informacion por desconocer el
nmero de mutaciones que podran haber ocurrido en un sitio. Para
resolver ese problema, algunos mtodos asumen la probabilidad de
transicin (purina purina o pirimidina pirimidina) y de transversin
(purina pirimidina o pirimidina purina).
Clculo de la distancia gentica de Nei

f La distancia gentica estndar de Nei es:
DXY = ln (IXY)
f Se basa en el concepto de identidad gentica
(IXY):
Ixy =
Jxy
(JxJy)
Donde,
JX = la homocigosidad promedio en la poblacin X
JY = la homocigosidad promedio en la poblacin Y
JXY = la homocigosidad promedio entre poblaciones
De manera que,
IXY = 1, si dos poblaciones tienen las mismas frecuencias allicas en
todos los loci muestreados
IXY = 0, si dos poblaciones no comparten las mismas frecuencias allicas
en todos los loci muestreados
El valor de DXY vara de 0 (donde las poblaciones tienen frecuencias allicas
idnticas) a infinito (, donde las poblaciones no comparten ningn alelo).
Asume que la tasa de substitucin por locus es igual entre todos los loci y las
poblaciones.
Esta distancia calcula las diferencias de codones por locus entre dos
poblaciones.

(continuacin)
Locus
Alelos
Frecuencias allicas
Poblacin 1
Poblacin 2
Poblacin 3
A1
0.80
0.74
0.65
A2
0.20
0.26
0.35
Heterocigosidad del locus
hijk
0.3200
0.3848
0.4550
B1
0.86
0.81
1.00
B2
0.01
0.10
0.00
B3
0.13
0.09
0.00
hijk
0.2434
0.3258
0.0000
D1
0.00
1.00
0.30
D2
1.00
0.00
0.70
hijk
0.0000
0.00
0.4200
Heterocigosidad promedio
Hi
0.0433
0.0547
0.0673
Homocigosidad promedio
Ji
0.9567
0.9453
0.9327
Homocig. prom. entre poblac.
Jii
J1,2 = 0.8733
J1,3 = 0.9346
J2,3 = 0.8986
Identidad gentica
Iii
I1,2 = 0.9183
I1,3 = 0.9894
I2,3 = 0.9570
Distancia gentica
Dii
D1,2 = 0.0852
D1,3 = 0.0107
D2,3 = 0.0440
En este ejemplo hay i = 3 poblaciones, j = 3 loci polimrficos y 10 loci

monomrficos. Adems, hay diferentes nmeros (K) de alelos por locus (por
ejemplo, A y D tienen 2 alelos cada uno y B, 3 alelos).
En el cuadro aparecen los resultados del clculo de las frecuencias allicas
en cada poblacin, as como la heterocigosidad por locus. A continuacin,
calculamos la heterocigosidad y la homocigosidad promedio
(1 - heterocigosidad) por poblacin.
Luego, calculamos la homocigosidad entre poblaciones y la identidad gentica para
estimar la distancia gentica de Nei:
jiijk = iij pijk pijk, por ejemplo, j1,2jk = la homocigosidad entre las poblaciones
1y2
j1,2jk = (0.8)(0.74) + (0.2)(0.26) + (0.86)(0.81) + (0.01)(0.10) + (0.13)(0.09) +
(0.0)(1.0) + (1.0)(0.0) + 10 = 11.3533
J1,2 = la homocigosidad promedio entre poblaciones = j1,2jk/13 = 11.3533/13
= 0.8733
I1,2 = la identidad gentica entre las poblaciones 1 y 2 = J1,2/(J1J2) =
0.8733/(0.9567 0.9453) = 0.9183
D1,2 = la distancia gentica entre las poblaciones 1 y 2 = -ln(I1,2) =
-ln(0.9183) = 0.0852
Puesto que an no hemos explicado los mtodos de agrupacin, en el
Apndice 7 presentamos la matriz de distancia y el dendrograma de este ejemplo
(haga clic aqu).
Clculo de la distancia dentro de una

poblacin, usando microsatlites
f La distancia dentro de una poblacin es el
promedio de la suma de los cuadrados de las
diferencias en nmero de repeticiones entre
alelos
Swi =
2
2
i<i' (aii ai' i' )
2n(2n 1)
f La distancia promedio dentro de una poblacin

puede calcularse para todos los loci analizados
(ds)
Sw = (1/ds) jSwj
Donde,
aij = tamao del alelo de la i-sima copia (i = 1, 2, , 2n) en la j-sima
poblacin (j = 1, 2, , ds)
n = nmero de individuos en la muestra
Existen dos aspectos que se deben tener en cuenta:
El clculo de la distancia entre dos alelos es una transformacin del
nmero de repeticiones.
Una de las dificultades en el uso de las SSR para estimar distancias
genticas es que su tasa de mutacin es alta.
Clculo de la distancia entre poblaciones,

usando microsatlites
Este es el componente entre poblaciones para la

distancia promedio entre todas las comparaciones
de pares de alelos
SB =
2
2
(a
ij a i' j' )
j
<
j'
i
<
i'
(2n)2d s(ds 1)
La distancia global es el promedio ponderado entre el componente dentro de

poblaciones y el componente entre poblaciones.
=
S
2n - 1
2n(ds 1)
Sw +
SB
(2nds 1)
(2nds 1)
Estos coeficientes representan la probabilidad de elegir dos copias diferentes de un

locus en la misma poblacin y entre dos poblaciones.
Programas informticos tiles: MICROSAT, BIOSYS, GENEPOP, GDA y
POPGENE.
Visualizacin de las relaciones: Clasificacin

o agrupacin
Es el proceso de agrupar (o conglomerar) objetos
en categoras o clases, con base en sus
particularidades o relaciones comunes. La
agrupacin puede ser:
Jerrquica:
Esencialista, la que trata de descubrir su verdadera

naturaleza o forma
Cladstica, la que se basa en la genealoga o filogenia
Evolutiva, la que se basa en la filogenia y en la
cantidad de cambios evolutivos
Fentica, la que se basa en el mayor nmero de
caracteres de un organismo y su ciclo vital
No jerrquica
Superpuesta
Jerrquica: una clase principal que contiene clases menores denominadas

ramas.
No jerrquica: cada individuo es asignado a un grupo nico al compararlo con

las clases iniciales, de suerte que su posicionamiento sea el ms apropiado.
Superposicin: los individuos pueden pertenecer a ms de un grupo.

Los tipos de clasificacin se refieren a los procedimientos para catalogar
objetos, organismos, etc., y se utilizan en varios campos del conocimiento. En
nuestro caso, empleamos la clasificacin jerrquica debido a la naturaleza de
las relaciones entre individuos; es decir, el individuo, la poblacin, la accesin,
la variedad, etc., son unidades que no pueden ser asignadas simultnemente a
dos grupos diferentes.
Referencia
Garca, J. A., M. C. Duque, J. Tohme, S. Xu y M. Levy. 1995. SAS for Classification
Analysis; Agrobiotecnology Course, October 1995. Documento de Trabajo.
Centro Internacional de Agricultura Tropical (CIAT), Cali, Colombia.
Clasificacin fentica
f Muestra las relaciones entre las muestras
mediante el uso de un ndice de similitud
f Se selecciona un mtodo de agrupacin o
distancia, de manera que se pueda trazar un
diagrama de rbol (dendrograma) o un
fenograma (si la matriz de similitud contiene
datos fenotpicos)
1
En este ejemplo de agrupacin jerrquica, a todos los caracteres se les da la

misma importancia en el proceso de agrupacin.
La similitud total entre dos grupos es la suma de la similitud para cada carcter.
No tiene en cuenta la genealoga.
Fentico se refiere a cualquier carcter empleado en el procedimiento de
clasificacin, ya sea morfolgico, fisiolgico, ecolgico, molecular o citolgico.
Mtodos de agrupacin
f Pasos a seguir:
Se define la cercana
Se estima cada agrupacin, segn la distancia
Se conforman las ramas del dendrograma en cada
ciclo
f Los tres mtodos principales son:

Ligamiento simple (o vecino ms cercano)
Ligamiento completo (o vecino ms lejano)
Ligamiento promedio (o UPGMA)
Hay otros mtodos de agrupacin disponibles, como:

El mtodo de agrupamiento de pares no ponderados utilizando el centroide
(UPGMC). Se basa en la distancia entre el valor medio para cada grupo.
El mtodo de agrupamiento de pares ponderados utilizando el centroide
(WPGMC). Considera el valor medio de las UTO en los grupos.
Mtodo de Ward. Funciona con la suma de las distancias al cuadrado entre
pares de UTO. Tambin se conoce como el mtodo de la varianza mnima
porque, como considera los valores al cuadrado, se vuelve un mtodo muy
sensible (las UTO diferentes parecern ms dismiles y las UTO similares
parecern an ms cercanas). Puede utilizarse con distancias euclidianas y
datos moleculares si se dispone de un nmero alto de bandas de ADN.
En las siguientes diapositivas, tratamos en ms detalle los tres mtodos que se
mencionan en esta diapositiva y presentamos un ejemplo para cada uno de ellos.
Ligamiento simple
f O vecino ms cercano
f Minimiza la distancia entre grupos al tomar la
distancia al vecino con el que presenta mayor
similitud
f Funciona con grupos uniformes y compactos,
pero se afecta con los individuos distantes.
Esto resulta inconveniente cuando hay grupos
diferentes que no estn bien distribuidos en el
espacio
d(1,2)
Grupo 1
d(1,2) = distancia mnima

entre dos UTO
Grupo 2
Ligamiento simple: Un ejemplo

(1)
0.30
0.43 0.35
0.28 0.60 0.40
(3)
(2)
C
C
ADB
0.35
ADB
AD
0.35
AD
0.30
0.40
(4)
0.50 0.40 0.30 0.20
0.10
0.0
D
B
C
1. Primero, se elabora la matriz de distancia; luego, en un primer ciclo, se

selecciona la distancia ms corta, dAD = 0.28.
2. Se elabora una nueva matriz al agrupar los individuos A y D y se calculan las
distancias combinadas:
dB(AD) = min (dBA; dBD) = min (0.30; 0.60) = 0.30
dC(AD) = min (dCA; dCD) = min (0.43; 0.40) = 0.40
3. Se elabora una nueva matriz al agrupar el individuo B con el grupo (AD) y se
calculan las distancias combinadas:
dC(ADB) = min (dAC; dCD; dCB) = min (0.43; 0.40; 0.35) = 0.35
4. Se dibuja el dendrograma.
Ligamiento completo
f O vecino ms lejano
f Minimiza la distancia entre grupos al tomar la
distancia al individuo con el que presenta menor
similitud
f Funciona bien con grupos uniformes y
compactos pero, nuevamente, recibe influencia
de los individuos distantes
d(1,2)
d(1,2) = distancia mayor

entre dos UTO
Grupo 1
Grupo 2
Ligamiento completo: Un ejemplo

(1)
0.30
0.43 0.35
0.28 0.60
0.40
(2)
(3)
AC
DB
0.40
0.43
BD
0.30
0.40
BD
(4)
AC
0.60 0.50 0.40 0.30 0.20 0.10 0.0
DB
B
D
A
C
1. Primero, se elabora la matriz de distancia; luego, en un primer ciclo, se

selecciona la distancia ms larga, dBD = 0.60.
2. Se elabora una nueva matriz al agrupar los individuos B y D y se calculan las
distancias combinadas:
dA(BD) = max(dBA; dAD) = max(0.30; 0.28) = 0.30
dC(BD) = max(dCB; dCD) = max(0.35; 0.40) = 0.40
3. Se elabora la nueva matriz con los grupos AC y BD, y se calculan las distancias
combinadas:
d(AC)(DB) = max (dAD; dAB; dCD; dCB) = max (0.28; 0.30; 0.40; 0.35) = 0.40
4. Se dibuja el dendrograma.
Ligamiento promedio
f O mtodo de agrupamiento de pares no
ponderados usando la media aritmtica
(UPGMA)
f Minimiza la distancia entre grupos, al tomar la
distancia promedio de todos los pares entre los
individuos de la muestra
f Mtodo ms empleado
d(1i,2j) = distancia promedio
entre UTOi y UTOj de los
grupos 1 y 2
Grupo 1
Grupo 2
Ligamiento promedio: Un ejemplo

(1)
A
A
0.30
0.43
0.35
0.28
0.60
0.40
BC
AD
BC
AD
0.42
(2)
(3)
0.35
AD 0.45
AD
0
0.415
(4)
0.5
0.4
0.3
0.2
0.1
0.0
A
D
B
C
1. Primero, se elabora la matriz de distancia; luego, en un primer ciclo, se selecciona

la distancia ms corta, dAD = 0.28.
2. A continuacin, se elabora una matriz al agrupar el individuo A con el D y se
calculan las distancias combinadas:
dB(AD) = (dBA + dBD)/2 = (0.30 + 0.60)/2 = 0.45
dC(AD) = (dCA + dCD)/2 = (0.43 + 0.40)/2 = 0.415
3. Se elabora una nueva matriz al agrupar los individuos que tengan la distancia ms
corta, B con C, y se calculan las distancias combinadas:
d(AD) (BC) = (dAB + dAC + dBD + dBC)/4 = (0.30 + 0.43 + 0.60 + 0.35)/4 = 0.42
Seleccin de un mtodo de agrupacin

f En primer lugar, se rene informacin sobre la
especie en estudio, por ejemplo su diversidad,
su sistema de reproduccin, su nmero de
ploida y sus niveles de heterocigosidad
f Se seleccionan con cuidado los caracteres
genticos que se van a analizar
f Luego se prueban diferentes metodologas de
agrupacin y se evala el nivel de concordancia
obtenido con cada una de ellas
Adems, siempre ser importante combinar la mayor cantidad de

informacin que sea posible. En el Apndice 8 (haga clic aqu) puede
encontrar un ejemplo en que se presentan datos morfolgicos y
moleculares, y se compara el uso de series de datos separados con el uso
de datos combinados.
Validacin del anlisis de conglomerados
f Validacin externa
f Validacin interna
f Validacin relativa
f Bootstrapping (Mtodo de remuestreo)
Validacin externa:
Se compara la matriz de distancia con otra informacin que no se haya
usado en los clculos de agrupacin (por ejemplo, la genealoga).
Validacin interna:
Esta tcnica cuantifica la distorsin debida al mtodo de agrupacin
empleado. Elabora una nueva matriz de similitud o distancia, la matriz
cofentica, directamente a partir del dendrograma. Se calcula la validacin
mediante un coeficiente de correlacin entre los datos de similitud o
distancia a partir de la matriz original y los de la nueva matriz cofentica.
Al finalizar el ejercicio de agrupacin, se evala si se mantienen o no las
distancias originales (Sokal y Rohlf, 1994).
Validacin relativa:
Se compara la similitud entre mtodos.
Bootstrapping:
Es un mtodo de remuestreo con reemplazo, con la misma matriz de
datos. Permite el clculo de las desviaciones estndar y varianzas, y es
til para aquellas situaciones en las cuales el nmero de muestras o los
recursos (por ejemplo, el tiempo, el presupuesto) son limitados.
A continuacin, se presentan ejemplos de la aplicacin de los mtodos de
correlacin cofentica y bootstrapping.
Referencia
Sokal, R. y J. Rohlf. 1994. Biometry: The Principles and Practice of Statistics in
Biological Research (3rd edn). Freeman & Co, NY.
Correlacin cofentica: Un ejemplo

A
D
Dendrograma
0.30
0.43
0.35
0.28
0.60
0.40
0.60 0.50 0.40 0.30 0.20 0.10 0.0
0
A
Matriz de distancia original
Correlacin cofentica =
0.5557
0.43
0.43
0.35
0.28
0.43
0.43
C
0.43 0.35 0.28
Matriz cofentica
Para elaborar la matriz cofentica, observemos el dendrograma que se dibuj

anteriormente con la matriz original (este ejemplo corresponde a la diapositiva 58).
Vemos que la distancia entre D y C en el dendrograma es de 0.43; entonces,
llenamos esta celda en la matriz cofentica. La distancia entre B y C es de 0.35, y
as sucesivamente.
Los clculos para la correlacin cofentica se basan en el coeficiente de
correlacin:
r = (XiYi - XiYi/n)/SXiSYi
Donde,
Xi y Yi son los valores de similitud o distancia de la matriz original y de la
matriz cofentica, respectivamente.
SXi y SYi son las desviaciones estndar para cada variable.
Si el valor de la correlacin es alto, podemos concluir que el dendrograma s refleja
las distancias en la matriz original y, por tanto, no existe ninguna distorsin
originada por el mtodo de agrupacin. En el ejemplo anterior, obtuvimos un valor
de 0.5557. Este es un valor promedio que podra indicar que las distancias del
dendrograma no reflejan los datos de distancia en la matriz original y existe, por
consiguiente, distorsin a causa del mtodo empleado. No obstante, al elaborar
este ejemplo, utilizamos muy pocos datos y no eran los resultados reales de un
experimento, lo que puede explicar el valor obtenido.
Validacin mediante bootstrapping:

Un ejemplo
(1)
A
C
P1
P2
P3
P4
(2)
D
E
Gel
P1
P2
P3
P4
L1
L2
L3
L4
L5
Matriz de datos
(3)
P1
P2
P3
P1
P2
0.400
P3
0.600
0.400
P4
0.400
0.200
0.400
P4
Matriz de similitud
En el gel que aparece en la esquina superior izquierda, hay 4 individuos (Pi) y
5 loci (Lj). Vamos a suponer que realizamos la validacin en tres muestras con
reemplazo.
En primer lugar, registramos los datos de los marcadores en los individuos (matriz
de datos) y, a continuacin, calculamos la similitud promedio (concordancia simple)
y su intervalo.
Validacin mediante bootstrapping:

Un ejemplo (continuacin)
P1
Matriz de similitud promedio
con desviaciones estndar
P2
P3
P4
P1
P2
0.267 0.115
P3
0.600 0.000
0.400 0.200
P4
0.533 0.115
0.200 0.000
0.400 0.200
Dendrograma antes del reemplazo
Dendrograma con reemplazo

1
0.25
0.44
0.63
0.81
1.00
0.11
0.33
0.56
0.78
1.00
Para cada individuo, se toma el valor para cada locus, uno por uno, con reemplazo
y se elabora una muestra de igual tamao al nmero de loci. Existe la posibilidad
de que se seleccione un locus una o ms veces. Para el ejemplo:
M1: L1 L1 L2 L3 L5 (no sali el locus L4 )
M2: L1 L2 L3 L4 L3
M3: L3 L1 L5 L2 L4
En cada muestra, se calcula una matriz de similitud.
Se calculan las similitudes promedio y sus desviaciones estndar para cada par de
individuos (1 y 2, 1 y 3, 2 y 3, y as sucesivamente), y se elabora la matriz de
similitud promedio.
Se construye un nuevo dendrograma, empleando la matriz de similitud promedio.
Para situaciones reales, deben generarse ms de 100 muestras de reemplazo.
Visualizacin de las relaciones: Ordenacin

f La ordenacin es la disposicin o arreglo de
las unidades de muestra en sistemas de
coordenadas
f La finalidad de la ordenacin, al igual que los
mtodos de clasificacin, es la de interpretar
patrones en la composicin de las muestras
La ordenacin es un mtodo multivariado que complementa la agrupacin y casi

siempre se le considera como una estrategia que ms se aproxima a la realidad
biolgica.
Lo que se quiere representar con los mtodos de ordenacin son las relaciones de
las muestras de una manera sencilla, al reducir la situacin real a un espacio
dimensional bajo (Gauch, 1982). Para hacerlo, se estudia la composicin de la
muestra como un todo, se mejora la comparacin estadstica del anlisis porque,
de alguna manera, se elimina o reduce la redundancia y se puede determinar la
importancia relativa de diferentes gradientes. Sobre todo, se obtienen
representaciones grficas que nos ayudan a interpretar de manera intuitiva las
relaciones de los diferentes grupos de muestras.
La ordenacin, en principio, es una herramienta exploratoria para probar hiptesis.
En cualquier caso, los resultados obtenidos con los mtodos de ordenacin deben
contrastarse con los conocimientos disponibles de la muestra en estudio y, en la
medida de lo posible, con informacin adicional relacionada con la pregunta
biolgica objeto de la investigacin.
Referencia
Gauch, H. G., Jr. 1982. Multivariate Analysis and Community Structure.
Cambridge University Press, Reino Unido.
Mtodos tiles de ordenacin para los datos

de marcadores moleculares
f Anlisis de coordenadas principales (PCoA)
f Escalamiento multidimensional no mtrico
(NMDS)
f Anlisis de correspondencia (CA)
Existen varias tcnicas de ordenacin algunas se basan en datos de distancia o en

clculos de los denominados valores Eigen (la suma de todas las varianzas para cada
carcter, en cada componente). Sin embargo, no es conveniente usar aquellas tcnicas
que se basan en variables continuas (por ejemplo, el anlisis de componentes principales o
PCA) con datos de marcadores. En consecuencia, solamente discutiremos brevemente las
tres que aparecen enumeradas en esta diapositiva. Para entrar en ms detalle acerca de
los aspectos bsicos de estos mtodos sera necesario un buen nivel de entendimiento
matemtico respecto a los algoritmos involucrados, lo cual va ms all de lo que esperamos
del usuario promedio de este mdulo. Por tanto, animamos a nuestros lectores que deseen
saber ms acerca de estos mtodos para que hagan bsquedas sobre mtodos de
ordenacin en la Web. Para obtener un resumen, ingrese al sitio
<http://www.okstate.edu/artsci/botany/ordinate/overview.htm>
El anlisis de coordenadas principales (PCoA) pretende representar las distancias entre
muestras y puede dar cabida a matrices de diferentes medidas de disimilitud. Maximiza la
correlacin lineal entre distancias de muestras. Cuando se emplea con las distancias
euclideanas, se obtienen resultados idnticos al PCA.
El escalamiento multidimensional no mtrico (NMDS) maximiza la correlacin de orden y
pretende encontrar la mejor forma de acomodar los datos. Esta tcnica deja al descubierto
la configuracin bsica a partir de la matriz de muestras dismiles. Cuando se emplea
NMDS, slo es pertinente el patrn de puntos, no el origen, y puede rotarse la
representacin.
El anlisis de correspondencia (CA) repite los promedios de los puntajes de las muestras y
encuentra zonas donde todas las muestras que se acomodan ah son lo ms similares
posible. Al mismo tiempo, las muestras que se acomodan en zonas diferentes son lo ms
diferentes posible.
En resumen
f El anlisis de la diversidad gentica y estructura
de poblaciones comprende:
La cuantificacin de la diversidad y las relaciones
entre y dentro de poblaciones e individuos
La visualizacin de las relaciones
f Los datos moleculares se manejan

frecuentemente como datos binarios
f Es til complementar datos moleculares con
datos morfolgicos o de evaluacin agronmica;
para hacerlo, los tipos de variables pueden
transformarse en variables binarias
Hasta el momento, usted debera saber

f Los pasos bsicos para medir la diversidad gentica
f Las principales maneras de describir la diversidad
gentica dentro de una poblacin y entre
poblaciones
f La seleccin correcta del clculo de la distancia para
evaluar las relaciones en la muestra de inters
f Las diferencias entre los mtodos alternos de
agrupacin
f Las opciones disponibles para validar la agrupacin
f Las nociones bsicas que sustentan el concepto de
ordenacin
f Las similitudes y diferencias entre agrupacin y
ordenacin
Referencias
Cavalli-Sforza, L.L. y W.F. Bodmer. 1981. Gentica de las Poblaciones Humanas.
Ed. Omega, Barcelona.
Garca, J.A., M.C. Duque, J. Tohme, S. Xu y M. Levy. 1995. SAS for Classification
Analysis: Agrobiotecnology Course, October 1995. Documento de Trabajo.
Centro Internacional de Agricultura Tropical (CIAT), Cali, Colombia.
Gauch, H.G., Jr. 1982. Multivariate Analysis and Community Structure. Cambridge
University Press, Reino Unido.
Karp, A., P.G. Isaac y D.S. Ingram. 1998. Molecular Tools for Screening
Biodiversity: Plants and Animals. Chapman & Hall, Londres.
Lynch, M. y B.G. Milligan. 1994. Analysis of population genetic structure with RAPD
markers. Mol. Ecol. 3:91-99.
Sokal, R. y J. Rohlf. 1994. Biometry: The Principles and Practice of Statistics in
Biological Research (3rd edn.). Freeman & Co, NY.
A continuacin
f Programas informticos para el anlisis de la

diversidad gentica
f Glosario
Apndices
Apndice 2. Anlisis de la varianza molecular: Ejemplo 1
Apndice 3. Anlisis de la varianza molecular: Ejemplo 2
Apndice 4. Distancia geomtrica
Apndice 5. Transformacin de datos a partir de variables cuantitativas: Un
ejemplo
Apndice 6. Aplicacin del coeficiente de concordancia simple a los caracteres
morfolgicos (variables categricas)
Apndice 7. Clculo de la distancia gentica de Nei
Apndice 8. Similitudes morfolgicas y moleculares
Apndice 2 de:
Medidas de la Diversidad Gentica

Anlisis de la varianza molecular: Ejemplo 1
Este modelo, denominado tambin AMOVA, mide la diversidad gnica entre
poblaciones, en este caso particular en reas de una regin, en un continente
(situacin 3, diapositiva 26).
Tenemos: i = individuos, j = alelos, k = poblaciones
Yki(j) = Y + ak + bk(i) + wki(j)

Donde,
= un valor entre 0 y 1 para el j-simo alelo del i-simo individuo de la
k-sima poblacin
= el efecto de la k-sima poblacin, con varianza 2a
= el efecto del i-simo individuo dentro de la k-sima poblacin, con
varianza 2b
= el efecto del j-simo locus del i-simo individuo de la k-sima
poblacin, con varianza 2w
= el producto de i, j y k; es decir, el nmero total de observaciones
Yki(j)
A(k)
Bk(i)
Wki(j)
n
Fuente de variacin
gl
SC
Entre problaciones
(k 1)
Entre individuos/pobl.
k(i 1)
Dentro de individuos
2
2
ki(j 1) Xijk Xi...k /j CMw
Total
kij 1
CM
CME
X...k /ij X /ijk
CMa
w + 22b + 2n2a
Xi...k2/j ...k2/ij
CMb
2w + 22b
2w
Xijk2 X2/ijk
Estimaciones de la varianza y de estadsticos F

a = FST
2
FIT = (2a + 2b)/2
2b = (FIT FST)2
FST = 2a/2
2w = (1 FIT)2
FIS = 2b/(2b + 2w)
2 = 2w + 2b + 2a
Donde,
a
2
b
2
w
2
= el valor paramtrico de la varianza entre poblaciones que portan

alelos idnticos. Se estima por (CMa CMb)/2n.
= el valor paramtrico de la varianza entre individuos dentro de cada
poblacin. Se estima por (CMb CMw)/2.
= el valor paramtrico de la varianza dentro de individuos o la
medida de la probabilidad de que los alelos dentro de los loci sean
diferentes. Se estima por el cuadrado medio dentro de individuos
(CMW).
Apndice 3 de:

Anlisis de la varianza molecular: Ejemplo 2
Como se describe en el Apndice 2, este modelo (AMOVA) mide la diversidad
gnica entre poblaciones, esta vez con referencia especfica a las poblaciones
dentro de un rea de una regin, en un continente (situacin 4, diapositiva 26).
Tiene un nuevo nivel jerrquico (regin), con sus respectivos valores
paramtricos y estimadores de los cuadrados medios.
Tenemos: i = individuos, j = alelos, k = poblaciones, l = regiones
Ylki(j) = Y + rl + al(k) + blk(i) + wlki(j)

Donde,
Ylki(j)
rl
al(k)
blk(i)
wlki(j)
n
= un valor entre 0 y 1 para el j-simo alelo del i-simo individuo de

la k-sima poblacin, en la l-sima regin
= el efecto de la l-sima regin, con la varianza 2r
= el efecto de la k-sima poblacin con la l-sima regin, con
varianza 2a
= el efecto del i-simo individuo dentro de la k-sima poblacin en
la l-sima regin, con varianza 2b
= efecto del j-simo locus dentro del i-simo individuo de la
k-sima poblacin, de la l-sima regin, con varianza 2c
= el producto de i, j, k y l, que es el nmero total de observaciones
Fuente de variacin
gl
CM
CME
l1
CMr
2w + 22b + 2n2a + 2nl2r
Entre pobl., dentro de regiones
l(k 1)
CMa
2w + 22b + 2n2a
Entre indiv./pobl./regiones
Ik(i 1)
CMb
2w + 22b
Dentro de individuos
lki(j 1)
CMw
2w
Entre regiones
Total
Varianza total (%)
2 = 2r + 2w + 2b + 2a
Ikij 1
%2r = (2r/2) 100
%2a = (2a /2) 100
%2b = (2b /2) 100
%2w = (2w /2) 100
r es el valor paramtrico de la varianza entre regiones y se estima por

(CMA CMB)/2nl.
2
En las estimaciones de la varianza se agrega el signo % porque podemos

expresar la varianza calculada para cada fuente (regin, poblacin dentro de una
regin, individuos dentro de una poblacin) en funcin de la varianza total y,
como tal, podemos determinar cul de los componentes de la variacin es el ms
importante. Por ejemplo, si el valor de la variacin originada por las regiones fue
alto y los valores de las dems fuentes fueron bajos, podramos concluir que las
poblaciones dentro de las regiones tienen frecuencias allicas homogneas, pero
que las poblaciones procedentes de diferentes regiones difieren marcadamente
en sus frecuencias allicas.
Apndice 4 de:

Distancia geomtrica
Variables cuantitativas
La distancia geomtrica, conocida tambin como distancia taxonmica (Sokal,
1961), se mide mediante distancias euclidianas, segn la frmula que aparece a
continuacin:
dij = [k(Xik Xjk)2]1/2

Donde,
Xik = el valor de la k-sima variable del i-simo individuo
Consulte el Apndice 5 si quiere ver un ejemplo de cmo de calcula esta
distancia.
Variables mixtas
Si hay variables mixtas, primero deben ser transformadas o estandarizadas,
segn la frmula que aparece a continuacin:
Xijstand =
Xij - Xi
si
Donde,
Xij = el valor del i-simo carcter en el j-simo individuo
Xi = el promedio para el i-simo carcter
si = la desviacin estndar para el i-simo carcter
Nmero P de variables
Si hay un nmero P de variables, el valor de la distancia para que se vuelva
independiente del nmero de variables, como se muestra a continuacin:
(Xik - Xjk)
k
k
dij2 =
P
Referencia
Sokal, R. 1961. Distance as a measure of taxonomic similarity. Syst. Zool.
10(2):40-51.
Apndice 5 de:

Transformacin de datos a partir de variables
cuantitativas: Un ejemplo
Tenemos tres caracteres tomados en cuatro individuos:
Altura de la planta (m)
Peso de la semilla (g)
Dimetro del grano de polen ()
Antes de calcular las distancias, primero debemos estandarizar los datos
mediante la siguiente frmula:
Mestand = m -m/
Despus de la estandarizacin, se pierden las unidades de medida.
m
Mestand
gestand
estand
Individuo 1
1.50
0.35
0.02
0.00
80.00
-0.15
Individuo 2
1.20
-1.41
0.03
1.00
70.00
-1.32
Individuo 3
1.45
0.06
0.01
-1.00
90.00
1.02
Individuo 4
1.60
0.94
0.02
0.00
85.00
0.44
Promedio (Xi)
1.44
0.02
81.25
Desviacin (si)
0.17
0.01
8.54
Ahora se pueden calcular las distancias para cualquier par de individuos,

aplicando la frmula que ya conocemos:
dij = [(Xij Xkj)2]1/2
d12 = [(0.35 (-1.41))2 + (0.0 1.0)2 + (-0.15 (-1.32))2]1/2 = 2.34
2
2 1/2
d13 = [(0.35 0.06) + (0.0 (-1.0)) + (-0.15 1.02) ] = 1.57

2
2 1/2
d14 = [(0.35 0.94) + (0.0 0.0) + (-0.15 0.44) ] = 0.83

2
2 1/2
d23 = [(-1.41 0.06) + (1.0 (-1.0)) + (-1.32 1.02) ] = 3.41
d11 = 0
d22 = 0
d33 = 0
d44 = 0
d24 = [(-1.41 0.94)2 + (1.0 0.0)2 + (-1.32 0.44)2]1/2 = 3.10

d34 = [(0.06 0.94)2 + (-1.0 0.0)2 + (1.02 0.44)2]1/2 = 1.45
Despus de obtener las distancias dos a dos, procedemos a encontrar los grupos
utilizando el mtodo UPGMA (para ms detalles, ver diapositivas 58 y 59 del
mdulo).
En primer lugar, organizamos en un cuadro simtrico nuestros valores de

distancia calculados:
I1
I2
I3
I1
I2
2.34
I3
1.57
3.41
I4
0.83
3.10
1.45
I4
En el primer ciclo, escogemos la distancia ms corta. En nuestro caso es

d1,4 = 0.83. Despus se puede elaborar una nueva matriz agrupando el Individuo1
con el Individuo4 y calculando las distancias combinadas:
d2(1,4) = (d1,2 + d2,4)/2 = (2.34 + 3.10)/2 = 2.72
d3(1,4) = (d1,3 + d3,4)/2 = (1.57 + 1.45)/2 = 1.51
I2
I1,4
I1,4
I2
2.72
I3
1.51
3.41
I3
Observamos ahora que la distancia ms corta est entre I1,4 y I3. En un nuevo
ciclo, se elabora una nueva matriz, agrupando el Individuo2 con el grupo I(1,4)3 y
calculando la distancia combinada d((1,4)3)2 = 3.07.
I1,4(3)
I1,4(3)
I2
3.07
I2
Con base en los resultados que aparecen arriba, podemos proceder a trazar el
dendrograma, relacionando los cuatro individuos del ejemplo:
3.00
2.00
1.50
1.00
0.0
Apndice 6 de:

Aplicacin del coeficiente de concordancia simple a
los caracteres morfolgicos (variables categricas)
Tenemos tres caracteres:
Pubescencia foliar: escasa (1), comn (2), abundante (3)
Color de los ptalos: blanco (1), amarillo (2), rojo (3)
Longitud del pecolo: corto (1), intermedio (2), largo (3)
En primer lugar, convertimos los datos de las medidas en datos binarios. Obsrvese
que los tres caracteres originales se convierten en 9 caracteres binarios. Esta
operacin podra darle demasiada importancia a estos caracteres, en detrimento de
otros que se empleen en el anlisis.
Carcter 1
Carcter 2
Carcter 3
UTO 1
UTO 2
UTO 3
UTO 4
Carcter 1
(cdigo binario)
Carcter 2
(cdigo binario)
Carcter 3
(cdigo binario)
Escaso Comn Abundante Blanco Amarillo Rojo Corto Intermedio Largo

UTO 1
UTO 2
UTO 3
UTO 4
Luego, aplicamos el coeficiente de concordancia simple para calcular las distancias

dos a dos entre individuos:
Comparaciones dos a dos para todos los caracteres
UTO 1 vs. 2
UTO 1 vs. 3
UTO 1 vs. 4
a=1
b=2
a=0
b=3
a=0
b=3
c=2
d=4
c=3
d=3
c=3
d=3
UTO 2 vs. 3
UTO 2 vs. 4
UTO 3 vs. 4
a=0
b=3
a=1
b=2
a=1
b=2
c=3
d=3
c=2
d=4
c=2
d=4
Ahora, podemos proceder con el mtodo para encontrar los grupos y dibujar el
fenograma correspondiente:
O1
O2
O3
O1
O2
0.56
O3
0.33
0.33
O4
0.33
0.56
0.56
O4
Fenograma
1
0.25
0.44
0.63
Coeficiente
0.81
1.00
Apndice 7 de:

En primer lugar, elaboramos la matriz de distancia con los datos obtenidos en el
ejemplo (ver diapositiva 48), de la siguiente manera:
P1
P2
P3
P1
P2
0.0852
P3
0.0107
0.0440
En el primer ciclo, escogemos la distancia ms corta: d1,3 = 0.0107.

En el segundo ciclo, se elabora una nueva matriz agrupando el Individuo1 con el
Individuo4 y calculando las distancias combinadas:
d2(1,3) = (d1,2 + d2,3)/2 = (0.0852 + 0.044)/2 = 0.0646
P1,3
P1,3
P2
0.0646
P2
Ahora podemos dibujar el dendrograma:

0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.0
1
3
2
Apndice 8 de:

Similitudes morfolgicas y moleculares
Individuo2
Individuo1
ADN
3
7
9
11
1 2
10
12
3
7
9
11
Individuo3
7+8
10
12
3+4
9 + 10
11
Digamos que tenemos tres rosas individuales (1, 2, 3). Morfolgicamente, los
nmeros 2 y 3 se parecen, en tanto que el nmero 1 se ve diferente.
Si observamos los fragmentos de ADN, generados supuestamente con un
marcador molecular, vemos que los individuos 2 y 3 parecen ser ms similares.
Entonces, qu sucedi? Esto apunta a la importancia de estudiar la diversidad
gentica en todos los niveles posibles. La combinacin de informacin
procedente de diferentes tipos de marcadores es decir, los de los genes
funcionales y aquellos que muestran polimorfismo en regiones genmicas
proveer la mejor aproximacin posible al conocimiento sobre la variacin
gentica presente. Se aplicara el mismo principio si pudiramos combinar datos
morfolgicos y moleculares.
En este Apndice sealamos el tipo de errores en que podemos incurrir si las
conclusiones se basan solamente en un tipo de datos de marcadores.
12
Indiv. 1
Indiv. 2
b=1
c=2
d=3
Indiv. 1
21
c=3
d=2
Indiv. 2
b=8
c=4
d=0
12
11
10
b=6
a=5
7+8
a=6
Indiv. 3
9+10
Ind. 1 Ind. 2 Ind. 3
a = 11
Indiv. 3
J1,2 =
3+4
22
11
6
5
= 0.786 J1, 3 =
= 0.400 J2, 3 =
= 0.294
11 + 1 + 2
6+6+3
5+8+4
Con base en el perfil de bandas de ADN obtenido en el gel para los tres
individuos, se calculan las distancias dos a dos, utilizando el coeficiente de
Jaccard:
J =
a
a + b + c
Luego, elaboramos la matriz de distancia y dibujamos el dendrograma:
0.400
0.294
Ind12
Ind12
0.786
Ind3
Ind3
Ind1
Ind2
Ind2
Ind3
Ind1
0.347
1,2, =
=
S1,2,3
S
3
Ind3
,3
1,3++S
S
S1,3
S22,3
==0.34
0.347
2
2
0.0
Dendrograma
molecular
0.2
0.4
0.6
0.8
1.0
Ind1
Ind2
Ind3
Este dendrograma se obtuvo a partir de los datos moleculares. Ahora, podemos

compararlo con otro dendrograma que aparece a continuacin, que fue obtenido
a partir de observaciones morfolgicas, y ver cmo difieren entre s. Segn el
dendrograma molecular, los individuos 1 y 2 se encuentran ms cercanos entre
s, aun cuando los datos morfolgicos indican que los Individuos 2 y 3 son ms
cercanos.
Dendrograma
morfolgico
0.0
1.0
IInd
Ind11
Ind2
Ind3
Podemos tambin usar una combinacin de datos moleculares y morfolgicos,

volviendo a realizar el proceso con ambos datos simultneamente.
9
Indiv. 1
Indiv. 2
Indiv. 1
a = 11
b=2
c=2
d=3
Indiv. 3
Indiv. 2
a=6
b=7
c=3
d=2
Indiv. 3
a=6
b=8
c=4
d=0
Ind.1
Ind.2
Ind.3
9+10
7+8
12
11
10
2
21
3+4
1
22
11
6
6
= 0.733 J1,3 =
= 0.375 J2,3 =
= 0.333
11 + 2 + 2
6+7+3
6 +8+ 4
Ind1
Ind1
Ind2
1
0.733
0.375
Ind2
Ind3
Ind3
1
0.333
Ind3 Ind12
J1,2 =
Ind12
1
0.554
S(1,2)3 =
0.0
0.2
0.4
0.6
0.8
Ind3
S1,3 + S2,3
= 0.554
2
1.0
Ind2
Ind3
Ind1
El dendrograma combinado
indica distancias de agrupacin
que difieren del dendrograma
molecular y del dendrograma
morfolgico, considerados por
separado. En consecuencia,
podemos asumir que la
informacin provista al combinar
los datos est ms cerca de la
realidad de la situacin.
Apndice 9 de:
Programas Informticos para el Anlisis de

la Diversidad Gentica
Referencias a los programas informticos
Arlequin
Schneider, S., D. Roessli y L. Excoffier. 2000. Arlequin: A Software for Population
Genetics Data Analysis, Versin 2.000. Laboratorio de Gentica y Biometra,
Dept. de Antropologa, Universidad de Ginebra, Suiza.
CLUSTAL W
Thompson, J.D., D.G. Higgins y T.J. Gibson. 1994. CLUSTAL W: improving the
sensitivity of progressive multiple sequence alignment through sequence
weighting, position-specific gap penalties and weight matrix choice. Nucleic
Acids Res. 22:4673-4680.
DnaSP
Rozas, J. y R. Rozas. 1995. DnaSP, DNA sequence polymorphism: an interactive
program for estimating population genetics parameters from DNA sequence
data. Comput. Appl. Biosci. 11:621-625.
GDA
Lewis, P.O. y D. Zaykin. 1999. Genetic Data Analysis: Computer Program for the
Analysis of Allelic Data, Versin 1.0 (d12). Distribuido por los autores.
GENEPOP
Raymond, M. y F. Rousset. 1995. GENEPOP (versin 1.2): Population genetics
software for exact tests and ecumenicism. J. Hered. 86:248-249.
GeneStrut
Constantine, C.C., R.P. Hobbs y A.J. Lymbery. 1994. FORTRAN programs for
analysing population structure from multilocus genotype data. J. Hered.
85:336-337.
MacClade
Maddison, D.R. y W.P. Maddison. 2000. MacClade. Versin 4. Sinauer
Associates, Sunderland, MA.
MALIGN
Janies, D. y W.C. Wheeler. 1998. MALIGN.pdf: Documentation for MALIGN,
software for multiple alignments of DNA sequences. Distribuido por los
autores en la Internet en <ftp://ftp.amnh.org/pub/molecular/malign/>.
MEGA2
Kumar, S., K. Tamura, I.B. Jakobsen y M. Nei. 2001. MEGA2: Molecular
Evolutionary Genetics Analysis software. Bioinformatics 17(12):1244-1245.
NTSYSpc
Rohlf, F.J. 2002. NTSYS pc: Numerical Taxonomy System, Version 2.1. Exeter
Publishing, Setauket, NY.
PAUP*
Swofford, D.L. 2002. PAUP*: Phylogenetic Analysis Using Parsimony (*and Other
Methods), Versin 4. Sinauer Associates, Sunderland, MA.
PHYLIP
Felsenstein, J. 1993. PHYLIP (Phylogeny Inference Package), Versin 3.5c.
Distribuido por el autor.
POPGENE
Yeh, F.C., R.C. Yang, T.B.J. Boyle, Z.H. Ye y J.X. Mao. 1997. POPGENE, the
User-Friendly Shareware for Population Genetic Analysis. Centro de Biologa
Molecular y Biotecnologa, Universidad de Alberta, Canad.
PowerMarker
Liu, J. 2003. PowerMarker: New Genetic Data Analysis Software, Versin 1.0.
Programa distribuido por el autor en forma gratuita en la Internet en
<http://www.powermarker.net>
SITES
Hey, J y J. Wakeley. 1997. A coalescent estimator of the population
recombination rate. Genetics 145:833-846.
structure
Pritchard, J.K., M. Stephens y P. Donnelly. 2000. Inference of population
structure using multilocus genotype data. Genetics 155:945-959.
TFPGA
Miller, M.P. 1997. Tools for Population Genetic Analysis (TFPGA), 1.3: A
Windows Program for the Analysis of Allozyme and Molecular Population
Genetic Data. Distribuido por el autor.

Medida de La Diversidad Genetica

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Medida de La Diversidad Genetica

Hochgeladen von

Copyright:

Verfügbare Formate

Anlisis de la diversidad gentica

utilizando datos de marcadores moleculares:

f Cuantificacin de las relaciones genticas:

Diversidad y diferenciacin a nivel de nucletido

f Visualizacin de las relaciones:

Derechos de Autor: IPGRI y Cornell University, 2004

Anlisis bsico de la diversidad gentica

2. Evaluacin de las relaciones

3. Expresin de las relaciones

La mayora de los anlisis de diversidad gentica en los que podramos estar

La descripcin de la diversidad. Esto se puede hacer dentro de una

El clculo de las relaciones entre las unidades analizadas en el paso uno.

La expresin de estas relaciones con cualquier mtodo de ordenacin y/o

f Cuantitativas. Son numricas y pueden ser

Continuas, cuando toman un valor dentro de un

Ejemplos de variables cualitativas:

Cuantificacin de la diversidad gentica: Medida

Polimorfismo o tasa de polimorfismo (Pj)

f Con base en la frecuencia de variantes

Derechos de Autor: IPGRI y Cornell University, 2004

Polimorfismo o tasa de polimorfismo (Pj)

Un gen se define como polimrfico si la frecuencia

Derechos de Autor: IPGRI y Cornell University, 2004

Proporcin de loci polimrficos

Es el nmero de loci polimrficos dividido por el

Derechos de Autor: IPGRI y Cornell University, 2004

Abundancia de variantes allicas (A)

f Se refiere al nmero de variantes en una

Derechos de Autor: IPGRI y Cornell University, 2004

Es sensible al tamao de la muestra.

Aunque la distribucin de alelos no afecta, el nmero mximo de alelos s es

La medida solamente puede aplicarse con marcadores codominantes.

Nmero promedio de alelos por locus

Es la suma de todos los alelos detectados en todos

Derechos de Autor: IPGRI y Cornell University, 2004

Nmero efectivo de alelos (Ae)

Es el nmero de alelos que pueden estar presentes

Derechos de Autor: IPGRI y Cornell University, 2004

Clculo de Ae: Un ejemplo

Frecuencia del alelo 1

Frecuencia del alelo 2

Frecuencia del alelo 3

Nmero efectivo de alelos

Frecuencia del alelo 4

Derechos de Autor: IPGRI y Cornell University, 2004

El cuadro que aparece en esta diapositiva presenta un ejemplo de cmo calcular el

Heterocigosidad promedio esperada (He)

Un locus j con i alelos:

Promedio para varios loci:

f La He promedio de todos los loci es una

Clculo de la diversidad con un marcador

1,0 0,1 0,1 1,1 0,1 0,1 0,1

0,1 1,1 0,1 1,0 1,0 1,0 1,1

1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0

1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0

1,0 1,0 1,0 1,0 1,1 1,1 0,1 0,1

Derechos de Autor: IPGRI y Cornell University, 2004

Clculo de la diversidad con un marcador

Frecuencia genotpica (esp.)

Frecuencia genotpica (esp.)

Frecuencia genotpica (obs.)

Derechos de Autor: IPGRI y Cornell University, 2004

1. En primer lugar, observamos que los loci A, B y E son polimrficos porque

Clculo de la diversidad con un marcador