Sie sind auf Seite 1von 86

Anlisis de la diversidad gentica

utilizando datos de marcadores moleculares:


Mdulo de aprendizaje

Medidas de la diversidad
gentica
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 1

Contenido
f Anlisis bsico de la diversidad gentica
f Tipos de variables
f Cuantificacin de la diversidad gentica:
Medidas de la diversidad gentica dentro de una
poblacin
Medidas de la diversidad gentica entre
poblaciones

f Cuantificacin de las relaciones genticas:

Diversidad y diferenciacin a nivel de nucletido


Distancia gentica

f Visualizacin de las relaciones:


Clasificacin o agrupacin
Ordenacin

f Apndices

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 2

Anlisis bsico de la diversidad gentica


1. Descripcin de la variacin
dentro de poblaciones,
regiones, etc. y entre ellas

m
D a
a r
t c
o a
s d
o
d r
e e
s

1
1
0
1
0
1
1

0
0
1
0
0
1
0

Individuos
1
1
0
0
0
1
1
0
1
0
0
1
1
1
0
1
0
0
1
0
1

2. Evaluacin de las relaciones


entre individuos, poblaciones,
regiones, etc.
01

1
1
0
1
0
0
1

02

03

04

05

01

02

0.56

03

0.33

0.33

04

0.47

0.26

0.50

05

0.32

0.43

0.37

0.28

06

0.33

0.56

0.56

0.37

0.46

06

Ind5

3. Expresin de las relaciones


entre los resultados obtenidos
con diferentes tipos de
caracteres
Derechos de Autor: IPGRI y Cornell University, 2004

Ind3
Ind6
Ind4
Ind2
Ind1

Medidas de diversidad 3

La mayora de los anlisis de diversidad gentica en los que podramos estar


interesados incluira los siguientes pasos:
1.

La descripcin de la diversidad. Esto se puede hacer dentro de una


poblacin o entre poblaciones. Tambin puede extenderse a unidades
ms grandes como zonas y regiones.

2.

El clculo de las relaciones entre las unidades analizadas en el paso uno.


Esto implica el clculo de las distancias (geomtrica o gentica) entre
todos los pares de clases analizadas en el estudio.

3.

La expresin de estas relaciones con cualquier mtodo de ordenacin y/o


clasificacin disponible. Algunos de estos mtodos permitirn comparar
los resultados de nuestro estudio molecular con otros tipos de datos (por
ejemplo, geogrficos). En la diapositiva, los Ind1, Ind2, pueden
representar poblaciones o regiones, en vez de individuos.

Tipos of variables
f Cualitativas. Se refieren a caracteres o
cualidades, y son binarias o categricas:
Binarias, cuando reciben solamente dos valores:
presente (1) o ausente (0)
Categricas, cuando reciben un valor entre varias
posibilidades y pueden ser ordinales o nominales:
Ordinales: categoras que tienen un orden
Nominales: categoras que no tienen relacin
entre s

f Cuantitativas. Son numricas y pueden ser


continuas o discretas:

Continuas, cuando toman un valor dentro de un


rango dado
Discretas, cuando toman nmeros enteros o
decimales
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 4

Ejemplos de variables cualitativas:


Binarias: p. ej., pubescencia foliar: presente (1), ausente (0)
Categricas:
Ordinales: p. ej., pubescencia caulinar: escaso (1), comn (2),
abundante (3), o
longitud del pecolo: corto (1), intermedio (2), largo (3)
Nominales: p. ej., color de los ptalos: amarillo (1), rojo (2), blanco (3),
prpura (4)
Ejemplos de variables cuantitativas:
Continuas: p. ej., peso de la raz (g); longitud de la hoja (cm)
Discretas: p. ej., nmero de estambres: 2, 3, 4,
nmero de frutos: 1, 2, 3,
Las variables categricas pueden convertirse en variables binarias; sin embargo, existen
algunas limitaciones puesto que, como veremos, algunos coeficientes de similitud le dan
mayor importancia a la categora de algn carcter determinado, lo que puede generar un
sesgo en contra de otros caracteres que se estn evaluando. Es decir, cuntas ms
categoras tenga una variable, ms importancia tendr cuando se combine con otras
variables binarias o categricas que tengan pocas categoras.
A continuacin presentamos un ejemplo de conversin de una variable categrica en una
binaria:
Longitud del pecolo: corto (1), intermedio (2), largo (3)
Corto: presente (1), ausente (0)
Intermedio: presente (1), ausente (0)
Largo: presente (1), ausente (0)
Las variables cuantitativas tambin se pueden convertir en variables binarias, p.e.:
De 0 a 3 frutos: presente (1), ausente (0)
De 4 a 7 frutos: presente (1), ausente (0), ...

Cuantificacin de la diversidad gentica: Medida


de la diversidad gentica intrapoblacional
f Con base en el nmero de variantes

Polimorfismo o tasa de polimorfismo (Pj)


Proporcin de loci polimrficos
Abundancia de variantes allicas (A)
Nmero promedio de alelos por locus

f Con base en la frecuencia de variantes


Nmero efectivo de alelos (Ae)
Heterocigosidad esperada (He; diversidad gentica
de Nei)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 5

Polimorfismo o tasa de polimorfismo (Pj)

Un gen se define como polimrfico si la frecuencia


de uno de sus alelos es menor o igual a 0.95
0.99
Pj = q 0.95

Pj = q 0.99

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 6

Donde,
Pj = tasa de polimorfismo
q = frecuencia allica
Esta medida proporciona el criterio para determinar si un gen presenta
variacin.
Su clculo se hace por observacin directa respecto a si se cumple la
definicin o no se cumple.
La medida puede usarse con marcadores codominantes y, de manera muy
restrictiva, con marcadores dominantes, debido a que la estimacin basada
en los marcadores dominantes presentara una tendencia al sesgo inferior al
nmero real.
Por lo general, un gen polimrfico es aquel para el cual el alelo ms comn tiene
una frecuencia de menos de 0.95. Los alelos raros o poco comunes se definen
como aquellos cuyas frecuencias son menores a 0.005. El lmite de la frecuencia
allica, que se fija en 0.95 ( 0.99) es arbitrario, y su objetivo es ayudar a
identificar aquellos genes en los cuales es comn la variacin allica.
Referencia
Cavalli-Sforza, L. L. y W. F. Bodmer. 1981. Gentica de las Poblaciones
Humanas. Ed. Omega, Barcelona.

Proporcin de loci polimrficos

Es el nmero de loci polimrficos dividido por el


nmero total de loci (polimrficos y monomrficos),
es decir:

P = npj/ntotal

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 7

Donde,
P = la proporcin de loci polimrficos
npj = el nmero de loci polimrficos
ntotal = el nmero total de loci
Expresa el porcentaje de loci variables en una poblacin.
Su clculo se basa en el conteo directo de los loci polimrficos y totales.
Puede usarse con marcadores codominantes y, de manera muy restrictiva,
con marcadores dominantes (ver la diapositiva anterior para la explicacin).

Abundancia de variantes allicas (A)

f Se refiere al nmero de variantes en una


muestra
f La medida de la diversidad es (A - 1) variantes
porque, dentro de una poblacin monomrfica,
el grado de diversidad es cero (A - 1 = 0)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 8

Para un gen dado en una muestra, esta medida indica cuntas variantes allicas
pueden encontrarse.

Es sensible al tamao de la muestra.

Aunque la distribucin de alelos no afecta, el nmero mximo de alelos s es


importante.

La medida solamente puede aplicarse con marcadores codominantes.

Nmero promedio de alelos por locus

Es la suma de todos los alelos detectados en todos


los loci, dividido por el nmero total de loci
K

n = (1/K ) ni
i =1

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 9

Donde,
K = el nmero de loci
ni = el nmero de alelos detectados por locus
Esta medida brinda informacin complementaria a la informacin sobre
polimorfismo.
Requiere nicamente el conteo del nmero de alelos por locus y luego, el
clculo del promedio.
Se aplica mejor a marcadores codominantes, dado que los dominantes no
permiten la deteccin de todos los alelos.

Nmero efectivo de alelos (Ae)

Es el nmero de alelos que pueden estar presentes


en una poblacin
Ae = 1/(1 h) = 1/pi2

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 10

Donde,
pi = frecuencia del i-simo alelo en un locus
h = 1 pi2 = heterocigosidad en un locus
Indica el nmero de alelos que se esperara en un locus, en cada
poblacin.
Se calcula invirtiendo la medida de la homocigosidad en un locus.
Puede utilizarse con datos de marcadores codominantes.
Su clculo puede verse afectado por el tamao de la muestra.
Esta medida de diversidad puede proporcionar informacin til para
establecer estrategias de colecta. Por ejemplo, estimamos el nmero
efectivo de alelos en una muestra. Luego, la comprobamos en una
muestra diferente o en toda la coleccin. Si la cifra obtenida la segunda
vez es menor que la primera, esto podra significar que nuestra estrategia
de colecta necesita revisin.

Clculo de Ae: Un ejemplo


Loci (A, B, C)

Poblacin 1

Poblacin 2

Individuo 1

A1 A1

B1 B1

C1 C1

A1 A1

B1 B3

C1 C1

Individuo 2

A1 A2

B1 B2

C2 C2

A1 A1

B2 B3

C1 C1

Individuo 3

A1 A1

B1 B1

C1 C3

A2 A2

B1 B4

C1 C1

Individuo 4

A1 A3

B1 B3

C2 C3

A2 A2

B1 B1

C1 C1

Individuo 5

A3 A3

B3 B3

C3 C3

A1 A2

B4 B4

C1 C1

Frecuencia del alelo 1

0.60

0.60

0.30

0.50

0.40

1.00

Frecuencia del alelo 2

0.10

0.10

0.30

0.50

0.10

0.00

Frecuencia del alelo 3

0.30

0.30

0.40

0.20

0.00

Nmero de alelos

0.30

Heterocigosidad (h)

0.54

0.54

0.66

0.50

0.70

0.00

Nmero efectivo de alelos

2.17

2.17

2.94

2.00

3.33

1.00

Frecuencia del alelo 4

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 11

El cuadro que aparece en esta diapositiva presenta un ejemplo de cmo calcular el


nmero efectivo de alelos. Cada una de las dos poblaciones tiene 5 individuos.
Para cada individuo, se analizan 3 loci, cada uno con un nmero diferente de
alelos, dependiendo de la poblacin (el locus A tiene 3 alelos en la poblacin 1 y
slo 2 alelos en la poblacin 2, y as sucesivamente). Primero se calculan las
frecuencias allicas para cada locus y para cada poblacin. Luego se calcula la
heterocigosidad en cada locus y, por ltimo, el nmero efectivo de alelos, Ae, de
acuerdo con la frmula que aparece en la diapositiva anterior.

Heterocigosidad promedio esperada (He)


(diversidad gentica de Nei [D])
f Es la probabilidad de que, en un locus nico,
cualquier par de alelos, escogidos al azar de la
poblacin, sean diferentes entre s
f Tres clculos son posibles:
Un locus con dos alelos:

h j = 1 p 2 q2

Un locus j con i alelos:

hj = 1 pi2

Promedio para varios loci:

H = jLhj/L

f La He promedio de todos los loci es una


estimacin del grado de variabilidad gentica en
la poblacin
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 12

Donde,
hj = la heterocigosidad por locus
p y q = las frecuencias allicas
H = la heterocigosidad promedio para varios loci
L = el nmero total de loci
La heterocigosidad promedio esperada se calcula al restar de 1 las
frecuencias esperadas de homocigotos en un locus. La operacin se repite
para todos los loci y luego se saca el promedio.
Puede aplicarse con todos los marcadores, ya sean codominantes o
dominantes.
El valor calculado puede verse afectado por aquellos alelos presentes en
frecuencias mayores.
Vara de 0 a 1.
Se maximiza cuando hay muchos alelos cuyas frecuencias son iguales.
Debe analizarse un mnimo de 30 loci en 20 individuos por poblacin, para
reducir el riesgo de sesgo estadstico.

Clculo de la diversidad con un marcador


molecular codominante
Individuos
M

10

11 12

13 14

15 16

17

10

11 12 13 14

15 16

17 18

18

19 20

21

22

23 24

19

21

22

23

25 26

27

28

29

30

27 28 29

30

Gel
Locus A
Locus B
Locus C
Locus D
Locus E

Lectura
de datos
Locus A
Locus B
Locus C
Locus D
Locus E

20

24

25 26

1,1 0,1 1,1 0,1 0,1 0,1 0,1 0,1 0,1 1,0 0,1 0,1 0,1 0,1 0,1 1,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1

1,0 0,1 0,1 1,1 0,1 0,1 0,1

0,1 0,1 0,1 0,1 0,1 1,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 1,0 1,0 1,0 0,1 0,1 0,1 0,1 0,1 0,1 1,0

0,1 1,1 0,1 1,0 1,0 1,0 1,1

1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0

1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0

1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0

1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0

0,1 1,1 0,1 1,1 0,1 1,0 1,1 1,0 1,1 1,1 1,1 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 0,1 0,1 1,0

1,0 1,0 1,0 1,0 1,1 1,1 0,1 0,1

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 13

(contina en la siguiente)
En la mitad superior de esta diapositiva aparece un dibujo de un gel con un
marcador de tamao a la izquierda (M) y 30 individuos analizados con un marcador
codominante, que detect cinco loci (A, B, C, D y E). De estos loci, solamente tres
son polimrficos (A, B y E).
En la mitad inferior de la diapositiva aparecen los resultados de la lectura de
bandas, por individuo y por locus. Obsrvese que, para facilitar la presentacin, no
se ilustraron ms de dos alelos por locus. Aunque las bandas que pertenecen a los
loci C y D fueron registradas como (1,0) para todos los individuos, la lectura no
hubiera sido necesaria puesto que las bandas no dieron informacin de diversidad.
Los clculos se presentan en la siguiente diapositiva.

Clculo de la diversidad con un marcador


molecular codominante (continuacin)
Locus

Frecuencia
allica

Anlisis de datos

Hi

Total

A1 A1

A1 A2

A2 A2

Frecuencia genotpica (esp.)

p2

2pq

q2

Individuos (no.)

24

30

P11 = 0.07

P12 = 0.13

P22 = 0.80

B1 B1

B1 B2

B2 B2

Total

Frecuencia genotpica (esp.)

p2

2pq

q2

Individuos (no.)

20

30

P11 = 0.23

P12 = 0.10

P22 = 0.67

E1 E1

E1 E2

E2 E2

Total

p2

2pq

q2

Genotipos

hj =
(1 - p2 - q2)

0.13

0.87

0.28

0.72

0.63

0.37

A
Frecuencia genotpica (obs.)
Genotipos
B

Frecuencia genotpica (obs.)


Genotipos
Frecuencia genotpica (esp.)

0.23

0.41

E
Individuos (no.)
Frecuencia genotpica (obs.)

15

30

P11 = 0.50

P12 = 0.27

P22 = 0.23

Derechos de Autor: IPGRI y Cornell University, 2004

0.46

0.22

Medidas de diversidad 14

1. En primer lugar, observamos que los loci A, B y E son polimrficos porque


satisfacen el requisito de tener frecuencias allicas por debajo de 0.99. Los loci
C y D son monomrficos (esp. = valor esperado; obs. = valor observado).
2. La proporcin de loci polimrficos es de P = (3/5) = 0.6 60%. Es decir, el
nmero de loci polimrficos se divide por el nmero total de loci analizados.
3. Para calcular la heterocigosidad promedio (Ho), se procede de la siguiente
manera:
a. Contamos el nmero de loci, del total, que son heterocigotos. Por
ejemplo, el Individuo1 tiene un locus heterocigoto (A), el Individuo2
tambin (E); el Individuo27 tiene 2 loci heterocigotos (A y E), ... .
En total, 16 individuos fueron monomrficos (es decir, tenan
nicamente una banda en cada uno de los cinco loci), 13 individuos
tenan 1 locus heterocigtico y 1 individuo tena 2 loci heterocigticos.
b. Calculamos la heterocigosidad promedio observada, de la siguiente
manera:
Ho = [16(0/5) + 13(1/5) + 1(2/5)]/(30) = 0.1
4. La diversidad gnica dentro de un locus (hj) se calcula para cada locus, de
acuerdo con la frmula que aparece en la fila superior del cuadro, lo que nos da
los siguientes resultados: locus A = 0.23, locus B = 0.41 y locus E = 0.46.
5. La diversidad gnica promedio esperada (Hi) se calcula a partir de la frmula
que aparece en la diapositiva nmero 12:
Hi = (0.23 + 0.41 + 0.46)/5 = 0.22

Clculo de la diversidad con un marcador


molecular dominante
Individuos
M

10

11 12

13 14

15 16

17

18

19 20

21

22

23 24

25 26

27

28

29

30

25 26

27 28 29

30

Locus A
Locus B
Locus C
Locus D
Locus E

Lectura
de datos
Locus A
Locus B
Locus C
Locus D
Locus E

10

11 12 13

14 15

16

17 18

19 20

21

22

23

24

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 15

(contina en la siguiente)
En la mitad superior de esta diapositiva aparece un dibujo de un gel (marcador de
tamao a la izquierda, M) con 30 individuos analizados con un marcador
dominante. Se identifican cinco loci (A, B, C, D y E), de los cuales tres estn
segregando (A, B y E), en tanto que los otros dos, C y D, son monomrficos.
En la mitad inferior de la diapositiva estn los resultados de la lectura de bandas,
por individuo y por locus. Como se trata de un marcador dominante, a las bandas
presentes se les asigna un 1 y a las ausentes un 0. La lectura de las bandas para
los loci C y D puede omitirse o bien atribuirles un 1 a todos, como aparece en la
diapositiva.
Los clculos figuran en la siguiente diapositiva.

Clculo de la diversidad con un marcador


molecular dominante (continuacin)
Locus

Frecuencia
allica

Anlisis de datos
Genotipos

Aa

Frecuencia genotpica (esp.)

p2

Aa

aa

Total

2pq

q2

24

30

0.11

0.89

0.18

0.82

0.52

0.48

hj =
(1 - p2 q2)

Hi

A
Individuos (no.)
Frecuencia genotpica (obs.)

P2 = 0.80

Genotipos

BB

Bb

bb

Total

Frecuencia genotpica (esp.)

p2

2pq

q2

P1 = 0.20

10

20

30

P1 = 0.33

P2 = 0.67

Individuos (no.)
Frecuencia genotpica (obs.)

Genotipos

EE

Ee

ee

Total

Frecuencia genotpica (esp.)

p2

2pq

q2

23

30

P1 = 0.77

P2 = 0.23

Individuos (no.)
Frecuencia genotpica (obs.)

Derechos de Autor: IPGRI y Cornell University, 2004

0.19

0.30

0.50

0.198

Medidas de diversidad 16

1. En primer lugar, tomamos en consideracin el polimorfismo mostrado por todos


los loci. Los loci A, B y E satisfacen el requisito de tener frecuencias allicas
por debajo de 0.99 y, como tales, se puede decir que son polimrficos. Los loci
C y D son monomrficos (esp. = valor esperado;
obs. = valor observado).
2. La proporcin de loci polimrficos (P) es de P = (3/5) = 0.6 60%. No se
puede estimar la heterocigosidad promedio (He) porque los marcadores
dominantes no permiten discriminar entre individuos heterocigotos y
homocigotos.
3. A pesar de lo anterior (2), se puede calcular la diversidad gnica dentro de un
locus (hj) para cada locus, utilizando la frmula que aparece en la fila superior
del cuadro, columna 4, del siguiente modo: locus A = 0.19;
locus B = 0.30; y locus E = 0.50.
4. La diversidad gnica promedio (Hi) se calcula a partir de la frmula que
aparece en la diapositiva nmero 12:
Hi = (0.19 + 0.30 + 0.50)/5 = 0.198

Cuantificacin de la diversidad gentica: Medida


de la diversidad gentica entre poblaciones
f Diferenciacin entre poblaciones respecto a un
locus (gST)
f Diferenciacin entre poblaciones respecto a
varios loci (GST)
f Aporte de la poblacin a la diversidad gentica
total
f Estadsticos F (Wright)
f Anlisis de varianza molecular (AMOVA)
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 17

La diferenciacin se refiere a las diferencias polimrficas entre las poblaciones, a


niveles diferentes de estructura (poblaciones e individuos).

Diferenciacin entre poblaciones respecto a


un locus (gST)

gST = 1 (hS/hT)
hS = diversidad de la poblacin
hT = diversidad total

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 18

Donde,
hS = (/( - 1)[1 (1/s)xij2 (ho/2)]
hT = 1 - [(1/s)xij]2 + (hS/s) (ho/2s)
= el promedio armnico de los tamaos de poblacin
s = el nmero de poblaciones
ho = la heterocigosidad promedio observada
xij = la frecuencia calculada del i-simo alelo en la j-sima poblacin
La frmula que aparece en la diapositiva provee una medida de la
diferenciacin en funcin de los alelos por locus, en dos poblaciones o ms.
Vara de 0 a 1. Podra obtenerse un valor negativo si se cometiera un error
en el muestreo o si se empleara un tipo de marcadores inapropiado.
Dada la complejidad de sus componentes, para su clculo se requieren
programas informticos especializados.
Puede utilizarse con marcadores codominantes y, con algunas restricciones,
con marcadores dominantes debido a que es una medida de la
heterocigosidad. Son necesarias varias generaciones para tener una
apreciacin razonable del valor real.

Clculo de gST
Genotipos

A1 A1

A1 A2

A2 A2

p2 + q2

Poblacin 1

20

30

50

0.35

0.65

0.545

Poblacin 2

10

20

70

0.20

0.80

0.680

Poblacin 3

60

10

30

0.65

0.35

0.545

ho = 1/3(0.3 + 0.2 + 0.1) = 0.20

s=3

(p2 + q2) = 1.77

1/ = 1/n1 + 1/n2 + 1/n3 = 1/100 + 1/100 + 1/100 = 0.03

= 33.33

hs = (33.33/33.33 1)[1 1/3(1.77) (0.20/2(33.33))] = 0.4196


[1/3xij]2 = (1/3(0.35))2 + (1/3(0.65))2 + (1/3(0.20))2 + + (1/3(0.35))2 = 0.1967
hT = 1 0.1967 + [0.4196/(33.33 x 3)] [0.20/(2 x 33.33 x 3)] = 0.8065
gST = 1 (hs/hT) = 1 (0.4196/0.8065) = 0.4797
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 19

En este ejemplo, tenemos el nmero de individuos para cada genotipo, para un


locus (A), en tres poblaciones diferentes. Mediante este nmero, queremos
conocer el grado de diferenciacin en las tres poblaciones. En el cuadro, se
realizan los clculos para todos los elementos necesarios en la frmula que
aparece en la diapositiva anterior.
El resultado (gST = 0.4797) muestra que existe una diferenciacin significativa entre
las poblaciones con respecto a las frecuencias allicas. En consecuencia,
podemos afirmar que un porcentaje alto de la diversidad gentica se encuentra
distribuido entre las poblaciones.

Diferenciacin entre poblaciones respecto a


varios loci (GST)
GST es el coeficiente de diferenciacin gnica
GST = DST/HT
Pob2
HS
HT

DST

DST

Pob1
HS

Pob3
DST

Derechos de Autor: IPGRI y Cornell University, 2004

HS

Medidas de diversidad 20

Donde,
HT = la diversidad gnica total = HS + DST
HS = la diversidad gnica dentro de una poblacin
DST = la diversidad entre poblaciones
(HT/HT) = (HS/HT) + (DST/HT) = 1
GST mide la proporcin de diversidad gnica que est distribuida entre las
poblaciones.
Debe tomarse una muestra de un nmero suficiente de loci.
Las ecuaciones son complejas y deben calcularse con programas
informticos especficos.
Por ejemplo, suponiendo que:
HT = 0.263
HS = 0.202
DST = 0.263 0.202 = 0.061
Entonces, GST = (DST/HT) 100 = (0.061/0.263) 100 = 23.19%, lo que significa
que, en esta especie, existe una diferenciacin del 23% entre las poblaciones.

Aporte de la poblacin a la diversidad


gnica total
El aporte se calcula retirando una poblacin del
conjunto, de manera que se pueda evaluar su
aporte a la diversidad gnica total
CT(K) = (HT HT/K)/HT
CS(K) = (HS HS/K)/HT
CST(K) = (DST DST/K)/HT

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 21

Donde,
CT(K) = el aporte de K a la diversidad total
CS(K) = el aporte de K a la diversidad dentro de una poblacin
CST(K) = el aporte de K a la diversidad entre poblaciones
HT = la diversidad gnica total
HS = la diversidad gnica dentro de una poblacin
DST = la diversidad entre poblaciones
HT/K = la diversidad gnica total, despus de retirar la poblacin K
HS/K = la diversidad gnica dentro de una poblacin, despus de retirar la
poblacin K
DST/K = la diversidad gnica entre poblaciones, despus de retirar la
poblacin K
La medida permite cuantificar la variacin de la diversidad gnica total
cuando se introduce o se retira una poblacin de un sitio (por ejemplo, al
introducir una variedad nueva en el campo de un agricultor, como parte de un
programa de conservacin in situ).
Tambin sirve para medir el impacto ocasionado, en trminos de diversidad
gnica, por la prdida de una poblacin en un lugar dado.
Puede utilizarse nicamente con marcadores codominantes.

Estadsticos F (Wright)
La ecuacin para la estructura gentica de
poblaciones es:
(1 - FIT) = (1 FIS)(1 FST)
FIT = 1 (HI/HT)
FIS = 1 (HI/HS)
FST = 1 (HS/HT)
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 22

Donde,
HT = la diversidad gnica total o la heterocigosidad esperada en la
poblacin total, estimada a partir de las frecuencias allicas combinadas
HI = la diversidad gnica dentro de una poblacin o la heterocigosidad
promedio observada en un grupo de poblaciones
HS = la heterocigosidad promedio esperada, estimada a partir de cada
subpoblacin
Los estadsticos F permiten el anlisis de estructura en poblaciones subdivididas.
Tambin puede emplearse para medir la distancia gentica entre las
subpoblaciones, un concepto que se fundamenta en la idea de que aquellas
subpoblaciones que no presentan apareamiento entre s tendrn frecuencias
allicas diferentes a las de la poblacin total.
La distancia gentica tambin provee una manera de medir la probabilidad de
encuentro entre alelos iguales (endogamia). Los ndices estadsticos involucrados
miden:
FIS = la deficiencia o el exceso de heterocigotos promedio en cada
poblacin
FST = el grado de diferenciacin gnica entre las poblaciones, en funcin
de las frecuencias allicas
FIT = la deficiencia o el exceso de heterocigotos promedio en un grupo de
poblaciones

Interpretacin de valores FST


El rango de FST es:
0

(no existe divergencia


gentica)

(fijacin para alelos


alternos en diferentes
subpoblaciones)

Cuando FST es:

entonces la diferenciacin gentica es:

de 0 a 0.05
de 0.05 a 0.15
de 0.15 a 0.25
>0.25

pequea
moderada
grande
muy grande

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 23

Clculo de los estadsticos F


Frecuencia genotpica
Pob.
A1 A1

A1 A2

A2 A2

pi

qi

2piqi

0.40

0.30

0.30

0.55

0.45

0.4950

0.3939

0.60

0.20

0.20

0.70

0.30

0.4200

0.5238

HT

2(0.625)(0.375) = 0.4688

po

(0.55 + 0.70)/2 = 0.625

HI

(0.3 + 0.2)/2 = 0.25

qo

(0.45 + 0.30)/2 = 0.375

HS

(0.495 + 0.420)/2 = 0.4575


FIT = 1 (0.25/0.4688) = 0.4667
FIS = 1 (0.25/0.4575) = 0.4536
FST = 1 (0.4575/0.4688) = 0.0241

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 24

(contina en la siguiente)
Esta diapositiva presenta un ejemplo de dos poblaciones y el anlisis de un locus
(A). Se calculan las frecuencias allicas (p y q), al igual que sus promedios.
Tambin se calculan las variables HT, HI y HS, y se utilizan para calcular los
estadsticos F. El anlisis muestra una diferenciacin baja en las frecuencias
allicas entre las dos poblaciones (FST). Podemos concluir que casi todo el dficit
de heterocigotos se debi al apareamiento no aleatorio dentro de las poblaciones
(FIS = 0.4536).
F = ndice de fijacin (primera columna a la derecha del cuadro), que es la
probabilidad de que los dos alelos de un individuo sean los mismos. Su clculo
debe hacerse slo con marcadores codominantes. Si se hace con marcadores
dominantes, el clculo puede resultar sesgado.

Clculo de los estadsticos F (continuacin)


Frecuencia genotpica
Pob.
A1 A1

A1 A2

A2 A2

pi

qi

2piqi

0.25

0.50

0.25

0.50

0.50

0.500

0.0000

0.80

0.10

0.10

0.85

0.15

0.255

0.6078

HT

2(0.675)(0.325) = 0.4388

po

(0.50 + 0.85)/2 = 0.675

HI

(0.5 + 0.1)/2 = 0.30

qo

(0.50 + 0.15)/2 = 0.325

HS

(0.500 + 0.255)/2 = 0.3775


FIT = 1 (0.30/0.4388) = 0.3163
FIS = 1 (0.30/0.3775) = 0.2053
FST = 1 (0.3775/0.4388) = 0.1397

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 25

Este es otro ejemplo para el cual se siguieron los mismos procedimientos que en la
diapositiva anterior. La diferenciacin en las frecuencias allicas entre las dos
poblaciones parece mayor (FST = 0.1397), con solo un efecto moderado del
apareamiento no aleatorio dentro de las poblaciones (FIS = 0.2053).

Anlisis de varianza molecular (AMOVA)


f AMOVA es un mtodo que sirve para estudiar
la variacin molecular dentro de una especie
f Se basa en un modelo jerrquico o anidado
f Se diferencia de un anlisis de varianza
(ANOVA) en que:
Puede contener diferentes suposiciones evolutivas
sin modificar la estructura bsica del anlisis
La hiptesis utiliza mtodos de permutacin que no
requieren la suposicin de una distribucin normal

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 26

Los diferentes niveles jerrquicos de la diversidad gnica, estudiados por medio del
mtodo AMOVA, pueden abarcar:
1.

Continentes, que pueden contener niveles jerrquicos menores

2.

Regiones geogrficas dentro de un continente

3.

Zonas dentro de una regin, en un continente

4.

Poblaciones dentro de una zona de una regin, en un continente

5.

Individuos dentro de una poblacin en una zona de una regin, en un


continente

En los Apndices 2 y 3 est la descripcin matemtica del modelo para las


situaciones 3 y 4, respectivamente. Para consultarlos, haga clic aqu.
En las dos diapositivas que aparecen a continuacin, se explica el modo de
analizar la situacin 4.

Un ejemplo de AMOVA
Ind.

Pob. 1

Pob. 2

Pob. 3

X...k

15

21

18

54

A1

A2

A1

A2

A1

A2

X...k2

225

441

324

990

Xi...k2

27

33

28

88

Xijk2

15

21

18

X...2

10

11

12

54
2916

Sca

0.6

CMa

0.3

SCb

11

CMb

0.26190476

SCw

10

CMw

0.22222222

13

14

A1 = 1

Presente

15

A1 = 0

Ausente

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 27

(contina en la siguiente)
En este cuadro, aparecen los datos obtenidos con 15 individuos de cada una de las tres
poblaciones, en un anlisis realizado con un marcador codominante. Mediante un anlisis
de varianza, estos datos nos permitirn calcular los estadsticos F.
El primer paso es convertir en variables binarias las bandas detectadas en los geles,
asignndoles un valor de 0 de 1. Luego, se calculan las sumas de las presencias (1) para
que podamos proceder con la suma de cuadrados. Se realizan primero los
clculos para una poblacin y se contina con las dems hasta completar (X...k). Tenemos i
= 15 individuos (efecto b), j = 2 alelos (efecto w), k = 3 poblaciones (efecto a).
Donde,
X...k es el resultado de la suma de todas las bandas presentes en los individuos
por poblacin
X...k2 es el resultado de elevar al cuadrado el nmero obtenido anteriormente
Xi...k2 es el resultado de sumar los cuadrados de la suma de alelos
presentes en cada individuo (por ejemplo, Indiv.1 en la Pob.1 ser (0 + 0)2 +
Indiv.2 en la Pob.1 (1 + 1)2 + Indiv. ...)
Xijk2 es la suma de cada valor al cuadrado
SC es la suma de los cuadrados para los efectos a, b y w
Un ejemplo para calcular SC:
SCa = X...k2/ij X...2/ijk = [990/(15 x 2)] - [2916/(15 x 2 x 3)] = 0.6
CM son los cuadrados medios para los efectos a, b y w
Un ejemplo para calcular CM: SCa/gla = 0.6/2 = 0.3, donde gla se refiere a los
grados de libertad para el efecto a (poblaciones).

Un ejemplo de AMOVA (continuacin)


FV

gl

SC

CM

CME
w2

+ 2b2 + 2*15a2

Poblaciones

0.6

0.3

Indiv./poblacin

42

11

0.26190476

w2 + 2b2

Dentro de indiv.

45

10

0.22222222

w2

Clculos de varianzas y estadsticos F


a2

0.0012698

b2

0.0198413

w2

0.2222222

0.24333

FIT

0.086758

FIS

0.0819672

FST

0.0052185

(1 - FIT)

0.91324

(1 - FIS)(1 - FST)

0.91324

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 28

Donde,
FV = fuentes de variacin
gl = grados de libertad
SC = la suma de los cuadrados (ver diapositiva anterior)
CM = cuadrados medios (ver diapositiva anterior)
2 = varianza total calculada
CME = cuadrados medios esperados
w2 = 0.2222222
b2 = (CMb CMw)/2 = (0.26190476 0.22222222)/2 = 0.0198413
a2 = (CMa CMb)/2 15 = (0.3 0.26190476)/2 15 = 0.0012698
2 = w2 + b2 + a2 = 0.24333 (varianza total calculada)
En la diapositiva 22, ya se ha explicado la forma de calcular los estadsticos F.
Para este ejemplo en particular, sera de la siguiente manera:
FIT = (a2 + b2)/2 = (0.0012698 + 0.0198413)/0.24333 = 0.086758
FST = a2/2 = 0.0012698/0.24333 = 0.0052185
FIS = b2/(b2 + w2) = 0.0198413/(0.0198413 + 0.222222) = 0.0819672
La diferenciacin de las frecuencias allicas entre las tres poblaciones es muy baja
(FST = 0.0052185) y probablemente es un resultado de muchos apareamientos al
azar. Para sacar una conclusin, es necesario analizar un mayor nmero de loci.

Cuantificacin de las relaciones genticas:


Diversidad y diferenciacin a nivel de
nucletido
f Usando datos de secuencia

Diversidad de nucletidos dentro de una poblacin


Diversidad de nucletidos entre poblaciones

f Usando datos de restriccin

Variaciones en los patrones de bandas


Diversidad de nucletidos dentro de una poblacin
Diversidad de nucletidos entre poblaciones

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 29

Para realizar estos clculos, se parte del supuesto de que cada nucletido es un
locus.

Utilizacin de datos de secuencia:


Diversidad de nucletidos dentro de una
poblacin

Mide la diversidad de nucletidos entre varias


secuencias en una regin dada del genoma, dentro
de una poblacin (X)
X = n/(n 1)XiXjij

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 30

Donde,
n = el nmero de secuencias analizadas en los individuos de la poblacin
Xi = la frecuencia estimada de la i-sima secuencia en la poblacin
Xj = la frecuencia calculada de la j-sima secuencia en la poblacin
ij = la proporcin de nucletidos diferentes entre las secuencias i y j
La medida brinda informacin acerca del grado de diversidad de nucletidos
entre varias secuencias, en una regin dada del genoma. Equivale a la
medida de la diversidad allica dentro de un locus.
Vara de 0 a 1 (0 < X < 1).
Entre los factores que limitan el uso de esta herramienta de anlisis estn los
siguientes:
Debe haber disponibilidad de secuencias genmicas parciales
La ecuacin slo puede aplicarse a datos haploides
Este parmetro da informacin acerca de las secuencias de nucletidos, y el
modelo supone la presencia de haplotipos (genotipos haploides). Aunque el
estudio se basa en individuos diploides, es necesario secuenciar cada copia del
genoma.

Clculo de la diversidad de nucletidos


dentro de una poblacin
Secuencia

Frec. Xi

Sec1

TCC T CGAT T ATTC C CAGGGTGC C GATG A AT

5/10 = 0.5

Sec2

TCC A CGAT T ATTC G CAGGGTGC C GATG A AT

2/10 = 0.2

Sec3

TCC A CGAT C ATTC C CAGGGTGC A GATG G AT

1/10 = 0.1

Sec4

TCC G CGAT T ATTC T CAGGGTGC G GATG A AT

2/10 = 0.2

10

1,2 = 2/30, 1,3 = 4/30, 1,4 = 3/30, 2,3 = 4/30, 2,4 = 3/30, 3,4 = 5/30

= 10/(10 1)XiXjij
= (10/9)[0.5 0.2 (2/30) + 0.5 0.1 (4/30) + ... + 1 0.2 (5/30)]
= 0.037

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 31

Este ejemplo presenta 10 individuos en una poblacin X. Para cada individuo,


analizamos una secuencia de 30 nucletidos y observamos que las secuencias
individuales difieren en 5 nucletidos (azul). En total, en la poblacin hay cuatro
secuencias alternas para estos 30 nucletidos. La primera columna muestra el
nmero de individuos (n) que tienen cada una de las alternativas de secuencia.
Calculamos el nmero de diferencias de nucletidos en cada par de secuencias
dentro de la poblacin. Por ejemplo, 1,2 = 2/30 significa que entre las secuencias
1 y 2 hay dos diferencias entre los nucletidos (T versus A en la posicin 4, y C
versus G en la posicin 14).
Luego, calculamos X para toda la poblacin. El nmero obtenido es 0.037, o sea
una diversidad de nucletidos del 3.7%, con base en la secuencia analizada en la
muestra de 10 individuos.

Utilizacin de datos de secuencia:


Diversidad de nucletidos entre poblaciones
f VXY mide la divergencia poblacional con base en el grado
de variacin de la secuencia (1 secuencia, 2 poblaciones)
VXY = dXY (X + Y)/2
f VW mide la diversidad promedio en una poblacin con base
en diversas secuencias
VW = (1/s)X
f Vb mide la diferenciacin total en diversas poblaciones
Vb = [1/(s(s 1))]XYVXY
f NST es la diferenciacin relativa
NST = Vb/(Vb + VW)
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 32

Donde,
VXY = la divergencia entre las poblaciones X y Y
X = la diversidad de nucletidos en la poblacin X
dXY = la probabilidad de que dos nucletidos al azar, en las poblaciones
X y Y, sean diferentes
s = el nmero de poblaciones
La medida brinda informacin acerca del nivel de diferenciacin entre
secuencias de nucletidos en las poblaciones.
Requiere datos de secuencia en una muestra de individuos para cada
poblacin.
Necesita programas informticos especficos con atributos que permitan la
alineacin de secuencias, por ejemplo CLUSTAL W, MALIGN y PAUP*.

Clculo de la diversidad de nucletidos


entre poblaciones
Divergencia de nucletidos entre X y Y
VXY = dXY (XY)/2 = 0.14 (0.037 + 0.09)/2 = 0.0765
Diferenciacin total
Vb = [1/(s(s 1))]XYVXY = [1/(2(2 1))]0.0765 = 0.03825
Diversidad promedio en cada poblacin
VW = (1/s)X = (0.037 + 0.09) = 0.0635
Diferenciacin relativa
NST = Vb/(Vb + VW) = 0.03825/(0.03825 + 0.0635) = 0.3759
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 33

Digamos que tenemos otra poblacin Y en la cual la diversidad de nucletidos para


la misma secuencia analizada en la diapositiva 31 es Y = 0.09.
Tambin sabemos que la probabilidad de que dos nucletidos tomados al azar
sean diferentes en X y Y es de 0.14 (dXY).
En esta diapositiva, presentamos la divergencia entre las poblaciones X y Y (VXY),
la diferenciacin total (Vb), la diversidad promedio en cada poblacin (Vw) y la
diferenciacin relativa (NST)..

Utilizacin de datos de restriccin:


Variaciones en patrones de bandas
Sitio de restriccin EcoRI
Fragmento 1

Fragmento 2

ADN
Indiv. 1

GACTGAATTCCACGGCACTGACGAATTCGAAGTGAATTCTTACTTAAGCTAGCCTGAATTCGATAC
CTGACTTAAGGTGCCGTGACTGCTTAAGCTTCACTTAAGAATGAATTCGATCGGACTTAAGCTATG

ADN
Indiv. 2

GACTGATTTCCACGGCACTGACGAATTCGAAGTGAATTCTTACTTAAGCTAGCCTGAATTCGATAC
CTGACTAAAGGTGCCGTGACTGCTTAAGCTTCACTTAAGAATGAATTCGATCGGACTTAAGCTATG

Fragmento 2

No existe sitio de
reconocimiento
para EcoRI

I1

I2
Fragmento 2
Fragmento 1

Gel

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 34

La ausencia del fragmento 1 en el Individuo2 indica que porta una secuencia


diferente de ADN, al menos en este sitio de restriccin. Basta una pequea
diferencia de apenas dos nucletidos, en el dibujo, para hacer que desaparezca el
sitio de reconocimiento para la enzima.

Utilizacin de datos de restriccin:


Diversidad de nucletidos dentro de una
poblacin

Esta medicin () se basa en el nmero de


fragmentos de restriccin presentes en dos
muestras
= - (1/r)ln G
(si < 5%)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 35

Donde,
r = el nmero de nucletidos de reconocimiento de una enzima de
restriccin
ln G = el logaritmo natural de la probabilidad de que no hubo substitucin
en el sitio de restriccin. Se calcula del siguiente modo:
G = F(3 2G)1/4
F = [Xi(Xin 1)]/[Xi(n 1)]
F = la proporcin de fragmentos compartidos
G = F1/4
n = el nmero de genotipos haploides en la poblacin
Xi = la frecuencia estimada del i-simo fragmento en la
poblacin
La medida estima la diversidad en los sitios de restriccin en una muestra,
porque depende de la secuencia de nucletidos de los sitios de
reconocimiento de una enzima de restriccin dada.
Suministra informacin acerca de la substitucin de nucletidos en los sitios
de restriccin. Vara de 0 a 1 (0 X 1).
Las ecuaciones anteriores pueden utilizarse con muestras haploides, ADNmt,
ADNcp o haplotipos.
Referencia
Karp, A., P. G. Isaac y D. S. Ingram. 1998. Molecular Tools for Screening
Biodiversity: Plants and Animals. Chapman & Hall, Londres.

Utilizacin de datos de restriccin:


Diversidad de nucletidos entre poblaciones
f Esta medicin (VXY) indica la divergencia o
diferenciacin entre poblaciones, con base en
los datos de restriccin
VXY = dXY (X + Y)/2
f Tambin se utiliza esta medida con datos de
marcadores RAPD

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 36

Donde,
VXY = la divergencia o diferenciacin entre las poblaciones X y Y
X = la diversidad de la restriccin en la poblacin X
dXY = la diversidad de fragmentos entre dos poblaciones = (2/r)ln (GXY)
GXY = FXY(3 2GXY)1/4
G = FXY1/4
FXY = la proporcin de alelos compartidos entre las poblaciones X y Y
= (2XiXXiY)/((XiX + XiY))
XiX = la frecuencia calculada del fragmento i en la poblacin X

Calcula la diversidad en los sitios de restriccin de una muestra de dos poblaciones o


ms. Brinda informacin acerca de la substitucin de nucletidos en los sitios de
restriccin.
Resultan prcticos los programas informticos como BIOSYS y GENEPOP. Los
datos obtenidos son considerados como pertenecientes a organismos haploides.

Si se utiliza con datos de RAPD, el valor de r es reemplazado por la longitud del cebador (r
= 10).
Se hacen, adems, ciertas suposiciones:
Que se emplean los cebadores apropiados
Que el polimorfismo originado por insercin o delecin es poco comn
Que los fragmentos de tamao similar en poblaciones diferentes pertenecen al mismo
locus
Que se deben identificar los fragmentos sin error
Los programas que ms se usan son RAPDISTANCE y RAPDIS.

Clculo de la diversidad de nucletidos


entre poblaciones
P
o
b
l
a
c
i

Sec.

10

11

12

P
o
b
l
a
c
i

15

16

17

18

19

20

Frec. Xi

A2

5/20 = 0.25

A3

9/20 = 0.45

F = [0.30(0.30 3 1) + 0.25(0.25 3 1) + 0.45(0.45 3 1)] = 0.0325


0.30(3 1) + 0.25(3 1) + 0.45(3 1)
G = 0.0325[3 2(0.424591)]1/4 = 0.039358

X = -(1/6) ln (0.039358) = 0.539176

Sec.

10

11

12

13

14

15

16

17

18

19

20

Frec. Xi

A1

5/20 = 0.25

A2

13/20 = 0.65

A3

2/20 = 0.10

F = [0.25(0.25 3 1) + 0.65(0.65 3 1) + 0.10(0.10 3 1)] = 0.2425


0.25(3 1) + 0.65(3 1) + 0.10(3 1)
G = (0.2425)1/4 = 0.701743

14

6/20 = 0.30

G = (0.0325)1/4 = 0.424591
X

13

A1

G = 0.2425[ 3 2(0.701743)]1/4 = 0.272587

Y = -(1/6) ln (0.272587) = 0.216633

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 37

En cada poblacin, detectamos tres fragmentos de ADN, como resultado de una restriccin:
A1, A2 y A3.
La diversidad de nucletidos en las regiones analizadas es ms grande en la poblacin X (X
= 0.5392) que en la poblacin Y (Y = 0.2166); por tanto, X tiene mayor diversidad gnica que
Y.
Entre las poblaciones X y Y, la diferenciacin de nucletidos con base en los sitios de
restriccin es de 0.230766.

2[0.30*0.25+0.25*0.65+0.45*0.10]
F = (0.30+0.25)+ (0.25+0.65)+ (0.45+0.10) = 0.14125

1/4
GXY = 0.14125
= 0.613052

]1/ 4 = 0.163012

GXY = 0.14125 3 2(0.613052)

dXY = (2 / 6 )ln(0.163012) = 0.604643


VXY = 0.604643 1 (0.539176 + 0.216633) = 0.226739
2
VW = 1 (0.539176 + 0.216633) = 0.377905
2
Vb = 1 (0.226739) = 0.11337
2
NST =

0.11337
0.11337 + 0.377905

= 0.230766

Cuantificacin de las relaciones genticas:


Distancia gentica

f La distancia gentica entre dos muestras se


describe como la proporcin de elementos
genticos (alelos, genes, gametos, genotipos)
que no son compartidos por ambas muestras
f D = 1 cuando, y solamente cuando, las dos
muestras no tienen elementos genticos en
comn

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 38

Segn las similitudes de los individuos, son posibles tres tipos de representacin de
la distancia (D):
D = 1 S, conocida como la distancia lineal porque asume que la relacin
con la similitud es lineal.
D = (1 S), conocida como la distancia cuadrtica porque asume que la
relacin con la similitud se ajusta a una funcin cuadrtica, de manera que
para volverla lineal es necesario calcular la raz cuadrada.
D = (1 S2), conocida como la distancia circular.

Linear
Lineal

Circular

Quadratic

Cuadrtic
a

0.6
0.4
0.2

1
0.8

0.8

Distancia

D is ta n c ia

D is ta n c ia

0.8

0.6
0.4
0.2

0.2

0.4

0.6

Similitud

0.8

0.4
0.2

0.6

0.2

0.4

0.6

Similitud

0.8

0
0

0.2

0.4

0.6

Similitud

0.8

Modelos de distancia
El clculo de la distancia o disimilitud se ajusta a
uno de estos dos modelos posibles:
Modelo de equilibrio

Modelo de desequilibrio

t
d

t+1

d1
t+1

d2

La distancia permanece
constante con el tiempo
(existe equilibrio entre
la migracin y la deriva gentica)

La distancia cambia con


el tiempo, a travs de
la migracin y la deriva
gentica

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 39

Para nuestros propsitos, emplearemos el modelo de desequilibrio. Existen dos


alternativas:

Distancia geomtrica
No considera los procesos evolutivos
Se basa solamente en las frecuencias allicas
Existe una relacin compleja entre la distancia y el tiempo de divergencia

Distancia gentica
No considera los procesos evolutivos
La distancia aumenta a partir del momento de separacin de una poblacin
ancestral
Requiere un modelo gentico de evolucin

Cundo debemos emplear la distancia geomtrica y cundo la distancia gentica?


La distancia geomtrica se emplea para estudios de diversidad en los cuales se
hacen comparaciones segn los datos morfolgicos o de marcadores recopilados de
las unidades taxonmicas operativas (UTO). Las UTO pueden ser individuos,
accesiones o poblaciones. La distancia geomtrica puede utilizarse con marcadores
dominantes (RAPD, AFLP) o codominantes. Dado que no se consideran los
aspectos evolutivos, los dendrogramas obtenidos no pueden interpretarse como
rboles filogenticos que suministran informacin acerca de la evolucin o
divergencia entre grupos.
Por el contrario, la distancia gentica de cualquier UTO dada puede incorporarse en
estudios filogenticos. El modelo contempla las frecuencias allicas en las UTO y su
fundamento matemtico es diferente. Puede utilizarse con marcadores
codominantes y dominantes; no obstante, con stos ltimos, se pierde informacin
porque solamente se pueden calificar dos alelos. La distancia gentica con
marcadores dominantes requiere que se examinen dos generaciones de la misma
poblacin para medir la segregacin de los loci (Lynch y Milligan, 1994).
Referencia
Lynch, M. y B. G. Milligan. 1994. Analysis of population genetic structure with RAPD
markers. Mol. Ecol. 3:91-99.

Modelos de desequilibrio: Distancia


geomtrica
f Mide la relacin directa entre el ndice de
similitud (s) y la distancia (D = 1 s)
f Son posibles diferentes situaciones; por
ejemplo:

Variables binarias
Variables cuantitativas
Tipos mixtos de variables
Nmero P de variables

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 40

(contina en la siguiente)
Al analizar datos moleculares, tratamos con variables binarias (1,0). Estas se
discutirn en las diapositivas que aparecen a continuacin.
En el Apndice 4, hay informacin adicional sobre aquellos casos en los cuales es
necesario utilizar tambin variables cuantitativas, tipos mixtos de variables y un
nmero diverso de variables. En el Apndice 5, se ha agregado un ejemplo sobre
cmo calcular las distancias geomtricas con variables cuantitativas. Para
consultar los Apndices 4 y 5, haga clic aqu.

Distancia geomtrica (continuacin)


Con variables binarias:

Se emplea el anlisis multivariado y se elaboran


matrices de similitud o diferenciacin entre los posibles
pares de individuos o unidades taxonmicas operativas
(UTO)
Dos individuos similares tienen, simultneamente, el
valor mnimo de distancia y el valor mximo de similitud
La distancia y la similitud estn inversamente
relacionadas
La similitud se calcula por el nmero de coincidencias

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 41

Al emplear datos de marcadores moleculares y transformarlos en datos binarios,


hay que tener en cuenta los siguientes aspectos:
El nmero de ploida de una especie puede ocultar la presencia de series
allicas en un locus. Si esto sucede, se subestimar la diversidad gentica al
emplear marcadores dominantes (presencia/ausencia).
Si un marcador es codominante, se necesitan muestras de gran tamao
para que se puedan detectar todos los genotipos posibles, especialmente si
hay varios alelos por locus.
Son comunes las distorsiones de segregacin en las especies poliploides.
La mayora de los programas de informtica especializados estn diseados
para analizar especies diploides. Por lo tanto, si se usan con especies
poliploides, puede haber sesgos en la estimacin de los diversos ndices de
diversidad gentica.
El sistema reproductivo de ciertas especies no ha sido estudiado, de manera
que no se conoce lo suficiente acerca de su tipo de herencia.
Para obtener estimaciones confiables de diversidad gentica, se debe
muestrear y analizar la mayor cobertura posible (regiones de codificacin y
de no codificacin) del genoma de la especie en estudio.

Clculo de frecuencias allicas para diploides


y tetraploides: Marcador dominante
Individuos
17 18

10

11

12 13

14 15

16

10

11

12 13

14 15

16 17 18

Locus A
diploide
(2X)
Locus A
tetraploide
(4X)

Matriz
binaria

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 42

En este ejemplo, 18 individuos de una especie diploide y 18 de una especie


tetraploide fueron analizados con un marcador dominante. Los patrones de bandas
obtenidos son similares. En ambos casos, las bandas se convierten en un cuadro
binario. Los clculos de frecuencias estn abajo. Observamos que, por ejemplo, en
el tetraploide, el genotipo 1 puede ser AAAA, AAAa, AAaa o Aaaa; pero la banda se
leer como presente (1) al igual que en el diploide (AA o Aa).
Locus

A
(2X)

A
(4X)

Genotipos

Frec. allica

Diploide

AA, Aa

aa

Total

Frec. geno. (esp.)

p2 + 2pq

q2

No. de indiv.

14

18

Frec. geno. (obs.)

P1 = 0.78

P2 = 0.22

Tetraploide

AAAA, AAAa, AAaa,


Aaaa

Frec. geno. (esp.)

0.53

0.47

aaaa

Total

p4 + 4p3q + 6p2q2 +
4pq3

q4

No. de indiv.

14

18

Frec. geno. (obs.)

P1 = 0.78

P2 = 0.22

0.31

0.69

En ambos casos, las frecuencias allicas deben ser diferentes. No obstante, la


prdida de informacin en el individuo tetraploide es significativa. A qu se debe
esto? A que para calcular la frecuencia del alelo recesivo a, no se consideran los
heterocigotos AAAa, Aaaa y Aaaa. Este efecto es mucho mayor cuando no se
conoce el nmero de ploida de la especie en estudio (esp. = valor esperado; obs. =
valor observado).

Clculo de frecuencias allicas para diploides


y tetraploides: Marcador codominante
7

Individuos
9 10 11

12 13

14

15

16 17 18

12

14

15

16 17 18

A2 A3

A1 A2

A2 A2

A3 A3

A1 A1

Locus A
diploide
(2X)

A1 A3

A3 A3 A3 A3

A1 A2 A3 A3

A1 A1 A2 A3

M
Matriz
binaria
diploide

A1 A2 A2 A3

A1 A1 A1 A1

Locus A
tetraploide
(4X)

7
I

D I

10
I

11
U O

13

(1,0,0) (1,0,1) (0,0,1) (1,0,1) (0,1,1) (1,0,0) (1,0,1) (0,0,1) (0,0,1) (0,1,0) (1,1,0) (0,0,1) (0,0,1) (0,0,1) (0,0,1) (0,1,1) (1,0,1) (0,0,1)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 43

En este ejemplo, hay 18 individuos de una especie diploide y 18 de una especie


tetraploide analizados utilizando un marcador codominante. En ambas situaciones,
se detecta un locus (A) con tres alelos (A1, A2 y A3).
El clculo de las frecuencias allicas en los individuos diploides no es difcil (matriz
binaria, parte inferior de la diapositiva). Sin embargo, con individuos tetraploides,
se dificulta la conversin a datos binarios debido a que aquellos que portan los
alelos A1 A1 A2 A3 no pueden diferenciarse de los que tienen otras combinaciones
como A1 A2 A2 A3 o A1 A2 A3 A3. Esta situacin solamente puede ser resuelta por
inferencia, con base en el clculo del nmero de copias del fragmento de ADN en
el gel.

Genotipo

A1 A1

A1
A2

A1
A3

A2
A2

A2
A3

A3
A3

Tota
l

Frec. geno.
(esp.)

p2

2pq

2pr

q2

2qr

r2

Indiv. (no.)

18

Frec. geno.
(obs.)

P11 =
0.11

P12 = P13 = P22 = P23 = P33 =


0.06 0.22 0.06 0.11 0.44

(esp. = valor esperado; obs. = valor observado).

0.25

0.15

0.60

Coeficientes de similitud para variables


binarias: Ejemplos
Ejemplo del valor del coeficiente
si
a = 3, b = 1, c = 3, d = 2

Autor

Expresin

S1

Russel y Rao (1940)

a/n

0.333

S2

Simpson

a/min[(a + b),(a + c)]

0.750

S3

Braun-Blanquet

a/max[(a + b),(a + c)]

0.500

S4

Dice (1945); Nei y Li (1979)

a/[a + (b + c)/2]

0.600

S5

Ochiai (1957)

a/[(a + b)(a + c)]1/2

0.612

S6

Kulczynski 2

(a/2)([1/(a+b)] + [1/(a+c)])

0.625

S7

Jaccard (1900, 1901, 1908)

a/(a + b + c)

0.429

S8

Sokal y Sneath 5 (1963)

a/[a +2(b + c)]

0.273

S9

Kulczynski 1 (1928)

a/(b + c)

0.750

S10

Sokal y Michener (1958)

(a + d)/n

0.556

S11

Rogers y Tanimoto (1960)

(a + d)/[a + d + 2(b + c)]

0.385

S12

Sokal y Sneath 1 (1963)

(a + d)/[a + d + (b + c)/2]

0.714

S13

Sokal y Sneath 3 (1963)

(a + d)/(b + c)

1.250

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 44

Indiv.j

Indiv.i

a+
b

c+d

a+c

b+d

Donde,
n=a+b+c+d
En el cuadro de la diapositiva, observamos que:
Los ndices S1 a S9 dan valor solamente a la presencia de informacin
Los ndices S10 a S13 dan valor tanto a la presencia de informacin
como a su ausencia
A continuacin, discutiremos tres ndices (los que aparecen en rojo en la
diapositiva): Concordancia Simple (S10), Jaccard (S7) y Nei-Li (S4).

ndices de distancia geomtrica


Coeficiente de concordancia simple:
(a + d)/(a + b + c + d)
Coeficiente de Jaccard:
a/(a + b + c)
Coeficiente de Nei-Li, o de Dice:
2a/(2a + b + c)
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 45

Estos tres ndices difieren en su enfoque para estimar el nmero de coincidencias y


diferencias.
El Coeficiente de Concordancia Simple considera que la ausencia corresponde a
loci homocigticos. Puede usarse con datos de marcadores dominantes (RAPD y
AFLP), por cuanto las ausencias podran corresponder a recesivos homocigticos.
En el Apndice 6 se da un ejemplo de aplicacin del Coeficiente de Concordancia
Simple para variables categricas (haga clic aqu).
El Coeficiente de Jaccard solamente cuenta las bandas presentes para cualquiera
de los individuos (i o j). Las ausencias dobles se consideran como datos
ausentes. Si se presentan falsos positivos o falsos negativos, la estimacin del
ndice tiende a ser sesgada. Puede aplicarse con datos de marcadores
codominantes.
El Coeficiente de Nei-Li cuenta el porcentaje de bandas compartidas entre dos
individuos y le da ms importancia a aquellas bandas presentes en ambos.
Considera que la ausencia tiene menor importancia biolgica y, de esta manera,
este coeficiente tiene un significado completo en funcin de la similitud del ADN.
Puede aplicarse con datos de marcadores codominantes (RFLP, SSR).

Modelos de desequilibrio: Distancia gentica

f Mide la diferencia entre dos genes, proporcional


al tiempo de separacin de un ancestro comn
f Varios modelos son posibles:
Mutacin de alelos infinitos
p. ej. Distancia gentica de Nei
Modelo de mutacin gradual
p. ej. Distancia con microsatlites
Mutacin en la secuencia de nucletidos

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 46

Mutacin de alelos infinitos (isoenzimas)


Cada mutacin da origen a un alelo nuevo.
Si 2 genes son iguales, no ha habido mutacin. Si 2 genes son
diferentes, se present un nmero desconocido de mutaciones.
El nmero promedio de mutaciones desde el momento t, cuando
divergieron de un ascestro es = 2t, donde es la tasa de mutacin y
se multiplica por 2 porque estamos tratando con 2 genes
independientes.
La probabilidad de que 2 genes provengan de un mismo progenitor
despus del momento t es de P= e-2t.

Modelo de mutacin gradual (SSR)


La mutacin es un cambio progresivo de tal manera que los fragmentos
que migran distancias similares han experimentado pocas mutaciones.
En el caso de las SSR, se asume que la mutacin modifica el nmero
de repeticiones, aumentando o disminuyendo paso a paso. Puede
mostrarse que el cuadrado de la diferencia en el nmero de repeticiones
entre 2 microsatlites es proporcional al momento de divergencia de un
ancestro comn.

Mutacin en la secuencia de nucletidos


Indica que la substitucion ms sencilla es la mutacin de una base
nica.
La limitacin principal es la prdida de informacion por desconocer el
nmero de mutaciones que podran haber ocurrido en un sitio. Para
resolver ese problema, algunos mtodos asumen la probabilidad de
transicin (purina purina o pirimidina pirimidina) y de transversin
(purina pirimidina o pirimidina purina).

Clculo de la distancia gentica de Nei


f La distancia gentica estndar de Nei es:

DXY = ln (IXY)
f Se basa en el concepto de identidad gentica
(IXY):

Ixy =

Jxy
(JxJy)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 47

(contina en la siguiente)
Donde,
JX = la homocigosidad promedio en la poblacin X
JY = la homocigosidad promedio en la poblacin Y
JXY = la homocigosidad promedio entre poblaciones
De manera que,
IXY = 1, si dos poblaciones tienen las mismas frecuencias allicas en
todos los loci muestreados
IXY = 0, si dos poblaciones no comparten las mismas frecuencias allicas
en todos los loci muestreados
El valor de DXY vara de 0 (donde las poblaciones tienen frecuencias allicas
idnticas) a infinito (, donde las poblaciones no comparten ningn alelo).
Asume que la tasa de substitucin por locus es igual entre todos los loci y las
poblaciones.
Esta distancia calcula las diferencias de codones por locus entre dos
poblaciones.

Clculo de la distancia gentica de Nei


(continuacin)
Locus

Alelos

Frecuencias allicas
Poblacin 1

Poblacin 2

Poblacin 3

A1

0.80

0.74

0.65

A2

0.20

0.26

0.35

Heterocigosidad del locus

hijk

0.3200

0.3848

0.4550

B1

0.86

0.81

1.00

B2

0.01

0.10

0.00

B3

0.13

0.09

0.00

Heterocigosidad del locus

hijk

0.2434

0.3258

0.0000

D1

0.00

1.00

0.30

D2

1.00

0.00

0.70

Heterocigosidad del locus

hijk

0.0000

0.00

0.4200

Heterocigosidad promedio

Hi

0.0433

0.0547

0.0673

Homocigosidad promedio

Ji

0.9567

0.9453

0.9327

Homocig. prom. entre poblac.

Jii

J1,2 = 0.8733

J1,3 = 0.9346

J2,3 = 0.8986

Identidad gentica

Iii

I1,2 = 0.9183

I1,3 = 0.9894

I2,3 = 0.9570

Distancia gentica

Dii

D1,2 = 0.0852

D1,3 = 0.0107

D2,3 = 0.0440

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 48

En este ejemplo hay i = 3 poblaciones, j = 3 loci polimrficos y 10 loci


monomrficos. Adems, hay diferentes nmeros (K) de alelos por locus (por
ejemplo, A y D tienen 2 alelos cada uno y B, 3 alelos).
En el cuadro aparecen los resultados del clculo de las frecuencias allicas
en cada poblacin, as como la heterocigosidad por locus. A continuacin,
calculamos la heterocigosidad y la homocigosidad promedio
(1 - heterocigosidad) por poblacin.
Luego, calculamos la homocigosidad entre poblaciones y la identidad gentica para
estimar la distancia gentica de Nei:
jiijk = iij pijk pijk, por ejemplo, j1,2jk = la homocigosidad entre las poblaciones
1y2
j1,2jk = (0.8)(0.74) + (0.2)(0.26) + (0.86)(0.81) + (0.01)(0.10) + (0.13)(0.09) +
(0.0)(1.0) + (1.0)(0.0) + 10 = 11.3533
J1,2 = la homocigosidad promedio entre poblaciones = j1,2jk/13 = 11.3533/13
= 0.8733
I1,2 = la identidad gentica entre las poblaciones 1 y 2 = J1,2/(J1J2) =
0.8733/(0.9567 0.9453) = 0.9183
D1,2 = la distancia gentica entre las poblaciones 1 y 2 = -ln(I1,2) =
-ln(0.9183) = 0.0852
Puesto que an no hemos explicado los mtodos de agrupacin, en el
Apndice 7 presentamos la matriz de distancia y el dendrograma de este ejemplo
(haga clic aqu).

Clculo de la distancia dentro de una


poblacin, usando microsatlites
f La distancia dentro de una poblacin es el
promedio de la suma de los cuadrados de las
diferencias en nmero de repeticiones entre
alelos

Swi =

2
2
i<i' (aii ai' i' )
2n(2n 1)

f La distancia promedio dentro de una poblacin


puede calcularse para todos los loci analizados
(ds)
Sw = (1/ds) jSwj
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 49

Donde,
aij = tamao del alelo de la i-sima copia (i = 1, 2, , 2n) en la j-sima
poblacin (j = 1, 2, , ds)
n = nmero de individuos en la muestra
Existen dos aspectos que se deben tener en cuenta:
El clculo de la distancia entre dos alelos es una transformacin del
nmero de repeticiones.
Una de las dificultades en el uso de las SSR para estimar distancias
genticas es que su tasa de mutacin es alta.

Clculo de la distancia entre poblaciones,


usando microsatlites

Este es el componente entre poblaciones para la


distancia promedio entre todas las comparaciones
de pares de alelos

SB =

2
2
(a
ij a i' j' )

j
<
j'
i
<
i'
(2n)2d s(ds 1)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 50

La distancia global es el promedio ponderado entre el componente dentro de


poblaciones y el componente entre poblaciones.

=
S

2n - 1
2n(ds 1)
Sw +
SB
(2nds 1)
(2nds 1)

Estos coeficientes representan la probabilidad de elegir dos copias diferentes de un


locus en la misma poblacin y entre dos poblaciones.
Programas informticos tiles: MICROSAT, BIOSYS, GENEPOP, GDA y
POPGENE.

Visualizacin de las relaciones: Clasificacin


o agrupacin
Es el proceso de agrupar (o conglomerar) objetos
en categoras o clases, con base en sus
particularidades o relaciones comunes. La
agrupacin puede ser:
Jerrquica:

Esencialista, la que trata de descubrir su verdadera


naturaleza o forma
Cladstica, la que se basa en la genealoga o filogenia
Evolutiva, la que se basa en la filogenia y en la
cantidad de cambios evolutivos
Fentica, la que se basa en el mayor nmero de
caracteres de un organismo y su ciclo vital

No jerrquica
Superpuesta
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 51

Jerrquica: una clase principal que contiene clases menores denominadas


ramas.

No jerrquica: cada individuo es asignado a un grupo nico al compararlo con


las clases iniciales, de suerte que su posicionamiento sea el ms apropiado.

Superposicin: los individuos pueden pertenecer a ms de un grupo.


Los tipos de clasificacin se refieren a los procedimientos para catalogar
objetos, organismos, etc., y se utilizan en varios campos del conocimiento. En
nuestro caso, empleamos la clasificacin jerrquica debido a la naturaleza de
las relaciones entre individuos; es decir, el individuo, la poblacin, la accesin,
la variedad, etc., son unidades que no pueden ser asignadas simultnemente a
dos grupos diferentes.

Referencia
Garca, J. A., M. C. Duque, J. Tohme, S. Xu y M. Levy. 1995. SAS for Classification
Analysis; Agrobiotecnology Course, October 1995. Documento de Trabajo.
Centro Internacional de Agricultura Tropical (CIAT), Cali, Colombia.

Clasificacin fentica
f Muestra las relaciones entre las muestras
mediante el uso de un ndice de similitud
f Se selecciona un mtodo de agrupacin o
distancia, de manera que se pueda trazar un
diagrama de rbol (dendrograma) o un
fenograma (si la matriz de similitud contiene
datos fenotpicos)
1

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 52

En este ejemplo de agrupacin jerrquica, a todos los caracteres se les da la


misma importancia en el proceso de agrupacin.
La similitud total entre dos grupos es la suma de la similitud para cada carcter.
No tiene en cuenta la genealoga.
Fentico se refiere a cualquier carcter empleado en el procedimiento de
clasificacin, ya sea morfolgico, fisiolgico, ecolgico, molecular o citolgico.

Mtodos de agrupacin
f Pasos a seguir:
Se define la cercana
Se estima cada agrupacin, segn la distancia
Se conforman las ramas del dendrograma en cada
ciclo

f Los tres mtodos principales son:


Ligamiento simple (o vecino ms cercano)
Ligamiento completo (o vecino ms lejano)
Ligamiento promedio (o UPGMA)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 53

Hay otros mtodos de agrupacin disponibles, como:


El mtodo de agrupamiento de pares no ponderados utilizando el centroide
(UPGMC). Se basa en la distancia entre el valor medio para cada grupo.
El mtodo de agrupamiento de pares ponderados utilizando el centroide
(WPGMC). Considera el valor medio de las UTO en los grupos.
Mtodo de Ward. Funciona con la suma de las distancias al cuadrado entre
pares de UTO. Tambin se conoce como el mtodo de la varianza mnima
porque, como considera los valores al cuadrado, se vuelve un mtodo muy
sensible (las UTO diferentes parecern ms dismiles y las UTO similares
parecern an ms cercanas). Puede utilizarse con distancias euclidianas y
datos moleculares si se dispone de un nmero alto de bandas de ADN.
En las siguientes diapositivas, tratamos en ms detalle los tres mtodos que se
mencionan en esta diapositiva y presentamos un ejemplo para cada uno de ellos.

Ligamiento simple
f O vecino ms cercano
f Minimiza la distancia entre grupos al tomar la
distancia al vecino con el que presenta mayor
similitud
f Funciona con grupos uniformes y compactos,
pero se afecta con los individuos distantes.
Esto resulta inconveniente cuando hay grupos
diferentes que no estn bien distribuidos en el
espacio
d(1,2)

Grupo 1

d(1,2) = distancia mnima


entre dos UTO
Grupo 2

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 54

Ligamiento simple: Un ejemplo


(1)

0.30

0.43 0.35

0.28 0.60 0.40

(3)

(2)

C
C

ADB

0.35

ADB

AD

0.35

AD

0.30

0.40

(4)

0.50 0.40 0.30 0.20

0.10

0.0

D
B
C
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 55

1. Primero, se elabora la matriz de distancia; luego, en un primer ciclo, se


selecciona la distancia ms corta, dAD = 0.28.
2. Se elabora una nueva matriz al agrupar los individuos A y D y se calculan las
distancias combinadas:
dB(AD) = min (dBA; dBD) = min (0.30; 0.60) = 0.30
dC(AD) = min (dCA; dCD) = min (0.43; 0.40) = 0.40
3. Se elabora una nueva matriz al agrupar el individuo B con el grupo (AD) y se
calculan las distancias combinadas:
dC(ADB) = min (dAC; dCD; dCB) = min (0.43; 0.40; 0.35) = 0.35
4. Se dibuja el dendrograma.

Ligamiento completo
f O vecino ms lejano
f Minimiza la distancia entre grupos al tomar la
distancia al individuo con el que presenta menor
similitud
f Funciona bien con grupos uniformes y
compactos pero, nuevamente, recibe influencia
de los individuos distantes
d(1,2)

d(1,2) = distancia mayor


entre dos UTO
Grupo 1

Grupo 2

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 56

Ligamiento completo: Un ejemplo


(1)

0.30

0.43 0.35

0.28 0.60

0.40

(2)

(3)
AC

DB

0.40

0.43

BD

0.30

0.40

BD

(4)
AC

0.60 0.50 0.40 0.30 0.20 0.10 0.0

DB
B

D
A
C

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 57

1. Primero, se elabora la matriz de distancia; luego, en un primer ciclo, se


selecciona la distancia ms larga, dBD = 0.60.
2. Se elabora una nueva matriz al agrupar los individuos B y D y se calculan las
distancias combinadas:
dA(BD) = max(dBA; dAD) = max(0.30; 0.28) = 0.30
dC(BD) = max(dCB; dCD) = max(0.35; 0.40) = 0.40
3. Se elabora la nueva matriz con los grupos AC y BD, y se calculan las distancias
combinadas:
d(AC)(DB) = max (dAD; dAB; dCD; dCB) = max (0.28; 0.30; 0.40; 0.35) = 0.40
4. Se dibuja el dendrograma.

Ligamiento promedio
f O mtodo de agrupamiento de pares no
ponderados usando la media aritmtica
(UPGMA)
f Minimiza la distancia entre grupos, al tomar la
distancia promedio de todos los pares entre los
individuos de la muestra
f Mtodo ms empleado
d(1i,2j) = distancia promedio
entre UTOi y UTOj de los
grupos 1 y 2
Grupo 1

Grupo 2

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 58

Ligamiento promedio: Un ejemplo


(1)

A
A

0.30

0.43

0.35

0.28

0.60

0.40

BC

AD

BC

AD

0.42

(2)

(3)

0.35

AD 0.45

AD

0
0.415

(4)

0.5

0.4

0.3

0.2

0.1

0.0

A
D
B
C

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 59

1. Primero, se elabora la matriz de distancia; luego, en un primer ciclo, se selecciona


la distancia ms corta, dAD = 0.28.
2. A continuacin, se elabora una matriz al agrupar el individuo A con el D y se
calculan las distancias combinadas:
dB(AD) = (dBA + dBD)/2 = (0.30 + 0.60)/2 = 0.45
dC(AD) = (dCA + dCD)/2 = (0.43 + 0.40)/2 = 0.415
3. Se elabora una nueva matriz al agrupar los individuos que tengan la distancia ms
corta, B con C, y se calculan las distancias combinadas:
d(AD) (BC) = (dAB + dAC + dBD + dBC)/4 = (0.30 + 0.43 + 0.60 + 0.35)/4 = 0.42

Seleccin de un mtodo de agrupacin


f En primer lugar, se rene informacin sobre la
especie en estudio, por ejemplo su diversidad,
su sistema de reproduccin, su nmero de
ploida y sus niveles de heterocigosidad
f Se seleccionan con cuidado los caracteres
genticos que se van a analizar
f Luego se prueban diferentes metodologas de
agrupacin y se evala el nivel de concordancia
obtenido con cada una de ellas
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 60

Adems, siempre ser importante combinar la mayor cantidad de


informacin que sea posible. En el Apndice 8 (haga clic aqu) puede
encontrar un ejemplo en que se presentan datos morfolgicos y
moleculares, y se compara el uso de series de datos separados con el uso
de datos combinados.

Validacin del anlisis de conglomerados

f Validacin externa
f Validacin interna
f Validacin relativa
f Bootstrapping (Mtodo de remuestreo)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 61

Validacin externa:
Se compara la matriz de distancia con otra informacin que no se haya
usado en los clculos de agrupacin (por ejemplo, la genealoga).
Validacin interna:
Esta tcnica cuantifica la distorsin debida al mtodo de agrupacin
empleado. Elabora una nueva matriz de similitud o distancia, la matriz
cofentica, directamente a partir del dendrograma. Se calcula la validacin
mediante un coeficiente de correlacin entre los datos de similitud o
distancia a partir de la matriz original y los de la nueva matriz cofentica.
Al finalizar el ejercicio de agrupacin, se evala si se mantienen o no las
distancias originales (Sokal y Rohlf, 1994).
Validacin relativa:
Se compara la similitud entre mtodos.
Bootstrapping:
Es un mtodo de remuestreo con reemplazo, con la misma matriz de
datos. Permite el clculo de las desviaciones estndar y varianzas, y es
til para aquellas situaciones en las cuales el nmero de muestras o los
recursos (por ejemplo, el tiempo, el presupuesto) son limitados.
A continuacin, se presentan ejemplos de la aplicacin de los mtodos de
correlacin cofentica y bootstrapping.
Referencia
Sokal, R. y J. Rohlf. 1994. Biometry: The Principles and Practice of Statistics in
Biological Research (3rd edn). Freeman & Co, NY.

Correlacin cofentica: Un ejemplo


A

D
Dendrograma

0.30

0.43

0.35

0.28

0.60

0.40

0.60 0.50 0.40 0.30 0.20 0.10 0.0

0
A

Matriz de distancia original

Correlacin cofentica =
0.5557

0.43

0.43

0.35

0.28

0.43

0.43

C
0.43 0.35 0.28

Matriz cofentica

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 62

Para elaborar la matriz cofentica, observemos el dendrograma que se dibuj


anteriormente con la matriz original (este ejemplo corresponde a la diapositiva 58).
Vemos que la distancia entre D y C en el dendrograma es de 0.43; entonces,
llenamos esta celda en la matriz cofentica. La distancia entre B y C es de 0.35, y
as sucesivamente.
Los clculos para la correlacin cofentica se basan en el coeficiente de
correlacin:
r = (XiYi - XiYi/n)/SXiSYi
Donde,
Xi y Yi son los valores de similitud o distancia de la matriz original y de la
matriz cofentica, respectivamente.
SXi y SYi son las desviaciones estndar para cada variable.
Si el valor de la correlacin es alto, podemos concluir que el dendrograma s refleja
las distancias en la matriz original y, por tanto, no existe ninguna distorsin
originada por el mtodo de agrupacin. En el ejemplo anterior, obtuvimos un valor
de 0.5557. Este es un valor promedio que podra indicar que las distancias del
dendrograma no reflejan los datos de distancia en la matriz original y existe, por
consiguiente, distorsin a causa del mtodo empleado. No obstante, al elaborar
este ejemplo, utilizamos muy pocos datos y no eran los resultados reales de un
experimento, lo que puede explicar el valor obtenido.

Validacin mediante bootstrapping:


Un ejemplo
(1)

A
C

P1

P2

P3

P4

(2)

D
E
Gel

P1

P2

P3

P4

L1

L2

L3

L4

L5

Matriz de datos

(3)

P1

P2

P3

P1

P2

0.400

P3

0.600

0.400

P4

0.400

0.200

0.400

P4

Matriz de similitud

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 63

(contina en la siguiente)
En el gel que aparece en la esquina superior izquierda, hay 4 individuos (Pi) y
5 loci (Lj). Vamos a suponer que realizamos la validacin en tres muestras con
reemplazo.
En primer lugar, registramos los datos de los marcadores en los individuos (matriz
de datos) y, a continuacin, calculamos la similitud promedio (concordancia simple)
y su intervalo.

Validacin mediante bootstrapping:


Un ejemplo (continuacin)
P1
Matriz de similitud promedio
con desviaciones estndar

P2

P3

P4

P1

P2

0.267 0.115

P3

0.600 0.000

0.400 0.200

P4

0.533 0.115

0.200 0.000

0.400 0.200

Dendrograma antes del reemplazo

Dendrograma con reemplazo


1

0.25

0.44

0.63

0.81

1.00

0.11

Derechos de Autor: IPGRI y Cornell University, 2004

0.33

0.56

0.78

1.00

Medidas de diversidad 64

Para cada individuo, se toma el valor para cada locus, uno por uno, con reemplazo
y se elabora una muestra de igual tamao al nmero de loci. Existe la posibilidad
de que se seleccione un locus una o ms veces. Para el ejemplo:
M1: L1 L1 L2 L3 L5 (no sali el locus L4 )
M2: L1 L2 L3 L4 L3
M3: L3 L1 L5 L2 L4
En cada muestra, se calcula una matriz de similitud.
Se calculan las similitudes promedio y sus desviaciones estndar para cada par de
individuos (1 y 2, 1 y 3, 2 y 3, y as sucesivamente), y se elabora la matriz de
similitud promedio.
Se construye un nuevo dendrograma, empleando la matriz de similitud promedio.
Para situaciones reales, deben generarse ms de 100 muestras de reemplazo.

Visualizacin de las relaciones: Ordenacin


f La ordenacin es la disposicin o arreglo de
las unidades de muestra en sistemas de
coordenadas
f La finalidad de la ordenacin, al igual que los
mtodos de clasificacin, es la de interpretar
patrones en la composicin de las muestras

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 65

La ordenacin es un mtodo multivariado que complementa la agrupacin y casi


siempre se le considera como una estrategia que ms se aproxima a la realidad
biolgica.
Lo que se quiere representar con los mtodos de ordenacin son las relaciones de
las muestras de una manera sencilla, al reducir la situacin real a un espacio
dimensional bajo (Gauch, 1982). Para hacerlo, se estudia la composicin de la
muestra como un todo, se mejora la comparacin estadstica del anlisis porque,
de alguna manera, se elimina o reduce la redundancia y se puede determinar la
importancia relativa de diferentes gradientes. Sobre todo, se obtienen
representaciones grficas que nos ayudan a interpretar de manera intuitiva las
relaciones de los diferentes grupos de muestras.
La ordenacin, en principio, es una herramienta exploratoria para probar hiptesis.
En cualquier caso, los resultados obtenidos con los mtodos de ordenacin deben
contrastarse con los conocimientos disponibles de la muestra en estudio y, en la
medida de lo posible, con informacin adicional relacionada con la pregunta
biolgica objeto de la investigacin.
Referencia
Gauch, H. G., Jr. 1982. Multivariate Analysis and Community Structure.
Cambridge University Press, Reino Unido.

Mtodos tiles de ordenacin para los datos


de marcadores moleculares
f Anlisis de coordenadas principales (PCoA)
f Escalamiento multidimensional no mtrico
(NMDS)
f Anlisis de correspondencia (CA)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 66

Existen varias tcnicas de ordenacin algunas se basan en datos de distancia o en


clculos de los denominados valores Eigen (la suma de todas las varianzas para cada
carcter, en cada componente). Sin embargo, no es conveniente usar aquellas tcnicas
que se basan en variables continuas (por ejemplo, el anlisis de componentes principales o
PCA) con datos de marcadores. En consecuencia, solamente discutiremos brevemente las
tres que aparecen enumeradas en esta diapositiva. Para entrar en ms detalle acerca de
los aspectos bsicos de estos mtodos sera necesario un buen nivel de entendimiento
matemtico respecto a los algoritmos involucrados, lo cual va ms all de lo que esperamos
del usuario promedio de este mdulo. Por tanto, animamos a nuestros lectores que deseen
saber ms acerca de estos mtodos para que hagan bsquedas sobre mtodos de
ordenacin en la Web. Para obtener un resumen, ingrese al sitio
<http://www.okstate.edu/artsci/botany/ordinate/overview.htm>
El anlisis de coordenadas principales (PCoA) pretende representar las distancias entre
muestras y puede dar cabida a matrices de diferentes medidas de disimilitud. Maximiza la
correlacin lineal entre distancias de muestras. Cuando se emplea con las distancias
euclideanas, se obtienen resultados idnticos al PCA.
El escalamiento multidimensional no mtrico (NMDS) maximiza la correlacin de orden y
pretende encontrar la mejor forma de acomodar los datos. Esta tcnica deja al descubierto
la configuracin bsica a partir de la matriz de muestras dismiles. Cuando se emplea
NMDS, slo es pertinente el patrn de puntos, no el origen, y puede rotarse la
representacin.
El anlisis de correspondencia (CA) repite los promedios de los puntajes de las muestras y
encuentra zonas donde todas las muestras que se acomodan ah son lo ms similares
posible. Al mismo tiempo, las muestras que se acomodan en zonas diferentes son lo ms
diferentes posible.

En resumen
f El anlisis de la diversidad gentica y estructura
de poblaciones comprende:
La cuantificacin de la diversidad y las relaciones
entre y dentro de poblaciones e individuos
La visualizacin de las relaciones

f Los datos moleculares se manejan


frecuentemente como datos binarios
f Es til complementar datos moleculares con
datos morfolgicos o de evaluacin agronmica;
para hacerlo, los tipos de variables pueden
transformarse en variables binarias
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 67

Hasta el momento, usted debera saber


f Los pasos bsicos para medir la diversidad gentica
f Las principales maneras de describir la diversidad
gentica dentro de una poblacin y entre
poblaciones
f La seleccin correcta del clculo de la distancia para
evaluar las relaciones en la muestra de inters
f Las diferencias entre los mtodos alternos de
agrupacin
f Las opciones disponibles para validar la agrupacin
f Las nociones bsicas que sustentan el concepto de
ordenacin
f Las similitudes y diferencias entre agrupacin y
ordenacin
Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 68

Referencias
Cavalli-Sforza, L.L. y W.F. Bodmer. 1981. Gentica de las Poblaciones Humanas.
Ed. Omega, Barcelona.
Garca, J.A., M.C. Duque, J. Tohme, S. Xu y M. Levy. 1995. SAS for Classification
Analysis: Agrobiotecnology Course, October 1995. Documento de Trabajo.
Centro Internacional de Agricultura Tropical (CIAT), Cali, Colombia.
Gauch, H.G., Jr. 1982. Multivariate Analysis and Community Structure. Cambridge
University Press, Reino Unido.
Karp, A., P.G. Isaac y D.S. Ingram. 1998. Molecular Tools for Screening
Biodiversity: Plants and Animals. Chapman & Hall, Londres.
Lynch, M. y B.G. Milligan. 1994. Analysis of population genetic structure with RAPD
markers. Mol. Ecol. 3:91-99.
Sokal, R. y J. Rohlf. 1994. Biometry: The Principles and Practice of Statistics in
Biological Research (3rd edn.). Freeman & Co, NY.

A continuacin

f Programas informticos para el anlisis de la


diversidad gentica
f Glosario

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 69

Apndices
Apndice 2. Anlisis de la varianza molecular: Ejemplo 1
Apndice 3. Anlisis de la varianza molecular: Ejemplo 2
Apndice 4. Distancia geomtrica
Apndice 5. Transformacin de datos a partir de variables cuantitativas: Un
ejemplo
Apndice 6. Aplicacin del coeficiente de concordancia simple a los caracteres
morfolgicos (variables categricas)
Apndice 7. Clculo de la distancia gentica de Nei
Apndice 8. Similitudes morfolgicas y moleculares

Apndice 2 de:

Medidas de la Diversidad Gentica


Anlisis de la varianza molecular: Ejemplo 1
Este modelo, denominado tambin AMOVA, mide la diversidad gnica entre
poblaciones, en este caso particular en reas de una regin, en un continente
(situacin 3, diapositiva 26).
Tenemos: i = individuos, j = alelos, k = poblaciones

Yki(j) = Y + ak + bk(i) + wki(j)


Donde,
= un valor entre 0 y 1 para el j-simo alelo del i-simo individuo de la
k-sima poblacin
= el efecto de la k-sima poblacin, con varianza 2a
= el efecto del i-simo individuo dentro de la k-sima poblacin, con
varianza 2b
= el efecto del j-simo locus del i-simo individuo de la k-sima
poblacin, con varianza 2w
= el producto de i, j y k; es decir, el nmero total de observaciones

Yki(j)
A(k)
Bk(i)
Wki(j)
n

Fuente de variacin

gl

SC

Entre problaciones

(k 1)

Entre individuos/pobl.

k(i 1)

Dentro de individuos

2
2
ki(j 1) Xijk Xi...k /j CMw

Total

kij 1

CM

CME

X...k /ij X /ijk

CMa

w + 22b + 2n2a

Xi...k2/j ...k2/ij

CMb

2w + 22b

2w

Xijk2 X2/ijk

Estimaciones de la varianza y de estadsticos F


a = FST
2

FIT = (2a + 2b)/2

2b = (FIT FST)2

FST = 2a/2

2w = (1 FIT)2

FIS = 2b/(2b + 2w)

2 = 2w + 2b + 2a
Donde,
a
2

b
2

w
2

= el valor paramtrico de la varianza entre poblaciones que portan


alelos idnticos. Se estima por (CMa CMb)/2n.
= el valor paramtrico de la varianza entre individuos dentro de cada
poblacin. Se estima por (CMb CMw)/2.
= el valor paramtrico de la varianza dentro de individuos o la
medida de la probabilidad de que los alelos dentro de los loci sean
diferentes. Se estima por el cuadrado medio dentro de individuos
(CMW).

Apndice 3 de:

Medidas de la Diversidad Gentica


Anlisis de la varianza molecular: Ejemplo 2
Como se describe en el Apndice 2, este modelo (AMOVA) mide la diversidad
gnica entre poblaciones, esta vez con referencia especfica a las poblaciones
dentro de un rea de una regin, en un continente (situacin 4, diapositiva 26).
Tiene un nuevo nivel jerrquico (regin), con sus respectivos valores
paramtricos y estimadores de los cuadrados medios.
Tenemos: i = individuos, j = alelos, k = poblaciones, l = regiones

Ylki(j) = Y + rl + al(k) + blk(i) + wlki(j)


Donde,
Ylki(j)
rl
al(k)
blk(i)
wlki(j)
n

= un valor entre 0 y 1 para el j-simo alelo del i-simo individuo de


la k-sima poblacin, en la l-sima regin
= el efecto de la l-sima regin, con la varianza 2r
= el efecto de la k-sima poblacin con la l-sima regin, con
varianza 2a
= el efecto del i-simo individuo dentro de la k-sima poblacin en
la l-sima regin, con varianza 2b
= efecto del j-simo locus dentro del i-simo individuo de la
k-sima poblacin, de la l-sima regin, con varianza 2c
= el producto de i, j, k y l, que es el nmero total de observaciones

Fuente de variacin

gl

CM

CME

l1

CMr

2w + 22b + 2n2a + 2nl2r

Entre pobl., dentro de regiones

l(k 1)

CMa

2w + 22b + 2n2a

Entre indiv./pobl./regiones

Ik(i 1)

CMb

2w + 22b

Dentro de individuos

lki(j 1)

CMw

2w

Entre regiones

Total
Varianza total (%)
2 = 2r + 2w + 2b + 2a

Ikij 1
%2r = (2r/2) 100

%2a = (2a /2) 100

%2b = (2b /2) 100

%2w = (2w /2) 100

r es el valor paramtrico de la varianza entre regiones y se estima por


(CMA CMB)/2nl.
2

En las estimaciones de la varianza se agrega el signo % porque podemos


expresar la varianza calculada para cada fuente (regin, poblacin dentro de una
regin, individuos dentro de una poblacin) en funcin de la varianza total y,
como tal, podemos determinar cul de los componentes de la variacin es el ms
importante. Por ejemplo, si el valor de la variacin originada por las regiones fue
alto y los valores de las dems fuentes fueron bajos, podramos concluir que las
poblaciones dentro de las regiones tienen frecuencias allicas homogneas, pero
que las poblaciones procedentes de diferentes regiones difieren marcadamente
en sus frecuencias allicas.

Apndice 4 de:

Medidas de la Diversidad Gentica


Distancia geomtrica
Variables cuantitativas
La distancia geomtrica, conocida tambin como distancia taxonmica (Sokal,
1961), se mide mediante distancias euclidianas, segn la frmula que aparece a
continuacin:

dij = [k(Xik Xjk)2]1/2


Donde,
Xik = el valor de la k-sima variable del i-simo individuo
Consulte el Apndice 5 si quiere ver un ejemplo de cmo de calcula esta
distancia.
Variables mixtas
Si hay variables mixtas, primero deben ser transformadas o estandarizadas,
segn la frmula que aparece a continuacin:

Xijstand =

Xij - Xi
si

Donde,
Xij = el valor del i-simo carcter en el j-simo individuo
Xi = el promedio para el i-simo carcter
si = la desviacin estndar para el i-simo carcter
Nmero P de variables
Si hay un nmero P de variables, el valor de la distancia para que se vuelva
independiente del nmero de variables, como se muestra a continuacin:

(Xik - Xjk)
k
k
dij2 =
P

Referencia
Sokal, R. 1961. Distance as a measure of taxonomic similarity. Syst. Zool.
10(2):40-51.

Apndice 5 de:

Medidas de la Diversidad Gentica


Transformacin de datos a partir de variables
cuantitativas: Un ejemplo
Tenemos tres caracteres tomados en cuatro individuos:
Altura de la planta (m)
Peso de la semilla (g)
Dimetro del grano de polen ()
Antes de calcular las distancias, primero debemos estandarizar los datos
mediante la siguiente frmula:

Mestand = m -m/
Despus de la estandarizacin, se pierden las unidades de medida.
m

Mestand

gestand

estand

Individuo 1

1.50

0.35

0.02

0.00

80.00

-0.15

Individuo 2

1.20

-1.41

0.03

1.00

70.00

-1.32

Individuo 3

1.45

0.06

0.01

-1.00

90.00

1.02

Individuo 4

1.60

0.94

0.02

0.00

85.00

0.44

Promedio (Xi)

1.44

0.02

81.25

Desviacin (si)

0.17

0.01

8.54

Ahora se pueden calcular las distancias para cualquier par de individuos,


aplicando la frmula que ya conocemos:
dij = [(Xij Xkj)2]1/2
d12 = [(0.35 (-1.41))2 + (0.0 1.0)2 + (-0.15 (-1.32))2]1/2 = 2.34
2

2 1/2

d13 = [(0.35 0.06) + (0.0 (-1.0)) + (-0.15 1.02) ] = 1.57


2

2 1/2

d14 = [(0.35 0.94) + (0.0 0.0) + (-0.15 0.44) ] = 0.83


2

2 1/2

d23 = [(-1.41 0.06) + (1.0 (-1.0)) + (-1.32 1.02) ] = 3.41

d11 = 0
d22 = 0
d33 = 0
d44 = 0

d24 = [(-1.41 0.94)2 + (1.0 0.0)2 + (-1.32 0.44)2]1/2 = 3.10


d34 = [(0.06 0.94)2 + (-1.0 0.0)2 + (1.02 0.44)2]1/2 = 1.45

Despus de obtener las distancias dos a dos, procedemos a encontrar los grupos
utilizando el mtodo UPGMA (para ms detalles, ver diapositivas 58 y 59 del
mdulo).

En primer lugar, organizamos en un cuadro simtrico nuestros valores de


distancia calculados:
I1

I2

I3

I1

I2

2.34

I3

1.57

3.41

I4

0.83

3.10

1.45

I4

En el primer ciclo, escogemos la distancia ms corta. En nuestro caso es


d1,4 = 0.83. Despus se puede elaborar una nueva matriz agrupando el Individuo1
con el Individuo4 y calculando las distancias combinadas:
d2(1,4) = (d1,2 + d2,4)/2 = (2.34 + 3.10)/2 = 2.72
d3(1,4) = (d1,3 + d3,4)/2 = (1.57 + 1.45)/2 = 1.51
I2

I1,4
I1,4

I2

2.72

I3

1.51

3.41

I3

Observamos ahora que la distancia ms corta est entre I1,4 y I3. En un nuevo
ciclo, se elabora una nueva matriz, agrupando el Individuo2 con el grupo I(1,4)3 y
calculando la distancia combinada d((1,4)3)2 = 3.07.
I1,4(3)
I1,4(3)

I2

3.07

I2

Con base en los resultados que aparecen arriba, podemos proceder a trazar el
dendrograma, relacionando los cuatro individuos del ejemplo:

3.00

2.00

1.50

1.00

0.0

Apndice 6 de:

Medidas de la Diversidad Gentica


Aplicacin del coeficiente de concordancia simple a
los caracteres morfolgicos (variables categricas)
Tenemos tres caracteres:
Pubescencia foliar: escasa (1), comn (2), abundante (3)
Color de los ptalos: blanco (1), amarillo (2), rojo (3)
Longitud del pecolo: corto (1), intermedio (2), largo (3)
En primer lugar, convertimos los datos de las medidas en datos binarios. Obsrvese
que los tres caracteres originales se convierten en 9 caracteres binarios. Esta
operacin podra darle demasiada importancia a estos caracteres, en detrimento de
otros que se empleen en el anlisis.
Carcter 1

Carcter 2

Carcter 3

UTO 1

UTO 2

UTO 3

UTO 4

Carcter 1
(cdigo binario)

Carcter 2
(cdigo binario)

Carcter 3
(cdigo binario)

Escaso Comn Abundante Blanco Amarillo Rojo Corto Intermedio Largo


UTO 1

UTO 2

UTO 3

UTO 4

Luego, aplicamos el coeficiente de concordancia simple para calcular las distancias


dos a dos entre individuos:
Comparaciones dos a dos para todos los caracteres
UTO 1 vs. 2

UTO 1 vs. 3

UTO 1 vs. 4

a=1

b=2

a=0

b=3

a=0

b=3

c=2

d=4

c=3

d=3

c=3

d=3

UTO 2 vs. 3

UTO 2 vs. 4

UTO 3 vs. 4

a=0

b=3

a=1

b=2

a=1

b=2

c=3

d=3

c=2

d=4

c=2

d=4

Ahora, podemos proceder con el mtodo para encontrar los grupos y dibujar el
fenograma correspondiente:
O1

O2

O3

O1

O2

0.56

O3

0.33

0.33

O4

0.33

0.56

0.56

O4

Fenograma
1

0.25

0.44

0.63

Coeficiente

0.81

1.00

Apndice 7 de:

Medidas de la Diversidad Gentica


Clculo de la distancia gentica de Nei
En primer lugar, elaboramos la matriz de distancia con los datos obtenidos en el
ejemplo (ver diapositiva 48), de la siguiente manera:
P1

P2

P3

P1

P2

0.0852

P3

0.0107

0.0440

En el primer ciclo, escogemos la distancia ms corta: d1,3 = 0.0107.


En el segundo ciclo, se elabora una nueva matriz agrupando el Individuo1 con el
Individuo4 y calculando las distancias combinadas:
d2(1,3) = (d1,2 + d2,3)/2 = (0.0852 + 0.044)/2 = 0.0646

P1,3
P1,3

P2

0.0646

P2

Ahora podemos dibujar el dendrograma:


0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

0.0

1
3
2

Apndice 8 de:

Medidas de la Diversidad Gentica


Similitudes morfolgicas y moleculares
Individuo2

Individuo1

ADN

3
7

9
11

1 2

10
12

3
7

9
11

Individuo3

7+8

10
12

3+4

9 + 10
11

Digamos que tenemos tres rosas individuales (1, 2, 3). Morfolgicamente, los
nmeros 2 y 3 se parecen, en tanto que el nmero 1 se ve diferente.
Si observamos los fragmentos de ADN, generados supuestamente con un
marcador molecular, vemos que los individuos 2 y 3 parecen ser ms similares.
Entonces, qu sucedi? Esto apunta a la importancia de estudiar la diversidad
gentica en todos los niveles posibles. La combinacin de informacin
procedente de diferentes tipos de marcadores es decir, los de los genes
funcionales y aquellos que muestran polimorfismo en regiones genmicas
proveer la mejor aproximacin posible al conocimiento sobre la variacin
gentica presente. Se aplicara el mismo principio si pudiramos combinar datos
morfolgicos y moleculares.
En este Apndice sealamos el tipo de errores en que podemos incurrir si las
conclusiones se basan solamente en un tipo de datos de marcadores.

12

Indiv. 1

Indiv. 2

b=1

c=2

d=3

Indiv. 1

21

c=3

d=2

Indiv. 2

b=8

c=4

d=0

12
11
10

b=6

a=5

7+8

a=6

Indiv. 3

9+10

Ind. 1 Ind. 2 Ind. 3

a = 11

Indiv. 3

J1,2 =

3+4

22

11
6
5
= 0.786 J1, 3 =
= 0.400 J2, 3 =
= 0.294
11 + 1 + 2
6+6+3
5+8+4

Con base en el perfil de bandas de ADN obtenido en el gel para los tres
individuos, se calculan las distancias dos a dos, utilizando el coeficiente de
Jaccard:

J =

a
a + b + c

Luego, elaboramos la matriz de distancia y dibujamos el dendrograma:

0.400

0.294

Ind12
Ind12

0.786

Ind3

Ind3

Ind1

Ind2

Ind2

Ind3

Ind1

0.347

1,2, =
=
S1,2,3
S
3

Ind3

,3
1,3++S
S
S1,3
S22,3
==0.34
0.347
2
2

0.0

Dendrograma
molecular

0.2

0.4

0.6

0.8

1.0

Ind1

Ind2
Ind3

Este dendrograma se obtuvo a partir de los datos moleculares. Ahora, podemos


compararlo con otro dendrograma que aparece a continuacin, que fue obtenido
a partir de observaciones morfolgicas, y ver cmo difieren entre s. Segn el
dendrograma molecular, los individuos 1 y 2 se encuentran ms cercanos entre
s, aun cuando los datos morfolgicos indican que los Individuos 2 y 3 son ms
cercanos.

Dendrograma
morfolgico

0.0

1.0

IInd
Ind11
Ind2
Ind3

Podemos tambin usar una combinacin de datos moleculares y morfolgicos,


volviendo a realizar el proceso con ambos datos simultneamente.
9

Indiv. 1

Indiv. 2

Indiv. 1

a = 11

b=2

c=2

d=3

Indiv. 3

Indiv. 2

a=6

b=7

c=3

d=2
Indiv. 3

a=6

b=8

c=4

d=0

Ind.1

Ind.2

Ind.3

9+10
7+8
12
11
10

2
21
3+4
1
22

11
6
6
= 0.733 J1,3 =
= 0.375 J2,3 =
= 0.333
11 + 2 + 2
6+7+3
6 +8+ 4
Ind1

Ind1

Ind2

1
0.733
0.375

Ind2
Ind3

Ind3

1
0.333

Ind3 Ind12

J1,2 =

Ind12

1
0.554

S(1,2)3 =

0.0

0.2

0.4

0.6

0.8

Ind3

S1,3 + S2,3
= 0.554
2

1.0

Ind2
Ind3
Ind1

El dendrograma combinado
indica distancias de agrupacin
que difieren del dendrograma
molecular y del dendrograma
morfolgico, considerados por
separado. En consecuencia,
podemos asumir que la
informacin provista al combinar
los datos est ms cerca de la
realidad de la situacin.

Apndice 9 de:

Programas Informticos para el Anlisis de


la Diversidad Gentica
Referencias a los programas informticos
Arlequin
Schneider, S., D. Roessli y L. Excoffier. 2000. Arlequin: A Software for Population
Genetics Data Analysis, Versin 2.000. Laboratorio de Gentica y Biometra,
Dept. de Antropologa, Universidad de Ginebra, Suiza.
CLUSTAL W
Thompson, J.D., D.G. Higgins y T.J. Gibson. 1994. CLUSTAL W: improving the
sensitivity of progressive multiple sequence alignment through sequence
weighting, position-specific gap penalties and weight matrix choice. Nucleic
Acids Res. 22:4673-4680.
DnaSP
Rozas, J. y R. Rozas. 1995. DnaSP, DNA sequence polymorphism: an interactive
program for estimating population genetics parameters from DNA sequence
data. Comput. Appl. Biosci. 11:621-625.
GDA
Lewis, P.O. y D. Zaykin. 1999. Genetic Data Analysis: Computer Program for the
Analysis of Allelic Data, Versin 1.0 (d12). Distribuido por los autores.
GENEPOP
Raymond, M. y F. Rousset. 1995. GENEPOP (versin 1.2): Population genetics
software for exact tests and ecumenicism. J. Hered. 86:248-249.
GeneStrut
Constantine, C.C., R.P. Hobbs y A.J. Lymbery. 1994. FORTRAN programs for
analysing population structure from multilocus genotype data. J. Hered.
85:336-337.
MacClade
Maddison, D.R. y W.P. Maddison. 2000. MacClade. Versin 4. Sinauer
Associates, Sunderland, MA.
MALIGN
Janies, D. y W.C. Wheeler. 1998. MALIGN.pdf: Documentation for MALIGN,
software for multiple alignments of DNA sequences. Distribuido por los
autores en la Internet en <ftp://ftp.amnh.org/pub/molecular/malign/>.

MEGA2
Kumar, S., K. Tamura, I.B. Jakobsen y M. Nei. 2001. MEGA2: Molecular
Evolutionary Genetics Analysis software. Bioinformatics 17(12):1244-1245.
NTSYSpc
Rohlf, F.J. 2002. NTSYS pc: Numerical Taxonomy System, Version 2.1. Exeter
Publishing, Setauket, NY.
PAUP*
Swofford, D.L. 2002. PAUP*: Phylogenetic Analysis Using Parsimony (*and Other
Methods), Versin 4. Sinauer Associates, Sunderland, MA.
PHYLIP
Felsenstein, J. 1993. PHYLIP (Phylogeny Inference Package), Versin 3.5c.
Distribuido por el autor.
POPGENE
Yeh, F.C., R.C. Yang, T.B.J. Boyle, Z.H. Ye y J.X. Mao. 1997. POPGENE, the
User-Friendly Shareware for Population Genetic Analysis. Centro de Biologa
Molecular y Biotecnologa, Universidad de Alberta, Canad.
PowerMarker
Liu, J. 2003. PowerMarker: New Genetic Data Analysis Software, Versin 1.0.
Programa distribuido por el autor en forma gratuita en la Internet en
<http://www.powermarker.net>
SITES
Hey, J y J. Wakeley. 1997. A coalescent estimator of the population
recombination rate. Genetics 145:833-846.
structure
Pritchard, J.K., M. Stephens y P. Donnelly. 2000. Inference of population
structure using multilocus genotype data. Genetics 155:945-959.
TFPGA
Miller, M.P. 1997. Tools for Population Genetic Analysis (TFPGA), 1.3: A
Windows Program for the Analysis of Allozyme and Molecular Population
Genetic Data. Distribuido por el autor.

Das könnte Ihnen auch gefallen