Sie sind auf Seite 1von 20

Mthodes phntiques

Cest en 1963 que Edwards et Cavalli-Sforza ont explicitement invoqu le principe de


parcimonie propos de gntique des populations : lestimation la plus plausible dun arbre
volutif est celle qui fait appel la quantit minimale dvolution.
Exemple :si tel est le cas, les arbres les plus courts pour un jeu de donnes devraient ltre
aussi pour dautres jeux de donnes sur les mmes taxons.
La squence de la -globine pour 11 taxons est utilise pour construire les arbres les plus
parcimonieux. Des arbres de 124 133 changements ont t obtenus . On compare ensuite la
longueur de ces mmes arbres en prenant comme protines soit le cytochrome C soit les
fibrinopeptides A et B et l-globine. On montre quen moyenne les arbres qui ncessitent le
moins de pas avec la -globine en ncessitent galement moins avec les autres jeux de
donnes. .(Testing the theory of descent, Penny, Hendy and Steel (1991) in Phylogenetic
analysis of DNA sequences ed Miyamoto and Cracraft).

Figure II- 1. Les mmes arbres sont les plus parcimonieux avec deux jeux de donnes
Dans les annes suivantes, ce principe fut repris tant pour des analyses de distance
(Cavalli-Sforza et Edwards 1967 ; Fitch et Margoliash 1967) que pour des analyses
cladistiques (Camin et Sokal 1965 ;Kluge et Farris 1969.
Popper qui ntait cependant pas anti volutionniste dit en 1976 : Le Darwinisme nest pas
une hypothse testable, mais un programme de recherche mtaphysique un cadre possible
pour une thorie de lvolution testable.
Si lon applique un programme de recherche darbres les plus parcimonieux sur 5 protines
diffrentes pour 11 taxa diffrents, les arbres obtenus doivent tre similaires sils refltent les
relations de parent (ou volutives) entre ces 11 taxa.

Figure II- 2. La comparaison des arbres construits avec les a et b globines montre que la
probabilit de retrouver des arbres avec si peu de diffrences est de 5*10-4
Les mthodes phntiques (ou de distance) ont leur origine dans les mthodes de la
taxinomie numrique conues en 1957 par Michener et Sokal. Elles sopposrent aux
pratiques des systmaticiens volutionnistes comme Mayr car se voulaient libres de toute
spculation phylogntique. Les techniques employes sont celles de la classification
dorganismes sur la base de similitude globale. Les consquences phylogntiques que lon
peut en tirer ne sont quaccessoires.

Concepts de base

Les relations entre taxons sont des relations phntiques et non des relations
phylogntiques
Plus on a dinformations, plus de caractres dcrits plus on peut tre prdictif
Chaque caractre a le mme poids (pas da priori phylogntique). Cependant une
pondration peut se faire dans certains cas sur la base de critres oprationnels
La ressemblance est calcule entre chaque paire dunits taxinomiques et sexprime
par des coefficients de similitude qui forment les lments dune matrice de
similitude. Des taxons diffrents ont des associations diffrentes de caractres donc
on mesure une similitude globale.
La reprsentation des relations taxinomiques (restitues au moyen de techniques
numriques varies) se fait au moyen de schmas, les phnogrammes indiquant les
relations phntiques
Les mesures de similitude phntique entre les organismes appartenant diffrentes
poques gologiques fournissent une information objective sur la vitesse et la
direction de lvolution.
Les infrences phylogntiques seffectuent en dernier en intgrant des hypothses
sur lhistoire et les mcanismes de lvolution.

La taxinomie numrique est une science empirique qui base la classification sur la
similitude globale, rappelant en cela la mthode dAdanson 1726-1806) qui cra les
principales familles dangiospermes et ne suivi jamais le Sexual System de Linne.
Les caractres utiliss ne sont que des caractres homologues quil est prfrable de
rendre binaires. Ce qui pose un problme de codage des caractres (exemple de couleurs de la
fleur).
Il ressort de tout cela que les mthodes phntiques sont dnues de contenu volutif.
Cependant on rencontre souvent dans la littrature des phnogrammes interprts comme
des arbres phylogntiques. Des arbres phntiques peuvent tre assimils des arbres
phylogntiques si des hypothses concernant les phnomnes volutifs sont poses. Enfin
certaines sources dinformation ne peuvent tre interprtes quau moyen de mthodes
phntiques ( donnes immunologiques, hybridation dADN).

Distance
Similitude et distance
La ressemblance stablit partir dinformations biologiques varies qui ont des
formulations varies. Il peut sagir dun caractre prsentant deux tats possibles et
mutuellement exclusifs (caractre morphologique ou une base ou un AA en une position
donne).

naa + nbb
S ij =
K

nbb
Sij =
K naa

Indice de concordance simple de


Sokal et Michener (1958)

Indice de similitude de Jaccard


(1908);cas des RFLP ou des
caractres manquants desfossiles.

Avec lindice de similitude de Jaccard les caractres qui prsentent tous deux un certain tat
sont considrs comme non informatifs (exemple des caractres manquants avec des fossiles
ou des bandes absentes dans des analyses RFLP)
Ce peut tre la prsence ou labsence dun caractre (que lon peut ramener au cas prcdent)
ou encore des valeurs continues telles que frquences gniques, mesures morphomtriques
etc. On compare toutes ces variables en notant la fraction qui est identique dune UE lautre
(similitude). Dans dautres cas (hybridation dADN)la comparaison sexprime par une seule
valeur : le % dhybridation croise.
Plus la similitude entre deux taxons est grande moins la distance qui les spare est
grande.

d ij = 1 Sij

Proprits des distances


Les distances sont toujours positives, commutatives, la distance dune UE elle mme
est nulle. Elles peuvent tre mtriques (il est plus court daller directement dune UE une
autre que de passer par un anctre), si de plus les deux plus grandes distances sont gales elles
sont ultra mtriques. En revanche si la distance ij est gale ik+jk les distances sont additives

ij

> 0

si i<>j (positivit)

ij

= 0

si i=j (la distance de lUE elle mme est nulle)

ij

ji

(commutativit)

Distances mtriques 1(Proprit de lingalit triangulaire )

ij

ik

Distances ultramtriques

jk

jk

(donc les 2 plus grandes distances sont gales 2)

ij max( ik ,

avec jk=ik

Distances additives

ij = ik +

i
1

jk

Figure II- 3. Proprits des distances.

Distances observes et values


Afin de simplifier lanalyse nous considrerons un caractre qui peut tre sous deux tats a et
b. Si lon observe le mme tat pour ce caractre dans deux taxons, cela peut rsulter de
diffrents vnements.

Figure II- 4. Diffrents vnements qui rendent compte du mme tat de caractre pour
les taxons 1 et 2.
Lndice de concordance simple de Sokal et Michener donne comme distance observe sur K
sites au total

sij =

naa + nbb
K

Suivant le scnario volutif choisi, la distance nest pas la mme car certains vnements sont
cachs. Est-il possible de corriger les distances observes afin de tenir compte des vnements
cachs (vnements multiples avec les caractres molculaires) ?
Principe du calcul
k anctre commun
Sij = naa + nbb
K
dij = 1 Sij

Dobs =

nab + nba
K

Soit la probabilit dune diffrence entre une UE (i ou j) et son anctre (k) sur un caractre
Soit f la probabilit que le caractre K soit dans ltat a et (1-f) quil soit dans ltat b.

Probabilit davoir a la fois chez i et j


Si k est sous la forme a
Pb=f
Pas de changement entre k et i Pb 1-
aa
Pas de changement entre k et j Pb 1-
2
f*(1-)
ou
et

bb

un changement entre k et i Pb
un changement entre k et j Pb

f* 2
ab

ou
et
f*(1-)*

Dobs = 2 (1 )

Pas de changement entre k et i Pb 1-


un changement entre k et j Pb

pour chaque position

Si la frquence de changements de a en b reste constante par unit de temps (hypothse


de lhorloge molculaire) et puisque les changements sont un vnement rare, cette
probabilit peut scrire sous forme dune loi de Poisson :
r n

ne
Pr =
r!

avec r nombre dvnements et n moyenne de ces changements


On peut remplacer n par mt avec m = nombre de changements par unit de temps.
r mt

Pr =

Pour 1 changement a b
Pour 2 changements a a
Pour 2n+1 changements a b
Pour 2n changements a a

mt e
r!

La probabilit que i et k soient sous 2 tats diffrents est gale la somme des probabilits
de changements impairs P(1) +P(3) +P(5)+

mt1e mt mt 3e mt mt 51e mt
=
+
+
+
1!
31!
51!
=e
or

mt

mt1 mt 3 mt 5

+
+
+
1
!
3
!
5
!

x1 x 2 x 3
e = 1+ +
+
+ .....
1! 2! 3!
x

Et on sait que

x1 x 3 x 5
e x + ex
+
+
+ =
1! 3! 5!
2

x2 x4 x6
e x ex
+
+
+ =
(ainsi que
qui est inutile ici)
2! 4! 6!
2
En remplaant x par mt

1
e mt mt
=
e + e mt = 1 + e 2 mt
2
2

Dobs ( ij ) =

nab + nba
= Pab + Pba = 2( (1 ))
K

D obs ( ij )

D obs ( ij )

1 + e 2 mt
=
2

1 + e 2 mt
1

1 + e 2 mt
=
2

1 e 2 mt

Dobs(ij) = 1/2 (1 - e 4mt) pour la distance observe au temps t


Or on veut estimer la distance relle
Dest (ij) = 2mt par la distance observe Dobs( ij)
1 2 Dobs( ij) = e 4mt
Log (1 2 Dobs( ij) = -4mt
Dest (ij) = 2mt = -1/2 Log (1 2 Dobs( ij))

Corrections utilises
Les diffrentes corrections possibles sont calcules dune faon analogue mais avec 4
tats au lieu de 2 (AGCT).
Ces corrections supposent donc lexistence dune horloge molculaire.
Une autre hypothse implicite est que tous les changements de caractres sont indpendants
les uns des autres (produit de probabilits). Si ces points ne sont pas respects par les donnes
la correction de la distance nest pas justifie.

Dans ces diffrentes mthodes de correction, on distingue souvent les transitions


(remplacement dune base par une autre de mme type, une purine par une autre purine, une
pyrimidine par une autre pyrimidine) des transversions (une base dun type est remplace par
une base de lautre type. Ces deux types de substitution ont des effets diffrents sur une
squence codant une protine. Du fait de la dgnrescence du code gntique, les transitions
donneront plus souvent des mutations silencieuses alors que les transversions entraneront
plus souvent des substitutions dacides amins dans la squence protique. Ces deux types de
substitution ne sont pas soumises aux mmes pressions slectives.

Figure II- 5. Transitions et transversions.

Jukes et Cantor: un caractre peut se prsenter sous 4 tats diffrents avec des
probabilits de changement toutes gales entre elles, les distances observes sont
corriges suivant la formule suivante :

3 4

Dest ( ij ) = ln 1 (1 sij )
4 3

Indice de Kimura (1980) o P et Q sont respectivement les frquences de transitions et


transversions (les quatre types de transition sont quiprobables, il en est de mme des
huit types de transversion):

1
Dest ( ij ) = Ln (1 2 P Q )
2

(1 2Q ) )]

Quelques autres modles


Modle
Jukes et Cantor
Kimura 2p
Tamura 3p
Tajima et Nei 1p
Hasegawa HKY85
2p
Tamura et Nei 3p
Modle 8 p

A/G/C/T
A=G=C=T=25%
A=G=C=T=25%
A+T=1-, G+C=
AGCT
AGCT

Pb SI

Pb Ve

AGCT
AGCT

1(Pyr) et 2(Pur)
1, 2, 3 et 4

1, 2, 3 et 4

Cas du modle 8 paramtres


Mutant
Normal
A
T
C
G

G4

1
1
1

2
2
2

3
3
3

4
4
4
-

Parmi ces modles, dans les deux premiers la frquence lquilibre des 4 nuclotides est
25% ; la frquence initiale en est quelconque, ces modles sont dits non stationnaires. Par
contre les estimateurs de distance dans tous les autres modles ncessitent que les frquences
des 4 nuclotides restent les mmes tout au long du processus volutif : modles stationnaires.

Des tests statistiques ont t proposs pour vrifier ou infirmer ces modles
(A.Rzhetsky et M.Nei ; Mol. Biol. Evol. 12 pp131-51 (1995)).

Tests statistiques
Test de linvariant unique: sous le modle de JC les paires AG et TC (transitions=P)
sont 2 fois moins observables que les autres (transversions=Q). On attend donc : 2PQ=0. On va donc estimer lcart de JC sa valeur thorique 0 avec
n

i=N

( xi x)

i j

i =1

JC = (2 Pij Qij )c .Pour cela, on calcule la variance ( V =


(V(JC)) et on compare

JC
V ( JC )

) de JC

z o reprsente le degr de signification souhait


2

et z la valeur seuil au-del de laquelle la courbe de la probabilit a la surface /2.


Dans le modle Kimura cela revient tester si et sont gaux. Dans le modle
Kimura au sein des transversions on peut distinguer les paires AT+GC=T et AC+GT=
U qui doivent tre gales. Le test va donc mesurer la probabilit que K soit
m

significativement diffrent de 0 (rejet de lhypothse) K = Tij U ij


i j

Test de stationnarit Dans les autres modles, lquilibre la probabilit g du


nuclotide x dans la squence 1,2, ou m est la mme : g x1 = g x 2 = ... = g xm . Cest ce
que lon va tester.
Test des invariants multiples. Si le test prcdent a tabli que la frquence des
nuclotides remplissait bien la condition de stationnarit, on va chercher quel est le
modle le plus simple qui rende compte des donnes. On va considrer 10 couples de
changements possibles (les changements rciproques tant de mme probabilit) : AA,
AT, AC, AG, TT, TC, TG, CC, CG, GG avec AA = X 1 , AT = X 2 ,... Pour chaque
modle il est possible dcrire pour Xi une quation de la forme ( a s X s ) + b = 0 ou s
s

indique le sme nuclotide, a et b les paramtres de chaque modle. Le modle de


Kimura revient alors a2 = a7 = 1 , a3 = a9 = 1 et tous les autres a et b sont nuls soit

X AT X AC X GT + X GC = 0

Procdures
Les mthodes dcrites ici sont des mthodes agglomratives : aprs construction du tableau de
distance entre tous les taxons pris deux deux, on commence regrouper deux Units
Evolutives en une Unit Evolutive Hypothtique. On reconstruit un tableau de distances en
remplaant ces deux UE par lUEH et on agglomre de nouveau deux UE( ou UEH). Cette
tape est recommence jusqu ce que tous les taxons soient inclus dans larbre.

UPGMA
Ce qui signifie Unweighted Pair-Group Method of Arithmetic average.
Dans cette mthode le critre de regroupement de deux UE est la plus grande proximit :
aprs le regroupement des deux UE les plus proches, on les remplace par une UE
Hypothtique et on recommence chercher les deux UE (ou UEH les plus proches) en
calculant les distances entre UE et UEH comme une moyenne entre toutes les UE que
comprend lUEH.

i
x

1 r s
d xy = dij
rs i =1 j =1
avec r et s tant le nombre de UE comprises respectivement dans les UEH x et y.
WPGMA non rencontr dans les logiciels usuels calcule la distance entre deux UEH de faon un peu
diffrente :
r

1 1
d
ci
cj ij
j =1 2 2

d xy =
i =1

o ci et cj reprsentent le nombre dtapes prcdant ltape

dagglomration de x et y

Les arbres obtenus par cette mthode sont obligatoirement racins puisque la distance est
rpartie de faon uniforme sur chaque branche. Pour que cette mthode soit applicable
lhorloge molculaire doit tre respecte.

Tetrahy

Ginkgo

Epinard

Sureau

Poireau

Mouche

Bonite

Lapin

Rat

Tetrahy

Ginkgo

68

Epinard

72

19

Sureau

66

15

17

Poireau

61

15

12

Mouche

69

44

46

50

42

Bonite

68

45

48

51

42

23

Lapin

68

40

45

48

40

21

17

Rat

69

39

44

47

39

20

16

Cheval

68

43

48

50

42

22

18

Cheval

Figure II- 6. La premire tape dune procdure UPGMA. Choix des UE les plus
proches et dbut du processus agglomratif. La distance est galement rpartie sur les
deux branches.

Etape 2
Tetrahym.

Ginkgo

Epinard

Sureau

Poireau

Mouche

Bonite

L+R

Tetrahym.

Ginkgo

68

Epinard

72

19

Sureau

66

15

17

Poireau

61

15

12

Mouche

69

44

46

50

42

Bonite

68

45

48

51

42

23

L+R

68,5

39,5

44,5

47,5

39,5

20,5

16,5

Cheval

68

43

48

50

42

22

18

Cheval

Etape 3
Tetrahym.

Ginkgo

Epinard

Sureau

Poireau

Mouche

Bonite

Tetrahym.

Ginkgo

68

Epinard

72

19

Sureau

66

15

17

Poireau

61

15

12

Mouche

69

44

46

50

42

Bonite

68

45

48

51

42

23

L+R+C

68,33

40,67

45,67

48,33

40,33

21

17

L+R+C

Etape 4
Tetrahymena

Ginkgo

Epinard

S+P

Mouche

Bonite

Tetrahymena

Ginkgo

68

Epinard

72

19

S+P

68

15

14,5

Mouche

69

44

46

50

42

Bonite

68

45

48

51

42

23

L+R+C

68,33

40,67

45,67

44,33

21

17

L+R+C

Etape 5
Tetrahymena

Ginkgo

S+P+E

Mouche

Bonite

Tetrahymena

Ginkgo

68

S+P+E

69,33

16,33

Mouche

69

44

46

42

Bonite

68

45

47

42

23

L+R+C

68,33

40,67

44,78

21

17

L+R+C

Etape 6
Tetrahymena

S+P+E+G

Mouche

Bonite

Tetrahymena

S+P+E+G

69

Mouche

69

45,5

Bonite

68

46,5

42

L+R+C

68,33

43,75

21

17

L+R+C

Etape 7
Tetrahymena

S+P+E+G

Mouche

Tetrahymena

S+P+E+G

69

Mouche

61

45,5

R+L+C+B

68,5

44,43

21,5

R+L+C+B

Etape 8
Tetrahymena

S+P+E+G

Tetrahymena

S+P+E+G

69

R+L+C+B+M

67

44,64

R+L+C+B+M

Etape 9
Tetrahymena
Tetrahymena

S+P+E+G+R+L+C+B+M

67,89

S+P+E+G+R+L+C+B+M

Figure II- 7. Les tapes successive pour construire larbre de tous les taxons par la
mthode UPGMA.

NJ pour Neighbor Joining


Etablissement de la formule qui permet la programmation du calcul.

Q = Dij
i< j

Dans larbre le moins rsolu, larbre toile la somme de toutes les branches est gale

Q
(n 1)

S0 =

Dans la pratique, il peut exister des arbres plus courts en agglomrant deux taxons
terminaux selon un schma du type ci-dessous.
k
l

m
x

y
n

D reprsente une distance observe


B reprsente une distance estime
La longueur de larbre correspondant sexprime :

S ij = Bix + B jx + Bxy +

k i j

yk

B reprsente la longueur estime des diffrentes branches de larbre. Les distances observes
D sexpriment de la faon suivante :

Dij = Bix + Bjx

Dik = Bix + Bxy + B yk


et il y a n-2 distances de ce type donc

k i j

ik

= (n 2)( Bix + B xy ) +

k i j

yk

De la mme manire pour les distances de j tous les autres diffrents de i

D jk = B jix + Bxy + B yk
et il y a n-2 distances de ce type donc

k i j

= (n 2)( B jx + B xy ) +

jk

k i j

yk

Dkl = B yk + B yl
soit pour toutes les distances entre les n-2 otus de ltoile :

k ,l i , j

= (n 3) B yk

kl

Pour rsumer on somme 1, 3, 4 et 5:

Dij = Bix + B jx

ik

= (n 2)( Bix + B xy ) +

jk

= ( n 2)( B jx + Bxy ) +

k i j

k i j

k ,l i , j

= (n 3) B yk

kl

k i j

k i j

yk

yk

Q = ( Bix + B jx )(1 + n 2) + 2(n 2) B xy + ( 2 + n 3) B yk

Q = (n 1) Dij + 2(n 2) Bxy + (n 1) Byk

Dautre part, daprs (5) :

k i j

yk

k ,l i , j

kl

(n 3)

et

k ,l i , j

kl

= Q Ri R j + Dij

avec
n

Ri = Dij
j i

distances de lOTU i toutes les autres

R j = Dij
i j

distances de lOTU j toutes les autres

On tire de 6
n

Bxy =

Q (n 1) Dij (n 1) B yk
k i j

2(n 2)

En substituant dans 1 les valeurs donnes par 2 et 9

S ij = Bix + B jx + B xy + Byk

S ij = Dij +

Sij =

Q ( n 1) Dij (n 1) B yk
2( n 2)

(1)

+ B yk

[2(n 2) (n 1)] Dij + Q + [2(n 2) (n 1)] Byk

S ij =

2
(2n 4 n + 1) Dij + Q + (n 3) B yk
2(n 2)

Puis en utilisant la valeur de

yk

exprime dans 7 et en remplaant ensuite

kl

par sa valeur

donne en 8

S ij =

S ij =

(n 3) Dij + Q + Dkl
2(n 2)

(n 3) Dij + Q + Q Ri R j + Dij
2(n 2)

(n 2) Dij + 2Q Ri R j
2(n 2)

S ij =

Dij
2

2Q Ri R j
2(n 2)

Le calcul des longueurs de branches se fait selon la formule suivante :

Dix =

Dij
2

Ri R j
2(n 2)

o x reprsente lanctre hypothtique commun i et j.


il faut donc noter que cette mthode est base sur lexistence dune horloge molculaire, mais
quelle tente den corriger les irrgularits : si un taxon est sur une longue branche, sa distance tous
les autres sera augmente ; cest le principe de la correction

Tableau II- 1. Comparaison des caractristiques des deux processus de construction de


phnogramme les plus utiliss.
Ces deux mthodes donnent des rsultats qui peuvent tre un peu diffrents.

Figure II- 8. Arbres 7 taxons obtenus avec NJ ou UPGMA. Les deux arbres sont
orients de la mme faon pour les comparer commodment, cependant celui de gauche
nest pas racin, alors que celui de droite lest.

Das könnte Ihnen auch gefallen