Beruflich Dokumente
Kultur Dokumente
Figure II- 1. Les mmes arbres sont les plus parcimonieux avec deux jeux de donnes
Dans les annes suivantes, ce principe fut repris tant pour des analyses de distance
(Cavalli-Sforza et Edwards 1967 ; Fitch et Margoliash 1967) que pour des analyses
cladistiques (Camin et Sokal 1965 ;Kluge et Farris 1969.
Popper qui ntait cependant pas anti volutionniste dit en 1976 : Le Darwinisme nest pas
une hypothse testable, mais un programme de recherche mtaphysique un cadre possible
pour une thorie de lvolution testable.
Si lon applique un programme de recherche darbres les plus parcimonieux sur 5 protines
diffrentes pour 11 taxa diffrents, les arbres obtenus doivent tre similaires sils refltent les
relations de parent (ou volutives) entre ces 11 taxa.
Figure II- 2. La comparaison des arbres construits avec les a et b globines montre que la
probabilit de retrouver des arbres avec si peu de diffrences est de 5*10-4
Les mthodes phntiques (ou de distance) ont leur origine dans les mthodes de la
taxinomie numrique conues en 1957 par Michener et Sokal. Elles sopposrent aux
pratiques des systmaticiens volutionnistes comme Mayr car se voulaient libres de toute
spculation phylogntique. Les techniques employes sont celles de la classification
dorganismes sur la base de similitude globale. Les consquences phylogntiques que lon
peut en tirer ne sont quaccessoires.
Concepts de base
Les relations entre taxons sont des relations phntiques et non des relations
phylogntiques
Plus on a dinformations, plus de caractres dcrits plus on peut tre prdictif
Chaque caractre a le mme poids (pas da priori phylogntique). Cependant une
pondration peut se faire dans certains cas sur la base de critres oprationnels
La ressemblance est calcule entre chaque paire dunits taxinomiques et sexprime
par des coefficients de similitude qui forment les lments dune matrice de
similitude. Des taxons diffrents ont des associations diffrentes de caractres donc
on mesure une similitude globale.
La reprsentation des relations taxinomiques (restitues au moyen de techniques
numriques varies) se fait au moyen de schmas, les phnogrammes indiquant les
relations phntiques
Les mesures de similitude phntique entre les organismes appartenant diffrentes
poques gologiques fournissent une information objective sur la vitesse et la
direction de lvolution.
Les infrences phylogntiques seffectuent en dernier en intgrant des hypothses
sur lhistoire et les mcanismes de lvolution.
La taxinomie numrique est une science empirique qui base la classification sur la
similitude globale, rappelant en cela la mthode dAdanson 1726-1806) qui cra les
principales familles dangiospermes et ne suivi jamais le Sexual System de Linne.
Les caractres utiliss ne sont que des caractres homologues quil est prfrable de
rendre binaires. Ce qui pose un problme de codage des caractres (exemple de couleurs de la
fleur).
Il ressort de tout cela que les mthodes phntiques sont dnues de contenu volutif.
Cependant on rencontre souvent dans la littrature des phnogrammes interprts comme
des arbres phylogntiques. Des arbres phntiques peuvent tre assimils des arbres
phylogntiques si des hypothses concernant les phnomnes volutifs sont poses. Enfin
certaines sources dinformation ne peuvent tre interprtes quau moyen de mthodes
phntiques ( donnes immunologiques, hybridation dADN).
Distance
Similitude et distance
La ressemblance stablit partir dinformations biologiques varies qui ont des
formulations varies. Il peut sagir dun caractre prsentant deux tats possibles et
mutuellement exclusifs (caractre morphologique ou une base ou un AA en une position
donne).
naa + nbb
S ij =
K
nbb
Sij =
K naa
Avec lindice de similitude de Jaccard les caractres qui prsentent tous deux un certain tat
sont considrs comme non informatifs (exemple des caractres manquants avec des fossiles
ou des bandes absentes dans des analyses RFLP)
Ce peut tre la prsence ou labsence dun caractre (que lon peut ramener au cas prcdent)
ou encore des valeurs continues telles que frquences gniques, mesures morphomtriques
etc. On compare toutes ces variables en notant la fraction qui est identique dune UE lautre
(similitude). Dans dautres cas (hybridation dADN)la comparaison sexprime par une seule
valeur : le % dhybridation croise.
Plus la similitude entre deux taxons est grande moins la distance qui les spare est
grande.
d ij = 1 Sij
ij
> 0
si i<>j (positivit)
ij
= 0
ij
ji
(commutativit)
ij
ik
Distances ultramtriques
jk
jk
ij max( ik ,
avec jk=ik
Distances additives
ij = ik +
i
1
jk
Figure II- 4. Diffrents vnements qui rendent compte du mme tat de caractre pour
les taxons 1 et 2.
Lndice de concordance simple de Sokal et Michener donne comme distance observe sur K
sites au total
sij =
naa + nbb
K
Suivant le scnario volutif choisi, la distance nest pas la mme car certains vnements sont
cachs. Est-il possible de corriger les distances observes afin de tenir compte des vnements
cachs (vnements multiples avec les caractres molculaires) ?
Principe du calcul
k anctre commun
Sij = naa + nbb
K
dij = 1 Sij
Dobs =
nab + nba
K
Soit la probabilit dune diffrence entre une UE (i ou j) et son anctre (k) sur un caractre
Soit f la probabilit que le caractre K soit dans ltat a et (1-f) quil soit dans ltat b.
bb
un changement entre k et i Pb
un changement entre k et j Pb
f* 2
ab
ou
et
f*(1-)*
Dobs = 2 (1 )
ne
Pr =
r!
Pr =
Pour 1 changement a b
Pour 2 changements a a
Pour 2n+1 changements a b
Pour 2n changements a a
mt e
r!
La probabilit que i et k soient sous 2 tats diffrents est gale la somme des probabilits
de changements impairs P(1) +P(3) +P(5)+
mt1e mt mt 3e mt mt 51e mt
=
+
+
+
1!
31!
51!
=e
or
mt
mt1 mt 3 mt 5
+
+
+
1
!
3
!
5
!
x1 x 2 x 3
e = 1+ +
+
+ .....
1! 2! 3!
x
Et on sait que
x1 x 3 x 5
e x + ex
+
+
+ =
1! 3! 5!
2
x2 x4 x6
e x ex
+
+
+ =
(ainsi que
qui est inutile ici)
2! 4! 6!
2
En remplaant x par mt
1
e mt mt
=
e + e mt = 1 + e 2 mt
2
2
Dobs ( ij ) =
nab + nba
= Pab + Pba = 2( (1 ))
K
D obs ( ij )
D obs ( ij )
1 + e 2 mt
=
2
1 + e 2 mt
1
1 + e 2 mt
=
2
1 e 2 mt
Corrections utilises
Les diffrentes corrections possibles sont calcules dune faon analogue mais avec 4
tats au lieu de 2 (AGCT).
Ces corrections supposent donc lexistence dune horloge molculaire.
Une autre hypothse implicite est que tous les changements de caractres sont indpendants
les uns des autres (produit de probabilits). Si ces points ne sont pas respects par les donnes
la correction de la distance nest pas justifie.
Jukes et Cantor: un caractre peut se prsenter sous 4 tats diffrents avec des
probabilits de changement toutes gales entre elles, les distances observes sont
corriges suivant la formule suivante :
3 4
Dest ( ij ) = ln 1 (1 sij )
4 3
1
Dest ( ij ) = Ln (1 2 P Q )
2
(1 2Q ) )]
A/G/C/T
A=G=C=T=25%
A=G=C=T=25%
A+T=1-, G+C=
AGCT
AGCT
Pb SI
Pb Ve
AGCT
AGCT
1(Pyr) et 2(Pur)
1, 2, 3 et 4
1, 2, 3 et 4
G4
1
1
1
2
2
2
3
3
3
4
4
4
-
Parmi ces modles, dans les deux premiers la frquence lquilibre des 4 nuclotides est
25% ; la frquence initiale en est quelconque, ces modles sont dits non stationnaires. Par
contre les estimateurs de distance dans tous les autres modles ncessitent que les frquences
des 4 nuclotides restent les mmes tout au long du processus volutif : modles stationnaires.
Des tests statistiques ont t proposs pour vrifier ou infirmer ces modles
(A.Rzhetsky et M.Nei ; Mol. Biol. Evol. 12 pp131-51 (1995)).
Tests statistiques
Test de linvariant unique: sous le modle de JC les paires AG et TC (transitions=P)
sont 2 fois moins observables que les autres (transversions=Q). On attend donc : 2PQ=0. On va donc estimer lcart de JC sa valeur thorique 0 avec
n
i=N
( xi x)
i j
i =1
JC
V ( JC )
) de JC
X AT X AC X GT + X GC = 0
Procdures
Les mthodes dcrites ici sont des mthodes agglomratives : aprs construction du tableau de
distance entre tous les taxons pris deux deux, on commence regrouper deux Units
Evolutives en une Unit Evolutive Hypothtique. On reconstruit un tableau de distances en
remplaant ces deux UE par lUEH et on agglomre de nouveau deux UE( ou UEH). Cette
tape est recommence jusqu ce que tous les taxons soient inclus dans larbre.
UPGMA
Ce qui signifie Unweighted Pair-Group Method of Arithmetic average.
Dans cette mthode le critre de regroupement de deux UE est la plus grande proximit :
aprs le regroupement des deux UE les plus proches, on les remplace par une UE
Hypothtique et on recommence chercher les deux UE (ou UEH les plus proches) en
calculant les distances entre UE et UEH comme une moyenne entre toutes les UE que
comprend lUEH.
i
x
1 r s
d xy = dij
rs i =1 j =1
avec r et s tant le nombre de UE comprises respectivement dans les UEH x et y.
WPGMA non rencontr dans les logiciels usuels calcule la distance entre deux UEH de faon un peu
diffrente :
r
1 1
d
ci
cj ij
j =1 2 2
d xy =
i =1
dagglomration de x et y
Les arbres obtenus par cette mthode sont obligatoirement racins puisque la distance est
rpartie de faon uniforme sur chaque branche. Pour que cette mthode soit applicable
lhorloge molculaire doit tre respecte.
Tetrahy
Ginkgo
Epinard
Sureau
Poireau
Mouche
Bonite
Lapin
Rat
Tetrahy
Ginkgo
68
Epinard
72
19
Sureau
66
15
17
Poireau
61
15
12
Mouche
69
44
46
50
42
Bonite
68
45
48
51
42
23
Lapin
68
40
45
48
40
21
17
Rat
69
39
44
47
39
20
16
Cheval
68
43
48
50
42
22
18
Cheval
Figure II- 6. La premire tape dune procdure UPGMA. Choix des UE les plus
proches et dbut du processus agglomratif. La distance est galement rpartie sur les
deux branches.
Etape 2
Tetrahym.
Ginkgo
Epinard
Sureau
Poireau
Mouche
Bonite
L+R
Tetrahym.
Ginkgo
68
Epinard
72
19
Sureau
66
15
17
Poireau
61
15
12
Mouche
69
44
46
50
42
Bonite
68
45
48
51
42
23
L+R
68,5
39,5
44,5
47,5
39,5
20,5
16,5
Cheval
68
43
48
50
42
22
18
Cheval
Etape 3
Tetrahym.
Ginkgo
Epinard
Sureau
Poireau
Mouche
Bonite
Tetrahym.
Ginkgo
68
Epinard
72
19
Sureau
66
15
17
Poireau
61
15
12
Mouche
69
44
46
50
42
Bonite
68
45
48
51
42
23
L+R+C
68,33
40,67
45,67
48,33
40,33
21
17
L+R+C
Etape 4
Tetrahymena
Ginkgo
Epinard
S+P
Mouche
Bonite
Tetrahymena
Ginkgo
68
Epinard
72
19
S+P
68
15
14,5
Mouche
69
44
46
50
42
Bonite
68
45
48
51
42
23
L+R+C
68,33
40,67
45,67
44,33
21
17
L+R+C
Etape 5
Tetrahymena
Ginkgo
S+P+E
Mouche
Bonite
Tetrahymena
Ginkgo
68
S+P+E
69,33
16,33
Mouche
69
44
46
42
Bonite
68
45
47
42
23
L+R+C
68,33
40,67
44,78
21
17
L+R+C
Etape 6
Tetrahymena
S+P+E+G
Mouche
Bonite
Tetrahymena
S+P+E+G
69
Mouche
69
45,5
Bonite
68
46,5
42
L+R+C
68,33
43,75
21
17
L+R+C
Etape 7
Tetrahymena
S+P+E+G
Mouche
Tetrahymena
S+P+E+G
69
Mouche
61
45,5
R+L+C+B
68,5
44,43
21,5
R+L+C+B
Etape 8
Tetrahymena
S+P+E+G
Tetrahymena
S+P+E+G
69
R+L+C+B+M
67
44,64
R+L+C+B+M
Etape 9
Tetrahymena
Tetrahymena
S+P+E+G+R+L+C+B+M
67,89
S+P+E+G+R+L+C+B+M
Figure II- 7. Les tapes successive pour construire larbre de tous les taxons par la
mthode UPGMA.
Q = Dij
i< j
Dans larbre le moins rsolu, larbre toile la somme de toutes les branches est gale
Q
(n 1)
S0 =
Dans la pratique, il peut exister des arbres plus courts en agglomrant deux taxons
terminaux selon un schma du type ci-dessous.
k
l
m
x
y
n
S ij = Bix + B jx + Bxy +
k i j
yk
B reprsente la longueur estime des diffrentes branches de larbre. Les distances observes
D sexpriment de la faon suivante :
k i j
ik
= (n 2)( Bix + B xy ) +
k i j
yk
D jk = B jix + Bxy + B yk
et il y a n-2 distances de ce type donc
k i j
= (n 2)( B jx + B xy ) +
jk
k i j
yk
Dkl = B yk + B yl
soit pour toutes les distances entre les n-2 otus de ltoile :
k ,l i , j
= (n 3) B yk
kl
Dij = Bix + B jx
ik
= (n 2)( Bix + B xy ) +
jk
= ( n 2)( B jx + Bxy ) +
k i j
k i j
k ,l i , j
= (n 3) B yk
kl
k i j
k i j
yk
yk
k i j
yk
k ,l i , j
kl
(n 3)
et
k ,l i , j
kl
= Q Ri R j + Dij
avec
n
Ri = Dij
j i
R j = Dij
i j
On tire de 6
n
Bxy =
Q (n 1) Dij (n 1) B yk
k i j
2(n 2)
S ij = Bix + B jx + B xy + Byk
S ij = Dij +
Sij =
Q ( n 1) Dij (n 1) B yk
2( n 2)
(1)
+ B yk
S ij =
2
(2n 4 n + 1) Dij + Q + (n 3) B yk
2(n 2)
yk
kl
par sa valeur
donne en 8
S ij =
S ij =
(n 3) Dij + Q + Dkl
2(n 2)
(n 3) Dij + Q + Q Ri R j + Dij
2(n 2)
(n 2) Dij + 2Q Ri R j
2(n 2)
S ij =
Dij
2
2Q Ri R j
2(n 2)
Dix =
Dij
2
Ri R j
2(n 2)
Figure II- 8. Arbres 7 taxons obtenus avec NJ ou UPGMA. Les deux arbres sont
orients de la mme faon pour les comparer commodment, cependant celui de gauche
nest pas racin, alors que celui de droite lest.