Beruflich Dokumente
Kultur Dokumente
Zvelebil et Baum, Understanding bioinformatics D.W. Mount, Bioinformatics: sequence and genome analysis Osamu Gotoh (1999) Multiple sequence alignment: algorithms and applications. Adv. Biophys. 36:159-206 Cdric Notredame (2007) Recent evolutions of multiple sequence alignment algorithms. PLoS Computational Biology 3(8):e123 Robert C. Edgar and Seram Batzoglou (2006) Multiple sequence alignment Current opinion in structural biology 16:368-373 Prof. D. Gonze, INFO-F-434 Bases de donnes et analyse de squences macromolculaires
2
Objectifs
Comprendre le bnce dune alignement de plusieurs squences Comment faire les alignements de plusieurs squences Comprendre pourquoi la programmation dynamique nest pas applicable tre capable dexpliquer les systmes diffrents pour lalignement des plusieurs squences Comprendre comment on peut aligner des groupes de squences Comprendre les prols (PSSM) et leur importance pour lalignement de plusieurs squences tre capable dexpliquer limportance du pseudocounts Comprendre la diffrence entre lalignement progressif et itratif tre capable dexpliquer les principes dalignement progressif tre capable dexpliquer les principes dalignement itratif
Pourquoi?
Lalignement de deux squences produit une hypothse qui est conrme ou rejete par le score
Mais ce score nest pas une garantie que la relation entre les deux squences est vraiment lie un anctre commun En plus, il y a toujours des petits erreurs dans lalignement
On peux rsoudre cette incertitude en ajoutant des squences additionnelles Un alignement de plusieurs squences (APS) donne de linformation additionnelle pour chaque position:
similarit entre des positions ou la conservation de certains acides amines dans des positions spciques
Pourquoi? 2
Amliorer lalignement entre deux squences
P06241|149-246 Q06124|6-102 P62993|60-152 P12931|151-248 P41240|82-171 P00519|127-217 P20936|181-272 P42224|573-670 O60674|401-482
Pourquoi ? 3
Les rgions conserves donnent de linformation sur la fonction et al structure dune protine
WYFGKLGRKDAERQLLSFGN--PRGTFLIRESETT-KGAYSLSIRDWDDMKGDHVKHYKI WFHPNITGVEAENLLLTR-G--VDGSFLARPSKSN-PGDFTLSVRRNG-----AVTHIKI WFFGKIPRAKAEEMLSKQ-R--HDGAFLIRESESA-PGDFSLSVKFGN-----DVQHFKV WYFGKITRRESERLLLNAEN--PRGTFLVRESETT-KGAYCLSVSDFDNAKGLNVKHYKI WFHGKITREQAERLLYPPET----GLFLVRESTNY-PGDYTLCVSCDG-----KVEHYRI WYHGPVSRNAAEYLLSSGIN----GSFLVRESESS-PGQRSISLRYEG-----RVYHYRI WYHGKLDRTIAEERLRQAGK---SGSYLIRESDRR-PGSFVLSFLSQMN----VVNHFRI WNDGCIMGFISKERERALLKDQQPGTFLLRFSESSREGAITFTWVERS-----QNGGEPD --HGPISMDFAISKLKKAGN--QTGLYVLRCSPKD-FNKYFLTFAVEREN-VIEYKHCLI : : * :: * * . : RKLDNGGYYITTRAQ-FETLQQLVQHYSERAAGLC-CRLVVPC-----QNTGDYYDLYGGE-K-FATLAELVQYYMEHHGQLK-EKNGDVIELKYPL LRDGAGKYFLWVV-K-FNSLNELVDYHRSTS---V-SRNQQIFLRDIERKLDSGGFYITSRTQ-FNSLQQLVAYYSKHADGLC-HRLTTVC-----MYHAS-KLSIDEEVY-FENLMQLVEHYTSDADGLC-TRLIKPK-----NTASDGKLYVSSESR-FNTLAELVHHHSTVADGLI-TTLHYPA-----IAMCGDYYIGGR--R-FSSLSDLIGYYSHVSCLLKGEKLLYPV-----FHAVEPYTKKELSAVTFPDIIRNYKVMAAENIPENPLKYLYPN-----TKNENEEYNLSGTKKNFSSLKDLLNCYQ--------------------* :
Les rgions conserves: en vert les rsidus identiques et en bleu les rsidus avec les mmes proprits
P06241|149-246 Q06124|6-102 P62993|60-152 P12931|151-248 P41240|82-171 P00519|127-217 P20936|181-272 CLUSTAL P42224|573-670 http://www.clustal.org/ O60674|401-482
1AOT.pdb
Pourquoi ? 4
Mais ils pourraient y avoir des diffrences entre des mthodes
P06241|149-246 Q06124|6-102 P62993|60-152 P12931|151-248 P41240|82-171 P00519|127-217 P20936|181-272 P42224|573-670 O60674|401-482 WYFGKLGR---KDAERQLLSFGNPRGTFLIRESETTK-GAYSLSIRDWDDMKGDHV--KH WFHPNITG---VEAENLLLTRG-VDGSFLARPSKSNP-GDFTLSVRR-----NGAV--TH WFFGKIPR---AKAEEMLSKQ-RHDGAFLIRESESAP-GDFSLSVKF-----GNDV--QH WYFGKITR---RESERLLLNAENPRGTFLVRESETTK-GAYCLSVSDFDNAKGLNV--KH WFHGKITR---EQAERLL-YPP-ETGLFLVRESTNYP-GDYTLCVS-C----DGKV--EH WYHGPVSR---NAAEYLL-SSG-INGSFLVRESESSP-GQRSISLRY-----EGRV--YH WYHGKLDR---TIAEERLRQAG-KSGSYLIRESDRRP-GSFVLSFLSQ----MNVV--NH WNDGCIMGFISKERERALLKDQ-QPGTFLLRFSESSREGAITFTWVERSQNG-GE--P---HGPISM---DFAISKLKKAGNQTGLYVLRCSPKDF-NKYFLTFAVER---ENVIEYKH : * * :: * * . : YKIRKLDNGGYYITT-RAQFETLQQLVQHYSERAAGL------CCRLVVPC IKIQNT-GDYYDLYG-GEKFATLAELVQYYMEHHGQLKEKNGDVIELKYPL FKVLRDGAGKYF-LW-VVKFNSLNELVDYHRSTSVSRN----QQIFLRDIE YKIRKLDSGGFYITS-RTQFNSLQQLVAYYSKHADGL------CHRLTTVC YRIMYH-ASKLSIDE-EVYFENLMQLVEHYTSDADGL------CTRLIKPK YRINTASDGKLYVSS-ESRFNTLAELVHHHSTVADGL------ITTLHYPA FRIIAM-CGDYYIG--GRRFSSLSDLIGYYSHVSCLLK-----GEKLLYPV ---DF-HAVEPYTK-KELSAVTFPDIIRNYKVMAAENIPE--NPLKYLYPN CLITKNENEEYNLSGTKKNFSSLKDLLNCY--------------------Q .: ::: :
7
Pourquoi ? 5
Dterminer les relations volutives
Un arbre phylogntique
( (O60674:0.14917,P42224:0.15083) :0.00281, ( (P00519:0.13675, ( (P06241:0.08357,P12931:0.08643): 0.04625, P62993:0.12375) :0.00575) :0.00719, (P20936:0.13375,P41240:0.13625) :0.00531) :0.00219, Q06124:0.14719);
P06241|149-246 Q06124|6-102 P62993|60-152 P12931|151-248 P41240|82-171 TCOFFEE P00519|127-217 http://www.ebi.ac.uk/ P20936|181-272 Tools/t-coffee/ P42224|573-670 O60674|401-482
Le problme
Calculer lalignement entre N squences est un problme difcile = problme d'optimisation combinatoire (POC) Pour rsoudre un COP, il faut fournir 2 systmes. Un systme pour
1. Assigner le score dalignement entre toutes les squences 2. Trouver lalignement avec le score optimal
Le score
Comment peut-on assigner un score un APS? Le score total : S(m)=! S(mk,l)
k,l On fait lhypothse que les scores de colonnes diffrentes sont indpendants
La somme de paires ou SP
mki
global ou local
10
Le score 2
SP et les alternatives
Vraisemblance maximum
S(mk,l)=! wk,l s(mki, mli)
i
Wednesday 14 March 2012 11
Nombre de squences 2 3 4 6
Wednesday 14 March 2012
Le systme MSA
Lipman et al ont propos un logiciel qui utilise la programmation dynamique
Rappelez-vous ... Prenez 2 squences: A et B Pour aligner 2 squences nous devons calculer les scores pour chaque position jusqu la n S(A,B) est le score optimal pour lalignement des deux sous-squences de A et B
Wednesday 14 March 2012 15
Le systme MSA 2
Lipman et al ont propos un logiciel qui utilise la programmation dynamique
Prenez 3 squences: A, B et C Pour aligner 3 squences nous devons calculer les scores optimal pour chaque position dans un cube Le score S(A,B,C) est relat au scores S(A,B), S(B,C) et S(A,C)
somme de paires ou SP
Wednesday 14 March 2012 16
S(A,B)
Le systme MSA 3
Lipman et al on propos un logiciel qui utilise la programmation dynamique
Pour N squences de 200 acides amins on doit enregistrer 200N scores
Le systme MSA 4
Carrillo et Lipman ont trouv une mthode qui rduit le nombre de comparaison quon doit faire
La che noire (alignement pour 3 squences) peut tre projete sur les surfaces AB, AC et BC, qui reprsentent un alignement pour chaque paire de squences Cela veut dire aussi que les alignements pour chaque paire introduisent des limites sur les positions qui sont importantes pour lalignement des 3 squences !
17 Wednesday 14 March 2012 18
Comment peut-on rduire ceci de sorte quon puisse encore trouver la solution optimale ?
Wednesday 14 March 2012
Le systme MSA 5
Carrillo et Lipman ont trouv une mthode qui rduit le nombre de comparaison quon doit faire
tapes de prtraitement :
1. Calculez les scores optimals entre chaque paires de squences 2. Utilisez ces scores pour la construction dun arbre phylogntique 3. Construisez lAPS en utilisant larbre et une mthode heuristique
Le systme MSA 6
Le mthode de Carrillo et Lipman introduit une limite sur le nombre de positions qui sera calcul en utilisant la programmation dynamique
Le nombre de squences est limit 10 !!!
Cet APS temporaire donne les limites sur lespace l'intrieur du cube dans lequel on trouvera lalignement optimal
Wednesday 14 March 2012 19 Wednesday 14 March 2012
Le systme MSA 7
Le systme MSA calcule une valeur ! pour chaque paire de squences
reprsente la divergence entre lalignement par paires et lalignement avec tous les squences.
Le systme MSA 8
Le systme MSA complet:
1. Calculez les scores pour les alignements entre chaque paires de squences 2. Utilisez ces scores pour la construction dun arbre phylogntique 3. Calculez les poids pour chaque paire de squences en utilisant larbre 4. Produisez lalignement en utilisant une heuristique et larbre (non-optimal) 5. Calculez le maximum pour chaque paire de squences 6. Dterminez les postions dans le hyper-cube (dimensions N) qui seront calcules pour obtenir lalignement optimal 7. Faites la programmation dynamique 8. Rapportez lalignement optimal et le maximum
21
22
Prols
Dans ltape 4 de MSA on construit un APS temporaire en utilisant un arbre. Dans cette tape on a besoin des algorithmes qui peuvent aligner des squences aux groupes de squences ou des groupes de squences aux autres groupes
Prols 2
les prols enregistrent les proprits gnrales dune collection de squences: 1) les frquences dacides amines dans chaque colonne et 2) limportance volutifs de chaque acide amine
Prenez par exemple cette collection:
TGVEAENLLL PRAKAEESLS GRKDAERQLL
les frquences sont: Un prol est une reprsentation dun groupe de squences qui facilite ces taches
Wednesday 14 March 2012 23
f2,R=2/3 f5,E=3/3
f7,S=1/3
24
frquences
Prols 3
les positions dans lensemble des squences
0 4
0.667 0.333 0.333 0.333 0.333 0.333 0.333 0.333 0.333 0.333 0.333 1 0.333 0.333 1 0.667 0.333 1 0.333 0.333 0.333
Prols 4
9
R H K D E S T N Q C G P A I L M F W Y V
Le prol enregistre pour chaque colonne la frquence des acides amines multiplie par le score dalignement (limportance volutive)
mu,a=log
qu,a pa
0.333
quand il y a assez de squences et chaque acide amines est prsent au moins une fois dans chaque colonne
25
26
Prols 5
La probabilit pa est la probabilit quon trouve lacide amine nimporte quelle position dans des squences
Prols 6
mu,a=! fu,b sa,b
b "{AA} 0 4
3.335 0.668 0 -1.332 1 0.666 -1 -2 0 0 1.665 1 -1 -1 -3 -3
9
-2.334 -2.334
m0,R=0.333 (-1) + 0.333 (0) + 0.333 (-1) =-0.666 m1,R=0.667 (5) + 0.333 (0) =3.335
R H K D E S T N Q C G P A I L M F W Y V +/-
-0.666 -1
...
...
...
...
...
...
...
...
...
...
28
Prols 7
Les scores mu,a reprsentent les scores pour aligner un rsidu a la position u On utilise les mmes algorithmes PD pour
aligner une squence un prol
Prols 8
Les pseudocounts sont des constants quon ajoute aux valeurs dans le prole
Le plus grand problme pour crer des prols est que linsufsance du nombre de squences est et, par consquent, labsence de donnes de certaines acides amines dans plusieurs colonnes
log 0 =-#
Il est impossible daligner un rsidu a ces colonnes en utilisant le log-odd score (regardez la discussion sur PAM et BLOSUM)
PSEUDOCOUNTS
Wednesday 14 March 2012 29
$=%Nseq
Wednesday 14 March 2012
30
Prols 9
L'quation la plus gnrale est exprime en fonction de fu,a
mu,a=log
qu,a pa nu,a+$pa
Nseq+$
Prols 10
0 4
0.934 -0.60 -0.65 -0.60 -0.65 -0.60 -0.65 -0.60 -0.65 -0.60 0.645 -0.60 -0.65 -0.60 -0.65 -0.60
9
-0.65 -0.60
& est un facteur de cadrage pour les donnes observes. On utilise parfois &=Nseq-1
Si il ny a pas des donnes (aucune squence), les pseudocounts dterminent les valeurs dans le prol Les pseudocounts reprsentent la distribution antrieure, qui est la connaissance quon a concernant le systme avant lintroduction des donnes
Wednesday 14 March 2012 31
q6,R=
R H K D E S T N Q C G P A I L M F W Y V +/-
-0.65 -0.60
IS WRONG HERE
... ... ...
...
...
...
...
...
...
...
-0.60 9
-0.60 9
0.582 9
-0.60 9
-0.60 9
-0.60 9
-0.60 9
-0.60 9
-0.60 9
-0.60 9
32
Prols 11
On peut amliorer les pseudocounts en utilisant linformation dans les matrices de substitution
Prols 12
gu,a=! fu,b qa,b pb b
Multipliant la probabilit daligner une acide amine la colonne u avec pa produit un meilleur pseudocount pour a
Chaque log-odd score dans la matrice contient de linformation sur la probabilit dalignement de deux acides amines
c.a.d. si une colonne u contient fu,b acides amines de type b, la probabilit de rencontrer un alignement avec une acide amine de type a est proportionnel
fu,b
qa,b papb
qu,a=
&fu,a+$gu,a &+$
Le valuer de gu,a peuvent tre obtenu partir des matrices de substitution comme PAM et BLOSUM
Wednesday 14 March 2012 34
Prols 13
Quand le prol est calcul, on peut aussi calculer une squence consensus qui reprsente pour chaque position lacide amine avec le plus haut score mu,a
logo linformation
Prols 14
Un logo est construit en calculant le contenu de linformation de chaque colonne u dans la squence
Iu= log220 - Hu
TGVEAENLLL PRAKAEEMLS GRKDAERQLL GRADAEELLL
Une position avec une acide amine conserve aura le maximum de linformation
http://weblogo.berkeley.edu
fu,a Iu
36
Aligner un prol
Le Needleman-Wunsch (L3) ou Smith-Waterman (L3) peut tre utilis pour aligner une squence un prole.
squence SRNAAEYLLS
TGVEAENLLL PRAKAEEMLS GRKDAERQLL
PSI-BLAST
Le systme PSI-BLAST utilise des PSSM pour la recherche des squences dans des base de donnes
q= AQRQRRQARQ d1= d2= d3= d4= AQAARRQARQ AQQRRAAQRQ QQRQRRAAQA RQQAAQQARQ
Un prol contient des scores et des pnalits Le plus grand problme si situe dans la manire de la quelle les pnalits sont assignes
Cherchez les squences d dans la base de donnes D Construisez un PSSM utilisant les squences d avec un score E plus petit quun seuil E* Rafnez le PSSM Utilisez le PSSM pour lidentication des squences relates
38
prole
d= RRRQAAQAQQ
37
C=
O. Gotoh (1993) Optimal alignment between groups of sequences and ist application to multiple sequence alignment. CABIOS 9(3):361-370
39
40
O. Gotoh (1993) Optimal alignment between groups of sequences and ist application to multiple sequence alignment. CABIOS 9(3):361-370
Wednesday 14 March 2012 41
Le cote despace pour la squence 4 est gale au cote douverture et pour les autres il est gale au cote dextension
Wednesday 14 March 2012 42
|A|=M |am|=I
m=2 I
k=1
A=
ACDGFVH SAD-LV-
g1,2=2
Wednesday 14 March 2012
46
Lalignement progressif
Lalignement progressif est une approche heuristique pour aligner plusieurs squences 3 tapes:
Aucun garantie quon retrouve lalignement optimal
Calculez une matrice de distances entre les paires de squences Construisez un arbre phylogntique en utilisant cette matrice Utilisez cette arbre pour aligner chacun des squences
Lalignement progressif 2
Comment calculer la matrice de distances?
Faites un alignement entre chaque paires de squences (programmation dynamique ou une autre mthode) Calculez la distance entre chaque alignement : sij sij nombre de substituions dij= Lij taille dalignement Lij
Les espaces ne sont pas pris en considration La matrices est symtrique les lments sur la diagonal sont 0
Wednesday 14 March 2012 49
Lalignement progressif 3
Comment construire larbre ?
regroupez dabord les deux squences les plus proches (p.e. 1) Ensuite, regroupez :
A. les deux squences suivantes la plus proche (p.e. 2) B. une squence avec le groupe qui tait construit prcdemment (p.e. 4) C. deux groupes (p.e. 3)
1 3 4 2
50
Lalignement progressif 4
Larbre dtermine lordre dans lequel on ajoute chaque squence au APS (voyez algorithmes de Gotoh)
1
GATTGTAGTA GATGGTAGTA GATTGTAGTA
Lalignement progressif 5
Le systme de Feng et Doolittle:
Ce systme a t construit sur le souci que les systmes APS enlevs ou changs trop les espaces qui taient prsent auparavant, qui est peut-tre plausible dune perspective doptimisation, mais pas dune perspective biologique
une fois un espace, toujours un espace le systme est compos de 6 fonctions. Ici, seulement les fonctions le plus important sont expliqus
GATTGTA---GTA
SCORE
BORD
DFAlign
D.-F. Feng and R.F. Doolittle (1987) Progressive sequence alignment as a prerequisite to correct phylogenetic trees J Mol Evol 25:351-360
51
52
Lalignement progressif 6
SCORE
Alignement par paires et le calcul des scores de diffrences
Lalignement progressif 7
SCORE
x1 x2 x3 x4
Sij Le score dalignement (en utlisant p.e. PAM250) Srand = (1/L)!! S(a,b)Ni(a)Nj(b)-N(g)gpenalty
Le score dalignement de deux squences alatoires avec la mme composition et la mme taille
Wednesday 14 March 2012 53
La matrice de subtitution PAM250 gpenalty = 8 Un alignement entre chaque paires de squences et entre les squences elles-mmes est produit (Needleman et Wunsch algorithme)
Wednesday 14 March 2012 54
Lalignement progressif 8
SCORE
S11=262, S22=287 ... Alignement 1 : S12=31
x1 ILDMDVVEGSAARFDCKVEG-YPDPEVMWFKDDNPVKESRHFQIDYDEEGN x2 RDPVKTHEGWGVMLPCNPPAHYPGLSYRWLLNEFPNFIPTD-GRHFVSQTT"
Lalignement progressif 9
SCORE
Sij x1 x2 x3 x4 x1 262 x2 31 287 x3 44 15 222 x4 13 16 45 215 Srand x1 x2 x3 x4 x1 x2 x3 x4 -66.94 -80.28 -70.48 -82.86 -72.52 -37.85
Alignement 2 : S12=44
x1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPL-ASQN-RV--EVLA-"
Dij x1 x2 x3 x4 x1 0 x2 1.25 0 x3 0.95 1.24 0 x4 1.31 1.30 1.13 0
Alignement 3 : S12=13
x1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x4 RRLIPAARGGEISILCQPRAAPKATILWSKGTE-ILGNST-RV--TVTSD"
Dij=-ln
...
55
56
Lalignement progressif 10
BORD
Construit un arbre prliminaire en utilisant lalgorithme propos par Fitch et Margoliash
A chaque tape joignez les squences ou groupes de squences avec la plus petite distance et recalculez la distance entre cette nouvelle groupe et les squences ( ou groupes) restant
Dij x1 x2 x3 x4 x1 0 x2 1.25 0 x3 0.95 1.24 0 x4 1.31 1.30 1.13 0
Lalignement progressif 11
BORD
D52= D54= D12+D32 =1.245 2 D14+D34 =1.22 2
x4 x1 x3 x4 x1 x3 x2
6 5
x1 x3
Dij 6 x2
6 0
x2 1.263 0
6 5
W.M. Fitch and E. Margoliash (1967) Construction of phylogenetic trees, Science 155(3760):279-284
57
58
Lalignement progressif 12
DFAlign
Utilisez larbre pour la construction du APS premire tape
x1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPL-ASQN-RV--EVLA-"
Lalignement progressif 13
Ce mthode a deux soucis : Le problme du maximum local
Le squences sont ajoutes sur des alignements existants
deuxime tape
x1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPL-ASQN-RV--EVLA- x4 RRLIPAARGGEISILCQPRAAPKATILWSKGTEIL-GNST-RV--TVTSD "
x4 x1 x3 x2
6 5
Par consquent, chaque erreur dans lalignement introduisent des erreurs supplmentaires dans les alignements qui sont construit plus tard
troisime tape
x1 x3 x4 x2 ILDMDVVEGSAARFDCKVEG-YPDPEVMWFKDDNPVKESRHFQIDYDEEGN ISDTEADIGSNLRWGCAAAG-KPRPMVRWLRNGEPL-ASQN-RV--EVLA- RRLIPAARGGEISILCQPRA-APKATILWSKGTEIL-GNST-RV--TVTSD RDPVKTHEGWGVMLPCNPPAHYPGLSYRWLLNEFPNFIPTD-GRHFVSQTT"
Ceux-ci fonctionnent bien en cas de squences homologues, pourtant ils commencent chouer srieusement ds que les squences divergeront
Wednesday 14 March 2012 60
Lalignement progressif 14
Rglages de paramtres introduit par CLUSTAL W:
Lalignement progressif 15
Rglages de paramtres introduit par CLUSTAL W:
Des matrices de substitutions sont utilises dynamiquement selon la divergence des squences aligner a chaque tape Les squences sont pess pour corriger l'chantillonnage ingal travers toutes les distances volutifs dans les donnes
Des squences similaires sont pess vers le bas
Des pnalits dynamiques qui changent selon le type dacide amin ou selon la position dans la squence
Information concernant la probabilit de trouver un espace ct dune des 20 acides amines est utilise pour changer locallement la pnalit douverture Des rgions courtes des rsidus hydrophiles indiquent la prsence dune boucle, exigeant la rduction de la pnalit douverture ...
J.D Thompson, D.G. Higgins and T.J. Gibson (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position specic gap penalties adn weight matrix choice. Nucleic Acid Research 22:4673-4680
J.D Thompson, D.G. Higgins and T.J. Gibson (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position specic gap penalties adn weight matrix choice. Nucleic Acid Research 22:4673-4680
61
62
Lalignement progressif 13
Ce mthode a deux soucis : Le problme du maximum local
Le squences sont ajoutes sur des alignements existants Par consquent, chaque erreur dans lalignement introduisent des erreurs supplmentaires dans les alignements qui sont construit plus tard
Amlioration itrative
Solution alatoire Amliorer la solution
Non
Fonction dvaluation
Des algorithmes stochastiques peuvent rsoudre ce Il faut choisir au moins une matrice de problme puisqu'ils peuvent s'chapper de solutions substitution, unelocalement douverture et une pnalit optimales pnalit dextension
convergence?
Oui La meilleur solution
Ceux-ci fonctionnent bien en cas de squences homologues, pourtant ils commencent chouer srieusement ds que les squences divergeront
Wednesday 14 March 2012 63 Wednesday 14 March 2012 64
Amlioration itrative 2
Solution alatoire
Alignement de plusieurs squences
e.g. Somme-depaires Non
Algorithmes Stochastiques
SAGA = sequence alignment by genetic algorithm
Alignement de plusieurs squences
slection base sur le succs crossover
Fonction dvaluation
Amliorer la solution
gnrations
convergence?
Oui La meilleur solution
Des algorithmes comme stochastic hill climbing, simulated annealing, tabu search, genetic algorithms, ant colony optimization,...
C. Notredame and D.G. Higgins (1996) SAGA: sequence alignment by genetic algorithm. Nucleic Acid Research 24:1515-1524
66
Algorithmes Stochastiques 2
Au dbut un population dalignements de N squences sans spaces internes est cre (~100) (On ajout des espaces la n des squences pour crer des alignements de taille L) = gnration 0
slection base sur le succs crossover gnrations
Algorithmes Stochastiques 3
La qualit dun APS est valu en utilisant des fonctions: ici deux fonctions ressemblant la somme de paires pondrs avec une pnalit despaces afne
slection base sur le succs crossover gnrations
Le succs correspond la probabilit de mutation produire des nouveaux APS add to new = fitness(APS) population
Les squences dans lAPS peut tre dcales vers la droite, remplissant les positions au dbut avec des espaces
Wednesday 14 March 2012 67
Les solutions avec un succs lev pourraient produire entre 0 et 2 nouveaux APS
Wednesday 14 March 2012 68
Algorithmes Stochastiques 4
Chaque gnration, 50% des meilleurs APS sont copis dans la population slection base suivante
sur le succs crossover gnrations
Algorithmes Stochastiques 5
Pendant cette tape, les meilleurs APS sont slections et des nouvelles solutions sont produites partir deux
slection base sur le succs crossover gnrations
Algorithmes Stochastiques 6
Les operateur de croissement change linformation entre les deux APS
Algorithmes Stochastiques 7
Le croisement un point prend deux APS takes two MSA, les coupe une certaine position, change les deux parties et les colle ensemble
Les oprateurs de mutation excutent des modications locales dans les APS, introduisant dans cette faon la variation
71
72
Algorithmes Stochastiques 8
Le croisement uniforme recherche dabord des colonnes contenant les mmes acides amines dans chaque positions (colonnes consistent)
Algorithmes Stochastiques 9
Gap-insertion est un oprateur de mutation. 1) Les squences dans un MSA sont divises dans deux groupes (utilisant un arbre estim) 2) Un espace avec un taille alatoire est insr dans le groupe G1
Dans le nouvelle APS, ces colonnes consistent seront prservs et les rgions dans lintervalle seront remplis avec les alignements are lled up with the alignement dun des deux APS
Wednesday 14 March 2012 73
3) Un espace avec la mme taille est insr dans G2 dans une position un distance limit par la position de lespace dans le groupe G1
74
Algorithmes Stochastiques 10
slection base sur le succs crossover generations
Algorithmes Stochastiques 11
Planication dynamique des oprateurs
Au dbut la probabilit dutiliser un oprateur est 1/22 (on garantie que chaque oprateur nobtient jamais un probabilit de zro) Les probabilits sont adaptes en utilisant la performance de ces oprateurs dans les 10 gnrations prcdentes
Lalgorithme se termine quand les APS cessent amliorer, c--d le succs naugmente pas plus loin
75
76
Algorithmes Stochastiques 12
Planication dynamiques des oprateurs de croisement
Algorithmes Stochastiques 13
SAGA tait compar au systme MSA (pour des petits groupes) et CLUSTAL W (pour des alignements grands)
SAGA fonctionne aussi bon que MSA sur les petits groupes de squences et surpasse CLUSTAL W sur les grands groupes de squences
77
78