L7 Alignement de Plusieurs Sequences

Bibliographie Introduction la bioinformatique
7. Lalignement de plusieurs squences et les prols
Zvelebil et Baum, Understanding bioinformatics D.W. Mount, Bioinformatics: sequence and genome analysis Osamu Gotoh (1999) Multiple sequence alignment: algorithms and applications. Adv. Biophys. 36:159-206 Cdric Notredame (2007) Recent evolutions of multiple sequence alignment algorithms. PLoS Computational Biology 3(8):e123 Robert C. Edgar and Seram Batzoglou (2006) Multiple sequence alignment Current opinion in structural biology 16:368-373 Prof. D. Gonze, INFO-F-434 Bases de donnes et analyse de squences macromolculaires
2
Wednesday 14 March 2012
Objectifs

Comprendre le bnce dune alignement de plusieurs squences Comment faire les alignements de plusieurs squences Comprendre pourquoi la programmation dynamique nest pas applicable tre capable dexpliquer les systmes diffrents pour lalignement des plusieurs squences Comprendre comment on peut aligner des groupes de squences Comprendre les prols (PSSM) et leur importance pour lalignement de plusieurs squences tre capable dexpliquer limportance du pseudocounts Comprendre la diffrence entre lalignement progressif et itratif tre capable dexpliquer les principes dalignement progressif tre capable dexpliquer les principes dalignement itratif
Pourquoi?
Lalignement de deux squences produit une hypothse qui est conrme ou rejete par le score
Mais ce score nest pas une garantie que la relation entre les deux squences est vraiment lie un anctre commun En plus, il y a toujours des petits erreurs dans lalignement
On peux rsoudre cette incertitude en ajoutant des squences additionnelles Un alignement de plusieurs squences (APS) donne de linformation additionnelle pour chaque position:
similarit entre des positions ou la conservation de certains acides amines dans des positions spciques
Pourquoi? 2
Amliorer lalignement entre deux squences
P06241|149-246 Q06124|6-102 P62993|60-152 P12931|151-248 P41240|82-171 P00519|127-217 P20936|181-272 P42224|573-670 O60674|401-482
Pourquoi ? 3
Les rgions conserves donnent de linformation sur la fonction et al structure dune protine
WYFGKLGRKDAERQLLSFGN--PRGTFLIRESETT-KGAYSLSIRDWDDMKGDHVKHYKI WFHPNITGVEAENLLLTR-G--VDGSFLARPSKSN-PGDFTLSVRRNG-----AVTHIKI WFFGKIPRAKAEEMLSKQ-R--HDGAFLIRESESA-PGDFSLSVKFGN-----DVQHFKV WYFGKITRRESERLLLNAEN--PRGTFLVRESETT-KGAYCLSVSDFDNAKGLNVKHYKI WFHGKITREQAERLLYPPET----GLFLVRESTNY-PGDYTLCVSCDG-----KVEHYRI WYHGPVSRNAAEYLLSSGIN----GSFLVRESESS-PGQRSISLRYEG-----RVYHYRI WYHGKLDRTIAEERLRQAGK---SGSYLIRESDRR-PGSFVLSFLSQMN----VVNHFRI WNDGCIMGFISKERERALLKDQQPGTFLLRFSESSREGAITFTWVERS-----QNGGEPD --HGPISMDFAISKLKKAGN--QTGLYVLRCSPKD-FNKYFLTFAVEREN-VIEYKHCLI : : * :: * * . : RKLDNGGYYITTRAQ-FETLQQLVQHYSERAAGLC-CRLVVPC-----QNTGDYYDLYGGE-K-FATLAELVQYYMEHHGQLK-EKNGDVIELKYPL LRDGAGKYFLWVV-K-FNSLNELVDYHRSTS---V-SRNQQIFLRDIERKLDSGGFYITSRTQ-FNSLQQLVAYYSKHADGLC-HRLTTVC-----MYHAS-KLSIDEEVY-FENLMQLVEHYTSDADGLC-TRLIKPK-----NTASDGKLYVSSESR-FNTLAELVHHHSTVADGLI-TTLHYPA-----IAMCGDYYIGGR--R-FSSLSDLIGYYSHVSCLLKGEKLLYPV-----FHAVEPYTKKELSAVTFPDIIRNYKVMAAENIPENPLKYLYPN-----TKNENEEYNLSGTKKNFSSLKDLLNCYQ--------------------* :
Les rgions conserves: en vert les rsidus identiques et en bleu les rsidus avec les mmes proprits
P06241|149-246 Q06124|6-102 P62993|60-152 P12931|151-248 P41240|82-171 P00519|127-217 P20936|181-272 CLUSTAL P42224|573-670 http://www.clustal.org/ O60674|401-482
1AOT.pdb
Pourquoi ? 4
Mais ils pourraient y avoir des diffrences entre des mthodes
P06241|149-246 Q06124|6-102 P62993|60-152 P12931|151-248 P41240|82-171 P00519|127-217 P20936|181-272 P42224|573-670 O60674|401-482 WYFGKLGR---KDAERQLLSFGNPRGTFLIRESETTK-GAYSLSIRDWDDMKGDHV--KH WFHPNITG---VEAENLLLTRG-VDGSFLARPSKSNP-GDFTLSVRR-----NGAV--TH WFFGKIPR---AKAEEMLSKQ-RHDGAFLIRESESAP-GDFSLSVKF-----GNDV--QH WYFGKITR---RESERLLLNAENPRGTFLVRESETTK-GAYCLSVSDFDNAKGLNV--KH WFHGKITR---EQAERLL-YPP-ETGLFLVRESTNYP-GDYTLCVS-C----DGKV--EH WYHGPVSR---NAAEYLL-SSG-INGSFLVRESESSP-GQRSISLRY-----EGRV--YH WYHGKLDR---TIAEERLRQAG-KSGSYLIRESDRRP-GSFVLSFLSQ----MNVV--NH WNDGCIMGFISKERERALLKDQ-QPGTFLLRFSESSREGAITFTWVERSQNG-GE--P---HGPISM---DFAISKLKKAGNQTGLYVLRCSPKDF-NKYFLTFAVER---ENVIEYKH : * * :: * * . : YKIRKLDNGGYYITT-RAQFETLQQLVQHYSERAAGL------CCRLVVPC IKIQNT-GDYYDLYG-GEKFATLAELVQYYMEHHGQLKEKNGDVIELKYPL FKVLRDGAGKYF-LW-VVKFNSLNELVDYHRSTSVSRN----QQIFLRDIE YKIRKLDSGGFYITS-RTQFNSLQQLVAYYSKHADGL------CHRLTTVC YRIMYH-ASKLSIDE-EVYFENLMQLVEHYTSDADGL------CTRLIKPK YRINTASDGKLYVSS-ESRFNTLAELVHHHSTVADGL------ITTLHYPA FRIIAM-CGDYYIG--GRRFSSLSDLIGYYSHVSCLLK-----GEKLLYPV ---DF-HAVEPYTK-KELSAVTFPDIIRNYKVMAAENIPE--NPLKYLYPN CLITKNENEEYNLSGTKKNFSSLKDLLNCY--------------------Q .: ::: :
7
Pourquoi ? 5
Dterminer les relations volutives
Un arbre phylogntique
( (O60674:0.14917,P42224:0.15083) :0.00281, ( (P00519:0.13675, ( (P06241:0.08357,P12931:0.08643): 0.04625, P62993:0.12375) :0.00575) :0.00719, (P20936:0.13375,P41240:0.13625) :0.00531) :0.00219, Q06124:0.14719);
P06241|149-246 Q06124|6-102 P62993|60-152 P12931|151-248 P41240|82-171 TCOFFEE P00519|127-217 http://www.ebi.ac.uk/ P20936|181-272 Tools/t-coffee/ P42224|573-670 O60674|401-482
Le problme

Calculer lalignement entre N squences est un problme difcile = problme d'optimisation combinatoire (POC) Pour rsoudre un COP, il faut fournir 2 systmes. Un systme pour
1. Assigner le score dalignement entre toutes les squences 2. Trouver lalignement avec le score optimal
Le score
Comment peut-on assigner un score un APS? Le score total : S(m)=! S(mk,l)
k,l On fait lhypothse que les scores de colonnes diffrentes sont indpendants
La somme de paires ou SP
Le score dune colonne : S(mk,l)=! s(mki, mli)

i
mki
global ou local
est le rsidu dans la squence k dans la colonne i
s(mki, mli) le score dans la matrice

de substitution
10
Le score 2
SP et les alternatives
Les Mthodes globales

Les algorithmes de Smith-Waterman et NeedlemanWunsch peuvent tre utiliss pour la construction dun APS MAIS : lapproche nest pas pratique car elle a besoin de beaucoup de ressources de calcul (taille = 200).
S(mk,l)=! s(mki, mli)

i
Entropie minimum: S(mi)=! fki ln(fki)

i
Vraisemblance maximum
S(mk,l)=! wk,l s(mki, mli)
i
Wednesday 14 March 2012 11
Nombre de squences 2 3 4 6
O(2nLn) 22!2002=0.16M 23!2003=64M 24!2004=25600M ...

12
Les Mthodes globales 2

Les algorithmes de Smith-Waterman et NeedlemanWunsch peuvent tre utiliss pour la construction dun APS MAIS : lapproche nest pas pratique car il a besoin de beaucoup de mmoire (taille = 200).
Nombre de squences 2 3 4 6

La programmation dynamique optimalise
(le systme MSA) CLUSTAL)
Lalignement progressif (le systme Mthodes stochastiques (le systme SAGA)

13 Wednesday 14 March 2012 14
mmoire (1 byte/lment) 400 bytes 7.63 Mbytes 1.5Gbytes 60000 Gbytes
Le systme MSA
Lipman et al ont propos un logiciel qui utilise la programmation dynamique
Rappelez-vous ... Prenez 2 squences: A et B Pour aligner 2 squences nous devons calculer les scores pour chaque position jusqu la n S(A,B) est le score optimal pour lalignement des deux sous-squences de A et B
Le systme MSA 2
Lipman et al ont propos un logiciel qui utilise la programmation dynamique
Prenez 3 squences: A, B et C Pour aligner 3 squences nous devons calculer les scores optimal pour chaque position dans un cube Le score S(A,B,C) est relat au scores S(A,B), S(B,C) et S(A,C)
somme de paires ou SP
S(A,B)
S(A,B,C) S(B,C) S(A,B) S(A,C)
Le systme MSA 3
Lipman et al on propos un logiciel qui utilise la programmation dynamique
Pour N squences de 200 acides amins on doit enregistrer 200N scores
Le systme MSA 4
Carrillo et Lipman ont trouv une mthode qui rduit le nombre de comparaison quon doit faire
La che noire (alignement pour 3 squences) peut tre projete sur les surfaces AB, AC et BC, qui reprsentent un alignement pour chaque paire de squences Cela veut dire aussi que les alignements pour chaque paire introduisent des limites sur les positions qui sont importantes pour lalignement des 3 squences !
Comment peut-on rduire ceci de sorte quon puisse encore trouver la solution optimale ?
Le systme MSA 5
Carrillo et Lipman ont trouv une mthode qui rduit le nombre de comparaison quon doit faire
tapes de prtraitement :
1. Calculez les scores optimals entre chaque paires de squences 2. Utilisez ces scores pour la construction dun arbre phylogntique 3. Construisez lAPS en utilisant larbre et une mthode heuristique
Le systme MSA 6
Le mthode de Carrillo et Lipman introduit une limite sur le nombre de positions qui sera calcul en utilisant la programmation dynamique
Le nombre de squences est limit 10 !!!
LAPS optimal est donc lalignement avec le plus haut SP score

Le score S(A,B,C) est calcul en utilisant la mthode SP
Cet APS temporaire donne les limites sur lespace l'intrieur du cube dans lequel on trouvera lalignement optimal
Wednesday 14 March 2012 19 Wednesday 14 March 2012
Une pnalit constant est utilise pour chaque taille despace

20
Le systme MSA 7
Le systme MSA calcule une valeur ! pour chaque paire de squences
reprsente la divergence entre lalignement par paires et lalignement avec tous les squences.
Le systme MSA 8
Le systme MSA complet:
1. Calculez les scores pour les alignements entre chaque paires de squences 2. Utilisez ces scores pour la construction dun arbre phylogntique 3. Calculez les poids pour chaque paire de squences en utilisant larbre 4. Produisez lalignement en utilisant une heuristique et larbre (non-optimal) 5. Calculez le maximum pour chaque paire de squences 6. Dterminez les postions dans le hyper-cube (dimensions N) qui seront calcules pour obtenir lalignement optimal 7. Faites la programmation dynamique 8. Rapportez lalignement optimal et le maximum
" = ADS(x) - APS(x)

MSA essaie de diminuer la divergence, autrement lalignement de paires ne donne pas assez de linformation concernant lalignement de tous les squences
21
22
Prols
Dans ltape 4 de MSA on construit un APS temporaire en utilisant un arbre. Dans cette tape on a besoin des algorithmes qui peuvent aligner des squences aux groupes de squences ou des groupes de squences aux autres groupes
Prols 2
les prols enregistrent les proprits gnrales dune collection de squences: 1) les frquences dacides amines dans chaque colonne et 2) limportance volutifs de chaque acide amine
Prenez par exemple cette collection:
TGVEAENLLL PRAKAEESLS GRKDAERQLL
fu,b= nu,b Nseq

fu,b= ln(1- (nu,b/(Nseq+1)) ln(1/ (Nseq+1))
les frquences sont: Un prol est une reprsentation dun groupe de squences qui facilite ces taches
f2,R=2/3 f5,E=3/3
f7,S=1/3
24
frquences
Prols 3
les positions dans lensemble des squences
0 4
0.667 0.333 0.333 0.333 0.333 0.333 0.333 0.333 0.333 0.333 0.333 1 0.333 0.333 1 0.667 0.333 1 0.333 0.333 0.333
Prols 4
9
R H K D E S T N Q C G P A I L M F W Y V
Le prol enregistre pour chaque colonne la frquence des acides amines multiplie par le score dalignement (limportance volutive)
les acides amines
mu,a=! fu,b sa,b

b "{AA}
mu,a est uns score dalignement entre une rsidu a et le colonne u
mu,a=log
qu,a pa
0.333
quand il y a assez de squences et chaque acide amines est prsent au moins une fois dans chaque colonne
25
26
Prols 5
La probabilit pa est la probabilit quon trouve lacide amine nimporte quelle position dans des squences
Prols 6
mu,a=! fu,b sa,b
b "{AA} 0 4
3.335 0.668 0 -1.332 1 0.666 -1 -2 0 0 1.665 1 -1 -1 -3 -3
9
-2.334 -2.334
m0,R=0.333 (-1) + 0.333 (0) + 0.333 (-1) =-0.666 m1,R=0.667 (5) + 0.333 (0) =3.335
les donnes de swissprot
m2,R=0.333 (4) + 0.333 (-1) + 0.333 (-3) =0

Wednesday 14 March 2012 27 Wednesday 14 March 2012
R H K D E S T N Q C G P A I L M F W Y V +/-
-0.666 -1
...
...
...
...
...
...
...
...
...
...
Sans pnalit, la matrice est une PSSM (Position-specic scoring matrix)

-1 9 -1.666 9 0.666 9 -2.331 9 1 9 -2 9 -2.331 9 0.333 9 2 9 1 9
28
Prols 7
Les scores mu,a reprsentent les scores pour aligner un rsidu a la position u On utilise les mmes algorithmes PD pour
aligner une squence un prol
Prols 8
Les pseudocounts sont des constants quon ajoute aux valeurs dans le prole
Le plus grand problme pour crer des prols est que linsufsance du nombre de squences est et, par consquent, labsence de donnes de certaines acides amines dans plusieurs colonnes
log 0 =-#
qu,a= nu,a+1 Nseq+20
Les pseudocounts donnent de linformation antrieure sur les acides amines
par consquence, qu,a nest jamais 0 !
Il est impossible daligner un rsidu a ces colonnes en utilisant le log-odd score (regardez la discussion sur PAM et BLOSUM)
PSEUDOCOUNTS
$=%Nseq
qu,a= nu,a+$pa Nseq+$
$ est un facteur de cadrage dterminant le nombre de pseudocounts
30
Prols 9
L'quation la plus gnrale est exprime en fonction de fu,a
mu,a=log
qu,a= $=1 q0,R= q1,R=
qu,a pa nu,a+$pa
Nseq+$
Prols 10
0 4
0.934 -0.60 -0.65 -0.60 -0.65 -0.60 -0.65 -0.60 -0.65 -0.60 0.645 -0.60 -0.65 -0.60 -0.65 -0.60
9
-0.65 -0.60
qu,a= &fu,a+$pa &+$
& est un facteur de cadrage pour les donnes observes. On utilise parfois &=Nseq-1
0.06 SOMETHING 0.014 m0,R=log 4 0.06
Si il ny a pas des donnes (aucune squence), les pseudocounts dterminent les valeurs dans le prol Les pseudocounts reprsentent la distribution antrieure, qui est la connaissance quon a concernant le systme avant lintroduction des donnes
0.13 2.06 m1,R=log 4 0.06 0.09 1.06 m6,R=log 4 0.06
q6,R=
R H K D E S T N Q C G P A I L M F W Y V +/-
-0.65 -0.60
IS WRONG HERE
... ... ...
...
Attention ! ici la matrice de substitution nest pas considre
...
...
...
...
...
...
-0.60 9
-0.60 9
0.582 9
-0.60 9
-0.60 9
-0.60 9
-0.60 9
-0.60 9
-0.60 9
-0.60 9
32
Prols 11
On peut amliorer les pseudocounts en utilisant linformation dans les matrices de substitution
Prols 12
gu,a=! fu,b qa,b pb b
Multipliant la probabilit daligner une acide amine la colonne u avec pa produit un meilleur pseudocount pour a
qa,b 's(a,b) papb =e
Chaque log-odd score dans la matrice contient de linformation sur la probabilit dalignement de deux acides amines
c.a.d. si une colonne u contient fu,b acides amines de type b, la probabilit de rencontrer un alignement avec une acide amine de type a est proportionnel
fu,b
qa,b papb
L'quation pour qu,a devient
qu,a=
&fu,a+$gu,a &+$
la somme de toutes ces probabilits donne la probabilit total pour a

Le valuer de gu,a peuvent tre obtenu partir des matrices de substitution comme PAM et BLOSUM
Prols 13
Quand le prol est calcul, on peut aussi calculer une squence consensus qui reprsente pour chaque position lacide amine avec le plus haut score mu,a
logo linformation
Prols 14
Un logo est construit en calculant le contenu de linformation de chaque colonne u dans la squence
Iu= log220 - Hu
TGVEAENLLL PRAKAEEMLS GRKDAERQLL GRADAEELLL
Hu= -! fu,a log2 fu,a

lincertitude
Une position avec une acide amine conserve aura le maximum de linformation
http://weblogo.berkeley.edu
La contribution de chaque rsidu est :

35 Wednesday 14 March 2012
fu,a Iu
36
Aligner un prol
Le Needleman-Wunsch (L3) ou Smith-Waterman (L3) peut tre utilis pour aligner une squence un prole.
squence SRNAAEYLLS
TGVEAENLLL PRAKAEEMLS GRKDAERQLL
PSI-BLAST
Le systme PSI-BLAST utilise des PSSM pour la recherche des squences dans des base de donnes
q= AQRQRRQARQ d1= d2= d3= d4= AQAARRQARQ AQQRRAAQRQ QQRQRRAAQA RQQAAQQARQ
Un prol contient des scores et des pnalits Le plus grand problme si situe dans la manire de la quelle les pnalits sont assignes
Cherchez les squences d dans la base de donnes D Construisez un PSSM utilisant les squences d avec un score E plus petit quun seuil E* Rafnez le PSSM Utilisez le PSSM pour lidentication des squences relates
38
prole
d= RRRQAAQAQQ
37
Aligner des Prols?

On ne pourrait pas aligner des prols simplement parce quils enregistrent des scores et des pnalits
Mais on pourrait faire une comparaison entre deux prols utilisant des corrlations entre les colonnes de deux prols comme par exemple le Pearson correlation coefcient.
les espaces ne sont pas acceptes
Aligner des groupes de squences

Gotoh a propos 4 algorithmes pour trouver lalignement optimal qui utilisent une variation de Needleman et Wunsch en utilisant la pnalit afne pour les espaces
Algorithme A Une valuation des cots despaces plus prcise Algorithme B Algorithme C Algorithme D
A= ACDGFVH SAM---S-----G B= NALDGVAA-G--K
C=
AC-DGFVH SA-M---S------G NALDG-VAA-G---K
O. Gotoh (1993) Optimal alignment between groups of sequences and ist application to multiple sequence alignment. CABIOS 9(3):361-370
39
40
Aligner des groupes de squences 2

La partie la plus difcile est le calcul correct du cot despaces (le cot douverture et le cot dextension)
O. Gotoh (1993) Optimal alignment between groups of sequences and ist application to multiple sequence alignment. CABIOS 9(3):361-370
Le cote despace pour la squence 4 est gale au cote douverture et pour les autres il est gale au cote dextension

La somme de paires SP(A) en utilisant PAM250
A= ACDGFVH SAD-LVa3
M m-1

La somme de paires SP(A) en utilisant PAM250
A= ACDGFVH SAD-LV-
|A|=M |am|=I
nombre de squences taille des squences

v est la pnalit pour lintroduction dun
espace et
SP(A)=! ! Sm,k Sm,k= ! s(am,i, ak,i)+vgm,k

i=1
m=2 I
k=1
gm,k est le nombre despaces dans

lalignement
SP(A)=S1,2 =s(A,S)+s(C,A)+s(D,D)+s(G,-)+s(F,L)+ s(V,V)+s(H,-) + v gm,k =1-2+4-6+2+4-6 + v gm,k =-3 + v gm,k
Comment calculer le nombre de rgions despaces gm,k ?


Q0R0g0 for i1 to I do if [(Qi-1 Ri-1) and qi and !ri]or [(Qi-1 Ri-1) and !qi and ri] then gg+1 if qi then QiQi+1 els Qi0 if ri then RiRi+1 els Ri0 end

En utilisant des prols, Gotoh a amlior le temps d'excution de ces algorithmes en gardant leur exactitude
A=
ACDGFVH SAD-LV-
A1=Q= ACDGFVH A2=R= SAD-LVqi=(A1,i == -) !qi =(A1,i != -) SP(A) =-3 +(-6!2)=-15

45 Wednesday 14 March 2012
ri=(A2,i == -) !ri =(A2,i != -)
Le rsultat dpend du nombre de squences dans les deux groupes

O. Gotoh (1994) Further improvement in methods of group-to-group sequence alignment with generalized prole operations. CABIOS 10(4):379-387
g1,2=2
46

La programmation dynamique optimalise
(le systme MSA)
Pour lalignement de beaucoup de squences on a besoin de heuristiques
Lalignement progressif
Lalignement progressif est une approche heuristique pour aligner plusieurs squences 3 tapes:
Aucun garantie quon retrouve lalignement optimal
Lalignement progressif (le systme

CLUSTAL)
Calculez une matrice de distances entre les paires de squences Construisez un arbre phylogntique en utilisant cette matrice Utilisez cette arbre pour aligner chacun des squences
(cfr les tapes 1-4 de MSA)

Wednesday 14 March 2012 47 Wednesday 14 March 2012 48
Lalignement progressif 2
Comment calculer la matrice de distances?
Faites un alignement entre chaque paires de squences (programmation dynamique ou une autre mthode) Calculez la distance entre chaque alignement : sij sij nombre de substituions dij= Lij taille dalignement Lij
Les espaces ne sont pas pris en considration La matrices est symtrique les lments sur la diagonal sont 0
Comment construire larbre ?
regroupez dabord les deux squences les plus proches (p.e. 1) Ensuite, regroupez :
A. les deux squences suivantes la plus proche (p.e. 2) B. une squence avec le groupe qui tait construit prcdemment (p.e. 4) C. deux groupes (p.e. 3)
1 3 4 2
SEQ1 SEQ2 SEQ3 SEQ4 SEQ5
50
Larbre dtermine lordre dans lequel on ajoute chaque squence au APS (voyez algorithmes de Gotoh)
1
GATTGTAGTA GATGGTAGTA GATTGTAGTA
Le systme de Feng et Doolittle:
Ce systme a t construit sur le souci que les systmes APS enlevs ou changs trop les espaces qui taient prsent auparavant, qui est peut-tre plausible dune perspective doptimisation, mais pas dune perspective biologique
GATGGTAGTA GATTGTTC--GTA GATTGTTCGGGTA
une fois un espace, toujours un espace le systme est compos de 6 fonctions. Ici, seulement les fonctions le plus important sont expliqus
GATTGTA---GTA
GATTGTA-----GTA GATGGTA-----GTA GATTGTTC----GTA GATTGTTCGG--GTA GATGGTAGGCGTGTA
GATGGTA---GTA GATTGTTC--GTA GATTGTTCGGGTA
SCORE
BORD
DFAlign
D.-F. Feng and R.F. Doolittle (1987) Progressive sequence alignment as a prerequisite to correct phylogenetic trees J Mol Evol 25:351-360
51
52
SCORE
Alignement par paires et le calcul des scores de diffrences
SCORE
x1 x2 x3 x4
4 segments obtenus de 4 protines qui font parties de la famille I-immunogobulin
Sij - Srand Dij=-ln (100 Siden - Srand
Sii + Sjj Siden = 2
ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN RDPVKTHEGWGVMLPCNPPAHYPGLSYRWLLNEFPNFIPTDGRHFVSQTT ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPLASQNRVEVLA RRLIPAARGGEISILCQPRAAPKATILWSKGTEILGNSTRVTVTSD"
Sij Le score dalignement (en utlisant p.e. PAM250) Srand = (1/L)!! S(a,b)Ni(a)Nj(b)-N(g)gpenalty
Le score dalignement de deux squences alatoires avec la mme composition et la mme taille
La matrice de subtitution PAM250 gpenalty = 8 Un alignement entre chaque paires de squences et entre les squences elles-mmes est produit (Needleman et Wunsch algorithme)
SCORE
S11=262, S22=287 ... Alignement 1 : S12=31
x1 ILDMDVVEGSAARFDCKVEG-YPDPEVMWFKDDNPVKESRHFQIDYDEEGN x2 RDPVKTHEGWGVMLPCNPPAHYPGLSYRWLLNEFPNFIPTD-GRHFVSQTT"
SCORE
Sij x1 x2 x3 x4 x1 262 x2 31 287 x3 44 15 222 x4 13 16 45 215 Srand x1 x2 x3 x4 x1 x2 x3 x4 -66.94 -80.28 -70.48 -82.86 -72.52 -37.85
Alignement 2 : S12=44
x1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPL-ASQN-RV--EVLA-"
Dij x1 x2 x3 x4 x1 0 x2 1.25 0 x3 0.95 1.24 0 x4 1.31 1.30 1.13 0
Alignement 3 : S12=13
x1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x4 RRLIPAARGGEISILCQPRAAPKATILWSKGTE-ILGNST-RV--TVTSD"
Dij=-ln
Sij - Srand Siden - Srand
...
55
56
BORD
Construit un arbre prliminaire en utilisant lalgorithme propos par Fitch et Margoliash
A chaque tape joignez les squences ou groupes de squences avec la plus petite distance et recalculez la distance entre cette nouvelle groupe et les squences ( ou groupes) restant
Dij x1 x2 x3 x4 x1 0 x2 1.25 0 x3 0.95 1.24 0 x4 1.31 1.30 1.13 0
BORD
D52= D54= D12+D32 =1.245 2 D14+D34 =1.22 2
Construit un arbre prliminaire en utilisant lalgorithme propos par Fitch et Margoliash

Dij 5 x2 x4 5 0 x2 x4
1.245 1.22 0 1.30 0
x4 x1 x3 x4 x1 x3 x2
6 5
Les squences x1 et x3 sont la plus proche
x1 x3
Dij 6 x2
6 0
x2 1.263 0
6 5
W.M. Fitch and E. Margoliash (1967) Construction of phylogenetic trees, Science 155(3760):279-284
57
58
Tom Lenaerts ULB
DFAlign
Utilisez larbre pour la construction du APS premire tape
x1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPL-ASQN-RV--EVLA-"
Ce mthode a deux soucis : Le problme du maximum local
Le squences sont ajoutes sur des alignements existants
deuxime tape
x1 ILDMDVVEGSAARFDCKVEGYPDPEVMWFKDDNPVKESRHFQIDYDEEGN x3 ISDTEADIGSNLRWGCAAAGKPRPMVRWLRNGEPL-ASQN-RV--EVLA- x4 RRLIPAARGGEISILCQPRAAPKATILWSKGTEIL-GNST-RV--TVTSD "
x4 x1 x3 x2
6 5
Par consquent, chaque erreur dans lalignement introduisent des erreurs supplmentaires dans les alignements qui sont construit plus tard
Comment choisir les paramtres

Il faut choisir au moins une matrice de substitution, une pnalit douverture et une pnalit dextension
CLUSTAL W a essay de rsoudre ce problme
troisime tape
x1 x3 x4 x2 ILDMDVVEGSAARFDCKVEG-YPDPEVMWFKDDNPVKESRHFQIDYDEEGN ISDTEADIGSNLRWGCAAAG-KPRPMVRWLRNGEPL-ASQN-RV--EVLA- RRLIPAARGGEISILCQPRA-APKATILWSKGTEIL-GNST-RV--TVTSD RDPVKTHEGWGVMLPCNPPAHYPGLSYRWLLNEFPNFIPTD-GRHFVSQTT"
Les rsultats dpendent sur la matrice du substitution et la pnalit g

Ceux-ci fonctionnent bien en cas de squences homologues, pourtant ils commencent chouer srieusement ds que les squences divergeront
Tom Lenaerts ULB
Tom Lenaerts ULB
Rglages de paramtres introduit par CLUSTAL W:
Rglages de paramtres introduit par CLUSTAL W:
Des matrices de substitutions sont utilises dynamiquement selon la divergence des squences aligner a chaque tape Les squences sont pess pour corriger l'chantillonnage ingal travers toutes les distances volutifs dans les donnes
Des squences similaires sont pess vers le bas
Des pnalits dynamiques qui changent selon le type dacide amin ou selon la position dans la squence
Information concernant la probabilit de trouver un espace ct dune des 20 acides amines est utilise pour changer locallement la pnalit douverture Des rgions courtes des rsidus hydrophiles indiquent la prsence dune boucle, exigeant la rduction de la pnalit douverture ...
J.D Thompson, D.G. Higgins and T.J. Gibson (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position specic gap penalties adn weight matrix choice. Nucleic Acid Research 22:4673-4680
J.D Thompson, D.G. Higgins and T.J. Gibson (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position specic gap penalties adn weight matrix choice. Nucleic Acid Research 22:4673-4680
61
62
Tom Lenaerts ULB
Tom Lenaerts ULB
Ce mthode a deux soucis : Le problme du maximum local
Le squences sont ajoutes sur des alignements existants Par consquent, chaque erreur dans lalignement introduisent des erreurs supplmentaires dans les alignements qui sont construit plus tard
Amlioration itrative
Solution alatoire Amliorer la solution
Non
Fonction dvaluation
Comment choisir les paramtres
Des algorithmes stochastiques peuvent rsoudre ce Il faut choisir au moins une matrice de problme puisqu'ils peuvent s'chapper de solutions substitution, unelocalement douverture et une pnalit optimales pnalit dextension
convergence?
Oui La meilleur solution
Procd typique pour rsoudre des POC.
Ceux-ci fonctionnent bien en cas de squences homologues, pourtant ils commencent chouer srieusement ds que les squences divergeront
Tom Lenaerts ULB
Tom Lenaerts ULB
Amlioration itrative 2
Solution alatoire
Alignement de plusieurs squences
e.g. Somme-depaires Non
Algorithmes Stochastiques
SAGA = sequence alignment by genetic algorithm
Alignement de plusieurs squences
slection base sur le succs crossover
Fonction dvaluation
Amliorer la solution
gnrations
convergence?
Oui La meilleur solution
Des algorithmes comme stochastic hill climbing, simulated annealing, tabu search, genetic algorithms, ant colony optimization,...
mutation ajoutez la nouvelle population
Approximation dalignement optimal

C. Notredame and D.G. Higgins (1996) SAGA: sequence alignment by genetic algorithm. Nucleic Acid Research 24:1515-1524
66
Tom Lenaerts ULB
Tom Lenaerts ULB
Algorithmes Stochastiques 2
Au dbut un population dalignements de N squences sans spaces internes est cre (~100) (On ajout des espaces la n des squences pour crer des alignements de taille L) = gnration 0
slection base sur le succs crossover gnrations
La qualit dun APS est valu en utilisant des fonctions: ici deux fonctions ressemblant la somme de paires pondrs avec une pnalit despaces afne
Le succs correspond la probabilit de mutation produire des nouveaux APS add to new = fitness(APS) population
Les squences dans lAPS peut tre dcales vers la droite, remplissant les positions au dbut avec des espaces
Les solutions avec un succs lev pourraient produire entre 0 et 2 nouveaux APS
Tom Lenaerts ULB
Tom Lenaerts ULB
Chaque gnration, 50% des meilleurs APS sont copis dans la population slection base suivante
sur le succs crossover gnrations
Pendant cette tape, les meilleurs APS sont slections et des nouvelles solutions sont produites partir deux
Ainsi, 50% de la population suivante est produit par les oprateurs

Tom Lenaerts ULB
Tom Lenaerts ULB
Les operateur de croissement change linformation entre les deux APS
Le croisement un point prend deux APS takes two MSA, les coupe une certaine position, change les deux parties et les colle ensemble
Il y a 22 oprateurs en total, qui sont utilis avec une certaine probabilit
Les oprateurs de mutation excutent des modications locales dans les APS, introduisant dans cette faon la variation
71
72
Tom Lenaerts ULB
Tom Lenaerts ULB
Le croisement uniforme recherche dabord des colonnes contenant les mmes acides amines dans chaque positions (colonnes consistent)
Gap-insertion est un oprateur de mutation. 1) Les squences dans un MSA sont divises dans deux groupes (utilisant un arbre estim) 2) Un espace avec un taille alatoire est insr dans le groupe G1
Dans le nouvelle APS, ces colonnes consistent seront prservs et les rgions dans lintervalle seront remplis avec les alignements are lled up with the alignement dun des deux APS
3) Un espace avec la mme taille est insr dans G2 dans une position un distance limit par la position de lespace dans le groupe G1
74
Tom Lenaerts ULB
Tom Lenaerts ULB
slection base sur le succs crossover generations
Planication dynamique des oprateurs
Au dbut la probabilit dutiliser un oprateur est 1/22 (on garantie que chaque oprateur nobtient jamais un probabilit de zro) Les probabilits sont adaptes en utilisant la performance de ces oprateurs dans les 10 gnrations prcdentes
Attribution de crdit correcte

Tous les oprateur sont crdit pour la cration dun meilleur APS Le dernier obtient 50% de la crdit, lavant-dernier obtient 50% de la crdit restante (25% doriginale), etc
Lalgorithme se termine quand les APS cessent amliorer, c--d le succs naugmente pas plus loin
75
76
Tom Lenaerts ULB
Tom Lenaerts ULB
Planication dynamiques des oprateurs de croisement
SAGA tait compar au systme MSA (pour des petits groupes) et CLUSTAL W (pour des alignements grands)
SAGA fonctionne aussi bon que MSA sur les petits groupes de squences et surpasse CLUSTAL W sur les grands groupes de squences
77
78

L7 Alignement de Plusieurs Sequences

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

L7 Alignement de Plusieurs Sequences

Hochgeladen von

Copyright:

Verfügbare Formate

Bibliographie Introduction la bioinformatique

7. Lalignement de plusieurs squences et les prols

Wednesday 14 March 2012

Wednesday 14 March 2012

Wednesday 14 March 2012

Wednesday 14 March 2012

Wednesday 14 March 2012

Wednesday 14 March 2012

Wednesday 14 March 2012

Wednesday 14 March 2012

Le score dune colonne : S(mk,l)=! s(mki, mli)

Wednesday 14 March 2012

est le rsidu dans la squence k dans la colonne i

s(mki, mli) le score dans la matrice

Wednesday 14 March 2012

Les Mthodes globales

S(mk,l)=! s(mki, mli)

Entropie minimum: S(mi)=! fki ln(fki)

O(2nLn) 22!2002=0.16M 23!2003=64M 24!2004=25600M ...

Les Mthodes globales 2

Les Mthodes globales 3

Lalignement progressif (le systme Mthodes stochastiques (le systme SAGA)

mmoire (1 byte/lment) 400 bytes 7.63 Mbytes 1.5Gbytes 60000 Gbytes

S(A,B,C) S(B,C) S(A,B) S(A,C)

LAPS optimal est donc lalignement avec le plus haut SP score

Une pnalit constant est utilise pour chaque taille despace

" = ADS(x) - APS(x)

Wednesday 14 March 2012

Wednesday 14 March 2012

fu,b= nu,b Nseq

Wednesday 14 March 2012

les acides amines

mu,a=! fu,b sa,b

mu,a est uns score dalignement entre une rsidu a et le colonne u

Wednesday 14 March 2012

Wednesday 14 March 2012

les donnes de swissprot

m2,R=0.333 (4) + 0.333 (-1) + 0.333 (-3) =0

Sans pnalit, la matrice est une PSSM (Position-specic scoring matrix)

qu,a= nu,a+1 Nseq+20

Les pseudocounts donnent de linformation antrieure sur les acides amines

par consquence, qu,a nest jamais 0 !

qu,a= nu,a+$pa Nseq+$

$ est un facteur de cadrage dterminant le nombre de pseudocounts

qu,a= $=1 q0,R= q1,R=

qu,a= &fu,a+$pa &+$

0.06 SOMETHING 0.014 m0,R=log 4 0.06

0.13 2.06 m1,R=log 4 0.06 0.09 1.06 m6,R=log 4 0.06

Attention ! ici la matrice de substitution nest pas considre

Wednesday 14 March 2012

qa,b 's(a,b) papb =e

L'quation pour qu,a devient

la somme de toutes ces probabilits donne la probabilit total pour a

Hu= -! fu,a log2 fu,a

La contribution de chaque rsidu est :

Wednesday 14 March 2012

Wednesday 14 March 2012

Wednesday 14 March 2012

Aligner des Prols?

Aligner des groupes de squences

AC-DGFVH SA-M---S------G NALDG-VAA-G---K

Wednesday 14 March 2012

Wednesday 14 March 2012

Aligner des groupes de squences 2