Msa

Alineamientos de
Mltiples secuencias
Bioinformtica
Grado en Biotecnologa
Introduccin
Alineamientos por pares
Comparacin de dos secuencias entre s
BLAST
Comparacin por pares de una secuencia con muchas otras
almacenadas en una base de datos
Se buscan muchos alineamientos locales de pares de secuencias
que sean significativos
Multiple Sequence Alignment (MSA)
Comparacin de varias secuencias simultneamente, no por
parejas
Definiciones
MSA: coleccin de tres o ms secuencias de aminocidos
o nucletidos que estn completa o parcialmente

alineadas
Los residuos homlogos son alineados en columnas a lo
largo de toda la secuencia
Provienen de un ancestro comn
Ocupan un lugar relevante para la estructura 3D de la protena
Tienen una funcin concreta
Ejemplos
GAPDH
HomoloGene:107053
Casein kappa
HomoloGene:3818
Procedimiento prctico
Elegir las secuencias (homlogas) a alinear
Elegir un software que implemente la funcin de
puntuacin objetivo apropiada

Mtrica que maximice la puntuacin total de usa serie de
alineamientos por pares
Elegir los parmetros apropiados para la ejecucin

Penalizacin de huecos
Matriz de sustitucin
MSA correcto
No tiene por qu existir un alineamiento correcto de una
familia de protenas
Las estructuras evolucionan normalmente mucho ms
lentamente que las secuencias
Ejemplo: beta globina y mioglobina humana
25% identidad
Estructura tridimensional casi idntica
NP_000509 vs NP_005359
Alineamiento tridimensional no posible
Incluso a veces no se dispone de la estructura 3D
Usos de MSA (I)

Protena relacionada con un grupo de protenas
Ser informativo acerca de funcin, estructura y evolucin
La mayora de las protenas tienen miembros
relacionados distantes
MSA mejor que alineamiento por pares
Perfiles y HMMs
Bsqueda en bases de datos con BLAST

Puede hacerse un MSA para detectar motivos conservados?
Usos de MSA (II)

PopSet en Entrez
Contiene secuencias de nucletidos y protenas vistas como MSAs
Despus de la secuenciacin de un genoma
Deteccin de familias de protenas
Un MSA es el punto de partida para la construccin de rboles
filogenticos
Un MSA es el punto de partida para la identificacin de familias
y motivos que luego pueden ser almacenados en una base de

datos
Benchmarking
Varias categoras de algoritmos de construccin de MSAs
Mltiples variantes de esos algoritmos
Muchas posibles elecciones de parmetros e ejecucin
http://en.wikipedia.org/wiki/List_of_sequence_alignment_software
Cul es el mejor?
Comparacin con estructuras 3-D conocidas
Identidad
> 40% : Los resultados suelen ser muy similares
< 40% : Los resultados pueden ser muy variables
Funcin de puntuacin objetivo (I)

Alineamiento de N secuencias y M columnas
1
M
1
Este alineamiento es mejor o peor que otro?

Mtrica: Suma de pares (Sum-of-pairs score SPS)
Funcin de puntuacin objetivo (II)

Dado:
Un conjunto de N secuencias alineadas cada una de longitud M, en la forma de
una matriz A de alineamiento NxM
Una matriz de sustitucin (PAM, BLOSUM u otra) que da la puntuacin s(x,y)
para alinear x,y
Entonces el SP score SP(Ai) para la ith columna de A (Ai) es calculada
segn la expresin
SP(Ai ) = ! s(Aki , Ali )

k<l
Para el alineamiento completo
SP(A) = " SP(Ai )

i
Ejemplo: SPS MSA nucletidos
Ejemplo: SPS MSA aminocidos
Datos para benchmark de MSA
Algoritmos
Categoras:
Mtodos exactos
Alineamientos progresivos
ClustalW
Aproximaciones iterativas
PRALINE, IterAlign, MUSCLE
Mtodos basados en la consistencia

MAFFT, ProbCons
Mtodos basados en la estructura

Expresso
Las categoras no son excluyentes
Mtodos exactos
Se basan en programacin dinmica, al igual que NW y SW, pero
utilizando una matriz N-dimensional

Carrillo & Lipman, 1988
Lipman et al., 1990
Gupta et al, 1995
Slo para un limitado de secuencias
Complejidad computacional
O(2 N LN )
Mtodos progresivos
Fitch & Yasunobu (1975)
Hogeweg & Hesper (1984)
Feng & Doolittle (1987, 1990)
Progresivo
Se calculan los alineamientos por pares entre todas las secuencias
Se elige el mejor alineamiento por pares
Se van aadiendo progresivamente ms secuencias al MSA
Ventajas
Rapidez
Desventaja
El resultado final depende del orden en que se van aadiendo las
secuencias
ClustalW
Sitio Web para ejecutar el programa
http://www.ebi.ac.uk/Tools/msa/clustalw2/
Vamos a ver un primer ejemplo con 5 globinas divergentes

http://bioinfbook.org/chapter6/Webdocument_6-3_5divergent_globins.htm
>beta_globin 2hhbB NP_000509.1 [Homo sapiens]!

MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLG!
AFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVAN!
ALAHKYH!
>myoglobin 2MM1 NP_005359.1 [Homo sapiens]!
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVL!
TALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFR!
KDMASNYKELGFQG!
>neuroglobin 1OJ6A NP_067080.1 [Homo sapiens]!
MERPEPELIRQSWRAVSRSPLEHGTVLFARLFALEPDLLPLFQYNCRQFSSPEDCLSSPEFLDHIRKVML!
VIDAAVTNVEDLSSLEEYLASLGRKHRAVGVKLSSFSTVGESLLYMLEKCLGPAFTPATRAAWSQLYGAV!
VQAMSRGWDGE!
>soybean_globin 1FSL leghemoglobin P02238 LGBA_SOYBN [Glycine max]!
MVAFTEKQDALVSSSFEAFKANIPQYSVVFYTSILEKAPAAKDLFSFLANGVDPTNPKLTGHAEKLFALV!
RDSAGQLKASGTVVADAALGSVHAQKAVTDPQFVVVKEALLKTIKAAVGDKWSDELSRAWEVAYDELAAA!
IKKA!
>rice_globin 1D8U rice Non-Symbiotic Plant Hemoglobin NP_001049476.1 [Oryza sativa (japonica cultivar-group)]!
MALVEDNNAVAVSFSEEQEALVLKSWAILKKDSANIALRFFLKIFEVAPSASQMFSFLRNSDVPLEKNPK!
LKTHAMSVFVMTCEAAAQLRKAGKVTVRDTTLKRLGATHLKYGVGDAHFEVVKFALLDTIKEEVPADMWS!
PAMKSAWSEAYDHLVAAIKQEMKPAE!
!
ClustalW: Paso 1
1
( N !1) N
2
Generar todos los alineamientos por pares posibles
ClustalW: Paso 2
Crear un rbol gua
Parntesis: clustering
Algoritmo de Johnson
Lo veremos en detalle en el
tema de rboles
filogenticos
ClustalW: Paso 3
Se seleccionan la dos secuencias ms prximas segn el rbol gua
Se realiza el alineamiento por pares que da lugar a un perfil de dos
secuencias
Se selecciona el siguiente par ms prximo
Opcin 1: Si ninguna secuenca coincide con las anteriores se hace un
nuevo alienamiento por pares y se genera un nuevo perfil de dos

secuencias
Opcin 2: Si alguna secuencia coincide con las anteriores se crea un
perfil de tres secuencias
A medida que se va avanzando en el rbol gua ser necesario hacer
nuevos alineamientos:
Secuencia con secuencia
Secuencia con perfil
Perfil con perfil
Programacin dinmica
ClustalW: Paso 3
Resultado del alineamiento
Salida de ClustalW
Huecos en ClustalW
Poltica del algoritmo de Feng-Doolittle:
once a gap, always a gap
Los primeros alineamientos marcan en gran medida los huecos
que van a existir en el MSA
El resultado tiende a presentar estructura de bloques
Hay variantes posteriores que intentan minimizar la importancia de
los gaps de los primeros alineamenteos
Las secuencias que son muy prximas se les da un peso
menor (ClustalW)
Se intenta que las secuencias muy prximas no dominen
absolutamente el resultado del MSA final
Aproximaciones iterativas
Calculan una solucin subptima una estrategia progresiva
Modifican la solucin con distintas tcnicas hasta que la solucin
converge hacia un MSA mejorado

Intentan corregir los errores en las decisiones que pueden haberse
tomado en una estrategia progresiva
Ejemplos
MAFFT(Multiple Alignment using Fast FourierTransform)(Katoh et al.,
2005)
Iteralign (Karlin and Brocchieri, 1998)
Praline (Profile ALIgNmEnt) (Heringa, 1999; Simossis and Heringa, 2005)
MUSCLE (MUltiple Sequence Comparison by Log-Expectation) (Edgar,
2004a, 2004b).
MUSCLE Paso 1
Se genera un rbol gua borrador
Medida de distancias entre pares de secuencias
Identidad
k-mers counting
Matriz triangular de distancias

Construccin de un rbol enraizado (UPGMA o NJ)
Las secuencias se van aadiendo progresivamente
siguiendo el rbol gua
MUSCLE Paso 2
Medida de distancias (identidad) entre los pares de
secuencias segn el alineamiento del paso anterior

Se genera un nuevo rbol gua utilizando una matriz de
distancias de Kimura (se ver en el captulo siguiente)
El rbol es comparado con el del paso anterior y se utiliza
la informacin para mejorar el rbol gua
Se rehace el alineamiento progresivo siguiendo el nuevo
rbol gua
Este paso es iterativo hasta que no se consiga mejora en
el rbol gua
MUSCLE Paso 3
Se elimina una de las ramas de forma que se divide el
rbol en 2 subconjuntos o perfiles

Los dos perfiles se alinean entre s y por ltimo la
secuencia retirada y se ve si mejora la puntuacin
Este proceso se repite para cada una de las ramas,
generando los dos subconjuntos correspondientes y
eligiendo el rbol que da una mejor puntuacin
El proceso se repite de nuevo iterativamente un nmero
de veces o hasta convergencia
=@AB+"A CA"71 9+1+)/AD- 4EEF- G0B< 84- =0< H
Steps in MUSCLE
!"#$
Stage 1: Draft progressive
Stage 2: Improved
progressive
Stage 3: Refinement
,(%-'. "/ >'2% 12),-)8 %/88)-2X$% !'$ [.K .4 !'$ EFGHIJ )3,.-2!'8=
>'$-$ )-$ !'-$$ 8)20 %!),$%L G!),$ C ;1-)4! #-.,-$%%26$<& G!),$ R
=@AB+"A CA"71 9+1+)/AD- 4EEF- G0B< 84- =0< H
MUSCLE Stage 1
1.1 Compute k-mer distance matrix

1.2 Use UPGMA to make tree (TREE1)
1.3. Use guide tree to make first MSA
!"#$
K-mer distance
Let k=2
Sequence
2-mers
AKFLA
AK,KF, FL,LA
LKFL
LK, KF, FL
K-mer distance is defined from common fractional k-mer
count (F)
# of instances in
sequence 1
F =
A k-mer
min(n1 ( ), n2 ( ))
min(n, m) k + 1
Length of sequences
D=1-F

# of instances in
sequence 1
K-mer distance example

Sequence
2-mers
AKFLA
AK,KF, FL,LA
LKFLFL
LK, KF, FL,LF,FL
K-mer ()
# in sequence 1
# in sequence 2
Min(n1(t),n2(t))
AK
KF
FL
LA
LK
LF
2
1+1
=
F =
min(5, 6) 2 + 1 4
Stage 2: Improved progressive
2.1 Recompute similarity of sequences of pairs using mutual alignment

in MSA
2.2 Construct a phylogenetic tree (TREE2) using an alignment-based
distance
2.3 Build a new progressive alignment only for subtrees where
branching order has changed between TREE1 and TREE2
2.4 Repeat 2.3 until number of reordered nodes does not decrease.
,(%-'. "/ >'2% 12),-)8 %/88)-2X$% !'$ [.K .4 !'$ EFGHIJ )3,.-2!'8=
Stage 2.1. Recomputing pairwise sequence similarity

from a multiple alignment
Derived pairwise alignment
TGTTAAC
TGT-AAC
An MSA
-TGTTAAC
-TGT-AAC
-TGT--AC
ATGT---C
ATGT-GGC
Exclude gaps in
both sequences
Fraction identity
6/7
TGTTAAC
TGT--AC
5/7
-TGTTAAC
ATGT---C
4/8
-TGTTAAC
ATGT-GGC
4/8
substitution at a single site to be the only allowe

mutation and that no position mutates more tha
sequences
diverge, there
an increasing proba
Stage As
2.2:
Phylogenetic
treeiscreation
multiple mutations at a single site. To correct for
Construct a
phylogenetic
tree usingdistance
a Kimura distance
use
the following
estimate [22]:
dKimura = -loge (1 - D - D2/5)
(3)
D: fractional
sequences
Foridentity
D d of0.25
we use
a lookup table taken from th

TALW source code. For k-mer measures, we use:
dkmer = 1 - F.
(4)
Tree construction
Given a distance matrix, a binary tree is constr
clustering. Two methods are implemented: neighb
Stage 2.3 Re-align only when branching

order is changed
!"#$!%&%'(&)*+,%-.!"##$%!!&''(
)**+&,,---./01234536*
Recompute alignment
u
for these nodes
t
u
x
w
w
new tree
old tree
x
Figure
Tree
comparison
5
Tree comparison. Two trees are compared in order to
identify those nodes that have the same branching orders
within subtree rotation (white). If a progressive alignment
has been created using to the old tree, then alignments at
these nodes can be retained as the same result would be
ure 4). The option of always appl

MAFFT, is also provided. We foun
of a half penalty for terminal gap
Branching
same
wide rangeorder
of input
data, but tha
could sometimes by achieved by t
If the length ratio of the two profi
a threshold (by default, 20%), th
four different alignments in whic
neither terminals are fully penaliz
Branching
order different:
defined by subtracting all gap pen
x branches
before
terminal) from
the v
alignment sc
profile functions only. The align
conservation score is used.
Tree comparison
In progressive alignment, two sub
tical alignments if they have the s
their leaves and the same branch
We exploit this observation to o
%
1
)
$
$
$
%=
!
$
Stage 3: Iterative Refinement
3.1 Select a branch

,(%-'.
"/ >'2%profiles
12),-)8 %/88)-2X$% !'$ [.K .4 !'$ EFGHIJ )3,.-2!'8=
3.2 Extract
>'$-$ )-$ !'-$$ 8)20 %!),$%L G!),$ C ;1-)4! #-.,-$%%26$<& G!),$ R
3.3 Re-align profiles
;28#-.6$1 #-.,-$%%26$< )01 G!),$ ] ;-$90$8$0!<= Q 8/3!2#3$ )32,08$0! 2%
3.4 Update
if its score
is better
than
current
)6)23)(3$
)! !'$MSA
*.8#3$!2.0
.4 $)*'
%!),$& )!
K'2*'
#.20!MSA
!'$ )3,.-2!'8 8)"
!$-820)!$=
3.1 Selecting a branch

Select a branch in order of decreasing distance from the
root
MQTIF
LH-IW
MQTIF
2
LHIW
MQTIF
LH-IW
LQS-W
L-S-W
3
LQSW
L-SW
Branch selection order: 1,2,3,4,5,6
LQSW
4
LSF
3.2 Extracting a profile

5
MQTIF
LH-IW
MQTIF
Re-align profiles
for subtrees
MQTIF
LHI-W
MQTIF
LQS-W
L-S-W
LHIW
MQTIF
LH-IW
LQS-W
L-S-W
Delete
branch 1
3
LQSW
L-SW
LQSW
LH-IW
LQS-W
L-S-W
Is score better?
4
LSF
yes
Keep new
alignment
Discard
3.2 Extracting a profile

5
MQTIF
LH-IW
LQS-W
L-S-W
MQTIF
LH-IW
MQTIF
Re-align profiles
for subtrees
LHIW
2
LHI-W
MQTIF
LQS-W
L-S-W
LHIW
Delete
branch 2
3
LQSW
L-SW
MQTIF
LQS-W
L-S-W
LQSW
Is score better?
4
LSF
yes
Keep new
alignment
Discard
Summary of MUSCLE
Three stage algorithm
Stage 1: Draft progressive
k-mer distance
UPGMA tree (TREE1)
Guide tree based alignment (MSA1)
Stage 2: Improved progressive
Distance derived from MSA1
UPGMA tree (TREE2)
Redo alignment for nodes with changed orderings
Repeat until number of re-ordered nodes does not change
Stage 3: Iterative refinement
Generate subtree profiles
Realign profiles
Keep realignment if of higher score
Repeat until no more improvement or fixed number of steps.
Aproximaciones basadas en la
consistencia
Consistencia
Dadas tres secuencias x, y, z, si el residuo xi alinea con zk y zk
alinea con yj, entonces xi debera alinear con yj
Mtodos
ProbCons (Do et al., 2005)
T-Coffee (Notredame et al., 2000).
T-Coffee
Clculo de una biblioteca de alineamientos por pares
Todos los pares de alineamientos globales posibles (NW)
Los diez mejores alineamientos locales (SW)
A cada uno de los pares de residuos alineados se les
asigna un peso
Se genera una biblioteca ampliada que sirve como una position-
specific substitution matrix (PSSM)
A continuacin se calcula un alineamiento progresivo:

Creando una matriz distancias
Calculando un rbol gua (NJ)
Utilizando programacin dinmica y la matriz de sustitucin
calculada anteriormente
Aproximaciones basada en estructuras

Se puede mejorar la precisin de un MSA incluyendo
informacin acerca de de estructuras 3D de uno o ms

miembros del grupo de protenas que se van a alinear
Mtodos:
PRALINE (Simossis and Heringa, 2005)
T-Coffee module Expresso(Armougom et al., 2006b)
PipeAlign (Plewniak et al., 2003)
Expresso y iRMSD-APDB
Expresso
Para cada secuencia se lanza un BLAST contra PDB
Las coincidencias con >60% identidad se utilizan como un patrn para
crear el MSA
iRMSD-APDB
Se deben proporcionar los accesion number en PDB de al menos
dos de las protenas que se van a alinear
Secuencia de consenso y Logos
Perfiles
Se lleva a cabo un MSA en un conjunto de secuencias
Se seleccionan las regiones ms altamente conservadas
y se construye un MSA ms pequeo

Se construye una matriz de puntuacin a partir del MSA
PERFIL
Perfiles: ejemplo
Perfiles en Prosite
Patrones
Sintaxis para expresar patrones (PROSITE)
Residuo nico A
Conjunto de residuos [ACD]
Residuos excluidos {FHW}
Comodn x
Longitud del comodn x(3)
Longitud variable x(3,6)
Ejemplo
x(3)-[DE]-[AVLI]-x(4)-[RKH]-[VFWH]-x(3)!
X X X D A X X X X R V X X !
E V
I
L
K F!
H W!
H!
Patrones: limitaciones (I)

A C A - - - A T G
T C A A C T A T C
A C A C - - A G C
A G A - - - A T C
A C C G - - A T C
[AT] [CG] [AC] [ACGT]* A [TG] [GC]
Patrones: limitaciones (II)

A C A - - - A T G
T C A A C T A T C
A C A C - - A G C
A G A - - - A T C
A C C G - - A T C
[AT] [CG] [AC] [ACGT]* A [TG] [GC]
No distingue entre:
T G C T - - A G G
excepcional
A C A C - - A T C
consenso
Patrones vs perfiles
Patrones
Fciles de comprender
Legibles por los humanos
Pueden ser de gran longitud y con huecos variables
Perfiles
Ms sensibles
Pueden ser construidos automticamente
Requieren secuencias de entrenamiento suficientes (mnimo 20)
Se puede estimar la significacin estadstica fcilmente
Patrones en Prosite
Modelos ocultos de Markov (HMM)

Hidden Markov Models
Muy utilizados tradicionalmente en
problemas de reconocimiento automtico
del habla
Andrei Andreevich Markov

18561922
1989 Gary Churchill

Introduce su uso para el anlisis de
secuencias
Utiliza HMMs para segmentar una secuencia
de DNA en regiones alternativas con

distribucin de uso de nucletidos similares
Hoy en da los HMMs son utilizados para
gran nmero de tareas en Bioinformtica y

es uno de los mtodos ms importantes
junto con los mtodos de alineamientos de
secuencias
Gary Churchill
HMM: Un ejemplo sencillo (I)

Loaded
Fair
Probabilidades
de transicin
Modelo
de
Markov
Probabilidades
de emisin
Modelo multinomial
HMM: Un ejemplo sencillo (II)

L
F
Secuencia observable
4553653163363555133362665132141636651666
?
OCULTO
FFFFFFFFFFFFFFFFFFFFLLLLFFFFFFFLLLLLLLLL
Un HMM a partir de un alineamiento (I)

ACA
TCA
ACA
AGA
ACC
- - - ATG
ACT ATC
C - - AGC
- - - ATC
G - - ATC
Probabilidades
de transicin
Nodo de insercin
insercin
Probabilidades
de salida
node 1
node 2
node 3
node 4
El grosor depende de la
probabilidad de transicin
node 5
node 6
HMM: Match states

A
T
A
A
A
C
C
C
G
C
A
A
A
A
C
A
C
G
C
-
T
-
A
A
A
A
A
T
T
G
T
T
G
C!
C!
C!
C!
Posiciones con alta

conservacin: match states
HMM: Nodos de insercin

Las columnas 4, 5, 6 son las
A
T
A
A
A
C
C
C
G
C
A
A
A
A
C
A
C
G
C
-
T
-
A
A
A
A
A
T
T
G
T
T
G
C!
C!
C!
C!
inserciones
En la cuarta columna, 3 de 5
secuencias tienen inserciones
La probabilidad de transicin del tercer
nodo, al nodo de insercin ser 0.6
En el nodo de insercin hay 1 A, 2
Cs, 1 G, 1 T
Las probabilidades de A,C,G,T son 0.2,
0.4, 0.2, 0.2
Transiciones hacia fuera del nodo de
insercin
3 de las 5 inserciones terminan a
continuacin la insercin
La probabilidad de abandonar la
insercin es 0.6
HMM: clculo de la probabilidad de una

secuencia
Pr(ACACATC) = 0.8 1 0.8 1 0.8 0.6 0.4 0.6 1 1 0.8 1 0.8 0.047
Dos usos
Clculo de la probabilidad de una secuencia
Generacin de secuencias con una probabilidad dada
HMM: probabilidad de varias secuencias

Secuencia
Prob %
ACACATC
4.7
Secuencia 1
ACA---ATG
3.3
Secuencia 2
TCAACTATC
0.0075
Secuencia 3
ACAC--AGC
1.2
Secuencia 4
AGA---ATC
3.3
Secuencia 5
ACCG--ATC
0.59
Excepcional
TGCT--AGG
0.0023
Consenso
HMM y probabilidades
Sesgadas por la longitud de la secuencia
0.047
para ACAC--ATC
0.000075 para TCAACTATC
Normalizar para la longitud
L longitud de la secuencia
Dividir la probabilidad por (0.25)L
odd ratios
Tomar el logaritmo del odd ratio: log-odds score
log odd para secuencia S = log
P( S )
= log P( S ) L log 0.25
L
0.25
HMM: probabilidad y log-odd scores

Secuencia
Prob 100
log-odds
Consenso
ACAC--ATC
4.7
6.7
Secuencia 1
ACA---ATG
3.3
4.9
Secuencia 2
TCAACTATC
0.0075
3.0
Secuencia 3
ACAC--AGC
1.2
5.3
Secuencia 4
AGA---ATC
3.3
4.9
Secuencia 5
ACCG--ATC
0.59
4.6
Excepcional
TGCT--AGG
0.0023
-0.97
HMM: log-odd de una secuenca
log-odds(ACACATC) = 1.16 + 0 + 1.16 + 0 + 1.16 - 0.51 +0.47 - 0.51 +

1.39 + 0 + 1.16 + 0 + 1.16 = 6.64
Profile HMM (I)
Profile HMM (II)

Match states o main states
Modela columnas del alineamiento de zonas conservadas
La probabilidad de distribucin es justamente la frecuencia del aminocido
o nucletido en la muestra que genera el MSA

Insert states
Modela regiones altamente variables en el alineamiento
Puede utilizarse una distribucin fija de residuos o basarse en la muestra
que genera el MSA

Delete states
No modela ningn residuo
Hacen posible un salto hacia una o ms columnas en el alineamiento
En realidad modela situaciones en que unas pocas secuencias tienen -
en el MSA en una posicin
pHMM: ejemplo (I)
delete states
insercin
Zonas altamente conservadas
pHMM: ejemplo (II)
Transiciones
Sin flecha: transiciones de izq a der
De un estado de insercin a l mismo no se muestran
La probabilidad *100 se muestra en el diamante
Probabilidades:
0 no mostradas
Muy pequea lnea de puntos
Estados de borrado
Indican nicamente la posicin
HMMER 3.0
HMMER 3.0: phmmer
HMMER 3.0: hmmscan
HMMER 3.0: hmmsearch
Pfam - alineamientos
Pfam modelos (I)
Pfam modelos (II)
Pfam modelos: Logos (III)

Msa

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Msa

Hochgeladen von

Copyright:

Verfügbare Formate

Alineamientos de

o nucletidos que estn completa o parcialmente

puntuacin objetivo apropiada

alineamientos por pares

Elegir los parmetros apropiados para la ejecucin

Usos de MSA (I)

Bsqueda en bases de datos con BLAST

Usos de MSA (II)

Un MSA es el punto de partida para la identificacin de familias

y motivos que luego pueden ser almacenados en una base de

Funcin de puntuacin objetivo (I)

Este alineamiento es mejor o peor que otro?

Funcin de puntuacin objetivo (II)

SP(Ai ) = ! s(Aki , Ali )

Para el alineamiento completo

SP(A) = " SP(Ai )

Ejemplo: SPS MSA nucletidos

Ejemplo: SPS MSA aminocidos

Datos para benchmark de MSA

Mtodos basados en la consistencia

Mtodos basados en la estructura

Las categoras no son excluyentes

utilizando una matriz N-dimensional

Slo para un limitado de secuencias

Vamos a ver un primer ejemplo con 5 globinas divergentes

>beta_globin 2hhbB NP_000509.1 [Homo sapiens]!

Generar todos los alineamientos por pares posibles

nuevo alienamiento por pares y se genera un nuevo perfil de dos

absolutamente el resultado del MSA final

converge hacia un MSA mejorado

Matriz triangular de distancias

Las secuencias se van aadiendo progresivamente

siguiendo el rbol gua

secuencias segn el alineamiento del paso anterior

rbol en 2 subconjuntos o perfiles

=@AB+"A CA"71 9+1+)/AD- 4EEF- G0B< 84- =0< H

Stage 1: Draft progressive

=@AB+"A CA"71 9+1+)/AD- 4EEF- G0B< 84- =0< H

1.1 Compute k-mer distance matrix

K-mer distance is defined from common fractional k-mer

K-mer distance example

LK, KF, FL,LF,FL

Stage 2: Improved progressive

2.1 Recompute similarity of sequences of pairs using mutual alignment

Stage 2.1. Recomputing pairwise sequence similarity

substitution at a single site to be the only allowe

a lookup table taken from th

Stage 2.3 Re-align only when branching

ure 4). The option of always appl

Stage 3: Iterative Refinement

3.1 Select a branch

3.1 Selecting a branch

Branch selection order: 1,2,3,4,5,6

3.2 Extracting a profile

3.2 Extracting a profile

specific substitution matrix (PSSM)

A continuacin se calcula un alineamiento progresivo:

Aproximaciones basada en estructuras

informacin acerca de de estructuras 3D de uno o ms

Secuencia de consenso y Logos

y se construye un MSA ms pequeo

Patrones: limitaciones (I)

[AT] [CG] [AC] [ACGT]* A [TG] [GC]