Beruflich Dokumente
Kultur Dokumente
Mltiples secuencias
Bioinformtica
Grado en Biotecnologa
Introduccin
Alineamientos por pares
Comparacin de dos secuencias entre s
BLAST
Comparacin por pares de una secuencia con muchas otras
almacenadas en una base de datos
Se buscan muchos alineamientos locales de pares de secuencias
que sean significativos
Multiple Sequence Alignment (MSA)
Comparacin de varias secuencias simultneamente, no por
parejas
Definiciones
MSA: coleccin de tres o ms secuencias de aminocidos
Ejemplos
GAPDH
HomoloGene:107053
Casein kappa
HomoloGene:3818
Procedimiento prctico
Elegir las secuencias (homlogas) a alinear
Elegir un software que implemente la funcin de
MSA correcto
No tiene por qu existir un alineamiento correcto de una
familia de protenas
Las estructuras evolucionan normalmente mucho ms
lentamente que las secuencias
Ejemplo: beta globina y mioglobina humana
25% identidad
Estructura tridimensional casi idntica
NP_000509 vs NP_005359
Alineamiento tridimensional no posible
Incluso a veces no se dispone de la estructura 3D
relacionados distantes
MSA mejor que alineamiento por pares
Perfiles y HMMs
filogenticos
Benchmarking
Varias categoras de algoritmos de construccin de MSAs
Mltiples variantes de esos algoritmos
Muchas posibles elecciones de parmetros e ejecucin
http://en.wikipedia.org/wiki/List_of_sequence_alignment_software
Cul es el mejor?
Comparacin con estructuras 3-D conocidas
Identidad
> 40% : Los resultados suelen ser muy similares
< 40% : Los resultados pueden ser muy variables
M
1
segn la expresin
Algoritmos
Categoras:
Mtodos exactos
Alineamientos progresivos
ClustalW
Aproximaciones iterativas
PRALINE, IterAlign, MUSCLE
Mtodos exactos
Se basan en programacin dinmica, al igual que NW y SW, pero
Complejidad computacional
O(2 N LN )
Mtodos progresivos
Fitch & Yasunobu (1975)
Hogeweg & Hesper (1984)
Feng & Doolittle (1987, 1990)
Progresivo
Se calculan los alineamientos por pares entre todas las secuencias
Se elige el mejor alineamiento por pares
Se van aadiendo progresivamente ms secuencias al MSA
Ventajas
Rapidez
Desventaja
El resultado final depende del orden en que se van aadiendo las
secuencias
ClustalW
Sitio Web para ejecutar el programa
http://www.ebi.ac.uk/Tools/msa/clustalw2/
ClustalW: Paso 1
1
( N !1) N
2
ClustalW: Paso 2
Crear un rbol gua
Parntesis: clustering
Algoritmo de Johnson
Lo veremos en detalle en el
tema de rboles
filogenticos
ClustalW: Paso 3
Se seleccionan la dos secuencias ms prximas segn el rbol gua
Se realiza el alineamiento por pares que da lugar a un perfil de dos
secuencias
Se selecciona el siguiente par ms prximo
Opcin 1: Si ninguna secuenca coincide con las anteriores se hace un
nuevos alineamientos:
Secuencia con secuencia
Secuencia con perfil
Perfil con perfil
Programacin dinmica
ClustalW: Paso 3
Resultado del alineamiento
Salida de ClustalW
Huecos en ClustalW
Poltica del algoritmo de Feng-Doolittle:
once a gap, always a gap
Los primeros alineamientos marcan en gran medida los huecos
que van a existir en el MSA
El resultado tiende a presentar estructura de bloques
Hay variantes posteriores que intentan minimizar la importancia de
los gaps de los primeros alineamenteos
Las secuencias que son muy prximas se les da un peso
menor (ClustalW)
Se intenta que las secuencias muy prximas no dominen
Aproximaciones iterativas
Calculan una solucin subptima una estrategia progresiva
Modifican la solucin con distintas tcnicas hasta que la solucin
2005)
Iteralign (Karlin and Brocchieri, 1998)
Praline (Profile ALIgNmEnt) (Heringa, 1999; Simossis and Heringa, 2005)
MUSCLE (MUltiple Sequence Comparison by Log-Expectation) (Edgar,
2004a, 2004b).
MUSCLE Paso 1
Se genera un rbol gua borrador
Medida de distancias entre pares de secuencias
Identidad
k-mers counting
MUSCLE Paso 2
Medida de distancias (identidad) entre los pares de
MUSCLE Paso 3
Se elimina una de las ramas de forma que se divide el
Steps in MUSCLE
!"#$
Stage 2: Improved
progressive
Stage 3: Refinement
,(%-'. "/ >'2% 12),-)8 %/88)-2X$% !'$ [.K .4 !'$ EFGHIJ )3,.-2!'8=
>'$-$ )-$ !'-$$ 8)20 %!),$%L G!),$ C ;1-)4! #-.,-$%%26$<& G!),$ R
MUSCLE Stage 1
!"#$
K-mer distance
Let k=2
Sequence
2-mers
AKFLA
AK,KF, FL,LA
LKFL
LK, KF, FL
count (F)
# of instances in
sequence 1
F =
A k-mer
min(n1 ( ), n2 ( ))
min(n, m) k + 1
Length of sequences
D=1-F
# of instances in
sequence 1
2-mers
AKFLA
AK,KF, FL,LA
LKFLFL
K-mer ()
# in sequence 1
# in sequence 2
Min(n1(t),n2(t))
AK
KF
FL
LA
LK
LF
2
1+1
=
F =
min(5, 6) 2 + 1 4
,(%-'. "/ >'2% 12),-)8 %/88)-2X$% !'$ [.K .4 !'$ EFGHIJ )3,.-2!'8=
An MSA
-TGTTAAC
-TGT-AAC
-TGT--AC
ATGT---C
ATGT-GGC
Exclude gaps in
both sequences
Fraction identity
6/7
TGTTAAC
TGT--AC
5/7
-TGTTAAC
ATGT---C
4/8
-TGTTAAC
ATGT-GGC
4/8
(3)
D: fractional
sequences
Foridentity
D d of0.25
we use
(4)
Tree construction
Given a distance matrix, a binary tree is constr
clustering. Two methods are implemented: neighb
)**+&,,---./01234536*
Recompute alignment
u
for these nodes
t
u
x
w
w
new tree
old tree
x
Figure
Tree
comparison
5
Tree comparison. Two trees are compared in order to
identify those nodes that have the same branching orders
within subtree rotation (white). If a progressive alignment
has been created using to the old tree, then alignments at
these nodes can be retained as the same result would be
Tree comparison
In progressive alignment, two sub
tical alignments if they have the s
their leaves and the same branch
We exploit this observation to o
%
1
)
$
$
$
%=
!
$
root
MQTIF
LH-IW
MQTIF
2
LHIW
MQTIF
LH-IW
LQS-W
L-S-W
3
LQSW
L-SW
LQSW
4
LSF
MQTIF
LH-IW
MQTIF
Re-align profiles
for subtrees
MQTIF
LHI-W
MQTIF
LQS-W
L-S-W
LHIW
MQTIF
LH-IW
LQS-W
L-S-W
Delete
branch 1
3
LQSW
L-SW
LQSW
LH-IW
LQS-W
L-S-W
Is score better?
4
LSF
yes
Keep new
alignment
Discard
MQTIF
LH-IW
MQTIF
Re-align profiles
for subtrees
LHIW
2
LHI-W
MQTIF
LQS-W
L-S-W
LHIW
Delete
branch 2
3
LQSW
L-SW
MQTIF
LQS-W
L-S-W
LQSW
Is score better?
4
LSF
yes
Keep new
alignment
Discard
Summary of MUSCLE
Three stage algorithm
Stage 1: Draft progressive
k-mer distance
UPGMA tree (TREE1)
Guide tree based alignment (MSA1)
Stage 2: Improved progressive
Distance derived from MSA1
UPGMA tree (TREE2)
Redo alignment for nodes with changed orderings
Repeat until number of re-ordered nodes does not change
Stage 3: Iterative refinement
Generate subtree profiles
Realign profiles
Keep realignment if of higher score
Repeat until no more improvement or fixed number of steps.
Aproximaciones basadas en la
consistencia
Consistencia
Dadas tres secuencias x, y, z, si el residuo xi alinea con zk y zk
alinea con yj, entonces xi debera alinear con yj
Mtodos
ProbCons (Do et al., 2005)
T-Coffee (Notredame et al., 2000).
T-Coffee
Clculo de una biblioteca de alineamientos por pares
Todos los pares de alineamientos globales posibles (NW)
Los diez mejores alineamientos locales (SW)
A cada uno de los pares de residuos alineados se les
asigna un peso
Se genera una biblioteca ampliada que sirve como una position-
Expresso y iRMSD-APDB
Expresso
Para cada secuencia se lanza un BLAST contra PDB
Las coincidencias con >60% identidad se utilizan como un patrn para
crear el MSA
iRMSD-APDB
Se deben proporcionar los accesion number en PDB de al menos
dos de las protenas que se van a alinear
Perfiles
Se lleva a cabo un MSA en un conjunto de secuencias
Se seleccionan las regiones ms altamente conservadas
Perfiles: ejemplo
Perfiles en Prosite
Patrones
Sintaxis para expresar patrones (PROSITE)
Residuo nico A
Conjunto de residuos [ACD]
Residuos excluidos {FHW}
Comodn x
Longitud del comodn x(3)
Longitud variable x(3,6)
Ejemplo
x(3)-[DE]-[AVLI]-x(4)-[RKH]-[VFWH]-x(3)!
X X X D A X X X X R V X X !
E V
I
L
K F!
H W!
H!
excepcional
A C A C - - A T C
consenso
Patrones vs perfiles
Patrones
Fciles de comprender
Legibles por los humanos
Pueden ser de gran longitud y con huecos variables
Perfiles
Ms sensibles
Pueden ser construidos automticamente
Requieren secuencias de entrenamiento suficientes (mnimo 20)
Se puede estimar la significacin estadstica fcilmente
Patrones en Prosite
Probabilidades
de transicin
Modelo
de
Markov
Probabilidades
de emisin
Modelo multinomial
Secuencia observable
4553653163363555133362665132141636651666
?
OCULTO
FFFFFFFFFFFFFFFFFFFFLLLLFFFFFFFLLLLLLLLL
- - - ATG
ACT ATC
C - - AGC
- - - ATC
G - - ATC
Probabilidades
de transicin
Nodo de insercin
insercin
Probabilidades
de salida
node 1
node 2
node 3
node 4
El grosor depende de la
probabilidad de transicin
node 5
node 6
C
C
C
G
C
A
A
A
A
C
A
C
G
C
-
T
-
A
A
A
A
A
T
T
G
T
T
G
C!
C!
C!
C!
A
T
A
A
A
C
C
C
G
C
A
A
A
A
C
A
C
G
C
-
T
-
A
A
A
A
A
T
T
G
T
T
G
C!
C!
C!
C!
inserciones
En la cuarta columna, 3 de 5
secuencias tienen inserciones
La probabilidad de transicin del tercer
Cs, 1 G, 1 T
insercin
continuacin la insercin
La probabilidad de abandonar la
insercin es 0.6
Pr(ACACATC) = 0.8 1 0.8 1 0.8 0.6 0.4 0.6 1 1 0.8 1 0.8 0.047
Dos usos
Clculo de la probabilidad de una secuencia
Generacin de secuencias con una probabilidad dada
Prob %
ACACATC
4.7
Secuencia 1
ACA---ATG
3.3
Secuencia 2
TCAACTATC
0.0075
Secuencia 3
ACAC--AGC
1.2
Secuencia 4
AGA---ATC
3.3
Secuencia 5
ACCG--ATC
0.59
Excepcional
TGCT--AGG
0.0023
Consenso
HMM y probabilidades
Sesgadas por la longitud de la secuencia
0.047
para ACAC--ATC
0.000075 para TCAACTATC
Normalizar para la longitud
L longitud de la secuencia
Dividir la probabilidad por (0.25)L
odd ratios
P( S )
= log P( S ) L log 0.25
L
0.25
Prob 100
log-odds
Consenso
ACAC--ATC
4.7
6.7
Secuencia 1
ACA---ATG
3.3
4.9
Secuencia 2
TCAACTATC
0.0075
3.0
Secuencia 3
ACAC--AGC
1.2
5.3
Secuencia 4
AGA---ATC
3.3
4.9
Secuencia 5
ACCG--ATC
0.59
4.6
Excepcional
TGCT--AGG
0.0023
-0.97
delete states
insercin
Transiciones
Sin flecha: transiciones de izq a der
De un estado de insercin a l mismo no se muestran
La probabilidad *100 se muestra en el diamante
Probabilidades:
0 no mostradas
Muy pequea lnea de puntos
Estados de borrado
Indican nicamente la posicin
HMMER 3.0
Pfam - alineamientos