Comparação de Matrizes de Substituição para Alinhamento de Pequenos Fragmentos de Proteínas

BRAZILIAN JOURNAL OF BIOINFORMATICS
ARTIGO ORIGINAL
Vol. 2 No. 3 (2014), pages xx-xx
Bioinformtica Comparativa
Comparao de matrizes de substituio para alinhamento de

pequenos fragmentos de protenas
Michele dos Santos da Silva 1,*
1
Faculdade Informtica (FACIN), PUCRS, Av. Ipiranga, 6681, Prdio 32, Sala 602, 90619-900, Porto Alegre, RS, Brasil.
Received on November 12, 2014; revised on November 14, 2014; accepted on November 17, 2014
Editor-Chefe: Osmar Norberto de Souza

Editores Associados: Lus Fernando Saraiva Macedo Timmers, Jos Fernando Ruggiero Bachega & Thiago Lipinski-Paes
ABSTRACT
Motivation: Substitution matrices are used in biological sequence
alignment to model amino-acids substitution frequencies during
evolution. The choice of the most suitable matrix strongly depends
on the sequence length. This study investigates how different substitution matrices impact on alignment of short fragments, often used in
template-based protein structure prediction.
Results: Since the statistics of local alignment with gaps is not fully
known, not all substitution matrices work well for short fragments.
The PAM (Percent Accepted Mutation) matrices show a better result
when aligning short sequences. Moreover, using different costs for
gaps has an important impact on the alignment.
Supplementary information: NCBI-BLAST has an option to optimize the alignment for short sequences. It uses substitution matrices
and gap penalties that fit most use cases. Having a better understanding of these parameters, however, comes in handy when fine
tuning for a given domain.
RESUMO
Motivao: Matrizes de substituio so usadas no alinhamento de
sequncias biolgicas para modelar as frequncias de substituio
de aminocidos durante a evoluo. A escolha da matriz mais
adequada est atrelada ao tamanho da sequncia. Este estudo
investiga o impacto de diferentes matrizes de substituio no
alinhamento de fragmentos curtos.
Resultados: Como a estatstica de alinhamentos locais com
espaos no bem conhecida, nem todas as matrizes de
substituio so adequadas a fragmentos pequenos. As matrizes
PAM (Percent Accepted Mutation) apresentam melhor resultado
para alinhamento de sequncias curtas. Alm disso, o custo de
espaamentos tem impacto importante na qualidade do
alinhamento.
Informao suplementar: O NCBI-BLAST tem uma opo para
otimizar o alinhamento de sequncias curtas. Ele seleciona matrizes
de substituio e custo de espaamentos que funcionam bem no
caso geral. No entanto, o entendimento desses parmetros
*To
whom correspondence should be addressed.
LABIO Press 2012
individualmente permite ajustes finos, que podem ser mais

adequados a um dado domnio.
INTRODUO
O alinhamento de sequncias biolgicas permite identificar regies

similares que podem ser consequncia de relaes funcionais,
estruturais ou evolucionrias (Mount, 2004). Um elemento
importante na avaliao da qualidade de um alinhamento a matriz
de substituio, que atribui um score para o alinhamento entre
pares de resduos.
As matrizes de substituio mais utilizadas so as PAM
(Percent Accepted Mutation) e as BLOSUM (BLOck SUbstitution
Matrix). Essas matrizes contm valores proporcionais
probabilidade de um aminocido i sofrer mutao para um
aminocido j, considerando todos os pares de aminocidos. Elas
so construdas atravs de uma amostra ampla e diversa de
alinhamentos de sequncias de protenas. Se a amostra for
suficientemente grande, as matrizes resultantes refletem as reais
probabilidades de mutao que ocorrem em um perodo evolutivo
(NCBI, 2014a).
As diversas matrizes de similaridade existentes so adaptadas
deteco de similaridades entre sequncias que divergiram em
diferentes graus. Apesar disso, uma mesma matriz pode ser
eficiente em um amplo espectro de mudanas evolutivas (Altschul,
1993). Experimentos mostraram que a matriz BLOSSUM-62 est
entre as melhores para a deteco de similaridades mais fracas
entre protenas (Henikoff, 1992). No entanto, no existe uma teoria
estatstica para alinhamentos com espaamentos. Os custos dos
espaamentos so determinados de forma emprica. Alinhamentos
curtos precisam ser relativamente fortes, com alta taxa de resduos
similares, para que o rudo no impossibilite a anlise (Altschul,
1991). Sequncias curtas podem produzir somente alinhamentos
curtos e, portanto, a busca dessas sequncias em bancos de dados
deve usar uma matriz apropriada.
O alinhamento de sequncias curtas tem diversas aplicaes, em
especial a predio da estrutura de protenas: dada uma sequncia
de aminocidos, qual sua conformao espacial? Diversas
tcnicas para predio de estruturas utilizam fragmentos como, por
exemplo, o CReF (Dorn; Norberto de Souza, 2008). O CReF
divide uma sequncia de aminocidos em fragmentos de cinco
Osmar Norberto de Souza et al.
resduos e executa o alinhamento nesses fragmentos, com o

objetivo de obter ngulos de toro para o aminocido central de
cada fragmento.
Este trabalho avalia o impacto da utilizao de diferentes
matrizes de substituio no alinhamento local de sequncias curtas
de aminocidos, contendo de cinco a nove resduos. Alm disso,
so consideradas diferentes penalidades para espaamentos, com o
objetivo de encontrar o conjunto timo de parmetros para o
alinhamento de pequenos fragmentos.
2
2.1
FUNDAMENTAO TERICA
Dogma central da biologia molecular
O dogma central da biologia molecular descreve o caminho atravs

do qual a informao contida no DNA convertida em protenas
com funes especficas. A Figura 1 mostra um diagrama desse
processo.
2.2
BLAST
BLAST (Basic Local Alignment Search Tool) um algoritmo para

comparao de sequncias biolgicas, tais como sequncias de
aminocidos e nucleotdeos. Uma busca BLAST permite a
comparao com um banco de dados de sequncias e a
identificao de sequncias similares ao termo de busca, acima de
um dado limiar (Altschul et al., 1990).
O algoritmo BLAST encontra similaridades estatisticamente
relevantes entre sequncias. Existem dois tipos de alinhamento:
global e local. No alinhamento global, ambas as sequncias so
alinhadas ao longo de todo o seu comprimento. No alinhamento
local, busca-se o melhor alinhamento entre subsequncias. Para
comparar duas sequncias de ponta a ponta, o alinhamento global
a melhor escolha. Para obter sequncias similares a uma dada
sequncia em um banco de dados, o alinhamento local o mais
utilizado.
Alinhamento Global - Needleman-Wunsch
Needleman-Wunsch um dos principais algoritmos de
alinhamento global (Needleman; Wunsch, 1970). Para
exemplificar o alinhamento das sequncias COELANCANTH e
PELICAN, podemos usar um esquema simples de score que atribui
+1 para identidade e -1 para letras diferentes ou espaamentos
(Korf et al., 2003). Os dois melhores alinhamentos, de acordo com
esse sistema so:
COELACANTH
P-ELICAN--
COELACANTH
-PELICAN--
Note que cada letra alinhada a outra letra ou a um

espaamento, diferente do que ocorre com alinhamentos locais.
O alinhamento feito atravs de uma matriz bidimensional em
que a clula corresponde ao pareamento de uma letra de cada
sequncia (Fig. 2).
Figura 1. A partir de uma sequncia de DNA o RNA mensageiro

transcrito (1). Esse RNA d origem a uma protena atravs do processo de
traduo (2). Simplificadamente, o processo segue o caminho do DNA para
o RNA para a protena. Fonte: (Korf et al., 2013).
As sequncias biolgicas tm importantes funes, necessrias

ao funcionamento de um organismo. O DNA pode sofrer mutaes
aleatrias, capazes de mudar a funo de uma sequncia. Com o
tempo, tanto restries funcionais quanto processos aleatrios
impactam o curso de evoluo da sequncia. As sequncias
biolgicas que apresentam alto grau de similaridade normalmente
tm ancestral comum e seguiram diferentes caminhos evolutivos.
O alinhamento auxilia no entendimento dessas relaes.
Figura 2. Exemplo de matriz de alinhamento global. Uma clula

corresponde ao pareamento de uma letra de cada sequncia. (Korf et al.,
2013).
Na matriz da Figura 2, o alinhamento comea no topo esquerdo

e segue um caminho quase diagonal para o canto inferior direito.
Quando duas letras esto alinhadas, o caminho diagonal. Quando
Comparao de matrizes de substituio para alinhamento de pequenos fragmentos de protenas
uma letra est alinhada a um espaamento, a trajetria horizontal

ou vertical.
Diferente do exemplo, a matriz de alinhamento utilizada pelo
algoritmo Needleman-Wunsch armazena scores. Esses scores so
provenientes de matrizes de substituio, que sero detalhadas na
prxima seo.
Alinhamento Local - Algoritmo Smith-Waterman
O algoritmo de alinhamento local Smith-Waterman (Smith;
Waterman, 1981) uma modificao de Needleman-Wunsch, com
trs principais diferenas:
(1) As bordas da matriz so inicializadas com 0 em vez de
penalidades crescentes para espaamentos.
(2) O score mximo nunca menor do que 0, nenhum ponteiro
armazenado a menos que o score seja maior do que zero.
(3) O procedimento trace-back comea do score mais alto da
matriz e termina com o score 0.
Essas pequenas modificaes tm grande impacto no algoritmo.
Usando as mesmas sequncias e esquema de score usado no
alinhamento global, a matriz resultante apresenta muitos zeros.
Isso ocorre porque h diversos lugares em que no possvel obter
um score positivo.
2.3
Matrizes de substituio
Uma matriz de substituio uma matriz bidimensional contendo

scores para todos os pares de aminocidos. Matrizes de
substituio representam taxas relativas de substituies
evolucionrias. Observando-se uma matriz como a BLOSUM62,
ficam evidentes as similaridades qumicas entre os diferentes
aminocidos.
Dois tipos de matrizes de score so amplamente utilizados:
PAM (Percent Accepted Mutation) e BLOSUM (BLOcks
SUbstitution Matrix). As matrizes PAM foram criadas por
Margaret Dayhoff (1970), tm um forte componente terico,
baseando-se em hipteses evolucionrias. As matrizes BLOSUM
so mais empricas, porm derivadas de um conjunto de dados
mais amplo. A maioria dos pesquisadores prefere as BLOSUM
porque experimentos in silico indicam que buscas usando matrizes
BLOSUM tm maior sensibilidade (Korf et al., 2013).
Existem diversas matrizes PAM, cada uma com um sufixo
numrico. A matriz PAM1 foi criada com um conjunto de
protenas que tinham 85% ou mais de identidade. As outras
matrizes PAM foram construdas pela multiplicao da matriz
PAM por ela mesma: 100 vezes para a PAM100, 160 vezes para a
PAM160, e assim por diante. Havia poucas sequncias quando as
PAM foram criadas e, portanto, esse era um jeito razovel de
extrapolar para maiores distncias.
Os bancos de dados de protenas continham muito mais
sequncias nos anos 90 e, portanto, mtodos mais empricos se
tornaram possveis. As matrizes BLOSUM foram criadas pela
extrao de segmentos sem espaamentos, ou blocos, de um
conjunto de famlias de protenas multiplamente alinhado. Esses
blocos foram agrupados com base em seu percentual de
identidades. Os blocos usados para derivar a matrix BLOSUM62,
por exemplo, tm pelo menos 62% de identidade com os demais

blocos membro.
Algumas hipteses para as matrizes BLOSUM normalmente
apresentarem maior sensibilidade so: (1) a extrapolao
empregada nas matrizes PAM acentua pequenos erros nas
probabilidades de mutao para perodos evolucionrios curtos e
(2) as foras que governam a evoluo de sequncias a longo prazo
so diferentes das que atuam a curto prazo.
Os valores utilizados nas matrizes de substituio disponveis no
NCBI-BLAST podem ser consultados em (NCBI, 2014c).
2.4
Estatstica dos Scores de Similaridade
Para avaliar se um dado alinhamento uma evidncia para

homologia, deve-se verificar qual a chance desse alinhamento ser
casual (NCBI, 2014b). Um alinhamento casual pode ser
proveniente de (1) sequncias reais mas no homlogas; (2)
sequncias reais que foram permutadas de forma a conservar suas
propriedades composicionais (Fitch, 1983); ou (3) sequncias
geradas aleatoriamente baseadas em um modelo de DNA ou
protena. Mtodos analticos utilizam a ltima definio, enquanto
os empricos podem utilizar todas elas.
Estatstica de alinhamentos globais
Muito pouco se sabe sobre a distribuio de scores de alinhamento
global (Deken, 1983). Experimentos de Monte Carlo podem
fornecer alguma aproximao da distribuio para sistemas de
score e sequncias especficas. No entanto, no podem ser
generalizados facilmente.
Uma das formas de se avaliar a significncia estatstica de um
dado alinhamento global gerar muitos pares de sequncias
aleatrias, de tamanho e composio adequada, e calcular o score
do alinhamento timo para cada par.
Apesar de ser possvel expressar o score em termos de desvios
padres de uma mdia, no se pode assumir que a distribuio
normal e converter esse Z-valor em um P-valor; a cauda das
distribuies de alinhamento global desconhecida. O mximo
que se pode dizer que se 100 alinhamentos aleatrios tm score
inferior ao alinhamento de interesse, o P-valor em questo
provavelmente menos de 0,01 (NCBI, 2014b).
Estatstica de alinhamentos locais
Diferentemente da estatstica de alinhamentos globais, a estatstica
de alinhamentos locais sem espaamento bem conhecida
(Altschul et al., 1990).
Um alinhamento local sem espaamentos formado por um par
de segmentos de igual comprimento, extrado de cada uma das
sequncias que esto sendo comparadas. Uma modificao do
algoritmo Smith-Waterman encontra pares de segmentos cujo
score no pode ser melhorado por extenso ou corte. Esses
segmentos so chamados de HSPs (high-scoring segment pairs),
pares de segmentos com alto score.
Para analisar a probabilidade de um score alto ser obtido ao
acaso, um modelo de sequncias aleatrias necessrio. Para
protenas, o modelo mais simples seleciona aminocidos em uma
sequncia de forma independente, considerando as probabilidades
dos vrios resduos. Alm disso, o score esperado para o
alinhamento de um par aleatrio de aminocidos deve ser negativo.
Caso contrrio, alinhamentos longos teriam score alto,
independente de os segmentos alinhados serem relacionados.
Osmar Norberto de Souza et al.
Assim como a soma de um grande nmero de variveis

independentes igualmente distribudas tende a uma distribuio
normal, o mximo tende a uma distribuio de valor extremo ou de
Gumbel (1958). Alinhamentos locais timos seguem a distribuio
de Gumbel (Karlin; Altschul, 1990).
Considerando-se sequncias com tamanhos m e n suficientemente
grandes, a estatstica dos scores caracterizada por dois parmetos,
K e lambda. O E-value para um score S dado por:
=
(1)
Pela Equao 1, pode-se notar que dobrando o tamanho de

qualquer uma das sequncias dobra o nmero de HSPs que tm um
dado score. Alm disso, para um HSP obter um score 2x ele
precisa obter o score x duas vezes em sequncia e, portanto, o E
decresce exponencialmente com o score. Os parmetros K e
lambda representam as escalas naturais para o tamanho do espao
de busca e do sistema de score, respectivamente.
Valores de score sozinhos tm pouco significado. O score pode
ser normalizado utilizando-se os parmetros K e lambda (Eq. 2).
=
ln
ln 2
Custo de espaamentos
No existe uma teoria para o custo dos espaamentos na produo

de scores. As penalidades para espaamento foram selecionadas ao
longo dos anos por tentativa e erro (Pearson, 1995). A maioria dos
programas de alinhamento selecionam, por padro, penalidades
para espaamentos apropriadas matriz de susbstituio. Se o
usurio usa uma matriz de substituio diferente, no h garantia
que os mesmos custos ainda sero apropriados. Na prtica, uma
penalidade grande para o incio de um espaamento e uma bem
menor para extend-lo bastante efetiva (NCBI, 2014b).
(3)
A partir do E-value possvel calcular o valor-p. No entanto, o

uso do E-value para alinhamento mais comum, pois seus valores
so de mais fcil interpretao. Por exemplo, E-value de 5 e 10 ou
valor-p de 0,993 e 0,99995.
Embora os desenvolvimentos mostrados nesta seo tenham sido
feitos considerando-se alinhamentos locais sem espaamentos,
diversos experimentos computacionais e alguns resultados
analticos sugerem que a mesma teoria pode ser aplicada a
alinhamentos com espaamento (NCBI, 2014b).
A estatstica descrita acima tende a ser conservadora para
sequncias curtas. A teoria que d suporte a essa estatstica a
assinttica, que assume que um alinhamento local timo pode
comear com quaisquer pares de resduos alinhados. No entanto,
um alinhamento de alto score precisa ter um certo comprimento e,
portanto, no pode comear prximo ao fim de nenhuma das
sequncias sendo comparadas. Esse efeito pode ser corrigido,
calculando-se um comprimento efetivo para essas sequncias
(Altschul; Gish, 1996). O programa BLAST calcula esse ajuste.
Score de buscas em bancos de dados
O clculo do E-value (Eq. 1) se aplica comparao de duas
protenas de tamanho m e n. Existem alternativas para avaliar a
significncia de um alinhamento de uma protena de tamanho m a
um banco de dados.
Uma abordagem considerar que todas as protenas no banco de
dados so igualmente provveis a priori. Isso significa que um Evalue baixo para um alinhamento envolvendo uma sequncia curta
deve ter o mesmo peso que o para um alinhamento envolvendo
uma sequncia longa. Para calcular o E-value de uma busca em um
banco de dados, multiplica-se o E-value pelo nmero de
sequncias no banco. Essa abordagem adotada pelo programa de
comparao de protenas FASTA (Pearson, 1995).
2.5
(2)
O score normalizado conhecido como bit score. Como o bit

score considera a distribuio do sistema de score, possvel
calcular o E-value correspondente a um score utilizando somente o
tamanho do espao de busca (Eq. 3).
= 2
Outra tcnica considera que mais provvel que uma busca

esteja relacionada a uma sequncia longa, porque sequncias
longas so frequentemente compostas por mltiplos domnios. Se
considerarmos que a chance de relacionamento a priori
proporcional ao tamanho da sequncia, o E-value do alinhamento
envolvendo uma sequncia de tamanho n deve ser multiplicado por
N/n. N o tamanho do banco de dados em nmero de resduos.
Essa a forma como o programa BLAST calcula o E-value
(Altschul et al., 1990).
MATERIAIS E MTODOS
Para investigar-se o impacto da matriz de similaridade e do custo

de espaamentos no alinhamento local, foi desenvolvido um
algoritmo que implementa os seguintes passos:
(1) Recebe uma sequncia como entrada e produz fragmentos
usando janelas deslizantes de 5, 7 e 9 aminocidos.
(2) Para cada fragmento obtido aplica BLAST usando as
combinaes de matrizes de substituio PAM e BLOSUM
e custos de penalidade apresentados na Tabela 1.
(3) Separa os resultados de alinhamento usando limiar de Evalue 10e-5.
(4) Superimpe a estrutura da sequncia original das obtidas
usando BLAST e calcula o RMSD.
O passo 4 do algoritmo uma forma automatizada de avaliar o
relacionamento a partir da similaridade estrutural entre as
sequncias. Alm disso, foi realizada inspeo manual das
estruturas tridimensionais a fim de identificar nuances no
facilmente capturadas por clculos usando as estruturas
superimpostas.
Tabela 1. Custo dos espaamentos avaliados.
Existncia
5-7
8-10
13
14
15
Extenso
2
1
3
1e2
3
A hiptese que algum dos limiares de E-value consiga

identificar sequncias relacionadas. Em bioinformtica, a definio
desse limiar muito importante, pois comum termos interesse
somente em sequncias homlogas ou somente em sequncias no
homlogas. Conforme detalhado nas sees anteriores, essa tarefa
especialmente difcil para sequncias curtas.
As matrizes utilizadas neste experimento e suas respectivas
entropias so apresentadas na Tabela 2.
Comparao de matrizes de substituio para alinhamento de pequenos fragmentos de protenas
Tabela 2. Matrizes de substituio e suas entropias (Chao; Zang,

2009).
Matriz de substituio
PAM30
PAM70
PAM250
BLOSUM45
BLOSUM50
BLOSUM62
BLOSUM80
BLOSUM90
Entropia
2,57
1,60
0,354
0,3795
0,4808
0,6979
0,9868
1,1806
.
Foram executados experimentos com protenas cujo cdigo PDB
1ZDD e 1L2Y (Fig. 3). Foram aplicadas todas as combinaes de
tamanhos de fragmentos, matrizes de substituio e custos de
espaamentos. Os resultados so descritos na prxima seo.
Figura 3. Estrutura tridimensional das protenas de cdigo PDB 1ZDD

(esquerda), de 35 resduos, e 1L2Y, de 20 resduos, utilizadas no
experimento.
Altschul, S.F. & Gish, W. (1996) Local alignment statistics. Meth. Enzymol. 266:460480.
Chao, K.M. and Zhang, L. (2008). Sequence Comparison: Theory and Methods.
Springer. 230 p.
Deken, J. (1983) Probabilistic behavior of longest-common-subsequence length." In
"Time Warps, String Edits and Macromolecules: The Theory and Practice of Sequence Comparison. D. Sankoff & J.B. Kruskal (eds.), pp. 55-91
Dorn, M.; Norberto de Souza, O. (2008) CReF: a central-residue-fragment-based
method for predicting approximate 3-D polypeptides structures. In Proceedings of
the 2008 ACM symposium on Applied computing.
Fitch, W.M. (1983) Random sequences. J. Mol. Biol. 163:171-176.
Gumbel, E. J. (1958) Statistics of extremes. Columbia University Press, New York,
NY.
Henikoff, J.G. (1992) Amino acid substitution matrices from protein blocks. Proc.
Natl. Acad. Sci. USA 89:10915-10919
Karlin, S. & Altschul, S.F. (1990) Methods for assessing the statistical significance of
molecular sequence features by using general scoring schemes. Proc. Natl. Acad.
Sci. USA 87:2264-2268.
Korf, I. and Yandell, M. and Bedell, J (2003). BLAST. O'Reilly Media, Incorporated.
339 p.
Mount DM. (2004) Bioinformatics: Sequence and Genome Analysis (2nd ed.). Cold
Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
NCBI (2014a) BLAST Help [Internet]. Bethesda (MD): National Center for Biotechnology
Information
(US);
2008-.
Available
from:
http://www.ncbi.nlm.nih.gov/books/NBK1762/
NCBI (2014b) The Statistics of Sequence Similarity Scores Available from:
http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html
NCBI (2014c) Substitution Matrices [Internet]. National Center for Biotechnology
Information (US). Available from: ftp://ftp.ncbi.nih.gov/blast/matrices/
Needleman, Saul B.; and Wunsch, Christian D. (1970). A general method applicable
to the search for similarities in the amino acid sequence of two proteins. Journal of
Molecular Biology 48 (3): 44353.
Pearson, W.R. (1995) Comparison of methods for searching protein sequence databases. Prot. Sci. 4:1145-1160.
Smith, Temple F.; and Waterman, Michael S. (1981). Identification of Common
Molecular Subsequences. Journal of Molecular Biology 147: 195197.
RESULTADOS
Para os trs tamanhos de fragmentos testados, 5, 7 e 9 resduos, a

matriz PAM30 foi a que apresentou resultados mais especficos. A
performance das diversas matrizes de substituio foi diretamente
proporcional entropia relativa dessas matrizes. Maiores entropias
permitiram mais facilmente distinguir alinhamentos curtos de
alinhamentos gerados ao acaso.
Apesar de a matriz PAM30 apresentar maior especificidade para
alinhamentos de sequncias curtas, acredita-se que isso no ocorre
pela diferena na forma como foram modeladas as matrizes PAM e
BLOSUM. Por exemplo, as matrizes PAM250 e BLOSUM45
apresentam scores com especificidade bastante similar.
Para a penalizao de espaamentos, independente da matriz
testada, os melhores resultados se deram com custo de existncia
entre 8 e 10 e custo de extenso de 1. Foram observadas pequenas
diferenas utilizando-se custos de existncia entre 8 a 10. H uma
tendncia de diminuio da penalizao medida que a entropia
aumenta.
REFERNCIAS
Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) Basic local
alignment search tool. J. Mol. Biol. 215:403-410.
Altschul, S.F. (1991) Amino acid substitution matrices from an information theoretic
perspective. J. Mol. Biol. 219:555-565.
Altschul, S.F. (1993) A protein alignment scoring system sensitive at all evolutionary
distances. J. Mol. Evol. 36:290-300.

Comparação de Matrizes de Substituição para Alinhamento de Pequenos Fragmentos de Proteínas

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Comparação de Matrizes de Substituição para Alinhamento de Pequenos Fragmentos de Proteínas

Hochgeladen von

Copyright:

Verfügbare Formate

BRAZILIAN JOURNAL OF BIOINFORMATICS

Vol. 2 No. 3 (2014), pages xx-xx

Comparao de matrizes de substituio para alinhamento de

Editor-Chefe: Osmar Norberto de Souza

whom correspondence should be addressed.

LABIO Press 2012

individualmente permite ajustes finos, que podem ser mais

O alinhamento de sequncias biolgicas permite identificar regies

Osmar Norberto de Souza et al.

resduos e executa o alinhamento nesses fragmentos, com o

O dogma central da biologia molecular descreve o caminho atravs

BLAST (Basic Local Alignment Search Tool) um algoritmo para

Note que cada letra alinhada a outra letra ou a um

Figura 1. A partir de uma sequncia de DNA o RNA mensageiro

As sequncias biolgicas tm importantes funes, necessrias

Figura 2. Exemplo de matriz de alinhamento global. Uma clula

Na matriz da Figura 2, o alinhamento comea no topo esquerdo

Comparao de matrizes de substituio para alinhamento de pequenos fragmentos de protenas

uma letra est alinhada a um espaamento, a trajetria horizontal

Uma matriz de substituio uma matriz bidimensional contendo

por exemplo, tm pelo menos 62% de identidade com os demais

Estatstica dos Scores de Similaridade

Para avaliar se um dado alinhamento uma evidncia para

Osmar Norberto de Souza et al.

Assim como a soma de um grande nmero de variveis

Pela Equao 1, pode-se notar que dobrando o tamanho de

No existe uma teoria para o custo dos espaamentos na produo

A partir do E-value possvel calcular o valor-p. No entanto, o

O score normalizado conhecido como bit score. Como o bit

Outra tcnica considera que mais provvel que uma busca

Para investigar-se o impacto da matriz de similaridade e do custo

A hiptese que algum dos limiares de E-value consiga

Comparao de matrizes de substituio para alinhamento de pequenos fragmentos de protenas

Tabela 2. Matrizes de substituio e suas entropias (Chao; Zang,

Figura 3. Estrutura tridimensional das protenas de cdigo PDB 1ZDD

Para os trs tamanhos de fragmentos testados, 5, 7 e 9 resduos, a

Das könnte Ihnen auch gefallen