Sie sind auf Seite 1von 77

CURSO ON LINE

INTRODUO
BIOINFORMTICA

Prof. Dr. Francisco Prosdocimi

2007
NDICE
Pg.
CAPTULO 1 UMA VISO GLOBAL DA BIOINFORMTICA 3
1.1. O que a bioinformtica? 3
1.2. O surgimento da bioinformtica 3
1.3. O que preciso saber para ser um bom bioinformata? 5
1.4. Cursos de ps-graduao em bioinformtica no Brasil 6
1.5. Conversando sobre bioinformtica BIOCHAT 6
1.6. Referncias Bibliogrficas e textos complementares 12
1.7. bRAINsTORM 12
CAPTULO 2 GENOMA, BIOLOGIA MOLECULAR E COMPUTAO 13
2.1. Introduo 13
2.2. Sequenciamento do DNA 13
2.3. Genmica 14
2.4. As micas: integrando a bioinformao 15
2.5. O PERL e outras linguagens de programao 15
2.6. Referncias Bibliogrficas e textos complementares 17
2.7. bRAINsTORM 17
CAPTULO 3 ALINHAMENTO DE SEQNCIAS 18
3.1. Introduo 18
3.2. Alinhamento Global 18
3.3. Alinhamento Local 19
3.4. Alinhamentos timos e heursticos 20
3.5. Alinhamentos simples e mltiplos 21
3.6. Matrizes de comparao 22
3.7. Exemplos reais de alinhamentos 23
3.8. Referncias Bibliogrficas 28
3.9. bRAINsTORM 28
CAPTULO 4 MONTANDO UM GENOMA 29
4.1. Sobre genomas eucariticos e procariticos 29
4.2. Base-calling 30
4.3. Cross-match 31
4.4. Agrupamento de seqncias 32
4.5. Sobre a cobertura dos genomas 34
4.6. Referncias Bibliogrficas 35
4.7. bRAINsTORM 35
CAPTULO 5 ANLISE DE TRANSCRIPTOMAS 36
5.1. As ESTs 36
5.2. Histrico das ESTs 37
5.3. Agrupamento de ESTs 38
5.4. O genoma e o transcriptoma 39
5.5. SAGE Serial Analysis of Gene Expression 40
5.6. Microarrays 40
5.7. Referncias Bibliogrficas 41
5.8. bRAINsTORM 41
CAPTULO 6 BANCOS DE DADOS EM BIOLOGIA MOLECULAR 42
6.1. Histrico 42
6.2. Bancos primrios e secundrios 43
6.3. GenBank e GenPept 43
6.4. RefSeq O banco de dados de seqncias de referncia 44
6.5. SWISSPROT O maior banco de dados secundrio de seqncias de protenas 45
6.6. Gene Ontology Sistema de classificao de genes de acordo com suas caractersticas 46
6.7. Referncias Bibliogrficas 46
6.8. bRAINsTORM 47
CAPTULO 7 ANOTAO DE GENOMAS 49
7.1. Introduo 49
7.2. Anotao de Nucleotdeos 49
7.3. Anotao de Protenas 50
7.4. Anotao de Processos 50
7.5. A realizao da Anotao Genmica (Sociologia da Anotao) 51
7.6. Referncias Bibliogrficas 52
7.7. bRAINsTORM 53
CAPTULO 8 BIOINFORMTICA EVOLUTIVA E GENOMAS COMPLETOS 54
8.1. Homologia, Ortologia e Paralogia 54
8.2. COG 56
8.3. Trabalhando com genomas completos 56
8.4. Referncias Bibliogrficas 57
8.5. bRAINsTORM 58
CAPTULO 9 BIOINFORMTICA ESTRUTURAL 59
9.1. Sobre a estrutura das protenas 59
9.2. Protein Data Bank: o banco de dados de estruturas de protenas 60
9.3. Modelagem molecular por homologia 61
9.4. Alguns programas de modelagem molecular 63
9.5. Threading 63
9.6. CASP Critical Assessment of Structure Prediction 63
9.7. Estrutura de um arquivo no formato PDB 64
9.8. Referncias Bibliogrficas 67
9.9. bRAINsTORM 68
CAPTULO 10 CONCLUSES E PENSAMENTOS FILOSFICOS SOBRE A BIOINFORMTICA 69
10.1. Sobre bioinformtica, genoma e cincia 69
10.2. Introduo 69
10.3. Genoma e o mtodo cientfico 70
10.4. Um conceito de bioinformtica 71
10.5. Princpios paradigmticos em bioinformtica 72
10.6. Concluso 74
10.7. bRAINsTORM 74
PREFCIO

Quando em 2002 realizei, concomitantemente ao meu mestrado em gentica pela


UFMG, o excelente curso de especializao em Bioinformtica do LNCC, ministrado por
muitos dos maiores especialistas em genmica e bioinformtica de nosso pas, tive o
privilgio de ser um dos organizadores (e o primeiro autor) de um trabalho entitulado
Bioinformtica: manual do usurio em que todos os cerca de 20 alunos do curso
se organizaram com o objetivo de gerar uma publicao bsica sobre a rea de
pesquisa qual nos estamos aprofundando e formando. Esta publicao foi finalmente
publicada na revista Biotecnologia Cincia e Desenvolvimento alguns meses depois.

Tendo mantido meu contato com a editora da revista Biotecnologia, enquanto


terminava meus estudos de doutoramento em bioinformtica, recebi um convite para
elaborar um curso on line a ser ministrado atravs do portal biotecnologia da
Internet (http://www.biotecnologia.com.br). Este documento que agora vos apresento
gratuitamente pela Internet (http://biotec.icb.ufmg.br/chicopros/Prosdocimi07_Curso
Bioinfo.pdf) consiste exatamente neste curso, produzido em 2006 e ministrado em
2007 para uma turma de 40 alunos. Ainda que navegando por problemas tcnicos,
acredito que o curso foi bastante proveitoso e produtivo, sendo que a grande maioria
dos alunos saiu do mesmo tendo adquirido contedo e aprendido a compreender muito
sobre a lgica e o pensamento em bioinformtica.

Hoje, passados quase 4 anos que ministrei este curso pela Internet, vejo este
documento arquivado entre meus arquivos do perodo jurssico e tenho pena de deixar
este conhecimento perdido nos meandros digitais do meu disco rgido. Assim, contatei
recentemente a editora da revista que lendo o contrato que fizemos poca e dizendo
serem meus os direitos autorais desta apostila ou esboo de livro, informou-me que
tenho o direito de publicar o presente documento na Internet para que se torne
acessvel a qualquer indivduo interessado em aprender a arte e a cincia da
bioinformtica. Recomendou-me ainda que eu atualizasse as informaes aqui
presentes e publicasse um livro de verdade, a ser vendido nas livrarias. Tenho sim
planos de faz-lo, mas sei que precisaria reestruturar boa parte do que est aqui
contido e, por falta de tempo para tanto, decido publicar esta verso gratuitamente
pela Internet. Assim, caso haja interesse de leitores, estudantes ou editores, estarei
disposto a atualizar estas informaes e produzir uma segunda edio mais completa e
atualizada sobre presentes assuntos.

Braslia, numa quarta-feira de cinzas.


17/02/2010

Chico Prosdocimi
http://biotec.icb.ufmg.br/chicopros
http://chicopros.blogspot.com
Aos meus pais
3

CAPTULO 1
Uma viso global da bioinformtica

Iniciando nossa Interao

Nesta primeiro captulo apresentaremos uma viso geral da bioinformtica,


vamos conversar sobre as necessidades e oportunidades de capacitao para quem
deseja atuar nessa rea.

1.1. O que a bioinformtica?

Podemos considerar a bioinformtica como uma linha de pesquisa que envolve


aspectos multidisciplinares e que surgiu a partir do momento em que se iniciou a
utilizao de ferramentas computacionais para a anlise de dados genticos,
bioqumicos e de biologia molecular. A bioinformtica envolve a unio de diversas
linhas de conhecimento a cincia da computao, a engenharia de softwares, a
matemtica, a estatstica e a biologia molecular e tem como finalidade principal
desvendar a grande quantidade de dados que vem sendo obtida atravs de seqncias
de DNA e protenas. Para o desenvolvimento de genomas completos, a informtica
imprescindvel e a biologia molecular moderna no estaria to avanada hoje, no
fossem os recursos computacionais existentes.

1.2. O surgimento da bioinformtica

A bioinformtica, apesar de ser uma cincia nova e em desenvolvimento, j


apresenta uma figura clssica que freqentemente mostrada em qualquer palestra
ou curso que se v sobre a rea. Essa figura, mostrando o crescimento exponencial do
GenBank nos ltimos anos, tenta mostrar que, mais do que uma abstrao possvel, a
bioinformtica hoje uma necessidade para a anlise de dados em biologia molecular.
Desde que os seqenciadores capilares de DNA em larga escala surgiram, no
fim da dcada de 90, a quantidade de dados biolgicos produzidas simplesmente
alcanou nveis que fizeram com que anlises manuais de seqncias de DNA se
tornassem simplesmente alternativas absurdas para o estudo de dados de genoma e
transcriptoma.
Dois desenvolvimentos foram importantes para permitir tanto o surgimento da
bionformtica quanto o rpido desenvolvimento da produo de seqncias de DNA. O
primeiro deles foi o sequenciamento capilar. Enquanto no passado as seqncias eram
produzidas em placas enormes que deveriam ser corridas de forma uniforme e com um
grande cuidado, com o desenvolvimento da tecnologia de sequenciamento capilar, a
eletroforese ocorria dentro de tubos com a espessura de um cabelo humano, contendo
uma soluo polimrica por onde o DNA deveria passar guiado por uma corrente
eltrica, como uma eletroforese normal. O outro grande desenvolvimento foi a
marcao dos didesoxinucleotdeos necessrios para o sequenciamento do DNA com
molculas fluorescentes. Enquanto as reaes tradicionais eram realizadas com
marcadores radioativos, que tornavam a metodologia um tanto quanto trabalhosa e

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
4

at mesmo perigosa, os marcadores fluorescentes permitiam maior segurana e ainda


um novo avano. Enquanto era preciso correr diferentes reaes para cada nucleotdeo
na marcao radioativa, a tcnica de marcao fluorescente permitia que cada base
fosse marcada com um diferente fluorocromo que era capaz de emitir luz em um
diferente comprimento de onda se excitado por um laser. Essa luz, lida por um
detector, informava ao sistema qual nucleotdeo passava em diferentes momentos da
eletroforese. E foi exatamente a reunio desses dois desenvolvimentos num s
aparelho que produziu o equipamento que posteriormente ficaria conhecido como o
seqenciador que criou a bioinformtica. O primeiro desses aparelhos foi produzido
pela empresa Applied Biosystems e foi chamado de ABI Prism 3700. Apresentava 96
colunas (ou capilares para a eletroforese) e permitia o sequenciamento de cerca de
550 bases em cada coluna, sendo oito vezes mais rpida do que a melhor concorrente
da poca e possibilitando o sequenciamento de at 1 milho de pares de bases por dia.
Alm de permitir o rpido desenvolvimento da bioinformtica, esse seqenciador ainda
geraria brigas polticas sobre quem que deveria sequenciar todo o genoma humano,
uma empresa particular ou o consrcio pblico, mas isso outra histria.

Figura 1.1. Crescimento do Genbank. Crescimento exponencial do nmero de


seqncias contidas no GenBank ao longo das duas ltimas dcadas. Obtido em
http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html.

O que importa que, desde 1998, quando o ABI Prism foi lanado, outras
empresas desenvolveram tambm seus seqenciadores capilares de larga escala e o
custo dessas mquinas que antes chegava a trezentos mil dlares foi aos poucos
caindo e permitindo que mais e mais laboratrios pudessem ter seus prprios
seqenciadores. Cada vez mais dessas mquinas so vendidas ainda hoje e o nmero
de seqncias de DNA produzidas vem aumentando exponencialmente at o presente
momento.

Leitura complementar:
http://nextisnowbr.blogspot.com/2009/12/next-generation-sequencing-estado-da.html

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
5

1.3. O que preciso saber para ser um bom bioinformata?

O profissional em bioinformtica raro no mercado, j que ele necessita saber


e ser familiar a, pelo menos, trs reas distintas do conhecimento: a biologia
molecular, a cincia da computao e a bioinformtica per se. Alm disso,
conhecimentos em estatstica e matemtica so altamente recomendveis. Imagine
um bilogo que no tenha conhecimento de computao: ele ser capaz de bolar uma
infinidade de possveis experimentos em bioinformtica que gostaria que fossem
gerados, mas ser incapaz de coloc-los em prtica. Do outro lado, um cientista da
computao sem conhecimento em biologia e com sua caracterstica nsia de analisar
dados, ser capaz de pegar uma infinidade de dados biolgicos e fazer uma grande
quantidade de anlises computacionais sem qualquer propsito, gerando resultados de
difcil interpretao, por vezes ininterpretveis ou sem qualquer sentido biolgico. O
trabalho em equipe, para a produo de projetos em bioinformtica, pode ser
interessante, desde que os profissionais trabalhem juntos todo o tempo. Reunies
apenas espordicas normalmente fazem com que as idias do trabalho do bilogo e do
cientista da computao se afastem dos ideais iniciais da pesquisa. Isso no caso
mdio. claro que possvel conseguir bons resultados em casos isolados.
Considerando isso, torna-se necessrio o desenvolvimento de um novo
profissional, o bioinformata. Um bilogo que tenha tido uma formao parcial como
cientista da computao ou vice-versa. Alm disso, preciso que tal profissional tenha
ainda uma formao em bioinformtica e que conhea profundamente as diferenas e
as boas e ms qualidades dos principais bancos de dados pblicos sobre seqncias e
estruturas de biomolculas. Como no temos a inteno de ensinar biologia molecular
ou cincia da computao, no presente curso daremos nfase exatamente a esta
ltima parte, que consiste na formao do bioinformata per si, que deve conhecer pelo
menos o bsico com relao anlise de genomas e as ferramentas e bancos de dados
disponveis na internet para o estudo dessa nova cincia.
Com relao aos requisitos computacionais que sero apresentados apenas de
passagem no presente curso, um profissional em bioinformtica deve ter um bom
conhecimento algum sistema operacional baseado em UNIX, sem qualquer sombra de
dvida. Quase todos os algoritmos utilizados para a pesquisa em bioinformtica
apresentam cdigo aberto e so, freqentemente, disponveis apenas para sistema
operacionais como o LINUX e o Solaris. Os programas de cdigo aberto so aqueles
nos quais os programadores disponibilizam todo o cdigo fonte do programa para o
usurio, que pode alter-lo de acordo com a sua aplicao de interesse. E esse
tambm um dos motivos pelos quais os bioinformatas devem ser familiarizados com
linguagens de programao. Um bioinformata que no sabe programar em uma
linguagem qualquer tem dificuldades para se desenvolver e, portanto, o profissional
deve estar ao menos apto a aprender alguma linguagem de programao.
Outro conhecimento que gera um salto qualitativo na atividade do bioinformata
o conhecimento de bancos de dados e linguagem SQL. A linguagem SQL a mais
comumente utilizada em uma diversidade de bancos de dados e muitos sites
disponibilizam informaes armazenas em tabelas e bancos de dados inteiros. Devido
sua gratuidade e eficincia, o banco de dados mais utilizado em bioinformtica o
MySQL, mas quaisquer outros podem ser utilizados sem demais inconvenientes. Mas
mais importante ainda do que ser capaz de obter os bancos de dados pblicos o
bioinformata ser capaz de criar seus prprios bancos de dados, organizando as
informaes de seu projeto e permitindo tanto um bom armazenamento quanto
organizao e fcil acesso aos dados. Alm disso, o conhecimento de plataformas para
disponibilizar dados para os pesquisadores interessante e o bioinformata deve ter
algum conhecimento de linguagem HTML e, de preferncia alguma linguagem de

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
6

programao para a internet, como o CGI ou o PHP, sendo que esse ltimo ainda
apresenta a vantagem de permitir fcil conexo com bancos de dados.
claro que a gama de conhecimento necessria para exercer bem uma
profisso qualquer tende a ser infinita, mas indispensvel ao menos que o
bioinformata seja proficiente em uma linguagem de programao e tenha bons
conhecimentos de biologia molecular, dos bancos de dados e das ferramentas a serem
utilizadas em cada caso. Aqui, iremos passar apenas de leve em programao e
biologia molecular na prxima aula e depois passaremos direto para a parte que
explica e mostra quais so as principais ferramentas utilizadas em anlises genmicas
e os principais bancos de dados que devem ser consultados em diferentes aplicaes.

1.4. Cursos de ps-graduao em bioinformtica no Brasil

At o presente momento parecem existir apenas trs cursos de ps-graduao


em bioinformtica no Brasil. O primeiro e mais tradicional deles o curso de ps-
graduao Lato Sensu em Bioinformtica do LNCC, cuja pgina oficial pode ser vista
em http://www.lncc.br/~biologia/. Trs turmas de alunos j graduados de todo o pas
j foram formadas por esta ps-graduao, inclusive o presente autor desse curso on-
line, quem vos escreve. Consiste num timo curso de especializao, no qual os
maiores expoentes do pas na rea so chamados para ministrar diferentes aulas nos
campos da genmica, transcriptmica e protemica. Alm desse curso de ps-
graduao, que dura cerca de trs meses e meio, o LNCC tambm oferece cursos
espordicos com durao entre duas semanas e um ms e recomenda-se visitar a
pgina do LNCC para mais informaes (http://www.lncc.br).
Logo a CAPES percebeu a importncia de se abrirem cursos nessa rea
estratgica e props um edital para a formao de cursos de doutorado em
bioinformtica. A partir da dois novos cursos de doutorado em bioinformtica foram
criados, um na USP (setembro de 2002) e outro na UFMG (abril de 2003). Para mais
informaes, visite o site dos programas http://www.ime.usp.br/posbioinfo/ e
http://www.bioinfo.dout.ufmg.br/.

1.5. Conversando sobre bioinformtica BIOCHAT

A revista biotecnologia promove esporadicamente o chamado biochat, que


consiste em uma conversa com um pesquisador experimente de uma determinada
rea do conhecimento. Abaixo transcrevo um dos biochats realizado com o autor do
presente curso, onde vrias dvidas bsicas sobre o assunto podem ser sanadas.

Assunto do Biochat: Conceitos e Paradigmas em Bioinformtica


Pesquisador entrevistado: Francisco Prosdocimi
H uma grande confuso com relao ao que seja a bioinformtica, sendo que
muitos ainda acreditam que qualquer aplicao da computao biologia possa ser
referenciada como "bioinformtica". Ao observarmos os trabalhos recentemente
publicados na rea, podemos divid-los em trs correntes bsicas ou princpios
paradigmticos, chamados metaforicamente de "o tijolo", "a peneira" e "a lupa". Tais
princpios sero apresentados e discutidos durante o BIOCHAT. Alm disso,
interessante discutirmos quais seriam os pr-requisitos bsicos para formar um
bioinformata, tanto na rea computacional quanto na rea biolgica. Do que, afinal,
feito um bioinformata e o que ele precisa conhecer tema recorrente entre os curiosos
sobre a rea.O conceito da bioinformtica, seus princpios paradigmticos e a formao
do bioinformata sero, portanto, os temas a serem discutidos neste BIOCHAT.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
7

Boa noite a todos! Est aberto nosso biochat sobre bioinformtica. Por
Dr. Francisco
favor, enviem suas dvidas para que possamos discutir e trocar idias
Prosdocimi
a respeito do assunto.
Grande Francisco... Afinal, qual o conceito mais aceito para
Vanderson:
Bioinformtica?
Ol Vanderson. Fico agradecido pela sua presena. Na verdade existem
vrios conceitos para bioinformtica e muita confuso feita sobre o
Dr. Francisco
tema. Na minha opinio a bioinformtica surgiu com o boom dos
Prosdocimi
sequenciadores automticos de DNA e ainda hoje est ligada a anlises
de seqncias de biomolculas.
Biologia computadorizada? Ouvi este termo e queria saber qual a
Adonis:
diferena disso para Bioinformtica?
Pois , meu prezado Adonis. A biologia computacional diz respeito a
qualquer aplicao da computao na rea biolgica, enquanto a
Dr. Francisco
bioinformtica est freqentemente associada a analise de seqncias
Prosdocimi
de genoma, transcriptoma e proteoma. Esses conceitos entretanto so
bastante maleveis e modificam-se todos os anos.
Boa noite Dr. Francisco. Sou estudante do curso Bacharelado em
Pedro: Bioqumica, na Universidade Federal de Viosa e tenho direcionado a
minha formao acadmica para me tornar...
Com relao aos cursos especficos para bioinformtica, eles existem
no Brasil apenas em nvel de ps-graduao. Sendo que um deles o
curso de especializao lato sensu do LNCC, no qual acontece a
Dr. Francisco
formao de especialistas em bioinformtica. Na USP e na UFMG
Prosdocimi
existem cursos de doutorado em bioinformtica, onde tais profissionais
so formados. Eu, a propsito, fui aluno do LNCC e fui tambm o
primeiro aluno a defender o doutorado em bioinformtica na UFMG.
Gostaria que vc respondesse o Pedro Marcus pq eu tenho a mesma
Francisco:
dvida...
Com relao a cursos de graduao, meu prezado xar, ainda no
Dr. Francisco
existem na rea e recomendo que vc faa um curso de biologia ou de
Prosdocimi
computao, se pretende seguir carreira em bioinfo.
Adonis: ento bioinfo est dentro da biologia computacional?
Concordo, Adonis. Na minha opinio a bioinformtica , sim, uma parte
da biologia computacional, sendo essa ltima uma rea bastante ampla
Dr. Francisco
e no necessariamente relacionada com biologia molecular. Embora,
Prosdocimi
repito, esses conceitos so maleveis e modificam-se com o
desenvolver das cincias.
Qual a sua experincia com a Bioinformtica? O senhor trabalha mais
Pedro: no meio acadmico ou se relaciona diretamente com o mercado de
trabalho?
Trabalho com bioinformtica desde 2000, tendo tido anteriormente
uma formao como bilogo molecular em bancada. Fiz minha
monografia de bacharelado, minha dissertao de mestrado (em
gentica) com anlises de transcriptomas do verme Schistosoma
Dr. Francisco mansoni e fui o primeiro aluno a defender o doutorado em
Prosdocimi bioinformtica na UFMG trabalhando com anlises de qualidade de
seqncias de DNA e genmica comparativa. Sempre trabalhei mais
voltado para o meio acadmico, mas j fiz tambm alguns trabalhos
em parceria com uma empresa de Belo Horizonte na rea de
bioinformtica. A empresa se chama vetta technologies.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
8

Pegando a deixa do Pedro, voc acha que h mercado de trabalho para


Vanderson:
bioinformatas no Brasil... alm das instituies pblicas e da Alellyx?
Infelizmente, meu amigo Vanderson, no acredito que haja ainda
mercado de trabalho para bioinformtica fora das universidades,
embora o campo na rea de biotecnologia tenha crescido e venha
Dr. Francisco crescendo. A existncia de algumas empresas trabalhando em
Prosdocimi biotecnologia muito pequena ainda no Brasil e apenas a Alellyx e a
Scylla tm alguma representatividade no mercado. Ou seja, a
bioinformtica ainda matria para cientistas financiados pelo
governo.
Qual seria a dica para trabalhar com bioinfo em um lugar onde no se
Adonis:
faa molecular?
A dica estar em parceria com pesquisadores que tenham perguntas
que s possam ser respondidas atravs de anlise computacional. Eu
mesmo tenho vrias colaboraes com diferentes laboratrios e produzi
um software recentemente, o TGFinder, que surgiu como uma
necessidade de um pesquisador de encontrar genes controlados por
Dr. Francisco
fatores de transcrio. Alm disso, o GenBank possui tantas seqncias
Prosdocimi
depositadas e tanta informao a ser mineirada que nem todos os
cientistas do mundo seriam capazes de tudo analisar. claro que a
pesquisa de ponta normalmente aquele onde se produz e se analisa
um novo dado em biologia molecular, mas h muito ouro a ser
peneirado nos bancos de dados pblicos.
Ol Dr. mas como aplicada a computao ou informtica, na
Paulo:
biologia,neste sequenciadores automticos de DNA?
A computao aplicada, principalmente, na anlise e identificao das
seqncias de DNA que saem dos sequenciadores automticos. A
seqncia sai de l como um monte de A, C, T e G... que no querem
Dr. Francisco dizer nada. O que significa para voc isso aqui:
Prosdocimi ACATAGGGACATTACAGAGCATTCAGA? Somente com a bioinformtica
conseguimos atrelar a informao codificada em informao biolgica,
associando A, C, T e G a algum nome de gene com alguma funo
especifica...
Aprofundando mais a discusso, a iniciativa privada na bioinformtica
Pedro:
est...
O grande problema, Pedro, que acredito que dificilmente a
bioinformtica per se pode dar algum lucro. Por exemplo, a empresa
Alellyx tem, alm de um grande know how em bioinfo, um grande
know how em biologia molecular e em genmica. A descoberta de
Dr. Francisco
novos genes 'apenas' por bioinfo muito difcil e preciso estar
Prosdocimi
sempre sequenciando novos organismos. E um sequenciador de DNA
muito caro para que pequenos empresrios possam comprar, o capital
inicial de uma empresa de biotecnologia apresentando bioinformtica
muito alto.
Marx: E fora do Brasil, como esto as perspectivas?
Fora do Brasil eu acredito que haja bastante espao, sim, para
bioinformatas. Assino uma lista de jobs em bioinformtica e
Dr. Francisco
freqentemente vejo pedidos para profissionais da rea... o nico
Prosdocimi
problema que normalmente exige-se grande experincia prvia, o
que no temos ainda no Brasil -- profissionais qualificados.
Dr. Francisco Prosdocimi, fale um pouco sobre minerao de dados j
Adonis:
que esta o etapa seguinte depois da gerao das seqs.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
9

Bem, caro Adonis, isso me remete aos princpios paradigmticos da


bioinformtica que apresentei no texto introdutrio. Acredito que os
trabalhos atuais em bioinformtica podem ser divididos em trs
correntes principais, os trabalhos de tijolo -- onde ferramentas de
bioinformtica so produzidas para construir os edifcios genmicos, os
Dr. Francisco
trabalhos de peneira -- onde a minerao da grande massa de dados
Prosdocimi
em genmica so analisados mais especificamente em vrios contextos
-- e os trabalhos de lupa, onde a genmica encontra a cincia e o
mtodo cientfico de observao, hiptese, experimentao e
resultados so novamente retomados. Escrevi um trabalho sobre isso
para a revista cincia hoje que foi publicado em 2004.
Trabalho atualmente no BIOAGRO-UFV (Instituto de Biotecnologia
Aplicada Agropecuria) no Laboratrio de Bioinformtica,
desenvolvendo softwares de anlise populacionais (gentica de
Pedro:
populaes). Voc considera vlido esse tipo de iniciativa ou seria
melhor eu estar trabalhando mais especificamente com a biologia
molecular?
Considero muito vlido seu trabalho. Mas tambm j tentei produzir
Dr. Francisco algo relacionado a gentica de populaes e acho muito difcil produzir
Prosdocimi algo melhor do que os j conhecidos programas PAUP, PHYLIP, MEGA,
dentre outros. Boa sorte!
Poderamos ou podemos, descobrir qual a seqncia para uma
Paulo: determinada protena ou caracterstica. Ou para identificar estes pares,
para saber qual protena ela vai produzir, seria isto?
Podemos sim, saber qual a seqncia de DNA relativa a uma
determinada protena e, muitas vezes, uma caracterstica. Existe at
mesmo um projeto conhecido como FENOMA, que tenta identificar os
Dr. Francisco
genes responsveis por algum fentipo (caracterstica). O que
Prosdocimi
acontece, entretanto, que grande parte das caractersticas so
geradas atravs de um grande nmero de genes que interagem entre
si e fazem da anlise algo complicadssimo!
Tenho uma opinio a expressar... Um grande problema que eu percebo
Vanderson: na maioria dessas ferramentas de bioinformtica o total descaso com
usurios
Concordo plenamente, Vanderson. Bilogos no esto interessados em
utilizar sistemas linux, linhas de comando e outros artifcios
computacionais de start-up razoavelmente complexo. Interfaces
Dr. Francisco
grficas e fceis, de preferncia via web e bastante user-friendly so
Prosdocimi
altamente recomendveis. Mas preciso dizer que h tambm
programas com manuais completos e simples, mas o usurio parece ter
preguia de l-los, o que definitivamente preciso fazer.
Carla: Por acaso j se pode analisar um gene pelo computador?
claro, Carla, os genes so formados por seqncias de nucleotdeos
Dr. Francisco que so representadas por A, C, G e T, transformando as seqncias
Prosdocimi dos genes em letrinhas que so analisadas e comparadas entre
diferentes espcies animais.
real a migrao de perl para java? ou isso s t ocorrendo no meio
Adonis: privado? Essa migrao seria um preocupao com uma interface mais
amigvel?
Caro Adonis, acredito que a migrao de PERL para JAVA est
Dr. Francisco relacionada ao fato de que a linguagem JAVA multiplataforma, alm
Prosdocimi de ser nativamente orientada a objetos, o que facilita a criao de
programas mais complexos e de grande porte. Acredito que os scripts

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
10

freqentemente utilizados em trabalhos de bioinformtica devem


continuar sendo produzidos em PERL, que uma linguagem onde a
expresso regular nativa e rpida, sendo mais apropriada para tais
trabalhos. Sim, a migrao tambm pode estar relaciona com uma
interface mais amigvel, j pronta em vrios objetos JAVA.
Como o Brasil est em relao a outros paises, nesse desenvolvimento?
Carla:
O nosso pas valoriza a bioinformtica?
O Brasil anda atrs dos pases desenvolvidos quando o assunto
Dr. Francisco bioinformtica e, apesar de que recentes iniciativas da CAPES e do
Prosdocimi CNPq vm tentando buscar equiparao internacional, a bioinformtica
brasileira ainda est em seu bero (esplndido).
Boa noite Dr. Gostaria de saber sobre o cenrio de Software Livre x
Software Proprietrio em bioinformtica. O Sr. acredita que a adoo
do software livre pode ajudar na reduo de gastos em pesquisa e
Macedo:
desenvolvimento e que isso possibilitar o estudo de doenas
negligenciadas? Ou o segmento acadmico enxerga o software livre
apenas como ...
No caso da bioinformtica posso assegurar que mais de 95% dos
softwares so livres ou de livre acesso (pelo menos para o meio
acadmico) e cerca de 50% so de livre acesso para todos. Por isso, a
Dr. Francisco
bioinformtica exige um custo inicial para pesquisa bem baixo e esse
Prosdocimi
mais um dos motivos pelos quais essa cincia deveria ser mais
incentivada em nosso pas. Com um computador razovel e boas idias
possvel fazer boa bioinformtica!!!
Uma empresa privada que prestasse suporte em bioinformtica
(desenvolvendo softwares sequenciadores para organismos especficos
Pedro:
ou que atendessem alguma demanda de determinada pesquisa, com
uma interface mais amigvel com o usurio final) poderia dar certo?
No estou bem certo, Pedro. O problema que a idia para elaborao
de softwares teria de vir da academia e no sei o pessoal das
universidades estaria disposto a dar a idia para que vc fizesse o
software para eles comprarem, entende? Eles prefeririam pedir no
Dr. Francisco
departamento de computao para ver se algum outro aluno faria o
Prosdocimi
mesmo software de graa, gerando um trabalho publicvel em
conjunto. A menos que vcs produzissem um pacote grande, para uma
ampla gama de aplicaes... a vc poderia dar certo com sua
empresa...
Um profissional em bioinformtica deve saber tanto trabalhar com os
softwares de anlises de seqncias quanto desenvolver novos
Dani:
programas? Quais so as linguagens de programao mais utilizadas
para este fim?
tima pergunta, Dani. imprescindvel para o profissional de
bioinformtica, na minha opinio, ter quatro conhecimentos bsicos:
(1) Ele deve entender bem biologia molecular, (2) saber trabalhar com
Dr. Francisco
os bancos de dados disponveis na internet, (3) saber BEM uma
Prosdocimi
linguagem de programao e (4) saber manipular bancos de dados.
Estes, na minha opinio, so os principais requisitos para formar um
bioinformata.
Voc contrataria uma empresa dessa natureza para dar suporte s suas
Pedro: pesquisas ou prefere, voc mesmo, desenvolver os aplicativos com que
trabalha?
Dr. Francisco Depende do quanto de trabalho fosse necessrio. Se fosse pouco
Prosdocimi trabalho, eu mesmo desenvolveria. Se necessitasse de um software

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
11

amplo, talvez preferisse pagar... mas dependeria de financiamento


governamental para isso... e o governo no gosta muito do assunto
'comprar softwares de empresas privadas para trabalhos cientficos'. No
ltimo edital do CNPq para bioinfo, enviamos um projeto tentando
comprar um software e o projeto no foi aprovado... possivelmente por
este nico motivo.
Boa Noite Dr. Francisco, participei da primeira turma de especializao
em bioinformtica do LNCC, atualmente estou fazendo doutorado em
Fabio: microbiologia na UFRJ. Gostaria de saber na sua opinio quais so as
principais diferenas dos cursos de doutorado em Bioinformatica da
USP e da UFMG?
Fala, Fbio. com receber companheiros por aqui... fui seu sucessor no
LNCC, participando da segunda turma. No posso dizer muito do curso
de doutorado na USP, o qual conheo pouco. Mas ao que me parece o
Dr. Francisco
curso da USP muito voltado para as cincias exatas, tendo uma alta
Prosdocimi
carga de disciplinas de matemtica e estatstica. Aqui na UFMG a carga
de disciplinas bem balanceada e leve, de forma que o aluno possa se
preocupar mais com seu projeto de tese.
A quantas anda o desenvolvimento das pesquisas em bioinformtica
Pedro:
aqui no estado de Minas Gerais?
Aqui em Minas temos alguns grupos de bioinformtica montados. No
posso dizer que conheo todos eles, mas aqui na UFMG temos ao
Dr. Francisco menos uns trs grupos de bioinformtica, trabalhando com genoma de
Prosdocimi 'Schistosoma mansoni', genmica comparativa e genmica evolutiva,
mas as coisas ainda so um pouco precrias e a infra-estrutura no
das melhores.
Sou biloga, especialista em biotecnologia - trabalho com saneamento
- rea ambiental - - mas tenho grande interesse em bioinformtica.
Dani:
Quais so os conhecimentos bsicos de informtica que um bilogo
deve ter para iniciar um mestrado em bioinformtica?
Bem, no conheo nenhum mestrado em bioinformtica e acho que --
se houvesse algum -- o aluno deveria conhecer o bsico de sistemas
linux e linguagens de programao. Mas dependendo, se o mestrado
Dr. Francisco
for para bilogos ou para computlogos, os conhecimentos a serem
Prosdocimi
exigidos so diferentes. Se for um mestrado para bilogos possvel
que no seja necessrio nenhum conhecimento de informtica e todo o
conhecimento pode ser adquirido quando da realizao do curso.
Qual campo de trabalho para um ps-graduado em bioinformtica,
Dani: alm do desenvolvimento de pesquisas em universidades, fundaes de
pesquisa Federais,Estaduais e a Licenciatura?
Bem, essa pergunta um tanto quanto capciosa. Se uma pessoa
formou em bioinformtica, imagino que ela queira fazer pesquisa ou
Dr. Francisco
dar aulas. claro que ela pode tambm trabalhar em alguma empresa
Prosdocimi
de biotecnologia ou de bioinformtica per si... mas acredito que a ela
teria que ir pra fora do Brasil...
Ricardo: Quais so os trabalhos que vc est fazendo ultimamente na rea?
Ol, Ricardo. Ultimamente tenho trabalhado com anlises do software
PHRED, com a montagem de um programa para simular a evoluo em
Dr. Francisco locos de microsatlites, trabalho tambm com a diferena na utilizao
Prosdocimi de aminocidos por protenas de diferentes organismos, com a origem
do cdigo gentico, com famlias de protenas dedos de zinco, dentre
diversas outras coisas.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
12

Ento, estarei entrando em contato com o senhor (pois estou na


Pedro: organizao do evento). Mais uma pergunta, ainda muito cedo para
pensarmos em cursos de graduao em bioinformtica no Brasil?
Ok. Acho que um curso de graduao em bioinformtica poderia ser
bastante interessante sim, mas acho que cedo para isso. Ainda no
h, s pra vc ter uma idia, um conceito amplo do que seja
Dr. Francisco bioinformtica e preciso que esta disciplina fique mais madura ao
Prosdocimi longo dos anos para que esse conceito brote claramente. Acho que os
bilogos moleculares atualmente so os principais candidatos a se
tornarem bioinformatas e no h nem cursos de graduao em biologia
molecular... pelo menos desconheo...
A ttulo de informao: foi criada na grade curricular do Bacharelado
Pedro: em Bioqumica-UFV a BQI460 (Bioinformtica), onde sero abordados
os principais aspectos dessa nova rea do conhecimento.
Bem, aqui na UFMG o prof. Miguel Ortega j ministra mais de dois
anos uma matria de tpicos em bioqumica e biologia molecular cujo
Dr. Francisco assunto a bionformtica. bastante interessante que a universidade
Prosdocimi de Viosa tenha proposto uma disciplina especfica sobre o assunto e
mostra como est atualizada com relao aos novos avanos da
biologia molecular.
O que voc considera como maior desafio para a consolidao da
Pedro:
Bioinformtica no Brasil?
Considero o maior desafio a formao dos profissionais e a montagem
Dr. Francisco
de infra-estrutura adequada e de computadores de alto-desempenho
Prosdocimi
para as anlises mais elaboradas na rea.

1.6. Referncias Bibliogrficas e textos complementares

1 Davies, K. (2001). Decifrando o genoma. Companhia das letras.


2. NCBI: A Science Primer - http://www.ncbi.nlm.nih.gov/About/primer/index.html
3. NCBI: A Science Primer Bioinformatics -
http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html
4. Chico On Line Bioinformtica - http://www.icb.ufmg.br/~franc/cool
5. GenBank Stats - http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html

1.7 Brainstorm

1. D sua opinio sobre o que entende por bioinformtica e qual a importncia da


rea.
2. V ao site do NCBI (National Center for Biotechnology Information, o centro
americano para informao biotecnolgica, http://www.ncbi.nlm.nih.gov), leia e
navegue um pouco. Encontre algum servio interessante e reporte sua experincia.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
13

CAPTULO 2
Genoma, biologia molecular e computao

2.1. Introduo

Como j foi dito, o presente curso no tem como funo explicar genmica,
biologia molecular ou computao. Ainda assim, alguns conceitos se tornam
importantes para que possamos seguir o curso e neste captulo estaremos nos
dedicando a eles.

2.2. Sequenciamento do DNA

Figura 2.1. O dogma central da biologia molecular. Da anlise de DNA temos os


projetos genoma, da anlise do contedo de RNAs mensageiros de uma clula
produzimos estudos de transcriptoma e a partir da anlise de contedo protico
geramos os projetos proteoma.

A bioinformtica surgiu a partir da biologia molecular e dela ainda inseparvel


(figura 2.1). No captulo anterior, aprendemos que a bioinformtica se desenvolveu
principalmente depois do surgimento dos seqenciadores de DNA em larga escala,
como o ABI Prism 3700. A reao de sequenciamento de DNA consiste basicamente
em um processo de amplificao da molcula de DNA de interesse. Entretanto, durante
essa amplificao, so utilizados tanto os nucleotdeos normais de DNA, conhecidos
como desoxiribonucleotdeos quanto alguns nucleotdeos especiais, conhecidos como
di-desoxiribonucleotdeos. A diferena entre eles que os didesoxinucleotdeos
apresentam, como o nome diz, uma molcula de oxignio a menos, eles no contm
uma extremidade 3OH livre. Assim, se lembrarmos como formado o esqueleto de
uma cadeia de DNA, veremos que os nucleotdeos adjacentes so ligados entre si
atravs de uma ligao com um grupamento fosfato exatamente na posio do
carbono 3. Isso significa que, um nucleotdeo que no apresente um grupamento OH
nesta posio (chamado di-desoxiribonucleotdeo ou simplesmente di-
desoxinucleotdeo) impede a ligao de um nucleotdeo em seguida, o que interrompe
a cadeia de DNA naquela posio. Assim, durante a amplificao em que consiste a
reao de sequenciamento do DNA, so produzidas molculas de diferentes tamanhos,
sendo que cada uma delas possui, na sua extremidade, um didesoxinucleotdeo que
impede a ligao de outros nucleotdeos a seguir. Alm disso, dependendo de qual
base ele carrega, cada um desses nucleotdeos sem a extremidade 3OH livre

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
14

apresenta um pigmento fluorescente diferente adicionado. Aps a reao de


sequenciamento que realizada num termociclador, assim como um PCR --, as
molculas resultantes so submetidas a uma eletroforese. Nesse procedimento, o DNA
resultante da amplificao submetido a um gradiente eltrico dentro de uma matriz
de gel, que permite uma mobilidade diferencial das molculas. As molculas pequenas
de DNA movem mais rapidamente para o plo positivo durante essa eletroforese.
Essas molculas pequenas foram aquelas que incorporaram didesoxinucleotdeos mais
precocemente do que as outras. E assim, elas vo se movendo na matriz gelatinosa
mais rapidamente, indo em direo ao plo positivo. Quando chegam prximo ao plo,
um laser incide sobre essa molcula e, dependendo de qual didesoxinucleotdeo foi
incorporado em sua extremidade final, o laser promove a incidncia da fluorescncia
num receptor que capta, afinal, qual foi o comprimento de onda daquele fluorforo
excitado. Assim, conseguimos descobrir qual foi a ltima base daquela molcula j que
diferentes didesoxinucleotdeos -- com diferentes bases nitrogenadas (A, C, G ou T) --,
produzem fluorescncia diferente a ser captada pelo laser e, dessa forma, sabemos se
a ltima base daquela molcula uma adenina, uma guanina, uma citosina ou uma
timina. E medida que as molculas vo passando pelo gel, cada uma contendo a
diferena de um nico nucleotdeo marcado de acordo com sua base, o computador vai
gerando um perfil de fluorescncias que posteriormente sero transformadas nas letras
que representam a seqncia de bases da molcula original por algoritmos especficos,
que trataremos posteriormente neste curso.
No tarefa fcil explicar na forma de texto como realizado o
sequenciamento do DNA e, por isso, recomendo aos alunos acessarem o seguinte site
para entenderem melhor como o seqenciamento do DNA realizado, passo a passo:
http://www.dnalc.org/shockwave/cycseq.html. Outras animaes interessantes em
biologia molecular (como a da tcnica de PCR de amplificao do DNA ou tcnicas
forenses baseadas em DNA) podem ser obtidas no mesmo site. preciso, entretanto,
fazer o download gratuito do programa macromedia shockwave.

2.3. Genmica

Um genoma consiste no conjunto haplide de informaes presentes no DNA de


um determinado organismo. O conjunto haplide porque, na verdade, um organismo
diplide apresenta uma dupla cpia de um mesmo segmento de DNA, presente nos
cromossomos homlogos. Assim, no faz sentido ter essa redundncia de informao
e, por isso, considera-se o genoma como sendo o conjunto haplide de informao
gentica. Para obter uma seqncia genmica devemos pegar as clulas de um
determinado organismo, purificarmos seu DNA e realizarmos a construo da chamada
biblioteca de DNA genmico. Para tal, o DNA do organismo deve ser picotado em
pequenos pedacinhos e ligado nos chamados vetores de clonagem -- que podem ser
plasmdeos, cosmdeos ou vetores que permitem a insero de segmentos grandes de
DNA, como os BACs ou YACs que so, respectivamente, os cromossomos artificiais de
bactrias e leveduras. A partir desses vetores que so, freqentemente,
seqenciados os segmentos de DNA e cada reao de sequenciamento produz
molculas apresentando algo entre trezentos e mil pares de bases. Como os genomas
so muito maiores do que esse tamanho, mostra-se necessria a montagem do
genoma utilizando algoritmos de sobreposio de seqncias, que sero apresentados
em aula posterior.
E se o genoma consiste no sequenciamento da molcula de DNA de uma
determinada clula, o transcriptoma consiste no sequenciamento do contedo de RNA
mensageiro (mRNA) produzido em uma determinada clula sujeita a determinada
condio. Enquanto uma clula apresenta apenas um genoma esttico e imutvel, a

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
15

mesma pode apresentar milhares de diferentes contedos de transcriptoma, j que a


expresso de genes depende de diversos fatores, como o grau de maturao da clula,
a temperatura qual ela est sujeita, os nutrientes presentes no meio, a presena de
algum agente mutagnico especfico e mais milhares de outros fatores. Assim, os
estudos de transcriptoma podem mostrar a adaptao da clula a determinada
condio e podemos estudar os genes que ficam ativos quando dessa condio. Na
produo de um projeto transcriptoma (ou de genmica funcional, como tambm
freqentemente chamado) deve-se purificar o contedo de mRNA da clula da
condio desejada. Como o RNA uma molcula muito instvel, realiza-se sua
transcrio reversa, transformando este RNA numa molcula conhecida como cDNA,
que representa o DNA complementar seqncia daquele mRNA. Esse cDNA ento
clonado em vetores de clonagem para a produo da biblioteca de cDNA que contm
uma amostra fiel dos mRNAs que foram produzidos pela clula naquela condio. Vale
notar que, enquanto no genoma observa-se normalmente apenas uma cpia de cada
gene, nas anlises de transcriptoma, cada um dos genes pode estar amostrado
dezenas de vezes, pois a clula pode estar precisando do mesmo para realizar algum
tipo de processo e ele pode ter sido transcrito centenas de vezes em molculas de
mRNA.

2.4. As micas: integrando a bioinformao

Veja o artigo publicado na edio 32 da revista biotecnologia:


http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf.

O pesquisador da Embrapa Soja, Eliseu Binneck, apresenta o status atual da


genmica no mundo e ainda vrios conceitos importantes de biologia molecular e
genmica.

Binneck, Eliseu. As micas: integrando a bioinformao. Biotec Ci & Des 32: 28-
37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf

2.5. O PERL e outras linguagens de programao

No captulo anterior discutimos sobre os conhecimentos relevantes para um


profissional na rea de bioinformtica. Nesse momento, portanto, gostaria de falar
mais um pouco sobre a informtica utilizada para a anlise de seqncias.
extremamente importante que qualquer pessoa trabalhando na rea de bioinformtica
conhea alguma linguagem de programao. E a principal linguagem utilizada por
profissionais da bioinformtica o PERL. O PERL uma linguagem de script que foi
criada em 1987 por um cientista da computao chamado Larry Wall e uma sigla
para Practical Extraction and Report Language ou, em portugus, Linguagem Prtica
de Extrao e Relatrio. Segundo a wikipedia (http://pt.wikipedia.org/), a origem do
PERL remonta ao shell scripting, que a programao em linhas de comando, ao awk,
uma outra linguagem bem simples de programao shell e linguagem C, uma das
mais utilizadas pelos programadores. Essa linguagem disponvel para praticamente
todos os sistemas operacionais, mas utilizada mais freqentemente em sistemas
Unix e compatveis. E o PERL freqentemente utilizado pelos bioinformatas porque
uma linguagem montada para trabalhar facilmente com o processamento de cadeias
de caracteres (chamadas de strings pelos informatas), permitindo ainda uma fcil
manipulao de arquivos texto e a utilizao das chamadas expresses regulares,
muito teis para se realizar busca em seqncias de caracteres. Como tanto o DNA

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
16

quanto o RNA e as protenas podem ser facilmente representados por seqncias de


caracteres nucleotdeos ou aminocidos, representados por seqncias de uma letra
--, o PERL acabou por permitir, intrinsecamente, uma fcil manipulao dos dados de
biologia molecular.
Um exemplo simples de programa em PERL apresentado abaixo para
transformar uma seqncia de DNA de entrada em uma nova seqncia de RNA. O
programa considera que a fita de DNA de entrada a fita codificadora e, portanto, o
programa apenas transforma as letras T, de timina, do DNA em letras U, de uracila,
representando as bases do RNA.

Pequeno script PERL para obter uma fita de RNA a partir de uma fita de DNA.

#!/usr/bin/perl

# Seqncia que se deseja utilizar


$meuDNA= TTCCGAGCCAATTGTATCAGTTGCCAATAG;

# Faz com que a seqncia de RNA receba a mesma seqncia do DNA


$meuRNA = $meuDNA;

# Troca as bases produzindo a fita complementar


$meuRNA =~ tr/T/U/;
print Minha seqncia de RNA : \n $meuRNA;

A primeira linha obrigatria e diz ao programa o caminho onde se encontra o


interpretador PERL para que o programa possa encontr-lo na hora de sua execuo.
Normalmente o PERL est disponvel no diretrio /usr/bin das distribuies Unix. Vale
notar que, ao contrrio da grande maioria das outras linguagens de programao
normalmente utilizadas, um programa PERL no compilado de forma a gerar um
executvel em linguagem de mquina. O script PERL necessita, portanto, de que exista
um interpretador PERL instalado em alguma pasta de trabalho dentro do computador e
exatamente a pasta onde esse interpretador est localizado que deve aparecer nesta
primeira linha de cdigo. As linhas do script que se comeam com o sinal #
representam linhas de comentrio e servem apenas para facilitar o entendimento do
cdigo, no sendo realmente lidas pelo interpretador. Todas as variveis em
programao PERL so precedidas do sinal de dlar $, elas no tm um tipo pr-
definido (como inteiro, booleano, real, etc.) e no precisam ser declaradas
anteriormente, cabe ao programador saber como e em que contexto devem ser
utilizadas. H tambm as variveis do tipo array, que so precedidas do sinal de @ e
as variveis do tipo hash, que devem ser precedidas do sinal de %. Todos os
comandos terminam sempre com um sinal de ponto-e-vrgula. Neste exemplo, a linha
que realmente faz a traduo de uma seqncia de DNA para uma seqncia de RNA
a que apresenta o sinal =~. Esse sinal est relacionado utilizao de uma
expresso regular que, no caso, faz a traduo de todos as letras T de uma seqncia
de caracteres, transformando-as em letras U.
No fundo, a bioinformtica e, num sentido mais amplo, todo software -- pode
ser desenvolvido utilizando-se qualquer linguagem de programao e h os que ainda
preferem utilizar a linguagem C ou Java para produzir qualquer tipo de programa. No
fundo, essa uma opo pessoal e por mais que uma ou outra linguagem seja mais
adaptada ou mais rpida para determinado problema, possvel fazer quase qualquer
coisa com quase qualquer linguagem. Entretanto, mesmo essa simples traduo que
fizemos de DNA para RNA com apenas uma linha de cdigo, pode se tornar mais rdua
quando realizada em diferentes linguagens e exatamente por isso que o PERL mais
utilizado na rea; por facilitar a programao. Para sistemas mais complexos, no

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
17

entanto, parece ser consenso que a utilizao de uma linguagem de programao


multi-plataforma, como o caso do Java, seja mais adequada.

2.6. Referncias Bibliogrficas e textos complementares

1. Dolan DNA Learning Center - Biology Animation Library -


http://www.dnalc.org/resources/BiologyAnimationLibrary.htm
2. Binneck, Eliseu. As micas: integrando a bioinformao. Biotec Ci & Des 32: 28-37.
http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf
3. Perl, Wikipedia. http://pt.wikipedia.org/wiki/Perl

2.7. Brainstorm

1. Voc viu a animao sobre como feito o sequenciamento do DNA, descreva agora
as etapas atravs das quais realizada esta tcnica.
2. Descreva como so feitos projetos genoma e transcriptoma.
3. Perguntas sobre o texto escrito por Binneck.
a. Apesar de apresentarem um nmero de genes bastante similar a outros
organismos, diz-se que os seres humanos apresentam uma diversidade de
protenas muito maior do que eles. A que se deve tal diversidade?
b. Qual a porcentagem do genoma humano que responsvel pela produo
de genes/protenas? E o resto, qual seria o motivo se que h algum para
haver tanto DNA no codificante no genoma?
c. Voc acredita que genes que alteram seus padres de expresso em
conjunto possam ter funes parecidas? Por qu?
d. Escolha duas das cincias micas e descreva-as
e. Discorra sobre o papel da bioinformtica na agregao de dados em biologia
4. Com relao a linguagens de programao, por que o PERL conhecido como a
linguagem dos bioinformatas? Os dados em bioinformtica podem ser tratados com
outras linguagens de programao? Cite outra linguagem possvel.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
18

CAPTULO 3
Alinhamento de Seqncias

3.1. Introduo

O alinhamento de seqncias consiste no processo de comparar duas


seqncias (de nucleotdeos ou protenas) de forma a se observar seu nvel de
identidade. Essa tcnica de comparao de seqncias implementada segundo um
conceito de desenvolvimento de programas conhecido como um algoritmo guloso e
um dos pilares de toda a bioinformtica. Existem centenas de aplicaes do
alinhamento de seqncias, tanto na identificao de genes e protenas desconhecidas,
quanto na comparao da ordem de genes em genomas de organismos proximamente
relacionados (sintenia), no mapeamento de seqncias expressas dentro de um
genoma para identificao de genes, na montagem de genomas e em diversas outras
aplicaes.
Por exemplo, podemos alinhar duas seqncias para descobrirmos o grau de
similaridade entre as seqncias de forma que possamos inferir (ou no) a uma delas,
alguma propriedade j conhecida da outra (Prosdocimi et al., 2003). O alinhamento
entre duas seqncias pode ser feito de forma global ou local (Figura 3.1.).

Figura 3.1. Alinhamento global e local. esquerda vemos um exemplo de como


feito um alinhamento global das seqncias e direita vemos um exemplo da
realizao de um alinhamento local. Retirado de Prosdocimi et al., 2003.

3.2. Alinhamento Global

O alinhamento global feito quando comparamos uma seqncia de


aminocidos ou nucleotdeos com outra, ao longo de toda sua extenso
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O algoritmo
Needleman-Wunsch o mais conhecido para realizar esse tipo de alinhamento,

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
19

embora outros programas, como o MULTALIN


(http://prodes.toulouse.inra.fr/multalin/multalin.html) tambm o faam (Corpet,
1988). Nesse caso so dados valores em uma matriz de comparao para as
similaridades (matches), diferenas (mismatches) e falhas (gaps) encontrados durante
o alinhamento das seqncias. As somas dos valores do alinhamento, de acordo com
essa matriz de comparao, resulta num valor, que um escore de similaridade entre
as seqncias (Figura 3.2.). No MULTALIN no dado escore de similaridade (j que ele
permite o alinhamento de vrias seqncias ao mesmo tempo), e a semelhana entre
as seqncias deve ser medida atravs de inspeo visual.

3.3. Alinhamento Local

O alinhamento local acontece quando a comparao entre duas seqncias no


feita ao longo de toda sua extenso, mas sim atravs de pequenas regies destas
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html).
O principal programa utilizado para o alinhamento local de seqncias o
BLAST (Basic Local Alignment Search Tool ou Ferramenta Bsica de Procura por
Alinhamento Local), encontrado em http://www.ncbi.nlm.nih.gov/BLAST/. Esse
software compreende um conjunto de algoritmos de comparao de seqncias
montado de forma a explorar toda a informao contida em bases de dados de DNA e
protenas (http://www.ncbi.nlm. nih.gov/BLAST/blast_overview.html). Os programas
BLAST foram desenvolvidos de modo a aumentar ao mximo a velocidade da busca
por similaridade -- j que as bases de dados so grandes e vm crescendo
exponencialmente --, mesmo correndo o risco de perder um pouco na sensibilidade do
resultado (Altschul et al., 1997). A rapidez da busca deve-se ao fato de que o
programa utiliza uma heurstica que quebra as seqncias de entrada e das bases de
dados em fragmentos as palavras (words) e procura, inicialmente, similaridades
entre elas. A busca ento feita com palavras de tamanho W que devem apresentar
pelo menos um escore T de alinhamento entre si, dado de acordo com uma matriz de
valores. Assim, as palavras que apresentam esse escore T (maior responsvel pela
velocidade e sensibilidade da busca) (Altschul et al., 1997) so estendidas em ambas
as direes para ver se geram um alinhamento com um escore maior do que S. Uma
outra vantagem de se utilizar o alinhamento local feito pelo BLAST que, dessa forma,
possvel identificar relaes entre seqncias que apresentam apenas regies
isoladas de similaridade
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/similarity.html).

Figura 3.2. Alinhamento de seqncias. O alinhamento de seqncias de DNA feito


atravs da procura de uma regio de similaridade entre duas seqncias utilizando um

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
20

algoritmo guloso. Quando essa regio encontrada so dados pontos para


similaridades (match), diferenas (mismatches), abertura de falhas (gap opening) e
extenso de falhas (gap extension) que possam ser encontradas no seu alinhamento.
A somatria dos pontos desse alinhamento chamado de escore do alinhamento e, no
exemplo mostrado, o escore do alinhamento 3. Tais escores so contabilizados tanto
nos alinhamentos globais quanto locais.

Os resultados do BLAST so ento apresentados de acordo com dois


parmetros: o valor do escore (Score bits) e o valor E (e-value). O valor de escore
depende do tamanho do alinhamento, do nmero de matches/mismatches/gaps e da
matriz de comparao de seqncias utilizada e normalizado atravs de variveis
estatsticas (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Blast_output.html). J
o valor E representa o nmero de alinhamentos com escores iguais ou melhores que
S que seria de se esperar que ocorressem ao acaso numa base de dados do tamanho
da utilizada. Assim, quanto menor o valor E, melhor o alinhamento, de forma que
(num banco de dados de grandes propores) um valor de E igual a zero significa que
no h chance de que um alinhamento entre as duas seqncias tenha ocorrido por
mero acaso (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html).
O BLAST apresenta diferentes subprogramas que devem ser utilizados de
acordo com o tipo de seqncia de entrada e os bancos de dados que se deseja
pesquisar. A TABELA 3.1 apresenta as possibilidades de entrada, bancos de dados e
programa a ser utilizado.

Formato da Formato da Programa


Seqncia de Banco de dados seqncia que BLAST
Entrada comparado adequado
Nucleotdeos Nucleotdeos Nucleotdeos BLASTn
Protenas Protenas Protenas BLASTp
Nucleotdeos Protenas Protenas BLASTx
Protenas Nucleotdeos Protenas TBLASTn
Nucleotdeos Nucleotdeos Protenas TBLASTtx
Tabela 3.1: Programas BLAST utilizados de acordo com o formato de entrada de
seqncia e banco de dados desejados. Adaptada de
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/query_tutorial.html.

3.4. Alinhamentos timos e heursticos

Algo que deve ser levado em considerao sempre que se deseja fazer
alinhamentos de seqncias o fato de que o alinhamento desejado seja o melhor
possvel de ser obtido atravs de ferramentas computacionais ou se desejamos apenas
uma aproximao vlida desse melhor resultado. evidente que, em condies
normais, desejaramos sempre obter o melhor resultado de alinhamento possvel e,
portanto, utilizaramos os algoritmos que produzem resultados timos. Entretanto,
algumas vezes precisamos obter uma maior rapidez de busca e, portanto, aceitamos
que o resultado obtido no seja o melhor possvel e, assim, utilizamos algoritmos
que apresentam algum tipo de heurstica. E essa heurstica, no caso, normalmente
consiste em uma forma qualquer que o programador utiliza para acelerar a produo
dos resultados, em detrimento da obteno do melhor resultado possvel. Assim
obtm-se um resultado aproximado, mas rpido. A tabela 3.2 apresenta os principais
algoritmos utilizados em bioinformtica para o alinhamento de seqncias.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
21

Tipo de Preciso do Nmero de seqncias


Programa
Alinhamento Alinhamento a serem alinhadas
BLAST2Sequences Local Heurstico 2
SWAT (Smith-Waterman) Local timo 2
ClustalW Global Heurstico N
Multalin Global Heurstico N
Needleman-Wunsch Global timo 2
Tabela 3.2:Principais programas de alinhamento de seqncias e suas caractersticas.

As ferramentas de alinhamento timo so aquelas que nos do como resultado


o melhor alinhamento possvel de acordo com a metodologia algortmica de
comparao de seqncias. Via de regra, a execuo desses algoritmos mais lenta
do que a daqueles algoritmos que no geram o resultado perfeito e, como vimos na
tabela 4.2., existem ferramentas de alinhamento timo locais e globais. O maior
problema em utilizar os programas de alinhamento timo consiste nos casos onde so
alinhadas mltiplas seqncias entre si. Nesses casos, o alinhamento timo pode se
tornar simplesmente impossvel de ser feito, pois gastaria uma quantidade de tempo
quase infinita para alinhar otimamente uma quantidade seqncias no muito grande.
Nos outros casos, entretanto, deve-se preferir a utilizao de algoritmos que produzam
o alinhamento timo em detrimento dos algoritmos de pesquisa heurstica.
Algoritmos heursticos so aqueles que no realizam o alinhamento timo entre
seqncias. Esses algoritmos freqentemente utilizam alguma tcnica alternativa para
acelerar o resultado da busca por seqncias similares, no caso. O BLAST, por
exemplo, como vimos no item anterior, parte a seqncia em pedaos para acelerar a
busca e outros algoritmos realizam diferentes maneiras de gerar um resultado que
seja o mais prximo possvel do resultado timo. Como j comentado, so
principalmente utilizados em alinhamentos mltiplos, onde os algoritmos timos
demoram um tempo muito grande para gerar os resultados. So freqentemente
utilizados tambm quando da comparao de seqncias contra grandes bancos de
dados, exatamente como faz o BLAST, que procura a similaridade de uma seqncia
de entrada contra milhes de outras presentes em seu banco de dados.
Muitas vezes, os resultados obtidos com programas heursticos devem ser
confirmados por programas de alinhamento timo antes de serem publicados em
revistas especializadas. Entretanto algumas vezes tal procedimento no necessrio e
tudo vai depender do tipo de trabalho que est sendo realizado.

3.5. Alinhamentos simples e mltiplos

Como tambm j foi comentado na seo anterior, existem dois tipos principais
de alinhamentos de seqncias no que concerne ao nmero de seqncias que so
comparadas durante o alinhamento. Quando apenas duas seqncias so comparadas
entre si, diz-se que o alinhamento simples. E, nesses casos, normalmente prefere-se
utilizar alinhamentos timos para gerarem os resultados, exceto nos casos onde
milhares de alinhamentos simples devem ser realizados.
De forma contrria, considera-se um alinhamento mltiplo quando trs ou mais
seqncias devem ser alinhadas entre si. No fundo, o alinhamento mltiplo montado
a partir do alinhamento par a par de cada uma das seqncias com todas as outras,
seguido por um outro procedimento que ir gerar o resultado final do alinhamento de
todas contra todas. Assim, se 10 seqncias so comparadas entre si, sero
necessrias 10! (fatorial de 10) comparaes de seqncias, o que representam

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
22

3.628.800 comparaes. E exatamente por isso que os programas heursticos so


preferidos para gerar esse tipo de resultado.

3.6. Matrizes de comparao

Outra coisa de suma importncia quando da realizao de qualquer alinhamento


de seqncias a matriz de substituio que utilizada. Na figura 3.2. mostrado um
alinhamento e o nmero de pontos dados para coincidncias (matches), divergncias
(mismatches), abertura de gaps (gap opening) e extenso de gaps (gap extension).
Entretanto, ao utilizarmos matrizes de substituio podemos dar valores diferentes
para coincidncias de diferentes nucleotdeos ou aminocidos. Vale notar que o
resultado de um alinhamento de seqncias pode ser completamente diferente
dependendo da matriz de substituio utilizada.
As matrizes de comparao so principalmente utilizadas durante o alinhamento
de seqncias de protenas e isso se deve ao fato de que existem aminocidos que so
mais (ou menos) parecidos entre si do que outros. H aminocidos com cargas
polares, apolares ou sem carga e a mudana, em uma protena, de um aminocido
apresentando uma determinada caracterstica para outro da mesma caracterstica
menos drstica do que uma mudana para um aminocido apresentando caracterstica
diferente. Portanto, as matrizes de substituio so extremamente utilizadas no
alinhamento de seqncias proticas.
Mesmo no caso de seqncias de nucleotdeos so mais comuns as mutaes
conhecidas como transies do que as transverses. Nas transies, a mutao ocorre
entre bases do mesmo tipo, purina para purina (A para G ou G para A) ou pirimidina
para pirimidina (C para T ou T para C), enquanto nas transverses ocorre a mudana
de uma purina para uma pirimidina ou o contrrio. Dessa forma, ao utilizarmos
matrizes de substituio, podemos dar mais pesos para as transverses do que para as
transies, o que faria com que o resultado fosse mais relevante e pudesse estar mais
relacionado com a evoluo, por exemplo.
As matrizes de substituio mais comuns para seqncias nucleotdicas so a
mat50 e a mat70, enquanto para seqncias proticas as mais conhecidas so as
matrizes PAM e BLOSUM. As matrizes BLOSUM (Blocks Substitution Matrix), por
exemplo, so baseadas na observao das freqncias de substituio em blocos de
alinhamentos locais de protenas relacionadas. Existem vrias matrizes BLOSUM e elas
devem ser utilizadas para comparar protenas contendo um determinado valor de
identidade, por exemplo, a matriz mais utilizada pelos programas a BLOSUM62, que
foi montada para comparar protenas que apresentem 62% de aminocidos idnticos.
Abaixo vemos as matrizes de substituio de nucleotdeos mat50 e mat70.
Podemos perceber que a matriz mat70 apresenta valores menores para algumas
substituies. Isso faz com que o valor final do alinhamento entre duas seqncias de
DNA seja menor e, portanto, a matriz mat70 gera um resultado de alinhamento local
de um menor nmero de bases do que a matriz mat50, que estende o alinhamento um
pouco mais.

Bases A C G T Y R N
A 2 -2 0 -2 -2 1 0
C -2 2 -2 0 1 -2 0
G 0 -2 2 -2 -2 1 0
T -2 0 -2 2 1 -2 0
Y -2 1 -2 1 1 -2 0
R 1 -2 1 -2 -2 1 0
N 0 0 0 0 0 0 0

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
23

Tabela 3.3: Matriz de substituio de nucleotdeos mat50. O valor dado para cada
troca pode ser visto nas intersees. O Y representa pirimidinas, o R representa
purinas e o N representa qualquer nucleotdeo.

Bases A C G T Y R N
A 2 -2 -1 -2 -2 0 0
C -2 2 -2 -1 0 -2 0
G -1 -2 2 -2 -2 0 0
T -2 -1 -2 2 0 -2 0
Y -2 0 -2 0 0 -2 0
R 0 -2 0 -2 -2 0 0
N 0 0 0 0 0 0 0
Tabela 3.4: Matriz de substituio de nucleotdeos mat70. O valor dado para cada
troca pode ser visto nas intersees. O Y representa pirimidinas, o R representa
purinas e o N representa qualquer nucleotdeo.

3.7. Exemplos reais de alinhamentos

a) Alinhamento global simples entre seqncias de DNA, usando o algoritmo


Needleman-Wunsch.
########################################
# Program: needle
# Rundate: Fri Nov 19 15:57:40 2004
# Align_format: srspair
# Report_file: 1x2.needle
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: Seq1
# 2: Seq2
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 736
# Identity: 464/736 (63.0%)
# Similarity: 464/736 (63.0%)
# Gaps: 272/736 (37.0%)
# Score: 2261.0
#
#
#=======================================

Seq1 1 0

Seq2 1 GCACGAGGACTGTGAACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGC 50

Seq1 1 0

Seq2 51 TGGAATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGAC 100

Seq1 1 CTTTCAAGATGAACG 15
|||||||||||||||
Seq2 101 TAAAAAGCTGAGCAAATATACCTGGAGCGTTCAGACTTTCAAGATGAACG 150

Seq1 16 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 65
||||||||||||||||||||||||||||||||||||||||||||||||||

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
24

Seq2 151 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 200

Seq1 66 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 115


||||||||||||||||||||||||||||||||||||||||||||||||||
Seq2 201 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 250

Seq1 116 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 165


||||||||||||||||||||||||||||||||||||||||||||||||||
Seq2 251 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 300

Seq1 166 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 215


||||||||||||||||||||||||||||||||||||||||||||||||||
Seq2 301 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 350

Seq1 216 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 265


||||||||||||||||||||||||||||||||||||||||||||||||||
Seq2 351 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 400

Seq1 266 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 315


||||||||||||||||||||||||||||||||||||||||||||||||||
Seq2 401 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 450

Seq1 316 CAGTCCATAA---------------------------------------- 325


||||||||||
Seq2 451 CAGTCCATAAAGGTCAGATTCTGTTAATGTAAACAGTTTTTGTATATACA 500

Seq1 326 -------------------------------------------------- 325

Seq2 501 GCGTTCCTATCTTTGTTTTTCTTCAATACTTACCTGTTAGGGTTTTTGGT 550

Seq1 326 ---------AGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 366


|||||||||||||||||||||||||||||||||||||||||
Seq2 551 CATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 600

Seq1 367 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 416


||||||||||||||||||||||||||||||||||||||||||||||||||
Seq2 601 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 650

Seq1 417 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA 464


||||||||||||||||||||||||||||||||||||||||||||||||
Seq2 651 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATC 700

Seq1 465 464

Seq2 701 CAGCCTTAAACGACACATAGAAAGCATTCACGAAAG 736

#---------------------------------------
#---------------------------------------

b) Alinhamento local simples entre as mesmas seqncias de DNA, usando o


algoritmo BLAST.
BLASTN 2.2.8 [Jan-05-2004]

Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer,


Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997),
"Gapped BLAST and PSI-BLAST: a new generation of protein database search
programs", Nucleic Acids Res. 25:3389-3402.

Query= Seq1
(464 letters)

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
25

Database: seq2
1 sequences; 736 total letters

Searching.done

Score E
Sequences producing significant alignments: (bits) Value

Seq2 652 0.0

>Seq2
Length = 736

Score = 652 bits (329), Expect = 0.0


Identities = 329/329 (100%)
Strand = Plus / Plus

Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195

Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255

Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315

Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375

Query: 241 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 300


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 376 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 435

Query: 301 acacacatatcaaagcagtccataaaggt 329


|||||||||||||||||||||||||||||
Sbjct: 436 acacacatatcaaagcagtccataaaggt 464

Score = 276 bits (139), Expect = 3e-78


Identities = 139/139 (100%)
Strand = Plus / Plus

Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619

Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445


||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
26

Query: 446 gcgaaacttctctcagaaa 464


|||||||||||||||||||
Sbjct: 680 gcgaaacttctctcagaaa 698

Database: seq2
Posted date: Nov 19, 2004 3:58 PM
Number of letters in database: 736
Number of sequences in database: 1

Lambda K H
1.37 0.711 1.31

Gapped
Lambda K H
1.37 0.711 1.31

Matrix: blastn matrix:1 -3


Gap Penalties: Existence: 5, Extension: 2
Number of Hits to DB: 2
Number of Sequences: 1
Number of extensions: 2
Number of successful extensions: 2
Number of sequences better than 10.0: 1
Number of HSP's better than 10.0 without gapping: 1
Number of HSP's successfully gapped in prelim test: 0
Number of HSP's that attempted gapping in prelim test: 0
Number of HSP's gapped (non-prelim): 2
length of query: 464
length of database: 736
effective HSP length: 9
effective length of query: 455
effective length of database: 727
effective search space: 330785
effective search space used: 330785
T: 0
A: 0
X1: 6 (11.9 bits)
X2: 15 (29.7 bits)
S1: 12 (24.3 bits)
S2: 8 (16.4 bits)

c) Alinhamento global mltiplo entre as mesmas seqncias de DNA (e outras


duas mais), usando o algoritmo CLUSTALW.

CLUSTAL W (1.81) multiple sequence alignment

Seq1 ------------------------------------------------------------
Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA

Seq1 ------------------------------------------------------------
Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
27

Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
***************************************

Seq1 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
Seq4 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
Seq2 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
Seq3 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
************************************************************

Seq1 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
Seq4 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
Seq2 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
Seq3 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
************************************************************

Seq1 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
Seq4 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
Seq2 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
Seq3 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
************************************************************

Seq1 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
Seq4 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
Seq2 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
Seq3 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
************************************************************

Seq1 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------
Seq4 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGTCAGATTCTGT
Seq2 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------
Seq3 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------
**************************************************

Seq1 ------------------------------------------------------------
Seq4 TAATGTAAACAGTTTTTGTATATACAGCGTTCCTATCTTTGTTTTTCTTCAATACTTACC
Seq2 ------------------------------------------------------------
Seq3 ------------------------------------------------------------

Seq1 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
Seq4 TGTTAGGGTTTTTGGTCATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATA
Seq2 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
Seq3 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
*******************************

Seq1 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
Seq4 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
Seq2 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
Seq3 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACANAGGTCTCA
*************************************************** ********

Seq1 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA---------------
Seq4 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTTAAACGA
Seq2 AGCCTTTCCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTAAAACGA
Seq3 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTANAACGA
******** ************************************

Seq1 ------------------------------------------------------------
Seq4 CACATAGAAAGCATTCACGAAAG-------------------------------------
Seq2 CACATAGAAGCAATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGATTGTATAAT

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
28

Seq3 CACATAGAAAGCATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGAT-GTATAAT

Seq1 -------------------------------------------------------
Seq4 -------------------------------------------------------
Seq2 CCTCTCCAATTTTCATATGATTTCATGTTCAAAAATATACATTTATTATTCTTTC
Seq3 CCTCTCCAATTT-CATATGATTNCATGNTCANAA-TATACATTTATTATTCTTTC

3.8. Referncias Bibliogrficas

1 NCBI Glossrio --http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html


2. BLAST -- http://www.ncbi.nlm.nih.gov/BLAST/
3. BLAST Overview -- http://www.ncbi.nlm.nih.gov/BLAST/blast_overview.html
4. BLAST Guide: Deciphering the Output
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Blast_output.html
5. BLAST Query Tutorial
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/query_tutorial.html
6. NCBI Similarity Page
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/similarity.html
7. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos
ACF; Nhani-Jnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH;
Camargo LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and
Folgueras-Flatschart AV. Bioinformtica: manual do usurio. Biotec. Ci. Des.
29: 18-31, 2002.

3.9. Brainstorm

1 Cite duas possveis utilidades do alinhamento de seqncias no campo da


bioinformtica.
2 Qual a diferena entre alinhamento global e local? Cite o nome de ferramentas que
fazer um ou outro alinhamento. Voc capaz de perceber as diferenas entre os
resultados do alinhamento de duas seqncias idnticas atravs de diferentes
ferramentas de alinhamento? Explique as diferenas nos resultados mostrados nos
itens 4.7. a) e b)
3 possvel realizar alinhamentos utilizando uma seqncia de DNA e outra de
protena? Como voc acha que isso poderia ser feito? O BLAST implementa esse
tipo de ferramenta? Qual o(s) programa(s) do BLAST fazem isso?
4 Qual a diferena entre alinhamentos simples e mltiplos? Quais so as ferramentas
de alinhamento (timo ou heurstico) mais indicadas para trabalhar com cada um
desses tipos de alinhamento? Por qu?
5 Cite as principais aplicaes das ferramentas que utilizam heurstica para produzir
um alinhamento de seqncias.
6 Entre no site do NCBI, Nucleotide e obtenha as seqncias de nmero de acesso
AF117710 e AF181832 (da mesma forma que na aula anterior). Acesse o site do
programa BLAST2Sequences (http://www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2.
cgi). Copie a sequencia do primeiro gene na regio apropriada, assim como a
sequencia do segundo gene e clique em Align. Classifique o tipo de alinhamento
realizado em todos os aspectos que conseguir? Quais foram as posies que
mostraram diferenas entre as duas seqncias? Houve diferenas na regio que
codifica a protena?
7 O que so as matrizes de substituio e qual a relevncia delas no alinhamento de
seqncias?

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
29

CAPTULO 4

Montando um genoma
Seqenciar o DNA agora uma das tarefas mais fceis de realizar, alm de servir
hambrgueres. Karry Mullis, prmio Nobel

Iniciando nossa Interao

Nos dias de hoje, a arte de seqenciar um DNA e at mesmo de montar um


genoma de uma bactria so tarefas relativamente tcnicas. claro, anlise deste
genoma e o entendimento da relao do genoma com as caractersticas e a forma
como um organismo vive so tarefas altamente complexas e que exigem um grande
esforo cientifico a ser realizado pelos maiores especialistas em todo o mundo.

4.1. Sobre genomas eucariticos e procariticos

Nos dias de hoje, a arte de seqenciar um DNA e at mesmo de montar um


genoma de uma bactria so tarefas relativamente tcnicas. claro, anlise deste
genoma e o entendimento da relao do genoma com as caractersticas e a forma
como um organismo vive so tarefas altamente complexas e que exigem um grande
esforo cientifico a ser realizado pelos maiores especialistas em todo o mundo.
A montagem de genomas de organismos procariotos (bactrias e
arqueobactrias) consiste num trabalho muito mais simples do que a montagem de
genomas de organismos eucariticos (protozorios, fungos, plantas e animais). E isso
se deve a vrias caractersticas freqentemente comuns aos genomas bacterianos.
Estes so comumente pequenos -- apresentado apenas alguns milhes de pares de
bases --, circulares e contm uma baixa taxa de seqncias repetitivas. J os genomas
de organismos eucariticos so grades, normalmente na ordem de bilhes de pares de
bases, apresentam disposio do genoma em diversos cromossomos, que devem ser
montados separadamente e, ainda, apresentam uma grande quantidade de seqncias
repetitivas. Se considerssemos o genoma como um quebra cabea, os genomas
bacterianos teriam apenas poucas peas e todas seriam facilmente encaixveis. De
forma contrria, os genomas eucariticos poderiam ser considerados um conjunto de
diversos quebra-cabeas (representando diferentes cromossomos) com centenas ou
milhares de peas, com todas elas embaralhadas entre os quebra-cabeas e onde
determinadas peas parecessem muito com outras, tanto dentro de um mesmo
quebra-cabea quanto entre quebra-cabeas diferentes, dificultando de forma drstica
a montagem. Por isso, os genomas eucariticos so montados aos poucos, sendo que
primeiramente so identificadas as partes mais fceis, no repetitivas, e assim
montado um chamado scaffold, ou esqueleto, do genoma. Assim, os genomas
eucariticos normalmente so montados por equipes bem maiores e mais bem
equipadas de cientistas, apresentando ainda uma plataforma de bioinformtica mais
complexa e organizada.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
30

Dessa forma, so utilizadas diferentes tcnicas de seqenciamento para se


obter seqncias de um genoma eucarioto ou procarioto. Em bactrias, normalmente
todo o DNA quebrado em pedacinhos minsculos em uma tcnica conhecida como
shotgun ou whole genome shotgun. Esses pequenos pedacinhos de genoma (contendo
aproximadamente 2.000 pares de bases) so ligados em vetores de clonagem
bacterianos, os plasmdeos. Assim, cada plasmdeo seqenciado uma vez a partir de
cada uma de suas extremidades (direita e esquerda) e as seqncias de DNA
produzidas so posteriormente concatenadas para que o genoma seja montado por
inteiro.
J no caso dos grandes genomas de organismos eucariticos, os fragmentos
genmicos so primeiro divididos em grandes vetores de clonagem como BACs
(Bacterial Artifical Chromosome ou, em portugus, cromossomo artificial de bactria)
ou YACs (Yeast Artificial Chromosome ou cromossomo artificial de levedura), que
podem abrigar seqncias de DNA de centenas de milhares de bases. No chamado
shotgun hierrquico, essas seqncias presentes nos BACs ou YACs que so alvo
do chamado shotgun onde, agora sim, essas seqncias so quebradas em outras
contendo aproximadamente 2.000 pares de bases e ligadas em plasmdeos bacterianos
cujas extremidades sero seqenciadas. Dessa forma, os BACs e YACs so montados
separadamente e, posteriormente, realizada a montagem do genoma atravs da
sobreposio das seqncias destes grandes vetores.

Figura 4.1. a) Na estratgia de shotgun, todo o DNA genmico de um organismo


fragmentado em pequenos pedaos (1), que so clonados em vetores de pequeno
porte, como plasmdeos, para o posterior seqenciamento. b) Na estratgia de shotgun
hierrquico, normalmente utilizada para grandes genomas, realizam-se dois passos.
(1) Primeiramente fragmenta-se o genoma em grandes pedaos, que so clonados em
vetores de grande porte, como BACs ou YACs. (2) Posteriormente realiza-se uma
segunda etapa de shotgun, onde as seqncias contidas nesses vetores so
fragmentadas em pequenos pedaos e clonadas em vetores de pequeno porte, que
sero seqenciados. Retirado de Prosdocimi et al., 2003.

4.2. Base-calling

Uma frase clssica do meu co-orientador de doutorado, o Prof. Miguel Ortega,


que um mito da genmica o de que os seqenciadores de DNA que seriam
responsveis por gerar a seqncia de bases da molcula desejada. Conforme vimos

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
31

na animao apresentada na segunda aula, o seqenciador apenas responsvel pela


leitura das molculas marcadas com cada um dos fluorforos durante a eletroforese.
Na verdade, necessrio um programa de computador para pegar esses dados sobre
qual fluorforo passou a cada instante e transformar esse dado num conjunto de letras
que represente a seqncia de bases do DNA. E um programa que faa isso
conhecido como um nomeador de bases ou base-caller. Alm de gerar a seqncia de
bases que representa a molcula de DNA seqenciada, o base-caller produz tambm
um valor de qualidade associado a cada uma das bases. Assim, possvel saber quais
foram as regies seqenciadas com maior ou menor qualidade. O algoritmo mais
conhecido e utilizado para realizar a nomeao das bases (ou base-calling) o PHRED.
O PHRED utiliza um algoritmo baseado na anlise de Fourier para reconhecer os dados
brutos gerados pelo seqenciador e produzir tanto a seqncia de bases quanto a
qualidade de cada uma delas. A qualidade das bases dada com relao
probabilidade logartmica da base estar incorreta e a frmula utilizada pelo PHRED
para chegar a esta qualidade dada pela seguinte frmula:

QUALIDADE PHRED = -10 * log10 (Probabilidade de Erro)

Assim, com os dados brutos do seqenciador, o PHRED atribui a cada base uma
chance desta estar incorreta e, utilizando a frmula acima, associa um valor de
qualidade cada uma delas. Um valor de qualidade de PHRED (ou simplesmente valor
de PHRED, valor de qualidade ou qualidade da base) igual a 10, representa que aquela
base tem uma chance em dez de estar incorreta (10%). Como o valor est em escala
logartmica, um valor de PHRED 20, significa que aquela base tem uma chance em cem
de estar incorreta (1%) e um valor de 30 representa uma chance em mil (0,1%).
Freqentemente, aceita-se que um valor de PHRED igual a 20 suficiente para
aceitar uma base como real ou utiliza-se para aceitar uma regio de boa qualidade.
Entretanto, trabalhos recentes tm mostrado que podemos confiar em valores
relativamente mais baixos (Prosdocimi et al., 2004).

Exemplos de arquivos produzidos pelos programas de base-calling: (a) Arquivo de


seqncia no formato FASTA e (b) arquivo .QUAL apresentando a qualidade das bases.

a)
> Seq1
ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTC
TAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCC

b)
> Qual1
10 12 15 15 15 18 20 22 25 18 13 8 5 5 8 10 7 12 18
25 30 30 22 13 12 12 12 11 9 9 10 15 20 20 22 6 6 5

4.3. Cross-match

Como foi dito no primeiro item desta aula, as seqncias de DNA geradas em
projetos genoma so primeiramente clonadas em molculas de DNA plasmidial. Dessa
forma, algumas vezes pedaos de seqncias dessa molcula bacteriana acabam
sendo produzidas em conjunto com as molculas do DNA que se deseja produzir.
Como as molculas dos vetores de clonagem no representam o genoma que se

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
32

deseja montar, preciso mascar-las antes de se realizar a montagem do genoma. E,


para isso, utiliza-se um software conhecido como Cross-match. O cross-match
basicamente um algoritmo que realiza um alinhamento local entre duas seqncias de
nucleotdeos quaisquer e permite a formatao do resultado de diversas maneiras
diferentes.
Normalmente, executa-se o cross-match utilizando dois arquivos de entrada e a
opo screen. O primeiro arquivo deve apresentar as seqncias geradas no projeto
que se deseja retirar as partes relacionadas s seqncias bacterianas e o segundo
arquivo deve conter uma ou mais seqncias de vetores de clonagem (como
plasmdeos) que se deseja procurar no primeiro arquivo. Basicamente, o cross-match
realiza o alinhamento entre todas as seqncias do primeiro e do segundo arquivo
utilizando o algoritmo SWAT (veja aula 4). Ele apresenta ainda um valor limite para
considerar o alinhamento entre as seqncias como vlido. Se o alinhamento entre
uma seqncia do primeiro arquivo e uma outra do segundo arquivo for vlido, o
programa mascara a regio do primeiro arquivo onde ela foi similar com a do segundo,
colocando letras Xs no local. Isso evita que essas regies sejam utilizadas para o
agrupamento das seqncias, como ser mostrado a seguir.

Exemplo de seqncia que apresentava regio inicial contendo partes de vetor de


clonagem. Uma seqncia desse tipo pode ser encontrada no arquivo screen, obtido
como resultado do algoritmo cross-match:

> Seq1.screen
XXXXXXXXXXXXXXXXXXXXXXXXXXAATATCAGCACCATCTCGAATCTC
TAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCC

4.4. Agrupamento de seqncias

O agrupamento de seqncias (ou sequence assembly) o procedimento que


gera, realmente, os contigs genmicos e permite a montagem do genoma per si. A
montagem do genoma importante porque ainda no existe nenhuma tcnica que
permita o seqenciamento de molculas de DNA de mais de mil pares de bases. Em
uma corrida normal de seqenciamento, gerada em um seqenciador em larga escala,
comum que sejam produzidas cerca de 600 bases da seqncia de DNA desejada.
Com sorte possvel produzir at mil bases da seqncia, mas um seqenciamento
to bom no muito comum. E como as molculas de DNA genmicas freqentemente
apresentam milhares ou milhes de pares de bases, preciso montar os fragmentos,
de seiscentos em seiscentos, at que seja possvel gerar toda a seqncia do genoma.
Portanto podemos fazer uma analogia da montagem de genoma como se o
mesmo se constitusse num livro de mil pginas cujas palavras e a ordem delas seja
completamente desconhecida. O que os cientistas fazem pegar uma grande
quantidade de livros idnticos, digamos trinta deles e picotarem todos os livros em
trechos contendo uma quantidade fixa de palavras -- duas mil, por exemplo -- num
processo de shotgun de palavras. Guarde os nmeros e no se perca. Essas palavras
acabam tendo que ser inseridas num outro livro -- o plasmdeo --, esse j montado e
de frases conhecidas. Ento acontece a leitura de seiscentas palavras por vez desse
livro-plasmdeo. E so lidas milhares de seqncias de seiscentas palavras inseridas
em livros-plasmdeos diferentes. Primeiramente, ento, necessrio observar essas
palavras lidas dos livros-plasmdeos ligados a uma parte do livro genmico e retirar as
frases que sabemos serem do plasmdeo apenas, e no do livro que estamos tentando
montar. O cross-match o programa que faz isso. Ele compara as seqncias lidas
com a seqncia do livro-plasmdeo e, onde ele encontrar frases do livro plasmdeo,

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
33

ele troca-as por letras X. Ento, depois do cross-match, teremos vrios conjuntos de
aproximadamente seiscentas palavras que sabemos ser de nosso livro genmico.
Agora preciso mont-lo. Para isso teremos que ir lendo todas os conjuntos de frases
e observando onde as frases se sobrepem para podermos junt-las e gerar, por
exemplo, um captulo do livro (que poderia ser uma analogia montagem de um BAC
ou de um cromossomo inteiro). Veja o exemplo:

A seguir temos uma Fbula Fabulosa do escritor Millr Fernandes que foi, assim como
um genoma, dividida em partes. Monte as partes e produza a seqncia completa da
fbula.

> Frase 1
sabedoria e calor que fazem os seres humanos - "mas eu no". MORAL DA HISTRIA:
NO MORRE A PASSARADA QUANDO MORRE UM PSSARO.
> Frase 2
ela no pde resistir e exclamou: "Mas, como, seu marido no morreu h cinco anos?"
"Sim, verdade" - respondeu ento a outra, cheia daquela compreenso, sabedoria e
> Frase 3
Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais novo,
ela no pde resistir e exclamou: "Mas, como, seu marido no morreu h cinco anos?"
> Frase 4
no morreu h cinco anos?" "Sim, verdade" - respondeu ento a outra, cheia daquela
compreenso, sabedoria e calor que fazem os seres humanos - "mas eu no".

O genoma montado da mesma maneira que voc realizou para montar essa
fbula do Millr chamada A viva. (Para ler mais fbulas do escritor, acesse
http://www.millor.com.br.) Vrias seqncias representando pedaos de genoma so
gerados e observa-se a posio onde elas se sobrepem. Realizando a sobreposio de
vrios trechos de seqncia possvel montar todo o genoma. Entretanto, como j foi
dito, um genoma apresenta milhes ou bilhes de seqncias de nucleotdeos e,
portanto, no possvel realizar esta montagem mo. Para isso existem algoritmos
de montagem de genoma, como o PHRAP, o CAP e o TIGR Assembler. O PHRAP o
algoritmo mais utilizado e funciona mais ou menos da forma mostrada na figura 5.2.

Figura 4.2. O agrupamento de seqncias baseado no alinhamento e no escore do


alinhamento de seqncias.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
34

A figura 4.2 idntica figura 3.2, mostrada no captulo anterior. A diferena


basicamente o contexto com o qual ela mostrada agora. A figura mostra o
alinhamento entre duas seqncias de DNA e mostra os escores dados para o
alinhamento das seqncias. O escore total desse alinhamento igual a trs, mostrado
em alaranjado. E exatamente baseando-se nesse escore que funciona um programa
de montagem de genoma, como o PHRAP. O PHRAP apresenta um parmetro muito
importante chamado de minscore, que representa o valor mnimo do escore do
alinhamento que ele utiliza para dizer que duas seqncias so parecidas o suficiente e
que podem ser reunidas para gerar uma seqncia maior. Se o alinhamento entre
duas seqncias apresenta um escore menor do que o minscore, as seqncias no
so agrupadas e considera-se que representam partes distintas de um mesmo
genoma. J se o alinhamento entre duas seqncias apresenta um escore maior do
que o minscore, o PHRAP considera que as seqncias esto na mesma posio e
produz a chamada seqncia consenso, que consiste na concatenao das duas
seqncias entre si, da mesma forma que voc fez com a fbula do Millr.

4.5. Sobre a cobertura dos genomas

Algo que interessante de ser notado a cobertura necessria de


seqenciamento para se produzir um genoma. Em nossa analogia do livro, pegamos
trinta livros e picotamos todos eles em partes sendo que, posteriormente, lemos vrias
partes deles para tentarmos montar um livro inteiro novamente. Se nosso livro
tivesse, por exemplo, seis mil palavras e nossas partes picotadas tivessem pouco mais
de seiscentas palavras cada, teoricamente precisaramos apenas de cerca de dez
partes para montar um livro inteiro, certo? Errado! Como as dez partes so pegas
aleatoriamente, de se esperar que haja uma certa redundncia nas frases obtidas.
Em nosso exemplo da fbula do Millr, podemos ver que a frase 2 totalmente
redundante e que conseguiramos montar toda a fbula mesmo sem ela. Entretanto,
qualquer outra combinao de trs frases (exceto pelas frases 1, 3 e 4), impediria que
a montagem da fbula fosse feita de forma completa, ainda que o nmero de palavras
somadas entre as trs frases produza um nmero maior do que o da fbula completa.
Voltando anlise de genomas, isso significa que certas vezes damos o azar
estatstico de no conseguirmos obter toda a seqncia do genoma e, assim, temos
que seqenciar mais molculas para conseguirmos fechar nosso genoma. E,
considerando o grande tamanho dos genomas, normalmente considera-se necessrio
produzir um nmero de bases que seja de 8 a 10 vezes maior do que a seqncia
completa do genoma inteiro para que seja possvel montar esse genoma
completamente! E, ainda assim, muitas vezes preciso utilizar outras tcnicas mais
complexas para que o genoma seja efetivamente terminado. E isso se deve ao fato de
que algumas regies do DNA parecem apresentar uma maior dificuldade de serem
cortadas em partes ou clonadas nos vetores bacterianos (plasmdeos). Assim, a parte
mais complexa de toda a montagem do genoma consiste no fechamento da seqncia
completa do mesmo. E, depois de completo, cada uma de suas partes deve ser
identificada, no processo de anotao genmica, que ser tema do captulo 7.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
35

4.6. Referncias Bibliogrficas

1. PHRED, PHRAP, CONSED -- http://www.phrap.org


2. Ewing B, Hillier L, Wendl MC, Green P. Base-calling of automated sequencer traces
using phred. I. Accuracy assessment. Genome Res. 1998 Mar;8(3):175-85.
3. Ewing B, Green P. Base-calling of automated sequencer traces using phred. II.
Error probabilities. Genome Res. 1998 Mar;8(3):186-94.
4. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html
5. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos
ACF; Nhani-Jnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH;
Camargo LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and
Folgueras-Flatschart AV. Bioinformtica: manual do usurio. Biotec. Ci. Des.
29: 18-31, 2002.

4.7. Brainstorm

1. Por que quando sequenciamos o genoma de um organismo temos que levar em


considerao se ele eucarioto ou procarioto? Quais so as diferentes estratgias
de sequenciamento desses genomas?
2. Qual a importncia dos algoritmos de base calling? Se uma determinada base tem
um valor de qualidade igual a 40, qual a chance dela estar incorreta?
3. Por que o software cross-match importante na montagem de genomas?
4. Qual o principal parmetro utilizado pelo programa PHRAP para realizar o
agrupamento das seqncias de DNA? Como ele funciona?
5. Apresente a fbula do Millr totalmente montada.
6. Digamos que o valor de minscore do nosso programa fosse igual a 2 e apresente
uma das possveis seqncias consensos que seria gerada a partir da concatenao
das duas seqncias da figura 4.2. O que voc faria para escolher qual base estaria
no consenso no caso de gaps e mismatches?
7. Por que no suficiente seqenciar apenas seis mil bases para montar um genoma
deste tamanho (seis mil bases)?

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
36

CAPTULO 5

Anlise de Transcriptomas
5.1. As ESTs

As ESTs (Expressed Sequence Tags, ou Etiquetas de Seqncias Expressas)


correspondem a pedaos de genes expressos, derivados dos RNAs mensageiros, que
so utilizados na anlise de transcriptomas de organismos. So chamadas etiquetas
porque correspondem apenas a pedaos dos genes que um organismo expressa em
uma determinada situao. Essas etiquetas, entretanto, permitem que saibamos quais
genes esto sendo produzidos por uma clula numa determinada condio e permitem
tambm que estudos comparativos possam ser feitos. Um estudo clssico feito com
ESTs est relacionado a clulas tumorais, onde se compara os genes expressos em
uma clula normal e em uma clula cancerosa e, dessa forma, pode-se tentar
compreender como o processo tumoral leva expresso diferenciada de genes.

Figura 5.1. Produo de ESTs e ORESTES. As etiquetas de seqncias expressas


(ESTs) so obtidas atravs, primeiramente, da transcrio reversa de um conjunto de

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
37

mRNAs expressos numa clula, produzindo as fitas de DNA complementar (cDNA).


Aps esse procedimento, utiliza-se uma RNAse H para digerir as seqncias de RNA
inicial e produzida a segunda fita de DNA, gerando a molcula de cDNA fita dupla.
Essa molcula normalmente ligada em vetores de clonagem (como plasmdeos) e so
utilizados iniciadores para o seqenciamento das extremidades 5 ou 3 do cDNA em
apenas uma rodada de seqenciamento. As seqncias obtidas so as chamadas
ESTs. A tcnica de ORESTES uma alternativa produo de ESTs onde, ao contrrio
destas, pega-se preferencialmente a parte central das seqncias gnicas.

5.2. Histrico das ESTs

O seguinte trecho foi adaptado do livro Desvendando o Genoma da editora


Companhia das Letras, escrito por Kevin Davies (2001, captulo 3) e apresenta um
interessante histrico de como foram redescobertas as seqncias de ESTs e como isso
gerou um grande impacto na cincia da poca.
Em junho de 1991, o pesquisador J. Craig Venter e colaboradores apresentou
um artigo na revista americana Science que revolucionaria as estratgias de
sequenciamento de transcriptomas em todo o mundo. O artigo era intitulado
Sequenciamento de DNA Complementar: Etiquetas de Seqncias Expressas e o
Projeto Genoma Humano e identificava a seqncia de mais de 300 novos genes
humanos ativos no crebro, obtidos aleatoriamente a partir de cerca de 600 clones de
cDNA. De todas as seqncias produzidas, Venter havia conseguido identificar tanto
genes humanos j conhecidos quanto genes novos e outros que apresentavam
similaridades com genes identificados de outros organismos; um deles, por exemplo,
apresentou uma identidade significativa com o gene NOTCH, uma importante molcula
de sinalizao intracelular conhecida na mosca-das-frutas. E essa alta similaridade
entre genes presentes em espcies separadas h milhes de anos indicava que
possivelmente eles apresentavam funes importantes no metabolismo celular, como
foi posteriormente comprovado atravs de estudos experimentais.
O impacto causado na comunidade cientfica por este artigo que publicava o
primeiro estudo de genoma em larga-escala foi maior do que a soma de suas partes
atravs da analse de cada um dos genes identificados. O sequenciamento dessas
etiquetas, as ESTs, consistia em algo redundante e tecnicamente sujo, devido a
presena de vrios erros nas seqncias. Apesar disso, em uma nica publicao,
Venter havia identificado mais de 10% dos genes que toda a comunidade produzira em
quase duas dcadas, sendo que o GenBank, poca, possua menos de 3 mil
seqncias de genes humanos. Um novo tipo de dilogo cientfico, que viria a se tornar
comum na era da genmica, anos mais tarde, era inaugurado por aquele artigo
revolucionrio. Venter havia conseguido bolar uma tcnica que possibilitava a produo
de centenas de seqncias de cDNAs de uma forma rpida e inteligente e previa que,
com esta abordagem, conseguiria sequenciar a maioria dos cDNAs humanos em alguns
anos. Alm disso, previa tambm que em breve alguns melhoramentos nas
tecnologias de sequenciamento do DNA tornariam exeqvel o exame essencialmente
completo do conjunto de genes expressos de um organismo.
E essas novidades abalavam as opinies dos principais responsveis naquele
momento pelo sequenciamento do genoma humano, algo que questiona suas
autoridades. O principal argumento destes, no entanto, era o de que a abordagem de
sequenciamento de ESTs no considerava as informaes do DNA que no eram
transcritas em RNA. Assim o ganhador do prmio Nobel e co-descobrir da estrutura do
DNA, James Watson, poca diretor do Projeto Genoma do NIH, sustentava
corretamente que a tcnica popularizada por Venter no substitua a anlise genmica,

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
38

no que este concordava e argumentava que o sequenciamento de ESTs deveria no


substituir mas complementar as anlises de genoma.
Oito meses depois, Venter publicava um artigo na Nature descrevendo as
seqncias parciais de cDNA de mais 2375 genes expressos no crebro, mostrando
que seu grupo de trabalho era capaz de gerar, sozinho, um volume monstruoso de
dados de seqncias de ESTs. Em menos de um ano o laboratrio de Venter tinha sido
capaz de sequenciar duas vezes o total de genes j conhecidos at ento. Alm disso,
seu laboratrio continuava gerando cada vez mais seqncias, ininterruptamente.
Crticas surgiam sobre as contaminaes de algumas seqncias e sobre os erros que
estas apresentavam, mas nada que derrubasse o status que Venter j havia alcanado.
E, ainda que este pesquisador j tivesse concordado do fato de que o sequenciamento
de ESTs no era alternativa para o projeto genoma, o editor da Nature John Maddox
ainda ressaltava no editorial da mesma revista onde fora publicado o segundo artigo
de Venter: Na esteira da sada de James Watson do Projeto Genoma Humano dos
Estados Unidos, existe o perigo de que a abordagem de cDNA seja apresentada como
uma alternativa mais barata para completar o sequenciamento [do genoma], o que ela
no .

5.3. Agrupamento de ESTs

Como as ESTs representam o genoma expresso em uma clula num


determinado momento, comum haver redundncia gnica quando do
sequenciamento dessa molculas. E isso se deve ao fato de que uma clula pode
precisar muito da presena de algum gene num determinado momento e, nesse caso,
ela ir produzir uma grande quantidade de molculas de mRNA do gene em questo.
Entretanto, quando o pesquisador quer analisar seu transcriptoma, ele deve identificar
os genes expressos e, para ele, melhor identificar os genes apenas uma vez. Para
isso feito o agrupamento ou clustering de ESTs. Da mesma forma como feita a
montagem de genoma, aqui tambm se utiliza o PHRAP para montar cada um dos
genes seqenciados. Dessa vez, entretanto, no se espera que sejam formadas
molculas muito grandes, os genes geralmente apresentam algo em torno de dois mil
pares de bases. E os genes normalmente no apresentam regies de sobreposio com
outros genes, de forma que cada um dos genes aqui montado separadamente.
Na anlise de clustering ou agrupamento de ESTs, as seqncias dessas
molculas do organismo em questo so utilizadas como entrada em um programa.
Este deve comparar essas seqncias entre si, de forma a encontrar quais delas so
idnticas ou contm regies parecidas o suficiente para que sejam reunidas em uma
s, assim como na anlise genmica. Assim, o programa apresenta uma sada
contendo as seqncias que foram agrupadas chamadas de consensos ou contigs
e as seqncias que no foram reunidas (por no apresentarem similaridade
suficiente com nenhuma outra) chamadas de singlets. Cada uma das seqncias
resultantes do agrupamento (seja ela uma singlet ou um contig) chamada de unique
(figura 5.2), que consiste no conjunto no redundante de molculas. Considerando
uma anlise ideal, cada uma das seqncias unique deve representar um gene
distinto. Entretanto, na prtica, a presena de famlias gnicas (apresentando regies
de similaridade dentro dos genes) e de genes duplicados dificulta a obteno desse
resultado ideal e, muitas vezes, a seqncia unique pode representar mais de um
gene. Em outras ocasies, um mesmo gene pode estar representado por mais de um
unique, sendo que um dos uniques pode corresponder, por exemplo, extremidade 5
de um determinado gene e outro extremidade 3 do mesmo.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
39

Figura 5.2. Agrupamento de seqncias de ESTs. O agrupamento das seqncias


produz as seqncias no-redundantes, chamadas de uniques. As uniques so o
conjunto das seqncias consenso mais as seqncias singlets.
O agrupamento das seqncias importante devido, principalmente, aos
seguintes fatores: (1) elimina a redundncia das seqncias, (2) aumenta o tamanho
das seqncias facilitando a anotao por homologia (Oliveira & Johnston 2001), (3)
aumenta o nvel de confiabilidade de cada seqncia (Miller et al., 1999). Diferentes
abordagens tm sido utilizadas para o agrupamento de seqncias de ESTs. O Unigene
do NCBI utiliza comparaes de seqncias em vrios nveis de rigor para agrupar as
seqncias em consensos (http://www.ncbi.nlm.nih.gov/UniGene/build.html) (Schuler
1997). No TIGR, os ndices gnicos so formados utilizando um software desenvolvido
por eles mesmos, o TIGR Assembler, ou o CAP3 (Liang et al., 2000). J no projeto
genoma humano (HPG) as seqncias so agrupadas utilizando-se o software PHRAP
(International Human Genome Sequencing Consortium 2001).

5.4. O genoma e o transcriptoma

No final da seo 5.2, vimos que editor da revista Nature, Sir Maddox, dizia que
existia o perigo de que a abordagem de cDNA seja apresentada como uma alternativa
mais barata para completar o sequenciamento [do genoma], o que ela no . Vale a
pena, portanto, neste momento, discutirmos as diferenas entre as anlises de
genomas e de transcriptomas. Vale notar primeiramente que nenhuma das duas
anlises exclui a outra e so estudos que, apesar de relacionados, provm respostas
para perguntas diferentes. A molcula de DNA esttica e est presente, com a
mesma constituio, em todas as clulas do organismo. A decifrao desse contedo
esttico de DNA a tarefa da genmica. J o contedo de RNA de uma determinada
clula depende do tempo e das condies qual ela est sendo submetida. O
transcriptoma mede a parte do genoma que est sendo utilizada num determinado
momento. E essa parte do genoma expresso diferente para cada tipo celular.
Existem genes que so expressos apenas na pele, outros no crebro e alguns nos
testculos. Alguns genes so ainda mais expressos quando a clula est submetida a
um choque trmico, restrio calrica ou falta de oxignio. Enquanto o genoma
apenas um, existem vrios transcriptomas possveis para uma mesma espcie.
Algumas perguntas, entretanto, s podem ser obtidas quando se observa o
genoma expresso, enquanto outras, apenas quando se observa o genoma esttico. Por
exemplo, por mais que se obtenha seqncias de ESTs de vrios diferentes tecidos de
um organismo, nunca possvel dizer que ele no apresenta um determinado gene
atravs de anlises transcriptmicas. De forma contrria, quando se obtm toda a
seqncia de genoma do organismo possvel saber todo o repertrio de genes que
ele possui para realizar alguma tarefa metablica. Ao mesmo tempo, atravs da
anlise genmica impossvel saber, por exemplo, qual o repertrio gnico que

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
40

super-expresso numa determinada condio como, por exemplo, quando a clula se


torna cancergena.
Dessa forma, as anlises de genoma e transcriptoma so complementares e
ambas so importantes para responder perguntas especficas. Existem, entretanto,
outras formas de anlise do transcriptoma que no sejam atravs de seqncias de
ESTs, como o SAGE e a anlise dos microarranjos de DNA (ou microarrays, os chips de
DNA).

5.5. SAGE Serial Analysis of Gene Expression

Enquanto uma EST tem aproximadamente cerca de 600 pares de bases,


permitindo uma identificao quase inequvoca do gene expresso, outras tcnicas,
como o SAGE, permitem uma identificao mais exaustiva porm menos precisa do
gene que se deseja obter. Na tcnica de SAGE so concatenados fragmentos de
quatorze pares de bases de diversos mRNAs diferentes, formando uma longa molcula
hbrida contendo vrios pedaos de diferentes mRNAs. Assim, uma molcula de cerca
de 600 pares de bases lida no seqenciador, apresentando uma seqncia
ininterrupta das chamadas SAGE tags, cada uma contendo quatorze pares de bases.
Dessa forma, uma nica seqncia de SAGE apresenta informao sobre diversos
mRNAs diferentes que podem estar expressos em uma certa clula. Um problema,
entretanto, da tcnica, que muitos genes apresentam fragmentos internos comuns e,
muitas vezes, fica difcil saber ao certo qual gene foi expresso quando se observa uma
etiqueta de SAGE muito comum em diferentes genes. Voltando analogia do livro,
agora seria como se voc quisesse descobrir qual pgina do livro que seu colega est
lendo, mas ele te d apenas trs palavras consecutivas para que voc encontre a
pgina. claro que, dependendo do livro, aquela combinao de trs palavras vai estar
presente em apenas uma pgina. Mas pode haver livros onde essa combinao possa
estar presente em dez pginas diferentes. E, dessa forma, fica difcil identificar
precisamente a partir de qual pgina (ou gene) vieram aquelas palavras (ou a
seqncia de quatorze nucleotdeos).
Apesar disso, a tcnica bastante utilizada e til em vrios casos. A grande
vantagem da utilizao da tcnica de SAGE que ela permite amostrar uma grande
quantidade de genes, cerca de quarenta para cada seqncia produzida, e apresenta
uma contabilidade eficiente de quantas SAGE tags de um determinado gene foram
vistas para cada milho de etiquetas, permitindo uma anlise numrica da expresso
gnica diferencial em cada tecido humano.

5.6. Microarrays

A tcnica de microarray outra das tcnicas de anlise de transcriptomas e


consiste em na hibridao de cidos nuclicos, servindo para medir a expresso
absoluta ou diferencial de genes submetidos a condies diferentes. Primeiramente
deve-se montar a lmina que vai conter os genes que se deseja estudar. Nessa lmina
so ligados fragmentos de cDNA ou so construdas pequenas seqncias de
oligonucleotdeos que ficam ligadas lmina. Posteriormente, duas clulas so
tratadas em diferentes condies onde o caso mais comum baseia-se no estudo de
clulas normais contra clulas tumorais. Assim, os RNAs de cada uma dessas clulas
so marcados com uma determinada fluorescncia e colocados para hibridar contra os
cDNAs ou oligonucleotdeos presentes no chip (ou lmina) de DNA. Atravs da
complementaridade de bases, as molculas de um ou outro tecido vo se ligando s
molculas do chip e, posteriormente, utiliza-se um laser para realizar a leitura das

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
41

fluorescncias das molculas que hibridaram no chip. Assim, conseguimos observar,


para cada um dos genes do array, quanto eles se ligaram em seqncias da clula do
primeiro tratamento, digamos normal, ou do segundo tratamento, digamos tumoral. A
vantagem da tcnica que ela permite a anlise de milhares de genes ao mesmo
tempo, sendo que o chip montado por um rob capaz de ligar os cDNAs em posies
bem prximas. Entretanto, essa uma tcnica que apresenta uma grande quantidade
de rudo e anlises computacionais e estatsticas complexas devem ser realizadas para
se gerar um resultado satisfatrio.

5.7. Referncias Bibliogrficas

1. Davies, K. (2001). Decifrando o genoma. Companhia das letras.


2. PHRAP -- http://www.phrap.org
3. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html
4. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos
ACF; Nhani-Jnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; Camargo
LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and Folgueras-
Flatschart AV. Bioinformtica: manual do usurio. Biotec. Ci. Des. 29: 18-31,
2002.

5.8. Brainstorm

1. Defina o que uma seqncia de EST.


2. Por que o trabalho de Venter, em 1991, causou tanto impacto na comunidade
cientfca?
3. Quais so os motivos pelos quais se realiza o sequenciamento de ESTs?
4. O que so singlets, contigs e uniques?
5. Proponha um experimento no qual a resposta seja produzida em um projeto
genoma e outro experimento cuja resposta s possa ser gerada atravs de uma
anlise de transcriptomas.
6. Em que consiste a tcnica de SAGE, qual as suas vantagens e desvantagens?
7. Como realizado um experimento de microarray? Alm da comparao entre
clulas normais e tumorais, qual outra comparao voc poderia propor para ser
estudada em um experimento como esse?

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
42

CAPTULO 6
Bancos de dados em Biologia Molecular

Neste captulo vamos tratar das bases de dados em biologia molecular. As bases de
dados em biologia molecular so importantes principalmente para proporcionar
comunidade cientfica uma forma de tornar os dados (produzidos em todo o mundo)
acessveis de forma fcil, rpida e inteligente
(http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html).

6.1. Histrico

As bases de dados em biologia molecular so importantes principalmente para


proporcionar comunidade cientfica uma forma de tornar os dados (produzidos em
todo o mundo) acessveis de forma fcil, rpida e inteligente
(http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html). A primeira base de
dados de biologia molecular parece ter surgido por volta de 1960, quando Dayhoff e
colaboradores construram um catlogo contendo todas as seqncias de protenas
conhecidas at a data. Essas seqncias foram publicadas num livro chamado Atlas of
Protein Sequences and Structure, de 1965. interessante notar que o contedo dessa
base de dados no deveria conter mais de 1 megabyte de informao, se transferida
para computadores modernos (Baxevanis & Ouellette 2001).
Com o advento do seqenciamento do DNA e, principalmente, a partir da
dcada de 1990, do seqenciamento em larga escala, foi necessria a construo de
bancos de dados mais robustos para abrigar a exploso no nmero de seqncias
obtidas pelos pesquisadores (como vimos na primeira aula). O NCBI, por exemplo, foi
criado pelo NIH (National Institutes of Health, os Institutos Nacionais de Sade dos
Estados Unidos) em 1988 para abrigar esse tipo de informao (Wheller et al., 2002).
Dessa forma, foi criada uma colaborao internacional para montar um banco de dados
de seqncias de nucleotdeos, a INSDC (International Nucleotide Sequence Database
Colaboration). Essa instituio contm o NCBI, o EMBL (European Molecular Biology
Laboratory ou Laboratrio Europeu de Biologia Molecular) e o DDBJ (DNA Data Bank of
Japan ou Banco de dados de DNA do Japo) (Tateno et al., 2002). Cada um desses
centros possibilita a submisso individual de seqncias de DNA e trocam informaes
entre si diariamente, sendo que todos os trs possuem informaes atualizadas de
todas as seqncias disponveis para os pesquisadores (Stoesser et al., 2002). Apesar
disso, cada centro apresenta os dados de forma particular, apesar de bastante
semelhante.
Ultimamente tm surgido uma grande quantidade de novos bancos de dados
em biologia molecular. E so tantos que uma das principais revistas da rea, a inglesa
Nucleic Acids Research (http://nar.oupjournals.org/), tem reservado dois nmeros
especiais por ano (os primeiros volumes dos meses de janeiro e julho) apresentando
apenas artigos sobre novos bancos de dados ou de atualizaes de bancos j
consagrados pela comunidade. Sempre vale a pena dar uma olhada nessa revista para
descobrirmos se algum novo banco publicado pode ajudar em nossa pesquisa. E, cada
vez mais, torna-se impossvel fazer pesquisa em biologia sem estar por dentro dessas
novas atualizaes.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
43

6.2. Bancos primrios e secundrios

Existem basicamente dois tipos de bancos de dados disponveis para utilizao e


pesquisa de genes e protenas (Baxevanis & Ouellette 2001). Os bancos de dados
primrios apresentam resultados de dados experimentais que so publicados com
alguma interpretao, mas no h uma anlise cuidadosa desses dados com relao
aos outros publicados anteriormente. Esse o caso, por exemplo, do GenBank, EMBL e
PDB (Protein Data Bank). J os secundrios so aqueles onde h uma compilao e
interpretao dos dados de entrada por um ou mais grupos de cientistas, de forma que
podem ser obtidos dados mais representativos e interessantes. Esses so os bancos de
dados curados, como o COG, SWISS-PROT e o TrEMBL.

6.3. GenBank e GenPept

O GenBank e o GenPept (a variante do GenBank para seqncias de protenas)


so os principais bancos de dados primrios contendo seqncias de biomolculas
existentes no mundo e muito importante que entendamos o funcionamento de seus
principais nmeros identificadores de seqncias: o GI e o AN.
O primeiro identificador de seqncia criado no NCBI foi o LOCUS, que era o
nico identificador de um registro no GenBank. O nome do loco era e ainda
definido como uma seqncia de 10 ou menos letras em caixa alta que apresentam um
mnemnico para a funo e o organismo de origem da seqncia. Assim o nome
HUMHBB era utilizado para representar a regio da -globina humana (Baxevanis &
Ouellette 2001). Entretanto, com a descoberta de cada vez mais locos e alelos
diferentes, e com o aumento exponencial do nmero de seqncias no GenBank, ficou
impossvel a inveno e a atualizao dos nomes de forma controlada. Assim os nomes
de LOCUS, apesar de ainda aparecerem nos arquivos de formato GenBank, no tm
mais nenhuma utilidade prtica.
Devido a essas dificuldades de utilizao da informao armazenada em LOCUS,
o conselho internacional de colaboradores para seqncias de nucleotdeos (NCBI,
EMBL e DDBJ) introduziu o conceito de accession number (AN) ou nmero de acesso.
Esse nmero no carrega, intencionalmente, nenhuma informao biolgica, de forma
a permanecer estvel. Originalmente consistia de uma letra seguida por cinco
nmeros, sendo que cada letra corresponderia ao centro (NCBI, EMBL ou DDBJ) no
qual a seqncia fora submetida (Baxevanis & Ouellette 2001). Entretanto, logo esse
nmero tambm comeou a apresentar problemas, j que as seqncias eram
atualizadas contendo o mesmo AN. No arquivo GenBank h um campo chamado
accession, onde h a informao sobre o histrico de uma determinada seqncia; se
ela se juntou a outra, se foi atualizada, etc. Apesar desses problemas, o AN o ndice
mais controlado e confivel dos registros do NCBI/EMBL/DDBJ. Para melhorar a
identificao de seqncias antigas, os membros do INSDC resolveram, em 1999,
acrescentar, ao AN, o nmero de sua verso (Benson et al., 2002). Dessa forma pode-
se ver o nmero de acesso, um ponto, e o nmero de atualizaes feitas em uma
determinada seqncia. Por exemplo, o nmero de acesso A21645.3 a terceira
atualizao da seqncia A21645 e as verses mais velhas permanecem armazenas e
acessveis atravs dos nmeros de submisso A21645.1 e A21645.2. Um cdigo
similar de AN.verso dado tambm para seqncias de protenas.
E para criar um ndice ainda mais robusto para suas entradas, o NCBI, em
1992, criou um novo identificador, o GenInfo Identifier (GI), um nmero inteiro
simples. Esse um identificador nico para cada seqncia, independente de
atualizaes ou de qualquer outra coisa que possa acontecer com uma seqncia. Toda

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
44

entrada no NCBI possui um GI nico da seqncia que no alterado de forma


alguma, permanecendo na base de dados para o acesso (Benson et al., 2002). Se uma
seqncia difere-se da outra por apenas um par de bases, as duas possuiro diferentes
GIs, apesar de possurem, por exemplo, o mesmo AN (com diferentes nmeros de
verso). Todos os processos internos do NCBI utilizam o nmero de GI para sua a
execuo.

6.4. RefSeq O banco de dados de seqncias de referncia

O RefSeq um dos bancos de dados secundrios mais utilizados por


bilogos de todo o mundo. Seu objetivo produzir um conjunto no redundante de
seqncias de DNA genmico, transcritos (cDNA) e de protenas para diversos
organismos. A vantagem de se utilizar o RefSeq que, ao contrrio dos bancos
primrios de seqncias, ele no redundante. E isso significa que, para cada gene
conhecido de um determinado organismo, o banco possui uma nica entrada ao
contrrio da infinidade de entradas para um mesmo gene dos bancos primrios, como
o prprio GenBank e GenPept. Alm disso, ele apresenta os dados dos genes e
protenas associados a diversas informaes teis, como sua funo, anlises de
mutao, polimorfismos conhecidos, etc. Ele produzido pelo NCBI atravs de
curadoria manual, ou seja, cada seqncia analisada por pesquisadores treinados,
uma a uma, e as informaes relevantes so adicionadas entrada RefSeq do banco
de dados. O RefSeq apresenta ainda referncias cruzadas com outros bancos de dados,
permitindo que outras informaes adicionais sejam relacionados com uma
determinada seqncia de biomolcula. Uma das caractersticas mais interessantes do
RefSeq ser capaz ainda de reunir vrios dados divergentes em uma plataforma
consistente e apresentando um conjunto de padres e convenes comuns. A primeira
verso do RefSeq foi montada em Junho de 2003 e apresentava mais de 785.000
seqncias de protenas, 210.000 seqncias de RNA e 64.000 seqncias genmicas
de mais de 2005 organismos diferentes. As principais caractersticas do RefSeq so as
seguintes:
No redundncia;
Apresenta links diretos entre seqncias de nucleotdeos e protenas;
Realiza atualizaes dirias com relao ao conhecimento biolgico da literatura
sobre as seqncias em questo;
Apresenta nmeros de acesso precisos e bem definidos;
Possui curadoria especial pelo prprio pessoal do NCBI e colaboradores.
Assim como as entradas para o GenBank, os registros do RefSeq apresentam
ainda um nmero de acesso, um nmero de verso e um GI associado. Alm disso, os
nmeros de acesso apresentam prefixos definidos para facilitar sua identificao, veja
abaixo:
Prefixo do nmero de
Molcula
acesso
NC Molcula completa de genoma
NG Regiao genmica
NM MRNA
NP Protena
NR RNA
NT* Contig Genmico
NW* Contig Genmico (WGS**)
XM* MRNA
XP* Protena
XR* RNA

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
45

NZ Genoma (WGS)
ZP Protena gerada por entrada NZ
* Computed from genome annotation pipeline
** Whole Genome Shotgun

Tabela 6.1. Nmeros de acesso do RefSeq e molculas associadas (Pruitt et al.,


2003).

6.5. SWISSPROT O maior banco de dados secundrio de seqncias de


protenas

O Swiss-Prot tem sido desenvolvido desde 1986 pelo departamento de


bioqumica mdica da universidade de Gnova (agora conhecido como Swiss Intitute of
Bioinformatics) e pela Biblioteca de dados do EMBL. O Swiss-Prot um banco de
dados secundrio que consiste apenas de seqncias de protenas e apresenta uma
padronizao de nomenclatura segundo um formato prprio e conciso. Para cada
seqncia no banco de dados existem os dados da molcula protica em questo e a
anotao biolgica da mesma. A anotao biolgica est relacionada ao processo de
agregar informao a uma molcula biolgica e uma aula especfica sobre isso ser
dada posteriormente. A anotao da protena no Swiss-Prot bastante completa e
apresenta os seguintes itens: funo da protena, modificaes ps-traducionais (como
adio de carboidrados, fosforilao, acetilao, etc), domnios conservados (como
regies de ligao a clcio, stios de ligao a ATP, dedos de zinco, etc.), estrutura
secundria da protena, estrutura quaternria (homodmero, heterodmero, etc.),
similaridades com outras protenas, associaes com doenas ou deficincias,
seqncias parecidas, variantes de splicing, etc. A idia dos curadores adicionar o
maior nmero possvel de informaes relativas quela protena no Swiss-Prot e, para
isso, os curadores se utilizam principalmente de artigos sobre as protenas e revises
sobre o grupo de protenas em questo. Alm disso, algumas vezes so recrutadas
pessoas com maior experincia em determinada protena para fornecer informaes
mais precisas sobre as mesmas e enviar comentrios e atualizaes com relao a
grupos mais especficos de protenas. E assim como o RefSeq, o Swiss-Prot tambm
tem a inteno de produzir a menor redundncia possvel com relao s entradas de
protenas presentes no banco, tentando, sempre que possvel, incorporar todo o dado
de uma certa protena em uma nica entrada para cada organismo. Alm disso, o
Swiss-Prot tambm apresenta referncias cruzadas com cerca de outras sessenta
bases de dados de biomolculas, facilitando a apreenso de informao sobre a
seqncia de protena em questo.
Falando de uma forma menos tcnica, a grande vantagem de se utilizar o
Swiss-Prot reside no fato do banco apresentar uma nomenclatura bem organizada para
definir as seqncias de protenas. Enquanto outros bancos apresentam nomenclaturas
um tanto quanto divergentes, mesmo quando tratando de uma mesma molcula em
diferentes organismos, o Swiss-Prot apresenta uma nomenclatura fixa para cada
molcula de uma determinada protena e mantm essa nomenclatura mesmo em
diferentes espcies, o que facilita e permite uma maior confiana na identificao e
anotao por similaridade desse tipo de molcula, como veremos na aula 7. Alm
disso, ele o banco que normalmente apresenta um maior nmero de informaes
sobre uma molcula de protena, incluindo modificaes ps-traducionais, domnios e
outras informaes do interesse de um pesquisador que queira trabalhar com aquela
molcula.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
46

6.6. Gene Ontology Sistema de classificao de genes de acordo com suas


caractersticas

O Gene Ontology em si, no bem um banco de dados e, por isso, talvez


devesse estar em um captulo parte. Entretanto, so disponibilizados bancos de
dados de ontologias organizadas para determinados organismos e parece interessante
abordar esse tpico no presente momento.
O Gene Ontology (popularmente conhecido como GO) um esforo colaborativo
em reunir descries consistentes de produtos gnicos em diferentes bancos de dados.
Os participantes do projeto GO desenvolveram trs estruturas de vocabulrio
controlado, chamadas de ontologias, que descrevem os produtos gnicos em termos
de sua associao com processos biolgicos, componentes celulares e funo
molecular de maneira no relacionada com qualquer organismo em especial.
Basicamente essas trs ontologias esto relacionadas s principais perguntas que os
pesquisadores tm sobre um determinado gene: (1) em quais processos biolgicos o
gene est envolvido; (2) qual a sua localizao dentro da clula e; (3) como,
molecularmente, o gene realiza sua funo. Um determinado gene, por exemplo, pode
realizar a transduo de sinais em uma clula (processo biolgico), estar preso
membrana celular (localizao celular) e ter uma funo de fosforilar uma outra
protena (funo molecular), sendo classificado no GO de acordo com essas trs
caractersticas.
Alm disso, a utilizao de termos precisos de vocabulrio do GO ajuda muito
na chamada genmica comparativa, pois dessa forma podemos saber se um
determinado organismo, por exemplo, apresenta um maior nmero percentual de
genes relacionados a um determinado processo biolgico ou no. O mesmo vale pras
outras duas ontologias e podemos testar hipteses, interessantes, como: ser que um
organismo que vive a altas temperaturas possui mais protenas de choque trmico?,
ser que este organismo possui mais protenas chaperonas, que ajudam no
enovelamento de outras?, ser que ele apresenta mais protenas responsveis pela
duplicao de seu DNA?
Da mesma forma, a utilizao destas ontologias permite que um pesquisador
saiba quais so todas as protenas quinases de um determinado organismo, ou quais
so todas as protenas envolvidas com metabolismo de DNA ou, ainda, quais so todas
as protenas que ficam associadas ao retculo.
Outro ponto importante na anlise das ontologias que elas, assim como a
realidade biolgica, no apresentam uma ordem hierrquica bem definida. E ainda que
isso dificulte um pouco a anlise, o resultado da ordem e da relao entre as
ontologias fica mais fiel ao conhecimento que se tem sobre a biologia dos organismos.
Ainda assim, as ontologias obedecem a uma certa hierarquia, no muito rgida, de
forma que, por exemplo, a ontologia das tirosina quinases filha da ontologia das
quinases e o pesquisador pode escolher observar ou obter todas as quinases de um
organismo de GO anotado ou apenas as tirosina quinases, que so um subgrupo das
quinases.

6.7. Referncias Bibliogrficas

1. Weller DL et al., 2002. Database resources of the National Center for Biotechnology
information: 2002 update. Nucleics Acid Reserch 30(1): 13-16.
2. Benson DA et al., 2002. GenBank. Nucleics Acid Reserch 30(1): 17-20.
3. Stoesser G et al., 2002. The EMBL nucleotide sequence database. Nucleics Acid
Reserch 30(1): 21-26.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
47

4. Tateno Y et al., 2002. The DNA Data Bank of Japan (DDBJ) for genome scale
research in life sciences. Nucleics Acid Reserch 30(1): 27-30.
5. Westbrook J et al., 2002. The Protein Data Bank: unifying the archive. Nucleics Acid
Reserch 30(1): 245-248.
6. Bairoch A & Apweiler R, 2000. The SWISS-PROT protein sequence database and its
supplement TrEMBL in 2000. Nucleics Acid Reserch 28(1): 45-48.
7. Baxevanis AD and Ouellette BFF, 2001. Bioinformatics: A practical guide to the
analysis of genes and proteins. Ed. Wiley-interscience. 2nd ed.
8. Pruitt K., Tatusova T. and Ostell J. The NCBI handbook (Internet): Chapter 17, The
Reference Sequence (RefSeq) Project. Bethesda (MD): National Library of Medicine
(US), National Center for Biotechnology Information; 2002.

Sites:
NCBI Genbank - http://www.ncbi.nih.gov/Genbank/
EMBL Nucleotide Sequence Database - http://www.ebi.ac.uk/embl/
DDJP - DNA Data Bank of Japan - http://www.ddbj.nig.ac.jp/
NCBI Reference Sequences web site - http://www.ncbi.nlm.nih.gov/RefSeq/
The Gene Ontology http://www.geneontology.org
Swissprot http://us.expasy.org/sprot/

6.8. Brainstorm

1 - O que a INSDC e por quais entidades ela formada?

2 - Qual a diferena entre bancos de dados primrios e secundrios? Apresente dois


exemplos de cada um.

3 - Entre no site do NCBI: http://www.ncbi.nlm.nih.gov. Na aba Search altere o valor


para Nucleotide (isso significa que voc estar fazendo uma pesquisa por seqncias
de nucleotdeos), copie o AN AF117710 no espao apropriado e clique em Go. Voc
deve observar um resultado dizendo que esse AN est associado ao gene Homo
sapiens hemoglobin beta chain (HBB) mRNA, complete cds, clique no link para
AF117710. Dessa forma voc estar vendo todas as informaes disponveis no
Genbank para este gene. Explique o que significa cada um dos seguintes campos
LOCUS, DEFINITION, ACCESSION, VERSION, KEYWORDS, SOURCE, ORGANISM,
REFERENCE, FEATURES, ORIGIN. Mais informaes em
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

4 - Qual a diferena entre o identificador conhecido como GI e o AN? Quais bancos de


dados os utilizam? Por que no existe apenas um nmero identificador de seqncia?

5 - O que o projeto RefSeq e quais suas caractersticas principais?

6 - Entre no site do BLAST: http://www.ncbi.nlm.nih.gov/BLAST. O BLAST uma


ferramenta de alinhamento local de seqncias de biomolculas e entenderemos
melhor sua funo e seu funcionamento na prxima aula. Por ora, apenas entre na
pgina e clique em Translated query vs. protein database (blastx). Uma pgina
ir abrir com vrios campos. No campo Search, escreva novamente o nmero de
acesso da seqncia da hemoglobina humana, AF117710 e clique no boto BLAST!.
Na prxima pgina que ir se abrir clique em Format! e espere pelo resultado. O
resultado mostrar as protenas do GenPept mais parecidos com a hemoglobina
humana, guarde este resultado. Entre novamente na pgina do BLAST - Translated
query vs. protein database (blastx). Nesta pgina copie novamente o nmero de

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
48

aceso da hemoglobina AF117710 na aba Search s que, desta vez, clique no nome nr,
na opo Choose database. O nr representa o GenPept e o banco de dados contra
o qual o BLAST realiza a busca. Selecione, ao invs de nr, a opo swissprot e ento
clique no boto BLAST!. Espere a prxima pgina aparecer e clique em Format!
Quando a tela de resultados aparecer, compare esses resultados com aqueles obtidos
contra o banco nr. Responda: O que voc pode observar de diferente? Repare como a
nomenclatura utilizada pelo Swissprot importante e facilita a identificao da
protena. (Se tiver interesse, volte novamente e execute outras buscas BLAST contra
diferentes bancos de dados e observe os resultados.)

7 - Em que consiste o Gene Ontology? Quais as principais ontologias existentes nas


quais um gene pode ser descrito? Entre no site do http://www.geneontology.org e cole
na caixa de texto o seguinte termo de GO:0006259. A qual ontologia esse GO
pertence? Qual o nome desta ontologia? Quais so as ontologias imediatamente
inferiores a esta?

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
49

CAPTULO 7

Anotao de Genomas

7.1. Introduo

As seqncias genmicas so fontes ricas de informaes sobre a biologia dos


organismos, mas devem ser traduzidas atravs de anlises computacionais e de
interpretao biolgica para que possamos extrair delas a maior quantidade possvel
de dados teis (Lewis et al., 2000). A anotao genmica consiste num processo de
vrios passos e Stein (2001) divide-a, em trs categorias bsicas: a anotao de
nucleotdeos, de protenas e de processos (Figura 7.1).
A anotao de nucleotdeos feita quando existem informaes sobre o genoma
completo (ou segmentos de DNA) de algum organismo. Assim, procura-se encontrar a
localizao fsica (posio cromossmica) de cada parte da seqncia e descobrir onde
esto os genes (Rouz 1999), RNAs, elementos repetitivos, etc. Na anotao de
protenas, que feita quando existem informaes sobre os genes (obtidos por
seqenciamento genmico ou de cDNA) de algum organismo, procura-se identificar os
genes j descobertos e descobrir sua funo. Assim possvel saber quais so aqueles
que determinado organismo possui e quais ele no possui. A anotao de processos
procura identificar as vias e processos nos quais diferentes genes interagem,
montando uma anotao funcional eficiente.

Figura 7.1. Anotao de genomas completos. Esquema representando as fases e as


perguntas que se deseja responder em cada uma das fases da anotao de genomas.
Retirado de Prosdocimi et al., 2003.

7.2. Anotao de Nucleotdeos

A anotao de nucleotdeos comea com a montagem do genoma, a


identificao de onde est cada parte do DNA e qual a relao das partes entre si.
Procura-se quais genes esto no mesmo segmento de DNA, no mesmo cromossomo. E
depois que o genoma est montado, realiza-se buscas para encontrar as partes que
correspondem aos genes expressos, quais partes correspondem a genes de tRNA,
quais correspondem aos clusters de genes de rRNA e assim por diante. Assim,
identifica-se a posio de cada um dos tRNAs com relao ao aminocido que ele
carrega, identifica-se a posio dos rRNAs e a posio dos genes.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
50

7.3. Anotao de Protenas

Nessa etapa da anotao genmica procura-se montar um catlogo das


protenas e genes presentes nos organismos, nome-los e associ-los a provveis
funes atravs, principalmente, de buscas por similaridades (Aubourg & Rouz 2001).
Vrias tcnicas recentes tm sido desenvolvidas para identificar
automaticamente as protenas pertencentes a diferentes grupos isofuncionais
(chamados erroneamente de grupos de ortologia Jensen 2001, veja na prxima
aula), entretanto muitas dessas tcnicas podem gerar classificaes ambguas. Na
prtica, o que normalmente feito a classificao das protenas preditas com base
em domnios funcionais, configuraes espaciais e presena de padres conservados,
alm de pesquisa ampla de similaridade contra protenas bem caracterizadas.
Uma forma comum de se realizar a anotao de protenas procurar
similaridades das seqncias com protenas presentes em diferentes bancos de dados,
utilizando ferramentas de alinhamento local como o BLASTp ou PSI-BLAST (Altschul et
al., 1997). As colees mais valiosas de seqncias de protenas so os bancos de
dados SWISS-PROT e TrEMBL. O primeiro apresenta uma coleo de seqncias de
protenas confirmadas e extensivamente anotadas. Ele contm ainda referncias para
outros bancos de dados de seqncia e estrutura, referncias bibliogrficas,
identificao da famlia protica e descries sobre a provvel funo e papel biolgico
da protena (Bairoch & Apweiler 2000). Entretanto a velocidade do seqenciamento
genmico maior que a dos curadores e, por isso, foi criado o banco de dados
TrEMBL, que contm uma traduo automtica das seqncias codificadoras (cds)
submetidas aos bancos de dados de nucleotdeos (Lang 1997, Apweiler 2000).
Uma anlise complementar seria a procura de domnios funcionais, sendo que
as bases de dados mais utilizadas nesse processo so: PFAM, PRINTS, PROSITE,
ProDom, SMART e BLOCKS. Esses vrios bancos de dados de padres so altamente
sobreponveis, mas cada um possui seu prprio sistema de nomenclaturas e mtodo de
procura, o que torna difcil a interpretao dos resultados (Stein 2001). Por isso foi
desenvolvido, recentemente, um banco integrado de assinaturas de protenas,
conhecido como InterPro, que procura integrar as informaes dos bancos
anteriormente citados. Cada entrada do InterPro contm uma breve descrio da
famlia ou domnio, uma lista de protenas do SWISS-PROT ou TrEMBL que o contm,
referncias bibliogrficas e links para cada um dos bancos membros (Apweiler et al.,
2001).
O banco InterPro tem sido utilizado para a anotao de diversos genomas,
como o de leveduras, vermes, moscas, mostardas e homens. Desses, cerca de 40% a
50% das protenas preditas possuem pelo menos uma entrada no InterPro, donde se
conclui que a outra metade das protenas eucariticas pertencem a novas famlias
proticas e que muito ainda precisa ser aprendido (Apweiler et al., 2001).

7.4. Anotao de Processos

A parte mais interessante e desafiadora do processo de anotao gnica


relacionar, finalmente, a genmica com os processos biolgicos. Para isso, como j
vimos, foi criado um consrcio chamado Gene Ontology (GO), que busca criar um
vocabulrio padro para descrever a funo dos genes eucariticos. S para recordar,
o GO consiste em trs divises: funo molecular (atividade especfica do gene em
questo, por exemplo: atividade enzimtica), processos biolgicos (processo no qual o
gene est inserido, como a meiose) e componentes celulares (descreve a estrutura
celular na qual o gene est localizado, como organelas ou ribossomos) (The Gene
Ontology Consortium 2000).

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
51

Para a anotao de processos necessrio mais do que trabalho computacional.


Tcnicas biolgicas em larga escala, como mutagnese mediada por transposons,
anlise de expresso em microarrays, RNA interference, identificao de protenas por
espectroscopia de massa, ensaios baseados em green-fluorescent-protein para
determinar a localizao subcelular e padres temporais de expresso de protenas e
estudos de duplo-hbrido em leveduras tm sido de fundamental importncia para
identificar o papel de genes e protenas nos processos biolgicos (Stein 2001). Cada
novo experimento adiciona mais informao e permite um melhor entendimento do
genoma. Portanto, a anotao de processos realizada comparando as informaes
genmicas com os dados atuais da literatura, de forma a tentar compreender ao
mximo a biologia do organismo que est sendo estudado.

7.5. A realizao da Anotao Genmica (Sociologia da Anotao)

Stein (2001) prope alguns modelos bastante pertinentes para explicar como
realizada, passo a passo, a anotao genmica. Segundo ele, esses processos de
identificao gnica normalmente seguem algum dos seguintes modelos
organizacionais: a fbrica, o museu e a festa. Cada modelo adequado para alguma
das fases do trabalho de anotao (Stein 2001).
Durante a primeira fase, quando o principal trabalho encontrar genes e
mapear variaes e marcadores, o modelo da fbrica o mais adequado. Nesse
modelo uma rede de computadores trabalha seguindo uma srie de programas de
anotao. A seqncia de entrada jogada numa srie de programas para predio de
genes, procura de similaridades entre seqncias de nucleotdeos e protenas e
procura de domnios funcionais. Isso permite a gerao de grandes quantidades de
dados sobre o genoma.
Ento se inicia a fase de museu, quando a nfase passa da localizao dos
dados para a sua interpretao. Nesse modelo um conjunto de curadores deve
classificar e catalogar o genoma de forma sistemtica, encontrando e corrigindo erros
gerados pelos programas na primeira etapa. A maior parte dessa etapa feita mo e
deve basear-se tambm na literatura obtida sobre o organismo em questo para uma
melhor integrao com os dados genmicos.

Figura 7.2. Um exemplo da sociologia da anotao genmica: etapas de fbrica,


museu e festa.

Aps o tdio da curadoria hora da festa. Nesse modelo, vrios bilogos e


bioinformatas so colocados juntos em um mesmo ambiente para discutir, anotar e
realizar o fechamento do genoma. Os bilogos procuram associar os dados de genoma

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
52

biologia do organismo, montando vrias hipteses de trabalho e os bioinformatas e


cientistas da computao montam as ferramentas e do o suporte tcnico para ajudar
a produzir os resultados desejados. Esse modelo tem sido utilizado com sucesso para a
anotao de diversos genomas, dentre eles o da Drosophila (Adams et al., 2000) e do
camundongo (The RIKEN Genome Exploration Research Group Phase II Team and the
FANTOM Consortium 2001).
interessante notar que, enquanto o seqenciamento genmico uma tarefa
bastante especializada, a anotao genmica algo bastante multidisciplinar, no qual
toda a comunidade cientfica (biolgica) pode e deve contribuir.

7.6. Referncias Bibliogrficas

1. Stein, L., 2001. Genome annotation: from sequence to biology. Nature Reviews 2:
493-505
2. Rouz P.; Pavy, N. and Rombauts, S. (1999). Genome annotation: which tools do
we have for it? Curr Opin Struct Biol 2: 90-95.
3. Lewis, S.; Ashburner, M. and Reese, M. G. (2000). Annotating eukaryote genomes.
Curr Opin Struct Biol 10: 349354.
4. PHRAP -- http://www.phrap.org
5. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html
6. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos
ACF; Nhani-Jnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; Camargo
LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and Folgueras-
Flatschart AV. Bioinformtica: manual do usurio. Biotec. Ci. Des. 29: 18-31, 2002.
7. Aubourg, S. and Rouz P. (2001). Genome annotation. Plant Physiol Biochem 39:
181-193.
8. Altschul, S. F.; Madden, T. L.; Schaffer, A. A.; Zhang, J.; Zhang, Z.; Miller, W. and
Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein
database search programs. Nucleic Acids Res 25: 3389-3402.
9. Bairoch, A. and Apweiler, R. (2000). The SWISS-PROT protein sequence database
and its supplement TrEMBL in 2000. Nucleic Acids Res 28: 45-48.
10. Jensen, R. A. (2001). Orthologs and paralogs we need to get it right. Genome
Biol 2: 1002.1-1002.3.
11. Apweiler, R. (2001). Functional information in SWISS-PROT: The basis for large-
scale characterisation of protein sequences. Brief Bioinform 2: 9-18.
12. Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M.;
Bucher, P.; Cerutti, L.; Corpet, F.; Croning, M. D.; Durbin, R.; Falquet, L.;
Fleischmann, W.; Gouzy, J.; Hermjakob, H.; Hulo, N.; Jonassen, I.; Kahn, D.; Kanapin,
A.; Karavidopoulou, Y.; Lopez, R.; Marx, B.; Mulder, N. J.; Oinn, T. M.; Pagni, M.;
Servant, F.; Sigrist, C. J. and Zdobnov, E. M. (2001). The InterPro Database; an
integrated documentation resource for protein families; domains and functional sites.
Nucleics Acid Res 29: 37-40.
13. Lang, F. (1997). TREMBL. Trends Genet 13: 417.
14. The Gene Ontology Consortium (2000). Gene Ontology: tool for the unification of
biology. Nat Genet. 25: 25-29.
15. The RIKEN Genome Exploration Research Group Phase II Team and the FANTOM
Consortium (2001). Functional annotation of a full-length mouse cDNA collection.
Nature 409: 685-690.
16. Adams, M. D.; Kelley, J. M.; Gocayne, J. D.; Dubnick, M.; Polymeropoulos, M. H.;
Xiao, H.; Merril, C. R.; Wu, A.; Olde, B.; Moreno, R. F.; Kerlavage, A. R.; McCombie,

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
53

W. R. and Venter, J. C. (1991). Complementary DNA sequencing: expressed sequence


tags and human genome project. Science 252: 1651-6.

7.7. Brainstorm

1. Em que consiste a anotao de genomas?


2. Quais so as principais etapas durante a anotao dos genomas e qual pergunta
deseja-se responder em cada uma delas?
3. Quais so os objetivos da anotao de nucleotdeos?
4. Quais so os objetivos da anotao de protenas?
5. Quais so os objetivos da anotao de processos?
6. Como realizada a anotao de genomas? Descreva os modelos organizacionais e
qual a atividade realizada em cada uma destas etapas.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
54

CAPTULO 8
Bioinformtica Evolutiva e Genomas Completos

Iniciando nossa Interao

O conceito de homologia algo que normalmente utilizado de forma incorreta


por diversos estudantes e pesquisadores. Muitas vezes escuta-se dizer que h
diferentes graus de homologia entre genes ou que o gene A mais homlogo ao gene
B do que um terceiro gene C. Este conceito est errado. A homologia est relacionada
ancestralidade de um carter, gene ou protena, e algo que existe ou no existe,
no h graus intermedirios. Esse ser o tema deste captulo.

8.1. Homologia, Ortologia e Paralogia

O conceito de homologia algo que normalmente utilizado de forma incorreta


por diversos estudantes e pesquisadores. Muitas vezes escuta-se dizer que h
diferentes graus de homologia entre genes ou que o gene A mais homlogo ao gene
B do que um terceiro gene C. Este conceito est errado. A homologia est relacionada
ancestralidade de um carter, gene ou protena, e algo que existe ou no existe,
no h graus intermedirios. Genes ou protenas homlogas so aquelas que
apresentam um ancestral comum recente, assim como caracteres homlogos so
derivados de uma mesma estrutura ancestral. As protenas podem ter mais ou menos
similaridade entre si. Quando fazemos, por exemplo, um alinhamento de seqncias
de duas protenas de uma certa espcie contra uma terceira de outra espcie,
poderemos descobrir qual das duas mais similar terceira. Portanto, a homologia
est relacionada evoluo e no apresenta nveis intermedirios: ou ou no . E
existem duas classes distintas de genes/protenas homlogos, os ortlogos e os
parlogos.
E de suma importncia para o correto estudo da evoluo, a identificao de
protenas ortlogas e parlogas. A evoluo deve ser estudada apenas em protenas
ortlogas, ou seja, aquelas que descendem de uma mesma protena ancestral (e no
foram duplicadas dentro de linhagens -- parlogas --, j que as estas ltimas
normalmente acumulam mutaes extras devido ao fato de no haver presso seletiva
para manuteno de sua funo) (Jensen, 2001). J as protenas ortlogas, que
normalmente apresentam o mesmo papel funcional na clula, so importantes para a
execuo deste papel e, portanto, no devem acumular mutaes que alterem sua
capacidade funcional. O estudo de evoluo em nvel molecular baseia-se na
comparao entre protenas ortlogas, derivadas de uma mesma protena no
ancestral comum entre as espcies.
Ultimamente os termos ortologia e paralogia tm sido muito utilizados na
biologia genmica para expressar relaes funcionais entre genes. Genes ortlogos so
considerados aqueles homlogos que apresentam a mesma funo em organismos
diferentes. J os genes parlogos so considerados homlogos, presentes num mesmo
organismo, que no apresentam a mesma funo. Entretanto, de acordo com Walter

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
55

Fitch, que primeiramente utilizou esses termos, eles no apresentam esse significado
funcional e sim um significado evolutivo.
Segundo sua definio, a determinao de ortologia ou paralogia est
relacionada a eventos de evoluo gnica. Genes que tenham sido duplicados dentro
de uma mesma linhagem (linhas horizontais) so parlogos, no importando se
possuem a mesma funo ou no. J os genes que foram alterados dentro de
linhagens especficas, aps especiao (aqueles nos quais, se voltarmos sua origem,
chegamos a uma bifurcao ou Y invertido) so os chamados ortlogos.

Figura 8.1. Eventos de paralogia e ortologia. Adaptada de Jensen, 2001

Isso significa dizer que, na figura acima, A1 tem trs ortlogos na espcie C,
mas somente C1 ortlogo de B1. J B2 tem dois ortlogos na espcie C (C2 e C3),
onde C2 e C3 so parlogos. Portanto, toda relao de homologia entre genes pode ser
classificada como ortologia ou paralogia e deve-se perceber que um dado gene em
uma espcie pode ter mais do que um ortlogo em outra. Alm disso, podemos
detectar tambm genes parlogos em espcies diferentes. bom lembrar que existe
tambm uma terceira relao entre genes conhecida como xenologia, que consiste na
relao entre genes quando, na sua histria evolutiva, pelo um deles surgiu por
transferncia horizontal, ou seja, o gene em algum momento foi absorvido do meio
para dentro do genoma do organismo (atravs de vrus, por exemplo).
Portanto essa definio de nada tem a ver com a funo e sim com a histria
evolutiva dos genes e assim que essa nomenclatura foi definida primeiramente.
Entretanto, devemos notar que, para definirmos corretamente a relao entre os
genes, temos que conhecer detalhes sobre sua rota evolutiva. O problema que, na
grande maioria das vezes, no temos informaes suficientes para montar essa rota de
forma correta.
interessante notar que, para os pesquisadores da cincia genmica,
importante saber, principalmente, se dois genes homlogos possuem uma mesma
caracterstica funcional. Esse conhecimento permite entender melhor tanto as origens
estruturais das funes biolgicas como as bases moleculares para a divergncia
dessas funes, permitindo aos pesquisadores comparar relaes sobre a seqncia,
estrutura e funo de grupos de homlogos.
Assim, considerando que os termos ortologia e paralogia mostram-se
inadequados para uso, Gerlt e Babbit sugerem novos termos a serem utilizados na

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
56

pesquisa genmica. Assim, genes isofuncionais seriam aqueles homlogos que


apresentam a mesma funo; heterofuncionais seriam aqueles que apresentam
funes diferentes; isoespecficos seriam homlogos encontrados na mesma espcie e
heteroespecficos seriam homlogos presentes em espcies diferentes.
Dessa forma, genes homlogos com a mesma funo em espcies diferentes
seriam heteroespecficos e isofuncionais, homlogos com funes diferentes no mesmo
organismo seriam isoespecficos e heterofuncionais, homlogos com a mesma funo
num mesmo organismo seriam isoespecficos e isofuncionais e homlogos com funes
diferentes em diferentes organismos seriam heteroespecficos e heterofuncionais.

8.2. COG

Portanto, como vimos acima, algo que bastante penoso e questionvel em


estudos evolutivos a definio de critrios que possam identificar determinados
genes como ortlogos para que sejam realizados estudos evolutivos entre eles
(Sonnhammer & Koonin 2002). No existem metodologias consensuais para identificar
ortlogos e cada pesquisador considera-os da forma como acredita ser melhor.
Entretanto, o NCBI apresenta um servio conhecido como COG -- Clusters of
Ortologous Groups (http://www.ncbi.nlm.nih.gov/COG/) -- onde foi realizado um
estudo para a definio dos grupos de protenas ortlogas presentes em organismos de
genomas completos (Tatusov et al., 1997). Assim, o COG disponibiliza grupos de
protenas ortlogas classificadas de acordo com sua funo biolgica em dois servios,
um para organismos procariotos (Tatusov et al., 2001) e outro para eucariotos
(Tatusov et al., 2003).
A forma como o COG define protenas como ortlogas baseia-se no critrio
conhecido como BeTs. Os BeTs, ou best hits bidirecionais so resultantes de
alinhamentos locais entre protenas de um determinado organismo e o genoma de
outro. Para que uma protena 1, em um organismo 1, seja BeT de uma protena 2, no
organismo 2, o melhor resultado (best hit) de uma busca BLAST (Altschul et al., 1997)
entre a protena 1 contra o genoma do organismo 2 deve encontrar a protena 2 como
best hit da busca, assim como o contrrio. Ou seja, ao executarmos o BLAST da
protena 2, contra o genoma do organismo 1, o best hit deve ser a protena 1. Assim,
define-se grupos de protena BeT (Tatusov et al., 1997). Assim, para a definio de um
grupo de protenas ortlogas em um COG necessrio haver BeT entre pelo menos
trs diferentes organismos, sendo que as trs (ou mais) protenas devem ser BeT das
outras protenas encontradas nos outros organismos.
Assim o KOG, que representa o servio do COG para organismos eucariticos,
apresenta 4852 grupos de protenas ortlogas de diversos organismos. Assim, para
cada gene conhecido dos organismos existe um nmero de KOG caracterstico e, se
buscarmos em outro organismos os genes de mesmo identificador KOG, pegaremos os
genes que provavelmente realizam a mesma funo neste organismo. O COG,
portanto, facilita o estudo da evoluo gnica considerando que ele mesmo j separa
para o pesquisador os genes que provavelmente so ortlogos nos diferentes
organismos. O servio COG de procariotos apresenta 66 genomas completos que so
disponibilizados no site http://www.ncbi.nlm.nih.gov/COG, enquanto o servio do KOG
de eucariotos atualmente apresenta sete organismos em seu banco de dados.

8.3. Trabalhando com genomas completos

To importante quanto aprender a trabalhar para montar um genoma,


produzindo toda sua seqncia de bases, saber como podemos utilizar as

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
57

informaes de genomas j seqenciados e disponveis nos bancos de dados pblicos.


Na tabela 8.1 abaixo podemos ver quantos genomas de diferentes grupos de
organismos j foram seqenciados at o presente momento (01/2005).

Complete Genomes
Organism
published
Vrus 2024
Arqueobactrias 21
Bactrias 196
Outros Eucariotos 18

Tabela 8.1. Nmero de seqncias genmicas j publicadas para diferentes classes de


organismos. Obtido em http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html, a
27/01/2005.

As seqncias genmicas de diversos organismos podem ser obtidas no site do


NCBI http://www.ncbi.nlm.nih.gov, a partir do servio Entrez Genomes. Os genomas
presentes ali geralmente so fornecidos na forma de diversos arquivos de entrada,
cada um contendo uma informao especfica, que pode ser vista na tabela abaixo:

Arquivo Informao contida no arquivo


asn Arquivo no formato GenBank contendo informaes de genoma
formatadas em XML
faa Seqncias de aminocidos de todas as protenas inferidas no formato
FASTA
ffn Seqncias de Nucleotdeos de todos os genes inferidos no formato
FASTA, apresentando, no cabealho informao sobre sua posio no
genoma
fna Contm a informao sobre a seqncia de nucleotdeos do genoma
completo do organismo
gbk Contm todo o genoma do organismo anotado segundo padro
GenBank
ptt Apresenta informaes sobre localizao, fita, tamanho, identificador,
nome e cdigo de cada um dos genes, assim como sua categoria
funcional segundo o COG

Tabela 8.2. Arquivos disponibilizados pelo NCBI para seqncias de genomas


completos de procariotos (ftp://ftp.ncbi.nlm.nih.gov/genomes/Bacteria).

Assim, temos disponvel para nosso uso tanto a seqncia do genoma completo
do organismo quanto as seqncias de cada um dos seus genes e protenas. Com
essas informaes torna-se possvel que realizemos vrios tipos de estudos de nosso
prprio interesse e utilizemos as seqncias dos genomas da forma como nos
interessar.

8.4. Referncias Bibliogrficas


1. Altschul, S. F.; Madden, T. L.; Schaffer, A. A.; Zhang, J.; Zhang, Z.; Miller, W. and
Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein
database search programs. Nucleic Acids Res 25: 3389-3402.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
58

2. Jensen, RA. Orthologs and paralogs we need to get it right. Genome Biology 2001
2 (8): 1002.1-1002.3
3. Sonnhammer EL, Koonin EV (2002). Orthology, paralogy and proposed
classification for paralog subtypes. Trends Genet. Dec;18(12):619-20.
4. Tatusov RL, Fedorova ND, Jackson JD, Jacobs AR, Kiryutin B, Koonin EV, Krylov
DM, Mazumder R, Mekhedov SL, Nikolskaya AN, Rao BS, Smirnov S, Sverdlov AV,
Vasudevan S, Wolf YI, Yin JJ, Natale DA (2003). The COG database: an updated
version includes eukaryotes. BMC Bioinformatics. Sep 11;4(1):41.
5. Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS,
Kiryutin B, Galperin MY, Fedorova ND, Koonin EV (2001). The COG database: new
developments in phylogenetic classification of proteins from complete genomes.
Nucleic Acids Res. Jan 1;29(1):22-8.
6. Tatusov RL, Koonin EV, Lipman DJ (1997). A genomic perspective on protein
families. Science. Oct 24;278(5338):631-7.

8.5. Brainstorm

1. Qual o conceito de homologia e por que no se diz que dois genes so mais
homlogos entre si do que um terceiro?
2. O que so genes parlogos e ortlogos?
3. Como o COG classifica os genes em ortlogos? Discuta sobre a classificao do
COG e o conceito de ortologia da resposta anterior.
4. Por que voc acredita que os genomas virais so os mais seqenciados de todos?
5. Que tipo de informao disponibilizada sobre um organismo quando um genoma
est completo?

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
59

CAPTULO 9

Bioinformtica estrutural
Iniciando nossa Interao
Como j dissemos a bioinformtica consiste principal no estudo de seqncias de
biomolculas. At agora j conseguimos entender a relevncia da bioinformatica com
relao a seqncias de DNA (genoma) e RNA (transcriptoma). Portanto hora de nos
voltarmos para as seqncias de protenas. As protenas so muitas vezes
consideradas as principais molculas de uma clulas, j que so elas que realizam as
funes celulares, sendo que o DNA e RNA tm principalmente a caracterstica de
armazenamento e processamento de informaes. Sabe-se bem que as protenas
exercem sua funo de acordo com sua estrutura espacial, ou seja, a funo da
protena est intrinsecamente ligada a sua conformao tridimensional, sua
estrutura. E justamente a busca por esta conformao espacial uma das principais
reas da bioinformtica, que ser discutida no presente captulo.

9.1. Sobre a estrutura das protenas

A seqncia de aminocidos que forma uma determinada protena conhecida


como sua estrutura primria. J a forma como os aminocidos se interconectam
formando alas, hlices ou folhas consiste na estrutura secundria da protena.
Entretanto, o que realmente importa para a funo de uma protena sua forma
tridimensional no espao. atravs dessa conformao espacial que a protena encaixa
segundo o modelo chave-fechadura nos seus substratos para catalisar uma
determinada reao qumica que d origem aos produtos da ao enzimtica. No caso
da estrutura de uma protena, existem dois ngulos principais de toro entre tomos
dos aminocidos que so responsveis pela forma final na qual uma protena se
enovela no espao, esses so os ngulos phi e psi. Eles so formados pela ligao
carbono alfa dos aminocidos e seus grupos amino e cido carboxlico. Cada
aminocido da protena apresenta um valor de toro de tais ngulos e, soubssemos
esse valor para cada um deles, conheceramos perfeitamente a forma como a protena
se enovela para realizar sua funo. Ainda hoje impossvel prever teoricamente a
estrutura 3D de uma protena quando conhecemos apenas sua estrutura primria e
esse um dos grandes, seno o maior, desafio da bioinformtica nos dias de hoje.
Mesmo alguns cientistas clebres dizem que a bioinformtica consiste apenas em uma
forma de processar a informao de genomas, transcriptomas ou proteomas e que
nunca algo realmente de valor pode ser produzido apenas por anlises computacionais
de seqncias de biomolculas. Entretanto, acredita-se que a forma como as protenas
se enovelam no espao seja realmente uma das grandes questes da atualidade e,
possivelmente, isso traria daria fama e respeito em toda comunidade cientfica caso
um mtodo terico de predio de estrutura de protenas fosse desenvolvido atravs
de ferramentas computacionais. E, na minha opinio, se algo pode dar um Nobel a um
bioinformata, essa a grande pergunta a ser respondida e trabalhada.
Bem, mas a vida real mais dura e, hoje, para descobrirmos a estrutura
terciria de uma protena, que consiste exatamente na sua forma espacial, devemos

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
60

utilizar laboriosos testes experimentais para tal, sendo que os principais mtodos
utilizados hoje em dia so a difrao de raios-X e a ressonncia nuclear magntica.
Na difrao de raios-X, a primeira dificuldade consiste na produo de um
cristal da protena desejada. E essa dificuldade deve-se ao fato de que a cristalizao
consiste num processo um tanto quanto catico e imprevisvel, sendo que
determinadas protenas podem ser cristalizadas em poucos dias enquanto outras
demoram anos para que possam ser cristalizadas. Esse cristal deve ento ser
submetido a uma fonte de raios-X e o padro de difrao obtido pela incidncia do
raio-X no cristal da protena deve ser ento analisado computacionalmente para que
seja produzida a estrutura precisa da protena em questo. Com os dados obtidos no
experimento de difrao montado um mapa de densidades eletrnicas onde os
aminocidos so encaixados e o quebra cabea que representa a estrutura da
protena gerado. Dependendo da resoluo obtida pode-se chegar at a descobrir
exatamente qual a seqncia de aminocidos da protena. Quase 100% das vezes,
entretanto, a seqncia primria j conhecida de antemo.
Ao contrrio da tcnica de difrao de raios-X, a ressonncia nuclear magntica
ou NMR, da sigla em ingls, permite que a estrutura da protena seja conhecida sem
que haja necessidade da cristalizao da mesma (as protenas so utilizadas em
soluo) e, portanto, protenas que no so possveis de se cristalizar tm sua
estrutura 3D resolvida por este mtodo. No fundo esse um mtodo de minimizao
de energia que produz um resultado menos preciso e de menor resoluo do que os
resultados de difrao. Freqentemente os resultados de NMR produzem mais de um
resultado que apresente uma energia mnima e, assim, os arquivos de estruturas de
protenas resolvidas por NMR so, na verdade, um conjunto contendo todas as
estruturas da protena que apresentaram menor energia e vrias estruturas parecidas
so observadas nestes arquivos.

9.2. Protein Data Bank: o banco de dados de estruturas de protenas

O PDB (Protein Data Bank ou Banco de Dados de Protena) consiste no principal


banco de dados de estrutura de protenas existente no mundo. A figura 9.1 apresenta
o crescimento do nmero de estruturas depositadas desde a criao do PDB, em 1972.
Algo interessante a ser notado que, se nos lembrarmos da primeira aula que
tivemos, da primeira figura deste curso, a figura 1.1, perceberemos que, enquanto
cerca de 16 milhes de seqncias nucleotdicas so conhecidas, ainda hoje temos
conhecimento apenas de cerca de 30 mil estruturas de protenas. E isso nos mostra
como a descoberta das estruturas tercirias das protenas ainda hoje consiste num
mtodo trabalhoso e complicado. Analisando ainda a figura, vemos que com o passar
dos anos, cada vez mais estruturas so reveladas (barras vermelhas), mas ainda
assim h uma clara e notria diferena entre a informao de seqncia e de estrutura
das biomolculas.
O PDB tambm abriga dados estruturais de pequenos peptdeos, vrus, cidos
nuclicos e carboidratos e, das cerca de 30 mil estruturas presentes no banco cerca de
vinte e cinco mil foram resolvidas atravs de difrao de raios-X enquanto cerca de
cinco mil foram resolvidas por experimentos de ressonncia magntica. Algumas
protenas, entretanto, tiveram suas estruturas resolvidas pelas duas tcnicas.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
61

Figura 9.1. Crescimento do PDB. Crescimento do nmero de estruturas de protenas


contidas no PDB ao longo das trs ltimas dcadas. Obtido em
http://www.rcsb.org/pdb/holdings.html.

Outra informao importante sobre o PDB que ele consiste, assim como o
GenBank, em um banco de dados primrio de estruturas de protenas, onde as
mesmas no so classificadas ou analisadas de nenhuma forma especfica, estando
publicadas da mesma forma que o pesquisador que as produziu depositou no banco.

9.3. Modelagem molecular por homologia

A modelagem molecular por homologia representa a tentativa de se descobrir a


estrutura de uma determinada protena tendo como base a estrutura de uma outra
protena de seqncia relativamente similar. E a necessidade de se modelar uma
estrutura vem do fato de que a informao biolgica sobre uma determinada protena
cresce quando se conhece sua estrutura (figura 9.2). Com a informao da estrutura
de uma protena possvel tentar descobrir, por exemplo, outras protenas que
interajam com ela, frmacos que possam ativ-la ou inibi-la ou, simplesmente,
permite que entendamos melhor seu mecanismo molecular de ao.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
62

Figura 9.2. O desafio da modelagem por homologia.

A premissa bsica na qual se baseia a modelagem por homologia a de que: se


duas protenas apresentam seqncia primria similar bem provvel que sua
estrutura seja tambm parecida. E essa premissa tem se mostrado real, apesar de
que, algumas vezes, mesmo protenas que apresentam seqncias primrias
diferentes podem apresentar conformaes tridimensionais parecidas, no que novos
programas de threading tm sido desenvolvidos para tentar prever essas estruturas.
Voltando modelagem por homologia, entretanto, preciso definir bem quais so as
situaes nas quais a modelagem molecular vale a pena ou no em ser realizada.
Basicamente, ela vale ser realizada nos seguintes casos: (1) quando o problema
experimentalmente difcil, por exemplo, quando as protenas so muito difceis de
serem cristalizadas, como o caso de protenas glicosiladas ou de membrana; (2)
quando se deseja apenas saber aproximadamente a estrutura da protena, ou seja,
quando o problema no justifica o investimento e o tempo necessrios para produzir
experimentalmente a estrutura da protena; ou (3) quando este o nico recurso
disponvel, no caso, por exemplo de um laboratrio que no tenha os equipamentos de
deduo experimental ao alcance.
Os procedimentos realizados para a modelagem por homologia normalmente
consistem nos seguintes passos: (1) identificao das protenas j modeladas
apresentando seqncias primrias similares, normalmente realizada atravs de
alinhamentos locais da protena desejada contra as seqncias das protenas do PDB;
(2) seleo das protenas similares que sero utilizadas como modelo; (3) alinhamento
global da seqncia desejada com as que sero utilizadas; (4) construo do modelo
atravs de similaridade com os modelos das protenas escolhidas do PDB utilizando um
software de modelagem; (5) avaliao do modelo utilizando diferentes algoritmos de
teste. Vale notar que o processo de modelagem por homologia um processo
iterativo, ou seja, que pode apresentar vrias iteraes ou repeties. No final,
avalia-se o modelo obtido e, se o modelo no for satisfatrio, tenta-se escolher outras
protenas homlogas, alinhamentos um pouco diferentes ou tenta-se modificar alguns
parmetros do programa de modelagem at que o modelo passe bem nos testes que
avaliam os ngulos de toro dos aminocidos e as propriedades fsico-qumicas da
protena.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
63

9.4. Alguns programas de modelagem molecular

Existem vrios programas que permitem a realizao da modelagem molecular.


O mais fcil de utilizar o swiss-model http://swissmodel.expasy.org/SWISS-
MODEL.html. Ele consiste num servidor que realiza todos os procedimentos de forma
transparente para o usurio, que precisa apenas entrar com a seqncia primria da
protena de interesse. O prprio swiss-model procura as protenas similares de
estrutura conhecida e realiza a montagem do modelo por homologia segundo um
algoritmo prprio. Apesar disso, ele permite que o usurio tambm entre com os
identificadores PDB das protenas que o mesmo deseje utilizar como molde ou definir
um valor de cutoff de BLAST para ser utilizado na escolha automtica das protenas
pelo sistema. Apesar de simples, o swiss-model normalmente utilizado apenas para a
produo de modelos aproximados ou como recurso didtico.
J o algoritmo Modeller consiste num software mais robusto para a elucidao
de estruturas por homologia. O Modeller trabalha atravs de satisfao de restries
espaciais, apresentando um banco de dados interno que contm alinhamentos de 416
protenas de 105 diferentes famlias e, para a satisfao de tais restries, ele ainda
calcula as distncias entre os tomos dos aminocidos utilizando funes estatsticas
de densidade de probabilidade. Apresenta ainda um algoritmo de otimizao atravs
de dinmica molecular, onde as restries espaciais so otimizadas levando em
considerao termos energticos e de estereoqumica de aminocidos. O Modeller
contm tambm um banco de dados contendo protenas representativas de todo o
PDB.

9.5. Threading

Vimos, portanto, como normalmente realizada a montagem de modelos


tericos de estruturas proticas baseados em homologia de seqncia entre diferentes
protenas. Entretanto, o que fazer quando o pesquisador deseja modelar teoricamente
uma determinada protena mas no h outras seqncias similares o suficiente no
banco de dados do PDB para realizar essa modelagem? Foi pensando nesse tema e no
fato de que algumas protenas de seqncia bem divergente apresentam estruturas
similares, que os algoritmos de threading foram desenvolvidos. Tais programas, como
o gene threader, tentam modelar protenas que no apresentem seqncias
primrias similares com estrutura conhecida. Um programa de threading funciona de
acordo com a montagem dos chamados modelos descritivos, que so montados para
tentar criar um padro relacionando seqncia e estrutura, mas no de uma forma to
rgida quanto num alinhamento. Esses padres levam em considerao alguns fatores,
como: (1) a distncia entre os resduos de aminocidos; (2) a estrutura secundria de
vrios segmentos das protenas; (3) as caractersticas fsico-qumicas de cada resduo
e sua ordem na cadeia. Dessa forma, esses algoritmos so, por vezes, capazes de
gerar estruturas tercirias de protenas sem que existam outras protenas j
modeladas com seqncia similar.

9.6. CASP Critical Assessment of Structure Prediction

interessante notar que a cada dois anos realizada uma espcie de


competio para tentar descobrir quais so os melhores programas de modelagem
molecular existentes no mundo. Essa saudvel competio realizada como um
estudo cego onde uma protena recm modelada experimentalmente tem sua estrutura

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
64

escondida e vrios grupos de modelagem em todo o mundo obtm sua seqncia


primria e tentam model-la atravs de diversas tcnicas diferentes. Ganha o concurso
o grupo que se aproximar mais da estrutura real da protena, que s liberada depois
que o concurso termina. E a cada binio os pesquisadores mostram conseguir chegar
mais perto da estrutura real da protena desconhecida.

9.7. Estrutura de um arquivo no formato PDB

O arquivo abaixo consiste na parte inicial de um arquivo no formato PDB que


representa a estrutura de uma protena, no caso de uma variante da hemoglobina
humana. O arquivo PDB normalmente estruturado de acordo com as seguintes
partes:

Informaes do arquivo Identificadores da primeira coluna


Ttulo TITLE, COMPND, SOURCE, AUTHOR, REMARKS
Estrutura primria DBREF, SEQADV, SEQRES, MODRES
Heterotomos HET, HETNAM, HETSYN, FORMUL
Estrutura secundria HELIX, SHEET, TURN
Ligaes qumicas SSBOND, HYDBND, SLTBRG, CYSPEP
Dados cristalogrficos CRIST1, ORIGXn, SCALEn, MTRIXn
Coordenadas atmicas MODEL, ATOM, TER, HETATM
Tabela 9.1. Informaes presentes num arquivo PDB de estrutura de protena.
Exemplo de um arquivo PDB:

HEADER OXYGEN TRANSPORT 14-APR-95 1HDB 1HDB 2


COMPND MOL_ID: 1; 1HDB 3
COMPND 2 MOLECULE: HEMOGLOBIN (DEOXY) BETA-V67T; 1HDB 4
COMPND 3 CHAIN: A, B, C, D; 1HDB 5
COMPND 4 SYNONYM: HBV67T; 1HDB 6
COMPND 5 ENGINEERED: YES; 1HDB 7
COMPND 6 MUTATION: CHAIN B, D, V67T; 1HDB 8
COMPND 7 OTHER_DETAILS: ALPHA-BETA-ALPHA-BETA TETRAMER 1HDB 9
SOURCE MOL_ID: 1; 1HDB 10
SOURCE 2 SYNTHETIC: YES; 1HDB 11
SOURCE 3 ORGANISM_SCIENTIFIC: HOMO SAPIENS; 1HDB 12
SOURCE 4 ORGANISM_COMMON: HUMAN; 1HDB 13
SOURCE 5 TISSUE: BLOOD; 1HDB 14
SOURCE 6 CELL: ERYTHROCYTE; 1HDB 15
SOURCE 7 EXPRESSION_SYSTEM: ESCHERICHIA COLI; 1HDB 16
SOURCE 8 EXPRESSION_SYSTEM_STRAIN: AR120; 1HDB 17
SOURCE 9 EXPRESSION_SYSTEM_PLASMID: PJK05 (FRONTICELLI ET AL.,1991); 1HDB 18
SOURCE 10 EXPRESSION_SYSTEM_GENE: BETA-GLOBIN CDNA FUSED TO A 1HDB 19
SOURCE 11 TRUNCATED VIRAL GENE 1HDB 20
KEYWDS HUMAN HEMOGLOBIN, DEOXY-BETA-V67T 1HDB 21
EXPDTA X-RAY DIFFRACTION 1HDB 22
AUTHOR I.PECHIK,X.JI,C.FRONTICELLI,G.L.GILLILAND 1HDB 23
REVDAT 1 03-APR-96 1HDB 0 1HDB 24
JRNL AUTH I.PECHIK,X.JI,J.DILL,K.FIDELIS,J.MOULT, 1HDB 25
JRNL AUTH 2 W.S.BRINIGAR,M.KARAVITIS,C.FRONTICELLI, 1HDB 26
JRNL AUTH 3 G.L.GILLILAND 1HDB 27
JRNL TITL ANALYSIS OF THE CRYSTAL STRUCTURE, MOLECULAR 1HDB 28
JRNL TITL 2 MODELING AND INFRARED SPECTROSCOPY OF THE DISTAL 1HDB 29
JRNL TITL 3 BETA-HEME POCKET VALINE67(E11)-THREONINE MUTATION 1HDB 30
JRNL TITL 4 OF HEMOGLOBIN 1HDB 31
JRNL REF TO BE PUBLISHED 1HDB 32

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
65

JRNL REFN 0353 1HDB 33


REMARK 1 1HDB 34
REMARK 1 REFERENCE 1 1HDB 35
REMARK 1 AUTH C.FRONTICELLI,I.PECHIK,W.S.BRINIGAR,Z.GRYCZYNSKI, 1HDB 36
REMARK 1 AUTH 2 G.L.GILLILAND 1HDB 37
REMARK 1 TITL OXYGEN AFFINITY MODULATION BY THE N-TERMINI OF THE 1HDB 38
REMARK 1 TITL 2 BETA- CHAINS IN HUMAN AND BOVINE HEMOGLOBIN 1HDB 39
REMARK 1 REF J.BIOL.CHEM. V. 269 23965 1994 1HDB 40
REMARK 1 REFN ASTM JBCHA3 US ISSN 0021-9258 0071 1HDB 41
REMARK 2 1HDB 42
REMARK 2 RESOLUTION. 2.2 ANGSTROMS. 1HDB 43
REMARK 3 1HDB 44
REMARK 3 REFINEMENT. 1HDB 45
REMARK 3 PROGRAM GPRLSA 1HDB 46
REMARK 3 AUTHORS FUREY 1HDB 47
REMARK 3 R VALUE 0.149 1HDB 48
REMARK 3 MEAN B VALUE 21.43 ANGSTROMS**2 1HDB 49
REMARK 3 FINAL RMS COORD. SHIFT 0.024 ANGSTROMS 1HDB 50
REMARK 3 1HDB 51
REMARK 3 NUMBER OF REFLECTIONS 21669 1HDB 52
REMARK 3 RESOLUTION RANGE 6.0 - 2.2 ANGSTROMS 1HDB 53
REMARK 3 DATA CUTOFF 2. SIGMA(F) 1HDB 54
REMARK 3 1HDB 55
REMARK 3 DATA COLLECTION. 1HDB 56
REMARK 3 NUMBER OF UNIQUE REFLECTIONS 27163 1HDB 57
REMARK 3 COMPLETENESS OF DATA 84. % 1HDB 58
REMARK 3 REJECTION CRITERIA 0.0 SIGMA(I) 1HDB 59
REMARK 3 1HDB 60
REMARK 3 NUMBER OF ATOMS USED IN REFINEMENT. 1HDB 61
REMARK 3 NUMBER OF PROTEIN ATOMS 4384 1HDB 62
REMARK 3 NUMBER OF NUCLEIC ACID ATOMS 0 1HDB 63
REMARK 3 NUMBER OF HETEROGEN ATOMS 172 1HDB 64
REMARK 3 NUMBER OF SOLVENT ATOMS 444 1HDB 65
REMARK 3 1HDB 66
REMARK 3 RMS DEVIATIONS FROM IDEAL VALUES (THE VALUES OF 1HDB 67
REMARK 3 SIGMA, IN PARENTHESES, ARE THE INPUT ESTIMATED 1HDB 68
REMARK 3 STANDARD DEVIATIONS THAT DETERMINE THE RELATIVE 1HDB 69
REMARK 3 WEIGHTS OF THE CORRESPONDING RESTRAINTS). 1HDB 70
REMARK 3 DISTANCE RESTRAINTS (ANGSTROMS). 1HDB 71
REMARK 3 BOND DISTANCE 0.017(0.025) 1HDB 72
REMARK 3 ANGLE DISTANCE 0.038(0.036) 1HDB 73
REMARK 3 PLANAR 1-4 DISTANCE 0.039(0.040) 1HDB 74
REMARK 3 ANGLE RESTRAINTS (DEGREES). 1HDB 75
REMARK 3 PLANE RESTRAINT (ANGSTROMS) 0.023(0.030) 1HDB 76
REMARK 3 CHIRAL-CENTER RESTRAINT (ANGSTROMS**3) 0.181(0.200) 1HDB 77
REMARK 3 NON-BONDED CONTACT RESTRAINTS (ANGSTROMS). 1HDB 78
REMARK 3 SINGLE TORSION CONTACT 0.186(0.300) 1HDB 79
REMARK 3 MULTIPLE TORSION CONTACT 0.187(0.300) 1HDB 80
REMARK 3 POSSIBLE HYDROGEN BOND 0.174(0.300) 1HDB 81
REMARK 3 CONFORMATIONAL TORSION ANGLE RESTRAINT (DEGREES). 1HDB 82
REMARK 3 PLANAR 3.5(5.0) 1HDB 83
REMARK 3 STAGGERED 17.4(15.0) 1HDB 84
REMARK 3 ORTHONORMAL 31.7(15.0) 1HDB 85
REMARK 3 ISOTROPIC THERMAL FACTOR RESTRAINTS (ANGSTROMS**2). 1HDB 86
REMARK 3 MAIN-CHAIN BOND 0.676(1.000) 1HDB 87
REMARK 3 MAIN-CHAIN ANGLE 1.140(1.500) 1HDB 88
REMARK 3 SIDE-CHAIN BOND 1.279(1.500) 1HDB 89
REMARK 3 SIDE-CHAIN ANGLE 2.031(2.000) 1HDB 90
REMARK 3 1HDB 91
REMARK 3 MAIN-CHAIN BOND 0.676(1.000) 1HDB 92
REMARK 3 MAIN-CHAIN ANGLE 1.140(1.500) 1HDB 93
REMARK 3 SIDE-CHAIN BOND 1.279(1.500) 1HDB 94
REMARK 3 SIDE-CHAIN ANGLE 2.031(2.000) 1HDB 95

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
66

REMARK 18 1HDB 96
REMARK 18 DATE OF DATA COLLECTION : 07-04-94 1HDB 97
REMARK 18 MONOCHROMATIC (Y/N) : Y 1HDB 98
REMARK 18 INTENSITY-INTEGRATION SOFTWARE : XENGEN 1HDB 99
REMARK 18 DATA REDUNDANCY : 2.75 1HDB 100
DBREF 1HDB A 1 141 SWS P01922 HBA_HUMAN 1 141 1HDB 101
DBREF 1HDB B 1 146 SWS P02023 HBB_HUMAN 1 146 1HDB 102
DBREF 1HDB C 1 141 SWS P01922 HBA_HUMAN 1 141 1HDB 103
DBREF 1HDB D 1 146 SWS P02023 HBB_HUMAN 1 146 1HDB 104
SEQADV 1HDB THR B 67 SWS P02023 VAL 67 ENGINEERED 1HDB 105
SEQADV 1HDB THR D 67 SWS P02023 VAL 67 ENGINEERED 1HDB 106
SEQRES 1 A 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA 1HDB 107
SEQRES 2 A 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA 1HDB 108
SEQRES 3 A 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR 1HDB 109
SEQRES 4 A 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER 1HDB 110
SEQRES 5 A 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA 1HDB 111
SEQRES 6 A 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN 1HDB 112
SEQRES 7 A 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU 1HDB 113
SEQRES 8 A 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS 1HDB 114
SEQRES 9 A 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE 1HDB 115
SEQRES 10 A 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA 1HDB 116
SEQRES 11 A 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG 1HDB 117
SEQRES 1 B 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA 1HDB 118
SEQRES 2 B 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU 1HDB 119
SEQRES 3 B 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN 1HDB 120
SEQRES 4 B 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP 1HDB 121
SEQRES 5 B 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS 1HDB 122
SEQRES 6 B 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU 1HDB 123
SEQRES 7 B 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU 1HDB 124
SEQRES 8 B 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG 1HDB 125
SEQRES 9 B 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS 1HDB 126
SEQRES 10 B 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR 1HDB 127
SEQRES 11 B 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS 1HDB 128
SEQRES 12 B 146 LYS TYR HIS 1HDB 129
SEQRES 1 C 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA 1HDB 130
SEQRES 2 C 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA 1HDB 131
SEQRES 3 C 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR 1HDB 132
SEQRES 4 C 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER 1HDB 133
SEQRES 5 C 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA 1HDB 134
SEQRES 6 C 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN 1HDB 135
SEQRES 7 C 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU 1HDB 136
SEQRES 8 C 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS 1HDB 137
SEQRES 9 C 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE 1HDB 138
SEQRES 10 C 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA 1HDB 139
SEQRES 11 C 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG 1HDB 140
SEQRES 1 D 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA 1HDB 141
SEQRES 2 D 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU 1HDB 142
SEQRES 3 D 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN 1HDB 143
SEQRES 4 D 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP 1HDB 144
SEQRES 5 D 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS 1HDB 145
SEQRES 6 D 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU 1HDB 146
SEQRES 7 D 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU 1HDB 147
SEQRES 8 D 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG 1HDB 148
SEQRES 9 D 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS 1HDB 149
SEQRES 10 D 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR 1HDB 150
SEQRES 11 D 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS 1HDB 151
SEQRES 12 D 146 LYS TYR HIS 1HDB 152
HET HEM A 142 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 153
HET HEM B 147 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 154
HET HEM C 142 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 155
HET HEM D 147 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 156
HET SO4 1 5 SULFATE ION 1HDB 157
HET SO4 2 5 SULFATE ION 1HDB 158

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
67

FORMUL 5 HEM 4(C34 H32 N4 O4 FE1 2+) 1HDB 159


FORMUL 6 SO4 2(O4 S1 2-) 1HDB 160
FORMUL 7 HOH *434(H2 O1) 1HDB 161
HELIX 1 1 PRO A 4 SER A 35 1 1HDB 162
HELIX 2 2 PRO A 37 TYR A 42 5 1HDB 163
HELIX 3 3 ALA A 53 ALA A 71 1 1HDB 164
HELIX 4 4 MET A 76 ALA A 79 1 1HDB 165
HELIX 5 5 SER A 81 HIS A 89 1 1HDB 166
HELIX 6 6 PRO A 95 HIS A 112 5 1HDB 167
HELIX 7 7 PRO A 119 THR A 137 1 1HDB 168
HELIX 8 8 PRO B 5 LYS B 17 1 1HDB 169
HELIX 9 9 VAL B 20 VAL B 34 1 1HDB 170
HELIX 10 10 PRO B 36 PHE B 45 5 1HDB 171
HELIX 11 11 PRO B 51 GLY B 56 1 1HDB 172
HELIX 12 12 PRO B 58 HIS B 77 1 1HDB 173
HELIX 13 13 LEU B 81 ASP B 94 1 1HDB 174
HELIX 14 14 PRO B 100 GLU B 121 5 1HDB 175
HELIX 15 15 PRO B 124 ALA B 142 1 1HDB 176
HELIX 16 16 PRO C 4 SER C 35 1 1HDB 177
HELIX 17 17 PRO C 37 TYR C 42 5 1HDB 178
HELIX 18 18 ALA C 53 ALA C 71 1 1HDB 179
HELIX 19 19 MET C 76 ALA C 79 1 1HDB 180
HELIX 20 20 SER C 81 HIS C 89 1 1HDB 181
HELIX 21 21 PRO C 95 HIS C 112 5 1HDB 182
HELIX 22 22 PRO C 119 LEU C 136 1 1HDB 183
HELIX 23 23 PRO D 5 LYS D 17 1 1HDB 184
HELIX 24 24 VAL D 20 VAL D 34 1 1HDB 185
HELIX 25 25 PRO D 36 PHE D 45 5 1HDB 186
HELIX 26 26 PRO D 51 GLY D 56 1 1HDB 187
HELIX 27 27 PRO D 58 HIS D 77 1 1HDB 188
HELIX 28 28 LEU D 81 ASP D 94 1 1HDB 189
HELIX 29 29 PRO D 100 GLU D 121 5 1HDB 190
HELIX 30 30 PRO D 124 ALA D 142 1 1HDB 191
CRYST1 63.540 83.190 54.020 90.00 99.15 90.00 P 21 4 1HDB 192
ORIGX1 1.000000 0.000000 0.000000 0.00000 1HDB 193
ORIGX2 0.000000 1.000000 0.000000 0.00000 1HDB 194
ORIGX3 0.000000 0.000000 1.000000 0.00000 1HDB 195
SCALE1 0.015738 0.000000 0.002535 0.00000 1HDB 196
SCALE2 0.000000 0.012021 0.000000 0.00000 1HDB 197
SCALE3 0.000000 0.000000 0.018750 0.00000 1HDB 198
ATOM 1 N VAL A 1 19.345 29.258 43.165 1.00 33.80 1HDB 199
ATOM 2 CA VAL A 1 20.198 30.251 42.493 1.00 33.75 1HDB 200
ATOM 3 C VAL A 1 21.681 29.970 42.744 1.00 33.53 1HDB 201
ATOM 4 O VAL A 1 22.004 29.466 43.860 1.00 33.92 1HDB 202
ATOM 5 CB VAL A 1 19.720 31.621 43.026 1.00 33.70 1HDB 203
ATOM 6 CG1 VAL A 1 19.955 31.726 44.529 1.00 33.94 1HDB 204
ATOM 7 CG2 VAL A 1 20.335 32.766 42.236 1.00 34.02 1HDB 205
ATOM 8 N LEU A 2 22.515 30.278 41.750 1.00 32.79 1HDB 206
ATOM 9 CA LEU A 2 23.964 30.010 41.896 1.00 32.05 1HDB 207
ATOM 10 C LEU A 2 24.657 31.119 42.673 1.00 31.36 1HDB 208

Aqui so mostrados apenas os 10 primeiros tomos com suas coordenadas,


mas o arquivo inteiro apresenta mais de 5000 tomos com suas respectivas
coordenadas atmicas, que representam sua posio espacial num eixo tridimensional.

9.8. Referncias Bibliogrficas

1. PDB http://www.rcsb.org/pdb/ Mais famoso e completo banco de dados de


estrutura de protenas.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
68

2. Protein explorer http://molvis.sdsc.edu/protexpl/ Programa derivado do RasMol


para a visualizao de estruturas de protenas.
3. SWISS-PDBviewer http://www.expasy.org/spdbv/ Programa para a visualizao e
anlise da estrutura de protenas. Permite a realizao de mutaes, alteraes em
pontes de hidrognio, ngulos de toro e distncias entre tomos.
4. Libra http://www.ddbj.nig.ac.jp/E-mail/libra/LIBRA_I.html Programa on-line que
utiliza threading para encontrar uma seqncia de resduos de aminocidos que
melhor se adequem a uma estrutura terciria conhecida e vice-versa
5. Threader Programa de predio da estrutura terciria atravs do reconhecimento
do enovelamento a partir de bibliotecas alternativas
6. CASP http://predictioncenter.llnl.gov/Center.html Critical Assesment of Structural
Prediction. Competio que avalia os softwares de predio de estrutura de
protenas
7. SWISS-MODEL Modelagem de protenas por homologia
http://www.expasy.org/swissmod

9.9. Brainstorm

1. Por que o conhecimento sobre a estrutura das protenas importante?


2. Descreva brevemente como funcionam as duas principais tcnicas experimentais
para a descoberta da estrutura tercirias das protenas.
3. O que o PDB? Por que h menos estruturas proticas produzidas do que
seqncias gnicas?
4. A modelagem por homologia se baseia em qual premissa?
5. Quais so os casos onde se recomenda realizar a modelagem por homologia?
6. Quais so os passos necessrios para se realizar a modelagem por homologia?
7. Em que se baseia a modelagem por threading? Voc acha que a modelagem por
threading mostra que a premissa da modelagem por homologia esteja incorreta ou
incompleta? Por que?

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
69

CAPTULO 10
Concluses e pensamentos filosficos sobre a bioinformtica

10.1. Sobre bioinformtica, genoma e cincia

Abaixo voc vai ver o rascunho do artigo que publiquei na Revista Cincia Hoje,
de Outubro de 2004, em colaborao com meu orientador de doutorado, o Prof.
Fabrcio Rodrigues dos Santos. O artigo pretende apresentar a bioinformtica, coisa
que voc j deve estar ciente neste momento, e discutir a relevncia da pesquisa de
genoma num contexto cientfico. Alm disso, o artigo apresenta alguns paradigmas
interessantes da pesquisa em bioinformtica.

10.2. Introduo
A bioinformtica consiste principalmente na anlise computacional de
seqncias de DNA, RNA e protenas. Essa nova cincia surgiu na ltima dcada devido
a uma necessidade urgente pela utilizao de ferramentas sofisticadas para a anlise
de um crescente nmero de dados que veio a ser produzido em biologia molecular. O
GenBank foi um dos primeiros e ainda o mais popular banco de dados para o
depsito de seqncias de DNA. Criado dentro do NCBI -- o centro americano para
informao biotecnolgica --, l onde pesquisadores de todo o mundo depositam as
seqncias de A, C, G e Ts que obtm em seus laboratrios atravs do
sequenciamento do DNA dos mais diversos organismos. No final da dcada de 90
observou-se um crescimento exponencial do nmero de seqncias de biomolculas
depositadas no GenBank e a figura 1 j clssica no mbito da biologia
computacional. Esse assustador crescimento comeou a ocorrer aps a comercializao
dos seqenciadores de DNA a laser, em 1990. Os seqenciadores atuais so
totalmente automatizados e foram especialmente desenvolvidos para o
seqenciamento de molculas DNA em larga-escala. Freqentemente apresentam 96
capilares (tubos minsculos por onde passam fragmentos de DNA a serem analisados)
e conseguem gerar, em mdia, seqncias de DNA de 600 letras A, C, G e T por
capilar em cada anlise (o genoma humano constitudo por cerca de 3 bilhes de
letras de DNA). Seqenciadores ainda mais potentes, apresentando 384 capilares,
podem produzir mais de um milho de letras do DNA por dia! No Brasil, existem
dezenas de seqenciadores e grande parte deles foi distribuda entre laboratrios em
todo o pas quando da implantao do Projeto Genoma FAPESP para o seqenciamento
da bactria Xylella fastidiosa que ataca a laranja (http://aeg.lbi.ic.unicamp.br/xf/) e do
Projeto Genoma Brasileiro (http://www.brgene.lncc.br) durante o qual foram
seqenciadas as bactrias Chromobacterium violaceum e Mycoplasma synoviae.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
70

Figura 10.1. Crescimento do nmero de seqncias depositadas no Genbank desde


sua criao.

A grande maioria dessas seqncias publicadas em bancos de dados


internacionais vm de projetos genoma e transcriptoma (ou genoma funcional).
Genomas para c, genomas para l, desde o seqenciamento da primeira bactria -- o
Haemophilus influenzae em meados de 1995 -- hoje o NCBI j apresenta 1274
genomas de vrus seqenciados, 169 genomas de procariotos (bactrias e
arqueobactrias) e 20 genomas de organismos eucariticos. Estas seqncias de
biomolculas tm gerado uma grande quantidade de informao cuja complexidade
crescente com o estudo das interaes entre biomolculas e das variaes observadas
entre cada um dos indivduos de uma certa populao. Mas, afinal, que informaes
cientificamente relevantes o genoma trouxe para os cientistas, para as pessoas e para
a sociedade? Enfim, ser que projetos genoma so pesquisas meramente descritivas?
Qual seria ento a relevncia da genmica e o papel da bioinformtica para
consolidao desta cincia?

10.3. Genoma e o mtodo cientfico

primeira vista parece-nos que os estudos de genoma no so estudos


cientficos clssicos. Isso se deve ao fato de que o incio de um projeto genoma no se
baseia em uma hiptese clara e bem elaborada a priori sobre a biologia de um
determinado organismo. No mximo, a pergunta que se poderia fazer antes de se
seqenciar um genoma seria: ser que este organismo apresenta algum gene de
potencial biotecnolgico?; ou, o que h no genoma deste organismo que o faz
conseguir viver nessa condio, ou gerar uma patologia? Mas, no fundo, tais
perguntas dificilmente sero respondidas diretamente atravs do seqenciamento do
genoma. Estudos posteriores sero certamente necessrios para responder tais
perguntas de forma adequada. E mais ainda: possvel que alguma investigao no-
genmica mais minuciosa sobre esse ou aquele aspecto em particular possam dar
resposta mais direta a tais questes.
Mas no pense que isso tira o mrito dos estudos genmicos. Acreditamos que
a cincia vive hoje a era da anatomia molecular. Se voltarmos filosoficamente ao

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
71

sculo XIX, veremos que, naquela poca em que pouco se conhecia -- de forma
sistematicamente documentada -- do mundo biolgico em geral, os grandes cientistas
eram considerados os naturalistas; aqueles que exploravam o mundo em busca de
informao taxonmica, encontrando e classificando novos animais e plantas antes
desconhecidos. A descrio e a documentao de novas espcies era especialmente
necessria naquela poca, uma vez que pouco ou nada se conhecia sobre a grande
diversidade da vida em nosso planeta. Assim, poucos questionamentos eram feitos a
respeito de nossa biodiversidade. Desta forma, como nos estudos dos naturalistas,
houve a poca onde os anatomistas comearam a surgir, escrevendo seus tratados e
mostrando os primeiros detalhes bem documentados sobre a anatomia humana e de
diversas outras espcies. Descreviam da melhor maneira possvel poca, a
localizao dos rgos e tecidos humanos que se tinha conhecimento. Igualmente, se a
genmica no pode ser vista classicamente como uma cincia, a taxonomia e a
anatomia tambm no o podem. E isso vem do fato de que tais empreendimentos
cientficos so principalmente descritivos ao invs de investigativos. Mas, mais uma
vez, isso no lhes tira o mrito, muito pelo contrrio. Quanto conhecimento cientfico
j no foi construdo baseado nas informaes geradas pelos naturalistas e
anatomistas? Toda uma cincia biomdica foi montada com bases nos conhecimentos
descritivos gerados pelos anatomistas e a teoria mais importante e unificadora de toda
a biologia -- a Evoluo -- surgiu diretamente das observaes, documentaes e
estudos descritivos dos naturalistas Charles Darwin e Alfred Wallace.
Bem, e a genmica? O genoma pode ser descrito como a anatomia molecular
de uma espcie. E s agora, neste incio de sculo XXI, que estamos conseguindo
desvendar e descrever como as espcies so constitudas em seu nvel mais bsico; o
da informao molecular. A genmica a cincia descritiva dos nossos tempos. E
assim como as cincias biomdicas surgiram para trazer o mtodo cientfico ao estudo
da anatomia, a bioinformtica surge agora para trazer a cientificidade aos dados
genmicos, para casar a genmica ao mtodo cientfico e para gerar informaes
relevantes e indispensveis na incessante busca do conhecimento em que consiste o
empreendimento cientfico.

10.4. Um conceito de bioinformtica

Nesse momento importante definirmos bem do que se trata a bioinformtica e


em que contexto utilizamos este conceito no presente ensaio. Muita confuso feita
nesse ponto e muitos acreditam que a bioinformtica consista em qualquer anlise
computacional de problemas biolgicos, o que no se enquadra na origem desta
disciplina. A bioinformtica clssica surgiu com o seqenciamento de biomolculas e
destas permanece inseparvel. possvel propor uma definio razoavelmente clara do
que seja a bioinformtica dizendo que esta consista em todo o tipo de estudo ou de
ferramenta que se pode realizar e/ou produzir de forma a organizar ou obter
informao biolgica a partir de seqncias de biomolculas. Se o estudo usa
seqncias de biomolculas (DNA, RNA ou protenas), direta ou indiretamente,
tratamos como bioinformtica; do contrrio estaremos falando de computao aplicada
biologia, campo extremamente importante em vrias disciplinas e presente bem
antes de ser iniciado o seqenciamento de biomolculas. Uma vez definido o conceito
de bioinformtica utilizado aqui, podemos perceber que muitos estudos na rea podem
ser enquadrados em trs princpios paradigmticos, chamadas aqui, metaforicamente,
de tijolo, peneira e lupa.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
72

10.5. Princpios paradigmticos em bioinformtica

Estudos de bioinformtica tijolo consistem naqueles relacionados execuo


de projetos genoma e normalmente produzem ferramentas para a anlise de
seqncias e interpretao de genomas. Alguns processos j so clssicos dentre as
anlises de seqncias de DNA. Dentre eles podemos citar o base-calling, onde as
bases do DNA so lidas no seqenciador a partir dos cromatogramas (perfis de
emisso fluorescente que variam entre os nucleotdeos A, C, G e T durante a anlise).
Neste processo, so gerados os chamados cromatogramas e eles so transformados
em uma seqncia e um ndice de confiabilidade associado a cada letra do DNA. Em
um processo subseqente faz-se a anlise de seqncias que apresentam uma
determinada seqncia de letras em comum para a gerao dos textos genmicos.
Como j comentado, uma seqncia obtida no seqenciador possui aproximadamente
600 letras de DNA e um genoma consiste normalmente em uma seqncia de milhes
ou bilhes de letras. Portanto, na produo de um genoma preciso alinhar as
seqncias geradas uma aps a outra, verificando suas regies de sobreposio, para
que seja possvel montar o conjunto de toda a informao gentica da espcie em
estudo. Novas ferramentas para o alinhamento de seqncias, a padronizao de
processos de base-calling, a montagem de seqncias para se gerar um genoma e a
produo de ferramentas para identificao de genes, so alguns exemplos de projetos
de bioinformtica tijolo, sem as quais impossvel a anlise eficiente dos edifcios
genmicos. Vale notar ainda que as ferramentas de comparao de seqncias de
DNA tm permitido um grande avano no que diz respeito identificao das funes
de genes. Atravs da comparao entre a seqncia de um novo gene e um banco de
dados de genes de funo conhecida, pode-se inferir rapidamente a possvel funo de
um gene completamente desconhecido. Caso fosse necessria a realizao de testes
experimentais para descobrirmos a funo de cada um dos genes que vm sendo
descritos, possivelmente teramos ainda de pesquisar vrias dcadas antes de publicar
um genoma com esta informao. A bioinformtica, portanto, permite uma rpida
identificao da provvel funo de um gene seqenciado pela primeira vez.
Como j dissemos, muita informao descrita durante projetos genoma e
virtualmente impossvel a anlise de todos esses dados (ou mesmo uma pequena
quantidade deles) pelo grupo que gerou a seqncia completa de DNA de um
organismo. Assim, so necessrios trabalhos posteriores para a anlise de pedaos
especficos de diferentes genomas, com o objetivo de produzir mais informao sobre
um tema especfico como, por exemplo, as protenas para metabolismo de acares.
Esses trabalhos de minerao de dados genmicos so caractersticos dos projetos da
chamada bioinformtica peneira. Como a genmica essencialmente uma disciplina
descritiva, os trabalhos publicados apresentam muitas informaes sem qualquer
detalhamento, muitas vezes por prpria limitao do peridico cientfico. Na figura 2
vemos um exemplo da informao descritiva freqentemente presente em artigos de
genoma, a diviso em grupos de genes de acordo com sua funo biolgica. Que
informao relevante h de se tirar desse monte de dados?

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
73

Figura 10.2. Tpica figura apresentando informao de cunho descritivo que


encontrada em artigos cientficos sobre genomas. Aqui feita a descrio das
porcentagens de genes encontrados no genoma que apresentam diferentes funes
biolgicas.

interessante observar que h, ao redor do mundo, alguns centros


especializados em seqenciamento de genomas, publicando seqncias e mais
seqncias para que outros pesquisadores possam ter informaes disponveis para
fazer seus prprios estudos de minerao de dados. Usando peneiras especficas, os
cientistas em todo o mundo podem ser capazes de gerar conhecimento mais
aprofundado sobre aspectos particulares de seu prprio interesse. A construo de
bancos de dados de seqncias de genes com uma ou outra funo especfica ou de
estruturas tridimensionais de protenas, por exemplo, consistem tambm em trabalhos
montados no mbito da bioinformtica peneira e, todo ano, a primeira edio da
revista britnica Nucleic Acids Research traz um resumo dos bancos de dados mais
utilizados na rea da bioinformtica.
Por fim, nos trabalhos de bioinformtica lupa onde a cincia se faz presente
com maior clareza na rea genmica. Vale notar que todos os estudos de genoma e
bioinformtica descritos at agora so de suma importncia para o aumento do
conhecimento cientfico sobre os organismos e sobre suas constituies moleculares.
Mas em estudos de bioinformtica lupa o mtodo cientfico rigorosamente aplicado.
Aqui, atravs das mais variadas ferramentas computacionais possvel gerar
metodologias algortmicas para testar hipteses e produzir resultados que verifiquem
ou refutem suas afirmaes quando se observam dados genmicos. O processo
investigativo cientfico retomado: observam-se os dados, criam-se hipteses e
realizam-se experimentos in silico (dentro do computador) de forma a test-las
atravs de algoritmos bioinformticos. Posteriormente, corroborada ou refutada a
hiptese inicial a partir da anlise dos resultados obtidos. interessante notar que
estudos dessa categoria no so necessariamente publicados em revistas
especializadas em bioinformtica. Isso vem do fato de que os algoritmos montados
aqui so apenas um detalhe e caracterizam a metodologia de um trabalho que tenta
mostrar um resultado biolgico mais especfico. A bioinformtica no o centro do
trabalho, como ocorre nas abordagens de tijolo e peneira. Nos trabalhos classificados
como lupa, a hiptese e os resultados so mais importantes do que as ferramentas
bioinformticas utilizadas como meio investigativo. Assim, tais estudos so
freqentemente publicados nas revistas relacionadas com o organismo em que se est
estudando, com o fenmeno estudado, ou em revistas especficas de gentica, biologia
molecular ou bioqumica. Exemplos de estudos de bioinformtica lupa so aqueles
onde alguma caracterstica biolgica de um determinado organismo explicada a partir

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
74

da observao de seu conjunto de seqncias gnicas ou proticas e da comparao


com seqncias similares em organismos proximamente relacionados. Atravs desses
estudos de genmica comparativa possvel associar aspectos da biologia dos
organismos comparados presena ou a ausncia de determinado gene, grupo de
genes ou processos metablicos.

10.6. Concluso

Dessa forma, a bioinformtica, alm de outras cincias j bem estabelecidas,


como a biologia molecular, a gentica e a bioqumica vm trazer uma abordagem
baseada no mtodo cientfico aos dados gerados em projetos genoma. Vale notar, no
mbito nacional, a iniciativa pioneira da CAPES (Coordenao para o Aperfeioamento
de Profissionais de Ensino Superior) na induo da criao de cursos de doutorado na
rea de bioinformtica, que resultou em dois cursos implementados recentemente no
pas (UFMG e USP) que j apresentam dezenas de alunos em processo de formao
nessa rea estratgica. Conclui-se, a partir do presente ensaio, que os estudos de
genomas so importantes para produzir um grande nmero de informaes sobre a
anatomia molecular de uma espcie. Informaes estas que podero ser utilizadas
como pontos de partida para a produo de novos conhecimentos cientficos atravs de
diferentes paradigmas experimentais, utilizando abordagens in vitro, in vivo ou in
silico, esta ltima sendo representada por metodologias baseadas na criao de
algoritmos dessa nova e importante cincia do sculo XXI, a bioinformtica.

10.7. Brainstorm

1. Defina bioinformtica com suas prprias palavras.


2. Sua viso sobre bioinformtica e genoma foi modificada aps a realizao deste
curso? O que voc pensava antes e pensa agora?
3. As pesquisas genmicas so cientficas? O que voc entende por cincia?
4. Como voc definiria a expresso anatomia molecular?
5. Cite exemplos e discorra sobre a bioinformtica tijolo.
6. Cite exemplos e discorra sobre a bioinformtica peneira.
7. Cite exemplos e discorra sobre a bioinformtica lupa e explique por que os
trabalhos de lupa normalmente no so publicados em revistas de bioinformtica.
8. Voc consegue pensar em mais algum paradigma da bioinformtica atual?
9. Qual foi a aula mais interessante, em sua opinio? Por que?
10. Qual foi a aula que voc achou mais complicada? Por que?
11. D sua apreciao geral sobre o curso realizado.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
75

SOBRE O AUTOR

Francisco Prosdocimi de Castro Santos nasceu em Belo Horizonte, no ano de 1979, e


atualmente professor e pesquisador da Universidade Catlica de Braslia. Ministra
disciplinas de Biologia Molecular e Bioinformtica para alunos da graduao em
Cincias Biolgicas e Cincias Biomdicas. Na ps graduao em cincias genmicas,
Francisco ministra aulas de bioinformtica, anlises de genomas e filogenia molecular.

Francisco bilogo (2001), mestre em Gentica (2003) e doutor em Bioinformtica


(2006) pela UFMG, tendo trabalho como ps-doutor na Frana durante um ano e meio
(2008/2009) e tendo passagens acadmicas de mdia ou curta durao pela Inglaterra
(2005), Alemanha (2006) e Estados Unidos (2009).

Francisco tem ainda interesse por divulgao cientfica, histria e filosofia da cincia
(http://tragodefilosofia.blogspot.com). Isso sem falar em suas modestas habilidades
em msica e literatura (http://chicopros.blogspot.com) ou seus ideais democrticos,
ambientalistas, humanistas e liberais.

Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.


Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br

Das könnte Ihnen auch gefallen