Beruflich Dokumente
Kultur Dokumente
INTRODUO
BIOINFORMTICA
2007
NDICE
Pg.
CAPTULO 1 UMA VISO GLOBAL DA BIOINFORMTICA 3
1.1. O que a bioinformtica? 3
1.2. O surgimento da bioinformtica 3
1.3. O que preciso saber para ser um bom bioinformata? 5
1.4. Cursos de ps-graduao em bioinformtica no Brasil 6
1.5. Conversando sobre bioinformtica BIOCHAT 6
1.6. Referncias Bibliogrficas e textos complementares 12
1.7. bRAINsTORM 12
CAPTULO 2 GENOMA, BIOLOGIA MOLECULAR E COMPUTAO 13
2.1. Introduo 13
2.2. Sequenciamento do DNA 13
2.3. Genmica 14
2.4. As micas: integrando a bioinformao 15
2.5. O PERL e outras linguagens de programao 15
2.6. Referncias Bibliogrficas e textos complementares 17
2.7. bRAINsTORM 17
CAPTULO 3 ALINHAMENTO DE SEQNCIAS 18
3.1. Introduo 18
3.2. Alinhamento Global 18
3.3. Alinhamento Local 19
3.4. Alinhamentos timos e heursticos 20
3.5. Alinhamentos simples e mltiplos 21
3.6. Matrizes de comparao 22
3.7. Exemplos reais de alinhamentos 23
3.8. Referncias Bibliogrficas 28
3.9. bRAINsTORM 28
CAPTULO 4 MONTANDO UM GENOMA 29
4.1. Sobre genomas eucariticos e procariticos 29
4.2. Base-calling 30
4.3. Cross-match 31
4.4. Agrupamento de seqncias 32
4.5. Sobre a cobertura dos genomas 34
4.6. Referncias Bibliogrficas 35
4.7. bRAINsTORM 35
CAPTULO 5 ANLISE DE TRANSCRIPTOMAS 36
5.1. As ESTs 36
5.2. Histrico das ESTs 37
5.3. Agrupamento de ESTs 38
5.4. O genoma e o transcriptoma 39
5.5. SAGE Serial Analysis of Gene Expression 40
5.6. Microarrays 40
5.7. Referncias Bibliogrficas 41
5.8. bRAINsTORM 41
CAPTULO 6 BANCOS DE DADOS EM BIOLOGIA MOLECULAR 42
6.1. Histrico 42
6.2. Bancos primrios e secundrios 43
6.3. GenBank e GenPept 43
6.4. RefSeq O banco de dados de seqncias de referncia 44
6.5. SWISSPROT O maior banco de dados secundrio de seqncias de protenas 45
6.6. Gene Ontology Sistema de classificao de genes de acordo com suas caractersticas 46
6.7. Referncias Bibliogrficas 46
6.8. bRAINsTORM 47
CAPTULO 7 ANOTAO DE GENOMAS 49
7.1. Introduo 49
7.2. Anotao de Nucleotdeos 49
7.3. Anotao de Protenas 50
7.4. Anotao de Processos 50
7.5. A realizao da Anotao Genmica (Sociologia da Anotao) 51
7.6. Referncias Bibliogrficas 52
7.7. bRAINsTORM 53
CAPTULO 8 BIOINFORMTICA EVOLUTIVA E GENOMAS COMPLETOS 54
8.1. Homologia, Ortologia e Paralogia 54
8.2. COG 56
8.3. Trabalhando com genomas completos 56
8.4. Referncias Bibliogrficas 57
8.5. bRAINsTORM 58
CAPTULO 9 BIOINFORMTICA ESTRUTURAL 59
9.1. Sobre a estrutura das protenas 59
9.2. Protein Data Bank: o banco de dados de estruturas de protenas 60
9.3. Modelagem molecular por homologia 61
9.4. Alguns programas de modelagem molecular 63
9.5. Threading 63
9.6. CASP Critical Assessment of Structure Prediction 63
9.7. Estrutura de um arquivo no formato PDB 64
9.8. Referncias Bibliogrficas 67
9.9. bRAINsTORM 68
CAPTULO 10 CONCLUSES E PENSAMENTOS FILOSFICOS SOBRE A BIOINFORMTICA 69
10.1. Sobre bioinformtica, genoma e cincia 69
10.2. Introduo 69
10.3. Genoma e o mtodo cientfico 70
10.4. Um conceito de bioinformtica 71
10.5. Princpios paradigmticos em bioinformtica 72
10.6. Concluso 74
10.7. bRAINsTORM 74
PREFCIO
Hoje, passados quase 4 anos que ministrei este curso pela Internet, vejo este
documento arquivado entre meus arquivos do perodo jurssico e tenho pena de deixar
este conhecimento perdido nos meandros digitais do meu disco rgido. Assim, contatei
recentemente a editora da revista que lendo o contrato que fizemos poca e dizendo
serem meus os direitos autorais desta apostila ou esboo de livro, informou-me que
tenho o direito de publicar o presente documento na Internet para que se torne
acessvel a qualquer indivduo interessado em aprender a arte e a cincia da
bioinformtica. Recomendou-me ainda que eu atualizasse as informaes aqui
presentes e publicasse um livro de verdade, a ser vendido nas livrarias. Tenho sim
planos de faz-lo, mas sei que precisaria reestruturar boa parte do que est aqui
contido e, por falta de tempo para tanto, decido publicar esta verso gratuitamente
pela Internet. Assim, caso haja interesse de leitores, estudantes ou editores, estarei
disposto a atualizar estas informaes e produzir uma segunda edio mais completa e
atualizada sobre presentes assuntos.
Chico Prosdocimi
http://biotec.icb.ufmg.br/chicopros
http://chicopros.blogspot.com
Aos meus pais
3
CAPTULO 1
Uma viso global da bioinformtica
O que importa que, desde 1998, quando o ABI Prism foi lanado, outras
empresas desenvolveram tambm seus seqenciadores capilares de larga escala e o
custo dessas mquinas que antes chegava a trezentos mil dlares foi aos poucos
caindo e permitindo que mais e mais laboratrios pudessem ter seus prprios
seqenciadores. Cada vez mais dessas mquinas so vendidas ainda hoje e o nmero
de seqncias de DNA produzidas vem aumentando exponencialmente at o presente
momento.
Leitura complementar:
http://nextisnowbr.blogspot.com/2009/12/next-generation-sequencing-estado-da.html
programao para a internet, como o CGI ou o PHP, sendo que esse ltimo ainda
apresenta a vantagem de permitir fcil conexo com bancos de dados.
claro que a gama de conhecimento necessria para exercer bem uma
profisso qualquer tende a ser infinita, mas indispensvel ao menos que o
bioinformata seja proficiente em uma linguagem de programao e tenha bons
conhecimentos de biologia molecular, dos bancos de dados e das ferramentas a serem
utilizadas em cada caso. Aqui, iremos passar apenas de leve em programao e
biologia molecular na prxima aula e depois passaremos direto para a parte que
explica e mostra quais so as principais ferramentas utilizadas em anlises genmicas
e os principais bancos de dados que devem ser consultados em diferentes aplicaes.
Boa noite a todos! Est aberto nosso biochat sobre bioinformtica. Por
Dr. Francisco
favor, enviem suas dvidas para que possamos discutir e trocar idias
Prosdocimi
a respeito do assunto.
Grande Francisco... Afinal, qual o conceito mais aceito para
Vanderson:
Bioinformtica?
Ol Vanderson. Fico agradecido pela sua presena. Na verdade existem
vrios conceitos para bioinformtica e muita confuso feita sobre o
Dr. Francisco
tema. Na minha opinio a bioinformtica surgiu com o boom dos
Prosdocimi
sequenciadores automticos de DNA e ainda hoje est ligada a anlises
de seqncias de biomolculas.
Biologia computadorizada? Ouvi este termo e queria saber qual a
Adonis:
diferena disso para Bioinformtica?
Pois , meu prezado Adonis. A biologia computacional diz respeito a
qualquer aplicao da computao na rea biolgica, enquanto a
Dr. Francisco
bioinformtica est freqentemente associada a analise de seqncias
Prosdocimi
de genoma, transcriptoma e proteoma. Esses conceitos entretanto so
bastante maleveis e modificam-se todos os anos.
Boa noite Dr. Francisco. Sou estudante do curso Bacharelado em
Pedro: Bioqumica, na Universidade Federal de Viosa e tenho direcionado a
minha formao acadmica para me tornar...
Com relao aos cursos especficos para bioinformtica, eles existem
no Brasil apenas em nvel de ps-graduao. Sendo que um deles o
curso de especializao lato sensu do LNCC, no qual acontece a
Dr. Francisco
formao de especialistas em bioinformtica. Na USP e na UFMG
Prosdocimi
existem cursos de doutorado em bioinformtica, onde tais profissionais
so formados. Eu, a propsito, fui aluno do LNCC e fui tambm o
primeiro aluno a defender o doutorado em bioinformtica na UFMG.
Gostaria que vc respondesse o Pedro Marcus pq eu tenho a mesma
Francisco:
dvida...
Com relao a cursos de graduao, meu prezado xar, ainda no
Dr. Francisco
existem na rea e recomendo que vc faa um curso de biologia ou de
Prosdocimi
computao, se pretende seguir carreira em bioinfo.
Adonis: ento bioinfo est dentro da biologia computacional?
Concordo, Adonis. Na minha opinio a bioinformtica , sim, uma parte
da biologia computacional, sendo essa ltima uma rea bastante ampla
Dr. Francisco
e no necessariamente relacionada com biologia molecular. Embora,
Prosdocimi
repito, esses conceitos so maleveis e modificam-se com o
desenvolver das cincias.
Qual a sua experincia com a Bioinformtica? O senhor trabalha mais
Pedro: no meio acadmico ou se relaciona diretamente com o mercado de
trabalho?
Trabalho com bioinformtica desde 2000, tendo tido anteriormente
uma formao como bilogo molecular em bancada. Fiz minha
monografia de bacharelado, minha dissertao de mestrado (em
gentica) com anlises de transcriptomas do verme Schistosoma
Dr. Francisco mansoni e fui o primeiro aluno a defender o doutorado em
Prosdocimi bioinformtica na UFMG trabalhando com anlises de qualidade de
seqncias de DNA e genmica comparativa. Sempre trabalhei mais
voltado para o meio acadmico, mas j fiz tambm alguns trabalhos
em parceria com uma empresa de Belo Horizonte na rea de
bioinformtica. A empresa se chama vetta technologies.
1.7 Brainstorm
CAPTULO 2
Genoma, biologia molecular e computao
2.1. Introduo
Como j foi dito, o presente curso no tem como funo explicar genmica,
biologia molecular ou computao. Ainda assim, alguns conceitos se tornam
importantes para que possamos seguir o curso e neste captulo estaremos nos
dedicando a eles.
2.3. Genmica
Binneck, Eliseu. As micas: integrando a bioinformao. Biotec Ci & Des 32: 28-
37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf
Pequeno script PERL para obter uma fita de RNA a partir de uma fita de DNA.
#!/usr/bin/perl
2.7. Brainstorm
1. Voc viu a animao sobre como feito o sequenciamento do DNA, descreva agora
as etapas atravs das quais realizada esta tcnica.
2. Descreva como so feitos projetos genoma e transcriptoma.
3. Perguntas sobre o texto escrito por Binneck.
a. Apesar de apresentarem um nmero de genes bastante similar a outros
organismos, diz-se que os seres humanos apresentam uma diversidade de
protenas muito maior do que eles. A que se deve tal diversidade?
b. Qual a porcentagem do genoma humano que responsvel pela produo
de genes/protenas? E o resto, qual seria o motivo se que h algum para
haver tanto DNA no codificante no genoma?
c. Voc acredita que genes que alteram seus padres de expresso em
conjunto possam ter funes parecidas? Por qu?
d. Escolha duas das cincias micas e descreva-as
e. Discorra sobre o papel da bioinformtica na agregao de dados em biologia
4. Com relao a linguagens de programao, por que o PERL conhecido como a
linguagem dos bioinformatas? Os dados em bioinformtica podem ser tratados com
outras linguagens de programao? Cite outra linguagem possvel.
CAPTULO 3
Alinhamento de Seqncias
3.1. Introduo
Algo que deve ser levado em considerao sempre que se deseja fazer
alinhamentos de seqncias o fato de que o alinhamento desejado seja o melhor
possvel de ser obtido atravs de ferramentas computacionais ou se desejamos apenas
uma aproximao vlida desse melhor resultado. evidente que, em condies
normais, desejaramos sempre obter o melhor resultado de alinhamento possvel e,
portanto, utilizaramos os algoritmos que produzem resultados timos. Entretanto,
algumas vezes precisamos obter uma maior rapidez de busca e, portanto, aceitamos
que o resultado obtido no seja o melhor possvel e, assim, utilizamos algoritmos
que apresentam algum tipo de heurstica. E essa heurstica, no caso, normalmente
consiste em uma forma qualquer que o programador utiliza para acelerar a produo
dos resultados, em detrimento da obteno do melhor resultado possvel. Assim
obtm-se um resultado aproximado, mas rpido. A tabela 3.2 apresenta os principais
algoritmos utilizados em bioinformtica para o alinhamento de seqncias.
Como tambm j foi comentado na seo anterior, existem dois tipos principais
de alinhamentos de seqncias no que concerne ao nmero de seqncias que so
comparadas durante o alinhamento. Quando apenas duas seqncias so comparadas
entre si, diz-se que o alinhamento simples. E, nesses casos, normalmente prefere-se
utilizar alinhamentos timos para gerarem os resultados, exceto nos casos onde
milhares de alinhamentos simples devem ser realizados.
De forma contrria, considera-se um alinhamento mltiplo quando trs ou mais
seqncias devem ser alinhadas entre si. No fundo, o alinhamento mltiplo montado
a partir do alinhamento par a par de cada uma das seqncias com todas as outras,
seguido por um outro procedimento que ir gerar o resultado final do alinhamento de
todas contra todas. Assim, se 10 seqncias so comparadas entre si, sero
necessrias 10! (fatorial de 10) comparaes de seqncias, o que representam
Bases A C G T Y R N
A 2 -2 0 -2 -2 1 0
C -2 2 -2 0 1 -2 0
G 0 -2 2 -2 -2 1 0
T -2 0 -2 2 1 -2 0
Y -2 1 -2 1 1 -2 0
R 1 -2 1 -2 -2 1 0
N 0 0 0 0 0 0 0
Tabela 3.3: Matriz de substituio de nucleotdeos mat50. O valor dado para cada
troca pode ser visto nas intersees. O Y representa pirimidinas, o R representa
purinas e o N representa qualquer nucleotdeo.
Bases A C G T Y R N
A 2 -2 -1 -2 -2 0 0
C -2 2 -2 -1 0 -2 0
G -1 -2 2 -2 -2 0 0
T -2 -1 -2 2 0 -2 0
Y -2 0 -2 0 0 -2 0
R 0 -2 0 -2 -2 0 0
N 0 0 0 0 0 0 0
Tabela 3.4: Matriz de substituio de nucleotdeos mat70. O valor dado para cada
troca pode ser visto nas intersees. O Y representa pirimidinas, o R representa
purinas e o N representa qualquer nucleotdeo.
Seq1 1 0
Seq2 1 GCACGAGGACTGTGAACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGC 50
Seq1 1 0
Seq1 1 CTTTCAAGATGAACG 15
|||||||||||||||
Seq2 101 TAAAAAGCTGAGCAAATATACCTGGAGCGTTCAGACTTTCAAGATGAACG 150
Seq1 16 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 65
||||||||||||||||||||||||||||||||||||||||||||||||||
#---------------------------------------
#---------------------------------------
Query= Seq1
(464 letters)
Database: seq2
1 sequences; 736 total letters
Searching.done
Score E
Sequences producing significant alignments: (bits) Value
>Seq2
Length = 736
Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195
Database: seq2
Posted date: Nov 19, 2004 3:58 PM
Number of letters in database: 736
Number of sequences in database: 1
Lambda K H
1.37 0.711 1.31
Gapped
Lambda K H
1.37 0.711 1.31
Seq1 ------------------------------------------------------------
Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq1 ------------------------------------------------------------
Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA
Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
***************************************
Seq1 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
Seq4 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
Seq2 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
Seq3 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
************************************************************
Seq1 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
Seq4 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
Seq2 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
Seq3 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
************************************************************
Seq1 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
Seq4 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
Seq2 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
Seq3 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
************************************************************
Seq1 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
Seq4 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
Seq2 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
Seq3 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
************************************************************
Seq1 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------
Seq4 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGTCAGATTCTGT
Seq2 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------
Seq3 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------
**************************************************
Seq1 ------------------------------------------------------------
Seq4 TAATGTAAACAGTTTTTGTATATACAGCGTTCCTATCTTTGTTTTTCTTCAATACTTACC
Seq2 ------------------------------------------------------------
Seq3 ------------------------------------------------------------
Seq1 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
Seq4 TGTTAGGGTTTTTGGTCATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATA
Seq2 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
Seq3 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
*******************************
Seq1 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
Seq4 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
Seq2 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
Seq3 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACANAGGTCTCA
*************************************************** ********
Seq1 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA---------------
Seq4 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTTAAACGA
Seq2 AGCCTTTCCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTAAAACGA
Seq3 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTANAACGA
******** ************************************
Seq1 ------------------------------------------------------------
Seq4 CACATAGAAAGCATTCACGAAAG-------------------------------------
Seq2 CACATAGAAGCAATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGATTGTATAAT
Seq3 CACATAGAAAGCATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGAT-GTATAAT
Seq1 -------------------------------------------------------
Seq4 -------------------------------------------------------
Seq2 CCTCTCCAATTTTCATATGATTTCATGTTCAAAAATATACATTTATTATTCTTTC
Seq3 CCTCTCCAATTT-CATATGATTNCATGNTCANAA-TATACATTTATTATTCTTTC
3.9. Brainstorm
CAPTULO 4
Montando um genoma
Seqenciar o DNA agora uma das tarefas mais fceis de realizar, alm de servir
hambrgueres. Karry Mullis, prmio Nobel
4.2. Base-calling
Assim, com os dados brutos do seqenciador, o PHRED atribui a cada base uma
chance desta estar incorreta e, utilizando a frmula acima, associa um valor de
qualidade cada uma delas. Um valor de qualidade de PHRED (ou simplesmente valor
de PHRED, valor de qualidade ou qualidade da base) igual a 10, representa que aquela
base tem uma chance em dez de estar incorreta (10%). Como o valor est em escala
logartmica, um valor de PHRED 20, significa que aquela base tem uma chance em cem
de estar incorreta (1%) e um valor de 30 representa uma chance em mil (0,1%).
Freqentemente, aceita-se que um valor de PHRED igual a 20 suficiente para
aceitar uma base como real ou utiliza-se para aceitar uma regio de boa qualidade.
Entretanto, trabalhos recentes tm mostrado que podemos confiar em valores
relativamente mais baixos (Prosdocimi et al., 2004).
a)
> Seq1
ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTC
TAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCC
b)
> Qual1
10 12 15 15 15 18 20 22 25 18 13 8 5 5 8 10 7 12 18
25 30 30 22 13 12 12 12 11 9 9 10 15 20 20 22 6 6 5
4.3. Cross-match
Como foi dito no primeiro item desta aula, as seqncias de DNA geradas em
projetos genoma so primeiramente clonadas em molculas de DNA plasmidial. Dessa
forma, algumas vezes pedaos de seqncias dessa molcula bacteriana acabam
sendo produzidas em conjunto com as molculas do DNA que se deseja produzir.
Como as molculas dos vetores de clonagem no representam o genoma que se
> Seq1.screen
XXXXXXXXXXXXXXXXXXXXXXXXXXAATATCAGCACCATCTCGAATCTC
TAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCC
ele troca-as por letras X. Ento, depois do cross-match, teremos vrios conjuntos de
aproximadamente seiscentas palavras que sabemos ser de nosso livro genmico.
Agora preciso mont-lo. Para isso teremos que ir lendo todas os conjuntos de frases
e observando onde as frases se sobrepem para podermos junt-las e gerar, por
exemplo, um captulo do livro (que poderia ser uma analogia montagem de um BAC
ou de um cromossomo inteiro). Veja o exemplo:
A seguir temos uma Fbula Fabulosa do escritor Millr Fernandes que foi, assim como
um genoma, dividida em partes. Monte as partes e produza a seqncia completa da
fbula.
> Frase 1
sabedoria e calor que fazem os seres humanos - "mas eu no". MORAL DA HISTRIA:
NO MORRE A PASSARADA QUANDO MORRE UM PSSARO.
> Frase 2
ela no pde resistir e exclamou: "Mas, como, seu marido no morreu h cinco anos?"
"Sim, verdade" - respondeu ento a outra, cheia daquela compreenso, sabedoria e
> Frase 3
Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais novo,
ela no pde resistir e exclamou: "Mas, como, seu marido no morreu h cinco anos?"
> Frase 4
no morreu h cinco anos?" "Sim, verdade" - respondeu ento a outra, cheia daquela
compreenso, sabedoria e calor que fazem os seres humanos - "mas eu no".
O genoma montado da mesma maneira que voc realizou para montar essa
fbula do Millr chamada A viva. (Para ler mais fbulas do escritor, acesse
http://www.millor.com.br.) Vrias seqncias representando pedaos de genoma so
gerados e observa-se a posio onde elas se sobrepem. Realizando a sobreposio de
vrios trechos de seqncia possvel montar todo o genoma. Entretanto, como j foi
dito, um genoma apresenta milhes ou bilhes de seqncias de nucleotdeos e,
portanto, no possvel realizar esta montagem mo. Para isso existem algoritmos
de montagem de genoma, como o PHRAP, o CAP e o TIGR Assembler. O PHRAP o
algoritmo mais utilizado e funciona mais ou menos da forma mostrada na figura 5.2.
4.7. Brainstorm
CAPTULO 5
Anlise de Transcriptomas
5.1. As ESTs
No final da seo 5.2, vimos que editor da revista Nature, Sir Maddox, dizia que
existia o perigo de que a abordagem de cDNA seja apresentada como uma alternativa
mais barata para completar o sequenciamento [do genoma], o que ela no . Vale a
pena, portanto, neste momento, discutirmos as diferenas entre as anlises de
genomas e de transcriptomas. Vale notar primeiramente que nenhuma das duas
anlises exclui a outra e so estudos que, apesar de relacionados, provm respostas
para perguntas diferentes. A molcula de DNA esttica e est presente, com a
mesma constituio, em todas as clulas do organismo. A decifrao desse contedo
esttico de DNA a tarefa da genmica. J o contedo de RNA de uma determinada
clula depende do tempo e das condies qual ela est sendo submetida. O
transcriptoma mede a parte do genoma que est sendo utilizada num determinado
momento. E essa parte do genoma expresso diferente para cada tipo celular.
Existem genes que so expressos apenas na pele, outros no crebro e alguns nos
testculos. Alguns genes so ainda mais expressos quando a clula est submetida a
um choque trmico, restrio calrica ou falta de oxignio. Enquanto o genoma
apenas um, existem vrios transcriptomas possveis para uma mesma espcie.
Algumas perguntas, entretanto, s podem ser obtidas quando se observa o
genoma expresso, enquanto outras, apenas quando se observa o genoma esttico. Por
exemplo, por mais que se obtenha seqncias de ESTs de vrios diferentes tecidos de
um organismo, nunca possvel dizer que ele no apresenta um determinado gene
atravs de anlises transcriptmicas. De forma contrria, quando se obtm toda a
seqncia de genoma do organismo possvel saber todo o repertrio de genes que
ele possui para realizar alguma tarefa metablica. Ao mesmo tempo, atravs da
anlise genmica impossvel saber, por exemplo, qual o repertrio gnico que
5.6. Microarrays
5.8. Brainstorm
CAPTULO 6
Bancos de dados em Biologia Molecular
Neste captulo vamos tratar das bases de dados em biologia molecular. As bases de
dados em biologia molecular so importantes principalmente para proporcionar
comunidade cientfica uma forma de tornar os dados (produzidos em todo o mundo)
acessveis de forma fcil, rpida e inteligente
(http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html).
6.1. Histrico
NZ Genoma (WGS)
ZP Protena gerada por entrada NZ
* Computed from genome annotation pipeline
** Whole Genome Shotgun
1. Weller DL et al., 2002. Database resources of the National Center for Biotechnology
information: 2002 update. Nucleics Acid Reserch 30(1): 13-16.
2. Benson DA et al., 2002. GenBank. Nucleics Acid Reserch 30(1): 17-20.
3. Stoesser G et al., 2002. The EMBL nucleotide sequence database. Nucleics Acid
Reserch 30(1): 21-26.
4. Tateno Y et al., 2002. The DNA Data Bank of Japan (DDBJ) for genome scale
research in life sciences. Nucleics Acid Reserch 30(1): 27-30.
5. Westbrook J et al., 2002. The Protein Data Bank: unifying the archive. Nucleics Acid
Reserch 30(1): 245-248.
6. Bairoch A & Apweiler R, 2000. The SWISS-PROT protein sequence database and its
supplement TrEMBL in 2000. Nucleics Acid Reserch 28(1): 45-48.
7. Baxevanis AD and Ouellette BFF, 2001. Bioinformatics: A practical guide to the
analysis of genes and proteins. Ed. Wiley-interscience. 2nd ed.
8. Pruitt K., Tatusova T. and Ostell J. The NCBI handbook (Internet): Chapter 17, The
Reference Sequence (RefSeq) Project. Bethesda (MD): National Library of Medicine
(US), National Center for Biotechnology Information; 2002.
Sites:
NCBI Genbank - http://www.ncbi.nih.gov/Genbank/
EMBL Nucleotide Sequence Database - http://www.ebi.ac.uk/embl/
DDJP - DNA Data Bank of Japan - http://www.ddbj.nig.ac.jp/
NCBI Reference Sequences web site - http://www.ncbi.nlm.nih.gov/RefSeq/
The Gene Ontology http://www.geneontology.org
Swissprot http://us.expasy.org/sprot/
6.8. Brainstorm
aceso da hemoglobina AF117710 na aba Search s que, desta vez, clique no nome nr,
na opo Choose database. O nr representa o GenPept e o banco de dados contra
o qual o BLAST realiza a busca. Selecione, ao invs de nr, a opo swissprot e ento
clique no boto BLAST!. Espere a prxima pgina aparecer e clique em Format!
Quando a tela de resultados aparecer, compare esses resultados com aqueles obtidos
contra o banco nr. Responda: O que voc pode observar de diferente? Repare como a
nomenclatura utilizada pelo Swissprot importante e facilita a identificao da
protena. (Se tiver interesse, volte novamente e execute outras buscas BLAST contra
diferentes bancos de dados e observe os resultados.)
CAPTULO 7
Anotao de Genomas
7.1. Introduo
Stein (2001) prope alguns modelos bastante pertinentes para explicar como
realizada, passo a passo, a anotao genmica. Segundo ele, esses processos de
identificao gnica normalmente seguem algum dos seguintes modelos
organizacionais: a fbrica, o museu e a festa. Cada modelo adequado para alguma
das fases do trabalho de anotao (Stein 2001).
Durante a primeira fase, quando o principal trabalho encontrar genes e
mapear variaes e marcadores, o modelo da fbrica o mais adequado. Nesse
modelo uma rede de computadores trabalha seguindo uma srie de programas de
anotao. A seqncia de entrada jogada numa srie de programas para predio de
genes, procura de similaridades entre seqncias de nucleotdeos e protenas e
procura de domnios funcionais. Isso permite a gerao de grandes quantidades de
dados sobre o genoma.
Ento se inicia a fase de museu, quando a nfase passa da localizao dos
dados para a sua interpretao. Nesse modelo um conjunto de curadores deve
classificar e catalogar o genoma de forma sistemtica, encontrando e corrigindo erros
gerados pelos programas na primeira etapa. A maior parte dessa etapa feita mo e
deve basear-se tambm na literatura obtida sobre o organismo em questo para uma
melhor integrao com os dados genmicos.
1. Stein, L., 2001. Genome annotation: from sequence to biology. Nature Reviews 2:
493-505
2. Rouz P.; Pavy, N. and Rombauts, S. (1999). Genome annotation: which tools do
we have for it? Curr Opin Struct Biol 2: 90-95.
3. Lewis, S.; Ashburner, M. and Reese, M. G. (2000). Annotating eukaryote genomes.
Curr Opin Struct Biol 10: 349354.
4. PHRAP -- http://www.phrap.org
5. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html
6. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos
ACF; Nhani-Jnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; Camargo
LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and Folgueras-
Flatschart AV. Bioinformtica: manual do usurio. Biotec. Ci. Des. 29: 18-31, 2002.
7. Aubourg, S. and Rouz P. (2001). Genome annotation. Plant Physiol Biochem 39:
181-193.
8. Altschul, S. F.; Madden, T. L.; Schaffer, A. A.; Zhang, J.; Zhang, Z.; Miller, W. and
Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein
database search programs. Nucleic Acids Res 25: 3389-3402.
9. Bairoch, A. and Apweiler, R. (2000). The SWISS-PROT protein sequence database
and its supplement TrEMBL in 2000. Nucleic Acids Res 28: 45-48.
10. Jensen, R. A. (2001). Orthologs and paralogs we need to get it right. Genome
Biol 2: 1002.1-1002.3.
11. Apweiler, R. (2001). Functional information in SWISS-PROT: The basis for large-
scale characterisation of protein sequences. Brief Bioinform 2: 9-18.
12. Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M.;
Bucher, P.; Cerutti, L.; Corpet, F.; Croning, M. D.; Durbin, R.; Falquet, L.;
Fleischmann, W.; Gouzy, J.; Hermjakob, H.; Hulo, N.; Jonassen, I.; Kahn, D.; Kanapin,
A.; Karavidopoulou, Y.; Lopez, R.; Marx, B.; Mulder, N. J.; Oinn, T. M.; Pagni, M.;
Servant, F.; Sigrist, C. J. and Zdobnov, E. M. (2001). The InterPro Database; an
integrated documentation resource for protein families; domains and functional sites.
Nucleics Acid Res 29: 37-40.
13. Lang, F. (1997). TREMBL. Trends Genet 13: 417.
14. The Gene Ontology Consortium (2000). Gene Ontology: tool for the unification of
biology. Nat Genet. 25: 25-29.
15. The RIKEN Genome Exploration Research Group Phase II Team and the FANTOM
Consortium (2001). Functional annotation of a full-length mouse cDNA collection.
Nature 409: 685-690.
16. Adams, M. D.; Kelley, J. M.; Gocayne, J. D.; Dubnick, M.; Polymeropoulos, M. H.;
Xiao, H.; Merril, C. R.; Wu, A.; Olde, B.; Moreno, R. F.; Kerlavage, A. R.; McCombie,
7.7. Brainstorm
CAPTULO 8
Bioinformtica Evolutiva e Genomas Completos
Fitch, que primeiramente utilizou esses termos, eles no apresentam esse significado
funcional e sim um significado evolutivo.
Segundo sua definio, a determinao de ortologia ou paralogia est
relacionada a eventos de evoluo gnica. Genes que tenham sido duplicados dentro
de uma mesma linhagem (linhas horizontais) so parlogos, no importando se
possuem a mesma funo ou no. J os genes que foram alterados dentro de
linhagens especficas, aps especiao (aqueles nos quais, se voltarmos sua origem,
chegamos a uma bifurcao ou Y invertido) so os chamados ortlogos.
Isso significa dizer que, na figura acima, A1 tem trs ortlogos na espcie C,
mas somente C1 ortlogo de B1. J B2 tem dois ortlogos na espcie C (C2 e C3),
onde C2 e C3 so parlogos. Portanto, toda relao de homologia entre genes pode ser
classificada como ortologia ou paralogia e deve-se perceber que um dado gene em
uma espcie pode ter mais do que um ortlogo em outra. Alm disso, podemos
detectar tambm genes parlogos em espcies diferentes. bom lembrar que existe
tambm uma terceira relao entre genes conhecida como xenologia, que consiste na
relao entre genes quando, na sua histria evolutiva, pelo um deles surgiu por
transferncia horizontal, ou seja, o gene em algum momento foi absorvido do meio
para dentro do genoma do organismo (atravs de vrus, por exemplo).
Portanto essa definio de nada tem a ver com a funo e sim com a histria
evolutiva dos genes e assim que essa nomenclatura foi definida primeiramente.
Entretanto, devemos notar que, para definirmos corretamente a relao entre os
genes, temos que conhecer detalhes sobre sua rota evolutiva. O problema que, na
grande maioria das vezes, no temos informaes suficientes para montar essa rota de
forma correta.
interessante notar que, para os pesquisadores da cincia genmica,
importante saber, principalmente, se dois genes homlogos possuem uma mesma
caracterstica funcional. Esse conhecimento permite entender melhor tanto as origens
estruturais das funes biolgicas como as bases moleculares para a divergncia
dessas funes, permitindo aos pesquisadores comparar relaes sobre a seqncia,
estrutura e funo de grupos de homlogos.
Assim, considerando que os termos ortologia e paralogia mostram-se
inadequados para uso, Gerlt e Babbit sugerem novos termos a serem utilizados na
8.2. COG
Complete Genomes
Organism
published
Vrus 2024
Arqueobactrias 21
Bactrias 196
Outros Eucariotos 18
Assim, temos disponvel para nosso uso tanto a seqncia do genoma completo
do organismo quanto as seqncias de cada um dos seus genes e protenas. Com
essas informaes torna-se possvel que realizemos vrios tipos de estudos de nosso
prprio interesse e utilizemos as seqncias dos genomas da forma como nos
interessar.
2. Jensen, RA. Orthologs and paralogs we need to get it right. Genome Biology 2001
2 (8): 1002.1-1002.3
3. Sonnhammer EL, Koonin EV (2002). Orthology, paralogy and proposed
classification for paralog subtypes. Trends Genet. Dec;18(12):619-20.
4. Tatusov RL, Fedorova ND, Jackson JD, Jacobs AR, Kiryutin B, Koonin EV, Krylov
DM, Mazumder R, Mekhedov SL, Nikolskaya AN, Rao BS, Smirnov S, Sverdlov AV,
Vasudevan S, Wolf YI, Yin JJ, Natale DA (2003). The COG database: an updated
version includes eukaryotes. BMC Bioinformatics. Sep 11;4(1):41.
5. Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS,
Kiryutin B, Galperin MY, Fedorova ND, Koonin EV (2001). The COG database: new
developments in phylogenetic classification of proteins from complete genomes.
Nucleic Acids Res. Jan 1;29(1):22-8.
6. Tatusov RL, Koonin EV, Lipman DJ (1997). A genomic perspective on protein
families. Science. Oct 24;278(5338):631-7.
8.5. Brainstorm
1. Qual o conceito de homologia e por que no se diz que dois genes so mais
homlogos entre si do que um terceiro?
2. O que so genes parlogos e ortlogos?
3. Como o COG classifica os genes em ortlogos? Discuta sobre a classificao do
COG e o conceito de ortologia da resposta anterior.
4. Por que voc acredita que os genomas virais so os mais seqenciados de todos?
5. Que tipo de informao disponibilizada sobre um organismo quando um genoma
est completo?
CAPTULO 9
Bioinformtica estrutural
Iniciando nossa Interao
Como j dissemos a bioinformtica consiste principal no estudo de seqncias de
biomolculas. At agora j conseguimos entender a relevncia da bioinformatica com
relao a seqncias de DNA (genoma) e RNA (transcriptoma). Portanto hora de nos
voltarmos para as seqncias de protenas. As protenas so muitas vezes
consideradas as principais molculas de uma clulas, j que so elas que realizam as
funes celulares, sendo que o DNA e RNA tm principalmente a caracterstica de
armazenamento e processamento de informaes. Sabe-se bem que as protenas
exercem sua funo de acordo com sua estrutura espacial, ou seja, a funo da
protena est intrinsecamente ligada a sua conformao tridimensional, sua
estrutura. E justamente a busca por esta conformao espacial uma das principais
reas da bioinformtica, que ser discutida no presente captulo.
utilizar laboriosos testes experimentais para tal, sendo que os principais mtodos
utilizados hoje em dia so a difrao de raios-X e a ressonncia nuclear magntica.
Na difrao de raios-X, a primeira dificuldade consiste na produo de um
cristal da protena desejada. E essa dificuldade deve-se ao fato de que a cristalizao
consiste num processo um tanto quanto catico e imprevisvel, sendo que
determinadas protenas podem ser cristalizadas em poucos dias enquanto outras
demoram anos para que possam ser cristalizadas. Esse cristal deve ento ser
submetido a uma fonte de raios-X e o padro de difrao obtido pela incidncia do
raio-X no cristal da protena deve ser ento analisado computacionalmente para que
seja produzida a estrutura precisa da protena em questo. Com os dados obtidos no
experimento de difrao montado um mapa de densidades eletrnicas onde os
aminocidos so encaixados e o quebra cabea que representa a estrutura da
protena gerado. Dependendo da resoluo obtida pode-se chegar at a descobrir
exatamente qual a seqncia de aminocidos da protena. Quase 100% das vezes,
entretanto, a seqncia primria j conhecida de antemo.
Ao contrrio da tcnica de difrao de raios-X, a ressonncia nuclear magntica
ou NMR, da sigla em ingls, permite que a estrutura da protena seja conhecida sem
que haja necessidade da cristalizao da mesma (as protenas so utilizadas em
soluo) e, portanto, protenas que no so possveis de se cristalizar tm sua
estrutura 3D resolvida por este mtodo. No fundo esse um mtodo de minimizao
de energia que produz um resultado menos preciso e de menor resoluo do que os
resultados de difrao. Freqentemente os resultados de NMR produzem mais de um
resultado que apresente uma energia mnima e, assim, os arquivos de estruturas de
protenas resolvidas por NMR so, na verdade, um conjunto contendo todas as
estruturas da protena que apresentaram menor energia e vrias estruturas parecidas
so observadas nestes arquivos.
Outra informao importante sobre o PDB que ele consiste, assim como o
GenBank, em um banco de dados primrio de estruturas de protenas, onde as
mesmas no so classificadas ou analisadas de nenhuma forma especfica, estando
publicadas da mesma forma que o pesquisador que as produziu depositou no banco.
9.5. Threading
REMARK 18 1HDB 96
REMARK 18 DATE OF DATA COLLECTION : 07-04-94 1HDB 97
REMARK 18 MONOCHROMATIC (Y/N) : Y 1HDB 98
REMARK 18 INTENSITY-INTEGRATION SOFTWARE : XENGEN 1HDB 99
REMARK 18 DATA REDUNDANCY : 2.75 1HDB 100
DBREF 1HDB A 1 141 SWS P01922 HBA_HUMAN 1 141 1HDB 101
DBREF 1HDB B 1 146 SWS P02023 HBB_HUMAN 1 146 1HDB 102
DBREF 1HDB C 1 141 SWS P01922 HBA_HUMAN 1 141 1HDB 103
DBREF 1HDB D 1 146 SWS P02023 HBB_HUMAN 1 146 1HDB 104
SEQADV 1HDB THR B 67 SWS P02023 VAL 67 ENGINEERED 1HDB 105
SEQADV 1HDB THR D 67 SWS P02023 VAL 67 ENGINEERED 1HDB 106
SEQRES 1 A 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA 1HDB 107
SEQRES 2 A 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA 1HDB 108
SEQRES 3 A 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR 1HDB 109
SEQRES 4 A 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER 1HDB 110
SEQRES 5 A 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA 1HDB 111
SEQRES 6 A 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN 1HDB 112
SEQRES 7 A 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU 1HDB 113
SEQRES 8 A 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS 1HDB 114
SEQRES 9 A 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE 1HDB 115
SEQRES 10 A 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA 1HDB 116
SEQRES 11 A 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG 1HDB 117
SEQRES 1 B 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA 1HDB 118
SEQRES 2 B 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU 1HDB 119
SEQRES 3 B 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN 1HDB 120
SEQRES 4 B 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP 1HDB 121
SEQRES 5 B 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS 1HDB 122
SEQRES 6 B 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU 1HDB 123
SEQRES 7 B 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU 1HDB 124
SEQRES 8 B 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG 1HDB 125
SEQRES 9 B 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS 1HDB 126
SEQRES 10 B 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR 1HDB 127
SEQRES 11 B 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS 1HDB 128
SEQRES 12 B 146 LYS TYR HIS 1HDB 129
SEQRES 1 C 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA 1HDB 130
SEQRES 2 C 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA 1HDB 131
SEQRES 3 C 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR 1HDB 132
SEQRES 4 C 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER 1HDB 133
SEQRES 5 C 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA 1HDB 134
SEQRES 6 C 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN 1HDB 135
SEQRES 7 C 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU 1HDB 136
SEQRES 8 C 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS 1HDB 137
SEQRES 9 C 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE 1HDB 138
SEQRES 10 C 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA 1HDB 139
SEQRES 11 C 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG 1HDB 140
SEQRES 1 D 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA 1HDB 141
SEQRES 2 D 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU 1HDB 142
SEQRES 3 D 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN 1HDB 143
SEQRES 4 D 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP 1HDB 144
SEQRES 5 D 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS 1HDB 145
SEQRES 6 D 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU 1HDB 146
SEQRES 7 D 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU 1HDB 147
SEQRES 8 D 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG 1HDB 148
SEQRES 9 D 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS 1HDB 149
SEQRES 10 D 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR 1HDB 150
SEQRES 11 D 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS 1HDB 151
SEQRES 12 D 146 LYS TYR HIS 1HDB 152
HET HEM A 142 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 153
HET HEM B 147 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 154
HET HEM C 142 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 155
HET HEM D 147 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 156
HET SO4 1 5 SULFATE ION 1HDB 157
HET SO4 2 5 SULFATE ION 1HDB 158
9.9. Brainstorm
CAPTULO 10
Concluses e pensamentos filosficos sobre a bioinformtica
Abaixo voc vai ver o rascunho do artigo que publiquei na Revista Cincia Hoje,
de Outubro de 2004, em colaborao com meu orientador de doutorado, o Prof.
Fabrcio Rodrigues dos Santos. O artigo pretende apresentar a bioinformtica, coisa
que voc j deve estar ciente neste momento, e discutir a relevncia da pesquisa de
genoma num contexto cientfico. Alm disso, o artigo apresenta alguns paradigmas
interessantes da pesquisa em bioinformtica.
10.2. Introduo
A bioinformtica consiste principalmente na anlise computacional de
seqncias de DNA, RNA e protenas. Essa nova cincia surgiu na ltima dcada devido
a uma necessidade urgente pela utilizao de ferramentas sofisticadas para a anlise
de um crescente nmero de dados que veio a ser produzido em biologia molecular. O
GenBank foi um dos primeiros e ainda o mais popular banco de dados para o
depsito de seqncias de DNA. Criado dentro do NCBI -- o centro americano para
informao biotecnolgica --, l onde pesquisadores de todo o mundo depositam as
seqncias de A, C, G e Ts que obtm em seus laboratrios atravs do
sequenciamento do DNA dos mais diversos organismos. No final da dcada de 90
observou-se um crescimento exponencial do nmero de seqncias de biomolculas
depositadas no GenBank e a figura 1 j clssica no mbito da biologia
computacional. Esse assustador crescimento comeou a ocorrer aps a comercializao
dos seqenciadores de DNA a laser, em 1990. Os seqenciadores atuais so
totalmente automatizados e foram especialmente desenvolvidos para o
seqenciamento de molculas DNA em larga-escala. Freqentemente apresentam 96
capilares (tubos minsculos por onde passam fragmentos de DNA a serem analisados)
e conseguem gerar, em mdia, seqncias de DNA de 600 letras A, C, G e T por
capilar em cada anlise (o genoma humano constitudo por cerca de 3 bilhes de
letras de DNA). Seqenciadores ainda mais potentes, apresentando 384 capilares,
podem produzir mais de um milho de letras do DNA por dia! No Brasil, existem
dezenas de seqenciadores e grande parte deles foi distribuda entre laboratrios em
todo o pas quando da implantao do Projeto Genoma FAPESP para o seqenciamento
da bactria Xylella fastidiosa que ataca a laranja (http://aeg.lbi.ic.unicamp.br/xf/) e do
Projeto Genoma Brasileiro (http://www.brgene.lncc.br) durante o qual foram
seqenciadas as bactrias Chromobacterium violaceum e Mycoplasma synoviae.
sculo XIX, veremos que, naquela poca em que pouco se conhecia -- de forma
sistematicamente documentada -- do mundo biolgico em geral, os grandes cientistas
eram considerados os naturalistas; aqueles que exploravam o mundo em busca de
informao taxonmica, encontrando e classificando novos animais e plantas antes
desconhecidos. A descrio e a documentao de novas espcies era especialmente
necessria naquela poca, uma vez que pouco ou nada se conhecia sobre a grande
diversidade da vida em nosso planeta. Assim, poucos questionamentos eram feitos a
respeito de nossa biodiversidade. Desta forma, como nos estudos dos naturalistas,
houve a poca onde os anatomistas comearam a surgir, escrevendo seus tratados e
mostrando os primeiros detalhes bem documentados sobre a anatomia humana e de
diversas outras espcies. Descreviam da melhor maneira possvel poca, a
localizao dos rgos e tecidos humanos que se tinha conhecimento. Igualmente, se a
genmica no pode ser vista classicamente como uma cincia, a taxonomia e a
anatomia tambm no o podem. E isso vem do fato de que tais empreendimentos
cientficos so principalmente descritivos ao invs de investigativos. Mas, mais uma
vez, isso no lhes tira o mrito, muito pelo contrrio. Quanto conhecimento cientfico
j no foi construdo baseado nas informaes geradas pelos naturalistas e
anatomistas? Toda uma cincia biomdica foi montada com bases nos conhecimentos
descritivos gerados pelos anatomistas e a teoria mais importante e unificadora de toda
a biologia -- a Evoluo -- surgiu diretamente das observaes, documentaes e
estudos descritivos dos naturalistas Charles Darwin e Alfred Wallace.
Bem, e a genmica? O genoma pode ser descrito como a anatomia molecular
de uma espcie. E s agora, neste incio de sculo XXI, que estamos conseguindo
desvendar e descrever como as espcies so constitudas em seu nvel mais bsico; o
da informao molecular. A genmica a cincia descritiva dos nossos tempos. E
assim como as cincias biomdicas surgiram para trazer o mtodo cientfico ao estudo
da anatomia, a bioinformtica surge agora para trazer a cientificidade aos dados
genmicos, para casar a genmica ao mtodo cientfico e para gerar informaes
relevantes e indispensveis na incessante busca do conhecimento em que consiste o
empreendimento cientfico.
10.6. Concluso
10.7. Brainstorm
SOBRE O AUTOR
Francisco tem ainda interesse por divulgao cientfica, histria e filosofia da cincia
(http://tragodefilosofia.blogspot.com). Isso sem falar em suas modestas habilidades
em msica e literatura (http://chicopros.blogspot.com) ou seus ideais democrticos,
ambientalistas, humanistas e liberais.