2012 RubemCruzHuacarpuma

Universidade de Braslia
Instituto de Cincias Exatas

Departamento de Cincia da Computao
Modelo de Dados para um Pipeline de Sequenciamento

de Alto Desempenho Transcritmico
Ruben Cruz Huacarpuma
Dissertao apresentada como requisito parcial

para concluso do Mestrado em Informtica
Orientadora
Prof.
Dr.
Maristela Terto de Holanda
Braslia
2012
Universidade de Braslia UnB

Mestrado em Informtica
Coordenador: Prof. Dr. Mauricio Ayala Rincn
Banca examinadora composta por:
Prof.
Dr.
Maristela Terto de Holanda (Orientadora) CIC/UnB
Prof. Dr. Srgio Lifschitz Departamento de Informtica/PUC-Rio
Prof.
Dr.
Clia Ghedini Ralha CIC/UnB
CIP Catalogao Internacional na Publicao

Huacarpuma, Ruben Cruz.
Modelo de Dados para um Pipeline de Sequenciamento de Alto Desempenho Transcritmico / Ruben Cruz Huacarpuma. Braslia : UnB,
2012.
99 p. : il. ; 29,5 cm.
Dissertao (Mestrado) Universidade de Braslia, Braslia, 2012.
1. Modelo Conceitual, 2. Modelo de Dados, 3. Bioinformatica,

4. Banco de Dados, 5. Dados Biolgicos
CDU 10/0055684
Endereo:
Campus Universitrio Darcy Ribeiro Asa Norte
CEP 70910-900
BrasliaDF Brasil
Modelo de Dados para um Pipeline de Sequenciamento

de Alto Desempenho Transcritmico
Ruben Cruz Huacarpuma
Dissertao apresentada como requisito parcial

para concluso do Mestrado em Informtica
Prof.
Dr.
Maristela Terto de Holanda (Orientadora)

CIC/UnB
Prof. Dr. Srgio Lifschitz

Departamento de Informtica/PUC-Rio
Prof.
Dr.
Clia Ghedini Ralha

CIC/UnB
Prof. Dr. Mauricio Ayala Rincn

Coordenador do Mestrado em Informtica
Braslia, 01 de maro de 2012
Dedicatria
Dedico este trabalho aos meus pais que, ainda longe, sempre acreditaram em mim.
Exemplos de fora e dedicao, bases da minha formao como pessoa, que cuidaram com
ateno ensinando-me os valores da vida.
Aos meus irmos e toda minha famlia que nunca se esqueceram de mim.
Aos mestres que souberam ensinar e guiar na direo correta, a todas as pessoas que
acreditaram na minha capacidade. Em especial a minha orientadora, que ainda de culturas
diferentes, soube me entender e acreditar em minhas habilidades, MUCHAS GRACIAS
Dra. Maristela Holanda.
Eu acredito demais na sorte. E tenho constatado que, quanto mais duro eu trabalho,
mais sorte eu tenho. Thomas Jeerson
iv
Agradecimentos
Antes de tudo preciso dizer que meus agradecimentos no so formais.
reconheceria neles se assim fora.
Eu no me
Quero agradecer a todas as pessoas que se zeram
presentes, que se preocuparam, que foram solidrias, que torceram por mim. Mas bem
sei que agradecer sempre difcil. Posso cometer mais injustias esquecendo pessoas que
me ajudaram do que fazer justia a todas que merecem.
De qualquer forma, todos os que realizam um trabalho de pesquisa sabem que no o
fazem sozinhos, embora seja solitrio o ato da leitura (em nossos tempos) e o do escrever.
O resultado de nossos estudos foi possvel apenas pela cooperao e pelo esforo de outros
antes de ns. Como grandes pesquisadores da importncia de Albert Einstein disse "No
descobri a teoria da relatividade apenas com o pensamento racional".
Isto me leva a
questionar quanto deste trabalho meu e quanto dos outros com quem convivi e com
quem convivo, ento chego concluso de que este trabalho no s meu.
Queria agradecer de maneira especial a minha professora Maristela Terto de Holanda,
minha orientadora do mestrado pelas aulas, pelas sugestes pelos conselhos e dicas de
pesquisa, pelo material emprestado, pela pacincia que teve comigo, pela participao e
pela ajuda incondicional, juntamente com a Profesora Maria Emlia M. T. Walter quem
com seus conhecimentos e experincia souberam me encaminhar no mestrado. O professor
Srgio Lifschitz e a professora Clia Ghedini Ralha que so parte da minha banca de
qualicao, agradeo pela sua presena, suas sugestes e contribuies para com meu
trabalho.
Agradeo a todas as pessoas que conaram em mim desde o primeiro momento que
comecei o mestrado e me ajudaram nas minhas primeiras experincias neste novo pas
que me acolheu com braos aberto. Agradeo, particularmente, Juliana Barbosa, minha primeira amiga e condente no Brasil que fez todo o possvel para eu me adaptar
num lugar novo, de costumes diferentes dos meus, muito obrigado Juliana. No poderia
deixar de lado a minha famlia que, mesmo longe de mim, fez o possvel para me ajudar e
dar suporte nos momentos difceis. No poderia me esquecer de meus colegas de mestrado
que me acompanharam nesta etapa da minha vida, muito obrigado Daniel Saad, Wosley
Arruda, Tulio Conrado, Paulo Alvarez, Felipe Lessa, Halian Vilela, Taina Raiol, Beatriz
Walter, Harley Olivera, e todo o pessoal da Bioinformtica e do CIC com os quais passei
bons momentos.
MUITO OBRIGADO A TODOS VOCS, NUNCA PODEREI PAGAR SEU APOIO
SOMENTE COM MINHA GRATIDO ETERNA.
Resumo
O rpido avano nas tcnicas de sequenciamento de alto desempenho de fragmentos de
DNA/RNA criou novos desaos computacionais na rea de bioinformtica. Um desses desaos administrar o enorme volume de dados gerados pelos sequenciadores automticos,
particularmente o armazenamento e a anlise desses dados processados em larga escala.
A existncia de diferentes formatos de representao, terminologia, estrutura de arquivos
e semnticas, faz muito complexa a representao e administrao desses dados. Neste
contexto, um modelo de dados para representar, organizar e garantir o acesso aos dados
biolgicos essencial para suportar o trabalho dos pesquisadores do campo da biologia,
quando fazendo uso de pipelines de sequenciamento de alto desempenho.
Este trabalho prope tanto um modelo de dados conceitual, como tambm seu respectivo esquema relacional, permitindo a representao e o gerenciamento de um pipeline
de sequenciamento de alto desempenho para projetos transcritmicos no intuito de organizar e armazenar de maneira simples e eciente os dados gerados em cada fase da
anlise do pipeline. Nesta dissertao, trabalhamos com pipelines de sequenciamento de
alto desempenho com trs fases: ltragem, mapeamento e anlise. Para validar nosso modelo, apresentamos dois estudos de casos para identicar a expresso diferencial de genes
usando dados de sequenciamento de alto desempenho transcritmico. Estes estudos de
caso mostraram que introduzir o modelo de dados, e o esquema correspondente, tornou o
pipeline mais eciente, organizado, para dar suporte ao trabalho dos bilogos envolvidos
em um projeto de transcritoma.
Palavras-chave:
Modelo Conceitual, Modelo de Dados, Bioinformatica, Banco de Dados,
Dados Biolgicos
vi
Abstract
The rapid advances in high-throughput sequencing techniques of DNA/RNA fragments
created new computational challenges in bioinformatics.
One of these challenges is to
manage the enormous volume of data generated by automatic sequencers, specially storage
and analysis of these data processed on large scale.
The existence of representation
format, terminology, le structure and semantics, becomes very complex representation
and management of such data. In this context, a data model to represent, organize and
provide access to biological data is essential to support the researchers works into biology
eld when using high-throughput sequencing.
This work proposes a conceptual model as well as its database schema to represent
and manage a high-throughput transcriptome pipeline in order to organize and store in
a simple and ecient way data generated in each pipeline phase.
In this dissertation,
we work with three phases high-throughput sequencing pipeline: ltering, mapping and
analysis.
In order to validate our model, we present two case studies both having the
objective of identifying dierentially expressed genes using high-throughput sequencing

transcriptome data. These case studies showed that uses a data model, and its database
schema, became the pipeline more eceint, organized, and support the biologists works
involved in a transcriptome project.
Keywords:
Conceptual Model, Data Modeling, Bioinformatics, Database, Biological
Data
vii
Sumrio
1 Introduo
1.1
Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Objetivos
1.2.1
1.3
2.2
Objetivos Especcos . . . . . . . . . . . . . . . . . . . . . . . . . .
Estrutura do Trabalho
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Biologia Molecular
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1
Protena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2
cidos Nuclicos
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.3
Dogma Central da Biologia Molecular . . . . . . . . . . . . . . . . .
11
Bioinformtica
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2.1
Tecnologias de Sequenciamento de Alto Desempenho
. . . . . . . .
12
2.2.2
Projetos Transcritoma
. . . . . . . . . . . . . . . . . . . . . . . . .
13
2.2.3
Pipelines para Projetos Transcritoma . . . . . . . . . . . . . . . . .
13
2.2.4
Bancos de Dados Biolgicos
15
. . . . . . . . . . . . . . . . . . . . . .
3 Modelos de Dados para Bioinformtica

3.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Conceitos Bsicos de Biologia Molecular e Bioinformtica

2.1
Modelagem de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
17
3.1.1
Modelo de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.1.2
Modelos de Dados para Bioinformtica . . . . . . . . . . . . . . . .
23
3.1.3
Proposta de Esquema de Dados para Bioinformtica
29
. . . . . . . .
4 Modelo de Dados para um Pipeline de Sequenciamento de Alto Desempenho

32
4.1
Estrutura Geral do Pipeline de Sequenciamento de Alto Desempenho
4.2
Modelo Conceitual para o Pipeline de Sequenciamento de Alto Desempenho 34
4.3
. . .
32
4.2.1
Modelo de Dados da Fase de Filtragem . . . . . . . . . . . . . . . .
37
4.2.2
Modelo de Dados da Fase de Mapeamento
. . . . . . . . . . . . . .
40
4.2.3
Modelo de Dados da Fase de Anlise
. . . . . . . . . . . . . . . . .
41
Denio do Esquema Relacional do Pipeline . . . . . . . . . . . . . . . . .
43
4.3.1
Esquema Relacional da Fase de Filtragem
. . . . . . . . . . . . . .
43
4.3.2
Esquema Relacional da Fase de Mapeamento . . . . . . . . . . . . .
46
4.3.3
Esquema Relacional da Fase de Anlise . . . . . . . . . . . . . . . .
47
viii
5 Estudo de Caso
5.1
Viso Geral do Estudo de Caso
5.2
Arquitetura Abstrata do Pipeline
5.3
5.4
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
Discusso e Anlises dos Resultados Experimentais do Pipeline
52
52
53
. . . . . .
57
5.3.1
Anlises Sobre o Modelo Conceitual . . . . . . . . . . . . . . . . . .
57
5.3.2
Comparao da Ecincia no Armazenamento de Dados
5.3.3
Anlise de Tempo de Execuo
. . . . . .
59
. . . . . . . . . . . . . . . . . . . .
62
Trabalhos Publicados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
6 Concluses e Trabalhos Futuros

Referncias
I Diagrama de Clases do Modelo Conceitual
II Esquema Relacional do Pipeline
IIITabela do Esquema de Filtragem
IVTabela do Esquema de Mapeamento
V Tabela do Esquema de Anlise Usada nos Estudos Caso
VIEsquema Relacional do Pipeline Usado nos Estudos de Caso
VIIFormato do Arquivo FASTQ
ix
64
66
72
74
76
79
81
84
86
Lista de Figuras
2.1
Estrutura geral dos aminocidos adaptado de [1].
2.2
Ligao peptdica e orientaes
2.3
Estrutura primria, secundria, terciria e quaternria da molcula da he-
. . . . . . . . . . . . . .
do carbono C [2]. . . . . . . . . . .
moglobina [3]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4
Acar pentose principal que compe o nucleotdeo criador do DNA: a

desoxirribose.
2.5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bases nitrogenadas que compem um nucleotdeo da molcula DNA adap. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6
tado de [4].
A dupla Hlice do DNA mostrando a unio das bases [1]. . . . . . . . . . .
10
2.7
Acar principal do nucleotdeo formador do RNA: a ribose adaptado de [4]. 10
2.8
Uracila - base pirimidina que compe um nucleotdeo de molcula RNA.
10
2.9
Dogma central da Biologia. . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.1
O Diagrama ER dos elementos que compem o gene.
. . . . . . . . . . . .
19
3.2
Diagrama EER do gene com os elementos que o compem. . . . . . . . . .
20
3.3
Diagrama da relao do gene com os elementos que o compem usando o

modelo orientado a objetos.
3.4
. . . . . . . . . . . . . . . . . . . . . . . . . .
22
Diagrama da relao do gene com os elementos que o compem usando o

modelo relacional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.5
Diagrama para dados genmicos [5]. . . . . . . . . . . . . . . . . . . . . . .
25
3.6
Notao para as relaes de ordem, processo e espacial [6]
26
3.7
Os quatro submodelos: modelo operacional, meta modelo, modelo de co-
. . . . . . . . .
nhecimento e modelo de informao [7]. . . . . . . . . . . . . . . . . . . . .
27
3.8
Denio de uma ordem entre instancias de tipo agregao [8]. . . . . . . .
28
3.9
Diagrama ER representando o dogma central da Biologia Molecular [9]. . .
30
3.10 Esquema mostra as principais tabelas do mdulo de sequncia. Algumas

tabelas e colunas foram omitidas para fazer o diagrama mais conciso. Adaptado de [10]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1
Estrutura do pipeline de alto desempenho com as fases da ltragem, mapeamento e anlise
4.2
31
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Diagrama de classes do modelo conceitual para um pipeline de sequenciamento de alto desempenho transcritmico.
anexo I.
Ver diagrama ampliado no
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
4.3
Diagrama de classes do modelo ltragem. . . . . . . . . . . . . . . . . . . .
38
4.4
Diagrama de classes do modelo mapeamento. . . . . . . . . . . . . . . . . .
40
4.5
Diagrama de classes do modelo de anlise.
42
. . . . . . . . . . . . . . . . . .
4.6
Esquema relacional do pipeline de sequenciamento de alto desempenho

transcritmico. Ver diagrama ampliado no anexo II. . . . . . . . . . . . . .
44
4.7
Esquema relacional da fase de ltragem.
47
4.8
Esquema relacional da fase de mapeamento.
. . . . . . . . . . . . . . . . .
49
4.9
Esquema relacional da fase de anlise. . . . . . . . . . . . . . . . . . . . . .
50
5.1
Viso geral do pipeline de anlise para sequnciamento de alto desempenho
. . . . . . . . . . . . . . . . . . .
transcritmico usado como estudo de caso. . . . . . . . . . . . . . . . . . .
53
5.2
Representao simplicada de um Sistema de Banco de Dados. . . . . . . .
55
5.3
Esquema relacional da fase de anlise expresso diferencial.
As linhas
ponteadas de cor cinza delimita o esquema TranscriptDB gerado pelo pacote GenomeFeatures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.1
Diagrama de classes do modelo conceitual para um pipeline de sequenciamento de alto desempenho transcritmico.
II.1
58
. . . . . . . . . . . . . . . . . .
73

transcritmico.As linhas ponteadas de cor cinza associam as tabelas gene_result,
transcript_result, cds_result e exon_result com o esquema relacional de

transcritos gerado pela ferramenta usada na fase de anlise no estudo de
caso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
VI.1 Esquema relacional do pipeline de sequenciamento de alto desempenho

transcritmico. As linhas ponteadas de cor cinza delimita o esquema Trans-
criptDB gerado pelo pacote GenomicFeatures [11]. . . . . . . . . . . . . . .
xi
85
Lista de Tabelas
2.1
Lista dos 22 aminocidos encontrados na natureza [12]. Os aminocidos

marcados com (*) so aminocidos raramente encontrados. . . . . . . . . .
3.1
Comparao dos modelos conceituais. A modelo de dados que usa, diculdade no uso, plataforma onde foi implementada.
. . . . . . . . . . . . .
29
. . . . . . . . . . . . . . . . . . . . . . . . . .
35
4.1
Entidades de cada modelo
4.2
Entidades do modelo do pipeline
4.3
Entidades e atributos do modelo ltragem
4.4
Entidades e atributos do modelo mapeamento . . . . . . . . . . . . . . . .
41
4.5
Entidades e atributos do modelo anlise
. . . . . . . . . . . . . . . . . . .
42
4.6
Tabelas do esquema relacional do pipeline. . . . . . . . . . . . . . . . . . .
45
4.7
Tabelas que compem cada subesquema . . . . . . . . . . . . . . . . . . .
46
4.8
Tabelas e colunas do subesquema ltragem
48
4.9
Tabelas e colunas do subesquema mapeamento
. . . . . . . . . . . . . . .
49
4.10
Tabelas e Colunas do subesquema a fase de anlise - Expresso. . . . . . .
51
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
5.1
Armazenamento para o genoma de referncia e dados do TranscriptDB
5.2
Comparao de ecincia no armazenamento de dados de clulas de Rim/fgado
. .
e clulas de cncer de prstata LNCaP. . . . . . . . . . . . . . . . . . . . .

5.3
39
60
61
Comparao de tempo de procesamento e armazenamento (em SGBD) de

dados de clulas de Rim/fgado. . . . . . . . . . . . . . . . . . . . . . . . .
5.4
37
62
Comparao de tempo de procesamento e armazenamento (em SGBD) de

dados de clulas de cncer de prstata LNCaP. . . . . . . . . . . . . . . . .
62
III.1
Tabelas e colunas do subesquema ltragem. . . . . . . . . . . . . . . . . .
76
IV.1
Tabelas e Colunas do subesquema mapeamento.
79
V.1
Tabelas e Colunas do subesquema da anlise - Expresso.
xii
. . . . . . . . . . . . . .
. . . . . . . . .
81
Lista de Abreviaturas e Siglas
BLOB
cDNA
CDS
ChIP
COG
DNA
DOM
DoTS
EBI
edgeR
EE
EER
EMBL
ER
GAI
GAII
GMOD
GUS
KEGG
LNCaP
MCK
MOO
mRNA
NCBI
ncRNA
PDB
RAD
RefSeq
RNA
SGBD
SQL
SR
SRS
TESS
TOAST
tRNA
UML
Binary Large Object Block

Coded DNA
Doding Sequence
Chromatin immunoprecipitation
Clusters of Orthologous Groups
Deoxyribonucleic Acid
Dynamic Object Model
Database of Transcript Sequence
European Bioinformatics Institute
Empirical analysis of Digital Gene Expression data in R
Espao Economizado
Enhanced Entity Relationship
European Molecular Biology Laboratory
Entity Relationship
Genome Analyzer I
Genome Analyzer II
The Generic Model Organism Database
Genomics Unied Schema
Kyoto Encyclopedia of Genes and Genomes
Lymph node Carcinoma of the Prostate
Molecular Computer Kit
Modelo Orientado a Objetos
messenger RNA
National Center for Biotechnology Information
non-coding RNA
Protein Data Bank
RNA Abundance Database
Reference Sequence
Ribonucleic Acid
Sistema Gerenciador de Banco de Dados
Structured Query Language
Source Shared
Short Read Sequences
Transcription Element Search System
The Oversized - Attribute Storage Technique
transfer RNA
Unied Modeling Language
xiii
Captulo 1
Introduo
Desde a descoberta da estrutura do DNA (Deoxyribonucleic Acid ) em 1953, por Watson e Crick [13] os avanos na biologia molecular tm notveis progressos criando-se uma
nova rea de pesquisa, a bioinformtica. Um dos desaos que se destaca o tratamento do
grande volume de dados biolgicos gerados pelos modernos sequenciadores de alto desempenho. Os gigabytes de sequncias de DNA gerados por cada projeto de sequenciamento
precisam ser armazenados. Enquanto o Projeto do Genoma Humano demorou 10 anos e
custou aproximado de $3 bilhes de dlares [14] gerando aproximadamente 3.5 bilhes de
pares de bases (pb), atualmente os novos projetos caram mais rpidos, baratos e geram
maiores quantidades de dados (entre 2 a 4 bilhes de pb em poucos dias). Como exemplo
desses projetos tem-se o Personal Genome Project de grande ajuda para rea mdica,
com o objetivo de obter diagnsticos mais precisos de doenas e tratamentos mdicos mais
apropiados para um indivduo particular [15]. Para este e outros projetos so usados os
sequenciadores de alto desempenho, tais como Illumina [16].
A Bioinformtica estuda os genomas que so compostos por cromossomos, cada um
sendo uma cadeia longa de DNA de 4 nucleotdeos: Adena (A), Citocina (C), Guanina
(G) e Timina (T). Por outro lado, o RNA uma cadeia de quatro nucleotdeos, tendo
Uracila (U) em vez da Timina (T). O processo de sequenciamento a decodicao da
sequncia de nucleotdeos dos cromossomos de um organismo. As sequncias de RNA so
gerados a partir de regies particulares de DNA, formando dessa forma transcritos que
codicaro protenas, onde a coleo desses transcritos chamada de transcritoma.
As tecnologias de sequenciamento de alto desempenho geram quantidades massivas de
fragmentos de DNA/RNA. O comprimento desses fragmentos muito pequeno quando
comparado com os tamanhos DNA/RNA completos.
Os pipelines computacionais de-
vem reconstruir a molcula de DNA/RNA inteira a partir dos fragmentos sequenciados

chamados SRS (short read sequences ). Desde que uma SRS apresenta baixo signicado biolgico de forma desassociada, diferentes anlises devem ser feitas para extrair informao
biolgica relevante das SRS.
Neste trabalho as SRS so fragmentos de RNA gerados pelos sequenciadores de alto
desempenho.
Aps serem geradas, as SRS passam por mltiplas anlises, tais como:
(i) avaliar a qualidade dos dados; (ii) ltrar erros de sequenciamento; (iii) armazenar
sequncias de banco de dados externos ao laboratrio de bioinformtica; (iv) buscar funcionalidades biolgicas e (v) armazenar resultados produzidos pelos diferentes sistemas
usados.
Como dito antes, essas anlises geram grandes quantidades de dados, ento
essencial criar modelos de dados que representem, organizem e garantam o acesso aos
dados biolgicos nas diferentes fases do pipeline de sequenciamento de alto desempenho.
Neste contexto, o uso de um SGBD (Sistemas de Gerenciamento de Banco de Dados)
ou sistema de arquivos tem um papel crucial para resolver os desaos de armazenamento
e administrao de grande volume de dados que tm caractersticas peculiares como os
dados biolgicos. Alm desse problema, esses dados precisam de modelos adequados que
representem a informao gerada nos laboratrios de biologia molecular.
Sistemas de
pipelines tm sido criados para lidar com as diferentes fases de um projeto de sequenciamento de genoma. A diculdade na organizao e o armazenamento dos dados gerados
pelas diferentes fases e programas de um pipeline de sequenciamento de alto desempenho
o foco do nosso trabalho.
Particularmente, o interesse no uso de um SGBD dar-se- pelas vantagens que ele
fornece, tais como: segurana, organizao, fcil consulta aos dados e compresso dos
dados, o que muito til para administrar dados biolgicos.
Neste trabalho, usamos
a SGBD relacional para armazenar dados ao longo das diferentes fases do pipeline de
sequenciamento de alto desempenho. O SGBD relacional traz vantagens: amplo uso no
mercado, muitos SGBDs relacionais comerciais e de cdigo aberto so disponibilizados, a
existncia de padres e a facilidade de uso da linguagem de consulta.
1.1 Motivao
Os pipelines para projetos de sequenciamento de genomas so implementados como
meio para administrar, especicar e coordenar a execuo de experimentos que envolvam
diferentes fases com caractersticas particulares e com ns especcos. Eles permitem a
execuo de tarefas que usam dados e ferramentas heterogneos.
H diversos sistemas
para gerenciar experincias da Bioinformtica. Esses sistemas cumprem seus propsitos

fornecendo ferramentas para as diferentes fases do pipeline.
Na maioria dos pipelines usados, o foco est na utilizao das ferramentas, e no h
uma preocupao real de como os dados gerados em cada fase sero armazenados, organizados e gerenciados. Como consequncia, tem-se dados pouco organizados, altamente
redundantes dicultando o desenvolvimento das anlises sobre os dados gerados. Em relao a esses aspectos, importante ter modelos conceituais que possam representar os
dados e processos de forma adequada de um projeto de sequenciamento de alto desempenho. Sendo assim a pesquisa na rea de modelos de dados biolgicos aplicados s fases de
um pipeline de sequenciamento de alto desempenho transcritoma, ser importante para
os projetos de sequenciamento atuais e futuros.
1.2 Objetivos
Esta dissertao tem como objetivo geral o desenvolvimento de modelos de dados para
um pipeline de sequenciamento de alto desempenho, onde seja possvel a representao
dos dados das diferentes fases desse pipeline. Esses modelos de dados, referem-se a representao conceitual que utiliza a abordagem orientada a objetos, assim como tambm a
implementao do modelo atravs de um esquema relacional.
1.2.1 Objetivos Especcos

No intuito de atingir o objetivo geral desta dissertao, foram denidos alguns objetivos especcos:
1. Denir o pipeline de sequenciamento de alto desempenho a ser usado;
2. Desenvolver um modelo de dados conceitual envolvendo as diferentes etapas do
pipeline de sequenciamento de alto desempenho denido;

3. Desenvolver um esquema relacional para o modelo de dados denido;
4. Implementar o esquema relacional em um sistema gerenciador de banco de dados
relacional.
5. Desenvolver estudos de caso com dados reais para validar o modelo desenvolvido.
1.3 Estrutura do Trabalho

A estrutura desse trabalho apresentada a seguir.
No Captulo 2, so apresantados os conceitos bsicos de Biologia Molecular e Bioinformtica, especialmente o projeto de um pipeline, necessrio ao entendimento do trabalho.
No Captulo 3, discutimos modelagem de dados, em particular modelos para bioinformtica.
No Captulo 4, propomos um modelo de dados para um pipeline de sequenciamento
de alto desempenho.
No Captulo 5, discutimos dois estudos de caso onde o modelo proposto implementado
e os resultados prticos so discutidos.
Finalmente, no Captulo 6 concluimos e sugerimos trabalhos futuros.
Captulo 2
Conceitos Bsicos de Biologia
Molecular e Bioinformtica
O presente captulo apresenta conceitos fundamentais de Biologia Molecular e Bioinformtica, necessrios ao entendimento deste trabalho. A Seo 2.1 apresenta de forma
breve conceitos de protenas e cidos nucleicos (DNA e RNA). Alm disso, exposto o
dogma central da biologia molecular, ou o processo atravs do qual as informaes contidas
no DNA so utilizadas para a sntese de protenas. Na seo 2.2, apresentamos conceitos
de bioinformtica, mas particularmente, falamos sobre o sequenciamento de alto desempenho do Illumina, transcritomas, as fases de um pipeline para projetos transcritomas de
alto desempenho, e bancos de dados biolgicos.
2.1 Biologia Molecular

A Biologia Molecular o ramo da Biologia responsvel pelo estudo da estrutura de
protenas e cidos nuclicos, processos e outros atores envolvidos como organelas celulares
e enzimas [4].
Segundo a cincia moderna, a vida originou-se h 3,5 bilhes de anos [4] com formas de
vidas muito simples, mas com o percorrer do tempo, estes organismos foram mudando sua
aparncia e suas estruturas biolgicas por um processo denominado evoluo para depois
dar origem aos organismos mais complexos, pluricelulares, convivendo com organismos
mais simples, unicelulares, como os procariotos.
Partindo do mesmo ponto inicial estas formas de vida primordiais pode-se compreender que todos os organismos, unicelulares ou pluricelulares, dividem uma composio
parecida. A composio qumica das clulas de organismos vivos predominantemente
formada por carbono (C), oxignio (O), nitrognio (N) e hidrognio (H).
Os organismos simples, assim como os complexos, possuem uma qumica molecular
bsica, onde os compostos aparecem, muitas vezes, como cadeias de outros pequenos
compostos interligados. Estes pequenos compostos so os monmeros e as cadeias formadas pela unio repetida de monmeros so os polmeros. Os polmeros mais importantes
para os organismos so as protenas e os cidos nuclicos, formados respectivamente por
cadeias de aminocidos e cadeias de base nitrogenadas. De forma geral, as protenas so
as responsveis, pelo que um ser vivo e faz em um sentido fsico funcional. Por outro
lado, os cidos nucleicos so encarregados de codicar essa informao para produzir pro-
tenas e como mecanismos de armazenamento para preservar a continuidade dos diferentes

organismos.
2.1.1 Protena
Os organismos da natureza na sua maioria so feitos de protenas que so cadeias
de molculas chamadas aminocidos.
representada pela Figura 2.1.
Um aminocido tem sua estrutura qumica geral
Na natureza existem muitos aminocidos, mas no corpo
humano s so usados 20 aminocidos que so denominados primrios.
Figura 2.1: Estrutura geral dos aminocidos adaptado de [1].
Figura 2.2: Ligao peptdica e orientaes
do carbono C [2].
Composio Qumica
Protenas, como ditas anteriormente, so formadas por longas cadeias de aminocidos.
A estrutura do monmero aminocido formada essencialmente por um carbono central,
um grupo amina, um grupo carboxila e uma cadeia complementar (radical), que responsvel pela existncia de vrios aminocidos nicos na natureza [4]. A Figura 2.1 mostra
os grupos formadores. Somente aminocidos entram na composio de protenas [12].
Para a formao das protenas, dois aminocidos so combinados atravs de uma
reao de snteses por desidratao (gera uma molcula de gua por cada unio), onde o
carbono do grupo carboxila de um aminocido liga-se ao tomo de nitrognio do grupo
amina do outro aminocido, gerando uma molcula de gua neste processo, esse tipo de
ligao chamada de ligao peptdica, criando resduos de aminocidos que formaram
as protenas.
A protena formada pelo encadeamento de aminocidos uma sequncia linear, conhecida de estrutura primria, mas a protena tem estrutura secundria, terciria e quaternria, que formam a estrutura tridimensional da protena (Figura 2.3). Na natureza,
so catalogados 22 aminocidos conhecidos [12], sendo 20 os mais comumentes achados
em protenas, e 2 aminocidos raramente encontrados em polipeptdeos, eles so listados
na Tabela 2.1.
Figura 2.3: Estrutura primria, secundria, terciria e quaternria da molcula da hemoglobina [3].
Estrutura da Protena
A funo de uma protena determinada pela sua estrutura espacial [17]. Os peptdeos
que a compe combinam-se por meio de ligaes de hidrognio (chamadas tambm de
ponte de hidrognio), ligaes inicas e ligaes dissulfricas (entre tomos de enxofre dos
resduos de aminocidos Cisteina (Cys)). Outros determinantes da conformao espacial
Tabela 2.1:
Lista dos 22 aminocidos encontrados na natureza [12].
Os aminocidos
marcados com (*) so aminocidos raramente encontrados.
Nome
Abreviao Cdigo
Ala
Arginima
Arg
Asparagina
Asn
cido Asprtico
Asp
Asparagina ou cido Asprtico *
Asx
Cistena
Cys
Glutamina
Gln
cido glutmico
Glu
Glutamina ou cido glutmico *
Glx
10
Glicina
Gly
11
Histidina
His
12
Isoleucina
Ile
13
Leucina
Leu
14
Lisina
Lys
15
Metionina
Met
16
Fenilalanina
Phe
17
Prolina
Pro
18
Serina
Ser
19
Treonina
Thr
20
Triptofano
Trp
21
Tirosina
Tyr
22
Valina
Val
Alanima
de protenas so a hidrofobicidade de regies de polipeptdeo isto , o grau de anidade

com molculas de gua e a rotao dos eixos
(Figura 2.2).
A sequncia de resduos que forma a protena dita estrutura primria da mesma,

chamada tambm de estrutura linear.
Esta estrutura importante para a leitura dos
aminocidos que compem a protena, porm no caracteriza sua funo [4].

A estrutura secundria da protena est composta pelos alinhamentos e dobramentos
das estruturas lineares, principalmente pelos dobramentos nos eixos
e pelo alinha-
mento de backbones (Figura 2.2) formando assim as to conhecidas cilndricas

Tambm possvel encontrar alinhamentos do tipo
tdico est quase completamente estendido.
-folha,
-hlice.
onde o esqueleto polipep-
As repeties de padres de alinhamento
e dobramento da estrutura linear nesta congurao espacial so chamadas de motivos.

Motivos so importantes para inferncia de funes e grau de similaridade entre diferentes
protenas [17].
A estrutura terciria resulta do enrolamento da
-hlice
ou da
-folha
descrevendo
o dobramento nal de uma cadeia, enquanto a estrutura secundria determinada pelo

relacionamento estrutural de curta distncia, a terciria caracterizada pelas interaes
de longa distncia entre aminocidos. Finalmente, a estrutura quaternria da protena
considera sua totalidade em forma tridimensional, o que signica que a forma natural
como encontrada no organismo.
2.1.2 cidos Nuclicos

Segundo a biologia contempornea, os cidos nuclicos tem a funo principal de armazenar informao necessria para criao de protenas e possibilitar a transferncia
desta informao para geraes futuras desses organismos, atravs de processos de reproduo celular [4].
Os seres vivos tm dois tipos de cidos nucleicos:
DNA - cido
desoxirribonucleico - e RNA - cido ribonucleico - so ambos os polmeros compostos de

molculas mais simples - monmeros - os nucleotdeos. No caso de DNA e RNA, tem-se
um grupo fosfato, um acar central e uma base nitrogenada, formando um nucleotdeo
[17, 4]. A composio em cadeias de nucleotdeos forma uma sequncia de DNA ou RNA,
dependendo da composio destes nucleotdeos.
DNA
O DNA um cido nucleico formado por um acar central - a pentose (acar com
cinco tomos de carbonos) desoxirribose (Figura 2.4) - e uma base nitrogenada - molculas
com ciclos de carbonos e nitrognios- (Figura 2.5).
Figura 2.4: Acar pentose principal que compe o nucleotdeo criador do DNA: a desoxirribose.
Na Figura 2.4 tem-se os carbonos numerados de 1' a 5' por conveno em relao
estrutura qumica do composto.
ao carbono 5' o fosfato.
O carbono 1' est associado a uma base nitrogenada,
No carbono 3' ocorre a reao da ligao entre o fosfato do
nucleotdeo com o grupo hidroxila do carbono 3' do nucleotdeo ao qual est se ligando.
Naturalmente, por causa desta ligao, a molcula de DNA orientada do carbono 5' ao
carbono 3' [17].
A molcula de DNA de dupla ta. As duas tas formam uma estrutura de hlice
(Figura 2.6), sendo descobertas por James Watson e Francis Crick em 1953. A dupla ta
se mantm dessa forma graas s unies entre duas bases, cada uma de uma ta diferente,
essa unio acontece graas natureza complementar delas, neste caso as pricas (Adena e
Timina) unem-se com as pirimidinas (Citosina e Timina) [13] (Figura 2.5) . Isto acontece
por causa da anidade eletrnica da molcula. Pela natureza complementar das bases,
possvel extrair o complemento de uma ta do DNA aplicando a seguinte regra:
Figura 2.5: Bases nitrogenadas que compem um nucleotdeo da molcula DNA adaptado
de [4].
Adenina
Guanina
onde a
Timina
Citosina
representa o complemento de uma base pode ser feita em ambos sentidos.
A disposio espacial de uma ta de DNA, indo de 5' ao 3', pode- se concluir que seu
complemento exato oposto, indo de 3' ao 5'. Portanto, uma ta o exato complemento
reverso da outra, dando origem duplicao de trechos do cdigo de DNA.
Grande parte do material gentico encontrado no DNA de organismos eucariotos no
codica para protenas [18]. Denomina-se genes as regies delimitadas do DNA que codicam para protenas ou RNAs [4], isso no ato de transcrio, o DNA transcrito para
um RNA funcional vlido ou para um RNA mensageiro vlido (veja seo 2.1.3).
RNA
O RNA um aminocido como o DNA com certas diferenas e funcionalidades especcas. O RNA formado pelo acar ribose (veja Figura 2.7), a diferena do DNA que
tem a 2'- desoxirribose. Esta molcula est composta por uma base nitrogenada alm das
j descritas, ela a Uracila (U) que substitui a Timina (T). Outra diferena com o DNA
que s tem uma cadeia ou ta nica de nucleotdeos (ver Figura 2.6), tendo diferentes
formatos de acordo com a funo que pode exercer.
Identicamente ao DNA, a orientao do RNA se d do carbono 5' ao carbono 3'.
Podem-se reescrever as regras de complementaridade das bases nitrogenadas simplesmente
trocando-se a base Timina pela base Uracila.
A estrutura de ta nica faz ao RNA vulnervel a danos e erros, portanto menos apto
a transportar informao gentica [17]. Por essa caracterstica, alm da estrutura qumica
mais simplicada tanto da base Uracila (Figura 2.8), como da estrutura do RNA, existem
teorias de que o RNA teria sido o primeiro cido nuclico a ser usado como transportador
de material gentico [19].
Figura 2.6: A dupla Hlice do DNA mostrando a unio das bases [1].
Figura 2.7: Acar principal do nucleotdeo formador do RNA: a ribose adaptado de [4].
Figura 2.8: Uracila - base pirimidina que compe um nucleotdeo de molcula RNA.
10
2.1.3 Dogma Central da Biologia Molecular

O dogma central dene o paradigma da Biologia Molecular, no qual a informao
perpetuada atravs da replicao do DNA e traduzida atravs dos processos de transcrio e traduo.
A transcrio que converte a informao do DNA em uma forma
mais acessvel (uma ta de RNA complementar) e atravs da traduo, o cdigo gentico
contido no RNA traduzido em protenas (Figura 2.9).
Figura 2.9: Dogma central da Biologia.

A replicao o processo pelo qual gerada uma cpia idntica a uma molcula
de DNA, envolvendo um conjunto de protenas.
Por outro lado, a transcrio comea
reconhecendo o incio de um gene graas a uma pequena regio do DNA sinalizado como
o comeo de um gene, chamado promotor.
Tendo localizado o gene, a clula copia a
informao do gene criando uma molcula de RNA complementar a uma ta de DNA.
Esta molcula de RNA chamada de RNA mensageiro ou mRNA (messenger RNA).
Assim o mRNA possui a mesma sequncia de uma das tas de DNA, contudo tendo a
base U no lugar da T. Este processo chamado de transcrio. O processo de transcrio
descrito acima vlido para seres chamados de procariotos, organismos sem ncleo celular
e com o DNA utuando livremente na clula.
J em organismos chamados eucariotos,
seres onde o DNA est armazenado em um ncleo celular, o processo de transcrio um

pouco mais complexo.
Os genes dos seres eucariotos so compostos de duas partes, os
intros e os exons. Aps a transcrio, os introns so removidos do mRNA. Sendo assim,

em um organismo eucarioto nem todas as bases de um gene so utilizadas na transcrio.
Ao DNA contendo todas as bases do gene denominamos DNA genmico e s bases do DNA
presentes no mRNA aps a remoo dos introns chamamos cDNA(DNA codicador).
Feita a transcrio, o processo de traduo comea nos ribossomos onde a protena
ser sintetizada. Os ribossomos so estruturas compostas de protenas, tipos especiais de
RNA, chamados de RNA ribossmico e abreviado como rRNA. Os ribossomos funcionam
como linhas de montagem de protenas, lendo a informao para a sntese do mRNA e
utilizando molculas conhecidas como tRNA(transfer RNA) para realizar a traduo dos
cdons para os aminocidos correspondentes. Os mecanismos celulares realizam a juno
de diversos aminocidos. Mais detalhadamente, os RNAs so as molculas responsveis
por efetuar a conexo entre os cdons e os aminocidos correspondentes.
Cada tRNA
composto de duas partes, uma delas possui anidade qumica a um dado cdon, enquanto a outra se liga com facilidade ao aminocido correspondente ao cdon. Conforme
a ta de mRNA passa pelo ribossomo, um tRNA correspondente ao cdon sendo lido pelo
ribossomo liga-se ao mesmo em questo trazendo consigo o aminocido correspondente.
Uma enzima ento catalisa a ligao peptdica para adicionar o aminocido em questo a
protena. A sntese prossegue assim, um aminocido de cada vez, parando apenas quando
11
um cdon do tipo STOP encontrado. Quando isso ocorre, a protena desliga-se do ribossomo, liberada na clula.
O mRNA degradado para posterior reaproveitamento
dos seus componentes.
2.2 Bioinformtica
A Bioinformtica uma rea multidiciplinar que envolve cincias como Biologia Molecular, Estatstica, Matemtica e Cincia da Computao, e tem como objetivo realizar
anlises de dados biolgicos, como sequncias de bases de DNA e genes, predizer a estrutura e funo de diversas macromolculas [20].
A Bioinformtica surgiu quando foi
necessrio o uso de ferramentas computacionais para anlises de dados genticos, originado com os projetos genoma, na dcada de 1990. Portanto, um ramo do conhecimento
relativamente recente.
A bioinformtica enfatiza o desenvolvimento de ferramentas para realizar o armazenamento e manipulao dos dados biolgicos gerados durante um projeto de sequenciamento.
Com o atual volume de dados produzidos pelos projetos de sequenciamento, a utilizao
de ferramentas computacionais traz grandes auxlios aos bilogos, ao permitir a recuperao rpida dos dados armazenados de um projeto genoma e apresentar os resultados de
maneira a facilitar a anlise dos mesmos e assim auxiliar na descoberta de funes para
as sequncias obtidas.
2.2.1 Tecnologias de Sequenciamento de Alto Desempenho

Embora o sequenciamento Sanger [21] tenha sido a tcnica de sequenciamento mais
usada durante os ltimos anos, novas tcnicas de sequenciamento massivamente paralelos
so usadas atualmente nos projetos de sequenciamento, revolucionando a forma como se
realiza o sequenciamento de DNA no mundo. A grande demanda por sequenciamento de
baixo custo tm estimulado o desenvolvimento de tecnologias de sequenciamento massivamente paralelos, produzindo milhes de sequncias em uma s rodada [22]. Nesse sentido,
as tecnologias de sequenciamento massivamente paralelo so destinadas a baixar o custo
de sequenciamento de DNA o mximo possvel.
Nesse contexto, uma variedade de sequenciadores de alto desempenho produzem um
nmero muito grande de sequncias de DNA. Hoje em dia, os sequenciadores massivamente paralelos que esto disponveis comerciavelmente so: Pirosequenciamento 454 [16],
realizada sobre o Sequenciador Genmico FLX, o qual foi disponibilizado pelas companhias 454 Life Science e Roche Applied Science (http://www.454.com ); Illumina [16]
com o GAII (Genome Analyzer II); tecnologias SOLiD que usa uma tcnicas de sequenciamento por ligao. Recentemente, outras duas tecnologias foram anunciadas: O Helicos
Heliscope e Pacic Biosciences SMRT [16].
Nos estudos de caso desta dissertao foram utilizados dados gerados pelo sequenciador Illumina. Este sequenciador foi desenvolvido pela Solexa, subsequentemente adquirido
pela Illumina. Atualmente, os Sequenciadores Illumina GAI e GAII fazem uso do sequenciamento por snteses. O sequenciador GA I produz SRS de 25 a 35 pares de bases [23] e
o sequenciador GA II produz aproximadamente 50 pares de bases [16] com mais de 2000
12
Mb de dados por corrida ao longo de aproximadamente quatro dias. O mtodo de Illumina um dos mais amplamente usados em sua curta existncia; aplicaes publicadas
incluem expresso de genes, descoberta de SNP, resequenciamento, e experimentos ChIP
(Chromatin Immunoprecipitation).
2.2.2 Projetos Transcritoma

O transcritoma o conjunto completo de transcritos de uma clula, e seu estudo realizado em um estado especco do seu desenvolvimento ou condio siolgica. Entende-se
que um transcritoma essencialmente o meio para interpretar o elemento funcional do
genoma e revelar os constituintes moleculares das clulas e tecidos. O transcritoma tem
muitos objetivos, entre os quais:
catalogar todos os tipos de transcritos, incluindo o
mRNA, ncRNA (non-coding RNA) e pequenos RNAs; determinar a estrutura transcricional dos genes; quanticar os nveis expresso de cada transcrito durante o desenvolvimento
da celula e baixo diferentes condies; entre outras.
Como visto na Seo 2.1.1, a sntese de uma protena ocorre atravs da transcrio
das informaes contidas no DNA em um RNA mensageiro e posterior traduo desta
informao em aminocidos. Dizemos ento que o gene codicando a protena em questo
expresso. O conjunto dos RNAs mensageiros de uma clula chamado de transcritoma,
e projetos de sequenciamento visando a obteno desses RNAs mensageiros so conhecidos
como projetos transcritoma.
A obteno de todos os transcritos de uma determinada clula de um dado organismo
uma tarefa complexa, pois nem todos os genes so expressos a todo momento.
De
fato, durante diferentes fases da vida de um organismo, diferentes genes so expressos em

diferentes intensidades. Dessa forma, grande parte dos projetos transcritoma envolvem
o sequenciamento dos RNAs mensageiros em um dado estado da vida do organismo de
interesse, podendo este ser durante o desenvolvimento de uma planta, a metamorfose de
um inseto ou mesmo a ocorrncia de um cncer. Uma das principais informaes obtidas
atravs dos transcritomas o conjunto de genes expressos durante uma dada condio de
um organismo, por exemplo, durante uma infeco.
Para a obteno dos transcritomas, uma tcnica muito utilizada consiste em capturar
os RNAs mensageiros de uma clula exposta a dadas condies, e a partir da mesma
gerar a sequncia de DNA cuja transcrio originou o mRNA. Conforme exposto na Seo
2.2.1, essa ta de mRNA complementar a sequncia de DNA que a originou. Portanto,
para obter a sequncia de nucleotdeos efetivamente expressos durante a produo da
protena em questo, basta obter o complemento desta ta de RNA. A sequncia de DNA
obtida desta maneira conhecida como DNA codicador ou cDNA. Para determinar o
transcritoma, procede-se ao sequenciamento dos cDNAs, seja atravs do mtodo Sanger
[21], ou por meio dos novos sequenciadores de alto desempenho.
2.2.3
Pipelines para Projetos Transcritoma
Pipelines so sistemas computacionais que executam sequencialmente uma srie de

programas, onde os resultados de um programa so usados como entrada do prximo
programa na linha de execuo [24].
(Sanger) tem trs fases importantes:
Tradicionalmente, um projeto de sequenciamento

submisso, montagem e anotao [21], mas de-
13
vido s diferentes caratersticas das sequncias obtidas pelos novos sequenciadores, novos
pipelines devem ser implementados.
Neste contexto, so desenvolvidos os pipelines de
sequenciamento de alto desempenho para superar as limitaes dos pipelines tradicionais.

A denio do pipeline de sequenciamento de alto desempenho depender, entre outros,
do sequenciador e das caratersticas dos dados gerados por esse sequenciador, podendo
contemplar trs fases principais: ltragem, mapeamento e anlise.
A fase de ltragem comea aps serem sequenciadas as amostras de DNA/RNA pelo
sequenciador de alto desempenho. Os mtodos aplicados variam dependendo da tecnologia
usada, mas os resultados do sequenciamento so sequncias de caracteres sendo armazenadas em formatos adequados para serem usados nos processamentos computacionais das
fases posteriores. Geralmente, os arquivos resultantes so de formato texto que contm as
sequncias de bases identicadas e as qualidades associadas a cada base. De forma geral,
o valor da qualidade a probabilidade de erro na identicao de uma determinada base.
O processo de sequenciamento pode conter erros originados pela presena de contaminantes que afeta a qualidade dos resultados, ou simplesmente erro de sequenciamento. Alem
disso, tem-se regies sequenciadas que no interessam ou que podem dicultar o processamento nas prximas etapas do pipeline. No intuito de conseguir resultados conveis,
essas regies devem ser removidas. O objetivo desta fase a remoo das sequncias que
possam dicultar e afetar negativamente (erros e resultados pouco conveis) nos resultados das prximas fases. Nesse contexto, nesta fase so removidos fragmentos tais como
primers, vetores, adaptadores, e longas sequncias de bases repetidas que simplesmente

no so de interesse ou que de alguma forma possam afetar nas anlises das prximas
fases [25].
Aps a fase de ltragem comea a fase de mapeamento, onde so usados um ou mais
programas para que os diferentes fragmentos de DNA ou cDNA (mRNA, cujos ntrons j
foram removidos) que tenham qualidade desejada sejam localizados dentro de um genoma
de referncia de um organismos prximo ao organismo estudado. A soluo de um quebracabea uma analogia ao processo de mapeamento onde as SRS seriam as peas do
quebra-cabea e o genoma de referncia seria o quebra-cabea todo.
Neste sentido, a
soluo desse quebra-cabea procurar onde poderiam encaixar as SRS dentro desse
enorme quebra-cabea chamado genoma de referncia. A procura das localizaes mais
adequadas das SRS so feitas por comparao, em particular observando sobreposies
no genoma de referncia [4].
O processo de mapeamento muito importante, j que uma fase que ajuda a encontrar genes, particularmente aqueles envolvidos em doenas humanas.
Por exemplo,
os pesquisadores estudam famlias inteiras afetadas por uma doena, seguem o rastro de
doenas hereditrias por muitas geraes. Regies, que tendem a ser herdadas junto com
a doena tendem a ser localizados prximos ao gene da doena e torna-se marcadores
para o gene em questo [26].
A fase de anlise constitui a ltima fase do pipeline de sequenciamento. Nesta fase
os pesquisadores procuram identicar os genes presentes nas regies mapeadas na fase
anterior e tambm outras informaes como as funes biolgicas, participao em vias
metablicas e relaes logenticas desses genes, entre outras importantes funes. Portanto, a fase de anlise um processo de interpretao dos dados brutos gerados pelo
sequenciamento com o objetivo de acrescentar informaes biolgicas.
A fase de an-
lise realizada por sistemas computacionais que tentam inferir as funes biolgicas das
14
sequncias de DNA. O processo de identicao de genes feito atravs de comparaes

das SRS mapeadas com genes j conhecidos, cujas sequncias de nucleotdeos esto disponveis em banco pblicos. Os resultados obtidos so analisados pelos bilogos que podem
conrmar, mudar ou recusar as sugestes das anlises feitas. As sugestes tambm podem
ser utilizadas para a realizao de experimentos signicativos ao trabalho de pesquisa do
organismo.
O pipeline descrito aqui genrico mas, adaptvel a uma srie de projetos com diferentes objetivos e tcnicas. Cabe notar em geral que o processamento realizado em cada
etapa dividido em uma srie de programas de Biologia Computacional. A correta integrao desses programas no pipeline auxilia e acelera o processo de anlise assim como
a automatizao das etapas. A adequao dos pipelines consequncia da congurao
dos parmetros em cada fase para atingir os objetivos dos projetos.
2.2.4 Bancos de Dados Biolgicos

Os banco de dados biolgicos so importantes principalmente para proporcionar
comunidade cientca uma forma de tornar os dados acessveis de forma fcil e rpida.
Com o sequenciamento de larga escala, foi necessrio a construo de bancos de dados
mais robustos para armazenar o grande volume de sequncias (DNA, RNA e protenas)
obtidas pelos pesquisadores, entre os bancos de dados mais usados temos: EMBL, NCBI GenBank, COG, KEGG, SWISS-PRO, TrEMBL e o RefSeq. Cada um desses possibilita
a submisso individual de sequncias de DNA e trocam informaes entre si diariamente,
sendo que todos eles atualizam diariamente as sequncias disponveis para os pesquisado-
GenBank
res [27].
O
um banco de dados que contm sequncias de DNA disponveis pu-
blicamente para mais de 165.000 organismos conhecidos, obtidas principalmente atravs

da submisso de laboratrios individuais e de lotes de submisso de projetos de sequenciamento em larga escala [28]. Em mais de 20 anos desde seu estabelecimento, GenBank
tem-se convertido em um banco de dados muito importante e inuente para a pesquisa nos
diferentes campos da biologia. A taxa de crescimento exponencial dos dados do GenBank
continua desde sua fundao e cada 18 meses so dobrados seus dados [28].
Cada registro no GenBank consiste em uma sequncia e sua anotao, que so associados a um identicador nico, o nmero de acesso, que permanece constante durante a
EMBL
existncia do registro, mesmo quando h uma mudana em sua anotao.

O banco de dados de sequncias de nucleotdeo
(European Molecular Biology
Laboratory ou conhecido como EMBL-Bank) a atividade central do EBI (Instituto Europeu de Bioinformatica). O banco de dados EMBL coleta, organiza e distribui um banco
PDB
de dados de sequncias de nucleotdeos e informao biolgica relacionadas [27].

O
(Protein Data Bank ) um repositrio para dados estruturais 3-D de grandes
molculas biolgicas, tais como protenas e cidos nucleicos. O PDB a fonte importante
COG
para reas de biologia estrutural, tais como genmica estrutural [29].

O
(Clusters of Orthologous Groups ) constitudo por grupos ortlogos de pro-
tenas (produzidas por genes derivados de um ancestral comum que se diferenciou devido
a divergncias dos organismos associados a eles; tais genes tendem a ter funes semelhantes).
Cada COG representa uma funo genmica conservada durante o processo
evolutivo, ou seja, funes que se desenvolveram desde cedo e se mantiveram nas espcies
15
atuais. Parte-se do pressuposto que sequncias antigas que se conservaram ao longo do

tempo formam um ncleo mnimo de funcionalidades exigido por uma espcie moderna.
Para integrar o banco, necessrio que o COG esteja presente em pelo menos trs linhagens de organismos. Consultas ao banco podem ser feitas, por exemplo, atravs da
KEGG
categoria funcional e do padro logentico [30].

O
(Kyoto Encyclopedia of Genes and Genomes ) um banco de dados que
utiliza conhecimentos de interaes moleculares, de genes, protenas e de compostos qumico e suas reaes para identicar um produto genmico dentro das vias metablicas
SWISS-PROT
existentes neste banco [31].

O
um banco de dados secundrio que consiste apenas de sequncias
de protenas. Para cada sequncia no banco de dados tem-se dados da molcula em questo
e anotao biolgica da mesma. A anotao da protena bastante completa abarcando
vrias caratersticas onde a ideia adicionar o maior nmero possvel de informaes
relativas aquela protena no Swiss-Prot. E assim como o RefSeq, o Swiss-Prot tambm
tem a inteno de produzir a menor redundncia possvel em relao s entradas de
protenas presentes no banco. Alm disso, Swiss-Prot apresenta referncia cruzadas com
outras bases de dados de biomolculas, dessa forma facilitando a apresso de informao
TrEMBL
sobre a sequncia de protenas em questo [32].

O
o complemento do SWISS-PROT que contm as tradues das CDS
(sequncias codicantes) presentes no banco de sequncias EMBL, ainda no integradas
RefSeq
ao SWISS-PROT [27, 32].

O
(Reference Sequence ) tem como objetivo produzir um conjunto no redun-
dante de sequncias de DNA genmico, transcritos (cDNA) e de protenas de diferentes

organismos. Ele resultado da curadoria manual realizado pelo NCBI (National Center
for Biotechnology Information ), ou seja, pesquisadores treinados analisam sequncia por

sequncia e as informaes relevantes so adicionadas ao banco de dados RefSeq. Uma das
caractersticas mais interessantes do RefSeq ser capaz de reunir vrios dados divergentes
em uma plataforma consistente e apresenta um conjunto de padres e convenes comuns
[33].
16
Captulo 3
Modelos de Dados para Bioinformtica
No presente capitulo so apresentados os conceitos tericos fundamentais de modelagem de dados e o estudo desse tema na rea da bioinformtica. Na seo 3.1, o foco
principal na modelagem de dados de maneira geral, abordando as principais caractersticas de um modelo de dados, assim como, a sua importncia em um sistema computacional.
Nessa seo tambm so apresentados, os modelos de dados mais usados na atualidade
para representar um conjunto de requerimentos dos sistemas. Na seo 3.2, apresentado
o estado da arte dos trabalhos relacionados modelagem de dados da bioinformtica. No
nal da Seo 3.2 uma anlise comparativa entre os diferentes modelos realizada.
3.1 Modelagem de Dados

A modelagem de dados uma das etapas mais importantes de um projeto de sistemas
de informao, pois a escolha de um modelo que se ajuste realidade que se pretende
representar um fator crtico para conseguir timos resultados nos sistemas desenvolvidos
[34].
Atravs da modelagem de dados especicado um modelo de dados.
Segundo
[35] a modelagem de dados uma coleo de ferramentas conceituais para descrever o

relacionamento, a semntica e as restries dos dados.
De maneira resumida, a modelagem de dados uma maneira de expressar a realidade
de forma abstrata usando um formalismo, e existem diversas tcnicas de modelagem de
dados, que se adaptam para representar uma realidade em particular. A modelagem de
dados, pode ser usada para especicao das regras de um negcio, assim como tambm,
para estruturar um banco de dados, por exemplo. Ela faz parte do ciclo de desenvolvimento de um sistema de informao que de vital importncia para o correto resultado do
projeto. O processo de modelar dados tem como objetivo desenhar sistemas (comumente
usado para sistemas de informao), observando com ateno o papel dos componentes
desse sistema, as dependncias lgicas e a relao estabelecida entre esses componentes.
Desta forma, pode-se concluir que o mtodo de modelar dados consiste em uma srie de
aplicaes tericas e prticas, com o objetivo de construir um modelo de dados consistente
no redundante aplicvel em um sistema de banco de dados.
17
3.1.1 Modelo de Dados

A abstrao de dados uma caraterstica que permite a independncia programadados e programa-operao. Neste contexto, o modelo de dados um tipo de abstrao
de dados usados para prover uma representao conceitual.
Conceito lgicos como ob-
jetos, entidades, suas propriedades e seus interelacionamento so usados em um modelo

de dados, que podem ser mais fcies para os usurios entenderem os conceitos de armazenamento computacional [36]. Por esse motivo, o modelo de dados esconde detalhes de
implementao e armazenamento, no interessantes para a maioria dos usurios de banco
de dados.
De forma resumida, um modelo de dados uma coleo de conceitos que podem ser
usados para descrever um conjunto de dados e as operaes para manipul-los [37]. Os
modelos de dados podem ser classicados, segundo a etapa de desenvolvimento do projeto
de banco de dados em: conceitual, lgico e fsico e esto intimamente relacionados com
o ciclo de desenvolvimento de um projeto de banco de dados, onde a cada etapa, novas
informaes e detalhes so acrescidos.
Nesse contexto, as informaes pertencentes ao
modelo so especicadas utilizando-se diferentes nveis de abstrao, iniciados pelos de

alto nvel de abstrao, como por exemplo, o Modelo de ER (Entity Relationship ) at que
sejam incorporados detalhes especcos, relacionados ao armazenamento dos mesmos..
Modelos de Dados Conceituais

O modelo conceitual de dados tem como caracterstica bsica abstrao da realidade, fornecendo uma base formal (de notao e semntica) com ferramentas e tcnicas
usadas para suportar a modelagem dos dados.
Esse processo de abstrao onde so-
mente os elementos essenciais da realidade observada so enfatizados, descartando-se os

elementos no essenciais. J o processo de modelagem conceitual de banco de dados compreende a descrio dos possveis contedos dos dados, alm de estruturas e de regras a
eles aplicveis. A seguir so apresentados os modelos de dados de Entidade Relacionamento, Entidade Relacionamento Estendido e o Orientado a Objetos, que so os principais
modelos conceituais aplicados na rea de bioinformtica.
Modelo Entidade Relacionamento

O modelo ER foi apresentado por Peter Chen [38], a m de representar as estruturas de
dados de uma forma natural e mais prxima do mundo real. Este modelo tem sido usado
amplamente para modelagem de dados.
Os principais elementos do modelo ER, como
prprio nome j diz, so as entidades, seus relacionamentos e seus atributos associados.

Uma entidade um objeto que existe no mundo real e pode ser claramente identicada.
As entidades podem ser classicadas em diferentes tipos, onde cada tipo contm um
conjunto de propriedades comuns predenidas. H autores que preferem usar conjunto de
entidades e entidade para designar um conjunto de objetos [36]. Neste contexto, um tipo
de entidade contm um conjunto de entidades que satisfazem um conjunto de propriedades
comuns predenidas.
Por sua vez, um relacionamento uma associao entre vrias entidades. Formalmente,
se
E1 , E2 , E3 ..., En
so tipos de entidades, ento um tipo de relacionamento R um
subconjunto do produto cartesiano
E1 xE2 x...xEn , ento , (e1 , e2 ,..., en ) | ei E1 , i=1,2,...,n

18
onde (e1 ,
e2 ,
...,
en )
um relacionamento. Na Figura 3.1 apresentado o diagrama ER
que descreve as entidades Gene, Exon, Segmento DNA e Intron, assim como tambm, os
relacionamentos entre as mesmas. A entidade Gene contm segmentos de DNA, onde os
segmentos de DNA podem ser Introns e/ou Exons que tambm so segmentos de DNA
com um identicador unico, incio e m do segmento.
Figura 3.1: O Diagrama ER dos elementos que compem o gene.

Os atributos descrevem as propriedades de cada entidade assim como as caractersticas
que denem ou identicam a mesma dentro de um conjunto de entidades. Assim como as
entidades possuem atributos, os relacionamentos tambm podem possuir.
Modelo Entidade Relacionamento Estendido

Ainda que os conceitos bsicos do modelo ER modelem a maioria das caractersticas
dos bancos de dados, alguns aspectos podem ser expressos de melhor forma por certas
extenses do modelo ER bsico [35]. Consequentemente, o modelo EER (Enhanced Entity
Relationship ) engloba todos os conceitos de modelagem ER (Entidade Relacionamento),

alm dos conceitos de subclasse e superclasse e especializao. A categoria ou tipo de unio
um elemento importante do modelo EER, que usado para representar uma coleo
de objetos correspondentes unio de outros objetos de diferentes tipos de entidades e
associados aos mecanismos de herana de atributos e relacionamentos.
Uma subclasse no modelo EER um subgrupo de uma entidade, que signicativo e
precisa ser representado explicitamente, em virtude de sua importncia para as aplicaes
superclasse
do banco de dados [36]. O conjunto que engloba esses subgrupos (subclasses) chamado
de
. Um aspecto importante associado s subclasses o da herana, pois,
uma entidade, que membro de uma subclasse, herda todos os atributos da entidade como
membro da superclasse, assim como tambm herda todos os relacionamentos associados
especializao
superclasse.
A
dene um conjunto de subclasses de uma entidade. Pode-se ter di-
versas especializaes para a mesma entidade, baseada nas diferentes caractersticas que
as distinguem. Em termos do diagrama ER, a especializao representada por um componente triangular etiquetado com IS-A. A relao IS-A pode-se chamar de relao
superclasse/subclasse [35] j que, este tipo de relao comea desde superclasses genricas
at subclasses mais especicas, ou em outras palavras, entidade de alto nvel a entidades
de baixo nvel (top-down ). Contrariamente especializao, a generalizao acontece das
entidades de baixo nvel s entidades de alto nvel, identicando caractersticas em comum
19
de um grupo de entidades e as generalizando em uma nica superclasse, onde as entidades

originais (baixo nvel) so subclasses (down-top ).
Outra limitao do modelo ER o fato de no poder expressar uma relao de relacionamentos, por isso, a melhor forma de modelar uma situao dessas usar o conceito de
agregao. A agregao a abstrao para a construo de entidades compostas a partir
de seus objetos componentes, esses objetos compostos podem ser tratados do mesmo jeito
que qualquer entidade.
A Figura 3.2 apresenta um diagrama, com o modelo EER para os genes, segmentos
de DNA, Intro e Exon e os seus relacionamentos. Como pode ser observado na gura, a
entidade Intron e Exon esto representados como especializao de entidade segmento de
DNA.
Figura 3.2: Diagrama EER do gene com os elementos que o compem.
Modelos Orientado a Objetos

Assim como todo modelo de dados, o MOO (Modelo Orientado a Objetos) uma
abstrao do mundo real. O MOO permite lidar com a complexidade inerente num problema do mundo real. O modelo orientado a objetos foi desenvolvido baseado no conceito
de objetos, assim como o modelo ER foi desenvolvido baseado em entidades.
O MOO
baseado no que chamado paradigma orientado objeto, onde tudo modelado como
objetos [39]. Para modelar sistemas complexos de maneira adequada tem-se o desenho
orientado a funes e a abordagem orientada a dados (comumente usada por projetistas
de banco de dados). Essas duas tcnicas podem ser unidas em um s elemento chamadas
classe, encapsulando tanto dados como processos [39]. Uma classe representa um conjunto
de objetos parecidos, estes objetos tm propriedades (atributos) semelhantes e os mesmos
comportamentos (operaes), consequentemente a mesma semntica [40].
Dene-se um objeto como um conceito, uma abstrao, com limites ntidos e signicado em relao realidade estudada [40], por exemplo, a bactria Escherichia Coli, o
cromossomo 20 do genoma humano, o sequnciador illumina, dentre outros, so objetos
dentro do mundo dos dados biolgicos.
20
No MOO, um objeto pode ser qualquer coisa fsica ou abstrata que tem propriedades
(atributos) intrnsecas ou comuns a diferentes objetos.
conjunto de operaes que denem seu estado.
Alm disso, os objetos tm um
O estado de um objeto engloba suas
propriedades (atributos e relacionamentos) e os valores que essas propriedades tm [41].

J o comportamento de um objeto depende de seu estado e as operaes que esto sendo
desenvolvidas, estas operaes so simplesmente aes.
Alm dos conceitos de classe, objeto, propriedades e comportamento, tornam-se necessrio outros conceitos chave que so discutidos a seguir:
Associao, ligao e multiplicidade : a associao descreve um conjunto de ligaes

com estrutura e semntica comuns, a ligao a conexo fsica ou conceitual entre
instncias de objetos, ou seja, uma instncia de uma associao. A multiplicidade
especica quantas instncias de uma classe relacionam-se a uma nica instncia
de uma classe associada, restringindo a quantidade de objetos relacionados.
multiplicidade pode ser expressa, de maneira geral, por um ou muitos.
Um Atributo de ligao uma propriedade das ligaes de uma associao.
Agregao : A agregao um tipo de associao forte onde um objeto agregado

constitudo de componentes.
A agregao representada pelo relacionamento
parte-todo ou umaparte-de no qual os objetos que representam os componentes

de alguma coisa so associados a um objeto que representa a estrutura inteira. Em
termos semnticos, o objeto agregado um objeto estendido tratado como uma
unidade em muitas operaes, embora sicamente ele seja composto por objetos
menores. Uma agregao representada gracamente pelo smbolo de losango. A
composio, por sua vez, uma relao de agregao mais forte [42], onde a relao
composio representa uma parte de um objeto que pertence a somente um objeto
maior e existe e morre com o objeto maior. Por exemplo, um apartamento parte
de um somente um edifcio.
Generalizao, Especializao e Herana : Generalizao e especializao so dois

diferentes pontos de vista do mesmo relacionamento, vistos a partir da superclasse
ou das subclasses. Generalizao deriva do fato de que a superclasse generaliza as
subclasses. Especializao refere-se ao fato de que as subclasses renam ou especializam a superclasse. A herana refere-se ao mecanismo de compartilhamento de
atributos e operaes utilizando o relacionamento de generalizao.
Polimorsmo : Trata-se da possibilidade de uma mesma operao atuar de modos

diferentes em classes diferentes.
Isto possvel quando uma operao for decla-
rada em classes diferentes, porm com o mesmo nome, executando processamentos

diferentes para atender os requisitos semnticos de sua classe.
A UML (Unied Modeling Language ) uma linguagem-padro de modelagem e pode
ser empregada para a visualizao, a especicao, a construo e a documentao de
artefatos que faam uso de sistemas de software [43].
O desenvolvimento da UML foi
baseado em tcnicas de orientao a objetos, mas com inuencias de outras tcnicas. A

UML usada como uma metodologia de desenvolvimento, o que signica que ela no
diz o que fazer e nem como projetar um sistema, mas ela auxilia a visualizar seu desenho e a comunicao entre objetos.
Basicamente, a UML permite que desenvolvedores
especiquem, visualizem e construam os artefatos de sistemas [42].
21
Na Figura 3.3 ilustrado um esquema orientado a objetos, onde o Intron e Exon

so subclasses do segmento de DNA e a relao de composio entre as classes gene e
segmento de DNA.
Figura 3.3: Diagrama da relao do gene com os elementos que o compem usando o
modelo orientado a objetos.
Modelo Relacional
O modelo relacional um modelo de lgico muito usado atualmente.
Esse modelo
foi proposto por Edgar Codd [44] em 1970, como uma viso de apresentao dos dados.
Codd mostrou que uma viso relacional dos dados permite a sua descrio natural, sem
que sejam necessrias estruturas adicionais para sua representao, provendo uma maior
independncia dos dados em relao aos programas.
Em complementao, apresentou
bases para tratar problemas como redundncia e consistncia.
Mais tarde, em outro
trabalho [45], Codd deniu uma lgebra relacional e provou, por meio de sua equivalncia
com o clculo relacional, que ela era completa, dando fundamentao terica ao modelo
relacional [45].
Este modelo, por suas caractersticas e por sua completude, mostrou
ser uma excelente opo, superando os modelos mais usados quela poca: o de redes
e o hierrquico.
A maior vantagem do modelo relacional sobre seus antecessores a
representao simples dos dados e a facilidade com que consultas complexas podem ser
expressas.
O modelo relacional tem por nalidade representar os dados como uma coleo de relaes, onde cada relao representada por uma tabela. Cada linha na tabela representa
uma coleo de valores de dados, como uma tupla de uma relao [36]. Os valores de cada
linha podem ser interpretados como fatos descrevendo uma instncia de uma relao. Na
terminologia do modelo relacional, cada tabela chamada de relao; uma linha de uma
22
tabela chamada de tupla; o nome de cada coluna chamado de atributo; o tipo de dado
que descreve cada coluna chamado de domnio.
Um domnio D um conjunto de valores atmicos (cada valor do domnio indivisvel).
Durante a especicao do domnio importante destacar o tipo e tamanho do atributo
que est sendo especicado. Um esquema de relao R, denotado por R(A1 ,
onde cada atributo
Ai
A2 ,
... ,
An ),
o nome do papel desempenhado por um domnio D no esquema
relao R, onde D chamado domnio de
Ai
e denotado por dom(Ai ). O grau de uma
relao R o nmero de atributos presentes em seu esquema de relao.

A instncia r de um esquema de uma relao denotado por r(R) um conjunto de
n-tuplas r = [t1 ,
t2 ,
... ,
tn ]
onde os valores de [t1 ,
t2 ,
... ,
tn ]
devem estar contidos no
domnio D. O valor nulo tambm pode fazer parte do domnio de um atributo e representa
um valor no conhecido para uma determinada tupla.
Dois conceitos fundamentais de um modelo relacional so chave primria e chave
estrangeira. Chave primria utilizada para identicar unicamente uma tupla em uma
realizao.
Chave estrangeira utilizada para identicar os relacionamentos entre as
tabelas. Neste contexto, a restrio de domnio especica que, dentro de cada tupla, o
valor de cada atributo A deve ser um valor atmico do domnio Dom(A). A restrio de
chave dene que toda tupla tem um conjunto de atributos que a identica de maneira
nica na relao, isto , nenhum valor de chave primria poder ser repetido. A restrio
de chave estrangeira dene que uma relao pode ter um conjunto de atributos que contm
valores com mesmo domnio de um conjunto de atributos que forma a chave primaria de
outra relao. Este conjunto chamado de chave estrangeira. Na Figura 3.4 apresentado
um diagrama relacional do Gene, o o classe Gene esta composto por Segmento de DNA
(atravs de una relao de composio). A classe Segmento de DNA tem una relao de
especializao com as classes Intron e Exon.
Na Figura 3.4 apresentado um diagrama no modelo relacional do Gene, Segmento
de DNA, Intron, Exon e seus relacionamentos.
3.1.2 Modelos de Dados para Bioinformtica

Para o gerenciamento de dados biolgico necessrio um claro entendimento da natureza dos dados.
Perguntas tais como: Que tipo de dados sero armazenados?
Que
tipo de relacionamentos tem-se entre esses tipos? devem ser respondidas antes da implementao real. A modelagem de dados conceituais pode prover uma forma cientca para
capturar as principais propriedades dos dados biolgicos. Os modelos de dados estudados
anteriormente tm uso extensivo para a modelagem de dados biolgicos. Nessa seo, so
apresentados diferentes trabalhos que usam modelos de dados tais como o modelo entidade relacionamento, modelo entidade relacionamento extendido e o modelo orientado a
objetos nas aplicaes de gerenciamento de dados de projetos na rea de bioinformtica.
Em estudos preliminares, foram identicados trabalhos que apresentam propostas relacionadas aos objetivos desta dissertao. A maioria deles surge com o intuito de procurar
uma forma de representar conceitos da biologia molecular.
Nos prximos pargrafos so detalhados alguns dos principais modelos de dados para
representar dados biolgicos disponveis na literatura, suas caractersticas, vantagens e
eventuais desvantagens.
Pretende-se, dessa forma, justicar o modelo proposto nesta
dissertao como alternativa relevante aos modelos existentes.
23
Figura 3.4: Diagrama da relao do gene com os elementos que o compem usando o
modelo relacional.
1. Paton et al. (2000) [5] um dos primeiros trabalhos que apresentou modelos conceituais que descrevem dados genmicos e transcritmicos de eucariotos. Os modelos
conceituais deste trabalho so descritos usando diagramas de classes usando UML.
Neste trabalho so apresentados uma coleo de modelos conceituais para dados
de sequncias genmicas. Alm disso, so representados conceitos relacionados aos
acontecimentos naturais ou modicaes induzidas ao genoma, descrevendo a modicao e as consequncias dessas modicaes. Dessa forma, permitindo a integrao qualitativa e quantitativa dos distintos conjuntos de dados genmico funcionais
que tem sido produzidos. A representao de sequncias genmicas feita por meio
de um esquema bsico onde a entidade genoma composta pela entidade cromossomo, a entidade cromossomo composta pela entidade fragmentos de cromossomo
que ao mesmo tempo est composta por regies transcritas e no transcritas e o nvel de granularidade vai aumentando. Este modelo em especico importante pois
representa detalhes das sequncias de DNA (genmica) e RNA (transcritmica) at
serem traduzidas em protenas.
2. Bornberg-Bauer e Paton (2002) [46] fazem uso de conceitos bsicos dos modelos ER
e modelos orientado a objetos para especizar modelos conceituais no contexto da
bioinformtica. Pode-se considerar uma extenso dos modelos apresentados em [5],
pois, alm de apresentar o modelo geral para sequncias genmicas (Figura 3.5), so
apresentados modelos para estruturas de protenas e motifs usando os modelos ER
e MOO. O modelo ER usado para representar a relao que existe entre enzima,
protena e DNA com biopolmeros, assim como a relao de enzima-protenas e
enzima-reao. Embora seja usado o modelo ER, apresentado o mapeamento desse
24
Figura 3.5: Diagrama para dados genmicos [5].
modelo ao seu equivalente no modelo relacional.
Para representar a estrutura da
protena usado o diagrama de classes (UML), detalhando elementos da estrutura

secundria e terciria da protena.
3. Elmasri et al. (2006) [6] apresenta modicaes no modelo EER para representar
de melhor forma algumas caractersticas especiais da biologia tais como, sequncias
ordenadas, processos de input/output, e caractersticas espaciais das molculas. Dados de sequncia como os cidos nucleicos DNA/RNA e amino cidos das protenas,
ambos tem esta propriedade de ordem. Processos importantes como expresso de
genes, metabolismo, transcrio e traduo, envolvem muitas entidades biolgicas,
eventos ordenados e processos de input/output. Para acomodar estas caractersticas
esta abordagem fez algumas modicaes no modelo EER introduzindo trs tipos
especiais de relacionamentos: relao de ordenao, relao de processo e relacionamento de molcula espacial.
25
A relao de ordenao representa a ordem dos elementos das sequncias de DNA

e protenas, onde a caracterstica de ordem muito importante pelo fato que mudanas na ordem tem grande impacto em nveis superiores da estrutura e na sua
funo. A relao de processo representa o comportamento dinmico dos diferentes
agentes. Por exemplo, o mRNA a sada do processo de transcrio e a entrada do
processo de traduo. A relao espacial denida para descrever relaes entre um
conjunto de tomos no espao 3D, onde a funo determinada pela sua estrutura
tridimensional, por exemplo a estrutura do DNA afeta as regies que podem ser
lidas para criar protenas. A Figura 3.6 mostra a notao destas 3 novas relaes.
Figura 3.6: Notao para as relaes de ordem, processo e espacial [6]
4. Busch e Wedemann (2009) [7] deniram um DOM (Dynamic Object Model ) [47]
baseado no modelo orientado a objetos.
Neste trabalho uma coleo de modelos
foram especicados no intuito de ter um modelo exvel suciente para o domnio

da biologia molecular, pretendendo suportar tanto a mutabilidade como tambm
a interoperabilidade entre diferentes tipos de dados.
Este modelo composto de
quatro modelos: operacional, conhecimento, meta modelo e o de informao. Cada

um desses modelos so descritos a seguir.
O modelo operacional dene o alcance do domnio do modelo.
Contm conceitos
abstratos fundamentais da biologia molecular. Este modelo um modelo de classes

orientado a objetos de diferentes tipos de molculas como por exmplo, DNA, RNA,
protena.
O modelo de conhecimento dene conceitos concretos da biologia molecular; estes
conceitos e suas relaes sujeitos modicao do conhecimento da biologia molecular.
O meta modelo dene a estrutura do modelo de conhecimento. Une conceitos concretos denidos no modelo de conhecimento com conceitos abstratos do modelo
operacional.
O modelo de informao contm dados da aplicao que so originados durante a
execuo. Contm instncias das classes do modelo operacional.
O modelo operacional e o metamodelo denem a estrutura dos modelos de informao e conhecimento respectivamente (veja Figura 3.7), observando que o modelo
de conhecimento contm os dados concretos do modelo operacional onde podem ser
26
realizados modicaes. O modelo de conhecimento a chave da exibilidade da

abordagem.
Figura 3.7: Os quatro submodelos: modelo operacional, meta modelo, modelo de conhecimento e modelo de informao [7].
5. Macedo (2007) et al. [8] prope uma linguagem conceitual chamada BioConceptual.
A BioConceptual prope estender os construtores tradicionais (conceito, relao e
classicao) do MOO para dessa forma melhorar sua expressividade e facilitar a
especicao do domnio biolgico em termo de dados.
BioConceptual proporci-
ona uma notao grca associada para cada tipo de construtor. Neste contexto,
algumas extenses so:
Tipo de dado objeto : um tipo de abstrao que permite representar o domnio

da aplicao em termos de dados, similar a qualquer linguagem tradicional.
Por
exemplo, no esquema pode-se ter o conceito de Exon, ele usar o construtor de tipo
de dados objeto para denir este conceito.
Atributo de um tipo de dado objeto : permite a denio de tipos de atributos simples

(comumente usados) e complexos que denota um conjunto de atributos que podem
ser tanto complexos como simples.
Tipo de relacionamento :
o relacionamento determina uma ligao entre dois ou
mais tipos de objetos, disponibilizando os relacionamentos -um, parte-todo e

associao. A partir desses relacionamentos pode-se usar o construtor Constraint
para aumentar a semntica dos outros contrutores do BioConceptual.
Relacionamentos de associao : associaes no BioConceptual so ligaes direcionadas dada a necessidade de indicar qual a ordem dos parmetros dentro do
predicado que representa o relacionamento. As instncias dos relacionamentos no
27
podem ter papis pendentes.
Por outro lado, tem-se outras restries, como as
cardinalidades que caracterizam cada um dos papis envolvidos.
Ligaes -UM entre tipos de objetos : referenciado como relacionamento de generalizao/especializao.
Relao de agregao : dene um construtor especial chamado conguration constraint, que ajuda a especicar uma congurao usando relacionamentos de agregao, onde pode ser usado uma expresso regular.
Restries de integridade : dene-se Constraint como construtor especco de restries, podendo ser denida usando a lgica de primeira ordem.
O construtor
Constraint pode ser aplicado a todos os outros tipos de construtores.

Mltiplas percepes e representaes : BioConceptual prope um construtor chamado perception que objetiva a especicao das percepes (diferentes formas de
ver o mesmo fenmeno) dos cientistas.
A ideia geral associar tipos de objetos,
atributos ou tipos de relacionamentos com percepes.

A Figura 3.8 mostra o uso do construtor conguration constraint para denir a
congurao de uma regio de transcrio que composta por regies intercaladas
de introns e exons. mostrado que uma regio de transcrio uma sequncia que
comea com um exon e pode ter um o mais exon seguidos por um e s um intron.
Figura 3.8: Denio de uma ordem entre instancias de tipo agregao [8].
Comparao Entre os Modelos

Como apresentado nesse captulo existem diferentes propostas para modelar conceitualmente dados biolgicos. De maneira resumida a Tabela 3.1 faz uma comparao entre
os modelos de dados utilizados, assim como tambm, a diculdade do seu uso. Em relao
a diculdade de uso foi utilizado o seguinte critrio: baixo, quando no houve variao
das propostas de modelagem tradicional; mdio quando foram apresentadas extenses;
alto, quando alm das extenses novas tcnicas devem ser aprendidas para a concluso
do modelo.
Os modelos conceituais representam conceitos da biologia molecular.
Os modelos
[5, 46, 7] usam os modelos de dados existentes (ER, EER e MOO). Outros modelos tais
28
Tabela 3.1: Comparao dos modelos conceituais. A modelo de dados que usa, diculdade
no uso, plataforma onde foi implementada.
Abordagem Diculdade Implementao

de uso
1
Paton et al. [5]
Bornberg-Bauer
Pa-
MOO
Baixa
PEOT
ER-MOO
Baixa
PEOT
ER-EER
Medio
Qualquer SGBD
ton [46]
3
Elmasri et al. [6]
relacional
4
Busch e Wedemann [7]
BioConceptual [8]
MOO-DOM
MOO
Alto
MCK
Medio
Framework
ori-
entado a ob jetos
como [6, 8] adicionam novas caractersticas aos modelos de dados para adaptar-se e representar conceitos complexos da biologia molecular. O fato de modicar modelos de dados
e acrescentar algumas propriedades tem o objetivo de representar conceitos difceis de
modelar com os modelos de dados existentes. As modicaes tem o objetivo de simplicar a representao de conceitos complexos. No etanto a implementao das abordagens
foram usados o banco de dados orientado a objetos POET (agora FastObjects de Versant
que comprou Poet Software ), banco de dados relacionais, o framework MCK (Molecular
Computer Kit ) [7] e framework orientado a objetos para as respectivas abordagens.
3.1.3 Proposta de Esquema de Dados para Bioinformtica

Assim como os modelos de dados j apresentados, tem-se esquemas de banco de dados
para gerenciar dados biolgicos. Enquanto os modelos de dados esto mais interessados
em representar os dados biolgicos sem preocupar-se na implementao, os esquemas
relacionais so desenvolvidos baseados num modelo de implementao que neste caso
seria o modelo relacional. Os esquemas relacionais tomam em considerao requerimentos
como o SGBD onde ser implementado. Entre os esquemas de banco de dados relacionais
usados pelos projetos da bioinformtica destacam-se: o GUS [9] e o CHADO [48].
GUS
O GUS(Genomics Unied Schema ) um esquema de banco de dados relacional que
suporta uma ampla gama de tipos de dados que inclui genmicos, expresso de genes,
regies de transcrio, protemica, entre outros [9]. O GUS props uma modelagem de
dados para a implementao de aplicaes bioinformticas, de modo que o ncleo central
do modelo baseado no dogma da biologia molecular (ver Seao 2.1.3).
Conforme a
Figura 3.9 apresenta, as entidades principais e suas relaes so: um gene pode ter vrios
RNAs, um RNA pode dar origem a vrias protenas. O GUS tambm separa as anotaes
dos genes das anotaes de RNAs.
29
Figura 3.9: Diagrama ER representando o dogma central da Biologia Molecular [9].
O esquema relacional GUS implementado atravs de sete esquemas relacionais: DoTS

(Database of Transcript Sequence ); RAD (RNA Abundance Database ); TESS (Transcrip-
tion Element Search System ); SRes (Source Shared ); e o ncleo; usado para rastreamento
no biolgico e sobrecarga. Mas o nmero de tabelas que o esquema GUS possui aproximadamente de 480 tabelas [9], o que limita seu entendimento e consequentemente a
realizao de consultas nesse esquema muito complexa [49]. De forma similar a outro
esquemas, os usurios do GUS devem avaliar o esquema que se acomoda de melhor forma
a suas necessidades [49].
CHADO
O CHADO um esquema de banco de dados relacional modular usado para administrar dados biolgicos para uma grande variedade de organismos, especialmente, informao que est diretamente ou indiretamente envolvida com sequncias DNA, sequncias de
RNA e protenas [10, 50, 48]. O CHADO baseado na metodologia orientado a ontologias
e terminologias a qual a chave da sua exibilidade.
O CHADO foi originalmente desenvolvido para integrar recursos de informao em
dois bancos de dados de Drosophila independentes. Desde ento, tem sido desenvolvido
um esquema de banco de dados genmico ontolgico em resposta ao feedback dos usurios nais e da comunidade de bioinformtica. parte integrante como um componente
importante no projeto GMOD (Modelo de Banco de Dados Genrico para Organismos),
e agora fornece a infraestrutura de banco de dados para numerosos pacotes de software
dentro e fora do projeto GMOD (The Generic Model Organism Database ) [50].
30
A modularidade um princpio fundamental que reduz a complexidade e as dependncias. Neste contexto, o CHADO tem cinco mdulos centrais: de uso geral, publicao,
auditoria, vocabulrio controlado (ontologias) e de sequncia.
O mdulo de uso geral
prove entidades de dados com identicadores estveis, globais e nicos. A tabela dbxref
armazena os identicadores, junto com uma coluna que referncia o nome do banco de dados, que armazenado em uma tabela separada. O mdulo de publicao denido para
armazenar informaes de provenincia de dados. Neste mdulo, a tabela pub no esta
limitado a armazenar informao de documentos publicados, mas tambm comunicaes
pessoais e anlises. O mdulo de auditoria, autogerado pelo esquema de banco dados
mesmo. Para cada tabela do banco de dados existe um conjunto de triggers que populam
a tabela audit_chado. Uma vez realizado uma insertao, atualizao, ou deleo armazenada dentro da tabela de auditoria o tempo, e o identicador de usurio. O mdulo
de ontologias e vocabulrio controlado so parte integrante do CHADO que permite ter

um esquema genrico que tipica todas as entidades dentro do banco de dados. A tabela
cvterm armazena cada um desses tipos (dados e relaes). O mdulo sequncia, mais particularmente a tabela feature muito importante para que o esquema do CHADO gerencie
sequncias de dados. Neste contexto uma feature uma regio de uma macromolcula
(DNA, RNA ou protena) [10, 50]. A Figura 3.10 mostra as tabelas mais importantes que
compem a mdulo de sequence feature.
Figura 3.10: Esquema mostra as principais tabelas do mdulo de sequncia.
Algumas
tabelas e colunas foram omitidas para fazer o diagrama mais conciso. Adaptado de [10].
31
Captulo 4
Modelo de Dados para um Pipeline de
Sequenciamento de Alto Desempenho
O presente captulo apresenta um modelo de dados orientado a objetos para dar suporte a um pipeline de sequenciamento de alto desempenho usando a notao UML. Alm
disso, apresentado o esquema relacional correspondente. O objetivo desta proposta
oferecer um modelo capaz de representar as diferentes fases que envolvem um projeto
de sequenciamento transcritmico. Dessa forma, tentar trazer o modelo conceitual mais
perto do domnio do processo de sequenciamento, alm do domnio biolgico.
Como exposto no captulo anterior (Seo 3.2), os modelos conceituais disponveis na
literatura, tem o foco principal no dado biolgico, e no, no processamento dos projetos
de sequenciamento atuais.
O objetivo desta dissertao propor o modelo de dados
conceitual que possa integrar a modelagem de conceitos prprios da biologia molecular

assim como a modelagem dos processos envolvidos no sequenciamento de alto desempenho
transcritmico. O primeiro passo para atingir este objetivo a denio da estrutura do
pipeline, descrita na Seo 4.1. O prximo passo a denio dos modelos conceituais
para cada uma dessas fases, assim como o modelo conceitual geral para o pipeline de
sequenciamento de alto desempenho transcritmico detalhado na Seo 4.2. Na Seo 4.3
desenvolvido o esquema relacional para a implementao do modelo de dados proposto
em um sistema gerenciador de banco de dados relacional.
4.1 Estrutura Geral do Pipeline de Sequenciamento de

Alto Desempenho
O objetivo do modelo conceitual apresentado nesse trabalho dar suporte aos projetos
de sequenciamento de alto desempenho transcritmico. Os novos sequenciadores de alto
desempenho produzem SRS de comprimento que variam de 30 pb a 400 pb [16].
Em
contraste as sequncias de comprimento maior do sequenciamento Sanger, o pequeno tamanho das SRS produzido pelos novos sequenciadores torn-lo mais difcil para realizar as
diferentes anlises de um pipeline tradicional. Alm disso, para a montagem de sequncias
e o resequenciamento de genoma, sequncias mais curtas vo exigir uma maior cobertura
ou amostragem do genoma para representar com preciso as informaes genticas [16].
32
proposto um pipeline de trs fases (Figura 4.1): ltragem, mapeamento e anlise.

A estrutura do pipeline permite voltar a uma fase anterior de acordo com a necessidade
dos usurios do projeto. Por exemplo, pode-se voltar da fase de mapeamento fase de
ltragem, da fase de anlise fase de mapeamento ou ltragem.
Figura 4.1: Estrutura do pipeline de alto desempenho com as fases da ltragem, mapeamento e anlise
Fase de ltragem : Aps o processo de sequenciamento feito pelo sequenciador de alto

desempenho, milhes de fragmentos de DNA/RNA so gerados. O processo de ltragem
fundamental, pois geralmente h sequncias que apresentam DNA/RNA de regies
cujo sequenciamento impreciso, ou simplesmente tem regies que no so interessantes
seu processamento nas fases subsequentes.
O processo de sequenciamento gera as SRS
junto com as sequncias de qualidade associadas a cada base.
A qualidade um valor
numrico que expressa a probabilidade de erro associada a cada base. Cada projeto xa
um valor mnimo aceitvel de qualidade. As bases que apresentam um valor de qualidade
abaixo de um limite preestabelecido devem ser descartadas, uma vez que podem gerar
imprecises nas etapas subsequentes do pipeline. As SRS geradas tambm podem conter
contaminantes provenientes de fragmentos de DNA no pertencentes espcie estudada.
Em um laboratrio comum a execuo de experimentos com organismos diferentes.
Acidentalmente, possvel que uma amostras seja contaminada com sequncias de outro
organismo estudado no mesmo laboratrio. Outra possibilidade de contaminao ocorre
quando se estuda organismos que vivem relaes simbiontes ou atacado por alguma
doena. Existe a possibilidade de contaminao, pois durante a coleta de material existe
a possibilidade da obteno de DNA de ambos [25].
No sequenciamento so usados outros fragmentos tais como primers, vetores e adaptadores que podem de alguma forma conter contaminantes e afetar o valor de certeza das
bases sequenciadas (qualidade) [24]. Outras caractersticas possivelmente presentes nas
sequncias transcritas que podem dicultar o processamento das etapas subsequentes do
pipeline so as presenas de caudas poli-A/poli-T (longa sequncia de nucleotdeos adena

e timina) e repeties de elementos [25]. Nesta fase de ltragem, os contaminantes, regies
de baixa qualidade, caudas poli-A e poli-T e repeties de elementos so removidos das
sequncias. Se depois desse processo o tamanho das sequncias car abaixo de um limite
pr-estabelecido, as mesmas so descartadas, no sendo utilizadas nas etapas subsequentes
do pipeline.
Os parmetros utilizados para a ltragem variam, de acordo com a espcie estudada,
com os objetivos do projeto e com a experincia dos pesquisadores. O limite mnimo para
33
que uma base seja considerada de baixa qualidade e o tamanho mnimo para que uma
sequncia no seja descartada aps a limpeza so exemplos de parmetros congurveis
nessa etapa.
Fase de mapeamento : Uma vez que as sequncias obtidas pelos novos sequenciadores
so relativamente curtas em relao ao sequenciamento tradicional, isso torna invivel
o uso das tcnicas tradicionais para reagrupar e ordenar os fragmentos sequenciados no
DNA original, de forma a corresponderem s suas respectivas posies nos cromossomos
[4]. Nesta etapa, usa-se um genoma de referncia, normalmente um organismo prximo
ao organismo sendo sequenciado cujo genoma j conhecido com grande preciso. Dado
esse genoma de referncia, pode-se mapear as pequenas sequncias obtidas pelos novos
sequenciadores e agrup-las conforme a posio das mesmas no mapeamento. Uma vez
que as sequncias agrupadas constituem um nmero muito menor a ser analisado e visto
possurem poucas diferenas entre si, pois esto mapeadas aproximadamente na mesma
regio do genoma, seria possvel aplicar tcnicas de montagem tradicional a esses grupos de
sequncias. Alm de um genoma de referncia, seria possvel tambm utilizar bibliotecas
de exons como sequncias de referncias para a vericao de splicing alternativo a partir
do sequenciamento das SRS [1].
A tarefa de mapeamento de SRS buscar a localizao onde uma SRS idntica
referncia.
Porm, na verdade a referncia nunca uma representao perfeita da
fonte biolgica atual do DNA/RNA que foi sequenciado. Alm disso, as SRS podem as
vezes ser mapeadas perfeitamente em vrios locais [51].
Portanto, a verdadeira tarefa
dessa fase encontrar o local onde cada SRS seja mapeada com mais alta preciso no
genoma de referncia. Comumente, esta fase includa no pipeline transcritmico quando
existem estudos logenticos de organismos prximos que tenham sido bem estudados,
chamados genomas de referncia. As SRS que so mapeadas na mesma regio do genoma
de referncia so agrupadas dentro de um conjunto que representado por uma sequncia
de consenso construda a partir do todas as SRS que pertencem a este conjunto.
Fase de anlise : Esta fase tem uma grande dependncia do propsito do projeto. A
fase de anlise o processo de procurar informao relevante das SRS obtidas na fase do
mapeamento, devidamente interpretadas, para extrair seu signicado biolgico e coloclo no contexto da compreenso dos processos biolgicos [52].
formulao de testes de hipteses biolgicas [53].
Esta fase til para a
O processo de anlise, normalmente
contm um passo de anotao onde funes (bioqumicas e biolgicas) so atribudas a

um grupo de sequncia. Um resultado da procura encontrar informao relevante, como
sequncias de genes e regies reguladoras, identicao de expresso de genes, anlises de
logenia, assim como outras anlises.
4.2 Modelo Conceitual para o Pipeline de Sequenciamento de Alto Desempenho

Seguindo as fases descritas por Silberschatz et al. [35], a fase inicial do projeto prev
entrevistas com especialistas do conhecimento, neste caso especialistas em biologia molecular para denir e caraterizar o problema.
Neste trabalho, o objetivo desenvolver
modelos de dados para um pipeline de sequenciamento de alto desempenho para armazenar os dados gerados pelas diferentes fases do pipeline.
34
A segunda fase prevista por Silberschatz et al. [35] se refere escolha do paradigma de
modelamento para a modelagem conceitual; neste caso, escolheu-se o modelo MOO por
sua capacidade de representar dados complexo, e a seguir foi desenvolvido o diagrama de
classes usando usando a notao UML (veja Figura 4.2). O modelo de dados conceitual
est dividido em trs modelos: ltragem, mapeamento e anlise.
Os modelos esto de
acordo com as fases do pipeline apresentado anteriormente. Cada modelo apresentado

nas sees seguintes.
A Tabela 4.1 apresenta o nome de todas as entidades do modelo, assim como tambm,
a sus descrio.
Nome entidade
Tabela 4.1:
organism
Entidades de cada modelo
Descrio entidade
Organismos a serem estudados
sample
Amostras tiradas de algum organismo
project
projetos
short_read
Sequncias de bases
sequencer
Sequenciadores
quality_type
Tipo de qualidade usado pelo sequenciador
ltering_process
Processo de ltragem das sequncias
parameter
Parmetros usados no processo
ltering_parameter
Valores dos parmetros
reference_genome
Genomas de referncia bem anotados
chromosome
Cromossomos do genoma de referncia
gene
Genes contidos nos fragmentos de cromossomos
chromosome_fragment
Segmentos de cromossomo
mapping_process
Processos de mapeamento
mapping_result
Fragmentos (sequncias) mapeados
database
Bancos de dados usados
analysis_process
Processos de anlises
ncRNA_identication
Identicao de RNA no codicadores
dierential_expression
Anlises de expresso diferencial
phylogenetic_analysis
anlises logenticas (homologia, hortologia e paralogia)
sequence_alignment
Alinhamento de sequncias
other
Outras possveis anlises
35
36
diagrama ampliado no anexo I.
Figura 4.2: Diagrama de classes do modelo conceitual para um pipeline de sequenciamento de alto desempenho transcritmico. Ver
O modelo de dados est dividido em trs modelos menores. Estes modelos representam
as fases da ltragem, mapeamento e anlise. A Tabela 4.2 mostra para cada modelo as
entidades que o compem.
Tabela 4.2:
Entidades do modelo do pipeline
Nome modelo Nome entidade do modelo

organism
sample
project
short_read
sequencer
Filtragem
quality_type
ltering_process
ltering_parameter
parameter
reference_genome
chromosome
Mapeamento
chromosome_fragment
mapping_process
mapping_parameter
mapping_result
database
analyse_process
ncRNA_identication
Anlise
dierential_expression
sequence_alignment
other
4.2.1 Modelo de Dados da Fase de Filtragem

A fase de ltragem inclui diferentes entidades com propsitos especcos. A tecnologia usada no sequenciamento de alto desempenho representada pela entidade sequencer.
Todas as SRS sequenciadas so representadas pela entidade short_read que armazena as
sequncias e as qualidades correspondentes a cada base. A entidade ltering_process descreve o processo de ltragem, onde cada instncia da entidade ltering_process pode ser
associada a diferentes parmetros e seus valores atravs da entidade ltering_parameter.
Os parmetros usados so armazenados na entidade parameter que est relacionada com
a entidade ltering_parameter.
Alm disso, as SRS tm diferentes tipos de qualidades
de acordo com a tecnologia de sequenciador usada, o tipo de qualidade representado

pela entidade quality_type. As entidades sample e organism armazenam informaes das
amostras e do organismo da onde vem as amostras a serem sequenciadas. Enquanto isso,
a entidade project representa os dados bsicos do projeto de sequenciamento e est associado entidade sample visto que num projeto so estudadas muitas amostras. Finalmente,
37
o autorelacionamento lters (veja gura 4.3) evidencia aquelas SRS que satisfazem o critrio da ltragem, tais como porcentagem mnima de bases, onde cada um tenha um
mnimo de qualidade, ou outros ltros de acordo com o objetivo do projeto.
As SRS
ltradas sero includas na prxima fase do pipeline.

A Figura 4.3 mostra o diagrama com os relacionamentos que existem no modelo Filtragem, composto pelas entidades:
organism, sample, project, sequencer, short_read,
quality_type, ltering_process, ltering_parameter, e parameter. A Tabela 4.3 apresenta

os atributos de cada entidade desses modelos.
Figura 4.3: Diagrama de classes do modelo ltragem.
38
Tabela 4.3:
Entidade
organism
sample
project
short_read
Entidades e atributos do modelo ltragem
Nome atributos
Descrio atributos
species
Espcie do organismo
common_name
Nome comum do organismo
description
Descrio do organismo
sample
Nome da amostra
date
Data de preparao da amostra
responsible
Pessoa encarregada
description
Descrio
project_name
Nome do projeto
namager_name
Pessoa encarregada do projeto
funding
Fundao que nancia o projeto
instituition
Instituio a cargo do projeto
description
Descrio do projeto
sequence
sequncia de bases
quality_seq
sequncia de carteres ASCII que
genus
Gnero do organismo
representam a qualidade de cada

base
name_sequencer_center
Nome
do
centro
de
sequencia-
mento
sequencer
quality_type
plataform
Tecnologia do sequenciador
description
descrio
quality_name
Nome do tipo de qualidade
start_ASCII
incio dos carteres ASCII
end_ASCII
Fim dos carteres ASCII
oset
Deslocamento
type
Tipo
de
escore
de
qualidades
(PHRED, Solexa, ...)
ltering_process
start_quality_range
Incio de qualidade
end_quality_range
Fim de qualidade
description
Descrio do processo de ltragem
ltering_paramenter
parameter
value
Valor do parmetro
description
Descrio do valor usado
parameter_name
Nome do parmetro
39
4.2.2 Modelo de Dados da Fase de Mapeamento

Na fase de mapeamento (ver Figura 4.4) so usados diferentes genomas de referncia
(entidade reference_genome ) o que depender do tipo de organismo que est sendo estudado. Comumente utilizado como o genoma de referncia, o genoma de um organismo
prximo bem anotado. Neste genoma de referncia so mapeados as SRS ltradas (da fase
de ltragem). A localizao de cada SRS dentro do genoma de referncia representada
pela entidade mapping_result, que contm o sentido da ta, o comeo e a posio nal
das SRS dentro do genoma de referncia. Alm disso, a entidade reference_genome consiste de uma coleo de cromossomos que tem uma relao de composio com a entidade
chromosome que representa todos os cromossomos que compem o genoma de referncia. Cada cromossomo pode ser considerado como uma sequncia longa de DNA/RNA,
o que por sua vez consiste de uma sequncia (potencialmente sobrepostos) de fragmentos
de sequncias (entidade chromosome_fragment ) com seus incios e ns. No modelo da
Figura 4.4, a entidade mapping_process associada s SRS ltradas ao genoma de referncia e est relacionada com a entidade mapping_parameter que representa os valores
usados dos paramentos no processo de mapeamento.
Figura 4.4: Diagrama de classes do modelo mapeamento.

A Figura 4.4 mostra o diagrama com os relacionamentos que existem no modelo Mapeamento, onde (b),(c), (d) e (e) unem as entidades organism da fase de ltragem
entidade reference_genome da fase de mapeamento, a entidade ltering_process da fase
de ltragem entidade mapping_process, a entidade parameter da fase de ltragem
entidade mapping_parameter, e a entidade mapping_process entidade analysis_process
da fase de anlise respectivamente. A Tabela 4.4 apresenta a descrio de cada uma dessas
entidades.
40
Tabela 4.4:
Entidade
Entidades e atributos do modelo mapeamento
Reference_genome
Chromosome
Chromosome_fragment
Nome atributos Descrio atributos

version
Verso do genoma
description
descrio
start
Comeo do fragmento de sequncia
Mapping_process
end
Fim do fragmento de sequncia
failed_mapped
Nmero de SRS no mapeadas
ok_mapped
Nmero de SRS mapeadas com

sucesso
Mapping_parameter
mapping_resul
description
descrio
value
Valor de parmetro
description
descrio
strand
Sentido da cadeia (ta)
start
Comeo de onde foi mapeado a

SRS
end
Fim de onde foi mapeado a SRS
4.2.3 Modelo de Dados da Fase de Anlise

Na fase de anlise do pipeline de sequenciamento de alto desempenho, muitos tipos de
anlises podem ser desenvolvidos. O modelo desta fase um modelo geral das principais
anlises que podem ser realizadas em um projeto de sequenciamento de alto desempenho.
Neste contexto, a Figura 4.5 contm a entidade database que armazena informao sobre
os bancos de dados usados para os diferentes processos de anlises, assim como tambm,
a entidade analysis_process.
Outras entidades gerais so representadas no modelo e devem ser utilizadas de acordo
com o tipo de anlise realizada no projeto de sequenciamento, dentre essas tem-se as entidades: sequence_alignment que representa os processos de alinhamento de sequncias;
ncRNA_identication que representa a identicao de RNA no codicadores; dierential_expresion que representa o estudo de expresso diferencial; phylogenetic_analysis
que representa os processos de anlises logenticas (identicao de genes homlogos,
ortologos, e parologos), e other_analysis que representa outros tipos de anlises em especco que podem ser feitos. A Figura 4.5 apresenta esse modelo. A Tabela 4.5 apresenta
a descrio de cada entidade.
41
Figura 4.5: Diagrama de classes do modelo de anlise.
Tabela 4.5:
Entidades e atributos do modelo anlise
Entidade
Nome atributos Descrio atributos

db_name
Nome do banco de dados usado
database
url
Web site
description
Descrio do banco de dados
description
Descrio geral do processo de
analysis_process
anlise
ncRNA_identication
description
Descrio do processo de identicao de RNA no codicadores
dierentiall_expression
description
Descrio do processo de expresso diferencial
description
Descrio do processo de anlise

logentica
sequence_alignment
description
Descrio do processo de alinhamento de sequncias
other_analyssis
Como a Tabela 4.5 apresenta, possvel ser realizados diferentes processos de anlises.
Neste trabalho de dissertao foi desenvolvido a anlise de expresso diferencial
42
(dierential_expression ).
4.3 Denio do Esquema Relacional do Pipeline

Para mostrar a viabilidade do modelo de dados conceitual desenvolvido na seo 4.2,
apresentado o esquema relacional gerado a partir do mapeamento do modelo conceitual.
O esquema relacional est dividido em trs partes seguindo o pipeline (geral) j denido
(veja Figura 4.6).
O esquema relacional contempla algumas modicaes inerente ao processo de mapeamento do modelo conceitual e do prprio esquema relacional.
As tabelas resultam
exclusivamente das entidades do modelo conceitual e das associaes.
Alm disso, foi
necessaria a criaao de um novo tipo de dados para agrupar e armazenar milhes de SRS
em um s elemento, j que a representao e consequentemente a insero das SRS individualmente custosa em termos de tempo e espao dentro do SGBD, j que a criao
dos metadados, ndices e dados estatsticos fazem a insero das SRS individualmente
demoradas e aumentam o tamanho do banco de dados signicativamente.
Neste con-
texto, as SRS so agrupadas em conjuntos grandes o suciente para serem armazenados

diretamente no SGBD, porque os modernos SGBDs tm o tipo de dados BLOB que pode
armazenar grandes quantidades de dados.
Alm disso, os SGBDs tm a capacidade e
algoritmos de compresso de dados para o armazenamento eciente de grandes volumes

de informao. A Tabela 4.6 apresenta as tabelas que compem o esquema do pipeline.
O esquema relacional est dividido em trs esquemas. Estes esquemas representam as
fases da ltragem, mapeamento e a anlise. A Tabela 4.7 mostra para cada esquema, as
tabelas que o compe.
4.3.1 Esquema Relacional da Fase de Filtragem

A Figura 4.7 mostra o esquema relacional de dados utilizado no armazenamento da fase
de ltragem. A tabela ltering_process contm informao sobre os processos de ltragem
tais como o nmero de SRS ltradas com sucesso e o nmero de SRS descartadas, sendo
associado a um ou mais arquivos que contm SRS (tabela short_read ) atravs de uma
tabela associada (short_read_ltering ). A tabela ltering_process est relacionada com
os diferentes resultados inerentes a fase de ltragem. Esses resultados so armazenados na
tabela ltering_result. A tabela ltering_result resultado do auto relacionamento lter
do modelo conceitual, j que, no processo de ltragem gera-se conjuntos grandes de SRS
que passaram o processo de ltragem, no enquanto no modelo conceitual a ltragem
aplicada a nvel de SRS. Consequentemente, com a tabela de resultados (ltering_result )
tem-se melhor controle dos resultados a nvel de conjunto de SRS. Alm disso, a tabela
ltering_result contm a coluna data criado para poder armazenar arquivos inteiros,
data denido usando o tipo de dados BLOB (Binary Large Objects ). Por outro lado, a
tabela ltering_process est associada a diferentes parmetros de ltragem que dependem
dos diferentes ltros adotados armazenado na tabela ltering_parameter que contm os
parmetros e os valores usados nas diferentes execues para poder conseguir os resultados
da tabela ltering_result.
As tabelas organism, sample, project, quality_type, sequencer e parameter no apresentam mudanas com respeito as suas correspondentes entidades do modelo conceitual.
43
Figura 4.6: Esquema relacional do pipeline de sequenciamento de alto desempenho transcritmico. Ver diagrama ampliado no anexo II.
44
Tabela 4.6:
Tabelas do esquema relacional do pipeline.
Nome tabela
Descrio entidade
sample
Amostras tiradas de algum organismo
project
Os projetos desenvolvidos
short_read
sequncias de bases
sequencer
Sequenciadores
quality_type
Tipos de qualidades usados pelo sequenciador
ltering_process
Processo de ltragem das sequncias
parameter
Parmetros usados no processo
ltering_parameter
Valores dos parmetros usados na ltragem
short_read_ltering
Tabela associativa entre as tabelas short_read e lte-
organism
Organismos a serem estudados
ring_process
ltering_result
Resultado do processo de ltragem contemdo o conjunto

de sequncias de bases j ltradas
reference_genome
Genomas de referncia bem anotados
chromosome
Cromossomos do genoma de referncia
chromosome_mapping
Tabela associativa entre as tabelas chromosome e map-
database_organism
Tabela associativa entre as tabelas database e organism
mapping_process
Processos de mapeamento
mapping_result
Conjunto de sequncias mapeadas
mapping_parameter
Valores dos parmetros usados no mapeamento
database
Bancos de dados usados
mapping_analysis
Tabela associativa entre as tabelas mapping_process e
ping_process
analysis_process
A Tabela 4.8 apresenta algumas tabelas, colunas e suas descries (Anexo III para ver a
tabela completa).
45
Tabela 4.7:
Tabelas que compem cada subesquema
Nome subesquema Nome tabela

Organism
sample
project
short_read
Filtragem
Sequencer
quality_type
ltering_process
ltering_parameter
parameter
short_read_ltering
ltering_result
Reference_genome
chromosome_mapping
chromosome
Mapeamento
Mapping_process
Mapping_parameter
chromosome_mapping
mapping_result
database
database_organism
Anlise
analysis_process
mapping_analysis
analysis_type
gene
4.3.2 Esquema Relacional da Fase de Mapeamento

A Figura 4.8 mostra o esquema relacional de dados utilizados no armazenamento da
fase de mapeamento.
Na tabela mapping_result, a coluna data de tipo BLOB (Bi-
nary Large Objects ) onde arquivos resultado do mapeamento so armazenados.
Ana-
logamente, relatrios de resultados dos programas de mapeamento de SRS, tais como

Bowtie e TopHat, so armazenados na tabela mapping_process.
Alm disso, a tabela
mapping_process contm as colunas failed_mapped e ok_mapped que guardam o nmero

de SRS mapeadas dentro do genoma de referncia (tabela reference_genome ). O genoma
de referncia composto de cromossomos (representado pela tabela chromosome contendo
um arquivo por cada cromossomo armazenado dentro do campo data de tipo BLOB). J,
a tabela chromosome_mapping resultado da cardinalidade muito para muitos associado s tabelas mapping_process e chromosome. Assim como na fase da ltragem, no
processo de mapeamento so usados diferentes parmetros e valores dos mesmos para
cada execuo do processo de mapeamento. Esses parmetros e seus respectivos valores
so armazenados na tabela mapping_parameter que so detalhadas na Tabela 4.9 (Anexo
IV para ver a tabela completa) para todas as tabelas envolvidas na fase de mapeamento.
46
Figura 4.7: Esquema relacional da fase de ltragem.
4.3.3 Esquema Relacional da Fase de Anlise

A Figura 4.9 mostra o esquema relacional de dados utilizados no armazenamento da
fase de anlise que no estudo de caso a expresso diferencial. A tabela mapping_analysis
uma tabela associada das tabelas mapping_process e analysis_process por causa da relao N:N entre as entidade mapping_process e analysis_process do modelo conceitual. A
tabela analysis_process armazena informao dos diferentes processos de anlise. Alm
disso, a tabela analysis_type armazena a especicao dos diferentes tipo de anlises.
Neste esquema pode-se adicionar outros esquemas que um processo de anlise em especico usa para desenvolver a anlise.
A Tabela 4.10 explica detalhadamente cada coluna que compe as tabelas envolvidas
nesta fase.
47
Tabela
organism
sample
project
Tabela 4.8:
Tabelas e colunas do subesquema ltragem
Coluna
Descrio coluna
genus
Gnero do organismo
species
Espcie do organismo
common_name
description
id_sample
Identicador da amostra
sample
Nome da amostra
date
responsible
Pessoa encarregada
description
Descrio
id_project_name
Identicador do projeto
project_name
Nome do projeto
namager_name
funding
instituition
description
Descrio
id_read
Identicador
id_organism
Identicador do organismo
do
conjunto
con-
tendo as SRS
id_sample
Chave fornea da onde vem as

SRS
short_read
id_quality_type
Chave estrangeira da tabela qua-
lity_type, indica o tipo de qualidade que das SRS
id_sequencer
Chave estrangeira da tabela se-
quencer, indica a tecnologia usada

no sequenciamento
data
Contm um conjunto de SRS
description
descrio
48
Figura 4.8: Esquema relacional da fase de mapeamento.
Tabela
Tabela 4.9:
Tabelas e colunas do subesquema mapeamento
Coluna
id_reference_genome
Descrio coluna
Identicador do genoma de referncia
reference_genome id_organism
Chave estrangeira da tabela orga-
nism, identica o organismos

version
Verso do genoma
description
descrio
id_chromosome
Identicador do cromossomo
id_reference_genome
Chave estrangeira da tabela re-
ference_genome, identica o genoma de referncia.
chromosome
chromosome_name
Nome do cromossomo
data
Contm a sequncia de bases do

cromossomo
description
chromosome_
descrio
id_mapping_process
Chave estrangeira da tabela map-
mapping
ping_process,
identica
pro-
cesso de mapeamento
id_chromosome
Chave estrangeira da tabela ch-
romosome, associa o cromossomo

com o processo de mapeamento
49
Figura 4.9: Esquema relacional da fase de anlise.
50
Tabela 4.10:
Tabelas e Colunas do subesquema a fase de anlise - Expresso.
Tabela
Coluna
analysis_process
id_database
id_analysis_process
Descrio coluna
Identicador do processo de anlise

Chave estrangeira da tabela data-
base, identica o banco de dados

usado
id_analysis_type
Chave
estrangeira
analysis_type,
da
identica
tabela
o
tipo
de anlise
analysis_type
database
database_organism
description
descrio da anlise
id_analysis_type
Identicador do tipo de anlise
name_analysis
Nome da anlise
description
descrio do tipo de anlise
db_name
url
Sitio web
description
Descrio
id_database
id_organism

nism, identica o organismo
mapping_analysis
id_mapping_process
Chave
fornea
ping_process,
da
tabela
identica
mappro-
cesso de mapeamento
id_analysis_process
Chave fornea da tabela analy-
sis_process, identica o processo

de anlise
51
Captulo 5
Estudo de Caso
No presente captulo apresenta-se dois estudos de caso com o objetivo de validar a proposta de modelagem e implementao apresentada no Captulo 4. Na Seo 5.1 apresentada uma viso geral dos estudos de casos implementados. Na Seo 5.2 so estudadas as
diferentes tecnologias usadas nos estudos de caso. Na Seo 5.3 denido o pipeline com
as aplicaes da bioinformtica incluindo as fases: ltragem, mapeamento e anlise. Na
Seo 5.4 so apresentados os resultados experimentais. Na Seo 5.5 apresenta-se a discusso dos modelos e dos resultados alcanados. Na seo 5.6 apresentam-se os trabalhos
publicados.
5.1 Viso Geral do Estudo de Caso

Para a avaliao do modelo conceitual proposto, foram desenvolvidos dois estudos de
caso utilizando dados gerados no Departamento de Gentica Humana da Universidade
de Chicago dos Estados Unidos da Amrica publicado em 2008 [55] e dados gerados pelo
laboratrio YEO LAB da Universidade de Califrnia dos Estados Unidos da Amrica
publicado em 2008. Os dados gerados por esses laboratrios so provenientes do sequnciamento de alto desempenho onde foram usados os sequnciadores Illumina GA II e
Illumina GA I, respectivamente.
Em primeiro lugar, o laboratrio do Departamento de Gentica Humana da Universidade de Chicago realizou o sequnciamento de amostras de clulas de rim e fgado para
identicar a expresso diferencial de genes em comparao com tecnologias de arranjos
[56] existentes. Neste contexto, o objetivo desse trabalho foi comparar a capacidade de
identicar genes diferencialmente expressos entre duas abordagens diferentes: sequnciamento de alto desempenho e tecnologia de arranjos. O sequnciamento das amostras de
cDNA de rim produziu 72 987 691 SRS e a amostra de fgado 72 126 823 SRS . O resultado
do sequnciamento um conjunto de arquivos FASTQ contendo SRS de 36 pares de bases
de comprimento com as suas qualidades associadas a cada base.
No segundo caso, o laboratrio YEO LAB da Universidade de Califrnia desenvolveu
um estudo de anlise transcritmico com clulas de cncer para detectar transcritos e
isoformas de mRNA. O objetivo deste trabalho foi comparar os dados do sequnciamento
de clulas de cncer de prstata LNcap que receberam tratamento com hormnios de
andrgeno [57] atravs de uma anlise quantitativa da expresso diferencial de genes. O
sequnciamento de clulas de cncer de prstata LNcap com e sem tratamento produziu
52
10 109 398 SRS para amostras tratadas e 7 156 324 SRS para amostras no tratadas. O
resultado do sequnciamento um conjunto de arquivos FASTA contendo SRS de 36 pares
de base de comprimento. As SRS deste sequnciamento no apresentam as sequncias das
qualidades correspondentes a cada base, por isso o tratamento destes dados tem algumas
peculiaridades que so descritas nas prximas sees.
5.2 Arquitetura Abstrata do Pipeline

Para a execuo do pipeline necessrio den-lo e congur-lo. Sendo assim, a primeira etapa foi a denio dos programas a serem utilizados, assim como a sua congurao em cada fase do pipeline.
O esquema apresentado na Figura 5.1 mostra o
funcionamento do pipeline.
Figura 5.1: Viso geral do pipeline de anlise para sequnciamento de alto desempenho
transcritmico usado como estudo de caso.
Como dito na seo anterior, as SRS utilizadas no estudo de caso tm o formato
FASTQ [58]. Em linhas gerais o formato FASTQ composto pelas cadeias de sequncias
de bases e as sequncias de qualidades associadas a cada base.
Este tipo de arquivo
armazena informao gerada pelos sequnciador Illumina em formato texto (Ver Anexo
VII). Os arquivos FASTQ tem um grande volume de dados, chegando ao tamanho de
mais de 10GB de dados nos nossos estudos de caso.
Na fase de ltragem do pipeline, foram usados os pacotes FASTX-Toolkit e o pacote FASTQC. O FASTX-toolkit [59] uma coleo de ferramentas que fornece prprocessamento de arquivos FASTA e FASTQ. Entre as principais caratersticas tem-se a
converso do formato FASTQ a FASTA, remoo de barcodes de sequncias, remoo de
adaptadores de sequncias, ltragem de sequncias baseadas na qualidade, entre outras.
O FastQC [60] uma aplicao java que gera um relatrio de controle de qualidade dos
53
dados de sequenciamento de alto desempenho com o objetivo de detectar problemas que

se originam tanto no sequenciador ou no material usado no sequenciamento de alto desempenho. Esta ferramenta tem como entrada arquivos BAM, SAM e FASTQ, produzindo
em sua sada guras e relatrios da qualidade dos dados.
Sendo assim, no nosso pipepiline foi usado o pacote FASTX-Toolkit para eliminar as
SRS de baixa qualidade, e os pacotes FASTQC para avaliar se os resultados alcanados
foram aceitveis atravs de informes estatsticos. Segundo os resultados alcanados podese continuar com a prxima fase ou realizar outro processo de ltragem.
Esta fase da
ltragem de suma importncia para assegurar que a fase seguinte do pipeline use s
sequncias com qualidade aceitvel.
Uma vez que a fase de ltragem foi completada, o processo de mapeamento comea
usando o programa TopHat. O TopHat [61] implementa um algoritmo de mapeamento de
SRS eciente projetado para alinhar SRS que vem de um sequenciamento de alto desempenho. O TopHat encontra junes mapeando as SRS em duas fases. Na primeira fase,
so mapeadas todas as SRS no genoma de referncia usando Bowtie [62] que usa ndices
para acelerar o procedimento de busca e diminuir o custo de memria associado a procura
das sequncias no genoma de referncia. Esta tcnica usada pelo Bowtie consiste em concatenar todo o genoma de referncia em uma nica string e realizar uma transformao
de Burrows-Wheeler para construir um ndices do genoma de referncia. O programa ento procede realizando o mapeamento de um caracter da SRS por vez, at alinhar todas
as SRS. Se isso no for possvel, o programa volta atrs e realiza a substituio de um
caracter, uma opo permite controlar o nmero mximo de substituies de carateres
permitidas. Todas as SRS que no foram mapeadas no genoma so separadas como SRS
no mapeadas inicialmente. Depois, as SRS no mapeadas so divididas em segmentos
menores e mapeadas individualmente. Dessa forma, amplia-se as probabilidades de ser
mapeadas no genoma de referncia.
O programa R foi escolhido para implementar a anlise de dados.
O R [63] um
ambiente de software livre para computao estatstica. Trabalha sobre diferentes plataformas: UNIX, Windows e MacOS. Uma das principais vantagens do R a facilidade de
projetar plots de qualidade, incluindo smbolos e frmulas matemticas, quando necessrias. Outra importante vantagem a facilidade de incluso de diferentes aplicativos tal
como o projeto BioConductor [64] que fornece ferramentas para as anlises e compreenso
de dados de sequenciamento de alto desempenho.
Entre os diferentes pacotes oferecidos pelo projeto BioConductor tem-se o pacote
Rsamtool [65] que traz as funcionalidades do samtool atravs dos mtodos scanBAM
e BAM Views. O mtodo scanBAM altamente parametrizado de modo que muitos detalhes de acesso e de ltragem de arquivos BAM contendo SRS podem ser controlados
atravs do R. O mtodo BAM Views permite a leitura e gerenciamento dos dados no R;
SRS mapeadas podem ser importadas, e visualizadas ecientemente para grandes colees
de dados. O pacote de GenomicFeatures [11], um conjunto de ferramentas e mtodos
para fazer e manipular anotaes de transcritos. Com estas ferramentas o usurio pode
facilmente baixar as localizaes genmicas dos transcritos, exons e CDS de um dado
organismo. Esta informao armazenada em um banco de dados local que mantm o
controle da relao entre os trancritos, exons CDS e genes. O GenomicFeatures tambm
fornece mtodos exveis para extrair as caratersticas desejadas em um formato conveniente. O Pacote edgeR (Empirical analysis of Digital Gene Expression data in R ) [66], usa
54
mtodos de Bayes emprico e distribuio binomial negativa para as anlises de expresso

diferencial de sequnciamento de alto desempenho. EdgeR projetado para a anlise de
dados baseado na contagem da replicao de dados. Finalmente, o pacote RdbiPgSQL
[67] fornece mtodos para acessar dados armazenados em tabelas do SGBD PostgreSQL
usando o ambiente R.
O Sistema Gerenciador de Banco de Dados

Os sistemas de bancos de dados so projetados para administrar grandes volumes de
informaes sobre uma determinada aplicao, provendo um ambiente que seja adequado
e eciente para o armazenamento e a recuperao das mesmas [35]. Um dos principais
benefcios de um sistema de banco de dados proporcionar uma viso abstrata dos dados.
Uma vez que a maioria dos usurios de bancos de dados no especialista em computao,
omite-se deles a complexidade da estrutura interna dos bancos de dados, graas a diversos
nveis de abstrao que simplicam a interao do usurio com o sistema [35].
De uma maneira geral, pode-se dizer que um sistema de banco de dados constitudo
por um conjunto de programas e/ou aplicaes; estes, por sua vez, esto associados a um
conjunto de dados por intermdio de um SGBD [35]. Neste contexto, a integrao dos
dados em banco de dados, acessados, tanto pelos programas como por consultas, por meio
de uma linguagem de alto nvel foi possvel atravs do SGBD. O SGBD, parte integrante
de um sistema de banco de dados (veja Figura 5.2), um software que ajuda os usurios
a criar, armazenar e processar dados para diversas aplicaes [36, 35].
O SGBD o
responsvel pelo controle de acesso aos dados, ou seja, ele que gerencia os privilgios
de cada um dos usurios, e libera, ou no, o acesso aos dados, geralmente por meio de
um sistema de acesso a usurios.
Alm disso, os SGBDs devem garantir as seguintes
caractersticas: Controle de Transaes, Garantia da Integridade, Garantia de Segurana

[35].
Figura 5.2: Representao simplicada de um Sistema de Banco de Dados.
55
Nesta pesquisa, optou-se pelo SGBD PostgreSQL que possui como ambiente nativo a
plataforma Unix, sendo tambm compatvel com a plataforma aberta Linux que bastante
usada na rea de bioinformtica. Outra caracterstica que possui uma interface grca
atravs de um cliente no ambiente MS Windows, bem como nas plataformas Linux e
Unix. Alm disso, realizou-se anlises de tempo gasto e de espao na insero de grandes
volumes de dados no SGBD MySQL comparado com o SGBD PostgreSQL, onde o SGBD
PostgreSQL obteve melhores resultados.
Estes resultados inuenciaram na escolha do
PostgreSQL em relao ao MySQL no nosso estudo de caso.

O PostgreSQL conta uma extensa comunidade que suporte as diferentes organizaes
acadmicas, corporativas e de pesquisa. PosgreSQL lder em tecnologia e conhecido
como o SGBD de cdigo aberto mais avanado do mundo. Ele tem excelente desempenho,
alta segurana, rico em funcionalidades, simples de usar, aprender e gerenciar.
O PostgreSQL um SGBD objeto-relacional.
Uma das suas principais vantagens
possuir recursos comuns a bancos de dados de grande porte.
Alm disso, trata-se de
um banco de dados de alta versatilidade, seguro, com uma documentao atualizada e

extensa, e gratuito.
O PostgreSQL assim como a maioria dos SGBDs relacionais oferecem mecanismos para
manipular os dados atravs de linguagens textuais. Estas, por sua vez, so derivadas do
SQL (Structured Query Language ). Esta linguagem implementa mecanismos para atualizar e consultar os dados, e tambm mecanismos para expressar restries de integridade
dentro do SGBD [68].
Mtricas Usadas no Estudo de Caso

A especicao da medida de avaliao utilizada no processo de comparao relativa
entre a abordagem SGBD e sistemas de arquivos.
A medida de avaliao foi o espao
economizado (EE) pela abordagem SGBD em relao a uma abordagem usando sistemas
de arquivos. A seguir, descrevemos a medida de avaliao de espao economizado que
necessrio para entender a avaliao no armazenamento.
A denio de espao economizado (EE) a reduo do tamanho relativo ao tamanho
descompactado [69]. Esta denio apresentada na equao 5.1; enquanto o equivalente
para nosso estudo de caso apresentado na equao 5.2 (usada pelas Tabelas 5.1 e 5.2).
T amanho Compactado
;
T amanho Original
(5.1)
T amanho em SGBD
;
T amanho em Sistema de Arquivos
(5.2)
EE = 1
EE = 1
O tamanho em SGBD o resultado depois que os dados so armazenados no SGBD

e o tamanho em sistema de arquivos o tamanho dos dados no formato original sem
nenhum tipo de compactao.
Por outro lado, usou-se como mtrica o tempo gasto pela insero e exportao dos
dados gerados nas diferentes fase comparada com o tempo gasto pelo processo de ltragem,
mapeamento e anlise respectivamente. Esta mtrica usada para mostrar a porcentagem
de tempo usada no processo de insero e exportao no SGBD em relao do tempo gasto
no processo envolvido (ltragem, mapeamento e anlise). A equao 5.3 apresenta esta
denio e usada nas tabelas 5.3 e 5.4.
56
% T empo Gasto =
T empo de inserir/exportar no SGBD

100%;
T empo do processo
(5.3)
5.3 Discusso e Anlises dos Resultados Experimentais

do Pipeline
Aps a execuo do pipeline denido anteriormente o esquema relacional resultante inclu novas tabelas (o Anexo VI mostra o esquema geral resultante). O esquema da fase de
anlise o nico que sofre mudanas, onde so adicionadas quatro novas tabelas de resultados (gene_result, transcript_result, exon_result e cds_result ) da expresso diferencial
por transcritos, exons ou CDSs respectivamente. Estas tabelas de resultados contm o
nmero de vezes que cada SRS foi mapeada no genoma de referncia.
Alm disso so
adicionadas outras tabelas que compem o esquema de transcritos (TranscriptDB) que

gerado pelo pacote GenomicFeatures do programa R que fornece uma forma de recuperar, armazenar, e consultar recursos como exons, transcritos, e sequncias codicadoras
de muitos organismos de referncia. A Figura 5.3 mostra o esquema da fase de anlise
aps a execuo do pipeline.
No Anexo V explica-se detalhadamente cada coluna que compe algumas tabelas envolvidas neste novo esquema para a fase de anlise. O esquema de transcritos armazena
metadados de transcrio (informao das entidades envolvidas no processo de trancrio)
que gerenciam localizaes genmicas e as relaes entre transcritos, exons e sequncias
codicadoras de protenas [54]. Este esquema contm anotaes de transcritos que esto
relacionados entre si. A tabela gene est associada com a tabela transcript que armazena
os transcritos de cada gene. De igual forma, as tabelas exon e cds que armazenam as regies de exon e as regies de sequncias codicadoras de cada gene. No entanto, a tabela
chrominfo mantm informao dos cromossomos envolvidos.

Para avaliarmos o modelo conceitual e seu respectivo esquema relacional, foram realizadas algumas anlises que envolvem: (i) a viabilidade de criao de um modelo conceitual,
comparando-o com modelos que j existem na literatura; (ii) a ecincia em termos de
armazenamento de dados quando comparado com um sistema de arquivo; (iii) uma comparao entre o tempo de processamento ao se armazenar os dados envolvidos no pipeline
dentro de um SGBD, em relao ao tempo de execuo do pipeline, comparado com um
sistema de arquivos.
Nas prximas subsees cada um desses temas abordado.
5.3.1 Anlises Sobre o Modelo Conceitual

O modelo de dados apresentado neste trabalho tem o objetivo de representar dados
gerados pelos sequenciadores de alto desempenho no intuito de armazenar e administrar
grandes volumes de dados baseada na modelagem orientada a objetos.
Similarmente
a outros trabalhos da literatura, a nossa abordagem faz uso do MOO e a UML para
representar dados complexos da bioinformtica.
Na reviso da literatura, foi possvel vericar que a maioria de modelos para dados
biolgicos existentes esto mais interessados em representar os conceitos da biologia molecular, mas no os processos envolvidos tais como a ltragem de dados, mapeamento de
57
Figura 5.3: Esquema relacional da fase de anlise expresso diferencial. As linhas ponteadas de cor cinza delimita o esquema TranscriptDB gerado pelo pacote GenomeFeatures
sequncias e as diferentes anlises.
Para comear, Paton et al.
(2000) [5] e Bornberg-
Bauer e Paton (2002) [46] representam conceitos e fenmenos da biologia molecular para
sequncias genmicas e proteicas. Elmasri et al. (2006) [6] e Macedo et at. (2007) [8] so
trabalhos mais recentes tambm interessados na representao de dados biolgicos. Estes
trabalhos acrescentam algumas funcionalidades especiais para dessa forma acomodar o
modelo EER (Enhanced Entity Relationship ) e o MOO (Modelo Orientado a Objetos)
representando de melhor forma conceitos da biologia molecular.
Na abordagem de Busch e Wedeman (2009) [7] possvel cumprir com os requisitos
interoperabilidade e exibilidade para o domnio da biologia molecular.
Isto graas
denio de um modelo dinmico. Enquanto que a abordagem que propomos est interessada na representao e organizao de resultados parciais das anlises ao longo do
desenvolvimento de um pipeline, tais como controle de qualidade, mapeamento de SRS
(Short Read Sequences ) e a identicao da expresso diferencial de genes.
58
Os esquemas relacionais de banco de dados encontrados na literatura, tais como, o

CHADO [10] e GUS [49] so esquemas relacionais genricos para poder tratar dados da
biologia molecular. Estes esquemas podem dar suporte a uma gama ampla de projetos
por serem genricos demais, contendo centenas de tabelas, fazendo destes esquemas muito
complexos e difceis de usar. No entanto, o modelo que propomos tenta integrar os dados
gerados nas diferentes fases de um pipeline de uma forma simples e intuitiva para que
os usurios possam us-los para implementar sistemas de informao que administrem o
pipeline todo de um sequenciamento de alto desempenho transcriptmico.

Uma vez que nosso modelo de dados est divido em trs fases, a interoperabilidade
entre elas claramente visvel, dessa forma o deslocamento entre as fases atravs do
pipeline mais fcil, pois, muito importante poder fazer consultas e conseguir informao
da fase atual, anterior ou prxima.
Isto signica que podem ser extrados diferentes
tipos de informao desde o incio da fase de ltragem at o nal da fase de anlise

(em nosso caso, expresso diferencial de genes) atravs de diferentes consultas sobre o
modelo. Por exemplo, o bilogo poderia questionar se os parmetros que foram usados
para conseguir o melhor resultado entre todos os resultados da fase de ltragem ou saber
qual foi o melhor mapeamento para os dados da clula de rim. Para isto, pode-se juntar
as tabelas ltering_process, ltering_result, ltering_parameter e parameter (ver Figura
4.2).
Portanto, o esquema resultante do modelo proposto permite responder diferentes
consultas sobre o processamento do pipeline, uma vez que o esquema relaciona as tabelas
de processos: ltragem, mapeamento e anlise (expresso diferencial).
5.3.2 Comparao da Ecincia no Armazenamento de Dados

Uma das preocupaes no uso de um SGBD em relao ao sistema de aquivos era o
aumento de espao armazenado que essa tecnologia podia trazer. Por esse motivo uma
das medidas de avaliao da proposta desta dissertao foi a ecincia no armazenamento
em SGBD e o tempo gasto no armazenamento comparado com o tempo gasto no processo
todo. A avaliao no armazenamento foi realizada comparando os dados armazenado em
sistema de arquivos e os mesmos dados num SGBD. Os resultados obtidos levaram em considerao o espao economizado sobre os dados. Alm disso, a avaliao no tempo gasto
no processamento dos dados em relao ao tempo gasto no armazenamento num SGBD.
Foram usadas tabelas com tipo de dados heterogneos e de fontes distintas, possibilitando
assim uma melhor avaliao dos resultados. Os experimentos foram realizados num servidor HP (8 Intel(R) Xeron(R) de 8 CPUs de 2.13GHz, 22.66GB de 1333 MHz de memria
RAM, 1 HD de 264GB SCSI) sobre o sistema operacional Linux Server Ubuntu/Linaro
4.4.4-14.
O sistema de arquivos comumente adotado nos projetos transcritmicos e genmicos. Uma das vantagens dos arquivos a facilidade da implementao e rpida execuo
quando comparados com os SGBDs. Uma vez que nosso trabalho est focado no armazenamento dos dados ao longo da execuo do pipeline, como a entrada de dados muito
grande e usada com pouca frequncia, o armazenamento eciente ter grande impacto
sobre o pipeline, quando comparado com o desempenho da execuo. Nesse sentido, medimos a ecincia do armazenamento para dados armazenados em arquivos e no SGBD
PostgreSQL que foi usado nos estudos de caso.
59
Os SGBDs modernos, entre os quais se incluem o PostgreSQL implementam o algoritmo de compresso, no PostgreSQL utilizado o TOAST (The Oversized-Attribute
Storage Technique ) [70]. A compresso TOAST habilitada automaticamente para todos os tipos de dados que contenham cadeias de caracteres e superam o tamanho de 2
KB. Uma vez superado o valor de 2KB por um atributo de alguma tabela, esse dado
armazenado em um tipo "extension room "(tabelas "TOAST") da tabela usada para armazenar (no sentido do tamanho dos dados) atributos com valores muito grandes que no
cabem em pginas de dados normais (como textos longos) [70]. Alm disto, os arquivos
de tamanho muito grande so armazenados no tipo de dados BLOB.
A Tabela 5.1 mostra o tamanho total de espao em disco para armazenar os dados do
genoma de referncia e os dados gerados pelo pacote GenomicFeature (banco de dados
de transcritos), tanto para sistema de arquivos como para SGBD. No caso do genoma de
referncia, os dados (arquivos) so armazenado em colunas de tipo BLOB. Uma vez que
esses dados so grandes demais, o algoritmo de compresso interna TOAST implementado
pelo PostgreSQL ativado, dessa forma obtendo uma taxa de economia de espao de 51,1%
para os dados do genoma de referncia. No entanto, os dados do TranscriptDB alcanaram
uma taxa de espao economizado negativo de -195,7% o que signica que o tamanho dos
dados no SGBD aumentaram de tamanho em um porcentagem de 195,7% do tamanho
original. Uma vez que os dados do TranscripDB so pequenos demais para que o algoritmo
de compresso TOAST seja aplicado e o aumento de dados como a criao de ndices e/ou
tabelas de ndices associadas a cada insero de dados muito pequenos; fazem que os dados
originais do TranscripDB (dados gerados pelo pacote GenomicFeatures ) aumentem de
tamanho no SGBD. O espao economizado total na Tabela 5.1 45,38%. Este resultado
consequncia do volume maior dos dados do genoma de referncia comparado ao volume
dos dados do TranscriptDB. Ainda que o espao economizado do TranscriptDB tenha
sido negativo.
Tabela 5.1: Armazenamento para o genoma de referncia e dados do TranscriptDB
Genoma de referencia
Dados
do
Trans-
Sistema de Esquema
Arquivos SGBD
(MB)
(MB)
Espao Economizado (%)
2.745,0
1.343,0
51,1
64,6
191,0
-195,7
2.809,6
1.534
45,38
criptDB
Total
Os melhores resultados em taxa de espao economizado foram os apresentados na

Tabela 5.2. A Tabela 5.2 contm valores relacionados com as fases ltragem, mapeamento
e expresso diferencial na qual o volume dos dados muito grande. A predominncia de
dados do tipo texto fez possvel atingir o valor de espao economizado total de 39,3%, ainda
tendo obtido resultados negativos na fase de mapeamento onde os dados so binrios e na
fase de anlise onde os dado so pequenos demais para que o TOAST seja ativado. Este
resultado mostra que ainda tendo resultados negativos, estes no tem grande impacto
no resultado nal, j que os dados que obtiveram resultados negativos so pequenos
comparados aos dados que obtiveram resultados positivos e ao volume total dos dados.
60
Na Tabela 5.2 o espao economizado para as SRS de rim e fgado foi de 57.9% e
48.2% para dados de clulas de cncer de prstata LNCaP. Para as SRS ltradas foi de
54,8% e 48,8% respectivamente.
A principal razo para obter esses valores o fato de
que arquivos FASTQ podem ser comprimidos ecientemente, j que so de tipo texto.
Contudo, foram obtidos resultados negativos com arquivos que no so formados por
cadeias de caracteres.
Por exemplo, os arquivos BAM obtiveram uma taxa de espao
economizado negativa e no foram comprimidos pelo TOAST. Entretanto, os dados da

expresso diferencial de genes obtiveram um valor de espao economizado negativo, por
no serem sucientemente grande para acionar o algoritmo de compresso TOAST. Em
geral, os resultados de ambos estudos de casos (rim/fgado e cncer de prstata LNCaP)
foram similares. Contudo, pode-se notar que as anlises para dados de clulas de rim e
fgado alcanaram melhor desempenho de armazenamento quando comparado aos dados
de cncer de prstata LNCaP, e isto pode ser explicado pelo volume de dados de cada
caso, porque os dados de rim e fgado so signicativamente maiores que os dados de
clulas de cncer de prstata LNCaP.
Nos casos onde se obtiveram valores negativos, o volume dos dados so signicativamente menores, como podem-se ver nas Tabelas 5.1 e 5.2. Porm como o volume de
dados nesses exemplos pequeno em relao ao volume total no pipeline, esses valores
negativos tiveram pouca inuncia no resultado geral.
Os resultados mostraram tam-
bm que quanto maior o tamanho dos dados de tipo texto, maior ser a valor de espao
economizado devido ao algoritmo de compresso TOAST.
Tabela 5.2:
Comparao de ecincia no armazenamento de dados de clulas de
Rim/fgado e clulas de cncer de prstata LNCaP.
Sistema de Esquema
Espao EconoArquivos
SGBD (MB) mizado (%)
(MB)
Rim/
Cncer
Rim/
Cncer
Rim/
Cncer
fgado
CNcap
fgado
CNcap
fgado
CNcap
SRS
35.691,5
843,9
15.023,0
437,0
57,9
48,2
SRS ltradas
30.176,4
843,9
13.629.0
432,0
54,8
48,8
Mapeamento
2.784,3
139,0
3.758.0
231,0
-35,0
-66,2
Dados da expres-
2,4
2,2
10,0
10,0
-316,7
-354,5
68.654,6
1.829,0
32.420,0
1.110,0
52,8
39,3
so diferencial de
genes
Total
Os resultados nais totais mostram que o espao economizado variou de 45,38% (Tabela 5.1) a 39,3 - 52,8% (Tabela 5.2) o que se aproxima a 50%.
5.3.3 Anlise de Tempo de Execuo

Uma das preocupaes da utilizao de um SGBD no armazenamento dos dados do
pipeline de um sequenciamento de alto desempenho o custo em termos de tempo que ser
61
necessrio para a insero dos dados das diferentes fases nas tabelas do esquema relacional.
Por isso, foram realizadas algumas anlises em relao a esse tempo de processamento.
As Tabelas 5.3 e 5.4 mostram os tempos gastos pelos processos de ltragem, mapeamento e anlise comparado com o tempo gasto na insero de dados no SGBD para os
dados de clula de rim/gado e cncer de prstata.
Na fase de ltragem foram arma-
zenadas as SRS no SGBD junto com as SRS ltradas. Na fase de mapeamento as SRS
foram mapeadas e os resultados (arquivos BAM) foram armazenados no SGBD. Na fase
anlise, a expresso diferencial foi realizada e os resultados armazenados no SGBD. Alm
disso, so mostrado os tempos de exportao dos dados inseridos no SGBD gerados nas
diferentes fases.
Tabela 5.3: Comparao de tempo de procesamento e armazenamento (em SGBD) de

dados de clulas de Rim/fgado.
Filtragem
Processa- Insero Exportao Tempo- Tempomento no SGBD no SGBD Insero Exportao

(hh:mm:ss) (hh:mm:ss) (hh:mm:ss) (%)
(%)
01:51:22
01:51:54
00:28:27
100,4
25,5
Mapeamento
68:26:12
00:08:55
00:01:51
0,2
0,04
Anlise
00:17:52
00:00:12
1,1
Total
70:35:26
02:01:01
00:30:18
2,9
0,7
Tabela 5.4: Comparao de tempo de procesamento e armazenamento (em SGBD) de

dados de clulas de cncer de prstata LNCaP.
Filtragem
Processa- Insero Exportao Tempo- Tempomento no SGBD no SGBD Insero Exportao

(hh:mm:ss) (hh:mm:ss) (hh:mm:ss) (%)
(%)
-
00:02:03
00:00:15
Mapeamento
05:10:35
00:00:14
00:00:02
0,08
0,01
Anlise
00:15:50
00:00:13
1,4
Total
05:26:25
00:02:30
00:00:17
0,8
0,09
A Tabela 5.3 mosta que o tempo gasto pelos processos maior em relao ao tempo
gasto no armazenamento dentro do SGBD. O tempo de processamento dos dados de clulas de rim/fgado que mais demorou, foi do processo de mapeamento, 68 horas. Enquanto
que o tempo de insero e exportao no SGBD foi menos de 9 e 2 minutos respectivamente, o que representa apenas 0,2% e 0,04% em relao ao tempo do processo de
mapeamento, respectivamente. Apenas na fase de ltragem, o tempo gasto para a execuo do processo foi praticamente o mesmo para a insero dos dados no SGBD. Este
resultado consequncia dos mais de 64GB de dados (entre SRS e SRS ltradas) envolvidos no processo de ltragem fazendo que o tempo de insero no SGBD seja ligeiramente
maior (100,4%) em relao ao tempo gasto no processo de ltragem. Na fase de anlise,
o tempo gasto pelo processo de expresso diferencial maior comparado com o tempo
62
de insero dos dados no SGBD, os tempos de exportao na fase de anlise no foram

considerados neste estudo por no serem necessrios. O tempo total de insero e exportao no SGBD para os dados de clulas de rim e gado foi de 2,9% e 0.7% em relao
ao tempo total gasto no pipeline. Este resultado mostra que a porcentagem do tempo de
insero e exportao so signicativamente menos comparado ao tempo de total gasto
pelo pipeline.
Os resultados de tempo gasto para os dados de cncer LNCaP mostrados na Tabela
5.4 so semelhantes aos obtidos com os dados de rim/fgado, onde o tempo gasto pelos
processos muito maior do que os tempos de insero e exportao no SGBD. O tempo
gasto no processo de ltragem foi nulo nesse estudo de caso, j que, as SRS dos dados
de clulas de cncer LNCaP no possurem as sequncias de qualidades pelo qual no
foi feito a ltragem das SRS. J o tempo para insero dessas SRS no SGBD foi de dois
minutos e meio apenas. Como no caso anterior, o tempo total de insero e exportao
no SGBD foi de 0,8% e 0,09% em relao ao tempo total gasto no pipeline o que bem
menor em relao ao tempo de total gasto pelo pipeline.
5.4 Trabalhos Publicados

Durante o desenvolvimento da pesquisa apresentada nessa dissertao, foram produzidos alguns artigos, nos quais, um foi aceito como resumo estendido e dois foram aceitos
como artigos completos como relatados a seguir.
O resumo estendido foi aceito e apresentado como pster no XII Brazilian Sympo-
sium on Bioinformatics, sob o titulo de A Conceptual Model for Transcriptome HighThroughput Sequencing Pipeline [71]. O respectivo resumo estendido foi publicado nos
proceedings do congresso pela Springer.
O artigo completo foi aceito no BIBM 2011, Workshop on Data-mining of Next-
Generation Sequencing Data, sob o titulo de A Conceptual Data Model for Transcriptome
Project Pipeline [72]. O respectivo artigo foi publicado nos anais do congresso.
O artigo completo foi aceito e apresentado no The IADIS Applied Computing 2011
conference, sob o titulo de A Data Base Schema for High-Throughput Sequencing Transcriptome Pipelines [73]. O respectivo artigo foi publicado nos anais do congresso.
63
Captulo 6
Concluses e Trabalhos Futuros
Nesta dissertao, foi realizado o estudo dos principais modelos de dados para a representao de dados biolgicos disponveis atualmente na literatura. A partir desse estudo,
foi desenvolvido um modelo conceitual orientado a objetos para pipelines de sequenciamento de alto desempenho transcritmico baseado em trs fases: ltragem, mapeamento
e anlise. A especicao do modelo proposto levou em considerao a necessidade dos
projetos de sequenciamento envolvendo essas trs fases, assim como tambm, suprir as
decincias apresentadas nos modelos da literatura.
O modelo conceitual desenvolvido nesta dissertao representa os dados gerados nas
diferentes fases de um pipeline tais como SRS, SRS mapeadas, dados do genoma de referncia e todos os processos envolvidos. Sendo assim, o modelo proposto contempla os
dados biolgicos e as informaes sobre os processos envolvidos no pipeline de sequenciamento.
O esquema relacional foi baseado no modelo conceitual proposto. A especicao desse
esquema relacional levou em considerao regras bsicas para transformar um modelo conceitual em um esquema relacional, porm algumas diculdades foram encontradas j que
os dados dos sequenciamentos de alto desempenho tem caractersticas especcas, dentre
essas destacam-se: a criao de tipo de dado para agrupar grandes quantidades de SRS e
a criao de tabelas intermedirias entre o TranscriptDB gerado pelo GenomicFeatures e
o subesquema da fase de anlise; entre outras.
Aps a implementao do esquema relacional foi avaliado o desempenho no armazenamento, levando em considerao o espao economizado entre as abordagens SGBD e
sistemas de arquivo. Os resultados obtidos nos dois estudos de caso demostraram que a
abordagem SGBD em relao ao espao economizado teve bons resultados de forma geral
com 45,3% de espao economizado para os dados do genoma de referncia e TranscriptDB,
de 39,3% para os dados de clula de rim/gado e 52,8% para os dados de clulas de cncer de prstata LNCaP. No primeiro estudo de caso (dados de clulas de rim e fgado),
os dados so de volume considerveis com o formato FASTQ gerado pelo sequenciador
Illumina. No segundo estudo de caso (clulas de cncer de prstata LNCaP), os dados
so menores em relao ao primeiro, mas o volume de dados considervel.
Em relao ao tempo de processamento do pipeline, vericou-se que no impactante
a utilizao de um SGBD nas fases de mapeamento e anlise, uma vez que o tempo gasto
para inserir e extrair os dados necessrios para a execuo do pipeline pequeno em
relao ao tempo total de processamento do mesmo.
64
J na fase de ltragem o tempo
gasto na insero ligeiramente maior ao tempo gasto da ltragem dos dados.
Alm
disso, as atividades de entrada e sada de dados no SGBD durante a execuo do pipeline

realizada com pouca frequncia levando a que o tempo gasto por essas operaes seja
menor aps terminado a anlise do pipeline todo.
Os resultados obtidos demostram que a abordagem proposta ofereceu um grande
avano proporcionando melhoria na forma de armazenamento dos dados produzidos por
um pipeline de sequenciamento de alto desempenho devido economia de espao, tempo
baixo de insero e exportao em relao ao tempo total gasto pelo pipeline todo e organizao dos dados assim como todo benecio que o uso de um SGBD traz. Alm disso, o
SGBD permite a implementao dos modelos de dados como o proposto neste trabalho,
fornecendo as vantagem inerentes dos SGBD sobre o sistema de arquivos.
Em geral, acredita-se que o modelo proposto neste trabalho pode trazer muitas vantagens para uma abordagem SGBD assim como vantagens no desempenho para a gesto
de grandes volumes de dados de sequenciamento de alto desempenho transcritmico.
Estudos futuros podem usar dados de diferentes tecnologias de sequenciamento, podendo identicar com mais preciso o nvel de espao economizado no armazenamento
para dados mais diversicados. Consequentemente, investigar os efeitos que isto pode trazer no armazenamento dos dados por serem de diferentes fontes. Alm disso, podem-ser
feitas outros tipos de anlises contemplando outras metricas alm do espao economizado
e tempo gasto.
Uma decorrncia natural deste trabalho a implementao de novos processos na
fase de anlise do pipeline proposto. Foi adaptado um esquema de anlise de expresso
diferencial, no entanto, esquemas que armazenem dados para as anlises logenticas,
identicao de ncRNAs entre outras so desejveis. Outra possibilidade a integrao
ou expanso do modelo para lidar com dados procedentes de anlises proticas.
Um outro trabalho futuro a integrao de provenincia de dados. Recentemente, h
um grande interesse na comunidade de banco de dados sob administrao de provenincia
de dados e interessante observar como esta abordagem pode-se adaptar para dados de
sequenciamento de alto desempenho transcritmico.
65
Referncias
[1] P.A. Alvarez. Pipelines para transcritomas obtidos porsequenciadores de alto desempenho. Technical report, Departamento de Cincia da computao - Universidade de
Braslia, 2009. x, 5, 10, 34
[2] T.C.C. da Silva.
Som-portrait:
um mtodo para identicar rna no codicador
utilizando mapas auto organizveis. Technical report, Departamento de Cincia da

computao - Universidade de Braslia, 2009. x, 5
[3] D.P. Alten.
Estrutura quaternria de protena.
quimica/module12/par01212protproducao.html.
http://www.daanvanalten.nl/
Acessado em Dezembro, 2011.
x, 6
[4] J.C. Setubal and J. Meidanis.
Introduction to Computational Molecular Biology.
PWS Publishing, January 1997. x, 4, 6, 7, 8, 9, 10, 14, 34

[5] N. W. Paton, S. A. Khan, A. Hayes, F. Moussouni, A. Brass, K. Eilbeck, C. A. Goble,
S. J. Hubbard, and S. G. Oliver.
Conceptual modelling of genomic information.
Bioinformatics, 16(6):548557, June 2000. x, 24, 25, 28, 29, 58

[6] R. Elmasri, F. Ji, J. Fu, Y. Zhang, and Z. Raja. Extending EER modeling concepts
for biological data. In Proceedings of the 19th IEEE Symposium on Computer-Based
Medical Systems, pages 599604, Washington, DC, USA, 2006. IEEE Computer Society. x, 25, 26, 29, 58
[7] N. Busch and G. Wedemann. Modeling genomic data with type attributes, balancing
stability and maintainability. BMC Bioinformatics, 10(1):97113, 2009. x, 26, 27,
28, 29, 58
[8] J.A.F Macedo, F. Porto, S. Lifschitz, and P. Picouet.
A conceptual data model
language for the molecular biology domain. In Proceedings of the Twentieth IEEE
International Symposium on Computer-Based Medical Systems, pages 231236. IEEE

Computer Society, 2007. x, 27, 28, 29, 58
[9] GUS2011DB, the genomics unied schema.
http://www.gusdb.org/about.php.
Acessado em Agosto, 2011. x, 29, 30

[10] C. J. Mungall, D. B. Emmert, and Consortium FlyBase. A Chado case study: an
ontology-based modular schema for representing genome-associated biological information. 23(13):I337I346+, 2007. x, 30, 31, 59
66
[11] M. Carlson, P. Aboyoun, H. Pags, S. Falcon, and M Morgan.
Making and Utili-
zing TranscriptDb Objects. BioConductor-Open source software for bioinformatics,

Fevereiro 2012. xi, 54, 85
[12] A.M. Lesk. Introduction to Bioinformatics. Oxford University Press, May 2002. xii,
6, 7
[13] J. D. Watson and F. H. C. Crick. Molecular Structure of Nucleic Acids: A Structure
for Deoxyribose Nucleic Acid. Nature, 171(4356):737738, April 1953. 1, 8
[14] U. Rhm and J.A. Blakeley. Data management for high-throughput genomics. In
Conference on Innovative Data Systems Research (CIDR), volume 5667, pages 97
111, 2009. 1
[15] M.L. Metzker. Sequencing technologies - the next generation. Nature reviews. Ge-
netics, 11(1):3146, January 2010. 1

[16] S.A. Simon, J. Zhai, R.S. Nandety, K.P. McCormick, J. Zeng, and D.M. e Blake C.
Mejia.
Short-Read Sequencing Technologies for Transcriptional Analyses.
Annual
Review of Plant Biology, 60(1):305333, January 2009. 1, 12, 32

[17] P. Clote and R. Backofen. Computational Molecular Biology: An Introduction. Wiley,
1 edition, September 2000. 6, 7, 8, 9
[18] J. Barciszewski and V.A. Erdmann. Noncoding RNAs: molecular biology and mole-
cular medicine. Springer, 1 edition, January 2003. 9

[19] S. R. Eddy.
Non-coding RNA genes and the modern RNA world.
2(12):919929,
2001. 9
[20] D.W. Mount. Bioinformatics: Sequence and Genome Analysis, Second Edition. Cold
Spring Harbor Laboratory Press, 2nd edition, July 2004. 12
[21] F. Sanger, S. Nicklen, and A.R. Coulson.
Dna sequencing with chain-terminating
inhibitors. Proceedings of the National Academy of Sciences of the United States of
America (PNAS), 74(12):54635467, 1977. 12, 13

[22] N. Hall. Advanced sequencing technologies and their wider impact in microbiology.
J Exp Biol, 210(Pt 9):15181525, May 2007. 12

[23] E.R. Mardis. Next-generation dna sequencing methods. Annual Review of Genomics
and Human Genetics, 9(1):387402, 2008. 12

[24] H.V.F. Melo. Desenvolvimento de um pipeline para anlise genmica e transcriptmica com base em web services. Master's thesis, Universidade Federal de So Carlos,
2010. 13, 33
[25] C. Baudet.
Uma abordagem para trimagem, vericaao de contaminaao e clus-
terizaao de seqncias est.
Master's thesis, Universidade Estadual de Campinas
(Unicamp), 2006. 14, 33
67
[26] M. Morgan,
M. Carlson,
V. Obenchain,
D. Tenenbaum,
and H. Pages.
Ge-
http://www.genomenewsnetwork.org/resources/whats_a_
genome/Chp3_1.shtml. Acessado em Junho, 2011. 14
nome news network.
[27] C. Kanz, P. Aldebert, N. Althorpe, W. Baker, A. Baldwin, K. Bates, P. Browne,

A. van den Broek, M. Castro, G. Cochrane, K. Duggan, R. Eberhardt, N. Faruque, J. Gamble, F.G. Diez, N. Harte, T. Kulikova, Q. Lin, V. Lombard, R. Lopez,
R. Mancuso, M. Mchale, F. Nardone, V. S.ilventoinen, S. Sobhany, P. Stoehr, M.A.
Tuli, K. Tzouvara, R. Vaughan, D. Wu, W. Zhu, and R. Apweiler.
The EMBL
Nucleotide Sequence Database. Nucl. Acids Res., 33(suppl_1):D2933, 2005. 15, 16

[28] D.A. Benson, I. KarschMizrachi, D.J. Lipman, J. Ostell, and D.L. Wheeler. GenBank:
update. Nucleic Acids Research, 32(suppl 1):D23D26, January 2004. 15
[29] H.M. Berman.
The Protein Data Bank: a historical perspective.
Acta Crystallo-
graphica Section A, 64(1):8895, January 2008. 15

[30] R.L. Tatusov, N.D. Fedorova, J.D. Jackson, A.R. Jacobs, B. Kiryutin, E.V. Koonin,
D.M. Krylov, R. Mazumder, S.L. Mekhedov, A.N. Nikolskaya, B.R. Rao, S. Smirnov, A.V. Sverdlov, S. Vasudevan, Y.I. Wolf, J.J. Yin, and D.A. Natale. The COG
database: an updated version includes eukaryotes. BMC bioinformatics, 4(1):4151,
September 2003. 16
[31] H. Ogata, S. Goto, K. Sato, W. Fujibuchi, H. Bono, and M. Kanehisa. KEGG: Kyoto
Encyclopedia of Genes and Genomes. Nucleic acids research, 27(1):2934, January
1999. 16
[32] R. Apweiler, T. K. Attwood, A. Bairoch, A. Bateman, E. Birney, M. Biswas, P. Bucher, L. Cerutti, F. Corpet, M. D. Croning, R. Durbin, L. Falquet, W. Fleischmann,
J. Gouzy, H. Hermjakob, N. Hulo, I. Jonassen, D. Kahn, A. Kanapin, Y. Karavidopoulou, R. Lopez, B. Marx, N. J. Mulder, T. M. Oinn, M. Pagni, F. Servant, C. J.
Sigrist, and E. M. Zdobnov. The InterPro database, an integrated documentation
resource for protein families, domains and functional sites. Nucleic acids research,
29(1):3740, January 2001. 16
[33] T. Pruitt, K. D. e Tatusova and D. R. Maglott. NCBI reference sequences (RefSeq):
a curated non-redundant sequence database of genomes, transcripts and proteins.
Nucleic Acids Res, 35(Database issue):D61D65, January 2007. 16

[34] M. Worboys and M. Duckham. GIS: A Computing Perspective, 2nd Edition. CRC
Press, Inc., Boca Raton, FL, USA, 2004. 17
[35] A. Silberschatz, H.F. Korth, and S. Sudarshan. Database system concepts. McGrawHill, New York, 6 edition, 2010. 17, 19, 34, 35, 55
[36] R. Elmasri and S. Navathe. Fundamentals of Database Systems (6th Edition). Addison Wesley, 6 edition, 2010. 18, 19, 22, 55
[37] C. Batini, S. Ceri, and S.B. Navathe.
Conceptual Database Design:
Relationship Approach., volume 116. Benjamin/Cummings, 1992. 18

68
An Entity-
[38] P.P. Chen. The entity-relationship modeltoward a unied view of data. ACM Trans.
Database Syst., 1:936, March 1976. 18

[39] M.P. Papazoglou, S. Spaccapietra, and Z. Tari, editors. Advances in Object-Oriented
Data Modeling. MIT Press, Cambridge, MA, USA, 2000. 20

[40] J. Rumbaugh, M. Blaha, W. Premerlani, F. Eddy, and W. Lorensen. Modelagem e
projetos baseados em objetos, volume 8. Campus, Rio de Janeiro, 1st edition, 1994.
20
[41] G. Booch, R.A. Maksimchuk, M.W. Engel, B.J. Young, J. Conallen, and K.A. Houston. Object-Oriented Analysis and Design with Applications (3rd Edition). AddisonWesley Professional, 3 edition, April 2007. 21
[42] M. Fowler. UML Distilled: A Brief Guide to the Standard Object Modeling Language.
Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 2003. 21
[43] G. Booch, J. Rumbaugh, and I. Jacobson. UML - Guia Do Usurio. Livraria Tempo
Real Inform, 2 edition, 2005. 21
[44] E. F. Codd. A relational model of data for large shared data banks. Commun. ACM,
13(6):377387, 1970. 22
[45] E.F. Codd. Relational completeness of data base sublanguages. IBM Corp., March
1972. 22
[46] E. Bornberg-Bauer and N.W. Paton. Conceptual data modelling for bioinformatics.
Brief Bioinform, 3(2):166180, January 2002. 24, 28, 29, 58

[47] D. Riehle, M. Tilman, and R. E. Johnson.
Dynamic object model.
In 2000 Con-
ference on Pattern Languages of Programming (PLoP 2000), volume 5, pages 324,

Washington University, Washington University, 2000. 26
[48] Chado.
http://gmod.org/wiki/Chado.
[49] C.V. Ibaez.
Acessado em Agosto, 2011. 29, 30
Gus sb - a schema browser for the genomics unied schema (gus).
Master's thesis, Graduate Faculty of The University of Georgia, 2009. 30, 59

[50] P. Zhou, D. Emmert, and P. Zhang. Using Chado to store genome annotation data.
Current protocols in bioinformatics / editoral board, Andreas D. Baxevanis ... [et al.],
Chapter 9, January 2006. 30, 31
[51] Alicia Oshlack, Mark D. Robinson, and Matthew D. Young. From RNA-seq reads to
dierential expression results. Genome biology, 11(12):220230, December 2010. 34
[52] L.D. Stein. Genome annotation: from sequence to biology. Nature Reviews Genetics,
2(7):493503, July 2001. 34
[53] D. Frishman and Alfonso Valencia.
Modern Genome Annotation: The Biosapiens
Network. Springer Publishing Company, Incorporated, 1st edition, 2008. 34
69
[54] M.
Morgan,
M.
Carlson,
V.
Obenchain,
D.
Tenenbaum,
and
H.
Pa-
http:
//www.bioconductor.org/help/course-materials/2011/SeattleIntro2011/
Bioconductor-tutorial.pdf. Acessado em Julhio, 2011. 57
ges.
High-throughput
sequence
analysis
with
and
bioconductor.
[55] J.C. Marioni, C.E. Mason, S.M. Mane, M. Stephens, and Y. Gilad.
RNA-seq: an
assessment of technical reproducibility and comparison with gene expression arrays.
Genome research, 18(9):15091517, September 2008. 52

[56] J.D. Hoheisel.
Microarray technology:
beyond transcript proling and genotype
analysis. Nature reviews. Genetics, 7(3):200210, March 2006. 52

[57] H. Li, M.T. Lovci, Y.S. Kwon, M.G. Rosenfeld, X.D. Fu, and G.W. Yeo. Determination of tag density required for digital transcriptome analysis: application to an
androgen-sensitive prostate cancer model. Proceedings of the National Academy of
Sciences, 105(51):2017920184, 2008. 52

[58] FastQC.
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/.
Aces-
sado em abril, 2011. 53

[59] G.J. Hannon. Fastx-toolkit.
html.
[60] S.
http://hannonlab.cshl.edu/fastx_toolkit/index.
Acessado Abril, 2011. 53
Andrews.
Fastqc.
quality
control
tool
for
high
throughput
se-
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/Help/
1%20Introduction/. Acessado Abril, 2011. 53
quence data.
[61] C. Trapnell, L. Pachter, and S.L. Salzberg. TopHat: discovering splice junctions with
RNA-Seq. Bioinformatics, 25(9):11051111, May 2009. 54
[62] B. Langmead, C. Trapnell, M. Pop, and S. Salzberg. Ultrafast and memory-ecient
alignment of short DNA sequences to the human genome. Genome Biology, 10(3):25
35, 2009. 54
[63] R Development Core Team. R: A language and environment for statistical computing.
R Foundation for Statistical Computing, Vienna, Austria, 2010. 54
[64] R. Gentleman, V. Carey, D. Bates, Ben Bolstad, M. Dettling, Sandrine Dudoit, Byron
Ellis, Laurent Gautier, Yongchao Ge, Je Gentry, Kurt Hornik, Torsten Hothorn,
Wolfgang Huber, Stefano Iacus, Rafael Irizarry, Friedrich Leisch, Cheng Li, Martin
Maechler, Anthony Rossini, Gunther Sawitzki, Colin Smith, Gordon Smyth, Luke
Tierney, Jean Yang, and Jianhua Zhang. Bioconductor: open software development
for computational biology and bioinformatics. Genome Biology, 5(10):R80+, 2004.
54
[65] N. Delhomme. RNA-Seq Tutorial (EBI, October 2011), 2011. 54
[66] Mark D. Robinson, Davis J. McCarthy, and Gordon K. Smyth.
edgeR: a Biocon-
ductor package for dierential expression analysis of digital gene expression data.
Bioinformatics, 26(1):139140, January 2010. 54
70
[67] S. Andrews. RdbiPgSQL.
http://rdbi.sourceforge.net.
Acessado Julio, 2011.
55
[68] N. Edelweiss.
Bancos de dados temporais: teoria e prtica.
In XVII Jornada de
Atualizao em Informtica, do XVIII Congresso Nacional da Sociedade Brasileira

de Computao, volume 2, pages 225282, 1998. 56
[69] David Salomon. Data Compression : The Complete Reference. Springer, February
2004. 56
[70] M. Morgan, M. Carlson, V. Obenchain, D. Tenenbaum, and H. Pages. Toast.
www.postgresql.org/docs/8.4/static/storage-toast.html.
http://
Acessado em Julio,
2011. 60
[71] R.C. Huacarpuma, M. Holanda, and M.E.M.T. Walter. A conceptual model for transcriptome high-throughput sequencing pipeline. In Proceedings of the 6th Brazilian
conference on Advances in bioinformatics and computational biology, BSB'11, pages

7174, Berlin, Heidelberg, 2011. Springer-Verlag. 63
[72] R.C. Huacarpuma, M Holanda, and M.E.M.T. Walter. A conceptual data model for
transcriptome project pipeline. In BIBM Workshops, pages 1318. IEEE, 2011. 63
[73] R.C. Huacarpuma, M.T. Holanda, S. Lifschitz, and M.E.M.T. Walter. A database
schema for high-throughput sequencing transcriptome pipelines.
In Proceedings of
IADIS International Conference on Applied Computing, pages 187194, Novembro

2011. 63
71
72
Diagrama de Clases do Modelo Conceitual
Anexo I
73
Figura I.1: Diagrama de classes do modelo conceitual para um pipeline de sequenciamento de alto desempenho transcritmico.
Anexo II
Esquema Relacional do
74
Pipeline
Figura II.1:
transcritmico.As linhas ponteadas de cor cinza associam as tabelas gene_result, trans-
cript_result, cds_result e exon_result com o esquema relacional de transcritos gerado

pela ferramenta usada na fase de anlise no estudo de caso.
75
Anexo III
Tabela do Esquema de Filtragem
Tabela III.1: Tabelas e colunas do subesquema ltragem.
Tabela
organism
sample
project
Coluna
Descrio coluna
genus
Gnero do organismo
species
Espcie do organismo
common_name
description
id_sample
Identicador da amostra
sample
Nome da amostra
date
responsible
Pessoa encarregada
description
Descrio
id_project_name
Identicador do projeto
project_name
Nome do projeto
namager_name
funding
instituition
description
Descrio
id_read
Identicador
id_organism
Identicador do organismo
do
conjunto
con-
tendo as SRS
id_sample
Chave fornea da onde vem as

SRS
short_read
id_quality_type
Chave estrangeira da tabela qua-
lity_type, indica o tipo de qualidade que das SRS
id_sequencer
Chave estrangeira da tabela se-
quencer, indica a tecnologia usada

no sequenciamento
data
Contm um conjunto de SRS
description
descrio
Continua na proxima pagina
76
Tabela III.1: (continuando)
Tabela
Coluna
Descrio coluna
sequencer
name_sequencer_center
Nome
id_sequencer
Identicador do sequenciador
do
centro
de
sequencia-
mento
plataform
Tecnologia do sequenciador
description
descrio
id_quality
Identicador do tipo de qualidade
quality_name
Nome do tipo de qualidade
start_ASCII
Inicio do rango de carteres ASCII
quality_type
end_ASCII
Fim do rango de carteres ASCII
oset
Deslocamento
type
Tipo
de
escore
de
qualidades
(PHRED, Solexa, ...)
start_quality_range
Inicio do rango do escore de qualidade
end_quality_range
Fim do rango do escore de qualidade
id_ltering_process
Identicador do processo de ltragem
ltering_process
ltering_name
Nome do processo de ltragem
ok_ltered
Nmero de SRS ltradas con sucesso
failed_ltered
Nmero de SRS ltradas sem sucesso
description
Descrio do processo de ltragem
id_ltering_process
Chave
fornea
da
lte-
tabela
ring_process, indica o processo de

ltragem
ltering_paramenter
id_parameter
Chave fornea da tabela parame-
ter, indica o parmetro usado
parameter
short_read_ltering
value
Valor do parmetro
description
Descrio do valor usado
id_parameter_name
Identicador do parmetro
parameter_name
Nome do parmetro
id_ltering_process
Chave
fornea
da
lte-
tabela

ltragem
id_read
Chave
fornea
da
tabela
short_read, indica um conjunto

de SRS
77
Tabela III.1: (continuando)
Tabela
Coluna
ltering_result
id_ltering_process
id_ltering_result
Descrio coluna
Identicador do resultado da ltragem

Chave
fornea
da
tabela
lte-

ltragem
data
Contm um conjunto de SRS ltradas
78
Anexo IV
Tabela do Esquema de Mapeamento
Tabela IV.1: Tabelas e Colunas do subesquema mapeamento.
Tabela
Coluna
id_reference_genome
Descrio coluna
Identicador do genoma de referncia
reference_genome
id_organism
nism, identica o organismos

version
Verso do genoma
description
descrio
id_chromosome
id_reference_genome
Chave estrangeira da tabela re-
ference_genome, identica o genoma de referncia.
chromosome
chromosome_name
Nome do cromossomo
data
Contm a sequncia de bases do

cromossomo
chromosome_mapping
description
descrio
id_mapping_process
ping_process,
identica
pro-
cesso de mapeamento
id_chromosome
Chave estrangeira da tabela ch-
romosome, associa o cromossomo

com o processo de mapeamento
id_mapping_process
Identicador do processo de mapeamento
id_ltering_result
Chave estrangeira da tabela lte-
ring_result, identica o resultado

o resultado da ltragem
mapping_process
failed_mapped
Nmero de SRS no mapeadas
ok_mapped
Nmero de SRS mapeadas com

sucesso
79
Tabela
Tabela IV.1: (continuando)
Coluna
Descrio coluna
id_mapping_process
description
Descrio
ping_process,
identica
pro-
cesso de mapeamento
mapping_parameter
id_parameter
Chave estrangeira da tabela para-
meter, associa o parmetro usado

value
Valor de parmetro
description
Descrio
id_mapping_result
Identicador
do
resultado
pro
processo de mapeamento
id_mapping_process
ping_process,
identica
pro-
cesso de mapeamento
mapping_resul
data
Contm as SRS mapeadas
start
Comeo de onde foi mapeado a

SRS
description
Descrio
80
Anexo V
Tabela do Esquema de Anlise Usada
nos Estudos Caso
Tabela V.1: Tabelas e Colunas do subesquema da anlise - Expresso.
Tabela
Coluna
id_analysis_process
Descrio coluna
Identicador do processo de anlise
analysis_process
id_database

usado
id_analysis_type
Chave
estrangeira
analysis_type,
da
identica
tabela
o
tipo
de anlise
analysis_type
database
database_organism
description
descrio da anlise
id_analysis_type
Identicador do tipo de anlise
name_analysis
Nome da anlise
description
descrio do tipo de anlise
db_name
url
Sitio web
description
Descrio
id_database

id_organism
nism, identica o organismo
gene
gene_id
Identicador do gene
gene_name
Nome do transcrito
_chrom_id
Chave estrangeira da tabela chro-
minfo, identica o cromossomo

strand
start
Incio do transcrito
end
Fim do transcrito
81
Tabela
transcript
Tabela V.1: (continuando)
Coluna
Descrio coluna
tx_name
Nome do transcrito
_chrom_id
_tx_id
Identicador do transcrito
genes_transcript
strand
start
Incio do transcrito
end
Fim do transcrito
gene_id
Chave estrangeira da tabela gene,

identica o gene
_tx_id
Chave estrangeira da tabela tras-
cript, identica o transcrito do

gene
exon
_exon_id
Identicador do exon
exon_name
Nome do exon
_chrom_id
transcript
strand
start
Incio do exon
end
Fim do exon
_cds_id
Identicador do cds
cds_name
Nome do cds
_chrom_id

strand
start
Incio do cds
end
Fim do cds
_tx_id
Chave estrangeira da tabela tras-
cript, identica o transcrito do

gene
splicing
exon_rank
Posio do exon no splicing
_exon_id
Chave estrangeira da tabela exon,

identica o exon
_cds_id
Chave estrangeira da tabela cds,

identica o cds
id_analysis_process
Chave
estrangeira
analysis_process,
da
tabela
identica
processo de anlise
gene_result
id_mapping_process
ping_process,
identica
pro-
cesso de mappeamento
gene_id
Chave estrangeira da tabela gene,

identica um gene
82
Tabela
Tabela V.1: (continuando)
Coluna
Descrio coluna
count
Nmero de SRSs que foram mapeadas dentro do gene identicado por gene_id
id_analysis_process
Chave
estrangeira
analysis_process,
da
tabela
identica
processo de anlise
transcript_result
id_mapping_process
ping_process,
identica
pro-
_tx_id
Chave
estrangeira
transcript,
da
identica
tabela
um
trans-
crito
count
Nmero de SRSs que foram mapeadas dentro do transcrito identicado por _tx_id
id_analysis_process
Chave
estrangeira
analysis_process,
da
tabela
identica
processo de anlise
exon_result
id_mapping_process
ping_process,
identica
pro-
_exon_id
Chave estrangeira da tabela exon,

identica um exon
count
Nmero de SRSs que foram mapeadas dentro do exon identicado por _exon_id
id_analysis_process
Chave
estrangeira
analysis_process,
da
tabela
identica
processo de anlise
cds_result
id_mapping_process
ping_process,
identica
pro-
_cds_id
Chave estrangeira da tabela cds,

identica um cds
count
Nmero de SRSs que foram mapeadas dentro do cds identicado

por _cds_id
chrominfo
_chrom_id
chrom
Nome do cromossomo
length
Tamanho do cromossomo
is_circular
Se o cromossomo circular
83
Anexo VI
Esquema Relacional do Pipeline Usado
nos Estudos de Caso
84
Figura VI.1: Esquema relacional do pipeline de sequenciamento de alto desempenho transcritmico. As linhas ponteadas de cor cinza delimita o esquema TranscriptDB gerado pelo
pacote GenomicFeatures [11].
85
Anexo VII
Formato do Arquivo FASTQ
@SRR002325.1 080317_CM-KID-LIV-2-REPEAT_0003:2:1:906:788 length=36
GAGAACCCTTTCCTCTTAAATTCTACTTCCACATAA
+SRR002325.1 080317_CM-KID-LIV-2-REPEAT_0003:2:1:906:788 length=36
IIII:.GAIIIIII6III:%II=I;0I)>5*III3
TGAACCTAGAGTCTGGATCTATTTTTGTCTGAATGC
IIIIIIIII+IIIIIIFIII0IIIIIHIII)8)I5I
GGTCGGTTCCTTCCTTTTTTGCCTAGATTTTATGTA
GGAAAGTTCTTACATCTTGCGACTCATGAAATATTT
GAAAGCGCTCAAGCTCAACACCCATCACCTAAAAAA
TGTTAATCTTCTGTCTTGTTTATCTTTGCAATATTG
86

2012 RubemCruzHuacarpuma

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

2012 RubemCruzHuacarpuma

Hochgeladen von

Copyright:

Verfügbare Formate

Universidade de Braslia

Instituto de Cincias Exatas

Modelo de Dados para um Pipeline de Sequenciamento

Ruben Cruz Huacarpuma

Dissertao apresentada como requisito parcial

Maristela Terto de Holanda

Universidade de Braslia  UnB

Coordenador: Prof. Dr. Mauricio Ayala Rincn

Banca examinadora composta por:

Maristela Terto de Holanda (Orientadora)  CIC/UnB

Prof. Dr. Srgio Lifschitz  Departamento de Informtica/PUC-Rio

Clia Ghedini Ralha  CIC/UnB

CIP  Catalogao Internacional na Publicao

Dissertao (Mestrado)  Universidade de Braslia, Braslia, 2012.

1. Modelo Conceitual, 2. Modelo de Dados, 3. Bioinformatica,

Modelo de Dados para um Pipeline de Sequenciamento

Ruben Cruz Huacarpuma

Dissertao apresentada como requisito parcial

Maristela Terto de Holanda (Orientadora)

Prof. Dr. Srgio Lifschitz

Clia Ghedini Ralha

Prof. Dr. Mauricio Ayala Rincn

Braslia, 01 de maro de 2012

Quero agradecer a todas as pessoas que se zeram

Modelo Conceitual, Modelo de Dados, Bioinformatica, Banco de Dados,

One of these challenges is to

The existence of representation

objective of identifying dierentially expressed genes using high-throughput sequencing

Conceptual Model, Data Modeling, Bioinformatics, Database, Biological

Dogma Central da Biologia Molecular . . . . . . . . . . . . . . . . .

Tecnologias de Sequenciamento de Alto Desempenho

Pipelines para Projetos Transcritoma . . . . . . . . . . . . . . . . .

Bancos de Dados Biolgicos

3 Modelos de Dados para Bioinformtica

2 Conceitos Bsicos de Biologia Molecular e Bioinformtica

Modelos de Dados para Bioinformtica . . . . . . . . . . . . . . . .

Proposta de Esquema de Dados para Bioinformtica

4 Modelo de Dados para um Pipeline de Sequenciamento de Alto Desempenho

Estrutura Geral do Pipeline de Sequenciamento de Alto Desempenho

Modelo Conceitual para o Pipeline de Sequenciamento de Alto Desempenho 34

Modelo de Dados da Fase de Filtragem . . . . . . . . . . . . . . . .

Modelo de Dados da Fase de Mapeamento

Modelo de Dados da Fase de Anlise

Denio do Esquema Relacional do Pipeline . . . . . . . . . . . . . . . . .

Esquema Relacional da Fase de Filtragem

Esquema Relacional da Fase de Mapeamento . . . . . . . . . . . . .

Esquema Relacional da Fase de Anlise . . . . . . . . . . . . . . . .

Viso Geral do Estudo de Caso

Arquitetura Abstrata do Pipeline

Discusso e Anlises dos Resultados Experimentais do Pipeline

Anlises Sobre o Modelo Conceitual . . . . . . . . . . . . . . . . . .

Comparao da Ecincia no Armazenamento de Dados

Anlise de Tempo de Execuo

6 Concluses e Trabalhos Futuros

Estrutura geral dos aminocidos adaptado de [1].

Ligao peptdica e orientaes

Estrutura primria, secundria, terciria e quaternria da molcula da he-

Acar pentose principal que compe o nucleotdeo criador do DNA: a

Bases nitrogenadas que compem um nucleotdeo da molcula DNA adap. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

A dupla Hlice do DNA mostrando a unio das bases [1]. . . . . . . . . . .

Acar principal do nucleotdeo formador do RNA: a ribose adaptado de [4]. 10

Uracila - base pirimidina que compe um nucleotdeo de molcula RNA.

Dogma central da Biologia. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Universidade de Braslia UnB

Maristela Terto de Holanda (Orientadora) CIC/UnB

Prof. Dr. Srgio Lifschitz Departamento de Informtica/PUC-Rio

Clia Ghedini Ralha CIC/UnB

CIP Catalogao Internacional na Publicao

Dissertao (Mestrado) Universidade de Braslia, Braslia, 2012.

Quero agradecer a todas as pessoas que se zeram

objective of identifying dierentially expressed genes using high-throughput sequencing

Denio do Esquema Relacional do Pipeline . . . . . . . . . . . . . . . . .

Comparao da Ecincia no Armazenamento de Dados

Denio de uma ordem entre instancias de tipo agregao [8]. . . . . . . .

Estrutura do pipeline de alto desempenho com as fases da ltragem, mapeamento e anlise

Diagrama de classes do modelo ltragem. . . . . . . . . . . . . . . . . . . .

Esquema relacional da fase de ltragem.

Representao simplicada de um Sistema de Banco de Dados. . . . . . . .

Esquema relacional da fase de anlise expresso diferencial.

Entidades e atributos do modelo ltragem

Tabelas e colunas do subesquema ltragem

Comparao de ecincia no armazenamento de dados de clulas de Rim/fgado

Tabelas e colunas do subesquema ltragem. . . . . . . . . . . . . . . . . .

1.2.1 Objetivos Especcos

pipeline de sequenciamento de alto desempenho denido;

de protenas so a hidrofobicidade de regies de polipeptdeo isto , o grau de anidade