DNA Gene Genoma Sequenciamento de DNA Variao Gentica Regulao Gentica Bancos de dados biolgicos Bancos de dados genmicos so um subtipo de bancos de dados biolgicos Armazenam sequncias do genoma e informaes relacionadas Diversas fontes de dados
Alta complexidade Grande variabilidade de dados Necessidade de uma forma de redundncia Rpida mudana na estrutura Conhecimento limitado da estrutura pelos usurios Importncia das consultas complexas Importncia do contexto para os dados Acesso dados histricos Grande volume de dados
Banco de dados de variao gentica do Ensembl
Sequncias armazenadas em arquivos texto Aumento exponencial da produo de sequncias 1977: Primeiro genoma a ser sequenciado (5kb) 2004: Sequenciamento humano terminado (3gb) Manuteno trabalhosa dos arquivos e programas de aplicao Banco de Dados surge como uma alternativa para armazenar o grande volume de dados
Inseres feitas pela internet Realizar consultas sobre sequncias e informaes relacionadas Oferece suporte pesquisas Permite integrao e consulta de dados derivados de pesquisas Auxilia na evoluo da cincia Descoberta de medicamentos Trechos de DNA conservados entre espcies Identificar funes e caractersticas de sequncias
Principais anlises realizadas no banco Arquitetura de um cluster de 8 ns Utiliza MySQL no banco de dados central
Processamento at 8 mais rpido Implantao de um banco de dados somente leitura Possui sistema de arquivos compartilhado Todos os ns do cluster so capazes de ver o mesmo armazenamento Mudana ou escrita de novas informaes do BD necessitam ser passadas para um servidor especfico de banco de dados Modelo somente leitura aplicado ao Ensembl e Ensembl Web Site para melhora de processamento.
Relacional: Agrega informaes em tuplas (coleo de valores correlacionados); Respostas de forma otimizada s consultas; Cada registro identificado por um campo que contm um valor nico (no possvel representar um atributo com mltiplos tipos de dados); Mapeamento complicado e de difcil atualizao e compreenso para um usurio comum. Orientado a Objeto: Mapeamento de conceitos complexos de forma direta; O usurio comum consegue ter conhecimento do objeto de forma completa; possvel obter uma coleo de mtodos e estruturas para modelar, manter e consultar dados; Objetos so representados em estruturas fixas, e mtodos prprios, por isso pode acarretar a alterao no esquema do BD, e pode gerar alterao na estrutura do mesmo; Favorece o mapeamento do mundo real, mas existem inmeras deficincias a serem resolvidas para que este seja o melhor modelo.
Relacional-Objeto: Considerado um dos mais adequados para aplicaes da biologia molecular; Aliam a rapidez da consulta inerente ao modelo relacional com o tratamento de dados complexos inerente ao modelo orientado a objeto; Conseguem realizar a formulao de consultas a partir de funes e operadores definidos pelos usurios; O AatDB (banco de dados do genoma da Arabdopsis thaliana - planta da famlia da mostarda) um exemplo que implementa esse modelo. Semi-estruturado: Implementado por diversos bancos de dados biolgicos; Fcil alterao dos objetos, sem necessariamente exigir a alterao dos mtodos j utilizados; Representado muitas vezes por estruturas XML; Utilizado pelo AceDB, que um SGBD criado especialmente para banco de dados genmicos. E diversos outros BDs utilizam o cdigo do AceDB. Dois problemas principais: Acesso integrado de mltiplas fontes Qualidade dos dados Bancos de dados genmicos recebem grande quantidade de consultas Ambientes paralelos so utilizados Problema: Equilbrio de carga Um dos modos de aplicar segurana em um BD genmico a utilizao de plataformas Java; Implementaao de uma aplicao local (Ex: Framework Java Hibernate) para mapeamento, comunicao e dos objetos contidos na base de dados; A verso local da aplicao pode conter 4 tipos de usurio: root, administrador, analista de dados/resultados e comum;
O usurio root cadastra novos projetos e atribui a funo de administrador a um usurio, inicia e encerra um projeto dentro da aplicao; O usurio comum possui permisso apenas para consultar dados; O usurio analista de dados/resultados o responsvel pelo resultado das anlises realizadas a partir dos dados brutos. Realiza downloads de dados brutos e anlises, e o cadastro de novo resultados de anlise; O usurio administrador pode realizar todas as funes dos demais usurios.
Projeto conjunto entre o Instituto Europeu de Bioinformtica (EBI) e o Wellcome Trust Sanger Institute (WTSI) Usado mundialmente Oferece informaes genticas sobre vertebrados e parentes prximos EnsemblGenomes oferece informaes sobre bactrias, fungos, plantas... Informao variadas Regies reguladoras Variao gentica Comparao entre genes Descrio detalhada de genes Todos os dados podem ser acessados atravs do site (www.ensembl.org)
4 formas de obteno de informao Site Biomart Banco de dados Ensembl (API Perl, MySQL) Site FTP de download
Modo de obteno de dados Registro automtico Registro Manual
Gene ESPM: Codifica protena Espin Passos: Acessar o site, selecionar Human Pesquisar gene ESPN Selecionar human no tpico gene Clicar no identificador do gene Clicar em phenotype no lado esquerdo Clicar em sequence