Beruflich Dokumente
Kultur Dokumente
NDICE.................................................................................................................................... 1
Mtodos de alinhamento de sequncias ...................................................................................... 2
Matrizes de substituio ........................................................................................................... 3
Algoritmo de Needleman-Wunsch ............................................................................................ 4
Algoritmo de Smith e Waterman .............................................................................................. 4
BLAST - Basic Local Alignment Search Tool ............................................................................... 4
PSI-BLAST................................................................................................................................... 5
OutPut ................................................................................................................................... 6
DOT-PLOT .................................................................................................................................. 7
Alinhamentos Mltiplos ................................................................................................................ 9
Logos ....................................................................................................................................... 12
Previso da funo em sequncias proteicas ............................................................................. 13
Mtodo dos consensos ........................................................................................................... 13
Mtodos de determinao de padres e perfis ...................................................................... 14
Mtodos de determinao de motivos ............................................................................... 15
Mtodos de alinhamento de domnios - HMM................................................................... 18
Python ......................................................................................................................................... 21
Linguagens de programao ................................................................................................... 21
Integrao da Informao Biomdica ......................................................................................... 22
Porqu a necessidade de integrar? ......................................................................................... 22
Dificuldades na gesto de dados............................................................................................. 22
Variedade de dados............................................................................................................. 23
Variedade de abordagens na integrao ............................................................................ 24
Necessidade de ferramentas de sondagem da informao.................................................... 25
Vocabulrios controlados e Ontologias ...................................................................................... 27
Ontologias ............................................................................................................................... 27
Aquisio, armazenamento e uso de dados biomdicos ............................................................ 31
Normas em Sistemas de Informao .......................................................................................... 33
Electronic Health Record (EHR) ................................................................................................... 34
Componentes de um sistema de EHR ..................................................................................... 35
Problemas a considerar quando feito um CB-EHR ............................................................... 36
Matrizes de substituio
Ao nvel das substituies, este scoring dado por matrizes de substituio: atribuem
valores s substituies de nucletidos ou a.a.s, valores esses que dependem das suas
propriedades fiscos qumicas.
Tanto a PAM como a BLOSUM calculam a probabilidade de substituio.
1. Matrizes PAM (Point Accepted Mutation)
Construdas manualmente apartir por observao de alinhamentos manuais entre
protenas relacionadas.
As outras PAM foram calculadas a partir da PAM1. medida que a PAM aumenta, a
ocorrncia de mutaes aumenta, bem como a distncia evolucionria.
A mais utilizada a PAM30matriz construda com 30 mutaes sobrepostas por
cada 100 Aminocidos.
Funciona bem para sequencias de espcies prximas (pois tem problemas na
adequao a evoluo divergente).
2. Matrizes BLOSUM (BLOcks SUbstition Matrix)
Calculadas utilizando a base de dados Blocks.
A partir de alinhamentos mltiplos de sequncias divergentes identificaram-se blocos
altalmente conservados. Dentro destes blocos dividiram-se em clusters os segmentos
pertencentes a sequncias com um nvel de semelhana acima de um determinado
threshold. Este procedimento serve para evitar que sequncias muito parecidas criem
um enviezamento da matriz. Contaram-se as frequncias de pares de a.a.s (pares de
substituies) entre os clusters. Assim, estas frequncias s foram tidas em conta
relativamente a sequncias com uma semelhana abaixo do threshold.
A mais utilizada a BLOSUM62 (construda apartir de protenas que partilhavam 62%
de identidade de sequencia).
Utiliza-se uma BLOSUM mais elevada para sequncias mais semelhantes e uma
BLOSUM mais baixa para sequncia mais distantes.
Iniciao de um gap:
AAAGAAA
AAA_AAA
Algoritmo de Needleman-Wunsch
Faz o alinhamento global entre 2 sequncia, utilizando penalidades para inseres e
deleces e matrizes de semelhana. Usa os princpios da distancia de Levenstein
para alinhar sequencias. Algoritmo percorre todos os alinhamentos possveis e no fim
produz um valor do alinhamento global.
Valores definidos:
T : Threshold focus on pairs scoring >T
X : Drop-off stop extending when loss >X
S : Score the final score of segment pair
1. Encontrar regies de baixa complexidade (muito repetidas, por exemplo) e
ignor-las
2. As restantes regies so divididas em palavras: para protenas so de 3 a.a. e
para DNA so de 11 nucletidos
3. Procurar na base de dados palavras vizinhas das palavras existentes da query
sequence
So definidas palavras vizinhas das palavras da sequncia query, cada uma com o seu
score. O score das palavras vizinhas definido pela matriz de substituio utilizada. O
programa procura conjuntos com o maior n de palavras vizinhas adjacentes.
Exemplo: KTU palavras vizinhas: KTA (score 20), KWU(score 11), etc
4. Neste passo so definidos os HSP (High Scoring Pairs) e o mtodo diferente
no BLAST antigo e no BLAST recente.
Procura os HSP (high scoring sequence pairs) contidos num alinhamento significativo.
A cada HSP atribudo um score e so ordenados pelos scores obtidos.
Blast score valor usado para verificar a relevncia de um alinhamento depende da
matriz de substituio usada e penalidades. Valores mais elevados so melhores
alinhamentos
Bit Score Score normalizado expresso em bits, que permite estimar a dimenso do
espao de procura necessrio para encontrar uma sequncia idntica
independente do espao de procura actual
P-value Probabilidade do alinhamento ter sido obtido por acaso
E-value Nmero de vezes que um score equivalente ou melhor que blast score seria
expectvel acontecer por acaso numa base de dados.
Quanto menor for o E-value mais robusto o alinhamento.
PSI-BLAST
utilizado para detectar homlogos distantes:
1. Encontra os homlogos mais prximos e define um perfil tpico para a sequncia
2. Para esse perfil constroi-se uma estrutura de consenso com os hits encontrados e
faz-se uma nova interrogao base de dados, repetindo o processo
Resumindo
Se tenho uma sequncia proteica:
Quero prever a funo ou estrutura
o utilizar blastp para procurar protenas semelhantes
o Descrio
o Max Score: Bitcore mximo obtido dentro da alinhamento (corresponde
maior poro alinhada)
o Total Score: Soma dos bitscores de todas as pores alinhadas
o Query coverage: % da sequncia query alinhada
o E-value: Quanto menor for mais robusto o alinhamento
o Max identity: Semelhana existente nas pores alinhadas
Alinhamentos
DOT-PLOT
Mtodo simples para anlise visual de alinhamentos.
Ao contrrio do BLAST, estes programas esto optimizados para produzir alinhamentos
com fidelidade e no com rapidez.
Assim, quando se quer encontrar homlogos de uma protena utiliza-se o BLAST para
seleccionar alguns candidatos. Para garantir que estes candidatos so realmente
homlogos faz-se um DOT-PLOT, onde se podem ver as zonas de homologia.
O DOT-PLOT tambm pode ser efectuado para comparar um sequncia com ela
prpria. O objectivo a identificao de domnios repetidos, zonas de baixa
complexidade e palndromes.
Na
Figure 2 est um dotplot de uma protena contra
ela prpria. A diagonal principal o alinhamento
perfeito da sequncia.
As vrias diagonais paralelas principal
representam motivos repetidos. O n de
diagonais acima ou abaixo da principal o n de
repeties do motivo e o tamanho do motivo
definido pela diagonal mais pequena.
Figure 2: Dotlet de 1 factor de transcrio que contm um zinc finger (identificao de motivos
repetidos)
Na
Figure 3 observa-se um quadrado na regio
inferior direita. Este corresponde a uma
regio de baixa complexidade (muitas
repeties de um determinado a.a.) no final
da sequncia proteica.
Figure 3: Dotlet de uma protena contra si prpria (identificao de regies de baixa complexidade)
O Dotlet tambm pode ser feito para analisar uma sequncia proteica e uma sequncia
de DNA (Figure 4). O programa traduz a sequncia de DNA nos 3 quadros de leitura
possveis. Isto permite identificar intres(zonas sem correspondncia) e exes(zonas
onde aparece a diagonal principal), bem como mudanas no quadro de leitura.
Alinhamentos Mltiplos
Os alinhamentos mltiplos so teis para:
Confirmar que uma determina protena pertence a uma famlia
Fazer rvores filogenticas
Identificar regies altamente conservadas, inclundo domnios
Cuidados de aplicao:
Dentro do possvel devem-se usar protenas para alinhamentos mltiplos e
no DNA
o O DNA tem um alfabeto reduzido (o alinhamento perde eficcia)
o Problema da existncia de intres
o Problema das reading frames que podem gerar protenas
completamente diferentes
No usar muitas sequncias dencio: comear com 10-15, mximo de 50
Depois do a alinhamento ter sido feito recomendvel confirmar que est bem
feito. Ento faz-se um novo alinhamento que inclui uma protena distante das que
esto no alinhamento. Se nos 2 alinhamentos os blocos conservados se manterem
porque o alinhamento gerado bom.
A interpretao de alinhamento mltiplos bastante subjectiva mas no geral o que se
procura so blocos de a.a.s conservados. A composio de a.a.s de cada um desses
blocos pode ser relacionada com a funo mais provvel dessa regio:
Trp, Tyr e Phe (aromticos) Trp um a aminocido hidrofbico com um papel
estruturante no interior da protena. Quando muda (o que raro) para outros
aromticos (Tyr ou Phe)
Gly ou Pro Comuns no fim de alpha-helices e beta-sheets. So habituais
colunas conservadas com estes 2 resduoos, apesar de Gly serem comuns em
zonas pouco conservadas
Cys Fundamentais para localizao de pontes de enxofre. Alinhamentos com
distncias entre Cys semelhantes so uma boa indicao de determinados
domnios e dobras
His e Ser resduos muito comuns em sitios catalticos, em particular de
proteases
Asp, Arg, Glu, Lys aminocidos polares, comuns em regies catalticas
podem tambm indicar pontes salinas
Leu leucine zippers
Uma ferramente til na visualizao de alinhamentos mltiplos Jalview. Este
programa uma interface instalada no pc, que utiliza servios web que calculam o
alinhamento e o devolvem para o programa.
Define logos
Constri rvores.
Permite a avaliao de cada posio no alinhamento
Permite previso de estrutura secundria
Logos
So uma forma de visualisar um alinhamento mltiplo em que cada coluna representa
uma posio.
A altura da coluna indica a
conservao dessa posio
O aminocido mais comum
aparece no topo
Cada letra (aminocido) tem
uma
dimenso
correspondente
sua
frequncia no alinhamento
Ao calcular uma PSSM coloca-se o problema de qual o score que se deve atribuir a aas
que nunca aparecem em determinada posio. No Blocks este calculado atravs de
uma matriz de substituio, o que reduz a especificidade da PSSM.
Quando inserida uma sequncia query e feita uma pesquisa o que acontece que a
sequncia query alinhada com cada bloco existente e para cada um desses
alinhamentos feito um score total (soma dos scores de todas as posies). Depois os
scores totais so normalizados. E no final so reportados os blocos com os melhor
scores (normalizados!) e os eus E-values.
Figure 7: HMM
Assim, se quisermos fazer uma sequncia passar por cada modelo no final podemos
atribuir-lhe uma probabilidade isso acontecer. Essa probabilidade o total de todas as
probabilidades de os estados acontecerem e das transies de estado ocorrerem.
Quando feita uma pesquisa com uma sequencia query numa base de dados com
HMMs o algoritmo tenta passar a sequncia por todos os HMMs correspondentes a
todas as famlias existentes na base de dados. Para cada HMM h vrios caminhos que
a sequncia pode seguir, sendo seleccionado aquele com que se obtm o score mais
elevado. No final so reportadas as famlias cujos HMMs obtm scores acima de um
determinado threshold.
Na base de dados Pfam cada famlia identificada por:
Alinhamento seed: feito com sequncias representativas de cada famlia
Alinhamento completo: com todas as sequncias da famlia
Hiden Markov Model (HMM): construdo a parte do alinhamento seed
Dentro da Pfam existem as subdivises: A (entradas manuais), B (entradas
automticas) e Clans (Agrupamentos de entradas Pfam A de acordo com semelhanas
de sequncias). Existem ainda:
TIGRFam Essencialmente procariotas muito bem comentados e anotados
SCOP superfamilies Usa HMMs em classificao estrutural de protenas
A base de dados Interpro faz uma ligao entre as vrias bases de dados j referidas:
fazendo uma pesquisa na interpro, a sequncia query ser procurada em todas as
bases de dados-membros (PROSITE, PRINTS, Pfam, ProDom, SMART e TIGRFAMs).
Resumindo....
O primeiro passo para identificar famlias de protenas fazer um blast.
Proteinas com mais de 60% de semelhana admite-se que so da mesma famlia.
Protenas com 30% a 60% de semelhana- faz-se Psi-Blast para encontrar homlogos
distantes. aplicado o mtodo dos consensos para criar bases de dados (ProDom p.e.)
Protenas com menos de 30% de semelhana mtodos de determinao de perfis e
modelos para criar bases de dados como a PFAM.
Protenas com menos de 20% de semelhana preciso prever a estrutura.
Python
Linguagens de programao
Os computadores funcionam executando instrues em cdigo de mquina (0s e 1s)
Foram definidas abstraces sucessivas (linguagens) do cdigo mquina com o
objectivo de aproximar a linguagem mquina da linguagem e modo de pensar humano
Implementao de Linguagens de Programao
Compiladas
As instrues so transformadas em cdigo mquina (0s e 1s) por um compilador
Programas geralmente eficientes no uso dos recursos (CPU, Memria, etc...) mas
mais rgidos na sua execuo
Quanto mais prxima for a linguagem de programao da linguagem mquina, mais
eficiente o cdigo produzido
Interpretadas
Programas executados por um interpretador.
Permitem maior flexibilidade na linguagem
Programas so geralmente mais lentos
Compiladas para linguagem intermdia
Compromisso entre as duas abordagens
A linguagem intermdia pode ser compilada enquanto o
programa corre.
Python : uma linguagem interpretada
Mais lenta que as linguagens compiladas
Mais flexvel
Python uma linguagem interactiva
O interpretador o ambiente natural para correr programas
Linguagem multiparadigma:Imperativa, orientada a objectos e funcional
Permite o desenvolvimento de aplicaes sofisticadas
nfase na facilidade de desenvolvimento e aprendizagem
Sntaxe muito fcil de escrever e ler
Altamente produtiva!
Outras linguagens interpretadas
PERL Muito eficiente a lidar com cadeias de caracteres
Cdigo difcil de ler e manter
CPAN repositrio de bibliotecas para PERL onde se encontra tudo!
PHP Orientada sobretudo para a web
Ruby Muito elegante e bem estruturada
to usada como o Python mas em franco crescimento
Tipos de Variveis Bsicos em Python
Inteiros (preciso arbitrria)
Vrgula flutuante (64 bits)
Sequncias: Strings (cadeias de caracteres - texto); Tuplos; Listas; Dicionrios
exitem outros tipos, mas no so muitos usados
Ento porque que to difcil criar estes sistemas de gesto de dados? Alguns
problemas principais so:
Muitos conceitos biolgicos no tm um nome universal
Diferentes comunidades utilizam diferentes nomes para o mesmo fenmeno
necessrio criar ontologias! (vocabulrios controlados)
A maior parte dos conceitos biolgicos tm definies pouco precisas
Ex: As ATPases esto muito bem estudadas mas no existe uma definio universal
Existem vrias representaes dos mesmos conceitos (?)
Conhecimento biolgico em contnua evoluo
Todos os dias produzida cada vez mais informao e com mais rapidez. Cada vez
h mais a necessidade de criar ferramentas que a integram e actualize estas
ferramentas.
Variedade de dados
Variedade da informao biolgica
Existem vrios tipos de dados que tm de ser integrados: sequncias e expresses
genticas, caractersticas das doenas, estruturas moleculares, dados de microarrays,
interaco de protenas, Estes dados podem ser qualificativos (ex: classes de
enzimas), quantificativos (ex: nveis de expresso gnica) ou at estruturas
tridimensionais de protenas.
muito provvel que se encontrem redundncias e inconsistncias no meio disto tudo
ou at dados no identificados: no se sabe a sua fonte.
Os dados podem ser classificados como:
Estruturados: tabelas ou ficheiros muito mais fceis de gerir
No estruturados: os artigos p.e. pois contm texto, imagem, tabelas, grficos,
etc Grande problema: como retirar informao relevante dos artigos?
Assim, necessrio criar ferramentas que retiram a informao dos pappers text
mining (Figure 13).
O processamento da informao existente
nos textos pode ser dividido em 3 fases:
Recuperao da informao (IR)
O utilizador introduz palavras chave
(funciona como fizesse uma pergunta).
Figure 11: Ferramentas de anlise de texto
O programa tem de seleccionar quais o
documentos relevantes para responder pergunta.
Extraco da informao (IE)
Dentro desses documentos, qual a informao relevante?
Nesta fase preciso transformar informaon no estruturada (texto) em dados
estruturados, como entidades (ex: proteina, localizao celular) e relaes (ex:
Serotonina liga-se ao receptor 5HT2a).
Interrogaes e respostas (Q&A)
Nesta fase preciso sintetizar uma analisar a pergunta feita para saber que tipo de
resposta esperada. E depois sintetizar a informao obtida.
Ontologias
Uma ontologia um vocabulrio expresso numa linguagem de representao da
ontologia.
Isto significa que uma ontologia subentende uma gramtica: uma srie de restries a
ser impostas quando se usa o vocabulrio controlado daquela ontologia. (no existe
nenhuma definio universal)
Normalmente as ontologias so feitas a partir de vocabulrios controlados j criados
simplesmente para poupar trabalho.
As ontologias so feitas a partir de:
Classes
Atributos
Relaes
Axiomas
Instncias : h quem considere que quando se une instncias a ontologias
obtm-se uma base de conhecimento (ou seja, as instncias no fazem parte
das ontologias)
Uma classe pode ter vrias subclasses ( construda uma relao hierrquica). Por
exemplo, podemos dividir a classe computadores de vrias formas: marcas
(subclasses:toshiba, asus, etc) ou cor (subclasses:preto, branco, cinzento), etc
Se descrevermos a classe enzimas , a G6PD uma instncia dessa classe ( um
indivduo dentro da classe).
Os atributos podem ser dados a classes e a instncias.
Figure 13: Classe Regulation of transcription (pertencente ontologia biological process) e os seus
atributos
Resumo:
Algumas terminologias:
International Classification of Diseases (ICD)
Diagnosis Related Groups | Grupos de Diag. Homogneo (GDH)
International Classification of Primary Care (ICPC)
Systematized Nomenclature of Human and Veterinary Medicine (SNOMED)
Diagnostic and Statistical Manual of Mental Disorders DSM-IV (Am. Psychiatric Ass.)
Medical Subject Headings (MeSH)
Normas de partilha de informao
Digital Imaging and Communications in Medicine (DICOM)
Health Level 7
Em Bioinformatica
FASTA para sequncias biolgicas
GenBank para genomas completos e anotaes
Sistemas baseados em XML Extensible Markup Language
Gene Expression Markup Language (MAGE-ML)
Systems Biology Markup Language (SBML)
Medicina Personalizada:
Medicina personalizada: um modelo mdico que prope a personalizao de
decises teraputicas de acordo com as caractersticas dos pacientes de acordo com a
sua constituio gentica
Variabilidade Gentica :
SNPs Single Nucleotide Polymorphisms
Mutaes posicionais em que a frequncia dos alelos deve ser superior a 1% na
populao humana
Indelsinseres e delees no so SNPs mas podem afectar
determinantemente a estrutura de protenas
Amplificaes variveis vrios genes podem aparecer mais do que uma vez
no genoma
Variantes estruturais cromossmicas
dBSNP
Repositrio central de dados de SNPs
Inclui vrias espcies
> 20M de SNPs registados s para o Homo sapiens
Farmacogenmica
Todos somos diferentes:
Diversidade gentica ao nvel mais fundamental
As reaes a uma alterao no ambiente, a uma infeco ou a um frmaco
depende das protenas envolvidas
Pequenas mudanas no genoma podem no querer dizer nada ou alterar
radicalmente a resposta de uma protena
Uso de drogas-sonda
Avalia-se o nvel de metabolitos de um frmaco
uma expresso directa do gentipo
Processo moroso, caro e com grande nvel de complexidade
Mtodos genmicos
Permitem perceber a razo da diversidade
Ex. CYP2D6 Deteco de variaes genticas
Para o CYP2D6 h mais de 40 variaes registadas em populaes humanas
Amplificao gnica: os indivduos podem ter entre 3 a 13 cpias do gene CYP2D6. Tal
a explicao dos metabolizadores ultra rpidos
Sendo que o CYP2D6 metaboliza cerca de 25% dos frmacos, modificaes neste gene
tm impacto alargado na resposta a frmacos