Sie sind auf Seite 1von 41

NDICE

NDICE.................................................................................................................................... 1
Mtodos de alinhamento de sequncias ...................................................................................... 2
Matrizes de substituio ........................................................................................................... 3
Algoritmo de Needleman-Wunsch ............................................................................................ 4
Algoritmo de Smith e Waterman .............................................................................................. 4
BLAST - Basic Local Alignment Search Tool ............................................................................... 4
PSI-BLAST................................................................................................................................... 5
OutPut ................................................................................................................................... 6
DOT-PLOT .................................................................................................................................. 7
Alinhamentos Mltiplos ................................................................................................................ 9
Logos ....................................................................................................................................... 12
Previso da funo em sequncias proteicas ............................................................................. 13
Mtodo dos consensos ........................................................................................................... 13
Mtodos de determinao de padres e perfis ...................................................................... 14
Mtodos de determinao de motivos ............................................................................... 15
Mtodos de alinhamento de domnios - HMM................................................................... 18
Python ......................................................................................................................................... 21
Linguagens de programao ................................................................................................... 21
Integrao da Informao Biomdica ......................................................................................... 22
Porqu a necessidade de integrar? ......................................................................................... 22
Dificuldades na gesto de dados............................................................................................. 22
Variedade de dados............................................................................................................. 23
Variedade de abordagens na integrao ............................................................................ 24
Necessidade de ferramentas de sondagem da informao.................................................... 25
Vocabulrios controlados e Ontologias ...................................................................................... 27
Ontologias ............................................................................................................................... 27
Aquisio, armazenamento e uso de dados biomdicos ............................................................ 31
Normas em Sistemas de Informao .......................................................................................... 33
Electronic Health Record (EHR) ................................................................................................... 34
Componentes de um sistema de EHR ..................................................................................... 35
Problemas a considerar quando feito um CB-EHR ............................................................... 36

Ao nvel da recolha de informao ..................................................................................... 36


Ao nvel da consulta e acesso informao ....................................................................... 37
Medicina Personalizada: ......................................................................................................... 37

Mtodos de alinhamento de sequncias


Quando se quer identificar relaes evolucionrias de uma protena a utilizao de
bases de dados de estruturas proteicas tem mais fidelidade. No entanto, utilizar
alinhamentos de sequncias mais rpido e fcil.
A identificao de estruturas proteicas (por cristalografia ou Ressonancia magntica
nuclear) mais dficil do que a sequenciao. Existem outros mtodos computacionais
de determinao de estrutura: determinao da energia mnima de conformao e
modelos matemticos difceis muito sujeitos a erros.
Assim, existe 30x mais informao disponvel ao nvel de sequncias do que estruturas.
Tudo isto torna o alinhamento de sequncias um mtodo mais fcil. Estes
alinhamentos podem ainda ser usados ao nvel do DNA, RNA ou pptidos.
As alteraes evolucionrias bsicas ao nvel de protenas podem ser:
Substituies (mutaes)
Inseres e deleces: menos comuns que mutaes, podem ser extensas
Inseres ocorrem mais em zonas de loop nas protenas, que no
afectam muito a estrutura das zonas funcionais
Podem ocorrer inseres de domnios inteiros
Podem ocorrer rearranjos dos resduos
No geral, vrias alteraes ao nvel da sequncia so permitidas, desde que no
afectem muito a estrutura da protena.
Qual a semelhana de sequncia necessria para se poder considerar que 2 protenas
pertencem mesma famlia (tm funes e estruturas semelhantes)?
35% para protenas com nico domnio.
60% para protenas com mltiplos domnios: a nveis mais baixos de semelhana
podem exister alteraes de domnios que modulam a funo.
A nveis mais baixos de semelhana o alinhamento (em particular, alinhamentos
mltiplos) pode ser til para deteco de regies conservadas.
Twilight zone : 25% a 35% de semelhana alinhamentos podem ser teis
para detectar relaes evolucionrias
Midnight zone: menos de 25% Tm de se utilizar outros mtodos para
alm dos alinhamentos

Uma forma de caracterizar as diferenas entre sequncias de tamanho varivel a


distncia de Levenshtein/edio: n de edies necessrios para transformar a string
A na string B.
No entanto, h certas mutaes que tm mais sentido que outras (exemplo: triptofano
mais provavelmente substitudo por feninalanina do que por glicina) ou inseres de
50 nucletidos juntos so mais provveis que 50 inseres separadas de um nico
nucletido.
Assim, necessrio um sistema de scoring para cada passo de edio. Este
conseguido atravs de matrizes de substituio e penalidades para inseres e
deleces.

Matrizes de substituio
Ao nvel das substituies, este scoring dado por matrizes de substituio: atribuem
valores s substituies de nucletidos ou a.a.s, valores esses que dependem das suas
propriedades fiscos qumicas.
Tanto a PAM como a BLOSUM calculam a probabilidade de substituio.
1. Matrizes PAM (Point Accepted Mutation)
Construdas manualmente apartir por observao de alinhamentos manuais entre
protenas relacionadas.
As outras PAM foram calculadas a partir da PAM1. medida que a PAM aumenta, a
ocorrncia de mutaes aumenta, bem como a distncia evolucionria.
A mais utilizada a PAM30matriz construda com 30 mutaes sobrepostas por
cada 100 Aminocidos.
Funciona bem para sequencias de espcies prximas (pois tem problemas na
adequao a evoluo divergente).
2. Matrizes BLOSUM (BLOcks SUbstition Matrix)
Calculadas utilizando a base de dados Blocks.
A partir de alinhamentos mltiplos de sequncias divergentes identificaram-se blocos
altalmente conservados. Dentro destes blocos dividiram-se em clusters os segmentos
pertencentes a sequncias com um nvel de semelhana acima de um determinado
threshold. Este procedimento serve para evitar que sequncias muito parecidas criem
um enviezamento da matriz. Contaram-se as frequncias de pares de a.a.s (pares de
substituies) entre os clusters. Assim, estas frequncias s foram tidas em conta
relativamente a sequncias com uma semelhana abaixo do threshold.
A mais utilizada a BLOSUM62 (construda apartir de protenas que partilhavam 62%
de identidade de sequencia).
Utiliza-se uma BLOSUM mais elevada para sequncias mais semelhantes e uma
BLOSUM mais baixa para sequncia mais distantes.

Diferenas entre PAM e BLOSUM:


1. As matrizes BLOSUM s utilizam zonas altamente conservadas. As PAM utilizam
alinhamentos globais, que incluem zonas de baixa e alta mutabilidade.
2. N da PAM refere-se a distncia evolucionria; n da BLOSUm refere-se a
semelhana de sequncia
3. PAM utiliza modelo evolucionrio explcito e BLOSUm utiliza modelo
evolucionrio implcito.
4. PAM conta substituies entre pares de sequncias, BLOSUM conta
substituies entre clusters de sequncias
Tambm necessrio atribuir penalidades a deleces e inseres. Isto faz-se
atribuindo scores aos gaps. O mais comum :
Iniciao de um gap: 10
Extenso de um gap: 0.1 por cada resduo
Extenso de um gap:
AAAGGGAAA
AAA___ AAA

Iniciao de um gap:
AAAGAAA
AAA_AAA

Algoritmo de Needleman-Wunsch
Faz o alinhamento global entre 2 sequncia, utilizando penalidades para inseres e
deleces e matrizes de semelhana. Usa os princpios da distancia de Levenstein
para alinhar sequencias. Algoritmo percorre todos os alinhamentos possveis e no fim
produz um valor do alinhamento global.

Algoritmo de Smith e Waterman


Deriva do algoritmo de Needleman-Wunsh. Este algoritmo faz alinhamentos locais.
Isto conseguido porque sempre que atribudo um score negativo a uma posio na
matriz, este score passa a ser 0.
Para comparao de sequncias distantes so mais aconselhveis alinhamentos
locais pois as mutaes (que em sequncias distantes ho de ser muitas) fazem
menos rudo. Os alinhamentos locais identificam as zonas mais conservadas, que so
as mais importantes para identificao da funo.
semelhana do Needleman-Wunch, este algoritmo bastante lento e o tempo de
procura proporcional a len(A) x len(B)

BLAST - Basic Local Alignment Search Tool


Utilizando uma heurstica, torna o processo muito mais rpido: garante resultados
bons mas no o melhor resultado (este seria conseguido atravs do algoritmo de Smith
and Waterman). Utiliza estatsticas para calcular a probabilidade do alinhamento
obtido ser fruto do acaso.

Valores definidos:
T : Threshold focus on pairs scoring >T
X : Drop-off stop extending when loss >X
S : Score the final score of segment pair
1. Encontrar regies de baixa complexidade (muito repetidas, por exemplo) e
ignor-las
2. As restantes regies so divididas em palavras: para protenas so de 3 a.a. e
para DNA so de 11 nucletidos
3. Procurar na base de dados palavras vizinhas das palavras existentes da query
sequence
So definidas palavras vizinhas das palavras da sequncia query, cada uma com o seu
score. O score das palavras vizinhas definido pela matriz de substituio utilizada. O
programa procura conjuntos com o maior n de palavras vizinhas adjacentes.
Exemplo: KTU palavras vizinhas: KTA (score 20), KWU(score 11), etc
4. Neste passo so definidos os HSP (High Scoring Pairs) e o mtodo diferente
no BLAST antigo e no BLAST recente.
Procura os HSP (high scoring sequence pairs) contidos num alinhamento significativo.
A cada HSP atribudo um score e so ordenados pelos scores obtidos.
Blast score valor usado para verificar a relevncia de um alinhamento depende da
matriz de substituio usada e penalidades. Valores mais elevados so melhores
alinhamentos
Bit Score Score normalizado expresso em bits, que permite estimar a dimenso do
espao de procura necessrio para encontrar uma sequncia idntica
independente do espao de procura actual
P-value Probabilidade do alinhamento ter sido obtido por acaso
E-value Nmero de vezes que um score equivalente ou melhor que blast score seria
expectvel acontecer por acaso numa base de dados.
Quanto menor for o E-value mais robusto o alinhamento.

PSI-BLAST
utilizado para detectar homlogos distantes:
1. Encontra os homlogos mais prximos e define um perfil tpico para a sequncia
2. Para esse perfil constroi-se uma estrutura de consenso com os hits encontrados e
faz-se uma nova interrogao base de dados, repetindo o processo
Resumindo
Se tenho uma sequncia proteica:
Quero prever a funo ou estrutura
o utilizar blastp para procurar protenas semelhantes

tambm se pode utilizar psi-blast para encontrar protenas com


homologia distante: particularmente til quando se quer definir uma
famlia de protenas e no encontrar apenas 1 ou 2 membros dessa
famlia
Quero descobrir qual o gene que a codifica utilizar tblastn
Se tenho uma sequncia de DNA:
Quero descobrir sequncia semelhantes existentes no genoma utilizar blastn
ou megablast (sequncias mais semelhantes)
Quero descobrir que protenas que a sequncia de DNA codifica utilizar
blastx
Tenho um transcripto e quero descobrir a sua funo e que gene que o
codifica utilizar tblastx
Quando se quer encontrar protenas homlogas noutros organismos no
aconselhvel utilizar o nucleotide blast devido degenerao do cdigo gentico.
Assim, se quisermos encontrar homlogos usamos o blastp (caso tenhamos uma
sequncia proteica) ou o tblastn (caso tenhamos uma sequencia de nucletidos)
Outros parmetros:
Definir a query sequence que ser apresentada ao programa
o Query subrange: quando s se quer alinhar parte da sequncia
Definir os stios onde se quer procurar alinhamentos
o Bases de dados: tem de coincidir com o programa de blast seleccionado
(ex: se escolher o blastx tenho de seleccionar uma base de dados de
protenas); numa 1 tentativa deve ser uma base de dados pequena
(como a Ref_Seq)
o Organismos
Programas: blastn, megablast ou discotinuos blast? (numa primeira tentative
deve-se utilizer o blastn)
Parmetros do algoritmo
o Parametros gerais
Nmero mximo de alinhamentos que se quer obter
Tamanho das palavras definidas pelo blast
...
o Scoring Parameters
Matriz utilizada
Penalidades atribudas aos gaps
o Filtros
Filtros para zonas de baixa complexidade:se no fossem filtradas
daria um bom E-value a protenas que tm pouca semelhana
Filtros especficos para repeties que so comuns no genoma
de cada organismo
OutPut
Grfico
Tabela

o Descrio
o Max Score: Bitcore mximo obtido dentro da alinhamento (corresponde
maior poro alinhada)
o Total Score: Soma dos bitscores de todas as pores alinhadas
o Query coverage: % da sequncia query alinhada
o E-value: Quanto menor for mais robusto o alinhamento
o Max identity: Semelhana existente nas pores alinhadas
Alinhamentos

DOT-PLOT
Mtodo simples para anlise visual de alinhamentos.
Ao contrrio do BLAST, estes programas esto optimizados para produzir alinhamentos
com fidelidade e no com rapidez.
Assim, quando se quer encontrar homlogos de uma protena utiliza-se o BLAST para
seleccionar alguns candidatos. Para garantir que estes candidatos so realmente
homlogos faz-se um DOT-PLOT, onde se podem ver as zonas de homologia.
O DOT-PLOT tambm pode ser efectuado para comparar um sequncia com ela
prpria. O objectivo a identificao de domnios repetidos, zonas de baixa
complexidade e palndromes.

O programa mais simples o Dotlet, capaz de analizar sequncias de DNA e protenas


com menos de 10000 caracteres. Este um applet (carregado automaticamente no
browser e corrido no computador) que utiliza JAVA.

Na Figure 1 observa-se parte da diagonal


principal. Isto significa que uma regio comum
s 2 sequncias. Sendo 2 factores de
transcrio, provvel que seja a regio
correspondente ao domnio de ligao ao DNA.
O facto de terem pouco mais do que essa regio
em comum demonstra que so protenas
homlogas distantes.
Figure 1: Dotlet dos factores de transcrio GATA4 e GATA6 (observao de domnios proteicos)

Na
Figure 2 est um dotplot de uma protena contra
ela prpria. A diagonal principal o alinhamento
perfeito da sequncia.
As vrias diagonais paralelas principal
representam motivos repetidos. O n de
diagonais acima ou abaixo da principal o n de
repeties do motivo e o tamanho do motivo
definido pela diagonal mais pequena.

Figure 2: Dotlet de 1 factor de transcrio que contm um zinc finger (identificao de motivos
repetidos)

Na
Figure 3 observa-se um quadrado na regio
inferior direita. Este corresponde a uma
regio de baixa complexidade (muitas
repeties de um determinado a.a.) no final
da sequncia proteica.

Figure 3: Dotlet de uma protena contra si prpria (identificao de regies de baixa complexidade)

O Dotlet tambm pode ser feito para analisar uma sequncia proteica e uma sequncia
de DNA (Figure 4). O programa traduz a sequncia de DNA nos 3 quadros de leitura
possveis. Isto permite identificar intres(zonas sem correspondncia) e exes(zonas
onde aparece a diagonal principal), bem como mudanas no quadro de leitura.

Figure 4: Dotlet do gene hbb e da protena hbb

Acima v-se os exes como as zonas onde aparece a diagonal principal.


Tambm possvel identificar o quadro de leitura mais adequado, movendo a janela
do alinhamento (a de baixo). medida que se vai movendo esta janela vo sendo
mostrados a azul os aas alinhados. V-se na imagem que o quadro de leitura de cima
o que encaixa melhor.

Nesta figura, a verde podemos ver um alinhamento


entre uma sequencia e o seu reverso.

Alinhamentos Mltiplos
Os alinhamentos mltiplos so teis para:
Confirmar que uma determina protena pertence a uma famlia
Fazer rvores filogenticas
Identificar regies altamente conservadas, inclundo domnios

Prever a estrutura de uma determinada protena: se esta tiver um bom


alinhamento mltiplo com vrias protenas de estrutua conhecida
Ajudar a identificar fragmentos de PCR: por identificao das zonas mais
conservadas
No que refere identificao de regies conservadas, esta tambm pode ser
conseguida com alinhamentos binrios. No entanto, utilizar alinhamentos mltiplos
facilita esta identificao, dando-lhe mais credibilidade.
de referir que os alinhamentos mltiplos no devem ser utilizados para unir vrias
subsequncias de uma grande sequncia (um problema que tem de se resolvido
quando se est a fazer a sequenciao de uma grande regio cromssmica).
Tambem no devem ser utilizados quando no se encontrou nenhum homlogo nas
bases de dados. As procuras em bases de dados com BLAST no so particularmente
exigentes, pelo que utilizar um programa mais exigente como os de alinhamentos
mltiplos no vai dar bons resultados.
Critrios para construo de um alinhamento mltiplo:
Similaridade estrutural Aminocidos que tero um papel semelhante em
ambas as estruturas estaro na mesma coluna. Necessita de programs de
sobreposio estrutural
Similaridade evolucionria Aminocidos ou nucletidos relacionados com o
ancestral comum aparecem na mesma coluna no h ainda nenhum
algoritmo que faa isto ( preciso conhecer um ancestral comum)
Similaridade funcional posies com a mesma funo aparecem alinhados.
posvel forar certos alinhamentos manualmente, se a informao funcional
estiver disponvel
Semelhana de sequncia Posies comuns so as que do um alinhamento
com a mxima semelhana. a abordagem mais simples e a usada pela maioria
dos programas
Na prtica s se utiliza a semelhana de sequncia. Apesar de no ser uma relao
directa, nos alinhamentos em que h uma boa semelhana de sequncia em princpio
tambm h uma semelhana estrutural, evolucionria e funcional.

Cuidados de aplicao:
Dentro do possvel devem-se usar protenas para alinhamentos mltiplos e
no DNA
o O DNA tem um alfabeto reduzido (o alinhamento perde eficcia)
o Problema da existncia de intres
o Problema das reading frames que podem gerar protenas
completamente diferentes
No usar muitas sequncias dencio: comear com 10-15, mximo de 50

o Alinhamentos muito grandes so dficies de computar e tm maior


probabilidade de ter erros
o Alinhamentos muito grandes so dficies de visualizar e interpretar
Sequncias com menos de 30% de identidade de sequncia podem dar
complicaes: podem alinhar regies que no tm muito significado; isto tem
mais tendncia para ocorrer em sequncias com grandes gaps
Sequncias com mais de 90% de identidade de igual modo so inteis: o
objectivo do alinhamento mltiplo encontrar zonas hipermutveis e zonas
hipomutveis, em sequncia muito semelhantes isso torna-se difcil
Sequncias parciais ou com domnios repetidos: os domnios podem alinhar nas
regies erradas

Os programas de alinhamento mltiplo utilizam uma heurstica baseada num processo


progressivo. Por exemplo, o clustal funciona da seguinte forma:
1. Encontrar os conjuntos de sequncias mais parecidas e a partir destes faz um
dendograma (rvore-guia/filogentica).
2. Utilizando o dendograma como guia, alinha as sequncias mais semelhantes.
Com isto, obtm-se 3 ou 4 clusters de sequncias parecidas com um nica
alinhamento para cada cluster.
3. Neste passo o alinhamento de cada cluster tratado como se fosse um
sequncia. O clustal alinha cada um destes alinhamentos dois a dois.
Devido utilizao deste processo progressivo em que na realidade nem todas as
sequncias so alinhadas umas com as outras, os programas no garantem que o
alinhamento mais correcto conseguido. No entanto, so eficientes para problemas
normais (at 1000 sequncias).
O ClustalOmega muito paralelizvel o algoritmo distribudo por vrias mquinas,
permitindo resolver problemas grandes (vai at 100 000 sequncias).
Algoritmos de alinhamento mltiplo:
Clustal um dos primeiros e dos mais populares
o ClustalW Weighted Clustal
o ClustalOmega funciona com centenas de milhares de sequncias e
altamente paralelizavel
T-coffee produz alinhamentos mais precisos para sequncias mais distantes
Muscle (multiple sequence comparison by log expectation)
o ferramenta de domnio pblico
o Frequentemente melhor que o Clustal
ProbCons Open source
o Define a confiana de cada alinhamento (reliability)e a preciso
esperada antes da definio da rvore guia

Depois do a alinhamento ter sido feito recomendvel confirmar que est bem
feito. Ento faz-se um novo alinhamento que inclui uma protena distante das que
esto no alinhamento. Se nos 2 alinhamentos os blocos conservados se manterem
porque o alinhamento gerado bom.
A interpretao de alinhamento mltiplos bastante subjectiva mas no geral o que se
procura so blocos de a.a.s conservados. A composio de a.a.s de cada um desses
blocos pode ser relacionada com a funo mais provvel dessa regio:
Trp, Tyr e Phe (aromticos) Trp um a aminocido hidrofbico com um papel
estruturante no interior da protena. Quando muda (o que raro) para outros
aromticos (Tyr ou Phe)
Gly ou Pro Comuns no fim de alpha-helices e beta-sheets. So habituais
colunas conservadas com estes 2 resduoos, apesar de Gly serem comuns em
zonas pouco conservadas
Cys Fundamentais para localizao de pontes de enxofre. Alinhamentos com
distncias entre Cys semelhantes so uma boa indicao de determinados
domnios e dobras
His e Ser resduos muito comuns em sitios catalticos, em particular de
proteases
Asp, Arg, Glu, Lys aminocidos polares, comuns em regies catalticas
podem tambm indicar pontes salinas
Leu leucine zippers
Uma ferramente til na visualizao de alinhamentos mltiplos Jalview. Este
programa uma interface instalada no pc, que utiliza servios web que calculam o
alinhamento e o devolvem para o programa.
Define logos
Constri rvores.
Permite a avaliao de cada posio no alinhamento
Permite previso de estrutura secundria

Logos
So uma forma de visualisar um alinhamento mltiplo em que cada coluna representa
uma posio.
A altura da coluna indica a
conservao dessa posio
O aminocido mais comum
aparece no topo
Cada letra (aminocido) tem
uma
dimenso
correspondente

sua
frequncia no alinhamento

Ocasionalmente so coloridos de acordo com as propriedades dos aminocidos

Previso da funo em sequncias proteicas


A previso da funo feita por comparao com sequncia j anotadas. Isto significa
que h uma premissa essencial:
Sequncia semelhante Estrutura semelhante Funo semelhante

As inferncia acima estabelecidas so saltos muito grandes que nem sempre se


aplicam: podemos ter duas sequncias cujos domnios tm menos de 30% de
semelhana e mesmo assim podem ser domnios homlogos.
Assim, a comparao de sequncias pode no chegar para estabelecer as
caractersticas bioqumicas das sequncias.
Ento, o primeiro passo para descobrir a funo de um protena fazer um blast para
descobrir as protenas homlogas. Consoante a semelhana de identidade entre as
protenas so tomados diferentes passos:
60% de semelhana confia-se no BLAST: assume-se que as protenas so da
mesma famlias
40% a 60% Utiliza-se o Psi-Blast para identificar homlogos distantes e a
partir destes aplica-se o mtodo dos consensos. So criadas bases de dados de
sequncias consenso para domnios proteicos (ProDom)
20% a 30% Twilight zone so aplicados mtodos de padres e perfis para
criar bases de dados de domnios proteicos (Pfam, Prints, Blocks, etc)
Menos de 20% preciso prever a estrutura

Mtodo dos consensos


Identificao de protenas homlogas
A descoberta de homlogos distantes feita com o Psi-Blast. O seu algoritmo o
seguinte:
1. Faz um blast normal e selecciona os melhores HSP (as protenas mais parecidas)
2. A partir destes HSP cria um perfil que vai servir de base para a Position Specific
Scoring Matrix (PSSM): aos a.a.s mais conservados so atribudos scores mais
elevados, aos a.a.s mais variveis so atribudos scores prximos de 0
3. Continua a ter de ser usada uma matriz de substituio (normalmente a
BLOSUM62). Exemplo: na posio x est um triptofano conservado cujo score
10; o score para se manter o triptofano 10, o score para ficar uma

feninalanina (semelhante ao triptofano) 8, o score para ficar um prolina


(muito diferente) -2
4. Com este perfil genrico e PSSM feita uma nova procura e definido um novo
perfil
5. O processo repetido at no se encontrar mais nenhuma protenas .
Normalmente o mximo de repeties 20 para evitar que apaream falsos
positivos.
Identificao de domnios e motivos
Os domnios so unidades estruturais evolutivas: a sua conformao autnoma da
restante protena, encerram funes (ex: ligar ao DNA) e sofrem pouca alterao ao
longo da evoluo (visto que alterar domnio o mesmo que alterar a funo das
protenas). Apesar de ocorrer pouca alterao dentro de domnios (como mutaes) , a
perda , ganho e rearranjo destes uma forma de evoluo para as protenas (ex: se
uma protena ganhar um leucine zipper pode comear a ter novas funes como
regulao da transcrio).
Os motivos encontram-se dentro ou fora dos domnios e so unidades estruturais mais
pequenas: regies da protena que tendem a ter uma estrutura particular devido ao
seu contedo em a.a.s que cria interaces qumicas prprias (ex: hlice alfa).
O mtodo dos consensos utilizado para protenas com mais de 30% de semelhana e
realizado da seguinte forma:
feito um alinhamento mltiplo de vrias protenas semelhantes e a partir deste
determinada a sequncia consenso: sequncia mais provvel tendo em conta a
frequncia de a.a.s que se alteram e que se mantm.
As bases de dados de consensos so construdas aplicando alinhamentos mltiplos a
clusters de famlias de protenas j anotadas.Um exemplo a Protein Domain
Database (ProDom).

Mtodos de determinao de padres e perfis


Estes mtodos so aplicados a protenas com menos de 30% semelhana e servem
para encontrar sinais provenientes de relaes mais distantes.
Para a aplicao destes algoritmos define-se um domnio como um regio de
homologia encontrada entre protenas que no partilham homologia num alinhamento
global.
Os motivos so definidos neste contexto como blocos ou assinaturas altamente
conservadas rodeados de regies altamente divergentes (=com elevada probabilidade
de mutao); este blocos so de aproximadamente 10-20 aminocidos.

So implementados os seguintes mtodos:


Mtodos de determinao de um ou vrios motivo: procuram blocos
altamente conservados para construir padres de diagnstico de famlias de
protenas
o Expresses regulares
o PSSMs (Position Specific Scoring Matrix)
Mtodos de alinhamento de domnios: constroem padres a partir dos blocos
altamento conservados bem com a periferia divergente maximizam o sinal
existente em famlias de domnios
o Perfis
o HMM
A partir destes mtodos foram construdas bases de dados de padres e perfis. Podese se introduzir uma query sequence e fazer uma pesquisa na base de dados ,
procurando saber se existem regies da query sequence associadas a certas funes.
Estas bases de dados so secundrias porque foram construdas a partir de informao
existente em bases de dados primrias (como a UniProt).
Grandes bases de dados de padres e perfis:
Prints matrizes de identidade
BLOCKS Baseados em PSSMs
ProSite alinhamentos de domnios completos e expresses regulares
Pfam baseada em Hidden Markov Models (HMMs)
Mtodos de determinao de motivos
Expresses regulares
Expreses regulares servem para definir padres bsicos em motivos nicos
Regras:
Cada posio separada por um -
Resduos so escritos em mausculas
X qualquer resduo
[ ] so classes de caracteres
o [ abc] emparelha com a, b ou c
o [ ] emparelha com qualquer caracter
[R]* encontra qualquer nmero de repeties de [R]
(n) denota o n de repeties
Exemplo: [LV]-(2)[IVL]-W-(3)x-H* emparelha com
VIIWKREHHH
LILWPEEHH

As expresses regulares so feitas manualmente a partir de alinhamentos mltiplos e


podem incluir gaps. Normalmente inicia-se o padro numa regio cataltica com 4/5
a.a. e depois vai-se extendendo o padro at ter 10-20 aas. Por vezes os padres
observados em certas famlias podem ser referentes a motivos sem funo conhecidas
mas mesmo assim so utilizados como meio de diagnstico.
As verificaes das expresses regulares so feitas implementando um modelo que
define uma srie de estados progressivos relacionados por transies entre esses
estados. Assim, tenta procurar o 1 smbolo da expresso regular na string de input. Se
encontrar, passa ao estado seguinte, onde procurado o 2 simbolo da ER, etc... At
chegar ao estado final, onde a string de input reconhecida como tendo a ER.
Isto significa que basta um smbolo falhar que toda a verificao falhe! Esta uma das
limitaes das ER.
Outra o facto de estas serem construdas para um certa famlia de protenas que
entretanto vai tendo cada vez mais membros, membros estes que no entraram para a
construo da ER perda de informao ao longo do tempo.
A ultima limitao est relacionada com a questo de as ER serem construdas com
informao insuficiente: s so tidos em conta os aas verificados. E os aas no
verificados?
H ainda a possibilidade de aparecerem falsos positivos caso as ER sejam construdas
de uma forma muito inclusiva, para detectar homlogos distantes. Um exemplo destes
padres inclusivos so as ER difusas.
Resumindo... as limitaes das ER so:
Perda de informao ao longo do tempo
Feitas com amostragem incompleta
Basta um smbolo para a verificao falhar (falsos negativos)
Padres muito inclusivos (falsos positivos)

Expresses regulares difusas


Agrupam aas consoante o seu tamanho, polaridade, carga, etc... til para detectar
homlogos distantes (relembrar que quando os aas conservados mutam para aas
parecidos) mas aumenta a probabilidade de falsos positivos. Estas so usadas nas
bases de dados PRINTS e BLOCKS.
Base de dados Prints
Esta base de da dados tem vrios motivos denominados fingerprints. Estes so
construdos manualmente, comeando de uma primeiro alinhamento mltiplo que vai
sendo acrescentado com sucessivas consultas s base de dados de sequncias.
Isto tem a vantagem de preservar os alinhamentos mltipos, sendo portanto toda a
informao preservada (ao contrrio da ER e do mtodo de consensos). A partir destes
alinhamentos so derivadas representaes por vrios mtodos (ER, HMM, etc)

Base de dados Blocks


Esta base de dados utiliza as entradas da PROPOSITE e PRINTS para criar os blocos.
1. Dentro das regies mais conservadas dos alinhamentos (provinientes da bases
de dados proposite e prints) escolhe um tripleto que servir de ncora para
criar um alinhamento local
2. Atravs de um processo iterativo vai acrescentado cada vez mais sequncias ao
alinhamento medida que o tripleto vai sendo expandido para gerar um bloco
de alinhado sem gaps.
3. Aps os blocos terem sido criados so atribudos pesos s sequncias de onde
estes derivaram serve para evitar a sobre-respresentao derivada de
sequncias muito semelhantes: h muitas zonas que apresentam grande
similaridade mas que podem no ter significado
o Pesos baixos a sequncias muito semelhantes entre si (redundantes)
o Pesos altos a sequncias mais divergentes
o Pesos atribudos a cada posio de aa derivada de uma sequncia
4. Cada bloco convertido numa Position Specific Scoring Matrix (PSSM)
Tabela 1: exemplo de uma
PSSM
-cada coluna corresponde a
uma posio da sequencia,
-cada linha corresponde a um
tipo de aa ou a um gap (no
includo nesta matriz)
-cada clulas corresponde ao
score atribuido a um
determinado aa naquela
posio (odds ratio)

Ao calcular uma PSSM coloca-se o problema de qual o score que se deve atribuir a aas
que nunca aparecem em determinada posio. No Blocks este calculado atravs de
uma matriz de substituio, o que reduz a especificidade da PSSM.
Quando inserida uma sequncia query e feita uma pesquisa o que acontece que a
sequncia query alinhada com cada bloco existente e para cada um desses
alinhamentos feito um score total (soma dos scores de todas as posies). Depois os
scores totais so normalizados. E no final so reportados os blocos com os melhor
scores (normalizados!) e os eus E-values.

Mtodos de alinhamento de domnios - HMM


O que um processo de Markov?
Um processo de Markov de 1 ordem
uma srie de estados que dependem
sempre do estado anterior.
Num modelo oculto de Markov existem
tambm uma sries de estados mas a
transio destes estados determinada
por um conjunto de factores ocultos. Isto
significa que estes processos ocultos de
Markov podem ser estatisticamente
relacionados com as mudanas de estado
observadas.

Figure 5: conceptualizao de um modelo oculto de


Markov

Figure 6: Perfil de HMM

Na bioinformtica um perfil de HMM utilizado para representar um domnio de


uma famlia proteica. A cada coluna no alinhamento mltiplo dessa famlia
corresponde uma posio do perfil. Dentro de cada posio existem 3 estados
possveis:
De match (quadrados em baixo): a probabilidade para cada um destes estados
basicamente a frequncia de cada aa nessa posio
De insero (losangos do meio): a probabilidade para cada um destes estados
basicamente a frequncia de cada aa inserido nesta posio
De deleco (circulos em cima): no diagrama servem apenas para possibilitar
que se salte de uma coluna para outra sem incluir nenhuma aa na sequncia
obtida
Existem ainda as transies de estado que tm uma determinada probabilidade
associada.

Figure 7: HMM

Assim, se quisermos fazer uma sequncia passar por cada modelo no final podemos
atribuir-lhe uma probabilidade isso acontecer. Essa probabilidade o total de todas as
probabilidades de os estados acontecerem e das transies de estado ocorrerem.

Figure 8: HMM para nucletidos

Para o HMM da Figure 8 podemos calcular a probabilidade de ocorrncia de


sequncias de nucletidos:
Sequncia ACA:
Sequncia TGG :
esta
sequncia no se adapta ao modelo
Sequncia AGCAAC :

Como se v, a probabilidade depende muito do tamanho da sequncia. Assim,


quando uma sequncia submetida a um HMM o que calculado o log odds score:
(L o tamanho da sequncia)

Os HMM normalmente so feitos a partir de regies altamente conservadas


encontradas nos alinhamentos mltiplos de protenas da mesma famlia. Tambm
podem ser feitos atravs de sequncias no alinhadas se forem da mesma familia. Isto
feito por um processo iterativo mas pode criar um modelo com muito rudo (no
aconselhvel).

Quando feita uma pesquisa com uma sequencia query numa base de dados com
HMMs o algoritmo tenta passar a sequncia por todos os HMMs correspondentes a
todas as famlias existentes na base de dados. Para cada HMM h vrios caminhos que
a sequncia pode seguir, sendo seleccionado aquele com que se obtm o score mais
elevado. No final so reportadas as famlias cujos HMMs obtm scores acima de um
determinado threshold.
Na base de dados Pfam cada famlia identificada por:
Alinhamento seed: feito com sequncias representativas de cada famlia
Alinhamento completo: com todas as sequncias da famlia
Hiden Markov Model (HMM): construdo a parte do alinhamento seed
Dentro da Pfam existem as subdivises: A (entradas manuais), B (entradas
automticas) e Clans (Agrupamentos de entradas Pfam A de acordo com semelhanas
de sequncias). Existem ainda:
TIGRFam Essencialmente procariotas muito bem comentados e anotados
SCOP superfamilies Usa HMMs em classificao estrutural de protenas
A base de dados Interpro faz uma ligao entre as vrias bases de dados j referidas:
fazendo uma pesquisa na interpro, a sequncia query ser procurada em todas as
bases de dados-membros (PROSITE, PRINTS, Pfam, ProDom, SMART e TIGRFAMs).
Resumindo....
O primeiro passo para identificar famlias de protenas fazer um blast.
Proteinas com mais de 60% de semelhana admite-se que so da mesma famlia.
Protenas com 30% a 60% de semelhana- faz-se Psi-Blast para encontrar homlogos
distantes. aplicado o mtodo dos consensos para criar bases de dados (ProDom p.e.)
Protenas com menos de 30% de semelhana mtodos de determinao de perfis e
modelos para criar bases de dados como a PFAM.
Protenas com menos de 20% de semelhana preciso prever a estrutura.

Python
Linguagens de programao
Os computadores funcionam executando instrues em cdigo de mquina (0s e 1s)
Foram definidas abstraces sucessivas (linguagens) do cdigo mquina com o
objectivo de aproximar a linguagem mquina da linguagem e modo de pensar humano
Implementao de Linguagens de Programao
Compiladas
As instrues so transformadas em cdigo mquina (0s e 1s) por um compilador
Programas geralmente eficientes no uso dos recursos (CPU, Memria, etc...) mas
mais rgidos na sua execuo
Quanto mais prxima for a linguagem de programao da linguagem mquina, mais
eficiente o cdigo produzido
Interpretadas
Programas executados por um interpretador.
Permitem maior flexibilidade na linguagem
Programas so geralmente mais lentos
Compiladas para linguagem intermdia
Compromisso entre as duas abordagens
A linguagem intermdia pode ser compilada enquanto o
programa corre.
Python : uma linguagem interpretada
Mais lenta que as linguagens compiladas
Mais flexvel
Python uma linguagem interactiva
O interpretador o ambiente natural para correr programas
Linguagem multiparadigma:Imperativa, orientada a objectos e funcional
Permite o desenvolvimento de aplicaes sofisticadas
nfase na facilidade de desenvolvimento e aprendizagem
Sntaxe muito fcil de escrever e ler
Altamente produtiva!
Outras linguagens interpretadas
PERL Muito eficiente a lidar com cadeias de caracteres
Cdigo difcil de ler e manter
CPAN repositrio de bibliotecas para PERL onde se encontra tudo!
PHP Orientada sobretudo para a web
Ruby Muito elegante e bem estruturada
to usada como o Python mas em franco crescimento
Tipos de Variveis Bsicos em Python
Inteiros (preciso arbitrria)
Vrgula flutuante (64 bits)
Sequncias: Strings (cadeias de caracteres - texto); Tuplos; Listas; Dicionrios
exitem outros tipos, mas no so muitos usados

Estruturas de dados no escalares nativas do Python


Strings Cadeias de caractres imutveis
Tuplos Associaes de objectos no extensveis ou manipulveis
Listas Listas de objectos, que podem ser modificados e extensveis sem limite. Acesso
sequencial
Dicionrios - Conjuntos de dados manipulveis e extensveis de acesso directo

Integrao da Informao Biomdica


Porqu a necessidade de integrar?
A emergncia de um novo modelo biolgico:
No sculo XX o modelo predominante era o da biologia reducionista: o objectivo era
identificar protenas, molculas, clulas e afins, no existindo um grande esforo no
relacionamento de toda a informao.
Actualmente o modelo da biologia de sistemas/integrativa est a emergir. Para que
possa existir um conhecimento dos
sistemas preciso obter informao
acerca de todas as partes dessa
sistema. Este modelo obriga a uma
integrao do conhecimento de vrias
reas, criando relaes entre estas. S
Figure 9: Processo de descobeta da informao relevante
compreendendo todas as partes de para a biologia dos sistemas
um sistema que se pode prever as
suas respostas. Para que isto seja possvel, os dados cientficos tm um novo ciclo de
vida: actualmente toda a informao produzida empiricamente guardada em
repositrios de longa durao e a partir destes repositrios que se fazem estudos
(tiram concluses). Isto ope-se ao modelo antigo em que a informao era guardada
apenas temporariamente para escrever os artigos e de seguida era perdida.
Assim, a biologia dos sistemas necessita de uma integrao da informao.

Dificuldades na gesto de dados


Para que este novo modelo possa ser utilizado necessrio criar programas de gesto
do conhecimento cientfico. A criao destes programas subentende a realizao de
vrias tarefas, com problemas associados:
Criao de coleces lgicas de dados (base de dados): abstraco dos dados
fsicos em coleces lgicas
Mapeamento fsico: Manuteno dos dados nos seus suportes, garantindo
consistncia armazenamento
Persistncia: que mecanismos existem para contrariar a obsolescncia tcnica?
Segurana: Quem pode adicionar e modificar os dados?

Disseminao e publicao dos dados: Como fazer que os interessados esto


conscientes das mudanas e nas base de dados?
Responsvel dos dados (ownership): quem o responsvel pela qualidade dos
dados e o seu significado.
Interoperabilidade: Ser possvel colocar vrias coleces de dados a funcionar
conjuntamente?
Gesto dos metadados: Gerir os dados sobre os dados
Gesto de informao e decoberta de conhecimento: Quais os factos
relevantes dentro de uma coleco de dados e como extrair conhecimento dos
mesmos

Ento porque que to difcil criar estes sistemas de gesto de dados? Alguns
problemas principais so:
Muitos conceitos biolgicos no tm um nome universal
Diferentes comunidades utilizam diferentes nomes para o mesmo fenmeno
necessrio criar ontologias! (vocabulrios controlados)
A maior parte dos conceitos biolgicos tm definies pouco precisas
Ex: As ATPases esto muito bem estudadas mas no existe uma definio universal
Existem vrias representaes dos mesmos conceitos (?)
Conhecimento biolgico em contnua evoluo
Todos os dias produzida cada vez mais informao e com mais rapidez. Cada vez
h mais a necessidade de criar ferramentas que a integram e actualize estas
ferramentas.
Variedade de dados
Variedade da informao biolgica
Existem vrios tipos de dados que tm de ser integrados: sequncias e expresses
genticas, caractersticas das doenas, estruturas moleculares, dados de microarrays,
interaco de protenas, Estes dados podem ser qualificativos (ex: classes de
enzimas), quantificativos (ex: nveis de expresso gnica) ou at estruturas
tridimensionais de protenas.
muito provvel que se encontrem redundncias e inconsistncias no meio disto tudo
ou at dados no identificados: no se sabe a sua fonte.
Os dados podem ser classificados como:
Estruturados: tabelas ou ficheiros muito mais fceis de gerir
No estruturados: os artigos p.e. pois contm texto, imagem, tabelas, grficos,
etc Grande problema: como retirar informao relevante dos artigos?

Semi estruturados: p.e. as fichas clnicas pois contm tabelas e exames


(estruturados) mas tambm notas feitas pelo mdico (no estruturados)
Tambm podem ser classificados como pblicos ou privados.

Heterogeneidade das representaes


Para alm de existirem muitos tipos de dados ainda h o problema de estes serem
representados de diversas maneiras: diferentes semnticas, nomes, estruturas e
contedos. Isto cria vrios problemas:
Como identificar as identidades?
Como saber se os dados so de boa qualidade?
Como garantir que dados obtidos de fontes diferentes com representaes
diferentes vo poder ser inter-relacionados? (consistncias)
Como impedir a existncia de redundncias? (ex: ter o 3 ou 4 nomes para o
mesmo fenmeno e o programa no os saber distingui)r
Como tornar possvel a curao dos dados? (Curao: quando dados so
verificados por pessoas e no por mquinas; muito mais fivel mas impossvel
de fazer tendo em conta a quantidade de dados que preciso verificar).
Diferentes fontes web autnomas
H vrias fontes de informao na web que trabalham de formas completamente
diferentes: tm interfaces diferentes, fazem interrogaes diferentes... Devido a esta
distncia no mtodo de trabalho estas fontes no comunicam entre si, o que obriga
o utilizador a saber dominar as diferentes interfaces.
O facto de serem autnomas significa ainda que os dados e a forma como estes so
providenciados (acesso) tambm est sempre a mudar, o que obviamente torna muito
mais dficil a integrao.
Variedade de abordagens na integrao
O facto de existir tanta variabilidade de informao significa que tambm ha vrias
abordagens na integrao desta. Alguns formas de divergncia na abordagem:
Forma de integrao
o Em portais O utilizador vai a cada fonte web, faz uma interrogao e
filtra os resultados
Ex: Se quiser saber como feito o splicing de um RNA vou ter e consultar o
GeneBank, a Uniprot e outras bases de dados
o Em interrogaes especficas O utilizador faz uma interrogao a uma
aplicao e essa aplicao vai procurar nas diferentes bases de dados a
informao relevante para obter uma resposta

Neste caso e seguindo o exemplo do splicing, seria a prpria aplicao que ia


consultar a Uniprot e a GeneBank e tirava as suas prprias concluses, sendo
que o utilizador acedia s resposta
Modelo de dados
o Estruturados, no estruturados ou semi estruturados?
o Horizontais ou verticais?
O GeneBank um exemplo de uma base de dados horizontais (s genomas). A
flybase um exemplo de uma base de dados verticais: tem tudo sobre a
Drosophila (genoma, proteoma, redes metablicas, etc)
Modelo do utilizador
o Utilizador navega nos dados : por portais ou simplesmente vai
procurando
o Interrogaes especficas (descrito acima)
Nvel de transparncia: ser necessrio ao utilizador ter que especificar as fontes?

Existem vrias bases de dados. Como que se faz a


ligao entre estas? Este processo levanta vrios
problemas:
Diferentes caminhos do diferentes resultados
(Figure 12)
Para a mesma pergunta podemos fazer caminho por
diferentes bases de dados e obtemos resultados
diferentes
Ligaes so estticas e frequentemente
unidireccionais (?)
Ligaes podem limitar o mbito das
interrogaes que se transformam em conjuntos
de links (?)
Problemas de escalabilidade - Dados aumentam
muito mais do que a capacidade de os analisar (?)

Figure 10. Ligaes entre as


BDs : diferentes caminhos d o
diferentes resultados

Necessidade de ferramentas de sondagem da informao


Ento, tendo em contas os vrios problemas relacionados com a transformao dos
dados raw em dados estruturados, porque que os autores no pem directamente
a informao que obtiveram nas bases de dados?
O autores ganham crdito por publicarem artigos, no por adicionarem linhas a
uma tabela
H vrias bases de dados, cada uma para necessidades diferentes

muitas vezes difcil expressar o conhecimento biolgico sonb a forma de


bases de dados
Hipteses, modelos e opinies so tambm partes do conhecimento biolgico
e ainda mais difceis de expressar (no to fcil adicionar hipteses como
observaes)
Nem todos os factos so relevantes porque alguns acrescentam rudo s bases
de dados
Muitas vezes as evidncias experimentais so cruciais e so difceis de integrar

Assim, necessrio criar ferramentas que retiram a informao dos pappers text
mining (Figure 13).
O processamento da informao existente
nos textos pode ser dividido em 3 fases:
Recuperao da informao (IR)
O utilizador introduz palavras chave
(funciona como fizesse uma pergunta).
Figure 11: Ferramentas de anlise de texto
O programa tem de seleccionar quais o
documentos relevantes para responder pergunta.
Extraco da informao (IE)
Dentro desses documentos, qual a informao relevante?
Nesta fase preciso transformar informaon no estruturada (texto) em dados
estruturados, como entidades (ex: proteina, localizao celular) e relaes (ex:
Serotonina liga-se ao receptor 5HT2a).
Interrogaes e respostas (Q&A)
Nesta fase preciso sintetizar uma analisar a pergunta feita para saber que tipo de
resposta esperada. E depois sintetizar a informao obtida.

Vocabulrios controlados e Ontologias


Como reconhecer as relaes e entidades descritas no texto? H vrios problemos
neste sentido:
Identificao de nomes
o Sinnimos: nomes diferentes para a mesma identidade
o Homnimos: mesmo nome para diferente identidade
o Acrnimos (siglas): mesma sigla para diferentes identidades. Os
acrnimos utilizados dependem muito do contexto
Estrutura da linguagem (sintaxe)
Ex: The antibody binds to the protein, which is labeled as an enzyme. Qual a
enzima: a proteina ou o anticorpo?
Artigos completos so longos e a maior parte da informao irrelevante
(Materiais e Mtodos)
A funo de uma entidade pode ser descrita de muitas formas
H anotaes distintas com vocabulrios distintos para os vrios organismos
Uma frase no muitas vezes suficiente para suportar uma anotao
Ex: o autor descreve uma hiptese mas o anotador considera que est a fazer uma
afirmao.
Por exemplo, quando queremos identificar todas as entidades referidas num texto
aparecem vrios problemas derivados do facto de no existir uma nomenclatura
universal. Para diminuir a ocorrncia destes problemas foram criados vocabulrios
controlados e ontologias.
Os vocabulrios controlodados so um conjunto de termos bem definidos para
referenciar numa forma hierarquica que permite procuras com vrios nveis de
especificidade. O Mesh (Medical Subject Headings) um vocabulrio controlado.
Um exemplo da sua aplicao:
O termo correcto no Mesh vitamina C. Isto significa que cada vez que o programa
encontra a palavra cido ascrbico num texto faz um tagg para vitamina C.
No fundo um vocabulrio controlado uma lista de palavras e frases que utilizadas
para taggar textos e afins.

Ontologias
Uma ontologia um vocabulrio expresso numa linguagem de representao da
ontologia.

Isto significa que uma ontologia subentende uma gramtica: uma srie de restries a
ser impostas quando se usa o vocabulrio controlado daquela ontologia. (no existe
nenhuma definio universal)
Normalmente as ontologias so feitas a partir de vocabulrios controlados j criados
simplesmente para poupar trabalho.
As ontologias so feitas a partir de:
Classes
Atributos
Relaes
Axiomas
Instncias : h quem considere que quando se une instncias a ontologias
obtm-se uma base de conhecimento (ou seja, as instncias no fazem parte
das ontologias)
Uma classe pode ter vrias subclasses ( construda uma relao hierrquica). Por
exemplo, podemos dividir a classe computadores de vrias formas: marcas
(subclasses:toshiba, asus, etc) ou cor (subclasses:preto, branco, cinzento), etc
Se descrevermos a classe enzimas , a G6PD uma instncia dessa classe ( um
indivduo dentro da classe).
Os atributos podem ser dados a classes e a instncias.

Figure 12: Ontologia

Nesta ontologia existem as classes


wine e winery.
Dentro da classe wine est a instncia
Chateau Lafite Rothschild Pauillac.
Todas as instncias da classe wine tm
um atributo maker cujo valor uma
instncia da classe winery.
Dentro da classe winery est a instncia Chateau Lafite Rothschild. Todas as
instncias da classe winery tm um atributo produces, cujo valor uma instncia da
classe wine.
A OWL (Web Ontology Language) um exemplo de uma ontologia que se aplica a
qualquer domnio e quer permite grande complexidade (relaes quantificadas, etc).

A OBO (Open Biomedical Ontologies) engloba um grupo de ontologias das cincias da


vida que se regem pelos princpios da abertura, ortogonalidade,expressividade e
sintaxe partilhada. mais simples que a OWL.
Gene ontology
A Gene Ontology (GO) um conjunto de 3 ontologias cujo objectivo facilitar a
anotao de produtos gnicos. Essas ontologias so:
Cellular component partes de uma clula ou do seu ambiente extracelular
Molecular function actividades elementares de um produto gnico ao nvel
molecular, como ligao e catlise
Biologal process operaes ou conjuntos de eventos moleculares com um
incio e fim definido, pertinentes para o funcionamento de unidades integradas,
com celulas, tecidos, orgos ou organismos
(estas 3 ontologias so tambm englobadas na OBO)
Dentro destas 3 ontologias so definidas classes (go terms).Para cada classe existe um
identificador alfanumrico, um nome principal, sinnimos, Ids alternativos e uma
definio.

Figure 13: Classe Regulation of transcription (pertencente ontologia biological process) e os seus
atributos

Na GO so definidas 4 tipos de relaes:


Is_a (hiponmia): classificao hierrquica classe-subclasse
o As propriedades das classes so herdadas pelas subclasses
o Ex: DnA binding is_a binding
Part_of (Meronmia)
o Relao entre conceito e partes
o Ex: nucleus part_of cell
Have_part
o Se A has part B significa que sempre que existe um A tambm existe
um B (complementar da part_of)
o Ex: cell has_part nucleus
Regulates

o Ex: regulation of transcriptions regulates transcription


O objectivo da GO serem feitas anotaes. Fazer uma anotao associar um GO
term a um produto gnico. A cada anotao atribudo um evidence code, que
identifica o tipo de evidncia que a suporta.
As anotaes podem ser manuais (foram curadas):
o Experimentais (EXP):
IDA (Inferred from Direct Assay)
IPI(Inferred from Physical Interaction)
etc
o Anlise Computacional:
ISS (Inferred from Sequence or Structural Similarity)
etc
Implica sempre que algum tenha revisto a experimentao!
o Autor:
TAS(Traceable Author Statement) proviniente de artigos de
reviso, por exemplo
Etc
o Curador: IC (Inferred by Curator)
Quando no h evidncia directa mas pode ser inferida atraves de outras
anotaes
Ex: se o produto gnico tiver um anotaes como RNA polimerase
seguro assumir que se localizar no ncleo
Ou podem ser Automticas (IEA) Anotaes que dependem directamente de
computao (ex: baseadas em similaridade de sequncia feita automaticamente) ou
transferncia automtica de info de uma base de dados e ainda no foi curada.

Outra ontologia importante a Human Phenotype Ontology (HPO), que descreve as


anomalias fentipicas associadas com doenas humana. A cada classe de HPO
atribudo um ID alfanumrico, IDs alternativos, nome principal, sinnimos e definio.
As doenas so associadas a classes HPO.
Para que servem as ontologias biomdicas?
To provide a community reference: ensures knowledge re-use, improved
maintainability and long term knowledge retention;
To define a database schema or a common vocabulary for database annotation:
allows for documentation, maintenance, reliability, sharing and knowledge reuse;
To provide common access to information: ensuring interoperability, and more
effective use and re-use of knowledge resources;
To support Ontology-based search by forming queries over databases: for more
effective access to knowledge resources
To help understand database annotation and technical literature: by supporting
natural language processing (NLP), and linking not only domain knowledge but

also how knowledge in related to linguistic structures such as grammar and


lexicons

Aquisio, armazenamento e uso de dados biomdicos


Como que os dados biomdicos podem ser teis?
Caracterizao dos pacientes
Caracterizao de populaes
Informao sobre evoluo de doena
Informao sobre epidemias
Decises sobre diagnsticos e terapias
Decises sobre riscos e situaes a evitar
Recolher informao pode ser til para o paciente ou para a populao em geral.
Tambm pode ser til a longo ou a curto prazo.
Um mdico pode recolher informao sobre o seu paciente que mais tarde pode ser
til no diagnstico desse mesmo paciente ou de outros pacientes (desse mdico ou
no).
O que so dados biomdicos?
Os dados biomdicos podem extremamente subjectivos: esgares, detalhes das queixas
dos doentes, etc... Este tipo de dados so extremamente dficeis de partilhar devido ao
seu carcter subjectivo.
No entanto, tambm h dados biomdicos mais objectivos como medies de
temperatura, hematcrito, etc. Estes dados j so passveis de serem partilhados.
Medical datum (singular) vs Medical data (plural)
Uma observao (medical datum) definida por 4 elementos:
Paciente
Parmetro observado
Valor do parmetro observado
Data da observao Este elemento pode ser complicado pois depende do
formato da data e da preciso ( se foi s registado o ano, ms, dia, hora, etc)
Pode ser importante anotar as circunstncias em que foi medido o parmetro (ex:
para uma anlise glicose convm saber se o paciente estava em jejum).
Os dados obtidos podem no ser certos: anotaes feitas pelo mdico podem no
estar correctas (ex: uma mancha na radiografia pode ser apenas um artefacto ou um
quisto).
Verificam-se j algumas problemas na descrio das observaes mdicas. Um mdico
quando confrontado com esta situao tem de decidir se vale a pena recolher mais
informao para resolver estes problemas:

Quais os custos associados a recolher mais informao? (financeiros, em


termos de dor, de risco, etc
Neste contexto a ideia de trade-off muito importante (custos vs ganhos)
As fichas mdicas tradicionais (em papel) tm alguns problemas associados.
Um deles a redundncia: muitas vezes a mesma observao encontra-se em 3 ou 4
sitio diferentes da ficha.
O outro problema da ficha mdica tradicional a ineficincia: h tanta informao que
se torna dficil encontrar o que se procura.
Assim, h uma tendncia cada vez maior para as fichas tradicionais serem substituidas
por registo mdicos electrnicos (EMR). No entanto, h vrias barreiras a ultrapassar
na implementao destes sistemas.

Barreiras na recolha de dados


Existe uma grande heterogeneidade de dados biomdicos cuja recolha tem alguns
problemas associados:
Narrativos No so estruturados e muitas vezes incluem abreviaturas e
linguagens prprias do mdico que tornam dficil a sua leitura.
Valores numricos discretos (temperatura) Problema da preciso
Sinais contnuos (ECG) Normalmente inclui o resultado do exame e a
interpretao do mdico
Imagens Por vezes at rascunhos feitos pelo mdico
As inconsistncias na nomenclatura so um grande problema a resolver na recolha de
dados. Na medicina a nomeclatura muito subjectiva, no existem vocabulrios
controlados (como por exemplo na qumica h a IUPAC).
Outro problema na recolha de dados a seleco destes. preciso definir que
informao que relevante. A melhor maneira de o fazer mimetizar o processo
que os mdicos normalmente fazem mentalmente quando confrontados com um
problema clnico (ver que tipo de informaes que necessita para tomar uma
deciso).
Este processo mental pode ser esquematizado atravs da abordagem hipotticodedutiva:
1. O mdico recolhe dados
2. O mdico interpreta os dados
3. A partir desta interpretao formula uma hiptese
4. Recolhe mais dados para validar esta hiptese. A hiptese validada caso o
grau de incerteza seja menor que um threshold
5. Em caso de insucesso volta ao passo 1
Este um processo iterativo.

Resumo:

Os dados biomdicos tm uma enorme heterogeneidade


Para serem processados inteligentemente os conceitos biomdicos constantes
dos registos tero de ser codificados numa terminologia comum
Os sistemas de registo clinico em papel tm muitas debilidades e tendero a
ser substitudos peos registos electrnicos
As hipteses de diagnostico nascem a partir dos dados
Grande parte do processo de recolha de dados biomdicos pode ser (quase)
completamente automatizada

Normas em Sistemas de Informao


Porqu fazer normais em sistemas de informao?
Os pacientes so visto por mdicos de diferentes especialidades em diferentes
contextos, sendo a informao criada muito heterognea. A criao de normas ajuda
a controlar a diversidade e heterogeneidade da informao gerada nos diferentes
contextos.
Ter informao que pode ser compreendida por todos um suporte para cooperao
entre os diferentes sistemas de informao (p.e. torna mais fcil a partilha de
informao entre mdicos de diferentes especialidades).
O armazenamento de informao de normalizada um forma de criar as bases para
poder construir sistemas transversais (sistemas que funcionam em todas as clnicas e
hospitais, por exemplo). Isto tambm permite um reuso da infomao gerada visto
que mais pessoas tm acesso a esta informao e podem utiliza-la para fazer estudos e
criar mais conhecimento.
Como feita um norma?
Pode ser feita atravs de diferentes mtodos:
Mtodo Ad hoc Um grupo de pessoas/ organizaes interessadas criam uma
norma por acordo mtuo informal.
Mtodo de facto Quando uma empresa monopoliza um mercado os seus
produtos passam a ser a norma de mercado (p.e. a Microsoft).
Mtodo mandatrio do governo Agncias governamentais criam uma
norma e legislam-na.
Mtodo do consenso Um grupo de voluntrios trabalha em conjunto na
formulao de uma norma. Os voluntrios provm de organizaes/empresas
que beneficiam da norma. (HL7 um exemplo)

Algumas organizaes de certificao de normas:


American National Standards Institute (ANSI)
European Committee for Standardization (CEN) TC 251
International Standards Organization (ISO) TC 215 Health Informatics
National Institute of Standards and Tecnology (NIST/US)
Deutsches Institute fr Normung (DIN)

Algumas terminologias:
International Classification of Diseases (ICD)
Diagnosis Related Groups | Grupos de Diag. Homogneo (GDH)
International Classification of Primary Care (ICPC)
Systematized Nomenclature of Human and Veterinary Medicine (SNOMED)
Diagnostic and Statistical Manual of Mental Disorders DSM-IV (Am. Psychiatric Ass.)
Medical Subject Headings (MeSH)
Normas de partilha de informao
Digital Imaging and Communications in Medicine (DICOM)
Health Level 7
Em Bioinformatica
FASTA para sequncias biolgicas
GenBank para genomas completos e anotaes
Sistemas baseados em XML Extensible Markup Language
Gene Expression Markup Language (MAGE-ML)
Systems Biology Markup Language (SBML)

Electronic Health Record (EHR)


Um EHR um repositrio de informao referente ao estado de sade de um
paciente que est armazenado de forma a que os diferentes utilizadores desse EHR o
consigam entender.
Um computer based EHR system adiciona vrias ferramentas de gesto da informao:
lembretes e alertas clnicos
ligaes a fontes de conhecimento
ligaes a sistemas de apoio deciso
ferramentas de anlise da informao clnica para fins de cuidade de sade ou
de estudos
Vantagens
Um EHR, ao contrrio de uma ficha clnica tradicional, dinmico: os dados podem ser
acrescentados e visualizados em diferentes formatos.
A informao pode ser utilizada como guia para tratamento de pacientes ou de uma
populao inteira.
Um EHR tem a vantagem de ser mais acessvel que uma ficha mdica tradicional pois,
ao contrrio de um papel, pode estar em 2 lados ao mesmo tempo e portanto pode ser
visualizado e alterado por vrios mdicos, tcnicos, etc ao mesmo tempo.

Apesar de melhorar a acessibilidade, o EHR ajuda a controlar as quebras de


privacidade pois s pessoal autorizado que pode aceder ficha.
Desvantagens
Se o sistema falhar a informao fica indisponvel por um certo perodo de tempo.
Obriga a um investimento inicial no s a nvel financeiro mas tambm de tempo
(mdicos tm de aprender a us-lo).
O sucesso que um sistema de EHR tem na reutilizao da informao depende de
vrios factores:
A informao exaustiva e compreensvel?
Durao e reteno dos dados : fichas com dados que cobrem um maior n de
anos so mais valiosas
Grau de estruturao da informao: se for utilizada uma nomenclatura
universal mais fcil de ser compreendida por todos.
Ubiquidade de acesso: acessvel a partir de onde?

Componentes de um sistema de EHR


Viso integrada dos dados dos pacientes
Sistema de suporte deciso clnica (CDS)
Registo de pedidos clnicos (clinician order entry)
Acesso a recuros de informao e conhecimento (bases de da dos clnicas, de
literatura)
Suporte para comunicao integrada e realizao de relatrios

Viso integrada dos dados do paciente


Objectivo primrio. Significa que tem de existir comunio entre as diferentes bases de
dados, o que significa que os cdigos e formatos utilizados tm de ser compatveis.

O HL7 um bom recurso neste sentido. A interface do sistema traduz os cdigos de


forma a que o utilizador possa compreender a informao.
Assim, a utilizao de cdigos locais de dficil traduo a principal barreira a estes
sistemas.
Os sistemas tambm possibilitam a visualizao via web, possibilitando o acesso
remoto.

Suporte deciso mdica


Protocolos que utilizam extensa informao clnica para recomendar escolha de
frmacos, doses e durao do tratamento. Pedem o feedback do mdico como forma
de melhorarem. Incluem lembretes mdicos.
Registo de pedidos clnicos
Quando um mdico passa uma receita ou pede um medicamente farmcia so
facultados sistemas de apoio deciso.
Acesso a recursos de conhecimento
Infobuttons so ligaes para sites com recursos de conhecimento que so relevantes
em situaes clnicas particulares. So tambm um sistema de suporte de deciso pois
ajudam o clnico no processo de diagnstico ou terapia.
P.e. um mdico est a ver a medicao que um paciente tomou ou est a tomar.
Directamente ligado a um medicamento est um infobutton que revela vrias
informaes teis sobre o medicamento.
Suporte comunicao integrada e realizao de relatrios
O objectivo uma boa comunicao entre os vrios membros da equipa clnica, o
paciente, o laboratrio, vrias divises do hospital, etc... Em particular a possibilidade
de um paciente ter acesso ficha clnica importante quando se tratam de testes de
rotinas feitos em casa.
Outra situao em que este sistema particularmente til quando um mdico refere
o paciente para outro mdico, sendo envianda uma mensagem electrnica.
Outra funcionalidade a de avisar um mdico que tenha prescrito um exame que este
ainda no foi realizado.

Problemas a considerar quando feito um CB-EHR


Ao nvel da recolha de informao
Como feita a captura de dados
Pode ser feita electronicamente atravs da ligao com sistemas electrnicos j
implementados como sistemas electrnicos de agenda de consultas, de laboratrios
etc...
Pode ser feita manualmente: o utilizador insere os dados sob a forma de texto livre ou
codificada, tendo em conta que o texto livre mais rpido mas os dados codificados
so mais facilmente utilizados pelo sistema.
Como que a informao representada
Pode ser em flowsheet (organizada por ordem cronolgica), resumos e abstractos mais
importantes ou representaes dinmicas (pode ser feita uma pesquisa na ficha
mdica para ver se j foi realizado algum teste de colesterol, por exemplo).

Se sero utilizados sistemas de interrogao e monitorizao


O objectivo pode ser analizar os padres de qualidade de tratamento e de utilizao de
servioes . Tambm se pode desejar procurar padres de emergncias de certas
infeces a nvel global. Podem ser utilizados para encontrar pacientes elegveis para
ensaios clnicos.
Estes sistemas no podem ser implementados em sistema de EMR manuais.

Ao nvel da consulta e acesso informao


Informaes que os utilizadores (mdicos) necessitam
Os melhores sistemas so aqueles onde a informao clnica inserida directamente
no EHR. Isto significa que grande parte do trabalho recai sobre os mdicos, que sabem
melhor que ningum que tipo de informao que realmente necessria na ficha
mdica.
Definio dos interfaces para o utilizador
Deve-se tentar construir uma interface o mais intuitiva e eficiente possvel. Isto
significa que a informao deve ser facilmente entendida.
Normas
A implementao de normas ajuda a diminuir os custos de criao do sistema, facilita a
integrao dos diversos sistemas e facilita agregao de dados.
Aspectos legais
Nomeadamento os relacionados com privacidade e segurana.
Custos e benefcios
A implementao de sistemas de EMR obrigada a grandes investimentos iniciais. No
entanto, vrios estudos provaram que estes sistemas diminuem os custos de sad

Medicina Personalizada:
Medicina personalizada: um modelo mdico que prope a personalizao de
decises teraputicas de acordo com as caractersticas dos pacientes de acordo com a
sua constituio gentica
Variabilidade Gentica :
SNPs Single Nucleotide Polymorphisms
Mutaes posicionais em que a frequncia dos alelos deve ser superior a 1% na
populao humana
Indelsinseres e delees no so SNPs mas podem afectar
determinantemente a estrutura de protenas

Amplificaes variveis vrios genes podem aparecer mais do que uma vez
no genoma
Variantes estruturais cromossmicas

dBSNP
Repositrio central de dados de SNPs
Inclui vrias espcies
> 20M de SNPs registados s para o Homo sapiens

Genome Wide Association Studies (GWAS)


Anlise de variaes genticas em indivduos
Cerca de 1200 estudos GWA sobre 200 doenas e caractersticas
4000 SNPs encontrados
O controle de qualidade muito importante e vrios estudos no o fizeram
adequadamente
Problema dos negativos (?)

Farmacogenmica
Todos somos diferentes:
Diversidade gentica ao nvel mais fundamental
As reaes a uma alterao no ambiente, a uma infeco ou a um frmaco
depende das protenas envolvidas
Pequenas mudanas no genoma podem no querer dizer nada ou alterar
radicalmente a resposta de uma protena

Uso de drogas-sonda
Avalia-se o nvel de metabolitos de um frmaco
uma expresso directa do gentipo
Processo moroso, caro e com grande nvel de complexidade

Mtodos genmicos
Permitem perceber a razo da diversidade
Ex. CYP2D6 Deteco de variaes genticas
Para o CYP2D6 h mais de 40 variaes registadas em populaes humanas
Amplificao gnica: os indivduos podem ter entre 3 a 13 cpias do gene CYP2D6. Tal
a explicao dos metabolizadores ultra rpidos
Sendo que o CYP2D6 metaboliza cerca de 25% dos frmacos, modificaes neste gene
tm impacto alargado na resposta a frmacos

Exemplo de (quase?) sucesso


Warfarin (varfarina)
Anticoagulante com ndice teraputico muito baixo (DDR [0.5 e 20 mg])
Muitos pacientes vo parar aos hospitais por dosagens incorrectas
Variaes genticas responsveis por cerca de 40% da varincia de resposta
Duas variantes de polimorfismos no CYP2C9 (15%)
VKORC1 responsvel por 25%
Outros factores ambientais permitem explicar mais 10% da varincia

Aspectos a resolver na Farmacogenmica


Devido a problemas do metabolismos diferenciais muitos frmacos teis
nunca chegam s pessoas
Razes de no integrao na prtica clnica
Amostragem deficiente
Delineamento experimental incorrecto
Fenotipagem clnica incorrecta
No isolamento de outras determinantes clnicas e ambientais
Falta de colaborao entre equipas
Falta de fundos
Desafios Bioinformticos para a medicina personalizada
Processar dados genmicos robustos em larga escala
Interpretao dos efeitos funcionais e impacte da variao genmica
Integrao dos vrios sistemas e dados para captura da complexidade
Garantir que a investigao relevante clinicamente

Processar dados robustos em larga escala


O processamento das sequenciaes est sujeito a erros
1 erro em 100 kb => 30k erros na sequnciaao de um genoma humano
Diferenas entre genomas so erros ou SNPs?

Outros problemas:Indels, amplificaes variveis e variantes estruturais


complicado identificar variantes
De novo assembly muito caro.
BLAST demasiado lento para genomas completos
BLAT mais rpido pois indexa partes de um genoma
Leituras mais semelhantes com as referncias so mais facilmente identificadas =
variaes legtimas podem se perder

Interpretao da informao genmica


Muitas bases de dados
J h mais de 20M de SNPs registados no dbSNP
Human Gene Mutation Database: mutaes associadas a doenas humanas 76k
mutaes para 2900 genes
OMIM
SwissVar
complicado prever o que de facto importante e causa de facto impacte e h
muitos mtodos, mas nenhum se afirmou
Ver dentro dos motivos de cada protena o que de facto importante e tem muito
pouca variabilidade
Processo complexo e transversal a vrias reas
sempre necessrio verificar os modelos com ensaios clnicos

Integrao de sistemas e dados


Abordagem simplista 1 SNP => 1 fentipo no d bons resultados
Resposta a frmacos um processo muito complexo, havendo interaces com vrias
protenas e processos metablicos
E.g. Frmacos para o CNS
Muitas limitaes nos estudos GWAS (amostragens incompletas, incorrectas,
enviesamente populacional e sem entrar em linha de conta com variaes ambientais)
Problemas computacionais complexos na seleco de variveis e tratamento de
grandes quantidades de informao
Complexo o processo de integrao de informao com muitos sistemas
Relevncia clnica
Como integrar os resultados da investigao com a prtica clnica
Desenvolvimento (ou reuso) de frmacos especficos
Anlise gentica do paciente
Integrao da informao relevante com os modelos existentes
Limitao das teraputicas a aplicar de acordo com os perfis
Avaliao criteriosa dos resultados
Processo longo e que deve ser objectivo
Integrao do EHR com modelos de GWAS e outros estudos

Data mining para Bioinformtica em Medicina Personalizada


Processo de descoberta de conhecimento tem que ser alterado em funo da
necessidade de verificao e validao
Deve poder passar por recolha de nova informao

Vista geral da medicina personalizada


A medicina personalizada j uma realidade e s-lo- ainda mais.
Integra muitas reas da cincia nas quais a bioinformtica crucial

Das könnte Ihnen auch gefallen