Beruflich Dokumente
Kultur Dokumente
Sec. 4
Sec. 3
Sec. 5
Sec. 6
Sec. 7
Sec. 1
Sec. 2
Sec. ancestral
HOMOLOGA: Se dice que dos secuencias son
homlogas cuando derivan de un ancestro comn.
Es una caracterstica cualitativa.
Pregunta..
-Conociendo las caractersticas de los ortlogos y parlogos
-Conociendo que las protenas evolucionan
Ud esperara:
a) Que los ortlogos evolucionaran ms libremente (con menos
restricciones) que los parlogos
b) Que los parlogos evolucionaran ms libremente (con menos
restricciones) que los ortlogos
c) Que evolucionen igual (la evolucin es la evolucin, y punto)
Respuesta
Seminario 1
-Existirn restricciones a la evolucin de protenas?
-Si as fuera, se relacionan con aspectos estructurales y
funcionales de las protenas???
-Las protenas que debieran adquirir nuevas funciones, seran
ms o menos libres de evolucionar???
Excepciones
Gen 1
Gen 2
Evolucion
MISMA FUNCIN
DISTINTA ESTRUCTURA
DISTINTO MECANISMO
Inversin
(un desplazamiento)
Retencin
(doble desplazamiento)
Gen 1
Gen 2
Evolucion
MISMA ESTRUCTURA
DISTINTA FUNCIN
Qu es un alineamiento de secuencias?
Es la comparacin de secuencias mediante el
apareamiento de residuos.
Ejemplo:
Protenas caracteres pertenecen a alfabeto de 20 letras
VLSPADKTNVKAAWGKVGAHAGEYG
VLSEGEWQLVLHVWAKVEADVAGHG
KCAG-AYGATTM
|| | | | |
KC-GGA-GCTM-
KCAGAYGATTM
|| ||
KCGGAGCTM--
KCAG-AYGATTM
|| | | | | |
KC-GGA-GCT-M
Resumiendo
Entonces, la idea general de un alineamento es:
A) Disear todos los posibles alineamientos
B) Calcular un puntaje o score para un particular
alineamiento de secuencias
C) Encontrar el alineamiento de mayor score entre todos
los posibles.
Matrices de sustitucin
Es la forma de mtrica de score para alineamientos de protenas.
Se basa en que el costo de sustitucin entre dos residuos de aa.
depende de la probabilidad de sustitucin encontrada en la
naturaleza
Una matriz de sustitucin refleja dos hechos relevantes:
1- La probabilidad de ocurrencia de un aminocido
2- La probabilidad de sustitucin mutua de dos residuos.
Las matrices de sustitucin ms ampliamente usadas son:
PAM: Matriz evolutiva extrapolada (se usa en alineamientos
globales).
BLOSUM: Matriz basada en clasificacin por familia (preferida en
alineamiento locales)
C
C
PTHPLASKTQILPEDLASEDLTI
Sequence 1
PTHPLAGERAIGLARLAEEDFGM
Sequence 2
Scoring matrix
S -1
-1
P -3
-1
-1
-1
G -3
-2
-2
N -3
-2
-2
D -3
-1
-1
-2
-1
T:G
T:T
= -2
= 5
Matrices PAM
PAM: Percent Accepted Mutations.
Es una matriz derivada de la observacin de como los aa
reemplazan a otros aa diferentes en la evolucin (matriz
evolutiva).
Basada en set de datos de cambios en 1,572 protena relacionadas
con similitud en torno al 85%.
Dada la similitud tan alta, se dice que estas mutaciones no
debieran alterar la funcin y por tanto son aceptadas por la
naturaleza
Matrices PAM
PAMXX: las distintas matrices PAM se distinguen mediante
un N que identifica el N de eventos de mutacin
por cada 100 aa. Esto significa que mientras ms grande es
el N de la matriz PAM, ms distancia evolutiva hay entre
las protenas alineadas, es decir, tienen MENOR similitud.
Ej: PAM 250 (la ms comn): 20% similitud
PAM 120: 40%
PAM 80: 50%
PAM 60: 60%
Matrices BLOSUM
BLOSUM: Blocks substitution matrix
Una matriz BLOSUM contiene scores de sustitucin de aa. obtenidos a
partir de frecuencias de sustitucin de aa observadas en bloques de
alineamientos mltiples locales de protenas relacionadas. No hay
extrapolacin evolutiva. Esta matriz est mejor diseada para encontrar
dominios conservados.
EKPRKVMLMVRAGDVVDQFIEALLPHLEEG
EKPRKIFLMVTAGKPVDSVIQSLKPLLEEG
ETPRKILLMVKAGTATDATIQSLLPHLEKD
ETPRKILLMVKAGTATDATIQSLLPHLEKD
ETPRRILLMVKAGAGTDAAIDSLKPYLDKG
ETPRRILLMVKAGSGTDSAIDSLKPYLDKG
Matrices BLOSUM
Las matrices BLOSUM suponen una muestra mucho mayor que el caso
de las matrices PAM. Adems, se restringe el estudio a los bloques
altamente conservados de protenas.
Una matriz BLOSUMxx significa que se us un umbral de identidad de
XX% para seleccionar las protenas que componen el bloque utilizado.
Por esta razn, un BLOSUM bajo (umbral bajo de identidad) se
corresponde con un nmero alto de PAM (distancia evolutiva grande).
Ej: BLOSUM 62, secuencias de 62% de identidad
BLOSUM 62
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
A
4
-1
-2
-2
0
-1
-1
0
-2
-1
-1
-1
-1
-2
-1
1
0
-3
-2
0
R
-1
5
0
-2
-3
1
0
-2
0
-3
-2
2
-1
-3
-2
-1
-1
-3
-2
-3
N
-2
0
6
1
-3
0
0
0
1
-3
-3
0
-2
-3
-2
1
0
-4
-2
-3
D
-2
-2
1
6
-3
0
2
-1
-1
-3
-4
-1
-3
-3
-1
0
-1
-4
-3
-3
C
0
-3
-3
-3
9
-3
-4
-3
-3
-1
-1
-3
-1
-2
-3
-1
-1
-2
-2
-1
Q
-1
1
0
0
-3
5
2
-2
0
-3
-2
1
0
-3
-1
0
-1
-2
-1
-2
E
-1
0
0
2
-4
2
5
-2
0
-3
-3
1
-2
-3
-1
0
-1
-3
-2
-2
G
0
-2
0
-1
-3
-2
-2
6
-2
-4
-4
-2
-3
-3
-2
0
-2
-2
-3
-3
H
-2
0
1
-1
-3
0
0
-2
8
-3
-3
-1
-2
-1
-2
-1
-2
-2
2
-3
I
-1
-3
-3
-3
-1
-3
-3
-4
-3
4
2
-3
1
0
-3
-2
-1
-3
-1
3
L
-1
-2
-3
-4
-1
-2
-3
-4
-3
2
4
-2
2
0
-3
-2
-1
-2
-1
1
K
-1
2
0
-1
-3
1
1
-2
-1
-3
-2
5
-1
-3
-1
0
-1
-3
-2
-2
M
-1
-1
-2
-3
-1
0
-2
-3
-2
1
2
-1
5
0
-2
-1
-1
-1
-1
1
F
-2
-3
-3
-3
-2
-3
-3
-3
-1
0
0
-3
0
6
-4
-2
-2
1
3
-1
P
-1
-2
-2
-1
-3
-1
-1
-2
-2
-3
-3
-1
-2
-4
7
-1
-1
-4
-3
-2
S
1
-1
1
0
-1
0
0
0
-1
-2
-2
0
-1
-2
-1
4
1
-3
-2
-2
T
0
-1
0
-1
-1
-1
-1
-2
-2
-1
-1
-1
-1
-2
-1
1
5
-2
-2
0
W
-3
-3
-4
-4
-2
-2
-3
-2
-2
-3
-2
-3
-1
1
-4
-3
-2
11
2
-3
Y
-2
-2
-2
-3
-2
-1
-2
-3
2
-1
-1
-2
-1
3
-3
-2
-2
2
7
-1
V
0
-3
-3
-3
-1
-2
-2
-3
-3
3
1
-2
1
-1
-2
-2
0
-3
-1
4
Gaps
Gaps no permitidos
Score: 10
1 RSRASARACACARACCRRSRRCASSRSRR 29
|||
| | |||
|
|| || |
1 RSRSCRRRAARARASAACSCCRASRRSSR 29
Match = 5
Mismatch = -4
Score: 88
1 RSR.ASAR.ACACARA..CCRRS..RRCASSRSRR 29
||| || | | | ||| || | | || || |
1 RSRSAS.RRA.ARARASACC..SCCR..ASRRSSR 29
Gaps
El alineamiento ptimo de dos secuencias es aquel que
maximiza el N de matches y minimiza el N de gaps.
Sin embargo, hay una tentacin entre ambos puntos: al
adicionar gaps, se reduce el N de mismatches
Si se permitiera la insercin arbitraria de muchos gaps
podramos obtener altos scores de alineamiento entre
sequencias no homlogas.
Por esta razn, al penalizar los gaps, se fuerza al
alineamiento para que tenga slo los gaps imprescindibles.
Gaps
Empiricamente, se sabe que es ms costoso abrir un gap que
extenderlo. Los gaps en general se encuentran ms bien aislados y
con una extensin de varios caracteres:
O sea, es ms comn la existencia de 1 gap de n caracteres que n
gaps de 1 carcter
Las penalidades del tipo Affine gap dan gran penalidad a un nuevo
gap, pero una penalidad menor si hay gap extension.
Gaps
Affine gaps: Una funcin general de penalizacin de gaps debe cumplir:
(n)
apertura
Valores comunes: d = -10/-12
extensin
e = -2/-4
Gaps
match = 1
mismatch = 0
Score Total :
V D G D D V D V C
D V D G D G C G D V D V
Score Total :
8 - 3.2 = 4.8
Gap (parmetros):
d = -3 (abrir gap)
e = -0.1(extender gap)
n = 3 (largo del gap)
V D G D - - - D V D V C
D V D G D G C G D V D V
insercin / delecin