Beruflich Dokumente
Kultur Dokumente
Tema 1
_____________________________________________________________________
TEMA 1. QU ES UNA FILOGENIA MOLECULAR Y PARA QU SIRVE?
_____________________________________________________________________
Contacto: Virginia Valcrcel (virginia.valcarcel@uam.es)
El trmino Filogenia proviene del griego (, raza y genia, nacimiento,
produccin, generacin) y hace referencia a las relaciones evolutivas entre los
organismos (especies, gneros, familias). El estudio de las relaciones entre las
especies ha formado implcitamente parte en los estudios de taxonoma clsica desde
el siglo XVI, tal como puede extraerse de la evolucin de los trabajos de algunos
autores como Cesalpino, Bauhin, Ray, Tournefort y, por supuesto, Linneo. Sin
embargo, no fue hasta la segunda mitad del siglo XX cuando, tras el planteamiento de
la revolucionaria Teora de la Evolucin, se formaliz el inters en esclarecer las
relaciones entre las especies. As, de la mano del botnico Walter Zimmermann (1930,
1934) y del zologo Willi Hennig (1966) se desarrollaron las bases metodologgicas
para la reconstruccin de relaciones de parentesco entre las especies. Histricamente,
estas relaciones filogenticas se inferan a partir del anlisis de datos generalmente
morfolgicos y en menor medida anatmicos, qumicos y cromosmicos. No fue hasta
el desarrollo de la tcnica molecular de la PCR (Polymerase Chain Reaction; Kleppe et
al. 1971, Sanger & Coulson 1975, Saiki et al. 1985, Mullis & Faloona 1987), cuando se
pudo incorporar el estudio comparado de regiones de ADN al esclarecimiento de las
relaciones evolutivas entre los organismos. Esta tcncia permite obtener numerosas
copias de regiones de ADN a partir de un nico o unos pocos fragmentos. En paralelo,
el intenso trabajo de numerosos investigadores en el diseo de cebadores de
aplicacin universal (vanse Small et al. 1998, Shaw et al. 2005, 2007 para revisin),
junto con el desarrollo y mejora de los mtodos de anlisis ha permitido la aplicacin
masiva de esta tcnica al estudio de diferentes organismos, suponiendo una
revolucin en el mundo de la biologa.
La obtencin de filogenias moleculares se basa en la seleccin, amplificacin y
secuenciacin de regiones de ADN nuclear, plastidial (en plantas) y mitocondrial (de
uso frecuente en animales y espordico en algunas familias de plantas). Dichas
secuencias son revisadas, alineadas en funcin de sus homologas (tema 3.2) y
posteriormente analizadas bajo las asunciones de los distintos mtodos de
reconstruccin filogentica descritos (vanse temas 3.3 - 3.6). El resultado del anlisis
de dichas secuencias bajo los distintos mtodos de inferencia, es uno o ms rboles
de genes que representan las relaciones evolutivas de las muestras analizadas (vase
tema 4). A partir de estos rboles, si el muestreo taxonmico y de regiones ha sido
adecuado, se pueden realizar inferencias sobre las relaciones evolutivas de las
especies.
Desde mediados del siglo XX (Zuckerkandl & Pauling 1965) se han venido
utilizando filogenias moleculares basadas en el anlisis de protenas, genes, intrones y
regiones espaciadoras del ADN para la reconstruccin de relaciones de parentesco y
clasificacin de los organismos. A partir de estas resonstrucciones se pueden inferir
las historias evolutivas de los linajes, dilucidar la ausencia/presencia de monofilia para
los grupos taxonmicos as como sus relaciones de parentesco. Adems, en algunos
casos permiten esclarecer los principales mecanismos evolutivos envueltos en los
diferentes procesos de especiacin. Sin embargo, la utilidad de las filogenias
moleculares trasciende a los fines propios de la sistemtica. El desarrollo
metodolgico de los ltimos 30 aos est permitiendo adems, utilizar esta
poderossima herramienta como la base para el desarrollo de estudios biogeogrficos
(Ronquist & Sanmartn 2011), filogeogrficos (Schaal et al. 1998, Avise 2000, 2009),
de biologa de la conservacin (Avise 1989, Crandall et al. 2000), coevolucin y
patrones de diversificacin (Ricklefs 2007), entre otros.
Universidad Autnoma de Madrid
Cursos OCW
Tema 2
______________________________________________________________________
TEMA 2. QU NECESITO SABER PARA OBTENER UNA FILOGENIA
MOLECULAR ROBUSTA?
_____________________________________________________________________
Contacto: Virginia Valcrcel (virginia.valcarcel@uam.es)
A pesar de que la tentacin os puede llevar a pasar directamente al tema 3 (Anlisis
filogenticos: cmo obtener una filogenia molecular paso a paso), os sugerimos leis
previamente los dos subapartados incluidos en este tema 2.
Las filogenias moleculares son estimas realizadas a partir de unos pocos
fragmentos de ADN que no llegan siquiera a representar un escaso 1% del genoma
total. Adems, estos fragmentos se secuencian tan slo de unos pocos individuos por
especie generalmente menos de cinco. Esta cantidad de individuos rara vez
representa el total de las poblaciones, e incluso a menudo no llega a cubrir por
completo el rea de distribucin de la especie. Por todo ello, y aunque las tcnicas y
mtodos en los que se basan las filogenias moleculares son muy potentes, la fiabilidad
de nuestras estimas y por tanto la robustez de todas las inferencias en ellas basadas
depender fundamentalmente del diseo del experimento.
Un buen diseo de experimento se basa en un profundo conocimiento sobre:
(1) el grupo de estudio y (2) el fundamento terico de los mtodos de anlisis. Un
conocimiento exhaustivo sobre ambos puntos nos permitir adecuar el diseo del
muestreo de regiones e individuos y el de los anlisis a las preguntas que nos
planteemos.
Tema 2.1
______________________________________________________________________
TEMA 2.1. Breve introduccin a las tcnicas y mtodos de reconstruccin
filogentica
_____________________________________________________________________
Contacto: Virginia Valcrcel (virginia.valcarcel@uam.es)
Existen diversos mtodos de anlisis para estimar reconstrucciones filogenticas a
partir de datos moleculares (Tabla 1). Estos mtodos pueden agruparse de diferentes
maneras. En esta breve introduccin al curso agruparemos los mtodos de anlisis en
dos grandes bloques segn el procedimiento seguido: (1) mtodos puramente
algortmicos [UPGMA, Neibourgh-Joining (NJ)] y (2) mtodos de bsquedas de
rboles basados en criterios de optimizacin [Mxima Parsimonia (MP), Mxima
Verosimilitud (ML; Maximum Likelihood), Inferencia Bayesiana (BI; Bayesian
Inference), Mnima Evolucin (ME), Mnimos Cuadrados (MC)]. Los primeros incluyen
en el proceso de obtencin del rbol el criterio de seleccin y no hacen bsquedas de
rboles, por lo que no realizan de manera explcita una optimizacin de una funcin de
seleccin con base en el criterio establecido. Los segundos realizan bsquedas de
rboles sobre los que se optimiza una funcin segn el criterio bajo el que son
evaluados mnimo nmero de cambios evolutivos en MP, mxima verosimilitud en
ML, mxima probabilidad a posteriori en BI, mnima suma de longitudes de rama
(calculadas como ordinary least square) en ME, o mejor ajuste entre los pares de
distancias estimados y las distancias calculadas a partir del rbol, MC.
Los mtodos basados en distancias tanto los algortmicos (UPGMA, NJ) como
los basados en bsquedas (ME), asumen que la distancia entre txones es reflejo de
su relacin filogentica. Esta asuncin es nicamente valida en casos de tasas de
cambio constantes y ausencia de homoplasia, premisas ambas generalmente
vulneradas. Para soslayar ambas premisas, los mtodos de distancia asumen tambin
un modelo evolutivo que permite corregir ambas cuestiones (Williams 1992). Las
distancias de este modo corregidas son estimas de la distancia evolutiva real,
entendida como la media de cambios que se han producido en una posicin entre dos
pares de secuencias a lo largo de su evolucin desde su ancestro comn. As, a partir
de los datos y dado un modelo evolutivo (vase tema 3.4), calculan una matriz de
distancias. A partir de esa matriz de distancias construyen uno o varios rboles
mediante mtodos algortmicos de construccin de rboles (UPGMA, NJ), que pueden
ser posteriormente evaluados bajo criterios de optimizacin (ME, MC).
El mtodo de MP realiza bsquedas de rboles usando como criterio de
optimizacin la mxima parsimonia (Tabla 1). As, este mtodo optimiza la longitud del
rbol calculada como el total de los cambios evolutivos (nmero de transformaciones
de un estado de carcter a otro) necesarios para explicar un rbol a partir de los datos.
De esta manera conforme al criterio de MP, el rbol ms parsimonioso que conecta
cuatro secuencias dos a dos es aquel que precisa del menor nmero de
transformaciones de un estado de carcter a otro para cada una de las posiciones de
la matriz. Un punto crtico de este mtodo es la subestimacin de la cantidad de
cambio evolutivo. Al asumir la explicacin ms sencilla, la MP no tiene en cuenta la
posibilidad de que para una misma secuencia y en una misma posicin se hayan
producido varios cambios a lo largo del tiempo (t0 = A, t1 = T, t2 = A).
Tema 2.1
Tema 2.1
Tabla 1.
Mtodo
MXIMA
PARSIMONIA
Fundamento y asunciones
Busca y selecciona los rboles con
menor cantidad de cambios
evolutivos
Congruencias entre los caracteres
son el resultado de relaciones
filogenticas
MXIMA
VEROSIMILITUD
Ventajas
- minimiza las hiptesis ad hoc
(reversiones, paralelismos, etc.)
- relativamente rpido con grandes
matrices de datos
- robusto si las longitudes de rama
son cortas (amplio muestreo o baja
divergencia)
- se pueden inferir estados
ancestrales
Inconvenientes
- sensible al orden de entrada de los datos
- descarta informacin potencialmente
relevante (autoapomorfas)
- posible subestimacin del nmero de
sustituciones
- altamente afectada por atraccin de
ramas largas y zona Felsenstein
(Huelsenbeck 1998, aunque vase Hillis et
al. 1996)
- ausencia de un modelo evolutivo
explcito (Platnick 1985)
- alto riesgo de caer en mnimos locales
- no asume la superposicin de cambios
(multiple hits) que son tratados como
fuente de falsa homologa (aunque puede
compensarse va pesado)
- mltiples rboles debido al tratamiento
de pasos discretos
- fuerte demanda de memoria
- fallos cuando hay muchas secuencias y
pocos nucletidos (Piontkivska 2004)
- riesgo de caer en mnimos locales
(Salter & Pearl 2001)
- sensible al modelo de substitucin
seleccionado
Software
TNT
PAUP
MEGA
PHYLIP
RAxML
GARLI
PAUP
MEGA
PHYLIP
Tabla 1. [continuacin]
Mtodo
Fundamento y asunciones
INFERENCIA
BAYESIANA
NEIGHBOURJOINING
Tema 2.1
Ventajas
- los modelos de sustitucin
nucleotdica se incluyen en el proceso
de estima
- permite la implementacin de
modelos evolutivos complejos
- relativamente rpido con grandes
matrices de datos
- poco sensible a atraccin de ramas
largas
- permite la superposicin de
mltiples cambios en una misma
posicin (multiple hits)
- proporciona valores de apoyo a las
ramas
- exploran ms espacio al usar MCMC
- menor riesgo de caer en mnimos
locales al usar la variante Metropoliscoupled de MCMC
- rapidez
- permite la superposicin de
mltiples cambios en una misma
posicin (multiple hits)
Inconvenientes
- fuerte demanda de memoria
- posible sobreestimacin de los valores
de apoyo de las ramas
- sensible al modelo de substitucin
seleccionado
Softwar
e
MrBayes
BAMBE
BEAST
PHYLIP
PAUP
MEGA
Tema 2.1
rbol 1
A
rbol 1.1
rbol 1.2
B
X1.1
rbol 2
D
A E D
E B
A E
X3.1
B E
C
X2.5
rbol 3.4
B E D
rbol 3.5
A
C
X3.3
rbol 2.5
B
X3.4
B E
X2.4
B E D
C
X3.2
A E D
rbol 3.3
A
X1.5
rbol 2.4
B
X2.3
rbol 3.2
D
D E
rbol 3.1
A
rbol 1.5
DEB
X1.4
rbol 2.3
B
X2.2
X2.1
rbol 3
B
D E
X1.3
rbol 2.2
B
rbol 1.4
D EB
X1.2
rbol 2.1
B
rbol 1.3
A
D E
C
X3.5
Tema 2.1
rbol 0
D
B
C
X0
Paso 1
Construir un primer rbol (rbol 1) que incluya
tres muestras, evaluar el rbol 1 segn el crterio
seleccionado y establecer la puntuacin (X1)
rbol 1
A
Paso 3
Paso 2
Construir un nuevo rbol (rbol 1.1) mediante
la conexin de una de las 2 muestras restantes
a una de las ramas del rbol 1, evaluar el rbol 1.1
conforme al crieterio de seleccin y establecer la
puntuacin (X1.1)
rbol 1.1.1
rbol 1.1
Si de acuerdo al criterio de seleccin
establecido X1 es mejor que X0
A E D
D
B
C
X1
X1.1
X1.1.1
Paso 3bis
Paso 2bis
Contruir un rbol nuevo (rbol 1.2) conectando
la muestra D a otra rama del rbol 1, evaluar el
rbol 1.2 y establecer la puntuacin (X1.2)
rbol 1.2.1
ED B
A
rbol 1.2
A D
B
Si de acuerdo al criterio de seleccin
establecido X1.2 es mejor que X0
C
X1.2
C
X1.2.1
Tema 2.1
T
T
A
A
A
T
T
G
G
A
C
C
C
C
T
C
C
C
C
C
Paso 0
A
D
A
Paso 3
A partir del rbol seleccionado
en el paso 3, construir todos los
rboles posibles uniendo otros 2
txones, evaluar el criterio
en todos los rboles resultantes
y elegir el mejor
A
D
A
E
B
B
C
Paso 2
Evaluar el criterio de seleccin
en todos los rboles posibles y
elegir el mejor
Paso 1
A
E
D
C
D
E
.
.
.
.
.
.
D
E
D
C
B
E
B
C
Tema 2.1
Paso 1
Paso 2
Paso 0
Construir un primer rbol que incluya
tres muestras
1 2 3 4
A
B
C
D
E
T
T
A
A
A
T
T
G
G
A
C
C
C
C
T
C
C
C
C
C
E
C
B
B
B
C
C
A
D
E
A
C
A
D
A
D
B
E
E
E
D
A
C
Tema 2.2
______________________________________________________________________
TEMA 2.2. Puntos clave en el diseo y elaboracin de una filogenia molecular
_____________________________________________________________________
Contacto: Virginia Valcrcel (virginia.valcarcel@uam.es)
Las filogenias moleculares son estimas, por lo que para un mismo conjunto de datos
puede haber mltiples soluciones igualmente correctas. El punto clave en el diseo de
un estudio de filogenia molecular es maximizar las probabilidades de encontrar el rbol
correcto segn el mtodo seleccionado. Estas probabilidades estn afectadas por
caractersticas del propio conjunto de datos y del rbol; el balance del rbol (la longitud
relativa de las ramas internas y los terminales), as como por la propia topologa del
rbol (pectinada o dicotmica; Smith 1994).
Si bien el gran avance en sistemtica de los ltimos 30 aos se fundamenta
sobre una robusta base metodolgica, an existen numerosas fuentes de error.
Algunas de estas fuentes de error estn asociadas a cuestiones prcticas y
tecnolgicas como falta de marcadores moleculares adecuados (Hughes et al. 2006,
Shaw et al. 2007) o falta de potencia de clculo, entre otros (vase a continuacin).
Adems de estas cuestiones prcticas, el desconocimiento de los procesos
evolutivos subyacentes puede incurrir en errores de interpretacin o en la recuperacin
de reconstrucciones filogenticas falsas. De cara a la interpretacin de una
reconstruccin filogentica habra que considerar: (1) la distincin entre rboles de
genes y rboles de especies (Doyle 1992, Maddison 1997), que puede conducir a
errores de interpretacin por ejemplo debido al anlisis de genes parlogos (Pamilo &
Nei 1988); (2) la incidencia de procesos como lineage sorting, ya que el mantenimiento
de polimorfismos ancestrales y la prdida azarosa de linajes implica estimas
filogenticas incorrectas; y (3) el grado y tasa de homogenizacin inter e
intragenmica despus de hibridacin debida a la evolucin concertada en genes de
copia mltiple, entre otros.
Procedencia, nmero y seleccin de marcadores moleculares y regiones de ADN. Las
clulas animales y vegetales presentan dos (nuclear y mitocondrial) y tres tipos de
genomas (nuclear, plastidial y mitocondrial), respectivamente. Estos tipos de genomas
presentan diferentes modos de herencia y distintas tasas de cambio. Un estudio en
sistemtica de plantas debera prospectar regiones moleculares tanto del genoma
nuclear como del plastidial y/o mitocondrial (Judd et al. 2002). Del mismo modo, un
estudio en sistemtica de animales debera prospectar regiones tanto del genoma
nuclear como del mitrocondrial. Esta recomendacin se convierte en requisito
fundamental cuando existen indicios de hibridacin.
Un mayor nmero de regiones analizadas aumenta la resolucin y fiabilidad de
los datos (Hillis et al. 1996, aunque vase Philippe et al. 2005) y el apoyo, siempre que
las regiones prospectadas sean congruentes y pueda realizarse un anlisis combinado
(Hughes et al. 2006).
La seleccin de las regiones analizadas viene determinada por el rango
taxonmico al que se vaya realizar el estudio (Hillis et al. 1996). En la bsqueda de
marcadores moleculares adecuados se persigue un equilibrio entre variabilidad (tasa
de mutacin) e informacin (superposicin de cambios). En el genoma nuclear se ha
impuesto el uso de la regin espaciadora del ADN ribosmico ITS (Baldwin et al. 1995,
Feliner & Rosell 2007) y en menor medida algunos genes con bajo nmero de copias
(lvarez & Wendel 2003, Hughes et al. 2006). La dificultad en obtener secuencias de
genes de copia simple, que estn exentos de muchos de los problemas evolutivos de
los de copia mltiple, ha reducido su uso en filogenias (lvarez & Wendel 2003,
Universidad Autnoma de Madrid
Cursos OCW
Pag. 1 de 3
Tema 2.2
Hughes et al. 2006). Sin embargo, y teniendo en cuenta las limitaciones, las regiones
de copia mltiple proporcionan reconstrucciones fiables una vez consideradas sus
limitaciones (Feliner & Rosell 2007). En cualquier caso, se estn realizando avances
en la criba de marcadores moleculares de cara a poder realizar filogenias con
diferentes marcadores nucleares (Hughes et al. 2006). Desde Taberlet et al. (1991) se
ha profundizado en el estudio y deteccin de regiones del ADN plastidial (Small et al.
1998, Shaw et al. 2005, 2007). Por este motivo, las posibilidades son mucho mayores
y la seleccin de la regin pasa a ser un punto primordial en el diseo del experimento
(Small et al. 1998, Shaw et al. 2005, 2007). El gran tamao del genoma mitocondrial
en plantas, junto con la existencia de secuencias de ADN de otros organelos (plastos),
presencia efmera de grandes regiones duplicadas, inestabilidad estructural,
transferencia de genes al ncleo y baja tasa de cambio ha limitado el uso del genoma
mitocondrial en filogenias moleculares en plantas (Palmer 1992, Soltis & Soltis 1998).
Tamao muestral. Una de las fuentes de error ms frecuentes en las filogenias se
deriva del taxon sampling effect, sobre todo a nivel especfico (Hughes et al. 2006). No
muestrear todas las especies puede incurrir en errores produciendo sesgos al eliminar
los eventos ms recientes de especiacin o los que afectan a especies raras (Nee et
al. 1994). Ni qu decir tiene que todo estudio parte del error de no poder tratar las
especies extintas. Aumentar el nmero de muestras aumenta la probabilidad de
obtener el rbol correcto (Wheeler 1992), se rompen la atraccin de ramas largas lo
que hace que la homoplasia se disperse facilitando el reconocimiento de la seal
filogentica (Hillis et al. 1996), identificndose los caracteres con homoplasia global
pero localmente informativos (Wenzel & Siddall 1999).
Seleccin del grupo externo (outgroup). El reducido nmero de cambios posibles en
los datos moleculares incrementa sensiblemente la probabilidad de homoplasia
(convergencia y reversin). El grupo externo debe ser seleccionado en concordancia
con las tasas relativas de evolucin y los tiempos relativos de divergencia para
minimizar problemas de homoplasia y aumentar la probabilidad de obtener el rbol
correcto. Grupos externos lejanos del grupo interno alteran la longitud relativa de las
ramas lo que puede generar topologas desequilibradas y alterar la topologa interna
del grupo de estudio debido al fenmeno de atraccin de ramas largas (long branched
attraction, Felsenstein 1978; Wheeler 1990) y por lo tanto disminuir la probabilidad de
alcanzar el rbol correcto. El outgroup debe estar compuesto por diferentes txones de
los distintos grupos taxonmicos cercanos para evitar la aparicin de falsas
sinapomorfas en el grupo de estudio (Smith 1994, pero vase Nixon & Carpenter
1993). Es deseable tambin, contar con una representacin relativamente exhaustiva
dentro del grupo externo ya que minimiza la atraccin de ramas largas. Por este
motivo es preferible aumentar el muestreo del grupo externo mediante la adicin de
secuencias al grupo hermano (sister-group) mejor que aumentar el nmero de grupos
distantes. En cualquier caso, la inclusin del todas las muestras de categora
taxonmica por encima de la del grupo interno es recomendada de cara a esclarecer
las relaciones de grupo hermano y obtener una filogenia de confianza.
Alineamiento (vase tema 3.2). El reconocimiento de regiones homlogas (con mismo
origen y disposicin) es de vital importancia pues establece la hiptesis de homologa
primaria de modo que tiene un gran impacto en las reconstrucciones filogenticas
resultantes (Simmons et al. 2001). El reconocimiento de estas regiones es importante
dado que slo por azar dos secuencias de ADN puede presentar hasta un 25% de
identidad (Simmons & Freudenstein 2003). Los errores de alineamiento que afectan a
la homologa y a la superposicin de cambios (multiple hits) en una rama, suponen
graves errores en la resolucin de los mismos en la topologa de los rboles y en los
apoyos de las ramas (Simmons & Freudenstein 2003). Existen algunos programas
Universidad Autnoma de Madrid
Cursos OCW
Pag. 2 de 3
Tema 2.2
(MUSCLE, Edgar 2004; MALIGN, Wheeler & Gladstein 2000; POY, Gladstein &
Wheeler 1996; DIALIGN, Morgenstern et al. 1998; Clustal W, Thompson et al. 1994)
que implementan distintos algoritmos para el alinemiento automtico de las
secuencias. Sin embargo, los algoritmos desarrollados no resuelven satisfactoriamente
los alineamientos mltiples (Lee 2001, Soltis & Soltis 2003). Por lo que todo
alineamiento automtico debera ser posteriormente revisado manualmente (Doyle &
Gaut 2000, Simmons & Ochoterena 2000). El alineamiento de secuencias implica la
incorporacin de datos inciertos (missing data) y caracteres generados como producto
del alineamiento (gaps). El tratamiento de estos datos producto del establecimiento de
homologas posicionales es tambin muy importante de cara a las reconstrucciones
filogenticas (Simmons & Ochoterena 2000).
Seleccin de los mtodos de anlisis. La seleccin del mtodo de anlisis viene
determinada por el tipo de datos y sobre todo por la pregunta planteada. En cualquier
caso, es comn y deseable evaluar distintos mtodos (Doyle & Gaut 2000).
Medidas de apoyo y confianza. Existen distintas medidas de apoyo para las ramas de
los rboles obtenidas mediante tcnicas de remuestreo (bootstrap y jacknife, para MP,
ML y NJ; Bremer support o ndice de decay (Bremer 1994), para MP; o Posterior
Probabilities, para BI). Estas medidas no pueden ser tomadas como estrictamente
estadsticas, pero s como una estimacin de la robustez de las ramas. Existen
estudios experimentales que recuperan valores bootstrap de 70% para clados reales
(Hillis & Bull 1993); sin embargo, suelen tomarse valores iguales o superiores a 90%
bootstrap como seales fuertes de apoyo. Las probabilidades a posteriori
proporcionadas por la inferencia bayesiana superiores al 0.95 (95%) son igualmente
las ms fiables (Murphy et al. 2001, aunque vase Suzuki et al. 2002). Aunque se han
detectado falsos positivos en PP cuando se usa un modelo evolutivo sencillo
(Cummings et al. 2003) no detectados en apoyos bootstrap de ML y sobreestimas en
PP cuando existe una estrecha relacin entre las secuencias (Suzuki et al. 2002).
Seleccin del rbol consenso (vase tema 3.3). Los tres mtodos de consenso ms
usados son el estricto (Strict consensus tree; Nelson 1979), semiestricto (Semistrict
consensus tree; Bremer 1990), recomendado cuando los terminales son muy
parecidos o cuando se utilizan distintas fuentes de datos y mayoritario (Majority Rule
consensus tree; Margush & McMorris 1981). La combinacin del consenso estricto con
el mayoritario puede aportar informacin sobre seales filogenticas dbiles.
Seleccin del modelo evolutivo (vase tema 3.4). En la actualidad hay numerosos
modelos de substitucin nucleotdica (modelos evolutivos; Hillis et al. 1996); muchos
de los cuales son submodelos de unos principales. Estos modelos evolutivos se
utilizan para describir los cambios de las secuencias generalmente a travs de la
estimacin de parmetros (frecuencia de bases, intercambio de bases y tasa de
heterogeneidad). De esta forma, se consiguen los modelos evolutivos que mejor se
ajustan al tipo de datos manejado. En los mtodos de inferencia filogentica que
asumen un modelo evolutivo de cambio (distancias, ML y BI) la seleccin del modelo
evolutivo tiene un gran impacto en los rboles recuperados (Sullivan & Swofford 1997;
Whelan et al. 2001). Modelos simples pueden subestimar las longitudes de las ramas
(Yang 1994, Whelan et al. 2001). Los tres criterios ms empleados para seleccionar el
modelo evolutivo son hierarchical likelihood ratio test (hLRT), Akaike information
criterion (AIC) y bayesian information criterion (BIC) (Posada 2001, Posada and
Buckley 2004).
Tema 3
_____________________________________________________________________
TEMA 3. ANLISIS FILOGENTICOS: CMO OBTENER UNA FILOGENIA
MOLECULAR PASO A PASO
_____________________________________________________________________
Contacto: Virginia Valcrcel (virginia.valcarcel@uam.es)
Isabel Draper (Isabel.draper@uam.es)
Maite Aguado (maite.aguado@uam.es)
Una gran parte de los trabajos de filogenia molecular se inician con el muestreo de
campo, tras el que se desarrolla el trabajo de laboratorio que consiste en extraccin de
ADN, amplificacin de regiones de ADN y por ltimo secuenciacin de los productos
de la PCR. Sin embargo, otros muchos trabajos de filogenia molecular pueden
iniciarse a partir de secuencias de ADN que han obtenido otros autores. Esto es as
gracias a que existe una base de datos online (GenBank, vase tema 3.1) en la que
todos los autores que quieran publicar una filogenia molecular en una revista cientfica
indexada estn obligados a colgar las secuencias. De esta manera, todo el que quiera
puede descargarse las secuencias obtenidas por otros y trabajar con ellas.
En cualquiera de los dos casos, el planteamiento inicial debe partir del
establecimiento de la hiptesis de trabajo que estar sustentada sobre una pregunta
biolgica a la que queramos dar respuesta. Evidentemente, tanto el diseo del
muestreo como el tipo de anlisis a realizar variarn en funcin de la pregunta que nos
planteemos. Por ello, si no has ledo el tema 2, tmate un tiempo y lelo antes de
continuar con el tema 3.
En este curso online os vamos a proponer trabajar con un grupo de estudio
sobre el que vamos a ir realizando todas las actividades en cada uno de los pasos de
ejecucin de las filogenias. Sin embargo, el esquema del curso tambin permite su
seguimiento si trabajis con vuestras propias secuencias, en vez de hacerlo con el
grupo de estudio propuesto.
Actualmente existe un intenso trabajo para el desarrollo de software de anlisis
filogenticos, por lo que cada da os encontraris nuevos programas. Aqu hemos
hecho una seleccin de programas gratuitos con los que podis desarrollar todas las
partes del trabajo de anlisis del filogenetista. No obstante, existen muchos otros
programas que no explicaremos pero que podis encontrar en la pgina web
http://evolution.genetics.washington.edu/phylip/software.html. Adems, en paralelo se
estn desarrollando numerosos paquetes para la realizacin de anlisis filogenticos y
otros anlisis basados en filogenias en la plataforma de trabajo R (Paradis 2006,
Analysis of Phylogenetics and Evolution with R).
Tema 3.1
___________________________________________________________________
TEMA 3.1. Obtencin de secuencias
_____________________________________________________________________
Contacto: Virginia Valcrcel (virginia.valcarcel@uam.es)
INTRODUCCIN
El producto de la secuenciacin se traduce en una cadena de nucletidos que
representa la secuencia de ADN amplificada con un cromatograma asociado (Fig. 1).
Figura 1. Cromatograma
con artefactos posiblemente
debidos a la PCR. En la
posicin 299 se observa una
posible aditividad detectada,
mientras en la posicin 304
se observa un posible
aditividad no detectada.
Tema 3.1
Tambin puedes hacer filogenias moleculares sin haber obtenido tus propias
secuencias. Esto es posible gracias a una base de datos online llamada GenBank
(http://www.ncbi.nlm.nih.gov/genbank/). En esta base de datos se almacenan todas las
secuencias que se incluyen en todos los artculos publicados en revistas cientficas
indexadas. Cada secuencia queda registrada con un nmero de GenBank, conocido
como GenBank accession number que ha de incluirse en los artculos para la
identificacin de las secuencias.
METODOLOGA Y PRCTICA
I. Bsqueda y descarga de secuencias en GenBank
Paso 1. Ve a la pgina web del GenBank:
http://www.ncbi.nlm.nih.gov/genbank/
Paso 2. Selecciona Nucleotide en el desplegable Search. De esta manera,
ests restringiendo la bsqueda a los registros de la base de datos del
GenBank que corresponden a secuencias de nucletidos.
Paso 3. Especifica los criterios de la bsqueda de secuencias en la ventana for.
Opciones de bsqueda:
a. Si conoces el nmero de GenBank puedes incluirlo directamente (ej.
DQ987166).
b. Si no conoces el nmero de GenBank o si lo que quieres es saber si
hay algo publicado de un taxon concreto o de una regin del ADN
concreta, entonces has de hacer una bsqueda ms genrica. Puedes
buscar por el nombre del taxon (si es binomial ha de ir entre comillas;
Ej. Reseda alba y te aparecern todas las secuencias de todas las
regiones del ADN de R. alba que hayan sido obtenidas y publicadas).
Tambin puedes buscar por el nombre de la regin del ADN que te
interese (Ej. Internal Transcribed Spacer y te aparecern todas las
secuencias de esta regin del nrADN que se hayan obtenido y
publicado para todos los organismos vivos). Para bsquedas
combinadas los trminos de la bsqueda deben ir anidados mediante
un la palabra AND.
Tema 3.1
Tema 3.1
Tema 3.1
Tema 3.1
Tema 3.1
Tema 3.1
Tema 3.1
Tema 3.1
Tema 3.2
______________________________________________________________________
TEMA 3.2. Obtencin de matrices: bsqueda de homologas, alineamiento
_____________________________________________________________________
Contacto: Isabel Draper (Isabel.draper@uam.es)
INTRODUCCIN
Una vez obtenidas las secuencias, es necesario agruparlas para construir la matriz de
datos. Para ello se colocan las secuencias superpuestas, de tal manera que cada fila
corresponde a una muestra y cada columna a un carcter (que en el caso de las
secuencias ser molecular un nucletido o un conjunto de nucletidos-, pero que
tambin puede ser morfolgico). Este es el proceso que se denomina alineamiento, y
busca enfrentar aquellas partes de las secuencias que son homlogas (idnticas o con
el menor nmero de cambios posible), para as poder identificar mutaciones,
inserciones, deleciones, inversiones, etc. producidas entre las muestras estudiadas
(Fig. 1).
Tema 3.2
Significado
Adenosina
Citosina
Guanina
Timidina
Uracilo
G/A
T/C
G/T
A/C
Cdigo
S
W
B
D
H
V
N
X
-
Significado
G/C
A/T
G/T/C
G/A/T
A/C/T
G/C/A
A/G/C/T
mscara
gap
Tema 3.2
el formato (#Nexus)
las dimensiones de la matriz (ntax=nmero de secuencias y nchar=nmero de
caracteres)
el tipo de datos incluidos (datatype=dna o restriction si se trata de gaps
codificados- o standard si son caracteres morfolgicos codificados-)
la manera de alternar las secuencias (interleave=yes si en la matriz se
alternan la primera lnea de la muestra 1, la primera lnea de la muestra 2, la
segunda lnea de la muestra 1, la segunda lnea de la muestra 2, etc.- o
interleave=no si la matriz est constituida por la primera secuencia completa,
seguida por la segunda secuencia completa, etc.-)
el cdigo de smbolos utilizado
Tema 3.2
PROGRAMAS NECESARIOS
Existen numerosos programas informticos para el alineamiento de secuencias, tanto
para hacer un alineamiento manual secuencia a secuencia, como para obtener un
alineamiento automtico. Algunos de estos programas pueden ser utilizados
directamente en aplicaciones de Internet, como por ejemplo en:
Universidad Autnoma de Madrid
Cursos OCW
Pag. 4 de 18
Tema 3.2
http://www.ebi.ac.uk/Tools/msa/
En esta seccin te proponemos la utilizacin de ClustalW2 (Larkin et al, 2007;
Thompson et al, 1994) y MUSCLE (Edgar, 2004) para el alineamiento automtico
(disponibles en la direccin de Internet indicada), y PhyDE (Mller et al:
http://www.phyde.de/ ) para el alineamiento manual.
PhyDE es un editor de alineamientos con el que puedes realizar manualmente
un alineamiento desde cero, o modificar un alineamiento previamente obtenido, como
vamos a hacer a continuacin.
Este
programa
puede
ser
descargado
desde
http://www.phyde.de/download.html. Al ser instalado, automticamente se crear una
carpeta llamada PhyDE-Data. Para poder utilizar los plugins desde PhyDE debes
buscar dnde se localiza esta carpeta en tu ordenador, crear dentro de ella dos
subcarpetas: tmp y Plugins, e instalar los Plugins en la carpeta Plugins que acabas de
crear. El manual de utilizacin de PhyDE puedes consultarlo en:
http://www.phyde.de/docu/docu.html.
METODOLOGA Y PRCTICA
I. Alineamiento mediante ClustalW2
Paso 1.
Tema 3.2
Paso 6.
File:
Tema 3.2
Tema 3.2
Ejercicio 3.2.1. Repite el proceso para la regin del ADN ribosmico nuclear ITS y
guarda el alineamiento bajo el nombre Alineamiento_ITS_clustal.
Tema 3.2
Tema 3.2
Ejercicio 3.2.2. Repite el proceso para la regin del ADN ribosmico nuclear ITS y
guarda el alineamiento bajo el nombre Alineamiento_ITS_muscle.
Tema 3.2
PhyDE tiene tres modos de trabajo: Locked, Align y Edit. En el modo locked no
se puede modificar nada del alineamiento, pero en el modo align se pueden
crear gaps (colocando el cursor donde se quiera y dando al espacio), borrarlos
(seleccionndolos y dando a suprimir) y moverlos (seleccionando la parte de la
secuencia que se quiera mover y manteniendo pulsado el botn izquierdo del
ratn). Adems, en el modo edit se puede modificar la secuencia, por ejemplo
si se quiere cambiar algn nucletido tras revisar el cromatograma. Para
cambiar de un modo a otro, pulsar en el botn de modo que est a la derecha,
en la barra superior de herramientas.
Paso 3. Abre el mismo alineamiento obtenido mediante otro programa, por
ejemplo Alineamiento_LF_muscle.fas, haciendo de nuevo click en File y Open.
Puedes visualizar las dos ventanas a la vez seleccionando View y
Arrange
windows.
Tema 3.2
Paso 1. Abre
el
alineamiento
definitivo
(Alineamiento_LF_revisado) con PhyDE.
Tema 3.2
de
la
regin
trnL-F
Tema 3.2
Al pulsar en esta opcin se despliegan las diferentes opciones para codificar gaps.
Recomendamos utilizar la codificacin simple de Simmons y Ochoterena (2000).
Paso 5. Cuando pulsamos IndelCoder y Simmons & Ochoterena (2000) - simple
coding el programa crea un archivo nexus con la nueva matriz de datos (que
corresponde a la matriz original con unas columnas finales, una por cada gap,
presentes -1- o ausentes -0- en cada muestra).
En la ventana superior de SeqState aparecer una lista en la que se indica el
nmero de carcter que corresponde a cada gap (en el ejemplo inferior los gaps
estn codificados en las columnas 737 a 745; el primer gap, en la columna 737,
corresponde al gap que aparece en la matriz en las posiciones 67 a 80, etc.). En la
ventana inferior de SeqState se indica dnde se ha guardado esta nueva matriz
(normalmente en la carpeta tmp de PhyDE-Data), y con qu nombre (en el ejemplo
inferior el archivo generado se llama PDEGT8TQNJ_sic.nex):
Tema 3.2
2)
3)
Tema 3.2
A continuacin te explicamos cmo podras hacer esta matriz combinada, una vez
comprobada la compatibilidad de las regiones objeto de estudio.
Una posibilidad, que desaconsejamos, es modificar a mano los archivos utilizando un
editor de texto: abriramos los dos archivos, seleccionaramos los bloques de letras
que corresponden a cada secuencia y elaboraramos un nuevo archivo en el que cada
muestra estuviera caracterizada por un bloque de letras constituido por ambas
regiones, copiando y pegando las secuencias una a continuacin de la otra. Ojo,
porque si utilizas esta opcin, en los archivos nexus y phylip, adems de modificar las
secuencias que caracterizan cada muestra, tienes que modificar la lnea de comandos
en la que se indica el nmero de caracteres de cada secuencia.
La segunda posibilidad, que te recomendamos utilices, es combinar las matrices
utilizando un editor de secuencias como PhyDE. Te proponemos que combines las
matrices de ITS y trnL-F de Glaucoreseda:
Paso 1. Abre uno de los archivos de alineamiento definitivo, por ejemplo,
Alineamiento_LF_revisado.
Paso 2. Abre el otro archivo de alineamiento definitivo (en este ejemplo
Alineamiento_ITS_revisado).
Paso 3.
Pulsa View y Arrange windows para poder ver las dos matrices a la vez.
Tema 3.2
VI Conversin de formatos
Como se ha mencionado, existen diferentes tipos de formatos para los archivos de
alineamientos, y segn el programa de reconstruccin filogentica que vayamos a
utilizar necesitaremos tener el alineamiento en un tipo u otro de formato. Como en el
caso de la combinacin de matrices, la conversin de los archivos de un formato a otro
se puede hacer de manera manual o utilizando algn programa informtico.
De manera manual, se debe abrir el archivo que se quiera convertir en un editor de
texto (WordPad para PC, o TextWrangler para MAC; OJO es muy importante que no lo
abris con Word), y modificar las lneas de comando iniciales segn se indic en la
introduccin (por ejemplo, si se quiere pasar de fasta a nexus habr que eliminar el
smbolo > del principio de los nombres de las secuencias y habr que aadir el bloque
inicial previo para indicar el tipo de formato, las dimensiones de la matriz, etc.).
Para convertir los formatos automticamente tambin se puede utilizar PhyDE (para
fasta o nexus):
1. Abre el archivo que quieras convertir en PhyDE.
2. Pulsa File y Export as
3. Selecciona el tipo de formato al que quieres convertir la matriz.
Universidad Autnoma de Madrid
Cursos OCW
Pag. 17 de 18
Tema 3.2
Tema 3.3
______________________________________________________________________
TEMA 3.3 Obtencin de rboles filogenticos mediante el mtodo de mxima
parsimonia
_____________________________________________________________________
Contacto: Maite Aguado (maite.aguado@uam.es)
PROGRAMAS NECESARIOS
Para realizar anlisis de Mxima Parsimonia con nuestras secuencias una vez
alineadas trabajaremos con el programa TNT ("Tree analysis using New Technology").
Con TNT podemos realizar anlisis de Mxima Parsimonia en los que incluyamos un
nmero elevado de taxones (ej. 300-500). Una de las grandes ventajas de TNT es la
rapidez con la que obtiene los resultados.
El programa TNT es de acceso libre gracias a la Hennig Society y se puede descargar
de la red en la pgina:
http://www.cladistics.com/
En el siguiente enlace puedes encontrar un breve manual para el manejo del TNT:
http://tnt.insectmuseum.org/index.php/Manual
Tema 3.3
Una vez que hayas comprobado que la matriz est bien adaptada,
gurdala como Glaucoreseda_ITS_LF.
Tema 3.3
pestaa tipo de archivo que aparece abajo la opcin ALL files (donde
por defecto aparece TNT files).
Tema 3.3
Tema 3.3
Paso 11. Una vez completada la bsqueda, debemos guardar todos los rboles
obtenidos en el archivo .tree que hemos creado al incio. Para ello, ve a
la opcin File y en /Tree saved file/save trees to open file selecciona All
trees.
Tema 3.3
Paso 12. Para ello, podemos elaborar un consenso. En Trees, seala la opcin
consensus y selecciona Strict. Inmediatamente aparecer en otra
ventana un rbol de consenso estricto construido a partir de todos los
rboles ms parsimoniosos encontrados en la bsqueda. Puedes guardar
este rbol en formato grfico para poder editarlo posteriormente en
programas de edicin de imgines como adobe illustrator o en
PowerPoint insertndolo como imagen. Para ello, cuando tengas en la
pantalla el rbol, pulsa la tecla m y guarda el rbol como
Glaucoreseda_ITS_LF_MPtree. Para volver a la pantalla de inicio pulsa
la tecla esc.
En nuestro caso, al haber obtenido un nico rbol, no tiene sentido
realizar un consenso.
Tema 3.3
Tema 3.3
Paso 4. Busca los rboles mas cortos en una bsqueda heurstica normal
reteniendo como mximo 1000 rboles (setting> memory >max trees).
Paso 5. Aumentar el subptimo en un paso (Analyze/suboptimal) y hacer de
nuevo la bsqueda eliminando la opcin "replace existing trees". Para
evitar que se colapse la memoria muy rpido con rboles subptimos
recomendamos la siguiente secuencia.
Paso 6. Volver a repetir la misma operacin aumentando el subptimo a 3 y el
max trees a 2000.
Paso 7. Repetimos de nuevo esta vez son subptimo a 5 y max trees a 4000.
Finalmente utiliza en comando bremer supports en trees para obtener los
valores hasta un >5.
Paso 8. Podemos seguir repitiendo las bsquedas aumentando sucesivamente
los subptimos y los max trees hasta alcanzar valores de Bremer altos.
Paso 9. Para ver los valores de bremer seleccionar Trees/Bremer supports.
Podemos guardar el grfico con el comando m como
Glaucoreseda_ITS_LF_MPbremer
Tema 3.3
Tema 3.3
Ejercicio 3.3.2. Calcula los apoyos para las ramas y guarda el archivo en formato
metafile.
Ejercicio 3.3.3. Repite ahora cada paso de la prctica con cada una de las matrices
por separado; ITS y LF2. Observas alguna diferencia en la topologa del rbol que
has obtenido al utilizar la matriz combinada con las de los rboles obtenidos al utilizar
las matrices de los genes por separado? A qu puede ser debido?
Tema 3.4
______________________________________________________________________
TEMA 3.4. Seleccin del modelo evolutivo que mejor se ajuste a nuestros datos
_____________________________________________________________________
Contacto: Virginia Valcrcel (virginia.valcarcel@uam.es)
INTRODUCCIN
Para calcular las distancias entre pares de secuencia, as como para realizar
bsquedas con los mtodos basados en distancias, mxima verosimilitud e inferencia
bayesiana es necesario especificar un modelo de evolucin para los datos (vase
tema 2.1). Los modelos evolutivos en filogenias moleculares describen el modo y la
probabilidad de que una secuencia de nucletidos cambie a otra secuencia de
nucletidos homloga a lo largo del tiempo. Es decir, estos modelos describen para
cada uno de los sitios de la matriz la probabilidad de que se produzca el cambio de un
nucletido a otro a lo largo de las ramas de un rbol filogentico dado.
Los modelos de evolucin de nucletidos se definen matemticamente mediante dos
clases de parmetros que determinan el cambio:
(1) Frecuencia de cada nucletido. Parmetro que mide la frecuencia de los
nucletidos en la matriz de datos y que puede tomar los siguientes valores:
a. En los modelos ms sencillos: una misma frecuencia para los cuatro
nucletidos ( " A = " C = " G = " T = 0.25 )
b. En los modelos ms complejos: cuatro frecuencias diferentes, una para
cada nucletido ( " A # " C # " G # " T )
(2) Tipos de sustituciones y sus correspondientes tasas de sustitucin (rate
! Las tasas de sustitucin se representan con las tasas relativas de
parameters).
cambio de un nucletido a otro para una posicin de un tiempo t0 a un tiempo
!
t1. As, cada posicin
de la matriz tendr una probabilidad asociada de cambio
para cada unidad de tiempo (unidad de distancia evolutiva). As la tasa relativa
de sustitucin en una posicin de un nucletido A a una C se denota con a,
de A a G con b, de A a T c y as hasta l (tasa relativa de cambio de T a G).
Los modelos ms sencillos asumen una misma tasa relativa para todas las
sustituciones posibles, mientras que los ms complicados asumen una tasa
relativa diferente para cada tipo de sustitucin. A partir de estas tasas relativas
se calcula la tasa media de sustitucin ( ).
A partir de las combinaciones posibles de estos parmetros se han descrito cerca de
203 modelos se sustitucin nucleotdica. Los modelos ms sencillos son aquellos que
incluyen un menor nmero de parmetros.
Adems de los parmetros aqu descritos
!
habra que considerar tambin el nmero de longitudes de rama. As, el modelo ms
sencillo posible es Jukes and Cantor (JC, Jukes and Cantor 1969; Fig. 1) que asume la
misma frecuencia para los cuatro nucletidos y un nico tipo de sustitucin, el nmero
de parmetros de JC ser el nmero de longitudes de rama del rbol. El modelo
Kimura 2-parmetros (KP2, Kimura 1980) es como JC pero asumiendo la existencia de
dos tipos de sustituciones por lo que el modelo tiene como parmetros el nmero de
ramas del rbol ms uno (el que regula los dos tipos de sustituciones).
Tema 3.4
JC
2 tipos de sustituciones
1 tv: AC = AT = CG = GT
1 ti: AG = CT
F81
K2P
3 tipos de sustituciones
1 tv: AC = AT = CG = GT
2 ti: AG CT
2 tipos de sustituciones
1 tv: AC = AT = CG = GT
1 ti: AG = CT
HKY85
F84
K81
3 tipos de sustituciones
6 tipos de sustituciones
1 tv: AC = AT = CG = GT
2 ti: AG CT
4 tv: AC AT CG GT
2 ti: AG CT
TrN
SYM
6 tipos de sustituciones
4 tv: AC AT CG GT
2 ti: AG CT
GTR
6 tipos de sustituciones
(AC AG AT CG CT GT)
Distinta frecuencia de bases
(A) (C) (G) (T)
"(a# C + b# G + c# T )
a# C
g# A
"(g# A + d# G + e# T )
h# A
i# A
j# C
k# C
b# G
c# T
d# G
e# T
" (h# A + j# C + f# T )
f# T
l# G
"(i# A + k# C + l# G )
Tema 3.4
!
Adems estos modelos pueden
incluir parmetros que reflejen la posibilidad de
que no todos los sitios de la matriz original de datos evolucionen con la misma tasa,
esto es permiten que las tasas sean heterogneas entre sitios. Para modelar la
heterogeneidad de tasas entre sitios, se suele asumir que las tasas relativas cambian
entre los sitios segn una distribucin gamma con media 1 y varianza 1/. Alpha
controla la tasa entre sitios, si < 1 entones hay mucha diferencia entre sitios (esto es,
muchos sitios varian poco mientras que unos pocos varan mucho; Fig. 3). A veces
tambin se incluye en el modelo la posibilidad de que exista una proporcin de sitios
que varan (I).
Figura 3. Diferentes
distribuciones gamma.
Grfica tomada de
Wikipedia.
Tema 3.4
Tema 3.4
En esta ventana hay que seleccionar los modelos que queremos evaluar,
esta seleccin se hace en funcin del tipo de sustituciones que queramos
aceptar. As, si seleccionamos 3 estaremos incluyendo todos los
modelos posibles que admiten desde un slo tipo de sustitucin hasta
tres tipos de sustituciones; si seleccionsemos 11 estaramos
incluyendo todos los modelos posibles que admiten desde un slo tipo de
sustitucin, hasta 11 tipos de sustitucin diferentes. El nmero de
modelos a evaluar en cada una de las opciones va aumentando en
consecuencia. As, si seleccionamos tres tipos de sustituciones
evaluaremos el grado de ajuste de 24 modelos diferentes para 5 sern
40 modelos, para 7 46 y para 11 88. Los programas de anlisis
filogenticos con los que contamos en la actualidad no implementan
todos los modelos, por lo que seleccionando 3 estaremos prospectando
el grado de ajuste de los 24 modelos que implementa en la actualidad
MrBayes programa que utilizaremos en el tema 3.6 para estimar la
filogenia del nuestro grupo mediante el mtodo de Inferencia Bayesiana.
Seala +F, con ello estamos incluyendo los modelos que asumen
misma frecuencia de bases as como los que asumen distinta frecuencia.
Seala +I, con lo que estaremos incluyendo tanto los modelos que
asumen la proporcin de sitios que varan como los que no. Por ltimo,
selecciona +G, de esta manera estaremos incluyendo tanto los modelos
que asumen diferente tasa de variacin entre sitios como los que no.
Tema 3.4
Tema 3.4
Paso 4. Una vez hecho esto puedes proceder a evaluar la bondad de ajuste de
los distintos modelos a tus datos segn los distintos criterios se seleccin
implementados en este programa (AIC, BIC, DT). Para ello, ve a
Analysis y selecciona en primer lugar Do AIC calculations.
Se abrir una ventana en la que te preguntar si quieres calcular AICc.
sta, es una opcin que se utiliza cuando el tamao de la muestra (n:
nmero de posiciones de la matriz) es pequeo en comparacin con el
nmero de parmetros de los modelos (K). El AICc realiza una correccin
estadstica y debe usarse siempre que n/K < 40 (Posada 2004). En tu
caso la matriz de trnL-F tiene 736 sitios (n) y los 24 modelos necesitan
entre K=32 y K=42 parmetros, luego seala la opcin AICc.
Una vez terminados los clculos, en la pantalla te aparecern los
resultados. En primer lugar aparece el mejor modelo seleccionado (Model
selected) en este caso es F81+I indicando tambin el valor del
Likelihood (-lnL), el nmero de parmetros libres (K), la frecuencia de
bases nucleotdicas (freqA, freqC) y la proporcin de sitios
invariables (p-inv).
Tema 3.4
Tema 3.4
Tema 3.4
Tema 3.4
Tema 3.5
______________________________________________________________________
TEMA 3.5. Obtencin de rboles mediante el mtodo de inferencia bayesiana
_____________________________________________________________________
Contacto: Isabel Draper (Isabel.draper@uam.es)
PROGRAMAS NECESARIOS
(1) Para la obtencin de rboles mediante Inferencia Bayesiana vamos a utilizar el
programa MrBayes (Huelsenbeck & Ronquist, 2001), que puede ser
descargado gratuitamente desde:
http://mrbayes.sourceforge.net/
En esa misma pgina se explica cmo instalar el programa y se puede acceder
al manual de instrucciones. Para realizar la siguiente prctica ten en cuenta
que el formato de archivo necesario para este programa es el de tipo nexus.
Adems, no olvides que este archivo debe estar en la misma carpeta en la que
est el ejecutable de MrBayes.
Programas alternativos:
BEAST (Drummond & Rambaunt 2007) es otro programa gratuito que utiliza cadenas
de Markov para la aplicacin de inferencia bayesiana en el anlisis de secuencias
moleculares. Este programa est orientado a filogenias con tiempos de divergencia.
En el siguiente enlace puedes encontrar el link a las descargas adems de un manual
para su uso y algunos otros enlaces de inters.
http://beast.bio.ed.ac.uk/Main_Page
METODOLOGA Y PRCTICA
I. Preparacin del archivo nexus para MrBayes
Paso 1. MrBayes trabaja con formato nexus. Para preparar tu matriz de datos,
comprueba que el archivo tiene la siguiente estructura inicial, teniendo
especial cuidado de respetar los puntos y coma finales [OJO, no olvidar
ningn ;]:
# nexus
begin data;
dimensions ntax=N nchar=M
format datatype=X
interleave=Y
gap= missing=?;
matrix
Tema 3.5
Tema 3.5
begin mrbayes;
charset ITS1 = 1-275;
charset 5.8S = 276-427;
charset ITS2 = 428-639;
charset trnLF = 640-1375;
partition favored = 4: ITS1, 5.8S, ITS2, trnLF;
set partition = favored;
end;
Ejercicio 3.5.1. Abre la matriz Glaucoreseda_ITS_LF y preprala para su anlisis en
MrBayes.
Ejercicio 3.5.2. De acuerdo a estas directrices, abre la matriz combinada de ITS y LF
(Glaucoreseda_ITS_LF.nex) con un editor de texto (WordPad para PC, o TextWrangler
para MAC; OJO es muy importante que no lo abris con Word), establece las
particiones y guarda el archivo bajo el nombre
Glaucoreseda_ITS_LF_particiones.nex.
II. Analsis de Inferencia Bayesiana con MrBayes
A continuacin hacemos un breve resumen de los comandos bsicos del programa. Te
proponemos que realices una reconstruccin filogentica utilizando para ello A) la
matriz combinada de ITS y LF con las particiones especificadas
(Glaucoreseda_ITS_LF_particiones.nex), y B) la misma matriz combinada pero
incluyendo al final los gaps codificados segn Simmons y Ochoterena (2000)
(Glaucoreseda_ITS_LF_gaps_particiones.nex). De esta manera podrs comprobar la
influencia que tiene considerar o no la informacin de los gaps a la hora de reconstruir
la filogenia.
Guarda el archivo que vayas a utilizar (Glaucoreseda_ITS_LF_particiones.nex y
Glaucoreseda_ITS_LF_gaps_particiones.nex) en la carpeta raz del programa de
MrBayes. Ten en cuenta que el nombre del archivo no puede contener espacios.
Paso 1.
Paso 2.
Tema 3.5
Por defecto, se aplica el modelo F81 a todas las particiones. Por lo que,
aquellas particiones para las que el modelo que mejor se haya ajustado a
tus datos no sea este (vase tema 3.4), debes cambiarlo. El tipo de
modelo se puede cambiar utilizando los siguientes comandos:
lset Nst=X Rates=Y
Donde lset sirve para cambiar el modelo
Nst sirve para indicar qu modelo se quiere seleccionar (sustituir X por 1
si el modelo es JC o F81, 2 si es HKY o K80, y 6 si es GTR o SYM)
rates indica la tasa de sustitucin (sustituir Y por equal, gamma [+G],
propinv [+I] o invgamma [+I+G])
Adems hay que especificar a qu particiones queremos aplicar el
cambio utilizando el comando applyto. Por ejemplo, para indicar que ITS1
(nuestra primera particin) se ajusta a un modelo evolutivo K80, teclea
lset applyto=(1) nst=2 statefreqpr=fixed(equal)
Tema 3.5
Repite este comando para ajustar a cada particin el modelo que hemos
seleccionado como en el tema 3.4. Con ello conseguirs que a cada
regin gentica se le aplique su modelo evolutivo.
Finalmente, hay que indicar que la tasa de variacin general puede ser
variable entre las particiones. Esto se consigue con el parmetro ratepr
del comando prset. Teclea prset applyto=(all) ratepr=variable.
Paso 3.
Paso 4.
Paso 5.
Tema 3.5
lleva junto con los valores del likelihood obtenidos en cada generacin
para cada una de las cuatro cadenas. Adems, se indica la varianza
alcanzada y el tiempo que falta para que se termine el anlisis. Cuando
se alcanza el nmero de generaciones solicitado el programa pregunta si
se quiere continuar con el anlisis (yes) o no (no). Si el nmero de
generaciones solicitado no ha sido suficiente como para estabilizar la
varianza por debajo de 0.01 contestaremos que s queremos continuar
con el anlisis, indicando cuntas generaciones adicionales queremos
hacer hasta obtener la varianza requerida.
Ejercicio 3.5.3. Debes realizar ms generaciones o con 1.000.000 es suficiente?
Paso 6.
Tema 3.5
Paso 7.
Tema 3.5
Paso 8.
Una vez obtenidos los rboles salimos del programa con el comando quit.
Otra opcin alternativa consiste en incluir todos los comandos del anlisis
en un bloque de comandos a continuacin del que hemos aadido
especificando las particiones al final del archivo de la matriz. Para ello,
puedes abrir la matriz con un editor de texto (WordPad para PC, o
TextWrangler para MAC; OJO es muy importante que no lo abris con
Word) y a continuacin del bloque donde has definido las particiones
escribir lo siguiente:
lset applyto=(1) nst=2 rates=equal;
prset applyto=(1) statefreqpr=fixed(equal);
lset applyto=(2) nst=1 rates=equal;
prset applyto=(2) statefreqpr=fixed(equal);
lset applyto=(3) nst=1 rates=propinv;
prset applyto=(3) statefreqpr=fixed(equal);
lset applyto=(4) nst=1 rates=equal;
prset applyto=(4) statefreqpr=dirichlet(1,1,1,1);
[hasta aqu le hemos indicado a MrBayes que al ejecutar esta matriz
aplique el modelo evolutivo K80 a la primera particin (ITS1), JC a la 2
(5.8S), JC+I a la 3 (ITS2) y F81 a la 4 (trnL-F)]
set autoclose=yes;
[Con este comando le indicamos al programa que se cierre una vez
terminado el anlisis]
mcmc ngen=1000000 printfreq=100 samplefreq=100
nchains=4 savebrlens=yes burninfrac=0.25;
nruns=2
Tema 3.5
Tema 3.4
______________________________________________________________________
TEMA 3.6. Obtencin de rboles mediante el mtodo de Mxima Verosimilitud
_____________________________________________________________________
Contacto: Virginia Valcrcel (virginia.valcarcel@uam.es)
PROGRAMAS NECESARIOS
(1) RAxML (Randomized Axelerated Maximum Likelihood). Este programa realiza
inferencias filogenticas basadas en Maximum Likelihood y permite el anlisis
rpido de grandes matrices. Se puede descargar de forma gratuita gratuita
desde la web http://sco.h-its.org/exelixis/software.html. En esta misma pgina
tienes la posibilidad de estimar la potencia de clculo que necesitas para los
anlisis que quieres realizar. Para ello, incluye el nmero de muestras que
tienes (n individuos, en nuestro caso 2 por especie, 17 en total) y el nmero
de posiciones de la matriz (m).
Manual del programa: RAxML
Tutorial para RAxML: http://sco.h-its.org/exelixis/hands-On.html
(2) RAxMLGUI. Esta es una interface grfica para RAxML. Puede descargarse de
forma gratuita desde la web http://sourceforge.net/projects/raxmlgui/
Manual de la interface grfica: RAxMLGUI
Programas alternativos:
(1) GARLIC (Generic Algorithm for Rapid Likelihood). Este programa se puede
descargar de forma gratuita desde la web http://code.google.com/p/garli/.
Adems, podis seguir un curso online para le aprendizaje
(http://bodegaphylo.wikispot.org/Maximum_Likelihood_%28GARLI%29)
METODOLOGA Y PRCTICA
El objetivo de esta prctica es realizar un anlisis de Maximum Likelihood combinando
de las regiones que tenemos (ITS y trnL-F).
Paso 1. Descargar el programa RAxML.
Para descargar el programa ve a la pgina web http://sco.hits.org/exelixis/software.html, y avanza -al inicio aparecen otros
programas:un editor de rboles, versiones de RAxML para matrices
complejas, etc.- hasta que llegues al epgrafe RAxML. Descrgate la
versin recomendada para el sistema operativo que tengas. RAxML es
especialmente rpido en comparacin con otros programas que realizan
tambin bsquedas basadas en ML, como PAUP, ya que incorpora: (1) la
construccin de un rbol inicial mediante parsimonia usando un algoritmo
de random stepwise addition (vase tema 2.1), (2) para realizar el
reajuste de las ramas utiliza Lazy Subtree rearrangement, (3) implementa
un nuevo modelo de substituticin adems de los tradicionalmente
usados en ML (GTR+GAMMA), que permite estimar las tasa por cada
posicin (este modelo es slo recomenable para matrices muy grandes) y
Universidad Autnoma de Madrid
Cursos OCW
Pag. 1 de 4
Tema 3.4
adems mejora la bsqueda ya que a pesar de usar un algoritmo Hillclimbing, permite la realizacin de pasos hacia atrs en el proceso.
Para este curso vamos a usar una interface grfica de las que se han
desarrollado. Puedes descargrtela avanzando en la misma pgina hasta
el epgrafe Graphical User Interfaces, la que vamos a usar en este curso
es la desarrollada por Silvestri & Michalak.
Una gran parte del software disponible para realizar anlisis filogenticos
funcionan mediante comandos a travs de la terminal. Dado que ste es
un curso se iniciacin hemos decidido minimizar el empleo de la terminal.
No obstante, os sugerimos que una vez familiarizados con las
herramientas bsicas del anlisis filogentico que aqu os proponemos,
profundicis en vuestra formacin mediante el uso de estos programas
desde la terminal. Para poder iniciaros en el manejo de RAxML desde la
terminal podis seguir el curso online de Bodega Phylogenetics Wiki
(http://bodegaphylo.wikispot.org/RAxML_Tutorial)
Paso 2. Vamos a realizar un anlisis combinado de varias regiones, no slo el
espaciador ITS del ADN ribosmico y del espaciador trnL-F del genoma
plastidial, sino que tambin acurdate que la propia regin ITS presenta
tres regiones distintas: 2 espaciadores (ITS-1 e ITS-2) separados entre s
por el gen 5.8S. Por ello para hacer la combinacin de la matriz podemos
hacer varias alternativas. Una
RAxML lee matrices con formato Phylip o Newick. Por ello, el primer paso
es convertir la matriz (Glaucoreseda_ITS_LF) a formato phylip y
gurdarla (vase tema 3.2).
Paso 3. Abre la Interface grfica del programa RAxML (raxmlGUI095Mac/PC/Linux) carga la matriz Glaucoreseda_ITS_LF.phy que has
construido en Add alignment. Si el formato de la matriz es correcto en la
pantalla aparecer la matriz en formato phylip. Si en la matriz hay 2 o
ms secuencias completamente iguales te aparecer un mensaje
avisndote y dndote la opcin de eliminar aquellas secuencias que sean
idnticas dejando solamente una. Dile que no para que no elimine
aquellas muestras iguales (ya que al ir a encadenar ms genes es posible
que dos individuos presenten la misma secuencia para una de las
regiones pero diferente para otra regin)
Tema 3.4
Paso 5. Las bsquedas pueden hacerse con varias opciones, deja sealada la
que aparece por defecto en la que se realiza una bsqueda de ML y un
anlisis de remuestreo tipo bootstrap (vase tema 2.1.) rpido. Podemos
hacer una prueba inicial realizando nicamente 100 rplicas [Ten en
cuenta que para una publicacin deberas utilizar al menos 1.000.000 de
rplicas]. Para set de datos pequeos se recomienda usar el modelo
GTRGAMMA. Dale a Run
Tema 3.4
Tema 4
______________________________________________________________________
TEMA 4 Programas para la edicin de rboles filogenticos
_____________________________________________________________________
Contacto: Maite Aguado (maite.aguado@uam.es)
PROGRAMAS NECESARIOS
Existen numerosos programas especficos para la edicin grfica de los rboles
filogenticos obtenidos en el tema 3. En este curso vamos a ver dos alternativas
ampliamente usadas. Si bien todos los rboles que hayas guardado en formato .emf
puedes editarlos en PowerPoint.
(1) Figtree, un programa gratuito que te puedes descargar desde la web:
http://tree.bio.ed.ac.uk/software/figtree/
(2) ITOL Interactive Tree of Life, est accessible en la pgina web:
http://itol.embl.de/
METODOLOGA Y PRCTICA
I. Figtree para obtener grficos
Paso 1. Abre el programa Figtree y en File selecciona el archivo
Glacuoreseda_ITS_LF_MPbs.tree. Aunque en la prctica utilizaremos
este rbol de bootstrap, en las publicaciones se ha de presentar el rbol
de consenso generado en una de las bsquedas. Generalmente, se
utiliza el que presenta la topologa ms resuelta y posteriormente se le
aaden los valores de apoyo. Por ello, es frecuente encontrar clados que
presentan tres apoyos (el bootstrap del clado obtenido con MP y el
obtenido con ML, adems de el valor de posterior probability obtenido
para ese clado con BI). Por el contrario otros clados, slo tendrn por
ejemplo el valor de posterior probability obtenido con BI, ya que ese clado
no se recupera al analizar la matriz de datos bajo MP y ML. Nos
aparecer una ventana del tipo:
Tema 4
Tema 4
Paso 1.
Tema 4
Paso 2. En data upload carga el archivo .tre que desees y visualiza el grfico.
Una vez cargado el archivo iremos a go to the main display page.
Tema 4
Paso 5. Cada vez que modifiques algo en alguna de las pestaas pulsa el botn
Update tree par aver el resultado.