Sie sind auf Seite 1von 6

DOSIER CIENTÍFICO

Filogenómica y genómica
de la adaptación
Rafael Zardoya
Profesor de Investigación del Museo Nacional de Ciencias Naturales-CSIC, Madrid
Alejandro Sánchez-Gracia
Profesor Asociado del Departament de Genètica, Microbiologia i Estadística e Institut de Recerca de la
Biodiversitat (IRBio), Universitat de Barcelona.
Julio Rozas
Catedrático del Departament de Genètica, Microbiologia i Estadística e Institut de Recerca de la
Biodiversitat (IRBio), Universitat de Barcelona.

La posibilidad técnica actual de secuenciar genomas Los otros mecanismos de diversificación son la deriva
y transcriptomas completos de cualquier especie abre génica o selección al azar de alelos en una población, la
la puerta a cumplir la predicción de Darwin de poder recombinación y el flujo génico asociado a la impor-
reconstruir de forma rigurosa el árbol de la vida (las tación de alelos procedentes de otras poblaciones por
relaciones filogenéticas de todos los seres vivos actua- migración. Para que se produzca la especiación es ne-
les) mediante la filogenómica. El árbol de la vida sirve cesario, además, el concurso de mecanismos específicos
como marco robusto para realizar estudios de genómica de interrupción del flujo génico (barreras reproductivas)
evolutiva de la adaptación; es decir, que permitan la fijación diferencial
identificar los genes o regiones del de las mutaciones. Existiendo con-
genoma moldeados por la acción de senso en que todos estos mecanis-
la selección natural y responsables mos evolutivos están implicados en
de la adaptación fenotípica. la especiación, el debate se centra en
discernir el papel relativo de cada
Darwin describió el origen de las es- uno de ellos en la generación de la
pecies como “el misterio de los mis- diversidad que observamos en los
terios” y más de 150 años después de diferentes grupos de organismos.
publicar su magna obra, comprender
los mecanismos y procesos evoluti- La evolución trabaja de forma su-
vos que han generado y mantienen til y gradual y sus resultados son,
la biodiversidad que nos rodea sigue en general, observables solo a lar-
siendo el principal reto con el que se go plazo. Por ello, el estudio de
enfrenta el biólogo evolutivo. Aún los procesos evolutivos no es nada
así, hemos avanzado enormemente, sencillo y normalmente se recurre
en particular gracias a la aportación a sistemas modelo en los que se
de la evolución molecular. Hoy sa- observa una aceleración de las ta-
bemos que la variabilidad genética sas evolutivas como es el caso, por
generada por mutaciones al azar en el genoma es en su ejemplo, de las radiaciones (aparición casi simultánea
mayoría neutra en términos selectivos y que existe una de nuevos linajes) en islas oceánicas, la domesticación
presión selectiva muy fuerte para evitar mutaciones de- por el hombre de especies o la evolución experimental
letéreas (aquellas que conllevan una pérdida de aptitud o con organismos con ciclos vitales rápidos como bacte-
eficacia biológica). Solo una parte ínfima de las mutacio- rias y virus. En estos sistemas, se pueden realizar apro-
nes son beneficiosas, contribuyen a mejorar la adaptación ximaciones a nivel ecosistémico, organísmico o genó-
al medio y son objeto de la selección natural positiva (o mico, siendo este último el foco del presente artículo.
darwiniana). La diversidad biológica se genera inicial-
mente por mutación y se moldea por diversos mecanis- El desarrollo de las técnicas de secuenciación masiva en
mos evolutivos que alteran la frecuencia de alelos en una la última década ha permitido, por primera vez, testar
población. De estos, el principal es la selección natural. hipótesis sobre el efecto de los procesos adaptativos a

194 / DICIEMBRE 2017 SE BBM 9


DOSIER CIENTÍFICO

nivel genómico y su papel en la generación de la bio-


diversidad. Estas nuevas técnicas, en constante mejora,
permiten obtener datos del genoma y del transcriptoma
de organismos no modelo, abriendo así la puerta a los
estudios evolutivos. Dentro de un marco filogenético
robusto, se comparan las diferencias en la secuencia de
los diferentes genes y regiones no codificantes en el ge-
noma entre especies que comparten un antepasado co-
mún reciente, para poder asociar los cambios genéticos
observados con cambios fenotípicos sujetos a selección
y adaptación. De esta manera, se pueden detectar ge-
nes o regiones del genoma que pueden ser potenciales
candidatos a ser los agentes causales del proceso de es-
peciación, que con posterioridad deberán ser objeto de
validación experimental con las técnicas de biología mo-
lecular apropiadas. La filogenómica es la encargada de
reconstruir las relaciones filogenéticas de las especies a
partir de datos genómicos y proporcionar el marco nece-
sario a la genómica comparada y evolutiva que permite
analizar la variación a nivel estructural en el genoma, el
origen y la evolución de las familias génicas o detectar
qué genes presentan selección positiva y a qué dominios
proteicos afecta. A continuación, repasamos brevemente
las metodologías utilizadas en filogenómica y genómica
de la adaptación, y presentamos un ejemplo de este tipo
de estudios.

FILOGENÓMICA
Darwin definió la evolución como la descendencia con
modificación y él mismo se dio cuenta de que el proceso
evolutivo implica que los organismos vivos presentan rela-

GENÓMICA DE LA ADAPTACIÓN
A LA DIETA CARNÍVORA EN PLANTAS
Fukushima y colaborado- (unas trampas en forma de jarra del fluido digestivo) de Cephalotus y
res han realizado reciente- para atrapar insectos) de las hojas otras tres especies de plantas carní-
mente un estudio genómi- no insectívoras (como las del resto voras con un origen independiente.
co en la planta carnívora Cephalotus de plantas). La coexistencia de estos
follicularis (planta de jarra), con ob- dos tipos de hojas en un mismo indi- Para este estudio se han utilizado
jeto de investigar las bases mole- viduo ofrece una oportunidad única diferentes aproximaciones analíticas
culares de la adaptación a la dieta para conocer las bases genéticas de de la genómica comparada y evolu-
carnívora (figura 1). Esta adaptación, la adaptación a la dieta carnívora. tiva, incluyendo i) métodos filoge-
que permite a las plantas sobrevivir Con este fin, se ha secuenciado el nómicos (para determinar con preci-
en suelos pobres en nutrientes, se ha genoma, de 1,6 Gbp, se han identi- sión las relaciones evolutivas entre
repetido a lo largo de la evolución de ficado los aproximadamente 36.000 Cephalotus y otras ocho especies de
forma independiente (convergencia genes que contiene, así como el angiospermas dicotiledóneas con el
evolutiva) en varias especies filoge- transcriptoma específico de los dos genoma ya secuenciado), ii) métodos
néticamente no relacionadas. Cepha- tipos de hojas. Además, el estudio para identificar y agrupar las familias
lotus es una planta que tiene bien se ha complementado con una com- de genes (identificar los ortogrupos)
diferenciadas las hojas insectívoras parativa del proteoma (proteínas en las nueve especies de plantas com-

10 SE BBM 194 / DICIEMBRE 2017


DOSIER CIENTÍFICO

ciones de ascendencia-descendencia entre sí, lo cual puede yesiana que propone el cálculo de la probabilidad posterior
ser visualizado en forma de lo que él denominó el árbol de la de un árbol; es decir, la probabilidad de que el árbol sea co-
vida. La reconstrucción de las relaciones filogenéticas entre rrecto dados unos datos y un modelo evolutivo. La probabi-
las diferentes especies es el primer paso necesario de cual- lidad posterior de un árbol se calcula mediante el Teorema
quier estudio evolutivo, como el del impacto de la selección de Bayes que relaciona la probabilidad previa del árbol con
natural en la adaptación. Las especies actuales forman las la verosimilitud (probabilidad de los datos dados un árbol y
puntas del árbol filogenético y en su reconstrucción se trata modelo evolutivo).
de establecer las denominadas relaciones de grupo hermano
mediante la identificación de ancestros comunes recientes, Aunque supuso un gran avance y la resolución de mu-
en definitiva, de establecer clados o grupos monofiléticos chas relaciones filogenéticas dentro del árbol de la vida,
que incluyen un ancestro y todos sus descendientes. Los el uso de fragmentos cortos (típicamente se secuencia-
primeros árboles filogenéticos se reconstruyeron a partir de ban y analizaban unos 1000 pb) tiene sus limitaciones a
la comparación de caracteres morfológicos. Sin embargo, a la hora de inferir filogenias. Por un lado, pueden cons-
partir de los años 60 del pasado siglo se empezó a utilizar la tituir un muestreo no representativo de la variación ge-
información acumulada (desde la separación a partir de an- nómica (error muestral) y por otro pueden no acumular
cestros comunes) en las secuencias de ADN o de proteínas la variabilidad apropiada para dilucidar las relaciones
de las diferentes especies para reconstruir las relaciones filo- filogenéticas a un nivel taxonómico concreto, dando lu-
genéticas. Para ello, se desarrollaron los métodos de máxima gar a árboles sin resolver o incluso relaciones incorrectas.
verosimilitud (ML) que utilizan un modelo probabilístico Estas limitaciones han sido superadas en la actualidad
de evolución de la sustitución nucleotídica o aminoacídica por el uso generalizado de la secuenciación masiva que
para estimar el árbol que hace más verosímiles las secuen- permiten obtener el genoma o el transcriptoma de una
cias observadas. Sin embargo, no fue hasta los años 90 con especie y por lo tanto construir alineamientos al menos
la implementación de la técnica de PCR que permitía am- uno o dos órdenes de magnitud más largos (10-100k
plificar y secuenciar un fragmento ortólogo (adquirido por pb). El problema al que se enfrenta la filogenómica es
descendencia) en diferentes especies no modelo, y la mejora que existe una alta heterogeneidad entre diferentes re-
en la capacidad computacional que aceleraba las búsquedas giones del genoma, afectando por ejemplo a la compo-
heurísticas de los valores de los parámetros del modelo que sición nucleotídica y las tasas evolutivas. Además, es im-
maximizan la verosimilitud del árbol, cuando los estudios portante tener en cuenta que la historia evolutiva de un
filogenéticos se generalizaron, ofreciendo hipótesis robustas gen o una parte del genoma (árbol de gen) no siempre se
desde el punto de vista estadístico de las relaciones filogené- tiene que corresponder con la historia evolutiva de la es-
ticas. A finales del siglo pasado, los métodos de inferencia pecie (árbol de especies) debido a fenómenos evolutivos
filogenética se enriquecieron con el uso de la estadística ba- como la transferencia horizontal de genes (relacio-

paradas, iii) métodos para determinar quitina (el principal componente del
las familias de genes que se han ex- exoesqueleto de los insectos), y la
pandido específicamente en el ge- fosfatasa ácida púrpura, que libera
noma de Cephalotus (ya que algunas los grupos fosfato de las moléculas
de ellas pueden estar asociadas al y ayuda a movilizar el fósforo de las
cambio de dieta) y iv) métodos para presas entre otras. Los resultados
el análisis comparativo de los genes del estudio proteómico comparati-
que se están expresando diferencial- vo sugieren, además, que el proceso
mente en la hojas insectívoras. evolutivo se ha repetido de forma
independiente en varias especies,
Los resultados de la investigación a partir de un conjunto de genes y
han permitido identificar algunos proteínas con función ancestral si-
de los cambios genéticos asocia- milar. Esto es, la capacidad de las
dos con la emergencia de la dieta plantas carnívoras para digerir ani-
carnívora en plantas. Por ejemplo, males en suelos empobrecidos ha
se ha determinado que las hojas Figura 1. sido el resultado de la acción de la
Imagen de los dos tipos de hojas (en forma de
que atrapan insectos han adquiri- selección natural que ha promovido
jarra y planas) de la planta de jarra de Australia
do nuevas funciones enzimáticas (o jarrito enano), Cephalotus follicularis. Estas varios cambios genéticos recurren-
mediante coopción (cambio de hojas, en forma de jarra, están adaptadas para tes sobre un mismo conjunto de ge-
la captura y digestión de insectos. La planta es
función en genes ya existentes): originaria de Australia Occidental. nes de un número reducido de rutas
la quitinasa básica, que rompe la Crédito: Mitsuyasu Hasebe. metabólicas.

194 / DICIEMBRE 2017 SE BBM 11


DOSIER CIENTÍFICO

nes xenólogas), la duplicación de genes (relaciones vida que siempre han sido fuente de controversia y se
parálogas) o la separación incompleta de linajes causada corresponden con nodos cortos (los diferentes lina-
por polimorfismos ancestrales, anteriores al proceso de jes se separaron en relativamente poco tiempo) en los
especiación (ya que esta no es instantánea), y la espe- que la señal filogenética es reducida. Esta es la última
ciación híbrida que se produce cuando dos especies dan frontera para conseguir cumplir la visión de Darwin
lugar a una tercera. de obtener un árbol de la vida completamente resuelto
que sirva como marco robusto y estable para los estu-
Una vez obtenidos los datos de secuencia crudos, es dios comparativos.
necesario ensamblarlos, anotarlos (si es posible) y
de forma obligatoria definir si se cumplen o no las ANÁLISIS DE GANANCIAS
relaciones de ortología. A partir de aquí, existen tres Y PÉRDIDAS DE GENES
posibilidades a la hora de analizar los datos de se- Una familia multigénica es un conjunto de genes re-
cuenciación masiva. La primera y más extendida en lacionados filogenéticamente (homólogos) que de-
la actualidad es realizar un alineamiento múltiple de rivan de una serie de eventos de duplicación (genes
secuencias (MSA) ortólogas de cada especie de forma parálogos). Uno de los ejemplos más conocidos es el
individual (por ejemplo con MAFFT, T-COFFEE) y de las alfa y beta globinas. El análisis comparativo del
posteriormente concatenarlas. Cada secuencia ortó- número de miembros de una determinada familia en
loga constituye una partición del alineamiento con- varias especies puede servir para inferir el papel de la
catenado (supermatriz) y se calculan los valores de selección natural y de la adaptación. Actualmente, y
los parámetros del modelo evolutivo para cada con la disponibilidad de la secuencia genómica
partición de forma independiente. A con- completa de varias especies filogenética-
tinuación bien por máxima verosimili- mente relacionadas, se pueden realizar
tud (con RAxML o IQ tree) o median- estos análisis a escala genómica, es
te inferencia Bayesiana (con MrBayes decir analizando todas las familias
o PhyloBayes) se obtiene un árbol de multigénicas. Este análisis permite
especies a partir de la información identificar y localizar en la filogenia
conjunta de todas las particiones. todas las ganancias y pérdidas de
Esta metodología asume que los genes, a partir de las cuales se pue-
diferentes ortólogos de una espe- den estimar las tasas de nacimiento
cie comparten una historia común y muerte (típicamente expresado
que prevalece al concatenar sobre el por gen y por millón de años). Y lo
ruido individual (conflictivo) de cada que es más importante, el análisis de
partición. Una segunda aproximación la función de aquellos genes que se han
consiste en generar con máxima verosimili- expandido o contraído de forma significa-
tud o inferencia Bayesiana un árbol de gen para tiva en linajes particulares (dentro de un marco
cada partición y a continuación combinarlos mediante estadístico riguroso), puede dar pistas de qué caracteres
métodos de consenso, concordancia o reconciliación (genes particulares y funciones concretas) han afectado
(con BUCKy o ASTRALII) obtener un superárbol que al proceso adaptativo.
representa el árbol de especies. Finalmente, y para la
reconstrucción filogenética de especies cercanas, se Para este tipo de análisis evolutivos se han desarrollado
han desarrollado métodos de coalescencia que tienen varios métodos basados en modelos estocásticos (típi-
en cuenta la diferenciación entre las secuencia ances- camente metodologías de ML para estimar las tasas de
tral y las derivadas y que directamente estiman el ár- nacimiento y muerte de genes. El flujo de trabajo típico
bol de especies a partir de cada una de las particiones para realizar este tipo de análisis comprende:
teniendo en cuenta la posible señal conflictiva de cada
partición (con STARBEAST2 o PHYLDOG). Estos 1.La determinación de todos los grupos de genes des-
últimos métodos requieren mayor capacidad compu- cendientes del mismo ancestro común en las especies
tacional y están actualmente en continua mejora. En estudiadas (u ortogrupos). En este paso se agrupan
muchos casos, los tres tipos de aproximaciones con- en un mismo ortogrupo tanto los miembros ortólo-
vergen en las mismas hipótesis filogenéticas, o si hay gos de la familia (genes de copia única u ortólogos
diferencias están no tienen soporte estadístico. Un 1:1), como los genes originados por duplicación en
caso distinto, y no resuelto, ocurre cuando las diferen- un mismo linaje genético durante la diversificación
tes metodologías resuelven de forma diferente ciertas de las especies estudiadas (relaciones N:N de co-
relaciones filogenéticas (típicamente en conflicto) y ortólogos y co-parálogos). Esta agrupación se realiza
además lo hacen con máximo apoyo estadístico. Se en base a la similitud entre secuencias (típicamente
trata precisamente de aquellas partes del árbol de la en función de los “E-values” de blast), y aplicar al-

12 SE BBM 194 / DICIEMBRE 2017


DOSIER CIENTÍFICO

Tabla 1. Lista de programas más relevantes.

Software Pagina Web Descripción


Estimación de árboles de especie mediante
ASTRALII github.com/smirarab/ASTRAL
coalescencia.
Estimación de las tasas de nacimiento y muerte
BadiRate www.ub.edu/softevol/badirate/
de genes.
Estimación de árboles de especie mediante
BUCKy www.stat.wisc.edu/~ane/bucky/
concordancia Bayesiana.
Estimación de las tasas de nacimiento y muerte
CAFE hahnlab.github.io/CAFE/
de genes.
Análisis del impacto de la selección natural en
Hyphy hyphy.org/w/index.php/Main_Page
regiones odi adoras
Re onstru ión logen ti a on m ima
IQ tree www.iqtree.org/
verosimilitud.
MAFFT ma t br jp alignment server Alineamientos múltiples.

MrBayes mrbayes.sourceforge.net/ Inferencia bayesiana.


stima ión del n mero de ganan ias y p rdidas
Notung www.cs.cmu.edu/~durand/Notung/
de genes.
OrthoFinder github.com/davidemms/OrthoFinder Determinación de grupos de ortólogos.

OrthoMCL www.orthomcl.org/ Determinación de grupos de ortólogos.


Análisis del impacto de la selección natural en
PAML abacus.gene.ucl.ac.uk/software/paml.html
regiones odi adoras
Estimación de árboles de especie en presencia de
PHYLDOG pbil.univ-lyon1.fr/software/phyldog/
duplicaciones.
Phylobayes www.phylobayes.org/ Inferencia bayesiana con modelos mixtos (CAT).
stima ión de rboles ultram tri os reloj
r8s sour e orge net proje ts r s
molecular).
Re onstru ión logen ti a on m ima
RAxML sco.h-its.org/exelixis/web/software/raxml/index.html
verosimilitud.
Estimación de árboles de especie mediante
STARBEAST2 github.com/genomescale/starbeast2
coalescencia.
T-COFFEE t o ee rg at Alineamientos múltiples.

goritmos de ML optimizados para realizar un agru- cimiento y muerte) en cada uno de los linajes de la
pamiento automático (por ejemplo con OrthoMCL y filogenia, bien por metodologías de reconciliación
OrthoFinder). entre el árbol de los genes de cada ortogrupo con el
de las especies (con Notung), o directamente a partir
2. Inferencia de un árbol filogenético ultramétrico (en del número de miembros de la familias presentes en
el que la longitud de las ramas representa tiempo) las especies actuales mediante modelos de ML (con
de las especies. Para esta inferencia típicamente se BadiRate o CAFE).
utilizan todos los genes de copia única (ortólogos
1:1) de todos los genomas, y se procede tal como MODELOS DE EVOLUCIÓN DE CODONES
se indica en el apartado de filogenómica (MSA, Y ADAPTACIÓN A NIVEL PROTEICO
concatenación de las secuencias generando una su- La variación en el nivel de constricción funcional
permatriz, reconstrucción de un árbol sin raíz por entre genes homólogos de distintas especies es una
ML). Posteriormente, el árbol sin raíz se linealiza fuente muy importante de información sobre el pro-
(con r8s), y se calibra en base a dataciones externas ceso adaptativo. Unos de los métodos más potentes
de nodos particulares (por ejemplo con información y ampliamente usados consiste en comparar las tasas
del registro fósil). de sustitución sinónima (dS, o el número de cambios
sinónimos por posición sinónima) y no-sinónima (dN,
3. Los pasos anteriores permiten estimar el número número de cambios no sinónimos por posición no-
de ganancias y pérdidas de genes (y las tasas de na- sinónima); es decir, aquellas sustituciones que no

194 / DICIEMBRE 2017 SE BBM 13


DOSIER CIENTÍFICO

provocan cambios de aminoácido en la proteína 1. Seleccionar el conjunto de genes (y sus MSA) a es-
codificada y aquellas que sí, respectivamente. Si todos tudiar. Un análisis particular incluye el estudio de un
los cambios nucleotídicos que se produjeran en un MSA de la zona codificadora de los genes homólogos
gen fueran estrictamente neutros (sin ningún efecto de varias especies (típicamente ortólogos 1:1, aunque
sobre la eficacia biológica de los individuos), se espe- también pueden incluirse parálogos). A nivel genó-
raría que dS fuera igual a dN, y por lo tanto su ratio (ω mico se podrían estudiar los MSA de todos o un gru-
= dN/dS) sería igual a 1. La principal fuerza evolutiva po de genes compartidos por todas las especies.
que moldea los cambios evolutivos en la región co-
dificadora de un gen es la selección purificadora (o 2. Incluir el árbol filogenético aceptado de los genes a
negativa) que elimina las mutaciones (principalmente estudiar (ver apartado de filogenómica).
no-sinónimas) con efectos deletéreos de las poblacio-
nes, por lo que el valor de dN será menor que en el caso 3. Realizar el análisis con PAML o HyPhy. Entre otras
de neutralidad, y ω será típicamente inferior a 1 (la opciones, se tiene que indicar un modelo evolutivo
selección natural evitará su fijación de la población). de codones concreto (que dependerá de nuestra hi-
Solo las mutaciones beneficiosas se podrán fijar por pótesis de estudio). Entre los modelos más comu-
selección natural (selección positiva o darwiniana) de nes está el denominado “M0”, que asume que todos
forma más rápida que las sinónimas neutras generan- los codones y todos los linajes del árbol filogenético
do valores ω mayores que 1. Es decir, valores significa- comparten un mismo valor de ω), y el modelo “FR”,
tivamente distintos de ω = 1 (ω < 1 o ω> 1), indican la que asume que cada linaje de la filogenia pueda te-
acción recurrente de la selección natural. En genómica ner su propio valor de ω (compartido por todos los
de la adaptación los segundos (ω > 1) son los más im- codones en ese linaje). Modelos más complejos que
portantes ya que indican cambios de aminoácido que permiten determinar estadísticamente si existe selec-
han sido promovidos por la selección natural como ción positiva en algún linaje, o incluso en posiciones
respuesta adaptativa a un cambio geológico, ambien- concretas de linajes específicos son también aplicados
tal, biótico, etcétera. Este análisis, al realizarse bajo habitualmente. ■
un marco estadístico riguroso, permite determinar qué
genes, funciones génicas, procesos biológicos, etcétera, PARA LEER MÁS
han evolucionado por selección positiva; es decir, han Bleidorn C (2017). Phylogenomics. An introduction. 222 pp. Springer
participado de forma activa en un proceso de adapta- International Publishing: Basel, Switzerland.
ción a nivel molecular. Demuth JP and Hahn MW (2009). The life and death of gene families.
Bioessays 31: 29-39.
De los varios programas que existen para estimar
Fukushima K, et al. (2017). The pitcher plant Cephalotus genome reveals
ω los más populares son PAML (el más usado) y
genetic changes associated with carnivory. Nature Ecol. Evol. 1: 0059.
HyPhy (más versátil, pero más complejo de utilizar).
Aunque existen diferencias en los modelos evoluti- Vargas P, Zardoya R. (Eds) (2014). The Tree of Life. 713 pp. Sinauer
vos que implementan estos programas, ambos per- Associates. Sunderland, MA, USA.
miten estimaciones por ML. Un estudio genómico Yang Z & Bielawski JP (2000). Statistical methods for detecting mo-
típico usando modelos de codones comprende de los lecular adaptation. Trends Ecol Evol, 15: 496-503.
siguientes pasos:

14 SE BBM 194 / DICIEMBRE 2017

Das könnte Ihnen auch gefallen