Sie sind auf Seite 1von 5

Composición del codón conservado de los genes que codifican la proteína

ribosomal en Escherichia coli, Mycobacterium tuberculosis y


Saccharomyces cerevisiae: lecciones del aprendizaje automático
supervisado en genómica funcional

ABSTRACT

Los proyectos genómicos han resultado en una inundación de datos de secuencia. La


anotación funcional actualmente se basa casi exclusivamente en la comparación de
secuencias entre especies y está restringida en casos de datos limitados de especies
relacionadas y secuencias ampliamente divergentes sin homólogos conocidos. Aquí,
demostramos que la composición del codón, una fusión del uso de codones y señales de
composición de aminoácidos, puede discriminar con precisión, en ausencia de
información de homología de secuencia, genes de proteínas ribosómicas citoplasmáticas
de todos los otros genes de función conocida en Saccharomyces cerevisiae , Escherichia
coli y Mycobacterium tuberculosis utilizando una implementación de máquinas de vectores
de soporte, luz SVM. El análisis de estas señales de composición del codón es instructivo
para determinar las características que confieren individualidad a los genes de la proteína
ribosómica. Cada uno de los conjuntos de residuos hidrofóbicos, cargados negativamente
y cargados positivamente, así como el sesgo de codones, contribuyen a su perfil distintivo
de composición de codones. La representación de todas estas señales se detecta
sensiblemente, se combina y se aumenta con las SVM para realizar una clasificación
precisa. De especial mención es un valor atípico obvio, el gen de levadura RPL22B,
altamente homólogo a RPL22A pero que emplea un uso de codones muy diferente, que
tal vez indica una función no ribosómica. Finalmente, proponemos que la composición del
codón se use en combinación con otros atributos en la clasificación de genes / proteínas
mediante algoritmos de aprendizaje automático supervisados.

INTRODUCCIÓN

Nuestra comprensión de la biología ha sido influenciada en gran medida por los


numerosos proyectos de secuenciación de genomas enteros, a partir de genomas
microbianos, continuando con las especies eucariotas Saccharomyces cerevisiae ,
Caenorhabditis elegans (lombriz), Drosophila melanogaster (mosca de la fruta) y
Arabidopsis thaliana (mostaza de malezas) y culminando más recientemente con los
genomas humano y de ratón. Otros, ya sea en el camino o contemplados, incluyen los
genomas de rata, pez cebra, pez globo y primates no humanos. Mientras tanto, el uso
generalizado de la literatura electrónica, la introducción de ensayos de alto rendimiento
para la expresión génica y otros proyectos a gran escala (por ejemplo, pantallas de
mutagénesis y proyectos de fenotipado para el ratón; 1, 2 ) también aumentan
enormemente la cantidad de información digital disponible. Aunque los investigadores
todavía necesitan practicar el pensamiento crítico, ahora pueden realizar experimentos
basados en datos al idear nuevas formas de manejar y aislar subconjuntos apropiados de
datos de observación complejos derivados de la naturaleza ( 3 ).
Los datos genómicos de todos los tipos (por ejemplo, información de secuencia) tienen un
valor relativamente bajo sin la incorporación de datos obtenidos de los enfoques
experimentales clásicos ad hoc . Como datos independientes, no abordan de inmediato
las cuestiones relativas a la función, el mecanismo y la regulación, cuestiones de gran
interés para los biólogos. Además, todas las formas de datos genómicos son propensas a
error, por ejemplo, la información anotada de la función de un producto génico inferido por
homología de secuencia. Sin embargo, con el advenimiento de la capacidad
computacional y la lógica matemática subyacente utilizada para hacer inferencias, la
teoría del aprendizaje estadístico ( 4 ), típicamente la máquina de vectores de soporte
(SVM) ( 4 , 5), se encuentra ahora en una fase de éxito característica de una etapa de
observación de la ciencia y ahora es capaz de proporcionar una visión adicional en, por
ejemplo, la expresión génica y la función ( 6 ). El SVM es un tipo de algoritmo de
aprendizaje automático supervisado que se puede integrar con un conocimiento a priori
basado en la investigación y el conocimiento acumulado en cada dominio de la ciencia,
como el sistema de Gene Ontology (GO) ( 7 ). Aquí, todos los genes de función conocida
se han organizado en un gráfico acíclico dirigido (DAG) según la función molecular, la
localización y los procesos biológicos en los que participan sus productos. Mediante el
uso de un vocabulario dinámico y controlado aplicable a todos los eucariotas, el sistema
GO es rápidamente ganando popularidad y se ha aplicado a laGenomas de S.cerevisiae ,
mosca de la fruta, ratón y gusano para construir una base de datos de conocimiento de
los roles de los genes y las proteínas en las células. Tal conocimiento a priori puede
explotarse fácilmente para la elección cuidadosa de conjuntos de datos genómicos; Los
SVM formados en estos conjuntos de datos generalmente arrojan una clasificación sólida
en la práctica.

En este trabajo, hemos investigado la capacidad de las SVM para discriminar los genes
que codifican proteínas ribosomales (genes rp) de todos los otros genes de función
conocida en función de su composición de codones en Escherichia coli , Mycobacterium
tuberculosis y S.cerevisiae. La composición de codón es intrínsecamente la fusión de las
señales de uso de codones y de composición de aminoácidos. Es bien sabido que existe
una alta correlación entre el sesgo del codón y los niveles de expresión génica, que a su
vez está relacionado con la función y / o similitud en la regulación. La composición de
aminoácidos está relacionada con las propiedades fisicoquímicas de la proteína y, por lo
tanto, tal vez en última instancia, con su función. Aquí demostramos que los genes rp
exhiben patrones de composición de codones conservados marcadamente diferentes de
otros genes en E. coli , M. tuberculosis y S. cerevisiae. También demostramos que un
análisis cuidadoso de la clasificación por parte de los SVM puede proporcionar
información valiosa sobre las características específicas que confieren individualidad a
este conjunto de genes. Finalmente, de acuerdo con nuestros resultados, proponemos
que la composición del codón es un atributo potencialmente eficaz que puede usarse en
combinación con otros atributos en la clasificación de genes / proteínas mediante
algoritmos de aprendizaje automático supervisados.

MATERIALES Y MÉTODOS
Datos de secuencia

Enteros Los genomas de E. coli K-12 ( 8 ) y M. tuberculosis CDC1551 y secuencias de


longitud completa de los 16 S.cerevisiae cromosomas a lo largo con las anotaciones de
genes fueron recuperados de la división del Genoma de GenBank. Todas las secuencias
codificantes (CDS) y sus secuencias traducidas se verificaron localmente con respecto a
las tablas de traducción correspondientes (tabla de traducción 11 para E.coli y M.
tuberculosis y la tabla estándar para S.cerevisiae ) para evitar errores de anotación
presentes en los conjuntos de datos originales . Había 4289 genes codificantes de
proteínas putativos en E.coli , 4187 en M. tuberculosis y 6312 en S. cerevisiae.

Composición del codón y uso de codones

Cada secuencia de gen que codifica la proteína (excluyendo los codones de inicio y
parada) se representó mediante un vector de 61 dimensiones con respecto a los 61
codones de sentido,

c k = ( c k ij ), k = 1, 2, ..., K ; i = 1, 2, ..., 20; j = 1, ..., n i

donde, c k es el vector que representa el gen que codifica la proteína k th (de un total de
genes K ) y n i es el número de codones sinónimos ( j representa el j codón sinónimo) del i
ésimo aminoácido (del posible 20). En nuestro estudio, K = 4289 para E. coli , 4187 para
M. tuberculosis y 6312 para S. cerevisiae (ver arriba). Con base en el conjunto de datos
de vectores de codones con sentido 61-dimensional, la composición del codón de cada
gen se calculó como la frecuencia de cada codón del gen. Codon bias (de kgen th),
medido por su uso de codones sinónimos relativos (RSCU; 9 ), se calculó así:

Un archivo externo que contiene una imagen, ilustración, etc. El nombre del objeto es
gkf344eq1.gif

Conjuntos de datos de entrenamiento y prueba para E.coli , M.tuberculosis y S. cerevisiae

Los genes de la proteína ribosomal se extrajeron de los 4289 genes de E. coli y los 4187
genes de M. tuberculosis mediante una búsqueda por palabra clave en el campo de
anotación del CDS en la tabla de características de las secuencias completas del
genoma. En E. coli , los 55 genes de la AD obtenidos (Tabla (Tabla 1) 1 ) se tomaron
como ejemplos de entrenamiento positivos para los SVMs. Sentimos que 55 genes eran
muy pocos para dividirlos en conjuntos de datos de entrenamiento y prueba, por lo que
usamos este mismo conjunto para entrenamiento y pruebas en E.coli. El resto de los
genes se dividieron en dos grupos. Un grupo consistió en 1432 genes de función
desconocida cuyos productos se anotaron como 'hipotéticos', 'no clasificados', 'putativos' o
'similares a ...'. El otro grupo comprendía 2802 genes cuyas funciones son bien
conocidas. Este grupo se subdividió adicionalmente aleatoriamente en dos grupos que se
usaron como el conjunto de datos de entrenamiento negativo (1408 genes) y el conjunto
de datos de prueba negativo (1394 genes), respectivamente. Del mismo modo, en M.
tuberculosis , los 56 genes anotados como RP genes (Tabla (Tabla 1) 1) se utilizaron
como los conjuntos de datos de entrenamiento y prueba positivos. De los genes que
codifican proteínas restantes, los 2146 con función conocida se dividieron al azar e
igualmente en los conjuntos de datos negativos de entrenamiento y prueba. El modelo
entrenado también se aplicó en el conjunto de 1905 genes de función desconocida.

La lista de genes codificadores de proteínas ribosomales en E.coli y S. cerevisiae

Del mismo modo, utilizando la contraparte GO de la clasificación de la función molecular


de los genes de la base de datos del genoma de Saccharomyces (SGD)
(http://www.geneontology.org/gene_association.sgd), los 6312 genes de S. cerevisiae se
clasificaron como genes de función desconocida (3039 genes). Entre los genes de función
conocida, los 137 genes rp citoplásmicos ( 10 , 11 ) se dividieron en dos grupos. Uno de
ellos incluyó 78 genes no duplicados y se utilizó como el conjunto de datos de
entrenamiento positivo; los otros 59 genes duplicados se usaron como el conjunto de
datos de prueba positiva. Además, los genes que codifican las histonas ( 9) y las enzimas
(1041) se eligieron como el conjunto de datos de entrenamiento negativo; el resto de los
genes de función conocida (2086) se tomaron como el conjunto de datos de prueba
negativa.

Máquinas de vectores de soporte

En teoría, una forma simple e intuitiva de construir un clasificador binario es construir un


hiperplano, que separa a los miembros de la clase de los que no son miembros.
Lamentablemente, la mayoría de los problemas del mundo real no son separables
linealmente en función de los datos recopilados. Una solución es mapear los datos en un
espacio de mayor dimensión (espacio de característica) y definir allí un hiperplano de
separación. Sin embargo, esto generalmente invoca tanto los costos algorítmicos de
aprendizaje como los de aprendizaje, que las SVM eluden elegantemente ( 4 , 5) Los
SVM evitan el exceso de ajuste al elegir el margen máximo (suave) que separa el
hiperplano en el espacio de características y reduce la complejidad computacional al usar
funciones de kernel que conectan el espacio de entrada y el espacio de características
directamente para la computación de comparación de similitudes. Las funciones del kernel
le permiten a uno trabajar en el espacio de funciones sin calcular explícitamente todos los
elementos. Aunque un SVM es esencialmente un clasificador binario, también puede
tratar problemas de clasificación de clases múltiples ( 4 , 12 ). El éxito con SVM requiere
una cuidadosa atención a dos aspectos clave: la función del kernel y la magnitud de la
compensación entre precisión y generalización.

En este estudio, utilizamos SVM light v.3.5 ( 13 ; http://ais.gmd.de/~thorsten/svm_light/)


para la formación y clasificación de datos SVM. Luz SVMes una implementación de SVM
en C. Sus características principales incluyen un algoritmo de optimización rápido, cálculo
eficiente de estimaciones de dejar de uno y la capacidad de manejar muchos miles de
vectores de soporte y varias decenas de miles de ejemplos de entrenamiento, así como el
escaso Representación vectorial de objetos de entrada que están entrenados o
clasificados. Se aplicaron diferentes funciones del kernel en nuestros experimentos,
incluyendo la función lineal, la función polinómica y la función de base radial (RBF).
Encontramos que el RBF junto con los parámetros bien seleccionados (100 ≤ γ ≤ 120,
usualmente elegimos 110) obtuvieron mejores resultados en comparación con los otros
dos tipos de funciones del núcleo, lo que implica que nuestro problema de clasificación
fue altamente no lineal.

Mediciones del rendimiento de SVM

El rendimiento de las MVS se midió utilizando los índices: costo, ahorro de costos, tasa de
error, recuperación y precisión. El costo se define como C = FP + (2 × FN), donde FP es
el número de falsos positivos para un clasificador SVM y FN es el número de falsos
negativos. Ponderamos los falsos negativos con más fuerza que los falsos positivos
porque, en nuestros conjuntos de datos, la cantidad de ejemplos positivos es mucho
menor que la cantidad de ejemplos negativos. El ahorro de costos se define como S = C -
C ', donde C ' es el costo del procedimiento de aprendizaje nulo que clasifica todos los
ejemplos de prueba como negativos. La tasa de error, la recuperación y la precisión se
determinan así:

tasa de error = (FP + FN) / (FP + FN + TP + TN)

recall = TP / (TP + FN)

precisión = TP / (TP + FP)

donde TP y TN son el número de verdaderos positivos y verdaderos negativos,


respectivamente

Das könnte Ihnen auch gefallen