Beruflich Dokumente
Kultur Dokumente
ABSTRACT
INTRODUCCIÓN
En este trabajo, hemos investigado la capacidad de las SVM para discriminar los genes
que codifican proteínas ribosomales (genes rp) de todos los otros genes de función
conocida en función de su composición de codones en Escherichia coli , Mycobacterium
tuberculosis y S.cerevisiae. La composición de codón es intrínsecamente la fusión de las
señales de uso de codones y de composición de aminoácidos. Es bien sabido que existe
una alta correlación entre el sesgo del codón y los niveles de expresión génica, que a su
vez está relacionado con la función y / o similitud en la regulación. La composición de
aminoácidos está relacionada con las propiedades fisicoquímicas de la proteína y, por lo
tanto, tal vez en última instancia, con su función. Aquí demostramos que los genes rp
exhiben patrones de composición de codones conservados marcadamente diferentes de
otros genes en E. coli , M. tuberculosis y S. cerevisiae. También demostramos que un
análisis cuidadoso de la clasificación por parte de los SVM puede proporcionar
información valiosa sobre las características específicas que confieren individualidad a
este conjunto de genes. Finalmente, de acuerdo con nuestros resultados, proponemos
que la composición del codón es un atributo potencialmente eficaz que puede usarse en
combinación con otros atributos en la clasificación de genes / proteínas mediante
algoritmos de aprendizaje automático supervisados.
MATERIALES Y MÉTODOS
Datos de secuencia
Cada secuencia de gen que codifica la proteína (excluyendo los codones de inicio y
parada) se representó mediante un vector de 61 dimensiones con respecto a los 61
codones de sentido,
donde, c k es el vector que representa el gen que codifica la proteína k th (de un total de
genes K ) y n i es el número de codones sinónimos ( j representa el j codón sinónimo) del i
ésimo aminoácido (del posible 20). En nuestro estudio, K = 4289 para E. coli , 4187 para
M. tuberculosis y 6312 para S. cerevisiae (ver arriba). Con base en el conjunto de datos
de vectores de codones con sentido 61-dimensional, la composición del codón de cada
gen se calculó como la frecuencia de cada codón del gen. Codon bias (de kgen th),
medido por su uso de codones sinónimos relativos (RSCU; 9 ), se calculó así:
Un archivo externo que contiene una imagen, ilustración, etc. El nombre del objeto es
gkf344eq1.gif
Los genes de la proteína ribosomal se extrajeron de los 4289 genes de E. coli y los 4187
genes de M. tuberculosis mediante una búsqueda por palabra clave en el campo de
anotación del CDS en la tabla de características de las secuencias completas del
genoma. En E. coli , los 55 genes de la AD obtenidos (Tabla (Tabla 1) 1 ) se tomaron
como ejemplos de entrenamiento positivos para los SVMs. Sentimos que 55 genes eran
muy pocos para dividirlos en conjuntos de datos de entrenamiento y prueba, por lo que
usamos este mismo conjunto para entrenamiento y pruebas en E.coli. El resto de los
genes se dividieron en dos grupos. Un grupo consistió en 1432 genes de función
desconocida cuyos productos se anotaron como 'hipotéticos', 'no clasificados', 'putativos' o
'similares a ...'. El otro grupo comprendía 2802 genes cuyas funciones son bien
conocidas. Este grupo se subdividió adicionalmente aleatoriamente en dos grupos que se
usaron como el conjunto de datos de entrenamiento negativo (1408 genes) y el conjunto
de datos de prueba negativo (1394 genes), respectivamente. Del mismo modo, en M.
tuberculosis , los 56 genes anotados como RP genes (Tabla (Tabla 1) 1) se utilizaron
como los conjuntos de datos de entrenamiento y prueba positivos. De los genes que
codifican proteínas restantes, los 2146 con función conocida se dividieron al azar e
igualmente en los conjuntos de datos negativos de entrenamiento y prueba. El modelo
entrenado también se aplicó en el conjunto de 1905 genes de función desconocida.
El rendimiento de las MVS se midió utilizando los índices: costo, ahorro de costos, tasa de
error, recuperación y precisión. El costo se define como C = FP + (2 × FN), donde FP es
el número de falsos positivos para un clasificador SVM y FN es el número de falsos
negativos. Ponderamos los falsos negativos con más fuerza que los falsos positivos
porque, en nuestros conjuntos de datos, la cantidad de ejemplos positivos es mucho
menor que la cantidad de ejemplos negativos. El ahorro de costos se define como S = C -
C ', donde C ' es el costo del procedimiento de aprendizaje nulo que clasifica todos los
ejemplos de prueba como negativos. La tasa de error, la recuperación y la precisión se
determinan así: