Beruflich Dokumente
Kultur Dokumente
Resumen
Archivos que operan bajo la colaboracin de la base de datos de secuencias de nucletidos
Internacional actualmente conservan todas las secuencias presentadas por igual, pero un rpido
incremento en la tasa de produccin de la secuencia global de pronto requerirn tratamiento de
secuencias de ADN presentadas para archivar diferenciado. Aqu, proponemos un sistema gradual
en el que la facilidad de reproduccin de un experimento basado en la secuenciacin y la
disponibilidad relativa de una muestra para re secuenciacin definir el nivel de compresin con
prdidas se aplica a los datos almacenados.
Fondo
La gran mayora de los organismos vivos utilizan cido nucleico como su almacn principal de la
informacin gentica. la tecnologa para secuenciar el ADN de manera rutinaria se desarroll en la
dcada de 1970, pero los avances en el tiempo ya que tienen un costo reducido y aumento de la
produccin. A medida que el coste de la secuenciacin ha cado, el nmero de especies para las
cuales la informacin gentica parcial o completa se ha derivado ha aumentado a un
correspondiente ritmo; comenzando con la primera secuencia completa de la phi X 174 virus [1]
en 1977, el primer genoma bacteriano completo, la de Haemophilus influenzae [2], en 1995 y
seguido por genomas de cientos de otros organismos, incluyendo eucariotas tales como seres
humanos. Actualmente la Internacional Base de datos de secuencias de nucletidos Colaboracin
(INSDC, http://www.insdc.org/) bases de datos tienen genomas completos a partir de 5682 los
organismos y secuencia de casi 700.000 organismos.
Los procesos enzimticos intracelulares que manipulan molculas de ADN son muy formulista:
esto ha permitido el desarrollo de tcnicas sofisticadas, flexibles, y cada vez ms baratos de
laboratorio en la que el ADN y el ARN se pueden cortar, ligan, interconvertirse y replicarse in vitro.
Junto con la disminucin del costo de la secuenciacin, el ADN se ha convertido en una lectura
conveniente para una variedad de biologa molecular ensayos. Esto comenz con el desarrollo de
tecnologas de EST y ADNc, fue seguida de alto rendimiento de la secuenciacin del genoma y
luego avanz a travs de la rutina de secuenciacin del transcriptoma a gran escala, y finalmente a
los procesos an ms intensivos, como ARN-ss, Chip-seq y DNaseI-ss . Incluso hemos sido testigos
del desarrollo de mtodos basados en la secuenciacin de ADN sin papel biolgico directo, tales
como la exploracin matemtica de un espacio combinatoric y el desarrollo de etiquetas sintticos
nicos para el seguimiento de la propiedad. Secuencias de ADN determinada para fines de
investigacin se han archivado de forma rutinaria desde 1982, cuando la Biblioteca de Datos EMBL
fue fundada. Esto fue seguido de cerca por la formacin de GenBank primero en el Departamento
de Energa de Estados Unidos y luego fue trasladado a los NIH, y en 1987 por el Banco de Datos de
ADN de Japn. Estos tres centros se unieron para formar una colaboracin tripartita, la INSDC,
archivar y facilitar el acceso a todas las secuencias de ADN generados por la investigacin
financiada con fondos pblicos [3]. Este proyecto de archivo de datos ha pasado por muchos
sin prdidas, incluso a nivel local, con ms capacidad de almacenamiento de rutina a niveles
variables bajo formatos de compresin con prdida.
En esta pieza perspectiva, se explora la utilidad de los diferentes esquemas de reduccin de datos
para un archivo de secuencia de ADN. El esquema ms extrema utiliza la prdida de datos
completa (por ejemplo, el almacenamiento de slo un resultado analtico deducida de la secuencia
de ADN), pero ms relevante para la situacin actual es la amplia gama de posibles estrategias de
compresin, que ofrecen hasta 1.000 veces mayor compresin de secuencia de ADN con las
estrategias de prdida de datos agresivos. Nos pusimos en marcha un marco en el que tomar
decisiones de prdida de datos, y explorar las consecuencias de estas decisiones.
texto principal
Marco para el archivo
Pensamiento simple y utilitaria se debe aplicar a archivar datos de secuencia de ADN. Archivado de
datos experimentales es vlida cuando el costo de archivar para un experimento dado es menor
que el costo de reproducir el experimento en algn momento en el futuro. Es importante destacar
que este equilibrio slo considera los costos de archivo y la reproduccin experimental; el costo de
la generacin de los datos a ser archivados no es un factor en esta decisin, aunque, por supuesto,
saber este costo ser de utilidad en la estimacin de la reproduccin experimental. Los costes de
archivado se pueden dividir en dos componentes. En primer lugar, est el coste de la
infraestructura de ejecutar el archivo y proporcionar acceso til en cualquier punto deseado en el
futuro. En segundo lugar, est el costo marginal de almacenamiento de los elementos de datos en
el disco. Aqu es donde las estrategias de compresin pueden ayudar a reducir el costo. Como se
ha producido una cada constante en los costos de almacenamiento de disco en las ltimas dos
dcadas, lo que significa que los costos futuros de disco por unidad de almacenamiento (es decir,
megabyte) son una pequea proporcin de los costos actuales, en la actualidad se puede calcular
el costo total en disco para una presunta "infinito "vida til de almacenamiento; este es de
alrededor de 1.3x el costo de disco en el da 1, con el 77% de este costo se site en los primeros 3
aos dadas las tasas de duplicacin de discos actuales. El costo de los datos experimentales es
ms variable, pero en lneas generales se puede imaginar tres componentes diferentes. En
primer lugar no es la adquisicin o el desarrollo de las muestras necesarias para el experimento.
En segundo lugar, es el propio experimento en trminos de reactivos y tcnico y cientfico otro
momento. Por ltimo, est el proceso de adquisicin de datos, el cual debe incluir el costo
marginal de los tcnicos y los costes de amortizacin de la mquina, as como los costos ms
obvios de reactivos. Es el ltimo costo que uno puede tener relativa confianza seguir cayendo
durante los prximos aos.
En el pasado, el costo relativamente alto de la secuenciacin (y por tanto de alto costo de la
reproduccin de un experimento) significa que, adems de archivado se justifica ms fcilmente,
los otros dos componentes del coste experimental fueron normalmente tambin
razonablemente alta. En otras palabras, rara vez se llevan a cabo experimentos de secuenciacin
de ADN caprichosa, lo que hace an ms fcil para justificar el archivo manta de secuencias de
ADN, sin discriminacin en las tasas de compresin de datos para los diferentes experimentos.
Para los raros casos en los que era tal vez inapropiada, el costo de la comprensin, la captura y
ejecucin de una poltica diferenciada en el archivo fue mayor que cualquier ganancia potencial en
eficiencia para el archivo. Es esta suposicin de que ya no se aplica, lo que lleva a una visin
diferenciada de necesidades de archivo de secuencia de ADN.
Un tercer coste, el de la difusin de datos en bruto, se revela como resultado de estos cambios
en el paisaje secuenciacin del ADN. Tradicionalmente, cuando toda secuencia de ADN
Cochrane et al. GigaScience 2012, 1: 2 Pgina 2 de 5
http://www.gigasciencejournal.com/content/1/1/2 datos fueron archivados manta, archivos
INSDC proporciona la funcin de difusin de todos los datos. Esta funcin no es trivial, ya que
requiere de curacin, la administracin del espacio de nombres de la adhesin, apoyo al usuario y
presentacin global e incluye componentes que son inherentemente difciles de sistematizar
totalmente y son, por tanto, costosos en tiempo del personal. Dado que esta funcin est implcita
en el funcionamiento de un archivo en el que los datos se ponen a disposicin de los
consumidores, no supuso ningn coste adicional visible para esta funcin. Sin embargo, a medida
que avanzamos a una estrategia de archivo diferenciada, para aquellos conjuntos de datos que se
archivan en forma altamente comprimida donde divulgacin requiere de una sola vez la entrega
de datos sin comprimir a los consumidores, un costo adicional para la difusin surgir como parte
de los costos de datos experimentales.
estos criterios, y utilizar el trmino "PA". El resto de las muestras que se llame "fsicamente nico
"y usar el trmino " PU". El primer eje es ms difcil de definir, y nuestra clasificacin propuesta se
muestra en la Tabla 1. Hemos encontrado que es til tener en cuenta las tcnicas basadas en la
imagen anlogas para cada clase para ayudar a explorar las consecuencias de archivar en este
espacio complementario. Estaramos interesados en opiniones acerca de esta clasificacin.
Podramos entonces tomar las siguientes clases, y aplicar un sugerido "factor de compresin de
datos". Definimos esta como el factor por el que hay que tratar de comprimir; por ejemplo, 2
significara doble comprimido, y 1 significara sin comprimir. La Tabla 2 muestra una propuesta de
hombre de paja de relaciones de compresin para su aplicacin en un futuro prximo. Las
relaciones de compresin aqu se proporcionan para estimular el debate sino que se refieren a los
ensayos iniciales con esquemas de compresin. Parece que con la compresin de datos de dos
veces hay poco cambio en la facilidad de uso de los datos para el anlisis, y los argumentos
tericos que este nivel de prdida de datos est dentro de la gama de error proporcionado por
mquinas de secuenciacin son fuertes. Para relaciones ms altas, de 10 veces a la compresin de
100 veces es alcanzable por un tratamiento agresivo de la informacin almacenada de la calidad
de secuencia con la secuencia de almacenamiento sin prdidas, lo que significa que los aspectos
principales del experimento en, por ejemplo, las variaciones en una secuencia de referencia
pueden ser ejecutados. Para los factores de compresin superiores a 100, es probable que uno
requiriera comportamiento con prdida en la secuencia real, es decir, de correccin de errores de
la secuencia de errores probables para proporcionar un conjunto de datos ms compresible.
Discusin
En esta pieza perspectiva pretendemos tanto para proporcionar un marco en el que pensar en el
futuro archivado secuencia de ADN y para proporcionar una primera opinin con ejemplos
concretos para fomentar el debate apropiado en la comunidad. Creemos que una amplia gama de
cientficos, organismos de financiacin y los responsables polticos deben estar interesados en
ambos temas y damos la bienvenida comentario, respuesta o incluso, tal vez, un acuerdo
prudente. Un valor reconocido de archivar datos experimentales, es la oportunidad de apoyar el
anlisis de alternativas y metanlisis (en adelante como "anlisis secundario") de los datos para
fines no previstos originalmente por el cientfico SOMETER. De hecho, este enfoque ha producido
salidas casuales tiles, incluyendo una secuencia de genoma ensamblado a partir de una especie
de Wolbachia descubiertos como contaminante secuencia de datos de secuenciacin de
Drosophila, y el llamado de los polimorfismos en el genoma del ratn de huellas archivadas Celera
[8,9]. Es una caracterstica de nuestra propuesta esquema, en el que se coloca la muestra en el
centro de la decisin sobre el nivel apropiado de compresin para un conjunto de datos derivados,
que la naturaleza del anlisis previsto del remitente de la secuencia (en adelante como el "anlisis
original ') no es un factor en la eleccin del nivel de compresin. Como tal, cualquier compresin
aplicada a un conjunto de datos limitar anlisis secundario no ms de lo que limita el anlisis
original y el coste de la regeneracin de la secuencia necesaria para un anlisis secundario se
reduce al mnimo. Teniendo en cuenta que tenemos que aceptar la necesidad de trasladarse a la
compresin con prdida de datos de archivo y las restricciones sobre la reutilizacin que esto