Sie sind auf Seite 1von 7

El futuro de la secuencia de ADN archivado

Resumen
Archivos que operan bajo la colaboracin de la base de datos de secuencias de nucletidos
Internacional actualmente conservan todas las secuencias presentadas por igual, pero un rpido
incremento en la tasa de produccin de la secuencia global de pronto requerirn tratamiento de
secuencias de ADN presentadas para archivar diferenciado. Aqu, proponemos un sistema gradual
en el que la facilidad de reproduccin de un experimento basado en la secuenciacin y la
disponibilidad relativa de una muestra para re secuenciacin definir el nivel de compresin con
prdidas se aplica a los datos almacenados.

Fondo
La gran mayora de los organismos vivos utilizan cido nucleico como su almacn principal de la
informacin gentica. la tecnologa para secuenciar el ADN de manera rutinaria se desarroll en la
dcada de 1970, pero los avances en el tiempo ya que tienen un costo reducido y aumento de la
produccin. A medida que el coste de la secuenciacin ha cado, el nmero de especies para las
cuales la informacin gentica parcial o completa se ha derivado ha aumentado a un
correspondiente ritmo; comenzando con la primera secuencia completa de la phi X 174 virus [1]
en 1977, el primer genoma bacteriano completo, la de Haemophilus influenzae [2], en 1995 y
seguido por genomas de cientos de otros organismos, incluyendo eucariotas tales como seres
humanos. Actualmente la Internacional Base de datos de secuencias de nucletidos Colaboracin
(INSDC, http://www.insdc.org/) bases de datos tienen genomas completos a partir de 5682 los
organismos y secuencia de casi 700.000 organismos.
Los procesos enzimticos intracelulares que manipulan molculas de ADN son muy formulista:
esto ha permitido el desarrollo de tcnicas sofisticadas, flexibles, y cada vez ms baratos de
laboratorio en la que el ADN y el ARN se pueden cortar, ligan, interconvertirse y replicarse in vitro.
Junto con la disminucin del costo de la secuenciacin, el ADN se ha convertido en una lectura
conveniente para una variedad de biologa molecular ensayos. Esto comenz con el desarrollo de
tecnologas de EST y ADNc, fue seguida de alto rendimiento de la secuenciacin del genoma y
luego avanz a travs de la rutina de secuenciacin del transcriptoma a gran escala, y finalmente a
los procesos an ms intensivos, como ARN-ss, Chip-seq y DNaseI-ss . Incluso hemos sido testigos
del desarrollo de mtodos basados en la secuenciacin de ADN sin papel biolgico directo, tales
como la exploracin matemtica de un espacio combinatoric y el desarrollo de etiquetas sintticos
nicos para el seguimiento de la propiedad. Secuencias de ADN determinada para fines de
investigacin se han archivado de forma rutinaria desde 1982, cuando la Biblioteca de Datos EMBL
fue fundada. Esto fue seguido de cerca por la formacin de GenBank primero en el Departamento
de Energa de Estados Unidos y luego fue trasladado a los NIH, y en 1987 por el Banco de Datos de
ADN de Japn. Estos tres centros se unieron para formar una colaboracin tripartita, la INSDC,
archivar y facilitar el acceso a todas las secuencias de ADN generados por la investigacin
financiada con fondos pblicos [3]. Este proyecto de archivo de datos ha pasado por muchos

cambios en su historia de 30 aos, en respuesta tanto a los avances en la tecnologa de


secuenciacin y de los cambios en el uso de la informacin de la secuencia de ADN. Las secuencias
de ADN archivados forman una de las rocas madre de la ciencia biolgica moderna, y son la base
de nuestra comprensin de los procesos moleculares de toda la vida. La puesta en comn de esta
informacin a nivel mundial ha sido reconocido en varias ocasiones como permite la nueva, la
ciencia no previsto, as como el suministro de datos abiertos para toda la comunidad de ciencias
de la vida para construir.
Los ms recientes avances tecnolgicos en la secuenciacin del ADN plantean nuevos retos. Estos
avances son a menudo etiquetados como secuenciacin de "prxima generacin", aunque este
trmino es probable que se vuelvan menos tiles como la tecnologa est evolucionando
continuamente. La rutina, la generacin de bajo costo de grandes volmenes de datos produce
retos en logstica y gestin de laboratorio, as como en el anlisis de datos. Adems, grandes
volmenes de datos a crear problemas en el almacenamiento de archivos, que hasta ahora han
sido mitigados por el desarrollo de los recursos archivsticos especializadas como la INSDC
secuencia de lectura del archivo [4] y desarrollos algortmicos, como la compresin [5]. Una
propiedad adicional de los avances en la tecnologa de secuenciacin es que en las actuales tasas
de cambio, los costos de secuenciacin de ADN se caen tan bajo como para llegar a ser
insignificante para algunas aplicaciones. Esto permitir una mayor variedad de experimentos
cientficos que se llevarn a cabo, sino que tambin permitir usos caprichosas o absurdas de la
secuenciacin del ADN, y va a generar una presin adicional sobre los recursos de
almacenamiento. Esto es paralelo a la evolucin reciente de la tecnologa de imagen, que tambin
tienen muy bajos costos de adquisicin de datos para una inversin tecnolgica determinada. Los
cientficos que usan tecnologas de imagen deben decidir qu imgenes, y en qu nivel de prdida
de datos en cuanto a la compresin, al archivo. Actualmente no hay ningn anlogo para
imgenes de la globalmente accesible ADN archivo secuencia, aunque hay algunos planes bien
desarrollados para crear archivos de imgenes parciales o federados [6]. Podra decirse que uno de
los aspectos que hace que la creacin de archivos de imgenes centralizadas ms complejos es
que la naturaleza abierta de la adquisicin de imgenes permite un flujo de datos potencialmente
ilimitado en un archivo tal. A medida que el costo de la secuenciacin disminuye los archivos de
secuencias de ADN mundial ya existentes tambin se enfrentan a flujos de datos potencialmente
ilimitadas. Actualmente los archivos INSDC aceptan todas las secuencias de ADN que la
presentacin de los cientficos presentes como relevantes y accesibles al pblico; a menudo esto
se debe a la necesidad de que la deposicin de mandato de las polticas de diario, pero muchas
secuencias se depositan sin publicaciones asociadas y, con frecuencia, sin ningn plan para su
publicacin directa. Una preocupacin trada por esta poltica de admisin abierta es que todas las
secuencias de ADN que son tratados de forma idntica en cuanto al mtodo de archivado y, por
tanto, incurren en costos iguales archivado. Con el desarrollo de sistemas basados en la
compresin con prdida, archivos de secuencias de ahora tienen la capacidad de hacer cambios
muy dramticos en la huella en el disco de los datos presentados en los diferentes niveles de
prdida de datos aceptable [5]. Una vez ms, la analoga con las tcnicas basadas en imgenes es
relevante, con quizs slo las imgenes ms valiosas almacenadas de una manera completamente

sin prdidas, incluso a nivel local, con ms capacidad de almacenamiento de rutina a niveles
variables bajo formatos de compresin con prdida.
En esta pieza perspectiva, se explora la utilidad de los diferentes esquemas de reduccin de datos
para un archivo de secuencia de ADN. El esquema ms extrema utiliza la prdida de datos
completa (por ejemplo, el almacenamiento de slo un resultado analtico deducida de la secuencia
de ADN), pero ms relevante para la situacin actual es la amplia gama de posibles estrategias de
compresin, que ofrecen hasta 1.000 veces mayor compresin de secuencia de ADN con las
estrategias de prdida de datos agresivos. Nos pusimos en marcha un marco en el que tomar
decisiones de prdida de datos, y explorar las consecuencias de estas decisiones.
texto principal
Marco para el archivo

Pensamiento simple y utilitaria se debe aplicar a archivar datos de secuencia de ADN. Archivado de
datos experimentales es vlida cuando el costo de archivar para un experimento dado es menor
que el costo de reproducir el experimento en algn momento en el futuro. Es importante destacar
que este equilibrio slo considera los costos de archivo y la reproduccin experimental; el costo de
la generacin de los datos a ser archivados no es un factor en esta decisin, aunque, por supuesto,
saber este costo ser de utilidad en la estimacin de la reproduccin experimental. Los costes de
archivado se pueden dividir en dos componentes. En primer lugar, est el coste de la
infraestructura de ejecutar el archivo y proporcionar acceso til en cualquier punto deseado en el
futuro. En segundo lugar, est el costo marginal de almacenamiento de los elementos de datos en
el disco. Aqu es donde las estrategias de compresin pueden ayudar a reducir el costo. Como se
ha producido una cada constante en los costos de almacenamiento de disco en las ltimas dos
dcadas, lo que significa que los costos futuros de disco por unidad de almacenamiento (es decir,
megabyte) son una pequea proporcin de los costos actuales, en la actualidad se puede calcular
el costo total en disco para una presunta "infinito "vida til de almacenamiento; este es de
alrededor de 1.3x el costo de disco en el da 1, con el 77% de este costo se site en los primeros 3
aos dadas las tasas de duplicacin de discos actuales. El costo de los datos experimentales es
ms variable, pero en lneas generales se puede imaginar tres componentes diferentes. En
primer lugar no es la adquisicin o el desarrollo de las muestras necesarias para el experimento.
En segundo lugar, es el propio experimento en trminos de reactivos y tcnico y cientfico otro
momento. Por ltimo, est el proceso de adquisicin de datos, el cual debe incluir el costo
marginal de los tcnicos y los costes de amortizacin de la mquina, as como los costos ms
obvios de reactivos. Es el ltimo costo que uno puede tener relativa confianza seguir cayendo
durante los prximos aos.
En el pasado, el costo relativamente alto de la secuenciacin (y por tanto de alto costo de la
reproduccin de un experimento) significa que, adems de archivado se justifica ms fcilmente,
los otros dos componentes del coste experimental fueron normalmente tambin

razonablemente alta. En otras palabras, rara vez se llevan a cabo experimentos de secuenciacin
de ADN caprichosa, lo que hace an ms fcil para justificar el archivo manta de secuencias de
ADN, sin discriminacin en las tasas de compresin de datos para los diferentes experimentos.
Para los raros casos en los que era tal vez inapropiada, el costo de la comprensin, la captura y
ejecucin de una poltica diferenciada en el archivo fue mayor que cualquier ganancia potencial en
eficiencia para el archivo. Es esta suposicin de que ya no se aplica, lo que lleva a una visin
diferenciada de necesidades de archivo de secuencia de ADN.
Un tercer coste, el de la difusin de datos en bruto, se revela como resultado de estos cambios
en el paisaje secuenciacin del ADN. Tradicionalmente, cuando toda secuencia de ADN
Cochrane et al. GigaScience 2012, 1: 2 Pgina 2 de 5
http://www.gigasciencejournal.com/content/1/1/2 datos fueron archivados manta, archivos
INSDC proporciona la funcin de difusin de todos los datos. Esta funcin no es trivial, ya que
requiere de curacin, la administracin del espacio de nombres de la adhesin, apoyo al usuario y
presentacin global e incluye componentes que son inherentemente difciles de sistematizar
totalmente y son, por tanto, costosos en tiempo del personal. Dado que esta funcin est implcita
en el funcionamiento de un archivo en el que los datos se ponen a disposicin de los
consumidores, no supuso ningn coste adicional visible para esta funcin. Sin embargo, a medida
que avanzamos a una estrategia de archivo diferenciada, para aquellos conjuntos de datos que se
archivan en forma altamente comprimida donde divulgacin requiere de una sola vez la entrega
de datos sin comprimir a los consumidores, un costo adicional para la difusin surgir como parte
de los costos de datos experimentales.

Clasificacin de los experimentos en trminos de costo de reemplazo

Para lograr el objetivo de una clasificacin de los experimentos en trminos de costo de


reemplazo, sera tentador utilizar enfoques monetarios. Por ejemplo, el nivel monetario de la
concesin de una subvencin de la que se ha apoyado el experimento podra ser utilizado en la
valoracin experimento reemplazo. Esto, sin embargo, extremadamente subestimar algunos
casos, en particular los que tienen tiempo aspectos especficos o longitudinales, y groseramente
sobreestimar otros, donde la secuenciacin del ADN era ms para la verificacin o era un
pequeo componente de la produccin total experimento. Los aspectos dependientes del tiempo
de reproducibilidad pueden ser particularmente importantes. Esto se aplica, por ejemplo, a
estudios de secuenciacin del medio ambiente en el que uno enfoque comn es la de mantener
registros longitudinales para un sitio de muestreo dado. Si bien se podra volver en el futuro al
lugar para volver a la muestra, uno nunca puede volver a una fecha que ya ha pasado y nunca se
puede volver a crear la oportunidad de integrar la informacin de secuencia con contempornea
datos contextuales, tales como datos climticos y ecolgicos, para el sitio. (Un ejemplo de esto es
el anlisis de los patrones de la diversidad microbiana en el Western Canal Ingls L4 sitio [7]). Hay

problemas similares en la imagen. Por ejemplo, la grabacin de imgenes de satlite de la tierra es


de rutina, pero esto no hace que el archivo de este tipo de imgenes a partir de la dcada de 1960
intil ya que son de tiempo, as como la ubicacin especfica. Cada experimento es, por supuesto
formalmente un evento de una sola vez, y por lo tanto nunca completamente reproducible, pero
hay variables en las que el investigador (y ms relevante, un investigador de futuro) es
interesado que contribuyen al anlisis y los que no son de inters y cuyo fluctuacin es tratada
por el mtodo analtico como ruido. El otro aspecto es si las molculas de ADN o alguna biblioteca
derivada hayan almacenado fsicamente y estn disponibles para la re-secuenciacin. Desde una
perspectiva, las molculas de ADN ofrecen un mecanismo de almacenamiento compacto para
informacin de la secuencia y, a menudo, las muestras de ADN almacenadas contienen regiones
importantes que an no se han secuenciado. Sin embargo, es importante darse cuenta de que
durante la secuenciacin de la molcula de ADN se consume fsicamente y en ltima instancia,
se gastar. Aunque existen mtodos para la replicacin de la molcula (tal como la
amplificacin, la clonacin, la resntesis, etc.), que proporcionan tpicamente repeticiones
imperfectas, son costosos, y no son apropiados para todos los tipos de muestras de ADN y
diseos experimentales. El concepto de almacenamiento fsico de molculas de ADN como un
formato de archivo apropiado parece ms relevante para el investigador original como una
solucin para la gestin de proyectos de secuenciacin locales en lugar de como una estrategia
global de archivado.
Esto es en parte debido a que el intercambio de datos de envo de las molculas de ADN para
resecuenciacin en otro lugar es caro y, crticamente, tiene aumento de los costos (en lnea con el
combustible para el transporte costos) en comparacin con los costos de la cada de
almacenamiento de datos y la transmisin. Adems, esto se debe a que el mundo carece de una
infraestructura fsica, jurdica y econmica viable para globalmente coordinado de
almacenamiento e intercambio de muestras de ADN, en comparacin con la sofisticada
infraestructura de intercambio de datos ya que ofrece la Internet. Teniendo en cuenta estos dos
componentes se propone una clasificacin 2 ejes de experimentos, con los ejes:
1. El costo de reemplazo del experimento de una manera apropiada para obtener informacin
cientfica equivalente
2. La presencia de un gran exceso de ADN en un archivo fsico robusto.
Estos dos ejes seran entonces formar una cuadrcula, "la pena de archivo", en la que se podran
hacer las decisiones de compresin de datos. El segundo eje es ms fcil de definir
conceptualmente, aunque los trminos "gran exceso" y "archivo robusto", sin duda, necesitan
discusin. El segundo eje podra, por ejemplo, se define como la presencia de "ms de 10 mg de
ADN en forma accesible en un sistema de archivo que espera para almacenar y garantizar la
recuperacin de rutina durante al menos 10 aos" o "la fcil disponibilidad y la rutina para al
menos 10 aos de un recurso precursor (tal como una muestra o un cultivo) desde la que mayor
que 10 mg de ADN se pueden extraer de forma rutinaria y simplemente. Para la siguiente
discusin vamos a decir que una muestra es "archivada / archivable fsicamente" si se cumplen

estos criterios, y utilizar el trmino "PA". El resto de las muestras que se llame "fsicamente nico
"y usar el trmino " PU". El primer eje es ms difcil de definir, y nuestra clasificacin propuesta se
muestra en la Tabla 1. Hemos encontrado que es til tener en cuenta las tcnicas basadas en la
imagen anlogas para cada clase para ayudar a explorar las consecuencias de archivar en este
espacio complementario. Estaramos interesados en opiniones acerca de esta clasificacin.
Podramos entonces tomar las siguientes clases, y aplicar un sugerido "factor de compresin de
datos". Definimos esta como el factor por el que hay que tratar de comprimir; por ejemplo, 2
significara doble comprimido, y 1 significara sin comprimir. La Tabla 2 muestra una propuesta de
hombre de paja de relaciones de compresin para su aplicacin en un futuro prximo. Las
relaciones de compresin aqu se proporcionan para estimular el debate sino que se refieren a los
ensayos iniciales con esquemas de compresin. Parece que con la compresin de datos de dos
veces hay poco cambio en la facilidad de uso de los datos para el anlisis, y los argumentos
tericos que este nivel de prdida de datos est dentro de la gama de error proporcionado por
mquinas de secuenciacin son fuertes. Para relaciones ms altas, de 10 veces a la compresin de
100 veces es alcanzable por un tratamiento agresivo de la informacin almacenada de la calidad
de secuencia con la secuencia de almacenamiento sin prdidas, lo que significa que los aspectos
principales del experimento en, por ejemplo, las variaciones en una secuencia de referencia
pueden ser ejecutados. Para los factores de compresin superiores a 100, es probable que uno
requiriera comportamiento con prdida en la secuencia real, es decir, de correccin de errores de
la secuencia de errores probables para proporcionar un conjunto de datos ms compresible.

Discusin
En esta pieza perspectiva pretendemos tanto para proporcionar un marco en el que pensar en el
futuro archivado secuencia de ADN y para proporcionar una primera opinin con ejemplos
concretos para fomentar el debate apropiado en la comunidad. Creemos que una amplia gama de
cientficos, organismos de financiacin y los responsables polticos deben estar interesados en
ambos temas y damos la bienvenida comentario, respuesta o incluso, tal vez, un acuerdo
prudente. Un valor reconocido de archivar datos experimentales, es la oportunidad de apoyar el
anlisis de alternativas y metanlisis (en adelante como "anlisis secundario") de los datos para
fines no previstos originalmente por el cientfico SOMETER. De hecho, este enfoque ha producido
salidas casuales tiles, incluyendo una secuencia de genoma ensamblado a partir de una especie
de Wolbachia descubiertos como contaminante secuencia de datos de secuenciacin de
Drosophila, y el llamado de los polimorfismos en el genoma del ratn de huellas archivadas Celera
[8,9]. Es una caracterstica de nuestra propuesta esquema, en el que se coloca la muestra en el
centro de la decisin sobre el nivel apropiado de compresin para un conjunto de datos derivados,
que la naturaleza del anlisis previsto del remitente de la secuencia (en adelante como el "anlisis
original ') no es un factor en la eleccin del nivel de compresin. Como tal, cualquier compresin
aplicada a un conjunto de datos limitar anlisis secundario no ms de lo que limita el anlisis
original y el coste de la regeneracin de la secuencia necesaria para un anlisis secundario se
reduce al mnimo. Teniendo en cuenta que tenemos que aceptar la necesidad de trasladarse a la
compresin con prdida de datos de archivo y las restricciones sobre la reutilizacin que esto

necesariamente trae, el descubrimiento de las propiedades emergentes de los conjuntos de


datos, y de los conjuntos de datos en nuevas combinaciones existentes existentes, seguir
siendo viable.
Al tener en cuenta los costos de ADN archivado secuencia como tener al menos algn
componente variable que puede proporcionar una visin matizada de archivo, y por lo tanto
siendo compatible con los dos "sentido comn" posiciones de "uno no debe tirar nico,
insustituible de datos" y "no hay que archivar los experimentos de verificacin que slo
confirmar algn hallazgo en un papel". En los extremos esto ya est ocurriendo en que para las
muestras ms preciosas que hay tendencia a almacenar datos muy crudos (por ejemplo, la Solexa
imgenes para muestras de ADN antiguo) y no hay la expectativa por los autores o revisores de
manuscritos a, por ejemplo, presentar la secuencia de "verificacin de la secuencia" en Los
vectores de clonacin. Sin embargo, este marco y la propuesta abarca estas dos posiciones
extremas, y proporciona una base para los diferentes comportamientos de archivado en estos
extremos opuestos del espectro.
Nos cuenta que el campo de la imagen biolgica no tiene un sistema de archivo centralizado
anlogos a los de las secuencias de ADN. Probablemente hay muchas razones por qu este es el
caso, pero es probable que el costo marginal de la adquisicin de datos siempre fue lo
suficientemente bajo como para tomar la decisin de archivar menos obvio para muchos
elementos de datos. Esto hizo que el panorama general mucho ms complejo para los archivos de
imagen. Vale la pena sealar que la federacin del archivo no cambia el anlisis de costo-beneficio
especfico de archivar un experimento particular, pero en lugar quizs ms fcilmente conecta el
cientfico de origen para el costo de archivado. La desventaja de la federacin es que es difcil de
garantizar el acceso, en particular por lo que los individuos se mueven entre las instituciones, y no
hay duplicacin de los costos de infraestructura. La dicotoma federado / centralizar tanto, es
independiente de este debate, y se ha comentado en otros contextos [10]. A pesar de estas
diferencias, la adquisicin de datos de ADN se parece cada vez ms que de datos de imagen, y ya
ha habido transferencia til de ideas (tales como, por ejemplo, en los estndares de compresin
y su aplicacin como metadatos especfico) en ambas direcciones que debe profundizar en el
futuro.

Das könnte Ihnen auch gefallen