Sie sind auf Seite 1von 15

CONTROL DE CALIDAD1 DE DATOS DE ULTRASECUENCIACIN.

Tabla de contenidos
INTRODUCCIN.....................................................................................................................................1
Nota sobre los programas utilizados.....................................................................................................1
Datos para la prctica............................................................................................................................2
Obtencin de los datos en el entorno calendula................................................................................3
Hojeando los archivos con linux.......................................................................................................3
Cuestiones.........................................................................................................................................4
CONTROL DE CALIDAD CON FastQC.................................................................................................4
Uso interactivo de FastQC....................................................................................................................4
Uso de FastQC en batch (desde linea de comados o scripts de bash)...................................................6
Uso de FastQC en el entorno calendula............................................................................................6
Cuestiones.............................................................................................................................................7
FILTRADO DE LOS DATOS con FASTX-TOOLKIT.............................................................................7
Uso de FASTX desde la linea de comandos..........................................................................................9
Algunos acciones habituales.............................................................................................................9
MANEJO DE DATOS Y CONTROL DE CALIDAD CON Galaxy.......................................................10
Brevsima introduccin a Galaxy........................................................................................................10
Obtencin de datos a travs de Galaxy...............................................................................................10
Cargar datos personalizados...........................................................................................................10
Control de Calidad de datos de NGS...................................................................................................11
Apendice 1: Ejemplo de resultados..........................................................................................................12

INTRODUCCIN
Los estudios de ultrasecuenciacin suelen generar cantidades masivas de datos.
La primera parte del anlisis suele ser convertir las imgenes generadas por las mquinas en secuencias
a partir de las cuales se realizan los anlisis bioinformticos.
En esta prctica pretendemos dos objetivos
1. Conocer como son y como explorar los archivos de datos de NGS y
2. Aprender como realizar un primer control de calidad que garantice que los datos en que se
basen estudios posteriores no contienen errores obvios.

Nota sobre los programas utilizados


1

Los ejercicios que aqu se presentan se basan en los tutoriales desarrollados por Javier Santoyo-Lpez para los cursos de
Anlisis de datos masivos impartidos por el equipo de Centro de Investigacin Prncipe Felipe, de Valencia.
Mi agradecimiento a l y a sus compaeros por su excelente labor y por permitirme el uso de sus materiales.

Como es sabido en bioinformtica como en otras disciplinas como la estadstica disponemos de


mltiples herramientas para realizar un proceso dado.
Dichas herramientas pueden agruparse de muchas formas pero resulta cmodo diferenciar entre
Software libre y programas comerciales.
Programas de linea de comandos o con interfaz grfica.
Herramientas orientadas a una aplicacin (p.ej. Alineamiento) o plataformas integradas.
Pueden encontrarse diversas listas con enumeracin y enlaces de programas disponibles por ejemplo en
http://www.animalgenome.org/bioinfo/resources/nextgensoft.html
o en la web de SEQanswers.com: http://seqanswers.com/wiki/Software/list, esta ltima con la
posibilidad de ordenar los datos segn mltiples criterios.
Esta prctica tiene dos mdulos que se llevarn a cabo segn la disponibilidad de tiempo.
El primero utiliza el shell de linux y los programas de libre distribucin FastQC y FASTXtoolkit que pueden obtenerse de sus pginas web:
FastQC: http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/
FASTX-TOOLKIT: http://hannonlab.cshl.edu/fastx_toolkit/
El segundo explora el uso de Galaxy, accesible en http://main.g2.bx.psu.edu/ una plataforma
integrada, libre, que puede utilizarse a travs de la web o instalarse en un servidor propio.
Incorpora multitud de herramientas y lo que es ms importante se le pueden aadir nuestros
propios workflows.
En la web de cada programa se encuentran instrucciones para su uso e instalacin por lo que
supondremos que esto ya se ha llevado a cabo y estamos en un entorno con el software en
funcionamiento.

Datos para la prctica


Pueden obtenerse datos de ultrasecuenciacin de mltiples fuentes:
Sequence Read Archive (SRA): Repositorio pblico similar a GEO
http://www.ncbi.nlm.nih.gov/sra/
CLC Bio examples: Datos de tres tipos para realizar prcticas con CLC
http://www.clcbio.com/index.php?id=1290
En esta prctica trabajaremos con datos que descargaremos de un servidor propio en la
direccin:
http://www.ub.edu/docencia/bioinformatica/ngs/qcdata.tar.gz2
Los datos pueden descargarse3 desde una consola de trabajo con la siguiente instruccin:
2
3

NOTA: En las pginas siguientes se muestran una serie de instrucciones para llevar a cabo las tareas
que se estan describiendo. Para ello supondremos que se est trabajando en un entorno linux, en el que
2

wgethttp://www.ub.edu/docencia/bioinformatica/ngs/qcdata.tar.gz
La instruccin
tarxvfqc_exercise.tar.gz
los descomprimir a un directorio desde donde podremos analizarlos.

Obtencin de los datos en el entorno calendula


La sesin de trabajo en calendula se encuentra detrs de un proxy por lo que el comando wget no
funcionar. Para simplificar la prctica los datos estan copiados en el directorio COMUNES por lo que
podeis copiarlos desde vuestros directorios con la instruccin
cp/home/formacion/COMUNES/*fastq.
(atencin al . del final, que indica que los copieis a vuestro directorio actual).
Podis ver que archivo habeis copiado con la instruccin :
ls*fastq
que mostrar los archivos que acabais de copiar y que acaben en 'fastq'.
bacteria.fastqexoma.fastqmirnas.fastq.

Hojeando los archivos con linux


Linux est muy orientado al manejo de archivos por lo que podemos usar diversas instrucciones para
hojear los archivos e incluso extraer informacin de ellos.
Por ejemplo con el archivo bacteria.fastq podemos averiguar facilmente
Que tamao tiene
lslhbacteria.fastq
Cuantas lineas tiene
wclbacteria.fastq
Que aspecto tienen las primeras 15 lneas
head15
Cuantas lineas contienen la cadena @F25TWTU01B
grepP^@F25TWTU01Bbacteria.fastq|wcl
se han instalado con xito las herramientas necesarias, y en donde hemos abierto una terminal que nos
da acceso a dichos programas
3

Cuestiones
1. Como podramos saber cuantas secuencias distintas contiene el archivo?
2. Examina alguno de los archivos descargados utilizando instrucciones como las anteriores. Son
todos del mismo tipo?

CONTROL DE CALIDAD CON FastQC


Antes de proceder al anlisis de los datos obtenidas del secuenciador es conveniente asegurarse de que
estos datos son correctos y, si es preciso, eliminar los datos defectuosos.
El programa FastQC es una herramienta libre que puede obtenerse del sitio web de Babraham
Bioinformatics (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) y que permite llevar a cabo una
senzilla exploracin de los datos. Puede utilizarse interactivamente o bien se le pueden enviar trabajos a
travs de un script que los ejecutar directamente o los colocar en una cola de servicio segn el
sistema desde donde se utilice.

Uso interactivo de FastQC


Veremos primero como trabajar con FastQC de forma interactiva.
Paso 1: Cargar el programa
fastqc
Paso 2: Cargar los datos a analizar
File --> Open
load
escoger el archivo
bacteria.fastq
Tras seleccionarlo y pulsar enter el programa cargar y analizar las secuencias.
Los resultados aparecen en una ventana como la siguiente:

La parte derecha de la ventana contiene una breve descripcin de las secuencias que hemos cargado y
la parte izquierda da acceso a los distintos apartados del informe marcados con uno de tres posibles
iconos:

Como se intuye el primero sugiere que el punto a que hace referencia el icono no presenta problemas
de calidad, el segundo sugiere que puede haberlos y el tercero que muy probablemente los haya.
Desde esta pantalla se puede acceder a cada apartado individualmente.

Uso de FastQC en batch (desde linea de comados o scripts de bash)


Para usar el programa de forma no interactiva debemos utilizar el script creado en la instalacin
(fastqc)
Cambiando su modo a ejecutable (linux)
Invocndolo con al menos un nombre de archivo de secuencias.
Si no se da al menos un nombre de archivo el programa intenta llamar a la versin interactiva lo que
puede provocar error si la invocacin se ha hecho desde dentro de un script.
Pueden verse el resto de las opciones para ejecucin no interactiva escribiendo fastqchelp.
Dos especialmente interesantes son las siguientes:
Formato del informe
Bydefault,innoninteractivemodeFastQCwillcreatebothazippedcopy
oftheQCreport,andalsoextractthistocreateafolderwhich
containsthereportfilesreadytobeviewed.Ifyouonlywantto
createthezippedfilethenyoucanadd
noextract
Tothelaunchcommandtosuppresstheunzipping.

Directorio de salida de resultados


Ifyouwanttosaveyourreportsinafolderotherthanthefolderwhich
containedyouroriginalFastQfilesthenyoucanspecifyanalternative
locationbysettinga
outdirvalue:
outdir=/some/other/dir/

Uso de FastQC en el entorno calendula


Podemos trabajar con FastQC en calendula en la misma forma (batch) que acabamos de describir.
El problema si esto se hace en un curso es que se enviar mltiples veces la misma llamada contra un
nico front-end.
Aprovechando que disponemos de una estructura distribuida podemos usar un gestor de colas SGE y
asignar un servidor a cada usuario lo que evitar la sobrecarga.
Para ello tras acceder a calendula, empezaremos invocando el gestor de colas .
qshqcurso
Pasados unos segundos se abrir una nueva terminal que indica que vamos a trabajar cada uno con un
nod distinto que el gestor de colas asignar de forma automtica.
Sobre esta terminal podemos trabajar como indicbamos ms arriba.
En el caso de calendula falta an un paso debido a lo que se comenta a continuacin:
La versin de java que est en los nodos del clster es la 1.4 que es antigua. La versin 1.6 (necesaria
para FastQC) est instalada en un recurso llamado /softque es donde est instalado todo el
6

software (incluido el FastQC) y que es accesible a todos los usuarios y por todos los nodos del
clster.
Para que funcione, hay que declarar unas variables de entorno, que estn incluidas en el archivo
FastQC.sh. Hay que ejecutar desde la lnea de comandos la siguiente instruccin:
sourceFastQC.sh

Esto crea unas variables de entorno que permiten al programa localizar y utilizar la versin 1.6 de Java.
Para acabar se puede invocar el programa de la forma habitual, es decir, sabiendo que se encuentra en
el directorio /soft/FastQC/0.10 si queremos analizar el archivo mirnas.fastq haremos:
/soft/FastQC/0.10.0/fastqcmirnas.fastq

Cuestiones
Antes de proceder a revisar el informe obtenido con los datos del archivo bacteria.fastq es conveniente
leer la ayuda para la interpretacin de los resultados
(http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/)
Tambin podis consultar los ejemplos de salida para unos datos buenos y unos malos
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/good_sequence_short_fastqc/fastqc_report.html
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/bad_sequence_fastqc/fastqc_report.html
Una vez revisado lo anterior responder las cuestiones siguientes:
1. Como es en general la calidad de las secuencias?
2. Que aspecto tiene la calidad por posiciones de las secuencias (per base sequence quality)?
3. Que codificacin de calidad (quality encoding) presentan estas secuencias?
4. Se observa algn problema en la distribucin de longitudes de las secuencias?
5. Que nivel de duplicacin de secuencias aparece?
6. Aparecen secuencias sobrerrepresentadas?

FILTRADO DE LOS DATOS con FASTX-TOOLKIT


Una vez revisados los distintos informes de control de calidad puede procederse a eliminar las
secuencias defectuosas.
Qu es exactamente una secuencia defectuosa y que criterios debemos seguir para eliminarlas es algo
que depender de muchos factores, desde el conocimiento del diseo experimental y la fuente de datos
al del tipo de estudio a realizar posteriormente. En general la mejor gua ser la experiencia.

FASTX-Toolkit es una coleccin de herramientas para el preprocesado de archivos de secuencia en


formato FASTA o FASTQ. A continuacin se muestra la lista de capacidades de estas herramientas tal
como se presentan en su pgina web.

FASTQ-to-FASTA converter
Convert FASTQ files to FASTA files.
FASTQ Information
Chart Quality Statistics and Nucleotide Distribution
FASTQ/A Collapser
Collapsing identical sequences in a FASTQ/A file into a single sequence (while maintaining
reads counts)
FASTQ/A Trimmer
Shortening reads in a FASTQ or FASTQ files (removing barcodes or noise).
FASTQ/A Renamer
Renames the sequence identifiers in FASTQ/A file.
FASTQ/A Clipper
Removing sequencing adapters / linkers
FASTQ/A Reverse-Complement
Producing the Reverse-complement of each sequence in a FASTQ/FASTA file.
FASTQ/A Barcode splitter
Splitting a FASTQ/FASTA files containning multiple samples
FASTA Formatter
changes the width of sequences line in a FASTA file
FASTA Nucleotide Changer
Convets FASTA sequences from/to RNA/DNA
FASTQ Quality Filter
Filters sequences based on quality
FASTQ Quality Trimmer
Trims (cuts) sequences based on quality
FASTQ Masker
Masks nucleotides with 'N' (or other character) based on quality

Como puede verse algunas funciones sirven para manipular o reformatear secuencias mientras que
otras estn claramente orientadas a modificar las secuencias eliminando posibles fuentes de error.
Estas herramientas pueden usarse de dos formas
1. Desde lnea de comandos ejecutando el programa directamente o como parte de un script.
2. A travs de una plataforma integrada como Galaxy (una versin de prueba se encuentra
disponible en: http://test.g2.bx.psu.edu/

Uso de FASTX desde la linea de comandos


Para conocer las opciones de uso de cualquiera de las herramientas desde la linea de comandos
podemos escribir su nombre seguido de -h. Por ejemplo
fastx_quality_statsh
La ayuda del programa proporciona informacin de todas herramientas y opciones y est disponible en
el enlace siguiente:
http://hannonlab.cshl.edu/fastx_toolkit/commandline.html

Algunos acciones habituales


En este ejercicio se muestra como realizar algunos procesos tpicos de preprocesado de datos de
secuencias:
1. En primer lugar se eliminarn las secuencias de menos de 50 nucletidos
2. A continuacin se recortaran los primeros 10 nucletidos fijando el tamao mximo a 500 nt y
refiltrando la longitud mnima de 50 (por si al recortar los primeros 10 alguno queda de este
tamao).
3. Finalmente se eliminaran los reads cuya calidad en el 80% de los nucletidos no supere un
valor phred de 20.
Las instrucciones siguientes permiten llevar a cabo las acciones descritas en el prrafo anterior
partiendo del archivo bacteria.fastq para acabar en un archivo depurado cuya calidad, en principio
debe ser mejor que la del archivo inicial.
Pueden ejecutarse paso a paso o incluirse en un script de bash que las ejecute de una vez4 .
NOTA: El texto que se muestra a continuacin contiene las instrucciones en dos lineas por cuestiones
de espacio, pero deben de escribirse en una nica lnea.
fastx_clipperibacteria.fastqobacteria_m50.fastql50Q33v
fastx_trimmeribacteria_m50.fastqobacteria_m50_trim10500.fastq
f11l500m50Q33v
fastq_quality_filteribacteria_m50_trim10500.fastqo
bacteria_m50_trim10500_Qual20.fastqq20p80Q33v
Una vez realizado el filtrado se pueden inspeccionar los resultados reejecutando el control de calidad
con fastqc sobre el archivo bacteria_m50_trim10500_Qual20.fastq.
4

La invocacin a todos los comandos aade el sufijo -Q 33 para evitar un error debido a las secuencias con valores de
calidad demasiado bajos. De no ponerse aparece el mensaje
Invalidqualityscorevalue(char'0'ord48qualityvalue16)online4

MANEJO DE DATOS Y CONTROL DE CALIDAD CON Galaxy


Los programas anteriores son dos ejemplos de herramientas que se utilizan o pueden ser utilizadas
desde la linea de comandos, con las ventajas (p.ej scripting) e inconvenientes (menos amistoso) que
ello conlleva.
Una alternativa a la linea de comandos son las interfaces grficas de las que la plataforma Galaxy es un
ejemplo perfecto. Puede accederse a la pgina prncipal a traves de la direccin:
http://main.g2.bx.psu.edu/

Brevsima introduccin a Galaxy


Galaxy es un entorno (framework) para lel anlisis de datos de ultrasecuenciacin que tiene dos
caractersticas que lo hacen muy atractivo:

Incorpora de entrada una serie de herramientas para el manejo y anlisis de datos de secuencias
que permiten llevar a cabo de forma intuitiva los procesos habituales en el anlisis de
secuencias.

Es extensible: permite incorporar casi cualquier herramienta que se pueda ejecutar desde la
lnea de comandos en una interfaz grfica slida y bien definida. Este es el caso de fastx-toolkit
que tambien puede utilizarse desde Galaxy.

La interfaz web de Galaxy web es muy sencilla y consta de tres secciones.

La columna de la izquierda contiene enlaces a las herramientas de descarga, manejo y


preprocesado y anlisis de secuencias.

La columna central es donde aparecen los mens y los datos a medida que se realizan acciones
y procesos.

La columna de la derecha muestra un histrico de cada anlisis realizado permitiendo acceder a


datos y resultados de cada paso (navegar arriba y abajo de las opciones).

Obtencin de datos a travs de Galaxy


El investigador que desee usar Galaxy puede obtener datos de diversas fuentes, incluyendo el
Explorador de tablas de UCSC, BioMart, WormBase, y muchos otros recursos y
bases de datos.
Y lo que es ms importante: uno puede cargar sus propios conjuntos de datos personalizndolos tanto
como crea necesario..

Cargar datos personalizados


Hay dos formas de subir los datos propios para trabajar con ellos en Galaxy.

Para pequeos ficheros de datos, se puede especificar un directorio local y cargarlos


directamente (upload.

Para datos de NGS y otros archivos de gran tamao (> ~ 2GB) la carga a travs de HTTP / FTP
es el mtodo ms fiable.
10

Control de Calidad de datos de NGS


El formato FASTQ viene en un nmero de variantes. Por lo tanto, convertirlo en un formato uniforme
para el control de calidad puede causar muchos problemas. Galaxy contiene un conjunto de
herramientas que es capaz de manejar todas las variantes conocidas de FASTQ y est concebida
para facilitar los primeros pasos tras la adquisicin de datos. Estos pasos suelen incluir :
1. Explotacin de las secuencias tal como se obtienen del secuenciador
2. Clculo y visualizacin de estadsticos de resumen.
3. Recortes de las secuencias cuando sea necesario para mejorar su calidad.
4. Filtrado en base a valores de calidad de calidad y otros criterios.
Cada una de estas acciones puede hacerse desde uno o ms menus de Galaxy y amenudo con ms de
una herramienta.
Los pasos siguientes describen como llevar a cabo un control de calidad bsico de datos de secuencias.
Con el fin de facilitar su realizacin no se subiran nuestros datos sino que utilizaremos datos existentes
en el servidor.
1. Descarga de datos compartidos desde el sitio de Galaxy datos publicados.
Ir a Shared Data (en la parte central de la barra de menu superior)
Escoger:
Data Library -> Sample NGS Datasets-> human illumina dataset
Pulsando 'Go' se importaran los datos a nuestra historia actual.

Para finalizar volver a Analyze data.

2. Convertir archivos Fastq a las secuencias de Sanger

Seleccione:

De aqu FASTQ Groomer

NGS: QC and manipulation

3. FASTQ estadsticas de resumen


Para entender las propiedades de calidad de las lecturas, se puede ejecutar el Resumen
estadstico de los datos de FASTQ
4. Diagramas de caja

Una representacin grfica de estos datos facilita la evaluacin de la calidad. Dicha


representacin puede hacerse fcilmente con la herramienta
Grfico / visualizacin de datos - Diagrama de caja> .

5. Otras opciones
Investigar libremente que otras opciones existen para mejorar las secuencias iterando el
proceso de mejora/anlisis hasta obtener un conjunto de datos satisfactorio.

11

Apendice 1: Ejemplo de resultados


A continuacin se muestran los resultados obtenidos al invocar el programa con el archivo
bacteria.fastq

12

13

14

15

Das könnte Ihnen auch gefallen