Beruflich Dokumente
Kultur Dokumente
Tabla de contenidos
INTRODUCCIN.....................................................................................................................................1
Nota sobre los programas utilizados.....................................................................................................1
Datos para la prctica............................................................................................................................2
Obtencin de los datos en el entorno calendula................................................................................3
Hojeando los archivos con linux.......................................................................................................3
Cuestiones.........................................................................................................................................4
CONTROL DE CALIDAD CON FastQC.................................................................................................4
Uso interactivo de FastQC....................................................................................................................4
Uso de FastQC en batch (desde linea de comados o scripts de bash)...................................................6
Uso de FastQC en el entorno calendula............................................................................................6
Cuestiones.............................................................................................................................................7
FILTRADO DE LOS DATOS con FASTX-TOOLKIT.............................................................................7
Uso de FASTX desde la linea de comandos..........................................................................................9
Algunos acciones habituales.............................................................................................................9
MANEJO DE DATOS Y CONTROL DE CALIDAD CON Galaxy.......................................................10
Brevsima introduccin a Galaxy........................................................................................................10
Obtencin de datos a travs de Galaxy...............................................................................................10
Cargar datos personalizados...........................................................................................................10
Control de Calidad de datos de NGS...................................................................................................11
Apendice 1: Ejemplo de resultados..........................................................................................................12
INTRODUCCIN
Los estudios de ultrasecuenciacin suelen generar cantidades masivas de datos.
La primera parte del anlisis suele ser convertir las imgenes generadas por las mquinas en secuencias
a partir de las cuales se realizan los anlisis bioinformticos.
En esta prctica pretendemos dos objetivos
1. Conocer como son y como explorar los archivos de datos de NGS y
2. Aprender como realizar un primer control de calidad que garantice que los datos en que se
basen estudios posteriores no contienen errores obvios.
Los ejercicios que aqu se presentan se basan en los tutoriales desarrollados por Javier Santoyo-Lpez para los cursos de
Anlisis de datos masivos impartidos por el equipo de Centro de Investigacin Prncipe Felipe, de Valencia.
Mi agradecimiento a l y a sus compaeros por su excelente labor y por permitirme el uso de sus materiales.
NOTA: En las pginas siguientes se muestran una serie de instrucciones para llevar a cabo las tareas
que se estan describiendo. Para ello supondremos que se est trabajando en un entorno linux, en el que
2
wgethttp://www.ub.edu/docencia/bioinformatica/ngs/qcdata.tar.gz
La instruccin
tarxvfqc_exercise.tar.gz
los descomprimir a un directorio desde donde podremos analizarlos.
Cuestiones
1. Como podramos saber cuantas secuencias distintas contiene el archivo?
2. Examina alguno de los archivos descargados utilizando instrucciones como las anteriores. Son
todos del mismo tipo?
La parte derecha de la ventana contiene una breve descripcin de las secuencias que hemos cargado y
la parte izquierda da acceso a los distintos apartados del informe marcados con uno de tres posibles
iconos:
Como se intuye el primero sugiere que el punto a que hace referencia el icono no presenta problemas
de calidad, el segundo sugiere que puede haberlos y el tercero que muy probablemente los haya.
Desde esta pantalla se puede acceder a cada apartado individualmente.
software (incluido el FastQC) y que es accesible a todos los usuarios y por todos los nodos del
clster.
Para que funcione, hay que declarar unas variables de entorno, que estn incluidas en el archivo
FastQC.sh. Hay que ejecutar desde la lnea de comandos la siguiente instruccin:
sourceFastQC.sh
Esto crea unas variables de entorno que permiten al programa localizar y utilizar la versin 1.6 de Java.
Para acabar se puede invocar el programa de la forma habitual, es decir, sabiendo que se encuentra en
el directorio /soft/FastQC/0.10 si queremos analizar el archivo mirnas.fastq haremos:
/soft/FastQC/0.10.0/fastqcmirnas.fastq
Cuestiones
Antes de proceder a revisar el informe obtenido con los datos del archivo bacteria.fastq es conveniente
leer la ayuda para la interpretacin de los resultados
(http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/)
Tambin podis consultar los ejemplos de salida para unos datos buenos y unos malos
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/good_sequence_short_fastqc/fastqc_report.html
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/bad_sequence_fastqc/fastqc_report.html
Una vez revisado lo anterior responder las cuestiones siguientes:
1. Como es en general la calidad de las secuencias?
2. Que aspecto tiene la calidad por posiciones de las secuencias (per base sequence quality)?
3. Que codificacin de calidad (quality encoding) presentan estas secuencias?
4. Se observa algn problema en la distribucin de longitudes de las secuencias?
5. Que nivel de duplicacin de secuencias aparece?
6. Aparecen secuencias sobrerrepresentadas?
FASTQ-to-FASTA converter
Convert FASTQ files to FASTA files.
FASTQ Information
Chart Quality Statistics and Nucleotide Distribution
FASTQ/A Collapser
Collapsing identical sequences in a FASTQ/A file into a single sequence (while maintaining
reads counts)
FASTQ/A Trimmer
Shortening reads in a FASTQ or FASTQ files (removing barcodes or noise).
FASTQ/A Renamer
Renames the sequence identifiers in FASTQ/A file.
FASTQ/A Clipper
Removing sequencing adapters / linkers
FASTQ/A Reverse-Complement
Producing the Reverse-complement of each sequence in a FASTQ/FASTA file.
FASTQ/A Barcode splitter
Splitting a FASTQ/FASTA files containning multiple samples
FASTA Formatter
changes the width of sequences line in a FASTA file
FASTA Nucleotide Changer
Convets FASTA sequences from/to RNA/DNA
FASTQ Quality Filter
Filters sequences based on quality
FASTQ Quality Trimmer
Trims (cuts) sequences based on quality
FASTQ Masker
Masks nucleotides with 'N' (or other character) based on quality
Como puede verse algunas funciones sirven para manipular o reformatear secuencias mientras que
otras estn claramente orientadas a modificar las secuencias eliminando posibles fuentes de error.
Estas herramientas pueden usarse de dos formas
1. Desde lnea de comandos ejecutando el programa directamente o como parte de un script.
2. A travs de una plataforma integrada como Galaxy (una versin de prueba se encuentra
disponible en: http://test.g2.bx.psu.edu/
La invocacin a todos los comandos aade el sufijo -Q 33 para evitar un error debido a las secuencias con valores de
calidad demasiado bajos. De no ponerse aparece el mensaje
Invalidqualityscorevalue(char'0'ord48qualityvalue16)online4
Incorpora de entrada una serie de herramientas para el manejo y anlisis de datos de secuencias
que permiten llevar a cabo de forma intuitiva los procesos habituales en el anlisis de
secuencias.
Es extensible: permite incorporar casi cualquier herramienta que se pueda ejecutar desde la
lnea de comandos en una interfaz grfica slida y bien definida. Este es el caso de fastx-toolkit
que tambien puede utilizarse desde Galaxy.
La columna central es donde aparecen los mens y los datos a medida que se realizan acciones
y procesos.
Para datos de NGS y otros archivos de gran tamao (> ~ 2GB) la carga a travs de HTTP / FTP
es el mtodo ms fiable.
10
Seleccione:
5. Otras opciones
Investigar libremente que otras opciones existen para mejorar las secuencias iterando el
proceso de mejora/anlisis hasta obtener un conjunto de datos satisfactorio.
11
12
13
14
15